図面 (/)

技術 用語意味コード判定装置、方法、及びプログラム

出願人 日本電信電話株式会社
発明者 藤野昭典鈴木潤平尾努
出願日 2015年7月9日 (5年11ヶ月経過) 出願番号 2015-137799
公開日 2017年1月26日 (4年4ヶ月経過) 公開番号 2017-021523
状態 特許登録済
技術分野 検索装置 機械翻訳
主要キーワード コード判定処理 判別ルール 医療文書 訓練データ集合 基本テーブル 機械学習技術 スコア関数 ICDコード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年1月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

用語の意味コードを精度よく判定することができるようにする。

解決手段

用語特徴ベクトル生成部22が、用語の文字列から、用語特徴ベクトルを生成する。用語意確率計算部24が、生成された用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する。文脈特徴ベクトル生成部26が、用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する。文脈意味確率計算部28が、生成された文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する。意味コード判定部30が、用語意味確率計算部24によって計算された各意味コードに対する用語意味確率、及び文脈意味確率計算部28によって計算された各意味コードに対する文脈意味確率に基づいて、用語の意味コードを判定する。

概要

背景

用語には、ひらがな、カタカナ漢字などの異なる文字を用いた表記や、略語や省略などのような表記揺れがある。また、同義語類義語などのように同じ意味を表すが異なる表現の用語がある。このような異なる表記、表現の用語に同じ意味であることを表す意味コードを付与する問題に対して、非特許文献1に記載されている、用語の文字列に含まれる部分文字列から、各部分文字列の有無または個数を表す特徴ベクトルを生成し、教師あり学習技術を用いて生成した判定ルールをもとに用語の意味コードを推定する技術を利用できる。また、非特許文献2に記載されている、用語のペアが同義語であるかどうかを文脈類似度と表記類似度を用いて推定する技術を利用することができる。あるいは、非特許文献3に記載されている、実際の文書一緒に用いられる単語の情報をもとに用語を分類する技術を利用することができる。

概要

用語の意味コードを精度よく判定することができるようにする。用語特徴ベクトル生成部22が、用語の文字列から、用語特徴ベクトルを生成する。用語意確率計算部24が、生成された用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する。文脈特徴ベクトル生成部26が、用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する。文脈意味確率計算部28が、生成された文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する。意味コード判定部30が、用語意味確率計算部24によって計算された各意味コードに対する用語意味確率、及び文脈意味確率計算部28によって計算された各意味コードに対する文脈意味確率に基づいて、用語の意味コードを判定する。

目的

本発明が解決しようとする課題は、事前人手で定義されている意味コードを専門用語に付与する問題において、非常に多数の意味コードの候補の中から、各用語に最も適した意味コードを1つ選択することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力されたテキスト中における用語に対して、意味コードを判定する用語意コード判定装置であって、前記用語の文字列から、用語特徴ベクトルを生成する用語特徴ベクトル生成部と、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する用語意味確率計算部と、前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する文脈特徴ベクトル生成部と、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する文脈意味確率計算部と、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定する意味コード判定部と、を含む用語意味コード判定装置。

請求項2

前記用語意味確率計算部は、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルと、前記用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための予め学習された用語意味確率モデルとに基づいて、各意味コードに対する用語意味確率を計算し、前記文脈意味確率計算部は、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルと、前記文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する請求項1記載の用語意味コード判定装置。

請求項3

意味コードが予め付与された複数の用語の文字列の各々について生成された前記用語特徴ベクトルと、前記複数の用語の文字列の各々に付与された意味コードとに基づいて、前記用語意味確率モデルを学習する用語意味確率モデル生成部と、意味コードが予め付与された、用語の前後に記述される文字列の各々について、前記用語の前後に記述される文字列から生成された前記文脈特徴ベクトルと、前記用語の前後に記述される文字列の各々に付与された意味コードとに基づいて、前記文脈意味確率モデルを学習する文脈意味確率モデル生成部とを更に含む請求項2記載の用語意味コード判定装置。

請求項4

前記用語特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、文字の種類及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成する請求項1〜請求項3の何れか1項に記載の用語意味コード判定装置。

請求項5

用語特徴ベクトル生成部、用語意味確率計算部、文脈特徴ベクトル生成部、文脈意味確率計算部、及び意味コード判定部を含み、入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置における用語意味コード判定方法であって、前記用語特徴ベクトル生成部が、前記用語の文字列から、用語特徴ベクトルを生成するステップと、前記用語意味確率計算部が、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算するステップと、前記文脈特徴ベクトル生成部が、前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成するステップと、前記文脈意味確率計算部が、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算するステップと、前記意味コード判定部が、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定するステップと、を含む用語意味コード判定方法。

請求項6

前記用語特徴ベクトル生成部が用語特徴ベクトルを生成するステップは、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、文字の種類及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成する請求項5に記載の用語意味コード判定方法。

請求項7

コンピュータを、請求項1〜請求項4のいずれか1項に記載の用語意味コード判定装置を構成する各部として機能させるためのプログラム

技術分野

0001

本発明は、用語意コード判定装置、方法、及びプログラム係り、特に、用語に対する意味コードを判定するための用語意味コード判定装置、方法、及びプログラムに関する。

背景技術

0002

用語には、ひらがな、カタカナ漢字などの異なる文字を用いた表記や、略語や省略などのような表記揺れがある。また、同義語類義語などのように同じ意味を表すが異なる表現の用語がある。このような異なる表記、表現の用語に同じ意味であることを表す意味コードを付与する問題に対して、非特許文献1に記載されている、用語の文字列に含まれる部分文字列から、各部分文字列の有無または個数を表す特徴ベクトルを生成し、教師あり学習技術を用いて生成した判定ルールをもとに用語の意味コードを推定する技術を利用できる。また、非特許文献2に記載されている、用語のペアが同義語であるかどうかを文脈類似度と表記類似度を用いて推定する技術を利用することができる。あるいは、非特許文献3に記載されている、実際の文書一緒に用いられる単語の情報をもとに用語を分類する技術を利用することができる。

先行技術

0003

Akinori Fujino, Jun Suzuki, Tsutomu Hirao,Hisashi Kurasawa,Katsuyoshi Hayashi,“SCT-D3 at theNTCIR-11 MedNLP-2 Task”,Proceedings of the 11th NTCIR Conference, December 9-12, 2014, Tokyo, Japan
森本康嗣,井孝介, 岩山真,「文脈類似度と表記類似度を用いた教師あり同義語抽出.」,言語処理学会第16 回年次大会発表論文集, p.974−977 (2010).
荒牧英治, 今井健, 梶野正幸, 美代賢吾, 大江和彦,「医学辞書を用いた用語間関係自動抽出手法と用語の自動分類手法に関する研究」,医療情報学, Vol.25, No.6,p.463-474, 2006.

発明が解決しようとする課題

0004

本発明が解決しようとする課題は、事前人手で定義されている意味コードを専門用語に付与する問題において、非常に多数の意味コードの候補の中から、各用語に最も適した意味コードを1つ選択することである。

0005

一般の単語と異なり、正確に内容を伝達するために、大部分の専門用語には専門分野ごとにそれぞれ唯一の意味が定義されている、と考えられる。その一方で、実際の文書では、文脈から明らかに判断できる場合、専門用語を省略して記載することも多い。

0006

例えば、「の上部に癌がみられる」という場合、「胃癌」ではなく「癌」と省略して記載しても人間は正確に文意を理解できる。しかし、コンピュータが「癌」の用語に意味コードを付与する場合、「癌」には部位に応じて異なる意味コードが定義されているため、該当する意味コードの中から最適な候補を選択する必要が生じる。

0007

したがって、文書に含まれる専門用語に意味コードを付与する問題は、専門用語に唯一の意味が定義されているという仮定のもとで、同じ意味をもつが異なる表記、表現で書かれた用語に同じ意味コードを付与すること、および、専門用語が省略して記載されることで生じる複数の意味コードの候補の中から最適な意味コードを選択して付与することに相当する。

0008

従来の技術では、上記非特許文献2のように、2つの用語が同じ意味をもつかどうかを推定するか、上記非特許文献3のように、クラスタリング技術を利用して用語の集合を類似の意味をもつ用語に分けることが行われている。

0009

本発明が解決しようとする課題に上記非特許文献2の技術を適用する場合、例えば、意味コードごとに用語例を1つ選択し、意味コードを付与したい用語がどの用語例に近いかを該当技術で調べることで意味コードを推定することができる。
しかし、この方法では、用語例の選択の仕方に意味コードの推定精度が大きく影響される可能性がある。

0010

一方、本発明が解決しようとする課題に上記非特許文献3の技術を用いる場合、クラスタリング技術で機械的に分類された用語の集合と、人手で定義された意味コードとを一対一対応付けることは容易ではない。

0011

上記非特許文献1の技術を用いる場合、あらかじめ教師あり学習を用いて生成した判定ルールを用いて、非常に多数の意味コードの候補の中から各用語に最も適した意味コードを1つ選択することができる。

0012

しかし、この技術では、文字列が同一の用語に対して、用語が含まれる文書の内容や文脈によらずにすべて同一の意味コードを付与する。例えば「癌」の用語にはある特定の意味コードを必ず選択し、文脈に応じて異なる意味コードを付与することができない。実際の文書に記述された専門用語に対して付与すべき意味コードを推定する問題に対して、高い推定精度を達成する手法を開発することが課題である。

0013

本発明は、上記問題点を解決するために成されたものであり、用語の意味コードを精度よく判定するための用語意味コード判定装置、方法、及びプログラムを提供することを目的とする。

課題を解決するための手段

0014

上記目的を達成するために、第1の発明に係る用語意味コード判定装置は、入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置であって、前記用語の文字列から、用語特徴ベクトルを生成する用語特徴ベクトル生成部と、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する用語意味確率計算部と、前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する文脈特徴ベクトル生成部と、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算する文脈意味確率計算部と、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定する意味コード判定部と、を含んで構成されている。

0015

また、第1の発明に係る用語意味コード判定装置において、前記用語意味確率計算部は、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルと、前記用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための予め学習された用語意味確率モデルとに基づいて、各意味コードに対する用語意味確率を計算し、前記文脈意味確率計算部は、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルと、前記文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算するようにしてもよい。

0016

また、第1の発明に係る用語意味コード判定装置において、意味コードが予め付与された複数の用語の文字列の各々について生成された前記用語特徴ベクトルと、前記複数の用語の文字列の各々に付与された意味コードとに基づいて、前記用語意味確率モデルを学習する用語意味確率モデル生成部と、意味コードが予め付与された、用語の前後に記述される文字列の各々について、前記用語の前後に記述される文字列から生成された前記文脈特徴ベクトルと、前記用語の前後に記述される文字列の各々に付与された意味コードとに基づいて、前記文脈意味確率モデルを学習する文脈意味確率モデル生成部とを更に含むようにしてもよい。

0017

また、第1の発明に係る用語意味コード判定装置において、前記用語特徴ベクトル生成部は、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、文字の種類及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成するようにしてもよい。

0018

第2の発明に係る用語意味コード判定方法は、用語特徴ベクトル生成部、用語意味確率計算部、文脈特徴ベクトル生成部、文脈意味確率計算部、及び意味コード判定部を含み、入力されたテキスト中における用語に対して、意味コードを判定する用語意味コード判定装置における用語意味コード判定方法であって、前記用語特徴ベクトル生成部が、前記用語の文字列から、用語特徴ベクトルを生成するステップと、前記用語意味確率計算部が、前記用語特徴ベクトル生成部によって生成された前記用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算するステップと、前記文脈特徴ベクトル生成部が、前記用語の前後に記述されている文字列から、文脈特徴ベクトルを生成するステップと、前記文脈意味確率計算部が、前記文脈特徴ベクトル生成部によって生成された前記文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算するステップと、前記意味コード判定部が、前記用語意味確率計算部によって計算された各意味コードに対する用語意味確率、及び前記文脈意味確率計算部によって計算された各意味コードに対する文脈意味確率に基づいて、前記用語の意味コードを判定するステップと、を含む。

0019

また、第2の発明に係る用語意味コード判定方法において、前記用語特徴ベクトル生成部が用語特徴ベクトルを生成するステップは、前記用語について、前記用語に含まれる文字、及び前記用語の文字列に含まれる部分文字列から、各部分文字列の有無又は個数と、文字の種類及び該文字の前又は後の文字との各組み合わせの有無又は個数と、を表す前記用語特徴ベクトルを生成するようにしてもよい。

0020

第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る用語意味コード判定装置を構成する各部として機能させるためのプログラムである。

発明の効果

0021

本発明の用語意味コード判定装置、方法、及びプログラムによれば、用語の文字列から生成された用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算し、用語の前後に記述されている文字列から生成された文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算し、各意味コードに対する用語意味確率、及び各意味コードに対する文脈意味確率に基づいて、用語の意味コードを判定することにより、用語の意味コードを精度よく判定するができる、という効果が得られる。

図面の簡単な説明

0022

本発明の実施の形態に係る用語意味コード判定装置の機能的構成を示すブロック図である。
特徴量のインデックスを示す概念図である。
特徴量のインデックスを示す概念図である。
本発明の実施の形態に係る用語意味コード判定装置の確率モデル生成部32の詳細な構成例を示すブロック図である。
本発明の実施の形態に係る用語意味コード判定装置における用語意味確率モデル生成処理ルーチンフローチャート図である。
本発明の実施の形態に係る用語意味コード判定装置における文脈意味確率モデル生成処理ルーチンのフローチャート図である。
本発明の実施の形態に係る用語意味コード判定装置における意味コード判定処理ルーチンのフローチャート図である。

実施例

0023

以下、図面を参照して本発明の実施の形態を詳細に説明する。

0024

<本発明の実施の形態に係る用語意味コード判定装置の構成>

0025

まず、本発明の実施の形態に係る用語意味コード判定装置の構成について説明する。

0026

図1に示すように、本発明の実施の形態に係る用語意味コード判定装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この用語意味コード判定装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40を備えている。本発明の実施の形態に係る用語意味コード判定装置100は、入力されたテキスト中における用語に対して、意味コードを判定する。

0027

また、本発明の実施の形態は、電子カルテ文書、医療文書技術文書などの専門文書の内容を機械的に解析したり、特定の内容を含む専門文書を検索することを可能にするために、文書に出現する医療用語技術用語などの専門用語に対して、意味やカテゴリを表すコードを機械的に付与する技術に関する。

0028

入力部10は、テキスト入力部11と、用語入力部12と、文脈入力部14と、訓練データ入力部16とを備えている。

0029

テキスト入力部11は、意味コードを推定する対象である用語を含むテキスト受け付ける。そして、テキスト入力部11は、受け付けたテキスト中における、意味コード推定対象の用語と、当該用語の前後に記述されている文字列とを出力する。

0030

用語入力部12は、テキスト入力部11によって出力された、意味コード推定対象の用語の文字列を受け付ける。用語入力部12は、意味コードを推定する対象である用語を入力する際のインターフェースとなる。

0031

文脈入力部14は、テキスト入力部11によって出力された、意味コード推定対象の用語の前後に記述されている文字列を受け付ける。文脈入力部14は、用語の前後に記述されている文字列を入力する際のインターフェースとなる。

0032

訓練データ入力部16は、意味コードが予め付与された用語の文字列と、意味コードが予め付与された、用語の前後に記述される文字列とを、訓練データとして受け付ける。意味コードが予め付与された用語の文字列は、用語の文字列と意味コードとの組を表す訓練データである。また、意味コードが予め付与された、用語の前後に記述される文字列は、文脈を表す文字列と意味コードとの組を表す訓練データである。訓練データは、後述する確率モデル生成部32によって用いられる。

0033

演算部20は、用語特徴ベクトル生成部22と、用語意味確率計算部24と、文脈特徴ベクトル生成部26と、文脈意味確率計算部28と、意味コード判定部30と、確率モデル生成部32とを備えている。

0034

用語特徴ベクトル生成部22は、用語入力部12によって受け付けられた用語の文字列から、用語特徴ベクトルを生成する。

0035

例えば、用語特徴ベクトル生成部22は、用語入力部12によって受け付けられた用語について、当該用語に含まれる文字、及び当該用語の文字列に含まれる部分文字列から、各部分文字列の個数を表す用語特徴ベクトルを生成する。なお、各部分文字列の有無を表す特徴ベクトルを生成してもよい。

0036

例えば、用語特徴ベクトル生成部22は、各部分文字列の個数を表す用語特徴ベクトルとして、文字ベースのuni‐gram,bi‐gram,tri‐gramなど、用語を構成する文字列を特徴量とし、用語に含まれる各特徴量の個数を表す用語特徴ベクトルを生成する。

0037

また、用語特徴ベクトル生成部22は、文字の種類及び該文字の前又は後の文字との各組み合わせの個数を追加で用いて用語特徴ベクトルを生成してもよい。なお、文字の種類及び該文字の前又は後の文字との各組み合わせの有無を表す特徴ベクトルを生成してもよい。

0038

例えば、用語特徴ベクトル生成部22は、文字の種類及び該文字の前又は後の文字との各組み合わせとして、ひらがな、カタカナ、アルファベットなど、用語に含まれる文字の種類とその前後の文字の組み合わせで定義される特徴量を追加で用いてもよい。

0039

図2及び図3に、用語から生成される用語特徴ベクトルを説明するための図を示す。

0040

例えば、「ピロリ菌」という用語に含まれる文字列の特徴量のインデックスが、図2に示すようなものであるとする。「_」が先頭に付いているものは用語を構成する部分文字列の先端を表し、末尾に付いているものは用語を構成する部分文字列の終端を表す。

0041

また、カタカナをTk、漢字をTcで表し、「ピロリ菌」という用語に含まれる文字の種類と前後の文字の組合せのインデックスが、図3に示すようなものであるとする。

0042

このとき、用語「ピロリ菌」は、i∈{u1,u2,u3,u4,b1,b2,b3,b4,b5,t1,t2,t3,t4,c1,c2,c3,c4,c5,c6,c7,c8}のときにxi=1、iがそれ以外の文字列の特徴量のときにxi=0の要素からなる用語特徴ベクトルxs=(x1,...,xi,...,xI)で表すことができる。

0043

用語意味確率計算部24は、用語特徴ベクトル生成部22によって生成された用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する。

0044

具体的には、用語意味確率計算部24は、用語特徴ベクトル生成部22によって生成された用語特徴ベクトルと、当該用語特徴ベクトルから各意味コードに対する用語意味確率を計算するための予め学習された用語意味確率モデルとに基づいて、各意味コードに対する用語意味確率を計算する。用語意味確率モデルは、後述する確率モデル生成部32によって予め生成される。

0045

用語意味確率の計算には、例えば、統計的機械学習技術一種であるサポートベクトルマシンSVM)、あるいはロジスティック回帰モデルのような2値分類器に基づいて生成される用語意味確率モデルを用いることで実現できる。これらの技術では、用語特徴ベクトルxsで表される用語が意味コードkに関連する度合を表すスコア関数fks(xs;wks)を定義し、スコア関数のモデルパラメータwksの値を事前に機械的に学習しておく。用語意味確率モデルのモデルパラメータwksの値は、後述する確率モデル生成部32によって予め学習される。

0046

そして、意味コードを判定したい用語の用語特徴ベクトルx(m)sに対して、意味コードkごとに用語意味確率を

0047

0048

のように算出する。ここで、rkは、rk=+1の場合に意味コードkに関連することを表し、rk=−1の場合に意味コードkに関連しないことを表す2値変数である。

0049

文脈特徴ベクトル生成部26は、文脈入力部14によって受け付けられた、用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する。

0050

例えば、文脈特徴ベクトル生成部26は、用語特徴ベクトル生成部22と同様に、用語の前後に記述されている文字列の各部分文字列の個数を表す特徴ベクトルとして、uni‐gram,bi‐gram,tri‐gramなど、当該文字列を構成する部分文字列を特徴量とし、当該文字列に含まれる各特徴量の個数を表す文脈特徴ベクトルを生成する。

0051

文脈意味確率計算部28は、文脈特徴ベクトル生成部26によって生成された文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する。
具体的には、文脈意味確率計算部28は、文脈特徴ベクトル生成部26によって生成された文脈特徴ベクトルと、文脈特徴ベクトルから各意味コードに対する文脈意味確率を計算するための予め学習された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する。文脈意味確率モデルは、後述する確率モデル生成部32によって予め生成される。

0052

文脈意味確率の計算においても、用語意味確率と同様に、例えば、サポートベクトルマシン(SVM)、あるいはロジスティック回帰モデルのような2値分類器を用いて、前後の文字列が文脈特徴ベクトルxcで表される用語が意味コードkに関連する度合を表すスコア関数fkc(xc;wkc)を定義し、スコア関数のモデルパラメータwkcの値を事前に機械的に学習しておく。文脈意味確率モデルのモデルパラメータwkcの値は、後述する確率モデル生成部32によって予め学習される。

0053

そして、意味コードを判定したい用語の文脈特徴ベクトルx(m)cに対して、意味コードkごとに文脈意味確率を

0054

0055

のように算出する。

0056

意味コード判定部30は、用語意味確率計算部24によって計算された各意味コードに対する用語意味確率、及び文脈意味確率計算部28によって計算された各意味コードに対する文脈意味確率に基づいて、当該用語の意味コードを判定する。

0057

具体的には、意味コード判定部30では、用語意味確率計算部24で算出した用語意味確率と、文脈意味確率計算部28で算出した文脈意味確率とを用いて、用語特徴ベクトルがx(m)sであり、文脈特徴ベクトルがx(m)cである用語x(m)=(x(m)s,x(m)c)に対して最も適した意味コードを1つ選択する。

0058

例えば、以下の式(1)で表されるスコア関数Score(k,x(m))の値が最大になるkを、当該用語に適した意味コードとして選択する。

0059

0060

なお、上記式(1)中のβは、用語意味確率と文脈意味確率との間に重みを与えるパラメータであり、装置の設計者が事前にβの値を調整する。

0061

確率モデル生成部32は、訓練データ入力部16によって受け付けた訓練データの集合に基づいて、用語意味確率モデルと文脈意味確率モデルとを学習する。

0062

確率モデル生成部32は、図4に示すように、訓練データ集合データベース320と、用語特徴ベクトル生成部322と、用語意味確率モデル生成部324と、用語意味確率モデル記憶部326と、文脈特徴ベクトル生成部328と、文脈意味確率モデル生成部330と、文脈意味確率モデル記憶部332とを備えている。

0063

訓練データ集合データベース320には、訓練データ入力部16によって受け付けられた訓練データの集合が格納される。訓練データは、人手で意味コードを付与した実際の文書から抽出した用語の他に、意味コードを定義する辞書に記載されている用語や、同義語・類義語の関係が記載されている任意の辞書から抽出した用語を加えてもよい。

0064

なお、辞書から抽出した用語を用いる場合、用語の文字列と意味コードの組が訓練データ集合データベース320に格納される。任意の辞書に含まれている用語には、通常、意味コードが付与されていないため、意味コードを定義するのに用いられている用語と、辞書に記載の同義語・類義語の関係とを利用して意味コードを付与する。

0065

例えば、意味コードを定義するのに用いられている用語と同義語・類義語の関係にある用語に対して同一の意味コードを付与する。また、意味コードの定義を説明している定義文を、文脈を表す文字列と意味コードとの組として、訓練データ集合データベース320に加えてもよい。

0066

用語特徴ベクトル生成部322は、訓練データ集合データベース320に格納された複数の訓練データの各々について、用語特徴ベクトル生成部22と同様に、当該訓練データに含まれる用語の文字列について用語特徴ベクトルを生成する。

0067

用語意味確率モデル生成部324は、訓練データ集合データベース320に格納された複数の訓練データの各々に対する、用語特徴ベクトル生成部322によって生成された用語特徴ベクトルと、当該訓練データに含まれる意味コードとに基づいて、用語意味確率モデルを学習する。

0068

具体的には、用語意味確率モデル生成部324は、用語特徴ベクトルと意味コードとの組から構成されるデータ集合を用いて、任意の用語特徴ベクトルx(m)sの用語意味確率

0069

0070

を算出するためのモデルパラメータwksの値を計算することで用語意味確率モデルを生成し、用語意味確率モデル記憶部326に格納する。

0071

用語意味確率モデル記憶部326には、用語意味確率モデル生成部324によって生成された用語意味確率モデルが格納される。

0072

文脈特徴ベクトル生成部328は、訓練データ集合データベース320に格納された複数の訓練データの各々について、文脈特徴ベクトル生成部26と同様に、当該訓練データに含まれる、用語の前後に記述される文字列について文脈特徴ベクトルを生成する。

0073

文脈意味確率モデル生成部330は、訓練データ集合データベース320に格納された複数の訓練データの各々に対する、文脈特徴ベクトル生成部328によって生成された文脈特徴ベクトルと、当該訓練データに含まれる意味コードとに基づいて、文脈意味確率モデルを学習する。

0074

具体的には、文脈意味確率モデル生成部330は、文脈特徴ベクトルと意味コードとの組から構成されるデータ集合を用いて、任意の文脈特徴ベクトルx(m)cの文脈意味確率

0075

0076

を算出するためのモデルパラメータwkcの値を計算することで文脈意味確率モデルを生成し、文脈意味確率モデル記憶部332に格納する。

0077

文脈意味確率モデル記憶部332には、文脈意味確率モデル生成部330によって生成された文脈意味確率モデルが格納される。

0078

出力部40は、意味コード判定部30によって判定された、当該用語の意味コードを結果として出力する。出力部40は、意味コードの判定結果を表示、保存する際のインターフェースとなる。

0079

<本発明の実施の形態に係る用語意味コード判定装置の作用>

0080

次に、本発明の実施の形態に係る用語意味コード判定装置100の作用について説明する。訓練データの集合が用語意味コード判定装置100に入力されると、訓練データ入力部16によって訓練データの集合を受け付け、訓練データ集合データベース320に格納される。そして、用語意味コード判定装置100は、図5に示す用語意味確率モデル生成処理ルーチンと、図6に示す文脈意味確率モデル生成処理ルーチンとを実行する。

0081

<用語意味確率モデル生成処理ルーチン>
ステップS100において、用語特徴ベクトル生成部322は、訓練データ集合データベース320に格納されている訓練データの集合のうち、意味コードと用語の文字列との組である訓練データの各々を取得する。

0082

次に、ステップS102において、用語特徴ベクトル生成部322は、上記ステップS100で取得した複数の訓練データの各々について、当該訓練データに含まれる用語の文字列について用語特徴ベクトルを生成する。

0083

ステップS104において、用語意味確率モデル生成部324は、上記ステップS102で生成された用語特徴ベクトルの各々と、訓練データに含まれる意味コードの各々とに基づいて、用語意味確率モデルを生成し、用語意味確率モデル記憶部326に記憶して、用語意味確率モデル生成処理ルーチンを終了する。

0084

<文脈意味確率モデル生成処理ルーチン>
ステップS200において、文脈特徴ベクトル生成部328は、訓練データ集合データベース320に格納されている訓練データの集合のうち、意味コードと、用語の前後に記述される文字列との組である訓練データの各々を取得する。

0085

ステップS202において、文脈特徴ベクトル生成部328は、上記ステップS200で取得した複数の訓練データの各々について、当該訓練データに含まれる、用語の前後に記述される文字列について文脈特徴ベクトルを生成する。

0086

ステップS204において、文脈意味確率モデル生成部330は、上記ステップS202で生成された文脈特徴ベクトルの各々と、訓練データに含まれる意味コードの各々とに基づいて、文脈意味確率モデルを生成し、文脈意味確率モデル記憶部332に記憶して、文脈意味確率モデル生成処理ルーチンを終了する。

0087

用語意味確率モデルが用語意味確率モデル記憶部326に格納され、文脈意味確率モデルが文脈意味確率モデル記憶部332に格納され、意味コードを推定する対象である用語を含むテキストが用語意味コード判定装置100に入力されると、用語意味コード判定装置100は、図7に示す意味コード判定処理ルーチンを実行する。

0088

まず、テキスト入力部11が、意味コードを推定する対象である用語を含むテキストを受け付ける。そして、受け付けたテキスト中における、意味コード推定対象の用語と、当該用語の前後に記述されている文字列とがテキスト入力部11によって出力されると、用語意味コード判定装置100は、図7に示す意味コード判定処理ルーチンを実行する。

0089

ステップS300において、用語入力部12は、テキスト入力部11によって出力された、意味コード推定対象の用語の文字列を受け付ける。また、文脈入力部14は、テキスト入力部11によって出力された、意味コード推定対象の用語の前後に記述されている文字列を受け付ける。

0090

ステップS302において、用語特徴ベクトル生成部22は、上記ステップS300で受け付けられた用語の文字列から、用語特徴ベクトルを生成する。

0091

ステップS304において、用語意味確率計算部24は、上記ステップS302で生成された用語特徴ベクトルと、用語意味確率モデル記憶部326に格納された用語意味確率モデルとに基づいて、各意味コードに対する適合度を表す用語意味確率を計算する。

0092

ステップS306において、文脈特徴ベクトル生成部26は、上記ステップS300で受け付けられた、用語の前後に記述されている文字列から、文脈特徴ベクトルを生成する。

0093

ステップS308において、文脈意味確率計算部28は、上記ステップS306で生成された文脈特徴ベクトルと、文脈意味確率モデル記憶部332に格納された文脈意味確率モデルとに基づいて、各意味コードに対する文脈意味確率を計算する。

0094

ステップS310において、意味コード判定部30は、上記ステップS304で計算された各意味コードに対する用語意味確率、及び上記ステップS308で計算された各意味コードに対する文脈意味確率に基づいて、当該用語の意味コードを判定する。

0095

ステップS312において、意味コード判定部30によって判定された、当該用語の意味コードを結果として出力して、意味コード判定処理ルーチンを終了する。

0096

以上説明したように、本発明の実施の形態に係る用語意味コード判定装置によれば、用語の文字列から生成された用語特徴ベクトルに基づいて、各意味コードに対する適合度を表す用語意味確率を計算し、用語の前後に記述されている文字列から生成された文脈特徴ベクトルに基づいて、各意味コードに対する適合度を表す文脈意味確率を計算し、各意味コードに対する用語意味確率、及び各意味コードに対する文脈意味確率に基づいて、用語の意味コードを判定することにより、用語の意味コードを精度よく判定するができる。

0097

また、本発明の実施の形態に係る用語意味コード判定装置によれば、意味コードが予め付与された複数の用語の文字列の各々について生成された用語特徴ベクトルと、複数の用語の文字列の各々に付与された意味コードとに基づいて、用語意味確率モデルを学習し、意味コードが予め付与された、用語の前後に記述される文字列の各々について、用語の前後に記述される文字列から生成された文脈特徴ベクトルと、用語の前後に記述される文字列の各々に付与された意味コードとに基づいて、文脈意味確率モデルを学習することにより、用語の意味コードを精度よく判定するための確率モデルを得ることができる。

0098

また、本実施の形態では、用語を表す用語特徴ベクトルと、用語が含まれる文書の文脈を表す文脈特徴ベクトルとから意味コードを推定するための判別ルールを統計的機械学習技術で獲得し、特徴ベクトルと意味コードの対応関係を明示的に与える。この対応関係を用いることで、学習に用いるデータに同一の用語が含まれない場合でも用語の意味コードを推定するとともに、同一の文字列で表現される用語に対して文脈に応じて異なる意味コードを付与することを可能にする。

0099

また、人手で意味コードを付与した実際の文書から抽出した用語を学習に用いることで、実際によく行われる方法で省略された用語や、意味コードの定義に用いられた用語例と大きく異なる用語に対して意味コードの推定精度を高めるとともに、用語の前後に出現する文字列を学習することで異なる文脈で用いられる用語の省略形に対する意味コードの推定精度を高めることが期待できる。

0100

また、同義語・類義語の関係が記載されている辞書から抽出した用語を学習に利用することで、異なる言語やアルファベットによる略記などを含む異表記で書かれた用語に対して意味コードの推定精度を高めることが期待できる。

0101

さらに、意味コードの定義文を文脈の学習に利用することで、意味コードを説明するのに用いられる関連語が実際の文書で該当の用語の前後で用いられている場合に意味コードの推定精度を高めることが期待できる。

0102

実験例>

0103

次に、国立情報学研究所(NII)主催の評価型ワークショップNTCIR−11のMedNLP2タスク(http://mednlp.jp/ntcir11/)で配布された疑似医療文書のベンチマークセットに、本発明の実施の形態に係る用語意味コード判定装置を適用した場合の結果を示す。

0104

疑似医療文書のベンチマークセットには、訓練データとテストデータが含まれており、それぞれのデータには、病名・症状を表す用語にICDコードが付与された疑似医療文書が含まれている。ICDコードは、病態管理および情報共有のためのコードであり、医療用語の標準化のために開発されたコードである。ICDコードを利用することで、様々な省略形や漢字かな表記の違いなど、同一の意味をもつ異表現の用語を把握、管理することができる。ICD10対応標準病名マスター(http://www2.medis.or.jp/stdcd/byomei/)には5000種類以上のICDコードが定義されている。

0105

性能評価では、ICDコードを意味コードとし、疑似医療文書に含まれる病名・症状を表す用語にICDコードを付与する問題に適用した場合に得られる精度を調べた。上記実施の形態の用語意味確率計算部24で確率値を算出するための用語意味確率モデルを、ロジスティック回帰モデルを用いて設計し、ベンチマークセットの訓練データに含まれる用語とICD10対応標準病名マスターに含まれる病名基本テーブルに含まれる用語を訓練データ集合データベース320に格納した。また、ICD10対応標準病名マスターの検索テーブルに含まれる用語も訓練データ集合データベース320に格納した。ICD10対応標準病名マスターの病名基本テーブルに含まれる用語と同義類義の用語に該当ICDコードを付与した。さらに、ライフサイエンス辞書(LSD,http://lsd.pharm.kyoto-u.ac.jp/ja/index.html)、T辞書(http://www.tdic.co.jp/)、UMLSメタシソーラス(http://www.nlm.nih.gov/research/umls/) から取り出した辞書MedDRAから、ICD10対応標準病名マスターに含まれる用語と同義・類義の用語を抽出し、該当ICDコードを付与して訓練データ集合データベース320に格納した。

0106

文脈意味確率計算部28で確率値を算出するための文脈意味確率モデルもロジスティック回帰モデルを用いて設計し、ベンチマークセットの訓練データ中に出現する用語を含む行に記載されている文字列のすべてを、用語の前後に記述される文字列として訓練データ集合データベース320に格納した。また、ICD10国際疾病分類第10版(http://www.dis.h.u-tokyo.ac.jp/byomei/icd10/)に記載されている各ICDコードの分類見出しを文脈意味確率モデルのモデルパラメータの値を推定するのに用いるため、分類見出しの文字列と対応するICDコードの組も訓練データ集合データベース320に格納した。

0107

表1は、上記の手法で判定ルールを生成して、ベンチマークセットのテストデータに含まれる2134個の病名・症状用語に適用した場合の意味コードの正解率と、正しく意味コードが推定された用語の個数(正解数)を表す。表には意味コード判定部による推定結果の正解率の他に、用語意味確率を最大にする意味コードを選択した場合の正解率を用語意味確率計算部の欄に、文脈意味確率を最大にする意味コードを選択した場合の正解率を文脈意味確率計算部の欄にあわせて記す。表より、用語の文字列に含まれる部分文字列から算出する用語意味確率と、用語の前後に記載されている文字列から算出する文脈意味確
率と、を組み合わせて用いることで意味コードの推定精度が向上することがわかる。

0108

0109

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0110

例えば、本実施の形態では、用語の意味コードを判定する処理と、用語意味確率モデル及び文脈意味確率モデルを生成する処理とを、1つの装置で行う場合を例に説明したが、意味コードを判定する処理と、用語意味確率モデル及び文脈意味確率モデルを生成する処理とを、別々の装置で実行してもよい。その場合には、用語の意味コードを判定する用語意味コード判定装置は、用語特徴ベクトル生成部22と、用語意味確率計算部24と、文脈特徴ベクトル生成部26と、文脈意味確率計算部28と、意味コード判定部30とを含んで構成され、用語意味確率モデル及び文脈意味確率モデルを生成する確率モデル生成装置は、確率モデル生成部32を含んで構成される。

0111

また、本実施の形態では、意味コードが予め付与された用語の文字列と、意味コードが予め付与された、用語の前後に記述される文字列とを、訓練データとして用いる場合を例に説明したが、これに限定されるものではなく、用語の文字列と用語の前後に記述される文字列と意味コードとの組み合わせを表すデータを訓練データとして用いてもよい。

0112

また、上述の用語意味コード判定装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。

0113

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。

0114

10 入力部
11テキスト入力部
12 用語入力部
14文脈入力部
16訓練データ入力部
20演算部
22 用語特徴ベクトル生成部
26文脈特徴ベクトル生成部
24 用語意味確率計算部
28 文脈意味確率計算部
32確率モデル生成部
30 意味コード判定部
40 出力部
100 用語意味コード判定装置
320訓練データ集合データベース
322 用語特徴ベクトル生成部
324 用語意味確率モデル生成部
326 用語意味確率モデル記憶部
328 文脈特徴ベクトル生成部
330 文脈意味確率モデル生成部
332 文脈意味確率モデル記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ