図面 (/)
課題
解決手段
概要
背景
多くの語は、複数の意味(語義)を持ち、文脈に応じて異なる語義を取る。語義曖昧性解消技術とは、ある語が、対象文中でどのような語義を取っているのかを推定する技術であり、機械翻訳技術などにも利用できる。このような推定は、一般に文脈と語義とを結びつけるモデルを機械学習により生成し、これを用いて行う。その学習法としては、訓練データを用いない教師なし学習法(非特許文献1)や訓練データを用いる教師あり学習法があり、訓練データがある場合には一般に教師あり学習法の方が推定精度が高い。一般に、教師あり学習法では、良質の訓練データが多くあればあるほど高い推定精度が得られる。しかし、訓練データの人手による構築にはコストと時間がかかるため、大量の訓練データの構築は難しい。
訓練データを増やす方法として、例えば、Bootstrapping法が提案されている。Bootstrapping法は訓練データを自動的に増やす方法であり、まず、ラベル(語義)の付与された、種となる訓練データで学習してラベルなしデータのラベルを推定し、ある基準において最も信頼できるものをラベルありデータ(訓練データ)に追加する(非特許文献2、3)。ラベルなしデータのラベル推定を決定木で行う研究もある(非特許文献4)。
概要
文中の単語の文脈に合った語義の推定に用いるモデルの学習のための、良質の訓練データを自動的又は半自動的に獲得可能とする。本発明の訓練データ獲得装置は、文中の単語の、文脈に合った語義の推定に用いるモデルの学習のための訓練データを獲得する。データ抽出部は、任意の単語の或る語義について例文が入力され、自然言語を含む文章の集合であるコーパスから、前記例文を含む文章を抽出し、タグ付与部は、抽出された文章に、前記任意の単語の或る語義に対応する識別情報を付して訓練データとして出力する。
目的
効果
実績
- 技術文献被引用数
- 0件
- 牽制数
- 0件
この技術が所属する分野
(分野番号表示ON)※整理標準化データをもとに当社作成
請求項1
文中の単語の、文脈に合った語義の推定に用いるモデルの学習のための訓練データを獲得する訓練データ獲得装置であって、任意の単語の或る語義についての例文が入力され、自然言語を含む文章の集合であるコーパスから、前記例文を含む文章を抽出するデータ抽出部と、抽出された文章に、前記任意の単語の或る語義に対応する識別情報を付して訓練データとして出力するタグ付与部と、を備える訓練データ獲得装置。
請求項2
請求項1に記載の訓練データ獲得装置において、前記例文と前記データ抽出部で抽出された文章を、それぞれ形態素解析し、当該例文と形態素レベルで一致する文を含む文章に限り前記タグ付与部に入力するデータ選別部、を更に備えることを特徴とする訓練データ獲得装置。
請求項3
請求項2に記載の訓練データ獲得装置において、前記データ抽出部は、更に、前記コーパスから前記例文に類似する文を含む文章を抽出し、前記データ選別部は、更に、前記例文と前記任意の単語の活用形が異なる以外は形態素レベルで一致する文を含む文章を前記タグ付与部に入力することを特徴とする訓練データ獲得装置。
請求項4
請求項1乃至3のいずれかに記載の訓練データ獲得装置において、単語とその語義とその語義についての例文とを含む辞書が記憶された辞書記憶部と、前記任意の単語の或る語義についての例文を前記辞書から抽出して前記データ抽出部に入力する例文抽出部と、を更に備えることを特徴とする訓練データ獲得装置。
請求項5
文中の単語の、文脈に合った語義の推定に用いるモデルの学習のための訓練データを獲得する訓練データ獲得方法であって、任意の単語の或る語義についての例文が入力され、自然言語を含む文章の集合であるコーパスから、前記例文を含む文章を抽出するデータ抽出ステップと、抽出された文章に、前記任意の単語の或る語義に対応する識別情報を付して訓練データとして出力するタグ付与ステップと、を実行する訓練データ獲得方法。
請求項6
請求項5に記載の訓練データ獲得方法において、前記例文と前記データ抽出ステップで抽出された文章をそれぞれ形態素解析し、当該例文と形態素レベルで一致する文を含む文章に限り前記タグ付与部に入力するデータ選別ステップ、を更に実行することを特徴とする訓練データ獲得方法。
請求項7
請求項6に記載の訓練データ獲得方法において、前記データ抽出ステップは、更に、前記コーパスから前記例文に類似する文を含む文章を抽出し、前記データ選別ステップは、更に、前記例文と当該単語の活用形が異なる以外は形態素レベルで一致する文を含む文章を前記タグ付与部に入力することを特徴とする訓練データ獲得方法。
請求項8
請求項5乃至7のいずれかに記載の訓練データ獲得方法において、前記任意の単語の或る語義についての例文を、単語とその語義とその語義についての例文とを含む辞書から抽出して、前記データ抽出部に入力する例文抽出ステップと、を更に実行することを特徴とする訓練データ獲得方法。
請求項9
技術分野
0001
この発明は、自然言語解析技術に関し、特に学習器や半教師あり学習器で重要な訓練データを自動的又は半自動的に獲得する技術に関するものであり、語義曖昧性解消技術、あるいは、機械翻訳技術等に利用可能な訓練データ獲得装置、訓練データ獲得方法、及びそのプログラムに関する。
背景技術
0002
多くの語は、複数の意味(語義)を持ち、文脈に応じて異なる語義を取る。語義曖昧性解消技術とは、ある語が、対象文中でどのような語義を取っているのかを推定する技術であり、機械翻訳技術などにも利用できる。このような推定は、一般に文脈と語義とを結びつけるモデルを機械学習により生成し、これを用いて行う。その学習法としては、訓練データを用いない教師なし学習法(非特許文献1)や訓練データを用いる教師あり学習法があり、訓練データがある場合には一般に教師あり学習法の方が推定精度が高い。一般に、教師あり学習法では、良質の訓練データが多くあればあるほど高い推定精度が得られる。しかし、訓練データの人手による構築にはコストと時間がかかるため、大量の訓練データの構築は難しい。
0003
訓練データを増やす方法として、例えば、Bootstrapping法が提案されている。Bootstrapping法は訓練データを自動的に増やす方法であり、まず、ラベル(語義)の付与された、種となる訓練データで学習してラベルなしデータのラベルを推定し、ある基準において最も信頼できるものをラベルありデータ(訓練データ)に追加する(非特許文献2、3)。ラベルなしデータのラベル推定を決定木で行う研究もある(非特許文献4)。
先行技術
0005
Timothy Baldwin, Su Nam Kim, Francis Bond, Sanae Fujita, David Martinez, and Takaaki Tanaka,"A Reexamination ofMRD-based Word Sense Disambiguation", Transactions on Asian Language Information Process, Association for Computing Machinery (ACM), 2010, 9(1), p.1-21
Rada Mihalcea,"Bootstrappinglarge sense tagged corpora", In Proceedings of the 3rd International Conference on Language Resources and Evaluation, 2002, LREC-2002, p.1407-1411
Rada Mihalcea,"Co-training and self-training for word sense disambiguation", In Proceedings of the Conference on Natural Language Learning (CoNLL-2004), 2004, p.33-40
David Yarowsky,"Unsupervised word sense disambiguation rivaling supervised methods", In Proceedings of the 33th Annual Meeting of the Association for Computational Linguistics, 1995, ACL-93, p.189-196
八木豊、野呂智哉、白井清昭、徳永健伸、田中穂積、「決定リストを用いた語義曖昧性解消」、電子情報通信学会技術研究報告. NLC,言語理解とコミュニケーション, 2001, 101(351): p.47-52
発明が解決しようとする課題
0006
語義曖昧性の解消に際し、高い推定精度を得るためには、良質の訓練データが大量に必要である。また、多様な語義に対応するためには、低頻度語に対しても十分な訓練データが必要である。
0007
しかし、非特許文献2〜4の方法では、ラベルなしデータからいくら訓練データを追加したところで、種となる訓練データに出現しないような未知の語義を推測することはできない。また、非特許文献5の方法では、辞書の例文は非常に短く記述されているため、自然な文章とは言い難く、不自然な訓練データになるという問題がある。
0008
また、通常、訓練データと対象データの分野が異なると推定精度が落ちるため、対象データと同じ分野の訓練データが求められるが、いずれの方法の場合にも、分野ごとに十分な訓練データを獲得するのは費用と時間がかかる。
0009
本発明の目的は、多様な語義に対応する良質の訓練データを自動的又は半自動的に獲得可能な、訓練データ獲得装置、訓練データ獲得方法、及びそのプログラムを提供することにある。
課題を解決するための手段
0012
タグ付与部は、抽出された文章に、前記任意の単語の或る語義に対応する識別情報を付して訓練データとして出力する。
発明の効果
0013
本発明の訓練データ獲得装置、訓練データ獲得方法、及びそのプログラムによれば、多様な語義に対応する良質の訓練データを自動的又は半自動的に獲得することができる。また、こうした訓練データ獲得装置を組み込み、又は獲得した訓練データを利用することにより、高精度な語義曖昧性解消(又は機械翻訳)が可能な各種装置、方法等を提供することができる。
図面の簡単な説明
0014
訓練データ獲得装置101の機能構成例を示す図。
訓練データ獲得装置101の処理フロー例を示す図。
本発明でいう例文の例を示す図。
コーパスの例を示す図。
訓練データ獲得装置102の機能構成例を示す図。
訓練データ獲得装置102の処理フロー例を示す図。
辞書の例を示す図。
訓練データ獲得装置103の機能構成例を示す図。
訓練データ獲得装置103の処理フロー例を示す図。
訓練データ獲得装置のコンピュータによる実現例を示す図。
0015
以下、本発明の実施形態について、詳細に説明する。
0016
図1に訓練データ獲得装置101の機能構成例を、図2にその処理フロー例をそれぞれ示す。訓練データ獲得装置101は、文中の単語の、文脈に合った語義の推定に用いるモデルの学習のための訓練データを獲得する装置であり、コーパス記憶部110とデータ抽出部120とタグ付与部130とを備える。
0017
コーパス記憶部110は、自然言語を含む文章の集合であるコーパスを記憶する。対象とする自然言語には特に制限はない。本明細書では日本語の場合を例にとって説明する。コーパスは、新聞、ブログ、書籍、Webから抽出したデータなど、さまざまな分野、形態、量のものが含まれていてよい。また、コーパスは、オンラインでWeb検索などを実行することにより獲得するようにしてもよく、その場合にはコーパス記憶部110を設けなくてもよい。
0019
データ抽出部120は、任意の単語の或る語義についての例文が入力され、コーパス記憶部110に記憶されたコーパス又はオンラインでWeb検索されたコーパスを参照して、当該例文を含む文章を抽出する(S1)。
0020
図3は、単語「とる(取る・採る・執る・捕る)」についての語義ごとの例文の例を示したものである。語義ID(識別情報)は各語義に対して予め決めておくものである。図3では、各語義に対し、例文が2つずつ記されているが、2つである必要はなく、1つ、あるいは3つ以上でもよい。
0021
例文が例えば図3の「責任を取る」である場合、データ抽出部120はコーパスを参照して、その中から「責任を取る」という文を含む文章を抽出する。例えば、図4に例示するコーパスは2つの文章からなる(IDは文章内の部分を簡単に参照するための識別子)が、1つ目の文章のID2の部分に「責任を取る」という文が含まれているため、データ抽出部120は当該1つ目の文章を抽出する。
0022
タグ付与部130は、データ抽出部120で抽出された文章に、当該文章の抽出に用いた例文に係る任意の単語の或る語義に対応する識別情報を付して、訓練データとして出力する(S2)。例文が図3の「責任を取る」である場合、単語「とる」におけるその語義ID(識別情報)は、"37713-0-0-3-1"であるため、タグ付与部130は、データ抽出部120で抽出された文章にこの語義IDを付して、これを訓練データとして出力する。
0023
通常、辞書の例文は非常に短く記述されているため、自然な文章とは言い難く、不自然な訓練データになるという問題があった。しかし、本発明の訓練データ獲得装置101によれば、コーパスから対象例文を完全に含む文章を抽出するため、より自然な訓練データを獲得することができる。また、解析対象とする分野と同じ分野のコーパスから訓練データを獲得することで、より対象とする分野に適した訓練データを獲得することができる。
0025
図5に訓練データ獲得装置102の機能構成例を、図6にその処理フロー例をそれぞれ示す。訓練データ獲得装置102は、コーパス記憶部110とデータ抽出部120とタグ付与部130と辞書記憶部141と例文抽出部142とを備える。つまり、実施例1の構成に辞書記憶部141と例文抽出部142を加えた構成である。
0026
実施例1は、データ抽出部120に例文を直接入力する構成であるが、実施例2はデータ抽出部120の前段に辞書記憶部141と例文抽出部142を設け、この例文を辞書から抽出する機能を加えた構成である。
0027
辞書記憶部141は、単語とその語義とその語義についての例文とを含む辞書を記憶する。図7に辞書の例を示す。図7は、単語「とる(取る・採る・執る・捕る)」の部分を抜粋したものである。辞書には、語義ID(識別情報)が付された単語「とる」の各語義が記録され、主な語義には例文が「 」内に追記されているため、これを抽出すればよい。なお、図7の例文では対象語が、”−”で省略されているが、このような場合にはデータ抽出部120で例文を抽出した後、コーパスの検索前にそこに対象語(例えば「取」)をあてはめた上で、コーパスの検索を実行するように構成すればよい。
0028
辞書は、既存のものを用いることができる。例えば、対象自然言語が日本語である場合には、岩波国語辞典やLexeed(”「基本語意味データベース:Lexeed」の構築”、笠原要、佐藤浩史、Francis Bond、田中貴秋、藤田早苗、金杉友子、天野昭成、2004年、2004-NLC-159、p.75-82)などが挙げられる。また、Web辞書などを利用することも考えられる。なお、辞書記憶部141に格納する辞書は複数であってもよく、例えば前記の岩波国語辞典とLexeedを両方格納しても構わない。
0029
例文抽出部142は、任意の単語の或る語義についての例文を、辞書記憶部141に記憶された辞書から抽出して、データ抽出部120に入力する(S3)。
0030
図8に訓練データ獲得装置103の機能構成例を、図9にその処理フロー例をそれぞれ示す。訓練データ獲得装置103は、コーパス記憶部110とデータ抽出部120とタグ付与部130とデータ選別部150とを備える。つまり、実施例1の構成にデータ選別部150を加えた構成である。
0031
データ選別部150は、データ抽出部120に入力された例文とデータ抽出部120で当該例文により抽出された文章をそれぞれ形態素解析し、当該例文と形態素レベルで一致する文を含む文章に限り、タグ付与部130に入力する(S4)。
0032
例えば、例文が「数を取る」(語義:数を数える)である場合、実施例1のように、単に例文とテキストレベルで一致する文を含む文章を抽出することとすると、「点「数をとる」」というような、実際には例文とは異なる文を含む文章も抽出される場合がある。
0033
ここで、例文「数を取る」を形態素解析すると、「数(名詞)を(助詞)取る(動詞)」となるのに対し、文「点数を取る」を形態素解析すると、「点数(名詞)を(助詞)取る(動詞)」となり、両者を区別することができる。そこで、データ抽出部120に入力された例文とデータ抽出部120で当該例文により抽出された文章をそれぞれ形態素解析し、当該例文と形態素レベルで一致する文を含む文章に限り、タグ付与部130に入力することで、より高い訓練データを作成することが可能となる。
0034
形態素の解析には、例えば、茶筌(奈良先端科学技術大学院大学、http://chasen-legacy.sourceforge.jp/)やJUMAN(京都大学、http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html)などを用いることが考えられる。
0035
データ選別部150が備える形態素解析機能は、必ずしも一つでなくてもよく、例えば、前記茶筌とJUMANを併用し、例文の分野に応じて使い分けたり、精度の高い方を利用したりしてもよい。また、データ選択部150から形態素解析機能を形態素解析部150aとして切り出し、形態素解析部150
aでデータ抽出部120に入力された例文とデータ抽出部120で当該例文により抽出された文章の形態素解析を行い、データ選択部150で当該例文と形態素レベルで一致する文を含む文章に限り、タグ付与部130に入力するというように構成しても構わない。
0036
データ選別部150においては、形態素の解析だけでなく、係り受け解析(KNP、Cabocha等)や項構造解析(参考文献)を行うことで、例文とコーパスデータとの一致条件を更に細かく設定することも考えられる。
〔参考文献〕Hirotoshi Taira, Sanae Fujita, and Masaaki Nagata,"A Japanese Predicate Argument Structure Analysis using Decision Lists", In Proceedings of the 2008 Conference on Empirical Methodsin Natural Language Processing, 2008, p.523-532
0037
なお、実施例3の訓練データ獲得装置103についても、実施例2で説明した辞書記憶部141と例文抽出部142をデータ抽出部120の前段に設けることで、例文を辞書から抽出するように構成することができる。
0038
実施例4は実施例3の応用形態である。
0039
データ抽出部120が例文を用いてコーパスから文章を抽出する際、実施例1〜3では例文とテキストレベルで一致する文を含む文章を抽出する。しかし単語は、特に動詞の場合、文章において必ずしも基本形で現れるとは限らず、同じ語義でありながら活用形で現れることもある。例えば、単語「取る」に対する例文「責任を取る」の場合、「責任を取り」というように語形が異なっていても語義は同じである。
0040
そこで、データ抽出部120においてコーパスから文章を抽出する際に、任意の単語の或る語義についての例文と完全一致する文を含む文章だけでなく、当該例文と類似する文を含む文章も抽出するようにする。なお、ここでいう類似する文の範囲は適宜設定してよいが、少なくとも、当該任意の単語の活用形のみが当該例文と異なる文は含まれるようにする。
0041
そして、データ選別部150において、当該例文と当該例文により抽出された文章をそれぞれ形態素解析し、当該例文と形態素レベルで一致する文を含む文章だけでなく、当該例文と当該任意の単語の活用形が異なる以外は形態素レベルで一致する文を含む文章についても、タグ付与部130に入力するようにすればよい。
0042
このように構成することで、例えば、例文が「責任を取る」のときに、コーパスが図4に例示するコーパスであった場合に、実施例1〜3の場合は、文「責任を取る」を含む1つ目の文章しか抽出できないが、本実施例の場合には、文「責任を取り」を含む2つ目の文章も抽出でき、適切な訓練データをより多く獲得することができる。
0043
実施例5も実施例3の応用形態である。
0044
訓練データをより多く獲得するために、データ選別部150において、例文と例文により抽出された文章をそれぞれ形態素解析し、タグ付与部130に入力する文章の限定を行う際に、例えば、「例文に含まれる形態素の出現順と完全に同じ順番に出現しなくてもよい」、「何単語以内に例文の全形態素が出現すればよい」、「形態素間に1語や2語、あるいは、特定の品詞の語を含んでもよい」などの条件により文章を限定することが考えられる。このように条件を設定することで、例えば、例文「責任を取る」の場合に、例文と語義が同じである「責任を「潔く」取る」のような文を含む文章も抽出できるようになる。
0045
そこで、データ抽出部120においてコーパスから文章を抽出する際に、任意の単語の或る語義についての例文と完全一致する文を含む文章だけでなく、当該例文と類似する文を含む文章も抽出するようにする。なお、ここでいう類似する文の範囲は適宜設定してよいが、少なくとも、データ選別部150での限定条件をクリアする文を含む文章は含まれるようにする。
0046
そして、データ選別手段150で、前記例文と訓練データ抽出部で抽出された文章をそれぞれ形態素解析し、所定の限定条件をクリアする文を含む文章に限りタグ付与部130に入力する。
実施例
0047
以上説明した本発明の訓練データ獲得装置及び訓練データ獲得方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の訓練データ獲得装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 本発明の各実施例の訓練データ獲得装置をコンピュータによって実現する場合、装置及びその各部が有す機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがRAM(Random Access Memory)に読み込まれる。その読み込まれたプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。図10にその構成例100を示す。主な機能部として記憶部1と演算処理部2が設けられる。記憶部1は、ハードディスクやメモリなどの記憶装置からなり、演算処理部2で実行するプログラム20が記憶されるとともにコーパス記憶部110や辞書記憶部141の役割を果たす。プログラム20は、訓練データ獲得装置101の各部が有す機能の処理内容が記述されたものである。演算処理部2は、CPUなどのマイクロプロセッサとその周辺回路からなり、記憶部1に格納されているプログラム20を読み出して実行し、ハードウェアとプログラムとを協働させることにより、訓練データ獲得装置101の各部が有す機能が具体的に実現される。入出力IF部3、通信IF部4、操作入力部5及び画面表示部6は、例文の入力や獲得された訓練データの出力を始め、各種データやプログラムを入出力する機能を有する。入出力IF部3は、専用のデータ入出力回路からなり、CDやHDD、DVD、さらにはメモリカードや外部ディスクなどの記録媒体との間で、演算処理部2からの指示に応じて、各種データやプログラムの入出力を行う。通信IF部4は、専用のデータ入出力回路からなり、LANなどの通信回線を介して接続されたサーバなどの外部装置との間で、演算処理部2からの指示に応じて、各種データやプログラムの入出力を行う。操作入力部5は、キーボードやマウスなどの操作入力装置からなり、オペレータによる操作があったときに、その操作を検出して演算処理部2へ出力する。画面表示部6は、LDCやPCPなどの画面表示装置からなり、演算処理部2からの指示に応じて各種データや操作画面を表示する。