図面 (/)

技術 機能動詞構造判別方法、機能動詞構造正規化方法、それらの装置及びプログラム

出願人 日本電信電話株式会社国立大学法人名古屋大学
発明者 泉朋子今村賢治菊井玄一郎藤田篤佐藤理史
出願日 2009年7月9日 (7年9ヶ月経過) 出願番号 2009-162845
公開日 2011年1月27日 (6年3ヶ月経過) 公開番号 2011-018217
状態 未査定
技術分野 機械翻訳
主要キーワード 変換ルールテーブル 表層形 例外テーブル 入力構造 正規形 素性値 正規化装置 工学部

この技術の活用可能性のある市場・分野

関連する未来課題
重要な関連分野

この技術に関連する成長市場

関連メディア astavision

  • 地下大空間・地下構造物

    周口店洞窟の北京原人、ラスコーやアルタミラの壁画洞窟に象徴されるように、人類は太古から地下空間を生活…

  • 高度運転支援・自動運転

    2015年1月、米国ラスベガスで開催された「2015 International CES (Cons…

  • 太陽光発電・太陽電池・人工光合成

    2015年4月30日、米国の電気自動車ベンチャーTesla Motors社や宇宙開発ベンチャーSpa…

後で読みたい技術情報を見つけたら、ブックマークしておきましょう!

ページの右上にあるブックマークボタンからこのページをブックマークできます。
あなたがブックマークした技術情報は、いつでもマイページのリストから閲覧することが出来ます。

以下の情報は公開日時点(2011年1月27日)のものです。

課題

入力文書中の「動作性名詞+助詞+機能動詞」の組み合わせからなる述部が、正規化すべき「機能動詞構造」か、それとも正規化すべきでない「本動詞構造」もしくは「慣用句構造」かを、人手に頼ることなく自動的に判別可能とすること。

解決手段

主題化不可度計算部61で、機能動詞構造候補の標準形及び主題化変形文の所定のコーパスにおけるそれぞれの出現頻度から主題化不可度を計算し、慣用表現計算部62で、機能動詞構造候補における「動作性名詞」と「助詞+機能動詞」との間の連語度を慣用表現度として計算し、自動判別部63で、主題化不可度及び慣用表現度を素性とし、機能動詞構造、本動詞構造及び慣用句構造をクラスとする機能動詞構造に関する所定の正解データに基づいて自動学習により作成された分類器を用いて、機能動詞構造候補の主題化不可度及び慣用表現度から機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別する。

この項目の情報は公開日時点(2011年1月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

背景

図面をまとめてご覧になりたい場合はPDFをダウンロードしてください。

タスクの説明>
議事録アンケート、web上のテキストなど、膨大な文書から有益な情報を得るためには、対象文書から「誰がどこで何をどうした?」という情報を自動抽出及び集計することが必須である。これをテキストマイニングと呼ぶ。しかし、「誰」、「どこ」、「何」といった特定の名前を抽出するのと異なり、「どうした?」の部分は単純に動詞一語で表わされるわけではなく、様々な表現形式をとる。

例えば、「政府が国会で個人情報取り扱いを規定した」という文があった場合、下線部の述部は「規定を行った」や「規定を置いた」等、様々な表層形をとる。この「規定を行った」や「規定を置いた」という構造は、機能動詞構造と呼ばれており、「規定」等の動作を表す名詞(以下、動作性名詞と呼ぶ。)が、「を」等の助詞及び「置いた」等の動詞の一種である機能動詞後続されている。そしてこの機能動詞構造が、日本語の述部が多様な形を有する原因一つとなっている。これら「規定する」、「規定を行う」、「規定を置く」は同義ではあるが、表層形が異なるため、自動抽出の際には異なるものと認識される。その結果、テキストマイニングの精度を低下させる原因となる。

これらの問題点を解決するために、同義であるが異なる表層形を有する述部を、同じ表現統一させるプロセス(以下、正規化と呼ぶ。)が必要となる。

<機能動詞構造の正規化>
「規定を置く」といった「動作性名詞+助詞+機能動詞」の構造を有する機能動詞構造では、「どうした?」の部分に当たる、本来、動詞が表す意味役割は名詞(本例では「規定」)が受け持つ。そして、「置く」等の動詞そのものは、前記動作性名詞を述語化させるための役割助動詞に似た機能語としての役割しか持たず、機能動詞と呼ばれている。そのため、この機能動詞構造は、動作性名詞を動詞化させて単純な形に変換したものと同義になる。

上記(1)は、機能動詞である「覚える」が動作性名詞を述語化させている例であり、機能動詞の役割は動作性名詞が動詞となった「感動する」の「する」の部分に対応する。機能動詞構造の正規化では、後述する図4に例示するような「どのように動詞化させるか」を示す変換パターン作成し、それをもとに動作性名詞を動詞化させる。これにより、表層形が異なる機能動詞構造を最も簡単な述部構造に正規化し、同義の述部をまとめることが出来る。上記(1)の例の場合、「を覚える」は変換パターン「能動」に属しているため、動作性名詞「感動」を単純に「感動する」の形に動詞化させる。

しかし、大きな問題として、入力された「動作性名詞+助詞+機能動詞」の組み合わせが常に変換対象の機能動詞構造とは限らないということが挙げられる。これらの例外の一つが、動作性名詞と繋がりながらも機能動詞が本来の動詞としての意味を保持する場合である。これを「本動詞構造」と呼ぶ。

上記(2)を、(1)のように自動変換するのは誤りである。なぜなら(2)では、動詞「覚える」は本来の「何かを教えられて習得する」という意味を保持しているからである。

二つ目は、慣用句を表している場合であり、これを「慣用句構造」と呼ぶ。慣用句構造では「動作性名詞+助詞+機能動詞」が一つのかたまりとして特定の意味を有する。故に、これらの慣用句構造を機能動詞構造のように変換してしまうと、本来備えている慣用句としての意味を失ってしまう。

上記(3)を、(1)のように自動変換するのは誤りである。なぜなら(3)では、「動作性名詞+助詞+機能動詞」の組み合わせ「限りを尽くす」は「出来る限りのことをする」という特定の意味を保持しているからである。

このように、構造的には「動作性名詞+助詞+機能動詞」と同一でも、「どの動作性名詞と機能動詞が組み合わさるか」によって、3種類に分類しなくてはならない。一つ目は、正規化対象となる機能動詞構造である。二つ目は、機能動詞が動作性名詞に関係なく本来の動詞としての意味を保持している本動詞構造である。そして、三つ目は、特定の単語同士の結びつきで特定の意味を有する慣用句構造である。これらを識別せずに全ての「動作性名詞+助詞+機能動詞」の構造を常に変換してしまうと、意味が異なるものまで同一の表現にまとめられてしまうという問題が起こる。

<従来技術>
〈従来技術1〉
機能動詞構造か否かを識別する方法として、ネイティブスピーカーによる言語テストが挙げられる。言語テストとは文章を様々な形に変形させて、変形後の文章が「おかしいかどうか?」をネイティブスピーカーの直感をもとに判断するテストのことである。そして、機能動詞構造かどうかを識別する言語テストとして非特許文献1に挙げられている、「主題化テスト(Topicalization Test)」がある。主題化とは、ある特定の要素を文章の中で際立たせるために文の構造を変形させるもので、下記のような例文のことを言う。

上記(5)の場合、名詞「オレンジ」が話の中心である主題となっている。このように日本語において、ある要素を主題化させるためには、次の二つの方法がある。

1.主題化させる要素を、主題を表す助詞「は」でマークする。

2.主題化させる要素を文の頭に置く。

しかし、機能動詞構造は「動作性名詞+助詞+機能動詞」の組み合わせで一つの述部としての役割を果たす。そのため、これらの要素を文の中で引き離し、一つの要素だけを際立たせるといった主題化が出来ないという特徴を有する。

上記(7)は日本語としておかしい文である。これは、機能動詞構造の一部である動作性名詞が主題化されたためである。このように、機能動詞構造は主題化の二つのプロセスをたどることが出来ない。これをもとに、従来では(7)のように変形された文が、文法的におかしいかどうかを人の直観で判断し、「おかしい」と判断された場合は機能動詞構造、「おかしくない」と判断された場合は本動詞構造と判定していた。

しかし、この手法には二つの弱点がある。一つは、人手で機能動詞構造か否かを認識しなくてはいけないので、自動の正規化には利用できない。次に、上記の方法では、本動詞構造と機能動詞構造の区別はつけられるが、機能動詞構造と慣用句構造の区別をつけることはできない。なぜなら、慣用句構造も機能動詞構造と同様、主題化できないという特徴を備えるからである。

〈従来技術2〉
機能動詞構造正規化を自動で試みた手法として、非特許文献2が挙げられる。これは、機能動詞毎に「組み合わされる動作性名詞によって例外処理が必要か否か」の情報が入っているものである。もし、「例外処理が必要」との情報があった場合には、個別処理テーブルという、各機能動詞に対して動作性名詞のリストが載ったテーブルに移動する。そこで、リストにある動作性名詞に「本動詞フラグ」が付いていた場合には、その動作性名詞と組み合わさった場合は本動詞として作用していることを示し、変換は行わない。つまり、本技術の焦点となっている動作性名詞の種類により機能動詞構造及び本動詞構造の区別を行うために、非特許文献2では機能動詞毎に動作性名詞をリストアップし、各々の動作性名詞との組み合わせに、動詞が本動詞として働くか、機能動詞として働くかの情報を付加させているのである。

非特許文献2はさらに、慣用表現の自動抽出も試みている。これもまた、機能動詞構造の抽出と同様に、慣用句構造毎に「受動態及び否定形が取れない」等の文法構造における制約を設け、入力慣用句がその制約に適合したか否かを判断し、その判断に従って慣用表現かどうかを区別する。

しかし、これらの手法では変換すべき機能動詞構造を抽出するために、個々の動作性名詞と動詞との組み合わせ毎変換ルールを持たせていることになる。この場合、変換ルールに網羅性を持たせるためには、例外処理が必要となり得る動詞の数と動作性名詞の数との積の分のルールが必要となり、個別処理テーブルの規模莫大となる。

日本語では、動作性名詞の種類だけでも1万以上あり、例外処理が必要な機能動詞も50種類以上あるため、それら全てに対して個々の動詞との組み合わせ毎に本動詞及び機能動詞フラグを人手で付けるには膨大な時間と労力がかかる。それに加え、慣用句構造も個別に異なるルールを設けているために、機能動詞構造、本動詞構造及び慣用句構造の判別を網羅するために必要な辞書の規模は莫大になる。逆に、限られた数の動作性名詞や慣用表現にのみルールを付加した場合、網羅性に欠けるため、正規化できない機能動詞構造が多数残ることになる。

概要

入力文書中の「動作性名詞+助詞+機能動詞」の組み合わせからなる述部が、正規化すべき「機能動詞構造」か、それとも正規化すべきでない「本動詞構造」もしくは「慣用句構造」かを、人手に頼ることなく自動的に判別可能とすること。主題化不可度計算部61で、機能動詞構造候補の標準形及び主題化変形文の所定のコーパスにおけるそれぞれの出現頻度から主題化不可度を計算し、慣用表現計算部62で、機能動詞構造候補における「動作性名詞」と「助詞+機能動詞」との間の連語度を慣用表現度として計算し、自動判別部63で、主題化不可度及び慣用表現度を素性とし、機能動詞構造、本動詞構造及び慣用句構造をクラスとする機能動詞構造に関する所定の正解データに基づいて自動学習により作成された分類器を用いて、機能動詞構造候補の主題化不可度及び慣用表現度から機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別する。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

ページトップへ

請求項

以下の情報は公開日時点(2011年1月27日)のものです。

請求項1

「動作を表す名詞である動作性名詞+助詞+機能動詞」の組み合わせからなる述部が、「動作性名詞+助詞+前記動作性名詞を述語化させるための動詞である機能動詞」の組み合わせからなる機能動詞構造であるか、または「動作性名詞+助詞+前記動作性名詞に関係なく本来の動詞としての意味を有する機能動詞」の組み合わせからなる本動詞構造であるか、もしくは「動作性名詞+助詞+機能動詞」の組み合わせが一つのかたまりとして特定の意味を有する慣用句構造であるかを判別する方法であって、主題化不可度計算部が、入力文書中から抽出された機能動詞構造候補標準形及び主題化変形文の所定のコーパスにおけるそれぞれの出現頻度から当該機能動詞構造候補の主題化不可度を計算する工程と、慣用表現計算部が、前記機能動詞構造候補における「動作性名詞」と「助詞+機能動詞」との間の連語度を慣用表現度として計算する工程と、自動判別部が、少なくとも主題化不可度及び慣用表現度を素性とし、機能動詞構造、本動詞構造及び慣用句構造をクラスとする機能動詞構造に関する所定の正解データに基づいて自動学習により作成された分類器を用いて、少なくとも前記機能動詞構造候補の主題化不可度及び慣用表現度から当該機能動詞構造候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別する工程とを含むことを特徴とする機能動詞構造判別方法

請求項2

請求項1に記載の機能動詞構造判別方法を用いて、入力文書中の機能動詞構造を正規化する方法であって、形態素解析及び文節区切り部が、入力文書に対し、一文毎に周知の形態素解析処理及び文節区切り処理を行い、形態素毎単語情報及び文節単位区切り情報出力する工程と、機能動詞構造候補抽出部が、助詞と機能動詞の標準形との組み合わせの集合記憶してなる機能動詞辞書及び動作性名詞と当該動作性名詞を動詞化した動詞化形との組み合わせの集合を記憶してなる動作性名詞辞書を用いて、前記単語情報及び区切り情報に基づき、入力文書中から「動作性名詞+助詞+機能動詞」の組み合わせからなる述部を機能動詞構造候補として抽出する工程と、機能動詞構造判別部が、前記抽出された機能動詞構造候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを請求項1に記載の機能動詞構造判別方法により判別する工程と、正規化部が、機能動詞構造候補のうち機能動詞構造と判別された候補のみを、機能動詞構造をどのように動詞化するかを示すいくつかの変換パターンと当該各変換パターンで付加する助動詞と当該各変換パターンの対象となる機能動詞構造における「助詞+機能動詞」との組み合わせからなる変換ルールを記憶してなる変換ルールテーブルを用いて正規化する工程とを含むことを特徴とする機能動詞構造正規化方法

請求項3

「動作を表す名詞である動作性名詞+助詞+機能動詞」の組み合わせからなる述部が、「動作性名詞+助詞+前記動作性名詞を述語化させるための動詞である機能動詞」の組み合わせからなる機能動詞構造であるか、または「動作性名詞+助詞+前記動作性名詞に関係なく本来の動詞としての意味を有する機能動詞」の組み合わせからなる本動詞構造であるか、もしくは「動作性名詞+助詞+機能動詞」の組み合わせが一つのかたまりとして特定の意味を有する慣用句構造であるかを判別する装置であって、入力文書中から抽出された機能動詞構造候補の標準形及び主題化変形文の所定のコーパスにおけるそれぞれの出現頻度から当該機能動詞構造候補の主題化不可度を計算する主題化不可度計算部と、前記機能動詞構造候補における「動作性名詞」と「助詞+機能動詞」との間の連語度を慣用表現度として計算する慣用表現計算部と、少なくとも主題化不可度及び慣用表現度を素性とし、機能動詞構造、本動詞構造及び慣用句構造をクラスとする機能動詞構造に関する所定の正解データに基づいて自動学習により作成された分類器を用いて、少なくとも前記機能動詞構造候補の主題化不可度及び慣用表現度から当該機能動詞構造候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別する自動判別部とを備えたことを特徴とする機能動詞構造判別装置

請求項4

請求項3に記載の機能動詞構造判別装置を用いて、入力文書中の機能動詞構造を正規化する機能動詞構造正規化装置であって、助詞と機能動詞の標準形との組み合わせの集合を記憶してなる機能動詞辞書と、動作性名詞と当該動作性名詞を動詞化した動詞化形との組み合わせの集合を記憶してなる動作性名詞辞書と、機能動詞構造をどのように動詞化するかを示すいくつかの変換パターンと当該各変換パターンで付加する助動詞と当該各変換パターンの対象となる機能動詞構造における「助詞+機能動詞」との組み合わせからなる変換ルールを記憶してなる変換ルールテーブルと、入力文書に対し、一文毎に周知の形態素解析処理及び文節区切り処理を行い、形態素毎の単語情報及び文節単位の区切り情報を出力する形態素解析及び文節区切り部と、機能動詞辞書及び動作性名詞辞書を用いて、前記単語情報及び区切り情報に基づき、入力文書中から「動作性名詞+助詞+機能動詞」の組み合わせからなる述部を機能動詞構造候補として抽出する機能動詞構造候補抽出部と、前記抽出された機能動詞構造候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別する請求項3に記載の機能動詞構造判別装置からなる機能動詞構造判別部と、機能動詞構造候補のうち機能動詞構造と判別された候補のみを、変換ルールテーブルを用いて正規化する正規化部とを備えたことを特徴とする機能動詞構造正規化装置。

請求項5

コンピュータを、請求項3または4に記載の装置の各手段として機能させるためのプログラム

詳細

以下の情報は 公開日時点 (2011年1月27日)のものです。

技術分野

0001

本発明は、自然言語処理において文情報の中心となる述部を対象として、表層形は異なるが意味が同じものをまとめるための正規化技術に関するものである。


背景技術

0002

<タスクの説明>
議事録やアンケート、web上のテキストなど、膨大な文書から有益な情報を得るためには、対象文書から「誰がどこで何をどうした?」という情報を自動で抽出及び集計することが必須である。これをテキストマイニングと呼ぶ。しかし、「誰」、「どこ」、「何」といった特定の名前を抽出するのと異なり、「どうした?」の部分は単純に動詞一語で表わされるわけではなく、様々な表現形式をとる。

0003

例えば、「政府が国会で個人情報の取り扱いを規定した」という文があった場合、下線部の述部は「規定を行った」や「規定を置いた」等、様々な表層形をとる。この「規定を行った」や「規定を置いた」という構造は、機能動詞構造と呼ばれており、「規定」等の動作を表す名詞(以下、動作性名詞と呼ぶ。)が、「を」等の助詞及び「置いた」等の動詞の一種である機能動詞に後続されている。そしてこの機能動詞構造が、日本語の述部が多様な形を有する原因の一つとなっている。これら「規定する」、「規定を行う」、「規定を置く」は同義ではあるが、表層形が異なるため、自動抽出の際には異なるものと認識される。その結果、テキストマイニングの精度を低下させる原因となる。

0004

これらの問題点を解決するために、同義であるが異なる表層形を有する述部を、同じ表現に統一させるプロセス(以下、正規化と呼ぶ。)が必要となる。

0005

<機能動詞構造の正規化>
「規定を置く」といった「動作性名詞+助詞+機能動詞」の構造を有する機能動詞構造では、「どうした?」の部分に当たる、本来、動詞が表す意味役割は名詞(本例では「規定」)が受け持つ。そして、「置く」等の動詞そのものは、前記動作性名詞を述語化させるための役割や助動詞に似た機能語としての役割しか持たず、機能動詞と呼ばれている。そのため、この機能動詞構造は、動作性名詞を動詞化させて単純な形に変換したものと同義になる。

0006

0007

上記(1)は、機能動詞である「覚える」が動作性名詞を述語化させている例であり、機能動詞の役割は動作性名詞が動詞となった「感動する」の「する」の部分に対応する。機能動詞構造の正規化では、後述する図4に例示するような「どのように動詞化させるか」を示す変換パターンを作成し、それをもとに動作性名詞を動詞化させる。これにより、表層形が異なる機能動詞構造を最も簡単な述部構造に正規化し、同義の述部をまとめることが出来る。上記(1)の例の場合、「を覚える」は変換パターン「能動」に属しているため、動作性名詞「感動」を単純に「感動する」の形に動詞化させる。

0008

しかし、大きな問題として、入力された「動作性名詞+助詞+機能動詞」の組み合わせが常に変換対象の機能動詞構造とは限らないということが挙げられる。これらの例外の一つが、動作性名詞と繋がりながらも機能動詞が本来の動詞としての意味を保持する場合である。これを「本動詞構造」と呼ぶ。

0009

0010

上記(2)を、(1)のように自動変換するのは誤りである。なぜなら(2)では、動詞「覚える」は本来の「何かを教えられて習得する」という意味を保持しているからである。

0011

二つ目は、慣用句を表している場合であり、これを「慣用句構造」と呼ぶ。慣用句構造では「動作性名詞+助詞+機能動詞」が一つのかたまりとして特定の意味を有する。故に、これらの慣用句構造を機能動詞構造のように変換してしまうと、本来備えている慣用句としての意味を失ってしまう。

0012

0013

上記(3)を、(1)のように自動変換するのは誤りである。なぜなら(3)では、「動作性名詞+助詞+機能動詞」の組み合わせ「限りを尽くす」は「出来る限りのことをする」という特定の意味を保持しているからである。

0014

このように、構造的には「動作性名詞+助詞+機能動詞」と同一でも、「どの動作性名詞と機能動詞が組み合わさるか」によって、3種類に分類しなくてはならない。一つ目は、正規化対象となる機能動詞構造である。二つ目は、機能動詞が動作性名詞に関係なく本来の動詞としての意味を保持している本動詞構造である。そして、三つ目は、特定の単語同士の結びつきで特定の意味を有する慣用句構造である。これらを識別せずに全ての「動作性名詞+助詞+機能動詞」の構造を常に変換してしまうと、意味が異なるものまで同一の表現にまとめられてしまうという問題が起こる。

0015

<従来技術>
〈従来技術1〉
機能動詞構造か否かを識別する方法として、ネイティブスピーカーによる言語テストが挙げられる。言語テストとは文章を様々な形に変形させて、変形後の文章が「おかしいかどうか?」をネイティブスピーカーの直感をもとに判断するテストのことである。そして、機能動詞構造かどうかを識別する言語テストとして非特許文献1に挙げられている、「主題化テスト(Topicalization Test)」がある。主題化とは、ある特定の要素を文章の中で際立たせるために文の構造を変形させるもので、下記のような例文のことを言う。

0016

0017

0018

上記(5)の場合、名詞「オレンジ」が話の中心である主題となっている。このように日本語において、ある要素を主題化させるためには、次の二つの方法がある。

0019

1.主題化させる要素を、主題を表す助詞「は」でマークする。

0020

2.主題化させる要素を文の頭に置く。

0021

しかし、機能動詞構造は「動作性名詞+助詞+機能動詞」の組み合わせで一つの述部としての役割を果たす。そのため、これらの要素を文の中で引き離し、一つの要素だけを際立たせるといった主題化が出来ないという特徴を有する。

0022

0023

0024

上記(7)は日本語としておかしい文である。これは、機能動詞構造の一部である動作性名詞が主題化されたためである。このように、機能動詞構造は主題化の二つのプロセスをたどることが出来ない。これをもとに、従来では(7)のように変形された文が、文法的におかしいかどうかを人の直観で判断し、「おかしい」と判断された場合は機能動詞構造、「おかしくない」と判断された場合は本動詞構造と判定していた。

0025

しかし、この手法には二つの弱点がある。一つは、人手で機能動詞構造か否かを認識しなくてはいけないので、自動の正規化には利用できない。次に、上記の方法では、本動詞構造と機能動詞構造の区別はつけられるが、機能動詞構造と慣用句構造の区別をつけることはできない。なぜなら、慣用句構造も機能動詞構造と同様、主題化できないという特徴を備えるからである。

0026

〈従来技術2〉
機能動詞構造正規化を自動で試みた手法として、非特許文献2が挙げられる。これは、機能動詞毎に「組み合わされる動作性名詞によって例外処理が必要か否か」の情報が入っているものである。もし、「例外処理が必要」との情報があった場合には、個別処理テーブルという、各機能動詞に対して動作性名詞のリストが載ったテーブルに移動する。そこで、リストにある動作性名詞に「本動詞フラグ」が付いていた場合には、その動作性名詞と組み合わさった場合は本動詞として作用していることを示し、変換は行わない。つまり、本技術の焦点となっている動作性名詞の種類により機能動詞構造及び本動詞構造の区別を行うために、非特許文献2では機能動詞毎に動作性名詞をリストアップし、各々の動作性名詞との組み合わせに、動詞が本動詞として働くか、機能動詞として働くかの情報を付加させているのである。

0027

非特許文献2はさらに、慣用表現の自動抽出も試みている。これもまた、機能動詞構造の抽出と同様に、慣用句構造毎に「受動態及び否定形が取れない」等の文法構造における制約を設け、入力慣用句がその制約に適合したか否かを判断し、その判断に従って慣用表現かどうかを区別する。

0028

しかし、これらの手法では変換すべき機能動詞構造を抽出するために、個々の動作性名詞と動詞との組み合わせ毎に変換ルールを持たせていることになる。この場合、変換ルールに網羅性を持たせるためには、例外処理が必要となり得る動詞の数と動作性名詞の数との積の分のルールが必要となり、個別処理テーブルの規模が莫大となる。

0029

日本語では、動作性名詞の種類だけでも1万以上あり、例外処理が必要な機能動詞も50種類以上あるため、それら全てに対して個々の動詞との組み合わせ毎に本動詞及び機能動詞フラグを人手で付けるには膨大な時間と労力がかかる。それに加え、慣用句構造も個別に異なるルールを設けているために、機能動詞構造、本動詞構造及び慣用句構造の判別を網羅するために必要な辞書の規模は莫大になる。逆に、限られた数の動作性名詞や慣用表現にのみルールを付加した場合、網羅性に欠けるため、正規化できない機能動詞構造が多数残ることになる。


先行技術

0030

Matsumoto Y.," A syntactic account of light verb phenomena in Japanese", Journal of East Asian Linguistics, Vol.5, No.2, 1996, pp.107-149.
奥 雅博「前編集不要型日英機械翻訳のための日本語処理技術に関する研究」新潟大博士論文工学部)第19号、2001年3月


発明が解決しようとする課題

0031

このように、従来の技術では、「動作性名詞+助詞+機能動詞」が機能動詞構造か否かを判別するために、言語テストの結果を人手で判断するか、もしくは個々の用例毎に制約条件や変換ルールを人手で付加させていた。そのため、機能動詞構造の正規化を行う際に下記の2点の問題点があった。

0032

1.各機能動詞と動作性名詞との組み合わせ毎に人手で判別するか、人手で作成したルールを付加させるため、辞書構築コストが莫大である。

0033

2.変換ルールに対応した機能動詞構造しか変換できず、網羅性に欠ける。


課題を解決するための手段

0034

機能動詞構造自動正規化における2つの問題点を同時に解決するため、本発明では以下の方法を取る。

0035

a.「動作性名詞+助詞+機能動詞」の入力に対し、機能動詞構造が備えることのできない主題化構造を自動生成し、それらの構造の容認度をコーパス中の出現頻度から自動的に算出する。

0036

b.「動作性名詞+助詞+機能動詞」の入力が慣用句構造を備えているか、入力単語列の連語度をコーパスから自動的に算出する。

0037

c.上記2種類のスコアをもとに、「動作性名詞+助詞+機能動詞」の入力を、学習に基づく分類器を用いて、機能動詞構造、本動詞構造及び慣用句構造の3種類に自動分類する。

0038

このような方法を取ることで、入力された構造が変換すべき機能動詞構造か、それとも変換すべきではない本動詞構造もしくは慣用句構造であるかを自動で判別することが出来る。結果、網羅性が有り、かつ膨大なルールや例外テーブルを構築せずに、正確に機能動詞構造を正規化させ、異なる述部表現を同一の表層形にまとめることが出来る。


発明の効果

0039

・「動作性名詞+助詞+機能動詞」の入力を、コーパスから算出した「主題化不可度」と「慣用表現度」を用いて自動で機能動詞構造、本動詞構造及び慣用句構造に分類することが出来る。結果、既存の技術のような動作性名詞と機能動詞との組み合わせ毎に人手で分類及びルール付加をする必要がなく、辞書構築のコストが削減できる。

0040

・機能動詞と動作性名詞との全ての組み合わせに対応できる。結果、網羅性があり、また対象文書の種類に拘わらず、汎用的に使用できる。

0041

・機能動詞構造、本動詞構造及び慣用句構造と3種類に分類することにより、正規化すべきもののみを単純な形に変換させるため、精度を下げることなく同じ意味の述部をまとめることが出来る。その結果、情報抽出、分類、集計などといったテキストマイニングの効果を上げることが出来る。


図面の簡単な説明

0042

本発明の機能動詞構造正規化装置の実施の形態の一例を示す構成図
機能動詞辞書の一例を示す説明図
動作性名詞辞書の一例を示す説明図
変換ルールテーブルの一例を示す説明図
機能動詞構造判別部の詳細を示す構成図
機能動詞構造正規化装置における処理の流れ図
機能動詞構造判別部における処理の流れ図
形態素解析及び文節区切り結果の一例を示す説明図
機能動詞構造候補抽出のようすの一例を示す説明図
入力LVC候補の標準形及び主題化変形文の一例を示す説明図
入力LVC候補の主題化不可度の計算結果の一例を示す説明図
慣用表現度計算の際の2×2テーブルの一例を示す説明図
自動判別部の分類器への入力素性の一例を示す説明図
決定木によるLVC自動判別のようすの一例を示す説明図
正規化処理のようすの一例を示す説明図
入力LVC候補の主題化不可度の計算結果の他の例を示す説明図
慣用表現度計算の際の2×2テーブルの他の例を示す説明図
自動判別部の分類器への入力素性の他の例を示す説明図
決定木によるLVC自動判別のようすの他の例を示す説明図
入力LVC候補の主題化不可度の計算結果のさらに他の例を示す説明図
慣用表現度計算の際の2×2テーブルのさらに他の例を示す説明図
自動判別部の分類器への入力素性のさらに他の例を示す説明図
決定木によるLVC自動判別のようすのさらに他の例を示す説明図

0043

以下、この発明を図示の実施の形態により詳細に説明する。

0044

図1は本発明の機能動詞構造正規化装置の実施の形態の一例を示すもので、図中、1は機能動詞辞書、2は動作性名詞辞書、3は変換ルールテーブル、4は形態素解析及び文節区切り部、5は機能動詞構造候補抽出部、6は機能動詞構造判別部、7は正規化部である。

0045

機能動詞辞書(記憶部)1は、予め作成された、助詞と機能動詞の標準形との組み合わせの集合を記憶してなるもので、図2にその一例を示す。

0046

動作性名詞辞書(記憶部)2は、予め作成された、動作性名詞と当該動作性名詞を動詞化した動詞化形との組み合わせの集合を記憶してなるもので、ここでは図3にその一例を示すように、動作性名詞が動詞化した際の語尾が様々である和語動詞辞書(a)と、動詞化した際の語尾が「する」であるサ変名詞辞書(b)とからなっている。

0047

変換ルールテーブル(記憶部)3は、予め作成された、機能動詞構造をどのように動詞化するかを示すいくつかの変換パターンと当該各変換パターンで付加する助動詞と当該各変換パターンの対象となる機能動詞構造における「助詞+機能動詞」(対象機能動詞)との組み合わせからなる変換ルールを記憶してなるもので、図4にその一例を示す。

0048

形態素解析及び文節区切り部4は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された入力文書に対し、一文毎に周知の形態素解析処理及び文節区切り処理を行い、形態素(単語)毎の表記、読み、品詞、標準形、活用形等の単語情報及び文節単位の区切り情報(文節番号)を機能動詞構造候補抽出部5へ出力する。

0049

機能動詞構造候補抽出部5は、機能動詞辞書1及び動作性名詞辞書2を用いて、形態素解析及び文節区切り部4から出力された単語情報及び区切り情報に基づき、入力文書中から「動作性名詞+助詞+機能動詞」の組み合わせからなる述部を機能動詞構造候補として抽出し、機能動詞構造判別部6へ出力する。

0050

機能動詞構造判別部(機能動詞構造判別装置)6は、機能動詞構造候補抽出部5で抽出された機能動詞構造候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別し、機能動詞構造と判別した候補のみを正規化部7へ出力するもので、図5に示すように、主題化不可度計算部61、慣用表現計算部62及び自動判別部63からなっている。

0051

主題化不可度計算部61は、前記機能動詞構造候補の標準形及び主題化変形文の所定のコーパスにおけるそれぞれの出現頻度から当該機能動詞構造候補の主題化不可度を計算する。

0052

慣用表現計算部62は、前記機能動詞構造候補における「動作性名詞」と「助詞+機能動詞」との間の連語度を慣用表現度として計算する。

0053

自動判別部63は、少なくとも主題化不可度及び慣用表現度を素性とし、機能動詞構造、本動詞構造及び慣用句構造をクラスとする機能動詞構造に関する所定の正解データに基づいて自動学習により作成された分類器を用いて、少なくとも前記機能動詞構造候補の主題化不可度及び慣用表現度から当該機能動詞構造候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを判別する。

0054

正規化部7は、機能動詞構造判別部6から出力された機能動詞構造と判別された機能動詞構造候補のみを、変換ルールテーブル3を用いて正規化して出力する。

0055

なお、本動詞構造または慣用句構造と判別された機能動詞構造候補は、機能動詞構造判別部6からそのまま出力される。

0056

図6は前述した機能動詞構造正規化装置全体の処理の流れを、また、図7は機能動詞構造判別部における処理の流れを示すもので、以下、各部の構成及び動作の詳細を具体的な例に沿って説明する。

0057

<入力>
機能動詞構造正規化装置の入力は、日本語で書かれた文書である。本実施例では、前記(6)の「祖母が息子の頑張りに感動を覚えた」を入力文の例として説明する。

0058

<形態素解析及び文節区切り>
形態素解析及び文節区切り部4において、入力文書に対し、一文毎に周知の形態素解析処理及び文節区切り処理を行う(s1)。形態素解析では、文が単語単位分割され、各単語に表記、読み、品詞、標準形、活用形等の単語情報が付与される。文節区切りでは、形態素(単語)が文節単位にまとめられる。形態素解析器は、公知のものを用いて良い。また、文節区切りには、係り受け解析器など公知のものが利用できる。図8に前記(6)の文の形態素解析及び文節区切り結果の一例を示す。

0059

<機能動詞構造(Light Verb Construction;LVC)候補抽出>
機能動詞構造候補抽出部5において、形態素解析及び文節区切り結果を入力とし、機能動詞構造(以後、LVC)候補の抽出を下記の手順で行う(s2)。

0060

1.主辞が動詞である文節と、その直前の文節とのペアを取り出す。そして、直前文節の主辞を動作性名詞、直前文節の格助詞を助詞、動詞そのものを機能動詞の候補とする。

0061

上記の例では、文節番号4と5がペアとして取り出され、動作性名詞として「感動」、助詞として「を」、機能動詞として「覚え」が候補として取り出される。

0062

2.上記1で取り出された助詞と機能動詞の標準形でペアを作成し、機能動詞辞書1の助詞と機能動詞とのペアとマッチするか検索する。

0063

機能動詞辞書1が図2に示したものであった場合、助詞「を」、機能動詞「覚える」のペアにマッチする。

0064

3.動作性名詞の標準形が、動作性名詞辞書2の名詞とマッチするかを検索する。

0065

上記の例では、「感動」が図4に示した動作性名詞辞書2中のサ変名詞辞書(b)に存在するため、マッチする。動作性名詞かどうかの判断は、辞書を用いる他にも、形態素解析の品詞などに動作性名詞を表すカテゴリーがあれば、それを手がかりにすることもできる。

0066

4.上記2,3にて「助詞+機能動詞」のペアと「動作性名詞」とがそれぞれ辞書にエントリーを有していた場合、入力文内の「動作性名詞+助詞+機能動詞」の組を「LVC候補」として出力する。

0067

図9に前記(6)の文に対する機能動詞構造候補抽出のようすの一例を示す。

0068

<機能動詞構造判別>
機能動詞構造判別部(機能動詞構造判別装置)6において、LVC候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかの判別を行う(s3)。

0069

入力は「動作性名詞+助詞+機能動詞」というLVC候補である。以下では、本実施例の(6)から抽出されたLVC候補「感動を覚え」をもとに説明する。

0070

〈主題化不可度計算〉
まず、主題化不可度計算部61において、「LVCは主題化が出来ない」という特徴をもとに、入力されたLVC候補の主題化不可度を計算する(s31)。

0071

1.入力LVC候補の標準形及び主題化させた変形文を生成する。

0072

まず、LVC候補の機能動詞を標準形に戻し、図10に示すような3種類の主題化変形文(Topic 1,2,3)を作成する。これは、日本語の主題化文の特徴である、「主題となる要素は『は』でマークされる」と「主題となる要素が文の先頭に移動する」という要素を対応付けた変形文である。なお、「*」は「任意の1語以上の単語」を表す。

0073

2.標準形と主題化変形文の出現頻度をカウントする。

0074

予め大量の文を蓄積しておいたコーパスから、標準形の出現頻度及び主題化変形文の出現頻度をカウントする。なお、出現頻度は検索サイトなどを用いて、標準形及び主題化変形文を含むページ数を、ウェブページからカウントしても良い。

0075

3.標準形の出現頻度と主題化変形文の出現頻度とから主題化不可度を計算し、出力する。

0076

標準形の出現頻度と主題化変形文の出現頻度との差を主題化不可度として計算する。

0077

本実施例では、下記の比を「主題化不可度」として計算する。

0078

0079

上記は、高ければ、「入力構造は主題化され難い」という特徴を表し、「機能動詞構造」もしくは「慣用句構造」と同じ特徴を表す。一方、低ければ主題化できるということを表し、「本動詞構造」と同じ特徴を表す。

0080

図11に入力LVC候補の主題化不可度の計算結果の一例を示す。

0081

〈慣用表現度計算〉
次に、慣用表現計算部62において、入力LVC候補の「動作性名詞」と「助詞+機能動詞」との間の連語度(collocation)を計算し、慣用表現度とする(s32)。

0082

ある語と語が同時に出現する確率を計算する連語度を用いることにより、その単語同士の結びつきの度合いを測ることが出来る。慣用句は、ある特定の語と語が結びついて特別な意味を保持する構造である。即ち、慣用句構造内の単語同士の結びつきはとても強く、連語度が非常に高ければそれは慣用表現の特徴であるといえる。そこで、連語度の値を「慣用表現度」とする。以下、具体的な慣用表現度の計算手順の一例を示す。

0083

1.〈主題化不可度計算〉で用いたものと同様のコーパスから、LVC候補の「動作性名詞の出現頻度(C1)」、「助詞+機能動詞ペアの出現頻度(C2)」、「動作性名詞+助詞+機能動詞の出現頻度(C11)」及び「コーパスに含まれる単語総数(N)」を計算し、2×2テーブルを作成する。なお、出現頻度をウェブページから取得する場合は、コーパスに含まれる単語数Nは、検索サイトに含まれる全ページ数とすれば良い。

0084

図12に「感動(C1)」「を覚える(C2)」「感動を覚える(C11)」の出現頻度から作成された2×2テーブルの例を示す。

0085

2.2×2テーブルより、「動作性名詞」と「助詞+機能動詞」との間の連語度を計算し、慣用表現度として値を出力する。本実施例では、相互情報量とx2値を用いる。これらは、t検定値や対数尤度比など、他の連語度を計算する方法で行うこともできる。

0086

以下に、前記(6)の文から抽出されたLVC候補「感動を覚え」の標準形である「感動を覚える」の「感動」と「を覚える」との間の慣用表現度の計算式を示す。

0087

・相互情報量
相互情報量は下記の式を用いて計算する。

0088

0089

・x2値
x2値は、下記の式を用いて計算する。

0090

0091

なお、〈主題化不可度計算〉及び〈慣用表現度計算〉は互いに独立しているので、実行順序は逆でも良い。

0092

〈自動判別〉
最後に、自動判別部63において、主題化不可度及び慣用表現度の数値並びに前述した「動作性名詞の出現頻度(C1)」、「助詞+機能動詞ペアの出現頻度(C2)」及び「動作性名詞+助詞+機能動詞の出現頻度(C11)」各々の対数値をもとに、入力LVC候補が機能動詞構造、本動詞構造及び慣用句構造のいずれであるかを分類器によって判別する(s33)。

0093

分類器とは、「素性」と「クラス」がペアになっている正解データから、素性の値をもとにどのクラスに分類するべきかを自動で学習するものである。本実施例では、素性を主題化不可度及び慣用表現度、並びに「動作性名詞の出現頻度(C1)」、「助詞+機能動詞ペアの出現頻度(C2)」及び「動作性名詞+助詞+機能動詞の出現頻度(C11)」各々の対数値とし、クラスを「機能動詞構造」、「本動詞構造」及び「慣用句構造」の3種類とする(なお、精度は若干低くなるが、主題化不可度及び慣用表現度のみを素性としても良い。)。そして、予め用意された正解データからどの構造に分類するべきかを学習する。分類器として、本実施例では決定木を用いるが、SVMなど他の分類器を用いても良い。

0094

1.主題化不可度、慣用表現度、「動作性名詞の出現頻度(C1)」の対数値、「助詞+機能動詞の出現頻度(C2)」の対数値、及び「動作性名詞+助詞+機能動詞の出現頻度(C11)」の対数値を入力素性とする。

0095

図13に本実施例における分類器への入力素性の例を示す。

0096

2.素性値をもとに、予め学習された決定木を用いて「機能動詞構造(lvc)」、「本動詞構造(heavy)」及び「慣用句構造(idiom)」の3つのいずれかに分類する。

0097

決定木では、決定木中の値を閾値として、lvc, heavy, idiomのどれかに分類されるまで入力値をもとに決定木をたどる。図14は本実施例における決定木によるLVC自動判別のようすを示すもので、図中の太線は「感動を覚える」の素性値が入力された際の決定木内での経路を示している。

0098

太線が示すように、LVC候補「感動を覚え(る)」は機能動詞構造と判別され、次の正規化プロセスへの入力となる。

0099

<正規化>
正規化部7において、正規化対象の機能動詞構造に対し、変換ルールテーブル3を用いた正規化処理を行う(s4)。

0100

1.正規化対象の機能動詞構造の「助詞+機能動詞」に対応した変換パターンを変換ルールテーブル3から取り出し、当該変換パターンに合わせて動作性名詞を動詞化させる。

0101

実施例の「を覚える」は「能動」が変換パターンとなる。本実施例における「能動」は前記動作性名詞を単純に動詞化させることを意味するので、図3の動作性名詞辞書2に載っている動詞化に沿って「感動」→「感動する」に変換させる。

0102

変換パターンが「使役」や「受動」など、付加する助動詞がある変換パターンの場合は、動詞化された語の語幹に、変換ルールテーブルに記載されている助動詞を接続させる。例えば「使役」に属する「を強いる」が動作性名詞「変更」と組み合わさった場合、「変更を強いる」→「変更する(動詞化)+ せる(付加する助動詞)」→「変更させる」というように、動詞化+助動詞が接続された状態で出力する。

0103

2.動詞化させた動作性名詞を活用させる。

0104

<形態素解析及び文節分解>で出力された機能動詞の活用形と同一の活用形に、動詞化された部分を活用させる。

0105

実施例では、過去を表す助詞「た」に接続しているため、「感動する」を連用形に変換させる。

0106

3.正規化対象部分以降の助詞・助動詞を連結させた正規形を出力する。

0107

実施例の入力「感動を覚え」の場合は、後続の助詞「た」を連結させた「感動した」が正規形として出力される。

0108

図15に本実施例における正規化処理のようすを示す。

0109

次に、前記(2)の「作業を覚える」がLVC候補として抽出された場合の動作について説明する。<入力>、<形態素解析及び文節区切り>及び<機能動詞構造候補抽出>に関する処理は実施例1の場合と基本的に同一であるため、<機能動詞構造判別>についてのみを述べる。

0110

<機能動詞構造判別>
〈主題化不可度計算〉
実施例1の場合と同様、コーパスを用いて「作業を覚える」の出現頻度を計算し、図16に示すように主題化不可度を算出する。

0111

〈慣用表現度計算〉
コーパスより、「作業(C1)」、「を覚える(C2)」、「作業を覚える(C11)」の出現頻度を計算し、図17に示すように2×2テーブルを作成し、以下のように相互情報量及びx2値を前記式(9)及び(10)を用いて求める。

0112

・相互情報量

0113

0114

・x2値

0115

0116

〈自動判別〉
主題化不可度、慣用表現度(相互情報量、x2値)、C1, C2, C11の対数値を入力とし、予め学習された決定木を用いて、機能動詞構造(lvc)、本動詞構造(heavy)、慣用句構造(idiom)のどれに分類されるかを判別する。

0117

図18に本実施例における分類器への入力素性の例を、図19に本実施例における決定木によるLVC自動判別のようすの例を示す。

0118

この際、「作業を覚える」は「本動詞構造」と認定されるため、次の正規化へは進まず、処理を終了させる。

0119

次に、前記(3)の「限りを尽くす」がLVC候補として抽出された場合の動作について説明する。<入力>、<形態素解析及び文節区切り>及び<機能動詞構造候補抽出>に関する処理は実施例1の場合と基本的に同一であるため、<機能動詞構造判別>についてのみを述べる。

0120

<機能動詞構造判別>
〈主題化不可度計算〉
実施例1の場合と同様、コーパスを用いて「限りを尽くす」の出現頻度を計算し、図20に示すように主題化不可度を算出する。

0121

〈慣用表現度計算〉
コーパスより、「限り(C1)」、「を尽くす(C2)」、「限りを尽くす(C11)」の出現頻度を計算し、図21に示すように2×2テーブルを作成し、以下のように相互情報量及びx2値を前記式(9)及び(10)を用いて求める。

0122

・相互情報量

0123

0124

・x2値

0125

0126

〈自動判別〉
主題化不可度、慣用表現度(相互情報量、x2値)、C1, C2, C11の対数値を入力とし、予め学習された決定木を用いて、機能動詞構造(lvc)、本動詞構造(heavy)、慣用句構造(idiom)のどれに分類されるかを判別する。

0127

図22に本実施例における分類器への入力素性の例を、図23に本実施例における決定木によるLVC自動判別のようすの例を示す。

0128

この際、「限りを尽くす」は「慣用句構造」と認定されるため、次の正規化へは進まず、処理を終了させる。

0129

このように、「作業を覚える」といった本動詞構造や「限りを尽くす」といった慣用句構造は、正規化処理の対象外として自動判別され、誤った正規化処理は行われず、正規化すべき機能動詞構造のみを変換させることが出来る。


実施例

0130

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1図5の構成図に示された機能を実現するプログラムあるいは図6図7フローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。

0131

1:機能動詞辞書(記憶部)、2:動作性名詞辞書(記憶部)、3:変換ルールテーブル(記憶部)、4:形態素解析及び文節区切り部、5:機能動詞構造候補抽出部、6:機能動詞構造判別部、61:主題化不可度計算部、62:慣用表現計算部、63:自動判別部、7:正規化部。


ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する未来の課題

ページトップへ

おすすめの成長市場

関連メディア astavision

  • 音声認識・音声合成・ボーカロイド

    米国Apple社は、2011年、iPhone向け知能型音声認識サービスSiriを市場に試験投入して以…

  • 高度運転支援・自動運転

    2015年1月、米国ラスベガスで開催された「2015 International CES (Cons…

  • MEMS・マイクロマシン・組込システム

    MEMS (Micro Electro Mechanical Systems:微小電気機械システム)…

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

( 分野番号表示ON )※整理標準化データをもとに当社作成

ページトップへ

新着 最近公開された関連が強い技術

この技術と関連性が強い人物

関連性が強い人物一覧

この技術と関連する未来の課題

関連性が強い未来の課題一覧

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ