図面 (/)

技術 テキスト含意判定装置、テキスト含意判定方法、及びプログラム

出願人 日本電気株式会社
発明者 土田正明石川開大西貴士
出願日 2012年10月4日 (8年2ヶ月経過) 出願番号 2013-511427
公開日 2015年4月2日 (5年8ヶ月経過) 公開番号 WO2013-058118
状態 特許登録済
技術分野 検索装置 機械翻訳
主要キーワード 項構造 共有数 データリーダ 記述語 照合規則 被覆度 株主総会 パーセプトロン
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年4月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題・解決手段

テキスト含意判定装置2は、第1及び第2のテキストそれぞれについて、述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部21と、第1のテキストについて述語項構造毎に生成されたベクトルと、第2のテキストについて述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、組合せ同定部22と、組合せ毎に、特徴量を求め、特徴量に基づいて、第1のテキストが第2のテキストを含意しているかどうかを判定する、含意判定部23と、を備えている。

概要

背景

近年、意味を持った自然文の検索など、自然言語を扱う多くのアプリケーションにおいて、高度化を図るため、テキスト合意判定が着目されている。テキスト含意判定とは、テキストTとテキストHとが与えられた時に「テキストTから、テキストHが推測できるか」どうかを判定するタスクである。

例えば、「テキストT:N社の利益は500億である。」、及び「テキストH:N社は黒字である。」が与えられた場合、テキストTからテキストHが推測され、テキストTはテキストHを含意すると判定される。なぜならば「500億の利益」は、「黒字」を意味するのに十分であると考えられるからである。

例えば、非特許文献1は、従来からのテキスト含意判定システムの一例を開示している。非特許文献1に開示されたテキスト含意判定システムは、まず、テキストTとテキストHとをそれぞれ構文解析し、それぞれについて、動詞が根(最上位ノード)となり、且つ、動詞の引数主語目的語等)に含まれる単語が子ノード又は孫ノードとなる、木構造を作成する。

次に、非特許文献1に開示された含意判定システムは、テキストTに対して、単語の置換及び構文的な言い換えを行い、その部分木において、テキストHの木構造と一致する木構造の作成を試みる。そして、上記含意判定システムは、テキストTの部分木において、上記の木構造を作成できた場合は、含意と判定する。

また、非特許文献1に開示された含意判定システムでは、木構造の一致判定を行う際に、完全一致かどうかの一致判定だけでなく、近似的な一致判定も行うことができる。具体的には、上記含意判定システムは、上述した木構造を作成した後、作成した木構造から、VAS(Verb-Argument Structure)と呼ばれるデータを作成する。

VASは、いわゆる述語項構造一種であり、木構造の根の動詞と、引数の種類毎に区別して作成した単語集合とから構成される。例えば、非特許文献1では、「Casey Sheehan was killed in Iraq.」という文から、「other: Iraq)>」というVASが生成されている。また、非特許文献1には、根がbe動詞である場合に、引数の種類を区別せずに、子ノード及び孫ノードの全体から単語集合を作成する方法も開示されている。

そして、非特許文献1に開示された含意判定システムは、テキストTとテキストHとから作成された2つのVASを対象に、同じ引数の単語集合間についての単語被覆率を求める。続いて、上記含意判定システムは、前記単語被覆率が一定以上の場合にその2つのVASの引数の内容が一致していると判定し、更に、一致する引数が一定割合以上である場合に2つのVASの元の木構造同士も一致すると判断する。このように、VASが生成される場合は、動詞の引数の文字列の完全一致だけではなく、近似的な一致も判定される。

概要

テキスト含意判定装置2は、第1及び第2のテキストそれぞれについて、述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部21と、第1のテキストについて述語項構造毎に生成されたベクトルと、第2のテキストについて述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、組合せ同定部22と、組合せ毎に、特徴量を求め、特徴量に基づいて、第1のテキストが第2のテキストを含意しているかどうかを判定する、含意判定部23と、を備えている。

目的

本発明の目的の一例は、上記問題を解消し、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を可能にし得る、テキスト含意判定装置、テキスト合意判定方法、及びコンピュータ読み取り可能な記録媒体を提供する

効果

実績

技術文献被引用数
3件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第1のテキストが第2のテキストを含意しているかどうかを判定するための装置であって、前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部と、前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、組合せ同定部と、同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、含意判定部と、を備えていることを特徴とするテキスト含意判定装置

請求項2

前記述語項構造が、前記第1のテキスト又は前記第2のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、前記ベクトル生成部が、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、請求項1に記載のテキスト含意判定装置。

請求項3

前記組合せ同定部が、前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、請求項1または2に記載のテキスト含意判定装置。

請求項4

前記組合せ同定部が、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、請求項3に記載のテキスト含意判定装置。

請求項5

前記含意判定部が、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、請求項1〜4のいずれかに記載のテキスト含意判定装置。

請求項6

前記含意判定部が、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、請求項5に記載のテキスト含意判定装置。

請求項7

前記含意判定部が、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、請求項6に記載のテキスト含意判定装置。

請求項8

前記含意判定部が、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、請求項5〜7のいずれかに記載のテキスト含意判定装置。

請求項9

第1のテキストが第2のテキストを含意しているかどうかを判定するための方法であって、(a)前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、(b)前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、ステップと、(c)同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、ステップと、を有することを特徴とするテキスト含意判定方法

請求項10

コンピュータによって、第1のテキストが第2のテキストを含意しているかどうかを判定するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータに、(a)前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、(b)前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、ステップと、(c)同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、ステップと、を実行させる、命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。

技術分野

0001

本発明は、特定のテキストが他のテキストを含意しているかどうかを判定するための、テキスト含意判定装置、テキスト含意判定方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。

背景技術

0002

近年、意味を持った自然文の検索など、自然言語を扱う多くのアプリケーションにおいて、高度化を図るため、テキスト合意判定が着目されている。テキスト含意判定とは、テキストTとテキストHとが与えられた時に「テキストTから、テキストHが推測できるか」どうかを判定するタスクである。

0003

例えば、「テキストT:N社の利益は500億である。」、及び「テキストH:N社は黒字である。」が与えられた場合、テキストTからテキストHが推測され、テキストTはテキストHを含意すると判定される。なぜならば「500億の利益」は、「黒字」を意味するのに十分であると考えられるからである。

0004

例えば、非特許文献1は、従来からのテキスト含意判定システムの一例を開示している。非特許文献1に開示されたテキスト含意判定システムは、まず、テキストTとテキストHとをそれぞれ構文解析し、それぞれについて、動詞が根(最上位ノード)となり、且つ、動詞の引数主語目的語等)に含まれる単語が子ノード又は孫ノードとなる、木構造を作成する。

0005

次に、非特許文献1に開示された含意判定システムは、テキストTに対して、単語の置換及び構文的な言い換えを行い、その部分木において、テキストHの木構造と一致する木構造の作成を試みる。そして、上記含意判定システムは、テキストTの部分木において、上記の木構造を作成できた場合は、含意と判定する。

0006

また、非特許文献1に開示された含意判定システムでは、木構造の一致判定を行う際に、完全一致かどうかの一致判定だけでなく、近似的な一致判定も行うことができる。具体的には、上記含意判定システムは、上述した木構造を作成した後、作成した木構造から、VAS(Verb-Argument Structure)と呼ばれるデータを作成する。

0007

VASは、いわゆる述語項構造一種であり、木構造の根の動詞と、引数の種類毎に区別して作成した単語集合とから構成される。例えば、非特許文献1では、「Casey Sheehan was killed in Iraq.」という文から、「other: Iraq)>」というVASが生成されている。また、非特許文献1には、根がbe動詞である場合に、引数の種類を区別せずに、子ノード及び孫ノードの全体から単語集合を作成する方法も開示されている。

0008

そして、非特許文献1に開示された含意判定システムは、テキストTとテキストHとから作成された2つのVASを対象に、同じ引数の単語集合間についての単語被覆率を求める。続いて、上記含意判定システムは、前記単語被覆率が一定以上の場合にその2つのVASの引数の内容が一致していると判定し、更に、一致する引数が一定割合以上である場合に2つのVASの元の木構造同士も一致すると判断する。このように、VASが生成される場合は、動詞の引数の文字列の完全一致だけではなく、近似的な一致も判定される。

先行技術

0009

Asher Stern et al., “Rule Chaining and Approximate Match in textual inference”, Text Analysis Conference 2010, (Online Proceeding), http://www.nist.gov/tac/publications/2010/participant.papers/BIU.proceedings.pdf

発明が解決しようとする課題

0010

このように、上述した非特許文献1に開示された含意判定システムは、2つの自然文を対象として、一方が他方を含意しているかどうかを判定できるため、自然文の検索などを可能にすることができると考えられる。

0011

しかしながら、上述した非特許文献1に開示された含意判定システムには、述語間の項構造が異なる場合に、含意判定を行なうことができない、という問題がある。これは、当該含意判定システムでは、述語間の項構造が同じであると仮定して、テキスト間の照合が試みられているためである。

0012

例えば、「テキストT:A社がパソコン事業から撤退した。」と、「テキストH:A社のパソコンが消える。」とが存在しているとする。上述した非特許文献1に開示された含意判定システムは、VASとして、テキストTから「撤退(主語:A社,目的語:パソコン,事業)」を抽出し、テキストHから「消える(主語:A社,の,パソコン)」を抽出する。

0013

このようなVASが抽出された場合、「撤退」と「消える」とは、動詞として異なっているため、上述した非特許文献1に開示された含意判定システムでは、テキストTがテキストHを含意しているにも拘わらず、含意していると判定されない結果となる。

0014

更に、当該含意判定システムにおいて、仮に、上記の場合に動詞間同一視するように設定したとしても、「消える」の主語と、「撤退」の主語及び目的語とが異なるため、この場合も、含意していると判定されない結果となる。

0015

[発明の目的]
本発明の目的の一例は、上記問題を解消し、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を可能にし得る、テキスト含意判定装置、テキスト合意判定方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

課題を解決するための手段

0016

上記目的を達成するため、本発明の一側面における含意判定装置は、第1のテキストが第2のテキストを含意しているかどうかを判定するための装置であって、
前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部と、
前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、組合せ同定部と、
同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、含意判定部と、
を備えていることを特徴とする。

0017

また、上記目的を達成するため、本発明の一側面における含意判定方法は、第1のテキストが第2のテキストを含意しているかどうかを判定するための方法であって、
(a)前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
(b)前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、ステップと、
(c)同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、ステップと、
を有することを特徴とする。

0018

更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって、第1のテキストが第2のテキストを含意しているかどうかを判定するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
(b)前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、ステップと、
(c)同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。

発明の効果

0019

以上のように、本発明によれば、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を可能にすることができる。

図面の簡単な説明

0020

図1は、本発明の実施の形態における含意判定装置の構成を示すブロック図である。
図2は、本発明の実施の形態における含意判定装置の動作を示すフロー図である。
図3は、テキストから抽出された述語項構造の一例を示す図である。
図4は、図3に示した述語項構造から生成されたベクトルを示す図である。
図5は、本実施の形態で実行される組合せの同定処理の一例を説明する図である。
図6は、本実施の形態で実行される含意判定処理の一例を説明する図である。
図7は、本発明の実施の形態における含意判定装置を実現するコンピュータの一例を示すブロック図である。

実施例

0021

(実施の形態)
以下、本発明の実施の形態における、含意判定装置、含意判定方法、及びプログラムについて、図1図7を参照しながら説明する。

0022

装置構成
最初に、本実施の形態における含意判定装置の構成について図1を用いて説明する。図1は、本発明の実施の形態における含意判定装置の構成を示すブロック図である。

0023

図1に示す、本実施の形態における含意判定装置2は、第1のテキストが第2のテキストを含意しているかどうかを判定するための装置である。また、図1に示すように、含意判定装置2は、ベクトル生成部21と、組合せ同定部22と、含意判定部23とを備えている。

0024

このうち、ベクトル生成部21は、まず、第1のテキスト及び第2のテキストそれぞれの述語項構造を取得する。そして、ベクトル生成部21は、第1のテキスト及び第2のテキストそれぞれについて、述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する。

0025

組合せ同定部22は、第1のテキストについて述語項構造毎に生成されたベクトルと、第2のテキストについて述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、第1のテキストの述語項構造と第2のテキストの述語項構造との組合せを同定する。

0026

含意判定部23は、同定された組合せ毎に、特徴量を算出し、算出された特徴量に基づいて、第1のテキストが第2のテキストを含意しているかどうかを判定する。

0027

このように、含意判定装置2では、項構造を無視したベクトルの比較結果から、判定対象とすべき述語項構造の組合せが同定され、同定された組合せを元にテキスト間の含意が判断される。従って、含意判定装置2によれば、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定が可能となる。

0028

続いて、本実施の形態における含意判定装置2の構成について更に具体的説明する。まず、本実施の形態において、含意判定装置2は、プログラム制御によって動作する装置であり、後述のプログラムをコンピュータ上で実行することによって実現される。

0029

また、本実施の形態において、「述語項構造」は、テキストに含まれる述語(動詞)、当該述語の引数となる単語、及び引数の種類を示す単語(ラベル)、を少なくとも含む(後述の図3参照)。従って、本実施の形態では、「述語項構造において述語の引数の種類を示す単語以外の単語」とは、述語(動詞)、及び引数となる単語を意味する。

0030

また、図1に示すように、本実施の形態では、含意判定装置2には、入力装置1と、含意判定装置2で使用される各種データを記憶する記憶装置3と、結果を出力するための出力装置4とが、接続されている。含意判定装置2は、入力装置1、記憶装置3、及び出力装置4と共に、含意判定システムを構築している。

0031

入力装置1は、含意判定装置2による含意判定の対象となる2つのテキスト、即ち、第1のテキストと第2のテキストとを、含意判定装置2に入力する。なお、以降においては、第1のテキストを「テキストT」または単に「T」と表記し、第2のテキストを「テキストH」または単に「H」と表記することがある。

0032

本実施の形態において、含意判定の対象となるテキストT及びテキストHは、何らかの方法で定められた任意の単位のテキストであれば良い。含意判定の対象となるテキストT及びテキストHとしては、例えば、テキストファイルを構成している全部又は一部のテキスト、構文解析で得られた任意の部分木に含まれる文字列を連結して作成されたテキスト、述語項構造内の文字列を連結して作成されたテキストなどが挙げられる。

0033

出力装置4は、含意判定装置2が入力装置1から入力されたテキストT及びテキストHに対して行なった、含意判定の結果を、出力する。出力装置4の具体例としては、表示装置プリンタなどが挙げられる。

0034

記憶装置3は、単語間照合規則記憶部30と、述語項構造間照合規則記憶部31とを備えている。本実施の形態では、含意判定装置2は、記憶装置3に記憶されている情報を利用できるため、記憶装置3が接続されていない場合に比べて、含意判定の精度の向上を図ることができる。

0035

単語間照合規則記憶部30は、同義、下位、部分、派生など単語間に成り立つ含意規則(単語間照合規則)を記憶している。例えば、単語間照合規則としては、「日本電気NEC」、「走る→動く」、「東京→日本」、「メーカー→製造する」、などが挙げられる。

0036

述語項構造間照合規則記憶部31は、含意判定時に照合すべき述語項構造間の引数の関係(述語項構造間照合規則)を記憶している。例えば、述語項構造間照合規則としては、「撤退する(主語:X,目的語:Y)→消える(主語:XのY)」、「殺す(目的語:X)→死ぬ(主語:X)」などが挙げられる。

0037

含意判定装置2は、本実施の形態では、上述した、ベクトル生成部21、組合せ同定部22、及び含意判定部23に加えて、述語項構造解析部20を備えている。述語項構造解析部20は、入力装置1によって入力されたテキストに対して構造解析を行ない、構造解析の結果に基づいて、各テキストから述語項構造を抽出する。また、述語項構造解析部20は、抽出した述語構造を、ベクトル生成部21に出力する。

0038

ベクトル生成部21は、本実施の形態では、上述したように、述語項構造において述語の引数の種類を示す単語以外の単語、即ち、述語と、述語の引数となる単語とを取り出し、これらを用いて、ベクトルを生成する。また、ベクトル生成部21は、各テキストの述語項構造毎に、即ち、各テキストが複数の述語構造を有する場合は各述語構造について、ベクトルを生成する。ベクトル生成部21は、生成したベクトルを、組合せ同定部22に出力する。

0039

組合せ同定部22は、本実施の形態では、単語間照合規則記憶部30及び述語項構造間照合規則記憶部31それぞれから、照合規則を読み込み、照合規則を参照して、組合せを同定することができる。更に、組合せ同定部22は、同定した組合せを含意判定部23に出力する。

0040

また、組合せ同定部22は、本実施の形態では、テキストTについて述語項構造毎に生成されたベクトルと、テキストHについて述語項構造毎に生成されたベクトルと、の類似度を算出する。そして、組合せ同定部22は、算出した類似度に基づいて、テキストTの述語項構造とテキストHの述語項構造との組合せを同定する。

0041

具体的には、例えば、テキストTが単一の述語構造しか有していないとする。この場合、組合せ同定部22は、テキストHの述語項構造毎に、当該述語項構造とテキストTの単一の述語項構造との組合せを同定する。即ち、この場合は、テキストHの述語項構造の数だけ、組合せが同定されることになる。

0042

一方、テキストTが複数の述語項構造を有しているとする。この場合、組合せ同定部22は、テキストHの述語項構造から生成された各ベクトルと、テキストTの述語構造から生成された各ベクトルとの、想定される全てのペアについて、類似度を算出する。そして、組合せ同定部22は、類似度が閾値以上となるペア、又は類似度が最も高いペアを特定し、特定したペアの作成元の2つの述語項構造を同定する。

0043

含意判定部23は、本実施の形態では、述語項構造において述語の引数の種類を示す単語以外の単語(述語及びその引数となる単語)に基づいて、特徴量を算出する。また、特徴量としては、テキストTの述語項構造とテキストHの述語項構造とにおける、単語の被覆度合い、及び引数となる単語のみを対象とした単語の一致度合いなどが挙げられる。

0044

また、含意判定部23は、例えば、特徴量に閾値を設定し、設定した閾値以上となる場合に、テキストTがテキストHを含意していると判定することができる。更に、含意判定部23は、本実施の形態では、特徴量に加えて、述語項構造の構造的な特徴を用いて判定を行なうこともできる。

0045

その後、含意判定部23は、含意判定の結果を、出力装置4に出力する。なお、本実施の形態では、含意判定における判定基準は、特に限定されるものではなく、従来から含意判定に用いられている判定基準を利用することもできる。

0046

装置動作
次に、本発明の実施の形態における含意判定装置2の動作について図2を用いて説明する。図2は、本発明の実施の形態における含意判定装置の動作を示すフロー図である。以下の説明においては、適宜図1を参酌する。また、本実施の形態では、含意判定装置2を動作させることによって、含意判定方法が実施される。よって、本実施の形態における含意判定方法の説明は、以下の含意判定装置2の動作説明に代える。

0047

[述語項構造の抽出処理
最初に、図2に示すように、述語項構造解析部20が、入力装置1から、テキストTとテキストHとの入力を受付け、入力を受付けたテキストT及びテキストHから述語項構造を抽出する(ステップS1)。

0048

ここで、述語項構造の具体例について図3を用いて説明する。図3は、テキストから抽出された述語項構造の一例を示す図である。図3の例では、テキストT及びテキストHが例示されているが、テキストTは、テキストT1とテキストT2との2つである。図3に示すテキストT1及びT2と、テキストHとが入力されると、含意判定装置2では、テキストT1がテキストHを含意しているかどうか、及びテキストT2がテキストHを含意しているかどうか、が判定される。

0049

また、図3の例では、述語項構造解析部20は、テキスト「T1:株主総会によってA社(東京)の社長としてB氏が承認された。」からは、述語が「承認」であるため、述語項構造として、「承認(主語:株主総会,目的語:B氏,目標:A社(東京)の社長)」を抽出する。

0050

更に、述語項構造解析部20は、テキスト「T2:A社の社長に東京に住むB氏が就任した。」からは、述語が「就任」と「住む」とであるため、述語項構造として、「就任(主語:B氏,目標:A社の社長)」と、「住む(主語:B氏,場所:東京)」とを抽出する。

0051

また、述語項構造解析部20は、テキスト「H:B氏が東京にあるA社の社長になった。」からは、述語が「なる」と「ある」とであることから、述語項構造として、「なる(主語:B氏,目標:東京にあるA社の社長)」と、「ある(主語:A社,場所:東京)」とを抽出する。

0052

なお、図3の例では、T1はHを含意しているが、T2はHを含意していない、と判定された場合に正解となる。これは、T2からは「A社が東京にある」という情報が読み取れないためである。

0053

[述語項構造ベクトルの生成処理
次に、ベクトル生成部21は、ステップS1で抽出された各テキストの述語項構造を取得し、各テキストについて、述語項構造毎に、述語項構造中の述語及び述語の引数となる単語が成分となるベクトル(以下「述語項構造ベクトル」と表記する。)を作成する(ステップS2)。

0054

図4は、図3に示した述語項構造から生成されたベクトルを示す図である。図4に示すように、ベクトル生成部21は、述語及び述語の引数となる単語といった内容語のみを用いて、述語項構造ベクトルを生成する。本実施の形態においては、述語項構造ベクトルは、述語項構造において述語の引数の種類を示す単語以外の単語を成分として含んでいれば良い。

0055

具体的には、図4に示すように、ベクトル生成部21は、T1から抽出された述語項構造「承認(主語:株式総会,目的語:B氏,目標:A社(東京)の社長)」から、述語項構造ベクトルとして(承認,株主,総会,B氏,A社,東京,社長)を生成する。

0056

また、ベクトル生成部21は、T2から抽出された「就任(主語:B氏,目標:A社の社長)」及び「住む(主語:B氏,場所:東京)」から、(就任,B氏,A社,社長)と(住む,B氏,東京)とを生成する。

0057

更に、ベクトル生成部21は、Hから抽出された「なる(主語:B氏,目標:東京にあるA社の社長)」及び「ある(主語:A社,場所:東京)」から、(なる,B氏,東京,A社,社長)と(ある,A社,東京)とを生成する。

0058

また、本実施の形態では、ベクトル生成部21は、例えば「述語_引数の種類_単語」など項構造から取得できる任意の情報(以下「構造情報」と表記する。)を、述語項構造ベクトルに付加することもできる。この場合、ベクトル生成部21は、例えば、(承認,株主,総会,B氏,A社,東京,社長,述語:承認,承認_主語_株主,承認_主語_総会, 承認_目的語_B氏, ...)といったベクトルを生成することができる。

0059

[述語項構造の組合せの同定処理]
次に、組合せ同定部22は、テキストHの述語項構造から得られた各ベクトルに対する、テキストT1及びテキストT2それぞれの述語項構造から得られた各ベクトルの類似度を計算し、類似度に基づいて、述語項構造の組合せを同定する(ステップS3)。例えば、組合せ同定部22は、類似度が閾値以上となるベクトルのペア、又は類似度が最も高いベクトルのペアを特定し、特定したペアの作成元の2つの述語項構造を同定する。

0060

また、類似度の算出に際して、算出対象となる2つの述語項構造ベクトルは、両者の文字列の数の合計値から共通の文字列の数を減算して得られる値を次元数とするベクトルに変換される。このとき、文字列が存在する成分は「1」とされ、文字列が存在しない成分は「0」とされる。

0061

例えば、テキストT2の(住む,B氏,東京)と、テキストHの(なる,B氏,東京,A社,ある,社長)を例に挙げる。この場合、次元数は、7(=3+6−2)となる。また、前者は(1,1,1,0,0,0,0)に変換され、後者は(0,1,1,1,1,1,1)に変換される。また、変換後の各ベクトルの成分には、何らかの方法で推定した重みの値が付与されていても良い。

0062

ここで、図5を用いて、ステップS3の処理の具体例を説明する。図5は、本実施の形態で実行される組合せの同定処理の一例を説明する図である。図5の例では、類似度の閾値は0.5に設定され、下記の数1によってコサイン類似度simが算出される。また、下記の数1において、x、yは、算出対象となる2つの変換後のベクトルを示している。更に、下記の数1において、(x・y)はベクトルxとベクトルyとの内積を示し、|x|はベクトルxの長さを示し、|y|はベクトルyの長さを示す。

0063

(数1)
sim=(x・y)/(|x||y|)

0064

図5に示すように、まず、T1とHとが含意判定の対象であるとする。T1は述語項構造を一つしか有していないので、T1の述語項構造とHの「ある(主語:A社,場所:東京)」との組合せと、同じくT1の述語項構造とHの「なる(主語:B氏,目標:東京にあるA社の社長)」との組合せとが自動的に同定される。

0065

一方、T2とHとが含意判定の対象であるとすると、想定される全てのベクトルのペアについて類似度が算出される。上記数1から、Hの「ある(主語:A社,場所:東京)」と、T2の「住む(主語:B氏,場所:東京)」との述語項構造ベクトルの類似度は、0.333と算出される。また、Hの「ある(主語:A社,場所:東京)」と、T2の「就任(主語:B氏,目標:A社の社長)」との述語項構造ベクトルの類似度は、0.289と算出される。

0066

この場合、どちらの類似度も閾値を超えていないが、Hの「ある(主語:A社,場所:東京)」については、類似度が最大となる「住む(主語:B氏,場所:東京)」が判定すべき述語項構造として同定される。

0067

同様に、Hの「なる(主語:B氏,目標:東京にあるA社の社長)」では、T2の「就任(主語:B氏,目標:A社の社長)」との述語項構造ベクトルの類似度が0.617と算出され、「住む(主語:B氏,場所:東京)」との述語項構造ベクトルの類似度が0.471とされる。この場合、後者の類似度は、閾値を下回るため、類似度が最大となる「就任(主語:B氏,目標:A社の社長)」のみが、判定すべき述語項構造として同定される。

0068

また、本実施の形態では、組合せ同定部22は、単語間照合規則記憶部30に記憶されている単語間照合規則を参照し、単語間照合規則で定義されている2つの単語を一致していると見なして類似度を計算することもできる。

0069

例えば、単語間照合規則において、派生の関係にある動詞と名詞とが既定されている場合であれば、組合せ同定部22は、この動詞と名詞とを一致している単語と見なして類似度を計算することができる。この結果、述語項構造にとらわれることなく、より適切に判定すべき述語項構造の同定が可能になる。

0070

更に、本実施の形態では、組合せ同定部22は、ステップS2の説明で述べた構造情報が述語項構造ベクトルに付加されている場合は、述語項構造間照合規則記憶部31に記憶されている述語項構造間照合規則を参照する。そして、この場合、組合せ同定部22は、述語項構造照合規則で定義されている2つの述語項構造それぞれの引数を一致している単語と見なして類似度を計算する。また、この場合、組合せ同定部22は、引数の一致を判断する際に、単語間照合規則を参照することもできる。

0071

また、ステップS3では、組合せ同定部22は、冗長な情報を持たない述語項構造を同定するために、類似度の算出の際に、各述語項構造ベクトルの有する情報の量に応じて正規化処理を実行することもできる。また、述語項構造ベクトルの有する情報の量としては、例えば、ベクトルの0(ゼロ)でない成分の数、成分の重みなどが挙げられる。更に、正規化処理が実行された上で算出される類似度としては、コサイン類似度、ジャカード(jaccard)係数などが挙げられる。

0072

例えば、「発表(主語:社長,目的:B氏が会長になること)」という述語項構造を考える。この場合、述語項構造の「目的」には、「なる(主語:B氏,目標:会長)」という述語項構造が内在している。よって、単語共有数を類似度として用いて、「なる(主語:B氏,目標:社長)」という述語項構造の判定対象を同定しようとすると、類似度は前者との間では3個となり、前者に内在する後者との間では2個となる。この結果、単語共有数を類似度として用いた場合は、前者が判定対象として選ばれやすくなる。

0073

しかし、前者は、B氏が社長という意味ではないものの、「社長」という単語を含むため、後述する含意判定部23における判定基準によっては、「なる(主語:B氏,目標:社長)」は前者を含意する、という誤った含意判定がなされる可能性がある。

0074

よって、例えば、2つの述語項構造ベクトルそれぞれの単語数のうち、多い方の単語数で、各述語項構造ベクトルの単語共有数を除算して、正規化することが考えられる。この場合、前者の類似度は0.6(=3/5)となり、後者の類似度は0.66(=2/3)となり、後者が判定対象として選ばれやすくなる。

0075

このように、類似度の算出の際に上述した正規化処理を実行すれば、冗長な情報を持たない述語項構造が選択されやすくなる。このため、誤った含意判定がなされる可能性が低減される。

0076

[含意判定処理]
最後に、含意判定部23は、ステップS3で組合せ同定部22が同定した、H側の各述語構造とT側の判定対象の述語項構造との各組合せについて、特徴量を求め、特徴量に基づいて、TがHを含意しているかどうかを判定する(ステップS4)。また、本実施の形態では、含意判定部23は、例えば、求めた特徴量に基づいて、TとHとの含意スコアを計算し、含意スコアが一定値以上であれば含意と判定する。

0077

具体的には、含意判定部23は、述語項構造において述語の引数の種類を示す単語以外の単語(述語及び述語の引数となる単語)に基づき、述語項構造間における、単語の被覆度合い、又は引数となる単語のみを対象とした単語の一致度合いを特徴量として求める。更に、含意判定部23は、組合せ同定部22と同様に、単語間照合規則及び述語項構造間照合規則の一方又は両方を用いて、特徴量を求めることもできる。

0078

ここで、図6を用いて、ステップS4の処理の具体例を説明する。図6は、本実施の形態で実行される含意判定処理の一例を説明する図である。図6の例では、特徴量として、述語項構造間における単語の被覆度合い(被覆率)が求められる。具体的には、被覆率は、同定された組合せにおいて、Hの述語項構造ベクトルとT1又はT2の述語項構造ベクトルとの一致する成分の個数をa、Hの述語項構造ベクトルの全成分の個数をbとすると、下記の数2によって算出される。

0079

(数2)
被覆率=a/b

0080

更に、図6の例では、T1又はT2とHとの間で算出された特徴量の平均値が計算され、この平均値が含意スコアとして用いられる。そして、含意スコアが0.50以上の場合に、含意と判定される。

0081

図6に示すように、T1とHとの含意判定において、Hの「ある(主語:A社,場所:東京)」と、T1の「承認(主語:株主総会,目的語:B氏,目標:A社(東京)の社長)」とでは、上記数2から、被覆率は、0.66(=2/3)となる。

0082

また、Hの「なる(主語:B氏,目標:東京にあるA社の社長)」と、T1の「承認(主語:株主総会,目的語:B氏,目標:A社(東京)の社長)」とでは、上記数2から、被覆率は、0.66(=4/6)となる。

0083

従って、T1とHとの含意スコアは、0.66(=(0.66+0.66)/2)となる。結果、合意スコアは、閾値である0.50以上となるため、含意判定部23は、「T1はHを含意する」と判定する。

0084

一方、T2とHとの含意判定において、Hの「ある(主語:A社,場所:東京)」と、T2の「住む(主語:B氏,場所:東京)」とでは、上記数2から、被覆率は、0.33=(1/3)となる。

0085

また、Hの「なる(主語:B氏,目標:東京にあるA社の社長)」と、T2の「就任(主語:B氏,目標:A社の社長)」とでは、上記数2から、被覆率は、0.5(=3/6)となる。

0086

従って、T2とHとの含意スコアは、0.415(=(0.33+0.5)/2)となる。結果、含意スコアは、閾値である0.50以下であるため、含意判定部23は、「T2はHを含意しない」と判定する。

0087

更に、本実施の形態では、含意判定部23は、特徴量を求める際に、機械学習によって得られたデータに基づいて、特徴量に重みを付与することもできる。具体的には、機械学習によって、含意と判定できる2つのテキストの組合せが大量に学習されている場合、含意判定部23は、学習されたデータに基づいて、算出された特徴量を補正することができる。また、機械学習の具体例としては、例えば、決定木パーセプトロンサポートベクトルマシンなどが挙げられる。

0088

ところで、上述の図6に示す例では、含意判定部23は、組合せ毎に、述語項構造に含まれる述語と引数となる単語とから求めた特徴量を用いて、含意判定を行なっているが、本実施の形態は、上記の例に限定されるものではない。

0089

本実施の形態では、含意判定部23は、上記特徴量に加えて、各テキストの述語項構造の構造的な特徴を用いて、TがHを含意しているかどうかを判定することができる。ここで、構造的な特徴としては、述語項構造に付与される、「否定」、「様相(推測,可能など)」といった情報の有無、述語の引数の種類、などが挙げられる。

0090

具体的には、T1の「承認された」が仮に「承認されなかった」であるとすると、述語項構造には、情報として「否定」が付与される。この場合、H側に「否定」が付与されていないとすると、含意判定部23は、T側に「否定」が付与されている、ということに基づいて、被覆率が高い場合でも非含意と判定できる。

0091

このように、本実施の形態では、含意判定において、述語と述語の引数となる単語とから求めた特徴量に加えて、述語項構造の構造的な特徴が用いられるので、どちらか一方だけでは含意判定が困難な場合であっても、正確な含意判定が可能となる。

0092

更に、含意判定部23は、特徴量に加えて、述語項構造の構造的な特徴が用いられる場合は、Tの述語項構造とHの述語項構造との構造的な類似性に応じて、特徴量及び構造的な特徴のいずれか一方を優先して含意判定を行なうこともできる。ここで、「構造的な類似性」は、例えば、述語同士の類似の度合に基づいて、又は、各述語項構造に含まれる引数の種類の類似の度合いに基づいて特定される。

0093

例えば、「である(主語:A氏,目標:東京の議員)」と、「当選(主語:A氏,目的語:議員,場所:東京)」とを比較対象とすると、この場合、両者間の構造的な類似性は低いので、述語項構造の構造的な特徴は、含意判定において有効でない。よって、含意判定部23は、特徴量を優先して含意判定を実行する。

0094

一方、例えば、「説得(主語:A氏,目的語:B氏)」と、「説明(主語:B氏,目的語:A氏)」とを比較対象とすると、この場合、両者間の構造的な類似性は高いので、述語項構造の構造的な特徴は、含意判定において有効となる。また、この例では、上述した特徴量だけで判定が行なわれると、含意と判定される可能性が高いが、引数の種類と引数となる単語との組合せなど、構造的な特徴は一つも一致しないので、実際には非含意である。従って、この例では、含意判定部23は、構造的な特徴を優先して含意判定を実行する。

0095

[実施の形態による効果]
ここで、単純に、テキスト中の単語集合の被覆率を、含意スコアとして、含意判定を行なう場合について検討する。図3の例を挙げると、T1及びT2は、共に、Hの6個の内容語のうち4単語(A社,B氏,東京,社長)を含んでいる。よって、Hを基準とした被覆率は、共に、0.66(=4/6)となる。これは、含意、非含意を区別できないことを意味する。

0096

これに対して、本実施の形態では、項構造を無視したベクトルの比較結果から、判定対象とすべき述語項構造の組合せが同定され、同定された組合せを元にテキスト間の含意が判断される。よって、図6を用いてステップS6で述べたように、T1はHを含意し、T2はHを含意しないと判定される。本実施の形態によれば、述語間の項構造が異なる場合であっても、これらの含意判定が可能となる。

0097

[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図2に示すステップS1〜S4を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における含意判定装置2と含意判定方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、述語項構造解析部20、ベクトル生成部21、組合せ同定部22、含意判定部23として機能し、処理を行なう。また、本実施の形態では、コンピュータに備えられたハードディスク等の記憶装置が、記憶装置3として機能することができる。

0098

ここで、本実施の形態におけるプログラムを実行することによって、含意判定装置2を実現するコンピュータについて図7を用いて説明する。図7は、本発明の実施の形態における含意判定装置を実現するコンピュータの一例を示すブロック図である。

0099

図7に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。

0100

CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。

0101

また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。

0102

また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイスフレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。

0103

上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記24)によって表現することができるが、以下の記載に限定されるものではない。

0104

(付記1)
第1のテキストが第2のテキストを含意しているかどうかを判定するための装置であって、
前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ベクトル生成部と、
前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、組合せ同定部と、
同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、含意判定部と、
を備えていることを特徴とするテキスト含意判定装置。

0105

(付記2)
前記述語項構造が、前記第1のテキスト又は前記第2のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
前記ベクトル生成部が、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
付記1に記載のテキスト含意判定装置。

0106

(付記3)
前記組合せ同定部が、前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、
付記1または2に記載のテキスト含意判定装置。

0107

(付記4)
前記組合せ同定部が、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
付記3に記載のテキスト含意判定装置。

0108

(付記5)
前記含意判定部が、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
付記1〜4のいずれかに記載のテキスト含意判定装置。

0109

(付記6)
前記含意判定部が、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、
付記5に記載のテキスト含意判定装置。

0110

(付記7)
前記含意判定部が、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、付記6に記載のテキスト含意判定装置。

0111

(付記8)
前記含意判定部が、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、付記5〜7のいずれかに記載のテキスト含意判定装置。

0112

(付記9)
第1のテキストが第2のテキストを含意しているかどうかを判定するための方法であって、
(a)前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
(b)前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、ステップと、
(c)同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、ステップと、
を有することを特徴とするテキスト含意判定方法。

0113

(付記10)
前記述語項構造が、前記第1のテキスト又は前記第2のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
前記(a)のステップにおいて、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
付記9に記載のテキスト含意判定方法。

0114

(付記11)
前記(b)のステップにおいて、前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、
付記9または10に記載のテキスト含意判定方法。

0115

(付記12)
前記(b)のステップにおいて、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
付記11に記載のテキスト含意判定方法。

0116

(付記13)
前記(c)のステップにおいて、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
付記9〜12のいずれかに記載のテキスト含意判定方法。

0117

(付記14)
前記(c)のステップにおいて、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、
付記13に記載のテキスト含意判定方法。

0118

(付記15)
前記(c)のステップにおいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、付記14に記載のテキスト含意判定方法。

0119

(付記16)
前記(c)のステップにおいて、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、付記13〜15のいずれかに記載のテキスト含意判定方法。

0120

(付記17)
コンピュータによって、第1のテキストが第2のテキストを含意しているかどうかを判定するためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記第1のテキスト及び前記第2のテキストそれぞれの述語項構造を取得し、前記第1のテキスト及び前記第2のテキストそれぞれについて、前記述語項構造毎に、当該述語項構造において述語の引数の種類を示す単語以外の単語を用いて、ベクトルを生成する、ステップと、
(b)前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルとを比較し、比較の結果に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、ステップと、
(c)同定された前記組合せ毎に、特徴量を求め、求めた前記特徴量に基づいて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。

0121

(付記18)
前記述語項構造が、前記第1のテキスト又は前記第2のテキストに含まれる述語と、前記述語の引数となる単語と、前記引数の種類を示す単語とを含み、
前記(a)のステップにおいて、前記述語と、前記述語の引数となる単語とを用いて、前記ベクトルを生成する、
付記17に記載のコンピュータ読み取り可能な記録媒体。

0122

(付記19)
前記(b)のステップにおいて、前記第1のテキストについて前記述語項構造毎に生成されたベクトルと、前記第2のテキストについて前記述語項構造毎に生成されたベクトルと、の類似度を算出し、算出した前記類似度に基づいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との組合せを同定する、
付記17または18に記載のコンピュータ読み取り可能な記録媒体。

0123

(付記20)
前記(b)のステップにおいて、前記類似度の算出の際に、前記ベクトルの有する情報の量に応じて正規化処理を実行する、
付記19に記載のコンピュータ読み取り可能な記録媒体。

0124

(付記21)
前記(c)のステップにおいて、前記組合せ毎に、前記述語項構造において述語の引数の種類を示す単語以外の単語に基づいて、前記特徴量として、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造とにおける、単語の被覆度合い、及び前記引数となる単語のみを対象とした単語の一致度合い、のいずれかを求める、
付記17〜20のいずれかに記載のコンピュータ読み取り可能な記録媒体。

0125

(付記22)
前記(c)のステップにおいて、前記特徴量に加えて、前記述語項構造の構造的な特徴を用いて、前記第1のテキストが前記第2のテキストを含意しているかどうかを判定する、
付記21に記載のコンピュータ読み取り可能な記録媒体。

0126

(付記23)
前記(c)のステップにおいて、前記第1のテキストの述語項構造と前記第2のテキストの述語項構造との構造的な類似性に応じて、前記特徴量及び前記述語項構造の構造的な特徴のいずれか一方を優先して判定を行なう、付記22に記載のコンピュータ読み取り可能な記録媒体。

0127

(付記24)
前記(c)のステップにおいて、前記特徴量を求める際に、機械学習によって得られたデータに基づいて、前記特徴量に重みを付与する、付記21〜23のいずれかに記載のコンピュータ読み取り可能な記録媒体。

0128

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0129

この出願は、2011年10月20日に出願された日本出願特願2011−230773を基礎とする優先権を主張し、その開示の全てをここに取り込む。

0130

以上のように、本発明によれば、判定対象となる複数のテキストにおいて、述語間の項構造が異なる場合であっても、これらの含意判定を実現できる。よって、本発明は、情報検索システムにおける意味的な自然文検索といった用途に有用である。また、本発明は、テキストマイニングにおける意見クラスタリングといった用途にも有用である。

0131

1入力装置
2含意判定装置
3記憶装置
4出力装置
20述語項構造解析部
21ベクトル生成部
22組合せ同定部
23 含意判定部
30単語間照合規則記憶部
31 述語項構造間照合規則記憶部
110コンピュータ
111 CPU
112メインメモリ
113 記憶装置
114入力インターフェイス
115表示コントローラ
116データリーダ/ライタ
117通信インターフェイス
118入力機器
119ディスプレイ装置
120記録媒体
121 バス

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ