図面 (/)

技術 実体のリンク付け方法及び実体のリンク付け装置

出願人 富士通株式会社
発明者 ミアオ・チンリアン孟遥
出願日 2014年9月17日 (6年3ヶ月経過) 出願番号 2014-188486
公開日 2015年4月2日 (5年8ヶ月経過) 公開番号 2015-062117
状態 特許登録済
技術分野 検索装置 文書処理装置
主要キーワード 商用機 行政官庁 提示メッセージ 日刊新聞 データ処理機器 ウィキ 閾値条件 機械認識
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年4月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

実体リンク付け方法及び装置を提供する。

解決手段

実体のリンク付け方法は、実体言及(mention)の潜在的リンク実体を取得するステップと、該実体言及の所在するオリジナルテキスト拡張して該実体言及に対応する第1のテキストを取得し、該第1のテキストと該潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、該テキスト類似度に基づいて、該潜在的リンク実体と該実体言及との一致度を算出するステップと、該実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む。実体言及の所在するオリジナルテキストを拡張し、拡張されたテキストにより潜在的リンク実体を選別することで、リンク実体の正確性を向上できる。

概要

背景

インターネット語意及び知識ライブラリ、及びミニブログショットメッセージサービスSMS)などのようなショットテキストの上方プラットフォームの急速な発展に伴い、どうやってショットメッセージにおける「実体言及(mention)」とインターネットの語意及び知識ライブラリにおける実体(entity)とを関連付け、ショットテキストの内容を語彙化するのかは、言語情報処理の分野の問題点となる。

概要

実体のリンク付け方法及び装置を提供する。実体のリンク付け方法は、実体言及(mention)の潜在的リンク実体を取得するステップと、該実体言及の所在するオリジナルテキスト拡張して該実体言及に対応する第1のテキストを取得し、該第1のテキストと該潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、該テキスト類似度に基づいて、該潜在的リンク実体と該実体言及との一致度を算出するステップと、該実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む。実体言及の所在するオリジナルテキストを拡張し、拡張されたテキストにより潜在的リンク実体を選別することで、リンク実体の正確性を向上できる。

目的

本発明の実施形態は、ショットテキストの内容における実体言及にそれと一致する実体へのリンクを付けることができる実体のリンク付け方法及び装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

実体言及(mention)の潜在的リンク実体を取得するステップと、前記実体言及の所在するオリジナルテキスト拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップと、前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む、実体のリンク付け方法。

請求項2

前記テキスト類似度に基づいて前記潜在的リンク実体と前記実体言及との一致度を算出するステップは、前記実体言及の文字列と前記潜在的リンク実体の実体名称の文字列との類似度、前記実体言及と前記潜在的リンク実体とのリンク付けの人気度、及び前記潜在的リンク実体と前記実体言及との相互参照の確率のうち少なくとも1つ、並びに前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップ、を含む、請求項1に記載の実体のリンク付け方法。

請求項3

前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得するステップは、前記実体言及の周囲の所定の長さの範囲内のテキストを選択して、該テキストを単語に分割するステップと、各単語と前記実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとするステップと、前記n個のキーワード及び前記実体言及により語句ライブラリ検索して、前記実体言及及び前記n個のキーワードを含むテキストセグメントを取得するステップと、前記テキストセグメントと前記実体言及の所在するオリジナルテキストとを組み合わせることで前記第1のテキストを取得するステップと、を含む、請求項1に記載の実体のリンク付け方法。

請求項4

複数の前記テキストセグメントが取得された場合は、生成時間が所定の条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別する、請求項3に記載の実体のリンク付け方法。

請求項5

選別して取得されたテキストセグメントが2つ以上ある場合は、各テキストセグメント及び前記オリジナルテキストそれぞれについてベクトル構築し、各テキストセグメントのベクトルと前記オリジナルテキストのベクトルとのコサイン距離を算出し、コサイン距離が閾値条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別する、請求項4に記載の実体のリンク付け方法。

請求項6

前記実体言及の潜在的リンク実体を取得するステップは、前記実体言及を拡張して仮実体言及を取得し、前記仮実体言及に基づいて前記潜在的リンク実体を取得するステップ、を含む、請求項1に記載の実体のリンク付け方法。

請求項7

前記実体言及を拡張して仮実体言及を取得するステップは、前記実体言及が略語である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップ、を含む、請求項6に記載の実体のリンク付け方法。

請求項8

前記実体言及を拡張して仮実体言及を取得するステップは、前記実体言及の類型に基づいて、前記実体言及を拡張して前記仮実体言及を取得するステップ、を含む、請求項6に記載の実体のリンク付け方法。

請求項9

前記実体言及の類型に基づいて前記実体言及を拡張して前記仮実体言及を取得するステップは、前記実体言及の類型が人である場合は、共参照解析(coreferenceresolution)により、前記オリジナルテキストから、前記実体言及を拡張した他の表現を前記仮実体言及として抽出するステップと、前記実体言及の類型が行政官庁である場合は、前記オリジナルテキストから地名を検索し、前記実体言及と検索された地名とを組み合わせて前記仮実体言及とするステップと、前記実体言及の類型が機関である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップと、を含む、請求項8に記載の実体のリンク付け方法。

請求項10

実体言及(mention)の潜在的リンク実体を取得する取得手段と、前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理手段と、前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するマッチング処理手段と、前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け手段と、を含む、実体のリンク付け装置。

技術分野

0001

本発明は、データベースの分野に関し、具体的に、実体リンク付け方法及び装置に関する。

背景技術

0002

インターネット語意及び知識ライブラリ、及びミニブログショットメッセージサービスSMS)などのようなショットテキストの上方プラットフォームの急速な発展に伴い、どうやってショットメッセージにおける「実体言及(mention)」とインターネットの語意及び知識ライブラリにおける実体(entity)とを関連付け、ショットテキストの内容を語彙化するのかは、言語情報処理の分野の問題点となる。

発明が解決しようとする課題

0003

本発明の実施形態は、ショットテキストの内容における実体言及にそれと一致する実体へのリンクを付けることができる実体のリンク付け方法及び装置を提供することを目的とする。

課題を解決するための手段

0004

本発明の一の態様では、実体言及(mention)の潜在的リンク実体を取得するステップと、前記実体言及の所在するオリジナルテキスト拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップと、前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む、実体のリンク付け方法を提供する。

0005

本発明の他の態様では、実体言及(mention)の潜在的リンク実体を取得する取得手段と、前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理手段と、前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するマッチング処理手段と、前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け手段と、を含む、実体のリンク付け装置を提供する。

0006

本発明の実施形態によれば、実体言及の所在するオリジナルテキストを拡張し、拡張されたテキストにより潜在的リンク実体を選別することで、リンク実体の正確性を向上できる。

図面の簡単な説明

0007

下記図面の詳細の説明を通じて、本発明の実施例の上記の目的、他の目的、特徴及び利点はより明確になる。図面におけるユニットは、単なる本発明の原理を示すものである。図面において、同一又は類似する技術的特徴又はユニットは、同一又は類似する記号で示されている。
本発明に係る実体のリンク付け方法のフローチャートである。
本発明に係る実体のリンク付け方法における潜在的リンク実体の取得方法を示す図である。
本発明に係る実体のリンク付け方法のおける潜在的リンク実体の他の取得方法を示す図である。
本発明に係る実体のリンク付け装置の構成を示す図である。
本発明に係る装置及び方法を実施するためのコンピュータ装置の構成を示す図である。

実施例

0008

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。説明の便宜上、明細書には実際の実施形態の全ての特徴が示されていない。なお、実際に実施する際に、開発者の具体的な目標を実現するために、特定の実施形態を変更してもよい、例えばシステム及び業務に関する制限条件に応じて実施形態を変更してもよい。また、開発作業が非常に複雑であり、且つ時間がかかるが、本公開の当業者にとって、この開発作業は単なる例の作業である。なお、本発明を明確にするために、図面には本発明に密に関連する装置の構成要件又は処理のステップのみが示され、本発明と関係のない細部が省略される。また、本発明の図面又は実施形態に示されている要素及び特徴と他の図面又は実施形態に示されている要素及び特徴とを組み合わせてもよい。

0009

本発明の実施形態は、実体のリンク付け方法及び装置を提供する。以下は、図面を参照しながら具体的な実施形態に基づいて本発明の実施形態に係る実体のリンク付け方法を説明する。

0010

図1は、本発明に係る実体のリンク付け方法のフローチャートである。

0011

図1に示すように、ステップS101において、実体言及(mention)の潜在的リンク実体を取得する。

0012

ここで、実体言及の潜在的リンク実体の取得方法は複数あり、以下は具体的に説明する。

0013

ショットテキストにおける実体言及が決定された後、該実体言及に基づいて知識ライブラリを直接検索して、該実体言及に対応する実体を潜在的リンク実体として抽出してもよい。この知識ライブラリは、実体のリンク付け方法に適用するシーンに対応する特定の知識ライブラリ、例えばインターネット語意及び知識ライブラリであるWikipedia(ウィキディア)、DBPedia、BaiduBaike(百度百科)などを含んでもよいが、これらの知識ライブラリに限定されない。例えば、実体言及が「apple」である場合は、インターネット語意及び知識ライブラリから、「リンゴ」、「米国のアップル・インコーポレイテッド」など複数の潜在的リンク実体を見つけることができる。

0014

ここで、既存の知識ライブラリから潜在的リンク実体を検索することは、(1)知識ライブラリにおける転送リンクを潜在的リンク実体とすること、(2)知識ライブラリから見つけられた内容における第1段落の太字を潜在的リンク実体とすること、(3)知識ライブラリから見つけられた曖昧さ回避ページに基づいて潜在的リンク実体を取得すること、及び(4)アンカーファイル(Anchor file)と実体とのリンク関係などの情報に基づいて実体言及の潜在的リンク実体を取得すること、を含んでもよいが、これらに限定されない。例えば、図2に示すように、実体言及「IBM」について、知識ライブラリから見つけられた内容は、転送リンク「インターナシナルビジネスマシーンズ・コーポレーション」、並びに第1段落の太字「インターナショナル・ビジネス・マシーンズ・コーポレーション」、「International Business Machines Corporation」、及び「万国商用機器会社」を含み、これらの内容はいずれも、実体言及「IBM」の潜在的リンク実体とされてもよい。図3に示すように、実体言及「アップル」について、知識ライブラリから曖昧さ回避ページが見つけられ、「アップル・インコーポレイテッド」、「アップル日刊新聞」、「アップル(映画)」などはいずれも、実体言及「アップル」の潜在的リンク実体とされてもよい。

0015

ショットテキストにおける実体言及が決定された後、該ショットテキストに基づいて実体言及の潜在的リンク実体を取得してもよい。例えば、ショットテキストにおける、該実体言及を含み、且つ知識ライブラリに存在する実体を潜在的リンク実体としてもよい。例えば、ショットテキスト「京時間3月12日、2013アジアチャンピオンズリーググループリーグ回戦、広州恒大サッカークラブチームがアウェーで全北現代戦い、広州恒大の先発発表」について、実体言及は「広州恒大」であり、ここでショットテキストには「広州恒大サッカークラブチーム」が含まれ、且つ「広州恒大サッカークラブチーム」が知識ライブラリにおける実体である場合は、「広州恒大サッカークラブチーム」を「広州恒大」の潜在的リンク実体とし、「広州恒大サッカークラブチーム」が知識ライブラリにおける実体ではない場合は、この方法により候補を提供しない。

0016

ショットテキストにおける実体言及が決定された後、上記の潜在的リンク実体の検索を行う前に、該実体言及を拡張して、長さがもっと長い仮実体言及を取得して、仮実体言及に基づいて上記のいずれか1つの方法による潜在的リンク実体の検索を行ってもよい。仮実体言及がより多くの情報を含むため、実体言及にリンク付けべきな実体へのリンクをより正確に付けることができる。

0017

仮実体言及の取得方法を説明する前に、まず仮実体言及の取得に用いられる実体言及の類型の決定を説明する。

0018

実体言及の類型の決定には、実体類型本体が用いられる。実体類型本体は、現実の世界における実体の類型及び類型間の関係を定義し、例えば実体の最も上位の類型は物体(OBJECT)であり、OBJECTは人(PERSON)実体、位置(LOCATION)実体、機関(ORGANIZATION)実体及び官実体(GEO−POLITICAL ENTITY)などを含み、人実体は職種によって異なる種類に分けられる。よって、実体類型本体は、実体を一般から詳細までの分類体系であると理解されてもよい。実体類型本体の取得方法は2つあり、1つは、既存の実体類型本体、例えばウェブサイトhttp://www.dmoz.org/などに公開されている実体類型を用い、もう1つは、ユーザが自分の需要に応じて自分の実体類型本体を設定し、本文はこれらに限定されない。

0019

実体類型本体が取得された後、機械学習技術により、所定の実体の類型を自動的に判断することが可能な機械認識モデル訓練してもよい。機械学習技術は、教師付き学習及び教師なし学習の2つの方法を含む。教師付き学習は、訓練コーパスマークを付ける必要があり、例えばPERSON実体を認識する場合は、PERSON実体を含む訓練コーパスにマークを付け、教師付きモデル、例えばCRFSVM、及び訓練コーパスにより機械認識モデルを訓練してもよい。この機械認識モデルにより、テキストにおけるPERSON実体を認識できる。他の実体類型について、これと同様な方法により機械認識モデルを訓練し、所定の実体の類型を自動的に判断可能な機械認識モデルを取得してもよい。教師なし学習は、専門辞書により実体の類型を認識し、例えば地名辞書を用いて文字列マッチングにより地名を認識する、或いはモデルに基づいて実体の類型を認識してもよい。例えば、「<xxx大統領>」の場合は、xxxの類型をPERSONとして認識し、一連の教師なし学習により、所定実体の類型を自動判断可能な機械認識モデルを取得する。

0020

機器により実体言及の類型を自動的に認識すること以外は、ユーザがmentionの類型を人為的に指定してもよく、ここで、実体言及mentionの類型は実体類型本体における種類に対応する。即ち、機械的判断を利用することなく、ユーザが実体言及の類型を直接に判断してもよい。これの利点は、ユーザは興味のある類型の実体へのリンクを付け、例えばショットテキストにおけるPERSON又はORGANIZATION類型の実体のみへのリンクを付けてもよい。

0021

なお、実体言及の類型の判断は、実体類型本体に依らなくてもよい。即ち、実体と類型との間の対応関係を予め決定する必要がなく、例えばユーザが実体言及の類型を決定する際に、実体言及の類型をランダムに指定してもよい。

0022

実体言及の類型が取得された後、以下の方式で仮実体言及を決定してもよい。実体言及の類型が人である場合は、共参照解析(coreference resolution)により、オリジナルテキストから、実体言及を拡張した他の表現を前記仮実体言及として抽出してもよい。例えば、テキストが「LeBron Raymone James, nicknamed “King James”, is an American
professional basketball player for the Miami Heat of the National Basketball
Association (NBA). Lebron has played the small forward and power forward
positions」であり、mentionが「Lebron」である場合は、オリジナルテキストから「Lebron」の共参照である「LeBron Raymone James」が見つかったとき、元のmention「Lebron」の代わりに「LeBron Raymone James」を使う、即ち「LeBron Raymone James」を「Lebron」の仮実体言及とする。

0023

実体言及の類型が行政官庁である場合は、オリジナルテキストから地名を検索し、実体言及と検索された地名とを組み合わせて仮実体言及とする。例えば、命名実体認識ツールを用いてmentionの文脈からmentionの所属する実体を見つけて、これらの実体とmentionとの組み合わせを仮実体言及とする。例えば、テキストが「最高裁が1949年10月22日に設立され、中華人民共和国の最高の審判機関であり、地方の各レベル裁判所及び専門的裁判所の審判作業を監督する」であり、mentionが「最高裁」である場合は、オリジナルテキストから地名、即ちmentionの属する言葉「中華人民共和国」を見つけて、「中華人民共和国」と「最高裁」とを組み合わせて仮実体言及「中華人民共和国最高裁」を取得する。

0024

実体言及の類型が機関である場合は、パターンマッチングにより、オリジナルテキストから実体言及に対応するテキストを仮実体言及として抽出する。例えば、テキストが「Agricultural Bank of China (ABC), also known as AgBank or 農行, is one of the “Big Four” banks in the People's Republic of China」であり、mentionが「ABC」である場合は、パターンマッチングにより、オリジナルテキストから「Agricultural
Bank of China」を抽出し、「ABC」の代わりに「Agricultural
Bank of China」を直接使ってもよい、即ち「Agricultural Bank of China」を「ABC」の仮実体言及としてもよい。

0025

以下の方式により仮実体言及を決定してもよい。実体言及が略語である場合は、パターンマッチングにより、オリジナルテキストから実体言及に対応するテキストを仮実体言及として抽出してもよい。例えば、テキストが「Michael Jordan (MJ) has been the best basketball player, but MJ is
now too old」であり、実体言及(mention)が「MJ」である場合は、パターンマッチングにより、オリジナルテキストから「Michael Jordan」を抽出して、「Michael Jordan」を「MJ」の仮実体言及としてもよい。

0026

実体言及が略語ではない場合は、上記の仮実体言及の決定方法と同様に、実体言及の類型に基づいて仮実体言及を決定してもよい。例えば、実体類型本体に基づいて実体言及の類型を認識し、実体言及の類型が人である場合は、共参照解析によりオリジナルテキストから実体言及を拡張した他の表現を仮実体言及として抽出し、実体言及の類型が行政官庁である場合は、オリジナルテキストから地名を検索し、実体言及と検索された地名とを組み合わせて仮実体言及とする。その例は上記の仮実体言及の決定方法を参考してもよく、その説明はここに省略される。

0027

ステップS101において潜在的リンク実体を取得した後、ステップS102を実行する。

0028

ステップS102において、実体の類型に基づいて潜在的リンク実体を選別し、実体の類型が所定の条件を満たしていない潜在的リンク実体を除去する。所定の条件は、実体言及の類型と同じであってもよいし、ユーザにより予め設定された実体類型と同じであってもよい。例えば、ユーザは実体言及「MJ」のリンク実体の類型が会社であると予め設定すると、例えば見つけられた潜在的リンク実体「Michael Jordan」が排除される。ここで、実体類型の決定方法は後のステップS101の詳細説明において述べる。

0029

ステップS103において、実体言及の所在するオリジナルテキストを拡張して、実体言及に対応する第1のテキストを取得し、第1のテキストと潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する。例えば、実体言及「恒大」のオリジナルテキスト「恒大が勝った」について、第1のテキストである「広州恒大サッカークラブチームが中国サッカープレミアムリーグの第2位を獲得した」と拡張することができる。

0030

ここで、オリジナルテキストの拡張方法は、以下の方法を含んでもよいが、それに限定されない。実体言及の周囲の所定の長さLの範囲内のテキストを選択して、該テキストを単語に分割し、各単語と実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとし、n個の単語及び実体言及により語句コーパス)ライブラリを検索して、実体言及及びn個のキーワードを含むテキストセグメントを取得し、テキストセグメントと実体言及の所在するオリジナルテキストとを組み合わせることで第1のテキストを取得する。

0031

なお、関連度の算出は以下の式により求められてもよいが、これに限定されない。

0032

ここで、xは実体言及を表し、yは分割された単語を表し、NGD(x,y)はxとyとの関連度を表し、Mは検索して取得された潜在的リンク実体の総数を表し、f(x)はxが潜在的リンク実体で現れる回数を表し、f(y)はyが潜在的リンク実体で現れる回数を表し、f(x,y)はx及びyが潜在的リンク実体で同時に現れる回数を表す。

0033

関連度の算出は他の方式で実現されてもよく、例えば分割された各単語及び実体言及が潜在的リンク実体で同時に現れる頻度に基づいて、分割された各単語と実体言及との関連度を直接に決定してもよい。

0034

なお、n個のキーワード及び実体言及により語句ライブラリを検索して得られた実体言及及びn個のキーワードを含むテキストセグメントは唯一ではない場合があり、この場合は、生成時間に基づいて複数のテキストセグメントを選別してもよい。例えば、得られたテキストセグメントがm個がある場合は、オリジナルテキスト時間との差がt以下のk個の検索結果を選択する。オリジナルテキストの生成時間がTであると仮定し、時間ウィンドウをtと設定すると、生成時間が[T-t,T+t]の検索結果を選択する。例えば、実体言及が「ジェームズ」であり、得られたキーワードが「NBA」及び「ファイナル」であり、オリジナルテキストの生成時間T=「2013年6月18日」である場合は、t=10日と仮定すると、生成時間が「2013年6月8日」から「2013年6月28日」の検索されたテキストセグメントを選択してもよい。

0035

時間に基づいて選別して取得されたテキストセグメントが依然として複数ある場合は、さらに選別してもよい。例えば、各テキストセグメント及びオリジナルテキストそれぞれについてベクトル構築し、各テキストセグメントのベクトルとオリジナルテキストのベクトルとのコサイン距離を算出し、コサイン距離が閾値条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別してもよい。時間により選別して得られたテキストセグメントの数がkであると仮定すると、該k個の検索結果それぞれについて、ベクトルvi(i=1,2…k)を構築すると共に、オリジナルテキストについてベクトルvoを構築し、viとvoとのコサイン距離を算出し、コサイン距離が最も小さい上位w個の検索結果を選択する。好ましくは、wを1に設定してもよい。

0036

また、オリジナルテキストの拡張方式として、実体言及の周囲の一定の長さの範囲内のテキストを第1のテキストとしてもよく、該一定の長さは、例えば経験値であってもよい。

0037

第1のテキストと第2のテキストとのテキスト類似度は、従来技術における各種の類似度算出方式により算出されてもよいが、本文に限定されない。

0038

ステップS103において第1のテキストと第2のテキストとのテキスト類似度を算出した後、該類似度に基づいてステップS104を実行する。

0039

ステップS104において、第1のテキストと第2のテキストとのテキスト類似度に基づいて、潜在的リンク実体の一致度を決定する。

0040

ここで、第1のテキストと第2のテキストとのテキスト類似度に基づいて潜在的リンク実体の一致度を決定するステップは、テキスト類似度を直接に一致度とするステップ、又は予め設定されたテキスト類似度と一致度との関係、例えば比例係数に基づいて一致度を決定するステップを含んでもよい。

0041

一致度の決定は、上記のテキスト類似度と他の因子と組み合わせに基づいて決定してもよい。ここで、他の因子は、実体言及の文字列と潜在的リンク実体の実体名称の文字列との類似度、実体言及と潜在的リンク実体とのリンク付けの人気度、及び潜在的リンク実体と実体言及との相互参照の確率を含んでもよいが、これらに限定されない。また、他の因子を単独に用いてもよいし、相互に組み合わせて用いてもよい。

0042

ここで、実体言及の文字列と潜在的リンク実体の実体名称の文字列との類似度は、従来技術における各種の類似度算出方法を用いてもよいが、本文は限定されない。

0043

実体言及と潜在的リンク実体とのリンク付けの人気度は、実体言及に基づいて検索された全ての潜在的リンク実体において、各潜在的リンク実体が現れる頻度を算出することで決定される。例えば、実体言及「OA」について、ネット知識ライブラリから100個のページが見つかり、潜在的リンク実体「Office
Action」と「office automation」とを含み、「office automation」が90個のページで現れ、「Office Action」が10個のページで現れる場合は、潜在的リンク実体である「Office Action」及び「office automation」のリンク付けの人気度それぞれは、例えば0.1及び0.9となる。なお、この例は説明するためのものであり、リンク付けの人気度の具体的な決定方法を限定しないものではない。

0044

潜在的リンク実体と実体言及との相互参照の確率は、潜在的リンク実体の出所に基づいて決定されてもよい。例えば、出所が転送リンクである場合は、潜在的リンク実体に対応する相互参照の確率を第1の所定値、例えば1と決定し、出所が太字である場合は、潜在的リンク実体に対応する相互参照の確率を第2の所定値、例えば0.8と決定し、出所が曖昧さ回避ページである場合は、潜在的リンク実体に対応する相互参照の確率を1/kと決定し、kは曖昧な実体の総数である。

0045

好ましくは、潜在的リンク実体と実体言及との相互参照の確率は、潜在的リンク実体を取得する処理において直接に設定され、後続の処理においてこの予め設定された相互参照の確率を直接に用いてもよい。

0046

上述したように、一致度の決定は複数の因子に基づいて決定されてもよい。例えば、テキスト類似度をContextSimilarity(mention,entity)と表し、実体言及の文字列と潜在的リンク実体の実体名称の文字列との類似度をLexicalSimilarity(mention,entity)と表し、実体言及と潜在的リンク実体とのリンク付けの人気度をPopularProbability(mention,entity)と表し、潜在的リンク実体と実体言及との相互参照の確率をp(m,e)と表し、実体言及と潜在的リンク実体との最終の一致度をFinalScore(m,
e)と表すと、下記の式によりFinalScore(m, e)を算出する。ここで、mは実体言及(mention)を表し、eは実体(entity)を表す。

0047

ここで、α、β及びγそれぞれは重み係数であり、その値が訓練サンプルにより推定されてもよい。好ましくは、異なる類型の実体言及の特性が異なるため、実体言及の異なる類型についてα、β及びγを単独に推定してもよい、即ち、実体言及の異なる類型(例えば上記の人、機関及び官庁)に応じて異なる訓練サンプルを構築し、訓練して異なる重みα、β及びγを取得してもよい。

0048

ステップS105において、一致度が所定の条件を満たしている潜在的リンク実体が存在するか否かを決定し、存在すると決定された場合は、ステップS106を実行し、そうでない場合は、ステップS107を実行する。所定の条件は、例えば閾値であり、即ち一致度が閾値以上の潜在的リンク実体は所定の条件を満たしている潜在的リンク実体とされる。好ましくは、異なる類型の実体言及は異なる所定の条件、例えば異なる一致度の閾値を有してもよい。

0049

ステップS106において、実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付ける。

0050

ステップS107において、実体言及に対応する全ての潜在的リンク実体を知識ライブラリに記憶する。所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、現在の知識ライブラリに実体言及に対応する実体が存在しないと見なされ、該実体言及に対応する全ての潜在的リンク実体をデータベースに記憶してもよい。該知識ライブラリは、上記のステップS101に説明されている各種の知識ライブラリであってもよい。なお、所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、他の処理を実行してもよい。例えば潜在的リンク実体が存在しない旨を示す提示メッセージフィードバックしてもよく、該提示メッセージは文字又は音声の形であってもよい。

0051

本発明の実施形態によれば、実体言及の所在するオリジナルテキストを拡張し、拡張されたテキストにより潜在的リンク実体を選別することで、リンク実体の正確性を向上できる。

0052

上記の方法の技術案と同様な技術的思想に基づいて、本発明は実体のリンク付け装置をさらに提供する。図4に示すように、実体のリンク付け装置は、実体言及(mention)の潜在的リンク実体を取得する取得部41と、実体言及の所在するオリジナルテキストを拡張して実体言及に対応する第1のテキストを取得し、第1のテキストと潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理部42と、テキスト類似度に基づいて、潜在的リンク実体と実体言及との一致度を算出するマッチング処理部43と、実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け部44と、を含む。

0053

実体のリンク付け装置は、拡張処理部42が処理を実行する前に、実体の類型に基づいて潜在的リンク実体を選別し、実体の類型が所定の条件を満たしていない潜在的リンク実体を除去する選別部45、をさらに含んでもよい。

0054

実体のリンク付け装置は、一致度が所定の条件を満たしている潜在的リンク実体が存在するか否かを決定する判断部46と、所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、該実体言及及びその全ての潜在的リンク実体を知識ライブラリに記憶する記憶部47と、をさらに含んでもよい。

0055

上記の方法の技術案に対応するように、取得部41は上記のステップS101の処理を実行し、その具体的な処理について上記ステップS101を参照することができ、その説明はここに省略される。同様に、選別部45は上記ステップS102の処理を実行し、拡張処理部42は上記ステップS103の処理を実行し、マッチング処理部43は上記ステップS104の処理を実行し、判断部46は上記ステップS105の処理を実行し、リンク付け部44は上記ステップS106の処理を実行し、記憶部47は上記ステップS107の処理を実行する。

0056

以下は、図5を参照しながら本発明を実施するためのデータ処理機器コンピュータの例示的な構成を説明する。図5は、本発明を実施するためのコンピュータ装置の例示的な構成を示すブロック図である。

0057

なお、上記コンピュータにおける各構成要件、ユニットはソフトウェアファームウェアハードウェア又はそれらの組み合わせにより実現されてもよい。ソフトウェア又はファームウェアにより実施されている場合、記録媒体又はネットワークから専用のハードウェア構成を有するコンピュータ(例えば図5示されている汎用コンピュータ1100)に上記方法を実施するためのソフトウェアを構成するプログラムインストールしてもよく、該コンピュータは各種のプログラムがインストールされている場合は各種の機能などを実行できる。

0058

図5において、中央処理部(即ちCPU)1101は、読み出し専用メモリ(ROM)1102に記憶されているプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムにより各種の処理を実行する。RAM1103には、必要に応じて、CPU1101が各種の処理を実行するに必要なデータが記憶されている。CPU1101、ROM1102、及びRAM1103は、バス1104を介して互いに接続されている。入力/出力インターフェース1105もバス1104に接続されている。

0059

入力部1106(キーボードマウスなどを含む)、出力部1107(ディスプレイ、例えばブラウン管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む)、記憶部1108(例えばハードディスクなどを含む)、通信部1109(例えばネットワークのインタフェースカード、例えばLANカードモデムなどを含む)は、入力/出力インターフェース1105に接続されている。通信部1109は、ネットワーク、例えばインターネットを介して通信処理を実行する。必要に応じて、ドライブ部1110は、入力/出力インターフェース1105に接続されてもよい。取り外し可能な媒体1111は、例えば磁気ディスク光ディスク光磁気ディスク半導体メモリなどであり、必要に応じてドライブ部1110にセットアップされて、その中から読みだされたコンピュータプログラムは必要に応じて記憶部1108にインストールされている。

0060

ソフトウェアにより上記処理を実施する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1111を介してソフトウェアを構成するプログラムをインストールする。

0061

また、これらの記憶媒体は、図5に示されている、プログラムを記憶し、機器と分離してユーザへプログラムを提供する取り外し可能な媒体1111に限定されない。取り外し可能な媒体1111は、例えば磁気ディスク(フロッピー登録商標ディスクを含む)、光ディスク(光ディスク−読み出し専用メモリ(CDROM)、及びデジタル多目的ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標))及び半導体メモリを含む。或いは、記憶媒体は、ROM1102、記憶部1108に含まれるハードディスクなどであってもよく、プログラムを記憶し、それらを含む機器と共にユーザへ提供される。

0062

本発明は、機器に読み取り可能な指令コードを記憶するプログラムプロダクトをさらに提供する。該指令コードは機器により読み出されて、上述した本発明の実施例に係る方法を実行できる。

0063

それに応じて、本発明は、機器読み取り可能な指令コードを記憶するプログラムのプロダクトが記録されている記憶媒体をさらに含む。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカードメモリスティックを含むが、これらに限定されない。

0064

なお、本文に使用される用語は、具体的な実施形態を説明するためのものであり、本発明を限定するものではない。本文に使用される単数形の「1つ」及び「該(the)」は、文脈により異なる意味を明確に指す場合を除いて、複数形をさらに含むことを意味する。なお、用語「包括/含む」は、本文に使用される際に、特徴、要素、ステップ又は構成要件の存在を意味し、一つ又は複数の他の特徴、要素、ステップ又は構成要件の存在又は追加を排除するものではない。

0065

クレームにおける、対応する構造、材料、動作及び「装置又はステッププラス機能」により定義されている要素の全ての均等物は、他の保護される要素と組み合わせて機能を実行する任意の構造、材料又は動作を含むことを意味する。本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施形態は、範囲上には限定されるものではない。本発明の実施形態は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の改変修正、及び同等的なものが含まれる。

0066

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。

0067

(付記1)
実体言及(mention)の潜在的リンク実体を取得するステップと、
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出するステップと、
前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップと、
前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるステップと、を含む、実体のリンク付け方法。

0068

(付記2)
前記潜在的リンク実体と前記実体言及との一致度を算出する前に、
前記実体言及の類型又は予め設定された類型と一致しない潜在的リンク実体を除去する、付記1に記載の実体のリンク付け方法。

0069

(付記3)
実体類型本体に基づいて、前記本体言及の類型を認識するステップ、をさらに含む、付記2に記載の実体のリンク付け方法。

0070

(付記4)
前記実体言及の潜在的リンク実体を取得するステップは、
知識ライブラリから前記実体言及に対応する実体を検索して潜在的リンク実体とするステップ、及び/又は
前記実体言及の所在するテキストから、前記実体言及を含み、且つ前記知識ライブラリに存在する実体を潜在的リンク実体として取得するステップ、を含む、付記1に記載の実体のリンク付け方法。

0071

(付記5)
前記テキスト類似度に基づいて前記潜在的リンク実体と前記実体言及との一致度を算出するステップは、
前記実体言及の文字列と前記潜在的リンク実体の実体名称の文字列との類似度、前記実体言及と前記潜在的リンク実体とのリンク付けの人気度、及び前記潜在的リンク実体と前記実体言及との相互参照の確率のうち少なくとも1つ、並びに前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するステップ、を含む、付記1に記載の実体のリンク付け方法。

0072

(付記6)
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得するステップは、
前記実体言及の周囲の所定の長さの範囲内のテキストを選択して、該テキストを単語に分割するステップと、
各単語と前記実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとするステップと、
前記n個の単語及び前記実体言及により語句ライブラリを検索して、前記実体言及及びn個の前記キーワードを含むテキストセグメントを取得するステップと、
前記テキストセグメントと前記実体言及の所在するオリジナルテキストとを組み合わせることで前記第1のテキストを取得するステップと、を含む、付記5に記載の実体のリンク付け方法。

0073

(付記7)
複数の前記テキストセグメントが取得された場合は、生成時間が所定の条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別する、付記6に記載の実体のリンク付け方法。

0074

(付記8)
選別して取得されたテキストセグメントが2つ以上ある場合は、各テキストセグメント及び前記オリジナルテキストそれぞれについてベクトルを構築し、各テキストセグメントのベクトルと前記オリジナルテキストのベクトルとのコサイン距離を算出し、コサイン距離が閾値条件を満たしているテキストセグメントを取得するようにテキストセグメントを選別する、付記7に記載の実体のリンク付け方法。

0075

(付記9)
前記潜在的リンク実体と前記実体言及との相互参照の確率を算出する際に、
知識ライブラリにおける前記潜在的リンク実体の出所を取得し、前記出所に基づいて前記潜在的リンク実体に対応する相互参照の確率を決定する、付記5に記載の実体のリンク付け方法。

0076

(付記10)
前記出所に基づいて前記潜在的リンク実体に対応する相互参照の確率を決定するステップは、
前記出所が転送リンクである場合は、前記潜在的リンク実体に対応する相互参照の確率を第1の所定値と決定するステップと、
前記出所が太字である場合は、前記潜在的リンク実体に対応する相互参照の確率を第2の所定値と決定するステップと、
前記出所が曖昧さ回避ページである場合は、前記潜在的リンク実体に対応する相互参照の確率を1/kと決定するステップであって、kは曖昧な実体の総数である、ステップと、を含む、付記9に記載の実体のリンク付け方法。

0077

(付記11)
前記実体言及の潜在的リンク実体を取得するステップは、
前記実体言及を拡張して仮実体言及を取得し、前記仮実体言及に基づいて前記潜在的リンク実体を取得するステップ、を含む、付記1に記載の実体のリンク付け方法。

0078

(付記12)
前記実体言及を拡張して仮実体言及を取得するステップは、
前記実体言及が略語である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップ、を含む、付記11に記載の実体のリンク付け方法。

0079

(付記13)
前記実体言及を拡張して仮実体言及を取得するステップは、
前記実体言及の類型に基づいて、前記実体言及を拡張して前記仮実体言及を取得するステップ、を含む、付記11に記載の実体のリンク付け方法。

0080

(付記14)
前記実体言及の類型に基づいて前記実体言及を拡張して前記仮実体言及を取得するステップは、
前記実体言及の類型が人である場合は、共参照解析(coreference resolution)により、前記オリジナルテキストから、前記実体言及を拡張した他の表現を前記仮実体言及として抽出するステップと、
前記実体言及の類型が行政官庁である場合は、前記オリジナルテキストから地名を検索し、前記実体言及と検索された地名とを組み合わせて前記仮実体言及とするステップと、
前記実体言及の類型が機関である場合は、パターンマッチングにより、前記オリジナルテキストから前記実体言及に対応するテキストを前記仮実体言及として抽出するステップと、を含む、付記13に記載の実体のリンク付け方法。

0081

(付記15)
実体類型本体に基づいて前記実体言及の類型を認識する、付記14に記載の実体のリンク付け方法。

0082

(付記16)
所定の条件を満たしている一致度を有する潜在的リンク実体が存在しない場合は、前記実体言及の全ての潜在的リンク実体を対応するデータベースに記憶する、付記1に記載の実体のリンク付け方法。

0083

(付記17)
実体言及(mention)の潜在的リンク実体を取得する取得手段と、
前記実体言及の所在するオリジナルテキストを拡張して前記実体言及に対応する第1のテキストを取得し、前記第1のテキストと前記潜在的リンク実体に対応する第2のテキストとのテキスト類似度を算出する拡張処理手段と、
前記テキスト類似度に基づいて、前記潜在的リンク実体と前記実体言及との一致度を算出するマッチング処理手段と、
前記実体言及に、所定の条件を満たしている一致度を有する潜在的リンク実体へのリンクを付けるリンク付け手段と、を含む、実体のリンク付け装置。

0084

(付記18)
前記拡張処理手段は、
前記実体言及の周囲の所定の長さの範囲内のテキストを選択して、該テキストを単語に分割し、
各単語と前記実体言及との関連度を算出し、関連度の最も高いn個の単語をキーワードとし、
前記n個の単語及び前記実体言及により語句ライブラリを検索して、前記実体言及及びn個の前記キーワードを含むテキストセグメントを取得し、
前記テキストセグメントと前記実体言及の所在するオリジナルテキストとを組み合わせることで前記第1のテキストを取得する、付記17に記載の実体のリンク付け装置。

0085

(付記19)
前記取得手段は、前記実体言及を拡張して仮実体言及を取得し、前記仮実体言及に基づいて前記潜在的リンク実体を取得する、付記17に記載の実体のリンク付け装置。

0086

(付記20)
前記取得手段は、前記実体言及の類型に基づいて、前記実体言及を拡張して前記仮実体言及を取得する、付記19に記載の実体のリンク付け装置。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ