図面 (/)

技術 検索システム、検索方法および検索プログラム

出願人 日本電気株式会社
発明者 山本康高注連隆夫水口弘紀
出願日 2016年3月10日 (4年9ヶ月経過) 出願番号 2017-506080
公開日 2017年12月21日 (3年0ヶ月経過) 公開番号 WO2016-147624
状態 特許登録済
技術分野 検索装置
主要キーワード 観光産業 重複度合い 判定候補 重複割合 公開場所 差分箇所 差分判定 共通要素
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年12月21日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

検索システムは、記事中の特定の文の指定を受け付ける受付部601と、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する意味の文を含む記事を検索する検索部602と、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する表示部603とを備え、表示部603は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示する。

概要

背景

文の意味(meaning)の類似性を判断する処理の一つとして含意認識がある。含意認識の例が非特許文献1に記載されている。また、含意認識に基づいてテキストグループ化する例が特許文献1に記載されている。

含意認識は、“A”、“B”をそれぞれ文または文相当の文章表現上の単位(以下、両者を含む表現として、“文”という。)とした場合に、“AはBを含意(entailment)する”という関係の有無を判定する処理である。また、そのような関係の有無を判定することを含意判定と呼ぶ場合がある。

ここで、“AはBを含意する”とは、Aが真であるならばBも真であることである。また、特許文献1に記載されているように、Aの表記からBの意味が読み取れる場合に、AがBを含意すると定義してもよい。以下、第1の文が他の文を含意する関係を、含意関係と呼ぶ場合がある。

また、検索クエリとして文を指定できる検索システムがある。このような検索システムは、検索クエリとして指定された文を形態素解析して、指定された文に含まれる単語を抽出し、抽出された単語を検索クエリとして用いて、文や記事検索する。

概要

検索システムは、記事中の特定の文の指定を受け付ける受付部601と、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する意味の文を含む記事を検索する検索部602と、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する表示部603とを備え、表示部603は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示する。

目的

本発明は、ユーザが、記事内の一部の内容であって特定の観点に関連する情報を効率よく収集できる検索システム、検索方法および検索プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

記事中の特定の文の指定を受け付ける受付部と、指定された文である第1の文を検索クエリに用いて、前記第1の文がもつ意味内容と類似する意味の文を含む記事を検索する検索部と、検索された記事を、前記第1の文に対する関連記事として、該記事の情報を表示する表示部とを備え、前記表示部は、前記関連記事が複数ある場合に、前記第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示することを特徴とする検索システム

請求項2

検索部は、第1の文がもつ意味内容と類似する意味の文を含む記事であって、第1の記事との間に差分がある記事を検索する請求項1に記載の検索システム。

請求項3

表示部は、関連記事とされた記事または該記事を加工して得られる加工記事へのリンクが設定された画面を検索結果として表示する請求項1または請求項2に記載の検索システム。

請求項4

第1の記事の内容と、検索された記事である第2の記事の内容とを比較して、前記第1の記事と前記第2の記事との間の差分の有無、または、前記第2の記事内において、前記第1の記事の内容に対して差分がある箇所を特定する差分特定部を備え、表示部は、検索結果を表示する際に、前記第1の記事の内容に対して差分がある箇所を、他と区別しうる態様により強調表示する請求項3に記載の検索システム。

請求項5

表示部は、検索結果を表示する際に、第1の文がもつ意味内容のいずれかと類似する意味をもつ文を第1の態様により表示し、第1の記事の内容に対して差分があるとされた箇所を第2の態様により表示する請求項4に記載の記事管理システム

請求項6

文と文との間の含意関係の有無を判定する含意関係判定部を備え、検索部は、前記含意関係判定部により第1の文と検索対象とされた記事内のいずれかの文である第2の文との間に含意関係があると判定された場合に、検索対象とされた記事が、前記第1の文がもつ意味内容と類似する意味の文を含むとする請求項1から請求項5のいずれかに記載の検索システム。

請求項7

含意関係判定部は、一方の文の意味が真である場合に他方の文の意味も真である2つの文の関係を、前記他方の文が前記一方の文を含意する含意関係として、文と文のとの間の含意関係の有無により判定する請求項6に記載の検索システム。

請求項8

検索部は、含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文が第2の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、前記第1の文がもつ意味内容と類似する意味の文を含むとする請求項7に記載の検索システム。

請求項9

検索部は、含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文と第2の文とが、共通する他の文である第3の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、前記第1の文がもつ意味内容と類似する意味の文を含むとする請求項7に記載の検索システム。

請求項10

記事中の特定の文の指定を受け付け、指定された文である第1の文を検索クエリに用いて、前記第1の文がもつ意味内容と類似する意味の文を含む記事を検索し、検索された記事を、前記第1の文に対する関連記事として、該記事の情報を表示し、前記表示をする際に、前記関連記事が複数ある場合に、前記第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示させることを特徴とする検索方法

請求項11

コンピュータに、記事中の特定の文の指定を受け付ける処理、指定された文である第1の文を検索クエリに用いて、前記第1の文がもつ意味内容と類似する意味の文を含む記事を検索する処理、および検索された記事を、前記第1の文に対する関連記事として、該記事の情報を表示する処理を実行させ、前記表示する処理で、前記関連記事が複数ある場合に、前記第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示させるための検索プログラム

技術分野

0001

本発明は、記事検索するための検索システム検索方法および検索プログラムに関する。

背景技術

0002

文の意味(meaning)の類似性を判断する処理の一つとして含意認識がある。含意認識の例が非特許文献1に記載されている。また、含意認識に基づいてテキストグループ化する例が特許文献1に記載されている。

0003

含意認識は、“A”、“B”をそれぞれ文または文相当の文章表現上の単位(以下、両者を含む表現として、“文”という。)とした場合に、“AはBを含意(entailment)する”という関係の有無を判定する処理である。また、そのような関係の有無を判定することを含意判定と呼ぶ場合がある。

0004

ここで、“AはBを含意する”とは、Aが真であるならばBも真であることである。また、特許文献1に記載されているように、Aの表記からBの意味が読み取れる場合に、AがBを含意すると定義してもよい。以下、第1の文が他の文を含意する関係を、含意関係と呼ぶ場合がある。

0005

また、検索クエリとして文を指定できる検索システムがある。このような検索システムは、検索クエリとして指定された文を形態素解析して、指定された文に含まれる単語を抽出し、抽出された単語を検索クエリとして用いて、文や記事を検索する。

0006

特許第5494999号公報

先行技術

0007

Masaaki Tsuchida, Kai Ishikawa, “IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features”, [online], [2016年1月26日検索]、インターネット

発明が解決しようとする課題

0008

ところで、ある記事を読んだ際、その読者がその記事内の一部の内容(contents)に興味をもったとする。以下、記事に含まれる複数の内容のうち、読者が興味を持った内容を「観点」と記載する。読者は、その観点についてよりたくさんの情報を得たい場合に、その観点について今読んでいる記事にはない新規な内容を含む他の記事を読みたい場合がある。また、読者は、その観点に関連する事柄(例えば、その事柄と一緒に論じられることが多い事柄といった、その事柄の周辺事項)について書かれた記事をさらに読みたい場合がある。

0009

ところが、形態素解析を利用した検索システムの場合、上記のような記事が検索されるとは限らない。例えば、ユーザが興味をもった観点を表現している文を指定して検索を行っても、指定した文と類似する文を含んでいるが新規な内容を含まない記事が検索される可能性がある。一例として、公開場所は異なるが全く同じ内容の記事が検索される可能性がある。
また、例えば、指定した文に用いられている単語や特徴語が用いられているが、該単語や特徴語が、元の記事内において指定した文により表現されていた内容すなわちユーザが興味をもった観点とは全く異なる内容を表現している記事が検索される可能性がある。一例として、指定した文が“X機種は性能が高く、価格も低く抑えられている”であった場合に、“Y機種はX機種に比べて性能が高い”といった文を含む記事や“X機種は価格が高い”といった文を含む記事が検索される可能性がある。

0010

このように、形態素解析を利用した検索システムには、記事内の一部の内容であって読者が興味を持った内容(すなわち観点)に関連する情報を効率よく収集できない問題がある。

0011

そこで、本発明は、ユーザが、記事内の一部の内容であって特定の観点に関連する情報を効率よく収集できる検索システム、検索方法および検索プログラムを提供することを目的とする。

課題を解決するための手段

0012

本発明による検索システムは、記事中の特定の文の指定を受け付ける受付部と、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容(connotations)と類似する内容(meaning)の文を含む記事を検索する検索部と、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する表示部とを備え、表示部は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示することを特徴とする。

0013

また、本発明による検索方法は、記事中の特定の文の指定を受け付け、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する内容の文を含む記事を検索し、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示し、表示をする際に、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示することを特徴とする。

0014

また、本発明による検索理プログラムは、コンピュータに、記事中の特定の文の指定を受け付ける処理、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する内容の文を含む記事を検索する処理、および検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する処理を実行させ、表示する処理で、関連が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示させることを特徴とする。

0015

本発明によれば、ユーザが、記事内の一部の内容であって特定の観点に関連する情報を効率よく収集できる。

図面の簡単な説明

0016

第1の実施形態の記事管理システムの例を示すブロック図である。
記事記憶部100に記憶される記事の例を示す説明図である。
含意文特定部110から出力される情報の例を示す説明図である。
含意文特定部110から出力される情報の例を示す説明図である。
文集合U1における含意関係の例を示す説明図である。
文集合U1に対する含意クラスタリングの結果例を示す説明図である。
可視化部130による表示の例を示す説明図である。
可視化部130による表示の例を示す説明図である。
記事管理システム1の動作例を示すフローチャートである。
記事管理システム1の動作例を示すフローチャートである。
記事管理システム1の動作例を示すフローチャートである。
記事管理システム1の動作例を示すフローチャートである。
第2の実施形態の関連記事判定装置の例を示すブロック図である。
関連記事判定装置200の動作例を示すフローチャートである。
第3の実施形態の情報検索システムの例を示すブロック図である。
情報検索システム3の動作例を示すフローチャートである。
第4の実施形態の情報収集システムの例を示すブロック図である。
情報収集システム4の動作例を示すフローチャートである。
文集合の他の例を示す説明図である。
本発明の各実施形態にかかるコンピュータの構成例を示す概略ブロック図である。
本発明による検索システムの最小構成を示すブロック図である。

実施例

0017

まず、本発明で使用する用語を説明する。本発明において、“記事”は、ある特定の内容を伝えるための文章を表す。なお、記事を、少なくとも文章が記録されたファイルと読み替えてもよい。そのような場合、記事には図などの文章以外の情報が含まれていてもよい。

0018

また、“文”は、一般的には、句点までの文字列を表す。ただし、各実施形態において“文“といった場合には、例えば、標題のような句点で終わらない一連の文字列や、“aはbであるが、cはdである。”といったように所定の接続詞等で接続されており、2以上の文に分解可能な文字列、における分解後の文に相当する文字列が含まれうる。また、各実施形態における“文”には、上述したような文相当の文字列だけでなく、節など、人が読んだ時に特定の意味が読み取れる、あるまとまった文章表現上の単位をなす文字列が含まれうる。

0019

また、文に関して、“意味(meaning)”といった場合、その文の明示的な意味、すなわち、その文に含まれる単語の意味や文法的用法を純粋に解釈して得られる事柄など、その文そのものが表現している事柄を表す。一方、“意味内容(connotations)”といった場合には、その文そのものが表現している事柄だけでなく、その文の一部によって表現される事柄や、その文がもつ言外の意味といった、その文からおよそ人が認識できる全ての意味を含む。すなわち、意味内容は、その文がもつ明示的な意味と言外の意味とを含む範囲の一部または全部に相当する。当然、文の“意味内容”の1つに、その文の“意味”が挙げられる。

0020

実施形態1.
図1は、本発明の第1の実施形態の記事管理システムの例を示すブロック図である。第1の実施形態において、記事管理システム1は、記事記憶部100と、含意文特定部110と、差分特定部120と、可視化部130とを備える。

0021

記事記憶部100は、記事を記憶する。本実施形態では、記事内の文とそれに関連する情報を有する記事との対応づけを行うが、記事記憶部100には、そのような対応づけの対象とする2以上の記事が記憶される。

0022

また、記事記憶部100において、記事の各々には、当該記事を識別するための識別子である記事IDが割り当てられるとともに、各記事内の文の各々にも、当該文を識別するための識別子である文IDが割り当てられる。

0023

図2は、記事記憶部100に記憶される記事の例を示す説明図である。図2に示すように、記事記憶部100は、対応づけの対象とされる記事集合を記憶する代わりに、対応づけの対象とされる記事の各々を文単位に分解して得られる文集合を記憶してもよい。そのような文集合は、例えば、対応づけの対象とされる記事の各々に対して文切り(文を切り出す処理)を行うことにより得られる。なお、文集合において、各文には、当該文を識別する情報の一つとして、当該文を含む記事の識別子が付随される。図2に示す例では、対応づけの対象とされる記事を構成している各文が、当該文を含む記事を識別する記事IDと、その記事内において当該文を識別する文IDとに対応づけられて記憶されている。なお、記事記憶部100は、対応づけの対象とされる記事集合を記憶するとともに、対応づけの対象とされる記事の各々を文単位に分解して得られる文集合を記憶してもよい。

0024

含意文特定部110は、記事記憶部100に記憶されている文の集合である第1文集合に含まれる各文に対して、含意認識に基づいて含意関係にある他の文を特定することにより、当該各文がもつ意味内容のいずれかと類似する意味をもつ他の文を特定する。ここで、類似は同一を含む概念である。なお、文Aと含意関係にある他の文(例えば、文B)には、文Bが文Aを含意する関係にあるときの該文Bだけでなく、文Aが文Bを含意する関係にあるときの該文Bも含まれる。

0025

含意文特定部110は、例えば、(1)文Bが文Aを含意する関係にあるとき、文Bの意味は、文Aがもつ意味内容のいずれかと類似するとしてもよい。このとき、含意文特定部110は、より具体的に、文Bの意味が、文Aがもつ意味内容のいずれとも類似するとしてもよい。また、含意文特定部110は、例えば、(2)文Aが文Bを含意する関係にあるとき、文Aがもつ意味内容のいずれかと類似するとしてもよい。このとき、含意文特定部110は、より具体的に、文Aは文Bがもつ意味内容を全てもち、文Bの意味は、文Aがもつ意味内容の一部(文Bと共通する意味内容のみ)と類似するとしてもよい。この場合、“文の意味が類似する”とは、その文が、相手側の文がもつ意味内容のいずれかと同一の意味または相手側の文がもつ意味内容のいずれかに何らかの限定を加えた意味を有することを意味する。なお、上記の例では、(1)が相手側の文がもつ意味内容のいずれかに何らかの限定を加えた意味を有する場合に相当し、(2)が相手側の文がもつ意味内容のいずれかと同一の意味を有する場合に相当する。

0026

含意文特定部110は、例えば、第1文集合から文を順次読み出し、読み出した文と、第1文集合の他の文の各々とを比較して、含意判定を行ってもよい。このとき、含意文特定部110は、比較対象が同一記事内の文同士である場合には、含意判定を行わないようにしてもよい。

0027

また、含意文特定部110は、例えば、第1文集合に対して、含意認識に基づくクラスタリング(以下、含意クラスタリングという)を実施してもよい。このとき、含意文特定部110は、同一記事中の文を含むクラスタが生成された場合、同じクラスタ内において同一記事中の文同士は含意関係にないとして扱うようにしてもよい。例えば、文Aと文Bとが同一クラスタに属する場合であっても、文Aと文Bとが同じ記事に含まれる場合には、文Aと文Bとの間の含意関係はないものとしてもよい。

0028

含意クラスタリングの方法は特に限定されない。例えば、上記の特許文献1に記載されている方法であってもよい。また、例えば、対象とされる全ての記事を構成している文からなる文集合に含まれる各文をそれぞれ代表文として、当該代表文と当該代表文を含意する関係にある他の文とを同一クラスタ内のメンバとする方法であってもよい。この場合、文の数と同じ数のクラスタが生成される。なお、含意クラスタリングの方法として、上記のような1段のクラスタリングの結果得られるクラスタ間の要素の重複度合いに基づいてさらにクラスタを統合するような、多段のクラスタリングを行う方法を用いることも可能である。

0029

図3および図4は、含意文特定部110から出力される情報の例を示す説明図である。なお、図3は、含意文特定部110による含意判定の結果を示す情報の例である。図3において、対象文は、他の文との間で含意関係の有無を判定する対象とした文を示している。また、含意文は、対象文を含意すると判定された文を示している。図3によれば、例えば、文1−1は、文2−2の文を含意すると判定されたことがわかる。以下、文の識別用の表現として、“文n−m”という表現を用いた場合、“−”の右側にある“n”が記事を識別する情報(記事ID)を示し、左側にある“m”が文を識別する情報(文ID)を示す。

0030

また、図4は、含意文特定部110による含意クラスタリングの結果を示す情報の例である。図4において、クラスタIDは、含意クラスタリングによって分類されたクラスタの識別子を示している。また、記事IDと文IDの組は、当該クラスタに属する文の記事IDと文IDの組を示している。また、代表文フラグは、当該クラスタの代表文であるか否かを示している。各クラスタの代表文には、一般に、その代表文が属するクラスタに含まれる他の文との間で最も多く含意関係がある文が選ばれる。例えば、代表文と、同一クラスタ内の他の文との含意関係の例としては、同一クラスタ内の他の文の全てが代表文を含意する関係が挙げられる。なお、これは、代表文が同一クラスタ内の他の文を含意する関係を否定するものではない。

0031

含意クラスタリングの方法によっては、同一クラスタ内の他の文の全てが代表文を含意する関係が必ずしも成り立たない場合がある。例えば、多段のクラスタリングを行った結果、最終的に生成されたクラスタでは、代表文以外の他の文の全てが代表文を含意しない場合も考えられる。なお、含意関係にない他の文があっても、代表文と当該他の文との間には共起関係といった何らかの関係があると言える。例えば、クラスタ内の要素の重複度合いに基づいてクラスタを統合した場合には、共起関係がある。ここで、共起関係とは、意味的に、1つの文内に同時に現れやすい関係をいう。例えば、統計的に、文Aの意味と文Bの意味とを同一文により表現した他の文Cが多く存在する場合に、文Aと文Bとの間に共起関係があるといってもよい。

0032

例えば、次のような5つの文を含む文集合U1があったとする。

0033

・文集合U1
文T1:X社は車を販売した
文T2:X社は車を売買する業者である
文T3:X社は車を買った
文T4:X社は軽自動車発売した
文T5:X社はセダン買い取り、軽自動車を売った

0034

文集合U1において、文T2は、文T1を含意する。また、文T2は、文T3を含意する。また、文T4は、文T1を含意する。また、文T5は、文T1、T2およびT4を含意している。なお、文T2、T4およびT5が、それぞれ文T1を含意する。また、文T2およびT5が、それぞれ文T3を含意する。また、文T5が、文T4を含意する。これらの含意関係を図示すると、図5のようになる。

0035

図5は、文集合U1における含意関係の例を示す説明図である。図5における円形シンボルは1つの文を示している。また、矢印は、矢印の元の文が矢印の先の文を含意することを示している。

0036

また、図6は、文集合U1に対して含意クラスタリングを実施した場合の処理結果の例を示す説明図である。含意クラスタリングの結果、例えば、図6(a)に示すように、文T1を含意する文は、文T1を代表文とするクラスタAに分類されたとする。同様に、文T3を含意する文は、文T3を代表文とするクラスタBに分類されたとする。同様に、文T4を含意する文は、文T4を代表文とするクラスCに分類されたとする。この場合、クラスタAには、要素として、代表文である文T1以外に、文T2、T4およびT5が含まれる。同様に、クラスタBには、要素として、代表文である文T3以外に、文T2およびT5が含まれる。同様に、クラスタCには、要素として、代表文である文T4以外に、文T5が含まれる。なお、このように1つの文が複数のクラスタに属する場合もある。図6(a)において、文T2と文T4との間に直接の含意関係はないが、代表文T1を通じて含意関係が結ばれていると言える。これは、文T2およびT4のいずれもが文T1の意味を、意味内容として含んでいるからである。このように、一方の文の意味が、他方の文がもつ意味内容のいずれか(例えば、文T4がもつ意味内容の1つに相当する文T1の意味)と類似する場合、これらの文は広義の意味で“含意関係にある”としてもよい。このような含意関係は、同一クラスタに属する代表文以外の文が代表文(共通する他の文)を含意する(狭義の)含意関係に加えて、同一クラスタに属する代表文以外の文同士が、共通に有する代表文がもつ意味内容という少なくとも1つの共通する意味内容において含意する(狭義の)含意関係を含む概念である。なお、同一クラスタに属する代表文以外の文同士が、共通に有する代表文がもつ意味内容という少なくとも1つの共通する意味内容において含意する(狭義の)含意関係は、同一クラスタに属する代表文以外の文が互いに、代表文がもつ意味内容と類似する意味を有する関係と言い換えることも可能である。

0037

また、含意クラスタリングの方法によっては、要素の重複度合いに基づいてクラスタを統合することも考えられる。例えば、クラスタCの要素は全てクラスタAに含まれている。そのような場合に、クラスタAとクラスタCとを統合して、図6(b)に示すようなクラスタDとすることが考えられる。

0038

また、図6(b)を見ると、クラスタBの要素は、その半分以上がクラスタDに含まれている。そのような場合に、クラスタBとクラスタDとを統合して、図6(c)に示すようなクラスタEとすることが考えられる。このとき、クラスタEの代表文には、要素数の多い方のクラスタDの代表文であった文T1が選択されてもよい。その場合、クラスタEにおいて、代表文である文T1と、他の文である文T3との間には含意関係が成立しない場合がある。しかし、文T1と文T3の表現をそれぞれ見ると、動詞が“売る”と“買う”となっており、“販売”といった表現があることからも明らかなように、これらの意味は一緒に表現されることが多い。以下、このような、含意クラスタリング処理の結果、含意関係がなくても共起関係といった所定の関係がある2つの文が同一クラスタに属することになった場合も、それらの文は、広義の意味で“含意関係にある”とする。このような含意関係は、同一クラスタに属する代表文以外の文が代表文(共通する他の文)を含意する(狭義の)含意関係と、同一クラスタに属する代表文以外の文同士が、共通に有する代表文がもつ意味内容という少なくとも1つの共通する意味内容において含意する(狭義の)含意関係とに加えて、同一クラスタに属する文同士の共起関係を含む概念である。

0039

差分特定部120は、含意文特定部110による処理の結果に基づいて、含意関係にある文を含む記事間の差分の有無または差分量や差分とされる箇所を特定する。差分特定部120は、例えば、含意文特定部110から出力される情報を入力として、記事毎に含意関係にある文の組を特定し、その文を含む記事間の差分の有無および/またはその量を特定してもよい。差分特定部120は、例えば、対象とされた記事間の差分量だけを求めてもよいし、さらに求めた差分量が所定の閾値以上であれば差分ありと判定してもよい。

0040

以下、第1の文として文1−1で識別される文と、第2の文として文2−2で識別される文とが含意関係にあることを想定する。ここで、第1の文は、記事ID=1の第1の記事に含まれる。また、第2の文は、記事ID=2の第2の記事に含まれる。差分特定部120は、この場合、第1の文を含む第1の記事と、第2の文を含む第2の記事との間の差分の有無および/または差分量を求めればよい。このとき、差分特定部120は、第1の記事に含まれる第1の文以外の文と、第2の記事に含まれる全ての文とを比較し、差分となる文を特定してもよい。なお、差分とされる箇所は、文に限られず、例えば、特定の品詞や、節や、図表などであってもよい。

0041

記事間もしくは文間における差分の有無および/または差分量は、一方の記事もしくは文に含まれる単語が、他方の記事もしくは文にどれくらい含まれているか、すなわち重複度合いなどを用いて判定してもよく、このとき、単語の同義語上位語案して類似性を求めてもよい。

0042

また、差分特定部120は、求めた結果を記憶する。差分特定部120は、例えば、第1の文の識別情報である文IDに対応づけて、当該第1の文を含む第1の記事との間で差分があると判定された他の記事の記事IDや、当該他の記事内の差分があるとされた文の文IDを記憶してもよい。また、差分特定部120は、差分の有無は判定せずに差分量のみを求める場合には、例えば、第1の文の識別情報である文IDに対応づけて、差分量を求めた他の記事の記事IDと求めた差分量の組を記憶してもよい。

0043

また、差分となる文が特定された場合には、上記の対応関係に加えて、差分となる文の文IDや求めた差分量を記録してもよい。

0044

また、記事間の差分の有無や差分量を求める際に、記事中の全ての文を対象としなくてもよい。主文となる文は記事の前半部分に多いことから、差分特定部120は、例えば、互いの記事の前半部分のみを対象にして、記事間の差分の有無や差分量を求めてもよい。

0045

可視化部130は、含意文特定部110による文間の含意関係の判定結果と、差分特定部120による記事間の差分の特定結果とに基づいて、ユーザが情報収集を行うのに適した画面を生成して表示する。

0046

可視化部130は、例えば、記事記憶部100に記憶されている記事を表示する際に、該記事内の各文に対して、その文と含意関係にある文を含み、かつ当該記事との間で差分がある他の記事がある場合に、当該他の記事をリンク先とするリンク情報を付与して当該記事の表示を行ってもよい。このとき、表示対象とされた記事内の一つの文に対して、複数の他の記事へのリンク情報が付与可能であった場合、差分が大きい他の記事ほど優先して表示されるようにリンク情報を付与してもよい。例えば、可視化部130は、差分量が上位所定数以内や所定の閾値以上といった所定の条件を満たす他の記事のみをリンク先として表示する、リンク先一覧などをリスト表示する際に差分量が大きい記事ほどリストの上の方に表示してもよい。

0047

また、可視化部130は、リンク先とされた他の記事やその一部の内容を表示する際に、差分箇所を強調して表示するようにしてもよい。

0048

図7および図8は、可視化部130による表示の例を示す説明図である。なお、図7には、可視化部130によってリンク情報が付与された記事の表示例が示されている。図7において、記事中の文に付された下線が、当該文にリンクが設定されていることを示している。また、下線が付された文の末尾の吹き出しは、リンク先の記事数を示している。可視化部130は、例えば、図7に示すように、ある記事を表示する際に、その記事内の各文に対して、関連する情報を有する記事へのリンクの有無やリンク先の記事数が分かるに記事を加工して表示してもよい。なお、本例では、記事にリンク情報を付与することで、ユーザ入力に応じてリンク先とされた記事に自動でアクセスできるようにすることを、リンクを設定すると表現している。

0049

また、図8は、ある記事内の文に設定されたリンク先の記事一覧の例を示す説明図である。可視化部130は、例えば、図8に示すように、表示中のある記事中の特定の文が選択された時に、当該文に設定されているリンク先の記事の情報を一覧表示してもよい。このとき、可視化部130は、表示中の記事との間の差分が大きい記事ほど、リストの上位に表示してもよい。また、可視化部130は、リンク先の記事の情報として、リンク先の記事の抜粋を表示してもよい。リストに記事の抜粋を表示する際には、可視化部130は、リンク先とされた記事においてリンク元となった文と含意関係にある文や、リンク先とされた記事においてリンク元となった文を含む記事に対して差分とされた文を抜粋して表示してもよい。図8において、k1〜k3は、それぞれリンク先とされた記事の抜粋である。“<< >>”で囲まれた文は、リンク先とされた記事においてリンク元となった文と含意関係にある文である。また、その下部にある文は、リンク先とされた記事においてリンク元となった文を含む記事に対して差分とされた文である。また、図8では、差分強調表示の例として、各記事の抜粋において、リンク元となった文を含む記事と、リンク先とされた記事との間における単語の重複割合に基づいて特定された差分箇所を黒塗りで表示しているが、差分強調表示の方法はこの限りではない。例えば、差分箇所とされた文字の色やフォントを変えるなど、他の箇所と区別しうる態様により表示すればよい。可視化部130は、例えば、図8に示すように、リンク先の記事の情報を表示してもよい。リンク先の記事の情報の表示例としては、リンク先とされた記事をそのまま表示する、リンク先とされた記事に関する情報(タイトル所在や)をリスト化して表示する、リンク先とされた記事の抜粋またはその一覧を表示する、その際に差分箇所などを強調表示するなどが挙げられる。このとき、一つ以上のリンク先の記事を加工して、表示用の記事(加工記事)を新たに生成してもよい。上記の例でいう抜粋、強調表示、リスト化は、リンク先の記事の加工例である。可視化部130は、リンク元となった文に対して生成した加工記事へのリンクを設定してもよい。

0050

次に、本実施形態の動作について説明する。図9図12は、本実施形態の記事管理システム1の動作例を示すフローチャートである。図9は、本実施形態の記事管理システム1の関連情報対応づけ処理の例を示すフローチャートである。

0051

図9に示す例では、まず、含意文特定部110が、記事記憶部100に記憶されている各記事を構成している文の集合(第1文集合)からリンク元とする文を1つ選択する(ステップS101)。以下、ステップS101で選択された文を第1の文と呼ぶ場合がある。

0052

次に、含意文特定部110は、第1文集合の中から、選択された第1の文を含む第1の記事とは異なる記事内の文であって、該第1の文と含意関係にある文を特定する(ステップS102)。以下、ステップS102で特定された文を第2の文と呼ぶ場合がある。

0053

ステップS102において、含意文特定部110は、例えば、第1の文と、第1の文を含む記事以外の記事に含まれる各文とを比較して、含意関係の有無を判定することにより、第2の文を特定してもよい。また、例えば、含意文特定部110は、第1文集合に対して含意クラスタリング処理を行ってその結果得られるクラスタの情報を基に、第1の文が属するクラスタに属する他の文を、第2の文として特定してもよい。

0054

次に、差分特定部120は、第1の文を含む第1の記事と、第2の文を含む第2の記事との間の差分を求める(ステップS103)。ここで、第1の記事と第2の記事との間に差分がある場合(ステップS104のYes)、差分特定部120は、第1の文に対して、第2の記事を、リンク先の記事候補として記憶する(ステップS105)。そして、ステップS106に移行する。

0055

一方、第1の記事と第2の記事との間に差分がない場合には(ステップS104のNo)、そのままステップS106に移行する。

0056

ステップS106では、文集合に含まれる全ての文について、ステップS101からの処理が完了したかを判定する。判定の結果、完了していれば処理を終了し(ステップS106のYes)、完了していなければステップS101に戻り、次のリンク元の文を選択する(ステップS106のNo)。

0057

記事管理システム1は、このようにして第1文集合に含まれる全ての文がリンク元として選択されるまで、上記のステップS101からステップS105までの一連の処理を繰り返し行う。

0058

記事管理システム1は、例えば、対象とする文集合の指定を受けて、図9に示す動作を行ってもよい。

0059

また、図10図12は、可視化部130の動作例を示すフローチャートである。まず、図10に示す例を説明する。図10に示す例では、まず、システムが、表示する記事の指定を受け付ける(ステップS111)。システムは、例えば、ユーザから記事記憶部100に記憶されている記事のいずれかの指定を受け付けてもよい。

0060

表示する記事の指定を受けて、可視化部130は、指定された記事に含まれる各文に対して、予め記憶されているリンク先の候補記事の情報に基づいてリンク情報を付与して、当該記事を表示する(ステップS112)。可視化部130は、例えば、図7に示したようなリンク先の情報を付与して、指定された記事を表示してもよい。

0061

次に、図11に示す例を説明する。図11に示す例では、記事記憶部100に記憶されている記事のいずれかが表示されているとする。その上で、システムが、表示中の記事の中から文の指定を受け付ける(ステップS121)。システムは、例えば、ユーザから表示中の記事に含まれる文のいずれかの指定を受け付けてもよい。

0062

次に、可視化部130は、ステップS121での文の指定を受けて、指定された文に対して、予め記憶されているリンク先の候補記事の情報に基づいて、リンク先の記事リストを表示する(ステップS122)。可視化部130は、例えば、図8に示したような記事の抜粋を含むリンク先の記事リストを表示してもよい。リンク先の記事リストの表示方法は、図8に示した方法に限定されない。例えば、可視化部130は、表示中の記事内の指定された文の近くに、吹き出し等の形で、リンク先の記事のタイトル一覧等を表示してもよい。

0063

次に、図12に示す例を説明する。図12に示す例でも、記事記憶部100に記憶されている記事のいずれかが表示されているとする。その上で、システムが、表示中の記事の中から文の指定を受け付ける(ステップS131)。システムは、例えば、ユーザから表示中の記事に含まれる文のいずれかの指定を受け付けてもよい。

0064

次に、可視化部130は、ステップS121での文の指定を受けて、指定された文に対して、予め記憶されている含意関係の特定結果の情報等に基づいて、指定された文が2以上の意味内容によるリンク先の候補記事を有しているか否かを判定する(ステップS132)。

0065

可視化部130は、例えば、指定された文が2以上のクラスタに属しており、そのうちの2以上のクラスタ内において、含意関係にある他の文を含む記事がリンク先として設定されている場合に、指定された文が2以上の意味内容によるリンク先の候補記事を有していると判定してもよい。この場合、上記の条件を満たした2以上のクラスタの代表文の意味が、指定された文がリンク先の候補記事を有している2以上の意味内容に相当する。

0066

以下、上記の文集合U1を用いて具体的に説明する。例えば、図5(a)のような含意クラスタリングの処理結果が得られたとする。このとき、文T2は、クラスタAとクラスタBとに属する。このような場合に、可視化部130は、文T2について、2以上の意味内容によるリンク先の候補記事を有していると判定してもよい。なお、本例では、クラスタAおよびクラスタBのいずれにも、文T2を含む記事とは異なる記事に含まれ、当該異なる記事がリンク先の候補として設定されているような他の文が属しているとする。これは、例えば、クラスタAに含まれる文T1、T4、T5のいずれかが、文T2を含む記事とは異なる記事に含まれており、かつその異なる記事が文T2のリンク先として設定されているとともに、クラスタBに含まれる文T3、T4のいずれかが、文T2を含む記事とは異なる記事に含まれており、かつその異なる記事が文T2のリンク先として設定されていればよい。このとき、文T2がリンク先の候補記事を有している「2以上の意味内容」には、クラスタAの代表文である文T1の意味と、クラスタBの代表文である文T3の意味とが相当する。

0067

また、例えば、図5(a)のような含意クラスタリングの処理結果が得られたとする。このとき、文T4は、クラスタAとクラスタCとに属する。このような場合に、可視化部130は、文T4に対して、2以上の意味内容によるリンク先の候補記事を有していると判定してもよい。なお、本例では、クラスタAおよびクラスタCのいずれにも、文T4を含む記事とは異なる記事に含まれ、当該異なる記事がリンク先の候補として設定されているような他の文が属しているとする。換言すると、クラスタAについて、クラスタAに含まれる文T1、T2、T5のいずれかが、文T4を含む記事とは異なる記事に含まれており、かつその異なる記事が文T4のリンク先の候補として設定されているとする。また、クラスタCについても同様に、クラスタCに含まれる文T5が、文T4を含む記事とは異なる記事に含まれており、かつその異なる記事が文T4のリンク先として設定されているとする。このとき、文T4がリンク先の候補記事を有している2以上の意味内容としては、クラスタAの代表文である文T1の意味と、クラスタCの代表文である文T4の意味とが相当する。

0068

ステップS132の判定の結果、第1の文に対して2以上の意味内容によるリンク先の候補記事を有してないと判定された場合には(ステップS132のNo)、可視化部130は、通常のリンク先表示を行えばよい(ステップS133)。その場合、可視化部130は、例えば、リンク先表示として、上記のステップS122の処理を行ってもよい。

0069

一方、第1の文に対して2以上の意味内容によるリンク先の候補記事を有していると判定された場合(ステップS132のYes)、可視化部130は、ユーザにリンク先を表示する観点を選択させてもよい(ステップS133)。可視化部130は、例えば、判定の結果特定された2以上の意味内容を表現した文をリスト化して表示し、いずれの意味内容について関連する情報をリンク先として表示するかを問い合わせてもよい。これにより、第1の文がもつ意味内容の中からユーザが興味をもった観点に相当する意味内容を特定することができる。

0070

例えば、上記の文集合U1の中から文T4が選択されたとする。なお、文T4の表記は“X社は軽自動車を発表した”であり、その意味もやはり“X社は軽自動車を発表した”である。そして、ステップS132の判定の結果、文T4がもつ、リンク先の候補記事を有している2以上の意味内容として、文T1の意味である“X社は車を販売した”と、文T4の意味である“X社は軽自動車を発表した”とが特定されたとする。なお、本例では、文T1、T2およびT5を含む記事は全て文T4を含む記事以外の記事であり、かつ文T4を含む記事の内容とは異なる内容を有しているものとする。したがって、文T4に対して、文T1、T2およびT5を含む記事の各々がリンク先の候補として抽出される。ここで、文T1、T2およびT5は、リンク元である文T4に対して、リンク先の候補記事とされた際の含意判定における他方の文に相当する。

0071

本例では、文T1、T2およびT5のうち、その意味が文T4のリンク先の候補記事を有している2以上の意味内容に相当するとされるのは、文T1のみである。これは、文T2およびT5が、文T4がもたない意味内容をもっている可能性があることによる。例えば、文T4から文T1を含む記事へのリンクを考える。なお、文T4と文T1の関係は、文T4が文T1を含意する関係である。このことから、該リンクは、2つの文が共通してもつ意味内容に相当する文T1がもつ意味内容のいずれかに基づいて対応づけられていると解釈できる。このような場合には、対応づけの根拠となった意味内容を全て表現している文T1を、リンク先を表示する観点候補としてユーザに提示するのが好ましい。同様に、例えば、文T4から文T5を含む記事へのリンクを考える。なお、文T4と文T5の関係は、文T5が文T4を含意する関係である。このことから、該リンクは、2つの文が共通してもつ意味内容に相当する文T4の意味内容のいずれかに基づいて対応づけられていると解釈できる。すると、対応づけの根拠となった意味内容を全て表現している文T4を、リンク先を表示する観点候補としてユーザに提示するのが好ましい。同様に、文T4から文T2を含む記事へのリンクを考える。文T4と文T2の関係は、クラスタの代表文である文T1を介して対応づけられた関係である。このような関係から、該リンクは、2つの文の共通要素となる文T1がもつ意味内容のいずれかに基づいて対応づけられていると解釈できる。すると、このような場合には、対応づけの根拠となった意味内容を全て表現している文T1を、リンク先を表示する観点候補としてユーザに提示するのが好ましい。以上のことから、文T4と文T1を、それぞれ文T4がもつリンク先の候補記事を有している意味内容を表現している文として、ユーザに提示し、その中からリンク先を表示する観点を選択させる。

0072

なお、可視化部130は、文T1およびT4をリンク先を表示する観点の候補として、例えば、「いずれの意味を観点にして、関連する情報のリンク先を提示しますか」といった問い合わせを行ってもよい。

0073

リンク先を表示する観点が決定すると、可視化部130は、その観点による含意関係に基づいて、リンク先の表示を行う(ステップS135)。可視化部130は、第1の文に対して設定されているリンク先候補のうち、当該リンク先候補の記事を特定するに至った含意関係が、観点として選択された文を含意する関係であるリンク先候補のみを対象にして、リンク先の表示を行う。

0074

例えば、上記の例において、文T4が指定された場合に、文T1およびT5を、リンク先を表示する観点の候補として提示した結果、文T1が選択されたとする。この場合、可視化部130は、文T4に対して設定されているリンク先候補のうち、文T1を含む記事または文T1を含意する関係にある他の文(文T2およびT5)を含む記事であって、文T4を含む記事とは異なる内容を有する記事のみを対象にして、リンク先の表示を行えばよい。これは、ユーザが、“X社が軽自動車を発売した”という文がもつ意味内容の中で“X社が車を販売した”という意味内容に興味をもっているとして、“X社が車を販売した”という意味内容と類似する意味の文を含む他の記事が収集されればよいとの判断による。なお、上記の例にはないが、“X社が車を販売した”という意味内容の下位概念に相当する“X社が軽自動車を発売した”という意味内容をもつ文が他の記事に含まれている場合には、当該記事も収集される。

0075

また、例えば、上記の例において、文T4が選択されたとする。この場合、可視化部130は、文T4に対して設定されているリンク先候補のうち、文T4を含意する関係にある他の文(文T5)を含む記事であって、文T4を含む記事とは異なる内容を有する記事のみを対象にして、リンク先の表示を行えばよい。これは、ユーザが、“X社が軽自動車を発売した”という文がもつ意味内容の中で“X社が軽自動車を発売した”という意味内容に興味をもっているとして、“X社が軽自動車を発売した”という意味内容と類似する意味の文を含む他の記事が収集されればよいとの判断による。なお、この場合、文T4とは含意関係にあるが、“X社が軽自動車を発売した”という意味内容に類似する意味をもたない文T1や文T2を含む記事がリンク先候補記事から除外される。

0076

以上のように、本実施形態によれば、ユーザは、記事中の特定の観点に関連する情報を効率よく収集できる。より具体的には、ユーザは、記事中の興味をもった観点と同じ意味内容をもつ文を少なくとも含み、かつ記事全体としては異なる内容をもった記事に容易にアクセスできるため、記事中の特定の観点に関連する情報を効率よく収集できる。例えば、ユーザは、表示中の記事内において、興味をもった内容を表現している文に付されたリンクを辿っていくだけで、興味をもった内容に関連する情報に簡単にアクセスできるため、情報収集にかかる時間を短縮できる。

0077

本実施形態の記事管理システム1は、2つ以上の物理的に分離した装置が有線または無線で接続されている構成であってもよい。この点、後述の他の実施形態のシステムや装置において同様である。

0078

実施形態2.
次に、本発明の第2の実施形態を説明する。第1の実施形態では、主に、異なる記事に含まれる文間の含意判定の結果に基づいて、指定された文集合に含まれる各文に対して関連する内容を含む他の記事の情報を対応づけることにより、ユーザが所望する情報を提供するシステムを例示した。

0079

本実施形態では、記事に割り当てられた識別情報等を用いずに、指定された記事が、ある記事内の指定された文と関連する情報を有している関連記事か否かを判定する関連記事判定装置について説明する。

0080

図13は、本発明の第2の実施形態の関連記事判定装置の例を示すブロック図である。図13に示す関連記事判定装置200は、含意文判定部210と、差分判定部220と、結果出力部230とを備えている。図13に示す関連記事判定装置200は、任意の記事中の任意の文である第1の文の指定と、判定対象とする記事である第2の記事の指定とを入力とし、第2の記事が第1の文と関連する情報を有している関連記事か否かの情報を少なくとも出力する。以下、第1の文を含む記事を第1の記事という。本実施形態において、第1の記事と第2の記事とが同じ記事であるかは特に問わない。また、関連記事は、より具体的には、指定された文(第1の文)がもつ意味内容のいずれかと類似する意味の文を含み、かつ指定された文が含まれている記事とは異なる内容を有する記事としてもよい。

0081

含意文判定部210は、第2の記事内に、第1の文と含意関係にある文が含まれているか否かを判定する。

0082

含意文判定部210は、例えば、第2の記事に含まれる文を順に1つずつ選択し、選択された文と、第1の文との間に含意関係があるか否かを判定してもよい。より具体的には、含意文判定部210は、選択した文が第1の文を含意するまたは第1の文が選択した文を含意するかどうかを、含意判定を用いて判定する。そのような含意判定の結果、いずれかの含意関係が成立した場合に、含意文判定部210は、第2の記事内に第1の文と含意関係にある文が含まれていると判定してもよい。

0083

また、含意文判定部210は、例えば、第1の文と、第2の記事に含まれる全ての文とを対象に含意クラスタリングを行ってもよい。そして、第1の文を含むクラスタが第1の文以外の文を含む場合に、含意文判定部210は、第2の記事内に第1の文と含意関係にある文が含まれていると判定してもよい。

0084

差分判定部220は、含意文判定部210により、第2の記事内に第1の文と含意関係にある文が含まれていると判定された場合に、第2の記事と第1の記事との間の差分を判定する。また、差分判定部220は、記事間の差分とともに、第2の記事内において第1の記事の差分とされる箇所を求めてもよい。記事間の差分の有無および/またはその量の求め方や、記事内における差分とされる箇所の求め方は、第1の実施形態の差分特定部120による方法と同様でよい。

0085

結果出力部230は、差分判定部220により第2の記事と第1の記事との間に差分があると判定された場合に、第2の記事が第1の文と関連する情報を有する関連記事である旨の判定結果を出力する。結果出力部230は、判定結果とともに、第2の記事がもつ第1の記事との差分量や、第2の記事のうち第1の文と差分があるとされた箇所を示す情報を出力してもよい。

0086

次に、本実施形態の動作について説明する。図14は、本実施形態の関連記事判定装置200の動作例を示すフローチャートである。

0087

図14に示す例では、まず、含意文判定部210が、指定された文(第1の文)と、指定された記事(第2の記事)内の各文との間の含意関係の有無を判定する(ステップS201)。ステップS201の結果、第1の文と、第2の記事内のいずれかの文との間に含意関係があると判定された場合(ステップS202のYes)、ステップS203に進む。

0088

ステップS203では、差分判定部220が、第1の文を含む第1の記事と、第2の記事との間の差分を判定する(ステップS203)。

0089

ステップS203の結果、第1の記事と第2の記事との間に差分があると判定された場合(ステップS204のYes)、結果出力部230が、第2の記事は関連記事である旨を出力する。

0090

その他の場合(ステップS202のNoやステップS204のNo)、結果出力部230が、第2の記事は関連記事でない旨を出力する。

0091

以上のように、本実施形態によれば、指定した記事が、任意の記事中の任意の文に対する関連記事であるか否かの情報を得ることができる。

0092

実施形態3.
図15は、本発明の第3の実施形態の情報検索システムの例を示すブロック図である。図15に示す情報検索システム3は、記事提供サーバ301と、検索サーバ302とを備える。また、検索サーバ302は、文受付部310と、検索部320と、差分判定部330と、結果表示部340とを含む。

0093

また、本実施形態において、記事提供サーバ301と検索サーバ302とはインターネットなどの通信ネットワークを介して接続されている。

0094

記事提供サーバ301は、記事を提供するサーバである。記事提供サーバ301は、例えば、通信ネットワーク上に記事を公開しているWebサーバであってもよい。なお、図15には、n個の記事提供サーバ301を備える例が示されているが、記事提供サーバ301はいくつであってもよい。

0095

文受付部310は、図示しないユーザ端末等から、公開中の記事に含まれる文の指定を受け付ける。検索部320は、文の指定を受け付けると、その指定された文を含む記事を特定するとともに、その指定された文を検索クエリとして検索部320に出力する。以下、指定された文を、第1の文といい、第1の文を含む記事を第1の記事という場合がある。

0096

検索部320は、検索クエリに指定された第1の文を用いて、当該第1の文がもつ意味内容と類似する意味の文を含む記事を、記事提供サーバ301が公開している記事の中から検索する。ここで、検索部320は、第1の実施形態の含意文特定部110による方法と同様の方法、すなわち含意認識や含意クラスタリング技術を用いて、検索クエリ文がもつ意味内容と類似する意味の文を検索し、検索された文を含む記事を取得してもよい。また、このとき、検索部320は、第1の記事の情報を得ている場合には、検索対象とする記事の中から、第1の記事を除外してもよい。なお、検索部320では、検索対象とする記事が、第1の記事か否かによらず、検索対象とする記事内の文の意味が第1の文がもつ意味内容と類似するか否かを判定してもよい。その場合であっても、後述する差分判定部330による、記事間の差分の判定結果を利用して、第1の記事が検索結果として表示されるのを防止できる。

0097

差分判定部330は、第1の記事と、検索された記事との間の差分の有無および/またはその量を判定する。また、差分判定部330は、このような記事間の差分を判定するとともに、検索された記事内において第1の記事との差分となる箇所を特定してもよい。記事間の差分の有無および/またはその量の求め方や、記事内の差分となる箇所の特定方法は、第1の実施形態の差分特定部120による方法と同様でよい。

0098

結果表示部340は、検索部320によって検索された記事のうち、差分判定部330によって差分ありと判定された記事を、第1の文に対する関連記事とし、該記事の情報を表示する。このとき、結果表示部340は、差分量が大きい順に検索された記事の情報を表示してもよい。表示する情報は、例えば、該当する記事の所在(URL(Uniform Resource Locator)や記事の保管場所を示す情報等)やタイトルの一覧であってもよい。一覧には、さらに記事内容の抜粋や、該当する記事または該当する記事を加工した記事へのリンクが含まれていてもよい。結果表示部340は、例えば、第1の実施形態による方法と同様の方法を用いて、抜粋記事の生成や差分強調表示を行ってもよい。

0099

次に、本実施形態の動作について説明する。図16は、本実施形態の情報検索システム3の動作例を示すフローチャートである。

0100

図16に示す例では、まず、文受付部310が、公開中の記事に含まれる文の指定を受け付ける(ステップS301)。

0101

次に、検索部320は、ステップS301で指定された文(第1の文)を検索クエリ文として、当該第1の文がもつ意味内容のいずれかと類似する意味の文を含む記事を、記事提供サーバ301が公開している記事の中から検索する(ステップS302)。

0102

次に、差分判定部330は、検索部320によって検索された記事と、検索クエリに指定された文を含む記事(第1の記事)との差分を判定する(ステップS303)。

0103

差分判定部330は、ステップS03による判定の結果、差分なしと判定された場合、検索された記事を、検索結果から除外する(ステップS304のNo,ステップS305)。そして、ステップS306に移行する。一方、差分ありと判定された場合には(ステップS304のYes)、そのままステップS306に移行する。

0104

ステップS306では、検索された全ての記事について差分判定が完了したか否かを判定する。差分判定が完了していなければ(ステップS306のNo)、ステップS303に戻る。差分判定が完了していればステップS307に移行する。

0105

最後に、結果表示部340は、最終的に検索結果とされた記事の情報を表示する(ステップS307)。

0106

以上のように、本実施形態によれば、ユーザがある記事を読んだ際に、その記事内の文を指定するだけで、自動的にその文がもつ意味内容のいずれかと類似する意味の文を含み、かつ記事全体として異なる内容の記事が検索されるので、ユーザが興味をもった特定の観点に関連する情報を効率よく収集できる。

0107

なお、本実施形態の検索システムは、上述したとおり、差分判定部330が記事間の差分の有無を判定せずに差分量だけを求めてもよい。そのような場合であっても、結果表示部340が、検索部320によって検索された記事を検索結果として表示する際に、第1の記事との差分が大きい記事を優先して表示すれば、ユーザは、興味をもった特定の観点に関連する情報を効率よく収集できる。

0108

実施形態4.
次に、本実施形態の第4の実施形態について説明する。本実施形態では、ある記事中の文を指定すると、自動で、関連記事を収集する情報収集装置について説明する。

0109

図17は、第4の実施形態の情報収集システムの例を示すブロック図である。図17に示す情報収集システム4は、記事収集部410と、関連記事判定部420と、関連記事記憶部430とを備える。

0110

記事収集部410は、ある記事中の文の指定を受け付けると、指定された文を用いて記事を収集する。記事収集部410における記事の収集方法は特に問わない。例えば、記事収集部410は、形態素解析を利用した検索システムを利用して記事の収集を行ってもよい。

0111

関連記事判定部420は、記事収集部410によって収集された記事の各々に対して、当該記事が、指定された文(第1の文)の関連記事であるか否かを判定する。関連記事判定部420における関連記事の判定方法は、第2の実施形態の関連記事判定装置200による方法と同様でよい。なお、関連記事判定部420として、第2の実施形態の関連記事判定装置200が実装されていてもよい。

0112

関連記事記憶部430は、収集された記事のうち、関連記事判定部420によって関連記事と判定された記事を記憶する。このとき、関連記事記憶部430は、関連記事判定部420から、当該関連記事に関して、指定された文を含む記事との間の差分量や、当該関連記事内における、指定された文を含む記事との差分とされる箇所の情報を得られた場合には、それらの情報を関連記事と併せて記憶してもよい。

0113

次に、本実施形態の動作について説明する。図18は、本実施形態の情報収集システム4の動作例を示すフローチャートである。

0114

なお、図18に示す動作例では、既にユーザから文が指定されているものとする。まず、記事収集部410が、指定された文を用いて記事を収集する(ステップS401)。

0115

次に、関連記事判定部420が、収集された記事の各々について、当該記事が、指定された文の関連記事であるか否かを判定する(ステップS402)。

0116

判定の結果、収集された記事が指定された文の関連記事であった場合(ステップS403のYes)、関連記事判定部420または関連記事判定部420からの結果を受けた記事収集部410が、その記事を、関連記事記憶部430に記憶する(ステップS404)。

0117

以上のように、本実施形態によれば、ユーザは、興味のある内容を含む記事中の特定の文(興味のある内容を表現している文)を指定(登録)するだけで、関連する情報を含む記事を自動で得ることができる。

0118

なお、情報収集システム4は、図18に示す一連の処理を定期的に行ってもよい。そのような場合において、情報収集システム4は、例えば、通信ネットワークに接続されたユーザ端末等の情報処理装置常駐して、指定された文の関連記事を自動で収集するエージェント機能として実装されてもよい。

0119

また、本実施形態の関連記事判定部420は、例えば、第1の実施形態の含意文特定部110および差分特定部120として動作することも可能である。また、本実施形態の関連記事判定部420は、例えば、第3の実施形態の検索部320および差分判定部330として動作することも可能である。

0120

次に、図19に示す文集合を用いて、関連記事判定装置200による関連記事の判定例を示す。図19には、4つの記事(記事A,B,CおよびD)が例示されている。各記事の内容は次の通りである。

0121

・記事A
文A−1:「オリンピックパラリンピック開催地は東京で確定。」
文A−2:「X社の報告によれば、30兆円規模経済効果がある。」
文A−3:「しかし、数兆円規模の予算出が課題とされている。」
文A−4以降:「・・・(予算に関する課題に関するトピック等)」

0122

・記事B
文B−1:「東京でオリンピックが開かれることになった。」
文B−2:「X社レポートによれば、経済効果は30兆円とも。」
文B−3:「特に、環境需要の増大が見込まれる。」
文B−4:「観光産業界では、東京オリンピックを見越して、多言語対応を課題として挙げている。」
文B−5以降:「・・・(観光産業界における課題に関するトピック等)」

0123

・記事C
文C−1:「東京五輪開催決定。」
文C−2:「オリンピックによる経済効果に期待。」

0124

・記事D
文D−1:「形勢不利が予想されていたが、東京五輪開催決定。」
文D−2:「前回東京オリンピックから約半世紀。」
文D−3:「1964年の東京オリンピックを振り返ってみたい。」
文D−4以降:「・・・(前回東京オリンピックに関するトピック等)

0125

本例において、文A−1は、文B−1、C−1およびD−1を含意する。また、含意クラスタリング処理では、文A−1、B−1、C−1およびD−1は、代表文を文C−1とするクラスタに属するとされる。

0126

このような文集合があった場合に、例えば、ユーザが記事Aを見ており、その中の文A−1を指定したとする。また、関連記事の判定候補として、記事B、CおよびDが指定されたとする。

0127

関連記事判定装置200の含意文判定部210は、指定された記事内に、指定された文と含意関係にある文が含まれているか否かを判定する。本例では、指定された文A−1に対して、記事B内の文B−1、記事C内の文C−1および記事D内の文D−1が含意関係にあると判定される。したがって、記事B、CおよびDが、指定された文と含意関係にある文が含まれている記事として抽出される。

0128

差分判定部220は、抽出された記事B、CおよびDを対象に、指定された文を含む記事Aとの差分を判定する。例えば、記事Aと記事Bとの間の差分判定において、記事Bは、“オリンピックの開催地が東京”であり、“経済効果が30兆円である”といった内容だけでなく、“環境需要の増大”や“観光産業界における多言語対応の課題”について言及していることから、記事Bを差分ありと判定される。差分判定部220は、例えば、記事Bには、観光需要、観光産業界、他言語対応といった記事Aに含まれていない単語が所定割合以上含まれていることから、記事Bを差分ありと判定してもよい。このとき、差分判定部220は、記事Aに対して差分とされる文として、記事Aに含まれていない単語を含む記事B中の文B−2およびB−3を特定されてもよい。なお、差分判定部220は、単語の重複度合いを求める方法以外にも、例えば、形態素解析の結果得られた名詞形容詞等といった品詞の情報を用いて、記事を構成する要素の重複度合いを求める方法を用いてもよい。

0129

なお、差分判定部220は、各文間の含意判定結果が得られる場合には、それを利用して、記事間の差分を判定してもよい。例えば、差分判定部220は、記事B内の文のうち、記事A内のいずれかの文と含意関係があるとされていない文の数や割合を求め、それが所定の閾値以上であれば差分ありと判定してもよい。

0130

例えば、含意判定の結果、記事Bには、記事A中の文A−2の意味とほぼ同じ意味の文B−2が含まれているが、記事A中のいずれの文の意味とも類似していない意味の文B−3およびB−4も含まれているとする。そのような場合において、差分判定部220は、記事Bを記事Aに対して差分ありと判定してもよい。

0131

差分判定部220は、記事Aと記事Bとの間の差分判定と同様に、記事Aと記事Cとの間および記事Aと記事Dとの間の差分判定を行えばよい。例えば、記事Aと記事Cとの間の差分判定において、差分判定部220は、記事Cには、記事A内の文と差分があるとされる文が含まれていないことから、差分なしと判定してもよい。

0132

また、例えば、記事Aと記事Dとの間の差分判定において、差分判定部220は、例えば、記事Dには、前回オリンピック、半世紀、1964年といった記事Aに含まれていない単語が所定割合以上含まれていることから、記事Dを差分ありと判定してもよい。また、例えば、差分判定部220は、含意判定の結果、記事Dには、記事A中のいずれの文の意味内容とも類似していない意味の文D−2およびD−3が含まれているとして、記事Dを差分ありと判定してもよい。

0133

このような判定により、文A−1に対して、記事BおよびDが関連記事として特定される。また、関連記事である記事B内において、文B−2,B−3,B−4,・・・が記事Aに対して差分とされる文として特定される。また、関連記事である記事D内において、文D−2,D−3,・・・が記事Aに対して差分とされる文として特定される。

0134

なお、上記の関連記事の判定例は、関連記事判定装置200による場合だけでなく、例えば、記事管理システム1の含意文特定部110および差分特定部120による場合も同様である。同様に、例えば、検索サーバ302の検索部320および差分判定部330による場合や、情報収集システム4の関連記事判定部420による場合も同様である。

0135

そして、上記の関連記事の判定結果に基づいて、例えば、第1の実施形態の記事管理システム1の可視化部130が、記事A中の記事A−1が指定されたことに応じて、関連記事とされた、すなわちリンク先の候補とされた記事Bや記事Dへのリンクを設定したり、記事Bや記事Dの情報を表示してもよい。また、可視化部130は、例えば、記事Bの情報を表示する際に、文B−1が、リンク元とされた文A−1と類似する意味の文であることや、文B−2,B−3,B−4,・・・が、リンク元とされた文A−1を含む記事Aとの差分となる箇所であることがわかるような強調表示を行ってもよい。同様の表示例が、例えば、検索サーバ302の結果表示部340による表示例として言える。

0136

次に、本発明の各実施形態にかかるコンピュータの構成例を示す。図20は、本発明の各実施形態にかかるコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005とを備える。

0137

上述の記事管理システム1や、関連記事判定装置200や、情報検索システム3や、情報収集システム4は、コンピュータ1000に実装されてもよい。その場合、それらシステムの動作は、プログラムの形式で補助記憶装置1003に記憶されていてもよい。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って各実施形態における所定の処理を実施する。

0138

補助記憶装置1003は、一時的でない有形媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク光磁気ディスクCD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータは1000がそのプログラムを主記憶装置1002に展開し、各実施形態における所定の処理を実行してもよい。

0139

また、プログラムは、各実施形態における所定の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで各実施形態における所定の処理を実現する差分プログラムであってもよい。

0140

また、実施形態における処理内容によっては、コンピュータ1000の一部の要素は省略可能である。例えば、関連記事判定装置200や情報収集システム4の場合、ユーザに情報を提示しないのであれば、ディスプレイ装置1005は省略可能である。また、図20には図示省略しているが、実施形態における処理内容によっては、コンピュータ1000は、入力デバイスを備えていてもよい。例えば、記事管理システム1や情報検索システム3や情報収集システム4の場合に、リンクが設定されている部分をクリックするなど、リンク先に移動する旨の指示を入力するための入力デバイスを備えていてもよい。

0141

また、各装置の各構成要素の一部または全部は、汎用または専用の回路Circuitry)、プロセッサ等やこれらの組み合わせによって実施される。これらは単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

0142

各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステムクラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

0143

次に、本発明による検索システムの概要を説明する。図21は、本発明による検索システムの最小構成を示すブロック図である。図21に示すように、本発明による検索システムは、受付部601と、検索部602と、表示部603とを備えている。

0144

受付部601は、記事中の特定の文の指定を受け付ける。

0145

なお、このような受付部601は、上記実施形態において、例えば、文受付部310として示されている。

0146

検索部602は、指定された文である第1の文を検索クエリに用いて、第1の文がもつ意味内容と類似する意味の文を含む記事を検索する。

0147

なお、このような検索部602は、上記実施形態において、例えば、検索部320として示されている。

0148

表示部603は、検索された記事を、第1の文に対する関連記事として、該記事の情報を表示する。このとき、表示部603は、関連記事が複数ある場合に、第1の文を含む記事である第1の記事との差分が大きい記事ほど優先して表示する。

0149

なお、このような表示部603は、上記実施形態において、例えば、結果表示部340として示されている。

0150

また、検索部602は、第1の文がもつ意味内容と類似する意味の文を含む記事であって、第1の記事との間に差分がある記事を検索してもよい。

0151

また、表示部603は、表示部は、関連記事とされた記事または該記事を加工して得られる加工記事へのリンクが設定された画面を検索結果として表示してもよい。

0152

また、本発明による検索システムは、第1の記事の内容と、検索された記事である第2の記事の内容とを比較して、第1の記事と第2の記事との間の差分の有無、または、第2の記事内において、第1の記事の内容に対して差分がある箇所を特定する差分特定部をさらに備えていてもよい。そのような場合において、表示部603は、検索結果を表示する際に、第1の記事の内容に対して差分がある箇所を、他と区別しうる態様により強調表示してもよい。

0153

なお、このような差分特定部は、上記実施形態において、例えば、差分判定部220や差分判定部330として示されている。

0154

また、表示部603は、検索結果を表示する際に、第1の文がもつ意味内容のいずれかと類似する意味をもつ文を第1の態様により表示し、第1の記事の内容に対して差分があるとされた箇所を第2の態様により表示してもよい。

0155

本発明による検索システムは、文と文との間の含意関係の有無を判定する含意関係判定部をさらに備え、検索部602は、含意関係判定部により第1の文と検索対象とされた記事内のいずれかの文である第2の文との間に含意関係があると判定された場合に、検索対象とされた記事が、第1の文がもつ意味内容と類似する意味の文を含むとしてもよい。

0156

なお、このような含意関係判定部は、上記実施形態において、例えば、検索部320として示されている。

0157

また、上記の含意関係判定部は、一方の文の意味が真である場合に他方の文の意味も真である2つの文の関係を含意関係として、文と文との間の含意関係の有無を判定してもよい。

0158

また、上記の含意関係判定部は、一方の文の意味内容のいずれかが、他方の文の意味とが類似している2つの文の関係を、該他方の文が該一方の文を含意する含意関係として、文と文との間の含意関係の有無を判定してもよい。

0159

また、検索部602は、上記の含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文が第2の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、第1の文がもつ意味内容と類似する意味の文を含むとしてもよい。

0160

また、検索部602は、上記の含意関係判定部により、第2の文が第1の文を含意する含意関係があるまたは第1の文と第2の文とが、共通する他の文である第3の文を含意する含意関係があると判定された場合に、検索対象とされた記事が、第1の文がもつ意味内容と類似する意味の文を含むとしてもよい。

0161

また、上記の含意関係判定部は、ある文集合に対して、一方の文の意味が真である場合に他方の文の意味も真である2つの文の関係に基づくクラスタリングである含意クラスタリングの結果、同一クラスタに属する文同士の関係を含意関係として、文と文との間の含意関係の有無を判定してもよい。

0162

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0163

この出願は、2015年3月13日に出願された米国特許出願62/132,648を基礎とする優先権を主張し、その開示の全てをここに取り込む。

0164

本発明は、記事の管理や記事の収集に好適に適用可能である。また、複数の記事間の関係性を、お互いの記事に含まれる文の内容およびお互いの記事の内容の差異に基づいて定義する用途にも好適に適用可能である。

0165

1記事管理システム
100記事記憶部
110含意文特定部
120 差分特定部
130可視化部
200関連記事判定装置
210 含意文判定部
220差分判定部
230結果出力部
3情報検索システム
301 記事提供サーバ
302検索サーバ
310 文受付部
320検索部
330 差分判定部
340結果表示部
4情報収集システム
410 記事収集部
420 関連記事判定部
430 関連記事記憶部
601 受付部
602 検索部
603 表示部
1000コンピュータ
1001 CPU
1002主記憶装置
1003補助記憶装置
1004インタフェース
1005 ディスプレイ装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ