図面 (/)

技術 検索式作成方法及び装置

出願人 株式会社エヌ・ティ・ティ・データ
発明者 中島浩之木谷強
出願日 1998年1月13日 (21年6ヶ月経過) 出願番号 1998-005130
公開日 1999年7月30日 (19年11ヶ月経過) 公開番号 1999-203310
状態 未査定
技術分野 データの分類、組合せ 検索装置
主要キーワード 決定木学習 初期文書 集合分割 総情報量 記述長 検索式作成 本処理手順 各検索キーワード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1999年7月30日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

大量の学習文書群を必要とすることなく、指定情報が付与されていない文書群を考慮した検索式が作成可能な検索式作成装置を提供する。

解決手段

文書集合分割部14は、キーワード抽出部32から出力される文書集合を分割する際の相互情報量を、不定文書群を仮想的に不要文書群とみなして算出し、相互情報量が最大となる場合の単語を検索キーワードとして決定する。文書集合分割部14では、決定した検索キーワードで文書集合が必要文書群と不要文書群に区別された時点、及び当該時点且つ当該必要文書群の文書集合における必要文書数が不定文書数に対する所定の割合を超過した場合に文書集合の分割及び検索キーワードの決定を停止する。検索式作成部33は、決定した検索キーワードを論理演算子“and”及び“or”で結合して検索式を作成する。

概要

背景

検索対象となる電子文書蓄積した文書データベースからあるキーワードを抽出し、このキーワードの論理積論理和の組み合わせにより所要検索式検索者協調して試行錯誤的に作成する検索式作成装置が知られている。

図5は、従来のこの種の検索式作成装置の機能構成図である。この検索式作成装置50は、コンピュータ装置が所定のプログラムを読み込んで実行することにより形成される、キーワード抽出部51、文書集合分割部52、及び検索式作成部53の機能ブロックを備えている。なお、文書には、それぞれ検索者が関心のある必要文書か、関心のない不要文書かを表す必要・不要の指定情報が付与されているものとする。

キーワード抽出部51は、複数の文書から公知の形態素解析処理によって文書毎に複数のキーワードの抽出処理を行う。また、個々の文書におけるキーワードの出現の有無を表す判別情報及び当該文書が必要文書か不要文書かを表す指定情報を、文書名や文書番号等の文書識別子と共に文書集合として出力する。符号31Bは、キーワード抽出部51から出力される文書集合の内容を例示したものである。

文書集合分割部52は、文書集合を上記判別情報に基づいて段階的に分割し、文書検索に用いる検索式を作成する場合の基礎となる複数の検索キーワードを決定する。この場合、出来るだけ一つ(少数)のキーワードの判別情報によって文書集合を分割していくことで、必要文書と不要文書とを区別した検索者の意図の抽出が可能となる。文書集合分割部52で決定した複数の検索キーワードは、検索式作成部53において論理演算子“and”、“or”及び“not”で結合され、検索式として後続処理に出力される。

文書集合分割部52における文書集合の分割処理は、例えば公知のMDL(Minimum Description Length:最小記述長原理に基づくものである。このMDL原理は、「より多くの必要文書と不要文書とをできるだけ少ないキーワードの組み合わせ(検索式)で区別することにより、人間(検索者)の意図をより正確に表現できる」とするヒューリスティックな手法であるが、MDL原理を厳密に実現するには多くの処理量が必要となる。そこで、この処理量の軽減を図るために、MDL原理を近似的に実現するのが一般的である。

MDL原理を近似的に実現する手法は、例えば、公知の決定木論理式木構造で表現したもの)学習アルゴリズムである「ID3」に基づいて行われる。「ID3」についての詳細は、「知識獲得と学習シリーズ1:知識獲得入門」(Michalski,R.S.他編、共立出版)を参考にすることができる。以下、この決定木学習アルゴリズム「ID3」による文書集合の分割処理の概要を図6を参照して説明する。

まず、キーワード抽出部51から送られた文書集合を初期文書集合Set0とする(ステップS201)。次に、初期文書集合Set0の“未分割”のフラグをオンにする(ステップS202)。これをSetiとする(ステップS203)。次に、この文書集合Seti中の必要文書、不要文書に含まれる各キーワードtj(1≦j≦N)について、文書全体の情報量に対する個別文書の情報量の相対関係を表す相互情報量I(tj)を算出する(ステップS204)。相互情報量I(tj)は、具体的には、未分割の文書集合についての情報量Hからキーワードtjが含まれた文書集合及び含まれない文書集合についての情報量H(tj)を差し引いた、以下の式(1)で表される。

式(1) I(tj)=H−H(tj)

各情報量H及びH(tj)は、各々下記の式(2)、式(3)で表される。
ID=000003HE=025 WI=070 LX=1150 LY=1200

但し、式(2)、式(3)におけるパラメータは下記のようになる。
pi:Seti中の必要文書数
ni:Seti中の不要文書数、
si:pi+ni、
pi(tj):Seti中でキーワードtjを含む必要文書数、
ni(tj):Seti中でキーワードtjを含む不要文書数、
si(tj):pi(tj)+ni(tj)、
pi not(tj):Seti中でキーワードtjを含まない必要文書数、
ni not(tj):Seti中でキーワードtjを含まない不要文書数、
si not(tj):pi not(tj)+ni not(tj)、
h(a,b,c):-{a/c・log2(a/c)+b/c・log2(b/c)}

次に、複数のキーワードtjから相互情報量I(tk)の値を最大にすることが可能なキーワードtkを選択し、これを検索キーワードとする(ステップS205)。この相互情報量I(tk)が正の有限値(>0)の場合(ステップS206)、検索キーワードtkを含む文書の番号からなる文書集合をSeti′、検索キーワードtkを含まない文書の番号からなる文書集合をSeti″として分割し、分割したそれぞれの文書集合の“未分割”のフラグをオンにする(ステップS207〜S210)。i′,i″は既に文書集合Seti′、Seti″が存在しなければ任意の値で良い。相互情報量I(tk)がゼロ値(=0)の場合は、文書集合の分割を行わない(ステップS206)。その後、集合Setiの“未分割”のフラグをオフにする(ステップS211)。“未分割”のフラグがオンの文書集合がある場合はステップS203に戻り(ステップS212:Yes)、“未分割”のフラグがオンの文書集合がなくなるまで処理を繰り返す。そして、すべての文書集合についての“未分割”のフラグがオフになった時点で処理を終える(ステップS212:No)。

上記アルゴリズム「ID3」による処理過程は、例えば、公知のアルゴリズムである「C4.5」の手法等による代用も可能である。この「C4.5」の詳細については、「C4.5 Programs for Machine Learning」(Quinlan、J.R.著、Morgan Kaufmann Publishers 刊)の記載を参考にすることができる。

図7は、上記検索式作成装置50において、一つの文書集合から複数の文書集合に分割され、検索式が試行錯誤的に作成されていく過程を示す説明図である。以下、図7を参照して、従来の検索式の作成手順を説明する。まず、キーワード抽出部51から出力された初期文書集合Set0から、上述の決定木学習アルゴリズム「ID3」に基づいて相互情報量が最大となるキーワードを決定し、これを検索キーワードとする。ここでは、検索キーワードkwd3が決定されたとする。そして、この検索キーワードkwd3によって、初期文書集合Set0を、検索キーワードkwd3を含む必要文書の集合Set1と検索キーワードkwd3を含まない必要文書及び不要文書の集合Set2とに分割する。

文書集合Set1は、検索キーワードkwd3によるこれ以上の分割は不可能であるが、一方、文書集合Set2はさらなる分割が可能である。そこで、この文書集合Set2において相互情報量が最大となる検索キーワードkwd2を決定し、この検索キーワードkwd2によって文書集合Set2を、検索キーワードkwd2を含まない不要文書の集合Set3と検索キーワードkwd2を含む必要及び不要文書の集合Set4とに分割する。

文書集合Set4は、さらなる分割が可能なので、この文書集合Set4において相互情報量が最大となるキーワードkwd1を検索キーワードとして決定し、この検索キーワードkwd1を含む必要文書の集合Set5と、検索キーワードkwd1を含まない文書の集合Set6とを分割する。文書集合Set5及びSet6は、共にこれ以上の分割が不可能であるため、分割処理を終える。上記分割処理において決定された複数の検索キーワードkwd1〜kwd3は逐次図示しない記憶手段に保持され、分割処理が終了した時点で検索式作成部53に渡される。

検索式作成部53では、文書集合分割部52の結果である各検索キーワードを、論理演算子“and”、“or”及び“not”により結合して検索式queryを作成する。符号53Bは、検索式作成部53から出力される検索式を例示したものである。

概要

大量の学習文書群を必要とすることなく、指定情報が付与されていない文書群を考慮した検索式が作成可能な検索式作成装置を提供する。

文書集合分割部14は、キーワード抽出部32から出力される文書集合を分割する際の相互情報量を、不定文書群を仮想的に不要文書群とみなして算出し、相互情報量が最大となる場合の単語を検索キーワードとして決定する。文書集合分割部14では、決定した検索キーワードで文書集合が必要文書群と不要文書群に区別された時点、及び当該時点且つ当該必要文書群の文書集合における必要文書数が不定文書数に対する所定の割合を超過した場合に文書集合の分割及び検索キーワードの決定を停止する。検索式作成部33は、決定した検索キーワードを論理演算子“and”及び“or”で結合して検索式を作成する。

目的

本発明は、上記背景のもと、大量の学習文書群を必要とすることなく、指定情報が付与されていない文書群を考慮した検索キーワードの決定及び検索式の作成をコンピュータ装置を用いて行うことが可能となる、改良された検索式作成方法を提供することを課題とする。本発明の他の課題は、上記検索式作成方法の実施に適した検索式作成装置を提供することにある。

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

予め文書毎に必要・不要の指定情報が付与された学習文書群と前記指定情報が未知不定文書群とから複数の単語を抽出するとともに、抽出した個々の単語の出現を文書毎に検出する過程と、当該単語を含む文書群及び含まない文書群の情報量を、前記学習文書群及び不定文書群の総情報量からの差分で得られる相互情報量が最大となる単一の単語を検索キーワードとして決定する過程と、前記検索キーワードの有無により必要文書群と不要文書群とに区別可能な場合に、前記検索キーワードの決定を抑止する過程と、決定した1または複数の検索キーワードを論理式で結合して文書検索に用いる検索式を作成する過程と、を含み、前記不定文書群の単語を反映させた検索式を作成することを特徴とするコンピュータ装置を用いた検索式作成方法。

請求項2

予め文書毎に必要・不要の指定情報が付与された学習文書群と前記指定情報が未知の不定文書群とから複数の単語を抽出するとともに、抽出した個々の単語の出現を文書毎に検出する過程と、当該単語を含む文書群及び含まない文書群の情報量を、前記学習文書群及び不定文書群の総情報量からの差分で得られる相互情報量が最大となる単一の単語を検索キーワードとして決定する過程と、前記検索キーワードを含む文書群及び含まない文書群が、必要文書群と不要文書群とに区別可能であり、且つ、当該検索キーワードを含む文書群の必要文書数が不定文書数に対する所定の割合を超過する場合に、前記検索キーワードの決定を抑止する過程と、決定した1または複数の検索キーワードを論理式で結合して文書検索に用いる検索式を作成する過程と、を含み、前記不定文書群の単語を反映させた検索式を作成することを特徴とする、コンピュータ装置を用いた検索式作成方法。

請求項3

前記不定文書群を、所定の最小記述長原理に基づいて仮想的に前記学習文書群の不要文書群としてみなして学習事例を増加させ、前記相互情報量の算出に反映させることを特徴とする、請求項1または2記載の検索式作成方法。

請求項4

文書群から特定の文書を索出するための検索式を作成する装置であって、前記文書群に形態素解析を施して複数の単語を抽出し、抽出した個々の単語が文書中に含まれるか否かを表す判別情報、当該文書が必要文書、不要文書、または不定文書かを表す指定情報を各文書の識別情報と共に集合させた文書集合を生成する文書集合生成手段と、個々の単語を含む文書群及び含まない文書群の情報量を前記文書群の総情報量からの差分として得られる相互情報量と、当該単語が出現する文書数とに基づいて単一の単語を検索キーワードとして決定するとともに、決定した検索キーワードを用いて一つの文書集合を複数の文書集合に分割する文書集合分割手段と、前記文書集合の分割の際に用いた検索キーワードを論理式で結合して前記検索式を作成する検索式作成手段と、を備えたことを特徴とする検索式作成装置。

請求項5

前記文書群は、それぞれ検索者にとって関心のある必要文書群、関心の無い不要文書群、及び関心が未知の不定文書群であり、各々前記検索キーワードの決定の際の判定に用いられる、必要、不要、または不定のいずれかの指定情報が付与されているものであることを特徴とする、請求項4記載の検索式作成装置。

請求項6

前記文書集合生成手段は、前記抽出した個々の単語が文書中に出現するか否かを表す判別情報を各文書の識別情報と共に構築した単語データベースを含んで成ることを特徴とする請求項4記載の検索式作成装置。

請求項7

前記文書集合分割手段は、前記相互情報量を、所定の最小記述長原理に基づいて仮想的に前記不定文書群を前記不要文書群とみなし、学習事例を増加させて算出するように構成されていることを特徴とする請求項4記載の検索式作成装置。

請求項8

前記文書集合分割手段は、所定の最小記述長原理に基づいて前記相互情報量が最大となる単語を前記検索キーワードとして逐次決定するとともに、決定した検索キーワードを用いて前記文書群についての文書集合を複数の文書集合に分割するように構成されていることを特徴とする請求項4記載の検索式作成装置。

請求項9

前記文書集合分割手段は、分割された複数の文書集合の少なくとも一方の文書集合が必要文書群または不要文書群に区別された時点で、前記検索キーワードの決定を停止するように構成されていることを特徴とする請求項4記載の検索式作成装置。

請求項10

前記文書集合分割手段は、分割された複数の文書集合の少なくとも一方の文書集合が必要文書群または不要文書群に区別された時点で、且つ、当該必要文書群に係る文書集合中の必要文書数が、不定文書数に対する所定の割合を超過した場合に前記検索キーワードの決定を停止するように構成されていることを特徴とする請求項4記載の検索式作成装置。

技術分野

0001

本発明は、例えば大量に蓄積された電子文書から特定の情報を索出する文書データベースや、予め蓄積された電子文書例等を文書作成発想展開支援のために利用する各種支援システム等に適用される文書検索技術に係り、特に、電子文書中から抽出したキーワードを用いて、検索者が関心のある文書の索出を効率的に行うための検索式試行錯誤的に作成する手法に関する。

背景技術

0002

検索対象となる電子文書を蓄積した文書データベースからあるキーワードを抽出し、このキーワードの論理積論理和の組み合わせにより所要の検索式を検索者と協調して試行錯誤的に作成する検索式作成装置が知られている。

0003

図5は、従来のこの種の検索式作成装置の機能構成図である。この検索式作成装置50は、コンピュータ装置が所定のプログラムを読み込んで実行することにより形成される、キーワード抽出部51、文書集合分割部52、及び検索式作成部53の機能ブロックを備えている。なお、文書には、それぞれ検索者が関心のある必要文書か、関心のない不要文書かを表す必要・不要の指定情報が付与されているものとする。

0004

キーワード抽出部51は、複数の文書から公知の形態素解析処理によって文書毎に複数のキーワードの抽出処理を行う。また、個々の文書におけるキーワードの出現の有無を表す判別情報及び当該文書が必要文書か不要文書かを表す指定情報を、文書名や文書番号等の文書識別子と共に文書集合として出力する。符号31Bは、キーワード抽出部51から出力される文書集合の内容を例示したものである。

0005

文書集合分割部52は、文書集合を上記判別情報に基づいて段階的に分割し、文書検索に用いる検索式を作成する場合の基礎となる複数の検索キーワードを決定する。この場合、出来るだけ一つ(少数)のキーワードの判別情報によって文書集合を分割していくことで、必要文書と不要文書とを区別した検索者の意図の抽出が可能となる。文書集合分割部52で決定した複数の検索キーワードは、検索式作成部53において論理演算子“and”、“or”及び“not”で結合され、検索式として後続処理に出力される。

0006

文書集合分割部52における文書集合の分割処理は、例えば公知のMDL(Minimum Description Length:最小記述長原理に基づくものである。このMDL原理は、「より多くの必要文書と不要文書とをできるだけ少ないキーワードの組み合わせ(検索式)で区別することにより、人間(検索者)の意図をより正確に表現できる」とするヒューリスティックな手法であるが、MDL原理を厳密に実現するには多くの処理量が必要となる。そこで、この処理量の軽減を図るために、MDL原理を近似的に実現するのが一般的である。

0007

MDL原理を近似的に実現する手法は、例えば、公知の決定木論理式木構造で表現したもの)学習アルゴリズムである「ID3」に基づいて行われる。「ID3」についての詳細は、「知識獲得と学習シリーズ1:知識獲得入門」(Michalski,R.S.他編、共立出版)を参考にすることができる。以下、この決定木学習アルゴリズム「ID3」による文書集合の分割処理の概要図6を参照して説明する。

0008

まず、キーワード抽出部51から送られた文書集合を初期文書集合Set0とする(ステップS201)。次に、初期文書集合Set0の“未分割”のフラグをオンにする(ステップS202)。これをSetiとする(ステップS203)。次に、この文書集合Seti中の必要文書、不要文書に含まれる各キーワードtj(1≦j≦N)について、文書全体の情報量に対する個別文書の情報量の相対関係を表す相互情報量I(tj)を算出する(ステップS204)。相互情報量I(tj)は、具体的には、未分割の文書集合についての情報量Hからキーワードtjが含まれた文書集合及び含まれない文書集合についての情報量H(tj)を差し引いた、以下の式(1)で表される。

0009

式(1) I(tj)=H−H(tj)

0010

各情報量H及びH(tj)は、各々下記の式(2)、式(3)で表される。
ID=000003HE=025 WI=070 LX=1150 LY=1200

0011

但し、式(2)、式(3)におけるパラメータは下記のようになる。
pi:Seti中の必要文書数
ni:Seti中の不要文書数、
si:pi+ni、
pi(tj):Seti中でキーワードtjを含む必要文書数、
ni(tj):Seti中でキーワードtjを含む不要文書数、
si(tj):pi(tj)+ni(tj)、
pi not(tj):Seti中でキーワードtjを含まない必要文書数、
ni not(tj):Seti中でキーワードtjを含まない不要文書数、
si not(tj):pi not(tj)+ni not(tj)、
h(a,b,c):-{a/c・log2(a/c)+b/c・log2(b/c)}

0012

次に、複数のキーワードtjから相互情報量I(tk)の値を最大にすることが可能なキーワードtkを選択し、これを検索キーワードとする(ステップS205)。この相互情報量I(tk)が正の有限値(>0)の場合(ステップS206)、検索キーワードtkを含む文書の番号からなる文書集合をSeti′、検索キーワードtkを含まない文書の番号からなる文書集合をSeti″として分割し、分割したそれぞれの文書集合の“未分割”のフラグをオンにする(ステップS207〜S210)。i′,i″は既に文書集合Seti′、Seti″が存在しなければ任意の値で良い。相互情報量I(tk)がゼロ値(=0)の場合は、文書集合の分割を行わない(ステップS206)。その後、集合Setiの“未分割”のフラグをオフにする(ステップS211)。“未分割”のフラグがオンの文書集合がある場合はステップS203に戻り(ステップS212:Yes)、“未分割”のフラグがオンの文書集合がなくなるまで処理を繰り返す。そして、すべての文書集合についての“未分割”のフラグがオフになった時点で処理を終える(ステップS212:No)。

0013

上記アルゴリズム「ID3」による処理過程は、例えば、公知のアルゴリズムである「C4.5」の手法等による代用も可能である。この「C4.5」の詳細については、「C4.5 Programs for Machine Learning」(Quinlan、J.R.著、Morgan Kaufmann Publishers 刊)の記載を参考にすることができる。

0014

図7は、上記検索式作成装置50において、一つの文書集合から複数の文書集合に分割され、検索式が試行錯誤的に作成されていく過程を示す説明図である。以下、図7を参照して、従来の検索式の作成手順を説明する。まず、キーワード抽出部51から出力された初期文書集合Set0から、上述の決定木学習アルゴリズム「ID3」に基づいて相互情報量が最大となるキーワードを決定し、これを検索キーワードとする。ここでは、検索キーワードkwd3が決定されたとする。そして、この検索キーワードkwd3によって、初期文書集合Set0を、検索キーワードkwd3を含む必要文書の集合Set1と検索キーワードkwd3を含まない必要文書及び不要文書の集合Set2とに分割する。

0015

文書集合Set1は、検索キーワードkwd3によるこれ以上の分割は不可能であるが、一方、文書集合Set2はさらなる分割が可能である。そこで、この文書集合Set2において相互情報量が最大となる検索キーワードkwd2を決定し、この検索キーワードkwd2によって文書集合Set2を、検索キーワードkwd2を含まない不要文書の集合Set3と検索キーワードkwd2を含む必要及び不要文書の集合Set4とに分割する。

0016

文書集合Set4は、さらなる分割が可能なので、この文書集合Set4において相互情報量が最大となるキーワードkwd1を検索キーワードとして決定し、この検索キーワードkwd1を含む必要文書の集合Set5と、検索キーワードkwd1を含まない文書の集合Set6とを分割する。文書集合Set5及びSet6は、共にこれ以上の分割が不可能であるため、分割処理を終える。上記分割処理において決定された複数の検索キーワードkwd1〜kwd3は逐次図示しない記憶手段に保持され、分割処理が終了した時点で検索式作成部53に渡される。

0017

検索式作成部53では、文書集合分割部52の結果である各検索キーワードを、論理演算子“and”、“or”及び“not”により結合して検索式queryを作成する。符号53Bは、検索式作成部53から出力される検索式を例示したものである。

発明が解決しようとする課題

0018

ところで、上述の決定木学習「ID3」アルゴリズムでは、文書集合の分割に用いる検索キーワードを、文書に付与された必要・不要の指定情報と相互情報量とを基準に決定しており、検索者からの指定情報が付与された大量の文書群学習文書群として用いなければ検索精度を向上させることができない。換言すれば、正確な検索式を作成するためには、大量の学習文書が必要となる。

0019

しかしながら、指定情報は検索者が自ら判定して与えるものであり、正確な検索式を作成するために必ずしも必要な数の文書が与えられているとは限らなかった。そのため、指定情報が付与されていない文書に含まれるキーワードについては、それが検索者にとって重要なキーワードであったとしても検索式に反映されず、正確な検索式を作成できなかった。これは、決定木学習アルゴリズム「ID3」に基づいて文書集合を完全に分割処理した結果、作成される検索式は、検索者の指定による必要文書にのみ対応するものとなることに起因するものである。即ち当該検索式で検索される文書群は、検索者にとって既知の学習文書群であり、検索者が指定した必要文書のみに対応する検索式を作成しても実効性に乏しい。また、例えば、すべての文書に対する指定情報を検索者が逐次判定して付与しようとすれば、多大な作業量が必要となり、検索者側の負荷が増大する。

0020

本発明は、上記背景のもと、大量の学習文書群を必要とすることなく、指定情報が付与されていない文書群を考慮した検索キーワードの決定及び検索式の作成をコンピュータ装置を用いて行うことが可能となる、改良された検索式作成方法を提供することを課題とする。本発明の他の課題は、上記検索式作成方法の実施に適した検索式作成装置を提供することにある。

課題を解決するための手段

0021

上記課題を解決するため、本発明は、以下の2つの形態の検索式作成方法を提供する。
(1)予め文書毎に必要・不要の指定情報が付与された学習文書群と前記指定情報が未知不定文書群とから複数の単語を抽出するとともに、抽出した個々の単語の出現を文書毎に検出する過程と、当該単語を含む文書群及び含まない文書群の情報量を、前記学習文書群及び不定文書群の総情報量からの差分で得られる相互情報量が最大となる単一の単語を検索キーワードとして決定する過程と、前記検索キーワードを含む文書群及び含まない文書群が、必要文書群と不要文書群とに区別可能な場合に前記検索キーワードの決定を抑止する過程と、決定した1または複数の検索キーワードを論理式で結合して文書検索に用いる検索式を作成する過程と、を含み、前記不定文書群の単語を反映させた検索式を作成することを特徴とする方法。

0022

(2)予め文書毎に必要・不要の指定情報が付与された学習文書群と前記指定情報が未知の不定文書群とから複数の単語を抽出するとともに、抽出した個々の単語の出現を文書毎に検出する過程と、当該単語を含む文書群及び含まない文書群の情報量を、前記学習文書群及び不定文書群の総情報量からの差分で得られる相互情報量が最大となる単一の単語を検索キーワードとして決定する過程と、前記検索キーワードを含む文書群及び含まない文書群が、必要文書群と不要文書群とに区別可能であり、且つ、当該検索キーワードを含む文書群の必要文書数が不定文書数に対する所定の割合を超過する場合に検索キーワードの決定を抑止する過程と、決定した1または複数の検索キーワードを論理式で結合して文書検索に用いる検索式を作成する過程と、を含み、前記不定文書群の単語を反映させた検索式を作成することを特徴とする方法。

0023

上記他の課題を解決する本発明の検索式作成装置は、所定の文書群、例えば検索者にとって関心のある必要文書群、関心の無い不要文書群、及び関心が未知の不定文書群であり、各々前記検索キーワードの決定の際の判定に用いられる、必要、不要、または不定のいずれかの指定情報が付与された文書群から特定の文書を索出するための検索式を作成する装置であって、下記の要素を含んで構成されているものである。

0024

(1)前記文書群に形態素解析を施して複数の単語を抽出し、抽出した個々の単語が文書中に含まれるか否かを表す判別情報、当該文書が必要文書、不要文書、または不定文書かを表す指定情報を各文書の識別情報と共に集合させた文書集合を生成する文書集合生成手段。この文書集合生成手段は、好ましくは、前記抽出した個々の単語が文書中に出現するか否かを表す判別情報を、各文書の識別情報と共に構築した単語データベースを含んで構成される。
(2)個々の単語を含む文書群及び含まない文書群の情報量を前記文書群の総情報量からの差分として得られる相互情報量と、当該単語が出現する文書数とに基づいて単一の単語を検索キーワードとして決定するとともに、決定した検索キーワードを用いて一つの文書集合を複数の文書集合に分割する文書集合分割手段。
(3)前記文書集合の分割の際に用いた検索キーワードを論理式で結合して前記検索式を作成する検索式作成手段。

0025

なお、前記文書集合分割手段は、例えば下記のように構成される。
(2−1)前記相互情報量を、所定の最小記述長原理に基づいて仮想的に前記不定文書群を前記不要文書群とみなし、学習事例を増加させて算出する。
(2−2)所定の最小記述長原理に基づいて前記相互情報量が最大となる単語を前記検索キーワードとして逐次決定するとともに、決定した検索キーワードを用いて前記文書群についての文書集合を複数の文書集合に分割する。
(2−3)分割された複数の文書集合の少なくとも一方の文書集合が必要文書群または不要文書群に区別された時点で、前記検索キーワードの決定を停止する。
(2−4)分割された複数の文書集合の少なくとも一方の文書集合が必要文書群または不要文書群に区別された時点で、且つ、当該必要文書群に係る文書集合中の必要文書数が、不定文書数に対する所定の割合を超過した場合に前記検索キーワードの決定を停止する。

発明を実施するための最良の形態

0026

以下、本発明の実施の形態を詳細に説明する。図1及び図2は、上記検索式の作成方法の実施に適した検索式作成装置の機能構成図である。図5で説明した従来の検索式作成装置50と同一の機能の構成要素については、同一符号を付して重複説明を省略する。

0027

本実施形態の検索式作成装置10は、コンピュータ装置が所定のプログラムを読み込んで実行することにより形成される、キーワード抽出部11、文書データベース(以下、本明細書では、データベースを「DB」と称する)12、キーワードDB13、文書集合分割部14、検索式作成部33の各機能を備えて構成される。

0028

上記プログラムは、通常、コンピュータ装置の内部あるいは外部記憶装置に格納されて随時読み取られて実行されるようになっているが、コンピュータ装置とは分離した形態で流通する記録媒体、例えばCD−ROMFD等のような可搬性媒体に格納され、使用時に上記内部または外部記憶装置にインストールされて随時実行に供されるものであっても良い。

0029

本実施形態では、学習事例となる文書群(以下、学習文書または学習文書群)に、予め利用者等によって必要文書か不要文書かを表す必要・不要の指定情報が付与されており、また、この必要・不要の指定情報が付与されていないものは、不定文書(非指定文書)として判別されるものとする。このことから、本実施形態では、必要・不要・不定の3種類に分類される文書群が存在することになる。

0030

文書DB12には、学習文書群及び大量の不定文書群が蓄積されており、キーワードDB13には、予め文書DB12における学習文書群及び不定文書群に含まれるすべてのキーワードについて、個々の文書における当該キーワードの出現の有無を表す判別情報を文書番号等の文書識別情報毎に対応づけて蓄積されている。符号13Aは、キーワードDB13における情報例である。

0031

キーワード抽出部11は、入力された必要文書及び不要文書、あるいは文書DB12に蓄積された文書群に形態素解析を施して、文書毎にキーワードの抽出処理を行う。また、個々の文書におけるキーワードの出現の有無を表す判別情報、及び当該文書の指定情報を、文書名や文書番号等の文書識別子と共に文書集合として出力する。符号11Aは、キーワード抽出部11から出力される文書集合の内容を例示したものである。この場合の指定情報は、例えば、検索者が指定した必要/不要の学習文書群以外には、“不定”のタグを付与して文書集合を作成し、文書集合分割部14に入力するように構成される。

0032

文書集合分割部14は、キーワード抽出部11から出力された文書集合の分割に用いる検索キーワードを決定するものである。文書集合の分割には、前述の決定木学習アルゴリズム「ID3」(以下、単に「ID3」と記述する)を用いる。一般に、文書DB12中における殆どの文書は、検索者の興味とは関係がない文書群であり、検索者にとって必要となる文書群が占める割合は極めて小さいと考えられる。即ち、文書DB12における必要文書群以外の文書群は、仮想的にすべて不要文書群であるといえる。そこで、文書集合分割部14では、文書DB12における不定文書群を不要文書群として取り扱うことにより、学習事例、即ち学習文書群を増加させて相互情報量の算出を行うものである。本実施形態では、文書群を上述のように3種類に分類したため、決定木学習アルゴリズム「ID3」による前述の式(1)で示した文書集合Setiの相互情報量I(tj)を得るための各情報量H、H(tj)は、それぞれ下記(4)式、及び(5)式のようになる。

0033

0034

但し、式(4)、式(5)におけるパラメータは下記のようになる。
pi:Seti中の必要文書数、
ni:Seti中の不要文書数と不定文書数の和、
si:pi+ni、
pi(tj):Seti中でキーワードtjを含む必要文書数、
ni(tj):Seti中でキーワードtjを含む不要文書数と不定文書数の和、
si(tj):pi(tj)+ni(tj)、
pi not(tj):Seti中でキーワードtjを含まない必要文書数、
ni not(tj):Seti中でキーワードtjを含まない不要文書数と不定文書数の和、
si not(tj):pi not(tj)+ni not(tj)、
h(a,b,c):-{a/c・log2(a/c)+b/c・log2(b/c)}

0035

式(4)及び(5)自体は、前述の式(2)及び(3)と同一であるが、不定文書群を加味しない前述の手法とは文書集合の形態が異なるために示したものである。この(4)式及び(5)式を評価し、「ID3」に基づいて文書集合を完全に分割処理した結果、作成される検索式は、検索者の指定による必要文書群にのみ対応するものとなる。即ち当該検索式で検索される文書群は、検索者にとって既知の学習文書群であり、検索者が指定した必要文書のみに対応する検索式を作成しても実効性に乏しかった。そこで本実施形態では、文書集合の分割処理を途中で停止させて、不定文書群にも対応する最適な検索式を作成することとした。この文書集合の分割処理の停止に関して、本例では、以下に示す二つの方法を挙げて具体的に説明する。

0036

<第1の方法>分割処理の過程で必要文書群と不要文書群とが区別された段階(時点)で集合の分割を停止する。

0037

<第2の方法>必要文書群と不要文書群とが区別されており、且つ、文書集合中の不定文書数に対する必要文書数が所定の割合を超過した時点で集合の分割を停止する。

0038

上記第2の方法における所定の割合とは、例えば、「必要文書数が不定文書数の半分、即ち5割以上」となる場合のように、一定の割合基準値システムパラメータ等により予め適宜設定しておくことで対応する。なお、上記第1及び第2の方法は、各々単独で用いることが可能である。また、上記第2の方法には、上記第1の方法が包含されており、上記第1の方法と比較して、より絞り込んだ停止条件となる。

0039

図3は、上記第2の方法を用いた場合の本実施形態の検索式作成装置1における処理の概要を表す処理手順図である。キーワード抽出部11では、文書DB12中における検索式作成の対象となる不定文書群、及び学習文書群からすべてのキーワードを抽出して、キーワードDB13に蓄積する(ステップS101)。キーワード抽出部11では、また、キーワードDB13のデータに基づいて検索式作成の対象となる初期文書集合を作成する(ステップS102)。文書集合分割部14では、初期文書集合の分割処理を行う(ステップS103)。

0040

ステップS103において検索キーワードにより分割された2つの文書集合のうち、少なくとも一方の文書集合が必要または不要文書群であると区別された場合(ステップS104:Yes)、文書集合分割部14では、区別された当該文書集合中において、必要文書数が不定文書数に対する所定の割合を超過するか否かを検出し、超過する場合には(ステップS105:Yes)、文書集合の分割処理を停止する(ステップS106)。このステップS104及びS105は、図6に示した「ID3」の処理手順におけるステップS212に相当する処理であり、本発明では、不定文書群を検索式に反映させるために設けるものである。一方、ステップS103において分割された2つの文書集合のうち、少なくとも一方の文書集合が必要または不要文書群であると区別されない場合(ステップS104:No)、または、当該文書集合において必要文書数が不定文書数に対する所定の割合を超過しない場合には(ステップS105:No)、ステップS103に戻り、文書集合の分割処理を繰り返す。

0041

検索式作成部53では、文書集合の分割処理が停止した時点までの、文書集合分割処理の過程で得られた各検索キーワードを、論理演算子“and”、“or”及び“not”により結合して検索式queryを作成する(ステップS107)。

0042

なお、本処理手順では、ステップS104及び105が上記第2の方法の処理手順に対応する。上記第1の方法を単独で用いる場合には、ステップS104における必要または不要文書群の区別が検出された時点で、文書集合の分割処理を停止するようにする。

0043

このように、上記処理手順によれば、ステップS104及び105における停止条件に基づいて検索キーワードの決定が抑制される結果、つまり、文書集合を完全に分割しないようにする結果、得られる検索式には、不定文書群が反映されるようになる。

0044

図4は、上記第1及び第2の方法による文書集合分割処理の停止状況を表す模式図である。この図では、初期文書集合がキーワード“kwd1”を含む文書集合と、含まない文書集合とに分割される。次に、キーワード“kwd1”を含む文書集合がキーワード“kwd2”を含む文書集合と含まない文書集合とに分割される。ここで、キーワード“kwd2”を含む文書集合と含まない文書集合は、必要文書群と不要文書群とに区別することができる。そこで、この時点で検索キーワードの決定を中止する。これは、上記第1の方法による停止条件に適合したことを意味する。なお、キーワード“kwd2”で区別された必要文書群及び不要文書群には、当該キーワード“kwd2”を含む不定文書群及び含まない不定文書群とが各々含まれる。キーワード“kwd2”の決定の際における相互情報量は、仮想的に不定文書群を不要文書群とみなして算出するが、分割処理の停止条件を判断する際には、不定文書を不要文書とはみなさない。

0045

また、キーワード“kwd2”を含む文書集合では、必要文書数が不定文書数に対する所定の割合以上になれば検索キーワードの決定を中止する。これは、上記第2の方法における停止条件に適合したことを意味する。

0046

このように、本実施形態の検索式作成装置10では、非指定の不定文書群を仮想的に不要文書群とみなして(みなすのは、相互情報量を算出するときのみ:分割処理の停止条件を判断する際には、不定文書を不要文書とはみなさない)決定木学習アルゴリズム「ID3」に基づいて相互情報量を算出し、文書集合の分割処理を行うようにしたので、従来手法と比較して、検索者からの指定情報が付与された学習文書群は、少量で済むようになる。

0047

また、不定文書群に含まれる単語が反映された検索式が作成できるようになり、必要文書群にのみ対応する従来手法による検索式と比較して、検索者にとって検索精度及び実用性の高い検索式が得られるようになる。

0048

また、上述のように学習文書群が少量で済むことから、従来のようにすべての文書に対する指定情報を検索者が逐次判定して付与するような作業が軽減され、検索者側に係る負荷を低減できるようになる。

発明の効果

0049

以上の説明から明らかなように、本発明によれば、大量の学習文書群を必要とすることなく、指定情報が付与されていない文書群が考慮された検索式が作成可能になるという特有の効果がある。また、作成された検索式を検索処理に用いることにより、検索者にとって検索精度を一定値以上に維持することが可能となり、実用性の高い検索結果が得られるという効果がある。

図面の簡単な説明

0050

図1本発明の一実施形態に係る検索式作成装置の実施形態を表す機能ブロック図。
図2本発明の一実施形態に係る検索式作成装置の実施形態を表す機能ブロック図。
図3本実施形態の検索式作成装置における処理手順図。
図4本実施形態における文書集合の分割処理過程を表す模式図。
図5従来の検索式作成装置の機能ブロック図。
図6従来の検索式作成装置における処理手順説明図。
図7従来の分割処理過程で得られる情報の模式図。

--

0051

10,50検索式作成装置
11,51キーワード抽出部
14,52文書集合分割部
12文書DB
13キーワードDB
53 検索式作成部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社大和総研ビジネス・イノベーションの「 名寄せシステムおよびプログラム」が 公開されました。( 2019/05/16)

    【課題】効率的な並列分散処理を実現することができ、サーバのスケールアウトによる性能改善を図ることが可能な名寄せシステムを提供する。【解決手段】名寄せマスタの構成データを用いて同一の名称(例えば姓名)を... 詳細

  • シグニファイホールディングビーヴィの「 汚染推定システム」が 公開されました。( 2019/05/16)

    【課題・解決手段】自動車の排気ガスに起因する汚染レベルを推定するための汚染推定システム(100)が提供される。システムは、自動車音のオーディオサンプルを含む音響センサからの使用データを取得するよう構成... 詳細

  • キヤノン株式会社の「 画像データ管理装置」が 公開されました。( 2019/05/09)

    【課題】 従来複数の画像から同じ場所に存在した人や物を判断することでしか判断し得なかった、撮影の場にあった人や物の情報を判断し、画像に紐づけて記憶することで、効率的な画像の検索を可能にすること。【解... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ