図面 (/)

技術 類似検索方法および装置

出願人 沖電気工業株式会社
発明者 鳥居肖史
出願日 1995年11月29日 (23年7ヶ月経過) 出願番号 1995-335895
公開日 1997年6月10日 (22年1ヶ月経過) 公開番号 1997-153068
状態 特許登録済
技術分野 検索装置
主要キーワード 装置運用者 式集合 類似属性 文部省 中止条件 人工言語 論理結合子 類似検索装置
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1997年6月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (18)

課題

属性の数が多くなっても装置の運用が困難にならず、多くの検索者にとって、重要度類似度について感覚が一致する。

解決手段

共起辞書108は、属性間共起関係の強さを記憶している。原属性式重要度計算部103は、検索式が複数の属性を含む時に、ある属性とその他の属性の間の共起関係が強いほどその属性の重要度が高くなるよう重要度を計算する。類似検索式生成部106は、検索式間の類似度の評価尺度を属性の現れかたの類似性とし、検索式が複数の属性を含むなら、ある属性と、その他の属性との共起関係の強さと、ある属性とは異なる任意の属性と、その他の属性の共起関係の強さの差が小さいほど、ある属性とこれとは異なる任意の属性の間の類似度が高くなるよう、重要度が低い属性を他の属性に置換するか、重要度が低い属性を検索式から除去し、検索式と類似度が高い類似検索式を得る。

概要

背景

従来、類似検索を実現できる類似検索装置は、例えば、特開平6−282574号公報等に示すものがあった。ここで、類似検索とは、入力された検索式との類似性に関する何らかの評価尺度が高い検索式を、装置が生成して類似した情報を検索することをいう。

ところで、検索装置が備えるデータベースには通常、各検索対象毎にその特徴を表現する1つ以上の属性が設定されている。検索装置は、1つ以上の属性を論理積論理和否定等の論理結合子で結合した検索式が入力されると、その検索式が表現する集合が含む検索対象についての何らかの情報を出力する。

上記、類似検索装置では、装置運用者が予め、属性の間の重要度と、評価尺度が属性の意味の類似性である類似度を設定しておく。検索式が入力されると、装置は属性の間の重要度と類似度から、類似検索式を計算し、その類似検索式での検索を行う。

概要

属性の数が多くなっても装置の運用が困難にならず、多くの検索者にとって、重要度と類似度について感覚が一致する。

共起辞書108は、属性間共起関係の強さを記憶している。原属性式重要度計算部103は、検索式が複数の属性を含む時に、ある属性とその他の属性の間の共起関係が強いほどその属性の重要度が高くなるよう重要度を計算する。類似検索式生成部106は、検索式間の類似度の評価尺度を属性の現れかたの類似性とし、検索式が複数の属性を含むなら、ある属性と、その他の属性との共起関係の強さと、ある属性とは異なる任意の属性と、その他の属性の共起関係の強さの差が小さいほど、ある属性とこれとは異なる任意の属性の間の類似度が高くなるよう、重要度が低い属性を他の属性に置換するか、重要度が低い属性を検索式から除去し、検索式と類似度が高い類似検索式を得る。

目的

効果

実績

技術文献被引用数
2件
牽制数
3件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の現れかたの類似性とし、前記検索式が前記複数の属性A1 ,…,Ar を含むなら、これら複数の属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、前記ある属性As とは異なる任意の属性At と、前記その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにして、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、前記検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法。

請求項2

原検索式を意味する情報が入力され、その情報を解析して原検索式を得る原検索式解析部と、前記原検索式解析部より原検索式が入力され、当該原検索式から原属性式を抽出して原属性式集合を得る原属性式抽出部と、前記原属性式抽出部より原属性式集合が入力され、ある検索式が複数の属性A1 ,…,Ar を含む時に、属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、原属性式の重要度を計算し、前記原属性式集合と原属性式毎の重要度の情報を出力すると共に、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さの情報を出力する原属性式重要度計算部と、前記原属性式重要度計算部より、前記原属性式集合と原属性式毎の重要度の情報が入力され、ある固定属性式集合の優先度は、その要素である固定属性式の重要度が高いほど高いとして、1つ以上の固定属性式集合とその優先度を計算し、1つ以上の固定属性式集合とその優先度を出力する固定属性式集合計算処理部と、複数の属性の間の共起関係の強さを記憶する共起辞書と、前記原属性式重要度計算部より、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さの情報が入力されると共に、前記固定属性式集合がその優先度順に入力され、前記共起辞書を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、前記ある属性As とは異なる任意の属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算するとして、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、または、重要度が低い原属性式を原属性式集合から除去するかいずれかの処理を行って、類似検索式を生成し、0個以上の類似検索式とその類似度を出力する類似検索式生成部と、原検索式または類似検索式が入力され、データベース検索を行ってその検索結果を出力する検索実行部と、前記固定属性式集合計算処理部より、1つ以上の固定属性式集合とその優先度が入力され、前記類似検索式生成部に、固定属性集合をその優先度の順に1つずつ渡して0個以上の類似検索式とその類似度を受け取る呼び出しと、前記検索実行部に類似検索式をその類似度の順に1つずつ渡して検索結果を受けとる呼び出しの繰り返しの制御を行い、類似検索結果を出力する検索制御部とを備えたことを特徴とする類似検索装置

請求項3

ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の意味の類似性とし、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算して、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、前記検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法。

請求項4

請求項2の類似検索装置において、属性の間の意味的距離を記憶する意味的距離記憶部と、原属性式集合のみを類似検索式生成部へ出力する原属性式重要度計算部と、原属性式集合と固定属性式集合が入力され、前記意味的距離記憶部を参照して、類似度の評価尺度は属性の意味の類似性であり、検索式の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算する類似検索式生成部とを備えたことを特徴とする類似検索装置。

請求項5

ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の現れかたの類似性と属性の意味の類似性とし、前記検索式が前記複数の属性A1 ,…,Ar を含むなら、これら複数の属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、前記ある属性Asとは異なる任意の属性At と、前記その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、属性の間の意味的距離が小さいほど、属性間の類似度が高くなるように計算して、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、前記検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法。

請求項6

請求項2の類似検索装置において、属性の間の意味的距離を記憶する意味的距離記憶部と、共起辞書を参照して、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、前記意味的距離記憶部を参照して、検索式の類似度の計算は、属性の間の意味的距離が小さいほど、類似度が高くなるように計算する類似検索式生成部とを備えたことを特徴とする類似検索装置。

技術分野

0001

この発明は、情報処理分野における情報検索人工知能分野における事例ベース推論事例検索で用いられる、情報間類似性を考慮した柔軟な検索類似検索)を行うための類似検索方法および装置に関するものである。

背景技術

0002

従来、類似検索を実現できる類似検索装置は、例えば、特開平6−282574号公報等に示すものがあった。ここで、類似検索とは、入力された検索式との類似性に関する何らかの評価尺度が高い検索式を、装置が生成して類似した情報を検索することをいう。

0003

ところで、検索装置が備えるデータベースには通常、各検索対象毎にその特徴を表現する1つ以上の属性が設定されている。検索装置は、1つ以上の属性を論理積論理和否定等の論理結合子で結合した検索式が入力されると、その検索式が表現する集合が含む検索対象についての何らかの情報を出力する。

0004

上記、類似検索装置では、装置運用者が予め、属性の間の重要度と、評価尺度が属性の意味の類似性である類似度を設定しておく。検索式が入力されると、装置は属性の間の重要度と類似度から、類似検索式を計算し、その類似検索式での検索を行う。

発明が解決しようとする課題

0005

しかしながら、属性の間の重要度と類似度を装置運用者が予め設定する必要があるので、属性の数が多くなるにつれて装置の運用が困難になるという問題点があった。また、装置運用者により客観的に属性の間の重要度と類似度の設定がなされないと、設定された重要度と類似度に関する感覚が一致しない検索者が多くなるという問題点があった。このような点から、属性の数が多くなっても装置の運用が困難にならず、かつ、多くの検索者にとって、重要度と類似度について感覚が一致することのできる類似検索方法の実現が望まれていた。

課題を解決するための手段

0006

本発明は以上の点を解決するため次の構成を採用する。
〈請求項1の構成〉ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の現れかたの類似性とし、検索式が複数の属性A1 ,…,Ar を含むなら、これら複数の属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、ある属性As とは異なる任意の属性Atと、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにして、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法である。

0007

〈請求項1の説明〉共起関係とは、言語の運用において、統計的にある複数の属性の組合せが現れる頻度高低を表現するものである。ある複数の属性の組合せが現れる頻度が高いほど、それらの属性の共起関係は強いとする。属性の重要度とは、検索者が指定した検索式が含む属性が、装置が生成する類似した検索式に含まれていることを、検索者がどれくらい望むかを表現するものである。検索者が指定した検索式が含む属性が、装置が生成する類似した検索式に含まれていることを、検索者が強く望む属性ほど、その属性の重要度は高い。

0008

類似検索式を求める場合、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、検索者が入力した検索式と類似度の高い類似検索式を得る。ここで、類似度の評価尺度は属性の現れかたの類似性とする。即ち、検索式が複数の属性A1 ,…,Ar を含むなら、これら複数の属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、ある属性As とは異なる任意の属性At と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高いとする。

0009

従って、属性の間の重要度と類似度を装置運用者が予め設定する必要がなくなり、属性の数が多くなっても装置の運用が困難にならず、また、重要度と類似度について多くの検索者の感覚が一致するという効果が得られる。

0010

〈請求項2の構成〉原検索式を意味する情報が入力され、その情報を解析して原検索式を得る原検索式解析部と、原検索式解析部より原検索式が入力され、その原検索式から原属性式を抽出して原属性式集合を得る原属性式抽出部と、原属性式抽出部より原属性式集合が入力され、ある検索式が複数の属性A1 ,…,Ar を含む時に、属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、原属性式の重要度を計算し、原属性式集合と原属性式毎の重要度の情報を出力すると共に、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さの情報を出力する原属性式重要度計算部と、原属性式重要度計算部より、原属性式集合と原属性式毎の重要度の情報が入力され、ある固定属性式集合の優先度は、その要素である固定属性式の重要度が高いほど高いとして、1つ以上の固定属性式集合とその優先度を計算し、1つ以上の固定属性式集合とその優先度を出力する固定属性式集合計算処理部と、複数の属性の間の共起関係の強さを記憶する共起辞書と、原属性式重要度計算部より、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さの情報が入力されると共に、固定属性式集合がその優先度順に入力され、共起辞書を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性Asとその他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、ある属性As とは異なる任意の属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算するとして、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、または、重要度が低い原属性式を原属性式集合から除去するかいずれかの処理を行って、類似検索式を生成し、0個以上の類似検索式とその類似度を出力する類似検索式生成部と、原検索式または類似検索式が入力され、データベースの検索を行ってその検索結果を出力する検索実行部と、固定属性式集合計算処理部より、1つ以上の固定属性式集合とその優先度が入力され、類似検索式生成部に、固定属性集合をその優先度の順に1つずつ渡して0個以上の類似検索式とその類似度を受け取る呼び出しと、検索実行部に類似検索式をその類似度の順に1つずつ渡して検索結果を受けとる呼び出しの繰り返しの制御を行い、類似検索結果を出力する検索制御部とを備えたことを特徴とするものである。

0011

〈請求項2の説明〉原検索式解析部には、原検索式を意味する情報が入力され、その情報を解析して原検索式を得、原検索式を原属性式抽出部へ出力する。原属性式抽出部では、入力された原検索式から原属性式を抽出して原属性式集合を得、原属性式集合を原属性式重要度計算部へ出力する。原属性式重要度計算部では、入力された原属性式集合から、ある検索式が属性A1 ,…,Ar を含む時に、属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、原属性式の重要度を計算し、原属性式集合と原属性式毎の重要度を固定属性式集合計算処理部へ、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さを類似検索式生成部へ出力する。

0012

固定属性式集合計算処理部では、入力された原属性式集合と原属性式毎の重要度から、ある固定属性式集合の優先度は、その要素である固定属性式の重要度が高いほど高いとして、1つ以上の固定属性式集合とその優先度を計算し、1つ以上の固定属性式集合とその優先度を検索制御部へ出力する。検索制御部では、入力された1つ以上の固定属性式集合とその優先度から、固定属性式集合をその優先度の順に1つずつ用いる繰り返し処理ループ1)を開始する。先ず、検索制御部において、まだ用いられていない固定属性式集合のうちで優先度が最も高いものを1つ類似検索式生成部へ出力する。

0013

類似検索式生成部では、属性式重要度計算処理部から入力された原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと、検索制御部から入力された固定属性式集合から、共起辞書を参照して、類似度の評価尺度は属性の現れかたの類似性でもあり、検索式の間の類似度の計算は、ある検索式が属性A1,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算する。即ち、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、あるいは、重要度が低い原属性式を原属性式集合から除去して、類似検索式を生成し、0個以上の類似検索式とその類似度を検索制御部へ出力する。

0014

検索制御部では、入力された0個以上の類似検索式とその類似度から、類似検索式をその類似度の順に1つずつ用いる繰り返し処理(ループ2)を開始する。先ず、検索制御部において、まだ用いられていない類似検索式のうちで類似度が最も高いものを1つ検索実行部へ出力する。検索実行部107では、入力された類似検索式での検索を実行し、その検索結果を検索制御部へ出力する。検索制御部105においては、ループ2の中止条件を満たすかを判定する。この判定が、“満たさない”であるならループ2の処理を繰り返す。一方、判定結果が“中止条件を満たす”であるなら、検索制御部において、ループ1の中止条件を満たすか判定する。この判定が、“満たさない”であるならループ1の処理を繰り返し、“中止条件を満たす”であるなら、検索制御部において、検索結果を出力する。

0015

このように、属性式重要度計算部において共起辞書を参照して属性式の重要度を計算し、類似検索式生成部において類似度の評価尺度は属性の現れかたの類似性として、共起辞書を参照して検索式と類似検索式の間の類似度を計算するので、属性の現れかたの類似性が類似度の評価尺度である類似検索式を生成できるという効果と、属性の間の重要度と類似度を装置運用者が予め設定する必要がなくなり、属性の数が多くなっても装置の運用が困難にならないという効果と、重要度と類似度について感覚が一致する検索者が多くなるという効果が得られる。

0016

また、上記の原属性式の抽出方法、原属性式の重要度の計算方法、固定属性式集合とその優先度の計算方法、類似検索式の生成方法、およびループ1やループ2の中止条件は、種々選択が可能である。

0017

〈請求項3の構成〉ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の意味の類似性とし、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算して、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、前記検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法である。

0018

〈請求項3の説明〉請求項1の発明では、類似度の評価尺度が属性の現れかたの類似性であったのに対し、請求項3の発明は、その代わりに、類似度の評価尺度を属性の意味の類似性とし、検索式の間の類似度の計算は、属性の意味的距離が小さいほど高くなるように計算する。

0019

従って、属性の意味の類似性が類似度の評価尺度である類似検索式を生成でき、また、属性の間の重要度と類似度を装置運用者が予め設定する必要がなく、従って、請求項1の発明と同様に、属性の数が多くなっても装置の運用が困難にならず、かつ、重要度と類似度について多くの検索者の感覚が一致するといった効果を得ることができる。

0020

〈請求項4の構成〉請求項2の類似検索装置において、属性の間の意味的距離を記憶する意味的距離記憶部と、原属性式集合のみを類似検索式生成部へ出力する原属性式重要度計算部と、原属性式集合と固定属性式集合が入力され、意味的距離記憶部を参照して、類似度の評価尺度は属性の意味の類似性であり、検索式の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算する類似検索式生成部とを備えたことを特徴とする類似検索装置である。

0021

〈請求項4の説明〉請求項2の類似検索装置では、原属性式重要度計算部は、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さを類似検索式生成部へ出力するが、その代わりに、請求項4の原属性式重要度計算部は、原属性式集合のみを類似検索式生成部へ出力するとし、また、請求項2の類似検索式生成部は、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと固定属性式集合が入力され、共起辞書を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算するが、その代わりに、請求項4の類似検索式生成部は、原属性式集合と固定属性式集合が入力され、意味的距離記憶部を参照して、類似度の評価尺度は属性の意味の類似性であり、検索式の類似度の間の計算は、属性の間の意味的距離が小さいほど、高くなるように計算する。

0022

このように、請求項2の類似検索装置に対して、意味的距離記憶部を追加し、類似検索式生成部は、意味的距離記憶部を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算するとして、検索式と類似検索式の間の類似度を計算するので、属性の意味の類似性が類似度の評価尺度である類似検索式を生成でき、また、属性の間の重要度と類似度を装置運用者が予め設定する必要がなく、従って、請求項2の発明と同様に、属性の数が多くなっても装置の運用が困難にならず、かつ、重要度と類似度について多くの検索者の感覚が一致するといった効果を得ることができる。

0023

〈請求項5の構成〉ある検索式が複数の属性A1 ,…,Ar を含む時に、これら複数の属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、重要度を計算し、異なる検索式間の類似度の計算は、類似度の評価尺度を属性の現れかたの類似性と属性の意味の類似性とし、検索式が前記複数の属性A1 ,…,Arを含むなら、これら複数の属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、前記ある属性As とは異なる任意の属性At と、前記その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、属性の間の意味的距離が小さいほど、属性間の類似度が高くなるように計算して、求める検索式において、重要度がより低い属性を他の属性に置換するか、または、重要度がより低い属性を検索式から除去するかいずれかの処理を行い、検索式と類似度が高い類似検索式を得ることを特徴とする類似検索方法である。

0024

〈請求項5の説明〉請求項1の類似検索方法においては、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性Asと属性At の間の類似度が高くなるように計算したが、更に、請求項3の類似検索方法における類似度の評価尺度である属性の意味の類似性を追加し、属性の間の意味的距離が小さいほど、高くなるように計算する。

0025

従って、請求項1の類似検索方法の効果に加えて、属性の現れかたの類似性、及び、属性の意味の類似性が類似度の評価尺度である類似検索式を生成できるという効果が得られる。

0026

〈請求項6の構成〉請求項2の類似検索装置において、属性の間の意味的距離を記憶する意味的距離記憶部と、共起辞書を参照して、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、意味的距離記憶部を参照して、検索式の類似度の計算は、属性の間の意味的距離が小さいほど、類似度が高くなるように計算する類似検索式生成部とを備えたことを特徴とする類似検索装置である。

0027

〈請求項6の説明〉類似検索式生成部は、検索式の間の類似度の計算は、共起辞書を参照して、類似度の評価尺度の1つが属性の現れかたの類似性であるので、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、意味的距離記憶部を参照して、類似度の評価尺度の2つ目が属性の意味の類似性であるので、属性の間の意味的距離が小さいほど、高くなるように計算する。

0028

このように、類似検索式生成部は、検索式の間の類似度の計算は、共起辞書を参照して、類似度の評価尺度の1つが属性の現れかたの類似性であるとして行い、かつ、意味的距離記憶部を参照して、類似度の評価尺度の2つ目が属性の意味の類似性であるとして行うので、請求項2の効果に加えて、属性の現れかたの類似性、及び、属性の意味の類似性が類似度の評価尺度である類似検索式を生成できるという効果が得られる。

発明を実施するための最良の形態

0029

以下、本発明の実施の形態を具体例を用いて説明する。
《具体例1》一般に、言語の運用において、ある言葉が他のある言葉と同時に現れることを、「共起」と呼ぶ。「共起」は計算機により自動的に観測可能な事象であるので、「共起」に関するデータに基づいて処理すると、客観性が高まる。本発明はこの点に着目したものである。

0030

先ず、「属性の共起関係」とは、言語の運用において、統計的にある複数の属性の組合せが現れる頻度の高低を表現するものである。ある複数の属性の組合せが現れる頻度が高いほど、それらの属性の共起関係は強い。「属性の重要度」とは、検索者が指定した検索式が含む属性が、装置が生成する類似した検索式に含まれていることを、検索者がどれくらい望むかを表現するものである。検索者が指定した検索式が含む属性が、装置が生成する類似した検索式に含まれていることを、検索者が強く望む属性ほど、その属性の重要度は高い。

0031

例えば、ここで、ある検索式が属性A1 ,…,Ar を含むとする。属性A1 ,…,Ar のうち、ある属性AS とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar が同時に現れる頻度が高いほど、検索者は、その属性AS が装置が生成する類似した検索式に含まれていることをより望み、その属性AS の重要度は高いと仮定する。つまり、ある検索式が属性A1 ,…,Ar を含む時に、A1 ,…,Ar のうち、ある属性AS とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、その属性AS の重要度は高いと仮定する。

0032

また、「属性の類似度」とは、何らかの評価尺度による類似性の高低を表現するものである。その評価尺度には、本具体例1で対象とする言語の運用における属性の現れかたの類似性や、後述する具体例2で対象とする属性の意味の類似性等がある。ここで、属性の現れかたの類似性に関して述べる。ある検索式が属性A1 ,…,Ar を含むとする。属性A1 ,…,Ar のうち、ある属性AS が、その他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar と同時に現れる頻度と、任意のある属性At が、A1 ,…,AS-1 ,AS+1 ,…,Ar と同時に現れる頻度の差が小さいほど、属性AS とAt は、類似度が高い。つまり、属性A1 ,…,Arのうち、ある属性AS と、その他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さの差が小さいほど、属性AS と属性At は、類似度が高い。

0033

従って、属性の共起関係の強さのデータを用いて類似検索式を生成するには、次のようにすればよい。先ず、ある検索式が属性A1 ,…,Ar を含む時に、属性A1 ,…,Ar のうち、ある属性AS とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、その属性AS の重要度が高くなるように、重要度を計算する。次に、検索式において、重要度がより低い属性を他の属性に置換するか、あるいは、重要度がより低い属性を検索式から除去して、検索式と類似度が高い類似検索を得る。ここで、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性AS と、その他の属性A1,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さの差が小さいほど、属性AS と属性At の間の類似度が高くなるように計算する。

0034

<構成>先ず、用語を定義する。「属性式」とは、属性か属性の否定かそれらを論理和で結合した論理式である。「属性式集合」とは、属性式が要素である集合である。また、「原検索式」とは、装置に入力される情報が意味する装置が処理可能な検索式である。「原属性式」とは、原検索式を構成する属性式である。「原属性式集合」とは、原属性式が要素である集合である。「類似検索式」とは、原検索式と類似する装置が生成する検索式である。「類似属性式集合」とは、類似検索式を構成する属性式が要素である集合である。「固定属性式」とは、装置が類似検索式を生成する時に、原属性式のうち、原検索式において、他の属性式に置換されない原属性式、あるいは、除去されない原属性式である。「固定属性式集合」とは、固定属性式が要素である集合である。「固定属性式集合の優先度」とは、類似検索式を生成する時に用いる固定属性式集合の優先順位である。

0035

図1は本発明の類似検索方法および装置の具体例1の構成図である。図の装置は、原検索式解析部101、原属性式抽出部102、原属性式重要度計算部103、固定属性式集合計算処理部104、検索制御部105、類似検索式生成部106、検索実行部107、共起辞書108からなる。

0036

原検索式解析部101は、原検索式を意味する情報が入力され、その情報を解折して原検索式を得、原検索式を原属性式抽出部102へ出力する機能を有している。原属性式抽出部102は、原検索式解析部101より原検索式が入力され、原検索式から原属性式を抽出して原属性式集合を得、原属性式集合を、原属性式重要度計算部103へ出力する機能を有している。

0037

原属性式重要度計算部103は、原検索式抽出部102より原属性式集合が入力され、ある検索式が属性A1 ,…,Ar を含む時に、属性A1 ,…,Ar のうち、ある属性As とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、その属性AS の重要度が高くなるように、原属性式の重要度を計算し、原属性式集合と原属性式毎の重要度を、固定属性式集合計算処理部104へ、また、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さを類似検索式生成部106へ出力する機能を有している。

0038

固定属性式集合計算処理部104は、原属性式集合と原属性式毎の重要度が入力され、ある固定属性式集合の優先度は、その要素である固定属性式の重要度が高いほど高いとして、1つ以上の固定属性式集合とその優先度を計算し、1つ以上の固定属性式集合とその優先度を検索制御部105へ出力する機能を有している。

0039

検索制御部105は、1つ以上の固定属性式集合とその優先度が入力され、類似検索式生成部106に固定属性式集合をその優先度の順に1つずつ渡して0個以上の類似検索式とその類似度を受け取る呼び出しと、検索実行部107に類似検索式をその類似度の順に1つずつ渡して検索結果を受け取る呼び出しの繰り返しの制御を行い、類似検索結果を出力する機能を有している。

0040

類似検索式生成部106は、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと固定属性式集合が入力され、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性AS とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さの差が小さいほど、属性AS と属性At の間の類似度が高くなるように計算するとして、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、あるいは、重要度が低い原属性式を原属性式集合から除去して、類似検索式を生成し、0個以上の類似検索式とその類似度を検索制御部105へ出力する機能を有している。

0041

検索実行部107は、原検索式あるいは類似検索式が入力され、データベースの検索を行って、検索結果を検索制御部105へ出力する機能を有している。共起辞書108は、複数の属性の間の共起関係の強さを記憶する辞書である。

0042

原検索式解析部101に入力される原検索式を意味する情報は、1つ以上の属性を論理積や論理和や否定等の論理結合子で結合した検索式等の人工言語や、ペン図等の図や、自然言語等である。例えば、入力が検索式ならば、属性名がキーワードである属性に関しては、属性名を省略し属性値のみを指定するとすると、「通信網AND(NOT電話)AND(大蔵省OR文部省)AND言語:日本語」等であり、これと同じ意味の自然言語なら「電話以外の通信網の日本語の文書のうちで、大蔵省か文部省と関連があるもの」等である。これらは、原検索式として、「通信網 and( not電話)and (大蔵省or文部省)and 言語:日本語」を意味する。

0043

図2は、文書データの具体例を示す図であり、これは、検索実行部107が検索するデータベースが文書データベースであるとした場合の検索対象である文書内容とその属性である文書ID,登録日,出典,言語,タイトル,キーワードの具体例を示すものである。

0044

共起辞書108は、コーパスを大量に用いて統計的に得られる複数の属性の間の共起関係の強さを記憶している。共起辞書108を参照して上述したように重要度と類似度を計算するので、コーパスには、検索者と装置の対話の様子を記録したコーパスを用いる。ただし、そのコーパスの入手が困難である場合には、同じ問題領域について書かれた文書のコーパスを用いて、共起関係の強さを近似する。計算機により自動的にコーパスから属性の間の共起関係の強さを観測する方法には、例えば、平他、「共起データを用いた単語の意味ネットワークの作成」,情報処理学会第42会全国大会予稿集(1991)7E-7に示される方法等がある。

0045

図3は、共起辞書108の具体例を示す図であり、これは、共起辞書108が2つの属性の間の共起関係の強さを記憶するとした場合の具体例を示す図である。ここで、説明の便宜上、共起関係の強さは0以上1以下の数値で表され、数値が大きいほど共起関係が強いとする。

0046

尚、図1では、矢印により、本類似検索装置で類似検索をする場合のデータの流れを示しているが、本類似検索装置で、原検索式での検索を行う場合は、原検索式解析部101から原検索式を検索実行部107へ入力し検索結果を得る。

0047

〈動作〉図4は具体例1の動作フローチャートである。ステップ401で、原検索式解析部101において、原検索式を意味する情報が入力され、その情報を解析して原検索式を得、原検索式を原属性式抽出部102へ出力する。ステップ402で、原属性式抽出部102において、入力された原検索式から原属性式を抽出して原属性式集合を得、原属性式集合を原属性式重要度計算部103へ出力する。

0048

ステップ403で、原属性式重要度計算部103において、入力された原属性式集合から、ある検索式が属性A1 ,…,Ar を含む時に、属性A1 ,…,Arのうち、ある属性As とその他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度が高くなるように、原属性式の重要度を計算し、原属性式集合と原属性式毎の重要度を固定属性式集合計算処理部104へ、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さを類似検索式生成部106へ出力する。

0049

ステップ404で固定属性式集合計算処理部104において、入力された原属性式集合と原属性式毎の重要度から、ある固定属性式集合の優先度は、その要素である固定属性式の重要度が高いほど高いとして、1つ以上の固定属性式集合とその優先度を計算し、1つ以上の固定属性式集合とその優先度を検索制御部105へ出力する。

0050

ステップ405で、検索制御部105において、入力された1つ以上の固定属性式集合とその優先度から、固定属性式集合をその優先度の順に1つずつ用いるステップ412まで続く繰り返し処理(ループ1)を開始する。先ず、検索制御部105において、まだ用いられていない固定属性式集合のうちで優先度が最も高いものを1つ類似検索式生成部106へ出力する。ここで、ループ1は、入力された固定属性式集合を全て用いた場合、あるいは、ステップ411の中止条件を満たした場合に終了する。

0051

ステップ406で、類似検索式生成部106において、原属性式重要度計算部103から入力された原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと、検索制御部105から入力された固定属性式集合から、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1,…,Ar のうち、ある属性As と、その他の属性A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,AS-1 ,AS+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算する。即ち、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、あるいは、重要度が低い原属性式を原属性式集合から除去して、類似検索式を生成し、0個以上の類似検索式とその類似度を検索制御部105へ出力する。

0052

ステップ407で、検索制御部105において、入力された0個以上の類似検索式とその類似度から、類似検索式をその類似度の順に1つずつ用いるステップ412まで続く繰り返し処理(ループ2)を開始する。先ず、検索制御部105において、まだ用いられていない類似検索式のうちで類似度が最も高いものを1つ検索実行部107へ出力する。ここで、ループ2は、入力された類似検索式を全て用いた場合、あるいは、ステップ409の中止条件を満たした場合に終了する。また、入力された類似検索式の個数が0個である場合は、ループ2の処理は行わずステップ411へ進む。

0053

ステップ408で、検索実行部107において、入力された類似検索式での検索を実行し、その検索結果を検索制御部105へ出力する。ステップ409で、検索制御部105において、ステップ407からの繰り返し処理(ループ2)の中止条件を満たすかを判定する。この判定が、“中止条件を満たす”であるならステップ411へジャンプし、“満たさない”であるならステップ410へ進む。

0054

ステップ411では、検索制御部105において、ステップ405からの繰り返し処理(ループ1)の中止条件を満たすか判定する。この判定が、“中止条件を満たす”であるならステップ413へジャンプし、“満たさない”であるならステップ412へ進む。

0055

ステップ413で、検索制御部105において、検索結果を出力する。

0056

次に、上記各ステップを更に詳細に説明する。

0057

先ず、ステップ402の原属性式抽出処理の方法の一例を以下に示す。原検索式を連言標準形(conjunctive normal form )に変換し、図4中の(1)式を得る。ここで、Ff は(2) 式に示す通りであり、かつ、Pf1,Pf2…,Pfmは1つの属性、あるいは、1つの属性の否定である。各Fi を1つの原属性式とする。こうして得られる原属性式が要素である集合{F1 ,…,Fn },(n≧2)を原属性式集合とする。以上は原属性式抽出処理の方法の一例であり、原検索式から原属性式を抽出して原属性式集合を得る方法であれば他の方法であってもよい。

0058

ステップ403の原属性式重要度計算処理の方法の一例を示す。ある属性Ak1が原属性式Fg1を構成し、ある属性Ak2が原属性式Fg2を構成するとすると、原属性式Fg1と原属性式Fg2の間の共起関係の強さは、共起関係の強さが最も低い、属性Ak1と属性Ak2の間の共起関係の強さとする。先ず、全ての原属性式の間の共起関係の強さを、共起辞書108を参照して、それらの属性式を構成する属性の間の共起関係の強さから計算する。次に、ある検索式が属性Ai ,…,Arを含む時に、属性Ai ,…,Ar のうち、ある属性As とその他の属性Ai ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほど、その属性As の重要度を高くするために、各原属性式の重要度を、他の原属性式との間の共起関係の強さの和とする。以上は原属性式重要度計算処理の方法の一例であり、入力された原属性式集合から、ある検索式が属性Ai ,…,Ar を含む時に、属性Ai ,…,Ar のうち、ある属性As とその他の属性Ai ,…,As-1 As+1 ,…,Ar の間の共起関係が強いほどその属性As の重要度が高くなるように、原属性式の重要度を計算する方法ならば、他の方法であってもよい。

0059

ステップ404の固定属性式集合計算処理の方法の一例を示す。先ず、原属性式集合からそのべき集合(power set )を生成する。そのべき集合から原属性式集合と空集合を除いた集合の各要素を固定属性式集合とする。原属性式は2つ以上なので、固定属性集合は2つ以上得られる。次に、固定属性式集合毎に、その要素である原属性式の重要度の和を求め、その数値をその固定属性式集合の優先度とする。以上は固定属性式集合計算処理の方法の一例であり、原属性式集合と原属性式毎の重要度から、ある固定属性式集合の優先度は、その要素である固定属性式の重要度が高いほど高いとして、1つ以上の固定属性式集合とその優先度を計算する方法ならば、他の方法であってもよい。

0060

ステップ406の類似検索式生成処理の方法の一例を示す。先ず、原属性式集合をS1 ={F1 ,…,Fn },{n≧2}、固定属性式集合をS2 ={F21,…,F2h},(h≧1}とする。S1 からS2 の要素である原属性式を除いた集合を、S3 ={F31,…,F3i},(i≧1,n=h+i)とする。ここで、ある属性Ak1が原属性式Fg1を構成するとすると、原属性式Fg1と属性Ak2の間の共起関係の強さは、共起関係の強さが最も低い属性Ak1と属性Ak2の間の共起関係の強さとする。次に、共起辞書108を参照して、S2 の要素である固定属性式と共起関係の強さが0より大きい属性であり、かつ、S1 の要素である原属性式を構成する属性ではない、属性の集合S4 ={A41,…,A4j},(j≧1}を求める。ここで、集合S4 の要素は、原属性式集合S1 において、集合S3 の要素と置換される属性の候補である。S4 が空集合である場合は、S6 はS2 であるとし、以下のS6 を求めるまでの処理は行わない。

0061

次に、S4 のべき集合のうち、要素数が1以上i以下である集合S5 ={A51,…,A5p},(1≦p≦i)を求める。この集合S5 はj≧iの場合は、合計q=1iΣ jCq 個求まり、j<iの場合は、合計q=1jΣ jCq 個求まる。尚、q=1iΣやq=1jΣといった表記は、q=1からiまたはjまでの総和を表しているものとする。

0062

次に、S2 とS5 の和集合{F21,…,F2h,A51,…,A5p}、及びS2 を、S6 とする。ここで、S6 の集合の個数は、上述したS5 の集合の個数より1だけ多い。以上が、S6 を求めるまでの処理である。ここで、S6 は、原属性式集合において、固定属性式以外の重要度が低い原属性式を他の原属性式に置換するか、あるいは、固定属性式以外の重要度が低い原属性式を原属性式集合から除去した集合である。S6 を類似属性式集合とする。

0063

次に、共起辞書108を参照して、それぞれのS6 について、S6 の要素の間の共起関係の強さを求める。S6 の要素数は、S1 の要素数以下なので、S1 とS6 との間で、同じ属性式同士を対応させてから、異なる属性式同士を、S1 の要素の間の共起関係の強さとS6 の要素の間の共起関係の強さの差がなるべく小さくなるように対応させる。原属性式集合S1 と類似属性式集合S6 の間の類似度を、共起関係の強さの差の絶対値の総和にマイナス1をかけた数値とする。

0064

次に、類似度がある値(ここでは、−1.0とする。)以上である類似属性式集合S6 に関して、その要素を論理積で結合した論理式を類似検索式とする。こうして、0個以上の類似検索式とその類似度が得られる。以上は類似検索式生成処理の方法の一例であり、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと固定属性式集合から、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性Ai ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算するとして、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、あるいは、重要度が低い原属性式を原属性式集合から除去して、類似検索式を生成し、0個以上の類似検索式とその類似度を得る方法ならば、他の方法であってもよい。

0065

次に、ステップ409の判断処理におけるステップ407からの繰り返し処理の中止条件の一例を示す。例えば、その時までの類似検索の結果として検索対象がある個数(ここでは、5個とする)以上得られているなら中止とする。これは条件の一例であり、「その時の類似検索式の類似度がある値以下なら中止する」や、更に、そのしきい値を、その時までの類似検索の結果として得られる検索対象の数に応じて変化させるといった、他の方法であってもよい。

0066

次にステップ411の判断処理におけるステップ405からの繰り返し処理の中止条件の一例を示す。例えば、その時までの類似検索の結果として検索対象がある個数(ここでは5個とする。)以上得られているなら中止する。これは条件の一例であり、「原属性式集合とその時の固定属性式集合の要素数の差がある値以上なら中止する」や、「その時の固定属性式集合の優先度がある値以下なら中止する」や、更に、これらのしきい値を、その時までの類似検索の結果として得られる検索対象の数に応じて変化させるといった、他の方法であってもよい。

0067

図5は、具体例1における類似検索実行時の画面表示例を示す図であり、これは、情報検索装置と検索者の対話の様子を示している。

0068

装置は、先ず、原検索式「通信網and( not電話)and 通産省」の検索結果として、検索対象が合計2件あると検索者に通知している。その後、類似検索式「通信網 and( not電話)and ABC電気工業」と「通信網 and( not電話)and郵政省」の検索結果として、検索対象が、それぞれ、2件と4件あると検索者に通知している。第4図の流れ図に沿って、この対話における類似検索の処理の具体例を以下に簡単に示す。

0069

先ず、ステップ401で、原検索式を意味する情報「通信網AND(NOT電話)AND通産省」を解析して原属性式「通信網 and( not電話)and 通産省」を得る。ステップ402で、原属性式を抽出して、原属性式集合{通信網 and(not電話)and 通産省}を得る。ステップ403で、先ず、全ての原属性式の間の共起関係の強さを、共起辞書108を参照して計算する。次に、各原属性式の重要度を計算する。

0070

図6は、原属性式の間の共起関係の強さを示す図である。また、図7は、原属性式の重要度を示す図である。

0071

ステップ404で、先ず、固定属性式集合を求める。次に、固定属性式集合毎に、その優先度を計算する。

0072

図8は、固定属性式集合とそれらの優先度を示す図である。ここでは、固定属性式集合が合計6個求まっている。

0073

ステップ405で、固定属性式集合をその優先度の順に1つずつ用いるステップ412まで続く繰り返し処理を開始する。先ず、固定属性式集合のうちで優先度が最も高いものである{通信網,( not電話)}を類似検索式生成部106へ出力する。

0074

ステップ406で、先ず、原属性式集合がS1 ={通信網,( not電話),通産省}、固定属性式集合がS2 ={通信網,( not電話)}であるから、S3 を{通産省}とする。次に、共起辞書108を参照して、S4 ={郵政省、ABC電気工業}を得る。S5 が{郵政省},{ABC電気工業}であるので、類似属性式集合S6 ={通信網,( not電話),郵政省},{通信網,( not電話),ABC電気工業},{通信網,( not電話)}を得る。次に、共起辞書108を参照して、それぞれのS6 について、S6 の要素の間の共起関係の強さを求める。

0075

図9は、求めたS6 の要素の間の共起関係の強さを示す図である。

0076

次に、S1 とS6 との間で、同じ属性式同士を対応させてから、異なる属性式同士を、S1 の要素の間の共起関係の強さとS6 の要素の間の共起関係の強さの差がなるべく小さくなるように対応させ、原属性式集合S1 と類似属性式集合S6 の間の類似度を計算する。

0077

図10、11は、その対応付けと類似度の計算の過程を示す図である。

0078

類似度は全て−1.0以上であるので、類似検索式として、「通信網and( not電話) and郵政省」(類似度:−0.2),「通信網 and( not電話) andABC電気工業」(類似度:0.0),「通信網 and( not電話)」(類似度:−0.7)を得る。

0079

ステップ407で、類似検索式のうちで優先度が最も高いものである「通信網and( not電話) and ABC電気工業」を検索実行部207へ出力する。ステップ408で検索を実行し、検索対象を2件得る。ステップ409で、中止条件を満たすか判定する。まだ中止条件は満たさないので、ステップ410へ進み、ステップ410でステップ407へ戻る。

0080

ステップ407で、まだ用いられていない類似検索式のうちで優先度が最も高いものである「通信網and( not電話) and郵政省」を検索実行部207へ出力する。ステップ408で、検索を実行し検索対象を4件得る。ステップ409で、中止条件を満たすか判定する。検索対象を合計6件得ているので、中止条件を満たす。従って、ステップ411へジャンプする。ここでは、ステップ411での中止条件は、ステップ409での中止条件と同じなので、中止条件は満たされ、ステップ413へジャンプする。ステップ413で、検索制御部205において、検索結果を出力する。

0081

<効果>以上のように、具体例1によれば、原属性式重要度計算部103において共起辞書108を参照して属性式の重要度を計算し、類似検索式生成部106において類似度の評価尺度は属性の現れかたの類似性として、共起辞書108を参照して検索式と類似検索式の間の類似度を計算するので、属性の現れかたの類似性が類似度の評価尺度である類似検索式を生成できるという効果と、属性の間の重要度と類似度を装置運用者が予め設定する必要がなくなり、属性の数が多くなっても装置の運用が困難にならないという効果と、重要度と類似度について感覚が一致する検索者が多くなるという効果が得られる。

0082

《具体例2》「属性の類似度」の評価尺度として、具体例1では、属性の現れかたの類似性を用いたが、具体例2では、属性の意味の類似性を用いる。属性の意味の類似性は、属性の間の意味的距離の大小により表現され、意味的距離が小さいほど類似度は高い。

0083

従って、具体例1では、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性Ai ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、Ai ,…,As-1As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算したが、具体例2では、類似度の評価尺度は属性の意味の類似性であり、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように行う。

0084

<構成>図12は、具体例2の構成を示す図である。

0085

原検索式解析部201から共起辞書208は、それぞれ、具体例1における原検索式解析部101から共起辞書108と後述する点を除いて同じである。

0086

209は意味的距離記憶部であり、これは、属性の間の意味的距離を記憶する機能を有している。また、具体例1の原属性式重要度計算部103は、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さを類似検索式生成部106へ出力するが、本具体例2の原属性式重要度計算部203は、原属性式集合のみを類似検索式生成部206へ出力する点が異なる。そして、具体例1の類似検索式生成部106は、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと固定属性式集合が入力され、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性Ai ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算する。一方、本具体例2の類似検索式生成部206は、原属性式集合と固定属性式集合が入力され、意味的距離記憶部209を参照して、類似度の評価尺度は属性の意味の類似性であり、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算する。

0087

意味的距離記憶部209には、2つの属性の対とその意味的距離の対応を記憶する辞書や、意味的距離が近い属性の集合を記憶する類義語辞書や、意味的距離が近い属性の集合と更にその集合相互の間の意味的距離を記憶するシソーラスなどを用いている。

0088

図13は意味的距離記憶部209が2つの属性の対とその意味的距離の対応を記憶する辞書であるとした場合の具体例を示す図である。ここで、意味的距離は0以上の数値で表され、数値が小さいほど意味的距離が近いとする。

0089

<動作>本具体例2の動作フローチャートにおける図面上の各処理は具体例1と同様であるため、図4に示した具体例1のフローチャートを援用して説明する。具体例2の動作は次の点を除いて具体例1と同じである。即ち、具体例1では、ステップ403で、原属性式重要度計算部103において、原属性式集合と原属性式毎の重要度と計算の過程で求まる原属性式の間の共起関係の強さを類似検索式生成部106へ出力する。一方、具体例2では、ステップ403で、原属性式重要度計算部203において、原属性式集合のみを類似検索式生成部206へ出力する。

0090

また、具体例1では、ステップ406で、類似検索式生成部106において、原属性式集合と原属性式毎の重要度と原属性式の間の共起関係の強さと固定属性式集合が入力され、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性Ai ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As とその他の属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At とAi ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算する。一方、具体例2では、ステップ406で、類似検索式生成部206において、原属性式集合と固定属性式集合が入力され、意味的距離記憶部209を参照して、類似度の評価尺度は属性の意味の類似性であり、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算する。

0091

ステップ406の類似検索式生成処理の方法の一例を示す。先ず、原属性式集合をS1 ={F1 ,…,Fn },(n≧2)、固定属性式集合を、S2 ={F21,…,F2h},(h≧1)とする。S1 からS2 の要素である原属性式を除いた集合を、S3 ={F31,…,F3i},(i≧1,n=h+i)とする。ここで、ある属性Ak1が原属性式Fg1を構成するとすると、原属性式Fg1と属性Ak2の間の意味的距離は、意味的距離が最も遠い属性Ak1と属性Ak2の間の意味的距離とする。

0092

次に、意味的距離記憶部209を参照して、S3 の要素である原属性式毎に、その原属性式との意味的距離がある値(ここでは0.8であるとする)以内である属性の集合S3j={A3jo ,…,A3jp },(0≦p,1≦j≦i)を求める。尚、S3jが空集合である場合もあり得る。各S3jから属性を1つずつ取り出して求まる集合を集合S4 とする。次に、S2 とS4 の和集合をS5 とし、このS5 を類似属性式集合とする。ここで、原属性式集合S1 と類似属性式集合S5 の間の類似度を、S4 の属性の意味的距離の総和にマイナス1をかけた数値とする。次に、類似度がある値(ここでは、−1.0とする。)以上である類似属性式集合S5 に関して、その要素を論理積で結合した論理式を類似検索式とする。こうして、0個以上の類似検索式とその類似度が得られる。

0093

以上は類似検索式生成処理の方法の一例であり、原属性式集合と固定属性式集合から、意味的距離記憶部209を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算するとして、原属性式集合において、重要度が低い原属性式を他の属性式に置換するか、あるいは、重要度が低い原属性式を原属性式集合から除去して、類似検索式を生成し、0個以上の類似検索式とその類似度を得る方法ならば、他の方法であってもよい。

0094

図14は、具体例2における類似検索実行時の画面表示例を示す図であり、これは、情報検索装置と検索者の対話の様子を示している。

0095

装置は、原検索式「通信網and( not電話) and 通産省」において、属性「通産省」を、属性「通産省」と意味的距離が近い属性である「大蔵省」、「文部省」、「郵政省」に置換して得られる類似検索式での検索結果を出力している。

0096

<効果>以上のように、具体例2によれば、具体例1に意味的距離記憶部209を追加し、類似検索式生成部206は、意味的距離記憶部209を参照して、類似度の評価尺度は属性の意味の類似性であり、検索式の間の類似度の計算は、属性の間の意味的距離が小さいほど、高くなるように計算するとして、検索式と類似検索式の間の類似度を計算するので、属性の意味の類似性が類似度の評価尺度である類似検索式を生成できるという効果と、属性の間の重要度と類似度を装置運用者が予め設定する必要がなくなり、属性の数が多くなっても装置の運用が困難にならないという効果と、重要度と類似度について感覚が一致する検索者が多くなるという効果が得られる。

0097

《具体例3》「属性の類似度」の評価尺度として、具体例1では、属性の現れかたの類似度のみを用い、具体例2では、属性の意味の類似度のみを用いたが、具体例3では、属性の現れかたの類似度、及び、属性の意味の類似度の両方を用いる。

0098

従って、第3の実施例では、検索式の間の類似度の計算は、類似度の評価尺度の1つが属性の現れかたの類似度であるので、ある検索式が属性Ai ,…,Arを含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、類似度の評価尺度の2つ目が属性の意味の類似性であるので、属性の間の意味的距離が小さいほど、高くなるように行う。

0099

<構成>図15は具体例3の構成を示す図である。

0100

図において、原検索式解析部301から共起辞書308は、それぞれ具体例1の原検索式解析部101から共起辞書108と後述する点を除いて同じである。また意味的距離記憶部309は、具体例2の意味的距離記憶部209と同じである。具体例1の類似検索式生成部106は、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算する。

0101

一方、本具体例3の類似検索式生成部306は、検索式の間の類似度の計算は、共起辞書308を参照して、類似度の評価尺度の1つが属性の現れかたの類似性であるので、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Arを含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、意味的距離記憶部309を参照して、類似度の評価尺度の2つ目が属性の意味の類似性であるので、属性の間の意味的距離が小さいほど、高くなるように行う。

0102

<動作>本具体例3においても、その動作フローチャートにおける図面上の各処理は具体例1と同様であるため、図4に示した具体例1のフローチャートを援用して説明する。本具体例3の動作は次の点を除いて具体例1と同じである。即ち、具体例1では、ステップ406で、類似検索式生成部106において、共起辞書108を参照して、類似度の評価尺度は属性の現れかたの類似性であり、検索式の間の類似度の計算は、ある検索式が属性Ai ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As と、その他の属性Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、Ai ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるように計算する。一方、具体例3では、ステップ406で、類似検索式生成部306において、検索式の間の類似度の計算は、共起辞書308を参照して、類似度の評価尺度の1つが属性の現れかたの類似性であるので、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性Ai ,…,Ar のうち、ある属性As とその他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At とA1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、意味的距離記憶部309を参照して、類似度の評価尺度の2つ目が属性の意味の類似性であるので、属性の間の意味的距離が小さいほど、高くなるように行う。

0103

ステップ406の類似検索式生成処理の方法の一例を示す。先ず、具体例1の動作で示した方法により、共起辞書308を参照して、類似検索式とその類似度を得る。この類似度を類似度1とする。次に、具体例2の動作で示した方法により、意味的距離記憶部309を参照して、類似検索式とその類似度を得る。この類似度を類似度2とする。同一の類似検索式に関して、その類似度を類似度1と類似度2の和とする。以上は類似検索式生成処理の方法の一例であり、検索式の間の類似度の計算を、共起辞書308を参照して、類似度の評価尺度の1つが属性の現れかたの類似性であるので、検索式の間の類似度の計算は、ある検索式が属性A1 ,…,Ar を含むなら、属性A1 ,…,Ar のうち、ある属性As と、その他の属性A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さと、任意のある属性At と、A1 ,…,As-1 As+1 ,…,Ar との共起関係の強さの差が小さいほど、属性As と属性At の間の類似度が高くなるようにし、かつ、意味的距離記憶部309を参照して、類似度の評価尺度の2つ目が属性の意味の類似性であるので、属性の間の意味的距離が小さいほど、高くなるように行う方法ならば、他の方法であってもよい。

0104

図16は、具体例3における類似検索実行時の画面表示例であり、これは情報検索装置と検索者の対話の様子を示している。

0105

装置は、原検索式「通信網and( not電話) and 通産省」において、属性「通産省」を、「郵政省」、「ABC電気工業」に置換して得られる類似検索式での検索結果を出力している。具体例1での例である図5では、属性の現れかたの類似性のみを類似度の評価尺度としているので、「通産省」とは意味的距離が「郵政省」よりも遠い「ABC電気工業」を「通省」と置換した類似検索式が、類似度が最も高い類似検索式として得られる。具体例3では、属性の意味の類似性も類似度の評価尺度としているので、「通産省」と意味的距離が最も近い「郵政省」を「通産省」と置換した類似検索式が、類似度が最も高い類似検索式として得られる。

0106

<効果>以上のように、具体例3によれば、具体例1に意味的距離記憶部309を追加し、類似検索式生成部306は、検索式の間の類似度の計算は、共起辞書308を参照して、類似度の評価尺度の1つが属性の現れかたの類似性であるとして行い、かつ、意味的距離記憶部309を参照して、類似度の評価尺度の2つ目が属性の意味の類似性であるとして行うので、具体例1の効果に加えて、属性の現れかたの類似性、及び、属性の意味の類似性が類似度の評価尺度である類似検索式を生成できるという効果が得られる。

0107

尚、上記各具体例では、情報検索装置に適用した例を説明したが、本装置は、ある連続した情報の中で、情報が欠落している場合に、現れかたの類似性を類似度の評価尺度とすることにより、その付近の情報から、欠落している情報が何かを推定補完することができる。従って、OCR光学式文字読取装置)やペン入力で認識に失敗した文字をその付近の文字から推定し補完することや、音声認識で認識に失敗した音声をその付近の音声から推定し補完することにも利用可能である。

0108

図面の簡単な説明

0109

図1本発明の類似検索方法および装置の具体例1の構成図である。
図2文書データの具体例を示す図である。
図3共起辞書の具体例を示す図である。
図4具体例1の動作フローチャートである。
図5具体例1における類似検索実行時の画面表示例を示す図である。
図6原属性式の間の共起関係の強さを示す図である。
図7原属性式の重要度を示す図である。
図8固定属性式集合とそれらの優先度を示す図である
図9類似属性式集合の要素の間の共起関係の強さの具体例を示す図である。
図10類似度の計算過程の具体例(その1)を示す図である。
図11類似度の計算過程の具体例(その2)を示す図である。
図12類似度の計算過程の具体例(その3)を示す図である。
図13本発明の類似検索方法および装置の具体例2の構成図である。
図14意味的距離記憶部の具体例を示す図である。
図15具体例2における類似検索実行時の画面表示例を示す図である。
図16具体例3の類似検索方法および装置の具体例3の構成図である。
図17具体例3における類似検索実行時の画面表示例を示す図である。

--

0110

101、201、301 原検索式解析部
102、202、302 原属性式抽出部
103、203、303 原属性式重要度計算部
104、204、304 固定属性式集合計算部
105、205、305検索制御部
106、206、306類似検索式生成部
107、207、307検索実行部
108、208、308共起辞書
209、309意味的距離記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • グーグルエルエルシーの「 ビデオマッチングシステムのサービス品質向上のための画像マッチングシステムの使用」が 公開されました。( 2019/05/30)

    【課題・解決手段】システムは、対象のビデオを受信する。システムは、対象のビデオ内の動的セグメントと準静的セグメントとを識別する。システムは、対象のビデオの動的セグメントと参照ビデオの参照動的セグメント... 詳細

  • 尾和剛一の「 特許文献集合の分析方法」が 公開されました。( 2019/05/23)

    【課題】特定のコア技術や、特定の出願人の特定の分野の全特許文献集合の文献件数時系列動向とは異なる動向を示す文献項目を抽出する方法を提供する。【解決手段】特定文献集合分折方法は、特定の文献集合の特許文献... 詳細

  • 株式会社大塚商会の「 画像解析システム」が 公開されました。( 2019/05/23)

    【課題】 画像解析システムを提供することを目的とする。【解決手段】 画像解析システムであって,対象物と対象物関連情報とを対応づけて記憶する対象物情報記憶部と,第1の画像情報と,少なくとも一以上の第... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ