図面 (/)

技術 情報検索装置及び情報検索方法

出願人 日本電気株式会社ユニヴァーシティオブワシントン
発明者 杉浦淳オーレンエツィオーニ
出願日 2000年11月20日 (20年5ヶ月経過) 出願番号 2000-353256
公開日 2001年7月10日 (19年10ヶ月経過) 公開番号 2001-188802
状態 特許登録済
技術分野 検索装置
主要キーワード 選択フェーズ 問題分析 出現度 特定トピック ホテル検索 情報検索エンジン ニシキヘビ 計算機プログラム
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2001年7月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

インターネット上のウェブ検索する場合に、ユーザの検索キーワードに適した特定トピック向け検索エンジンを選択できるようにする。

解決手段

各特定トピック向け検索エンジンに関連する単語をウェブ11などから収集し、検索エンジンを選択するためのDB選択インデックスインデックス生成部202によりあらかじめ作成しておく。ユーザから検索キーワードが与えられた場合、その検索キーワードに関連する単語をクエリ展開部204によって汎用ウェブ検索エンジン12から取得し、ここで取得された単語とDB選択インデックスに格納されている単語とマッチングを行い、一致度が高い特定トピック向け検索エンジンをユーザに提示する。

概要

背景

WWW上には、さまざまな種類の情報検索エンジン(以下、単に、検索エンジンともいう)が存在する。例えば、Yahoo(ヤフー(http://www.yahoo.com))やAltaVista(アルタビスタ(http://www.altavista.com))では、ウェブ上に存在するウェブページのURL(uniform resourse locator)のデータベース構築し、ユーザがウェブページを検索できるようにしている。YahooやAltaVistaは、あらゆるトピックカテゴリのウェブページを対象とした汎用的な検索エンジンである。また、特定のトピックに限定した検索エンジンも存在する。例えば、Amazon.com(アマゾン・ドットコム(http://www.amazon.com))には、書籍を検索するための書籍専用のデータベースがある。

検索エンジンによってWWWを検索する場合、一般に、ユーザは、目的に応じて検索エンジンをユーザ自身で選び、検索キーワード(検索エンジンを使って情報検索する際に入力するキーワードのこと)をその検索エンジンに入力することなどにより、情報を検索することになる。すなわち、通常は単一の検索エンジンをその都度利用することになる。

これに対し、ウェブ上に存在する複数の検索エンジンを利用するメタサーチと呼ばれる手法がある(例えば、Selberg, E. and Etzioni, O. "Multi-Service Search and Comparison using the MetaCrawler", Proceedings of the 4th International World Wide Web Conference, 1994を参照)。メタサーチでは、ユーザが入力した検索キーワードを複数の検索エンジンに送り各検索エンジンから取得した全ての検索結果を一つにまとめてユーザに提示する。単一の検索エンジンを使っている場合には、ある検索エンジンで必要な情報が得られなければ、ユーザは別の検索エンジンで検索をすることになる。すなわち、ユーザは、必要な情報が見つかるまで検索エンジンを渡り歩き何度も検索キーワードを入力しなければならない。メタサーチでは、このような繰り返し操作は不要となる。

また、複数の情報ソースからクエリ質問(query))に適したものを選択する分散情報検索手法が提案されている(例えば、Xu., J., and Callan, J. "Effective retrieval with distributed collections", In Proceedings of the 21stAnnual InternationalACMSIGIR Conference on Research and Development in Information Retrieval, pp.112-120, 1998を参照)。ここでは、選択された情報ソースのデータベースのみに問い合わせをするため、検索の処理速度の向上などが期待される。適切なデータベースを選択するために、分散データベースでは、個々のデータベースに含まれるキーワードとその出現頻度を用いてデータベース(DB)選択インデックスをあらかじめ作成しておく。

概要

インターネット上のウェブを検索する場合に、ユーザの検索キーワードに適した特定トピック向け検索エンジンを選択できるようにする。

各特定トピック向け検索エンジンに関連する単語をウェブ11などから収集し、検索エンジンを選択するためのDB選択インデックスをインデックス生成部202によりあらかじめ作成しておく。ユーザから検索キーワードが与えられた場合、その検索キーワードに関連する単語をクエリ展開部204によって汎用ウェブ検索エンジン12から取得し、ここで取得された単語とDB選択インデックスに格納されている単語とマッチングを行い、一致度が高い特定トピック向け検索エンジンをユーザに提示する。

目的

本発明の目的は、ウェブ上に存在する検索エンジンに対し、検索エンジンを選択するためのインデックス(以下DB選択インデックスと呼ぶ)を作成し、ユーザの検索キーワードに適した検索エンジンを選択する情報検索装置および情報検索方法を実現することにある。

効果

実績

技術文献被引用数
4件
牽制数
10件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

各検索エンジンが扱うトピック及び/または内容を説明する単語を関連単語として収集する関連単語収集部と、収集された前記関連単語からDB選択インデックスを作成するインデックス生成部と、前記DB選択インデックスを記憶するDB選択インデックス格納部と、ユーザが入力した検索キーワードに関連する単語を取得するクエリ展開部と、前記クエリ展開部により得られた単語を記憶する展開単語記憶部と、前記DB選択インデックス格納部と前記展開単語記憶部に記憶されている情報に基づいて、前記検索キーワードと各検索エンジンとの適合度を計算し、前記検索キーワードに適合した検索エンジンを選択するエンジン選択部と、を有する情報検索装置

請求項2

クエリ展開部は、ユーザが入力した検索キーワードを汎用ウェブ検索エンジンに送ることによって得られた検索結果から、前記検索キーワードに関連する単語を取得する、請求項1に記載の情報検索装置。

請求項3

ユーザが入力した検索キーワードを汎用ウェブ検索エンジンへ送った際に検索結果として前記汎用ウェブ検索エンジンから取得した文書中の文字列を記憶するリファレンス文字列記憶部と、展開単語記憶部と前記リファレンス文字列記憶部に記憶されている情報に基づいて、前記検索キーワードに関連するトピックを説明するフレーズを生成するフレーズ生成部と、をさらに有する請求項1または2に記載の情報検索装置。

請求項4

DB選択インデックスが、検索エンジンごとの関連単語と、関連単語ごとの重要度とを含み、各関連単語の重要度が当該関連単語の出現度に応じて定められる、請求項1乃至3のいずれか1項に記載の情報検索装置。

請求項5

関連単語収集部が、ウェブ上に存在する特定トピック向け検索エンジンに対応する関連単語を当該特定トピック向け検索エンジンのウェブページそのものから取得する、請求項1乃至4のいずれか1項に記載の情報検索装置。

請求項6

関連単語収集部が、ウェブ上に存在する特定トピック向け検索エンジンに対応する関連単語を、当該特定トピック向け検索エンジンへのハイパーリンクを有する他のウェブページから取得する、請求項1乃至4のいずれか1項に記載の情報検索装置。

請求項7

クエリ展開部が、DB選択インデックス格納部に登録された関連単語から重要度の高い関連単語を抽出し、抽出された関連単語とユーザが入力した検索キーワードとの関連性を優先的に調べることにより、前記検索ワードに関連する単語を取得する、請求項1乃至6に記載の情報検索装置。

請求項8

ユーザが入力した検索キーワードに適合した特定トピック向け検索エンジンを前記ユーザに提示する情報検索方法であって、ウェブ上に存在する特定トピック向け検索エンジンごとに、その特定トピック向け検索エンジンの内容に関連する単語を当該特定トピック向け検索エンジンのウェブページそのものから取得し、前記キーワードに関連する単語をクエリ展開により取得し、特定トピック向け検索エンジンに関連する単語とクエリ展開により取得した単語とのマッチングを行い、前記取得した単語と前記検索キーワードとのマッチングを行い、マッチングでの適合度の高い単語に対応する特定トピック向け検索エンジンを前記ユーザに提示する情報検索方法。

請求項9

ユーザが入力した検索キーワードに適合した特定トピック向け検索エンジンを前記ユーザに提示する情報検索方法であって、ウェブ上に存在する各特定トピック向け検索エンジンの内容に関連する単語を当該特定トピック向け検索エンジンへのハイパーリンクを持つ他のウェブページから取得し、前記キーワードに関連する単語をクエリ展開により取得し、特定トピック向け検索エンジンに関連する単語とクエリ展開により取得した単語とのマッチングを行い、前記取得した単語と前記検索キーワードのマッチングを行い、マッチングでの適合度の高い単語に対応する特定トピック向け検索エンジンを前記ユーザに提示する情報検索方法。

請求項10

ユーザが入力した検索キーワードを汎用検索エンジンに送信してその結果として得られた検索結果の文書から、前記検索キーワードをクエリ展開することにより得られた単語と前置詞詞が連続するフレーズを抽出し、前記抽出されたフレーズの重要度を計算し、最も重要度の高いフレーズを、前記検索キーワードの内容をより詳細に説明するフレーズとして選択し、選択されたフレーズを情報検索結果とともに前記ユーザに提示する、情報検索方法。

技術分野

0001

インターネット(Internet)での情報検索に関し、特に、インターネット上のWWW(ワールドワイドウェブ(World Wide Web)、以下、単にウェブともいう)上に存在する複数の検索エンジンから情報を取得する情報検索装置および情報検索方法に関する。

背景技術

0002

WWW上には、さまざまな種類の情報検索エンジン(以下、単に、検索エンジンともいう)が存在する。例えば、Yahoo(ヤフー(http://www.yahoo.com))やAltaVista(アルタビスタ(http://www.altavista.com))では、ウェブ上に存在するウェブページのURL(uniform resourse locator)のデータベース構築し、ユーザがウェブページを検索できるようにしている。YahooやAltaVistaは、あらゆるトピックカテゴリのウェブページを対象とした汎用的な検索エンジンである。また、特定のトピックに限定した検索エンジンも存在する。例えば、Amazon.com(アマゾン・ドットコム(http://www.amazon.com))には、書籍を検索するための書籍専用のデータベースがある。

0003

検索エンジンによってWWWを検索する場合、一般に、ユーザは、目的に応じて検索エンジンをユーザ自身で選び、検索キーワード(検索エンジンを使って情報検索する際に入力するキーワードのこと)をその検索エンジンに入力することなどにより、情報を検索することになる。すなわち、通常は単一の検索エンジンをその都度利用することになる。

0004

これに対し、ウェブ上に存在する複数の検索エンジンを利用するメタサーチと呼ばれる手法がある(例えば、Selberg, E. and Etzioni, O. "Multi-Service Search and Comparison using the MetaCrawler", Proceedings of the 4th International World Wide Web Conference, 1994を参照)。メタサーチでは、ユーザが入力した検索キーワードを複数の検索エンジンに送り各検索エンジンから取得した全ての検索結果を一つにまとめてユーザに提示する。単一の検索エンジンを使っている場合には、ある検索エンジンで必要な情報が得られなければ、ユーザは別の検索エンジンで検索をすることになる。すなわち、ユーザは、必要な情報が見つかるまで検索エンジンを渡り歩き何度も検索キーワードを入力しなければならない。メタサーチでは、このような繰り返し操作は不要となる。

0005

また、複数の情報ソースからクエリ質問(query))に適したものを選択する分散情報検索手法が提案されている(例えば、Xu., J., and Callan, J. "Effective retrieval with distributed collections", In Proceedings of the 21stAnnual InternationalACMSIGIR Conference on Research and Development in Information Retrieval, pp.112-120, 1998を参照)。ここでは、選択された情報ソースのデータベースのみに問い合わせをするため、検索の処理速度の向上などが期待される。適切なデータベースを選択するために、分散データベースでは、個々のデータベースに含まれるキーワードとその出現頻度を用いてデータベース(DB)選択インデックスをあらかじめ作成しておく。

発明が解決しようとする課題

0006

単一の検索エンジンを利用する場合、ユーザは所望の情報に応じて検索エンジンを選択する必要がある(例えば、新刊本の情報が知りたければ書籍検索エンジン、宿泊する場所を探しているのならホテル検索エンジン)。しかしながら、必要とする情報ごとに適切な検索サービスユーザ自らが選択するのは負担のかかる作業である。

0007

メタサーチ手法により既知の全ての検索エンジンに検索キーワードを送信する方法も考えられるが、検索エンジンの数が多い場合には、全ての検索サービスに検索キーワードを送信するのはネットワーク負荷や処理速度の問題などにより事実上不可能である。現状のメタサーチでは、通常10個程度の検索エンジンを利用しているが、検索エンジンの数が例えば数千個になった場合には、従来のメタサーチ手法は現実的ではない。

0008

したがって、ユーザの検索キーワードに応じて適切な検索エンジンを選択する必要がある。しかしながら、従来の分散情報検索でのデータベース選択手法では、データベース選択インデックスを作成するために、各々の情報ソースのデータベース中に含まれる全てのデータにアクセスできることを前提としている。しかしながら、情報ソースがウェブ上の検索エンジンである場合、一般には、それらのデータベースの全ての内容にアクセスすることはできない。そのため、従来の分散情報検索でのデータベース選択手法は利用できない。

0009

本発明の目的は、ウェブ上に存在する検索エンジンに対し、検索エンジンを選択するためのインデックス(以下DB選択インデックスと呼ぶ)を作成し、ユーザの検索キーワードに適した検索エンジンを選択する情報検索装置および情報検索方法を実現することにある。

0010

具体的には、例えばユーザの検索キーワードが“python”であった場合、図1に示すような結果をユーザに提示することを目的としている。“python”はもともとニシキヘビという意味であるが、スクリプトタイプのオブジェクト指向プログラミング(object oriented programming)言語の名前でもある。このように検索キーワードが複数トピックに関連する場合、トピックごとに検索エンジンの選択結果を提示し、なおかつ、そのトピックを説明するフレーズを付加する。図1の場合、オブジェクト指向プログラミング言語としての“python”に対しては、フレーズ"object oriented programming with python"が付加されるとともに、"Object-oriented Information Source"と"Scripting Database"とが検索エンジンとして列挙されている。一方、爬虫類(reptile)であるヘビ(snake)としての“python”に対しては、フレーズ"snake python"とともに、"Reptile Search"と"Snake Information"とが検索エンジンとして列挙されている。ユーザは自分の意図にあったものを選択し、選択した検索エンジンに検索キーワードを実際に送信できるようにする。図示した例では、選択しようとする検索エンジンの横に表示されたチェックボックスチェックを入れ、“Send Query”のボタンクリックすることにより、選択した検索エンジンに検索キーワードを送信できるようになる。

0011

また、図1に示すように、関連するであろう特定トピック向け検索エンジンのリストをユーザに提示せずに、検索キーワードを各特定トピック向け検索エンジンに直接送信して、検索結果を取得してもよい。

課題を解決するための手段

0012

本発明の情報検索装置は、検索エンジンが扱うトピックや内容を説明する単語を収集する関連単語収集部と、収集された関連単語からDB選択インデックスを作成するインデックス生成部と、記憶装置内に記憶されるDB選択インデックスと、ユーザが入力した検索キーワードに関連する単語を汎用検索エンジンから取得するクエリ展開部と、クエリ展開部により得られた単語を記憶する展開単語記憶部と、DB選択インデックスと展開単語記憶部に記憶されている情報に基づいて検索エンジンを選択するエンジン選択部と、を有する。ここで、クエリ展開部は、ユーザが入力した検索キーワードを汎用ウェブ検索エンジンに送ることによって得られた検索結果から、検索キーワードに関連する単語を取得するようにすることが好ましい。さらに本発明の情報検索装置では、クエリ展開部により汎用ウェブ検索エンジンから取得した文書中の文字列を記憶するリファレンス文字列記憶部と、展開単語記憶部とリファレンス文字列記憶部に記憶されている情報に基づいて、検索キーワードに関連するトピックを説明するフレーズを生成するフレーズ生成部と、を設けることが好ましい。

0013

(作用)本発明の情報検索装置を用いてウェブの情報検索を行う処理は、DB選択インデックスを生成するためのフェーズ(インデックス生成フェーズ)と、ユーザから与えられた検索キーワードに適した検索エンジンをDB選択インデックスを用いて選択するフェーズ(検索エンジン選択フェーズ)とに分けられる。

0014

インデックス生成フェーズでは、まず関連単語収集部が、検索エンジンが扱うトピックや検索エンジンの内容に関連する単語を、検索エンジンのウェブページそのものや検索エンジンのページへのハイパーリンクを有する他のウェブページから収集する。次に、インデックス生成部が、関連単語収集手段が収集した単語とその出現頻度からDB選択インデックスを生成し、DB選択インデックス格納部(典型的には記憶装置)内に記憶する。

0015

検索エンジン選択フェーズでは、まずクエリ展開部において、ユーザから与えられた検索キーワードに関連する単語を例えば汎用ウェブ検索エンジンから取得する。これは、関連単語収集部では限られた数の単語しか収集されず、ユーザが与えた検索キーワードだけではDB選択インデックス中に登録された単語に全くマッチしない場合が多いためである。クエリ展開部によって獲得された単語は展開単語記憶部に記憶され、クエリ展開処理のために汎用検索エンジンなどから取得した検索結果中に含まれる文字列は、必要に応じてリファレンス文字列記憶部に記憶される。

0016

クエリ展開処理の後、エンジン選択部において、DB選択インデックスと展開単語記憶部に記憶された情報をもとに検索エンジンを選択する。さらに、フレーズ生成部において、ユーザが入力した検索キーワードに関連するトピックを説明するフレーズを生成し、エンジン選択部で選択された検索エンジンとともにユーザに提示するようにしてもよい。

発明を実施するための最良の形態

0017

次に、本発明の好ましい実施の形態について、図面を参照して説明する。図2は、本発明の実施の一形態の情報検索装置の構成を示すブロック図である。

0018

この情報検索装置20は、検索エンジンが扱うトピックや内容を説明する単語をウェブ11から収集する関連単語収集部201と、収集された関連単語からDB選択インデックスを作成するインデックス生成部202と、DB選択インデックスを格納するDB選択インデックス記憶部203と、ユーザが入力した検索キーワードに関連する単語を汎用ウェブ検索エンジン12から取得するクエリ展開部204と、クエリ展開部204により得られた単語を記憶する展開単語記憶部205と、クエリ展開部204が汎用ウェブ検索エンジン12から取得した文書中の文字列を記憶するリファレンス文字列記憶部206と、DB選択インデックス記憶部203と展開単語記憶部205に登録されている情報に基づいて、検索エンジンを選択するエンジン選択部207と、展開単語記憶部204とリファレンス文字列記憶部206に記憶されている情報に基づいて、検索キーワードに関連するトピックを説明するフレーズを生成するフレーズ生成部208と、を備えている。

0019

ここで、情報検索装置20は、ハードウェア構成としては、プログラム制御により動作するデータ処理装置21と、情報を記憶する記憶装置22とを備えている。データ処理装置21は、関連単語収集部201、インデックス生成部202、クエリ展開部204、エンジン選択部207およびフレーズ生成部208を含み、また、記憶装置22は、DB選択インデックス格納部203、展開単語記憶部205およびリファレンス文字列記憶部206を含んでいる。データ処理装置21は、インターネット10に接続しており、インターネット10上のウェブ11から、インターネット上の各検索エンジンが扱うトピックや内容を説明する単語が関連単語収集部201に与えられる。また、汎用ウェブ検索エンジン12は、あらゆるトピックやカテゴリのウェブページを対象とした汎用的な検索エンジンのことである。例えば上述したYahooやAltaVistaのようにインターネット経由で利用可能なものであっても、インターネット上には公開されておらず情報検索装置20のみが利用可能なローカルなシステムとして構築されたものでもよい。

0020

次に、この情報検索装置を使用した情報検索について説明する。上述したように、本発明に基づく情報検索の処理は、大別して、DB選択インデックスを生成するためのインデックス生成フェーズと、ユーザから与えられた検索キーワードに適した検索エンジンをDB選択インデックスを用いて選択する検索エンジン選択フェーズとに分かれるから、まず、インデックス生成フェーズに関して、この情報検索装置の動作を説明する。

0021

インデックス生成フェーズにおいて、関連単語収集部201は、検索エンジンのURL Ei(1≦i≦n)が与えられたとき、その検索エンジンが扱うトピックや関連する単語を収集する。この収集方法として、本明細書では2通りの方法を説明する。関連単語収集部201としては、下記の2個の方法のいずれを利用してもよい。

0022

第一の方法は、URL Eiに対応するウェブ文書Pi(Eiによりウェブ11から取得される文書)を利用する方法である。ウェブ文書Piには、検索エンジンの内容を説明する文章語句が含まれていると期待される。第一の方法では、Piに含まれる全ての単語を検索エンジンに関連する単語とする。

0023

第二の方法は、URL Eiを参照している(Eiへのリンクを有する)他のウェブ文書を利用する方法である。URL Eiを参照しているウェブ文書には、Eiの内容を説明する語句が含まれている可能性が高いと考えられる。具体的に第二の方法では、Eiを参照している複数のウェブ文書Pij(1≦j≦m)を取得し、取得した全ての文書に含まれる全ての単語を検索エンジンに関連する単語とする。もしくは、ウェブ文書Pijにおいて、Eiへのリンクの周囲にある単語(例えばEiへのリンクと同じ行にある単語)だけを関連単語としてもよい。Eiを参照しているウェブ文書Pijは、上述のAltaVistaやInfoseek(インフォシーク(http://www.infoseek.com))などの汎用ウェブ検索エンジンで取得することが可能である。

0024

次に、インデックス生成部202は、関連単語収集部201で収集された関連単語Sik(1≦k≦q)をDB選択インデックスとしてDB選択インデックス格納部203に記憶する。さらに、全てのSikに対しその出現回数カウントして正規化し、インデックス記憶部203に重要度Wikとして記憶する。重要度Wikは0.0から1.0までの値をとる。

0025

上記の関連単語収集処理とインデックス生成処理は、与えられた全ての検索エンジンのURL Ei(1≦i≦n)に対して行われる。したがって、図3に示すように、DB選択インデックス格納部203は、DB選択インデックスとして、各検索エンジンごとにそれぞれ関連単語と重要度を記憶する。

0026

以上によりインデックス生成フェーズが完了すると、次に、ユーザの入力した検索キーワードに適した検索エンジンを選択する検索エンジン選択フェーズが開始する。

0027

検索エンジン選択フェーズでは、まず、クエリ展開部204が汎用ウェブ検索エンジン12を検索して、ユーザが与えた検索キーワードに関連する単語を取得する。

0028

ここでクエリ展開を行うのは、上記の関連単語収集処理により収集された単語の数が少ない場合があり、ユーザが与えた検索キーワードがDB選択インデックス格納部203に登録された単語と全くマッチしないケースがあるためである。クエリ展開により検索キーワードに関連する単語を取得した上でDB選択インデックス格納部203に登録された単語とのマッチングを行えば、検索キーワードがDB選択インデックス格納部203に登録された単語と全くマッチしないケースは、かなりの場合、回避できると期待される。

0029

クエリ展開部204でのクエリ展開手法としては、検索キーワードに関連する単語を取得できるものであればどのような手法であっても利用可能である。ここでは、検索キーワードを汎用ウェブ検索エンジン(例えば、AltaVistaやInfoseekなど)12から取得する方法について、さらに詳しく説明する。クエリ展開部204の動作を説明する前に、汎用ウェブ検索エンジン12に検索キーワードを送信した際に汎用ウェブ検索エンジン12から返される検索結果について、図4を用いて説明しておく。

0030

図4に示すように、汎用ウェブ検索エンジン12からの検索結果には、一般的に、送信したクエリに関連する複数のウェブ文書が含まれ、それぞれのウェブ文書に対して、ウェブページのタイトル表題)、アブストラクト(要約)およびURLが記述される。本明細書では、ウェブページのタイトルとアブストラクトを合わせたものをリファレンス文字列と呼ぶ。図4に示すように、汎用ウェブ検索エンジン12から得られる検索結果には、複数のリファレンス文字列が含まれることになる。

0031

図5は、クエリ展開部204の動作を説明するPAD図(問題分析図;problem analysis diagram)である。クエリ展開部204は、ユーザから検索キーワードKa(1≦a≦b)が与えられた場合(ステップ501)、全ての検索キーワードを連結した文字列“K1 K2 … Kb”をクエリとして汎用ウェブ検索エンジン12に送り、検索結果D0を得る(ステップ502)。次に、検索結果D0中に含まれるトピックワードTc(1≦c≦d)を抽出する(ステップ503)。ここでトピックワードとは、DB選択インデックスにおいて重要度があるしきい値(例えば、0.8)以上である関連単語を指す。

0032

次に、ユーザから与えられた検索キーワードと各トピックワードTcとの関連性を調べるために、各トピックワードTcごとに、ステップ505〜510の処理を行なう(ステップ504)。

0033

まず、ステップ505において、“K1 K2 … Kb Tc”をクエリとして汎用ウェブ検索エンジン12に送り、検索結果Dcを得る。次に、検索結果DcにおいてKa(1≦a≦b)のいずれかとTcとをともに含むリファレンス文字列をRce(1≦e≦f)とする(ステップ506)。ここで、fは、検索結果DcにおいてKaとTcが同一のウェブ文書中に同時に出現する回数となる。この回数fがある一定のしきい値以上である場合は、トピックワードTcはユーザが入力した検索キーワードKaに関連するものであるとみなし(ステップ507)、ステップ508〜510の処理を行う。

0034

ステップ508において、まず、リファレンス文字列Rce(1≦e≦f)に出現する全ての単語Xcg(1≦g≦h)の出現回数Ccgをカウントし、それを展開単語記憶部205に記憶する(ステップ509)。また、全てのRce(1≦e≦f)を連結して一つの文字列Ucとし、リファレンス文字列記憶部206に記憶する(ステップ510)。ただし、クエリ“K1 K2 … Kb Tc”により得られた単語Xcg(1≦g≦h)を一つのグループとして扱う。そのため、ユニークなグループID(識別番号)をつけ、そのグループIDごとにXcgとCcgを管理する。したがって展開単語記憶部205には、図6に示すように、グループIDに対応する展開単語と出現回数が記憶される。同様に、リファレンス文字列記憶部206には、各グループIDに対応するUcが記憶される。

0035

次に、エンジン選択部207が、検索エンジンと展開語との適合度を計算する。図8は、エンジン選択部207の動作を示すPAD図である。適合度の計算は、展開単語記憶部206に記憶された各グループGc(1≦c≦d)ごとに行われる(ステップ801)。グループGcの展開語句に対する検索エンジンEiの適合度を計算する場合、まず、Gcに対する展開単語Xcg(1≦g≦h)とその出現回数Ccgを展開単語記憶部206から取得する(ステップ802)。次に、Eiの関連単語Sik(1≦k≦q)とその重要度WikをDB選択インデックス格納部20より取得し(ステップ804)、下記の計算式によりグループGcにおける検索エンジンEiの適合度F(Ei,Gc)を計算する。

0036

0037

ただし、f(x,y)は文字列xとyが等しい場合に1、それ以外の場合は0である関数である。

0038

エンジン選択部207は、グループGc(1≦c≦d)ごとに全ての検索エンジンEi(1≦i≦n)の適合度を計算し(ステップ803)、得点が上位の検索エンジンをグループGcに対する検索エンジンとしてユーザに提示する(ステップ806)。

0039

エンジン選択部207での処理とは独立して、フレーズ生成部208は、ユーザが入力した検索キーワードに関連するトピックを説明するフレーズを作成する。図9は、ここでのフレーズ生成部208の処理を示している。すなわちフレーズ生成部208は、リファレンス文字列記憶部206に記憶された各グループGc(1≦c≦d)ごとにそのグループの内容を説明するフレーズPMcを作成するために、ステップ901〜905を繰り返す(ステップ901)。フレーズPMcは、以下の処理によりリファレンス文字列Ucから抽出される。

0040

まず、Gcにおいて出現回数Ccgがある一定回数以上の展開単語Xcgを展開単語記憶部205から取得し、集合Ycとする(ステップ902)。Ucにおいて、Ycに含まれる単語もしくは前置詞もしくは詞が連続して出現する全ての個所PRr(1≦r≦v)をPMcの候補として抽出し(ステップ904)、各PRrごとに得点を計算する(ステップ905)。得点は、PRr中に含まれる全てのXcgの出現回数Ccgの和によって計算される。この得点が最大であったフレーズをグループGcを説明するフレーズPMcとして選択し、ユーザに提示する(ステップ906)。

0041

例えば、あるグループGに対するリファレンス文字列Uが"Object oriented programming with Python. Home page for Python, an object oriented scripting."であり、展開単語記憶部に記憶されたGに対する展開単語および出現回数が図10に示す通りであったとする。出現回数が3回以上の展開単語が連続している個所をフレーズとして用いるとすると、Uからは"Object oriented programming with Python"と"Python, an object oriented scripting"という二つが候補として抽出される。ここで"with"と"an"の出現回数は3回未満であるが、前置詞と冠詞であるためフレーズの中に含まれることを許される。"Object oriented programming with Python"は関連単語"Object"、"oriented"、"programming"および"Python"の出現回数6,6,9,15を合計し、36となる。同様に"Python,an object oriented scripting"の得点は31となる。したがって、"Object oriented programming with Python"がグループGを説明するフレーズPMとして選択される。

0042

以上、本発明の好ましい実施形態の情報検索装置について説明したが、図2にも示すように、この情報検索装置20は、ハードウェア構成としては、プログラム制御により動作するデータ処理装置21と、情報を記憶する記憶装置22とを備えている。したがって、この情報検索装置20は、データ処理装置21としてのCPU(中央処理装置)及び主記憶装置メモリ)と、記憶装置22としてのハードディスク装置などの外部記憶装置とを有する汎用のコンピュータシステムを用意し、上述した情報検索を実現するための計算機プログラムをその汎用のコンピュータシステムに読み込ませ、そのプログラムを実行させることによっても実現できる。その汎用のコンピュータシステムは、さらに、検索キーワードなどの入力のための入力装置キーボードマウスなど)と、検索結果の表示などのための表示装置(CRTなど)と、インターネット10に接続するための通信インタフェースモデムなど)と、プログラムを記録した記録媒体を読み取るための読み取り装置とを備えている。そして、上述したような情報検索を行うためのプログラムを格納した記録媒体を読み取り装置に装着し、記録媒体からプログラムを読み出してプログラム用の記憶領域に格納し、この格納されたプログラムを中央処理装置が実行することにより、情報検索が実行される。

発明の効果

0043

以上説明したように本発明は、検索エンジンのデータベース内の全てのデータにアクセスできない場合でも、検索エンジンのページそのものや検索エンジンへのリンクを有する他のウェブページを利用してDB選択インデックスを生成するため、ユーザの入力した検索キーワードに適した、ウェブ上にある検索エンジンを提示することが可能であるという効果がある。

0044

また、ここで述べたようなDB選択インデックス作成手法によって収集された単語の数が少ない場合でも、クエリ展開手法を用いて検索キーワードに関連する単語を取得し、ここで得られた単語とDB選択インデックス中の単語のマッチングを行なうことにより、多くの場合適切な検索エンジンを選択することができるようになる。

0045

また、検索キーワードが複数のトピックに関連する可能性がある場合は、関連する可能性があるトピックごとにクエリ展開処理を行い検索エンジンを選択し、なおかつそのトピックを説明するフレーズを生成することにより、検索キーワードが複数トピックに関連する場合でも、トピックごとに適切な検索エンジンをユーザに提示することができるようになる。

図面の簡単な説明

0046

図1本発明に基づく検索結果出力の例を示す図である。
図2本発明の実施の一形態の情報検索装置の構成を示すブロック図である。
図3DB選択インデックスに格納されるデータを説明する図である。
図4汎用ウェブ検索エンジンから返される検索結果の例を示す図である。
図5クエリ展開部の動作を説明するPAD図(問題分析図;problem analysis diagram)である。
図6展開単語記憶部に格納されるデータを説明する図である。
図7リファレンス文字列記憶部に格納されるデータを説明する図である。
図8エンジン選択部の動作を説明するPAD図である。
図9フレーズ生成部の動作を説明するPAD図である。
図10関連単語記憶部に記憶されたデータの例を示す図である。

--

0047

10インターネット
11ウェブ
12汎用ウェブ検索エンジン
20情報検索装置
21データ処理装置
22記憶装置
201関連単語収集部
202インデックス生成部
203 DB選択インデックス格納部
204クエリ展開部
205展開単語記憶部
206リファレンス文字列記憶部
207エンジン選択部
208フレーズ作成部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社日立製作所の「 計算機システム及び文書の分類方法」が 公開されました。( 2021/03/18)

    【課題】文書の分類結果とともに、分類の根拠をユーザに提示する計算機システム及び文書の分類方法を提供する。【解決手段】計算機システムは、文書のデータの入力を受け付け、文書及び文書の要素を構成要素とする非... 詳細

  • 大日本印刷株式会社の「 画像処理装置及び画像検索方法」が 公開されました。( 2021/03/18)

    【課題】適切な画像を用いて顔検索を行い、検索対象人物が写っている画像を精度良く検索する。【解決手段】画像処理装置は、複数のイベントの販売画像を記憶する記憶部と、検索対象人物が写った検索用画像をユーザ端... 詳細

  • 株式会社NTTドコモの「 情報提供システム」が 公開されました。( 2021/03/18)

    【課題】ユーザによって用いられる蓋然性が高いキーワードを精度良く提供する情報提供システムを提供する。【解決手段】情報提供システムは、対象ユーザを含む複数の閲覧者が第1情報源から提供される第1コンテンツ... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ