図面 (/)

技術 文書検索装置及び文書検索方法

出願人 東芝デジタルソリューションズ株式会社株式会社東芝
発明者 永村栄治
出願日 1999年9月21日 (22年4ヶ月経過) 出願番号 1999-266481
公開日 2001年4月6日 (20年10ヶ月経過) 公開番号 2001-092831
状態 拒絶査定
技術分野 文書処理装置 検索装置 機械翻訳 文書処理装置
主要キーワード 確定申告書 対数演算 登録要求コマンド 確定申告 システムブロック 文字インデックス 文書インデックス 登録対象文書
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2001年4月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

本発明は、検索意図を反映し検索漏れの少ない文書検索装置を提供することを目的とする。

解決手段

登録された複数の文書から指定された文書を検索する文書検索装置において、フルテキスト検索を行い検索結果を出力するフルテキスト検索手段と、概念検索を行い検索結果を出力する概念検索手段と、前記フルテキスト検索手段から出力された検索結果と前記概念検索手段から出力された検索結果とを合併して最終的な検索結果を出力する検索結果合併手段とを設けたことを特徴とする文書検索装置である。

概要

背景

近年電子ファイリングシステム等のアプリケーションにおいて、登録された文書検索するためのエンジンである文書検索装置としてフルテキスト検索(全文検索)を行うフルテキスト検索装置概念検索を行う概念検索装置が実用化されている。

フルテキスト検索装置は、登録する文書に含まれる文字列をインデックス化しておき、検索の際に検索条件として指定されたテキスト(文字列)を含む文書を検索するものである。一方、概念検索は、登録する文書からキーワード文脈読み取り、これらに適宜重み付けをしておき、検索時に指定された自然言語による質問文形態素解析して得られた文字列(キーワード)に基づいて、文書を検索するものである。

概要

本発明は、検索意図を反映し検索漏れの少ない文書検索装置を提供することを目的とする。

登録された複数の文書から指定された文書を検索する文書検索装置において、フルテキスト検索を行い検索結果を出力するフルテキスト検索手段と、概念検索を行い検索結果を出力する概念検索手段と、前記フルテキスト検索手段から出力された検索結果と前記概念検索手段から出力された検索結果とを合併して最終的な検索結果を出力する検索結果合併手段とを設けたことを特徴とする文書検索装置である。

目的

フルテキスト検索では、指定されたテキストを含む文書を確実に検索することができるが、その反面、探したい文書と全く異なる文書を検索してしまうという欠点があった。また、概念検索装置では、検索対象である文書が検索されないという検索漏れが発生してしまう可能性が高いという欠点があった。本発明は、これら従来の問題点を解決するためになされたもので、検索意図を反映し検索漏れの少ない文書検索装置を提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
4件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

登録された複数の文書から指定された文書を検索する文書検索装置において、フルテキスト検索を行い検索結果を出力するフルテキスト検索手段と、概念検索を行い検索結果を出力する概念検索手段と、前記フルテキスト検索手段から出力された検索結果と前記概念検索手段から出力された検索結果とを合併して最終的な検索結果を出力する検索結果合併手段とを具備したことを特徴とする文書検索装置。

請求項2

前記フルテキスト検索手段は指定されたテキストを含む検索式に基づいて検索して文書IDとそのスコア値とを検索結果とし出力し、前記概念検索手段は指定された質問文に基づいて検索して文書IDとそのスコア値とを検索結果として出力し、前記検索結果合併手段は前記フルテキスト検索手段の検索結果と前記概念検索手段の検索結果とに基づいて、共通する文書IDとこの共通する文書IDのスコア値の演算結果とを最終的な検索結果として出力することを特徴とする請求項1記載の文書検索装置。

請求項3

前記検索結果合併手段による演算が掛け算であることを特徴とする請求項2記載の文書検索装置。

請求項4

前記フルテキスト検索手段は指定されたテキストを含む検索式に基づいて検索して文書IDとそのスコア値とを検索結果とし出力し、前記概念検索手段は指定された質問文に基づいて検索して文書IDとそのスコア値とを検索結果として出力し、前記検索結果合併手段は前記概念検索手段から出力された検索結果の中から前記フルテキスト検索手段が出力した文書IDと一致する文書IDとそのスコア値とを最終的な検索結果として出力することを特徴とする請求項1記載の文書検索装置。

請求項5

前記フルテキスト検索手段は指定されたテキストを含む検索式に基づいて検索して文書IDとそのスコア値とを検索結果とし出力し、前記概念検索手段は指定された質問文に基づいて検索して文書IDとそのスコア値とを検索結果として出力し、前記検索結果合併手段は前記フルテキスト検索手段から出力された検索結果の中から前記概念検索手段が出力した文書IDと一致する文書IDとそのスコア値とを最終的な検索結果として出力することを特徴とする請求項1記載の文書検索装置。

請求項6

登録された複数の文書から指定された文書を検索する文書検索方法において、フルテキスト検索を行い検索結果を出力するとともに、概念検索を行い検索結果を出力し、前記フルテキスト検索により出力された検索結果と前記概念検索により出力された検索結果とを合併して最終的な検索結果を出力することを特徴とする文書検索方法。

請求項7

登録された複数の文書から指定された文書を検索する文書検索方法において、指定されたテキストを含む検索式に基づいてフルテキスト検索をして文書IDとそのスコア値とを検索結果とし出力し、指定された質問文に基づいて概念検索をして文書IDとそのスコア値とを検索結果として出力し、前記フルテキスト検索の検索結果と前記概念検索の検索結果とに基づいて、共通する文書IDとこの共通する文書IDのスコア値の演算結果とを最終的な検索結果として出力することを特徴とする請求項6記載の文書検索方法。

請求項8

前記演算がかけ算であることを特徴とする請求項7記載の文書検索方法。

請求項9

登録された複数の文書から指定された文書を検索する文書検索方法において、指定されたテキストを含む検索式に基づいてフルテキスト検索をして文書IDとそのスコア値とを検索結果とし出力し、指定された質問文に基づいて概念検索をして文書IDとそのスコア値とを検索結果として出力し、前記概念検索の検索結果の中から前記フルテキスト検索の検索結果の文書IDと一致する文書IDとそのスコア値とを最終的な検索結果として出力することを特徴とする請求項6記載の文書検索方法。

請求項10

登録された複数の文書から指定された文書を検索する文書検索方法において、指定されたテキストを含む検索式に基づいてフルテキスト検索をして文書IDとそのスコア値とを検索結果とし出力し、指定された質問文に基づいて概念検索をして文書IDとそのスコア値とを検索結果として出力し、前記フルテキスト検索の検索結果の中から前記概念検索の検索結果の文書IDと一致する文書IDとそのスコア値とを最終的な検索結果として出力することを特徴とする請求項6記載の文書検索方法。

技術分野

0001

本発明は、登録された文書検索する文書検索装置の改良に関する。

背景技術

0002

近年電子ファイリングシステム等のアプリケーションにおいて、登録された文書を検索するためのエンジンである文書検索装置としてフルテキスト検索(全文検索)を行うフルテキスト検索装置概念検索を行う概念検索装置が実用化されている。

0003

フルテキスト検索装置は、登録する文書に含まれる文字列をインデックス化しておき、検索の際に検索条件として指定されたテキスト(文字列)を含む文書を検索するものである。一方、概念検索は、登録する文書からキーワード文脈読み取り、これらに適宜重み付けをしておき、検索時に指定された自然言語による質問文形態素解析して得られた文字列(キーワード)に基づいて、文書を検索するものである。

発明が解決しようとする課題

0004

フルテキスト検索では、指定されたテキストを含む文書を確実に検索することができるが、その反面、探したい文書と全く異なる文書を検索してしまうという欠点があった。また、概念検索装置では、検索対象である文書が検索されないという検索漏れが発生してしまう可能性が高いという欠点があった。本発明は、これら従来の問題点を解決するためになされたもので、検索意図を反映し検索漏れの少ない文書検索装置を提供することを目的とする。

課題を解決するための手段

0005

本発明は、登録された複数の文書から指定された文書を検索する文書検索装置において、フルテキスト検索を行い検索結果を出力するフルテキスト検索手段と、概念検索を行い検索結果を出力する概念検索手段と、前記フルテキスト検索手段から出力された検索結果と前記概念検索手段から出力された検索結果とを合併して最終的な検索結果を出力する検索結果合併手段とを設けたことを特徴とする。

0006

このような構成によれば、検索意図を反映し検索漏れの少ない文書検索が実現できる。また、本発明は、指定されたテキストを含む検索式に基づいて検索して文書IDとそのスコア値とを検索結果とし出力するフルテキスト検索手段と、指定された質問文に基づいて検索して文書IDとそのスコア値とを検索結果として出力する概念検索手段と、フルテキスト検索手段の検索結果と概念検索手段の検索結果とに基づいて、共通する文書IDとこの共通する文書IDのスコア値の演算結果とを最終的な検索結果として出力する検索結果合併手段とを設けたことを特徴とする。

0007

このような構成によれば、検索意図を反映し検索漏れの少ない文書検索が実現できる。更に、本発明は、指定されたテキストを含む検索式に基づいて検索して文書IDとそのスコア値とを検索結果とし出力するフルテキスト検索手段と、指定された質問文に基づいて検索して文書IDとそのスコア値とを検索結果として出力する概念検索手段と、前記概念検索手段から出力された検索結果の中から前記フルテキスト検索手段が出力した文書IDと一致する文書IDとそのスコア値とを最終的な検索結果として出力する検索結果合併手段とを設けたことを特徴とする。

0008

このような構成によれば、フルテキスト検索の検索結果の中から、概念検索により検索結果を絞り込むことにより、指定されたテキストを含む検索対象から質問文に近い文書を検索することができる。

0009

更に、本発明は、指定されたテキストを含む検索式に基づいて検索して文書IDとそのスコア値とを検索結果とし出力するフルテキスト検索手段と、指定された質問文に基づいて検索して文書IDとそのスコア値とを検索結果として出力する概念検索手段と、フルテキスト検索手段から出力された検索結果の中から概念検索手段が出力した文書IDと一致する文書IDとそのスコア値とを最終的な検索結果として出力する検索結果合併手段とを設けたことを特徴とする。

0010

このような構成によれば、概念検索の検索結果の中から、フルテキスト検索により検索結果を絞り込むことにより、大まかに概念検索をして得られた検索結果の中から指定されたテキストを含む文書を確実に検索することができる。

発明を実施するための最良の形態

0011

以下、図面を参照して本発明の第1の実施形態について説明する。図1は、本発明の実施形態の構成を示すシステムブロック図である。符号20で示すのは、文書検索を行うエンジンとしての文書検索装置である。この文書検索装置20は、コンピュータプログラムにより実現されるもので、パーソナルコンピュータ等にインストールして実行することにより動作するものである。符号10で示すものは、文書検索装置20を使用して文書検索システムを実現するためのアプリケーションプログラムである。このアプリケーションプログラム10は、パーソナルコンピュータ等にインストールして実行することにより動作するものである。アプリケーションプログラム10は、ユーザーに対して文書検索システムに検索対象である文書の登録するための文書登録処理や、文書検索のための検索式又は検索文の設定、検索結果の表示など、主に文書検索システムのユーザーインタフェースを実現するものである。

0012

アプリケーションプログラム10による文書登録処理は、登録対象の文書のイメージを図示していないスキャナにより入力し、その文書イメージを文書検索装置20で発番された文書識別番号(以下、文書IDと呼ぶ)と関連づけて磁気ディスク装置などで構成されるファイル装置11に記録保存するものである。アプリケーションプログラム10は、文書IDに基づいて、対応する文書イメージをファイル装置11から読み出して、図示していない表示装置に表示したり、図示していない印刷装置によりハードコピーしたりする。

0013

文書検索装置20は、登録処理部21、検索処理部22、フルテキスト検索部23、概念検索部24とから構成されている。登録処理部21は、アプリケーションプログラム10から文書登録の指示を受けると、その指示と共に受領する登録対象である文書の文書イメージから文字イメージ切り出して文字認識テキスト化すると共に、文書IDを発番する。この登録処理部21で発番された文書IDは、アプリケーションプログラム10に通知される。更に登録処理部21では、文書IDと文字認識をして得た登録対象の文書のテキストをフルテキスト検索部23と概念検索部24とに転送する。

0014

フルテキスト検索部23は、フルテキスト検索の対象となる文書のインデックスを作成する機能と指定されたテキストに基づいてインデックスを参照して指定されたテキストを含む文書を検索し検索結果として文書IDとスコア値を得る機能を持つ。符号25で示すものは、フルテキスト検索用のインデックス登録部であり、磁気ディスク装置等のファイル装置にインデックスデータと全登録文書文書サイズ(文書の文字数)とを記録し登録したものである。

0015

概念検索部24は、概念検索の対象となる文書のインデックスを作成する機能と指定された概念検索の質問文に基づいて対象となる文書を検索し、検索結果として文書IDとスコア値を得る機能を持つ。符号26で示すものは、概念検索用のインデックス登録部であり、磁気ディスク装置等のファイル装置にインデックスデータを記録し登録したものである。

0016

図2はフルテキスト検索用のインデックス登録部25に登録されたインデックスの構造を示す図である。フルテキスト検索用のインデックスは、登録対象の文書のテキストから抽出した文字列が、どの文書(文書ID)のどの位置(文書の何文字目)に存在しているかを示すデータを登録したものである。

0017

インデックスデータは、抽出した文字列毎に作成される。各文字列毎に作成されたインデックスデータは、文字列部200、ID部201と位置情報部202とから構成される複数の文書インデックス部203とから構成されている。 文字列部200は、文字列を登録する部分である。文書インデックス部203は、文字列部200に登録された文字列が出現する文書IDを登録するID部201と、文字列部200に登録された文字列がID部201に登録された文書IDを持つ文書の先頭から何文字目に出現するかを示す位置データを登録する位置情報部202とから構成されている。図2では、文字列「ABC」が文書ID「5」の文書の10文字目と、文書ID「5」の文書の418文字目と、‥‥‥‥文書ID「8」の文書の58文字目に出現していることを登録している例が図示されている。

0018

図3は概念検索用のインデックス登録部26に登録されたインデックスの構造を示す図である。概念検索用のインデックスは、登録対象の文書のテキストを形態素解析して単語に切り分け、この切り分けた各単語の文書での発生頻度カウントして登録したものである。

0019

インデックスデータは、切り分けた単語毎に作成される。各単語毎に作成されたインデックスデータは、文字列部300、ID部301と頻度情報部302とから構成される複数の文書インデックス部303とから構成されている。文字列部300は、単語を登録する部分である。文書インデックス部303は、文字列部300に登録された単語が出現する文書IDを登録するID部301と、文字列部300に登録された単語がID部301に登録された文書IDを持つ文書に何個出現したかを示す頻度を示す頻度情報を登録する頻度情報部302とから構成されている。

0020

図3では、単語(文字列)「ABC」が文書ID「7」の文書に23個、文書ID「10」の文書に5個、‥‥‥‥文書ID「48」の文書に3個、それぞれ出現していることを登録している例が図示されている。

0021

次にアプリケーションプログラム10からの要求に基づいて文書検索装置20が新規に検索対象の文書を登録する動作を図4フローチャートを用いて説明する。

0022

まず、文書検索装置20の登録処理部21は、アプリケーションプログラム10から新規に文書の登録要求コマンドを受信する(ステップS40)。この際、アプリケーションプログラム10からコマンドと共にその登録する文書のイメージデータを登録処理部21に転送する。登録処理部21は、受領した文書のイメージから文字イメージを切り出して文字認識することにより登録文書をテキスト化する(ステップS41)。次に登録処理部21は、登録対象文書に文書IDを発番する(ステップS42)。

0023

次に登録処理部21は、発番した文書IDと共に登録文書のテキストをフルテキスト検索部23に渡し、フルテキスト検索部23にフルテキスト検索用のインデックスの作成を指示する。フルテキスト検索部23では、登録処理部21から受け取ったテキストから文字列を抽出し、この抽出した文字列がその文書の先頭から何文字目に位置するかを解析して、図2に示したインデックスデータを作成してフルテキスト検索用のインデックス登録部25に登録する(ステップS43)。同様に登録処理部21は、発番した文書IDと共に登録文書のテキストを概念検索部24に渡し、概念検索部24に概念検索用のインデックスの作成を指示する。概念検索部24では、登録処理部21から受け取ったテキストを形態素解析して単語に区切り、この区切った単語がその文書に何個出現しているかをカウントして、図3に示したインデックスデータを作成して概念検索用のインデックス登録部26に登録する(ステップS44)。最後に登録処理部21は、発番した文書IDをアプリケーションプログラム10に通知する(ステップS45)。

0024

続いて、アプリケーションプログラム10からの要求に基づいた文書検索装置20の検索動作図5のフローチャートを用いて説明する。まずアプリケーションプログラム10がフルテキスト検索のための検索式と概念検索のための検索質問文とを伴なって、文書検索装置20の検索処理部22に文書検索の要求をする(ステップS50)。この文書検索の要求は、フルテキスト検索を優先するものであるか、或いは概念検索を優先するものであるかを指定しているものとする。以下の説明では、税金確定申告書書き方が記載されている文書を検索する場合を例に説明する。フルテキスト検索のための検索式として、文字列「税金」と文字列「確定申告」とを用いた論理積演算を指定されているものとする。同様に概念検索のための検索質問文は、「確定申告書の記載方法」と指定されているものとする。

0025

次に、検索処理部22は、検索要求がフルテキスト検索を優先するものであるかどうかを判断する(ステップS51)。検索要求がフルテキスト検索を優先するとの指示である場合には、ステップS52へ進む。

0026

検索処理部22は、文書検索の要求に伴ってアプリケーションプログラム10から転送された検索式をフルテキスト検索部23に転送してフルテキスト検索を指示する(ステップS52)。この指示を受けたフルテキスト検索部23は、検索処理部22から転送を受けた検索式を解析してフルテキスト検索を実行する(ステップS52)。

0027

フルテキスト検索部23では、検索式で指定された文字列「税金」と文字列「確定申告」の双方が出現する文書をインデックス登録部25に登録されているインデックスデータを参照して検索し、該当する文書IDとスコア値を求める。

0028

検索方法の具体例としては、文字列部200に文字列「税金」が登録されているインデックスデータを探し出し、その文字列部200に関連付けられている全ての文字インデックス部203を参照して、文字列「税金」が出現する文書IDと出現頻度個数)をカウントする。同様に文字列「確定申告」が登録されているインデックスデータを探し出し、その文字列部200に関連付けられている全ての文字インデックス部203を参照して、文字列「確定申告」が出現する文書IDと出現頻度(個数)をカウントする。

0029

次にこれら文字列「税金」が出現する文書と文字列「確定申告」が出現する文書における各文書の文書サイズをインデックス登録部25から読み出す。この読み出した各文書の文書サイズと上述のようにカウントした各文字列毎の各文書における出現頻度とに基づいて、文字列「税金」及び文字列「確定申告」のそれぞれが出現する各文書に対するスコア値を次の式に基づいて計算する。即ち、「文字列毎のスコア値=出現頻度/文書サイズ*文字列長*1000」である。

0030

図6には文字列「税金」が出現する文書IDとその出現頻度及びスコア値とを図示した。スコア値の一例として文字列「税金」の文書IDが118の文書に対するスコア値は、出現頻度が「70」、文書サイズが「1500」、文字列「税金」の文字列長が「2」であることから、次のようにな演算式で求められる。即ち、「70/1500*2*1000=93.3」である。

0031

また、同様に図7には文字列「確定申告」が出現する文書IDとその出現頻度及びスコア値とを図示した。スコア値の一例として文字列「確定申告」の文書IDが253の文書に対するスコア値は、出現頻度が「30」、文書サイズが「1500」、文字列「確定申告」の文字列長が「4」であることから、次のようにな計算式で求められる。即ち、「30/1500*4*1000=80.0」である。

0032

これら計算結果に基づいて、文字列「税金」が出現する文書IDと文字列「確定申告」が出現する文書IDの中から、共通に出現する文書IDを抽出し、そのスコア値の足し算をする。ここで、共通に出現する文書IDを抽出するのは、上述の通りこのフルテキスト検索の検索式として、2つの文字列「税金」と「確定申告」との論理積演算が指定されているからである。この足し算の結果、スコア値の多い順に文書IDを図示したものが図8である。この図8に図示した文書IDとそのスコア値がフルテキスト検索の結果となる。

0033

フルテキスト検索部23は、この検索結果を検索処理部22に転送する。検索処理部22は、フルテキスト検索部23から転送を受けた検索結果を自身の内部に保存する(ステップS53)。続いて、検索処理部22は、上述した検索質問文を伴って概念検索部24に概念検索を指示する(ステップS54)。

0034

概念検索部24では、指定された検索質問文「確定申告書の記載方法」を形態素解析して、単語「確定」、「申告書」、「記載」、「方法」を抽出する。概念検索部24はこの解析で得られた単語に基づいてインデックス登録部26に登録されているインデックスデータを参照して検索し、該当する文書IDとスコア値を求める(ステップS54)。

0035

検索方法の具体例としては、文字列部300に単語「確定」、「申告書」、「記載」、「方法」が登録されているインデックスデータを探し出し、その文字列部300に関連づけられている全ての文字インデックス部303を参照して、ID部301から各単語「確定」、「申告書」、「記載」、「方法」が出現する文書の文書IDを抽出し、頻度情報部302から各単語「確定」、「申告書」、「記載」、「方法」が出現する文書における出現頻度を抽出する。

0036

この抽出した各単語の各文書における出現頻度と各単語の重みとに基づいて、各単語の各文書に対するスコア値を次の演算式にて求める。即ち、「スコア値=出現頻度*単語の重み」である。ここで、「単語の重み」とは、インデックス登録部26に登録されている文書の数とその単語が出現する文書の数とに基づいて、次の演算式にて求められる。即ち、「単語の重み=log(全文書数/その単語が出現する文書数)(ただし、この対数演算の底は2)」である。例えば図9に示すように単語「確定」の単語の重みは、全文書数が1000であるとすると、log(1000/3)(ただし底は2)の演算式で求められる。以下同様に単語「確定」、「申告書」、「記載」、「方法」の単語の重みを演算した結果を図9に図示した。

0037

図10には、上述の演算式に基づいて求めた各単語「確定」、「申告書」、「記載」、「方法」のその単語が出現する各文書に対するスコア値を図示した。例えば、単語「確定」における文書ID「631」の文書に対するスコア値は、出現頻度(単語頻度)が「10」、単語の重みが「8.38」であるから、「10*8.38」の演算で求められ、その値は「83.8」となる。

0038

次に図10に図示した各文書IDに対する各単語毎のスコア値の足し算を行う。例えば、文書ID「253」に対する各単語毎のスコア値の足し算は、「229.3+247.8=477.1」となる。同様に文書ID「680」に対する各単語毎のスコア値の足し算は、「109+99.4+40.1+179.4=427.8」となる。この足し算の結果を図11に図示した。概念検索部24は、この足し算により求めた文書IDとそのスコア値を概念検索の結果として、検索処理部22に転送する。

0039

検索処理部22では、概念検索部24から転送を受けた概念検索の結果とフルテキスト検索部23から転送を受け保存したフルテキスト検索の結果とを合併して最終的な検索結果を得る(ステップS55)。この合併の方法として、2通りある。

0040

第1の合併方法は、フルテキスト検索の結果と概念検索の結果とに共通する文書IDを抽出し、この文書IDに対するフルテキスト検索のスコア値と概念検索のスコア値とに基づいて、次の演算式にて合算した値が最終的なその文書IDに対するスコア値となる。即ち、「合算したスコア値=フルテキスト検索のスコア値*概念検索のスコア値/フルテキスト検索における最大スコア値=合算したスコア値」である。

0041

図12に、この第1の合併方法で得られた最終的な検索結果である、フルテキスト検索の結果と概念検索の結果とに共通する文書IDの文書に対する合算したスコア値の結果を図示する。例えば、文書ID「631」に対する合算したスコア値は、フルテキスト検索のスコア値「41」と概念検索の結果のスコア値「409」とフルテキスト検索結果における最大スコア値(ここでは、文書ID「118」に対するフルテキスト検索結果のスコア値である「115」)とに基づいて求められ、その値は「145.8」となる。

0042

第2の合併方法は、アプリケーションプログラム10からの検索要求の際にフルテキスト検索を優先するとの指定がされていたことに基づいて、概念検索の結果として得られた文書IDの中から、フルテキスト検索の結果として得られた文書IDと一致する文書IDとそのスコア値とを抽出し、これを最終的な検索結果とする方法である。図13に、この第2の合併方法で得られた最終的な検索結果である文書IDとそのスコア値とを図示した。

0043

最後に検索処理部22は、ステップS55で得られた合併後の検索結果を最終的な検索結果としてアプリケーションプログラム10に返却する(ステップS56)。

0044

ステップS51において、検索要求が概念検索を優先するとの指示である場合には、ステップS57へ進む。ステップS57では、ステップS54と同様に概念検索部24が検索処理部22から指定された検索質問文「確定申告書の記載方法」に基づいて概念検索を実行して、その結果を検索処理部22に転送する。検索処理部22は、概念検索部24から転送を受けた検索結果を自身の内部に保存する(ステップS58)。

0045

続いて、ステップS59において、ステップS52と同様にフルテキスト検索部23が検索処理部22から指定を受けた検索式に基づいてフルテキスト検索を実行して、その結果を検索処理部22に転送する(ステップS59)。ステップS60では、検索処理部22がフルテキスト検索部23から転送を受けたフルテキスト検索結果と概念検索部24から転送を受け保存した概念検索の結果とを合併して最終的な検索結果を得る(ステップS60)。この合併の方法として、2通りある。

0046

第1の合併方法は、ステップS55で説明した方法と同一であり、説明を省略する。また、第2の合併方法は、アプリケーションプログラム10からの検索要求の際に概念検索を優先するとの指定がされていたことに基づいて、フルテキスト検索の結果として得られた文書IDの中から、概念検索の結果として得られた文書IDと一致する文書IDとそのスコア値とを抽出し、これを最終的な検索結果とする方法である。図14に、この第2の合併方法で得られた最終的な検索結果である文書IDとそのスコア値とを図示した。

0047

最後に検索処理部22は、ステップS55で得られた合併後の検索結果を最終的な検索結果としてアプリケーションプログラム10に返却する(ステップS56)。

0048

アプリケーションプログラム10は、検索結果として検索処理部22から返却された検索結果をスコア値に基づいて文書IDを並び替えて表示する。以上の説明では、フルテキスト検索と概念検索のどちらを優先して検索するかをアプリケーションプログラム10からの指示に基づいて選択させる場合の動作を説明した。しかし、検索装置20はその組み込まれるアプリケーションプログラム10の仕様などに応じてどちらか一方の検索を優先して検索するものであってもよい。

発明の効果

0049

以上説明した通り、本発明によれば、検索意図を反映し検索漏れの少ない文書検索が実現できる。

図面の簡単な説明

0050

図1本発明の実施形態に関わるシステム概略構成を示す図である。
図2フルテキスト検索用のインデックス登録部25に登録されたインデックスの構造を示す図である。
図3概念検索用のインデックス登録部26に登録されたインデックスの構造を示す図である。
図4文書検索装置20が新規に検索対象の文書を登録する動作を説明するフローチャート図である。
図5文書検索装置20の検索動作を説明するためのフローチャート図である。
図6フルテキスト検索において、文字列「税金」が出現する文書ID、この文書IDの文書サイズ、この文書IDの文書における文字列「税金」の出現頻度、及び文字列「税金」のこの文書IDの文書に対するスコア値とを示す図である。
図7フルテキスト検索において、文字列「確定申告」が出現する文書ID、この文書IDの文書サイズ、この文書IDの文書における文字列「確定申告」の出現頻度、及び文字列「確定申告」のこの文書IDの文書に対するスコア値とを示す図である。
図8フルテキスト検索の結果を示す図である。
図9概念検索における単語「確定」、「申告書」、「記載」及び「方法」の単語の重みを示す図である。
図10概念検索において、各単語「確定」、「申告書」、「記載」及び「方法」に対して抽出した文書IDとその文書IDに対する単語頻度及びスコア値とを示す図である。
図11概念検索の結果、得られた文書IDとそのスコア値とを示す図である。
図12図5のステップS55における第1の合併方法で得られた最終的な検索結果である文書IDとそのスコア値とを示す図である。
図13図5のステップS55における第2の合併方法で得られた最終的な検索結果である文書IDとそのスコア値とを示す図である。
図14図5のステップS60における第2の合併方法で得られた最終的な検索結果である文書IDとそのスコア値とを示す図である。

--

0051

10‥‥アプリケーションプログラム
20‥‥文書検索装置
21‥‥登録処理部
22‥‥索処理部
23‥‥フルテキスト検索部
24‥‥概念検索部
25‥‥フルテキスト検索用のインデックス登録部
26‥‥概念検索用のインデックス登録部
200‥‥文字列部
201‥‥ID部
202‥‥位置情報部
203‥‥文書インデックス部
300‥‥文字列部
301‥‥ID部
302‥‥頻度情報部
303‥‥文書インデックス部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社日立製作所の「 検索支援システム、及び検索支援方法」が 公開されました。( 2021/09/30)

    【課題】ユーザによる情報検索を容易にする検索支援システム及び検索支援方法を提供する。【解決手段】検索支援システム1は、1又は複数の項目と、その項目の内容を示す情報とを対応づけた検索対象情報を作成するデ... 詳細

  • 富士ゼロックス株式会社の「 情報処理装置及びプログラム」が 公開されました。( 2021/09/30)

    【課題】文書上にロゴマーク類以外の文字を用いても文書の形式の同一性を判定できるようにする。【解決手段】情報処理装置1は、読み取った帳票の形式が初めての場合、帳票に対して実施したキーバリュー抽出処理によ... 詳細

  • 株式会社日立製作所の「 画像取得装置及び画像取得方法」が 公開されました。( 2021/09/30)

    【課題】パンチアウト先の運用負荷を低減しつつ、認証が必要なWebページからも画像を収集して商品と商品画像との紐づけ精度を向上させる。【解決手段】画像取得装置は、商品を特定する商品特定情報と、商品につい... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ