図面 (/)

技術 文書検索方法および文書検索装置

出願人 Sky株式会社
発明者 井上佳紀
出願日 2006年5月24日 (13年3ヶ月経過) 出願番号 2006-143604
公開日 2007年12月6日 (11年9ヶ月経過) 公開番号 2007-316788
状態 特許登録済
技術分野 検索装置
主要キーワード 田んぼ 検索文章 一部一致 アンド検索 文書出力処理 カラム毎 カラム数 検索ターム
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2007年12月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

必要なメモリ量を抑えつつキーワード漏れなく抽出することができ、全文検索高速で漏れなく処理することができる文書検索方法および文書検索装置を提供せんとする。

解決手段

文書データをIDを付して文書データ記憶部11aに記憶する文書記憶処理部10aと、文書データからキーワードを切り出して抽出するキーワード抽出部10bと、キーワードをキーワード記憶テーブル11bの所定数レコードにそれぞれ一文字づつずらして格納するキーワード記憶処理部10cと、文字列IDと文書IDとを関連付けて記憶する関連ID記憶処理部10dと、検索語記憶処理部10eと、検索語記憶テーブルの各レコードの文字列と合致した文字列IDを抽出する文字列ID抽出部10fと、文書ID特定部10gと、特定された同一文書IDの数が当該検索語のレコード数以上の場合にヒットしたと判定するヒット判定部10hと、文書出力処理部10iとを備えた。

概要

背景

この種の文書検索技術としては、キーワードを抽出する対象文書中のテキスト形態素解析する解析手段と、その解析手段による解析の中間結果と、最終的な結果を記憶する解析結果記憶手段と、キーワードを決定するための条件を記憶する条件記憶手段と、解析手段により得られた解析の中間結果および最終結果から条件記憶手段の保持する条件を満たすものをキーワードとして抽出するキーワード抽出手段とを備えたキーワード抽出装置が提案されている(例えば、特許文献1参照。)。

このようなキーワード抽出装置によれば、従来の技術では、キーワードの抽出において制限が多く、検索に有用なキーワードを漏れなく抽出することが困難であったのに対し、検索式に指定される可能性のあるキーワードを登録時に漏れなく抽出することができるようになり、全文検索も可能になるといったメリットがある。

しかしながら、このように可能性のあるキーワードを漏れなく抽出するためには単語辞書文法辞書などの大規模なデータが必要であるとともに、システムを動作させるのに必要なメモリ量が増大すると共に、処理速度が遅くなる。これはキーワードの登録時のみならず、検索時にも同様の問題が生じることとなる。

これに対し、検索時の高速化を図ったものとして、検索対象文書中の文字列が出現する位置を対応づけるインデックステーブルを生成し、それも基に検索タームを含む文書を検索する全文検索方式が提案されている(非特許文献1参照。)。これによれば、多くの可能性のあるキーワードを予め辞書等を用いて抽出、登録する処理が省ける。しかしながら、これは検索対象文書中の文字すべての位置を予め登録するものであり、重複するキーワードもすべて別個のものとして登録されることから分かるように必要なメモリ量が多くなり、効率的でない。

特開平9−44522号公報
株式会社日立製作所、高速全文検索エンジン「Bibliotheca2 TextSearch」、[online]、HITACHIホームComputer & Network System Site Global Sites of related products、[平成18年4月5日検索]、インターネット(URL:http://www.hitachi.co.jp/Prod/comp/soft1/textsearch/product/component/bib2/ngram.html)

概要

必要なメモリ量を抑えつつキーワードを漏れなく抽出することができ、全文検索も高速で漏れなく処理することができる文書検索方法および文書検索装置を提供せんとする。文書データをIDを付して文書データ記憶部11aに記憶する文書記憶処理部10aと、文書データからキーワードを切り出して抽出するキーワード抽出部10bと、キーワードをキーワード記憶テーブル11bの所定数レコードにそれぞれ一文字づつずらして格納するキーワード記憶処理部10cと、文字列IDと文書IDとを関連付けて記憶する関連ID記憶処理部10dと、検索語記憶処理部10eと、検索語記憶テーブルの各レコードの文字列と合致した文字列IDを抽出する文字列ID抽出部10fと、文書ID特定部10gと、特定された同一文書IDの数が当該検索語のレコード数以上の場合にヒットしたと判定するヒット判定部10hと、文書出力処理部10iとを備えた。

目的

そこで、本発明が前述の状況に鑑み、解決しようとするところは、必要なメモリ量を抑えつつキーワードを漏れなく抽出することができ、全文検索も高速で漏れなく処理することができる文書検索方法および文書検索装置を提供する点にある。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

コンピュータからなる文書検索装置が、入力された検索対象となる文書データを、IDを付して文書データ記憶部に記憶する手順と、前記文データ記憶部に記憶される文書データから、複数の連続した文字列からなるキーワード切り出して抽出する手順と、抽出した各キーワードを、一文字づつ格納される一定数カラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する手順と、入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列のIDを抽出する手順と、抽出した文字列のIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する手順と、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものとして出力する手順と、を備えていることを特徴とする文書検索方法

請求項2

前記キーワード記憶テーブルに格納される各キーワードのレコード数、および前記検索語記憶テーブルに格納される各検索語のレコード数が、それぞれ各キーワードの文字数、各検索語の文字数とされる請求項1記載の文書検索方法。

請求項3

各キーワードをレコードに格納する際、および各検索語をレコードに格納する際に、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードをそれぞれ作成してなる請求項1又は2記載の文書検索方法。

請求項4

前記キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数を5〜9に設定してなる請求項1〜3の何れか1項に記載の文書検索方法。

請求項5

コンピュータからなる文書検索装置であって、文書データを入力する文書入力手段と、前記文書入力手段により入力された検索対象となる文書データをIDを付して記憶する文書記憶手段と、前記文書記憶手段に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出するキーワード抽出手段と、前記キーワード抽出手段により抽出された各キーワードを、一文字づつ格納される一定数のカラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶手段と、前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する関連ID記憶手段と、検索語を入力する検索語入力手段と、前記検索語入力手段により入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶手段と、検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列IDを抽出する文字列抽出手段と、前記文字列抽出手段により抽出されたIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する文書特定手段と、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものと判定するヒット判定手段と、前記ヒット判定手段により判定された文書を出力する文書出力手段と、よりなることを特徴とする文書検索装置。

請求項6

キーワード記憶手段によりキーワード記憶テーブルに格納される各キーワードのレコード数、および検索語記憶手段により検索語記憶テーブルに格納される各検索語のレコード数を、それぞれ各キーワードの文字数、各検索語の文字数としてなる請求項5記載の文書検索装置。

請求項7

キーワード記憶手段により各キーワードをレコードに格納する際、および検索語記憶手段により各検索語をレコードに格納する際に、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードをそれぞれ作成してなる請求項5又は6記載の文書検索装置。

請求項8

前記キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数を5〜9に設定してなる請求項5〜7の何れか1項に記載の文書検索装置。

技術分野

0001

本発明は、コンテンツに関連する検索対象文書キーワードを付けて保存し、そのキーワードに合致する検索語の入力によって対応する文書、コンテンツを検索する技術に係り、とくに文書の全文検索に好適な文書検索技術に関する。

背景技術

0002

この種の文書検索技術としては、キーワードを抽出する対象文書中のテキスト形態素解析する解析手段と、その解析手段による解析の中間結果と、最終的な結果を記憶する解析結果記憶手段と、キーワードを決定するための条件を記憶する条件記憶手段と、解析手段により得られた解析の中間結果および最終結果から条件記憶手段の保持する条件を満たすものをキーワードとして抽出するキーワード抽出手段とを備えたキーワード抽出装置が提案されている(例えば、特許文献1参照。)。

0003

このようなキーワード抽出装置によれば、従来の技術では、キーワードの抽出において制限が多く、検索に有用なキーワードを漏れなく抽出することが困難であったのに対し、検索式に指定される可能性のあるキーワードを登録時に漏れなく抽出することができるようになり、全文検索も可能になるといったメリットがある。

0004

しかしながら、このように可能性のあるキーワードを漏れなく抽出するためには単語辞書文法辞書などの大規模なデータが必要であるとともに、システムを動作させるのに必要なメモリ量が増大すると共に、処理速度が遅くなる。これはキーワードの登録時のみならず、検索時にも同様の問題が生じることとなる。

0005

これに対し、検索時の高速化を図ったものとして、検索対象の文書中の文字列が出現する位置を対応づけるインデックステーブルを生成し、それも基に検索タームを含む文書を検索する全文検索方式が提案されている(非特許文献1参照。)。これによれば、多くの可能性のあるキーワードを予め辞書等を用いて抽出、登録する処理が省ける。しかしながら、これは検索対象文書中の文字すべての位置を予め登録するものであり、重複するキーワードもすべて別個のものとして登録されることから分かるように必要なメモリ量が多くなり、効率的でない。

0006

特開平9−44522号公報
株式会社日立製作所、高速全文検索エンジン「Bibliotheca2 TextSearch」、[online]、HITACHIホームComputer & Network System Site Global Sites of related products、[平成18年4月5日検索]、インターネット(URL:http://www.hitachi.co.jp/Prod/comp/soft1/textsearch/product/component/bib2/ngram.html)

発明が解決しようとする課題

0007

そこで、本発明が前述の状況に鑑み、解決しようとするところは、必要なメモリ量を抑えつつキーワードを漏れなく抽出することができ、全文検索も高速で漏れなく処理することができる文書検索方法および文書検索装置を提供する点にある。

課題を解決するための手段

0008

本発明は、前述の課題解決のために、コンピュータからなる文書検索装置が、入力された検索対象となる文書データを、IDを付して文書データ記憶部に記憶する手順と、前記文データ記憶部に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出する手順と、抽出した各キーワードを、一文字づつ格納される一定数カラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する手順と、入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する手順と、検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列のIDを抽出する手順と、抽出した文字列のIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する手順と、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものとして出力する手順と、を備えていることを特徴とする文書検索方法を提供する。

0009

また、本発明は、コンピュータからなる文書検索装置であって、文書データを入力する文書入力手段と、前記文書入力手段により入力された検索対象となる文書データをIDを付して記憶する文書記憶手段と、前記文書記憶手段に記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出するキーワード抽出手段と、前記キーワード抽出手段により抽出された各キーワードを、一文字づつ格納される一定数のカラムを有したレコードからなるキーワード記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶手段と、前記キーワード記憶テーブルの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブルに記憶する関連ID記憶手段と、検索語を入力する検索語入力手段と、前記検索語入力手段により入力された検索語を、前記キーワード記憶テーブルの各レコードと同数のカラムを有したレコードからなる検索語記憶テーブルに対し、所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶手段と、検索語記憶テーブルの各カラム毎に、キーワード記憶テーブルの同一カラムを参照することにより、検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列IDを抽出する文字列抽出手段と、前記文字列抽出手段により抽出されたIDに基づき、前記ID参照テーブルを参照し、対応する文書IDを特定する文書特定手段と、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものと判定するヒット判定手段と、前記ヒット判定手段により判定された文書を出力する文書出力手段と、よりなることを特徴とする文書検索装置をも提供する。

0010

ここで、キーワード記憶テーブルに格納される各キーワードのレコード数、および検索語記憶テーブルに格納される各検索語のレコード数は、それぞれ各キーワードの文字数、各検索語の文字数とされる。

0011

また、各キーワードをレコードに格納する際、および各検索語をレコードに格納する際には、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードがそれぞれ作成される。

0012

さらに、キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数は、5〜9に設定される。

発明の効果

0013

以上にしてなる本願発明によれば、抽出した各キーワードを所定数のレコードにそれぞれ一文字づつずらして格納することで、長い文字列も短い文字列でも容易かつ確実に登録でき、入力される検索語も同様にして一文字づつずらし、各カラム毎に、キーワード記憶テーブルの同一カラムを参照するので、漏れなく高速に検索できる。

0014

さらに、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものとして出力するので、入力された検索語に完全一致したキーワードを含むものが選定され、検索精度が非常に高くなる。

0015

また、文書中の文字すべてを登録する必要がなく、登録済みのキーワードは重複登録を排除でき、効率よくキーワードを登録でき、メモリ量を少なく抑えつつ、大量の文書データから任意の検索語を条件に全文検索することが可能となる。

0016

また、キーワード記憶テーブルに格納される各キーワードのレコード数、および検索語記憶テーブルに格納される各検索語のレコード数を、それぞれ各キーワードの文字数、各検索語の文字数としたので、必要最小限のレコードの登録でキーワードの一部に含まれる検索語の場合も精度よく検索できる。

0017

また、各キーワードをレコードに格納する際、および各検索語をレコードに格納する際には、中央部のカラムに先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードがそれぞれ作成したので、先頭文字のカラムから効率よくキーワードの検索を行うことができる。

0018

また、キーワード記憶テーブル、および検索語記憶テーブルにおける前記カラムの数は、5〜9に設定したので、通常用いられる検索語を無理なくカバーでき、登録されるレコード数の増大を防止できる。

発明を実施するための最良の形態

0019

次に、本発明の実施形態を添付図面に基づき詳細に説明する。図1は、本発明に係る文書検索装置の構成を示す説明図であり、図1〜11は代表的実施形態を示している。

0020

本発明の文書検索装置1は、図1に示すように、処理装置10を中心に、記憶装置11、入力手段12、出力手段13が接続されたコンピュータであり、前記処理装置10は、マイクロプロセッサ主体に構成され、図示しないRAM、ROMからなる記憶部を有して各種処理動作の手順を規定するプログラムや処理データが記憶される。

0021

前記処理装置10は、機能的には、文書中のキーワードを管理する処理機能と検索を行う処理機能とを備え、具体的には、以下のような各処理機能を備えている。

0022

文書/キーワードの管理機能として、文書入力手段により入力された検索対象となる電子的な文書データをIDを付して文書データ記憶部11aに記憶する文書記憶処理部10aと、文書データ記憶部11aに記憶される文書データから、複数の連続した文字列からなるキーワードを切り出して抽出するキーワード抽出部10bと、抽出された各キーワードをキーワード記憶テーブル11bの所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶処理部10cと、キーワード記憶テーブル11bの各レコードに記憶された文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けてID参照テーブル11cに記憶する関連ID記憶処理部10dとを備える。

0023

また、検索時の処理機能として、入力手段12により入力された検索語を検索語記憶テーブル11dの所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶処理部10eと、検索語記憶テーブル11dの各カラム毎に、キーワード記憶テーブル11bの同一カラムを参照することにより検索語記憶テーブルの各レコードの文字列とキーワード記憶テーブルの各レコードの文字列とが合致するか否か判定し、合致した文字列IDを抽出する文字列ID抽出部10fと、抽出されたIDに基づき、ID参照テーブル11cを参照して文書IDを特定する文書ID特定部10gと、特定された文書IDのうち、同一の文書IDの数が、検索語記憶テーブルに格納される当該検索語の所定のレコード数以上の場合に、当該IDの文書をヒットしたものと判定するヒット判定部10hと、ヒット判定された文書を出力手段13に出力する文書出力処理部10iとを備えている。これら処理装置10の各機能は上記プログラムにより実現される。

0024

記憶装置11は、文書入力手段により入力された検索対象となる文書データをIDを付して記憶する文書データ記憶部11aと、一文字づつ格納される一定数のカラムを有したレコードからなり、キーワード抽出部10bにより抽出された各キーワードを所定数のレコードにそれぞれ一文字づつずらして格納するキーワード記憶テーブル11bと、キーワード記憶テーブル11bの各レコードに記憶される文字列のIDと、当該文字列のキーワードが抽出された文書のIDとを関連付けて記憶するID参照テーブル11cと、キーワード記憶テーブル11bの各レコードと同数のカラムを有したレコードからなり、検索語入力手段により入力された検索語を所定数のレコードにそれぞれ一文字づつずらして格納する検索語記憶テーブル11dとを備えており、リレーショナルデータベース構築されている。

0025

本例では、検索されるべきコンテンツを登録する際、当該コンテンツの名称タイトル、その説明文リンク集のタイトル、その説明文などを検索対象の文書とし、各文書データをその帰属するコンテンツを示す同一のID(文書ID)を付して文書データ記憶部11aに管理される。その他、各コンテンツのデータ自体もここで管理される。

0026

キーワード記憶テーブル11bは、たとえば図2に示すように、一文字づつ格納される一定数のカラムを有したレコードからなり、カラム数は5〜9、より好ましくは本例のように7つに設定されている。そして、分節や単語に区切られたキーワードを1単位あたり7文字を上限に1セットで文字列を生成し、最初のレコードは中心位置にあたるw4のカラムに先頭文字を格納し、順次先頭文字を1カラムずつ左にずらして格納したレコードが作成される。

0027

ID参照テーブル11cは、図3に示すように登録した文書IDと該文書中のキーワードを各レコードに一文字ずつずらして登録された各文字列IDとを関連付けたテーブルであり、検索の際には、特定された文字列IDに基づいてこのID参照テーブル11cを参照し、文書が特定される。

0028

入力手段12は、登録される文書を含むコンテンツデータの入力や、ユーザによる検索語の入力を司るインタフェースであり、コンテンツデータはインターネット上のWebサイトなどからダウンロードする等して入力され、検索語はキーボード等で入力できるもの以外に、インターネットや専用回線などのネットワークを通じて接続される他のコンピュータから入力できる検索画面などが好ましい。また、出力手段13は、ユーザに対してヒットの有無、ヒットしたコンテンツを表示する表示画面や、上記ネットワークを通じてアクセスしているコンピュータに対して結果データを送信するものである。

0029

次に、図4フロー図に基づき、コンテンツに含まれる検索対象文書から検索用キーワードを抽出して登録する手順を説明する。

0030

まず、文書記憶処理部10aにより、コンテンツのうち検索対象となる文書データがIDを付されて文書データ記憶部11aに記憶される(S101)。この文書IDは、後述するキーワードの文字列IDと関連づけてコンテンツテーブルに登録されるものである。コンテンツの全データは、別途図示しないコンテンツ記憶部に記憶される。

0031

この文書データを記憶する際に、キーワード抽出部10bにより、テキストからなる当該文書データが所定の法まりに則って単語/分節ごとに分解され、複数のキーワードが切り出し抽出される(S102)。本例では、全文検索を可能とするべく、検索対象の文書データの文字すべてがキーワードとして抽出されるが、すべてを抽出せずに選択的にキーワードを抽出するようにしてもよい。文書データを切り出す法則については、従来から公知のものとして、たとえば解析辞書等を参照して単語の組合せを解析し、同じ文字種の連続であれば分解せず、異なれば分解するといった法則などを利用できる。

0032

次に、キーワード記憶処理部10cにより、抽出された各キーワードがキーワード記憶テーブルに登録される(S103)。

0033

たとえば、3つのコンテンツ「c001」、「c002」、「c003」の文書が文書データ記憶部11aに登録され、コンテンツ「c001」の文書に「ホウ酸が」と「田んぼができるまで」のキーワードが含まれ、コンテンツ「c002」の文書に「微生物」と「バクテリア」のキーワードが含まれ、コンテンツ「c003」の文書に「長時間使わないとき」のキーワードが含まれており、それぞれキーワード抽出部10bによりキーワードとして抽出されたとする。

0034

抽出された各キーワードは、図2に示すように、一文字づつ格納されるカラムw1〜w7を有したレコードを複数備えたキーワード記憶テーブル11bに対し、それぞれ一文字づつずらして格納される。本例では、先頭文字をカラムw4に格納したレコードから、順に先頭文字を前のカラムにずれして格納したレコードに格納し、w4に最後尾の文字が格納されるまで、すなわち文字数分のレコードに一文字ずつずらしながら格納されるのである。そして、各レコードの文字列にはユニークなIDが付与される。

0035

たとえば、キーワード「ホウ酸が」は「w00011」〜「w0014」までの4つのレコードに一文字ずつカラムがずれた文字列が登録され、他のキーワードも同様に登録される。文字列はずらして格納するため、7文字を超える長いキーワード、たとえば「田んぼができるまで」や「長時間使わないとき」のキーワードも問題なく各レコードに格納できる。

0036

なお、この登録の際、同一の位置(w1〜w7)に同一文字が格納された同値レコードがすでに登録されている場合には、そのIDをID参照テーブル11cに登録して、当該キーワードについては登録を行わない。これにより、同じキーワードを使用する文章において、キーワードの再利用が可能となるため、キーワード記憶テーブルの容量増加が防止されている。

0037

レコードへの格納の仕方はこのように中央部のカラムw4に先頭の文字を格納したレコードから順に、先頭文字を一つ前のカラムに格納したレコードをそれぞれ作成してなる方法に限定されず、他の方法でもよいが、本例のように格納することでキーワードが整備され、検索も効率よく行うことができる。

0038

次に、キーワード記憶テーブル11bの各レコードに記憶された文字列のIDと、当該キーワードを含む文書IDとが、互いに関連付けられてID参照テーブル11cに記憶される(S104)。図3は、ID参照テーブルの例を示しており、文書ID「c001」に対して、「ホウ酸が」の文字列ID「w00011」〜「w00014」と、「田んぼができるまで」の文字列ID「w00021」〜「w00029」がそれぞれ関連付けて登録され、同様に文書ID「c002」に対して、「微生物」の文字列ID「w00051」〜「w00053」と「バクテリア」の文字列ID「w00061」〜「w00065」がそれぞれ関連付けて登録され、文書ID「c003」に対して、「長時間使わないとき」の文字列ID「w00101」〜「w00109」が関連付けて登録されている。

0039

このように、キーワード記憶テーブル11bに登録された文字列IDは、文書IDと結びつけてID参照テーブル11cに格納され、このテーブルは、単に追記が行われるのみでコンテンツの変更等により文章が削除/変更されるときは、該当する文書IDのレコードが削除された後、変更の場合は新たに追加されることとなる。

0040

次に、図5のフロー図に基づき、検索の手順を説明する。

0041

まずユーザにより、任意の検索語が入力される(S201)。たとえば「ホウ酸が」が入力されたとする。入力された検索語は、キーワード登録時と同様の方法により、複数の検索語に切り分けられ、各検索語が上述したキーワード記憶テーブル11bへのキーワードの格納とまったく同様に、一文字づつ格納されるカラムw1〜w7を有したレコードを複数備えた検索語記憶テーブル11dに対し、先頭文字をカラムw4に格納したレコードから、順に先頭文字を前のカラムにずらして格納したレコードに格納し、w4に最後尾の文字が格納されるまで、すなわち文字数分のレコードに一文字ずつずらしながら格納される(S202)。

0042

図6は検索語「ホウ酸が」を格納した検索語記憶テーブル11dの例を示し、各レコードには「k01」〜「k04」のIDが付されている。そして、図7に示すように、各レコードについて、文字が入っているカラム(wX)ごとにキーワード記憶テーブル11bを参照し、文字が入っているすべてのカラムの文字が合致した文字列IDを抽出する(S203)。本例では、図2から分かるように、「w00011」〜「w00014」が抽出される。

0043

次に、抽出された文字列のIDを用いて、図3に示すID参照テーブル11cを参照し、対応するそれぞれの文書IDが取得される(S204)。そして、特定された文書IDのうち、同一の文書IDの数と、検索語記憶テーブルに格納される当該検索語の所定のレコード数(検索語の文字数)とを対比し、同一文書IDの数が前記レコード数以上の場合に、当該IDの文書をヒットしたものと判断し(S205)、当該文書が属するコンテンツをヒットしたものとして検索結果を出力する(S206)。

0044

本例では、図8に示すように、「w00011」〜「w00014」の各文字列IDに対応する文書IDとして4つの同じ「c001」IDが取得され、同一の文書IDの数「4」が当該検索語のレコードk01〜k04の数「4」と一致することから、ID「c001」の文書がヒットしたものとして、当該文書を含むコンテンツが出力される。

0045

以下、その他の検索語で検索する場合を説明する。まず、キーワード記憶テーブルに記憶されているキーワード「ホウ酸が」と一文字異なる「ホウ酸は」で検索する場合、図9に示すように、この検索語「ホウ酸は」を格納した検索語記憶テーブルが作成される。そして、S203においてキーワード記憶テーブルを参照してすべての文字カラムが一致する文字列IDを抽出するのであるが、本例では、k01はw00011とw4〜w6まで一致するものの、w7が不一致となり、同様にk02はw6が不一致、k03はw5が不一致、k04はw4が不一致となり、文字列IDは抽出されない。この場合、S204においても文書IDは取得できず、S205ではヒットなしと判定され、該当するコンテンツも登録がないとしてその旨の結果が出力される。

0046

同様に、キーワード「長時間使わないとき」と一部が異なる「長時間使わずに」で検索する場合を説明する。検索語記憶処理部10eにより、図10(a)に示すように検索語記憶テーブルが作成される。本例では、k01はw00101とw4〜w7までのすべてのカラムで一致し、k02もw00102とw3〜w7まですべてのカラムが一致する。しかし、k03はw00103とw7が不一致であり、同様にk04はw6とw7が不一致、k05はw5とw6が不一致、k06はw4とw5が不一致、k07はw3とw4で不一致となり、結局、S203において文字列ID「w00101」,「w00102」の二つが抽出される。

0047

これによりS204では図10(b)に示す2つの同一文書ID「c003」が取得されるが、その数は検索語のレコード数7に満たないため、S205ではヒットなしと判定され、その旨が出力される。このように、キーワードと異なる文字を含む検索語の場合、登録されている文字列が存在してもヒットしないものと正確に判断できるのである。

0048

次に、キーワード「ホウ酸が」に対して一文字足りない「ホウ酸」で検索する場合、検索語記憶テーブル11dは、図11(a)に示すようになる。k01のレコードのうち文字が入っているカラムw4〜w6は、それぞれ文字列ID「w00011」のカラムw4〜w6の文字とすべて一致し、同様にk02は「w00012」,k03は「w00013」と一致し、「w00011」〜「w00013」の3つの文字列IDが抽出される。これによりS204では図11(b)に示す3つの同一文書ID「c001」が取得され、検索語のレコード数に一致するためS205でヒットしたと判定される。そして、文書「c001」に対応するコンテンツがヒットしたものとして表示される。このように、検索語「ホウ酸」自体がキーワードとして登録されていなくても、それを含むキーワード「ホウ酸が」が登録されていることにより問題なく検索できるのである。なお、上述した登録時も、このような一部一致のキーワードは登録されず、切り出しの仕方によって登録数がいたずらに増大することが回避され、優れた検索効率を維持できるシステムとされている。

0049

検索文章が長いと複数の検索語のアンド検索となる。また、検索語や検索文章のほかに検索式が入力されると、従来と同様の方法によりアンド処理等が行われることは言うまでもない。

0050

以上本発明の実施形態について説明したが、本発明はこうした実施例に何ら限定されるものではなく、本発明の要旨を逸脱しない範囲において種々なる形態で実施し得ることは勿論である。

図面の簡単な説明

0051

本発明の代表的実施形態に係る文書検索装置の構成を示す説明図。
キーワード記憶テーブルの一例を示す説明図。
ID参照テーブルの一例を示す説明図。
キーワードの登録までの手順を示すフロー図。
入力される検索語に基づき検索を行う手順を示すフロー図。
検索語「ホウ酸が」を格納した検索語記憶テーブルを示す説明図。
文字列IDを抽出する仕方を示す説明図。
取得された文書IDを示す説明図。
検索語「ホウ酸は」を格納した検索語記憶テーブルを示す説明図。
(a)は検索語「長時間使わずに」を格納した検索語記憶テーブルを示す説明図、(b)は取得された文書IDを示す説明図。
(a)は検索語「ホウ酸」を格納した検索語記憶テーブルを示す説明図、(b)は取得された文書IDを示す説明図。

符号の説明

0052

1文書検索装置
10処理装置
10a文書記憶処理部
10bキーワード抽出部
10cキーワード記憶処理部
10d 記憶処理部
10e検索語記憶処理部
10f 抽出部
10g 特定部
10hヒット判定部
10i文書出力処理部
11記憶装置
11a文書データ記憶部
11bキーワード記憶テーブル
11c 参照テーブル
11d検索語記憶テーブル
12入力手段
13 出力手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • オムロン株式会社の「 マッチング処理装置」が 公開されました。( 2019/08/08)

    【課題・解決手段】利活用対象のセンシングデータによる容易なセンサマッチングを行うマッチング処理部50が提供される。マッチング処理部50は、提供側端末11により入力された提供側センシングデータを取得する... 詳細

  • オムロン株式会社の「 検索用データ生成装置」が 公開されました。( 2019/08/08)

    【課題・解決手段】センサの検索精度を向上させることができる検索用データ生成装置が提供される。検索用データ生成装置50は、入力された、センシングデバイス20に関連する検索条件301から検索用データを取得... 詳細

  • 三菱電機株式会社の「 情報処理装置および情報処理方法」が 公開されました。( 2019/08/08)

    【課題・解決手段】情報処理装置(10)は、時系列データである入力データを取得するデータ取得部(101)と、時系列データである学習データから抽出した部分列である複数の学習部分列の中で類似する学習部分列を... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ