図面 (/)

技術 キーワード自動抽出装置および文書検索装置

出願人 株式会社毎日新聞社松下電器産業株式会社
発明者 野口直彦篠木裕文菊池忠一桐生輝一大塚哲也
出願日 1995年5月22日 (24年2ヶ月経過) 出願番号 1995-145211
公開日 1996年11月29日 (22年7ヶ月経過) 公開番号 1996-314974
状態 特許登録済
技術分野 検索装置
主要キーワード 検索条件文字列 キーワード抽出結果 電算機 検索結果件数 単語グループ 文字列照合 下位語 転置ファイル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1996年11月29日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

目的

検索対象文書からキーワード自動抽出する際に、人手最小限度介在させることで、文書の内容を的確に表現するキーワードだけを抽出できるキーワード自動抽出装置を提供する。

構成

辞書12、またはキーワード候補語同士の上位−下位関係が記載されたシソーラス13を用いて、検索対象文書からキーワードを自動抽出するキーワード自動抽出装置において、検索対象文書からキーワード候補語を切出すキーワード候補語切出し手段14と、切出されたキーワード候補語がシソーラスの複数箇所に記載されているとき、利用者の意図を確認した上でこのキーワード候補語をキーワードとして選択するキーワード候補語選択手段15と、利用者に情報を提示し、また利用者からの選択入力を受付ける入出力手段16とを設ける。切出されたキーワード候補語がシソーラスの複数箇所に載り、その候補語が複数の意味を持つときは、入出力手段を介して、どの意味であるかを利用者に訊ね、利用者が選択した意味を有するキーワードとして、その候補語を格納する。

概要

背景

近年、電子メールや電子カタログ電子出版物など、電子化された文書情報が大量に流通し始めたことに伴って、それらの文書情報から所望の文書だけを検索する文書検索装置に対する関心が高まっている。

このような文書検索装置では、従来から、文書毎に付与されたキーワードを利用して文書を検索するキーワード検索という手法が一般的に用いられている。このキーワード検索では、蓄積文書に対して、その文書の内容を表すキーワードを予め人手によって付与して、キーワードに対する転置ファイルを構成しておき、検索時には利用者が所望のキーワードを入力すると、このキーワードを含む文書を、転置ファイルを利用して高速で検索する。

このキーワード検索においては、人が各文書の内容を検討してキーワードを付与しているため、利用者が望む内容の文書を高い精度で検索することができる。しかし、その反面、人手によるキーワード付けの作業が蓄積文書の増加に間に合わないといった問題点も指摘されている。

そのような問題点の解決を図るために、文書からキーワードを自動的に抽出する装置が提案されている(例えば、木本晴夫“キーワード自動抽出装置"、特開昭63−136224など)。この従来のキーワード自動抽出装置は、図19に示すように、検索対象文書を格納する文書格納部191と、キーワード抽出時に参照する辞書192と、単語同士の上位−下位関係などが記述されたシソーラス193と、文書格納部191から読出した文書のキーワードを抽出するキーワード自動抽出部194と、抽出されたキーワードを後の検索で利用しやすいように転置ファイル形式などで格納するキーワード抽出結果格納部195とを備えている。

この装置のキーワード自動抽出部194は、まず、文書格納部191から検索対象文書を読出し、辞書192を用いて最長一致法(辞書の単語と一致する最も長い文字列を単語として区分する)や形態素解析手法(品詞情報接続情報などを用いて文字列を区分する)などの処理を行なって、この文書を単語に分割する。例えば、図20に示すような文書(文書番号20とする)を単語分割すると、図21に示すような単語列となる。

次に、キーワード自動抽出部194は、こうして求めた単語列から、この文書のキーワードとして付与するものを選択する。キーワード検索においては、できるだけこの文書の内容を的確に表す単語のみを抽出することが好ましいので、キーワードを選択する際には、不要語辞書などを用意して、その不要語辞書中に登録された単語は選択しないといった処理を行なったり、あるいはキーワード辞書を用意して、そのキーワード辞書中に登録された単語のみを選択したり、あるいは頻度計算などを行なって重要と判断される単語のみを選択するなどの手段がとられる。例えば、図21の単語列から、不要な単語として、助詞などの附属語を除去することで、図22に示す単語のみが選択される。

最後に、キーワード自動抽出部194で選択されたキーワードをこの文書のキーワードとして、キーワード抽出結果格納部195に格納する。図23は、キーワード抽出結果格納部195の内容を示す図である。図22で選択された各単語について、その単語を含む文書番号20が記録される。

検索時には、利用者からキーワード入力を受付けて、このキーワードを含む文書をキーワード抽出結果格納部195から検索する。例えば、利用者の入力が「ひまわり」であった場合、キーワード抽出結果格納部195を検索し、図23のテーブルから、「ひまわり」をキーワードとして含む文書番号20の文書が、検索結果として得られる。

また、人手に頼るキーワード付与を別の観点から解決するものとして、全文検索という手法も提案されている。この全文検索では、利用者から与えられた文字列を検索条件として、この検索条件と、検索対象文書を構成する全ての文字列との照合を行ない、検索条件を満たす文書を求める。そのため、この方法では文書に予めキーワードを付与する必要がない。

概要

検索対象文書からキーワードを自動抽出する際に、人手を最小限度介在させることで、文書の内容を的確に表現するキーワードだけを抽出できるキーワード自動抽出装置を提供する。

辞書12、またはキーワード候補語同士の上位−下位関係が記載されたシソーラス13を用いて、検索対象文書からキーワードを自動抽出するキーワード自動抽出装置において、検索対象文書からキーワード候補語を切出すキーワード候補語切出し手段14と、切出されたキーワード候補語がシソーラスの複数箇所に記載されているとき、利用者の意図を確認した上でこのキーワード候補語をキーワードとして選択するキーワード候補語選択手段15と、利用者に情報を提示し、また利用者からの選択入力を受付ける入出力手段16とを設ける。切出されたキーワード候補語がシソーラスの複数箇所に載り、その候補語が複数の意味を持つときは、入出力手段を介して、どの意味であるかを利用者に訊ね、利用者が選択した意味を有するキーワードとして、その候補語を格納する。

目的

本発明は、こうした従来の問題点を解決するものであり、検索対象文書からキーワードを自動抽出する際に、人手を最小限度介在させることで、文書の内容を的確に表現するキーワードだけを抽出することができるキーワード自動抽出装置を提供し、また、キーワードが自動抽出された検索対象文書を検索する際に、人手を最小限度介在させることで、精度の高い効率的なキーワード検索を行なうことができる文書検索装置を提供することを目的としている。

効果

実績

技術文献被引用数
2件
牽制数
6件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

辞書、またはキーワード候補語同士の上位−下位関係が記載されたシソーラスを用いて、検索対象文書からキーワード自動抽出するキーワード自動抽出装置において、検索対象文書からキーワード候補語を切出すキーワード候補語切出し手段と、切出された前記キーワード候補語が前記シソーラスの複数箇所に記載されているとき、利用者の意図を確認した上で前記キーワード候補語をキーワードとして選択するキーワード候補語選択手段と、利用者に情報を提示し、また利用者からの選択入力を受付ける入出力手段とを設けたことを特徴とするキーワード自動抽出装置。

請求項2

前記シソーラスに記載されたキーワード候補語の中でキーワードの選択に注意を要するキーワード候補語に予め注意語の印を付け、前記キーワード候補語切出し手段の切出したキーワード候補語が前記注意語に該当するとき、前記キーワード選択手段が、利用者の意図を確認した上で前記キーワード候補語をキーワードとして選択することを特徴とする請求項1に記載のキーワード自動抽出装置。

請求項3

辞書、またはキーワード候補語同士の上位−下位関係が記載されたシソーラスを用いて、検索対象文書からキーワードを自動抽出し、抽出結果をキーワード抽出結果格納手段に格納するとともに、利用者の入力した検索文字列をキーワードとして、このキーワードを持つ文書を前記キーワード抽出結果格納手段から検索する文書検索装置において、前記検索文字列が前記シソーラスの複数箇所に記載されているとき、利用者の意図を確認し、利用者の意図するキーワードを持つ文書を前記キーワード抽出結果格納手段から検索するキーワード検索手段と、利用者に情報を提示し、また利用者からの選択入力を受付ける入出力手段とを設けたことを特徴とする文書検索装置。

請求項4

前記検索対象文書からキーワードを自動抽出する手段として、前記検索対象文書からキーワード候補語を切出すキーワード候補語切出し手段と、切出された前記キーワード候補語が前記シソーラスの複数箇所に記載されているとき、利用者の意図を確認した上で前記キーワード候補語をキーワードとして選択するキーワード候補語選択手段とを備えることを特徴とする請求項3に記載の文書検索装置。

請求項5

前記検索文字列を含む検索対象文書を文字列照合により検索する全文検索手段を設け、前記キーワード検索手段または全文検索手段による検索を前記入出力手段から選択可能にしたことを特徴とする請求項3に記載の文書検索装置。

請求項6

同義語の関係にある単語グループと前記シソーラスのキーワード候補語との対応関係記述した同義語辞書と、利用者の入力した検索文字列を前記同義語辞書を用いて変換する検索文字列変換手段とを設け、前記キーワード検索手段に対して、前記検索文字列変換手段によって変換された前記シソーラスのキーワード候補語を検索文字列として与えることを特徴とする請求項3または5に記載の文書検索装置。

請求項7

前記検索文字列変換手段が、利用者の入力した検索文字列を、前記同義語辞書を用いて同義語の単語グループに変換し、前記全文検索手段に対して、前記単語グループの中から利用者が選択した文字列を検索文字列として与えることを特徴とする請求項6に記載の文書検索装置。

技術分野

0001

本発明は、データベース蓄積された文書や一般のワードプロセッサオフィスコンピュータなどの記憶装置に蓄積された文書の中から所望の文書を検索する文書検索装置と、この文書検索装置に利用される、各文書を特徴づけるキーワードを自動的に抽出するキーワード自動抽出装置とに関し、特に、精度の高い文書検索を可能にしたものである。

背景技術

0002

近年、電子メールや電子カタログ電子出版物など、電子化された文書情報が大量に流通し始めたことに伴って、それらの文書情報から所望の文書だけを検索する文書検索装置に対する関心が高まっている。

0003

このような文書検索装置では、従来から、文書毎に付与されたキーワードを利用して文書を検索するキーワード検索という手法が一般的に用いられている。このキーワード検索では、蓄積文書に対して、その文書の内容を表すキーワードを予め人手によって付与して、キーワードに対する転置ファイルを構成しておき、検索時には利用者が所望のキーワードを入力すると、このキーワードを含む文書を、転置ファイルを利用して高速で検索する。

0004

このキーワード検索においては、人が各文書の内容を検討してキーワードを付与しているため、利用者が望む内容の文書を高い精度で検索することができる。しかし、その反面、人手によるキーワード付けの作業が蓄積文書の増加に間に合わないといった問題点も指摘されている。

0005

そのような問題点の解決を図るために、文書からキーワードを自動的に抽出する装置が提案されている(例えば、木本晴夫“キーワード自動抽出装置"、特開昭63−136224など)。この従来のキーワード自動抽出装置は、図19に示すように、検索対象文書を格納する文書格納部191と、キーワード抽出時に参照する辞書192と、単語同士の上位−下位関係などが記述されたシソーラス193と、文書格納部191から読出した文書のキーワードを抽出するキーワード自動抽出部194と、抽出されたキーワードを後の検索で利用しやすいように転置ファイル形式などで格納するキーワード抽出結果格納部195とを備えている。

0006

この装置のキーワード自動抽出部194は、まず、文書格納部191から検索対象文書を読出し、辞書192を用いて最長一致法(辞書の単語と一致する最も長い文字列を単語として区分する)や形態素解析手法(品詞情報接続情報などを用いて文字列を区分する)などの処理を行なって、この文書を単語に分割する。例えば、図20に示すような文書(文書番号20とする)を単語分割すると、図21に示すような単語列となる。

0007

次に、キーワード自動抽出部194は、こうして求めた単語列から、この文書のキーワードとして付与するものを選択する。キーワード検索においては、できるだけこの文書の内容を的確に表す単語のみを抽出することが好ましいので、キーワードを選択する際には、不要語辞書などを用意して、その不要語辞書中に登録された単語は選択しないといった処理を行なったり、あるいはキーワード辞書を用意して、そのキーワード辞書中に登録された単語のみを選択したり、あるいは頻度計算などを行なって重要と判断される単語のみを選択するなどの手段がとられる。例えば、図21の単語列から、不要な単語として、助詞などの附属語を除去することで、図22に示す単語のみが選択される。

0008

最後に、キーワード自動抽出部194で選択されたキーワードをこの文書のキーワードとして、キーワード抽出結果格納部195に格納する。図23は、キーワード抽出結果格納部195の内容を示す図である。図22で選択された各単語について、その単語を含む文書番号20が記録される。

0009

検索時には、利用者からキーワード入力を受付けて、このキーワードを含む文書をキーワード抽出結果格納部195から検索する。例えば、利用者の入力が「ひまわり」であった場合、キーワード抽出結果格納部195を検索し、図23のテーブルから、「ひまわり」をキーワードとして含む文書番号20の文書が、検索結果として得られる。

0010

また、人手に頼るキーワード付与を別の観点から解決するものとして、全文検索という手法も提案されている。この全文検索では、利用者から与えられた文字列を検索条件として、この検索条件と、検索対象文書を構成する全ての文字列との照合を行ない、検索条件を満たす文書を求める。そのため、この方法では文書に予めキーワードを付与する必要がない。

発明が解決しようとする課題

0011

しかし、従来のキーワード自動抽出装置では、検索対象文書から全て自動的にキーワードを抽出しているため、必ずしもこの文書の内容を適切に表しているとは言えないものまでキーワードとして取込んでしまうことがある。また、付与されるキーワードの数は、通常の人手によるキーワード付与に比べて可成り多くなる。その結果、キーワード自動抽出装置でキーワードが付与された文書をキーワード検索する場合には、検索の精度が悪化する(検索漏れ、検索のゴミの両者とも増加する)という課題を有していた。

0012

具体例で説明すると、図20に掲げた文書のキーワードを自動抽出した場合には、図22に示すように、「月」「日」「両国」などの、文書の内容を表現するとは思えない余計な単語までもキーワードとして登録されるため、文書をキーワード検索するときの検索精度が悪化する。例えば、利用者が、地名の「両国」に関する文書を検索したい場合に、「両国」というキーワードで検索を行なうと、誤って文書番号20の文書を検索してしまう。また、衛星である「月」についての文書を検索したい場合に、「月」というキーワードで検索を行なうと、やはり誤って文書番号20の文書を検索してしまう。また、利用者が有名な映画に関する文書を検索したい場合に、「名画」というキーワードで検索を行なうと、文書番号20の文書には「名画」というキーワードが付与されているために、やはり誤って文書番号20の文書が検索されてしまう。このように、キーワード付与を自動的に行なうと、結果的に誤って検索される文書(検索のゴミ)が増加し、検索精度が悪化してしまうという問題がある。

0013

また、従来の全文検索では、利用者が検索条件として入力した文字列を含む全ての文書が検索結果として出力されるために、網羅的な検索には適しているが、やはり検索のゴミが多く、検索精度が悪いという課題を有していた。

0014

本発明は、こうした従来の問題点を解決するものであり、検索対象文書からキーワードを自動抽出する際に、人手を最小限度介在させることで、文書の内容を的確に表現するキーワードだけを抽出することができるキーワード自動抽出装置を提供し、また、キーワードが自動抽出された検索対象文書を検索する際に、人手を最小限度介在させることで、精度の高い効率的なキーワード検索を行なうことができる文書検索装置を提供することを目的としている。

課題を解決するための手段

0015

そこで、本発明では、辞書、またはキーワード候補語同士の上位−下位関係が記載されたシソーラスを用いて、検索対象文書からキーワードを自動抽出するキーワード自動抽出装置において、検索対象文書からキーワード候補語を切出すキーワード候補語切出し手段と、切出されたキーワード候補語がシソーラスの複数箇所に記載されているとき、利用者の意図を確認した上でこのキーワード候補語をキーワードとして選択するキーワード候補語選択手段と、利用者に情報を提示し、また利用者からの選択入力を受付ける入出力手段とを設けている。

0016

また、シソーラスに記載されたキーワード候補語の中でキーワードの選択に注意を要するキーワード候補語に予め注意語の印を付け、キーワード候補語切出し手段の切出したキーワード候補語がこの注意語に該当するとき、キーワード選択手段が、利用者の意図を確認した上でこのキーワード候補語をキーワードとして選択するように構成している。

0017

また、辞書、またはキーワード候補語同士の上位−下位関係が記載されたシソーラスを用いて、検索対象文書からキーワードを自動抽出し、抽出結果をキーワード抽出結果格納手段に格納するとともに、利用者の入力した検索文字列をキーワードとして、このキーワードを持つ文書をキーワード抽出結果格納手段から検索する文書検索装置において、検索文字列がシソーラスの複数箇所に記載されているとき、利用者の意図を確認し、利用者の意図するキーワードを持つ文書をキーワード抽出結果格納手段から検索するキーワード検索手段と、利用者に情報を提示し、また利用者からの選択入力を受付ける入出力手段とを設けている。

0018

また、この検索対象文書からキーワードを自動抽出する手段として、検索対象文書からキーワード候補語を切出すキーワード候補語切出し手段と、切出されたキーワード候補語がシソーラスの複数箇所に記載されているとき、利用者の意図を確認した上でこのキーワード候補語をキーワードとして選択するキーワード候補語選択手段とを設けている。

0019

また、検索文字列を含む検索対象文書を文字列照合により検索する全文検索手段を設け、キーワード検索手段または全文検索手段による検索を入出力手段から選択できるようにしている。

0020

また、同義語の関係にある単語グループとシソーラスのキーワード候補語との対応関係を記述した同義語辞書と、利用者の入力した検索文字列を同義語辞書を用いて変換する検索文字列変換手段とを設け、キーワード検索手段に対して、検索文字列変換手段によって変換されたシソーラスのキーワード候補語を検索文字列として与えるように構成している。

0021

さらに、この検索文字列変換手段が、利用者の入力した検索文字列を、同義語辞書を用いて同義語の単語グループに変換し、全文検索手段に対して、この単語グループの中から利用者が選択した文字列を検索文字列として与えるように構成している。

0022

本発明のキーワード自動抽出装置では、切出されたキーワード候補語がシソーラスの複数箇所に載っているとき、つまり、その候補語が複数の意味を持つときは、入出力手段を介して、どの意味であるかを利用者に訊ね、利用者が選択した意味を有するキーワードとして、その候補語を格納する。このように、曖昧な候補語について、利用者に正しい意味を選択する機会が与えられるため、精度の高いキーワード抽出が可能になる。

0023

また、キーワード抽出に誤りが生じやすいキーワード候補語については、シソーラスに注意語の表示が記入されており、この注意語が候補語として切出された場合にも、利用者の選択を待って、キーワードとして格納される。

0024

また、本発明の文書検索装置では、利用者の入力した検索文字列がシソーラスの複数箇所に記載されているとき、つまり、その検索文字列が複数の意味を持つときは、入出力手段を介して、その検索文字列がどの意味であるかを利用者に訊ね、利用者の意図するキーワードを備えた文書を検索する。そのため、利用者の意図に沿った検索を高い精度で進めることができ、全体として効率的な検索が可能になる。

0025

また、この文書検索装置におけるキーワード抽出手段を、本発明の前記キーワード自動抽出装置で構成することにより、検索漏れや検索ゴミの少ない高精度の文書検索が可能になる。

0026

また、全文検索手段を併せて備えた文書検索装置では、精度の比較的高いキーワード検索と、網羅性の比較的高い全文検索とを適宜使い分けたり、全文検索で集めた対象文書をキーワード検索で絞るなど、相補的な検索を実施することが可能であり、利用者のニーズに即した検索を行なうことができる。

0027

また、同義語辞書を備えた文書検索装置では、各文書のキーワードとして、抽出されたキーワード候補語の外に、その候補語のシソーラス上での上位語を併せて格納しておく。一方、キーワード検索時には、入力された検索文字列のシソーラス上での上位語を同義語辞書から調べて、この上位語をキーワードとして対象文書を検索する。この場合、この上位語の下位概念となる各同義語については個々に検索を行なわなくとも、上位語の検索だけで求める文書を得ることができるため、極めて効率的である。

0028

また、全文検索時には、入力された検索文字列の同義語を同義語辞書から調べて、入出力手段を介して利用者に開示し、利用者がその中から選択した一または二以上の同義語を検索文字列として全文検索を実行する。こうすることにより、利用者のニーズに即した検索を効率的に行なうことができる。

0029

(第1実施例)第1実施例はキーワード自動抽出装置であり、この装置は、図1に示すように、検索対象文書を格納する文書格納部11と、検索対象文書からキーワード候補語を切出すために参照される辞書12と、キーワード候補語同士の上位−下位関係などが記述されたシソーラス13と、辞書12やシソーラス13を用いて検索対象文書からキーワード候補語を切出すキーワード候補語切出し部14と、切出されたキーワード候補語から利用者とのやり取りを通じてその対象文書に適するキーワードを選択するキーワード候補語選択部15と、利用者からの入力を受付けるとともに利用者に情報を提示する入出力部16と、検索対象文書と選択されたキーワードとの対応関係を記録するキーワード抽出結果格納部17とを備えている。

0030

シソーラス13は、図3に例示するように、上位概念を表す上位語と、それに意味的に含まれる下位語との関係を規定しており、また、「月」のように、複数の意味(衛星としての月と、月日の月)を持ち、間違い易いキーワード候補語に対しては注意語の印(*)が付されている。なお、単語の後の数字単語番号を示している。

0031

このキーワード自動抽出装置では、まず、キーワード候補語切出し部14が、文書格納部11に格納されている文書を順番読み出し、各文書を、辞書12を参照しながら最長一致手法または形態素解析手法などを用いて単語分割し、その単語分割された結果から不要語を削除して、キーワード候補語の列を得る。

0032

この場合、予めキーワードになり得る単語を辞書12またはシソーラス13に収録しておき、キーワード候補語切出し部14が、読出した文書の全文を辞書12またはシソーラス13と照合し、一致する単語だけを抽出してキーワード候補語列を求めてもよい。

0033

こうして、例えば図20に示す文書番号20の文書から、図22のようなキーワード候補語列を得る。

0034

次に、キーワード候補語選択部15が、このキーワード候補語列の各単語について、順番にシソーラス13を参照して、各単語の上位語を求める。その際に、シソーラス13中に、複数箇所登録されている単語があった場合には、一旦その単語とこの単語の上位語との組を全て入出力部16に表示して利用者にいずれかを選択させる。例えば、図22のキーワード候補語列のうち、「名画」については、図3のシソーラス13中に2箇所登録されているため、この単語を入出力部16にその上位語とともに表示する。図4に、このときの表示画面の例を示す。

0035

利用者は、表示された文書を確認し、この文書中の「名画」という単語が絵画の「名画」を意味していると判断したときは、表示画面の「2 絵画」を選択する。キーワード候補語選択部15は、利用者からの入力を受けて、この文書(文書番号20)のキーワードとして、「絵画」の意味での「名画」(単語番号201)と、その上位語である「絵画」(200)とをキーワード抽出結果格納部17に格納する。

0036

また、キーワード候補語選択部15が、キーワード候補語列の各単語について、順番にシソーラス13を参照して、各単語の上位語を求める際に、シソーラス13中に、注意語として記載されている単語があった場合には、一旦その単語が注意語であることを入出力装置16に表示して利用者に注意を促し、この単語をキーワードとして登録するかどうかを選択させる。図22のキーワード候補語列のうち、「月」については、図3に示すように、シソーラス13中に「注意語」としての記述があるので、入出力部16にその旨表示する。図5に、このときの表示画面の例を示す。

0037

利用者は、表示された文書を確認して、この文書中での「月」という単語が、衛星の意味での「月」ではないことを確認し、表示画面中の「2 選択しない」を選択する。キーワード候補語選択部15は、利用者からの入力を受けて、「月」についてはキーワードとして登録しないことに決定する。

0038

こうしたキーワード自動抽出装置の動作手順を、図2を用いて説明する。

0039

テップ1:文書格納部11に格納された検索対象文書数Nを記憶するとともに、文書番号iを初期値(1)にセットする。

0040

ステップ2:キーワード候補語切出し部14は、文書番号iの文書を文書格納部11から読出し、
ステップ3:例えば、辞書12を用いてこの文書を単語分割し、不要語を削除して、長さKのキーワード候補語列を得る。

0041

ステップ4:キーワード候補語の順番jを初期値(1)にセットする。

0042

ステップ5:jがKに達していなければ、
ステップ6:キーワード候補語選択部15は、キーワード候補語列のj番目の単語がシソーラス13中で複数箇所に登録されているかどうかを調べ、
ステップ7:複数箇所に登録されているときは、その単語をシソーラス中の上位語とともに入出力部16の画面に表示する。

0043

ステップ8:画面を見た利用者が適切な単語とその上位語とを選択すると、
ステップ12:その単語と上位語とをキーワードとしてキーワード抽出結果格納部17に格納する。

0044

ステップ6において、キーワード候補語列のj番目の単語がシソーラス13の複数箇所に登録されていないときは、
ステップ9:その単語がシソーラス中で注意語とされているかどうかを調べ、
ステップ10:注意語であるときは、その単語をシソーラス中の上位語とともに入出力部16の画面に表示し、
ステップ11:画面を見た利用者はその単語をキーワードとして選択するかどうかを決定する。

0045

ステップ12:キーワード候補語選択部15は、ステップ11で選択されなかった場合を除いて、その単語と上位語とをキーワードとしてキーワード抽出結果格納部17に格納する。

0046

ステップ13:キーワード候補語の順番jを1つアップして、ステップ5〜ステップ12の手順を繰り返し、
ステップ5:jがKを超えたとき、つまり、文書番号iの文書から求めたキーワード候補語列の各単語についてキーワード選択の処理が終了したときは、
ステップ14:文書番号を1つアップして、ステップ2〜ステップ13の手順を繰り返し、
ステップ15:文書番号iがNを超えたとき、つまり、文書格納部11に格納された全ての文書についてのキーワード抽出が完了したときは処理を終了する。

0047

このように、第1実施例のキーワード自動抽出装置では、利用者のチェックを受けてキーワードが正しい意味の下で登録される。そのため、文書の検索において、誤った文書の検出が抑制され、検索精度が向上する。

0048

(第2実施例)第2実施例は文書検索装置であり、この装置は、図6に示すように、検索対象文書を格納する文書格納部61と、検索対象文書からキーワード候補語を抽出する際に参照される辞書62と、キーワード候補語同士の上位−下位関係などが記述されたシソーラス63と、辞書62やシソーラス63を用いて検索対象文書からキーワードを抽出するキーワード自動抽出部64と、検索対象文書とキーワードとの対応関係を記録するキーワード抽出結果格納部65と、利用者からの入力を受付けるとともに利用者に情報を提示する入出力部67と、利用者から入力された文字列をキーワードとして対象文書を検索するキーワード検索部66とを備えている。

0049

シソーラス63を図8に示しているが、これは第1実施例のシソーラス(図3)と同じである。

0050

この装置のキーワード自動抽出部64は、第1実施例(図1)のキーワード候補語切出し部14及びキーワード候補語選択部15に相当しており、文書格納部61に格納された文書を順番に読出し、利用者とのやりとりを交えながら、辞書62やシソーラス63を用いて、各文書のキーワードを自動抽出し、抽出結果をキーワード抽出結果格納部65に格納する。例えば、図20に示す文書(文書番号20)に対して、キーワード自動抽出部64は、図22のキーワードを抽出し、また、図24に示す文書(文書番号24)に対して、図25のキーワードを抽出する。このとき、第1実施例に示したように、シソーラス63の複数箇所に登録されているキーワードについては、利用者とのやりとりを通じて、正しい意味のキーワードが抽出される。

0051

抽出されたキーワードは、図9に示すように、キーワードとその単語番号、そのキーワードを含む文書の総数、及びその文書の各文書番号、の形でキーワード抽出結果格納部65に登録される。ここでは「名画」というキーワードが二つ登録されているが、「名画」(単語番号101)は、図24の文書のキーワードである映画の意味を持つ「名画」であり、「名画」(単語番号201)は、図20の文書のキーワードである絵画の意味を持つ「名画」である。

0052

こうして検索対象文書のキーワードの登録を終えると、文書検索装置は、図7に示す手順で文書検索を実行する。

0053

ステップ21:利用者が検索キーワードとして、例えば「名画」を入出力部67より入力すると、
ステップ22:キーワード検索部66は、シソーラス63から、この検索キーワード「名画」の上位語(「映画」「絵画」)を求める。

0054

ステップ23:検索キーワードの上位語がシソーラス中に複数ある場合、つまり、その検索キーワードがシソーラスの複数箇所に登録されている場合には、
ステップ24:この検索キーワードを含む文書数をキーワード抽出結果格納部65から求め、検索キーワードと、その上位語と、その検索キーワードを含む文書数とを入出力部67の画面に表示する(この表示画面例を図10に示している)。

0055

ステップ25:利用者は画面を見て、検索しようとするキーワードがどの上位語を持つキーワードであるかを選択する。

0056

ステップ26:キーワード検索部66は、検索キーワードがシソーラスの複数箇所に登録されていない場合にはその検索キーワードを、また、ステップ25において選択が行なわれたときは選択された検索キーワードを含む文書の文書番号をキーワード抽出結果格納部65から検索する。

0057

従って、利用者の入力した検索キーワードが「名画」の場合は、図10の画面が表示され、利用者は、自身の検索意図に応じて、この画面から「1映画」または「2絵画」を選択する。例えば「2 絵画」が選択されると、キーワード検索部66は、この選択を受けて、キーワード抽出結果格納部65から、キーワード「名画(201)」のみを持つ文書を検索し、検索結果である文書番号20を表示する。

0058

このように、第2実施例の文書検索装置では、利用者の入力した検索条件文字列がシソーラスの複数箇所に登録されているとき、つまり、その文字列が複数の意味を持つときには、利用者の検索意図を確認し、その後、検索を実行する。そのため、効率的、かつ高精度の検索を行なうことができる。

0059

(第3実施例)第3実施例の文書検索装置は、キーワード検索と全文検索との選択が可能である。この装置は、図11に示すように、検索対象文書の全文と入出力部118から入力された文字列とを照合して、この文字列を含む対象文書を検索する全文検索部117を備えている。その他の構成は第2実施例の文書検索装置(図6)と変わりがない。

0060

この装置では、キーワード自動抽出部114が、文書格納部111に格納されている文書を順番に読出し、キーワードを自動抽出してキーワード抽出結果格納部115に格納する。この動作は第2実施例と同じである。いま、検索対象文書として文書格納部111に図20の文書(文書番号20)、図24の文書(文書番号24)及び図26の文書(文書番号26)が格納され、これらの文書から、それぞれ、図22図25及び図27のキーワードが抽出され、このキーワードが図13に示す状態でキーワード抽出結果格納部115に登録されたとする。

0061

文書検索を行なう利用者は、入出力部118から、検索文字列の入力と、キーワード検索モードか全文検索モードかの選択を行なう。例えば、利用者がキーワード検索モードを選択して、「名画」という検索文字列を入力した場合には、第2実施例で説明したように、キーワード検索部116は、入出力部118を介して適宜利用者とやりとりを行ないながら、利用者の検索意図に沿った、精度の高い検索を実行する。

0062

しかし、利用者がキーワード検索モードを選択して、「旅行ブーム」のように、それ自身キーワードとして登録されていない検索文字列を入力した場合には、検索結果の文書数は0件になってしまう。その場合、利用者が新たに全文検索モードを選択すると、全文検索部117は、「旅行ブーム」という文字列と文書格納部111に格納された各文書との文字列照合を実行し、「旅行ブーム」の文字列を含む文書、即ち、文書番号26の文書を検出する。つまり、「旅行ブーム」という文字列を含む文書を網羅的に求めたい場合には、利用者は全文検索モードを指定することによって、該当文書を検索することができる。

0063

この装置の検索動作の手順を図12フローチャートに示している。

0064

ステップ31:利用者が入出力部118より検索条件の文字列と検索モードとを入力すると、
ステップ32:検索モードがキーワード検索モードであるときは、ステップ33〜ステップ38の手順を実行する。この手順は第2実施例の手順(図7)(ステップ22〜ステップ26)と同じである。

0065

ステップ32において、検索モードがキーワード検索モードでないときは、
ステップ34:全文検索部117は、検索格納部111から検索対象文書を順番に読出し、その文書の全文と検索条件の文字列とを照合して、その文字列を含む対象文書を求める。

0066

このように第3実施例の文書検索装置では、検索モードの選択が可能であり、利用者は、網羅的な検索を希望する場合に全文検索モードを選択し、また、精度の高い検索を希望する場合にキーワード検索モードを選択することができる。また、一旦全文検索モードで検索を実行し、検索結果件数が多い場合にキーワード検索モードに変更して検索結果を絞り込んだり、あるいは、一旦キーワード検索モードを実行し、検索結果件数が0件またはそれに近い場合に、全文検索モードを選択して更に関連文書を求める、といった、柔軟で、効率的な検索を行なうことができる。

0067

(第4実施例)第4実施例の文書検索装置は、同義語による検索を効率化することができる。この装置は、図14に示すように、入出力部150から入力される検索条件の文字列を同義語に変換する検索文字列変換部148と、この変換に使用される同義語辞書149とを備えている。その他の構成は第3実施例の装置(図11)と変わりがない。

0068

同義語辞書149には、図16に示すように、同じ意味を有する同義語の単語グループと、この単語グループに対応するシソーラス143中の上位語との関係が記述されている。

0069

この文書検索装置では、検索対象文書のキーワード抽出に当たって、キーワード自動抽出部144は、各文書から切出した単語と、この単語のシソーラス143中での上位語とを全てキーワードとして抽出し、キーワード抽出結果格納部145に格納する。

0070

例えば、シソーラス143において「電子計算機」「電算機」「コンピュータ」の上位語として「コンピューター」が規定されている場合には、キーワード自動抽出部144は、図28に示す文書(文書番号28)、図30に示す文書(文書番号30)及び図32に示す文書(文書番号32)から、それぞれ図29、31、33のキーワードを抽出する。これらのキーワードは、キーワード抽出結果格納部145に図17に示す状態で登録される。

0071

キーワードの登録後、文書検索を行なおうとする利用者は、入出力部150から検索文字列を入力するとともに、キーワード検索モードか全文検索モードかを選択する。例えば、キーワード検索モードが選択され、「電子計算機」という検索文字列が入力されると、検索文字列変換部148は、選択されたモードがキーワード検索モードであるときは、同義語辞書149から、「電子計算機」を含む同義語グループの上位語となるキーワード「コンピューター」を探して、キーワード検索部146に伝える。

0072

キーワード検索部146は、これを受けて「コンピューター」というキーワードを持つ文書をキーワード抽出結果格納部145から探索する。キーワード抽出結果格納部145には、図17に示すように、文書番号28、30、32の文書がすべて「コンピューター」というキーワードを持つものとして登録されているので、これら3つの文書は、検索の結果、検出されることになる。

0073

このように、一旦検索文字列を、上位語となるキーワードに変換することで、「電子計算機」と同義である「電算機」「コンピュータ」などについての検索を個別に行なう必要が無くなり、キーワード検索を効率化することができる。

0074

一方、全文検索モードが選択され、「電子計算機」という検索文字列が入力されると、検索文字列変換部148は、選択されたモードが全文検索モードであるときは、「電子計算機」を含む同義語グループを同義語辞書149より探し、この同義語グループに属する単語を入出力部150を介して利用者に提示する。このときの表示画面を図18に例示している。

0075

利用者は、表示された単語の中から、一つ、あるいは複数の単語を選択する。例えば、「コンピュータ」という単語を選択すると、検索文字列変換部148は選択された文字列を全文検索部147に伝え、全文検索部147は、文書格納部141から読出した文書の全文と「コンピュータ」という単語との照合を行ない、この単語を含む文書を検出する。その結果、「コンピュータ」という単語を含む文書番号32の文書は検出されるが、文書番号28、30の文書は検出されない。

0076

こうした動作を行なう文書検索装置の動作手順を図15に示している。
ステップ41:利用者が入出力部150から検索条件の文字列と検索モードとを入力すると、
ステップ42:検索モードがキーワード検索モードであるときは、
ステップ43:検索文字列変換部148は、同義語辞書149から検索文字列の属する同義語の単語グループの上位語を求め、
ステップ44〜ステップ48:キーワード検索部146が、この上位語をキーワードに持つ文書を検索する。このステップ44〜ステップ48の手順は、第2実施例の手順(図7)(ステップ22〜ステップ26)と同じである。

0077

ステップ42において、検索モードがキーワード検索モードでないときは、
ステップ49:検索文字列変換部148は、同義語辞書149から検索文字列の属する同義語の単語グループを求め、
ステップ50:この単語グループに含まれる単語を画面に表示する。

0078

ステップ51:画面を見た利用者が、全文検索に用いる単語を選択すると、
ステップ52:全文検索部147は、文書格納部141から読出した検索対象文書と選択された単語とを照合し、その単語を含む全ての文書を検出する。

0079

このように、第4実施例の文書検索装置では、キーワード検索の場合に、検索条件文字列の上位語をキーワードとしているため、効率的な検索が可能である。また、全文検索の場合には、利用者に対して、同義語グループの中から検索条件文字列を選択する機会を与えており、利用者のニーズに即した検索を実行することができる。

0080

なお、第2実施例、第3実施例及び第4実施例の文書検索装置において、キーワード自動抽出部は、第1実施例のキーワード自動抽出装置のキーワード候補語切出し部及びキーワード候補語選択部に相当する構成とすることが望ましいが、辞書及びシソーラスを用いて検索対象文書から適切なキーワードを抽出することができる他の構成を採ることも可能である。

発明の効果

0081

以上の実施例の説明から明らかなように、本発明のキーワード自動抽出装置は、複数の意味を持つ単語、あるいは間違いやすい単語に対して、利用者の意図を確認してからキーワードとして抽出しているため、文書の内容に即した適切なキーワードの抽出が可能であり、その結果、キーワード検索における精度を向上させることができる。

0082

また、本発明の文書検索装置は、入力された検索キーワードが複数の意味を持つ場合に、利用者の検索意図を明確にした上で検索を実行しているため、精度の高い検索結果を効率的に得ることができる。

0083

また、キーワード検索モードと全文検索モードとを選択できる文書検索装置では、利用者の意図に沿った、柔軟で精度の高い検索が可能である。

0084

さらに、同義語辞書を備えた文書検索装置では、同義語によるキーワード検索を効率化することができ、また、全文検索に際しては、検索文字列に用いる同義語を選択することができ、利用者のニーズに即した全文検索が可能である。

図面の簡単な説明

0085

図1本発明の第1実施例におけるキーワード自動抽出装置の構成を示すブロック図、
図2第1実施例のキーワード自動抽出装置における動作を示すフローチャート、
図3第1実施例のキーワード自動抽出装置におけるシソーラスの概念図、
図4第1実施例のキーワード自動抽出装置における表示例(単語が複数の意味を持つ場合)、
図5第1実施例のキーワード自動抽出装置における表示例(単語が注意語の場合)、
図6本発明の第2実施例における文書検索装置の構成を示すブロック図、
図7第2実施例の文書検索装置における動作を示すフローチャート、
図8第2実施例の文書検索装置におけるシソーラスの概念図、
図9第2実施例の文書検索装置におけるキーワード抽出結果格納部の概念図、
図10第2実施例の文書検索装置における表示例(検索条件が複数の意味を持つ場合)、
図11本発明の第3実施例における文書検索装置の構成を示すブロック図、
図12第3実施例の文書検索装置における動作を示すフローチャート、
図13第3実施例の文書検索装置におけるキーワード抽出結果格納部の概念図、
図14本発明の第4実施例における文書検索装置の構成を示すブロック図、
図15第4実施例の文書検索装置における動作を示すフローチャート、
図16第4実施例の文書検索装置における同義語辞書の概念図、
図17第4実施例の文書検索装置におけるキーワード抽出結果格納部の概念図、
図18第4実施例の文書検索装置における表示例(同義語を表示する場合)
図19従来のキーワード自動抽出装置の構成を示すブロック図、
図20検索対象文書(文書番号20)の例、
図21検索対象文書(文書番号20)を単語分割した例、
図22検索対象文書(文書番号20)から抽出されるキーワードの例、
図23従来のキーワード自動抽出装置でのキーワード抽出結果格納部の概念図、
図24検索対象文書(文書番号24)の例、
図25検索対象文書(文書番号24)から抽出されるキーワードの例、
図26検索対象文書(文書番号26)の例、
図27検索対象文書(文書番号26)から抽出されるキーワードの例、
図28検索対象文書(文書番号28)の例、
図29検索対象文書(文書番号28)から抽出されるキーワードの例、
図30検索対象文書(文書番号30)の例、
図31検索対象文書(文書番号30)から抽出されるキーワードの例、
図32検索対象文書(文書番号32)の例、
図33検索対象文書(文書番号32)から抽出されるキーワードの例である。

--

0086

11、61、111、141、191文書格納部
12、62、112、142、192辞書
13、63、113、143、193シソーラス
14キーワード候補語切出し部
15 キーワード候補語選択部
16、67、118、150入出力部
17、65、115、145、195キーワード抽出結果格納部
64、114、144、194キーワード自動抽出部
66、116、146キーワード検索部
117、147全文検索部
148検索文字列変換部
149 同義語辞書

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ