図面 (/)

技術 情報検索性能評価方法および情報検索性能評価装置並びに情報検索性能評価処理プログラムを記録した記録媒体

出願人 セイコーエプソン株式会社
発明者 萱原直樹
出願日 1999年3月23日 (21年4ヶ月経過) 出願番号 1999-077896
公開日 2000年10月6日 (19年10ヶ月経過) 公開番号 2000-276470
状態 未査定
技術分野 検索装置
主要キーワード 性能評価プログラム 性能評価装置 結果評価 検索処理システム 抽出順 検索対象情報 合計点 本文内容
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2000年10月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

自然文を検索要求として入力することで情報検索を可能とする検索システム検索性能を定量的に評価する。

解決手段

本文とその本文に対する表題(見出し)とを1対の文書と考え、この本文とその見出しを有する文書を検索対象文書として複数用意し、たとえば、それぞれの見出しを検索要求内容とするとともに、それぞれの本文をその見出しに対して検索される検索対象情報とする。そして、ある1つの見出しを検索手段に入力し(ステップs1)、検索処理を行い(ステップs2)、それによって検索された検索結果を見出しに対する適合度に基づく順位付けを行って、その順位に基づいてその検索システムの検索処理評価を行う(ステップs3)。そして、次の見出しにを入力して同じ処理を繰り返し、それぞれの検索結果から総合的にその検索システムの検索性能の評価を行う(ステップs4,s5)。

概要

背景

膨大な量の情報の中から所望とする情報を得るため検索処理としては、従来より、主に単語のようなごく短いキーワード検索要求として検索システムに入力することによって、そのキーワードの存在する文書検索結果として出力することがごく普通に行われている。これをここではキーワード指向による情報検索と呼ぶ。

しかし、最近では、そのようなキーワード指向による情報検索だけではなく、ここでいうキーワードよりは長い文字列によって構成されているいわゆる自然文を入力することで、情報検索を可能とする検索方法出現している。これをここでは、自然文指向による情報検索と呼ぶことにする。

上述のキーワード指向による情報検索では、ユーザが単語などのキーワードを検索要求として入力することによって、データベース蓄積された多数の情報の中からそのキーワードが存在する情報を取り出して出力する。一方、自然文指向による情報検索は、ユーザがある自然文を検索要求として入力することによって、その自然文に概念的に近い内容を有する文書を探し、それがあれば、その文書を検索結果として出力するものである。

これらキーワード指向による情報検索あるいは自然文指向による情報検索のいずれであっても、入力された検索要求に対して適切な情報が検索されることが要求される。今後の動向としては、キーワード指向による情報検索もこれまでと同様、広く用いれらると考えられるが、それ以上に、自然文指向によるキーワード検索が注目されてくるものと考えられる。以下では、単に、情報検索処理と言った場合には、その情報検索処理は自然文指向による情報検索を強く意識した情報検索処理であるとする。

概要

自然文を検索要求として入力することで情報検索を可能とする検索システムの検索性能を定量的に評価する。

本文とその本文に対する表題(見出し)とを1対の文書と考え、この本文とその見出しを有する文書を検索対象文書として複数用意し、たとえば、それぞれの見出しを検索要求内容とするとともに、それぞれの本文をその見出しに対して検索される検索対象情報とする。そして、ある1つの見出しを検索手段に入力し(ステップs1)、検索処理を行い(ステップs2)、それによって検索された検索結果を見出しに対する適合度に基づく順位付けを行って、その順位に基づいてその検索システムの検索処理評価を行う(ステップs3)。そして、次の見出しにを入力して同じ処理を繰り返し、それぞれの検索結果から総合的にその検索システムの検索性能の評価を行う(ステップs4,s5)。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

本文とその本文に対する表題とを1対の文書と考え、この本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を検索要求とするとともに、他方をその検索要求に対して検索される検索対象情報とし、前記検索要求を入力することによって検索された検索結果に基づいて、検索処理システム検索性能評価を行うことを特徴とする情報検索性能評価方法

請求項2

前記検索システムの検索性能評価は、前記表題または本文の一方を検索要求として入力することによって検索された検索結果の中に、そのときの検索要求と対をなす検索対象情報が存在するか否かを判断し、対をなす検索対象情報が存在する場合には、当該対をなす検索対象情報が当該検索結果の中にどのような状態で存在しているかに基づいて行うことを特徴とする請求項1記載の情報検索性能評価方法。

請求項3

前記検索要求と対をなす検索対象情報が検索結果の中に存在する場合、どのような状態で存在しているかに基づいて検索結果評価を行う処理は、その検索要求に基づいて複数の情報を検索し、検索されたそれぞれの検索結果に対し当該検索要求との適合度に基づく順位付けを行い、その順位に基づいてその検索システムの検索性能評価を行うことを特徴とする請求項2記載の情報検索性能評価方法。

請求項4

前記本文とその表題を有する文書を複数種類用意し、それぞれの検索要求を1つ1つ与えて、それぞれの検索要求に対する検索結果を総合して検索性能評価を行うことを特徴とする請求項1から3のいずれか1項に記載の情報検索性能評価方法。

請求項5

本文とその本文に対する表題とを1対の文書と考え、この本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求とするとともに、他方をその検索要求に対して検索される検索対象情報とし、前記検索要求を入力することによって検索された検索結果に基づいて、検索処理システムの検索性能評価を行う情報検索性能評価装置であって、この情報検索性能評価装置は、前記検索対象情報を格納する記憶手段と、前記検索要求が入力されることによって、前記記録手段から当該検索要求に基づいた検索を行う検索手段と、この検索手段によって検索された検索結果に基づいて検索処理システムの検索性能評価を行う検索結果評価手段と、を有することを特徴とする情報検索性能評価装置。

請求項6

前記結果評価手段が行う検索システムの検索性能評価は、前記表題または本文の一方を検索要求として入力することによって検索された検索結果の中に、そのときの検索要求と対をなす検索対象情報が存在するか否かを判断し、対をなす検索対象情報が存在する場合には、当該対をなす検索対象情報が当該検索結果の中にどのような状態で存在しているかに基づいて行うことを特徴とする請求項5記載の情報検索性能評価装置。

請求項7

前記検索結果評価手段が行う前記検索要求と対をなす検索対象情報が検索結果の中に存在する場合、どのような状態で存在しているかに基づいて検索結果評価を行う処理は、その検索要求に基づいて複数の情報を検索し、検索されたそれぞれの検索結果に対し当該検索要求との適合度に基づく順位付けを行い、その順位に基づいてその検索システムの検索性能評価を行うことを特徴とする請求項6記載の情報検索性能評価装置。

請求項8

前記本文とその表題を有する文書を複数種類用意し、それぞれの検索要求を1つ1つ与えて、それぞれの検索要求に対する検索結果を総合して検索性能評価を行うことを特徴とする請求項5から7のいずれか1項に記載の情報検索性能評価装置。

請求項9

本文とその本文に対する表題とを1対の文書と考え、この本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求とするとともに、他方をその検索要求に対して検索される検索対象情報とし、前記検索要求を入力することによって検索された検索結果に基づいて検索処理システムの検索性能評価を行う情報検索性能評価処理プログラムを記録した記録媒体であって、その情報検索性能評価処理プログラムは、前記検索要求が入力されることによって、その検索要求と対をなす情報を検索結果として出力する手順と、これによって検索された検索結果に基づいて検索処理システムの検索性能評価を行う手順と、を含むことを特徴とする情報検索性能評価処理プログラムを記録した記録媒体。

請求項10

前記検索システムの検索性能評価は、前記表題または本文の一方を検索要求として入力することによって検索された検索結果の中に、そのときの検索要求と対をなす検索対象情報が存在するか否かを判断し、対をなす検索対象情報が存在する場合には、当該対をなす検索対象情報が当該検索結果の中にどのような状態で存在しているかに基づいて行うことを特徴とする請求項9記載の情報検索性能評価処理プログラムを記録した記録媒体。

請求項11

前記検索要求と対をなす検索対象情報が検索結果の中に存在する場合、どのような状態で存在しているかに基づいて検索結果評価を行う処理は、その検索要求に基づいて複数の情報を検索し、検索されたそれぞれの検索結果に対し当該検索要求との適合度に基づく順位付けを行い、その順位に基づいてその検索システムの検索性能評価を行うことを特徴とする請求項10記載の情報検索性能評価処理プログラムを記録した記録媒体。

請求項12

前記本文とその表題を有する文書を複数種類用意し、それぞれの検索要求を1つ1つ与えて、それぞれの検索要求に対する検索結果を総合して検索性能評価を行うことを特徴とする請求項9から11のいずれか1項に記載の情報検索性能評価処理プログラムを記録した記録媒体。

技術分野

0001

本発明は、検索システム検索性能を自動で定量的に評価する情報検索性能評価方法および情報検索性能評価装置ならびに情報検索性能評価処理プログラムを記録した記録媒体に関する。

背景技術

0002

膨大な量の情報の中から所望とする情報を得るため検索処理としては、従来より、主に単語のようなごく短いキーワード検索要求として検索システムに入力することによって、そのキーワードの存在する文書検索結果として出力することがごく普通に行われている。これをここではキーワード指向による情報検索と呼ぶ。

0003

しかし、最近では、そのようなキーワード指向による情報検索だけではなく、ここでいうキーワードよりは長い文字列によって構成されているいわゆる自然文を入力することで、情報検索を可能とする検索方法出現している。これをここでは、自然文指向による情報検索と呼ぶことにする。

0004

上述のキーワード指向による情報検索では、ユーザが単語などのキーワードを検索要求として入力することによって、データベース蓄積された多数の情報の中からそのキーワードが存在する情報を取り出して出力する。一方、自然文指向による情報検索は、ユーザがある自然文を検索要求として入力することによって、その自然文に概念的に近い内容を有する文書を探し、それがあれば、その文書を検索結果として出力するものである。

0005

これらキーワード指向による情報検索あるいは自然文指向による情報検索のいずれであっても、入力された検索要求に対して適切な情報が検索されることが要求される。今後の動向としては、キーワード指向による情報検索もこれまでと同様、広く用いれらると考えられるが、それ以上に、自然文指向によるキーワード検索が注目されてくるものと考えられる。以下では、単に、情報検索処理と言った場合には、その情報検索処理は自然文指向による情報検索を強く意識した情報検索処理であるとする。

発明が解決しようとする課題

0006

現在、このような情報検索処理を実現するシステムとしては様々な検索システムがある。ただし、それらの検索システムが、本当に、ユーザの検索要求に対して適切な結果を出力できるかどうか、つまり、検索システムの検索性能を定量的に評価することは難しい。

0007

それは、ユーザの入力する自然文を表す概念も、それによって検索される文書が表す概念も一意に決められるものではなく、その自然文に対してどれが適切な文書であるかの判断は、最終的には、その検索要求を入力したユーザが決めることになるからである。

0008

したがって、検索システムにおける検索性能評価は、ユーザが入力した検索要求(自然文)によって検索された検索結果を、そのユーザが見て、自分の入力した検索要求に対してどの程度納得できる内容であるかによって、その検索システムを評価するしかなかった。

0009

検索システムにおける検索性能評価を行う従来の一例を挙げるとすれば、検索対象とする複数の何らかの文書に対して、それとは全く別に検索要求を複数用意し、それぞれの検索要求に対して検索対象文書がどの程度類似しているかを人間が両者の対応付けから判断し、ある検索要求に対する正解の検索結果はどの文書であるかを決めて、実際に検索を行ってその検索結果からその検索システムを評価するというような方法がある。

0010

しかし、この従来の評価方法では、検索要求に対して検索対象文書がどの程度類似しているかを人間が両者の対応付けから判断し、ある検索要求に対する正解の検索結果はどの文書であるかを決めるなど、評価基準を決めるに際して人間が幾つもの作業を行う必要がある。また、ある検索要求に対しそれとは全く別な検索対象文書の対応付けを人間の判断によって決めると、主観的になりがちで適切な評価基準とはならないことにもなり、適正な検索性能評価が行えないという問題点もある。

0011

そこで本発明は、ある情報検索システムの検索性能評価を行う際の評価基準を簡単にしかも適切に決めることができ、それによって適正な検索性能評価を可能とすることを目的としている。

課題を解決するための手段

0012

上述の目的を達成するために、本発明の情報検索性能評価方法は、本文とその本文に対する表題とを1対の文書と考え、この本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求とするとともに、他方をその検索要求に対して検索される検索対象情報とし、前記検索要求を入力することによって検索された検索結果に基づいて、検索処理システムの検索性能評価を行うようにしている。

0013

また、本発明の情報検索性能評価装置は、本文とその本文に対する表題とを1対の文書と考え、この本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求とするとともに、他方をその検索要求に対して検索される検索対象情報とし、前記検索要求を入力することによって検索された検索結果に基づいて、検索処理システムの検索性能評価を行う情報検索性能評価装置であって、この情報検索性能評価装置は、前記検索対象情報を格納する記憶手段と、前記検索要求が入力されることによって、前記記録手段から当該検索要求に基づいた検索を行う検索手段と、この検索手段によって検索された検索結果に基づいてその検索処理システムの検索性能評価を行う検索結果評価手段とを有した構成としている。

0014

また、本発明の情報検索性能評価処理プログラムを記録した記録媒体であって、その情報検索性能評価処理プログラムは、本文とその本文に対する表題とを1対の文書と考え、この本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求とするとともに、他方をその検索要求に対して検索される検索対象情報とし、前記検索要求を入力することによって検索された検索結果に基づいて、検索処理システムの検索性能評価を行う情報検索性能評価プログラムを記録した記録媒体であって、その情報検索性能評価プログラムは、前記検索要求が入力されることによって、その検索要求と対をなす情報を検索結果として出力する手順と、これによって検索された検索結果に基づいてその検索処理システムの検索性能評価を行う手順とを含むものである。

0015

これらそれぞれの発明において、前記検索システムの検索性能評価は、前記表題または本文の一方を検索要求として入力することによって検索された検索結果の中に、そのときの検索要求と対をなす検索対象情報が存在するか否かを判断し、対をなす検索対象情報が存在する場合には、当該対をなす検索対象情報が当該検索結果の中にどのような状態で存在しているかに基づいて行うようにしている。

0016

そして、前記検索要求と対をなす検索対象情報が検索結果の中に存在する場合、どのような状態で存在しているかに基づいてその検索処理システムの検索結果評価を行う処理は、その検索要求に基づいて複数の情報を検索し、検索されたそれぞれの検索結果に対し当該検索要求との適合度に基づく順位付けを行い、その順位に基づいてその検索システムの検索性能評価を行うようにしている。

0017

また、前記本文とその表題を有する文書を複数種類用意し、それぞれの検索要求を1つ1つ与えて、それぞれの検索要求に対する検索結果を総合して検索性能評価を行うようにしてもよい。

0018

本発明は、ある情報検索システムに検索要求を与えたとき、その検索要求に対して適切な情報が検索されるか否かを定量的に評価可能とするもので、これを実現するために、本発明では、本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求とし、他方を検索対象情報として、その検索要求を入力したとき、どのような情報が検索されるかによってその検索システムの検索性能を評価するようにしている。

0019

たとえば、新聞を例に取れば、見出しがあってその見出しに対する本文が存在する。この見出しは、本文内容簡潔に表したものであり、仮に見出しを検索要求として与えたとき、その見出しと対をなす本文が検索されればその検索処理は適正になされたといえる。

0020

本発明は、このように、表題または本文の一方を前記検索要求とし、他方を検索対象情報として、その検索要求を入力したとき、どのような情報が検索されるかによってその検索システムの検索性能を評価するようにしているので、それぞれの検索システムの検索性能を的確にしかも定量的に評価することができる。

0021

その評価の仕方としては、たとえば、表題を検索要求内容としたとすれば、その表題に基づいて複数の情報を検索し、かつ、それぞれの検索結果に対し、そのとき入力した表題との適合度に基づく順位付けを行い、その順位に基づいてその検索システムの検索処理評価を行うようにしている。これによって、その検索システムの検索性能評価を定量的に行うことができ、これをそれぞれの検索システムについて行えば、それぞれの検索システムの検索性能の比較も簡単に行える。

0022

さらに、本文とその表題を有する文書を複数種類用意することで、1つの検索システムにおいて、複数の検索を試みることができ、それぞれがどのような検索結果となるかを総合的に調べることによって、より適正に検索システムの検索性能評価を行うことができる。

発明を実施するための最良の形態

0023

以下、本発明の実施の形態について説明する。なお、この実施の形態で説明する内容は、本発明の情報検索性能評価方法および情報検索性能評価装置についての説明であるとともに、本発明の情報検索性能評価処理プログラムを記録した記録媒体における検索性能評価処理プログラムの具体的な処理内容をも含むものである。

0024

本発明は、ある検索システムについて、ユーザの入力した検索要求(自然文)に対しどの程度適切な文書が検索されたかを評価するものであるが、その評価を行うに際して、本文とそれに付された表題とを有する文書を用意し、たとえば、その表題を入力したときにその本文がどのような状態で検索されるかを調べることによって行う。

0025

たとえば、新聞を例に取れば、記事内容である本文に対してその本文の内容を簡潔に表した表題(見出しという)が付けられている。この見出しは、その本文を作成した記者などが、本文の内容の大枠読者に簡単に伝えることができるように考えられた短い文(自然文)であるといえる。

0026

したがって、本文とその本文に付された見出しとを一対として考え、見出しを検索要求として入力したときに、それと対をなす本文が検索されることが望ましい検索であると言える。

0027

そこで、これを利用して、見出しと本文で対をなす文書を多数用意し、それをデータベースに蓄積して、ある見出しを検索要求として入力し、それに対してどのような文書(本文)が検索されるかを調べることで、その検索システムの検索性能の評価を行うことができると考えられる。以下、具体例を参照しながら説明する。

0028

図1は本発明の検索システムにおける情報検索性能評価装置の実施の形態の構成図である。記憶手段1には多数の見出しQ1,Q2,Q3,・・・,Qnが蓄積されたデータベース(これを第1のデータベースという)11と、これらの見出しと対をなす本文、つまり、見出しQ1と対をなす本文D1、見出しQ2と対をなす本文D2、見出しQnと対をなす本文Dnというように、個々の見出しと対をなす本文D1,D2,D3,・・・,Dnが蓄積されたデータベース(これを第2のデータベースという)12が存在する。

0029

また、検索要求入力手段2は、第1のデータベース11から所定の見出しを抽出して、それを検索要求として検索手段3に送る。検索手段3は検索要求入力手段2からの検索要求(抽出された見出し)を受け取ると、第2のデータベース12からその見出しに基づいた情報検索を行って、その検索結果を検索結果評価手段4に送る。

0030

検索結果評価手段4は、検索手段3によって得られた検索結果が適正であるか否かの評価を行う。このとき、与えられた検索要求(見出し)と対をなす本文がどれであるかを、見出し・本文対応デーブル5を参照して調べ、それによってその検索要求に対する検索結果が適正であるか否かの評価を行うものである。なお、この具体的な評価の仕方についてはのちに説明する。

0031

図2は見出し・本文対応テーブル5の一例を示すもので、この例では、見出しQ1に対しては本文D1、見出しQ2に対しては本文D2、見出しQ3に対しては本文D3、見出しQnに対しては本文Dnというような対応付けがなされている。

0032

図3は本発明における処理手順を説明するフローチャートであり、以下、このフローチャートを参照しながら具体的な処理内容について説明する。

0033

まず、検索要求入力手段2が第1のデータベース11からある1つの見出しQ1を抽出してそれを検索手段3に送る(ステップs1)。これによって、検索手段3は、その見出しQ1を用いて第2のデータベース12から検索を行う(ステップs2)。このとき、検索手段3は、見出しQ1に対しその見出しQ1の内容に適合する複数の情報をその適合度に応じた順位で抽出する。

0034

たとえば、見出しQ1の内容に対しては、本文D1が最も適合度が高いとして本文D1が第1位で抽出され、本文D4が2番目に適合度が高いとして本文D4が第2位で抽出され、本文D3が3番目に適合度が高いとして本文D3が第3位で抽出されるというように、予め定められた順位まで(第m位まで)抽出するものとする。

0035

そして、その第m位までの検索結果を検索結果評価手段4に送る(ステップs3)。次に、処理対象とする見出しが残っているか否かを調べて(ステップs4)、処理対象となる見出しが残っていれば、ステップs1に戻って、次の見出しを抽出する。

0036

なお、この実施の形態では、説明を簡単にするために、最初に見出しQ1を抽出し、次に見出しQ2を抽出し、その次に、見出しQ3を抽出するように、その抽出順番は、見出し番号順に順次抽出されるような設定となっているものとする。また、処理対象とする見出しの数は、第1のデータベース11内に存在するすべての見出し(ここでは、すべての見出しとして見出しQ1〜Qnが存在する)としてもよいが、予め何個の見出しを処理対象とするかを決めておいてもよい。たとえば、ここでは、説明を簡単にするために、5個の見出し(見出しQ1〜Q5)を処理対象の見出しとする。また、適合度の順位はこの実施の形態では第10位までとし、第10位までを抽出するものとする。

0037

前述の図3のフローチャートに説明が戻る。現在の処理対象の見出しがQ1であったとすれば、この場合まだ、処理対象となる見出しが残っているので、次の処理対象となる見出し(この場合は、見出しQ2)を検索要求入力手段2が抽出して、それを検索手段3に送って、その見出しQ2による検索処理を行う。これによって、検索手段3は、見出しQ2に対しその見出しQ2の内容に適合する複数の情報をその適合度に応じた順位で抽出する。

0038

たとえば、見出しQ2の内容に対して、本文D7が第1位の適合度であるとして抽出され、本文D2が第2位の適合度であるとして抽出され、本文D5が第3位の適合度であるとして抽出されるというように、予め定められた順位(10番目まで)までを抽出する。

0039

このような処理を処理対象となる見出しQ5まで繰り返す。これによって得られた検索結果一覧図4に示す。この検査結果一覧は、今現在、評価対象となっている検索システムが検索システムST1であるとすれば、その検索システムST1における検索結果である。

0040

この図4において、見出しQ1〜Q5に対し、それぞれ第1位で検索された検索結果に注目してみると、この検索システムST1は、見出しQ1に対しては本文D1が第1位で検出され、見出しQ2に対しては本文D7が第1位で検出され、見出しQ3に対しては本文D3が第1位で検出され、見出しQ4に対しては本文D2が第1位で検出され、見出しQ5に対しては本文D5が第1位で検出されるというような検索結果となっている。

0041

検索結果評価手段4は、図2に示される見出し・本文対応テーブルを参照して、本来、どの見出しとどの本文が対をなしているかを調べ、それによって評価を行ってその評価結果を出力する(ステップs5)。たとえば、見出しQ1を検索要求とした場合、それと対をなす本文D1が当該検索結果の中にどのような状態で存在しているかを判断し、その判断結果に基づいてその検索処理システムの検索性能評価を行う。

0042

図4で示される検索結果一覧では、見出しQ1,Q3,Q5に対してはそれらと対をなす本文D1,D3,D5がそれぞれ第1位で検索され、見出しQ2に対してはそれと対をなす本文D2が第2位、見出しQ4に対してはそれと対をなす本文D4が第3位で検索されている。

0043

この検索結果によれば、確かに、見出しQ2とQ4を検索要求としたとき、それぞれ対をなす本文D2,D4がそれぞれ第1位で検索されなかったが、処理対象のすべての見出Q1〜Q5で判断すると、この検索システムST1は、全体的にみれば適正な検索処理がなされる検索システムであるということができる。

0044

このような検索結果一覧を得ることによって、その検索結果一覧から、その検索処理に対する客観的な評価結果を出力することができる。なお、その評価結果の表し方は様々考えられるが、ここではその一例について説明する。

0045

たとえば、検索要求として用いられた見出しに対して第1位で検索された本文がその見出しと対をなす本文であった場合、つまり、見出しQ1を検索要求とした場合について見れば、見出しQ1に対して本文D1が第1位で検索された場合には10点、本文D1が第2位で検索された場合には9点、本文D1が第3位で検索された場合には8点というように、順位に対する点数を決めておき、その点数の合計を用いてそのシステムの評価結果とすることができる。

0046

一例として、図4の検索結果一覧で考えれば、図5に示すように、見出しQ1に対しては10点、見出しQ2に対しては9点、見出しQ3に対しては10点、見出しQ4に対しては8点、見出しQ5に対しては10点というような点数が付けられる。そして、処理対象のすべての見出しQ1〜Q5に対する合計点を出し、その合計点を評価結果とすることができる。この評価結果は点数そのものでもよいが、その点数に基づいて、たとえば、5段階評価などの形で表現することもできる。

0047

そして、このような処理を他の検索システム(たとえば、検索システムST2,ST3とする)についても行い、それぞれの検索システムST2,ST3それぞれについて、処理対象のすべての見出しQ1〜Q5に対する合計点を出し、その合計点を評価結果とする。図6は検索システムST1,ST2,ST3における処理対象のすべての見出しQ1〜Q5に対する合計点と、その合計点を合計して得られた評価結果を示すものである。これによれば、システムST1の評価結果が他の検索システムST2,ST3に比べて最も高く、これら3つの検索システムのなかでは最も優れた検索処理システムであることがわかる。

0048

以上説明したように、この実施の形態によれば、処理対象となる見出しとして見出しQ1〜Q5を選び、これらの見出しQ1,Q2,Q3,Q4,Q5をそれぞれ検索要求として検索システムに入力して、その検索要求によって実際に検索処理を行わせる。そして、実際に検索された情報(本文)がどのような本文であるか否かを調べる。

0049

つまり、検索要求である見出しに対しては、それと対をなす本文が検索されるのが最も望ましいので、たとえば、見出しQ1に対しては本文D1がどのような順位で検索されるのかを調べることによって、その検索システムに対する評価を行うことができる。

0050

この実施の形態では、1つ1つの見出しについて第1位で検索された場合に10点、第2位に検索された場合に9点などというように、それぞれの見出しごとに、順位に対応した点数を付けてその合計点を評価結果とし、その評価結果によって検索システムを客観的に評価することができる。

0051

なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、それぞれの検索システムの検索処理を評価する評価結果の求めかたは、前述の実施の形態の例に限られるものではなく、その他にも様々な方法がある。たとえば、前述の実施の形態では、第1位から順に直線的な変化での点数の付け方であったが、たとえば、高順位に対してはより高い点数となるような重みづけを行った曲線的な変化となるような点数の付け方であってもよい。

0052

また、たとえば、処理対象となる見出しの数を5種類としたとき、その5種類の見出しについてそれぞれ検索を行った結果、それぞれの見出しと対をなす本文が第1位となった回数を求め、その回数の数によって評価結果を求めることもできる。一例として、5種類の見出しがあったとすると、そのうち、4個の見出しについて第1位になった場合、その「4」という値(その値そのものを評価結果としてもよいが、その値に基づいて何らかの形で評価結果を求めるようにしてもよい)。

0053

また、第1位になった確率を求めて評価結果を得るようにしてもよい。その一例として、5種類の見出しがあったとすると、そのうち、4個の見出しについて第1位になった場合、1位となった確率(この場合、80%)をその評価結果としてもよい。この場合も、その確率そのものを評価結果としてもよいが、その確率に基づいて何らかの形で評価結果を求めるようにしてもよい。

0054

さらに、順位にしきい置を設定して、そのしきい値以内に検索要求となっている見出しと対をなす本文があるか否かによって、そのシステムの検索性能評価とするようにしてもよい。たとえば、しきい値を第3位に設定したとすれば、第3位以内で対をなす本文が検索された場合には、プラスの評価をし、第3位内で検索されない場合にはマイナスの評価をして、プラスの数をカウントとしてその数によって評価するというようなこともできる。これは大まかな評価となるが、検索システムの検索処理の性能を知る目安とするには十分である。

0055

このように、それぞれの検索システムを評価する方法は様々考えられ、どのような形で評価を行うかは特に限定されるものではない。

0056

また、前述の実施の形態では、見出しを検索要求として第1のデータベースに蓄積し、本文を検索対象文書として第2のデータベースに蓄積して、その見出しに対してどのような本文が検索されるかを調べたが、逆に、本文を検索要求として第1のデータベースに蓄積し、見出しを検索対象文書として第2のデータベースに蓄積し、本文を検索要求として入力し、その本文に対してどのような見出しが検索されるかを調べ、その結果によってその検索システムを評価するようにしてもよい。

0057

さらに、前述の実施の形態では、検索結果評価手段が検索結果についての評価を行う際、現在、処理を行っている見出しがどれであるか、そして、その見出しと対をなす本文がどれであるかを、見出し・本文対応テーブルの内容を参照して調べていたが、テーブルを参照するのではなく、検索手段が現在どの見出しについて検索処理を行っているかの情報を検索手段から受けたり、それに対をなす本文はどれであるかの情報を第2のデータベースから直接受けるようにすればテーブルは特に必要ではなくなる。

0058

さらに、前述の実施の形態では、表題(見出し)と本文を有する文書として、新聞の記事を例にとって説明したが、これは新聞に限られるものではなく、表題と本文が対をなして存在する文書であれば特に限定されるものではない。

0059

また、前述の実施の形態では、検索要求として用いられる見出しは、第1のデータベースに格納しておいて、検索要求入力手段2がその第1のデータベースから検索要求としての見出しを1つ1つ抽出するようにしたが、この検索要求は、必ずしもデータベースに蓄積しておくことはなく、人間がその都度、評価を行うために予め用意された検索要求(この実施の形態では見出し)を入力して、その入力された見出しに基づいて検索処理を行うようにすることもできる。

0060

また、以上説明した本発明の処理を行う検索性能評価処理プログラムは、フロッピィディスク光ディスクハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークからその処理プログラムを得るようにしてもよい。

発明の効果

0061

以上説明したように本発明によれば、本文とその表題を有する文書を検索対象文書として用意し、表題または本文の一方を前記検索要求内容とし、他方を検索対象情報として、その検索要求を入力したとき、どのような情報が検索されるかによってその検索システムの検索性能を評価するようにしている。たとえば、新聞を例に取れば、見出しがあってその見出しに対する本文が存在する。この見出しは、本文内容を簡潔に表したものであり、仮に見出しを検索要求として与えたとき、その見出しと対をなす本文が検索されればその検索処理は適正になされたといえる。

0062

このように、本発明は、従来のように、検索対象とする複数の何らかの文書に対して、それとは全く別に検索要求を複数用意し、それぞれの検索要求に対して検索対象文書がどの程度類似しているかを人間が両者の対応付けから判断し、ある検索要求に対する正解の検索結果はどの文書であるかを決めるというように、評価基準を決めるに際して人間が幾つもの作業を行う必要がなくなり、しかも、本発明では、それぞれの検索システムの検索性能を適正にしかも定量的に評価することができる。その評価の仕方としては、たとえば、表題を検索要求としたとすれば、その表題に基づいて複数の情報を検索し、かつ、それぞれの検索結果に対し、そのとき入力した表題との適合度に基づく順位付けを行い、その順位に基づいてその検索システムの検索処理評価を行うようにしている。

0063

これによって、その検索システムの検索性能評価を自動的にしかも定量的に行うことができ、これをそれぞれの検索システムについて行えば、それぞれの検索システムの検索性能の比較も簡単に行える。さらに、本文とその表題を有する文書を複数種類用意することで、1つの検索システムにおいて、複数の検索を試みることができ、それぞれがどのような検索結果となるかを総合的に調べることによって、より正確に検索システムの検索性能評価を行うことができる。

図面の簡単な説明

0064

図1本発明の検索性能評価装置の実施の形態を説明する構成図である。
図2本発明の実施の形態で用いられる新聞の見出しとその本文の対応付けを示すテーブルを説明する図である。
図3本発明の実施の形態の検索性能評価処理手順を説明するフローチャートである。
図4ある検索システムST1における検索要求としての見出しQ1〜Q5に対する検索結果一覧の一例を示す図である。
図5ある検索システムST1における検索要求としての見出しQ1〜Q5に対する検索結果の評価結果を説明する図である。
図6複数の検索システムST1,ST2,ST3における検索要求としての見出しQ1〜Q5に対する検索結果の評価結果を説明する図である。

--

0065

1 記憶手段
2検索要求入力手段
3検索手段
4 検索結果評価手段
5 見出し・本文対応テーブル
11 第1のデータベース
12 第2のデータベース
Q1,Q2,Q3,・・・,Q5 見出し(表題)
D1,D2,D3,・・・,D5 本文

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ