図面 (/)

技術 情報検索装置、方法、及び記憶媒体

出願人 キヤノン株式会社
発明者 小林雄二
出願日 2000年10月13日 (18年9ヶ月経過) 出願番号 2000-313661
公開日 2002年4月26日 (17年2ヶ月経過) 公開番号 2002-123550
状態 未査定
技術分野 イメージ処理・作成 検索装置 計算機におけるファイル管理
主要キーワード 搬機器 概念表現 情報特徴量 展開判定 ペンギン 複数次元 DF値 意味素
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2002年4月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (18)

課題

検索対象表現する検索要求語の語数が多数あっても検索処理速度を低下させず、また検索要求語毎に関連語展開処理をするか否かの指定を与える操作を不必要にする。

解決手段

複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報蓄積文書217に予め格納する。所望のマルチメディア情報を検索するための検索文を外部から受け取ると(201)、該受け取った検索文を構成する検索語のうち1つの検索語を選択し、検索語展開辞書206を参照して、前記選択された検索語に対応する展開語を取得する(205)。次に、前記取得された展開語の概念特徴を第1の評価尺度によって表現し(209)、また、前記格納された各文字情報の概念特徴を第2の評価尺度によって表現する(221)。そして、前記第1の評価尺度と前記第2の評価尺度とを基に、前記選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する(214)。

概要

背景

従来、複数のマルチメディア情報を管理し、その管理されているマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置考案されている。すなわち、マルチメディア情報が例えば画像であり、それらのコンテンツ内容記述する文書あるいは文字が各画像に付随されて管理されている情報検索装置に、所望の検索対象を表す語あるいは文が入力された場合、情報検索装置では、入力された語あるいは文と一致する語あるいは文が付随された画像を検索することが行なわれる。また、入力された語あるいは文と一致する語あるいは文が付随された画像(マルチメディア情報)を単に検索するのみならず、入力された語あるいは文と類似な概念と判断される語あるいは文が付随された画像(マルチメディア情報)を検索し得る情報検索装置も考案されている。

ところで、特に検索対象を表現する検索要求文が短い場合あるいは検索要求文が単一の語で表されるような場合、関連語展開によって、入力した語と関連する語を求め、関連語の概念を加味した検索要求概念に基づいて検索し、これによって所望の検索結果を得るようにする提案がなされている。

なお、関連語展開処理をするか否かを操作者が指定できるように構成された情報検索装置も考案されている。また、関連語展開処理を行うか否かを、検索対象を表現する検索要求語に応じて自動判別するよう構成された情報検索装置も考案されている。

概要

検索対象を表現する検索要求語の語数が多数あっても検索処理速度を低下させず、また検索要求語毎に関連語展開処理をするか否かの指定を与える操作を不必要にする。

複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報蓄積文書217に予め格納する。所望のマルチメディア情報を検索するための検索文を外部から受け取ると(201)、該受け取った検索文を構成する検索語のうち1つの検索語を選択し、検索語展開辞書206を参照して、前記選択された検索語に対応する展開語を取得する(205)。次に、前記取得された展開語の概念特徴を第1の評価尺度によって表現し(209)、また、前記格納された各文字情報の概念特徴を第2の評価尺度によって表現する(221)。そして、前記第1の評価尺度と前記第2の評価尺度とを基に、前記選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する(214)。

目的

本発明はこのような問題点に鑑みてなされたものであって、検索対象を表現する検索要求語の語数が多数あっても検索処理速度の低下を招かず、また検索要求語毎に関連語展開処理をするか否かの指定を与える操作が不必要な情報検索装置、方法、及び記憶媒体を提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置において、前記複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を記憶する文字情報記憶手段と、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書と、所望のマルチメディア情報を検索するための検索文を外部から受け取る受取手段と、前記受取手段によって受け取られた検索文を構成する検索語のうち1つの検索語を選択する検索語選択手段と、前記検索語展開辞書を参照して、前記検索語選択手段によって選択された検索語に対応する展開語を取得する展開語取得手段と、前記展開語取得手段によって取得された展開語の概念特徴を第1の評価尺度によって表現する第1の評価尺度表現手段と、前記文情報記憶手段によって記憶された各文字情報の概念特徴を第2の評価尺度によって表現する第2の評価尺度表現手段と、前記第1の評価尺度表現手段によって表現された第1の評価尺度と前記第2の評価尺度表現手段によって表現された第2の評価尺度とを基に、前記検索語選択手段によって選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する類似度算出手段とを有することを特徴とする情報検索装置。

請求項2

前記第1の評価尺度及び前記第2の評価尺度は、複数の意味素から成る複数次元ベクトルによってそれぞれ構成され、概念特徴は意味素の集合で表現されることを特徴とする請求項1記載の情報検索装置。

請求項3

前記第1の評価尺度及び前記第2の評価尺度は、単語の集合から構成されることを特徴とする請求項1記載の情報検索装置。

請求項4

前記受取手段によって受け取られた検索文を構成する検索語の数を所定値と比較し、該検索語の数が該所定値以下である場合に、前記検索語選択手段及び前記展開語取得手段の各作動を停止させる停止手段を更に有することを特徴とする請求項1記載の情報検索装置。

請求項5

前記検索語選択手段は、前記受取手段によって受け取られた検索文を構成する検索語のうち所定の品詞の単語を選択して前記展開語取得手段へ渡すことを特徴とする請求項1記載の情報検索装置。

請求項6

前記検索語展開辞書に記憶される展開語は、対応の検索語から連想派生可能な連想語であることを特徴とする請求項1記載の情報検索装置。

請求項7

複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置に適用される情報検索方法において、前記複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を格納する文字情報格納ステップと、所望のマルチメディア情報を検索するための検索文を外部から受け取る受取ステップと、前記受取ステップによって受け取られた検索文を構成する検索語のうち1つの検索語を選択する検索語選択ステップと、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書を参照して、前記検索語選択ステップによって選択された検索語に対応する展開語を取得する展開語取得ステップと、前記展開語取得ステップによって取得された展開語の概念特徴を第1の評価尺度によって表現する第1の評価尺度表現ステップと、前記文字情報格納ステップによって格納された各文字情報の概念特徴を第2の評価尺度によって表現する第2の評価尺度表現ステップと、前記第1の評価尺度表現ステップによって表現された第1の評価尺度と前記第2の評価尺度表現ステップによって表現された第2の評価尺度とを基に、前記検索語選択ステップによって選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する類似度算出ステップとを有することを特徴とする情報検索方法。

請求項8

前記第1の評価尺度及び前記第2の評価尺度は、複数の意味素から成る複数次元ベクトルによってそれぞれ構成され、概念特徴は意味素の集合で表現されることを特徴とする請求項7記載の情報検索方法。

請求項9

前記第1の評価尺度及び前記第2の評価尺度は、単語の集合から構成されることを特徴とする請求項7記載の情報検索方法。

請求項10

前記受取ステップによって受け取られた検索文を構成する検索語の数を所定値と比較し、該検索語の数が該所定値以下である場合に、前記検索語選択ステップ及び前記展開語取得ステップの各実行を停止させる停止ステップを更に有することを特徴とする請求項7記載の情報検索方法。

請求項11

前記検索語選択ステップは、前記受取ステップによって受け取られた検索文を構成する検索語のうち所定の品詞の単語を選択して前記展開語取得ステップへ渡すことを特徴とする請求項7記載の情報検索方法。

請求項12

前記検索語展開辞書に記憶される展開語は、対応の検索語から連想派生可能な連想語であることを特徴とする請求項7記載の情報検索方法。

請求項13

複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置に適用される情報検索方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、前記情報検索方法が、前記複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を格納する文字情報格納ステップと、所望のマルチメディア情報を検索するための検索文を外部から受け取る受取ステップと、前記受取ステップによって受け取られた検索文を構成する検索語のうち1つの検索語を選択する検索語選択ステップと、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書を参照して、前記検索語選択ステップによって選択された検索語に対応する展開語を取得する展開語取得ステップと、前記展開語取得ステップによって取得された展開語の概念特徴を第1の評価尺度によって表現する第1の評価尺度表現ステップと、前記文字情報格納ステップによって格納された各文字情報の概念特徴を第2の評価尺度によって表現する第2の評価尺度表現ステップと、前記第1の評価尺度表現ステップによって表現された第1の評価尺度と前記第2の評価尺度表現ステップによって表現された第2の評価尺度とを基に、前記検索語選択ステップによって選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する類似度算出ステップとを有することを特徴とする記憶媒体。

請求項14

前記第1の評価尺度及び前記第2の評価尺度は、複数の意味素から成る複数次元ベクトルによってそれぞれ構成され、概念特徴は意味素の集合で表現されることを特徴とする請求項13記載の記憶媒体。

請求項15

前記第1の評価尺度及び前記第2の評価尺度は、単語の集合から構成されることを特徴とする請求項13記載の記憶媒体。

請求項16

前記情報検索方法が、前記受取ステップによって受け取られた検索文を構成する検索語の数を所定値と比較し、該検索語の数が該所定値以下である場合に、前記検索語選択ステップ及び前記展開語取得ステップの各実行を停止させる停止ステップを更に有することを特徴とする請求項13記載の記憶媒体。

請求項17

前記検索語選択ステップは、前記受取ステップによって受け取られた検索文を構成する検索語のうち所定の品詞の単語を選択して前記展開語取得ステップへ渡すことを特徴とする請求項13記載の記憶媒体。

請求項18

前記検索語展開辞書に記憶される展開語は、対応の検索語から連想派生可能な連想語であることを特徴とする請求項13記載の記憶媒体。

技術分野

0001

本発明は、情報検索装置、方法、及び記憶媒体に関し、特に、複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置、該情報検索装置に適用される情報検索方法、及び該情報検索方法を実行するプログラムを記憶した記憶媒体に関する。

背景技術

0002

従来、複数のマルチメディア情報を管理し、その管理されているマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置が考案されている。すなわち、マルチメディア情報が例えば画像であり、それらのコンテンツ内容記述する文書あるいは文字が各画像に付随されて管理されている情報検索装置に、所望の検索対象を表す語あるいは文が入力された場合、情報検索装置では、入力された語あるいは文と一致する語あるいは文が付随された画像を検索することが行なわれる。また、入力された語あるいは文と一致する語あるいは文が付随された画像(マルチメディア情報)を単に検索するのみならず、入力された語あるいは文と類似な概念と判断される語あるいは文が付随された画像(マルチメディア情報)を検索し得る情報検索装置も考案されている。

0003

ところで、特に検索対象を表現する検索要求文が短い場合あるいは検索要求文が単一の語で表されるような場合、関連語展開によって、入力した語と関連する語を求め、関連語の概念を加味した検索要求概念に基づいて検索し、これによって所望の検索結果を得るようにする提案がなされている。

0004

なお、関連語展開処理をするか否かを操作者が指定できるように構成された情報検索装置も考案されている。また、関連語展開処理を行うか否かを、検索対象を表現する検索要求語に応じて自動判別するよう構成された情報検索装置も考案されている。

発明が解決しようとする課題

0005

しかしながら、上記の関連語展開機能を備えた従来の情報検索装置では、検索対象を表現する語の数が多数存在する場合、関連語展開処理が多数発生し、検索処理速度の低下を招くという問題があった。

0006

また、関連語展開処理をするか否かを操作者が指定するように構成された情報検索装置においては、検索要求語毎に指定を与える操作が必要であり、操作性が低下するという問題があった。

0007

また、関連語展開処理を行うか否かを、検索要求語に応じて自動判別するよう構成された情報検索装置において、検索要求文に、関連語展開処理を行うと判別された検索要求語が多数含まれていた場合、やはり、関連語展開処理が多数発生し、検索処理速度が低下するという問題があった。

0008

本発明はこのような問題点に鑑みてなされたものであって、検索対象を表現する検索要求語の語数が多数あっても検索処理速度の低下を招かず、また検索要求語毎に関連語展開処理をするか否かの指定を与える操作が不必要な情報検索装置、方法、及び記憶媒体を提供することを目的とする。

課題を解決するための手段

0009

上記目的を達成するために、請求項1記載の発明によれば、複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置において、前記複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を記憶する文字情報記憶手段と、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書と、所望のマルチメディア情報を検索するための検索文を外部から受け取る受取手段と、前記受取手段によって受け取られた検索文を構成する検索語のうち1つの検索語を選択する検索語選択手段と、前記検索語展開辞書を参照して、前記検索語選択手段によって選択された検索語に対応する展開語を取得する展開語取得手段と、前記展開語取得手段によって取得された展開語の概念特徴を第1の評価尺度によって表現する第1の評価尺度表現手段と、前記文情報記憶手段によって記憶された各文字情報の概念特徴を第2の評価尺度によって表現する第2の評価尺度表現手段と、前記第1の評価尺度表現手段によって表現された第1の評価尺度と前記第2の評価尺度表現手段によって表現された第2の評価尺度とを基に、前記検索語選択手段によって選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する類似度算出手段とを有することを特徴とする。

0010

また、請求項7記載の発明によれば、複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置に適用される情報検索方法において、前記複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を格納する文字情報格納ステップと、所望のマルチメディア情報を検索するための検索文を外部から受け取る受取ステップと、前記受取ステップによって受け取られた検索文を構成する検索語のうち1つの検索語を選択する検索語選択ステップと、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書を参照して、前記検索語選択ステップによって選択された検索語に対応する展開語を取得する展開語取得ステップと、前記展開語取得ステップによって取得された展開語の概念特徴を第1の評価尺度によって表現する第1の評価尺度表現ステップと、前記文字情報格納ステップによって格納された各文字情報の概念特徴を第2の評価尺度によって表現する第2の評価尺度表現ステップと、前記第1の評価尺度表現ステップによって表現された第1の評価尺度と前記第2の評価尺度表現ステップによって表現された第2の評価尺度とを基に、前記検索語選択ステップによって選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する類似度算出ステップとを有することを特徴とする。

0011

さらに、請求項13記載の発明によれば、複数のマルチメディア情報を管理し、該複数のマルチメディア情報の中から所望のマルチメディア情報を検索することが可能な情報検索装置に適用される情報検索方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、前記情報検索方法が、前記複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を格納する文字情報格納ステップと、所望のマルチメディア情報を検索するための検索文を外部から受け取る受取ステップと、前記受取ステップによって受け取られた検索文を構成する検索語のうち1つの検索語を選択する検索語選択ステップと、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書を参照して、前記検索語選択ステップによって選択された検索語に対応する展開語を取得する展開語取得ステップと、前記展開語取得ステップによって取得された展開語の概念特徴を第1の評価尺度によって表現する第1の評価尺度表現ステップと、前記文字情報格納ステップによって格納された各文字情報の概念特徴を第2の評価尺度によって表現する第2の評価尺度表現ステップと、前記第1の評価尺度表現ステップによって表現された第1の評価尺度と前記第2の評価尺度表現ステップによって表現された第2の評価尺度とを基に、前記検索語選択ステップによって選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する類似度算出ステップとを有することを特徴とする。

発明を実施するための最良の形態

0012

以下、本発明の実施の形態を、図面を参照して説明する。

0013

図1は、本発明に係る情報検索装置の一実施の形態の構成を示すブロック図である。なお、本実施の形態では、検索対象となるマルチメディア情報は文書情報である。

0014

図1において、11はマイクロプロセッサ(CPU)であり、情報検索のための演算論理判断等を行ない、またアドレスバスAB、コントロールバスCB、データバスDBを介して、それらのバスに接続された各構成要素を制御する。

0015

アドレスバスABは、CPU11が制御の対象とする構成要素を指定するためのアドレス信号転送する。コントロールバスCBは、CPU11が制御の対象とする各構成要素に対してCPU11から印加されるコントロール信号を転送する。データバスDBは、各構成要素相互間のデータ転送を行なう。

0016

12は読出し専用固定メモリ(ROM)であり、本実施の形態で実行される処理プログラム等の制御プログラムコードを記憶する。

0017

13は1ワード16ビットで構成される書込み可能なランダムアクセスメモリ(RAM)であり、各構成要素から送られた各種データの一時記憶に用いられる。また、図2を参照して後述する検索語保持部202、検索語履歴保持部203、展開語保持部207、検索概念特徴1保持部210、検索概念特徴2保持部225、検索結果保持部213を構成する。

0018

14は外部メモリ(DISK)であり、図2を参照して後述する検索語展開辞書206、概念辞書208、蓄積文書概念特徴1保持部212、蓄積文書概念特徴2保持部218、蓄積文書217、単語インデックス226を構成する。また、図2を参照して後述する検索要求入力処理部201、検索語展開処理部205、概念特徴1抽出処理部209、関連語抽出処理部211、類似概念特徴検索処理部214、概念特徴2抽出処理部221の各処理部を実行するプログラムコードが格納される。また、これらのデータ及びプログラムを格納する記憶媒体としては、ROM、フロッピー登録商標ディスクCD−ROM、DVD−ROM、メモリカード光磁気ディスクなどを用いることができる。

0019

15はキーボードKB)であり、アルファベットキーひらがなキーカタカナキー、句点等の文字記号入力キー、検索を指示する検索キーカーソル移動を指示するカーソル移動キー等の各種の機能キーを備えている。

0020

16は表示用ビデオメモリVRAM)であり、表示すべきデータの表示パターンを蓄える。

0021

17はCRTコントローラー(CRTC)であり、表示用ビデオメモリ(VRAM)16に蓄えられた内容を後述の表示装置(CRT)18に表示する役割を担う。

0022

18は陰極線管液晶パネル等の表示装置(CRT)であり、これに、ドット構成の表示パターンおよびカーソルが、CRTコントローラ(CRTC)17による制御によって表示される。

0023

19はネットワークコントローラ(NIC)であり、情報検索装置をEthernetなどのネットワークに接続する役割を担う。

0024

かかる各構成要素からなる情報検索装置においては、キーボード(KB)15からの各種の入力及びネットワークコントローラ(NIC)19から供給されるネットワーク経由の各種入力に応じて作動するものであって、キーボード(KB)15からの入力またはネットワークコントローラ(NIC)19からの入力が供給されると、まず、インタラプト信号がマイクロプロセッサ(CPU)11に送られ、マイクロプロセッサ(CPU)11が、外部メモリ(DISK)14内に記憶してある各種の制御信号読出し、それらの制御信号に従って、各種の制御が行なわれる。

0025

図2は、図1に示す情報検索装置の機能構成を示すブロック図である。

0026

図2において検索要求入力処理部201は、検索対象に関する要求事項(検索文)を受け取る。検索語保持部202は、検索要求入力処理部201で受け取った要求事項を記憶する。検索語履歴保持部203では、図9を参照して後述するように、検索要求入力処理部201で受け取った要求事項が分解されて、それに含まれる検索語が、その検索対象となる頻度等とともに記憶される。検索語展開判定部204は、検索語履歴保持部203に記憶された検索語を、関連する他の単語に展開すべきか否かを決定する。

0027

検索語展開処理部205は、検索語展開辞書206を参照して、検索語履歴保持部203に記憶された検索語を関連語(展開語)に展開する。検索語展開辞書206は、図5を参照して後述するように、単語(検索語)毎に、該単語に関連する関連語を関連度等と対応させて格納する。展開語保持部207は、検索語展開処理部205で展開された関連語を検索語とともに記憶する。

0028

概念辞書208は、図6を参照して後述するように、展開対象の各単語(検索語)の概念を、普遍的な意味素の重みを要素とする多次元ベクトルで表したものを記憶する。概念特徴1抽出処理部209は、展開語保持部207と概念辞書208と登録文書224とを参照して、検索語あるいは登録文書の概念特徴を概念特徴1として抽出する。検索概念特徴1保持部210は、概念特徴1抽出処理部209によって抽出された、検索語あるいは登録文書に対する概念特徴1を保持する。検索概念特徴2保持部225は、概念特徴2抽出処理部221によって抽出された検索語に対する概念特徴2を保持する。

0029

関連語抽出処理部211は、蓄積文書217に蓄積された各文書から、関連度の高い単語の組を抽出して、検索語展開辞書206に格納する。

0030

概念特徴2抽出処理部221は、登録文書224における概念特徴2を抽出する。蓄積文書概念特徴2保持部218は、概念特徴2抽出処理部221で抽出された概念特徴2を登録文書224と対応付けて記憶する。蓄積文書概念特徴1保持部212は、概念特徴1抽出処理部209で抽出された、登録文書224に対応する概念特徴1を保持する。

0031

類似概念特徴検索処理部214は、蓄積文書概念特徴1保持部212、検索概念特徴1保持部210、蓄積文書概念特徴2保持部218を参照して、類似概念検索処理を実行する。検索結果保持部213は、類似概念特徴検索処理部214の処理結果を保持する。

0032

図3は、表示装置18に表示され、検索文を入力するために使用される表示ウインドウを示す図である。この表示ウインドウは、検索要求入力処理部201において、操作者が類似検索の検索要求文あるいは検索要求語を指定する場合に使用される。

0033

図3において、301は検索要求入力操作を行うための表示ウインドウである。302は検索要求文あるいは検索要求語を入力する検索文入力領域である。303は入力中の検索要求文を示しており、図示においては「モバイル機器市場動向」と入力されている。304は検索文入力領域における入力位置を示す入力カーソルである。

0034

308は検索処理の実行を指定する検索実行タンであり、検索実行ボタン308をクリックすることで、指定した検索処理が実行される。309は検索処理の終了あるいは中止を指定するキャンセルボタンであり、キャンセルボタン309をクリックすると、ただちに検索処理を終了し、表示ウインドウ301を閉じて終了する。

0035

310は、検索ボタン308のクリックによって検索処理が行なわれた結果得られた検索結果を表示する検索結果表示領域であり、図3においては検索処理が未だなされていない状態であるので、何も表示されていない。

0036

次に、検索文入力領域302に検索要求文または検索要求語が入力されて検索処理が実行され、引き続き類似検索が実行される場合について、図4を参照して説明する。

0037

図4は、検索文入力領域302に検索要求文あるいは検索要求語が入力されて検索処理が実行され、その結果得られた検索結果例が表示された表示ウインドウ301を示す図である。

0038

図4において、401は図3の310に相当する検索結果表示領域である。402はランク表示領域である。後述の図10に示すステップS1002の文書概念類似検索処理が実行されて得られた各文書は、検索要求に類似している順にランク付けされ、ランク順に表示される。ランク表示領域402はそのランク順を示す。図4の表示例においては、ランク25位から30位までの検索結果が表示されている。

0039

403は検索の結果得られた各文書の表題の表示領域、404は各文書のファイル名の表示領域である。405は各文書の大意が掴める程度の内容を表示する表示領域である。文書内容表示領域405には、あらかじめ文書の書誌属性として与えられた要約文、文書から自動的に要約した要約文、あるいは文書の一部を大意として抽出した大意文などが表示される。406はエレベータバーであり、検索の結果得られた各文書を全て検索結果表示領域401に表示しきれない場合に、それらの文書の一部を表示し、表示されていない他の文書を表示するために用いられる。

0040

図4に示される表示ウインドウ301では検索結果表示領域401に、検索要求文303に示された「モバイル機器の市場動向」に対して文書内容類似検索を行った結果得られた検索結果を表示している。なお、引き続いて類似検索を行う場合、検索文入力領域302に検索文を入力するか、あるいは検索結果表示領域401に表示された各文書の中から類似検索を行ないたい文書を選択し、その選択された文書を検索文入力領域302にドラッグドロップする。このドラッグ&ドロップにより、選択された文書の内容が検索文入力領域302にコピーされる(不図示)。

0041

図5は、検索語展開辞書206の構成を示す図である。

0042

検索語展開辞書206は、展開情報を個々に識別する識別番号を収納するID欄501と、展開されるべき単語を収納する展開見出し語欄502と、展開見出し語欄502に収納された単語から連想派生可能な連想語、収納された単語に関連する関連語など、展開可能な単語を格納する展開語欄503と、展開見出し語と展開語との関連度合いを示す関連度を収納する関連度欄504と、展開語の種別を示す符号を収納するFLG欄505と、展開語欄503に収納されている単語が属する展開グループの識別番号を収納するグループID欄506とから構成される。

0043

上記の関連度欄504に収納される関連度は、0から9までの数値で表され、数値が高いほど関連性が高いことを示す。FLG欄505に収納される符号は、展開語欄503に収納されている単語が標準的に用意されている初期登録語であるか、または蓄積文書224から抽出された関連語であるかの展開語種別を示し、「S」は初期登録されている標準展開語、「A」は蓄積文書224から抽出された関連語を示す。

0044

またグループID欄506に収納される識別番号は、展開語欄503に収納されている単語が属する展開グループを示し、同じグループIDをもつ展開語どうしは同じ観点に基づいて展開されたことを表している。例えば、図5に示す検索語展開辞書の例では、グループIDが「1」を示している展開語「携帯」、「可搬」はともに、展開見出し語「モバイル」を「持ち運び運搬」という観点に基づいて展開した場合の展開語を示しており、こうした展開語はグループID「1」に属しているものとする。また、グループIDが「2」を示している展開語「携帯電話」、「携帯端末」、「ノートPC」、「ラップトップ」、「PDA」、「GPS」は、展開見出し語「モバイル」を「小型可搬機器」という観点に基づいて展開した場合の展開語を示しており、こうした展開語はグループID「2」に属しているものとする。なお、特定のグループIDを持たない展開語については、グループID欄506に値「0」を格納する。グループIDの値は、同じ展開見出し語において展開グループを識別する識別値であると同時に、その値自体が展開見出し語を展開する際の展開優先度を示す。すなわち、図5の例では、展開見出し語「モバイル」では、グループIDが「1」である展開語がまず優先的に処理対象になり、続いて「2」、「3」のグループIDを持つ展開語が処理対象となる。

0045

次に、図6は概念辞書208の構成を示す図である。

0046

概念辞書208は、単語の概念を、普遍的な意味素の重みを要素とする多次元ベクトルで表す。図6において列601(第1列目)には、概念辞書の見出しとなる単語が格納される。行602(第1行目)には、見出し単語に対する256次元で表される意味素ベクトルの各要素を表す添え字が格納される。欄603(第2列目以降および第2行目以降の欄)には、意味素ベクトルの各要素の重みを格納し、重みは0から1の間の実数をとり、意味素ベクトルの大きさが1となるよう正規化された値が格納される。

0047

概念辞書208における多次元ベクトルの要素となる普遍的な意味素とは、1つのまとまった意味概念を表すラベルであり、例えば、「これ、それ、あれ、どっち」などの語が内包している「指示の概念」、「クラス、グレード、級、ランク、順位、劣等、優劣、優等」などの語が内包している「等級の概念」、「変化、変身革新、勃興」などの語が内包している「変化の概念」、「協力挨拶団結握手、友好、国交、交友」などの語が内包している「交わりの概念」、「動物哺乳類ペンギン、人間、金魚」などの語が内包している「生物の概念」といった、特定の語に依らない各々独立した普遍的な意味素である。図6に示す例では、256種の意味素を用い、256次元の概念表現ベクトルを構成する。

0048

次に、単語インデックス226について、図7及び図8を参照して説明する。

0049

図7は単語インデックス226の構成を示す図である。

0050

単語インデックス226は、検索対象となる全登録文書において、各登録文書中に出現する単語の文書中における出現頻度を格納するテーブルである。テーブルの列701(第1列目)には各登録文書を識別するための文書IDが収納される。行702(第1行目)には、登録文書中に出現する単語を表す添え字(単語識別番号)が収納される。欄704(第2列目以降および第2行目以降で最終行の1つ前の行までの欄)には、各登録文書中に出現する単語毎の出現頻度が収納される。行703(最終行)には、各単語の出現数の総和が収納される。

0051

図8は、登録文書中に出現する単語とその単語を表す添え字(単語インデックス)との対応関係を示すテーブルの構成を示す図である。

0052

この対応テーブルは、単語欄801と添え字(単語インデックス)欄802とから構成され、例えば、単語「市場」の添え字(単語インデックス)は「56」であることが示される。

0053

図7および図8によれば、例えば文書IDが「00146」である登録文書では、添え字「56」を持つ単語「市場」が登録文書中に12回出現していることを示している。

0054

図9は検索語履歴保持部203の構成を示す図である。

0055

検索語履歴保持部203は、検索語を収納する検索語欄901と、検索語が処理対象となった頻度を収納する頻度欄902と、検索語に対して関連語抽出処理が実行されたか否かを示すフラグが収納される処理済フラグ欄903とから構成されるテーブルを保持する。処理済フラグ欄903におけるフラグ「0」は、まだ関連語抽出処理が行なわれていない検索語であることを示し、フラグ「1」は、関連語抽出処理が既に行なわれた検索語であることを示す。頻度欄902に収納された頻度は、対応の検索語が処理対象となる度に1だけカウントアップされる。

0056

次に、本実施の形態で実行される文書類似検索処理について、図10を参照して説明する。

0057

図10は、情報検索装置で実行される文書類似検索の処理の手順を示すフローチャートである。

0058

ステップS1001で、図2における検索要求入力処理部201によって検索要求入力処理を行う。この検索要求入力処理の詳細については、図11を参照して後述する。

0059

ステップS1002で、ステップS1001の実行によって入力された検索要求に従って、文書内容の概念が類似している文書を検索する文書概念類似検索処理を行う。この文書概念類似検索処理の詳細については、図12および図13を参照して後述する。

0060

ステップS1003で、ステップS1002の実行によって得られた検索結果を表示する。

0061

図11は、図10のステップS1001で実行される検索要求入力処理の詳細を示すフローチャートである。

0062

ステップS2001で、検索要求となる検索文を、図3における検索文入力領域302へ入力カーソル304の示す位置に従い入力する。検索文は単一の語であってもよいし、複数の語からなる文であってもよい。検索文の入力は、キーボード(KB)15から入力された文字コードをRAM13上の検索語保持部202に格納することにより行われる。

0063

次にステップS2002において、検索文入力領域302への検索文の入力があったか否かを判定する。その結果、検索文入力領域302への検索文の入力がなく、さらに、検索結果表示領域401に表示された検索結果文書のいずれかが検索文入力領域302へドラッグされたと検知されたならば、ステップS2003へ進み、一方、検索文入力領域302への検索文の入力があったと判定された場合、本処理を終了する。

0064

ステップS2003で、検索文入力領域302へドラッグされた文書の文書ファイル名を、検索結果表示領域401のファイル名表示領域404より取得して、当該文書を読み出しのためにオープンする。

0065

次にステップS2004で、オープンした文書の内容を読み込み、ステップS2005において、読み込んだ文書内容を検索要求文として、検索語保持部202に格納するとともに、検索文入力領域302へその内容を表示する。

0066

図12および図13は、図10のステップS1002で実行される文書概念類似検索処理の詳細を示すフローチャートである。

0067

ステップS3001で、検索語保持部202に格納されている検索文を取り出し、単語に分割する。検索文の単語への分割には公知の形態素解析処理手法を適用する。

0068

次にステップS3002で、ステップS3001の実行の結果得られた各単語を検索語履歴保持部203(図9)の検索語欄901に格納し、処理済フラグ欄903の対応フラグを0とする。なお、検索語欄901にすでに同じ単語が格納されている場合は、頻度欄902の対応頻度を1だけカウントアップする。

0069

次にステップS3003で、ステップS3001の実行の結果得られた単語の個数に応じて、検索語の展開処理を行うか否かを判定する。すなわち、単語数が所定の閾値(例えば5)より少ない場合にのみ検索語展開処理を行うようにする。

0070

検索語展開処理を行わないと判定されたならば、展開語保持部207に各単語を格納した後、ステップS3008へ進み、一方、検索語展開処理を行うと判定されたならば、ステップS3004へ進む。

0071

ステップS3004では、ステップS3001の実行の結果得られた各単語のうち、展開処理が行なわれるべき単語を決定する。すなわち、ステップS3001の実行の結果得られた単語が1個の場合は、その1語を展開対象検索語とし、複数個存在する場合は、検索文を最も端的に表現する1語を選択する。例えば、複数個の単語が「形容詞」、「名詞」の順に並んでいるとすれば、「形容詞」の係り先である「名詞」を展開対象検索語と決定するなど、展開対象検索語を決定するための不図示のパターンテンプレートを適用する。

0072

ステップS3005では、検索語展開辞書206(図5)を参照して、ステップS3004で決定された展開対象検索語に一致する単語を、展開見出し語欄502において検索する。展開対象検索語に一致する見出し語が存在する場合、その見出し語に対応する展開語欄503の展開語、関連度欄504の関連度、グループID欄506の展開グループの識別番号(グループID)を読み出して、展開語保持部207に格納する。そして、グループIDをキーにして展開語保持部207をソートする。なお、展開語保持部207には展開対象検索語自体も格納する。

0073

次にステップS3006で、展開語保持部207に格納されているグループIDのうち最も優先度の高いグループIDを検出する。

0074

ステップS3007では、ステップS3006で検出されたグループIDが付与されている展開語を展開語保持部207から取り出し、概念辞書208(図6)の列601(第1列目)に格納された見出し語において、一致するものを検索する。展開語に一致する見出し語が存在する場合、その見出し語に対応する概念ベクトルデータ(意味素ベクトルの各要素の重み)を概念辞書208の欄603より読み出す。

0075

ステップS3008で、取得した概念ベクトルデータの構成要素の成分値に対し、展開語保持部207に格納されている対応展開語の関連度を乗算し、検索要求概念特徴1データに加算して、ステップS3006で検出されたグループIDに対応する検索要求概念特徴1データを構築する。なお検索要求概念特徴1データではあらかじめ、概念ベクトルのすべての次元要素を0に初期化しておく。

0076

ステップS3009で、ステップS3006で検出されたグループIDをもつすべての展開語に対して、ステップS3007,S3008の処理を実行したか否かを判定する。その結果、すべての展開語に対して処理を終えていると判定されたならば、検索要求概念特徴1ベクトルデータに対して、各要素の2乗和が1になるように正規化を行い、検索概念特徴1保持部210に格納し、ステップS3010へ進む。一方、ステップS3009で未処理の展開語があると判定されたならば、ステップS3007へ戻る。

0077

次にステップS3010で、検索要求概念特徴1ベクトルデータが構築できたかどうかを判定する。この判定は、検索要求概念特徴1ベクトルデータがゼロベクトルではないか否かによって行なわれる。検索要求概念特徴1ベクトルデータがゼロベクトルである場合は構築できていないとして、ステップS3014へ進む。検索要求概念特徴1ベクトルデータがゼロベクトルではなく、検索要求概念特徴1ベクトルデータが構築できている場合は、ステップS3011へ進む。

0078

ステップS3011では、検索対象となる全蓄積文書における蓄積文書概念特徴1ベクトルデータを蓄積文書概念特徴1保持部212より取得する。

0079

ステップS3012で、蓄積文書概念特徴1ベクトルデータと、検索概念特徴1保持部210に格納された検索要求概念特徴1ベクトルデータとを基に、概念類似度を算出する。概念類似度は、両ベクトルデータの余弦測度によって求めることができる。算出された概念類似度は、検索文と蓄積文書との概念の類似性を示すものであり、ステップS3006で検出されたグループIDおよび蓄積文書の文書IDと対応付けて不図示のバッファメモリに一時記憶される。

0080

ステップS3013で、すべての蓄積文書に対してステップS3011およびステップS3012の処理を終えたかどうかを判定する。未処理の蓄積文書があると判定されれば、ステップS3011へ戻り、一方、すべての蓄積文書に対して処理を終えていればステップS3020へ進む。

0081

ステップS3010において、検索要求概念特徴1ベクトルデータが構築できなかったと判定された場合は、検索要求概念特徴2ベクトルデータを構築し、蓄積文書の概念特徴2ベクトルデータとの概念類似度を算出し、これによって、文書内容類似概念検索を行う。まず、ステップS3014において、ステップS3006で検出されたグループIDをもつ展開語を展開語保持部207より読み出す。

0082

次にステップS3015で、単語インデックス226(図7)を参照して、単語インデックスを次元要素とするベクトルデータを検索要求概念特徴2ベクトルデータとして構築する。すなわち、図8に示す対応テーブルの単語欄801において、ステップS3014で読み出された展開語と一致す単語を検出し、検出された単語に対応する添え字欄802の添え字(単語インデックス)を取得する。そして、その添え字をもった要素値に該単語の出現頻度を与え、一方、対応テーブルの単語欄801に一致する単語がなかった展開語においては、要素値に0を与える。

0083

ステップS3016で、ステップS3006で検出されたグループIDをもつすべての展開語に対して、ステップS3014およびステップS3015の処理を実行したか否かを判定する。未処理の展開語があると判定されればステップS3014へ戻り、一方、すべての展開語に対して処理を実行し終えていると判定されれば、検索要求概念特徴2ベクトルデータの各要素値の2乗和が1となるように正規化して、ステップS3017へ進む。

0084

ステップS3017で、蓄積文書概念特徴2ベクトルデータを蓄積文書概念特徴2保持部218より取り出し、ステップS3015で構築した検索要求概念特徴2ベクトルデータと比較する。その結果、検索要求概念特徴2ベクトルデータの次元要素のうち、蓄積文書概念特徴2ベクトルデータの次元要素に含まれないものがあれば、その次元要素の成分要素値を0としてその次元要素を蓄積文書概念特徴2ベクトルデータに追加する。

0085

ステップS3018で、ステップS3017で補正し取得した蓄積文書概念特徴2ベクトルデータと、ステップS3015で構築した検索要求概念特徴2ベクトルデータとを基に概念類似度を算出する。この概念類似度は、両ベクトルデータの余弦測度によって求めることができる。算出された概念類似度は、ステップS3006で検出されたグループIDおよび蓄積文書の文書IDと対応付けて不図示のバッファメモリに一時記憶される。

0086

ステップS3019で、全ての文書に対してステップS3017およびステップS3018の処理を実行したか否かを判定する。未処理の文書があると判定されればステップS3017へ戻り、すべての文書に対して処理をし終えていればステップS3020へ進む。

0087

ステップS3020で、展開語保持部207に未処理のグループIDがあるか否かを判定する。未処理のグループIDがあると判定されればステップS3006へ戻り、未処理のグループIDを対象に、それらの中で最も優先度の高いグループIDの検出を行なう。一方、すべてのグループIDに対して処理をし終えていればステップS3021へ進む。

0088

ステップS3021では、ステップS3012あるいはステップS3018において算出されバッファメモリに格納された概念類似度等のデータを、グループIDをキーにして降順にソートし、さらに概念類似度の降順にソートして、検索結果保持部213に格納する。

0089

かくして、文書概念類似検索処理を終了する。

0090

次に、文書登録処理について、図14を参照して説明する。

0091

図14は、情報検索装置で実行される文書登録の処理の手順を示すフローチャートである。

0092

ステップS4001で、登録文書の内容から概念特徴を抽出して登録する文書内容概念登録処理を行う。この文書内容概念登録処理の詳細については、図15を参照して後述する。

0093

次にステップS4002で、登録文書を含めた蓄積文書より検索関連語を抽出して検索語展開辞書206に登録する処理を行う。この検索関連語抽出処理の詳細については、図16を参照して後述する。

0094

次にステップS4003で、概念辞書208に見出し語として登録されていない検索語について、検索概念特徴1を推定し、追加登録を行う検索語概念抽出処理を行う。この検索語概念抽出処理の詳細については、図17を参照して後述する。

0095

図15は、図14のステップS4001で実行される文書内容概念登録処理の詳細を示すフローチャートである。

0096

ステップS5001で、検索対照である登録文書224より単語を抽出する。単語の抽出には一般に用いられる形態素解析処理の手法を適用する。

0097

次にステップS5002で、抽出された単語を単語インデックス226(図7)へ登録する。すなわち、図8に示す対応テーブルの単語欄801を参照して、抽出された単語に一致する単語を探す。一致する単語が存在すれば、その単語に対応する添え字(単語インデックス)を添え字欄802から取得する。そして、図7に示す単語インデックス226の行702においてその取得した添え字(単語インデックス)をもつ列を見つけ、その列の対象登録文書に対応する行に該登録文書内における出現頻度を格納する。一方、図8に示す対応テーブルの単語欄801に、抽出された単語に一致する単語が見つからなければ、単語欄801に該単語を追加し、添え字欄802に新たな添え字(単語インデックス)を割り振り、その新たな添え字(単語インデックス)を、図7に示す単語インデックス226の行702に加え、登録済みの登録文書の欄704の新たな添え字(単語インデックス)に対しては出現頻度として0を格納し、対象登録文書に対しては出現頻度を格納する。

0098

次にステップS5003で、単語インデックス226を参照して、文書概念特徴2ベクトルデータを構築する。すなわち、単語インデックス226において対象登録文書に対応する行データを取り出し、各添え字(単語インデックス)の出現頻度をベクトルデータの各成分要素に対応づける。

0099

ステップS5004で、概念辞書208(図6)の列601(第1列目)を参照し、ステップS5001で抽出された単語と一致する単語を探す。一致する単語が存在すれば、欄603から、その単語に対応する概念特徴1ベクトルデータを取り出す。

0100

ステップS5005で、ステップS5004にて取り出された概念特徴1ベクトルデータに出現頻度に応じた重みを乗じて、文書概念特徴1ベクトルデータに加算する。ここで頻度に乗じた重みは、文書内単語頻度(TF値)と逆文書頻度(IDF)との積に応じて決まる値である。

0101

ステップS5006で、登録文書のすべての単語に対してステップS5002〜S5005の処理を終えたか否かを判定し、未処理の単語があればステップS5002へ戻り、すべての単語について処理を終えていればステップS5007へ進む。

0102

ステップS5007で、文書概念特徴1ベクトルデータをベクトル要素の2乗和が1となるように正規化して、蓄積文書概念特徴1保持部212へ登録し、文書概念特徴2ベクトルデータも同様にベクトル要素の2乗和が1となるように正規化して長さをそろえて、蓄積文書概念特徴2保持部218へ登録する。

0103

かくして、文書内容概念登録処理を終了する。

0104

図16は、図14のステップS4002で実行される検索関連語抽出処理の詳細を示すフローチャートである。

0105

ステップS6001で、検索語履歴保持部203の検索語欄901から検索語を1つ取り出す。次にステップS6002で、検索語履歴保持部203に保持されたすべての検索語を処理したか否かを判定し、すべて処理したならば本処理を終了し、未処理の検索語があれば、ステップS6003へ進む。なお、すべての検索語を処理したか否かの判定は、検索語履歴保持部203の処理済フラグ欄903におけるフラグを参照して行なう。

0106

ステップS6003で、検索語履歴保持部203の処理済フラグ欄903において、ステップS6001で取り出された検索語のフラグを、処理済状態を表す「1」に設定する。

0107

ステップS6004で、ステップS6001で取り出された検索語について、登録文書224における出現頻度を参照して、その検索語が特定の登録文書と相関度が特異的に高い共起語であるか否かを判別する。すなわち、単語インデックス226を参照して、他の登録文書への出現頻度が低いが、注目登録文書においては特異的に共起して出現する単語であることを、文書内単語頻度(TF値)と逆文書頻度(IDF値)との積が最大になるものからランク付けして決定する。

0108

ステップS6005で、ステップS6004で取得した共起語が検索語展開辞書206(図5)の展開語欄503に登録済みであるか否かを判断し、登録済みであればステップS6004へ戻り、次の共起語を取得する。一方、ステップS6004で取得した共起語が検索語展開辞書206に登録されていなければ、ステップS6006へ進む。

0109

ステップS6006で、ステップS6005で検索語展開辞書206に未登録と判定された共起語を、ステップS6001で取り出された検索語に対応する展開語として検索語展開辞書206の展開語欄503に追加登録する。その際、ステップS6004で求めた相関度を按分して関連度欄504の値とし、FLG欄505に、追加展開語であることを示すフラグ情報「A」を対応付けて登録する。

0110

ステップS6007で、すべての共起語に対してステップS6004〜S6006の処理を行なったか否かを判定し、未処理の共起語があればステップS6004へ戻る。

0111

図17は、図14のステップS4003で実行される検索語概念抽出処理の詳細を示すフローチャートである。

0112

ステップS7001で、概念辞書208(図6)の列601(第1列目)に登録されていない未知概念語を取得する。未知概念語は、図8の対応テーブルの単語欄801に存在して、概念辞書208の列601(第1列目)に存在しない単語とする。

0113

ステップS7002で、検索語展開辞書206(図5)の展開見出し語欄502に、取得された未知概念語と同じ単語を探す。存在する場合、その単語に対応する展開語欄503の展開語(関連語)と、関連度欄504の関連度とを展開語保持部207に格納する。

0114

ステップS7003で、展開語保持部207に格納された展開語(関連語)を取得し、概念辞書208(図6)を検索して、展開語(関連語)に対応する概念特徴1ベクトルデータを取得する。もし、概念辞書208の列601(第1列目)に展開語(関連語)と同一の単語が登録されていない場合は、概念特徴1ベクトルデータをベクトル要素すべてが0であるゼロベクトルとする。

0115

ステップS7004で、ステップS7003で得られた展開語(関連語)の概念特徴1ベクトルデータに、展開語保持部207に格納された関連度を乗じたものを未知概念語の概念特徴1ベクトルデータに加算する。なお、未知概念語の概念特徴1ベクトルデータの各要素値をすべて0に予め設定してゼロベクトルに初期化しておく。

0116

ステップS7005で、展開語保持部207に格納されたすべての展開語(関連語)に対してステップS7003,S7004の処理を実行したか否かを判定し、未処理の展開語(関連語)があればステップS7003へ戻り、すべての展開語(関連語)に対して処理を実行し終えていればステップS7006へ進む。

0117

ステップS7006で、未知語概念特徴1ベクトルを各要素値の2乗和が1となるように正規化した後、概念辞書208に登録する。

0118

ステップS7007で、すべての未知概念語に対してステップS7001〜S7006の処理を実行したか否かを判定し、未処理の未知概念語があればステップS7001へ戻り、すべての未知概念語に対して処理を実行し終えたならば本処理を終了する。

0119

なお、上記実施の形態では、検索対象は文書情報であったが、文書情報以外の画像情報動画情報番組内容記述情報などのマルチメディア情報であっても、内容記述メタデータが付随されていれば、同様に検索できる。つまり、内容記述された文章情報に対して、情報特徴量抽出を行い、情報特徴量の類似測度を求めることによって、本発明を適用することができる。

0120

また以上の説明において、検索対象となる蓄積文書217、蓄積文書概念特徴1保持部212、蓄積文書概念特徴2保持部218、単語インデックス226、概念辞書208、検索語展開辞書206を、単一の装置を構成する外部メモリ(DISK)14に配置するものとして説明したが、これらを、複数の外部記憶装置分散配置し、ネットワークコントローラ(NIC)19を介してネットワーク上で処理するように構成してもよい。

0121

また、本発明は複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。

0122

また、本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成されることは言うまでもない。

0123

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

0124

プログラムコードを供給するための記憶媒体としては、例えば、フロッピーディスクハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ不揮発性のメモリカード、ROMなどを用いることができる。

0125

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。

0126

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も含まれることは言うまでもない。

発明の効果

0127

以上詳述したように請求項1、請求項7または請求項13記載の発明によれば、複数のマルチメディア情報の内容をそれぞれ言語表現した文字情報を予め格納する。所望のマルチメディア情報を検索するための検索文を外部から受け取ると、該受け取った検索文を構成する検索語のうち1つの検索語を選択し、検索語と関連性のある展開語を、該検索語と対応づけて記憶する検索語展開辞書を参照して、前記選択された検索語に対応する展開語を取得する。次に、前記取得された展開語の概念特徴を第1の評価尺度によって表現し、また、前記格納された各文字情報の概念特徴を第2の評価尺度によって表現する。そして、前記第1の評価尺度と前記第2の評価尺度とを基に、前記選択された検索語と前記複数のマルチメディア情報の各々との類似度を算出する。

0128

これによって、検索対象を表現する検索文における検索語の語数が多数であっても検索処理速度の低下を招かず、また検索語毎に関連語展開処理をするか否かの指定を与える操作が不必要であり、かくして、操作性に優れ、高速な概念類似情報検索を行うことができる情報検索装置、情報検索方法、及び記憶媒体を提供できる。

図面の簡単な説明

0129

図1本発明に係る情報検索装置の一実施の形態の構成を示すブロック図である。
図2図1に示す情報検索装置の機能構成を示すブロック図である。
図3表示装置18に表示され、検索文を入力するために使用される表示ウインドウを示す図である。
図4検索文入力領域に検索要求文あるいは検索要求語が入力されて検索処理が実行され、その結果得られた検索結果例が表示された表示ウインドウを示す図である。
図5検索語展開辞書の構成を示す図である。
図6概念辞書の構成を示す図である。
図7単語インデックスの構成を示す図である。
図8登録文書中に出現する単語とその単語を表す添え字(単語インデックス)との対応関係を示すテーブルの構成を示す図である。
図9検索語履歴保持部の構成を示す図である。
図10情報検索装置で実行される文書類似検索の処理の手順を示すフローチャートである。
図11図10のステップS1001で実行される検索要求入力処理の詳細を示すフローチャートである。
図12図10のステップS1002で実行される文書概念類似検索処理の詳細を示すフローチャート(1/2)である。
図13図10のステップS1002で実行される文書概念類似検索処理の詳細を示すフローチャート(2/2)である。
図14情報検索装置で実行される文書登録の処理の手順を示すフローチャートである。
図15図14のステップS4001で実行される文書内容概念登録処理の詳細を示すフローチャートである。
図16図14のステップS4002で実行される検索関連語抽出処理の詳細を示すフローチャートである。
図17図14のステップS4003で実行される検索語概念抽出処理の詳細を示すフローチャートである。

--

0130

11マイクロプロセッサ(CPU、受取手段、検索語選択手段、展開語取得手段、第1の評価尺度表現手段、第2の評価尺度表現手段、類似度算出手段)
12 ROM
13 RAM
14外部メモリ(DISK、文字情報記憶手段、検索語展開辞書)
15キーボード(KB)
16表示用ビデオメモリ(VRAM)
17 CRTコントローラ(CRTC)
18表示装置(CRT)
19ネットワークコントローラ(NIC)

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ