図面 (/)

技術 検索装置

出願人 シャープ株式会社
発明者 黒武者健一芥子育雄池内洋
出願日 1997年2月28日 (22年4ヶ月経過) 出願番号 1997-045039
公開日 1998年9月11日 (20年10ヶ月経過) 公開番号 1998-240759
状態 特許登録済
技術分野 検索装置
主要キーワード 意味的類似度 概念分類 文脈ベクトル 拡張検索 総合得点 内積計算 組み合わせデータ 所定順位
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1998年9月11日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題

解決手段

検索の要求文の入力手段11と、単語をN次元ベクトル空間内の単語ベクトルに対応づける単語辞書14と、単語を含むデータを複数有するデータベース15と、単語辞書を用いて要求文とデータとに含まれている単語を抽出する単語抽出手段16と、単語辞書と単語抽出手段とを用いて要求文から要求文ベクトルを生成しデータからデータベクトルを生成するベクトル生成手段17と、要求文ベクトルとデータベクトルとの類似度で要求文に適合するデータの検索を行うベクトル検索手段18と、単語抽出手段を用いて要求文のデータの検索を行うキーワード検索手段19と、前記類似度と要求文とデータとに共通に含まれる単語の個数とに基づいて要求文に適合するデータの検索を行う拡張検索手段20とを備える。

概要

背景

従来、テキストデータベース検索方法としてキーワードを用いた検索が広く使われている。検索したいキーワードを入力し、そのキーワードを含むデータを探し出すという方法である。画像データベース等については、各画像にその画像の説明文をつけておき、その説明文に対してキーワード検索を行うことによって画像の検索を行うことができる。しかし、キーワード検索では意味的に近い言葉であってもキーワードが一致しなければ検索できないという問題があった。

それに対して、意味的な検索を行う方法として、特徴ベクトルを用いた連想検索がある。特徴ベクトルとは、(社)電子情報通信学会発行の信学技法A192−99(1993)「大規模データベースからの連想検索」で提案された文脈ベクトルのことである。つまり、本発明中の「特徴ベクトル」は上記の「文脈ベクトル」にそのまま対応する。この特徴ベクトルを用いた検索として特開平6ー195388号公報がある。

特徴ベクトルとは、文章中の単語が持つ概念文脈との関係の程度を示したものであり、多数の特徴単語との意味的な結合関係の程度をベクトル表現したものである。N個の概念分類を特徴単語とすると、N次元ベクトルの各要素の値を一つ一つの特徴単語に対応させることになる。単語iの特徴ベクトルXi=(xi1,xi2,…,xiN)の各要素の値は、0≦xij≦Emとなる。Emは、正の定数である。単語iと特徴単語jとの間に関係がない場合には、xij=0になり、関係がある場合には、その関係の程度に応じて大きい値をとる。例えば、特徴ベクトルが5つの特徴単語(自然、都会騒音動物、緑)から成り立っているとし、それぞれの要素の値が0か1の2値である場合には、単語「山」の特徴ベクトルを、(1,0,0,1,1)のように表すことができる。

図4は、特徴ベクトルを用いた従来の検索装置概略構成図である。この検索装置は検索の要求文を入力するための入力手段21、検索結果を出力するための出力手段22、検索装置を制御するための制御手段23、単語辞書24、データベース25からなる。制御手段23は、単語抽出手段26、ベクトル生成手段27、ベクトル検索手段28の各機能を実現するものである。単語辞書24には、単語とその単語に対応する特徴ベクトル(以下、単語ベクトルという)が対になって記憶されている。また、データベース25には、データとそのデータに対応する特徴ベクトル(以下、データベクトルという)が対になって記憶されている。データベクトルの大きさは一定の値になるように正規化されている。

検索は入力手段21から検索の要求文を入力することによって行われる。単語抽出手段26は、単語辞書24を参照しながら入力手段21から入力された要求文中の単語を抽出する。ベクトル生成手段27は、単語抽出手段26によって抽出された要求文の単語に対応する単語ベクトルを単語辞書24から読み出し、要求文を特徴ベクトル空間内のベクトル(以下、要求文ベクトルという)に変換する。この変換は、単語抽出手段26で抽出された単語の単語ベクトルの和を計算し、そのベクトルの和の大きさが一定の値になるように正規化することで行われる。ベクトル検索手段28は、この要求文ベクトルとデータベース25中のデータベクトルとの距離を計算し、最も距離の近いデータベクトルを持つデータから順に順位をつけて検索結果として出力手段22から出力する。

概要

キーワード検索と特徴ベクトルを用いた意味的な検索を行う。

検索の要求文の入力手段11と、単語をN次元ベクトル空間内の単語ベクトルに対応づける単語辞書14と、単語を含むデータを複数有するデータベース15と、単語辞書を用いて要求文とデータとに含まれている単語を抽出する単語抽出手段16と、単語辞書と単語抽出手段とを用いて要求文から要求文ベクトルを生成しデータからデータベクトルを生成するベクトル生成手段17と、要求文ベクトルとデータベクトルとの類似度で要求文に適合するデータの検索を行うベクトル検索手段18と、単語抽出手段を用いて要求文のデータの検索を行うキーワード検索手段19と、前記類似度と要求文とデータとに共通に含まれる単語の個数とに基づいて要求文に適合するデータの検索を行う拡張検索手段20とを備える。

目的

本発明の目的は、上記問題点に鑑み、キーワード検索と特徴ベクトルを用いた検索を同時に行い、両者の結果をうまく組み合わせることによって検索結果の順位づけを行い、両者の検索結果の改善を行う検索装置を提供することにある。

効果

実績

技術文献被引用数
3件
牽制数
11件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

検索の要求文を入力する入力手段と、単語を単語ベクトルに対応づけて格納する単語辞書と、少なくとも単語を含むデータをデータベクトル対応付けて格納するデータベースと、前記単語辞書を用いて前記要求文に含まれている単語を抽出する単語抽出手段と、前記単語辞書と前記単語抽出手段とを用いて前記要求文から要求文ベクトルを生成するベクトル生成手段と、前記要求文ベクトルと前記データベクトルとの意味的類似度を前記データごとに求めるベクトル検索手段と、前記単語抽出手段を用いて前記要求文に含まれている単語と共通の単語を含む前記データを求めるキーワード検索手段と、前記意味的類似度と前記キーワード検索手段で求められたデータ中の単語と前記要求文中に含まれる単語との一致度とに基づいて前記要求文に適合するデータの検索を行う拡張検索手段と、を備えることを特徴とする検索装置

請求項2

検索の要求文を入力する入力手段と、単語を単語ベクトルに対応づけて格納する単語辞書と、少なくとも単語を含むデータを格納するデータベースと、前記単語辞書を用いて前記要求文に含まれている単語を抽出する単語抽出手段と、前記単語辞書と前記単語抽出手段とを用いて前記要求文から要求文ベクトルを生成すると共に前記データからデータベクトルを生成するベクトル生成手段と、前記要求文ベクトルと前記データベクトルとの意味的類似度を前記データごとに求めるベクトル検索手段と、前記単語抽出手段を用いて前記要求文に含まれている単語と共通の単語を含む前記データを求めるキーワード検索手段と、前記意味的類似度と前記キーワード検索手段で求められたデータ中の単語と前記要求文中に含まれる単語との一致度とに基づいて前記要求文に適合するデータの検索を行う拡張検索手段と、を備えることを特徴とする検索装置。

請求項3

請求項1または請求項2に記載の検索装置において、前記データベースのデータとそのデータに含まれる単語との関係を記憶したインデックステーブルを備え、前記キーワード検索手段は、前記単語抽出手段のかわりに前記インデックテーブルを用いて前記要求文に含まれている単語と共通の単語を含む前記データを求めることを特徴とする検索装置。

技術分野

0001

本発明は、電子ブック電子辞書等のテキストデータベーステキストによる説明文のつけられた写真動画等の画像データベース、あるいはテキストデータが複合されたマルチメディアデータベース検索装置に関するものである。

背景技術

0002

従来、テキストデータベースの検索方法としてキーワードを用いた検索が広く使われている。検索したいキーワードを入力し、そのキーワードを含むデータを探し出すという方法である。画像データベース等については、各画像にその画像の説明文をつけておき、その説明文に対してキーワード検索を行うことによって画像の検索を行うことができる。しかし、キーワード検索では意味的に近い言葉であってもキーワードが一致しなければ検索できないという問題があった。

0003

それに対して、意味的な検索を行う方法として、特徴ベクトルを用いた連想検索がある。特徴ベクトルとは、(社)電子情報通信学会発行の信学技法A192−99(1993)「大規模データベースからの連想検索」で提案された文脈ベクトルのことである。つまり、本発明中の「特徴ベクトル」は上記の「文脈ベクトル」にそのまま対応する。この特徴ベクトルを用いた検索として特開平6ー195388号公報がある。

0004

特徴ベクトルとは、文章中の単語が持つ概念文脈との関係の程度を示したものであり、多数の特徴単語との意味的な結合関係の程度をベクトル表現したものである。N個の概念分類を特徴単語とすると、N次元ベクトルの各要素の値を一つ一つの特徴単語に対応させることになる。単語iの特徴ベクトルXi=(xi1,xi2,…,xiN)の各要素の値は、0≦xij≦Emとなる。Emは、正の定数である。単語iと特徴単語jとの間に関係がない場合には、xij=0になり、関係がある場合には、その関係の程度に応じて大きい値をとる。例えば、特徴ベクトルが5つの特徴単語(自然、都会騒音動物、緑)から成り立っているとし、それぞれの要素の値が0か1の2値である場合には、単語「山」の特徴ベクトルを、(1,0,0,1,1)のように表すことができる。

0005

図4は、特徴ベクトルを用いた従来の検索装置の概略構成図である。この検索装置は検索の要求文を入力するための入力手段21、検索結果を出力するための出力手段22、検索装置を制御するための制御手段23、単語辞書24、データベース25からなる。制御手段23は、単語抽出手段26、ベクトル生成手段27、ベクトル検索手段28の各機能を実現するものである。単語辞書24には、単語とその単語に対応する特徴ベクトル(以下、単語ベクトルという)が対になって記憶されている。また、データベース25には、データとそのデータに対応する特徴ベクトル(以下、データベクトルという)が対になって記憶されている。データベクトルの大きさは一定の値になるように正規化されている。

0006

検索は入力手段21から検索の要求文を入力することによって行われる。単語抽出手段26は、単語辞書24を参照しながら入力手段21から入力された要求文中の単語を抽出する。ベクトル生成手段27は、単語抽出手段26によって抽出された要求文の単語に対応する単語ベクトルを単語辞書24から読み出し、要求文を特徴ベクトル空間内のベクトル(以下、要求文ベクトルという)に変換する。この変換は、単語抽出手段26で抽出された単語の単語ベクトルの和を計算し、そのベクトルの和の大きさが一定の値になるように正規化することで行われる。ベクトル検索手段28は、この要求文ベクトルとデータベース25中のデータベクトルとの距離を計算し、最も距離の近いデータベクトルを持つデータから順に順位をつけて検索結果として出力手段22から出力する。

発明が解決しようとする課題

0007

しかしながら、このような特徴ベクトルを用いた検索では、要求文ベクトルとデータベクトルとの距離にだけ基づいて検索を行っているため、キーワード検索のように要求文に含まれている単語を含んでいるデータを上位にして検索できるとは限らない。この検索では、キーワードを持つデータの検索が行えない、あるいはキーワードが一致するデータを検索しながら、同時に意味的な検索を行うことができないという問題点がある。

0008

一方、キーワード検索においては、特開平6ー208588号公報のように検索の要求文を形態素解析して品詞情報によってキーワードの重要度を決定して要求文とデータのキーワードが完全に一致していなくても検索が行えるというものもある。しかし、この検索も基本的にはキーワード検索であり、検索の要求文をいくつかの単語に区切って検索を行うが、意味的に近くても要求文に含まれていない単語だけからなるデータを検索することはできないという問題点がある。

0009

本発明の目的は、上記問題点に鑑み、キーワード検索と特徴ベクトルを用いた検索を同時に行い、両者の結果をうまく組み合わせることによって検索結果の順位づけを行い、両者の検索結果の改善を行う検索装置を提供することにある。

課題を解決するための手段

0010

請求項1に記載の検索装置は、検索の要求文を入力する入力手段と、単語を単語ベクトルに対応づけて格納する単語辞書と、少なくとも単語を含むデータをデータベクトルに対応付けて格納するデータベースと、前記単語辞書を用いて前記要求文に含まれている単語を抽出する単語抽出手段と、前記単語辞書と前記単語抽出手段とを用いて前記要求文から要求文ベクトルを生成するベクトル生成手段と、前記要求文ベクトルと前記データベクトルとの意味的類似度を前記データごとに求めるベクトル検索手段と、前記単語抽出手段を用いて前記要求文に含まれている単語と共通の単語を含む前記データを求めるキーワード検索手段と、前記意味的類似度と前記キーワード検索手段で求められたデータ中の単語と前記要求文中に含まれる単語との一致度とに基づいて前記要求文に適合するデータの検索を行う拡張検索手段と、を備えることを特徴とする。

0011

請求項2に記載の検索装置は、検索の要求文を入力する入力手段と、単語を単語ベクトルに対応づけて格納する単語辞書と、少なくとも単語を含むデータを格納するデータベースと、前記単語辞書を用いて前記要求文に含まれている単語を抽出する単語抽出手段と、前記単語辞書と前記単語抽出手段とを用いて前記要求文から要求文ベクトルを生成すると共に前記データからデータベクトルを生成するベクトル生成手段と、前記要求文ベクトルと前記データベクトルとの意味的類似度を前記データごとに求めるベクトル検索手段と、前記単語抽出手段を用いて前記要求文に含まれている単語と共通の単語を含む前記データを求めるキーワード検索手段と、前記意味的類似度と前記キーワード検索手段で求められたデータ中の単語と前記要求文中に含まれる単語との一致度とに基づいて前記要求文に適合するデータの検索を行う拡張検索手段と、を備えることを特徴とする。

0012

請求項3に記載の検索装置は、請求項1または請求項2に記載の検索装置において、前記データベースのデータとそのデータに含まれる単語との関係を記憶したインデックステーブルを備え、前記キーワード検索手段は、前記単語抽出手段のかわりに前記インデックテーブルを用いて前記要求文に含まれている単語と共通の単語を含む前記データを求めることを特徴とする。

発明を実施するための最良の形態

0013

以下、図面を参照して本発明の実施の形態を説明する。図1に、本発明に係る検索装置の概略構成を示す。この検索装置は、検索の要求文を入力するキーボード手書き入力するためのタブレット、あるいは音声入力するためのマイク等からなる入力手段11、検索結果を得点順に出力するディスプレイプリンタ等からなる出力手段12、検索プログラムに従って検索動作を制御するための制御手段13、単語とその単語の特徴を表す単語ベクトルを保持する単語辞書14、データとそのデータの特徴を表すデータベクトルを複数保持するデータベース15、データベース中のデータが含んでいる単語とそのデータとの関係を記憶しているインデックステーブル10からなる。制御手段13、単語辞書14、データベース15、インデックステーブル10は、CPUやメモリ外部記憶装置からなるコンピュータシステムである。

0014

本検索装置は、後述する検索動作を行うが、この動作は検索プログラムに従って行われ、この検索プログラムは記憶媒体に保持され、制御手段13のメモリ上にロードされて用いられる。制御手段13は、検索の要求文あるいはデータから単語を抽出する単語抽出手段16、要求文から要求文ベクトルを生成するベクトル生成手段17、本発明の検索を行う拡張検索手段20の各機能を実現するものである。また、拡張検索手段20は、特徴ベクトルを用いた検索を行うベクトル検索手段18、キーワード検索を行うキーワード検索手段19を備える。

0015

データベース15中のデータとしては、テキストデータ、テキストによる説明文の付けられた写真や動画の画像データ、テキストによる説明文が音声出力されるようにされた音声データ、あるいはこれらの複合的な組み合わせデータであり、各データには少なくとも一部に単語を含んでいることが必要である。また、データベクトルの大きさは一定の値になるように正規化されているが、この例では、ベクトルの大きさはベクトルの各要素の2乗和平方根で計算され、大きさが10になるように正規化されている。データベクトルは、単語辞書14を用いてデータごとに予め求めて格納しておけば、検索のたびにデータベース15からデータベクトルを生成しなくてよく、検索動作が高速になる。また、データベクトルは、データべース15中に含まれている必要はなく、データベース15中の各データとの対応関係さえ明確であれば、制御手段13に接続された記憶装置(図示せず)に格納されていてもよい。また、データベクトルは、予め保持しておくのではなく、検索を行う時に、データベース15中のテキストデータからベクトル生成手段17によって生成してもよい。こうすることにより、データベース15の記憶容量を節約できる。

0016

次に、本検索装置による検索動作について説明する。検索は入力手段11から検索の要求文を入力することによって開始される。単語抽出手段16は、単語辞書14を参照しながら入力手段11から入力された要求文中の単語を抽出する。ベクトル生成手段17は、単語抽出手段16によって抽出された要求文の単語に対応する単語ベクトルを単語辞書14から読み出し、入力された要求文を要求文ベクトルに変換する。この変換は、抽出された単語ベクトルの和を計算し、そのベクトルの和の大きさが一定の値になるように正規化することで行われる。この例では、要求文ベクトルの大きさは10になるように正規化されている。

0017

ベクトル検索手段18では、この要求文ベクトルとデータベース15中の各データに対応するデータベクトルとの距離を計算する。この例では距離計算は、2つのベクトルの内積計算を行うことによって行われる。要求文ベクトルもデータベクトルも大きさが10になるように正規化されているので、最も距離が近い場合には内積値は100になり、最も距離が離れている場合には内積値は0になる。つまり、2つのベクトルの内積値は0から100の間の値になり、内積値が大きいほど2つのベクトルの距離が近く意味的に近いことになる。ここでは、この内積値を検索の得点にして、それぞれのデータには要求文ベクトルとの内積値がベクトル検索の得点として計算される。例えば、特徴ベクトルが5次元ベクトルであったとして、要求文ベクトルVが、
V=(3,4,7,5,1)
で、データベクトルUが、
U=(1,5,3,8,1)
の場合、2つのベクトルの内積値Pは、
P=3×1+4×5+7×3+5×8+1×1=85
となる。つまり、この要求文に対するこのデータの得点は85点ということになる。

0018

キーワード検索手段19では、単語抽出手段16で抽出された要求文に含まれる単語を含んでいるデータを、データベース15から探し出す。データベース15中のデータについて単語抽出手段16を用いて、各データに含まれている単語を抽出し、各データに含まれている単語が1つでも要求文に含まれている単語と一致するデータを検索結果として出力する。例えば、要求文が「都会の西の空」で、「都会」「秋」「西」「空」が単語として抽出された場合には、「都会」「秋」「西」「空」のいずれかの単語を含んでいるデータを検索して出力することになる。

0019

キーワード検索手段19でキーワード検索を行う際に、データベース15中の各データが含んでいる単語を記憶しているインデックステーブル10を保持している場合には、データに含まれている単語を抽出するために単語抽出手段16をキーワード検索を行うたびに用いる必要がなくなり、検索動作が高速になる。データベース15中の各データにデータ番号をつけておき、インデックステーブル10に、各単語毎にその単語が含まれているデータのデータ番号を記憶させるか、各データ毎にそのデータを含んでいる単語を記憶させておく。つまり、各単語毎にインデックステーブル10を作成した場合には図2のようになり、各データ毎にインデックステーブル10を作成した場合には図3のようになる。

0020

そして、拡張検索手段20では、このベクトル検索手段18とキーワード検索手段19の結果に基づいて各データごとに得点づけを行う。この得点付けとしては、ベクトル検索手段18では0点から100点の間で要求文との意味的な類似度の高さに応じて各データが得点づけされ、キーワード検索手段19では要求文に含まれている単語と同じ単語を含んでいるデータを検索し、一致する単語の数に基づいて、次式のように得点づけされる。
(得点)=(一致する単語数)/(要求文の単語数)×100
ただし、要求文中やデータ中に同一の単語が2回以上現れる時は、その単語は1つだけ存在するものとして扱う。このように得点づけすることによって、キーワード検索についても各データについて0点から100点の間で得点を与えることができる。つまり、要求文中の単語を全て含んでいるデータは100点に、1つも含んでいないデータは0点になる。例えば、要求文が「都会の秋の西の空」で、「都会」「秋」「西」「空」の4つの単語が抽出されていて、データ「都会の街」が「都会」と「街」を単語として抽出している場合には、「都会」が両者で一致しているので、このデータの得点Sは、
S=1/4×100=25
のように、25点と計算される。このようにしてベクトル検索の得点Pとキーワード検索の得点Sが計算されると、拡張検索手段20は両者の検索結果の得点を各データごとに加算して、総合得点の高いデータから順に検索結果として出力手段12に出力する。この検索結果には、検索結果のデータと共に総合得点と両方の検索結果の各得点とを出力してもよい。

0021

この総合得点Stの計算法は、例えば次式による。
St=P+α×S
ここで、αは0以上の実数であり、ベクトル検索とキーワード検索の重み付けを変化させるようにしておく。α=1の時は両者の検索結果の得点が1:1で加算され、0点から200点の間の得点が与えられることになる。例えば、ベクトル検索の得点が85点で、キーワード検索の得点が25点の場合には、総合得点は110点になる。α=0の場合にはベクトル検索に、α≫1の場合にはキーワード検索を行うのと同じになる。

0022

αの設定は、出力手段12の検索結果を見ながらユーザが決定しても良く、また、検索を行って得られた所定順位までのベクトル検索結果の総得点とキーワード検索結果の総得点に応じて(例えば両検索結果の総得点が均等になるように)、αを自動設定してもよい。このようにαの大きさを調整することによって、ベクトル検索とキーワード検索の度合を調整することができる。このように、両者の検索結果を組み合わせることによって、両者の検索の不備を補い、検索結果の改善を行うことができる。

発明の効果

0023

本発明によれば、キーワード検索と特徴ベクトルを使った検索の両方の特徴を加味した検索結果を得ることができ、検索結果の改善を行うことができる。

図面の簡単な説明

0024

図1本実施の形態に係る検索装置のブロック構成を示す図である。
図2各単語毎に作成したインデックステーブルの例である。
図3各データ毎に作成したインデックステーブルの例である。
図4従来の検索装置のブロック構成を示す図である。

--

0025

10インデックステーブル
11入力手段
12 出力手段
13 制御手段
14単語辞書
15データベース
16単語抽出手段
17ベクトル生成手段
18ベクトル検索手段
19キーワード検索手段
20拡張検索手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ