図面 (/)

技術 類似度計算装置及び情報検索装置

出願人 日本電気株式会社
発明者 寺尾真越仲孝文安藤真一大西祥史
出願日 2007年8月2日 (11年11ヶ月経過) 出願番号 2008-527785
公開日 2009年12月24日 (9年7ヶ月経過) 公開番号 WO2008-016102
状態 特許登録済
技術分野 検索装置 イメージ処理・作成
主要キーワード AVパソコン 類似度計算装置 カラーレイアウト フィギュアスケート ケプストラムベクトル 音声データ間 テキストメタデータ 画像クエリ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2009年12月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

一のメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、前記メディアデータとクエリとの類似度を正しく計算する。

解決手段

一のメディアデータとクエリとの類似度を求める際に、前記一のメディアデータとは異なる他のメディアデータに対してクエリとの類似度を表す単独スコアを計算する単独スコア計算手段と、他のメディアデータに対して一のメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段と、他のメディアデータのメディア間類似度と単独スコアとを用いて一のメディアデータとクエリとの類似度を求めるクエリ類似度計算手段とを備えている。

概要

背景

近年、様々な媒体を通じて、映像音声・画像・テキストなどの多種多様メディアデータが大量に流通するようになり、それらを効率的に探し出すための検索技術重要性増している。一般にメディアデータを検索する際には、検索クエリとメディアデータとを直接比較するか、あるいは検索クエリとメディアデータの内容を表すメタデータとを比較して、検索クエリとメディアデータとの類似度を計算し、検索クエリに類似するメディアデータを検索結果とする。

検索クエリとメディアデータとを直接比較することで、メディアデータを検索する例としては、テキストクエリによる文書検索や、画像クエリによる類似画像検索などが挙げられる。一方、検索クエリとメディアデータとを直接比較することが難しい場合は、メディアデータに付与されたメタデータが活用される。メタデータとはメディアデータの内容を表すデータのことで、人手によって作成しても良いが、大量のデータを検索対象とするためには、メディアデータから自動で生成することが望ましい。例えば、音声認識により映像・音声データ中発話内容テキスト化したり、画像認識文字認識により映像・画像データ中の画像や文字情報をテキスト化したりすることで、これら映像・音声・画像データにテキストメタデータを付与することができる。こうすることで、映像・音声・画像データもテキストクエリによって検索することが可能となる。

しかしながら、以上で述べた検索においては、メディアデータそのものやメタデータに誤りが存在すると、検索精度劣化するという問題がある。例えば、文書中の打ち間違いや画像データに含まれるノイズなどは、メディアデータそのものの誤りと考えられるが、これらによって、検索クエリと文書や画像データとの類似度を正しく計算できなくなり、文書検索や類似画像検索の精度が低下する。また、音声認識や画像認識によってメタデータを生成すると、メタデータにはどうしても誤りが含まれるため、検索クエリとメタデータとの類似度を正しく計算できなくなり、検索精度が低下してしまう。

ここでは、メタデータの誤りに対処する関連する技術の一例として、特許文献1に記載の情報検索装置について説明する。この関連する情報検索装置は、音声認識によって映像・音声データからメタデータを生成した場合に、誤認識に起因するメタデータの誤りによる検索精度の劣化を軽減するための装置である。図15に示すように、この関連する情報検索装置600は、入力手段601と、音声認識手段602と、拡張キー抽出手段603と、拡張単語抽出手段604と、関連情報検索手段605と、外部データベース606と、音声ドキュメント記述生成手段607と、出力手段608と、から構成されている。

前記関連する情報検索装置600は次のように動作する。すなわち、入力手段601から入力された音声データは、音声認識手段602により発話内容がテキスト化される。拡張キー抽出手段603は、認識結果テキストの中からあらかじめ定められた品詞信頼度の条件を満たす単語を拡張キーとして抽出する。関連情報検索手段605は、抽出された拡張キーを用いて、外部データベース606に格納された関連文書を検索する。拡張単語抽出手段604は、検索された関連文書の中から重要語を拡張単語として抽出する。音声ドキュメント記述生成手段607は、抽出された拡張単語を認識結果テキストに埋め込み、これを出力手段608が出力する。

この動作の流れを、例を用いて説明する。
入力手段601から入力された実際の音声が
「昨夜からの寒波の訪れで、北海道は大雪となり、新千空港発の便など交通機関が大幅に乱れました」であるとき、
音声認識手段602による認識結果が
「咲く世からの寒波の訪れで北海道は大雪となら新地都政空港発の便など交通機関が大ハブに乱れまして」となった場合を考える。

このとき、拡張キー抽出手段603は、認識結果の中から品詞が名詞動詞で、かつ信頼度の高い単語として例えば「寒波、訪れ、北海道、交通機関、乱れ」を拡張キーとして抽出する。関連情報検索手段605は、これら拡張キーを用いて外部データベース606を検索する。拡張単語抽出手段604は、検索された関連文書の中から重要語として「新千歳空港、欠航便、北海道、寒波、交通機関」を拡張単語として抽出したものとする。音声ドキュメント記述生成手段607は、これらの拡張単語を認識結果テキストに埋め込み、出力手段608は、拡張単語が埋め込まれた認識結果テキストを入力音声データメタテキストとして出力する。これにより、例えば、誤認識により認識結果から欠落していた「新千歳空港」というテキストクエリで検索した場合でも、「新千歳空港」がメタテキストに補われているため、テキストクエリとメタテキストの類似度が高まり、この音声データを正しく検索できるようになる。

特開2004−246824号広報

概要

一のメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、前記メディアデータとクエリとの類似度を正しく計算する。一のメディアデータとクエリとの類似度を求める際に、前記一のメディアデータとは異なる他のメディアデータに対してクエリとの類似度を表す単独スコアを計算する単独スコア計算手段と、他のメディアデータに対して一のメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段と、他のメディアデータのメディア間類似度と単独スコアとを用いて一のメディアデータとクエリとの類似度を求めるクエリ類似度計算手段とを備えている。

目的

本発明の目的は、あるメディアデータとクエリとの類似度を求める際に、そのメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、そのメディアデータとクエリとが無関係であれば、そのメディアデータとクエリとの類似度を小さくするような類似度計算装置等を提供することにある。

効果

実績

技術文献被引用数
1件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

メディアデータとクエリとの類似度を求める装置であって、一のメディアデータとは異なる他のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算する単独スコア計算手段と、前記他のメディアデータに対して前記一のメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段と、前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求めるクエリ類似度計算手段と、を有することを特徴とする類似度計算装置

請求項2

前記他のメディアデータは、複数のメディアデータから構成され、前記単独スコア計算手段は、前記他のメディアデータに含まれるそれぞれのメディアデータに対して前記単独スコアを計算し、前記メディア間類似度計算手段は、前記それぞれのメディアデータに対して前記メディア間類似度を計算し、前記クエリ類似度計算手段は、前記それぞれのメディアデータの前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求める、請求項1に記載の類似度計算装置。

請求項3

前記クエリ類似度計算手段は、前記他のメディアデータに含まれるそれぞれのメディアデータの前記メディア間類似度に応じて、前記それぞれのメディアデータの前記単独スコアの重みつき和をとることで、前記一のメディアデータと前記クエリとの類似度を計算する、請求項2に記載の類似度計算装置。

請求項4

前記メディア間類似度計算手段は、メディアデータの内容を表すメタテキスト間の類似度を計算することで前記メディア間類似度を計算する、請求項3に記載の類似度計算装置。

請求項5

前記クエリは、テキストクエリであり、前記単独スコア計算手段は、メディアデータの内容を表すメタテキストと前記テキストクエリとを比較することで前記単独スコアを計算する、請求項3に記載の類似度計算装置。

請求項6

前記クエリは、テキストクエリであり、前記単独スコア計算手段は、メディアデータの内容を表すメタテキストと前記テキストクエリとを比較することで前記単独スコアを計算し、前記メディア間類似度計算手段は、前記メタテキスト間の類似度を計算することで前記メディア間類似度を計算する、請求項3に記載の類似度計算装置。

請求項7

前記メタテキストを前記メディアデータから自動的に生成するメタテキスト生成手段をさらに備えた、請求項4乃至6のいずれか一つに記載の類似度計算装置。

請求項8

前記メタテキスト生成手段は、前記メタテキストの正確さを表す信頼度と共に前記メタテキストを生成し、前記メディア間類似度計算手段は、前記信頼度の大きな前記メタテキストにより大きな重みをつけて前記メディア間類似度を計算することを特徴とする、請求項7に記載の類似度計算装置。

請求項9

前記メタテキスト生成手段は、前記メタテキストの正確さを表す信頼度と共に前記メタテキストを生成し、前記単独スコア計算手段は、前記信頼度の大きな前記メタテキストにより大きな重みをつけて前記単独スコアを計算することを特徴とする、請求項7に記載の類似度計算装置。

請求項10

前記メタテキスト生成手段における前記テキストクエリと同一のテキストの生成難度を計算するクエリ生成度計算手段をさらに備え、前記クエリ類似度計算手段は、前記他のメディアデータの前記メディア間類似度と前記単独スコアと前記生成難度とを用いて、前記一のメディアデータと前記クエリとの類似度を求める、請求項7乃至9のいずれか一つに記載の類似度計算装置。

請求項11

前記メタテキスト生成手段は辞書を用いて前記メタテキストを生成し、前記クエリ生成難度計算手段は、前記テキストクエリが前記辞書に登録されていない未知語である場合に前記生成難度を大きくする、請求項10に記載の類似度計算装置。

請求項12

前記メディアデータは音声データであり、前記メタテキスト生成手段は、前記音声データを音声認識によりテキスト化することで前記メタテキストを生成する、請求項7乃至11のいずれか一つに記載の類似度計算装置。

請求項13

前記メディアデータは画像データであり、前記メタテキスト生成手段は、前記画像データを画像認識あるいは文字認識によりテキスト化することで前記メタテキストを生成する、請求項7乃至11のいずれか一つに記載の類似度計算装置。

請求項14

前記メディアデータは、前記テキストクエリとは異なる言語で表されるテキストデータであり、前記メタテキスト生成手段は、前記テキストデータを自動翻訳によって前記テキストクエリと同じ言語のテキストに変換することで前記メタテキストを生成する、請求項7乃至11のいずれか一つに記載の類似度計算装置。

請求項15

前記一のメディアデータの関連テキストを記憶する関連テキスト記憶手段をさらに備え、前記単独スコア計算手段および前記メディア間類似度計算手段および前記クエリ類似度計算手段は、前記他のメディアデータとして前記関連テキストを用いる、請求項1に記載の類似度計算装置。

請求項16

請求項1乃至15のいずれか一つに記載の類似度計算装置を備え、この類似度計算装置が検索対象となるメディアデータのそれぞれを前記あるメディアデータとして前記クエリとの類似度を計算し、前記類似度に基づいて前記クエリに対する検索結果を生成する検索結果生成手段を備えたことを特徴とする情報検索装置

請求項17

メディアデータとクエリとの類似度を求める類似度計算方法であって、一のメディアデータとは異なる他のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算し、前記他のメディアデータに対して前記一のメディアデータとの類似度を表すメディア間類似度を計算し、前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求めることを特徴とする類似度計算方法。

請求項18

複数のメディアデータから構成された前記他のメディアデータを用い、前記他のメディアデータに含まれるそれぞれのメディアデータに対して前記単独スコアを計算し、前記それぞれのメディアデータに対して前記メディア間類似度を計算し、前記それぞれのメディアデータの前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求める、請求項17に記載の類似度計算方法。

請求項19

前記他のメディアデータに含まれるそれぞれのメディアデータの前記メディア間類似度に応じて、前記それぞれのメディアデータの前記単独スコアの重みつき和をとることで、前記一のメディアデータと前記クエリとの類似度を計算する、請求項18に記載の類似度計算方法。

請求項20

メディアデータの内容を表すメタテキスト間の類似度を計算することで前記メディア間類似度を計算する、請求項19に記載の類似度計算方法。

請求項21

テキストクエリである前記クエリを用い、メディアデータの内容を表すメタテキストと前記テキストクエリとを比較することで前記単独スコアを計算する、請求項19に記載の類似度計算方法。

請求項22

テキストクエリである前記クエリを用い、メディアデータの内容を表すメタテキストと前記テキストクエリとを比較することで前記単独スコアを計算し、前記メタテキスト間の類似度を計算することで前記メディア間類似度を計算する、請求項19に記載の類似度計算方法。

請求項23

前記メタテキストを前記メディアデータから自動的に生成する、請求項20乃至22のいずれか一つに記載の類似度計算方法。

請求項24

前記メタテキストの正確さを表す信頼度と共に前記メタテキストを生成し、前記信頼度の大きな前記メタテキストにより大きな重みをつけて前記メディア間類似度を計算する、請求項23に記載の類似度計算方法。

請求項25

前記メタテキストの正確さを表す信頼度と共に前記メタテキストを生成し、前記信頼度の大きな前記メタテキストにより大きな重みをつけて前記単独スコアを計算する、請求項23に記載の類似度計算方法。

請求項26

前記テキストクエリと同一のテキストの生成難度を計算し、前記他のメディアデータの前記メディア間類似度と前記単独スコアと前記生成難度とを用いて、前記一のメディアデータと前記クエリとの類似度を求める、請求項23乃至25のいずれか一つに記載の類似度計算方法。

請求項27

辞書を用いて前記メタテキストを生成し、前記テキストクエリが前記辞書に登録されていない未知語である場合に前記生成難度を大きくする、請求項26に記載の類似度計算方法。

請求項28

音声データである前記メディアデータを用い、前記音声データを音声認識によりテキスト化することで前記メタテキストを生成する、請求項23乃至27のいずれか一つに記載の類似度計算方法。

請求項29

画像データである前記メディアデータを用い、前記画像データを画像認識あるいは文字認識によりテキスト化することで前記メタテキストを生成する、請求項23乃至27のいずれか一つに記載の類似度計算方法。

請求項30

前記テキストクエリとは異なる言語で表されるテキストデータである前記メディアデータを用い、前記テキストデータを自動翻訳によって前記テキストクエリと同じ言語のテキストに変換することで前記メタテキストを生成する、請求項23乃至27のいずれか一つに記載の類似度計算方法。

請求項31

前記一のメディアデータの関連テキストを前記他のメディアデータとして用い、前記単独スコア計算および前記メディア間類似度計算および前記クエリ類似度計算を行う、請求項17に記載の類似度計算方法。

請求項32

請求項1乃至15のいずれか一つに記載の類似度計算装置を備え、この類似度計算装置が検索対象となるメディアデータのそれぞれを前記あるメディアデータとして前記クエリとの類似度を計算し、前記類似度に基づいて前記クエリに対する検索結果を生成することを特徴とする情報検索方法

請求項33

メディアデータとクエリとの類似度を求める類似度計算プログラムであって、コンピュータに、一のメディアデータとは異なる他のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算する機能と、前記他のメディアデータに対して前記一のメディアデータとの類似度を表すメディア間類似度を計算する機能と、前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求める機能とを実行させる、ことを特徴とする類似度計算プログラム。

請求項34

前記コンピュータに、複数のメディアデータから構成された前記他のメディアデータに含まれるそれぞれのメディアデータに対して前記単独スコアを計算する機能と、前記それぞれのメディアデータに対して前記メディア間類似度を計算する機能と、前記それぞれのメディアデータの前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求める機能とを、実行させる請求項33に記載の類似度計算プログラム。

請求項35

前記コンピュータに、前記他のメディアデータに含まれるそれぞれのメディアデータの前記メディア間類似度に応じて、前記それぞれのメディアデータの前記単独スコアの重みつき和をとることで、前記一のメディアデータと前記クエリとの類似度を計算する機能を実行させる、請求項34に記載の類似度計算プログラム。

請求項36

前記コンピュータに、メディアデータの内容を表すメタテキスト間の類似度を計算することで前記メディア間類似度を計算する機能を実行させる、請求項35に記載の類似度計算プログラム。

請求項37

前記コンピュータに、テキストクエリである前記クエリを用いて、メディアデータの内容を表すメタテキストと前記テキストクエリとを比較することで前記単独スコアを計算する機能を実行させる、請求項35に記載の類似度計算プログラム。

請求項38

前記コンピュータに、テキストクエリである前記クエリを用いて、メディアデータの内容を表すメタテキストと前記テキストクエリとを比較することで前記単独スコアを計算する機能と、前記メタテキスト間の類似度を計算することで前記メディア間類似度を計算する機能とを実行させる、請求項35に記載の類似度計算プログラム。

請求項39

前記コンピュータに、前記メタテキストを前記メディアデータから自動的に生成する機能を実行させる、請求項36乃至38のいずれか一つに記載の類似度計算プログラム。

請求項40

前記コンピュータに、前記メタテキストの正確さを表す信頼度と共に前記メタテキストを生成する機能と、前記信頼度の大きな前記メタテキストにより大きな重みをつけて前記メディア間類似度を計算する機能と、を実行させる、請求項39に記載の類似度計算プログラム。

請求項41

前記コンピュータに、前記メタテキストの正確さを表す信頼度と共に前記メタテキストを生成する機能と、前記信頼度の大きな前記メタテキストにより大きな重みをつけて前記単独スコアを計算する機能と、を実行させる請求項39に記載の類似度計算プログラム。

請求項42

前記コンピュータに、前記テキストクエリと同一のテキストの生成難度を計算する機能と、前記他のメディアデータの前記メディア間類似度と前記単独スコアと前記生成難度とを用いて、前記一のメディアデータと前記クエリとの類似度を求める機能と、を実行させる請求項39乃至41のいずれか一つに記載の類似度計算プログラム。

請求項43

前記コンピュータに、辞書を用いて前記メタテキストを生成する機能と、前記テキストクエリが前記辞書に登録されていない未知語である場合に前記生成難度を大きくする機能と、を実行させる請求項42に記載の類似度計算プログラム。

請求項44

前記コンピュータに、前記メディアデータである音声データを音声認識によりテキスト化することで前記メタテキストを生成する機能を実行させる、請求項39乃至43のいずれか一つに記載の類似度計算プログラム。

請求項45

前記コンピュータに、前記メディアデータである画像データを画像認識あるいは文字認識によりテキスト化することで前記メタテキストを生成する機能を実行させる、請求項39乃至43のいずれか一つに記載の類似度計算プログラム。

請求項46

前記コンピュータに、前記メディアデータとして、前記テキストクエリとは異なる言語で表されるテキストデータを用いて、前記テキストデータを自動翻訳によって前記テキストクエリと同じ言語のテキストに変換することで前記メタテキストを生成する機能を実行させる、請求項39乃至43のいずれか一つに記載の類似度計算プログラム。

請求項47

前記コンピュータに、前記一のメディアデータの関連テキストを前記他のメディアデータとして用い、前記単独スコア計算および前記メディア間類似度計算および前記クエリ類似度計算を実行させる、請求項33に記載の類似度計算プログラム。

請求項48

請求項1乃至15のいずれか一つに記載の類似度計算装置を備え、コンピュータに、この類似度計算装置が検索対象となるメディアデータのそれぞれを前記あるメディアデータとして前記クエリとの類似度を計算する機能と、前記類似度に基づいて前記クエリに対する検索結果を生成する機能とを実行させることを特徴とする情報検索プログラム

技術分野

0001

本発明は、類似度計算装置及び情報検索装置に関し、特に、メディアデータとクエリとの類似度を前記メディアデータとは異なる他のメディアデータを用いて計算することを特徴とする、類似度計算装置及び情報検索装置に関する。

背景技術

0002

近年、様々な媒体を通じて、映像音声・画像・テキストなどの多種多様なメディアデータが大量に流通するようになり、それらを効率的に探し出すための検索技術重要性増している。一般にメディアデータを検索する際には、検索クエリとメディアデータとを直接比較するか、あるいは検索クエリとメディアデータの内容を表すメタデータとを比較して、検索クエリとメディアデータとの類似度を計算し、検索クエリに類似するメディアデータを検索結果とする。

0003

検索クエリとメディアデータとを直接比較することで、メディアデータを検索する例としては、テキストクエリによる文書検索や、画像クエリによる類似画像検索などが挙げられる。一方、検索クエリとメディアデータとを直接比較することが難しい場合は、メディアデータに付与されたメタデータが活用される。メタデータとはメディアデータの内容を表すデータのことで、人手によって作成しても良いが、大量のデータを検索対象とするためには、メディアデータから自動で生成することが望ましい。例えば、音声認識により映像・音声データ中発話内容テキスト化したり、画像認識文字認識により映像・画像データ中の画像や文字情報をテキスト化したりすることで、これら映像・音声・画像データにテキストメタデータを付与することができる。こうすることで、映像・音声・画像データもテキストクエリによって検索することが可能となる。

0004

しかしながら、以上で述べた検索においては、メディアデータそのものやメタデータに誤りが存在すると、検索精度劣化するという問題がある。例えば、文書中の打ち間違いや画像データに含まれるノイズなどは、メディアデータそのものの誤りと考えられるが、これらによって、検索クエリと文書や画像データとの類似度を正しく計算できなくなり、文書検索や類似画像検索の精度が低下する。また、音声認識や画像認識によってメタデータを生成すると、メタデータにはどうしても誤りが含まれるため、検索クエリとメタデータとの類似度を正しく計算できなくなり、検索精度が低下してしまう。

0005

ここでは、メタデータの誤りに対処する関連する技術の一例として、特許文献1に記載の情報検索装置について説明する。この関連する情報検索装置は、音声認識によって映像・音声データからメタデータを生成した場合に、誤認識に起因するメタデータの誤りによる検索精度の劣化を軽減するための装置である。図15に示すように、この関連する情報検索装置600は、入力手段601と、音声認識手段602と、拡張キー抽出手段603と、拡張単語抽出手段604と、関連情報検索手段605と、外部データベース606と、音声ドキュメント記述生成手段607と、出力手段608と、から構成されている。

0006

前記関連する情報検索装置600は次のように動作する。すなわち、入力手段601から入力された音声データは、音声認識手段602により発話内容がテキスト化される。拡張キー抽出手段603は、認識結果テキストの中からあらかじめ定められた品詞信頼度の条件を満たす単語を拡張キーとして抽出する。関連情報検索手段605は、抽出された拡張キーを用いて、外部データベース606に格納された関連文書を検索する。拡張単語抽出手段604は、検索された関連文書の中から重要語を拡張単語として抽出する。音声ドキュメント記述生成手段607は、抽出された拡張単語を認識結果テキストに埋め込み、これを出力手段608が出力する。

0007

この動作の流れを、例を用いて説明する。
入力手段601から入力された実際の音声が
「昨夜からの寒波の訪れで、北海道は大雪となり、新千空港発の便など交通機関が大幅に乱れました」であるとき、
音声認識手段602による認識結果が
「咲く世からの寒波の訪れで北海道は大雪となら新地都政空港発の便など交通機関が大ハブに乱れまして」となった場合を考える。

0008

このとき、拡張キー抽出手段603は、認識結果の中から品詞が名詞動詞で、かつ信頼度の高い単語として例えば「寒波、訪れ、北海道、交通機関、乱れ」を拡張キーとして抽出する。関連情報検索手段605は、これら拡張キーを用いて外部データベース606を検索する。拡張単語抽出手段604は、検索された関連文書の中から重要語として「新千歳空港、欠航便、北海道、寒波、交通機関」を拡張単語として抽出したものとする。音声ドキュメント記述生成手段607は、これらの拡張単語を認識結果テキストに埋め込み、出力手段608は、拡張単語が埋め込まれた認識結果テキストを入力音声データメタテキストとして出力する。これにより、例えば、誤認識により認識結果から欠落していた「新千歳空港」というテキストクエリで検索した場合でも、「新千歳空港」がメタテキストに補われているため、テキストクエリとメタテキストの類似度が高まり、この音声データを正しく検索できるようになる。

0009

特開2004−246824号広報

発明が解決しようとする課題

0010

この関連する情報検索装置の問題点は、ある音声データとは無関係なクエリによってその音声データが検索されてしまうことがある、ということである。
その理由は、音声認識誤りの結果として、ある音声データのメタテキスト中にその音声データとは無関係なテキストが存在するため、その音声データと無関係なクエリでもメタテキストとの類似度が大きくなることがあるためである。
上述した例においては、音声認識誤りの結果として、「都政」や「ハブ」などの誤ったテキストがメタテキスト中に存在する。従って、音声データとは無関係な「都政」や「ハブ」などのクエリによって検索した場合でも、クエリとメタテキストとの類似度が大きくなり、この音声データは、これらのクエリとは無関係であるにも関わらず検索されてしまう。

0011

本発明の目的は、あるメディアデータとクエリとの類似度を求める際に、そのメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、そのメディアデータとクエリとが無関係であれば、そのメディアデータとクエリとの類似度を小さくするような類似度計算装置等を提供することにある。

課題を解決するための手段

0012

前記目的を達成するため、本発明に係る類似度計算装置は、あるメディアデータとクエリとの類似度を求める装置であって、あるメディアデータとは異なる第2のメディアデータに対してクエリとの類似度を表す単独スコアを計算する単独スコア計算手段と、第2のメディアデータに対してあるメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段と、メディア間類似度と単独スコアとを用いて、あるメディアデータとクエリとの類似度を求めるクエリ類似度計算手段とを備えたことを特徴とするものである。
ここで、本明細書および特許請求の範囲では、「クエリ」とは、検索対象となるメディアデータあるいはそのメタデータなどと比較してメディアデータとの類似度を求めるためのデータ、およびそれらの論理的な組み合わせ(論理積論理和など)を意味する。

0013

このような構成を採用し、あるメディアデータとは異なる第2のメディアデータとあるメディアデータとの類似度と、第2のメディアデータとクエリとの類似度とを用いて、あるメディアデータとクエリとの類似度を求めるよう動作することで、本発明の目的を達成することができる。

0014

本発明の類似度計算方法は、メディアデータとクエリとの類似度を求める類似度計算方法であって、
一のメディアデータとは異なる他のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算し、
前記他のメディアデータに対して前記一のメディアデータとの類似度を表すメディア間類似度を計算し、
前記メディア間類似度と前記単独スコアとを用いて、前記一のメディアデータと前記クエリとの類似度を求めることを特徴とするものである。

0015

本発明の情報検索方法は、前記類似度計算装置が検索対象となるメディアデータのそれぞれを前記あるメディアデータとして前記クエリとの類似度を計算し、
前記類似度に基づいて前記クエリに対する検索結果を生成することを特徴とするものである。

0016

本発明の情報検索プログラムは、コンピュータに、
前記類似度計算装置が検索対象となるメディアデータのそれぞれを前記あるメディアデータとして前記クエリとの類似度を計算する機能と、
前記類似度に基づいて前記クエリに対する検索結果を生成する機能とを実行させることを特徴とするものである。

発明の効果

0017

本発明によれば、一のメディアデータとクエリとの類似度を求める際に、前記一のメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、前記一のメディアデータとクエリとが無関係であれば、前記一のメディアデータとクエリとの類似度を小さくすることができる。

発明を実施するための最良の形態

0018

次に、本発明の実施形態を図に基づいて説明する。
(実施形態1)
本発明の実施形態1に係る類似度計算装置100は図1に示すように、あるメディアデータとクエリとの類似度を求める装置であって、前記あるメディアデータとは異なる第2のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算する単独スコア計算手段104と、前記第2のメディアデータに対して前記あるメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段103と、前記第2のメディアデータの前記メディア間類似度と前記単独スコアとを用いて、前記あるメディアデータと前記クエリとの類似度を求めるクエリ類似度計算手段105、とから構成されている。

0019

メディアデータ記憶手段101は、前記あるメディアデータを含めて様々なメディアデータを記憶する。メタテキスト記憶手段102は、メディアデータ記憶手段101が記憶するメディアデータの内容を表すメタテキストをメディアデータと対応付けた状態で記憶する。メディアデータ記憶手段101とメタテキスト記憶手段102は、図1のように類度計算装置に内蔵される形態には限らず、類似度計算装置100とネットワークを介して接続された外部のサーバコンピュータ等に備えられている形態としてもよい。

0020

メディア間類似度計算手段103は、メディアデータ記憶手段101が記憶するメディアデータのそれぞれ(第2のメディアデータ)に対して、前記あるメディアデータとの類似度を表すメディア間類似度を計算する。本実施の形態では、メディアデータを直接比較することで、メディア間類似度を計算する。

0021

単独スコア計算手段104は、メディアデータ記憶手段101が記憶するメディアデータのそれぞれに対して、前記クエリとの類似度を表す単独スコアを計算する。本実施の形態では、メディアデータに対応するメタテキストと前記クエリとを比較することで、単独スコアを計算する。

0022

クエリ類似度計算手段105は、メディアデータのそれぞれに対して計算された前記あるメディアデータとのメディア間類似度、および前記クエリとの類似度を用いて、前記あるメディアデータと前記クエリとの類似度を計算する。

0023

次に、図1ブロック図、図6の流れ図、図9の具体例を示す図を参照して、本実施の形態の全体の動作について詳細に説明する。
本実施の形態の説明では、メディアデータ記憶手段101は画像データを記憶し、メタテキスト記憶手段102は各画像データを説明するメタテキストを記憶しているものとする。このようなメタテキストは、例えば、人手によって付与することができる。

0024

前記メディアデータ記憶手段101に記憶された画像データに対してクエリを入力し(図6のステップ701、図では「S701」と表記する、以下同様)、ある画像データiとクエリとの類似度を求めることを考える。本実施の形態では、クエリはテキストクエリであるとする。テキストクエリは、キーボードによって入力しても良いし、マイクに向かって発話した音声を音声認識によってテキスト化することで入力しても良いし、タッチペンで描いた文字を文字認識によってテキスト化することで入力しても良い。あるいは、何らかのプログラムにより自動生成されたテキストをクエリとして本実施の形態を動作させても良い。

0025

まず、メディア間類似度計算手段103は、メディアデータ記憶手段101が記憶する画像データのそれぞれに対して、画像データiとの類似度を表すメディア間類似度を計算する(図6のステップ704)。画像データ間の類似度は、例えば、画像からカラーレイアウト記述子を抽出して比較するなどの汎用の技術を用いれば、計算することができる。なお、メディア間類似度計算手段103による画像データ間の類似度計算(図6のステップ704)は、必ずしもクエリが入力されてから実行する必要はなく、メディアデータ記憶手段101が記憶するあらゆる画像データ間の類似度をあらかじめ計算しておいても良い。

0026

一方で、単独スコア計算手段104は、メディアデータ記憶手段101が記憶する画像データのそれぞれに対して、クエリとの類似度を表す単独スコアを計算する(図6のステップ702)。本実施の形態では、単独スコア計算手段104は、テキストクエリと各画像データのメタテキストとが一致するかどうかによって単独スコアを算出するものとし、例えば、両者が一致すれば単独スコアは1、一致しなければ単独スコアは0とする。ただし、テキストクエリやメタテキストが文書である場合などは、文書ベクトルを用いたコサイン類似度による方法などのよく知られた文書間類似度計算方法を用いて単独スコアを計算しても良い。

0027

クエリ類似度計算手段105は、このようにして各画像データに対して計算されたメディア間類似度および単独スコアを用いて、画像データiとクエリとの類似度を求める(図7のステップ703)。今、クエリとの類似度を求めたい画像データをiとし、画像データの集合をM、クエリqに対する画像データjの単独スコアをs(q,j)とすると、画像データiとクエリqとの類似度score(q,i)は、例えば、次の数式1のように計算する。



ここで、f(i,j)は画像データjの単独スコアをどれだけ重視するかを表す重みであり、ここではメディア間類似度計算手段103により計算された画像データiと画像データjとの類似度とする。このようにすることで、画像データiとの類似度が大きい他の画像データの多くがクエリqと類似しているときに、画像データiとクエリqとの類似度score(q,i)は大きな値となる。その結果、画像データi自身のメタテキストの誤りに頑健な類似度計算が可能となる。

0028

図9を用いて、本実施の形態の動作とその効果を具体的に説明する。
図9は、画像の内容を表すメタテキストが付与された6枚の画像を、メディア間類似度計算手段103により計算される画像間の類似度に基づいて模式的に平面上に配置した図である。すなわち、図9において、互いに近くに配置されている画像1〜4同士(例えば山に関する画像)や、画像5と画像6(例えば花に関する画像)は画像がそれぞれ類似していることを表す。一方で、画像1と画像5などは画像が類似していない(図中では類似した画像間を実線で結び、類似していない画像間を破線で結んでいる)。また、画像の下に記述されているテキスト「山」や「花」が、各画像に付与されたメタテキストを表す。ここで、画像1のメタテキストは本来「山」となるべきところを、誤って「花」が付与されているとする(図9では、メタテキストのうち誤っている部分に「×」を付してある、図12または図13も同様)。これは人手によるメタテキスト作成の誤りや、画像認識などによりメタテキストを自動生成した際の誤りなどと考えることができる。

0029

このとき、テキストクエリ「花」を入力して画像1との類似度を求めることを考える。ここで、よく行われているように、単純に画像1のメタテキストとクエリとを比較すると、両者が一致しているので、画像1のメタテキスト「花」が誤っているにも関わらず、クエリ「花」と画像1とは類似すると判定されてしまう。その結果、画像検索などの応用場面において、クエリ「花」によって、本当は「山」である画像1が検索されてしまうという誤りが生じる。

0030

本発明の実施形態においては、まず、単独スコア計算手段104は、各画像データのメタテキストとクエリ「花」とを比較することで、各画像データの単独スコアを計算する。図9では、画像5、6のメタテキスト「花」がクエリと一致しているので、これらの画像の単独スコアを例えば1とする。すなわち、s(花, 5)=1、s(花, 6)=1となる。一方で、画像2〜4はメタテキスト「山」がクエリと一致していないので、これらの画像の単独スコアは0とする。すなわち、s(花, 2)=0、s(花, 3)=0、s(花, 4)=0となる。

0031

次に、クエリ類似度計算手段105は、数式1に従って画像1とクエリ「花」との類似度score(花, 1)を計算する。ここで、図9では実線で示されている画像1と画像2,3,4間の類似度は1であるとし、破線で示されている画像1と画像5,6間の類似度は0であるとすると、f(1,2)=1、f(1,3)=1、f(1,4)=1、f(1,5)=0、f(1,6)=0となる。これらを数式1に代入すると、score(花, 1)=0となり、画像1とクエリ「花」とは類似していないと判定することができる。これは、画像1に類似する他の画像は、クエリ「花」に対する単独スコアが小さいためである。

0032

一方、テキストクエリとして「山」を入力して画像1との類似度を求めることを考えると、これまで述べたのと全く同じ計算をすることにより、画像1とクエリ「山」との類似度は3と大きな値になり、画像1とクエリ「山」とは類似していると判定することができる。これは、画像1に類似する他の画像は、クエリ「山」に対する単独スコアが大きいためである。

0033

以上で説明したように、本発明の実施形態では、ある画像データに誤ったメタテキストが付与されていても、ある画像データに類似する他の画像データに対する単独スコアを用いることで、ある画像データとクエリとの類似度を正しく求めることができる。これは、ある画像に類似する他の画像データの多くには正しいメタテキストが付与されていると期待できることを利用している。

0034

なお、数式1のf(i,j)として画像データiと画像データjとの類似度を用いることで、画像データiにより類似する他の画像データの単独スコアをより重視することが可能となっている。言い換えれば、画像データiにより類似する画像データとクエリとの類似度ほど、画像データiとクエリとの類似度により近いと期待できることを反映することができるようになる。こうすることで、画像データiとクエリとの類似度としてより妥当な値を求めることができる。
また、f(i,j)は、例えば次の数式2のように計算しても良い。



ここで、dijはメディア間類似度計算手段103により計算された画像データiと画像データjとの類似度で、tは画像データiにどれだけ類似した画像まで考慮するかを定める閾値を表す。あるいは、数式2の代わりに、画像データ間の類似度dijが上位一定位以内の画像データjのみに重みf(i,j)を与え、一定位以下の画像データjの重みは0としても良い。
このように、画像データiとの類似度がある程度大きい画像データの単独スコアのみを用いることで、画像データiとの類似度が低い画像データの使用による類似度計算の劣化を抑えることができる。また、重みf(i,j)は、必ずしも数式2のようにメディア間類似度dijそのものである必要はなく、dijに応じて重みを調節する関数であっても良い。

0035

また、画像データiとクエリqとの類似度score(q,i)は必ずしも数式1の形である必要はなく、例えば、画像データiに類似する他の画像データの単独スコアの平均値などであっても良い。
また、画像データiとクエリqとの類似度を計算するときに、画像データi自身の単独スコアs(q,i)を含めても含めなくても良い。画像データi自身の単独スコアの信頼性が高いときには画像データi自身の単独スコアs(q,i)に大きな重みをつけて考慮したほうが良い場合もある。

0036

なお、本実施の形態では、メディアデータとして画像データを例に説明したが、本発明はメディアデータを画像データに限るものではない。例えば、メディアデータとして音声データを用いても同様の処理を行い、同様の効果を得ることができる。このとき、音声データ間の類似度は、例えば、音声波形スペクトル形状を表すケプストラムベクトル間の距離などとして計算することができる。

0037

次に、本実施の形態の効果について説明する。
本実施の形態では、あるメディアデータとクエリとの類似度を求める際に、前記あるメディアデータに類似する他のメディアデータのクエリに対する類似度を用いるため、前記あるメディアデータのメタテキストが誤っていても、前記あるメディアデータとクエリとが無関係であれば、類似度が小さいと判定できる(図9の例で、クエリ「花」の場合)。すなわち、前記あるメディアデータとクエリとが無関係であれば、前記あるメディアデータに類似する他の多くのメディアデータのクエリに対する類似度は小さいと期待できることを利用している。

0038

また、同様の理由により、前記あるメディアデータのメタテキストが誤っていても、前記あるメディアデータとクエリとが関連していれば、類似度が大きいと判定できる(図9の例で、クエリ「山」の場合)。すなわち、前記あるメディアデータとクエリとが関連していれば、前記あるメディアデータに類似する他の多くのメディアデータのクエリに対する類似度は大きいと期待できることを利用している。
なお、本実施の形態で説明した類似度計算装置100を用いて、クエリによるメディアデータの検索精度を向上したり、メディアデータに付与されているメタテキストを半自動修正したりすることが可能となることはもちろんである。

0039

本発明の実施形態によれば、あるメディアデータとクエリとの類似度を求める際に、そのメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、そのメディアデータとクエリとが無関係であれば、そのメディアデータとクエリとの類似度を小さくできる。
その理由は、あるメディアデータとクエリとが無関係であれば、前記あるメディアデータに類似する他のメディアデータとクエリとの類似度は小さいと考えられるため、前記あるメディアデータに類似する他のメディアデータに対する単独スコアを用いることで、前記あるメディアデータとクエリとの類似度が小さいと判定することができるためである。

0040

本発明の実施形態によれば、あるメディアデータとクエリとの類似度を求める際に、そのメディアデータあるいはそのメタデータに何らかの誤りが含まれていても、そのメディアデータとクエリとが関連していれば、そのメディアデータとクエリとの類似度を大きくできる。
その理由は、あるメディアデータとクエリとが関連していれば、前記あるメディアデータに類似する他のメディアデータとクエリとの類似度は大きいと考えられるため、前記あるメディアデータに類似する他のメディアデータに対する単独スコアを用いることで、前記あるメディアデータとクエリとの類似度が大きいと判定することができるためである。

0041

本発明の実施形態によれば、クエリによりメディアデータを検索する際に、メディアデータあるいはそのメタデータに何らかの誤りが含まれている場合でも、クエリとは無関係なメディアデータが誤って検索されない。
その理由は、メディアデータあるいはそのメタデータに何らかの誤りが含まれていても、メディアデータとクエリとが無関係であれば、メディアデータとクエリとの類似度が小さくなる類似度計算装置を用いてメディアデータを検索するためである。

0042

本発明の実施形態によれば、クエリによりメディアデータを検索する際に、メディアデータあるいはそのメタデータに何らかの誤りが含まれている場合でも、クエリと関連するメディアデータを正しく検索できる。
その理由は、メディアデータあるいはそのメタデータに何らかの誤りが含まれていても、メディアデータとクエリとが関連していれば、メディアデータとクエリとの類似度が大きくなる類似度計算装置を用いてメディアデータを検索するためである。
(実施形態2)

0043

次に、本発明の実施形態2に係る類似度計算装置200について図2を参照して詳細に説明する。
本発明の実施形態2に係る類似度計算装置200は図2に示すように、あるメディアデータとクエリとの類似度を求める装置であって、前記あるメディアデータとは異なる第2のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算する単独スコア計算手段204と、前記第2のメディアデータに対して前記あるメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段203と、前記第2のメディアデータの前記メディア間類似度と前記単独スコアとを用いて、前記あるメディアデータと前記クエリとの類似度を求めるクエリ類似度計算手段205、とから構成されている。

0044

メディアデータ記憶手段201は、前記あるメディアデータを含めて様々なメディアデータを記憶する。メタテキスト記憶手段202は、メディアデータ記憶手段201が記憶するメディアデータの内容を表すメタテキストをメディアデータと対応付けた状態で記憶する。

0045

メディア間類似度計算手段203は、メディアデータ記憶手段201が記憶するメディアデータのそれぞれに対して、前記あるメディアデータとの類似度を表すメディア間類似度を計算する。本実施の形態では、メディアデータに対応するメタテキスト同士を比較することで、メディア間類似度を計算する。

0046

単独スコア計算手段204は、メディアデータ記憶手段201が記憶するメディアデータのそれぞれに対して、前記クエリとの類似度を表す単独スコアを計算する。本実施の形態では、メディアデータと前記クエリとを直接比較することで、単独スコアを計算する。

0047

クエリ類似度計算手段205は、メディアデータのそれぞれに対して計算された前記あるメディアデータとのメディア間類似度、および前記クエリとの類似度を用いて、前記あるメディアデータと前記クエリとの類似度を計算する。

0048

次に、図2のブロック図、図6の流れ図、図10および図11の具体例を示す図を参照して、本実施の形態の全体の動作について詳細に説明する。
本実施の形態の説明では、メディアデータ記憶手段201は画像データを記憶し、メタテキスト記憶手段202は各画像データを説明するメタテキストを記憶しているものとする。また、ここではメタテキストは画像を説明する文書であるとする。このようなメタテキストは、例えば、人手によって画像データに付与することができる。

0049

このようなデータに対してクエリを入力し(図6のステップ701)、ある画像データiとクエリとの類似度を求めることを考える。本実施の形態では、クエリは画像クエリであるとする。
まず、メディア間類似度計算手段203は、メディアデータ記憶手段201が記憶する画像データのそれぞれに対して、画像データiとの類似度を表すメディア間類似度を計算する(図6のステップ704)。本実施の形態では、画像データ間の類似度はメタテキスト記憶手段202が記憶するメタテキスト間の類似度を計算することによって求める。メタテキスト間の類似度は、文書ベクトルのコサイン類似度などのよく知られた汎用の技術によって計算することができる。

0050

一方で、単独スコア計算手段204は、メディアデータ記憶手段201が記憶する画像データのそれぞれに対して、画像クエリとの類似度を表す単独スコアを計算する(図6のステップ702)。画像データと画像クエリとの類似度は、例えば、画像からカラーレイアウト記述子を抽出して比較するなどの汎用の技術を用いれば計算できる。
最後に、クエリ類似度計算手段205は、類似度計算装置100のクエリ類似度計算手段105と同様の処理を行うことで、画像データiとクエリとの類似度を求める(図6のステップ703)。

0051

図10および図11を用いて、本実施の形態の動作とその効果を具体的に説明する。

0052

図10において、画像7〜10は富士山の画像を表し、それぞれに画像を説明するメタテキストが付与されている。また、画像7のみ富士山にがかかった(ノイズが存在する)画像となっている。画像8〜10は、メディア間類似度計算手段203によって、メタテキストが画像7と類似していると判定された画像である。すなわち、画像7〜10のメタテキスト中には「富士山」や「山頂」などの単語が共通に現れているため、これらの画像データ間が類似していると判定される。

0053

このように、実施形態1の類似度計算装置100では、画像データ間の類似度を画像の類似度に基づいて計算していたが、本実施の形態では画像データ間の類似度を画像に付与されているメタテキストの類似度に基づいて計算している点が異なる。

0054

このとき、クエリとして図11に示した画像クエリ1を入力して、画像7との類似度を求めることを考える。画像クエリ1は、ロケットの画像であるが画像7と同様に雲がかかって(ノイズが存在して)いる。ここで、画像クエリ1や画像7の雲(ノイズ)は画像データが表すべき本来のデータではない、すなわち画像データの誤りであると考えると、画像7(富士山)と画像クエリ1(ロケット)との類似度は小さくなるべきだが、従来よく行われているように画像クエリ1と画像7とを単純に画像として比較すると、雲(ノイズ)の部分の影響で両者の類似度が大きくなってしまうことも考えられる。

0055

本実施形態においては、単独スコア計算手段204が、画像データ8〜10と画像クエリ1との画像の類似度を表す単独スコアを計算し、これらは全く異なる画像であるため画像8〜10の単独スコアは小さくなる。従って、クエリ類似度計算手段205が、数式1によって画像7とクエリ画像1との類似度を計算すると、その値は小さくなり、画像7と画像クエリ1とは類似していないと判定される。

0056

一方、クエリとして図11に示した画像クエリ2を入力して、画像7との類似度を求めることを考える。画像クエリ2は富士山であり、同じく富士山の画像である画像7との類似度が大きくなって欲しいが、画像7と画像クエリ2と単純に画像として比較すると画像7のノイズ(雲)のために両者の類似度が小さくなってしまうと考えられる。

0057

本実施形態においては、画像7に類似するメタテキストを持つ画像8〜10と画像クエリ2との画像の類似度が大きいため、数式1によって計算される画像7と画像クエリ2との類似度が大きくなり、画像7と画像クエリ2とは類似していると判定される。

0058

以上で説明したように、本実施形態では、ある画像データにノイズが存在する場合でも、ある画像データに類似するメタテキストを持つ他の画像データに対する単独スコアを用いることで、ある画像データとクエリとの類似度を正しく求めることができる。これは、ある画像データに類似するメタテキストを持つ他の画像データの多くではノイズが存在しないと期待できることを利用している。

0059

なお、本実施の形態のように、メタテキスト間の類似度を計算することで画像データ間の類似度を求めることで、意味内容類似性に基づいて他の画像データの単独スコアに重み付けすることができる。その結果、本実施の形態では、ある画像データとクエリ画像との類似度を、クエリ画像との意味内容の近さに基づいて求めることが可能となる。また、メタテキスト間の類似度を用いることで、画像間の類似度を計算するのに比べて高速に計算可能であるという利点もある。

0060

次に、本実施の形態の効果について説明する。
本実施の形態では、あるメディアデータとクエリとの類似度を求める際に、前記あるメディアデータに類似する他のメディアデータのクエリに対する類似度を用いるため、前記あるメディアデータ自身に誤りが含まれていても、前記あるメディアデータとクエリとが無関係であれば、類似度が小さいと判定できる(画像クエリ1の場合)。
また、同様の理由により、前記あるメディアデータ自身に誤りが含まれていても、前記あるメディアデータとクエリとが関連していれば、類似度が大きいと判定できる(画像クエリ2の場合)。
さらに、メディアデータ間の類似度をメタテキスト間の類似度によって計算するため、あるメディアデータとクエリとの類似度を意味内容の近さに基づいて求めることができる。
(実施形態3)

0061

次に、本発明の実施形態3に係る類似度計算装置300について図3を参照して詳細に説明する。

0062

本発明の実施形態3に係る類似度計算装置300は図3に示すように、あるメディアデータとクエリとの類似度を求める装置であって、メディアデータからメディアデータの内容を表すメタテキストを生成するメタテキスト生成手段306と、前記あるメディアデータとは異なる第2のメディアデータに対して前記クエリとの類似度を表す単独スコアを計算する単独スコア計算手段304と、前記第2のメディアデータに対して前記あるメディアデータとの類似度を表すメディア間類似度を計算するメディア間類似度計算手段303と、前記第2のメディアデータの前記メディア間類似度と前記単独スコアとを用いて、前記あるメディアデータと前記クエリとの類似度を求めるクエリ類似度計算手段305、とから構成されている。

0063

メディアデータ記憶手段301は、前記あるメディアデータを含めて様々なメディアデータを記憶する。メタテキスト生成手段306は、メディアデータを処理してメディアデータの内容を表すメタテキストを生成する。メタテキスト記憶手段302は、メタテキスト生成手段306が生成するメタテキストをメディアデータと対応付けた状態で記憶する。

0064

メディア間類似度計算手段303は、メディアデータ記憶手段301が記憶するメディアデータのそれぞれに対して、前記あるメディアデータとの類似度を表すメディア間類似度を計算する。メディア間類似度は、メタテキスト記憶手段302が記憶するメタテキスト同士を比較することで計算する。

0065

単独スコア計算手段304は、メディアデータ記憶手段301が記憶するメディアデータのそれぞれに対して、前記クエリとの類似度を表す単独スコアを計算する。単独スコアは、メタテキスト記憶手段302が記憶するメタテキストと前記クエリとを比較することで計算する。

0066

クエリ類似度計算手段305は、メディアデータのそれぞれに対して計算された前記あるメディアデータとのメディア間類似度、および前記クエリとの類似度を用いて、前記あるメディアデータと前記クエリとの類似度を計算する。

0067

次に、図3のブロック図、図7の流れ図、図12および図13の具体例を示す図を参照して、本実施の形態の全体の動作について詳細に説明する。本実施の形態の説明では、メディアデータ記憶手段301は音声データを記憶しているものとする。

0068

まず、メタテキスト生成手段306は、メディアデータ記憶手段301が記憶する音声データを読み込み、音声認識を用いて音声データ中の発話内容をテキスト化し、認識結果テキストをメタテキスト記憶手段302に記憶する(図7のステップ805)。

0069

このようなデータに対してクエリを入力し(図7のステップ801)、ある音声データiとクエリとの類似度を求めることを考える。本実施の形態では、クエリはテキストクエリであるとする。テキストクエリは、キーボードによって入力しても良いし、マイクに向かって発話した音声を音声認識によってテキスト化することで入力しても良いし、タッチペンで描いた文字を文字認識によってテキスト化することで入力しても良い。あるいは、何らかのプログラムにより自動生成されたテキストをクエリとして本実施の形態を動作させても良い。

0070

メディア間類似度計算手段303は、メディアデータ記憶手段301が記憶する音声データのそれぞれに対して、音声データiとの類似度を表すメディア間類似度を計算する(図7のステップ804)。メディア間類似度計算手段303は、音声データ間の類似度を、メタテキスト記憶手段302が記憶するメタテキスト間の類似度により求める。メタテキスト間の類似度は、例えば、既に良く知られた方法である文書ベクトル間のコサイン類似度などを用いればよい。すなわち、メタテキストを形態素に分割して名詞や動詞などを抽出し、その出現頻度やtf・idf値を要素とする文書ベクトルを作成し、文書ベクトル間のコサインをメタテキスト間の類似度とすればよい。

0071

一方で、単独スコア計算手段304は、メディアデータ記憶手段301が記憶する音声データのそれぞれに対して、クエリとの類似度を表す単独スコアを計算する(図7のステップ802)。クエリと音声データとの類似度は、メタテキスト記憶手段302が記憶するメタテキストとテキストクエリとを比較することで求める。これは、クエリがメタテキスト中に含まれるかどうかによって算出しても良いし、クエリがメタテキスト中に出現する回数を元に算出しても良い。また、クエリが文書であれば、さきほど説明したような文書ベクトル間のコサイン類似度などを用いても良い。

0072

クエリ類似度計算手段305は、類似度計算装置100のクエリ類似度計算手段105と同様の処理を行うことで、音声データiとクエリとの類似度を求める(図7のステップ803)。すなわち、クエリ類似度計算手段305は、クエリとの類似度を求めたい音声データをiとし、音声データの集合をM、音声データiと音声データjとの類似度をdij、クエリqに対する音声データjの単独スコアをs(q,j)とするとき、音声データiとクエリqとの類似度score(q,i)を、例えば、数式1や数式2を用いて計算する。このようにすることで、音声データiと類似するメタテキストを持つ他の音声データの多くがクエリqと類似しているときに、音声データiとクエリqとの類似度score(q,i)は大きな値となる。その結果、音声データi自身のメタテキストの誤りに頑健な類似度計算が可能となる。

0073

図12および図13を用いて、本実施の形態の動作とその効果を具体的に説明する。
図12において、映像1〜3は日本の神話の一つである「因幡の白うさぎ」に関する映像(音声付の動画データ)を表し、それぞれに対して音声認識によって得られた認識結果テキストがメタテキストとして付与されている。ただし、映像1では、「(正)因幡」を「(誤)イナバウアー」と誤認識してしまっている。映像1は「因幡」を正しく認識できていないものの、認識結果テキスト中には「白うさぎ」「取」「伝説」「お土産」などの単語が映像2〜3と共通に出現しているため、映像1と映像2〜3とは類似していると判定される。

0074

このとき、テキストクエリとしてフィギュアスケートの技の一つである「イナバウアー」を入力して、映像1との類似度を求めることを考える。従来よく行われているように、クエリと映像1のメタテキストとを直接比較すると、映像1のメタテキストでは「因幡」が誤認識されて「イナバウアー」が存在するので、映像1はイナバウアーとは無関係であるにも関わらず、映像1とクエリ「イナバウアー」との類似度は大きくなってしまう。その結果、映像検索などの応用場面を考えると、クエリ「イナバウアー」によって映像1が誤って検索されてしまうという問題が生じる。

0075

本発明の実施形態においては、単独スコア計算手段304は、映像1とは異なる他の映像2〜3とクエリ「イナバウアー」との類似度を表す単独スコアを計算する。その結果、映像2〜3のメタテキストに「イナバウアー」は存在しないため、それぞれの単独スコアは小さくなる。従って、クエリ類似度計算手段305が、例えば数式1によって、映像1とクエリ「イナバウアー」との類似度を計算すると、その値は小さくなり、映像1とクエリ「イナバウアー」とは類似していないと判定される。

0076

すなわち、図12の例においては、映像1の音声認識結果ではたまたま「イナバウアー」と誤認識されていても、映像1に類似する他の映像2〜3でも同様に「イナバウアー」と誤認識されることは少ないと期待できることを利用することで、認識結果テキスト中の誤りに頑健な類似度計算を可能としている。

0077

一方、図13において、映像4〜7は「イナバウアー」に関する映像を表し、それぞれに対して音声認識によって得られた認識結果テキストがメタテキストとして付与されている。ただし、映像4では、「(正)イナバウアー」を「(誤)稲葉うわぁ」と誤認識してしまっている。映像4は「イナバウアー」を正しく認識できていないものの、認識結果テキスト中には「フィギュアスケート」「金メダル」「オリンピック」などの単語が映像5〜7と共通に出現しているため、映像4と映像5〜7とは類似していると判定される。これらの単語は、「イナバウアー」に関する話題において共通に出現しやすい単語であると考えられる。

0078

このとき、テキストクエリとして「イナバウアー」を入力して、映像4との類似度を求めることを考える。映像4のメタテキストでは「イナバウアー」が誤認識されて「稲葉うわぁ」となってしまっているため、クエリと映像4のメタテキストとの直接比較では、映像4はイナバウアーに関する映像であるにも関わらず、映像4とクエリ「イナバウアー」との類似度は小さくなってしまう。その結果、映像検索などの応用場面を考えると、クエリ「イナバウアー」によって映像4を検索することができないという問題が生じる。

0079

本発明の実施形態においては、単独スコア計算手段304は、映像4とは異なる他の映像5〜7とクエリ「イナバウアー」との類似度を表す単独スコアを計算する。映像4に類似するメタテキストを持つ映像5〜7は、映像4と意味内容の類似する映像、すなわちイナバウアーに関連する映像である。実際、この例では、映像5〜7のメタテキスト中に「イナバウアー」が存在するため、映像5〜7の単独スコアは大きくなる。従って、クエリ類似度計算手段305が、例えば数式1によって、映像4とクエリ「イナバウアー」との類似度を計算すると、その値は大きくなり、映像4とクエリ「イナバウアー」とは類似していると判定される。

0080

すなわち、図13の例においては、映像4ではたまたま「イナバウアー」が認識できていなくても、映像4に類似する他の映像5〜7では「イナバウアー」が正しく認識できることが多いと期待できることを利用することで、認識結果テキスト中の誤りに頑健な類似度計算を可能としている。

0081

以上述べたように、本発明の実施形態では、類似する音声認識結果テキストを持つ音声データ同士は意味内容が類似している、ある音声データのメタテキストに認識誤りが含まれる場合でも類似する音声データに同様の誤りが含まれることは少ない、メタテキストに多少の誤りが含まれていてもメタテキスト間の類似度計算の精度はそれほど劣化しない、といった性質を利用することで、メタテキストに認識誤りが含まれる場合でもある音声データとクエリとの類似度を正しく求めることができる。

0082

なお、本実施の形態では、メディアデータとして音声データを例に説明したが、本発明はメディアデータを音声データに限るものではない。例えば、メディアデータが画像データや文字画像データである場合に画像認識や文字認識によってメタテキストを生成したり、メディアデータがテキストクエリとは異なる言語で表されるテキストデータである場合に自動翻訳によってメタテキストを生成したりするとき、本実施の形態と同様の処理を行うことで、画像認識・文字認識・自動翻訳では避けることができない誤りに対して頑健な類似度計算が可能となる。

0083

次に、本実施の形態の効果について説明する。
本実施の形態では、あるメディアデータとクエリとの類似度を求める際に、前記あるメディアデータに類似する他のメディアデータのクエリに対する類似度を用いるため、前記あるメディアデータから生成されたメタテキストに誤りが含まれていても、前記あるメディアデータとクエリとが無関係であれば、類似度が小さいと判定できる(図12の例)。
また、同様の理由により、前記あるメディアデータから生成されたメタテキストに誤りが含まれていても、前記あるメディアデータとクエリとが関連していれば、類似度が大きいと判定できる(図13の例)。
本実施の形態のようにメディアデータからメタテキストを自動で生成する場合にはメタテキストに誤りが含まれることを避けることができないため、本発明による効果は非常に大きい。
なお、本実施の形態で説明した類似度計算装置を用いることで、メディアデータから自動でメタテキストを生成してテキストクエリによって検索する場合の検索精度を向上したり、メディアデータから自動で生成されたメタテキストを半自動で修正したりすることが可能となることはもちろんである。
(実施形態4)

0084

次に、本発明の実施形態4に係る類似度計算装置300aについて図面を参照して詳細に説明する。

0085

本発明の実施形態4に係る類似度計算装置300aは、図3に示した類似度計算装置300の構成と同様であり、メタテキスト生成手段306がメタテキストの正確さを表す信頼度とともにメタテキストを生成し、単独スコア計算手段304が信頼度の大きなメタテキストにより大きな重みをつけて単独スコアを計算し、メディア間類似度計算手段303が信頼度の大きなメタテキストにより大きな重みをつけてメタテキスト間の類似度を計算することでメディアデータ間の類似度を計算するよう動作する点が異なる。

0086

次に、図3のブロック図を参照して、本実施の形態の全体の動作について詳細に説明する。
まず、メディアデータ記憶手段301、メタテキスト記憶手段302、クエリ類似度計算手段305は、それぞれ類似度計算装置300の各手段と同様の動作を行うため、説明を省略する。

0087

メタテキスト生成手段306は、メディアデータの内容を表すテキストを生成する際に、そのテキストの正確さを表す信頼度も出力する。音声認識、文字認識、自動翻訳などによる出力テキストの正確さを表す信頼度を求める方法は、従来いくつか知られている。例えば、音声認識や文字認識や自動翻訳において結果として出力された仮説事後確率を信頼度としたり、あるいはもっと単純に複数の音声認識装置文字認識装置自動翻訳装置を用意してその結果の一致度を信頼度としたりしてもよい。また、信頼度はメタテキスト全体に付与しても良いし、テキスト中の単語単位で付与しても良い。

0088

単独スコア計算手段304は、信頼度に応じた重みをメタテキストにつけてクエリと比較する。例えば、映像データから音声認識を用いてメタテキストを生成する場合、背景雑音などの影響により認識精度が低下する部分は一般に信頼度も低くなる。このように信頼度の低いメタテキストとクエリとが一致した場合には、単独スコアを通常よりも小さく評価する。こうすることで単独スコアの精度が高まり、その結果、単独スコアを元に計算されるメディアデータとクエリとの類似度の精度も高まる。

0089

また、メディア間類似度計算手段303は、信頼度に応じた重みをメタテキストにつけてメタテキスト間の類似度を計算することでメディアデータ間の類似度を計算する。例えば、メタテキストから文書ベクトルを作成するときに信頼度の高い単語のみを用いる、などとする。こうすることでメディアデータ間の類似度の精度が高まり、その結果、これを用いて計算されるメディアデータとクエリとの類似度の精度も高まる。

0090

なお、本実施の形態では、単独スコア計算手段304とメディア間類似度計算手段303の両方でメタテキストの信頼度を用いたが、単独スコア計算手段のみで信頼度を用いても、メディア間類似度計算手段のみで信頼度を用いても、もちろん効果はある。

0091

次に、本実施の形態の効果について説明する。
本実施の形態では、メタテキストの正確さを表す信頼度が大きい、すなわち誤りの少ないメタテキストに重みをつけてメディアデータの単独スコアやメディアデータ間の類似度を計算するため、それぞれの精度が高まり、メディアデータとクエリとの類似度をより正確に計算することができる。
(実施形態5)

0092

次に、本発明の実施形態5に係る類似度計算装置400について図面を参照して詳細に説明する。

0093

本発明の実施形態5に係る類似度計算装置400の構成は図4に示すように、図3に示す類似度計算装置300の構成に加えて、関連テキスト記憶手段407を備え、単独スコア計算手段404およびメディア間類似度計算手段403が関連テキストに対する単独スコアおよびメディア間類似度も計算し、クエリ類似度計算手段405が関連テキストに対するメディア間類似度と単独スコアも用いてメディアデータとクエリとの類似度を計算する点が異なる。

0094

次に、図4のブロック図を参照して、本実施の形態の全体の動作について詳細に説明する。
まず、メディアデータ記憶手段401、メタテキスト生成手段406、メタテキスト記憶手段402は、それぞれ図3に示した各手段と同様の動作を行うため、説明を省略する。

0095

関連テキスト記憶手段407は、メディアデータ記憶手段401が記憶するメディアデータに内容が関連するテキストデータを記憶する。例えば、メディアデータとしてニュース番組映像を用いる場合は、関連テキストとして新聞記事テキストを用意すればよい。また、例えば、メディアデータとして教育用ビデオを用いる場合は、関連テキストとして教材テキストを用意すればよい。関連テキストとして用意するテキストデータは、なるべく誤りの少ない信頼性の高いテキストであることが望ましい。

0096

単独スコア計算手段404は、メディアデータ記憶手段401が記憶するメディアデータに加えて、関連テキスト記憶手段407が記憶する関連テキストのそれぞれに対してもクエリとの類似度を表す単独スコアを計算する。関連テキストに対する単独スコアの計算方法は、第3の実施の形態におけるメディアデータに対する単独スコアの計算方法と同様でよい。

0097

メディア間類似度計算手段403は、メディアデータ記憶手段401が記憶するメディアデータに加えて、関連テキスト記憶手段407が記憶する関連テキストのそれぞれに対してもメディア間類似度を計算する。関連テキストに対するメディア間類似度の計算方法は、第3の実施の形態におけるメタテキスト間の類似度の計算方法と同様でよい。
最後に、クエリ類似度計算手段405は、関連テキストのメディア間類似度と単独スコアも用いて、メディアデータとクエリとの類似度を計算する。

0098

このようにすることで、例えば、メディアデータとしてニュース番組映像を、メタテキスト生成手段として音声認識を、関連テキストとして新聞記事を用いた場合、メタテキストに絶対に出力されない音声認識の未知語(音声認識等に用いる辞書登録されていない語)をクエリとした場合でも、関連テキストとして用意した新聞記事中にその未知語が存在すれば、メディアデータとクエリとの類似度を求めることができる。

0099

また、本実施の形態において、単独スコア計算手段404は、関連テキストの単独スコアがメディアデータの単独スコアよりも大きくなるように重みをつけてもよい。たとえば極端には、メディアデータの単独スコアは常に0とすることで、関連テキストのみを用いても良い。関連テキストとして用意したテキストの信頼性が非常に高い場合や、メディアデータから生成されたメタテキストをあまり信用できない場合にこのようにすることで、メディアデータとクエリとの類似度を精度良く計算することができる。

0100

次に、本実施の形態の効果について説明する。
本実施の形態では、メディアデータに関連するテキストデータを用意するため、音声認識や文字認識や自動翻訳などを用いてメディアデータから自動で生成されたメタテキストには絶対に出力されない未知語などをクエリとしても、メディアデータとクエリとの類似度を計算することができる。
(実施形態6)

0101

次に、本発明の実施形態6に係る類似度計算装置500について図面を参照して詳細に説明する。

0102

本発明の実施形態6に係る類似度計算装置500は図5に示すように、あるメディアデータとクエリとの類似度を求める装置であって、図3に示した類似度計算装置300の構成に加えて、クエリ生成難度計算手段507を備える。

0103

クエリ生成難度計算手段507は、メタテキスト生成手段506によるクエリの生成難度を計算する。
クエリ類似度計算手段505は、前記生成難度が大きい場合に前記あるメディアデータとの類似度が小さなメディアデータにも大きな重みをつけて前記単独スコアの和をとることで、前記あるメディアデータと前記クエリとの類似度を計算する。

0104

次に、図5のブロック図を参照して、本実施の形態の全体の動作について詳細に説明する。
まず、メディアデータ記憶手段501、メタテキスト生成手段506、メタテキスト記憶手段502、メディア間類似度計算手段503、単独スコア計算手段504は、それぞれ図3に示した類似度計算装置300の各手段と同様の動作を行うため、説明を省略する。

0105

クエリ生成難度計算手段507は、メタテキスト生成手段によるクエリの生成難度を計算する。ここで、クエリの生成難度が高いとは、メタテキスト生成手段によってクエリがなかなか生成されない、という意味である。例えば、音声認識において、言語モデルでの出現確率が極めて低く割り当てられている単語などは、たとえ音声データ中にその単語が現れてもなかなか認識結果に現れない。このような単語を生成難度が大きいと判定する。認識結果に現れることのない未知語についても生成難度が大きいと判定するようにすればよい。

0106

クエリ類似度計算手段505は、クエリの生成難度が大きい場合に、前記あるメディアデータとの類似度が小さなメディアデータにも大きな重みをつけて前記単独スコアの和をとることで、前記あるメディアデータと前記クエリとの類似度を計算する。例えば、数式2において、メタテキスト生成手段による生成難度が大きいクエリに対しては、閾値tを小さくするなどの方法が考えられる。他にも、数式1の重み関数f(i,j)をクエリの生成難度に応じて変更しても良い。

0107

このようにすることで、生成難度が大きく音声認識等ではなかなか認識することができないテキストがクエリとして入力されても、前記あるメディアデータとの類似度をある程度求めることができるようになる。
また、類似度計算装置400では、関連テキストを用意することで、メタテキスト生成手段の未知語をクエリとしてもメディアデータとの類似度を求めることが可能となったが、このとき、クエリ生成難度計算手段507は、未知語をクエリとしたときには生成難度が大きいと判定することができる。

0108

次に、本実施の形態の効果について説明する。
本実施の形態では、メタテキスト生成手段506によってなかなか生成されないクエリとあるメディアデータとの類似度を求める際に、前記あるメディアデータとの類似度が小さなメディアデータにも大きな重みをつけて前記単独スコアの和をとるため、このような生成難度の大きいクエリに対しても前記あるメディアデータとの類似度を求めることができるようになる。
(実施形態7)

0109

上述した類似度計算装置100〜500は、ハードウェアとして構築したが、これに限られるものではない。上述した実施形態1〜6に係る類似度計算装置100〜500を、コンピュータに実行させるソフトウェアとしてのプログラムとして構成してもよいものである。この例を実施形態7として説明する。

0110

図8に示すように、コンピュータ900は、MPU(Micro Processing Unit)等を含んで構成されるデータ処理装置910と、磁気ディスク半導体メモリ等で構成される記憶装置920とを有しており、さらに、コンピュータ900は、情報検索用プログラム930を記憶している。

0111

記憶装置920は、メディアデータ記憶手段921、メタテキスト記憶手段922、関連テキスト記憶手段923、などとして使用される。

0112

データ処理装置910は、情報検索用プログラム930を読み出して、そのプログラム930を実行することにより、仮想的に実施形態1〜6における機能手段を実現する。すなわち、データ処理装置910は、情報検索用プログラム930の制御により、単独スコア計算手段104、204、304、404、504、クエリ類似度計算手段105、205、305、405、505、メディア間類似度計算手段103、203、303、403、503、メタテキスト生成手段306、406、506、クエリ生成難度計算手段507、などを仮想的に実現する。

0113

図14は、図8に示すコンピュータ900を利用して、情報検索装置1000とウェブサーバ1100とを構成したものである。図14に示す情報検索装置1000は、類似度計算装置100,200,300,300a,400,500のいずれか一つ(以下では、100として表記する)と、検索結果生成手段1010と備えている。

0114

情報検索装置1000は、クライアント1200と通信ネットワークを介して接続されており、クライアント1200は、通信ネットワークを介して情報検索装置1000の類似度計算装置100にアクセス可能な構成となっている。

0115

クライアント1200からアクセスがあった場合、情報検索装置1000の類似度計算装置100は、クライアント1200からのクエリを受信し、このクエリとウェブサーバ1100の検索対象メディアデータ記憶手段1110に記憶されているメディアデータ1等の検索対象となるメディアデータのそれぞれとの類似度を計算する。すなわち、メディアデータ1等をあるメディアデータとしてクエリとの間の類似度を計算する。
このとき、他のメディアデータとしては、ウェブサーバ1100に記憶されている検索対象メディアデータを用いてもよいし、類似度計算装置100のメディアデータ記憶手段に記憶されているメディアデータやその関連テキストを用いるようにしてもよい。

0116

検索結果生成手段1010は、類似度計算装置100が算出した類似度に基づいて検索結果を生成し、これをクライアント1200に返信する。検索結果は、例えば、クエリとの類似度が所定の閾値を上回るメディアデータのURL(Uniform Resource Locator)のリストとすることができる。

0117

本実施形態において、検索対象のメディアデータは、類似度計算装置100等がアクセス可能な位置であれば、その物理的な格納位置は問わない。例えば、情報検索装置1000に内蔵されている記憶装置や、情報検索装置1000とファイバーチャネルで接続されたストレージ装置に格納されていてもよい。また、複数の装置に分散して格納されていてもよい。

0118

また、クエリは、クライアント1200が備えるキーボード等の入力手段から入力するようにし、検索結果はディスプレイ装置プリンタ等の出力手段に出力するようにしてもよい。

0119

次に、本実施の形態の効果について説明する。
第1の効果は、クエリによりメディアデータを検索する際に、メディアデータあるいはそのメタデータに何らかの誤りが含まれている場合でも、クエリとは無関係なメディアデータを誤って検索しないことにある。
その理由は、メディアデータあるいはそのメタデータに何らかの誤りが含まれていても、メディアデータとクエリとが無関係であれば、メディアデータとクエリとの類似度が小さくなる類似度計算装置を用いてメディアデータを検索するためである。

0120

第2の効果は、クエリによりメディアデータを検索する際に、メディアデータあるいはそのメタデータに何らかの誤りが含まれている場合でも、クエリと関連するメディアデータを正しく検索できることにある。
その理由は、メディアデータあるいはそのメタデータに何らかの誤りが含まれていても、メディアデータとクエリとが関連していれば、メディアデータとクエリとの類似度が大きくなる類似度計算装置を用いてメディアデータを検索するためである。

0121

次に、本発明の他の実施形態について説明する。

0122

第2のメディアデータは複数のメディアデータから構成され、単独スコア計算手段は、第2のメディアデータに含まれるそれぞれのメディアデータに対して単独スコアを計算し、メディア間類似度計算手段は、それぞれのメディアデータに対してメディア間類似度を計算し、クエリ類似度計算手段は、それぞれのメディアデータのメディア間類似度と単独スコアとを用いて、あるメディアデータとクエリとの類似度を求めるよう動作するようにしてもよいものである。

0123

前記クエリ類似度計算手段は、第2のメディアデータに含まれるそれぞれのメディアデータのメディア間類似度に応じたそれぞれのメディアデータの単独スコアの重みつき和をあるメディアデータとクエリとの類似度とするよう動作するようにしてもよいものである。

0124

前記メディア間類似度計算手段は、メディアデータの内容を表すメタテキスト間の類似度を計算するよう動作するようにしてもよいものである。

0125

クエリとしてテキストクエリを用い、前記単独スコア計算手段は、メディアデータの内容を表すメタテキストとテキストクエリとを比較することで単独スコアを計算するよう動作するようにしてもよいものである。

0126

クエリとしてテキストクエリを用い、単独スコア計算手段は、メディアデータの内容を表すメタテキストとテキストクエリとを比較することで単独スコアを計算し、前記メディア間類似度計算手段は、前記メタテキスト間の類似度を計算するよう動作するようにしてもよいものである。

0127

メタテキストをメディアデータから自動的に生成するメタテキスト生成手段をさらに備えるようにしてもよいものである。

0128

前記メタテキスト生成手段は、メタテキストの正確さを表す信頼度と共にメタテキストを生成し、メディア間類似度計算手段は、信頼度の大きなメタテキストにより大きな重みをつけてメタテキスト間の類似度を計算することでメディア間類似度を計算するよう動作するようにしてもよいものである。

0129

前記メタテキスト生成手段は、メタテキストの正確さを表す信頼度と共にメタテキストを生成し、単独スコア計算手段は、信頼度の大きなメタテキストにより大きな重みをつけて単独スコアを計算するよう動作するようにしてもよいものである。

0130

前記メタテキスト生成手段におけるテキストクエリと同一のテキストの生成難度を計算するクエリ生成難度計算手段をさらに備え、クエリ類似度計算手段は、第2のメディアデータのメディア間類似度と単独スコアと生成難度とを用いて、あるメディアデータとクエリとの類似度を求めるよう動作するようにしてもよいものである。

0131

前記メタテキスト生成手段は辞書を用いてメタテキストを生成し、クエリ生成難度計算手段は、テキストクエリが辞書に登録されていない未知語である場合に生成難度を大きくするよう動作するようにしてもよいものである。

0132

メディアデータとして音声データを用い、メタテキスト生成手段は、音声データを音声認識によりテキスト化することでメタテキストを生成するよう動作するようにしてもよいものである。

0133

メディアデータとして画像データを用い、メタテキスト生成手段は、画像データを画像認識あるいは文字認識によりテキスト化することでメタテキストを生成するよう動作するようにしてもよいものである。ここで、「画像データ」には、静止画のデータと動画のデータの両方が含まれる。

0134

メディアデータとして、テキストクエリとは異なる言語で表されるテキストデータを用い、メタテキスト生成手段は、テキストデータを自動翻訳によってテキストクエリと同じ言語のテキストに変換することでメタテキストを生成するよう動作するようにしてもよいものである。

0135

あるメディアデータの関連テキストを記憶する関連テキスト記憶手段をさらに備え、単独スコア計算手段およびメディア間類似度計算手段およびクエリ類似度計算手段は、第2のメディアデータとして関連テキストを用いるよう動作するようにしてもよいものである。

0136

情報検索装置としては、類似度計算装置を備え、この類似度計算装置が検索対象となるメディアデータのそれぞれをあるメディアデータとしてクエリとの類似度を計算し、この類似度に基づいてクエリに対する検索結果を生成する検索結果生成手段を備えるものであってもよいものである。

0137

以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0138

この出願は2006年8月3日に出願された日本出願特願2006−212659を基礎とする優先権を主張し、その開示の全てをここに取り込む。

0139

本発明は、インターネット上のサーバ個人所有するAVパソコンハードディスクレコーダなどに蓄積されている映像、音声などの多様で大量のメディアデータを効率的に検索、視聴する情報検索システムや、情報検索システムをコンピュータに実現するためのプログラムといった用途に適用できる。また、会議議事録や教育用のビデオなどを効率良く検索、管理するような企業内の情報共有システムといった用途にも適用可能である。さらに、様々なメディアデータへのメタデータ付与作業を効率化するための、メタデータ作成支援ステムといった用途にも適用可能である。

図面の簡単な説明

0140

本発明の第1の発明を実施するための最良の形態の構成を示すブロック図である。
本発明の第2の発明を実施するための最良の形態の構成を示すブロック図である。
本発明の第3、第4の発明を実施するための最良の形態の構成を示すブロック図である。
本発明の第5の発明を実施するための最良の形態の構成を示すブロック図である。
本発明の第6の発明を実施するための最良の形態の構成を示すブロック図である。
本発明の第1、第2の発明を実施するための最良の形態の全体の動作を示す流れ図である。
本発明の第3の発明を実施するための最良の形態の全体の動作を示す流れ図である。
本発明の第7の発明を実施するための最良の形態の構成を示すブロック図である。
本発明の第1の発明を実施するための最良の形態の具体例を示す図である。
本発明の第2の発明を実施するための最良の形態の具体例を示す図である。
本発明の第2の発明を実施するための最良の形態の具体例を示す図である。
本発明の第3の発明を実施するための最良の形態の具体例を示す図である。
本発明の第3の発明を実施するための最良の形態の具体例を示す図である。
本発明の第7の発明を実施するための最良の形態の構成を示すブロック図である。
従来の情報検索装置の構成を示すブロック図である。

符号の説明

0141

100類似度計算装置
101メディアデータ記憶手段
102メタテキスト記憶手段
103メディア間類似度計算手段
104 単独スコア計算手段
105クエリ類似度計算手段
200 類似度計算装置
201 メディアデータ記憶手段
202 メタテキスト記憶手段
203 メディア間類似度計算手段
204 単独スコア計算手段
205 クエリ類似度計算手段
300 類似度計算装置
300a 類似度計算装置
301 メディアデータ記憶手段
302 メタテキスト記憶手段
303 メディア間類似度計算手段
304 単独スコア計算手段
305 クエリ類似度計算手段
306 メタテキスト生成手段
400 類似度計算装置
401 メディアデータ記憶手段
402 メタテキスト記憶手段
403 メディア間類似度計算手段
404 単独スコア計算手段
405 クエリ類似度計算手段
406 メタテキスト生成手段
407関連テキスト記憶手段
500 類似度計算装置
501 メディアデータ記憶手段
502 メタテキスト記憶手段
503 メディア間類似度計算手段
504 単独スコア計算手段
505 クエリ類似度計算手段
506 メタテキスト生成手段
507クエリ生成難度計算手段
600情報検索装置
601入力手段
602音声認識手段
603拡張キー抽出手段
604拡張単語抽出手段
605関連情報検索手段
606外部データベース
607音声ドキュメント記述生成手段
608 出力手段
900コンピュータ
910データ処理装置
920記憶装置
921 メディアデータ記憶手段
922 メタテキスト記憶手段
923 関連テキスト記憶手段
930 類似度計算用プログラム
1000 情報検索装置
1010検索結果生成手段
1100ウェブサーバ
1110検索対象メディアデータ記憶手段
1200 クライアント

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ