図面 (/)

技術 マルチメディアアイテム(multimediaitem)を示す信号の記述子を決定する方法及び装置、データベース内のアイテムを検索する装置、並びにデータベース内のマルチメディアアイテムを分類する装置

出願人 トムソンライセンシング
発明者 スタウダー,ユルゲンシロ,ジョエルマリア-アルフォンス,ジャン-エミーユ
出願日 2007年6月1日 (13年5ヶ月経過) 出願番号 2007-146581
公開日 2008年3月6日 (12年8ヶ月経過) 公開番号 2008-052707
状態 特許登録済
技術分野 イメージ処理・作成 画像処理
主要キーワード 統計学的モーメント 中心モーメント 周波数ゼロ 基本周波数帯域 マルチメディアアイテム ホログラフィックディスク 画像ピクセル値 カスタムハードウェア
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2008年3月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題

マルチメディアアイテムを示す信号の記述子を決定する方法及び装置を提供する。

解決手段

第1係数を得るために、方向フィルタの第1バンクをマルチメディアアイテムを示す信号に適用するステップS1、低域通過フィルタで処理された信号を示す第2係数を得るためにフィルタの第2バンクを前記信号に適用するステップS2、前記第1係数と前記第2係数との差を作り出すことによって前記マルチメディア要素を示す記述子を計算するステップS3、前記差の関連パワーを計算するステップS4、を含む。

概要

背景

例えばマルチメディア資産管理など、信号処理及びデータ処理の多様な分野において、2つのアイテムを比較したり、あるアイテムと類似するデータベース内のアイテムを検索したりするために、マルチメディアアイテムのための小さなサイズであってコンパクト記述子の算出が行われている。

一例を挙げると、データベースの画像、例えば個人写真ビデオの画像は、データベース内の類似する画像をグループ化し、ある画像と類似する画像を検索することを簡単にする関連記述子を有することができる。

記述子はたとえ小さいサイズであっても、2つのアイテムの類似性を最大に反映していなければならないところに、記述子の課題がある。

周知で一般的に用いられる記述子の一つのタイプは、マルチメディアアイテムの信号の周波数分解に基づいている。従って、周波数帯域に対応しフィルタ処理された各信号を生成するためにフィルタバンクが用いられる。この時、各帯域でフィルタ処理された信号のパワー(power)がしばしば計算される。パワー値総計によって記述子が構築される。フィルタバンクの使用は、例えばオーディオ処理において一般的である。また画像に関して言えば、ウェーブレットフィルタガボールフィルタ(Gabor filter)などのフィルタバンクが、画像解析画像検索において広く用いられている。

画像の特徴や画像の類似性を反映する記述子の能力を高めるために、下記の手段のうちのひとつが一般的に適用される。
1.フィルタの数を増やす。
2.フィルタの配置及び種類を最適化する。
3.各フィルタの精度を高める。

第1の手段は、例えば8つのフィルタの代わりに12のフィルタを用いることで実現できる。これによって、信号周波数スペクトルはより良く表される。

第2の手段は、画像の場合は、ウェーブレットフィルタをガボールフィルタに取り替えることで実現できる。ウェーブレットフィルタは、水平周波数垂直周波数及びダイアゴナル(diagonal)周波数を考慮することによって、2次元周波数スペクトルの範囲をカバーする一方、ガボールフィルタは、より適応性があって、より多くの方向の周波数を表現することができる。これによって、画像や特に画像のテクスチャをより良く表現することができる。

第3の手段は、フィルタ、とりわけディジタルフィルタを改良し、フィルタカーネルを示すために用いられるサンプルの数を増やすことによって実現できる。例えば、16×16カーネルを32×32カーネルに置き換えると、ガボールフィルタの精度を高めることができる。

概要

マルチメディアアイテムを示す信号の記述子を決定する方法及び装置を提供する。第1係数を得るために、方向フィルタの第1バンクをマルチメディアアイテムを示す信号に適用するステップS1、低域通過フィルタで処理された信号を示す第2係数を得るためにフィルタの第2バンクを前記信号に適用するステップS2、前記第1係数と前記第2係数との差を作り出すことによって前記マルチメディア要素を示す記述子を計算するステップS3、前記差の関連パワーを計算するステップS4、を含む。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

マルチメディアアイテム(multimediaitem)を示す信号の記述子を決定する方法であって、第1組の係数を得るために前記信号に方向フィルタの第1のバンクを適用するステップ(S1)を含み、低域通過フィルタで処理された信号を示す第2組の係数を得るために、フィルタの第2バンクを前記信号に適用し(S2)、前記第1組の係数と前記第2組の係数との差を作り出すことによって前記マルチメディア要素を示す記述子を計算し(S3)、前記差の関連パワー(power)を計算する(S4)ステップを含むことを特徴とする方法。

請求項2

前記方向フィルタはガボール(Gabor)型フィルタであることを特徴とする、請求項1に記載の方法。

請求項3

前記フィルタの第2バンクは、低域通過フィルタであることを特徴とする、請求項1に記載の方法。

請求項4

前記フィルタの第2のバンクは、前記ガボールフィルタ検出感度の方向に垂直な線にそって平均値を計算する方位フィルタであることを特徴とする、請求項2に記載の方法。

請求項5

前記差の関連パワーの前記計算は係数の二次のグループについてなされ、前記得られた記述子は一組の値であって、それぞれの値はそれぞれのグループに対して得られた値に対応することを特徴とする、請求項1〜4のいずれか1項に記載の方法。

請求項6

前記差の関連パワーの前記計算は全体の記述子についてなされ、前記得られた記述子はユニークな値であることを特徴とする、請求項1または2に記載の方法。

請求項7

前記第1組の係数および第2組の係数における係数は、前記フィルタの一方向と一スケールのそれぞれに対応することを特徴とする、請求項1〜6のいずれか1項に記載の方法。

請求項8

マルチメディアアイテムを示す信号の記述子を決定する装置であって、第1組の係数を得るために方向フィルタの第1バンクを前記信号に適応する手段(2)と、前記信号の平均値を示す第2組の係数を得るために、フィルタの第2バンクを前記信号に適用する手段(3)と、前記第1組の係数と前記第2組の係数との差を作り出すことよって前記マルチメディア要素を示す記述子を計算し、前記差の関連パワーを計算する手段(4)と、を含む装置。

請求項9

データベース(1)内のマルチメディアアイテムを検索する装置であって、請求項8に記載の記述子を決定する装置と、サンプル画像の記述子と前記データベース(1)の画像の記述子とを比較する手段(5)と、前記サンプル画像の記述子と前記データベースの記述子との差が所定の閾値より小さい前記データベース内の画像を検索する手段(6)と、を含むことを特徴とする装置。

請求項10

データベース(1)内のマルチメディアアイテムを分類する装置であって、請求項8に記載の記述子を決定する装置と、前記記述子の分類のためのクラスタリング手段(7)と、を含むことを特徴とする装置。

技術分野

0001

本発明は、マルチメディアアイテム(multimedia item)の記述子を決定する方法及び装置に関する。本発明はまた、データベース内のマルチメディアアイテムを検索する装置及びデータベース内のマルチメディアアイテムを分類する装置に関する。

背景技術

0002

例えばマルチメディア資産管理など、信号処理及びデータ処理の多様な分野において、2つのアイテムを比較したり、あるアイテムと類似するデータベース内のアイテムを検索したりするために、マルチメディアアイテムのための小さなサイズであってコンパクトな記述子の算出が行われている。

0003

一例を挙げると、データベースの画像、例えば個人写真ビデオの画像は、データベース内の類似する画像をグループ化し、ある画像と類似する画像を検索することを簡単にする関連記述子を有することができる。

0004

記述子はたとえ小さいサイズであっても、2つのアイテムの類似性を最大に反映していなければならないところに、記述子の課題がある。

0005

周知で一般的に用いられる記述子の一つのタイプは、マルチメディアアイテムの信号の周波数分解に基づいている。従って、周波数帯域に対応しフィルタ処理された各信号を生成するためにフィルタバンクが用いられる。この時、各帯域でフィルタ処理された信号のパワー(power)がしばしば計算される。パワー値総計によって記述子が構築される。フィルタバンクの使用は、例えばオーディオ処理において一般的である。また画像に関して言えば、ウェーブレットフィルタガボールフィルタ(Gabor filter)などのフィルタバンクが、画像解析画像検索において広く用いられている。

0006

画像の特徴や画像の類似性を反映する記述子の能力を高めるために、下記の手段のうちのひとつが一般的に適用される。
1.フィルタの数を増やす。
2.フィルタの配置及び種類を最適化する。
3.各フィルタの精度を高める。

0007

第1の手段は、例えば8つのフィルタの代わりに12のフィルタを用いることで実現できる。これによって、信号周波数スペクトルはより良く表される。

0008

第2の手段は、画像の場合は、ウェーブレットフィルタをガボールフィルタに取り替えることで実現できる。ウェーブレットフィルタは、水平周波数垂直周波数及びダイアゴナル(diagonal)周波数を考慮することによって、2次元周波数スペクトルの範囲をカバーする一方、ガボールフィルタは、より適応性があって、より多くの方向の周波数を表現することができる。これによって、画像や特に画像のテクスチャをより良く表現することができる。

0009

第3の手段は、フィルタ、とりわけディジタルフィルタを改良し、フィルタカーネルを示すために用いられるサンプルの数を増やすことによって実現できる。例えば、16×16カーネルを32×32カーネルに置き換えると、ガボールフィルタの精度を高めることができる。

発明が解決しようとする課題

0010

フィルタバンクにおいては、フィルタのスペクトルが重なり合い、従って周波数帯域が適切に計算されないという問題がたびたび生じる。例えば、ガボールフィルタはガウス分布スペクトルを有する。これらのスペクトルは、本質的に互いに重なり合う。この重なり合いによって、特に一つあるいはいくつかのフィルタが周波数ゼロの部分を多数含む場合において画像検索の性能が落ちる。

0011

を表す2つの画像を例に挙げる。2つの画像における縞の方向と周波数は同一である。2つの画像の唯一差異点は、空間的に一定なオフセットにある。各画像の記述子は、ガボールサブバンドのパワーに基づいて計算される。たとえ画像が同じ種類のテクスチャを表していても、記述子の差が大きくなるにつれて、オフセットも大きくなる。

0012

日中の異なる時間において同じ場面を表す2つの画像を別の例として挙げる。照度の違いが大きいほど、記述子の差も大きくなる。例えば、日中の車を表すある画像を用いて、車を表す画像をデータベースにおいて検索する。そのとき、夕方のようにより微光なレベルにおける車を表す画像を検出することはできない。

0013

この効果は、特に意味的に類似するアイテムを検索する場合、データベースにおける検索の実行をより難しいものにする。例えば、あるオーディオクリップと類似するリズムを有するオーディオクリップを検索する。オーディオクリップが技術的な理由から異なる信号オフセットを有する場合、同一のリズムを有するが異なるオフセットを有するオーディオクリップのうち検出できないものもある。

0014

また、マルチメディアアイテムを分類するためにフィルタバンクに基づく記述子を用いる場合、マイナスの影響が生じ得る。これにより、記述子は、画像にひとつあるいはいくつかのラベルを属性付けるクラシファイア(classifier)に組み込まれる。例えば、画像における屋外場面のクラシファイアは、ある画像の屋外場面を検出し、この画像に対して「屋外」というラベルを作成することができる。クラシファイアは、典型的な画像によって通常トレーニングされている。これらの画像が日中の画像のみを含む場合は、クラシファイアは例えば午前中など微光レベルにおける屋外場面を検出できない。

0015

本発明は、前述の不利益のうち少なくとも一つを回避し、バンクフィルタを用いてマルチメディアアイテムの記述子を計算する方法を提案する。

課題を解決するための手段

0016

この課題を達成するために、本発明は、マルチメディアアイテムを示す信号の記述子を決定する方法であって、第1組の係数を得るために方向フィルタの第1のバンクを前記信号に適用するステップを含む方法を提案する。

0017

本発明によると、この方法は、低域通過フィルタで処理された信号を示す第2組の係数を得るために、フィルタの第2バンクを前記信号に適用し、前記第1組の係数と前記第2組の係数との差を作り出すことによって前記マルチメディア要素を示す記述子を計算し、前記差の関連パワーを計算するステップを含む。

0018

好適な実施形態によると、前記方向フィルタはガボール(Gabor)型フィルタである。

0019

好適な実施形態によると、前記フィルタの第2バンクは、低域通過フィルタである。

0020

第2実施形態によると、前記フィルタの第2のバンクは、前記ガボールフィルタの検出感度の方向に垂直な線にそって平均値を計算する方位フィルタである。

0021

好ましくは、前記差の関連パワーの前記計算は係数の二次のグループについてなされ、前記得られた記述子は一組の値であって、それぞれの値はそれぞれのグループに対して得られた値に対応する。

0022

他の実施形態によると、前記差の関連パワーの前記計算は全体の記述子についてなされ、前記得られた記述子はユニークな値である。

0023

好ましくは、前記第1組および第2組の係数は、前記フィルタの一方向と一スケールのそれぞれに対応する。

0024

本発明はまた、マルチメディアアイテムを示す信号の記述子を決定する装置であって、第1組の係数を得るために方向フィルタの第1バンクを前記信号に適応する手段を含む装置に関する。本発明によると、装置は、前記信号の平均値を示す第2組の係数を得るために、フィルタの第2バンクを前記信号に適用する手段と、前記第1組の係数と前記第2組の係数との差を作り出すことによって前記マルチメディア要素を示す記述子を計算し、前記差の関連パワーを計算する手段と、を含む。

0025

第2の態様によると、本発明は、データベース内のマルチメディアアイテムを検索する装置に関する。本態様によると、装置は、本発明による記述子を決定する装置と、サンプル画像の記述子と前記データベースの画像の記述子とを比較する手段と、前記サンプル画像の記述子と前記データベースの記述子との差が所定の閾値より小さい前記データベース内の画像を検索する手段と、を含む。

0026

第3の態様によると、本発明はまた、データベース内のマルチメディアアイテムを分類する装置に関する。本第3態様によると、装置はまた、本発明による記述子を決定する装置と、前記記述子の分類のためのクラスタリング手段と、を含む。

0027

本発明の他の特徴及び利点は、本発明の限定されない実施形態の説明を通して表され、添付の図面を用いて明らかにされるであろう。

発明を実施するための最良の形態

0028

本発明の実施形態は、ソフトウェアファームウェアハードウェアにおいて、または多様な技術の組み合わせによって実施されることができる。例えばある実施形態において、本発明は、コンピュータプログラム製品またはソフトウェアとして提供されることができる。コンピュータプログラム製品またはソフトウェアは、本発明に応じて処理を実行するコンピュータ(または他の電子装置)をプログラミングするために用いられ命令を記憶している機械またはコンピュータ読み取り可能な媒体を含む。他の実施形態では、本発明のステップは、ステップを実行するための配線回路を含む特別なハードウェアコンポーネントによって、またはプログラムによるコンピュータコンポーネント及びカスタムハードウェアコンポーネントの任意の組み合わせによって、実行されることができる。

0029

従って、機械読み取り可能な媒体は、機械(例えばコンピュータ)により読み取り可能な媒体構造において情報を記憶または送信するための任意のメカニズムを含んでいてもよい。これらのメカニズムは、フロッピー登録商標ディスク光ディスクハードディスクドライブホログラフィックディスクコンパクトディスク読み出し専用メモリCD−ROMs)、光磁気ディスク、読み出し専用メモリ(ROMs)、ランダムアクセスメモリ(RAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、磁気または光カードフラッシュメモリインターネットを利用した伝送電気、光、音響信号または伝搬信号のその他の構成(例えば、搬送波赤外線信号ディジタル信号など)などを含むが、これらに限定されるものではない。

0030

以下の議論から明らかであって具体的に記載されていない限り、「処理」、「コンピューティング」、「計算」、「決定」などの用語を用いた議論は、コンピュータシステムまたは類似のエレクトロニックコンピュータデバイスの動作及び処理に言及していて、これはコンピュータシステムメモリレジスタ、その他の情報記憶装置情報伝送装置またはディスプレイ装置などの内部において物理量として示されるデータを操作し変換すると理解される。

0031

下記の実施形態の詳細な説明において、本発明が実施され得る具体的な実施形態を表す添付図面が参照される。図面では、いくつかの図を通して同様の番号は実質的に類似の構成要素を示す。実施形態は、当業者が本発明を実施できるように十分に詳細に記載される。その他の実施形態は活用され、構造的論理的及び電気的な変更は本発明の範囲から逸脱することなくなされることができる。また、本発明の多様な実施形態は、たとえ異なっていても、必ずしも相互排他的ではないことを理解されたい。例えば、ある実施形態で記載された特定の特徴、構成または特性は、その他の実施形態においても含まれることができる。

0032

図1は、本発明の実施形態のフローチャートを示す図である。

0033

ステップS1において、マルチメディアアイテムを示す信号にフィルタバンクが適用される。

0034

データベースにおけるインデックス付け及び画像検索を目的として画像のテクスチャを得るために、例えば垂直方向や水平方向などいくつかの方向における詳細な度数を表すステアード(steered)(または方向)フィルタがしばしば用いられる。ステアードフィルタの中でも、ガボールフィルタは、インデックス付けの効率がよいものとして知られている。

0035

本願明細書に記載の好適な実施形態によると、フィルタバンクは、ガボール型のフィルタに基づく。エルミートフィルタ(Hermite filter)や一般的なガウスフィルタのようなその他のフィルタが用いられてもよい。ガボールフィルタは、次式によって定義される。




σx、σyはガボールフィルタにおけるガウスカーネルのx及びy方向の標準偏差、Wxはx方向における周波数偏移、x及びyはピクセル座標を示す。この方程式フーリエ変換は、次式である。




ここで、σu及びσvは次式であって、Wはフィルタの中心周波数である。



ガボールフィルタの実部は、次式である。




ガボールフィルタバンクは、gmn(x,y)=a−mg(x’,y’)により生成される。ここで、a>1、m及びnは整数である。m及びnは、それぞれ具体的なスケール(scale)と具体的な方向を表す。ここで、x’=a−m(xcosθ+ysinθ)、y’=a−m(−xsinθ+ycosθ)、θは次式、Kは方向の総数であって、0≦n≦Kである。

0036

スケールは、m(0≦m<S)によって表され、m=0は基本周波数帯域であって、Sはスケールの数である。スケールは、フィルタによって絞り込まれた詳細な度数を示す。画像に関して言うと、低いスケールは全体の画像レイアウトを捕らえ、細かいスケールは草や葉を捕らえることができる。

0037

フィルタバンクの実部は、gRmn(x,y)=a−mgR(x’,y’)である。

0038

本実施形態によると、S=4、K=6、Uh=0.4、Ul=0.05である。

0039

Uhは一番大きい中央周波数であり、Ulは一番小さい中央周波数である。

0040

aは、次式によって計算される。

0041

ステップS1の間では、ガボールフィルタの実部からなるフィルタバンクが信号に適用される。それぞれのスケール及び方位に対して、S×K出力信号を得る。

0042

ステップS2では、K方向の一つにおけるSスケールの一つに応じた信号の平均値を得るために、K×S低域通過フィルタが入力信号に適用される。

0043

適用される低域通過フィルタは、次式である。

0044

そして、適用される低域通過フィルタのバンクは、qmn(x,y)=a−mq(x’,y’)である。ここでa>1であって、m、nは整数である。

0045

m及びnは、対応するガボールフィルタのm及びnに相当する。このことは、平均フィルタがガボールフィルタと同一の方向及び同一のスケールを有することを意味する。より簡素な改良型においては、スケールは一定であることができる。この場合、最も細かいスケール、すなわちm=S−1が選択されるべきである。

0046

ステップS2の改良型では、ガボールフィルタの検出感度の方向に垂直な線にそって平均値を計算する一組の方位フィルタが用いられる。

0047

ステップ3では、記述子が各信号に対して計算される。

0048

記述子を計算するために、ガボールフィルタバンクで処理された信号と、低域通過フィルタによって計算された信号との差分が、マルチメディアアイテムの各ピクセルに対して計算される。S×K差分画像はこのようにして得られる。

0049

ステップS4では、記述子を得るために、S.K差分信号のそれぞれにおけるパワーが求められる。

0050

このため、いくつかのピクセルを含んだ二次の画像ブロックにおいて、パワーは信号値二乗の平均によって推定される。この場合、記述子は全てのブロックのパワー値を含む。

0051

他の実施例では、または組み合わせでは、他の統計学的モーメント中心モーメントまたはアンセンタード(uncentred)モーメントを用いることができる。

0052

ブロックのパワー値を計算するために、S×K差分画像は、16の二次の画像ブロックに分割される。各差分画像のLピクセルを有する各ブロックkでは、下記の方程式に従って、画像ピクセル値は二乗の総和をブロック当たりのピクセルの数によって分割される。




ここで、Dはピクセルの差分値であって、Pはブロックに対して得られたパワー値である。その結果得られた記述子{Pk/0≦k<16SK}は、16×S×Kの係数を有する。

0053

他の実施形態によると、全画像に対するパワー値を推定し、または任意の形状の画像領域に対するパワー値を計算する。

0054

図2は、本発明の好適な実施形態による装置を示す図である。この装置は、本発明による方法を優先的に実施する。

0055

このため、好適な実施形態による装置は、ガボールフィルタ2、低域通過フィルタ3及び微分器4を含み、データベース1からマルチメディアデータを受け取る。

0056

ガボールフィルタ2及び低域通過フィルタ3は、データベース1のマルチメディアデータを入力として受け取る。これらは、マルチメディアアイテムのそれぞれに対して、図1を参照して前述した一組のK*S係数を計算する。微分器4は、ガボールフィルタによって計算された係数と、図1を参照して説明したように低域通過フィルタによって計算された係数との差を計算する。

0057

図3に表されたクエリーのように、サンプル画像を用いたデータベース1内の画像検索に典型的に適用することができる。この場合、サンプル画像やデータベースの画像に対して係数が求められる。モジュール5は、入力としてサンプル画像の記述子とデータベース1の画像の記述子とを受け取り、サンプル画像に対して得られた記述子と、データベースの画像それぞれまたはデータベースの画像のサブセットの記述子との差を計算する。記述子は一組のS*K係数からなり、各係数iの差Diはモジュール5によって計算される。その後、サンプル画像と所定の画像との間における次の差が計算される。

0058

最小の差を有する多数のデータベースからの画像は、画像検索のモジュール6によってサンプル画像と比べて最も近い画像としてユーザに返送される。これは所定の閾値より小さい差を有する多数の画像であることができる。最先端の画像検索に応じて他の異なる式を用いることができる。

0059

図4では、図3に記載されたモジュール4は、画像分類モジュール7に接続される。

0060

画像分類7のようなモジュールが、画像の分類を構築する。画像は、記述子の値によって分類される。極めて近い記述子の値を有する画像が、同一のカテゴリに属するように分類される。分類は、所定のクラスタ数を用いたK平均などのクラスタリング手法によることができる。

図面の簡単な説明

0061

本発明の実施形態のフローチャートを示す図である。
本発明の実施形態による装置を示す図である。
本発明の画像検索への適用を示す図である。
マルチメディア要素の分類についての本発明の実施形態を示す図である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ