図面 (/)

技術 画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体

出願人 ミツビシ・エレクトリック・アールアンドディー・センター・ヨーロッパ・ビーヴィ
発明者 スタヴロス・パシャラキスミロスロー・ボバー
出願日 2005年9月26日 (15年1ヶ月経過) 出願番号 2005-278248
公開日 2006年5月25日 (14年5ヶ月経過) 公開番号 2006-135938
状態 特許登録済
技術分野 カラーテレビジョン方式 TV信号の圧縮,符号化方式 TV信号の圧縮,符号化方式
主要キーワード スライドステップ 差分関数 行射影 記述子要素 スライド窓 画像スケール デジタルビデオフレーム 局所近傍
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2006年5月25日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

画像間の類似牲を評価するための改良された方法を提供する。

解決手段

少なくとも1つの画像を表現する方法は、画像の少なくとも1つの領域の色情報及び色相関情報に基づいて少なくとも1つの記述子導出することを含み、記述子は、上記領域内の画素の値を用いて導出される少なくとも1つの記述子要素を有し、或る領域の少なくとも1つの記述子要素は非ウェーブレット変換を用いて導出される。表現は画像の比較に用いることができる。

概要

背景

概要

画像間の類似牲を評価するための改良された方法を提供する。少なくとも1つの画像を表現する方法は、画像の少なくとも1つの領域の色情報及び色相関情報に基づいて少なくとも1つの記述子導出することを含み、記述子は、上記領域内の画素の値を用いて導出される少なくとも1つの記述子要素を有し、或る領域の少なくとも1つの記述子要素は非ウェーブレット変換を用いて導出される。表現は画像の比較に用いることができる。B

目的

C. E. Jacobs、A. Finkelstein、D. H. Salesin著「Fast Multiresolution Image Querying」(Proceedings of 1995ACMSIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286, 1995)の方法とZ.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)の方法の違いは、Z.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997 IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)の方法を用いる場合、フレーム周辺廃棄し、フレームをその中心部分のみに縮小することである

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

画像を表現する方法であって、前記画像の少なくとも1つの領域の色情報及び色相関情報に基づいて、少なくとも1つの記述子導出することを含み、前記記述子は、前記領域の画素値を用いて導出され、少なくとも1つの記述子要素を有し、或る領域の少なくとも1つの記述子要素は、前記領域の画素サブセットのみを用いて導出される画像を表現する方法。

請求項2

或る領域の複数の記述子要素の各々は、前記領域の画素のサブセットのみを用いて導出される請求項1に記載の方法。

請求項3

或る領域の全ての記述子要素が、前記領域の画素のサブセットのみを用いて導出される請求項1又は2に記載の方法。

請求項4

前記記述子要素を導出するために用いられる計算は、結果として得られる記述子要素の数が、前記記述子要素を導出するために用いられる画素数よりも少ないようになっている請求項1〜3のいずれか一項に記載の方法。

請求項5

画像を表現する方法であって、前記画像の少なくとも1つの領域の色情報及び色相関情報に基づいて、少なくとも1つの記述子を導出することを含み、前記記述子は、前記領域の画素値を用いて導出され、少なくとも1つの記述子要素を有し、前記記述子要素を導出するために用いられる計算は、結果として得られる記述子要素の数が、前記記述子要素を導出するために用いられる画素数よりも少ないようになっている画像を表現する方法。

請求項6

少なくとも1つの画像を表現する方法であって、前記画像の少なくとも1つの領域の色情報及び色相関情報に基づいて、少なくとも1つの記述子を導出することを含み、前記記述子は、前記領域の画素値を用いて導出される、少なくとも1つの記述子要素を有し、或る領域の少なくとも1つの記述子要素は、非ウェーブレット変換を用いて導出される少なくとも1つの画像を表現する方法。

請求項7

少なくとも1つの記述子要素が色情報を取得する、請求項1〜6のいずれか一項に記載の方法。

請求項8

少なくとも1つの記述子要素が色相関情報を取得する、請求項1〜7のいずれか一項に記載の方法。

請求項9

少なくとも1つの記述子要素が前記領域の画素平均を表し、及び/又は、少なくとも1つの記述子要素が前記領域の画素に関する差分関数を表し、及び/又は、少なくとも1つの記述子要素が前記領域の画素値範囲を表す請求項1〜8のいずれか一項に記載の方法。

請求項10

少なくとも1つの記述子要素が2つの画素値の差、又は画素値の2つの総和の差を表す、請求項9に記載の方法。

請求項11

前記記述子要素は、(任意のスケールの)式1〜4の形の式、又は同様の式を用いて導出される、請求項9又は10に記載の方法。

請求項12

前記記述子要素は、(任意のスケールの)式I及びII、又はIII〜VI、又は6〜9の形の式、又は同様の式を用いて導出される、請求項9又は10に記載の方法。

請求項13

記述子が、画像の複数の重複する領域又は重複しない領域について、例えばn×n画素のサイズのブロックについて生成される、請求項1〜12のいずれか一項に記載の方法。

請求項14

前記画像を処理して、例えばダウンサンプリング/平均により、前記画像の複数の表現を複数のスケールで生成すること、前記複数のスケールの記述子を導出すること、及び/又は、複数のカラーチャネルの各々について前記画像を処理して、前記チャネルの各々について記述子を導出することを含む、請求項1〜13のいずれか一項に記載の方法。

請求項15

同一スケールが異なるカラーチャネルに用いられる、請求項14に記載の方法。

請求項16

異なるスケールが異なるチャネルに用いられる、請求項14に記載の方法。

請求項17

記述子を導出する異なるプロセスが、異なる領域及び/又は異なるスケール及び/又は異なるカラーチャネルに用いられる、請求項1〜16のいずれか一項に記載の方法。

請求項18

前記記述子は、MPEG符号化Iフレームから、復号を行うことなく直接導出される、請求項1〜17のいずれか一項に記載の方法。

請求項19

1つの画像の複数の記述子を関連付けて、1つの記述子を形成することを含む、請求項1〜18のいずれか一項に記載の方法。

請求項20

画像群を表現する方法であって、請求項1〜19のいずれか一項に記載の方法を用いて、各画像の表現を導出することと、前記表現を用いて前記画像群を表現することとを含む、画像群を表現する方法。

請求項21

前記表現の関数を導出して前記画像群を表現することを含む、請求項20に記載の方法。

請求項22

前記関数は、平均、中央値算術平均共分散等の統計測度を含む、請求項21に記載の方法。

請求項23

請求項1〜22のいずれか一項に記載の方法を用いて導出される、画像又は画像群の表現。

請求項24

請求項23に記載の表現を比較することを含む、画像及び/又は画像群を比較する方法。

請求項25

類似性を判定するための、請求項24に記載の方法。

請求項26

画像シーケンスの一部である画像を比較することを含み、前記比較の結果は、前記画像間でフレームの切れ目が起こったかどうか、又は、例えばシーンの変化又は照明効果等の事象が起こったかどうかを判定するために用いられる請求項24又は25に記載の方法。

請求項27

画像の検索に用いられる、請求項24又は25に記載の方法。

請求項28

請求項1〜22のいずれか一項に記載の方法を用いて、画像又は画像群を符号化する方法。

請求項29

請求項28に記載の方法を用いて符号化された画像又は画像シーケンスを復号する方法。

請求項30

請求項28に記載の方法により符号化されたデータの、例えば伝送中継又は受信による、使用。

請求項31

請求項1〜22のいずれか一項に記載の方法により、画像又は画像群を表現する装置。

請求項32

請求項24〜27のいずれか一項に記載の方法により、画像及び/又は画像群を比較する装置。

請求項33

画像データ及び/又は画像記述子を記憶する記憶手段と、前記方法を実行する処理手段とを備える、請求項31又は32に記載の装置。

請求項34

請求項1〜22又は24〜29のいずれか一項に記載の方法を実行するための、コンピュータプログラム、システム、又はコンピュータ読み取り可能な記憶媒体

技術分野

0001

本発明は、画像又は画像群表現する方法及び装置、並びに、例えば画像シーケンス切れ目の検出のため、又は画像の検索のために画像を比較する方法及び装置に関する。

0002

R. Lienhart著「Comparison of Automatic Shot Boundary Detection Algorithms」(Proceedings of Image and Video Processing VII 1999, Proc. SPIE3656-29, pp. 290-301, Jan. 1999)には、ビデオシーケンス中ショット遷移を検出するための方法が提示されている。シーケンス中のフレーム毎に、RGB色空間の3次元ヒストグラムを作成する。次に、シーケンス中の連続フレーム間の差を、それぞれのヒストグラム間の差として計算する。ヒストグラム間の差は、ビンに関連する(bin-wise)差の絶対値の和として計算する。次に、所定の固定閾値を上回る距離を探索することによって、ショット遷移を特定する。よって、この方法は、空間的に敏感でない(spatially insensitive)色内容(colour content)情報のみに基づいて、ショット遷移を検出する。したがって、この方法は、空間的配置及び色相関の中に存在する豊富な情報を利用していない。

0003

R. Zabih、J. Miller、K. Mai著「A Feature-Based Algorithm for Detecting and Classifying Scene Breaks」(Proceedings of 1995 3rdACMInternational Conference on Multimedia, San Francisco, CA USA, pp. 189-200, 1995)には、ビデオシーケンス中のショット遷移を検出するための異なる方法が提示されている。シーケンス中のフレーム毎に、エッジマップを計算する。次に、第1のフレームには存在するが第2のフレームには存在しないエッジの数と、第2のフレームには存在するが第1のフレームには存在しないエッジの数とに基づいて、シーケンス中の連続フレーム間の差を計算する。このとき、この差の測度の時系列における鋭いピークは、ショット遷移の存在を示す。したがって、この方法は、空間相関情報の一種であるエッジ情報のみに基づいてショット遷移を検出する。この原理は正しいが、この方法は、フレームの色内容の中に存在する豊富な情報を利用していない。さらに、エッジマップの作成プロセス計算コストが高く、また、フレーム内の最も強い色の切れ目のみを示すことを意図している。さらに、この方法は、動きに極めて敏感である。したがって、著者等は、この欠点に対処するために画像の位置合わせ技法の使用を提案しているが、こうしたプロセスは計算コストが高い。

0004

A. Dailianas、R. B. Allen、P. England著「Comparison of Automatic Video Segmentation Algorithms」(SPIEIntegration Issues in Large Commercial Media Delivery Systems, vol. 2615, pp. 2-16, Oct. 1995)には、ビデオシーケンス中のショット遷移を検出するための別の方法が提示されている。シーケンス中の連続フレーム間の差を、画素に関連する(pixel-wise)差の絶対値の和として計算する。次に、所定の固定閾値を上回る距離を探索することによって、ショット遷移を特定する。したがって、この方法は、空間的に敏感な(spatially sensitive)色内容情報のみに基づいてショット遷移を検出する。この原理は正しいが、この方法は、空間的な色相関の中に存在する豊富な情報を利用していない。さらに、このようなビデオの単純な処理は、ノイズ及び動きに対する高い敏感性をもたらす。この動きに対する敏感性の問題には、動き補償アルゴリズムにより対処することもできるが、こうしたプロセスは計算コストが高い。

0005

W. Xiongの米国特許出願公開第2003/0091235号明細書「Shot Boundary Detection」(2003年5月15日公開、2001年11月9日出願)には、異なるタイプの情報の組み合わせに基づいてショット遷移を検出するための方法が提示されている。この方法は、2フレーム間でブロックに基づく差を計算すること、及び、この差が固定閾値を越える場合、ショット遷移候補を宣言することを含む。この場合、ショット遷移は、2フレーム間の色及び/又はエッジの差も固定閾値を越えることを要求することによって検証する。ブロックに基づく差を計算するために、フレームをブロックに分割し、ブロック平均を計算する。次に、対応するブロック間の差を閾値処理して、2つのブロックが類似しているか異なっているかを判定し、2フレーム間で異なるブロックの数を閾値処理して、2つのフレームが類似しているか異なっているかを判定する。色の差は、ビンに関連する差の絶対値の和であり、エッジの差は、エッジ強度及びエッジ方向の情報を取得するエッジヒストグラムを用いる。

0006

Y. Nakajima、M. Sugano、H. Yanagiharaの米国特許出願公開第2004/0091044号明細書「Picture Searching Apparatus」(KDDI CORPORATION(日本)、2004年5月13日公開、2003年8月15日出願、優先日2002年9月20日)には、(a)画像間の相関、(b)サブサンプリング画像間の相関、(c)画像間の動き、及び(d)サブサンプリング画像間の動き、に基づいてショット遷移を検出するための方法が提示されている。ここでは、画像間及びサブサンプリング画像間の相関を、画素に関連する差又はヒストグラムの差として測定し、画像間及びサブサンプリング画像間の動きを、様々な動きベクトルの差に基づいて測定する。

0007

H. Jafarkhani、B. Shahrarayの米国特許第6,542,619号明細書「Method for Analyzing Video」(AT&T CORP.(アメリカ)、2003年4月1日交付、2000年4月13日出願)には、ショット遷移の検出方法が提示されており、この方法は、ビデオフレームの2つの1次元射影、すなわち行射影及び列射影を作成することと、各射影に対してウェーブレット変換を実行し、高周波成分(すなわちウェーブレット係数)のみを保持することと、各変換の高周波成分の自己相関をとることとを含む。一連のビデオフレームについて、結果として得られた自己相関係数時間曲線が所定の最大値を示すとき、ショット遷移を指示する。したがって、この方法は、ウェーブレット変換によって提供される空間的に敏感な色内容及び色相関の情報を使用するが、この情報は、フレームではなくフレーム射影に関連するものであり、大きな情報損失を生じる。

0008

C. E. Jacobs、A. Finkelstein、D. H. Salesin著「Fast Multiresolution Image Querying」(Proceedings of 1995ACMSIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286, 1995)には、所与の画像に類似している画像の検索方法が提示されている。この方法を用いる場合、画像を先ずハール(Haar)ウェーブレット分解で表現する。次に、この分解を打ち切る(truncate)、すなわち、スケーリング関数係数平均強度)とごく少数最大振幅ハールウェーブレット係数のみを保持する。次に、打ち切った分解を量子化する、すなわち、ウェーブレット係数の符号のみを保持する。したがって、画像検索目的で画像を特徴付ける単一の画像記述子を形成する。

0009

Z.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)には、C. E. Jacobs、A. Finkelstein、D. H. Salesin著「Fast Multiresolution Image Querying」(Proceedings of 1995ACMSIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286, 1995)に記載されているのと同じ方法でビデオフレームを特徴付けしていくショット遷移の検出方法が提案されている。C. E. Jacobs、A. Finkelstein、D. H. Salesin著「Fast Multiresolution Image Querying」(Proceedings of 1995 ACM SIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286, 1995)の方法とZ.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997 IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)の方法の違いは、Z.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997 IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)の方法を用いる場合、フレームの周辺廃棄し、フレームをその中心部分のみに縮小することである。このような手法は、大きな情報損失につながりビデオ中に大きな動きが存在する場合、誤ったビデオの分割及び/又は大きな過分割を生じる可能性がある。

0010

C. E. Jacobs、A. Finkelstein、D. H. Salesin著「Fast Multiresolution Image Querying」(Proceedings of 1995ACMSIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286, 1995)の方法とZ.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)の方法の両方に共通する欠陥は、ごく少数の最大振幅の係数のみを保持することによってハール分解を効率的に打ち切ることができるという仮定である。これに関連して(to put this in context)、画像平面マルチスケールハール分解を128×128画素から開始して2×2画素まで行うと、16383個の係数が生じる。画像検索又はビデオ処理の目的で、このような特徴ベクトルは実際、高速で効率的な実施態様には大きすぎる場合がある。しかし、このベクトル振幅に基づいてごく少数の係数、例えば著者等が示唆するように最大振幅を有する40個又は60個の係数に打ち切ることは、数学的にその次元数下げる方法であり、いくつかの問題を挙げれば、当業者には承知の通り、画像の空間的に不均一な表現を与える記述子を生じることであり、ノイズの影響を非常に受けやすく、且つ、ビデオ分割の場合に高いビデオの動き及びショット内照明効果の影響を非常に受けやすい。符号のみを保持することによる打ち切り系列の量子化は、問題をさらに大きくする。

0011

C. E. Jacobs、A. Finkelstein、D. H. Salesin著「Fast Multiresolution Image Querying」(Proceedings of 1995ACMSIGGRAPH Conference, Los Angeles CA, USA, Aug. 9-11, pp. 277-286, 1995)の方法及びZ.-Y. Zhuang、C.-T. Hsu、H.-Y. Chen、M. Ouhyoung、J.-L. Wu著「Efficient Multiresolution Scene Change detection by Wavelet Transformation」(Proceedings of 1997IEEE International Conference on Consumer Electronics ICCE '97, Taipei, Taiwan, Jun. 11-13, pp. 250-251, 1997)の方法に伴う別の欠点は、ハール分解の計算が、画像領域の係数をその領域内の全ての画素値に基づいて計算するために計算量の増加を伴うことである。

0012

本発明では、例えば、所与の画像に類似している一組の画像から画像を検索するため、又はデジタルビデオ中のフレームの切れ目(例えばショット遷移又は照明及び他の効果)を検出するために、画像間の類似性を評価する方法を提案する。この方法は、空間的に敏感な色内容及び色相関の情報を1つ又は複数の画像スケールで、且つ1つ又は複数の画像チャネルにわたって取得する画像記述子の抽出に依拠する。この方法の1つの特徴は、以前の方法とは異なり、記述子が空間的に敏感な色内容及び色相関の情報を画像平面にわたって均一に、且つ複数のスケールで取得しながらも、上記のハール分解と比較してサイズが小さく、よって人工的な打ち切りプロセスを行う必要性が少なくなるように記述子を抽出できることである。本方法のもう1つの特徴は、以前の方法と異なり、記述子による原画像の完全な再構成が可能でありながら、計算負荷が上記のハール分解と比べて少ない記述子を抽出できることである。

0013

上記に鑑みて、本発明の目的は、例えば所与の画像に類似している一組の画像から画像を検索するため、又はデジタルビデオ中のフレームの切れ目(例えばショット遷移又は照明及び他の効果)を検出するために、画像間の類似性を評価するための改良された方法を提供することである。

0014

ビデオ分割のために、提案する方法論は、非圧縮デジタルビデオフレームMPEG圧縮デジタルビデオフレームの両方の再現を可能にする。後者の場合、復元を行うことなくIフレームを表現することができる。

0015

本発明の態様を添付の特許請求の範囲に記載する。

0016

一実施形態の特徴は、
(i)空間的に敏感な色内容及び色相関の情報を1つ又は複数の画像スケールで、且つ1つ又は複数の画像チャネルにわたって取得する画像記述子の抽出であって、少なくとも1つのスケールに固有チャネルに固有の画像表現の記述子は、
少なくとも1つの記述子要素タイプの全ての領域記述子要素を、それぞれの領域の画素のサブセットのみを用いて計算すること、
及び/又は
全ての記述子要素タイプの全ての領域記述子要素の計算に用いる画素は、それぞれの領域の画素の単なるサブセットであること、
及び/又は
記述子要素の総数は上記表現の画素数よりも少なく、上記特性は、記述子のいかなる後処理(例えば打ち切り)にも依存せず記述子抽出プロセスに固有であること
を特徴とする、画像記述子の抽出、
(ii)上記記述子を組み合わせて1つのマルチスケールでマルチチャネルの記述子にすること、及び
(iii)結果として得られる記述子を使用して、画像間の類似性を評価すること
を含む。

0017

本発明の特定の実施形態の概要を以下で、添付図面を参照して説明する。

0018

本発明の第1の実施形態は記述子の抽出に関する。

0019

デジタル画像Fi(x,y)を検討する。ここで、(x,y)は空間座標を表し、x=0...M−1及びy=0...N−1である。本発明の一実施形態において、Fiは色空間YCbCrで表されるが、これに制限されるものではなく、本発明は、いかなるチャネル数のいかなる色空間にも適用可能である。本発明の一実施形態において、Fiの空間解像度は720×576画素である、すなわち、M=720及びN=576であるが、これに限定されるものではなく、本発明は、いかなる空間解像度にも適用可能である。本発明の一実施形態において、記述子を抽出する最高解像度として64×64画素を選択するが、これに限定されるものではなく、本発明は他の解像度にも適用可能である。したがって、Fiをリサンプリングして、64×64画素の画像Fi(64×64)を得る。本発明の一実施形態において、このリサンプリングプロセスは、図1に示すような単純なブロック平均プロセスであるが、リサンプリング機構の選択は限定されない。より具体的に言えば、図1は、Yチャネルのブロック平均リサンプリングプロセスを示すが、これに限定されるものではなく、このプロセスは、いかなる色空間のいかなるチャネルにも用いることができる。本発明の別の実施形態において、記述子を抽出する最高スケールはFiの解像度に一致し、最初のリサンプリングは必要とされない。

0020

図2は、本発明の一実施形態における、このスケールの記述子の計算を示す。より具体的には、図2は、Yチャネルの記述子の計算を示すが、これに限定されるものではなく、同様の手法を全てのカラーチャネルに適用する。図2Aにおいて、2×2の窓を画像の左上の角に適用する。この窓は局所近傍を指定する。この近傍の画素FYi(64×64)(0,0),FYi(64×64)(1,0),FYi(64×64)(0,1)及びFYi(64×64)(1,1)について、記述子要素χ1〜χ4を次のように計算することができる。

0021

0022

上記の式において、要素χ1は色内容情報を取得し、要素χ2、χ3及びχ4は色相関情報を取得する。

0023

FYi(64×64)の記述子をVYi(64×64)とすると、これらの値は、次のように記述子に書き換えることができる。

0024

0025

次に、図2Bに示すように、2×2の窓を2画素右にスライドさせ、画素FYi(64×64)(2,0),FYi(64×64)(3,0),FYi(64×64)(2,1)及びFYi(64×64)(3,1)を含む新たな近傍を形成する。記述子要素χ1〜χ4を再び、新たな画素値について計算し、その後、記述子位置VYi(64×64)(5)〜VYi(64×64)(8)に格納する。図2C及び図2Dに示すように、一組の行について計算が全て完了すると、スライド窓を2画素下に移動させ、左から右へのスライドを再び開始し、画像全体を処理し終えるまで続ける。これにより、Y平面について64×64画素のスケールで、画像の空間的に敏感な色内容及び色相関を取得する記述子VYi(64×64)の計算が完了する。

0026

本明細書に概要を説明する発明は、空間的に敏感な色内容及び色相関の情報を取得する記述子の計算を含む。

0027

別の実施形態は、記述子要素χ1〜χ4を、以下に記載するように導出される記述子要素ψ1及びψ2で置き換える。

0028

0029

上に示す式(I)及び(II)において、ψ1は色内容情報を取得し、ψ2は色相関情報を取得する。記述子要素の数は、記述子要素の導出に使用される画素数よりも少ない。

0030

さらに別の実施形態は、記述子要素χ1〜χ4を、以下に記載するように導出される記述子要素φ1〜φ4で置き換える。

0031

0032

上に示す式(III)〜(VI)において、φ1は色内容情報を取得し、φ2〜φ4は色相関情報を取得する。

0033

本発明の別の実施形態では、図3の方式により記述子要素を抽出する。図3Aにおいて、4×4の窓を画像の左上の角に適用する。この窓は、16画素を含む局所近傍を指定する。この近傍の画素について、以下の記述子要素を計算する。

0034

0035

上記の式において、ψ1は色内容情報を取得し、ψ2、ψ3及びψ4は色相関情報を取得する。当業者は、式(6)〜(9)を変更して、必要な計算の数を減らしてもよいことを理解するであろう。

0036

これらの値は、一連の式(lines of equation)(5)に沿って記述子VYi(64×64)として書き表すことができ、次に、図3Bに示すように、4×4の窓を4画素右にスライドさせて新たな近傍を形成し、新たな画素値について記述子要素を再び計算し、以下同様の操作を行う。図3C及び図3Dに示すように、一組の行の計算が全て完了すると、スライド窓を2画素下へ移動させ、左から右へのスライドを再び開始し、画像全体を処理し終えるまで続ける。

0037

本発明の代替的な実施形態において、色内容及び/又は色相関の記述子要素の計算は、近傍画素関数(例えば中央値、最大値、最小値等)に依拠してもよい。

0038

さらに、上記の説明は、2×2画素及び4×4画素のサイズのスライド近傍窓を検討するが、これに限定されるものではない。代替的な実施形態は、例えば、所与の計算に関する要求又は近傍測定プロセス自体に合わせて、任意のサイズ及び/又は幾何形状及び/又はスライドステップを近傍窓に指定し、重複する窓又は重複しない窓を生じることができる。

0039

上記の説明では、FYi(64×64)の全ての位置で同一の近傍窓及び記述子抽出プロセスを用いる。代替的な実施態様では、そうである必要はない。代替的な実施形態は、画像中の異なる位置で異なる近傍パラメータ及び/又は記述子抽出プロセスを使用してもよい。例えば、本発明の代替的な実施形態は、速い記述子抽出プロセスを画像の周辺に用い、遅いが強力な記述子抽出プロセスを画像の中心に用いる。

0040

次に、FYi(64×64)を新たなより低いスケールにリサンプリングする。一実施形態において、この新たなスケールは32×32画素である。次に、64×64の画像の場合と全く同じ方法で新たな記述子VYi(32×32)を計算する。なお、このリサンプリングは実際には計算を必要としない場合もあり得る。式(1)に見られるように、この新たな画素値は、χ1の値として以前に計算し、VYi(64×64)(1),VYi(64×64)(5),VYi(64×64)(9),...,VYi(64×64)(4093)に格納している。一実施形態では、このように、記述子VYi(64×64),VYi(32×32),VYi(16×16),VYi(8×8),VYi(4×4),及びVYi(2×2)を計算する。

0041

本明細書において概要を説明する発明は、画像Fiの1つ又は複数のスケールで記述子を抽出することを含む。上記の説明において、最も細かい又は最大又は最高スケール、最も粗い又は最小又は最低スケール、スケールの数及びスケール間の関係は、本発明の可能な一実施形態を示すに過ぎず、代替的な実施形態は、例えばシステム計算能力に合うように、異なるそのようなパラメータを使用してもよい。

0042

本発明の一実施形態では、以降の処理を行う前に、これらのスケールに固有の記述子から特定の要素を除去する。本発明の一実施形態では、2b×2b、2b−1×2b−1、2b−2×2b−2等、例えば、64×64、32×32、16×16等のスケールでの式(1)〜(4)において概要を説明した記述子抽出プロセスの場合、VYiのχ1要素を、最低スケールのχ1要素を除いて全て除去してもよい。これは、2b−k×2b−kのスケールのχ1要素を、2b−k−1×2b−k−1のスケールのχ1値、並びに2b−k×2b−kのスケールのχ2要素、χ3要素、及びχ4要素から直接計算できるためである。なお、この特性は常に当てはまるわけではない。例えば、2b×2b、2b−2×2b−2、2b−4×2b−4等、例えば、64×64、16×16、4×4等のスケールで記述子を計算する場合には当てはまらない。また、記述子抽出プロセスの一部としてχ1要素、χ2要素、χ3要素及びχ4要素のサブセットのみを計算する場合には当てはまらない。同一の特性が式(III)〜(VI)の変換に当てはまる。

0043

同一の記述子抽出プロセスをFiのCbチャネル及びCrチャネルに適用すると、記述子VCbi(64×64),...,VCbi(2×2)及びVCri(64×64),...,VCri(2×2)が得られる。これらのスケールに固有でチャネルに固有の記述子は、全体で、画像の空間的に敏感な色内容及び色相関の情報を複数のスケールで、且つ複数のチャネルにわたって取得する。

0044

上記の説明において、FiはYCbCr色空間にあると仮定し、記述子の抽出に全てのチャネルを用いる。代替的な実施態様は、記述子を計算する前に画像を新たな色空間で表現してもよいし、かつ/又は記述子の計算に色平面のサブセットのみを使用してもよい。

0045

上記の説明では、Fiの異なるカラーチャネルにわたる記述子を同一スケールで計算する。代替的な実施態様では、そうである必要はない。例えば、本発明の代替的な実施形態はYチャネルの記述子を、Cb及び/又はCrチャネルの記述子よりも多いスケールで、及び/又はそれとは異なるスケールで計算する。このような微調整により、特定の画像又はビデオ素材により良く適合して、性能を高めることができる。

0046

上記の説明では、Fiの全てのカラーチャネルに同一の近傍窓及び記述子抽出プロセスを用いる。代替的な実施態様では、そうである必要はない。代替的な実施形態は、チャネル毎に異なる近傍パラメータ及び/又は記述子抽出プロセスを使用してもよい。例えば、本発明の代替的な実施形態は、速い記述子抽出プロセスをCbチャネル及びCrチャネルに用い、遅いが強力な記述子抽出プロセスをYチャネルに用いる。このような微調整により、特定の画像又はビデオ素材により良く適合して、システムの性能を高めることができる。

0047

本発明の一実施形態では、記述子要素の一部又は全てを、整数部小数部を持つ実数で表現する。本発明の別の実施形態では、記述子要素の一部又は全てを、例えば小数部を切り捨てるか又は切り上げる(round)ことによって、整数形式で表現する。本発明のさらに別の実施形態では、記述子要素の一部又は全てを、スケーリングによって整数形式で表現する。例えば、式(1)〜(4)は、小数部が3つの値、すなわち、.25、.50及び.75しか取り得ない実数を生成する。記述子要素χ1に4の値を掛け、記述子要素χ2、χ3及びχ4に2の値を掛けることによって、情報を全く損失せずに整数表現が得られる。本発明のさらに別の実施形態では、記述子要素の一部又は全てを、何らかの方法で整数形式で表現し、その後、例えば3ビット又は4ビット長の短い値に量子化する。

0048

したがって、本発明の一実施形態では、画像Fiをその記述子VC1i(C1SCq),...,VC1i(C1SC1),VC2i(C2SCq),...,VC2i(C2SC1),...,VCpi(CpSCq),...,VCpi(CpSC1)で表現する。ここで、C1,C2,...,CpはFiの第1、第2及び第pのカラーチャネルであり、C1SCqはチャネルC1の最高の記述子スケールであり、C1SC1はチャネルC1の最低の記述子スケールであり、C2SCqはチャネルC2の最高の記述子スケールであり、C2SC1はチャネルC2の最低の記述子スケールであり、以下同様である。これらのスケールに固有でチャネルに固有の記述子は、全体で、画像の空間的に敏感な色内容及び色相関の情報を複数のスケール(好ましくは2つ以上)で、且つ複数のチャネル(好ましくは2つ以上)にわたって取得する。

0049

次に、これらの記述子を融合すなわち連結させて、次の処理のために1つの記述子にする。これを図4に示す。

0050

この実施形態では、ステップ4100において、上記で説明したように、スケールに固有でチャネルに固有の記述子を抽出する。ステップ4250において、これらの記述子を融合させてマルチスケールでマルチチャネルの記述子Viにする。ステップ4400において、記述子Vi及びVjを用いて、画像Fiと画像Fjの類似度(similarity measure)Dj,iを計算する。ステップ4900において、類似度を用いて、2つの画像の類似性又は非類似性を評価する。

0051

次に、このプロセスの様々なステップをより詳しく検討する。

0052

ステップ4400において、類似度の計算には多くのオプションがある。例えば、本発明の一実施形態において、それぞれn個の要素からなる2つの記述子Vi及びVjの間のL1距離は、次式により与えられる類似度として計算することができる。

0053

0054

本明細書に概要を説明する発明は、画像記述子を使用して、画像間の少なくとも2つの値を含む類似度を計算することを含む。

0055

記述子の距離を計算するための式(10)のL1距離は、本発明の可能な1実施態様に関連するに過ぎない。代替的な実施態様は、式(10)を、L2距離を計算する次式(11)で置き換える。

0056

0057

このような様々な距離メトリックが上記の関連文献に記載されている。

0058

さらに、代替的な実施態様は、式(10)を次式(12)で置き換える。この式(12)は、重み付きL1距離を計算する。

0059

0060

ここで、w(l)はl番目の記述子要素の重み係数である。さらに、重みの適用はまた、式(11)のL2距離、又は上記文献に記載されている任意の他の適切な距離メトリックとともに用いてもよい。

0061

類似度の処理には多くのオプションがある。本発明の一実施形態では、ステップ4900において、類似度Dj,iに閾値処理関数を適用する。すなわち、ある閾値thrについて、

0062

0063

である場合、2つの画像は異なるものと見なし、ステップ4900において「非類似」の決定を行う。そうでない場合、2つの画像は類似しているものと見なし、「類似」の決定を生じる。

0064

本明細書に概要を説明する実施形態は、少なくとも2つの値を含む上記類似度を使用して、画像間の類似性又は非類似性を確認することを含む。

0065

上で概要を説明した閾値処理方式の結果、ステップ4900において二分決定が生じ、例えば「1」が「類似」を示し、「0」が「非類似」を示す。本発明の別の実施形態において、ステップ4900の決定は二分ではなく、少なくとも3つの値を含む。このような場合、処理ステップ4900の結果の記述には、「決定」という用語よりも「尤度」という用語のほうが優れている。例えば、本発明の一実施形態において、ステップ4900は3つの閾値を用いる。類似度が第1の閾値を下回る場合、「非類似」を示す類似性の尤度「0」を生じる。類似度が第1の閾値を上回るが、第1の閾値よりも高い第2の閾値を下回る場合、「おそらく非類似」を示す類似性の尤度「1」を生じる。類似度が第2の閾値を上回るが、第2の閾値よりも高い第3の閾値を下回る場合、「おそらく類似」を示す類似性の尤度「2」を生じる。類似度が第3の閾値を上回る場合、「類似」を示す類似性の尤度「3」を生じる。本発明のさらに別の実施形態において、尤度は、閾値処理によってではなく、類似度の一定範囲(例えば0〜1)への正規化により生成される。

0066

図4に従う本発明の好ましい実施形態において、ステップ4900は、二分決定又は多値の尤度を生じる。ここで、当該尤度は、一定範囲(例えば0〜1)への正規化後にステップ4400において生成される類似度であってもよい。本発明の代替的な実施形態では、ステップ4900は全く実施されず、本発明による処理の最終的な結果は、ステップ4400によって生成される正規化されていない類似度である。

0067

ステップ4900において行われる類似性の評価の意味は、本発明を実施する用途に依存する。

0068

本発明の一実施形態において、Fi及びFjは時間順の画像である。例えば、これらはビデオFzのフレームであり、FjとFiの間にフレームの切れ目(例えばショット遷移又は照明効果等)が存在するかどうかを確かめることを目的とする。その場合、ステップ4900における決定は、FjとFiの類似度がそのようなフレームの切れ目を示すかどうかとなる。このようなシステムは、ビデオを分割する目的で用いられることになる。このような用途において、ステップ4900の好ましい出力は二分決定であり、ビデオの分割を可能にする。

0069

本発明の別の実施形態において、Fj及びFiは時間順でない個別の画像である。例えば、Fjは一組の画像Fzの画像であり、FiはFz内部又は外部の別の画像であり、Fz中の、Fiに類似している画像を見出すことを目的とする。その場合、ステップ4900の決定は、FjとFiの類似度が、それらの画像が類似していることを示すかどうかとなる。このようなシステムは、問い合わせによる画像の検索に、又はデータベース中の画像の分類に用いられる。そのような用途において、ステップ4900の好ましい出力は、二分決定ではなく、多値の尤度、好ましくは一定範囲に正規化された類似度であり、ランク付けされた類似画像リストの作成を可能にする。

0070

上記は、本発明の2つの可能な用途に過ぎない。

0071

本発明の一実施形態において、ステップ4400の記述子Vi及びVjの一方又は両方は画像ではなく画像群を表す。

0072

例えば、本発明の一実施形態において、Vjは、画像クラスタFjを形成する画像Fj1,Fj2,...,Fjgの記述子Vj1,Vj2,...,Vjgの関数(例えば平均(average)又は中央値(median))である。例えば、Fjは車を表す画像クラスタであり得る。その場合、画像Fiについて、記述子Vi及びVj間の類似性を確認することは、Fiが特定の画像に類似しているかどうかではなく、それが特定の画像クラス又は画像クラスタに類似しているかどうかを示す。一組の画像Fzは、そのようなクラスタ任意数含むことができ、そのような処理は、所与の画像が最も良く適合する特定のクラスタを示すことになる。さらに、クラスタは、Vjによってだけでなく、その画像の記述子の共分散行列等の他の統計量によっても表現することができる。共分散行列は、ステップ4400において、より複雑な類似度(例えばマハラノビス距離又は最尤度)の計算を可能にする。

0073

ビデオを分割するための本発明の別の実施形態において、VjはフレームFj1,Fj2,...,Fjgの記述子Vj1,Vj2,...,Vjgの関数(例えば平均又は中央値)である。これらのフレームは、全てがフレームFiに先行しても、全てがそれに後続しても、又は、一部が先行して一部が後続してもよい。

0074

本明細書に概要を説明する実施形態は、少なくとも2つの値を含む上記類似度を使用して、画像間の類似性又は非類似性を確認することを含む。

0075

ビデオを分割するための本発明の上記の実施形態では、ステップ4900において、2つのフレームFi及びFj間の類似度を用いて、フレームの切れ目を検出する。本発明の代替的な実施形態は、この類似度だけでなく、フレームFi及びFjの周囲のフレーム間の類似度も用いる。

0076

例えば、本発明の一実施形態において、j=i−1であり、フレームの切れ目の検出は、類似度Di+k−1,i+kに依拠し、∀k∈[−t1,t2]である。好ましい実施形態において、t1=t2=tである。したがって、フレームFi+kは、フレームFiを中心とする時間窓を形成する。次に、次の場合にのみ、Fi−1及びFi間でフレームの切れ目を検出する。

0077

0078

式(14)及び(15)によれば、各類似度Di−1,iは、Di−1,iを中心とする2t+1のサイズの時間窓内にあると考えられる。その場合、Di−1,iが時間窓内の最大距離であり、且つ、時間窓内の2番目に大きい距離よりも少なくともthr倍大きい場合にのみ、フレームFi−1とフレームFiの間で切れ目を検出する。このような時間適応的な方式は、フレーム間の高い動きレベルから生じる誤った検出の数を低減することを目的とする。フレームの切れ目を検出するためにそのような時系列を処理するそのような方式はいくつかある。

0079

本発明の好ましい実施形態では、多くのスケールで、且つ複数のチャネルにわたって記述子を抽出することが明確に理解されるべきである。しかし、本発明の代替的な実施形態において、そうである必要はない。例えば、本発明の一実施形態では、複数のスケールで、但し単一のチャネルのみについて記述子を抽出する。本発明の別の実施形態では、単一のスケールについて、但し複数のチャネルにわたって記述子を抽出する。本発明のさらに別の実施形態では、単一のスケールで、且つ単一のチャネルについて記述子を抽出する。

0080

さらに、上記の実施形態では、フレームの切れ目を検出するために、連続フレームの全ての対の処理を検討した。代替的な実施形態は、フレームをより粗く処理してもよい。代替的な実施形態は、4番目毎のフレームのみを処理し、さらに別の実施形態は、16番目毎のフレームのみを処理する。このような向上により、ビデオ分割システムの速度がさらに上がる。

0081

さらに、上記の説明は、各フレームがその画素値で表される未圧縮のデジタルビデオの処理に関する。本発明は、復元していないMPEG圧縮ビデオにも直接適用することができる。

0082

MPEGビデオ性質は、当業者にはよく知られており、John Watkinson著「TheMPEG Handbook」(「The MPEG Handbook: MPEG-1, MPEG-2, MPEG-4」, Focal Press, Oxford 2001, ISBN:0-240-51656-7)に専門的に記載されている。

0083

MPEG圧縮ビデオに関する本発明の一実施形態では、ビデオのIフレームのみを処理する。より具体的には、IフレームのDC表現のみを処理する。すなわち、8×8画素の各ブロックについて、そのDCT変換のDC成分のみを取る。事実上、IフレームのDC表現は単に、8×8のブロック平均を用いて圧縮前の原フレームをリサンプリングしたものである。DC成分は、圧縮ビデオストリームから復元を行うことなく直接取り出すことができるため、本発明は、MPEG圧縮ビデオのIフレームの処理に直接適用できることが明らかである。

0084

本発明は、例えばコンピュータシステムにおいて、適切なソフトウェア及び/又はハードウェアの変更を施して実施することができる。例えば、本発明は、プロセッサ又は制御装置等の制御又は処理手段、メモリ磁気記憶装置、CD、DVD等の画像記憶手段を含むデータ記憶手段、ディスプレイ若しくはモニタ又はプリンタ等のデータ出力手段、キーボード等のデータ入力手段、及びスキャナ等の画像入力手段、又はそのような構成要素の任意の組み合わせ並びに追加の構成要素を有するコンピュータ又は同様の装置を用いて実施することができる。本発明の態様は、ソフトウェア及び/又はハードウェア形態で、又は特定用途向け装置において提供するか、又は集積回路等の特定用途向けモジュールを提供することができる。本発明の一実施形態による装置中のシステムの構成要素は、他の構成要素から遠隔して、例えばインターネットを介して設けられてもよい。

0085

コンピュータシステムの形態の適切な装置のブロック図を図5に示し、この図において、制御ユニット10100は、画像記憶手段10200、記述子記憶手段10300及びディスプレイ10400に接続される。画像記憶手段10200は、上記の実施形態により表現又は比較される画像に対応するデータを記憶する。これは、1つの画像、複数の画像、画像クラスタ、画像シーケンス又は画像データベース全体に対応するデータであってもよい。記述子記憶手段10300は、データベースであってもよく、制御ユニット10100により計算される副記述子(sub-descriptors)を含む導出された記述子をすべて記憶する。制御ユニットの動作の結果は、ディスプレイ10400上でユーザに対して表示する。

0086

「スケール」及び「解像度」という用語は、本明細書において置き換え可能に用いられる。画像の領域は画像全体又は画像の部分を意味し得る。

図面の簡単な説明

0087

本発明の一実施形態によるYチャネルのブロック平均リサンプリングプロセスを示す図である。
本発明の一実施形態における1つのスケールの記述子の計算を示す図である。
本発明の一実施形態における1つのスケールの記述子の計算を示す図である。
本発明の一実施形態における1つのスケールの記述子の計算を示す図である。
本発明の一実施形態における1つのスケールの記述子の計算を示す図である。
本発明のさらなる実施形態による1つのスケールの記述子の計算を示す図である。
本発明のさらなる実施形態による1つのスケールの記述子の計算を示す図である。
本発明のさらなる実施形態による1つのスケールの記述子の計算を示す図である。
本発明のさらなる実施形態による1つのスケールの記述子の計算を示す図である。
本発明の一実施形態による複数の画像を比較するフロー図である。
本発明の実施形態の実施に適した処理装置の概略図である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ