図面 (/)
課題
解決手段
概要
背景
画像物体認識用に様々な特徴検出アルゴリズムが利用されている。最も基本的なレベルでは、特徴検出アルゴリズムは画像物体認識、検索のため、画像の代表的な特徴(例えば形状、物体等)を特徴づけ、要約し、そして参照可能とする手段としての記述子を生成する。画像物体認識用の特徴検出アルゴリズムの一例としては、Loweによる米国特許第6,711,293号に記載されるようなScale Invariant Feature Transform(SIFT)特徴検出アルゴリズムが挙げられる。例えば、SIFT特徴検出アルゴリズムは画像内の多数の特徴に対して記述子を生成するように、画像に適用できる。
機械物体認識は通常、2つの独立したステップを含む。具体的にはまず、既知の物体の訓練画像を、特徴検出アルゴリズム(例えばSIFT特徴検出アルゴリズム)で分析することで、画像データ中の特徴に対応した記述子が生成される。多くの異なる物体に対応する記述子は、認識装置(例えばスマートフォン)上に展開されるよう、認識ライブラリ又はデータベースとしてパッケージ化されてもよい。次に、認識装置は、物体の新たな「クエリ」画像を取得する。装置は同様の画像処理アルゴリズムをクエリ画像に適用し、クエリ画像記述子を生成する。そして、装置は、クエリ画像記述子を認識ライブラリ中の訓練画像記述子と比較する。十分な一致、特に再近隣一致があった場合、クエリ画像は少なくとも1つの既知物体の表示を含むと考えられる。
残念ながら、画像物体認識を有効に適用するために必要な認識ライブラリは、典型的な携帯装置(例えばスマートフォン)の記憶容量に対してかなり大きくなり得る。これは認識ライブラリが何千もの物体を区別できるような情報を記憶しなければならないような場合に顕著である。例えば、典型的なSIFT記述子は、128バイトもの情報を含み得る。したがって、物体千個のデータセットは、200万個の記述子を含み得、これは256MBの認識ライブラリとなる。十分に大きなデータセットは、携帯装置上に展開困難である上に、帯域が限定されていること、更に/或いはデータチャージが高くなりすぎてしまうことを考えると、モバイル通信ネットワークを利用しても困難である。
概要
訓練画像内のロバスト特徴を特定することを含む技術を提供する。特徴検出アルゴリズムを前記訓練画像に適用して、それぞれ訓練特徴位置を前記訓練画像内に有する訓練特徴を生成する。所定の画像変換に応じて前記訓練画像を少なくとも部分的に変換画像に変換する。前記特徴検出アルゴリズムを前記変換画像に適用して、それぞれ変換特徴位置を前記変換画像内に有する変換特徴を生成する。前記所定の画像変換に応じて、前記訓練特徴の前記訓練特徴位置を、前記変換画像内の対応する訓練特徴変換位置にマップする。それぞれ訓練特徴変換位置が前記変換特徴の変換特徴位置近傍にある訓練特徴を表すロバスト特徴を選択して、ロバスト特徴群をまとめる。
目的
効果
実績
- 技術文献被引用数
- 0件
- 牽制数
- 0件
この技術が所属する分野
(分野番号表示ON)※整理標準化データをもとに当社作成
請求項1
特徴検出装置において訓練画像内のロバスト特徴を特定する方法であって、前記特徴検出装置により、特徴検出アルゴリズムを前記訓練画像に適用して、それぞれ訓練特徴位置を前記訓練画像内に有する訓練特徴を生成することと、前記特徴検出装置により、所定の画像変換に応じて前記訓練画像を少なくとも部分的に変換画像に変換することと、前記特徴検出装置により、前記特徴検出アルゴリズムを前記変換画像に適用して、それぞれ変換特徴位置を前記変換画像内に有する変換特徴を生成することと、前記特徴検出装置により、前記所定の画像変換に応じて、前記訓練特徴の前記訓練特徴位置を、前記変換画像内の対応する訓練特徴変換位置にマップすることと、前記特徴検出装置により、それぞれ訓練特徴変換位置が前記変換特徴の変換特徴位置近傍にある訓練特徴を表すロバスト特徴を選択して、ロバスト特徴群をまとめることとを具備する方法。
請求項2
前記訓練特徴位置のそれぞれは、画素座標を含む請求項1記載の方法。
請求項3
請求項4
請求項5
前記特徴検出アルゴリズムは、scale−invariantfeaturetransform(SIFT)、FastRetinaKeypoint(FREAK)、HistogramsofOrientedGradient(HOG)、SpeededUpRobustFeatures(SURF)、DAISY、BinaryRobustInvariantScalableKeypoints(BRISK)、FAST、BinaryRobustIndependentElementaryFeatures(BRIEF)、HarrisCorners、Edges、GradientLocationandOrientationHistogram(GLOH)、EnergyofimageGradient(EOG)、TransformInvariantLow−rankTextures(TILT)特徴検出アルゴリズムの内の少なくとも1つを含む請求項1記載の方法。
請求項6
前記所定の画像変換は、幾何変換を含む請求項1記載の方法。
請求項7
請求項8
請求項9
前記画像認識検索のテーマの1つ以上の特徴は、主に近シーケンス画像、遠シーケンス画像、傾斜画像、高テクスチャ画像、中テクスチャ画像、低テクスチャ画像の内の少なくとも一つであるクエリ画像を示すように決定される請求項8記載の方法。
請求項10
前記倍率は、前記訓練画像の元サイズの50%から90%の線倍率を含む請求項7記載の方法。
請求項11
前記倍率は、前記訓練画像の元サイズの75%から80%の線倍率を含む請求項7記載の方法。
請求項12
請求項13
前記角度は、20度から45度の間である請求項12記載の方法。
請求項14
前記所定の画像変換は、画像処理変換を含む請求項1記載の方法。
請求項15
請求項16
前記訓練画像を少なくとも部分的に変換することは、複数の幾何変換又は画像処理変換を含む複合変換を前記所定の画像変換として施して、前記変換画像を形成することを含む請求項1記載の方法。
請求項17
請求項18
請求項19
前記1つ以上の調整パラメータは、倍率及び角度の少なくとも一方を含む請求項18記載の方法。
請求項20
前記1つ以上の調整パラメータは、画像物体認識検索のテーマの1つ以上の特徴に基づいて自動的に調整される、請求項18記載の方法。
請求項21
請求項22
前記画像テストライブラリは、前記訓練画像を含まない請求項21記載の方法。
請求項23
前記調整済み調整パラメータを前記画像テストライブラリに基づいて検証することをさらに含む請求項21記載の方法。
請求項24
前記ロバスト特徴群をまとめることは、訓練特徴変換位置に対して所定の閾値距離内にある変換特徴位置を判定することと、類似度に基づいて、前記訓練特徴変換位置に対応する訓練特徴を、前記変換特徴位置に対応する変換特徴と比較することとを含む請求項1記載の方法。
請求項25
請求項26
請求項27
請求項28
前記所定の画像変換を選択するために複数の画像変換をユーザに提示することをさらに含む請求項1記載の方法。
請求項29
前記所定の画像変換は、前記訓練画像を撮影する方法と無関係に選択される請求項1記載の方法。
請求項30
訓練画像内のロバスト特徴を特定するシステムであって、プロセッサと、メモリ装置と、前記メモリ装置に記憶されたソフトウェア指示に応じて前記プロセッサに対して実行可能な特徴検出部であって、前記特徴検出部は、特徴検出アルゴリズムを前記訓練画像に適用して、それぞれ訓練特徴位置を前記訓練画像内に有する訓練特徴を生成し、所定の画像変換に応じて前記訓練画像を少なくとも部分的に変換画像に変換し、前記特徴検出アルゴリズムを前記変換画像に適用して、それぞれ変換特徴位置を前記変換画像内に有する変換特徴を生成し、前記所定の画像変換に応じて、前記訓練特徴の前記訓練特徴位置を、前記変換画像内の対応する訓練特徴変換位置にマップし、それぞれ訓練特徴変換位置が前記変換特徴の変換特徴位置近傍にある訓練特徴を表すロバスト特徴を選択して、ロバスト特徴群をまとめるように構成されるシステム。
請求項31
コンピュータプロセッサによって実行可能な指示を含む非一時的コンピュータ読取可能媒体に組み込まれた、画像内のロバスト特徴を特定するコンピュータプログラムプロダクトであって、前記指示は、コンピュータプロセッサによって実行されて特徴検出アルゴリズムを前記訓練画像に適用して、それぞれ訓練特徴位置を前記訓練画像内に有する訓練特徴を生成することと、所定の画像変換に応じて前記訓練画像を少なくとも部分的に変換画像に変換することと、前記特徴検出アルゴリズムを前記変換画像に適用して、それぞれ変換特徴位置を前記変換画像内に有する変換特徴を生成することと、前記所定の画像変換に応じて、前記訓練特徴の前記訓練特徴位置を、前記変換画像内の対応する訓練特徴変換位置にマップすることと、それぞれ訓練特徴変換位置が前記変換特徴の変換特徴位置近傍にある訓練特徴を表すロバスト特徴を選択して、ロバスト特徴群をまとめることとを含む処理を実行するコンピュータプログラムプロダクト。
関連出願の相互参照
0001
本願は、2014年4月24日に出願された米国仮出願第61/983,971号の優先権を主張し、その全体は本明細書に参照により援用される。
技術分野
0002
本開示は概して画像物体認識に関し、より具体的には画像物体認識において特徴を特定する技術に関する。
背景技術
0003
画像物体認識用に様々な特徴検出アルゴリズムが利用されている。最も基本的なレベルでは、特徴検出アルゴリズムは画像物体認識、検索のため、画像の代表的な特徴(例えば形状、物体等)を特徴づけ、要約し、そして参照可能とする手段としての記述子を生成する。画像物体認識用の特徴検出アルゴリズムの一例としては、Loweによる米国特許第6,711,293号に記載されるようなScale Invariant Feature Transform(SIFT)特徴検出アルゴリズムが挙げられる。例えば、SIFT特徴検出アルゴリズムは画像内の多数の特徴に対して記述子を生成するように、画像に適用できる。
0004
機械物体認識は通常、2つの独立したステップを含む。具体的にはまず、既知の物体の訓練画像を、特徴検出アルゴリズム(例えばSIFT特徴検出アルゴリズム)で分析することで、画像データ中の特徴に対応した記述子が生成される。多くの異なる物体に対応する記述子は、認識装置(例えばスマートフォン)上に展開されるよう、認識ライブラリ又はデータベースとしてパッケージ化されてもよい。次に、認識装置は、物体の新たな「クエリ」画像を取得する。装置は同様の画像処理アルゴリズムをクエリ画像に適用し、クエリ画像記述子を生成する。そして、装置は、クエリ画像記述子を認識ライブラリ中の訓練画像記述子と比較する。十分な一致、特に再近隣一致があった場合、クエリ画像は少なくとも1つの既知物体の表示を含むと考えられる。
0005
残念ながら、画像物体認識を有効に適用するために必要な認識ライブラリは、典型的な携帯装置(例えばスマートフォン)の記憶容量に対してかなり大きくなり得る。これは認識ライブラリが何千もの物体を区別できるような情報を記憶しなければならないような場合に顕著である。例えば、典型的なSIFT記述子は、128バイトもの情報を含み得る。したがって、物体千個のデータセットは、200万個の記述子を含み得、これは256MBの認識ライブラリとなる。十分に大きなデータセットは、携帯装置上に展開困難である上に、帯域が限定されていること、更に/或いはデータチャージが高くなりすぎてしまうことを考えると、モバイル通信ネットワークを利用しても困難である。
発明が解決しようとする課題
課題を解決するための手段
0007
本稿では、訓練画像内のロバスト特徴を特定する方法、システム、製造物を説明する。各種実施形態は、画像物体認識用のコンパクトかつ効率的な認識ライブラリの構築を可能にする。実施形態では、訓練画像内のロバスト特徴を特定する。訓練画像は、歪みのない画像、赤外線画像、X線画像、360度画像、機械視画像、ビデオデータのフレーム、グラフィック表示、三次元物体斜視像のいずれかであってもよく、撮像装置により、ビデオストリームのビデオフレームを取得することにより得てもよい。特徴検出アルゴリズムを前記訓練画像に適用して、それぞれ訓練特徴位置を前記訓練画像内に有する訓練特徴を生成する。所定の画像変換に応じて前記訓練画像を少なくとも部分的に変換画像に変換する。前記所定の画像変換を選択するため、複数の画像変換をユーザに提示してもよく、前記所定の画像変換は、前記訓練画像を撮影する方法と無関係に選択されてもよい。前記特徴検出アルゴリズムを前記変換画像に適用して、それぞれ変換特徴位置を前記変換画像内に有する変換特徴を生成する。前記所定の画像変換に応じて、前記訓練特徴の前記訓練特徴位置を、前記変換画像内の対応する訓練特徴変換位置にマップする。それぞれ訓練特徴変換位置が前記変換特徴の変換特徴位置近傍にある訓練特徴を表すロバスト特徴を選択して、ロバスト特徴群をまとめる。前記訓練特徴及び前記変換特徴はそれぞれ、前記特徴検出アルゴリズムに応じて特徴記述子で表現されてもよい。前記訓練特徴位置はそれぞれ、画素座標を含んでもよく、前記変換特徴位置はそれぞれ、変換画素座標を含んでもよい。前記特徴検出アルゴリズムは、scale−invariant feature transform(SIFT)、Fast Retina Keypoint(FREAK)、Histograms of Oriented Gradient(HOG)、Speeded Up Robust Features(SURF)、DAISY、Binary Robust Invariant Scalable Keypoints(BRISK)、FAST、Binary Robust Independent Elementary Features(BRIEF)、Harris Corners、Edges、Gradient Location and Orientation Histogram(GLOH)、Energy of image Gradient(EOG)、Transform Invariant Low−rank Textures(TILT)特徴検出アルゴリズムの内の少なくとも1つを含んでもよい。
0009
いくつかの実施形態では、前記訓練画像を少なくとも部分的に変換することは、前記訓練画像を倍率でスケーリングすることで前記変換画像を形成することを含んでもよい。前記倍率は、画像物体認識検索のテーマの1つ以上の特徴に基づいてもよく、前記画像物体認識検索のテーマの1つ以上の特徴は、主に近シーケンス画像、遠シーケンス画像、傾斜画像、高テクスチャ画像、中テクスチャ画像、低テクスチャ画像の内の少なくとも一つであるクエリ画像を示すように決定されてもよい。いくつかの実施形態では、前記倍率は、前記訓練画像の元サイズの50%から90%の線倍率を含んでもよい。いくつかの実施形態では、前記倍率は、前記訓練画像の元サイズの75%から80%の線倍率を含んでもよい。
0010
いくつかの実施形態では、前記訓練画像を少なくとも部分的に変換することは、ある角度で前記訓練画像を傾斜、切り取り、回転、デジタル変換することの内の少なくとも1つを含むことで前記変換画像を形成してもよい。いくつかの実施形態では、前記角度は、20度から45度の間であってもよい。
0012
いくつかの実施形態では、前記訓練画像を少なくとも部分的に変換することは、複数の幾何変換又は画像処理変換を含む、複合変換を前記所定の画像変換として施して、前記変換画像を形成することを含んでもよい。前記複合変換は、画像認識検索のテーマの1つ以上の特徴に基づいて決定されてもよい。
0013
いくつかの実施形態では、前記所定の画像変換の1つ以上の調整パラメータを調整して、当該調整済み調整パラメータに基づいて、第2ロバスト特徴群を生成してもよい。前記1つ以上の調整パラメータは、倍率及び角度の少なくとも一方を含んでもよく、また、画像認識検索のテーマの1つ以上の特徴に基づいて、自動的に調整されてもよい。
0014
いくつかの実施形態では、前記調整済み調整パラメータを、画像テストライブラリと関連して前記調整済み調整パラメータが使用された際の認識効率に基づき最適化してもよい。いくつかの実施形態では、前記画像テストライブラリは、前記訓練画像を含まなくてもよく、前記調整済み調整パラメータを、前記画像テストライブラリに基づき検証してもよい。
0015
いくつかの実施形態では、前記ロバスト特徴群をまとめることは、訓練特徴変換位置に対して所定の閾値距離内にある変換特徴位置を判定することと、類似度に基づいて、前記訓練特徴変換位置に対応する訓練特徴を、前記変換特徴位置に対応する変換特徴と比較することとを含んでもよい。前記類似度は、ユークリッド距離、ヘリンガー距離、ハミング距離の少なくとも1つに基づいてもよい。
図面の簡単な説明
0017
図1は、実施形態に係る、訓練画像に対する幾何変換の様々な例を示す。
0019
図2Bは、実施形態に係る、中テクスチャ訓練画像に対する幾何画像変換の例を示す。
0020
図2Cは、実施形態に係る、低テクスチャ訓練画像に対する幾何画像変換の例を示す。
0025
図6Bは、実施形態に係る、中テクスチャ訓練画像に対する変換最適化結果のグラフを示す。
0026
図6Cは、実施形態に係る、低テクスチャ訓練画像に対する変換最適化結果のグラフを示す。
0028
図8は、各種実施形態の1つ以上の態様を実現するために使用可能な分散型コンピュータシステムのブロック図を示す。
0029
本発明は上記図面を参照に説明されるが、図面は例示的であるものとする。その他実施形態は、本発明の精神に沿って、本発明の範囲内のものであるとする。
実施例
0030
以下に、添付の図面を参照にして、各種実施形態をより包括的に説明する。当該図面は、本稿の一部となるものであって、実施形態の実現の具体例を例示的に示す。ただし、本明細書の内容は様々な異なる形態で実施されてもよく、本稿記載の実施形態に限定されると解されるべきではない。当該実施形態は本明細書の内容が一貫性を有して完成し、発明の範囲が当業者に完全に伝わるよう提供されるものである。特に、本明細書の内容は方法や装置として実施されてもよい。したがって、本稿記載の各種実施形態の内の任意のものが、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、又はソフトウェア及びハードウェア要素の組合せの実施形態であってもよい。このように、以下の明細書は限定的に解釈されるべきではない。
0031
明細書、請求項全体において、別途明確に規定されない限り、以下の用語は本稿にて以下の対応する意味を有する。
0032
本稿において使用される「一実施形態において」という表現は、同一の実施形態に関するものとは限らないが、関するものである場合もある。したがって、以下に記載する通り、本発明の各種実施形態は、本発明の範囲又は精神から逸脱することなく、容易に組合せ可能である。
0033
本稿で使用される「又は」という語は、包括的な「or」演算子であり、別途明確に規定されない限り、「及び/又は」と同等の意味で用いられる。
0034
「基づく」という語は排他的ではなく、別途明確に規定されない限り、記載されていない追加の要素に基づくこともできる。
0035
本稿で使用される「と接続される」という語は、別途明確に規定されない限り、直接接続(2つの要素が互いに接して接続される)及び間接接続(少なくとも1つの追加の要素が当該2つの要素間に配置されている)の両方を含むことを意図している。したがって、「と接続される」も「に接続される」も同義として使用される。2つ以上の構成要素又は装置がデータをやり取りできるネットワーク環境において、「と接続される」及び「に接続される」は、「通信可能に接続される」ことをも意味しており、1つ以上の中間装置を介してもよい。
0036
更に、本明細書を通じて、単数の記載は複数のものを含み、「の中に」は「の中に」及び「の上に」を含む。
0037
本稿に示すいくつかの各種実施形態は発明の要素のある組合せからなるが、発明の主題は、開示されている要素のあらゆる組合せを含むと考えられることが理解されよう。したがって、一実施形態が要素A、B、Cを含み、別の実施形態が要素B、Dを含む場合、発明の主題は、本稿に明示的に述べられていない場合でも、A、B、C、又はDの他の組合せも含むと考えられる。
0038
本稿の明細書及び後続の請求項において使用される場合、システム、エンジン、サーバ、装置、モジュール、又はその他のコンピューティング要素は、メモリ中のデータに対して機能を実施又は実行するよう構成されるものとして記載される。ここで、「よう構成される」又は「ようプログラムされる」は、コンピューティング要素の1つ以上のプロセッサ又はコアが、コンピューティング要素のメモリに記憶されたソフトウェア指示群によりプログラムされて、メモリに記憶されたターゲットデータ又はデータ物体に対して機能群を実行することを意味する。
0039
コンピュータに指示されるあらゆる言語は、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、個別に又はまとめて動作するその他の種類のコンピューティング装置構造を含む、コンピューティング装置のあらゆる適切な組合せを含むよう読み込まれることに留意されたい。コンピューティング装置は、有形、非一時的コンピュータ読取可能記憶媒体(例えばハードディスク、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュ、ROM等)に記憶されるソフトウェア指示を実行するよう構成されるプロセッサを含む。ソフトウェア指示は、開示されている装置について以下に記載する役割、責任、又はその他の機能を提供するようにコンピューティング装置を構成又はプログラムする。また、開示されている技術は、プロセッサに対してコンピュータベースのアルゴリズム、プロセス、方法、又はその他の指示を実施することに関する開示されているステップを実行させるソフトウェア指示を記憶する非一時的コンピュータ読取可能媒体を含むコンピュータプログラムプロダクトとして実施することもできる。いくつかの実施形態では、各種サーバ、システム、データベース又はインターフェースは、HTTP、HTTPS、AES、公開秘密鍵の交換、ウェブサービスAPI、公知の金融取引プロトコル、又はその他の電子情報交換方法に基づき得る、標準化されたプロトコル又はアルゴリズムを用いてデータをやり取りする。装置間のデータのやり取りは、パケット交換ネットワーク、インターネット、LAN、WAN、VPN、又はその他の種類のパケット交換ネットワーク、回路交換ネットワーク、セル交換ネットワーク、又はその他の種類のネットワークを介して行われてもよい。
0040
開示される発明の主題は、人間の処理能力を上回る量のデジタルデータを処理する演算装置を構成、設定することに向けられている。いくつかの実施形態ではデジタルデータは画像とされるが、デジタルデータは必ずしも画像そのものではなく、画像のデジタルモデルを1つ以上示すものであることが理解されよう。演算装置のメモリ内に当該デジタルモデルを実現することで、演算装置は、そのユーザが当該装置を利用しなかった場合には得られないような利便性が得られるよう、デジタルデータ又はモデルを管理できる。したがって、開示の装置は、開示の技術に従って、そのようなデジタルデータをより効率的に処理できる。
0041
開示の技術は、デジタル画像物体認識、検索技術の範囲、精度、コンパクトさ、効率、速度の向上を含む、多くの有利な技術的効果をもたらすことが理解できよう。そして、以下の明細書の内容は、大規模な全体像を示す意図はないため、明確、簡潔にするため、概念の簡略化が可能であることも理解されよう。
0042
各種実施形態によると、本稿では画像検索の文脈で説明される物体インスタンス検索、画像認識及び/又は画像物体認識は、所定のクエリ画像に応じた画像データセット(本稿ではそれぞれ「画像」又は「訓練画像」と称する)の特徴検出を行うシステム及び方法により実現される。画像認証は、画像の特徴を特徴づけ、要約し、そして参照可能とする記述子を利用して可能となる。大規模画像認識では、多数のサーバが並行動作し、それぞれ一千万以上の画像より成る画像データセットを処理する場合すらある(中規模画像認識で処理されるのは、約百万以上の画像より成る画像データセットとなる)。但し、莫大な画像データセットに対応する記述子の記憶要件により、画像記述子のメモリフットプリントと、例えばmean average precision(mAP)で測定される画像検索性能とのいずれかを優先して、いずれかを犠牲にするような状況も少なくない。したがって、大規模な画像認識を実行するならば、画像を特徴づけるため使用される画像記述子を少なくすることが望ましい。
0043
記述子は、画像の1つ以上の目立つ特徴(例えば形状、物体等)に対応するベクトルであってもよい。画像特徴の検出、記述子生成には様々な方法を利用可能である。例えば、scale−invariant feature transform(SIFT)は、現在広く使用されている画像認識アルゴリズムで、画像の特徴を検出、表現するため使用される。SIFT記述子は128次元であり、非常に目立ち(即ち、マッチングのため区別しやすい)、照明、3次元(3D)視点等に対して少なくともある程度ロバストである。例えば、SIFT記述子の生成に関しては、D.Loweによる"Distinctive Image features from Scale−Invariant Keypoints"、International Journal of Computer Vision 60 (2)、91から110ページ(2004)を参照されたい。SIFT記述子以外の記述子も利用可能である。当該記述子としてはFast Retina Keypoint(FREAK)記述子、Histograms of Oriented Gradient(HOG)記述子、Speeded Up Robust Features(SURF)記述子、DAISY記述子、Binary Robust Invariant Scalable Keypoints(BRISK)記述子、FAST記述子、Binary Robust Independent Elementary Features(BRIEF)記述子、Harris Corners記述子、Edges記述子、Gradient Location and Orientation Histogram(GLOH)記述子、Energy of image Gradient(EOG)記述子、Transform Invariant Low−rank Textures(TILT)記述子が挙げられる。通常、画像データセットの各画像は、記述子によって表される何百、何千もの特徴を含む。したがって、有効なシステム制約条件としては、画像データセットを表すため必要な記述子の量の圧縮、及び記述子内の情報を記憶するために必要なメモリサイズの低減の両方を達成する方法が求められることが多い。
0044
本稿における各種実施形態において、訓練画像データ内のロバスト特徴を特定することで、画像データセットを表すため使用される記述子の量を圧縮し、記述子に含まれる情報を記憶するために必要なメモリサイズを低減することの両方を達成する方法が提供される。単に特徴と、画像物体認識に関連した対応する記述子を全て記憶するよりも、本稿の各種実施形態では、各種摂動(例えば幾何変換や画像処理変換のような画像変換)に対してロバストな特徴を判定しやすくする。さらに、各種実施形態は、複数の画像ではなく、物体を示す単一の画像を使用してロバスト特徴を決定するので、その他典型的な訓練画像取り込み技術に比較して時間短縮が達成できる。但し、各種実施形態は、多数の視点で複雑な構造を有する三次元(3D)画像の複数の画像を取り込むための使用も想定される。
0045
本稿で説明される、ロバスト特徴を特定する各種実施形態において、幾何(例えばスケーリング)変換及びSIFT特徴検出アルゴリズムの利用が、説明を簡潔明瞭にするために例示される。但し、その他画像変換(例えばその他幾何変換、画像処理変換、又はそれら変換の組合せ)及びその他特徴検出アルゴリズムを利用して各種実施形態を実現してもよいことが理解されよう。さらに、利用される特定の特徴検出アルゴリズム又は訓練画像により示されると知られているテーマの特定の特徴に基づいて、多様なその他画像変換が利用されてもよいことが理解されよう。
0046
図1は、実施形態に係る、訓練画像に対する幾何変換の様々な例を示す。図1において、訓練画像100は高さhを有する物体の画像を示す。例えば、訓練画像100は歪みのない画像、赤外線画像、X線画像、360度画像、機械視画像、ビデオデータのフレーム、グラフィック表示、三次元物体斜視像の内のいずれかであってもよい。いくつかの実施形態において、訓練画像100は撮像装置により撮影された、又は配信された(例えばテレビ、映画等)ビデオストリームからビデオフレームを取得することで得られてもよい。あくまで例示として、訓練画像100は中テクスチャ物体として図示されている。
0047
訓練画像100の少なくとも一部は、変換画像102,104,106として示すように、あらかじめ定義された(即ち所定の)画像変換により、変換画像に変換されてもよい。実施形態において、あらかじめ定義された(即ち所定の)画像変換は、幾何変換(図示)と、画像処理変換の少なくとも一方であってもよい。画像処理変換は自動的に又はユーザに提示され選択される。更に、所定の画像変換は訓練画像を取得する方法と無関係に選択されてもよい。このように、所定の画像変換は、訓練画像取り込み処理を効率化するよう選択されてもよい。即ち、元画像に関係なく複数の訓練画像のそれぞれに同一の所定の画像変換を自動的に適用するのである。
0048
いくつかの実施形態において、所定の画像変換は、訓練画像により表されることがみとめられたテーマの特定の特徴(例えば、高テクスチャな子供用玩具、低テクスチャなロゴ、印刷媒体、街並み画像、都市景観画像等)に基づいて選択されてもよい。更に、所定の画像変換は、想定されるクエリ画像の特徴に基づいてもよい。想定クエリ画像としては、主に近シーケンス画像、遠シーケンス画像、傾斜画像、高テクスチャ画像、中テクスチャ画像、低テクスチャ画像の少なくとも1つであると想定される。例えば、主に近シーケンスクエリ画像は、印刷媒体に関するとされる検索の場合に想定され、主に遠シーケンス画像は、街並み画像、都市景観画像、CCTV/防犯カメラ画像に関するものとされる検索の場合に想定される。
0049
実施形態において、訓練画像100を変換して変換画像を形成することは、訓練画像をある倍率でスケーリング(例えば、拡大又は縮小)することを含んでもよい。例えば、変換画像102は、線倍率αで線形縮小された訓練画像を示す。実施形態において、線倍率αは好ましくは0.5(例えば50%)から0.9(例えば90%)の間であり、より好ましくは、0.75(例えば75%)と0.8(例えば80%)の間である。例えば、ロバスト特徴を特定して、訓練画像を表すために必要な特徴の数を減らすための後述の方法に基づいて、線倍率約0.8(例えば80%)により、認識性能を損なうことなく、認識データベースサイズを約50%低減できる。いくつかの実施形態において、倍率は画像物体認識検索のテーマ特徴の1つ以上に基づいていてもよい。
0050
実施形態において、訓練画像100を変換して変換画像を形成することは、ある角度で訓練画像を回転することを含んでもよい。例えば、変換画像104は、角度θ回転された訓練画像を示す。角度θは、ロバスト特徴を特定するための所望の摂動量を生成することに基づいて選択されてもよい。例えば、訓練画像100と変換画像102との間に十分認識可能な回転変化を生じさせる最小角度として、20度の角度θが挙げられる。したがって、20度未満の角度では、画像同士が非常に類似してしまい、ロバスト特徴を特定するために十分な摂動が得られない場合がある。例えば、そのような状況のロバスト特徴は、設定された元の特徴の70%又は80%を含むものであり得る。一方、回転には高い対称性が伴うため、45度を超える角度θを上限角度としてもよい。例えば、70度の角度θは、20度の回転の後に反対方向に90度回転したこととほぼ同等の回転となる(したがってSIFT特徴検出では非常に小さな差となる)。このように70度だと、SIFT検出においては20度回転させることと同等なのである。同様に、160度でも、20度回転させて180度回転させたことと同等となる。したがって、実施形態において、回転角度θは20度から45度の間が好ましいのである。
0051
実施形態において、訓練画像100を変換して変換画像を形成することは、訓練画像を傾斜角度φで傾斜させる又は切り取ることを含んでもよい。例えば、変換画像106は角度φで傾斜させられた訓練画像を示す。角度φは、ロバスト特徴を特定するために、所望の摂動量を生成することに基づいて選択されてもよい。例えば、訓練画像100と変換画像102との間に変化を生じさせることができる最小角度として、角度φは20度であってもよい。したがって、20度未満の角度φでは、画像同士が非常に類似してしまい、ロバスト特徴を特定するために十分な摂動が得られない場合がある。一方、角度φが45度を超えると、変換画像102の歪みが大きくなりすぎてしまい、変換の結果、ロバスト特徴として特定されるような特徴がほとんど残らず、認識性能が落ちてしまう可能性がある。したがって、実施形態において、傾斜角度φは20度から45度の間であることが好ましい。
0052
いくつかの実施形態において、複数の異なる画像変換を組み合わせて、複合変換としてもよい。例えば、複数の幾何変換及び/又は画像処理変換(例えば、ガウシアンフィルタ、カラー変換及び/又は非可逆又は可逆圧縮を含む)を選択的に組み合わせて、訓練画像100を変換画像に変換してもよい。いくつかの実施形態では、複合変換は、カメラ又はその他撮像装置の1つ以上の既知の特徴(例えば、焦点距離、レンズ口径、ズーム範囲、ぼかし等)に基づいて決定されてもよい。したがって、複合変換により、撮像装置等により撮影される画像又は撮像装置等でクエリ画像が撮像され得る状況がシミュレーション又はモデリングされ得る。更に、いくつかの実施形態では、複合変換は画像物体認識検索のテーマ特徴の1つ以上に基づいて決定されてもよい。このように、その他画像変換又は画像変換の組合せが可能であること、そして図1に示す例は例示的あって、訓練画像100を変換して変換画像を形成するために利用できる画像変換を単に示すものであることが理解されよう。
0053
ロバスト特徴は、画像変換のような摂動後も残存する、画像内の特徴のサブセットとされる。例えば、特徴検出アルゴリズムを訓練画像100に適用して、それぞれ訓練特徴位置(例えば画素座標)を訓練画像内に有する訓練特徴を生成してもよい。同様に、特徴検出アルゴリズムを変換画像102,104,106の1つのような変換画像に適用して、それぞれ変換特徴位置(例えば変換画素座標)を変換画像内に有する変換特徴を生成してもよい。その後、変換特徴の内の1つのものの変換特徴位置近傍の訓練特徴変換位置(即ち、対応する変換画像位置にマップされた位置)を有する訓練特徴を特定することで、訓練画像100のロバスト特徴群の判定が行われる。
0054
図2Aは、実施形態に係る、高テクスチャ訓練画像の幾何画像変換の例を示す。訓練画像200は、SIFT特徴検出アルゴリズム適用の結果、1149個のSIFT訓練特徴(例えば訓練特徴202及び204)が含まれると判定された高テクスチャ訓練画像(例えば典型的な子供用玩具のパッケージ画像)を示す。図を見やすくするため、全ての訓練特徴は図示していない。訓練画像200が変換されて変換画像210が形成される。変換画像210は訓練画像200のアスペクト比を保ったまま、倍率0.8(80%)で線形縮小したものである。SIFT特徴検出アルゴリズム適用の結果、変換画像210は786個のSIFT変換特徴(例えば変換特徴212及び214)を有すると判定された。図を見やすくするため、全ての変換特徴は図示していない。なお、786個の変換特徴の全てが、訓練特徴に対応するものではない。例えば、訓練画像200を縮小することで、いくつかの検出された訓練特徴(例えば訓練特徴204)に対応する変換特徴が変換画像210内に存在しなくなる。一方、訓練画像200を縮小することで、対応する訓練特徴を有さない変換特徴(例えば変換特徴214)が変換画像210内に存在する場合がある。例えば、変換画像210内において、786個の変換特徴うち、550個の変換特徴(例えば変換特徴212)が、訓練画像200の訓練特徴(たとえば訓練特徴202)と対応する。これら550個の変換特徴が、訓練画像200の縮小による摂動に対してロバストであるとみなされる。このように、訓練画像200内の訓練特徴の約48%(即ち、100×550/1149)がロバスト特徴と認められる。
0055
図2Bは、実施形態に係る、中テクスチャ訓練画像の幾何画像変換の例を示す。訓練画像220は、SIFT特徴検出アルゴリズム適用の結果、707個のSIFT訓練特徴(例えば訓練特徴222及び224)が含まれると判定された中テクスチャ訓練画像を示す。図を見やすくするため、全ての訓練特徴は図示していない。訓練画像220が変換されて変換画像230が形成される。変換画像230は訓練画像220のアスペクト比を保ったまま、倍率0.8(80%)で線形縮小したものである。SIFT特徴検出アルゴリズム適用の結果、変換画像230は複数の変換特徴(例えば特徴232及び234)を有すると判定された。図を見やすくするため、全ての変換特徴は図示していない。図2Aの場合と同様、変換特徴の全てが、訓練特徴に対応するものではない。例えば、訓練画像220を縮小することで、いくつかの検出された訓練特徴(例えば訓練特徴224)に対応する変換特徴が変換画像230内に存在しなくなる。一方、訓練画像220を縮小することで、対応する訓練特徴を有さない変換特徴(例えば変換特徴234)が変換画像230内に存在する場合がある。例えば、変換画像230内において、318個の変換特徴(例えば変換特徴232)が、訓練画像220の訓練特徴(たとえば訓練特徴222)と対応する。これら318個の変換特徴が、訓練画像220の縮小による摂動に対してロバストであるとみなされる。このように、訓練画像220内の訓練特徴の約45%がロバスト特徴と認められる。
0056
図2Cは、実施形態に係る、低テクスチャ訓練画像の幾何画像変換の例を示す。訓練画像240は、SIFT特徴検出アルゴリズム適用の結果、複数のSIFT訓練特徴(例えば訓練特徴242及び244)が含まれると判定された低テクスチャ訓練画像を示す。図を見やすくするため、全ての訓練特徴は図示していない。訓練画像240が変換されて変換画像250が形成される。変換画像250は訓練画像240のアスペクト比を保ったまま、倍率0.8(80%)で線形縮小したものである。SIFT特徴検出アルゴリズム適用の結果、変換画像250は複数のSIFT変換特徴(例えば変換特徴252及び254)を有すると判定された。図を見やすくするため、全ての変換特徴は図示していない。図2A、2Bの場合と同様、変換画像250内の変換特徴の全てが、訓練画像240内の訓練特徴に対応するものではない。例えば、訓練画像240を縮小することで、いくつかの検出された訓練特徴(例えば訓練特徴244)に対応する変換特徴が変換画像250内に存在しなくなる。一方、訓練画像240を縮小することで、対応する訓練特徴を有さない変換特徴(例えば変換特徴254)が変換画像250内に存在する場合がある。訓練画像240における、約53%の訓練特徴(例えば訓練特徴242)が、変換画像250内に対応する変換特徴(例えば変換特徴252)を有するため、ロバストであると認められる。
0057
このように、図2Aから2Cでは、80%の倍率変換の結果、50%程度の訓練特徴がロバスト特徴として残る。この比率は、ロバスト特徴のみを記憶するのであれば、訓練画像特徴の保存に必要な記憶スペースのサイズが50%低減されることを示す(即ち、画像認識データベースのサイズが50%低減)。更に、図2Aから2Cは、後述のようなロバスト特徴の生成は、テクスチャによってほぼ影響を受けることがないことを示す。
0058
図3は、実施形態に係る、訓練画像内のロバスト特徴を特定するシステムのブロック図を示す。ブロック図300において、ロバスト特徴を特定するための要素は、特徴検出部310と、撮像装置320と、持続ストレージ装置330と、メインメモリ装置340とを含む。ただし、図3の要素、そして当該各要素に関する各種機能は、理解しやすくすることのみを目的に例示されることが理解されよう。当業者には、各種要素に関する1つ以上の機能が、その他要素の1つ以上により実現されてもよく、更に/或いは当該各種機能の組合せを実現するように構成された要素(不図示)により実現されてもよいことが理解されよう。
0059
実施形態において、特徴検出部310は訓練画像350内のロバスト特徴を特定するよう構成される。いくつかの実施形態では、訓練画像350は典型的な写真、画像又はビデオフレームのような、物体302の二次元的(2D)表示を示す。或いは、訓練画像350は特殊なフィルタ又はレンズ(例えば魚眼レンズ)を利用して生成された歪んだ画像であってもよい。更に、訓練画像350は赤外線(IR)フィルタ、X線、360度画像等の1つ以上に基づく、物体の機械又はロボット視であってもよい。このように、訓練画像350は歪みのない画像、赤外線画像、X線画像、360度画像、機械視画像、ビデオデータのフレーム、グラフィック表示、三次元物体斜視像の1つであってもよく、撮像装置320のような撮像装置でビデオストリームのビデオフレームを取得することで得られてもよい。
0060
いくつかの実施形態において、撮像装置320は特徴検出部310の外部(図示)又は内部に設けられ、訓練物体302の画像を生成するか、その他方法で取得する装置であってもよい。例えば、撮像装置320は、通信ネットワークを介して特徴検出部310に接続された遠隔サーバ(例えばPlatform−as−a−Service(PaaS)サーバ、Infrastructure−as−a−Service(IaaS)サーバ、Software−as−a−Service(SaaS)サーバ、又はクラウド型サーバ)又は遠隔画像データベースを含んでもよい。別の例では、撮像装置320は画像及び/又はビデオデータのフレームを取得するように構成されたデジタルスチルカメラ又はビデオカメラを含んでもよい。また別の例では、撮像装置320はグラフィック描画エンジン(例えばゲーミングシステム、画像描画ソフトウェア等)を有してもよく、訓練画像が撮像画像ではなく物体の生成画像である。
0061
実施形態において、特徴検出部310は特徴検出アルゴリズムを訓練画像350に適用して訓練特徴352を生成するように構成される。各訓練特徴はその訓練特徴位置が訓練画像350内に存在する。例えば各訓練特徴位置は画素座標を含んでもよく、特徴検出アルゴリズムに応じた特徴記述子に記載されてもよい。特徴検出アルゴリズムは、scale−invariant feature transform(SIFT)、Fast Retina Keypoint(FREAK)、Histograms of Oriented Gradient(HOG)、Speeded Up Robust Features(SURF)、DAISY、Binary Robust Invariant Scalable Keypoints(BRISK)、FAST、Binary Robust Independent Elementary Features(BRIEF)、Harris Corners、Edges、Gradient Location and Orientation Histogram(GLOH)、Energy of image Gradient(EOG)、Transform Invariant Low−rank Textures(TILT)特徴検出アルゴリズムの内の少なくとも1つを含んでもよい。
0062
実施形態において、特徴検出部310は、所定の画像変換に応じて訓練画像350を少なくとも部分的に変換画像360に変換するように構成される。いくつかの実施形態では、特徴検出部310は所定の画像変換を選択するため、複数の画像変換をユーザに提示し、例えばユーザーインターフェース(不図示)を介したユーザの選択を受け付けるように構成されてもよい。いくつかの実施形態では、特徴検出部310は所定の画像変換が取得でき得るAPIを含むか、そのような外部APIを利用してもよい。所定の画像変換は、幾何変換(例えば、訓練画像を傾斜させる、切り取る、又は回転することを含む少なくとも1つの変換)及び/又は画像処理変換(例えば、ガウシアンフィルタ、カラー変換、又は非可逆圧縮を含む変換)の少なくとも1つを含んでもよい。いくつかの実施形態では、所定の画像変換は、例えば複数の幾何変換及び/又は画像処理変換を含む複合変換であってもよい。
0063
所定の画像変換は、幅広い特徴を含んでもよい。数学的観点からすると、所定の画像変換は2D画像(例えば画素情報の2D配列)を新たな変換画像空間(例えば、より高次の画像空間)に変換する行列演算を含んでもよい。画像変換の例としては、幾何変換、光源変換、圧縮変換(例えば、非可逆、可逆等)、カラー変換、ガウシアンフィルタ、又はその他種類の変換を含む画像処理変換が挙げられる。
0064
実施形態において、特徴検出部310は特徴検出アルゴリズムを変換画像360に適用することで変換特徴362を生成する。各変換特徴は変換特徴位置が変換画像内に存在する。例えば、各変換特徴位置は、変換画素座標を含んでもよく、特徴検出アルゴリズムに応じた特徴記述子により表現されてもよい。
0065
実施形態において、特徴検出部310はその後、所定の画像変換に応じて訓練特徴の訓練特徴位置を変換画像内の対応する訓練特徴変換位置にマップ354するよう構成される。そして、変換特徴空間内に、訓練特徴の想定位置を決定する。
0066
実施形態においては、特徴検出部310はその後、ロバスト特徴を選択してロバスト特徴群370をまとめる。各ロバスト特徴は、変換特徴の内の1つのものの変換特徴位置近傍に訓練特徴変換位置を有する訓練特徴を表す。例えば、ロバスト特徴群をまとめることは、訓練特徴変換位置から所定の閾値距離内の変換特徴位置を判定し、類似度に基づいて訓練特徴変換位置に関連した訓練特徴を変換特徴位置に関連した変換特徴と比較することを含む。類似度は、ユークリッド距離、ヘリンガー距離、ハミング距離の少なくとも1つに基づいてもよい。
0067
いくつかの実施形態では、特徴検出部310は更に、クエリ画像との比較用にロバスト特徴群370を記憶することで、画像物体認識検索をしやすくするように構成されてもよい。例えば、メインメモリ装置340に記憶されたクエリ画像特徴データを使用して、クエリ画像特徴データと、持続ストレージ装置330及び/又はメインメモリ装置340に記憶され得る複数の訓練画像のロバスト特徴群との間の画像物体認識検索を実施してもよい。いくつかの実施形態では、ロバスト特徴群を記憶することで、例えばk−dツリー、スピルツリー又はその他最近隣ランキング技術に基づくロバスト特徴と、クエリ画像特徴との最近隣検索をしやすくしてもよい。
0068
いくつかの実施形態では、特徴検出部310は、所定の画像変換の1つ以上の調整パラメータを調整して、第2ロバスト特徴群を当該調整済み調整パラメータに基づいて生成するよう、更に構成されてもよい。例えば、当該1つ以上の調整パラメータは、倍率、角度の少なくとも一方を含んでもよく、画像認識検索の1つ以上のテーマ特徴に基づいて自動的に調整されてもよい。いくつかの実施形態では、特徴検出部310は更に、画像テストライブラリに関連して当該調整済み調整パラメータが使用された際の認識効率に基づいて、当該調整済み調整パラメータを最適化するように更に構成されてもよい。例えば、当該調整済み調整パラメータは、訓練画像を含んでも、含まなくてもよい画像テストライブラリに基づいて検証されてもよい。
0069
図4は、実施形態に係る、訓練画像内のロバスト特徴を特定するための例示的動作を示すフローチャートである。方法400は、特徴検出部310のような、開示の特徴検出部としての役割又は機能を担うよう構成される又はプログラムされる1つ以上の演算装置により実行されることが理解されよう。例えば、特徴検出部は、各サーバが例えばSIFT式画像分析パッケージで構成される、コンピュータサーバファームを含んでもよい。したがって、いくつかの実施形態では、特徴検出部は方法400に応じた処理のために数百万もの訓練画像を取り込んでもよい。更に、特徴検出部は、方法400に応じてリアルタイムなどで、ビデオデータの画像フレームを取得するような撮像装置(例えば、ビデオカメラ又はゲームコンソール)を含んでもよい。
0070
ステップ402において、特徴検出アルゴリズムを訓練画像に適用することで訓練特徴が生成される。各訓練特徴は、訓練特徴位置が訓練画像内に存在する。いくつかの実施形態では、SIFT特徴検出アルゴリズムが利用される。但し、特徴検出アルゴリズムは更に、SURF、DAISY、FAST、Harris Corners、BRISK、TILT、又はその他既存の、更には今後発明されるであろう特徴検出アルゴリズムを含んでもよい。訓練特徴は、画素座標(例えば直交座標のx軸、y軸で表される座標)で表現され得る訓練特徴位置を訓練画像内に有する。更に、訓練特徴は画像が認識又はマッチされるような記述子を含んでもよい。例えば、SIFT特徴検出アルゴリズムの構成に合わせて、SIFT特徴は128次元ベクトル又は36次元ベクトルを含んでもよい。
0071
ステップ404において、所定の画像変換に応じて、訓練画像は少なくとも部分的に変換画像に変換される。例えば、変換画像は訓練画像から得られたコンピュータ生成画像であってもよい。そのため、必要であれば又は好ましいのであれば、同一のテーマについて複数の画像を撮影したり、撮影し直したりせずに、追加で変換画像を生成できる。いくつかの実施形態では、訓練画像全体を変換するのではなく、訓練画像の選択した部位、例えば選択又は決定された訓練特徴位置群周辺の部位を変換してもよい。
0072
ステップ406において、特徴検出アルゴリズムを変換画像に適用することで、変換特徴が生成される。ここで、各変換特徴は変換特徴位置を変換画像内に有する。例えば、特徴検出アルゴリズムは訓練画像の摂動による新たに観察される特徴を生成したり、訓練画像で観察されていたものと同一の特徴を生成したりしてもよいし、或いは訓練画像内のものと同様な特徴を生成できなかったりする。訓練特徴の場合と同様、各変換特徴は記述子と、変換画像内の変換特徴位置とを有する。変換特徴位置は、変換画像空間内の変換画素座標として数値化されてもよい。
0073
ステップ408において、所定の画像変換に応じて訓練特徴の訓練特徴位置は、変換画像内の対応する訓練特徴変換位置にマップされる。例えば、Tを変換とすると、(x'、y')=T・(x、y)として、訓練画像(x、y)の画素が(x'、y')に変換される。即ち、ステップ408では、変換により摂動後にも変換画像内に残存する元々存在した訓練特徴の場所が推定される。そして、特徴検出部は変換画像内の訓練特徴があると想定される位置のリストや、変換画像で検出された特徴のリストをまとめてもよい。
0074
ステップ410において、ロバスト特徴を選択することで、ロバスト特徴群がまとめられる。各ロバスト特徴は訓練特徴変換位置が変換特徴のうちの一つのものの変換特徴位置の近傍にある訓練特徴を示す。そして、特徴検出部は、訓練特徴と変換特徴とを対応付ける。訓練特徴と変換特徴との対応付けが構築された特徴がロバストと認められる。訓練特徴と変換特徴との対応付けは、各種方法で実現されてもよい。いくつかの実施形態では、対応付けは推定訓練特徴変換位置と変換特徴位置(例えばユークリッド距離等)との間の距離を測定することを含んでもよい。当該距離が閾値(例えば調整可能パラメータ)未満である場合、ロバスト特徴と認められる。更に、推定訓練特徴変換位置と変換特徴位置との間の距離は、類似度に基づくものであってもよい。例えば、近接訓練特徴と、変換特徴の記述子を例えば正規点乗積として比較してもよく、その場合点乗積が1に近いほど記述子が類似しているとされる。いくつかの実施形態では、類似度測定はハミング距離(例えば記述子ベクトルの各成分値の配置に基づく)、ユークリッド距離及び/又はヘリンガー距離を含んでもよい。
0075
ステップ416で、ロバスト特徴群を例えばコンピュータ可読媒体に記憶してもよい。例えば、ロバスト特徴群は、サーバに記憶され、遠距離(リモート)物体認識サービスに利用されてもよいし、携帯又はモバイル装置(例えばスマートフォン)で展開するようパッケージ化されてもよい。いくつかの実施形態では、ロバスト特徴群はツリー構造(例えばスピルツリー、k‐dツリー等)として記憶されてもよい。その場合ロバスト特徴記述子はツリー構造の葉ノードを含む。更に、ロバスト特徴群と共に、画像物体認識検索をしやすくするその他情報も記憶されてもよい。当該情報の例としては、該当記述子に関する情報、該当記述子が得られる画像部位、及び/又は重要画像フレームに関する情報が挙げられる。
0076
一実施形態において、ロバスト特徴群をまとめることは、二段階処理を含む。当該処理は、訓練特徴変換位置から所定の閾値距離内にある変換特徴位置を判定することと、類似度に基づいて訓練特徴変換位置に関連する訓練特徴と、変換特徴位置に関連する変換特徴とを比較することを含む。例えば、訓練特徴変換位置から所定の閾値距離内にある変換特徴位置を判定することは、変換特徴と変換訓練特徴の画素位置同士の閾値幾何学的距離に基づいてもよい。画素位置が所定の閾値距離内にあれば、訓練特徴の記述子と変換特徴の記述子は、ハミング距離、ユークリッド距離、及び/又はヘリンガー距離のような類似度に基づいて比較してもよい。
0077
任意のステップ412において、所定の画像変換の1つ以上の調整パラメータが調整され、任意のステップ414にて、当該調整済み調整パラメータに基づいて第2ロバスト特徴群が生成されてもよい。いくつかの実施形態では、当該1つ以上の調整パラメータは、倍率、角度の少なくとも一方を含んでもよく、画像認識検索のテーマ特徴の1つ以上に基づいて自動的に調整されもよい。例えば、線形縮小倍率は、訓練画像を縮小するべき割合を示す0から1の間の変数を含んでもよい。このように。1つ以上の調整パラメータを調整することは、認識性能レベルを保った状態で、望ましい認識データベースサイズのサイズダウンを可能とするパラメータ値を決定することを含む。更にいくつかの実施形態では、各テーマの種類(例えば玩具、コンシューマーグッズ、車両、衣料品、ゲーム、装置、人、建物等)、又は各特徴検出アルゴリズムは、それぞれ最適パラメータが異なっていてもよい。1つ以上の既知のテーマ特徴に基づく同一の画像変換についても同じである。
0078
いくつかの実施形態では、調整済み調整パラメータを、画像テストライブラリと関連して調整済み調整パラメータが使用された際の認識効率に基づき最適化してもよい。例えば、各種ロバスト特徴群は、どの調整パラメータが最適認識性能(例えば最小有効認識ライブラリ、ライブラリサイズ、認識効率、レイテンシ等)を提供するかを判定するために、画像テストライブラリに基づいてテストされてよい。いくつかの実施形態では、調整済み調整パラメータは訓練画像を含まない画像テストライブラリに基づいて検証されてもよい。
0079
図5は、実施形態に係る、最適変換パラメータ群を決定するための画像物体認識検索クエリ画像の一例を示す。本稿の実施形態では、近物体及び遠物体認識検索の両方に有効なロバスト特徴を特定する。遠物体認識は、対称物体がクエリ画像の視野内の小さい部位を示す場合に対応する。例えば、都市景観画像における1つの建物、部屋の監視カメラ/CCTVビデオフレームに移された1人の人物、組み立てライン品質管理カメラのビデオフレームの各ワークステーション、又は高速道路監視交通カメラのビデオフレームの車両交通が対象となる場合である。近物体認識は、対象物体又は多くの場合には対象物体の一部が、クエリ画像の視野範囲すべて又はほぼ全てを占める場合に対応する。この場合の対象物体の例としては、印刷ページの文書、監視カメラ/ATMのビデオモニタのCCTVビデオフレーム内の人物、又は医療診断或いは手術カメラシステムのビデオフレーム/画像が挙げられる。一例として、図5は遠物体認識に利用されるクエリ画像500,502,504,506の例と、近物体認識に利用されるクエリ画像508,510,512,514の例を示す高テクスチャ物体(図2A参照)の画像を示す。図示の通り、典型的な遠物体及び近物体認識クエリ画像は回転、傾斜、ぼかし、切り取り等の処理又はその任意の組合せが施されてもよい。更に、画像物体認識検索の既知のテーマに基づき、クエリ画像の予想画質が判断されてもよい(例えば、子供用玩具に関連した検索に関連すると知られるクエリ画像は、クエリ画像撮像装置を操作する子供の想定される技能に応じて切り取られたり、ぼかされたり、傾斜されたり等することが多い)。
0080
実施形態において、訓練画像に適用される所定の画像変換は、遠物体認識及び近物体認識に有用なロバスト特徴を生成するよう調整可能である。それにより、一連の分析画像が収集され、妥当な認識手法又は効率が得られるような変換用の最適パラメータが決定される。これら分析画像は、対象物体の撮像画像であり、遠シーケンス画像500,502,504,506及び近シーケンス画像508,510,512,514が該当する。高テクスチャ画像(図2A参照)分析用に、161枚の遠シーケンス画像(すべては図示しない)と、113枚の近シーケンス画像(すべては図示しない)が使用された。
0081
最適化のための最適化測定値(Y)は以下の通り定義される。
0082
式中、# of Useful Featuresは、本稿の実施形態において、所定の変換パラメータ群に対して決定されるロバスト特徴を示し、# of Training Featuresは、訓練画像から得られる特徴(例えばSIFT特徴)の数を示す。# of Test Imagesは、所定のシーケンス(例えば近シーケンス又は遠シーケンス画像)の画像の総数を示す。# of Recog.Test Imageは、一致した数を示す。
0083
Yの初項は、Yの値を低減する傾向にあることが理解される。これは、認識データベースのサイズダウンという観点からすると好ましい。Yの第2項は、常に1以上であるが、1の場合は全ての画像が認識されたことを示す。したがって、Yの値が低いと、より好ましい変換パラメータとなるよう、それら項のバランスをとることで、変換パラメータが有効な値の範囲となるようにする(例えば、特徴が0の場合、Yは0となり、有効ではない)。
0084
画像認識性能について、図2Aから2Cで得られたロバスト特徴群が、対応するテーマのテスト画像を300枚以上記憶するテストライブラリと比較される。認識性能(例えば、テスト画像数(Nt)をロバスト特徴の一致数(Mc)で除算した結果=100×Mc/Nt)は、それぞれの画像について、79%、76%、71%であった。それに対して、元の訓練画像を使用した場合は85%、82%、71%となった。最初の2画像については性能の低下は6%に抑えられた。実施形態において、性能は同一出願人の2013年12月12日に出願された、名称「画像認識検証」という米国仮出願第61/946650号に記載された、1つ以上の検証器を使用して向上可能である。例えば、典型的な認識技術(例えばSIFT特徴検出アルゴリズム(検証器不使用))で、661枚の画像をテストした。最初はデータベースが1,379,531個の特徴を記憶し、サイズが253.7MBであった。フィルタ無しのSIFT特徴検出アルゴリズムを使用した標準的技術により、81%の確率でファーストマッチを正しく特定できた。本稿の実施形態を利用すると、データベースは、80%の線倍率により特徴数654,828個、サイズが121.9MBまでサイズダウンされた。50%以上のサイズダウンである。検証器を認識ステップに組み込むことで、ファーストマッチのヒット数が79%となったが、認識性能としては些細な違いである。更に、検証器を利用しても、データベースサイズが低減しているため、画像マッチング処理におけるレイテンシも短縮された。
0085
図6Aは、実施形態に係る、高テクスチャ訓練画像についての、変換最適化結果を示すグラフである。図6Aにおいて、グラフ600は、最適化測定値Yが、図2Aに示す高テクスチャ訓練画像に対して適用される各種変換について決定されるテストの結果を示す。テストにおける高テクスチャ訓練画像は、1149個の訓練特徴を含んでいた。クエリ画像は161枚の遠シーケンス画像と、113枚の近シーケンス画像を含んでいた。データには、最適化測定値Yによると、各種変換の中で、遠シーケンス認識に対しては訓練画像を67%縮小することが最も好ましいものと示されているが、倍率0.8(即ち80%)の方が、近シーケンス画像及び遠シーケンス画像両方を考慮するとより好ましい設定である。これは、当該分野においては、消費者が遠くの画像よりも、アップのクエリ画像(例えばショッピング用検索のための製品のクエリ画像)を撮影することの方が多いと思われるためである。但し、用途によっては、遠シーケンスクエリ画像が求められることもあり、その場合はより遠シーケンス画像向きの倍率(例えば倍率0.67)が選択されてもよい。
0086
図6Bは、実施形態に係る、中テクスチャ訓練画像に対する変換最適化結果を示すグラフである。図6Bのグラフ610は、最適化測定値Yが、図2Bに示す中テクスチャ訓練画像に対して適用された各種変換について決定されたテストの結果を示す。ここでは、中テクスチャ訓練画像は707個の訓練特徴を含んでいた。クエリ画像は299枚の遠シーケンス画像と、307枚の近シーケンス画像を含んでいた。図示の通り、高テクスチャの場合と同様、テストされた遠シーケンス画像、近シーケンス画像の両方に対して最適な変換は、訓練画像の80%縮小であった。
0087
図6Cは、実施形態に係る、低テクスチャ訓練画像に対する変換最適化結果を示すグラフである。図6Cのグラフ620は、最適化測定値Yが、図6Cに示す低テクスチャ訓練画像に対して適用された同じ変換群について決定されたテストの結果を示す。低テクスチャ画像は186個の訓練特徴を含んでいた。テストにおいて、クエリ画像は221枚の遠シーケンス画像と、166枚の近シーケンス画像を含んでいた。上述の2つの場合と同様、遠シーケンス画像、近シーケンス画像の両方に対して最適な変換は、訓練画像の80%縮小であった。
0088
このように、例示的なテストによると、対応する認識データベースを大幅にサイズダウンした上での幅広い種類の物体(例えば高、中、低テクスチャ画像)に対する画像認識において、倍率0.8が有効であることが示された。
0089
したがって、本稿の実施形態は、1つ以上のウェブサーバで実現され得る大規模画像認識システムに関する、各種メモリフットプリントや精度についての問題の解決に有用で有り得る(例えば、四千万枚以上の文書画像データセットを含むような規模のシステムにおいて、毎秒5から10フレームという、画像認識検索回数の向上を実現する)。性能を損なわずにデータベースサイズが50%低減できるということは、対象市場において又は使用状況に応じて必要となった又は望ましい場合に、データベース内で認識可能な物体数を倍増できることでもあることが理解されよう。
0090
いくつかの実施形態では、ロバスト特徴群は自動的に特定されてもよい。例えば、特徴検出部310及び/又は撮像装置320は、例えば人物、ソーシャルメディアプロフィール等の画像を取り込むため、画像を求めてウェブサイト中を調べ回るウェブボットとして動作してもよい。更に、当該ボットは、都市景観、街並み、又は建物内の画像(例えばグーグル(登録商標)ストリートビューの画像)で動作して、対応する建物や場所の特徴を取り込んでもよい。いくつかの実施形態では、特徴検出部310及び/又は撮像装置320は、ウェブボットによる画像や動画の取得中にリアルタイムでロバスト特徴群を生成するよう構成され、又はその他種類の自動システムであってもよい。
0091
各種実施形態では、特徴検出部310及び/又は撮像装置320は、例えば市場基準のような対象基準に応じて複数の所定の画像変換から選択してもよい。例えば子供を対象とした玩具は、特徴が観察しにくいパステルカラーのプラスチックを含む場合がある。その場合、所定の画像変換はエッジ強調変換を含むように選択されてもよい(例えば、その他エッジ以外の特徴が特定しにくい場合に、得られるロバスト特徴群が、エッジ付近又はその他輪郭上の特徴を含み得るようにする物体のエッジ特性についての記述子を強調するような変換)。このように、所定の画像変換は、望ましい物体認識特性を強調するように選択されてもよい。更に、いくつかの実施形態では、選択された所定の画像変換は、特徴検出アルゴリズムに一致させなくともよい。例えば、所定の画像変換は、エッジ特徴(及びエッジ特徴記述子)を判定するように選択されて、変換画像に適用される特徴検出アルゴリズムはその他種類の特徴記述子(例えば、SIFT記述子)を生成するよう構成されてもよい。
0092
各種実施形態は、所定の画像変換に対して、ロバスト性を判定することで更に改善できる。例えば、ロバスト性は、距離又はその他距離以外の値に基づき測定されてもよい。いくつかの実施形態では、ロバスト性測定値は、例えば相対距離、信頼スコア、類似度等を示唆する複数の値を含んでもよい。更に、検出される各特徴は、例えば1つ以上の所定の画像変換に対するそのロバスト性測定値及び/又はスコアを示唆するタグを含んでもよい。例えば、ロバスト特徴は、スケーリング、傾斜、回転、又はその他変換についての1つ以上のロバスト性測定値を含んだりしてもよい。いくつかの実施形態では、ロバスト性測定値は、訓練画像のテーマ特徴(例えば玩具、医療、セキュリティ等)を反映したものであってもよい。これにより、異なる画像変換に対するロバスト性が示唆される。例えば、ロバスト性測定値は玩具の画像(例えば通常低テクスチャ多エッジ)が、異なる画像変換に応じてどのように異なる反応をするかを反映してもよい。そのロバスト性測定値を、画像認識検索中に利用してもよい。例えば、ロバスト特徴は、画像認識検索で使用され、ロバスト性測定値メタデータは画像認識検索の状況の分類に使用されてもよい(例えば、これによりロバスト特徴に対応し得る画像認識検索メタデータが生成される)。したがって、例えばスケーリング変換用ロバスト性測定値メタデータは、カメラから対象物体までの推定距離を判定するために使用されてもよい。
0093
各種実施形態は、静止画を含む印刷媒体のような印刷媒体に利用可能である。特徴検出部310及び/又は撮像装置320を統合して、印刷媒体生成用のグラフィックアプリケーションとしてもよい。例えば、グラフィックアーティストは、各種実施形態の内1つ以上に応じて動作するよう設計されたグラフィックアプリケーション(例えばアドビ(登録商標)、イラストレーター(登録商標))を使用して、広告用印刷媒体を作製してもよい。即ち、グラフィックアーティストがグラフィック表示(例えば広告用印刷媒体)を作製する際、グラフィックアプリケーションは描画用のロバスト特徴群の位置及び/又は描画に関連したロバスト特徴の分布を提示するインターフェースを提供してもよい。このように、当該アーティストは、例えばキャンペーン前に又はキャンペーン中にリアルタイムで描画用のロバスト特徴群についての要素をカスタマイズ可能となる。同様にゲームデザイナー、ロゴデザイナー、又はその他クリエイティブ職従事者は、特徴検出部310及び/又は撮像装置320を含むグラフィックアプリケーションを使用して、グラフィック表示(例えばゲーム又はロゴ中に描かれるグラフィック)を制作して、グラフィックアプリケーションは当該表示に関連したロバスト特徴群の位置及び/又は描画に関連したロバスト特徴の分布を提示するインターフェースを提供してもよい。
0094
各種実施形態は、フル3D物体に利用されてもよい。例えば、3D物体(例えばアクションフィギュア、車両等)は、視点によって異なる特徴を有し得る。3D物体の動画は、様々な視点から撮影され得る。当該動画のフレームは、その後訓練画像として扱われ、本開示の処理が施されてもよい。更に、メインメモリ、持続ストレージ装置、サーバ、ユーザーデバイスを含む大規模画像認識システムのインフラ全体は、各種実施形態により、画像認識クエリをより効率的に処理するようにできる。
0095
本稿記載のシステム、装置、方法は、デジタル回路、又は公知のコンピュータプロセッサ、メモリユニット、記憶装置、コンピュータソフトウェア、及びその他構成要素を利用した1つ以上のコンピュータにより実現されてもよい。通常、コンピュータは、指示を実行するプロセッサと、指示やデータを記憶する1つ以上のメモリを有する。コンピュータは更に、磁気ディスク、内蔵ハードディスク、リムーバブルディスク、光磁気ディスク、光ディスク等の内の1つ上のような、大容量記憶装置を1つ以上有するか、それに接続されてもよい。
0096
本稿記載のシステム、装置、方法は、クライアントサーバ構成で動作するコンピュータにより、実現可能である。通常、当該システムにおいて、クライアントコンピュータはサーバコンピュータに対し遠距離に設けられ、互いにネットワークを介してやり取りを行う。クライアントサーバ構成は、クライアント及びサーバコンピュータそれぞれで動作するコンピュータプログラムで定義、制御されてもよい。
0097
図7は、本稿記載のシステム、装置、方法を実現するための例示的なクライアントサーバ構成の上位ブロック図を示す。クライアントサーバ構成700は、サーバ720とネットワーク730を介して通信するクライアント710を有し、クライアント710とサーバ720との間に、想定され得る1つのロバスト特徴特定タスクがある場合を示す。例えば、上述の各種実施形態に応じて、クライアント710は、サーバ720と通信して、訓練画像に対するロバスト特徴群を受信したり、クエリ画像を受信したり、(SIFT)記述子によりクエリ画像の特徴を抽出/対応付けしたり、クエリ画像に基づいて画像物体認識検索をしやすくしたり、更に/或いは全クエリ画像データをサーバ720に送信したりするよう構成されてもよい。サーバ720は、特徴検出アルゴリズムを訓練画像に適用して訓練特徴を生成したり、所定の画像変換に応じて訓練画像を少なくとも部分的に変換画像に変換したり、特徴検出アルゴリズムを変換画像に適用して変換特徴を生成したり、所定の画像変換に応じて、訓練特徴の訓練特徴位置を、変換画像内の対応する訓練特徴変換位置にマップしたり、ロバスト特徴を選択してロバスト特徴群をまとめたりするよう構成されてもよい。いくつかの実施形態では、サーバ720は、クライアント710からクエリ画像データを受信したり、クエリ画像データと訓練画像のロバスト特徴群に基づいて画像物体認識検索を実施したり、検索結果をクライアント710に送信したりするように更に構成されてもよい。図7に示す例示的なクライアントサーバ構成が、本稿記載のシステム、装置、方法を実現するために採用可能な多くのクライアントサーバ構成の一つであることが、当業者には理解されよう。したがって、図7に示すクライアントサーバ構成は、あらゆる面で限定的と解されるべきではない。クライアント装置710の例としては、携帯電話、キオスク、PDA、タブレット、玩具、車両、ウェブカメラ、又はその他種類のコンピュータ装置が挙げられる。
0098
本稿記載のシステム、装置、方法は、例えば非一時的機械読取可能記憶装置のような情報媒体で実施され、プログラム可能プロセッサにより実行されるコンピュータプログラムプロダクトを使用して実現されてもよい。図4のステップを1つ以上含む本稿記載の方法ステップは、当該プロセッサにより実行可能な1つ以上のコンピュータプログラムを使用して実現されてもよい。コンピュータプログラムは、直接的、間接的にコンピュータ内で利用され所定の動作を実行したり、所定の結果を得たりしたりするために使用されるコンピュータプログラム指示群である。コンピュータプログラムは、コンパイラ言語、インタプリタ言語を含む、任意の形態のプログラム言語で記載されてもよく、任意の形態で展開されてもよい。即ち、スタンドアロンプログラム、モジュール、コンポーネント、サブルーチン、又はコンピュータ環境での使用に適したその他ユニットでとして展開可能である。
0099
図8は、本稿記載のシステム、装置、方法を実現するため使用され得る例示的装置の上位ブロック図を示す。装置800は、持続ストレージ装置820とメインメモリ装置830とに動作可能に接続されたプロセッサ810を有する。プロセッサ810は、装置800の動作全体を、当該動作を定義するコンピュータプログラム指示を実行して制御する。コンピュータプログラム指示は、持続ストレージ装置820又はその他コンピュータ可読媒体に記憶されて、その実行が求められた際に、メインメモリ装置830に展開されてもよい。例えば、特徴検出部310及び撮像装置320は、コンピュータ800のコンポーネントを1つ以上含んでもよい。したがって、図4の方法ステップは、メインメモリ装置830及び/又は持続ストレージ装置820に記憶されたコンピュータプログラム指示によって定義され、コンピュータプログラム指示を実行するプロセッサ810により制御される。例えば、コンピュータプログラム指示は、図4の方法ステップに定義されるアルゴリズムを実行するよう当業者にプログラム可能なコンピュータにより実行可能なコードとして実現できる。したがって、コンピュータプログラム指示を実行することで、プロセッサ810は図4の方法ステップに定義されるアルゴリズムを実行する。装置800は更に、その他装置とネットワークを介して通信するための1つ以上のネットワークインターフェース880を有する。装置800は更に、ユーザに装置800との相互作用を可能とする1つ以上のI/O装置890(例えばディスプレイ、キーボード、マウス、スピーカ、ボタン等)を有してもよい。
0100
プロセッサ810は汎用及び特殊マイクロプロセッサの両方を有してもよく、装置800の単一又は複数のプロセッサであってもよい。例えばプロセッサ810は、1つ以上の中央処理装置(CPU)を有してもよい。プロセッサ810、持続ストレージ装置820、及び/又はメインメモリ装置830は1つ以上の特定用途向け集積回路(ASIC)及び/又は1つ以上のフィールドプログラマブルゲートアレイ(FPGA)を含んでも、それにより補助されても、又はそれに内蔵されてもよい。
0101
持続ストレージ装置820及びメインメモリ装置830はそれぞれ、有形非一時的コンピュータ読取可能記憶媒体を含んでもよい。持続ストレージ装置820及びメインメモリ装置830はそれぞれ、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(DDR RAM)、又はその他ランダムアクセスソリッドステートメモリ装置のような高速ランダムアクセスメモリを含んでもよい。持続ストレージ装置820及びメインメモリ装置830は、内蔵ハードディスク又はリムーバブルディスクのような磁気ディスク記憶装置、光磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、消去可能プログラマブルリードオンリーメモリ(EPROM)、電気的消去可能プログラマブルROM(EEPROM)のような半導体メモリ装置、コンパクトディスクROM(CD−ROM)、デジタル多目的ディスクROM(DVD—ROM)ディスク、又はその他不揮発性ソリッドステート記憶装置の内の1つのような、不揮発性メモリを含んでもよい。
0102
I/O装置890は、プリンタ、スキャナ、ディスプレイ画面等の周辺機器を含んでもよい。例えば、I/O装置890は、ユーザに情報(例えば選択用の複数の画像変換)を提供するためのブラウン管(CRT)やプラズマ又は液晶表示(LCD)モニタのような表示装置や、ユーザが装置800に入力できるようにするキーボードや、マウス又はトラックボールのようなポインティングデバイスを含んでもよい。
0103
特徴検出部310及び撮像装置320を含む、本稿記載の一部又は全てのシステム及び装置は、装置800のような装置により実行されたり、更に/或いは当該装置に内蔵されたりしてもよい。
0104
当業者であれば、コンピュータ又はコンピュータシステムは、更にその他構造を有したり、その他構成要素を含んで実現されたりしてもよく、図8は当該コンピュータのいくつかの構成要素を例示的に示す上位表示であることが理解されよう。