図面 (/)

技術 画像署名をフィッシャーベクトルとマッチングするための適応型語彙

出願人 コンデュエントビジネスサービシーズエルエルシー
発明者 ウスマン・タリクホセ・アントニオ・ロドリゲス・セラーノフロラン・シー・ペロナン
出願日 2015年11月11日 (5年0ヶ月経過) 出願番号 2015-221043
公開日 2016年6月20日 (4年5ヶ月経過) 公開番号 2016-110635
状態 特許登録済
技術分野 閉回路テレビジョンシステム 交通制御システム イメージ分析
主要キーワード 実装コンポーネント 配列手法 現行速度 適応戦略 大域的最小値 類似測定 数値演算コプロセッサ 解釈コード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年6月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

画像マッチング撮像条件における差異の影響を削減するシステムおよび方法を提供する。

解決手段

局所的な記述子の普遍的な生成モデルを第1のカメラ16へ適用して、第1のカメラ依存の生成モデルを取得する。さらに、同じ普遍的な生成モデルが第2のカメラ18へ適用され、第2のカメラ依存の生成モデルを取得する。第1のカメラにより撮像された第1の画像から、第1の画像レベル記述子が、第1のカメラ依存の生成モデルを使用して抽出される。第2のカメラにより撮像された第2の画像から、第2の画像レベル記述子が、第2のカメラ依存の生成モデルを使用して抽出される。類似性が、第1の画像レベル記述子と第2の画像レベル記述子との間で計算される。情報が、計算された類似性に基づいて出力される。適応により、画像レベル記述子間の差異が許容され、画像条件ではなく、画像コンテンツにおける偏差の方にずらされる。

概要

背景

異なる位置の異なるカメラにより取得される画像における物体マッチングすることが望ましい事例が多くある。例えば、静止カメラまたはビデオカメラは、有料道路および橋の自動または半自動通行料金査定駐車施設自動監視速度制限または他の交通規制カメラベースの実施、カープール車線監視車道使用量調査など、において使用する画像を取得するために配置されてよい。用途に応じて、取得される車両画像は、車両全体の画像であってよく、または、後ろナンバープレートなど、車両の一部の画像であってよい。

概要

画像マッチング撮像条件における差異の影響を削減するシステムおよび方法を提供する。局所的な記述子の普遍的な生成モデルを第1のカメラ16へ適用して、第1のカメラ依存の生成モデルを取得する。さらに、同じ普遍的な生成モデルが第2のカメラ18へ適用され、第2のカメラ依存の生成モデルを取得する。第1のカメラにより撮像された第1の画像から、第1の画像レベル記述子が、第1のカメラ依存の生成モデルを使用して抽出される。第2のカメラにより撮像された第2の画像から、第2の画像レベル記述子が、第2のカメラ依存の生成モデルを使用して抽出される。類似性が、第1の画像レベル記述子と第2の画像レベル記述子との間で計算される。情報が、計算された類似性に基づいて出力される。適応により、画像レベル記述子間の差異が許容され、画像条件ではなく、画像コンテンツにおける偏差の方にずらされる。

目的

Jiang,J.による、「A literature survey on domain adaptation of statistical classifiers(統計分類器のドメイン適応に関する文献調査)」(Technical report pp.1−12(2008))、および、Beijbom,O.による、「Domain Adaptations for computer vision applications(コンピュータ視覚アプリケーションのためのドメイン適応)」(Technical report,arXiv:1211.4860v1[cs.CV]20 pp.1−9(Nov.2012))は、学習理論および自然言語処理アプリケーションおよびコンピュータ視覚アプリケーションに注目する調査を、提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

局所的な記述子の普遍的な生成モデルを提供すること、前記普遍的な生成モデルを第1のカメラに適用して、第1のカメラ依存の生成モデルを取得すること、前記普遍的な生成モデルを第2のカメラに適用して、第2のカメラ依存の生成モデルを生成すること、または、前記普遍的な生成モデルを前記第2のカメラ依存の生成モデルとして使用すること、前記第1のカメラにより撮像される第1の画像から、第1の画像レベル記述子を前記第1のカメラ依存の生成モデルを使用して抽出すること、前記第2のカメラにより撮像される第2の画像から、第2の画像レベル記述子を前記第2のカメラ依存の生成モデルを使用して抽出すること、前記第1の画像レベル記述子と前記第2の画像レベル記述子との間の類似性を計算すること、および、前記計算される類似性に基づく情報を出力することであって、前記普遍的な生成モデルを前記第1および第2のカメラに適用すること、前記第1および第2の画像レベル記述子を抽出すること、および、前記類似性を前記計算すること、のうちの少なくとも1つは、コンピュータプロセッサで行われる、出力すること、を備える、方法。

請求項2

前記普遍的な生成モデルはガウス混合モデルである、請求項1に記載の方法。

請求項3

前記第1および第2のカメラ依存の生成モデルはガウス混合モデルであり、各々が同じ数のガウス関数を前記普遍的な生成モデルとして備える、請求項2に記載の方法。

請求項4

前記普遍的な生成モデルを前記第1および第2のカメラへ前記適用することは、監視されない適応方法で行われる、請求項1に記載の方法。

請求項5

前記普遍的な生成モデルを前記第1および第2のカメラへ前記適用することは、前記普遍的な生成モデルのパラメータ最大事後確率MAP適応を備える、請求項4に記載の方法。

請求項6

前記普遍的な生成モデルを前記第1および第2のカメラへ前記適用することは、前記第1および第2のカメラにより撮像された画像から局所的な記述子を、前記普遍的な生成モデルを前記第1のカメラへ適用するために使用される、前記第1のカメラにより撮像された画像から前記局所的な記述子を、前記普遍的な生成モデルを前記第2のカメラへ適用するために使用される、前記第2のカメラにより撮像された前記画像から前記局所的な記述子を、抽出すること、を備える、請求項1に記載の方法。

請求項7

局所的な記述子の普遍的な生成モデルを保存するメモリ、および、前記普遍的な生成モデルを第1のカメラへ適用して第1のカメラ依存の生成モデルを取得し、前記普遍的な生成モデルを第2のカメラへ適用して第2のカメラ依存の生成モデルを取得する、適応コンポーネント、および、前記適応コンポーネントを実装するプロセッサ、を備える、システム

請求項8

第1の画像レベル記述子と第2の画像レベル記述子との間の類似性を計算するマッチングコンポーネントであって、前記第1の画像レベル記述子は、前記第1のカメラにより撮像された第1の画像から、前記第1のカメラ依存の生成モデルを使用して抽出され、前記第2の画像レベル記述子は、前記第2のカメラにより撮像された第2の画像から、前記第2のカメラ依存の生成モデルを使用して抽出される、マッチングコンポーネント、をさらに備える、請求項7に記載のシステム。

請求項9

第1の画像レベル記述子および第2の画像レベル記述子のうちの少なくとも1つを抽出する署名生成コンポーネントであって、前記第1の画像レベル記述子は、前記第1のカメラにより撮像された第1の画像から、前記第1のカメラ依存の生成モデルを使用して抽出され、前記第2の画像レベル記述子は、前記第2のカメラにより撮像された第2の画像から、前記第2のカメラ依存の生成モデルを使用して抽出される、署名生成コンポーネント、をさらに備える、請求項7に記載のシステム。

請求項10

訓練セットの画像から抽出される局所的な記述子を使用して生成される、普遍的な生成モデルを提供すること、コンピュータプロセッサで、前記普遍的な生成モデルを第1のカメラへ適用して、前記第1のカメラにより撮像される画像から抽出される局所的な記述子を使用して、第1のカメラ依存の生成モデルを取得すること、コンピュータプロセッサで、前記普遍的な生成モデルを第2のカメラへ適用して、前記第1のカメラにより撮像される画像から抽出される局所的な記述子を使用して、第2のカメラ依存の生成モデルを取得すること、提供することであって、前記第1のカメラ依存の生成モデルを使用する、第1の画像の画像レベル表現と、前記第1のカメラ依存の生成モデルを使用する、第1の画像の画像レベル表現と、のうちの少なくとも1つを計算するためのコンポーネントを提供すること、および、前記第1の画像レベル記述子と前記第2の画像レベル記述子との間の類似性を計算するためのコンポーネントを提供すること、を備える、物体再同定のためのシステムを生成する方法。

技術分野

0001

例示的な実施形態は画像処理に関し、画像における物体検出に関連して特定の用途を見出す

背景技術

0002

異なる位置の異なるカメラにより取得される画像における物体マッチングすることが望ましい事例が多くある。例えば、静止カメラまたはビデオカメラは、有料道路および橋の自動または半自動通行料金査定駐車施設自動監視速度制限または他の交通規制カメラベースの実施、カープール車線監視車道使用量調査など、において使用する画像を取得するために配置されてよい。用途に応じて、取得される車両画像は、車両全体の画像であってよく、または、後ろナンバープレートなど、車両の一部の画像であってよい。

発明が解決しようとする課題

0003

異なる画像における物体をマッチング(再同定と称される)する際の1つの問題は、撮像条件が異なる場合があることである。撮像条件の差異は、異なる角度で置かれたカメラ、背景の差異、例えば、撮影時刻または異なる天候条件などに起因する、照明条件、カメラの設定、カメラの解像度または他のカメラ特性、被写体ぶれの量、および後処理など、様々な理由に起因する可能性がある。一般的に、撮像条件の差異が大きい場合、物体認識または画像マッチングなど、コンピュータ映像タスクに影響を及ぼす可能性がある。1つの理由は、たとえ同じ特徴が両方の事例において抽出される場合であっても、撮像条件が特徴分布に大きな影響を与え得ることである。これは、ある条件のために訓練された分類器前提が、他の条件にも常に当てはまるとは限らないことを意味する。

0004

画像マッチングでは、撮像された画像の特徴ベース表現が生成されることが多い。例えば、画像または画像の一部を表現する1つの方法は、フィッシャーベクトル(FV)を伴う。この方法において、画像パッチ記述子発行元である、生成モデルガウス混合モデルGMM)など)が存在すると想定され、フィッシャーベクトルコンポーネントは、モデルの1つ以上のパラメータに対する記述子の対数尤度勾配である。したがって、訓練に使用される各パッチは重みのベクトルにより特徴づけられることができ、一連ガウス関数の各々に対する1つ(または、複数)の重みは、混合モデルを形成する。新しい画像を考えると、表現は、訓練されたGMMに対するパッチの特性に基づいて生成され得る(多くの場合、画像署名と称される)。

0005

典型的な運搬用途において、カメラは、例えば、様々な料金所など、様々な戦略上の位置に置かれ、各カメラは独立的に訓練された後、その場所にある(または、その場所を通過する)車両の表現を生成するために使用される。2つの表現が一致する場合、車両は同じであると推定され得る。しかしながら、異なるカメラで撮像された画像間の小さな差異さえ、性能に大きく影響し得る。

0006

ドメイン適応技術は、あるドメインからのデータを別のドメインでの使用に適応するために、開発されてきた。Jiang,J.による、「A literature survey on domain adaptation of statistical classifiers(統計分類器のドメイン適応に関する文献調査)」(Technical report pp.1−12(2008))、および、Beijbom,O.による、「Domain Adaptations for computer vision applications(コンピュータ視覚アプリケーションのためのドメイン適応)」(Technical report,arXiv:1211.4860v1[cs.CV]20 pp.1−9(Nov.2012))は、学習理論および自然言語処理アプリケーションおよびコンピュータ視覚アプリケーションに注目する調査を、提供する。一部の手法は、ドメインを近づけるために、特徴空間を変換することに注目している。一部の事例において、一般的にPCA投影に基づく、監視されない変換が使用される。以下を参照されたい:Gopalan,R.らによる、「Domain adaptation for object recognition: An unsupervised approach(物体認識のためのドメイン適応:監視されない手法)」(ICCV,pp.999−1006(2011));Gong,B.らによる、「Geodesic flow kernel for unsupervised domain adaptation(監視されないドメイン適応のための測地流カーネル)」(CVPR,pp.2066−2073(2012));および、Fernando,B.らによる、「Unsupervised visual domain adaptation using subspace alignment(サブ空間配列を使用する監視されない視覚ドメイン適応)」(ICCV,pp.2960−2967(2013))。他の技術において、(一般的に、ソースおよび対象ドメインの両方において)クラスラベルを利用する測定基準学習が、特徴空間の変換を学習するために使用され、それにより、この新しい空間において、同じクラスのインスタンスは、インスタンスが属するドメインとは独立して、他のクラスからのインスタンスより互いに近くなる。以下を参照されたい:Zha,Z.−J.らによる、「Robust distance metric learning with auxiliary knowledge(予備知識を用いるロバスト距離測定基準学習)」(IJCAI,pp.1327−1332(2009));Saenko,Kらによる、「Adapting visual category models to new domains(視覚カテゴリモデルの新しいドメインへの適応)」(ECCV,Vol.6314 of Lecture Notes in Computer Science,pp.213−226(2010));Kulis,B.らによる、「What you saw is not what you get: Domain adaptation using asymmetric kernel transforms(見たことと得ることは違う:非対称カーネル変換を使用するドメイン適応)」(CVPR,pp.1785−1792(2011));および、Hoffman,J.らによる、「Discovering latent domains for multisource domain adaptation(マルチソースドメイン適応のための潜在的なドメインの発見)」(ECCV,Vol.Part II,pp.702−715(2012))。

0007

これらの技術の多くは分類の問題を対象としており、したがって、クラスの概念がない再同定など、マッチングの問題に適用するには困難であり得る。他の技術は、多くの用途で実用的ではない、膨大な量の訓練データを必要とする。

課題を解決するための手段

0008

例示的な実施形態は、画像マッチングの撮像条件における差異の影響を削減する、フィッシャーベクトルなどの画像表現を生成する、システムおよび方法を提供する。

0009

例示的な実施形態の1つの態様によると、方法は、局所的な記述子の普遍的な生成モデルを提供すること、普遍的な生成モデルを第1のカメラに適用して、第1のカメラ依存の生成モデルを取得すること、を含む。さらに、普遍的な生成モデルは、第2のカメラに適用されて、第2のカメラ依存の生成モデルを取得する(または、普遍的な生成モデルは、第2のカメラ依存の生成モデルとして使用され得る)。第1のカメラにより撮像された第1の画像から、第1の画像レベル記述子が、第1のカメラ依存の生成モデルを使用して抽出される。第2のカメラにより撮像された第2の画像から、第2の画像レベル記述子が、第2のカメラ依存の生成モデルを使用して抽出される。類似性が、第1の画像レベル記述子と第2の画像レベル記述子との間で計算される。情報は、計算された類似性に基づいて出力される。

0010

普遍的な生成モデルを第1および第2のカメラに適用すること、第1および第2の画像レベル記述子を抽出すること、および、類似性を計算すること、のうちの少なくとも1つは、コンピュータプロセッサで行われてよい。

0011

例示的な実施形態の別の態様によると、システムは、局所的な記述子の普遍的な生成モデルを保存するメモリを含む。適応コンポーネントは、普遍的な生成モデルを第1のカメラに適用して第1のカメラ依存の生成モデルを取得し、普遍的な生成モデルを第2のカメラに適用して第2のカメラ依存の生成モデルを取得する。プロセッサは、適応コンポーネントを実装する。

0012

例示的な実施形態の別の態様によると、物体の再同定のためのシステムを生成する方法は、訓練セットの画像から抽出される局所的な記述子を使用して生成される、普遍的な生成モデルを提供することを含む。普遍的な生成モデルは第1のカメラに適用され、第1のカメラ依存の生成モデルを、第1のカメラにより撮像された画像から抽出される局所的な記述子を使用して取得する。普遍的な生成モデルは第2のカメラに適用され、第2のカメラ依存の生成モデルを、第1のカメラにより撮像される画像から抽出される局所的な記述子を使用して取得する。コンポーネントは、第1のカメラ依存の生成モデルを使用する第1の画像の画像レベル表現、および、第1のカメラ依存の生成モデルを使用する第1の画像の画像レベル表現、のうちの少なくとも1つを計算するために提供される。コンポーネントは、第1の画像レベル記述子と第2の画像レベル記述子との間の類似性を計算するために提供される。

0013

適応は、コンピュータプロセッサで行われてよい。

図面の簡単な説明

0014

図1は、例示的な実施形態の1つの態様による、物体の再同定のためのシステムの機能ブロック図である。
図2Aは、例示的な実施形態の別の態様による、物体の再同定のための方法を図示するフローチャートである。
図2Bは、例示的な実施形態の別の態様による、物体の再同定のための方法を図示するフローチャートである。
図3は、適用型GMMの生成をグラフ化して図示する。
図4は、適応前の各車線からの特徴xi全体で均等化されたプロットp(k|xi)である。
図5は、適応後の各車線からの特徴xi全体で均等化されたプロットp(k|xi)である。

実施例

0015

例示的な実施形態は物体マッチングに関し、物体の再同定を特に参照して記載される。例示的な実施形態の態様において、物体の再同定のためのシステムおよび方法が記載される。システムおよび方法は、例えば、2つの画像が、同じ車、同じ自転車、同じ飛行機などの画像であるか(例えば、同じ車両が施設の入口および出口で観察されるか)など、2つの画像が同じ物体インスタンスを包含するか判定するために、使用され得る。2つの画像をマッチングするために、表現が、画像の画素を代表する局所的な記述子に基づいて、抽出される。例として、各表現は、画像全体の代表または物体(例えば、ナンバープレート)を含むと予想される画像の対象領域(ROI)の代表である、1つ以上のフィッシャーベクトルを含んでよい。その後、2つのフィッシャーベクトル間の類似性測定基準が計算される。フィッシャーベクトルは、生成モデルに対する偏差を符号化する。その後、類似性測定基準の閾値が、2つの画像が同じ物体インスタンスのものであるか決定するために使用されてよい。

0016

例示的な実施形態の他の態様において、物体の再同定システムを生成するシステムおよび方法が、記載される。

0017

上述したように、撮像条件が物体の2つの画像の撮像で異なる場合、同じ物体インスタンスを包含するにも関わらず、抽出されたフィッシャーベクトルは類似しない可能性がある。例示的な実施形態において、普遍的な生成モデルは先天的に学習される。撮像条件のずれは、対応するモデルのずれの形式で反映される。このずれを無効にするために、生成モデルのパラメータが、(例えば、2つのカメラからの)2つの撮像条件の各々で撮像された画像を使用する、監視されない手法に適用される。結果として、各々が「適応型視覚語彙」を伴う、2つのカメラ特有の生成モデルが取得される。その後、フィッシャーベクトルの形式で符号化された、これらのモデルからの偏差は、撮像条件ではなく、画像コンテンツにおける偏差の方にずらされる。

0018

図1を参照すると、物体の再同定のためのシステム10が示されている。システム10は、テスト画像12,14をカメラ16,18から受信し、画像12,14を処理して、これらの画像が同じ物体を含むか判定する。

0019

本明細書に使用される「物体」という用語は、車両、ナンバープレート、他の製造品建物などの無生物物体(または、無生物物体の群)、または、人物または人物の群、または、動物または動物の群などの生物物体(または、生物物体の群)を指す。特に、「物体」という用語は、システムにより使用されるカメラ16,18により撮像され得る物理的な物体を指す。

0020

例示的な実施形態において、物体は、モータ付き車両などの車両、または、車両の登録番号を含む、車両の識別子を含む車両のナンバープレートである。しかしながら、人物と指紋および/または眼球スキャン配送荷物と追跡または宛先情報など、他の移動物体と識別子も考慮されることに、留意されたい。車両の同定は、例えば、駐車場の入口および出口、または、道路の異なる地点など、複数の位置および/または異なる時間で行われることが望ましい場合がある。簡易化するために、互いに距離Zだけ離れた2つの位置XおよびYが考慮されるが、XおよびYは、同じ位置か、または、近い位置であってよいことに、留意されたい。

0021

1つの例示的な実施形態において、目的は、XおよびYでの車両の同一性間の一致を見出し、2つの同一性間の一致が確立された場合、XおよびYで撮像された情報に依存する一定の条件が適合するか判定することである。条件が適合する場合、ナンバープレート認識など、特定の動作が引き起こされる。

0022

本明細書において使用される「カメラ」という用語は、対象物体の画像を取得することが可能な撮像デバイスを指す。一部の限定されない例として、ガメラは、以下であってよい:人間の視覚により観察されるものと類似のカラーまたはモノクロ画像を取得することが可能な、写真フィルムまたはデジタル撮像アレイ(例えば、選択的にカラーフィルタを伴うCCDアレイ)を含む、従来のカメラ;または、X線ソース連動して動作し、X線投影画像を生成する、X線高感度撮像アレイを含む、X線スキャナ;または、コンピュータ断層撮影スキャナ;または、夜間または低光量画像を取得するために使用される種類の赤外線カメラ;または、文書ページ画像を生成するよう動作する、文書スキャナなど。カメラは、例えば、物体上または物体中に存在し得る蛍光染料により放射される波長複数可)に敏感であるよう、波長選択フィルタを含む、特定の物体ラベリングタスク特化されることが考慮される。一般的に、カメラは、静止カメラ(すなわち、単一の静止画像を取得する)、または、ビデオカメラ(すなわち、通常は「フレーム」と称される時系列の画像を取得し、本明細書において、画像前処理は、対象の物体を最適に撮像するビデオバーストのフレームを選択することを必要としてよい)であってよい。コンピュータ断層撮影スキャナなど、一部の種類のカメラにおいて、カメラにより物体から取得されたデータは、画像を生成するために画像復元処理が行われてよい。

0023

図1に図示されるシステム10は、図2を参照して記載される方法を行うための命令22を保存するメモリ20、および、命令を実行するためのメモリと通信するプロセッサデバイス24を含む。1つ以上のネットワークインタフェース26,28が、画像12,14(または、画像から抽出された特徴)をカメラ16,18から受信し、それらに基づく情報30を出力するために、提供される。システムのハードウェアコンポーネント20,24,26,28は、データ/制御バス32を介して通信する。一般的な訓練画像のセット34は、例えば、システムメモリ20における、または、システムと通信可能に接続される関連メモリにおける、データベース38に保存されてよい。訓練画像34は、カメラ16,18のいずれか1つに特有のものではないが、カメラにより撮像される代表的な種類の画像であってよい。

0024

簡潔には、命令22は、特徴抽出コンポーネント40、訓練コンポーネント42、適応コンポーネント44、署名生成コンポーネント46、マッチングコンポーネント48、選択的に、プロセス実装コンポーネント50、および情報出力コンポーネント52を含む。

0025

特徴抽出コンポーネント40は、画像12,14および訓練画像34など、画像から局所的な特徴を抽出して、局所的な記述子54,56を生成する。留意されるように、訓練画像34、および、カメラにより取得された画像12,14は、クロッピングされてよく、あるいは、そうでない場合は、局所的な記述子を抽出する前に、前処理されてよい。

0026

訓練コンポーネント42は、局所的な記述子の普遍的な生成モデル60を、一般的な訓練画像のセット34から生成された局所的な記述子を訓練データとして使用して、訓練する。訓練画像34は、1つの実施形態において、カメラ16,18を含んでよい、カメラのセットから取得された可能性がある。したがって、訓練データ34は、視覚コンテンツにおいて、カメラ16,18により取得される画像と類似してよい。生成モデル60は、普遍的な背景モデル(UBM)と称される。UBM60は、ガウス関数のセットのパラメータを含む、ガウス混合モデル(GMM)であってよい。

0027

適応コンポーネント44は、生成モデル60を各カメラ16,18に適用して、例示的な実施形態がGMMである、各々のカメラ特有モデル62,64を取得する。UBM60を適用するために、カメラ16,18の各々(または、撮像位置に特有のカメラ)により撮像された、ラベル化されない訓練サンプル66,68の各々のセットから抽出される局所的な記述子が、生成モデル60を適用するために使用され、各々の位置での異なる撮像条件を適合させる。留意されるように、2つのカメラ16,18が図示される一方で、任意の数のカメラが、各々のカメラ依存モデル62,64で提供されてよい。

0028

第1のテスト画像12から抽出される局所的な記述子54および第1のカメラ16の生成モデル62を考慮すると、署名生成コンポーネント46は、SIXで示される、第1の画像レベル記述子(画像署名)70を抽出する。第2のテスト画像14から抽出される局所的な記述子56および第2のカメラ18の生成モデル64を考慮すると、(個別の署名生成コンポーネントであり得る)署名生成コンポーネント46は、SIYで示される、第2の画像レベル記述子72を抽出する。画像レベル記述子70,72は、各々が柔軟なバグオブビジュアルワードまたはフィッシャーベクトルであってよい。

0029

マッチングコンポーネント48は、例えば、SIXとSIYとの間のコサイン距離など、類似性を計算することにより、異なる画像から計算される画像署名70,72間の整合性を計算する。整合性が閾値に少なくとも適合する場合、2つの画像(または、画像内に撮像された物体)は、一致すると推測されてよく、すなわち、同じ物体であると推測されてよい。

0030

プロセス実装コンポーネント50は、マッチングコンポーネントの出力に基づいて、プロセスを実施してよい。例えば、車両の画像の事例において、車両が一致すると、ナンバープレート情報が画像の一方または両方から抽出されてよい。これは、閾値を超える車両の速度が計算された場合など、さらなる条件が適合することを条件としてよい。これは、各々の画像12,14の撮像と関連付けられる、タイムスタンプなどの情報MX,MY74,76に基づいて、計算されてよい。

0031

情報出力コンポーネント52は、情報30を、例えば、遠隔コンピュータプリンタ表示デバイス(例えば、コンピュータスクリーン)、または、遠隔メモリ保存デバイス、または、それらの組み合わせなど、出力デバイス80へ、マッチングコンポーネントまたは他の情報による推論に基づいて、プロセス実装コンポーネント50により計算される情報に基づいて、出力する。

0032

システム10は、入力/出力インタフェース28を介して、LCDスクリーンまたはコンピュータモニタなど、情報をユーザへ表示するための表示デバイス、および、テキストを入力し、プロセッサ24へのユーザ入力情報および命令の選択を通信するための、キーボードまたはタッチまたは書き込み可能スクリーンなど、ユーザ入力デバイス、および/または、マウストラックボールなど、カーソル制御デバイス、のうちの1つ以上と通信してよい。表示デバイスおよびユーザ入力デバイスは、クライアント計算デバイス80の一部として図示されるが、他の実施形態において、システムを管理するコンピュータ82と直接的に結合されてよい。

0033

システム10は、デスクトップなどのPC、ラップトップパームトップコンピュータ携帯情報端末(PDA)、サーバコンピュータセルラー電話タブレットコンピュータポケットベル、それらの組み合わせ、または、例示的な方法を行うための命令を実行することが可能な他の計算デバイスなど、1つ以上の計算デバイス82に常駐してよい。留意されるように、システム10の部品は、2つ以上の計算デバイスに分散されてよい。例えば、画像12,14の局所的な記述子は、各々のカメラ16,18のコンポーネント84,86を処理することにより計算され、計算デバイス82にアクセス可能なデータベース38に保存されてよい。

0034

メモリ20は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気ディスクまたはテープ光ディスクフラッシュメモリ、またはホログラムメモリなど、任意の種類の持続性コンピュータ可読媒体を表してよい。1つの実施形態において、メモリ20は、ランダムアクセスメモリと読み出し専用メモリとの組み合わせを備える。一部の実施形態において、プロセッサ24およびメモリ20は、単一チップ統合されてよい。

0035

ネットワークインタフェース26,28は、コンピュータ82が、他のデバイスと、ローカルエリアネットワーク(LAN)または広域ネットワークWAN)などのコンピュータ網、または、インターネットなど、有線または無線リンクを介して通信することを許容し、変調器復調器(MODEM)、ルータケーブル、および/またはイーサネット(登録商標ポートを備えてよい。

0036

デジタルプロセッサ24は、例えば、シングルコアプロセッサデュアルコアプロセッサ(または、より一般的には、多重コアプロセッサ)、デジタルプロセッサおよび協調数値演算コプロセッサデジタルコントローラなどにより、様々に具現化され得る。デジタルプロセッサ24は、コンピュータ82の動作を制御することに加えて、図2で概要を述べた方法を行うためのメモリ20に保存された命令を実行する。

0037

一部の実施形態において、システム10は、単に、例えば、適応コンポーネント44を包含する、再同定システムの部品を生成するためのシステムとして使用され得る一方で、他のコンポーネントは省略されてよい。他の実施形態において、システム10は、既に適用されたカメラ依存の生成モデル62,64を利用するために使用され得る一方で、訓練および適応コンポーネント42,44などの他のコンポーネントは省略されてよい。

0038

本明細書において使用される「ソフトウェア」という用語は、コンピュータまたは他のデジタルシステムにより実行可能な命令の任意の集合またはセットを網羅し、それにより、コンピュータまたは他のデジタルシステムを、ソフトウェアの意図するタスクを行うよう構成することを意図する。本明細書において使用される「ソフトウェア」という用語は、RAM、ハードディスク、光ディスクなどの保存媒体に保存される、そのような命令を網羅することを意図しており、さらに、ROMなどに保存されるソフトウェアである、いわゆるファームウェアを網羅することを意図する。そのようなソフトウェアは、様々な手法で体系化されてよく、ライブラリ遠隔サーバなどに保存されたインターネットベースプログラムソースコード解釈コードオブジェクトコード、直接的に実行可能なコードなどとして体系化される、ソフトウェアコンポーネントを含んでよい。ソフトウェアはシステムレベルのコードを起動してよく、または、サーバまたは他の位置に常駐する他のソフトウェアを呼び出して特定の機能を行うことが、予期される。

0039

図2は、図1のシステムで行われてよい、物体再同定のための方法を図示する。最初に図2Aを参照すると、方法はS100で開始される。

0040

S102で、局所的な記述子の普遍的な生成モデルUBM60が提供される。これは、UBM60を訓練コンポーネント42で訓練することを含んでよい。UBM60は、K個のガウス関数のセット(ガウス分布または混合とも称される)のパラメータを含む。一部の実施形態において、普遍的な生成モデルUBM60は、事前に訓練されてよく、単にシステム10にアクセス可能なメモリ20に保存されてよい。

0041

S104で、普遍的な生成モデル60は第1のカメラ16に適用され、第1のカメラ依存の生成モデル62を取得する。これは、第1のカメラ16により撮像された訓練画像66の第1のセットから抽出される記述子を使用して(すなわち、第1のカメラにより撮像された、第2のカメラによる撮像ではない、画像からの記述子のみを使用して)行われる。第1のカメラ依存の生成モデル62は、UBM60のパラメータを適用することにより、訓練画像66の第1のセットから抽出された記述子を使用して生成される、K個のガウス分布のセットのためのパラメータを含む。

0042

S106で、普遍的な生成モデル60は第2のカメラ18に適用され、第2のカメラ依存の生成モデル64を取得する。これは、第2のカメラ18により撮像された訓練画像68の第2のセットから抽出される記述子を使用して(すなわち、第2のカメラにより撮像された、第1のカメラによる撮像ではない、画像からの記述子のみを使用して)行われる。第2のカメラ依存の生成モデル64は、UBM60のパラメータを適用することにより、訓練画像68の第2のセットから抽出された記述子を使用して生成される、K個のガウス分布のセットのためのパラメータを含む。したがって、GMM62および64は、同じ数のガウス関数のためのパラメータをUBM60として含む。別の実施形態において、普遍的な生成モデルは、第2のカメラ依存の生成モデルとして使用される(したがって、当該のカメラにより撮像された画像から、単独に、または、主に、取得される記述子で生成されてよい)。

0043

S108で、局所的な記述子54は、第1のカメラ16により撮像される第1のテスト画像12から抽出される。

0044

S110で、局所的な記述子56は、第2のカメラ18により撮像される第2のテスト画像14から抽出される。

0045

S112で、第1の画像レベル記述子70は、第1の画像の局所的な記述子54および第1のカメラ16の適応型生成モデルucΘx62に基づいて生成される。

0046

S114で、第2の画像レベル記述子72は、第2の画像の局所的な記述子56および第2のカメラ18の適応型生成モデルucΘy64に基づいて生成される。

0047

S116で、第1および第2の画像レベル記述子70,72が比較される。図2Bへと続き、S118で、署名間の類似性が、閾値と合致する場合(および/または、比較されている画像のセットの最も高い類似性である場合)、S120で、一致が確認される。

0048

S122で、プロセスは、一致の判定に基づいて実施されてよい。

0049

S124で、一致があるか否か、または、一致が見られる場合、他の情報が計算されてよいか否か(または、別の実施形態において、一致が見られない場合、情報が計算されてよいか否か)など、情報30が出力される。

0050

本方法は、S126で終了し、または、カメラのうちの1つにより撮像される新しいテスト画像(単数または複数)を処理するために、S108および/またはS110へ戻ってよい。

0051

留意されるように、適応ステップが行われると、本方法はS108で開始され得る。代替的に、本方法は、S106から、本方法の後続のステップを行うためのコンポーネントの提供へ進み得る。

0052

本方法は、図3においてグラフを使用して図示される。特に、各カメラ依存の混合モデルは、UBMの元のガウス分布(楕円により示される)の少なくとも一部を、わずかに移動することにより(平均適応により)、および/または、縮尺することにより(分散適応により)形成され、カメラ特有の記述子(星印により示される)を反映することが、確認され得る。カメラ依存の混合モデルの適応型ガウス分布は、同じ一般的な視覚クラスを、UBMにおけるものとして表し(元のガウス分布と重なって図示される)、したがって、画像レベル表現において比較可能である。

0053

図2および図3において図示される方法は、コンピュータ上で実行されてよい、コンピュータプログラム製品に実装されてよい。コンピュータプログラム製品は、ディスクハードドライブなど、制御プログラムが記録(保存)される持続性コンピュータ可読記録媒体を備えてよい。持続性コンピュータ可読媒体の共通の形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、または、任意の他の磁気保存媒体、CD−ROM、DVD、または、任意の他の光媒体、RAM、PROMEPROMFLASH−EPROM、または、他のメモリチップまたはカートリッジ、または、コンピュータが読み込みおよび使用し得る任意の他の持続性媒体、を含む。コンピュータプログラム製品は、コンピュータ82と統合されてよく(例えば、RAMの内部ハードドライブ)、または、別個であってよく(例えば、コンピュータ82と動作可能に接続される外部ハードドライブ)、または、別個であり、ローカルエリアネットワーク(LAN)またはインターネットなど、デジタルデータ網を介して(例えば、低価格独立ディスク冗長アレイ(RAID)、または、コンピュータ82によりデジタル網を介して間接的にアクセスされる、他のネットワークサーバストレージとして)、アクセスされてよい。

0054

代替的に、本方法は、制御プログラムが、電波および赤外線データ通信中に生成されるような、音波または光波などの伝送媒体を使用して、データ信号として具現化される、伝送可能な搬送波など、一時的な媒体において実装されてよい。

0055

例示的な方法は、1つ以上の汎用コンピュータ特定用途コンピュータ(複数可)、プログラム化されたマイクロプロセッサまたはマイクロコントローラおよび周辺用集積回路素子ASICまたは他の集積回路デジタル信号プロセッサ、個別素子回路などの配線接続された電子機器または論理回路PLD、PDA、FPGA、グラフィカルカードCPU(GPU)、またはPALなどのプログラム可能論理デバイスなど、に実装されてよい。一般的に、有限状態機器を実装できる任意のデバイス、すなわち、図2に示されるフローチャートを実装できる任意のデバイスは、物体再同定のための方法を実施するために使用され得る。留意されるように、本方法のステップが全てコンピュータ実装であってよい一方で、一部の実施形態において、1つ以上のステップが、少なくとも部分的に手動で行われてよい。

0056

システムおよび方法の追加的な詳細が、ここで説明される。

0057

画像の撮像
撮像された画像12,14(IXおよびIY)および訓練画像34,66,68は、システム10により、JPEG、GIF、JBIG、BMP、TIFFなど、任意の好都合ファイル形式で、または、画像に使用される他の共通ファイル形式であって、処理の前に選択的に別の適切な形式へ変換されてよい形式で、受信されてよい。入力画像は、処理中、データメモリに保存されてよい。画像は、写真など個別の画像であってよく、または、ビデオ画像などの連続する画像から抽出される画像であってよい。一般的に、各入力デジタル画像は、画像を形成する画素配列のための画像データを含む。画像データは、グレースケール値などの着色剤値を、L*a*b*またはRGBなどの色分離のセットごとに含んでよく、または、異なる色が表され得る別の他の色空間において表現されてよい。一般的に、「グレースケール」は、任意の単一色チャネルであるが、表現される(L*a*b*、RGB、YCbCrなど)、光学的な濃度値を指す。本方法は、白黒モノクロ)画像および多色画像に適している。「色」という単語は、色彩彩度、および明度などの絶対的色値、および、色彩、彩度、および明度の違いなどの相対的色値を含むが、それらに限定されない、特定される場合がある色の任意の態様を指すために、使用される。一部の実施形態において、色は、近赤外線(NIR)領域など、約800nm〜2500nmである、電磁スペクトル非可視領域を指し得る。

0058

所与の位置X,Yでの画像の撮像は、任意の適切な手法で始動されてよい。1つの実施形態において、ループセンサは、例えば、地中など、局所的に配置されてよく、車両の存在を検出し、撮影フラッシュの可能性もある)を始動させる。1つの実施形態において、カメラ16,18は、画像の配列を備えるビデオを撮影し、移動検出アルゴリズムまたは物体検出アルゴリズム(または、両方の組み合わせ)が適用され、画像配列の車両の存在を検出し、それに応じて配列から1つの画像を選択する。車両検出技術は既知であり、例えば、米国特許第4,433,325号、第5,083,200号、第5,592,567号、第5,809,161号、第5,995,900号、第6,996,255号、および、米国公開番号第20140270381号および第20140063263号に開示されている。画像は、フルカラー、モノクロ、NIR(近赤外線)、または、それらの組み合わせにおいて、撮像され得る。

0059

一部の実施形態において、同じ画像撮像デバイスが、両方の画像IXおよびIYを、例えば、駐車場において、例えば、カメラを回転/移動することにより撮像するために、使用され得る。

0060

関連メタデータ74,76は、所定の条件が適合されたか判定できるよう、十分な情報を含んでよい。1つ以上のタイムスタンプ、車両の現行速度GPS位置支払い情報天候情報など、1つ以上の異なる種類の情報が取得されてよい。

0061

局所的な記述子の抽出(S108,S110)
局所的な記述子は、訓練およびテスト画像34,66,68,12,14から、同じ手法で抽出される。例えば、選択的にクロッピングされた画像のパッチのセットが、例えば、密に、1つまたは多重尺度格子状に抽出される。パッチは、画像分割により、特定の対象点検出器を適用することにより、正規の格子を考慮することにより、または、単に画像パッチの無作為サンプリングにより、取得され得る。例示的な実施形態において、パッチは、正規の格子上に、選択的に多重尺度で、クロッピングされた画像全体で、または、画像の少なくとも一部または大部分で、抽出される。例えば、少なくとも10個、または少なくとも20個、または少なくとも50個のパッチが、各クロッピングされた画像から抽出される。各パッチは、少なくとも40個、または少なくとも100個の画素を備えてよく、最大で1,000,000個以上の画素を備えてよい。

0062

各パッチに対して、形状、色、および/または勾配(SIFT)特徴など、低レベルの特徴が抽出される(D.Loweによる、「Distinctive image features from scale−invariant keypoints(尺度不変性キーポイントからの特有の画像特徴)」(IJCV,2004)を参照されたい)。パッチに対して抽出された低レベルの特徴の表現である、ベクトルまたはヒストグラムなど、パッチ記述子が生成される。全てのパッチの記述子に基づいて、画像の画像署名全体が生成される。特に、統計値がこれらのパッチ記述子で計算され、その後、統計値は統合される。

0063

例として、局所的な記述子は、SIFT記述子として、パッチごとに勾配特徴を含む。SIFT特徴を適用する1つの実例的な例において、局所的な記述子は、5つの尺度で正規の格子(16画素ごと)の32×32画素パッチから、抽出される。これらの記述子の次元は、例えば、主成分分析(PCA)を介して、128次元から32次元に削減され得る。抽出され得る他の適切な局所的な記述子は、パッチが4×4のサブ領域に、さらに分割される、単一の96次元色特徴を含み、各サブ領域において、平均および標準偏差が、3つのチャネル(R、G、およびB)に対して計算される。これらは単に実例的な例にすぎず、追加的および/または他の特徴が使用され得る。

0064

画像署名の抽出(S112,S114)
各画像レベルの記述子または「画像署名」70,72などは、D次元空間の(選択的にクロッピングされた)画像の固定長ベクトル表現である。1つの実施形態において、画像レベル記述子は、フィッシャーベクトル(FV)に基づく。例えば、以下を参照されたい:PerronninおよびDanceによる、「Fisher kernels on visual vocabularies for image categorization(画像カテゴリ化のための視覚語彙のフィッシャーカーネル)」(CVPR,2007);Perronninらによる、「Improving the Fisher kernel for large−scale image classification(大規模画像分類のためのフィッシャーカーネルの向上)」(ECCV,143−156(2010));Sanchezらによる、「High−dimensional signature compression for large−scale image classification(大規模な画像分類のための高次元署名圧縮)」(CVPR 2011);2012年3月29日に発行された、Jorge Sanchezらによる、米国公開番号第20120076401号「IMAGE CLASSIICATIONEMPLOYING IMAGEVECTORS COMPRESSED USING VECTOR QUANTIZATION(ベクトル量子化を使用して圧縮される画像ベクトルを利用する画像分類)」;および、2012年2月23日に発行された、Florent Perronninらによる、米国公開番号第20120045134号「LARGSCALEIMAGE CLASSIFICATION(大規模な画像分類)」。フィッシャーベクトルは、画像分類、画像検索、物体検出、および、人物再同定を含む、様々な用途において良好な結果を見せた。したがって、フィッシャーベクトルを向上させ得る任意の改善は、多くの用途に大きな影響を与えるであろう。以下にフィッシャーベクトル抽出が記載され、続いて適応技術が記載される。

0065

フィッシャーベクトルは、ナンバープレート処理において確認された、光度および幾何変動性の範囲でロバスト性を示す。簡単に言えば、フィッシャーベクトルは、局所的なパッチ記述子を固定長表現に統合することにより機能する。上述したように、SIFTおよび/または他の局所的な記述子は、正規の格子の多重尺度で抽出されたパッチから抽出され、それらの次元は、選択的に、主成分分析(PCA)を使用して削減される。以下に記載されるように、全ての局所的な記述子が発行されると推測される、予測されるカメラ特有のガウス混合モデル(GMM)を考慮すると、パッチのセットは、重みのベクトルにより特徴づけられ、パラメータごとに、混合モデルを形成する(例えば、少なくとも5個または10個の)ガウス関数のセットの各々に対して1つの重みである。

0066

目下の事例において、X={x1,x2,…,xN}は、画像パッチから抽出されたN個の多次元特徴ベクトル(局所的な記述子)のセットであると仮定する。uΘを、そのような特徴ベクトルをもたらす生成モデルの確率濃度関数とし、ここで、Θは確率濃度関数のパラメータを表す。その後、フィッシャーベクトルが以下の式により与えられる:

0067

0068

ここで、LΘは、uΘのフィッシャー情報行列逆数平方根である。

0069

0070

は、uΘに対するデータサンプル(パッチ記述子)xiの対数尤度である。したがって、その勾配(▽Θ)を計算することで、生成モデルuΘのパラメータが、Xのデータサンプルに適合するために修正されるべき度合いの測定値が与えられる。Sanchez2013を参照されたい。勾配は、平均、分散、および/または重みなど、GMMの1つ以上のパラメータに対して計算され得る。

0071

普遍的な生成モデル(S102)
例示的な方法において、普遍的な生成モデルuΘ60は、パラメータΘ={πk,μk,Σk,k=1,…,K}を伴う、Kコンポーネントガウス混合モデル(GMM)である。ここで、πk、μkおよびΣkは、それぞれ重み、平均ベクトルであり、k番目のガウス分布の共分散行列である。利便性のため、以下とする:

0072

0073

したがって、任意の特徴ベクトルxiに対して、以下が成り立つ:

0074

0075

ここで、以下が成り立つ:

0076

0077

pは、特徴ベクトルxiの次元である。GMM60は、訓練画像34から抽出された局所的な記述子を使用して先天的に学習され、普遍的な背景モデル(UBM(音声処理の慣例に従う:例えば、Douglas A.Reynoldsらによる、「Speaker verification using adapted Gaussian mixture models(適応型ガウス混合モデルを使用する発話者検証)」(Digital Signal Processing,10(13):19−41(2000))を参照されたい)と称される場合がある。

0078

Sanchez2013におけるような、一部の前提の下でLΘを計算し、対角線の共分散行列Σkを考慮した後、GMMの異なるパラメータの各々に対して(方程式(1)から生じる)方程式が、推定され得る。しかしながら、平均のみを使用してフィッシャーベクトルを導くと、マッチングの用途において良好な性能を与えることが分かっている。したがって、平均Σkに対する勾配に対して、以下が成り立つ:

0079

0080

ここで、以下が成り立つ:

0081

0082

ここで、σkは、k番目のガウス分布に対する、対角線の共分散行列の対角線エントリであり、除算は要素関連動作暗示する。さらに、

0083

0084

は、xiでのk番目のガウス分布に対するpdfの値である。

0085

0086

は、p×1ベクトルであることに、留意されたい。最終的なフィッシャーベクトルは、混合モデルにおけるK個のガウス関数の全てに対する勾配

0087

0088

の連鎖である。したがって、これはKp−dimベクトルである。その後、これはサイン平方根およびl2正規化されてよい。Sanchez2013を参照されたい。

0089

カメラ16,18は、異なる撮像条件を有していると仮定する。撮像条件のバランスを取るための1つの手法は、独立して最初から各カメラに対するGMMを学習することであり得る。しかしながら、これにより、異なるGMMからの異なるガウス分布が一致するわけではない。したがって、カメラ全体でフィッシャーベクトルを比較することは、フィッシャーベクトルが全てのガウス分布sに対する勾配統計値の連鎖として構築されるため、困難になり得る。目下の方法において、UBM60のモデルパラメータは、異なるカメラからの画像に適用され、カメラ特有のGMM62,64をもたらす。その後、これらのカメラ特有のGMM62,64がフィッシャーベクトルを計算するために使用される際、特定の画像に特有である偏差を主に符号化し、撮像条件の差異は符号化しない。

0090

留意されるように、さらに、バグオブワードの画像レベル記述子が、ガウス混合モデルにより生成され、したがって、さらに、本方法はこれらの画像レベル記述子に適用可能である。例えば、バグオブワードの画像レベル記述子のより完全な記述に関して、Csurkaらによる、「Visual Categorization with Bags of Key−points(キーポイントのバグを伴う視覚カテゴリ化)」(ECCV Workshop on Statistical Learning for Computer Vision(2004))、2008年3月20日に発行された、Florent Perronninによる、米国公開番号第20080069456号「BAGS OF VISUAL CONTEXT−DEPENDENT WORDS FOR GENERIC VISUALCATEGORIZATION(生成視覚カテゴリ化のための視覚的な文脈依存語のバグ)」、および、2012年2月23日に発行された、Florent Perronninらによる、米国公開番号第20120045134号「LARGESCALEIMAGE CLASSIFICATION(大規模な画像分類)」を参照されたい。

0091

生成モデルの適用化(S104,S106)
例示的な画像レベル記述子70,72は、テスト画像12,14から同様の手法で抽出される、フィッシャーベクトルである。しかしながら、フィッシャーベクトルを生成するために使用される生成モデル62および64は、異なる。

0092

さらに、適応の必要性を説明するために、方程式(5)を考慮すると、平均ベクトルに対するフィッシャーベクトルの勾配は、以下となる:

0093

0094

ここで、以下が成り立つ:

0095

0096

0097

および

0098

0099

は、それぞれ、Xからのデータサンプルが与えられる、k番目のガウスコンポーネントの平均ベクトルおよび混合重み予測値である。したがって、方程式(7)は、フィッシャーベクトルを、予測された平均ベクトル

0100

0101

と各々のUBMガウス平均ベクトル(μk)との間の差異の関数として、規定する。

0102

ガウス分布kのサポートΩkは、Ωk={x:k=argmaxip(i|x)}として規定される。したがって、撮像条件の変化が各ガウス分布kのサポート全体で区分的に一定のずれδkによりモデル化され得る場合、破損されたUBM平均μkおよび画像特有の平均

0103

0104

は、μk+δkおよび

0105

0106

となる(ハード割当てを前提として、p(i|x)が二値であると推定され、これは高次元入力ベクトルxに妥当であることを意味する)。しかしながら、方程式(7)におけるδkの取消の影響は、UBM適応戦略正当化する。

0107

様々な適応方法が考慮される。これらの方法は、最大帰納的MAP)適応、例えば最尤線形回帰(MLLR)など、線形変換体系に関する適応技術、例えば音声認識方法から適用される、例えば固有声など、発話者クラスタリング体系に関する技術を含む(Douglas A.Reynoldsらによる、「Speaker verification using adapted Gaussian mixture models(適応型ガウス混合モデルを使用する発話者検証)」(Digital Signal Processing,10(13):19−41(2000))(以降、Reynoldsら)を参照されたい)。選択は、利用可能な適応データの量および意図される用途に依存してよい。1つの例示的なMAP適応が、使用されてよい。

0108

MAP適応
例示的な適応プロセスは、完全に監視されない:カメラ16または18と関連付けられる画像のセットを考慮すると、これらの画像(例えば、ラベル)の内容に関する情報は、UBM60を適用してカメラ特有のモデル62,64を生成するのに必要でない。

0109

MAP適応において、カメラ特有のモデル

0110

0111

は、UBMuΘにおける好適に訓練されたパラメータを更新することにより、各々のカメラcで撮影された画像66または68から抽出される局所的な記述子を使用して、もたらされる。適応は、2つのステップの期待最大化(EM)反復プロセスにおいて行われ得る(例えば、EMの考察に関して、Jeff A.Bilmesらによる、「A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and Hidden Markov models(ガウス混合および隠れマルコフモデルのためのパラメータ予測に対するEMアルゴリズムおよびその応用の指導書)」(Intern’l Computer Science Institute,4(510),p.126(1998)を参照されたい)。第1のステップにおいて、カメラcからの特徴の十分な統計値の予測は、UBMにおける各ガウス分布に対して計算される(確率的カウント、第1および第2の瞬間)。その後、これらは、UBMガウス分布からの古い十分な統計値と組み合わされる。この組み合わせは、データ依存混合係数を介して行われる。この係数は、より大きな重みを、適応データからの高度な確率的カウントを有するガウス分布に対する新しい十分な統計値に加える。

0112

以下において、「最適化」「最小化」という用語および類似の表現は、当業者がこれらの用語を理解するのと同様に、幅広解釈される。例えば、これらの用語は、絶対的な大域的最適値、絶対的な大域的最小値などへ、限定されるものとして解釈されない。例えば、関数の最小化は、絶対的な最小値に到達する前に、停止基準で終了する反復最小化アルゴリズムを適用してよい。さらに、最適値または最小値は、局所的な最適値または局所的な最小値であることが予期される。

0113

0114

は、カメラcからの訓練画像66または68の重複または非重複パッチから抽出される、Nc個の特徴ベクトル(局所的な記述子)のセットであると仮定する。各ガウス分布kおよび特徴ベクトルxiに対して、確率p(k|xi)は、最初の予測ステップにおいて方程式(6)から計算される。その後、p(k|xi)およびxiは、方程式8〜10にしたがって、各ガウス分布kおよび第1および第2の瞬間の確率的カウントを計算するために使用される(Reynoldsらを参照されたい):

0115

0116

nkは、どれくらい多くの点xiがガウス分布に割り当てられるかを表す、ガウス分布kに関する予測による。mkは、ガウス分布kに割り当てられる全ての点の平均を表す、1次オーダーの統計的な予測である。skは、ガウス分布kにおける全ての点の統計的な分散を表す、2次オーダーの統計的な予測である。2番目に、最大化ステップにおいて、その後、これらの統計値は、各ガウス分布kに対するUBMパラメータを以下の方程式を使用して更新するために、使用される:
混合重みに対して:

0117

0118

平均ベクトルに対して:

0119

共分散行列に対して:

0120

0121

その後、上記の2つのステップのプロセスが、更新されたUBMパラメータを伴って数回にわたり、例えば、I回の反復を伴って、または、収束するまで、または、一部の他の停止基準が満たされるまで、繰り返される。方程式11のαがガウス分布全体で再計算され、

0122

0123

が確実に成り立つようにする。各パラメータρ∈{π,μ,σ}に対する適応パラメータ

0124

は、以下の式により与えられる:

0125

0126

ここで、rは、新しい統計値と古い統計値との間の適応のレベルを制御する、設計パラメータであり、相互検証により確立され得る。rが固定されると、新しい統計値は、適応データに対して高い確率的カウントnKを有する、これらのガウス分布において、より強調される。実際には、同じ適応パラメータは、全てのガウス分布の全てのパラメータに対して使用され得る。すなわち、

0127

0128

である。留意されるように、1つまたは2つの例示的なパラメータπ,μ,σなど、3つに満たないパラメータが考慮されてよく、各フィッシャーベクトルに対する重み(次元値)を生成するために、更新および/または使用される。

0129

クロッピングされた画像に関する空間情報を含めるために、画像は、少なくとも3つの領域など、領域に、領域レベルで統合されるパッチごとの統計値に、および、その後、画像表現を形成するために連結される領域レベル表現に、区分化され得る。例えば、S.Lazebnikらによる、「Beyond bags of features: Spatial pyramid matching for recognizingnatural scene categories(多くの特徴を超えて:自然シーンカテゴリを認識するための空間ピラミッドマッチング)」(CVPR ’06 Proc.2006IEEE Computer Society Conf. on Computer Vision and Pattern Recognition − Volume 2, Pages 2169−2178)を参照されたい。

0130

例示的な画像署名は、固定された次元Dのものである。すなわち、各画像表現は、考慮されるガウス分布の数およびパラメータの数の関数である、同じ数の要素を有する。例えば、32個のガウス分布の視覚語彙は、GMM60,62,64において使用され、パラメータのうちの2つが考慮される。結果的に、32×2=64次元のFV表現が生じる。

0131

FV表現の使用は、ナンバープレートのナンバーを目立たなくする際のナンバープレートマッチングにおいて、他の利点を有する。元の画像が再構築され得ないので、ナンバープレートのナンバーは認識されず、したがって、画像署名から元の画像(または、ナンバープレートのナンバー)を復元する実現可能な手法がないため、元の画像のハッシュキーと見なされ得る。これは、個々のパッチの正体が、統合プロセスにおいて失われるからである。結果として、ナンバープレートのナンバーのプライバシー(または、画像の他のプライベート情報)を、情報を使用する必要性が確立されるまで、(例えば、画像に撮像された車両の速度が閾値速度を超えていることを確立することにより)保持する。

0132

画像署名の比較(S116,S118)
一部の実施形態において、位置Xの画像署名はデータベース38に保存され、その後、これらの保存された署名の中での最も近い一致の検索が、位置Yで以降に取得される各画像署名に対して網羅的な手法で行われる。データベース38が多数の画像を含有する場合、網羅的な検索は時間がかかる場合がある。この事例において、近接した検索技術が適用されてよい。高次元ベクトルの近接した検索のための技術は、例えば、Jegouらによる、「Aggregating local image descriptors into compact codes(局所的な画像記述子コンパクト符号への統合)」(IEEETPMI,34(9)1704−1716(2002))に開示される。最も近い一致の正体が割り当てられ、少なくとも所定の閾値に適合する類似性が提供される。

0133

フィッシャーベクトルはフィッシャーカーネルの明確な埋め込みであるので、2つのこのような画像記述子SIXおよびSIY間の対応するコサイン類似測定値は、ドット積SIXTSIYである。

0134

1つの実施形態において、画像署名(例えば、FV)は、取得される投影を適用することにより、例えば、画像署名を、類似性が(識別子を形成する文字の配列に関する)実際の類似性の良好な指標である、ベクトル空間内に埋め込むための測定基準を学習することにより、さらに特徴的になされ得る。例として、低いランクのマハラノビス測定基準が利用されてよい。例えば、Rodriguez−Serranoらによる、「Data−Driven Vehicle Identification by Image Matching(画像マッチングによるデータ駆動型の車両同定)」(12th European Conf. on Computer Vision (ECCV) Workshops, October 7−13,2012, Lecture Notes in Computer Science, vol.7584,pp.536−545)を参照されたい。さらに、例示的な埋め込み技術の説明に関して、米国発行番号第20140056520号および第20140219563号、および、米国出願番号第13/903,218号を参照されたい。

0135

プロセス実施(S122)
S122で使用されてよい、ナンバープレート認識方法は、例えば、米国発行番号第20130129151号、第20130129152号、第20130182909号、第20130259314号、第20140056520号、第20140270381号、および第20140219563号、および、米国出願番号第13/903,218号、および、J−A Rodriguez−Serranoらによる、「Data−Driven Vehicle Identification by Image Matching(画像マッチングによるデータ駆動型の車両同定)」(12th European Conf. on Computer Vision (ECCV) Workshops, October 7−13,2012, Lecture Notes in Computer Science, vol.7584,pp.536−545)に開示される。1つの実施形態において、Xerox License Plate Recognition(XLPR)ソフトウェアが利用される。留意されるように、ナンバープレートのナンバーおよびナンバープレートの画像は、単なる例にすぎず、例示的な実施形態を図示するために使用される。他の実施形態において、多数のASCII、UNICODE、および/またはUTF−8文字が、アルファベットとして使用されてよい。

0136

情報処理コンポーネント50により起動される動作は、アプリケーションの種類に依存してよい。ナンバープレートの事例において、引き起こされる動作は、同定される各々のナンバープレートのナンバーと関連付けられてよい(例えば、違反者の告訴、駐車場オペレータの警告、駐車場の金の送信など)。駐車場の事例において、第1および第2の画像が一致する場合(および、選択的に、2つの画像の撮像間に有料継続時間超過していない場合)、駐車場のが自動的に開く。

0137

本明細書に開示される実例的な実施形態は、カメラベースの車両ラベリングタスクに向けられる一方で、類似の難点が、複数の静止またはビデオカメラがラベル化される物体の画像を取得するために使用される(または、同じカメラが異なる時間間隔全体および/または異なる位置で画像を取得するために使用される)、他のカメラベースの物体ラベリングタスクに生じることに、留意されたい。例えば、小売りまたは広告の設定において、カメラベースの顧客ラベリングを、性別年齢などで、対象となる広告を提供するために、適用するのに有用であってよい。この事例において、ラベル化される物体は、人物(または、顔などの一部分)である。イベント出席者監視システムにおいて、画像は、画像に示される人数でラベル化されてよい。さらに、物体は、動物または実例的な車両などの非生物物体であってよい。対象の非生物物体のカメラベースのラベリングに関する、さらなる例として、小売りの製造ラインにおいて、製造商品は、不具合を監視できる撮像技術に基づいて特定の不具合の有無でラベル化されてよい。セキュリティスキャナの事例において、カメラは、X線撮像機器または他の専用撮像デバイスであってよく、物体ラベリングは、銃器ナイフ液体など、懸念される非生物物体の同定を試みる。これらは、単に実例的な例である。さらに、適用型混合モデルは、分類での使用法を見つけ得る(異なるカメラからの画像が、訓練画像34から抽出された画像レベル記述子および各々のラベルで訓練されている場合がある、同じ分類器で分類され得る)。

0138

例示的な実施形態の範囲を限定する意図はなく、以下の例は、ナンバープレートマッチングへの方法の適用可能性を図示する。

0139


本方法が、車両ナンバープレートマッチング/再同定の問題に利用された。カメラは、駐車場の様々な入口−出口車線に配置される。目的は、駐車場にある車両のナンバープレートが、この車両が区画に入った時に撮像されたナンバープレートの画像と一致することである。しかしながら、両方の事例における撮像条件は、大幅に異なる場合がある。異なる撮像条件は、異なる配置、異なるカメラ品質、異なる照明条件などを含んでよい。このシナリオは、UBMの適応に関する良好な候補であり、マッチングに役立つよう、フィッシャーベクトル計算の前にカメラ特有(車線特有)のGMMを学習する。

0140

データセット
異なる街における2つの実際の駐車施設から生じる2つの施設内データセットは、AおよびBで示される。両方のデータセットは、ナンバープレート領域を抽出して、50個の画素の高さを正規化することにより、前処理される。データセットAは、11個の車線/カメラからの13,006個の画像(6503個の入口−出口の組)を有する。種々の入口−出口統計値の分散により、11個のうちの5個は入口車線であり、残りは出口車線である。データセットBでは、2つの車線からの9,629個の画像が使用された。

0141

実験セットアップ
特徴および局所的な記述子は、画像からの重複するパッチから抽出された。各データセットは、3つの部分に分割される。第1の部分は、局所的な記述子およびUBM予測の次元的削減のためのPCAモデルを学習するために使用され、第2の部分は、UBM適応のために使用され、第3の部分はテストのために使用される。テスト中、既存のナンバープレートは、入ってくるナンバープレートとマッチングされ、結果は正しくマッチングされた組の割合として報告される。

0142

1つのテストにおいて、データセットAの第1の部分のUBMを全ての車線/カメラからの画像で学習した後、UBMは、データセットAの異なる車線/カメラの各々に適用されて、第2の部分における各々の車線からの画像を使用してカメラ特有のGMMを生成する。その後、第3の部分の画像および適応型GMMは、マッチングとして使用されるフィッシャーベクトルを計算するために使用される。

0143

別のテストにおいて、データセットBからの画像の第1の部分は、UBMを学習するために使用される。その後、このUBMは、続いてデータセットAの第3の部分をテストする、データセットAの第2の部分を使用して適応される。これは、UBMが、同じデータセット/駐車場からではない画像で学習される場合、シナリオを再現する。

0144

適応型GMMと一致する画像の結果は、2つの基準値と比較される。

0145

1.適応なしのシステム(「非適応」)。

0146

2.平均および標準偏差調整後のシステム(「平均−標準偏差調整」):各カメラで、訓練サンプル(第2の部分)の平均および標準偏差が計算され、それにしたがって、テストベクトル標準化された。平均調整は、VLAD画像記述子のために提案された、ドメイン適応手法である。VLAD画像記述子の説明に関して、Relja Arandjelovicらによる、「All about VLAD(VLADの全て)」(Proc.2013IEEE Conf. on Computer Vision and Pattern Recognition(CVPR’13),pp.1578−1585(2013))を参照されたい。VLAD画像記述子は、フィッシャーベクトルと近接に関連するが、フィッシャーベクトルの確率的解釈を有さない。平均および標準偏差調整は、平均調整手法の自然な流れである。これは、高次元ベクトルに対処する際に、より実用的である、Basura Fernandoらによる、「Unsupervised visual domain adaptation using subspace alignment(サブ空間配列を使用する監視されない視覚ドメイン適応)」(ICCV,pp.2960−2967(2013))のサブ空間配列手法の対角近似として理解され得ることに、留意されたい。

0147

UBM適応には様々な選択肢がある。例えば、全てのUBMパラメータが適用されるか、または、適用されるパラメータが選択される。これらの例において、平均および分散の両方が適用される。重み適応は、追加的な影響をほとんど有さないことが分かった。

0148

結果
表1〜表4は、GMMにおける異なる数のガウス分布(Nmix)を使用して、MAP適応あり(MAP Adapt.)、MAP適応なし(No Adapt.)、および、平均および標準偏差調整あり(Mean−Std. Adj.)の結果を示す。表1および表2は、平均ベクトルが適用される場合にのみ結果をもたらし、一方で表3および表4は、平均ベクトルおよび共分散行列の両方が適用される場合の結果をもたらす。「Inc.」は、適応なし全体でのMAP適応ありの性能向上を示す。

0149

表1:データセットAで学習後、平均ベクトル適応を行い、データセットAでテストしたUBMの結果

0150

0151

表2:データセットBで学習後、平均ベクトル適応を行い、データセットAでテストしたUBMの結果

0152

0153

表3:データセットAで学習後、平均ベクトルおよび共分散行列適応を行い、データセットAでテストしたUBMの結果

0154

0155

表4:データセットBで学習後、平均ベクトルおよび共分散行列適応を行い、データセットAでテストしたUBMの結果

0156

0157

MAP適応が全ての事例において性能向上をもたらしていることが、表1〜表4から確認でき、一方で平均および標準偏差調整は、適応なしの基準値全体で性能が低下することを示している。MAP適応による性能向上は、適応なし全体で、これらの実験において2.16%と同等であり得る。

0158

適応の評価
適応を評価するために、UBM/GMMにおける異なるガウス分布に対する特徴の割り当ての内部機構が、評価される。例として、データセットBで32個のガウス分布により学習されたUBMが使用された。その後、データセットAからの適応データが取得された。データセットAからのデータは、11個の車線からの画像を包含する。その後、各車線からの画像は、車線/カメラ依存のGMMを学習するために使用される。その後、p(k|xi)が、UBMおよび各車線/カメラ依存のGMMのガウス分布kに対する特徴xiから、方程式(6)を介して計算される。

0159

適応データセットにおける特定の車線からの特徴xi全体で平均化された、p(k|xi)とkとの対比のプロットが、UBM(図4)および車線/カメラ依存のGMM(図5)に対して取得された。図4から、同じUBMが使用される場合、異なる車線からの画像全体へ相当に広まることが確認され得る。一部の車線で、一部のガウス分布は高いp(k|xi)を有し、一方で一部の他の車線で、著しく低くなる場合がある。これは、UBMは特徴を表し得るが、表現は異なる車線/カメラに対して異なってよい。このずれを無効にするために、適応および図5において使用される車線/カメラ特有のGMMは、大幅に削減される広がりをもたらす。これは、これらの車線/カメラ特有のGMMがフィッシャーベクトル計算に使用される際、フィッシャーベクトルが、問題になっている特定の物体に起因し、撮像条件に起因しない、偏差を符号化し得ることを示す。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • アースアイズ株式会社の「 監視装置、監視システム、及び、監視方法」が 公開されました。( 2020/09/24)

    【課題】2次元画像を用いた監視装置において、監視対象とした「人」が行う監視対象とした「物」に対する不定形な一般的動作を抽出して、監視対象とした「人」が、監視対象とした「物」に対して不審度の高い所定の行... 詳細

  • 本田技研工業株式会社の「 サーバ」が 公開されました。( 2020/09/24)

    【課題】車両の利用者が、該利用者の生活圏外の人であって前記利用者の属性に類似した属性を持つ地域人(地元民)が利用したPOI情報をリコメンドとして受けることができるサーバを提供する。【解決手段】サーバ1... 詳細

  • アツミ電氣株式会社の「 駐車場管理システムおよび駐車場管理システムの制御方法」が 公開されました。( 2020/09/24)

    【課題】 出庫制限手段の管理の手間やコストを抑えることができる駐車場管理システムおよび駐車場管理システムの制御方法を提供することにある。【解決手段】 制御手段は、車両センサからの車両検知情報に基づ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ