図面 (/)

技術 画像処理方法および装置並びにプログラム

出願人 富士フイルム株式会社
発明者 李元中
出願日 2005年12月22日 (15年4ヶ月経過) 出願番号 2005-370748
公開日 2006年8月3日 (14年9ヶ月経過) 公開番号 2006-202276
状態 特許登録済
技術分野 画像処理 イメージ分析
主要キーワード 所定対象物 ニューラルネットワーク手法 次変形 プロファイル画像 体移動量 識別ポイント プロファイル群 平均形状
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2006年8月3日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

フレームモデルを精度良く構築する。

解決手段

平均フレームモデルSavを実際の顔画像嵌め込み、平均フレームモデルSav上の各ランドマークの位置を、顔から検出された相対応するランドマークの位置に合致するように移動することによって平均フレームモデルSavを変形させて顔のフレームモデルを構築するのに際し、マシンラーニング手法により、所定のランドマークであることが分かっている複数のサンプル画像上の点における輝度プロファイルと、該ランドマークではないことが分かっている複数のサンプル画像上の点における輝度プロファイルとに対して学習を行って得た識別器および各識別器に対する識別条件を用いて、顔画像から当該ランドマークを示す点の位置を検出する。

概要

背景

医療診断用画像解釈や、身体的特徴を用いた認証などの様々な分野において、画像データにより表される画像を用いて、該画像に含まれる例えば人物の顔や、身体の部位などの所定対象物統計モデル構築することが行われており、統計モデルを構築する手法も種々提案されている。

非特許文献1および特許文献1には、顔を構成する、目、口などのような、所定対象物の各構成部品の位置、形状、大きさを表すことができる統計モデルASM(Active shape model)についての記載がなされている。ASMによる手法は、まず、図18に示すように、所定対象物(図示の例では、顔となる)の各構成部品の位置、形状、大きさを示す複数のランドマークの位置を、複数の所定対象物のサンプル画像の夫々に対して指定することによって、夫々のサンプル画像のフレームモデルを得る。フレームモデルは、ランドマークとなる点を所定のルールに従って接続してなるものであり、例えば、所定対象物が顔である場合、顔の輪郭線上の点、ライン上の点、目の輪郭線上の点、瞳の位置にある点、上下唇のライン上の点などがランドマークとして指定され、これらのランドマークのうち、顔の輪郭線上の点同士、のライン上の点同士などが夫々接続されてなるフレームが、顔のフレームモデルとなる。複数のサンプル画像から得られたフレームモデルが、平均処理が施されて顔の平均フレームモデルが得られる。この平均フレームモデル上における各ランドマークの位置が、夫々のサンプル画像における相対応するランドマークの位置の平均位置となる。例えば、顔に対して130個のランドマークを用い、これらのランドマークのうち、110番のランドマークは、顔における顎先端の位置を示す場合、平均フレームモデル上における110番のランドマークの位置は、各サンプル画像に対して指定された、顎先端の位置を示す110番のランドマークの位置を平均して得た平均位置である。ASMによる手法は、このようにして得た平均フレームモデルを、処理対象の画像に含まれる所定対象物に当てはめ、当てはめられた平均フレームモデル上における各ランドマークの位置を、処理対象の画像に含まれる所定対象物の各ランドマークの位置の初期値とすると共に、平均フレームモデルを処理対象の画像に含まれる所定対象物に合うように逐次変形(すなわち、平均フレームモデル上の各ランドマークの位置を移動)させることによって、処理対象の画像に含まれる所定対象物における各ランドマークの位置を得る。ここで、平均フレームモデルの変形について説明する。

前述したように、所定対象物を表すフレームモデルは、該フレームモデル上の各ランドマークの位置により表されるため、2次元の場合、1つのフレームモデルSは、下記の式(1)のように2n(n:ランドマークの個数)個の成分からなるベクトルによって表すことができる。

S=(X1,X2,・・・,Xn,Xn+1,Xn+2,・・・,X2n) (1)
但し,S:フレームモデル
n:ランドマークの個数
Xi(1≦i≦n):i番目のランドマークの位置のX方向座標値
Xn+i(1≦i≦n):i番目のランドマークの位置のY方向座標値

また、平均フレームモデルSavは、下記の式(2)のように表すことができる。

各サンプル画像のフレームモデルと、これらのサンプル画像から得た平均フレームモデルSavを用いて、下記の式(3)に示す行列を求めることができる。

式(3)に示す行列から、K(1≦K≦2n)個の固有ベクトルPj(Pj1,Pj2,・・・,Pj(2n))(1≦j≦K)および各固有ベクトルPjに夫々対応するK個の固有値λj(1≦j≦K)が求められ、平均フレームモデルSavの変形は、下記の式(4)に従って、固有ベクトルPjを用いて行われる。

式(4)におけるΔSは、各ランドマークの移動量を表すものであり、すなわち、平均フレームモデルSavの変形は、各ランドマークの位置を移動させることによって行われる。また、式(4)から分かるように、各ランドマークの移動量ΔSは、変形パラメータbjと固有ベクトルPjから求められるものであり、固有ベクトルPjは既に求められているので、平均フレームモデルSavを変形させるために、変形パラメータbjを求める必要がある。ここで、変形パラメータbjの求め方について説明する。

変形パラメータbjを求めるために、まず、夫々のランドマークを特定するための特徴量を、各サンプル画像の各ランドマークに対して求める。ここで、特徴量の例としてランドマークの輝度プロファイルを、ランドマークの例として上唇凹点を示すランドマークを用いて説明する。上唇の凹点(すなわち上唇の中心点)を示すランドマーク(図19(a)に示す点A0)に対して、このランドマークの両側のランドマーク(図19(a)中の点A1、A2)を結び線と垂直し、かつランドマークA0を通過する直線Lにおける、ランドマークA0を中心とする小範囲(例えば11画素)内の輝度プロファイルを、ランドマークA0の特徴量として求める。図19(b)は、図19(a)に示すランドマークA0の特徴量となる輝度プロファイルの例を示している。

そして、各サンプル画像の上唇凹点を示すランドマークの輝度プロファイルから、上唇凹点を示すランドマークを特定するための統括特徴量を求める。ここで、各サンプル画像における相対応するランドマーク(例えば各サンプル画像における上唇の凹点を示すランドマーク)の特徴量間は差があるものの、これらの特徴量はガウシアン分布を呈すると仮定して総括特徴量を求める。ガウシアン分布の仮定に基づいた統括特徴量の求め方は、例えば平均処理により方法を挙げることができる。すなわち、複数のサンプル画像毎に、各ランドマークの上記輝度プロファイルを求めると共に、相対応するランドマークの輝度プロファイルを平均して、該ランドマークの統括特徴量とする。すなわち、上唇の凹点を示すランドマークの統括特徴量は、複数のサンプル画像の夫々における上唇の凹点を示すランドマークの輝度プロファイルを平均して得たものとなる。

ASMは、処理対象の画像に含まれる所定対象物に合うように平均フレームモデルSavを変形させる際に、画像中の、平均フレームモデルSav上のランドマークに対応する位置を含む所定の範囲において、該ランドマークの統括特徴量と最も相似する特徴量を有する点を検出する。例えば上唇の凹点の場合、画像中の、平均フレームモデルSavにおける上唇の凹点を示すランドマークに対応する位置(第1の位置という)を含む、前述の小範囲より大きい範囲(画像中の、平均フレームモデルSavにおける上唇の凹点を示すランドマークの両側のランドマークに夫々対応する位置を結び線と垂直し、かつ第1の位置を通過する直線における、第1の位置を中心とする11画素より多い例えば21画素)内において、各画素を夫々中心とする11画素毎にその中心画素の輝度プロファイルを求め、これらの輝度プロファイルの中から、サンプル画像から求められた、上唇の凹点を示すランドマークの輝度プロファイルと最も相似する統括特徴量(すなわち平均輝度プロファイル)を検出する。そして、検出されたこの輝度プロファイルを有する位置(すなわち、この輝度プロファイルが求められた11個の画素の中心の画素の位置)と、第1の位置との差に基づいて、平均フレームモデルSav上における上唇の凹点を示すランドマークの位置を移動させるべき移動量を求めて、この移動量から変形パラメータbjを算出する。具体的には、例えば、前述した差より小さい、例えばこの差の1/2の量を移動させるべき量として求め、この移動させるべき量から変形パラメータbjを算出する。

なお、平均フレームモデルSavを変形させた後に得たフレームモデルにより顔を表すことができなくなることを防ぐために、変形パラメータbjを下記の式(5)に示すように、固有値λjを用いて限定することによってランドマークの位置の移動量を限定する。

ASMは、このようにして、平均フレームモデルSav上における各ランドマークの位置を移動させて平均フレームモデルSavを収束するまで変形させ、収束時における各ランドマークの位置により示される、処理対象の画像に含まれる所定対象物のフレームモデルを得る。
T.F.Coots, A.Hill, C.J.Taylor, J.Haslam, “The Use of Active Shape Models for Locating Structures in Medical Images”, Image and Vision Computing, pp.276−286, 1994
特表2004−527863号公報

概要

フレームモデルを精度良く構築する。平均フレームモデルSavを実際の顔画像嵌め込み、平均フレームモデルSav上の各ランドマークの位置を、顔から検出された相対応するランドマークの位置に合致するように移動することによって平均フレームモデルSavを変形させて顔のフレームモデルを構築するのに際し、マシンラーニング手法により、所定のランドマークであることが分かっている複数のサンプル画像上の点における輝度プロファイルと、該ランドマークではないことが分かっている複数のサンプル画像上の点における輝度プロファイルとに対して学習を行って得た識別器および各識別器に対する識別条件を用いて、顔画像から当該ランドマークを示す点の位置を検出する。

目的

本発明は、上記事情に鑑みてなされたものであり、画像に含まれる所定対象物の形状を識別する精度およびロバスト性を向上させることができる画像処理方法および装置並びにそのためのプログラムを提供することを目的とするものである。

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

所定対象物上の、各々の位置および/または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とし、1つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行い、各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得する画像処理方法において、前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うことを特徴とする画像処理方法。

請求項2

前記マシンラーニング手法が、ブースティング手法であることを特徴とする請求項1記載の画像処理方法。

請求項3

前記マシンラーニング手法が、ニューラルネットワーク手法であることを特徴とする請求項1記載の画像処理方法。

請求項4

前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないことを特徴とする請求項1から3のいずれか1項記載の画像処理方法。

請求項5

前記特徴量が、前記ランドマークの位置における輝度プロファイルであることを特徴とする請求項1から4のいずれか1項記載の画像処理方法。

請求項6

前記輝度プロファイルが多値化されたものであることを特徴とする請求項5記載の画像処理方法。

請求項7

前記所定対象物が、人物の顔であることを特徴とする請求項1から6のいずれか1項記載の画像処理方法。

請求項8

所定対象物上の、各々の位置および/または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とする仮位置設定手段と、1つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行う移動手段と、各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得するランドマーク位置得手段とを備えてなる画像処理装置であって、前記移動手段が、前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うことを特徴とする画像処理装置。

請求項9

前記マシンラーニング手法が、ブースティング手法であることを特徴とする請求項8記載の画像処理装置。

請求項10

前記マシンラーニング手法が、ニューラルネットワーク手法であることを特徴とする請求項8記載の画像処理装置。

請求項11

前記移動手段が、前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないものであることを特徴とする請求項8から10のいずれか1項記載の画像処理装置。

請求項12

前記特徴量が、前記ランドマークの位置における輝度プロファイルであることを特徴とする請求項8から11のいずれか1項記載の画像処理装置。

請求項13

前記輝度プロファイルが多値化されたものであることを特徴とする請求項12記載の画像処理装置。

請求項14

前記所定対象物が、人物の顔であることを特徴とする請求項8から13のいずれか1項記載の画像処理装置。

請求項15

所定対象物上の、各々の位置および/または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とする手順と、1つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行う手順と、各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得する手順とを有する画像処理方法をコンピュータに実行させるプログラムであって、前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて前記コンピュータに行わせることを特徴とするプログラム。

技術分野

0001

本発明は画像処理、具体的には画像に含まれる顔などの所定の対象物の形状を識別する画像処理方法および装置並びにそのためのプログラムに関するものである。

背景技術

0002

医療診断用画像解釈や、身体的特徴を用いた認証などの様々な分野において、画像データにより表される画像を用いて、該画像に含まれる例えば人物の顔や、身体の部位などの所定対象物統計モデル構築することが行われており、統計モデルを構築する手法も種々提案されている。

0003

非特許文献1および特許文献1には、顔を構成する、目、口などのような、所定対象物の各構成部品の位置、形状、大きさを表すことができる統計モデルASM(Active shape model)についての記載がなされている。ASMによる手法は、まず、図18に示すように、所定対象物(図示の例では、顔となる)の各構成部品の位置、形状、大きさを示す複数のランドマークの位置を、複数の所定対象物のサンプル画像の夫々に対して指定することによって、夫々のサンプル画像のフレームモデルを得る。フレームモデルは、ランドマークとなる点を所定のルールに従って接続してなるものであり、例えば、所定対象物が顔である場合、顔の輪郭線上の点、ライン上の点、目の輪郭線上の点、瞳の位置にある点、上下唇のライン上の点などがランドマークとして指定され、これらのランドマークのうち、顔の輪郭線上の点同士、のライン上の点同士などが夫々接続されてなるフレームが、顔のフレームモデルとなる。複数のサンプル画像から得られたフレームモデルが、平均処理が施されて顔の平均フレームモデルが得られる。この平均フレームモデル上における各ランドマークの位置が、夫々のサンプル画像における相対応するランドマークの位置の平均位置となる。例えば、顔に対して130個のランドマークを用い、これらのランドマークのうち、110番のランドマークは、顔における顎先端の位置を示す場合、平均フレームモデル上における110番のランドマークの位置は、各サンプル画像に対して指定された、顎先端の位置を示す110番のランドマークの位置を平均して得た平均位置である。ASMによる手法は、このようにして得た平均フレームモデルを、処理対象の画像に含まれる所定対象物に当てはめ、当てはめられた平均フレームモデル上における各ランドマークの位置を、処理対象の画像に含まれる所定対象物の各ランドマークの位置の初期値とすると共に、平均フレームモデルを処理対象の画像に含まれる所定対象物に合うように逐次変形(すなわち、平均フレームモデル上の各ランドマークの位置を移動)させることによって、処理対象の画像に含まれる所定対象物における各ランドマークの位置を得る。ここで、平均フレームモデルの変形について説明する。

0004

前述したように、所定対象物を表すフレームモデルは、該フレームモデル上の各ランドマークの位置により表されるため、2次元の場合、1つのフレームモデルSは、下記の式(1)のように2n(n:ランドマークの個数)個の成分からなるベクトルによって表すことができる。

0005

S=(X1,X2,・・・,Xn,Xn+1,Xn+2,・・・,X2n) (1)
但し,S:フレームモデル
n:ランドマークの個数
Xi(1≦i≦n):i番目のランドマークの位置のX方向座標値
Xn+i(1≦i≦n):i番目のランドマークの位置のY方向座標値

また、平均フレームモデルSavは、下記の式(2)のように表すことができる。

0006

各サンプル画像のフレームモデルと、これらのサンプル画像から得た平均フレームモデルSavを用いて、下記の式(3)に示す行列を求めることができる。

0007

式(3)に示す行列から、K(1≦K≦2n)個の固有ベクトルPj(Pj1,Pj2,・・・,Pj(2n))(1≦j≦K)および各固有ベクトルPjに夫々対応するK個の固有値λj(1≦j≦K)が求められ、平均フレームモデルSavの変形は、下記の式(4)に従って、固有ベクトルPjを用いて行われる。

0008

式(4)におけるΔSは、各ランドマークの移動量を表すものであり、すなわち、平均フレームモデルSavの変形は、各ランドマークの位置を移動させることによって行われる。また、式(4)から分かるように、各ランドマークの移動量ΔSは、変形パラメータbjと固有ベクトルPjから求められるものであり、固有ベクトルPjは既に求められているので、平均フレームモデルSavを変形させるために、変形パラメータbjを求める必要がある。ここで、変形パラメータbjの求め方について説明する。

0009

変形パラメータbjを求めるために、まず、夫々のランドマークを特定するための特徴量を、各サンプル画像の各ランドマークに対して求める。ここで、特徴量の例としてランドマークの輝度プロファイルを、ランドマークの例として上唇凹点を示すランドマークを用いて説明する。上唇の凹点(すなわち上唇の中心点)を示すランドマーク(図19(a)に示す点A0)に対して、このランドマークの両側のランドマーク(図19(a)中の点A1、A2)を結び線と垂直し、かつランドマークA0を通過する直線Lにおける、ランドマークA0を中心とする小範囲(例えば11画素)内の輝度プロファイルを、ランドマークA0の特徴量として求める。図19(b)は、図19(a)に示すランドマークA0の特徴量となる輝度プロファイルの例を示している。

0010

そして、各サンプル画像の上唇凹点を示すランドマークの輝度プロファイルから、上唇凹点を示すランドマークを特定するための統括特徴量を求める。ここで、各サンプル画像における相対応するランドマーク(例えば各サンプル画像における上唇の凹点を示すランドマーク)の特徴量間は差があるものの、これらの特徴量はガウシアン分布を呈すると仮定して総括特徴量を求める。ガウシアン分布の仮定に基づいた統括特徴量の求め方は、例えば平均処理により方法を挙げることができる。すなわち、複数のサンプル画像毎に、各ランドマークの上記輝度プロファイルを求めると共に、相対応するランドマークの輝度プロファイルを平均して、該ランドマークの統括特徴量とする。すなわち、上唇の凹点を示すランドマークの統括特徴量は、複数のサンプル画像の夫々における上唇の凹点を示すランドマークの輝度プロファイルを平均して得たものとなる。

0011

ASMは、処理対象の画像に含まれる所定対象物に合うように平均フレームモデルSavを変形させる際に、画像中の、平均フレームモデルSav上のランドマークに対応する位置を含む所定の範囲において、該ランドマークの統括特徴量と最も相似する特徴量を有する点を検出する。例えば上唇の凹点の場合、画像中の、平均フレームモデルSavにおける上唇の凹点を示すランドマークに対応する位置(第1の位置という)を含む、前述の小範囲より大きい範囲(画像中の、平均フレームモデルSavにおける上唇の凹点を示すランドマークの両側のランドマークに夫々対応する位置を結び線と垂直し、かつ第1の位置を通過する直線における、第1の位置を中心とする11画素より多い例えば21画素)内において、各画素を夫々中心とする11画素毎にその中心画素の輝度プロファイルを求め、これらの輝度プロファイルの中から、サンプル画像から求められた、上唇の凹点を示すランドマークの輝度プロファイルと最も相似する統括特徴量(すなわち平均輝度プロファイル)を検出する。そして、検出されたこの輝度プロファイルを有する位置(すなわち、この輝度プロファイルが求められた11個の画素の中心の画素の位置)と、第1の位置との差に基づいて、平均フレームモデルSav上における上唇の凹点を示すランドマークの位置を移動させるべき移動量を求めて、この移動量から変形パラメータbjを算出する。具体的には、例えば、前述した差より小さい、例えばこの差の1/2の量を移動させるべき量として求め、この移動させるべき量から変形パラメータbjを算出する。

0012

なお、平均フレームモデルSavを変形させた後に得たフレームモデルにより顔を表すことができなくなることを防ぐために、変形パラメータbjを下記の式(5)に示すように、固有値λjを用いて限定することによってランドマークの位置の移動量を限定する。

0013

ASMは、このようにして、平均フレームモデルSav上における各ランドマークの位置を移動させて平均フレームモデルSavを収束するまで変形させ、収束時における各ランドマークの位置により示される、処理対象の画像に含まれる所定対象物のフレームモデルを得る。
T.F.Coots, A.Hill, C.J.Taylor, J.Haslam, “The Use of Active Shape Models for Locating Structures in Medical Images”, Image and Vision Computing, pp.276−286, 1994
特表2004−527863号公報

発明が解決しようとする課題

0014

しかしながら、上述した手法は、相対応するランドマークの特徴量がガウシアン分布を呈するという仮定に基づいて、各サンプル画像における相対応するランドマークの特徴量から該ランドマークの統括特徴量を求めるようにしているため、サンプル画像間において、同じランドマークであっても特徴量が大きく変動する可能性がある場合や、照明条件の変動がある場合など、上記ガウシアン分布の仮定が成り立たないときに対応することができない。例えば、同じ上唇の凹点を示すランドマークであっても、上唇の上に髭の有無によって、このランドマークのプロファイルがかなり異なり、ガウシアン分布という仮定が成り立たない。そのため、ガウシアン分布に基づいて例えば平均プロファイルを統括特徴量として求め、この統括特徴量を用いて処理対象に含まれる所定対象物の各ランドマークを検出するのでは、検出の精度が良くなく、ロバスト性も低いという問題がある。

0015

本発明は、上記事情に鑑みてなされたものであり、画像に含まれる所定対象物の形状を識別する精度およびロバスト性を向上させることができる画像処理方法および装置並びにそのためのプログラムを提供することを目的とするものである。

課題を解決するための手段

0016

本発明の画像処理方法は、所定対象物上の、各々の位置および/または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とし、
1つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行い、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得する画像処理方法において、
前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うことを特徴とするものである。

0017

ここで、「所定対象物の形状」とは、所定対象物の輪郭の形状とすることができるが、これに限らず、所定対象物が複数の構成部品を有する場合、これらの各構成部品の位置および/または位置関係、形状も所定対象物の形状に含まれるものとすることができる。

0018

また、「該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理」とは、該処理によって、前記仮位置と前記ランドマークを示す画素として識別された前記画素の位置との差が小さくなる処理を意味し、例えば、前記仮位置を、該仮位置が移動される前の前記差の1/2や、1/3の量移動させる処理とすることができる。なお、各仮位置の初期値は、所定対象物の平均形状を示す複数のランドマークの各々の位置であるので、この仮位置を移動させる際の移動量が大き過ぎると、移動された後の位置を有する複数のランドマークにより表される形状は、所定の対象物からかけ離れてしまうという虞れがあるため、この移動量を前述した式(5)における変形パラメータbjを限定することによって移動量を限定することが望ましい。具体的には、通常、所定対象物の平均形状を示す複数のランドマークの位置は、多数の、該所定対象物であるサンプル画像の夫々における複数のランドマークのうちの、相対応するランドマークの位置を平均して該複数のランドマークの夫々の位置の平均値を得ることによって求められるので、所定対象物の平均形状に対して主成分の分析、すなわち前述した式(3)の行列を用いて、固有値λj、固有ベクトルPjを求めることができる。この固有ベクトルPjと、仮位置に対して求められた移動量とを用いて、前述した式(4)(仮位置の移動量は式中ΔSに対応する)とを用いて、これらの移動量が対応する変形パラメータbjを算出することができる。そして、式(5)を満たすbjの場合には、該bjが対応する移動量をそのままにすると共に、式(5)を満たさないbjの場合には、該bjの値が式(5)に示される範囲内に納まるように、望ましくは該範囲内の最大値となるようにこのbjの対応する移動量を修正する。

0019

また、本発明における「マシンラーニング」(machine learning)手法とは、ニューラルネットワークや、ブースティングの手法とすることができる。

0020

また、前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないことが好ましい。

0021

また、前記特徴量が、前記ランドマークを識別することができるものであればいかなるものであってもよく、例えば、該ランドマークの位置における輝度プロファイルとすることができる。

0022

また、該ランドマークの位置における輝度プロファイルの微分値としてもよい。

0023

なお、ここで、前記特徴量としての輝度プロファイルや、輝度プロファイルの微分値としては、多値化されたものであることが望ましい。

0024

本発明の画像処理方法は、人物の顔の形状の識別に適用することができる。

0025

本発明の画像処理装置は、所定対象物上の、各々の位置および/または互いの位置関係によって前記所定対象物の形状を示すことができる複数のランドマークの位置を、画像に含まれる前記対象物から検出するのに際し、予め取得された、前記所定対象物の平均形状を示す前記複数のランドマークの各々の位置を、前記画像に含まれる前記対象物における前記複数の前記ランドマークの夫々の仮位置とする仮位置設定手段と、
1つの前記仮位置を含む所定の範囲内の各画素に対して、該仮位置が対応するランドマークに対して定義された、該ランドマークを識別するための特徴量を算出する共に、該特徴量に基づいて前記各画素の夫々が、該ランドマークを示す画素であるか否かを識別することによって前記各画素に該ランドマークを示す画素が含まれるか否かを判定し、該判定が肯定された場合、該ランドマークを示す画素として識別された前記画素の位置に前記仮位置が近づくように前記仮位置を移動させる処理を、各前記仮位置毎に行う移動手段と、
各前記仮位置が移動された後の夫々の位置を、該仮位置が対応する前記ランドマークの位置として取得するランドマーク位置得手段とを備えてなる画像処理装置であって、
前記移動手段が、前記画素が該当するランドマークを示す画像であるか否かの識別を、複数の前記対象物のサンプル画像の夫々における、該ランドマークであることが分かっている位置の前記特徴量と、該ランドマークではないことが分かっている位置の前記特徴量とを、マシンラーニングの手法により予め学習することにより得られた前記特徴量に対応する識別条件に基づいて行うことを特徴とするものである。

0026

前記移動手段は、前記仮位置を含む所定の範囲内の各画素に、該仮位置が対応するランドマークを示す画素が含まれないと判定された場合、該仮位置を移動させないものであることが好ましい。

0027

本発明の画像処理方法を、コンピュータに実行させるプログラムとして提供してもよい。

発明の効果

0028

本発明の画像処理方法および装置は、画像に含まれる顔などの所定対象物の形状を識別するために、該所定対象物上のランドマークを示す点を検出する際に、マシンラーニング手法により、該ランドマークであることが分かっている複数のサンプル画像上の点における輝度プロファイルと、該ランドマークではないことが分かっている複数のサンプル画像上の点における輝度プロファイルとに対して学習を行って得た識別器および各識別器に対する識別条件を用いて該ランドマークを検出するようにしているので、複数のサンプル画像における該ランドマークであることが分かっている点における輝度プロファイルの平均値と近似する輝度プロファイルを有する点を当該ランドマークとして検出する従来技術より、精度が良い上に、ロバスト性も高い。

発明を実施するための最良の形態

0029

以下、図面を参照して、本発明の実施形態について説明する。

0030

図1は、本発明の実施形態となる画像処理装置の構成を示すブロック図である。なお、本実施形態の画像処理装置は、入力された画像から顔を検出して、顔のフレームモデルを得るものであり、補助記憶装置に読み込まれた処理プログラムをコンピュータ(たとえばパーソナルコンピュータ等)上で実行することにより実現される。また、この処理プログラムは、CD−ROM等の情報記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされることになる。

0031

また、画像データは画像を表すものであり、以下、特に画像と画像データの区別をせずに説明を行う。

0032

図1に示すように、本実施形態の画像処理装置は、処理対象となる画像S0を入力する画像入力部10と、画像S0から顔を検出して、顔部分の画像(以下顔画像という)S1を得る顔検出部20と、顔画像S1を用いて両目の位置を検出して顔画像S2(その詳細については後述する)を得る目検出部30と、目検出部30により得られた顔画像S2に対してフレームモデルShを構築するフレームモデル構築部50と、顔検出部20に用いられる参照データE1および目検出部30に用いられる参照データE2を記憶した第1のデータベース40と、フレームモデル構築部50に用いられる平均フレームモデルSavおよび参照データE3を記憶した第2のデータベース80とを備えてなる。

0033

画像入力部10は、本実施形態の画像処理装置に処理対象の画像S0を入力するものであり、例えば、ネットワークを介して送信されてきた画像S0を受信する受信部や、CD−ROMなどの記録媒体から画像S0を読み出す読取部や、紙や、プリント用紙などの印刷媒体から印刷媒体に印刷プリントを含む)された画像を光電変換によって読み取って画像S0を得るスキャナなどとすることができる。

0034

図2は、図1に示す画像処理装置における顔検出部20の構成を示すブロック図である。顔検出部20は、画像S0に顔が含まれているか否かを検出すると共に、顔が含まれている場合、顔のおおよその位置および大きさを検出し、この位置および大きさにより示される領域の画像を画像S0から抽出して顔画像S1を得るものであり、図2に示すように、画像S0から特徴量C0を算出する第1の特徴量算出部22と、特徴量C0および第1のデータベース40に記憶された参照データE1とを用いて顔検出を実行する顔検出実行部24とを備えてなる。ここで、第1のデータベース40に記憶された参照データE1、顔検出部20の各構成の詳細について説明する。

0035

顔検出部20の第1の特徴量算出部22は、顔の識別に用いる特徴量C0を画像S0から算出する。具体的には、勾配ベクトル(すなわち画像S0上の各画素における濃度が変化する方向および変化の大きさ)を特徴量C0として算出する。以下、勾配ベクトルの算出について説明する。まず、第1の特徴量算出部22は、画像S0に対して図5(a)に示す水平方向のエッジ検出フィルタによるフィルタリング処理を施して画像S0における水平方向のエッジを検出する。また、第1の特徴量算出部22は、画像S0に対して図5(b)に示す垂直方向のエッジ検出フィルタによるフィルタリング処理を施して画像S0における垂直方向のエッジを検出する。そして、画像S0上の各画素における水平方向のエッジの大きさHおよび垂直方向のエッジの大きさVとから、図6に示すように、各画素における勾配ベクトルKを算出する。

0036

なお、このようにして算出された勾配ベクトルKは、図7(a)に示すような人物の顔の場合、図7(b)に示すように、目および口のように暗い部分においては目および口の中央を向き、のように明るい部分においては鼻の位置から外側を向くものとなる。また、口よりも目の方が濃度の変化が大きいため、勾配ベクトルKは口よりも目の方が大きくなる。

0037

そして、この勾配ベクトルKの方向および大きさを特徴量C0とする。なお、勾配ベクトルKの方向は、勾配ベクトルKの所定方向(例えば図6におけるx方向)を基準とした0から359度の値となる。

0038

ここで、勾配ベクトルKの大きさは正規化される。この正規化は、画像S0の全画素における勾配ベクトルKの大きさのヒストグラムを求め、その大きさの分布が画像S0の各画素が取り得る値(8ビットであれば0〜255)に均一に分布されるようにヒストグラムを平滑化して勾配ベクトルKの大きさを修正することにより行う。例えば、勾配ベクトルKの大きさが小さく、図8(a)に示すように勾配ベクトルKの大きさが小さい側に偏ってヒストグラムが分布している場合には、大きさが0〜255の全領域に亘るものとなるように勾配ベクトルKの大きさを正規化して図8(b)に示すようにヒストグラムが分布するようにする。なお、演算量を低減するために、図8(c)に示すように、勾配ベクトルKのヒストグラムにおける分布範囲を例えば5分割し、5分割された頻度分布図8(d)に示すように0〜255の値を5分割した範囲に亘るものとなるように正規化することが好ましい。

0039

第1のデータベース40に記憶された参照データE1は、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類画素群の夫々について、各画素群を構成する各画素における特徴量C0の組み合わせに対する識別条件を規定したものである。

0040

参照データE1中の、各画素群を構成する各画素における特徴量C0の組み合わせおよび識別条件は、顔であることが分かっている複数のサンプル画像と顔でないことが分かっている複数のサンプル画像とからなるサンプル画像群の学習により、あらかじめ決められたものである。

0041

なお、本実施形態においては、参照データE1を生成する際には、顔であることが分かっているサンプル画像として、30×30画素サイズを有し、図9に示すように、1つの顔の画像について両目の中心間の距離が10画素、9画素および11画素であり、両目の中心間距離において垂直に立った顔を平面上±15度の範囲において3度単位で段階的に回転させた(すなわち、回転角度が−15度,−12度,−9度,−6度,−3度,0度,3度,6度,9度,12度,15度)サンプル画像を用いるものとする。したがって、1つの顔の画像につきサンプル画像は3×11=33通り用意される。なお、図9においては−15度、0度および+15度に回転させたサンプル画像のみを示す。また、回転の中心はサンプル画像の対角線交点である。ここで、両目の中心間の距離が10画素のサンプル画像であれば、目の中心位置はすべて同一となっている。この目の中心位置をサンプル画像の左上隅原点とする座標上において(x1,y1)、(x2,y2)とする。また、図面上上下方向における目の位置(すなわちy1,y2)はすべてのサンプル画像において同一である。

0042

また、顔でないことが分かっているサンプル画像としては、30×30画素サイズを有する任意の画像を用いるものとする。

0043

ここで、顔であることが分かっているサンプル画像として、両目の中心間距離が10画素であり、平面上の回転角度が0度(すなわち顔が垂直な状態)のもののみを用いて学習を行った場合、参照データE1を参照して顔であると識別されるのは、両目の中心間距離が10画素で全く回転していない顔のみである。画像S0に含まれる可能性がある顔のサイズは一定ではないため、顔が含まれるか否かを識別する際には、後述するように画像S0を拡大縮小して、サンプル画像のサイズに適合するサイズの顔の位置を識別できるようにしている。しかしながら、両目の中心間距離を正確に10画素とするためには、画像S0のサイズを拡大率として例えば1.1単位で段階的に拡大縮小しつつ識別を行う必要があるため、演算量が膨大なものとなる。

0044

また、画像S0に含まれる可能性がある顔は、図11(a)に示すように平面上の回転角度が0度のみではなく、図11(b)、(c)に示すように回転している場合もある。しかしながら、両目の中心間距離が10画素であり、顔の回転角度が0度のサンプル画像のみを使用して学習を行った場合、顔であるにも拘わらず、図11(b)、(c)に示すように回転した顔については識別を行うことができなくなってしまう。

0045

このため、本実施形態においては、顔であることが分かっているサンプル画像として、図9に示すように両目の中心間距離が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたサンプル画像を用いて、参照データE1の学習に許容度を持たせるようにしたものである。これにより、後述する顔検出実行部24において識別を行う際には、画像S0を拡大率として11/9単位で段階的に拡大縮小すればよいため、画像S0のサイズを例えば拡大率として例えば1.1単位で段階的に拡大縮小する場合と比較して、演算時間を低減できる。また、図11(b)、(c)に示すように回転している顔も識別することができる。

0046

以下、図12フローチャートを参照しながらサンプル画像群の学習手法の一例を説明する。

0047

学習の対象となるサンプル画像群は、顔であることが分かっている複数のサンプル画像と、顔でないことが分かっている複数のサンプル画像とからなる。なお、顔であることが分かっているサンプル画像は、上述したように1つのサンプル画像につき両目の中心位置が9,10,11画素であり、各距離において平面上±15度の範囲にて3度単位で段階的に顔を回転させたものを用いる。各サンプル画像には、重みすなわち重要度割り当てられる。まず、すべてのサンプル画像の重みの初期値が等しく1に設定される(S1)。

0048

次に、サンプル画像における複数種類の画素群のそれぞれについて識別器が作成される(S2)。ここで、それぞれの識別器とは、1つの画素群を構成する各画素における特徴量C0の組み合わせを用いて、顔の画像と顔でない画像とを識別する基準を提供するものである。本実施形態においては、1つの画素群を構成する各画素における特徴量C0の組み合わせについてのヒストグラムを識別器として使用する。

0049

図13を参照しながらある識別器の作成について説明する。図13の左側のサンプル画像に示すように、この識別器を作成するための画素群を構成する各画素は、顔であることが分かっている複数のサンプル画像上における、右目の中心にある画素P1、右側の頬の部分にある画素P2、額の部分にある画素P3および左側の頬の部分にある画素P4である。そして顔であることが分かっているすべてのサンプル画像について全画素P1〜P4における特徴量C0の組み合わせが求められ、そのヒストグラムが作成される。ここで、特徴量C0は勾配ベクトルKの方向および大きさを表すが、勾配ベクトルKの方向は0〜359の360通り、勾配ベクトルKの大きさは0〜255の256通りあるため、これをそのまま用いたのでは、組み合わせの数は1画素につき360×256通りの4画素分、すなわち(360×256)4通りとなってしまい、学習および検出のために多大なサンプルの数、時間およびメモリを要することとなる。このため、本実施形態においては、勾配ベクトルの方向を0〜359を0〜44と315〜359(右方向、値:0),45〜134(上方向値:1),135〜224(左方向、値:2),225〜314(下方向、値3)に4値化し、勾配ベクトルの大きさを3値化(値:0〜2)する。そして、以下の式を用いて組み合わせの値を算出する。

0050

組み合わせの値=0(勾配ベクトルの大きさ=0の場合)
組み合わせの値=((勾配ベクトルの方向+1)×勾配ベクトルの大きさ(勾配ベクトルの大きさ>0の場合)
これにより、組み合わせ数が94通りとなるため、特徴量C0のデータ数を低減できる。

0051

同様に、顔でないことが分かっている複数のサンプル画像についても、ヒストグラムが作成される。なお、顔でないことが分かっているサンプル画像については、顔であることが分かっているサンプル画像上における上記画素P1〜P4の位置に対応する画素が用いられる。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、図13の一番右側に示す、識別器として用いられるヒストグラムである。この識別器のヒストグラムが示す各縦軸の値を、以下、識別ポイントと称する。この識別器によれば、正の識別ポイントに対応する特徴量C0の分布を示す画像は顔である可能性が高く、識別ポイントの絶対値が大きいほどその可能性は高まると言える。逆に、負の識別ポイントに対応する特徴量C0の分布を示す画像は顔でない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性は高まる。ステップS2では、識別に使用され得る複数種類の画素群を構成する各画素における特徴量C0の組み合わせについて、上記のヒストグラム形式の複数の識別器が作成される。

0052

続いて、ステップS2で作成した複数の識別器のうち、画像が顔であるか否かを識別するのに最も有効な識別器が選択される。最も有効な識別器の選択は、各サンプル画像の重みを考慮して行われる。この例では、各識別器の重み付き正答率が比較され、最も高い重み付き正答率を示す識別器が選択される(S3)。すなわち、最初のステップS3では、各サンプル画像の重みは等しく1であるので、単純にその識別器によって画像が顔であるか否かが正しく識別されるサンプル画像の数が最も多いものが、最も有効な識別器として選択される。一方、後述するステップS5において各サンプル画像の重みが更新された後の2回目のステップS3では、重みが1のサンプル画像、重みが1よりも大きいサンプル画像、および重みが1よりも小さいサンプル画像が混在しており、重みが1よりも大きいサンプル画像は、正答率の評価において、重みが1のサンプル画像よりも重みが大きい分多くカウントされる。これにより、2回目以降のステップS3では、重みが小さいサンプル画像よりも、重みが大きいサンプル画像が正しく識別されることに、より重点が置かれる。

0053

次に、それまでに選択した識別器の組み合わせの正答率、すなわち、それまでに選択した識別器を組み合わせて使用して各サンプル画像が顔の画像であるか否かを識別した結果が、実際に顔の画像であるか否かの答えと一致する率が、所定の閾値を超えたか否かが確かめられる(S4)。ここで、組み合わせの正答率の評価に用いられるのは、現在の重みが付けられたサンプル画像群でも、重みが等しくされたサンプル画像群でもよい。所定の閾値を超えた場合は、それまでに選択した識別器を用いれば画像が顔であるか否かを十分に高い確率で識別できるため、学習は終了する。所定の閾値以下である場合は、それまでに選択した識別器と組み合わせて用いるための追加の識別器を選択するために、ステップS6へと進む。

0054

ステップS6では、直近のステップS3で選択された識別器が再び選択されないようにするため、その識別器が除外される。

0055

次に、直近のステップS3で選択された識別器では顔であるか否かを正しく識別できなかったサンプル画像の重みが大きくされ、画像が顔であるか否かを正しく識別できたサンプル画像の重みが小さくされる(S5)。このように重みを大小させる理由は、次の識別器の選択において、既に選択された識別器では正しく識別できなかった画像を重要視し、それらの画像が顔であるか否かを正しく識別できる識別器が選択されるようにして、識別器の組み合わせの効果を高めるためである。

0056

続いて、ステップS3へと戻り、上記したように重み付き正答率を基準にして次に有効な識別器が選択される。

0057

以上のステップS3からS6を繰り返して、顔が含まれるか否かを識別するのに適した識別器として、特定の画素群を構成する各画素における特徴量C0の組み合わせに対応する識別器が選択されたところで、ステップS4で確認される正答率が閾値を超えたとすると、顔が含まれるか否かの識別に用いる識別器の種類と識別条件とが確定され(S7)、これにより参照データE1の学習を終了する。

0058

なお、上記の学習手法を採用する場合において、識別器は、特定の画素群を構成する各画素における特徴量C0の組み合わせを用いて顔の画像と顔でない画像とを識別する基準を提供するものであれば、上記のヒストグラムの形式のものに限られずいかなるものであってもよく、例えば2値データ、閾値または関数等であってもよい。また、同じヒストグラムの形式であっても、図13の中央に示した2つのヒストグラムの差分値の分布を示すヒストグラム等を用いてもよい。

0059

また、学習の方法としては上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いることができる。

0060

顔検出実行部24は、複数種類の画素群を構成する各画素における特徴量C0の組み合わせのすべてについて参照データE1が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量C0の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔を検出する。この際、特徴量C0である勾配ベクトルKの方向は4値化され大きさは3値化される。本実施形態では、すべての識別ポイントを加算して、その加算値正負および大小によって顔であるか否かを識別する。例えば、識別ポイントの総和が正の値である場合、顔であると判断し、負の値である場合には顔ではないと判断する。

0061

ここで、画像S0のサイズは30×30画素のサンプル画像とは異なり、各種サイズを有するものとなっている可能性がある。また、顔が含まれる場合、平面上における顔の回転角度が0度であるとは限らない。このため、顔検出実行部24は、図14に示すように、画像S0を縦または横のサイズが30画素となるまで段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ(図14においては縮小する状態を示す)、各段階において拡大縮小された画像S0上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された画像S0上において1画素ずつ移動させながら、マスク内の画像が顔の画像であるか否か(すなわち、マスク内の画像に対して得られた識別ポイントの加算値が正か負か)の識別を行う。そして、この識別を拡大縮小および回転の全段階の画像S0について行い、識別ポイントの加算値が正の値が得られた段階におけるサイズおよび回転角度の画像S0から、識別されたマスクMの位置に対応する30×30画素の領域を顔領域として検出すると共に、この領域の画像を顔画像S1として画像S0から抽出する。なお、全ての段階において識別ポイントの加算値が負である場合には、画像S0に顔が無いと判定し、処理を終了する。

0062

なお、参照データE1の生成時に学習したサンプル画像として両目の中心位置の画素数が9,10,11画素のものを使用しているため、画像S0を拡大縮小する時の拡大率は11/9とすればよい。また、参照データE1の生成時に学習したサンプル画像として、顔が平面上で±15度の範囲において回転させたものを使用しているため、画像S0は30度単位で360度回転させればよい。

0063

なお、第1の特徴量算出部22は、画像S0の拡大縮小および回転という変形の各段階において特徴量C0を算出している。

0064

顔検出部20は、このようにして画像S0からおおよその顔の位置および大きさを検出して、顔画像S1を得る。なお、顔検出部20は、識別ポイントの加算値が正であれば顔が含まれると判定されるので、顔検出部20においては、複数の顔画像S1が得られる可能性がある。

0065

図3は、目検出部30の構成を示すブロック図である。目検出部30は、顔検出部20により得られた顔画像S1から両目の位置を検出し、複数の顔画像S1から真の顔画像S2を得るものであり、図示のように、顔画像S1から特徴量C0を算出する第2の特徴量算出部32と、特徴量C0および第1のデータベース40に記憶された参照データE2に基づいて目の位置の検出を実行する目検出実行部34とを備えてなる。

0066

本実施形態において、目検出実行部34により識別される目の位置とは、顔における目尻から目頭の間の中心位置(図4中×で示す)であり、図4(a)に示すように真正面を向いた目の場合においては瞳の中心位置と同様であるが、図4(b)に示すように右を向いた目の場合は瞳の中心位置ではなく、瞳の中心から外れた位置または白目部分に位置する。

0067

第2の特徴量算出部32は、画像S0ではなく、顔画像S1から特徴量C0を算出する点を除いて、図2に示す顔検出部20における第1の特徴量算出部22と同じであるため、ここで、その詳細な説明を省略する。

0068

第1のデータベース40に記憶された第2の参照データE2は、第1の参照データE1と同じように、後述するサンプル画像から選択された複数画素の組み合わせからなる複数種類の画素群のそれぞれについて、各画素群を構成する各画素における特徴量C0の組み合わせに対する識別条件を規定したものである。

0069

ここで、第2の参照データE2の学習には、図9に示すように両目の中心間距離が9.7,10,10.3画素であり、各距離において平面上±3度の範囲にて1度単位で段階的に顔を回転させたサンプル画像を用いている。そのため、第1の参照データE1と比較して学習の許容度は小さく、精確に目の位置を検出することができる。なお、第2の参照データE2を得るための学習は、用いられるサンプル画像群が異なる点を除いて、第1の参照データE1を得るための学習と同じであるので、ここでその詳細な説明を省略する。

0070

目検出実行部34は、顔検出部20により得られた顔画像S1上において、複数種類の画素群を構成する各画素における特徴量C0の組み合わせのすべてについて第2の参照データE2が学習した識別条件を参照して、各々の画素群を構成する各画素における特徴量C0の組み合わせについての識別ポイントを求め、すべての識別ポイントを総合して顔に含まれる目の位置を識別する。この際、特徴量C0である勾配ベクトルKの方向は4値化され大きさは3値化される。

0071

ここで、目検出実行部34は、顔検出部20により得られた顔画像S1のサイズを段階的に拡大縮小するとともに平面上で段階的に360度回転させつつ、各段階において拡大縮小された顔画像上に30×30画素サイズのマスクMを設定し、マスクMを拡大縮小された顔上において1画素ずつ移動させながら、マスク内の画像における目の位置の検出を行う。

0072

なお、第2参照データE2の生成時に学習したサンプル画像として両目の中心位置の画素数が9.07,10,10.3画素のものを使用しているため、顔画像S1の拡大縮小時の拡大率は10.3/9.7とすればよい。また、第2の参照データE2の生成時に学習したサンプル画像として、顔が平面上で±3度の範囲において回転させたものを使用しているため、顔画像は6度単位で360度回転させればよい。

0073

なお、第2の特徴量算出部32は、顔画像S1の拡大縮小および回転という変形の各段階において特徴量C0を算出する。

0074

そして、本実施形態では、顔検出部20により得られた全ての顔画像S1毎に、顔画像S1の変形の全段階においてすべての識別ポイントを加算し、最も大きい加算値が得られた顔画像S1の変形の段階における30×30画素のマスクM内の画像において、左上隅を原点とする座標を設定し、サンプル画像における目の位置の座標(x1,y1)、(x2,y2)に対応する位置を求め、変形前の当該顔画像S1におけるこの位置に対応する位置を目の位置として検出する。

0075

目検出部30は、このようにして、顔検出部20により得られた顔画像S1から両目の位置を夫々検出し、両目の位置と共に、両目の位置が検出された際の顔画像S1を真の顔画像S2としてフレームモデル構築部50に出力する。

0076

図15は、図1に示す画像処理装置におけるフレームモデル構築部50の構成を示すブロック図である。フレームモデル構築部50は、第2のデータベース80に記憶された平均フレームモデルSavと参照データE3とを用いて、目検出部30により得られた顔画像S2における顔のフレームモデルShを得るものであり、図15に示すように、平均フレームモデルSavを顔画像S0に嵌め込むモデル嵌込部52と、各ランドマークを識別するためのプロファイルを算出するプロファイル算出部54と、プロファイル算出部54により算出された輝度プロファイル、および参照データE3に基づいて平均フレームモデルSavを変形させてフレームモデルShを得る変形部60とを有してなる。ここで、第2のデータベース80に記憶された平均フレームモデルSavと参照データE3、フレームモデル構築部50の各構成の詳細について説明する。

0077

第2のデータベース80に記憶された平均フレームモデルSavは、複数の、顔であることが分かっているサンプル画像から得られたものである。本実施形態の画像処理装置において、90×90画素サイズを有し、1つの顔の画像について両目の中心間の距離が30画素となるように正規化されたサンプル画像を用いるとする。これらのサンプル画像に対して、まずオペレータにより図18に示すような、顔の形状、鼻、口、目などの形状および位置関係を示すことができるランドマークの位置を指定する。例えば左目の目尻、左目の中心、左目の目頭、両目間の中心点、顎先端などを夫々1番目、2番目、3番目、4番目、110番目のランドマークとするように、顔毎に130個のランドマークを指定する。そして、各サンプル画像における両目間の中心点を合わせた上で、相対応するランドマーク(すなわち同じ番号を有するランドマーク)の位置を平均して各ランドマークの平均位置を得る。このように得られた各ランドマークの平均位置によって、前述した式(2)の平均フレームモデルSavが構成される。

0078

また、第2のデータベース80には、上記各サンプル画像および平均フレームモデルSavから求められたK個(ランドマークの個数の2倍以下、ここでは260個以下例えば16個)の固有ベクトルPj(Pj1,Pj2,・・・,Pj(206))(1≦j≦K)および各固有ベクトルPjに夫々対応するK個の固有値λj(1≦j≦K)も記憶されている。固有ベクトルPjおよび各固有ベクトルPjに夫々対応する固有値λjの求め方は、従来技術に用いられた手法と同じであるので、ここで説明を省略する。

0079

第2のデータベース80に記憶された参照データE3は、顔上の各ランドマークに対して定義された輝度プロファイルおよび輝度プロファイルに対する識別条件を規定したものであり、複数のサンプル画像の顔における、該当するランドマークが示す位置であることが分かっている部位と、複数のサンプル画像の顔における、該当するランドマークが示す位置ではないことが分かっている部位の学習により、あらかじめ決められたものである。ここで、上唇の凹点を示すランドマークに対して定義された輝度ファイルに対する識別条件の取得を例にして説明する。

0080

本実施形態において、参照データE3を生成する際に、平均フレームモデルSavを得る際に使用されたサンプル画像と同じものを用いる。これらのサンプル画像は90×90画素サイズを有し、1つの顔の画像について両目の中心間の距離が30画素となるように正規化されたものを用いる。上唇の凹点を示すランドマークに対して定義された輝度プロファイルは、図19に示すように、このランドマークの両側のランドマークA1、A2を結び線と垂直し、かつランドマークA0を通過する直線Lにおける、ランドマークA0を中心とする11個の画素の輝度プロファイルであり、上唇の凹点を示すランドマークに対して定義された輝度プロファイルに対する識別条件を得るために、まず、各サンプル画像の顔に対して指定された上唇の凹点を示すランドマークの位置におけるプロファイルを夫々算出する。そして、各サンプル画像の顔における、上唇の凹点以外の任意の位置(例えば目尻)を示すランドマークに対して、上唇の凹点を示すランドマークに対して定義された輝度プロファイルも算出する。

0081

そして、後の処理時間を短縮するために、これらのプロファイルを多値化例えば5値化する。本実施形態の画像処理装置において、分散値に基づいて輝度プロファイルを5値化する。この5値化は、具体的には、輝度プロファイルを形成する各輝度値(上唇の凹点のランドマークの輝度プロファイルの場合、この輝度プロファイルを取得する際に用いられた11個の画素の輝度値)の分散値σを求めると共に、各輝度値の平均値Yavを中心にし、分散値単位に5値化を行うものである。例えば、(Yav—(3/4)σ)以下の輝度値を0に、(Yav−(3/4)σ)と(Yav−(1/4)σ)間の輝度値を1に、(Yav−(1/4)σ)と(Yav+(1/4)σ)間の輝度値を2に、(Yav+(1/4)σ)と(Yav+(3/4)σ)間の輝度値を3に、(Yav+(3/4)σ)以上の輝度値を4にするように5値化する。

0082

上唇の凹点を示すランドマークのプロファイルを識別するための識別条件は、上記のような5値化された、各サンプル画像における上唇の凹点を示すランドマークのプロファイル(以下第1のプロファイル群という)と、上唇の凹点以外を示すランドマークに対して求められたプロファイル(以下第2のプロファイル群という)とに対して学習することによって得られる。

0083

上記2種類のプロファイル画像群の学習手法は、顔検出部20に用いられた参照データE1や、目検出部30に用いられた参照データE2の学習手法と同じであるが、ここでその概略について説明する。

0084

まず、識別器の作成について説明する。1つの輝度プロファイルを構成する要素としては、該輝度プロファイルを構成する各輝度値の組合せにより示される輝度プロファイルの形状とすることができ、輝度値が0、1、2、3、4の5通りあり、1つのプロファイルに含まれる画素が11個をそのままを用いたのでは、輝度値の組合せが511通りとなり、学習および検出のために多大な時間およびメモリを要することとなる。このため、本実施形態においては、1つの輝度プロファイルを構成する複数の画素のうちの一部の画素のみを用いることとする。例えば、11個の画素の輝度値から構成されたプロファイルの場合、その2番目、6番目、10番目の画素の3つの画素を用いる。この3つの画素の輝度値の組合せは53通りとなるため、演算時間の短縮およびメモリの節約を図ることができる。識別器の作成に当たり、まず、第1のプロファイル群における全てのプロファイルについて、上記輝度値の組合せ((当該プロファイルを構成する画素の一部ここでは2番目、6番目、10番目の3個の画素の輝度値の組合せ。以下同じ)が求められ、そしてヒストグラムが作成される。同様に、第2のプロファイル群に含まれる各プロファイルについても、同じヒストグラムが作成される。これらの2つのヒストグラムが示す頻度値の比の対数値を取ってヒストグラムで表したものが、ランドマークの輝度プロファイルの識別器として用いられるヒストグラムである。顔を検出する際に作られた識別器と同じように、この識別器によれば、該識別器のヒストグラムが示す各縦軸の値(識別ポイント)が正であれば、該識別ポイントに対応する輝度値分布を有するプロファイルの位置が上唇の凹点である可能性が高く、識別ポイントの絶対値が大きいほどその可能性が高まると言える。逆に識別ポイントが負であれば、該識別ポイントに対応する輝度値分布を有するプロファイルの位置が上唇の凹点ではない可能性が高く、やはり識別ポイントの絶対値が大きいほどその可能性が高まる。

0085

上唇の凹点を示すランドマークの輝度プロファイルに対して、このようなヒストグラム形式の複数の識別器が作成される。

0086

続いて、作成した複数の識別器のうち、上唇の凹点を示すランドマークであるか否かの識別に最も有効な識別器が選択される。ここで、ランドマークの輝度プロファイルを識別するための最も有効な識別器の選択手法は、識別対象がランドマークの輝度プロファイルである点を除いて、顔検出部20に用いられた参照データE1中の識別器を作成する際に行われた選択の手法と同じであるため、ここで詳細な説明を省略する。

0087

第1のプロファイル群と第2のプロファイル群に対する学習の結果、上唇の凹点を示すランドマークの輝度プロファイルであるか否かの識別に用いる識別器の種類と識別条件が確定される。

0088

ここで、サンプル画像のランドマークの輝度プロファイルの学習方法は、アダブスティングの手法に基づいたマシンラーニング手法を用いたが、上記手法に限定されるものではなく、ニューラルネットワーク等他のマシンラーニングの手法を用いてもよい。

0089

フレームモデル構築部50の説明に戻る。図15に示すフレームモデル構築部50は、画像S0から得られた顔画像S2が示す顔のフレームモデルを構築するために、まず、モデル嵌込部52により、第2のデータベース80に記憶された平均フレームモデルSavを顔画像S2における顔に嵌め込む。平均フレームモデルSavを嵌め込む際に、平均フレームモデルSavにより示される顔と、顔画像S2における顔の向き、位置、大きさをできるだけ一致させることが望ましく、ここでは、平均フレームモデルSavにおける、両目の中心点を夫々表すランドマークの位置と、顔画像S2における、目検出部30により検出された両目の夫々の位置とが一致するように、顔画像S2を回転および拡大縮小して、平均フレームモデルSavの嵌め込みを行う。なお、ここで、平均フレームモデルSavを嵌め込む際に回転および拡大縮小された顔画像S2は、以下顔画像S2aという。

0090

プロファイル算出部54は、各ランドマークに対して定義された輝度プロファイルを、平均フレームモデルSav上における各ランドマークが対応する顔画像S2a上の位置にある画素を含む所定の範囲内における各画素の位置に対して輝度プロファイルを求めて、プロファイル群を得るものである。例えば、上唇の凹点を示すランドマークは130個のランドマーク中の80番目のランドマークである場合、この80番目のランドマークに対して定義された図19に示すような輝度プロファイル(ここでは11個の画素の輝度値の組合せであり、参照データE3に含まれている)を、平均フレームモデルSav上の80番目のランドマークが対応する位置の画素(画素Aとする)を中心とする所定の範囲内の各画素に対して求める。なお、「所定の範囲」は、参照データE3に含まれた輝度プロファイルを構成する輝度値に対応する画素の範囲より広い範囲を意味する。例えば、図19に示すように、80番目のランドマークの輝度プロファイルは、80番目のランドマークの両側のランドマークを結んだ直線と垂直し、かつ80番目のランドマークを通る直線L上における、80番目のランドマークを中心とする11画素の輝度プロファイルであるため、この「所定の範囲」は、この直線L上における、11画素より広い範囲例えば21画素の範囲とすることができる。この範囲内の各画素の位置において、該画素を中心とする連続する11個の画素毎に輝度プロファイルが求められる。すなわち、平均フレームモデルSav上の1つ、例えば上唇の凹点のランドマークに対して、顔画像S2aから21個のプロファイルが求められ、プロファイル群として変形部60に出力される。このようなプロファイル群は、各ランドマーク(ここでは130個のランドマーク)に対して取得される。なお、ここで、全てのプロファイルが5値化される。

0091

図16は、変形部60の構成を示すブロック図であり、図示のように、識別部61と、全体位置調整部62と、ランドマーク位置調整部63と、判断部68とを備えてなる。

0092

識別部61は、まず、プロファイル算出部54により顔画像S2aから算出された各ランドマークのプロファイル群毎に、該プロファイル群に含まれる各々のプロファイルが、当該ランドマークのプロファイルであるか否かを識別する。具体的には、1つのプロファイル群、例えば平均フレームモデルSav上の上唇の凹点を示すランドマーク(80番目のランドマーク)に対して求められたプロファイル群に含まれる21個のプロファイルの夫々に対して、参照データE3に含まれる、80番目のランドマークの輝度プロファイルの識別器および識別条件を用いて識別を行って識別ポイントを求め、1つのプロファイルに対して各識別器による識別ポイントの総和が正である場合、該プロファイルが80番目のランドマークのプロファイルである、すなわち該プロファイルの対応する画素(11個の画素の中心画素、すなわち6番目の画素)が80番目のランドマークを示す画素である可能性が高いとし、逆に1つのプロファイルに対して各識別器による識別ポイントの総和が負である場合、該プロファイルが80番目のランドマークのプロファイルではない、すなわち該プロファイルの対応する画素が80番目のランドマークではないとして識別する。そして、識別部61は、21個のプロファイルのうち、識別ポイントの総和が正であり、かつ絶対値が最も大きいプロファイルの対応する中心画素を80番目のランドマークとして識別する。一方、21個のプロファイルのうち、識別ポイントの総和が正であるプロファイルが1つもない場合、21個のプロファイルの対応する21個の画素すべてが、80番目のランドマークではないと識別する。

0093

識別部61は、このような識別を各ランドマーク群に対して行い、ランドマーク群毎の識別結果を全体位置調整部62に出力する。

0094

前述したように、目検出部30は、サンプル画像と同じサイズ(30画素×30画素)のマスクを用いて両目の位置を検出するようにしているのに対し、フレームモデル構築部50では、ランドマークの位置を精確に検出するために、90画素×90画素のサンプル画像から得た平均フレームモデルSavを用いるので、目検出部30により検出された両目の位置と平均フレームモデルSavにおける両目の中心を示すランドマークの位置とを合わせるだけでは、ズレが残る可能性がある。

0095

全体位置調整部62は、識別部61による識別結果に基づいて、平均フレームモデルSavの全体の位置を調整するものであり、具体的には平均フレームモデルSav全体を必要に応じて、直線的な移動、回転および拡大縮小をし、顔の位置、大きさ、向きと平均フレームモデルSavにより表される顔の位置、大きさ、向きとをより一致させるようにし、前述したズレをさらに小さくするものである。具体的には、全体位置調整部62は、まず、識別部61により得られたランドマーク群毎の識別結果に基づいて、平均フレームモデルSav上の各ランドマークを夫々移動すべき移動量(移動量の大きさおよび方向)の最大値を算出する。この移動量例えば80番目のランドマークの移動量の最大値は、平均フレームモデルSav上の80番目のランドマークの位置が、識別部61により顔画像S2aから識別された80番目のランドマークの画素の位置になるように算出される。

0096

次いで、全体位置調整部62は、各ランドマークの移動量の最大値より小さい値、本実施形態においては、移動量の最大値の1/3の値を移動量として算出する。この移動量は各ランドマークに対して得られ、以下総合移動量としてベクトルV(V1,V2,・・・,V2n)(n:ランドマークの個数。ここでは130)で表すこととする。

0097

全体位置調整部62は、このように算出された平均フレームモデルSav上の各ランドマークの移動量に基づいて、平均フレームモデルSavに対して直線的な移動、回転および拡大縮小を行う必要性があるか否かを判定し、必要がある場合には該当する処理を行うと共に、調整された平均フレームモデルSavが嵌め込まれた顔画像S2aをランドマーク位置調整部63に出力する。なお、必要がないと判定した場合、平均フレームモデルSavの全体的な調整をせずに顔画像S2aをそのままランドマーク位置調整部63に出力する。例えば、平均フレームモデルSav上の各ランドマークの移動量に含まれる移動の方向が同じ方向に向かう傾向を示す場合、この方向に平均フレームフレームSavの全体の位置を直線的に移動させる必要があるように判定することができ、平均フレームモデルSav上の各ランドマークの移動量に含まれる移動の方向が夫々異なるが、回転に向かう傾向を示す場合、この回転方向に平均フレームモデルSavを回転させる必要があるように判定することができる。また、例えば平均フレームモデルSav上の、顔の輪郭上の位置を示す各ランドマークの移動量に含まれる移動方向が、全部顔の外側に向かう場合には、平均フレームモデルSavを拡大する必要があると判定することができる。

0098

全体位置調整部62は、このようにして平均フレームSavの位置を全体的に調整し、調整された平均フレームモデルSavが嵌め込まれた顔画像S2aをランドマーク位置調整部63に出力する。ここで、全体調整部62の調整により各ランドマークが実際に移動された量(全体移動量という)をベクトルVa(V1a,V2a,・・・,V2na)とする。

0099

ランドマーク位置調整部63は、全体的な位置調整が行われた平均フレームモデルSavの各ランドマークの位置を移動することによって平均フレームモデルSavを変形させるものであり、図16に示すように、変形パラメータ算出部64と、変形パラメータ調整部65と、位置調整実行部66とを備えてなる。変形パラメータ算出部64は、まず、下記の式(6)により各ランドマークの移動量(個別移動量という)Vb(V1b,V2b,・・・,V2nb)を算出する。

0100

Vb=V−Va (6)
但し,V:総合移動量
Va:全体移動量
Vb:個別移動量

そして、変形パラメータ算出部64は、前述した式(4)を用いて、第2のデータベース80に記憶された固有ベクトルPjと、式(6)により求められた個別移動量Vb(式(4)中ΔSに対応する)とを用いて、移動量Vbが対応する変形パラメータbjを算出する。

0101

そこで、平均フレームモデルSav上のランドマークの移動量が大き過ぎると、ランドマークが移動された後の平均フレームモデルSavは顔を表すものではなくなるため、変形パラメータ調整部65は、前述した式(5)に基づいて、変形パラメータ算出部64により求められた変形パラメータbjを調整する。具体的には、式(5)を満たすbjの場合には、該bjをそのままにすると共に、式(5)を満たさないbjの場合には、該bjの値が式(5)に示される範囲内に納まるように(ここでは正負がそのまま、絶対値がこの範囲内の最大値となるように)当該変形パラメータbjを修正する。

0102

位置調整実行部66は、このようにして調整された変形パラメータを用いて、式(4)に従って平均フレームモデルSav上の各ランドマークの位置を移動させることによって平均フレームモデルSavを変形させてフレームモデル(ここでSh(1)とする)を得る。

0103

判断部68は、収束か否かの判断を行うものであり、例えば変形前のフレームモデル(ここでは平均フレームモデルSav)と変形後のフレームモデル(ここではSh(1))上の相対応するランドマークの位置間の差(例えば2つのフレームモデル上の80番目のランドマークの位置間の差)の絶対値の総和を求め、この総和が所定の閾値以下である場合には収束したと判断し、変形後のフレームモデル(ここではSh(1))を目的のフレームモデルShとして出力する一方、この総和が所定の閾値より大きい場合には収束していないと判定し、変形後のフレームモデル(ここではSh(1))をプロファイル算出部54に出力する。後者の場合、プロファイル算出部54による処理、識別部61による処理と、全体位置調整部62による処理と、ランドマーク位置調整部63による処理は、前回の変形後のフレームモデル(Sh(1))と顔画像S2aを対象としてもう一度行われて新しいフレームモデルSh(2)が得られる。

0104

このように、プロファイル算出部54による処理から、識別部61による処理を経て、ランドマーク位置調整部63の位置調整実行部66による処理までの一連の処理は、収束するまで繰り返される。そして、収束した際のフレームモデルは、目的のフレームモデルShとして得られ、画像処理装置の処理が終了する。

0105

図17は、図1に示す実施形態の画像処理装置において行われる処理を示すフローチャートである。図示のように、図1に示す画像処理装置において、画像S0が入力されると、まず、顔検出部20および目検出部30により画像S0に含まれる顔の検出を行い、画像S0に含まれる顔における両目の位置、および顔部分の画像S2を得る(S10、S15、S20)。フレームモデル構築部50のモデル嵌込部52は、第2のデータベース80に記憶された、複数の顔のサンプル画像から得られた平均フレームモデルSavを、顔画像S2に嵌め込む(S25)。なお、嵌め込むのに際し、顔画像S2における両目の位置と、平均フレームモデルSavにおける、両目の位置を示すランドマークの位置とが夫々一致するように、顔画像S2が回転、拡大縮小され、顔画像S2aとなっている。プロファイル算出部54は、平均フレームモデルSav上の各ランドマークについて、該ランドマークに対して定義された輝度プロファイルを、平均フレームモデルSav上の当該ランドマークが対応する位置を含む所定の範囲内の各画素に対して求め、平均フレームモデルSav上の1つのランドマークに対して、複数の輝度プロファイルからなるプロファイル群が得られる(S30)。

0106

変形部60の識別部61は、各プロファイル群対して、該プロファイル群(例えば平均フレームモデルSav上の80番目のランドマークに対して求められたプロファイル群)内の各プロファイルのうちの、該プロファイル群の対応するランドマーク(例えば80番目のランドマーク)に対して定義された輝度プロファイルであるプロファイルを識別し、このプロファイルが対応する画素の位置が、該プロファイル群の対応するランドマーク(例えば80番目のランドマーク)の位置であると識別する。一方、1つのプロファイル群内のいずれのプロファイルも、該プロファイル群の対応するランドマークに対して定義された輝度プロファイルではないと識別した場合には、このプロファイル群に含まれる全てのプロファイルの夫々対応する画素の位置が、該プロファイル群の対応するランドマークの位置ではないと識別する(S40)。

0107

ここで、識別部61の識別結果が全体位置調整部62に出力され、全体位置調整部62は、ステップS40における識別部61の識別結果に基づいて、平均フレームモデルSav上の各ランドマークの総合移動量Vを求め、これらの移動量に基づいて、平均フレームモデルSav全体を必要に応じた直線的な移動、回転および拡大縮小をする。(S45)。なお、ステップS45における全体的な位置調整によって平均フレームモデルSav上の各ランドマークの移動量は全体移動量Vaである。

0108

ランドマーク位置調整部63の変形パラメータ算出部64は、総合移動量Vと全体移動量V1との差分に基づいて各ランドマークの個々の移動量からなる個別移動量Vbを求めると共に、この個別移動量Vbに対応する変形パラメータを算出する(S50)。変形パラメータ調整部65は、式(5)に基づいて、変形パラメータ算出部64により算出された変形パラメータを調整して調整実行部66に出力する(S55)。位置調整実行部66は、ステップS55において変形パラメータ調整部65により調整された変形パラメータを用いて個々のランドマークの位置を調整し、フレームモデルSh(1)を得る(S60)。

0109

そして、フレームモデルSh(1)と顔画像S2aとを用いて、ステップS30からステップS60までの処理が行われ、フレームモデルSh(1)上のランドマークを移動して得たフレームモデルSh(2)が得られる。このように、ステップS30からステップS60までの処理が判断部68により収束したと判断されるまで繰り返され(S65:No、S30〜S60)、収束する際のフレームモデルが目的のフレームモデルShとして得られる(S65:Yes、S70)。

0110

このように、本実施形態の画像処理装置は、顔画像から所定のランドマークを示す点を検出する際に、マシンラーニング手法により、該ランドマークであることが分かっている複数のサンプル画像上の点における輝度プロファイルと、該ランドマークではないことが分かっている複数のサンプル画像上の点における輝度プロファイルとに対して学習を行って得た識別器および各識別器に対する識別条件を用いて該ランドマークを検出するようにしているので、複数のサンプル画像における該ランドマークであることが分かっている点における輝度プロファイルの平均値と近似する輝度プロファイルを有する点を当該ランドマークとして検出する従来技術より、精度が良い上に、ロバスト性も高い。

0111

また、輝度プロファイルを多値化ここでは5値化して得たものを特徴量として用いることによって、演算量を減らし、メモリの節約および計算時間の短縮を図ることができる上に、画像S0を撮像した際の照明条件のバラつきなどにも拘わらず精度の良い検出を実現することができる。

0112

また、従来では、画像から所定のランドマークを示す点を検出する際に、顔画像における、平均フレームモデルSav上の該ランドマークが対応する位置を含む所定の範囲内の複数の画素のうち、複数のサンプル画像における該ランドマークであることが分かっている点における輝度プロファイルの平均値と最も近似する輝度プロファイルを有する点を該ランドマークの位置として検出しているため、例えば手などの障害物により顔の一部が覆われている場合においても、平均フレームモデルSav上の、覆われた部位に位置するランドマークが移動され、最終的に得られたフレームモデルShの精度が低く、最悪の場合は、顔画像に含まれる顔を示すことがまったくできないフレームモデルを構築してしまう可能性もある。それに対して、本実施形態の画像処理装置において、顔画像における、平均フレームモデルSav上の該ランドマークが対応する位置を含む所定の範囲内の複数の画素のうち、該ランドマークを示す点があるか否かの判定を行い、この判定が否定された場合には、平均フレームモデルSav上における当該ランドマークの位置を移動しないようにしている。そのため、手などの障害物により顔の一部が覆われた場合に、平均フレームモデルSav上の、覆われた部位に位置するランドマークの位置が移動されず、精度の良いフレームモデルShを得ることができる。

0113

以上、本発明の望ましい実施形態について説明したが、本発明の画像処理方法および装置並びにそのためのプログラムは、上述した実施形態に限られることがなく、本発明の主旨を逸脱しない限り、様々な増減、変化を加えることができる。

0114

例えば、上述した実施形態において、ランドマークを特定するための特徴量として輝度プロファイルを用いたが、輝度プロファイルに限られることがなく、輝度プロファイルの微分値など、ランドマークを特定することができるいかなる特徴量を用いてもよい。

0115

また、上述した実施形態において、識別器としてヒストグラムを用いたが、マシンラーニング手法に用いられるいかなる識別器を用いてもよい。

図面の簡単な説明

0116

本発明の実施形態となる画像処理装置の構成を示すブロック図
顔検出部20の構成を示すブロック図
目検出部30の構成を示すブロック図
目の中心位置を説明するための図
(a)は水平方向のエッジ検出フィルタを示す図、(b)は垂直方向のエッジ検出フィルタを示す図
勾配ベクトルの算出を説明するための図
(a)は人物の顔を示す図、(b)は(a)に示す人物の顔の目および口付近の勾配ベクトルを示す図
(a)は正規化前の勾配ベクトルの大きさのヒストグラムを示す図、(b)は正規化後の勾配ベクトルの大きさのヒストグラムを示す図、(c)は5値化した勾配ベクトルの大きさのヒストグラムを示す図、(d)は正規化後の5値化した勾配ベクトルの大きさのヒストグラムを示す図
第1の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図
第2の参照データの学習に用いられる顔であることが分かっているサンプル画像の例を示す図
顔の回転を説明するための図
顔の検出および目検出に用いられる参照データの学習手法を示すフローチャート
識別器の導出方法を示す図
識別対象画像の段階的な変形を説明するための図
図1に示す画像処理装置におけるフレームモデル構築部50の構成を示すブロック図
図15に示すフレームモデル構築部50における変形部60の構成を示すブロック図
図1に示す画像処理装置において行われる処理を示すフローチャート
1つの顔に対して指定されるランドマークの例を示す図
ランドマークに対して定義される輝度プロファイルを説明するための図

符号の説明

0117

10画像入力部
20顔検出部
22 第1の特徴量算出部
24 顔検出実行部
30目検出部
32 第2の特徴量算出部
34 目検出実行部
40 第1のデータベース
50フレームモデル構築部
52モデル嵌込部
54プロファイル算出部
60 変形部
61識別部
62 全体位置調整部
63ランドマーク位置調整部
64変形パラメータ算出部
65 変形パラメータ調整部
66位置調整実行部
68 判断部
80 第2のデータベース
Sav 平均フレームモデル

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ