図面 (/)

技術 情報処理装置、画像領域選択方法、コンピュータプログラム、及び記憶媒体

出願人 キヤノン株式会社
発明者 青葉雅人
出願日 2017年11月2日 (2年8ヶ月経過) 出願番号 2017-212810
公開日 2019年6月6日 (1年0ヶ月経過) 公開番号 2019-086899
状態 未査定
技術分野 FAX原画の編集 イメージ分析 デジタル計算機のユーザインターフェイス
主要キーワード 教師ベクトル 左右動作 ウィール 連結候補 不足領域 連結対象 カテゴリ定義 グラフベース
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年6月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (19)

課題

画像中から簡単な操作で所定の領域を選択することが可能な情報処理装置を提供する。

解決手段

情報処理装置は、画像を取得する画像取得部1100と、取得した画像における領域を階層的に複数のカテゴリ識別する領域識別部1300と、画像を表示する表示部1400と、表示部に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域初期領域として設定する初期領域設定部1500と、ユーザの所定の操作に応じて、階層的なカテゴリ判定結果に従って選択領域の拡張及び縮小を行い、該選択領域を更新する領域制御部1600と、を備える。

概要

背景

情報処理装置は、画像内の選択された領域を対象として所定の処理を行うことがある。このための対象領域の選択方法として、様々なユーザインタフェースが提案されている。最も一般的な方法には、画像中の一点をマウス等のポインティングデバイスクリックし、ドラッグすることでバウンディングボックスを選択する方法である。この他に、切り抜きたい領域の輪郭を複数回クリックすることで輪郭を切り出すスライスツールなども一般的に用いられる方法である。これらの方法は、いずれもユーザが手動で領域の選択を行う。これら手動による領域選択に対して、自動/半自動による領域選択を行う方法も提案されている。

特許文献1は、人の頭頂部及び眼を検出し、その検出結果から顔領域のサイズを自動調節してトリミングサイズを決定する画像処理装置を開示する。この画像処理装置の処理は、顔の領域選択に特化したボトムアップ手法を用いて行われる。特許文献2は、ボトムアップ手法として代表的な、領域成長(region growing)による領域選択を行う画像抽出装置を開示する。この画像抽出装置は、まず、背景差分オプティカルフローなどの一次特徴を有する領域を分割する。画像抽出装置は、一次特徴で分割した領域から選択した領域を中心として、色成分などの二次特徴で類似した領域を連結し、物体の領域を抽出する。特許文献3は、グラフベースの手法を提案する。この手法は、選択すべき領域の輪郭より内側の領域を大雑把にユーザが指定することで、指定領域内部の特徴分布に従い、グラフカットを繰り返して物体領域を算出する。

一方で、画像を人物の領域、自動車の領域、道路の領域、建物の領域、空の領域などの、意味的な領域を切り出す課題が研究されている。このような課題は、意味的領域分割(Semantic Segmentation)と呼ばれ、物の種類に対応した画像補正や、シーン解釈などへの応用が期待される。意味的領域分割を行うにあたり、画像の各位置に関するカテゴリラベル識別を、画素単位ではなく、小領域(superpixel)単位で行うことは、すでに一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるものである。類似した特徴の小領域の切り出しは、様々な手法が提案されている。非特許文献1は、このような手法の代表的なものである。小領域は、その内部の特徴量、或いはその周辺コンテクスト特徴量も一緒に用いてカテゴリラベルが識別される。通常は、様々な学習画像を用いてこのような局所ベース領域識別器を学習させることで、領域識別が行われることになる。非特許文献2に開示される技術は、画像を複数レベルで小領域に分割し、各レベルにおける小領域を線形SVM(Support Vector Machine)で識別する。各画素におけるすべてのレベルにおけるカテゴリ尤度を線形SVMの入力として、画像の各画素のカテゴリラベルが推定される。

概要

画像中から簡単な操作で所定の領域を選択することが可能な情報処理装置を提供する。情報処理装置は、画像を取得する画像取得部1100と、取得した画像における領域を階層的に複数のカテゴリに識別する領域識別部1300と、画像を表示する表示部1400と、表示部に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域初期領域として設定する初期領域設定部1500と、ユーザの所定の操作に応じて、階層的なカテゴリ判定結果に従って選択領域の拡張及び縮小を行い、該選択領域を更新する領域制御部1600と、を備える。

目的

本発明は、上記課題に鑑みてなされたものであり、画像中から簡単な操作で所定の領域を選択することが可能な情報処理装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

画像を取得する画像取得手段と、取得した前記画像における領域を階層的に複数のカテゴリ識別する領域識別手段と、前記画像を表示する表示手段と、前記表示手段に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域初期領域として設定する初期領域設定手段と、ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行い、前記選択領域を更新する領域制御手段と、を備えることを特徴とする、情報処理装置

請求項2

前記領域制御手段は、ユーザの所定の第1操作に応じて同一階層で前記選択領域と隣接する同一カテゴリの領域を該選択領域に結合することで領域を拡張し、ユーザの所定の第2操作に応じて、前記選択領域の中から初期領域を含まない領域を削除して該選択領域を縮小することを特徴とする、請求項1記載の情報処理装置。

請求項3

前記領域制御手段は、前記第1操作及び前記第2操作を、タッチパネルもしくはマウスによるスライド操作の向きで区別することを特徴とする、請求項2記載の情報処理装置。

請求項4

前記領域制御手段は、前記第1操作及び前記第2操作を、タッチパネルにおける圧力によって区別することを特徴とする、請求項2記載の情報処理装置。

請求項5

前記領域制御手段は、前記第1操作及び前記第2操作を、マウスによるクリックと特殊キーとの組み合わせで区別することを特徴とする、請求項2記載の情報処理装置。

請求項6

前記領域制御手段は、前記第1操作及び第2操作を、マウスによるクリック操作を特殊キーにより切り替えることで区別することを特徴とする、請求項2記載の情報処理装置。

請求項7

前記領域制御手段は、前記第1操作及び前記第2操作を、タッチパネルのロングタップと特殊キーの組み合わせで区別、もしくは切り替えることを特徴とする、請求項2記載の情報処理装置。

請求項8

前記領域制御手段は、前記第1操作及び前記第2操作を、タッチパネルがロングタップとメニューを別にタップされることで区別、もしくは切り替えることを特徴とする、請求項2記載の情報処理装置。

請求項9

前記領域制御手段は、前記第1操作及び前記第2操作を、マウスにおけるスクロールウィール回転操作に従って区別することを特徴とする、請求項2記載の情報処理装置。

請求項10

前記領域制御手段は、ユーザの所定の第3操作に応じて、同一階層で前記初期領域と連結しない領域を含んだ前記選択領域と同一カテゴリとなる領域を、該選択領域に結合することで領域を拡張し、ユーザの所定の第4操作に応じて、前記選択領域の中から前記初期領域に連結しない領域を優先的に削除することで該選択領域を縮小することを特徴とする、請求項1〜9のいずれか1項記載の情報処理装置。

請求項11

前記領域制御手段は、前記第3操作及び前記第4操作を、タッチパネルもしくはマウスによるスライド操作により認識することを特徴とする、請求項10記載の情報処理装置。

請求項12

前記領域制御手段は、前記第3操作及び前記第4操作を、マウスにおけるスクロールウィールの回転操作に従って認識することを特徴とする、請求項10記載の情報処理装置。

請求項13

前記領域制御手段は、前記第3操作及び前記第4操作を、選択領域から離れた別領域に対するタップ操作により認識することを特徴とする、請求項10記載の情報処理装置。

請求項14

前記領域制御手段は、前記第3操作及び前記第4操作を、特殊キーによって前記第1操作及び前記第2操作と区別することを特徴とする、請求項10記載の情報処理装置。

請求項15

前記領域制御手段は、ユーザの所定の第5操作に応じて、前記選択領域から不要領域を指定して、前記不要領域を領域分割することにより、該選択領域の輪郭修正し、ユーザの所定の第6操作に応じて、選択領域外から不足領域を指定して、前記不足領域のカテゴリを選択領域のカテゴリと一致させることにより、該不足領域を該選択領域に追加することを特徴とする、請求項1〜14のいずれか1項記載の情報処理装置。

請求項16

前記領域制御手段は、前記第5操作を、タッチパネルに表示された前記不要領域をタップ又はフリックする操作により認識することを特徴とする、請求項15記載の情報処理装置。

請求項17

前記領域制御手段は、前記第5操作及び前記第6操作を、前記不要領域をマウスによりクリックする操作により認識することを特徴とする、請求項15記載の情報処理装置。

請求項18

前記領域制御手段は、前記第6操作を、タッチパネルに表示された前記不足領域をタップする操作により認識することを特徴とする、請求項15〜17のいずれか1項記載の情報処理装置。

請求項19

情報処理装置が、画像を取得するステップと、前記取得した画像における領域を階層的に複数のカテゴリに識別するステップと、前記画像を表示するステップと、表示された前記画像に対するユーザの操作に応じて、所定の位置の領域を選択領域の初期領域として設定するステップと、ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行って、前記選択領域を更新するステップと、を含む、画像領域選択方法

請求項20

コンピュータを、画像を取得する画像取得手段、取得した前記画像における領域を階層的に複数のカテゴリに識別する領域識別手段、前記画像を表示する表示手段、前記表示手段に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域の初期領域として設定する初期領域設定手段、ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行い、前記選択領域を更新する領域制御手段、として機能させるためのコンピュータプログラム

請求項21

請求項20記載のコンピュータプログラムを記憶する、コンピュータにより読み取り可能な記憶媒体

技術分野

0001

本発明は、画像から所定の領域を選択するための情報処理装置に関する。

背景技術

0002

情報処理装置は、画像内の選択された領域を対象として所定の処理を行うことがある。このための対象領域の選択方法として、様々なユーザインタフェースが提案されている。最も一般的な方法には、画像中の一点をマウス等のポインティングデバイスクリックし、ドラッグすることでバウンディングボックスを選択する方法である。この他に、切り抜きたい領域の輪郭を複数回クリックすることで輪郭を切り出すスライスツールなども一般的に用いられる方法である。これらの方法は、いずれもユーザが手動で領域の選択を行う。これら手動による領域選択に対して、自動/半自動による領域選択を行う方法も提案されている。

0003

特許文献1は、人の頭頂部及び眼を検出し、その検出結果から顔領域のサイズを自動調節してトリミングサイズを決定する画像処理装置を開示する。この画像処理装置の処理は、顔の領域選択に特化したボトムアップ手法を用いて行われる。特許文献2は、ボトムアップ手法として代表的な、領域成長(region growing)による領域選択を行う画像抽出装置を開示する。この画像抽出装置は、まず、背景差分オプティカルフローなどの一次特徴を有する領域を分割する。画像抽出装置は、一次特徴で分割した領域から選択した領域を中心として、色成分などの二次特徴で類似した領域を連結し、物体の領域を抽出する。特許文献3は、グラフベースの手法を提案する。この手法は、選択すべき領域の輪郭より内側の領域を大雑把にユーザが指定することで、指定領域内部の特徴分布に従い、グラフカットを繰り返して物体領域を算出する。

0004

一方で、画像を人物の領域、自動車の領域、道路の領域、建物の領域、空の領域などの、意味的な領域を切り出す課題が研究されている。このような課題は、意味的領域分割(Semantic Segmentation)と呼ばれ、物の種類に対応した画像補正や、シーン解釈などへの応用が期待される。意味的領域分割を行うにあたり、画像の各位置に関するカテゴリラベル識別を、画素単位ではなく、小領域(superpixel)単位で行うことは、すでに一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるものである。類似した特徴の小領域の切り出しは、様々な手法が提案されている。非特許文献1は、このような手法の代表的なものである。小領域は、その内部の特徴量、或いはその周辺コンテクスト特徴量も一緒に用いてカテゴリラベルが識別される。通常は、様々な学習画像を用いてこのような局所ベース領域識別器を学習させることで、領域識別が行われることになる。非特許文献2に開示される技術は、画像を複数レベルで小領域に分割し、各レベルにおける小領域を線形SVM(Support Vector Machine)で識別する。各画素におけるすべてのレベルにおけるカテゴリ尤度を線形SVMの入力として、画像の各画素のカテゴリラベルが推定される。

0005

特開2002−152492号公報
特開平9−185720号公報
米国特許第7660463号明細書

先行技術

0006

SLIC Superpixels,R.Achanta,A.Shaji,K.Smith,A.Lucchi,EPFLTechnicalReport,2010.
RGB-(D) Scene Labeling:Features and Algorithms,X.Ren,L.Bo and D.Fox,CVPR2012.

発明が解決しようとする課題

0007

ユーザが選択したい画像中の領域が大きかったり不定形である場合、ユーザが正確に領域選択することは難しい。例えば両腕を広げた人物を囲むバウンディングボックスを指定する場合、最初の一点を正しい位置に置くことに失敗すると、腕が切れてしまったり、或いは人物に対して大きすぎるバウンディングボックスが得られてしまうことがある。また、複数点指定による輪郭切り出しは、領域輪郭の凹凸が多い場合には非常に手間のかかる作業となる。

0008

前述したボトムアップ手法では、隣接した領域の類似性により領域を拡大していく。そのために、例えば赤いランニングシャツを着て走っている人物の背景に肌色に近い壁がある画像では、腕とランニングシャツよりも、腕と壁の方が類似した領域と判定される。この場合、腕と壁が連結された領域と判断されてしまい、画像中の人物が一つの領域として選択されない。

0009

本発明は、上記課題に鑑みてなされたものであり、画像中から簡単な操作で所定の領域を選択することが可能な情報処理装置を提供することを目的とする。

課題を解決するための手段

0010

本発明の情報処理装置は、画像を取得する画像取得手段と、取得した前記画像における領域を階層的に複数のカテゴリに識別する領域識別手段と、前記画像を表示する表示手段と、前記表示手段に表示された画像に対するユーザの操作に応じて、所定の位置の領域を選択領域初期領域として設定する初期領域設定手段と、ユーザの所定の操作に応じて、前記階層的なカテゴリ判定結果に従って前記選択領域の拡張及び縮小を行い、前記選択領域を更新する領域制御手段と、を備えることを特徴とする。

発明の効果

0011

本発明によれば、ユーザが画像中から簡単な操作で所定の領域を選択することが可能となる。

図面の簡単な説明

0012

情報処理装置の説明図。
学習処理を表すフローチャート
(a)〜(c)は、学習画像及び領域カテゴリラベルデータの説明図。
領域カテゴリラベルの説明図。
(a)、(b)は、画像領域選択処理を表すフローチャート。
(a)〜(c)は、画像領域選択処理の説明図。
(a)〜(c)は、画像領域選択処理の説明図。
(a)〜(d)は、画像領域選択処理の説明図。
(a)、(b)は、画像領域選択処理の説明図。
(a)〜(d)は、画像領域選択処理の説明図。
(a)〜(g)は、画像領域選択処理の説明図。
(a)〜(c)は、画像処理の説明図。
S1600の処理を表すフローチャート。
(a)〜(c)は、飛び地拡張操作及び飛び地縮小操作の説明図。
(a)〜(e)は、飛び地拡張操作の説明図
S1600の処理を表すフローチャート。
(a)〜(d)は、輪郭修正操作の説明図。
(a)、(b)は、領域追加操作の説明図。

実施例

0013

以下、図面を参照して、実施形態を詳細に説明する。

0014

(第1実施形態)
図1は、本実施形態の画像領域選択装置を実現する情報処理装置の説明図である。画像領域選択装置は、ユーザが画像から所望の領域を選択するための画像領域選択処理を行うための機能と、画像領域選択処理を行うために必要な領域識別器を予め生成するための学習処理を行うための機能とを備える。

0015

画像領域選択処理を行うための機能について説明する。この機能は、画像取得部1100、領域分割部1200、領域識別部1300、表示部1400、初期領域設定部1500、領域制御部1600、及び処理部1700により実現される。各機能は、すべて同じ情報処理装置上で実現されるものでもよく、それぞれ独立したモジュールで実現されてもよい。情報処理装置は、例えばパーソナルコンピュータモニタとの組み合わせや、タブレット端末スマートフォンなどを用いることができる。各機能は、情報処理装置に実装されるコンピュータプログラムをCPU(Central Processing Unit)で実行することで実現されてもよい。また各機能は、カメラ等の撮影装置内部において、ハードウェアもしくはコンピュータプログラムの実行により実現されてもよい。

0016

画像取得部1100は、外部装置から入力画像を取得する。領域分割部1200は、画像取得部1100で取得した入力画像を複数の小領域に分割する。領域識別部1300は、領域識別器記憶部5200に記憶されている領域識別器を読み出し、領域分割部1200で分割された各小領域の領域カテゴリを推定する。領域識別器記憶部5200には、後述する学習処理によって生成された領域識別器が記憶されている。表示部1400は、画像取得部1100で取得された入力画像を表示する表示装置である。ユーザは、表示部1400の表示により入力画像を確認することができる。初期領域設定部1500は、所定のインタフェースによるユーザの指示に応じて、入力画像の所定の位置の領域を初期領域に設定する。領域制御部1600は、ユーザにより行われた操作に応じて、初期領域の拡張/縮小を行い、選択領域を生成する。処理部1700は、選択領域に対する所定の処理を行う。

0017

画像領域選択処理で用いる領域識別器を生成するための学習処理を行うための機能について説明する。この機能は、学習データ取得部2100、学習画像領域分割部2200、及び領域識別器生成部2300により実現される。各機能は、すべて同じ情報処理装置上で実現されるものでもよく、それぞれ独立したモジュールで実現されてもよい。各機能は、情報処理装置に実装されるコンピュータプログラムをCPU(Central Processing Unit)で実行することで実現されてもよい。

0018

学習データ取得部2100は、学習データ記憶部5100から学習データを取得する。学習データ記憶部5100は、学習処理で用いる学習データを予め記憶する。学習データは、複数の学習画像と、学習画像の各画素に対応して階層定義する領域カテゴリラベルが付与された領域カテゴリラベルデータと、から構成される。学習画像領域分割部2200は、学習データ取得部2100で取得した学習データについて、それぞれの学習画像を小領域に分割する。領域識別器生成部2300は、学習画像領域分割部2200で分割した各小領域の特徴量と領域カテゴリラベルとに基づいて学習処理を行い、小領域のカテゴリを識別する領域識別器を生成する。領域識別器生成部2300は、生成した領域識別器を領域識別器記憶部5200に記憶させる。学習データ記憶部5100及び領域識別器記憶部5200は、情報処理装置の内部もしくは外部ストレージにより実現される。

0019

画像領域選択処理に用いる各機能と学習処理に用いる各機能とは、同じ情報処理装置上で実現してもよく、別々の情報処理装置で実現してもよい。学習処理と画像領域選択処理とを別々の情報処理装置で実現する場合、領域識別器記憶部5200は、それぞれで異なるストレージにより実現されてもよい。その場合、学習処理で得られた領域識別器が、画像領域選択処理用の装置におけるストレージにコピーもしくは移動して用いられる。

0020

以上のような構成の画像領域選択装置による学習処理及び画像領域選択処理について説明する。図2は、学習処理を表すフローチャートである。学習処理とは、画像領域選択処理を行うために利用される領域識別器を、事前に用意された学習画像から生成することである。一度学習して生成された領域識別器は、領域識別器記憶部5200に記憶され、領域識別器記憶部5200から読み出されて再利用される。そのために、画像領域選択処理時に学習処理を毎回行う必要はない。

0021

学習処理を開始すると、学習データ取得部2100は、学習データ記憶部5100から学習画像及び階層定義された領域カテゴリラベルデータを含む学習データを取得する(S2100)。学習画像は、具体的にはデジタルカメラ等で撮影された画像データである。学習画像の枚数をN枚とし、n番目の学習画像を学習画像I_n(n=1…N)と記載する。領域カテゴリラベルデータは、各学習画像の各画素に対して階層的な領域カテゴリラベルが割り振られる。階層数をLとし、階層のインデックスをインデックスl=1…Lと記載する。第l階層で定義されているカテゴリ数をM_lとする。

0022

図3は、学習画像及び領域カテゴリラベルデータの説明図である。この例では階層数L=5層の場合を説明するが、階層数はこの値に限定されるものではない。図3(a)に示す学習画像500は、対応する領域カテゴリラベルデータが図3(b)の階層510〜550で示される。領域カテゴリラベルは、粗から詳細へと被写体のカテゴリを与える。図3(b)の例では、階層510が最も粗なカテゴリラベルであり、階層520、530、540の順に詳細なカテゴリが与えられ、階層550が最も詳細なカテゴリ定義である。ここでは、最も粗な階層510から順番に、第1階層、第2階層、…と呼ぶ。

0023

第1階層510では、空511と非空512とのカテゴリラベルが割り振られている。第2階層520では、第1階層510における空511が空521として継承され、第1階層510における非空512が人体522と植物523とに分解されている。第3階層530では、空521は空531として継承され、人体522は顔532と上半身533とに分解され、植物523は花534と茎葉535とに分解されている。第4階層540では、空531は空541に、上半身533は上半身544に、花534は花545に、茎葉535は茎葉546として継承され、顔532は髪542と顔543とに分解されている。第5階層550では、空541は空551に、髪542は髪552に、上半身544は上半身555として継承される。また、顔543は目553、顔肌554、及び口556に、花545は花弁557及び管状花558に、茎葉546は葉559及びと560に、分解されている。

0024

学習画像I_nに対応する、第l階層における領域カテゴリラベルデータをGT_(n,l)と表す。図3の例示以外にも、これらの意味的な領域カテゴリは階層的に包含関係が定義される。図4は、図3の領域カテゴリラベルの説明図である。領域カテゴリラベルは、これ以外にもさまざまな領域カテゴリや階層レベルの定義が可能であることは言うまでもない。

0025

学習画像領域分割部2200は、取得した学習画像を小領域に分割する(S2200)。小領域は、類似した特徴を持つ小さな領域として学習画像から切り出されるものである。学習画像を小領域に分割する手法はいくつか提案されている。代表的なものとして、非特許文献1のような手法がある。また、単純に、均一サイズ長方形に学習画像を分割して得られる領域を、小領域として用いてもよい。また、学習画像の各画素を小領域とみなしてもよく、その場合は特に分割処理を行う必要はない。図3(c)では、学習画像500を小領域に分割した結果を例示する。
学習画像I_nに対する領域分割結果として、R_n個の小領域が生成される場合、学習用の小領域の総数はR=ΣR_n個である。学習画像の小領域を通し番号でSP_r(r=1…R)と記載する。

0026

領域識別器生成部2300は、小領域のカテゴリを識別するための領域識別器を学習して生成する(S2300)。領域識別器生成部2300は、学習に用いる小領域に関する領域特徴を抽出する。ここで抽出される領域特徴は、小領域内部における色平均値色ヒストグラム、小領域の位置や大きさ、LBP(Local Binary Pattern)などのテクスチャ特徴など、その種類によって限定されるものではない。また、領域特徴は、小領域の周囲に関する線分や色の分布などによるコンテクスト特徴であってもよい。また、CNN(Convolutional Neural Network)を利用して、その畳み込み層を特徴抽出器とみなしてもよい。小領域SP_rから抽出された領域特徴を小領域特徴x_rと記載する。

0027

GT_(n,l)の小領域SP_rに対応する第l階層の領域カテゴリラベルをc_(r,l)とすると、小領域SP_rに対する第l階層の教師ベクトルτ_(r,l)は下記の式で表される。

0028

0029

0030

ここで領域カテゴリラベルc_(r,l)は、小領域SP_rが、第l階層において領域カテゴリラベルとして割り振られているカテゴリのインデックスである。領域識別器の学習は、識別関数に対して小領域特徴x_rを入力したときに得られる出力ベクトルと教師ベクトルτ_(r,l)との誤差が、全学習データを通して小さくなるように識別関数のパラメータを調整して、領域識別器を生成することである。領域識別器は、小領域特徴x_rを入力として、各階層における領域カテゴリのスコアベクトルf_l(x_r)を出力する。スコアベクトルf_l(x_r)は、M_l次元ベクトルである。スコアベクトルf_l(x_r)の各要素は、各領域カテゴリに対するスコアであって、第l階層のc番目の領域カテゴリに対するスコアをf_c(x_r)(c=1…M_l)と記載する。

0031

0032

識別関数のモデルとその学習方法には、様々なものが考えられる。例えばSVMや多層ニューラルネットワークロジスティック回帰などを用いることができる。また、前述のCNNを利用する場合には、その全結合層を識別関数のモデルとみなすことができ、特徴抽出を担う畳み込み層も含めて学習することが可能である。本実施形態の識別関数のモデルとその学習方法は、それらの種類によって限定されるものではない。領域識別器生成部2300は、学習して得られた領域識別器を領域識別器記憶部5200に記憶させる。

0033

以上のように学習処理が行われる。情報処理装置は、学習処理によって得られた領域識別器を用いて画像領域選択処理を行う。図5は、画像領域選択処理を表すフローチャートである。図5(a)は、画像領域選択処理の全体処理を表す。図6図7図8図9図10図11は、画像領域選択処理の説明図である。

0034

画像取得部1100は、入力画像を取得する(S1100)。図6(a)は、入力画像100を例示する。入力画像100の取得方法に関しては様々なものが考えられるが、本実施形態はその取得方法に関して限定されるものではない。例えば、カメラなどの撮像装置から直接取得するものでもよく、予めハードディスクなどのストレージに保存されている画像データから取得するものでもよい。

0035

領域分割部1200は、取得した入力画像100を小領域に分割する(S1200)。ここで行われる小領域への分割処理は、学習画像領域分割部2200がS2200の処理と同様の処理であることが好ましい。各画素を小領域とみなす場合には、特に分割処理を行う必要はない。図6(b)は、入力画像100の領域分割結果200を例示する。入力画像100を領域分割して得られた小領域の総数をKとする。

0036

領域識別部1300は、入力画像100の各小領域に関して領域カテゴリを識別する(S1300)。領域識別部1300は、領域分割部1200で生成される各小領域の領域特徴を抽出する。抽出する領域特徴は、例えば図2のS2300の処理で領域識別器生成部2300が学習画像の小領域から抽出する領域特徴と同じ種類のものである。小領域SP_k(k=1…K)から抽出された領域特徴をx_kとする。領域識別部1300は、領域識別器記憶部5200に記憶される学習処理で得られた領域識別器を読み込む。領域識別部1300は、読み込んだ領域識別器f_l(l=1…L)に対して、それぞれの小領域SP_kに関する領域特徴x_kを入力する。これにより領域識別部1300は、第l階層における各領域カテゴリのスコアベクトルf_l(x_k)を生成する。

0037

0038

第l階層の各小領域SP_kに対する領域識別結果は、例えばスコアベクトルf_l(x_k)が最大となるカテゴリc_(k,l)として生成される。

0039

0040

領域識別部1300は、すべての小領域SP_k(k=1…K)に関して、すべての階層lにおける領域識別器f_lを適用して、すべての領域識別結果であるカテゴリc_(k,l)が得られると、S1300の処理を終了する。図6(c)は、領域識別結果110、120、130、140、150を例示する。最も詳細なカテゴリ識別結果として、第5階層における識別結果が領域識別結果150に示されている。この例では、口151、髪152、目153、顔肌154、腕155、胴156、手157、股158、脚159、足161、屋内壁162、家具163、外壁164、及び床165などの領域が得られる。第4階層における領域識別結果140では、髪141、顔肌142、腕143、胴体144、股145、脚146、頭147、及び屋内148といった領域が得られている。第3階層における領域識別結果130では、頭131、134、上半身132、下半身133、及び建物135といった領域が得られている。第2階層における領域識別結果120では、人工物121、人体122、123の領域が得られている。第1階層における領域識別結果110では、画面全体の領域が非空111と識別されている。

0041

表示部1400は、入力画像100を表示する(S1400)。表示部1400は、表示された画像に対してグラフカルなユーザインタフェースを有するものとするが、本実施形態は表示部1400の形式に限定されるものではない。入力画像100を表示する表示部1400は、タッチパネルであってもよいし、マウスやペンタブレット利用可能なパーソナルコンピュータに接続されたモニタでもよい。以下では、表示部1400をタブレットやスマートフォンに用いられるタッチパネルを例として説明する。

0042

初期領域設定部1500は、表示部1400に表示された入力画像100に対してユーザが所定の位置を指定することで、初期領域の設定を行う(S1500)。
ユーザは、図7(a)に例示するように表示部1400に表示された入力画像100の上で、選択したい領域の一部をタップする。初期領域設定部1500は、領域分割部1200により分割されて得られるすべての小領域S_k(k=1…K)のうち、タップされた位置を含む小領域S_iを初期領域に設定する。例えば、図7(a)のようにしてタップした位置が、図8(a)に示す右側人物の顔肌の右半に対応する小領域401の内部である場合、図8(b)に示すようにこの小領域401が初期領域411となる。

0043

領域制御部1600は、初期領域設定部1500により設定された初期領域411を所定の操作に応じて拡張、縮小を行い、所望の領域を取得する(S1600)。図5(b)は、領域制御部1600による処理の詳細を表す。

0044

領域制御部1600は、その時点で選択されている領域(選択領域)を表示部1400に表示する(S1690)。選択領域の表示形式は、本実施形態において限定されるものではない。選択領域は、図9(a)に例示するように入力画像上に選択領域の輪郭を表示されてもよく、図9(b)に例示するように選択領域の内部だけを表示されてもよい。

0045

領域制御部1600は、表示された選択領域に対してユーザが行う操作を取得する(S1610)。領域制御部1600は、ユーザによる操作内容を判断して次の処理を決定する(S1615)。ユーザが行った操作が領域拡張操作である場合(S1615:領域拡張)、領域制御部1600は、その時点の選択領域を拡張する(S1620)。ユーザが行った操作が領域縮小操作である場合(S1615:領域縮小)、領域制御部1600は、その時点の選択領域を縮小する(S1630)。ユーザが行った操作が領域選択終了操作である場合(S1615:終了)、領域制御部1600は、領域制御処理を終了する。これにより画像領域選択処理が終了する。

0046

図7(b)、7(c)は、領域拡張操作及び領域縮小操作を説明する。ここでは、領域拡張操作及び領域縮小操作が、表示画面上の上下のスライド操作に割り当てている。ただし、領域拡張操作及び領域縮小操作はこれに限定されるものではない。例えば、左右スライド操作によって領域拡張操作及び領域縮小操作が行われてもよい。タッチパネルを押す際の圧力が増える場合は領域拡張操作、圧力が減る場合には領域縮小操作などとしてもよい。ロングタップをしながら別メニューをタップして操作を区別もしくは切り替えるとしてもよい。キーボードとの組み合わせであれば、ロングタップしながらSHIFTやCtrlキーなどの特殊キーとの組み合わせによって区別もしくは切り替えてもよい。マウスを利用する場合は、マウスの上下動作もしくは左右動作で領域拡張操作及び領域縮小操作を行ってもよく、スクロールウィール回転操作で制御してもよい。マウスのクリック操作とSHIFTキーやCtrlキーなどの特殊キーとの組み合わせによって領域拡張操作及び領域縮小操作を区別する、もしくは切り替わる、などとしてもよい。領域選択終了操作は、例えば指をタッチパネルから離す、マウスでダブルクリックする、などの操作である。

0047

領域制御部1600は、S1620の処理で選択領域を拡張する場合、まず、同一階層中で、選択領域に対して空間的に隣接し且つ同一カテゴリである小領域を該選択領域に追加することで、選択領域を拡張する。領域制御部1600は、当該階層内で隣接する同一カテゴリ領域がない場合、階層を一つ上に移して同様の処理を行う。一つの小領域を選択領域に追加すると、領域制御部1600は、S1690の処理へ戻る。

0048

S1620の処理を繰り返すことで領域が拡張されていく様子の具体例を以下に示す。図8(b)に例示する初期領域411に対して領域拡張操作が行われる場合を例に説明する。
初期領域411は、図6(c)の第5階層の領域識別結果150において顔肌カテゴリと判定された顔肌154の領域に含まれる。初期領域411に隣接する小領域のうち同じ顔肌カテゴリと判定された小領域は、図8(a)に示した小領域402、403である。領域制御部1600は、まず、これらの領域のうち初期領域411に対して最も特徴の近い領域を選択する。選択に用いる特徴量は、色ヒストグラムやLBPなどのテクスチャ特徴など、様々なものが考えられるが、本実施形態において限定されるものではない。

0049

領域制御部1600は、初期領域411と最も特徴の近い小領域402を初期領域411に結合した領域を、新たな選択領域として更新する。図8(c)は、更新された選択領域412を例示する。さらに領域拡張操作が継続して行われた場合、領域制御部1600は、残りの小領域403を選択領域412に結合させたものを選択領域として更新する。図8(d)は、更新された選択領域410を例示する。ここまで領域の拡張が行われると、第5階層における初期領域と連結可能な顔肌領域はすべて連結されたことになる。

0050

ここでさらに領域拡張操作が継続して行われた場合、領域制御部1600は、階層を一つ上、この例では第4階層に処理階層を移す。第5階層における顔肌カテゴリ領域は、第4階層では顔カテゴリ領域に属する。
顔カテゴリ領域の中で、図10(a)に示す目と口である小領域404、405、406は、この時点ではまだ選択領域に含まれていない。しかし、第4階層においては、選択領域410と同様に、図6(c)の顔カテゴリ領域の顔肌142に属することとなる。そこで、領域制御部1600は、先ほどと同様にして、選択領域410に隣接する小領域の中で、選択領域410と最も特徴の近い小領域を結合していく。図10(b)には、選択領域410に対して小領域404を結合して更新された選択領域421が例示される。図10(c)には、さらに小領域405を結合した選択領域422が例示される。図10(d)にはさらに小領域406を結合した選択領域420が例示される。

0051

このようにして、同一階層内の同一カテゴリとなる小領域を連結していき、同一カテゴリの隣接する小領域がなくなった時点で一つ上の階層に移って同様の処理を繰り返していくことで、階層カテゴリに従って領域を拡張していくことができる。図11(a)〜11(g)は、初期領域411から領域拡張操作を続けたときの、各階層における連結結果を示す。図11(b)は、第5階層において図11(a)の初期領域411から同一カテゴリ領域を連結していって得られる選択領域410を例示する。さらに領域拡張操作を続けると、第4階層では図11(c)に例示する顔カテゴリ領域が選択領域420として得られ、第3階層では図11(d)に例示する頭部カテゴリ領域が選択領域430として得られる。
第2階層では、頭部カテゴリ領域から拡張していくことにより、図11(e)に例示する右側人物領域440が人物カテゴリ領域の途中結果として得られる。さらに拡張していくと、図11(f)のように、つないだ手を通して左側人物領域も連結された人物カテゴリ領域が選択領域450として得られる。第1階層でさらに連結を続けていくと、図11(g)のように、画像全体が非空カテゴリ領域として一つの領域に結合されたものが選択領域460として設定される。

0052

領域制御部1600は、S1630の処理で領域を縮小する場合、まず、現在の選択領域の中から、現在の階層から一つ下の階層において初期領域が含まれるカテゴリ領域を除いた小領域を、削除候補領域とする。領域制御部1600は、削除候補領域の中で、選択領域と特徴が最も異なる小領域を選択領域から除き、選択領域を更新する。一つの小領域を選択領域から削除すると、領域制御部1600は、S1690の処理へと戻る。S1630の処理を繰り返すことによって領域が縮小されていく具体例を以下に示す。

0053

例えば、図10(d)に例示する選択領域420について領域縮小操作を行ったとする。このとき処理階層は第4階層で、処理対象カテゴリは図6(c)で示される顔カテゴリ領域の顔肌142である。その一つ下の階層、すなわち第5階層において、初期領域の含まれる領域は、図6(c)で例示する顔肌154のカテゴリ領域である。初期領域の含まれる顔肌154のカテゴリ領域は、図10(a)に例示する選択領域410で、それを除いた領域は図10(a)における小領域404、405、406となる。領域制御部1600は、これらの小領域404、405、406を削除候補領域とし、選択領域420と特徴の最も異なる小領域を選択領域から削除する。これにより、選択領域420は、図10(c)、10(b)のように、顔肌カテゴリ領域以外の部分が削除されていくことで、顔肌カテゴリ領域だけが選択領域410のように残ることになる。選択領域410が顔肌カテゴリ領域だけになると、処理階層を一つ下げる。ここでは第5階層に移り、領域制御部1600は、初期領域411を除いた図8(a)に示す小領域401、402、403を削除候補領域として、同様な縮小処理を続けていく。縮小処理を止めずに続けていけば、最終的には図11(a)に例示する初期領域411の状態まで戻ることができる。

0054

ユーザは、領域拡張操作及び領域縮小操作を行いながら、所望の領域が得られた時点で領域選択終了操作を行い、領域拡張操作を止めればよい。
以上のようにして、階層的な意味的カテゴリに従って領域の拡張及び縮小を制御することにより、ユーザは、意味のある塊である領域を選択することが容易になる。このようにして得られる領域は、さまざまな画像処理に対して非常に有用である。

0055

図12は、本実施形態の画像処理の説明図である。図12における画像700の例で人物を一杯に含む領域をクロッピングしたければ以下のようになる。まず人物の内部領域を初期領域として設定し、領域拡張・縮小操作を行うことで図12(a)に例示する人物領域710が選択される。図12(b)に例示する選択領域の外接矩形720を算出することは容易である。これをもとに図12(c)に例示する人体領域730を一杯に含むようにクロッピングすることができる。同様にして、選択領域の外接矩形に合わせてズーム率を画面サイズに対して最適にすることも容易である。このようにして、本実施形態のように意味的カテゴリによる領域拡張及び縮小をユーザが自在に行うことができれば、ユーザの希望する範囲の領域に対して、自動的にクロッピングやズームの範囲を計算することができ、見切れや無駄な余白が発生することがなくなる。

0056

(第2実施形態)
第1実施形態では、ユーザに指定された領域の拡張が、隣接領域を徐々に連結していくことで領域の選択が行われている。しかし、意味的な領域識別結果が得られていることにより、画像上の空間的な隣接関係に限定されずに、同一カテゴリの領域をまとめて選択することも可能である。本実施形態では、そのような飛び地による領域選択を可能とする。本実施形態の装置構成は、図1に示した第1実施形態と同様であるため、説明を省略する。また、本実施形態の学習処理も、図2に示した第1実施形態における学習処理と同様であるため、説明を省略する。

0057

本実施形態の画像領域選択処理は、大まかな処理は図5(a)に示した第1実施形態における画像領域選択処理と同様である。本実施形態では、S1600の領域制御処理の詳細が第1実施形態とは異なる。本実施形態のS1600の領域制御処理は、第1実施形態で行われる領域拡張操作及び領地縮小操作に加えて、飛び地拡張操作及び飛び地縮小操作の2種類を加えた、計4種類の操作の組み合わせで行われる。

0058

図13は、本実施形態のS1600の領域制御処理を表すフローチャートである。S1690、S1610、S1615、S1620、及びS1630の処理は、図5(b)に示す第1実施形態の処理と同様である。本実施形態では、領域制御部1600が、ユーザによる操作内容を判断して次の処理を決定するS1615の処理により、領域拡張操作及び領域縮小操作に加えて、飛び地拡張操作及び飛び地縮小操作の判断を行う。

0059

領域制御部1600は、ユーザが行った操作が領域拡張操作であればS1620の処理を行い、領域縮小操作であればS1630の処理を行い、ユーザが行った操作が領域選択終了操作であれば領域制御処理を終了する。領域制御部1600は、ユーザが行った操作が飛び地拡張操作であればS1640の飛び地拡張処理を行い、飛び地縮小操作であればS1650の飛び地縮小処理を行う。

0060

領域拡張操作及び領域縮小操作は、図7(b)、7(c)で説明した操作である。図14は、飛び地拡張操作及び飛び地縮小操作の説明図である。図14(a)は、飛び地拡張操作を表す。図14(b)は、飛び地縮小操作を表す。領域拡張操作及び領域縮小操作が上下スライド操作であるのに対し(図7(b)、7(c)参照)、飛び地拡張操作及び飛び地縮小操作は、左右スライド操作である。ここでスライド方向の区別は上下左右のスライド方向の組み合わせで4つの操作が区別できればよく、上に書かれている組み合わせに限定されるものではない。飛び地拡張操作及び飛び地縮小操作は、図14(c)に示すように、空間的に離れた別領域の別の指によるタップ操作ダブルタップ操作などで行われてもよい。
領域拡張操作、領域縮小操作、飛び地拡張操作、及び飛び地縮小操作は、マウスを利用する場合、マウスの上下動作もしくは左右動作を組み合わせて行われてもよく、いずれかをスクロールウィールの回転操作と組み合わせ行われてもよい。あるいは、領域拡張操作、領域縮小操作、飛び地拡張操作、及び飛び地縮小操作は、AltキーやTabキーなどの特殊キーとの組み合わせによって行われてもよい。

0061

S1640の処理では、領域制御部1600は、その時点における選択領域と同一カテゴリの小領域を、画像上の空間的な隣接関係にかかわらず、該選択領域に追加する。一つもしくは複数の小領域を追加すると、領域制御部1600は、S1690の処理に戻る。S1640の処理の具体例を以下に示す。

0062

例えば、図10(c)の状態で飛び地拡張操作が行われる場合、S1640の処理は、図6(c)の第4階層の領域識別結果140において行われており、拡張中の領域カテゴリは顔カテゴリである。その時点の選択領域422に対して隣接する同一カテゴリの小領域は、図10(a)の小領域406だけであるが、飛び地拡張操作では設定領域との隣接関係と関係なく、同一階層内の同一カテゴリの小領域が連結候補となる。

0063

図15は、飛び地拡張操作の説明図である。図15(a)の左側人物の顔を構成する小領域407、408、409、411、412、413も、右側人物の小領域406に加えて、選択領域422の連結対象候補となる。左側人物の顔を構成する小領域407、408、409、411、412、413のうち、特徴が選択領域422に最も近い領域が連結される。

0064

領域制御部1600は、選択領域422と最も特徴の近い小領域(ここでは小領域407)を該選択領域422に加えた飛び地領域を含めたものを、新たな選択領域として更新する。図15(b)は、更新された選択領域471を例示する。選択領域471に対して最も特徴の近い小領域が小領域408の場合、次に得られる選択領域は、図15(c)に例示する選択領域472のようになる。残りの小領域406、409、411、412、413がそれぞれ追加されることで、この階層における選択領域は、最終的に図15(d)に例示する選択領域470のようになる。

0065

図15(d)の状態で領域拡張操作が行われると、一段上の階層、ここでは第3階層、へと移って拡張処理が続けられることになる。この場合、領域制御部1600は、右側人物と左側人物それぞれの隣接領域に対して頭部カテゴリ領域を拡張していくことになる。そのため、この階層では最終的に図15(e)に例示する選択領域480が得られることになる。さらに領域拡張処理を続けると、第2階層では図11(f)に例示する選択領域450が得られる。

0066

S1650の処理では、領域制御部1600は、現時点の選択領域の中から、現時点の階層において初期領域と空間的に連結していない部分に関して、優先的に小領域を削除していく。領域制御部1600は、一つもしくは複数の小領域を選択領域から削除すると、S1690の処理へと戻る。S1650の処理の具体例を以下に示す。

0067

ここでは、図15(d)に例示する選択領域470に対して飛び地縮小処理を行う場合について説明する。初期領域が右側人物の領域である場合、領域制御部1600は、左側人物の顔領域における小領域の中から、選択領域470全体に対して最も特徴の異なる小領域を取り除く。このようにして、左側人物の顔における小領域がすべて選択領域から除かれると、図11(c)に例示する選択領域420が残る。さらに飛び地縮小操作が続けられた場合、領域縮小処理と同様にして右側人物の顔領域に関する領域縮小処理が行われる。

0068

以上のように領域拡張処理及び領域縮小処理に飛び地拡張処理及び飛び地縮小処理を併用することで、ユーザは、目的に応じて好みの領域を容易に選択することができる。例えば、図6(a)に例示する入力画像100において右側人物の体全体を選択したい場合、ユーザは、右側人物の内部領域を初期領域として選択する。情報処理装置は、この初期領域に基づいて領域拡張処理を続ける。図11(e)に例示する右側人物領域440が得られた時点でユーザが領域選択終了操作を行うことで、情報処理装置は、領域選択処理を終了する。

0069

また、左右人物の両方の顔だけを選択したい場合、ユーザは、いずれかの人物の顔領域内部をタップして初期領域として選択する。ユーザがその人物の顔領域が得られた時点で飛び地拡張操作を行うことで、情報処理装置は、もう一人の顔領域を含んだ選択領域を得ることができる。同様な操作によって、二人以上の人物領域を選択することも可能である。また、人物領域以外、例えば複数の自動車領域を同時選択する、といったことも可能であることは言うまでもない。

0070

(第3実施形態)
第1実施形態及び第2実施形態の領域制御時の処理単位となる小領域は、必ずしも所望の輪郭位置で分割されるとは限らない。例えば、黒髪の背景が暗い夜景であれば、髪と背景の領域が分割されずに一つの小領域となる可能性もある。本実施形態では、そのような場合に輪郭を修正して適切な小領域を得るようにする。本実施形態の装置構成は、図1に示した第1実施形態と同様であるため、説明を省略する。また、本実施形態の学習処理も、図2に示した第1実施形態における学習処理と同様であるため、説明を省略する。

0071

本実施形態の画像領域選択処理は、大まかな処理は図5(a)に示した第1実施形態における画像領域選択処理と同様である。本実施形態では、S1600の領域制御処理の詳細が第1実施形態とは異なる。本実施形態のS1600の領域制御処理は、第2実施形態で行われる領域拡張操作、領地縮小操作、飛び地拡張操作、及び飛び地縮小操作に加えて、輪郭修正操作及び領域追加操作の2種類の操作を加えた、計6種類の操作の組み合わせで行われる。

0072

図16は、本実施形態のS1600の領域制御処理を表すフローチャートである。S1690、S1610、S1615、S1620、S1630、S1640、及びS1650の処理は、図13に示す第2実施形態の処理と同様である。本実施形態では、領域制御部1600が、ユーザによる操作内容を判断して次の処理を決定するS1615の処理により、領域拡張操作、領地縮小操作、飛び地拡張操作、及び飛び地縮小操作に加えて、輪郭修正操作及び領域追加操作の判断を行う。

0073

領域制御部1600は、ユーザが行った操作が領域拡張操作であればS1620の処理を行い、領域縮小操作であればS1630の処理を行い、ユーザが行った操作が領域選択終了操作であれば領域制御処理を終了する。領域制御部1600は、ユーザが行った操作が飛び地拡張操作であればS1640の処理を行い、飛び地縮小操作であればS1650の処理を行う。領域制御部1600は、ユーザが行った操作が輪郭修正操作であればS1660の処理を行い、領域追加操作であればS1670の処理を行う。

0074

領域拡張操作、領域縮小操作、飛び地拡張操作、及び飛び地縮小操作は、図7及び図14で説明した操作である。図17は、輪郭修正操作の説明図である。図18は、領域追加操作の説明図である。

0075

図17(a)は、表示された入力画像800に対して領域拡張操作及び領域縮小操作を行った結果得られる領域850を示す。ここでユーザが本当に得たい領域は、輪郭810で表される。実際に得られている領域は、輪郭820で表される。そのため、輪郭810と輪郭820との間の領域は、不要領域となる。
図17(b)では、輪郭修正操作として、ユーザが、領域選択に用いた指とは別の指で、表示された入力画像800の不要領域部分に対してフリック操作を行っている。ここではフリック操作を輪郭修正操作としている。輪郭修正操作は、それ以外に、不要領域に対するタップ操作やダブルタップ操作であってもよい。情報処理装置は、輪郭修正操作を行った際にユーザが指定した不要領域の位置を、不要領域位置として記憶しておく。

0076

領域制御部1600は、S1660の処理により、不要領域位置の付近の画像に対する小領域分割を再び行う。図17(c)は、選択された不要領域位置を含む小領域830を例示する。領域制御部1600は、この小領域830の内部で、小領域分割をさらに細かくするように領域分割パラメータを再設定し、図17(d)に例示するように、小領域830を細分割した小領域831、832を生成する。領域制御部1600は、細分割して生成した不要領域位置を含む小領域832に関してはどのカテゴリにも属さない、というフラグを付与し、領域拡張及び領域縮小処理の対象外として選択領域から除外する。領域制御部1600は、選択領域を更新するとS1690の処理に戻る。

0077

領域追加操作について説明する。図18(a)は、入力画像900に対して領域拡張操作及び領域縮小操作を行った結果得られる領域950を示す。ここでユーザが本当に得たい領域は、輪郭910で表される。そのために、選択領域外不足領域920が発生している。図18(b)では、領域追加操作として、ユーザは、領域選択に用いた指とは別の指で不足領域部分をロングタップする。情報処理装置は、領域追加操作を行った際にユーザが指定した位置を、追加領域位置として記憶しておく。
領域制御部1600は、S1670の処理により、指定された追加領域位置にある小領域のカテゴリ判定結果を、選択領域のカテゴリと一致するように置き換えて選択領域に追加する。領域制御部1600は、選択領域を更新するとS1690の処理に戻る。

0078

このような処理により、小領域の細分割による輪郭修正と、欠けている領域の追加とをユーザが簡単に行えることができるようになる。そのために、情報処理装置は、小領域分割や領域認識が不適切であっても、簡単な操作でより正確な領域を選択することができる。

0079

(第4実施形態)
第1〜第3実施形態では、画像の各小領域に対する領域識別結果として一つのカテゴリだけが得られるように説明したが、カテゴリの多義性を考慮して複数カテゴリが得られるようにしてもよい。本実施形態では、複数カテゴリの出力を許容する画像領域選択方法について説明する。なお、カテゴリの多義性とは、画像中の所定の領域について、所属するカテゴリが一意に決まらないような状態を指す。例えば、木のがむき出しで建てられているログハウスは、カテゴリとして自然物の木と判定されても、人工物の建物と判定されても差し支えない、といった場合がある。学習画像においてそのような領域があった場合には、領域カテゴリラベルとして複数のラベルが重複して付与される。

0080

本実施形態では、学習処理において、領域識別器生成部2300が以下のような式により領域識別器の学習を行う。

0081

0082

ここでC_(r,l)は、第l階層における小領域rに関して重複を許容して割り当てられた、カテゴリラベルインデックスの集合である。その他については、第1実施形態と同様の学習処理が行われる。

0083

画像領域選択処理では、領域識別部1300が以下の式により各小領域kの領域識別結果を取得する。

0084

0085

ここでC_(k,l)は、第l階層における小領域kに関する識別結果となるカテゴリインデックスの集合である。θは所定の閾値であって、例えばθ=0.5などと設定される。これにより、入力画像の領域によっては複数のクラスラベルが識別結果として得られる場合が発生することになる。

0086

第1〜第3実施形態で説明した領域拡張処理、領域縮小処理、飛び地拡張処理、飛び地縮小処理、輪郭修正処理、及び領域追加処理は、初期領域設定部1500によるS1500の初期領域設定処理でユーザが設定した初期領域にのみ依存する。そのために、上記のように各小領域に対して複数ラベルが割り当てられていても、同様の処理を行うことによって画像領域選択処理を実行することで、第1〜第3実施形態で説明した効果を得ることができる。

0087

(第5実施形態)
第1〜第4実施形態では、領域拡張及び領域縮小が、選択領域に対する小領域の追加及び削除により行われる。領域拡張及び領域縮小は、小領域単位で行う他に、画素単位で行われてもよい。この場合、領域制御部1600は、S1620の処理で、選択領域と隣接する同一カテゴリ画素の中で、選択領域に対して最も類似度の高い画素を追加する。このときに利用できる類似度としては、選択領域内色分布混合ガウス分布として表したときの、画素色輝度値の尤度を用いてもよい。同様にして領域制御部1600は、S1630の処理で、選択領域の一番外側の画素で、選択領域との類似度の最も低い画素を該選択領域から削除する。

0088

以上のような各実施形態では、事前知識を使って学習することによって得られる意味的なカテゴリに基づいて領域を設定するため、ボトムアップな領域成長と比べて正確な領域を選択することができる。また、意味的なカテゴリの上位/下位の概念に従って、さまざまなレベルの意味的な領域が選択可能である。これによりユーザは、画像中の領域を簡単に選択できるようになり、従来の点指定では煩雑であった領域単位のユーザインタフェースによる諸作業を簡単に行うことができるようになる。

0089

本発明は、上述の各実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ