図面 (/)

技術 ビデオフレームを選択する方法、システム及び装置

出願人 キヤノン株式会社
発明者 サミーチャンカミンレオンマークロナルドテインシュ
出願日 2017年5月11日 (3年7ヶ月経過) 出願番号 2017-094882
公開日 2017年11月16日 (3年1ヶ月経過) 公開番号 2017-204280
状態 特許登録済
技術分野 TV信号の記録 イメージ分析
主要キーワード 固定判定 シーケンシャルフレーム トランシーバデバイス 候補セグメント 閾値期間 中央領 半導体リード ヒューマンインタフェースデバイス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年11月16日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

印刷や表示のためにビデオの所望のフレームを抽出する方法、システム及び装置を提供する。

解決手段

複数の顔がビデオシーケンスの少なくとも1つのビデオフレームにおいて検出される。検出された顔の向きは、第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連後続するビデオフレーム上で追跡される。方法は、その後、検出された顔の追跡された向きを用いて、検出された顔の凝視固定を特定する少なくとも所定数のフレームについて、第1及び第2の検出された顔が互いの方を向いているビデオシーケンスの一部を判定する。ビデオシーケンスの判定された一部から少なくとも1つのビデオフレームを選択する。

概要

背景

ビデオは、シーン次々展開されるイベントキャプチャするために効果的な方法である。人はしばしば、誕生日パーティ結婚式旅行スポーツなどのイベントについてのビデオをキャプチャする。静止画像と違って、ビデオには、特に、自然な顔の表情や、人間の交流(例えば、話す、互いに微笑む、キスする、ハグする、握手する)のような、発展的で体系化されていないイベントをキャプチャするという利点がある。静止画像が用いられているのと同様な方法により、表示用もしくは印刷書籍におけるコンテンツとしての使用のためにビデオフレームシーケンスから個別のフレームを選択することがしばしば望まれる。加えて、セグメントとして知られるビデオシーケンスサブセクションは、ビデオシーケンスの概略説明としての表示のために選択され得る。ビデオセグメントは、ビデオシーケンスの一連シーケンシャルなビデオフレームを含む。

携帯電話や他のコンシューマ向けのカメラ機器需要アクセスのしやすさとの増大に伴って、ますます、ビデオデータはキャプチャされて保存されている。従って、関連するビデオを見つけること、及び/又は、印刷や表示のためにビデオの所望のフレームを抽出することはますます困難になってきている。

ビデオフレームを選択する一つの方法においては、写真構図、色の配分、にじみ、色のコントラスト鮮鋭さ、露出を含む画像品質指標に基づくことのみにより、所望のビデオセグメントやフレームを決定する。携帯機器上で直接、画像解析を実行する代わりに、ビデオフレームやセグメントを選択する代替方法においては、絞りシャッタースピード、ISO、レンズの種類やカメラ動きといったカメラの特定のパラメータを用いる。ビデオフレームを選択する、より最近の方法においては、顔、オブジェクト、イベントの種類、人間の行動識別することによりビデオセグメントや画像の選択を容易にするために、ビデオから高レベルの意味を抽出することが試みられている。特に、結婚式やスポーツのイベントについての幾つかの方法においては、ビデオシーケンスにおいて重要なシーン、オブジェクト、イベントを識別するために、カメラのフラッシュや、音声の特徴(例えば、音楽拍手歓声)を検出する。

概要

印刷や表示のためにビデオの所望のフレームを抽出する方法、システム及び装置を提供する。複数の顔がビデオシーケンスの少なくとも1つのビデオフレームにおいて検出される。検出された顔の向きは、第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で追跡される。方法は、その後、検出された顔の追跡された向きを用いて、検出された顔の凝視固定を特定する少なくとも所定数のフレームについて、第1及び第2の検出された顔が互いの方を向いているビデオシーケンスの一部を判定する。ビデオシーケンスの判定された一部から少なくとも1つのビデオフレームを選択する。

目的

本発明の目的は、既存の構成の少なくとも1つの不利点を十分に解消し、もしくは少なくとも改善することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法であって、前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出し、第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連後続するビデオフレーム上で前記検出された複数の顔の向きを追跡し、前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数フレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定し、前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択することを有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とする方法。

請求項2

前記第1の検出された顔は、前記第2の検出された顔が静止している間に、前記第2の検出された顔の方を向いていく顔であることを特徴とする請求項1に記載の方法。

請求項3

前記凝視固定は閾値期間に依存することを特徴とする請求項1に記載の方法。

請求項4

前記凝視固定は最小のターニング時間に依存することを特徴とする請求項1に記載の方法。

請求項5

前記選択されたフレームの中央の領域の外側の顔は無視されることを特徴とする請求項1に記載の方法。

請求項6

フォトブックにおいて前記選択されたフレームを印刷することをさらに有することを特徴とする請求項1に記載の方法。

請求項7

前記ビデオシーケンスの概略説明において前記選択されたフレームを表示することを有することを特徴とする請求項1に記載の方法。

請求項8

前記ビデオシーケンスの前記一部の前記フレームにおいて、前記第1の検出された顔は、前記第2の顔と相対的に前方を向いており、前記第2の顔は、前記第1の顔と相対的に後方を向いていることを特徴とする請求項1に記載の方法。

請求項9

ビデオシーケンスの少なくとも1つのビデオフレームを選択するシステムであって、データ及びコンピュータプログラムを記憶するメモリと、前記コンピュータプログラムを実行するためのメモリと結合されたプロセッサと、を有し、前記コンピュータプログラムは、前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出し、第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡し、前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定し、前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択するインストラクションを有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とするシステム。

請求項10

ビデオシーケンスの少なくとも1つのビデオフレームを選択する装置であって、前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出する手段と、第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡する手段と、前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定する手段と、前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択する手段と、を有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とする装置。

請求項11

ビデオシーケンスの少なくとも1つのビデオフレームを選択するための、媒体上に記憶されたコンピュータプログラムを有するコンピュータ読取可能な媒体であって、前記プログラムは、前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出するコードと、第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡するコードと、前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定するコードと、前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択するコードと、を有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とするコンピュータ読取可能な媒体。

技術分野

0001

本開示は、一般的に画像処理に関し、特に、ビデオシーケンスビデオフレームを選択する方法、システム及び装置に関する。本発明はまた、ビデオシーケンスのビデオフレームを選択するコンピュータプログラムを記憶したコンピュータ読取可能な媒体を含むコンピュータプログラムプロダクトに関する。

背景技術

0002

ビデオは、シーン次々展開されるイベントキャプチャするために効果的な方法である。人はしばしば、誕生日パーティ結婚式旅行スポーツなどのイベントについてのビデオをキャプチャする。静止画像と違って、ビデオには、特に、自然な顔の表情や、人間の交流(例えば、話す、互いに微笑む、キスする、ハグする、握手する)のような、発展的で体系化されていないイベントをキャプチャするという利点がある。静止画像が用いられているのと同様な方法により、表示用もしくは印刷書籍におけるコンテンツとしての使用のためにビデオフレームのシーケンスから個別のフレームを選択することがしばしば望まれる。加えて、セグメントとして知られるビデオシーケンスのサブセクションは、ビデオシーケンスの概略説明としての表示のために選択され得る。ビデオセグメントは、ビデオシーケンスの一連シーケンシャルなビデオフレームを含む。

0003

携帯電話や他のコンシューマ向けのカメラ機器需要アクセスのしやすさとの増大に伴って、ますます、ビデオデータはキャプチャされて保存されている。従って、関連するビデオを見つけること、及び/又は、印刷や表示のためにビデオの所望のフレームを抽出することはますます困難になってきている。

0004

ビデオフレームを選択する一つの方法においては、写真構図、色の配分、にじみ、色のコントラスト鮮鋭さ、露出を含む画像品質指標に基づくことのみにより、所望のビデオセグメントやフレームを決定する。携帯機器上で直接、画像解析を実行する代わりに、ビデオフレームやセグメントを選択する代替方法においては、絞りシャッタースピード、ISO、レンズの種類やカメラ動きといったカメラの特定のパラメータを用いる。ビデオフレームを選択する、より最近の方法においては、顔、オブジェクト、イベントの種類、人間の行動識別することによりビデオセグメントや画像の選択を容易にするために、ビデオから高レベルの意味を抽出することが試みられている。特に、結婚式やスポーツのイベントについての幾つかの方法においては、ビデオシーケンスにおいて重要なシーン、オブジェクト、イベントを識別するために、カメラのフラッシュや、音声の特徴(例えば、音楽拍手歓声)を検出する。

発明が解決しようとする課題

0005

本発明の目的は、既存の構成の少なくとも1つの不利点を十分に解消し、もしくは少なくとも改善することである。

課題を解決するための手段

0006

本開示の1つの態様によると、ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法が提供される。その方法は、
前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出し、
第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡し、
前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定し、
前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択することを有し、前記選択されたビデオフレームは、前記検出された顔の前記凝視固定をキャプチャするものであることを特徴とする。

0007

本開示の他の態様によると、ビデオシーケンスの少なくとも1つのビデオフレームを選択するシステムが提供される。そのシステムは、
データ及びコンピュータプログラムを記憶するメモリと、
前記コンピュータプログラムを実行する前記メモリと結合したプロセッサとを有し、前記コンピュータプログラムは、
前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出し、
第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡し、
前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定し、
前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択するインストラクションを有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とする。

0008

本開示のさらなる他の態様によると、ビデオシーケンスの少なくとも1つのビデオフレームを選択する装置が提供される。その装置は、
前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出する手段と、
第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡する手段と、
前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定する手段と、
前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択する手段と、を有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とする。

0009

本開示のさらなる他の態様によると、ビデオシーケンスの少なくとも1つのビデオフレームを選択するための、媒体上に記憶されたコンピュータプログラムを有するコンピュータ読取可能な媒体が提供される。そのプログラムは、
前記ビデオシーケンスの少なくとも1つのビデオフレームにおいて複数の顔を検出するコードと、
第1の検出された顔が第2の検出された顔の方を向いていくかを判定するために、一連の後続するビデオフレーム上で前記検出された複数の顔の向きを追跡するコードと、
前記検出された複数の顔の前記追跡された向きを用いて、前記検出された複数の顔の凝視固定を特定する少なくとも所定数のフレームである、前記第1及び第2の検出された顔が互いの方を向いている前記ビデオシーケンスの一部を判定するコードと、
前記ビデオシーケンスの前記判定された一部から少なくとも1つのビデオフレームを選択するコードと、を有し、前記選択されたビデオフレームは、前記検出された顔の凝視固定をキャプチャするものであることを特徴とする。

0010

他の態様も同様に開示される。

図面の簡単な説明

0011

本発明の少なくとも1つの実施形態が以下の図面を参照することで説明される。

図1及び図2は、記載される構成が実行される場合の汎用的なコンピュータのブロック図である。
図3は、ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法を示すフロー図である。
図4は、図3の方法において用いられる候補ビデオセグメントを検出する方法を示すフロー図である。
図5は、図4の方法の出力を示す図である。
図6は、候補ビデオセグメントにおける一連のビデオフレーム上で顔を追跡する方法を示すフロー図である。
図7Aは、候補セグメント内の一フレーム期間上の一対の顔を示す図である。
図7Bは、顔の向きを表すために用いられる角度を示す図である。
図7Cは、顔が異なる深度にあることを判定するために用いられ得る異なるサイズの顔を示す図である。
図7Dは、凝視コンタクトであることを示す位置及び向きを有する顔の配置を示す図である。
図7Eは、上方を見る顔と下方を見る顔を示す図である。
図8は、図3の方法において用いられるような凝視コンタクトを検出する方法を示すフロー図である。

実施例

0012

少なくともいずれかの付随する図面がステップ及び/又は特徴について参照される。同一の参照番号は、反対の意思がない限り、記載の目的のための同一の機能や動作を示す。

0013

人間間での対話があるフレームが、印刷、表示等のための一連のビデオフレームから選択されても良い。例えば、多くの人々がいるフレームが選択されても良い。他の例として、人々が互いに活発関与しているフレームが選択されても良い。そのような人々の活発な関与は、話す、微笑む、を含んで良く、また、互いに見合う少なくとも2人の人々を必要としても良い。しかしながら、従来の方法を用いてそのような関与を検出することは、計算的に高価なものとなり得る。

0014

本開示は、ビデオフレームで示される対象物間の関与の検出に基づいて、一連のビデオフレームから所望のビデオフレームを選択する方法を提供することを対象としている。詳細は後述するが、関連するビデオセグメント及びフレームは、一連のビデオフレームから抽出され得る。各ビデオセグメントは、ビデオシーケンスの一連のシーケンシャルなビデオフレームを含む。ビデオフレームは、ビデオデコード処理においてビデオシーケンスから抽出され得る。抽出されたフレームは、デジタル静止写真撮影を通して得られる画像と同様に扱われ得る。用語「画像」と「フレーム」は、以下の記載においては置き換え可能である。

0015

図1及び図2は、記載される様々な構成が実現され得る、汎用的なコンピュータシステム100を示す。

0016

図1に示すように、コンピュータシステム100は、コンピュータモジュール101、キーボード102、マウスポインタデバイス103、スキャナ126、カメラ127、マイクロホン180のような入力デバイスと、プリンタ115、表示デバイス114、スピーカ117を含む出力デバイスとを含む。外部のモジュレータデモジュレータ(MODEMトランシーバデバイス116は、接続121を介して通信ネットワーク120に対してもしくは通信ネットワーク120から、通信するためのコンピュータモジュール101により用いられても良い。通信ネットワーク120は、インターネットのようなワイドエリアネットワークWAN)、携帯電話通信ネットワークや、プライベートWANであっても良い。接続121は電話回線であって、モデム116は、一般的なダイアルアップモデムであっても良い。また、接続121は高容量(ケーブル等)接続であっても良く、モデム116は、ブロードバンドモデムであっても良い。ワイヤレスモデムも同様に、通信ネットワーク120への無線接続に用いられても良い。

0017

コンピュータモジュール101は、一般的には、少なくとも1つのプロセッサユニット105と、メモリユニット106を含む。例えば、メモリユニット106は、半導体ランダムアクセスメモリ(RAM)と半導体リードオンリーメモリ(ROM)を有しても良い。コンピュータモジュール101は、また、多くの入力/出力(I/O)インタフェースを含み、入力/出力(I/O)インタフェースは、ビデオディスプレイ114、スピーカ117、マイクロホン180に結合された音声ビデオインタフェース107、キーボード102、マウス103、スキャナ126、カメラ127、オプションとしてのジョイスティックや他のヒューマンインタフェースデバイス(不図示)と結合されたI/Oインタフェース113、外部モデム116とプリンタ115用のインタフェース108を含む。幾つかの形態として、モデム116は、コンピュータモジュール101内に含まれても良く、例えばインタフェース108内に含まれても良い。コンピュータモジュール101は、また、ローカルネットワークインタフェース111を有し、ローカルネットワークインタフェース111は、ローカルエリアネットワーク(LAN)として知られるローカルエリア通信ネットワーク122への接続123を介したコンピュータシステム100の結合を許可する。図1に示されるように、ローカル通信ネットワーク122は、また、接続124を介してワイドネットワーク120に結合されても良く、一般的には、いわゆるファイヤウォールデバイスもしくは類似の機能のデバイスを含む。ローカルネットワークインタフェース111は、イーサネット登録商標回路カード、Bluetooth(登録商標)無線構成や、IEEE802.11無線構成を含んでも良い。しかしながら、多くの他のタイプのインタフェースがインタフェース111として実現されても良い。

0018

I/Oインタフェース108と113は、シリアル接続パラレル接続の両方、もしくはいずれかを可能である。前者は、一般的には、ユニバーサルシリアルバス(USB)規格準拠して実現され、USBコネクタ(不図示)に対応している。ストレージデバイス109が構成され、一般的には、ハードディスクドライブ(HDD)110を含む。フロッピーディスクドライブ磁気テープドライブ(不図示)等の他のストレージデバイスが用いられても良い。光ディスクドライブ112は、一般的には、データの不揮発性ソースとしてふるまうように構成されている。ポータブルメモリデバイス、例えば、光ディスク(例えば、CD−ROM、DVD、ブルーレイディスク(商標))、USB−RAM、ポータブル、外部ハードドライブフロッピーディスクなどがシステム100への適切なデータソースとして用いられても良い。

0019

コンピュータモジュール101のコンポーネント105〜113は、一般的には、相互接続バス104を介し、当業者に知られているコンピュータシステム100の動作の一般的なモードをもたらす方法によって通信される。例えば、プロセッサ105は、接続118を用いて、システムバス104に結合されている。同様に、メモリ106と光ディスクドライブ112は、接続119によりシステムバス104に結合されている。記載された構成が実現され得るコンピュータの例は、IBM−PCおよび互換機、SunSparcstations、Apple Mac(商標)、若しくは同様のコンピュータシステムを含む。

0020

以下に記載する方法は、コンピュータシステム100を用いることで実現されても良い。コンピュータシステム100では、図3図8で記載される処理が、コンピュータシステム100内で実行可能な少なくとも1つのソフトウェアアプリケーションプログラム133として実行されても良い。特に、記載される方法のステップは、コンピュータシステム100内で実行されるソフトウェア133におけるインストラクション131(図2参照)により実現される。ソフトウェアのインストラクション131は、それぞれが少なくとも1つの特有タスクを実行するための、少なくとも1つのコードモジュールとして形成されても良い。ソフトウェアはまた、2つの別個の部分に分割されても良い。その場合、第1の部分及び対応するコードモジュールは、記載される方法を実行し、第2の部分及び対応するコードモジュールは、第1の部分とユーザとの間のユーザインタフェースを管理する。

0021

ソフトウェアは、例えば以下に記載するストレージデバイスを含むコンピュータ読取可能な媒体に記憶されても良い。ソフトウェア133は、一般的には、HDD110若しくはメモリ106に記憶される。ソフトウェアは、コンピュータ読取可能な媒体からコンピュータシステム100にロードされ、そして、コンピュータシステム100により実行される。従って、例えば、ソフトウェア133は、光ディスクドライブ112により読み出される光学的に読取可能なディスクストレージ媒体(例えば、CD−ROM)125上に記憶されても良い。コンピュータ読取可能な媒体上に記録されたそのようなソフトウェアやコンピュータプログラムは、コンピュータプログラムプロダクトである。コンピュータシステム100におけるコンピュータプログラムプロダクトの使用は、好ましくは、記載される方法を実行するための有利な装置をもたらす。

0022

幾つかの例では、アプリケーションプログラム133は、少なくとも1つのCD−ROM125上にコード化され、対応するドライブ112を介して読み出されても良い。若しくは代わりに、ネットワーク120若しくは122からユーザにより読み出されても良い。さらには、ソフトウェアはまた、他のコンピュータ読取可能な媒体からコンピュータシステム100にロードされても良い。コンピュータ読取可能なストレージ媒体は、記録されたインストラクション及び/又はデータを、実行及び/又は処理用のコンピュータシステム100へ提供するようないかなる不揮発性の有形のストレージ媒体にも言及する。そのようなストレージ媒体の例は、フロッピーディスク、磁気テープ、CD−ROM、DVD、ブルーレイ(商標)ディスク、ハードディスクドライブ、ROM若しくは集積回路USBメモリ磁気光ディスク、若しくは、PCMCIAカード等のコンピュータ読取可能なカードを、それらのようなデバイスがコンピュータモジュール101の内部であろうと外部であろうと含むものである。ソフトウェア、アプリケーションプログラム、インストラクション及び/又はデータのコンピュータモジュール101への提供に関わり得る一時的若しくは非有形のコンピュータ読取可能な伝送媒体の例は、他のコンピュータ若しくはネットワーク化されたデバイスへのネットワーク接続と同様に、無線若しくは赤外線伝送チャネルを含む。そして、インターネット若しくはイントラネットは、ウェブサイト等で記録された情報や電子メール送信を含む。

0023

アプリケーションプログラム133の第2の部分及び上述の対応するコードモジュールは、レンダリングされ、若しくは、ディスプレイ114上に別の方法で表される少なくとも1つのグラフィカルユーザインタフェースGUI)を実施するように実行されても良い。一般的に、キーボード102とマウス103の操作を通して、コンピュータシステム100のユーザ及びアプリケーションは、制御コマンド及び/又は入力を、GUIと関連するアプリケーションへ提供するために、機能上適応可能な方法でインタフェースを操作しても良い。また、スピーカ117を介した音声プロンプト出力を利用したオーディオインタフェースや、マイクロホン180を介したユーザボイスコマンド入力のような、機能上適応可能なユーザインタフェースの他の形式が実行されても良い。

0024

図2は、プロセッサ105とメモリ134の詳細なブロックダイアグラムを示す図である。メモリ134は、図1のコンピュータモジュール101によりアクセスされ得る全てのメモリモジュール(HDD109と半導体メモリ106を含む)の論理的な集合体を表す。

0025

コンピュータモジュール101が最初に電源投入されたとき、電源投入セルフテストPOST)プログラム150が実行される。POSTプログラム150は、一般的には、図1の半導体メモリ106のROM149に記憶されている。ソフトウェアを記憶するROM149のようなハードウェアデバイスは、ファームウェアとして称される場合がある。POSTプログラム150は、適切な機能を確認するためにコンピュータモジュール101内のハードウェア試験し、一般的には、正しい動作のために、プロセッサ105、メモリ134(109、106)、基本入出力システムソフトウェア(BIOS)モジュール151をチェックし、一般的には、ROM149に記憶される。POSTプログラム150が成功裡に動作すると、BIOS151は、図1のハードディスクドライブ110を作動させる。ハードディスクドライブ110の作動は、ハードディスクドライブ110上で常駐するブートストラップローダープログラム152を、プロセッサ105を介して実行させる。このことにより、オペレーティングシステム153が動作を開始するときに、オペレーティングシステム153がRAMメモリ106にロードされる。オペレーティングシステム153は、プロセッサ管理、メモリ管理デバイス管理ストレージ管理ソフトウェアアプリケーションインタフェース、汎用的なユーザインタフェースを含む様々な高レベルの機能を実現する、プロセッサ105により実行可能なシステムレベルアプリケーションである。

0026

オペレーティングシステム153は、各プロセス若しくはコンピュータモジュール101上で動作するアプリケーションが他のプロセスに割り当てられるメモリと衝突することなく実行するための十分なメモリを有することを確実にするため、メモリ134(109、106)を管理する。さらに、各プロセスが効果的に動作し得るために、図1のシステム100において有効なメモリと異なるタイプが適切に用いられる必要がある。従って、集合化されたメモリ134は、適切なメモリセグメントがどのように割り当てられるかを意図しておらず(さもなければ、述べられなければ)、むしろ、コンピュータシステム100によりアクセス可能なメモリの汎用的な図を提供してどのように用いられるかを示すことを意図している。

0027

図2に示すように、プロセッサ105は、多くの機能モジュールを含み、機能モジュールは、コントロールユニット139、算術論理ユニットALU)140、しばしばキャッシュメモリと呼ばれるローカル若しくは内部メモリ148を含む。キャッシュメモリ148は、一般的には、レジスタセクションにおいて多くのストレージレジスタ144〜146を含む。少なくとも1つの内部バス141は、機能的に、これらの機能モジュールを相互接続する。プロセッサ105はまた、一般的には、接続118を用いて、システムバス104を介して外部デバイスと通信する少なくとも1つのインタフェース142を有する。メモリ134は、接続119を用いてバス104に結合されている。

0028

アプリケーションプログラム133は、連続するインストラクションを含み、インストラクションは、一般的な分岐及びループのインストラクションを含んでも良い。プログラム133はまた、プログラム133の実行において用いられるデータ132を含む。インストラクション131及びデータ132は、記憶場所128、129、及び130と、135、136、及び137とのそれぞれに格納されている。インストラクション131の相対的サイズ及び記憶場所128〜130に応じて、特定のインストラクションが記憶場所130で示されるインストラクションで記述される単一の記憶場所に格納されても良い。また、記憶位置128及び129で示されるインストラクションセグメントにより記述されるように、各々が別個の記憶位置に格納される多くの部分にインストラクションがセグメント化されても良い。

0029

一般的には、プロセッサ105により、実行される一連のインストラクションが与えられる。プロセッサ105は、他のインストラクションセットを実行することにより反応する後続の入力を待機する。各入力は、少なくとも1つのソースから提供され、ソースは、図1に示される、入力デバイス102、103の少なくとも1つにより生成されたデータ、ネットワーク120、102の1つを介して外部ソースから受信したデータ、ストレージデバイス106、109の1つから受信したデータ、若しくは、対応するリーダー112に挿入されたストレージ媒体125から受信したデータ、を含む。インストラクションセットの実行は、幾つかのケースにおいては、データの出力をもたらしても良い。実行はまた、データ若しくは変数をメモリ134に格納することを含んでも良い。

0030

開示される構成は、入力変数154を用い、入力変数154は、メモリ134における対応する記憶場所155、156、157に格納される。開示される構成は、出力変数161を生成し、出力変数161は、メモリ134における対応する記憶場所162、163、164に格納される。中間変数158は、記憶場所159、160、166、167に格納されても良い。

0031

図2のプロセッサ105に言及すると、レジスタ144、145、146、算術論理ユニット(ALU)140、コントロールユニット139は、協調して、プログラム133を構成するインストラクションセットにおけるインストラクションごとに「フェッチデコード、実行」のサイクルを実行するために必要とされるマイクロオペレーションのシーケンスを実行する。それぞれの、フェッチ、デコード、実行のサイクルは、
記憶位置128、129、130からインストラクション131をフェッチ若しくは読み出すフェッチオペレーションと、
コントロールユニット139がどのインストラクションがフェッチされたかを判定するデコードオペレーションと、
コントロールユニット139及び/又はALU140がインストラクションを実行する実行オペレーションと、を含む。

0032

その後、次のインストラクションについてのさらなるフェッチ、デコード、実行サイクルが実行されても良い。同様に、コントロールユニット139が値を記憶場所132に格納若しくは書き込むことにより、格納サイクルが実行されても良い。

0033

図3から図8の処理における各ステップ若しくはサブステップは、プログラム133の少なくとも1つのセグメントに関連する。そして、図3から図8の処理における各ステップ若しくはサブステップは、フェッチ、デコードを実行し、プログラム133の記載されたセグメントについてのインストラクションセットにおけるインストラクションごとにサイクルを実行するように協調する、プロセッサ105内の、レジスタセクション144、145、147、ALU140、コントロールユニット139により実行される。

0034

記載された方法は、また、記載された方法の機能若しくは副次機能を実行する少なくとも1つの集積回路のような専用ハードウェアにおいて実行されても良い。そのような専用ハードウェアは、グラフィックプロセッサデジタル信号処理プロセッサ、若しくは、少なくとも1つのマイクロプロセッサ及び関連するメモリを含んでも良い。

0035

図3は、入力ビデオシーケンスの少なくとも1つのビデオフレームを選択する方法300を示すフローダイアグラムである。方法300は、ビデオシーケンスのビデオフレームで示されるサブジェクト間の関与の検出に基づいて、ビデオシーケンスから所望のフレームを判定する。

0036

ビデオシーケンスとスチール写真技術の両方から魅力的なフレームを判定するために多くの要素が用いられても良い。鮮鋭さ及び許容可能な彩度のような従来の画像品質要素が、画像を選択するために用いられても良い。加えて、行動、微笑、ありきたりなコンテンツ(例えば、誕生日にろうそくを吹き消す子供)を含む、より抽象的な要素が、もし検出されるのであれば、画像を選択するために用いられても良い。

0037

画像において魅力的なコンテンツの1つのクラスは、互いに活発に関与する人々である。活発な関与とは、例えば、画像において、互いに話したり、微笑んだりしているところをキャプチャされた人々を含む。

0038

方法300は、既存の構成と比較すると、計算的に安価な技術を提供する。方法300は、人々がビデオシーケンスにおいてどこで関与を確立しているかを判定し、関与の期間に基づいて、ビデオシーケンスのフレーム若しくはセグメントを選択する。上述のように、各ビデオセグメントは、ビデオシーケンスの一連のシーケンシャルなビデオフレームを含む。

0039

用語「凝視固定」は、以下詳述するように、関与の期間に基づいて、方法300に従って検出された項目に言及する。記載されるように、凝視固定は、所定の凝視固定の閾値期間に依存しても良い。

0040

用語「凝視固定」は、眼の方向の追跡に言及する凝視検出と解釈されるべきではない。しかしながら、深度検出とともに凝視検出は、後述するように、顔の向きを監視する中で代わりのステップとして用いられても良い。方法300は、凝視検出及び深度検出の正確性及び複雑性欠如の理由から、ビデオシーケンスのフレームを選択するにおいて、凝視検出及び深度検出の単なる使用に対しての有利性を提供する。

0041

方法300は、少なくとも1つの所望の、入力ビデオシーケンスから抽出されたばらばらのビデオセグメントをマージすることにより、図1のコンピュータシステム100を用いてビデオサマリを生成して表示するために用いられても良い。

0042

方法300はまた、印刷用のビデオシーケンス(例えば、フォトブックを生成する目的用)の抽出されたビデオセグメントから、少なくとも1つの所望のフレームを選択するために用いられても良い。少なくとも1つのビデオフレームは、ビデオフレームの入力されたシーケンスから表示され若しくは印刷される。

0043

方法300は、図3を参照し例を通して記載される。方法300は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実現されても良い。

0044

方法300に対する入力は、発展的なイベント若しくはシーンを示す複数のビデオフレームを含むビデオシーケンスである。入力ビデオシーケンスは、ビデオ信号と同期した少なくとも1つの複数音声チャネルを含んでも良い。入力ビデオシーケンスは、単一の「ショット」(例えば、テーク(take))を含み、ショットは、ビデオフレームの連続するシーケンスである(例えば、カメラを変えることなく若しくはビデオシーケンスのフレームのキャプチャをポーズ/停止することなくキャプチャされた)。他のケースにおいて、ビデオシーケンスは、複数のショットを含んでも良い。

0045

幾つかのケースにおいて、入力ビデオシーケンスは、ホームビデオであっても良い。代わりに、ビデオシーケンスは、映画撮影技術のルールに則って専門的に生成されたビデオであっても良い。

0046

方法300は、候補ビデオセグメント検出ステップ310で開始し、複数の(2以上の)顔を含むシーンを示す一連の候補ビデオセグメントが、プロセッサ105の実行の下、検出される。各候補ビデオセグメントは、入力ビデオシーケンスの一部分を表す。入力ビデオシーケンスの各部分は、ビデオシーケンスの一連のシーケンシャルビデオフレームを含む。

0047

1つの構成において、ステップ310で検出された顔は、所定のサイズ閾値より大きいことを要求されても良い。ステップ310で実行される、候補ビデオセグメントの検出方法400は、図4を参照しながら詳細を後述する。

0048

ステップ310の出力は、一連の候補ビデオセグメント、候補ビデオセグメントの各シーケンシャルフレームにおいて検出された顔のサイズ、位置、及び向きである。図5は、そのようなビデオセグメント500の1つの特定のフレーム510の例、及びフレーム510において検出された顔を示す。図5の例では、シーンにおいて3人の人物がいる。人物520と人物530の顔が方法300に従って検出され、それぞれ、破線矩形525及び535により強調されている。フレーム510の左上近傍に現れている人物540の顔は、所定のサイズ閾値より小さく、そのため、方法300によって検出されていない。代わりの構成では、フレームの中央領域範囲内にある顔のみが検出用の候補である。人物540の顔は、フレーム510の中央部分550の外側に位置する。中央部分550は、図5においては、フレーム510の内部の影付き領域により図示されている。1つの構成において、人物540の顔の位置は、人物540を検出しないための付加的な理由を提供するであろう。人物540の顔は、検出用の候補として考慮されずに無視される。

0049

図5の例では、各検出された顔は、フレーム510において検出された顔の位置、サイズ、及び向き(例えば、フレーム510をキャプチャするために用いられるカメラに関連して)を示す一連の値と関連している。顔の向きについての正値は、フレーム510の右手側を向いた検出された顔を表す。顔の向きについての負値は、フレーム510の左手側を向いた検出された顔を表す。検出された顔の位置、サイズ、及び向きの詳細は、図7を参照しながら以下に記載する。

0050

方法300は、顔追跡ステップ320において継続し、検出された顔のそれぞれの相対的な位置及び向きが、候補ビデオシーケンスを表す一連の後続するビデオフレーム上で追跡される。検出された顔の位置及び向きは、候補ビデオセグメント内の全てのフレーム上で追跡される。以下記載するように、検出された顔の向きは、ステップ320で追跡され、検出された顔のうち第1の顔(即ち、第1の検出された顔)が、検出された顔のうち第2の顔(即ち、第2の検出された顔)の方を向いているかが判定される。ステップ320で実行される、顔を追跡する方法600は、図6を参照しながら詳細を後述する。ステップ320の出力は、少なくとも2つの顔を含むシーン及び2つの顔の間での相対的な顔の向きを示す候補ビデオセグメントのサブセットである。

0051

凝視コンタクト検出ステップ330が顔追跡ステップ320に続く。ステップ330において、現在の候補ビデオセグメント内で識別され追跡された全ての顔のうち、2つの検出された顔がビデオセグメントの連続したビデオフレームにおいて互いに向き合っていき、互いに向き合った後、その2つの検出された顔が互いに向き合っている場合(即ち、凝視コンタクト)、方法300は、凝視固定ステップ340への「Yes」の矢印に従う。さもなければ、方法300は、「No」の矢印に従って320へ戻り、顔の位置及び向きの追跡が現在のビデオセグメントで継続される。1つの構成において、検出された顔のうち第1の顔が第2の顔の方に回転し、一方、第2の顔は静止し、第1の顔の回転後、一対の顔が互いに向き合っている場合、方法300は、再び、ステップ340への「Yes」の矢印に従う。ステップ330で実行される、凝視コンタクトを検出する方法800は、図8を参照しながら詳細を後述する。

0052

1つの構成において、凝視コンタクトは、候補ビデオセグメントにおける2つの顔の位置及びそれらの相対的な顔の向きの位置に基づいてステップ330において判定される。図8を参照しながら詳細を後述する。

0053

1つの構成において、フレームごとでのステップ330での凝視コンタクト検出を実行する代わりに、現在のフレームにおいて2つの顔の間で凝視コンタクトがない場合、方法300はまず、第2の顔の円錐状の視野表面からの第1の顔の眼の最小距離を判定しても良い。円錐状の視野は、人間の眼の注目する円錐状に基づきおよそ55度のサイズを有する人間の視覚的注意の範囲の表現である。第1の顔の円錐状の視野表面からの第2の顔の眼の対応する最小距離がその後決定される。最小距離の合計が従前にテストされたフレームの合計よりも大きい場合、方法300は、テストの対象となる次のフレームまで、所定数のフレームをスキップしても良い。さもなければ、方法300は、最小距離の合計に比例して多くのフレームをスキップしても良い。

0054

凝視コンタクト検出ステップ330に続いて、方法300は、凝視固定判定ステップ340に進む。ステップ340では、凝視コンタクトが最初にステップ330で検出されたフレームに続く少なくとも所定数のフレームNgazeについて、2つの顔が互いに向き合っているままである場合、凝視固定が2つの顔の間で確立されていると考えられる。フレームNgazeに等しい期間が、「凝視固定閾値」として称されても良い。ステップ340において少なくとも所定数のフレームNgazeについて2つの顔が互いに向き合っているままである場合、方法300は、選択ステップ350への「Yes」の矢印に従う。さもなければ、方法300は、ステップ320に戻る。

0055

ステップ340は、第1及び第2の検出された顔の凝視固定を特定する所定数のフレームNgazeについて第1及び第2の検出された顔が互いを向いているかを判定するため、ステップ320において判定された検出された顔の追跡された向きを用いる。

0056

ステップ350において、現在の候補ビデオセグメントから凝視固定をキャプチャする少なくとも1つのビデオフレームが、プロセッサ105の実行の下、選択される。1つの構成において、所定の凝視固定閾値は、1と1/2秒として定義される(例えば、30フレーム毎秒のビデオについて45フレームのNgazeに相当する)。代わりの構成において、凝視固定閾値は、現在の候補ビデオセグメントにおける対象物の頭の向きの動きの平均速度に基づいて調整されても良い。他の構成において、凝視固定閾値は、イベントの種類に依存しても良い。例えば、小さい凝視固定閾値が、スポーツ及びアクションシーンについてより適切であっても良い。しかしながら、大きい凝視固定閾値が、結婚式に用いられても良い。

0057

選択ステップ350において、少なくとも1つのビデオフレームは、各候補ビデオセグメントから選択される。選択されたビデオフレームは、以下記載するように、候補ビデオセグメントから関与期間をキャプチャする。選択されたビデオフレームは、その後に、フォトブックに印刷されても良い。他の例として、選択されたビデオフレームは、ステップ310で入力された、候補ビデオセグメント若しくはビデオシーケンスの概略説明を表示するために用いられても良い。

0058

1つの構成において、2つの顔が凝視コンタクトを有していると判定され、そして、ステップ330及び340で判定されたように所定の凝視固定閾値について互いに向き合っているままであると判定され凝視コンタクトであると判定された各候補ビデオセグメントの中央において1つのフレームが選択される。各選択されたビデオフレームは、検出された顔の凝視固定をキャプチャする。

0059

代わりの構成において、にじみ、コントラスト、鮮鋭さ、露光、及び、写真の構図のような審美的な画像品質の指標に基づいて、ステップ350において少なくとも1つのフレームが選択される。他の構成において、現在の候補ビデオセグメント内の2つの顔が著しく異なるサイズを有する場合、方法300は、ビデオ全体から選択されたフレームがほとんどないのであれば、現在の候補ビデオセグメントから1つのフレームを選択しても良い。

0060

次の決定ステップ360において、方法300は、処理を必要とするさらなる候補ビデオセグメントがあるかを判定する。少なくとも1つの候補ビデオセグメントが依然として処理されていない場合、方法300は、「Yes」の矢印に従い、ステップ320に戻り、次の候補ビデオセグメントを処理する。さもなければ、方法300は、終了する。

0061

ステップ340に戻り、凝視コンタクトがステップ330において検出された後、所定数より少ないフレームにおいて2つの顔が互いに向きを変えた場合、方法300は、「No」の矢印に従い、ステップ320に戻る。方法300は、その後、2つの顔が後のフレームにおいて再び互いの方を向いていくかを検出するための顔追跡を再開する。

0062

入力ビデオシーケンスから少なくとも1つのビデオフレーム(例えば、所望のビデオセグメント若しくはフレーム)を選択する方法300を記載したが、ステップ310で実行される、候補ビデオセグメントを検出する方法400は、図4を参照しながら詳細を後述する。方法400は、入力ビデオシーケンスから少なくとも2つの顔を有する候補ビデオセグメントを生成する。方法400は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実現されても良い。

0063

方法400は、読取ステップ410で開始する。一般的には、ビデオやビデオショットの開始において入力ビデオシーケンスから連続したビデオフレームが、プロセッサ105の実行の下、読み取られる。

0064

その後、チェックステップ415において、処理対象のビデオフレームがない場合、方法400は、終了する。さもなければ、処理対象の入力ビデオシーケンスのさらなるフレームがある場合、「Yes」の矢印に従って検出ステップ425に進む。

0065

検出ステップ425において、顔検出処理が、現在のビデオフレーム内のあるサイズより大きい顔を検出するように実行される。ステップ425において実行される顔検出処理は、現在のビデオフレーム内の各検出された顔のサイズ、位置、及び向きを判定する。顔検出処理は、検出された顔に基づいて、ビデオフレームで示された特定の人物が誰であるかを必ずしも識別しなくても良い。現在のフレームにおける顔のサイズ、位置、及び向きと、現在のフレームの詳細(即ち、顔が検出されたフレーム)が、ステップ425で判定される。適切な顔検出アルゴリズムのいかなるものでも、ステップ425で用いられて良い。顔のサイズ及び位置は、そのようなアルゴリズムから取得され得る。1つの構成において、ポーズ検出が、Intel(登録商標)RealSense(商標)SDKを用いて、ステップ425で実行されても良い。

0066

1つの構成において、ステップ425で用いられる最小の顔のサイズは、入力ビデオシーケンスの解像度に基づいている。例えば、最小のサイズは、検出された顔がフレームの重要な部分を占め且つ十分に大きいように、また、顔がビデオディスプレイ114上に表示されたとき若しくは1枚の紙に印刷されたときに人間により顔が容易に認識されるように設定されても良い。1つの構成において、標準デフィニションビデオ(例えば、640画素×360画素)について、最小の顔のサイズは、80画素幅×80画素高のように設定されても良い。同様に、高デフィニションビデオ(例えば、1280画素×720画素)について、最小の顔のサイズは、160画素×160画素に線形的にスケールされる。1つの構成において、ステップ425で用いられる最小の顔のサイズは、顔検出処理の精度に依存しても良い。他の構成において、ステップ425において実行される顔検出処理は、各検出された個人の顔をさらに認識しても良く、認識された個人の顔のサイズ、位置、向きのみが判定される。

0067

判定ステップ430がステップ425に続き、現在のビデオフレームにおいて検出された顔の数が、プロセッサ105の実行の下、判定される。現在のビデオフレームは、フレームが少なくとも2つの顔を含む場合、マークされる。

0068

決定ステップ435において、現在のビデオフレームにおいて少なくとも2つの顔がある場合、方法400は、決定ステップ445に進む。さもなければ、方法400は、ステップ440に進む。

0069

ステップ445において、新しい現在の候補セグメントが生成された場合(例えば、メモリ106において)、方法400は、ステップ460に進み、現在のビデオフレームが候補セグメントに追加される。さもなければ、方法400は、ステップ455に進み、新しい候補セグメントが生成され、メモリ106内に格納される。ステップ455から、方法400は、その後、ステップ460に進み、現在のビデオフレームを、新しく生成された候補セグメントに追加する。

0070

決定ステップ435において、現在のビデオフレームがビデオフレーム内に少なくとも2つの顔を有していない場合、方法400は、さらなる決定ステップ440に進む。ステップ440においてメモリ106内に構成された現在の候補セグメントがある場合、方法400は、出力ステップ450に進む。さもなければ、方法400は、ステップ410に戻る。

0071

ステップ450において、現在の候補セグメントは、セグメントの存続期間が所定の時間閾値より長い場合、出力される(例えば、メモリ106に)。所定の時間閾値より短い存続であるビデオセグメントは、破棄される。ステップ450の後、方法400は、ステップ410に戻る。

0072

1つの構成において、所定の時間閾値は、5秒に設定される。一般的なビデオについて30フレーム毎秒では、5秒がおよそ150フレームに相当する。代わりの構成において、所定の時間閾値が、入力ビデオシーケンスのイベント区分に適応される。例えば、より小さい閾値がスポーツ及びアクションシーンに用いられても良く、より大きい閾値が結婚式や卒業式に用いられても良い。

0073

方法400の出力は、候補ビデオセグメントの各フレームにおける、少なくとも2つの顔と、各検出された顔のサイズ、位置、及び向きと、を含む候補ビデオセグメントのリストである。

0074

ステップ320(図3)で実行される顔を追跡する方法600は、図6のフローダイアグラムを参照しながら詳細を後述する。方法600は、候補ビデオセグメントにおける一連のビデオフレーム上の2つの検出された顔の向きを追跡する。方法600の出力は、候補セグメントの入力リストの候補ビデオセグメントのサブセットであり、サブセットの候補セグメントのそれぞれは、少なくとも2つの顔と、2つの顔の間の相対的な顔の向きとを含む。方法600は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実行されても良い。

0075

方法600は、追跡ステップ610で開始し、候補ビデオセグメントの入力リストの各候補ビデオセグメント内で複数のビデオフレームに渡って、顔が追跡される。ビデオシーケンス内で複数のフレームに渡って顔を追跡するための様々な方法がある。

0076

1つの構成において、現在のビデオフレームにおける顔が、従前のフレームから検出された顔のサイズ及び位置のみに基づいて追跡される。1つの構成において、従前のフレームから検出された顔のサイズ及び位置に基づいて顔が追跡され、方法300のステップ310の出力は、ステップ610で追跡するために必要とされる全ての情報を提供する。1つの構成において、シーンにおいてより多くの顔がある場合若しくは2つの顔が互いに近い場合、特にマッチングの精度を改善するために顔の向きが用いられる。他の構成において、髪の色、皮膚の色、眼鏡等の高レベルの特徴が顔の追跡を容易にするために用いられても良い。

0077

他の構成において、顔認識図4のステップ425で用いられた場合、複数のフレームに渡って検出された顔は、検出された顔に対応する人物の同一性整合させることにより、より効果的に整合させることができる。

0078

ステップ610に続いて、方法600は、選択ステップ620において、顔のペアが、各候補ビデオセグメントにおける顔全体から選択される。例えば、3つの顔A、B、Cがある場合、顔のペアは、AB、AC、及びBCとなる。顔のペアの組み合わせは、顔の数が増えるにつれ、急激に増加する。しかしながら、より小さい顔からサイズをフィルタリングすることにより、ペアの数は、計算上、問題となって現れない。他の代わりの構成において、2つの最大の顔のみが候補ビデオセグメントについて評価される。

0079

ステップ620の出力は、顔のペアのセットである。ステップ620に続いて、判定ステップ630で、顔のペアそれぞれに関連するタイムスパンが、プロセッサ105の実行の下、判定される。タイムスパンは、候補セグメントの1つの中でペアの個々の顔が追跡された期間の共通部分として判定される。また、関連する期間が、ステップ450の最小の所定時間閾値より小さい場合、顔のペアが破棄される。幾つかの顔のペアは、共通部分となるいかなる期間も有さないかもしれない。例えば、1つの顔が視野に入り、ペアのうちの第2の顔が視野に入る前に、去っていく場合、顔は、共通部分となるいかなる期間も有さない場合がある。他の構成において、2つの顔の間に位置する付加的な顔がある期間について、付加的なフィルタリングが顔のペアを除去するために行われても良い。

0080

その後、出力ステップ640において、最小の所定時間閾値より大きいタイムスパンを有する残った顔のペアのみが方法600により出力される。ステップ640の出力はまた、ペアにおける各顔の位置、サイズ、及び向きと、各残った顔のペアの2つの顔の間での相対的な顔の向きとを含む。ステップ640で出力される情報は、図3の方法300により用いられ、2つの顔が互いを向いていくか否か、そして、2つの顔が凝視コンタクトを有するか否かを、ステップ330と340それぞれにおいて判定する。図7Aから図7Eは、向き、位置、及びサイズの点を説明する顔の例を示す。記載の目的として、1つの図における人物の視点は、位置を述べる際に用いられる。例えば、図7Aの人物716は、人物713の左側であると言われる。向きについても同様に、顔の奥行きは、人物の向きを述べる際に用いられる。図7Bにおいて、左側を向く顔は、正の角度を有し、右側を向く顔は、負の角度を有する。

0081

図7Aは、候補セグメント内のフレーム期間(即ち、フレーム1からフレーム20)上の顔のペアを示す。フレーム1からフレーム5まで、人物Bの顔は、人物Aの方を向いていく。フレーム3からフレーム7まで、人物Aは、人物Bの方を向いていく。フレーム7からフレーム20まで、人物Aの顔と人物Bの顔は、凝視コンタクトである。人物Aと人物Bが互いに向き合う14のフレームに相当する期間が所定の凝視固定閾値より大きい場合、人物Aの顔と人物Bの顔は、凝視固定状態であると考えられる。

0082

図7Bは、顔の向きを表すために用いられる角度を示す。前方を向くことは、0度の角度であると考えられる。ゼロより大きい角度(即ち、>0)は、左側を向く顔を示し、ゼロより小さい角度(即ち、<0)は、右側を向く顔を示す。90度の角度及び負の90度(−90)は、横の方を向く顔である。そして、左の716上の負の90度(−90)の角度を有する顔と、左の713上の90度(90)の角度を有する顔は、互いに向き合う候補である。顔が左を向いて後ろ側であれば、角度は、90度より大きく180度より小さい角度まで拡張可能である。また、顔が右を向いて後ろ側であれば、負の90度より小さく負の180度より大きい角度まで拡張可能である。顔の角度間の絶対値が180度に等しい場合、顔は凝視コンタクトであり、その場合、顔の相対的な位置は、それらの向きと一貫する。

0083

図7Cは、顔が異なる深度にあることを判定するために用いられ得る異なるサイズの顔を示す。図7Cにおいて異なる深度にある顔は、たとえ顔751及び752の向き及び位置が顔713及び716と同じであっても、凝視コンタクトとはみなされない。

0084

図7Dは、顔742及び746が位置及び向きを有する構成であり、顔742及び746は、凝視コンタクトである。しかしながら、第3の顔744が顔742及び746に対して、類似の顔サイズを有し、2つの顔を分けている。従って、顔742及び746は、凝視コンタクトとはみなされない。

0085

図7Eは、上方を見る顔と下方を見る顔を示す。図7Eにおける顔の位置は、顔及び頭の追跡ソフトウェアにより判定され得る。1つ若しくは両方の顔が図7Eで示される状態の1つであるとして検出された場合、顔は、凝視コンタクトとはみなされないであろう。

0086

ステップ330(図3)で実行される、凝視コンタクトを検出する方法800は、図8のフローダイアグラムを参照しながら詳細を後述する。方法800は、凝視コンタクトが確立されたかを判定する。方法800は、図7Aから図7Eに例示される向きに従って記載される。

0087

方法800は、プロセッサ105による実行において制御されるハードディスクドライブ110に常駐するソフトウェアアプリケーションプログラム133の少なくとも1つのソフトウェアコードモジュールとして実行されても良い。

0088

方法800は、検出ステップ810で開始し、顔のペアが現在の候補セグメントの一連のフレーム上でモニタされる。一連のフレームにおける顔の向き及び位置が、プロセッサ105の実行の下、モニタされ、フレームにおける顔が互いの方を向いているかを検出する。例えば、図7Aに示されるように、人物Bは、フレーム1で人物Aの方を向き始めている。

0089

図7Aの例において、人物A及び人物Bの顔の両方がモニタされ、そして、フレーム1とフレーム2の間の角度の変化に基づいてフレーム1で人物Bの顔が向き始めたことが検出される。人物A及びBの相対位置及び負の方向における角度差は、ステップ810において、人物Bの顔が人物Aの顔に向かって向き始めていることを判定するために用いられる。

0090

その後、決定ステップ820において、ステップ810においてモニタされている顔のペアが互いに向き始めた場合、Yesの矢印に従って、モニタリングステップ850に進む。さもなければ、方法800は、ステップ830に戻る。

0091

ステップ850において、顔のペアの各顔の位置及び向きは、顔が互いに向いていくことを停止するまでモニタされる。図7Aの例において、人物Bの顔の向いていく様子がモニタされ、そして、フレーム6において、人物Bの顔が向いていくことを停止したことが判定される。同時に、フレーム4において、人物Aの顔が人物Bの顔の方を向き始めることが検出される。

0092

図7Aの例において、フレーム4と5の間では、人物Aの顔が一時的に向いていくことを停止している。方法800は、実質的には、人物Aの顔が人物Bの顔の方を向いていく中での一時的な一貫性のなさに対して、向いていくことをスムース化することで対処するように構成される。同様に、人物A及び人物Bの顔が異なった時間に向き始め、異なった時間に向き終わることが記載されるであろう。時間の一貫性のなさについての適切な閾値が、人物A及び人物Bのアクションが同時とみなされ得るかを判定するように設定されても良い。図7Aの例において、フレーム8において、人物A及び人物Bの顔は向くことを停止している。

0093

方法800は、ステップ850に続いて判定ステップ860に進み、顔が凝視コンタクトであるかを判定する。図7Aから図7Eに従って上述したように、顔が凝視コンタクトであるかを判定するために用いられる要素は、例えば、顔の位置、顔の向き、顔の深度を含む。1つの構成において、検出された顔の第1の顔(例えば、人物Aの顔)は、検出された顔の第2の顔(例えば、人物Bの顔)に対してわずかに前方を向いていても良く、及び/又は、第2の顔は、第1の顔に対してわずかに後方を向いていても良い。そして、顔はなお、凝視コンタクトであると判定されても良い。

0094

決定ステップ870において、顔が凝視コンタクトでない場合、方法800は、NOの矢印に従って、決定ステップ830に進む。さもなければ、方法800は、ステップ880に進む。

0095

ステップ830において、処理対象の現在の候補セグメントのフレームがまだある場合には、方法800は、ステップ810に戻る。さもなければ、処理対象の現在の候補セグメントのさらなるフレームがない場合、方法800は、出力ステップ840において、凝視コンタクトが検出されなかったということを出力する。

0096

ステップ860の後、検出された凝視コンタクトがあった場合、決定ステップ870において、方法800は、Yesの矢印に従って、決定ステップ880に進む。1つの構成において、凝視コンタクトがあると確信して確立される前に、固定の最小のターニング(turning)期間が満たされることが要求される。例えば、図7Aは、1/4秒の期間に等しい、向いていく7つのフレームの期間を示す。1つの構成において、最小のターニング期間が、1秒若しくはそれより長い時間に設定される。1つの代わりの構成において、最小の閾値は要求されない。更なる代わりの構成において、最小のターニング時間は可変である。最小の閾値は、凝視固定について上記で述べたことと似た要素により決定されても良い。ターニング期間がステップ880において最小のターニング閾値を越える場合、方法800は、凝視コンタクトが出力ステップ890において検出されたことを出力する。

0097

産業上の利用可能性
述べた構成は、コンピュータ及びデータ処理産業、とりわけ、画像処理について適用される。

0098

前述は、本発明の幾つかの実施形態についてのみ述べた。改良及び/又は変更が、本発明の範囲及び精神から逸脱することなく行われ得る。実施形態は、説明のためであっても限定的ではない。

0099

本明細書の文脈において、用語”含む”は、”主に含み、必ずしももっぱらではない”、若しくは、”有する”若しくは”含む”を意味し、”のみで構成される”を意味していない。”含む”や”含む”のような用語”含む”の変形は、対応する変更した意味を有する。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社エヌ・ティ・ティ・データの「 調理支援システム」が 公開されました。( 2020/10/08)

    【課題】実際の調理の状況に応じて適切な調理時間を推定する。【解決手段】スマートグラス1は、調理者により食材がカットされて生成された食材片のサイズを特定するカットサイズ特定部252と、特定された食材片の... 詳細

  • 日本電気株式会社の「 解析装置、制御方法、及びプログラム」が 公開されました。( 2020/10/08)

    【課題】撮像画像を用いた行動解析をより高い精度で行う。【解決手段】施設40には、第1カメラ10と第2カメラ20が設置されている。解析装置2000は、第1カメラ10によって生成される第1撮像画像12と、... 詳細

  • 日本電気株式会社の「 個体識別装置」が 公開されました。( 2020/10/08)

    【課題・解決手段】複数の登録画像に共通する画像成分が存在すると個体識別の精度が低下すること。決定手段は、複数の登録対象の物体を撮像して得られた複数の登録画像に共通する画像成分が存在する部分領域か否かに... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ