図面 (/)

技術 画像処理装置、その制御方法、プログラム及び撮像装置

出願人 キヤノン株式会社
発明者 松野太郎
出願日 2015年8月21日 (6年5ヶ月経過) 出願番号 2015-164178
公開日 2017年2月23日 (4年11ヶ月経過) 公開番号 2017-041857
状態 特許登録済
技術分野 スタジオ装置 焦点調節 自動焦点調節 写真撮影方法及び装置
主要キーワード LFデータ 音声データフォーマット ダイナミックRAM 光学系パラメータ スペクトル概形 関連特徴 話者認識処理 積分係数
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年2月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

ライトフィールドデータを含んだ動画再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。

解決手段

本発明に係る画像処理装置は、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと、動画データに対応する音声データとを入力する入力手段と、入力された音声データと入力された動画データから得られる画像信号とに基づいて、音声を発する被写体の画像内の位置を特定する特定手段と、入力された動画データから得られる画像信号を用いて、特定された被写体の画像内の位置が合焦する合焦位置を決定する決定手段と、を有する。

概要

背景

近年、撮像素子受光面における光の強度に加えて、その光の進行方向の情報を含んだ画像信号ライトフィールドLF)データ)を取得して、撮影後に合焦位置を変更(リフォーカス)することができる撮像装置が提案されている。

特許文献1には、マイクロレンズアレイ、撮像素子、画像処理部等から構成された撮像装置により、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号を取得して、当該画像信号から複数の視差画像を得る技術が開示されている。そして、得られた複数の視差画像を用いて撮影後に任意の被写体に合焦させることができる技術を開示している。

また、特許文献2には、1つの画素に対して、1つのマイクロレンズと複数の光電変換領域を備えた撮像素子を用いた撮像装置が開示されている。複数の光電変換領域は、1つのマイクロレンズを介して撮影レンズ射出瞳の異なる瞳部分領域を受光するように構成され、瞳分割機能を実現する。複数の光電変換領域のそれぞれから出力される信号を用いれば、分割された瞳部分領域に応じた複数の視差画像を得ることができる。そして、得られた複数の視差画像を用いて、撮影後に任意の被写体に合焦させた画像を生成することができる。

概要

ライトフィールドデータを含んだ動画再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。本発明に係る画像処理装置は、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと、動画データに対応する音声データとを入力する入力手段と、入力された音声データと入力された動画データから得られる画像信号とに基づいて、音声を発する被写体の画像内の位置を特定する特定手段と、入力された動画データから得られる画像信号を用いて、特定された被写体の画像内の位置が合焦する合焦位置を決定する決定手段と、を有する。

目的

すなわち、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる画像処理装置、その制御方法プログラム及び撮像装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと、該動画データに対応する音声データとを入力する入力手段と、前記入力された音声データと前記入力された動画データから得られる画像信号とに基づいて、音声を発する被写体の画像内の位置を特定する特定手段と、前記入力された動画データから得られる画像信号を用いて、前記特定された前記被写体の画像内の位置が合焦する合焦位置を決定する決定手段と、を有することを特徴とする画像処理装置

請求項2

前記特定手段は、音声データから認識される被写体の特徴に、画像信号に基づいて得られる被写体の特徴を関連付けた関連特徴情報を用いて、前記音声を発する被写体の画像内の位置を特定する、ことを特徴とする請求項1に記載の画像処理装置。

請求項3

前記特定手段は、予め記録されている前記関連特徴情報を用いて、前記音声を発する被写体の画像内の位置を特定する、ことを特徴とする請求項2に記載の画像処理装置。

請求項4

前記決定された合焦位置を用いて、前記特定された前記被写体の画像内の位置が合焦する画像を生成する生成手段を更に有する、ことを特徴とする請求項1から3のいずれか1項に記載の画像処理装置。

請求項5

前記生成手段は、前記特定手段により複数の前記画像内の位置が特定された場合、それぞれの前記画像内の位置が合焦する画像を生成する、ことを特徴とする請求項4に記載の画像処理装置。

請求項6

前記決定された合焦位置を記憶する記憶手段を更に有し、前記生成手段は、前記記憶手段に記憶された前記決定された合焦位置を用いて、前記特定された前記被写体の画像内の位置が合焦する画像を生成する、ことを特徴とする請求項4又は5に記載の画像処理装置。

請求項7

前記決定された合焦位置、前記入力された音声データ、及び前記入力された動画データを記憶する記憶手段を更に有し、前記入力手段は、前記記憶手段に記憶されている前記入力された音声データと前記入力された動画データとを入力し、前記生成手段は、前記記憶手段に記憶された前記決定された合焦位置を用いて、前記入力された音声データを基準にした所定のタイミングで表示されるように、前記特定された前記被写体の画像内の位置が合焦する画像を生成する、ことを特徴とする請求項4又は5に記載の画像処理装置。

請求項8

撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データを撮像する撮像手段と、前記動画データと該動画データに対応する音声データを取得する音声入力手段と、請求項1から7のいずれか1項に記載の画像処理装置と、を有し、前記入力手段は、前記撮像手段により撮像された前記動画データと前記音声入力手段により取得された前記音声データを入力する、ことを特徴とする撮像装置

請求項9

前記撮像手段は、2次元状に配置された複数のマイクロレンズのそれぞれが撮像素子の複数の画素と対応するように構成される、ことを特徴とする請求項8に記載の撮像装置。

請求項10

入力手段が、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと、該動画データに対応する音声データとを入力する入力工程と、特定手段が、前記入力された音声データと前記入力された動画データから得られる画像信号とに基づいて、音声を発する被写体の画像内の位置を特定する特定工程と、決定手段が、前記入力された動画データから得られる画像信号を用いて、前記特定された前記被写体の画像内の位置が合焦する合焦位置を決定する決定工程と、を有することを特徴とする画像処理装置の制御方法

請求項11

コンピュータに、請求項10に記載の画像処理装置の各工程を実行させるためのプログラム

技術分野

0001

本発明は、ライトフィールド技術を用いた画像処理装置、その制御方法プログラム及び撮像装置に関する。

背景技術

0002

近年、撮像素子受光面における光の強度に加えて、その光の進行方向の情報を含んだ画像信号(ライトフィールド(LF)データ)を取得して、撮影後に合焦位置を変更(リフォーカス)することができる撮像装置が提案されている。

0003

特許文献1には、マイクロレンズアレイ、撮像素子、画像処理部等から構成された撮像装置により、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号を取得して、当該画像信号から複数の視差画像を得る技術が開示されている。そして、得られた複数の視差画像を用いて撮影後に任意の被写体に合焦させることができる技術を開示している。

0004

また、特許文献2には、1つの画素に対して、1つのマイクロレンズと複数の光電変換領域を備えた撮像素子を用いた撮像装置が開示されている。複数の光電変換領域は、1つのマイクロレンズを介して撮影レンズ射出瞳の異なる瞳部分領域を受光するように構成され、瞳分割機能を実現する。複数の光電変換領域のそれぞれから出力される信号を用いれば、分割された瞳部分領域に応じた複数の視差画像を得ることができる。そして、得られた複数の視差画像を用いて、撮影後に任意の被写体に合焦させた画像を生成することができる。

先行技術

0005

特開2009−21919号公報
米国特許第4410804号

発明が解決しようとする課題

0006

しかしながら、撮像されたLFデータは、撮影後に任意の被写体に合焦させることができる反面、再生時に何らかの手法で合焦させる画像上の位置(リフォーカスポイント)を与える必要がある。リフォーカスポイントを与えるために、例えば所定の合焦状態の画像をユーザに提示して、ユーザに合焦させたい画像内のある一点を指定させる方法がある。

0007

一方、動画像では、時間の経過と共に被写体の位置が変化するため、LFデータを含んだ動画像(LF動画ともいう)に当該リフォーカスポイントの指定方法を適用すると、ユーザは被写体が移動するたびに画像内の一点を指定する必要が生じる。従って、適切な合焦状態の動画を容易に視聴することができない。

0008

本発明は、上述の従来技術の問題点に鑑みてなされたものである。すなわち、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる画像処理装置、その制御方法、プログラム及び撮像装置を提供することを目的とする。

課題を解決するための手段

0009

この課題を解決するため、例えば本発明の画像処理装置は以下の構成を備える。すなわち、撮像面における光線の強度とその光線の進行方向の情報を含んだ画像信号を各フレームに含んだ動画データと、該動画データに対応する音声データとを入力する入力手段と、入力された音声データと入力された動画データから得られる画像信号とに基づいて、音声を発する被写体の画像内の位置を特定する特定手段と、入力された動画データから得られる画像信号を用いて、特定された被写体の画像内の位置が合焦する合焦位置を決定する決定手段と、を有することを特徴とする。

発明の効果

0010

本発明によれば、ライトフィールドデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。

図面の簡単な説明

0011

本発明の実施形態に係る画像処理装置の一例としてのパーソナルコンピュータ機能構成例を示すブロック図
LF動画データの構成の一例を示す図
実施形態1における、LF動画データの先読み込み処理動画再生処理の、フレームと時間の関係を表すグラフ
LFデータを取得可能な主レンズと撮像素子を模式的に示す図
主レンズ面、撮像面及びリフォーカス面とこれらを通過する光線を模式的に示す図
実施形態2に係る撮像装置の一例としてのデジタルカメラの機能構成例を示すブロック図
実施形態2に係る主レンズ、マイクロレンズ及び撮像素子の関係を示す図(a)、及びマイクロレンズと撮像素子の関係を示す図(b)
実施形態2に係る主レンズ、マイクロレンズ及び撮像素子とこれらを通過する光線を模式的に示す図
実施形態1に係るLF動画の再生処理に係る一連の動作を示すフローチャート
実施形態2に係るLF動画の撮影処理に係る一連の動作を示すフローチャート
実施形態2に係るLF動画の再生処理に係る一連の動作を示すフローチャート

実施例

0012

(実施形態1)
以下、本発明の例示的な実施形態について、図面を参照して詳細に説明する。なお、以下では画像処理装置の一例として、撮像素子の受光面における光の強度とその光の進行方向の情報を持った画像信号(LFデータという)を入力可能な任意のパーソナルコンピュータに本発明を適用した例を説明する。しかし、本発明は、パーソナルコンピュータに限らず、LFデータを入力することが可能な任意の電子機器にも適用可能である。これらの電子機器には、例えばデジタルカメラ、携帯電話機ゲーム機タブレット端末時計型や眼鏡型の情報端末などが含まれてよい。

0013

(パーソナルコンピュータ100の構成)
図1は、本実施形態の画像処理装置の一例としてパーソナルコンピュータ100の機能構成例を示すブロック図である。なお、図1に示す機能ブロックの1つ以上は、ASICプログラマブルロジックアレイPLA)などのハードウェアによって実現されてもよいし、CPUやMPU等のプログラマブルプロセッサソフトウェアを実行することによって実現されてもよい。また、ソフトウェアとハードウェアの組み合わせによって実現されてもよい。従って、以下の説明において、異なる機能ブロックが動作主体として記載されている場合であっても、同じハードウェアが主体として実現されうる。

0014

操作部101は、ユーザが操作する各種ボタンダイヤル、即ちタッチパネル式のボタン、機械式のボタン又はスイッチを含み、検出したユーザ操作を制御部102に通知する。映像音声出力部108がタッチパネルを含む場合、当該タッチパネルは操作部101としても機能する。

0015

制御部102は、例えばCPUあるいはMPUを含み、記憶部107に含まれるROMに格納されたプログラムを記憶部107に含まれるRAMの作業エリア展開し、実行することにより、パーソナルコンピュータ100全体を制御する。また、操作部101に対するユーザ操作に応じて、後述するLF動画の再生処理や、ユーザが合焦位置を指定してリフォーカスを行う操作(手動リフォーカス操作)を制御する。

0016

音声・LFデータ入力部103は、音声データ及びLFデータを入力して記憶部107に記憶させる。具体的には、入力した音声データ及びLFデータをメモリバス109を介して記憶部107に送信し、音声データを記憶部107の音声データ領域に、LFデータをLFデータ領域にそれぞれ記憶させる。音声・LFデータ入力部103は、例えば、USB等で接続された外部装置から音声・LFデータを入力する構成であってよい。或いは、音声・LFデータ入力部103内に例えばハードディスク等の記録媒体を含み、当該ハードディスクに記録されている音声・LFデータを読み出して入力する構成であってもよい。

0017

話者検出部104は、後述する話者認識及び話者特定の処理を行って、検出した話者画面内座標(例えば、顔の位置の2次元座標)を検出する。具体的には、記憶部107に記憶されている音声データと、リフォーカス処理部106により生成されたパンフォーカスに近しい画像(後述するように記憶部107の第1動画データ領域に記憶される)とに基づいて、動画内の話者の画面内座標を検出する。話者検出部104は、検出した話者の画面内座標を、座標データとして記憶部107の話者座標データ領域に記憶させる。

0018

リフォーカス処理部106は、話者の画面内座標を表す座標データを用いて、その座標に対して合焦させるためのリフォーカス係数を算出する。リフォーカス処理部106は、再生されるフレームごとにリフォーカス係数を算出して、記憶部107の話者フォーカス距離領域に記憶させる。また、リフォーカス処理部106は、記憶部107のLFデータと、話者フォーカス距離領域に記憶させたリフォーカス係数と、後述する被写界深度設定部105により決定される被写界深度とを用いて、リフォーカス画像を生成(再構成ともいう)する。リフォーカス処理部106は、被写界深度設定部105が決定する被写界深度に応じて、異なるリフォーカス画像を生成する。例えば、第1の被写界深度として後述する、主な被写体全てに合焦するような被写界深度を用いてパンフォーカスに近しいリフォーカス画像を生成し、記憶部107の第1の動画データ領域に記憶させる。また、第3の被写界深度として後述する、話者を含んだ被写界深度を用いて話者に合焦するリフォーカス画像を生成し、記憶部107の第2の動画領域に記憶させる。

0019

被写界深度設定部105は、話者の画面内座標を表す座標データと、リフォーカス処理部106によって算出されるリフォーカス係数とに基づいて、再生されるフレームに対する被写界深度を決定する。被写界深度設定部105は、決定した被写界深度を記憶部107の被写界深度設定領域に記憶させる。

0020

記憶部107は、データを一時記憶する揮発性記憶媒体を含み、例えば高速ランダムアクセス可能なダイナミックRAMである。記憶部107内のメモリ空間は、領域ごとに区別されて対応するデータを記憶する。各領域は、例えば上述した音声データ領域、LFデータ領域、プロファイル領域、第1動画データ領域、第2動画データ領域、話者座標データ領域、話者フォーカス距離領域、被写界深度設定領域等に区別される。これらのうち、音声データ領域、LFデータ領域、第1動画データ領域、第2動画データ領域、話者座標データ領域、話者フォーカス距離領域、及び被写界深度設定領域の各データは、フレームごとに時刻が関連付けられて管理される。

0021

映像・音声出力部108は、表示パネルスピーカ、又は音声及び画像の出力端子等の出力装置を含み、記憶部107の音声データ領域、第2動画データ領域に格納されている音声データ又は動画データを読み出して出力する。映像・音声出力部108に含まれる表示パネルやスピーカには、AVケーブル等によって外部接続されているものも含まれる。

0022

メモリバス109は、各構成ブロックからのメモリアクセス要求調停し、記憶部107へのデータの読み書きを例えば時分割で行なうように制御する。

0023

(LF動画の再生処理に係る一連の動作)
次に、図9を参照して、本実施形態のLF動画の再生処理に係る一連の動作を説明する。なお、LF動画の再生処理は、操作部101に対してユーザによる再生指示が行われた場合に開始され、制御部102が記憶部107に記憶されたプログラムを実行することにより各部を制御する。操作部101は、ユーザ操作によりLF動画の再生開始が指示されたことを検出する。操作部101は、検出したLF動画の再生開始の指示を制御部102に送信すると、制御部102は各部のレジスタを設定してLF動画の再生処理を制御する。

0024

(音声及びLFデータの入力)
S901において、制御部102は、音声・LFデータ入力部103が入力した音声データ及びLFデータを、記憶部107の音声データ領域、LFデータ領域にそれぞれ記憶させる。LFデータは、例えば、撮像レンズとマイクロレンズアレイ、撮像素子を有する撮像装置により取得され、音声・LFデータ入力部103が、例えばメモリスティック等の着脱可能な記録媒体を介して入力するものとして説明する。

0025

(LF動画データ生成処理
S902において、制御部102は、被写界深度設定部105及びリフォーカス処理部106を制御してLF動画データ生成処理を行い、LF動画データを生成する。

0026

被写界深度設定部105は、LFデータ領域に記憶されているLFデータを読み出して、画面内の主な被写体全てに合焦するような広い被写界深度(第1被写界深度と呼ぶ)を設定する。被写界深度設定部105は、設定した第1被写界深度を記憶部107の被写界深度設定領域に記憶させる。

0027

リフォーカス処理部106は、記憶部107から第1被写界深度を読み出して、リフォーカス画像を生成する。上述したように第1被写界深度は、主な被写体全てに合焦するような被写界深度として設定されているため、第1被写界深度に基づいて生成されるリフォーカス画像は、通常の画像でいうところのパンフォーカスに近しい画像となる。リフォーカス処理部106は、生成したパンフォーカスに近しい画像を各フレームとして含むデータと、音声・LFデータ入力部103から入力された音声データとを、LF動画データとして記憶部107の第1動画データ領域に記憶させる。

0028

第1動画データ領域に記憶されるLF動画データは、例えば図2に示す構成を含む。このLF動画データは、LF画像ヘッダー、LF画像データ、音声ヘッダー及び音声データを含む。LF画像ヘッダーは、画像データサイズ画像フォーマット等の情報を含み、LF画像データは、時間方向に一定周期(例えば60FPS)で連続するフレームに含まれている。音声ヘッダーは、音声データサイズや音声データフォーマット等を含み、音声データは、一定周期(例えば48KHz)でサンプリングされている。以降の処理では、上述した構成のLF動画データを、先頭フレームから順次音声データとLF画像データを読み込みんで、以下に示す先読み込み処理と再生処理を行う。

0029

なお、本実施形態におけるLF動画の再生処理では、制御部102は、先行して先読み込み処理を行うと共に、時間軸上で追いかけるようにLF動画の再生を制御する。本実施形態では、先読み込処理は、S903〜S907における被写界深度の設定やリフォーカス係数の算出等を行う。制御部102によって制御される先読み込み処理とLF動画再生処理との時間的な関係を示すと、例えば図3のように表される。この例では、LF動画データの先読み込みは、LF動画の再生箇所に対して、例えば数ミリ秒〜数秒程度前のフレームに対して行われる。なお、先読み込処理と再生処理との間隔についてはこの例に限らない。各フレームの再生前にLF動画データの所定のフレームに対する先読み込みが行われ、LF動画の再生(各フレームの画像生成)に必要な被写界深度、リフォーカス係数等が算出されていればよい。

0030

話者認識処理
S903において、制御部102は、話者検出部104を制御して話者認識及び話者特定の処理を行う。まず、話者検出部104は、第1動画データ領域から読み出したLF動画データを読み出し、当該LF動画データに含まれる音声データを用いた話者認識処理を行う。話者認識処理については、様々な方法が知られており、公知の技術(例えば特開昭58−11192号公報等参照)を用いて実現することができる。そのため、詳細な説明は省略して一例としての概要を説明する。本実施形態では、発話者固有音声スペクトル概形を予め記憶部107のプロファイル領域に記憶しておき、各話者の発話が開始されると記憶されている音声スペクトル概形とマッチングを行って発話者を特定する。

0031

より具体的には、予め、認識すべき人物の、音声の短区間スペクトルパワー加重平均を、その発声者の固有の音声スペクトル概形として話者毎に登録しておく。そして、各フレームにおける話者の認識時において、話者検出部104は、入力音声におけるスペクトル概形を算出してプロファイル領域に記憶されている各話者のスペクトル概形との間で距離計算を行なう。この距離計算によって算出された距離が閾値以内である場合、最も距離の小さくなった登録話者名を認識結果として出力する。一方、算出された距離が閾値より大きい場合は、注視すべき話者を認識していないと判定して話者認識処理を完了する。

0032

(話者特定処理)
S904において、話者検出部104は、第1動画データ領域から読み出したLF動画データに基づいて、当該LF動画データに含まれるLF画像データを用いた話者特定処理を行う。本実施形態では、上述した音声スペクトル概形と関連付けられた顔画像関連特徴情報という)を記憶部107のプロファイル領域に記憶しておき、話者が認識されたことに応じて、顔画像を参照して話者の画面内座標を決定する。

0033

より具体的には、上述した話者毎の音声スペクトル概形に加えて、当該音声スペクトル概形に関連付けられた関連特徴情報(話者毎の画像、例えば顔画像)を、予め記憶部107のプロファイル領域に記憶させている。そして、上述した話者認識処理において話者が認識されると、認識された話者の顔画像が画像内に存在するかを例えばマッチング処理によって判定する。話者検出部104は、第1動画データ領域から読み出した画像内に存在すると判定した場合、この話者の顔画像の画面内座標(即ち撮像素子の画素の座標)(x、y)を、話者座標データ領域に書き込む。なお、注視すべき話者が複数人(例えばn人)存在する場合は、それぞれの話者に対応する画面内座標(xn、yn)を特定して、話者座標データ領域に書き込む。一方、注視すべき話者が画像内に存在しない場合、画面内座標(x、y)を不定座標(x∞、y∞)に設定して、話者座標データ領域に書き込む。

0034

(被写界深度の設定処理
S905において、制御部102は、被写界深度設定部105を制御して、第2被写界深度を設定する。第2被写界深度は、リフォーカス処理部106においてリフォーカス係数αnを算出するために用いられる被写界深度であり、特定された一人の話者に対して合焦させる場合に用いる浅い深度の被写界深度である。被写界深度設定部105は、第2被写界深度を設定すると、記憶部107の被写界深度設定領域に記憶させる。なお、第2被写界深度は、続くリフォーカス処理部106にて合焦評価が可能な画像を生成できる程度の被写界深度であればどんなものでもよい。

0035

(リフォーカス係数の決定処理
S906において、制御部102は、リフォーカス処理部106を制御してリフォーカス係数を算出する。具体的には、リフォーカス処理部106は、まず、話者座標データ領域に記憶されている話者の画面内座標(xn、yn)と、被写界深度設定領域に記憶されている第2被写界深度の設定と、LFデータ領域に記憶されているLFデータとをそれぞれ読み出す。次に、これらを用いてリフォーカス画像を生成すると共に、生成したリフォーカス画像の合焦評価を行って、画面内座標(xn、yn)に対してリフォーカスを行うためのリフォーカス係数αnを算出する。例えば、リフォーカス処理部106は、複数のリフォーカス係数に基づいてそれぞれのリフォーカス画像を生成し、各リフォーカス画像に対する合焦評価を行い、リフォーカス係数を算出する。リフォーカス画像の合焦評価は、別途後述するように、一般的なデジタルスチルカメラにおけるコントラストAFで用いられるような画像のエッジ検出と同様の公知の方法を用いて実現することができる。リフォーカス処理部106は、記憶部107の話者フォーカス距離領域に算出したリフォーカス係数αnを記憶させる。

0036

(被写界深度の設定)
S907において、制御部102は、被写界深度設定部105を制御して、生成されるリフォーカス画像が有する被写界深度(第3被写界深度)を設定する。被写界深度設定部105は、話者フォーカス距離領域に記憶されているリフォーカス係数αnと、話者座標データ領域に記憶されている話者座標データ(xn、yn)を読み込む。そして、これらを用いて、LFデータからリフォーカス画像を生成するために必要となる第3被写界深度の設定を行う。なお、より詳細な第3被写界深度の設定については後述する。被写界深度設定部105は、複数の話者がいる場合、複数のリフォーカス係数αnのうち最小のリフォーカス係数αn_minと最大のリフォーカス係数αn_maxとから第3被写界深度を設定する。話者座標データ領域に記憶されている話者座標データが不定座標(x∞、y∞)である場合は、第3被写界深度を最も深い設定とする。その後、被写界深度設定部105は、算出した第3被写界深度を被写界深度設定領域に記憶させる。

0037

(リフォーカス処理)
リフォーカス係数αnが話者フォーカス距離領域に、第3被写界深度が被写界深度設定領域にそれぞれ記憶された段階で、先読み込み処理が完了となり、該当するフレームの画像が再生可能となる。本リフォーカス処理のステップでは、リフォーカス係数や被写界深度等の、先読み込み処理によって生成されたフォーカス処理演算過程のデータを利用して、演算量を低減して遅延を低減したリフォーカス画像の生成・提示を行う。

0038

S908において、制御部102は、リフォーカス処理部106に対して再生処理としてのリフォーカス処理を行わせる。具体的には、リフォーカス処理部106が話者フォーカス距離領域からリフォーカス係数αnを、被写界深度設定領域から第3被写界深度を、LFデータ領域からLFデータを読み出し、これらの3つのデータからリフォーカス画像を生成する。そして、生成されたリフォーカス画像を第2動画データ領域に記憶させる。

0039

映像・音声出力部108は、制御部102の指示に応じて、記憶部107の音声データ領域に記憶されている音声データと、第2動画データ領域に記憶されているリフォーカス画像を、AVストリームとして順次出力する。このとき、音声データのうちの話者の音声を強調するように音声処理を行って出力してもよい。制御部102は、リフォーカス画像の出力を完了すると、処理対象のフレームを次のフレームに変更して上述した一連の動作をLF動画データの最終フレームまで繰り返す。そして、制御部102は、最終フレームに対する再構成画像の出力を終了すると一連の処理を終了する。

0040

このように話者を検出し、話者に合焦させたリフォーカス画像を生成することにより、以下のような課題にも対処することができる。例えば、従来のカメラでは、フォーカスレンズの移動によって、話者が話し始めるタイミングにフォーカス遅れた動画が撮影されことがあり、その遅れは視聴時にも修正ができないという課題に対処することができる。即ち、LFデータを取得することができない通常のカメラを用いた撮影では、話者を検出し、その話者に自動的に合焦させた撮影を行う場合に、話者の検出後にフォーカスレンズを移動させるという過程に時間的な遅延が生じる。これにより、注視すべき話者が話し始めるタイミングにフォーカスが遅れた動画を得ることになる。しかし、本実施形態におけるLF動画の再生処理では、撮影後に話者にリフォーカス処理を行うことによって、話者が話し始めるタイミングに合焦させるタイミングを合わせることができる。

0041

(被写界深度の設定処理、及びリフォーカス画像の生成処理の詳細)
上述した、被写界深度設定部105による被写界深度の設定処理、及びリフォーカス処理部106によるリフォーカス画像の生成処理について、図4及び図5を参照して更に説明する。なお、これらの処理は「Light Field Photography」ともいわれる処理である。

0042

図4は、LFデータを取得するための外部の撮像装置が備える、主レンズ401と撮像素子402を模式的に示している。撮像素子402の受光面における光線の強度とその光線の進行方向の情報を有する光線情報を表す関数を、LF(x、y、u、v)とする。主レンズ401の座標軸をu、vとし、撮像素子402の座標軸をx、yとする。また、主レンズ401と撮像素子402との距離をFとする。このとき、主レンズ401および撮像素子402を通過する光線Lは関数LF(x、y、u、v)で定義される。なお、リフォーカス画像の生成に必要な光学系パラメータu、v、に関しては、LF動画撮影時に、LFデータとして記憶されている。

0043

図5は、主レンズ面501、撮像面503及びリフォーカス面302を模式的に示している。リフォーカス面の位置は、リフォーカス係数αによって定められる。ここで、主レンズ面501のuから入射し、リフォーカス面502上の点x’を通過する光線Lは撮像面503上の点xに到達する。ここで撮像面503の点xにおける光線とリフォーカス面502のx’における光線は等価であるといえる。即ち、主レンズ面501の座標(u、v)から入射し、リフォーカス係数αで規定されるリフォーカス面502上の座標(x’、y’)を通過する光線の、撮像面での受光信号は、光線情報を表す関数LF(x、y、u、v)を用いて式1のように表すことができる。また、リフォーカス面502上で得られるリフォーカス画像EF’(x’、y’)は、主レンズ面501のu,v軸に対して積分したものであるため、式2のように表すことができる。即ち、リフォーカス画像は式2に示す演算処理により生成することができる。

0044

0045

0046

リフォーカス処理部106は、第2被写界深度の設定である主レンズ面の座標(u、v)の積分範囲とLFデータとを用いて、式2からリフォーカス画像を生成する。そして、生成したリフォーカス画像に対する合焦評価を行ってリフォーカス係数αを求める。S906では、例えば式2のリフォーカス係数αを徐々に変化させながら、リフォーカス係数αの変化に合わせた所定の枚数のリフォーカス画像を生成していく。そして、生成された複数のリフォーカス画像における画面内座標(x、y)に対して、それぞれ合焦評価を行う。このときのリフォーカス画像の合焦評価は、一般的なデジタルスチルカメラにおけるコントラストAFで用いられるように画像のエッジ検出と同様の方法で行うことができる。エッジ検出の方法については公知技術(例えば特開平4−337878等)を用いることができるため詳細は省略するが、本実施形態の合焦評価方法はこれに限定されない。リフォーカス処理部106は、合焦評価を行って、最も合焦していると判定されたリフォーカス画像に対するリフォーカス係数αを算出結果として出力する。

0047

被写界深度設定部105は、話者座標データ領域に記憶されている画面内座標(x、y)と、話者フォーカス距離領域へ記憶されているリフォーカス係数αより、式2の積分係数である主レンズ面の座標(u、v)の積分範囲を決定する。例えば、S907では、話者座標データ領域に記憶されている画面内座標が不定座標(x∞、y∞)の場合には、主レンズ面の座標(u、v)の積分範囲を予め定めた範囲に狭めて設定する。主レンズ面の座標(u、v)の積分範囲を狭めることはレンズ口径を小さくすること(即ちレンズ絞りを絞ること)に相当するため、被写界深度の深いリフォーカス画像、つまりパンフォーカスに近しい画像を生成することができる。また、話者が存在する場合は、特定された話者の画面内座標(x、y)に合焦するような、座標(u、v)の積分範囲を決定する。つまり、積分範囲は主レンズ面全体にする。また、話者の画面内座標が複数存在する場合、複数のリフォーカス係数αnの中で、最小のリフォーカス係数αn_minと、最大のリフォーカス係数αn_maxの2つをカバーする深度を持つ、座標(u、v)の積分範囲を決定する。被写界深度設定部105は、決定された座標(u、v)の積分範囲を、第3被写界深度の設定として被写界深度設定領域に記憶させる。

0048

例えばS908におけるLF動画の再生処理では、リフォーカス処理部106は、LFデータ領域に記憶されているLFデータに対して、第3被写界深度の設定(主レンズ面の座標(u、v)の積分範囲)とリフォーカス係数αnとを用いてリフォーカス画像を生成する。

0049

なお、本実施形態では、認識された話者に対してリフォーカスを行うタイミングを、話者検出部104により話者が認識及び特定された時間を基準としている。しかし、リフォーカスを行うタイミングはこれに限定されない。話者が認識及び特定されたタイミングからリフォーカスを開始するほか、このタイミングより数ミリ秒〜数秒程度遡ったタイミングでリフォーカスを開始するようにしてもよい。この場合、被写界深度の設定やリフォーカス係数等は、話者が認識・特定されたタイミングにおいてリフォーカス画像を生成するときの設定と同一又は近しい設定を用いることができる。

0050

また、本実施形態においては、予め注視すべき話者の音声情報、及び画像情報を記憶部107に記憶したうえで、LF動画データの情報と比較して話者認識を行うようにした。しかし、例えば公知技術(特開平9−322136等)のように、注視すべき話者に関する情報を事前に登録することなく、画像内人物の口元動きを検出し話者を認識するようにしてもよい。さらに、本実施形態では話者、即ち人物に対する音声認識及び画像領域の特定を例に説明したが、人物に限らず音声を発生する他の動物物体に対して上述した処理を用いても良い。

0051

以上説明したように、本実施形態では、LFデータを各フレームに含むLF動画において、フレーム内の注視すべき話者を検出し、検出した画像内の話者に合焦するリフォーカス係数を算出するようにした。そして、このリフォーカス係数、即ちリフォーカス処理の演算過程のデータを用いて当該検出された話者に合焦するリフォーカス画像を生成するようにした。このようにすることで、LF動画再生中に注視すべき話者に自動的に合焦させることができ、ユーザがLF動画を鑑賞する際に合焦位置を設定する手間を削減することができる。即ち、LFデータを含んだ動画を再生する際に、注視すべき被写体に合焦した動画を容易に得ることができる。また、リフォーカス画像を生成・提示する際に、リフォーカス処理の演算過程のデータを生成し、再生するタイミングで用いるようにした。このようにすることで、リフォーカス画像を提示する際に各フレーム間の処理時間の遅延を低減することができ、発話を開始する被写体に遅延なく合焦させることができる。

0052

(実施形態2)
次に実施形態2について説明する。実施形態2では、実施形態1の構成を主レンズ、マイクロレンズ及び撮像素子を含む撮像部を有する撮像装置に適用する。即ち、本実施形態の撮像装置は、実施形態1と異なりLFデータ及び音声をそれぞれ取得する構成を有し、また、生成されたリフォーカス画像を表示する構成を有する。しかし、その他の構成は実施形態1と同一である。このため、同一の構成又は同様のステップについては同一の符号を付して重複する説明は省略し、相違点について重点的に説明する。

0053

まず、実施形態2に係る撮像装置の一例としてのデジタルカメラ600の構成を、図6を参照して説明する。

0054

デジタルカメラ600は、LFデータを撮像するための構成として、主レンズ601、マイクロレンズ602、撮像素子603を有し、LFデータ入力部604は撮像素子603から出力されるLFデータを入力する。なお、LFデータ入力部604は、実施形態1で上述した音声・LFデータ入力部103のLFデータを扱う構成と同様である。また、音声入力部605は、外部の音声データを入力する構成を有し、音声・LFデータ入力部103の音声を入力する構成と同様である。

0055

主レンズ601は、単一または複数のレンズからなる結像光学系であり、被写体からの光線を通過させてマイクロレンズ602の面に導く。マイクロレンズ602は、主レンズ601と撮像素子603の間の位置に配置され、主レンズ601から入射する光線をその入射角度に応じて分光し、撮像素子603に出射する。

0056

撮像素子603は、光電変換素子を有する画素が複数、2次元状に配置された構成を有する。撮像素子603は、マイクロレンズ602を通過して結像された被写体光学像を各画素で光電変換し、画素単位の画像信号をLFデータ入力部604に出力する。撮像素子603は、CCD(Charge-Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの撮像素子であってよい。

0057

LFデータ入力部604は、撮影時において、撮像素子603より入力された画像信号をA/D変換回路によってアナログデジタル変換し、現像処理を行ってLFデータを生成して記憶部107のLFデータ領域に記憶する。なお、主レンズ601、マイクロレンズ602、撮像素子603、LFデータ入力部604における動作の詳細は別途後述する。

0058

音声入力部605は、いわゆるマイクであり、外部の音声信号集音し、アナログ・デジタル変換をした後に、記憶部107の音声データ領域に記憶する。

0059

表示パネル・スピーカー606は、映像・音声出力部108から入力された映像信号を映像として表示し、音声信号を音声として出力する。撮影時には、例えば映像・音声出力部108が、記憶部107に記憶されているリフォーカス処理された動画データと、音声データとを読み出し、表示パネル・スピーカー606に撮影中のリフォーカス画像を表示させる。また、再生時には同様に映像・音声出力部108から出力された、記録されたLFデータのリフォーカス画像を表示する。

0060

メディアI/F607は、記録メディア608に対してデータの読み書きを制御するインターフェースを含む。撮影時には、LFデータ入力部604によって読み出された撮影中のLFデータを、記録メディア608に記録する。再生時には、記録メディア608から、記録されたLFデータの全データを読み出して、記憶部107のLFデータ領域に記憶させる。なお、記録メディア608に対しては例えばFATなどのファイルシステム形式データ記録を行なうと共に、ファイルシステムの生成や制御等も行なう。

0061

記録メディア608は、ハードディスクドライブや不揮発半導体メモリ(例えばフラッシュメモリ)を含み、メディアI/Fの指示に応じて、データの書き込み及び読み込みを行う。

0062

なお、操作部101は、実施形態1と同様であるが、更にユーザが操作するシャッターボタン、記録ボタン、再生ボタン、設定ボタン等と表示パネル・スピーカー606の表面に配置されたタッチパネルセンサを含む。

0063

(LFデータを取得する構成)
次に、撮影時における主レンズ601、マイクロレンズ602、撮像素子603、LFデータ入力部604を用いた動作について、図7及び図8を参照して説明する。

0064

図7(a)は、主レンズ601、マイクロレンズ602、撮像素子603の位置関係を模式的に示している。マイクロレンズ602は撮像素子603の前面に位置し、2次元状に複数のマイクロレンズが配置されている。なお、本実施形態におけるマイクロレンズの大きさや数は図示されているものに制限されるものではない。

0065

また、図7(b)は、マイクロレンズと撮像素子603の関係を模式的に示している。1つのマイクロレンズ701は、撮像素子603のn×m個の各画素702と対応するように配置されている。光線の分割数は、1つのマイクロレンズに対応する画素数によって決定され、本実施形態で示す一例では、1つのマイクロレンズに対して5×5個の画素を対応させている。

0066

また、図8は、主レンズ601、マイクロレンズ602及び撮像素子603を通過する光束を説明する図である。801〜803は、それぞれ主レンズ601、マイクロレンズ602、撮像素子603に対応する。被写体804から放たれた1点の光805は、光束となって主レンズ801に入射する。入射した光束は、主レンズ801によって集光されてマイクロレンズ802の表面の結像面806で結像する。結像した光束は、マイクロレンズ802において光の入射角度に応じて分光され、撮像素子803を構成する各画素821〜825によって受光される。画素821〜825によってそれぞれ受光された光束は、光電変換素子によって光電変換されて画像信号として出力される。

0067

より具体的には、画素821は、光路811からの光束を受光し、画素822は光路812からの光束を受光する。同様に、画素823は、光路813からの光束を、画素824は光路814からの光束を、画素825は光路815からの光束をそれぞれ受光する。このように、画素821〜825で受光される光束は、同じ被写体からの光でありながら、光線の入射角度によって別々の画素により受光される。従って、撮像素子803に配置された各画素の出力を用いれば、撮像素子の受光面における光の強度とその光の進行方向の情報を含んだ画像信号(即ちLFデータ)を得ることができる。

0068

(LF動画の撮影処理に係る一連の動作)
次に、図10を参照して、本実施形態のLF動画の撮影処理に係る一連の動作を説明する。なお、LF動画の撮影処理は、操作部101に対してユーザによる撮影指示が行われた場合に開始され、制御部102が記憶部107に記憶されたプログラムを実行することにより各部を制御する。

0069

(音声・LFデータの生成処理)
S1001において、制御部102は、撮像素子603を制御してLFデータを生成する。より具体的には、主レンズ601は前面から被写体の光線を集光して、マイクロレンズ602の面に結像させる。上述したように、マイクロレンズ602は、主レンズ601によって集光された光線を入射角度に応じて分光し、撮像素子603に出射する。

0070

撮像素子603は、マイクロレンズ602を通過して入射する各光速を電気信号に変換して撮像信号としてLFデータ入力部604に出力する。

0071

LFデータ入力部604は、撮影時において、撮像素子603より入力された撮像信号をデジタル化し、現像処理を行ってLFデータを生成する。生成されたLFデータは記憶部107のLFデータ領域に記憶される。さらに、音声入力部605は外部の音声信号を集音し、アナログ・デジタル変換を行って記憶部107の音声データ領域に記憶させる。

0072

以降のS902〜S907に係る処理、即ちLF動画データの生成処理から第3被写界深度の設定処理に係る一連の動作を実施形態1と同様に行って、LF動画データを生成する。但し、LF動画の撮影処理では、第1動画データ領域に記憶されたLF動画データを映像・音声出力部108が読み出して、LF動画データを表示パネル・スピーカー606にリアルタイムに表示する。

0073

(記録メディアへの書き込み処理
S1002において、制御部102は、メディアI/F607を制御して、記憶部107に格納されている各データを記録メディア608に書き込ませる。より具体的には、メディアI/F607は、記憶部107に記憶されているリフォーカス係数αnと、第3被写界深度と、LFデータと、音声データとを読み出して、記録メディアに書き込む。なお、本実施形態では、リフォーカス係数や第3被写界深度等のリフォーカス処理の演算過程のデータを付加情報メタデータ)として記録するため、同時に記録されたLF動画データを再生する際に高速にリフォーカス画像を再生することができる。

0074

制御部102は、S1002における、1つのフレームに対する上述したデータの書き込みが終了すると、次のフレームに対する処理を開始する。制御部102は、先頭フレームから最終フレームまで上述した各処理を行って、全てのフレームに対する記録メディア608へ記録が完了すると、LF動画の撮影処理に係る一連の動作を終了する。

0075

(LF動画の再生処理に係る一連の動作)
次に、図11を参照して、LF動画の再生処理に係る一連の動作について説明する。なお、本実施形態に係るLF動画の再生処理は、操作部101に対してユーザによる再生指示が行われた場合に開始され、制御部102が記憶部107に記憶されたプログラムを実行することにより各部を制御する。

0076

(音声・LFデータの読み出し処理
S1101において、制御部102は、メディアI/F607を制御して記録メディア608からLF動画データを読み出して、記憶部107の各領域に記憶させる。具体的には、メディアI/F607は、記録メディア608からリフォーカス係数αnと、第3被写界深度と、LFデータと、音声データとを読み出す。そして、読み出したデータ、即ちリフォーカス係数αnを記憶部107の話者フォーカス距離領域に、第3被写界深度を被写界深度領域に、LFデータをLFデータ領域に、音声データを音声データ領域にそれぞれ記憶させる。

0077

次に、制御部102は、上述したS908と同様に、記憶部107に記憶されている各データを用いたリフォーカス処理を行わせ、生成したリフォーカス画像を再び記憶部107に記憶させる。映像・音声出力部108は、記憶部107の音声データ領域に記憶されている音声データと、第2動画データ領域に記憶されているリフォーカス画像を、順次AVストリームとして表示パネル・スピーカー606に出力する。

0078

このとき、さらにメディアI/F607が記憶部107に記憶されている音声データ及び第2動画データ領域に記憶されている動画データを読み出し、AVファイルとして記録メディア608に記録するようにしてもよい。

0079

制御部102は、上述した一連の動作を、LF動画データの先頭フレームから最終フレームまで繰り返し、最終フレームの再生が終了するとLF動画の再生処理に係る一連の動作を終了する。

0080

以上説明したように、本実施形態に係る撮像装置は、LF動画の撮影時に、撮影している画像内の話者を検出し、当該話者に合焦させるリフォーカス処理を行うようにした。そして、このリフォーカス処理の演算過程のデータを付加情報(メタデータ)としてLFデータとともに記録するようにした。このようにすることで、LF動画データを再生する際に、このリフォーカス処理の演算過程のデータを利用すれば、検出した話者に対してリフォーカスしたLF動画の再生を行うことができる。即ち、ユーザがLF動画の再生時に合焦位置を設定する手間を削減することができる。また、リフォーカスされたLF動画を提示する際に各フレーム間の処理時間の遅延を低減することができる。

0081

(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

0082

102…制御部、103…音声・LFデータ入力部、104…話者検出部、105…被写界深度設定部、106…リフォーカス処理部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ