図面 (/)

技術 マルチビュービデオを予測する方法及びシステム

出願人 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド
発明者 ジュン・シンエミン・マーティニアンアレクサンダー・ベーレンスアンソニー・ヴェトロハイファン・スン
出願日 2012年2月6日 (9年4ヶ月経過) 出願番号 2012-022623
公開日 2012年6月14日 (8年11ヶ月経過) 公開番号 2012-114942
状態 拒絶査定
技術分野 立体TV及びTVの試験,検査,測定等 TV信号の圧縮,符号化方式
主要キーワード 時間レート ビューシーケンス 空間参照 割り当て規則 最良一致 近傍フレーム サンプル集合 参照ビュー
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2012年6月14日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

マルチビュービデオ予測するシステム及び方法を提供する。

解決手段

取得されたマルチビュービデオから仮想カメラについて合成マルチビュービデオが生成される。マルチビュービデオの各々及び合成ビデオ現フレーム毎に参照ピクチャリストが保持される。参照ピクチャリストは、取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ並びに合成マルチビュービデオの合成参照ピクチャインデックス付けする。次に、マルチビュービデオの各現フレームが、符号化及び復号化中に、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測される。

概要

背景

マルチビュービデオの符号化及び復号化は、3次元テレビ(3DTV)、自由視点テレビ(FTV)、及び複数のカメラによる監視等の用途に不可欠である。マルチビュービデオの符号化及び復号化は動的なライトフィールド圧縮としても知られる。

図1は、マルチビュービデオを符号化するための従来技術の「サイマル放送」システム100を示す。カメラ1〜4がシーン5のフレームシーケンスすなわちビデオ101〜104を取得する。各カメラはシーンの異なるビューを有する。各ビデオは、個別に符号化111〜114されて、対応する符号化ビデオ121〜124となる。このシステムは、従来の2Dビデオ符号化技法を用いる。したがって、このシステムは、符号化ビデオのフレーム予測する際に、カメラによって異なる視点から取得される異なるビデオを相関させない。個別の符号化は、圧縮効率を低下させ、よってネットワーク帯域幅及び記憶域(storage)が増大する。

図2は、ビュー間の相関を用いる、従来技術の視差補償予測システム200を示す。ビデオ201〜204は符号化211〜214されて、符号化ビデオ231〜234となる。ビデオ201及び204は、MPEG−2、又はMPEG−4パート10としても知られるH.264等の標準的なビデオエンコーダを用いて個別に符号化される。これらの個別に符号化されたビデオは「参照」ビデオである。残りのビデオ202及び203は、時間予測、並びにデコーダ221及び222から得られる再構成された参照ビデオ251及び252に基づくビュー間予測を用いて符号化される。通常、この予測はブロック毎に適応的に決定される(S. C. Chan他著「The data compression of simplified dynamic light fields」(Proc.IEEE Int. Acoustics, Speech, and Signal Processing Conf., April, 2003))。

図3は、従来技術の「リフティングベースの」ウェーブレット分解を示す(W. Sweldens著「The data compression of simplified dynamic light fields」(J. Appl. Comp. Harm. Anal., vol. 3, no. 2, pp. 186-200, 1996)を参照のこと)。ウェーブレット分解は、静的なライトフィールド圧縮に効果的な技法である。入力サンプル301は、奇数サンプル302及び偶数サンプル303に分割310される。奇数サンプルは偶数サンプルから予測320される。予測誤差高域サンプル304を形成する。この高域サンプルは、偶数サンプルを更新330して低域サンプル305を形成するために用いられる。この分解は可逆であるため、線形操作又は非線形操作を予測ステップ及び更新ステップに組み込むことができる。

リフティング方式は、ビデオの場合は実質的に時間的な動き軌跡に沿ってフィルタリングを行う動き補償時間変換、すなわち、動き補償時間フィルタリング(MCTF)を可能にする。ビデオの符号化のためのMCTFのレビューがOhm他著「Interframe wavelet codingmotion picture representation for universal scalability」(Signal Processing: Image Communication, vol. 19, no. 9, pp. 877-908, October 2004)に記載されている。リフティング方式は、再構成に影響を与えることなく、ハール又は5/3ドベシィ等の任意のウェーブレット核、及びブロックベース平行移動又はアフィングローバル動き等の任意の動きモデルに基づいて行うことができる。

符号化のために、MCTFは、ビデオを高域フレーム低域フレームとに分解する。次にこれらのフレームに空間変換を施して、残存する空間的相関を減らす。変換された低域フレーム及び高域フレームは、関連する動き情報と共にエントロピー符号化されて、符号化ビットストリームを形成する。MCTFは、図3に示すリフティング方式を用いて、時間的に隣接するビデオを入力として実施することができる。また、MCTFは、出力低域フレームに反復的に適用することができる。

MCTFベースのビデオの圧縮効率は、H.264/AVC等のビデオ圧縮規格のそれに匹敵する。また、ビデオは固有時間スケーラビリティを有する。しかし、この方法は、複数のビューから取得されたビデオ間に相関があるマルチビュービデオの直接符号化には用いることができない。これは、時間的相関を考慮する効率的なビュー予測方法がないためである。

リフティング方式は、静的なライトフィールド、すなわち、単一のマルチビュー画像を符号化するためにも用いられてきた。動き補償時間フィルタリングを行う代わりに、エンコーダは、空間領域の静止ビュー間で視差補償ビュー間フィルタリング(DCVF)を行う(Chang他著「Inter-view wavelet compression of light fieldswith disparity compensated lifting」(SPIEConf on Visual Communications and Image Processing, 2003)を参照のこと)。符号化のために、DCVFは、静的なライトフィールドを高域画像低域画像とに分解し、次にこれらの画像に空間変換を施して、残存する空間的相関を減らす。変換された画像は、関連する視差情報と共にエントロピー符号化されて、符号化ビットストリームを形成する。DCVFは通常、図3に示すようなリフティングベースのウェーブレット変換方式を用いて、空間的に隣接するカメラビューから取得される画像を入力として実施される。また、DCVFは、出力低域画像に反復的に適用することができる。DCVFベースの静的なライトフィールド圧縮は、複数のフレームを個別に符号化するよりも高い圧縮効率を提供する。しかし、この方法はまた、ビュー間の時間的相関及び空間的相関の両方を用いるマルチビュービデオを符号化することができない。これは、時間的相関を考慮する効率的なビュー予測方法がないためである。

概要

マルチビュービデオを予測するシステム及び方法を提供する。取得されたマルチビュービデオから仮想カメラについて合成マルチビュービデオが生成される。マルチビュービデオの各々及び合成ビデオの現フレーム毎に参照ピクチャリストが保持される。参照ピクチャリストは、取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ並びに合成マルチビュービデオの合成参照ピクチャインデックス付けする。次に、マルチビュービデオの各現フレームが、符号化及び復号化中に、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測される。

目的

DCVFベースの静的なライトフィールド圧縮は、複数のフレームを個別に符号化するよりも高い圧縮効率を提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

マルチビュービデオ予測する方法であって、取得された複数のマルチビュービデオから合成マルチビュービデオを合成するステップと、前記複数のマルチビュービデオの各々の現フレーム毎に参照ピクチャリストを保持するステップであって、該参照ピクチャは、前記複数の取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ並びに前記合成マルチビュービデオの前記合成参照ピクチャインデックス付けするステップと、前記複数のマルチビュービデオの各現フレームを、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測するステップとを含む、マルチビュービデオを予測する方法。

請求項2

前記合成することは、前記合成マルチビュービデオを前記取得された複数のマルチビュービデオのうちの1つからワーピングする、請求項1に記載の方法。

請求項3

前記参照ピクチャリスト中の時間参照ピクチャは、対応する合成参照ピクチャの前に順序付けされ、該合成参照ピクチャは空間参照ピクチャの前に順序付けされる、請求項1に記載の方法。

請求項4

前記合成マルチビュービデオは、前記シーン中奥行き値に従って合成される、請求項1に記載の方法。

請求項5

前記取得された複数のマルチビュービデオ中の特徴の対応関係から前記奥行き値を求めることをさらに含む、請求項4に記載の方法。

請求項6

前記合成マルチビュービデオの各フレームは複数の合成マクロブロックを含み、各マクロブロックには関連する奥行き値がある、請求項4に記載の方法。

請求項7

前記合成マクロブロックと復号化された残差マクロブロックとを加算することにより再構成マクロブロックが生成される、請求項6に記載の方法。

請求項8

前記合成マクロブロックは、前記取得された複数のマルチビュービデオの空間参照ピクチャから生成される、請求項7に記載の方法。

請求項9

前記合成マクロブロックは変位ベクトルと関連する、請求項6に記載の方法。

請求項10

前記合成することは前記シーンモデルを用いる、請求項1に記載の方法。

請求項11

マルチビュービデオを予測するシステムであって、取得された複数のマルチビュービデオから仮想カメラについて合成マルチビュービデオを合成する手段と、前記複数のマルチビュービデオの各々及び前記合成ビデオの現フレーム毎に参照ピクチャリストを保持する手段であって、該参照ピクチャは、前記複数の取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ並びに前記合成マルチビュービデオの前記合成参照ピクチャをインデックス付けする手段と、前記複数のマルチビュービデオの各現フレームを、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測する手段とを備える、マルチビュービデオを予測するシステム。

技術分野

0001

本発明は、包括的にはマルチビュービデオの符号化及び復号化に関し、特にマルチビュービデオの予測に関する。

背景技術

0002

マルチビュービデオの符号化及び復号化は、3次元テレビ(3DTV)、自由視点テレビ(FTV)、及び複数のカメラによる監視等の用途に不可欠である。マルチビュービデオの符号化及び復号化は動的なライトフィールド圧縮としても知られる。

0003

図1は、マルチビュービデオを符号化するための従来技術の「サイマル放送」システム100を示す。カメラ1〜4がシーン5のフレームシーケンスすなわちビデオ101〜104を取得する。各カメラはシーンの異なるビューを有する。各ビデオは、個別に符号化111〜114されて、対応する符号化ビデオ121〜124となる。このシステムは、従来の2Dビデオ符号化技法を用いる。したがって、このシステムは、符号化ビデオのフレームを予測する際に、カメラによって異なる視点から取得される異なるビデオを相関させない。個別の符号化は、圧縮効率を低下させ、よってネットワーク帯域幅及び記憶域(storage)が増大する。

0004

図2は、ビュー間の相関を用いる、従来技術の視差補償予測システム200を示す。ビデオ201〜204は符号化211〜214されて、符号化ビデオ231〜234となる。ビデオ201及び204は、MPEG−2、又はMPEG−4パート10としても知られるH.264等の標準的なビデオエンコーダを用いて個別に符号化される。これらの個別に符号化されたビデオは「参照」ビデオである。残りのビデオ202及び203は、時間予測、並びにデコーダ221及び222から得られる再構成された参照ビデオ251及び252に基づくビュー間予測を用いて符号化される。通常、この予測はブロック毎に適応的に決定される(S. C. Chan他著「The data compression of simplified dynamic light fields」(Proc.IEEE Int. Acoustics, Speech, and Signal Processing Conf., April, 2003))。

0005

図3は、従来技術の「リフティングベースの」ウェーブレット分解を示す(W. Sweldens著「The data compression of simplified dynamic light fields」(J. Appl. Comp. Harm. Anal., vol. 3, no. 2, pp. 186-200, 1996)を参照のこと)。ウェーブレット分解は、静的なライトフィールド圧縮に効果的な技法である。入力サンプル301は、奇数サンプル302及び偶数サンプル303に分割310される。奇数サンプルは偶数サンプルから予測320される。予測誤差高域サンプル304を形成する。この高域サンプルは、偶数サンプルを更新330して低域サンプル305を形成するために用いられる。この分解は可逆であるため、線形操作又は非線形操作を予測ステップ及び更新ステップに組み込むことができる。

0006

リフティング方式は、ビデオの場合は実質的に時間的な動き軌跡に沿ってフィルタリングを行う動き補償時間変換、すなわち、動き補償時間フィルタリング(MCTF)を可能にする。ビデオの符号化のためのMCTFのレビューがOhm他著「Interframe wavelet codingmotion picture representation for universal scalability」(Signal Processing: Image Communication, vol. 19, no. 9, pp. 877-908, October 2004)に記載されている。リフティング方式は、再構成に影響を与えることなく、ハール又は5/3ドベシィ等の任意のウェーブレット核、及びブロックベース平行移動又はアフィングローバル動き等の任意の動きモデルに基づいて行うことができる。

0007

符号化のために、MCTFは、ビデオを高域フレーム低域フレームとに分解する。次にこれらのフレームに空間変換を施して、残存する空間的相関を減らす。変換された低域フレーム及び高域フレームは、関連する動き情報と共にエントロピー符号化されて、符号化ビットストリームを形成する。MCTFは、図3に示すリフティング方式を用いて、時間的に隣接するビデオを入力として実施することができる。また、MCTFは、出力低域フレームに反復的に適用することができる。

0008

MCTFベースのビデオの圧縮効率は、H.264/AVC等のビデオ圧縮規格のそれに匹敵する。また、ビデオは固有時間スケーラビリティを有する。しかし、この方法は、複数のビューから取得されたビデオ間に相関があるマルチビュービデオの直接符号化には用いることができない。これは、時間的相関を考慮する効率的なビュー予測方法がないためである。

0009

リフティング方式は、静的なライトフィールド、すなわち、単一のマルチビュー画像を符号化するためにも用いられてきた。動き補償時間フィルタリングを行う代わりに、エンコーダは、空間領域の静止ビュー間で視差補償ビュー間フィルタリング(DCVF)を行う(Chang他著「Inter-view wavelet compression of light fieldswith disparity compensated lifting」(SPIEConf on Visual Communications and Image Processing, 2003)を参照のこと)。符号化のために、DCVFは、静的なライトフィールドを高域画像低域画像とに分解し、次にこれらの画像に空間変換を施して、残存する空間的相関を減らす。変換された画像は、関連する視差情報と共にエントロピー符号化されて、符号化ビットストリームを形成する。DCVFは通常、図3に示すようなリフティングベースのウェーブレット変換方式を用いて、空間的に隣接するカメラビューから取得される画像を入力として実施される。また、DCVFは、出力低域画像に反復的に適用することができる。DCVFベースの静的なライトフィールド圧縮は、複数のフレームを個別に符号化するよりも高い圧縮効率を提供する。しかし、この方法はまた、ビュー間の時間的相関及び空間的相関の両方を用いるマルチビュービデオを符号化することができない。これは、時間的相関を考慮する効率的なビュー予測方法がないためである。

発明が解決しようとする課題

0010

複数のカメラによって或るシーンについて取得されたマルチビュービデオを分解する方法及びシステムが提示される。

課題を解決するための手段

0011

各マルチビュービデオはフレームシーケンスを含み、各カメラはシーンの異なるビューを提供する。

0012

時間予測モード、空間予測モードビュー合成予測モード、及びイントラ予測モードの中から1つの予測モードが選択される。

0013

次に、マルチビュービデオは、選択された予測モードに従って低域フレーム、高域フレーム、及びサイド情報に分解される。

0014

シーンの合成ビューを反映する新規のビデオもまた、マルチビュービデオのうちの1つ又は複数から生成することができる。

0015

特に、本発明の1つの実施の形態は、マルチビュービデオを予測するシステム及び方法を提供する。取得されたマルチビュービデオから仮想カメラについて合成マルチビュービデオが生成される。マルチビュービデオの各々及び合成ビデオの現フレーム毎に参照ピクチャリストが保持される。参照ピクチャリストは、取得されたマルチビュービデオの時間参照ピクチャ及び空間参照ピクチャ並びに合成マルチビュービデオの合成参照ピクチャインデックス付けする。次に、マルチビュービデオの各現フレームが、符号化及び復号化中に、関連する参照ピクチャリストによってインデックス付けされた参照ピクチャに従って予測される。

図面の簡単な説明

0016

マルチビュービデオを符号化するための従来技術のシステムのブロック図である。
マルチビュービデオを符号化するための従来技術の視差補償予測システムのブロック図である。
従来技術のウェーブレット分解プロセスのフロー図である。
本発明の1つの実施の形態によるMCTF/DCVF分解のブロック図である。
本発明の1つの実施の形態による、MCTF/DCVF分解後の低域フレーム及び高域フレームの、時間及び空間の関数としてのブロック図である。
本発明の1つの実施の形態による、隣接する低域フレームからの高域フレームの予測のブロック図である。
本発明の1つの実施の形態による、マクロブロック適応的MCTF/DCVF分解を用いるマルチビュー符号化システムのブロック図である。
本発明の1つの実施の形態によるビデオ合成の概略図である。
従来技術の参照ピクチャ管理のブロック図である。
本発明の1つの実施の形態によるマルチビュー参照ピクチャ管理のブロック図である。
本発明の1つの実施の形態による、復号ピクチャバッファにおけるマルチビュー参照ピクチャのブロック図である。
異なるマルチビュー参照ピクチャの順序付け符号化効率を比較するグラフである。
本発明の1つの実施の形態による、マルチビュー参照ピクチャリストマネージャに対するビューモード依存性のブロック図である。
時間参照ピクチャからの予測を使用するシングルビュー符号化システムのための従来技術の参照ピクチャ管理の図である。
本発明の1つの実施の形態による、マルチビュー参照ピクチャからの予測を使用するマルチビュー符号化及び復号化システムのための参照ピクチャ管理の図である。
本発明の1つの実施の形態による、サイド情報として符号化され受け取られる奥行き情報を用いたデコーダにおけるビュー合成のブロック図である。
本発明の1つの実施の形態による、予測モードを選択するためのコスト計算のブロック図である。
本発明の1つの実施の形態による、デコーダによって推定される奥行き情報を用いたデコーダにおけるビュー合成のブロック図である。
本発明の1つの実施の形態による、Vフレームを用いてデコーダにおける空間ランダムアクセスを達成するマルチビュービデオのブロック図である。

実施例

0017

本発明の1つの実施の形態は、マルチビュービデオのフレームを符号化及び復号化するための複合的時間/ビュー間処理方法を提供する。マルチビュービデオは、或るシーンについて異なる姿勢を有する複数のカメラによって取得されるビデオである。本発明では、カメラ姿勢を3Dの(x,y,z)位置及び3Dの(θ,ρ,φ)向きの両方として定義する。各姿勢はシーンの「ビュー」に対応する。

0018

本方法は、特定のカメラ姿勢について取得される各ビデオ中のフレーム間の時間的相関、及び複数のカメラビューから取得されるビデオ中の同期フレーム間の空間的相関を有する。また、後述のように、「合成」フレームを相関させることができる。

0019

1つの実施の形態において、時間的相関は動き補償時間フィルタリング(MCTF)を用い、空間的相関は視差補償ビュー間フィルタリング(DCVF)を用いる。

0020

本発明の別の実施の形態において、空間的相関は、「近傍」フレームから生成される合成フレームからの1つのビューの予測を用いる。近傍フレームは、時間的又は空間的に隣接するフレーム、例えば、時間領域における現フレームの前後のフレーム、又は同時刻に、ただし異なる姿勢又はシーンのビューを有するカメラから取得される1つ又は複数のフレームである。

0021

各ビデオの各フレームは画素のマクロブロックを含む。したがって、本発明の1つの実施の形態によるマルチビュービデオの符号化及び復号化方法はマクロブロック適応的である。現フレーム内の現マクロブロックの符号化及び復号化は、様々な形態の時間予測、空間予測、ビュー合成予測、及びイントラ予測を含むいくつかの可能な予測モードを用いて行われる。マクロブロック毎最良の予測モードを決定するために、本発明の1つの実施の形態は、予測モードを選択する方法を提供する。この方法は、任意数カメラ配置に対して使用することができる。

0022

既存のシングルビューの符号化及び復号化システムとの互換性を保つために、参照ピクチャリストを管理する方法を記載する。具体的には、本明細書では、参照ピクチャリストに従ってピクチャバッファから参照ピクチャを挿入及び削除する方法を記載する。参照ピクチャは、時間参照ピクチャ、空間参照ピクチャ及び合成参照ピクチャを含む。

0023

明細書中で用いる場合、参照ピクチャは、符号化及び復号化中に現フレームを「予測」するために用いられる任意のフレームとして定義される。通常、参照ピクチャは、現フレームに空間的又は時間的に隣接する、すなわち「近傍」にある。

0024

任意の所与の時刻において現フレームを符号化及び復号化するために同一の参照ピクチャの集合が用いられるため、同一の操作がエンコーダ及びデコーダの両方に適用されることに留意することが重要である。

0025

本発明の1つの実施の形態は、符号化及び復号化中にマルチビュービデオのフレームへのランダムアクセスを可能にする。これにより符号化効率が高まる。

0026

MCTF/DCVF分解
図4は、本発明の1つの実施の形態によるMCTF/DCVF分解400を示す。入力ビデオ401〜404のフレームが、或るシーン5について異なる姿勢を有するカメラ1〜4によって取得される。なお、図8に示すように、カメラのうちのいくつか1a及び1bは、同一位置にあり、ただし異なる向きであってもよい。どの対のカメラ間にも或る量のビューの重なりがあると仮定される。カメラの姿勢は、マルチビュービデオの取得中に変化し得る。通常、カメラは互いに同期されている。各入力ビデオは、シーンの異なる「ビュー」を提供する。入力フレーム401〜404はMCTF/DCVF分解400に送られる。この分解は、符号化された低域フレーム411、符号化された高域フレーム412、及び関連するサイド情報413を生成する。高域フレームは、低域フレームを参照ピクチャとして用いて予測誤差を符号化する。分解は、選択された予測モード410に従って行われる。予測モードは、空間予測モード、時間予測モード、ビュー合成予測モード、及びイントラ予測モードを含む。予測モードは、各現フレームについてマクロブロック毎に適応的に選択することができる。イントラ予測を用いる場合、現マクロブロックは、同一フレーム内の他のマクロブロックから予測される。

0027

図5は、フレーム近傍510の、低域フレーム(L)411及び高域フレーム(H)412の好ましい交番格子パターン」を示す。これらのフレームは空間(ビュー)次元501及び時間次元502を有する。本質的に、このパターンは、低域フレーム及び高域フレームが空間次元で1つの時刻毎に交番し、さらに、低域フレーム及び高域フレームが1つのビデオ毎に時間的に交番する。

0028

この格子パターンにはいくつかの利点がある。このパターンは、低域フレームを空間次元及び時間次元の両方において均一に分散させることで、デコータが低域フレームのみを再構成する場合に、空間及び時間においてスケーラビリティを実現する。また、このパターンは、空間次元と時間次元の両方において高域フレームを隣接する低域フレームと整列させる。これは、図6に示すように、現フレームにおける誤差の予測を行うための参照ピクチャ間の相関を最大化する。

0029

リフティングベースのウェーブレット変換によれば、一方のサンプル集合を他方のサンプル集合から予測することによって高域フレーム412が生成される。この予測は、後述する本発明の実施の形態による様々な形態の時間予測、様々な形態の空間予測、及びビュー合成予測を含むいくつかのモードを用いて達成することができる。

0030

高域フレーム412を予測するための手段及びこの予測を行うために必要な情報はサイド情報413と呼ばれる。時間予測を行う場合、時間モードがサイド情報の一部として、対応する動き情報と共に信号伝達される。空間予測を行う場合、空間モードがサイド情報の一部として、対応する視差情報と共に信号伝達される。ビュー合成予測を行う場合、ビュー合成モードがサイド情報の一部として、対応する視差情報、動き情報及び奥行き情報と共に信号伝達される。

0031

図6に示すように、各現フレーム600の予測は、空間次元及び時間次元の両方の近傍フレーム510を用いる。現フレームを予測するために用いられるフレームは参照ピクチャと呼ばれる。参照ピクチャは、符号化ビットストリームの一部である参照リストに保持される。参照ピクチャは復号ピクチャバッファに格納される。

0032

本発明の1つの実施の形態において、MCTF及びDCVFは、入力ビデオの各フレームについて各現マクロブロックに対して適応的に適用されて、分解された低域フレーム、並びに高域フレーム及び関連するサイド情報を生じる。こうして、各マクロブロックは、「最良の」予測モードに従って適応的に処理される。予測モードを選択するための最適な方法は後述する。

0033

本発明の1つの実施の形態において、MCTFがまず各ビデオのフレームに個別に適用される。結果として得られるフレームが次に、DCVFによりさらに分解される。最終的な分解されたフレームに加えて、対応するサイド情報も生成される。マクロブロック毎に行う場合、MCTF及びDCVFの予測モードの選択は別個に検討される。利点として、この予測モードの選択は本質的に時間スケーラビリティをサポートする。こうして、圧縮ビットストリームにおいてビデオのより低い時間レートに容易にアクセスすることができる。

0034

別の実施の形態では、DCVFがまず入力ビデオのフレームに適用される。結果として得られるフレームが次に、MCTFにより時間的に分解される。最終的な分解されたフレームに加えて、サイド情報も生成される。マクロブロック毎に行う場合、MCTF及びDCVFの予測モードの選択は別個に検討される。利点として、この選択は本質的に空間スケーラビリティをサポートする。こうして、圧縮ビットストリームにおいて低減された数のビューに容易にアクセスすることができる。

0035

上述した分解は、前の分解段階から結果として得られる低域フレームの集合に反復的に適用することができる。利点として、本発明のMCTF/DCVF分解400は、時間的相関と空間的(ビュー間の)相関の両方を効果的に除去し、非常に高い圧縮効率を達成することができる。本発明のマルチビュービデオエンコーダの圧縮効率は、各ビューの各ビデオを独立して符号化する従来のサイマル放送符号化に勝る。

0036

MCTF/DCVF分解の符号化
図7に示すように、分解400の出力411及び412は信号エンコーダ710に供給され、出力413はサイド情報エンコーダ720に供給される。信号エンコーダ710は、変換、量子化及びエントロピー符号化を行って、分解された低域フレーム411及び高域フレーム412に残存する相関を除去する。このような操作は当該技術分野において既知である(Netravali及びHaskell著「Digital Pictures: Representation, Compression and Standards」(Second Edition, Plenum Press, 1995))。

0037

サイド情報エンコーダ720は、分解400により生成されるサイド情報413を符号化する。サイド情報413は、予測モード及び参照ピクチャリストに加えて、時間予測に対応する動き情報、空間予測に対応する視差情報、並びにビュー合成予測に対応するビュー合成情報及び奥行き情報を含む。

0038

サイド情報の符号化は、MPEG−4 Visual規格ISO/IEC14496−2「Information technology -- Coding of audio-visual objects - Part 2: Visual」(第2版、2001年)、又はより最近のH.264/AVC規格、及びITU−T勧告H.264「Advanced video coding for generic audiovisual services」(2004年)において用いられている技法等の既知の確立された技法によって達成することができる。

0039

例えば、マクロブロックの動きベクトルは通常、参照ピクチャ内のマクロブロックにおけるベクトルから予測ベクトルを求める予測方法を用いて符号化される。次に、予測ベクトルと現ベクトルの差にエントロピー符号化プロセスを施す。このプロセスは通常、予測誤差の統計値を用いる。同様の手順を用いて視差ベクトルを符号化することができる。

0040

さらに、参照ピクチャ内のマクロブロックからの予測値を得る予測符号化方法を用いて、又は単純に固定長符号を使用して奥行き値を直接表すことによって各マクロブロックの奥行き情報を符号化することができる。画素レベル奥行き精度が抽出され圧縮される場合、変換技法、量子化技法及びエントロピー符号化技法を適用するテクスチャ符号化技法を適用することができる。

0041

信号エンコーダ710及びサイド情報エンコーダ720からの符号化された信号711〜713を多重化730して、符号化された出力ビットストリーム731を生成することができる。

0042

MCTF/DCVF分解の復号化
ビットストリーム731を復号化740して、入力マルチビュービデオ401〜404に対応する出力マルチビュービデオ741を生成することができる。オプションで、合成ビデオも生成することができる。概して、デコーダは、エンコーダの逆の操作を行ってマルチビュービデオを再構成する。全ての低域フレーム及び高域フレームが復号化されれば、空間(ビュー)次元及び時間次元の両方において符号化品質で完全なフレーム集合が再構成され利用可能になる。

0043

エンコーダにおいていくつの反復レベルの分解を適用したか、及び、どのタイプの分解を適用したかに応じて、低減された数のビデオ及び/又は低減された時間レートを図7に示すように復号化することができる。

0044

ビュー合成
図8に示すように、ビュー合成は、1つ又は複数の実際のマルチビュービデオのフレーム803から合成ビデオのフレーム801を生成するプロセスである。言い換えれば、ビュー合成は、シーン5の選択された新たなビュー802に対応するフレーム801を合成する手段を提供する。この新たなビュー802は、入力マルチビュービデオ401〜404が取得された時点では存在しない「仮想」カメラ800に対応してもよく、又は、取得されるカメラビューに対応することができ、よって、合成ビューは、後述のようにその予測及び符号化/復号化に用いられる。

0045

1つのビデオを用いる場合、合成は外挿又はワーピングに基づき、複数のビデオを用いる場合、合成は内挿に基づく。

0046

1つ又は複数のマルチビュービデオのフレーム803の画素値及びシーン中の複数の点の奥行き値が与えられれば、合成ビュー802のフレーム801内の画素を、フレーム803内の対応する画素値から合成することができる。

0047

ビュー合成は一般にコンピュータグラフィックスにおいて、複数のビューについて静止画レンダリングするために使用される(Buehler他著「Unstructured Lumigraph Rendering」(Proc.ACMSIGGRAPH, 2001)を参照のこと)。この方法は、カメラの外部パラメータ及び内部パラメータを必要とする。

0048

マルチビュービデオを圧縮するためのビュー合成は新規である。本発明の1つの実施の形態では、現フレームを予測するために使用する合成フレームを生成する。本発明の1つの実施の形態において、合成フレームは、指定された高域フレームについて生成される。本発明の別の実施の形態において、合成フレームは特定のビューについて生成される。合成フレームは参照ピクチャとして働き、これらの参照ピクチャから現合成フレームを予測することができる。

0049

この手法に伴う1つの問題は、シーン5の奥行き値が分からないことである。したがって、本発明では、既知の技法を用いて、例えば、マルチビュービデオにおける特徴の対応関係に基づいて奥行き値を推定する。

0050

代替的に、合成ビデオ毎に、本発明では、候補奥行き値にそれぞれ対応する複数の合成フレームを生成する。現フレームのマクロブロック毎に、合成フレームの集合の中から最も良く一致するマクロブロックを求める。この最良一致が見付かった合成フレームは、現フレームのそのマクロブロックの奥行き値を示す。このプロセスを現フレーム内の各マクロブロックについて繰り返す。

0051

現マクロブロックと合成ブロックとの差は信号エンコーダ710により符号化及び圧縮される。このマルチビューモードのサイド情報は、サイド情報エンコーダ720によって符号化される。サイド情報は、ビュー合成予測モード、マクロブロックの奥行き値、及び補償されるべき現フレーム内のマクロブロックと合成フレーム内の最良一致マクロブロックとのミスアライメントを補償するオプションの変位ベクトルを示す信号を含む。

0052

予測モードの選択
マクロブロック適応的MCTF/DCVF分解において、各マクロブロックの予測モードmは、コスト関数をマクロブロック毎に適応的に最小化することによって選択することができる。

0053

0054

ここで、J(m)=D(m)+λR(m)であり、Dは歪みであり、λは重みパラメータであり、Rはレートであり、mは候補予測モードの集合を示し、m*は最小コスト基準に基づいて選択された最適予測モードを示す。

0055

候補モードmは様々な時間予測モード、空間予測モード、ビュー合成予測モード及びイントラ予測モードを含む。コスト関数J(m)は、特定の予測モードmを用いてマクロブロックを符号化した結果として生じるレート及び歪みに依存する。

0056

歪みDは、再構成マクロブロックと元マクロブロックの差を測定する。再構成マクロブロックは、所与の予測モードmを用いてマクロブロックを符号化及び復号化することによって得られる。一般的な歪み測度は差の二乗和である。レートRは、予測誤差及びサイド情報を含む、マクロブロックを符号化するために必要なビット数に対応する。重みパラメータλは、マクロブロック符号化のレート−歪みのトレードオフを制御するものであり、量子化ステップサイズから導出することができる。

0057

符号化プロセス及び復号化プロセスの詳細な態様を以下でさらに詳細に説明する。特に、符号化プロセス及び復号化プロセスにより用いられる様々なデータ構造を説明する。エンコーダにおいて用いられるデータ構造は、本明細書中で説明するように、デコーダにおいて用いられる対応するデータ構造と同じであることを理解すべきである。また、デコーダの処理ステップは本質的に、エンコーダと同じ処理ステップに、ただし逆の順序で従うことも理解すべきである。

0058

参照ピクチャの管理
図9は、従来技術のシングルビューの符号化及び復号化システムのための参照ピクチャ管理を示す。時間参照ピクチャ901は、復号ピクチャバッファ(DPB)940への時間参照ピクチャ901の挿入920及び削除930を決めるシングルビュー参照ピクチャリスト(RPLマネージャ910によって管理される。参照ピクチャリスト950もまた保持されて、DPB940に格納されているフレームを示す。RPLは、挿入920及び削除930といった参照ピクチャの管理操作、並びにエンコーダ及びデコーダの両方における時間予測960のために用いられる。

0059

シングルビューエンコーダにおいて、時間参照ピクチャ901は、予測、変換及び量子化を含む通常の符号化操作の集合を適用し、次にこれらの逆の、逆量子化逆変換及び動き補償を含む操作を適用した結果として生成される。さらに、時間参照ピクチャ901は、エンコーダにおける現フレームの予測に時間ピクチャが必要なときにのみ、DPB940に挿入されRPL950に追加される。

0060

シングルビューデコーダにおいて、逆量子化、逆変換及び動き補償を含む通常の復号化操作の集合をビットストリームに対して適用することによって同じ時間参照ピクチャ901が生成される。エンコーダと同様に、時間参照ピクチャ901は、デコーダにおける現フレームの予測に必要な場合にのみ、DPB940に挿入920されRPL950に追加される。

0061

図10は、マルチビューの符号化及び復号化のための参照ピクチャ管理を示す。時間参照ピクチャ1003に加えて、マルチビューシステムはまた、空間参照ピクチャ1001及び合成参照ピクチャ1002も含む。これらの参照ピクチャはまとめてマルチビュー参照ピクチャ1005と呼ばれる。これらのマルチビュー参照ピクチャ1005は、マルチビューDPB1040へのマルチビュー参照ピクチャ1005の挿入1020及び削除1030を決めるマルチビューRPLマネージャ1010によって管理される。ビデオ毎に、マルチビュー参照ピクチャリスト(RPL)1050もまた保持されて、DPBに格納されているフレームを示す。すなわち、RPLはDPBのインデックスである。マルチビューRPLは、挿入1020及び削除1030といった参照ピクチャの管理操作、並びに現フレームの予測1060に用いられる。

0062

マルチビューシステムの予測1060は、異なるタイプのマルチビュー参照ピクチャ1005からの予測が可能となるため、シングルビューシステムの予測960とは異なることに留意されたい。マルチビューの参照ピクチャ管理1010に関するさらなる詳細は後述する。

0063

マルチビュー参照ピクチャリストマネージャ
エンコーダにおいて現フレームを符号化する前、又はデコーダにおいて現フレームを復号化する前に、マルチビューRPL1050においてマルチビュー参照ピクチャの集合1005を指示することができる。従来及び本明細書中で定義されるように、集合は何も有しなくても(空集合)、1つ又は複数の要素を有してもよい。RPLの同一コピーが、各現フレームについてエンコーダ及びデコーダの両方によって保持される。

0064

マルチビューRPL1050に挿入される全てのフレームが、適切な構文を用いて、予測に利用可能なものとして初期化及びマーキングされる。H.264/AVC規格及び参照ソフトウェアによれば、「used_for_reference」フラグが「1」にセットされる。概して、参照ピクチャは、フレームをビデオ符号化システムにおける予測に使用することができるように初期化される。H.264/AVC等の従来のシングルビュービデオ圧縮規格との互換性を保つために、各参照ピクチャにはピクチャ順序カウント(POC)を割り当てる。通常、シングルビューの符号化及び復号化システムの場合、POCはピクチャの時間的な順序付け、例えばフレーム番号に対応する。マルチビューの符号化及び復号化システムの場合、時間順だけでは、各参照ピクチャにPOCを割り当てるのに不十分である。したがって、本発明では、全てのマルチビュー参照ピクチャについて或る規則に従って固有のPOCを求める。1つの規則は、時間参照ピクチャに対して時間順に基づいてPOCを割り当て、次に、非常に高いPOC番号シーケンス、例えば10,000〜10,100を空間参照ピクチャ及び合成参照ピクチャに確保しておくものである。他のPOC割り当て規則、又は単に「順序付け」規則を以下でさらに詳細に説明する。

0065

マルチビュー参照ピクチャとして用いる全てのフレームがRPLに保持され、それらのフレームがエンコーダ700又はデコーダ740によって従来の参照ピクチャとして扱われるようにDPBに格納される。これにより、符号化プロセス及び復号化プロセスは従来通りとすることができる。マルチビュー参照ピクチャの格納に関するさらなる詳細は後述する。予測すべき現フレーム毎に、RPL及びDPBが対応して更新される。

0066

マルチビュー規則の定義及び信号伝達
RPLを管理するプロセスは、エンコーダ700とデコーダ740との間で調整される。特に、エンコーダ及びデコーダは、特定の現フレームを予測する際にマルチビュー参照ピクチャリストの同一コピーを保持する。

0067

マルチフレーム参照ピクチャリストを管理するいくつかの規則が可能である。したがって、用いられる特定の規則がビットストリーム731に挿入されるか、又はシーケンスレベルのサイド情報、例えばデコーダに伝達される構成情報として提供される。さらに、この規則は、異なる予測構造、例えば1Dアレイ、2Dアレイ、弧、十字、及びビューの内挿技法又はワーピング技法を用いて合成されるシーケンスを可能にする。

0068

例えば、合成フレームは、カメラによって取得されたマルチビュービデオのうちの1つの対応するフレームをワーピングすることによって生成される。代替的に、シーンの従来のモデルを合成中に用いることができる。本発明の他の実施の形態では、ビュータイプ、挿入順、及びカメラ特性に依存するいくつかのマルチビュー参照ピクチャ管理規則を定義する。

0069

ビュータイプは、参照ピクチャが現フレームのビデオ以外のビデオからのフレームであるかどうか、又は、参照ピクチャが他のフレームから合成されたものであるかどうか、又は、参照ピクチャが他の参照ピクチャに依存するかどうかを示す。例えば、合成参照ピクチャは、現フレームと同じビデオからの参照ピクチャ、又は空間的に隣接するビデオからの参照ピクチャとは別に保持することができる。

0070

挿入順は、参照ピクチャがRPL内で順序付けされる方法を示す。例として、現フレームと同じビデオ中の参照ピクチャには、隣接ビューから撮影されたビデオ中の参照ピクチャよりも低い順序値を与えることができる。この場合、この参照ピクチャは、マルチビューRPLにおいて前のほうに配置される。

0071

カメラ特性は、参照ピクチャを取得するために使用されるカメラ、又は合成参照ピクチャを生成するために使用される仮想カメラの特性を示す。これらの特性は、固定座標系に対する平行移動及び回転、すなわちカメラの「姿勢」、3Dの点が2D画像に投影される方法を記述する内部パラメータ、レンズ歪み色較正情報照明レベル等を含む。例として、カメラ特性に基づき、特定のカメラの隣接カメラに対する近接度を自動的に求めることができ、隣接カメラにより取得されたビデオのみを特定のRPLの一部とみなす

0072

図11に示すように、本発明の1つの実施の形態は、各参照ピクチャリストの一部1101を時間参照ピクチャ1003用に確保し、別の部分1102を合成参照ピクチャ1002用に確保し、第3の部分1103を空間参照ピクチャ1001用に確保する規則を使用する。これは、ビュータイプのみに依存する規則の一例である。各部分に含まれるフレーム数は、符号化又は復号化中の現フレームの予測依存性に基づいて変化し得る。

0073

特定の管理規則は、規格、明示的又は暗黙的ルールによって指定するか、又は符号化ビットストリームにおいてサイド情報として指定することができる。

0074

DPBへのピクチャの格納
マルチビューRPLマネージャ1010は、マルチビュー参照ピクチャがDPBに格納される順序が、符号化及び復号化の効率を高める上でのピクチャの「有用性」に対応するようにRPLを保持する。具体的には、RPLの初めのほうの参照ピクチャは、RPLの終わりのほうの参照ピクチャよりも少ないビット予測可能に符号化することができる。

0075

図12に示すように、マルチビュー参照ピクチャをRPLに保持する順序の最適化は、符号化効率に大きな影響を有し得る。例えば、初期化について上述したPOCの割り当てに従うと、マルチビュー参照ピクチャには非常に大きなPOC値が割り当てられる可能性がある。これは、マルチビュー参照ピクチャがビデオシーケンスの通常の時間的な順序付けでは生じないためである。したがって、ほとんどのビデオコーデックデフォルトの順序付けプロセスは、そのようなマルチビュー参照ピクチャを参照ピクチャリストの前のほうに配置する可能性がある。

0076

同一シーケンスからの時間参照ピクチャは通常、他のシーケンスからの空間参照ピクチャよりも強い相関を示すため、デフォルトの順序付けは望ましくない。したがって、マルチビュー参照ピクチャはエンコーダによって明示的に並べ換えられて、エンコーダがその後、この並べ換えをデコーダに信号伝達するか、又は、エンコーダ及びデコーダがマルチビュー参照ピクチャを所定の規則に従って暗黙的に並べ換える。

0077

図13に示すように、参照ピクチャの順序付けは、各参照ピクチャに対するビューモード1300によって容易になる。ビューモード1300もまたマルチビュー予測プロセス1060に影響を与えることに留意されたい。本発明の1つの実施の形態では、以下でより詳細に説明する3つの異なるタイプのビューモード、すなわち、Iビュー、Pビュー及びBビューを用いる。

0078

マルチビューの参照ピクチャ管理の詳細な操作を説明する前に、シングルのビデオ符号化及び復号化システムのための従来技術の参照ピクチャ管理を図14に示す。時間参照ピクチャ901のみが時間予測960に用いられる。取得順又は表示順1401におけるビデオの時間参照ピクチャ間の時間予測依存性を示す。参照ピクチャは符号化順1402に並べ換えられ1410、この符号化順1402で各参照ピクチャが時刻t0〜t6において符号化又は復号化される。ブロック1420は、時刻毎の参照ピクチャの順序付けを示す。イントラフレームI0が符号化又は復号化される時刻t0では、時間参照ピクチャは時間予測に使用されないため、DBP/RPLは空である。一方向インターフレームP1が符号化又は復号化される時刻t1では、フレームI0が時間参照ピクチャとして利用可能である。時刻t2及びt3では、フレームI0及びP1の両方がインターフレームB1及びB2の双方向時間予測のための参照フレームとして利用可能である。時間参照ピクチャ及びDBP/RPLは、将来のピクチャについても同様に管理される。

0079

本発明の1つの実施の形態によるマルチビューの場合を説明するために、上述し図15に示す3つの異なるタイプのビュー、すなわち、Iビュー、Pビュー、及びBビューを検討する。表示順1501におけるビデオの参照ピクチャ間のマルチビューの予測依存性を示す。図15に示すように、ビデオの参照ピクチャはビューモード毎に符号化順1502に並べ換えられ1510、この符号化順1502で各参照ピクチャが、t0〜t2で示す時刻において符号化又は復号化される。マルチビュー参照ピクチャの順序を時刻毎にブロック1520に示す。

0080

Iビューは、より複雑なモードを可能にする最も単純なモードである。Iビューは、空間予測又は合成予測を用いない従来の符号化及び予測モードを用いる。例えば、Iビューは、マルチビュー拡張を用いずに従来のH.264/AVC技法を用いて符号化することができる。Iビューシーケンスからの空間参照ピクチャを他のビューの参照リストに配置するとき、これらの空間参照ピクチャは通常、時間参照ピクチャの後に配置される。

0081

図15に示すように、Iビューの場合、フレームI0がt0において符号化又は復号化されるとき、予測にはマルチビュー参照ピクチャを用いない。したがって、DBP/RPLは空である。フレームP0が符号化又は復号化される時刻t1では、I0が時間参照ピクチャとして利用可能である。フレームB0が符号化又は復号化される時刻t2では、フレームI0及びP0の両方が時間参照ピクチャとして利用可能である。

0082

Pビューは、別のビューからの予測を可能にしてビュー間の空間的相関を利用するという点で、Iビューよりも複雑である。具体的には、Pビューモードを用いて符号化されるシーケンスは、他のIビュー又はPビューからのマルチビュー参照ピクチャを用いる。Pビューでは合成参照ピクチャも用いることができる。Iビューからのマルチビュー参照ピクチャを他のビューの参照リストに配置するとき、Pビューは、時間参照ピクチャ、及びIビューから導出されるマルチビュー参照ピクチャの両方の後に配置される。

0083

図15に示すように、Pビューの場合、フレームI2がt0において符号化又は復号化されるとき、合成参照ピクチャS20及び空間参照ピクチャI0が予測に利用可能である。合成ピクチャの生成に関するさらなる詳細は後述する。P2が符号化又は復号化される時刻t1では、I2が時間参照ピクチャとして、合成参照ピクチャS21及びIビューからの空間参照ピクチャP0とともに利用可能である。時刻t2では、2つの時間参照ピクチャI2及びP2、並びに合成参照ピクチャS22及び空間参照ピクチャB0が存在し、これらの参照ピクチャから予測を行うことができる。

0084

Bビューは、マルチビュー参照ピクチャを用いるという点で、Pビューと同様である。PビューとBビューとの間の1つの重要な差異は、Pビューがそのビュー自体及び1つの他のビューからの参照ピクチャを用いるのに対し、Bビューは複数のビューのピクチャを参照し得ることである。合成参照ピクチャを用いるとき、合成ビューは通常、空間参照よりも強い相関を有するため、Bビューは空間参照ピクチャの前に配置される。

0085

図15に示すように、Bビューの場合、I1がt0において符号化又は復号化されるとき、合成参照ピクチャS10並びに空間参照ピクチャI0及びI2が予測に利用可能である。P1が符号化又は復号化される時刻t1では、I1が時間参照ピクチャとして、合成参照ピクチャS11、並びにそれぞれIビュー及びPビューからの空間参照ピクチャP0及びP2とともに利用可能である。時刻t2では、2つの時間参照ピクチャI1及びP1が存在するとともに、合成参照ピクチャS12並びに空間参照ピクチャB0及びB2が存在し、これらの参照ピクチャから予測を行うことができる。

0086

図15に示す例は本発明の1つの実施の形態に関するものに過ぎないことを強調しておく。多くの異なるタイプの予測依存性がサポートされる。例として、空間参照ピクチャは、同時刻の異なるビューにおけるピクチャに限定されない。空間参照ピクチャはまた、異なる時刻の異なるビューに対する参照ピクチャも含むことができる。また、イントラピクチャ間の双方向予測ピクチャ及び一方向予測イントラピクチャの数は変化し得る。同様に、Iビュー、Pビュー、及びBビューの構成も変化し得る。さらに、異なるピクチャ集合又は異なる奥行きマップ若しくはプロセスを用いてそれぞれ生成されるいくつかの合成参照ピクチャが利用可能であり得る。

0087

互換性
本発明の実施の形態によるマルチビューピクチャ管理の1つの重要な利点は、既存のシングルビューのビデオ符号化システム及び設計と互換性があることである。このマルチビューピクチャ管理は、既存のシングルビュービデオ符号化規格に加える変更が最小であるだけでなく、既存のシングルビュービデオ符号化システムからのソフトウェア及びハードウェアを、本明細書に記載するマルチビュービデオ符号化に使用することも可能にする。

0088

この理由は、ほとんどの従来のビデオ符号化システムが、符号化パラメータをデコーダに圧縮ビットストリームで伝達するからである。したがって、このようなパラメータを伝達する構文は、H.264/AVC規格等の既存のビデオ符号化規格によって規定されている。例えば、ビデオ符号化規格は、現フレーム内の所与のマクロブロックに対する予測モードを、他の時間的に関連する参照ピクチャから規定する。規格はまた、結果として生じる予測誤差を符号化及び復号化するために使用される方法を規定する。他のパラメータは、変換のタイプ又はサイズ、量子化方法、及びエントロピー符号化方法を規定する。

0089

したがって、本発明のマルチビュー参照ピクチャは、既存のシステムの参照ピクチャリスト、復号ピクチャバッファ、及び予測構造等の標準的な符号化コンポーネント及び復号化コンポーネントに限られた数の修正を加えるだけで実施することができる。マクロブロック構造、変換、量子化及びエントロピー符号化は変更されないことに留意されたい。

0090

ビュー合成
図8について上述したように、ビュー合成は、仮想カメラ800の合成ビュー802に対応するフレーム801を、既存のビデオから取得されるフレーム803から生成するプロセスである。言い換えれば、ビュー合成は、入力ビデオが取得された時点では存在しない仮想カメラによるシーンの選択された新たなビューに対応するフレームを合成する手段を提供する。1つ又は複数の実際のビデオのフレームの画素値及びシーン中の点の奥行き値が与えられると、合成ビデオビューのフレーム内の画素を外挿及び/又は内挿により生成することができる。

0091

合成ビューからの予測
図16は、奥行き1901情報が符号化マルチビュービットストリーム731に含まれているときに、ビュー合成モードを用いて再構成マクロブロックを生成するプロセスを示す。所与のマクロブロックの奥行きは、サイド情報デコーダ1910によって復号化される。奥行き1901及び空間参照ピクチャ1902を用いてビュー合成1920を行い、合成マクロブロック1904を生成する。次に、合成マクロブロック1904と復号化された残差マクロブロック1905とを加算1930することによって再構成マクロブロック1903が形成される。

0092

エンコーダにおけるマルチビューモード選択の詳細
図17は、現フレームの符号化又は復号化中に予測モードを選択するプロセスを示す。時間参照ピクチャ2020を用いて現マクロブロック2011について動き推定2010を行う。結果として得られる動きベクトル2021を用いて、時間予測を用いて第1の符号化コストcost12031を求める2030。このプロセスに関連する予測モードはm1である。

0093

空間参照ピクチャ2041を用いて現マクロブロックについて視差推定2040を行う。結果として得られる視差ベクトル2042を用いて、空間予測を用いて第2の符号化コストcost22051を求める2050。このプロセスに関連する予測モードをm2で示す。

0094

空間参照ピクチャ2041に基づき現マクロブロックについて奥行き推定2060を行う。推定した奥行きに基づいてビュー合成を行う。奥行き情報2061及び合成ビュー2062を用いて、ビュー合成予測を用いて第3の符号化コストcost32071を求める2070。このプロセスに関連する予測モードはm3である。

0095

現マクロブロックの隣接画素2082を用いて、イントラ予測を用いて第4の符号化コストcost42081を求める2080。このプロセスに関連する予測モードはm4である。

0096

cost1、cost2、cost3及びcost4の中の最小コストを求め2090、モードm1、m2、m3及びm4のうち最小コストを有するモードを、現マクロブロック2011の最良予測モード2091として選択する。

0097

奥行き推定を用いたビュー合成
ビュー合成モード2091を用いて、合成ビューの奥行き情報及び変位ベクトルを、1つ又は複数のマルチビュービデオの復号化フレームから推定することができる。奥行き情報は、適用されるプロセスに応じて、立体カメラから推定される画素毎の奥行きであってもよく、又は、マクロブロックマッチングから推定されるマクロブロック毎の奥行きであってもよい。

0098

この手法の利点は、エンコーダがデコーダと同じ奥行き情報及び変位情報アクセス可能である限り、奥行き値及び変位ベクトルがビットストリーム中に必要ないため、帯域幅が小さくなることである。エンコーダは、デコーダがエンコーダと全く同じ奥行き及び変位推定プロセスを使用する限り、これを達成することができる。したがって、本発明のこの実施の形態では、現マクロブロックと合成マクロブロックとの差がエンコーダによって符号化される。

0099

このモードのサイド情報はサイド情報エンコーダ720によって符号化される。サイド情報は、ビュー合成モード及び参照ビュー複数可)を示す信号を含む。サイド情報は、エンコーダによってビュー合成に使用される奥行き及び変位と、デコーダによって推定される値との間の差である奥行き及び変位補正情報も含むことができる。

0100

図18は、奥行き情報がデコーダにおいて推定又は推測され、符号化マルチビュービットストリームで伝達されないときの、ビュー合成モードを用いたマクロブロックの復号化プロセスを示す。奥行き2101は空間参照ピクチャ2102から推定2110される。次に、推定された奥行き及び空間参照ピクチャを用いてビュー合成2120を行い、合成マクロブロック2121を生成する。再構成マクロブロック2103が、合成マクロブロックと復号化された残差マクロブロック2104との加算2130によって形成される。

0101

空間ランダムアクセス
従来のビデオ中のフレームに対しランダムアクセスを提供するために、Iフレームとしても知られるイントラフレームが通常、ビデオ全体に間隔を置いて配置される。これにより、デコーダは、復号化シーケンス中の任意のフレームにアクセスすることが可能になるが、圧縮効率は低下する。

0102

本発明のマルチビュー符号化及び復号化システムのために、本明細書中において「Vフレーム」と呼ぶ新たなタイプのフレームを提供し、ランダムアクセス及び圧縮効率の向上を可能にする。Vフレームは、時間予測を用いずに符号化されるという意味でIフレームと同様である。しかし、Vフレームは、他のカメラからの予測又は合成ビデオからの予測も可能にする。具体的には、Vフレームは、空間参照ピクチャ又は合成参照ピクチャから予測される圧縮ビットストリーム中のフレームである。Iフレームの代わりにVフレームをビットストリームに周期的に挿入することによって、本発明では、Iフレームで可能であるような時間ランダムアクセスを提供しつつ、符号化効率を高める。したがって、Vフレームは時間参照フレームを使用しない。図19は、最初のビューに対するIフレームの使用、及び同時刻1900における以後のビューに対するVフレームの使用を示す。図5に示す格子構成の場合、Vフレームは、全てのビューについて同時刻には生じないことに留意されたい。低域フレームのいずれかにVフレームを割り当てることができる。この場合、Vフレームは、近傍ビューの低域フレームから予測されることになる。

0103

H.264/AVCビデオ符号化規格では、クローズドGOPを有するMPEG−2のIフレームに似たIDRフレームが、全ての参照ピクチャがデコーダピクチャバッファから削除されることを示唆する。これにより、IDRフレームの前のフレームは、IDRフレームよりも後のフレームの予測に用いることができない。

0104

本明細書中に記載するマルチビューデコーダでは、Vフレームが同様に、全ての時間参照ピクチャをデコーダピクチャバッファから削除することができることを示唆する。しかし、空間参照ピクチャはデコーダピクチャバッファに残しておくことができる。これにより、所与のビューにおけるVフレームの前のフレームは、同一ビューにおけるVフレームの後のフレームの時間予測を行うために用いることができない。

0105

マルチビュービデオ中の1つの特定のフレームにアクセスするためには、そのビューのVフレームをまず復号化しなければならない。上述のように、これは、時間参照ピクチャを使用することなく、空間参照ピクチャ又は合成参照ピクチャからの予測により達成することができる。

0106

選択ビューのVフレームを復号化した後、そのビューの以後のフレームを復号化する。これらの以後のフレームは、近傍ビューからの参照ピクチャに対して予測依存性を有する可能性が高いため、これらの近傍ビューにおける参照ピクチャも復号化する。

0107

本発明を好適な実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正をすべて網羅することである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ