図面 (/)

技術 ビデオ圧縮のための動き補償学習型超解像を用いてビデオ信号を符号化する方法と装置

出願人 トムソンライセンシング
発明者 ザン,ドン-チンヤコブ,ミトゥンジョージバガヴァシー,シタラム
出願日 2011年9月9日 (9年2ヶ月経過) 出願番号 2013-528305
公開日 2013年9月30日 (7年1ヶ月経過) 公開番号 2013-537380
状態 特許登録済
技術分野 TV信号の圧縮,符号化方式
主要キーワード サイドチャンネル プログラム記録装置 サプリメンタル ダウンサイズ 後処理器 モデルパラメータθ 追加的データ 復元プロセス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年9月30日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題・解決手段

ビデオ圧縮のために動き補償学習型超解像を用いてビデオ信号を符号化する方法及び装置を提供する。装置は、動きを有する入力ビデオシーケンス動きパラメータ推定する動きパラメータ推定器(510)を含む。入力ビデオシーケンスは複数の画像を含む。本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する画像ワーパー(520)も含む。本装置は、さらに、学習型超解像を行い、前記ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチピクチャであって前記入力ビデオシーケンスの再構成において一又は複数の低解像度パッチピクチャを置き換えるものを生成する学習型超解像プロセッサ(530)を有する。

概要

背景

本願は、2010年9月10日出願の米国仮出願第61/403086号(発明の名称「MOTION COMPENSATED EXAMPLE-BASED SUPER- RESOLUTION FOR VIDEO COMPRESSION」、Technicolor Docket No. PU100190)の利益を主張するものである。

この出願は以下の同時係属中の共有に係る特許出願に関連している:
(1)国際出願第PCT/US/11/000107号(2011年1月20日出願、発明の名称「A SAMPLING-BASED SUPER-RESOLUTIONAPPROACH FOR EFFICIENTVIDEO COMPRESSION」、Technicolor Docket No. PU100004);
(2)国際出願第PCT/US/11/000117号(2011年1月21日出願、発明の名称「DATA PRUNING FOR VIDEO COMPRESSION USING EXAMPLE-BASED SUPER- RESOLUTION」、Technicolor Docket No. PU100014);
(3)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS USING MOTION COMPENSATED EXAMPLE-BASED SUPER-RESOLUTION FOR VIDEO COMPRESSION」、Technicolor Docket No. PU100266);
(4)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS USING EXAMPLE-BASED DATA PRUNING FORIMPROVED VIDEO COMPRESSION EFFICIENCY」、Technicolor Docket No. PU100193);
(5)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS USING EXAMPLE-BASED DATA PRUNING FOR IMPROVED VIDEO COMPRESSION EFFICIENCY」、Technicolor Docket No. PU100267);
(6)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS FORBLOCK-BASEDMIXED-RESOLUTION DATA PRUNING」、Technicolor Docket No. PU100194);
(7)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS FOR BLOCK-BASED MIXED-RESOLUTION DATA PRUNING」、Technicolor Docket No. PU100268);
(8)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR EFFICIENT REFERENCE DATA ENCODING FOR VIDEO COMPRESSION BY IMAGE CONTENT BASED SEARCH AND RANKING」、Technicolor Docket No. PU100195);
(9)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHOD AND APPARATUS FOR EFFICIENT REFERENCE DATA DECODING FOR VIDEO COMPRESSION BY IMAGE CONTENT BASED SEARCH AND RANKING」、Technicolor Docket No. PU110106);
(10)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHOD AND APPARATUS FOR ENCODING VIDEO SIGNALS FOR EXAMPLE-BASED DATA PRUNING USING INTRA-FRAME PATCHSIMILARITY」、Technicolor Docket No. PU100196);
(11)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHOD AND APPARATUS FOR DECODING VIDEO SIGNALS WITH EXAMPLE-BASED DATA PRUNING USING INTRA-FRAME PATCH SIMILARITY」、Technicolor Docket No. PU100269);
(12)国際出願第XXXX号(2011年9月XX日出願、発明の名称「PRUNING DECISION OPTIMIZATION IN EXAMPLE-BASED DATA PRUNING COMPRESSION」、Technicolor Docket No. PU10197)。

特許文献1などに記載された従来のアプローチにおいて、学習型超解像(SR)を用いる、圧縮のためのビデオデータのプルーニング(pruning)が提案された。データプルーニング(data pruning)のための学習型超解像では、高解像度の事例パッチ低解像度フレームとをデコーダに送信する。デコーダは、低解像度パッチを事例の高解像度パッチで置き換えて、高解像度フレーム回復する。

図1を参照するに、従前のアプローチの一態様を説明する。より具体的には、学習型超解像のエンコーダ側の処理を、参照数字100で示す。入力ビデオは、ステップ110において、(パッチ抽出及びクラスタ器151による)パッチ抽出及びクラスタリングかけられ、クラスタリングされたパッチを求める。さらに、入力ビデオは、ステップ115において、(ダウンサイザ153により)ダウンサイジングされ、ダウンサイズされたフレームが出力される。クラスタリングされたパッチは、ステップ120において(パッチパッカー152により)パッチフレームパッキングされ、パッキングされたパッチフレームが出力される。

図2を参照するに、従前のアプローチの他の一態様を説明する。より具体的には、学習型超解像のデコーダ側の処理を、参照数字200で示す。復号されたパッチフレームは、ステップ210において(パッチ抽出・処理器251により)パッチ抽出と処理がなされ、処理されたパッチを求める。処理されたパッチは、ステップ215において(パッチライブラリ252により)記憶される。復号されダウンサイジングされたフレームは、ステップ220において(アップサイザー253により)、アップサイズされる。アップサイジングされたフレームは、ステップ225において(パッチ検索・置換器254により)パッチ検索及び置換をされ、置換パッチを求める。置換パッチは、ステップ230において(後処理器255により)後処理され、高解像度フレームが得られる。

従前のアプローチの方法は、静的ビデオ(背景又は前景オブジェクトに大きな動きがないビデオ)ではうまく行く。例えば、実験によると、ある種の静的ビデオの場合、圧縮効率は、学習型超解像を用いると、スタンドアロンビデオエンコーダを用いる場合と比べて高くなる。スタンドアロンのビデオエンコーダとは、例えば、International Organization for Standardization / International Electro Technical Commission (ISO/IEC) Moving Picture Experts Group-4 (MPEG-4) Part 10 Advanced Video Coding (AVC) Standard / International Telecommunication Union, Telecommunication Sector (ITU-T) H.264 Recommendation(以下、MPEG-4 AVC Standardと呼ぶ)。

しかし、オブジェクト又は背景の動きが大きいビデオの場合、学習型超解像を用いた圧縮効率は、スタンドアロンMPEG-4 AVCエンコーダを用いた圧縮効率より悪くなることが多い。これは、動きが大きいビデオの場合、代表的なパッチを抽出するクラスタリングプロセスにおいては、パッチシフティングやその他の変換(例えば、ズーミング、回転など)非常に多くの冗長的代表的パッチが生成され、パッチフレーム数が多くなり、パッチフレームの圧縮効率が低下するからである。

図3を参照するに、学習型超解像(example-based super-resolution)に対する従前のアプローチで用いられるクラスタリングプロセスを参照数字300で示した。図3の例では、クラスタリングプロセスは6つのフレーム(フレーム1乃至フレーム6)を含む。図3では、(動いている)オブジェクトが曲線で示されている。クラスタリングプロセス300は、図3の上部と下部でしめした。上部では、入力ビデオシーケンス連続フレームからの入力パッチ310が示されている。下部には、クラスタに対応する代表的パッチ320が示されている。具体的に、下部には、クラスタ1の代表的パッチ321と、クラスタ2の代表的パッチ322とが示されている。

要するに、データプルーニング(data pruning)用の学習型超解像では、デコーダ(図1参照)に、高解像度事例パッチと低解像度フレームとを送信する。デコーダは、低解像度パッチを事例の高解像度パッチで置き換えて、高解像度フレームを回復する(図2参照)。しかし、上記の通り、動きが大きいビデオの場合、代表的なパッチを抽出するクラスタリングプロセスにおいては、パッチシフティング(図3参照)やその他の変換(例えば、ズーミング、回転など)非常に多くの冗長的な代表的パッチが生成され、パッチフレーム数が多くなり、パッチフレームの圧縮効率が低下する。

概要

ビデオ圧縮のために動き補償学習型超解像を用いてビデオ信号を符号化する方法及び装置を提供する。装置は、動きを有する入力ビデオシーケンスの動きパラメータ推定する動きパラメータ推定器(510)を含む。入力ビデオシーケンスは複数の画像を含む。本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する画像ワーパー(520)も含む。本装置は、さらに、学習型超解像を行い、前記ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチピクチャであって前記入力ビデオシーケンスの再構成において一又は複数の低解像度パッチピクチャを置き換えるものを生成する学習型超解像プロセッサ(530)を有する。

目的

本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

動きを有する入力ビデオシーケンスであって複数のピクチャを含むものの動きパラメータ推定する動きパラメータ推定器と、前記複数のピクチャのうちの一又は複数を変換するピクチャワーピングプロセスを行って、前記動きパラメータに基づき動き量を低減することにより、前記入ビデオシーケンスの静的バージョンを提供する画像ワーパーと、学習型超解像を行い、前記ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチピクチャであって前記入力ビデオシーケンスの再構成において一又は複数の低解像度パッチピクチャを置き換えるものを生成する学習型超解像プロセッサとを有する、装置。

請求項2

前記学習型超解像プロセッサは、前記入力ビデオシーケンスから、一又は複数のダウンサイズされたピクチャを生成し、前記一又は複数のダウンサイズされたピクチャは、前記複数のピクチャの一又は複数にそれぞれ対応し、前記入力ビデオシーケンスの再構成で用いられる、請求項1に記載の装置。

請求項3

前記装置はビデオエンコーダモジュールに含まれている、請求項1に記載の装置。

請求項4

前記動きパラメータは、基準ピクチャと前記複数のピクチャのうちの他の少なくとも一のピクチャとの間のグローバルな動きをモデル化する平面動きモデルを用いて推定され、前記グローバルな動きは、前記基準ピクチャ中の画素を前記他の少なくとも一のピクチャ中の画素に動かす一又は複数の可逆な変換を含み、又は前記他の少なくとも一のピクチャ中の画素を前記基準ピクチャに動かす一又は複数の可逆な変換を含む、請求項1に記載の装置。

請求項5

前記動きパラメータはグループオブピクチャごとに推定される、請求項1に記載の装置。

請求項6

前記動きパラメータは、前記複数のピクチャを複数のブロックにパーティションし、前記複数のブロックのそれぞれの動きモデルを推定するブロックベース動きアプローチを用いて推定される、請求項1に記載の装置。

請求項7

前記ピクチャワーピングプロセスは、前記複数のピクチャよりなるグループオブピクチャ中の基準ピクチャを、前記グループオブピクチャ中の非基準ピクチャアライメントする、請求項1に記載の装置。

請求項8

動きを有する入力ビデオシーケンスであって複数のピクチャを含むものの動きパラメータを推定するステップと、前記複数のピクチャのうちの一又は複数を変換するピクチャワーピングプロセスを行って、前記動きパラメータに基づき動き量を低減することにより、前記入力ビデオシーケンスの静的バージョンを提供するステップと、学習型超解像を行い、前記ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチピクチャであって前記入力ビデオシーケンスの再構成において一又は複数の低解像度パッチピクチャを置き換えるものを生成するステップとを有する、方法。

請求項9

前記学習型超解像を行うステップは、前記入力ビデオシーケンスから一又は複数のダウンサイズされたピクチャを生成するステップを有し、前記一又は複数のダウンサイズされたピクチャは、前記複数のピクチャの一又は複数にそれぞれ対応し、前記入力ビデオシーケンスの再構成で用いられる、請求項8に記載の方法。

請求項10

前記方法はビデオエンコーダで行われる、請求項8に記載の方法。

請求項11

前記動きパラメータは、基準ピクチャと前記複数のピクチャのうちの他の少なくとも一のピクチャとの間のグローバルな動きをモデル化する平面動きモデルを用いて推定され、前記グローバルな動きは、前記基準ピクチャ中の画素を前記他の少なくとも一のピクチャ中の同一位置の画素に動かす一又は複数の可逆な変換を含み、又は前記他の少なくとも一のピクチャ中の画素を前記基準ピクチャ中の同一位置の他の画素に動かす一又は複数の可逆な変換を含む、請求項8に記載の方法。

請求項12

前記動きパラメータはグループオブピクチャごとに推定される、請求項8に記載の方法。

請求項13

前記動きパラメータは、前記複数のピクチャを複数のブロックにパーティションし、前記複数のブロックのそれぞれの動きモデルを推定するブロックベース動きアプローチを用いて推定される、請求項8に記載の方法。

請求項14

前記ピクチャワーピングプロセスは、前記複数のピクチャよりなるグループオブピクチャ中の基準ピクチャを、前記グループオブピクチャ中の非基準ピクチャとアライメントする、請求項8に記載の方法。

請求項15

動きを有する入力ビデオシーケンスであって複数のピクチャを有するものの動きパラメータを推定する手段と、前記複数のピクチャのうちの一又は複数を変換するピクチャワーピングプロセスを行って、前記動きパラメータに基づき動き量を低減することにより、前記入力ビデオシーケンスの静的バージョンを提供する手段と、学習型超解像を行い、前記ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチピクチャであって前記入力ビデオシーケンスの再構成において一又は複数の低解像度パッチピクチャを置き換えるものを生成する手段とを有する、装置。

請求項16

前記学習型超解像を行う手段は、前記入力ビデオシーケンスから、一又は複数のダウンサイズされたピクチャを生成し、前記一又は複数のダウンサイズされたピクチャは、前記複数のピクチャの一又は複数にそれぞれ対応し、前記入力ビデオシーケンスの再構成で用いられる、請求項15に記載の装置。

請求項17

前記動きパラメータは、基準ピクチャと前記複数のピクチャのうちの他の少なくとも一のピクチャとの間のグローバルな動きをモデル化する平面動きモデルを用いて推定され、前記グローバルな動きは、前記基準ピクチャ中の画素を前記他の少なくとも一のピクチャ中の同一位置の画素に動かす一又は複数の可逆な変換を含み、又は前記他の少なくとも一のピクチャ中の画素を前記基準ピクチャ中の同一位置の他の画素に動かす一又は複数の可逆な変換を含む、請求項15に記載の装置。

請求項18

前記動きパラメータはグループオブピクチャごとに推定される、請求項15に記載の装置。

請求項19

前記動きパラメータは、前記複数のピクチャを複数のブロックにパーティションし、前記複数のブロックのそれぞれの動きモデルを推定するブロックベース動きアプローチを用いて推定される、請求項15に記載の装置。

請求項20

前記ピクチャワーピングプロセスは、前記複数のピクチャよりなるグループオブピクチャ中の基準ピクチャを、前記グループオブピクチャ中の非基準ピクチャとアライメントする、請求項15に記載の装置。

技術分野

0001

原理は、概してビデオの符号化及び復号に関し、より具体的には、ビデオ圧縮のための動き報償学習型超解像の方法及び装置に関する。

背景技術

0002

本願は、2010年9月10日出願の米国仮出願第61/403086号(発明の名称「MOTION COMPENSATED EXAMPLE-BASED SUPER- RESOLUTION FOR VIDEO COMPRESSION」、Technicolor Docket No. PU100190)の利益を主張するものである。

0003

この出願は以下の同時係属中の共有に係る特許出願に関連している:
(1)国際出願第PCT/US/11/000107号(2011年1月20日出願、発明の名称「A SAMPLING-BASED SUPER-RESOLUTIONAPPROACH FOR EFFICIENTVIDEO COMPRESSION」、Technicolor Docket No. PU100004);
(2)国際出願第PCT/US/11/000117号(2011年1月21日出願、発明の名称「DATA PRUNING FOR VIDEO COMPRESSION USING EXAMPLE-BASED SUPER- RESOLUTION」、Technicolor Docket No. PU100014);
(3)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS USING MOTION COMPENSATED EXAMPLE-BASED SUPER-RESOLUTION FOR VIDEO COMPRESSION」、Technicolor Docket No. PU100266);
(4)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS USING EXAMPLE-BASED DATA PRUNING FORIMPROVED VIDEO COMPRESSION EFFICIENCY」、Technicolor Docket No. PU100193);
(5)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS USING EXAMPLE-BASED DATA PRUNING FOR IMPROVED VIDEO COMPRESSION EFFICIENCY」、Technicolor Docket No. PU100267);
(6)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR ENCODING VIDEO SIGNALS FORBLOCK-BASEDMIXED-RESOLUTION DATA PRUNING」、Technicolor Docket No. PU100194);
(7)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR DECODING VIDEO SIGNALS FOR BLOCK-BASED MIXED-RESOLUTION DATA PRUNING」、Technicolor Docket No. PU100268);
(8)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHODS AND APPARATUS FOR EFFICIENT REFERENCE DATA ENCODING FOR VIDEO COMPRESSION BY IMAGE CONTENT BASED SEARCH AND RANKING」、Technicolor Docket No. PU100195);
(9)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHOD AND APPARATUS FOR EFFICIENT REFERENCE DATA DECODING FOR VIDEO COMPRESSION BY IMAGE CONTENT BASED SEARCH AND RANKING」、Technicolor Docket No. PU110106);
(10)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHOD AND APPARATUS FOR ENCODING VIDEO SIGNALS FOR EXAMPLE-BASED DATA PRUNING USING INTRA-FRAME PATCHSIMILARITY」、Technicolor Docket No. PU100196);
(11)国際出願第XXXX号(2011年9月XX日出願、発明の名称「METHOD AND APPARATUS FOR DECODING VIDEO SIGNALS WITH EXAMPLE-BASED DATA PRUNING USING INTRA-FRAME PATCH SIMILARITY」、Technicolor Docket No. PU100269);
(12)国際出願第XXXX号(2011年9月XX日出願、発明の名称「PRUNING DECISION OPTIMIZATION IN EXAMPLE-BASED DATA PRUNING COMPRESSION」、Technicolor Docket No. PU10197)。

0004

特許文献1などに記載された従来のアプローチにおいて、学習型超解像(SR)を用いる、圧縮のためのビデオデータのプルーニング(pruning)が提案された。データプルーニング(data pruning)のための学習型超解像では、高解像度の事例パッチ低解像度フレームとをデコーダに送信する。デコーダは、低解像度パッチを事例の高解像度パッチで置き換えて、高解像度フレーム回復する。

0005

図1を参照するに、従前のアプローチの一態様を説明する。より具体的には、学習型超解像のエンコーダ側の処理を、参照数字100で示す。入力ビデオは、ステップ110において、(パッチ抽出及びクラスタ器151による)パッチ抽出及びクラスタリングかけられ、クラスタリングされたパッチを求める。さらに、入力ビデオは、ステップ115において、(ダウンサイザ153により)ダウンサイジングされ、ダウンサイズされたフレームが出力される。クラスタリングされたパッチは、ステップ120において(パッチパッカー152により)パッチフレームパッキングされ、パッキングされたパッチフレームが出力される。

0006

図2を参照するに、従前のアプローチの他の一態様を説明する。より具体的には、学習型超解像のデコーダ側の処理を、参照数字200で示す。復号されたパッチフレームは、ステップ210において(パッチ抽出・処理器251により)パッチ抽出と処理がなされ、処理されたパッチを求める。処理されたパッチは、ステップ215において(パッチライブラリ252により)記憶される。復号されダウンサイジングされたフレームは、ステップ220において(アップサイザー253により)、アップサイズされる。アップサイジングされたフレームは、ステップ225において(パッチ検索・置換器254により)パッチ検索及び置換をされ、置換パッチを求める。置換パッチは、ステップ230において(後処理器255により)後処理され、高解像度フレームが得られる。

0007

従前のアプローチの方法は、静的ビデオ(背景又は前景オブジェクトに大きな動きがないビデオ)ではうまく行く。例えば、実験によると、ある種の静的ビデオの場合、圧縮効率は、学習型超解像を用いると、スタンドアロンビデオエンコーダを用いる場合と比べて高くなる。スタンドアロンのビデオエンコーダとは、例えば、International Organization for Standardization / International Electro Technical Commission (ISO/IEC) Moving Picture Experts Group-4 (MPEG-4) Part 10 Advanced Video Coding (AVC) Standard / International Telecommunication Union, Telecommunication Sector (ITU-T) H.264 Recommendation(以下、MPEG-4 AVC Standardと呼ぶ)。

0008

しかし、オブジェクト又は背景の動きが大きいビデオの場合、学習型超解像を用いた圧縮効率は、スタンドアロンMPEG-4 AVCエンコーダを用いた圧縮効率より悪くなることが多い。これは、動きが大きいビデオの場合、代表的なパッチを抽出するクラスタリングプロセスにおいては、パッチシフティングやその他の変換(例えば、ズーミング、回転など)非常に多くの冗長的代表的パッチが生成され、パッチフレーム数が多くなり、パッチフレームの圧縮効率が低下するからである。

0009

図3を参照するに、学習型超解像(example-based super-resolution)に対する従前のアプローチで用いられるクラスタリングプロセスを参照数字300で示した。図3の例では、クラスタリングプロセスは6つのフレーム(フレーム1乃至フレーム6)を含む。図3では、(動いている)オブジェクトが曲線で示されている。クラスタリングプロセス300は、図3の上部と下部でしめした。上部では、入力ビデオシーケンス連続フレームからの入力パッチ310が示されている。下部には、クラスタに対応する代表的パッチ320が示されている。具体的に、下部には、クラスタ1の代表的パッチ321と、クラスタ2の代表的パッチ322とが示されている。

0010

要するに、データプルーニング(data pruning)用の学習型超解像では、デコーダ(図1参照)に、高解像度事例パッチと低解像度フレームとを送信する。デコーダは、低解像度パッチを事例の高解像度パッチで置き換えて、高解像度フレームを回復する(図2参照)。しかし、上記の通り、動きが大きいビデオの場合、代表的なパッチを抽出するクラスタリングプロセスにおいては、パッチシフティング(図3参照)やその他の変換(例えば、ズーミング、回転など)非常に多くの冗長的な代表的パッチが生成され、パッチフレーム数が多くなり、パッチフレームの圧縮効率が低下する。

先行技術

0011

米国仮特許出願第61/336516号(2010年1月22日出願、出願人Dong-Qing Zhang, Sitaram Bhagavathy, and Joan Llach、発明の名称「Data pruning for video compression using example-based super-resolution」、Technicolor docket number PU 100014)

課題を解決するための手段

0012

本願は、圧縮効率が改善されたビデオ圧縮のための動き補償学習型超解像の方法及び装置を開示する。

0013

本原理の一態様によると、学習型超解像(example-based super-resolution)装置が提供される。本装置は、動きを有する入力ビデオシーケンスの動きパラメータ推定する動きパラメータ推定器を含む。入力ビデオシーケンスは複数の画像を含む。本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する画像ワーパーも含む。本装置は、さらに、学習型超解像を行って、ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチ画像を生成する学習型超解像プロセッサを含む。一又は複数の高解像度置き換えパッチ画像は、入力ビデオシーケンスの再構成の時に、一又は複数の低解像度パッチ画像を置き換えるものである。

0014

本原理の他の一態様によると、学習型超解像(example-based super-resolution)方法が提供される。本方法は、動きを有する入力ビデオシーケンスの動きパラメータを推定するステップを含む。入力ビデオシーケンスは複数の画像を含む。本方法は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供するステップも含む。本方法は、さらに、学習型超解像を行って、ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチ画像を生成するステップを含む。一又は複数の高解像度置き換えパッチ画像は、入力ビデオシーケンスの再構成の時に、一又は複数の低解像度パッチ画像を置き換えるものである。

0015

本原理の他の一態様によると、学習型超解像(example-based super-resolution)装置が提供される。本装置は、動きのある入力ビデオシーケンスの静的バージョンから生成された高解像度置き換えパッチ画像のうちの一又は複数を受け取り、学習型超解像を行って、前記一又は複数の高解像度置き換えパッチ画像から前記入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する学習型超解像プロセッサを有する。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。装置は、さらに、前記入力ビデオシーケンスの動きパラメータを受け取り、前記動きパラメータに基づいて逆画像ワーピングプロセスを行って、前記複数の画像のうち一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成する逆画像ワーパーとを有する。

0016

本原理のさらに他の一態様によると、学習型超解像(example-based super-resolution)方法が提供される。本方法は、動きを有する入力ビデオシーケンスの動きパラメータと、前記入力ビデオシーケンスの静的バージョンから生成された一又は複数の高解像度置き換えパッチ画像とを受け取るステップを含む。また、本方法は、学習型超解像を行って、一又は複数の高解像度置き換えパッチ画像から、入力ビデオシーケンスの静的バージョンの再構成バージョンを生成するステップを含む。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。本方法は、さらに、前記動きパラメータに基づき逆画像ワーピングプロセスを行って、前記複数の画像のうちの一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成するステップを有する。

0017

本原理のさらに他の一態様によると、学習型超解像(example-based super-resolution)装置が提供される。本装置は、動きを有する入力ビデオシーケンスの動きパラメータを推定する手段を含む。入力ビデオシーケンスは複数の画像を含む。本装置は、複数の画像のうちの一又は複数を変換する画像ワーピングプロセスを行って、動きパラメータに基づき動き量を低減することにより、入力ビデオシーケンスの静的バージョンを提供する手段も含む。本装置は、さらに、学習型超解像を行って、ビデオシーケンスの静的バージョンから一又は複数の高解像度置き換えパッチ画像を生成する手段を含む。一又は複数の高解像度置き換えパッチ画像は、入力ビデオシーケンスの再構成の時に、一又は複数の低解像度パッチ画像を置き換えるものである。

0018

本原理の別の一態様によると、学習型超解像(example-based super-resolution)装置が提供される。本装置は、動きを有する入力ビデオシーケンスの動きパラメータと、前記入力ビデオシーケンスの静的バージョンから生成された一又は複数の高解像度置き換えパッチ画像とを受け取る手段を含む。また、本装置は、学習型超解像を行って、一又は複数の高解像度置き換えパッチ画像から、入力ビデオシーケンスの静的バージョンの再構成バージョンを生成する手段を含む。入力ビデオシーケンスの静的バージョンの再構成バージョンは複数の画像を含む。本装置は、さらに、前記動きパラメータに基づき逆画像ワーピングプロセスを行って、前記複数の画像のうちの一又は複数を変換して、前記動きを有する入力ビデオシーケンスの再構成を生成する手段を有する。

0019

本原理の上記その他の態様、特徴、及び有利性は、添付した図面を参照して読むと、実施形態の詳細な説明から明らかとなるであろう。

図面の簡単な説明

0020

本原理は以下の図面を参照してよりよく理解することができる。
従前のアプローチによる学習型超解像のエンコーダ側の処理を示すブロック図である。
従前のアプローチによる学習型超解像のデコーダ側の処理を示すブロック図である。
従前のアプローチによる学習型超解像に用いられるクラスタリングプロセスを示す図である。
本原理の一実施形態による、オブジェクトの動きがあるビデオの静的ビデオへの変換例を示す図である。
本原理の一実施形態によるエンコーダで用いられる、フレームワーピングを有する動き補償学習型超解像の装置例を示すブロック図である。
本原理の一実施形態による、本原理を適用できるビデオエンコーダの一例を示すブロック図である。
本原理の一実施形態による、エンコーダにおける動き補償学習型超解像の方法例を示すフロー図である。
本原理の一実施形態によるデコーダにおける、逆フレームワーピングを有する動き補償学習型超解像の装置例を示すブロック図である。
本原理の一実施形態による、本原理を適用できるビデオデコーダの一例を示すブロック図である。
本原理の一実施形態による、デコーダにおける動き補償学習型超解像の方法例を示すフロー図である。

実施例

0021

本原理は、ビデオ圧縮のための動き補償学習型超解像の方法と装置とに関する。

0022

この説明は本原理を例示するものである。言うまでもなく、当業者は、ここには明示的に説明や図示はしていないが、本原理を化体し、その精神と範囲内に含まれる様々な構成を工夫することができる。

0023

ここに記載したすべての例と条件付き言葉は、発明者が技術発展に対してなした本原理とコンセプトとを、読者が理解しやすいようにするためのものであり、その解釈は具体的に記載した実施例や条件に限定されるべきではない。

0024

さらに、本原理の原理、態様、実施形態、及びその実施例のすべての記載は、その構成的等価物及び機能的等価物の両方を含むものである。また、かかる等価物は、現在知られている等価物及び将来開発される等価物を含み、すなわち、構成にかかわらず同じ機能を発揮する開発されるすべての要素を含む。

0025

よって、例えば、当業者には言うまでもなく、ここに説明したブロック図は本原理を化体する回路概念的に示すものである。同様に、言うまでもなく、フローチャート、フロー図、状態遷移図、擬似コード等は、様々な方法(processes)を表し、これらの方法をコンピュータ読み取り可能媒体に実質的に表しても、(明示的に示していようがいまいが)コンピュータプロセッサで実行してもよい。

0026

図示した様々な要素の機能は、専用ハードウェアを用いても、ソフトウェアを実行可能なハードウェアと適当なソフトウェアとを組み合わせても提供できる。プロセッサを設けるとき、機能を単一の専用プロセッサで提供してもよいし、共有された単一のプロセッサで提供してもよいし、一部が共有された複数の個別プロセッサで提供してもよい。さらに、「プロセッサ」または「コントローラ」という用語を明示的に使用した場合、ソフトウェアを実行できるハードウェアのみをいうと解釈してはならず、限定はされないが、デジタルシグナルプロセッサ(DSP)、ソフトウェアを記憶するROM、RAM、不揮発性記憶装置黙示的に含んでもよい。

0027

その他のハードウェアを従来のものでもカスタムのものであっても含んでもよい。同様に、図面に示したスイッチは概念的なものである。スイッチの機能は、プログラムロジックの動作、専用ロジックの動作、プログラム制御や専用ロジックのインターラクション、またはマニュアルで実行されてもよく、具体的な方法は実施者が文脈から判断して選択できる。

0028

請求項において、特定の機能を実行する手段として表した要素は、その機能を実行するいかなる方法も含み、例えば、a)その機能を実行する回路要素組合せと、b)ファームウェアマイクロコード等を含む任意の形式のソフトウェア及びそれと組み合わせたその機能を実行する適当な回路とを含む。請求項に記載した本原理は、記載した様々な手段が提供する機能を、請求項に記載したように組み合わせることにある。よって、これらの機能を提供できる手段はどれでも、ここに示したものと等化であると見なせる。

0029

明細書において、本発明の「一実施形態」、またはそのバリエーションと言う場合、本発明の少なくとも1つの実施形態に含まれるその実施形態に関して説明する具体的な特徴、構造、特性などを意味する。それゆえ、本明細書を通していろいろなところに記載した「一実施形態において」またはそのバリエーションは、必ずしもすべてが同じ実施形態を参照するものではない。

0030

言うまでもなく、例えば、「A/B」、「A及び/又はB」、および「AとBの少なくとも一方」のうちの「及び/又は」および「少なくとも一方」などと言うとき、第1のオプション(A)のみを選択する場合、第2のオプション(B)のみを選択する場合、又は両方のオプション(AとB)を選択する場合を含むものとする。別の例として、例えば、「A、B、及び/又はC」、および「A、B、及びCの少なくとも一方」などと言うとき、第1のオプション(A)のみを選択する場合、第2のオプション(B)のみを選択する場合、第3のオプション(C)のみを選択する場合、第1と第2のオプション(AとB)のみを選択する場合、第2と第3のオプション(BとC)を選択する場合、第1と第3のオプション(AとC)を選択する場合、又は3つすべてのオプション(AとBとC)を選択する場合を含むものとする。本技術分野及び関連技術分野の当業者には明らかなように、これは多数の場合にも拡張できる。

0031

また、ここで、「ピクチャ(picture)」と「画像(image)」との用語は、交換可能に使い静止画像とビデオシーケンスの画像とを言う。知られているように、ピクチャはフレーム又はフィールドであってもよい。

0032

上記の通り、本原理は、ビデオ圧縮のための動き補償学習型超解像の方法と装置とに関する。有利にも、本原理は、冗長な代表パッチの数を減らし、圧縮効率を上げる方法を提供する。

0033

本原理により、本願は、背景及びオブジェクトの動きが大きいビデオセグメントを、比較的静的なビデオセグメントに変換するコンセプトを開示する。より具体的に、図4において、オブジェクトの動きがあるビデオの静的ビデオへの変換の一例を、参照数字400で示した。変換400は、オブジェクトの動き410を有するビデオのフレーム1、フレーム2、及びフレーム3に適用して、静的ビデオ420のフレーム1、フレーム2、及びフレーム3を求めるフレームワーピング変換を含む。変換400は、クラスタリングプロセス(すなわち、学習型超解像の方法のエンコーダ側の処理コンポーネント)と符号化プロセスの前に行われる。変換パラメータは、回復のためデコーダ側に送信される。学習型超解像方法により、静的ビデオの圧縮効率は高くなり、変換パラメータデータのサイズは通常は非常に小さいので、動きのあるビデオを静的ビデオに変換することにより、動きのあるビデオでも圧縮効率を潜在的に上げることができる。

0034

図5を参照して、エンコーダで用いるフレームワーピングを有する動き補償学習型超解像の装置例を、参照数字500で示した。装置500は、画像ワーパー520の入力と信号通信し得る第1の出力を有する動きパラメータ推定器510を含む。画像ワーパー520の出力は、学習型超解像エンコーダ側プロセッサ530の入力と信号通信可能に接続されている。学習型超解像エンコーダ側プロセッサ530の第1の出力は、エンコーダ540の入力と信号通信可能に接続され、それにダウンサイズされたフレームを供給する。学習型超解像エンコーダ側プロセッサ530の第2の出力は、エンコーダ540の入力と信号通信可能に接続され、それにパッチフレームを供給する。動きパラメータ推定器510の第2の出力は、装置500の出力となり、動きパラメータを供給する。動きパラメータ推定器510の入力は、装置500の入力となり、入力ビデオを受け取る。エンコーダ540の出力(図示せず)は、装置500の第2の出力となり、ビットストリームを出力する。ビットストリームには、例えば、符号化されたダウンサイズされたフレーム、エンコーダパッチフレーム、及び動きパラメータを含む。

0035

言うまでもなく、エンコーダ540により行われる機能すなわち符号化を行わずに、ダウンサイズされたフレーム、パッチフレーム、及び動きパラメータを、圧縮せずにデコーダ側に送信してもよい。しかし、ビットレートを節約するため、ダウンサイズされたフレームとパッチフレームは、デコーダ側に送信される前に、(エンコーダ540により)圧縮されることが好ましい。さらに、他の一実施形態では、動きパラメータ推定器510、画像ワーパー520、及び学習型超解像エンコーダ側プロセッサ530は、ビデオエンコーダに、又はその一部に含まれていても良い。

0036

よって、エンコーダ側では、クラスタリングプロセスを行う前に、(動きパラメータ推定器510により)動き推定を行い、(画像ワーパー520により)フレームワーピングプロセスを用いて、オブジェクト又は背景の動きを有するフレームを比較的静的なビデオに変換する。動き推定プロセスで抽出されたパラメータは、別のチャンネルを通じてデコーダ側に送信される。

0037

図6を参照して、本原理を適用できるビデオエンコーダを参照数字600で示した。ビデオエンコーダ600は、コンバイナ685の非反転入力と信号通信している出力を有するフレーム順序付けバッファ610を含む。コンバイナ685の出力は変換器及び量子化器625の第1の入力と接続され信号通信している。変換器及び量子化器625の出力は、エントロピーコーダ645の第1の入力及び逆変換器及び逆量子化器650の第1の入力と接続され信号通信している。エントロピーコーダ645の出力は、コンバイナ690の第1の非反転入力と接続され信号通信している。コンバイナ690の出力は出力バッファ635の第1の入力と接続され信号通信している。

0038

エンコーダコントローラ605の第1の出力は、フレーム順序付けバッファ610の第2の入力と、逆変換器及び逆量子化器650の第2の入力と、ピクチャタイプ決定モジュール615の入力と、マクロブロックタイプ(MBタイプ)決定モジュール620の第1の入力と、イントラ予測モジュール660の第2の入力と、デブロッキングフィルタ665の第2の入力と、動き補償器670の第1の入力と、動き推定器675の第1の入力と、基準ピクチャバッファ680の第2の入力と接続され、信号通信している。

0039

エンコーダコントローラ605の第2の出力は、サプリメンタルエンハンスメント情報(SEI挿入器630の第1の入力と、変換器及び量子化器625の第2の入力と、エントロピーコーダ645の第2の入力と、出力バッファ635の第2の入力と、シーケンスパラメータセットSPS)及びピクチャパラメータセット(PPS)挿入器640の入力とに接続され、信号通信している。

0040

SEI挿入器630の出力は、コンバイナ690の第2の非反転入力と接続され信号通信している。

0041

ピクチャタイプ決定モジュール615の第1の出力は、フレーム順序付けバッファ610の第3の入力に接続され信号通信している。ピクチャタイプ決定モジュール615の第2の出力は、マクロブロックタイプ決定モジュール620の第2の入力に接続され信号通信している。

0042

シーケンスパラメータセット(SPS)及びピクチャパラメータセット(PPS)挿入器640の出力は、コンバイナ690の第3の非反転入力と接続され信号通信している。

0043

逆量子化及び逆変換器650の出力は、コンバイナ619の第1の非反転入力と接続され信号通信している。コンバイナ619の出力は、イントラ予測モジュール660の第1の入力と、及びデブロッキングフィルタ665の第1の入力と接続され、信号通信している。デブロッキングフィルタ665の出力は基準ピクチャバッファ680の第1の入力と接続され、信号通信している。基準ピクチャバッファ680の出力は、動き推定器675の第2の入力と、及び動き補償器670の第3の入力と接続され、信号通信している。動き推定器675の第1の出力は動き補償器670の第2の入力と接続され、信号通信している。動き推定器675の第2の出力はエントロピーコーダ645の第3の入力と接続され、信号通信している。

0044

動き補償器670の出力はスイッチ697の第1の入力と接続され、信号通信している。イントラ予測モジュール660の出力はスイッチ697の第2の入力と接続され、信号通信している。マクロブロックタイプ決定モジュール620の出力はスイッチ697の第3の入力と接続され、信号通信している。スイッチ697の第3の入力は、スイッチの「データ」入力が、(制御入力すなわち第3の入力と比較して)動き補償器670から提供されるか、又はイントラ予測モジュール660から提供されるか、判断する。スイッチ697の出力は、コンバイナ619の第2の非反転入力と、及びコンバイナ685の反転入力と接続され、信号通信している。

0045

フレーム順序付けバッファ610の第1の入力と、エンコーダコントローラ605の入力は、入力ピクチャを受け取る、エンコーダ600の入力としても利用可能である。さらに、サプリメンタルエンハンスメント情報(SEI)挿入器630の第2の入力は、メタデータを受け取る、エンコーダ600の入力としても利用可能である。出力バッファ635の出力は、ビットストリームを出力する、エンコーダ100の出力として利用できる。

0046

言うまでもなく、図5のエンコーダ540は、エンコーダ600として実施してもよい。

0047

図7を参照して、エンコーダで用いる動き補償学習型超解像の方法例を、参照数字700で示した。方法700は、開始ブロック705を含み、開始ブロック710は機能ブロック1010に制御を渡す。機能ブロック710は、オブジェクトの動きを有するビデオを入力して、機能ブロック715に制御を渡す。機能ブロック715は、オブジェクトの動きを有する入力ビデオの動きパラメータを推定して保存し、ループ制限ブロック720に制御を渡す。ループ制限ブロック720は、各フレームについてループを行い、機能ブロック725に制御を渡す。機能ブロック725において、推定された動きパラメータを用いて、現在のフレームをワープし、決定ブロック730に制御を渡す。決定ブロック730は、すべてのフレームの処理が終わったか判断する。すべてのフレームの処理が終われば、機能ブロック735に制御を渡す。機能ブロック735において、学習型超解像エンコーダ側処理を行い、機能ブロック750に制御を渡す。機能ブロック740は、ダウンサイズされたフレームと、パッチフレームと、動きパラメータとを出力し、終了ブロック799に制御を渡す。

0048

図8を参照して、デコーダにおける逆フレームワーピングを有する動き補償学習型超解像の装置例を、参照数字800で示した。装置800は、デコーダ810を含み、上記のエンコーダ540を含む装置500により生成された信号を処理する。装置800は、学習型超解像デコーダ側プロセッサ820の第1の入力及び第2の入力と信号通信可能な出力を有するデコーダ810を含み、学習型超解像デコーダ側プロセッサ820に、(復号され)ダウンサイズされたフレームとパッチフレームをそれぞれ供給する。学習型超解像デコーダ側プロセッサ820の出力は、逆フレームワーパー830の入力と信号通信可能に接続され、それに超解像ビデオを供給する。逆フレームワーパー830の出力は、ビデオを出力する装置800の出力となる。逆フレームワーパー830の入力は、動きパラメータの受け取りに使える。

0049

言うまでもなく、デコーダ810により行われる機能すなわち復号を行わずに、ダウンサイズされたフレーム及びパッチフレームを、圧縮せずにデコーダ側で受信してもよい。しかし、ビットレートを節約するため、ダウンサイズされたフレームとパッチフレームは、デコーダ側に送信される前に、エンコーダ側で圧縮されることが好ましい。さらに、他の一実施形態では、学習型超解像デコーダ側プロセッサ820と逆フレームワーパーは、ビデオデコーダ又はその一部に含まれても良い。

0050

よって、デコーダ側では、フレームが学習型超解像により回復された後、逆ワーピングプロセスを行って、回復されたビデオセグメントを元のビデオの座標系に変換する。逆ワーピングプロセスは、エンコーダ側で推定され送信された動きパラメータを用いる。

0051

図9を参照して、本原理を適用できるビデオデコーダの一例を参照数字900で示した。ビデオデコーダ900は入力バッファ910を含む。入力バッファ610の出力は、エントロピーデコーダ945の第1の入力と接続され、信号通信している。エントロピーデコーダ945の第1の出力は逆変換及び逆量子化器950の第1の入力と接続され、信号通信している。逆量子化及び逆変換器950の出力は、コンバイナ925の第2の非反転入力と接続され、信号通信している。コンバイナ925の出力は、デブロッキングフィルタ965の第2の入力と、及びイントラ予測モジュール960の第1の入力と接続され、信号通信している。デブロッキングフィルタ965の第2の出力は基準ピクチャバッファ980の第1の入力と接続され、信号通信している。基準ピクチャバッファ980の出力は動き補償器970の第2の入力と接続され、信号通信している。

0052

エントロピーデコーダ945の第2の出力は、動き報償器970の第3の入力と、デブロッキングフィルタ965の第1の入力と、及びイントラ予測器960の第3の入力と接続され、信号通信している。エントロピーデコーダ945の第3の出力はデコーダコントローラ905の入力と接続され、信号通信している。デコーダコントローラ905の第1の出力はエントロピーデコーダ945の第2の入力と接続され、信号通信している。デコーダコントローラ905の第2の出力は逆変換及び逆量子化器950の第2の入力と接続され、信号通信している。デコーダコントローラ905の第3の出力はデブロッキングフィルタ965の第3の入力と接続され、信号通信している。デコーダコントローラ905の第4の出力はイントラ予測モジュール960の第2の入力と、動き補償器970の第1の入力と、基準ピクチャバッファ980の第2の入力と接続され、信号通信している。

0053

動き補償器970の出力はスイッチ997の第1の入力と接続され、信号通信している。イントラ予測モジュール960の出力はスイッチ997の第2の入力と接続され、信号通信している。スイッチ997の出力は、コンバイナ925の第1の非反転入力と接続され、信号通信している。

0054

入力バッファ910の入力は、入力ビットストリームを受け取る、デコーダ900の入力として利用できる。デブロッキングフィルタ965の第1の出力は、出力ピクチャを出力する、デコーダ900の出力として利用できる。

0055

言うまでもなく、図8のデコーダは、デコーダ900として実施してもよい。

0056

図10を参照して、デコーダで用いる動き補償学習型超解像の方法例を、参照数字1000で示した。方法1000は、開始ブロック1005を含み、開始ブロック1005は機能ブロック1010に制御を渡す。機能ブロック1010は、ダウンサイズされたフレームと、パッチフレームと、動きパラメータとを出力し、機能ブロック1015に制御を渡す。機能ブロック1015において、学習型超解像デコーダ側処理を行い、ループ制限ブロック1020に制御を渡す。ループ制限ブロック1020は、各フレームについてループを行い、機能ブロック1025に制御を渡す。機能ブロック1025において、受信した動きパラメータを用いて逆フレームワーピングし、決定ブロック1030に制御を渡す。決定ブロック1030は、すべてのフレームの処理が終わったか判断する。すべてのフレームの処理が終われば、機能ブロック1035に制御を渡す。終わっていなければ、機能ブロック1020に制御を戻す。機能ブロック1035において、回復したビデオを出力し、終了ブロック1099に制御を渡す。

0057

入力ビデオはグループオブフレーム(GOF)に分割される。各GOFは、動き推定、フレームワーピング、及び学習型超解像のための基本単位である。GOFの複数のフレームのうちの一フレーム(例えば、中間又は始めのフレーム)が、動き推定の基準フレームとして選択される。GOFの長さは固定でも可変でもよい。

0058

動き推定
動き推定を用いて、フレーム中の画素の基準フレームに対する変位を推定する。動きパラメータをデコーダ側に送信しなければならないので、動きパラメータの数はできるだけ少ない方がよい。それゆえ、少数のパラメータにより制御できる、あるパラメトリック動きモデルを選択することが好ましい。例えば、ここに開示する現在のシステムでは、8個のパラメータで特徴付けられる平面動きモデルを利用する。かかるパラメトリック動きモデルは、並進、回転、アフィンワープ(affine warp)、投影変換などのフレーム間のグローバルな動きをモデル化できる。これらの動きは異なる多くのタイプのビデオに共通のものである。例えば、カメラパンするとき、カメラパニング(camera panning)は並進運動となる。このモデルでは、前景のオブジェクトの動きはよくキャプチャできないこともあるが、前景のオブジェクトが小さく、背景の動きが大きい場合、変換後のビデオはほとんど静的なものとなる。もちろん、8個のパラメータにより特徴付けられるパラメトリック動きモデルは、単なる例示であり、本原理の教示により、本原理の精神を維持しつつ、8個より多い又は少ないパラメータで、又は8個のパラメータで特徴付けられる他のパラメトリック動きモデルを用いてもよい。

0059

一般性を失わずに、基準フレームをH1、GOF中の残りのフレームをHi(i=2,3,...,N)とする。2つのフレームHiとフレームHjとの間のグローバルな動きは、Hi中の画素をHj中の対応する画素の位置に、又はその逆に動かす変換により、特徴付けられる。HiからHjへの変換をΘijと記し、そのパラメータをθijと記す。変換Θijを用いてHiをHjに(又は逆モデルΘji=Θij−1を用いてその逆に)アライメント(すなわちワープ)することができる。

0060

グローバルな動きは、いろいろなモデルと方法を用いて推定でき、そのため、本原理は、グローバルな動きを推定する特定の方法及び/又はモデルに限定されない。一例として、よく使われる一モデル(ここで参照する現在のシステムで用いられるモデル)は、



で与えられる投影変換である。

0061

上記の式により、Hi中の位置(x,y)にある画素が移った、Hj中の新しい位置(x,y)が与えられる。このように、8個のモデルパラメータθij={a1,a2,a3,b1,b2,b3,c1,c2}がHiからHjへの動きを記述する。通常、パラメータは、最初に2つのフレーム間の一組の点対応を決定し、次にRANdom SAmple Consensus (RANSAC)又はそのバリエーションを用いて、ロバスト推定フレームワークを用いることにより、推定される。このバリエーションは、例えば次の文献に記載されているものである:M. A. Fischler and R. C. Bolles, "Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography," Communications of theACM, vol. 24, 1981, pp. 381-395、及びP. H. S. Torr and A. Zisserman, "MLESAC: A New Robust Estimator with Application to Estimating Image Geometry," Journal of Computer Vision and Image Understanding, vol. 78, no. 1, 2000, pp. 138-156。フレーム間の点対応は、多数の方法で決定できる。例えば、文献D. G. Lowe, "Distinctive image features from scale- invariant keypoints," International Journal of Computer Vision, vol. 2, no. 60, 2004, pp. 91-110に記載されているような、SIFT(Scale-Invariant Feature Transform)特性を抽出してマッチングすることにより、又は、文献M. J. Black and P. Anandan, "The robust estimation of multiple motions: Parametric and piecewise-smooth flow fields," Computer Vision and Image Understanding, vol. 63, no. 1, 1996, pp. 75-104に記載されているようなオプティカルフロー(optical flow)を用いることにより、決定できる。

0062

グローバルな動きパラメータを用いて、GOF中の(基準フレームを除く)フレームをワープ(warp)して、基準フレームとアライメント(align)する。それゆえ、各フレームHi(i=2,3,...,N)と基準フレーム(H1)との間の動きパラメータを推定しなければならない。変換は可逆であり、逆変換Θji=Θij−1はHjからHiへの動きを記述する。変換結果のフレームを元のフレームにワープするために逆変換を用いる。元のビデオセグメントを回復するため、デコーダ側で逆変換を用いる。変換パラメータは圧縮され、サイドチャンネルを通じてデコーダ側に送信され、ビデオ復元プロセスを促進する。

0063

本原理により、グローバル動きモデルの他に、ブロックベース法などの動き推定方法を用いて、より高い精度を達成できる。ブロックベースの方法により、フレームを複数のブロックに分割して、各ブロックの動きモデルを推定する。しかし、ブロックベースモデルを用いて動きを記述するには、非常に多いビットが必要である。

0064

フレームワーピング及び逆フレームワーピング
動きパラメータを推定した後、エンコーダ側において、フレームワーピングプロセスを行い、非基準フレームを基準フレームにアライメント(align)する。しかし、ビデオフレーム中のあるエリアが、上記のグローバル動きモデルに従わない可能性もる。フレームワーピングを用いることにより、これらのエリアは、そのフレーム中の残りのエリアとともに変換される。しかし、このエリアが小さければ、これは大きな問題とはならない。このエリアのワーピングにより、ワープされたフレーム中のこのエリアにだけに人工的な動きが生じるからである。人工的な動きを有するこのエリアが小さい限り、そのための代表パッチが大幅に増加することにはならない。全体的に、ワーピングプロセスにより、代表パッチの総数を低減することができる。また、小さいエリアの人工的な動きは、逆ワーピングプロセスにより可逆される。

0065

逆フレームワーピングプロセスは、デコーダ側で行われ、学習型超解像コンポーネントからの復元されたフレームをワープして元の座標系に戻す。

0066

本原理の上記その他の特徴と利点は、当業者はここに開示した教示に基づき容易に確認できるであろう。言うまでもなく、本原理の教示は、ハードウェア、ソフトウェア、ファームウェア、特殊用途プロセッサ、またはこれらの組み合わせなどのいろいろな形体で実施することができる。

0067

最も好ましくは、本原理の教示をハードウェアとソフトウェアの組合せとして実施する。また、ソフトウェアはプログラム記録装置に実態的に化体されたアプリケーションプログラムとして実施してもよい。そのアプリケーションプログラムは、好適なアーキテクチャを有する機械アップロードされ、実行される。好ましくは、機械は、中央処理装置(CPU)、ランダムアクセスメモリ(RAM)、及び入出力(I/O)インターフェイス等のハードウェアを有するコンピュータプラットフォームで実施される。コンピュータプラットフォームはオペレーティングシステムとマイクロコードも含んでもよい。ここに説明した様々なプロセスや機能は、CPUが実行できる、マイクロ命令コードの一部やアプリケーションプログラムの一部であってもよく、これらのいかなる組合せであってもよい。また、追加的データ記憶装置印刷装置等その他の様々な周辺装置をコンピュータプラットフォームに接続してもよい。

0068

さらに言うまでもなく、添付した図面に示したシステム構成要素や方法の一部はソフトウェアで実施されることが好ましいが、システム構成要素(または方法)間の実際的な結合は本原理をプログラムするそのプログラム方法に応じて異なる。ここに開示された本発明の教示を受けて、関連技術分野の当業者は、本原理の同様な実施形態や構成を考えることができるであろう。

0069

例示した実施形態を添付した図面を参照して説明したが、言うまでもなく、本原理はこれらの実施形態には限定されず、当業者は、本原理の範囲と精神から逸脱することなく、様々な変化と修正を施すことができるであろう。かかる変更や修正はすべて添付した請求項に記載した本原理の範囲内に含まれるものである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ