図面 (/)

技術 ビデオエンコーダにおける高速な幾何学的なモードの判定方法及び装置

出願人 トムソンライセンシング
発明者 ジァンロウオスカーディヴォラエスコーダペンインシャオアンリュ
出願日 2012年11月15日 (6年8ヶ月経過) 出願番号 2012-251512
公開日 2013年3月21日 (6年3ヶ月経過) 公開番号 2013-055689
状態 特許登録済
技術分野 TV信号の圧縮,符号化方式
主要キーワード パラメータスペース セーフガード コスト測定 幾何学的形 サーチパターン コスト基準 予測品質 プリンティングユニット
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年3月21日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

ビデオエンコーダにおける高速幾何学的なモード判定の方法及び装置の提供。

解決手段

本装置は、幾何学的なモデルに基づく分割のモードを使用して限定的な幾何学的なモード判定を実行するエンコーダ100を含む。エンコーダ100は、幾何学的なモデルに基づく分割のモードと非幾何学的な分割のモードとの間の相関及び依存関係のうちの少なくとも1つに基づいて幾何学的なモデルに基づく分割のモードのテストスキップする。

概要

背景

ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)MPEG−4(Moving Picture Experts Group-4)Part10 AVC(Advanced Video Coding)標準ITU−T(International Telecommunication Union, Telecommunication Sector)H.264勧告(以下、MPEG−4 AVC標準)では、インター符号化(inter-coded)16×16画素マクロブロックは、サイズ16×8,8×16又は8×8のマクロブロックのパーティションに分割される。8×8画素のマクロブロックのパーティションは、サブマクロブロックとして知られる。サブマクロブロックは、サイズ8×4,4×8及び4×4のサブマクロブロックのパーティションに更に分割される。エンコーダは、圧縮効率及び主観的品質を最大にするため、特定のマクロブロックの特性に基づいて、マクロブロックをどのようにパーティション、サブマクロブロックのパーティションに分割するかを選択する。

さらに、MPEG-4 AVCは、イントラ(INTRA)、スキップSKIP)及びダイレクト(DIRECT)モードをサポートする。イントラモードは、イントラ4×4、イントラ16×16、及び高忠実度モードのみであるイントラ8×8といった3つのタイプを許容する。イントラ4×4及びイントラ8×8は、垂直、水平、DC、斜め下/左、斜め下/右、垂直−左、水平−下、垂直−右、及び水平−上の予測といった9つの予測モードをサポートする。イントラ16×16は、垂直、水平、DC及びプレーンの予測といった4つの予測モードをサポートする。

モード判定に関して、イントラピクチャは、イントラモードをサポートし、インターピクチャは、インターモードとイントラモードの両者をサポートする。イントラモードは、イントラ4×4及びイントラ16×16を含む。Pピクチャについて、インターモードは、スキップ及び16×16,16×8,8×16及びサブマクロブロックの8×8のパーティションを含む。8×8は、8×8,8×4,4×8及び4×4のパーティションを更にサポートする。Bピクチャについて、リスト0及びリスト1の両者の考慮及びダイレクトモードは、マクロブロック及びサブマクロブロックの両者について考慮される。

従来技術では、モード判定のためにレートと歪みの最適化(RDO: Rate-Distortion Optimization)のフレームワークが使用され、すなわち、符号化コストを測定するためにRDcostJ=D+λRが使用され、ここでDは歪みを表し、Rはレートを表す。インターモードについて、動き予測は、モード判定から個別に考慮される。動き予測は、はじめに、インターモードの全てのブロックタイプについて実行され、次いで、それぞれのインターモードのコストとイントラモードのコストとを比較することでモード判定が行われる。最小のコストをもつモードが最良のモードとして選択される。

Pピクチャ又はBピクチャにおける1つのマクロブロックを符号化する従来の手順(以下、「従来のマクロブロックの符号化手順」)は、以下のように要約される。

従来のマクロブロックの符号化手順の第一のステップでは、最後にデコードされたピクチャが与えられた場合、ラグランジュ乗数λMODE,λMOTION、及びマクロブロック量子化器QPが判定される。

従来のマクロブロックの符号化手順の第二のステップでは、動き予測及び参照画像の選択は、可能性のあるマクロブロックモードのそれぞれの参照画像及び動きベクトルについて、以下を最小にすることで実行される。

上式では、Jはレートひ歪みのコストを示し、REFは参照画像を示し、mは考慮されている現在の動きベクトルを示し、λMOTIONはラグランジュ乗数を示し、c(REF,m(REF))は参照画像を動きベクトルmと使用した補償演算を示し、pは動きベクトルの符号化の間の予測のために使用される動きベクトルを示し、R(m-p)は動きベクトルを符号化するために使用されるビットを示し、R(REF)は参照画像を符号化するビットを示す。SADは原信号と動きベクトルにより予測される参照信号との間の絶対差の総和を示す。

従来のマクロブロックの符号化手順の第三のステップでは、マクロブロックの予測モードは、MODEを変化するとき、QP及びλMODEが与えられた場合、以下を最小にすることで選択される。

SSDは原信号と再構成された信号との間の二乗差の総和を示す。R(s,c,MODE)はマクロブロックのヘッダのビット、動き及び全てのDCT係数を含むMODEを選択することに関連するビット数を示す。MODEは、以下のように潜在的なマクロブロックのモードからなるセットからのモードを示す。

イントラ4×4は、以下のモードを含む。

イントラ16×16/イントラ8×8は、以下のモードを含む。

フレームポジショニングは、効率的なビデオ符号化におけるキーとなる重要なプロセスである。MPEG-4 AVC標準のような最近のビデオ圧縮技術は、ツリーに基づいたフレームパーティションを使用する。これは、ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)MPEG−2(Moving Picture Experts Group-2)標準/ITU−T(International Telecommunication Union, Telecommunication Sector)H.263勧告(以下、H.263勧告)ような、旧式のビデオ符号化標準及び勧告で典型的に使用されるシンプルな一様なブロックパーティションよりも効率的であるように見える。しかし、ツリーベースのフレームパーティションは、2次元(2D)データの幾何学的構造を効率的に捕捉することができないので、できるだけ効率的にビデオ情報を符号化しない。

幾何学的な領域の分割を使用したインター及びイントラ予測は、ビデオ符号化の効率を改善することに関する見込みのある研究動向として識別される。以前は、(MPEG-4 AVC標準に従って実行されるような)高度ビデオ符号化について、ビデオ符号化効率を改善するためにインター予測及びイントラ予測について幾何学的な分割を導入することが提案されている。最良のパフォーマンスを得るため、最適な幾何学的なパーティションを発見することがエンコーダにとって重要である。これらの提案において強力なフルサーチ方式が使用されるが、複雑さは非常に高い。しかし、モード選択/パーティション選択について幾つかの高速アルゴリズムを有することが望まれ、幾何学的なパーティションについて増加される計算上の複雑さは、実際のシステムにとって障害となる。

概要

ビデオエンコーダにおける高速の幾何学的なモード判定の方法及び装置の提供。本装置は、幾何学的なモデルに基づく分割のモードを使用して限定的な幾何学的なモード判定を実行するエンコーダ100を含む。エンコーダ100は、幾何学的なモデルに基づく分割のモードと非幾何学的な分割のモードとの間の相関及び依存関係のうちの少なくとも1つに基づいて幾何学的なモデルに基づく分割のモードのテストをスキップする。

目的

基本的なスキームは、16×16及び/又は8×8の幾何学的なパーティションのモードのテストをスキップするか否かを判定するため、全ての可能性のあるMPEG-4 AVC標準のマクロブロック/サブマクロブロックのパーティションモードのテスト後に閾値を適用することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

幾何学的なモデルに基づく分割のモードを使用して限定的な幾何学的なパラメータの選択を実行するエンコーダを有する装置であって、前記エンコーダは、予測的サーチ及び階層的なサーチの少なくとも1つを適用することで前記限定的な幾何学的なパラメータの選択を実行し、前記予測的なサーチは、最初の予測子の選択、適応的な早期の終了、及び予測子のリファインメントの少なくとも1つを含む、ことを特徴とする装置。

請求項2

前記最初の予測子の選択は、空間的な相関に基づく予測子、時間的な相関に基づく予測子、所与符号化標準又は所与の符号化勧告のうちの最良インターモードに基づく予測子、及び固定された予測子のグリッドのうちの少なくとも1つを選択的にイネーブルにする、請求項1記載の装置

請求項3

幾何学的なモデルに基づく分割のモードを使用して限定的な幾何学的なパラメータの選択を実行するステップを含む方法であって、前記実行するステップは、予測的なサーチ及び階層的なサーチの少なくとも1つを適用することで前記限定的な幾何学的なパラメータの選択を実行し、前記予測的なサーチは、最初の予測子の選択、適応的な早期の終了、及び予測子のリファインメントの少なくとも1つを含む、ことを特徴とする方法。

請求項4

前記最初の予測子の選択は、空間的な相関に基づく予測子、時間的な相関に基づく予測子、所与の符号化標準又は所与の符号化勧告のうちの最良のインターモードに基づく予測子、及び固定された予測子のグリッドのうちの少なくとも1つを選択的にイネーブルにする、請求項3記載の装置

技術分野

0001

本発明は、ビデオ符号化に関し、より詳細には、ビデオエンコーダにおける高速幾何学的なモードの判定方法及び装置に関する。
本出願は、2007年4月12日に提出された米国特許出願第60/911,486号の利益を特許請求するものであり、この内容は引用により完全な形で本明細書に盛り込まれる。

背景技術

0002

ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)MPEG−4(Moving Picture Experts Group-4)Part10 AVC(Advanced Video Coding)標準ITU−T(International Telecommunication Union, Telecommunication Sector)H.264勧告(以下、MPEG−4 AVC標準)では、インター符号化(inter-coded)16×16画素マクロブロックは、サイズ16×8,8×16又は8×8のマクロブロックのパーティションに分割される。8×8画素のマクロブロックのパーティションは、サブマクロブロックとして知られる。サブマクロブロックは、サイズ8×4,4×8及び4×4のサブマクロブロックのパーティションに更に分割される。エンコーダは、圧縮効率及び主観的品質を最大にするため、特定のマクロブロックの特性に基づいて、マクロブロックをどのようにパーティション、サブマクロブロックのパーティションに分割するかを選択する。

0003

さらに、MPEG-4 AVCは、イントラ(INTRA)、スキップSKIP)及びダイレクト(DIRECT)モードをサポートする。イントラモードは、イントラ4×4、イントラ16×16、及び高忠実度モードのみであるイントラ8×8といった3つのタイプを許容する。イントラ4×4及びイントラ8×8は、垂直、水平、DC、斜め下/左、斜め下/右、垂直−左、水平−下、垂直−右、及び水平−上の予測といった9つの予測モードをサポートする。イントラ16×16は、垂直、水平、DC及びプレーンの予測といった4つの予測モードをサポートする。

0004

モード判定に関して、イントラピクチャは、イントラモードをサポートし、インターピクチャは、インターモードとイントラモードの両者をサポートする。イントラモードは、イントラ4×4及びイントラ16×16を含む。Pピクチャについて、インターモードは、スキップ及び16×16,16×8,8×16及びサブマクロブロックの8×8のパーティションを含む。8×8は、8×8,8×4,4×8及び4×4のパーティションを更にサポートする。Bピクチャについて、リスト0及びリスト1の両者の考慮及びダイレクトモードは、マクロブロック及びサブマクロブロックの両者について考慮される。

0005

従来技術では、モード判定のためにレートと歪みの最適化(RDO: Rate-Distortion Optimization)のフレームワークが使用され、すなわち、符号化コストを測定するためにRDcostJ=D+λRが使用され、ここでDは歪みを表し、Rはレートを表す。インターモードについて、動き予測は、モード判定から個別に考慮される。動き予測は、はじめに、インターモードの全てのブロックタイプについて実行され、次いで、それぞれのインターモードのコストとイントラモードのコストとを比較することでモード判定が行われる。最小のコストをもつモードが最良のモードとして選択される。

0006

Pピクチャ又はBピクチャにおける1つのマクロブロックを符号化する従来の手順(以下、「従来のマクロブロックの符号化手順」)は、以下のように要約される。

0007

従来のマクロブロックの符号化手順の第一のステップでは、最後にデコードされたピクチャが与えられた場合、ラグランジュ乗数λMODE,λMOTION、及びマクロブロック量子化器QPが判定される。

0008

従来のマクロブロックの符号化手順の第二のステップでは、動き予測及び参照画像の選択は、可能性のあるマクロブロックモードのそれぞれの参照画像及び動きベクトルについて、以下を最小にすることで実行される。

0009

上式では、Jはレートひ歪みのコストを示し、REFは参照画像を示し、mは考慮されている現在の動きベクトルを示し、λMOTIONはラグランジュ乗数を示し、c(REF,m(REF))は参照画像を動きベクトルmと使用した補償演算を示し、pは動きベクトルの符号化の間の予測のために使用される動きベクトルを示し、R(m-p)は動きベクトルを符号化するために使用されるビットを示し、R(REF)は参照画像を符号化するビットを示す。SADは原信号と動きベクトルにより予測される参照信号との間の絶対差の総和を示す。

0010

従来のマクロブロックの符号化手順の第三のステップでは、マクロブロックの予測モードは、MODEを変化するとき、QP及びλMODEが与えられた場合、以下を最小にすることで選択される。

0011

SSDは原信号と再構成された信号との間の二乗差の総和を示す。R(s,c,MODE)はマクロブロックのヘッダのビット、動き及び全てのDCT係数を含むMODEを選択することに関連するビット数を示す。MODEは、以下のように潜在的なマクロブロックのモードからなるセットからのモードを示す。

0012

イントラ4×4は、以下のモードを含む。

0013

イントラ16×16/イントラ8×8は、以下のモードを含む。

0014

フレームポジショニングは、効率的なビデオ符号化におけるキーとなる重要なプロセスである。MPEG-4 AVC標準のような最近のビデオ圧縮技術は、ツリーに基づいたフレームパーティションを使用する。これは、ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)MPEG−2(Moving Picture Experts Group-2)標準/ITU−T(International Telecommunication Union, Telecommunication Sector)H.263勧告(以下、H.263勧告)ような、旧式のビデオ符号化標準及び勧告で典型的に使用されるシンプルな一様なブロックパーティションよりも効率的であるように見える。しかし、ツリーベースのフレームパーティションは、2次元(2D)データの幾何学的構造を効率的に捕捉することができないので、できるだけ効率的にビデオ情報を符号化しない。

0015

幾何学的な領域の分割を使用したインター及びイントラ予測は、ビデオ符号化の効率を改善することに関する見込みのある研究動向として識別される。以前は、(MPEG-4 AVC標準に従って実行されるような)高度ビデオ符号化について、ビデオ符号化効率を改善するためにインター予測及びイントラ予測について幾何学的な分割を導入することが提案されている。最良のパフォーマンスを得るため、最適な幾何学的なパーティションを発見することがエンコーダにとって重要である。これらの提案において強力なフルサーチ方式が使用されるが、複雑さは非常に高い。しかし、モード選択/パーティション選択について幾つかの高速アルゴリズムを有することが望まれ、幾何学的なパーティションについて増加される計算上の複雑さは、実際のシステムにとって障害となる。

発明が解決しようとする課題

0016

インター幾何学的モード(inter geometric mode)について候補となるパーティションを予め選択するため、エッジ検出に基づいて開発された高速アルゴリズムが以前に提案されている。この高速アルゴリズムは、動き補償のための幾何学的なパーティションはオブジェクト境界に沿って収まるブロックについて良好に機能することが期待されるという仮定に基づく。幾らかの程度にまで、画像のエッジに基づいてパーティションを予め選択することは、満足のいく結果を達成する場合があると仮定することは妥当である。このアプローチの主要な問題点は、非常にシンプルな統計値及び特別のモデリングにより完全に駆動されることである。これにより、幾何学的な分割が実際に考慮されるように役立つ可能性のある状況の一部のみとなり、したがって、複雑さの節約及び圧縮の節約の観点で準最適な結果が達成される。確かに、この高速アルゴリズムの著者は、パーティションは明示的な画像のエッジにのみ関連されることを想定している。しかし、これは、必ずしも真ではない。たとえば、インター予測のケースについて、パーティションは、画像のエッジよりも動きの境界を反映する。幾つかのケースでは、画像のエッジは、動きの境界に一致するが、全てのケースにおいてではない。したがって、この高速アルゴリズムは、フルサーチアルゴリズムに比較されたとき、符号化効率において大幅な落ち込みを生じる場合がある。

課題を解決するための手段

0017

従来技術のこれらの課題及び問題、並びに他の課題及び問題は、本発明により対処され、本発明は、ビデオエンコーダにおける高速の幾何学的モード判定(geometric mode decision)のための方法及び装置に向けられる。

0018

本発明の態様によれば、装置が提供され、当該装置は、幾何学的なモデルに基づくパーティショニング(分割)モードを使用して、限定的な幾何学的なモードの判定を実行するエンコーダを含む。エンコーダは、幾何学的なモデルに基づく分割のモードと非幾何学的な分割のモードとの間の相関及び依存の少なくとも1つに基づいて、幾何学的なモデルに基づく分割のモードのテストをスキップする。

0019

本発明の別の態様によれば、方法が提供され、当該方法は、幾何学的なモデルに基づく分割のモードを使用して限定的な幾何学的なモードの判定を実行するステップを含む。実行するステップは、幾何学的なモデルに基づく分割のモードと非幾何学的な分割のモードとの間の相関及び依存の少なくとも1つに基づいて幾何学的なモデルに基づく分割のモードのテストをスキップするステップを含む。

0020

本発明の更に別の態様によれば、装置が提供され、当該装置は、幾何学的なモデルに基づく分割のモードを使用して、限定的な幾何学的なパラメータの選択を実行するエンコーダを含む。エンコーダは、予測的サーチ及び階層的なサーチとの少なくとも1つを適用することで、限定的な幾何学的なパラメータの選択を実行する。予測的なサーチは、最初の予測子の選択、適応的な早期の終了(early termination)、及び予測子のリファインメント(refinement)の少なくとも1つを含む。

0021

本発明の更に別の態様のよれば、方法が提供され、当該方法は、幾何学的なモデルに基づく分割のモードを使用して、限定的な幾何学的なパラメータの選択を実行するステップを含む。実行するステップは、予測的なサーチと階層的なサーチとの少なくとも1つのを適用するステップを含む。予測的なサーチは、最初の予測子の選択、適応的な早期の終了、及び予測子の改善を含む。

0022

本発明の更なる態様によれば、方法が提供され、当該方法は、幾何学的なモデルに基づく分割のモードを使用して画像のビデオ信号を符号化するステップを含む。符号化ステップは、幾何学的な分割のパラメータ及び画像の少なくとも1部の予測データの交互に行われる最適化(alternate optimization)を使用してビデオ信号データを符号化する。

0023

本発明のこれらの態様、特徴及び利点、並びに他の態様、特徴及び利点は、添付図面と共に読まれる例示的な実施の形態の以下の詳細な説明から明らかとなるであろう。

図面の簡単な説明

0024

本発明は、以下の例示的な図面に従って良好に理解される。
本発明の実施の形態に係る、本発明との使用向け拡張される、MPEG-4 AVC標準に従ってビデオ符号化を実行可能なビデオエンコーダのブロック図である。
本発明の実施の形態に係る、2つのパーティション間の例示的な幾何学的な境界の図である。
本発明の実施の形態に係る、MPEG-4 AVC標準のモード情報に基づく高速な幾何学的なモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、MPEG-4 AVC標準のモード情報に基づく高速な幾何学的なモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、近隣の情報に基づく高速の幾何学的なモードの判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、16×16の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、8×8の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、16×16の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、8×8の幾何学的なモードのモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、残差情報に基づく高速の幾何学的なモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、動きベクトル情報に基づいた高速のモード判定の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、高速の予測的な幾何学的なパーティションの選択の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、階層的なサーチを使用した高速の幾何学的なパーティションの選択の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、高速の幾何学的なモード及びパーティションの選択の例示的な方法のフローダイアグラムである。
本発明の実施の形態に係る、高速の交互に行われる予測/パーティションのパラメータの最適化の例示的な方法のフローダイアグラムである。

実施例

0025

本発明は、ビデオエンコーダにおける高速の幾何学的なモード判定の方法及び装置に向けられる。
本実施の形態での記載は、本発明の原理を例示するものである。当業者であれば、本実施の形態で明示的に記載又は図示されていないが、本発明を実施し、且つ本発明の精神及び範囲に含まれる様々なアレンジメントを考えることができることを理解されたい。

0026

本実施の形態で引用される全ての例及び条件つきの言語は、本発明及び当該技術分野を促進するために本発明者により寄与されるコンセプトを理解することにおいて読者支援する教育的な目的が意図され、係る特別に引用される例及び条件への制限がないものとして解釈されるべきではない。

0027

さらに、本発明の特定の例と同様に、本発明の原理、態様及び実施の形態を参照する本実施の形態における全ての説明は、本発明の構造的及び機能的に等価な概念の両者を包含することが意図される。さらに、現在知られている等価な概念と同様に、将来的に開発される等価な概念、すなわち構造に係らず同じ機能を実行する開発されたエレメントの両者を含むことが意図される。

0028

したがって、たとえば、本実施の形態で与えられるブロック図は、本発明を実施する例示的な回路の概念的なビューを表すことを当業者により理解される。同様に、フローチャート、フローダイアグラム、状態遷移図、擬似コード等は、コンピュータ読み取り可能なメディアで実質的に表される様々なプロセスを表し、コンピュータ又はプロセッサが明示的に示されるか否かに係らず、係るコンピュータ又はプロセッサにより実行されることが理解される。

0029

図示される様々なエレメントの機能は、適切なソフトウェアに関連してソフトウェアを実行可能なハードウェアと同様に、専用のハードウェアの使用を通して提供される。プロセッサにより提供されたとき、機能は、単一の専用のプロセッサにより提供されるか、単一の共有されるプロセッサにより提供されるか、又はそのうちの幾つかが共有される複数の個々のプロセッサにより提供される場合がある。さらに、用語「プロセッサ」又は「コントローラ」の明示的な使用は、ソフトウェアを実行可能なハードウェアを排他的に示すように解釈されるべきではなく、限定されることなしに、デジタルシグナルプロセッサ(DSP)ハードウェア、ソフトウェアを記憶するリードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、及び不揮発性ストレージ暗黙的に含む。

0030

コンベンショナル及び/又はカスタムである他のハードウェアも含まれる場合がある。同様に、図示されるスイッチは、概念のみである。それらの機能は、プログラムロジックの動作を通して、専用のロジックを通して、プログラム制御と専用ロジックのインタラクションを通して、更に手動的に実行される場合があり、特定の技術は、コンテクストから更に詳細に理解されるように、実現者により選択可能である。

0031

本発明の請求項では、特定の機能を実行する手段として表現されるエレメントは、たとえばa)その機能を実行する回路エレメントの組み合わせ、又はb)機能を実行するソフトウェアを実行する適切な回路と結合されるファームウェアマイクロコードを含む任意の形式でのソフトウェアを含む機能を実行する任意のやり方を包含することが意図される。

0032

係る請求項により定義される本発明は、様々な引用される手段により提供される機能が結合され、請求項が要求するやり方で纏められるという事実にある。したがって、それらの機能を提供する任意の手段は本実施の形態で示される手段に等価であるとみなされる。

0033

本発明の「1実施の形態」又は「実施の形態」への明細書における参照は、本実施の形態と共に記載される特定の特徴、構造、特徴等が本発明の少なくとも1つの実施の形態に含まれることを意味する。したがって、明細書を通して様々な位置で表れる「1実施の形態において」又は「実施の形態において」のフレーズ出現は、必ずしも、同じ実施の形態を全て参照するものではない。

0034

たとえば「A及び/又はB」のケースにおける用語「及び/又は」の使用は、第一の列挙されたオプション(A)の選択、第二の列挙されたオプション(B)の選択、又はオプション(A及びB)の両者の選択を包含することが意図されることを理解されたい。更なる例として、「A、B及び/又はC」のケースでは、係るフレーズは、第一の列挙されたオプション(A)の選択、第二の列挙されたオプション(B)の選択、第三の列挙されたオプション(C)の選択、第一及び第二の列挙されたオプション(A及びB)の選択、第一及び第三の列挙されたオプション(A及びC)の選択、第二及び第三の列挙されたオプション(B及びC)の選択、又は、全ての3つのオプション(A及びB及びC)の選択を包含することが意図される。これは、列挙された多くのアイテムに関して、この及び関連する技術分野における当業者により容易に明らかであるように拡張される。

0035

さらに、本発明の1以上の実施の形態がMPEG-4 AVC標準に関して本明細書で記載されたが、本発明は、この標準のみに限定されず、本発明の精神を維持する一方で、MPEG-4 AVC標準の拡張を含めて、他のビデオ符号化標準、勧告及びその拡張に関して利用される場合がある。

0036

さらに、本明細書で使用されるように、フレーズ「ウェッジパーティション“wedge partition”」及び「ウェッジパーティショニング“wedge partitioning”」は、任意の線又は曲線により分離される2つの領域への画像のブロックの分割を示す。また、単語「ウェッジ」は、境界の線又は曲線の特定の設定及び/又は選択が与えられた場合、分割の形状を示す。

0037

また、本明細書で使用されるように、たとえばサーチに関して、用語「高速」は、最適なソリューション、又は、集中的なフルサーチアルゴリズムよりも低い計算上の複雑さをもつ最適に近いソリューションを発見することができる効率的なアルゴリズムを示す。

0038

図1を参照して、本発明との使用のために拡張される、MPEG-4 AVC標準に従ってビデオ符号化を実行可能なビデオエンコーダは、参照符号100により一般的に示される。

0039

ビデオエンコーダ100は、結合手段185の非反転入力信号通信する出力を有するフレームオーダリングバッファ110を含む。結合手段185の出力は、幾何学的な拡張(geometric extension)をもつ変換器及び量子化器125の第一の入力と信号通信で接続される。幾何学的な拡張125をもつ変換器及び量子化器125の出力は、幾何学的な拡張をもつエントロピーコーダ145の第一の入力、及び幾何学的な拡張をもつ逆変換器及び逆量子化器150の第一の入力と信号通信で接続される。幾何学的な拡張をもつエントロピーコーダ145の出力は、結合手段190の第一の非反転入力と信号通信で接続される。結合手段190の出力は、出力バッファ135の第一の入力と信号通信で接続される。

0040

幾何学的な拡張をもつエンコーダコントローラ105の第一の出力は、フレームオーダリングバッファ110の第二の入力、幾何学的な拡張をもつ逆変換器及び逆量子化器150の第二の入力、ピクチャタイプ判定モジュール115の入力、幾何学的な拡張をもつマクロブロックタイプ(MBタイプ)判定モジュール120の入力、幾何学的な拡張をもつイントラ予測モジュール160の第二の入力、幾何学的な拡張をもつデブロッキングフィルタ165の第二の入力、幾何学的な拡張をもつ動き補償器170の第一の入力、幾何学的な拡張をもつ高速動き予測器175の第一の入力、及び参照画像バッファ180の第二の入力と信号通信で接続される。

0041

幾何学的な拡張をもつエンコーダコントローラ105の第二の出力は、SEI(Supplemental Enhancement Information)挿入器130の第一の入力、幾何学的な拡張をもつ変換器及び量子化器125の第二の入力、幾何学的な拡張をもつエントロピーコーダ145の第二の入力、出力バッファ135の第二の入力、及び、SPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)挿入器140の入力に信号通信で接続される。

0042

ピクチャタイプ判定モジュール115の第一の出力は、フレームオーダリングバッファ110の第三の入力と信号通信で接続される。ピクチャタイプ判定モジュール115の第二の出力は、幾何学的な拡張をもつマクロブロック判定モジュール120の第二の入力と信号通信で接続される。

0043

SPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)挿入器140の出力は、結合器190の第三の非反転入力と信号通信で接続される。

0044

幾何学的な拡張をもつ逆量子化器及び逆変換器150の出力は、結合器127の第一の非反転入力と信号通信で接続される。結合手段127の出力は、幾何学的な拡張をもつイントラ予測モジュール160の第一の入力及び幾何学的な拡張をもつデブロッキングフィルタ165の第一の入力と信号通信で接続される。幾何学的な拡張をもつデブロッキングフィルタ165の出力は、参照画像バッファ180の第一の入力と信号通信で接続される。参照画像バッファ180の出力は、幾何学的な拡張をもつ高速動き予測器175の第二の入力と信号通信で接続される。幾何学的な拡張をもつ高速動き予測器175の第一の出力は、幾何学的な拡張をもつ動き補償器175の第二の入力と信号通信で接続される。幾何学的な拡張をもつ高速動き予測器の第二の出力は、幾何学的な拡張をもつエントロピーコーダ145の第三の入力と信号通信で接続される。

0045

幾何学的な拡張をもつ動き補償器170の出力は、スイッチ197の第一の入力と信号通信で接続される。幾何学的な拡張をもつイントラ予測モジュール160の出力は、スイッチ197の第二の入力と信号通信で接続される。幾何学的な拡張をもつマクロブロックタイプ判定モジュールの120の出力は、スイッチ197の第三の入力と信号通信で接続される。スイッチ197の出力は、結合器127の第二の非反転入力と信号通信で接続される。

0046

フレームオーダリングバッファ110及び幾何学的な拡張をもつエンコーダコントローラ105の入力は、入力画像101を受けるため、エンコーダ100の入力として利用可能である。さらに、SEI(Supplemental Enhancement Information)挿入器130の入力は、メタデータを受けるため、エンコーダ100の入力として利用可能である。出力バッファ135の出力は、ビットストリームを出力するため、エンコーダ100の出力として利用可能である。

0047

幾何学的な領域のパーティショニング(分割)を使用したインター予測及びイントラ予測は、ビデオ符号化効率の改善に関する有望な研究動向として認識されている。これまで、(MPEG-4 AVC標準に従って実行されるような)高度ビデオ符号化について、ビデオ符号化効率を改善するためにインター予測及びイントラ予測について幾何学的なパーティションを導入することが提案されている。最良なパフォーマンスを得るため、最適な幾何学的なパーティションを発見することがエンコーダにとって重要である。これらの提案では、強力なフルサーチの方法が使用されるが、複雑さが非常に高い。しかし、モードの選択/パーティションの選択について幾つかの高速アルゴリズムを有することが望ましく、したがって、幾何学的なパーティションについて増加された計算上の複雑さは、実際のシステムにとって障害とはならない。したがって、本発明によれば、エンコーダでの計算上のリソースを節約するため、高速の幾何学的なアルゴリズムを考える。本発明の1実施の形態では、高速の幾何学的なモード判定は、幾何学的なモデルに基づくパーティショニングモードを使用したビデオエンコーダについて可能にされ、ここで、幾何学的なモードのテストは、標準的な予測モードと幾何学的なパーティションモードとの間で相関と依存性の少なくとも1つに基づいてスキップされる。本発明の別の実施の形態では、高速の幾何学的パラメータの選択は、幾何学的なモデルに基づくパーティショニングモードを使用したビデオエンコーダについて可能にされ、ここで、予測の高速サーチアルゴリズムが適用され、このアルゴリズムは、最初の予測子の選択、適応的な早期終了、及び予測子のリファインメントの少なくとも1つを含む。本発明の更に別の実施の形態では、高速の幾何学的なパラメータの選択は、幾何学的なモデルに基づく分割モードを使用したビデオエンコーダについて可能にされ、ここで、階層的なサーチが使用される。本発明の更に別の実施の形態では、幾何学的なモデルに基づいた分割モードを使用したビデオエンコーダが可能にされ、ここで、幾何学的な分割及び予測データの交互に行われる最適化が使用される。

0048

上述されたように、近年のビデオ圧縮技術は、フレームの分割を使用しており、この技術は、たとえばISO/IEC(International Organization for Standardization/International Electrotechnical Commission)MPEG−2(Moving Picture Experts Group-2)標準のような旧式のビデオ符号化標準において典型的に使用されたシンプルな一様なブロックの分割よりも効率的である。しかし、MPEG-4 AVC標準で使用されるツリーベースのフレームの分割は、2次元(2D)データの幾何学的構造を捕捉することができないので、ビデオ情報を十分に効率的に符号化しない。係る制限を解決するため、その2D幾何学的形状を考慮することで2Dビデオデータを良好に表現及び符号化する方法及び装置が提供される。1実施の形態では、インター予測(INTER16×16GEO、INTER8×8GEO)及びイントラ予測(INTRA16×16GEO、INTRA8×8GEO)の両者について新たなモードのセットに関して、ウェッジパーティション(すなわち任意の直線又は曲線により分離される2つの領域へのブロックの分割)が使用される。

0049

実施の形態では、幾何学的な分割のモードを組み込む基礎としてMPEG-4 AVC標準が使用される。ブロック内の幾何学的な分割は、ある直線の暗黙的な式によりモデル化される。したがって、実施の形態では、パーティションは、(図2に示されるように)以下のように定義される。

0050

この場合、ρ,θは、f(x,y)への直角方向における原点から境界線f(x,y)への距離、f(x,y)への直角方向の水平方向の座標軸xとの角度をそれぞれ示す。

0051

図2を参照して、画像の例示的な幾何学的な分割は、参照符号200により一般的に示される。画像ブロックは、参照符号220により一般に示される。

0052

その式から直接的に、高次の幾何学的なパラメータによるf(x,y)の更に複雑なモデルが考慮される。

0053

それぞれのブロック画素(x,y)は、以下のように分類される。

0054

符号化の目的のため、可能なパーティション(又は幾何学的なモード)の辞書事前に定義される。これは、以下のように形式的に定義される。

0055

この場合、Δρ及びΔθは、選択された量子化(パラメータ解像度)ステップである。θ及びρの量子化されたインデックスは、エッジを符号化するために送信された情報である。しかし、符号化の手順においてモード16×8及び8×16が使用される場合、ρ=0のケースについて角度0と90が可能なエッジのセットから除かれる。

0056

幾何学的に適応的な動き補償モードにおいて、それぞれのパーティションについてρ,θ及び動きベクトルのサーチは、最良のコンフィギュレーションを発見するために実行される。それぞれのρ及びθのペアについて、2つのステージにおいてフルサーチの方法が行われ、この場合、最良の動きベクトルがサーチされる。幾何学的に適応的なイントラ予測モードでは、それぞれのパーティションについてρ,θ及び最良の予測子(方向予測又は統計等)に関するサーチは、最良のコンフィギュレーションを発見するために実行される。

0057

エンコーダサイドで、幾何学的なモードの計算上の複雑さは、フルサーチが使用される場合に非常に高い。したがって、実際の応用についてエンコーダの複雑さを低減する高速アルゴリズムを開発することが非常に重要である。

0058

実施の形態では、MPEG-4 AVC標準及びPピクチャのインター幾何学的パーティション(inter geometric partition)のフレームワークが使用される。しかし、本明細書で提供される本発明の教示が与えられると、本発明の他の実施の形態は、本発明の精神を維持しつつ、イントラ幾何学的パーティション、他のタイプのピクチャ、及び他のビデオ符号化標準及び勧告、並びに本発明の拡張に当業者により容易に適用される。本発明は、高速動き予測及び/又はMPEG-4 AVC高速モード判定と共に適用される場合がある。符号化コストの測定について、RDcostが1例として使用される。しかし、本発明は、コスト測定を符号化する先のタイプのみに限定されず、本発明の精神を維持しつつ、限定されるものではないが(平均平方誤差等のような)歪みのみの測定等を含む他の符号化コスト測定を適用することができる。

0059

例示及び明確さのため、本発明は、以下の3つのカテゴリに分類される。(1)オリジナルのMPEG-4 AVC標準のインター予測モードと幾何学的な分割のモードとの間の相関に基づく高速なモード判定、(2)幾何学的な分割のモードでの高速の幾何学的なパーティションの選択、(3)幾何学的な分割と予測データとの交互に行われる最適化による高速の幾何学的なパターンの選択。それらのカテゴリは、共に又は独立して適用されることを理解されたい。

0060

1.オリジナルのMPEG-4 AVC標準のインター予測モードと幾何学的な分割のモードとの間の相関に基づく高速なモード判定。

0061

このカテゴリでは、高速のアルゴリズムは、幾何学的なモードのテストを完全にスキップすることができるかを判定するために実行される。幾何学的な分割のモードの前に、エンコーダによりMPEG-4 AVC標準のインター予測モードがテストされると想定する。さらに、第一のカテゴリの下でのアルゴリズムは、以下の5つのサブカテゴリに分類される。(1)MPEG-4 AVCモードの判定、(2)早期停止(early stop)の判定、(3)近傍の判定、(4)残差の判定及び(5)動きベクトルの判定。それらのサブカテゴリは、共に適用されるか又は独立して適用される。

0062

1.1.MPEG-4 AVC標準モードの判定
このサブカテゴリでは、エンコーダによる、最良及び/又は第二の最良(利用可能な場合)の選択されたMPEG-4 AVC標準モデルに基づいて幾何学的なモードの圧縮パフォーマンスのテストをスキップするか否かが判定される。実施の形態では、このカテゴリの判定は、たとえば、エンコーダがあるマクロブロックについて最良のモードとして幾何学的なモードを選択した場合、最良のMPEG-4 AVC標準のインター予測モードはスキップ、16×16又はイントラモードとなる可能性は低いという仮説に基づいている。同時に、サブ8×8レベルで、最良のサブマクロブロックモードは8×8幾何学的なモードである場合、最良のMPEG-4 AVC標準のサブマクロブロックのモードは8×8となる可能性は低いと想定される(又はインターB予測が考慮される場合、ダイレクト8×8)。マクロブロックサイズのレベルで、これは、スキップ及び/又は16×16が、マクロブロックが同じオブジェクト又は動き領域内にあることを意味し、イントラが、マクロブロックが閉塞されたオブジェクトであることを意味するからである。同じことが、サブマクロブロックにも当てはまる。1実施の形態では、最良のMPEG-4 AVC標準モードがスキップモードであるかをチェックする。スキップモードである場合、エンコーダは幾何学的なモードのテストをスキップし、エッジ及び動きのサーチが回避される。スキップがエンコーダにより選択された最良のモードではない場合、エンコーダは、最良のMPEG-4 AVC標準モードがイントラモードであるかがチェックされる。イントラモードである場合、幾何学的なモードがスキップされる。さもなければ、エンコーダは、最良のMPEG-4 AVC標準モードが16×16であるかをチェックする。16×16である場合、エンコーダは、第二の最良のMPEG-4 AVC標準モードをチェックする。スキップモードである場合、幾何学的モードのテストを更にスキップする。さもなければ、幾何学的なモードをテストする。同様に、サブマクロブロックについて、最良のMPEG-4 AVC標準のサブマクロブロックモードが8×8パーティションサイズからなる場合、エンコーダは、幾何学的なサブマクロブロックのモードのテストをスキップする。

0063

図5Aを参照して、16×16幾何学的なモードのモード判定の例示的な方法は、参照符号500により一般的に示される。

0064

本方法500は、開始ブロック505を含み、このブロックは、制御を判定ブロック510に移す。判定ブロック510は、JBest16×16MODE<TBest16×16MODEであるか否かを判定する。そうである場合、制御は機能ブロック515に移る。さもなければ、制御は機能ブロック520に移る。

0065

機能ブロック515は、次のマクロブロックにスキップし、制御を終了ブロック549に移す。機能ブロック520は、J16×16GEOを計算し、制御を終了ブロック549に移す。

0066

図5Bを参照して、8×8幾何学的モードのモード判定の例示的な方法は、参照符号550により一般に示される。

0067

本方法550は、開始ブロック555を含み、このブロックは、制御を判定ブロック560に移す。判定ブロック560は、JBest8×8MODE<TBest8×8MODEであるか否かを判定する。ここでTは閾値である。上記が成り立つ場合、制御は機能ブロック565に移る。さもなければ、制御は機能ブロック570に移る。

0068

機能ブロック516は、次のマクロブロックにスキップし、制御を終了ブロック599に移す。機能ブロック570は、J8×8GEOを計算し、制御を終了ブロック599に移す。

0069

本明細書で提供される例は、本実施の形態で提供される本発明の原理が与えられた場合、最良のモードの他の組み合わせに当業者により容易に拡張可能であることを理解されたい。さらに、予測を考慮する最大数エントリは、MPEG-4 AVC標準の予測モードのうち、最良及び第二の最良の選択されたモードに限定されず、本発明の精神を維持しつつ、他の選択されたモード数が利用される場合もあることを理解されたい。

0070

1.2.早期停止判定
このサブカテゴリでは、高速モード判定に到達するために早期の停止基準を使用することを提案する。これら停止基準は、適応的な閾値メカニズムに基づく。閾値は、量子化パラメータ関数、空間/時間近傍のレートと歪みのコスト(RDcost)等とすることができる。基本的なスキームは、16×16及び/又は8×8の幾何学的なパーティションのモードのテストをスキップするか否かを判定するため、全ての可能性のあるMPEG-4 AVC標準のマクロブロック/サブマクロブロックのパーティションモードのテスト後に閾値を適用することである。1実施の形態では、16×16/8×8幾何学的なパーティションの判定を適用する前に、最良のMPEG-4 AVC標準モードのみがテストされる。最良のMPEG-4 AVC標準モードのRDcostが所定の閾値よりも小さい場合、幾何学的なモードのテストをスキップする。さもなければ、幾何学的なモードがテストされる。

0071

高速の幾何学的なモード判定の閾値は、幾つかのセーフガード又はRDcostからの収集された統計量に基づいて選択される。

0072

図3A及び図3Bを参照して、MPEG-4 AVC標準のモード情報に基づく高速の幾何学的なモード判定の例示的な方法は、参照符号300及び500のそれぞれにより一般的に示される。

0073

本方法300は、開始ブロック305を含み、このブロックは、機能ブロック310に制御を移す。機能ブロック310は、最良のMPEG-4 AVC標準のモードをチェックし、制御を判定ブロック315に移す。判定ブロック315は、最良のMPEG-4 AVC標準のモードがスキップ又はイントラであるか否かを判定する。スキップ又はイントラである場合、制御は判定ブロック320に移る。さもなければ、制御は機能ブロック335に移る。

0074

判定ブロック320は、最良のMPEG-4 AVC標準のモードが16×16であるか否かを判定する。そうである場合、制御は判定ブロック325に移る。さもなければ、制御は機能ブロック330に移る。

0075

判定ブロック325は、第二の最良のMPEG-4 AVC標準のモードがスキップであるか否かを判定する。スキップである場合、制御は機能ブロック335に移る。さもなければ、制御は機能ブロック330に移る。

0076

機能ブロック330は、幾何学的なモードをチェックし、制御を機能ブロック335に移す。機能ブロック335は、最良のモードを選択し、制御を終了ブロック349に移す。

0077

本方法350は、開始ブロック355を含み、このブロックは、機能ブロック360に制御を移す。機能ブロック360は、最良のMPEG-4 AVC標準のサブマクロブロックのモードをチェックし、制御を判定ブロック365に移す。判定ブロック365は、最良のMPEG-4 AVC標準のモードが8×8であるか否かを判定する。8×8である場合、制御は機能ブロック375に移る。さもなければ、制御が機能ブロック370に移る。

0078

機能ブロック370は、サブマクロブロックの幾何学的なモードをチェックし、制御を機能ブロック375に移す。機能ブロック375は、最良のサブマクロブロックのモードを選択し、制御を終了ブロック399に移す。

0079

別の実施の形態では、16×16/8×8幾何学的なパーティションの判定の前に、最良及び第二の最良(利用可能である場合)のMPEG-4 AVC標準モードからの統計値が使用される。最良のMPEG-4 AVC標準のモードのRDcostが所定の閾値よりも小さい場合、第二の最良のMPEG-4 AVC標準のモードのRDcostが別の閾値よりも小さい場合、幾何学的なモードのテストがスキップされる。さもなければ、幾何学的なモードがテストされる。

0080

図4を参照して、近傍の情報に基づいた高速の幾何学的なモード判定の例示的な方法は、参照符号400により一般に示される。

0081

方法400は、開始ブロック405を含み、このブロックは、制御を機能ブロック410に移す。機能ブロック410は、上及び左のマクロブロックのモード判定をチェックし、制御を判定ブロック415に移す。判定ブロック415は、モード判定がスキップ又は16×16であるか否かを判定する。スキップ又は16×16である場合、制御は機能ブロック425に移る。さもなければ、制御は機能ブロック420に移る。機能ブロック420は、幾何学的なモードをチェックし、制御を機能ブロック425を移す。

0082

機能ブロック425は、幾何学的なモードがチェックされた場合、幾何学的なモードとMPEG-4 AVC標準からの最良のモードとの間で最良のモードを選択し、さもなければ、MPEG-4 AVC標準からの最良のモードを選択し、制御を終了ブロック499に移す。

0083

別の実施の形態では、第一のカテゴリの第一及び第二のサブカテゴリのアプローチ間の組み合わせが考慮され、この場合、閾値となるコスト基準及び最良の選択された基準の組み合わせが使用される。別の可能性のあるアプローチは、閾値の適合について条件つきのコンテクストとして、最良のモードと第二の最良のモードとの使用である。幾何学的なモードをスキップすること、又は幾何学的なモードをテストしないことについて判定の閾値は、最良及び第二の最良のMPEG-4 AVC標準のモードの組み合わせに依存して設定される。

0084

1.3.近傍の判定
MPEG-4 AVC標準は、ブロック符号化構造を使用する。オブジェクトがブロックの境界にクロスすることがある。このサブカテゴリでは、モード判定を高速にするために近傍の情報が利用される。

0085

空間的及び/又は時間的に近傍のマクロブロックのいずれも、所与の1以上のマクロブロック(たとえば、16×8,8×16,8×8,8×4)(又はサブブロック)を分割するモードを含まない場合、ある幾何学的モードとなるべき現在のマクロブロック(又はサブブロック)の最良のモードの可能性は低い。1実施の形態では、エンコーダは、左及び上の近傍のマクロブロックをチェックし、それらが共にスキップ又は16×16である場合、エンコーダは現在のマクロブロックにおける幾何学的なモードのテストをスキップする。さもなければ、幾何学的なモードがテストされる。別の実施の形態では、近傍及び現在の最良のMPEG-4 AVC標準のモードを考慮する結合された判定ルールが考慮される。

0086

図6Aを参照して、16×16幾何学的モードのモード判定につて例示的な方法は、参照符号600により一般的に示される。

0087

本方法600は、開始ブロック605を含み、このブロックは、制御を判定ブロック610に移す。判定ブロック610は、JBest,SecondBest16×16MODE<TBest,Second Best16×16MODEであるか否かを判定する。この場合Tは閾値である。上記が成り立つ場合、制御を機能ブロック615に移す。さもなければ、制御は機能ブロック620に移る。機能ブロック615は、次のマクロブロックにスキップし、制御を終了ブロック649に移す。機能ブロック620は、J16×16GEOを計算し、制御を終了ブロック649に移す。

0088

図6Bを参照して、8×8の幾何学的モードについてモード判定の例示的な方法は、参照符号650により一般的に示される。

0089

本方法650は、開始ブロック655を含み、このブロックは、制御を判定ブロック660に移す。判定ブロック660は、JBest,SecondBest8×8MODE<TBest,Second Best16×16MODEであるか否かを判定する。この場合Tは閾値である。上記が成り立つ場合、制御は機能ブロック665に移る。さもなければ、制御は機能ブロック670に移る。

0090

機能ブロック665は、次のマクロブロックにスキップし、制御を終了ブロック699に移す。機能ブロック670は、J8×8GEOを計算し、制御を終了ブロック699に移す。

0091

1.4.残差判定
残差のエネルギーは、所与のマクロブロックの予測品質インジケータとすることができる。現在のマクロブロックについて最良のMPEG-4 AVC標準のモードの残差のエネルギーが十分に低い場合、エンコーダは幾何学的なモードのテストをスキップすることができる。同様に、現在のサブマクロブロックについて最良のMPEG-4 AVC標準のサブマクロブロックモードの残差のエネルギーが低い場合、サブマクロブロックの幾何学的なモードのテストをスキップすることができる。1実施の形態では、残差の離散コサイン変換(DCT)係数の絶対和を使用して残差のエネルギーが計算される。

0092

図7を参照して、残差情報に基づいた高速の幾何学的なモード判定の例示的な方法は、参照符号700により一般に示される。

0093

本方法700は、開始ブロック705を含み、このブロックは、制御を機能ブロック710に移す。機能ブロック710は、最良のMPEG-4 AVC標準のモードの残差をチェックし、制御を判定ブロック715に移す。判定ブロック715は、残差のエネルギーが閾値Tよりも小さいか否かを判定する。小さい場合、制御を機能ブロック725に移す。さもなければ、制御を機能ブロック720に移す。機能ブロック720は、幾何学的なモードをチェックし、制御を機能ブロック725に移す。

0094

機能ブロック725は、幾何学的なモードがチェックされた場合、幾何学的なモードとMPEG-4 AVC標準からの最良のモードとの間で最良のモードを選択し、さもなければ、MPEG-4 AVC標準から最良のモードを選択し、制御を終了ブロック799に移す。

0095

1.5.動きベクトル判定
統計的に、動きのエッジが存在するときに幾何学的なモードの大部分が役に立つという事実のため(すなわち、バックグランドはより静的となる傾向にあり及び/又はグローバルな動きを有する)、フォアグランドは、バックグランドよりも幾何学的なモードを使用する傾向がある。空間的及び/又は時間的に近傍のマクロブロックをもつ最良のMPEG-4 AVC標準のモードの動きフィールド分析することで、エンコーダは、幾何学的なモードをスキップすることができるか否かを判定する。1実施の形態では、エンコーダは、最良のMPEG-4 AVC標準の動きベクトル及び近傍の動きベクトルの分散を計算する。この分散がある閾値よりも小さい場合、エンコーダは、幾何学的なモードのテストをスキップする。さもなければ、幾何学的なモードがテストされる。

0096

図8を参照して、動きベクトル情報に基づいた高速のモード判定の例示的な方法は、参照符号800により一般的に示される。

0097

本方法800は、開始ブロック805を含み、このブロックは、制御を機能ブロック810に移す。機能ブロック810は、最良のMPEG-4 AVC標準モードのマクロブロックと近傍のマクロブロックからの動きの分散を計算し、制御を判定ブロック815に移す。判定ブロック815は、この分散がある閾値よりも小さいか否かを判定する。小さい場合、制御は機能ブロック825に移る。さもなければ、制御は機能ブロック820に移る。

0098

機能ブロック820は、幾何学的なモードをチェックし、制御を機能ブロック825に移す。機能ブロック825は、幾何学的なモードとMPEG-4 AVC標準からの最良のモードとの間で最良のモードを選択し、さもなければ、MPEG-4 AVC標準から最良のモードを選択し、制御を終了ブロック899に移す。

0099

2.幾何学的なパーティションモードによる高速ウェッジ選択
このカテゴリでは、1つの目的は、幾何学的なパーティションモードについてサーチする必要がある可能なパーティションの数を低減することである。目的は、サーチスペースを低減し、最適化アルゴリズム及び最良の符号化モード検索及び/又は幾何学的なパーティションが極小値トラップされる機会を最小にすることである。この第二のカテゴリの下でのアプローチは、以下の2つのカテゴリに分けられる。(1)予測に基づくアルゴリズム、及び(2)階層的なサーチ
2.1 予測のアルゴリズム
予測のアルゴリズムは、以下の3つのステップを主に含むことが考慮される。(1)最初の予測子の選択は、潜在的に可能性のあるウェッジのセットから最良のウェッジを選択する。(2)適応的な早期の終了により、幾つかのルールが満たされる場合、所与のステージでのサーチの終了が可能となる。及び(3)予測のリファインメントは、最終的な予測を改善するために最良のウェッジの予測子の周りでリファインメントパターンを利用する。先行する3つのステップは、個々に実行されるか又は一緒に実行される。

0100

2.1.1予測子の選択
目的は、最も可能性のあるウェッジを発見するために予め計算された情報を利用することである。予測子を以下の3つのグループに分割する。(1)空間的及び/又は時間的な相関に基づく予測子、(2)利用可能な場合に最良のMPEG-4 AVC標準に基づく予測子、及び(3)固定された予測子のグリッド

0101

第一のグループ、すなわち空間及び/時間相関に基づいた予測子に関して、空間的な近傍のウェッジ及び/又は時間的な近傍のウェッジからウェッジのパーティション(又はウェッジ)、及び/又はそれらのウェッジの幾つかの機能を拡張し、予測子としてそれらを使用する。

0102

第二のステップ、すなわち利用可能な場合に最良のMPEG-4 AVC標準のインターモードに基づく予測子に関して、最適な幾何学的なモードと最良のMPEG-4 AVC標準のインターモードとの間の強い相関があることが観察される(たとえば、重要な水平方向による任意の幾何学的なパーティションが実際に最良の可能性のあるパーティションモードである場合、16×8モードは、第二の最良のモードとなる可能性がある)。

0103

第三のグループ、すなわち固定された予測子のグリッドに関して、最適化が極小値にトラップされる状況を回避するため、更なる予測子をテストすることができる。より詳細には、予測の中央の周りで同程度又はそれ以上に密に配置された予測子のセットを設計することができる。1実施の形態では、Δρ’=2Δρ及びΔθ’=4Δθにより固定されたサーチ予測子を設定することができる。なお、全ての上記予測子が必ずしも全てのケースにおけるものではない。特定の条件が満たされた否かに依存して、幾つかの予測子を適応的にディスエーブルイネーブルすることができる。

0104

2.1.2適応的な早期終了
隣接ブロックの符号化コストは非常に相関される傾向があることがシミュレーションから認識される。これに基づいて、ある閾値が設定され、サーチアルゴリズムは、現在のブロックの符号化コストが係る閾値にクロスする場合に早期に停止することができる。これにより、計算上の複雑さを大幅に低減することができる。2つのタイプの閾値を設計することができる。1つのタイプの閾値は、予測子のセットから最適又は準最適なウェッジを選択するために使用される。別のタイプの閾値は、幾何学的モードが最良のモードとして最終的に選択されるか否かを判定するために使用される。この閾値は、空間的/時間的な近傍のマクロブロックのRDcost、及び/又は利用可能な場合、最良のMPEG-4 AVC標準モードのRDcostを使用して設計される。

0105

1つの実施の形態は、以下のように実現される。全ての空間的/時間的/MPEG-4 AVC標準の予測子をテストした後、RDcostが所定の閾値T0よりも小さいかがチェックされる。小さい場合、停止して、最良の予測子を幾何学的なモードの最終的なウェッジとして選択する。さもなければ、固定された予測子がテストされる。RDcost(又は符号化コスト)がT1よりも小さい場合、停止し、最良の予測子を幾何学的なモードの最終的なウェッジとして選択する。さもなければ、RDcostがT2よりも大きいかがテストされる。大きい場合、停止し、MPEG-4 AVC標準の最良のモードをマクロブロックの最良のモードとして設定する。さもなければ、最良のウェッジの候補がリファインされる。

0106

2.1.3予測のリファインメント
ウェッジのサーチは、最良の予測子で局在するインタラクティブサーチパターンを使用することで更にリファインされる。高速な動き予測から全てのサーチパターンが適用される。1実施の形態では、たとえばダイアモンドサーチに類似するようにサーチパターンが定義される。最良の予測子は(ρ0,θ0)であるとする。

0107

ステップ1:サーチスペース内でρ=ρ0±Δρ及びθ=θ0±θでペアをなす全てのウェッジをテストする。
ステップ2:最小のRDcostをもつウェッジが(ρ0,θ0)である場合、停止する。さもなければ、(ρ0,θ0)を最小のRDcostをもつウェッジに設定することでステップ1に進む。

0108

極小値にトラップされるのを回避するため、第二又は第三の最良の予測子で予測のリファインメントが適用される。また、パラメータスペースの密であって良好な収束のために六角形のサーチを適用することができる。勿論、本発明は、ダイアモンド及び六角形のサーチにのみ限定されず、したがって、本発明の精神を維持しつつ、他のタイプのサーチが使用される。

0109

図9を参照して、高速の予測ウェッジの選択の例示的な方法は、参照符号900により一般的に示される。

0110

本方法900は、開始ブロック905を含み、このブロックは、制御を機能ブロック910に移す。機能ブロック910は、ウェッジ予測子のセットを選択し、制御を機能ブロック915に移す。機能ブロック915は、空間的/時間的な予測子及びMPEG-4 AVC標準のインターモード予測子からの最良のウェッジを選択し、制御を判定ブロック920に移す。判定ブロック920は、最良の予測子のRDcostが閾値T0よりも小さいか否かを判定する。小さい場合、制御を機能ブロック950に移す。さもなければ、制御は機能ブロック925に移る。

0111

機能ブロック925は、固定された予測子のグリッドをテストし、制御を判定ブロック930に移す。判定ブロック930は、最良の予測子のRDcostが閾値T1よりも小さいかを判定する。小さい場合、制御は機能ブロック950に移る。さもなければ、制御は判定ブロック935に移る。

0112

判定ブロック935は、最良の予測子のRDcostが閾値T2よりも大きいかを判定する。大きい場合、制御は機能ブロック940に移る。さもなければ、制御は判定ブロック945に移る。

0113

機能ブロック945は、予測子のリファインメントを実行し、制御を機能ブロック950に移す。機能ブロック950は、幾何学的モードで最良のウェッジを設定し、制御を機能ブロック955に移す。機能ブロック955は、幾何学的なモードとMPEG-4 AVC標準との間で最良のモードを選択し、制御を終了ブロック999に移す。

0114

2.2 階層的サーチ
実施の形態では、階層的なウェッジのサーチが適用される。階層的なウェッジのサーチは、ウェッジパラメータからなる階層的なピラミッド構築することを含む。(2.1.3予測のリファインメント)におけるフルサーチ又は高速サーチパターンは、最良のウェッジを発見するために最小の画像の解像度でピラミッドの上位レベルではじめに実行される。次いで、ピラミッドの最低レベル原画像の解像度に到達するまで、ウェッジはリファインされる。別の実施の形態では、パーティションのパラメータに関するピラミッドのサーチは、オリジナルの解像度の画像に適用することができる。これは、パーティションを定義するパラメータは、アルゴリズムのそれぞれのステージでパーティションのパラメータの解像度を改善する(2倍にする)ことで、階層的なやり方で繰り返し定義されることを意味する。

0115

図10を参照して、階層的なサーチを使用した高速のウェッジ選択の例示的な方法は、参照符号1000により一般に示される。

0116

本方法1000は、開始ブロック1005を含み、このブロックは制御を機能ブロック1010に移す。機能ブロック1010は、階層的なパラメータのピラミッドを構築し、制御を機能ブロック1015に移す。機能ブロック1015は、ピラミッドの最高レベルにおける最良のウェッジについてフルサーチ/高速サーチを実行し、制御を機能ブロック1020に移す。機能ブロック1020は、ピラミッドの最高レベルから最低レベルにウェッジをリファインし、制御を機能ブロック1025に移す。機能ブロック1025は、幾何学的なモードについて最良のウェッジを選択し、制御を機能ブロック1030に移す。機能ブロック1030は、幾何学的なモードとMPEG-4 AVC標準モードとの間で最良のモードを選択し、制御を終了ブロック1099に移す。

0117

図11を参照して、高速の幾何学的モードとウェッジ選択の例示的な方法は、参照符号1100により一般に示される。

0118

本方法1100は、開始ブロック1105を含み、制御を機能ブロック1110に移す。機能ブロック1110は、MPEG-4 AVC標準モードをテストし、制御を判定ブロック1115に移す。判定ブロック1115は、幾何学的モードのチェックをスキップすることができるかをチェックするため、高速モード判定を適用するか否かを判定する。適用する場合、制御を機能ブロック1120に移す。さもなければ、制御を機能ブロック1125に移す。

0119

機能ブロック1120は、MPEG-4 AVC標準モードを最良のモードとして選択し、制御を終了ブロック1199に移す。機能ブロック1125は、幾何学的モードにおいて最良のウェッジを発見するために高速ウェッジ選択を適用し、制御を機能ブロック1130に移す。機能ブロック1130は、幾何学的モードとMPEG-4 AVC標準との間で最良のモードを選択し、制御を終了ブロック1199に移す。

0120

3.幾何学的パーティション及び予測データの代替的な最適化による高速ウェッジ選択
高速の結合された予測−パーティションパラメータの検索の別のアプローチは、代替的な最適化の方式の使用である。代替的な最適化の使用に関連する実施の形態では、エンコーダは、ウェッジパーティションのパラメータを固定しているパーティションについて最良の予測をサーチし、次いで、その後のステップで、エンコーダは、そのポイントまで検索されたパーティションについて最良の予測子を固定し、それぞれのステップで歪み及び/又は符号化コストの測定値が最小にされるようにウェッジのパーティションのパラメータを最適化する。このプロセスは、繰り返し回数による最適化の改善に関する予め固定された値及び測定値の少なくとも1つに依存して所与の回数で実行される。第一の繰り返しのために使用される最初の設定は係るアプローチの最終的な結果に著しく影響することを理解されたい。別の実施の形態では、幾何学的なパーティションと予測データとの交互に行われる最適化のための幾つかの初期条件がテストされる。

0121

初期条件は、幾何学的なパーティションのパラメータ及び/又は予測データのパラメータに適用される。初期条件は、限定されるものではないが、以下の1以上を含む。ウェッジのパーティションのパラメータスペースに関するプレフィックスサンプリング、周囲の近傍に関する利用可能なデータに基づくウェッジパーティションのパラメータの予測、インター予測の高速動きサーチ、及び動き予測。

0122

図12を参照して、高速の交互の予測/パーティションのパラメータの最適化の例示的な方法は、参照符号1200により一般に示される。図12の方法1200は、本発明の精神を維持しつつ、1以上の先に記載されたアプローチと組み合わせて使用される。

0123

本方法1200は、開始ブロック1205を含み、このブロックは、制御を機能ブロック1210に移す。機能ブロック1210は、幾何学的パラメータとパーティションの予測について最初の推測を設定し、制御をループ制限ブロック1215に移す。ループ制限ブロック1215は、N回の繰り返しを通してループを設定し、制御を機能ブロック1220に移す。機能ブロック1220は、パーティションの予測のパラメータを保持し、制御を機能ブロック1225に移す。機能ブロック1225は、全ての可能性(又はそのサンプリング)を通して最良の幾何学的なパラメータのループを発見し、制御を機能ブロック1230に移す。機能ブロック1230は、新たな幾何学的なパーティションのパラメータを設定し、制御を機能ブロック1235に移す。機能ブロック1235は、幾何学的なパーティションのパラメータを保持し、制御を機能ブロック1240に移す。機能ブロック1240は、全ての可能性(又はそのサンプリング)を通した最良のパーティションの予測パラメータのループを発見し、制御を機能ブロック1245に移す。機能ブロック1245は、新たなパーティションの予測パラメータを設定し、制御を判定ブロック1250に移す。判定ブロック1250は、安定状態の最適化に到達したか否かを判定する。到達した場合、制御を機能ブロック1260に移す。さもなければ、制御をループ制限ブロック1255に移す。

0124

ループ制限ブロック1255は、N回の繰り返しを通して終了し、制御を機能ブロック1260に移す。機能ブロック1260は、最良のパーティションエッジ及びパーティションパラメータを保存し、制御を終了ブロック1299に移す。

0125

本発明の付随する利点/特徴の幾つかに関する記載が与えられ、そのうちの幾つかは上述された。たとえば、1つの利点/特徴は、幾何学的なモデルに基づくパーティションモードを使用した限定的な幾何学的なモード判定を実行するステップを含む方法である。実行するステップは、幾何学的なモデルに基づく分割モードと非幾何学的な分割モードとの間の相関及び依存性の少なくとも1つに基づいて、幾何学的なモデルに基づく分割のモードのテストをスキップするステップを含む。

0126

別の利点/特徴は、上述された方法であり、ここで、限定的な幾何学的なモード判定は、非幾何学的なモードの情報、早期停止の閾値、近傍の情報、残差の情報及び動きベクトルの情報の少なくとも1つを使用する。

0127

更に別の利点/特徴は、情報された方法であり、ここで、早期停止の閾値は、量子化パラメータ、空間的に隣接するレートと歪みのコスト、及び時間的に隣接するレートと歪みのコストの少なくとも1つに対応する。

0128

さらに、別の利点/特徴は、幾何学的なモデルに基づく分割のモードを使用した限定的な幾何学的なパラメータの選択を実行するステップを含む方法である。実行するステップは、予測的なサーチ及び階層的なサーチの少なくとも1つを適用するステップを含む。予測的なサーチは、最初の予測子の選択、適応的な早期の終了、及び予測子のリファインメントの少なくとも1つを含む。

0129

さらに、別の利点/特徴は、上述された方法であり、ここで、最初の予測子の選択は、空間的な相関に基づく予測子、時間的な相関に基づく予測子、所与の符号化標準又は所与の符号化勧告の最良のインターモードに基づく予測子、及び固定された予測子のグリッドの少なくとも1つをイネーブルにする。

0130

また、別の利点/特徴は、幾何学的なモデルに基づく分割のモードを使用した画像のビデオ信号データをエンコードするステップを含む方法である。エンコードするステップは、画像の少なくとも1部について幾何学的なパーティションのパラメータと予測データの交互に行われる最適化を使用してビデオ信号データをエンコードする。

0131

本発明のこれらの特徴及び利点、並びに他の特徴及び利点は、本明細書での教示に基づいて当業者により容易に確かめられる。本発明の教示は、ハードウェア、ソフトウェア、ファームウェア、特定用途プロセッサ又はその組み合わせの様々な形式で実現される。

0132

より詳細には、本発明の教示は、ハードウェアとソフトウェアの組み合わせとして実現される。さらに、ソフトウェアは、プログラムストレージユニットで実施されるアプリケーションプログラムとして実現される。アプリケーションプログラムは、適切なアーキテクチャを有するコンピュータにアップロードされ、実行される。好ましくは、コンピュータは、1以上の中央処理装置(CPU)、ランダムアクセスメモリ(RAM)、及び入力/出力(I/O)インタフェースのようなハードウェアを有するコンピュータプラットフォームで実現される。コンピュータプラットフォームは、オペレーティングシステム及びマイクロ命令コードを含む。本明細書で記載される様々なプロセス及び機能は、CPUにより実行される場合がある、マイクロ命令コードの一部又はアプリケーションプログラムの一部、或いはそれらの組み合わせの何れかである場合がある。さらに、様々な他の周辺ユニットは、更なるデータストレージユニット及びプリンティングユニットのようなコンピュータプラットフォームに接続される。

0133

添付図面に示される構成要素となるコンポーネント及び方法のうちの幾つかはソフトウェアで実現されることが好ましく、システムコンポーネント又はプロセス機能ブロック間の実際のコネクションは、本発明がプログラムされるやり方に依存して異なる場合があることを理解されたい。本明細書の教示が与えられると、当業者であれば、本発明のこれら及び類似の実現又はコンフィギュレーションを考えることができる。

0134

例示的な実施の形態は添付図面を参照して本明細書に記載されたが、本発明はそれら正確な実施の形態に限定されるものではなく、様々な変形及び変更が本発明の範囲又は精神から逸脱することなしに当業者により実施される場合があることを理解されたい。係る変形及び変更は、特許請求の範囲に述べられるように本発明の範囲に含まれる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ