図面 (/)

技術 復号化されたピクチャのバッファおよび基準ピクチャのリストのための状態情報の信号化

出願人 マイクロソフトテクノロジーライセンシング,エルエルシー
発明者 サリヴァン,ゲリージェイウー,ヨンジュン
出願日 2012年11月6日 (8年8ヶ月経過) 出願番号 2014-540201
公開日 2015年1月8日 (6年6ヶ月経過) 公開番号 2015-501098
状態 特許登録済
技術分野 TV信号の圧縮,符号化方式
主要キーワード 補助処理装置 特性群 適合性検査 革新技術 例示的実装形態 時間スケーリング 現在マーク SB値
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年1月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題・解決手段

復号化されたピクチャバッファ(「DPB」)および基準ピクチャリスト(「RPL」)の状態を信号化するための革新的な技術が開示される。例示的実装形態では、DPBおよびRPLを管理し更新するためにデコーダ内部状態に依存するのではなく、DPBおよびRPLについての状態情報は、明示的に信号化される。このことは、信号化された状態情報から参照するためにどのピクチャが利用可能であると予想されるかをデコーダが決定することを可能とする。例えば、エンコーダは、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを示す状態情報を(必要に応じてどのピクチャが利用可能であるかについてのデコーダからのフィードバック情報を考慮して)決定する。エンコーダは、状態情報を表すシンタックス要素を設定する。こうすることで、エンコーダは、長期間にわたって参照される基準ピクチャ(「LTRP」)についての識別情報を設定する。ここで、識別情報は、LTRBについてのピクチャ・オーダカウント最下位ビットの値である。次いで、エンコーダは、ビットストリームの一部として、シンタックス要素を出力する。

概要

背景

技術者達は、圧縮情報源コード化(source coding)または情報源の符号化(source encoding)とも呼ばれる)を使用して、デジタルビデオビットレートを削減する。圧縮により、低ビットレートの形に情報を変換することによって、ビデオ情報の記憶および送信のコストを減少させる。逆圧縮処理復号化処理とも呼ばれる)により、圧縮された形から元の情報の一バージョン再構築される。「コーデック」は、エンコーダデコーダ・システムである。

ここ20年の間に、H.261、H.262(MPEG−2またはISO/IEC13818−2)、H.263およびH.264(AVCまたはISO/IEC14496−10)標準、ならびにMPEG−1(ISO/IEC11172−2)、MPEG−4Visual(ISO/IEC14496−2)、およびSMPTE421M標準を含む、様々なビデオ・コーデック標準規格が採用されてきた。近年は、HEVC標準が開発中である。ビデオ・コーデック標準規格は、一般的に、特有の機能が符号化および復号化に使用される場合のビットストリーム中のパラメータを詳述するために、符号化されたビデオのビット・ストリームのシンタックスについてのオプションを規定する。多くの場合、ビデオ・コーデック標準規格はまた、デコーダが復号化処理において正しい結果を達成するために実行すべき、復号操作についての詳細も提供する。

圧縮処理の基本的な目的は、良好なレー歪み性能を提供することである。したがって、特定のビットレートの場合は、エンコーダは、最高品質のビデオを提供しようとする。または、元のビデオに対して特定レベル品質忠実度を提供しようとする場合には、エンコーダは、最も低いビットレートで符号化されたビデオを提供しようとする。実際には、ビデオ圧縮処理が使用される具体的なシナリオに応じて、符号化時間、符号化の複雑さ、符号化リソース復号化時間、復号化処理の複雑さ、復号化リソース、全体的な遅延量、情報損失からの復旧能力、および/または再生時のビデオ映像の滑らかさなどの考慮事項もまた、符号化処理および復号化処理の間になされる判断に影響する。

一般的に、ビデオ・エンコーダまたはビデオ・デコーダは、以前に復号化されることにより再構築されたピクチャバッファリングし、当該ピクチャは、ビデオ・エンコーダまたはビデオ・デコーダが他のピクチャを符号化または復号化する際に使用することができる。上記のように再構築されバッファリングされたピクチャは、基準ピクチャと呼ばれることが多い。あるビデオ・コーデック標準規格は、どの基準ピクチャがバッファリングされるか、およびどの基準ピクチャがもはや参照のために使用されないか否かを管理し更新するための精巧な規則を記載している。このことは、どの基準ピクチャが使用されるについて良好な判断を行うことによりエンコーダに圧縮効率を改善する余地を持たし得るが、基準ピクチャを管理し更新する処理過程は、エンコーダおよびデコーダの構造を複雑化することになる。さらに、デコーダは、その基準ピクチャ・バッファの状態および基準ピクチャのリストを追跡し更新するために、符号化されたビデオ・データのビット・ストリーム中の様々な情報を使用する。(例えば、パケットの損失または破損による)ビットストリームからの情報の損失は、その基準ピクチャ・バッファおよび/または基準ピクチャのリストについてのデコーダの内部状態予想された状態から逸脱し、それ以降、デコーダが適切な基準ピクチャを使用しないようになる場合、かなりの時間にわたって復号化処理にとって有害な影響を及ぼし得る。

概要

復号化されたピクチャのバッファ(「DPB」)および基準ピクチャのリスト(「RPL」)の状態を信号化するための革新的な技術が開示される。例示的実装形態では、DPBおよびRPLを管理し更新するためにデコーダの内部状態に依存するのではなく、DPBおよびRPLについての状態情報は、明示的に信号化される。このことは、信号化された状態情報から参照するためにどのピクチャが利用可能であると予想されるかをデコーダが決定することを可能とする。例えば、エンコーダは、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを示す状態情報を(必要に応じてどのピクチャが利用可能であるかについてのデコーダからのフィードバック情報を考慮して)決定する。エンコーダは、状態情報を表すシンタックス要素を設定する。こうすることで、エンコーダは、長期間にわたって参照される基準ピクチャ(「LTRP」)についての識別情報を設定する。ここで、識別情報は、LTRBについてのピクチャ・オーダカウント最下位ビットの値である。次いで、エンコーダは、ビットストリームの一部として、シンタックス要素を出力する。b

目的

多くの場合、ビデオ・コーデック標準規格はまた、デコーダが復号化処理において正しい結果を達成するために実行すべき、復号操作についての詳細も提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ビデオエンコーダ実装する計算機システムであって、基準ピクチャとして使用するためにどのピクチャ利用可能であるかを特定する状態情報を決定するステップと、前記状態情報を表すシンタックス要素を設定するステップであって、長期間にわたる基準ピクチャ(LTRP)についての識別情報を設定するステップを含み、前記LTRPについての前記識別情報が前記LTRBについてのピクチャ・オーダカウント最下位ビット(POCLSB)の値である、ステップと、ビットストリームの一部として前記シンタックス要素を出力するステップと、を含む方法を実行するように構成された計算機システム。

請求項2

前記方法が、LTRPについての状態情報をシーケンスのピクチャに関する前記ビットストリーム中に含めるか否かを決定するステップと、シーケンス・パラメータ・セットの一部として、LTRPについての前記状態情報が前記シーケンスの前記ピクチャに関する前記ビットストリーム中に存在するか否かを示すフラグを出力するステップと、をさらに含む、請求項1に記載の計算機システム。

請求項3

基準ピクチャとして使用するために利用可能である前記ピクチャが、短期間にわたる基準ピクチャ(STRP)を含み、前記方法が、前記STRBに対するPOCLSBの値として前記LTRBに対するPOCLSBの前記値を再利用するステップと、前記LTRPと前記STRPとを区別するために長期間にわたる参照のために使用される前記LTRBに対してマーク付けするステップと、をさらに含む、請求項1に記載の計算機システム。

請求項4

前記方法が、LTRBについてのPOCLSBの値に関して使用するためにPOCLSBに関するビット数を設定するステップと、POCLSBに関する前記ビット数を示すシンタックス要素を出力するステップと、をさらに含む、請求項1に記載の計算機システム。

請求項5

ビデオ・デコーダを実装する計算機システムにおける方法であって、ビットストリームの少なくとも一部を受信するステップと、前記ビットストリームからシンタックス要素を解析するステップであって、前記シンタックス要素が、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する状態情報を表し、長期間にわたる基準ピクチャ(LTRP)についての識別情報を含み、前記LTRPについての前記識別情報が、前記LTRBについてのピクチャ・オーダ・カウントの最下位ビット(POCLSB)の値である、ステップと、復号化処理の実行中において前記識別情報を使用するステップと、を含む方法。

請求項6

シーケンス・パラメータ群から、一連ピクチャ系列についての前記ビットストリーム中においてLTRPについての状態情報が存在するか否かを示すフラグを解析するステップをさらに含む、請求項5に記載の方法。

請求項7

基準ピクチャとして使用するために利用可能である前記ピクチャが、短期間にわたる基準ピクチャ(STRP)を含み、前記方法が、前記STRPについてのPOCLSBの値として前記LTRBについての前記POCLSBの値を再利用するステップと、前記LTRPと前記STRPとを区別するために長期間にわたる参照のために使用される前記LTRBに対してマーク付けするステップと、をさらに含む、請求項5に記載の方法。

請求項8

LTRBについてのPOCLSBの値に使用するためにPOCLSBについてのビット数を示すシンタックス要素を解析するステップと、前記LTRPに関する前記識別情報を解析する際に、POCLSBについての前記ビット数を使用するステップと、をさらに含む、請求項5に記載の方法。

請求項9

プログラムされた計算機システムに方法を実行させるためのコンピュータ実行可能命令を記憶する1つまたは複数のコンピュータ読取り能記媒体であって、前記方法が、ビットストリームの少なくとも一部を受信するステップと、前記ビットストリームからシンタックス要素を解析するステップであって、前記シンタックス要素が、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する状態情報を表し、前記シンタックス要素が長期間にわたる基準ピクチャ(LTRP)についての識別情報を含み、前記LTRPについての前記識別情報が、前記LTRBについてのピクチャ・オーダ・カウントの最下位ビット(POCLSB)の値である、ステップと、復号化処理の実行中において、前記識別情報を使用するステップと、を含む、1つまたは複数のコンピュータ読取り可能記憶媒体。

請求項10

ビデオ・エンコーダ、ビデオ・デコーダ、音声入力装置スピーカ、ビデオ・キャプチャ構成要素ディスプレイ、および通信接続を備える実時間通信ツールであって、ビットストリーム中の状態情報を表すシンタックス要素を処理するように構成されており、前記状態情報が、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを示し、前記シンタックス要素が長期間にわたる基準ピクチャ(LTRP)についての識別情報を含み、前記LTRPについての前記識別情報が、前記LTRBについてのピクチャ・オーダ・カウントの最下位ビット(POCLSB)の値である、実時間通信ツール。

背景技術

0001

技術者達は、圧縮情報源コード化(source coding)または情報源の符号化(source encoding)とも呼ばれる)を使用して、デジタルビデオビットレートを削減する。圧縮により、低ビットレートの形に情報を変換することによって、ビデオ情報の記憶および送信のコストを減少させる。逆圧縮処理復号化処理とも呼ばれる)により、圧縮された形から元の情報の一バージョン再構築される。「コーデック」は、エンコーダデコーダ・システムである。

0002

ここ20年の間に、H.261、H.262(MPEG−2またはISO/IEC13818−2)、H.263およびH.264(AVCまたはISO/IEC14496−10)標準、ならびにMPEG−1(ISO/IEC11172−2)、MPEG−4Visual(ISO/IEC14496−2)、およびSMPTE421M標準を含む、様々なビデオ・コーデック標準規格が採用されてきた。近年は、HEVC標準が開発中である。ビデオ・コーデック標準規格は、一般的に、特有の機能が符号化および復号化に使用される場合のビットストリーム中のパラメータを詳述するために、符号化されたビデオのビット・ストリームのシンタックスについてのオプションを規定する。多くの場合、ビデオ・コーデック標準規格はまた、デコーダが復号化処理において正しい結果を達成するために実行すべき、復号操作についての詳細も提供する。

0003

圧縮処理の基本的な目的は、良好なレー歪み性能を提供することである。したがって、特定のビットレートの場合は、エンコーダは、最高品質のビデオを提供しようとする。または、元のビデオに対して特定レベル品質忠実度を提供しようとする場合には、エンコーダは、最も低いビットレートで符号化されたビデオを提供しようとする。実際には、ビデオ圧縮処理が使用される具体的なシナリオに応じて、符号化時間、符号化の複雑さ、符号化リソース復号化時間、復号化処理の複雑さ、復号化リソース、全体的な遅延量、情報損失からの復旧能力、および/または再生時のビデオ映像の滑らかさなどの考慮事項もまた、符号化処理および復号化処理の間になされる判断に影響する。

0004

一般的に、ビデオ・エンコーダまたはビデオ・デコーダは、以前に復号化されることにより再構築されたピクチャバッファリングし、当該ピクチャは、ビデオ・エンコーダまたはビデオ・デコーダが他のピクチャを符号化または復号化する際に使用することができる。上記のように再構築されバッファリングされたピクチャは、基準ピクチャと呼ばれることが多い。あるビデオ・コーデック標準規格は、どの基準ピクチャがバッファリングされるか、およびどの基準ピクチャがもはや参照のために使用されないか否かを管理し更新するための精巧な規則を記載している。このことは、どの基準ピクチャが使用されるについて良好な判断を行うことによりエンコーダに圧縮効率を改善する余地を持たし得るが、基準ピクチャを管理し更新する処理過程は、エンコーダおよびデコーダの構造を複雑化することになる。さらに、デコーダは、その基準ピクチャ・バッファの状態および基準ピクチャのリストを追跡し更新するために、符号化されたビデオ・データのビット・ストリーム中の様々な情報を使用する。(例えば、パケットの損失または破損による)ビットストリームからの情報の損失は、その基準ピクチャ・バッファおよび/または基準ピクチャのリストについてのデコーダの内部状態予想された状態から逸脱し、それ以降、デコーダが適切な基準ピクチャを使用しないようになる場合、かなりの時間にわたって復号化処理にとって有害な影響を及ぼし得る。

先行技術

0005

「Absolute Signaling of Reference Pictures」という名称文書JCTVC−F493
「WD4: Working Draft 4 of High−Efficiency Video Coding」という名称の文書JCTVC−F803_dl_Buffer_Description_r0
「WD4: Working Draft 4 of High−Efficiency Video Coding」という名称の文書JCTVC−F803_dl_Buffer_Descriptions_display_process_suggestion_r1

課題を解決するための手段

0006

要約すれば、本明細書の詳細な説明は、復号化ピクチャ・バッファ(「DPB」)および基準ピクチャ・リストの状態を信号化するための革新的な技術を提供している。本革新的な技術は、DPBおよび基準ピクチャ・リスト(「RPL」)管理のための状態情報の信号化に関連したビットレートを削減し、様々な他の点でDPB管理および/またはRPL管理を改善することができて、しかも状態に影響を与える情報の損失に対する頑健性を提供する。

0007

本発明においては、DPBおよびRPLを管理し更新するためにデコーダの内部状態に依存するのではなく、DPBおよびRPLについての状態情報が、明示的に信号化される。このことは、参照先のピクチャとして、どのピクチャが現在利用可能であるかを特定する信号化された状態情報から、DPB内で参照先としてどのピクチャが利用可能であると予想されているかをデコーダが決定することを可能とする。このような状態情報は、バッファ記述リスト(「BDL」)情報と呼ばれ得るもので、一般的にDPBおよび/またはRPLを明確に示す任意の形式の情報を指す。

0008

本明細書に記載された革新的な技術は、以下のものを含むが、これらに限定されない。
・BDL情報中の基準ピクチャ毎の未来参照フラグ(future reference flag)を使用すること。ここで、当該未来参照フラグは、基準ピクチャが(BDL情報に関連した)現在のピクチャの復号化のためのみに使用される、またはその代わりに、コード化が実行される順序において少なくとも1つの後続のピクチャの復号化に使用されるか否かを示す。本フラグの使用は、DPB内にさらなる基準ピクチャの記憶を可能とすることができる。
・未来参照フラグ使用のためにオンオフ判定フラグを使用すること。例えば、オン/オフ判定フラグは、シーケンス・パラメータ・セット(「SPS」)の一部として信号化され、BDL情報中の未来参照フラグの有/無を示すことができる。このことは、BDL情報中の未来参照フラグを使用するかしないかをエンコーダが決定可能とする。
高位時間レイヤ(higher temporal layer)と関連したピクチャに対するBDL情報において、参照のために使用されないように、低位時間レイヤ内の1つまたは複数のピクチャにマーク付けするために基準ピクチャに情報をマーク付けすることを可能とすること。このような所作は、実際には珍しいであろうが、ある種のシナリオにおいては、高位時間レイヤ内のピクチャに対する基準ピクチャ管理のためにこのような選択肢を可能とすることは有用であり得る。しかも、後続のBDL情報が、高位時間レイヤにおけるピクチャに対するBDL情報を持つ以前に取り除かれた基準ピクチャに対する状態情報を欠いている場合、デコーダは、このような基準ピクチャが除去された可能性を推測することができる。
・BDL情報中の高位時間レイヤのピクチャ毎高位レイヤピクチャ指定フラグを使用すること。ここで、高位レイヤのピクチャ指定フラグは、BDL情報のために高位時間レイヤに関係しているものとしてピクチャを指定する。多くのシナリオでは、高位時間レイヤのピクチャは、基準ピクチャとしてはわずかであるか、または全く使用されていないし、DPBの管理および更新の処理過程は、このようなピクチャに対して簡単化され得る。BDL情報が、高位時間レイヤのピクチャに対して少しでも使用される場合、BDL情報中のピクチャ毎の簡単なフラグが、高位時間レイヤに関連しているものとしてピクチャを指定するのに十分であり得る。ここで、DPBを管理し更新する動作は、推測される。
・BDL情報中の高位時間レイヤのピクチャについての状態情報を含めるためのオン/オフ判定フラグを使用すること。例えば、オン/オフ判定フラグは、SPSの一部として信号化され、BDL情報中の高位時間レイヤのピクチャについての状態情報の有/無を示すことができる。
・BDL情報は、適応スライス・パラメータ・セット(「APS」)レベルにおいて信号化され得る。単一のBDL情報のセットは、APSと関連している。
・BDL情報中の長期にわたる基準ピクチャ(「LTRP」)に関する状態情報の信号化を簡単化すること。LTRPは、ビデオ符号化およびビデオ復号化にとって有用な設計要素を提供するが、BDL情報中のLTRPの管理および更新のための計算は、克服すべき課題を提起する。特に、長時間にわたってDPB内に留まるLTRPについて、LTRPに関する情報を特定することの信号化は、多数のビットを消費し、ビットストリームの解析および復号化において処理するための特殊な状況を生み出し得る。BDL情報中のLTRPに対する様々な形の簡単化されたシンタックスが、本明細書で提案され、これらは、LTRPの状態情報に関するビットレートを削減し、DPB管理を簡単化する。例えば、BDL情報中のピクチャに対するLTRPフラグは、DPB管理のためのLTRPであるものとしてピクチャにマーク付けする。
・BDL情報中のLTRPについての状態情報を含めることに対するオン/オフ判定フラグを使用すること。例えば、オン/オフ判定フラグは、SPSの一部として信号化され、BDL情報中のLTRPについての状態情報の有/無を示すことができ、このフラグは、エンコーダがLTRPを使用しないと決定した場合に、BDL情報の信号化を簡単化する。
・BDL情報中のLTRPを特定するために使用されるビット数を削減すること。多くの使用シナリオでは、基準ピクチャ(およびLTRP)の数は少なく、LTRPを特定するためには少数のビットで十分である。エンコーダは、他の使用シナリオについてLTRPを特定するために使用されるビット数を増加させることができる。
・RPLの構築のために使用された順序でBDL情報を編成すること。このことは、RPL構築のためのシンタックスを簡単化する。
・ピクチャ・オーダカウント(「POC」)値内のギャップ許容されるか否かを信号化すること。例えば、SPS中のフラグは、POC値内のギャップが許容されるか否かを示す。ギャップが許容されない場合、デコーダは、POC値が失われていると決定する際にピクチャの損失を認識することができ、デコーダは、POC値に基づく出力の準備ができているピクチャについて決定を行うことができる。
・BDL情報中のシンタックス要素は、符号なし指数ゴロム・コード化の代わりに短縮された指数ゴロム・コード化(すなわち、te(v))を使用して符号化され得る。このことは、とりうる値の数が少ないシンタックス要素にとってより効率的である。

0009

本明細書に記載の革新的な技術のある態様によれば、計算機システムは、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する状態情報を決定する。計算機システムは、状態情報を表すシンタックス要素を設定する。特に、設定を行う場合、計算機システムは、LTRPのための識別情報を設定する。ここで、識別情報とは、LTRBに対するPOC最下位ビット(「POC LSB」)の値である。次いで、計算機システムは、ビットストリームの一部としてシンタックス要素を出力する。

0010

本明細書に記載の革新的な技術の別の態様によれば、計算機システムは、ビット・ストリームの少なくとも一部を受信する。このビット・ストリームから、計算機システムは、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する状態情報を表すシンタックス要素を解析する。特に、シンタックス要素は、LTRPに対する識別情報を含む。ここで、識別情報とは、LTRBに対するPOC LSB値である。計算機システムは、復号化処理中にこの識別情報を使用する。

0011

本発明の前述のおよび他の目標、機能および利点は、添付の図面を参照して進められる、後述の詳細な説明からより明らかになろう。

図面の簡単な説明

0012

本明細書に記載されたある実施形態が実装され得る例示的計算機システムの図である。
本明細書に記載されたある実施形態が実装され得る例示的ネットワーク環境の図である。
本明細書に記載されたある実施形態が実装され得る例示的ネットワーク環境の図である。
本明細書に記載されたある実施形態が実装され得る例示的エンコーダ・システムの図である。
本明細書に本明細書に記載されたシンタックス要素を出力するための一般化された手法の流れ図である。
本明細書にビットストリーム中のLTRPに対する識別情報を信号化するための例示的手法の流れ図である。
本明細書に記載されたある実施形態が実装され得る例示的デコーダ・システムの図である。
本明細書に記載のシンタックス要素を解析するための一般化された手法の流れ図である。
ビット・ストリームからLTRPに関する識別情報を解析するための例示的手法の流れ図である。
変数PicOrderCntMsbを引き出すための擬似コードリストである。
変数PicOrderCntValを引き出すための擬似コードリストである。

実施例

0013

本明細書の詳細な説明では、DPBおよびRPLの状態を信号化するための革新的な技術を説明する。この革新的な技術は、BDL情報に関連したビットレートを削減し、および/またはDPB管理またはRPL構築の処理過程を簡単化し、しかも情報損失からの回復を助ける。

0014

本明細書に記載の革新的な技術のいくつかは、H.264および/またはHEVC標準に特有なシンタックス要素および動作を参照して例示される。このような革新的な技術はまた、他の標準規格または符号化形式にも実装され得る。

0015

より一般的には、本明細書に記載の実施例に対する様々な代替方法が実施可能である。流れ図を参照して説明されたある手法は、流れ図に示された段階の順序を変更することにより、ある段階を分岐させる、繰り返させる、または省略すること、などにより、改変され得る。DPBおよびRPLを状態信号化するための様々な実施態様は、互いに組み合わせてまたは別々に使用され得る。異なる実施形態は、本明細書に記載された革新的な技術の1つまたは複数を使用する。本明細書に記載の革新的な技術のいくつかは、背景技術の中で特した課題の1つまたは複数に対処するものである。一般に、所与の手法/ツールは、そのような課題の全てを解決するものではない。

0016

I.例示的計算機システム
図1は、本明細書に記載された革新的技術のいくつかが実装され得る、適切な計算機システム(100)の一般化された例を例示する。計算機システム(100)は、使用の範囲または機能に対して何らかの限定を示唆することを意図しておらず、その結果、本革新的技術は、多種多様汎用または特定用途向けの計算機システム中において実装され得る。

0017

図1を参照すると、計算機システム(100)は、1つまたは複数の処理装置(110、115)およびメモリ(120、125)を含む。図1においてこの最も基本的な構成(130)は、破線内に含まれている。処理装置(110、115)は、コンピュータ実行可能命令を実行する。処理装置は、汎用的な中央演算処理装置(CPU)、特定用途向け集積回路ASIC)内のプロセッサ、または他の任意の形式のプロセッサとすることが可能である。マルチプロセッサ・システムにおいては、マルチプロセッサ装置は、処理能力を高めるためにコンピュータ実行可能命令を実行する。例えば、図1は、中央演算処理装置(110)ならびにグラフィック処理装置または補助処理装置(115)を示す。物理的なメモリ(120、125)は、処理装置(複数個存在することが可能)によりアクセス可能な、揮発性メモリ(例えば、レジスタキャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROMフラッシュメモリなど)、または両者のある組合せとすることが可能である。メモリ(120、125)は、処理装置(複数個存在することが可能)による実行に適したコンピュータ実行可能命令の形で、BDL情報を信号化するための1つまたは複数の革新的技術を実装したソフトウェア(180)を記憶する。

0018

計算機システムは、付加的な機能部を有し得る。例えば、計算機システム(100)は、記憶装置(140)、1つまたは複数の入力装置(150)、1つまたは複数の出力装置(160)、および1つまたは複数の通信接続(170)を含む。バス制御装置、またはネットワークなどの相互接続機構(図示されない)は、計算機システム(100)の構成要素を相互に接続する。一般に、オペレーティング・システム・ソフトウェア(図示されない)は、計算機システム(100)内で実行される他のソフトウェアに対して動作環境を提供し、計算機システム(100)の構成要素の活動を調整する。

0019

物理的な記憶装置(140)は、着脱可能なタイプまたは交換不可能なタイプの記憶装置とすることが可能であり、磁気ディスク磁気テープまたはカセットCD−ROM、DVD、あるいは計算機システム(100)内でアクセスされる可能性がある情報を記憶するために使用され得る任意の他の記憶媒体を含む。記憶装置(140)は、BDL情報を信号化するための1つまたは複数の革新的技術を実装するソフトウェア(180)に関する命令を記憶する。

0020

入力装置(複数可)(150)は、キーボードマウスペン、またはトラックボールなどのタッチ入力装置音声入力装置スキャン装置、あるいは計算機システム(100)への入力を提供する別の装置であり得る。ビデオ符号化のために、入力装置(複数可)(150)は、カメラ、ビデオ・カードTVチューナ・カード、ならびにアナログまたはデジタル形式ビデオ入力受け入れる同様の装置などのビデオ・キャプチャ構成要素、ビデオとしてコンピュータが生成するスクリーンの画像をキャプチャするスクリーン・キャプチャ・モジュール、またはコンピュータが生成する画像コンテンツをキャプチャする同様の構成要素などのビデオ・キャプチャ構成要素、あるいは計算機システム(100)にビデオ・サンプルを読み込むCD−ROMまたはCD−RWとすることが可能である。出力装置(複数個存在することが可能)(160)は、ディスプレイ装置プリンタ装置スピーカ、CDライタ、または計算機システム(100)からの出力を提供する別の装置であり得る。

0021

通信接続(複数個存在することが可能)(170)は、通信媒体を介して別のコンピューティングエンティティとの間の通信を可能とする。通信媒体は、コンピュータ実行可能命令、音声またはビデオの入力または出力、あるいは変調されたデータ信号中の他のデータなどの情報を運ぶ。変調されたデータ信号は、その特性群に属する1つまたは複数の特性を有する信号、あるいは信号中の情報を符号化するような態様で変更される。発明の技術的範囲を限定するものではなく単なる具体例例として、通信媒体は、電気的、光、RF、または他の搬送波を使用することができる。

0022

本明細書記載の革新的技術は、コンピュータ読取り可能媒体の一般的文脈の中で説明され得る。コンピュータ読取り可能媒体は、コンピューティング環境内でアクセスされ得る任意の利用可能な物理的な媒体である。発明の技術的範囲を限定するものではなく単なる具体例として、計算機システム(100)にとって、コンピュータ読取り可能媒体は、メモリ(120、125)、記憶装置(140)、および前記の任意の組合せを含む。

0023

本明細書記載の革新的技術は、実装ターゲットとなる実プロセッサまたは仮想プロセッサ具備する計算機システム中で実行され、プログラム・モジュール中に含まれるコンピュータ実行可能命令の一般的文脈の中で説明され得る。一般に、プログラム・モジュールとは、特定のジョブを実行するまたは特定の抽象データ形式を実装するルーチン、プログラム、ライブラリオブジェクトクラス、コンポーネントデータ構造などを含む。プログラム・モジュールの機能は、様々な実施形態において望まれるように複数のプログラム・モジュール同士の間で組み合わせられまたは分岐され得る。プログラム・モジュールに関するコンピュータ実行可能命令は、ローカルなまたは分散された計算機システム内で実行され得る。

0024

本明細書においては、用語「システム(system)」および「装置(device)」は互換的に使用される。文脈中で明確に示されない限り、これらの用語はいずれも計算機システムまたは計算機装置の形式に関して何ら限定することも意味しない。一般に、計算機システムまたは計算機装置は、ローカルな計算装置または分散された計算装置とすることが可能であり、本明細書に記載の機能を実装したソフトウェアを具備した特定目的のハードウェアおよび/または汎用ハードウェアの任意の組合せを含むことが可能である。

0025

説明の便宜上、本明細書の詳細な説明では、計算機システムにおけるコンピュータ動作を説明するために「決定する(determine)」および「使用する(use)」といった用語を使用する。これらの用語は、コンピュータにより実行される動作に対する高水準抽象概念であり、人間により実行される動作と混同されるべきではない。これらの用語に対応した実際のコンピュータの動作は、実装形態に応じて変化する。

0026

II.例示的ネットワーク環境
図2aおよび図2bは、ビデオ・エンコーダ(220)およびビデオ・デコーダ(270)を含む例示的ネットワーク環境(201、202)を示す。エンコーダ(220)およびデコーダ(270)は、適切な通信プロトコルを使用してネットワーク(250)を介して接続される。ネットワーク(250)は、インターネットまたはその他のコンピュータ・ネットワークを含むことができる。

0027

図2aに示されるネットワーク環境(201)では、実時間通信(「RTC」)ツール(210)の各々は、双方向通信のためのエンコーダ(220)とデコーダ(270)の両者を含む。所与のエンコーダ(220)は、SMPTE421M標準、ISO/IEC14496−10標準(H.264またはAVCとしても知られる)、HEVC標準、上記以外の他の標準規格、または専用のフォーマット準拠した出力を、対応するデコーダ(270)に対して提供することができ、当該デコーダ(270)は、エンコーダ(220)から符号化されたデータを受け入れることが可能である。双方向通信は、ビデオ会議ビデオ電話、またはその他の2者間通信のシナリオの一部であり得る。図2aにおけるネットワーク環境(201)は、2つの実時間通信ツール(210)を含むが、ネットワーク環境(201)は、それ以外にも、複数パーティの通信に参加する3個またはそれより多い実時間通信ツール(210)を含むことができる。

0028

実時間通信ツール(210)は、エンコーダ(220)による符号化を管理する。図3は、実時間通信ツール(210)内に含まれ得る例示的なエンコーダ・システム(300)を示す。あるいは、実時間通信ツール(210)は、上記とは別のエンコーダ・システムを使用する。実時間通信ツール(210)はまた、デコーダ(270)による復号化を管理する。図5は、実時間通信ツール(210)内に含まれ得る例示的なデコーダ・システム(500)を示す。あるいは、実時間通信ツール(210)は、上記とは別のデコーダ・システムを使用する。

0029

図2bに示されるネットワーク環境(202)において、符号化ツール(212)は、エンコーダ(220)を含み、当該エンコーダ(220)は、デコーダ(270)を含む複数の再生ツール(214)への配信のためにビデオを符号化することが可能である。一方向通信は、ビデオ監視システムWebカメラ監視システム、遠隔デスクトップ会議プレゼンテーション、またはビデオが符号化され、ある場所から1つまたは複数の場所へ送信される他のシナリオ用に提供され得る。図2bのネットワーク環境(202)は、2つの再生ツール(214)を含んでいるが、ネットワーク環境(202)は、より多くの個数のまたはより少ない個数の再生ツール(214)を含むこともできる。一般に、再生ツール(214)が受信するビデオのストリームを決定するために、再生ツール(214)は、符号化ツール(212)と通信する。再生ツール(214)は、ストリームを受信し、受信した符号化されたデータを適切な期間バッファリングし、復号化処理およびビデオの再生を開始する。

0030

図3は、符号化ツール(212)に含まれ得る例示的なエンコーダ・システム(300)を示す。あるいは、符号化ツール(212)は、上記以外の別のエンコーダ・システムを使用する。符号化ツール(212)はまた、1つまたは複数の再生ツール(214)および/またはネットワーク・ビデオ送信ツールとの接続を管理するためにサーバ側に実装された制御ロジックを含む。図5は、再生ツール(214)に含まれ得る例示的なデコーダ・システム(500)を示す。あるいは、再生ツール(214)は、上記とは別のデコーダ・システムを使用する。再生ツール(214)はまた、符号化ツール(212)との接続を管理するためにクライアント側に実装された制御ロジックを含む。

0031

III.例示的エンコーダ・システム
図3は、本明細書中に記載され、実装され得るいくつかの実施形態に関連した例示的エンコーダ・システム(300)のブロック図を示す。エンコーダ・システム(300)は、任意の複数の符号化モードにおいて動作する能力がある汎用符号化ツールとすることが可能であり、これらの複数の符号化モードには、実時間通信用の低遅延符号化モード、トランスコーディング・モード、およびファイルまたはストリームからのメディア再生用の通常符号化モードなどが含まれる。また、エンコーダ・システム(300)は、ある種のこのような符号化モードに適応する特定目的の符号化ツールとすることも可能である。エンコーダ・システム(300)は、オペレーティング・システム・モジュールとして、アプリケーション・ライブラリの一部として、または独立したアプリケーションとして実装され得る。全体として、エンコーダ・システム(300)は、ビデオ供給源(310)から一連ソース・ビデオ・フレーム(311)を受信し、符号化されたデータをチャネル(390)への出力として作り出す。チャネルへの符号化されたデータ出力は、本明細書の第V節において後述する1つまたは複数のシンタックス要素を含み得る。

0032

ビデオ供給源(310)は、カメラ、チューナ・カード、記憶媒体、または他のデジタル・ビデオ供給源であり得る。ビデオ供給源(310)は、例えば、毎秒30フレームのフレーム・レートで一連のビデオ・フレームを作り出す。本明細書において使用される場合、用語「フレーム(frame)」は、一般に、ビデオ供給源から供給され、コード化された画像データまたは再構築された画像データを指す。プログレッシブ・ビデオの場合、フレームは、プログレッシブ・ビデオ・フレームである。インタレース・ビデオの場合、例示的実施形態においては、インタレース・ビデオ・フレームは、符号化に先立って非インタレース化される。あるいは、2つの相補的インタレース化されたビデオ・フィールドは、インタレース化されたビデオ・フレームまたは独立したフィールドとして符号化される。プログレッシブ・ビデオ・フレームを示すこととは別に、用語「フレーム(frame)」は、ペアとなっていない単一のビデオ・フィールド、ビデオ・フィールドの相補的なペア、所与の時点でのビデオ・オブジェクトを表すビデオ・オブジェクト・プレーン、すなわち大きな画像中の注目領域を示すことができる。ビデオ・オブジェクト・プレーンまたは領域は、あるシーンの複数のオブジェクトまたは領域を含む大きな画像の一部であり得る。

0033

到着したソース・ビデオ・フレーム(311)は、複数のフレーム・バッファ記憶領域(321、322、・・・32n)を含むソース・フレーム一時記憶メモリ領域(320)中に記憶される。フレーム・バッファ(321、322など)は、ソース・フレーム記憶領域(320)中において1つのソース・ビデオ・フレームを保持する。ソース・ビデオ・フレーム(311)の1つまたは複数がフレーム・バッファ(321、322など)内に記憶された後、フレーム・セレクタ(330)は、周期的にソース・フレーム記憶領域(320)から個々のソース・ビデオ・フレームを選択する。フレームが、エンコーダ(340)への入力のためにフレーム・セレクタ(330)により選択される順序は、一時的な後方予測を容易にするために、フレームがビデオ供給源(310)により作り出される順序とすることが可能であり、例えば、フレームが選択される順序は、進行方向順やそれとは異なる順序とすることが可能である。エンコーダ・システム(300)は、選択されたフレーム(331)の事前処理(例えば、フィルタリング)を、符号化処理に先立って実行するプリプロセッサ(示されない)をエンコーダ(340)の前段において含むことが可能である。

0034

エンコーダ(340)は、選択されたフレーム(331)を符号化してコード化されたフレーム(341)を作り出し、またメモリ管理制御信号(342)を作り出す。現在のフレームが符号化されている最初のフレームではない場合、符号化の処理過程を実行する際に、エンコーダ(340)は、復号化されたフレームの一時記憶メモリ領域(360)中に記憶された1つまたは複数の以前に符号化し/復号化したフレーム(369)を使用することができる。このような記憶されている復号化されたフレーム(369)は、現在のソース・フレーム(331)のコンテンツについてのフレーム間予測のための基準フレームとして使用される。一般的に、エンコーダ(340)は、動き推定および動き補償周波数変換量子化、ならびにエントロピー符号化などの符号化に関するジョブを実行する、複数の符号化モジュールを含む。エンコーダ(340)により実行される厳密な動作は、圧縮形式に依存して変化し得る。出力符号化データの形式は、ウィンドウズ(登録商標)・メディア・ビデオ形式、VC−1形式、MPEG−x形式(例えば、MPEG−1、MPEG−2、またはMPEG−4)、H.26x形式(例えば、H.261、H.262、H.263、H.264)、HEVC形式、またはその他の形式であり得る。

0035

コード化されたフレーム(341)およびBDL情報(342)は、復号化プロセスエミュレータ(350)により処理される。復号化プロセス・エミュレータ(350)は、デコーダの機能のいくつか、例えば、動き推定および動き補償においてエンコーダ(340)により使用される基準フレームを再構築するための復号化処理動作を実装する。復号化プロセス・エミュレータ(350)は、所与のコード化されたフレーム(341)が再構築され、符号化される後続のフレームのフレーム間予測において基準フレームとして使用するために記憶される必要があるか否かを決定するためにBDL情報(342)を使用する。BDL情報(342)がコード化されたフレーム(341)が記憶される必要があることを示す場合、復号化プロセス・エミュレータ(350)は、デコーダにより行われることになる復号化の処理過程を模倣エミュレート)し、当該復号化の処理過程は、コード化されたフレーム(341)を受信し、対応する復号化されたフレーム(351)を作り出すための一連の処理動作を含む。このようにして、エンコーダ(340)が復号化されたフレームの記憶領域(360)に記憶されている復号化されたフレーム(複数個存在することが可能)(369)を使用する場合、復号化プロセス・エミュレータ(350)はまた、復号化の処理過程の一部として記憶領域(360)から復号化されたフレーム(複数個存在することが可能)(369)を使用する。

0036

復号化されたフレームの一時記憶メモリ領域(360)は、複数のフレーム・バッファ記憶領域(361、362、・・・、36n)を含む。復号化プロセス・エミュレータ(350)は、記憶領域(360)のコンテンツを管理するためBDL情報(342)を使用して、エンコーダ(340)がもはや基準フレームとして使用するために必要としないフレームを持つ任意のフレーム・バッファ(361、362など)を特定する。復号化の処理過程を模倣(エミュレート)した後、復号化プロセス・エミュレータ(350)は、この方法で特定されたフレーム・バッファ(361、362など)内に新しく復号化されたフレーム(351)を記憶する。

0037

コード化されたフレーム(341)およびBDL情報(342)はまた、一時的コード化データ領域(370)内にバッファリングされる。コード化データ領域(370)に集約されたコード化済みのデータは、基本的なコード化済みのビデオ・ビットストリームに関するシンタックスの一部として、本明細書の第V節において後述される1つまたは複数のシンタックス要素を含むことができる。あるいは、コード化データ領域(370)に集約されたコード化データは、コード化ビデオ・データに関連したメディア・メタデータの一部として(例えば、1つまたは複数のSEI補助的な拡張情報(supplemental enhancement information))メッセージまたはVUI(ビデオ・ユーザビリティ情報(Video Usability Information))メッセージ中の1つまたは複数のパラメータとして)本明細書の第V節において後述するものなどのシンタックス要素(複数可)を含むことができる。

0038

一時的コード化データ領域(370)からの集約データ(371)は、チャネル・エンコーダ(380)により処理される。チャネル・エンコーダ(380)は、メディア・ストリームとして送信するために集約データをパケット化することができ、この場合、チャネル・エンコーダ(380)は、場合によっては、メディア送信ストリームのシンタックスの一部として、本明細書の第V節において後述されるものなどのシンタックス要素(複数個存在することが可能)を加えることができる。あるいは、チャネル・エンコーダ(380)は、集約データをファイルとして記憶するために編成することができ、この場合、チャネル・エンコーダ(380)は、場合によっては、メディア記憶ファイルのシンタックスの一部として、本明細書の第V節において後述するものなどのシンタックス要素(複数個存在することが可能)を加えることができる。あるいは、より一般的には、チャネル・エンコーダ(380)は、1つまたは複数のメディア・システム多重化プロトコルまたは転送プロトコルを実装することができ、この場合、チャネル・エンコーダ(380)は、場合によっては、プロトコル(複数個存在することが可能)のシンタックスの一部として、本明細書の第V節において後述されるものなどのシンタックス要素(複数個存在することが可能)を加えることができる。チャネル・エンコーダ(380)は、記憶装置、通信接続、または別の出力用チャネルに相当する、チャネル(390)への出力を提供する。

0039

図4aは本明細書の第V節において後述される1つまたは複数のシンタックス要素を設定し出力するための例示的手法(400)を示す。例えば、図2aおよび図2bを参照して説明された実時間通信ツールまたは符号化ツールは、手法(400)を実行する。あるいは、上記以外の別のツールが、手法(400)を実行する。はじめに、ツールは本明細書の第V節において後述される1つまたは複数のシンタックス要素を設定する(410)。次いで、ツールは、1つまたは複数のシンタックス要素を出力する(420)。

0040

図4bは、長期基準ピクチャ(「LTRP」)に関する識別情報の信号化に着目した、手法(400)の具体的な実施例(401)を示す。例えば、図2aおよび図2bを参照して説明した実時間通信ツールまたは符号化ツールは、手法(401)を実行する。あるいは、上記以外の別のツールが、手法(401)を実行する。

0041

はじめに、ツールは、基準ピクチャとして使用するためにどのピクチャが利用可能であるか否か(すなわち、どのピクチャが基準ピクチャとして使用するためにビデオ・エンコーダにより現在利用可能であり、復号化処理のこの時点において基準ピクチャとして使用するために、どのピクチャがビデオ・デコーダにより利用可能であると予測されるか)を特定する状態情報を決定する(405)。次いで、ツールは、状態情報を表すシンタックス要素を設定する(411)。特に、ツールは、LTRPに対する識別情報を設定する。LTRPに対する識別情報は、LTRBに対するPOC(ピクチャ・オーダ・カウント)値の最下位ビット(「POC LSB」)の値である。基準ピクチャとして使用するために利用可能なピクチャはまた、短期間にわたる基準ピクチャ(「STRP」)を含むことができる。この場合、ツールは、LTRBに対するPOC LSBの値をSTRBに関するPOC LSBの値として再利用することができるが、LTRPとSTRPを区別するために長期間にわたる基準ピクチャ用に使用されるLTRBにマーク付けする。

0042

ビット・ストリーム中に信号化されるシンタックス要素は、その他のおよび/または付加的なシンタックス要素を含むことができる。例えば、ツールは、シーケンスのピクチャに関するビット・ストリーム中のLTRPについての状態情報を含むか否かを決定し、シーケンス・パラメータ群の一部として、LTRPについての状態情報がシーケンスのピクチャに関してビット・ストリーム中に存在するか否かを示すフラグを出力する。あるいは、ツールは、LTRBに対するPOC LSBの値に使用するためにPOC LSB用のビット数を設定し、次いで、POC LSB用のビット数を示すシンタックス要素(例えば、log2_max_pic_order_cnt_minus4シンタックス要素などの、定数値に関連したPOC LSB用のラッピングポイント2進対数を表すシンタックス要素)を出力する。あるいは、ツールは、本明細書の第V節において後述されるその他のシンタックス要素を使用し信号化する。

0043

次いで、ツールは、ビット・ストリームの一部としてシンタックス要素を出力する(421)。例えば、ツールは、現在のピクチャについての基本的なコード化済みのビデオ・ビットストリーム中にシンタックス要素を信号化する。あるいは、シンタックス要素は、それ以外の特定レベルのビットストリーム・シンタックスにより信号化される。

0044

IV.例示的なデコーダ・システム
図5は、本明細書中に記載され、実装可能ないくつかの実施形態に関連した例示的デコーダ・システム(500)のブロック図である。デコーダ・システム(500)は、複数の復号化モードのいずれかで動作する能力がある汎用復号ツールとすることが可能であり、当該複数の復号化モードは、実時間通信用の低遅延復号化モードおよびファイルまたはストリームからのメディア再生用の通常の復号モードなどを含むことが可能であり、このような復号化モードの何れか一つ以上に適応される特定目的の復号化ツールとすることも可能である。デコーダ・システム(500)は、オペレーティング・システム・モジュールとして、アプリケーション・ライブラリの一部として、または独立したアプリケーションとして実装され得る。全体として、デコーダ・システム(500)は、コード化済みのデータをチャネル(510)から受信し、出力先(590)に対する出力として再構築されたフレームを作り出す。コード化済みのデータは、本明細書の第V節において後述される1つまたは複数のシンタックス要素を含むことが可能である。

0045

デコーダ・システム(500)は、記憶装置、通信接続を表象することができるチャネル(510)を含み、または入力としてのコード化済みのデータに関するさらに別のチャネルを含むことが可能である。チャネル(510)は、チャネル符号化されたコード化済みのデータを作り出す。チャネル・デコーダ(520)は、コード化済みのデータを処理することができる。例えば、チャネル・デコーダ(520)は、メディア・ストリームとして転送のために集約されているデータを逆パケット化処理し、この場合、チャネル・デコーダ(520)は、メディア転送ストリームのシンタックスの一部として、本明細書の第V節において後述されたものなどのシンタックス要素(複数可)を解析することができる。あるいは、チャネル・デコーダ(520)は、ファイルとして記憶するために集約されたコード化済みのビデオ・データを分離し、この場合、チャネル・デコーダ(520)は、メディア記憶ファイルのシンタックスの一部として、本明細書の第V節において後述されるものなどのシンタックス要素(複数個存在することが可能)を解析することができる。あるいは、より一般的には、チャネル・デコーダ(520)は、1つまたは複数のメディア・システム逆多重化プロトコルまたは転送プロトコルを実装することができ、この場合には、チャネル・デコーダ(520)は、プロトコル(複数個存在することが可能)のシンタックスの一部として、本明細書の第V節において後述されるものなどのシンタックス要素(複数個存在することが可能)を解析することができる。

0046

チャネル・デコーダ(520)からの出力であるコード化済みのデータ(521)は、このようなデータが充分な量だけ受信されるまで、一時的コード化データ領域(530)に記憶される。コード化されたデータ(521)は、コード化済みのフレーム(531)およびBDL情報(532)を含む。コード化データ領域(530)内のコード化されたデータ(521)は、基本的なコード化済みのビデオ・ビットストリームのシンタックスの一部として、本明細書の第V節において後述されるものなどの1つまたは複数のシンタックス要素含むことができる。あるいは、コード化データ領域(530)内のコード化済みのデータ(521)は、符号化されたビデオ・データに関連したメディア・メタデータの一部として(例えば、1つまたは複数のSEIメッセージまたはVUIメッセージ中の1つまたは複数のパラメータとして)本明細書の第V節において後述されるものなどのシンタックス要素(複数個存在することが可能)を含むことができる。一般的に、コード化データ領域(530)は、このようなコード化済みのデータ(521)がデコーダ(550)により使用されるまで、コード化済みのデータ(521)を一時的に記憶する。その時点で、コード化済みのフレーム(531)およびBDL情報(532)に対するコード化済みのデータは、コード化データ領域(530)からデコーダ(550)へ転送される。復号化処理の実行が継続する場合、新しいコード化済みのデータは、コード化データ領域(530)に追加され、コード化データ領域(530)に残っている最も古いコード化済みのデータがデコーダ(550)に転送される。

0047

デコーダ(550)は、対応する復号化されたフレーム(551)を作り出すためにコード化済みのフレーム(531)を周期的に復号する。適切な方法で、復号化の処理過程を実行する場合、デコーダ(550)は、フレーム間予測のための基準フレームとして1つまたは複数の以前に復号化されたフレーム(569)を使用することができる。デコーダ(550)は、このような以前に復号化されたフレーム(569)を復号化済みフレームの一時記憶メモリ領域(560)から読み出す。一般に、デコーダ(550)は、エントロピー復号化逆量子化逆周波数変換および動き補償などの一連の復号化処理動作を実行する複数の復号化モジュールを含む。デコーダ(550)により実行される厳密な処理動作は、圧縮形式に応じて変化し得る。

0048

復号化済みフレームの一時記憶メモリ領域(560)は、複数のフレーム・バッファ記憶領域(561、562、・・・、56n)を含む。復号化済みフレームの一時記憶メモリ領域(560)は、DPBの一例である。デコーダ(550)は、復号化されたフレーム(551)を記憶することができるフレーム・バッファ(561、562など)を特定するためにBDL情報を使用する。デコーダ(550)は、そのフレーム・バッファに復号化されたフレーム(551)を記憶する。

0049

出力シーケンサ(580)は、復号化済みフレームの一時記憶メモリ領域(560)内において、出力順に従って作り出されるべき次のフレームが利用可能となる時点を特定するためにBDL情報(532)を使用する。出力順に従って作り出されるべき次のフレーム(581)が復号化済みフレームの一時記憶メモリ領域(560)内において利用可能である場合、このフレームは、出力シーケンサ(580)に読み込まれ、出力先(590)(例えば、ディスプレイ)に出力される。一般的に、フレームが復号化済みフレームの一時記憶メモリ領域(560)から出力シーケンサ(580)により出力される順序は、フレームがデコーダ(550)により復号化された順序とは異なる可能性がある。

0050

図6aは、本明細書の第V節において後述されるシンタックス要素を受信し解析するための例示的手法(600)を示す。例えば、図2aおよび図2bを参照して説明した実時間通信ツールまたは再生ツールは、手法(600)を実行する。あるいは、別のツールが、手法(600)を実行する。はじめに、ツールは、本明細書の第V節において後述される1つまたは複数のシンタックス要素を受信する(610)。次いで、ツールは、当該1つまたは複数のシンタックス要素を解析する。次いで、ツールは、本明細書の第V節において後述されるシンタックス要素を使用することができる。

0051

図6bは、LTRPに対する識別情報の解析に注目した、手法(600)の具体的な実施例(601)を示す。例えば、図2aおよび図2bを参照して説明した実時間通信ツールまたは再生ツールは、手法(601)を実行する。あるいは、上記以外の別のツールが、手法(601)を実行する。

0052

はじめに、ツールは、ビット・ストリームの少なくとも一部を受信する(611)。例えば、ビット・ストリームは、基本的なコード化済みのビデオ・ビットストリームである。ツールは、ビット・ストリームからシンタックス要素を解析する。シンタックス要素は、基準ピクチャとして使用するためにどのピクチャが利用可能であるか否か(すなわち、どのピクチャが基準ピクチャとして使用するためにビデオ・エンコーダにより現在利用可能であるか;復号化処理のこの時点において基準ピクチャとして使用するために、どのピクチャがビデオ・デコーダにより利用可能であると予想されるか)を特定する状態情報を表す。例えば、状態情報を表すシンタックス要素は、現在のピクチャに関するビット・ストリーム中に信号化される。あるいは、シンタックス要素は、ビットストリーム・シンタックスのその他の特定レベルで信号化される。

0053

特に、シンタックス要素は、LTRPに対する識別情報を含む。LTRPに対する識別情報は、LTRBに対するPOC LSBの値である。さらに、基準ピクチャとして使用するために利用可能なピクチャは、STRPを含むことができる。この場合、ツールは、STRBに対するPOC LSBの値としてLTRBに対するPOC LSBの値を再利用することができるが、LTRPとSTRPとを区別するために長期間にわたる参照に使用されるLTRBにマーク付けする。

0054

ビットストリーム中に信号化されたシンタックス要素は、上記以外のおよび/または付加的なシンタックス要素を含むことができる。例えば、ツールは、シーケンス・パラメータ群から、LTRPについての状態情報がシーケンスのピクチャに関するビットストリーム中に存在するか否かを示すフラグを解析する。あるいは、ツールは、LTRBに対するPOC LSBの値として使用するためにPOC LSBのビット数を示すシンタックス要素を解析して、LTRPに対する識別情報を解析する時点でPOC LSBのビット数を使用する。

0055

ツールは、復号化処理の実行中に識別情報を使用する(631)。例えば、ツールは、復号化処理の一部としてビデオ・デコーダの復号化ピクチャ記憶領域を管理するために状態情報を使用する。

0056

V.DBPおよびRPLの状態の信号化における革新的技術
HEVC標準に関連して、BDL情報の使用方法についての様々な手法を説明してきた。ある手法は、「Absolute Signaling of Reference Pictures」という名称で「Proposed Changes to the HEVC Working Draft」を含む、文書JCTVC−F493に記載されている。他の手法は、「WD4: Working Draft 4 of High−Efficiency Video Coding」という名称のJCTVC−F803_dl_Buffer_Descriptions_r0および「WD4:Working Draft 4 of High−Efficiency Video Coding」という同じ名称のJCTVC−F803_dl_Buffer_Descriptions_display_process_suggestion_r1中に記憶されている。本節は、JCTVC−F803_dlに対する文書中に示された手法に関連した具体的な変更を説明する。これらの変更は、JCTVC−F493において提案された概念のいくつかを拡張する。本節内で説明される異なる革新技術は、組み合わせてまたは別個に使用され得る。

0057

A.未来参照フラグ
本明細書に記載されたある革新技術によれば、エンコーダおよびデコーダは、BDL情報の基準ピクチャ毎の未来参照フラグを使用する。ここで、未来参照フラグは、基準ピクチャが現在のピクチャを復号化するためにのみ使用されるか、またはコード化される順序内において少なくとも1つの未来ピクチャを復号化するために使用されるか否かを示す。したがって、未来参照フラグは、現在のピクチャが復号化された後の時点においても基準ピクチャが保持されるか否かを示す。例示的実装形態では、未来参照フラグは、BDL中の各ピクチャに追加されるmark_unused_after_decoding_flagと呼ばれる新しいシンタックス要素である。このシンタックス要素は、BDL情報に関連した全DBP長の利用を可能とする。

0058

基準ピクチャに対してマーク付け操作がされる位置が、復号化の処理過程における早い段階に移動される場合、バッファ中に記憶される得る基準ピクチャの個数を削減することができる。DPB容量がNピクチャであり、現在のピクチャが基準ピクチャである場合、BDLの合計サイズがN−1ピクチャを超過しない限りバッファに現在のピクチャを記憶するための場所が確保できないことになる。AVCシンタックスにおいては、(1)第一にバッファ中にあるピクチャが復号化処理過程のために参照されていて、(2)次いで、もはや必要ではない任意のピクチャが廃棄され(すなわち、新しいピクチャのためにバッファ中に空き地を作り、この空き地においては「参照に使用されない」とマーク付けされている)、(3)次いで、現在のピクチャが後続のピクチャの復号化処理過程における使用の可能性に備えてバッファ中に記憶されることから、すなわち、AVCシンタックスを使用する可能性があるものより1ピクチャだけ少ない。マーク付けの処理過程を、ピクチャの参照としての使用よりも前に移動することにより、ピクチャ個数で表された所与の総バッファ容量は、1ピクチャ分だけ削減されてしまう。総バッファ容量が減少することは、極めて望ましくない。

0059

未来参照フラグは、DPB容量の使用上のこの制限を扱うために使用され得る。例示的実施形態では、mark_unused_after_decoding_flagと呼ばれる1ビットのフラグが、リスト化されたピクチャの各々に関するBDLの中に信号化される。mark_unused_after_decoding_flagは、基準ピクチャが現在のピクチャ(BDL情報に関連した)の復号化処理についてのみ使用されるのか、または少なくともコード化される順序において後続する特定ピクチャの復号化処理のためにも使用されるのかを示す。基準ピクチャが現在のピクチャの復号化のためにのみ使用される場合、基準ピクチャは、復号化された現在のピクチャにより上書きされることが可能である。「参照に使用されない」旨を表す「1」の値に等しいmark_unused_after_decoding_flagを持つピクチャのマーク付けは、現在のピクチャの復号化処理過程の実行後であって、かつDPB中の現在のピクチャが記憶される前の時点において実行される。例えば、DPBが高々5枚の基準ピクチャを記憶していることにより、満杯となっている場合、5枚の基準ピクチャの1つが将来ピクチャの復号化処理に使用されない(mark_unused_after_decoding_flagで示されるように)ならば、当該基準ピクチャは、復号化された現在のピクチャにより上書きされ得る。このようにして、DPBの総バッファ容量が使用され−エンコーダおよびデコーダは、復号化された現在のピクチャのためにDPB内に空きの場所を予約する必要がない。

0060

B.未来参照フラグのためのオン/オフ決定フラグ
本明細書に記載されたさらに別の革新的技術によれば、オン/オフ決定フラグは、未来参照フラグに関して信号化される。エンコーダは、未来参照フラグを使用することを望まない可能性がある。不要なビットを送信することを避けるために、エンコーダは、未来参照フラグに関するオン/オフ判定フラグ使用することができる。オン/オフ判定フラグが「オン」である場合、未来参照フラグが使用される。そうではなく、オン/オフ判定フラグが「オフ」である場合、未来参照フラグは使用されない。

0061

例えば、例示的実装形態では、あるエンコーダは、mark_unused_after_decoding_flagを使用することを望まない可能性がある。そのようなエンコーダが不要なビットを送信することを避けるために、no_final_referencing_flagと呼ばれるフラグがSPSレベルに追加される。1に等しいno_final_referencing_flagがない場合、mark_unused_after_decoding_Flagシンタックス要素は、ビットストリームから除去される。この場合、デコーダは、mark_unused_after_decoding_flagシンタックス要素を受信したり、解析したり、使用したりなどしない。そうでない場合、デコーダは、mark_unused_after_decoding_flagシンタックス要素を受信し、解析し、使用などする。

0062

C.低位時間レイヤのピクチャへのマーク付け
本明細書に記載されたさらに別の革新的技術によれば、高位時間レイヤに関連したピクチャに関するBDL情報においては、基準ピクチャに関するマーク付け情報は、低位時間レイヤ内の1つまたは複数のピクチャに対して、参照のために使用されない旨をマーク付けすることができる。あるシナリオでは、高位時間レイヤ内のピクチャに関する基準ピクチャ管理のためにこのような選択肢を可能とすることは有用であり得る。さらに、高位時間レイヤにおけるピクチャに関してBDL情報が以前に除去されている基準ピクチャについての状態情報が後続のBDL情報において欠落している場合、デコーダは、そのような基準ピクチャの除去を推測することができる。

0063

DPBの状態を信号化するためのある手法では、高位時間レイヤ内のピクチャは、低位時間レイヤ内のピクチャに対して、「参照のために使用されない」旨をマーク付けすることを禁止される。しかしながら、本明細書に記載されたBDLタイプ・シンタックスを使用する場合、そのような禁止は意味をなさない。一度、ピクチャがBDLから除去されると、ピクチャは後続のいずれのBDLにも現れないので、「参照のために使用されない」旨をピクチャに対してマーク付けするための通知をデコーダが見失うことの危険性はない。

0064

D.高位レイヤ・ピクチャ指定フラグ
本明細書に記載されたさらに別の革新的技術によれば、エンコーダおよびデコーダは、BDL情報中の高位時間レイヤのピクチャ毎に高位レイヤ・ピクチャ指定フラグを使用する。ここで、高位レイヤ・ピクチャ指定フラグは、BDL情報について高位時間レイヤに関連しているピクチャを指定する。多くのシナリオにおいては、高位時間レイヤのピクチャは、基準ピクチャとして使用されない。DPBを管理し更新する処理過程は、そのようなピクチャに関して簡単化され得る。BDL情報が高位時間レイヤのピクチャにおいて少しでも使用される場合、高位時間レイヤと関連しているとしてピクチャを指定するために、BDL情報中においてピクチャ毎の簡単なフラグを設ければ充分である場合が多く、この場合、DPBの管理および更新の動作は推測されることが可能である。

0065

例示的実装形態では、簡単なhigher_layer_picture_flagは、ピクチャが高位時間レイヤ内にあるか否かを示すためにBDL中の各ピクチャに対して送信され得る。あるシナリオでは、いくつかのそのようなピクチャに対して「参照のために使用されない」旨がマーク付けされるべきことを明示的に示すことができるように、BDL情報中の高位時間レイヤ内のピクチャに関する情報を含ませることが望ましい可能性がある。しかしながら、これらのピクチャが、DBL情報中にリスト化されているとしても、実際のレイヤ番号などの詳細を送信することは必要ではない。代わりに、簡単なhigher_layer_picture_flagが、ピクチャが高位時間レイヤ内にあるか否かを示すためにBDL中の各ピクチャに対して送信される。higher_layers_not_listed_flagが1に等しい場合、高位時間レイヤ内のいずれのピクチャも、現在のピクチャの復号化処理過程による影響を受けないままにしておく−単純にそれらのマーク付けの状態をあるがままにしておくことが提案される。

0066

E.高位レイヤ・ピクチャ指定フラグに関するオン/オフ決定フラグ
本明細書に記載されたさらに別の革新的技術によれば、エンコーダおよびデコーダは、高位時間レイヤのピクチャについての状態情報をBDL情報中に含めるか否かを指定するためにオン/オフ決定フラグを使用する。例えば、オン/オフ決定フラグは、SPSの一部として信号化され、高位時間レイヤのピクチャについての状態情報のBDL情報中における有/無を示すことができる。

0067

例示的実装形態では、higher_layers_not_listed_flagと呼ばれるフラグが、SPSレベルに追加される。フラグが1に等しい場合、高位時間レイヤのピクチャは、CVSのBDL中に含まれない。以前に述べた提案内容においては、高位時間レイヤのピクチャは、BDL中に含まれていた。このようなピクチャは、現在のピクチャの復号化の処理過程において実際に参照されることはなく、このことをデコーダは知っている。これらのピクチャは現在のピクチャならびに現在の時間レイヤおよび任意の低位時間レイヤ内の後続の任意のピクチャの復号化処理にとって重要ではないので、多くの使用状況においては、BDL中にそれらを含ませる価値があるかどうかは疑わしく、それ故、復号化されるレイヤの復号化処理過程にとって無意味であるこの余分なデータをシンタックスに負担させることは、回避することが望ましい。

0068

F.APSレベルにおけるBDL情報
本明細書に記載された別の革新技術によれば、BDL情報は、APS(適応スライス・パラメータ・セット(Adaptive Slice Parameter Set))レベルにおいて信号化される。単一のBDL情報のセットは、APSと関連している。

0069

パラメータ群の中に複数のバッファ・リストを有するという考えは、すっきりしておらず、必要でもない。選択されたBDLを特定するための索引を持つ複数リストの概念は、不必要に複雑化されているように思えるシンタックスの新しい混成レベルのものであり、不必要に思える方法であらかじめそのBDL構造を事前準備するエンコーダ設計を期待している。また、APS中にBDLをおくようにするならば、スライス・ヘッダ・レベル内のAPSレベルのBDLを無効にする機能を設ける必要性がなくなる可能性がある。したがって、適切な判断なしに、BDL情報が、APSレベルまたはそれより高位においてのみ信号化される。

0070

G.BDL情報中のLTRPについての簡単化されたシンタックス
本明細書に記載されたさらに別の革新的技術によれば、エンコーダおよびデコーダは、BDL情報中のLTRPに関する状態情報を使用する。LTRPは、ビデオ符号化およびビデオ復号化のために有用な設計要素を提供する。しかしながら、BDL情報中のLTRPを管理し更新することは、克服すべき課題をもたらす。LTRPに関する状態情報についてビットレートを削減し、DPB管理を簡単化するために、BDL情報中のLTRPに関する様々な種類の簡単化されたシンタックスが、本明細書で提案される。

0071

LTRPは、実際にいくつかの製品で、特に頑健な実時間通信用に使用されている有用な設計要素である。AVC中に見られるようなLTRPの態様は、長時間DPB中のピクチャを保持する能力のみならず、動きベクトルスケーリング処理および重み付け予測計算のために異なる処理を使用することを含む。

0072

例示的実装形態では、LTRPの機能はそのまま維持され、DBL情報は、LTRPを管理する役割を果たす。BDL情報中のLTRPに関する状態情報を信号化するためのいくつかの既存の手法は、過度に手が込んでおり、その中では、それらは、完全に分離されたLTRPのリスト化および全POCの差分値の信号化を必要とし、これらは適切ではない。例えば、LTRPは、その全POCの差分値により特定される。非常に長い時間にわたってDPB中に残存しているLTRPに関して、そのPOCの差分値を送信するために必要なコードワードの長さは、極端に大きくなり−ビットレートを浪費し、デコーダに問題を解析させ、究極的にはLTRPがシンタックスを使用する場合に保持されることが可能な期間を制限する。

0073

その一方で、例示的実装形態では、エンコーダおよびデコーダは、LTRPに関する状態情報について簡単化されたシンタックスを持つBDL情報を使用し、その中で、複数のPOC値の最下位ビット(「LSB」)同士の間の差分を、最上位ビット(「MSB」)のラッピング・ポイントで除算した剰余値だけがLTRPを特定するために送信され、複数のPOC値同士の間における差分の全体を送信する必要は無い。POC値のMSB値を追跡する真の必要性はなく−相対的な順序のみが、達成されるために真に必要であり、MSB追跡の指定を無効にすることは、ランダムアクセス復号化を行うことを意図した機能に関する解釈を容易にすることができる。また、差分値をMSBで表現することを無効にすることにより、LTRPを特定するために送信されるPOCの差分値を、時間の経過とともに次第に大きくする必要がなくなることになる。適切な設計の選択により、エンコーダは、既存のLTRPにより使用されている同一のPOC LSBを再利用する新しいピクチャを送信する場合について考慮する必要さえない。

0074

以下のものは、この趣旨に含まれる2つの可能性のある手法である。両者は、BDL情報中の各ピクチャのために、long_term_reference_flagシンタックス要素を送信することを必要とする。第2の手法(以下、方式B)は、幾分簡潔である。第1の手法(以下、方式A)は、エンコーダをより柔軟にすることを可能とする。

0075

方式Aによれば、long_term_reference_flagシンタックス要素の値がPOC LSBの所与の値について0から1に変化する場合、これは、AVCにおけるのと同様に「長期間にわたる参照のために使用される」ピクチャとしてマーク付けする。同一のPOC LSB値は、混乱なく後で短期間にわたって参照される基準ピクチャに対して再度使用され得る。同一のPOC LSBに対して、1に等しいlong_term_reference_flagを持つピクチャは、0に等しいlong_term_reference_flagを持つピクチャと比較して明確に特定され続ける。LTRPに対して「参照のために使用されない」旨をマーク付けした後にのみ、エンコーダ(またはデコーダ)は同一のPOC LSB値を持つ別のLTRPとこれを置き換えることができることになる。

0076

方式Aでは、LTRPおよび短期間にわたって参照される基準ピクチャ(STRP)を必要とする異常かつ過渡的な場合は、以下のように扱われる。
・新しいピクチャを復号化することに先立って、バッファが、POC LSBのある値に関するSTRPのみを含む場合、その値に対するLTRPのみを含むBDL情報が受信され、STRPは、現在のピクチャを復号化するのに先立って「長期間にわたる参照のために使用される」旨をマーク付けされる。
・新しいピクチャを復号化するに先立って、POC LSBの特定の値に関するLTRPのみをバッファが含んでおり、その値に関するSTRPのみを含むBDL情報が受信される場合、ビットストリームは不正である。
・新しいピクチャを復号化することに先立って、同一のPOC LSB値に関するLTRPとSTRPの両者をバッファが含み、その値に関するSTRPのみを含むBDL情報が受信された場合、LTRPは、「参照のために使用されない」旨をマーク付けされる。
・新しいピクチャを復号化することに先立って、同一のPOC LSBの値に関するLTRPとSTRPの両者をバッファが含み、その値に関するLTRPのみを含むBDL情報が受信される場合、STRPは「参照のために使用されない」旨をマーク付けされる。

0077

方式Bによれば、ピクチャは、復号化されるときに送信されるフラグ(例えば、used_for_long_term_flagと呼ばれるフラグ)を設定することによってのみ「長期間にわたる参照のために使用される」旨をマーク付けされる。BDL情報中においてそのピクチャに後続する全ての内包物は、1に等しいlong_term_reference_flagを有し、long_term_reference_flagの値は、LTRPと、同一のPOC LSB値を有する任意の仮想的な短期間にわたって参照される基準ピクチャとを区別するために使用されることになる。

0078

H.LTRPフラグについてのオン/オフ決定フラグ
本明細書に記載されたさらに別の革新的技術によれば、エンコーダおよびデコーダは、BDL情報中にLTRPについての状態情報を含めるか否かを指定するためのフラグに関してオン/オフ決定フラグを使用する。例えば、オン/オフ決定フラグは、SPSの一部として信号化され、BDL情報中におけるLTRPについての状態情報の有/無を示す。

0079

あるエンコーダは、LTRPの使用を行うことを望まない可能性があることから、例示的実装形態では、no_long_term_pictures_flagと呼ばれるフラグが、SPSレベルにおいて送信される。このフラグの値が0である場合、long_term_reference_flagの値(および、上記の方式Bの場合には、used_for_long_term_flag)は、シンタックス中に存在しない。

0080

I.LTRP識別情報のために使用されるビットの削減
本明細書に記載されたさらに別の革新的技術によれば、BDL情報中においてLTRPを特定するために使用されるビット数が、削減される。多くの使用のシナリオでは、LTRPの個数は小さく、LTRPを特定するに少数のビットがあれば充分である。エンコーダは、他の使用のシナリオに関しては、LTRPを特定するために使用されるビット数を増加させる可能性がある。

0081

例示的実装形態では、方式Aまたは方式Bに対して、シンタックスは、送信されるPOC LSBの個数が小さい場合にはより一層効率的になり得る。例えば、送信されるべきPOC LSBの個数が、8などのあるより大きな数ではなく、4である(AVCPOCタイプ0中のlog2_max_pic_order_cnt_lsb_minus4のような)場合、BDL情報中のLTRB識別情報に関連したビットレートは、削減され得る。4より大きなビット数を使用することは、多くの使用のシナリオにおいて不必要な負担となり得る。しかしながら、より大きなビット数が適切であるシナリオでは、エンコーダは、単純により大きなlog2_max_pic_order_cnt_lsb_minus4の値(またはそれに等価なもの)を使用することができる。

0082

J.BDL情報の効率的な編成
本明細書に記載されたさらに別の革新的技術によれば、BDL情報は、RPLの構築に使用された順序に従って編成され送信される。このことは、RPL構築のためのシンタックスを簡単化する。

0083

例示的実装形態では、BDL情報それ自身が、ピクチャのリストであることから、送信されたリストの最初に列挙されたピクチャからリスト0の直接的構築に必要な順序に従って送信され得る可能性がある。ピクチャがリスト0の順序に従ってリスト化されている場合、リスト0についての基準ピクチャ・リスト修正シンタックスは実際には必要性がない。

0084

K.ギャップがPOC値に許容されるか否かを信号化すること
本明細書に記載されたさらに別の革新的技術によれば、エンコーダは、POC値内のギャップが許容されているか否かを信号化する。ギャップが許容されていない場合、デコーダは、POC値が失われていることを決定した時点でピクチャ損失を認識することができ、デコーダは、ピクチャがPOC値に基づき出力の準備ができていることを決定することが可能である。

0085

例示的実装形態では、poc_gaps_allowed_flagと呼ばれるフラグが、SPSレベルで送信される。このフラグの値が0に等しい場合は、出力順序内における全ての連続したピクチャは、ギャップを持たない連続したPOC LSB値を有する。したがって、デコーダは、POC値を失っていることを認識することによりピクチャ損失を認識することができる。また、エンコーダによるpoc_gaps_allowed_flagシンタックス要素の使用は、デコーダがピクチャを出力する順序と同じ順序に従って出力を行う準備ができている一連のピクチャ系列をデコーダが認識することを可能とすることになる。あるPOC値Kを持つピクチャがすでに出力され、POC値K+1を持つピクチャがDPB内に存在する場合、デコーダは、POC LSB値K+1を持つこのピクチャが次に出力されるべきピクチャであることを検出することができることになる。また、POC LSB値K+1を持つそのようなピクチャがDPB内に存在しない場合、デコーダは、何か不都合なことが発生していない限り、ある後続のピクチャがこのPOC LSB値を持って到着することを知ることになる。

0086

L.BDL情報に対するシンタックス要素のエントロピー符号化およびエントロピー復号化
本明細書に記載されたさらに別の革新的技術によれば、BDL情報中のシンタックス要素は、符号なし指数ゴロム符号化の代わりに短縮された指数ゴロム符号化(すなわち、te(v))を使用して符号化され得る。BDL情報に関する様々なシンタックス要素が、ue(v)符号化を使用して符号化された値として送信されることが提案されている。多くの場合、これらのシンタックス要素に対する利用可能な選択肢の数は少ない。したがって、そのようなシンタックス要素をte(v)値として符号化することは、効率を改善することができる。デコーダは、対応するエントロピー復号化を実行する。

0087

VI.DBPおよびRPLの状態の信号化におけるさらなる革新的技術
ある実装形態では、ビデオ・エンコーダおよびビデオ・デコーダは、POC計算の頑健性を簡単化し改善するために付加的な制約に従う処理を実行することができる。様々な使用のシナリオにおいて、ビデオ・エンコーダおよびビデオ・デコーダは、このような制約を持ってまたは持たずに、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する信号化された状態情報を使用することができる。

0088

A.POC計算の頑健性を改善するための第1の手法
第1の例示的手法のセットでは、参照として使用されるまたは出力待ちである全てのピクチャが、現在のピクチャのPOCに関連して曖昧さの無い形で計算され得る相対的なPOCの位置を有するという制約が導入される。このことは、POCのMSB値を追跡する方法における可能性のある頑健性の問題を処理する。

0089

例えば、POCラップ値が16である(しかも、DPBサイズが遅延されるべきピクチャ出力に対して充分に大きく、全てのピクチャが基準ピクチャである)ことを仮定する。復号化順序内において連続したピクチャについてのPOC LSB値が、5、11、2である場合、POC LSB値2を持つピクチャが復号化されるとき、POC LSB値5を持つピクチャの位置は、POC LSB値2を持つ現在のピクチャに比べて曖昧である。POC LSB値11を持つピクチャが失われた場合、他の2つのピクチャは、誤った相対順序で出力されることになる。(同様に、動きベクトルの時間スケーリングは正しくないことになり、基準ピクチャのリスト構築は、間違ったものとなり、時間的に重み付けされた予測は、誤ったものとなろう。)

0090

制約を課し現在のピクチャについてのPOC値に関する全ての相対的なPOC値を参照することにより、バッファ中のピクチャについての実際のPOC MSBを追跡する必要性はなくなる。この手法では、相対的なPOC位置は、ピクチャがバッファ内に留まっている限り正しく保たれる。このことは、POCについて少数のLSBを使用する場合に発生し得る問題についての幾つかの重要な問題を緩和するが、より大きなPOC LSBの最小の数を指示することによる方法以上に完全な方法で問題を解決する。

0091

B.POC計算の頑健性を改善するための第2の手法
デコーダが、復号化されたピクチャの各々と関連したPOCについてのMSB値を推測する場合、いくつかの問題があり得る。MSB値は、コード化されたビデオ・シーケンス全体を通じて、ピクチャ間にわたって実行される復号化処理過程の履歴から推測され、ビットストリームから1つまたは複数のピクチャが除去されるとMSB値の破損を引き起こし得る。このことは、残りのピクチャの再生が乱れ、不正な基準ピクチャ・リストが構築され、および不正な時間的な重み付け予測が行われる事態次々に引き起こし得る。ビットストリームに対してランダム・アクセスを行うデコーダは、コード化されたビデオ・シーケンス内の予測されたピクチャにはアクセスしていないことから、推測によってMSB値を特定する処理動作態様もまた、ランダム・アクセスの困難さをもたらす。

0092

第2の例示的手法のセットでは、第1の例示的手法のセットと同様に、相対的なPOC計算上の制約が、ビットストリーム中のピクチャのPOC LSBの値に導入される(ここで、POC LSB値は、pic_order_cnt_lsbシンタックス要素により表される)。この制約に従えば、コード化効率へ影響を無視でき、相対的なPOC順序を達成するための復号化処理過程を簡単化し、POC MSB値の推定の必要がなく、ピクチャ損失に対する頑健性を改善することができる。したがって、頑健性の問題を処理し、実際のPOC MSB値を追跡する必要性を除去するために、参照に使用されるまたは出力を待っている全てのピクチャが、曖昧さの無い形で現在のピクチャのPOCに関連して計算され得る相対的なPOCの位置を有するという制約が導入される。

0093

例えば、送信されるPOC LSBの個数が4個であり、それ故、POCラップ値が16個である(さらにDPBサイズが遅延しているピクチャ出力に対して充分に大きく、全てのピクチャが基準ピクチャである)ことを仮定する。復号化順序内において連続したピクチャについてのPOC LSB値が、それぞれ5、11、2である場合、POC LSB値2を持つピクチャが復号化されるとき、POC LSB値5を持つピクチャの位置は、POC LSB値2を持つ現在のピクチャに比べて曖昧である。POC LSB値11を持つピクチャが失われた場合、他の2つのピクチャは、誤った相対的順序で出力されることになり、動きベクトルの時間スケーリングは正しくないことになり、基準ピクチャのリスト構築は、間違ったものとなり、時間的に重み付けされた予測は、誤ったものとなろう。

0094

制約を課し現在のピクチャについてのPOC LSB値に関する全ての相対的なPOC値を参照することにより、バッファ中のピクチャについての実際のPOC MSBを追跡する必要性はなくなる。この手法では、相対的なPOC位置は、短期間にわたる参照または出力の順序付けのためにピクチャがバッファ内に留まっている限り正しく保たれる。このことは、POCに関する少数のLSBを使用する場合に発生し得る問題についての幾つかの重要な問題を緩和するが、より大きなPOC LSBの最小の数を指示することによる方法以上に完全な方法で問題を解決する。

0095

相対的なPOC計算のためのこの制約と組み合わせて、またはPOC値を計算するためのさらに別の手法と組み合わせて、エンコーダは、POC値の範囲に制約を適用することができる。例えば、エンコーダは、符号化処理を行っている間に、POC値の範囲(所与のピクチャおよびその基準ピクチャについての、最大値最小値との間の差分)が、POC LSBに関して、可能性のある最大値に依存する閾値により制限されるように、POC値を設定する。この制約の実施例は、以下に説明される。

0096

図2aおよび図2bを参照して説明された実時間通信ツールまたは符号化ツールは、POC値におけるこれらの制約の一方または両者を前提として符号化を実行する。あるいは、上記以外の別のツールが、本手法を実行する。はじめに、ツールは、制約を前提としてピクチャについてのPOC値を設定する。例えば、制約は、以下に説明されるように、現在のピクチャおよびその基準ピクチャについてのPOC LSB値の範囲を制限する。次いで、ツールは、ピクチャについてのビデオを符号化し、標準規格に準拠したビット・ストリームを作り出す。本ビットストリームにおいては、ツールは、適用される制約と調和するPOC値を(例えば、POC LSBを示すシンタックス要素を使用して)信号化することができる。

0097

1.相対的なPOC計算を実行しない場合の例示的手法
相対的なPOC計算を実行しない例示的手法では、POC値は、以下のように復号化される。この処理過程の出力は、現在のピクチャのPOC、PicOrderCntValである。POCは、時間または空間ダイレクトモードにおける動きパラメータ導出するために使用され、ピクチャを特定するために使用され、動きベクトル導出およびBスライスにおける暗黙的モードの重み付け予測のために使用され、さらにデコーダ適合性検査のためにフレーム間のピクチャ順序の相違を表すために使用される。コード化されたピクチャの各々は、PicOrderCntValと呼ばれる特定のPOCと関連付けられ、これは、復号化順序内において先行するIDRピクチャに関連した対応するピクチャのピクチャ順序を示す。

0098

変数prevPicOrderCntLsbおよびprevPicOrderCntMsbは、以下のように導出される。現在のピクチャがIDRピクチャである場合、prevPicOrderCntLsbとprevPicOrderCntMsbの両者は、0に設定される。そうではない(現在のピクチャがIDRピクチャではない)場合、(a)prevRefPicを0に等しいtemporal_idを有する復号順序において以前の基準ピクチャとする(b)変数prevPicOrderCntLsbがprevRefPicのpic_order_cnt_lsbに等しく設定され、変数prevPicOrderCntMsbは、prevRefPicのPicOrderCntMsbに等しく設定される。

0099

現在のピクチャのPicOrderCntMsbは、図7aに示される擬似コードリスト(700)により明示されるように導出される。あるいは、現在のピクチャのPicOrderCntMsbを決定するために、等価的な処理ロジックが使用され得る。次いで、PicOrderCntValの値は、 PicOrderCntVal=PicOrderCntMsb+pic_order_cnt_lsbとして導出される。

0100

例示的手法では、pic_order_cnt_lsbの値がIDRピクチャについて0であると暗示されていて、prevPicOrderCntLsbとprevPicOrderCntMsbの両者が0に等しく設定されているので、IDRピクチャは、0に等しいPicOrderCntValを有する。所与のコード化されたビデオ・シーケンスにおいては、任意の2つのコード化されたピクチャについてのPicOrderCntLsb値は、異なるものとする。

0101

例示的手法と組み合わせて、エンコーダは、POC値の範囲に制約を適用することができる。例えば、エンコーダは、POC値の範囲(所与のピクチャおよびその基準ピクチャについての、最大値と最小値との間の差分)がPOC LSBに関して、可能性のある最大値に依存する閾値により制限されるように、符号化中にPOC値を設定する。

0102

2.相対的なPOC計算を伴う例示的手法
さらに別の例示的手法では、POC値は、以下のように復号化される。この手法に係る処理過程の出力は、現在のピクチャに関するPicOrderCntValの値、およびDPB内において「短期間にわたる参照に使用される」または「出力が必要」である旨がマーク付けされている各ピクチャについてのPicOrderCntValの値である。POCは、時間または空間ダイレクトモードにおける動きパラメータを導出するために使用され、ピクチャを特定するために使用され、動きベクトル導出およびBスライスにおける暗黙モードの重み付け予測のために使用され、さらにデコーダ適合性検査のためにフレーム間のピクチャ順序の相違を表すために使用される。

0103

変数currPicOrderCntLsbの値は、現在のピクチャに関連したpic_order_cnt_lsbシンタックス要素の値に設定される。現在のピクチャについて、およびDPB内において「短期間にわたる参照に使用される」または「出力が必要」である旨が現在マーク付けされている各ピクチャについて、関連した変数thatPicOrderCntLsbの値は、当該ピクチャに関連したpic_order_cnt_lsbシンタックス要素の値に設定され、関連した変数PicOrderCntValの値は、図7bに示された擬似コードリスト(701)内に示されるように設定される。

0104

変数maxPicOrderCntは、現在のピクチャおよびDPB内において「短期間にわたる参照に使用される」または「出力が必要」である旨が現在マーク付けされている全てのピクチャに対して関連付けられた値のうち、PicOrderCntValの最大値と等しい値に設定される。変数minPicOrderCntは、現在のピクチャおよびDPB内において「短期間にわたる参照に使用される」または「出力が必要」である旨が現在マーク付けされている全てのピクチャに対して関連付けられた値のうち、PicOrderCntValの最小値と等しい値に設定される。この手法における制約は、変数maxPicOrderCntおよびminPicOrderCntに依存し、POC LSBに関して可能性のある最大値を考慮する。例えば、maxPicOrderCnt−minPicOrderCntの値が、MaxPicOrderCntLsb/2より少なくなければならないことが、ビットストリーム適合性要求条件である。あるいは、制約は、POC値の範囲(最大値と最小値との間の差分)がPOC LSBに関して可能性のある最大値に依存する閾値により制限されるようなある他の形式で実装される。

0105

関数PicOrderCnt(picX)は、PicOrderCnt(picX)=ピクチャpicXのPicOrderCntValとして指定される。関数DiffPicOrderCnt(picA,picB)は、DiffPicOrderCnt(picA,picB)=PicOrderCnt(picA)−PicOrderCnt(picB)として指定される。例えば、picXを現在のピクチャとし、picYおよびpicZを同一のシーケンス内の2つの他のピクチャとすると、picYおよびpicZは、DiffPicOrderCnt(picX,picY)およびDiffPicOrderCnt(picX,picZ)が両者ともに正であるか両者とも負である場合、picXに関連した同一の出力順序指示内にあるものと考えられる。多くのエンコーダは、復号化の処理過程の実行中において使用されるDiffPicOrderCnt(picA,picB)の値が関連したピクチャpicAおよびpicBのサンプリング時刻同士の間の時間差に(正確にまたは概ね)比例するように、pic_order_cnt_lsbシンタックス要素値割り当てる。

0106

この例示的手法では、PicOrderCntValの値は、現在のピクチャのpic_order_cnt_lsbおよびPicOrderCntVal変数と関連したそれぞれのピクチャのpic_order_cnt_lsb以外に、シンタックスまたはSPSレベルより下位のビットストリーム中の任意のデータの復号化処理過程への依存性はない。また、本質的に制限された範囲(maxPicOrderCntLsbから2*maxPicOrderCntLsbの範囲内)を有しているので、PicOrderCntValの範囲について制約を課す必要はない。

0107

C.使用シナリオ
様々な使用のシナリオにおいて、ビデオ・エンコーダおよびビデオ・デコーダは、基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する信号化された状態情報を使用することができる。片方向通信に関しては、図2bを参照して一般的に説明されたように、ビデオ・エンコーダは、ビデオ監視システム、Webカメラ監視システム、遠隔デスクトップ会議プレゼンテーションまたは他のシナリオにおいて符号化されたビデオを提供することができる。双方向通信に関しては、図2aを参照して一般的に説明されたように、ビデオ・エンコーダは、ビデオ会議、ビデオ電話、または他の2者通信のシナリオのために符号化されたビデオを提供することができる。

0108

ビデオ・エンコーダは、ビデオ・シーケンス中で繰り返されるシーンの要素を描写する1つまたは複数のLTRPを選択することができる。例えば、ビデオ監視システムまたはWebカメラ監視システムに関して、ビデオ・エンコーダは、シーンの背景要素を描写する1つまたは複数のLTRPを選択し、当該選択されたLTRPは、シーケンスを通じて定常的に出現するする。または、遠隔デスクトップ会議プレゼンテーションに関して、ビデオ・エンコーダは、デスクトップ上のユーザ・インターフェースまたはアプリケーション・ソフトウェアの要素を描画する1つまたは複数のLTRPを選択する。あるいは、ビデオ会議またはビデオ電話に関して、ビデオ・エンコーダは、シーンの背景要素または参加者の相対的に静的な要素(例えば、着席している人物の特徴)を描画する1つまたは複数のLTRPを選択する。符号化している間に、ビデオ・エンコーダは、LTRPが動き補償のために使用される頻度に基づいて、どのLTRPを利用可能な基準ピクチャとして保持するか、どのLTRPがビデオ・デコーダおよび/または他の要因により成功裏に再構築されたか、を判定することができる。

0109

ビデオ・エンコーダは、クライアント計算機装置がストリームを切り替える場合(例えば、別のストリームにチャネルを変更した後に、または異なるビットレート/品質での同一のシーケンスのストリームへと切り替えた後に)、再生を容易にするために周期的にLTRPを再設定することができる。さらに、ビデオ・デコーダは、正しい復号化処理を行うために必要な条件として基準ピクチャを有することを想定しているが、パケット損失または破損は、ビデオ・デコーダが、基準ピクチャを有することを妨げる原因となる恐れがある。しかし、LTRPを上記のように周期的に再設定することにより、、上記のようなパケット損失または破損からクライアント計算機装置が回復することを助けることができる。LTRPを再設定する場合、ビデオ・エンコーダは、Iピクチャを使用することができ、これはランダム・アクセスを提供し機能を回復させることを助けることができるが、また動き補償ピクチャより高いビットレートを要する傾向がある。

0110

実時間ビデオ通信のシナリオ(例えば、ビデオ会議、ビデオ電話呼、遠隔デスクトップ会議プレゼンテーション)においては、ビデオ・エンコーダおよびビデオ・デコーダは、より迅速な回復および改善されたコード化効率による誤り回復および誤り補正を容易にするために対話することができる。例えば、サーバ計算機装置において、ビデオ・エンコーダは、ビデオ・エンコーダにおいて基準ピクチャとして使用するためにどのピクチャが利用可能であるかを特定する状態情報を決定する。(このようなピクチャはまた、パケット損失または破損が任意の基準ピクチャに関する再構築処理に対して不利に影響しないことを想定して、復号化処理がこの時点に到達したときに、ビデオ・デコーダにより基準ピクチャとして使用可能であると期待されている。)次いで、サーバ計算機装置は、状態情報を表すシンタックス要素を設定し、シンタックス要素を出力する。

0111

クライアント計算機装置において、ビデオ・デコーダは、ビデオ・エンコーダにおいて基準ピクチャとして使用するためにどのピクチャが利用可能であるか(または、復号化処理がこの時点に到達したときに、ビデオ・デコーダにより基準ピクチャとしての使用が可能であると期待されているか)を特定する状態情報を表すシンタックス要素を受信し解析する。デコーダは、基準ピクチャのセットを決定するために復号化処理の実行中において状態情報を使用することができる。または、デコーダは、誤り回復または補正動作始動させるために状態情報を使用することができる。パケット損失または破損は、ビデオ・デコーダにより示された基準ピクチャの1つまたは複数を正しく再構築することを妨げてしまう恐れがある。ビデオ・デコーダは、ビデオ・デコーダにより基準ピクチャとして使用するためにどのピクチャが実際に利用可能であるかを特定する(新しい状態情報、デコーダ状態情報、などと命名され得る)状態情報を決定する。ビデオ・デコーダは、デコーダ状態情報を表す情報をフィードバックするためのシンタックス要素を設定する。ビデオ・デコーダは、連続した符号化処理の実行中において使用するためにビデオ・エンコーダに対してフィードバック情報を送信する。このことは、以前に信号化された状態情報ならびにビデオ・デコーダからのフィードバック情報を使用して、ビデオ・デコーダにおいて参照するためにどのピクチャが実際に利用可能であるかをビデオ・エンコーダが決定することを可能とする。

0112

サーバ計算機装置において、ビデオ・エンコーダは、デコーダ状態情報を表すフィードバック情報を受信し、符号化処理の実行中においてフィードバック情報を使用する。例えば、ビデオ・エンコーダは、ビデオ・デコーダが正しく再構築しなかった1つまたは複数のLTRPを除去するためにフィードバック情報を使用する。さもなければ、ビデオ・エンコーダは、フィードバック情報がビデオ・デコーダにおいて利用可能であると確認されているLTRPに関連した1つまたは複数の次のピクチャを符号化する方法を決定する際に、フィードバック情報を使用する。ビデオ・エンコーダは、フィードバック情報と調和した状態情報を決定し、状態情報を表すシンタックス要素を設定し、ビットストリーム中にこれらのシンタックス要素を出力する。このようにして、ビデオ・エンコーダは、LTRPを使用することによる高いコード化効率を備え、基本的な符号化機能および復号化機能に準拠した方法で、ビデオ・デコーダがパケット損失または破損からより迅速に回復することを助けることができる。

0113

ビデオ・デコーダは、ビデオ・エンコーダに周期的に(例えば、各ピクチャに対して、xピクチャの各グループに対して)フィードバック情報を提供することができる。または、ビデオ・デコーダは、オンデマンドで(例えば、ビデオ・デコーダが、受信した状態情報とビデオ・デコーダにとって実際に利用可能である基準ピクチャとの間の矛盾を特定したとき)フィードバック情報を提供することができる。ビデオ・デコーダは、別個のフィードバック・チャネル内に、または双方向通信に関しては、出力媒体ストリーム中において符号化されたビデオ・データに多重化する形で、フィードバック情報を提供することができる。

0114

本明細書中で開示した発明の原理が適用され得る、多くの可能性のある実施形態を考慮するならば、例示された実施形態が単に本発明の好ましい実施例にすぎないことが認識されるべきであり、本発明の技術的範囲を限定するものと解釈されるべきではない。むしろ、本発明の技術的範囲は、本明細書に添付した特許請求の範囲により定められるものである。したがって、これらの特許請求の範囲の範囲および技術思想に含まれる全てのものを出願人の発明として特許請求するものである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ