図面 (/)

技術 圧縮ビットストリームを変換するための装置及び方法

出願人 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド
発明者 ヴェトロアンソニースンハイファンワンヤオ
出願日 2001年1月31日 (20年3ヶ月経過) 出願番号 2001-557794
公開日 2003年6月24日 (17年10ヶ月経過) 公開番号 WO2001-060075
状態 特許登録済
技術分野 TV信号の圧縮,符号化方式 TV信号の圧縮,符号化方式 圧縮、伸長・符号変換及びデコーダ
主要キーワード 数学的符号 品質関数 方形フレーム 低モード サブ構成要素 ローカルオペレータ 高モード 連続変換
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2003年6月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題・解決手段

圧縮ビットストリームは、まず、圧縮入力ビットストリーム多重分離し、第1のビットレートを有する基本入力ビットストリームとして画像オブジェクトを抽出することによって、レートが低下したビットストリームに縮小される。トランスコーダは、各基本入力ビットストリームを、第2のビットレートを有する基本出力ビットストリームに変換する。第1のビットレートは、第2のビットレートよりも低い。トランスコーダに接続されたトランスコーディング制御ユニットは、制御情報をトランスコーダに供給する。マルチプレクサは、基本出力ビットストリームを、第2のビットレートを有する圧縮出力ビットストリームに構成する。

概要

背景

概要

圧縮ビットストリームは、まず、圧縮入力ビットストリーム多重分離し、第1のビットレートを有する基本入力ビットストリームとして画像オブジェクトを抽出することによって、レートが低下したビットストリームに縮小される。トランスコーダは、各基本入力ビットストリームを、第2のビットレートを有する基本出力ビットストリームに変換する。第1のビットレートは、第2のビットレートよりも低い。トランスコーダに接続されたトランスコーディング制御ユニットは、制御情報をトランスコーダに供給する。マルチプレクサは、基本出力ビットストリームを、第2のビットレートを有する圧縮出力ビットストリームに構成する。

目的

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

圧縮ビットストリームを変換するための装置であって、圧縮入力ビットストリームから複数の画像オブジェクトのそれぞれを第1のビットレートを有する基本入力ビットストリームとして抽出するためのデマルチプレクサと、各基本入力ビットストリームを第2のビットレートを有する基本出力ビットストリームに変換するためのトランスコーダと、前記トランスコーダに接続され、前記トランスコーダに対する制御情報を生成するためのトランスコーディング制御ユニットと、前記基本出力ビットストリームを前記第2のビットレートを有する圧縮出力ビットストリームに構成するように形成されたマルチプレクサとを備えた装置。

請求項2

前記第2のビットレートは,前記第1のビットレートよりも低い請求項1に記載の装置。

請求項3

前記マルチプレクサに接続され、前記トランスコーディング制御ユニットに対するレーフィードバック情報を生成するための出力バッファをさらに備えた請求項1に記載の装置。

請求項4

前記トランスコーダは、多数の基本ビットストリーム並列に変換する請求項1に記載の装置。

請求項5

前記トランスコーディング制御ユニットは、前記トランスコーダによって生成されるオブジェクトデータから前記制御情報を生成するための形状分析器、テクスチャ分析器、時間分析器、および空間分析器をさらに有する請求項1に記載の装置。

請求項6

前記テクスチャ分析器は、テクスチャモデルID=000004HE=017 WI=153 LX=0290 LY=2340を用い、ここで、Rは、特定の画像オブジェクト(VO)に対して消費されるテクスチャビットの数を示し、Qは、量子化パラメータQPを示し、X1およびX2は、第1次および第2次モデルパラメータを示し、Sは、符号化複雑度を示す請求項5に記載の装置。

請求項7

前記テクスチャモデルは、前のnフレームからの結果を用いて線形回帰(linear regression)によって更新される請求項6に記載の装置。

請求項8

前記符号化複雑度Sは、離散コサイン変換基礎とするとした複雑度測定チルダSID=000005HE=017 WI=153 LX=0290 LY=0810によって定義され、ここで、Bm(i)は、ブロックのAC係数であり、mは、コード化されたブロックの集合M内のブロック指数であり、Mcは、前記集合M内のブロック数であり、ρ(i)は、周波数依存重み付けである請求項6に記載の装置。

請求項9

前記テクスチャモデルは、特定の画像オブジェクトの変換前後に更新される請求項6に記載の装置。

請求項10

所定時間における第1の画像オブジェクトの第1の時間的品質は、前記所定時間における第2の画像オブジェクトの第2の時間的品質とは異なる請求項1に記載の装置。

請求項11

所定時間における第1の画像オブジェクトの第1の空間的品質は、前記所定時間における第2の画像オブジェクトの第2の空間的品質とは異なる請求項1に記載の装置。

請求項12

各基本ビットストリームは、他の基本ビットストリームとは独立して変換される請求項1に記載の装置。

請求項13

前記トランスコーダは、ビットストリームバスによって互いに接続された画像オブジェクト層/画像オブジェクトプレーンパーサ、形状スケーラヘッダパーサ、モーションパーサ、テクスチャスケーラ、およびビットストリームメモリをさらに有する請求項1に記載の装置。

請求項14

前記画像オブジェクト層/画像オブジェクトプレーンパーサは、特定の画像オブジェクトが形状情報を含むか否かを決定する請求項1に記載の装置。

請求項15

前記形状スケーラは、互いに直列に接続された形状復号化器/パーサ、形状ダウンサンプラ、および形状符号化器をさらに有する請求項13に記載の装置。

請求項16

前記画像オブジェクトの形状情報は、前記ダウンサンプラによって変換される請求項15に記載の装置。

請求項17

前記テクスチャスケーラは、前記ビットストリームメモリに対する可変長コードを生成するための部分テクスチャ復号化器、テクスチャダウンサンプラ、コード化ビットパターン再計算ユニット係数メモリ、および量子化器をさらに有する請求項13に記載の装置。

請求項18

特定の基本ビットストリームのヘッダにおける前の可変ビット長コードは、前記テクスチャスケーラによって生成される前記可変ビット長コードに置き換えられる請求項17に記載の装置。

請求項19

前記テクスチャダウンサンプラは、離散コサイン変換ドメインにおいて動作する請求項17に記載の装置。

請求項20

前記トランスコーダは、前記テクスチャ分析器によって生成される量子化パラメータに従って、前記画像オブジェクトを量子化するための量子化器を有するテクスチャスケーラを備える請求項5に記載の装置。

請求項21

圧縮ビットストリームを変換するための方法であって、複数の画像オブジェクトのそれぞれを、圧縮入力ビットストリームから第1のビットレートを有する基本入力ビットストリームとして抽出するステップと、各基本入力ビットストリームを第2のビットレートを有する基本出力ビットストリームに変換するステップと、前記変換のための制御情報を生成するステップと、前記基本出力ビットストリームを前記第2のビットレートを有する圧縮出力ビットストリームに構成するステップとを含む方法。

請求項22

前記第2のビットレートは、前記第1のビットレートよりも低い請求項21に記載の方法。

請求項23

出力バッファからレートフィードバックを生成するステップをさらに含む請求項21に記載の方法。

請求項24

前記制御情報は、前記画像オブジェクトの形状データ、テクスチャデータ、時間データ、および空間データ分析することによって生成される請求項21に記載の方法。

請求項25

前記テクスチャ分析は、テクスチャモデルID=000006HE=017 WI=153 LX=0290 LY=0725を用い、ここで、Rは、特定の画像オブジェクト(VO)に対して消費されるテクスチャビットの数を示し、Qは、量子化パラメータQPを示し、X1およびX2は、第1次および第2次モデルパラメータを示し、Sは、符号化複雑度を示す請求項24に記載の方法。

請求項26

前記テクスチャモデルは、前のnフレームからの結果を用いて線形回帰によって更新される請求項25に記載の方法。

請求項27

前記符号化複雑度Sが、離散コサイン変換を基礎とするとした複雑度測定チルダSID=000007HE=017 WI=153 LX=0290 LY=1575によって定義され、ここで、Bm(i)は、ブロックのAC係数であり、mは、コード化されたブロックの集合M内のブロック指数であり、Mcは、前記集合M内のブロック数であり、ρ(i)は、周波数依存重み付けである請求項25に記載の方法。

請求項28

前記テクスチャモデルは、特定の画像オブジェクトの変換前後に更新される請求項25に記載の方法。

請求項29

所定時間における第1の画像オブジェクトの第1の時間的品質は、前記所定時間における第2の画像オブジェクトの第2の時間的品質とは異なる請求項21に記載の方法。

請求項30

所定時間における第1の画像オブジェクトの第1の空間的品質は、前記所定時間における第2の画像オブジェクトの第2の空間的品質とは異なる請求項21に記載の方法。

請求項31

多数の基本ビットストリームは並列に変換される請求項21に記載の方法。

技術分野

0001

この発明は、一般に、情報配信システムに関し、特に、ネットワーク利用可能なビットレートに、オブジェクト基礎とするとした圧縮されたビットストリームのように符号化された情報を適応させる配信システムに関する。

背景技術

0002

近年、符号化情報通信するための数多くの規格が開発されてきた。画像シーケンスで最も広範囲に用いられている規格としては、MPEG−1(動画の格納および取り出し用)、MPEG−2(デジタルテレビ用)、およびH.263が挙げられる。ISO/IECJTC1 CD11172、MPEG、「Information Technology − Coding of Moving Pictures and Associated Audio for Digital Storage Media up to about 1.5 Mbit/s − Part2:Coding of Moving Pictures Information」、1991年、LeGall、「MPEG:A Video Compression Standard for Multimedia Applications」、Communications of theACM第34巻4号、46〜58頁、1991年、ISO/IEC DIS 13818−2、MPEG−2、「Information Technology − Generic Coding of Moving Pictures and Associated Audio Information − Part2:Video」、1994年、ITU−T SG XV、DRAFT H.263、「Video Coding for Low Bitrate Communication」1996年、ITU−T SG XVI、DRAFT13 H.263+Q15−A−60 rev.0、「Video Coding for Low Bitrate Communication」、1997年を参照下さい。

0003

これらの規格は、主に画像シーケンスの空間的および時間的圧縮を取り扱う比較的低レベル仕様である。一般的な特徴として、これらの規格は、フレーム毎の圧縮を行う。これらの規格によると、広範囲な応用で高い圧縮比を成し遂げることができる。

0004

MPEG−4(マルチメディア応用)などのさらに新しい画像コーディング規格(「Information Technology −− Generic coding of audio/visual objects」ISO/IECFDIS 14496−2(MPEG4 Visual)、1998年11月を参照)では、任意の形状のオブジェクトを個別の画像オブジェクトプレーン(VOP:Video Object Planes)として符号化および復号化することができる。オブジェクトは、視覚データ音声データ、自然データ、合成データ基本データ複合データ、またはその組み合わせであり得る。画像オブジェクトは、複合オブジェクトまたは「シーン:scenes」を形成するように組み立てられる。

0005

新しく浮上しつつあるMPEG−4規格は、自然および合成マテリアル統合され、アクセスが普遍的であるインタラクティブ画像などのマルチメディア応用を可能にすることを意図している。MPEG−4は、コンテンツを基礎とするとした相互作用を可能にする。

0006

例えば、移動する像またはオブジェクトを1つの画像から他の画像に「カットアンドペースト:cut−and−paste」したい場合がある。このタイプの応用では、マルチメディアコンテンツ内のオブジェクトは、何らかのタイプの分割プロセスを通して識別されてきたと想定される。例えば、1999年6月4日付けで出願された、Lin等による米国特許出願第09/326,750号「Method for Ordering Image Spaces to Search for Object Surfaces」を参照下さい。

0007

画像伝送コンテクストにおいて、これらの圧縮規格は、ネットワークで必要とされる帯域幅(利用可能なビットレート)の量を減少させるために必要である。ネットワークは、無線チャネルまたはインターネットを表し得る。いずれにせよ、ネットワークは、限定された容量を有し、そのリソースに対するコンテンションは、コンテンツを送信しなければならない場合に解決されなければならない。

0008

長年の間、デバイスにコンテンツをロバストに送信し、コンテンツの品質を利用可能なネットワークリソースに適応させることが可能なアーキテクチャおよびプロセスに対して多大な努力がなされてきた。コンテンツがすでに符号化されている場合、ネットワークを通してストリームが送信される前に、すでに圧縮されたビットストリームをさらに変換し、例えば、利用可能なビットレートを減少させなければならないことがある。

0009

ビットストリーム変換または「トランスコーディング(transcoding)」は、ビットレート変換レゾリューション変換、およびシンタックス変換分類され得る。ビットレート変換としては、定数ビットレート(CBR:constant bit rate)と可変ビットレート(VBR:variable bit rate)との間のビットレートスケーリングおよび変換が挙げられる。ビットレートスケーリングの基本的な機能は、入力ビットストリームを受け、受信機の新しい負荷制約合致するスケーリングされた出力ビットストリームを生成することである。ビットストリームスケーラは、トランスコーダまたはフィルタであり、ソースビットストリーム受信負荷とを合致させる。

0010

図1に示すように、通常、スケーリングは、トランスコーダ100によって成し遂げられ得る。力任せの場合、トランスコーダは、復号化器110および符号化器120を有する。圧縮された入力ビットストリーム101は、入力レートRinで完全に復号化され、次いで、新しい出力レートRout102で符号化され、出力ビットストリーム103が生成される。通常、出力レートは入力レートよりも低い。しかし、実際には、復号化されたビットストリームの符号化は非常に複雑であるため、トランスコーダにおける完全な復号化および完全な符号化はなされない。

0011

MPEG−2トランスコーディングに関する初期の研究については、Sun等によって、「Architectures for MPEG compressed bitstream scaling」、IEEE Transactions onCircuits and Systems for Video Technology、1996年4月において公開されている。この文献では、複雑度およびアーキテクチャが異なる、レートを低下させるための4つの方法が示されている。

0012

図2は、例示的な方法を示している。このアーキテクチャでは、画像ビットストリームは、一部のみが復号化される。具体的には、入力ビットストリーム201のマクロブロックは、可変長復号化(VLD)210される。入力ビットストリームはまた遅延され220、逆量子化IQ)230され、離散コサイン変換(DCT)係数を形成する。所望の出力ビットレートが与えられると、部分的に復号化されたデータは分析され240、250において新しい集合量子化器DCTブロックに適用される。次に、これらの再量子化されたブロックは、可変長コード化され(VLC)260、より低いレートの新しい出力ビットストリーム203が形成され得る。この方式は、図1に示す方式よりもはるかに簡単である。なぜなら、動きベクトルが再使用され、逆DCTオペレーションを必要としないからである。

0013

Assuncao等によるさらに最近の研究では、「A frequency domain video transcoder for dynamic bit−rate reduction ofMPEG−2 bitstream」、IEEE Transactions onCircuits and Systems for Video Technology、953〜957頁、1998年12月において、同じタスクに関する簡略化されたアーキテクチャが記載されている。ここでは、ドリフト補償のために周波数ドメインにおいて動作する動き補償(MC)ループが用いられる。近似マトリクスは、周波数ドメイン内のMCブロックを迅速に計算するために引き出される。トランスコーディングのための最良量子化器スケールを計算するためにラグランジュ最適化が用いられる。

0014

Sorial等「Joint transcoding of multipleMPEG video bitstreams」、Proceedings of the International Symposium onCircuits and Systems、Can 1999年による他の研究は、多重MPEG−2ビットストリームを共にトランスコード化する方法を提示している。Vetro等によって1999年10月1日付けで提出された、米国特許出願第09/410,552号「Estimating Rate−Distortion Characteristics of Binary Shape Data」も参照下さい。

0015

従来の圧縮規格によると、テクスチャ情報を符号化するために割り付けられたビットの数は、定量化パラメータ(QP:quantization parameter)によって制御される。上記の文献は、元のビットストリームに含まれる情報に基づいてQPを変化させることによってテクスチャビットのレートを低下させるという点では同様である。効率的なインプリメンテーションでは、情報は、通常、圧縮されたドメイン内で直接抽出され、DCTブロックのマクロブロックまたは残留エネルギーモーションに関連する測定を含み得る。このタイプの分析は、ビット割り付け分析器において見出され得る。

0016

場合によっては、ビットストリームは予め処理され得るが、トランスコーダがリアルタイムで動作することも重要である。従って、ビットストリームに関する大幅な処理遅延許容できない。例えば、トランスコーダがフレーム群から情報を抽出し、次いで、このルックアヘッド情報に基づいてコンテンツをトランスコード化することは実現可能ではない。これは、生放送またはビデオ会議では作用しない。より良好なビット割り付けにより、品質に関してはより良好なトランスコーディングを成し遂げることは可能であるが、このようなリアルタイム応用のインプリメンテーションは実用的ではない。

0017

従来のトランスコーディング方法では、ビットレートを低下させる能力が限定されていることに留意することも重要である。換言すると、出力画像のQPのみが変化する場合、どのくらいのレート低下が可能であるかには限界がある。低下は、考慮されているビットストリームに依存して限定される。QPから最大値に変更すると、通常、ビットストリームのコンテンツは大幅に低下する。空間的品質を低下させるものとしては、この他に、時間的品質の低下、即ちフレームを落したりまたはスキップすることが挙げられる。あまりに多くのフレームをスキップすることも、品質を大幅に低下させることになる。空間的品質および時間的品質の低下が共に考慮される場合、トランスコーダは、空間的品質対時間的品質におけるトレードオフに直面する。

0018

このような空間−時間トレードオフの概念はまた、符号化器においても考慮され得る。しかし、画像コーディング規格のすべてがフレームスキッピングサポートしているわけではない。例えば、MPEG−1およびMPEG−2では、グループオブピクチャ(GOP)構造は予め決定される。即ち、アンカーフレーム間のフレーム内期間および距離は固定される。この結果、すべてのピクチャが符号化されなければならない。この時間的制約を回避するために、シンタックス(syntax)は、マクロブロックのスキップを可能にする。フレーム内のすべてのマクロブロックがスキップされる場合、そのフレームは実質的にスキップされている。このスキッピングを示すために、フレーム内の各マクロブロックに対して少なくとも1つのビットが用いられる。これは、いくらかのビットレートについては効率が悪くなり得る。

0019

H.263およびMPEG−4規格はフレームスキッピングを可能にする。両規格は、参照の特定を可能にするシンタックスをサポートする。しかし、これらのフレームスキッピングは、主に、バッファ制約満足させるために用いられている。換言すると、バッファ占有率が高すぎ、オーバーフローの危険がある場合、符号化器は、フレームをスキップして、バッファへのビットの流れを減少させ、バッファにその現在のビットを送信するためのいくらかの時間を与える。

0020

このシンタックスのさらに高性能な使用によって、緊急を要しない状況における空間−時間トレードオフがなされ得る。即ち、より低い空間的品質でより多くのフレームがコード化されるか、またはより高い空間的品質でより少ないフレームがコード化される。コンテンツの複雑度に応じて、いずれかの方策を用いることによって、ともすれば、全体としてより良好な品質となり得る。MPEG−4のオブジェクトを基礎とする符号化器におけるこのトレードオフの制御方法は、1999年10月19日付けで発行された、Sun等の米国特許第5、969、764号、「Adaptive video coding method」、およびVetro等による「MPEG−4 rate control for multiple video objects」、IEEE Trans.onCircuits and Systems for Video Technology、1999年2月に記載されている。ここでは、2つの動作モード、即ち、高モードおよび低モードが導入された。出力時間レゾリューションによって決定される現在の動作モードに従って、ビットが割り付けられたように調整がなされた。

0021

上記で参照した研究を除くと、この空間−時間トレードオフの制御方法は最小限の注目しか受けていない。さらに、このような決定をするためのトランスコーダ内で利用可能な情報は、符号化器の情報とはかなり異なる。以下では、トランスコーダにおけるこのようなトレードオフをなす方法について記載する。この結果、トランスコーダは、利用可能なビットレートの低下に適応するように、ビットストリームに含まれる情報を送信する何らかの代替手段を見出さなければならない。

発明の開示

0022

この発明の目的は、低下したビットレートで伝達される情報をそれほど劣化させずに画像ビットストリームのビットレートを低下させることである。さらに、この発明の目的は、ビットストリームの画像オブジェクトを接続様式で個別に操作することによってビットレートを低下させることである。このオブジェクトを基礎とするとした方式はこのようにより微細なレベルのアクセスをするため、ビットストリーム全体の品質にそれほどの衝撃を与えずに、1つのオブジェクトの空間−時間的品質のレベルを低下させることができる。

0023

特に、この発明は、ビットストリームスケーラ、および圧縮ビットストリームの個別のオブジェクトを動作させる方法を提供する。デマルチプレクサは、圧縮入力ビットストリームから第1のビットレートを有する基本入力ビットストリームとして各画像オブジェクトを抽出する。トランスコーダは、各基本入力ビットストリームを、第2のビットレートを有する基本出力ビットストリームに変換する。トランスコーダに接続されたトランスコーディング制御ユニットは、トランスコーダに対する制御情報を生成する。マルチプレクサは、基本出力ビットストリームを第2のビットレートを有する圧縮出力ビットストリームに構成する。通常、第2のビットレートは第1のビットレートよりも低い。スケーラはまた、トランスコーディング制御ユニットに対するレートフィードバック情報を生成する出力バッファを有する。トランスコーディング制御ユニットは、トランスコーダによって生成されるオブジェクトデータから制御情報を生成するための形状分析器、テクスチャ分析器、時間分析器、および空間分析器を有し得る。
[ビットストリームの品質:Quality of Bitstream]

発明を実施するための最良の形態

0024

圧縮された入力ビットストリームを、ターゲットレート(即ち、ネットワークで利用可能なビットレート(ABR:available bit rate))で圧縮された出力ビットストリームに変換または「スケーリング:scaling」することが可能なビットストリーム配信システムについて記載する。通常、ターゲットレートは、オリジナルレートよりも小さい。換言すると、我々のトランスコーダのタスクは、通常、ネットワークリソースにおける制約または受信機負荷のために、ビットストリームをさらに圧縮することである。第1にフレームレベル、第2に画像オブジェクトレベルの2つのコンテンツを基礎とするとしたトランスコーディング技術について記載する。

0025

我々のシステムは、従来のトランスコーダの欠点、即ち、特にリアルタイム応用におけるレート変換の制限を克服することができる。従来のトランスコーディング技術は十分にレートを低下させることができるものの、コンテンツの品質は通常、激しく低下する。大抵の場合、ビットレートが低下したビットストリームで伝達される情報は全く失われてしまう。従来、ビットストリーム「品質」は、入力ビットストリームと出力ビットストリームとの間のビット毎の差として測定されてきた。

0026

ビットストリームのコンテンツの品質を維持すると共に、ターゲットレートを成し遂げることができるトランスコーディング技術について記載する。
連続変換:Continuous Conversion]

0027

従来のフレームを基礎とするトランスコーディング技術は、連続変換と定義され得る。従来の技術は、空間対時間的品質において最良のトレードオフを連続して維持することを試みるため、出力は常に、入力シーケンスを最良に表示するフレームのシーケンスである。レート上の制約を満たすため、特定のフレームがスキップされるとき、スキップされたフレーム内に含まれる情報は考慮されない。十分なフレームがスキップされると、受信されるビットストリームは、ユーザにとって意味のないものになるか、良くても満足のいくものではない。
[品質歪みメトリクス:Quality Distortion Metrics]

0028

従来の連続変換トランスコーダは、空間および時間的品質におけるトレードオフに関して、レート歪みの観点で最適な決定を下す。このようなトランスコーダでは、歪みは、通常、ノイズ比に対するピーク信号(PSNR)などの従来の任意の歪みメトリクスとしてとられる。このような変換では、歪みは、ビットストリームのコンテンツがどのくらい良好に伝達されているかの測定ではなく、むしろ元の入力ビットストリームと再構築された出力ビットストリームとの間のビット間の差(即ち、品質)である。
[ビットストリームの忠実度:Fidelity of Bitstream]

0029

低ビットレート制約下でビットシーケンスをトランスコード化するための1つの実施の形態では、少数のフレームを有するビットストリームのコンテンツについて要約する。この方法において、我々は品質に焦点を当てた従来の歪みメトリクスを用いない。むしろ、「忠実度(fidelity)」と呼ばれる新しい基準を採用する。忠実度は、コンテンツの意味論を考慮する。意味論は、ビットまたは画素を意味せず、むしろビットで表される人間にとって意味のある概念、例えば、単語、音、画像オブジェクト、画像などを意味する。

0030

忠実度は多くの方法で定義され得る。しかし、忠実度は、ここで定義するように、従来の量的な品質、例えば、ビット間の差には関連しない。むしろ、忠実度は、1つのフレームまたは任意の数のフレームが元の画像シーケンスに含まれる情報を伝達する程度、即ち、伝達される情報のコンテンツまたはより高レベルな意味を測定し、生ビットを測定するのではない。
離散要約トランスコーダ:Discrete−Summary Transcoder]

0031

忠実度は、従来の歪みメトリクスに比べ、より主観的または意味論的な測定である。しかし、我々のシステムでは、忠実度は、従来のものではないトランスコーダの性能を評価するための有用な測定である。一実施の形態による我々のトランスコーダの出力は、ビットシーケンス全体の要約を試みる比較的高い品質のフレームの限定された集合であるため、我々は、このタイプのトランスコーダを「離散要約トランスコーダ」と呼ぶ。

0032

例えば、低ビットレートでは、我々は、画像を表示するために少数の高品質なフレームを選択する。このようにして、ビットストリームの意味論上の「意味」が保存される。この離散要約トランスコーダが入力ビットストリームの高レベルな意味論的サンプリングを成し遂げる一方、連続したトランスコーダは、空間および時間ドメインにおいて画素を量的にサンプリングするだけであることに留意されたい。ビットレートがかなり限定されている状況では、我々は、「豊富な(rich)」フレームをサンプリングし、ビットストリーム内の符号化されたコンテンツの忠実度を保存する。

0033

豊富なフレームを選択的にサンプリングするため、ビットストリームにおける1つの局面、即ち動画(性能)を失い得る。連続変換トランスコーダのレート歪み性能が激しく低下するか、またはターゲットレートを満足することができない場合にのみ、好ましくは、離散要約トランスコーディングをとる。これらの条件下では、従来の連続変換トランスコーダは、滑らかな動画(性能)を失う。なぜなら、フレームレートが非常に低いため、情報配信レートは画像がぎくしゃくし(jerkyと呼ぶ現象をきたし)ユーザに不快感を与えるからである。

0034

従来の連続変換トランスコーディングに対する離散要約トランスコーディングの主な利点は、厳しいレート制約下にある連続変換トランスコーダが、情報が豊富なフレームを落とすのに対して、離散要約トランスコーダは情報が豊富なフレームを選択するよう試みることである。

0035

所定の状況に対してどのトランスコーダが最良であるかを制御するために、コンテンツネットワークデバイス(CND)マネージャについて記載する。CNDマネージャの目的は、どのトランスコーダを用いるかを選択することである。選択は、コンテンツ、ネットワーク、ユーザデバイス特性から得られるデータに基づいている。我々はまた、「オフライン」モードにおけるこれらのデバイス特性シミュレートし、ビットストリームを変化させ、後に配信することができる。
[適応可能なビットストリーム配信システム:Adaptable Bitstream Delivery System]

0036

図3に示すように、適応可能なビットストリーム配信システム300は、4つの主な構成要素、即ち、コンテンツ分類器310、モデル予測器320、コンテンツネットワークデバイスマネージャ330、および切り換え可能なトランスコーダ340を有する。

0037

システム300の目標は、圧縮されたビットストリーム301を情報コンテンツと共にネットワーク350を通してユーザデバイス360に配信することである。ビットストリームのコンテンツは、視覚データ、音声データ、テキストデータ、自然データ、合成データ、基本データ、複合データ、またはその組み合わせであり得る。ネットワークは、無線パケット切り換え型であるか、または予測不可能動作特性を有する他のネットワークであり得る。ユーザデバイスは、画像受信機固定型または移動型無線受信機、またはビットストリームの品質受信を困難にし得る内部リソース制約を有する同様の他のユーザデバイスであり得る。

0038

利点として、システムは、ビットストリームがネットワークおよびユーザデバイス特性を満足するようにさらに圧縮される必要があるときでさえ、コンテンツの意味論的忠実度を維持する。

0039

入力圧縮ビットストリームは、トランスコーダおよびコンテンツ分類器に向けられる。トランスコーダは、最終的には、ネットワークを通してユーザデバイスに向けられる出力圧縮ビットストリーム309のレートを低下させ得る。

0040

コンテンツ分類器310は、マネージャ用の入力ビットストリームからコンテンツ情報CI)302を抽出する。コンテンツ分類器の主な機能は、モーション活動、画像変化情報およびテクスチャなどのコンテンツ特性の意味論的特徴を、コンテンツネットワークマネージャにおいてレート−品質トレードオフをなすために用いられるパラメータの集合にマップすることである。このマッピング機能補助するために、コンテンツ分類器はまた、メタデータ情報303を受け得る。メタデータは、低レベルおよび高レベルであり得る。メタデータの例としては、新しく浮上しつつあるMPEG−7規格によって特定される記述子および記述方式が含まれる。

0041

このアーキテクチャでは、モデル予測器320は、ネットワーク350のダイナミックスに関し、恐らくはユーザデバイス360の特性を制約するリアルタイムフィードバック321を提供する。例えば、予測器は、ネットワーク輻輳および利用可能なビットレート(ABR)を報告する。予測器はまた、ネットワーク内でのパケット損失比に関するフィードバックを受信し、翻訳する。予測器は、現在のネットワーク状態、および長期ネットワーク予測321を見積もる。典型的には、ユーザデバイスは、リソースが限定され得る。例えば、処理パワーメモリ、および表示制約である。例えば、ユーザデバイスがセルラー電話である場合、その表示は、テキスト情報または低レゾリューション画像、またはさらに悪い場合には、単なる音声に制約され得る。これらの特性はまた、トランスコーディング様式の選択にも影響を与え得る。

0042

メタデータ303の受信に加えて、マネージャ330はまた、コンテンツ分類器310およびモデル予測器320の両方から入力を受信する。CNDは、切り換え可能なトランスコーダ340に対して最適なトランスコーディング方策が決定されるように、これらの2つの情報源からの出力データを組み合わせる。
[コンテンツ分類器:Content Classifier]

0043

パターン分析および認識の分野では、分類は、様々なレベルの画像から特徴を抽出することによって成し遂げることができる。例えば、プログラム特徴、ショット特徴、フレーム特徴、およびフレーム内のサブ領域の特徴である。特徴自体は、高性能な変換または簡単ローカルオペレータを用いて抽出され得る。特徴がどのように抽出されるかに関係なく、寸法Nの特徴空間が与えられると、各パターンは、この特徴空間内のポイントとして表示され得る。

0044

種々の異なるトレーニングパターンを入力としてこの抽出プロセスにかけ、その結果を特徴空間内でプロットすることはよく行われている。特徴集合およびトレーニングパターンが適切である場合、「クラス」と呼ばれるいくつかのポイントのクラスタが観察される。これらのクラスによって、異なるパターンを識別し、同様のパターンをグループ化することができ、観察されたクラス間境界画定することができる。通常、クラス間の境界は、分類ミスのためいくらかのコストは免れないが、全体としてのエラーを最小限にするよう試みる。

0045

適切なクラスが識別され、クラス間の適切な境界線が引かれると、ビットストリーム内の新しいパターンをすばやく分類することができる。問題によっては、これは、ニューラルネットワークまたはサポートベクトル機械などの他の公知の分類技術(Cristianiniら、「An Introduction to Support Vector Machines(および他のカーネルベースとした学習方法)」、Cambridge University Press、2000を参照)を用いて成し遂げることができる。

0046

コンテンツ分類器310は、2ステージ(IおよびII)において動作する。第1に、より高レベルな意味論が推論され得るようにビットストリームコンテンツを分類し、第2に、分類されたコンテンツをネットワークおよびユーザデバイス特性に適応する。

0047

第1のステージ(I)311では、従来の技術を用いて圧縮ビットストリームから多数の低レベルの特徴(例えば、モーション活動、テクスチャ、またはDCT係数)を抽出する。また、MPEG−7記述子および記述方式などのメタデータ303にもアクセスすることができる。メタデータが利用可能である場合、圧縮ビットストリームに対してはそれほどの作用は必要ない。この第1のステージの最終結果として、予め決定されたコンテンツ特徴の集合が意味論的クラスまたは高レベルのメタデータの限定された集合にマップされる。さらに、各意味論的クラス内で、コーディングの複雑度(即ち、複雑度は、意味論的クラスおよびネットワーク特性、ならびに恐らくはデバイス特性を条件とする)に基づいて区別する。

0048

このコンテンツの高レベルの理解は、コンテンツ情報(CI)302としてCNDマネージャ330に渡される。CI302は、切り換え可能なトランスコーダの本実施の形態の潜在的な性能を部分的に特徴づける

0049

上記の分類は、コンテンツ理解、および最終的には離散要約トランスコーディングの観点から有用であるが、中間ステージの結果としても有用である。本質的には、分類の第2ステージII 312への入力として作用する新しい集合のクラスを有する。分類の第2ステージでは、意味論的なクラスをネットワークの特徴およびデバイス特性にマップする。これらの特徴によって、システムがトランスコーディング方策を開発するのを補助するレート−品質関数の特性を決定するのを助ける。換言すると、特定の意味論的クラスが、オブジェクトの移動または画像の変化のために、バーストデータによって特徴づけられる可能性がある場合、このことは、どのくらいのリソースをネットワークが提供しなければならないかを見積もる際に考慮されなければならない。第3のステージ313については、他の実施の形態に関して以下に記載する。
[コンテンツネットワークデバイスマネージャ:Content−Network−Device Manager]

0050

コンテンツネットワークデバイス(CND)マネージャ330およびトランスコーダ340は、図4にさらに詳細に示される。CNDマネージャは、離散連続制御431およびコンテンツネットワークデバイス(CND)インテグレータ432を有する。トランスコーダ340は、複数のトランスコーダ441〜443を有する。

0051

制御431は、スイッチ450を用いて、例えば、離散要約トランスコーダ441、連続変換トランスコーダ442、または何らかの他のトランスコーダ443で、入力圧縮ビットストリーム301がどのようにトランスコード化されるべきかを決定する機能を有する。ネットワークコンテンツマネージャはまた、トランスコーダに対するターゲットレートに動的に適応し、ネットワークおよびユーザデバイスの特性を制約するリソースを考慮する。これらの2つの非常に重要な項目は、制御431によって決定される。

0052

どのように制御が最適な選択決定をなすかをより良く理解するために、図5は、複数のレート−品質関数をレート501および品質502のスケールに関してグラフで示している。連続変換トランスコーダ442の1つのレート−品質関数は、凸関数503によって示される。離散要約トランスコーダ441に対するレート−品質曲線は、一次関数504によって表される。他のトランスコーダは異なる関数を有し得る。

0053

これらの曲線が単に例示を目的として描かれたものであることに留意されたい。特定のトランスコーダに対する関数の真の形式は、コンテンツ、コンテンツがどのように分類されたか、および恐らくはネットワークおよび特性を制約するデバイスの現在の状態に応じて変化し得る。明らかに、低ビットレートでは、上記の理由のために、連続変換トランスコーダは品質が急速に劣化する。最適な品質関数505は太字で示される。この関数は、所定のビットレートおよびユーザデバイスに対して成し遂げられ得る最適な品質を最良にモデル化する。

0054

我々は、レート=T506においてトランスコーディング技術ではクロスオーバが発生することに留意する。Tよりも大きなレートについては、連続変換トランスコーダを用い、Tよりも小さいレートについては、離散要約トランスコーダを用いることが最良である。言うまでもなく、クロスオーバポイントは、コンテンツおよびネットワーク特性が変化するにつれて動的に変化する。

0055

上述したように、連続変換トランスコーダは、通常、PSNRなどの従来の歪みメトリクスを想定する。このような測定は、我々の離散要約トランスコーダには適用されないため、従来の歪みメトリクスを「忠実度」の測定にマップすることはより妥当である。忠実度は、コンテンツがどのくらい良好に意味論的に要約されるかを測定し、量的なビット間の差は測定しない。同じ品質メトリクスが与えられると、最適なトランスコーディング方策を決定する際の矛盾を避ける。
[コンテンツネットワークデバイスインテグレータ:Content−Network−Device Integrator]

0056

図4を再び参照すると、CNDインテグレータ432は、コンテンツ分類器310からのコンテンツ情報302と、モデル予測器からのネットワークデバイス予測321とを共に組み合わせるCNDマネージャの部分である。図5に示されるレート−品質関数、または他の同様の最適化関数として表されるモデルを生成するのはマネージャのこの部分である。最適な動作モデル321を形成するために、CNDインテグレータは、コンテンツ分類器からのマッピングCIおよび切り換え可能なトランスコーダ340から出力されるビットレートフィードバック351を調べる。この情報を用いて、インテグレータは、特定のモデルパラメータを有する最適なモデリング関数505を選択する。レートフィードバック351は、パラメータを動的に改良するために用いられる。インテグレータが、選択されたモデルが最適でないことを発見する場合、インテグレータは、レート−品質関数を動的に切り換える決定をすることができる。また、インテグレータは、異なるオブジェクトまたは異なるビットストリームに対していくつかの関数を追跡し、関数を個別にまたは一緒に考慮し得る。
[ネットワーク予測の影響:Impact of Network Predictions]

0057

ネットワーク予測321は、最適曲線505の特定部分を一方向または他方向に変調することによってこれらの特性関数に影響を与え得る。例えば、より高いビットレートが利用できる場合、最も注意払う必要がある。ネットワークモデルによって、特定時間で多数のビットを消費することができるが、長期の影響によって、急速に混雑し易いことが分かるため、我々のシステムは、抑制して、より低いレートで動作を続けることを選択し得る。このようにして、利用可能なビットレートの突然の低下に関する問題を回避する。これらのタイプの特性は、トランスコーダの曲線を変調することによって引き起こされ得る。
[デバイス制約の影響:Impact of Device Constrains]

0058

また、デバイス特性を考慮する必要がある。移動型デバイスは、固定型デバイスとは異なる動作特性を有する。例えば、ドップラースプレッドは、利用可能なビットレートが高いほど性能が低下し得る。従って、より低いビットレートを選択しなければならない。デバイスは、トランスコーダに影響を与え得る限定された処理、格納、および表示能力を有し得る。例えば、画像をオーディオのみのデバイスに配信することは意味がない。事実、切り換え可能なトランスコーダは、スピーチからテキストまたはデータからスピーチへの変換などを行う他のトランスコーダ443を有し得る。重要な点は、この発明の切り換え可能なトランスコーダがビットストリームコンテンツの意味論および目的地デバイスを考慮するのに対して、多くの従来のトランスコーダは利用可能なビットレートを考慮するだけであるということである。
[フレームを基礎とするトランスコーダ:Frame−Based Transcoder]

0059

フレームを基礎とするトランスコーダのトランスコーディング数の詳細は、従来技術において公知である。例えば、以下の任意の米国特許第5,991,716号(スピーチのタンデムコーティングを防止するトランスコーダ)、第5,940,130号(抽出された動き補償データバイパス転送する画像トランスコーダ)、第5,768,278号(N:1トランスコーダ)、第5,764,298号(緩和された内部復号化器/コーダインタフェースフレームジッタ要件を有するデジタルデータトランスコーダ)、第5,526,397号(切り換えトランスコーダ)、第5,334,977号(異なるビット数コード変換に用いられるADPCMトランスコーダ)、または他の同様の特許を参照のこと。これらの特許のいずれも、ビットストリームの意味論的コンテンツおよびネットワーク特性に応じて特定のトランスコーディング方策を選択する我々の技術を記載していない。以下、選択され得るオブジェクトを基礎とするビットストリームトランスコーダについて記載する。

0060

本実施の形態で強調されるのは、ビットストリームの意味論的コンテンツの最良の配信を提供するトランスコーディング方策の動的選択を可能にすることであり、実際のトランスコーディングがどのように実行されるかではない。

0061

これまで、連続変換トランスコーダおよび離散要約トランスコーダを含む切り換え可能なトランスコーダによってなされ得る異なるタイプのトレードオフについて記載してきた。これらのトランスコーダのそれぞれにおいて、最適なレート−品質曲線が想定される。
[オブジェクトを基礎とするトランスコーディング:Object−Based Transcoder]

0062

ここで、連続変換トランスコーダに対するレート−品質曲線がどのように導き出され、QPおよびフレームスキップ量などの適切な符号化パラメータがどのように決定されるかについて詳細に記載する。また、この研究をMPEG−4のコンテクストにも広げる。利用可能なビットレートおよび各画像オブジェクトの複雑度に基づいて、画像またはシーンにおいて適応するようにオブジェクトをトランスコード化またはスケーリングするフレームワークについて記載する。

0063

我々の方式は、出力レートに対する入力レートの比に応じて、様々な技術を用いてレートを低下させ得る点において適応できる。我々の目標は、複雑度が変化するオブジェクトに対して最良の全体的な品質を提供することであるため、各オブジェクトの劣化は同じである必要はない。上記のように、ここでは、フレームではなく、オブジェクトをパースする点に留意されたい。

0064

我々のシステムの新規性は、複雑度およびサイズが変化する多数のオブジェクトをトランスコード化することが可能なことであるが、さらに重要なことは、我々のシステムが、画像の全体的な品質を最適化するために、空間−時間トレードオフを行うことができる点である。柔軟性が加えられたために、オブジェクトを基礎とするビットストリームに焦点を当てる。また、特定のオブジェクトの品質を操作するために利用できる様々な手段について記載する。

0065

注目すべき主要な点は、オブジェクト自体が等しい品質でトランスコード化される必要がないことである。例えば、1つのオブジェクトのテクスチャデータは、形状情報に手をつけずに減少され得るのに対して、他のオブジェクトの形状情報はテクスチャ情報に手をつけずに減少される。ドロッピングフレームを含む他の多くの組み合わせもまた考えられ得る。ニュースクリップでは、例えば、前景のニュースキャスターに関連する情報に手をつけずに、背景に関するテクスチャおよび形状ビットと共にフレームレートを低下させることが可能である。
[オブジェクトを基礎とするトランスコーディングのためのビットストリームの品質:Quality of a Bitstream for Object−Based Transcoder]

0066

上記のように、従来のフレームを基礎とするトランスコーダは、ビットレートを十分に低下させ得る。しかし、コンテンツの品質は激しく劣化し、ビットレートが低下したビットストリームにおいて伝達される情報は全く失われ得る。従来、ビットストリームの「品質」は、入力ビットストリームと出力ビットストリームとの間のビット間の差として測定される。

0067

しかし、この発明によるオブジェクトを基礎とするトランスコーディングでは、画像全体の操作に対してもはや制約はない。意味のある画像オブジェクトに分解されたビットストリームをトランスコード化する。各オブジェクトの配信は、各オブジェクトの品質と共に、全体として異なる影響を品質に与えることが理解される。我々のオブジェクトを基礎とする方式は、このようなより繊細なアクセスレベルを有するため、ストリーム全体の品質にあまり影響を与えずに、1つのオブジェクトの空間−時間的品質のレベルを減少させることが可能となる。これは、従来のフレームを基礎とするトランスコーダによって用いられるのとは全く異なる方策である。

0068

コンテンツに関係なく画像全体のビット間の差を測定する従来のビットストリーム品質とは対照的に、我々は「知覚画像品質」の概念を導入する。知覚画像品質は、目的の情報を伝達する画像内のオブジェクトの品質に関連する。例えば、画像の背景は、さらに重要な前景オブジェクトの知覚画像品質に影響を与えずに完全に失われ得る。
[オブジェクトを基礎とするトランスコーディングフレームワーク:Object−Based Transcoding Framework]

0069

図6は、この発明の他の実施の形態によるオブジェクトを基礎とするトランスコーダ600の高レベルブロック図を示す。トランスコーダ600は、デマルチプレクサ601、マルチプレクサ602、および出力バッファ603を有する。トランスコーダ600はまた、制御情報604に従ってトランスコーディング制御ユニット(TCU)610によって動作する1つ以上のオブジェクトを基礎とするトランスコーダ800を有する。ユニット610は、形状、テクスチャ、時間、および空間分析器611〜614を有する。

0070

トランスコーダ600への入力圧縮ビットストリーム605は、1つ以上のオブジェクトを基礎とする基本的なビットストリームを有する。オブジェクトを基礎とするビットストリームは、直列または並列であり得る。ビットストリーム605の全ビットレートはRinである。トランスコーダ600からの出力圧縮ビットストリーム606はRout<Rinとなるような全ビットレートRoutを有する。

0071

マルチプレクサ601は、1つ以上の基本的なビットストリームを、オブジェクトを基礎とするトランスコーダ800のそれぞれに提供し、オブジェクトを基礎とするトランスコーダ800は、オブジェクトデータ607をTCU610に提供する。トランスコーダ800は、基本的なビットストリームをスケーリングする。スケーリングされたビットストリームは、出力バッファ603に渡される前にマルチプレクサ602で構成され、そこから受信機に渡される。バッファ606はまた、レートフィードバック情報608をTCUに提供する。

0072

上記のように、トランスコーダ800のそれぞれに渡される制御情報604は、TCUによって提供される。図6に示すように、TCUは、時間および空間レゾリューションだけでなく、テクスチャおよび形状データを分析する機能を有する。これらの新しい自由度はすべて、オブジェクトを基礎とするトランスコーディングフレームワークを、ネットワーク応用に対して非常に特有かつ望ましいものにする。MPEG−2およびH.263コーディング規格のように、MPEG−4は、動き補償およびDCTを用いて、空間−時間的な画像の冗長性を利用する。その結果、オブジェクトを基礎とするトランスコーダ800の中核は、上記のMPEG−2トランスコーダの適用である。主な相違は、形状情報が、ビットストリーム内に含まれ、テクスチャコーディング関して、ブロック間に対するDCおよびACを予測するためのツールが設けられている点である。

0073

テクスチャのトランスコーディングが形状データに依存することに注目することも重要である。換言すると、形状データは、単にパースされ無視されることはない。準拠したビットストリームのシンタックスは、復号化形状データに依存する。

0074

明らかに、我々のオブジェクトを基礎とする入力および出力ビットストリーム601〜602は、従来のフレームを基礎とする画像プログラムと全く異なる。また、MPEG−2は、動的フレームスキッピングを許容しない。ここでは、GOP構造および参照フレームは通常固定される。
テクスチャモデル:Texture Models]

0075

符号化器におけるレート制御のためのテクスチャモデルの使用は、従来技術において広範囲に記載されている。例えば、Vetro等による「MPEG−4 rate control for multiple video objects」、IEEE Trans.onCircuits and Systems for Video Technology、1999年2月、およびこの中の参考文献を参照のこと。

0076

オブジェクトを基礎とするトランスコーダ800において用いられるテクスチャモデルでは、変数Rは、画像オブジェクト(VO)に消費されるテクスチャビットを表し、変数Qは、量子化パラメータQPを示し、変数(X1、X2)は、第1次および第2次モデルパラメータを示し、変数Sは、平均絶対差などの符号化複雑度を示す。RとQとの間の関係は、
によって与えられる。VOに割り当てられるビットのターゲット量、およびSの現在値が当てられると、Qの値は、(X1、X2)の現在値に依存する。VOが符号化された後、実際に使用されたビットの数は既知であり、モデルパラメータは更新され得る。これは、前回のnフレームの結果を用いて、線形回帰によってなされ得る。
[テクスチャ分析:Texture Analysis]

0077

トランスコーディング問題は、Q、元のQPの集合、および実際のビット数がすでに与えられている点で異なる。また、空間ドメインから符号化複雑度Sを計算するよりも、新しいDCTを基礎とするとした複雑度の測定チルダSを定義しなければならない。この測定は、
として定義される。ここで、Bm(i)は、ブロックのAC係数であり、mは、コード化ブロックの集合Mにおけるマクロブロック指数であり、Mcは、その集合内のブロックの数であり、ρ(i)は、周波数に依存する重み付けである。複雑度測定は、AC係数のエネルギーを示し、ここで、高周波成分の貢献は、重み付け関数によって減少する。重み付け関数は、MPEG量子化マトリクスの関数を模倣するように選択され得る。

0078

ビットストリームで送信されるデータおよび過去の画像オブジェクトからのデータより、モデルパラメータは決定され、連続して更新され得る。実際、トランスコード化されたVOP毎にモデルを2度更新し得る。一度は、ビットストリーム内のデータを用いてトランスコード化する前、次は、QPの新しい集合であるQ’を有するテクスチャをコード化した後である。このデータポイントの数が増加するにつれて、モデルパラメータはより強力になり、より迅速に集まる。

0079

テクスチャ分析の主な目的は、歪みを最小に抑えながら、レート制約を満足するQ’を選択することである。しかし、最適性はQに依存することに留意することは重要である。従って、歪みがどのように量子化されるかに注意を払わなければならない。この点から、Qに対する依存性のために、この歪みを条件付き歪みと呼ぶ。

0080

Q’を決定するための1つの方法は、レート制御問題で用いたのと同じ方法を用いることである。このように、まず、特定時間定数ですべてのVOPに対する予算見積もり、ターゲットを調整して、バッファの現在のレベルを考慮し、このビットの合計を各オブジェクトに分配する。これらのオブジェクトを基礎とするターゲットビットレートが与えられると、QPの新しい集合は、テクスチャモデルから決定され得る。このアプローチの主な問題点は、強力になるビットの分配に依存していることである。一般に、分配は強力ではなく、条件付き歪みを制御する能力は失われてしまう。なぜなら、新しいQPは元のQPとは独立して計算されたからである。
[条件付き歪み:Conditional Distortion]

0081

この問題を克服し、Qに依存するQ’を何らかの方法で解決するために、動的プログラミングに基づいた方法について記載する。元の品質にできるだけ近い品質を維持するには、各オブジェクトのQPができるだけ変化しないことである。この条件下で、条件付き歪みを
として定義することができる。ここで、kはVOPの集合KにおけるVOP指数を示し、αkは、オブジェクトkの視覚意義または優先度を意味する。D(Q)は明示的に特定されていないが、Qに比例していることは既知であることに留意されたい。視覚的意義は、サイズおよび複雑度に対するオブジェクトの関数であり得る。
[QPサーチ空間:QP Search Space]

0082

すべてのk>に対してQ’k≧Qkであることに留意することは重要である。従って、解決空間は、図7に示される有効な解決空間に限定される。図7において、x軸は、画像オブジェクト701を示し、y軸はQPを示す。図はまた、有効なサーチ空間710、制約されたサーチ空間711、有効な経路712、および無効な経路713を示す。

0083

条件付き歪みに対して上記の数量化が与えられると、図7トレリスを通して最良の経路を検索することによって我々の問題を解決する。ここで、有効なQPはトレリス内のノードであり、各ノードは、見積りレートおよび条件付き歪みと関連する。正式には、問題は次のように記載され得る。

0084

制約された問題を制約されていない問題に変換することによって、この問題は解決する。ここで、レートおよび歪みは、ラグランジェ乗数λを通して合成される。すべてにλ≧0に対して、最適な解決は常に見出され得る。レート上の制約を満足するλの値を決定するために、周知の二分法(bisection algorithm)が用いられ得る。Ramchandran and Vetterli、「Best wavelet packet bases in the rate−distortion sense」、IEEE Trans.Image Processing、1993年4月を参照のこと。

0085

考慮されるサーチ空間が、MPEG−2トランスコーディングアルゴリズムにおいて見出されるものよりもはるかに小さいことを強調することは重要である。ここで、マクロブロック毎に量子化器の最良の集合を見出す試みがなされる。対照的に、オブジェクトを基礎とする量子化器のみ検索する。従って、我々のアプローチは非常に実用的である。
時間分析:Temporal Analysis]

0086

一般に、フレームをスキップする目的は、バッファがオーバーフローし、最終的にパケットの損失が防止されるように、バッファ占有レベルを減少させることである。フレームをスキップする他の理由は、空間的品質と時間的品質との間のトレードオフを可能にすることである。このように、より少ないフレームがコード化されるが、これらはより高い品質でコード化される。その結果、バッファがオーバーフローの危険がない場合、フレームをスキップする決定は、QP選択プロセスに組み込まれる。

0087

QPの集合のための有効な解決空間を検索する、QP選択のための提案されている技術からの構築によって、解決空間を制約することによってこの空間−時間トレードオフを成し遂げる。図7に示すように、有効な経路は、Q’のすべての要素が制約エリアに入るものである。これらの要素の1つがエリア外に入る場合、経路は、空間的品質の特定化されたレベルを維持しないという点で無効である。空間的品質は、条件付き歪みによって暗示されている。

0088

特定のオブジェクトに対する最大QPを決定するために異なる規格が用いられ得る。例えば、最大値は、オブジェクトの複雑度の関数であるか、または単に入力QPのパーセントであり得る。最大値が複雑度に基づいている場合、トランスコーダは、より高い複雑度を有するオブジェクトをより小さなQPに実質的に限定する。なぜなら、空間的品質に対するそれらの効果は最も深刻であるからである。一方、入力QPに基づいて複雑度を制限することは、トランスコーダが元々符号化されたビットストリームと比較して同様のQP分配を維持することを意味する。両アプローチは有効である。各オブジェクトに対してQPを限定する最良の方法を決定するトレードオフは、空間的品質と時間的品質との間のトレードオフに依存し得る。

0089

言うまでもなく、オブジェクトを基礎とするデータを取り扱う際の利点の1つは、一方のオブジェクトの時間的品質が他方のオブジェクトとは異なり得ることである。このように、背景オブジェクト、例えば、固定壁をスキップすることによって、例えば、ビットを節約することができる。しかし、オブジェクトは大抵の場合解体されるので、1つのオブジェクトの時間的レゾリューションを減少させることは、構成された画像に穴をあけ得る。すべてのVOPが同じ時間的レゾリューションを有するように制約を与えることによって、この問題は減少し得る。
[形状分析:Shape Analysis]

0090

画像オブジェクトの形状データをトランスコード化する際の問題を紹介するために、テクスチャ情報がどのようにしてトランスコード化されるかについて思い出してみよう。テクスチャに対するレートがデータを部分的に復号化することによって低下し得ることは周知である。大抵の場合、この部分的な復号化には、少なくとも可変長復号化(VLD)動作が実行されなければならない。逆量子化および逆DCTは省略され得る。

0091

しかし、形状データについては、これは当てはまらない。MPEG−4では、形状データは、いわゆるコンテクストを基礎とするとした数学符号化アルゴリズムによってブロック毎にコード化される。Brady、「MPEG−4 standardization methodsfor the compression of arbitrarily shaped objects」、IEEE TransCircuits and Systems for Video Technology、1999年12月を参照のこと。このアルゴリズムでは、各画素に対するコンテクストは、選択されたモードに応じて、9ビットまたは10ビットの因果テンプレートに基づいて計算される。このコンテクストは、ブロック内の確率シーケンスが数学的符号化器を駆動するように、確率ルックアップテーブルにアクセスするために用いられる。

0092

テクスチャとは対照的に、形状の部分的復号化は可能ではない。なぜなら、画素ドメインとビットストリームとの間の中間表示はないからである。従って、形状データのレゾリューションを操作するためには、データは十分に復号化されなければならない。復号化の後、1999年10月1日付けで提出された、Vetro等による米国特許出願第09/410,552号「Estimating Rate−Distortion Characteristics of Binary Shape Data」に記載されているようなモデルが、形状のレート−歪み特性を評価するために用いられ得る。
[空間分析:Spatial Analysis]

0093

レートを低下させる他の手段として、サブサンプリングによってレゾリューションを減少させることが挙げられる。MPEG−4規格のバージョン2では、動的レゾリューション変換(DRC)と呼ばれるツールがMPEG−4規格に採用されている。このツールにより、1つのオブジェクトのレゾリューション(即ち、空間的品質)を減少させると共に、他のより重要なまたは空間的に活発なオブジェクトのレゾリューションを維持することが可能である。
[アーキテクチャ:Architecture]

0094

図8は、この発明によるオブジェクトを基礎とするトランスコーダ800の構成要素を示す。従来技術におけるトランスコーディングアーキテクチャのように、符号化規格のシンタックスは、トランスコーダ800のアーキテクチャをいくぶんか指図する。ここで、MPEG−4規格に照らして我々のトランスコーダの主な特徴を記載し、これらの特徴と従来のフレームを基礎とするトランスコーディングとを対比させる。

0095

トランスコーダ800は、VOL/VOPパーサ810、形状スケーラ820、MBヘッダパーサ830、モーションパーサ840、およびテクスチャスケーラ850を有する。トランスコーダはまた、基本ビットストリーム801の様々な部分をビットストリームメモリ870に転送するバス860を有する。この包括的な格納から、基本ビットストリーム構成ユニット880は、MPEG−4規格に従った、レートが低下した圧縮ビットストリームを形成し得る。出力基本ビットストリーム809は図6のマルチプレクサに与えられる。

0096

MPEG−4では、各オブジェクトに対する基本ビットストリームは、他のビットストリームとは独立している。その結果、各オブジェクトは、画像オブジェクト層(VOL)および画像オブジェクトプレーン(VOP)ヘッダに関連づけられる。VOPヘッダは、オブジェクトを符号化するために用いた量子化パラメータ(QP)を含む。各オブジェクトに対するQPは、テクスチャ情報のモデル化および分析において後に用いられる。他のビットはすべて、図6の出力ビットストリーム606を構成する時点まで、ビットストリームメモリ870内に格納される。

0097

他の規格との最も著しい差は、MPEG−4がオブジェクトの形状をコード化できることである。VOP層から、VOPが形状情報(二進)含んでいるか否か(方形)812を見出す。方形VOPである場合には、オブジェクトは単に方形フレームであり、形状ビットをパースする必要はない。二進形状である場合には、マクロブロックが透明であるか否かを決定する813必要がある。透明なブロックは、オブジェクトの境界ボックス内にあるが、オブジェクトの境界の外側にある。このため、それに関連するモーションまたはテクスチャ情報は存在しない。

0098

形状スケーラ820は、3つのサブ構成要素、即ち、形状復号化器/パーサ821、形状ダウンサンプラ822、および形状符号化器823で構成される。ビットストリームの形状情報がスケーリングされていない場合には、形状復号化器/パーサは、単に形状パーサである。これは、トランスコーダ制御ユニット610のR−D形状分析611から受信される制御情報604によって示される。また、この場合、形状ダウンサンプラ822および形状符号化器823はディスエーブルされる。形状情報がスケーリングされている場合には、形状復号化器/パーサ821は、まず、形状情報を画素ドメイン表示に復号化しなければならない。形状のレートを低下させるために、ブロックは形状ダウンサンプラ822を用いて2または4の係数でダウンサンプリングされ、形状符号化器823を用いて再符号化され得る。変換比は、R−D形状分析611によって決定される。形状ビットが単にパースされているかまたはスケーリングされているかに関係なく、形状スケーラ820の出力は、ビットストリームバス860を介してビットストリームメモリ870に転送される。

0099

形状ビット以外に、MPEG−4シンタックスの残りは、少数の例外はあるものの、MPEG−2のそれといくぶんか同様である。マクロブロック(MB)層では、コード化されたブロックパターン(CBP)を有するビットが存在する。CBPは、マクロブロックのうちのどのブロックが少なくとも1つのAC係数を含むかを復号化器に信号で合図するために用いられる。CBPはビットストリームの構造に影響を与えるだけでなく、CBPはまたAC・DC内予測にも影響を与える。トランスコーダがこのパラメータに関連していなければならない理由は、CBPがDCTブロックの再量子化に応じて変化するからである。このため、ブロックが再量子化された後にCBPを再計算する。テクスチャスケーラのCBP再計算ユニット856はこれを成し遂げる。ユニット856は、可変長コード(VLC)855を、ビットストリームバス860を介してビットストリームメモリ870に送信し、入力ビットストリーム内に存在していたヘッダを置き換える。

0100

基本ビットストリームをパースし、関連の復号化パラメータを抽出した後、テクスチャブロック851を部分的に復号化する。このプロセスの結果は、DCTブロック係数である。空間(再サイズ)分析がイネーブルされると、オブジェクトは2または4の係数でダウンサンプリングされ得る。ブロックをダウンサンプリングする能力は、トランスコーディング制御ユニット610、および空間分析614によるダウンサンプリング係数によって示される。さらに、このダウンサンプリングは、IDCT/DCT動作を避けることができるように、DCTドメイン内で実行される。1998年11月10日付けで提出された、Baoらの米国特許第5,855,151号「Method and apparatus for down−converting a digital signal」を参照のこと。次に、DCTブロックは、係数メモリ853に一時的に格納される。このメモリから、ブロックは量子化器854に送信される。量子化器854は、新しいターゲットレートに合致するこの発明に記載の技術を用いて、R−Dテクスチャ分析612から送信されるQPに従ってブロックを量子化する。

0101

オブジェクトをスキップするために、時間的分析613は、どのビットが構成および送信され、どのビットを落とすべきかをビットストリーム構成880に示す。このように、このメモリに書き込まれたビットストリームの部分は、次の画像オブジェクトのデータによって単に上書きされる。
[インプリメンテーションおよび処理:Implementation & Processing]

0102

特定の実施の形態に関して、トランスコーダ800のアーキテクチャが単一のオブジェクトに対する構成要素を例示することに留意されたい。極端な場合、多数のオブジェクトは、図6に示すように、多数のトランスコーダでスケーリングされ得る。多重スレッド実行を考慮するソフトウェアインプリメンテーションでは、これは最も効率的な方法になり得る。ソフトウェアインプリメンテーションにおける課題は、考慮される各オブジェクトに対して適切な量のCPU処理を割り付けることである。

0103

しかし、ハードウェアインプリメンテーションでは、事情は大変異なる。ハードウェア設計者は、通常、特定の機能性を取り扱う1ピース論理を有することを好む。例えば、受信され得るMオブジェクトの最大数に対してMモーションパーサを実行するのではなく、ハードウェア設計は、多数のオブジェクトが所定時間にパースされ得るように、特定の速度で動作する単一のモーションパーサを有する。言うまでもなく、オブジェクトの数がパーサのスループットを上回っている場合、並列パーサは、まだ使用できる。主要な点は、必要なパーサの数が受信されるオブジェクトの合計よりも少なくてよく、計算が並列パーサ間で分配されることである。この概念は、トランスコーダ800のすべてのサブブロックに適用される。

0104

この発明を好ましい実施の形態の実施例により記載したが、他の様々な適応および改変は、この発明の精神および範囲内であり得ることを理解されたい。従って、添付の請求の範囲の目的は、このような変更および改変のすべてをこの発明の真の精神および範囲内でカバーすることである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ