図面 (/)

この項目の情報は公開日時点(2020年10月15日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

複数のチャネルを含む多チャネル信号を、効率的で低遅延で符号化する装置を提供する。

解決手段

多チャネル符号器において、チャネルのサンプリング値ブロック系列周波数ドメイン表現へ変換し、スペクトル値のブロック系列にジョイント多チャネル処理を適用してスペクトル値のブロックの結果系列を取得し、スペクトル値のブロックの結果系列をサンプリング値のブロックの出力系列を含む時間ドメイン表現へ変換し、サンプリング値のブロックの出力系列を符号化して符号化済み多チャネル信号を得る。

概要

背景

ステレオスピーチ及び特に会話のステレオスピーチは、立体音響音楽の記憶や配信に比べて遥かに小さな科学的注目度しか得られて来なかった。実際、スピーチ通信においては、今日でもモノラル音響の伝送が主に使用されている。しかしながら、ネットワーク帯域幅及び容量の増加に伴い、ステレオ音響技術に基づく通信はさらに普及し、より良好なリスニング経験をもたらすであろうと期待されている。

ステレオ音響オーディオ材料の効率的な符号化は、効率的な記憶又は配信のための音楽の知覚的オーディオ符号化において、長年研究されてきた。波形保存が重要となる高いビットレートにおいては、中央/サイド(M/S)ステレオとして知られる和−差ステレオ(sum-difference stereo)が長年使用されてきた。低いビットレートについては、インテンシティステレオ及び最近ではパラメトリックステレオ符号化が導入されてきた。HeAACv2及びMpegUSACのような種々の標準においては、最新の技術が採用されている。そのような技術では、2チャネル信号ダウンミクスを生成し、コンパクトな空間サイド情報を伴う。

ジョイントステレオ符号化は通常、高い周波数分解能、即ち低い時間分解能に亘って構築され、よってその信号の時間−周波数変換は、殆どのスピーチコーダにおいて実行される低遅延及び時間ドメインの処理に対して互換性を持たない。さらに、生成されるビットレートは通常は高い。

他方、パラメトリックステレオは、前処理部として符号器最前端に配置されまた後処理部として復号器の最後端に配置される、追加のフィルタバンクを使用する。従って、パラメトリックステレオは、MPEG USACにおいて実施されているように、ACELPのような従来のスピーチコーダとともに使用され得る。更に、聴覚シーンパラメトリック化は、最少量のサイド情報を用いて達成されることができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように、低遅延のために特異に設計されたものではなく、また、様々な会話シナリオに対して一貫した品質を提供するものでもない。空間的シーンの従来のパラメトリック表現において、ステレオイメージの幅は、2つの合成されたチャネルに適用されるデコリレータにより人工的に再生され、符号器により計算されかつ伝送されるチャネル間コヒーレンス(ICs)パラメータにより制御される。殆どのステレオスピーチにとって、ステレオイメージの幅を広げるこの方法は、かなり直接音であるスピーチの自然環境再現するには適切ではない。なぜならスピーチは、空間内におけるある特定位置に位置する単一の音源により(時には室内からの反響も伴って)生成されるからである。対照的に、楽器はスピーチよりも自然な幅が各段に大きいので、チャネルをデコリレートすることによってより良好に模倣され得る。

更に、マイクロホンが互いに距離を置いて配置されるA−B方式やバイノーラル録音又はレンダリングの場合のように、スピーチが非同時マイクロホン(non-coincident microphones)を用いて録音される場合にも問題が発生する。このようなシナリオは、テレカンファランス(teleconferences)においてスピーチを捕捉する場合や、多点制御ユニット(MCU)において遠方スピーカを用いて仮想の聴覚シーンを創造する場合に想定され得る。そのような場合、1つのチャネルからの信号の到達時刻は他のチャネルとは異なり、これは、X−Y(インテンシティ録音)又はM−S(中央−サイド録音)のような同時マイクロホン(coincident microphones)で実行された録音と同様ではない。そのような時間整列されていない2つのチャネルのコヒーレンスの計算は、誤って推定される恐れがあり、結果的に人工的な環境合成の失敗を招きかねない。

ステレオ処理に関する先行技術文献は、特許文献1又は特許文献2である。

特許文献3は、トランスペアレントに近い又はトランスペアレントな多チャネル符号器/復号器のスキームを開示している。多チャネル符号器/復号器のスキームは、波形タイプ残差信号を追加的に生成する。この残差信号は1つ以上の多チャネルパラメータと一緒に復号器へと伝送される。純粋にパラメトリックな多チャネル復号器とは対照的に、強化された復号器は、追加的な残差信号に起因して、改善された出力品質を有する多チャネル出力信号を生成する。符号器側では、左チャネル及び右チャネルの両方が1つの分析フィルタバンクによってフィルタリングされる。次に、各サブバンド信号について、1つのサブバンドアライメント値ゲイン値とが計算される。そのようなアライメントは、更なる処理の前に実行される。復号器側では、デ・アライメント及びゲイン処理が実行され、対応する信号が合成フィルタバンクによって合成されて、復号化済み左信号と復号化済み右信号とが生成される。

他方、パラメトリックステレオは、前処理部として符号器の最前端に配置され、また後処理部として復号器の最後端に配置される、追加のフィルタバンクを使用する。従って、パラメトリックステレオは、MPEG USACにおいて実施されているように、ACELPのような従来のスピーチコーダとともに使用され得る。更に、聴覚的シーンのパラメトリック化は、最少量のサイド情報を用いて達成されることができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように低遅延のために特異に設計されたものではなく、全体的なシステムは非常に高い算術上の遅延を示す。

概要

複数のチャネルを含む多チャネル信号を、効率的で低遅延で符号化する装置を提供する。多チャネル符号器において、チャネルのサンプリング値ブロック系列周波数ドメイン表現へ変換し、スペクトル値のブロック系列にジョイント多チャネル処理を適用してスペクトル値のブロックの結果系列を取得し、スペクトル値のブロックの結果系列をサンプリング値のブロックの出力系列を含む時間ドメイン表現へ変換し、サンプリング値のブロックの出力系列を符号化して符号化済み多チャネル信号を得る。

目的

しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように、低遅延のために特異に設計されたものではなく、また、様々な会話シナリオに対して一貫した品質を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

少なくとも2つのチャネルを含む多チャネル信号を符号化する装置であって、前記少なくとも2つのチャネルのサンプリング値ブロック系列を、前記少なくとも2つのチャネルについてのスペクトル値のブロック系列を有する周波数ドメイン表現へ変換する時間−スペクトル変換部(1000)と、スペクトル値の前記ブロック系列にジョイント多チャネル処理を適用して、前記少なくとも2つのチャネルに関係する情報を含むスペクトル値のブロックの少なくとも1つの結果系列を取得する多チャネル処理部(1010)と、スペクトル値のブロックの前記結果系列を、サンプリング値のブロックの出力系列を含む時間ドメイン表現へ変換するスペクトル時間変換部(1030)と、サンプリング値のブロックの前記出力系列を符号化して、符号化済み多チャネル信号(1510)を得るコア符号器(1040)と、を含み、前記コア符号器(1040)は、第1フレーム制御に従って作動してフレーム系列を提供するよう構成され、1フレーム開始フレーム境界(1901)と終了フレーム境界(1902)とによって区切られており、かつ前記時間−スペクトル変換部(1000)又は前記スペクトル−時間変換部(1030)は、前記第1フレーム制御と同期した第2フレーム制御に従って作動するよう構成され、前記フレーム系列の各フレームの前記開始フレーム境界(1901)又は前記終了フレーム境界(1902)は、ある窓のオーバーラップ部分開始時点又は終了時点と所定の関係にあり、前記窓は、サンプリング値の前記ブロック系列の各ブロックに対して前記時間−スペクトル変換部(1000)によって使用され、又はサンプリング値のブロックの前記出力系列の各ブロックに対して前記スペクトル−時間変換部(1030)によって使用される、符号化装置

請求項2

前記時間−スペクトル変換部(1000)によって使用される分析窓又は前記スペクトル−時間変換部(1030)によって使用される合成窓は増大するオーバーラップ部分又は減少するオーバーラップ部分を有し、前記コア符号器(1040)は先読み部分(1905)を有する時間ドメイン符号器を含むか、又はコア窓のオーバーラップ部分を有する周波数ドメイン符号器を含み、前記分析窓又は前記合成窓の前記オーバーラップ部分は、前記コア符号器の前記先読み部分(1905)以下、又は前記コア窓のオーバーラップ部分以下である、請求項1に記載の符号化装置。

請求項3

前記コア符号器(1040)は、前記出力サンプリングレートを関連して持つサンプリング値のブロックの前記出力系列から導出された1フレームをコア符号化する際に、先読み部分(1905)を使用するよう構成され、前記先読み部分(1905)は前記フレームに時間的に後続するよう配置され、前記時間−スペクトル変換部(1000)は、前記先読み部分(1905)の時間長以下である、時間長を有するオーバーラップ部分を持つ分析窓(1904)を使用するよう構成され、前記分析窓のオーバーラップ部分は窓掛け済み先読み部分(1905)を生成するために使用される、請求項1又は2に記載の符号化装置。

請求項4

前記スペクトル−時間変換部(1030)は、リドレス関数(1922)を使用して前記窓掛け済み先読み部分に対応する出力先読み部分を処理するよう構成され、前記リドレス関数は前記分析窓のオーバーラップ部分の影響が低減又は除去されるよう構成されている、請求項3に記載の符号化装置。

請求項5

前記リドレス関数は、前記分析窓のオーバーラップ部分を定義する関数に対して逆である、請求項4に記載の符号化装置。

請求項6

前記オーバーラップ部分はサイン関数平方根と比例しており、前記リドレス関数は前記サイン関数の平方根の逆数と比例しており、かつ前記スペクトル−時間変換部(1030)は、サイン関数の1.5乗と比例したオーバーラップ部分を使用するよう構成されている、請求項4又は5に記載の符号化装置。

請求項7

前記スペクトル−時間変換部(1030)は、合成窓を使用して第1出力ブロックを生成し、前記合成窓を使用して第2出力ブロックを生成するよう構成され、前記第2出力ブロックの第2部分は出力先読み部分(1905)であり、前記スペクトル−時間変換部(1030)は、前記第1出力ブロックと前記出力先読み部分(1905)を除外した前記第2出力ブロックの部分との間のオーバーラップ加算操作を使用して、1フレームのサンプリング値を生成するよう構成され、前記コア符号器(1040)は、前記出力先読み部分(1905)に対して先読み操作を適用して、前記フレームをコア符号化するための符号化情報を決定するよう構成され、かつ前記コア符号器(1040)は、前記先読み操作の結果を使用して前記フレームをコア符号化するよう構成されている、請求項1〜6のいずれか1項に記載の符号化装置。

請求項8

前記スペクトル−時間変換部(1030)は、前記合成窓を使用して、前記第2出力ブロックに後続する第3出力ブロックを生成するよう構成され、前記スペクトル−時間変換部は、前記第3出力ブロックの第1オーバーラップ部分を、前記合成窓を使用して窓掛けされた前記第2出力ブロックの前記第2部分とオーバーラップさせ、時間的に前記フレームに続く追加フレームサンプルを取得するよう構成されている、請求項7に記載の符号化装置。

請求項9

前記スペクトル−時間変換部(1030)は、前記フレームの前記第2出力ブロックを生成する際に、前記時間−スペクトル変換部(1000)によって使用された分析窓の影響を少なくとも部分的に打ち消すために、前記出力先読み部分を窓掛けせず、又は前記出力先読み部分をリドレス(1922)するよう構成され、かつ前記スペクトル−時間変換部(1030)は、前記追加フレームについての前記第2出力ブロックと前記第3出力ブロックとの間のオーバーラップ加算操作(1924)を実行し、前記合成窓を用いて前記出力先読み部分を窓掛け(1920)するよう構成されている、請求項7又は8に記載の符号化装置。

請求項10

前記スペクトル−時間変換部(1030)は、合成窓を使用して出力サンプルの第1ブロック及び出力サンプルの第2ブロックを生成するよう構成され、前記第1ブロックの第2部分と前記第2ブロックの第1部分とをオーバーラップ加算して出力サンプルの一部分を生成するよう構成され、前記コア符号器(1040)は、前記出力サンプルの一部分に対して先読み操作を適用して前記出力サンプルの一部分より時間的に前に位置する前記出力サンプルをコア符号化するよう構成され、前記先読み部分は前記第2ブロックのサンプルの第2部分を含まない、請求項1〜9のいずれか1項に記載の符号化装置。

請求項11

前記スペクトル−時間変換部(1030)は、コア符号器フレームの長さの2倍より高い時間分解能を提供する合成窓を使用するよう構成され、前記スペクトル−時間変換部(1030)は、前記合成窓を使用して出力サンプルのブロックを生成し、かつオーバーラップ加算操作を実行するよう構成され、前記コア符号器の先読み部分における全てのサンプルが前記オーバーラップ加算操作を使用して計算され、又は前記スペクトル−時間変換部(1030)は、前記出力サンプルに対して先読み操作を適用して、前記部分より時間的に前に位置する出力サンプルをコア符号化するよう構成され、前記先読み部分は前記第2ブロックのサンプルの第2部分を含まない、請求項1〜10のいずれか1項に記載の符号化装置。

請求項12

サンプリング値の1ブロックは関連する入力サンプリングレートを有し、スペクトル値の前記ブロック系列のスペクトル値の1ブロックは、前記入サンプリングレートに関係する最大入力周波数(1211)までのスペクトル値を有し、前記符号化装置は、前記スペクトル−時間変換部(1030)へ入力されるデータに対し、又は前記多チャネル処理部(1010)へ入力されるデータに対して、周波数ドメインでリサンプリング動作を実行するスペクトルドメインリサンプラ(1020)を更に含み、スペクトル値のブロックのリサンプリング済み系列の1ブロックは前記最大入力周波数(1211)とは異なる最大出力周波数(1231、1221)までのスペクトルを有し、サンプリング値のブロックの前記出力系列は前記入力サンプリングレートとは異なる関連する出力サンプリングレートを有する、請求項1〜11のいずれか1項に記載の符号化装置。

請求項13

前記スペクトルドメイン・リサンプラ(1020)は、ダウンサンプリングのために前記ブロックを切り詰めるか、又はアップサンプリングのために前記ブロックをゼロパディングするよう構成されている、請求項12に記載の符号化装置。

請求項14

前記スペクトルドメイン・リサンプラ(1020)は、前記最大入力周波数に依存しかつ前記最大出力周波数に依存するスケーリングファクタを使用して、ブロックの前記結果系列のブロックの前記スペクトル値をスケーリング(1322)するよう構成されている、請求項12又は13に記載の符号化装置。

請求項15

前記スケーリングファクタはアップサンプリングの場合に1より大きく、前記出力サンプリングレートは前記入力サンプリングレートより大きいか、又は前記スケーリングファクタはダウンサンプリングの場合に1より小さく、前記出力サンプリングレートは前記入力サンプリングレートより小さく、又は前記時間−スペクトル変換部(1000)は、スペクトル値のブロックのスペクトル値の全体数に関連した正規化を使用せずに、時間−周波数変換アルゴリズム(1311)を実行するよう構成され、前記スケーリングファクタは、リサンプリング済み系列の1ブロックのスペクトル値の数と、リサンプリング前のスペクトル値の1ブロックのスペクトル値の数との商に等しく、前記スペクトル−時間変換部は前記最大出力周波数に基づいて正規化を適用する(1331)よう構成されている、請求項14に記載の符号化装置。

請求項16

前記時間−スペクトル変換部(1000)は離散フーリエ変換アルゴリズムを実行するよう構成されるか、又は前記スペクトル−時間変換部(1030)は逆離散フーリエ変換アルゴリズムを実行するよう構成される、請求項1〜15のいずれか1項に記載の符号化装置。

請求項17

前記多チャネル処理部(1010)は、スペクトル値のブロックの追加の結果系列を得るよう構成され、前記スペクトル−時間変換部(1030)は、スペクトル値の前記追加の結果系列を追加の時間ドメイン表現(1032)へと変換するよう構成され、前記追加の時間ドメイン表現は、前記入力サンプリングレートに等しい出力サンプリングレートを関連して持つサンプリング値のブロックの追加の出力系列を含む、請求項1〜16のいずれか1項に記載の符号化装置。

請求項18

前記多チャネル処理部(1010)は、スペクトル値のブロックのさらに追加の結果系列を提供するよう構成され、前記スペクトルドメイン・リサンプラ(1020)は、周波数ドメインで前記さらに追加の結果系列のブロックをリサンプリングして、スペクトル値のブロックの追加のリサンプリング済み系列を取得するよう構成され、前記追加のリサンプリング済み系列の各ブロックは、前記最大入力周波数と異なるか又は前記最大出力周波数と異なる、追加の最大出力周波数までのスペクトル値を有し、前記スペクトル−時間変換部(1030)は、スペクトル値のブロックの前記追加のリサンプリング済み系列を、さらに追加の時間ドメイン表現へと変換するよう構成され、前記さらに追加の時間ドメイン表現は、前記入力サンプリングレート又は前記出力サンプリングレートとは異なる追加の出力サンプリングレートを関連して持つサンプリング値のブロックのさらに追加の出力系列を有する、請求項12〜17のいずれか1項に記載の符号化装置。

請求項19

前記多チャネル処理部(1010)は、ダウンミクス操作だけを使用してスペクトル値のブロックの前記少なくとも1つの結果系列として中央信号を生成するか、又はスペクトル値のブロックの追加の結果系列として追加的サイド信号を生成するよう構成されている、請求項1〜18のいずれか1項に記載の符号化装置。

請求項20

前記多チャネル処理部(1010)は、前記少なくとも1つの結果系列として中央信号を生成するよう構成され、前記スペクトルドメイン・リサンプラ(1020)は前記中央信号を前記最大入力周波数とは異なる2つの異なる最大出力周波数を有する別個の2つの系列へとリサンプリングするよう構成され、前記スペクトル−時間変換部(1030)は、リサンプリング済みの前記2つの系列を異なるサンプリングレートを有する2つの出力系列へと変換するよう構成され、前記コア符号器(1040)は、第1の出力系列を第1サンプリングレートで前処理する第1前処理部(1430c)、又は第2の出力系列を第2サンプリングレートで前処理する第2前処理部(1430d)を有し、かつ前記コア符号器は、前処理済みの前記第1又は第2の出力系列をコア符号化するよう構成されるか、又は、前記多チャネル処理部は、前記少なくとも1つの結果系列としてサイド信号を生成するよう構成され、前記スペクトルドメイン・リサンプラ(1020)は、前記サイド信号を前記最大入力周波数とは異なる2つの異なる最大出力周波数を有する2つのリサンプリング済み系列へとリサンプリングするよう構成され、前記スペクトル−時間変換部(1030)は、前記2つのリサンプリング済み系列を異なるサンプリングレートを有する2つの出力系列へと変換するよう構成され、前記コア符号器は、第1又は第2の出力系列を前処理する第1前処理部(1430c)又は第2前処理部(1430d)を有し、かつ前記コア符号器(1040)は、前処理済みの前記第1又は第2の出力系列をコア符号化(1430a,1430b)するよう構成されている、請求項12〜19のいずれか1項に記載の符号化装置。

請求項21

前記スペクトル−時間変換部(1030)は、前記少なくとも1つの結果系列を時間ドメイン表現へと、スペクトルドメイン・リサンプリングを行わずに変換するよう構成され、かつ前記コア符号器(1040)は、リサンプリングされていない出力系列をコア符号化(1430a)して、前記符号化済み多チャネル信号を取得するよう構成されるか、又は、前記スペクトル−時間変換部(1030)は、前記少なくとも1つの結果系列を時間ドメイン表現へと、スペクトルドメイン・リサンプリングを行わずかつ前記サイド信号なしで変換するよう構成され、かつ前記コア符号器(1040)は、前記サイド信号のために、リサンプリングされていない出力系列をコア符号化(1430a)して、前記符号化済み多チャネル信号を取得するよう構成されるか、又は、前記装置は、特異なスペクトルドメイン・サイド信号符号器(1430e)をさらに備えるか、又は、前記入力サンプリングレートは、8kHz、16kHz、32kHzを含む1グループのサンプリングレートの中の少なくとも1つのサンプリングレートであるか、又は、前記出力サンプリングレートは、8kHz、12.8kHz、16kHz、25.6kHz及び32kHzを含む1グループのサンプリングレートの中の少なくとも1つのサンプリングレートである、請求項1〜20のいずれか1項に記載の符号化装置。

請求項22

前記時間−スペクトル変換部(1000)は分析窓を適用するよう構成され、前記スペクトル−時間変換部(1030)は合成窓を適用するよう構成され、前記分析窓の時間長は、前記合成窓の時間長と同じ、整数倍、又は整数分の1であるか、又は前記分析窓及び前記合成窓は、それぞれ初期部分又は終了部分においてゼロパディング部分を有するか、又は前記分析窓及び前記合成窓は、窓のサイズ、オーバーラップ領域のサイズ及びゼロパディングのサイズが、12.8kHz、16kHz、25.6kHz、32kHz及び48kHzを含む1グループのサンプリングレートの中の少なくとも2つのサンプリングレートについて、それぞれ整数個のサンプルを含むか、又はsplitradix構成におけるデジタルフーリエ変換最大基数が7以下であるか、もしくは時間分解能が前記コア符号器の1フレームレート以下の値に固定されている、請求項1〜21のいずれか1項に記載の符号化装置。

請求項23

前記多チャネル処理部(1010)は、前記ブロック系列を処理して、広帯域時間アライメントパラメータ(12)を使用して時間アライメントを取得し、複数の狭帯域位相アライメントパラメータ(14)を使用して狭帯域位相アライメントを取得するよう構成され、かつアライメントされた系列を使用して結果系列としての中央信号とサイド信号とを計算するよう構成された、請求項1〜22のいずれか1項に記載の符号化装置。

請求項24

少なくとも2つのチャネルを含む多チャネル信号を符号化する方法であって、前記少なくとも2つのチャネルのサンプリング値のブロック系列を、前記少なくとも2つのチャネルについてのスペクトル値のブロック系列を有する周波数ドメイン表現へ変換するステップ(1000)と、スペクトル値の前記ブロック系列にジョイント多チャネル処理を適用(1010)して、前記少なくとも2つのチャネルに関係する情報を含むスペクトル値のブロックの少なくとも1つの結果系列を取得するステップと、スペクトル値のブロックの前記結果系列を、サンプリング値のブロックの出力系列を含む時間ドメイン表現へ変換するステップ(1030)と、サンプリング値のブロックの前記出力系列をコア符号化(1040)して、符号化済み多チャネル信号(1510)を得るステップと、を含み、前記コア符号化するステップ(1040)は、第1フレーム制御に従って作動してフレーム系列を提供し、1フレームは開始フレーム境界(1901)と終了フレーム境界(1902)とによって区切られており、かつ時間−スペクトルの変換ステップ(1000)又はスペクトル−時間の変換ステップ(1030)は、前記第1フレーム制御と同期した第2フレーム制御に従って作動し、前記フレーム系列の各フレームの前記開始フレーム境界(1901)又は前記終了フレーム境界(1902)は、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあり、前記窓は、サンプリング値のブロック系列の各ブロックに対して前記時間−スペクトルの変換ステップ(1000)によって使用され、又はサンプリング値のブロックの出力系列の各ブロックに対して前記スペクトル−時間の変換ステップ(1030)によって使用される、符号化方法

請求項25

符号化済み多チャネル信号を復号化する装置であって、コア復号化済み信号を生成するコア復号器(1600)と、前記コア復号化済み信号のサンプリング値のブロック系列を、前記コア復号化済み信号のスペクトル値のブロック系列を有する周波数ドメイン表現へと変換する時間−スペクトル変換部(1610)と、前記ブロック系列を含む系列(1615)に逆多チャネル処理を適用して、スペクトル値のブロックの少なくとも2つの結果系列(1631,1632,1635)を取得する多チャネル処理部(1630)と、スペクトル値のブロックの前記少なくとも2つの結果系列(1631,1632)を、サンプリング値のブロックの少なくとも2つの出力系列を含む時間ドメイン表現へ変換する、スペクトル−時間変換部(1640)と、を備え、前記コア復号器(1600)は、第1フレーム制御に従って作動してフレーム系列を提供するよう構成され、1フレームは開始フレーム境界(1901)と終了フレーム境界(1902)とによって区切られており、前記時間−スペクトル変換部(1610)又は前記スペクトル−時間変換部(1640)は、前記第1フレーム制御と同期した第2フレーム制御に従って作動するよう構成され、前記フレーム系列の各フレームの前記開始フレーム境界(1901)又は前記終了フレーム境界(1902)は、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあり、前記窓は、サンプリング値のブロック系列の各ブロックに対して前記時間−スペクトル変換部(1610)によって使用され、又はサンプリング値のブロックの少なくとも2つの出力系列の各ブロックに対して前記スペクトル−時間変換部(1640)によって使用される、復号化装置

請求項26

前記コア復号化済み信号は前記フレーム系列を有し、1フレームは前記開始フレーム境界(1901)と前記終了フレーム境界(1902)とを有し、前記フレーム系列のフレームを窓掛けするために前記時間−スペクトル変換部(1610)によって使用される分析窓(1914)は、オーバーラップ部分の終点と前記終了フレーム境界(1902)との間の時間ギャップ(1920)を残して前記終了フレーム境界(1902)の前で終了するオーバーラップ部分を有し、前記コア復号器(1600)は、前記分析窓(1914)を使用した前記フレームの窓掛けと並行して、前記時間ギャップ(1920)内のサンプルに対してある処理を実行するよう構成されるか、又は前記分析窓を使用した前記フレームの窓掛けと並行して、前記時間ギャップ(1920)内のサンプルに対してコア復号器後処理が実行される、請求項25に記載の復号化装置。

請求項27

前記コア復号化済み信号は前記フレーム系列を有し、1フレームは開始フレーム境界(1901)と終了フレーム境界(1902)とを有し、分析窓(1914)の第1オーバーラップ部分の始点は前記開始フレーム境界(1901)と一致し、前記分析窓(1914)の第2オーバーラップ部分の終点は前記終了フレーム境界(1902)の前に位置し、前記第2オーバーラップ部分の終点と前記終了フレーム境界との間には時間ギャップ(1920)が存在しており、前記コア復号化済み信号の次のブロックのための前記分析窓は、前記分析窓の中央の非オーバーラップ部分が前記時間ギャップ(1920)内に位置するように、配置される、請求項25又は26に記載の復号化装置。

請求項28

前記時間−スペクトル変換部(1610)によって使用される分析窓は、前記スペクトル−時間変換部(1640)によって使用される合成窓と、時間的に同一形状及び同一長さを有する、請求項25〜27のいずれか1項に記載の復号化装置。

請求項29

前記コア復号化済み信号は前記フレーム系列を有し、1フレームはある長さを有し、前記時間−スペクトル変換部(1610)によって適用される任意のゼロパディング部分を除く窓の長さは、前記フレームの長さの半分以下である、請求項25〜28のいずれか1項に記載の復号化装置。

請求項30

前記スペクトル−時間変換部(1640)は、合成窓を適用して前記少なくとも2つの出力系列の第1出力系列について窓掛け済みサンプルの第1出力ブロックを取得し、前記合成窓を適用して前記少なくとも2つの出力系列の前記第1出力系列について窓掛け済みサンプルの第2出力ブロックを取得し、前記第1出力ブロックと前記第2出力ブロックとをオーバーラップ加算して、前記第1出力系列のための出力サンプルの第1グループを取得するよう構成され、前記スペクトル−時間変換部(1640)は、合成窓を適用して前記少なくとも2つの出力系列の第2出力系列について窓掛け済みサンプルの第1出力ブロックを取得し、前記合成窓を適用して前記少なくとも2つの出力系列の前記第2出力系列について窓掛け済みサンプルの第2出力ブロックを取得し、前記第1出力ブロックと前記第2出力ブロックとをオーバーラップ加算して、前記第2出力系列のための出力サンプルの第2グループを取得するよう構成され、前記第1出力系列のための出力サンプルの第1グループと前記第2出力系列のための出力サンプルの第2グループとは、前記符号化済み多チャネル信号の同じ時間部分に関係するか、又は前記コア復号化済み信号の同じフレームに関係している、請求項25〜29のいずれか1項に記載の復号化装置。

請求項31

サンプリング値の1ブロックは関連する入力サンプリングレートを有し、スペクトル値のブロックは前記入力サンプリングレートと関連する最大入力周波数までのスペクトル値を有し、前記装置は、前記スペクトル−時間変換部(1640)へ入力されるデータに対し、又は前記多チャネル処理部(1630)へ入力されるデータに対して、周波数ドメインでリサンプリング操作を実行するスペクトルドメイン・リサンプラ(1620)をさらに含み、リサンプリング済み系列のブロックは前記最大入力周波数とは異なる最大出力周波数までのスペクトル値を有し、サンプリング値のブロックの前記少なくとも2つの出力系列は前記入力サンプリングレートとは異なる関連する出力サンプリングレートを有する、請求項25〜30のいずれか1項に記載の復号化装置。

請求項32

前記スペクトルドメイン・リサンプラ(1620)は、ダウンサンプリングのために前記ブロックを切り詰めるか、又はアップサンプリングのために前記ブロックをゼロパディングするよう構成されている、請求項31に記載の復号化装置。

請求項33

前記スペクトルドメイン・リサンプラ(1620)は、最大入力周波数に応じて及び最大出力周波数に応じて、スケーリングファクタを使用してブロックの前記結果系列のブロックのスペクトル値をスケーリング(1322)するよう構成されている、請求項31又は32に記載の復号化装置。

請求項34

前記スケーリングファクタはアップサンプリングの場合には1よりも大きく、前記出力サンプリングレートは前記入力サンプリングレートよりも大きいか、又は前記スケーリングファクタはダウンサンプリングの場合には1よりも低く、前記出力サンプリングレートは前記入力サンプリングレートよりも低く、又は前記時間-スペクトル変換部(1610)は、スペクトル値のブロックのスペクトル値の全体数に関する正規化を使用せずに、時間−周波数変換アルゴリズム(1311)を実行するよう構成され、前記スケーリングファクタは、リサンプリング済み系列の1ブロックのスペクトル値の数と、リサンプリング前のスペクトル値の1ブロックのスペクトル値の数との商に等しく、前記スペクトル−時間変換部は前記最大出力周波数に基づいて正規化を適用する(1331)よう構成されている、請求項31〜33のいずれか1項に記載の復号化装置。

請求項35

前記時間-スペクトル変換部(1610)は離散フーリエ変換アルゴリズムを実行するよう構成されているか、又は前記スペクトル−時間変換部(1640)は逆離散フーリエ変換アルゴリズムを実行するよう構成されている、請求項25〜34のいずれか1項に記載の復号化装置。

請求項36

前記コア復号器(1600)は、前記入力サンプリングレートとは異なる追加のサンプリングレートを有する追加のコア復号化済み信号(1601)を生成するよう構成され、前記時間−スペクトル変換部(1610)は、前記追加のコア復号化済み信号を前記追加のコア復号化済み信号についてのスペクトル値のブロックの追加系列(1611)を有する周波数ドメイン表現へと変換するよう構成され、前記追加のコア復号化済み信号のスペクトル値の1ブロックは、前記最大入力周波数とは異なりかつ前記追加のサンプリングレートと関連する追加の最大入力周波数までのスペクトル値を有し、前記スペクトルドメイン・リサンプラ(1620)は、周波数ドメインで前記追加のコア復号化済み信号についてのブロックの追加系列をリサンプリングして、スペクトル値のブロックの追加のリサンプリング済み系列(1621)を取得するよう構成され、前記追加のリサンプリング済み系列のスペクトル値の1ブロックは、前記追加の最大入力周波数とは異なる最大出力周波数までのスペクトル値を有し、前記装置は、リサンプリング済み系列(1622)と前記追加のリサンプリング済み系列(1621)とを結合して、前記多チャネル処理部(1630)によって処理されるべき系列(1701)を取得する、結合部(1700)を有する、請求項25〜35のいずれか1項に記載の復号化装置。

請求項37

前記コア復号器(1600)は、前記出力サンプリングレートに等しい追加のサンプリングレートを有するさらに追加のコア復号化済み信号(1603)を生成するよう構成され、前記時間−スペクトル変換部(1610)は、前記さらに追加のコア復号化済み信号(1603)を周波数ドメイン表現へ変換してスペクトル値のブロックのさらなる追加系列(1613)を得るよう構成され、前記結合部(1700)は、前記多チャネル処理部(1630)によって処理されるべきブロック系列を生成する処理の過程で、スペクトル値のブロックのさらなる追加系列(1613)とブロックのリサンプリング済み系列(1622,1621)とを結合する、請求項36に記載の復号化装置。

請求項38

前記コア復号器(1600)は、MDCTベースの復号化部(1600d)、時間ドメイン帯域幅拡張復号化部(1600c)、ACELP復号化部(1600b)、及びバスポストフィルタ復号化部(1600a)のうちの少なくとも1つを含み、前記MDCTベースの復号化部(1600d)又は前記時間ドメイン帯域幅拡張復号化部(1600c)は、前記出力サンプリングレートを有する前記コア復号化済み信号を生成するよう構成されるか、又は前記ACELP復号化部(1600b)又は前記バス・ポストフィルタ復号化部(1600a)は、前記出力サンプリングレートとは異なるサンプリングレートでコア復号化済み信号を生成するよう構成される、請求項25〜37のいずれか1項に記載の復号化装置。

請求項39

前記時間−スペクトル変換部(1610)は、複数の異なるコア復号化済み信号の少なくとも2つに対して分析窓を適用するように構成され、前記分析窓は時間的に同一サイズ又は時間に関して同一形状を有し、前記装置は、少なくとも1つのリサンプリング済み系列と前記最大出力周波数までのスペクトル値のブロックを持つ任意の他の系列とをブロック毎に結合して、前記多チャネル処理部(1630)によって処理されるべき系列を取得する、結合部(1700)をさらに含む、請求項25〜38のいずれか1項に記載の復号化装置。

請求項40

前記多チャネル処理部(1630)によって処理されるべき系列は中央信号に対応し、かつ前記多チャネル処理部(1630)は、前記符号化済み多チャネル信号に含まれたサイド信号に関する情報を使用して、サイド信号を追加的に生成するよう構成され、かつ前記多チャネル処理部(1630)は、前記中央信号と前記サイド信号とを使用して、前記少なくとも2つの結果系列を生成するよう構成されている、請求項25〜39のいずれか1項に記載の復号化装置。

請求項41

前記多チャネル処理部(1630)は、パラメータ帯域毎に1つのゲインファクタを使用して、前記系列を第1出力チャネルのための第1系列と第2出力チャネルのための第2系列とに変換(820)し、各パラメータ帯域についてステレオ充填パラメータを使用しながら、復号化済みサイド信号を用いて前記第1系列と前記第2系列とを更新(830)するか、又は、中央信号についてのブロック系列の前のブロックから予測されたサイド信号を使用して前記第1系列と前記第2系列とを更新し、複数の狭帯域位相アライメントパラメータに関する情報を使用して、位相デ・アライメントとエネルギースケーリングとを実行(910)し、かつ広帯域時間アライメントパラメータに関する情報を使用して時間デ・アライメントを実行(920)し、前記少なくとも2つの結果系列を取得するよう構成される、請求項25〜40のいずれか1項に記載の復号化装置。

請求項42

符号化済み多チャネル信号を復号化する方法であって、コア復号化済み信号を生成するステップ(1600)と、前記コア復号化済み信号のサンプリング値のブロック系列を、前記コア復号化済み信号のスペクトル値のブロック系列を有する周波数ドメイン表現へと変換するステップ(1610)と、前記ブロック系列を含む系列(1615)に逆多チャネル処理を適用(1630)して、スペクトル値のブロックの少なくとも2つの結果系列(1631,1632,1635)を取得するステップと、スペクトル値のブロックの前記少なくとも2つの結果系列(1631,1632)を、サンプリング値のブロックの少なくとも2つの出力系列を含む時間ドメイン表現へ変換するステップ(1640)と、を備え、前記コア復号化済み信号を生成するステップ(1600)は、第1フレーム制御に従って作動してフレーム系列を提供し、1フレームは開始フレーム境界(1901)と終了フレーム境界(1902)とによって区切られており、時間−スペクトルの変換ステップ(1610)又はスペクトル−時間の変換ステップ(1640)は、前記第1フレーム制御と同期した第2フレーム制御に従って作動し、前記フレーム系列の各フレームの前記開始フレーム境界(1901)又は前記終了フレーム境界(1902)は、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあり、前記窓は、サンプリング値のブロック系列の各ブロックに対して前記時間−スペクトルの変換ステップ(1610)によって使用され、又はサンプリング値のブロックの少なくとも2つの出力系列の各ブロックに対して前記スペクトル−時間の変換ステップ(1640)によって使用される、復号化方法

請求項43

コンピュータ又はプロセッサ上で実行されるとき、請求項24に記載の方法又は請求項42に記載の方法を実行するためのコンピュータプログラム

技術分野

0001

本発明は、ステレオ処理又は一般的には多チャネル処理に関し、ここで多チャネルとは、ステレオ信号の場合の左チャネル及び右チャネルのように2個のチャネルを有するか、又は3個、4個、5個もしくは他の任意の個数など、3個以上のチャネルを有するものである。

背景技術

0002

ステレオスピーチ及び特に会話のステレオスピーチは、立体音響音楽の記憶や配信に比べて遥かに小さな科学的注目度しか得られて来なかった。実際、スピーチ通信においては、今日でもモノラル音響の伝送が主に使用されている。しかしながら、ネットワーク帯域幅及び容量の増加に伴い、ステレオ音響技術に基づく通信はさらに普及し、より良好なリスニング経験をもたらすであろうと期待されている。

0003

ステレオ音響オーディオ材料の効率的な符号化は、効率的な記憶又は配信のための音楽の知覚的オーディオ符号化において、長年研究されてきた。波形保存が重要となる高いビットレートにおいては、中央/サイド(M/S)ステレオとして知られる和−差ステレオ(sum-difference stereo)が長年使用されてきた。低いビットレートについては、インテンシティステレオ及び最近ではパラメトリックステレオ符号化が導入されてきた。HeAACv2及びMpegUSACのような種々の標準においては、最新の技術が採用されている。そのような技術では、2チャネル信号ダウンミクスを生成し、コンパクトな空間サイド情報を伴う。

0004

ジョイントステレオ符号化は通常、高い周波数分解能、即ち低い時間分解能に亘って構築され、よってその信号の時間−周波数変換は、殆どのスピーチコーダにおいて実行される低遅延及び時間ドメインの処理に対して互換性を持たない。さらに、生成されるビットレートは通常は高い。

0005

他方、パラメトリックステレオは、前処理部として符号器最前端に配置されまた後処理部として復号器の最後端に配置される、追加のフィルタバンクを使用する。従って、パラメトリックステレオは、MPEG USACにおいて実施されているように、ACELPのような従来のスピーチコーダとともに使用され得る。更に、聴覚シーンパラメトリック化は、最少量のサイド情報を用いて達成されることができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように、低遅延のために特異に設計されたものではなく、また、様々な会話シナリオに対して一貫した品質を提供するものでもない。空間的シーンの従来のパラメトリック表現において、ステレオイメージの幅は、2つの合成されたチャネルに適用されるデコリレータにより人工的に再生され、符号器により計算されかつ伝送されるチャネル間コヒーレンス(ICs)パラメータにより制御される。殆どのステレオスピーチにとって、ステレオイメージの幅を広げるこの方法は、かなり直接音であるスピーチの自然環境再現するには適切ではない。なぜならスピーチは、空間内におけるある特定位置に位置する単一の音源により(時には室内からの反響も伴って)生成されるからである。対照的に、楽器はスピーチよりも自然な幅が各段に大きいので、チャネルをデコリレートすることによってより良好に模倣され得る。

0006

更に、マイクロホンが互いに距離を置いて配置されるA−B方式やバイノーラル録音又はレンダリングの場合のように、スピーチが非同時マイクロホン(non-coincident microphones)を用いて録音される場合にも問題が発生する。このようなシナリオは、テレカンファランス(teleconferences)においてスピーチを捕捉する場合や、多点制御ユニット(MCU)において遠方スピーカを用いて仮想の聴覚シーンを創造する場合に想定され得る。そのような場合、1つのチャネルからの信号の到達時刻は他のチャネルとは異なり、これは、X−Y(インテンシティ録音)又はM−S(中央−サイド録音)のような同時マイクロホン(coincident microphones)で実行された録音と同様ではない。そのような時間整列されていない2つのチャネルのコヒーレンスの計算は、誤って推定される恐れがあり、結果的に人工的な環境合成の失敗を招きかねない。

0007

ステレオ処理に関する先行技術文献は、特許文献1又は特許文献2である。

0008

特許文献3は、トランスペアレントに近い又はトランスペアレントな多チャネル符号器/復号器のスキームを開示している。多チャネル符号器/復号器のスキームは、波形タイプ残差信号を追加的に生成する。この残差信号は1つ以上の多チャネルパラメータと一緒に復号器へと伝送される。純粋にパラメトリックな多チャネル復号器とは対照的に、強化された復号器は、追加的な残差信号に起因して、改善された出力品質を有する多チャネル出力信号を生成する。符号器側では、左チャネル及び右チャネルの両方が1つの分析フィルタバンクによってフィルタリングされる。次に、各サブバンド信号について、1つのサブバンドアライメント値ゲイン値とが計算される。そのようなアライメントは、更なる処理の前に実行される。復号器側では、デ・アライメント及びゲイン処理が実行され、対応する信号が合成フィルタバンクによって合成されて、復号化済み左信号と復号化済み右信号とが生成される。

0009

他方、パラメトリックステレオは、前処理部として符号器の最前端に配置され、また後処理部として復号器の最後端に配置される、追加のフィルタバンクを使用する。従って、パラメトリックステレオは、MPEG USACにおいて実施されているように、ACELPのような従来のスピーチコーダとともに使用され得る。更に、聴覚的シーンのパラメトリック化は、最少量のサイド情報を用いて達成されることができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように低遅延のために特異に設計されたものではなく、全体的なシステムは非常に高い算術上の遅延を示す。

先行技術

0010

米国特許第5,434,948号
米国特許第8,811,621号
国際公開第2006/089570A1号

発明が解決しようとする課題

0011

本発明の目的は、効率的で低遅延を達成し得る多チャネル符号化/復号化の改善された概念を提供することである。

課題を解決するための手段

0012

この目的は、請求項1に記載の多チャネル信号を符号化する装置、請求項24に記載の多チャネル信号を符号化する方法、請求項25に記載の符号化済み多チャネル信号を復号化する装置、請求項42に記載の符号化済み多チャネル信号を復号化する方法、又は請求項43に記載のコンピュータプログラムにより達成される。

0013

本発明は、多チャネル処理、即ちジョイント多チャネル処理の少なくとも一部及び好ましくは全部が、1つのスペクトルドメイン内で実行されるという知見に基づいている。特に、ジョイント多チャネル処理のダウンミクス操作をスペクトルドメインで実行し、追加的に、時間及び位相アライメント操作、又はジョイントステレオ/ジョイント多チャネル処理のためのパラメータを分析する処理さえも実行することが好ましい。さらに、コア符号器およびスペクトルドメインで動作しているステレオ処理に関するフレーム制御同期化が実行される。

0014

コア符号器は、フレーム系列を提供するために第1フレーム制御に従って作動するよう構成され、1つのフレーム開始フレーム境界終了フレーム境界とによって区切られ、時間−スペクトル変換部又はスペクトル時間変換部は、第1フレーム制御と同期している第2フレーム制御に従って作動するよう構成され、フレーム系列の各フレームの開始フレーム境界又は終了フレーム境界は、ある窓のオーバーラップ部分開始時点又は終了時点と所定の関係にあり、その窓は、サンプリング値ブロック系列の各ブロックについて時間−スペクトル変換部(1000)によって使用され、又はサンプリング値の出力ブロック系列の各ブロックについてスペクトル−時間変換部によって使用される。

0015

本発明では、多チャネル符号器のコア符号器はフレーミング制御に従って作動するよう構成され、時間−スペクトル変換部とステレオ後処理部のスペクトル−時間変換部とリサンプラとは、別のフレーミング制御に従って作動するよう構成され、その別のフレーミング制御はコア符号器のフレーミング制御と同期している。その同期化は、コア符号器のフレーム系列の各フレームの開始フレーム境界又は終了フレーム境界が、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあるように実行される。その窓は、サンプリング値のブロック系列の各ブロックに対して又はスペクトル値リサンプリングされたブロック系列の各ブロックに対して、時間−スペクトル変換部又はスペクトル−時間変換部によって使用されたものである。このように、後続のフレーム操作を互いに同期して作動させることが確実になる。

0016

更なる実施形態において、先読み部分を用いた先読み操作(look-ahead operation)がコア符号器によって実行される。この実施形態において、その先読み部分は時間−スペクトル変換部の分析窓によっても使用され、その場合、先読み部分の時間的長さ以下の時間的長さを有する、分析窓のあるオーバーラップ部分が使用される。

0017

このように、コア符号器の先読み部分と分析窓のオーバーラップ部分とを互いに等しくすること、又は、オーバーラップ部分をコア符号器の先読み部分よりも小さくすることで、ステレオ前処理部の時間−スペクトル分析は、如何なる追加的な算術上の遅延も持たずに構成されることができる。この窓掛け済み先読み部分がコア符号器の先読み機能に対して余計な影響を与えないことを保証する目的で、分析窓関数の逆を使用して、この部分をリドレス是正)することが好ましい。

0018

それが良好な安定性を持って実行されるように、サイン窓形状の代わりにサイン窓形状の平方根が分析窓として使用され、サインの1.5乗の合成窓が、スペクトル−時間変換部の出力においてオーバーラップ操作を実行する前に合成窓掛けの目的で使用される。これにより、そのリドレス関数(redress function)が、その大きさに関してサイン関数の逆であるリドレス関数よりも小さい値を呈することが保証される。

0019

好ましくは、追加のスペクトル−時間変換部から、出力サンプリングレートで後続の接続されたコア符号器によって既に必要とされる出力信号を提供するために、多チャネル逆処理の前、又は多チャネル逆処理の後のいずれかで、スペクトルドメイン・リサンプリングが実行される。しかし、コア符号器とスペクトル−時間変換部又は時間−スペクトル変換部とのフレーム制御を同期化する本発明の手順は、スペクトルドメイン・リサンプリングが実行されないシナリオにおいても適用可能である。

0020

復号器側では、ダウンミクス信号から少なくとも第1チャネル信号と第2チャネル信号とを生成するための操作をスペクトルドメインで再度実行することが好ましく、さらに、全体の逆多チャネル処理さえもスペクトルドメインで実行するのが好ましい。さらに、時間−スペクトル変換部は、コア復号化済み信号をスペクトルドメイン表現へ変換するために設けられ、かつ周波数ドメイン内で逆多チャネル処理が実行される。

0021

コア復号器は、フレーム系列を提供するために第1フレーム制御に従って作動するよう構成され、1つのフレームは開始フレーム境界と終了フレーム境界とによって区切られている。時間−スペクトル変換部又はスペクトル−時間変換部は、第1フレーム制御と同期している第2フレーム制御に従って作動するよう構成されている。具体的には、時間−スペクトル変換部又はスペクトル−時間変換部は、第1フレーム制御と同期している第2フレーム制御に従って作動するよう構成され、フレーム系列の各フレームの開始フレーム境界又は終了フレーム境界は、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあり、その窓は、サンプリング値のブロック系列の各ブロックについて、時間−スペクトル変換部によって使用され、又はサンプリング値の少なくとも2つの出力ブロック系列の各ブロックについて、スペクトル−時間変換部によって使用される。

0022

リドレスの必要がないため、当然ながら同じ分析及び合成の窓形状を使用することが望ましい。他方、復号器側においては時間ギャップを利用することが望ましく、その時間ギャップは、復号器側の時間−スペクトル変換部の分析窓の先行するオーバーラップ部分の終点と、多チャネル復号器側のコア復号器によるフレーム出力の終了の時点との間に存在する。このように、この時間ギャップ内のコア復号器出力サンプルは、ステレオ後処理部による分析窓掛けのために直ちに必要とされる訳ではなく、次フレームを処理/窓掛けするために必要とされるだけである。そのような時間ギャップは、例えば、典型的には分析窓の中央部にある非オーバーラップ部分を使用することで形成することができ、オーバーラップ部分の短縮をもたらす。そのような時間ギャップを形成するための他の代替例も同様に利用できるが、中央の非オーバーラップ部分により時間ギャップを形成することは好ましい方法である。このように、時間ギャップは、コア復号器が周波数ドメインから時間ドメインフレームへと切り替える場合に、好ましい切り替え事象の間の他のコア復号器操作又は平滑化操作のために利用可能であり、又は、パラメータ変化符号化特性変化が発生した場合に使用できる任意の他の平滑化操作のために利用可能である。

0023

一実施形態では、スペクトルドメイン・リサンプリングは、多チャネル逆処理の前に実行されるか、又は多チャネル逆処理の後に続いて実行されるかのいずれかであり、その方法は、最終的に、スペクトル−時間変換部が、スペクトル的にリサンプリングされた信号を、時間ドメイン出力信号のために意図された出力サンプリングレートで時間ドメインへと変換するものである。

0024

したがって、この実施形態は如何なる演算集約的な時間−ドメイン・リサンプリング操作を完全に回避することを可能にする。その代わり、多チャネル処理はリサンプリングと結合される。スペクトルドメイン・リサンプリングは、好ましい実施形態では、ダウンサンプリングの場合にはスペクトルを切り詰めることにより実行され、アップサンプリングの場合にはスペクトルをゼロパディングすることにより実行される。これら簡易な操作、即ち一方ではスペクトルを切り詰め、他方ではスペクトルをゼロパディングし、及びDFT又はFFTアルゴリズムのようなスペクトルドメイン/時間ドメイン変換アルゴリズムで実行されるある種の正規化操作を構成するための好適な追加的スケーリングは、スペクトルドメイン・リサンプリング操作を非常に効率的でかつ低遅延な方法で完成させる。

0025

さらに、符号器側における少なくとも一部分又は全体のジョイントステレオ処理/ジョイント多チャネル処理、及び復号器側における対応する逆多チャネル処理は、周波数ドメインで実行されるのが好適であることが分かってきた。このことは、符号器側での最小のジョイント多チャネル処理としてのダウンミクス操作、又は復号器側での最小の逆多チャネル処理としてのアップミクス処理について当てはまるだけではない。符号器側でのステレオシーン分析と時間/位相アライメント、又は復号器側での位相と時間のデ・アライメントでさえも、同様にスペクトルドメインで実行され得る。同様のことが、符号器側で好適に実行されるサイドチャネル符号化に適用されるか、又は復号器側での2つの復号化済み出力チャネルの生成のためのサイドチャネル合成及び使用に適用される。

0026

したがって、本発明の長所は、ステレオスピーチの変換にとって既存のステレオ符号化スキームに比べて遥かに好適な新たなステレオ符号化スキームを提供することである。本発明の実施形態は、低遅延ステレオコーデックを達成し、切り替え式オーディオコーデックの中にスピーチコアコーダ及びMDCTベースのコアコーダの双方について周波数ドメインで実行される共通のステレオツールを統合する、新たな枠組みを提供することである。

0027

本発明の実施形態は、従来のM/Sステレオ又はパラメトリックステレオからの要素を混合する、ハイブリッドな手法に関係している。実施形態は、ジョイントステレオ符号化からの幾つかの態様及びツールと、パラメトリックステレオからの他の特徴とを使用する。特に、実施形態は、符号器の始点及び復号器の終点で実行される追加的な時間−周波数分析及び合成を採用する。その時間−周波数分解及び逆変換は、複素値を用いたフィルタバンク又はブロック変換のいずれかを用いて達成される。2チャネル又は多チャネルの入力から中央及びサイド信号(MS)として言及されるチャネルを出力するために、ステレオ又は多チャネル処理が入力チャネルを結合しかつ修正する。

0028

本発明の実施形態は、ステレオモジュールによって導入され、かつ特にそのフィルタバンクのフレーミング及び窓掛けから導入された、算術的遅延を低減するための解決策を提供する。それは、同じステレオ処理信号を異なるサンプリングレートで生成することによって、3GPPEVSのような切り替え式コーダ、又はACELPのようなスピーチコーダとTCXのような汎用オーディオコーダとの間の切り替えを行うコーダに対して出力する、マルチレート逆変換を提案する。さらに、実施形態はステレオ処理と同様に、低遅延でかつ低複雑性のシステムの様々な束縛に対して適応された窓掛けを提供する。さらに、実施形態は、異なる復号化済み合成結果をスペクトルドメインで結合しかつリサンプリングする方法を提供し、ここでは逆ステレオ処理も同様に適用される。

0029

本発明の好適な実施形態は、スペクトル値のスペクトルドメイン・リサンプリングされた単一のブロックを生成するだけでなく、追加的に、異なる高い又は低いサンプリングレートに対応するスペクトル値のブロックのリサンプリングされた追加的なブロック系列をさらに生成する、スペクトルドメイン・リサンプラにおけるマルチ機能を含む。

0030

さらに、多チャネル符号器は、スペクトル−時間変換部の出力において出力信号を追加的に提供するよう構成され、その出力信号は、符号器側における時間−スペクトル変換部に対して入力される、オリジナルの第1及び第2チャネル信号と同じサンプリングレートを有する。よって、実施形態において、多チャネル符号器は、MDCTベースの符号化に好適に使用されるオリジナル入力サンプリングレートにおける少なくとも1つの出力信号を提供する。更に、少なくとも1つの出力信号が、ACELP符号化について特に有用な中間サンプリングレートで提供され、加えて、さらなる出力信号をもさらなる出力サンプリングレートで提供し、そのさらなる出力サンプリングレートとは、これもACELP符号化で有用ではあるが、他の出力サンプリングレートとは異なるものである。

0031

これら手順は、多チャネル信号の第1及び第2チャネル信号から導出された、中央信号又はサイド信号のいずれか一方、又は両方の信号について実行されることができ、ここで2つのチャネルだけを(例えば低周波数強化チャネルなど追加の2つをも)有するステレオ信号の場合に、第1信号は左信号であってもよく、第2信号は右信号であってもよい。

0032

以下に添付図面を参照しながら本発明の好ましい実施形態をより詳細に説明する。

図面の簡単な説明

0033

多チャネル符号器の一実施形態のブロック図である。
スペクトルドメイン・リサンプリングの実施形態を示す。
スペクトルドメインにおいて正規化と対応するスケーリングとを用いて時間/周波数又は周波数/時間の変換を実行するための一方法を示す。
スペクトルドメインにおいて他の正規化と対応するスケーリングとを用いて時間/周波数又は周波数/時間の変換を実行するための別の方法を示す。
スペクトルドメインにおいてさらに他の正規化と対応するスケーリングとを用いて時間/周波数又は周波数/時間の変換を実行するためのさらに別の方法を示す。
所定の実施形態に係る種々の周波数分解能及び他の周波数関連の態様を示す。
符号器の一実施形態のブロック図を示す。
復号器の対応する一実施形態のブロック図を示す。
多チャネル符号器の好ましい一実施形態を示す。
多チャネル復号器の一実施形態のブロック図を示す。
結合部を含む多チャネル復号器の他の実施形態を示す。
結合部(加算)を追加的に含む多チャネル復号器の他の実施形態を示す。
複数のサンプリングレートについての窓の異なる特性を示す表を示す。
時間−スペクトル変換部及びスペクトル−時間変換部の一実施形態としてのDFTフィルタバンクについての種々の提案例/実施形態を示す。
10msの時間分解能を有するDFTの2つの分析窓の連鎖を示す。
第1の提案例/実施形態に従う符号器の概略的窓掛けを示す。
第1の提案例/実施形態に従う復号器の概略的窓掛けを示す。
第1の提案例/実施形態に従う符号器及び復号器の窓を示す。
リドレスの実施形態を表す好ましいフローチャートを示す。
リドレスの実施形態を更に表すフローチャートを示す。
復号器側の実施形態の時間ギャップを説明するフローチャートを示す。
第4の提案例/実施形態に従う符号器の概略的窓掛けを示す。
第4の提案例/実施形態に従う復号器の概略的窓掛けを示す。
第4の提案例/実施形態に従う符号器及び復号器の窓を示す。
第5の提案例/実施形態に従う符号器の概略的窓掛けを示す。
第5の提案例/実施形態に従う復号器の概略的窓掛けを示す。
第5の提案例/実施形態に従う符号器及び復号器の窓を示す。
信号処理の中でダウンミクスを使用する多チャネル処理の好ましい実施形態のブロック図である。
信号処理の中でアップミクス操作を用いる逆多チャネル処理の好ましい実施形態である。
チャネルをアライメントする目的で符号化装置内において実行される処理のフローチャートを示す。
周波数ドメインで実行される手順の好ましい実施形態を示す。
ゼロパディング部分及びオーバーラップ領域を有する分析窓を使用して符号化装置内で実行される手順の好ましい実施形態を示す。
符号化装置の一実施形態の中で実行される追加的な手順についてのフローチャートを示す。
多チャネル信号を復号化及び符号化する装置の一実施形態により実行される手順を示す。
復号化装置の好ましい一実施形態を幾つかの態様に関して示す。
符号化済み多チャネル信号の復号化の枠組み内での広帯域デ・アライメントの文脈において実行される手順を示す。

実施例

0034

図1は、少なくとも2つのチャネル1001,1002を含む多チャネル信号を符号化する装置を示す。2チャネルステレオのシナリオの場合、第1チャネル1001は左チャネル、第2チャネル1002は右チャネルであり得る。しかし、多チャネルシナリオの場合、第1チャネル1001及び第2チャネル1002は、多チャネル信号のチャネルのいずれにもなり得る。例えば、一方が左チャネルで他方が左サラウンドチャネルであってもよく、一方が右チャネルで他方が右サラウンドチャネルであってもよい。しかしながら、このようなチャネルの組合せは単なる例に過ぎず、場合に応じて他のチャネルの組合せも適用され得る。

0035

図1の多チャネル符号器は、時間−スペクトル変換部を含み、少なくとも2つのチャネルのサンプリング値のブロック系列を、その時間−スペクトル変換部の出口において周波数ドメイン表現へと変換している。各周波ドメイン表現は、少なくとも2つのチャネルの1つのためのスペクトル値のブロック系列を有する。具体的には、第1チャネル1001又は第2チャネル1002のサンプリング値のブロックが、関連する入力サンプリングレートを有し、時間−スペクトル変換部の出力の系列のスペクトル値のブロックは、入力サンプリングレートに関連付けられた最大入力周波数までのスペクトル値を有する。時間−スペクトル変換部は、図1の実施形態においては多チャネル処理部1010へと接続されている。この多チャネル処理部は、スペクトル値の系列に対してジョイント多チャネル処理を適用して、少なくとも2つのチャネルに関連する情報を含む、スペクトル値のブロックの少なくとも1つの結果系列を取得するよう構成されている。典型的な多チャネル処理の操作はダウンミクス操作であるが、好ましい多チャネル操作は追加的な処理を含み、これについては後段で説明する。

0036

コア符号器1040は、フレーム系列を提供するために第1フレーム制御に従って作動するよう構成され、1つのフレームは開始フレーム境界1901と終了フレーム境界1902とによって区切られている。時間−スペクトル変換部1000又はスペクトル−時間変換部1030は、第1フレーム制御と同期している第2フレーム制御に従って作動するよう構成され、フレーム系列の各フレームの開始フレーム境界1901又は終了フレーム境界1902は、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあり、その窓は、サンプリング値のブロック系列の各ブロックについて時間−スペクトル変換部1000によって使用され、又はサンプリング値の出力ブロック系列の各ブロックについてスペクトル−時間変換部1030によって使用される、

0037

図1に示すように、スペクトルドメイン・リサンプリングは任意選択的特徴である。この発明は、如何なるリサンプリングを用いずに実行でき、また多チャネル処理後又は多チャネル処理前にリサンプリングを用いて実行できる。使用の場合、スペクトルドメイン・リサンプラ1020は、スペクトル−時間変換部1030へ入力されるデータに対し、又は多チャネル処理部1010へ入力されるデータに対して、周波数ドメインでリサンプリング操作を実行し、スペクトル値のリサンプリング済みブロック系列の1ブロックは、最大入力周波数1211とは異なる最大出力周波数1231、1221までのスペクトル値を有する。次に、リサンプリングを用いた実施形態を説明するが、リサンプリングは任意選択的特徴であることが強調されるべきである。

0038

さらなる実施形態では、時間−スペクトル変換部1000はスペクトルドメイン・リサンプラ1020へと接続され、スペクトルドメイン・リサンプラ1020の出力は多チャネル処理部へと入力される。これは破線接続線1021,1022によって示されている。この代替的な実施形態では、多チャネル処理部は、時間−スペクトル変換部により出力されるスペクトル値のブロック系列に対してではなく、接続線1022上で利用可能なブロックのリサンプリング済み系列に対し、ジョイント多チャネル処理を適用するよう構成されている。

0039

スペクトルドメイン・リサンプラ1020は、多チャネル処理部により生成された結果系列をリサンプリングするか、又は、時間−スペクトル変換部1000により出力されたブロック系列をリサンプリングして、線1025で示すような、中央(Mid)信号を表現し得るスペクトル値のブロックのリサンプリング済み系列を取得するよう構成されている。好ましくは、スペクトルドメイン・リサンプラは、多チャネル処理部により生成されたサイド(Side)信号に対してもリサンプリングを追加的に実行し、その結果、線1026で示すような、そのサイド信号に対応するリサンプリング済み系列をも出力する。しかしながら、サイド信号の生成とそのリサンプリングは任意選択的であり、低ビットレートの実施例については必要でない。好ましくは、スペクトルドメイン・リサンプラ1020は、ダウンサンプリングを目的としてスペクトル値のブロックを切り詰めるよう構成されるか、又は、アップサンプリングを目的としてスペクトル値のブロックをゼロパディングするよう構成されている。多チャネル符号器は、スペクトル値のブロックのリサンプリング済み系列を時間ドメイン表現へと変換するスペクトル−時間変換部をさらに含み、その時間ドメイン表現は、入力サンプリングレートとは異なる出力サンプリングレートを関連して有する、サンプリング値のブロックの出力系列を含む。スペクトルドメイン・リサンプリングが多チャネル処理の前に実行されるような代替的実施形態においては、多チャネル処理部は、結果系列を破線1023を介してスペクトル−時間変換部1030へと直接的に提供する。この代替的実施形態では、追加的に、多チャネル処理部によってサイド信号がリサンプリング済み表現の中に既に生成されており、そのサイド信号もまたスペクトル−時間変換部によって処理される、という任意選択的特徴もあり得る。

0040

最後に、スペクトル−時間変換部は、好ましくは、時間ドメインの中央信号1031と、任意選択的な時間ドメインのサイド信号1032とを提供し、これら両方がコア符号器1040によってコア符号化され得る。一般的に、コア符号器は、サンプリング値のブロックの出力系列をコア符号化して、符号化済みの多チャネル信号を取得するよう構成されている。

0041

図2は、スペクトルドメイン・リサンプリングを説明するのに役立つスペクトルチャートを示す。

0042

図2の上側のチャートは、時間−スペクトル変換部1000の出力において利用可能なチャネルのスペクトルを示す。このスペクトル1210は、最大入力周波数1211までのスペクトル値を有する。アップサンプリングの場合には、最大出力周波数1221まで延びるゼロパディング部分又はゼロパディング領域1220内でゼロパディングが実行される。アップサンプリングが意図されているので、最大出力周波数1221は最大入力周波数1211よりも高い。

0043

それとは対照的に、図2最下チャートは、ブロック系列のダウンサンプリングによってもたらされる手順を示す。このため、あるブロックは切り詰め領域1230内において切り詰められ、1231にある切り詰められたスペクトルの最大出力周波数は、最大入力周波数1211よりも低くなる。

0044

典型的には、図2における対応するスペクトルに関連するサンプリングレートは、少なくとも2・(スペクトルの最大周波数)である。このように、図2の上側の場合、サンプリングレートは最大入力周波数1211の少なくとも2倍となるであろう。

0045

図2の2番目のチャートでは、サンプリングレートは、最大出力周波数1221、即ちゼロパディング領域1220の最高周波数、の少なくとも2倍となるであろう。それとは対照的に、図2の最下チャートでは、サンプリングレートは、最大出力周波数1231、即ち切り詰め領域1230内での切り詰め後に残る最高スペクトル値、の少なくとも2倍となるであろう。

0046

図3a図3cは、所定のDFT順方向又は逆方向の変換アルゴリズムの文脈において使用可能な幾つかの代替例を示す。図3aにおいては、サイズxを有するDFTが実行され、かつ順変換アルゴリズム1311内で正規化が全く発生しない状況が考慮されている。ブロック1331において、異なるサイズyを有する逆変換が示され、ここで1/Nyを用いた正規化が実行される。Nyは、サイズyを有する逆変換のスペクトル値の数である。このとき、ブロック1321で示すように、Ny/Nxによるスケーリングを実行することが望ましい。

0047

それとは対照的に、図3bは、順変換1312及び逆変換1332に対して正規化が分散されている実施例を示す。この場合、ブロック1322で示すスケーリングが必要であり、ここでは逆変換のスペクトル値の数と順変換のスペクトル値の数との間の比率の平方根が有用である。

0048

図3cは更なる実装例を示し、ここでは順変換において全体的正規化が実行され、その場合、サイズxを有する順変換が実行される。その後、図3c内の概略ブロック1323により示すようにスケーリングを全く必要とせず、ブロック1333で示す逆変換が作動する。このように、所定のアルゴリズムによるが、所定のスケーリング操作が必要となる場合もあり、全くスケーリングを必要としない場合もある。しかし、図3aに従って作動することが好ましい。

0049

全体の遅延を低く保つために、本発明が提供する方法では、符号器側において、時間ドメインリサンプラを不要とし、かつそれをDFTドメインで信号をリサンプリングすることに置き換える。例えば、EVSにおいて、時間ドメインリサンプラに起因する0.9375msの遅延を節約することが可能となる。周波数ドメインにおけるリサンプリングは、ゼロパディング又はスペクトルを切り詰めかつそれを正確にスケーリングすることで達成される。

0050

レートfxでサンプリングされサイズNxのスペクトルXを有する入力窓掛け済み信号xと、レートfyでリサンプリングされサイズNyのスペクトルを有する同じ信号のバージョンyと、を考慮する。サンプリングファクタ次式と等しくなる。
[数1]
fy/fx=Ny/Nx
ダウンサンプリングの場合、Nx>Nyである。そのダウンサンプリングは、オリジナルスペクトルXを直接的にスケーリングしかつ切り詰めることで、周波数ドメインにおいて単純に実行され得る。
[数2]
Y[k]=X[k]・Ny/Nx k=0・Ny
アップサンプリングの場合、Nx<Nyである。そのアップサンプリングは、オリジナルスペクトルXを直接的にスケーリングしかつゼロパディングすることで、周波数ドメインにおいて単純に実行され得る。
[数3]
Y[k]=X[k]・Ny/Nx k=0・Nx
Y[k]=0 k=Nx・Ny

0051

両方のリサンプリング操作をまとめると、次式となる。
[数4]
Y[k]=X[k]・Ny/Nx 全てのk=0・min(Ny,Nx)について
Y[k]=0 全てのk=min(Ny,Nx)・Nyについて、但しNy>Nxの場合

0052

一旦新たなスペクトルYが取得されると、サイズNyの関連する逆変換iDFTを適用することで、時間ドメイン信号yが取得され得る。
[数5]
y=iDFT(Y)

0053

異なるフレームに亘る連続的な時間信号を構築するために、次に信号フレームyは窓掛けされ、かつ以前に取得されたフレームに対してオーバーラップ加算される。

0054

窓形状は全てのサンプリングレートについて同じである。しかし、その窓はサンプル内で異なるサイズを有しており、サンプリングレートに依存して異なるようにサンプリングされる。形状が純粋に分析的に定義されるため、窓のサンプル数とそれらの値とは容易に導出され得る。窓の異なる部分及びサイズは、目標サンプリングレートの関数として図8a内に見つけることができる。この場合、オーバーラップしている部分(LA)におけるサイン関数が分析窓及び合成窓のために使用される。これらの領域のために、上昇するovlp_size係数は次式により与えられる。
[数6]
win_ovlp(k) = sin(pi*(k+0.5)/(2* ovlp_size));,k=0…ovlp_size-1
他方、下降するovlp_size係数は次式により与えられる。
[数7]
win_ovlp(k) = sin(pi*(ovlp_size-1-k+0.5)/(2* ovlp_size));,k=0…ovlp_size-1
ここで、ovlp_size係数はサンプリングレートの関数であって、図8aで示される。

0055

新たな低遅延ステレオ符号化は、幾つかの空間キューを利用するジョイント中央/サイド(M/S)ステレオ符号化であり、その中央チャネルは一次モノラルコアコーダによって符号化され、サイドチャネルは二次コアコーダによって符号化される。符号器及び復号器の原理図4a及び図4bに示される。

0056

ステレオ処理は主として周波数ドメイン(FD)で実行される。任意選択的に、周波数分析の前に何らかのステレオ処理が時間ドメイン(TD)で実行されることもあり得る。これはITD(チャネル間時間差)計算の場合であり、ステレオ分析の追及及び処理の前に、チャネルを時間においてアライメントするために、周波数分析の前にその計算がされて適用され得る。代替的に、ITD処理は周波数ドメインで直接的に実行され得る。ACELPのような通常のスピーチコーダは、内部的な時間−周波数分解を全く含まないので、そのステレオ符号化は、コア符号器の前の分析及び合成フィルタバンクと、コア復号器の後の分析−合成フィルタバンクの別のステージとにより、余分な複素変調されたフィルタバンクを追加することになる。好ましい実施形態においては、低いオーバーラップ領域を有するオーバーサンプル型DFTが使用される。しかしながら、他の実施形態においては、同様な時間的分解能を有する如何なる複素値の時間−周波数分解も使用可能である。以下に、ステレオ処理として、QMFのようなフィルタバンク又はDFTのようなブロック変換について言及する。

0057

ステレオ処理は、チャネル間時間差(ITD)、チャネル間位相差(IPDs)、チャネル間レベル差ILDs)、及び中央信号(M)を用いてサイド信号(S)を予測する予測ゲインなどの、空間キュー及び/又はステレオパラメータを計算することで構成される。符号器及び復号器の両方のステレオフィルタバンクは、符号化システム内での余分な遅延を導入する点に留意することが重要である。

0058

図4aは多チャネル信号を符号化する装置を示し、この実施例においては、あるジョイントステレオ処理が、時間ドメインにおいてチャネル間時間差(ITD)分析を用いて実行され、このITD分析1420の結果は、時間−スペクトル変換部1000の前に配置された時間シフトブロック1410を使用して、時間ドメイン内で適用される。

0059

次に、スペクトルドメイン内で追加的ステレオ処理1010が実行され、これにより、少なくとも中央信号Mへの左と右のダウンミクスと、任意ではあるがサイド信号Sの計算とが行われ、更に、図4aには明示されていないが、リサンプリング操作が図1に示されたスペクトルドメイン・リサンプラ1020によって実行され、そのリサンプラは、多チャネル処理の後又は多チャネル処理の前にリサンプリングを実行する、2つの異なる代替例の1つを適用できるものである。

0060

更に、図4aは、好ましいコア符号器1040の更なる詳細を示している。特に、スペクトル−時間変換部1030の出力における時間ドメイン中央信号mを符号化する目的で、EVS符号器が使用される。追加的に、MDCT符号化1440と、後続して接続されたベクトル量子化1450とが、サイド信号の符号化の目的で実行される。

0061

符号化済み又はコア符号化済みの中央信号と、コア符号化済みサイド信号とは、マルチプレクサ1500へと送られ、このマルチプレクサはこれらの符号化済み信号をサイド情報と一緒に多重化する。サイド情報の一種に、マルチプレクサに対して(及び任意選択的にステレオ処理要素1010に対しても)1421で出力されるIDパラメータがあり、更なるパラメータとしては、線1422で示すチャネル間レベル差/予測パラメータ、チャネル間位相差(IPDパラメータ)又はステレオ充填パラメータがある。これと対応するように、ビットストリーム1510により表現された多チャネル信号を復号化する図4bの装置は、デマルチプレクサ1520とコア復号器とを含み、この実施形態におけるコア復号器は、符号化済み中央信号mのためのEVS復号器1602と、ベクトル逆量子化部1603及びそれに後続して接続された逆MDCTブロック1604とからなる。ブロック1604はコア復号化済みサイド信号sを出力する。復号化済み信号m,sは、時間−スペクトル変換部1610を使用してスペクトルドメインへと変換され、次に、スペクトルドメイン内で逆ステレオ処理及びリサンプリングが実行される。また、図4bは、M信号から左L及び右Rへのアップミキシングが実行される様子を示し、更に、IPDパラメータを使用する狭帯域デ・アライメントと、線1605上のチャネル間レベル差パラメータILD及びステレオ充填パラメータを使用してできるだけ良好な左右のチャネルを計算するための追加的処理と、をも示している。更に、デマルチプレクサ1520は、ビットストリーム1510から線1605上のパラメータを抽出するだけでなく、線1606上のチャネル間時間差をも抽出し、この情報を逆ステレオ処理/リサンプラのブロックへと送り、さらに追加的に、ブロック1650内の逆時間シフト処理にも送る。この逆時間シフト処理は時間ドメイン、即ち、スペクトル−時間変換部により実行される手順の後で実行され、それら変換部は、例えばEVS復号器1602の出力におけるレートと異なるか、又はIMDCTブロック1604の出力におけるレートと異なる出力レートで、復号化済み左及び右の信号を出力する。

0062

ステレオDFTは、次に切り替え型コア符号器に追加的に送られる信号の異なるサンプリング済みバージョンを提供することができる。符号化すべき信号は、中央チャネル、サイドチャネル、又は左右のチャネルであってもよく、又は、2つの入力チャネルの回転又はチャネルマッピングから得られる如何なる信号であってもよい。切り替え型システムの異なるコア符号器は異なるサンプリングレートを受け入れるので、ステレオ合成フィルタバンクがマルチレート信号を提供できることは重要な特徴である。その原理を図5に示す。

0063

図5において、ステレオモジュールは、2つの入力チャネルlとrとを入力として受け取り、それらを周波数ドメインで信号M及びSへと変換する。ステレオ処理において、入力チャネルは、2つの新たな信号M及びSを生成するために、最終的にマッピング又は修正され得る。Mは、3GPP標準EVSモノラル又はその修正バージョンによって更に符号化される。そのような符号器は、MDCTコア(EVSの場合にはTCX及びHQコア)とスピーチコーダ(EVSにおけるACELP)との間で切り替えを行う切り替え型符号器である。符号器はまた、常時12.8kHzで作動する前処理機能と、操作モード(12.8,25.6又は32kHz)に従って変化するサンプリングレートで作動する他の前処理機能と、を有する。更に、ACELPは12.8又は16kHzで作動し、MDCTコアは入力サンプリングレートで作動する。信号Sは、標準EVSモノラル符号器(又はその修正バージョン)、又はその特性のために特別に設計された特異なサイド信号符号器のいずれかにより符号化され得る。サイド信号Sの符号化をスキップすることも可能である。

0064

図5は、ステレオ処理済み信号M及びSのマルチレート合成フィルタバンクを用いる、好ましいステレオ符号器の詳細を示す。図5は、入力レート、即ち信号1001及び1002が有する入力レートで時間−周波数変換を実行する、時間−スペクトル変換部1000を示す。図5は更に、各チャネルのための時間ドメイン分析ブロック1000a及び1000aを明示している。特に、図5では明示的な時間ドメイン分析ブロック、即ち対応するチャネルに対して分析窓を適用するための窓掛け部が示されているが、この明細書の他の箇所においては、時間ドメイン分析ブロックを適用するための窓掛け部が何らかのサンプリングレートでの「時間−スペクトル変換部」又は「DFT」として示されるブロックの中に含まれていると考えられる、という点に留意すべきである。更に、またそれに対応して、スペクトル−時間変換部についての記載は、典型的には、実際のDFTアルゴリズムの出力において、対応する合成窓を適用するための窓掛け部を含んでおり、この窓掛け部では、最後に出力サンプルを得るために、対応する合成窓を用いて窓掛けされたサンプリング値のブロックのオーバーラップ加算が実行される。従って、例えばブロック1030は「IDFT」とだけ記載しているにすぎないが、このブロックは、典型的に、次に分析窓を用いて時間ドメインサンプルのブロックを窓掛けすること、及び次にオーバーラップ加算の操作を行って最終的に時間ドメインのm信号を得ることをも示している。

0065

更に、図5は特異なステレオシーン分析ブロック1011を示しており、このブロック1011は、ステレオ処理及びダウンミクスを実行するためにブロック1010で使用されるべきパラメータを生成し、これらのパラメータは、例えば図4aの線1422又は1421上のパラメータであり得る。このように、ブロック1011は、この実施例においては図4aのブロック1420に対応してもよく、この実施例ではパラメータ分析でさえ、即ちステレオシーン分析でさえもスペクトルドメインで実行され、特に、リサンプリングされておらず入力サンプリングレートに対応した最大周波数にあるスペクトル値のブロック系列を用いて実行される。

0066

また、コア符号器1430は、MDCTベースの符号器分枝1430aとACELP符号化分枝1430bとを備える。特に、中央信号Mのための中央コーダと、サイド信号sのための対応するサイドコーダとは、MDCTベースの符号化とACELP符号化との間の切り替え符号化を行い、その場合、典型的に、コア符号器は追加的に符号化モード決定部を有し、その決定部は典型的に、あるブロック又はフレームがMDCTベースの手順又はACELPベースの手順のいずれを用いて符号化されるべきかを決定するために、ある先読み部分に対して動作する。追加的又は代替的に、コア符号器は、LPCパラメータ等のような他の特性を決定するために、先読み部分を使用するよう構成されている。

0067

さらにコア符号器は、12.8kHzで動作する第1の前処理ステージ1430cや、16kHz、25.6kHz又は32kHzからなるサンプリングレート・グループの中のサンプリングレートで動作する別の前処理ステージ1430dのように、異なるサンプリングレートでの処理ステージを追加的に含む。

0068

従って一般的には、図5に示す実施形態は、8kHz、16kHz又は32kHzであり得る入力レートから、8、16又は32kHzとは異なるいずれかの出力レートへとリサンプリングするためのスペクトルドメイン・リサンプラを有するように構成されている。

0069

さらに図5の実施形態では、リサンプリングされない追加的分枝、即ち中央信号及び必要に応じてサイド信号のための「入力レートにおけるIDFT」で示される分枝を有するよう構成される。

0070

さらに図5の符号器は、好ましくは前処理器1430c及び1430dの両方のためのデータを持つように、第1の出力サンプリングレートだけでなく第2の出力サンプリングレートへもリサンプリングするリサンプラを含み、これら前処理部は、例えば何らかの種類のフィルタリング、何らかの種類のLPC計算、又は何らかの種類の他の信号処理を実行するよう作動され、これら処理は、好ましくは図4aの文脈で上述したEVS符号器についての3GPP標準において開示されている。

0071

図6は、符号化済み多チャネル信号1601を復号化するための装置の実施例を示す。この復号化装置は、コア復号器1600、時間−スペクトル変換部1610、任意選択的なスペクトルドメイン・リサンプラ1620、多チャネル処理部1630及びスペクトル−時間変換部1640を備えている。

0072

コア復号器1600は、フレーム系列を提供するために第1フレーム制御に従って作動するよう構成され、1つのフレームは開始フレーム境界1901と終了フレーム境界1902とによって区切られている。時間−スペクトル変換部1610又はスペクトル−時間変換部1640は、第1フレーム制御と同期している第2フレーム制御に従って作動するよう構成されている。時間−スペクトル変換部1610又はスペクトル−時間変換部1640は、第1フレーム制御と同期している第2フレーム制御に従って作動するよう構成され、フレーム系列の各フレームの開始フレーム境界1901又は終了フレーム境界1902は、ある窓のオーバーラップ部分の開始時点又は終了時点と所定の関係にあり、その窓は、サンプリング値のブロック系列の各ブロックについて時間−スペクトル変換部1610によって使用され、又はサンプリング値の少なくとも2つの出力ブロック系列の各ブロックについてスペクトル−時間変換部1640によって使用される。

0073

符号化済み多チャネル信号1601を復号化するための装置に関する場合であっても、本発明は、複数の代替的な実施例において実施可能である。1つ目の代替例では、スペクトルドメイン・リサンプラが全く使用されない。他の代替例では、あるリサンプラが使用され、かつ多チャネル処理を実行する前に、そのリサンプラがコア復号化済み信号をスペクトルドメインでリサンプリングするよう構成されている。この代替例は図6実線で示される。しかしながら、さらなる代替例では、スペクトルドメイン・リサンプリングが多チャネル処理の後で実行され、即ち、多チャネル処理は入力サンプリングレートで行われる。この実施例は図6では破線で示される。この代替例が使用された場合には、スペクトルドメイン・リサンプラ1620は、スペクトル−時間変換部1640へ入力されるデータに対して、又は多チャネル処理部1630に入力されるデータに対して、リサンプリング操作を周波数ドメインで実行し、リサンプリング済み系列の1ブロックは、最大入力周波数とは異なる最大周波数までのスペクトル値を有する。

0074

特に最初の実施例、即ちスペクトルドメイン・リサンプリングが多チャネル処理の前にスペクトルドメインにおいて実行される場合には、サンプリング値のブロック系列を表現するコア復号化済み信号は、線1611においてコア復号化済み信号についてのスペクトル値のブロック系列を有する、周波数ドメイン表現へと変換される。

0075

加えて、コア復号化済み信号は、線1602におけるM信号を含むだけでなく、線1603におけるサイド信号をも含み、その場合、サイド信号は線1604においてコア符号化済み表現の中で示されている。

0076

その場合、時間−スペクトル変換部1610は、線1612で示すサイド信号のためのスペクトル値のブロック系列も追加的に生成する。

0077

次に、スペクトルドメイン・リサンプリングがブロック1620により実行され、中央信号又はダウンミクス又は第1チャネルに関するスペクトル値のブロックのリサンプリング済み系列が、線1621で多チャネル処理部へと送られ、任意選択的に、サイド信号のためのスペクトル値のブロックのリサンプリング済み系列もまた、スペクトルドメイン・リサンプラ1620から多チャネル処理部1630へと線1622を介して送られる。

0078

次に、多チャネル処理部1630は、線1621及び1622で示されるダウンミクス信号からの系列と任意選択的にサイド信号からの系列とを含む系列に対し、逆多チャネル処理を実行し、それにより、線1631及び1632で示されるスペクトル値のブロックの少なくとも2つの結果系列を出力する。これら少なくとも2つの系列は、次にスペクトル−時間変換部を使用して時間ドメインへと変換され、時間ドメインチャネル信号1641及び1642を出力する。線1615で示される他の実施例においては、時間−スペクトル変換部が中央信号などのコア復号化済み信号を多チャネル処理部へと供給するよう構成されている。追加的に、時間−スペクトル変換部は、復号化済みサイド信号1603をそのスペクトルドメイン表現において多チャネル処理部1630へと供給することもできる。しかし、この選択肢図6には示されていない。次に、多チャネル処理部は逆処理を実行し、少なくとも2つのチャネルの出力は接続線1635を介してスペクトルドメイン・リサンプラへと送られ、次にリサンプラはリサンプリングされた少なくとも2つのチャネルを線1625を介してスペクトル−時間変換部1640へと送る。

0079

このように、図1の文脈で説明したことに少し類似しているが、符号化済み多チャネル信号を復号化する装置もまた2つの選択肢を含んでいる。即ち、スペクトルドメイン・リサンプリングが逆多チャネル処理の前に実行される場合と、又は代替的に、スペクトルドメイン・リサンプリングが入力サンプリングレートでの多チャネル処理の後に実行される場合である。しかしながら、好ましくは第1の選択肢が実行される。なぜなら、図7a図7bに示されるように、様々な信号寄与の有利なアライメントが可能になるからである。

0080

図7aもコア復号器1600を示すが、ここでは3つの異なる出力信号を出力する。即ち、出力サンプリングレートとは異なるサンプリングレートでの第1出力信号1601と、入力サンプリングレートつまりコア符号化済み信号1601の根底にあるサンプリングレートでの第2コア復号化済み信号1602とを出力し、更にコア復号器は、出力サンプリングレートつまり図7aのスペクトル−時間変換部1640の出力において最終的に意図されるサンプリングレートで動作可能かつ利用可能な、第3出力信号1603をも追加的に生成する。

0081

全ての3つのコア復号化済み信号は時間−スペクトル変換部1610へと入力され、その変換部は、スペクトル値のブロックの3つの異なる系列1613,1611及び1612を生成する。

0082

スペクトル値のブロック系列1613は、最大出力周波数までの周波数又はスペクトル値を有しており、よって出力サンプリングレートと関連付けられる。

0083

スペクトル値のブロック系列1611は、異なる最大周波数までのスペクトル値を有しており、よってこの信号は出力サンプリングレートとは対応しない。

0084

更に、信号1612もまた最大出力周波数とは異なる最大入力周波数までのスペクトル値を有している。

0085

そのため、系列1612及び1611はスペクトルドメイン・リサンプラ1620へと送られるのに対し、信号1613は、この信号が既に正確な出力サンプリングレートと関連しているため、スペクトルドメイン・リサンプラ1620には送られない。

0086

スペクトルドメイン・リサンプラ1620は、スペクトル値のリサンプリング済み系列を結合部1700へと送り、その結合部は、オーバーラップしている状況に対応する信号について、スペクトル線同士を用いたブロック毎の結合を実行するよう構成されている。つまり、典型的には、MDCTベースの信号からACELP信号への切り替えの間にクロスオーバー領域があり、このオーバーラップ領域の中で複数の信号値が存在し、相互に結合される。しかしながら、このオーバーラップ領域が終了し、例えば一つの信号が信号1603内だけで存在して、例えば信号1602が存在しない場合、結合部はこの部分ではブロック毎のスペクトル線加算を行わないであろう。しかしながら、後で切り替えが発生した場合、ブロック毎のスペクトル線加算がこのクロスオーバー領域の期間中に実行されるであろう。

0087

さらに、図7bに示すように連続的な加算もまた可能であり、ここでは、ブロック1600aで示すバスポストフィルタが実行され、それによりハーモニック誤差信号を発生させ、その信号は例えば図7aの信号1601であり得る。次に、ブロック1610における時間−スペクトル変換と、後続のスペクトルドメイン・リサンプリング1620とに続いて、図7bのブロック1700における加算を実行する前に、追加的なフィルタリング操作1702が実行されることが好ましい。

0088

同様に、MDCTベースの復号化ステージ1600dと、時間ドメイン帯域幅拡張復号化ステージ1600cとが、クロスフェーディングブロック1704を介して連結されることができ、これによりコア復号化済み信号1603を取得し、それが次に出力サンプリングレートにおけるスペクトルドメイン表現へと変換される。その結果、この信号1613については、スペクトルドメイン・リサンプリングは不要であり、この信号は結合部1700へと直接的に出力され得る。結合部1700の後には、ステレオ逆処理又は多チャネル処理1603が行われる。

0089

このように、図6の実施例とは対照的に、多チャネル処理部1630は、スペクトル値のリサンプリング済み系列に対して操作するのではなく、1622や1621のようなスペクトル値の少なくとも1つのリサンプリング済み系列を含む系列に対して操作するものであり、多チャネル処理部1630が操作する系列は、リサンプリングされる必要がなかった系列1613を追加的に含む。

0090

図7に示すように、異なるサンプリングレートで作動している異なるDFTから到来する異なる復号化済み信号は、既に時間アライメントされている。なぜなら、異なるサンプリングレートにおける分析窓同士が同じ形状を有するからである。しかしながら、それらスペクトルは異なるサイズ及びスケーリングを示す。それらを調和させかつ互換性を持たせるために、相互に加算される前に、全てのスペクトルが周波数ドメインにおいて所望の出力サンプリングレートでリサンプリングされる。

0091

このように、図7は、ある合成信号の様々な寄与の結合をDFTドメインで示すものであり、ここで、スペクトルドメイン・リサンプリングが次のように実行される。すなわち、最終的に、結合部1700により加算されるべき全ての信号がスペクトル値を持って既に利用可能であり、それらスペクトル値が出力サンプリングレートに対応する最大出力周波数まで延びており、その出力サンプリングレートはスペクトル−時間変換部1640の出力において取得される出力サンプリングレートの半分以下である。

0092

ステレオフィルタバンクの選択は低遅延システムにとって決定的に重要であり、図8bにはその達成可能な妥協点がまとめられている。ステレオフィルタバンクは、DFT(ブロック変換)、又はCLDFB(フィルタバンク)と称される疑似低遅延QMFのいずれかを使用し得る。各提案例は、異なる遅延、時間及び周波数分解能を示す。システムにとって、これらの特性間の最良折衷点が選択されるべきである。良好な周波数及び時間分解能を持つことが重要である。そのため、提案例3に記載の疑似QMFフィルタバンクの使用は問題を含み得る。周波数分解能が低いからである。この低さは、MPEG−USACのMPS212にあるようなハイブリッド手法により補強され得るが、複雑性及び遅延の両方を有意に増大させるという欠点を有する。他の重要な点は、コア復号器と逆ステレオ処理との間の、復号器側における利用可能な遅延である。この遅延は大きければ大きいほど良い。例えば提案例2は、そのような遅延を提供することができず、そのため価値ある解決策ではない。上述した理由により、以下の明細書では提案例1,4,5に焦点を当てて説明する。

0093

フィルタバンクの分析及び合成窓は、もう一つの重要な特徴である。好ましい実施形態において、DFTの分析及び合成のために同じ窓が使用される。この点については、符号器側でも復号器側でも同様である。以下の制約を満たすために、特別な注意が払われた。
・オーバーラップ領域は、MDCTコア及びACELP先読みのオーバーラップ領域以下でなくてはならない。好ましい実施形態では、全てのサイズは8.75msに等しい。
・DFTドメインにおけるチャネルの線形シフトの適用を可能にするため、ゼロパディングは少なくとも約2.5msでなければならない。
窓サイズ、オーバーラップ領域サイズ及びゼロパディングサイズは、異なるサンプリングレート12.8,16,25.6,32,48kHzについて、整数個のサンプルで示さなければならない。
・DFTの複雑性はできるだけ低くしなければならない。即ち、split−radixFFT型におけるDFTの最大基数(maximum radix)はできるだけ低くしなければならない。
・時間分解能は10msに固定される。

0094

これらの制約を考慮した上で、提案例1及び4のための窓を図8c及び図8aで説明する。

0095

図8cは、初期オーバーラップ部分1801と、それに続く中間部分1803と、終端オーバーラップ部分又は第2オーバーラップ部分1802とから成る第1窓を示す。更に、第1オーバーラップ部分1801と第2オーバーラップ部分1802とは、その開始部のゼロパディング部分1804と終了部のゼロパディング部分1805とを追加的に含む。

0096

更に、図8cは、図1の時間−スペクトル変換部1000又は代替的に図7aの1610のフレーミングに関して実行される手順についても示している。構成要素1811、即ち第1オーバーラップ部分と、中間の非オーバーラップ部分1813と、第2オーバーラップ部分1812とから成る追加的な分析窓は、第1窓と50%オーバーラップしている。この第2窓も、それらの開始部及び終了部において、ゼロパディング部分1814及び1815を追加的に含む。これらのゼロオーバーラップ部分は、周波数ドメインで広帯域時間アライメントを実行するために必要である。

0097

更に、図示するように、第2窓の第1オーバーラップ部分1811は、第1窓の非オーバーラップ部分である中間部分1803の終点で開始し、かつ、第2窓の非オーバーラップ部分、即ち非オーバーラップ部分1813は、第1窓の第2オーバーラップ部分1802の終点で開始する。

0098

図8cが、符号器のための図1のスペクトル−時間変換部1030又は復号器のためのスペクトル−時間変換部1640のような、スペクトル−時間変換部におけるオーバーラップ加算操作を表現していると考えた場合には、ブロック1801,1802,1803,1805,1804から成る第1窓はある合成窓に対応し、ブロック1811,1812,1813,1814,1815から成る第2窓は次のブロックのための合成窓に対応する。その場合、窓間のオーバーラップはオーバーラップ部分を示し、そのオーバーラップ部分は1820で示され、そのオーバーラップ部分の長さは現フレームの2分の1と等しく、好ましい実施形態においては10msである。更に、図8cの下部には、オーバーラップ領域1801又は1811内における上昇する窓係数を計算するための解析方程式がサイン関数として示され、それと対応して、オーバーラップ部分1802及び1812の下降するオーバーラップサイズ係数もまたサイン関数として示される。

0099

好ましい実施形態において、同じ分析及び合成窓が図6図7a図7bに示された復号器のために使用される。従って、時間−スペクトル変換部1610とスペクトル−時間変換部1640とは、図8cに示す窓と全く同じ窓を使用する。

0100

しかしながら、特に以下の提案例/実施例1に関する所定の実施例においては、全体的に図8c適合する分析窓が使用されるが、上昇するオーバーラップ部分又は下降するオーバーラップ部分のための窓係数はサイン関数の平方根を使用して計算され、これは図8cにおけるサイン関数の同じ独立変数(argument)を用いる。これに対応して、合成窓はサイン関数の1.5乗を用いて計算されるが、ここでも、サイン関数の同じ独立変数を用いる。

0101

更に、ここで注意すべきは、オーバーラップ加算操作に起因して、サインの0.5乗にサインの1.5乗を乗ずる乗算もまた、サインの2乗という結果をもたらし、これはエネルギー保存状態を有するために必要ということである。

0102

提案例1は、DFTのオーバーラップ領域が同じサイズを有し、ACELP先読み及びMDCTコアのオーバーラップ領域とアライメントされている、という主要な特性を有する。ここで、符号器遅延は、ACELP/MDCTコアについて同じであり、ステレオ処理は符号器において如何なる追加的遅延も導入しない。EVSの場合や図5に示すマルチレート合成フィルタバンクの手法が使用された場合には、ステレオ符号器遅延は8.75msまで低くなる。

0103

符号器の概略的枠組みを図9aに示し、復号器を図9eに示す。窓は、図9cにおいて符号器について青の破線で示し、復号器について赤の実線で示す。

0104

提案例1に関する1つの主要課題は、符号器における先読みが窓掛けされるということである。その先読みは後続の処理のためにリドレスされることができ、又は、その後続の処理が窓掛けされた先読みを考慮するよう適合されている場合には、窓掛けされたままとすることができる。問題は、DFTで実行されたステレオ処理が入力チャネルを修正した場合、特に非線形操作を使用した場合、コア符号器が迂回されると、リドレスされ又は窓掛けされた信号では完全な再構築を達成できなくなることである。

0105

注意すべきは、コア復号器合成窓とステレオ復号器分析窓との間に1.25msの時間ギャップがあり、この時間ギャップが、コア復号器後処理、ACELPに対して使用される時間ドメインBWEのような帯域幅拡張(BWE)、又はACELPコアとMDCTコアとの間の遷移の場合には何らかの平滑化によって、利用され得ることである。

0106

この1.25msだけの時間ギャップは、上記のような操作のために標準EVSが必要とする2.3125msよりも小さいので、本発明は、切り替え型復号器の様々な合成部分をステレオモジュールのDFTドメイン内で結合し、リサンプリングし、かつ平滑化する方法を提供する。

0107

図9aに示すように、コア符号器1040は、フレーミング制御に従って動作してフレーム系列を提供するよう構成されており、ここで、フレームは開始フレーム境界1901と終了フレーム境界1902とによって区切られている。更に、時間−スペクトル変換部1000及び/又はスペクトル−時間変換部1030も、第1フレーミング制御と同期された第2フレーミング制御に従って動作するよう構成されている。フレーミング制御は、符号器内の時間−スペクトル変換部1000のための2つのオーバーラップしている窓1903及び1904によって示されており、特に、同時発生的かつ完全に同期して処理される第1チャネル1001及び第2チャネル1002について示されている。更に、フレーミング制御は復号器側においても見ることができ、特に、図6の時間−スペクトル変換部1610のための符号1913及び1914で示す2つのオーバーラップしている窓により明らかである。これらの窓1913及び1914は、好ましくは例えば図9bの単一のモノラル又はダウンミクス信号1601であるコア復号器信号に対して適用される。更に、図9aから明らかなように、コア符号器1040のフレーミング制御と時間−スペクトル変換部1000又はスペクトル−時間変換部1030との間の同期は、サンプリング値のブロック系列の各ブロックについて、又はスペクトル値のブロックのリサンプリング済み系列の各ブロックについて、フレーム系列の各フレームの開始フレーム境界1901又は終了フレーム境界1902が、時間−スペクトル変換部1000又はスペクトル−時間変換部1030により使用される窓のオーバーラップ部分の開始時点又は終了時点に対して所定の関係を有するように行われる。図9aに示す実施例において、所定の関係とは、第1のオーバーラップ部分の開始が窓1903に関する開始時間境界と同期し、かつ次の窓1904のオーバーラップ部分の開始が例えば図8cの部分1803のような中央部分の終了と同期する。また、図8cの第2の窓が図9aの窓1904に対応している場合、終了フレーム境界1902は、図8cの中央部分1813の終了と同期する。

0108

このように、図9a内の第2の窓1904の、図8cにおける1812のような第2のオーバーラップ部分は、終了又は停止フレーム境界1902を超えて延び、従って符号1905で示すコア符号器先読み部分の中へと延びることが明らかである。

0109

従って、サンプリング値のブロックの出力系列の出力ブロックをコア符号化する際に、コア符号器1040は、先読み部分1905のような先読み部分を使用するよう構成されており、その場合、出力先読み部分は、出力ブロックに時間的に後続して配置される。出力ブロックはフレーム境界1901,1904によって区切られるフレームと対応しており、出力先読み部分1905は、この出力ブロックの後にコア符号器1040へと到来する。

0110

更に、図示するように、時間−スペクトル変換部は、分析窓、即ち窓1904を使用するよう構成されており、その窓は、先読み部分1905の時間的長さ以下の時間的長さを持つオーバーラップ部分を有しており、このオーバーラップ部分、即ち図8cにおいてはオーバーラップ領域内に位置するオーバーラップ1812に対応する部分は、窓掛けされた先読み部分を生成するために使用される。

0111

更に、スペクトル−時間変換部1030は、窓掛けされた先読み部分に対応する出力先読み部分を、好ましくはリドレス機能を使用して処理するよう構成されており、その場合、リドレス機能は、分析窓のオーバーラップ部分の影響が低減又は排除されるよう構成されている。

0112

このように、図9aにおいてコア符号器1040とダウンミクス1010/ダウンサンプリング1020のブロックとの間で作動するスペクトル−時間変換部は、図9aにおける窓1904によって適用された窓掛けを取り消すために、リドレス機能を適用するよう構成されている。

0113

従って、コア符号器1040がその先読み機能を先読み部分1095へと適用するときに、任意の部分ではなく、できるだけオリジナルの部分に近い部分に対して先読み機能を実行することが保証される。

0114

しかしながら、低遅延の制約のため、及びステレオ前処理部のフレーミングとコア符号器との間の同期のために、先読み部分についてのオリジナル時間ドメイン信号が存在しない。しかしながら、リドレス機能の適用により、この処理によって発生した如何なるアーチファクトも、可能な限り確実に低減されている。

0115

この技術に関する処理の流れを、図9d図9eとにおいてより詳細に示す。

0116

テップ1910において、第0ブロックのDFT-1を実行し、時間ドメインの第0ブロックを取得する。その第0ブロックは、図9aの窓1903の左で使用された窓により取得されていたものである。しかしながら、この第0ブロックは、図9aでは明確に示されていない。

0117

次に、ステップ1912において、第0ブロックは合成窓を使用して窓掛けされる。即ち、図1のスペクトル−時間変換部1030において窓掛けされる。

0118

次に、ブロック1911で示すように、窓1903により取得された第1ブロックのDFT-1を実行して時間ドメインの第1ブロックを取得し、この第1ブロックは、合成窓を使用してブロック1910において再度窓掛けされる。

0119

次に、図9dにおける1918で示すように、第2ブロック、即ち図9aの窓1904により取得されたブロックの逆DFTを実行して時間ドメインの第2ブロックを取得し、次に、図9dの1920で示すように、この第2ブロックの第1部分が合成窓を使用して窓掛けされる。しかし、重要なことは、図9d内の項目1918で取得された第2ブロックの第2部分は合成窓を用いて窓掛けされず、図9d内のブロック1922で示すようにリドレス(矯正、是正)されることである。そのリドレス関数のために、分析窓関数の逆とこの分析窓関数の対応するオーバーラップ部分とが使用される。

0120

従って、第2ブロックを生成するために使用された窓が図8cに示すようなサイン窓であった場合、図8cの下部に示す方程式の下降するオーバーラップサイズ係数のため、
1/sin()
がリドレス関数として使用される。

0121

しかしながら、分析窓のためにサイン窓の平方根を使用することが好ましく、従って、リドレス関数は

窓関数となる。これにより、ブロック1922により取得されるリドレス済みの先読み部分が、先読み部分内のオリジナル信号にできるだけ近くなることが保証されるが、当然ながら、オリジナル左信号又はオリジナル右信号ではなく、中央信号を取得するために左と右とを加算することで得られたであろうオリジナル信号である。

0122

次に、図9dのステップ1924において、フレーム境界1901,1902により示されるフレームが、符号器が時間ドメイン信号を持つようにするためブロック1030においてオーバーラップ加算操作を実行することで生成され、このフレームが、窓1903に対応するブロックと先行ブロックの先行するサンプルとの間のオーバーラップ加算操作によって形成され、かつ、ブロック1920により取得された第2ブロックの第1部分も使用される。次に、このブロック1924によって出力されたフレームはコア符号器1040へと送られ、追加的に、コア符号器はそのフレームのためのリドレス済み先読み部分を受け取り、またステップ1926で示すように、コア符号器は、ステップ1922で取得されたリドレス済み先読み部分を使用して、コア符号器についての特性を決定できる。次に、ステップ1928で示すように、コア符号器は、ブロック1926で決定された特性を使用してフレームをコア符号化し、その結果、好ましい実施形態においては20msの長さを有しフレーム境界1901,1902に対応するコア符号化済みフレームを取得する。

0123

好ましくは、先読み部分1905内へと延びる窓1904のオーバーラップ部分は、先読み部分と同じ長さを有するが、しかし、先読み部分よりも短い場合もあり得る。但し、ステレオ処理部がオーバーラップ窓に起因する追加的な遅延を導入しないようにするため、オーバーラップ部分が先読み部分よりも長くなることは好ましくない。

0124

次に、ブロック1930で示すように、合成窓を使用して、第2ブロックの第2部分の窓掛けを用いた手順が実行される。このように、第2ブロックの第2部分は、ブロック1922によってリドレスされる一方で、ブロック1930に示すように合成窓により窓掛けされる。なぜなら、この部分は次にコア符号器にとって、ブロック1932に示すように、第2ブロックの窓掛け済み第2部分と窓掛け済み第3ブロックと第4ブロックの窓掛け済み第1部分とをオーバーラップ加算することにより次フレームを生成するために必要となるからである。当然ながら、第4ブロック、特に第4ブロックの第2部分は、図9dの項目1922内の第2ブロックに関して説明したように、再度のリドレス操作を受け、上述したような手順が再度繰り返されるであろう。更に、ステップ1934において、コア符号器は、第4ブロックのリドレス済み第2部分を使用してコア符号器特性を決定し、次フレームがその決定された符号化特性を使用して符号化されて、最終的にはブロック1934においてコア符号化された次フレームを取得する。従って、分析窓(及び対応する合成窓)の第2オーバーラップ部分とコア符号器先読み部分1905とのアライメントにより、非常に低い遅延の構成を取得できることが保証される。また、このような利点は、窓掛け済みの先読み部分が、一方ではリドレス操作を実行することで処理され、また他方では、合成窓と同じではないがより小さな影響を与える分析窓を適用することで処理されるという事実に起因しており、その結果、同じ分析/合成窓を使用する場合と比較して、リドレス機能がより安定的であることが保証される。しかしながら、コア符号器がその先読み機能、即ち窓掛け済み部分に対するコア符号化特性を決定するために典型的に必要な機能、を操作するよう修正されている場合には、リドレス機能を実行することは必要でない。しかしながら、リドレス機能の使用は、コア符号器を修正する上で有利であることがわかってきた。

0125

更に、上述したように、窓、即ち分析窓1914の終了部と、図9bの開始フレーム境界1901及び終了フレーム境界1902によって定義されるフレームの終了フレーム境界1902と、の間には時間ギャップがあることに留意すべきである。

0126

特に、この時間ギャップは図6の時間−スペクトル変換部1610によって適用される分析窓に関して符号1920で示されており、この時間ギャップは、第1出力チャネル1641及び第2出力チャネル1642に関しても符号120で示されている。

0127

図9fは時間ギャップの文脈で実行されるステップの手順を示し、コア復号器1600は、フレーム又は少なくともフレームの初期部分を、時間ギャップ1920までコア復号化する。次に、図6の時間−スペクトル変換部1610は、フレームの初期部分に対して分析窓を適用するよう構成されており、その場合、フレームの終点、即ち時点1902まで到達せず、時間ギャップ1920の始点まで延びる分析窓1914を使用する。

0128

このように、ブロック1940で示すように、コア復号器は時間ギャップ内のサンプルをコア復号化するため、及び/又は時間ギャップ内のサンプルを後処理するため、追加的時間を有する。時間−スペクトル変換部1610は、ステップ1938の結果として第1ブロックを既に出力しており、コア復号器は、ステップ1940では、時間ギャップ内の残りのサンプルをコア復号化できるか、又は時間ギャップ内のサンプルを後処理できる。

0129

次に、ステップ1942において、時間−スペクトル変換部1610は、図9bの窓1914の後に現れるであろう次の分析窓を使用して、時間ギャップ内のサンプルを次フレームのサンプルと一緒に窓掛けする。次に、ステップ1944に示すように、コア復号器1600は、次フレーム又は次フレームの少なくとも初期部分を、次フレーム内で発生する時間ギャップ1920まで復号化する。次に、ステップ1946において、時間−スペクトル変換部1610は、次フレーム内のサンプルを次フレームの時間ギャップ1920まで窓掛けし、更にステップ1948において、コア復号器は、次フレームの時間ギャップ内の残りのサンプルをコア復号化し、又はこれらのサンプルを後処理することができる。

0130

このように、図9bの実施例を考慮した場合に例えば1.25msであるこの時間ギャップは、コア復号器後処理により、帯域幅拡張により、例えばACELPの文脈において使用される時間ドメイン帯域幅拡張により、又は、ACELPとMDCTコア信号との間の遷移の場合の何らかの平滑化により、利用されることができる。

0131

このように、再度述べるが、コア復号器1600は、第1フレーミング制御に応じて作動して、フレーム系列を提供するよう構成されており、時間−スペクトル変換部1610又はスペクトル−時間変換部1640は、第1フレーミング制御と同期する第2フレーミング制御に応じて作動するよう構成されている。これにより、フレーム系列の各フレームの開始フレーム境界又は終了フレーム境界が、ある窓のオーバーラップ部分の開始時点又は終了時点に対して所定の関係を有するようになり、その窓は、サンプリング値のブロック系列の各ブロック、又はスペクトル値のブロックのリサンプリング済み系列の各ブロックについて、時間−スペクトル変換部又はスペクトル−時間変換部により使用されるものである。

0132

更に、時間−スペクトル変換部1610は、フレーム系列のフレームを窓掛けする分析窓を使用するよう構成されており、その窓は、オーバーラップ部分の終点と終了フレーム境界との間の時間ギャップ1920を残して終了フレーム境界1902の手前で終了するオーバーラップ部分を有する。従って、コア復号器1600は、時間ギャップ1920内のサンプルに対する処理を、分析窓を使用するフレームの窓掛けと並行して実行するよう構成されるか、又は、時間ギャップの更なる後処理が、時間−スペクトル変換部による分析窓を使用するフレームの窓掛けと並行して実行される。

0133

更に、かつ好ましくは、コア復号化された信号の後続ブロックのための分析窓は、その窓の中間の非オーバーラップ部分が図9bの1920で示された時間ギャップの中に位置するように、配置される。

0134

提案例4において、全体的なシステム遅延は提案例1に比べて拡大される。符号器では、ステレオモジュールから追加の遅延がもたらされる。提案例1とは異なり、提案例4では完璧な再構成の問題はもはや無関係となる。

0135

復号器では、コア復号器と第1DFT分析との間の利用可能な遅延は2.5msとなり、これにより、標準EVSにおいて実行されるような種々のコア合成と拡張された帯域幅信号との間の従来のリサンプリング、結合及び平滑化が可能となる。

0136

符号器の概略的フレーミングを図10aに示し、復号器を図10bに示す。窓については図10cに示す。

0137

提案例5において、DFTの時間分解能は5msへと減少する。コアコーダの先読み及びオーバーラップ領域は窓掛けされず、この点は提案例4と共通の利点と言える。他方、コア復号化とステレオ分析との間の利用可能な遅延は小さく、提案例1で提案された解決策が必要となる(図7)。この提案例の主な欠点は、時間−周波数分解の低い周波数分解能と、5msに低減された小さなオーバーラップ領域とであり、これにより、周波数ドメインにおける大きな時間シフトが妨げられる。

0138

符号器の概略的フレーミングを図11aに示し、復号器を図11bに示す。窓については図11cに示す。

0139

上述の内容を考慮すると、好ましい実施例は、符号器側については、マルチレート時間−周波数合成と関連しており、その合成は、後続の処理モジュールに対し、少なくとも1つのステレオ処理済み信号を種々のサンプリングレートで提供する。そのモジュールは、例えばACELPのようなスピーチ符号器、前処理ツール、TCXのようなMDCTベースのオーディオ符号器、又は時間ドメイン帯域幅拡張符号器のような帯域幅拡張符号器を含む。

0140

復号器については、復号器の合成の種々の寄与に関する、ステレオ周波数ドメインでのリサンプリングにおける結合が実行される。これらの合成信号は、ACELP復号器のようなスピーチ復号器、MCDCTベースの復号器、帯域幅拡張モジュール、又はバス・ポストフィルタのような後処理からのハーモニック間誤差信号からもたらされ得る。

0141

更に、符号器及び復号器の両方について、DFTのための窓、又は、ゼロパディングと、低いオーバーラップ領域と、12.9kHz,16kHz,25.6kHz,32kHz,48kHzのような異なるサンプリングレートにおける整数個のサンプルに対応するホップサイズと、を用いて変換された複素値、を適用することが有益である。

0142

実施例は、低遅延でステレオオーディオの低ビットレート符号化を達成することができる。それは、EVSのような低遅延の切り替え型オーディオ符号化・スキームと、ステレオ符号化・モジュールのフィルタバンクとを効率的に結合させるよう特別に設計されたものである。

0143

実施例は、例えばデジタルラジオインターネットストリーミング及びオーディオ通信アプリケーションなどを用いて、全てのタイプのステレオ又は多チャネル・オーディオコンテンツを(スピーチ及び音楽を所与の低ビットレートにおいて同様に一定の知覚的品質を有して)配信又は放送する際に有益となり得る。

0144

図12は、少なくとも2つのチャネルを有する多チャネル信号を符号化する装置を示す。多チャネル信号10は、一方ではパラメータ決定部100に対して入力され、他方では信号アライナ(signal aligner)200に入力される。パラメータ決定部100は、多チャネル信号から、一方では1つの広帯域アライメントパラメータを決定し、他方では複数の狭帯域アライメントパラメータを決定する。これらのパラメータは、パラメータ線12を介して出力される。更に、これらのパラメータは、図示するように他のパラメータ線14を介して出力インターフェース500へも出力される。パラメータ線14上では、レベルパラメータなどの追加的パラメータがパラメータ決定部100から出力インターフェース500へと送られる。信号アライナ200は、パラメータ線12を介して受け取った広帯域アライメントパラメータと複数の狭帯域アライメントパラメータとを使用して、多チャネル信号10の少なくとも2つのチャネルをアライメントし、信号アライナ200の出力においてアライメント済みチャネル20を取得するよう構成されている。これらのアライメント済みチャネル20は信号処理部300へと送られ、この信号処理部300は、線20を介して受け取られたアライメント済みチャネルから、中央信号31とサイド信号32とを計算するよう構成されている。この符号化装置は、線31からの中央信号と線32からのサイド信号32とを符号化して、線41上に符号化済み中央信号を取得し、線42上に符号化済みサイド信号を取得する、信号符号器400を更に含む。これら両方の信号は、出力線50において符号化済み多チャネル信号を生成する、出力インターフェース500へと送られる。出力線50における符号化済み信号は、線41からの符号化済み中央信号と、線42からの符号化済みサイド信号と、線14からの広帯域アライメントパラメータ及び狭帯域アライメントパラメータと、任意ではあるが線14からのレベルパラメータと、更に任意ではあるが信号符号器400により生成されかつパラメータ線43を介して出力インターフェース500へと送られたステレオ充填パラメータと、を含む。

0145

好ましくは、パラメータ決定部100が実際に狭帯域パラメータを計算する前に、信号アライナが広帯域アライメントパラメータを使用して多チャネル信号からのチャネルをアライメントするよう構成されている。従って、この実施例において、信号アライナ200は、広帯域アライメント済みチャネルを、接続線15を介してパラメータ決定部100へと戻す。次に、パラメータ決定部100は、広帯域特性に関して既にアライメントされた多チャネル信号から、複数の狭帯域アライメントパラメータを決定する。しかしながら、他の実施例においては、パラメータはこのような特異な流れの手順を踏まずに決定される。

0146

図14aは、接続線15をもたらす特異なステップの系列が実行される、好ましい実施形態を示す。ステップ16において、2つのチャネルを使用して広帯域アライメントパラメータが決定され、チャネル間時間差又はITDパラメータなどの広帯域アライメントパラメータが取得される。次に、ステップ21において、図12の信号アライナ200により、広帯域アライメントパラメータを使用して2つのチャネルがアライメントされる。次に、ステップ17において、パラメータ決定部100内でアライメント済みチャネルを使用して狭帯域パラメータが決定され、多チャネル信号の異なる帯域についての複数のチャネル間位相差パラメータなどの複数の狭帯域アライメントパラメータを決定する。次に、ステップ22において、各パラメータ帯域におけるスペクトル値が、この特定の帯域のための対応する狭帯域アライメントパラメータを使用してアライメントされる。狭帯域アライメントパラメータが利用可能な各帯域についてステップ22のこの手順が実行された場合、アライメントされた第1及び第2のチャネル又は左/右のチャネルが、図12の信号処理部300による更なる信号処理にとって利用可能となる。

0147

図14bは、複数の手順が周波数ドメインで実行される、図12の多チャネル符号器の更なる実施形態を示す。

0148

特に、多チャネル符号器は、時間ドメインの多チャネル信号を周波数ドメイン内の少なくとも2つのチャネルのスペクトル表現へと変換する、時間−スペクトル変換部150を更に含む。

0149

更に、符号152で示すように、図12に符号100,200,300で示すパラメータ決定部と信号アライナと信号処理部は、全て周波数ドメインで作動する。

0150

更に、多チャネル符号器及び特に信号処理部は、少なくとも中央信号の時間ドメイン表現を生成するためのスペクトル−時間変換部154を更に含む。

0151

好ましくは、スペクトル−時間変換部は、ブロック152で表す手順によっても決定されたサイド信号のスペクトル表現を、時間ドメイン表現へと追加的に変換する。また、図12の信号符号器400は次に、時間ドメイン信号としての中央信号及び/又はサイド信号を、図12の信号符号器400の特異な実施形態に依存して更に符号化するよう構成されている。

0152

好ましくは、図14bの時間−スペクトル変換部150は、図14cのステップ155,156及び157を実行するよう構成されている。特に、ステップ155は分析窓を提供することを含み、その分析窓は、その一端部に少なくとも1つのゼロパディング部分を有し、具体的には、例えば図7以降に示すように、窓の初期部分におけるゼロパディング部分と窓の終了部分におけるゼロパディング部分とを有する。更に、その分析窓は、窓の第1半分と窓の第2半分においてオーバーラップ領域又はオーバーラップ部分を追加的に有し、更にまた、場合によっては、非オーバーラップ領域である中央部分を有することが好ましい。

0153

ステップ156において、各チャネルはオーバーラップ領域を有する分析窓を用いて窓掛けされる。特に、各チャネルは、分析窓を使用して、チャネルの第1ブロックが取得されるような方法で窓掛けされる。次に、第1ブロックとの間に所定のオーバーラップ領域を有する同じチャネルの第2ブロックの取得などが行われ、その結果、例えば5回の窓掛け操作が行われた後で、各チャネルの窓掛け済みサンプルの5個のブロックが利用可能となり、それらは次に、図14cの符号157で示すように、スペクトル表現へと個別に変換される。同じ手順が他のチャネルについても実行され、その結果、ステップ157の終了時には、スペクトル値、及び特にDFTスペクトル値などの複素スペクトル値、又は複素サブバンドサンプルのブロック系列が利用可能となる。

0154

図12のパラメータ決定部100により実行されるステップ158において、広帯域アライメントパラメータが決定され、図12の信号アライナ200により実行されるステップ159において、その広帯域アライメントパラメータを使用して循環シフト(circular shift)が実行される。これも図12のパラメータ決定部100により実行されるステップ160において、狭帯域アライメントパラメータが個別の帯域/サブバンドについて決定され、ステップ161において、アライメント済みスペクトル値は、特定の帯域について決定された対応する狭帯域アライメントパラメータを使用して、各帯域について回転される。

0155

図14dは、信号処理部300により実行される更なる手順を示す。特に、信号処理部300は、ステップ301に示すように中央信号とサイド信号とを計算するよう構成されている。ステップ302において、サイド信号のある種の追加的処理が実行されることができ、次に、ステップ303において、中央信号及びサイド信号の各ブロックが時間ドメインへと逆変換される。ステップ304において、ステップ303により取得された各ブロックに対して合成窓が適用され、ステップ305において、一方では中央信号についてオーバーラップ加算操作を実行し、他方ではサイド信号についてオーバーラップ加算操作を実行して、最終的に、時間ドメインの中央/サイド信号を取得する。

0156

特に、ステップ304及び305の操作は、中央信号又はサイド信号のあるブロックからの中央信号及びサイド信号の次ブロックへの一種のクロスフェーディングをもたらし、それにより、チャネル間時間差パラメータ又はチャネル間位相差パラメータなどの如何なるパラメータ変化が発生した場合でも、図14dのステップ305により取得された時間ドメインの中央/サイド信号内において、このパラメータ変化が可聴とならない。

0157

図13は、入力線50で受信された符号化済み多チャネル信号を復号化する装置の一実施例のブロック図を示す。

0158

特に、その信号は入力インターフェース600により受信される。信号復号器700と信号デ・アライナ(de-aligner)900とが入力インターフェース600に接続されている。更に、信号処理部800は、一方では信号復号器700と接続され、他方では信号デ・アライナと接続されている。

0159

特に、符号化済み多チャネル信号は、符号化済み中央信号と、符号化済みサイド信号と、広帯域アライメントパラメータに関する情報と、複数の狭帯域パラメータに関する情報と、を含む。線50上の符号化済み多チャネル信号は、図12の出力インターフェース500により出力された信号と正に同じ信号であり得る。

0160

しかしながら、ここで重要なことは、図12で示したこととは対照的に、符号化済み信号の中に所定の形態で含まれた広帯域アライメントパラメータと複数の狭帯域アライメントパラメータとは、図12の信号アライナ200によって使用されたアライメントパラメータと全く同じであり得るが、代替的にそれらの逆の値でもあり得ること、即ち、信号アライナ200により実行されるのと全く同じ操作により使用され得るが、デ・アライメントが得られるように逆の値を有する、パラメータでもよい、ことに留意すべきである。

0161

よって、アライメントパラメータに関する情報は、図12の信号アライナ200によって使用されるアライメントパラメータであってもよいし、又はその逆の値、即ち、実際の「デ・アライメントパラメータ」であってもよい。さらにこれらのパラメータは、図8に関して後段で説明するように、典型的にはある形態で量子化されるであろう。

0162

図13の入力インターフェース600は、符号化済み中央/サイド信号から広帯域アライメントパラメータと複数の狭帯域パラメータとに関する情報を分離し、パラメータ線610を介してこの情報を信号デ・アライナ900へと送る。他方、符号化済み中央信号は、線601を介して信号復号器700へと送られ、符号化済みサイド信号は信号線602を介して信号復号器700へと送られる。

0163

信号復号器は、符号化済み中央信号を復号化し、かつ符号化済みサイド信号を復号化して、線701上の復号化済み中央信号と線702上の復号化済みサイド信号とを取得する。これらの信号は、復号化済み中央信号及び復号化済みサイド信号から、復号化済み第1チャネル信号又は復号化済み左信号を計算し、かつ復号化済み第2チャネル信号又は復号化済み右チャネル信号を計算するために、信号処理部800によって使用され、これら復号化済み第1チャネル及び復号化済み第2チャネルはそれぞれ線801,802上で出力される。信号デ・アライナ900は、線801上の復号化済み第1チャネルと復号化済み右チャネル802とをデ・アライメントするよう構成されており、その際、広帯域アライメントパラメータに関する情報を使用し、かつ追加的に複数の狭帯域アライメントパラメータに関する情報をも使用して、復号化済み多チャネル信号、即ち、線901及び902上の少なくとも2つの復号化済みかつデ・アライメント済みのチャネルを有する復号化済み信号を取得する。

0164

図15aは、図13の信号デ・アライナ900により実行されるステップの好ましい流れを示す。特に、ステップ910は、図13の線801,802上で利用可能なアライメント済みの左右のチャネルを受信する。ステップ910において、信号デ・アライナ900は、狭帯域アライメントパラメータについての情報を使用して個々のサブバンドをデ・アライメントし、位相デ・アライメントされた復号化済みの第1及び第2のチャネル又は左及び右のチャネルを911a及び911bで取得する。ステップ912において、チャネルは広帯域アライメントパラメータを使用してデ・アライメントされ、その結果、913a及び913bで位相及び時間−デ・アライメントされたチャネルが取得される。

0165

ステップ914において、窓掛け又は任意のオーバーラップ加算操作又は一般的に任意のクロスフェード操作を含む任意の追加的処理が実行され、915a又は915bでアーチファクト低減された又はアーチファクト無しの復号化済み信号を取得する。このようにして、アーチファクトを何も含まない復号化済みチャネルが得られるが、そのために典型的には、一方では広帯域のための、他方では複数の狭帯域のための時間変化するデ・アライメントパラメータが使用されていたものである。

0166

図15bは、図13に示す多チャネル復号器の好ましい実施形態を示す。

0167

特に、図13からの信号処理部800は、時間−スペクトル変換部810を含む。

0168

信号処理部は、中央/サイドから左/右への変換部820を更に含み、その変換部は、中央信号M及びサイド信号Sから左信号L及び右信号Rを計算する。

0169

しかしながら、重要なことは、ブロック820における中央/サイドから左/右への変換によってL及びRを計算するために、サイド信号Sは必ずしも使用する必要がないということである。その代わり、後段で説明するように、左/右の信号は、チャネル間レベル差パラメータILDから導出されるゲインパラメータを使用するだけで当初は計算される。従って、このような実施形態において、サイド信号Sはチャネル更新部830において使用されるだけであり、その更新部は、迂回線821によって示すように伝送されたサイド信号Sを使用して、より良好な左/右の信号を提供するために作動する。

0170

従って、変換部820は、レベルパラメータ入力822を介して取得されたレベルパラメータを使用しながら、実際にはサイド信号Sを使用せずに作動するが、チャネル更新部830は、サイド821を使用し、特定の実施形態によるが、線831を介して受信するステレオ充填パラメータをも使用して作動する。信号アライナ900は、次に位相デ・アライナ及びエネルギースケーラ910を含む。そのエネルギースケーリングは、スケーリングファクタ計算部940により導出されたスケーリングファクタによって制御される。スケーリングファクタ計算部940にはチャネル更新部830の出力が供給される。入力911を介して受信された狭帯域アライメントパラメータに基づいて、位相のデ・アライメントが実行され、ブロック920において、線921を介して受信された広帯域アライメントパラメータに基づいて、時間のデ・アライメントが実行される。最後に、スペクトル−時間変換930が実行されて、最終的に復号化済み信号が取得される。

0171

図15cは、好適な実施例において、図15bのブロック920及び930の中で典型的に実行されるステップのさらなる流れを示す。

0172

詳細には、狭帯域デ・アライメント済みチャネルが、図15bのブロック920に対応する広帯域デ・アライメント機能へと入力される。DFT又は任意の他の変換がブロック931内で実行される。時間ドメインサンプルの実際の計算に続いて、合成窓を使用する任意選択的な合成窓掛けが実行される。合成窓は、好ましくは分析窓と正に同一であるか、又は例えば補間又はデシメーションによって分析窓から導出されたものであるが、分析窓に所定の方法で依存している。このような依存性は、好ましくは2つのオーバーラップしている窓により定義される乗算因子が、オーバーラップ領域内の各点について加算されて1となるように設定される。このように、ブロック932における合成窓に続いて、オーバーラップ操作と後続の加算操作が実行される。代替的に、合成窓掛け及びオーバーラップ/加算操作に代えて、各チャネルについて後続のブロック間の任意のクロスフェードが実行されて、図15aの文脈で既に説明したように、アーチファクトが低減された復号化済み信号を取得してもよい。

0173

図4bを考慮する場合、中央信号のための実際の操作、即ち「EVS復号器」と、サイド信号のための逆ベクトル量子化VQ-1及び逆MDCT操作(IMDCT)とは、図13の信号復号器700に対応している。

0174

更に、図4bのブロック1610におけるDFT操作は図15bにおける構成要素810に対応し、逆ステレオ処理及び逆時間シフトの機能は、図13のブロック800,900に対応し、図4bにおける逆DFT操作1640は、図15bのブロック930における操作と対応する。

0175

次に、図3dについてより詳細に説明する。特に、図3dは、個別のスペクトル線を有するDFTスペクトルを示す。好ましくは、DFTスペクトル又は図3dに示す任意の他のスペクトルは複素スペクトルであり、各線は、振幅と位相又は実数部虚数部を有する、複素スペクトル線である。

0176

追加的に、このスペクトルは異なるパラメータ帯域へも分割される。各パラメータ帯域は少なくとも1つの、及び好ましくは2つ以上のスペクトル線を有する。加えて、パラメータ帯域はより低い周波数からより高い周波数へと増大する。典型的には、広帯域アライメントパラメータは、全体スペクトルのための、即ち図3d例示的実施形態においては帯域1から6までのすべてを含む1つのスペクトルのための、単一の広帯域アライメントパラメータである。

0177

更に、複数の狭帯域アライメントパラメータは、各パラメータ帯域について1つのアライメントパラメータが存在するように提供される。これは、1つの帯域のためのアライメントパラメータが、対応する帯域内の全てのスペクトル値に対して適用することを意味する。

0178

更に、狭帯域アライメントパラメータに加え、レベルパラメータも各パラメータ帯域について提供される。

0179

帯域1から6までの各々かつ全てのパラメータ帯域に対して提供されるレベルパラメータとは対照的に、帯域1,2,3,4のようなある限定された個数の低い帯域についてだけ複数の狭帯域アライメントパラメータを提供することが望ましい。

0180

加えて、ステレオ充填パラメータが、例示の実施例においては帯域4,5,6のように、低い帯域を除く所定数の帯域に提供され、他方、低いパラメータ帯域1,2,3についてはサイド信号スペクトル値が存在し、結果としてこれらの低帯域についてはステレオ充填パラメータが存在せず、これら低帯域においては、サイド信号そのもの又はサイド信号を表現する予測残差信号のいずれかを使用して、波形マッチングが取得される。

0181

上述したように、より高い帯域においてはより多数のスペクトル線が存在する。例えば、図3dの実施例においては、パラメータ帯域6内には7個のスペクトル線がある一方で、パラメータ帯域2内にはたった3個のスペクトル線がある。当然ながら、パラメータ帯域の数、スペクトル線の数、1つのパラメータ帯域内のスペクトル線の数、及びあるパラメータについての種々の制限も、異なるであろう。

0182

しかしながら、図8は、図3dの例とは対照的に、実際に12個の帯域が存在するある実施例における、パラメータの配分とパラメータが提供される帯域の個数とを示す。

0183

図示するように、レベルパラメータILDが12帯域の各々に対して提供され、各帯域毎に5ビットで表現される量子化精度へと量子化される。

0184

更に、狭帯域アライメントパラメータIPDは、2.5kHzの境界周波数までの低い帯域に対してだけ提供される。加えて、チャネル間時間差又は広帯域アライメントパラメータは、全体的スペクトルのための単一のパラメータとしてだけ提供されるが、全体の帯域について8ビットで表現される非常に高い量子化精度を有する。

0185

更に、かなり粗く量子化されたステレオ充填パラメータが各帯域毎に3ビットで表現されて提供されるが、これらは1kHzを下回る帯域には提供されない。なぜなら、低い帯域については、実際に符号化されたサイド信号又はサイド信号残差スペクトル値が含まれるからである。

0186

次に、符号器側の好ましい処理について要約する。第1ステップにおいて、左右のチャネルのDFT分析が実行される。この手順は図14cのステップ155〜157に対応する。広帯域アライメントパラメータが計算され、特に、好ましい広帯域アライメントパラメータとしてチャネル間時間差(ITD)が計算される。L及びRの時間シフトが周波数ドメインで実行される。代替的に、この時間シフトは時間ドメインでも実行され得る。次に逆DFTが実行され、時間シフトが時間ドメインで実行され、広帯域アライメントパラメータを使用したアライメントの後で再度スペクトル表現を持つように、追加の順方向DFTが実行される。

0187

ILDパラメータ、即ちレベルパラメータ及び位相パラメータ(IPDパラメータ)が、シフトされたL及びRの表現の各パラメータ帯域について計算される。このステップは、例えば図14cのステップ160と対応する。時間シフトされたL及びRの表現は、図14cのステップ161で示すように、チャネル間位相差パラメータの機能として回転される。次に、ステップ301で示すように中央及びサイド信号が計算され、好ましくは、後述するようなエネルギー変換操作をさらに伴う。更に、ILDの機能としてのM、及び任意選択的には過去のM信号、即ち以前のフレームの中央信号を用いた、Sの予測が実行される。次に、中央信号及びサイド信号の逆DFTが実行され、これは好ましい実施例においては図14dのステップ303,304,305に対応する。

0188

最後のステップにおいて、時間ドメインの中央信号mと、任意選択的には残差信号とが符号化される。この手順は図12における信号符号器400により実行されることに対応する。

0189

逆ステレオ処理における復号器において、サイド信号がDFTドメインで生成され、これは中央信号から以下のように最初に予測される。



ここで、gは各パラメータ帯域について計算されたゲインであり、伝送されるチャネル間レベル差(ILDs)の関数である。

0190

予測の残差Side-g・Midは、次に2つの異なる方法で精密化され得る。
−残差信号の二次的符号化による



ここで、gcodは全体スペクトルのために伝送されたグローバルゲインである。
−前のDFTフレームからの前の復号化済み中央信号スペクトルを用いて残差サイドスペクトルを予測する、ステレオ充填として知られる残差予測による



ここで、gpredはパラメータ帯域毎に伝送された予測ゲインである。

0191

符号化の精密化の2つのタイプは、同じDFTスペクトル内で混合され得る。好ましい実施例において、残差符号化はより低いパラメータ帯域に対して適用される一方で、残差予測は残りの帯域に対して適用される。図12に示すような好ましい実施例において、残差符号化は、時間ドメインで残差サイド信号を合成しそれをMDCTによって変換した後で、MDCTドメインで実行される。DFTとは異なり、MDCTは臨界サンプリングされるので、オーディオ符号化により適している。MDCT係数は、格子ベクトル量子化によって直接的にベクトル量子化されるが、代替的に、スカラー量子化とその後のエントロピー符号器によって符号化され得る。代替的に、残差サイド信号はまた、スピーチ符号化技術によって時間ドメインで符号化されることもでき、又は、DFTドメインで直接的に符号化されることもできる。

0192

次に、ジョイントステレオ/多チャネル符号器処理又は逆ステレオ/多チャネル処理のさらなる実施形態について説明する。

0193

1.時間−周波数分析:DFT
DFTによって実行される、ステレオ処理からの特殊な時間−周波数分解によって、良好な聴覚的シーン分析をもたらす一方で、符号化システムの全体的な遅延が有意に増加しないようにすることが重要である。デフォルトにより、10msの時間分解能(コアコーダの20msフレーミングの2倍)が使用される。分析窓と合成窓は同じであり、対称形である。窓は図8cの中で16kHzのサンプリングレートで表現される。発生する遅延を低減するためにオーバーラップ領域が制限され、後段で説明するように、ITDを周波数ドメインにおいて適用する際に循環シフトを釣り合わせるためにゼロパディングもまた追加されることが見て取れる。

0194

2.ステレオパラメータ
ステレオパラメータは、ステレオDFTの時間分解能における最大限で伝送され得る。最小限では、ステレオパラメータはコアコーダのフレーミング分解能、即ち20msへと低減され得る。デフォルトにより、過渡が検出されない場合、パラメータは2つのDFT窓にわたり20ms毎に計算される。パラメータ帯域は、等価方形帯域幅(Equivalent Rectangular Bandwidth)(ERB)の凡そ2倍又は4倍の後に続いてスペクトルの非均一かつ非オーバーラップの分解を構成する。デフォルトにより、16kHz(32kbpsのサンプリングレート、スーパーワイドバンド・ステレオ)の周波数帯域幅について、ERBのスケールの4倍が、合計で12個の帯域について使用される。図8は、ステレオサイド情報が約5kbpsで伝送される構成の一例を要約したものである。

0195

3.ITDの計算及びチャネル時間アライメント
ITDは、位相変換を用いた一般化相互相関(Generalized Cross Correlation with Phase Transform)(GCC−PHAT)を使用して、到達時間差(TDOA)を推定することにより計算される。



ここで、L及びRはそれぞれ左右のチャネルの周波数スペクトルである。周波数分析は、後続のステレオ処理に使用されるDFTから独立して実行されることができ、又は共有され得る。ITDを計算するための疑似コードは以下の通りである。

0196

ITDの計算は、以下のようにも要約できる。スペクトル・フラットネス尺度SFM)に依存して平滑化される前に、相互相関が周波数ドメインで計算される。SFMは0と1との間に制限される。ノイズ状信号の場合、SFMは高く(即ちほぼ1に)なるであろうし、平滑化は弱いであろう。調性状信号の場合、SFMは低くなり、平滑化はより強くなるであろう。平滑化された相互相関は、次に、時間ドメインへと逆変換される前にその振幅によって正規化される。その正規化は、相互相関の位相変換に対応し、低いノイズ及び比較的高い反響環境の中での通常の相互相関よりも良好な性能を示すことが知られている。このようにして得られた時間ドメイン関数は、よりロバストピークピッキングを達成するためにまずフィルタ処理される。最大振幅に対応するインデックスは、左右のチャネル間の時間差(ITD)の推定に対応する。最大の振幅が所与の閾値よりも低い場合、推定されたITDは信頼性が高いとは認められず、ゼロに設定される。

0197

時間アライメントが時間ドメインで適用される場合、ITDは別個のDFT分析において計算される。このシフトは以下のように実行される。

0198

これは符号器側において余分な遅延を必要とし、その遅延は、最大では取り扱い可能な最大絶対値ITDと等しい。ITDの時間的な変化は、DFTの分析窓掛けにより平滑化される。

0199

代替的に、時間アライメントは周波数ドメインでも実行され得る。この場合、ITDの計算及び循環シフトは同じDFTドメイン内であり、この他のステレオ処理と共有されているドメインである。循環シフトは次式で与えられる。

0200

DFT窓のゼロパディングは、循環シフトを用いた時間シフトをシミュレートするために必要である。ゼロパディングのサイズは、取り扱い可能な最大絶対値ITDに対応している。好ましい実施例において、ゼロパディングは、両端に3.125msのゼロを追加することで、分析窓の両側に均一に分割される。その場合、可能な最大絶対値ITDは6.25msとなる。A−Bマイクロホン設定において、これは最悪の場合、2個のマイクロホンの間の約2.15メートル最大距離に対応する。ITDの時間的な変化は、DFTの合成窓掛けとオーバーラップ加算により平滑化される。

0201

時間シフトの後でシフト済み信号の窓掛けを行うことが重要である。この点が先行技術のバイノーラルキュー符号化(BCC)との主要な相違点であり、バイノーラルキュー符号化においては、窓掛け済み信号に対して時間シフトが適用されるが、合成ステージでは更なる窓掛けが行われない。その結果、ITDにおける時間的な如何なる変化も、復号化された信号の中で人工的な過渡/クリックを生み出してしまう。

0202

4.IPDの計算とチャネル回転
2つのチャネルの時間アライメントの後で、IPDが計算され、この計算は、各パラメータ帯域又は少なくとも所与のipd_max_bandまで、ステレオ構成に依存して行われる。

0203

IPDは次に、2つのチャネルに対してそれらの位相をアライメントするために適用される。



ここで、

であり、bは周波数インデックスkが帰属するパラメータ帯域インデックスである。パラメータβは、2つのチャネル間の位相回転の量を分配し、同時にそれらの位相をアライメントする役割を担う。βはIPDに依存し、またチャネル同士の相対的な振幅レベルILDにも依存する。あるチャネルがより高い振幅を有する場合、それが先導チャネルとして認識され、低い振幅を有するチャネルよりも位相回転によって受ける影響が少なくなるであろう。

0204

5.和・差及びサイド信号の符号化
和差変換は、2つのチャネルの時間及び位相がアライメントされたスペクトルに対し、中央信号内でエネルギーが保存される方法で実行される。



ここで、

は 1/1.2と1.2との間、即ち−1.58dBと+1.58dBの間に制限される。この制限により、M及びSのエネルギーを調整するときにアーチファクトを防止できる。このエネルギー保存は、時間及び位相が事前にアライメントされていた場合には重要度が低いことに留意すべきである。代替的に、これら制限は増大又は減少され得る。

0205

サイド信号SがMを用いて更に予測される。



ここで、

である。代替的に、残差及び前出の方程式から推定されたILDの平均二乗誤差(MSE)を最小化することで、最適な予測ゲインgを見つけることができる。

0206

残差信号S'(f)は、2つの手段でモデル化できる。即ち、Mの遅延されたスペクトルを用いて予測するか、又はそれをMDCTドメインで直接的に符号化するかである。

0207

6.ステレオ復号化
中央信号X及びサイド信号Sは、まず左及び右のチャネルL及びRへと次式のように変換される。



ここで、パラメータ帯域毎のゲインgはILDパラメータから導出される。

0208

cod_max_bandより低いパラメータ帯域については、2つのチャネルは復号化済みサイド信号を用いて更新される。

0209

より高いパラメータ帯域については、サイド信号が予測され、チャネルは以下のように更新される。

0210

最後に、ステレオ信号のオリジナルエネルギー及びチャネル間位相を保存する目的で、それらチャネルが複素値によって乗算される。



ここで、



である。但し、aは上段で定義したように定義されかつ制限されており、

であり、かつatan2(x,y)はyに対するxの四象限正接(four-quadrant inverse tangent)である。

0211

最後に、伝送されたITDに依存して、チャネルは時間ドメイン又は周波数ドメインのいずれかで時間シフトされる。この時間ドメインのチャネルは、逆DFT及びオーバーラップ加算により合成される。

0212

本発明に係る符号化済みオーディオ信号は、デジタル記憶媒体又は非一時的記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送されることもできる。

0213

これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応するブロック、項目、又は対応する装置の特徴を表している。

0214

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、例えばフレキシブルディスク,DVD,CD,ROM,PROMEPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、そのデジタル記憶媒体は、その中に格納された電子的に読み取り可能な制御信号を有し、それら制御信号は、本発明の各方法が実行されるようにプログラム可能コンピュータシステム協働する(又は協働可能である)。

0215

本発明に従う幾つかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、それら制御信号は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能である。

0216

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

0217

本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリア又は非一時的記憶媒体に格納されたコンピュータプログラムを含む。

0218

換言すれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。

0219

本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。

0220

本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

0221

他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

0222

他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

0223

幾つかの実施形態においては、(例えば書換え可ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ