図面 (/)

技術 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法

出願人 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
発明者 バイエル,シュテファンフォトポーロー,エレニムルトルス,マルクスフッハス,ギロームラベリ,エマニュエルシュネル,マルクスデーラ,シュテファンイェーゲルス,ヴォルフガングディーツ,マルチンマルコビッチ,ゴラン
出願日 2017年1月20日 (4年1ヶ月経過) 出願番号 2018-538601
公開日 2019年1月31日 (2年0ヶ月経過) 公開番号 2019-502965
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 波形保存 パラメータ線 位相アライメント 波形タイプ 非オーバーラップ領域 時間アライメント 時間ドメイン表現 充填パラメータ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年1月31日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題・解決手段

少なくとも2つのチャネルを有する多チャネル信号を符号化する装置は、多チャネル信号から1つの広帯域アライメントパラメータと複数の狭帯域アライメント・パラメータとを決定するパラメータ決定部(100)と、広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを用いて少なくとも2つのチャネルをアラインし、アライン済みチャネルを得る信号アライナ(200)と、アライン済みチャネルを用いて中央信号サイド信号とを計算する信号プロセッサ(300)と、中央信号を符号化して符号化済み中央信号を取得し、サイド信号を符号化して符号化済みサイド信号を取得する信号符号器(400)と、符号化済み中央信号と符号化済みサイド信号と広帯域アライメント・パラメータに関する情報と複数の狭帯域アライメント・パラメータに関する情報とを含む符号化済み多チャネル信号を生成する出力インターフェース(500)と、を備える。

概要

背景

ステレオスピーチ及び特に会話のステレオスピーチは、立体音響音楽の記憶や配信に比べて遥かに小さな科学的注目度しか得られて来なかった。実際、スピーチ通信においては、今日でもモノラル音響の伝送が主に使用されている。しかしながら、ネットワーク帯域幅及び容量の増加に伴い、ステレオ音響技術に基づく通信はさらに普及し、より良好なリスニング経験をもたらすであろうと期待されている。

ステレオ音響オーディオ材料の効率的な符号化は、効率的な記憶又は配信のための音楽の知覚的オーディオ符号化において、長年研究されてきた。波形保存が重要となる高いビットレートにおいては、中央/サイド(M/S)ステレオとして知られる和−差ステレオ(sum-difference stereo)が長年使用されてきた。低いビットレートについては、インテンシティステレオ及び最近ではパラメトリックステレオ符号化が導入されてきた。HeAACv2及びMpegUSACのような種々の標準においては、最新の技術が採用されている。そのような技術では、2チャネル信号ダウンミクスを生成し、コンパクトな空間サイド情報を伴う。

ジョイントステレオ符号化は通常、高い周波数分解能、即ち低い時間分解能に亘って構築され、よってその信号の時間−周波数変換は、殆どのスピーチコーダにおいて実行される低遅延及び時間ドメインの処理に対して互換性を持たない。さらに、生成されるビットレートは通常は高い。

他方、パラメトリックステレオは、前処理部として符号器最前端に配置されまた後処理部として復号器の最後端に配置される、追加のフィルタバンクを使用する。従って、パラメトリックステレオは、MPEG USACにおいて実施されているように、ACELPのような従来のスピーチコーダとともに使用され得る。更に、聴覚シーンパラメトリック化は、最少量のサイド情報を用いて達成されることができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように、低遅延のために特異に設計されたものではなく、また、様々な会話シナリオに対して一貫した品質を提供するものでもない。空間的シーンの従来のパラメトリック表現において、ステレオイメージの幅は、2つの合成されたチャネルに適用されるデコリレータにより人工的に再生され、符号器により計算されかつ伝送されるチャネル間コヒーレンス(ICs)パラメータにより制御される。殆どのステレオスピーチにとって、ステレオイメージの幅を広げるこの方法は、かなり直接音であるスピーチの自然環境再現するには適切ではない。なぜならスピーチは、空間内におけるある特定位置に位置する単一の音源により(時には室内からの反響も伴って)生成されるからである。対照的に、楽器はスピーチよりも自然な幅が各段に大きいので、チャネルをデコリレートすることによってより良好に模倣され得る。

更に、マイクロホンが互いに距離を置いて配置されるA−B方式やバイノーラル録音又はレンダリングの場合のように、スピーチが非同時マイクロホン(non-coincident microphones)を用いて録音される場合にも問題が発生する。このようなシナリオは、テレカンファランス(teleconferences)においてスピーチを捕捉する場合や、多点制御ユニット(MCU)において遠方スピーカを用いて仮想の聴覚シーンを創造する場合に想定され得る。そのような場合、1つのチャネルからの信号の到達時刻は他のチャネルとは異なり、これは、X−Y(インテンシティ録音)又はM−S(中央−サイド録音)のような同時マイクロホン(coincident microphones)で実行された録音と同様ではない。そのような時間整列されていない2つのチャネルのコヒーレンスの計算は、誤って推定される恐れがあり、結果的に人工的な環境合成の失敗を招きかねない。

ステレオ処理に関する先行技術文献は、特許文献1又は特許文献2である。

特許文献3は、トランスペアレントに近い又はトランスペアレントな多チャネル符号器/復号器のスキームを開示している。多チャネル符号器/復号器のスキームは、波形タイプ残差信号を追加的に生成する。この残差信号は1つ以上の多チャネルパラメータと一緒に復号器へと伝送される。純粋にパラメトリックな多チャネル復号器とは対照的に、強化された復号器は、追加的な残差信号に起因して、改善された出力品質を有する多チャネル出力信号を生成する。符号器側では、左チャネル及び右チャネルの両方が1つの分析フィルタバンクによってフィルタリングされる。次に、各サブバンドについて、1つのサブバンドのアライメント値ゲイン値とが計算される。そのようなアライメントは、更なる処理の前に実行される。復号器側では、デ・アライメント及びゲイン処理が実行され、対応する信号が合成フィルタバンクによって合成されて、復号化済み左信号と復号化済み右信号とが生成される。

会議のシナリオや会話型スピーチのシーンにおいて複数の話者がいる場合、このような従来技術の手順は、オーディオ信号にとって、特にスピーチ信号にとって、最適な手順を提供しないことが分かってきた。

概要

少なくとも2つのチャネルを有する多チャネル信号を符号化する装置は、多チャネル信号から1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを決定するパラメータ決定部(100)と、広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを用いて少なくとも2つのチャネルをアラインし、アライン済みチャネルを得る信号アライナ(200)と、アライン済みチャネルを用いて中央信号サイド信号とを計算する信号プロセッサ(300)と、中央信号を符号化して符号化済み中央信号を取得し、サイド信号を符号化して符号化済みサイド信号を取得する信号符号器(400)と、符号化済み中央信号と符号化済みサイド信号と広帯域アライメント・パラメータに関する情報と複数の狭帯域アライメント・パラメータに関する情報とを含む符号化済み多チャネル信号を生成する出力インターフェース(500)と、を備える。

目的

しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように、低遅延のために特異に設計されたものではなく、また、様々な会話シナリオに対して一貫した品質を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

少なくとも2つのチャネルを有する多チャネル信号を符号化する装置であって、前記多チャネル信号から1つの広帯域アライメントパラメータと複数の狭帯域アライメント・パラメータとを決定するパラメータ決定部(100)と、前記広帯域アライメント・パラメータと前記複数の狭帯域アライメント・パラメータとを使用して前記少なくとも2つのチャネルをアラインし、アライン済みチャネルを取得する信号アライナ(200)と、前記アライン済みチャネルを使用して中央信号サイド信号とを計算する信号プロセッサ(300)と、前記中央信号を符号化して符号化済み中央信号を取得し、前記サイド信号を符号化して符号化済みサイド信号を取得する信号符号器(400)と、前記符号化済み中央信号と前記符号化済みサイド信号と前記広帯域アライメント・パラメータに関する情報と前記複数の狭帯域アライメント・パラメータに関する情報とを含む符号化済み多チャネル信号を生成する出力インターフェース(500)と、を備える装置。

請求項2

前記パラメータ決定部(100)は、前記少なくとも2つのチャネルの広帯域表現を使用して前記広帯域アライメント・パラメータを決定するよう構成され、前記広帯域表現は前記少なくとも2つのチャネルの各々の少なくとも2つのサブバンドを含み、前記信号アライナ(200)は、前記少なくとも2つのチャネルの広帯域表現の広帯域アライメントを実行して、前記少なくとも2つのチャネルのアライン済み広帯域表現を取得するよう構成される、請求項1に記載の装置。

請求項3

前記パラメータ決定部(100)は、前記少なくとも2つのチャネルのアライン済み広帯域表現の少なくとも1つのサブバンドについて、別個の狭帯域アライメント・パラメータを決定するよう構成され、前記信号アライナ(200)は、前記アライン済み広帯域表現の各サブバンドを、対応するサブバンドについての前記狭帯域パラメータを使用して個別にアラインし、前記少なくとも2つのチャネルの各々について複数のアライン済みサブバンドを有するアライン済み狭帯域表現を取得するよう構成される、請求項1又は2に記載の装置。

請求項4

前記信号プロセッサ(300)は、前記少なくとも2つのチャネルの各々についての複数のアライン済みサブバンドを使用して、前記中央信号についての複数のサブバンドと、前記サイド信号についての複数のサブバンドとを計算するよう構成される、請求項1〜3のいずれか一項に記載の装置。

請求項5

前記パラメータ決定部(100)は、前記広帯域アライメント・パラメータとしてチャネル間時間差パラメータを計算するか、又は前記複数の狭帯域アライメント・パラメータとして前記多チャネル信号の複数のサブバンドの各々についてチャネル間位相差を計算するよう構成される、請求項1〜4のいずれか一項に記載の装置。

請求項6

前記パラメータ決定部(100)は、前記多チャネル信号の複数のサブバンドの各々について予測ゲイン又はチャネル間レベル差を計算するよう構成され、前記信号符号器(400)は、あるサブバンドにおける前記中央信号を使用し、かつそのサブバンドのチャネル間レベル差又は予測ゲインを使用して、前記サブバンドにおける前記サイド信号の予測を実行するよう構成される、請求項1〜5のいずれか一項に記載の装置。

請求項7

前記信号符号器(400)は予測残差信号を計算し符号化するよう構成され、前記予測残差信号は、前記サイド信号、予測ゲインもしくは前記少なくとも2つのチャネル間のチャネル間レベル差、前記中央信号、及び遅延された中央信号から導出され、又はあるサブバンドにおける予測ゲインが前記サブバンドにおける前記少なくとも2つのチャネル間のチャネル間レベル差を使用して計算され、又は前記信号符号器は、スピーチ符号器切り替え型音楽/スピーチ符号器、時間ドメイン帯域幅拡張符号器又は周波数ドメインギャップ充填符号器を使用して、前記中央信号を符号化するよう構成される、請求項1〜6のいずれか一項に記載の装置。

請求項8

前記少なくとも2つのチャネルのスペクトル表現スペクトルドメインで生成する時間−スペクトル変換部(150)をさらに備え、前記パラメータ決定部(100)と前記信号アライナ(200)と前記信号プロセッサ(300)とは、スペクトルドメインで作動するよう構成され、前記信号プロセッサ(300)は、前記中央信号の時間ドメイン表現を生成するスペクトル時間変換部(154)をさらに備え、前記信号符号器(400)は前記中央信号の時間ドメイン表現を符号化するよう構成される、請求項1〜7のいずれか一項に記載の装置。

請求項9

前記パラメータ決定部(100)は、あるスペクトル表現を使用して前記広帯域アライメント・パラメータを計算するよう構成され、前記信号アライナ(200)は、前記広帯域アライメント・パラメータを使用して前記少なくとも2つのチャネルのスペクトル表現に対して循環シフト(159)を適用し、前記少なくとも2つのチャネルについての広帯域アライン済みスペクトル値を取得するよう構成されるか、又は前記パラメータ決定部(100)は、広帯域アライン済みスペクトル値から前記複数の狭帯域アライメント・パラメータを計算するよう構成され、前記信号アライナ(200)は、前記複数の狭帯域アライメント・パラメータを使用して前記広帯域アライン済みスペクトル値を回転(161)させるよう構成される、請求項1〜8のいずれか一項に記載の装置。

請求項10

前記時間−スペクトル変換部(150)は、前記少なくとも2つのチャネルの各々に分析窓を適用するよう構成され、前記分析窓はその左側又は右側にゼロパディング部分を有し、前記ゼロパディング部分は前記広帯域アライメント・パラメータの最大値を決定し、又は前記分析窓は、初期オーバーラップ領域と中間非オーバーラップ領域終期オーバーラップ領域とを有し、又は前記時間−スペクトル変換部(150)は、オーバーラップしている窓の系列を適用するよう構成され、1つの窓のオーバーラップ部分の長さとその窓の非オーバーラップ部分の長さとは、共に前記信号符号器(400)の1フレーミング端数に等しい、請求項8又は9に記載の装置。

請求項11

前記スペクトル−時間変換部(154)は合成窓を使用するよう構成され、前記合成窓は、前記時間−スペクトル変換部(150)によって使用された分析窓と等しいか、又は前記分析窓から導出される、請求項8〜10のいずれか一項に記載の装置。

請求項12

前記信号プロセッサ(300)は、前記中央信号又は前記サイド信号の時間ドメイン表現を計算するよう構成され、前記時間ドメイン表現の計算は、前記中央信号又は前記サイド信号のサンプルの現ブロック窓掛け(304)して、窓掛け済み現ブロックを取得すること、前記中央信号又は前記サイド信号のサンプルの後続ブロックを窓掛け(304)して、窓掛け済み後続ブロックを取得すること、前記窓掛け済み現ブロックのサンプルと前記窓掛け済み後続ブロックのサンプルとをオーバーラップ領域において加算(305)し、前記オーバーラップ領域についての時間ドメイン表現を取得すること、を含む、請求項1〜11のいずれか一項に記載の装置。

請求項13

前記信号符号器(400)は、サブバンドの第1セットにおいて、前記サイド信号又は前記サイド信号から導出された予測残差信号と、前記中央信号とを符号化し、前記サブバンドの第1セットとは異なるサブバンドの第2セットにおいて、サイド信号から導出されたゲインパラメータと時間的に前の中央信号とを符号化するよう構成され、前記サイド信号又は予測残差信号は、前記サブバンドの第2セットについては符号化されない、請求項1〜12のいずれか一項に記載の装置。

請求項14

前記サブバンドの第1セットは、前記サブバンドの第2セットにおける周波数よりも低い周波数のサブバンドを有する、請求項13に記載の装置。

請求項15

前記信号符号器(400)は、MDCT変換及び前記サイド信号のMDCT係数ベクトルもしくはスカラーのような量子化又は任意の他の量子化を使用して、前記サイド信号を符号化するよう構成される、請求項1〜14のいずれか一項に記載の装置。

請求項16

前記パラメータ決定部(100)は、帯域幅を有する個別の帯域について前記複数の狭帯域アライメント・パラメータを決定するよう構成され、第1中央周波数を有する第1帯域の第1帯域幅は第2中央周波数を有する第2帯域の第2帯域幅よりも低く、前記第2中央周波数は前記第1中央周波数より大きいか、又は、前記パラメータ決定部(100)は、ある境界周波数までの帯域についてのみ前記狭帯域アライメント・パラメータを決定するよう構成され、前記境界周波数は前記中央信号又はサイド信号の最大周波数よりも低く、かつ前記アライナ(200)は、前記広帯域アライメント・パラメータに関する情報のみを使用して、前記境界周波数より高い周波数を有するサブバンドにおける前記少なくとも2つのチャネルをアラインし、かつ前記広帯域アライメント・パラメータと前記狭帯域アライメント・パラメータとを使用して、前記境界周波数より低い周波数を有するサブバンドにおける前記少なくとも2つのチャネルをアラインするよう構成される、請求項1〜15のいずれか一項に記載の装置。

請求項17

前記パラメータ決定部(100)は、一般化相互相関を使用した到達時間遅延推定を使用して、前記広帯域アライメント・パラメータを計算するよう構成され、前記信号アライナ(200)は、時間シフトを使用して時間ドメインにおける前記広帯域アライメント・パラメータを適用するか、もしくは循環シフトを使用して周波数ドメインにおける前記広帯域アライメント・パラメータを適用するよう構成されるか、又は、前記パラメータ決定部(100)は、−前記第1チャネルと前記第2チャネルとの間の相互相関スペクトルを計算すること(452)、−前記第1チャネル、前記第2チャネル又は両方のチャネルについてのスペクトル形状に関する情報を計算すること(453、454)、−スペクトル形状に関する情報に応じて前記相相関スペクトル平滑化すること(455)、−任意選択的に、平滑化された相互相関スペクトルを正規化すること(456)、−前記平滑化され、任意選択的に正規化された相互相関スペクトルの時間ドメイン表現を決定すること(457、458)、及び−前記時間ドメイン表現を分析(459)してチャネル間時間差を取得すること、を使用して前記広帯域アライメント・パラメータを計算するよう構成されている、請求項1〜16のいずれか一項に記載の装置。

請求項18

前記信号プロセッサ(300)は、エネルギースケーリング係数を使用して前記中央信号と前記サイド信号とを計算するよう構成され、前記エネルギースケーリング係数は最大でも2と、最小でも0.5の間に制限され、又は前記パラメータ決定部(100)は、ある帯域内の前記第1及び第2チャネルのスペクトル値の積の複素合計の角度を決定することにより、前記帯域について正規化されたアライメント・パラメータを計算するよう構成され、又は前記信号アライナ(200)は、前記第1及び第2チャネルの双方に対してチャネル回転が行われるように前記狭帯域アライメントを実行するよう構成され、高い振幅を有するチャネルのチャネル回転は小さい振幅を有するチャネルに比べて小さい角度だけ回転される、請求項1〜17のいずれか一項に記載の装置。

請求項19

少なくとも2つのチャネルを有する多チャネル信号を符号化する方法であって、前記多チャネル信号から1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを決定するステップ(100)と、前記広帯域アライメント・パラメータと前記複数の狭帯域アライメント・パラメータとを使用して前記少なくとも2つのチャネルをアラインし、アライン済みチャネルを取得するステップ(200)と、前記アライン済みチャネルを使用して中央信号とサイド信号とを計算するステップ(300)と、前記中央信号を符号化して符号化済み中央信号を取得し、前記サイド信号を符号化して符号化済みサイド信号を取得するステップ(400)と、前記符号化済み中央信号と前記符号化済みサイド信号と前記広帯域アライメント・パラメータに関する情報と前記複数の狭帯域アライメント・パラメータに関する情報とを含む符号化済み多チャネル信号を生成するステップ(500)と、を備える方法。

請求項20

符号化済み中央信号と、符号化済みサイド信号と、広帯域アライメント・パラメータに関する情報と、複数の狭帯域アライメント・パラメータに関する情報とを含む、符号化済み多チャネル信号。

請求項21

符号化済み中央信号と、符号化済みサイド信号と、広帯域アライメント・パラメータに関する情報と、複数の狭帯域アライメント・パラメータに関する情報とを含む、符号化済み多チャネル信号を復号化する装置であって、前記符号化済み中央信号を復号化して復号化済み中央信号を取得し、前記符号化済みサイド信号を復号化して復号化済みサイド信号を取得する、信号復号器(700)と、前記復号化済み中央信号と前記復号化済みサイド信号とから復号化済み第1チャネルと復号化済み第2チャネルとを計算する、信号プロセッサ(800)と、前記広帯域アライメント・パラメータに関する情報と前記複数の狭帯域アライメント・パラメータに関する情報とを使用して、前記復号化済み第1チャネルと前記復号化済み第2チャネルとをデ・アラインし、復号化済み多チャネル信号を取得する信号デ・アライナ(900)と、を備える装置。

請求項22

前記信号デ・アライナ(900)は、前記復号化済み第1及び第2チャネルの複数のサブバンドの各々を、当該サブバンドに関連する狭帯域アライメント・パラメータを使用してデ・アラインし、前記第1及び第2チャネルのデ・アライン済みサブバンドを取得するよう構成され、かつ前記信号デ・アライナは、前記広帯域アライメント・パラメータに関する情報を使用して、前記第1及び第2復号化済みチャネルのデ・アライン済みサブバンドの表現をデ・アラインするよう構成される、請求項21に記載の装置。

請求項23

前記信号デ・アライナ(900)は、−前記左チャネル又は前記右チャネルのサンプルの現ブロックを窓掛けして、窓掛けされた現ブロックを取得すること、−前記第1チャネル及び前記第2チャネルのサンプルの後続ブロックを窓掛けして、窓掛けされた後続ブロックを取得すること、及び−前記窓掛けされた現ブロックのサンプルと前記窓掛けされた後続ブロックのサンプルとをオーバーラップ領域において加算し、前記オーバーラップ領域についての時間ドメイン表現を取得すること、を使用して、前記復号化済み第1チャネル又は前記復号化済み第2チャネルの時間ドメイン表現を計算するよう構成される、請求項21又は22に記載の装置。

請求項24

前記信号デ・アライナ(900)は、帯域幅を有する個別のサブバンドについて前記複数の狭帯域アライメント・パラメータに関する情報を個別に適用するよう構成され、第1中央周波数を有する第1帯域の第1帯域幅は、第2中央周波数を有する第2帯域の第2帯域幅より低く、前記第2中央周波数は前記第1中央周波数より大きく、又は前記信号デ・アライナは、境界周波数までの帯域についてのみ、個別の帯域について前記複数の狭帯域アライメント・パラメータに関する情報を個別に適用するよう構成され、前記境界周波数は前記第1復号化済みチャネル又は前記第2復号化済みチャネルの最大周波数よりも低く、及び前記信号デ・アライナ(900)は、前記広帯域アライメント・パラメータに関するのみ情報を使用して、前記境界周波数より高い周波数を有するサブバンドにおける前記少なくとも2つのチャネルをデ・アラインし、前記広帯域アライメント・パラメータに関する情報と前記狭帯域アライメント・パラメータに関する情報とを使用して、前記境界周波数より低い周波数を有するサブバンドにおける前記少なくとも2つのチャネルをデ・アラインするよう構成される、請求項21〜23のいずれか一項に記載の装置。

請求項25

前記信号プロセッサ(800)は、前記復号化済み中央信号と前記復号化済みサイド信号との周波数ドメイン表現を計算する、時間−スペクトル変換部(810)を含み、前記信号プロセッサ(800)は、前記復号化済み第1チャネルと前記復号化済み第2チャネルとを周波数ドメインで計算するよう構成され、前記信号デ・アライナは、前記複数の狭帯域アライメント・パラメータに関する情報だけを使用してアラインされ、又は前記複数の狭帯域アライメント・パラメータと前記広帯域アライメント・パラメータに関する情報とを使用してアラインされた、信号を時間ドメインへ変換する、スペクトル−時間変換部(930)を含む、請求項21〜24のいずれか一項に記載の装置。

請求項26

前記信号デ・アライナ(900)は、前記広帯域アライメント・パラメータに関する情報を使用して、時間ドメインでデ・アライメントを実行し、かつ時間アライン済みチャネルの時間的に後続ブロックを使用して、窓掛け操作(932)又はオーバーラップ・加算操作(933)を実行するよう構成され、又は前記信号デ・アライナ(900)は、前記広帯域アライメント・パラメータに関する情報を使用して、スペクトルドメインでデ・アライメントを実行し、そのデ・アライン済みチャネルを使用してスペクトル−時間変換(931)を実行し、かつ前記デ・アライン済みチャネルの時間的に後続のブロックを使用して、合成窓掛け(932)及びオーバーラップ・加算操作(933)を実行するよう構成される、請求項21〜25のいずれか一項に記載の装置。

請求項27

前記信号復号器は、時間ドメインの中央信号と時間ドメインのサイド信号とを生成するよう構成され、前記信号プロセッサ(800)は、分析窓を使用して窓掛けを実行し、前記中央信号又は前記サイド信号の窓掛けされたサンプルの後続ブロックを生成するよう構成され、前記信号プロセッサは、時間的な後続ブロックを変換してスペクトル値の後続ブロックを取得する時間−スペクトル変換部(810)を含み、前記信号デ・アライナ(900)は、スペクトル値の前記ブロックに関する前記狭帯域アライメント・パラメータに関する情報と前記広帯域アライメント・パラメータに関する情報とを使用して、デ・アライメントを実行するよう構成される、請求項1〜26のいずれか一項に記載の装置。

請求項28

前記符号化済み信号は、複数の予測ゲイン又はレベルパラメータを含み、前記信号プロセッサ(800)は、前記中央チャネルのスペクトル値と、前記スペクトル値が関連する帯域についての予測ゲイン又はレベルパラメータとを使用(820)し、かつ前記復号化済みサイド信号のスペクトル値を使用(830)して、前記左チャネルと前記右チャネルとのスペクトル値を計算するよう構成される、請求項21〜27のいずれか一項に記載の装置。

請求項29

前記信号プロセッサ(800)は、前記左チャネルと前記右チャネルとのスペクトル値を、そのスペクトル値が関連(830)する帯域についてのステレオ充填パラメータを使用して、計算するよう構成される、請求項21〜28のいずれか一項に記載の装置。

請求項30

前記信号デ・アライナ(900)又は前記信号プロセッサ(800)は、あるスケーリングファクタを使用してある帯域についてのエネルギースケーリング(910)を実行するよう構成され、前記スケーリングファクタは前記復号化済み中央信号と前記復号化済みサイド信号のエネルギーに依存(920)しており、前記スケーリングファクタは、最大値2.0と最小値0.5との間に制限されている、請求項21〜29のいずれか一項に記載の装置。

請求項31

前記信号プロセッサ(800)は、前記レベルパラメータから導出されたゲインファクタを使用して、前記左チャネルと前記右チャネルとのスペクトル値を計算するよう構成され、前記ゲインファクタは、非線形関数を使用して前記レベルパラメータから導出される、請求項28〜30のいずれか一項に記載の装置。

請求項32

前記信号デ・アライナ(900)は、前記復号化済み第1及び第2のチャネルの帯域を、これらチャネルについての前記狭帯域アライメント・パラメータに関する情報を使用し、前記第1及び第2チャネルのスペクトル値の回転を使用して、デ・アラインするよう構成され、高い振幅を有する1つのチャネルのスペクトル値は低い振幅を有する他のチャネルの帯域のスペクトル値よりも小さく回転される、請求項21〜31のいずれか一項に記載の装置。

請求項33

符号化済み中央信号と、符号化済みサイド信号と、広帯域アライメント・パラメータに関する情報と、複数の狭帯域アライメント・パラメータに関する情報とを含む、符号化済み多チャネル信号を復号化する方法であって、前記符号化済み中央信号を復号化して復号化済み中央信号を取得し、前記符号化済みサイド信号を復号化して復号化済みサイド信号を取得するステップ(700)と、前記復号化済み中央信号と前記復号化済みサイド信号とから復号化済み第1チャネルと復号化済み第2チャネルとを計算するステップ(800)と、前記広帯域アライメント・パラメータに関する情報と前記複数の狭帯域アライメント・パラメータに関する情報とを使用して、前記復号化済み第1チャネルと前記復号化済み第2チャネルとをデ・アラインし、復号化済み多チャネル信号を取得するステップ(900)と、を備える方法。

請求項34

コンピュータ又はプロセッサ上で作動するとき、請求項19に記載の方法又は請求項33に記載の方法を実行するためのコンピュータプログラム

技術分野

0001

本発明は、ステレオ処理又は一般的には多チャネル処理に関し、ここで多チャネルとは、ステレオ信号の場合の左チャネル及び右チャネルのように2個のチャネルを有するか、又は3個、4個、5個もしくは他の任意の個数など、3個以上のチャネルを有するものである。

背景技術

0002

ステレオスピーチ及び特に会話のステレオスピーチは、立体音響音楽の記憶や配信に比べて遥かに小さな科学的注目度しか得られて来なかった。実際、スピーチ通信においては、今日でもモノラル音響の伝送が主に使用されている。しかしながら、ネットワーク帯域幅及び容量の増加に伴い、ステレオ音響技術に基づく通信はさらに普及し、より良好なリスニング経験をもたらすであろうと期待されている。

0003

ステレオ音響オーディオ材料の効率的な符号化は、効率的な記憶又は配信のための音楽の知覚的オーディオ符号化において、長年研究されてきた。波形保存が重要となる高いビットレートにおいては、中央/サイド(M/S)ステレオとして知られる和−差ステレオ(sum-difference stereo)が長年使用されてきた。低いビットレートについては、インテンシティステレオ及び最近ではパラメトリックステレオ符号化が導入されてきた。HeAACv2及びMpegUSACのような種々の標準においては、最新の技術が採用されている。そのような技術では、2チャネル信号ダウンミクスを生成し、コンパクトな空間サイド情報を伴う。

0004

ジョイントステレオ符号化は通常、高い周波数分解能、即ち低い時間分解能に亘って構築され、よってその信号の時間−周波数変換は、殆どのスピーチコーダにおいて実行される低遅延及び時間ドメインの処理に対して互換性を持たない。さらに、生成されるビットレートは通常は高い。

0005

他方、パラメトリックステレオは、前処理部として符号器最前端に配置されまた後処理部として復号器の最後端に配置される、追加のフィルタバンクを使用する。従って、パラメトリックステレオは、MPEG USACにおいて実施されているように、ACELPのような従来のスピーチコーダとともに使用され得る。更に、聴覚シーンパラメトリック化は、最少量のサイド情報を用いて達成されることができ、これは低ビットレートに適している。しかしながら、パラメトリックステレオは、例えばMPEG USACの場合のように、低遅延のために特異に設計されたものではなく、また、様々な会話シナリオに対して一貫した品質を提供するものでもない。空間的シーンの従来のパラメトリック表現において、ステレオイメージの幅は、2つの合成されたチャネルに適用されるデコリレータにより人工的に再生され、符号器により計算されかつ伝送されるチャネル間コヒーレンス(ICs)パラメータにより制御される。殆どのステレオスピーチにとって、ステレオイメージの幅を広げるこの方法は、かなり直接音であるスピーチの自然環境再現するには適切ではない。なぜならスピーチは、空間内におけるある特定位置に位置する単一の音源により(時には室内からの反響も伴って)生成されるからである。対照的に、楽器はスピーチよりも自然な幅が各段に大きいので、チャネルをデコリレートすることによってより良好に模倣され得る。

0006

更に、マイクロホンが互いに距離を置いて配置されるA−B方式やバイノーラル録音又はレンダリングの場合のように、スピーチが非同時マイクロホン(non-coincident microphones)を用いて録音される場合にも問題が発生する。このようなシナリオは、テレカンファランス(teleconferences)においてスピーチを捕捉する場合や、多点制御ユニット(MCU)において遠方スピーカを用いて仮想の聴覚シーンを創造する場合に想定され得る。そのような場合、1つのチャネルからの信号の到達時刻は他のチャネルとは異なり、これは、X−Y(インテンシティ録音)又はM−S(中央−サイド録音)のような同時マイクロホン(coincident microphones)で実行された録音と同様ではない。そのような時間整列されていない2つのチャネルのコヒーレンスの計算は、誤って推定される恐れがあり、結果的に人工的な環境合成の失敗を招きかねない。

0007

ステレオ処理に関する先行技術文献は、特許文献1又は特許文献2である。

0008

特許文献3は、トランスペアレントに近い又はトランスペアレントな多チャネル符号器/復号器のスキームを開示している。多チャネル符号器/復号器のスキームは、波形タイプ残差信号を追加的に生成する。この残差信号は1つ以上の多チャネルパラメータと一緒に復号器へと伝送される。純粋にパラメトリックな多チャネル復号器とは対照的に、強化された復号器は、追加的な残差信号に起因して、改善された出力品質を有する多チャネル出力信号を生成する。符号器側では、左チャネル及び右チャネルの両方が1つの分析フィルタバンクによってフィルタリングされる。次に、各サブバンドについて、1つのサブバンドのアライメント値ゲイン値とが計算される。そのようなアライメントは、更なる処理の前に実行される。復号器側では、デ・アライメント及びゲイン処理が実行され、対応する信号が合成フィルタバンクによって合成されて、復号化済み左信号と復号化済み右信号とが生成される。

0009

会議のシナリオや会話型スピーチのシーンにおいて複数の話者がいる場合、このような従来技術の手順は、オーディオ信号にとって、特にスピーチ信号にとって、最適な手順を提供しないことが分かってきた。

先行技術

0010

米国特許第5,434,948号
米国特許第8,811,621号
国際公開第2006/089570A1号

発明が解決しようとする課題

0011

本発明の目的は、多チャネル信号を符号化又は復号化するための改善された概念を提供することである。

課題を解決するための手段

0012

この目的は、請求項1に記載の多チャネル信号を符号化する装置、請求項20に記載の多チャネル信号を符号化する方法、請求項21に記載の符号化済み多チャネル信号を復号化する装置、請求項33に記載の符号化済み多チャネル信号を復号化する方法、又は請求項34に記載のコンピュータプログラムにより達成される。

0013

少なくとも2つのチャネルを持つ多チャネル信号を符号化する装置は、一方で1つの広帯域アライメント・パラメータと他方で複数の狭帯域アライメント・パラメータとを決定する、パラメータ決定部を含む。これらパラメータは、それらのパラメータを使用して少なくとも2つのチャネルをアライン整列:aligning)することによりアライン済みチャネルを取得する、信号アライナによって使用される。次に、信号プロセッサは、アライン済みチャネルを使用して中央信号サイド信号とを計算し、その後で中央信号とサイド信号とは符号化されて符号化済み出力信号内へと供給されるので、その出力信号は、パラメトリックサイド情報として、広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを追加的に有する。

0014

復号器側では、信号復号器は、符号化済み中央信号及び符号化済みサイド信号を復号化し、復号化済み中央及びサイド信号を得る。これらの信号は、次いで、復号済み第1チャネル及び復号化済み第2チャネルを計算するために、信号プロセッサによって処理される。これらの復号化済みチャネルは、符号化済み多チャネル信号に含まれた、広帯域アライメント・パラメータに関する情報と複数の狭帯域パラメータに関する情報とを用いてデ・アラインされ、復号化済み多チャネル信号を得る。

0015

特定の実施態様では、広帯域アライメント・パラメータは、チャネル間時間差パラメータであり、複数の狭帯域アライメント・パラメータは、チャネル間位相差である。

0016

本発明は以下のような知見に基づいている。すなわち、特に2人以上の話者がいるスピーチ信号についてだけでなく、複数のオーディオ音源がある他のオーディオ信号についても、両方が多チャネル信号の2つのチャネル内へとマッピングされるオーディオ音源同士の異なる位置は、一方または両方のチャネルのスペクトル全体に適用されるチャネル間時間差パラメータのような広帯域アライメント・パラメータを使用して説明され得る、という知見である。この広帯域アライメント・パラメータに加えて、サブバンドごとに異なる複数の狭帯域アライメント・パラメータが、さらに両方のチャネルにおける信号の良好なアライメントをもたらすことが分かってきた。

0017

このように、各サブバンドにおいて同じ時間遅延に対応する広帯域アライメントと、異なるサブバンドに対して異なる位相回転に対応する位相アライメントとは、2つのチャネルが後に1つの中央/サイド表現へと変換されかつ更なる符号化を施される前に、両チャネルの最適なアライメントをもたらす。最適なアライメントが得られたという事実に起因して、一方で中央信号のエネルギーができる限り高く、他方でサイド信号のエネルギーが可能な限り小さくなり、それにより最低の可能なビットレート又はあるビットレートについて最高の可能なオーディオ品質を持つ最適な符号化結果を得ることができる。

0018

特に会話型のスピーチ材料にとって、活性である話者が2つの異なる場所にいることは典型的と言える。さらに、この状況は、通常、1人の話者が第1の位置から話しており、第2の話者が第2の場所または位置から話しているような場合である。第1(左)チャネルおよび第2(右)チャネルのような2つのチャネル上の異なる位置の影響は、異なる到達時間、したがって異なる位置に起因する両チャネル間のある時間遅延によって反映され、この時間遅延は、時々刻々変化する。一般に、この影響は、広帯域アライメント・パラメータによって対処することが可能な広帯域デ・アライメントとして2つのチャネル信号内に反映されている。

0019

一方で、特に残響又は他のノイズ源から到来する他の効果は、双方のチャネルの広帯域の異なる到達時間または広帯域デ・アライメントに重畳されている、個々の帯域のための個々の位相アライメント・パラメータにより説明され得る。

0020

このことを考慮すると、1つの広帯域アライメント・パラメータとその広帯域アライメント・パラメータの上に複数の狭帯域アライメント・パラメータとの双方の使用は、良好で非常にコンパクトな中央/サイド表現を取得するために符号化側での最適なチャネルアライメントをもたらし、その一方で、復号器側の復号化の後の対応するデ・アライメントは、あるビットレートでの良好なオーディオ品質をもたらすか、又はある所望のオーディオ品質についての小さなビットレートをもたらす。

0021

本発明の利点は、既存のステレオ符号化方式よりも、ステレオスピーチの変換に関してはるかに好適な新たなステレオ符号化方式を提供することである。本発明によれば、パラメトリックステレオ技術およびジョイントステレオ符号化技術は、スピーチ音源の場合だけでなく他のオーディオ音源の場合においても、多チャネル信号のチャネル同士に発生するチャネル間時間差を利用することによって、特に結合される。

0022

複数の実施形態が、後述のように有用な利点を提供する。

0023

この新たな方法は、従来のM/Sステレオとパラメトリックステレオからの要素を混合するハイブリッド手法である。従来のM/Sでは、チャネルは中央及びサイド信号を生成するために、受動的ダウンミックスされる。その処理は、チャネルを合計し差分化する前の主成分分析PCA)としても知られている、Karhunen-Loeve変換(KLT)を用いてチャネルを回転させることにより、拡張され得る。中央信号は一次符号符号化により符号化され、サイド信号は二次符号器へと送られる。進化型のM/Sステレオは、現在または以前のフレームで符号化された中央チャネルによるサイド信号の予測をさらに使用することができる。回転及び予測の主な目的は、サイド信号のエネルギーを最小にしながら、中央信号のエネルギーを最大にすることである。M/Sステレオは波形保存型であり、この視点から任意のステレオシナリオに対して非常にロバストであるが、ビット消費量の点で非常に消耗し得る。

0024

低ビットレートでの最高効率を得るために、パラメトリックステレオは、チャネル間レベル差ILD)、チャネル間位相差(IPD)、チャネル間時間差(ITD)およびチャネル間コヒーレンス(IC)などのパラメータを計算し、符号化する。これらは、ステレオイメージを簡潔に表すものであり、聴覚的シーン(音源定位パニングステレオ幅など)のキューである。この場合の目的は、ステレオシーンパラメータ化し、復号器に存在し得る1つのダウンミックス信号だけを符号化し、送信されたステレオ・キューの助けを借りて再度空間化されるようにすることである。

0025

本発明の手法は、2つの概念を混合した。第1に、ステレオ・キューITDおよびIPDが計算され、2つのチャネルに適用される。その目的は、広帯域における時間差と異なる周波数帯域における位相とを表現することである。2つのチャネルは、次に時間と位相においてアラインされ、次にM/S符号化が行われる。ITDおよびIPDは、ステレオスピーチをモデル化するために有用であることが判明しており、M/SにおけるKLTベースの回転の良好な代替品である。純粋なパラメトリック符号化とは異なり、周囲環境は、ICによってモデル化されるのではなく、符号化されおよび/または予測されたサイド信号によって直接的にモデル化される。スピーチ信号を扱う場合には特に、この手法はよりロバストであることが判明した。

0026

ITDの計算および処理は、本発明の重要な部分である。ITDは、既に従来技術のバイノーラルキュー符号化(BCC)で利用されていたが、ITDが一旦経時的に変化すれば、非効率的であった。この欠点を回避するために、2つの異なるITD間の遷移平滑化し、1人の話者から異なる場所に位置する別の話者へと継ぎ目なく切り替えることができるように、特異な窓掛けが設計されていた。

0027

さらなる実施形態は、符号器側で、複数の狭帯域アライメント・パラメータを決定するパラメータ決定が、以前に決定された広帯域アライメント・パラメータを用いて既にアラインされているチャネルを使用して実行される、手順に関係する。

0028

これに対応して、典型的には単一である広帯域アライメント・パラメータを用いる広帯域のデ・アライメントが実行される前に、復号器側で狭帯域のデ・アライメントが実行される。

0029

更なる実施形態において、符号器側において、さらに重要なことに復号器側においても、何らかの種類の窓掛けおよびオーバーラップ加算操作、又は1つのブロックから次のブロックまでの任意の種類のクロスフェードが、全てのアライメントに続いて、具体的には広帯域アライメント・パラメータを用いた時間アライメントに続いて実行される。このことは、時間または広帯域アライメント・パラメータがブロックからブロックへと変化する際に、クリックのような如何なる可聴アーチファクトをも回避する。

0030

他の実施形態では、異なるスペクトル分解能が適用される。特に、チャネル信号は、DFTスペクトルのような高い周波数分解能を有する時間−スペクトル変換が施され、一方で、狭帯域アライメント・パラメータのようなパラメータは、低いスペクトル解像度を有するパラメータ帯域のために決定される。典型的に、1つのパラメータ帯域は信号スペクトルの他に2つ以上のスペクトル線を有し、典型的にDFTスペクトルからの1組のスペクトル線を有する。さらに、聴覚心理学的問題に対処するために、パラメータ帯域は低周波数から高周波数にかけて増大する。

0031

さらなる実施形態は、インターレベル差のようなレベルパラメータの追加的使用、又はステレオ充填パラメータ(stereo filling parameters)等のようなサイド信号を処理するための他の手順に関係する。符号化済みサイド信号は、実際のサイド信号自体によって表現され得るか、又は現フレームまたは任意の他のフレームの中央信号を使用して実行される予測残差信号によって表現され得るか、又は帯域のあるサブセットのみにおけるサイド信号又はサイド予測残差信号と残りの帯域のみについての予測パラメータとによって表現され得るか、又は如何なる高い周波数分解能サイド信号情報をも有しない全ての帯域に関する予測パラメータとによってさえ表現され得る。従って、上述の最後の代替案では、符号化済みサイド情報は、各パラメータ帯域についての予測パラメータによって、又はパラメータ帯域のサブセットによってのみ表現され、残りのパラメータ帯域については、オリジナルサイド信号に関する如何なる情報も存在しない。

0032

さらに、広帯域信号の全帯域を反映する全てのパラメータ帯域についてではなく、例えばパラメータ帯域の下位50%のような低い帯域のあるセットについてのみ、複数の狭帯域アライメント・パラメータを有することが好ましい。一方、ステレオ充填パラメータは、これら幾つかの低い帯域に対しては使用されず、その理由は、これら帯域についてはサイド信号自体または予測残差信号が送信され、少なくとも低い帯域については波形正確型の表現(waveform-correct representation)が利用可能であることが確保されるからである。他方で、ビットレートをさらに低減するために、サイド信号は、高い帯域については波形正確型の表現では送信されず、このサイド信号は典型的にステレオ充填パラメータによって表される。

0033

また、同一のDFTスペクトルに基づく1つの同じ周波数ドメイン内で、全体のパラメータ分析とアライメントとを行うことが好ましい。この目的のために、チャネル間時間差の決定のために、相変換(GCC-PHAT)技術を用いた汎用相互相関を使用することが、さらに好ましい。この手順の好ましい実施形態では、平滑化がノイズ状信号の場合に弱くなり、かつ調性状(tone-like)信号の場合により強くなるように、スペクトル形状に関する情報、好ましくはスペクトル平坦尺度である情報に基づいた相関スペクトルの平滑化が実行される。

0034

さらに、特別な位相回転を行うことが望ましく、そこではチャネル振幅が考慮される。特に、位相回転は、符号器側でのアライメントの目的で、かつ当然ながら復号器側でのデ・アライメントの目的で、2つのチャネル間で分配され、より高い振幅を有するチャネルは主要なチャネルであるとみなされ、かつ位相回転による影響が抑制され、すなわち低い振幅を持つチャネルよりも小さく回転されるであろう。

0035

さらに、両方のチャネルのエネルギーから導出され、かつ中央/サイド計算がエネルギーに強く影響を与え過ぎないことを確実にするためある範囲に制限されたスケーリング係数を持つエネルギースケーリングを用いて、和差演算が実行される。しかしながら、一方では、本発明の目的のため、この種のエネルギー保全は、先行技術の方法の場合のように重要ではないことに留意すべきであり、なぜなら時間と位相は予めアラインされているからである。従って、左と右からの中央信号とサイド信号との計算(符号器側)、又は中央とサイドからの左信号と右信号との計算(復号器側)に起因する、エネルギー変動は従来に比べて重要ではない。

0036

以下に、添付図面を参照しながら本発明の好ましい実施形態を説明する。

図面の簡単な説明

0037

多チャネル信号を符号化する装置の好ましい実施形態のブロック図である。
符号化済み多チャネル信号を復号化する装置の好ましい実施形態である。
所定の実施形態に係る種々の周波数分解能及び他の周波数関連の態様を示す。
チャネルをアラインするために符号化装置内で実行される処理のフローチャートを示す。
周波数ドメインで実行される手順の好ましい実施形態を示す。
ゼロパディング部分及びオーバーラップ領域を有する分析窓を使用して符号化装置内で実行される手順の好ましい実施形態を示す。
符号化装置内で実行される追加的な手順についてのフローチャートを示す。
チャネル間時間差推定の好ましい実施形態を示すフローチャートである。
符号化装置内で実行される手順の更なる実施形態を示すフローチャートである。
符号器の一実施形態のブロック図を示す。
復号器の対応する一実施形態のフローチャートを示す。
ステレオ時間−周波数分析及び合成のためのゼロパディングを持つ低いオーバーラップ正弦窓を用いた好ましい窓シナリオを示す。
異なるパラメータ値のビット消費を示す表である。
好ましい実施形態において符号化済み多チャネル信号を復号化する装置によって実行される手順を示す。
符号化済み多チャネル信号を復号化する装置の好ましい一実施形態を示す。
符号化済み多チャネル信号の復号化の枠組み内での広帯域デ・アライメントの文脈において実行される手順を示す。

実施例

0038

図1は、少なくとも2つのチャネルを有する多チャネル信号を符号化する装置を示す。多チャネル信号10は、一方ではパラメータ決定部100に対して入力され、他方では信号アライナ(signal aligner)200に入力される。パラメータ決定部100は、多チャネル信号から、一方では1つの広帯域アライメント・パラメータを決定し、他方では複数の狭帯域アライメント・パラメータを決定する。これらのパラメータは、パラメータ線12を介して出力される。更に、これらのパラメータは、図示するように他のパラメータ線14を介して出力インターフェース500へも出力される。パラメータ線14上では、レベルパラメータなどの追加的パラメータがパラメータ決定部100から出力インターフェース500へと送られる。信号アライナ200は、パラメータ線12を介して受け取った広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号10の少なくとも2つのチャネルをアラインし、信号アライナ200の出力においてアライン済みチャネル20を取得するよう構成されている。これらのアライン済みチャネル20は信号プロセッサ300へと送られ、この信号プロセッサ300は、線20を介して受け取られたアライン済みチャネルから、中央信号31とサイド信号32とを計算するよう構成されている。この符号化装置は、線31からの中央信号と線32からのサイド信号32とを符号化して、線41上に符号化済み中央信号を取得し、線42上に符号化済みサイド信号を取得する、信号符号器400を更に含む。これら両方の信号は、出力線50において符号化済み多チャネル信号を生成する、出力インターフェース500へと送られる。出力線50における符号化済み信号は、線41からの符号化済み中央信号と、線42からの符号化済みサイド信号と、線14からの広帯域アライメント・パラメータ及び狭帯域アライメント・パラメータと、任意ではあるが線14からのレベルパラメータと、更に任意ではあるが信号符号器400により生成されかつパラメータ線43を介して出力インターフェース500へと送られたステレオ充填パラメータと、を含む。

0039

好ましくは、パラメータ決定部100が実際に狭帯域パラメータを計算する前に、信号アライナが広帯域アライメント・パラメータを使用して多チャネル信号からのチャネルをアラインするよう構成されている。従って、この実施例において、信号アライナ200は、広帯域アライン済みチャネルを、接続線15を介してパラメータ決定部100へと戻す。次に、パラメータ決定部100は、広帯域特性に関して既にアラインされた多チャネル信号から、複数の狭帯域アライメント・パラメータを決定する。しかしながら、他の実施例においては、パラメータはこのような特異な流れの手順を踏まずに決定される。

0040

図4aは、接続線15をもたらす特異なステップ系列が実行される、好ましい実施形態を示す。ステップ16において、2つのチャネルを使用して広帯域アライメント・パラメータが決定され、チャネル間時間差又はITDパラメータなどの広帯域アライメント・パラメータが取得される。次に、ステップ21において、図1の信号アライナ200により、広帯域アライメント・パラメータを使用して2つのチャネルがアラインされる。次に、ステップ17において、パラメータ決定部100内でアライン済みチャネルを使用して狭帯域パラメータが決定され、多チャネル信号の異なる帯域についての複数のチャネル間位相差パラメータなどの複数の狭帯域アライメント・パラメータを決定する。次に、ステップ22において、各パラメータ帯域におけるスペクトル値が、この特定の帯域のための対応する狭帯域アライメント・パラメータを使用してアラインされる。狭帯域アライメント・パラメータが利用可能な各帯域についてステップ22のこの手順が実行された場合、アラインされた第1及び第2のチャネル又は左/右のチャネルが、図1の信号プロセッサ300による更なる信号処理にとって利用可能となる。

0041

図4bは、複数の手順が周波数ドメインで実行される、図1の多チャネル符号器の更なる実施形態を示す。

0042

特に、多チャネル符号器は、時間ドメインの多チャネル信号を周波数ドメイン内の少なくとも2つのチャネルのスペクトル表現へと変換する、時間−スペクトル変換部150を更に含む。

0043

更に、符号152で示すように、図1に符号100,200,300で示すパラメータ決定部と信号アライナと信号プロセッサは、全て周波数ドメインで作動する。

0044

更に、多チャネル符号器及び特に信号プロセッサは、少なくとも中央信号の時間ドメイン表現を生成するためのスペクトル−時間変換部154を更に含む。

0045

好ましくは、スペクトル−時間変換部は、ブロック152で表す手順によっても決定されたサイド信号のスペクトル表現を、時間ドメイン表現へと追加的に変換する。また、図1の信号符号器400は次に、時間ドメイン信号としての中央信号及び/又はサイド信号を、図1の信号符号器400の特異な実施形態に依存して更に符号化するよう構成されている。

0046

好ましくは、図4bの時間−スペクトル変換部150は、図4cのステップ155,156及び157を実行するよう構成されている。特に、ステップ155は分析窓を提供することを含み、その分析窓は、その一端部に少なくとも1つのゼロパディング部分を有し、具体的には、例えば図7以降に示すように、窓の初期部分におけるゼロパディング部分と窓の終了部分におけるゼロパディング部分とを有する。更に、その分析窓は、窓の第1半分と窓の第2半分においてオーバーラップ領域又はオーバーラップ部分を追加的に有し、更にまた、場合によっては非オーバーラップ領域である中央部分を有することが好ましい。

0047

ステップ156において、各チャネルはオーバーラップ領域を有する分析窓を用いて窓掛けされる。特に、各チャネルは、分析窓を使用して、チャネルの第1ブロックが取得されるような方法で窓掛けされる。次に、第1ブロックとの間であるオーバーラップ領域を有する同じチャネルの第2ブロックが取得されるように続き、その結果、例えば5回の窓掛け操作が行われた後で、各チャネルの窓掛け済みサンプルの5個のブロックが利用可能となり、それらは次に、図4cの符号157で示すように、スペクトル表現へと個別に変換される。同じ手順が他のチャネルについても実行され、その結果、ステップ157の終了時には、スペクトル値、及び特にDFTスペクトル値などの複素スペクトル値、又は複素サブバンドサンプルのブロック系列が利用可能となる。

0048

図1のパラメータ決定部100により実行されるステップ158において、広帯域アライメント・パラメータが決定され、図1の信号アライナ200により実行されるステップ159において、その広帯域アライメント・パラメータを使用して循環シフト(circular shift)が実行される。これも図1のパラメータ決定部100により実行されるステップ160において、狭帯域アライメント・パラメータが個別の帯域/サブバンドについて決定され、ステップ161において、アライン済みスペクトル値は、特定の帯域について決定された対応する狭帯域アライメント・パラメータを使用して、各帯域について回転される。

0049

図4dは、信号プロセッサ300により実行される更なる手順を示す。特に、信号プロセッサ300は、ステップ301に示すように中央信号とサイド信号とを計算するよう構成されている。ステップ302において、サイド信号のある種の追加的処理が実行されることができ、次に、ステップ303において、中央信号及びサイド信号の各ブロックが時間ドメインへと逆変換される。ステップ304において、ステップ303により取得された各ブロックに対して合成窓が適用され、ステップ305において、一方では中央信号についてオーバーラップ加算操作を実行し、他方ではサイド信号についてオーバーラップ加算操作を実行して、最終的に、時間ドメインの中央/サイド信号を取得する。

0050

特に、ステップ304及び305の操作は、中央信号又はサイド信号のあるブロックからの中央信号及びサイド信号の次ブロックへの一種クロスフェーディングをもたらし、それにより、チャネル間時間差パラメータ又はチャネル間位相差パラメータなどの如何なるパラメータ変化が発生した場合でも、図4dのステップ305により取得された時間ドメインの中央/サイド信号内においてパラメータ変化が可聴とならないような方法で実行される。

0051

新たな低遅延ステレオ符号化は、幾つかの空間キューを利用するジョイント中央/サイド(M/S)ステレオ符号化であり、その中央チャネルは一次モノラルコアコーダによって符号化され、サイドチャネル二次コアコーダによって符号化される。符号器及び復号器の原理図6a及び図6bに示される。

0052

ステレオ処理は主として周波数ドメイン(FD)で実行される。任意選択的に、周波数分析の前に何らかのステレオ処理が時間ドメイン(TD)で実行されることもあり得る。これはITD(チャネル間時間差)計算の場合であり、ステレオ分析の追及及び処理の前に、チャネルを時間においてアラインするために、周波数分析の前にその計算がされて適用され得る。代替的に、ITD処理は周波数ドメインで直接的に実行され得る。ACELPのような通常のスピーチコーダは、内部的な時間−周波数分解を全く含まないので、そのステレオ符号化は、コア符号器の前の分析及び合成フィルタバンクと、コア復号器の後の分析−合成フィルタバンクの別のステージとにより、余分な複素変調されたフィルタバンクを追加することになる。好ましい実施形態においては、低いオーバーラップ領域を有するオーバーサンプル型DFTが使用される。しかしながら、他の実施形態においては、同様な時間的分解能を有する如何なる複素値の時間−周波数分解も使用可能である。

0053

ステレオ処理は、チャネル間時間差(ITD)、チャネル間位相差(IPDs)及びチャネル間レベル差(ILDs)のような、空間キューを計算することで構成される。ITDとIPDは、2つのチャネルLとRとを時間と位相においてアラインするために、入力ステレオ信号に対して使用される。ITDは広帯域ドメイン又は時間ドメインで計算され、IPDとILDは、周波数空間の不均一な分解に対応して、パラメータ帯域のそれぞれ又は一部について計算される。2つのチャネルがアラインされた後、ジョイントM/Sステレオが適用され、そこではサイド信号が次に中央信号から予測される。予測ゲインはILDから導出される。

0054

中央信号は、さらに一次コア符号器によって符号化される。好ましい実施形態では、一次コア符号器は3GPPEVS標準又はそれから導出される符号化であり、スピーチ符号化モードであるACELP、及びMDCT変換に基づく音楽モードの間で切り替え可能である。望ましくは、ACELP及びMDCTベース符号器は、時間ドメイン帯域幅拡張(TD−BWE)、及び/又はインテリジェントギャップ充填(IGF)モジュールによって個別に支援される。

0055

サイド信号は、まずILDから導出された予測ゲインを使用して中央チャネルによって予測される。残差は、中央信号の遅延バージョンによってさらに予測され、又は二次コア符号器によって直接的に符号化されることができ、これは好ましい実施形態ではMDCTドメインで実行される。符号器におけるステレオ処理は、後段で説明するように、図5によって要約され得る。

0056

図2は、入力線50で受信された符号化済み多チャネル信号を復号化する装置の一実施例のブロック図を示す。

0057

特に、その信号は入力インターフェース600により受信される。信号復号器700と信号デ・アライナ(de-aligner)900とが入力インターフェース600に接続されている。更に、信号プロセッサ800は、一方では信号復号器700と接続され、他方では信号デ・アライナと接続されている。

0058

特に、符号化済み多チャネル信号は、符号化済み中央信号と、符号化済みサイド信号と、広帯域アライメント・パラメータに関する情報と、複数の狭帯域パラメータに関する情報と、を含む。線50上の符号化済み多チャネル信号は、図1の出力インターフェース500により出力された信号と正に同じ信号であり得る。

0059

しかしながら、ここで重要なことは、図1で示したこととは対照的に、符号化済み信号の中に所定の形態で含まれた広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとは、図1の信号アライナ200によって使用されたアライメント・パラメータと全く同じであり得るが、代替的にそれらの逆の値でもあり得ること、即ち、信号アライナ200により実行されるのと全く同じ操作により使用され得るが、デ・アライメントが得られるように逆の値を有する、パラメータでもよい、ことに留意すべきである。

0060

よって、アライメント・パラメータに関する情報は、図1の信号アライナ200によって使用されるアライメント・パラメータであってもよいし、又はその逆の値、即ち、実際の「デ・アライメント・パラメータ」であってもよい。さらにこれらのパラメータは、図8に関して後段で説明するように、典型的にはある形態で量子化されるであろう。

0061

図2の入力インターフェース600は、符号化済み中央/サイド信号から広帯域アライメント・パラメータと複数の狭帯域パラメータとに関する情報を分離し、パラメータ線610を介してこの情報を信号デ・アライナ900へと送る。他方、符号化済み中央信号は、線601を介して信号復号器700へと送られ、符号化済みサイド信号は信号線602を介して信号復号器700へと送られる。

0062

信号復号器は、符号化済み中央信号を復号化し、かつ符号化済みサイド信号を復号化して、線701上の復号化済み中央信号と線702上の復号化済みサイド信号とを取得する。これらの信号は、復号化済み中央信号及び復号化済みサイド信号から、復号化済み第1チャネル信号又は復号化済み左信号を計算し、かつ復号化済み第2チャネル信号又は復号化済み右チャネル信号を計算するために、信号プロセッサ800によって使用され、これら復号化済み第1チャネル及び復号化済み第2チャネルはそれぞれ線801,802上で出力される。信号デ・アライナ900は、線801上の復号化済み第1チャネルと復号化済み右チャネル802とをデ・アラインするよう構成されており、その際、広帯域アライメント・パラメータに関する情報を使用し、かつ追加的に複数の狭帯域アライメント・パラメータに関する情報をも使用して、復号化済み多チャネル信号、即ち、線901及び902上の少なくとも2つの復号化済みかつデ・アライン済みのチャネルを有する復号化済み信号を取得する。

0063

図9aは、図2の信号デ・アライナ900により実行されるステップの好ましい流れを示す。特に、ステップ910は、図2の線801,802上で利用可能なアライン済みの左右のチャネルを受信する。ステップ910において、信号デ・アライナ900は、狭帯域アライメント・パラメータについての情報を使用して個々のサブバンドをデ・アライメントし、位相デ・アラインされた復号化済みの第1及び第2のチャネル又は左及び右のチャネルを911a及び911bで取得する。ステップ912において、チャネルは広帯域アライメント・パラメータを使用してデ・アラインされ、その結果、913a及び913bで位相及び時間−デ・アラインされたチャネルが取得される。

0064

ステップ914において、窓掛け又は任意のオーバーラップ加算操作又は一般的に任意のクロスフェード操作を含む任意の追加的処理が実行され、915a又は915bでアーチファクト低減された又はアーチファクト無しの復号化済み信号を取得する。このようにして、アーチファクトを何も含まない復号化済みチャネルが得られるが、そのために典型的には、一方では広帯域のための、他方では複数の狭帯域のための時間変化するデ・アライメント・パラメータが使用されていたものである。

0065

図9bは、図2に示す多チャネル復号器の好ましい実施形態を示す。

0066

特に、図2からの信号プロセッサ800は、時間−スペクトル変換部810を含む。

0067

信号プロセッサは、中央/サイドから左/右への変換部820を更に含み、その変換部は、中央信号M及びサイド信号Sから左信号L及び右信号Rを計算する。

0068

しかしながら、重要なことは、ブロック820における中央/サイドから左/右への変換によってL及びRを計算するために、サイド信号Sは必ずしも使用する必要がないということである。その代わり、後段で説明するように、左/右の信号は、チャネル間レベル差パラメータILDから導出されるゲインパラメータを使用するだけで当初は計算される。一般的に、予測ゲインはILDの一形式であると考えられてもよい。そのゲインはILDから導出され得るが、直接的にも導出され得る。ILDをもはや計算せずに、予測ゲインを直接的に計算し、ILDパラメータよりもその予測ゲインを復号器に伝送し使用するのが望ましい。

0069

従って、このような実施形態において、サイド信号Sはチャネル更新部830において使用されるだけであり、その更新部は、迂回線821によって示すように、伝送されたサイド信号Sを使用して、より良好な左/右の信号を提供するために作動する。

0070

従って、変換部820は、レベルパラメータ入力822を介して取得されたレベルパラメータを使用しながら、実際にはサイド信号Sを使用せずに作動するが、チャネル更新部830は、サイド821を使用し、特定の実施形態によるが、線831を介して受信するステレオ充填パラメータをも使用して作動する。信号アライナ900は、次に位相デ・アライナ及びエネルギースケーラ910を含む。そのエネルギースケーリングは、スケーリングファクタ計算部940により導出されたスケーリングファクタによって制御される。スケーリングファクタ計算部940にはチャネル更新部830の出力が供給される。入力911を介して受信された狭帯域アライメント・パラメータに基づいて、位相のデ・アライメントが実行され、ブロック920において、線921を介して受信された広帯域アライメント・パラメータに基づいて、時間のデ・アライメントが実行される。最後に、スペクトル−時間変換930が実行されて、最終的に復号化済み信号が取得される。

0071

図9cは、好適な実施例において、図9bのブロック920及び930の中で典型的に実行されるステップのさらなる流れを示す。

0072

詳細には、狭帯域デ・アライン済みチャネルが、図9bのブロック920に対応する広帯域デ・アライメント機能へと入力される。DFT又は任意の他の変換がブロック931内で実行される。時間ドメインサンプルの実際の計算に続いて、合成窓を使用する任意選択的な合成窓掛けが実行される。合成窓は、好ましくは分析窓と正に同一であるか、又は例えば補間又はデシメーションによって分析窓から導出されたものであるが、分析窓に所定の方法で依存している。このような依存性は、好ましくは2つのオーバーラップしている窓により定義される乗算因子が、オーバーラップ領域内の各点について加算されて1となるように設定される。このように、ブロック932における合成窓に続いて、オーバーラップ操作と後続加算操作が実行される。代替的に、合成窓掛け及びオーバーラップ/加算操作に代えて、各チャネルについて後続のブロック間の任意のクロスフェードが実行されて、図9aの文脈で既に説明したように、アーチファクトが低減された復号化済み信号を取得してもよい。

0073

図6bを考慮する場合、中央信号のための実際の操作、即ち「EVS復号器」と、サイド信号のための逆ベクトル量子化VQ-1及び逆MDCT操作(IMDCT)とは、図2の信号復号器700に対応している。

0074

更に、ブロック810におけるDFT操作は図9bにおける構成要素810に対応し、逆ステレオ処理及び逆時間シフトの機能は、図2のブロック800,900に対応し、図6bにおける逆DFT操作930は、図9bのブロック930における操作と対応する。

0075

次に、図3についてより詳細に説明する。特に、図3は、個別のスペクトル線を有するDFTスペクトルを示す。好ましくは、DFTスペクトル又は図3に示す任意の他のスペクトルは複素スペクトルであり、各線は、振幅と位相又は実数部虚数部を有する、複素スペクトル線である。

0076

追加的に、このスペクトルは異なるパラメータ帯域へも分割される。各パラメータ帯域は少なくとも1つの、及び好ましくは2つ以上のスペクトル線を有する。加えて、パラメータ帯域はより低い周波数からより高い周波数へと増大する。典型的には、広帯域アライメント・パラメータは、全体スペクトルのための、即ち図3例示的実施形態においては帯域1から6までのすべてを含む1つのスペクトルのための、単一の広帯域アライメント・パラメータである。

0077

更に、複数の狭帯域アライメント・パラメータは、各パラメータ帯域について1つのアライメント・パラメータが存在するように提供される。これは、1つの帯域のためのアライメント・パラメータが、対応する帯域内の全てのスペクトル値に対して適用することを意味する。

0078

更に、狭帯域アライメント・パラメータに加え、レベルパラメータも各パラメータ帯域について提供される。

0079

帯域1から6までの各々かつ全てのパラメータ帯域に対して提供されるレベルパラメータとは対照的に、帯域1,2,3,4のようなある限定された個数の低い帯域についてだけ複数の狭帯域アライメント・パラメータを提供することが望ましい。

0080

加えて、ステレオ充填パラメータが、例示の実施例においては帯域4,5,6のように、低い帯域を除く所定数の帯域に提供され、他方、低いパラメータ帯域1,2,3についてはサイド信号スペクトル値が存在し、結果としてこれらの低帯域についてはステレオ充填パラメータが存在せず、これら低帯域においては、サイド信号そのもの又はサイド信号を表現する予測残差信号のいずれかを使用して、波形マッチングが取得される。

0081

上述したように、より高い帯域においてはより多数のスペクトル線が存在する。例えば、図3の実施例においては、パラメータ帯域6内には7個のスペクトル線がある一方で、パラメータ帯域2内にはたった3個のスペクトル線がある。当然ながら、パラメータ帯域の数、スペクトル線の数、1つのパラメータ帯域内のスペクトル線の数、及びあるパラメータについての種々の制限も、異なるであろう。

0082

しかしながら、図8は、図3の例とは対照的に、実際に12個の帯域が存在するある実施例における、パラメータの配分とパラメータが提供される帯域の個数とを示す。

0083

図示するように、レベルパラメータILDが12帯域の各々に対して提供され、帯域毎に5ビットで表現される量子化精度へと量子化される。

0084

更に、狭帯域アライメント・パラメータIPDは、2.5kHzの境界周波数までの低い帯域に対してだけ提供される。加えて、チャネル間時間差又は広帯域アライメント・パラメータは、全体的スペクトルのための単一のパラメータとしてだけ提供されるが、全体の帯域について8ビットで表現される非常に高い量子化精度を有する。

0085

更に、かなり粗く量子化されたステレオ充填パラメータが帯域毎に3ビットで表現されて提供されるが、これらは1kHzを下回る帯域には提供されない。なぜなら、低い帯域については、実際に符号化されたサイド信号又はサイド信号残差スペクトル値が含まれるからである。

0086

次に、符号器側の好ましい処理について、図5に関して要約する。第1ステップにおいて、左右のチャネルのDFT分析が実行される。この手順は図4cのステップ155〜157に対応する。ステップ158では、広帯域アライメント・パラメータが計算され、特に、好ましい広帯域アライメント・パラメータとしてチャネル間時間差(ITD)が計算される。170で示すように、周波数ドメインにおけるL及びRの時間シフトが実行される。代替的に、この時間シフトは時間ドメインでも実行され得る。次に逆方向DFTが実行され、時間シフトが時間ドメインで実行され、広帯域アライメント・パラメータを使用したアライメントの後で再度スペクトル表現を持つように、追加の順方向DFTが実行される。

0087

ILDパラメータ、即ちレベルパラメータ及び位相パラメータ(IPDパラメータ)が、ステップ171で示すように、シフトされたL及びR表現に対し各パラメータ帯域について計算される。このステップは、例えば図4cのステップ160と対応する。時間シフトされたL及びR表現は、図4c又は図5のステップ161で示すように、チャネル間位相差パラメータの機能として回転される。次に、ステップ301で示すように中央及びサイド信号が計算され、好ましくは、後述するようなエネルギー変換操作をさらに伴う。後続のステップ174では、ILDの機能としてのM、及び任意選択的には過去のM信号、即ち以前のフレームの中央信号を用いた、Sの予測が実行される。次に、中央信号及びサイド信号の逆方向DFTが実行され、これは好ましい実施例においては図4dのステップ303,304,305に対応する。

0088

最終ステップ175において、時間ドメインの中央信号mと、任意選択的には残差信号とがステップ175に示すように符号化される。この手順は図1における信号符号器400により実行される手順に対応する。

0089

逆ステレオ処理における復号器において、サイド信号がDFTドメインで生成され、これは中央信号から以下のように最初に予測される。



ここで、gは各パラメータ帯域について計算されたゲインであり、伝送されるチャネル間レベル差(ILDs)の関数である。

0090

予測の残差Side−g・Midは、次に2つの異なる方法で精密化され得る。
−残差信号の二次的符号化による:



ここで、gcodは全体スペクトルのために伝送されたグローバルゲインである。
−前の復号化済み中央信号スペクトルを用いて前のDFTフレームから残差サイドスペクトルを予測する、ステレオ充填として知られる残差予測による:



ここで、gpredはパラメータ帯域毎に伝送された予測ゲインである。

0091

符号化の精密化の2つのタイプは、同じDFTスペクトル内で混合され得る。好ましい実施例において、残差符号化はより低いパラメータ帯域に対して適用される一方で、残差予測は残りの帯域に対して適用される。図1に示すような好ましい実施例において、残差符号化は、時間ドメインで残差サイド信号を合成しそれをMDCTによって変換した後で、MDCTドメインで実行される。DFTとは異なり、MDCTは臨界サンプリングされるので、オーディオ符号化により適している。MDCT係数は、格子ベクトル量子化によって直接的にベクトル量子化されるが、代替的に、スカラー量子化とその後のエントロピー符号器によって符号化され得る。代替的に、残差サイド信号はまた、スピーチ符号化技術によって時間ドメインで符号化されることもでき、又は、DFTドメインで直接的に符号化されることもできる。

0092

1.時間−周波数分析:DFT
DFTによって実行される、ステレオ処理からの特殊な時間−周波数分解によって、良好な聴覚的シーン分析をもたらす一方で、符号化システムの全体的な遅延が有意に増加しないようにすることが重要である。デフォルトにより、10msの時間分解能(コアコーダの20msフレーミングの2倍)が使用される。分析窓と合成窓は同じであり、対称形である。窓は図7の中で16kHzのサンプリングレートで表現される。発生する遅延を低減するためにオーバーラップ領域が制限され、後段で説明するように、ITDを周波数ドメインにおいて適用する際に循環シフトを釣り合わせるためにゼロパディングもまた追加されることが見て取れる。

0093

2.ステレオパラメータ
ステレオパラメータは、最大限ではステレオDFTの時間分解能において伝送され得る。最小限では、ステレオパラメータはコアコーダのフレーミング分解能、即ち20msへと低減され得る。デフォルトにより、過渡が検出されない場合、パラメータは2つのDFT窓にわたり20ms毎に計算される。パラメータ帯域は、等価方形帯域幅(Equivalent Rectangular Bandwidth)(ERB)の凡そ2倍又は4倍の後に続いてスペクトルの非均一かつ非オーバーラップの分解を構成する。デフォルトにより、16kHz(32kbpsのサンプリングレート、スーパーワイドバンド・ステレオ)の周波数帯域幅について、ERBのスケールの4倍が、合計で12個の帯域について使用される。図8は、ステレオサイド情報が約5kbpsで伝送される構成の一例を要約したものである。

0094

3.ITDの計算及びチャネル時間アライメント
ITDは、位相変換を用いた一般化相互相関(Generalized Cross Correlation with Phase Transform)(GCC−PHAT)を使用して、到達時間差(TDOA)を推定することにより計算される。



ここで、L及びRはそれぞれ左右のチャネルの周波数スペクトルである。周波数分析は、後続のステレオ処理に使用されるDFTから独立して実行されることができ、又は共有され得る。ITDを計算するための疑似コードは以下の通りである。

0095

0096

図4eは、広帯域アライメント・パラメータの一例としてチャネル間時間差のロバストで効率的な計算を得るために、前述の擬似コードを実行するフローチャートを示す。

0097

ブロック451では、第1チャネル(l)と第2チャネル(r)についての時間ドメイン信号のDFT分析が実行される。このDFT分析は、例えば図5又は図4cにおけるステップ155〜157の文脈で説明されたものと典型的に同じDFT分析であろう。

0098

次に、ブロック452で示すように、各周波数ビンについて、相互相関が実行される。

0099

このように、左チャネルと右チャネルの全体のスペクトル範囲について、相互相関スペクトルが取得される。

0100

ステップ453では、次にLとRの振幅スペクトルからスペクトル平坦尺度が計算され、ステップ454では、より大きなスペクトル平坦尺度が選択される。しかしながら、ステップ454における選択は、より大きな尺度の選択である必要はなく、両方のチャネルからの単一のSFMの決定が、左チャネルだけ、又は右チャネルだけの選択又は計算であってもよく、又は両方のSFM値の重み付けされた平均の計算であってもよい。

0101

ステップ455では、次に相互相関スペクトルがスペクトル平坦尺度に応じて時間に亘って平滑化される。

0102

好ましくは、スペクトル平坦尺度は、振幅スペクトルの幾何平均を、振幅スペクトルの算術平均によって除算することにより、計算される。このように、SFMについての値は0と1との間に制限される。

0103

ステップ456では、次に平滑化された相互相関スペクトルがその振幅によって正規化され、ステップ457では、正規化され平滑化された相互相関スペクトルの逆DFTが計算される。ステップ458では、ある時間ドメインフィルタが好ましくは実行され、この時間ドメインフィルタリングは実装に応じて実行せずに済ますことも可能であるが、後述するように実行されるのが望ましい。

0104

ステップ459では、フィルタ一般化相互相関関数ピークピッキングとある種の閾値演算とを実行することにより、ITD推定が行われる。

0105

ある閾値が得られない場合には、IDTはゼロに設定され、この対応するブロックについて時間アライメントは実行されない。

0106

ITD計算は、以下のようにも要約できる。相互相関が周波数ドメインで計算され、次いでスペクトル平坦尺度(SFM)に応じて平滑化される。SFMは0と1との間に制限されている。ノイズ状信号の場合、SFMは高く(即ちほぼ1に)なるであろうし、平滑化は弱いであろう。調性状信号の場合、SFMは低くなり、平滑化はより強くなるであろう。平滑化された相互相関は、次に、その振幅によって正規化され、時間ドメインへと逆変換される。その正規化は、相互相関の位相変換に対応し、低いノイズ及び比較的高い反響環境の中での通常の相互相関よりも良好な性能を示すことが知られている。このようにして得られた時間ドメイン関数は、よりロバストなピーク・ピッキングを達成するためにまずフィルタ処理される。最大振幅に対応するインデックスは、左右のチャネル間の時間差(ITD)の推定に対応する。最大の振幅が所与の閾値よりも低い場合、推定されたITDは信頼性が高いとは認められず、ゼロに設定される。

0107

時間アライメントが時間ドメインで適用される場合、ITDは別個のDFT分析で計算される。このシフトは以下のように実行される。

0108

これは符号器側において余分な遅延を必要とし、その遅延は、最大では取り扱い可能な最大絶対値ITDと等しい。ITDの時間的な変化は、DFTの分析窓掛けにより平滑化される。

0109

代替的に、時間アライメントは周波数ドメインでも実行され得る。この場合、ITDの計算及び循環シフトは同じDFTドメイン内であり、この他のステレオ処理と共有されているドメインである。循環シフトは次式で与えられる。

0110

DFT窓のゼロパディングは、循環シフトを用いた時間シフトをシミュレートするために必要である。ゼロパディングのサイズは、取り扱い可能な最大絶対値ITDに対応している。好ましい実施例において、ゼロパディングは、両端に3.125msのゼロを追加することで、分析窓の両側に均一に分割される。その場合、可能な最大絶対値ITDは6.25msとなる。A−Bマイクロホン設定において、これは最悪の場合、2個のマイクロホンの間の約2.15メートル最大距離に対応する。ITDの時間的な変化は、DFTの合成窓掛けとオーバーラップ加算により平滑化される。

0111

時間シフトの後でシフト済み信号の窓掛けを行うことが重要である。この点が先行技術のバイノーラルキュー符号化(BCC)との主要な相違点であり、バイノーラルキュー符号化においては、窓掛け済み信号に対して時間シフトが適用されるが、合成ステージでは更なる窓掛けが行われない。その結果、ITDにおける時間的な如何なる変化も、復号化された信号の中で人工的な過渡/クリックを生み出してしまう。

0112

4.IPDの計算とチャネル回転
2つのチャネルの時間アライメントの後で、IPDが計算され、この計算は、各パラメータ帯域又は少なくとも所与のipd_max_bandまで、ステレオ構成に依存して行われる。

0113

IPDは次に、2つのチャネルに対してそれらの位相をアラインするために適用される。



ここで、

であり、bは周波数インデックスkが帰属するパラメータ帯域インデックスである。パラメータβは、2つのチャネル間の位相回転の量を分配し、同時にそれらの位相をアラインする役割を担う。βはIPDに依存し、またチャネル同士の相対的な振幅レベルILDにも依存する。あるチャネルがより高い振幅を有する場合、それが主要なチャネルとして認識され、低い振幅を有するチャネルよりも位相回転によって受ける影響が少なくなるであろう。

0114

5.和・差及びサイド信号の符号化
和差変換は、2つのチャネルの時間及び位相がアラインされたスペクトルに対し、中央信号内でエネルギーが保存される方法で実行される。



ここで、

は 1/1.2と1.2との間、即ち−1.58dBと+1.58dBの間に制限される。この制限により、M及びSのエネルギーを調整するときにアーチファクトを防止できる。このエネルギー保存は、時間及び位相が事前にアラインされていた場合には重要度が低いことに留意すべきである。代替的に、これら制限は増大又は減少され得る。

0115

サイド信号SがMを用いて更に予測される。



ここで、

である。代替的に、前出の方程式から推定された残差及びILDの平均二乗誤差(MSE)を最小化することで、最適な予測ゲインgを見つけることができる。

0116

残差信号S'(f)は、2つの手段でモデル化できる。即ち、Mの遅延されたスペクトルを用いて予測するか、又はそれをMDCTドメインで直接的に符号化するかである。

0117

6.ステレオ復号化
中央信号X及びサイド信号Sは、まず左及び右のチャネルL及びRへと次式のように変換される。



ここで、パラメータ帯域毎のゲインgはILDパラメータから導出される。

0118

cod_max_bandより低いパラメータ帯域については、2つのチャネルは復号化済みサイド信号を用いて更新される。

0119

より高いパラメータ帯域については、サイド信号が予測され、チャネルは以下のように更新される。

0120

最後に、ステレオ信号のオリジナルエネルギー及びチャネル間位相を保存する目的で、それらチャネルが複素値によって乗算される。



ここで、



である。但し、aは上段で定義したように定義されかつ制限されており、

であり、かつatan2(x,y)はyに対するxの四象限正接(four-quadrant inverse tangent)である。

0121

最後に、伝送されたITDに依存して、チャネルは時間ドメイン又は周波数ドメインのいずれかで時間シフトされる。この時間ドメインのチャネルは、逆DFT及びオーバーラップ加算により合成される。

0122

本発明の特異な特徴は、空間キューと和・差ジョイントステレオ符号化との結合に関係している。具体的には、空間キューIDTとIPDとが計算され、それらがステレオチャネル(左と右)に対して適用される。さらに、和・差(M/S信号)が計算され、好ましくは予測がMを用いてSに適用される。

0123

復号器側では、広帯域及び狭帯域の空間キューが和・差ジョイントステレオ符号化と共に結合される。特に、サイド信号がILDのような少なくとも1つの空間キューを用いて中央信号により予測され、左右のチャネルを得るために逆の和・差が計算され、さらに広帯域及び狭帯域の空間キューが左右のチャネルに適用される。

0124

好ましくは、符号器は、ITDを用いた処理の後に、時間アライン済みチャネルに対して窓掛けとオーバーラップ加算とを有する。さらに、復号器は、チャネル間時間差を適用した後、チャネルのシフト済み又はデ・アライン済みバージョンの窓掛け及びオーバーラップ加算作動を有する。

0125

GCC−Phat法を用いたチャネル間時間差の計算は、特にロバストな方法である。

0126

新たな手順は、ステレオオーディオ又は多チャネルオーディオのビットレート符号化を低遅延で達成するので、従来技術に比べて有利である。それは、入力信号の異なる性質に対して、及び多チャネル又はステレオ録音の異なる設定に対して、ロバストとなるように特異的に設計される。特に、本発明は、ビットレート・ステレオスピーチ符号化にとって、良好な品質を提供する。

0127

この好ましい手順は、スピーチ又は音楽のような全てのタイプのステレオ又は多チャネルのオーディオコンテンツ放送を、所与の低ビットレートで一定の知覚品質をもって一様に配信することにおいて有用である。そのような適用範囲は、デジタルラジオインターネットストリーミング、又はオーディオ通信アプリケーションである。

0128

本発明に係る符号化済みオーディオ信号は、デジタル記憶媒体又は非一時的記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送されることもできる。

0129

これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応するブロック、項目、又は対応する装置の特徴を表している。

0130

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、例えばフレキシブルディスク,DVD,CD,ROM,PROMEPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、そのデジタル記憶媒体は、その中に格納された電子的に読み取り可能な制御信号を有し、それら制御信号は、本発明の各方法が実行されるようにプログラム可能コンピュータシステム協働する(又は協働可能である)。

0131

本発明に従う幾つかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、それら制御信号は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能である。

0132

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

0133

本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリア又は非一時的記憶媒体に格納されたコンピュータプログラムを含む。

0134

換言すれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。

0135

本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。

0136

本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

0137

他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

0138

他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

0139

幾つかの実施形態においては、(例えば書換え可ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

0140

上述の実施形態は、本発明の原理の単なる説明に過ぎない。上述の装置及び詳細の修正及び変更が当業者にとって明らかなことは理解されよう。従って、以下に添付する特許請求の範囲の主題によってのみ限定されるべきであり、実施形態の説明及び解説の方法で表現された特定の詳細によっては限定されないことが趣旨である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ