図面 (/)

技術 HOAコンテンツの画面関連の適応

出願人 クゥアルコム・インコーポレイテッド
発明者 ペーターズ、ニルス・ガンザーモッレル、マーティン・ジェームスセン、ディパンジャン
出願日 2015年10月9日 (5年2ヶ月経過) 出願番号 2017-518939
公開日 2017年11月24日 (3年1ヶ月経過) 公開番号 2017-535174
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 低減ユニット フルハイト 方向ベース 獲得デバイス 音楽スタジオ 非負実数 環境係数 オーディオ再生デバイス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年11月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

本開示は、1より高い次数を有する球面調和基底関数に対応する少なくとも1つの高次アンビソニック(HOA係数を備える高次アンビソニックオーディオデータコーディングのための技法記述する。本開示は、混在オーディオビデオ再現シナリオにおいて視覚構成要素に対する音響要素空間アライメントを潜在的に改善するために、HOA音場を調整するための技法を記述する。一例において、HOAオーディオ信号レンダリングするためのデバイスが、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングするように構成される1つまたは複数のプロセッサを含む。

概要

背景

[0003]高次アンビソニックス(HOA)信号(複数の球面調和係数(SHC)または他の階層的な要素によって表されることが多い)は、音場の3次元表現である。このHOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャネルオーディオ信号再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で、音場を表し得る。SHC信号は、5.1オーディオチャネルフォーマットまたは7.1オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、SHC信号はまた、下位互換性を容易にし得る。したがって、SHC表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。

概要

本開示は、1より高い次数を有する球面調和基底関数に対応する少なくとも1つの高次アンビソニック(HOA)係数を備える高次アンビソニックオーディオデータコーディングのための技法記述する。本開示は、混在オーディオビデオ再現シナリオにおいて視覚構成要素に対する音響要素空間アライメントを潜在的に改善するために、HOA音場を調整するための技法を記述する。一例において、HOAオーディオ信号をレンダリングするためのデバイスが、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングするように構成される1つまたは複数のプロセッサを含む。

目的

最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置(と数)および(レンダラを伴う)再生のロケーションにおける音響条件適応可能でありそれらに依存しない後続復号とを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

高次アンビソニック(HOAオーディオ信号レンダリングするためのデバイスであって、1つまたは複数のプロセッサを備え、前記プロセッサは、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングするように構成される、デバイス。

請求項2

前記1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングするために、前記1つまたは複数のプロセッサはさらに、符号化されたオーディオデータのためのレンダラを決定し、前記表示窓の前記1つまたは複数のFOVパラメータと、前記基準画面の前記1つまたは複数のFOVパラメータとに基づいて、前記レンダラを修正するように構成される、請求項1に記載のデバイス。

請求項3

前記符号化されたオーディオデータのための前記レンダラを決定するために、前記1つまたは複数のプロセッサはさらに、スピーカー構成に基づいて、前記レンダラを決定するように構成される、請求項2に記載のデバイス。

請求項4

前記レンダラは、レンダリングフォーマットと、前記符号化されたオーディオデータを再現フォーマットに変換するためのアルゴリズムとのうちの1つまたは複数を備える、請求項2に記載のデバイス。

請求項5

前記レンダラを修正するために、1つまたは複数のプロセッサはさらに、前記基準画面の前記1つまたは複数のFOVパラメータと、前記表示窓の前記1つまたは複数のFOVパラメータとに基づいて、スピーカーの角度を修正するための角度マッピング関数を決定し、前記1つまたは複数のスピーカーの第1のスピーカーのための修正された角度を生成するために、前記角度マッピング関数に基づいて、前記第1のスピーカーのための角度を修正するように構成される、請求項2に記載のデバイス。

請求項6

前記1つまたは複数のプロセッサはさらに、ユーザ起動ズーム機能応答して、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し、前記基準画面の前記1つまたは複数のFOVパラメータと、前記ズームされた表示窓の前記1つまたは複数のFOVパラメータとに基づいて、前記レンダラを修正するように構成される、請求項2に記載のデバイス。

請求項7

前記レンダラを修正するために、前記1つまたは複数のプロセッサはさらに、ユーザ起動ズーム動作に応答して、倍率を取得し、前記倍率と、前記表示窓の前記1つまたは複数のFOVパラメータとに基づいて、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し、前記ズームされた表示窓の前記1つまたは複数のFOVパラメータと、前記基準画面の前記1つまたは複数のFOVパラメータとに基づいて、スピーカーの角度を修正するための角度マッピング関数を決定し、前記1つまたは複数のスピーカーの第1のスピーカーのための修正された角度を生成するために、前記角度マッピング関数に基づいて、前記第1のスピーカーのための角度を修正するように構成される、請求項6に記載のデバイス。

請求項8

前記ズームされた表示窓の前記1つまたは複数のFOVパラメータを決定するために、前記1つまたは複数のプロセッサはさらに、前記表示窓のための1つまたは複数の方位角と、前記倍率とに基づいて、前記ズームされた表示窓のための1つまたは複数の方位角を決定するように構成され、前記ズームされた表示窓の前記1つまたは複数のFOVパラメータを決定するために、前記1つまたは複数のプロセッサはさらに、前記表示窓のための1つまたは複数の仰角と、前記倍率とに基づいて、前記ズームされた表示窓のための1つまたは複数の仰角を決定するように構成される、請求項6に記載のデバイス。

請求項9

前記基準画面のための前記1つまたは複数のFOVパラメータは、前記基準画面のための1つまたは複数の方位角または前記基準画面のための1つまたは複数の仰角のうちの少なくとも1つを備える、請求項1に記載のデバイス。

請求項10

前記表示窓のための1つまたは複数のFOVパラメータは、前記表示窓のための1つまたは複数の方位角または前記表示窓のための1つまたは複数の仰角のうちの少なくとも1つを備える、請求項1に記載のデバイス。

請求項11

前記1つまたは複数のプロセッサはさらに、ユーザ起動ズーム動作に応答して取得された倍率に基づいて、前記HOAオーディオ信号をレンダリングするように構成される、請求項1に記載のデバイス。

請求項12

前記基準画面のための前記1つまたは複数のFOVパラメータは、前記基準画面の中心の場所および前記表示窓の中心の場所を備える、請求項1に記載のデバイス。

請求項13

1つまたは複数のプロセッサはさらに、前記基準画面の前記1つまたは複数のFOVパラメータに基づいて、前記基準画面の前記中心を決定し、前記表示窓の前記1つまたは複数のFOVパラメータに基づいて、前記表示窓の前記中心を決定するように構成される、請求項12に記載のデバイス。

請求項14

前記1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングするために、前記1つまたは複数のプロセッサはさらに、符号化されたオーディオデータのためのレンダラを決定し、前記表示窓の前記中心と、前記基準画面の前記中心とに基づいて、前記レンダラを修正するように構成される、請求項12に記載のデバイス。

請求項15

前記1つまたは複数のプロセッサはさらに、前記HOAオーディオ信号の音場を前記基準画面の前記中心から前記表示窓の前記中心に回転させるように構成される、請求項12に記載のデバイス。

請求項16

前記HOAオーディオ信号は、MPEG−H3D準拠ビットストリームを備える、請求項1に記載のデバイス。

請求項17

前記1つまたは複数のプロセッサはさらに構成され、前記基準画面の前記1つまたは複数の視野(FOV)パラメータと、前記表示窓の前記1つまたは複数のFOVパラメータとに基づいて、前記HOAオーディオ信号のレンダリングが有効にされるどうかを指示するシンタックス要素を受信する、請求項1に記載のデバイス。

請求項18

前記デバイスはさらに、前記1つまたは複数のスピーカーのうちの少なくとも1つのスピーカーを備え、前記HOAオーディオ信号をレンダリングするために、前記1つまたは複数のプロセッサはさらに、前記少なくとも1つのスピーカーを駆動するために、ラウドスピーカーフィードを生成するように構成される、請求項1に記載のデバイス。

請求項19

前記デバイスはさらに、前記表示窓を表示するためのディスプレイを備え、前記表示窓の前記1つまたは複数のFOVパラメータ、請求項1に記載のデバイス。

請求項20

前記HOAオーディオ信号をレンダリングするために、前記1つまたは複数のプロセッサはさらに、複数のHOA係数を決定するために前記HOAオーディオ信号を復号し、前記HOA係数をレンダリングするように構成される、請求項1に記載のデバイス。

請求項21

前記HOA係数をレンダリングするために、前記1つまたは複数のプロセッサはさらに、球の900個のサンプリング点のためのモード行列を生成し、効果行列を生成するために、前記基準画面の前記1つまたは複数のFOVパラメータと、前記表示窓の前記1つまたは複数のFOVパラメータとに基づいて、前記モード行列を修正し、前記効果行列に基づいて、前記HOA係数をレンダリングするように構成される、請求項20に記載のデバイス。

請求項22

高次アンビソニック(HOA)オーディオ信号をレンダリングする方法であって、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングすることを含む、方法。

請求項23

前記HOAオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信することと、ここにおいて、前記符号化されたオーディオデータは対応するビデオデータに関連付けられる、前記ビットストリームから、前記対応するビデオデータのための前記基準画面の前記1つまたは複数のFOVパラメータを取得することと、前記対応するビデオデータを表示するための前記表示窓の前記1つまたは複数のFOVパラメータを取得することとをさらに備える、請求項22に記載の方法。

請求項24

1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングすることは、前記符号化されたオーディオデータのためのレンダラを決定することと、前記表示窓の前記1つまたは複数のFOVパラメータと、前記基準画面の前記1つまたは複数のFOVパラメータとに基づいて、前記レンダラを修正することとを備える、請求項22に記載の方法。

請求項25

前記符号化されたオーディオデータのための前記レンダラを決定することは、前記1つまたは複数のスピーカーのスピーカー構成に基づいて、前記レンダラを決定することを備える、請求項24に記載の方法。

請求項26

前記基準画面の前記1つまたは複数のFOVパラメータは、前記基準画面のための1つまたは複数の方位角または前記基準画面のための1つまたは複数の仰角のうちの少なくとも1つを備える、請求項25に記載の方法。

請求項27

複数のHOA係数を決定するために、前記HOAオーディオ信号を復号することと、前記HOA係数をレンダリングすることとをさらに備える、請求項22に記載の方法。

請求項28

高次アンビソニック(HOA)オーディオ信号をレンダリングするための装置であって、前記HOAオーディオ信号を受信するための手段と、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングするための手段とを備える、装置。

請求項29

前記HOAオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信するための手段と、ここにおいて、前記符号化されたオーディオデータは対応するビデオデータに関連付けられる、前記ビットストリームから、前記対応するビデオデータのための前記基準画面の前記1つまたは複数のFOVパラメータを取得するための手段と、前記対応するビデオデータを表示するための前記表示窓の前記1つまたは複数のFOVパラメータを取得するための手段とをさらに備える、請求項28に記載の装置。

請求項30

命令を記憶するコンピュータ可読記憶媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサに、高次アンビソニック(HOA)オーディオ信号をレンダリングすることを行わせ、前記レンダリングすることは、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介して前記HOAオーディオ信号をレンダリングすること含む、コンピュータ可読記憶媒体。

技術分野

0001

[0001]本出願は、その内容全体が参照により本明細書に組み込まれる、2014年10月10日に出願された米国仮特許出願第62/062,761号の利益を主張する。

0002

[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータのコーディングに関する。

背景技術

0003

[0003]高次アンビソニックス(HOA)信号(複数の球面調和係数(SHC)または他の階層的な要素によって表されることが多い)は、音場の3次元表現である。このHOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャネルオーディオ信号再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で、音場を表し得る。SHC信号は、5.1オーディオチャネルフォーマットまたは7.1オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、SHC信号はまた、下位互換性を容易にし得る。したがって、SHC表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。

0004

[0004]概して、高次アンビソニックスオーディオデータをコーディングするための技法が説明される。高次アンビソニックスオーディオデータは、1よりも大きい次数を有する球面調和基底関数に対応する少なくとも1つの高次アンビソニック(HOA)係数を備え得る。本開示は、混在オーディオビデオ再現シナリオにおいて視覚構成要素に対する音響要素空間アライメントを潜在的に改善するために、HOA音場を調整するための技法を記述する。

0005

[0005]一例において、高次アンビソニック(HOA)オーディオ信号をレンダリングするためのデバイスが、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓(viewing window)の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングするように構成される1つまたは複数のプロセッサを含む。

0006

[0006]別の例において、高次アンビソニック(HOA)オーディオ信号をレンダリングする方法が、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングすることを含む。

0007

[0007]別の例において、高次アンビソニック(HOA)オーディオ信号をレンダリングするための装置が、HOAオーディオ信号を受信するための手段と、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングするための手段とを含む。

0008

[0008]別の例において、コンピュータ可読記憶媒体命令を記憶し、その命令は、1つまたは複数のプロセッサによって実行されるときに、1つまたは複数のプロセッサに、基準画面の1つまたは複数の視野(FOV)パラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカーを介して高次アンビソニック(HOA)オーディオ信号をレンダリングさせることを含む、HOAオーディオ信号をレンダリングさせる。

0009

[0009]本技法の1つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

図面の簡単な説明

0010

[0010]様々な次数および副次数の球面調和基底関数を示す図。
[0011]本開示で説明される技法の様々な態様を実行することができるシステムを示す図。
[0012]本開示で説明される技法の様々な態様を実行することができる、図2の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。
[0013]図2のオーディオ復号デバイスをより詳細に示すブロック図。
[0014]本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート
[0015]本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。
[0016]基準画面サイズおよび表示窓サイズに基づいて、元の方位角修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0017]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0018]第1の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。
[0019]計算されたHOA効果行列の例を示す図。
計算されたHOA効果行列の例を示す図。
[0020]効果行列がいかにプリレンダリングされ、ラウドスピーカーレンダリング行列に適用され得るかの一例を示す図。
[0021]効果行列の結果として、高次コンテンツ(たとえば、6次)が生じ得る場合に、この次数のレンダリング行列を乗算し、元の次数(ここでは、3次)の最終的なレンダリング行列をいかにあらかじめ計算し得るかの一例を示す図。
[0022]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0023]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0024]計算されたHOA効果行列を示す図。
[0025]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。
[0026]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0027]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0028]計算されたHOA効果行列を示す図。
[0029]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。
[0030]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0031]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0032]計算されたHOA効果行列を示す図。
[0033]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。
[0034]基準画面サイズおよび表示窓サイズに基づいて、元の方位角を修正方位角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0035]基準画面サイズおよび表示窓サイズに基づいて、元の仰角を修正仰角にマッピングするために使用され得る一例のマッピング関数を示す図。
[0036]計算されたHOA効果行列を示す図。
[0037]基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す図。
[0038]本開示の技法を実施するように構成されるオーディオレンダリングデバイスの例示的な実装形態を示すブロック図。
本開示の技法を実施するように構成されるオーディオレンダリングデバイスの例示的な実装形態を示すブロック図。
本開示の技法を実施するように構成されるオーディオレンダリングデバイスの例示的な実装形態を示すブロック図。
[0039]本開示で説明される画面に基づく適応技法を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。

実施例

0011

[0040]サラウンドサウンド発展は、現今では娯楽のための多くの出力フォーマット利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィード暗黙的に指定するという点で、大半が「チャネルベースである。消費者向けのサラウンドサウンドフォーマットは、普及している5.1フォーマット(これは、次の6つのチャネル、すなわち、フロントレフトFL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果LFE)とを含む)、発展中の7.1フォーマット、7.1.4フォーマットおよび22.2フォーマット(たとえば、超高精細度テレビジョン規格とともに使用するための)などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い(対称な、および非対称な幾何学的配置の)任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される32個のラウドスピーカーを含む。

0012

[0041]将来のMPEGエンコーダへの入力は、任意選択で、次の3つの可能なフォーマット、すなわち、(i)あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、(上で論じられたような)従来のチャネルベースオーディオ、(ii)(情報の中でも)位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的パルス符号変調PCM)データを伴うオブジェクトベースオーディオ、および(iii)球面調和基底関数の係数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)を使用して音場を表すことを伴うシーンベースオーディオのうちの1つである。将来のMPEGエンコーダは、2013年1月にスイスジュネーブ発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、International Organization for Standardization/International Electrotechnical Commission (ISO)/(IEC) JTC1/SC29/WG11/N13411による「Call for Proposals for 3D Audio」と題される文書においてより詳細に説明され得る。

0013

[0042]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、5.1ホームシアターシステムリビングルーム進出するという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokaiすなわち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、一度に映画サウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置(と数)および(レンダラを伴う)再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続復号とを提供するための方法を考えている。

0014

[0043]コンテンツ作成者にそのような柔軟性を提供するために、要素の階層セットが音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。

0015

[0044]要素の階層セットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用する音場の記述または表現を示す。

0016

0017

[0045]この式は、時間tにおける音場の任意の点{rr,θr,ψ

0018

φr}における圧力piが、SHC、

0019

0020

によって一意に表され得ることを示す。ここで、

0021

0022

であり、cは音速(約343m/s)であり、{rr,θr,φr}は基準点(または観測点)であり、jn(・)は次数nの球ベッセル関数であり、

0023

0024

は次数nおよび副次数mの球面調和基底関数である。角括弧内の項は、離散フーリエ変換DFT)、離散コサイン変換(DCT)、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現(すなわち、S(ω,rr,θr,φr))であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。

0025

[0046]ビデオデータは多くの場合に、対応する同期したオーディオデータとともに表示され、オーディオデータは通常、ビデオデータの見え方(perspective)と一致するように生成される。たとえば、レストランにおいて話をしている2人の近接撮影した見え方を示すビデオのフレーム中に、2人の会話は、他の食事客の会話、調理場雑音背景音楽などのレストラン内の任意の背景雑音に対して、大きく明瞭になる場合がある。2人が話をしている、より離れた見え方を示すビデオのフレーム中に、2人の会話は、その発生源現時点でビデオのそのフレーム中に存在し得る背景雑音に対して、その大きさおよび明瞭度が下がる場合がある。

0026

[0047]これまで、見え方に関する決定(たとえば、シーンのズームインおよびズームアウト、またはシーンの周囲のパニング)はコンテンツ製作者によって行われ、コンテンツの最終消費者は、元のコンテンツ製作者によって選択された見え方をほとんど、またはまったく変更できない。しかしながら、ビデオを見ているときに、ユーザが見る見え方をユーザが何らかのレベルで制御することが、より一般的になりつつある。一例として、フットボール放送中に、ユーザは、フィールドの大きな部分を示す映像配信を受信することができるが、特定のプレーヤまたは一群のプレーヤにズームインする能力を有する場合がある。本開示は、対応するビデオの知覚の変化に一致するようにオーディオ再現の知覚を適応させるための技法を導入する。たとえば、フットボールの試合を見ている間に、ユーザがクォーターバックにズームインする場合には、オーディオも、クォーターバックにズームインするオーディオ効果を生成するように適応し得る。

0027

[0048]ビデオを再生するために使用されるディスプレイのサイズに応じて、ビデオのユーザの知覚も変化し得る。たとえば、10インチタブレットにおいて映画を見るとき、ディスプレイ全体が視聴者中心視野内にある場合があり、一方、100インチテレビジョンにおいて同じ映画を見るとき、ディスプレイの外側部分は、視聴者の周辺視野内にしかない場合がある。本開示は、対応するビデオデータのために使用されるディスプレイのサイズに基づいて、オーディオ再現の知覚を適応させるための技法を導入する。

0028

[0049]MPEG−H 3Dオーディオビットストリームは、コンテンツ製作プロセス中に使用される基準画面サイズの情報をシグナリングするための新たなビットフィールドを含む。また、そのいくつかの例が本開示において説明されることになる、MPEG−H 3D準拠オーディオデコーダが、復号されるオーディオに対応するビデオに関連して使用されるディスプレイ設定の実際の画面サイズを決定するように構成される。その結果として、本開示の技法によれば、画面関連オーディオコンテンツがビデオにおいて表示される同じ場所から知覚されるように、オーディオデコーダが、基準画面サイズおよび実際の画面サイズに基づいて、HOA音場を適応させ得る。

0029

[0050]本開示は、混在オーディオ/ビデオ再現シナリオにおいて視覚構成要素に対する音響要素の空間アライメントを確実にするために、HOA音場がいかに調整され得るかに関する技法を記述する。本開示の技法は、HOA専用コンテンツの場合に、または現在、画面関連オーディオオブジェクトのみが調整されるHOAおよびオーディオオブジェクトの組合せを有するコンテンツの場合に、首尾一貫したオーディオ/ビデオ体感を生み出すのを助けるために利用され得る。

0030

[0051]図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。

0031

[0052]SHC

0032

0033

は、様々なマイクロフォンアレイ構成によって物理的に獲得(たとえば、録音)されてよく、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されてよい。SHCはシーンベースのオーディオを表し、ここで、SHCは、より効率的な送信または記憶を促し得る符号化されたSHCを取得するために、オーディオエンコーダに入力され得る。たとえば、(1+4)2個の(25個の、したがって4次の)係数を伴う4次表現が使用され得る。

0034

[0053]上述されたように、SHCは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti,M、「Three−Dimensional Surround Sound Systems Based on Spherical Harmonics」、J.Audio Eng. Soc.、Vol. 53、No. 11、2005年11月、1004〜1025ページにおいて説明されている。

0035

[0054]SHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

0036

0037

は、

0038

0039

と表され得、ただし、iは

0040

0041

であり、

0042

0043

は次数nの(第2の種類の)球ハンケル関数であり、{rs,θs、φs}はオブジェクトのロケーションである。周波数の関数として(たとえば、PCMストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して)オブジェクトソースエネルギーg(ω)を知ることで、各PCMオブジェクトと対応するロケーションとをSHC

0044

0045

に変換することが可能となる。さらに、各オブジェクトについての

0046

0047

係数は、(上式線形であり直交方向の分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトが

0048

0049

係数によって(たとえば、個々のオブジェクトについての係数ベクトルの和として)表され得る。本質的に、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含んでおり、上記は、観測点{rr,θr,φr}の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびSHCベースのオーディオコーディングの文脈で説明される。

0050

[0055]図2は、本開示で説明される技法の様々な態様を実行することができるシステム10を示す図である。図2の例に示されるように、システム10は、コンテンツ作成者デバイス12と、コンテンツ消費者デバイス14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、SHC(HOA係数とも呼ばれ得る)または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータスマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

0051

[0056]コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14などのコンテンツ消費者デバイスのオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成することができる、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例において、コンテンツクリエータデバイス12は、圧縮HOA係数11を有するオーディオ信号を生成し、オーディオ信号に、1つまたは複数の視野(FOV)パラメータも含むことを望む個々のユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。FOVパラメータは、たとえば、ビデオコンテンツのための基準画面サイズを記述し得る。コンテンツ消費者デバイス14は、個人によって操作され得る。コンテンツ消費者デバイス14は、マルチチャネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム16を含み得る。

0052

[0057]コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、様々なフォーマットのライブ録音7(HOA係数として直接含む)とオーディオオブジェクト9とを取得し、コンテンツ作成者デバイス12は、オーディオ編集システム18を使用してこれらを編集することができる。マイクロフォン5はライブ録音7をキャプチャすることができる。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト9からのHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞くことができる。コンテンツ作成者デバイス12は次いで、(潜在的に、上記で説明された方法でソースHOA係数がそれから導出され得るオーディオオブジェクト9のうちの様々なオブジェクトの操作を通じて間接的に)HOA係数11とFOVパラメータ13とを編集することができる。コンテンツ作成者デバイス12は、HOA係数11とFOVパラメータ13とを生成するためにオーディオ編集システム18を採用することができる。オーディオ編集システム18は、オーディオデータを編集し、このオーディオデータを1つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

0053

[0058]編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてオーディオビットストリーム21を生成することができる。すなわち、コンテンツ作成者デバイス12は、オーディオビットストリーム21を生成するために、本開示で説明される技法の様々な態様に従って、HOA係数11を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20が、ビットストリーム21内に、FOVパラメータ13をシグナリングするための値を含み得る。オーディオ符号化デバイス20は、一例として、有線チャネルまたはワイヤレスチャネルデータ記憶デバイスなどであり得る送信チャネルを介した送信のために、オーディオビットストリーム21を生成することができる。オーディオビットストリーム21は、HOA係数11の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。いくつかの例において、オーディオ符号化デバイス20は、サイドチャネル内にFOVパラメータ13を含む場合があり、一方、他の例において、オーディオ符号化デバイス20は、他の場所に、FOVパラメータ13を含む場合がある。さらに別の例において、オーディオ符号化デバイス20は、FOVパラメータ13を符号化しない場合があり、代わりに、オーディオ再生システム16が、FOVパラメータ13’にデフォルト値割り当てる場合がある。

0054

[0059]図2では、コンテンツ消費者デバイス14に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにオーディオビットストリーム21を出力することができる。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス14に後で配信するために、オーディオビットストリーム21を記憶することができる。中間デバイスは、ファイルサーバウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにオーディオビットストリーム21を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、オーディオビットストリーム21を要求するコンテンツ消費者デバイス14などの加入者にオーディオビットストリーム21を(場合によっては対応するビデオデータビットストリームを送信するとともに)ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在してもよい。

0055

[0060]代替的に、コンテンツ作成者デバイス12は、コンパクトディスクデジタルビデオディスク高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にオーディオビットストリーム21を記憶することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある(および、小売店と他の店舗ベースの配信機構とを含み得る)。したがって、いずれにしても、本開示の技法は、この点に関して図2の例に限定されるべきではない。

0056

[0061]コンテンツクリエータデバイス12はさらに、ビデオデータ23を生成し、符号化するように構成される場合があり、コンテンツコンシューマデバイス14が、ビデオデータ23を受信し、復号するように構成される場合がある。ビデオデータ23は、オーディオビットストリーム21に関連付けられ、送信され得る。この関連で、コンテンツクリエータデバイス12およびコンテンツコンシューマデバイス14は、図2には明示されない付加的なハードウェアおよびソフトウェアを含み得る。コンテンツクリエータデバイス12は、たとえば、ビデオデータを取り込むためのカメラと、ビデオデータを編集するためのビデオ編集システムと、ビデオデータを符号化するためのビデオエンコーダとを含む場合があり、コンテンツコンシューマデバイス14も、ビデオデコーダと、ビデオレンダラとを含む場合がある。

0057

[0062]図2の例にさらに示されるように、コンテンツ消費者デバイス14は、オーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム16は、いくつかの異なるレンダラ22を含み得る。レンダラ22は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ベクトルベース振幅パンニング(VBAP:vector-base amplitude panning)を実行する様々な方法の1つもしくは複数、および/または音場合成を実行する様々な方法の1つもしくは複数を含み得る。本明細書で使用される場合、「Aおよび/またはB」は、「AまたはB」、または「AとB」の両方を意味する。

0058

[0063]オーディオ再生システム16は、オーディオ復号デバイス24をさらに含み得る。オーディオ復号デバイス24は、オーディオビットストリーム21からHOA係数11’とFOVパラメータ13’とを復号するように構成されたデバイスを表し得、HOA係数11’は、HOA係数11と類似し得るが、損失のある演算(たとえば、量子化)および/または送信チャネルを介した送信が原因で異なり得る。FOVパラメータ13は、それに対して、無損失でコーティングされ得る。オーディオ再生システム16は、HOA係数11’を取得するためにオーディオビットストリーム21を復号した後、ラウドスピーカーフィード25を出力するためにHOA係数11’をレンダリングすることができる。後により詳細に説明されるように、オーディオ再生システム16がHOA係数11’をレンダリングするやり方は、場合によっては、ディスプレイ15のFOVパラメータとともに、FOVパラメータ13’に基づいて変更され得る。ラウドスピーカーフィード25は、1つまたは複数のラウドスピーカー(説明を簡単にするために図2の例には示されていない)を駆動することができる。

0059

[0064]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報13を取得することができる。いくつかの場合には、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカー情報13を取得し、ラウドスピーカー情報13を動的に決定するような方法でラウドスピーカーを駆動することができる。他の場合には、またはラウドスピーカー情報13の動的な決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報13を入力するようにユーザに促すことができる。

0060

[0065]オーディオ再生システム16は次いで、ラウドスピーカー情報13に基づいて、オーディオレンダラ22のうちの1つを選択することができる。いくつかの場合には、オーディオ再生システム16は、ラウドスピーカー情報13において指定された幾何学的配置に対する何らかの閾値類似性尺度(ラウドスピーカーの幾何学的配置に関する)内にいずれのオーディオレンダラ22もないとき、ラウドスピーカー情報13に基づいて、オーディオレンダラ22のうちの1つを生成することができる。オーディオ再生システム16は、いくつかの場合には、オーディオレンダラ22のうちの既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいて、オーディオレンダラ22のうちの1つを生成することができる。その際、1つまたは複数のスピーカー3は、レンダリングされたラウドスピーカーフィード25を再生することができる。

0061

[0066]図2に示されるように、コンテンツコンシューマデバイス14は、関連する表示デバイス、ディスプレイ15も有する。図2の例において、ディスプレイ15は、コンテンツコンシューマデバイス14に組み込まれるように示される。しかしながら、他の例では、ディスプレイ15は、コンテンツコンシューマデバイス14の外部に存在し得る。後にさらに詳細に説明されるように、ディスプレイ15は、FOVパラメータ13’とは別である1つまたは複数の関連するFOVパラメータを有する場合がある。FOVパラメータ13’は、コンテンツ生成の時点で基準画面に関連付けられるパラメータを表し、一方、ディスプレイ15のFOVパラメータは、再生のために使用される表示窓のFOVパラメータである。オーディオ再生システム16は、FOVパラメータ13’と、ディスプレイ15に関連付けられるFOVパラメータとの両方に基づいて、オーディオレンダラ22のうちの1つを変更または生成し得る。

0062

[0067]図3は、本開示で説明される技法の様々な態様を実行することができる、図2の例に示されるオーディオ符号化デバイス20の一例をより詳細に示すブロック図である。オーディオ符号化デバイス20は、コンテンツ分析ユニット26と、ベクトルベース分解ユニット27と、指向性ベース分解ユニット28とを含む。以下で手短に説明されるが、オーディオ符号化デバイス20に関するより多くの情報、およびHOA係数を圧縮またはさもなければ符号化する様々な態様は、2014年5月29に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称国際特許出願公開第WO2014/194099号において入手可能である。

0063

[0068]コンテンツ分析ユニット26は、HOA係数11がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、HOA係数11のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの場合には、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベース分解ユニット27に渡す。いくつかの場合には、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を指向性ベース分解ユニット28に渡す。指向性ベース分解ユニット28は、指向性ベースビットストリーム21を生成するためにHOA係数11の指向性ベース合成を実行するように構成されたユニットを表し得る。

0064

[0069]図3の例に示されるように、ベクトルベース分解ユニット27は、線形可逆変換(LIT)ユニット30と、パラメータ計算ユニット32と、並べ替えユニット34と、フォアグラウンド選択ユニット36と、エネルギー補償ユニット38と、聴覚心理オーディオコーダユニット40と、ビットストリーム生成ユニット42と、音場分析ユニット44と、係数低減ユニット46と、バックグラウンド(BG)選択ユニット48と、空間時間的補間ユニット50と、量子化ユニット52とを含み得る。

0065

[0070]線形可逆変換(LIT)ユニット30は、HOAチャネルの形態でHOA係数11を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム(HOA[k]と示され得、ただし、kはサンプルの現在のフレームまたはブロックを示し得る)を表す。HOA係数11の行列は、次元D:M×(N+1)2を有し得る。

0066

[0071]LITユニット30は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。SVDに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行されてよい。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非0のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「PCA」と呼ばれることが多い、主成分分析を備え得る。文脈に応じて、PCAは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換固有直交分解(POD)、および固有値分解EVD)などのいくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。

0067

[0072]いずれにしても、LITユニット30が、例として、特異値分解(やはり「SVD」と呼ばれることがある)を実行すると仮定すると、LITユニット30は、HOA係数11を、変換されたHOA係数の2つ以上のセットに変換することができる。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含み得る。図3の例では、LITユニット30は、いわゆるV行列と、S行列と、U行列とを生成するために、HOA係数11に関してSVDを実行することができる。SVDは、線形代数学では、y×zの実行列または複素行列X(ここで、Xは、HOA係数11などのマルチチャネルオーディオデータを表し得る)の因数分解を以下の形で表し得る。

0068

0069

Uはy×yの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Uのy個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Sは、対角線上に非負実数をもつy×zの矩形対角行列を表し得、ここで、Sの対角線値は、マルチチャネルオーディオデータの特異値として知られる。V*(Vの共役転置を示し得る)はz×zの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、V*のz個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

0070

[0073]いくつかの例では、上で参照されたSVD数式中のV*行列は、複素数を備える行列にSVDが適用され得ることを反映するために、V行列の共役転置として示される。実数のみを備える行列に適用されるとき、V行列の複素共役(すなわち、言い換えれば、V*行列)は、V行列の転置であると見なされてよい。以下では、説明を簡単にするために、HOA係数11が実数を備え、その結果、V*行列ではなくV行列がSVDによって出力されると仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切な場合にはV行列の転置を指すものとして理解されるべきである。V行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するHOA係数11に適用されてよく、ここで、SVDの出力はV*行列である。したがって、本技法は、この点について、V行列を生成するためにSVDの適用を提供することのみに限定されるべきではなく、V*行列を生成するために複素成分を有するHOA係数11へのSVDの適用を含んでよい。

0071

[0074]このようにして、LITユニット30は、次元D:M×(N+1)2を有するUS[k]ベクトル33(SベクトルとUベクトルとの組み合わされたバージョンを表し得る)と、次元D:(N+1)2×(N+1)2を有するV[k]ベクトル35とを出力するために、HOA係数11に関してSVDを実行することができる。US[k]行列中の個々のベクトル要素はXps(k)とも呼ばれることがあり、一方、V[k]行列の個々のベクトルはv(k)とも呼ばれることがある。

0072

[0075]U行列、S行列、およびV行列の分析は、それらの行列がXによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される時間期間の間は)時間の関数として、互いに直交しておりあらゆる空間特性指向性情報とも呼ばれ得る)とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置(r、θ、φ)とを表す空間特性は代わりに、(各々が(N+1)2の長さの)V行列の中の個々のi番目のベクトル、v(i)(k)によって表され得る。v(i)(k)ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状(幅を含む)と位置とを記述するHOA係数を表し得る。U行列中のベクトルとV行列中のベクトルの両方が、それらの2乗平均エネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線要素によって表される。したがって、US[k](個々のベクトル要素XPS(k)を有する)を形成するために、UとSとを乗算することは、エネルギーを有するオーディオ信号を表す。(Uにおける)オーディオ時間信号と、(Sにおける)それらのエネルギーと、(Vにおける)それらの空間特性とを切り離すSVD分解の能力は、本開示で説明される技法の様々な態様を支援することができる。さらに、背後のHOA[k]係数XをUS[k]とV[k]とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。

0073

[0076]HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、線形可逆変換をHOA係数11の派生物に適用することができる。たとえば、LITユニット30は、HOA係数11から導出された電力スペクトル密度行列に関してSVDを適用することができる。HOA係数自体ではなくHOA係数の電力スペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は潜在的に、プロセッササイクルおよび記憶空間のうちの1つまたは複数に関してSVDを実行することの計算的な複雑さを低減しつつ、SVDがHOA係数に直接適用されたかのように同じソースオーディオ符号化効率を達成することができる。

0074

[0077]パラメータ計算ユニット32は、相関パラメータ(R)、指向性特性パラメータ(θ、φ、r)、およびエネルギー特性(e)などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]、およびe[k]として示され得る。パラメータ計算ユニット32は、パラメータを特定するために、US[k]ベクトル33に関してエネルギー分析および/または相関(もしくはいわゆる相互相関)を実行することができる。パラメータ計算ユニット32はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、US[k−1]ベクトルおよびV[k−1]ベクトルの以前のフレームに基づいて、R[k−1]、θ[k−1]、φ[k−1]、r[k−1]、およびe[k−1]と示され得る。パラメータ計算ユニット32は、現在のパラメータ37と以前のパラメータ39とを並べ替えユニット34に出力することができる。

0075

[0078]パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット34によって使用され得る。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k−1]ベクトル33のためのパラメータ39の各々に対して順番ごとに比較することができる。並べ替えユニット34は、並べ替えられたUS[k]行列33’(数学的には

0076

0077

として示され得る)と、並べ替えられたV[k]行列35’(数学的には

0078

0079

として示され得る)とをフォアグラウンドサウンド(または支配的サウンド−PS(predominant sound))選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力するために、現在のパラメータ37および以前のパラメータ39に基づいて、US[k]行列33およびV[k]行列35内の様々なベクトルを(一例として、ハンガリー法を使用して)並べ替えることができる。

0080

[0079]音場分析ユニット44は、目標ビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット44は、その分析および/または受信された目標ビットレート41に基づいて、聴覚心理コーダインスタンス化総数(環境またはバックグラウンドチャネルの総数(BGTOT)とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得るを決定することができる。聴覚心理コーダのインスタンス化の総数は、numHOATransportChannelsとして示され得る。

0081

[0080]音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド(または言い換えれば環境的な)音場の最小次数(NBG、または代替的にはMinAmbHOAorder)と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数(nBGa=(MinAmbHOAorder+1)2)と、送るべき追加のBG HOAチャネルのインデックス(i)(図3の例ではバックグラウンドチャネル情報43として総称的に示され得る)とを決定することができる。バックグラウンドチャネル情報42は、環境チャネル情報43とも呼ばれ得る。numHOATransportChannels−nBGaで残るチャネルの各々は、「追加のバックグラウンド/環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、2ビットによって(「ChannelType」として)示されたシンタックス要素であり得る(たとえば、00:指向性ベースの信号、01:ベクトルベースの支配的な信号、10:追加の環境信号、11:非アクティブな信号)。バックグラウンド信号または環境信号の総数、nBGaは、(MinAmbHOAorder+1)2+(上記の例における)インデックス10がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

0082

[0081]音場分析ユニット44は、目標ビットレート41に基づいて、バックグラウンド(または言い換えれば環境)チャネルの数とフォアグラウンド(または言い換えれば支配的な)チャネルの数とを選択し、目標ビットレート41が比較的高いとき(たとえば、目標ビットレート41が512Kbps以上であるとき)はより多くのバックグラウンドチャネルおよび/またはフォアグラウンドチャネルを選択することができる。一態様では、ビットストリームのヘッダセクションにおいて、numHOATransportChannelsは8に設定され得るが、一方で、MinAmbHOAorderは1に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために4つのチャネルが確保され得るが、一方で、他の4つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、たとえば、追加のバックグラウンド/環境チャネルまたはフォアグラウンド/支配的なチャネルのいずれかとして使用され得る。フォアグラウンド/支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの1つであり得る。

0083

[0082]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド/環境チャネル(たとえば、10というChannelTypeに対応する)に対して、(最初の4つ以外の)あり得るHOA係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、4次のHOAコンテンツについては、HOA係数5〜25を示すためのインデックスであり得る。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、5〜25のインデックスを有する追加の環境HOA係数のうちの1つを示すことのみが必要であり得る。その情報はしたがって、「CodedAmbCoeffIdx」として示され得る、(4次のコンテンツのための)5ビットのシンタックス要素を使用して送られ得る。いずれにしても、音場分析ユニット44は、バックグラウンドチャネル情報43とHOA係数11とをバックグラウンド(BG)選択ユニット36に、バックグラウンドチャネル情報43を係数低減ユニット46およびビットストリーム生成ユニット42に、nFG45をフォアグラウンド選択ユニット36に出力する。

0084

[0083]バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(たとえば、バックグラウンド音場(NBG)と、送るべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i)と)に基づいて、バックグラウンドまたは環境HOA係数47を決定するように構成されたユニットを表し得る。たとえば、NBGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルのHOA係数11を選択することができる。バックグラウンド選択ユニット48は次いで、この例では、インデックス(i)のうちの1つによって特定されるインデックスを有するHOA係数11を、追加のBG HOA係数として選択することができ、ここで、nBGaは、図2および図4の例に示されるオーディオ復号デバイス24などのオーディオ復号デバイスがオーディオビットストリーム21からバックグラウンドHOA係数47を解析することを可能にするために、オーディオビットストリーム21において指定されるために、ビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力することができる。環境HOA係数47は、次元D:M×[(NBG+1)2+nBGa]を有し得る。環境HOA係数47はまた、「環境HOA係数47」と呼ばれることもあり、ここで、環境HOA係数47の各々は、聴覚心理オーディオコーダユニット40によって符号化されるべき別個の環境HOAチャネル47に対応する。

0085

[0084]フォアグラウンド選択ユニット36は、(フォアグラウンドベクトルを特定する1つまたは複数のインデックスを表し得る)nFG45に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]行列33’と並べ替えられたV[k]行列35’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット36は、(並べ替えられたUS[k]1,...,nFG49、FG1,...,nfG[k]49、または

0086

0087

として示され得る)nFG信号49を、聴覚心理オーディオコーダユニット40に出力することができ、ここで、nFG信号49は次元D:M×nFGを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35’(またはv(1..nFG)(k)35’)を空間時間的補間ユニット50に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35’のサブセットは、次元D:(N+1)2×nFGを有するフォアグラウンドV[k]行列51kとして示され得る(これは、

0088

0089

として数学的に示され得る)。

0090

[0085]エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOAチャネルのうちの様々なチャネルの除去によるエネルギー損失補償するために、環境HOA係数47に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33’、並べ替えられたV[k]行列35’、nFG信号49、フォアグラウンドV[k]ベクトル51k、および環境HOA係数47のうちの1つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境HOA係数47’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行することができる。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47’を聴覚心理オーディオコーダユニット40に出力することができる。

0091

[0086]空間時間的補間ユニット50は、k番目のフレームのためのフォアグラウンドV[k]ベクトル51kと以前のフレームのための(したがってk−1という表記である)フォアグラウンドV[k−1]ベクトル51k-1とを受信し、補間されたフォアグラウンドV[k]ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット50は、並べ替えられたフォアグラウンドHOA係数を復元するために、nFG信号49をフォアグラウンドV[k]ベクトル51kと再び組み合わせることができる。空間時間的補間ユニット50は次いで、補間されたnFG信号49’を生成するために、補間されたV[k]ベクトルによって、並べ替えられたフォアグラウンドHOA係数を分割することができる。空間時間的補間ユニット50はまた、オーディオ復号デバイス24などのオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成しそれによってフォアグラウンドV[k]ベクトル51kを復元できるように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kを出力することができる。補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k−1]がエンコーダおよびデコーダにおいて(補間されたベクトルV[k]を作成するために)使用されることを保証するために、ベクトルの量子化された/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット50は、補間されたnFG信号49’を聴覚心理オーディオコーダユニット46に出力し、補間されたフォアグラウンドV[k]ベクトル51kを係数低減ユニット46に出力することができる。

0092

[0087]係数低減ユニット46は、低減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)2−(NBG+1)2−BGTOT]×nFGを有し得る。係数低減ユニット46は、この点において、残りのフォアグラウンドV[k]ベクトル53における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット46は、指向性情報をほとんどまたはまったく有しない(残りのフォアグラウンドV[k]ベクトル53を形成する)フォアグラウンドV[k]ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、(NBGと示され得る)1次および0次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドV[k]ベクトルの係数は、指向性情報をほとんど提供せず、したがって、(「係数低減」と呼ばれ得るプロセスを通じて)フォアグラウンドVベクトルから除去され得る。この例では、対応する係数NBGを特定するだけではなく、追加のHOAチャネル(変数TotalOfAddAmbHOAChanによって示され得る)を[(NBG+1)2+1,(N+1)2]のセットから特定するために、より大きい柔軟性が与えられ得る。

0093

[0088]量子化ユニット52は、コーディングされたフォアグラウンドV[k]ベクトル57を生成するために低減されたフォアグラウンドV[k]ベクトル55を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されたユニットを表し得る。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドV[k]ベクトル55の1つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット52は、「NbitQ」で表される量子化モードシンタックス要素によって示されるような、以下の12の量子化モードのうちのいずれか1つを実行することができる。
NbitQ値量子化モードのタイプ
0〜3:予約済み
4:ベクトル量子化
5:ハフマンコーディングなしのスカラー量子化
6: ハフマンコーディングありの6ビットスカラー量子化
7: ハフマンコーディングありの7ビットスカラー量子化
8: ハフマンコーディングありの8ビットスカラー量子化
・・・ ・・・
16: ハフマンコーディングありの16ビットスカラー量子化
また、量子化ユニット52は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行することもでき、以前のフレームのVベクトルの要素(またはベクトル量子化が実行されるときの重み)と、現在のフレームのVベクトルの要素(またはベクトル量子化が実行されるときの重み)との間の差が決定される。量子化ユニット52は、その際、現在のフレーム自体のVベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化することができる。

0094

[0089]量子化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドV[k]ベクトル55のそれぞれに対して複数の形の量子化を実行することができる。量子化ユニット52は、符号化されたフォアグラウンドV[k]ベクトル57として、低減されたフォアグラウンドV[k]ベクトル55の符号化されたバージョンのうちの1つまたは複数を選択することができる。量子化ユニット52は、言い換えれば、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたVベクトルとして使用するために、予測されないベクトル量子化されたVベクトル、予測されベクトル量子化されたVベクトル、ハフマンコーディングされないスカラー量子化されたVベクトル、およびハフマンコーディングされスカラー量子化されたVベクトルのうちの1つを選択することができる。いくつかの例では、量子化ユニット52は、ベクトル量子化モードと1つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて(または従って)、入力Vベクトルを量子化することができる。量子化ユニット52は次いで、(たとえば、重み値またはそれを示すビットに関して)予測されないベクトル量子化されたVベクトル、(たとえば、誤差値またはそれを示すビットに関して)予測されベクトル量子化されたVベクトル、ハフマンコーディングされないスカラー量子化されたVベクトル、およびハフマンコーディングされスカラー量子化されたVベクトルのうちの選択されたものを、コーディングされたフォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット52に与えることができる。量子化ユニット52はまた、量子化モードを示すシンタックス要素(たとえば、NbitsQシンタックス要素)と、Vベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与えることができる。

0095

[0090]オーディオ符号化デバイス20内に含まれる聴覚心理オーディオコーダユニット40は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために、エネルギー補償された環境HOA係数47’および補間されたnFG信号49’の各々の異なるオーディオオブジェクトまたはHOAチャネルを符号化するために使用される。聴覚心理オーディオコーダユニット40は、符号化された環境HOA係数59と符号化されたnFG信号61とをビットストリーム生成ユニット42に出力することができる。

0096

[0091]オーディオ符号化デバイス20内に含まれるビットストリーム生成ユニット42は、既知のフォーマット(復号デバイスによって知られているフォーマットを指し得る)に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。オーディオビットストリーム21は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット42は、いくつかの例ではマルチプレクサを表してよく、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とを受信することができる。ビットストリーム生成ユニット42は次いで、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とに基づいて、オーディオビットストリーム21を生成することができる。このようにして、ビットストリーム生成ユニット42は、それにより、オーディオビットストリーム21を取得するために、オーディオビットストリーム21内のベクトル57を指定することができる。オーディオビットストリーム21は、主要またはメインビットストリームと、1つまたは複数のサイドチャネルビットストリームとを含み得る。

0097

[0092]図3の例には示されないが、オーディオ符号化デバイス20はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス20から出力されるビットストリームを(たとえば、指向性ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)指向性ベース合成が実行されたか、または(HOA係数が録音されたことを検出した結果として)ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム21の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

0098

[0093]その上、上述されたように、音場分析ユニット44は、フレームごとに変化し得る、BGTOT環境HOA係数47を特定することができる(が、時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。BGTOTにおける変化は、低減されたフォアグラウンドV[k]ベクトル55において表された係数への変化を生じ得る。BGTOTにおける変化は、フレームごとに変化する(「環境HOA係数」と呼ばれることもある)バックグラウンドHOA係数を生じ得る(が、この場合も時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。この変化は、追加の環境HOA係数の追加または除去と、対応する、低減されたフォアグラウンドV[k]ベクトル55からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。

0099

[0094]結果として、音場分析ユニット44は、いつ環境HOA係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境HOA係数への変化を示すフラグまたは他のシンタックス要素を生成することができる(ここで、この変化はまた、環境HOA係数の「遷移」または環境HOA係数の「遷移」と呼ばれることもある)。具体的には、係数低減ユニット46は、(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示され得る)フラグを生成し、そのフラグが(場合によってはサイドチャネル情報の一部として)オーディオビットストリーム21中に含まれ得るように、そのフラグをビットストリーム生成ユニット42に与えることができる。

0100

[0095]係数低減ユニット46は、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドV[k]ベクトル55が生成される方法を修正することもできる。一例では、環境HOA環境係数のうちの1つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット46は、遷移中の環境HOA係数に対応する低減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々について、(「ベクトル要素」または「要素」とも呼ばれ得る)ベクトル係数を指定することができる。この場合も、遷移中の環境HOA係数は、BGTOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境HOA係数がビットストリーム中に含まれるか含まれないか、および、Vベクトルの対応する要素が、上記で説明された第2の構成モードおよび第3の構成モードにおいてビットストリーム中で指定されたVベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット46が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドV[k]ベクトル55を指定することができる方法に関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENTHIGHER_ORDER AMBISONIC COEFFCIENTS」という名称の米国特許出願第14/594,533号において提供されている。

0101

[0096]図4は、図2のオーディオ復号デバイス24をより詳細に示すブロック図である。図4の例に示されているように、オーディオ復号デバイス24は、抽出ユニット72と、指向性ベース再構成ユニット90と、ベクトルベース再構成ユニット92とを含み得る。以下で説明されるが、オーディオ復号デバイス24に関するより多くの情報、およびHOA係数を解凍またはさもなければ復号する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第WO2014/194099号において入手可能である。

0102

[0097]抽出ユニット72は、オーディオビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されたユニットを表し得る。抽出ユニット72は、HOA係数11が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定することができる。指向性ベース符号化が実行されたとき、抽出ユニット72は、HOA係数11の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素(図4の例では指向性ベース情報91として示される)とを抽出し、指向性ベース情報91を指向性ベース再構成ユニット90に渡すことができる。指向性ベース再構成ユニット90は、指向性ベース情報91に基づいてHOA係数11’の形態でHOA係数を再構成するように構成されたユニットを表し得る。ビットストリームおよびビットストリーム内のシンタックス要素の構成が、以下で図7A〜図7Jの例に関してより詳細に説明される。

0103

[0098]HOA係数11がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(コーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたVベクトルを含み得る)と、符号化された環境HOA係数59と、対応するオーディオオブジェクト61(符号化されたnFG信号61と呼ばれる場合もある)とを抽出することができる。オーディオオブジェクト61はそれぞれベクトル57のうちの1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をVベクトル再構成ユニット74に渡し、符号化された環境HOA係数59を符号化されたnFG信号61とともに聴覚心理復号ユニット80に渡すことができる。

0104

[0099]Vベクトル再構成ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57から、Vベクトルを再構成するように構成されるユニットを表し得る。Vベクトル再構成ユニット74は、量子化ユニット52の動作と逆の方法で動作することができる。

0105

[0100]聴覚心理復号ユニット80は、符号化された環境HOA係数59と符号化されたnFG信号61とを復号し、それによってエネルギー補償された環境HOA係数47’と補間されたnFG信号49’(補間されたnFGオーディオオブジェクト49’とも呼ばれ得る)とを生成するために、図3の例に示される聴覚心理オーディオコーダユニット40とは逆の方法で動作することができる。聴覚心理復号ユニット80は、エネルギー補償された環境HOA係数47’をフェードユニット770に渡し、nFG信号49’をフォアグラウンド編成ユニット78に渡すことができる。

0106

[0101]空間時間的補間ユニット76は、空間時間的補間ユニット50に関して上記で説明されたものと同様の方法で動作することができる。空間時間的補間ユニット76は、低減されたフォアグラウンドV[k]ベクトル55kを受信し、また、補間されたフォアグラウンドV[k]ベクトル55k’’を生成するために、フォアグラウンドV[k]ベクトル55kおよび低減されたフォアグラウンドV[k−1]ベクトル55k-1に関して空間時間的補間を実行することができる。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送することができる。

0107

[0102]抽出ユニット72はまた、いつ環境HOA係数のうちの1つが遷移中であるかを示す信号757を、フェードユニット770に出力することもでき、フェードユニット770は次いで、SCHBG47’(ここで、SCHBG47’は、「環境HOAチャネル47’」または「環境HOA係数47’」とも呼ばれ得る)および補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定することができる。いくつかの例では、フェードユニット770は、環境HOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の各々に関して、反対に動作することができる。すなわち、フェードユニット770は、環境HOA係数47’のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行することができ、一方で、補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット770は、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55k’’’をフォアグラウンド編成ユニット78に出力することができる。この点において、フェードユニット770は、HOA係数またはその派生物の様々な態様に関して、たとえば、環境HOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。

0108

[0103]フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を生成するために、調整されたフォアグラウンドV[k]ベクトル55k’’’および補間されたnFG信号49’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット78は、フォアグラウンド、または言い換えると、HOA係数11’の支配的態様を再構成するために、オーディオオブジェクト49’(それは、補間されたnFG49’を表す別の方法である)をベクトル55k’’’と組み合わせることができる。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k’’’による補間されたnFG信号49’の行列乗算を実行することができる。

0109

[0104]HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、HOA係数11’がHOA係数11と同様であるが同じではないことがあることを反映している。HOA係数11とHOA係数11’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

0110

[0105]図5は、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図3の例に示されるオーディオ符号化デバイス20などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス20は、HOA係数11を受信する(106)。オーディオ符号化デバイス20はLITユニット30を呼び出すことができ、LITユニット30は、変換されたHOA係数(たとえば、SVDの場合、変換されたHOA係数はUS[k]ベクトル33とV[k]ベクトル35とを備え得る)を出力するためにHOA係数に関してLITを適用することができる(107)。

0111

[0106]オーディオ符号化デバイス20は次に、上記で説明された方法で様々なパラメータを特定するために、US[k]ベクトル33、US[k−1]ベクトル33、V[k]ベクトルおよび/またはV[k−1]ベクトル35の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット32を呼び出すことができる。すなわち、パラメータ計算ユニット32は、変換されたHOA係数33/35の分析に基づいて少なくとも1つのパラメータを決定することができる(108)。

0112

[0107]オーディオ符号化デバイス20は次いで、並べ替えユニット34を呼び出すことができ、並べ替えユニット34は、上記で説明されたように、並べ替えられた変換されたHOA係数33’/35’(または言い換えれば、US[k]ベクトル33’およびV[k]ベクトル35’)を生成するために、パラメータに基づいて、変換されたHOA係数(この場合も、SVDの文脈では、US[k]ベクトル33とV[k]ベクトル35とを指し得る)を並べ替えることができる(109)。オーディオ符号化デバイス20は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット44を呼び出すこともできる。音場分析ユニット44は、上記で説明されたように、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド音場の次数(NBG)と、送るべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i)(図3の例ではバックグラウンドチャネル情報43としてまとめて示され得る)とを決定するために、HOA係数11および/または変換されたHOA係数33/35に関して音場分析を実行することができる(109)。

0113

[0108]オーディオ符号化デバイス20はまた、バックグラウンド選択ユニット48を呼び出すことができる。バックグラウンド選択ユニット48は、バックグラウンドチャネル情報43に基づいて、バックグラウンドまたは環境HOA係数47を決定することができる(110)。オーディオ符号化デバイス20はさらに、フォアグラウンド選択ユニット36を呼び出すことができ、フォアグラウンド選択ユニット36は、nFG45(フォアグラウンドベクトルを特定する1つまたは複数のインデックスを表し得る)に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]ベクトル33’と並べ替えられたV[k]ベクトル35’とを選択することができる(112)。

0114

[0109]オーディオ符号化デバイス20は、エネルギー補償ユニット38を呼び出すことができる。エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOA係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境HOA係数47に関してエネルギー補償を実行し(114)、それによって、エネルギー補償された環境HOA係数47’を生成することができる。

0115

[0110]オーディオ符号化デバイス20はまた、空間時間的補間ユニット50を呼び出すことができる。空間時間的補間ユニット50は、補間されたフォアグラウンド信号49’(「補間されたnFG信号49’」とも呼ばれ得る)と残りのフォアグラウンド指向性情報53(「V[k]ベクトル53」とも呼ばれ得る)とを取得するために、並べ替えられた変換されたHOA係数33’/35’に関して空間時間的補間を実行することができる(116)。オーディオ符号化デバイス20は次いで、係数低減ユニット46を呼び出すことができる。係数低減ユニット46は、低減されたフォアグラウンド指向性情報55(低減されたフォアグラウンドV[k]ベクトル55とも呼ばれ得る)を取得するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実行することができる(118)。

0116

[0111]オーディオ符号化デバイス20は次いで、上記で説明された方法で、低減されたフォアグラウンドV[k]ベクトル55を圧縮し、コーディングされたフォアグラウンドV[k]ベクトル57を生成するために、量子化ユニット52を呼び出すことができる(120)。

0117

[0112]オーディオ符号化デバイス20はまた、聴覚心理オーディオコーダユニット40を呼び出すことができる。聴覚心理オーディオコーダユニット40は、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために、エネルギー補償された環境HOA係数47’および補間されたnFG信号49’の各ベクトルを聴覚心理コーディングすることができる。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット42を呼び出すことができる。ビットストリーム生成ユニット42は、コーディングされたフォアグラウンド指向性情報57と、コーディングされた環境HOA係数59と、コーディングされたnFG信号61と、バックグラウンドチャネル情報43とに基づいて、オーディオビットストリーム21を生成することができる。

0118

[0113]図6は、本開示で説明される技法の様々な態様を実行する際の、図4に示されるオーディオ復号デバイス24などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス24は、オーディオビットストリーム21を受信することができる(130)。ビットストリームを受信すると、オーディオ復号デバイス24は抽出ユニット72を呼び出すことができる。説明の目的で、ベクトルベース再構成が実行されるべきであることをオーディオビットストリーム21が示すと仮定すると、抽出デバイス72は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット92に渡すことができる。

0119

[0114]言い換えれば、抽出ユニット72は、コーディングされたフォアグラウンド指向性情報57(この場合も、コーディングされたフォアグラウンドV[k]ベクトル57とも呼ばれ得る)と、コーディングされた環境HOA係数59と、コーディングされたフォアグラウンド信号(コーディングされたフォアグラウンドnFG信号59またはコーディングされたフォアグラウンドオーディオオブジェクト59とも呼ばれ得る)とを、上記で説明された方法でオーディオビットストリーム21から抽出することができる(132)。

0120

[0115]オーディオ復号デバイス24はさらに、逆量子化ユニット74を呼び出すことができる。逆量子化ユニット74は、低減されたフォアグラウンド指向性情報55kを取得するために、コーディングされたフォアグラウンド指向性情報57をエントロピー復号および逆量子化することができる(136)。オーディオ復号デバイス24はまた、聴覚心理復号ユニット80を呼び出すことができる。聴覚心理復号ユニット80は、エネルギー補償された環境HOA係数47’と補間されたフォアグラウンド信号49’とを取得するために、符号化された環境HOA係数59と符号化されたフォアグラウンド信号61とを復号することができる(138)。聴覚心理復号ユニット80は、エネルギー補償された環境HOA係数47’をフェードユニット770に渡し、nFG信号49’をフォアグラウンド編成ユニット78に渡すことができる。

0121

[0116]オーディオ復号デバイス24は次に、空間時間的補間ユニット76を呼び出すことができる。空間時間的補間ユニット76は、並べ替えられたフォアグラウンド指向性情報55k’を受信し、また、補間されたフォアグラウンド指向性情報55k’’を生成するために、低減されたフォアグラウンド指向性情報55k/55k-1に関して空間時間的補間を実行することができる(140)。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送することができる。

0122

[0117]オーディオ復号デバイス24は、フェードユニット770を呼び出すことができる。フェードユニット770は、エネルギー補償された環境HOA係数47’がいつ遷移中であるかを示すシンタックス要素(たとえば、AmbCoeffTransitionシンタックス要素)を(たとえば、抽出ユニット72から)受信またはさもなければ取得することができる。フェードユニット770は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境HOA係数47’をフェードインまたはフェードアウトし、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力することができる。フェードユニット770はまた、シンタックス要素と維持された遷移状態情報とに基づいて、および、補間されたフォアグラウンドV[k]ベクトル55k’’の対応する1つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット78に調整されたフォアグラウンドV[k]ベクトル55k’’’を出力することができる(142)。

0123

[0118]オーディオ復号デバイス24は、フォアグラウンド編成ユニット78を呼び出すことができる。フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を取得するために、調整されたフォアグラウンド指向性情報55k’’’による行列乗算nFG信号49’を実行することができる(144)。オーディオ復号デバイス24はまた、HOA係数編成ユニット82を呼び出すことができる。HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に加算することができる(146)。

0124

[0119]本開示の技法によれば、オーディオ復号デバイス24が、製作および再現画面サイズに基づいて、HOA効果行列を計算し得る。HOA効果行列は、画面関連HOAレンダリング行列を生成するために、所与のHOAレンダリング行列Rを乗算され得る。いくつかの実装形態において、HOAレンダリング行列の適応は、実行時に複雑さが増さないように、たとえば、オーディオ復号デバイス24の初期化段階中に、オフラインで行われ得る。

0125

[0120]本開示の1つの提案される技法は、球(Ω900)上の900個の等間隔に配置されるサンプリング点を使用し、サンプリング点のそれぞれはISO/IECDIS23008−3の付属書F.9「Information technology−High efficiency coding and media delivery in heterogeneous environments−Part 3: 3D audio」(これ以降、「DIS23008」)において記述されるように、方向(θ、φ)を用いて規定される。それらの方向に基づいて、オーディオ復号デバイスが、DIS23008の付属書F.1.5において略述されるように、モード行列Ψ900を計算し得る。それらの900個のサンプリング点の方向はマッピング関数を介して修正され、それに応じて、修正モード行列Ψm900が計算される。画面関連オーディオオブジェクトと画面関連HOAコンテンツとの間の不一致を回避するために、DIS23008の18.3節においてすでに記述されている同じマッピング関数が使用される。その際、効果行列Fが以下のように計算される。

0126

0127

[0121]その後、画面関連レンダリング行列が以下のように計算される。

0128

0129

[0122]この処理ステップのいかなる繰り返しも回避するために、行列

0130

0131

をあらかじめ計算した、そして記憶することができる。Dを生成するための式(1)および(2)における残りの演算の全数は、(900+M)*(N+1)4である。次数N=4およびM=22個のスピーカーを用いるレンダリング行列の場合、複雑さは、約0.58で重み付けされたMOPSである。

0132

[0123]本開示の画面に基づく適応技法の第1の例が、ここで、図7〜図11を参照しながら説明されることになる。図7Aは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図7Bは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図7Aおよび図7Bの例において、基準画面の角度は、方位角29度〜−29度および仰角16.3度〜−16.3度であり、表示窓の角度は、方位角58度〜−58度および仰角32.6度〜−32.6度である。したがって、図7Aおよび図7Bの例において、表示窓は基準画面の大きさの2倍である。

0133

[0124]本開示において使用されるときに、表示窓は、ビデオを再現するために使用される画面の全体または一部を指す場合がある。テレビジョン、タブレット、電話または他のそのようなデバイスにおいて全画面モードにおいて映画を再生するとき、表示窓は、そのデバイスの画面全体に対応し得る。しかしながら、他の例において、表示窓は、そのデバイスの画面全体未満に対応し得る。たとえば、4つのスポーツイベントを同時に再生するデバイスが、1つの画面上に4つの異なる表示窓を含む場合があるか、またはデバイスが、ビデオを再生するための単一の表示窓を有し、他のコンテンツを表示するために残りの画面エリアを使用する場合がある。表示窓の視野は、表示窓の物理的サイズ、および/または表示窓から閲覧場所(viewing location)までの距離(実測、想定のいずれか)のようなパラメータに基づいて決定され得る。視野は、たとえば、方位角および仰角によって記述され得る。

0134

[0125]本開示において使用されるときに、基準画面は、HOAオーディオデータの音場に対応する視野を指している。たとえば、HOAオーディオデータが、ある特定の視野(すなわち、基準画面)に対して生成されるか、または取り込まれる場合があるが、異なる視野(たとえば、表示窓の視野)に対して再現される場合がある。本開示において説明されるように、基準画面は、サイズ、場所または何らかの他のそのような特性に関して基準画面とは異なる画面上に局所的に再生するためにオーディオデコーダがHOAオーディオデータを適応させ得る基準を提供する。説明のために、製作画面および再現画面を参照しながら、本開示における特定の技法が記述される場合がある。基準画面および表示窓にこれらの同じ技法が適用可能であることは理解されたい。

0135

[0126]図8は、第1の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図8において、ドットマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡破線長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

0136

[0127]図61は、画面関連効果が、コンテンツのHOA次数の増加をいかに引き起こし得るかの一例を示す。図61の例において、効果行列は、3次の入力材料から49個のHOA係数(6次)を生成するために計算される。しかしながら、行列が、(N+1)2×(N+1)2の要素を有する正方行列として計算される場合にも、満足のいく結果が達成され得る。

0137

[0128]図10は、効果行列がいかにプリレンダリングされ、ラウドスピーカーレンダリング行列に適用され得るかの一例を示しており、それにより、実行時に余分な計算を不要にする。

0138

[0129]図11は、効果行列の結果として、高次コンテンツ(たとえば、6次)が生じ得る場合に、この次数のレンダリング行列を乗算し、元の次数(ここでは、3次)の最終的なレンダリング行列をいかにあらかじめ計算し得るかの一例を示す。

0139

[0130]本開示の画面に基づく適応技法の第2の例が、ここで、図12および図13を参照しながら説明されることになる。図12Aは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図12Bは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図12Aおよび図12Bの例において、基準画面の角度は、方位角29度〜−29度および仰角16.3度〜−16.3度であり、表示窓の角度は、方位角29度〜-29度および仰角32.6度〜−32.6度である。したがって、図12Aおよび図12Bの例において、表示窓は基準画面の2倍の高さであるが、基準画面と同じ幅を有する。図12Cは、第2の例の場合の計算されたHOA効果行列を示す。

0140

[0131]図13は、第2の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図13において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

0141

[0132]本開示の画面に基づく適応技法の第3の例が、ここで、図14および図15を参照しながら説明されることになる。図14Aは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図14Bは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図14Aおよび図14Bの例において、基準画面の角度は、方位角29度〜−29度および仰角16.3度〜−16.3度であり、表示窓の角度は、方位角58度〜-58度および仰角16.3度〜−16.3度である。したがって、図14Aおよび図14Bの例において、表示窓は基準画面の2倍の幅であるが、基準画面と同じ高さを有する。図14Cは、第3の例の場合の計算されたHOA効果行列を示す。

0142

[0133]図15は、第3の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図15おいて、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

0143

[0134]本開示の画面に基づく適応技法の第4の例が、ここで、図16および図17を参照しながら説明されることになる。図16Aは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図16Bは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図16Aおよび図16Bの例において、基準画面の角度は、方位角29度〜−29度および仰角16.3度〜−16.3度であり、表示窓の角度は、方位角49度〜−9度および仰角16.3度〜−16.3度である。したがって、図14Aおよび図14Bの例において、表示窓は基準画面の2倍の幅であるが、基準画面と同じ高さを有する。図16Cは、第3の例の場合の計算されたHOA効果行列を示す。

0144

[0135]図17は、第4の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図17において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

0145

[0136]本開示の画面に基づく適応技法の第5の例が、ここで、図18および図19を参照しながら説明されることになる。図18Aは、基準画面のための方位角を表示窓のための方位角にマッピングするために使用され得るマッピング関数の一例を示す。図18Bは、基準画面のための仰角を表示窓のための仰角にマッピングするために使用され得るマッピング関数の一例を示す。図18Aおよび図18Bの例において、基準画面の角度は、方位角29度〜−29度および仰角16.3度〜−16.3度であり、表示窓の角度は、方位角49度〜−9度および仰角16.3度〜−16.3度である。したがって、図18Aおよび図18Bの例において、表示窓は、方位角の場所に関して、基準画面に対してシフトされる。図18Cは、第5の例の場合の計算されたHOA効果行列を示す。

0146

[0137]図19は、第4の例の場合の、基準画面および表示窓の効果としての音場の所望の画面関連拡張効果に関するベクトル場を示す。図19において、ドットはマッピング先に対応し、一方、ドットに入るラインは、対応するマッピング軌跡。破線の長方形は、基準画面サイズに対応し、実線の長方形は、表示窓サイズに対応する。

0147

[0138]図20A図20Cは、本開示において説明されるオーディオの画面に基づく適応のための技法の種々の態様を実現し得るオーディオ復号デバイス900の別の例を示すブロック図である。簡単にするために、図20A図20Cにおいて、オーディオ復号デバイス900のすべての態様が示されるとは限らない。オーディオ復号デバイス900の特徴および機能は、図2および図4に関して先に説明されたオーディオ復号デバイス24のような、本開示において説明された他のオーディオ復号デバイスの特徴および機能とともに実現され得ると考えられる。

0148

[0139]オーディオ復号デバイス900は、USACデコーダ902と、HOAデコーダ904と、ローカルレンダリング行列発生器906と、シグナリング/ローカルレンダリング行列決定器908と、ラウドスピーカーレンダラ910とを含む。オーディオ復号デバイス900は、符号化されたビットストリーム(たとえば、MPEG−H 3Dオーディオビットストリーム)を受信する。USAC復号器902およびHOA復号器904は、上記のUSACおよびHOAオーディオ復号技法を用いて、ビットストリームを復号する。ローカルレンダリング行列発生器906は、復号されたオーディオを再生しているシステムのローカルラウドスピーカー構成に少なくとも部分的に基づいて、1つまたは複数のレンダリング行列を生成する。また、ビットストリームは、符号化されたビットストリームから復号され得る1つまたは複数のレンダリング行列も含み得る。ローカル/シグナリングレンダリング行列決定器908は、オーディオデータを再生するときに、ローカルに生成されたレンダリング行列またはシグナリングされたレンダリング行列のいずれを使用すべきか決定する。ラウドスピーカーレンダラ910は、選択されたレンダリング行列に基づいて、1つまたは複数のスピーカーにオーディオを出力する。

0149

[0140]図20Bは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Bの例において、オーディオ復号デバイス900はさらに、効果行列発生器912を含む。効果行列発生器912は、ビットストリームから、基準画面サイズを決定し、対応するビデオデータを表示するために使用されるシステムに基づいて、表示窓サイズを決定し得る。基準画面サイズおよび表示窓サイズに基づいて、効果行列発生器912は、ローカル/シグナリングレンダリング行列決定器908によって選択されたレンダリング行列(R’)を修正するためのアンド効果行列(F)を生成し得る。図20Bの例において、ラウドスピーカーレンダラ910は、修正レンダリング行列(D)に基づいて、1つまたは複数のスピーカーにオーディオを出力し得る。図20Cの例において、オーディオ復号デバイス900は、HOADecoderConfig()において、フラグが、ScreenRelativeフラグ=1である場合には、効果のみをレンダリングするように構成され得る。

0150

[0141]本開示の技法によれば、効果行列発生器912は、また、画面回転応答して効果行列を生成し得る。効果行列発生器912は、たとえば、以下のアルゴリズムに従って効果行列を生成し得る。新たなマッピング関数のための一例のアルゴリズムは、擬似コードにおいて、以下の通りである。
%1.相対画面マッピングパラメータを計算する。

0151

0152

%2.基準画面の中心および表示窓の中心を見つける。

0153

0154

%3.画面関連マッピングを行う。

0155

0156

製作および表示窓の絶対位置ではなく、heightRatioおよびwidthRatioを使用するMPEG−H画面関連マッピング関数を用いて、均等に分布する空間位置のマッピングを行う。
%4.音場を回転させる。
(3.)において処理された空間位置をoriginalCenterからnewCenterに回転させる。
%5.HOA効果行列を計算する。
元の空間位置および処理された空間位置(4.から)を使用する。

0157

[0142]本開示の技法によれば、効果行列発生器912は、また、画面回転に応答して効果行列を生成し得る。効果行列発生器912は、たとえば、以下のアルゴリズムに従って効果行列を生成し得る。
1.相対画面マッピングパラメータを計算する:

0158

0159

ただし:

0160

0161

2.標準製作画面の中心座標およびローカル再現画面の中心を計算する:

0162

0163

3.画面関連マッピング:
heightRatioおよびwidthRatioを使用して画面関連マッピング関数を用いてΩ900を

0164

0165

にマッピングする。
4.位置を回転させる:
空間位置

0166

0167

を、回転カーネルRを用いて、productionCenter座標からlocalCenter座標に回転させ、結果として

0168

0169

を生成する。

0170

0171

軸回転ピッチ) z軸回転(ヨー)
5.HOA効果行列を計算する:

0172

0173

ただし、Ψmr900は、

0174

0175

から生成されるモード行列である。

0176

[0143]図20Cは、オーディオ復号デバイス900の別の例を示すブロック図である。図20Cの例において、オーディオ復号デバイス900は全般的に、図20Bの例の場合に先に説明されたのと同じように動作するが、図20Cの例において、効果行列発生器912はさらに、ズーム動作のための倍率を決定し、倍率情報、基準画面サイズおよび表示窓サイズに基づいて、ローカル/シグナリングレンダリング行列決定器908によって選択されたレンダリング行列(R’)を修正するための効果行列(F)を生成するように構成される。図20Cの例において、ラウドスピーカーレンダラ910は、修正レンダリング行列(D)に基づいて、1つまたは複数のスピーカーにオーディオを出力し得る。図20Cの例において、オーディオ復号デバイス900は、HOADecoderConfig()において、フラグが、ScreenRelativeHOAフラグ=1である場合には、効果のみをレンダリングするように構成され得る。

0177

[0144]フラグは、HOADecoderConfig()シンタックス表(表1として以下に示される)内のScreenRelativeHOAであり、画面関連HOAコンテンツが再現画面サイズに適応できるようにするのに十分である。公称の製作画面に関する情報は、メタデータオーディオ要素の一部として個別にシグナリングされ得る。

0178

0179

[0145]オーディオ再生システム16のような本開示のオーディオ再生システムは、基準画面の1つまたは複数のFOVパラメータ(たとえば、FOVパラメータ13’)と、表示窓の1つまたは複数のFOVパラメータとに基づいて、1つまたは複数のスピーカー(たとえば、スピーカー3)を介してHOAオーディオ信号をレンダリングすることによって、HOAオーディオ信号をレンダリングするように構成され得る。レンダリングは、たとえば、ユーザ起動ズーム動作に応答して得られた倍率にさらに基づくことができる。いくつかの例において、基準画面のための1つまたは複数のFOVパラメータは、基準画面の中心の場所と、表示窓の中心の場所とを含み得る。

0180

[0146]オーディオ再生システム16は、たとえば、HOAオーディオ信号を備える符号化されたオーディオデータのビットストリームを受信し得る。符号化されたオーディオデータは、対応するビデオデータに関連付けられ得る。オーディオ再生システム16は、そのビットストリームから、対応するビデオデータのための基準画面の1つまたは複数のFOVパラメータ(たとえば、FOVパラメータ13’)を取得し得る。

0181

[0147]また、オーディオ再生システム16は、対応するビデオデータを表示するための表示窓の1つまたは複数のFOVパラメータも取得し得る。表示窓のFOVパラメータは、ユーザ入力自動測定、デフォルト値などの任意の組合せに基づいて、ローカルで決定され得る。

0182

[0148]オーディオ再生システム16は、表示窓の1つまたは複数のFOVパラメータと、基準画面の1つまたは複数のFOVパラメータとに基づいて、オーディオレンダラ22から、符号化されたオーディオデータのためのレンダラを決定し、オーディオレンダラ22のうちの1つを修正し、修正されたレンダラと、符号化されたオーディオデータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングし得る。オーディオ再生システム16は、ズーム動作が実行されるときに倍率にさらに基づいて、オーディオレンダラ22のうちの1つを修正し得る。

0183

[0149]オーディオ再生システム16は、たとえば、必ずしも限定はされないが、1つまたは複数のスピーカーの空間的配置、および/または再生のために利用可能なスピーカーの数を含む、スピーカー構成に基づいて、符号化されたオーディオデータのためのレンダラを決定し得る。

0184

[0150]オーディオレンダラ22は、たとえば、符号化されたオーディオデータを再現フォーマットに変換するためのアルゴリズムを含み、および/またはレンダリングフォーマットを利用し得る。レンダリングフォーマットは、たとえば、行列、光線、ラインまたはベクトルのいずれかを含み得る。オーディオレンダラ22は、ビットストリームにおいてシグナリングされ得るか、再生環境に基づいて決定され得る。

0185

[0151]基準画面のための1つまたは複数のFOVパラメータは、基準画面のための1つまたは複数の方位角を含み得る。基準画面のための1つまたは複数の方位角は、基準画面のための左方位角および基準画面のための右方位角を含み得る。基準画面のための1つまたは複数のFOVパラメータは、その代わりに、またはそれに加えて、基準画面のための1つまたは複数の仰角を含み得る。基準画面のための1つまたは複数の仰角は、基準画面のための上仰角および基準画面のための下仰角を含み得る。

0186

[0152]表示窓のための1つまたは複数のFOVパラメータは、表示窓のための1つまたは複数の方位角を含み得る。表示窓のための1つまたは複数の方位角は、表示窓のための左方位角および表示窓のための右方位角を含み得る。表示窓のための1つまたは複数のFOVパラメータは、表示窓のための1つまたは複数の方位角を含み得る。表示窓のための1つまたは複数の仰角は、表示窓のための上仰角および表示窓のための下仰角を含み得る。

0187

[0153]オーディオ再生システム16は、基準画面の1つまたは複数のFOVパラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、スピーカーの方位角を修正するための方位角マッピング関数を決定し、方位角マッピング関数に基づいて、第1のスピーカーのための修正方位角を生成するために、1つまたは複数のスピーカーの第1のスピーカーのための方位角を修正することによって、オーディオレンダラ22のうちの1つまたは複数を修正し得る。

0188

[0154]方位角マッピング関数は、

0189

0190

を備える。
ただし、φ’は、第1のスピーカーのための修正方位角を表し、
φは第1のスピーカーのための方位角を表し、

0191

0192

は基準画面の左方位角を表し、

0193

0194

は基準画面の右方位角を表し、

0195

0196

は表示窓の左方位角を表し、

0197

0198

は表示窓の右方位角を表す。

0199

[0155]オーディオ再生システム16は、基準画面の1つまたは複数のFOVパラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、スピーカーの仰角を修正するための仰角マッピング関数を決定し、仰角マッピング関数に基づいて、1つまたは複数のスピーカーの第1のスピーカーのための仰角を修正することによって、レンダラを修正し得る。

0200

[0156]仰角マッピング関数は、

0201

0202

を備える。
ただし、θ’は、第1のスピーカーのための修正仰角を表し、
ただし、θは、第1のスピーカーのための仰角を表し、

0203

0204

は基準画面の上仰角を表し、

0205

0206

は基準画面の下仰角を表し、

0207

0208

は表示窓の上仰角を表し、

0209

0210

は表示窓の下仰角を表す。

0211

[0157]オーディオ再生システム16は、表示窓におけるユーザ起動ズーム機能に応答して、レンダラを修正し得る。たとえば、ユーザ起動ズーム機能に応答して、オーディオ再生システム16は、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し、基準画面の1つまたは複数のFOVパラメータと、ズームされた表示窓の1つまたは複数のFOVパラメータとに基づいて、レンダラを修正し得る。また、オーディオ再生システム16は、倍率と、表示窓の1つまたは複数のFOVパラメータとに基づいて、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し、ズームされた表示窓の1つまたは複数のFOVパラメータと、基準画面の1つまたは複数のFOVパラメータとに基づいて、スピーカーの方位角を修正するための方位角マッピング関数を決定し、方位角マッピング関数に基づいて、1つまたは複数のスピーカーの第1のスピーカーのための修正方位角を生成するために第1のスピーカーのための方位角を修正することによって、レンダラを修正し得る。

0212

[0158]方位角マッピング関数は、

0213

0214

備える。
ただし、φ’は、第1のスピーカーのための修正方位角を表し、
φは第1のスピーカーのための方位角を表し、

0215

0216

は基準画面の左方位角を表し、

0217

0218

は基準画面の右方位角を表し、

0219

0220

はズームされた表示窓の左方位角を表し、

0221

0222

はズームされた表示窓の右方位角を表す。

0223

[0159]また、オーディオ再生システム16は、倍率と、表示窓の1つまたは複数のFOVパラメータとに基づいて、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し、ズームされた表示窓の1つまたは複数のFOVパラメータと、基準画面の1つまたは複数のFOVパラメータとに基づいて、スピーカーの仰角を修正するための仰角マッピング関数を決定し、仰角マッピング関数に基づいて、1つまたは複数のスピーカーの第1のスピーカーのための修正仰角を生成するために第1のスピーカーのための仰角を修正することによって、レンダラを修正し得る。

0224

[0160]仰角マッピング関数は、

0225

0226

を備える。
ただし、θ’は、第1のスピーカーのための修正仰角を表し、
ただし、θは、第1のスピーカーのための仰角を表し、

0227

0228

は基準画面の上仰角を表し、

0229

0230

は基準画面の下仰角を表し、

0231

0232

はズームされた表示窓の上仰角を表し、

0233

0234

はズームされた表示窓の下仰角を表す。

0235

[0161]オーディオ再生システム16は、表示窓のための1つまたは複数の方位角と、倍率とに基づいて、ズームされた表示窓のための1つまたは複数の方位角を決定することによって、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し得る。オーディオ再生システム16は、表示窓のための1つまたは複数の仰角と、倍率とに基づいて、ズームされた表示窓の1つまたは複数の仰角を決定することによって、ズームされた表示窓の1つまたは複数のFOVパラメータを決定し得る。オーディオ再生システム16は、基準画面の1つまたは複数のFOVパラメータに基づいて、基準画面の中心を決定し、表示窓の1つまたは複数のFOVパラメータに基づいて、表示窓の中心を決定し得る。

0236

[0162]オーディオ再生システム16は、符号化されたオーディオデータのためのレンダラを決定し、表示窓の中心と、基準画面の中心とに基づいて、レンダラを修正し、修正されたレンダラと、符号化されたオーディオデータとに基づいて、1つまたは複数のスピーカーを介してHOAオーディオ信号をレンダリングするように構成され得る。

0237

[0163]オーディオ再生システム16は、以下のアルゴリズムに従って表示窓の中心を決定し得る。

0238

0239

ただし、「originalWidth」は基準画面の幅を表し、「originalHeight」は基準画面の高さを表し、「originalAngles.azi(1)」は基準画面の第1の方位角を表し、「originalAngles.azi(2)」は基準画面の第2の方位角を表し、「originalAngles.ele(1)」は基準画面の第1の仰角を表し、「originalAngles.ele(2)」は基準画面の第2の仰角を表し、「newWidth」は表示窓の幅を表し、「newHeight」は、表示窓の高さを表し、「newAngles.azi(1)」は表示窓の第1の方位角を表し、「newAngles.azi(2)」は表示窓の第2の方位角を表し、「newAngles.ele(1)」は表示窓の第1の仰角を表し、「newAngles.ele(2)」は表示窓の第2の仰角を表し、「originalCenter.azi」は基準画面の中心の方位角を表し、「originalCenter.ele」は基準画面の中心の仰角を表し、「newCenter.azi」は表示窓の中心の方位角を表し、「newCenter.ele」は表示窓の中心の仰角を表す。

0240

[0164]オーディオ再生システム16は、音場を基準画面の中心から表示窓の中心に回転させ得る。

0241

[0165]HOAオーディオ信号は、MPEG−H 3D準拠ビットストリームの一部とし得る。表示窓は、たとえば、再現画面、または再現画面の一部とし得る。また、表示窓はローカル画面に対応し得る。基準画面は、たとえば、製作画面とし得る。

0242

[0166]オーディオ再生システム16は、基準画面の1つまたは複数のFOVパラメータのための値がデフォルト値に対応することを指示するシンタックス要素を受信し、および/または基準画面の1つまたは複数のFOVパラメータのための値が、HOAオーディオ信号を備えるビットストリーム内に含まれるシグナリング値に対応することを指示するシンタックス要素を受信するように構成され得る。

0243

[0167]図21は、本開示において説明される画面に基づく適応技法を実行する際のオーディオ復号デバイスの一例の動作を示す流れ図である。図21の技法は、コンテンツコンシューマデバイス14に関して説明されるが、図21の技法が、そのようなデバイスには必ずしも制限されず、他のタイプのオーディオレンダリングデバイスによって実行され得ることは理解されたい。コンテンツコンシューマデバイス14が、表示窓のための1つまたは複数のFOVパラメータと、基準画面のための1つまたは複数のFOVパラメータとを取得する(1000)。コンテンツコンシューマデバイス14は、たとえば、HOAオーディオ信号を含むビットストリームから、基準画面のための1つまたは複数のFOVパラメータを取得し得る。コンテンツコンシューマデバイス14は、そして、ローカルディスプレイのサイズのようなローカルディスプレイの特性に基づいて、表示窓のための1つまたは複数のFOVパラメータをローカルに取得し得る。また、FOVパラメータは、ディスプレイの向き、ビデオを表示するために使用されるズームの量、および他のそのような特性のような特性に基づく場合もある。基準画面の1つまたは複数のFOVパラメータと、表示窓の1つまたは複数のFOVパラメータとに基づいて、コンテンツコンシューマデバイス14は、1つまたは複数のスピーカーを介して、HOAオーディオ信号をレンダリングする(1020)。

0244

[0168]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオディオステムと、ゲームオーディオコーディング/レンダリングエンジンと、配信システムとを含み得る。

0245

[0169]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、(たとえば、2.0、5.1、および7.1の)チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、DAWを使用することなどによって、(たとえば、2.0、および5.1の)チャネルベースオーディオコンテンツを出力することができる。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの1つまたは複数のコーデック(たとえば、AAC、AC3、Dolby True HD、Dolby Digital Plus、およびDTS Master Audio)を受信し符号化することができる。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、HOAオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、TV、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

0246

[0170]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、HOAオーディオフォーマットを使用して、それらの出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、HOAオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム16など、汎用的なオーディオ再生システムにおいて(すなわち、5.1、7.1などの特定の構成を必要とすることとは対照的に)再生され得る。

0247

[0171]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および/またはワイヤレス獲得デバイス(たとえば、Eigenマイクロフォン)、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス(たとえば、スマートフォンおよびタブレット)を含み得る。いくつかの例では、有線および/またはワイヤレス獲得デバイスは、有線および/またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

0248

[0172]本開示の1つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および/もしくはワイヤレス獲得デバイス、ならびに/またはオンデバイスサラウンドサウンドキャプチャ(たとえば、モバイルデバイスに統合された複数のマイクロフォン)を介して、音場を獲得することができる。モバイルデバイスは次いで、再生要素のうちの1つまたは複数による再生のために、獲得された音場をHOA係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント(たとえば、会合会議、劇、コンサートなど)を録音し(その音場を獲得し)、録音をHOA係数へとコーディングすることができる。

0249

[0173]モバイルデバイスはまた、HOAコーディングされた音場を再生するために、再生要素のうちの1つまたは複数を利用することができる。たとえば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素のうちの1つまたは複数に信号を出力することができ、このことは再生要素のうちの1つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、1つまたは複数のスピーカー(たとえば、スピーカーアレイサウンドバーなど)に信号を出力するために、ワイヤレスおよび/またはワイヤレス通信チャネルを利用することができる。別の例として、モバイルデバイスは、1つもしくは複数のドッキングステーションおよび/または1つもしくは複数のドッキングされたスピーカー(たとえば、スマート自動車および/またはスマート住宅の中のサウンドシステム)に信号を出力するために、ドッキング解決手段を利用することができる。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用することができる。

0250

[0174]いくつかの例では、特定のモバイルデバイスは、3D音場を獲得することと、より後の時間に同じ3D音場を再生することの両方を行うことができる。いくつかの例では、モバイルデバイスは、3D音場を獲得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(たとえば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信することができる。

0251

[0175]本技法が実行され得るまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、HOA信号の編集をサポートし得る1つまたは複数のDAWを含み得る。たとえば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(たとえば、機能する)ように構成され得る、HOAプラグインおよび/またはツールを含み得る。いくつかの例では、ゲームスタジオは、HOAをサポートする新しいステムフォーマットを出力することができる。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングすることができるレンダリングエンジンに、コーディングされたオーディオコンテンツを出力することができる。

0252

[0176]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、3D音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Eigenマイクロフォンに関して実行され得る。いくつかの例では、Eigenマイクロフォンの複数のマイクロフォンは、約4cmの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス20は、マイクロフォンから直接オーディオビットストリーム21を出力するために、Eigenマイクロフォンに統合され得る。

0253

[0177]別の例示的なオーディオ獲得状況は、1つまたは複数のEigenマイクロフォンなど、1つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図3のオーディオ符号化デバイス20などのオーディオエンコーダを含み得る。

0254

[0178]モバイルデバイスはまた、いくつかの場合には、3D音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、X、Y、Zのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図3のオーディオ符号化デバイス20などのオーディオエンコーダを含み得る。

0255

[0179]耐衝撃性ビデオキャプチャデバイスは、3D音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動(たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など)を表す3D音場をキャプチャすることができる。

0256

[0180]本技法はまた、3D音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、1つまたは複数のアクセサリが追加されている。たとえば、Eigenマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの3D音場をキャプチャすることができる。

0257

[0181]本開示で説明される本技法の様々な態様を実行することができる例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として3D音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してオーディオ復号デバイス24に結合され得る。本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

0258

[0182]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、5.1スピーカー再生環境、2.0(たとえば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

0259

[0183]本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合)、本開示の技法は、再生が6.1スピーカー再生環境で達成され得るように、レンダーが他の6つのスピーカーとともに補償することを可能にする。

0260

[0184]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見ることができる。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が獲得され得(たとえば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周りに配置され得)、3D音場に対応するHOA係数が取得されデコーダに送信され得、デコーダがHOA係数に基づいて3D音場を再構成して、再構成された3D音場をレンダラに出力することができ、レンダラが再生環境のタイプ(たとえば、ヘッドフォン)についての指示を取得し、再構成された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングすることができる。

0261

[0185]上記で説明された様々な場合の各々において、オーディオ符号化デバイス20は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス20が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの場合には、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ符号化デバイス20が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

0262

[0186]1つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の1つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベース処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび/またはデータ構造を取り出すために、1つまたは複数のコンピュータあるいは1つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

0263

[0187]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス24は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス24が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの場合には、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ復号デバイス24が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

0264

[0188]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM登録商標)、CD−ROMもしくは他の光ディスクストレージ磁気ディスクストレージ、もしくは他の磁気記憶デバイスフラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、一方、ディスク(disc)は、データをレーザー光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

0265

[0189]命令は、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ特定用途向け集積回路ASIC)、フィールドプログラマブルゲートアレイFPGA)、あるいは他の同等の集積回路またはディスクリート論理回路などの1つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび/またはソフトウェアモジュール内で提供され得る。また、本技法は、1つもしくは複数の回路または論理要素で十分に実装され得る。

0266

[0190]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)もしくはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記の1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

0267

[0191]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ