図面 (/)

技術 オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法

出願人 フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー.ファオ
発明者 ディスヒサッシャ
出願日 2009年3月10日 (10年4ヶ月経過) 出願番号 2011-500074
公開日 2011年5月6日 (8年2ヶ月経過) 公開番号 2011-514562
状態 特許登録済
技術分野 音声の分析・合成 圧縮、伸長・符号変換及びデコーダ
主要キーワード 帯域通過領域 微分装置 パワー集中 位相積分器 打撃効果 フィルタチャネル リリース期間 中心周波数値
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2011年5月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

オーディオ信号パラメータ化された表現に変換するための装置は、解析結果を得るためにオーディオ信号の部分を解析するための信号解析器(102)と、解析結果に基づいて複数の帯域通過フィルタの情報を推定するための帯域通過推定器(106)であって、複数の帯域通過フィルタに関する情報は、オーディオ信号の部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに帯域通過フィルタの中心周波数に依存する、帯域通過推定器(106)と、複数の帯域通過フィルタに関する情報を用いてオーディオ信号の部分のための複数の帯域通過フィルタの帯域ごとに振幅変調(112)、周波数変調(114)または位相変調を推定するための変調推定器(110)と、振幅変調に関する情報、周波数変調若しくは位相変調に関する情報またはオーディオ信号の部分のための複数の帯域通過フィルタに関する情報を送信し、格納しまたは修正するための出力インターフェース(116)とを含む。

概要

背景

ボコーダの1つの種類は、位相ボコーダである。位相ボコーダに関するチュートリアルは、出版物、Mark Dolson、「位相ボコーダ(The Phase Vocoder):チュートリアル」、Computer Music Journal、1986年、第10巻、第4号、14−27頁である。さらなる出版物は、L. LarocheおよびM. Dolson、「ピッチシフト、ハーモナイジングおよび他の外来影響のための新しい位相ボコーダ技術(New phase vocoder techniques for pitch−shifting, harmonizing andotherexotic effects)」、proceedings 1999、IEEE workshop on applications of signal processing to audio and acoustics、ニューヨークニューパルツ、1999年10月17日−20日、91−94頁である。

図5−図6は、位相ボコーダのための異なる実施およびアプリケーションを示す。図5は、位相ボコーダのフィルタバンク実施を示し、そこにおいて、オーディオ信号は入力500に提供され、さらに、出力510で、合成されたオーディオ信号が得られる。特に、図5に示されるフィルタバンクのそれぞれチャネルは、帯域通過フィルタ501およびその後に接続された発振器502を含む。全てのチャネルからの全ての発振器502の出力信号は、加算器として示される結合器503を介して結合される。結合器503の出力で、出力信号510が得られる。

それぞれのフィルタ501は、一方では振幅信号A(t)、および、他方では周波数信号f(t)を提供するように実施される。振幅信号および周波数信号は、時間信号である。振幅信号は、時間にわたってフィルタ帯域を有する振幅進展を示し、さらに、周波数信号は、時間にわたってフィルタ出力信号周波数の進展を示す。

フィルタ501の概略実施が図6に示される。入力信号は、2つの平行パスを経由する。1つのパスにおいて、信号は、551で示されるように、1.0の振幅および帯域通過フィルタの中心周波数に等しい周波数を有する正弦波乗算される。他のパスにおいて、信号は、551で示されるように、同じ振幅および周波数の余弦波で乗算される。このように、2つの平行パスは、乗算波形位相を除いて同一である。次に、それぞれパスにおいて、乗算の結果が低域通過フィルタ553に供給される。乗算演算自体は、単純なリングモジュレーションとしても知られている。一定の周波数の正弦(または余弦)波をどんな信号に乗算することも、正弦波の周波数を加算することおよび減算することの両方によって元の信号において全ての周波数成分を同時にシフトする効果を有する。この結果が適切な低域通過フィルタを通過する場合、低周波部分だけが残る。この演算シーケンスも、ヘテロダイニングとして知られている。このヘテロダイニングは、2つの平行パスのそれぞれにおいて実行されるが、1つのパスが正弦波を用いて周波数変換処理を施すので、他のパスは余弦波を用いるとともに、2つのパスにおいて生じる周波数変換が施された信号は、位相が90度ずれている。したがって、上側の低域通過フィルタ553は、直角信号554を提供し、下側のフィルタ553は、同相信号を提供する。これらの2つの信号は、I信号およびQ信号として知られ、直角表現から振幅/位相表現を生成する座標変換器556に送られる。

振幅信号は、557で出力され、図5からのA(t)に対応する。位相信号は、位相アンラッパー(phase unwrapper)558に入力される。エレメント558の出力で、線形的に増加する位相値以外の0および360度間の位相値が存在しない。この「アンラップされた(unwrappered)」位相値は、位相/周波数変換器559に入力され、それは、例えば、現在の瞬間のための周波数値を得るために、現在の瞬間での位相から先行する瞬間での位相を減算する位相差装置として実施され得る。

この周波数値は、出力560で時間的に変化する周波数値を得るために、フィルタチャネルiの一定の周波数値fiに加算される。

出力560での周波数値はDC直流部分fiおよび変化部分を有し、それは「周波数変動(frequency fluctuation)」としても知られ、それによって、フィルタチャネルにおいて信号の現在の周波数は中心周波数fiから外れる。

このように、図5および図6に示されるように、位相ボコーダは、スペクトル情報および時間情報の分離を提供する。スペクトル情報は、周波数fiで特定のフィルタバンクチャネルの位置に含まれ、時間情報は、周波数変動においてさらに時間にわたって振幅にある。

位相ボコーダの別の言い方は、フーリエ変換解釈である。それは、時間において有限持続時間ウィンドウにわたって取られる一連オーバーラップするフーリエ変換からなる。フーリエ変換解釈において、時間において一点で、異なるフィルタ帯域または周波数ビン(frequency bins)の全てのための振幅値および位相値が焦点となる。フィルタバンク解釈において、再合成は、発振器ごとに時間的に変化する振幅および周波数制御を有する加算合成の古典的な例として見られるが、フーリエ実施において、合成は、実数および虚数形式に逆に変換することによってさらに連続する逆フーリエ変換オーバーラップ加算することによって達成される。フーリエ解釈において、位相ボコーダにおけるフィルタ帯域の数は、フーリエ変換における周波数点の数である。同様に、個々のフィルタの周波数において等しい間隔は、フーリエ変換の基本的な特徴と認められ得る。一方、フィルタ通過帯域の形状、すなわち、帯域エッジでのカットオフの峻度は、変換を計算する前に適用されるウィンドウ関数の形状によって決定される。特定の特徴形状、例えばハミングウィンドウのために、フィルタカットオフの峻度は、ウィンドウの持続時間に正比例して増加する。

位相ボコーダ解析の2つの異なる解釈が帯域通過フィルタのバンクの実施だけに適用されるということを知ることは役立つ。これらのフィルタの出力が時間的に変化する振幅および周波数として表される演算は、両方の実施のために同じである。位相ボコーダの基本的な狙いは、スペクトル情報から時間的情報を分離することである。演算戦略は、信号を多くのスペクトル帯域に分割しさらにそれぞれの帯域において時間的に変化する信号を特徴付けることである。

2つの基本演算は、特に重要である。これらの演算は、時間スケーリングおよびピッチ転移である。単に、記録されたサウンドをより低いサンプルレート再生することによって、記録されたサウンドの速度を落とすことは常に可能である。これは、テープ録音をより低い再生速度で再生することに類似している。しかしながら、この種の安易な時間拡大は、時間拡大と同じファクタによって同時にピッチを低下する。そのピッチを変えることなくサウンドの時間的発生を遅くすることは、時間的およびスペクトル情報の明確な分離を必要とする。上述のように、これは、まさに位相ボコーダがしようと試みることである。図5における時間的に変化する振幅信号A(t)および周波数信号f(t)を引き伸ばすことは、個々の発振器の周波数を全く変えないが、それは複合サウンドの時間的発生を遅くする。結果は、元のピッチを有する時間拡大されたサウンドである。時間スケーリングのフーリエ変換観は、サウンドを時間拡大するために、逆FFTが解析FFTより大きく離れて間隔を簡単に置かれ得るということである。その結果、スペクトル変化は、このアプリケーションにおいて元のものに比べて合成されたサウンドにおいてゆっくり発生し、さらに、位相は、まさにサウンドが時間拡大される同じファクタによって再スケーリングされる。

他のアプリケーションは、ピッチ転移である。位相ボコーダがそのピッチを変えることのないサウンドの時間的発生を変えるために用いられ得るので、逆のことをすること、すなわち持続時間を変えることなくピッチを変えることは、可能であるべきでもある。これは、所望のピッチ変化ファクタを用いて時間スケーリングし次に結果として生じるサウンドを誤ったサンプルレートで再生することによって行われ、または、所望のファクタでダウンサンプリングしさらに未変化レートで再生することである。例えば、ピッチを1オクターブ上げるために、サウンドは、最初に2倍に時間拡大され、そして、時間拡大は、元のサンプルレートの2倍で再生される。

ボコーダ(または「VODER」)は、人間のスピーチを生成するための手動操作合成装置としてダッドリー(Dudley)によって発明された(非特許文献2)。相当な時間の後に、その作動原理は、いわゆる位相ボコーダに拡張された(非特許文献3)(非特許文献4)。位相ボコーダは、オーバーラップする短時間DFTスペクトルに、したがって、一定の中心周波数を有する1セットのサブバンドフィルタに作用する。ボコーダは、オーディオファイルを操作するための基本原理として広い受け入れを見つけた。例えば、時間引き伸ばしおよびピッチ転移のようなオーディオ効果が、ボコーダによって容易に達成される(非特許文献5)。その後、この技術に対する多くの修正および改良が発表された。特に、固定周波数を有することの解析フィルタ制約は、例えば、「ストレイト(STRAIGHT)」ボコーダにおいてマッピング導出する基本周波数(「f0」)を加算することによって減少された(非特許文献6)。しかしながら、一般的な使用事例は、スピーチ符号化/処理のままであった。

オーディ処理地域のために興味がある他のエリアは、変調された成分へのスピーチ信号の分解であった。それぞれの成分は、キャリア振幅変調(AM)および何らかの周波数変調FM)部分からなる。そのような分解の信号適応方法は、例えば、1セットの信号適応帯域通過フィルタの使用を提案する非特許文献7に発表された。非特許文献8において、「正弦曲線ラスノイズ(sinusoidsplus noise)」パラメトリックコーダと組み合わせてAM情報を利用するアプローチ提示された。他の分解方法は、いわゆる「フェーム(FAME)」戦略を用いる非特許文献9に発表された:ここでは、スピーチ信号は、それらのAMおよびFM内容をその後に抽出するために帯域通過フィルタを用いて4つの帯域に分解された。また、ごく最近の出版物は、AM情報(サブバンドエンベロープ)だけからオーディオ信号を再生することを意図し、さらに、FMを主に含む関連した位相情報回復のための反復方法を提案する(非特許文献10)。

ここに提示される我々のアプローチは、一般的なオーディオ信号したがって音楽もを含む処理をターゲットにしている。それは、位相ボコーダと類似しているが、それぞれ関連したAMおよびFMを有する1セットのサブバンドキャリア周波数への信号の依存する知覚的動機付けられたサブバンド分解を実行するために修正される。我々は、この分解が知覚的に意味がありさらにそのエレメントが直接的な方法で解釈可能であると指摘したく、これにより、分解の成分に関する各種の変調処理が可能になる。

図9b(上部および中央部のプロット)において、両方の信号の時間信号およびヒルベルトエンベロープが示される。第2信号と対照的に、エンベロープのゼロで、第1の信号においてπの位相跳躍に留意されたい。図9aは、2つの信号のパワースペクトル密度プロットを表示する(上部および中央部のプロット)。

これらの信号がそれらのスペクトル内容においてかなり異なるにもかかわらず、それらの支配的な知覚的なキュー、すなわちCOGによって表される「平均(mean)」周波数および振幅エンベロープは、類似している。これは、図9aおよび図9b(下部のプロット)に示されるように、COGに集中する帯域制限されたスペクトル領域に関して、それらに知覚的に相互の代替物を作る。同じ原理は、より複合的な信号に対して近似的にまだ当てはまる

一般的に、キャリア、振幅変調および周波数変調情報を含む1セットの成分のそれぞれへの広帯域信号を分解する変調解析合成システムは、この作業が一般に不良設定問題であるので、多自由度を有する。複合オーディオスペクトルのサブバンド振幅エンベロープを修正しその後に再合成のためのそれらの未修正の位相でそれらを再結合する方法は、これらの手順がサウンドの最終的なレシーバすなわち人間のに留意を払わないので、アーチファクトをもたらす。

さらに、細かい周波数分解能を得るために、非常に長いFFTすなわち非常に長いウィンドウを適用することは、同時に時間分解能を低減する。一方、一時的な信号は、高い周波数分解能を必要としないが、高い時間分解能を必要とし、その理由は、特定の瞬間で、帯域通過信号は、「垂直コヒーレンス(vertical coherence)」としても知られている、強い相互相関を呈するからである。この専門用語において、水平軸時間変数が用いられさらに垂直軸に周波数変数が用いられる、時間スペクトログラムプロットをイメージする。したがって、非常に高い周波数分解能を有する一時的な信号を処理することは、低い時間分解能をもたらし、同時に、垂直コヒーレンスのほぼ完全な消失を意味する。また、サウンドの最終的なレシーバすなわち人間の耳は、そのようなモデルにおいて考慮されない。

出版物(非特許文献22)は、オーディオ信号から正確な正弦波パラメータを抽出するための解析方法論を開示する。その方法は、修正されたボコーダパラメータ推定正弦波モデリングにおいて現在用いられるピーク検出アルゴリズムと結合する。このシステムは、フレームごとに入力を処理し、正弦波解析モデルのようなピーク検索するが、FFTドメインにおいて不鮮明になったピークが処理されるボコーダチャネルを動的に選択する。このように、フレーム内の周波数変化の正弦曲線の周波数軌道は、正確にパラメータ化され得る。スペクトル構文解析テップにおいて、振幅FFTにおけるピークおよび谷が確認される。ピークの隔離において、スペクトルは興味があるピークの外側でゼロにセットされ、さらに、ピークの正および負の周波数バージョンの両方が保持される。次に、このスペクトルのヒルベルト変換が計算され、その後、元のIFFTおよびヒルベルト変換されたスペクトルが、互いに位相が90度ずれている2つの時間ドメイン信号を得るために計算される。信号は、ボコーダ解析に用いられる解析信号を得るために用いられる。スプリアスピークは、検出され得り、後でノイズとしてモデル化され、または、モデルから除外される。

また、スペクトルにわたって人間の耳の変化する帯域幅のような、すなわち、例えばスペクトルのより低い部分において小さい帯域幅およびスペクトルのより高い部分においてより大きい帯域幅などような、知覚基準は、説明がつかない。さらに、人間の耳の重要な特徴は、図9a、図9bおよび図9cと関連して述べられるように、人間が小さい周波数差を有する2つの安定なトーンを聞かないが、変化する振幅を有する1つのトーンを知覚するように、人間の耳が人間の耳の臨界帯域幅に対応する帯域幅内の正弦波トーンを結合し、そこにおいて、このトーンの周波数は、元のトーンの周波数間位置付けられる。この効果は、人間の耳の臨界帯域幅が増加するときにますます増加する。

さらに、スペクトルにおいて臨界帯域位置決めは、一定でないが、信号に依存する。人間の耳がスペクトルに応じて臨界帯域の中心周波数を動的に選択することは、心理音響学によって発見された。例えば、人間の耳が大きいトーンを知覚するときに、それから、臨界帯域は、この大きいトーンの周囲に集中する。後で、大きいトーンが異なる周波数で知覚されるときに、それから、人間の知覚が時間にわたって信号適応できるだけでなく、低い周波数部分において高いスペクトル分解能を有しかつ低いスペクトル分解能すなわちスペクトルのより高い部分において大きい帯域幅を有するフィルタも有するように、人間の耳は、この異なる周波数の周囲に臨界帯域を位置付ける。

概要

オーディオ信号をパラメータ化された表現に変換するための装置は、解析結果を得るためにオーディオ信号の部分を解析するための信号解析器(102)と、解析結果に基づいて複数の帯域通過フィルタの情報を推定するための帯域通過推定器(106)であって、複数の帯域通過フィルタに関する情報は、オーディオ信号の部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに帯域通過フィルタの中心周波数に依存する、帯域通過推定器(106)と、複数の帯域通過フィルタに関する情報を用いてオーディオ信号の部分のための複数の帯域通過フィルタの帯域ごとに振幅変調(112)、周波数変調(114)または位相変調を推定するための変調推定器(110)と、振幅変調に関する情報、周波数変調若しくは位相変調に関する情報またはオーディオ信号の部分のための複数の帯域通過フィルタに関する情報を送信し、格納しまたは修正するための出力インターフェース(116)とを含む。a

目的

それぞれのフィルタ501は、一方では振幅信号A(t)、および、他方では周波数信号f(t)を提供する

効果

実績

技術文献被引用数
3件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

オーディオ信号パラメータ化された表現に変換するための装置であって、解析結果(104)を得るために前記オーディオ信号の部分を解析するための信号解析器(102)、前記解析結果(104)に基づいて複数の帯域通過フィルタの情報(108)を推定するための帯域通過推定器(106)であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存する、帯域通過推定器(106)、前記複数の帯域通過フィルタに関する前記情報(108)を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調周波数変調または位相変調を推定するための変調推定器(110)、および前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するための出力インターフェース(116)を含む、装置。

請求項2

前記信号解析器(102)は、前記部分(132)の周波数にわたって振幅またはパワー分布に関して前記部分を解析するように作動する、請求項1に記載の装置。

請求項3

前記信号解析器(102)は、前記帯域(122)の中心周波数に応じて周波数帯域においてオーディオ信号パワー分布を解析するように作動する、請求項1または請求項2に記載の装置。

請求項4

前記帯域通過推定器(106)は、前記複数の帯域通過フィルタのための前記情報を推定するように作動し、より高い中心周波数を有する帯域通過フィルタの帯域幅は、より低い周波数を有する帯域通過フィルタの帯域幅より大きい、先行する請求項のいずれかに記載の装置。

請求項5

前記中心周波数および前記帯域通過間の依存関係は、どんな2つの周波数隣接する中心周波数も対数スケールで互いに対して周波数において類似した距離を有するということである、先行する請求項のいずれかに記載の装置。

請求項6

前記信号解析器(102)は、前記信号部分(122)のスペクトル表現のための重心位置関数を計算するように作動し、前記重心位置関数において所定のイベントは、前記複数の帯域通過フィルタの中心周波数のための候補値を示し、さらに前記帯域通過推定器(106)は、前記候補値(124)に基づいて前記中心周波数を決定するように作動する、先行する請求項のいずれかに記載の装置。

請求項7

前記信号解析器(102)は、帯域のための重心位置値を計算するように作動する、請求項1ないし請求項6のいずれかに記載の装置。

請求項8

前記信号解析器(102)は、未処理の重心位置値を得るために、帯域の前半の負のパワー値加算しさらに帯域の後半の正のパワー値を加算するように作動し、前記未処理の重心位置値は、平滑化された重心位置値を得るために時間にわたって平滑化され、さらに前記帯域通過フィルタ推定器(106)は、時間にわたって前記平滑化された重心位置値のゼロ交差の周波数を決定するように作動する、請求項1ないし請求項7のいずれかに記載の装置。

請求項9

前記帯域通過推定器(106)は、より低い始値からより高い終値までのスペクトルがスペクトルホールなしにカバーされるように、前記帯域通過フィルタの前記中心周波数または前記帯域幅の前記情報を決定するように作動し、前記より低いスタート値および前記より高いエンド値は、少なくとも5つの帯域通過フィルタ帯域幅を含む、先行する請求項のいずれかに記載の装置。

請求項10

前記帯域通過推定器(106)は、知覚スケールに関して近似的に等しい帯域通過中心周波数間隔が生じるような方法でゼロ交差の周波数が修正されるように、前記情報を決定するように作動し、前記帯域通過中心周波数および重心位置関数においてゼロ交差の周波数間の距離は、最小化される、請求項1、請求項8または請求項9に記載の装置。

請求項11

前記変調推定器(110)は、前記帯域通過推定器(106)によって提供されるように、帯域通過信号のための帯域通過フィルタの前記中心周波数に関する前記情報または前記帯域幅に関する前記情報によって決定される帯域通過を用いて前記オーディオ信号から帯域通過信号を抽出するように作動する、先行する請求項のいずれかに記載の装置。

請求項12

前記変調推定器(110)は、前記帯域通過フィルタの前記帯域において前記周波数変調または位相変調に関する情報を得るために、帯域通過信号をそれぞれの帯域通過の中心周波数を有するキャリアダウンミックスする(110d)ように作動する、先行する請求項のいずれかに記載の装置。

請求項13

前記変調推定器(110)は、前記帯域通過フィルタの前記帯域において前記オーディオ信号の前記振幅変調に関する情報を得るために、前記帯域通過のための帯域通過信号の解析信号(110b)を形成しさらに前記解析信号の振幅を計算するように作動する、先行する請求項のいずれかに記載の装置。

請求項14

オーディオ信号をパラメータ化された表現に変換する方法であって、解析結果(104)を得るために前記オーディオ信号の部分を解析するステップ(102)、前記解析結果(104)に基づいて複数の帯域通過フィルタの情報(108)を推定するステップ(106)であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存する、ステップ(106)、前記複数の帯域通過フィルタに関する前記情報(108)を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するステップ(110)、および前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するステップ(116)を含む、方法。

請求項15

オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記帯域通過フィルタの前記中心周波数に関連し、前記装置は、前記時間的に変化する中心周波数を修正しまたは前記振幅変調、位相変調若しくは周波数変調情報を修正しさらに修正されたパラメータ化された表現を生成するための修正器(160)を含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記帯域通過フィルタ中心周波数に依存する、装置。

請求項16

前記修正器(160)は、楽曲キーモードを例えばメジャーからマイナーにまたはその逆に変えるために、一定のファクタとの乗算によってまたは選択されたキャリア周波数を変えることによって、すべてのキャリア周波数を修正するように作動する、請求項15に記載の装置。

請求項17

前記修正器(160)は、粗い構造および細かい構造への非線形分解によってさらに前記粗い構造または前記細かい構造を修正することによって、前記振幅変調情報、前記位相変調情報または前記周波数変調情報を修正するように作動する、請求項15または請求項16に記載の装置。

請求項18

前記修正器(160)は、ターゲット多項式関数に基づいて多項式フィットを計算しさらに前記ターゲット多項式のための係数を用いて前記振幅変調情報、前記位相変調情報または前記周波数変調情報を表すように作動する、請求項17に記載の装置。

請求項19

オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記帯域通過フィルタの前記中心周波数に関連し、前記装置は、前記時間的に変化する中心周波数を修正するステップ(160)または前記振幅変調、位相変調若しくは周波数変調情報を修正するステップさらに修正されたパラメータ化された表現を生成するステップを含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記帯域通過フィルタ中心周波数に依存する、装置。

請求項20

オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記振幅変調情報に基づいて振幅変調成分を合成するための振幅変調合成器(201)、キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて位相情報瞬時周波数を合成するための周波数変調または位相変調合成器、隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号(204)を表す出力信号を生成するために発信器(203)、および前記帯域通過フィルタチャネルからの信号を結合しさらに前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号(206)を生成するための結合器(205)を含む、装置。

請求項21

前記振幅変調合成器(201)は、前記振幅変調成分を得るために振幅変調情報の後のブロックをオーバーラップしさらに重み付け加算するためのオーバーラップ加算器(201a)を含み、または前記周波数変調または位相変調合成器(202)は、合成された周波数情報を得るために、周波数変調若しくは位相変調情報の2つの後のブロックまたは前記周波数変調情報および帯域通過信号のための前記キャリア周波数の結合表現を重み付け加算するためのオーバーラップ加算器を含む、請求項20に記載の装置。

請求項22

前記周波数変調または位相変調合成器(202)は、前記合成された周波数情報を積分しさらに前記発振器(203)の出力信号の以前のブロックからのスペクトル近接における成分の位相から導出される位相ターム(202d、202c)を前記合成された周波数情報に加算するための積分器(202b)を含む、請求項21に記載の装置。

請求項23

前記発振器(203)は、加算演算(202c)によって得られる位相信号によって供給される正弦波発振器である、請求項22に記載の装置。

請求項24

前記発振器(203)は、前記帯域のための前記振幅変調成分を用いて前記正弦波発振器の出力信号を変調するための変調器(203b)を含む、請求項23に記載の装置。

請求項25

前記振幅変調合成器(201)は、ノイズを加算するためのノイズ加算器(160f)を含み、前記ノイズ加算器は、送信されたサイド情報を用いて制御され、固定的にセットされまたは局所解析によって制御される、請求項20に記載の装置。

請求項26

オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記振幅変調情報に基づいて振幅変調成分を合成するステップ(201)、キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて瞬時周波数または位相情報を合成するステップ(202)、隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号(204)を表す出力信号を生成するステップ(203)、および前記帯域通過フィルタチャネルからの信号を結合するステップ(205)および前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号を生成するステップを含む、方法。

請求項27

オーディオ信号のためのパラメトリック表現であって、前記パラメトリック表現は、オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報に関連し、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示す、パラメトリック表現。

請求項28

コンピュータ上で実行されるときに、請求項14、請求項19または請求項26に記載の方法を実行するためのコンピュータプログラム

技術分野

0001

本発明は、オーディオ符号化に関し、特に、ボコーダにおいて適用されるパラメータ化されたオーディオ符号化スキームに関する。

背景技術

0002

ボコーダの1つの種類は、位相ボコーダである。位相ボコーダに関するチュートリアルは、出版物、Mark Dolson、「位相ボコーダ(The Phase Vocoder):チュートリアル」、Computer Music Journal、1986年、第10巻、第4号、14−27頁である。さらなる出版物は、L. LarocheおよびM. Dolson、「ピッチシフト、ハーモナイジングおよび他の外来影響のための新しい位相ボコーダ技術(New phase vocoder techniques for pitch−shifting, harmonizing andotherexotic effects)」、proceedings 1999、IEEE workshop on applications of signal processing to audio and acoustics、ニューヨークニューパルツ、1999年10月17日−20日、91−94頁である。

0003

図5図6は、位相ボコーダのための異なる実施およびアプリケーションを示す。図5は、位相ボコーダのフィルタバンク実施を示し、そこにおいて、オーディオ信号は入力500に提供され、さらに、出力510で、合成されたオーディオ信号が得られる。特に、図5に示されるフィルタバンクのそれぞれチャネルは、帯域通過フィルタ501およびその後に接続された発振器502を含む。全てのチャネルからの全ての発振器502の出力信号は、加算器として示される結合器503を介して結合される。結合器503の出力で、出力信号510が得られる。

0004

それぞれのフィルタ501は、一方では振幅信号A(t)、および、他方では周波数信号f(t)を提供するように実施される。振幅信号および周波数信号は、時間信号である。振幅信号は、時間にわたってフィルタ帯域を有する振幅進展を示し、さらに、周波数信号は、時間にわたってフィルタ出力信号周波数の進展を示す。

0005

フィルタ501の概略実施が図6に示される。入力信号は、2つの平行パスを経由する。1つのパスにおいて、信号は、551で示されるように、1.0の振幅および帯域通過フィルタの中心周波数に等しい周波数を有する正弦波乗算される。他のパスにおいて、信号は、551で示されるように、同じ振幅および周波数の余弦波で乗算される。このように、2つの平行パスは、乗算波形位相を除いて同一である。次に、それぞれパスにおいて、乗算の結果が低域通過フィルタ553に供給される。乗算演算自体は、単純なリングモジュレーションとしても知られている。一定の周波数の正弦(または余弦)波をどんな信号に乗算することも、正弦波の周波数を加算することおよび減算することの両方によって元の信号において全ての周波数成分を同時にシフトする効果を有する。この結果が適切な低域通過フィルタを通過する場合、低周波部分だけが残る。この演算シーケンスも、ヘテロダイニングとして知られている。このヘテロダイニングは、2つの平行パスのそれぞれにおいて実行されるが、1つのパスが正弦波を用いて周波数変換処理を施すので、他のパスは余弦波を用いるとともに、2つのパスにおいて生じる周波数変換が施された信号は、位相が90度ずれている。したがって、上側の低域通過フィルタ553は、直角信号554を提供し、下側のフィルタ553は、同相信号を提供する。これらの2つの信号は、I信号およびQ信号として知られ、直角表現から振幅/位相表現を生成する座標変換器556に送られる。

0006

振幅信号は、557で出力され、図5からのA(t)に対応する。位相信号は、位相アンラッパー(phase unwrapper)558に入力される。エレメント558の出力で、線形的に増加する位相値以外の0および360度間の位相値が存在しない。この「アンラップされた(unwrappered)」位相値は、位相/周波数変換器559に入力され、それは、例えば、現在の瞬間のための周波数値を得るために、現在の瞬間での位相から先行する瞬間での位相を減算する位相差装置として実施され得る。

0007

この周波数値は、出力560で時間的に変化する周波数値を得るために、フィルタチャネルiの一定の周波数値fiに加算される。

0008

出力560での周波数値はDC直流部分fiおよび変化部分を有し、それは「周波数変動(frequency fluctuation)」としても知られ、それによって、フィルタチャネルにおいて信号の現在の周波数は中心周波数fiから外れる。

0009

このように、図5および図6に示されるように、位相ボコーダは、スペクトル情報および時間情報の分離を提供する。スペクトル情報は、周波数fiで特定のフィルタバンクチャネルの位置に含まれ、時間情報は、周波数変動においてさらに時間にわたって振幅にある。

0010

位相ボコーダの別の言い方は、フーリエ変換解釈である。それは、時間において有限持続時間ウィンドウにわたって取られる一連オーバーラップするフーリエ変換からなる。フーリエ変換解釈において、時間において一点で、異なるフィルタ帯域または周波数ビン(frequency bins)の全てのための振幅値および位相値が焦点となる。フィルタバンク解釈において、再合成は、発振器ごとに時間的に変化する振幅および周波数制御を有する加算合成の古典的な例として見られるが、フーリエ実施において、合成は、実数および虚数形式に逆に変換することによってさらに連続する逆フーリエ変換オーバーラップ加算することによって達成される。フーリエ解釈において、位相ボコーダにおけるフィルタ帯域の数は、フーリエ変換における周波数点の数である。同様に、個々のフィルタの周波数において等しい間隔は、フーリエ変換の基本的な特徴と認められ得る。一方、フィルタ通過帯域の形状、すなわち、帯域エッジでのカットオフの峻度は、変換を計算する前に適用されるウィンドウ関数の形状によって決定される。特定の特徴形状、例えばハミングウィンドウのために、フィルタカットオフの峻度は、ウィンドウの持続時間に正比例して増加する。

0011

位相ボコーダ解析の2つの異なる解釈が帯域通過フィルタのバンクの実施だけに適用されるということを知ることは役立つ。これらのフィルタの出力が時間的に変化する振幅および周波数として表される演算は、両方の実施のために同じである。位相ボコーダの基本的な狙いは、スペクトル情報から時間的情報を分離することである。演算戦略は、信号を多くのスペクトル帯域に分割しさらにそれぞれの帯域において時間的に変化する信号を特徴付けることである。

0012

2つの基本演算は、特に重要である。これらの演算は、時間スケーリングおよびピッチ転移である。単に、記録されたサウンドをより低いサンプルレート再生することによって、記録されたサウンドの速度を落とすことは常に可能である。これは、テープ録音をより低い再生速度で再生することに類似している。しかしながら、この種の安易な時間拡大は、時間拡大と同じファクタによって同時にピッチを低下する。そのピッチを変えることなくサウンドの時間的発生を遅くすることは、時間的およびスペクトル情報の明確な分離を必要とする。上述のように、これは、まさに位相ボコーダがしようと試みることである。図5における時間的に変化する振幅信号A(t)および周波数信号f(t)を引き伸ばすことは、個々の発振器の周波数を全く変えないが、それは複合サウンドの時間的発生を遅くする。結果は、元のピッチを有する時間拡大されたサウンドである。時間スケーリングのフーリエ変換観は、サウンドを時間拡大するために、逆FFTが解析FFTより大きく離れて間隔を簡単に置かれ得るということである。その結果、スペクトル変化は、このアプリケーションにおいて元のものに比べて合成されたサウンドにおいてゆっくり発生し、さらに、位相は、まさにサウンドが時間拡大される同じファクタによって再スケーリングされる。

0013

他のアプリケーションは、ピッチ転移である。位相ボコーダがそのピッチを変えることのないサウンドの時間的発生を変えるために用いられ得るので、逆のことをすること、すなわち持続時間を変えることなくピッチを変えることは、可能であるべきでもある。これは、所望のピッチ変化ファクタを用いて時間スケーリングし次に結果として生じるサウンドを誤ったサンプルレートで再生することによって行われ、または、所望のファクタでダウンサンプリングしさらに未変化レートで再生することである。例えば、ピッチを1オクターブ上げるために、サウンドは、最初に2倍に時間拡大され、そして、時間拡大は、元のサンプルレートの2倍で再生される。

0014

ボコーダ(または「VODER」)は、人間のスピーチを生成するための手動操作合成装置としてダッドリー(Dudley)によって発明された(非特許文献2)。相当な時間の後に、その作動原理は、いわゆる位相ボコーダに拡張された(非特許文献3)(非特許文献4)。位相ボコーダは、オーバーラップする短時間DFTスペクトルに、したがって、一定の中心周波数を有する1セットのサブバンドフィルタに作用する。ボコーダは、オーディオファイルを操作するための基本原理として広い受け入れを見つけた。例えば、時間引き伸ばしおよびピッチ転移のようなオーディオ効果が、ボコーダによって容易に達成される(非特許文献5)。その後、この技術に対する多くの修正および改良が発表された。特に、固定周波数を有することの解析フィルタ制約は、例えば、「ストレイト(STRAIGHT)」ボコーダにおいてマッピング導出する基本周波数(「f0」)を加算することによって減少された(非特許文献6)。しかしながら、一般的な使用事例は、スピーチ符号化/処理のままであった。

0015

オーディ処理地域のために興味がある他のエリアは、変調された成分へのスピーチ信号の分解であった。それぞれの成分は、キャリア振幅変調(AM)および何らかの周波数変調FM)部分からなる。そのような分解の信号適応方法は、例えば、1セットの信号適応帯域通過フィルタの使用を提案する非特許文献7に発表された。非特許文献8において、「正弦曲線ラスノイズ(sinusoidsplus noise)」パラメトリックコーダと組み合わせてAM情報を利用するアプローチ提示された。他の分解方法は、いわゆる「フェーム(FAME)」戦略を用いる非特許文献9に発表された:ここでは、スピーチ信号は、それらのAMおよびFM内容をその後に抽出するために帯域通過フィルタを用いて4つの帯域に分解された。また、ごく最近の出版物は、AM情報(サブバンドエンベロープ)だけからオーディオ信号を再生することを意図し、さらに、FMを主に含む関連した位相情報回復のための反復方法を提案する(非特許文献10)。

0016

ここに提示される我々のアプローチは、一般的なオーディオ信号したがって音楽もを含む処理をターゲットにしている。それは、位相ボコーダと類似しているが、それぞれ関連したAMおよびFMを有する1セットのサブバンドキャリア周波数への信号の依存する知覚的動機付けられたサブバンド分解を実行するために修正される。我々は、この分解が知覚的に意味がありさらにそのエレメントが直接的な方法で解釈可能であると指摘したく、これにより、分解の成分に関する各種の変調処理が可能になる。

0017

0018

0019

図9b(上部および中央部のプロット)において、両方の信号の時間信号およびヒルベルトエンベロープが示される。第2信号と対照的に、エンベロープのゼロで、第1の信号においてπの位相跳躍に留意されたい。図9aは、2つの信号のパワースペクトル密度プロットを表示する(上部および中央部のプロット)。

0020

これらの信号がそれらのスペクトル内容においてかなり異なるにもかかわらず、それらの支配的な知覚的なキュー、すなわちCOGによって表される「平均(mean)」周波数および振幅エンベロープは、類似している。これは、図9aおよび図9b(下部のプロット)に示されるように、COGに集中する帯域制限されたスペクトル領域に関して、それらに知覚的に相互の代替物を作る。同じ原理は、より複合的な信号に対して近似的にまだ当てはまる

0021

一般的に、キャリア、振幅変調および周波数変調情報を含む1セットの成分のそれぞれへの広帯域信号を分解する変調解析合成システムは、この作業が一般に不良設定問題であるので、多自由度を有する。複合オーディオスペクトルのサブバンド振幅エンベロープを修正しその後に再合成のためのそれらの未修正の位相でそれらを再結合する方法は、これらの手順がサウンドの最終的なレシーバすなわち人間のに留意を払わないので、アーチファクトをもたらす。

0022

さらに、細かい周波数分解能を得るために、非常に長いFFTすなわち非常に長いウィンドウを適用することは、同時に時間分解能を低減する。一方、一時的な信号は、高い周波数分解能を必要としないが、高い時間分解能を必要とし、その理由は、特定の瞬間で、帯域通過信号は、「垂直コヒーレンス(vertical coherence)」としても知られている、強い相互相関を呈するからである。この専門用語において、水平軸時間変数が用いられさらに垂直軸に周波数変数が用いられる、時間スペクトログラムプロットをイメージする。したがって、非常に高い周波数分解能を有する一時的な信号を処理することは、低い時間分解能をもたらし、同時に、垂直コヒーレンスのほぼ完全な消失を意味する。また、サウンドの最終的なレシーバすなわち人間の耳は、そのようなモデルにおいて考慮されない。

0023

出版物(非特許文献22)は、オーディオ信号から正確な正弦波パラメータを抽出するための解析方法論を開示する。その方法は、修正されたボコーダパラメータ推定正弦波モデリングにおいて現在用いられるピーク検出アルゴリズムと結合する。このシステムは、フレームごとに入力を処理し、正弦波解析モデルのようなピーク検索するが、FFTドメインにおいて不鮮明になったピークが処理されるボコーダチャネルを動的に選択する。このように、フレーム内の周波数変化の正弦曲線の周波数軌道は、正確にパラメータ化され得る。スペクトル構文解析テップにおいて、振幅FFTにおけるピークおよび谷が確認される。ピークの隔離において、スペクトルは興味があるピークの外側でゼロにセットされ、さらに、ピークの正および負の周波数バージョンの両方が保持される。次に、このスペクトルのヒルベルト変換が計算され、その後、元のIFFTおよびヒルベルト変換されたスペクトルが、互いに位相が90度ずれている2つの時間ドメイン信号を得るために計算される。信号は、ボコーダ解析に用いられる解析信号を得るために用いられる。スプリアスピークは、検出され得り、後でノイズとしてモデル化され、または、モデルから除外される。

0024

また、スペクトルにわたって人間の耳の変化する帯域幅のような、すなわち、例えばスペクトルのより低い部分において小さい帯域幅およびスペクトルのより高い部分においてより大きい帯域幅などような、知覚基準は、説明がつかない。さらに、人間の耳の重要な特徴は、図9a図9bおよび図9cと関連して述べられるように、人間が小さい周波数差を有する2つの安定なトーンを聞かないが、変化する振幅を有する1つのトーンを知覚するように、人間の耳が人間の耳の臨界帯域幅に対応する帯域幅内の正弦波トーンを結合し、そこにおいて、このトーンの周波数は、元のトーンの周波数間位置付けられる。この効果は、人間の耳の臨界帯域幅が増加するときにますます増加する。

0025

さらに、スペクトルにおいて臨界帯域位置決めは、一定でないが、信号に依存する。人間の耳がスペクトルに応じて臨界帯域の中心周波数を動的に選択することは、心理音響学によって発見された。例えば、人間の耳が大きいトーンを知覚するときに、それから、臨界帯域は、この大きいトーンの周囲に集中する。後で、大きいトーンが異なる周波数で知覚されるときに、それから、人間の知覚が時間にわたって信号適応できるだけでなく、低い周波数部分において高いスペクトル分解能を有しかつ低いスペクトル分解能すなわちスペクトルのより高い部分において大きい帯域幅を有するフィルタも有するように、人間の耳は、この異なる周波数の周囲に臨界帯域を位置付ける。

先行技術

0026

M. VintonおよびL. Atlas、「スケーラブルおよびプログレッシブオーディオコーデック(A Scalable And Progressive Audio Codec)」、Proc. ofICASSP 2001、2001年、3277−3280頁
H. Dudley、「ボコーダ(The vocoder)」、Bell Labs Record、1939年、第17巻、122−126頁
J. L. FlanaganおよびR. M. Golden、「位相ボコーダ(Phase Vocoder)」、Bell System Technical Journal、1966年、第45巻、1493−1509頁
J. L. Flanagan、「スピーチスペクトルのパラメトリック符号化(Parametric coding of speech spectra)」、J. Acoust. Soc. Am.、1980年、第68巻(2)、412−419頁
U. Zoelzer、DAFX:「デジタルオーディオ効果(Digital Audio Effects)」、Wiley & Sons、2002年、201−298頁
H. Kawahara、「重み付けられたスペクトルの適応補間を用いるスピーチ表現および変換:再訪されるボコーダ(Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited)」、Proc. of ICASSP 1997、1997年、第2巻、1303−1306頁
A. RaoおよびR. Kumaresan、「変調された成分へのスピーチの分解に関して(On decomposing speech into modulated components)」、IEEE Trans. on Speech and Audio Processing、2000年、第8巻、240−254頁
M. Christensen et al.、「マルチ帯域振幅変調された正弦波オーディオモデリング(Multiband amplitude modulated sinusoidal audio modelling)」、IEEE Proc. of ICASSP 2004、2004年、第4巻、169−172頁
K. NieおよびF. Zeng、「蝸牛移植およびスピーチ符号化のための知覚に基づく処理戦略(A perception−based processing strategy for cochlear implants and speech coding)」、Proc. of the 26th IEEE−EMBS、2004年、第6巻、4205−4208頁
J. ThiemannおよびP. Kabal、「修正された非コヒーレントヒルベルトエンベロープからのオーディオ信号の再構成(Reconstructing Audio Signals from Modified Non−Coherent Hilbert Envelopes、Proc. Interspeech(ベルギー、アントワープ)、2007年、534−537頁
Z. M. Smith、B. DelgutteおよびA. J. Oxenham、「空想的なサウンドは聴覚における分裂を明らかにする(Chimaeric soundsreveal dichotomies in auditory perception)」、Nature、2002年、第416巻、87−90頁
J. N. AnantharamanおよびA. K. Krishnamurthy、L. L Feth、「周波数弁別のためのモデルとしての瞬時周波数の強度重み付けられた平均(Intensity weighted average of instantaneous frequency as a model for frequency discrimination)」、J. Acoust. Soc. Am.、1993年、第94巻(2)、723−729頁
O. Ghitza、「スピーチ知覚との関連で聴覚臨界帯域エンベロープ検出器の上側カットオフ周波数に関して(On the upper cutoff frequency of the auditory critical−band envelope detectors in the context of speech perception)」、J. Acoust. Soc. Amer.、2001年、第110巻(3)、1628−1640頁
E. ZwickerおよびH. Fastl、「心理音響学−事実およびモデル(Psychoacoustics − Facts and Models)」、Springer、1999年
E. Terhardt、「周期サウンド変動(粗さ)の知覚に関して(On the perception of periodic sound fluctuations(roughness))」、Acustica、1974年、第30巻、201−213頁
P. DanielおよびR. Weber、「心理音響学的な粗さ:最適化モデルの実施(Psychoacoustical Roughness: Implementation of an Optimized Model)」、Acustica、1997年、第83巻、113−123頁
P. LoughlinおよびB. Tacer、「瞬時周波数の解釈に関するコメント(Comments on the interpretation of instantaneous frequency)」、IEEE Signal Processing Lett.、1997年、第4巻、123−125頁
D. WeiおよびA. Bovik、「マルチ成分AM−FM信号の瞬時周波数に関して(On the instantaneous frequencies of multicomponent AM−FMsignals)」、IEEE Signal Processing Lett.、1998年、第5巻、84−86頁
Q. LiおよびL. Atlas、「過度に変調されたAM−FM分解(Over−modulated AM−FM decomposition)」、Proceedings of the SPIE、2004年、第5559巻、172−183頁
M. Dietz、L. Liljeryd、K. KjoerlingおよびO. Kunz、「スペクトル帯域複製、オーディオ符号化における新規なアプローチ(Spectral Band Replication, a novel approach in audio coding)」、112thAES Convention、ミュンヘン、2002年5月
ITU−R Recommendation BS.534−1、「中間音質主観評価のための方法(MUSHRA)(Method for the subjective assessment of intermediate sound quality(MUSHRA))」、International Telecommunications Union、スイスジュネーブ、2001年
「動的チャネルボコーダモデルを介する正弦波モデリングパラメータ推定(Sinusoidal modeling parameter estimation via a dynamic channel vocoder model)」、A.S. Master、2002 IEEE International Conference on Acoustics, Speech and Signal Processing

発明が解決しようとする課題

0027

本発明の目的は、オーディオ信号をパラメータ化するためのおよび修正または合成によってパラメータ化された表現を処理するための改良された概念を提供することである。

課題を解決するための手段

0028

この目的は、請求項1に記載のオーディオ信号を変換するための装置、請求項14に記載のオーディオ信号を変換する方法、請求項15に記載のパラメータ化された表現を修正するための装置、請求項19に記載のパラメータ化された表現を修正する方法、請求項20に記載のパラメータ化された表現を合成するための装置、請求項26に記載のオーディオ信号のパラメータ化された表現を合成する方法、請求項27に記載のオーディオ信号のためのパラメータ化された表現または請求項28に記載のコンピュータプログラムによって達成される。

0029

本発明は、臨界帯域の可変帯域幅が異なる目的のために有利に利用され得る知見に基づく。1つの目的は、人間の耳の低い分解能を利用することによって効率をよくすることである。これに関連して、本発明は、効率を高めるために必要でないデータを計算しようとしない。

0030

しかしながら、第2の利点は、高い分解能が必要である領域において、必要なデータがパラメータ化されさらに再合成された信号の品質を高めるために計算されるということである。

0031

しかしながら、主要な利点は、例えば粗さ、ピッチなどのような特性を直接的にアドレッシングするために、直接的な、直感的なおよび知覚的に適合された方法で信号演算のための処理を提供するという事実にある。

0032

この目的のために、オーディオ信号の信号適応解析が実行され、さらに、解析結果に基づいて、複数の帯域通過フィルタが信号適応方法で推定される。特に、帯域通過フィルタの帯域幅は、一定でないが、帯域通過フィルタの中心周波数に依存する。したがって、本発明は、帯域通過フィルタ周波数を変えることおよび帯域通過フィルタ帯域幅を変えることを可能にし、それにより、知覚的に正しい帯域通過信号ごとに、計算された帯域通過中心周波数に近似する現在の中心周波数ととともに振幅変調および周波数変調が得られる。好ましくは、帯域において中心周波数の周波数値は、できるだけ人間の耳をモデル化するために、この帯域の範囲内でエネルギーの重心(COG)を表す。そのため、帯域通過フィルタの中心周波数の周波数値は、帯域において特定のトーンにあるように必ずしも選択されないが、帯域通過フィルタの中心周波数は、周波数値に容易に位置することができ、そこにおいて、ピークは、FFTスペクトルに存在しなかった。

0033

周波数変調情報は、帯域通過信号を決定された中心周波数とダウンミックスするによって得られる。そのため、中心周波数は、FFTに基づく(スペクトルに基づく)決定による低い時間分解能で決定されたにもかかわらず、瞬時的な時間情報は、周波数変調においてセーブされる。しかしながら、キャリア周波数への長時間変化および振幅変調とともに周波数変調情報への短時間変化の分離は、知覚的に正しい感覚においてボコーダのようなパラメータ化された表現を可能にする。

0034

このように、本発明は、変調情報に適用される変調処理が変調表現自体の制限によって導入される望まれていないアーチファクトを回避する知覚的に平滑な結果を作り出すべきであるという感覚において、抽出された情報が知覚的に意味のあり解釈できることを、条件が満足するという点で有利である。

0035

本発明の他の利点は、すでに単独で抽出されたキャリア情報が、粗いけれどもオーディオ信号の知覚的に楽しく表現的な「スケッチ」再構成を可能にすることであり、さらに、AMおよびFM関連情報のどんな連続するアプリケーションも、この表現を全詳細および透過性(transparency)に改良すべきであり、それは、本発明の概念が、すでに知覚的に楽しい抽出されたキャリア情報だけを用いる「スケッチ」再構成に依存する低いスケーリング層から、増加する精度/時間分解能においてAMおよびFM関連情報を有するさらなるより高いスケーリング層を用いる高品質まで、全スケーラビリティを可能にすることを意味する。

0036

本発明の利点は、一方では新しいオーディオ効果の開発のために、他方では将来の効率的なオーディオ圧縮アルゴリズムのための構成要素として、非常に望ましいことである。従来、パラメトリック符号化方法および波形符号化間の差異が常にあるとともに、この差異は大部分が本発明によって埋められ得る。波形符号化方法は、必要なビットレートが利用できるならば透過性まで容易にスケーリングされるが、例えばCELPまたはACELPスキームなどのパラメトリック符号化スキームは、基礎となるソースモデルの制限を受け、さらに、ビットレートがこれらのコーダにおいてますます増加する場合であっても、それらは透過性に接近することができない。しかしながら、パラメトリック方法は、通常、オーディオ効果のアプリケーションのために利用され得る広範囲にわたる操作可能性を提供するが、波形符号化は、元の信号の可能な再生として最も厳しく制限される。

0037

本発明は、両方のアプローチ間にシームレス遷移を可能にすることによってこのギャップを埋める。

0038

その後、本発明の実施形態は、添付図面との関連で述べられる。

図面の簡単な説明

0039

図1aは、オーディオ信号を変換するのための装置または方法の実施形態の略図である。
図1bは、他の好適な実施形態の略図である。
図2aは、図1aの実施形態との関連で処理操作を示すフローチャートである。
図2bは、好適な実施形態において複数の帯域通過信号を生成するための操作プロセスを示すためのフローチャートである。
図2cは、COG計算および知覚の制約に基づく信号適応スペクトルセグメンテーションを示す。
図2dは、図1bの実施形態との関連で実行されるプロセスを示すためのフローチャートを示す。
図3aは、パラメータ化された表現を修正するための概念の実施形態の略図を示す。
図3bは、図3aに示される概念の好適な実施形態を示す。
図3cは、粗いおよび細かい情報へのAM情報の分解を説明するための略図を示す。
図3dは、図3cの実施形態に基づいて圧縮シナリオを示す。
図4aは、合成概念の略図を示す。
図4bは、図4aの概念の好適な実施形態概念を示す。
図4cは、処理された時間ドメインオーディオ信号、オーディオ信号のビットストリームおよび変調情報合成のためのオーバーラップ/加算手順のオーバーラップの表現を示す。
図4dは、パラメータ化された表現を用いてオーディオ信号を合成するための好適な実施形態のフローチャートを示す。
図5は、従来技術の解析/合成ボコーダ構造を示す。
図6は、図5の従来技術のフィルタ実施を示す。
図7aは、元の音楽アイテムのスペクトログラムを示す。
図7bは、合成されたキャリアだけのスペクトログラムを示す。
図7cは、粗いAMおよびFMによって改良されたキャリアのスペクトログラムを示す。
図7dは、粗いAMおよびFM並びに加算された「グレースノイズ(grace noise)」によって改良されたキャリアのスペクトログラムを示す。
図7eは、合成後のキャリア並びに未処理のAMおよびFMのスペクトログラムを示す。
図8は、主観的なオーディオ品質テストの結果を示す。
図9aは、2つのトーン信号マルチトーン信号および適切に帯域制限されたマルチトーン信号のパワースペクトル密度を示す。
図9bは、2つのトーン信号、マルチトーン信号および適切に帯域制限されたマルチトーン信号の波形およびエンベロープを示す。
図9cは、帯域通過感覚において、2つの知覚的に等価な信号を生成するための方程式を示す。

実施例

0040

図1aは、オーディオ信号100をパラメータ化された表現180に変換するための装置を示す。装置は、解析結果104を得るためにオーディオ信号の部分を解析するための信号解析器102を含む。解析結果は、信号解析結果に基づいてオーディオ信号部分のための複数の帯域通過フィルタに関する情報を推定するための帯域通過推定器106に入力される。そのため、複数の帯域通過フィルタに関する情報108は、信号適応方法で計算される。

0041

特に、複数の帯域通過フィルタに関する情報108は、フィルタ波形に関する情報を含む。フィルタ波形は、帯域通過フィルタの帯域幅および/またはオーディオ信号の部分のための帯域通過フィルタの中心周波数、および/またはパラメトリック形式またはノンパラメトリック形式において振幅伝達関数スペクトル形状を含むことができる。重要なことに、帯域通過フィルタの帯域幅は、全周波数範囲にわたって一定でないが、帯域通過フィルタの中心周波数に依存する。好ましくは、依存関係は、帯域幅がより高い中心周波数まで増加しさらにより低い中心周波数まで減少するということである。さらにより好ましくは、帯域通過フィルタの帯域幅は、例えばバークスケールなどの完全に知覚的に正しいスケールにおいて決定され、その結果、帯域通過フィルタの帯域幅は、特定の信号最応的に決定された中心周波数のための人間の耳によって実際に実行される帯域幅に常に依存する。

0042

この目的のために、信号解析器102がオーディオ信号の信号部分スペクトル解析を実行し、特に、パワー集中を有する領域を見つけるためにスペクトルにおいてパワー分布を解析することが好ましく、その理由は、そのような領域は、サウンドを受信しさらに処理するときと同様に人間の耳によって決定されるからである。

0043

本発明の装置は、さらに、オーディオ信号の部分のための複数の帯域通過フィルタの帯域ごとに振幅変調112または周波数変調114を推定するための変調推定器110を含む。この目的ために、変調推定器110は、後述されるように、複数の帯域通過フィルタに関する情報108を用いる。

0044

図1aの本発明の装置は、さらに、振幅変調に関する情報112、周波数変調の情報114または複数の帯域通過フィルタに関する情報108を送信し、格納しまたは修正するための出力インターフェース116を含み、それは、上述のように、例えばオーディオ信号のこの特定部分ブロックのための帯域通過フィルタの中心周波数の値などのフィルタ波形情報または他の情報を含んでもよい。出力は、図1aに示されるように、パラメータ化された表現180である。

0045

図1bは、変調推定器110並びに図1bに「キャリア周波数推定」と呼ばれる単一のユニットに結合される図1aの信号解析器102および図1aの帯域通過推定器106の好適な実施形態を示す。変調推定器110は、好ましくは帯域通過フィルタ110aを含み、それは、帯域通過信号を提供する。これは、解析信号変換器110bに入力される。ブロック110bの出力は、AM情報およびFM情報を計算するために役立つ。AM情報を計算するために、解析信号の振幅は、ブロック110cによって計算される。解析信号ブロック110bの出力は、乗算器110dに入力され、それは、他の入力で、発振器110eからの発振器信号を受信し、それは、帯域通過110aの実際のキャリア周波数fcによって制御される。次に、乗算器出力の位相は、ブロック110fにおいて決定される。瞬時位相は、FM情報を最終的に得るためにブロック110gで微分される。

0046

このように、キャリア信号およびそれらの関連した変調成分への分解は、図1bに示される。

0047

0048

0049

代わりの重心値計算関数が考えられ、それは反復または非反復であり得る。非反復関数は、例えば、帯域の異なる部分のための加算演算の結果を比較して、帯域の異なる部分のための加算エネルギー値を含む。

0050

局所COGは、その周波数領域においてスペクトル貢献による人間のリスナーによって知覚される「平均(mean)」周波数に対応する。この関係を参照ために、非特許文献12において導出されるように「強度重み付け平均瞬時周波数(intensity weighted average instantaneous frequency)」(IWAIF)およびCOGの等価に留意されたい。COG推定ウィンドウおよび結果として生じるフィルタの遷移帯域幅は、人間の耳の分解能に関して選択される(「臨界帯域(critical band)」)。ここで、約0.5バークの帯域幅は、各種のテストアイテム(スピーチ、音楽、環境)のための良好な値であると経験的にわかった。さらに、この選択は、文献(非特許文献13)によって支持される。

0051

その後、解析信号は、帯域通過フィルタリングされた信号のヒルベルト変換を用いて得られ、推定されたCOG周波数によって周波数変換処理が施される。最終的に、信号は、所望のAMおよびFM信号を得るその振幅エンベロープおよびその瞬時周波数(IF)トラックにさらに分解される。局所COG位置に集中する帯域通過信号の使用が従来の位相ボコーダの「影響の領域(regions of influence)」パラダイムに対応することに留意されたい。両方の方法は、帯域通過信号の時間的エンベロープを保存する:第1のものは本質的に後の1つは局所スペクトル位相コヒーレンスを確実にすることによる。

0052

フィルタの結果として生じるセットは、一方ではスペクトルをシームレスにカバーし、他方では隣接するフィルタがそれほどオーバーラップしないことに留意が取られる必要があり、その理由は、これは(修正された)成分の合成の後に望まれていない打撃効果(beating effects)をもたらすからである。これは、知覚スケールに従うが同時にシームレスなスペクトル範囲を設ける必要があるフィルタの帯域幅に関していくらか妥協を含む。そのため、キャリア周波数推定および信号適応フィルタ設計が、分解成分の知覚的な重要性のための臨界部分という結果になり、したがって、再合成された信号の品質に関する強い影響力を有する。そのような補償のセグメンテーションの例が図2cに示される。

0053

図2aは、図2bに示されるようにオーディオ信号をパラメータ化された表現に変換するための好適なプロセスを示す。第1のステップ120において、オーディオサンプルのブロックが形成される。この目的のために、ウィンドウ関数が好ましくは用いられる。しかしながら、ウィンドウ関数の使用は、どんな場合でも必要でない。次に、ステップ121において、高い周波数分解能スペクトル121へのスペクトル変換が実行される。それから、ステップ122において、重心関数が好ましくは方程式(3)を用いて計算される。この計算は、信号解析器102において実行され、後に決定されるゼロ交差は、図1aの信号解析器102から図1aの帯域通過推定器106に提供される解析結果104である。

0054

それが方程式(3)から明らかなように、重心関数は、異なる帯域幅に基づいて計算される。特に、方程式(3)において分子nom(k,m)および分母(k,m)のための計算において用いられる帯域幅B(k)は、周波数に依存する。したがって、周波数インデックスkは、Bの値を決定し、さらにより好ましくは、Bの値は、増加する周波数インデックスkのために増加する。したがって、nom(k,m)のための方程式(3)において明らかになるように、スペクトル領域においてウィンドウ幅Bを有する「ウィンドウ(window)」は、特定の周波数値kの周囲に集中し、そこにおいて、iは、−B(k)/2から+B(k)/2である。

0055

nomタームにおいてウィンドウw(i)に乗算されるこのインデックスiは、実際の周波数値kの左のスペクトルパワー値X2(そこにおいてXはスペクトル振幅である)が負符号を有する加算演算に入るとともに、周波数インデックスkの右の2乗スペクトル値正符号を有する加算演算に入ることを確認する。必然的に、この関数は異なることがあり、その結果、例えば、上半分が負符号とともに入り、さらに、下半分が正符号とともに入る。関数B(k)は、重心の知覚的に正しい計算が起こることを確認し、さらに、この関数は、好ましくは、例えば図2cに示されるように決定され、そこにおいて、知覚的に正しいスペクトルセグメンテーションが示される。

0056

代わりの実施において、スペクトル値X(k)は、重心関数を計算する前に、対数ドメインに変換される。次に、方程式(3)において分子および分母のためのタームにおいて値Bは、(対数スケール)周波数から独立している。ここで、知覚的に正しい依存関係は、スペクトル値Xにすでに含まれ、それは、この実施形態において、対数スケールに存在する。必然的に、対数スケールにおける等しい帯域幅は、非対数スケールにおける中心周波数に関して増加する帯域幅に対応する。

0057

ゼロ交差および特に正から負への遷移がステップ122において計算されるとすぐに、ステップ124において後の選択手順が実行される。ここで、ゼロ交差での周波数値は、知覚基準に基づいて修正される。この修正は、いくつかの制約に従い、それらは、全スペクトルが好ましくはカバーされることになり、さらに、スペクトル全体が好ましくは可能にされない。さらに、帯域通過フィルタの中心周波数は、できるだけ重心関数ゼロ交差に位置付けられ、さらに、好ましくは、スペクトルのより低い部分において中心周波数の位置決めは、スペクトルのより高い部分における位置決めに関して支持される。これは、信号適応スペクトルセグメンテーションがより密接にスペクトルのより低い部分においてステップ122の重心結果に従おうとすることを意味し、さらに、この決定に基づいて、スペクトルのより高い部分において重心が帯域通過中心周波数と一致しないときに、このオフセットは、受け入れられる。

0058

帯域通過フィルタの中心周波数値および対応する幅が決定されるとすぐに、オーディオ信号ブロックは、ステップ124によって得られるように修正された周波数値において変化する帯域幅を有する帯域通過フィルタを有するフィルタバンクでフィルタリング126される。そのため、図2cにおける例に関して、信号適応スペクトルセグメンテーションに示されるようにフィルタバンクは、フィルタ係数を計算しさらにこれらのフィルタ係数をセットすることによって適用され、さらに、フィルタバンクは、これらのスペクトルセグメンテーションを計算するために用いられたオーディオ信号の部分をフィルタリングするために後に用いられる。

0059

0060

次に、1つのブロックのための計算が完了され、さらに、ステップ130において、ストライドまたはアドバンス値が、図2aにおいて120で示されるようにオーディオサンプルの次のブロックを得るためにオーバーラップ方法で時間ドメインにおいて適用される。

0061

この手順は、図4cに示される。時間ドメインオーディオ信号は上部に示され、そこにおいて、それぞれの部分が好ましくは同数のオーディオサンプルを含む例示的に7つの部分が示される。それぞれのブロックは、N個のサンプルからなる。示されるように、第1のブロック1は、最初の4つの隣接する部分1、2、3、および4からなる。次のブロック2は、信号部分2、3、4、5からなり、第3のブロックすなわちブロック3は、信号部分3、4、5、6を含み、さらに、第4のブロックすなわちブロック4は、後の信号部分4、5、6および7を含む。ビットストリームにおいて、図2aからステップ128は、ブロックごとにすなわちブロック1、ブロック2、ブロック3、ブロック4またはブロックの選択された部分、好ましくはN/2個の中央部分ごとにパラメータ化された表現を生成し、その理由は、外側部分がフィルタリンギングまたはそれに応じて設計される変換ウィンドウのロールオフ特徴を含んでもよいからである。好ましくは、ブロックごとにパラメータ化された表現は、シーケンシャルな方法でビットストリームにおいて送信される。図4cの上部のプロットに示される例において、4重のオーバーラップ演算が形成される。代わりに、ステップ130において適用されるストライドまたはアドバンス値が1つの部分の代わりに図4cにおいて2つの部分を有するように、2重のオーバーラップが同様に実行され得る。基本的に、オーバーラップ演算は、全く必要でないが、それは、アーチファクトをブロックすることを回避するためにさらにブロックからブロックにクロスフェード演算を有利に可能にするために好ましく、それは、本発明の好適な実施形態に従って、時間ドメインにおいて実行されないが、図4cに示されるようにさらに図4aおよび図4bに関して後述するように、AM/FMドメインにおいて実行される。

0062

図2bは、方程式(3)に関して図2aにおいて特定の手順の一般的な実施を示す。図2bにおいてこの手順は、信号解析器および帯域通過推定器において部分的に実行される。ステップ132において、オーディオ信号の部分は、パワースペクトル分布に関して解析される。ステップ132は、時間/周波数変換を含んでもよい。ステップ134において、スペクトルにおいて局所パワー集中のための推定された周波数値が、異なる帯域通過フィルタの知覚的に動機付けられた帯域幅を有しさらにスペクトルにおいてどんなホールも有しない、例えば図2cにおけるスペクトルセグメンテーションなどの知覚的に正しいスペクトルセグメンテーションを得るために、適合される。ステップ135において、オーディオ信号の部分は、フィルタバンクまたは変換方法を用いて決定されたスペクトルセグメンテーションでフィルタリングされ、そこにおいて、フィルタバンク実施のための例は、帯域通過110aを有する1つのチャネルおよび図1bにおいて他の成分101のための対応する帯域通過フィルタに対して図1bにおいて与えられる。ステップ135の結果は、より高い周波数に増加する帯域幅を有する帯域のための複数の帯域通過信号である。次に、ステップ136において、それぞれの帯域通過信号は、好適な実施形態においてエレメント110a〜110gを用いて別々に処理される。しかしながら、代わりに、AM変調およびFM変調を抽出するための他の全ての方法が、それぞれの帯域通過信号をパラメータ化するために実行され得る。

0063

その後、図2dが述べられ、そこにおいて、それぞれの帯域通過信号を別々に処理するためのステップの好適なシーケンスが示される。ステップ138において、帯域通過フィルタは、計算された中心周波数値を用いて、さらに、図2bのステップ134において得られるようにスペクトルセグメンテーションによって決定されるように帯域幅を用いてセットされる。このステップは、帯域通過フィルタ情報を用い、さらに、帯域通過フィルタ情報を図1aにおいて出力インターフェース116に出力するために用いられることもできる。ステップ139において、オーディオ信号は、ステップ138においてセットされた帯域通過フィルタを用いてフィルタリングされる。ステップ140において、帯域通過信号の解析信号が形成される。ここで、真のヒルベルト変換または近似ヒルベルト変換アルゴリズムが適用され得る。これは、図1bにおいてアイテム110bで示される。次に、ステップ141において、図1bボックス110cの実施が実行され、すなわち、解析信号の振幅がAM情報を提供するために決定される。基本的に、AM情報は、ブロック110aの出力で帯域通過信号の分解能と同じ分解能において得られる。この多量のAM情報を圧縮するために、どんなデシメーションまたはパラメータ化技術も実行され得るが、それは後述される。

0064

位相または周波数情報を得るために、ステップ142は、帯域通過フィルタの中心周波数を有する発振器信号と解析信号との乗算を含む。乗算の場合において、後の低い通過フィルタリング演算が、ステップ142において乗算によって生成される高い周波数部分を阻止するために好ましい。発振器信号が複合的であるときに、次に、フィルタリングは必要でない。ステップ142は、ダウンミックスされた解析信号をもたらし、それは、図1bにおいてボックス110fによって示されるように瞬時位相情報を抽出するためにステップ143において処理される。この位相情報は、AM情報に加えてパラメトリック情報として出力され得るが、図1bにおいて114で示されるように、真の周波数変調情報を得るために、ボックス144においてこの位相情報を微分することが好ましい。また、位相情報は、周波数/位相関連変動を表すために用いられ得る。パラメータ化情報として位相情報が十分であるときに、次に、ブロック110gにおいて微分は必要でない。

0065

図3aは、オーディ信号のパラメータ化された表現を修正するための装置を示し、それは、時間部分に対して、例えば図4cの中央部のプロットにおけるブロック1などの複数の帯域通過フィルタからの帯域通過フィルタ情報を有する。帯域通過フィルタ情報は、帯域通過フィルタに依存する帯域幅および帯域通過フィルタの周波数を有しさらにそれぞれの時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報を有する帯域通過フィルタの時間/変化する帯域通過フィルタ中心周波数(キャリア周波数)を示す。修正するための装置は、情報修正器160を含み、それは、時間変化する中心周波数を修正しまたは振幅変調情報、周波数変調情報若しくは位相変調情報を修正するように作動し、さらに、オーディオ信号部分、修正されたAM情報、修正されたPM情報または修正されたFM情報のためのキャリア周波数を有する修正されたパラメータ化された表現を出力する。

0066

図3bは、図3aにおいて情報修正器160の好適な実施形態を示す。好ましくは、AM情報は、粗い/細かいスケール構造にAM情報を分解するための分解ステージに導入される。この分解は、好ましくは、例えば図3cに示されるような分解などの非線形分解である。AM情報のための送信データを圧縮するために、例えば、粗い構造だけが合成器に送信される。この合成器の部分は、加算器160eおよび帯域通過ノイズ源160fであり得る。しかしながら、これらのエレメントは、情報修正器の部分でもあり得る。しかしながら、好適な実施形態において、伝送路は、ブロック160aおよび160e間にあり、この伝送チャネルにおいて、粗い構造と例えば細かい構造を表しまたはそれから導出されるエネルギー値とのパラメータ化された表現がライン161を介して解析器から合成器に送信される。次に、合成器側において、ノイズ源160fは、特定の帯域通過信号のための帯域通過ノイズ信号を提供するためにスケーリングされ、さらに、ノイズ信号は、例えばライン161において例えばエネルギー値などのパラメータを介して示されるようにエネルギーを有する。それから、デコーダ/合成器側において、ノイズは、粗い構造によって時間的に整形され、そのターゲットエネルギーによって重み付けられ、さらに、細かい構造の人工的な合成による送信のための低ビットレートを必要とするだけの信号を合成するために、送信された粗い構造に加算される。一般的に、ノイズ加算器160fは、特定のグローバルなエネルギー値および所定の時間的エネルギー分布を有する(疑似ランダム)ノイズ信号を加算するためのものである。それは、送信されたサイド情報を介して制御されまたは例えば帯域ごとに決定される固定値などの経験的図表に基づいて固定的にセットされる。代わりに、それは、修正器または合成器において局所解析によって制御され、そこにおいて、利用できる信号は解析され、さらに、ノイズ加算器制御値が導出される。これらの制御値は、好ましくはエネルギー関連値である。

0067

情報修正器160は、さらに、制約多項式フィット関数160bおよび/またはキャリア周波数のための転移器160dを含んでもよく、それは、FM情報を乗算器160cを介して転移する。代わりに、FM情報またはAM情報を修正せずに、キャリア周波数だけを修正することに役立ち、または、AM情報またはキャリア周波数情報を修正しないが、FM情報だけを修正することに役立つはずである。

0068

目前に変調成分を有すると、新しいおよび興味深い処理方法が可能になる。ここで提示される変調分解の大きな利点は、提案された解析/合成方法が、処理の正確な性質から大きく独立しているどんな変調処理の結果も知覚的に平滑である(クリック、一時的な反復などがない)ことを暗に保証するということである。変調処理のいくつかの例は、図3b包含される。

0069

確かに、顕著なアプリケーションは、元の再生速度を維持するととともにオーディオ信号を「転移すること(trnsporting)」である:これは、一定のファクタと全てのキャリア成分との乗算によって容易に達成される。入力信号の時間的構造が単にAM信号によって捕えられるだけであるので、それはキャリアのスペクトル間隔の引き伸ばしに影響を受けない。

0070

特定の所定の周波数間隔に対応するキャリアのサブセットが適切な新しい値にマップされる場合、楽曲キーモードは例えばマイナーからメジャーにまたはその逆に変えられる得る。これを達成するために、キャリア周波数は、(処理される音楽アイテムのモードおよびキーについての演繹的知識を用いて)適当な新しいMIDI番号に後にマップされるMIDI番号に量子化される。最後に、マップされたMIDI番号は、合成のために用いられる修正されたキャリア周波数を得るために、逆に変換される。また、専用のMIDIノートオンセット/オフセット検出は、時間的特徴が未修正のAMによって主に表されて保存されるので必要でない。

0071

より高度な処理は、信号の変調特性の修正をターゲットにしている:例えば、変調フィルタリングによって信号の「粗さ(roughness)」(非特許文献14)(非特許文献15)を修正することは、望ましくあり得る。AM信号において、音楽イベントなどのオンおよびオフセットに関連する粗い構造およびより速い変調周波数(〜30−300Hz)に関連する細かい構造がある。この細かい構造は(2kHzまでのキャリアのための)オーディオ信号の粗さ特性を表しているので(非特許文献15)(非特許文献16)、聴覚粗さは細かい構造を除去しさらに粗い構造を維持することによって修正され得る。

0072

エンベロープを粗いおよび細かい構造に分解するために、非線形方法が利用され得る。例えば、粗いAMを捕らえるために、(低次の)多項式区分的フィットを適用できる。細かい構造(残余)は、元のおよび粗いエンベロープの差として得られる。細かいAM構造の消失は、必要に応じて、残余のエネルギーによってスケーリングされ粗いAMエンベロープによって時間的に整形される帯域制限された「グレース」ノイズを加算することによって、知覚的に補償され得る。

0073

どんな修正もAM信号に適用される場合、ゆっくり変化しているFM信号だけを制限することが望ましいことに留意されたく、その理由は、未処理のFMが1つの帯域通過領域内で打撃効果よる突然のピークを含んでもよいからである(非特許文献17)(非特許文献18)。これらのピークは、AM信号のゼロ(非特許文献19)の近くに現れて、知覚的に無視できる。IFにおいてそのようなピークの例は、ヒルベルトエンベロープのゼロ位置でπの位相跳躍の形式で図9において方程式(1)に従って信号に見られる。望まれていないピークは、例えば、元のAM信号が所望の適合度のための重み付けとして作用するFMに関する制約された多項式フィッティングによって除去され得る。そのため、FMにおいてスパイクは、望まれていないバイアスを導入することなしに除去され得る。

0074

他のアプリケーションは、信号からFMを除去することである。ここで、簡単にFMをゼロにセットすることができる。キャリア信号が局所COGに集中するので、それらは知覚的に正しい局所平均周波数を表す。

0075

図3cは、帯域通過信号から粗い構造を抽出するための例を示す。図3cは、上部のプロットにおいて特定の楽器によって作り出されるトーンのための典型的な粗い構造を示す。最初に楽器は静かであり、次にアタック瞬間に振幅の急激な上昇が見られ、それからそれはいわゆるサステイン期間において一定に保たれる。次に、トーンはリリースされる。これは、サステイン期間の終わりに始まる一種指数関数的減衰によって特徴付けられる。これは、リリース期間すなわちリリース瞬間の始まりである。サステイン期間は、楽器において必ずしもそこにあるとは限らない。例えば、ギターが考慮されるときに、トーンがストリング励起することによって励起瞬間のアタックの後に生成されることが明らかになり、かなり長いリリース部分が直ぐに続き、それは、その後にストリングがリリース時間の終わりである定常状態になるまでストリング振動が弱められるという事実によって特徴付けられる。典型的な楽器に対して、そのようなトーンのための典型的な形式または粗い構造が存在する。帯域通過信号からそのような粗い構造を抽出するために、帯域通過信号に多項式フィットを実行することが好ましく、そこにおいて、多項式フィットは、図3cの上部のプロットにおける形式と類似した一般的な形式を有し、それは、多項式係数を決定することによってマッチされ得る。最もマッチしている多項式フィットが得られるとすぐに、信号は、細かい構造が得られるように帯域通過信号の粗い構造が実際の帯域通過信号から抽出されるという、多項式供給によって決定され、多項式フィットが十分に良好なときに、多項式係数である粗い構造情報に加えて解析器側から合成器側に送信され得る特定のエネルギーを有するノイズの多い信号である。その粗い構造およびその細かい構造への帯域通過信号の分解は、非線形分解のための例である。他の非線形合成は、帯域通過信号から他の特徴を抽出するために、さらに、低ビットレートアプリケーションにおいてAM情報を送信するためのデータ転送速度を大きく低減するために、同様に実行され得る。

0076

図3dは、そのような手順におけるステップを示す。ステップ165において、粗い構造は、例えば多項式フィッティングによって、さらに、その後に解析器から合成器に送信される振幅変調情報である多項式パラメータを計算することによって抽出される。この送信をより効率的に実行するために、送信のためのパラメータのさらなる量子化および符号化演算166が実行される。量子化は、均一またま不均一であり得る、さらに、符号化演算は、例えばハフマン符号化などのように、例えばビデオ圧縮で知られる算術符号化に基づくコンテクストなどのテーブルまたは算術符号化の有無にかかわらず、周知のエントロピー符号化演算のいずれかであり得る。

0077

次に、非常に効率的な方法で伝送路にわたって送信され得る低ビットレートのAM情報またはFM/PM情報が形成される。合成器側において、ステップ168は、送信されたパラメータを復号化しさらに非量子化するために実行される。それから、ステップ169において、粗い構造は、例えば、送信された多項式係数を有する多項式によって定義される全ての値を実際に計算することによって再構成される。さらに、好ましくは送信されたエネルギーパラメータに基づいて、さらに、粗いAM情報によってまたは、代わりに、極端なビットレートアプリケーションにおいて、経験的に選択されたエネルギーを有する(グレース)ノイズを加算することによって時間的に整形される帯域ごとにグレースノイズを加算することは、役立つはずである。

0078

代わりに、信号修正は、上述のように、MIDI番号にまたは一般的には音階に中心周波数のマッピングを含んでもよく、次に、例えばメジャースケールをマイナースケールにまたはその逆に楽曲を変換するためにスケールを変換する。この場合、最も重要なことだが、キャリア周波数は修正される。好ましくは、AM情報またはPM/FM情報はこの場合に修正されない。

0079

代わりに、他の種類のキャリア周波数修正は、例えば、1より大きい整数であってもよくまたは1および0間の小数であってもよい同じ転移ファクタを用いて全てのキャリア周波数を転移することを実行され得る。後者の場合、トーンのピッチは修正の後により小さく、前者の場合、トーンのピッチは修正の前より修正の後により大きい。

0080

図4aは、オーディオ信号のパラメータ化された表現を合成するための装置を示し、パラメータ化された表現は、例えば帯域通過フィルタのためのキャリア周波数または帯域通過中心周波数などの帯域通過情報を含む。パラメータ化された表現のさらなる成分は、振幅変調に関する情報、周波数変調に関する情報または帯域通過信号の位相変調に関する情報である。

0081

信号を合成するために、合成するための装置は、全ての帯域通過フィルタのための情報を含む未修正のまたは修正されたパラメータ化された表現を受信する入力インターフェース200を含む。例示的に、図4aは、単一の帯域通過フィルタ信号のための合成モジュールを示す。AM情報を合成するために、AM変調に基づいてAM成分を合成するためのAM合成器201が設けられる。さらに、キャリア周波数に関する情報および送信されたPMまたはFM変調情報に基づいて瞬時周波数または位相情報を合成するためのFM/PM合成器も、設けられる。両方のエレメント201、202は、フィルタバンクチャネルごとにAM/FM/PM変調された発振信号204である、出力信号を生成するための発振器モジュール203に接続される。さらに、結合器205が、帯域通過フィルタチャネルからの信号、例えば他の帯域通過フィルタチャネルのための発振器からの信号204などを結合するために、および、帯域通過フィルタチャネルからの信号に基づくオーディオ出力信号を生成するために設けられる。まさに好適な実施形態においてサンプル的な方法で帯域通過信号を加算するだけで、合成されたオーディオ信号206を生成する。しかしながら、他の結合方法が同様に用いられる得る。

0082

図4bは、図4aの合成器の好適な実施形態を示す。有利な実施は、変調ドメインにおいて、すなわち時間ドメイン帯域通過信号を生成する前にドメインにおいて、オーバーラップ加算演算(OLA)に基づく。図4cの中央部のプロットに示されるように、ビットストリームであってもよいが同様に解析器または修正器に直接接続されるものであってもよい入力信号は、AM成分207a、FM成分207bおよびキャリア周波数成分207cに分離される。AM合成器201は、好ましくは、オーバーラップ加算器201aを含み、さらに、成分結合制御器201bを含み、それは、好ましくは、ブロック201aだけでなく、FM合成器202内のオーバーラップ加算器であるブロック202aも含む。FM合成器202は、さらに、周波数オーバーラップ加算器202a、位相積分器202b、標準的な加算器として実施され得る位相結合器202c、および、先行するブロックからの信号の位相が実際のブロックの位相と連続的であるようにブロックからブロックに一定の位相を再生するために成分結合制御器201bによって制御可能である移相器202dを含む。したがって、エレメント202d、202cにおいて位相加算は、解析器側において図1bのブロック110gにおける微分の間に消失した定数の再生に対応すると言うことができる。知覚的なドメインの情報消失の観点から、これは、唯一の情報消失、すなわち図1bにおいて微分装置110gによる一定の部分の消失である点に留意する必要がある。この消失は、図4bにおいて成分結合装置201bにより決定される一定の位相を加算することによって再現される。

0083

信号は、全ての成分の加算基準で合成される。1つの成分のために、処理チェーンが、図4bに示される。解析のように、合成は、ブロックごとに実行される。それぞれの解析ブロックの中央に置かれたN/2部分だけが合成のために用いられるので、1/2のオーバーラップファクタがもたらされる。成分結合メカニズムは、AMおよびFMを混合し、さらに、以前のブロックにおいてそれらの先行するもののスペクトル近接における成分のための絶対位相整列するために利用される。また、スペクトル近接は、ピッチ知覚に関して人間の耳の感度を反映するためにバークスケール基準で計算される。

0084

詳細については、まず、FM信号がキャリア周波数に加算され、さらに、その結果がオーバーラップ加算(OLA)ステージに伝えられる。次に、合成される成分の位相を得るために積分される。正弦波発振器は、結果として生じる位相信号によって供給される。AM信号は、他のOLAステージによって同様に処理される。最後に、発振器の出力は、出力信号に成分の加算貢献を得るために、結果として生じるAM信号によってその振幅において変調される。

0085

図4cの下部のブロックは、50%オーバーラップの場合においてオーバーラップ加算演算の好適な実施を示す。この実施において、現在のブロックからの実際に利用された情報の第1の部分は、以前のブロックの第2の部分である対応する部分に加算される。さらに、図4cの下部のブロックは、フェードアウトするブロックの部分が1から0に減少する重み付けを受信し同時にフェードインするブロックが0から1に増加する重み付けを受信する、クロスフェージング演算を示す。これらの重み付けは、解析器側ですでに適用され得り、さらに、それから、デコーダ側で加算器演算だけが必要である。しかしながら、好ましくは、これらの重み付けは、エンコーダ側で適用されないが、所定の方法でデコーダ側に適用される。上述のように、それぞれの解析ブロックの中央に置かれたN/2部分だけは、図4cに示されるように1/2のオーバーラップファクタが生じるように、合成のために用いられる。しかしながら、図4cの上部に示されるように4重のオーバーラップが示されるように、オーバーラップ/加算のためのそれぞれの解析ブロックの完全な部分を用いることもできる。中央部分が用いられる記載されている実施形態は、外側の4分の1の部分が解析ウィンドウのロールオフを含みさらに中央の4分の1の部分だけがフラットトップ部分を有するので、好ましい。

0086

他の全てのオーバーラップ率が、場合によっては実施され得る。

0087

0088

以下に、提案された変調処理スキームの特性を示すいくつかのスペクトログラムが提示される。図7aは、オーケストラクラシック音楽アイテム(ビバルディ)の抜粋の元のログスペクトログラムを示す。

0089

図7bから図7eは、だんだんと回復する変調詳細の順に、変調処理のさまざまな方法の後の対応するスペクトログラムを示す。図7bは、単にキャリアからの信号再構成を示す。白い領域は、高いスペクトルエネルギーに対応し、図7aの元の信号のスペクトログラムにおける局所エネルギー集中と一致する。図7cは、同じキャリアを示すが、非線形に平滑化されたAMおよびFMによって改良される。詳細の加算は、明らかに見える。さらに、図7dにおいて、AMの消失の詳細は、多くの詳細を信号に再び加算する、エンベロープ整形された「グレース(grace)」ノイズの加算によって補償される。最後に、未処理の変調成分からの合成された信号のスペクトログラムが、図7eに示される。図7eにおけるスペクトログラムを図7aにおける元の信号のスペクトログラムと比較すると、全詳細の非常に良好な再生を示す。

0090

提案された方法の性能を評価するために、主観的なリスニングテストが行われた。MUSHRA(非特許文献21)タイプのリスニングテストが、STAXの高品質静電型ヘッドホンを用いて行われた。全6人のリスナーがテストに参加した。全ての主体は、経験豊かなリスナーと考慮され得る。

0091

図8リストされるアイテムからなるテストセットおよびテストに基づく構成が、図9に包含される。

0092

図8におけるチャートプロットが結果を示す。アイテムごとに95%の信頼区間を有する平均結果が示される。プロットは、全てのリスナーのためのテスト結果の統計解析の後の結果を示す。X軸は処理タイプを表し、さらに、Y軸は0(悪い)から100(透過的)にわたっている100ポイントのMUSHRAスケールに従ってスコアを表す。

0093

結果から、完全なAMおよび完全なまたは粗いFMの詳細を有する2つのバージョンが平均において約80ポイントでベストをスコアするが、元のものからまだ識別可能であることがわかる。両方のバージョンの信頼区間が主にオーバーラップするので、細かいFM詳細の消失が実際に知覚的にごくわずかであると結論することができる。粗いAMおよびFM並びに加算された「グレース(grace)」ノイズを有するバージョンは、平均でまだ60ポイントであるがかなり低くスコアする:これは、細かいAM詳細情報脱落の増加とともに、提案された方法のグレースフルな劣化特性を反映する。

0094

大部分の劣化は、グロケンシュピールおよびハープシコードのような強い一時的な内容を有するアイテムのために知覚される。これは、スペクトル全体の異なる成分間の元の位相関係の消失に起因する。しかしながら、この問題は、全ての成分のために共同でAMエンベロープの時間的な重心でキャリア位相を調整することによって、提案された合成方法の将来のバージョンにおいて解決され得る。

0095

テストセットにおいてクラシック音楽アイテムのために、観察された劣化は、統計学的に意味がない。

0096

提示される解析/合成方法は、異なるアプリケーションシナリオにおいて有用であり得る:オーディオ符号化のために、それは、改善された知覚的に正しい細かい粒子のスケーラブルオーディオコーダの構成要素として働き、その基本原理が非特許文献1に発表されている。ビットレートの減少とともに、より少ない詳細は、例えば完全なAMエンベロープを粗いものおよび加算された「グレース(grace)」ノイズと置き換えることによってレシーバ側に伝えられる可能性がある。

0097

オーディオ帯域幅拡張のさらに新しい概念(非特許文献20)が考えられ、それは、ハイバンドを形成するためにシフトされおよび変更されたベースバンド成分を用いる。人間の聴覚器官特性の改良された実験は、変調構造(非特許文献11)の人間の知覚をさらに評価するために、空想的なサウンドの実行可能な例えば改良された創造物になる。

0098

最後に、音楽製品のための特に新しく刺激的芸術的なオーディ効果は、手の届く範囲にある:音楽アイテムのスケールおよびキーモードは、キャリア信号の適切な処理によって変更され得る、または、粗さ感覚の心理音響特性は、AM成分に関する操作によってアクセスされ得る。

0099

知覚的に意味があるキャリアおよびAM/FM成分に任意のオーディオ信号を分解するためのシステムの提案が提示され、それは、変調の詳細修正の細かい粒子のスケーラビリティを可能にする。適切な再合成方法が与えられた。変調処理原理のいくつかの例が概説され、例のオーディオファイルの結果として生じるスペクトグラムが提示された。リスニングテストは、変調処理および後の再合成の異なるタイプの知覚的な品質を実証するために行われた。この有望な新しい解析/合成方法のための将来のアプリケーションシナリオが確認された。結果は、提案された方法がパラメトリックおよび波形オーディオ処理間のギャップを埋めるための適切な手段を提供しさらに新しい魅力的なオーディオ効果を可能にすることを実証する。

0100

記載された実施形態は、本発明の原理のために単に示すだけである。ここに記載されている構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによって制限されるが、ここに実施形態の記載および説明として提示される具体的な詳細によっては制限されないことが意図である。

0101

本発明の方法の特定の実施要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施され得る。実施は、本発明の方法が実行されるように、プログラミング可能なコンピュータシステム協働する、それに格納される電子的に読み出すことができる制御信号を有するデジタル記憶媒体、特にディスク、DVDまたはCDを用いて実行され得る。そのため、本発明は、一般的に、機械読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために作動される。したがって、言い換えると、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ