図面 (/)

技術 オーディオフレーム損失のコンシールメントを制御する方法及び装置

出願人 テレフオンアクチーボラゲットエルエムエリクソン(パブル)
発明者 ブルーン,ステファンスヴェドベリ,ヨナス
出願日 2016年12月26日 (3年1ヶ月経過) 出願番号 2016-251224
公開日 2017年6月1日 (2年8ヶ月経過) 公開番号 2017-097365
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 減衰率β 振幅減衰率 スペクトル最大値 スペクトルピーク周波数 位相シフトθ 立ち下がり端 正弦波周波数 周波数領域分析
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年6月1日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

受信オーディオ信号損失オーディオフレームに対するコンシールメント方法を制御する方法及び装置を提供する。

解決手段

デコーダが損失オーディオフレームのコンシールメントを行う方法は、過去に受信し再構成されたオーディオ信号の特性又は観測されたフレーム損失統計的特性における、損失フレーム代替によって品質が相対的に低下する状態を検出する。そのような状態が検出された場合、代替フレームスペクトル位相又はスペクトル振幅を選択的に調整することにより、コンシールメント方法を修正する。

概要

背景

従来のオーディオ通信ステムは、音声信号及びオーディオ信号フレームごとに送信する。送信側は、まず信号を例えば20〜40msの短いセグメント又はフレームとして配列する。これらは順次、符号化され、例えば送信パケットにおける論理ユニットとして送信される。受信機は、それらの論理ユニットの各々を復号化し、対応する信号フレーム再構成する。再構成されたフレームは、最終的には再構成信号サンプル連続シーケンスとして出力される。符号化に先立って、マイクロホンからのアナログ音声信号又はアナログオーディオ信号オーディオサンプルシーケンスに変換するアナログデジタル(A/D)変換ステップが通常実行される。逆に、受信端では、再構成デジタル信号サンプルスピーカ再生のための連続時間アナログ信号に変換する最終D/A変換ステップが通常実行される。

しかし、音声信号及びオーディオ信号のそのような送信システムにおいては、送信エラーが生じ、これにより送信フレームのうち1つ又はいくつかを受信機で再構成のために利用できないという状況が起きる可能性がある。その場合、デコーダは、消失したフレーム、すなわち利用不可能なフレームの各々に対して代替の信号を生成する必要がある。これは、受信側信号デコーダのいわゆるフレーム損失コンシールメント(frame loss concealment)ユニット又はエラーコンシールメント(error concealment)ユニットで実行される。フレーム損失コンシールメントの目的は、フレーム損失を可能な限り聴き取れないようにし、それにより、フレーム損失が再構成信号の品質に与える影響を可能な限り軽減することである。

従来のフレーム損失コンシールメント方法は、コーデックの構造又はアーキテクチャに依存して、例えば過去に受信されたコーデックパラメータを反復して適用するというものである。そのようなパラメータ反復技術は、使用されるコーデックの特定のパラメータに明らかに依存しており、従って、異なる構造を有する他のコーデックには容易に適用することはできない。従来のフレーム損失コンシールメント方法は、損失フレームに対する代替フレームを生成するために、例えば過去に受信されたフレームのパラメータのフリーズ外挿を行うというものがある。

従来技術によるこれらのフレーム損失コンシールメント方法は、何らかのバースト損失処理方法を含む。一般に、1つの列の中のいくつかのフレーム損失があると、合成信号は、長いエラーバーストの後に完全に消音されるまで減衰される。更に、基本的に反復され外挿される符号化パラメータは、減衰が実現されスペクトルピーク平坦化されるよう修正される。

従来のフレーム損失コンシールメント技術は、通常、損失フレームに対する代替フレームを生成するために、通常、過去に受信されたフレームのパラメータをフリーズして外挿を行うという概念を適用する。AMR又はAMR−WBなどの線形予測コーデックのような多くのパラメトリック音声コーデックは、通常、過去に受信されたパラメータをフリーズするか又はその何らかの外挿を使用し、そのようなパラメータとともにデコーダを使用する。本質的には、この原理は、符号化/復号化のために所定のモデルを設定し、フリーズされたパラメータ又は外挿されたパラメータによって同一のモデルを適用するというものである。AMR及びAMR−WBのフレーム損失コンシールメント技術は代表的な技術であると考えることができる。それらの技術は、対応する規格仕様書の中で詳細に記述されている。

各種あるオーディオコーデックのうちの多くのコーデックは、何らかの周波数領域変換の後にスペクトルパラメータ符号化モデルが適用される周波数領域符号化技術を適用する。デコーダは、受信したパラメータから信号スペクトルを再構成し、最終的にスペクトルを変換して時間信号に戻す。通常、時間信号はフレームごとに再構成される。そのようなフレームは、オーバラップ加算技術により最終再構成信号として合成される。そのオーディオコーデックの場合であっても、従来のエラーコンシールメントは、損失フレームに対して同一の又は少なくとも類似する復号化モデルを通常適用する。過去に受信されたフレームからの周波数領域パラメータがフリーズされるか又は適切に外挿され、その後、周波数/時間領域変換で使用される。そのような技術の例は、3GPP規格準拠した3GPPオーディオコーデックによって提供される。

概要

受信オーディオ信号損失オーディオフレームに対するコンシールメント方法を制御する方法及び装置を提供する。デコーダが損失オーディオフレームのコンシールメントを行う方法は、過去に受信し再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替によって品質が相対的に低下する状態を検出する。そのような状態が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、コンシールメント方法を修正する。

目的

フレーム損失コンシールメントの目的は、フレーム損失を可能な限り聴き取れないようにし、それにより、フレーム損失が再構成信号の品質に与える影響を可能な限り軽減することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

受信オーディオ信号損失オーディオフレームに対するコンシールメント方法を制御する方法であって、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失統計的特性における、損失フレーム代替によって品質が相対的に低下するような状態を検出するステップ(101)と、状態が検出された場合、代替フレームスペクトル位相又はスペクトル振幅を選択的に調整することにより前記コンシールメント方法を修正するステップ(102)と、を有することを特徴とする方法。

請求項2

前記代替フレームスペクトルの当初の計算は、式Z(m)=Y(m)・ejθkに従って実行されることを特徴とする請求項1に記載の方法。

請求項3

前記検出される状態は過渡検出を含むことを特徴とする請求項1又は2に記載の方法。

請求項4

前記過渡検出は周波数領域で実行されることを特徴とする請求項3に記載の方法。

請求項5

前記過渡検出は、分析フレームを2つの部分フレームに分割するステップと、前記2つの部分フレームのエネルギ比を計算するステップと、前記エネルギ比を所定の閾値と比較するステップと、を含むことを特徴とする請求項3又は4に記載の方法。

請求項6

第1の部分フレームは前記分析フレームの左側部分を含み、第2の部分フレームは前記分析フレームの右側部分を含むことを特徴とする請求項5に記載の方法。

請求項7

前記所定閾値は、立ち下がり検出のための上限閾値と、立ち上がり検出のための下限閾値とを含むことを特徴とする請求項5に記載の方法。

請求項8

前記過渡検出は、周波数帯域に基づいて周波数選択的に実行されることを特徴とする請求項3乃至7のいずれか1項に記載の方法。

請求項9

周波数帯域幅は人間の聴覚臨界帯域の大きさに従うことを特徴とする請求項8に記載の方法。

請求項10

前記コンシールメント方法は、損失フレームの代替によって品質が相対的に低下する状態を示す指標に応じて更に修正され、前記指標は、使用されるコーデックモードを示すパラメータ音声有声音特性に関連するパラメータ、信号コンテンツ音楽であるか音声であるかの推定を示す信号コンテンツ指標、のうちの少なくとも1つに基づくことを特徴とする請求項1乃至9のいずれか1項に記載の方法。

請求項11

前記指標が、信号が有声音を含むことを示す場合、音声信号に合わせて最適化された代替フレーム損失コンシールメント方法が選択されることを特徴とする請求項10に記載の方法。

請求項12

前記損失フレームの前記代替によって品質が相対的に低下するような前記観測されたフレーム損失の1つの統計的特性は、前記フレーム損失のバースト性であることを特徴とする請求項1に記載の方法。

請求項13

前記スペクトル振幅は、前記フレーム損失のバースト性の検出に応じて、第1の減衰率を徐々に増加させることにより調整されることを特徴とする請求項12に記載の方法。

請求項14

過渡が示されたことに応じて第2の減衰率が設定され、前記第1の減衰率と前記第2の減衰率との積により全減衰量が制御されることを特徴とする請求項13に記載の方法。

請求項15

位相の調整は、位相スペクトルランダム化又はディザリングを含むことを特徴とする請求項1に記載の方法。

請求項16

前記位相スペクトルは、フレーム損失の検出されたバースト性に応じて、前記ディザリングを、徐々に程度を増加させながら実行することにより調整されることを特徴とする請求項12及び15に記載の方法。

請求項17

請求項1乃至16のうちの少なくとも1項に記載の方法を実行する手段を備えることを特徴とする装置。

請求項18

装置であって、プロセッサ(154)と、命令(155)を記憶するメモリ(156)と、を備え、前記命令(155)は、前記プロセッサにより実行されたとき、前記装置に、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替によって品質が相対的に低下するような状態を検出させ、そのような状態が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより前記コンシールメント方法を修正させることを特徴とする装置。

請求項19

前記代替フレームスペクトルの当初の計算は、式Z(m)=Y(m)・ejθkに従って実行されることを特徴とする請求項18に記載の装置。

請求項20

過渡検出器を更に有することを特徴とする請求項18に記載の装置。

請求項21

前記過渡検出器は、周波数領域で過渡検出を実行することを特徴とする請求項20に記載の装置。

請求項22

前記過渡検出器は、分析フレームを2つの部分フレームに分割し、前記2つの部分フレームのエネルギ比を計算し、前記エネルギ比を所定の閾値と比較することを特徴とする請求項20又は21に記載の装置。

請求項23

前記過渡検出器は、周波数帯域に基づいて周波数選択的な過渡検出を実行することを特徴とする請求項20乃至22のいずれか1項に記載の装置。

請求項24

前記装置は、更に、損失フレームの代替によって品質が相対的に低下する状態を示す指標に応じて前記コンシールメント方法を修正するように構成されており、前記指標は、使用されるコーデックモードを示すパラメータ、音声の有声音特性に関連するパラメータ、信号コンテンツが音楽であるか音声であるかの推定を示す信号コンテンツ指標、のうちの少なくとも1つに基づくことを特徴とする請求項18乃至23のいずれか1項に記載の装置。

請求項25

前記損失フレームの前記代替によって品質が相対的に低下するような前記観測されたフレーム損失の1つの統計的特性は、前記フレーム損失のバースト性であることを特徴とする請求項18に記載の装置。

請求項26

スペクトル振幅は、前記フレーム損失のバースト性の検出に応じて、第1の減衰率を徐々に増加させることにより調整されることを特徴とする請求項25に記載の装置。

請求項27

過渡が示されたことに応じて第2の減衰率が設定され、前記第1の減衰率と前記第2の減衰率との積により全減衰量が制御されることを特徴とする請求項26に記載の装置。

請求項28

位相の調整は、位相スペクトルのランダム化又はディザリングを含むことを特徴とする請求項18に記載の装置。

請求項29

前記装置は移動体装置デコーダであることを特徴とする請求項17又は18に記載の装置。

請求項30

コンピュータ読み取り可能なコードユニットを含むコンピュータプログラム(155)であって、装置で実行されると、前記装置に、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替によって品質が相対的に低下するような状態を検出させ(101)、そのような状態が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、コンシールメント方法を修正させる(102)ことを特徴とするコンピュータプログラム。

請求項31

コンピュータ読み取り可能な媒体と、前記コンピュータ読み取り可能な媒体に記憶された請求項30に記載のコンピュータプログラム(155)とを含むことを特徴とするコンピュータプログラム製品(156)。

請求項32

符号化オーディオ信号を受信する入力ユニット(132)と、損失オーディオフレームのコンシールメントを行う論理フレーム損失コンシールメントユニット(134)と、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替によって品質が相対的に低下するような状態を検出し、そのような状態が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、損失オーディオフレームの前記コンシールメントを修正するコントローラ(136)と、を有することを特徴とするデコーダ(130)。

請求項33

前記コントローラ(136)は、前記過去に受信され再構成されたオーディオ信号の特性又は前記観測されたフレーム損失の前記統計的特性における状態の前記検出を実行する検出器ユニット(146)と、前記コンシールメント方法の前記修正を実行する修正器ユニット(148)とを含むことを特徴とする請求項32に記載のデコーダ。

請求項34

受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する装置(130)であって、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替によって品質が相対的に低下するような状態を検出する検出モジュール(146)と、そのような状態が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、前記コンシールメント方法を修正する修正モジュール(148)と、を有することを特徴とする装置。

技術分野

0001

本発明は、受信したオーディオ信号損失オーディオフレームに対するコンシールメント(concealment)方法を制御する方法及び装置に関する。

背景技術

0002

従来のオーディオ通信ステムは、音声信号及びオーディオ信号をフレームごとに送信する。送信側は、まず信号を例えば20〜40msの短いセグメント又はフレームとして配列する。これらは順次、符号化され、例えば送信パケットにおける論理ユニットとして送信される。受信機は、それらの論理ユニットの各々を復号化し、対応する信号フレーム再構成する。再構成されたフレームは、最終的には再構成信号サンプル連続シーケンスとして出力される。符号化に先立って、マイクロホンからのアナログ音声信号又はアナログオーディオ信号オーディオサンプルシーケンスに変換するアナログデジタル(A/D)変換ステップが通常実行される。逆に、受信端では、再構成デジタル信号サンプルスピーカ再生のための連続時間アナログ信号に変換する最終D/A変換ステップが通常実行される。

0003

しかし、音声信号及びオーディオ信号のそのような送信システムにおいては、送信エラーが生じ、これにより送信フレームのうち1つ又はいくつかを受信機で再構成のために利用できないという状況が起きる可能性がある。その場合、デコーダは、消失したフレーム、すなわち利用不可能なフレームの各々に対して代替の信号を生成する必要がある。これは、受信側信号デコーダのいわゆるフレーム損失コンシールメント(frame loss concealment)ユニット又はエラーコンシールメント(error concealment)ユニットで実行される。フレーム損失コンシールメントの目的は、フレーム損失を可能な限り聴き取れないようにし、それにより、フレーム損失が再構成信号の品質に与える影響を可能な限り軽減することである。

0004

従来のフレーム損失コンシールメント方法は、コーデックの構造又はアーキテクチャに依存して、例えば過去に受信されたコーデックパラメータを反復して適用するというものである。そのようなパラメータ反復技術は、使用されるコーデックの特定のパラメータに明らかに依存しており、従って、異なる構造を有する他のコーデックには容易に適用することはできない。従来のフレーム損失コンシールメント方法は、損失フレームに対する代替フレームを生成するために、例えば過去に受信されたフレームのパラメータのフリーズ外挿を行うというものがある。

0005

従来技術によるこれらのフレーム損失コンシールメント方法は、何らかのバースト損失処理方法を含む。一般に、1つの列の中のいくつかのフレーム損失があると、合成信号は、長いエラーバーストの後に完全に消音されるまで減衰される。更に、基本的に反復され外挿される符号化パラメータは、減衰が実現されスペクトルピーク平坦化されるよう修正される。

0006

従来のフレーム損失コンシールメント技術は、通常、損失フレームに対する代替フレームを生成するために、通常、過去に受信されたフレームのパラメータをフリーズして外挿を行うという概念を適用する。AMR又はAMR−WBなどの線形予測コーデックのような多くのパラメトリック音声コーデックは、通常、過去に受信されたパラメータをフリーズするか又はその何らかの外挿を使用し、そのようなパラメータとともにデコーダを使用する。本質的には、この原理は、符号化/復号化のために所定のモデルを設定し、フリーズされたパラメータ又は外挿されたパラメータによって同一のモデルを適用するというものである。AMR及びAMR−WBのフレーム損失コンシールメント技術は代表的な技術であると考えることができる。それらの技術は、対応する規格仕様書の中で詳細に記述されている。

0007

各種あるオーディオコーデックのうちの多くのコーデックは、何らかの周波数領域変換の後にスペクトルパラメータ符号化モデルが適用される周波数領域符号化技術を適用する。デコーダは、受信したパラメータから信号スペクトルを再構成し、最終的にスペクトルを変換して時間信号に戻す。通常、時間信号はフレームごとに再構成される。そのようなフレームは、オーバラップ加算技術により最終再構成信号として合成される。そのオーディオコーデックの場合であっても、従来のエラーコンシールメントは、損失フレームに対して同一の又は少なくとも類似する復号化モデルを通常適用する。過去に受信されたフレームからの周波数領域パラメータがフリーズされるか又は適切に外挿され、その後、周波数/時間領域変換で使用される。そのような技術の例は、3GPP規格準拠した3GPPオーディオコーデックによって提供される。

発明が解決しようとする課題

0008

従来技術によるフレーム損失コンシールメントの方法では、一般に、品質の不足が問題となる。例えば、パラメータのフリーズ、外挿技術や損失フレーム対しても同一のデコーダモデルを再適用することによって、必ずしも、過去に復号化された信号フレームから損失フレームへの円滑かつ忠実な信号発展(signal evolution)が保証されるものではないということが主な問題点である。そのため、可聴信号はしばしば不連続になり、品質にも影響が出る。

0009

音声及びオーディオ伝送システム新規なフレーム損失コンシールメント方式を説明する。新規な方式により、従来のフレーム損失コンシールメント技術で実現可能であった品質と比較して、フレーム損失の場合の品質が改善される。

0010

本発明の実施形態の目的は、以下に説明される関連する新規な種類の方法であるのが好ましいフレーム損失コンシールメント方式を、可能な限り最良の再構成信号音質が実現されるように制御することである。実施形態は、信号の特性及びフレーム損失の時間的分布の双方に関して再構成品質を最適化することを目的とする。高い品質を提供することに関してフレーム損失コンシールメントで特に問題になるのは、オーディオ信号がエネルギ立ち上がり立ち下がりのような大きく変化する特性を有する場合、又はオーディオ信号のスペクトルが非常に大きく変動する場合である。その場合、説明したコンシールメント方法では、上記立ち上がり、立ち下がり、又はスペクトルの変動を繰り返してしまい、原信号から大きな変化して品質が劣化する。

0011

問題となる別のケースは、フレーム損失のバーストが連続的に起こる場合である。概念的には、説明した方法に係るフレーム損失コンシールメント方法では、そのような場合に対処しても、依然として音のアーチファクト(tonal artifacts)を生じてしまう。本発明の実施形態の別の目的は、そのような音のアーチファクトを可能な限り大きく軽減することである。

課題を解決するための手段

0012

第1の態様によれば、損失オーディオフレームのコンシールメントを行うデコーダの方法は、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替によって品質が相対的に低下するような条件を検出するステップを含む。そのような条件が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、コンシールメント方法を修正する。

0013

第2の態様によれば、デコーダは損失オーディオフレームのコンシールメントを実現するように構成される。デコーダは、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替により品質が相対的に低下するような条件を検出するコントローラを備える。そのような条件が検出された場合、コントローラは、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することによりコンシールメント方法を修正する。

0014

デコーダは、例えば移動電話などの装置で実現可能である。

0015

第3の態様によれば、受信機は、上述の第2の態様に係るデコーダを備える。

0016

第4の態様によれば、損失オーディオフレームのコンシールメントを行うためのコンピュータプログラムが定義される。コンピュータプログラムは、プロセッサにより実行されると、プロセッサに上述の第1の態様に従って損失オーディオフレームのコンシールメントを行わせる命令を含む。

0017

第5の態様によれば、コンピュータプログラム製品は、上述の第4の態様に係るコンピュータプログラムを記憶するコンピュータ読み取り可能な媒体を備える。

0018

一実施形態の利点は、従来のコンシールメント方法のみの場合に実現される品質と比較して、符号化音声信号及び符号化オーディオ信号の伝送におけるフレーム損失による音質への影響を大きく軽減できるフレーム損失コンシールメント方法の適応制御が実現されることである。実施形態の一般的利点は、損失フレームに対しても円滑かつ忠実な再構成信号の発展(evolution)が提供されることである。フレーム損失の聴感上の影響は、従来技術と比べて大幅に低減される。

図面の簡単な説明

0019

方形窓関数を示す図。
ハミング窓と方形窓との組み合わせを示す図。
窓関数の振幅スペクトルの一例を示す図。
周波数fkの例示的な正弦波信号線スペクトルを示す図。
周波数fkの窓掛け後の正弦波信号のスペクトルを示す図。
分析フレームに基づくDFTグリッドポイントの大きさに対応するバーを示す図。
DFTグリッドポイントP1、P2及びP3を通るパラボラフィッティングを示す図。
窓スペクトルメインローブのフィッティングを示す図。
DFTグリッドポイントP1及びP2を通るメインローブ近似関数Pのフィッティングを示す図。
受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する本発明の実施形態に係る例示的な方法を示すフローチャート
受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する本発明の実施形態に係る別の例示的な方法を示すフローチャート。
本発明の別の例示的な実施形態を示す図。
本発明の一実施形態に係る装置の一例を示す図。
本発明の一実施形態に係る装置の別の例を示す図。
本発明の一実施形態に係る装置の別の例を示す図。

実施例

0020

説明する新規なフレーム損失コンシールメント技術に関する新規な制御方式は、図10に示されるような以下のステップを含む。なお、方法はデコーダのコントローラによって実行可能である。

0021

1.前述の方法では損失フレームの代替によって音質が劣化してしまうような、過去に受信され再構成されたオーディオ信号の特性または観測されたフレーム損失の統計的特性の状態を検出する(101)。

0022

2.ステップ1でそのような状態が検出された場合、位相又はスペクトル振幅を選択的に調整することにより、Z(m)=Y(m)・ejθkによって代替フレームスペクトルを計算する方法の要素を修正する(102)。

0023

正弦波分析
新規な制御技術が適用されうるフレーム損失コンシールメント技術の第1のステップは、過去に受信された信号の一部の正弦波分析(sinusoidal analysis)を含む。この正弦波分析の目的は、その信号の主正弦波の周波数を特定することである。これは、限定された数の個別の正弦波から信号が構成されていること、すなわち信号が以下に示す種類のマルチ正弦波信号であることが、基本的な前提となっている。

0024

ただし、Kは、信号を構成すると想定される正弦波の数である。添字k=1…Kの各正弦波に対して、akは振幅、fkは周波数、φkは位相である。サンプリング周波数はfsで表され、時間離散信号サンプルs(n)の時間インデックスはnで表される。

0025

可能な限り正確な正弦波の周波数を特定することが第1に重要である。理想的な正弦波信号は線周波数fkの線スペクトルを有すると考えられるが、その真の値を特定するには、原理上、無限の測定時間が必要になるであろう。従って、実際には、本明細書において説明される正弦波分析に使用される信号セグメントに対応する短時間の測定に基づいて線周波数を推定することしかできないので、線周波数を発見するのは難しい。以下の説明中、この信号セグメントは分析フレームと呼ばれる。別の困難な問題は、信号が実際には時変信号であり、上記の式のパラメータが時間の経過に伴って変動するということである。そこで、測定をより正確にするためには長い分析フレームを使用することが望ましいが、起こりうる信号変動に更に適切に対応するためには、測定時間を短縮することが必要になる。その適切なトレードオフとしては、例えば20〜40ms程度の長さの分析フレームを使用することである。

0026

正弦波の周波数fkを特定可能にする好適な方法は、分析フレームの周波数領域分析を実行することである。この目的のために、例えばDFT又はDCT、あるいは類似する周波数領域変換によって、分析フレームは周波数領域に変換される。分析フレームのDFTが使用される場合、スペクトルは次式により表される。

0027

ただし、w(n)は、長さLの分析フレームを抽出し重み付けする窓関数を表す。典型的な窓関数は、例えば、図1に示されるようなn∈[0…L−1]に対して1であり、その他の場合は0である方形窓である。過去に受信されたオーディオ信号の時間指標は、分析フレームが時間指標n=0…L−1により参照されるように設定されると想定する。スペクトル分析に更に適すると思われる他の窓関数としては、例えばハミング窓、ハニング窓、カイザー窓又はブラックマン窓がある。特に有用であるとわかっている窓関数は、ハミング窓と方形窓との組み合わせである。図2に示されるように、この窓は、長さL1のハミング窓の左半分のような立ち上がり端形状及び長さL1のハミング窓の右半分のような立ち下がり端形状を有し、立ち上がり端と立ち下がり端との間で、窓は、長さL−L1の場合に1に等しい。

0028

窓分析フレーム|X(m)|の振幅スペクトルのピークは、必要とされる正弦波周波数fkの近似を構成する。しかし、この近似の正確度は、DFTの周波数間隔により限定される。ブロック長LのDFTの場合、正確度はfs/(2L)に限定される。

0029

実験によれば、このレベルの正確度は、本明細書において説明される方法の範囲内では低すぎるかもしれない。以下のことを考慮した結果に基づき、正確度の改善を得ることができる。

0030

窓分析フレームのスペクトルは、正弦波モデル信号S(Ω)の線スペクトルによる窓関数のスペクトルの畳み込みと、その後に続く次式のDFTのグリッドポイントにおけるサンプリングによって与えられる。

0031

0032

正弦波モデル信号のスペクトル表現を使用することにより、これを次のように書き換えることができる。

0033

0034

従って、サンプリングされたスペクトルは次式により表される。

0035

ただし、m=0…L−1

0036

この考えに基づき、分析フレームの振幅スペクトルの中で観測されるピークは、それらのピークの近傍で真の正弦波周波数が特定されるK個の正弦波を含む窓掛け後正弦波信号に由来するものと想定される。観測されたk番目のピークのDFTインデックス(グリッドポイント)をmkとすると、対応する周波数は、

であり、これは、真の正弦波周波数fkの近似であるとみなすことができる。真の正弦波周波数fkは、区間

の中にあると想定できる。

0037

なお、明確にするため、正弦波モデル信号の線スペクトルのスペクトルによる窓関数のスペクトルの畳み込みは、窓関数スペクトルの周波数シフトバージョン重畳であると理解することができ、このため、シフト周波数は正弦波の周波数である。次に、この重畳はDFTグリッドポイントでサンプリングされる。それらのステップは図3以降の図により示される。図3は窓関数の振幅スペクトルの一例を示す。図4は、周波数の1つの正弦波と共に正弦波信号の一例の振幅スペクトル(線スペクトル)を示す。図5は、正弦波の周波数における周波数シフト窓スペクトルを再現し、重畳する窓掛け後正弦波信号の振幅スペクトルを示す。図6点線は、分析フレームのDFTを計算することにより取得された窓掛け後正弦波におけるDFTのグリッドポイントの振幅に対応する。なお、すべてのスペクトルは正規化周波数パラメータΩによって周期的である。ここで、Ωは、サンプリング周波数fsに対応する2πである。

0038

先の説明及び図6は、使用される周波数領域変換の周波数分解能と比較して探索の分解能を増加させることによってのみ、正弦波周波数をよりよく近似できることを示唆する。

0039

正弦波の周波数fkの更によい近似を発見する好適な方法の1つは、放物線補間(parabolic interpolation)を適用することである。そのような方式の1つは、ピークを取り囲むDFT振幅スペクトルのグリッドポイントを通してパラボラフィッティングを行い、放物線最大値に属する各々の周波数を計算することである。放物線の次の適切な選択肢は2である。詳細には、以下の手順を適用することができる。

0040

1.窓掛け後分析フレームのDFTのピークを特定する。ピーク探索はピークの数K及びピークの対応するDFTインデックスを出力する。ピーク探索は、通常、DFT振幅スペクトル又は対数DFT振幅スペクトルに対して実行可能である。

0041

2.対応するDFTインデックスmkを有するピークk(k=1…K)ごとに、3つのポイント

を通してパラボラフィッティングを行う。その結果、次式により定義される放物線の放物線係数bk(0)、bk(1)、bk(2)が得られる。

0042

このパラボラフィッティングは、図7に示される。

0043

3.K個の放物線の各々に対して、その放物線が最大値を有するqの値に対応する補間周波数インデックス

を計算する。正弦波周波数fkの近似として

を使用する。

0044

説明した方式は良好な結果を提供するが、放物線は、窓関数の振幅スペクトル|W(Ω)|のメインローブの形状を近似しないので、いくつかの制限があるかもしれない。これを実行する代替方式は、以下に説明されるように、メインローブ近似を使用する改良型周波数推定である。この代替方式の主要な概念は、

のメインローブを近似する関数P(q)を、ピークを取り囲むDFT振幅スペクトルのグリッドポイントを通してフィッティングし、関数最大値に属する各々の周波数を計算することである。関数P(q)は、窓関数の周波数シフト振幅スペクトル

と同一でありうる。しかし、数値的に単純にするために、これを関数最大値の容易な計算を可能にする多項式にすべきである。以下に詳細に説明される手順を適用できる。

0045

1.窓分析フレームのDFTのポイントを特定する。ピーク探索はピークの数K及びピークの対応するDFTインデックスを出力する。ピーク探索は、通常、DFT振幅スペクトル又は対数DFT振幅スペクトルに対して実行可能である。

0046

2.所定の区間(q1,q2)に対して窓関数の振幅スペクトル

または対数振幅スペクトル

を近似する関数P(q)を取り出す。窓スペクトルのメインローブを近似する近似関数の選択は、図8により示される。

0047

3.対応するDFTインデックスmkを伴うピークk(k=1…K)ごとに、窓正弦波信号の連続スペクトル予想される真のピークを取り囲む2つのDFTグリッドポイントを通して周波数シフト関数

のフィッティングを行う。従って、
|X(mk−1)|が|X(mk+1)|より大きい場合、ポイント

を通して

のフィッティングを行い、そうでない場合、ポイント

を通して

のフィッティングを行う。簡単にするため、P(q)を2次又は4次のいずれかの多項式として選択できる。これにより、ステップ2の近似は単純な線形回帰計算及び

の簡単な計算となる。区間(q1、q2)は、すべてのピークに対して一定かつ同一になるように選択でき、例えば(q1、q2)=(−1,1)であるか、又は適応的である。適応的方式の場合、関数

が関連するDFTグリッドポイント{P1;P2}の範囲内で窓関数スペクトルのメインローブのフィッティングを行うように、区間を選択できる。このフィッティング処理図9に示される。

0048

4.窓正弦波信号の連続スペクトルがピークを有すると予測されるK個の周波数パラメータ

の各々に対して、

を正弦波周波数fkの近似として計算する。

0049

送信された信号が高調波である場合、何らかの基本周波数f0の整数倍数であるような周波数を有する正弦波から信号が構成される場合が多い。これは、信号が例えば有声音声又は何らかの楽器持続音のように非常に周期的である場合である。実施形態の正弦波モデルの周波数は周波数依存ではなく、同一の基本周波数に対して高調波の関係にあり、同一の基本周波数に由来する。この高調波特性を考慮に入れることにより、結果的に正弦波成分周波数の分析を相当に改善できる。

0050

改善の可能性の1つの概要は次の通りである。

0051

1.信号が高調波であるか否かを検査する。これは、例えば、フレーム損失以前の信号の周期性を評価することにより実行可能である。簡単な方法の1つは信号の自動相関分析を実行することである。何らかの時間遅延τ>0に関する自動相関関数の最大値を指標として使用できる。この最大値の値が所定の閾値を超えた場合、信号は高調波であるとみなすことができる。その場合、対応する時間遅延τは、

によって基本周波数と関連する信号の周期に対応する。

0052

多くの線形予測音声符号化法は、適応コードブックを使用していわゆる開ループ又は閉ループピッチ予測符号化、すなわちCELP符号化を適用する。信号が高調波である場合、そのような符号化方法により取り出されるピッチゲイン及び関連するピッチラグパラメータも、時間遅延に関してそれぞれ有用な指標である。

0053

f0を取得する更なる方法を以下に説明する。

0054

2.整数範囲1…Jmaxの中の高調波インデックスjごとに、高調波周波数fj=j・f0の近傍に分析フレームの(対数)DFT振幅スペクトルのピークが存在するか否かを検査する。fjの近傍は、デルタがDFTの周波数分解能DFT(fs/L)に対応するfjの周囲のデルタ範囲、すなわち区間

として定義されうる。対応する推定正弦波周波数

を有するピークが存在する場合、f^kをf^k=j・f0と置換する。

0055

上記の2ステップ手順の場合、信号が高調波であるか否かの検査及び基本周波数の偏移黙示的に、おそらくは反復方式で必ずしも何らかの別の方法からの指標を使用せずに取り出すことも可能である。そのような技術の一例を以下に示す。

0056

候補値{f0,1…f0,P}の集合の中からのf0,pごとに、

を置換することなく、高調波周波数の周囲の近傍に存在するDFTピークの数、すなわちf0,pの整数倍数をカウントしつつ、手順のステップ2を適用する。高調波周波数に又はその周囲に最大数のピークが取得される基本周波数f0,pmaxを特定する。このピークの最大数が所定の閾値を超えた場合、信号は高調波であると想定される。その場合、f0,pmaxは、ステップ2の実行に際して使用され、その結果、改善された正弦波周波数f^kをもたらす基本周波数であると想定できる。しかし、これに代わる更に好適な方法は、まず、高調波周波数と一致することがわかっているピーク周波数f^kに基づいて基本周波数f0を最適化することである。M個の高調波より成る集合、すなわち、周波数f^k(m), m = 1…MでM個のスペクトルピークの何らかの集合と一致することがわかっている何らかの基本周波数の整数倍数{n1…nM}を想定すると、基礎を成す(最適化)基本周波数f0,optは、高調波周波数とスペクトルピーク周波数との誤差を最小限にするように計算できる。最小にすべき誤差が平均2乗誤差

である場合、最適基本周波数は、

として計算される。候補値の初期集合{f0,1…f0,P}は、DFTピークの周波数又は推定正弦波周波数

から取得できる。
推定正弦波周波数

の正確度を改善する更なる可能性は、その時間発展(temporal evolution)を考慮することである。その目的のために、複数の分析フレームからの正弦波周波数の推定値を例えば平均化又は予測によって組み合わせることができる。平均化又は予測に先立って、各推定スペクトルピークを同一の基調となる各正弦波に結び付けるピーク追跡を適用することができる。

0057

(正弦波モデルの適用)
以下、フレーム損失コンシールメント演算を実行するための正弦波モデルの適用について説明する。

0058

対応する符号化情報が利用不可能であるため符号化信号の所定のセグメントをデコーダにより再構成できない場合を想定する。更に、このセグメントより過去の信号の部分が利用可能であるとする。y(n)(ただし、n=0…N−1)を、代替フレームz(n)が生成されなければならない利用不可能セグメントであるとし、n<0の場合のy(n)を、過去に復号された利用可能信号であるとする。この場合、第1のステップにおいて、長さL及び開始インデックスn-1の利用可能信号のプロトタイプフレームが窓関数w(n)によって抽出され、例えば次式のDFTによって周波数領域に変換される。

0059

0060

窓関数は、先に正弦波分析に関して説明した窓関数のうち1つでありうる。数値の複雑さを軽減するために、周波数領域変換後のフレームは、正弦波分析において使用されるフレームと同一であるのが好ましい。

0061

次のステップにおいて、想定正弦波モデルが適用される。想定正弦波モデルによれば、プロトタイプフレームのDFTを次のように書き表すことができる。

0062

0063

次のステップは、使用される窓関数のスペクトルが0にごく近い周波数範囲において重大な寄与をすると理解することである。図3に示されるように、窓関数の振幅スペクトルは、0にごく近い周波数に対しては大きく、そうでない周波数に対しては小さい(サンプリング周波数の2分の1に対応する−π〜πの正規化周波数範囲内)。従って、近似として、窓スペクトルW(m)は、区間M=[−mmin,mmax](mmin及びmmaxは小さな正の整数)に対してのみ0ではないと仮定する。特に、窓関数スペクトルの近似は、kごとに、上記の式中のシフトされた窓スペクトルの寄与が厳密に互いに重なり合わないように使用される。上記の式において、周波数インデックスごとに、1つの被加数からの、すなわち1つのシフトされた窓スペクトルからの寄与のみが常に最大である。これは、上記の式が下記の近似式縮小されることを意味する。

0064

非負であるm∈Mkに対して、kごとに、

0065

ここで、Mkは、整数区間

を示し、mmin,k及びmmax,kは、区間が互いに重なり合わないようにするという先に説明した制約適合する。mmin,k及びmmax,kの適切な選択は、それらの値を小さな整数値δ、例えばδ=3に設定することである。しかし、2つの隣接する正弦波周波数fk及びfk+1に関連するDFTインデックスが2δより小さい場合、区間が重なり合わないことが保証されるように、δは、

に設定される。関数floor(・)は、それ以下である関数引数に最も近い整数である。

0066

一実施形態による次のステップは、上記の式による正弦波モデルを適用し、そのK個の正弦波を時間的に発展(evolve)させることである。プロトタイプフレームの時間インデックスと比較して、消去セグメントの時間インデックスはn-1サンプルだけ異なるという仮定は、正弦波の位相が

だけ進んでいることを意味する。従って、発展させた正弦波モデルのDFTスペクトルは次式により表される。

0067

0068

シフトされた窓関数スペクトルが互いに重なり合わないという近似を再び適用すると、非負であるm∈Mkに対して、kごとに以下の式が得られる。

0069

0070

近似を使用することにより、プロトタイプフレームY-1Y(m)のDFTを、発展させた正弦波モデルY0(m)のDFTと比較すると、m∈Mkごとに位相が

だけシフトされる間、振幅スペクトルは不変のままであることがわかる。従って、各正弦波の近傍のプロトタイプフレームの周波数スペクトル係数は、正弦波周波数fkと、損失オーディオフレームとプロトタイプフレームn-1との間の時間差とに比例してシフトされる。

0071

従って、本実施形態によれば、次式により代替フレームを計算できる。
非負のm∈Mkに対して、kごとに、

とし、

0072

特定の一実施形態は、どの区間Mkにも属さないDFTインデックスに関する位相ランダム化に対処する。先に説明したように、区間Mk,k=1…Kは、それらの区間が厳密に重なり合わないように設定されなければならず、これは、区間のサイズを制御する何らかのパラメータδを使用して実行される。2つの隣接する正弦周波数距離に関連して、δが小さいということが起こりうる。従って、その場合、2つの区間の間に隙間ができることもありうる。そのため、対応するDFTインデックスmに対して、上記の式

に従った位相シフトは定義されない。本実施形態による適切な選択肢は、それらのインデックスに対して位相をランダム化することであり、その結果、Z(m)=Y(m)・ej2πrand(・)となる。ここで、関数rand(・)は何らかの乱数を返す。

0073

再構成信号の品質に関して、区間Mkのサイズを最適化することは有益であることがわかっている。特に信号が非常にトーン信号に近い場合、すなわち鮮明かつ明確なスペクトルピークを有する場合、区間を大きくすべきである。これは、例えば信号が明確な周期性を有する高調波である場合である。信号が広いスペクトル最大値を有し、さほど明確ではないスペクトル構造を有する他の場合には、狭い区間を使用することにより品質がよくなることがわかっている。この発見により、信号の特性に従って区間サイズを適応化させるという更なる改善が得られる。実施形態の1つはトーン性検出器又は周期性検出器を使用する。この検出器が信号がトーン信号に近いと判定すると、区間サイズを制御するδパラメータは、相対的に大きな値に設定される。そうでない場合、δパラメータは相対的に小さな値に設定される。

0074

上記の説明に基づき、オーディオフレーム損失コンシールメント方法は次のステップを含む。

0075

1.利用可能な、過去に合成された信号のセグメントを分析して、例えば改善周波数推定値を使用して、正弦波モデルの組成する正弦波周波数fkを取得する。

0076

2.利用可能な、過去に合成された信号からプロトタイプフレームy-1を抽出し、そのフレームのDFTを計算する。

0077

3.正弦波周波数fkと、プロトタイプフレームと代替フレームとの間の時間の進みn-1とに応じて、正弦波kごとの位相シフトθkを計算する。このステップにおいて、例えば、区間Mのサイズがオーディオ信号のトーン性に応じて適応化されうる。

0078

4.正弦波kごとに、正弦波周波数fkの周囲の近傍に関連するDFTインデックスに対して、プロトタイプフレームDFTの位相を選択的にθk進ませる。

0079

5.ステップ4で取得されたスペクトルの逆DFTを計算する。

0080

(信号及びフレーム損失特性の分析及び検出)
上述した方法は、オーディオ信号の特性は、短時間の間では、過去に受信され再構成された信号フレーム及び損失フレームから大きく変化することはないという仮定に基づいている。この場合、過去に再構成されたフレームの振幅スペクトルを保持し、過去に再構成された信号において検出された正弦波主成分の位相を発展させる(evolve)ことは、非常に良い選択である。しかし、例えば急激なエネルギ変化や急激なスペクトル変化を伴う過渡状態が存在する場合には、この仮定は誤りとなりうる。

0081

そのため、本発明に係る過渡検出器の第1の実施形態は、過去に再構成された信号のエネルギ変動に基づくことができる。図11に示されるこの方法は、分析フレーム113の左側部分及び右側部分のエネルギを計算する。分析フレームは、前述した正弦波分析に使用されるフレームと同一でよい。分析フレームの一部(左側又は右側)は、その分析フレームの最初の半分の部分または最後の半分の部分であってもよいし、例えば分析フレーム110の最初の4分の1の部分または最後の4分の1の部分であってもよい。それぞれの部分のエネルギ計算は、それらの部分フレームにおけるサンプルの2乗を加算することにより実行される。

0082

ただし、y(n)は分析フレームを示し、nleft及びnrightは共に、サイズNpartの部分フレームの開始インデックスを示す。

0083

左右の部分フレームのエネルギは、信号不連続性の検出に使用される。これは、比

を計算することにより実行される。比Rl/rが閾値(例えば、10)を超えた場合、急激なエネルギ減少(立ち下がり)による不連続性を検出できる(115)。同様に、比Rl/rが他の閾値(例えば、0.1)を下回った場合、急激なエネルギ増加(立ち上がり)による不連続性を検出できる(117)。

0084

前述したコンシールメント方法に関連して、上記定義したエネルギ比は多くの場合で感度の低すぎる指標であるかもしれないということが判明した。特に、実信号、とりわけ音楽信号の場合、ある周波数のトーンが急激に現れるのに対し、他の周波数の他のトーンが急激に消滅することがある。上記定義したエネルギ比を使用して信号フレームを分析すると、この指標は異なる周波数に対しては低い感度しか示さないので、いずれの場合にも、上記トーンのうちの少なくとも1つについて誤った検出結果を導く可能性がある。

0085

この問題に対する解決方法を以下の実施形態で説明する。まず、過渡検出が時間-周波数平面で実行される。分析フレームは、同様に左側部分フレームと右側部分フレームとに分割される(110)。しかし、それら2つの部分フレームは、(例えば、ハミング窓による適切な窓掛け(111)の後に)例えばNpart点DFTによって周波数領域に変換される(112)。

0086

及び、m=0…Npart−1の場合、

0087

ここで、インデックスmのDFTビンごとに、過渡検出を周波数選択的に実行可能である。DFTインデックスmごとに、左右の部分フレームの振幅スペクトルのパワを用いてエネルギ比を次のように計算できる(113)。

0088

0089

経験上、DFTビン分解能による周波数選択的過渡検出は、統計的変動推定誤差)のために相対的に不正確であることがわかっている。周波数帯域に基づいて周波数選択的過渡検出を実行した場合、演算の品質が向上することが判明している。lk=[mk-1+1,…,mk]がmk-1+1からmkまでのDFTビンを含むk番目の区間(k=1…K)を指定するとすれば、それらの区間は、K個の周波数帯域を定義する。そこで、左側部分フレームと右側部分フレームの各帯域エネルギの帯域ごとの比に基づいて、周波数群選択的過渡検出を実行できる。

0090

0091

なお、区間lk=[mk-1+1,…,mk]は、周波数帯域

に対応し、fsはオーディオサンプリング周波数である。

0092

最も低い下限周波数帯域境界m0を0に設定することは可能であるが、周波数が低くなるほど増加する推定誤差を軽減するために、それより高い周波数に対応するDFTインデックスに境界が設定されてもよい。最も高い上限周波数帯域境界mkを

に設定することは可能であるが、これは、過渡状態が依然として聞こえの効果に重大な影響を及ぼす低い周波数に対応するように選択されるのが好ましい。

0093

それらの周波数帯域のサイズ又は幅の適切な選択の1つは、それらを等しい大きさ、例えば数百Hzの幅、にすることである。別の好適な方法は、周波数帯域の幅を人間の聴覚臨界帯域のサイズに従うこと、すなわちそれらを聴覚系の周波数分解能に関連付けることである。これは、周波数帯域の幅を1kHzまでの周波数に対しては等しくし、約1kHzを超えた後は指数関数的に増加させることとほぼ同じである。指数関数的増加は、例えば帯域インデックスkの増分に伴って周波数帯域幅を2倍にすることを意味する。

0094

2つの部分フレームのエネルギ比に基づく過渡検出器の第1の実施形態で説明したように、2つの部分フレームの帯域エネルギ又はDFTビンエネルギに関連する比が、閾値と比較される。(周波数選択的)立ち下がり検出115には上限閾値が用いられ、(周波数選択的)立ち上がり検出117には下限閾値が用いられる。

0095

フレーム損失コンシールメント方法の適応化に適する更に別のオーディオ信号依存指標は、デコーダへ送信されるコーデックパラメータに基づくことができる。例えば、コーデックは、ITU−TG.718のようなマルチモドコデックであってもよい。そのようなコーデックは、信号の異なる種類に対して特定のコーデックモードを使用し、フレーム損失の直前のフレームにおけるコーデックモードの変更は、過渡の指標とみなされうる。

0096

フレーム損失コンシールメントの適応化に有用な別の指標は、有声音特性及び送信信号に関連するコーデックパラメータである。有声音は、人間の声道の周期的な声門励振により生成される極めて周期的な音声に関連する。

0097

更なる好適な指標は、信号コンテンツ音楽であるか音声であるかの推定の指標である。そのような指標は、通常はコーデックの一部でありうる信号分類器から取得できる。コーデックがそのような分類を実行し、デコーダに対する符号化パラメータとして利用可能な対応する分類がされた場合、このパラメータは、フレーム損失コンシールメント方法を適応化させるために使用される信号コンテンツ指標として使用されるのが好ましい。

0098

フレーム損失コンシールメント方法の適応化に使用されるのが好ましい別の指標は、フレーム損失のバースト性である。フレーム損失のバースト性は、数回のフレーム損失が連続的に起こり、そのため、フレーム損失コンシールメント方法がその演算に最近復号された有効信号部分を使用するのが難しくなっていることを意味する。従来の技術による指標は、連続して観測されたフレーム損失の数nburstである。このカウンタは、フレーム損失が起こるたびに1増分され、有効フレームが受信されると0にリセットされる。この指標は、本発明の例示的な実施形態に関連して使用される。

0099

(フレーム損失コンシールメント方法の適応化)
実行された上記のステップがフレーム損失コンシールメント演算の適応化を示唆する状態を示す場合、代替フレームのスペクトルの計算が修正される。

0100

代替フレームスペクトルの当初の計算は、式Z(m)=Y(m)・ejθkに従って実行されるが、振幅及び位相の双方を修正する適応化が導入される。振幅は2つの係数α(m)及びβ(m)によるスケーリングによって修正され、位相は追加位相成分

によって修正される。これにより、代替フレームは次のように修正計算される。

0101

0102

なお、

である場合、当初の(非適応)フレーム損失コンシールメント方法が使用される。従って、それらの値はそれぞれデフォルト値である。

0103

振幅適応化を導入することの一般的目的は、フレーム損失コンシールメント方法の音のアーチファクトを回避することである。そのような音のアーチファクトは、過渡音の反復から生じる音楽音、トーン音、あるいは異常音となりうる。そのような音のアーチファクトは品質の劣化につながると考えられるので、音のアーチファクトを回避することが、ここで説明する適応化の目的である。そのような適応化に適する方法は、代替フレームの振幅スペクトルを適切な程度に修正することである。

0104

図12は、コンシールメント方法修正の一実施形態を示す。バースト損失カウンタnburstが閾値thrburst(例えばthrburst=3)を超えた場合(121)、振幅適応化が実行されるのが好ましい(123)。その場合、減衰率として、1より小さい値(例えばα(m)=0.1)が使用される。

0105

ただし、徐々に程度が増加する減衰を実行するのが有益であることがわかっている。これを実現する好適な一実施形態は、フレームごとの減衰量の対数増加att_per_frameを指定する対数パラメータを定義することである。そこで、バーストカウンタが閾値を超えた場合の、徐々に増加する減衰率は、次式により計算される。

0106

ただし、定数cは、例えばデシベル(dB)単位でパラメータatt_per_frameを指定することを可能にする単なるスケーリング定数である。

0107

追加的な好適な適応化は、信号が音楽であるか音声であるかの推定を示す指標に応じて実行されるものである。音楽コンテンツの場合、音声コンテンツと比較して閾値thrburstを増加させ、フレームごとの減衰を減少させることが好ましい。これは、程度を下げながらフレーム損失コンシールメント方法の適応化を実行することに等しい。この種の適応化の背景にあるのは、一般に、音声と比較して音楽のほうが長い損失バーストの影響を受けやすいことである。従ってこの場合、少なくとも複数のフレーム損失が含まれる場合には、当初のフレーム損失コンシールメント方法、すなわち未修正のフレーム損失コンシールメント方法が依然として好適である。

0108

指標Rl/r,band(k)、あるいはRl/r(m)又はRl/rが閾値を超えたことに基づいて過渡が検出された場合、振幅減衰率に関する更なるコンシールメント方法の適応化が実行されるのが好ましい(122)。その場合、適切な適応化動作(125)は、全減衰量が2つの係数の積α(m)・β(m)により制御されるように第2の振幅減衰率β(m)を修正することである。

0109

β(m)は、過渡が示されたことに応じて設定される。立ち下がりが検出された場合、係数β(m)は、その立ち下がりのエネルギ減少を反映するように選択されるのが好ましい。適切な選択肢は、β(m)を検出されたゲイン変化に設定することである。すなわち、
m∈Ik,k=1…Kとして、

0110

立ち上がりが検出された場合、代替フレームにおけるエネルギ増加を制限するのが有利であることがわかっている。その場合、係数は、減衰も増幅もしないことを意味する固定値(例えば1)に設定することができる。

0111

なお、上記の説明において、振幅減衰率は周波数選択的に、すなわち、周波数帯域ごとに、個別に計算された係数によって適用されるのが好ましい。帯域方式が使用されない場合、対応する振幅減衰率をアナログ的に取得することが可能である。DFTビンレベルで周波数選択的過渡検出が使用される場合、DFTビンごとに個別にβ(m)を設定できる。あるいは、周波数選択的過渡指示がまったく使用されない場合、すべてのmに対してβ(m)を包括的に同一にすることができる。

0112

振幅減衰率の更なる好適な適応化は、位相の修正と関連して追加位相成分

によって実行される(127)。所定のmに対して、そのような位相修正が使用される場合、減衰率β(m)は更に減少される。位相修正の程度まで考慮に入れられるのが好ましい。位相修正が適度に実行されるだけの場合、β(m)はわずかにスケールダウンされるのみであるが、位相修正が強力である場合、β(m)は更に大幅にスケールダウンされる。

0113

位相適応化を導入することの一般的な目的は、生成される代替フレームのトーン性又は信号周期性が強すぎることによる品質劣化を招くようなことを回避することである。そのような適応化に適した方法は、位相を適切な程度にランダム化(randomize)又はディザリング(dithering)することである。

0114

そのような位相ディザリングは、追加位相成分

制御係数によってスケーリングされたランダム値

に設定されることにより実現される。

0115

関数rand(・)により得られるランダム値は、例えば疑似乱数発生器により生成される。ここで、疑似乱数発生器は、区間[0,2π]の中で1つの乱数を出力すると想定する。

0116

上式スケーリング係数α(m)は、当初の位相θkがディザリングされる程度を制御する。以下に示す実施形態は、このスケーリング係数を制御することによって位相適応化に対処する。スケーリング係数の制御は、先に説明した振幅修正係数の制御と同様に実行される。

0117

第1の実施形態によれば、スケーリング係数α(m)は、バースト損失カウンタに応じて適応化される。バースト損失カウンタnburstが閾値thrburst(例えばburst=3)を超えた場合、0より大きい数(例えば、α(m)=0.2)が使用される。

0118

しかし、徐々に程度を増加させながらディザリングを実行するのが有益であることが分かっている。これを実現する好適な一実施形態は、フレームごとのディザリングの増加を指定するパラメータdith_increase_per_frameを定義することである。そこで、バーストカウンタが閾値を超えた場合、徐々に増加するディザリング制御係数は次式により計算される。

0119

0120

ただし、上式において、α(m)は、全位相ディザリングが達成される最大値1に制限されなければならない。

0121

なお、位相ディザリングを開始するために使用されるバースト損失閾値thrburstは、振幅減衰に使用される閾値と同一の閾値であってもよい。しかし、それらの閾値を個別に最適値に設定することにより、より高い品質を得ることができ、これは、一般にそれらの閾値が異なっていてもよいことを意味する。

0122

信号が音楽であるか音声であるかの推定を示す指標に応じて、好適な追加的な適応化が実行される。音楽コンテンツの場合、音声コンテンツと比較して閾値thrburstを増加させるのが好ましい。これは、音声と比較して、音楽の場合の位相ディザリングは、連続する損失フレームの数が多い場合にのみ実行されることを意味する。これは、程度を下げながら音楽の場合のフレーム損失コンシールメント方法の適応化を実行することと同等である。この種の適応化の背景には、一般に音楽は、音声より長い損失バーストの影響を受けにくいということがある。従って、この場合、少なくとも多数の連続するフレーム損失に対しては、当初のフレーム損失コンシールメント方法、すなわち未修正のフレーム損失コンシールメント方法が依然として好ましい。

0123

更なる好適な実施形態は、検出された過渡に応じて位相ディザリングを適応化することである。その場合、そのビン、対応する周波数帯域のDFTビン、又はフレーム全体のDFTビンに関して過渡が示されたDFTビンmに対して、より強力な程度の位相ディザリングを使用できる。

0124

説明される方式の一部は、高調波信号、特に有声音の高調波信号に対してフレーム損失コンシールメント方法を最適化することに対処する。

0125

前述したような改善型周波数推定を使用する方法が実現されない場合、有声音声信号に対して品質を最適化するフレーム損失コンシールメント方法の別の適応可能性は、音楽及び音声を含む一般的なオーディオ信号に関する方法ではなく、音声に特定して設計されかつ最適化された他のフレーム損失コンシールメント方法に切り替えることである。その場合、信号が有声音声信号を含むという指標が、前述した方式ではなく別の音声最適化フレーム損失コンシールメント方式を選択するために使用される。

0126

実施形態は、図13に示されるようなデコーダのコントローラに適用される。図13は実施形態に係るデコーダの概略ブロック図である。デコーダ130は、符号化オーディオ信号を受信するように構成された入力ユニット132を備える。図は、論理フレーム損失コンシールメントユニット134によるフレーム損失コンシールメントを示し、これは、先述した実施形態に従ってデコーダが損失オーディオフレームのコンシールメントを実現するように構成されていることを示す。デコーダは、先述した実施形態を実現するコントローラ136を更に備える。コントローラ136は、受信され、再構成されたオーディオ信号の特性の中で又は観測されたフレーム損失の統計的特性において、先述した方法に従った損失フレームの代替が相対的に品質を低下させるような状態を検出するように構成される。そのような状態が検出された場合、コントローラ136は、位相又はスペクトル振幅を選択的に調整することにより、

に従って代替フレームスペクトルを計算するコンシールメント方法の要素を修正するように構成される。検出は、検出器ユニット146により実行可能であり、修正は、図14に示されるような修正器ユニット148により実行可能である。

0127

デコーダは、そこに含まれるユニットと共に、ハードウェアで実現可能である。デコーダのユニットの機能を実現するために使用可能であり、組み合わせ可能である回路素子には数多くの変形がありうる。そのような変形例は実施形態に含まれる。デコーダのハードウェア実現形態の特定の実施例は、共に汎用電子回路及び特定用途向け回路を含むデジタルシグナルプロセッサ(DSP)ハードウェアと集積回路技術である。

0128

あるいは、図13に示されるような本明細書において説明される実施形態に係るオーディオフレーム損失コンシールメントの実行を含めて、オーディオ信号を再構成するために、本明細書において説明されるデコーダ150は、例えば図15に示されるように、すなわち、プロセッサ154及び適切な記憶装置又はメモリ156を伴う適切なソフトウェア155のうち1つ以上により実現可能である。入力される符号化オーディオ信号は入力端子(IN)152により受信され、この入力端子(IN)152には、プロセッサ154及びメモリ156が接続される。ソフトウェアから取得された復号化、再構成化オーディオ信号は、出力端子(OUT)158から出力される。

0129

上述の技術は、例えば、移動体装置(例えば、移動電話、ラップトップ)又はパーソナルコンピュータなどの固定デバイスで使用可能な受信機において使用されうる。

0130

相互に作用するユニット又はモジュールの選択、並びにそれらのユニットの名前は単なる例であり、開示される処理動作を実行可能にするために複数の代替方法で構成されうることは理解されよう。

0131

なお、本明細書において説明されるユニット又はモジュールは、必ずしも個別の物理エンティティではなく、論理エンティティとしてみなされるべきものである。本明細書において開示される技術の範囲は、当業者には自明であると思われる他の実施形態をすべて含み、それに従って、本明細書の開示の範囲が限定されるべきではないことが理解されるだろう。

0132

単数形の要素を説明する場合、明示して指示のない限り、それは「ただ1つの」要素を意味するのではなく、「1つ以上の」要素を表す。先に説明された実施形態の要素と同等の、当業者には知られているすべての構造及び機能は、そこで参照することにより本発明に明白に取り入れられており、本発明に含まれることが意図される。更に、装置又は方法は、本発明に含まれるために、本明細書において開示された技術により解決されようとしているありとあらゆる問題に対処する必要はない。

0133

以上の説明の中で、開示される技術を完全に理解させるために、説明の便宜上、特定の構造、インタフェース、技術などの特定の詳細を述べたが、それは本発明を限定するものではない。しかし、それらの特定の詳細から逸脱した他の実施形態及び/又は実施形態の組み合わせにおいて、開示された技術が実施されてもよいことは当業者には明らかだろう。すなわち、本明細書には明示して説明又は図示されてはいないが、開示された技術の原理を具現化する種々の構成を当業者は考案できるだろう。場合によっては、不必要に詳細を述べることによって、開示される技術の説明をわかりにくくしないように、周知のデバイス回路及び方法の詳細な説明を省略した。開示される技術の原理、態様及び実施形態、並びにその特定の実施例を説明した本明細書のすべての記述は、それらと同等な構造及び同等な機能を共に含むことを意図する。更に、そのような同等物は、現在知られている同等物に加えて、将来開発される同等物、例えば、構造に関わらず同一の機能を実行するように開発された何らかの要素をも含むことが意図される。

0134

従って、例えば、添付の図は、技術の原理を具現化する例示的な回路又は他の機能ユニット、及び/又はコンピュータ読み取り可能な媒体で実質的に表現されてもよく、図には明示して示されてはいないが、コンピュータ又はプロセッサにより実行されうる種々の処理の概念図を表すことができることが当業者には理解されるだろう。

0135

機能ブロックを含む種々の要素の機能は、回路ハードウェア及び/又はコンピュータ読み取り可能な媒体に記憶された符号化命令の形のソフトウェアを実行可能なハードウェアの使用によって提供されてもよい。従って、そのような機能及び図示される機能ブロックは、ハードウェアで実現されかつ/又はコンピュータで実現され、従って機械で実現されると理解されるべきである。

0136

以上説明した実施形態は、本発明のいくつかの例示として理解されるべきである。本発明の範囲から逸脱することなく、それらの実施形態に対して種々の修正、組み合わせ及び変更が行われてもよいことは当業者には理解されよう。特に、異なる実施形態の異なる部分の方法は、技術的に可能であるならば、他の構成で組み合わせ可能である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ