図面 (/)

技術 定常的な背景雑音の平滑化を制御するための方法及び装置

出願人 テレフオンアクチーボラゲットエルエムエリクソン(パブル)
発明者 ブルーン,ステファン
出願日 2008年2月27日 (12年9ヶ月経過) 出願番号 2009-552637
公開日 2010年6月10日 (10年5ヶ月経過) 公開番号 2010-520513
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 時間的ゆらぎ 間接制御 制御ファクタ コンパクト表現 重み付き残差 追加レイヤ 傾斜補償 コアレイヤ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2010年6月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題・解決手段

通信音声セッションにおいて定常的な背景雑音平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、その信号のノイズネス尺度を提供し(S20)、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する(S30)。

概要

背景

音声符号化は、帯域制限された有線及び無線チャネル並びに記憶装置の少なくともいずれかを介する効率的な送信を行うために音声信号コンパクト表現を取得する処理である。今日、音声符号化器は、通信及びマルチメディア設備において不可欠な構成要素となっている。効率的な音声符号化に依存する市販のシステムには、PCを使用する多くのゲーム及びマルチメディアアプリケーションに加え、セルラ通信、VoIP(Voice Over IP(インターネットプロトコル))、テレビ会議電子玩具アーカイビング及びDSVD(Digital Simultaneous Voice and Data)などがある。

連続時間信号である場合、音声は、サンプリング及び量子化の処理を経てデジタル表現されうる。音声サンプルは、一般に、16ビット又は8ビットで量子化される。多くの他の信号と同様に、音声信号は、大量の冗長な情報(信号の連続サンプル間のノンゼロ相互情報)又は知覚とは無関係の大量な情報(聴き手に知覚されない情報)を含む。殆どの通信符号化器不可逆である。これは、合成音声知覚的には元の音声に類似するが物理的には異なることを意味する。

音声符号化器はデジタル化音声信号を符号化表現に変換する。通常、符号化表現はフレームで送信される。これに対応して、音声復号化器は、符号化フレームを受信て再構成音声を合成する。

最近の多くの音声符号化器は、LPC(線形予測符号化器)として知られている主流の音声符号化器に属する。そのような符号化器のいくつかの例は、3GPP FR、EFR、AMR、AMR−WB音声コーデック、3GPP2EVRC、SMV、EVRC−WB音声コーデック、並びにG.728、G.723、G.729等の種々のITU−Tコーデックである。

それらの符号化器は全て、信号生成処理において合成フィルタ概念を利用する。フィルタは、再生される信号の短期スペクトルモデル化するために使用されるが、フィルタへの入力は、全ての他の信号変動を処理すると仮定される。

これらの合成フィルタモデルの共通の特徴は、再生される信号が合成フィルタを規定するパラメータによって表されることである。用語「線形予測」は、フィルタパラメータ推定するために使用されることが多い方法の種類を示す。従って、再生される信号は、フィルタパラメータの集合により及び部分的にフィルタを駆動する励振信号により部分的に表される。

そのような符号化コンセプトの利点は、フィルタ及びその駆動励振信号の双方が相対的に少ないビットで効率的に記述されることにある。

LPCを使用するコーデックの1つの特定の種類は、いわゆる合成による分析(AbS)の原理に基づくものである。それらのコーデックは、デコーダローカルコピーエンコーダに組み込み、候補励振信号の集合のうち原音声信号に対する合成出力信号類似度を最大にする励振信号を選択することにより合成フィルタの駆動励振信号を見つける。

そのような線形予測符号化及び特にAbS符号化を利用するコンセプトは、例えば4乃至12kbpsの低ビットレートでも音声信号に対して比較的適切に動作することを証明している。しかし、そのような符号化技術を使用する移動電話において、ユーザが沈黙し、入力信号雑音等の周囲音を含む場合、現在の周知の符号化器は、音声信号に対して最適化されているため、そのような状況に対処することが困難である。エンコーダにより「誤って処理」されたために馴染みのある背景音が認識できない場合には、受信側の聴き手は不快に思うだろう。

いわゆる渦流音(swirling)は、再生された背景音の最もひどい品質劣化の1つの原因となる。これは、車の雑音等の比較的定常的な背景雑音に起こる現象であり、復号化信号のパワー及びスペクトルの不自然時間的ゆらぎにより起こる。それらのゆらぎは、合成フィルタ係数及びその励振信号の不完全な推定及び量子化により生じる。通常、コーデックのビットレートを増加させれば、渦流音は小さくなる。

渦流音は、従来技術において問題であると認識されており、これに対する複数の解決策が文献において提案されている。提案されている解決策のうちの1つは、米国特許第5632004号(特許文献1)において説明される。この特許によると、非音声期間中、合成された背景音のスペクトル変動が低減されるように、フィルタパラメータをローパスフィルタ又は帯域幅拡大によって修正する。この方法は米国特許第5579432号(特許文献2)において、検出された定常背景雑音のみに渦流音低減技術が適用されるように改善されている。

渦流音の問題に対処する別の方法が、米国特許第5487087号(特許文献3)に開示されている。この方法は、信号自体及びその時間的変動の双方に適合する修正信号量子化方式を使用する。特に、音声の非アクティブ期間中にLPCフィルタパラメータ及び信号ゲインパラメータに対してそのようなゆらぎが低減された量子化器を使用することが考えられる。

望ましくない合成信号のパワーゆらぎによる信号品質劣化は、別の方法によって対処される。そのうちの1つは、米国特許第6275798号(特許文献4)において説明され、3GPP TS 26.090(非特許文献1)において説明されるAMR音声コーデックアルゴリズムの一部でも説明されている。それによると、合成フィルタ励振信号の少なくとも1つの成分のゲイン、すなわち固定コードブックの寄与は、LPC短期スペクトルの定常性に依存して適応的に平滑化される。この方法は、平滑化が信号合成において使用されるゲインの制限を更に含む欧州特許第1096476号(特許文献5)及び欧州特許第1688920号(特許文献6)において展開されている。LPCボコーダにおいて使用される関連する方法は、米国特許第5953697号(特許文献7)において説明される。それによると、合成フィルタの励振信号のゲインは、合成音声の最大振幅入力音声波形包絡にちょうど到達するように制御される。

渦流音の問題に対処する更なる種類の方法は、音声復号化器の後のポストプロセッサとして動作する。欧州特許第0665530号(特許文献8)は、検出された非音声期間中に音声復号化器出力信号の一部分をローパスフィルタリングされたホワイトノイズ又はコンフォートノイズ信号で置換する方法を説明している。音声復号化器出力信号の一部をフィルタリングされたノイズで置換する関連する方法を開示する種々の文献において同様の方法がとられる。

ここで図1を参照する。スケーラブル符号化又はエンベデッド符号化は、符号化が階レイヤ的に行われる符号化パラダイムである。基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する。各レイヤは、多少の追加のビットレートを加える。生成されたビットストリームは埋め込まれる。これは、下位レイヤの符号化のビットストリームが上位レイヤのビットストリームに埋め込まれることを意味する。この特性により、送信又は受信機の任意の場所で上位レイヤに属するビットをドロップできる。そのような取り除かれたビットストリームは、ビットが保持されるレイヤまで依然として復号化可能である。

今日、最もよく使用されるスケーラブル音声圧縮アルゴリズムは、64kbpsのG.711のA/U-law対数PCMコーデックである。8kHzサンプリングのG.711コーデックは、12ビット又は13ビット線PCMサンプルを8ビット対サンプルに変換する。対数サンプルの指示されたビット表現は、G.711ビットストリームの最下位ビット(LSB)スチールを可能にし、G.711符号化器は実際には48、56及び64kbpsの間でSNRスケーラブルとなる。このG.711コーデックの拡張性は、帯域制御信号の目的で回線交換通信網において使用される。このG.711のスケーラビリティの使用の最近の例は、従来の64kbpsのPCMリンクを介する広帯域音声の設定及び転送を可能にする3GPP TFOプロトコルである。元の64kbpsのG.711ストリームのうちの8kbpsは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービス呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、64kbpsのG.711ストリームのうち16kbpsを使用する。オープンループスケーラビリティをサポートする他のより古い音声符号化規格はG.727(エンベデッドADPCM)であり、またある程度はG.722(サブバンドADPCM)を含む。

スケーラブル音声符号化技術における更に最近の進歩は、MPEG4−CELPにスケーラビリティ拡張性を提供するMPEG−4規格である。MPE基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際通信連合標準化部門であるITU−Tは近年、G.729.EVと呼ばれる新たなスケーラブルコーデックG.729.1の標準化を完了した。このスケーラブル音声コーデックのビットレートの範囲は、8kbps乃至32kbpsである。このコーデックの主な使用例は、いくつかのVoIP呼び出しの間の共有xDSL64/128kbpsアップリンク等のホーム又はオフィスゲートウェイにおける限定された帯域幅リソースの効率的な共有を可能にすることである。

スケーラブル音声符号化の最近の1つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。そのようなコーデックにおいて、下位レイヤは、例えばCELPが周知の例であるAbSパラダイムに従う単なる従来の音声符号化を採用する。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤはオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、一般に上位レイヤの符号化は下位レイヤの符号化の符号化誤差に対して動作する。

音声コーデックを考慮する別の関連する方法は、いわゆるスペクトル傾斜補償であり、これは、復号化音声の適応ポストフィルタリングにおいて行われる。これにより解決される問題は、短期ポストフィルタ又はフォルマントポストフィルタによって生じるスペクトル傾斜を補償することである。そのような技術は、例えばAMRコーデック及びSMVコーデックの一部であり、背景雑音の性能ではなく音声中のコーデックの性能を主に対象とする。SMVコーデックは、残差のLPC分析応答とは独立して合成フィルタリングの前に重み付き残差領域においてその傾斜補償を適用する。

渦流音の問題に対処する上述の技術に共通するのは、音声再生品質に悪影響を及ぼさずに渦流音に対して最適な改善効果を与えられるように、それらの技術を適用することが不可欠であるということである。それらの方法はすべて、再構成される信号の特性に依存してアクティブ又は非アクティブにされるのに従って実現される適切な規則が存在する場合には利点のみを提供する。以下において、最新の渦流音低減技術が制御方法の特定の面の下で説明される。

非特許文献2は、特定のノイズ平滑化方法及びその特定の制御を開示している。制御は、その特定の平滑化方法においてある特定のゲインファクタを管理する復号化信号における背景雑音比の推定値に基づく。他の方法とは異なり、この平滑化方法の起動VADフラグ又は例えばある定常性計測値に応答して制御されないことを強調する価値がある。

上述の従来技術とは対照的に、非特許文献3は、ある定常雑音検出器に応答する平滑化動作を説明する。専用のVADは使用されずピッチ情報に加えてエネルギゆらぎ及びLPCパラメータLSF)の測定値に依存して困難な決定が行われる。音声フレームを定常雑音フレームとして間違えて分類してしまう問題を軽減するために、ハングオーバ期間音声バーストに追加される。

特許文献8は、VADフラグに応答して動作する背景雑音平滑化方法の制御機能を説明する。音声フレームが非アクティブと宣言されるのを防止するために、ハングオーバ期間が、アクティブな音声として宣言される信号バーストに追加される。その期間中、ノイズ平滑化は非アクティブのままである。背景雑音平滑化が停止される期間から平滑化が開始される期間への円滑な遷移保証するために、平滑化はある固定の最大平滑動作度まで徐々に起動される。復号化音声信号の一部を置換するノイズ信号のパワー及びスペクトル特性ハイパスフィルタリングの程度)は、復号化音声信号の背景雑音レベル推定値に適応される。しかし、平滑動作度、すなわち復号化音声信号がノイズにより置換される量は、単にVAD決定に依存し、背景雑音の特性(定常性等)の分析には全く依存しない。

特許文献4の上述の開示は、混合ファクタに応答する漸進的な(ゲイン)パラメータ平滑化を可能にする復号化器に対するパラメータ平滑化方法を説明する。混合ファクタは、再構成される信号の定常性を示し、平滑化が実行される程検出される定常性が大きくなるようにパラメータ平滑化を制御する。

概要

通信音声セッションにおいて定常的な背景雑音を平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、その信号のノイズネス尺度を提供し(S20)、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する(S30)。

目的

基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

通信音声セッションにおいて定常的な背景雑音平滑化するための方法であって、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化するステップ(S10)と、前記信号のノイズネス尺度を提供するステップ(S20)と、前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化するステップ(S30)と、を有することを特徴とする方法。

請求項2

前記ノイズネス尺度は、前記信号の予測性に基づくことを特徴とする請求項1に記載の方法。

請求項3

前記ノイズネス尺度は、異なる次数LP分析フィルタリングに伴う予測誤差分散の比に基づくことを特徴とする請求項2に記載の方法。

請求項4

前記ノイズネス尺度は、入力された前記信号の検出された狭帯域又は広帯域の成分に応答して適応されることを特徴とする請求項1に記載の方法。

請求項5

前記平滑化の処理は、前記ノイズネス尺度によって直接制御されることを特徴とする請求項1に記載の方法。

請求項6

前記平滑化の処理は、前記ノイズネス尺度によって間接的に制御されることを特徴とする請求項1に記載の方法。

請求項7

前記平滑化は、前記ノイズネス尺度の検出された増加には徐々に従い前記ノイズネス尺度の検出された低下には即座に従う平滑化制御パラメータに基づいて実行されることを特徴とする請求項6に記載の方法。

請求項8

前記ノイズネス尺度を提供するステップ(S20)は、前記信号の各フレームに対して少なくとも1回実行されることを特徴とする請求項1に記載の方法。

請求項9

前記ノイズネス尺度を提供するステップ(S20)は、前記信号の前記各フレームの各サブフレームに対して実行されることを特徴とする請求項8に記載の方法。

請求項10

前記音声成分のアクティビティ状態を検出し(S25)、前記音声成分が非アクティブ状態であることに応答して前記適応的な平滑化を開始させるステップを更に有することを特徴とする請求項1乃至9のいずれか1項に記載の方法。

請求項11

前記音声成分が非アクティブであることが検出されたことに応答して所定の遅延を伴って前記適応的な平滑化を開始することを特徴とする請求項10に記載の方法。

請求項12

所定の数より少ないフレームのスプリアスVADアクティベーションの直後に前記背景雑音の平滑化を再開することを特徴とする請求項11に記載の方法。

請求項13

前記遅延の終了時に前記平滑化の動作を徐々に開始することを特徴とする請求項11に記載の方法。

請求項14

前記音声成分がアクティブであることが検出されたことに応答して前記適応的な平滑化を直ちに終了することを特徴とする請求項10に記載の方法。

請求項15

通信システムにおける背景音の平滑化のためのコントローラであって、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段(10)と、前記信号のノイズネス尺度を提供する手段(20)と、前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化する手段(30)と、を有することを特徴とするコントローラ。

請求項16

前記ノイズネス尺度を提供する手段(20)は、ネットワークノードから前記ノイズネス尺度を受信することを特徴とする請求項15に記載のコントローラ。

請求項17

前記ノイズネス尺度を提供する手段(20)は、受信され復号化された前記信号のLPCパラメータに基づいて前記ノイズネス尺度を導出することを特徴とする請求項15に記載のコントローラ。

請求項18

前記音声成分のアクティビティ状態を検出する手段(25)を更に有し、前記平滑化する手段は、前記音声成分が非アクティブであることに応答して前記適応的な平滑化を開始することを特徴とする請求項15に記載のコントローラ。

請求項19

前記平滑化する手段(30)は、前記音声成分が非アクティブであることが検出されたことに応答して所定の遅延を伴って前記適応的な平滑化を開始することを特徴とする請求項18に記載のコントローラ。

請求項20

前記平滑化する手段は、前記遅延の終了時に前記平滑化の動作を徐々に開始することを特徴とする請求項18に記載のコントローラ。

請求項21

前記平滑化する手段は、前記音声成分がアクティブであることが検出されたことに応答して前記適応な平滑化を直ちに終了することを特徴とする請求項18に記載のコントローラ。

請求項22

通信システムにおける復号化装置であって、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段(10)と、前記信号のノイズネス尺度を提供する手段(20)と、前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化する手段(30)と、を有することを特徴とする復号化装置。

請求項23

前記ノイズネス尺度を提供する手段は、ネットワークノードから前記ノイズネス尺度を受信することを特徴とする請求項22に記載の復号化装置。

請求項24

前記ノイズネス尺度を提供する手段は、受信され復号化された前記信号のLPCパラメータに基づいて前記ノイズネス尺度を導出することを特徴とする請求項22に記載の復号化装置。

請求項25

通信システムにおける符号化装置であって、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を符号化してユーザ端末に送信する手段(100)と、前記送信された信号のノイズネス尺度を判定する手段(200)と、前記ユーザ端末において前記判定されたノイズネス尺度を提供する手段(300)と、を有することを特徴とする符号化装置。

技術分野

0001

本発明は、通信ステムにおける音声符号化に関し、特に、通信システムにおいて定常的な背景雑音平滑化を制御するための方法及び装置に関する。

背景技術

0002

音声符号化は、帯域制限された有線及び無線チャネル並びに記憶装置の少なくともいずれかを介する効率的な送信を行うために音声信号コンパクト表現を取得する処理である。今日、音声符号化器は、通信及びマルチメディア設備において不可欠な構成要素となっている。効率的な音声符号化に依存する市販のシステムには、PCを使用する多くのゲーム及びマルチメディアアプリケーションに加え、セルラ通信、VoIP(Voice Over IP(インターネットプロトコル))、テレビ会議電子玩具アーカイビング及びDSVD(Digital Simultaneous Voice and Data)などがある。

0003

連続時間信号である場合、音声は、サンプリング及び量子化の処理を経てデジタル表現されうる。音声サンプルは、一般に、16ビット又は8ビットで量子化される。多くの他の信号と同様に、音声信号は、大量の冗長な情報(信号の連続サンプル間のノンゼロ相互情報)又は知覚とは無関係の大量な情報(聴き手に知覚されない情報)を含む。殆どの通信符号化器不可逆である。これは、合成音声知覚的には元の音声に類似するが物理的には異なることを意味する。

0004

音声符号化器はデジタル化音声信号を符号化表現に変換する。通常、符号化表現はフレームで送信される。これに対応して、音声復号化器は、符号化フレームを受信て再構成音声を合成する。

0005

最近の多くの音声符号化器は、LPC(線形予測符号化器)として知られている主流の音声符号化器に属する。そのような符号化器のいくつかの例は、3GPP FR、EFR、AMR、AMR−WB音声コーデック、3GPP2EVRC、SMV、EVRC−WB音声コーデック、並びにG.728、G.723、G.729等の種々のITU−Tコーデックである。

0006

それらの符号化器は全て、信号生成処理において合成フィルタ概念を利用する。フィルタは、再生される信号の短期スペクトルモデル化するために使用されるが、フィルタへの入力は、全ての他の信号変動を処理すると仮定される。

0007

これらの合成フィルタモデルの共通の特徴は、再生される信号が合成フィルタを規定するパラメータによって表されることである。用語「線形予測」は、フィルタパラメータ推定するために使用されることが多い方法の種類を示す。従って、再生される信号は、フィルタパラメータの集合により及び部分的にフィルタを駆動する励振信号により部分的に表される。

0008

そのような符号化コンセプトの利点は、フィルタ及びその駆動励振信号の双方が相対的に少ないビットで効率的に記述されることにある。

0009

LPCを使用するコーデックの1つの特定の種類は、いわゆる合成による分析(AbS)の原理に基づくものである。それらのコーデックは、デコーダローカルコピーエンコーダに組み込み、候補励振信号の集合のうち原音声信号に対する合成出力信号類似度を最大にする励振信号を選択することにより合成フィルタの駆動励振信号を見つける。

0010

そのような線形予測符号化及び特にAbS符号化を利用するコンセプトは、例えば4乃至12kbpsの低ビットレートでも音声信号に対して比較的適切に動作することを証明している。しかし、そのような符号化技術を使用する移動電話において、ユーザが沈黙し、入力信号雑音等の周囲音を含む場合、現在の周知の符号化器は、音声信号に対して最適化されているため、そのような状況に対処することが困難である。エンコーダにより「誤って処理」されたために馴染みのある背景音が認識できない場合には、受信側の聴き手は不快に思うだろう。

0011

いわゆる渦流音(swirling)は、再生された背景音の最もひどい品質劣化の1つの原因となる。これは、車の雑音等の比較的定常的な背景雑音に起こる現象であり、復号化信号のパワー及びスペクトルの不自然時間的ゆらぎにより起こる。それらのゆらぎは、合成フィルタ係数及びその励振信号の不完全な推定及び量子化により生じる。通常、コーデックのビットレートを増加させれば、渦流音は小さくなる。

0012

渦流音は、従来技術において問題であると認識されており、これに対する複数の解決策が文献において提案されている。提案されている解決策のうちの1つは、米国特許第5632004号(特許文献1)において説明される。この特許によると、非音声期間中、合成された背景音のスペクトル変動が低減されるように、フィルタパラメータをローパスフィルタ又は帯域幅拡大によって修正する。この方法は米国特許第5579432号(特許文献2)において、検出された定常背景雑音のみに渦流音低減技術が適用されるように改善されている。

0013

渦流音の問題に対処する別の方法が、米国特許第5487087号(特許文献3)に開示されている。この方法は、信号自体及びその時間的変動の双方に適合する修正信号量子化方式を使用する。特に、音声の非アクティブ期間中にLPCフィルタパラメータ及び信号ゲインパラメータに対してそのようなゆらぎが低減された量子化器を使用することが考えられる。

0014

望ましくない合成信号のパワーゆらぎによる信号品質劣化は、別の方法によって対処される。そのうちの1つは、米国特許第6275798号(特許文献4)において説明され、3GPP TS 26.090(非特許文献1)において説明されるAMR音声コーデックアルゴリズムの一部でも説明されている。それによると、合成フィルタ励振信号の少なくとも1つの成分のゲイン、すなわち固定コードブックの寄与は、LPC短期スペクトルの定常性に依存して適応的に平滑化される。この方法は、平滑化が信号合成において使用されるゲインの制限を更に含む欧州特許第1096476号(特許文献5)及び欧州特許第1688920号(特許文献6)において展開されている。LPCボコーダにおいて使用される関連する方法は、米国特許第5953697号(特許文献7)において説明される。それによると、合成フィルタの励振信号のゲインは、合成音声の最大振幅入力音声波形包絡にちょうど到達するように制御される。

0015

渦流音の問題に対処する更なる種類の方法は、音声復号化器の後のポストプロセッサとして動作する。欧州特許第0665530号(特許文献8)は、検出された非音声期間中に音声復号化器出力信号の一部分をローパスフィルタリングされたホワイトノイズ又はコンフォートノイズ信号で置換する方法を説明している。音声復号化器出力信号の一部をフィルタリングされたノイズで置換する関連する方法を開示する種々の文献において同様の方法がとられる。

0016

ここで図1を参照する。スケーラブル符号化又はエンベデッド符号化は、符号化が階レイヤ的に行われる符号化パラダイムである。基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する。各レイヤは、多少の追加のビットレートを加える。生成されたビットストリームは埋め込まれる。これは、下位レイヤの符号化のビットストリームが上位レイヤのビットストリームに埋め込まれることを意味する。この特性により、送信又は受信機の任意の場所で上位レイヤに属するビットをドロップできる。そのような取り除かれたビットストリームは、ビットが保持されるレイヤまで依然として復号化可能である。

0017

今日、最もよく使用されるスケーラブル音声圧縮アルゴリズムは、64kbpsのG.711のA/U-law対数PCMコーデックである。8kHzサンプリングのG.711コーデックは、12ビット又は13ビット線PCMサンプルを8ビット対サンプルに変換する。対数サンプルの指示されたビット表現は、G.711ビットストリームの最下位ビット(LSB)スチールを可能にし、G.711符号化器は実際には48、56及び64kbpsの間でSNRスケーラブルとなる。このG.711コーデックの拡張性は、帯域制御信号の目的で回線交換通信網において使用される。このG.711のスケーラビリティの使用の最近の例は、従来の64kbpsのPCMリンクを介する広帯域音声の設定及び転送を可能にする3GPP TFOプロトコルである。元の64kbpsのG.711ストリームのうちの8kbpsは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービス呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、64kbpsのG.711ストリームのうち16kbpsを使用する。オープンループスケーラビリティをサポートする他のより古い音声符号化規格はG.727(エンベデッドADPCM)であり、またある程度はG.722(サブバンドADPCM)を含む。

0018

スケーラブル音声符号化技術における更に最近の進歩は、MPEG4−CELPにスケーラビリティ拡張性を提供するMPEG−4規格である。MPE基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際通信連合標準化部門であるITU−Tは近年、G.729.EVと呼ばれる新たなスケーラブルコーデックG.729.1の標準化を完了した。このスケーラブル音声コーデックのビットレートの範囲は、8kbps乃至32kbpsである。このコーデックの主な使用例は、いくつかのVoIP呼び出しの間の共有xDSL64/128kbpsアップリンク等のホーム又はオフィスゲートウェイにおける限定された帯域幅リソースの効率的な共有を可能にすることである。

0019

スケーラブル音声符号化の最近の1つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。そのようなコーデックにおいて、下位レイヤは、例えばCELPが周知の例であるAbSパラダイムに従う単なる従来の音声符号化を採用する。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤはオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、一般に上位レイヤの符号化は下位レイヤの符号化の符号化誤差に対して動作する。

0020

音声コーデックを考慮する別の関連する方法は、いわゆるスペクトル傾斜補償であり、これは、復号化音声の適応ポストフィルタリングにおいて行われる。これにより解決される問題は、短期ポストフィルタ又はフォルマントポストフィルタによって生じるスペクトル傾斜を補償することである。そのような技術は、例えばAMRコーデック及びSMVコーデックの一部であり、背景雑音の性能ではなく音声中のコーデックの性能を主に対象とする。SMVコーデックは、残差のLPC分析応答とは独立して合成フィルタリングの前に重み付き残差領域においてその傾斜補償を適用する。

0021

渦流音の問題に対処する上述の技術に共通するのは、音声再生品質に悪影響を及ぼさずに渦流音に対して最適な改善効果を与えられるように、それらの技術を適用することが不可欠であるということである。それらの方法はすべて、再構成される信号の特性に依存してアクティブ又は非アクティブにされるのに従って実現される適切な規則が存在する場合には利点のみを提供する。以下において、最新の渦流音低減技術が制御方法の特定の面の下で説明される。

0022

非特許文献2は、特定のノイズ平滑化方法及びその特定の制御を開示している。制御は、その特定の平滑化方法においてある特定のゲインファクタを管理する復号化信号における背景雑音比の推定値に基づく。他の方法とは異なり、この平滑化方法の起動VADフラグ又は例えばある定常性計測値に応答して制御されないことを強調する価値がある。

0023

上述の従来技術とは対照的に、非特許文献3は、ある定常雑音検出器に応答する平滑化動作を説明する。専用のVADは使用されずピッチ情報に加えてエネルギゆらぎ及びLPCパラメータLSF)の測定値に依存して困難な決定が行われる。音声フレームを定常雑音フレームとして間違えて分類してしまう問題を軽減するために、ハングオーバ期間音声バーストに追加される。

0024

特許文献8は、VADフラグに応答して動作する背景雑音平滑化方法の制御機能を説明する。音声フレームが非アクティブと宣言されるのを防止するために、ハングオーバ期間が、アクティブな音声として宣言される信号バーストに追加される。その期間中、ノイズ平滑化は非アクティブのままである。背景雑音平滑化が停止される期間から平滑化が開始される期間への円滑な遷移保証するために、平滑化はある固定の最大平滑動作度まで徐々に起動される。復号化音声信号の一部を置換するノイズ信号のパワー及びスペクトル特性ハイパスフィルタリングの程度)は、復号化音声信号の背景雑音レベル推定値に適応される。しかし、平滑動作度、すなわち復号化音声信号がノイズにより置換される量は、単にVAD決定に依存し、背景雑音の特性(定常性等)の分析には全く依存しない。

0025

特許文献4の上述の開示は、混合ファクタに応答する漸進的な(ゲイン)パラメータ平滑化を可能にする復号化器に対するパラメータ平滑化方法を説明する。混合ファクタは、再構成される信号の定常性を示し、平滑化が実行される程検出される定常性が大きくなるようにパラメータ平滑化を制御する。

0026

米国特許第5632004号
米国特許第5579432号
米国特許第5487087号
米国特許第6275798号
欧州特許第1096476号
欧州特許第1688920号
米国特許第5953697号
欧州特許第0665530号

先行技術

0027

3GPP TS 26.090, AMRSpeech Codec; Transcoding functions
Tasaki他, "Post noise smootherto improve low bit rate speech-coding performance",IEEE Workshop on speech coding, 1999
Ehara他, "Noise Post-Processing Based on a Stationary Noise Generator", IEEE Workshop on speech coding, 2002

発明が解決しようとする課題

0028

非特許文献2に係る平滑化動作制御アルゴリズムの主な問題は、それが当該文献に記載された特定のノイズ平滑化器向けにつくられていることである。従って、任意の他のノイズ平滑化方法と共に使用されるか(及びどのように使用されるか)は明らかではない。VADを使用しないと、音声がアクティブである期間に信号修正を実行してしまうという問題が発生する。これは、潜在的に音声を劣化させるか又は少なくとも再生音の自然さに影響を及ぼす。

0029

非特許文献3及び特許文献8に係る平滑化アルゴリズムの主な問題は、背景雑音平滑度が、近似される背景雑音の特性に徐々に依存しないことである。例えば従来技術である非特許文献3は、平滑化動作が完全に使用可能又は使用不可能にされる際に依存する定常ノイズフレーム検出を使用する。同様に、特許文献8で開示される方法は、背景雑音特性に依存してより低い程度で使用されるように平滑化方法を管理する能力を有していない。これは、方法が採用されたノイズ平滑化方法により適切にモデル化されない特性を示すにも関わらず定常ノイズ又は非アクティブな音声として分類される背景雑音の種類に対する不自然なノイズ再生の悪影響を受ける可能性があることを意味する。

0030

特許文献4に開示される方法の主な問題は、方法が少なくとも現在のフレームの現在のパラメータ及び対応する先のパラメータを考慮する定常性推定値に大きく依存することである。本発明に関する調査において、背景雑音平滑化が望ましいか否かに関わらず、定常性は有用であるが適切な指示を常に提供するわけではないことが分かった。単に定常性尺度に依存することにより、採用されたノイズ平滑化方法により適切にモデル化されない特性を示すにも関わらず、ある特定のノイズの種類が定常ノイズとして分類されるという状況を招く可能性がある。

0031

上述の全ての方法を制限する特定の問題は、それらの方法が単なる復号化方法であるために発生する。そのため、ノイズ平滑化動作が段階的な分解能で制御されるべきである場合に必要な精度で背景雑音特性を推定するのに概念上の問題を有する。しかし、これは自然なノイズ再生に必要である。

0032

定常性尺度に依存する全ての方法の一般的な問題において、定常性自体は、エネルギー又はスペクトルのような統計的な信号特性経時変化を起こさない程度を示す特性である。このため、定常性尺度は、所定のフレーム又はサブフレーム統計的特性先行フレーム又はサブフレームの特性と比較することにより計算されることが多い。しかし、定常性尺度は、より低い程度で背景信号の実際の知覚特性の指示を与える。特に、定常性尺度は、信号がどの程度ノイズのようであるかを示さないが、本発明者による研究によると、適切な反渦流音方法にとって不可欠なパラメータである。

0033

従って、通信システムにおいて背景雑音平滑化動作音セッションを制御する方法及び装置が必要とされる。

課題を解決するための手段

0034

本発明の目的は、通信システムにおける音声セッションの品質の改善を可能にすることである。

0035

本発明の更なる目的は、通信システムにおける音声セッションの定常的な背景雑音の平滑化の改善された制御を可能にすることである。

0036

これらの目的及び他の目的は、添付の請求の範囲によって達成される。

0037

基本的に、通信音声セッションにおいて定常的な背景雑音を平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、その信号のノイズネス尺度を提供し(S20)、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する(S30)。

発明の効果

0038

本発明の利点は以下を含む。
通信システムにおける音声セッションの品質の改善。
定常的な背景雑音信号の再構成信号品質の改善。

図面の簡単な説明

0039

スケーラブル音声・オーディオコーデックを示す概略ブロック図である。
本発明に係る背景雑音平滑化の方法の一実施形態を示すフローチャートである。
本発明の一実施形態に係る平滑化の間接的な制御方法を概略的に示すタイミングチャートである。
本発明に係る方法の一実施形態に従って背景雑音平滑化のVAD駆動アクティベーションを概略的に示すタイミングチャートである。
本発明に係る装置の一実施形態を示すフローチャートである。
本発明に係るコントローラ装置の一実施形態を示すブロック図である。
本発明に係る装置の実施形態を示すブロック図である。

実施例

0040

略語
AbS Analysis by Synthesis合成による分析
ADPCM Adaptive DifferentialPCM適応差分PCM
AMR−WB Adaptive Multi Rate Wide Band適応マルチレート広帯域
EVRC−WB Enhanced Variable Rate Wideband Codec拡張可変レート広帯域コーデック
CELPCode excited Linear Prediction符号励振線形予測
DXT discontinuous Transmission間欠送信
DSVD Digital Simultaneous Voice and Data
ISP Immittance spectral Pairイミタンススペクトル対
ITU−T International Telecommunication Union国際通信連合
LPC Linear Predictive Coders線形予測符号化器
LSFLine Spectral Frequency線スペクトル周波数
MPEG Moving Pictures Experts Group
PCM Pulse code Modulationパルス符号変調
SMV Selectable Mode Vocoder 選択可能モードボコーダ
VAD Voice Activity Detector音声アクティビティ検出器
VoIP Voice Over Internet Protocol

0041

(詳細な説明)
無線移動体の音声セッションに関して本発明を説明する。ただし、これは同様に有線接続にも適用可能である。以下の説明において、音声(speech)及びボイス(voice)という用語は同一のものとして使用される。それに対応して、音声セッション(speech session)は、通信ネットワークにおける少なくとも2つの端末又はノード間のボイス/音声の通信を示す。音声セッションは、2つの成分、すなわち音声成分及び背景雑音成分を常に含むと仮定される。音声成分は、アクティブ(例えば、1人が話している)又は非アクティブ(例えば、その人が言葉の間又はの間で沈黙している)であるセッションの実際の音声通信である。背景雑音成分は、話している人の周囲の環境からの環境騒音である。この雑音は本質的にある程度は定常的である。

0042

上述したように、音声セッションの1つの課題は、定常的な背景雑音又は詳細には任意の雑音を含む環境において、音声セッションの品質を向上する方法である。周知の方法によると、多くの場合、背景雑音を平滑化する種々の方法が採用される。しかし、平滑化動作は、音声成分を歪ませてしまうことにより、あるいは、残りの背景雑音をより妨害的なものにしてしまうことにより、音声セッションの品質又は「聞きやすさ」が低下する危険性がある。

0043

本発明の基礎となる調査において、背景雑音平滑化が車の雑音等の特定の背景信号に対してのみ特に有用であることが分かった。意味のない音、暗示、曖昧な言葉等の他の背景雑音の種類の場合には、背景雑音平滑化は、合成信号に対して同一程度の品質改善を提供せず、背景雑音の再生を不自然なものにする可能性もある。「ノイズネス(noisiness)」が、背景雑音平滑化が品質向上を提供できるか否かを示す特徴付けの適切な特徴であることが更に分かった。また、ノイズネスは、従来の方法において使用された定常性よりも適切な特徴であることが分かった。

0044

従って、本発明の主な目的は、背景信号のノイズネス尺度又は計測値に基づいて定常背景雑音の平滑化動作を徐々に制御することである。非音声期間中に背景信号が非常に雑音に類似すると分かった場合、より大きな平滑度が使用される。非アクティブな信号が雑音には類似しない場合、ノイズ平滑度は低下するか、あるいは平滑化は全く実行されない。ノイズネス尺度は、符号化器において導出され復号化器に送信されるのが好ましい。ここで、ノイズ平滑化の制御はノイズネス尺度に依存する。しかし、ノイズネス尺度は復号化器自体においても導出可能である。

0045

基本的に、図2を参照すると、本発明に係る一般的な一実施形態は、通信システムにおける少なくとも2つの端末間の通信音声セッションの定常背景雑音を平滑化する方法を含む。最初に、音声セッションを表す信号、すなわち音声による情報の交換を少なくとも2人のモバイルユーザ間で受信及び復号化(S10)すると、信号は、音声成分、すなわち実際の音声と、背景雑音成分、すなわち周囲の音との双方を含むものとして記述される。非音声期間中に背景雑音を平滑化するために、ノイズネス尺度は、音声セッションに対して判定され且つ信号に対して提供される(S20)。ノイズネス尺度は、定常的な背景雑音成分がどの程度うるさいかの尺度である。次に、背景雑音成分は、提供されたノイズネス尺度に基づいて適応的に平滑化(S30)又は修正される。最後に、送信信号を表す信号は、平滑化された背景雑音成分と合成され、改善された品質の受信信号を使用可能にする。

0046

本発明の更なる実施形態によると、ノイズネス計測値は、信号がどの程度ノイズに類似するかを記述するか又は信号がどの程度のランダムな成分を含むかを記述する。更に詳細には、ノイズネス尺度又は計測値は、信号の予測可能性に関して規定及び記述される。ここで、強いランダムな成分を含む信号は十分に予測されず、弱いランダムな成分を含む信号程予測可能である。その結果、そのようなノイズネス尺度は信号の周知のLPC予測ゲインGpを使用して定義される。LPC予測ゲインGpは以下のように定義される。

0047

ただし、σx2は背景(雑音)信号の分散、σ2e,pは次数PのLPC分析により取得されるその信号のLPC予測誤差の分散を示す。予測ゲインは、分散ではなくパワー又はエネルギーを使用して定義されてもよい。予測誤差分散σ2e,p及び予測誤差分散のシーケンスσ2e,p, k=1...p-1は、Levinson-Durbinアルゴリズムの副産物として容易に取得されることが更に周知である。このアルゴリズムは、背景雑音信号の自己相関パラメータのシーケンスからLPCパラメータを計算するために使用される。一般に、予測ゲインは、弱いランダムな成分を含む信号に対しては高く、ノイズに類似する信号に対しては低い。

0048

本発明の好適な一実施形態によると、適切な類似するノイズネス計測値は、異なる次数p及びqを有する2つのLPC予測フィルタの予測ゲインの比をとることにより取得される。ここで、p>qである。

0049

この計測値は、qからpにLPCフィルタ次数を増加する場合に予測ゲインがどの程度増加するかの指示を与える。これは、信号が低いノイズネスを有し且つノイズネスの1に近い値が大きい場合に大きい値を出力する。適切な選択はq=2及びp=16であるが、LPC次数に対して他の値も同様に可能である。

0050

なお、上述のノイズネス計測値又は尺度はエンコーダ側で判定又は計算され、その後デコーダ側に送信及び提供されるのが好ましい。しかし、デコーダ側で実際の受信信号に基づいてノイズネス計測値を判定又は計算することも同様に可能である(僅かな適応のみを伴う)。

0051

エンコーダ側で計測値を計算する1つの利点は、計算が非量子化LPCパラメータに基づくことが可能であるため、潜在的に最適で可能な分解能を有することである。更に、必要とされる予測誤差分散が一般にいずれにおいても実行されるLPC分析の副産物として容易に取得されるため(上述したように)、計測値の計算は余分な計算上の複雑さを必要としない。エンコーダにおいて計測値を計算することは、計測値が次に量子化されること及び量子化計測値の符号化表現がデコーダに送信され且つそこで背景雑音平滑化を制御するために使用されることを必要とする。ノイズネスパラメータの送信は、20msのフレーム毎に例えば5ビットのビットレート及び従って250bpsを必要とし、これは欠点であると考えられるだろう。しかし、ノイズネスパラメータが非音声期間中にのみ必要とされることを考慮すると、特定の一実施形態に従って、音声がアクティブである間の送信をスキップし、コーデックが音声がアクティブである間と同一のビットレートを必要としないためにそのビットレートが一般に利用可能であってもよい非アクティブな間に単に送信することが可能である。同様に、非音声の音及び非アクティブな音を特定のより低いレートモードで符号化する音声コーデックの特定の例を考慮すると、余分なコストなしでその余分なビットレートを与えることが更に可能である。

0052

しかし、既に説明したように、受信及び復号化されたLPCパラメータに基づいてデコーダ側でノイズネス尺度を導出できる。周知のステップアップステップダウン手順は、受信LPCパラメータから予測誤差分散のシーケンスを計算する方法を提供する。そのシーケンスは、上述のようにノイズネス尺度を計算するために使用可能である。

0053

実験結果によると、本発明のノイズネス尺度は、研究において組み合わされた特定の背景雑音平滑化方法と組み合わせると非常に有益であることが指摘されるべきである。しかし、他の反渦流音方法と組み合わせると、その尺度を従来から周知である定常尺度と組み合わせることが有益だろう。ノイズネス尺度が組み合わされるそのような尺度の1つは、LPCパラメータ類似性計測値である。この計測値は、例えばLSFパラメータ等の対応するLPCパラメータべクトル間のユークリッド距離を使用して2つの連続フレームのLPCパラメータを評価する。この計測値により、連続LPCパラメータベクトルが非常に異なり且つ従って信号定常性の指示として使用される場合は大きい値が導かれる。

0054

また、本発明の「ノイズネス」と従来の方法の「定常性」との上述の概念上の差に加えて、それらの尺度間には少なくとも1つの更に重要な特徴的な差がある。すなわち、定常性の計算は、現在のフレームの少なくとも現在のパラメータを導出すること及びそれを先行フレームの少なくとも1つの先行パラメータに関連付けることを含む。これに対して、ノイズネスは、先行フレームの任意の知識なしで現在のフレームにおける瞬間的な尺度として計算される。利点は、先行フレームからの状態を格納するメモリが節約されることである。

0055

以下の実施形態は、反渦流音方法が提供されるノイズネス尺度に基づいて制御される方法を説明する。平滑化動作が制御ファクタにより制御され、一般性を制限せずに、1に等しい制御ファクタが平滑化動作を行わないことを意味し且つ0のファクタ最大限の平滑化を意味することが仮定される。

0056

基本的な一実施形態によると、提供されるノイズネス尺度は、背景雑音信号の復号化中に適用される平滑度を直接制御する。平滑度は、パラメータウにより制御されると仮定される。その後、例えば以下の式の例に従ってノイズネス計測値を上記からウに直接マップできる。

0057

γ = Q{(計測値- 1)・μ} + ν (3)

0058

νの適切な選択は0.5であり、μに対しては0.5〜2の値である。なお、Q{.}は、制御ファクタが1を超えないように数字の範囲を制限する量子化演算子を示す。更に、係数μは入力信号のスペクトル成分に依存して選択されるのが好ましい。特に、コーデックが16kHzのサンプリングレートで動作する広帯域コーデックであり且つ入力信号が広帯域スペクトル(0〜7kHz)である場合、計測値は、入力信号が狭帯域スペクトル(0〜3400Hz)を有する場合より相対的に小さな値を与える。この作用を補償するために、μは狭帯域コンテンツより広帯域コンテンツに対して大きい必要がある。適切な選択は、広帯域コンテンツに対してはμ=2であり、狭帯域コンテンツに対してはμ=0.5である。しかし、特定の状況に依存して他の値も可能である。それに応じて、平滑動作度は、信号が広帯域コンテンツを含むか又は狭帯域コンテンツを含むかに依存してパラメータγにより特に較正される。

0059

再構成された背景雑音信号の品質に影響を及ぼす1つの重要な面は、非アクティブな期間中のノイズネス計測値が非常に迅速に変化することである。上述のノイズネス計測値が背景雑音平滑化を直接制御するために使用される場合、これは望ましくない信号ゆらぎを導入する可能性がある。本発明の更なる好適な実施形態において、図3を参照すると、ノイズネス尺度は、背景雑音平滑化を直接制御するのではなく間接的に制御するために使用される。1つの可能性は、例えばローパスフィルタリングによるノイズネス尺度の平滑化である。しかし、これは、計測値により示される平滑度より高い平滑度が適用されるという状況を招く可能性がある。高い平滑度は、合成信号の自然さに影響を及ぼす可能性がある。従って、好適な原理は、背景雑音平滑度の急速な増加を回避し、その一方でノイズネス計測値が適切になるように突然より低い平滑度を示した時に迅速な変更を可能にすることである。以下の説明は、この動作を達成するために背景雑音平滑度を管理する好適な1つの方法を規定する。平滑度は、パラメータγにより制御されると仮定される。上述の直接制御とは異なり、ここでのノイズネス尺度は、以下の式に従う間接制御パラメータγminを管理する。

0060

γmin = Q{(計測値- 1)・μ} + ν (4)
その後、平滑化制御パラメータγは、γminと先に(すなわち、先行フレームにおいて)使用された平滑化制御パラメータγ'からある量δだけ減少された値とのうちの最大値に設定される。

0061

γ = max(γmin, γ'-δ) (5)
この演算の結果、γがγminより依然として大きい限り、γはγminに徐々に近づくように管理される。それ以外の場合、γはγminと同一である。このステップサイズδの適切な選択は0.05である。記述される演算は図3に示される。

0062

本発明者による調査は、提供されたノイズネス尺度に直接又は間接的に依存する背景雑音の平滑化が再構成された背景雑音信号の品質向上を提供できることを示している。平滑化動作がアクティブな音声の間は回避され且つ背景雑音の平滑度が頻繁に及び急速に変化しないことを確認することは、品質にとって重要なことであることが更に分かった。

0063

関連する面は、背景雑音平滑化が使用可能にされるか否かを制御する音声区間検出(VAD)動作である。理想的には、VADは、背景雑音平滑化が使用可能にされる音声信号のアクティブな部分の間の非アクティブな期間を検出すべきである。しかし、実際には、そのような理想的なVADは存在せず、アクティブな音声の部分が非アクティブと宣言されるか又は非アクティブな部分がアクティブな音声と宣言されるということが起こる。アクティブな音声が非アクティブと宣言されるという問題の解決策を提供するために、例えば間欠送信(DTX)による音声送信において、いわゆるハングオーバ期間をアクティブと宣言されたセグメントに追加するのが一般的である。これは、アクティブと宣言された期間を人為的に拡張する手段である。これにより、フレームが誤って非アクティブと宣言される尤度が減少する。対応する原理は、背景雑音平滑化動作を制御する状況において利益を伴って適用可能であることが分かった。

0064

本発明の好適な一実施形態によると、図2及び図6を参照すると、音声成分のアクティブな状態を検出する更なるステップS25が開示される。次に、背景雑音平滑化動作が制御され、音声成分の検出された非アクティブにのみ応答して開始される。更に、遅延又はハングオーバが使用される。これは、VADがフレームを非アクティブと宣言し始めてから所定のフレーム数の後にのみ背景雑音平滑化が使用可能にされることを意味する。適切な選択は、ノイズ平滑化が使用可能にされるまで、VADがフレームを非アクティブと宣言し始めてから例えば5フレーム(=100ms)待機することであるがこれに限定されない。VADが非音声フレームをアクティブと宣言することがあるという問題を考慮すると、VADの決定が正確か否かに関わらず、VADがフレームをアクティブと宣言する場合は常に背景雑音平滑化動作をOFFにするのが適切であることが分かる。更に、スプリアスVADアクティベーション後すぐに背景雑音平滑化を再開すること、すなわちハングオーバなしで再開することは有益である。これは、検出されたアクティブな期間が非常に短い場合、例えば3フレーム(=60ms)以下の場合である。

0065

背景雑音平滑化の性能を更に向上するために、背景雑音平滑化を突然ONにするのではなくハングオーバ期間の後に徐々に使用可能にするのが有益であることが分かる。そのように徐々に使用可能にすることを達成するために、平滑化動作が徐々に非アクティブから完全に使用可能にされる段階的導入期間が規定される。段階的導入期間がKフレームの長さであると仮定され、現在のフレームがこの段階的導入期間のn番目のフレームであると更に仮定されると、そのフレームに対する平滑化制御パラメータg*は、元の値γと平滑化動作の非アクティブに対応する値(γinact=1)との間の補間により取得される。

0066

0067

なお、ハングオーバ期間の後、すなわちスプリアスVAD起動の前に段階的導入期間を起動するのが有益である。

0068

図4は、平滑化制御パラメータg*がどのようにVADフラグ、追加されたハングオーバ及び段階的導入期間に依存するかを示すタイミングチャートの一例を示す。更に、VADが0であり且つハングオーバ期間の後にのみ、平滑化が使用可能にされることが示される。

0069

背景雑音平滑化の音声区間駆動(VAD)の起動により説明される方法を実現する手順の更なる一実施形態を図5のフローチャートに示し、以下に説明する。手順は、開始点で開始するフレーム(又はサブフレーム)毎に実行される。最初にVADフラグがチェックされ、VADフラグが1に等しい値を有する場合、アクティブな音声のパスが実行される。ここで、アクティブな音声フレームのカウンタ(Act_count)が増分される。その後、カウンタがスプリアスVAD起動の限界を超えるか(Act_count>enab_ho_lim)がチェックされる。超える場合、非アクティブなフレームのカウンタが再設定される(Inact_count=0)。これは、ハングオーバ期間が次の非アクティブな期間中に追加されるという合図である。その後、手順は終了する。

0070

しかし、VADフラグが非アクティブを示す0に等しい値を有する場合、非アクティブな音声のパスが実行される。ここで、最初に非アクティブなフレームのカウンタ(Inact_count)が増分される。その後、そのカウンタがハングオーバの限界以下であるか(Inact_count≦ho)がチェックされ、ハングオーバの限界以下である場合、ハングオーバ期間の実行のパスが実行される。その場合、ノイズ平滑化制御パラメータg*は1に設定され、それにより平滑化が使用不可能にされる。更に、アクティブなフレームのカウンタは、スプリアスVAD起動の限界により初期化される(Act_count=enab_ho_lim)。これは、ハングオーバ期間が次のスプリアスVAD起動の場合に依然として使用不可能にされないことを意味する。その後、手順は終了する。非アクティブなフレームのカウンタがハングオーバの限界より大きい場合、非アクティブなフレームのカウンタがハングオーバの限界+段階的導入の限界以下であるか(Inact_count≦ho+pi)がチェックされる。カウンタがハングオーバの限界+段階的導入の限界以下である場合、段階的導入期間の処理が実行される。これは、ノイズ平滑化制御パラメータが上述のように補間(g*=補間)により取得されることを意味する。それ以外の場合、ノイズ平滑化制御パラメータは変更されないままである。その後、背景雑音平滑化手順は、ノイズ平滑化パラメータに従う程度で実行される。次に、アクティブなフレームのカウンタは再設定される(Act_count=0)。これは、その後のハングオーバ期間がスプリアスVAD起動後に使用不可能にされることを意味する。その後、手順は終了する。

0071

ノイズ平滑化手順により達成される品質に依存して、非アクティブな音声の間だけでなくノイズのような性質を有する非音声の間にも品質向上をもたらす可能性がある。従って、この場合、背景雑音平滑化の音声区間駆動の起動は、非アクティブな音声フレームだけでなく非音声フレームの間にも起動されるという拡張から利益を得るだろう。

0072

本発明の好適な一実施形態は、背景雑音平滑化の間接的な制御及び背景雑音平滑化の音声区間駆動の起動と方法とを組み合わせることにより得られる。

0073

スケーラブルコーデックと関係する本発明の更なる実施形態によると、復号化がより高いレートの層で行われる場合、平滑度は徐々に減少される。これは、通常、より高いレートの音声符号化が背景雑音期間中により少ない渦流音の問題を有するためである。

0074

本発明の特定の有利な一実施形態は、LPCパラメータ平滑化(例えば、ローパスフィルタリング)及び励振信号修正の組合せである平滑化動作と組み合わされる。簡単に説明すると、平滑化動作は、音声セッションを表す信号を受信及び復号化することを含む。信号は、音声成分及び背景雑音成分の双方を含む。次に、信号に対するLPCパラメータ及び励振信号を判定する。その後、平滑化出力信号を提供するために励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより判定された励振信号を修正する。最後に、判定されたLPCパラメータ及び励振信号に基づいて出力信号を合成及び出力する。本発明の制御動作と組み合わせると、品質が改善された合成音声信号が提供される。

0075

図6及び図7を参照して、本発明に係る装置を以下に説明する。本発明の特定の動作に関連しない任意の周知の一般的な送信/受信及び/又は符号化/復号化機能性は、図6及び図7の一般的な入出力ユニットI/Oにおいて黙示的に開示される。

0076

図6を参照すると、通信音声セッションの定常背景雑音成分の平滑化を制御するコントローラユニット1が示される。コントローラ1は、音声セッションに関連する入力/出力信号を受信及び送信するように構成される。従って、コントローラ1は、入力及び出力信号を処理する一般的な入出力I/Oユニットを含む。更にコントローラは、音声セッションを表す信号であって音声成分及び背景雑音成分の双方を含む信号を受信及び復号化するように構成される受信機/デコーダユニット10を含む。また、ユニット1は、入力信号に関連するノイズネス計測値を提供するユニット20を含む。ノイズネスユニット20は、一実施形態に従って受信信号に基づいてノイズネス尺度を実際に判定するように構成されるか、あるいは更なる実施形態に従って通信システムの他のノードから、恐らくは受信信号の発信元であるノード又はユーザ端末からノイズネス尺度を受信するように構成される。更にコントローラ1は、ノイズネス尺度ユニット20からのノイズネス尺度に基づいて再構成音声信号の平滑化を可能にする背景平滑ユニット30を含む。

0077

更なる実施形態において、ここでも図6を参照すると、コントローラ装置1は、図中の点線ボックスにより示されるような音声区間検出器又はVAD25を含む。VAD25は、信号の音声成分のアクティブな状態を検出し、平滑ユニット30における改善された平滑化を可能にするために更なる入力としてそれを提供するように動作する。

0078

図7を参照すると、コントローラ装置1は、通信システムにおけるデコーダユニットに組み込まれるのが好ましい。しかし、図6を参照して説明したように、コントローラ1においてノイズネス尺度を提供するユニットは、通信システムの別のノードから通信されるノイズネス尺度を単に受信するように構成される。従って、符号化装置図7において更に開示される。エンコーダは、信号を送信及び受信する一般的な入出力ユニットI/Oを含む。このユニットは、エンコーダが機能するのを可能にする全ての必要な周知の機能性を黙示的に開示する。1つのそのような機能性は、音声セッションを表す信号を符号化及び送信する符号化/送信ユニット100として特に開示される。更にエンコーダは、送信信号に対するノイズネス尺度を判定するユニット200及びコントローラ1のノイズネス提供器ユニット20に判定したノイズネス尺度を通信するユニット300を含む。

0079

本発明の利点は以下を含む。
改善された背景雑音平滑化動作。
背景雑音平滑化の改善された制御。

0080

本発明に対しては、特許請求の範囲により定義される本発明の範囲から逸脱することなく種々の変形や変更を行うことができることは、当業者には理解されよう。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ