図面 (/)

技術 音声符号化方法及び音声符号化装置

出願人 ソニー株式会社
発明者 西口正之飯島和幸松本淳大森士郎
出願日 1995年10月26日 (25年0ヶ月経過) 出願番号 1995-279412
公開日 1997年5月16日 (23年6ヶ月経過) 公開番号 1997-127989
状態 特許登録済
技術分野 音声の分析・合成 圧縮、伸長・符号変換及びデコーダ
主要キーワード シーケンシャルサーチ 複数段構成 リーク係数 時間波形データ ゼロクロスカウンタ リファレンス入力 スペクトル評価 最適ピッチ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1997年5月16日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

符号化データのビットレート可変にすることができる音声符号化方法及び音声符号化装置を提供する。

解決手段

出力ベクトルXが第1のベクトル量子化部500のベクトル量子化器502で重み付きベクトル量子化されて、シェイプインデクス出力端子503から出力され、また、量子化値X0’は加算器505で出力ベクトルXから減算される。これにより得られる複数次元量子化誤差ベクトルYは、第2のベクトル量子化部510で次元分割されて、それぞれ重み付きベクトル量子化され、シェイプインデクスは出力端子5121、5122から出力され、量子化値Y1’、Y2’は次元方向に接続され、加算器513で量子化値X0’と加算されて、量子化値X1’が出力される。

概要

背景

オーディオ信号音声信号音響信号を含む)の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。この符号化方法としては、大別して時間領域での符号化、周波数領域での符号化、分析合成符号化等が挙げられる。

音声信号等の高能率符号化の例として、ハーモニック(Harmonic)符号化、MBE(Multiband Excitation:マルチバンド励起)符号化等のサイン波分析符号化や、SBC(Sub-band Coding:帯域分割符号化)、LPC(Linear Predictive Coding:線形予測符号化)、あるいはDCT(離散コサイン変換)、MDCT(モデフイドDCT)、FFT高速フーリエ変換)等が知られている。

この音声信号等の高能率符号化を用いた音声信号符号化装置では、入力音声信号短期予測残差、例えばLPC(線形予測符号化)残差をマルチバンド励起(MBE)符号化のようなサイン波分析(sinusoidal analysis )符号化を行い、得られるスペクトルエンベロープ振幅データベクトル量子化して、コードブックインデクスを出力する。

概要

符号化データのビットレート可変にすることができる音声符号化方法及び音声符号化装置を提供する。

出力ベクトルXが第1のベクトル量子化部500のベクトル量子化器502で重み付きベクトル量子化されて、シェイプインデクス出力端子503から出力され、また、量子化値X0’は加算器505で出力ベクトルXから減算される。これにより得られる複数次元量子化誤差ベクトルYは、第2のベクトル量子化部510で次元分割されて、それぞれ重み付きベクトル量子化され、シェイプインデクスは出力端子5121、5122から出力され、量子化値Y1’、Y2’は次元方向に接続され、加算器513で量子化値X0’と加算されて、量子化値X1’が出力される。

目的

そこで、本発明は上述の実情に鑑み、符号化データのビットレートを可変にすることができる音声符号化方法及び音声符号化装置を提供するものである。

効果

実績

技術文献被引用数
1件
牽制数
3件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力音声信号時間軸上でブロック単位区分して各ブロック単位で符号化を行う音声符号化方法において、入力音声信号の少なくとも有声音部分に対して短期予測残差を求める工程と、上記求められた短期予測残差に基づいてサイン波分析符号化パラメータを求める工程と、上記サイン波分析符号化パラメータに対して聴覚重み付きのベクトル量子化を施す工程と、上記入音声信号無声音部分に対して位相伝送を行う波形符号化により符号化する工程とを有することを特徴とする音声符号化方法。

請求項2

上記入力音声信号が有声音か無声音かを判別し、その判別結果に基づいて、有声音とされた部分では上記サイン波分析符号化を行い、無声音とされた部分では合成による分析法を用いて最適ベクトルクローズドループサーチによるベクトル量子化を行うことを特徴とする請求項1記載の音声符号化方法。

請求項3

上記聴覚重み付きベクトル量子化が施されるサイン波合成パラメータとしてスペクトルエンベロープを表すデータを用いることを特徴とする請求項1記載の音声符号化方法。

請求項4

入力音声信号を時間軸上でブロック単位で区分して各ブロック単位で符号化を行う音声符号化装置において、入力音声信号の短期予測残差を求める手段と、上記短期予測残差からサイン波分析符号化パラメータを求める手段と、上記サイン波分析符号化パラメータに対して聴覚重み付きのベクトル量子化を施す手段と、上記入力音声信号を位相伝送を行う波形符号化により符号化する手段とを有することを特徴とする音声符号化装置。

請求項5

入力音声信号を時間軸上でブロック単位で区分して各ブロック単位で符号化を行う音声符号化方法において、入力音声信号の少なくとも有声音部分に対して短期予測残差を求める工程と、求められた短期予測残差に基づいてサイン波分析符号化パラメータを求める工程と、上記サイン波分析符号化パラメータに対して聴覚重み付きのベクトル量子化を施す工程とを有することを特徴とする音声符号化方法。

請求項6

上記聴覚重み付きのベクトル量子化工程は、第1のベクトル量子化工程と、この第1のベクトル量子化の際の量子化誤差ベクトル量子化する第2のベクトル量子化工程とを少なくとも有することを特徴とする請求項5記載の音声符号化方法。

請求項7

低ビットレート時には上記第1のベクトル量子化工程での出力を取り出し、高ビットレート時には上記第1のベクトル量子化工程での出力及び上記第2のベクトル量子化工程での出力を取り出すことを特徴とする請求項6記載の音声符号化方法。

請求項8

入力音声信号を時間軸上でブロック単位で区分して各ブロック単位で符号化を行う音声符号化装置において、入力音声信号の短期予測残差を求める手段と、上記短期予測残差からサイン波分析符号化パラメータを求める手段と、上記サイン波分析符号化パラメータに対して多段の聴覚重み付きのベクトル量子化を施す手段とを有することを特徴とする音声符号化装置。

技術分野

0001

本発明は、入力音声信号ブロック単位区分して、区分されたブロックを単位として符号化処理を行うような音声符号化方法及び音声符号化装置に関する。

背景技術

0002

オーディオ信号音声信号音響信号を含む)の時間領域や周波数領域における統計的性質と人間の聴感上の特性を利用して信号圧縮を行うような符号化方法が種々知られている。この符号化方法としては、大別して時間領域での符号化、周波数領域での符号化、分析合成符号化等が挙げられる。

0003

音声信号等の高能率符号化の例として、ハーモニック(Harmonic)符号化、MBE(Multiband Excitation:マルチバンド励起)符号化等のサイン波分析符号化や、SBC(Sub-band Coding:帯域分割符号化)、LPC(Linear Predictive Coding:線形予測符号化)、あるいはDCT(離散コサイン変換)、MDCT(モデフイドDCT)、FFT高速フーリエ変換)等が知られている。

0004

この音声信号等の高能率符号化を用いた音声信号符号化装置では、入力音声信号の短期予測残差、例えばLPC(線形予測符号化)残差をマルチバンド励起(MBE)符号化のようなサイン波分析(sinusoidal analysis )符号化を行い、得られるスペクトルエンベロープ振幅データベクトル量子化して、コードブックインデクスを出力する。

発明が解決しようとする課題

0005

ところで、上記音声信号符号化装置において、上記ベクトル量子化により得られるコードブックインデクスを含む符号化データのビットレートは一定であり、符号化データのビットレートを可変にすることはできない。

0006

また、上記符号化データが、例えばMビットである場合には、この符号化データを復号化する音声信号復号化装置は、Mビットの音声信号復号化装置でなければならない。即ち、音声信号復号化装置では、符号化データのビット数と同じビット数の復号化データしか得ることができず、復号化データのビット数を可変にすることができない。

0007

そこで、本発明は上述の実情に鑑み、符号化データのビットレートを可変にすることができる音声符号化方法及び音声符号化装置を提供するものである。

課題を解決するための手段

0008

本発明に係る音声符号化方法及び音声符号化装置は、入力音声信号の少なくとも有声音部分に対して短期予測残差を求め、上記求められた短期予測残差に基づいてサイン波分析符号化パラメータを求め、上記サイン波分析符号化パラメータに対して聴覚重み付きのベクトル量子化を施し、上記入力音声信号の無声音部分に対して位相伝送を行う波形符号化により符号化するものであり、上記聴覚重み付きのベクトル量子化では、第1のベクトル量子化を行い、この第1のベクトル量子化の際の量子化誤差ベクトル量子化する第2のベクトル量子化を行う。

発明を実施するための最良の形態

0009

以下、本発明に係る好ましい実施の形態について説明する。先ず、図1は、本発明に係る音声符号化方法及び音声信号符号化装置の実施の形態が適用された音声信号符号化装置の基本構成を示すブロック図であり、入力音声信号の短期予測残差を求める手段であるLPC逆フィルタ111と、上記短期予測残差からサイン波分析符号化パラメータを求める手段であるサイン波分析符号化部114と、上記サイン波分析符号化パラメータに対して聴覚重み付きのベクトル量子化を施す手段であるベクトル量子化部116と、上記入力音声信号を位相伝送を行う波形符号化により符号化する手段である第2の符号化部120とを有して成る。

0010

また、図2は、図1の音声信号符号化装置に対応する音声信号復号化装置の基本構成を示すブロック図であり、図3は、図1に示した音声信号符号化装置のより具体的な構成を示すブロック図であり、図4は、図2に示した音声信号復号化装置のより具体的な構成を示すブロック図である。

0011

先ず、図1図2図3、及び図4に示す各ブロック図の構成について説明する。

0012

ここで、図1の音声信号符号化装置の基本的な考え方は、入力音声信号の短期予測残差例えばLPC(線形予測符号化)残差を求めてサイン波分析(sinusoidal analysis )符号化、例えばハーモニックコーディング(harmonic coding )を行う第1の符号化部110と、入力音声信号に対して位相伝送を行う波形符号化により符号化する第2の符号化部120とを有し、入力信号の有声音(V:Voiced)の部分の符号化に第1の符号化部110を用い、入力信号の無声音(UV:Unvoiced)の部分の符号化には第2の符号化部120を用いるようにすることである。

0013

上記第1の符号化部110には、例えばLPC残差をハーモニック符号化やマルチバンド励起(MBE)符号化のようなサイン波分析符号化を行う構成が用いられる。上記第2の符号化部120には、例えば合成による分析法を用いて最適ベクトルクローズドループサーチによるベクトル量子化を用いた符号励起線予測(CELP)符号化の構成が用いられる。

0014

図1の例では、入力端子101に供給された音声信号が、第1の符号化部110のLPC逆フィルタ111及びLPC分析・量子化部113に送られている。LPC分析・量子化部113から得られたLPC係数あるいはいわゆるαパラメータは、LPC逆フィルタ111に送られて、このLPC逆フィルタ111により入力音声信号の線形予測残差(LPC残差)が取り出される。また、LPC分析・量子化部113からは、後述するようにLSP(線スペクトル対)の量子化出力が取り出され、これが出力端子102に送られる。LPC逆フィルタ111からのLPC残差は、サイン波分析符号化部114に送られる。サイン波分析符号化部114では、ピッチ検出やスペクトルエンベロープ振幅計算が行われると共に、V(有声音)/UV(無声音)判定部115によりV/UVの判定が行われる。サイン波分析符号化部114からのスペクトルエンベロープ振幅データがベクトル量子化部116に送られる。スペクトルエンベロープのベクトル量子化出力としてのベクトル量子化部116からのコードブックインデクスは、スイッチ117を介して出力端子103に送られ、サイン波分析符号化部114からの出力は、スイッチ118を介して出力端子104に送られる。また、V/UV判定部115からのV/UV判定出力は、出力端子105に送られると共に、スイッチ117、118の制御信号として送られており、上述した有声音(V)のとき上記インデクス及びピッチが選択されて各出力端子103及び104からそれぞれ取り出される。

0015

図1の第2の符号化部120は、この例ではCELP(符号励起線形予測)符号化構成を有しており、雑音符号帳121からの出力を、重み付きの合成フィルタ122により合成処理し、得られた重み付き音声減算器123に送り、入力端子101に供給された音声信号を聴覚重み付けフィルタ125を介して得られた音声との誤差を取り出し、この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるようなベクトルを雑音符号帳121でサーチするような、合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。このCELP符号化は、上述したように無声音部分の符号化に用いられており、雑音符号帳121からのUVデータとしてのコードブックインデクスは、上記V/UV判定部115からのV/UV判定結果が無声音(UV)のときオンとなるスイッチ127を介して、出力端子107より取り出される。

0016

次に、図2は、本発明に係る音声復号化方法の一実施の形態が適用された音声信号復号化装置として、上記図1の音声信号符号化装置に対応する音声信号復号化装置の基本構成を示すブロック図である。

0017

この図2において、入力端子202には上記図1の出力端子102からの上記LSP(線スペクトル対)の量子化出力としてのコードブックインデクスが入力される。入力端子203、204、及び205には、上記図1の各出力端子103、104、及び105からの各出力、すなわちエンベロープ量子化出力としてのインデクス、ピッチ、及びV/UV判定出力がそれぞれ入力される。また、入力端子207には、上記図1の出力端子107からのUV(無声音)用のデータとしてのインデクスが入力される。

0018

入力端子203からのエンベロープ量子化出力としてのインデクスは、逆ベクトル量子化器212に送られて逆ベクトル量子化され、LPC残差のスペクトルエンベロープが求められて有声音合成部211に送られる。有声音合成部211は、サイン波合成により有声音部分のLPC(線形予測符号化)残差を合成するものであり、この有声音合成部211には入力端子204及び205からのピッチ及びV/UV判定出力も供給されている。有声音合成部211からの有声音のLPC残差は、LPC合成フィルタ214に送られる。また、入力端子207からのUVデータのインデクスは、無声音合成部220に送られて、雑音符号帳を参照することにより無声音部分のLPC残差が取り出される。このLPC残差もLPC合成フィルタ214に送られる。LPC合成フィルタ214では、上記有声音部分のLPC残差と無声音部分のLPC残差とがそれぞれ独立に、LPC合成処理が施される。あるいは、有声音部分のLPC残差と無声音部分のLPC残差とが加算されたものに対してLPC合成処理を施すようにしてもよい。ここで入力端子202からのLSPのインデクスは、LPCパラメータ再生部213に送られて、LPCのαパラメータが取り出され、これがLPC合成フィルタ214に送られる。LPC合成フィルタ214によりLPC合成されて得られた音声信号は、出力端子201より取り出される。

0019

次に、上記図1に示した音声信号符号化装置のより具体的な構成について、図3を参照しながら説明する。なお、図3において、上記図1の各部と対応する部分には同じ指示符号を付している。

0020

この図3に示された音声信号符号化装置において、入力端子101に供給された音声信号は、ハイパスフィルタHPF)109にて不要な帯域の信号を除去するフィルタ処理が施された後、LPC(線形予測符号化)分析・量子化部113のLPC分析回路132と、LPC逆フィルタ回路111とに送られる。

0021

LPC分析・量子化部113のLPC分析回路132は、入力信号波形の256サンプル程度の長さを1ブロックとしてハミング窓をかけて、自己相関法より線予測係数、いわゆるαパラメータを求める。データ出力の単位となるフレーミングの間隔は、160サンプル程度とする。サンプリング周波数fsが例えば8kHzのとき、1フレーム間隔は160サンプルで20msec となる。

0022

LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、線スペクトル対(LSP)パラメータに変換される。これは、直接型フィルタ係数として求まったαパラメータを、例えば10個、すなわち5対のLSPパラメータに変換する。変換は例えばニュートン−ラプソン法等を用いて行う。このLSPパラメータに変換するのは、αパラメータよりも補間特性に優れているからである。

0023

α→LSP変換回路133からのLSPパラメータは、LSP量子化器134によりマトリクスあるいはベクトル量子化される。このとき、フレーム間差分をとってからベクトル量子化してもよく、複数フレーム分をまとめてマトリクス量子化してもよい。ここでは、20msec を1フレームとし、20msec 毎に算出されるLSPパラメータを2フレーム分まとめて、マトリクス量子化及びベクトル量子化している。

0024

このLSP量子化器134からの量子化出力、すなわちLSP量子化のインデクスは、端子102を介して取り出され、また量子化済みのLSPベクトルは、LSP補間回路136に送られる。

0025

LSP補間回路136は、上記20msec あるいは40msec 毎に量子化されたLSPのベクトルを補間し、8倍のレートにする。すなわち、2.5msec 毎にLSPベクトルが更新されるようにする。これは、残差波形をハーモニック符号化復号化方法により分析合成すると、その合成波形のエンベロープは非常になだらかでスムーズな波形になるため、LPC係数が20msec 毎に急激に変化すると異音を発生することがあるからである。すなわち、2.5msec 毎にLPC係数が徐々に変化してゆくようにすれば、このような異音の発生を防ぐことができる。

0026

このような補間が行われた2.5msec 毎のLSPベクトルを用いて入力音声逆フィルタリングを実行するために、LSP→α変換回路137により、LSPパラメータを例えば10次程度の直接型フィルタの係数であるαパラメータに変換する。このLSP→α変換回路137からの出力は、上記LPC逆フィルタ回路111に送られ、このLPC逆フィルタ111では、2.5msec 毎に更新されるαパラメータにより逆フィルタリング処理を行って、滑らかな出力を得るようにしている。このLPC逆フィルタ111からの出力は、サイン波分析符号化部114、具体的には例えばハーモニック符号化回路、の直交変換回路145、例えばDFT離散フーリエ変換)回路に送られる。

0027

LPC分析・量子化部113のLPC分析回路132からのαパラメータは、聴覚重み付けフィルタ算出回路139に送られて聴覚重み付けのためのデータが求められ、この重み付けデータが後述する聴覚重み付きのベクトル量子化器116と、第2の符号化部120の聴覚重み付けフィルタ125及び聴覚重み付きの合成フィルタ122とに送られる。

0028

ハーモニック符号化回路等のサイン波分析符号化部114では、LPC逆フィルタ111からの出力を、ハーモニック符号化の方法で分析する。すなわち、ピッチ検出、各ハーモニクス振幅Amの算出、有声音(V)/無声音(UV)の判別を行い、ピッチによって変化するハーモニクスのエンベロープあるいは振幅Amの個数次元変換して一定数にしている。

0029

図3に示すサイン波分析符号化部114の具体例においては、一般のハーモニック符号化を想定しているが、特に、MBE(Multiband Excitation:マルチバンド励起)符号化の場合には、同時刻(同じブロックあるいはフレーム内)の周波数軸領域いわゆるバンド毎に有声音(Voiced)部分と無声音(Unvoiced)部分とが存在するという仮定モデル化することになる。それ以外のハーモニック符号化では、1ブロックあるいはフレーム内の音声が有声音か無声音かの択一的な判定がなされることになる。なお、以下の説明中のフレーム毎のV/UVとは、MBE符号化に適用した場合には全バンドがUVのときを当該フレームのUVとしている。

0030

図3のサイン波分析符号化部114のオープンループピッチサーチ部141には、上記入力端子101からの入力音声信号が、またゼロクロスカウンタ142には、上記HPF(ハイパスフィルタ)109からの信号がそれぞれ供給されている。サイン波分析符号化部114の直交変換回路145には、LPC逆フィルタ111からのLPC残差あるいは線形予測残差が供給されている。オープンループピッチサーチ部141では、入力信号のLPC残差をとってオープンループによる比較的ラフなピッチのサーチが行われ、抽出された粗ピッチデータは高精度ピッチサーチ146に送られて、後述するようなクローズドループによる高精度のピッチサーチ(ピッチのファインサーチ)が行われる。また、オープンループピッチサーチ部141からは、上記粗ピッチデータと共にLPC残差の自己相関最大値パワー正規化した正規化自己相関最大値r(p) が取り出され、V/UV(有声音/無声音)判定部115に送られている。

0031

直交変換回路145では例えばDFT(離散フーリエ変換)等の直交変換処理が施されて、時間軸上のLPC残差が周波数軸上のスペクトル振幅データに変換される。この直交変換回路145からの出力は、高精度ピッチサーチ部146及びスペクトル振幅あるいはエンベロープを評価するためのスペクトル評価部148に送られる。

0032

高精度(ファイン)ピッチサーチ部146には、オープンループピッチサーチ部141で抽出された比較的ラフな粗ピッチデータと、直交変換部145により例えばDFTされた周波数軸上のデータとが供給されている。この高精度ピッチサーチ部146では、上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±数サンプルずつ振って、最適な小数点付き(フローティング)のファインピッチデータの値へ追い込む。このときのファインサーチの手法として、いわゆる合成による分析(Analysis by Synthesis)法を用い、合成されたパワースペクトル原音のパワースペクトルに最も近くなるようにピッチを選んでいる。このようなクローズドループによる高精度のピッチサーチ部146からのピッチデータについては、スイッチ118を介して出力端子104に送っている。

0033

スペクトル評価部148では、LPC残差の直交変換出力としてのスペクトル振幅及びピッチに基づいて各ハーモニクスの大きさ及びその集合であるスペクトルエンベロープが評価され、高精度ピッチサーチ部146、V/UV(有声音/無声音)判定部115及び聴覚重み付きのベクトル量子化器116に送られる。

0034

V/UV(有声音/無声音)判定部115は、直交変換回路145からの出力と、高精度ピッチサーチ部146からの最適ピッチと、スペクトル評価部148からのスペクトル振幅データと、オープンループピッチサーチ部141からの正規化自己相関最大値r(p) と、ゼロクロスカウンタ412からのゼロクロスカウント値とに基づいて、当該フレームのV/UV判定が行われる。さらに、MBEの場合の各バンド毎のV/UV判定結果の境界位置も当該フレームのV/UV判定の一条件としてもよい。このV/UV判定部115からの判定出力は、出力端子105を介して取り出される。

0035

ところで、スペクトル評価部148の出力部あるいはベクトル量子化器116の入力部には、データ数変換(一種サンプリングレート変換)部が設けられている。このデータ数変換部は、上記ピッチに応じて周波数軸上での分割帯域数が異なり、データ数が異なることを考慮して、エンベロープの振幅データ|Am|を一定の個数にするためのものである。すなわち、例えば有効帯域を3400kHzまでとすると、この有効帯域が上記ピッチに応じて、8バンド〜63バンドに分割されることになり、これらの各バンド毎に得られる上記振幅データ|Am|の個数mMX+1も8〜63と変化することになる。このためデータ数変換部119では、この可変個数mMX+1の振幅データを一定個数M個、例えば44個、のデータに変換している。

0036

このスペクトル評価部148の出力部あるいはベクトル量子化器116の入力部に設けられたデータ数変換部からの上記一定個数M個(例えば44個)の振幅データあるいはエンベロープデータが、ベクトル量子化器116により、所定個数、例えば44個のデータ毎にまとめられてベクトルとされ、重み付きベクトル量子化が施される。この重みは、聴覚重み付けフィルタ算出回路139からの出力により与えられる。ベクトル量子化器116からの上記エンベロープのインデクスは、スイッチ117を介して出力端子103より取り出される。なお、上記重み付きベクトル量子化に先だって、所定個数のデータから成るベクトルについて適当なリーク係数を用いたフレーム間差分をとっておくようにしてもよい。

0037

次に、第2の符号化部120について説明する。第2の符号化部120は、いわゆるCELP(符号励起線形予測)符号化構成を有しており、特に、入力音声信号の無声音部分の符号化のために用いられている。この無声音部分用のCELP符号化構成において、雑音符号帳、いわゆるストキャスティックコードブック(stochastic code book)121からの代表値出力である無声音のLPC残差に相当するノイズ出力を、ゲイン回路126を介して、聴覚重み付きの合成フィルタ122に送っている。重み付きの合成フィルタ122では、入力されたノイズをLPC合成処理し、得られた重み付き無声音の信号を減算器123に送っている。減算器123には、上記入力端子101からHPF(ハイパスフィルタ)109を介して供給された音声信号を聴覚重み付けフィルタ125で聴覚重み付けした信号が入力されており、合成フィルタ122からの信号との差分あるいは誤差を取り出している。この誤差を距離計算回路124に送って距離計算を行い、誤差が最小となるような代表値ベクトルを雑音符号帳121でサーチする。このような合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っている。

0038

このCELP符号化構成を用いた第2の符号化部120からのUV(無声音)部分用のデータとしては、雑音符号帳121からのコードブックのシェイプインデクスと、ゲイン回路126からのコードブックのゲインインデクスとが取り出される。雑音符号帳121からのUVデータであるシェイプインデクスは、スイッチ127sを介して出力端子107sに送られ、ゲイン回路126のUVデータであるゲインインデクスは、スイッチ127gを介して出力端子107gに送られている。

0039

ここで、これらのスイッチ127s、127g及び上記スイッチ117、118は、上記V/UV判定部115からのV/UV判定結果によりオン/オフ制御され、スイッチ117、118は、現在伝送しようとするフレームの音声信号のV/UV判定結果が有声音(V)のときオンとなり、スイッチ127s、127gは、現在伝送しようとするフレームの音声信号が無声音(UV)のときオンとなる。

0040

次に、図4は、上記図2に示した本発明に係る実施の形態としての音声信号復号化装置のより具体的な構成を示している。この図4において、上記図2の各部と対応する部分には、同じ指示符号を付している。

0041

この図4において、入力端子202には、上記図1、3の出力端子102からの出力に相当するLSPのベクトル量子化出力、いわゆるコードブックのインデクスが供給されている。

0042

このLSPのインデクスは、LPCパラメータ再生部213のLSPの逆ベクトル量子化器231に送られてLSP(線スペクトル対)データに逆ベクトル量子化され、LSP補間回路232、233に送られてLSPの補間処理が施された後、LSP→α変換回路234、235でLPC(線形予測符号)のαパラメータに変換され、このαパラメータがLPC合成フィルタ214に送られる。ここで、LSP補間回路232及びLSP→α変換回路234は有声音(V)用であり、LSP補間回路233及びLSP→α変換回路235は無声音(UV)用である。またLPC合成フィルタ214は、有声音部分のLPC合成フィルタ236と、無声音部分のLPC合成フィルタ237とを分離している。すなわち、有声音部分と無声音部分とでLPCの係数補間を独立に行うようにして、有声音から無声音への遷移部や、無声音から有声音への遷移部で、全く性質の異なるLSP同士を補間することによる悪影響を防止している。

0043

また、図4の入力端子203には、上記図1図3エンコーダ側の端子103からの出力に対応するスペクトルエンベロープ(Am)の重み付けベクトル量子化されたコードインデクスデータが供給され、入力端子204には、上記図1図3の端子104からのピッチのデータが供給され、入力端子205には、上記図1図3の端子105からのV/UV判定データが供給されている。

0044

入力端子203からのスペクトルエンベロープAmのベクトル量子化されたインデクスデータは、逆ベクトル量子化器212に送られて逆ベクトル量子化が施され、上記データ数変換に対応する逆変換が施されて、スペクトルエンベロープのデータとなって、有声音合成部211のサイン波合成回路215に送られている。

0045

なお、エンコード時にスペクトルのベクトル量子化に先だってフレーム間差分をとっている場合には、ここでの逆ベクトル量子化後にフレーム間差分の復号を行ってからデータ数変換を行い、スペクトルエンベロープのデータを得る。

0046

サイン波合成回路215には、入力端子204からのピッチ及び入力端子205からの上記V/UV判定データが供給されている。サイン波合成回路215からは、上述した図1図3のLPC逆フィルタ111からの出力に相当するLPC残差データが取り出され、これが加算器218に送られている。

0047

また、逆ベクトル量子化器212からのエンベロープのデータと、入力端子204、205からのピッチ、V/UV判定データとは、有声音(V)部分のノイズ加算のためのノイズ合成回路216に送られている。このノイズ合成回路216からの出力は、重み付き重畳加算回路217を介して加算器218に送っている。これは、サイン波合成によって有声音のLPC合成フィルタへの入力となるエクサテイション(Excitation:励起、励振)を作ると、声等の低いピッチの音でづまり感がある点、及びV(有声音)とUV(無声音)とで音質が急激に変化し不自然感じる場合がある点を考慮し、有声音部分のLPC合成フィルタ入力すなわちエクサイテイションについて、音声符号化データに基づくパラメータ、例えばピッチ、スペクトルエンベロープ振幅、フレーム内の最大振幅残差信号のレベル等を考慮したノイズをLPC残差信号の有声音部分に加えているものである。

0048

加算器218からの加算出力は、LPC合成フィルタ214の有声音用の合成フィルタ236に送られてLPCの合成処理が施されることにより時間波形データとなり、さらに有声音用ポストフィルタ238vでフィルタ処理された後、加算器239に送られる。

0049

次に、図4の入力端子207s及び207gには、上記図3の出力端子107s及び107gからのUVデータとしてのシェイプインデクス及びゲインインデクスがそれぞれ供給され、無声音合成部220に送られている。端子207sからのシェイプインデクスは、無声音合成部220の雑音符号帳221に、端子207gからのゲインインデクスはゲイン回路222にそれぞれ送られている。雑音符号帳221から読み出された代表値出力は、無声音のLPC残差に相当するノイズ信号成分であり、これがゲイン回路222で所定のゲインの振幅となり、窓かけ回路223に送られて、上記有声音部分とのつなぎを円滑化するための窓かけ処理が施される。

0050

窓かけ回路223からの出力は、無声音合成部220からの出力として、LPC合成フィルタ214のUV(無声音)用の合成フィルタ237に送られる。合成フィルタ237では、LPC合成処理が施されることにより無声音部分の時間波形データとなり、この無声音部分の時間波形データは無声音用ポストフィルタ238uでフィルタ処理された後、加算器239に送られる。

0051

加算器239では、有声音用ポストフィルタ238vからの有声音部分の時間波形信号と、無声音用ポストフィルタ238uからの無声音部分の時間波形データとが加算され、出力端子201より取り出される。

0052

上述した音声信号符号化装置では、出力データのビットレートが可変されて出力される。具体的には、出力データのビットレートを、低ビットレート高ビットレートとに切り換えることができる。例えば、低ビットレートを2kbpsとし、高ビットレートを6kbpsとする場合には、以下の表1に示す各ビットレートのデータが出力される。

0053

0054

出力端子104からのピッチデータについては、有声音時に、常に8bits/20msecで出力され、出力端子105から出力されるV/UV判定出力は、常に1bit/20msecである。出力端子102から出力されるLSP量子化のインデクスは、32bits/40msecと48bits/40msecとの間で切り換えが行われる。また、出力端子103から出力される有声音時(V)のインデクスは、15bits/20msecと87bits/20msecとの間で切り換えが行われ、出力端子107s、107gから出力される無声音時(UV)のインデクスは、11bits/10msecと23bits/5msecとの間で切り換えが行われる。これにより、有声音時(V)の出力データは、2kbpsでは40bits/20msecとなり、6kbpsでは120bits/20msecとなる。また、無声音時(UV)の出力データは、2kbpsでは39bits/20msecとなり、6kbpsでは117bits/20msecとなる。

0055

尚、上記LSP量子化のインデクス、有声音時(V)のインデクス、及び無声音時(UV)のインデクスについては、後述する各部の構成と共に説明する。

0056

次に、図5及び図6を用いて、LSP量子化器134におけるマトリクス量子化及びベクトル量子化について詳細に説明する。

0057

上述のように、LPC分析回路132からのαパラメータは、α→LSP変換回路133に送られて、LSPパラメータに変換される。例えば、LPC分析回路132でP次のLPC分析を行う場合には、αパラメータはP個算出される。このP個のαパラメータは、LSPパラメータに変換され、バッファ610に保持される。

0058

このバッファ610からは、2フレーム分のLSPパラメータが出力される。2フレーム分のLSPパラメータはマトリクス量子化部620でマトリクス量子化される。マトリクス量子化部620は、第1のマトリクス量子化部6201と第2のマトリクス量子化部6202とから成る。2フレーム分のLSPパラメータは、第1のマトリクス量子化部6201でマトリクス量子化され、これにより得られる量子化誤差が、第2のマトリクス量子化部6202でさらにマトリクス量子化される。これらのマトリクス量子化により、時間軸方向相関を取り除く。

0059

マトリクス量子化部6202からの2フレーム分の量子化誤差は、ベクトル量子化部640に入力される。ベクトル量子化部640は、第1のベクトル量子化部6401と第2のベクトル量子化部6402とから成る。さらに、第1のベクトル量子化部6401は、2つのベクトル量子化部650、660から成り、第2のベクトル量子化部6402は、2つのベクトル量子化部670、680から成る。第1のベクトル量子化部6401のベクトル量子化部650、660で、マトリクス量子化部620からの量子化誤差が、それぞれ1フレーム毎にベクトル量子化される。これにより得られる量子化誤差ベクトルは、第2のベクトル量子化部6402のベクトル量子化部670、680で、さらにベクトル量子化される。これらのベクトル量子化により、周波数軸方向の相関を処理する。

0060

このように、マトリクス量子化を施す工程を行うマトリクス量子化部620は、第1のマトリクス量子化工程を行う第1のマトリクス量子化部6201と、この第1のマトリクス量子化による量子化誤差をマトリクス量子化する第2のマトリクス量子化工程を行う第2のマトリクス量子化部6202とを少なくとも有し、上記ベクトル量子化を施す工程を行うベクトル量子化部640は、第1のベクトル量子化工程を行う第1のベクトル量子化部6401と、この第1のベクトル量子化の際の量子化誤差ベクトルをベクトル量子化する第2のベクトル量子化工程を行う第2のベクトル量子化部6402とを少なくとも有する。

0061

次に、マトリクス量子化及びベクトル量子化について具体的に説明する。

0062

バッファ610に保持された、2フレーム分のLSPパラメータ、すなわち10×2の行列は、マトリクス量子化器6201に送られる。上記第1のマトリクス量子化部6101では、2フレーム分のLSPパラメータが加算器621を介して重み付き距離計算器623に送られ、最小となる重み付き距離が算出される。

0063

この第1のマトリクス量子化部6201によるコードブックサーチ時の歪尺度dMQ1は、LSPパラメータX1、量子化値X1を用い、(1)式で示す。

0064

0065

ここで、tはフレーム番号、iはP次元の番号を示す。

0066

また、このときの、周波数軸方向及び時間軸方向に重みの制限を考慮しない場合の重みWを(2)式で示す。

0067

0068

この(2)式の重みWは、後段のマトリクス量子化及びベクトル量子化でも用いられる。

0069

算出された重み付き距離はマトリクス量子化器(MQ1)622に送られて、マトリクス量子化が行われる。このマトリクス量子化により出力される8ビットのインデクスは信号切換器690に送られる。また、マトリクス量子化による量子化値は、加算器621で、バッファ610からの次の2フレーム分のLSPパラメータから減算される。重み付き距離計算器623では、加算器621からの出力を用いて、最小となる重み付き距離が算出される。このように、2フレーム毎に、順次、重み付き距離計算器623では重み付き距離が算出されて、マトリクス量子化器622でマトリクス量子化が行われる。また、加算器621からの出力は、第2のマトリクス量子化部6202の加算器631に送られる。

0070

第2のマトリクス量子化部6202でも第1のマトリクス量子化部6201と同様にして、マトリクス量子化を行う。上記加算器621からの出力は、加算器631を介して重み付き距離計算器633に送られ、最小となる重み付き距離が算出される。

0071

この第2のマトリクス量子化部6202によるコードブックサーチ時の歪尺度dMQ2を、第1のマトリクス量子化部6201からの量子化誤差X2、量子化値X2により、(3)式で示す。

0072

0073

この重み付き距離はマトリクス量子化器(MQ2)632に送られて、マトリクス量子化が行われる。このマトリクス量子化により出力される8ビットのインデクスは信号切換器690に送られる。また、マトリクス量子化による量子化値は、加算器631で、次の2フレーム分の量子化誤差から減算される。重み付き距離計算器633では、加算器631からの出力を用いて、最小となる重み付き距離が順次算出される。また、加算器631からの出力は、第1のベクトル量子化部6401の加算器651、661に1フレームずつ送られる。

0074

この第1のベクトル量子化部6401では、1フレーム毎にベクトル量子化が行われる。加算器631からの出力は、1フレーム毎に、加算器651、661を介して重み付き距離計算器653、663にそれぞれ送られ、最小となる重み付き距離が算出される。

0075

量子化誤差X2と量子化値X2との差分は、10×2の行列であり、
X2−X2’=[X3-1,X3-2]
と表すときの、この第1のベクトル量子化部6401のベクトル量子化器652、662によるコードブックサーチ時の歪尺度dVQ1、dVQ2を、(4)、(5)式で示す。

0076

0077

この重み付き距離はベクトル量子化器(VQ1)652、ベクトル量子化器(VQ2)662にそれぞれ送られて、ベクトル量子化が行われる。このベクトル量子化により出力される各8ビットのインデクスは信号切換器690に送られる。また、ベクトル量子化による量子化値は、加算器651、661で、次に入力される2フレーム分の量子化誤差ベクトルから減算される。重み付き距離計算器653、663では、加算器651、661からの出力を用いて、最小となる重み付き距離が順次算出される。また、加算器651、661からの出力は、第2のベクトル量子化部6402の加算器671、681にそれぞれ送られる。

0078

ここで、
X4-1=X3-1−X’3-1
X4-2=X3-2−X’3-2
と表すときの、この第2のベクトル量子化部6402のベクトル量子化器672、682によるコードブックサーチ時の歪尺度dVQ3、dVQ4を、(6)、(7)式で示す。

0079

0080

この重み付き距離はベクトル量子化器(VQ3)672、ベクトル量子化器(VQ4)682にそれぞれ送られて、ベクトル量子化が行われる。このベクトル量子化により出力される各8ビットのインデクスは信号切換器690に送られる。また、ベクトル量子化による量子化値は、加算器671、681で、次に入力される2フレーム分の量子化誤差ベクトルから減算される。重み付き距離計算器673、683では、加算器671、681からの出力を用いて、最小となる重み付き距離が順次算出される。

0081

また、コードブックの学習時には、上記各歪尺度をもとにして、一般化ロイドアルゴリズム(GLA)により学習を行う。

0082

尚、コードブックサーチ時と学習時の歪尺度は、異なる値であっても良い。

0083

上記マトリクス量子化器622、632、ベクトル量子化器652、662、672、682からの各8ビットのインデクスは、信号切換器690で切り換えられて、出力端子691から出力される。

0084

具体的には、低ビットレート時には、上記第1のマトリクス量子化工程を行う第1のマトリクス量子化部6201、上記第2のマトリクス量子化工程を行う第2のマトリクス量子化部6202、及び上記第1のベクトル量子化工程を行う第1のベクトル量子化部6401での出力を取り出し、高ビットレート時には、上記低ビットレート時の出力に上記第2のベクトル量子化工程を行う第2のベクトル量子化部6402での出力を合わせて取り出す。

0085

これにより、2kbps時には、32bits/40msecのインデクスが出力され、6kbps時には、48bits/40msecのインデクスが出力される。

0086

また、上記マトリクス量子化部620及び上記ベクトル量子化部640では、上記LPC係数を表現するパラメータの持つ特性に合わせた、周波数軸方向又は時間軸方向、あるいは周波数軸及び時間軸方向に制限を持つ重み付けを行う。

0087

先ず、LSPパラメータの持つ特性に合わせた、周波数軸方向に制限を持つ重み付けについて説明する。例えば、次数P=10とするとき、LSPパラメータX(i)を、低域、中域高域の3つの領域として、
L1={X(i)|1≦i≦2}
L2={X(i)|3≦i≦6}
L3={X(i)|7≦i≦10}
グループ化する。そして、各グループL1、L2、L3の重み付けを1/4、1/2、1/4とすると、各グループL1、L2、L3の周波数軸方向のみに制限を持つ重みは、(8)、(9)、(10)式となる。

0088

0089

これにより、各LSPパラメータの重み付けは、各グループ内でのみ行われ、その重みは各グループに対する重み付けで制限される。

0090

ここで、時間軸方向からみると、各フレームの重み付けの総和は、必ず1となるので、時間軸方向の制限は1フレーム単位である。この時間軸方向のみに制限を持つ重みは、(11)式となる。

0091

0092

この(11)式により、周波数軸方向での制限のない、フレーム番号t=0,1の2つのフレーム間で、重み付けが行われる。この時間軸方向にのみ制限を持つ重み付けは、マトリクス量子化を行う2フレーム間で行う。

0093

また、学習時には、学習データとして用いる全ての音声フレーム、即ち全データのフレーム数Tについて、(12)式により、重み付けを行う。

0094

0095

また、周波数軸方向及び時間軸方向に制限を持つ重み付けについて説明する。例えば、次数P=10とするとき、LSPパラメータX(i,t)を、低域、中域、高域の3つの領域として、
L1={X(i,t)|1≦i≦2,0≦t≦1}
L2={X(i,t)|3≦i≦6,0≦t≦1}
L3={X(i,t)|7≦i≦10,0≦t≦1}
とグループ化する。各グループL1、L2、L3の重み付けを1/4、1/2、1/4とすると、各グループL1、L2、L3の周波数軸方向及び時間軸方向に制限を持つ重み付けは、(13)、(14)、(15)式となる。

0096

0097

この(13)、(14)、(15)式により、周波数軸方向では3つの帯域毎に、時間軸方向ではマトリクス量子化を行う2フレーム間に重み付けの制限を加えた重み付けを行う。これは、コードブックサーチ時及び学習時共に有効となる。

0098

また、学習時においては、全データのフレーム数について重み付けを行う。LSPパラメータX(i,t)を、低域、中域、高域の3つの領域として、
L1={X(i,t)|1≦i≦2,0≦t≦T}
L2={X(i,t)|3≦i≦6,0≦t≦T}
L3={X(i,t)|7≦i≦10,0≦t≦T}
とグループ化し、各グループL1、L2、L3の重み付けを1/4、1/2、1/4とすると、各グループL1、L2、L3の周波数軸方向及び時間軸方向に制限を持つ重み付けは、(16)、(17)、(18)式となる。

0099

0100

この(16)、(17)、(18)式により、周波数軸方向では3つの帯域毎に重み付けを行い、時間軸方向では全フレーム間で重み付けを行うことができる。

0101

さらに、上記マトリクス量子化部620及び上記ベクトル量子化部640では、上記LSPパラメータの変化の大きさに応じて重み付けを行う。音声フレーム全体においては少数フレームとなる、V→UV、UV→Vの遷移トランジェント)部において、子音母音との周波数特性の違いから、LSPパラメータは大きく変化する。そこで、(19)式に示す重みを、上述の重みW’(i,t)に乗算することにより、上記遷移部を重視する重み付けを行うことができる。

0102

0103

尚、(19)式の代わりに、(20)式を用いることも考えられる。

0104

0105

このように、LSP量子化器134では、2段のマトリクス量子化及び2段のベクトル量子化を行うことにより、出力するインデクスのビット数を可変にすることができる。

0106

次に、ベクトル量子化部116の基本構成を図7図7のベクトル量子化部116のより具体的な構成を図8に示し、ベクトル量子化器116におけるスペクトルエンベロープ(Am)の重み付きベクトル量子化の具体例について説明する。

0107

先ず、図3の音声信号符号化装置において、スペクトル評価部148の出力側あるいはベクトル量子化器116の入力側に設けられたスペクトルエンベロープの振幅のデータ数を一定個数にするデータ数変換の具体例について説明する。

0108

このデータ数変換には種々の方法が考えられるが、本実施の形態においては、例えば、周波数軸上の有効帯域1ブロック分の振幅データに対して、ブロック内の最後のデータからブロック内の最初のデータまでの値を補間するようなダミーデータを付加してデータ個数をNF 個に拡大した後、帯域制限型のOS 倍(例えば8倍)のオーバーサンプリングを施すことによりOS 倍の個数の振幅データを求め、このOS 倍の個数((mMX+1)×OS 個)の振幅データを直線補間してさらに多くのNM 個(例えば2048個)に拡張し、このNM 個のデータを間引いて上記一定個数M(例えば44個)のデータに変換している。

0109

図7の重み付きベクトル量子化を行うベクトル量子化器116は、第1のベクトル量子化工程を行う第1のベクトル量子化部500と、この第1のベクトル量子化部500における第1のベクトル量子化の際の量子化誤差ベクトルを量子化する第2のベクトル量子化工程を行う第2のベクトル量子化部510とを少なくとも有する。この第1のベクトル量子化部500は、いわゆる1段目のベクトル量子化部であり、第2のベクトル量子化部510は、いわゆる2段目のベクトル量子化部である。

0110

第1のベクトル量子化部500の入力端子501には、スペクトル評価部148の出力ベクトルX、即ち一定個数Mのエンベロープデータが入力される。この出力ベクトルXは、ベクトル量子化器502で重み付きベクトル量子化される。これにより、ベクトル量子化器502から出力されるシェイプインデクスは出力端子503から出力され、また、量子化値X0’は出力端子504から出力されると共に、加算器505、513に送られる。加算器505では、出力ベクトルXから量子化値X0’が減算されて、複数次元の量子化誤差ベクトルYが得られる。

0111

この量子化誤差ベクトルYは、第2のベクトル量子化部510内のベクトル量子化部511に送られる。このベクトル量子化部511は、複数個のベクトル量子化器で構成され、図7では、2個のベクトル量子化器5111、5112から成る。量子化誤差ベクトルYは次元分割されて、2個のベクトル量子化器5111、5112で、それぞれ重み付きベクトル量子化される。これらのベクトル量子化器5111、5112から出力されるシェイプインデクスは、出力端子5121、5122からそれぞれ出力され、また、量子化値Y1’、Y2’は次元方向に接続されて、加算器513に送られる。この加算器513では、量子化値Y1’、Y2’と量子化値X0’とが加算されて、量子化値X1’が生成される。この量子化値X1’は出力端子514から出力される。

0112

これにより、低ビットレート時には、上記第1のベクトル量子化部500による第1のベクトル量子化工程での出力を取り出し、高ビットレート時には、上記第1のベクトル量子化工程での出力及び上記第2の量子化部510による第2のベクトル量子化工程での出力を取り出す。

0113

具体的には、図8に示すように、ベクトル量子化器116内の第1のベクトル量子化部500のベクトル量子化器502は、L次元、例えば44次元の2ステージ構成としている。

0114

すなわち、44次元でコードブックサイズが32のベクトル量子化コードブックからの出力ベクトルの和に、ゲインgi を乗じたものを、44次元のスペクトルエンベロープベクトルXの量子化値X0’として使用する。これは、図8に示すように、2つのシェイプコードブックをCB0、CB1とし、その出力ベクトルをs0i、s1j、ただし0≦i,j≦31、とする。また、ゲインコードブックCBgの出力をgl 、ただし0≦l≦31、とする。gl はスカラ値である。この最終出力X0’は、gi(s0i+s1j) となる。

0115

LPC残差について上記MBE分析によって得られたスペクトルエンベロープAmを一定次元に変換したものをXとする。このとき、Xをいかに効率的に量子化するかが重要である。

0116

ここで、量子化誤差エネルギEを、
E=‖W{HX−Hgl(s0i+s1j)}‖2 ・・・ (21)
=‖WH{X−gl(s0i+s1j)}‖2
と定義する。この(21)式において、HはLPCの合成フィルタの周波数軸上での特性であり、Wは聴覚重み付けの周波数軸上での特性を表す重み付けのための行列である。

0117

現フレームのLPC分析結果によるαパラメータを、αi (1≦i≦P)として、

0118

0119

の周波数特性からL次元、例えば44次元の各対応する点の値をサンプルしたものである。

0120

算出手順としては、一例として、1、α1、α2、・・・、αp に0詰めして、すなわち、1、α1、α2、・・・、αp 、0、0、・・・、0として、例えば256点のデータにする。その後、256点FFTを行い、(re2+Im2)1/2 を0〜πに対応する点に対して算出して、その逆数をとる。それをL点、すなわち例えば44点に間引いたものを対角要素とする行列を、

0121

0122

とする。

0123

聴覚重み付け行列Wは、

0124

0125

とする。この(23)式で、αi は入力のLPC分析結果である。また、λa、λbは定数であり、一例として、λa=0.4、λb=0.9が挙げられる。

0126

行列あるいはマトリクスWは、上記(23)式の周波数特性から算出できる。一例として、1、α1λb、α2λb2、・・・、αpλbp、0、0、・・・、0として256点のデータとしてFFTを行い、0以上π以下の区間に対して(re2[i]+Im2[i])1/2 、0≦i≦128、を求める。次に、1、α1λa、α2λa2、・・・、αpλap 、0、0、・・・、0として分母の周波数特性を256点FFTで0〜πの区間を128点で算出する。これを(re'2[i]+Im'2[i])1/2 、0≦i≦128、とする。

0127

0128

として、上記(23)式の周波数特性が求められる。

0129

これをL次元、例えば44次元ベクトルの対応する点について、以下の方法で求める。より正確には、直線補間を用いるべきであるが、以下の例では最も近い点の値で代用している。

0130

すなわち、
ω[i]=ω0[nint(128i/L)] 1≦i≦L
ただし、nint(X)は、Xに最も近い整数を返す関数である。

0131

また、上記Hに関しても同様の方法で、h(1)、h(2)、・・・、h(L)を求めている。すなわち、

0132

0133

となる。

0134

ここで、他の例として、FFTの回数を減らすのに、H(z)W(z)を先に求めてから、周波数特性を求めてもよい。すなわち、

0135

0136

この(25)式の分母を展開した結果を、

0137

0138

とする。ここで、1、β1β2、・・・、β2p、0、0、・・・、0として、例えば256点のデータにする。その後、256点FFTを行い、振幅の周波数特性を、

0139

0140

とする。これより、

0141

0142

これをL次元ベクトルの対応する点について求める。上記FFTのポイント数が少ない場合は、直線補間で求めるべきであるが、ここでは最寄りの値を使用している。すなわち、

0143

0144

である。これを対角要素とする行列をW’とすると、

0145

0146

となる。(26)式は上記(24)式と同一のマトリクスとなる。

0147

このマトリクス、すなわち重み付き合成フィルタの周波数特性を用いて、上記(21)式を書き直すと、

0148

0149

となる。

0150

ここで、シェイプコードブックとゲインコードブックの学習法について説明する。

0151

先ず、CB0に関しコードベクトルs0cを選択する全てのフレームkに関して歪の期待値を最小化する。そのようなフレームがM個あるとして、

0152

0153

を最小化すればよい。この(28)式中で、W'kはk番目のフレームに対する重み、Xk はk番目のフレームの入力、gk はk番目のフレームのゲイン、s1kはk番目のフレームについてのコードブックCB1からの出力、をそれぞれ示す。

0154

この(28)式を最小化するには、

0155

0156

0157

次に、ゲインに関しての最適化を考える。

0158

ゲインのコードワードgc を選択するk番目のフレームに関しての歪の期待値Jg は、

0159

0160

上記(31)式及び(32)式は、シェイプs0i、s1i及びゲインgi 、0≦i≦31の最適なセントロイドコンディション(Centroid Condition)、すなわち最適なデコーダ出力を与えるものである。なお、s1iに関してもs0iと同様に求めることができる。

0161

次に、最適エンコード条件(Nearest Neighbour Condition )を考える。

0162

歪尺度を求める上記(27)式、すなわち、E=‖W'(X−gl(s0i+s1j))‖2 を最小化するs0i、s1jを、入力X、重みマトリクスW' が与えられる毎に、すなわち毎フレームごとに決定する。

0163

本来は、総当り的に全てのgl(0≦l≦31)、s0i(0≦i≦31)、s1j(0≦j≦31)の組み合せの、32×32×32=32768通りについてEを求めて、最小のEを与えるgl 、s0i、s1jの組を求めるべきであるが、膨大な演算量となるので、本実施の形態では、シェイプとゲインのシーケンシャルサーチを行っている。なお、s0iとs1jとの組み合せについては、総当りサーチを行うものとする。これは、32×32=1024通りである。以下の説明では、簡単化のため、s0i+s1jをsm と記す。

0164

上記(27)式は、E=‖W'(X−glsm)‖2 となる。さらに簡単のため、Xw=W'X、sw=W'sm とすると、

0165

0166

となる。従って、gl の精度が充分にとれると仮定すると、

0167

0168

という2つのステップに分けてサーチすることができる。元の表記を用いて書き直すと、

0169

0170

となる。この(35)式が最適エンコード条件(Nearest Neighbour Condition)である。

0171

ここで上記(31)、(32)式の条件(Centroid Condition)と、(35)式の条件を用いて、LBG(Linde-Buzo-Gray)アルゴリズム、いわゆる一般化ロイドアルゴリズム(Generalized Lloyd Algorithm:GLA)によりコードブック(CB0、CB1、CBg)を同時にトレーニングできる。

0172

ところで、ベクトル量子化器116でのベクトル量子化の際の聴覚重み付けに用いられる重みW’については、上記(26)式で定義されているが、過去のW’も加味して現在のW’を求めることにより、テンポラルマスキングも考慮したW’が求められる。

0173

上記(26)式中のwh(1),wh(2),・・・,wh(L)に関して、時刻n、すなわち第nフレームで算出されたものをそれぞれwhn(1),whn(2),・・・,whn(L) とする。

0174

時刻nで過去の値を考慮した重みをAn(i)、1≦i≦L と定義すると、
An(i)=λAn-1(i)+(1−λ)whn(i) (whn(i)≦An-1(i))
=whn(i) (whn(i)>An-1(i))
とする。ここで、λは例えばλ=0.2とすればよい。このようにして求められたAn(i)、1≦i≦L について、これを対角要素とするマトリクスを上記重みとして用いればよい。

0175

このように重み付きベクトル量子化により得られたシェイプインデクスs0i、s1jは、出力端子520、522からそれぞれ出力され、ゲインインデクスglは、出力端子521から出力される。また、量子化値X0’は、出力端子504から出力されると共に、加算器505に送られる。

0176

この加算器505では、出力ベクトルXから量子化値X0’が減算されて、量子化誤差ベクトルYが生成される。この量子化誤差ベクトルYは、具体的には、8個のベクトル量子化器5111〜5118から成るベクトル量子化部511に送られて、次元分割され、各ベクトル量子化器5111〜5118で重み付きのベクトル量子化が施される。

0177

第2のベクトル量子化部510では、第1のベクトル量子化部500と比較して、かなり多くのビット数を用いるため、コードブックのメモリ容量及びコードブックサーチのための演算量(Complexity)が非常に大きくなり、第1のベクトル量子化部500と同じ44次元のままでベクトル量子化を行うことは、不可能である。そこで、第2のベクトル量子化部510内のベクトル量子化部511を複数個のベクトル量子化器で構成し、入力される量子化値を次元分割して、複数個の低次元ベクトルとして、重み付きのベクトル量子化を行う。

0178

ベクトル量子化器5111〜5118で用いる各量子化値Y0〜Y7と、次元数と、ビット数との関係を、表2に示す。

0179

0180

ベクトル量子化器5111〜5118から出力されるインデクスIdvq0〜Idvq7は、各出力端子5231〜5238からそれぞれ出力される。これらのインデクスの合計は72ビットである。

0181

また、ベクトル量子化器5111〜5118から出力される量子化値Y0’〜Y7’を次元方向に接続した値をY’とすると、加算器513では、量子化値Y’と量子化値X0’とが加算されて、量子化値X1’が得られる。よって、この量子化値X1’は、
X1’=X0’+Y’
=X−Y+Y’
で表される。すなわち、最終的な量子化誤差ベクトルは、Y’−Yとなる。

0182

尚、音声信号復号化装置側では、この第2のベクトル量子化部510からの量子化値X1’を復号化するときには、第1のベクトル量子化部500からの量子化値X0’は不要であるが、第1のベクトル量子化部500及び第2のベクトル量子化部510からのインデクスは必要とする。

0183

次に、上記ベクトル量子化部511における学習法及びコードブックサーチについて説明する。

0184

先ず、学習法においては、量子化誤差ベクトルY及び重みW’を用い、表2に示すように、8つの低次元ベクトルY0〜Y7及びマトリクスに分割する。このとき、重みW’は、例えば44点に間引いたものを対角要素とする行列、

0185

0186

とすると、以下の8つの行列に分割される。

0187

0188

このように、Y及びW’の低次元に分割されたものを、それぞれ
Yi、Wi’ (1≦i≦8)
とする。

0189

ここで、歪尺度Eを、
E=‖Wi'(Yi−s)‖2 ・・・(37)
と定義する。このコードベクトルsはYiの量子化結果であり、歪尺度Eを最小化する、コードブックのコードベクトルsがサーチされる。

0190

尚、Wi’は、学習時には重み付けがあり、サーチ時には重み付け無し、すなわち単位行列とし、学習時とコードブックサーチ時とでは異なる値を用いるようにしてもよい。

0191

また、コードブックの学習では、一般化ロイドアルゴリズム(GLA)を用い、さらに重み付けを行っている。先ず、学習のための最適なセントロイドコンディションについて説明する。コードベクトルsを最適な量子化結果として選択した入力ベクトルYがM個ある場合に、トレーニングデータをYkとすると、歪の期待値Jは、全てのフレームkに関して重み付け時の歪の中心を最小化するような(38)式となる。

0192

0193

上記(39)式で示すsは最適な代表ベクトルであり、最適なセントロイドコンディションである。

0194

また、最適エンコード条件は、‖Wi'(Yi−s)‖2 の値を最小化するsをサーチすればよい。ここで、サーチ時のWi'は、必ずしも学習時と同じWi'である必要はなく、重み無しで

0195

0196

のマトリクスとしてもよい。

0197

このように、音声信号符号化装置内のベクトル量子化部116を2段のベクトル量子化部から構成することにより、出力するインデクスのビット数を可変にすることができる。

0198

次に、本発明の前記CELP符号化構成を用いた第2の符号化部120は、より具体的には図9に示すような、多段ベクトル量子化処理部(図9の例では2段の符号化部1201と1202)の構成を有するものとなされている。なお、当該図9の構成は、伝送ビットレートを例えば前記2kbpsと6kbpsとで切り換え可能な場合において、6kbpsの伝送ビットレートに対応した構成を示しており、さらにシェイプ及びゲインインデクス出力を23ビット/5msecと15ビット/5msecとで切り換えられるようにしているものである。また、この図9の構成における処理の流れは図10に示すようになっている。

0199

この図9において、例えば、図9の第1の符号化部200は前記図3の第1の符号化部113と略々対応し、図9のLPC分析回路302は前記図3に示したLPC分析回路132と対応し、図9のLSPパラメータ量子化回路303は図3の前記α→LSP変換回路133からLSP→α変換回路137までの構成と対応し、図9の聴覚重み付けフィルタ304は図3の前記聴覚重み付けフィルタ算出回路139及び聴覚重み付けフィルタ125と対応している。したがって、この図9において、端子305には前記図3の第1の符号化部113のLSP→α変換回路137からの出力と同じものが供給され、また、端子307には前記図3の聴覚重み付けフィルタ算出回路139からの出力と同じものが、端子306には前記図3の聴覚重み付けフィルタ125からの出力と同じものが供給される。ただし、この図5の聴覚重み付けフィルタ304では、前記図3の聴覚重み付けフィルタ125とは異なり、前記LSP→α変換回路137の出力を用いずに、入力音声データ量子化前のαパラメータとから、前記聴覚重み付けした信号(すなわち前記図3の聴覚重み付けフィルタ125からの出力と同じ信号)を生成している。

0200

また、この図9に示す2段構成の第2の符号化部1201及び1202において、減算器313及び323は図3の減算器123と対応し、距離計算回路314及び324は図3の距離計算回路124と、ゲイン回路311及び321は図3のゲイン回路126と、ストキャスティックコードブック310,320及びゲインコードブック315,325は図3の雑音符号帳121とそれぞれ対応している。

0201

このような図9の構成において、先ず、図10のステップS1に示すように、LPC分析回路302では、端子301から供給された入力音声データxを前述同様に適当なフレームに分割してLPC分析を行い、αパラメータを求める。LSPパラメータ量子化回路303では、上記LPC分析回路302からのαパラメータをLSPパラメータに変換して量子化し、さらにこの量子化したLSPパラメータを補間した後、αパラメータに変換する。次に、当該LSPパラメータ量子化回路303では、当該量子化したLSPパラメータを変換したαパラメータ、すなわち量子化されたαパラメータから、LPC合成フィルタ関数1/H(z)を生成し、これを端子305を介して1段目の第2の符号化部1201の聴覚重み付き合成フィルタ312に送る。

0202

一方、聴覚重み付けフィルタ304では、LPC分析回路302からのαパラメータ(すなわち量子化前のαパラメータ)から、前記図3の聴覚重み付けフィルタ算出回路139によるものと同じ聴覚重み付けのためのデータを求め、この重み付けのためのデータが端子307を介して、1段目の第2の符号化部1201の聴覚重み付き合成フィルタ312に送られる。また、当該聴覚重み付けフィルタ304では、図10のステップS2に示すように、入力音声データと量子化前のαパラメータとから、前記聴覚重み付けした信号(前記図3の聴覚重み付けフィルタ125からの出力と同じ信号)を生成する。すなわち、先ず、量子化前のαパラメータから聴覚重み付けフィルタ関数W(z)を生成し、さらに入力音声データxに当該フィルタ関数W(z)をかけてxWを生成し、これを上記聴覚重み付けした信号として、端子306を介して1段目の第2の符号化部1201の減算器313に送る。

0203

1段目の第2の符号化部1201では、9ビットシェイプインデクス出力のストキャスティックコードブック(stochastic code book)310からの代表値出力(無声音のLPC残差に相当するノイズ出力)がゲイン回路311に送られ、このゲイン回路311にて、ストキャスティックコードブック310からの代表値出力に6ビットゲインインデクス出力のゲインコードブック315からのゲイン(スカラ値)を乗じ、このゲイン回路311にてゲインが乗じられた代表値出力が、1/A(z)=(1/H(z))・W(z)の聴覚重み付きの合成フィルタ312に送られる。この重み付きの合成フィルタ312からは、図10のステップS3のように、1/A(z)のゼロ入力応答出力が減算器313に送られる。当該減算器313では、上記聴覚重み付き合成フィルタ312からのゼロ入力応答出力と、上記聴覚重み付けフィルタ304からの上記聴覚重み付けした信号xWとを用いた減算が行われ、この差分或いは誤差が参照ベクトルrとして取り出される。図10のステップS4に示すように、1段目の第2の符号化部1201でのサーチ時には、この参照ベクトルrが、距離計算回路314に送られ、ここで距離計算が行われ、量子化誤差エネルギEを最小にするシェイプベクトルsとゲインgがサーチされる。ただし、ここでの1/A(z)はゼロ状態である。すなわち、コードブック中のシェイプベクトルsをゼロ状態の1/A(z)で合成したものをssynとするとき、式(40)を最小にするシェイプベクトルsとゲインgをサーチする。

0204

0205

ここで、量子化誤差エネルギEを最小とするsとgをフルサーチしてもよいが、計算量を減らすために、以下のような方法をとることができる。

0206

第1の方法として、以下の式(41)に定義するEsを最小とするシェイプベクトルsをサーチする。

0207

0208

第2の方法として、第1の方法により得られたsより、理想的なゲインは、式(42)のようになるから、式(43)を最小とするgをサーチする。

0209

0210

Eg=(gref−g)2 (43)
ここで、Eはgの二次関数であるから、Egを最小にするgはEを最小化する。

0211

上記第1,第2の方法によって得られたsとgより、量子化誤差ベクトルe(n)は次の式(44)のように計算できる。

0212

e(n)=r(n)−gssyn(n) (44)
これを、2段目の第2の符号化部1202のリファレンス入力として1段目と同様にして量子化する。

0213

すなわち、上記1段目の第2の符号化部1201の聴覚重み付き合成フィルタ312からは、端子305及び端子307に供給された信号がそのまま2段目の第2の符号化部1202の聴覚重み付き合成フィルタ322に送られる。また、当該2段目の第2の符号化部1202減算器323には、1段目の第2の符号化部1201にて求めた上記量子化誤差ベクトルe(n)が供給される。

0214

次に、図10のステップS5において、当該2段目の第2の符号化部1202でも1段目と同様に処理が行われる。すなわち、5ビットシェイプインデクス出力のストキャスティックコードブック320からの代表値出力がゲイン回路321に送られ、このゲイン回路321にて、当該コードブック320からの代表値出力に3ビットゲインインデクス出力のゲインコードブック325からのゲインを乗じ、このゲイン回路321の出力が、聴覚重み付きの合成フィルタ322に送られる。当該重み付きの合成フィルタ322からの出力は減算器323に送られ、当該減算器323にて上記聴覚重み付き合成フィルタ322からの出力と1段目の量子化誤差ベクトルe(n)との差分が求められ、この差分が距離計算回路324に送られてここで距離計算が行われ、量子化誤差エネルギEを最小にするシェイプベクトルsとゲインgがサーチされる。

0215

上述したような1段目の第2の符号化部1201のストキャストコードブック310からのシェイプインデクス出力及びゲインコードブック315からのゲインインデクス出力と、2段目の第2の符号化部1202のストキャストコードブック320からのインデクス出力及びゲインコードブック325からのインデクス出力は、インデクス出力切り換え回路330に送られるようになっている。ここで、当該第2の符号化部120から前記23ビット出力を行うときには、上記1段目と2段目の第2の符号化部1201及び1202のストキャストコードブック310,320及びゲインコードブック315,325からの各インデクスを合わせて出力し、一方、前記15ビット出力を行うときには、上記1段目の第2の符号化部1201のストキャストコードブック310とゲインコードブック315からの各インデクスを出力する。

0216

その後は、ステップS6のようにフィルタ状態アップデートされる。

0217

ところで、本実施の形態では、2段目の第2の符号化部1202のインデクスビット数が、シェイプベクトルについては5ビットで、ゲインについては3ビットと非常に少ない。このような場合、適切なシェイプ、ゲインがコードブックに存在しないと、量子化誤差を減らすどころか逆に増やしてしまう可能性がある。

0218

この問題を防ぐためには、ゲインに0を用意しておけばよいが、ゲインは3ビットしかなく、そのうちの一つを0にしてしまうのは量子化器の性能を大きく低下させてしまう。そこで、比較的多いビット数を割り当てたシェイプベクトルに、要素が全て0のベクトルを用意する。そして、このゼロベクトルを除いて、前述のサーチを行い、量子化誤差が最終的に増えてしまった場合に、ゼロベクトルを選択するようにする。なお、このときのゲインは任意である。これにより、2段目の第2の符号化部1202が量子化誤差を増すことを防ぐことができる。

0219

なお、図9の例では、2段構成の場合を例に挙げているが、2段に限らず複数段構成とすることができる。この場合、1段目のクローズドループサーチによるベクトル量子化が終了したら、N段目(2≦N)ではN−1段目の量子化誤差をリファレンス入力として量子化を行い、さらにその量子化誤差をN+1段目のリファレンス入力とする。

0220

上述したように、図9及び図10から、第2の符号化部に多段のベクトル量子化器を用いることにより、従来のような同じビット数のストレートベクトル量子化や共役コードブックなどを用いたものと比較して、計算量が少なくなる。特に、CELP符号化では、合成による分析(Analysis by Synthesis )法を用いたクローズドループサーチを用いた時間軸波形のベクトル量子化を行っているため、サーチの回数が少ないことが重要である。また、2段の第2の符号化部1201と1202の両インデクス出力を用いる場合と、1段目の第2の符号化部1201のインデクス出力のみを用いる(2段目の第2の符号化部1202の出力インデクスを用いない)場合とを切り換えることにより、簡単にビット数を切り換えることが可能となっている。さらに上述したように、1段目と2段目の第2の符号化部1201と1202の両インデクス出力を合わせて出力するようなことを行えば、後のデコーダ側において例えば何れかを選ぶようにすることで、デコーダ側でも容易に対応できることになる。すなわち例えば6kbpsでエンコードしたパラメータを、2kbpsのデコーダでデコードするときに、デコーダ側で容易に対応できることになる。またさらに、例えば2段目の第2の符号化部1202のシェイプコードブックにゼロベクトルを含ませることにより、割り当てられたビット数が少ない場合でも、ゲインに0を加えるよりは少ない性能劣化で量子化誤差が増加することを防ぐことが可能となっている。

0221

次に、上記ストキャスティックコードブックのコードベクトル(シェイプベクトル)は例えば以下のようにして生成することができる。

0222

例えば、ストキャスティックコードブックのコードベクトルは、いわゆるガウシアンノイズのクリッピングにより生成することができる。具体的には、ガウシアンノイズを発生させ、これを適当なスレシホールド値でクリッピングし、それを正規化することで、コードブックを構成することができる。

0223

ところが、音声には様々な形態があり、例えば「さ,し,す,せ,そ」のようなノイズに近い子音の音声には、ガウシアンノイズが適しているが、例えば「ぱ,ぴ,ぷ,ぺ,ぽ」のような立ち上がりの激しい子音(急峻な子音)の音声については、対応しきれない。

0224

そこで、本発明では、全コードベクトルのうち、適当な数はガウシアンノイズとし、残りを学習により求めて上記立ち上がりの激しい子音とノイズに近い子音の何れにも対応できるようにする。例えば、スレシホールド値を大きくとると、大きなピークを幾つか持つようなベクトルが得られ、一方、スレシホールド値を小さくとると、ガウシアンノイズそのものに近くなる。したがって、このようにクリッピングスレシホールド値のバリエーションを増やすことにより、例えば「ぱ,ぴ,ぷ,ぺ,ぽ」のような立ち上がりの激しい子音や、例えば「さ,し,す,せ,そ」のようなノイズに近い子音などに対応でき、明瞭度を向上させることができるようになる。なお、図11には、図中実線で示すガウシアンノイズと図中点線で示すクリッピング後のノイズの様子を示している。また、図11の(A)はクリッピングスレシホールド値が1.0の場合(すなわちスレシホールド値が大きい場合)を、図11の(B)にはクリッピングスレシホールド値が0.4の場合(すなわちスレシホールド値が小さい場合)を示している。この図11の(A)及び(B)から、スレシホールド値を大きくとると、大きなピークを幾つか持つようなベクトルが得られ、一方、スレシホールド値を小さくとると、ガウシアンノイズそのものに近くなることが判る。

0225

このようなことを実現するため、先ず、ガウシアンノイズのクリッピングにより初期コードブックを構成し、さらに予め適当な数だけ学習を行わないコードベクトルを決めておく。この学習しないコードベクトルは、その分散値が小さいものから順に選ぶようにする。これは、例えば「さ,し,す,せ,そ」のようなノイズに近い子音に対応させるためである。一方、学習を行って求めるコードベクトルは、当該学習のアルゴリズムとしてLBGアルゴリズムを用いるようにする。ここで最適エンコード条件(Nearest Neighbour Condition)でのエンコードは固定したコードベクトルと、学習対象のコードベクトル両方を使用して行う。セントロイドコンディション(Centroid Condition)においては、学習対象のコードベクトルのみをアップデートする。これにより、学習対象となったコードベクトルは「ぱ,ぴ,ぷ,ぺ,ぽ」などの立ち上がりの激しい子音に対応するようになる。

0226

なお、ゲインは通常通りの学習を行うことで、これらのコードベクトルに対して最適なものが学習できる。

0227

上述したガウシアンノイズのクリッピングによるコードブックの構成のための処理の流れを図12に示す。

0228

この図12において、ステップS10では、初期化として、学習回数n=0とし、誤差D0=∞とし、最大学習回数nmaxを決定し、学習終了条件を決めるスレシホールド値εを決定する。

0229

次のステップS11では、ガウシアンノイズのクリッピングによる初期コードブックを生成し、ステップS12では学習を行わないコードベクトルとして一部のコードベクトルを固定する。

0230

次にステップS13では上記コードブックを用いてエンコードを行い、ステップS14では誤差を算出し、ステップS15では(Dn-1−Dn)/Dn<ε、若しくはn=nmaxか否かを判断し、Yesと判断した場合には処理を終了し、Noと判断した場合にはステップS16に進む。

0231

ステップS16ではエンコードに使用されなかったコードベクトルの処理を行い、次のステップS17ではコードブックのアップデートを行う。次にステップS18では学習回数nを1インクリメントし、その後ステップS13に戻る。

0232

以上説明したような信号符号化装置及び信号復号化装置は、例えば図13及び図14に示すような携帯通信端末あるいは携帯電話機等に使用される音声コーデックとして用いることができる。

0233

すなわち、図13は、上記図1図3に示したような構成を有する音声符号化部160を用いて成る携帯端末の送信側構成を示している。この図13マイクロホン161で集音された音声信号は、アンプ162で増幅され、A/D(アナログディジタル変換器163でディジタル信号に変換されて、音声符号化部160に送られる。この音声符号化部160は、上述した図1図3に示すような構成を有しており、この入力端子101に上記A/D変換器163からのディジタル信号が入力される。音声符号化部160では、上記図1図3と共に説明したような符号化処理が行われ、図1図2の各出力端子からの出力信号は、音声符号化部160の出力信号として、伝送路符号化部164に送られる。伝送路符号化部164では、いわゆるチャネルコーディング処理が施され、その出力信号が変調回路165に送られて変調され、D/A(ディジタル/アナログ)変換器166、RFアンプ167を介して、アンテナ168に送られる。

0234

また、図14は、上記図2図4に示したような構成を有する音声復号化部260を用いて成る携帯端末の受信側構成を示している。この図14のアンテナ261で受信された音声信号は、RFアンプ262で増幅され、A/D(アナログ/ディジタル)変換器263を介して、復調回路264に送られ、復調信号伝送路復号化部265に送られる。264からの出力信号は、上記図2図4に示すような構成を有する音声復号化部260に送られる。音声復号化部260では、上記図2図4と共に説明したような復号化処理が施され、図2図4の出力端子201からの出力信号が、音声復号化部260からの信号としてD/A(ディジタル/アナログ)変換器266に送られる。このD/A変換器266からのアナログ音声信号スピーカ268に送られる。

発明の効果

0235

以上の説明からも明かなように、本発明に係る音声符号化方法及び音声符号化装置は、入力音声信号の少なくとも有声音部分に対して短期予測残差を求め、上記求められた短期予測残差に基づいてサイン波分析符号化パラメータを求め、上記サイン波分析符号化パラメータに対して聴覚重み付きのベクトル量子化を施し、上記入力音声信号の無声音部分に対して位相伝送を行う波形符号化により符号化するものであり、上記聴覚重み付きのベクトル量子化では、第1のベクトル量子化を行い、この第1のベクトル量子化の際の量子化誤差ベクトルを量子化する第2のベクトル量子化を行うことにより、データ伝送路の容量に応じて、出力する符号化データのビット数の切り換えを簡易に行うことができ、複数のデータビットレートに対応させることができる。また、符号化側と復号化側とでビットレートが異なっている場合であっても復号化側で容易に対応可能な符号化データ列を生成することができる。

図面の簡単な説明

0236

図1本発明に係る音声符号化方法及び音声符号化装置の実施の形態が適用される音声信号符号化装置の基本構成を示すブロック図である。
図2図1に対応する音声信号復号化装置の基本構成を示すブロック図である。
図3図1の音声信号符号化装置のより具体的な構成を示すブロック図である。
図4図2の音声信号復号化装置のより具体的な構成を示すブロック図である。
図5LSP量子化部の基本構成を示すブロック図である。
図6LSP量子化部のより具体的な構成を示すブロック図である。
図7ベクトル量子化部の基本構成を示すブロック図である。
図8ベクトル量子化部のより具体的な構成を示すブロック図である。
図9本発明の音声信号符号化装置のCELP符号化部分(第2の符号化部)の具体的構成を示すブロック回路図である。
図10図9の構成における処理の流れを示すフローチャートである。
図11ガウシアンノイズと、異なるスレシホールド値でのクリッピング後のノイズの様子を示す図である。
図12学習によってシェイプコードブックを生成する際の処理の流れを示すフローチャートである。
図13本発明の実施の形態となる音声信号符号化装置が用いられる携帯端末の送信側構成を示すブロック図である。
図14図13に対応する音声信号復号化装置が用いられる携帯端末の受信側構成を示すブロック図である。

--

0237

500 第1のベクトル量子化部
510 第2のベクトル量子化部
502ベクトル量子化器
511 ベクトル量子化部
505、513 加算器

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ