図面 (/)

技術 音声符号化装置及び音声復号化装置

出願人 日本電気株式会社
発明者 小澤一範
出願日 2001年3月7日 (19年8ヶ月経過) 出願番号 2001-063687
公開日 2002年9月20日 (18年2ヶ月経過) 公開番号 2002-268686
状態 特許登録済
技術分野 圧縮、伸長・符号変換及びデコーダ 音声の分析・合成
主要キーワード z変換 累積歪 位置集合 パルス位置情報 モード判別回路 ゲインβ ゲインパラメータ 単行本
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2002年9月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

符号化ビットレートが低い場合においても、少ない演算量で音質劣化を抑制して音声信号を符号化し、さらに、この符号化した音声信号を高品質復号化する。

解決手段

パルスの位置をあらわすための位置コードブック複数セット位置コードブック格納回路450に複数セット保有し、適応コードブック回路500にてにより求めたピッチ予測信号をもとに、位置コードブック選択回路510にて複数の位置コードブックから位置コードブックを1種類選択し、選択した位置コードブックから音声信号との歪を最小にする位置を音源量子化回路350にて選択し、適応コードブック回路500の出力と音源量子化回路350の出力とを伝送する。

概要

背景

音声信号を高能率に符号化する方式としては、例えば、M.Schroeder and B.Atal 氏による論文“Code-excited linear prediction: High quality speech atvery low bit rates”(Proc.ICASSP, pp.937-940, 1985年)(以下、文献1と称する)や、Kleijn 氏らによる論文“Improved speech quality and efficientvector quantization in SELP”(Proc. ICASSP, pp.155-158, 1988年)(以下、文献2と称する)等に記載されているCELP(Code Excited Linear Predictive Coding)が知られている。

CELPにおいては、送信側において、まず、音声信号のフレーム毎(例えば20ms)に線形予測(LPC:Linear Predictive Coding)分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。

次に、各フレームをさらにサブフレーム(例えば5ms)に分割し、サブフレーム毎に過去の音源信号に基づいて、適応コードブックにおけるパラメータピッチ周期に対応する遅延パラメータゲインパラメータ)を抽出し、適応コードブックによりサブフレームの音声信号をピッチ予測する。

次に、ピッチ予測により求めた音源信号に対して、予め決められた種類の雑音信号からなる音源コードブックベクトル量子化コードブック)から最適な音源コードベクトルを選択し、最適なゲインを計算することにより、音源信号を量子化する。なお、音源コードベクトルの選択においては、選択した雑音信号により合成した信号と残差信号との誤差電力を最小化するような音源コードベクトルを選択する。

その後、選択された音源コードベクトルの種類を表すインデクスとゲイン、並びにスペクトルパラメータと適応コードブックのパラメータをマルチプレクサ部にて組み合わせて伝送する。

ところが、上述したような音声信号を符号化する従来の方式においては、音源コードブックから最適な音源コードベクトルを選択する場合、各コードベクトルのそれぞれに対して一旦フィルタリングもしくは畳み込み演算を行わなければならないため、この演算コードブックに格納されているコードベクトルの個数だけ繰り返して行うことになり、多大な演算量が必要となってしまうという問題点がある。例えば、音声コードブックのビット数Bビット次元数がNの場合、フィルタリングあるいは畳み込み演算のときのフィルタあるいはインパルス応答長をKとすると、1秒当たり、N×K×2B×8000/Nの演算量が必要となる。一例として、B=10,N=40,K=10とすると、1秒当たり81,920,000回という極めて膨大な演算が必要となってしまう。

そこで、音源コードブックから音源コードベクトルを探索する際に必要となる演算量を低減する方法として、種々のものが提案されており、その1つとして、例えば、C.Laflamme らによる論文“16kbps wideband speech coding technique based on algebraic CELP”(Proc.ICASSP, pp. 13-16, 1991)(以下、文献3と称する)に記載された、ACELP(Argebraic Code Excited Linear Prediction)方式がある。

このACELP方式においては、音源信号が複数個パルスで表され、各パルスの位置が予め決められたビット数で表されて伝送されるが、各パルスの振幅が+1.0もしくは−1.0に限定されているため、パルス探索の演算量を大幅に低減することができる。

概要

符号化ビットレートが低い場合においても、少ない演算量で音質劣化を抑制して音声信号を符号化し、さらに、この符号化した音声信号を高品質復号化する。

パルスの位置をあらわすための位置コードブックを複数セット位置コードブック格納回路450に複数セット保有し、適応コードブック回路500にてにより求めたピッチ予測信号をもとに、位置コードブック選択回路510にて複数の位置コードブックから位置コードブックを1種類選択し、選択した位置コードブックから音声信号との歪を最小にする位置を音源量子化回路350にて選択し、適応コードブック回路500の出力と音源量子化回路350の出力とを伝送する。

目的

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、符号化ビットレートが低い場合においても、少ない演算量で音質の劣化を抑制して音声信号を符号化することができる音声符号化装置及び該音声符号化装置にて符号化された音声信号を高品質に復号化することができる音声復号化装置を提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声信号が入力されてスペクトルパラメータを算出するスペクトルパラメータ計算手段と、該パラメータ計算手段にて算出されたスペクトルパラメータを量子化して出力するスペクトルパラメータ量子化手段と、該スペクトルパラメータ量子化手段から出力されたスペクトルパラメータをもとにインパルス応答に変換するインパルス応答計算手段と、過去の量子化された音源信号から適応コードブックにより遅延ゲインを求め音声信号を予測して残差信号を求め、前記遅延とゲインを出力する適応コードブック手段と、振幅が非パルスの組み合わせで前記音声信号の音源信号が表され、前記インパルス応答を用いて前記音声信号の音源信号とゲインを量子化して出力する音源量子化手段とを有してなる音声符号化装置において、前記パルスの位置の集合として複数セット位置コードブックが格納された位置コードブック格納手段と、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段とを有し、前記音源量子化手段は、前記インパルスパルス応答を用いて前記音声信号との歪を計算し、前記歪を小さくする位置を選択することによりパルスの位置を量子化し、前記スペクトルパラメータ量子化手段の出力と適応コードブック手段の出力と音源量子化手段の出力とを組み合わせて出力するマルチプレクサ手段を有することを特徴とする音声符号化装置。

請求項2

音声信号が入力されてスペクトルパラメータを算出するスペクトルパラメータ計算手段と、該パラメータ計算手段にて算出されたスペクトルパラメータを量子化して出力するスペクトルパラメータ量子化手段と、該スペクトルパラメータ量子化手段から出力されたスペクトルパラメータをもとにインパルス応答に変換するインパルス応答計算手段と、過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め音声信号を予測して残差信号を求め、前記遅延とゲインを出力する適応コードブック手段と、振幅が非零のパルスの組み合わせで前記音声信号の音源信号が表され、前記インパルス応答を用いて前記音声信号の音源信号とゲインを量子化して出力する音源量子化手段とを有してなる音声符号化装置において、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段とを有し、前記音源量子化手段は、前記位置コードブック選択手段にて選択された位置コードブックに格納された位置の各々に対しゲインコードブックに格納されたゲインコードベクトル読み出してゲインを量子化して前記音声信号との歪を計算し、前記歪を小さくする位置とゲインコードベクトルの組み合わせを1種類選択し出力し、前記スペクトルパラメータ量子化手段の出力と適応コードブック手段の出力と音源量子化手段の出力とを組み合わせて出力するマルチプレクサ手段を有することを特徴とする音声符号化装置。

請求項3

音声信号が入力されてスペクトルパラメータを算出するスペクトルパラメータ計算手段と、該パラメータ計算手段にて算出されたスペクトルパラメータを量子化して出力するスペクトルパラメータ量子化手段と、該スペクトルパラメータ量子化手段から出力されたスペクトルパラメータをもとにインパルス応答に変換するインパルス応答計算手段と、過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め音声信号を予測して残差信号を求め、前記遅延とゲインを出力する適応コードブック手段と、振幅が非零のパルスの組み合わせで前記音声信号の音源信号が表され、前記インパルス応答を用いて前記音声信号の音源信号とゲインを量子化して出力する音源量子化手段とを有してなる音声符号化装置において、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記音声信号から特徴を抽出してモードを判別し出力する判別手段と、前記判別手段の出力があらかじめ決められたモードである場合に、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから少なくとも1種類のコードブックを選択する位置コードブック選択手段とを有し、前記音源量子化手段は、前記判別手段の出力があらかじめ決められたモードである場合に、前記選択されたコードブックに格納された位置に対して前記インパルス応答を用いて前記音声信号との歪を計算し、前記歪を小さくする位置を選択して出力してパルスの位置を量子化し、前記スペクトルパラメータ量子化手段の出力と適応コードブック手段の出力と音源量子化手段の出力と前記判別手段の出力とを組み合わせて出力するマルチプレクサ手段を有することを特徴とする音声符号化装置。

請求項4

スペクトルパラメータに関する符号と適応コードブックに関する符号と音源信号に関する符号とゲインを表す符号とが入力され、それらを分離するデマルチプレクサ手段と、適応コードブックに関する符号を用いて適応コードベクトルを発生させる適応コードベクトル発生手段と、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段と、前記コードブックと音源信号に関する符号を用いて、前記コードブック選択手段にて選択された位置コードブックに対して振幅が非零のパルスを発生させ、さらにゲインを表す符号を用いてゲインを乗じて音源信号を発生させる音源信号復元手段と、スペクトルパラメータにより構成され前記音源信号を入力し再生信号を出力する合成フィルタ手段とを有することを特徴とする音声復号化装置

請求項5

スペクトルパラメータに関する符号と適応コードブックに関する符号と音源信号に関する符号とゲインを表す符号とモードを表す符号とが入力され、それらを分離するデマルチプレクサ手段と、前記モードを表す符号が予め決められたモードの場合に、適応コードブックに関する符号を用いて適応コードベクトルを発生させる適応コードベクトル発生手段と、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記モードを表す符号が予め決められたモードの場合に、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段と、前記モードを表す符号が予め決められたモードの場合に、前記コードブックと音源信号に関する符号を用いて、前記コードブック選択手段にて選択された位置コードブックに対して振幅が非零のパルスを発生させ、さらにゲインを表す符号を用いてゲインを乗じて音源信号を発生させる音源信号復元手段と、スペクトルパラメータにより構成され前記音源信号を入力し再生信号を出力する合成フィルタ手段とを有することを特徴とする音声復号化装置。

技術分野

0001

本発明は、音声信号を低いビットレートで高品質に符号化するための音声符号化装置及び該音声符号化装置にて符号化された音声信号を高品質に復号化するための音声復号化装置に関する。

背景技術

0002

音声信号を高能率に符号化する方式としては、例えば、M.Schroeder and B.Atal 氏による論文“Code-excited linear prediction: High quality speech atvery low bit rates”(Proc.ICASSP, pp.937-940, 1985年)(以下、文献1と称する)や、Kleijn 氏らによる論文“Improved speech quality and efficientvector quantization in SELP”(Proc. ICASSP, pp.155-158, 1988年)(以下、文献2と称する)等に記載されているCELP(Code Excited Linear Predictive Coding)が知られている。

0003

CELPにおいては、送信側において、まず、音声信号のフレーム毎(例えば20ms)に線形予測(LPC:Linear Predictive Coding)分析を用いて、音声信号のスペクトル特性を表すスペクトルパラメータを抽出する。

0004

次に、各フレームをさらにサブフレーム(例えば5ms)に分割し、サブフレーム毎に過去の音源信号に基づいて、適応コードブックにおけるパラメータピッチ周期に対応する遅延パラメータゲインパラメータ)を抽出し、適応コードブックによりサブフレームの音声信号をピッチ予測する。

0005

次に、ピッチ予測により求めた音源信号に対して、予め決められた種類の雑音信号からなる音源コードブックベクトル量子化コードブック)から最適な音源コードベクトルを選択し、最適なゲインを計算することにより、音源信号を量子化する。なお、音源コードベクトルの選択においては、選択した雑音信号により合成した信号と残差信号との誤差電力を最小化するような音源コードベクトルを選択する。

0006

その後、選択された音源コードベクトルの種類を表すインデクスとゲイン、並びにスペクトルパラメータと適応コードブックのパラメータをマルチプレクサ部にて組み合わせて伝送する。

0007

ところが、上述したような音声信号を符号化する従来の方式においては、音源コードブックから最適な音源コードベクトルを選択する場合、各コードベクトルのそれぞれに対して一旦フィルタリングもしくは畳み込み演算を行わなければならないため、この演算コードブックに格納されているコードベクトルの個数だけ繰り返して行うことになり、多大な演算量が必要となってしまうという問題点がある。例えば、音声コードブックのビット数Bビット次元数がNの場合、フィルタリングあるいは畳み込み演算のときのフィルタあるいはインパルス応答長をKとすると、1秒当たり、N×K×2B×8000/Nの演算量が必要となる。一例として、B=10,N=40,K=10とすると、1秒当たり81,920,000回という極めて膨大な演算が必要となってしまう。

0008

そこで、音源コードブックから音源コードベクトルを探索する際に必要となる演算量を低減する方法として、種々のものが提案されており、その1つとして、例えば、C.Laflamme らによる論文“16kbps wideband speech coding technique based on algebraic CELP”(Proc.ICASSP, pp. 13-16, 1991)(以下、文献3と称する)に記載された、ACELP(Argebraic Code Excited Linear Prediction)方式がある。

0009

このACELP方式においては、音源信号が複数個パルスで表され、各パルスの位置が予め決められたビット数で表されて伝送されるが、各パルスの振幅が+1.0もしくは−1.0に限定されているため、パルス探索の演算量を大幅に低減することができる。

発明が解決しようとする課題

0010

しかしながら、上述したような音声信号を符号化する従来の方式においては、符号化ビットレートが8kb/s以上の音声信号に対しては良好な音質が得られるものの、符号化ビットレートが8kb/s未満となると、サブフレーム当たりのパルスの個数が十分でなくなるため、音源信号を十分な精度で表すことが困難となり、符号化音声の音質が劣化してしまうという問題点がある。

0011

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、符号化ビットレートが低い場合においても、少ない演算量で音質の劣化を抑制して音声信号を符号化することができる音声符号化装置及び該音声符号化装置にて符号化された音声信号を高品質に復号化することができる音声復号化装置を提供することを目的とする。

課題を解決するための手段

0012

上記目的を達成するために本発明においては、音声信号が入力されてスペクトルパラメータを算出するスペクトルパラメータ計算手段と、該パラメータ計算手段にて算出されたスペクトルパラメータを量子化して出力するスペクトルパラメータ量子化手段と、該スペクトルパラメータ量子化手段から出力されたスペクトルパラメータをもとにインパルス応答に変換するインパルス応答計算手段と、過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め音声信号を予測して残差信号を求め、前記遅延とゲインを出力する適応コードブック手段と、振幅が非のパルスの組み合わせで前記音声信号の音源信号が表され、前記インパルス応答を用いて前記音声信号の音源信号とゲインを量子化して出力する音源量子化手段とを有してなる音声符号化装置において、前記パルスの位置の集合として複数セット位置コードブックが格納された位置コードブック格納手段と、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段とを有し、前記音源量子化手段は、前記インパルスパルス応答を用いて前記音声信号との歪を計算し、前記歪を小さくする位置を選択することによりパルスの位置を量子化し、前記スペクトルパラメータ量子化手段の出力と適応コードブック手段の出力と音源量子化手段の出力とを組み合わせて出力するマルチプレクサ手段を有することを特徴とする。

0013

また、音声信号が入力されてスペクトルパラメータを算出するスペクトルパラメータ計算手段と、該パラメータ計算手段にて算出されたスペクトルパラメータを量子化して出力するスペクトルパラメータ量子化手段と、該スペクトルパラメータ量子化手段から出力されたスペクトルパラメータをもとにインパルス応答に変換するインパルス応答計算手段と、過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め音声信号を予測して残差信号を求め、前記遅延とゲインを出力する適応コードブック手段と、振幅が非零のパルスの組み合わせで前記音声信号の音源信号が表され、前記インパルス応答を用いて前記音声信号の音源信号とゲインを量子化して出力する音源量子化手段とを有してなる音声符号化装置において、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段とを有し、前記音源量子化手段は、前記位置コードブック選択手段にて選択された位置コードブックに格納された位置の各々に対しゲインコードブックに格納されたゲインコードベクトルを読み出してゲインを量子化して前記音声信号との歪を計算し、前記歪を小さくする位置とゲインコードベクトルの組み合わせを1種類選択し出力し、前記スペクトルパラメータ量子化手段の出力と適応コードブック手段の出力と音源量子化手段の出力とを組み合わせて出力するマルチプレクサ手段を有することを特徴とする。

0014

また、音声信号が入力されてスペクトルパラメータを算出するスペクトルパラメータ計算手段と、該パラメータ計算手段にて算出されたスペクトルパラメータを量子化して出力するスペクトルパラメータ量子化手段と、該スペクトルパラメータ量子化手段から出力されたスペクトルパラメータをもとにインパルス応答に変換するインパルス応答計算手段と、過去の量子化された音源信号から適応コードブックにより遅延とゲインを求め音声信号を予測して残差信号を求め、前記遅延とゲインを出力する適応コードブック手段と、振幅が非零のパルスの組み合わせで前記音声信号の音源信号が表され、前記インパルス応答を用いて前記音声信号の音源信号とゲインを量子化して出力する音源量子化手段とを有してなる音声符号化装置において、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記音声信号から特徴を抽出してモードを判別し出力する判別手段と、前記判別手段の出力があらかじめ決められたモードである場合に、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから少なくとも1種類のコードブックを選択する位置コードブック選択手段とを有し、前記音源量子化手段は、前記判別手段の出力があらかじめ決められたモードである場合に、前記選択されたコードブックに格納された位置に対して前記インパルス応答を用いて前記音声信号との歪を計算し、前記歪を小さくする位置を選択して出力してパルスの位置を量子化し、前記スペクトルパラメータ量子化手段の出力と適応コードブック手段の出力と音源量子化手段の出力と前記判別手段の出力とを組み合わせて出力するマルチプレクサ手段を有することを特徴とする。

0015

また、スペクトルパラメータに関する符号と適応コードブックに関する符号と音源信号に関する符号とゲインを表す符号とが入力され、それらを分離するデマルチプレクサ手段と、適応コードブックに関する符号を用いて適応コードベクトルを発生させる適応コードベクトル発生手段と、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段と、前記コードブックと音源信号に関する符号を用いて、前記コードブック選択手段にて選択された位置コードブックに対して振幅が非零のパルスを発生させ、さらにゲインを表す符号を用いてゲインを乗じて音源信号を発生させる音源信号復元手段と、スペクトルパラメータにより構成され前記音源信号を入力し再生信号を出力する合成フィルタ手段とを有することを特徴とする。

0016

また、スペクトルパラメータに関する符号と適応コードブックに関する符号と音源信号に関する符号とゲインを表す符号とモードを表す符号とが入力され、それらを分離するデマルチプレクサ手段と、前記モードを表す符号が予め決められたモードの場合に、適応コードブックに関する符号を用いて適応コードベクトルを発生させる適応コードベクトル発生手段と、前記パルスの位置の集合として複数セットの位置コードブックが格納された位置コードブック格納手段と、前記モードを表す符号が予め決められたモードの場合に、前記適応コードブックの遅延とゲインの少なくとも一つをもとに、前記複数セットの位置コードブックから1種類のコードブックを選択する位置コードブック選択手段と、前記モードを表す符号が予め決められたモードの場合に、前記コードブックと音源信号に関する符号を用いて、前記コードブック選択手段にて選択された位置コードブックに対して振幅が非零のパルスを発生させ、さらにゲインを表す符号を用いてゲインを乗じて音源信号を発生させる音源信号復元手段と、スペクトルパラメータにより構成され前記音源信号を入力し再生信号を出力する合成フィルタ手段とを有することを特徴とする。

0017

(作用)上記のように構成された本発明においては、パルスの位置をあらわすための位置コードブックを複数セット保有し、適応コードブックにより求めたピッチ予測信号をもとに、複数の位置コードブックから位置コードブックを1種類選択し、前記位置コードブックから音声信号との歪を最小にする位置を探索しているので、従来方式と比べパルス位置情報の自由度が高く、特にビットレートが低い場合に従来方式に比べて音質が改善される。

0018

また、適応コードブックにより求めたピッチ予測信号をもとに、複数の位置コードブックから位置コードブックを1種類選択し、前記位置コードブックに格納された位置の各々に対し、ゲインコードブックに格納されたゲインコードベクトルを探索して最終的な再生信号の状態で音声信号との歪を計算し、これを小さくする位置とゲインコードベクトルとの組み合わせを選択しているので、ゲインコードベクトルを含めた最終的な再生音声信号上で歪を小さくできるので、さらに音質が改善される。

0019

また、判別符号を受信して前記受信符号があらかじめ定められたモードの場合は、適応コードブックにより求めたピッチ予測信号をもとに、複数の位置コードブックから位置コードブックを1種類選択し、前記位置コードブックに格納された位置に対し位置を表す符号を用いてパルスを発生させ、ゲインを乗じ、合成フィルタに通して音声信号を再生しているので、ビットレートが低い場合に従来方式と比べて音質が改善される。

発明を実施するための最良の形態

0020

以下に、本発明の実施の形態について図面を参照して説明する。

0021

(第1の実施の形態)図1は、本発明の音声符号化装置の第1の実施の形態を示すブロック図である。

0022

本形態は図1に示すように、入力端子100と、フレーム分割回路110と、スペクトルパラメータ計算回路200と、スペクトルパラメータ量子化回路210と、LSPコードブック211と、サブフレーム分割回路120と、インパルス応答計算回路310と、聴感重み付け回路230と、応答信号計算回路240と、重み付け信号計算回路350と、減算器235と、適応コードブック回路500と、位置コードブック選択回路510と、複数セット位置コードブック格納回路450と、音源量子化回路350と、音源コードブック351と、ゲイン量子化回路370と、ゲインコードブック380と、マルチプレクサ400とから構成されている。

0023

上記のように構成された音声復号化装置においては、入力端子100から音声信号を入力し、フレーム分割回路110では音声信号をフレーム(例えば20ms)毎に分割し、サブフレーム分割回路120では、フレームの音声信号をフレームよりも短いサブフレーム(例えば5ms)に分割する。

0024

スペクトルパラメータ計算回路200では、少なくとも一つのサブフレームの音声信号に対して、サブフレーム長よりも長い窓(例えば24ms)をかけて音声切り出してスペクトルパラメータをあらかじめ定められた次数(例えばP=10次)計算する。ここでスペクトルパラメータの計算には、周知のLPC分析や、Burg分析等を用いることができる。ここでは、Burg分析を用いることとする。Burg分析の詳細については、中溝著による“信号解析システム同定”と題した単行本コロナ社1988年刊)の82〜87頁(以下、文献4と称する)等に記載されているので説明は略する。さらにスペクトルパラメータ計算部では、Burg法により計算された線形予測係数αI(i=1,・・・,10)を量子化や補間に適したLSPパラメータに変換する。ここで、線形予測係数からLSPへの変換は、菅他による“線スペクトル対(LSP)音声分析合成方式による音声情報圧縮”と題した論文(電子通信学会論文誌、J64−A,pp.599−606,1981年)(以下、文献5と称する)を参照することができる。例えば、第2,4サブフレームでBurg法により求めた線形予測係数を、LSPパラメータに変換し、第1,3サブフレームのLSPを直線補間により求めて、第1,3サブフレームのLSPを逆変換して線形予測係数に戻し、第1〜4サブフレームの線形予測係数αil(i=1,・・・,10,l=1,・・・,5)を聴感重み付け回路230に出力する。また、第4サブフレームのLSPをスペクトルパラメータ量子化回路210へ出力する。

0025

スペクトルパラメータ量子化回路210では、あらかじめ定められたサブフレームのLSPパラメータを効率的に量子化し、下式の歪みを最小化する量子化値を出力する。

0026

0027

ここで、LSP(i),QLSP(i)j,W(i)はそれぞれ、量子化前のi次目のLSP、量子化後のj番目の結果、重み係数である。

0028

以下では、量子化法として、ベクトル量子化を用いるものとし、第4サブフレームのLSPパラメータを量子化するものとする。LSP パラメータのベクトル量子化の手法は周知の手法を用いることができる。具体的な方法は例えば、特開平4−171500号公報(以下、文献6と称する)や特開平4−363000号公報(以下、文献7と称する)や、特開平5−6199号公報(以下、文献8と称する)や、T.Nomura et al., による“LSP Coding Using VQ-SVQ With Interpolation in 4.075kbps M-LCELPSpeech Coder”と題した論文(Proc.Mobile Multimedia Communications, pp.B.2.5, 1993)(以下、文献9と称する)等を参照できるのでここでは説明は略する。

0029

また、スペクトルパラメータ量子化回路210では、第4サブフレームで量子化したLSPパラメータをもとに、第1〜第4サブフレームのLSPパラメータを復元する。ここでは、現フレームの第4サブフレームの量子化LSPパラメータと1つ過去のフレームの第4サブフレームの量子化LSPを直線補間して、第1〜第3サブフレームのLSPを復元する。ここで、量子化前のLSPと量子化後のLSPとの誤差電力を最小化するコードベクトルを1種類選択した後に、直線補間により第1〜第4サブフレームのLSPを復元できる。さらに性能を向上させるためには、前記誤差電力を最小化するコードベクトルを複数候補選択したのちに、各々の候補について、累積歪を評価し、累積歪を最小化する候補と補間LSPの組を選択するようにすることができる。詳細は、例えば、特開平6−222797号公報(以下、文献10と称する)を参照することができる。

0030

以上により復元した第1−3サブフレームのLSPと第4サブフレームの量子化LSP をサブフレーム毎に線形予測係数α’il(i=1,・・・,10,l=1,・・・,5)に変換し、インパルス応答計算回路310へ出力する。また、第4サブフレームの量子化LSPのコードベクトルを表すインデクスをマルチプレクサ400に出力する。

0031

聴感重み付け回路230は、スペクトルパラメータ計算回路200から、各サブフレーム毎に量子化前の線形予測係数αil(i=1,・・・,10,l=1,・・・,5)を入力し、文献1にもとづき、サブフレームの音声信号に対して聴感重み付けを行い、聴感重み付け信号を出力する。

0032

応答信号計算回路240は、スペクトルパラメータ計算回路200から、各サブフレーム毎に線形予測係数αilを入力し、スペクトルパラメータ量子化回路210から、量子化、補間して復元した線形予測係数α’ilをサブフレーム毎に入力し、保存されているフィルタメモリの値を用いて、入力信号を零d(n)=0とした応答信号を1サブフレーム分計算し、減算器235へ出力する。ここで、応答信号xz(n)は下式で表される。

0033

0034

ここでNはサブフレーム長を示す。γは、聴感重み付け量を制御する重み係数であり、下記の式(7)と同一の値である。sw(n),p(n)は、それぞれ、重み付け信号計算回路の出力信号、後述の式(7)における右辺第1項のフィルタの分母の項の出力信号をそれぞれ示す。

0035

減算器235は、下式により、聴感重み付け信号から応答信号を1サブフレーム分減算し、x’w(n)を適応コードブック回路500へ出力する。

0036

0037

インパルス応答計算回路310は、z変換が下式で表される聴感重み付けフィルタのインパルス応答Hw(n)をあらかじめ定められた点数Lだけ計算し、適応コードブック回路500及び音源量子化回路350へ出力する。

0038

0039

適応コードブック回路500では、ゲイン量子化回路370から過去の音源信号v(n)を、減算器235から出力信号x’w(n)を、インパルス応答計算回路310から聴感重み付けインパルス応答hw(n)を入力する。ピッチに対応する遅延Tを下式の歪みを最小化するように求め、遅延を表すインデクスをマルチプレクサ400に出力する。

0040

0041

式(8)において、記号*は畳み込み演算を表す。

0042

次に、ゲインβを下式に従い求める。

0043

0044

ここで、女性音や、子供の声に対して、遅延の抽出精度を向上させるために、遅延を整数サンプルではなく、小数サンプル値で求めてもよい。具体的な方法は、例えば、P.Kroon らによる、“Pitch pre-dictors with high temporal resolution”と題した論文(Proc.ICASSP, pp.661-664, 1990年)(以下、文献11と称する)等を参照することができる。

0045

さらに、適応コードブック回路500では式(10)に従いピッチ予測を行ない、予測残差信号ew(n)を音源量子化回路350へ出力する。

0046

0047

複数セット位置コードブック格納回路450では、パルス位置コードブックを複数セット分あらかじめ蓄積しておく。例えば、4セット分の位置コードブックを蓄積している場合は、各セットの位置コードブックは表1〜4の各々に示すようになる。

0048

0049

0050

0051

0052

位置コードブック選択回路515では、適応コードブック回路500からピッチ予測信号を入力し時間的に平滑化処理を行う。平滑化処理後の信号に対して、複数セットの位置コードブック450を入力し、位置コードブックの各々が格納しているパルス位置の全てに対して平滑化後の信号との相互相関を求め、前記相相関最大化する位置コードブックを選択し、選択された位置コードブックを音源量子化回路350へ出力する。

0053

音源量子化回路350では、M個のパルスによりサブフレームの音源信号を表すものとする。

0054

さらに、パルスの振幅をMパルス分まとめて量子化するための、Bビットの振幅コードブック、もしくは極性コードブックを有しているものとする。以下では、極性コードブックを用いる場合の説明を行なう。この極性コードブックは、音源コードブック351に格納されている。

0055

音源量子化回路350は、音源コードブック351に格納された各極性コードベクトルを読みだし、各コードベクトルに対して、位置コードブック選択回路515で選択された位置コードブックに格納された全ての位置をあてはめ、式(11)を最小化するコードベクトルと位置の組合せを選択する。

0056

0057

ここで、hw(n)は、聴感重み付けインパルス応答である。

0058

式(11)を最小化するには、式(12)を最大化する極性コードベクトルgikと位置miの組合せを求めれば良い。

0059

0060

または、式(13)を最大化するように選択しても良い。この方が分子の計算に要する演算量が低減化される。

0061

0062

極性コードベクトルの探索終了後、選択された極性コードベクトルと位置集合の組み合わせをゲイン量子化回路370に出力する。

0063

ゲイン量子化回路370は、音源量子化回路350から、極性コードベクトルとパルス位置集合の組み合わせを入力する。さらに、ゲインコードブック380からゲインコードベクトルを読みだし、式(15)を最小化するようにゲインコードベクトルを探索する。

0064

0065

ここでは、適応コードブックのゲインとパルスで表した音源のゲインの両者を同時にベクトル量子化する例について示した。選択された極性コードベクトルを表すインデクス、位置を表す符号、ゲインコードベクトルを表すインデクスをマルチプレクサ400に出力する。

0066

なお、音源コードブックを、音声信号を用いてあらかじめ学習して格納しておくこともできる。コードブックの学習法は、例えば、Linde 氏らによる“An algorithm for vector quantization design,”と題した論文(IEEE Trans. Commun., pp.84-95, January, 1980)(以下、文献12と称する)等を参照できる。

0067

重み付け信号計算回路360は、それぞれのインデクスを入力し、インデクスからそれに対応するコードベクトルを読みだす。式(16)にもとづき駆動音源信号v(n)を求める。

0068

0069

v(n)は適応コードブック回路500に出力される。

0070

次に、スペクトルパラメータ計算回路200の出力パラメータ、スペクトルパラメータ量子化回路210の出力パラメータを用いて式(17)により、応答信号sw(n)をサブフレーム毎に計算し、応答信号計算回路240へ出力する。

0071

0072

マルチプレクサ400は、スペクトルパラメータ量子化回路200、適応コードブック回路500、音源量子化回路350及びゲイン量子化回路370の出力を多重化して伝送路に出力する。

0073

(第2の実施の形態)図2は、本発明の音声符号化装置の第2の実施の形態を示すブロック図である。

0074

なお、本形態において図1に示したものと同一の構成要素については、同一の符号を付し、ここでの説明は省略する。

0075

音源量子化回路357は、音源コードブック351に格納された各極性コードベクトルを読みだし、各コードベクトルに対して、位置コードブック選択回路515において1種類選択された位置のコードブックに格納された全ての位置をあてはめ、式(11)を最小化するコードベクトルと位置の集合の組合せを複数セット分選択し、これらの組み合わせをゲイン量子化回路377へ出力する。

0076

ゲイン量子化回路377は、音源量子化回路377から、複数セットの極性コードベクトルとパルス位置の組み合わせを入力する。さらに、ゲインコードブック380からゲインコードベクトルを読みだし、式(15)を最小化するようにゲインコードベクトルと極性コードベクトルとパルス位置の組み合わせを1種類選択して出力する。

0077

(第3の実施の形態)図3は、本発明の音声符号化装置の第3の実施の形態を示すブロック図である。

0078

なお、本形態において図1に示したものと同一の構成要素については、同一の符号を付し、ここでの説明は省略する。

0079

モード判別回路800は、フレーム分割回路の出力信号を用いて、特徴量を抽出し、フレーム毎にモードの判別を行う。ここで、特徴としては、ピッチ予測ゲインを用いることができる。サブフレーム毎に求めたピッチ予測ゲインをフレーム全体で平均し、この値とあらかじめ定められた複数のしきい値を比較し、あらかじめ定められた複数のモードに分類する。ここでは、一例として、モードの種類は2とする。この場合、モード0,1とし、これらはそれぞれ、無声区間有声区間にそれぞれ対応するものとする。モード判別情報を音源量子化回路358とゲイン量子化回路378とマルチプレクサ400へ出力する。

0080

音源量子化回路358は、モード判別回路800からモード判別情報を入力する。モード1では、位置コードブック選択回路515により選択された位置コードブックを入力し、前記コードブックに格納された全ての位置に対し、極性コードブックを読み出し、式(11)を最小にするように、パルス位置の集合と極性コードブックを選択し出力する。モード0では、1種類のパルスの集合(例えば表1〜表4のどれか1つの集合を使用することをあらかじめ決めておく)に対し極性コードブックを読み出し、式(11)を最小にするように、パルス位置の集合と極性コードブックを選択し出力する。

0081

ゲイン量子化回路378は、モード判別回路800からモード判別情報を入力する。ゲインコードブック380からゲインコードベクトルを読みだし、選択された極性コードベクトルと位置の組み合わせに対して、式(15)を最小化するようにゲインコードベクトルを探索し、歪みを最小化するゲインコードベクトル、極性コードベクトルと位置の組み合わせを1種類選択する。

0082

(第4の実施の形態)図4は、本発明の音声復号化装置の実施の一形態を示すブロック図である。

0083

本形態は図4に示すように、デマルチプレクサ505と、ゲイン復号回路510と、ゲインコードブック380と、適応コードブック520と、音源信号復元回路540と、音源コードブック351と、位置コードブック選択回路595と、複数セット位置コードブック格納回路580と、加算器550と、合成フィルタ560と、スペクトルパラメータ復号回路570とから構成されている。

0084

デマルチプレクサ500は、受信した信号から、ゲインコードベクトルを示すインデクス、適応コードブックの遅延を示すインデクス、音源信号の情報、音源コードベクトルのインデクス、スペクトルパラメータのインデクスを入力し、各パラメータを分離して出力する。

0085

ゲイン復号回路510は、ゲインコードベクトルのインデクスを入力し、ゲインコードブック380からインデクスに応じてゲインコードベクトルを読み出し、出力する。

0086

適応コードブック回路520は、適応コードブックの遅延を入力し適応コードベクトルを発生し、ゲインコードベクトルにより適応コードブックのゲインを乗じて出力する。

0087

位置コードブック選択回路595は、適応コードブック回路520からピッチ予測信号を入力し時間的に平滑化処理を行う。平滑化処理後の信号に対して、複数セットの位置コードブック580を入力し、位置コードブックの各々が格納しているパルス位置の全てに対して平滑化後の信号との相互相関を求め、前記相互相関を最大化する位置コードブックを選択し、選択された位置コードブックを音源復元回路540へ出力する。

0088

音源信号復元回路540では、位置コードブック選択回路595から選択された位置コードブックを読み出す。

0089

さらに、音源コードブック351から読み出した極性コードベクトルとゲインコードベクトルを用いて、音源パルスを発生して加算器550に出力する。

0090

加算器550は、適応コードブック回路520の出力と音源信号復元回路580の出力を用いて、式(17)にもとづき駆動音源信号v(n)を発生し、適応コードブック回路520と合成フィルタ560に出力する。

0091

スペクトルパラメータ復号回路570は、スペクトルパラメータを復号し、線形予測係数に変換し、合成フィルタ回路560に出力する。

0092

合成フィルタ回路560は、駆動音源信号v(n)と線形予測係数を入力し、再生信号を計算し出力する。

0093

(第5の実施の形態)図5は、本発明の音声復号化装置の他の実施の形態を示すブロック図である。

0094

なお、本形態において図4に示したものと同一の構成要素については、同一の符号を付し、ここでの説明は省略する。

0095

音源信号復元回路590は、モード判別情報を入力し、モード判別情報がモード1のときは、位置コードブック選択回路595から選択された位置コードブックを読み出す。また、音源コードブック351から読み出した極性コードベクトルとゲインコードベクトルを用いて、音源パルスを発生して加算器550に出力する。モード判別情報がモード0の場合は、予め定められたパルスの位置集合とゲインコードべクトルを用いて音源パルスを発生して加算器550に出力する。

発明の効果

0096

以上説明したように本発明においては、パルスの位置をあらわすための位置コードブックを複数セット保有し、適応コードブックにより求めたピッチ予測信号をもとに、複数の位置コードブックから位置コードブックを1種類選択し、前記位置コードブックから音声信号との歪を最小にする位置を探索しているので、従来方式と比べパルス位置情報の自由度が高く、特にビットレートが低い場合に従来方式に比べて音質を改善した音声符号化方式を提供することができる。

0097

また、適応コードブックにより求めたピッチ予測信号をもとに、複数の位置コードブックから位置コードブックを1種類選択し、前記位置コードブックに格納された位置の各々に対し、ゲインコードブックに格納されたゲインコードベクトルを探索して最終的な再生信号の状態で音声信号との歪を計算し、これを小さくする位置とゲインコードベクトルとの組み合わせを選択しているので、ゲインコードベクトルを含めた最終的な再生音声信号上で歪を小さくできるので、さらに音質を改善した音声符号化方式を提供することができる。

0098

また、判別符号を受信して前記受信符号があらかじめ定められたモードの場合は、適応コードブックにより求めたピッチ予測信号をもとに、複数の位置コードブックから位置コードブックを1種類選択し、前記位置コードブックに格納された位置に対し位置を表す符号を用いてパルスを発生させ、ゲインを乗じ、合成フィルタに通して音声信号を再生しているので、ビットレートが低い場合に従来方式と比べて音質を改善した音声復号化方式を提供することができる。

0099

以上により、符号化ビットレートが低い場合においても、少ない演算量で音質の劣化を抑制して音声信号を符号化することができる音声符号化装置及び該音声符号化装置にて符号化された音声信号を高品質に復号化することができる音声復号化装置を提供することができる。

図面の簡単な説明

0100

図1本発明の音声符号化装置の第1の実施の形態を示すブロック図である。
図2本発明の音声符号化装置の第2の実施の形態を示すブロック図である。
図3本発明の音声符号化装置の第3の実施の形態を示すブロック図である。
図4本発明の音声復号化装置の実施の一形態を示すブロック図である。
図5本発明の音声復号化装置の他の実施の形態を示すブロック図である。

--

0101

100入力端子
110フレーム分割回路
120サブフレーム分割回路
200スペクトルパラメータ計算回路
210 スペクトルパラメータ量子化回路
211 LSPコードブック
230 聴感重み付け回路
235減算器
240応答信号計算回路
310インパルス応答計算回路
350,357,358音源量子化回路
351音源コードブック
360重み付け信号計算回路
370,377,378ゲイン量子化回路
380ゲインコードブック
400マルチプレクサ
450複数セット位置コードブック格納回路
500適応コードブック回路
505デマルチプレクサ
510ゲイン復号回路
515 位置コードブック選択回路
520 適応コードブック回路
540音源信号復元回路
550加算器
560合成フィルタ回路
570 スペクトルパラメータ復号回路
580 複数セット位置コードブック格納回路
595 位置コードブック選択回路
800 モード判別回路

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ