図面 (/)

技術 音声符号化装置及び音声復号化装置

出願人 三菱電機株式会社
発明者 山浦正田崎裕久
出願日 2000年2月25日 (21年4ヶ月経過) 出願番号 2000-049867
公開日 2001年9月7日 (19年10ヶ月経過) 公開番号 2001-242898
状態 特許登録済
技術分野 音声の分析・合成 伝送媒体によって特徴づけられない伝送方式
主要キーワード 立上り区間 極性符号 振幅包絡 立ち上がり区間 基準頻度 時系列ベクトル 雑音的 各時系列
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2001年9月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

音源番号毎の位置候補フレーム内に均等に分布させている。したがって、その位置候補を低ビットレート化するためにはパルス数を減らすか、または、各音源番号毎の位置候補数を均等間隔間引くしかないため、局所的にパルスが集中するような駆動音源信号を生成することができず、符号化特性劣化を起こす課題があった。

解決手段

複数の音源位置全組合せのうち、使用頻度基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル41,51から音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声音源情報を符号化又は復号化する。

概要

背景

従来の多くの音声符号化装置及び音声復号化装置では、音声符号化装置が入力音声スペクトル包絡情報音源情報に分けて、所定長区間フレーム単位で各々を符号化して音声符号を生成し、音声復号化装置がこの音声符号を復号化して、合成フィルタによってスペクトル包絡情報と音源情報を合わせることで復号音声を生成するようにしている。最も代表的な音声符号化装置及び音声復号化装置としては、符号駆動線予測符号化(Code−Excited LinearPrediction:CELP)方式を用いたものがある。

図17は従来のCELP方式を用いる音声符号化装置を示す構成図であり、図において、1は入力音声を分析して、その入力音声のスペクトル包絡情報である線形予測係数を抽出する線形予測分析手段、2は線形予測分析手段1により抽出された線形予測係数を符号化する線形予測係数符号化手段、3は線形予測係数符号化手段2により量子化された線形予測係数を用いて仮の合成音を生成し、仮の合成音と入力音声の距離が最小になる適応音源符号を選択して多重化手段6に出力するとともに、その適応音源符号に対応する適応音源信号(過去の所定長音源信号周期的に繰り返された時系列ベクトル)をゲイン符号化手段5に出力する適応音源符号化手段、4は線形予測係数符号化手段2により量子化された線形予測係数を用いて仮の合成音を生成し、仮の合成音と符号化対象信号(入力音声から適応音源信号による合成音を差し引いた信号)の距離が最小になる駆動音源符号を選択して多重化手段6に出力するとともに、その駆動音源符号に対応する時系列ベクトルである駆動音源信号をゲイン符号化手段5に出力する駆動音源符号化手段である。

5は適応音源符号化手段3から出力された適応音源信号と駆動音源符号化手段4から出力された駆動音源信号にゲインベクトルの各要素を乗算し、各乗算結果を相互に加算して音源信号を生成する一方、線形予測係数符号化手段2により量子化された線形予測係数を用いて、その音源信号から仮の合成音を生成し、仮の合成音と入力音声の距離が最小になるゲイン符号を選択して多重化手段6に出力するゲイン符号化手段、6は線形予測係数符号化手段2により符号化された線形予測係数の符号と、適応音源符号化手段3から出力された適応音源符号と、駆動音源符号化手段4から出力された駆動音源符号と、ゲイン符号化手段5から出力されたゲイン符号とを多重化して、音声符号を出力する多重化手段である。

図18は従来のCELP方式を用いる音声復号化装置を示す構成図であり、図において、11は音声符号化装置から出力された音声符号を分離して、線形予測係数の符号を線形予測係数復号化手段12に出力し、適応音源符号を適応音源復号化手段13に出力し、駆動音源符号を駆動音源復号化手段14に出力し、ゲイン符号をゲイン復号化手段15に出力する分離手段、12は分離手段11から出力された線形予測係数を復号化し、その復号結果を合成フィルタ19のフィルタ係数に変換して、そのフィルタ係数を合成フィルタ19に出力する線形予測係数復号化手段である。

13は分離手段11から出力された適応音源符号に対応する適応音源信号(過去の音源信号が周期的に繰り返された時系列ベクトル)を出力する適応音源復号化手段、14は分離手段11から出力された駆動音源符号に対応する時系列ベクトルである駆動音源信号を出力する駆動音源復号化手段、15は分離手段11から出力されたゲイン符号に対応するゲインベクトルを出力するゲイン復号化手段である。

16はゲイン復号化手段15から出力されたゲインベクトルの要素を適応音源復号化手段13から出力された適応音源信号に乗算する乗算器、17はゲイン復号化手段15から出力されたゲインベクトルの要素を駆動音源復号化手段14から出力された駆動音源信号に乗算する乗算器、18は乗算器16の乗算結果と乗算器17の乗算結果を加算して音源信号を生成する加算器、19は加算器18により生成された音源信号に対する合成フィルタリング処理を実行して出力音声を生成する合成フィルタである。

次に動作について説明する。従来の音声符号化装置及び音声復号化装置では、5〜50ms程度を1フレームとして、フレーム単位で処理を行う。

まず、音声符号化装置の線形予測分析手段1は、音声を入力すると、その入力音声を分析して、音声のスペクトル包絡情報である線形予測係数を抽出する。線形予測係数符号化手段2は、線形予測分析手段1が線形予測係数を抽出すると、その線形予測係数を符号化し、その符号を多重化手段6に出力する。また、その符号に対応する量子化された線形予測係数を適応音源符号化手段3,駆動音源符号化手段4及びゲイン符号化手段5に出力する。

適応音源符号化手段3は、過去の所定長の音源信号を記憶する適応音源符号帳を内蔵し、内部で発生させる各適応音源符号(適応音源符号は数ビット2進数値で示される)に応じて、過去の音源信号が周期的に繰り返された時系列ベクトルを生成する。次に、各時系列ベクトルに適切なゲインを乗じた後、線形予測係数符号化手段2により量子化された線形予測係数を用いる合成フィルタに各時系列ベクトルを通すことにより、仮の合成音を生成する。

そして、適応音源符号化手段3は、仮の合成音と入力音声との距離を調査し、この距離を最小とする適応音源符号を選択して多重化手段6に出力するとともに、その選択した適応音源符号に対応する時系列ベクトルを適応音源信号として、ゲイン符号化手段5に出力する。また、入力音声から適応音源信号による合成音を差し引いた信号を符号化対象信号として、駆動音源符号化手段4に出力する。

駆動音源符号化手段4は、非雑音的又は雑音的な複数の時系列ベクトルである駆動符号ベクトルを格納する駆動音源符号帳を内蔵し、内部で発生させる各駆動音源符号(駆動音源符号は数ビットの2進数値で示される)に応じて、その駆動音源符号帳から時系列ベクトルの読み出しを順次実行する。次に、各時系列ベクトルに適切なゲインを乗じた後、線形予測係数符号化手段2により量子化された線形予測係数を用いる合成フィルタに各時系列ベクトルを通すことにより、仮の合成音を生成する。

そして、駆動音源符号化手段4は、仮の合成音と、適応音源符号化手段3から出力された符号化対象信号との距離を調査し、この距離を最小とする駆動音源符号を選択して多重化手段6に出力するとともに、その選択した駆動音源符号に対応する時系列ベクトルを駆動音源信号として、ゲイン符号化手段5に出力する。

ゲイン符号化手段5は、ゲインベクトルを格納するゲイン符号帳を内蔵し、内部で発生させる各ゲイン符号(ゲイン符号は数ビットの2進数値で示される)に応じて、そのゲイン符号帳からゲインベクトルの読み出しを順次実行する。そして、各ゲインベクトルの要素を、適応音源符号化手段3から出力された適応音源信号と、駆動音源符号化手段4から出力された駆動音源信号にそれぞれ乗算し、各乗算結果を相互に加算して音源信号を生成する。次に、その音源信号を線形予測係数符号化手段2により量子化された線形予測係数を用いる合成フィルタに通すことにより、仮の合成音を生成する。

そして、ゲイン符号化手段5は、仮の合成音と入力音声との距離を調査し、この距離を最小とするゲイン符号を選択して多重化手段6に出力する。また、そのゲイン符号に対応する音源信号を適応音源符号化手段3に出力する。これにより、適応音源符号化手段3は、ゲイン符号化手段5により選択されたゲイン符号に対応する音源信号を用いて、内蔵する適応音源符号帳の更新を行う。

多重化手段6は、線形予測係数符号化手段2により符号化された線形予測係数と、適応音源符号化手段3から出力された適応音源符号と、駆動音源符号化手段4から出力された駆動音源符号と、ゲイン符号化手段5から出力されたゲイン符号とを多重化し、その多重化結果である音声符号を音声復号化装置に出力する。

音声復号化装置の分離手段11は、音声符号化装置が音声符号を出力すると、その音声符号を分離して、線形予測係数の符号を線形予測係数復号化手段12に出力し、適応音源符号を適応音源復号化手段13に出力し、駆動音源符号を駆動音源復号化手段14に出力し、ゲイン符号をゲイン復号化手段15に出力する。線形予測係数復号化手段12は、分離手段11から線予測係数の符号を受けると、その符号を復号化し、その復号結果を合成フィルタ19のフィルタ係数に変換して、そのフィルタ係数を合成フィルタ19に出力する。

適応音源復号化手段13は、過去の所定長の音源信号を記憶する適応音源符号帳を内蔵し、分離手段11から出力された適応音源符号に対応する適応音源信号(過去の音源信号が周期的に繰り返された時系列ベクトル)を出力する。また、駆動音源復号化手段14は、非雑音的又は雑音的な複数の時系列ベクトルである駆動符号信号を格納する駆動音源符号帳を内蔵し、分離手段11から出力された駆動音源符号に対応する駆動音源信号を出力する。ゲイン復号化手段15は、ゲインベクトルを格納するゲイン符号帳を内蔵し、分離手段11から出力されたゲイン符号に対応するゲインベクトルを出力する。

そして、適応音源復号化手段13から出力された適応音源信号と駆動音源復号化手段14から出力された駆動音源信号は、乗算器16,17により当該ゲインベクトルの要素が乗算され、加算器18により乗算器16,17の乗算結果が相互に加算される。

合成フィルタ19は、加算器18の加算結果である音源信号に対する合成フィルタリング処理を実行して出力音声を生成する。なお、フィルタ係数としては、線形予測係数復号化手段12により復号化された線形予測係数を用いる。最後に、適応音源復号化手段13は、上記音源信号を用いて、内蔵する適応音源符号帳の更新を行う。

次に、上述した音声符号化装置及び音声復号化装置の改良が図られた従来の技術について説明する。片岡章俊、林伸二、守谷健弘、原祥子、間野一則「CS−ACELPの基本アルゴリズムNTT R&D,Vol.45,pp.325−330,1996年4月(文献1)には、演算量とメモリ量の削減を主な目的として、駆動音源の符号化にパルス音源を導入したCELP系の音声符号化装置及び音声復号化装置が開示されている。この従来の構成では、駆動音源を数本のパルス各位置情報極性情報のみで表現している。このような音源は代数的音源と呼ばれ、構造が簡単な割に符号化特性がよく、最近の多くの標準方式に採用されている。

図19は文献1で用いられているパルス音源の位置候補を示す音源位置テーブルであり、図17の音声符号化装置では駆動音源符号化手段4、図18の音声復号化装置では駆動音源復号化手段14に搭載される。文献1では、音源符号化フレーム長が40サンプルであり、駆動音源は4つのパルスで構成されている。音源番号1から音源番号3のパルス音源の位置候補は、図19に示すように各々8つの位置に制約されており、パルス位置は各々3bitで符号化できる。音源番号4のパルスは16の位置に制約されており、パルス位置は4bitで符号化できる。パルス音源の位置候補に制約を与えることにより、符号化特性の劣化を抑えつつ、符号化ビット数の削減、組合せ数の削減による演算量の削減を実現している。

この代数的音源の品質を維持して低ビットレート化を図る構成が、大室、間野「高速パルス探索型4kbit/s音声符号化」日本音響学会、1999年季研究発表会講演論文集I、211〜212頁(文献2)に開示されている。

図20は文献2で用いられているものと同様なパルス音源の位置候補と極性を示す音源位置・極性テーブルである。これは効率的に符号化ビット数を削減するために、隣接する音源位置における極性が反対となるように、音源の位置候補毎に採り得る極性に制約を与えるものである。

また、別の代数的音源の品質を改善する構成が、Tadashi Amada,Kimio Miseki and Masami Akamine “CELPspeech coding based on an adaptive pulse position codebook” 1999IEEEInternational Conference on Acoustics,Speech,and Signal Processing,vol.I,pp.13−16(Mar 1999)(文献3)及び土屋、天田、三関「適応パルス位置ACELP音声符号化の改善」日本音響学会、1999年春季研究発表会講演論文集I、213〜214頁(文献4)に開示されている。

文献3では、適応音源信号の振幅包絡の大きさが大きいところにパルス音源の位置候補が集まるようにフレーム毎に適応的にパルス音源の位置候補を設定するようにしている。これにより符号化特性が改善することが示されている。

文献4は文献3の改良に相当する。駆動音源信号(文献4中ではACELP音源)の生成部にピッチフィルタを内包させたときには、最初の1ピッチ周期区間の音源位置が選択されやすい傾向があり、そのときにピッチ逆フィルタ処理を行った適応音源信号の振幅包絡の大きさに基づいて、フレーム毎に適応的にパルス音源の位置候補を設定するようにしている。

概要

各音源番号毎の位置候補をフレーム内に均等に分布させている。したがって、その位置候補を低ビットレート化するためにはパルス数を減らすか、または、各音源番号毎の位置候補数を均等間隔間引くしかないため、局所的にパルスが集中するような駆動音源信号を生成することができず、符号化特性の劣化を起こす課題があった。

複数の音源位置の全組合せのうち、使用頻度基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル41,51から音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を符号化又は復号化する。

目的

この発明は上記のような課題を解決するためになされたもので、特性の劣化を招くことなく、低ビットレート化を図ることができる音声符号化装置及び音声復号化装置を得ることを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力音声スペクトル包絡情報を抽出し、そのスペクトル包絡情報を符号化する包絡情報符号化手段と、その入力音声の音源情報を符号化する音源符号化手段と、上記包絡情報符号化手段により符号化されたスペクトル包絡情報と上記音源符号化手段により符号化された音源情報を多重化して音声符号を出力する多重化手段とを備えた音声符号化装置において、上記音源符号化手段は複数の音源位置全組合せのうち、音源位置の組合せに関する評価値基準値より高い音源位置の組合せを示す情報が記述されたインデックステーブルから任意の音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を符号化することを特徴とする音声符号化装置。

請求項2

インデックステーブルに記述されている音源位置の組合せを示す情報は、個別に符号化された音源位置の組合せ情報であることを特徴とする請求項1記載の音声符号化装置。

請求項3

音源符号化手段が少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することが可能な場合、インデックステーブルに記述されている音源位置の組合せを示す情報は、音源位置の各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であることを特徴とする請求項1記載の音声符号化装置。

請求項4

音源符号化手段は、フレーム長音源数インデックス数から少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することを特徴とする請求項3記載の音声符号化装置。

請求項5

入力音声のスペクトル包絡情報を抽出し、そのスペクトル包絡情報を符号化する包絡情報符号化手段と、その入力音声の音源情報を符号化する音源符号化手段と、上記包絡情報符号化手段により符号化されたスペクトル包絡情報と上記音源符号化手段により符号化された音源情報を多重化する多重化手段とを備えた音声符号化装置において、上記音源符号化手段は音源位置及び極性から構成された複数の対データの全組合せのうち、対データの組合せに関する評価値が基準値より高い対データの組合せを示す情報が記述されたインデックステーブルから任意の対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を符号化することを特徴とする音声符号化装置。

請求項6

インデックステーブルに記述されている対データの組合せを示す情報は、個別に符号化された対データの組合せ情報であることを特徴とする請求項5記載の音声符号化装置。

請求項7

音源符号化手段が少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することが可能な場合、インデックステーブルに記述されている対データの組合せを示す情報は、対データの各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であることを特徴とする請求項5記載の音声符号化装置。

請求項8

音源符号化手段は、フレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することを特徴とする請求項7記載の音声符号化装置。

請求項9

音源符号化手段は、記述内容が相互に異なるインデックステーブルを複数個有し、任意のインデックステーブルを選択して使用することを特徴とする請求項1から請求項8のうちのいずれか1項記載の音声符号化装置。

請求項10

音源符号化手段は、入力音声を分析して所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択することを特徴とする請求項9記載の音声符号化装置。

請求項11

音源符号化手段は、スペクトル包絡情報および音源情報の少なくともどちらか一方から所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択することを特徴とする請求項9記載の音声符号化装置。

請求項12

音声符号から入力音声のスペクトル包絡情報と音源情報を分離する分離手段と、上記分離手段により分離されたスペクトル包絡情報を復号化する包絡情報復号化手段と、上記包絡情報復号化手段により復号化されたスペクトル包絡情報を参照して、上記分離手段により分離された音源情報を復号化する音源復号化手段とを備えた音声復号化装置において、上記音源復号化手段は複数の音源位置の全組合せのうち、音源位置の組合せに関する評価値が基準値より高い音源位置の組合せを示す情報が記述されたインデックステーブルから上記音源情報に含まれている組合せを示す符号に基づいて音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を復号化することを特徴とする音声復号化装置。

請求項13

インデックステーブルに記述されている音源位置の組合せを示す情報は、個別に符号化された音源位置の組合せ情報であることを特徴とする請求項12記載の音声復号化装置。

請求項14

音源復号化手段が少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することが可能な場合、インデックステーブルに記述されている音源位置の組合せを示す情報は、音源位置の各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であることを特徴とする請求項12記載の音声復号化装置。

請求項15

音源復号化手段は、フレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することを特徴とする請求項14記載の音声復号化装置。

請求項16

音声符号から入力音声のスペクトル包絡情報と音源情報を分離する分離手段と、上記分離手段により分離されたスペクトル包絡情報を復号化する包絡情報復号化手段と、上記包絡情報復号化手段により復号化されたスペクトル包絡情報を参照して、上記分離手段により分離された音源情報を復号化する音源復号化手段とを備えた音声復号化装置において、上記音源復号化手段は音源位置及び極性から構成された複数の対データの全組合せのうち、対データの組合せに関する評価値が基準値より高い対データの組合せを示す情報が記述されたインデックステーブルから上記音源情報に含まれている組合せを示す符号に基づいて対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を復号化することを特徴とする音声復号化装置。

請求項17

インデックステーブルに記述されている対データの組合せを示す情報は、個別に符号化された対データの組合せ情報であることを特徴とする請求項16記載の音声復号化装置。

請求項18

音源復号化手段が少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することが可能な場合、インデックステーブルに記述されている対データの組合せを示す情報は、対データの各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であることを特徴とする請求項16記載の音声復号化装置。

請求項19

音源復号化手段は、フレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することを特徴とする請求項18記載の音声復号化装置。

請求項20

音源復号化手段は、記述内容が相互に異なるインデックステーブルを複数個有し、音源情報に含まれている選択情報を示す符号に対応するインデックステーブルを選択して使用することを特徴とする請求項12から請求項19のうちのいずれか1項記載の音声復号化装置。

請求項21

音源復号化手段は、記述内容が相互に異なるインデックステーブルを複数個有し、スペクトル包絡情報および音源情報の少なくともどちらか一方から所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択して使用することを特徴とする請求項12から請求項19のうちのいずれか1項記載の音声復号化装置。

技術分野

0001

この発明は、ディジタル音声信号を少ない情報量に圧縮する音声符号化装置、その音声符号化装置等により生成された音声符号復号化してディジタル音声信号を再生する音声復号化装置に関するものである。

背景技術

0002

従来の多くの音声符号化装置及び音声復号化装置では、音声符号化装置が入力音声スペクトル包絡情報音源情報に分けて、所定長区間フレーム単位で各々を符号化して音声符号を生成し、音声復号化装置がこの音声符号を復号化して、合成フィルタによってスペクトル包絡情報と音源情報を合わせることで復号音声を生成するようにしている。最も代表的な音声符号化装置及び音声復号化装置としては、符号駆動線予測符号化(Code−Excited LinearPrediction:CELP)方式を用いたものがある。

0003

図17は従来のCELP方式を用いる音声符号化装置を示す構成図であり、図において、1は入力音声を分析して、その入力音声のスペクトル包絡情報である線形予測係数を抽出する線形予測分析手段、2は線形予測分析手段1により抽出された線形予測係数を符号化する線形予測係数符号化手段、3は線形予測係数符号化手段2により量子化された線形予測係数を用いて仮の合成音を生成し、仮の合成音と入力音声の距離が最小になる適応音源符号を選択して多重化手段6に出力するとともに、その適応音源符号に対応する適応音源信号(過去の所定長音源信号周期的に繰り返された時系列ベクトル)をゲイン符号化手段5に出力する適応音源符号化手段、4は線形予測係数符号化手段2により量子化された線形予測係数を用いて仮の合成音を生成し、仮の合成音と符号化対象信号(入力音声から適応音源信号による合成音を差し引いた信号)の距離が最小になる駆動音源符号を選択して多重化手段6に出力するとともに、その駆動音源符号に対応する時系列ベクトルである駆動音源信号をゲイン符号化手段5に出力する駆動音源符号化手段である。

0004

5は適応音源符号化手段3から出力された適応音源信号と駆動音源符号化手段4から出力された駆動音源信号にゲインベクトルの各要素を乗算し、各乗算結果を相互に加算して音源信号を生成する一方、線形予測係数符号化手段2により量子化された線形予測係数を用いて、その音源信号から仮の合成音を生成し、仮の合成音と入力音声の距離が最小になるゲイン符号を選択して多重化手段6に出力するゲイン符号化手段、6は線形予測係数符号化手段2により符号化された線形予測係数の符号と、適応音源符号化手段3から出力された適応音源符号と、駆動音源符号化手段4から出力された駆動音源符号と、ゲイン符号化手段5から出力されたゲイン符号とを多重化して、音声符号を出力する多重化手段である。

0005

図18は従来のCELP方式を用いる音声復号化装置を示す構成図であり、図において、11は音声符号化装置から出力された音声符号を分離して、線形予測係数の符号を線形予測係数復号化手段12に出力し、適応音源符号を適応音源復号化手段13に出力し、駆動音源符号を駆動音源復号化手段14に出力し、ゲイン符号をゲイン復号化手段15に出力する分離手段、12は分離手段11から出力された線形予測係数を復号化し、その復号結果を合成フィルタ19のフィルタ係数に変換して、そのフィルタ係数を合成フィルタ19に出力する線形予測係数復号化手段である。

0006

13は分離手段11から出力された適応音源符号に対応する適応音源信号(過去の音源信号が周期的に繰り返された時系列ベクトル)を出力する適応音源復号化手段、14は分離手段11から出力された駆動音源符号に対応する時系列ベクトルである駆動音源信号を出力する駆動音源復号化手段、15は分離手段11から出力されたゲイン符号に対応するゲインベクトルを出力するゲイン復号化手段である。

0007

16はゲイン復号化手段15から出力されたゲインベクトルの要素を適応音源復号化手段13から出力された適応音源信号に乗算する乗算器、17はゲイン復号化手段15から出力されたゲインベクトルの要素を駆動音源復号化手段14から出力された駆動音源信号に乗算する乗算器、18は乗算器16の乗算結果と乗算器17の乗算結果を加算して音源信号を生成する加算器、19は加算器18により生成された音源信号に対する合成フィルタリング処理を実行して出力音声を生成する合成フィルタである。

0008

次に動作について説明する。従来の音声符号化装置及び音声復号化装置では、5〜50ms程度を1フレームとして、フレーム単位で処理を行う。

0009

まず、音声符号化装置の線形予測分析手段1は、音声を入力すると、その入力音声を分析して、音声のスペクトル包絡情報である線形予測係数を抽出する。線形予測係数符号化手段2は、線形予測分析手段1が線形予測係数を抽出すると、その線形予測係数を符号化し、その符号を多重化手段6に出力する。また、その符号に対応する量子化された線形予測係数を適応音源符号化手段3,駆動音源符号化手段4及びゲイン符号化手段5に出力する。

0010

適応音源符号化手段3は、過去の所定長の音源信号を記憶する適応音源符号帳を内蔵し、内部で発生させる各適応音源符号(適応音源符号は数ビット2進数値で示される)に応じて、過去の音源信号が周期的に繰り返された時系列ベクトルを生成する。次に、各時系列ベクトルに適切なゲインを乗じた後、線形予測係数符号化手段2により量子化された線形予測係数を用いる合成フィルタに各時系列ベクトルを通すことにより、仮の合成音を生成する。

0011

そして、適応音源符号化手段3は、仮の合成音と入力音声との距離を調査し、この距離を最小とする適応音源符号を選択して多重化手段6に出力するとともに、その選択した適応音源符号に対応する時系列ベクトルを適応音源信号として、ゲイン符号化手段5に出力する。また、入力音声から適応音源信号による合成音を差し引いた信号を符号化対象信号として、駆動音源符号化手段4に出力する。

0012

駆動音源符号化手段4は、非雑音的又は雑音的な複数の時系列ベクトルである駆動符号ベクトルを格納する駆動音源符号帳を内蔵し、内部で発生させる各駆動音源符号(駆動音源符号は数ビットの2進数値で示される)に応じて、その駆動音源符号帳から時系列ベクトルの読み出しを順次実行する。次に、各時系列ベクトルに適切なゲインを乗じた後、線形予測係数符号化手段2により量子化された線形予測係数を用いる合成フィルタに各時系列ベクトルを通すことにより、仮の合成音を生成する。

0013

そして、駆動音源符号化手段4は、仮の合成音と、適応音源符号化手段3から出力された符号化対象信号との距離を調査し、この距離を最小とする駆動音源符号を選択して多重化手段6に出力するとともに、その選択した駆動音源符号に対応する時系列ベクトルを駆動音源信号として、ゲイン符号化手段5に出力する。

0014

ゲイン符号化手段5は、ゲインベクトルを格納するゲイン符号帳を内蔵し、内部で発生させる各ゲイン符号(ゲイン符号は数ビットの2進数値で示される)に応じて、そのゲイン符号帳からゲインベクトルの読み出しを順次実行する。そして、各ゲインベクトルの要素を、適応音源符号化手段3から出力された適応音源信号と、駆動音源符号化手段4から出力された駆動音源信号にそれぞれ乗算し、各乗算結果を相互に加算して音源信号を生成する。次に、その音源信号を線形予測係数符号化手段2により量子化された線形予測係数を用いる合成フィルタに通すことにより、仮の合成音を生成する。

0015

そして、ゲイン符号化手段5は、仮の合成音と入力音声との距離を調査し、この距離を最小とするゲイン符号を選択して多重化手段6に出力する。また、そのゲイン符号に対応する音源信号を適応音源符号化手段3に出力する。これにより、適応音源符号化手段3は、ゲイン符号化手段5により選択されたゲイン符号に対応する音源信号を用いて、内蔵する適応音源符号帳の更新を行う。

0016

多重化手段6は、線形予測係数符号化手段2により符号化された線形予測係数と、適応音源符号化手段3から出力された適応音源符号と、駆動音源符号化手段4から出力された駆動音源符号と、ゲイン符号化手段5から出力されたゲイン符号とを多重化し、その多重化結果である音声符号を音声復号化装置に出力する。

0017

音声復号化装置の分離手段11は、音声符号化装置が音声符号を出力すると、その音声符号を分離して、線形予測係数の符号を線形予測係数復号化手段12に出力し、適応音源符号を適応音源復号化手段13に出力し、駆動音源符号を駆動音源復号化手段14に出力し、ゲイン符号をゲイン復号化手段15に出力する。線形予測係数復号化手段12は、分離手段11から線予測係数の符号を受けると、その符号を復号化し、その復号結果を合成フィルタ19のフィルタ係数に変換して、そのフィルタ係数を合成フィルタ19に出力する。

0018

適応音源復号化手段13は、過去の所定長の音源信号を記憶する適応音源符号帳を内蔵し、分離手段11から出力された適応音源符号に対応する適応音源信号(過去の音源信号が周期的に繰り返された時系列ベクトル)を出力する。また、駆動音源復号化手段14は、非雑音的又は雑音的な複数の時系列ベクトルである駆動符号信号を格納する駆動音源符号帳を内蔵し、分離手段11から出力された駆動音源符号に対応する駆動音源信号を出力する。ゲイン復号化手段15は、ゲインベクトルを格納するゲイン符号帳を内蔵し、分離手段11から出力されたゲイン符号に対応するゲインベクトルを出力する。

0019

そして、適応音源復号化手段13から出力された適応音源信号と駆動音源復号化手段14から出力された駆動音源信号は、乗算器16,17により当該ゲインベクトルの要素が乗算され、加算器18により乗算器16,17の乗算結果が相互に加算される。

0020

合成フィルタ19は、加算器18の加算結果である音源信号に対する合成フィルタリング処理を実行して出力音声を生成する。なお、フィルタ係数としては、線形予測係数復号化手段12により復号化された線形予測係数を用いる。最後に、適応音源復号化手段13は、上記音源信号を用いて、内蔵する適応音源符号帳の更新を行う。

0021

次に、上述した音声符号化装置及び音声復号化装置の改良が図られた従来の技術について説明する。片岡章俊、林伸二、守谷健弘、原祥子、間野一則「CS−ACELPの基本アルゴリズムNTT R&D,Vol.45,pp.325−330,1996年4月(文献1)には、演算量とメモリ量の削減を主な目的として、駆動音源の符号化にパルス音源を導入したCELP系の音声符号化装置及び音声復号化装置が開示されている。この従来の構成では、駆動音源を数本のパルス各位置情報極性情報のみで表現している。このような音源は代数的音源と呼ばれ、構造が簡単な割に符号化特性がよく、最近の多くの標準方式に採用されている。

0022

図19は文献1で用いられているパルス音源の位置候補を示す音源位置テーブルであり、図17の音声符号化装置では駆動音源符号化手段4、図18の音声復号化装置では駆動音源復号化手段14に搭載される。文献1では、音源符号化フレーム長が40サンプルであり、駆動音源は4つのパルスで構成されている。音源番号1から音源番号3のパルス音源の位置候補は、図19に示すように各々8つの位置に制約されており、パルス位置は各々3bitで符号化できる。音源番号4のパルスは16の位置に制約されており、パルス位置は4bitで符号化できる。パルス音源の位置候補に制約を与えることにより、符号化特性の劣化を抑えつつ、符号化ビット数の削減、組合せ数の削減による演算量の削減を実現している。

0023

この代数的音源の品質を維持して低ビットレート化を図る構成が、大室、間野「高速パルス探索型4kbit/s音声符号化」日本音響学会、1999年季研究発表会講演論文集I、211〜212頁(文献2)に開示されている。

0024

図20は文献2で用いられているものと同様なパルス音源の位置候補と極性を示す音源位置・極性テーブルである。これは効率的に符号化ビット数を削減するために、隣接する音源位置における極性が反対となるように、音源の位置候補毎に採り得る極性に制約を与えるものである。

0025

また、別の代数的音源の品質を改善する構成が、Tadashi Amada,Kimio Miseki and Masami Akamine “CELPspeech coding based on an adaptive pulse position codebook” 1999IEEEInternational Conference on Acoustics,Speech,and Signal Processing,vol.I,pp.13−16(Mar 1999)(文献3)及び土屋、天田、三関「適応パルス位置ACELP音声符号化の改善」日本音響学会、1999年春季研究発表会講演論文集I、213〜214頁(文献4)に開示されている。

0026

文献3では、適応音源信号の振幅包絡の大きさが大きいところにパルス音源の位置候補が集まるようにフレーム毎に適応的にパルス音源の位置候補を設定するようにしている。これにより符号化特性が改善することが示されている。

0027

文献4は文献3の改良に相当する。駆動音源信号(文献4中ではACELP音源)の生成部にピッチフィルタを内包させたときには、最初の1ピッチ周期区間の音源位置が選択されやすい傾向があり、そのときにピッチ逆フィルタ処理を行った適応音源信号の振幅包絡の大きさに基づいて、フレーム毎に適応的にパルス音源の位置候補を設定するようにしている。

発明が解決しようとする課題

0028

従来の音声符号化装置及び音声復号化装置(文献1)は以上のように構成されているので、各音源番号毎の位置候補をフレーム内に均等に分布させている。したがって、その位置候補を低ビットレート化するためにはパルス数を減らすか、または、各音源番号毎の位置候補数を均等間隔間引くしかないため、局所的にパルスが集中するような駆動音源信号を生成することができず、符号化特性の劣化を起こす課題があった。

0029

文献2では、この特性劣化を抑制する音源の位置候補と極性に関して効率的な制約のつけ方を開示しているが、この制約は隣接する音源位置における極性を反対にするといったヒューリスティックルールに基づくものであり、また、これ以外の音源位置と極性の関係は一切採り得ないとしているので、自然発声した音声が常にこのルールに当てはまる訳がなく、このルールに当てはまらない場合には大きな品質劣化を招く課題があった。

0030

文献3及び文献4では、この特性劣化を抑制する適応的な間引き方法を開示しているが、入力音声の周期性乱れたり変化する時には、適応的な間引きを行うことでむしろ大きな特性劣化を起こす課題があった。また、この適応的な間引き処理は、通信路での符号伝送誤りによって適応音源信号が正しく生成されない場合、駆動音源信号にまで影響が及ぶという課題があった。

0031

また、文献4では、駆動音源信号の生成部にピッチフィルタを内包させる場合、最初の1ピッチ周期の区間に音源位置候補を集中させることで平均的な特性改善を達成しているが、聴感的に最も重要な音声の立上り区間などでは、むしろフレーム後半が重要な場合があり、フレーム後半が良好に再現できずに特性劣化を引き起こして、聞いた印象ではむしろ品質劣化を起こす課題があった。

0032

この発明は上記のような課題を解決するためになされたもので、特性の劣化を招くことなく、低ビットレート化を図ることができる音声符号化装置及び音声復号化装置を得ることを目的とする。

課題を解決するための手段

0033

この発明に係る音声符号化装置は、音源符号化手段が複数の音源位置の全組合せのうち、音源位置の組合せに関する評価値基準値より高い音源位置の組合せを示す情報が記述されたインデックステーブルから任意の音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を符号化するようにしたものである。

0034

この発明に係る音声符号化装置は、インデックステーブルに記述されている音源位置の組合せを示す情報が、個別に符号化された音源位置の組合せ情報であるようにしたものである。

0035

この発明に係る音声符号化装置は、音源符号化手段が少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することが可能な場合、インデックステーブルに記述されている音源位置の組合せを示す情報が、音源位置の各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるようにしたものである。

0036

この発明に係る音声符号化装置は、音源符号化手段がフレーム長音源数インデックス数から少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識するようにしたものである。

0037

この発明に係る音声符号化装置は、音源符号化手段が音源位置及び極性から構成された複数の対データの全組合せのうち、対データの組合せに関する評価値が基準値より高い対データの組合せを示す情報が記述されたインデックステーブルから任意の対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を符号化するようにしたものである。

0038

この発明に係る音声符号化装置は、インデックステーブルに記述されている対データの組合せを示す情報が、個別に符号化された対データの組合せ情報であるようにしたものである。

0039

この発明に係る音声符号化装置は、音源符号化手段が少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することが可能な場合、インデックステーブルに記述されている対データの組合せを示す情報が、対データの各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるようにしたものである。

0040

この発明に係る音声符号化装置は、音源符号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識するようにしたものである。

0041

この発明に係る音声符号化装置は、音源符号化手段が記述内容が相互に異なるインデックステーブルを複数個有し、任意のインデックステーブルを選択して使用するようにしたものである。

0042

この発明に係る音声符号化装置は、音源符号化手段が入力音声を分析して所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択するようにしたものである。

0043

この発明に係る音声符号化装置は、音源符号化手段がスペクトル包絡情報および音源情報の少なくともどちらか一方から所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択するようにしたものである。

0044

この発明に係る音声復号化装置は、音源復号化手段が複数の音源位置の全組合せのうち、音源位置の組合せに関する評価値が基準値より高い音源位置の組合せを示す情報が記述されたインデックステーブルから音源情報に含まれている組合せを示す符号に基づいて音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を復号化するようにしたものである。

0045

この発明に係る音声復号化装置は、インデックステーブルに記述されている音源位置の組合せを示す情報が、個別に符号化された音源位置の組合せ情報であるようにしたものである。

0046

この発明に係る音声復号化装置は、音源復号化手段が少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することが可能な場合、インデックステーブルに記述されている音源位置の組合せを示す情報が、音源位置の各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるようにしたものである。

0047

この発明に係る音声復号化装置は、音源復号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識するようにしたものである。

0048

この発明に係る音声復号化装置は、音源復号化手段が音源位置及び極性から構成された複数の対データの全組合せのうち、対データの組合せに関する評価値が基準値より高い対データの組合せを示す情報が記述されたインデックステーブルから音源情報に含まれている組合せを示す符号に基づいて対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を復号化するようにしたものである。

0049

この発明に係る音声復号化装置は、インデックステーブルに記述されている対データの組合せを示す情報が、個別に符号化された対データの組合せ情報であるようにしたものである。

0050

この発明に係る音声復号化装置は、音源復号化手段が少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することが可能な場合、インデックステーブルに記述されている対データの組合せを示す情報が、対データの各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるようにしたものである。

0051

この発明に係る音声復号化装置は、音源復号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識するようにしたものである。

0052

この発明に係る音声復号化装置は、音源復号化手段が記述内容が相互に異なるインデックステーブルを複数個有し、音源情報に含まれている選択情報を示す符号に対応するインデックステーブルを選択して使用するようにしたものである。

0053

この発明に係る音声復号化装置は、音源復号化手段が記述内容が相互に異なるインデックステーブルを複数個有し、スペクトル包絡情報および音源情報の少なくともどちらか一方から所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択して使用するようにしたものである。

発明を実施するための最良の形態

0054

以下、この発明の実施の一形態を説明する。
実施の形態1.図1はこの発明の実施の形態1による音声符号化装置を示す構成図であり、図において、21は入力音声を分析して、その入力音声のスペクトル包絡情報である線形予測係数を抽出する線形予測分析手段、22は線形予測分析手段21により抽出された線形予測係数を符号化する線形予測係数符号化手段である。なお、線形予測分析手段21及び線形予測係数符号化手段22から包絡情報符号化手段が構成されている。

0055

23は線形予測係数符号化手段22により量子化された線形予測係数を用いて仮の合成音を生成し、仮の合成音と入力音声の距離が最小になる適応音源符号(音源情報)を選択して多重化手段26に出力するとともに、その適応音源符号に対応する適応音源信号(過去の所定長の音源信号が周期的に繰り返された時系列ベクトル)をゲイン符号化手段25に出力する適応音源符号化手段、24は線形予測係数符号化手段22により量子化された線形予測係数を用いて仮の合成音を生成し、仮の合成音と符号化対象信号(入力音声から適応音源信号による合成音を差し引いた信号)の距離が最小になる駆動音源符号(音源情報)を選択して多重化手段26に出力するとともに、その駆動音源符号に対応する時系列ベクトルである駆動音源信号をゲイン符号化手段25に出力する駆動音源符号化手段である。

0056

25は適応音源符号化手段23から出力された適応音源信号と駆動音源符号化手段24から出力された駆動音源信号にゲインベクトルの各要素を乗算し、各乗算結果を相互に加算して音源信号を生成する一方、線形予測係数符号化手段22により量子化された線形予測係数を用いて、その音源信号から仮の合成音を生成し、仮の合成音と入力音声の距離が最小になるゲイン符号(音源情報)を選択して多重化手段26に出力するゲイン符号化手段である。なお、適応音源符号化手段23,駆動音源符号化手段24及びゲイン符号化手段25から音源符号化手段が構成されている。

0057

26は線形予測係数符号化手段22により符号化された線形予測係数の符号と、適応音源符号化手段23から出力された適応音源符号と、駆動音源符号化手段24から出力された駆動音源符号と、ゲイン符号化手段25から出力されたゲイン符号とを多重化して、音声符号を出力する多重化手段である。

0058

図2はこの発明の実施の形態1による音声復号化装置を示す構成図であり、図において、31は音声符号化装置から出力された音声符号を分離して、線形予測係数の符号を線形予測係数復号化手段32に出力し、適応音源符号を適応音源復号化手段33に出力し、駆動音源符号を駆動音源復号化手段34に出力し、ゲイン符号をゲイン復号化手段35に出力する分離手段、32は分離手段31から出力された線形予測係数を復号化し、その復号結果を合成フィルタ39のフィルタ係数に変換して、そのフィルタ係数を合成フィルタ39に出力する線形予測係数復号化手段(包絡情報復号化手段)である。

0059

33は分離手段31から出力された適応音源符号に対応する適応音源信号(過去の音源信号が周期的に繰り返された時系列ベクトル)を出力する適応音源復号化手段、34は分離手段31から出力された駆動音源符号に対応する時系列ベクトルである駆動音源信号を出力する駆動音源復号化手段、35は分離手段31から出力されたゲイン符号に対応するゲインベクトルを出力するゲイン復号化手段である。

0060

36はゲイン復号化手段35から出力されたゲインベクトルの要素を適応音源復号化手段33から出力された適応音源信号に乗算する乗算器、37はゲイン復号化手段35から出力されたゲインベクトルの要素を駆動音源復号化手段34から出力された駆動音源信号に乗算する乗算器、38は乗算器36の乗算結果と乗算器37の乗算結果を加算して、音源信号を生成する加算器、39は加算器38により生成された音源信号に対する合成フィルタリング処理を実行して出力音声を生成する合成フィルタである。なお、適応音源復号化手段33,駆動音源復号化手段34,ゲイン復号化手段35,乗算器36,37,加算器38及び合成フィルタ39から音源復号化手段が構成されている。

0061

図3は音声符号化装置における駆動音源符号化手段24の内部を示す構成図であり、図において、41は複数の音源位置の全組合せのうち、使用頻度(音源位置の組合せに関する評価値)が基準頻度(基準値)より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、42は音源位置組合せテーブル41から任意の音源位置の組合せを選択し、その音源位置の組合せと適正な極性を用いて入力音声の駆動音源情報を符号化する代数的音源符号化手段である。

0062

図4は音声復号化装置における駆動音源復号化手段34の内部を示す構成図であり、図において、51は複数の音源位置の全組合せのうち、使用頻度(音源位置の組合せに関する評価値)が基準頻度(基準値)より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、52は音源位置組合せテーブル51から駆動音源符号に含まれている音源位置符号(組合せを示す符号)に基づいて音源位置の組合せを選択し、その音源位置の組合せと極性(極性を特定する情報は駆動音源符号に含まれている)を用いて入力音声の音源情報を復号化する代数的音源復号化手段である。

0063

次に動作について説明する。音声符号化装置及び音声復号化装置では、5〜50ms程度を1フレームとして、フレーム単位で処理を行う。

0064

まず、音声符号化装置の線形予測分析手段21は、音声を入力すると、その入力音声を分析して、音声のスペクトル包絡情報である線形予測係数を抽出する。線形予測係数符号化手段22は、線形予測分析手段21が線形予測係数を抽出すると、その線形予測係数を符号化し、その符号を多重化手段26に出力する。また、その符号に対応する量子化された線形予測係数を適応音源符号化手段23,駆動音源符号化手段24及びゲイン符号化手段25に出力する。

0065

適応音源符号化手段23は、過去の所定長の音源信号を記憶する適応音源符号帳を内蔵し、内部で発生させる各適応音源符号(適応音源符号は数ビットの2進数値で示される)に応じて、過去の音源信号が周期的に繰り返された時系列ベクトルを生成する。次に、各時系列ベクトルに適切なゲインを乗じた後、線形予測係数符号化手段22により量子化された線形予測係数を用いる合成フィルタに各時系列ベクトルを通すことにより、仮の合成音を生成する。

0066

そして、適応音源符号化手段23は、仮の合成音と入力音声との距離を調査し、この距離を最小とする適応音源符号を選択して多重化手段26に出力するとともに、その選択した適応音源符号に対応する時系列ベクトルを適応音源信号として、ゲイン符号化手段25に出力する。また、入力音声から適応音源信号による合成音を差し引いた信号を符号化対象信号として、駆動音源符号化手段24に出力する。

0067

駆動音源符号化手段24は、適応音源符号化手段23から符号化対象信号を入力すると、音源位置組合せテーブル41から任意の音源位置の組合せ(パルス音源の位置候補の組合せ)を選択し、そのパルス音源の位置候補の組合せと適正な極性を用いて入力音声の駆動音源情報を符号化する。具体的には以下に示す通りである。

0068

まず、駆動音源符号化手段24の音源位置組合せテーブル41には、例えば、図19に示すパルス音源の位置候補の全組合せの中から使用頻度が高い組合せ(基準頻度より高い組合せ)のみを所望数抽出するなどして、複数のパルス音源の位置候補の組合せが記述されている(図5を参照)。代数的音源において、符号化に用いられるパルス音源の位置候補の組合せは全組合せが均等に出現するわけではなく、その発生の頻度には偏りがあり、発生頻度が低い組合せを一切使用しないとしても合成音の品質に与える影響は小さい。この特性を利用してパルス音源の位置候補の組合せに制約を与えることにより、符号化特性の劣化を抑えつつ、代数的音源に要する符号化ビット数を削減する。

0069

音源位置組合せテーブル41の情報を記憶する方法として、例えば、図6に示すように、各インデックスに対する各音源番号の音源位置を2進数で表現するなど、直接的に、パルス音源の位置候補を表す情報を符号化して記憶する方法がある。この様に構成すると、例えば、図19に示すパルス音源の位置候補の全組合せから、位置候補の組合せを抽出して音源位置組合せテーブル41を作成した場合、各パルス音源の位置候補の組合せは13bitで表現できるので、これをインデックスの個数(ここでは、インデックスの個数をN個とする)分、記憶するためには、(13×N)bitの記憶領域が必要となる。例えば、N=512の場合は6656bit、N=1024の場合は13312bitとなるなど、使用する音源位置組合せテーブル41の大きさによって必要な記憶容量が異なる。

0070

音源位置組合せテーブル41の情報を記憶する別の方法として、例えば、図7に示すように、少なくとも音源位置組合せテーブル41の全ての要素を含むように構成された第2の音源位置組合せテーブルにおける各位置候補の組合せに対して、音源位置組合せテーブル41の要素であるか否かを示すフラグ情報を1bitで表現するなど、直接的には、パルス音源の位置候補を表す情報を記憶するのではなく、パルス音源の位置候補の組合せの使用の可否を記憶する方法がある。この様に構成すると、例えば、図19に示すパルス音源の位置候補の全組合せから、位置候補の組合せを抽出して音源位置組合せテーブル41を作成した場合、全組合せ数(8192個)に対して使用する/使用しないを1bitで表すので、8192bitの記憶領域が必要となる。この場合、音源位置組合せテーブル41のインデックス数Nに依らず必要な記憶領域は一定である。

0071

なお、図19に示すような代数的音源構造に基づくパルス音源の位置候補の全組合せは、フレーム長とパルス数とインデックス数から演算により求めることができるので、実際にはテーブルとして持つ必要はなく、記憶領域は不要である。

0072

上述したように、音源位置組合せテーブル41の情報を記憶する方法は複数あり、インデックス数Nと必要な記憶容量との関係が異なるので、インデックス数Nに応じて、より記憶容量が小さい方法を選択すれば、メモリやハードディスクなどの記憶装置規模を小さくできるなど、効率的な装置化が可能となる。

0073

駆動音源符号化手段24の代数的音源符号化手段42は、音源位置組合せテーブル41に格納されているパルス音源の位置候補の組合せを順次読み出して、各位置候補に任意の極性でパルスを立てたときの仮の合成音を生成する。そして、適応音源符号化手段23から出力された符号化対象信号と仮の合成音との距離(信号の誤差)を計算して、その距離を最小にするパルス音源の位置候補の組合せと極性を探索する。代数的音源符号化手段42は、その探索が完了すると、その探索結果であるパルス音源の位置候補の組合せを表す音源位置符号と極性とを、駆動音源符号として多重化手段26に出力するとともに、この駆動音源符号に対応する時系列ベクトルを、駆動音源信号としてゲイン符号化手段25に出力する。

0074

この代数的音源符号化手段42における探索動作は、文献1に示されている駆動音源符号化手段と同様に行う。また、文献1に示されているように駆動音源の生成部の最終段にピッチフィルタを導入する。即ち、各パルス音源の位置候補にパルスを配置した信号にピッチフィルタを施して駆動音源信号とし、これに対する仮の合成音を生成する。そして、各位置候補毎の仮の合成音同士の相関と、各位置候補毎の仮の合成音と符号化対象信号の相関を計算し、これらの相関を用いて各位置候補毎の極性の決定と位置探索高速に行う。

0075

その結果として、パルス音源の位置候補の組合せと各音源の極性が得られる。パルス音源の位置候補の組合せは、例えば、音源位置組合せテーブル41における組合せに対するインデックスを2進数で表現するなど、対応した符号に変換され、最終的な音源位置符号として出力される。代数的音源は、その構造から探索動作に要する演算量が少ないことが知られているが、その代数的音源の構造を保ちつつ探索すべき音源位置の組合せ数を減らすことにより、更なる演算量削減効果を得ることができる。

0076

上記のようにして、駆動音源符号化手段24が駆動音源信号を出力すると、ゲイン符号化手段25は、内部で発生させる各ゲイン符号(ゲイン符号は数ビットの2進数値で示される)に応じて、ゲイン符号帳からゲインベクトルの読み出しを順次実行する。そして、各ゲインベクトルの要素を、適応音源符号化手段23から出力された適応音源信号と、駆動音源符号化手段24から出力された駆動音源信号にそれぞれ乗算し、各乗算結果を相互に加算して音源信号を生成する。次に、その音源信号を線形予測係数符号化手段22により量子化された線形予測係数を用いる合成フィルタに通すことにより、仮の合成音を生成する。

0077

そして、ゲイン符号化手段25は、仮の合成音と入力音声との距離を調査し、この距離を最小とするゲイン符号を選択して多重化手段26に出力する。また、そのゲイン符号に対応する音源信号を適応音源符号化手段23に出力する。これにより、適応音源符号化手段23は、ゲイン符号化手段25により選択されたゲイン符号に対応する音源信号を用いて、内蔵する適応音源符号帳の更新を行う。

0078

多重化手段26は、線形予測係数符号化手段22により符号化された線形予測係数の符号と、適応音源符号化手段23から出力された適応音源符号と、駆動音源符号化手段24から出力された駆動音源符号(音源位置符号と極性を含む)と、ゲイン符号化手段25から出力されたゲイン符号とを多重化し、その多重化結果である音声符号を音声復号化装置に出力する。

0079

次に、音声復号化装置の分離手段31は、音声符号化装置が音声符号を出力すると、その音声符号を分離して、線形予測係数の符号を線形予測係数復号化手段32に出力し、適応音源符号を適応音源復号化手段33に出力し、駆動音源符号を駆動音源復号化手段34に出力し、ゲイン符号をゲイン復号化手段35に出力する。線形予測係数復号化手段32は、分離手段31から線形予測係数の符号を受けると、その符号を復号化し、その復号結果を合成フィルタ39のフィルタ係数に変換して、そのフィルタ係数を合成フィルタ39に出力する。

0080

適応音源復号化手段33は、過去の所定長の音源信号を記憶する適応音源符号帳を内蔵し、分離手段31から出力された適応音源符号に対応する適応音源信号(過去の音源信号が周期的に繰り返された時系列ベクトル)を出力する。

0081

駆動音源復号化手段34は、分離手段31から音源位置符号と極性を含む駆動音源符号を受けると、代数的音源復号化手段52が音源位置組合せテーブル51(音源位置組合せテーブル41と同一内容テーブル化されている)から、音源位置符号に対応するパルス音源の位置候補の組合せを読み出し、各位置候補に前記極性を付与したパルスを配置した信号にピッチフィルタを施して駆動音源信号を生成し、その駆動音源信号を出力する。

0082

ゲイン復号化手段35は、ゲインベクトルを格納するゲイン符号帳を内蔵し、分離手段31から出力されたゲイン符号に対応するゲインベクトルを出力する。そして、適応音源復号化手段33から出力された適応音源信号と駆動音源復号化手段34から出力された駆動音源信号は、乗算器36,37により当該ゲインベクトルの要素が乗算され、加算器38により乗算器36,37の乗算結果が相互に加算される。

0083

合成フィルタ39は、加算器38の加算結果である音源信号に対する合成フィルタリング処理を実行して出力音声を生成する。なお、フィルタ係数としては、線形予測係数復号化手段32により復号化された線形予測係数を用いる。最後に、適応音源復号化手段33は、上記音源信号を用いて、内蔵する適応音源符号帳の更新を行う。

0084

以上で明らかなように、この実施の形態1によれば、複数の音源位置の全組合せのうち、使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル41,51から音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を符号化又は復号化するように構成したので、特性の劣化を招くことなく、低ビットレート化を図ることができる音声符号化装置及び音声復号化装置が得られる効果を奏する。

0085

また、音源位置組合せテーブル41,51に記述する音源位置の組合せは、その使用頻度により選択して抽出するなどの統計的な手法によるなど、実際に入力音声の音源情報を符号化又は復号化するのに則した方法で構成できるので、ヒューリスティックなルールを用いた場合のような不自然な制約がなく、低ビットレートであっても品質のよい音声符号化装置及び音声復号化装置が得られる効果を奏する。

0086

また、固定的な音源位置の組合せを用いているので、通信路での符号伝送誤りに対する強い耐性を維持しながら、特性を改善することができる効果を奏する。

0087

さらに、複数の音源位置の組合せを音源位置組合せテーブル41,51に記述する際、各音源位置を個別に符号化して記述するようにしたので、あるいは、音源位置組合せテーブル41,51の各要素を第2の音源位置組合せテーブルの要素とし、第2の音源位置組合せテーブルの各要素に対する使用の可否を示すフラグ情報を記述するようにしたので、インデックス数Nに応じて必要な記憶容量を小さくすることができ、装置化規模が小さい効率的な音声符号化装置及び音声復号化装置が得られる効果を奏する。

0088

さらに、第2の音源位置組合せテーブルの音源位置の組合せはフレーム長と音源数とインデックス数とから生成するようにしたので、これに要する記憶容量を不要にすることができ、装置化規模が小さい効率的な音声符号化装置及び音声復号化装置が得られる効果を奏する。

0089

なお、この実施の形態1では、駆動音源信号の生成部にピッチフィルタを導入しているが、これを駆動音源復号化手段34においてのみ導入したり、駆動音源符号化手段24と駆動音源復号化手段34の両方で導入しない構成も可能である。

0090

また、この実施の形態1では、音源位置の組合せに関する評価値として使用頻度を用いるものについて示したが、これに限るものではなく、例えば、符号化歪み等を小さくする期待値などを音源位置の組合せに関する評価値として用いるようにしてもよい。この期待値は、例えば、音源位置の全組合せを用いて学習用音声データを符号化したときに、各音源位置の組合せ毎に、それが用いられたときの駆動音源信号成分により減少した符号化歪みの総和などとすることができる。

0091

実施の形態2.図8はこの発明の実施の形態2による音声符号化装置における駆動音源符号化手段24の内部を示す構成図であり、図において、43は音源位置及び極性から構成された複数の対データの全組合せのうち、使用頻度(対データの組合せに関する評価値)が基準頻度(基準値)より高い対データの組合せを示す情報が記述された音源位置・極性組合せテーブル(インデックステーブル)、44は音源位置・極性組合せテーブル43から任意の対データの組合せを選択し、その対データの組合せを用いて入力音声の駆動音源情報を符号化する代数的音源符号化手段である。

0092

図9はこの発明の実施の形態2による音声復号化装置における駆動音源復号化手段34の内部を示す構成図であり、図において、53は複数の対データの全組合せのうち、使用頻度(対データの組合せに関する評価値)が基準頻度(基準値)より高い対データの組合せを示す情報が記述された音源位置・極性組合せテーブル(インデックステーブル)、54は音源位置・極性組合せテーブル53から駆動音源符号に含まれている音源位置・極性符号(組合せを示す符号)に基づいて対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を復号化する代数的音源復号化手段である。

0093

次に動作について説明する。ただし、駆動音源符号化手段24及び駆動音源復号化手段34以外は上記実施の形態1と同様であるため、駆動音源符号化手段24及び駆動音源復号化手段34の動作のみを説明する。

0094

まず、駆動音源符号化手段24の音源位置・極性組合せテーブル43には、例えば、図19に示すパルス音源の位置候補及び各音源の極性の全組合せの中から使用頻度が高い組合せ(基準頻度より高い組合せ)のみを所望数抽出するなどして、複数の対データの組合せが記述されている(図10を参照)。代数的音源において、符号化に用いられるパルス音源の対データの組合せは全組合せが均等に出現するわけではなく、その発生の頻度には偏りがあり、発生頻度が低い組合せを一切使用しないとしても合成音の品質に与える影響は小さい。この特性を利用してパルス音源の対データの組合せに制約を与えることにより、符号化特性の劣化を抑えつつ、代数的音源に要する符号化ビット数を削減する。

0095

音源位置・極性組合せテーブル43の情報を記憶する方法として、例えば、図11に示すように、各インデックスに対する各音源番号の対データを2進数で表現するなど、直接的に、パルス音源の対データを表す情報を符号化して記憶する方法がある。この様に構成すると、例えば、図19に示すパルス音源の位置候補及び各音源の極性の全組合せから対データの組合せを抽出して音源位置・極性組合せテーブル43を作成した場合、各パルス音源の対データの組合せは17bitで表現できるので、これをインデックスの個数(ここでは、インデックスの個数をN個とする)分、記憶するためには、(17×N)bitの記憶領域が必要となる。例えば、N=4096の場合は69632bit、N=8192の場合は139264bitとなるなど、使用する音源位置・極性組合せテーブル43の大きさによって必要な記憶容量が異なる。

0096

音源位置・極性組合せテーブル43の情報を記憶する別の方法として、例えば、図12に示すように、少なくとも音源位置・極性組合せテーブル43の全ての要素を含むように構成された第2の音源位置・極性組合せテーブルにおける各対データの組合せに対して、音源位置・極性組合せテーブル43の要素であるか否かを示すフラグ情報を1bitで表現するなど、直接的には、パルス音源の対データを表す情報を記憶するのではなく、パルス音源の対データの組合せの使用の可否を記憶する方法がある。この様に構成すると、例えば、図19に示すパルス音源の位置候補及び各音源の極性の全組合せから、対データの組合せを抽出して音源位置・極性組合せテーブル43を作成した場合、全組合せ数(131072個)に対して使用する/使用しないを1bitで表すので、131072bitの記憶領域が必要となる。この場合、音源位置・極性組合せテーブル43のインデックス数Nに依らず必要な記憶領域は一定である。

0097

なお、図19に示すような代数的音源構造に基づくパルス音源の位置候補及び各音源の極性の全組合せは、フレーム長とパルス数とインデックス数から演算により求めることができるので、実際にはテーブルとして持つ必要はなく、記憶領域は不要である。

0098

上述したように、音源位置・極性組合せテーブル43の情報を記憶する方法は複数あり、インデックス数Nと必要な記憶容量との関係が異なるので、インデックス数Nに応じて、より記憶容量が小さい方法を選択すれば、メモリやハードディスクなどの記憶装置の規模を小さくできるなど、効率的な装置化が可能となる。

0099

駆動音源符号化手段24の代数的音源符号化手段44は、音源位置・極性組合せテーブル43に格納されているパルス音源の対データの組合せを順次読み出して、その対データの各位置候補に対データの各極性でパルスを立てたときの仮の合成音を生成する。そして、適応音源符号化手段23から出力された符号化対象信号と仮の合成音との距離を計算して、その距離を最小にするパルス音源の対データの組合せを探索する。代数的音源符号化手段44は、その探索が完了すると、その探索結果であるパルス音源の対データの組合せを表す音源位置・極性符号を、駆動音源符号として多重化手段26に出力するとともに、この駆動音源符号に対応する時系列ベクトルを、駆動音源信号としてゲイン符号化手段25に出力する。

0100

この代数的音源符号化手段44における探索動作は、文献1に示されている駆動音源符号化手段と同様に行う。また、文献1に示されているように駆動音源の生成部の最終段にピッチフィルタを導入する。即ち、各パルス音源の位置候補にパルスを配置した信号にピッチフィルタを施して駆動音源信号とし、これに対する仮の合成音を生成する。そして、各位置候補毎の仮の合成音同士の相関と、各位置候補毎の仮の合成音と符号化対象信号の相関を計算し、これらの相関を用いて対データの探索を高速に行う。

0101

その結果として、パルス音源の対データの組合せが得られる。パルス音源の対データの組合せは、例えば、音源位置組合せ・極性テーブル43における組合せに対するインデックスを2進数で表現するなど、対応した符号に変換され、最終的な音源位置・極性符号として出力される。代数的音源は、その構造から探索動作に要する演算量が少ないことが知られているが、その代数的音源の構造を保ちつつ探索すべき対データの組合せ数を減らすことにより、更なる演算量削減効果を得ることができる。

0102

次に、駆動音源復号化手段34の代数的音源復号化手段54は、分離手段31から音源位置・極性符号を受けると、音源位置・極性組合せテーブル53(音源位置・極性組合せテーブル43と同一内容がテーブル化されている)から、音源位置・極性符号に対応するパルス音源の対データの組合せを読み出し、その対データの各位置候補に前記極性を付与したパルスを配置した信号にピッチフィルタを施して駆動音源信号を生成し、その駆動音源信号を出力する。

0103

以上で明らかなように、この実施の形態2によれば、複数の対データの全組合せのうち、使用頻度が基準頻度より高い対データの組合せを示す情報が記述された音源位置・極性組合せテーブル43,53から対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を符号化又は復号化するように構成したので、特性の劣化を招くことなく、低ビットレート化を図ることができる音声符号化装置及び音声復号化装置が得られる効果を奏する。

0104

また、音源位置・極性組合せテーブル43,53に記述する対データの組合せは、その使用頻度により選択して抽出するなどの統計的な手法によるなど、実際に入力音声の音源情報を符号化又は復号化するのに則した方法で構成できるので、ヒューリスティックなルールを用いた場合のような不自然な制約がなく、低ビットレートであっても品質のよい音声符号化装置及び音声復号化装置が得られる効果を奏する。

0105

また、固定的な対データの組合せを用いているので、通信路での符号伝送誤りに対する強い耐性を維持しながら、特性を改善することができる効果を奏する。

0106

さらに、複数の対データの組合せを音源位置・極性組合せテーブル43,53に記述する際、各対データを個別に符号化して記述するようにしたので、あるいは、音源位置・極性組合せテーブル43,53の各要素を第2の音源位置・極性組合せテーブルの要素とし、第2の音源位置・極性組合せテーブルの各要素に対する使用の可否を示すフラグ情報を記述するようにしたので、インデックス数Nに応じて必要な記憶容量を小さくすることができ、装置化規模が小さい効率的な音声符号化装置及び音声復号化装置が得られる効果を奏する。

0107

さらに、第2の音源位置・極性組合せテーブルの対データの組合せはフレーム長と音源数とインデックス数とから生成するようにしたので、これに要する記憶容量を不要にすることができ、装置化規模が小さい効率的な音声符号化装置及び音声復号化装置が得られる効果を奏する。

0108

なお、この実施の形態2では、駆動音源信号の生成部にピッチフィルタを導入しているが、これを駆動音源復号化手段34においてのみ導入したり、駆動音源符号化手段24と駆動音源復号化手段34の両方で導入しない構成も可能である。

0109

また、この実施の形態2では、対データの組合せに関する評価値として使用頻度を用いるものについて示したが、これに限るものではなく、例えば、符号化歪み等を小さくする期待値などを対データの組合せに関する評価値として用いるようにしてもよい。

0110

実施の形態3.図13はこの発明の実施の形態3による音声符号化装置における駆動音源符号化手段24の内部を示す構成図であり、図において、61は複数の音源位置の全組合せのうち、有音立ち上がり区間で使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、62は複数の音源位置の全組合せのうち、有音の立ち上がり以外の区間で使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、63は入力音声を分析して所定のパラメータを抽出し、そのパラメータに対応する音源位置組合せテーブル61(または62)を選択する選択手段、64は選択手段63により選択された音源位置組合せテーブル61(または62)から任意の音源位置の組合せを選択し、その音源位置の組合せと適正な極性を用いて入力音声の音源情報を符号化する代数的音源符号化手段である。

0111

図14はこの発明の実施の形態3による音声復号化装置における駆動音源復号化手段34の内部を示す構成図であり、図において、71は複数の音源位置の全組合せのうち、有音の立ち上がり区間で使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、72は複数の音源位置の全組合せのうち、有音の立ち上がり以外の区間で使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、73は駆動音源符号に含まれている選択情報を示す符号に対応する音源位置組合せテーブル71(または72)を選択する選択手段、74は選択手段73により選択された音源位置組合せテーブル71(または72)から駆動音源符号に含まれている音源位置符号に基づいて音源位置の組合せを選択し、その音源位置の組合せと極性(極性を特定する情報は駆動音源符号に含まれている)を用いて入力音声の音源情報を復号化する代数的音源復号化手段である。

0112

次に動作について説明する。ただし、駆動音源符号化手段24及び駆動音源復号化手段34以外は上記実施の形態1と同様であるため、駆動音源符号化手段24及び駆動音源復号化手段34の動作のみを説明する。

0113

まず、駆動音源符号化手段24の音源位置組合せテーブル61には、例えば、図19に示すパルス音源の位置候補の全組合せの中から有声の立上り区間で使用頻度が高い組合せ(基準頻度より高い組合せ)のみを所望数抽出するなどして、複数のパルス音源の位置候補の組合せが記述されている。また、音源位置組合せテーブル62には、例えば、図19に示すパルス音源の位置候補の全組合せの中から有声の立上り以外の区間で使用頻度が高い組合せ(基準頻度より高い組合せ)のみを所望数抽出するなどして、複数のパルス音源の位置候補の組合せが記述されている。

0114

代数的音源において、符号化に用いられるパルス音源の位置候補の組合せは全組合せが均等に出現するわけではなく、その発生の頻度には偏りがあり、発生頻度が低い組合せを一切使用しないとしても合成音の品質に与える影響は小さい。例えば、有声の立上り区間などフレーム後半のパワーがフレーム前半に比較して大きい場合には、パルス音源の位置候補もフレーム後半に集中する傾向がある。また、有声の立上り以外の区間では、ピッチフィルタを用いることもあり、パルス音源の位置候補はフレーム前半に集中する傾向や、フレームに均等に出現する傾向がある。この特性を利用して、入力音声の特徴に応じてパルス音源の位置候補の組合せに制約を与えることにより、符号化特性の劣化を抑えつつ、代数的音源に要する符号化ビット数を削減する。

0115

選択手段63は、入力音声を分析し、例えば、有声の立上り区間であれば、音源位置組合せテーブル61を選択し、有声の立上り以外の区間であれば、音源位置組合せテーブル62を選択するなど、入力音声の分析結果に基づいて使用する音源位置組合せテーブルを選択して切り換える。

0116

代数的音源符号化手段64は、選択手段63により選択された音源位置組合せテーブル61(または62)に格納されているパルス音源の位置候補の組合せを順次読み出して、各位置候補に任意の極性でパルスを立ててピッチフィルタを施したときの仮の合成音を生成する。そして、適応音源符号化手段23から出力された符号化対象信号と仮の合成音との距離を計算して、その距離を最小にするパルス音源の位置候補の組合せと極性を探索する。

0117

代数的音源符号化手段64は、その探索が完了すると、その探索結果であるパルス音源の位置候補の組合せを表す音源位置符号と極性とを、駆動音源符号として多重化手段26に出力するとともに、この駆動音源符号に対応する時系列ベクトルを、駆動音源信号としてゲイン符号化手段25に出力する。なお、選択手段63から出力された選択情報も、駆動音源符号に含められて多重化手段26に出力される。

0118

次に、駆動音源復号化手段34の選択手段73は、駆動音源符号に含まれている選択情報を示す符号に対応する音源位置組合せテーブル、即ち、音源位置組合せテーブル71又は音源位置組合せテーブル72を選択する。ただし、音源位置組合せテーブル71は音源位置組合せテーブル61と同一内容がテーブル化され、音源位置組合せテーブル72は音源位置組合せテーブル62と同一内容がテーブル化されている。

0119

代数的音源復号化手段74は、選択手段73により選択された音源位置組合せテーブル71(または72)から、音源位置符号に対応するパルス音源の位置候補の組合せを読み出し、各位置候補に前記極性を付与したパルスを配置した信号にピッチフィルタを施して駆動音源信号を生成し、その駆動音源信号を出力する。

0120

以上で明らかなように、この実施の形態3によれば、記述内容が相互に異なる音源位置組合せテーブル61,62(または71,72)を有し、任意の音源位置組合せテーブルを選択して使用するように構成したので、上記実施の形態1と同様の効果を奏することができるとともに、特性の劣化を効果的に抑制することができる効果を奏する。

0121

なお、この実施の形態3では、駆動音源信号の生成部にピッチフィルタを導入しているが、これを駆動音源復号化手段34においてのみ導入したり、駆動音源符号化手段24と駆動音源復号化手段34の両方で導入しない構成も可能である。

0122

また、この実施の形態3では、有声の立上りか否かにより音源位置組合せテーブルを切り換えているが、母音部か否か、雑音区間音声区間か、あるいは、ピッチ長の大小に応じて切り換えるなど、他の基準を用いる構成も可能である。さらに、これらの基準を複数組み合せて用いる構成も可能である。

0123

また、この実施の形態3では、有声の立上りか否かを判定しているので、主に入力音声のパワー情報をパラメータとして用いて音源位置組合せテーブルを切り換えることになるが、入力音声を分析して得られるピッチ情報スペクトル情報など、他のパラメータを用いる構成も可能である。さらに、これらのパラメータを複数組み合せて用いる構成も可能である。

0124

この実施の形態3では、2つの音源位置組合せテーブルを切り換えているが、3つ以上の音源位置組合せテーブルを切り換える構成も可能である。また、この実施の形態3では、複数の音源位置組合せテーブルを切り換えているが、複数の音源位置・極性組合せテーブルを切り換える構成も可能である。

0125

実施の形態4.図15はこの発明の実施の形態4による音声符号化装置における駆動音源符号化手段24の内部を示す構成図であり、図において、81は複数の音源位置の全組合せのうち、ピッチ周期がフレーム長より短い場合に使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、82は複数の音源位置の全組合せのうち、ピッチ周期がフレーム長より長い場合に使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、83は適応音源符号からピッチ周期を求め、そのピッチ周期に対応する音源位置組合せテーブル81(または82)を選択する選択手段、84は選択手段83により選択された音源位置組合せテーブル81(または82)から任意の音源位置の組合せを選択し、その音源位置の組合せと適正な極性を用いて入力音声の音源情報を符号化する代数的音源符号化手段である。

0126

図16はこの発明の実施の形態4による音声復号化装置における駆動音源復号化手段34の内部を示す構成図であり、図において、91は複数の音源位置の全組合せのうち、ピッチ周期がフレーム長より短い場合に使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、92は複数の音源位置の全組合せのうち、ピッチ周期がフレーム長より長い場合に使用頻度が基準頻度より高い音源位置の組合せを示す情報が記述された音源位置組合せテーブル(インデックステーブル)、93は適応音源符号からピッチ周期を求め、そのピッチ周期に対応する音源位置組合せテーブル91(または92)を選択する選択手段、94は選択手段93により選択された音源位置組合せテーブル91(または92)から駆動音源符号に含まれている音源位置符号に基づいて音源位置の組合せを選択し、その音源位置の組合せと極性(極性を特定する情報は駆動音源符号に含まれている)を用いて入力音声の音源情報を復号化する代数的音源復号化手段である。

0127

次に動作について説明する。ただし、駆動音源符号化手段24及び駆動音源復号化手段34以外は上記実施の形態1と同様であるため、駆動音源符号化手段24及び駆動音源復号化手段34の動作のみを説明する。

0128

まず、駆動音源符号化手段24の音源位置組合せテーブル81には、例えば、図19に示すパルス音源の位置候補の全組合せの中からピッチ周期がフレーム長より短い場合に使用頻度が高い組合せ(基準頻度より高い組合せ)のみを所望数抽出するなどして、複数のパルス音源の位置候補の組合せが記述されている。また、音源位置組合せテーブル82には、例えば、図19に示すパルス音源の位置候補の全組合せの中からピッチ周期がフレーム長より長い場合に使用頻度が高い組合せ(基準頻度より高い組合せ)のみを所望数抽出するなどして、複数のパルス音源の位置候補の組合せが記述されている。

0129

代数的音源において、符号化に用いられるパルス音源の位置候補の組合せは全組合せが均等に出現するわけではなく、その発生の頻度には偏りがあり、発生頻度が低い組合せを一切使用しないとしても合成音の品質に与える影響は小さい。例えば、ピッチ周期がフレーム長より短い場合は、ピッチフィルタを用いることもあり、パルス音源の位置候補はフレーム前半に集中する傾向があり、ピッチ周期がフレーム長より長い場合にはパルス音源の位置候補はフレームに均等に出現する傾向がある。この特性を利用して、入力音声の特徴に応じてパルス音源の位置候補の組合せに制約を与えることにより、符号化特性の劣化を抑えつつ、代数的音源に要する符号化ビット数を削減する。

0130

選択手段83は、適応音源符号よりピッチ周期を求め、例えば、ピッチ周期がフレーム長より短い場合には、音源位置組合せテーブル81を選択し、ピッチ周期がフレーム長より長い場合には、音源位置組合せテーブル82を選択するなど、ピッチ周期に基づいて使用する音源位置組合せテーブルを選択して切り換える。

0131

代数的音源符号化手段84は、選択手段83により選択された音源位置組合せテーブル81(または82)に格納されているパルス音源の位置候補の組合せを順次読み出して、各位置候補に任意の極性でパルスを立ててピッチフィルタを施したときの仮の合成音を生成する。そして、適応音源符号化手段23から出力された符号化対象信号と仮の合成音との距離を計算して、その距離を最小にするパルス音源の位置候補の組合せと極性を探索する。代数的音源符号化手段84は、その探索が完了すると、その探索結果であるパルス音源の位置候補の組合せを表す音源位置符号と極性とを、駆動音源符号として多重化手段26に出力するとともに、この駆動音源符号に対応する時系列ベクトルを、駆動音源信号としてゲイン符号化手段25に出力する。

0132

次に、駆動音源復号化手段34の選択手段93は、駆動音源符号化手段24の選択手段83と同様にして、音源位置組合せテーブル91又は音源位置組合せテーブル92を選択する。ただし、音源位置組合せテーブル91は音源位置組合せテーブル81と同一内容がテーブル化され、音源位置組合せテーブル92は音源位置組合せテーブル82と同一内容がテーブル化されている。

0133

代数的音源復号化手段94は、選択手段93により選択された音源位置組合せテーブル91(または92)から、音源位置符号に対応するパルス音源の位置候補の組合せを読み出し、各位置候補に前記極性を付与したパルスを配置した信号にピッチフィルタを施して駆動音源信号を生成し、その駆動音源信号を出力する。

0134

以上で明らかなように、この実施の形態4によれば、記述内容が相互に異なる音源位置組合せテーブル81,82(または91,92)を有し、任意の音源位置組合せテーブルを選択して使用するように構成したので、上記実施の形態1と同様の効果を奏することができるとともに、特性の劣化を効果的に抑制することができる効果を奏する。また、この実施の形態4では、適応音源符号より求めることができるピッチ周期に基づいて音源位置組合せテーブルを選択するようにしているので、使用対象の音源位置組合せテーブルを特定する選択情報の符号化が不要になる効果も奏する。

0135

なお、この実施の形態4では、駆動音源信号の生成部にピッチフィルタを導入しているが、これを駆動音源復号化手段34においてのみ導入したり、駆動音源符号化手段24と駆動音源復号化手段34の両方で導入しない構成も可能である。

0136

また、この実施の形態4では、適応音源符号から求まるピッチ周期に応じて音源位置組合せテーブルを切り換えているが、線形予測係数の符号から求まるスペクトル様態に応じて切り換えるなど、他のパラメータを用いる構成も可能である。さらに、これらのパラメータを複数組み合せて用いる構成も可能である。

0137

また、この実施の形態4では、現フレームで求められた符号を用いて音源位置組合せテーブルを切り換えるためのパラメータを求めているが、過去のフレームにおける符号を用いて音源位置組合せテーブルを切り換えるためのパラメータを求める構成も可能である。

0138

この実施の形態4では、符号に基づいて音源位置組合せテーブルを切り換えるためのパラメータを求めているが、過去に生成された音源信号や出力音声など、音声符号化装置及び音声復号化装置に共通に生成可能な信号を分析してパラメータを求める構成も可能である。

0139

また、この実施の形態4では、2つの音源位置組合せテーブルを切り換えているが、3つ以上の音源位置組合せテーブルを切り換える構成も可能である。さらに、この実施の形態4では、複数の音源位置組合せテーブルを切り換えているが、複数の音源位置・極性組合せテーブルを切り換える構成も可能である。

発明の効果

0140

以上のように、この発明によれば、音源符号化手段が複数の音源位置の全組合せのうち、音源位置の組合せに関する評価値が基準値より高い音源位置の組合せを示す情報が記述されたインデックステーブルから任意の音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を符号化するように構成したので、特性の劣化を招くことなく、低ビットレート化を図ることができる効果がある。

0141

この発明によれば、インデックステーブルに記述されている音源位置の組合せを示す情報が、個別に符号化された音源位置の組合せ情報であるように構成したので、記憶容量が小さい効率的な音声符号化装置が得られる効果がある。

0142

この発明によれば、音源符号化手段が少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することが可能な場合、インデックステーブルに記述されている音源位置の組合せを示す情報が、音源位置の各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるように構成したので、記憶容量が小さい効率的な音声符号化装置が得られる効果がある。

0143

この発明によれば、音源符号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識するように構成したので、記憶容量が小さい効率的な音声符号化装置が得られる効果がある。

0144

この発明によれば、音源符号化手段が音源位置及び極性から構成された複数の対データの全組合せのうち、対データの組合せに関する評価値が基準値より高い対データの組合せを示す情報が記述されたインデックステーブルから任意の対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を符号化するように構成したので、特性の劣化を招くことなく、低ビットレート化を図ることができる効果がある。

0145

この発明によれば、インデックステーブルに記述されている対データの組合せを示す情報が、個別に符号化された対データの組合せ情報であるように構成したので、記憶容量が小さい効率的な音声符号化装置が得られる効果がある。

0146

この発明によれば、音源符号化手段が少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することが可能な場合、インデックステーブルに記述されている対データの組合せを示す情報が、対データの各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるように構成したので、記憶容量が小さい効率的な音声符号化装置が得られる効果がある。

0147

この発明によれば、音源符号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識するように構成したので、記憶容量が小さい効率的な音声符号化装置が得られる効果がある。

0148

この発明によれば、音源符号化手段が記述内容が相互に異なるインデックステーブルを複数個有し、任意のインデックステーブルを選択して使用するように構成したので、低ビットレート化を図ることができる効果がある。また、特性の劣化を効果的に抑制することができる効果がある。

0149

この発明によれば、音源符号化手段が入力音声を分析して所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択するように構成したので、複雑な処理を実施することなく、インデックステーブルを選択することができる効果がある。

0150

この発明によれば、音源符号化手段がスペクトル包絡情報および音源情報の少なくともどちらか一方から所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択するように構成したので、使用対象のインデックステーブルを特定する選択情報の符号化が不要になる効果がある。

0151

この発明によれば、音源復号化手段が複数の音源位置の全組合せのうち、音源位置の組合せに関する評価値が基準値より高い音源位置の組合せを示す情報が記述されたインデックステーブルから音源情報に含まれている組合せを示す符号に基づいて音源位置の組合せを選択し、その音源位置の組合せを用いて入力音声の音源情報を復号化するように構成したので、特性の劣化を招くことなく、低ビットレート化を図ることができる効果がある。

0152

この発明によれば、インデックステーブルに記述されている音源位置の組合せを示す情報が、個別に符号化された音源位置の組合せ情報であるように構成したので、記憶容量が小さい効率的な音声復号化装置が得られる効果がある。

0153

この発明によれば、音源復号化手段が少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識することが可能な場合、インデックステーブルに記述されている音源位置の組合せを示す情報が、音源位置の各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるように構成したので、記憶容量が小さい効率的な音声復号化装置が得られる効果がある。

0154

この発明によれば、音源復号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い音源位置の組合せを含む音源位置の組合せを認識するように構成したので、記憶容量が小さい効率的な音声復号化装置が得られる効果がある。

0155

この発明によれば、音源復号化手段が音源位置及び極性から構成された複数の対データの全組合せのうち、対データの組合せに関する評価値が基準値より高い対データの組合せを示す情報が記述されたインデックステーブルから音源情報に含まれている組合せを示す符号に基づいて対データの組合せを選択し、その対データの組合せを用いて入力音声の音源情報を復号化するように構成したので、特性の劣化を招くことなく、低ビットレート化を図ることができる効果がある。

0156

この発明によれば、インデックステーブルに記述されている対データの組合せを示す情報が、個別に符号化された対データの組合せ情報であるように構成したので、記憶容量が小さい効率的な音声復号化装置が得られる効果がある。

0157

この発明によれば、音源復号化手段が少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識することが可能な場合、インデックステーブルに記述されている対データの組合せを示す情報が、対データの各組合せがインデックステーブルの要素であるか否かを示すフラグ情報であるように構成したので、記憶容量が小さい効率的な音声復号化装置が得られる効果がある。

0158

この発明によれば、音源復号化手段がフレーム長と音源数とインデックス数から少なくとも評価値が基準値より高い対データの組合せを含む対データの組合せを認識するように構成したので、記憶容量が小さい効率的な音声復号化装置が得られる効果がある。

0159

この発明によれば、音源復号化手段が記述内容が相互に異なるインデックステーブルを複数個有し、音源情報に含まれている選択情報を示す符号に対応するインデックステーブルを選択して使用するように構成したので、低ビットレート化を図ることができる効果がある。また、特性の劣化を効果的に抑制することができる効果がある。

0160

この発明によれば、音源復号化手段が記述内容が相互に異なるインデックステーブルを複数個有し、スペクトル包絡情報および音源情報の少なくともどちらか一方から所定のパラメータを抽出し、そのパラメータに対応するインデックステーブルを選択して使用するように構成したので、低ビットレート化を図ることができる効果がある。また、特性の劣化を効果的に抑制することができる効果がある。

図面の簡単な説明

0161

図1この発明の実施の形態1による音声符号化装置を示す構成図である。
図2この発明の実施の形態1による音声復号化装置を示す構成図である。
図3この発明の実施の形態1による音声符号化装置における駆動音源符号化手段の内部を示す構成図である。
図4この発明の実施の形態1による音声復号化装置における駆動音源復号化手段の内部を示す構成図である。
図5音源位置組合せテーブルを示す説明図である。
図6音源位置組合せテーブルの情報記憶方法を示す説明図である。
図7音源位置組合せテーブルの情報記憶方法を示す説明図である。
図8この発明の実施の形態2による音声符号化装置における駆動音源符号化手段の内部を示す構成図である。
図9この発明の実施の形態2による音声復号化装置における駆動音源復号化手段の内部を示す構成図である。
図10音源位置・極性組合せテーブルを示す説明図である。
図11音源位置・極性組合せテーブルの情報記憶方法を示す説明図である。
図12音源位置・極性組合せテーブルの情報記憶方法を示す説明図である。
図13この発明の実施の形態3による音声符号化装置における駆動音源符号化手段の内部を示す構成図である。
図14この発明の実施の形態3による音声復号化装置における駆動音源復号化手段の内部を示す構成図である。
図15この発明の実施の形態4による音声符号化装置における駆動音源符号化手段の内部を示す構成図である。
図16この発明の実施の形態4による音声復号化装置における駆動音源復号化手段の内部を示す構成図である。
図17従来のCELP方式を用いる音声符号化装置を示す構成図である。
図18従来のCELP方式を用いる音声復号化装置を示す構成図である。
図19音源位置テーブルを示す説明図である。
図20音源位置・極性テーブルを示す説明図である。

--

0162

21線形予測分析手段(包絡情報符号化手段)、22線形予測係数符号化手段(包絡情報符号化手段)、23適応音源符号化手段(音源符号化手段)、24駆動音源符号化手段(音源符号化手段)、25ゲイン符号化手段(音源符号化手段)、26多重化手段、31 分離手段、32線形予測係数復号化手段(包絡情報復号化手段)、33 適応音源復号化手段(音源復号化手段)、34 駆動音源復号化手段(音源復号化手段)、35ゲイン復号化手段(音源復号化手段)、36,37乗算器(音源復号化手段)、38加算器(音源復号化手段)、39合成フィルタ、41,51,71,72,81,82,91,92音源位置組合せテーブル(インデックステーブル)、42,44,64,84 代数的音源符号化手段、43,53 音源位置・極性組合せテーブル(インデックステーブル)、52,54,74,94 代数的音源復号化手段、61,62 音源位置組合せテーブル(インデックステーブル)、63,73,83,93 選択手段。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 竹本護の「 キー入力発声器」が 公開されました。( 2021/05/27)

    【課題】発声障害者がキー押し装置2において所定のキー押し操作を行ない発声装置3を発声させることによって他者に対して自身の意思や情報を伝達する。【解決手段】「キー押し操作によって自身の意思や情報をひらが... 詳細

  • 株式会社エクサウィザーズの「 撮影装置、情報処理装置、方法およびプログラム」が 公開されました。( 2021/05/27)

    【課題】診断等に用いる好適な画像を、ユーザが容易に撮影可能とする。【解決手段】本発明の一態様に係る撮影装置(1)は、撮影部(22)と、撮影装置(1)による撮影前又は撮影中の状態である撮影状態を示す撮影... 詳細

  • パナソニックIPマネジメント株式会社の「 撮像装置」が 公開されました。( 2021/05/27)

    【課題】音声を取得しながら撮像を行う撮像装置において、ユーザの意図に沿って被写体の音声を明瞭に得やすくすることができる撮像装置を提供する。【解決手段】撮像装置(100)は、被写体を撮像して画像データを... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ