図面 (/)

技術 信号合成方法および信号合成装置

出願人 パナソニック株式会社
発明者 中藤良久津島峰生則松武志
出願日 1994年10月28日 (26年2ヶ月経過) 出願番号 1994-265324
公開日 1996年5月17日 (24年7ヶ月経過) 公開番号 1996-123484
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 代表コード データ蓄積器 非線形表現 非線形変換器 パワー算出器 収録条件 統計的距離 分析周期
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1996年5月17日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

目的

帯域制限された入力信号を、入力信号の持つ周波数帯域包含する広い周波数帯域を有する広帯域信号に変換することで高音質な信号を合成する信号合成装置を提供する。

構成

帯域制限された入力信号を音響分析してスペクトル情報を抽出する音響分析器101と、学習データから狭帯域スペクトル情報を抽出する狭帯域データ処理器102と、学習データから広帯域スペクトル情報を抽出する広帯域データ処理器103と、狭帯域スペクトル情報と広帯域スペクトル情報から写像関数推定する写像関数推定器104と、入力信号のスペクトル情報を写像関数で広帯域化して広帯域化スペクトル情報に変換する広帯域化器105と、広帯域化スペクトル情報から入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する信号合成器106とを備えた構成を有する。

概要

背景

アナログ電話による通信の大部分は、NTTの管轄する公衆回線網を通して行われているが、回線物理的な制約により300Hzから3.4kHzに帯域制限されており、300Hz以下の低域部分と3.4kHz以上の高域部分が失われることによる音質劣化が起こる。そこで回線はそのままで、アナログ電話音声のみを高品質化する技術が切望されており、最近この問題に関する研究が最近始まりつつある。

例えば、Y.Cheng、D.O'Shaughnessy、P.Mermelctein:"Statical Recovery ofWide-band Speech from Narrowband Speech",Proc. ICSLP,pp.1577-1580,(1992).による方法である。この方法は、狭帯域音声のスペクトルから広帯域音声スペクトルを直接的に推定する方法であるが、処理量が多いため実用化は困難であると考えられる。

また、吉田、阿部:“コードブックマッピングによる狭帯域音声から広帯域音声復元法”,音響学講演論文集,1−8−18,pp.179-180,(1993.3).がある。この方法は狭帯域音声と広帯域音声のコードブックの対応付けを基本にしており、VQして得られた電話音声のコードに対する広帯域コードを広帯域コードブックから引き出すことで間接的に広帯域スペクトルを求め、さらにピッチでLPC合成することにより広帯域音声を得ているため、ベクトル量子化歪による合成音劣化が大きく、また処理量も比較的多い。

概要

帯域制限された入力信号を、入力信号の持つ周波数帯域包含する広い周波数帯域を有する広帯域信号に変換することで高音質な信号を合成する信号合成装置を提供する。

帯域制限された入力信号を音響分析してスペクトル情報を抽出する音響分析器101と、学習データから狭帯域スペクトル情報を抽出する狭帯域データ処理器102と、学習データから広帯域スペクトル情報を抽出する広帯域データ処理器103と、狭帯域スペクトル情報と広帯域スペクトル情報から写像関数を推定する写像関数推定器104と、入力信号のスペクトル情報を写像関数で広帯域化して広帯域化スペクトル情報に変換する広帯域化器105と、広帯域化スペクトル情報から入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する信号合成器106とを備えた構成を有する。

目的

本発明は、上記の課題を解決するもので、ある周波数帯域に帯域制限された入力信号を、入力信号の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域信号に変換し、合成することにより、通信回線により帯域制限されたアナログ電話や帯域制限された携帯電話帯域を広げ、通話品質を向上させることを可能にする信号合成方法および装置を提供することを目的とする。

また、本発明は、あらかじめ多量の学習用データから狭帯域スペクトル情報を広帯域スペクトル情報に変換する写像関数を推定しておき、これにより入力音声スペクトル包絡情報を広帯域化スペクトル情報へと直接的に変換することにより、高音質な信号が得られる、高性能でしかも簡単な構成による信号合成方法および装置を提供することを目的とする。

効果

実績

技術文献被引用数
2件
牽制数
8件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

特定の周波数帯域帯域制限された入力信号を、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換する信号合成方法であって、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を音響分析により狭帯域スペクトル情報を抽出し、また前記多量の学習用データから前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を作成し、前記広帯域信号を音響分析により広帯域スペクトル情報を抽出し、前記狭帯域スペクトル情報と前記広帯域スペクトル情報との関係を写像関数として推定しておき、前記入力信号をフレーム毎に音響分析することにより入力スペクトル情報を抽出し、前記入力スペクトル情報を前記写像関数により広帯域化した広帯域化スペクトル情報を算出し、前記算出後の広帯域化スペクトル情報から前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とする信号合成方法。

請求項2

写像関数を用いて入力信号の周波数帯域を包含する周波数帯域を有する広帯域信号を推定する方法として、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域を有する狭帯域スペクトル情報を抽出し、同時に前記狭帯域スペクトル情報を類似したスペクトル毎クラスタリングにより適当なグループ毎に分割して、前記狭帯域スペクトル情報の各グループを代表的に表現するいくつかの代表コードを持つ狭帯域符号帳を作成し、前記狭帯域スペクトル情報が前記狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定し、最も近い距離にある狭帯域スペクトル情報をその代表コードに対する狭帯域スペクトル情報とし、これを全学習用データに亘って行うことで狭帯域スペクトル情報群として蓄積し、また前記狭帯域スペクトル情報と時間的に対応づけされる広帯域スペクトル情報を前記代表コード毎に選別し、これを全学習用データに亘って行うことで広帯域スペクトル情報群として蓄積し、前記狭帯域スペクトル情報群と前記広帯域スペクトル情報群を用いて各代表コード毎の写像関数を作成し、前記入力信号のスペクトル情報を抽出し、前記スペクトル情報が前記狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定し、判定された代表コードに対応する写像関数を用いて、前記入力信号のスペクトル情報を前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とする請求項1記載の信号合成方法。

請求項3

写像関数を用いて入力信号の周波数帯域を包含する周波数帯域を有する広帯域信号を推定する方法として、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域を有する狭帯域スペクトル情報を抽出し、同時に前記狭帯域スペクトル情報を類似したスペクトル毎にクラスタリングにより適当なグループ毎に分割して、前記狭帯域スペクトル情報の各グループを代表的に表現するいくつかの代表コードを持つ狭帯域符号帳を作成し、前記狭帯域スペクトル情報が前記狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定し、最も近い距離にある狭帯域スペクトル情報をその代表コードに対する狭帯域スペクトル情報とし、これを全学習用データに亘って行うことで狭帯域スペクトル情報群として蓄積し、また前記狭帯域スペクトル情報と時間的に対応づけされる広帯域スペクトル情報を前記代表コード毎に選別し、これを全学習用データに亘って行うことで広帯域スペクトル情報群として蓄積し、前記狭帯域スペクトル情報群と前記広帯域スペクトル情報群を用いて前記代表コード毎の写像関数を作成し、前記入力信号のスペクトル情報を抽出し、前記スペクトル情報と前記狭帯域符号帳中の各代表コードとの距離計算して得られた距離を計算し、前記入力信号の狭帯域スペクトル情報を前記狭帯域符号帳中の各代表コードに対応する写像関数を用いて前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、各代表コード毎に得られた前記距離と各代表コード毎に得られた前記広帯域化スペクトル情報との重みづけ加算により、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とすることを請求項1記載の信号合成方法。

請求項4

特定の周波数帯域に帯域制限された入力信号を、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換する信号合成方法であって、あらかじめ多量の学習用データからフィルタ処理により前記入力信号の周波数帯域と同じ周波数帯域を有する狭帯域信号を作成し、前記狭帯域信号からフレーム毎に音響分析により狭帯域スペクトル情報を抽出し、また同様に前記学習用データからフィルタ処理により前記入力信号の周波数帯域を包含する周波数帯域を有する広帯域信号を作成し、前記広帯域信号からフレーム毎に音響分析して得られる広帯域スペクトル情報を抽出し、前記狭帯域スペクトル情報から各音韻毎の平均値と、各音韻毎の標準偏差とを算出しておき、前記各音韻毎の平均値と標準偏差とを用い前記狭帯域スペクトル情報がどの音韻に最も近い距離にあるかを判定し、最も近い距離にある狭帯域スペクトル情報をその音韻に対する狭帯域スペクトル情報とし、これを全学習用データに亘って行うことで狭帯域スペクトル情報群として蓄積し、また前記狭帯域スペクトル情報と時間的に対応づけされる前記広帯域スペクトル情報を用いて、各音韻毎の広帯域スペクトル情報として選別し、これを全学習用データに亘って行うことで広帯域スペクトル情報群として蓄積し、前記狭帯域スペクトル情報と前記広帯域スペクトル情報を用いて各音韻毎の写像関数を推定しておき、前記入力信号をフレーム毎に音響分析して入力スペクトル情報を抽出し、前記入力スペクトル情報が前記各音韻毎の平均値と標準偏差とを用いて、どの音韻であるかを判定し、あらかじめ設定しておいた音韻に関してのみ、前記音韻の写像関数により前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域スペクトル情報に変換し、入力信号を広帯域信号に変換することを特徴とする信号合成方法。

請求項5

入力スペクトル情報を広帯域化スペクトル情報に変換する方法として、前記入力スペクトル情報と各音韻との距離を前記各音韻毎の平均値と標準偏差とを用いて計算し、前記入力信号のスペクトル情報を前記狭帯域符号帳中の各音韻に対応する写像関数を用いて前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、各音韻毎に得られた前記距離と各音韻毎に得られた前記広帯域化スペクトル情報との重みづけ加算により、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とすることを請求項4記載の信号合成方法。

請求項6

写像関数を用いて前記入力信号の周波数帯域を包含する周波数帯域を有する広帯域信号を推定する方法として、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を音響分析して得られる狭帯域スペクトル情報をベクトル量子化して狭帯域符号帳を作成し、同様に前記多量の学習用データから前記入力信号の周波数帯域を包含する広帯域信号の広帯域スペクトル情報をベクトル量子化して広帯域符号帳を作成し、前記学習用データから得た狭帯域スペクトル情報を前記狭帯域符号帳でベクトル量子化して得られる狭帯域コード列を作成し、一方前記学習用データから得た広帯域スペクトル情報を前記広帯域符号帳でベクトル量子化して広帯域コード列を作成し、前記狭帯域コード列と前記広帯域コード列との時間対応から、各コード同士の対応の頻度を示した頻度テーブルを作成しておき、前記入力信号を音響分析して得られるスペクトル情報を前記狭帯域符号帳を用いてベクトル量子化したときの狭帯域コードに対応する広帯域コードを前記頻度テーブルから頻度の高いものから順に検索し、前記広帯域コードの表す広帯域スペクトル情報と前記頻度テーブルで与えられる頻度との重みづけ加算により、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とする請求項1記載の信号合成方法。

請求項7

特定の周波数帯域に帯域制限された入力信号と、前記入力信号から推定した前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を、周波数軸上あるいは時間軸上で重畳することにより高品質の広帯域信号を得ることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項8

特定の周波数帯域に帯域制限された入力信号を前記入力信号の周波数帯域を包含する広い周波数帯域に変換する方法として、前記入力信号の周波数帯域以外の周波数帯域に関してのみ推定を行い、前記入力信号の周波数帯域外の周波数帯域を有する帯域外信号を求め、前記入力信号と前記帯域外信号とを周波数軸上あるいは時間軸上で重畳することにより高品質の広帯域信号を得ることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項9

入力信号として音声信号を用いることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項10

写像関数として線形写像を用いることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項11

写像関数として2次変換を用いることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項12

写像関数としてニューラルネットワークを含む非線形写像を用いることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項13

クラスタリングする方法としてベクトル量子化を用いることを特徴とする請求項2または請求項3記載の信号合成方法。

請求項14

スペクトル情報として信号をフレーム毎に音響分析することにより得られるスペクトル包絡情報音源情報を用いることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項15

信号から得られるスペクトル情報として、フレーム毎にPSE分析して得られるケプストラム係数を用いることで前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を得ることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項16

信号から得られるスペクトル情報として、フレーム毎にケプストラム分析して得られるケプストラム係数を用いることで前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を得ることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項17

信号から得られるスペクトル情報として、フレーム毎にウェーブレット変換して得られる特徴量を用いることで前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を得ることを特徴とする請求項1、請求項2、請求項3、請求項4、請求項6のいずれかに記載の信号合成方法。

請求項18

特定の周波数帯域に帯域制限された入力信号を、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換する信号合成装置において、特定の周波数帯域に制限された入力信号をフレーム毎に音響分析することによりスペクトル情報を抽出する音響分析器と、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を前記音響分析器により音響分析して狭帯域スペクトル情報を抽出する狭帯域データ処理器と、また前記多量の学習用データから前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を作成し、前記広帯域信号を前記音響分析器により音響分析して広帯域スペクトル情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル情報と前記広帯域スペクトル情報との関係を写像関数として推定する写像関数推定器と、前記入力信号のスペクトル情報を前記写像関数推定器で推定した写像関数により広帯域化した広帯域化スペクトル情報を算出する広帯域化器と、前記算出後の広帯域化スペクトル情報から前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する信号合成器を備えたことを特徴とする信号合成装置。

請求項19

特定の周波数帯域に帯域制限された入力信号を、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換する信号合成装置において、特定の周波数帯域に制限された入力信号をフレーム毎に音響分析することによりスペクトル包絡情報と音源情報を抽出する音響分析器と、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を前記音響分析器により音響分析して狭帯域スペクトル包絡情報と狭帯域音源情報を抽出する狭帯域データ処理器と、また前記多量の学習用データから前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を作成し、前記広帯域信号を前記音響分析器により音響分析して広帯域スペクトル包絡情報広帯域音源情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル包絡情報と前記広帯域スペクトル包絡情報との関係を包絡写像関数として推定する包絡写像関数推定器と、前記狭帯域音源情報と前記広帯域音源情報との関係を音源写像関数として推定する音源写像関数推定器と、前記入力信号のスペクトル包絡情報を包絡写像関数推定器で推定した包絡写像関数により広帯域化した広帯域化スペクトル包絡情報を算出する包絡広帯域化器と、前記入力信号の音源情報を前記音源写像関数推定器で推定した音源写像関数により広帯域化した広帯域化音源情報を算出する音源広帯域化器と、前記算出後の広帯域化スペクトル包絡情報と広帯域化音源情報から前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する信号合成器を備えたことを特徴とする信号合成装置。

請求項20

特定の周波数帯域に帯域制限された入力音声を、前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域音声に変換する信号合成装置において、特定の周波数帯域に制限された入力音声をフレーム毎に音声分析することによりスペクトル包絡情報と音源情報を抽出する音声分析器と、あらかじめ多量の学習用音声データから前記入力音声と同じ周波数帯域の狭帯域音声を作成し、前記狭帯域音声を前記音声分析器により音声分析して狭帯域スペクトル包絡情報と狭帯域音源情報を抽出する狭帯域データ処理器と、また前記多量の学習用音声データから前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域音声を作成し、前記広帯域音声を前記音声分析器により音響分析して広帯域スペクトル包絡情報と広帯域音源情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル包絡情報と前記広帯域スペクトル包絡情報との関係をスペクトル包絡写像関数として推定する包絡写像関数推定器と、前記狭帯域音源情報と前記広帯域音源情報との関係を音源写像関数として推定する音源写像関数推定器と、前記入力音声のスペクトル包絡情報を包絡写像関数推定器で推定した包絡写像関数により広帯域化した広帯域化スペクトル包絡情報を算出する包絡広帯域化器と、前記入力音声の音源情報を前記音源写像関数推定器で推定した音源写像関数により広帯域化した広帯域化音源情報を算出する音源広帯域化器と、前記算出後の広帯域化スペクトル包絡情報と広帯域化音源情報から前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域音声を合成する音声合成器を備えたことを特徴とする信号合成装置。

請求項21

特定の周波数帯域に制限された入力音声を音声分析して得たスペクトル包絡情報から前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域なスペクトル包絡情報を推定する方法として、あらかじめ多量の学習用音声データから前記入力音声と同じ周波数帯域を有する狭帯域スペクトル包絡情報を抽出する狭帯域データ処理器と、前記多量の学習用音声データから前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域スペクトル包絡情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル包絡情報を類似したスペクトル包絡毎にクラスタリングして適当なグループ毎に分割し、前記狭帯域スペクトル包絡情報を代表的に表現するいくつかの代表コードを持つ狭帯域符号帳を作成する狭帯域符号帳作成器と、前記狭帯域スペクトル包絡情報が前記狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定し、それぞれの代表コードに対して最も近い距離にある狭帯域スペクトル包絡情報を各代表コード毎に全学習用データに亘って蓄積し、狭帯域スペクトル包絡情報群を作成する狭帯域データ蓄積器と、また前記狭帯域スペクトル包絡情報群中の狭帯域スペクトル包絡情報と時間的に対応づけされる広帯域スペクトル包絡情報を各代表コード毎に全学習用データに亘って蓄積し、広帯域スペクトル包絡情報群を作成する広帯域データ蓄積器と、前記狭帯域スペクトル包絡情報群と前記広帯域スペクトル包絡情報群とを用いて各代表コード毎の写像関数を推定する写像関数推定器と、前記入力音声のスペクトル包絡情報が前記狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定するコード判定器と、前記入力音声のスペクトル包絡情報が最も近い距離にあると判定された代表コードに対応する写像関数を用いて、前記入力音声のスペクトル包絡情報を前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル包絡情報に変換する包絡広帯域化器とを備えたことを特徴とする請求項20記載の信号合成装置。

請求項22

特定の周波数帯域に制限された入力音声を音響分析して得たスペクトル包絡情報から前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域なスペクトル包絡情報を推定する方法として、あらかじめ多量の学習用音声データから前記入力音声と同じ周波数帯域を有する狭帯域スペクトル包絡情報を抽出する狭帯域データ処理器と、前記多量の学習用音声データから前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域スペクトル包絡情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル包絡情報を類似したスペクトル包絡毎にクラスタリングして適当なグループ毎に分割し、前記狭帯域スペクトル包絡情報を代表的に表現するいくつかの代表コードを持つ狭帯域符号帳を作成する狭帯域符号帳作成器と、前記狭帯域スペクトル包絡情報が前記狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定するコード判定器と、前記コード判定器においてそれぞれの代表コードに対して最も近い距離にある狭帯域スペクトル包絡情報を各代表コード毎に全学習用データに亘って蓄積し、狭帯域スペクトル包絡情報群を作成する狭帯域データ蓄積器と、また前記狭帯域スペクトル包絡情報群中の狭帯域スペクトル包絡情報と時間的に対応づけされる広帯域スペクトル包絡情報を各代表コード毎に全学習用データに亘って蓄積し、広帯域スペクトル包絡情報群を作成する広帯域データ蓄積器と、前記広帯域データ蓄積器により得られた前記狭帯域スペクトル包絡情報群と前記広帯域スペクトル包絡情報群とを用いて各代表コード毎の写像関数を推定する写像関数推定器と、前記入力音声のスペクトル包絡情報と前記狭帯域符号帳中の各代表コードとの距離を計算して距離値を計算する距離計算器と、前記入力音声のスペクトル包絡情報を前記狭帯域符号帳中の各代表コードに対応する写像関数を用いて前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル包絡情報に変換する包絡広帯域化器と、さらに各代表コード毎に前記距離計算器により得られた前記距離値と各代表コード毎に前記包絡広帯域化器により得られた前記広帯域化スペクトル包絡情報との重みづけ加算により広帯域化スペクトル包絡情報に変換する重みづけ加算器とを備えたことを特徴とする請求項20記載の信号合成装置。

請求項23

特定の周波数帯域に帯域制限された入力音声を、前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域音声に変換する信号合成装置において、あらかじめ多量の学習用データからフィルタ処理により前記入力音声の周波数帯域と同じ周波数帯域を有する狭帯域音声を作成し、前記狭帯域音声からフレーム毎に音声分析により狭帯域スペクトル包絡情報を抽出する狭帯域データ処理器と、同様に前記学習用データからフィルタ処理により前記入力信号の周波数帯域を包含する周波数帯域を有する広帯域信号を作成し、前記広帯域信号からフレーム毎に音声分析して得られる広帯域スペクトル包絡情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル包絡情報から各音韻毎の平均値と、各音韻毎の標準偏差とを算出する音韻標準パターン作成器と、前記各音韻毎の平均値と標準偏差とを用い前記狭帯域スペクトル情報がどの音韻に最も近い距離にあるかを判定し、最も近い距離にある狭帯域スペクトル情報をその音韻に対する狭帯域スペクトル情報とし、これを全学習用データに亘って選別し、狭帯域スペクトル情報群として蓄積する狭帯域データ蓄積器と、また前記狭帯域スペクトル情報と時間的に対応づけされる前記広帯域スペクトル情報を用いて、各音韻毎の広帯域スペクトル情報を選別し、これを全学習用データに亘って行うことで広帯域スペクトル情報群として蓄積する広帯域データ蓄積器と、前記狭帯域スペクトル情報群と前記広帯域スペクトル情報群を用いて各音韻毎の写像関数を推定する写像関数推定器と、前記入力信号をフレーム毎に音声分析して入力スペクトル包絡情報を抽出し、前記各音韻毎の平均値と標準偏差とを用いて、前記入力スペクトル情報と前記各音韻との距離を計算する距離計算器と、さらに前記入力信号のスペクトル情報を各音韻に対応する写像関数を用いて前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換し、各音韻毎に得られた前記距離と各音韻毎に得られた前記広帯域化スペクトル情報との重みづけ加算により、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化スペクトル情報に変換する広帯域化器と、前記広帯域化スペクトル情報を用いて前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とする請求項20記載の信号合成装置。

請求項24

写像関数として線形写像を用いることを特徴とする請求項20、請求項21、請求項22、請求項23のいずれかに記載の信号合成装置。

請求項25

写像関数として2次変換を用いることを特徴とする請求項20、請求項21、請求項22、請求項23のいずれかに記載の信号合成装置。

請求項26

写像関数としてニューラルネットワークを含む非線形変換を用いることを特徴とする請求項20、請求項21、請求項22、請求項23のいずれかに記載の信号合成装置。

請求項27

写像関数としてコードブック写像を用いることを特徴とする請求項20、請求項21、請求項22、請求項23のいずれかに記載の信号合成装置。

請求項28

特定の周波数帯域に制限された入力音声を音声分析して得たスペクトル包絡情報から前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域なスペクトル包絡情報を推定する方法として、あらかじめ多量の学習用音声データから前記入力音声と同じ周波数帯域を有する狭帯域スペクトル包絡情報を抽出する狭帯域データ処理器と、前記多量の学習用音声データから前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域スペクトル包絡情報を抽出する広帯域データ処理器と、前記狭帯域データ処理器から得られる狭帯域スペクトル包絡情報をベクトル量子化して狭帯域符号帳を作成する狭帯域符号帳作成器と、同様に前記広帯域データ処理器から得られる前記広帯域スペクトル包絡情報をベクトル量子化して広帯域符号帳を作成する広帯域符号帳作成器と、前記学習用音声データから同一時刻に得られた狭帯域スペクトル包絡情報と広帯域スペクトル包絡情報とをそれぞれ前記狭帯域符号帳と前記広帯域符号帳とでベクトル量子化して狭帯域コードおよび広帯域コードを求めるベクトル量子化器と、前記狭帯域コードおよび広帯域コードの対応頻度を全学習音声データについて抽出し、各符号同士の対応の頻度を示した頻度テーブルを作成する頻度テーブル作成器と、前記入力音声のスペクトル包絡情報を前記狭帯域符号帳を用いてベクトル量子化したときのコードに対応する広帯域コードを前記頻度テーブルから頻度の高いものから順に検索するコード検索器と、前記広帯域コードの持つスペクトル包絡情報と前記頻度テーブルで与えられる頻度との重みづけ加算を頻度の高いものから適当な個数分行い、広帯域化スペクトル包絡情報を回復する重みづけ加算器とを備えたことを特徴とする請求項20記載の信号合成装置。

請求項29

特定の周波数帯域に帯域制限された入力音声と、前記入力音声から推定した前記入力音声の周波数帯域を包含する広い周波数帯域を有する広帯域音声を、周波数軸上あるいは時間軸上で重畳することにより高品質の広帯域音声を得ることを特徴とする請求項20、請求項21、請求項22、請求項23、請求項28のいずれかに記載の信号合成装置。

請求項30

特定の周波数帯域に帯域制限された入力音声を前記入力音声の周波数帯域を包含する広い周波数帯域に変換する方法として、前記入力音声の周波数帯域以外の周波数帯域に関してのみ推定を行い、前記入力音声と前記帯域外音声とを周波数軸上あるいは時間軸上で重畳することにより高品質の広帯域音声を得ることを特徴とする請求項20、請求項21、請求項22、請求項23、請求項28のいずれかに記載の信号合成装置。

請求項31

スペクトル包絡情報として、フレーム毎にLPC分析することで得られる線形予測係数を用いることで入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音声を得ることを特徴とする請求項20、請求項21、請求項22、請求項23、請求項28のいずれかに記載の信号合成装置。

請求項32

スペクトル包絡情報として、フレーム毎にLPC分析することで得られるPARCOR係数を用いることで前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音声を得ることを特徴とする請求項20、請求項21、請求項22、請求項23、請求項28のいずれかに記載の信号合成装置。

請求項33

スペクトル包絡情報として、フレーム毎にLPC分析して得られるLSP係数を用いることで前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音声を得ることを特徴とする請求項20、請求項21、請求項22、請求項23、請求項28のいずれかに記載の信号合成装置。

請求項34

特定の周波数帯域に制限された入力信号から得られる音源情報を非線形に歪ませる非線形変換器と、前記入力信号の音源情報を前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音源情報へ変換する音源広帯域化器とを備えたことを特徴とする請求項19または請求項20記載の信号合成装置。

請求項35

入力信号を前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号へと変換するため、音源情報を非線形に歪ませて変換する方法として、あらかじめ多量の学習用データから前記入力信号の周波数帯域と同じ周波数帯域を有する狭帯域音声から狭帯域音源情報を抽出する狭帯域音源抽出器と、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音声から広帯域音源情報を抽出する広帯域音源抽出器と、前記狭帯域音源情報を代表的に表現するいくつかの狭帯域音源コードを求める狭帯域音源符号帳作成器と、前記広帯域音源情報を代表的に表現するいくつかの広帯域音源コードを求める広帯域音源符号帳作成器と、前記狭帯域音源コードと前記広帯域音源コードとの対応関係を音源写像関数としてあらかじめ学習させる音源写像関数推定器と、前記入力信号から抽出した音源情報を前記狭帯域音源符号帳で量子化し、得られたコード番号から前記音源写像関数を用いて広帯域音源符号帳の中から広帯域音源コードを検索する音源コード検索器と、前記広帯域音源コードにより前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域化音源情報へと変換する音源広帯域化器を備えたことを特徴とする請求項19または請求項20記載の信号合成装置。

請求項36

音源写像関数としてコードブック写像を用いることを特徴とする請求項35記載の信号合成装置。

請求項37

特定の周波数帯域に制限された入力信号から得られる音源情報として、フレーム毎のピッチおよびパワーを用い、前記ピッチおよび前記パワーを抽出するピッチ抽出器およびパワー算出器を有し、前記入力信号の音源情報を前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音源情報へ変換する音声ことを特徴とする請求項19、請求項20、請求項34、請求項35のいずれかに記載の信号合成装置。

請求項38

入力信号を前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号へと変換するため、音源情報を非線形に歪ませて変換する方法として、前記音源情報から得られたマルチパルス列を用いる信号合成装置であって、あらかじめ多量の学習用データから前記入力信号の周波数帯域と同じ周波数帯域を有する狭帯域音声から狭帯域マルチパルス列を抽出する狭帯域音源抽出器と、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音声から広帯域マルチパルス列を抽出する広帯域音源抽出器と、前記狭帯域マルチパルス列と前記広帯域マルチパルス列との対応関係を音源写像関数としてあらかじめ学習させる音源写像関数推定器と、前記入力信号から抽出したマルチパルス列を前記音源写像関数を用いて広帯域マルチパルス列に変換するパルス列変換器と、前記パルス列変換器で得られた前記広帯域マルチパルス列を用いて、入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域音声を合成する音声合成器を備えたことを特徴とする請求項19、請求項20、請求項34、請求項35のいずれかに記載の信号合成装置。

技術分野

0001

本発明は、ある周波数帯域帯域制限された入力信号を、入力信号の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域信号に変換することで高音質な信号を合成する信号合成方法および装置に関する。

背景技術

0002

アナログ電話による通信の大部分は、NTTの管轄する公衆回線網を通して行われているが、回線物理的な制約により300Hzから3.4kHzに帯域制限されており、300Hz以下の低域部分と3.4kHz以上の高域部分が失われることによる音質劣化が起こる。そこで回線はそのままで、アナログ電話音声のみを高品質化する技術が切望されており、最近この問題に関する研究が最近始まりつつある。

0003

例えば、Y.Cheng、D.O'Shaughnessy、P.Mermelctein:"Statical Recovery ofWide-band Speech from Narrowband Speech",Proc. ICSLP,pp.1577-1580,(1992).による方法である。この方法は、狭帯域音声のスペクトルから広帯域音声スペクトルを直接的に推定する方法であるが、処理量が多いため実用化は困難であると考えられる。

0004

また、吉田、阿部:“コードブックマッピングによる狭帯域音声から広帯域音声復元法”,音響学講演論文集,1−8−18,pp.179-180,(1993.3).がある。この方法は狭帯域音声と広帯域音声のコードブックの対応付けを基本にしており、VQして得られた電話音声のコードに対する広帯域コードを広帯域コードブックから引き出すことで間接的に広帯域スペクトルを求め、さらにピッチでLPC合成することにより広帯域音声を得ているため、ベクトル量子化歪による合成音劣化が大きく、また処理量も比較的多い。

発明が解決しようとする課題

0005

上記したように、上述した高品質化技術のうち、前者の方法では、処理量が大きいため実用化は困難であると考えられる。また、後者の方法では、ベクトル量子化歪による合成音の劣化が大きく、また処理量も比較的多い。

0006

本発明は、上記の課題を解決するもので、ある周波数帯域に帯域制限された入力信号を、入力信号の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域信号に変換し、合成することにより、通信回線により帯域制限されたアナログ電話や帯域制限された携帯電話帯域を広げ、通話品質を向上させることを可能にする信号合成方法および装置を提供することを目的とする。

0007

また、本発明は、あらかじめ多量の学習用データから狭帯域スペクトル情報を広帯域スペクトル情報に変換する写像関数を推定しておき、これにより入力音声スペクトル包絡情報広帯域化スペクトル情報へと直接的に変換することにより、高音質な信号が得られる、高性能でしかも簡単な構成による信号合成方法および装置を提供することを目的とする。

課題を解決するための手段

0008

上記目的を達成するために、本発明の信号合成方法は、特定の周波数帯域に帯域制限された入力信号を、前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換する信号合成方法であって、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を音響分析により狭帯域スペクトル情報を抽出し、また前記多量の学習用データから前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を作成し、前記広帯域信号を音響分析により広帯域スペクトル情報を抽出し、前記狭帯域スペクトル情報と前記広帯域スペクトル情報との関係を写像関数として推定しておき、前記入力信号をフレーム毎に音響分析することにより入力スペクトル情報を抽出し、前記入力スペクトル情報を前記写像関数により広帯域化した広帯域化スペクトル情報を算出し、前記算出後の広帯域化スペクトル情報から前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成することを特徴とするものである。

0009

また、上記目的を達成するために、本発明の信号合成装置は、ある特定の周波数帯域に制限された入力信号をフレーム毎に音響分析することによりスペクトル情報を抽出する音響分析器と、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を前記音響分析器により音響分析して狭帯域スペクトル情報を抽出する狭帯域データ処理器と、また前記多量の学習用データから前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を作成し、前記広帯域信号を前記音響分析器により音響分析して広帯域スペクトル情報を抽出する広帯域データ処理器と、前記狭帯域スペクトル情報と前記広帯域スペクトル情報との関係を写像関数として推定する写像関数推定器と、前記入力信号のスペクトル情報を前記写像関数推定器で推定した写像関数により広帯域化した広帯域化スペクトル情報を算出する広帯域化器と、前記算出後の広帯域化スペクトル情報から前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する信号合成器を備えたものである。

0010

本発明は、上記した構成により、ある周波数帯域に帯域制限された入力信号を、入力信号の持つ周波数帯域を包含する広い周波数帯域を有する広帯域信号に変換するため、あらかじめ多量の学習用データから狭帯域スペクトル情報を広帯域スペクトル情報へと変換する写像関数を推定しておき、これにより入力音声のスペクトル包絡情報を広帯域化スペクトル情報へと変換しているので、高音質な信号が得られ、しかも高性能で簡単な構成による帯域制限された信号の広帯域化が可能となる。

0011

携帯電話をはじめとする通信端末の高度化が進み、その際通話品質の議論が盛んになされている。電話は多くの人にとって、なくてはならない重要な通信手段であり、その品質を向上させることは非常に重要な研究課題である。

0012

本発明の信号合成方法および装置は、回線特性のため劣化したアナログ電話音声を広帯域化することによる高音質化のみならず、ビットレートの制限のために帯域制限されたディジタル信号の広帯域化をも実現する信号合成方法および信号合成装置である。たとえば、携帯電話をはじめとするディジタル無線電話では、アナログ電話に比較して0.3〜3.4kHzの電話帯域音声の品質はある程度保持できるものの、ビットレートの制限のため3.4kHz以上の高域部分は伝達されないという原理的な制約がある。本発明は、この帯域制限された信号をもとの広帯域な信号に戻すための方法と装置を提供するものである。以下、帯域制限された音声を広帯域化する本発明の第1の実施例について説明する。

0013

図1は本発明の第1の実施例の全体構成を示すブロック構成図である。図1において、101は信号をフレーム毎に音響分析してスペクトル情報を抽出する音響分析器で、例えばフレーム毎にPSE分析して得られるケプストラム係数を算出する。また、フレーム毎にケプストラム分析して得られるケプストラム係数や、或いはフレーム毎にウェーブレット変換して得られる係数などを用いても、信号の周波数軸上の特性を表現している特徴量であることには代わりないので、使用しても何等差し支えない。また、これらの係数を求める方法はすでに公知であり、例えば、PSE分析に関しては、中島、鈴木:“パワースペクトル包絡(PSE)音声分析・合成系”,日本音学会誌,44巻、11号,pp.824-832,(1988)に詳しく記載されており、またケプストラム分析に関しては、L.R.RabinerとR.W.Schaferの共著、鈴木久喜訳の、”音声のディジタル信号処理(上)(下)”、コロナ社、に記載されている。ウェーブレット変換に関しては、河原:“ウェーブレット解析聴覚研究への応用”,日本音響学会誌,47巻、6号,pp.424-429,(1991)、に記載されている。

0014

102は、あらかじめ多量の学習用データからフィルタ処理により狭帯域信号を作成し、音響分析器101により狭帯域スペクトル情報を抽出する狭帯域データ処理器である。ここで言うフィルタ処理とは、広帯域化しようとしている入力音声が何らかの帯域制限を受けた際の伝送特性フィルタ等に相当するフィルタ特性を学習データに与えるための処理のことである。

0015

103は、学習用データから理想的なスペクトル特性を持つ広帯域スペクトル情報を抽出するための広帯域データ処理器である。学習用データとしては例えば、ある標準話者1名の様々に発声した音声を用いてもよいし、さらに、複数の話者のデータを用いることで、話者の発声の変動に強い写像関数を作成する時に有用である。

0016

104は、狭帯域スペクトル情報と広帯域スペクトル情報との関係を写像関数として推定する写像関数推定器であり、推定する写像関数として、本実施例では線形写像によるスペクトル変換を行う。さらに、線形写像以外に2次変換や、ニューラルネットワークなどの非線形変換を用いても、狭帯域スペクトルから広帯域スペクトルを直接的に変換している点では同じなので何等差し支えない。2次変換に関しては、F.Class、A.Kaltenmeier、P.Regel、and K.Trottler:"Fast speaker adaptation for speech recognition systems",Proc.IEEEICASSP,pp.133-136,(Apr.1990)に記載されており、またニューラルネットワークによる変換は、磯、生、吉田、渡辺:”ニューラルネットワークによる話者適応”、音響学会講演論文集,1−6−16,(1989.3)に記載されている。

0017

次に105は、入力信号のスペクトル情報を音響分析器101により抽出し、このスペクトル情報を写像関数で直接的に広帯域化して広帯域化スペクトル情報に変換する広帯域化器であり、さらに106はこの広帯域化スペクトル情報から入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する信号合成器である。

0018

以下、本発明の第1の実施例について、図1のブロック構成図を参照しながら詳細に説明する。ここでは音響信号として、音声データを用いる。勿論、音声以外の音響信号、たとえば音楽画像信号なども使用できる。まず、音声が電話回線やあるいは帯域制限フィルタなどを通ってから音響分析器101に入力されると、音響分析器101ではフレームiでのM次のPSEケプストラム係数Ci(M)が抽出される。一定の時間間隔は、ここでは例えばサンプリング周波数を8KHz(帯域幅4KHz)としたとき、160点(20ms)であり、この時間単位をフレームと呼ぶ。一方、広帯域化後の広帯域信号では、サンプリング周波数を16KHz(帯域幅8KHz)として、320点(20ms)とすれば良い。

0019

一方、狭帯域データ処理器102では、あらかじめ用意した多数の学習用音声データをフィルタ処理して狭帯域信号を作成する。フィルタとしては、たとえば電話回線の特性を模擬したものや、ディジタル化の際に使用する低域通過フィルタ等を模擬したものを使用する。この処理により、入力音声と学習用音声を同じ環境で得た共通のデータとして扱うことが可能になる。さらにこの狭帯域信号から前述の音響分析器101により狭帯域スペクトル情報を抽出する。また、広帯域データ処理器103は前述の多数の学習用データをフィルタ処理しないで、最も理想的な信号すなわち広帯域信号を作成し、この広帯域信号から音響分析器101により広帯域スペクトル情報を抽出する部分である。以上の処理手順図2に示す。

0020

次に、写像関数推定器104では、狭帯域スペクトル情報と広帯域スペクトル情報との関係を写像関数として推定する。本実施例では写像関数として線形写像を用い、狭帯域スペクトル情報から広帯域スペクトル情報へスペクトル変換を行う。具体的には、写像関数{A} の推定には、入力されたスペクトル情報xiの変換後の広帯域化スペクトル情報ziと目標となる広帯域スペクトル情報yiとの間の差の二乗誤差を最小化することで推定する。すなわち、全学習データの全フレームにおける(数1)で与えられる目的関数を最小化することで求められる。

0021

0022

ただし、{A} はM×M次元マトリックスであり、yiとziはM次元のベクトルである。

0023

この推定で用いる広帯域スペクトル情報と狭帯域スペクトル情報は同じ学習音声データから求めているので、フレーム毎に完全に一対一に対応づけすることができ、いわゆる話者適応などで用いられる教師ありの学習よりもさらに強力な対応付けといえる。

0024

次に105は、iフレーム目の入力信号のスペクトル情報xi を音響分析器101により抽出し、写像関数{A}で広帯域化スペクトル情報zi に変換する広帯域化器である。具体的には、(数2)により変換を行う。

0025

0026

最後に、音声合成器106において、広帯域化スペクトル情報から広帯域信号をPSE合成により音声合成する。

0027

以上のように、本実施例の構成によれば、比較的簡単な構成で、帯域制限された入力信号を、広い周波数帯域を有する広帯域信号に正確に変換することができる信号合成装置を提供することができる。

0028

次に、本発明の第2の実施例について説明する。図3は本実施例の全体構成を示すブロック構成図である。本実施例は、第1の実施例よりさらに高性能な装置例である。本実施例が第1の実施例と大きく異なる部分、すなわち本実施例において最も重要な部分は、入力信号のスペクトル情報をいくつかの部分空間選別し、それぞれ区分化した複数の部分空間毎に直接的に写像を行う部分であり、より精密なスペクトル写像が実現できることにある。ここでも写像関数としては、線形写像、2時変換、あるいはニューラルネットワークなどの非線形変換のいずれを用いても差し支えない。また、他のスペクトルの変換方法として、クラスタリング処理によりいくつかのコードに離散化された符号帳を用いて、狭帯域コードから広帯域コードへと写像する方法があり、コードの頻度とスペクトルとの重ね合わせを用いることでより正確なスペクトル変換が可能となる方法も考えられる。本実施例においては、写像関数として線形写像を用いることにする。

0029

以下、本発明の第2の実施例について、図3のブロック構成図を参照しながら詳細に説明する。図3において、201は信号をフレーム毎に、例えばPSE分析等をして得られるスペクトル情報を抽出する音響分析器である。狭帯域データ処理器202および広帯域データ処理器203の構成は第1の実施例と同様である。204は、狭帯域データ処理器202で得られた狭帯域スペクトル情報を類似したスペクトルのグループクラスタリングし、各グループを代表的に表現するいくつかの代表コードを持つ狭帯域符号帳を作成する狭帯域符号帳作成器である。この代表コードにより、スペクトル情報をコード数個の部分空間に区分化する。クラスタリング方法としては、代表的なものとしてベクトル量子化法があり、多量のデータ(母集団)の特徴を少ないデータで効率的に表現することが可能となる。

0030

以下、本実施例ではクラスタリングのアルゴリズムとしてベクトル量子化法を用いることとする。また符号帳を作成する方法としては、LindeらのLBGアルゴリズム (Y.Linde, A.buzo and R.M.Gray :"An algorithm for vector quantizer design",IEEE Trans.Commun.,COM-28,1,pp.84-95(Jan.1980))が代表的な手法としてある。また別のクラスタリング方法としては、音声をいくつかの音韻毎にグループ分けして、各音韻毎のスペクトル情報の平均値標準偏差を求めておき、各音韻に対応する写像関数により広帯域化することも可能である。この時グループ分けの際に用いる距離尺度としては、音韻毎の平均値と標準偏差を用いた統計的距離、たとえばマハラノビス距離対数尤度などが有効である。そして、広帯域化の際には、音韻毎の写像関数により変換を行うことで、各音韻のスペクトル特徴に基づいた変換が可能となる。このように、音声データ中の話者の特徴空間スペクトル空間)を効率的に表現している方法であれば、いかなる手法を用いても差し支えない。

0031

205は、狭帯域データ処理器202で得られた狭帯域スペクトル情報が狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定し、最も近い距離にある狭帯域スペクトル情報をその代表コードに対する狭帯域スペクトル情報とし、これを全学習用データに亘って行うことで狭帯域スペクトル情報群を作成する狭帯域データ蓄積器である。実際に、ベクトル量子化により狭帯域スペクトル情報群を作成する際には、まずjフレーム目の狭帯域スペクトル情報xjに対するk番目のコードVk(コード数L)に対する量子化歪Djkは、(数3)で計算される。

0032

0033

ただし、xj、VkはM次元のベクトル(M次元の特徴量)である。そして、この歪が最も小さいコードがjフレーム目の狭帯域スペクトル情報に対するコードになる。この狭帯域スペクトル情報とコードとの対応関係を全ての学習データについて調べ、各コード毎の狭帯域スペクトル情報群を作成する。さらに206は、すでに明かな狭帯域スペクトル情報と広帯域スペクトル情報との時間対応関係から、この狭帯域スペクトル情報とコードとの対応関係を全ての学習データについて調べ、各コード毎の広帯域スペクトル情報群を作成する広帯域データ蓄積器である。

0034

207は、この狭帯域スペクトル情報群と広帯域スペクトル情報群とを用いて写像関数を推定する写像関数推定器である。図4に、写像関数として線形写像を用いた場合の、写像関数の推定方法を示す。以下、その具体的な手順を[ステップ1]〜[ステップ5]に示す。
[ステップ1]学習用音声データから得られた広帯域信号と狭帯域信号から、それぞれのスペクトル情報を音響分析器により抽出する。
[ステップ2]LBGアルゴリズムにより、[ステップ1]で求めた狭帯域スペクトルから狭帯域符号帳を作成する。ここでは距離尺度としてユークリッド距離を用いるが、絶対値距離や他の歪尺度など種々考えられ、入力信号の特徴量が狭帯域符号帳中のどのコードに対応するかを決定する意味ではどのような距離尺度を用いても差し支えない。
[ステップ3]狭帯域スペクトル情報を狭帯域符号帳によりベクトル量子化して対応するコードを検索し、各コード(各部分空間代表点)に対応する狭帯域スペクトル情報を蓄積し、部分空間毎の狭帯域スペクトル情報群(クラスタ)を作成する。
[ステップ4]狭帯域スペクトル情報と広帯域スペクトル情報の時間対応をとることにより、各コードに対応する広帯域スペクトル情報を蓄積し、広帯域スペクトル情報群を求める。
[ステップ5]各クラスタ毎(部分空間毎)の広帯域スペクトル情報と狭帯域スペクトル情報との組を教師データとして、写像関数を推定する。

0035

具体的には、例えばk番目のコードに対応する写像関数{Ak} の推定は、入力信号のスペクトル情報の変換後のスペクトル情報、すなわち広帯域化スペクトル情報ziと目標となる広帯域スペクトル情報yiとの間の差の二乗誤差を最小化することにより推定される。具体的には、全学習データの全フレームに関する目的関数、(数4)により求められる。

0036

0037

ただし、{Ak} はM×M次元のマトリックスであり、{yi}と{zi}はM次元のベクトルである。

0038

この推定で用いる広帯域スペクトル情報と狭帯域スペクトル情報は同じ学習音声データから求めているので、フレーム毎に完全に一対一に対応づけすることができる。この推定方法は、いわゆる話者適応などで用いられる教師ありの学習よりもさらに強力な対応付けといえる。この(数4)を解くと写像関数{Ak} は(数5)のように与えられる。

0039

0040

ただし、Rのs行t列の小行列をRstとすると、RstとBmはそれぞれ(数6)、(数7)で与えられる。

0041

0042

0043

次に208は、入力信号のスペクトル情報を音響分析器201により抽出し、このスペクトル情報が狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定するコード判定器である。具体的な処理は、狭帯域データ蓄積器205の中で行っている、狭帯域スペクトル情報に最も近い狭帯域符号帳中の代表コードを判定する手続きと同様である。そして209は、コード判定器208で得られたコードに対応する写像関数で、入力信号のスペクトル情報を広帯域化する広帯域化器である。具体的には、狭帯域スペクトルxi を広帯域スペクトルzi へと変換する方法として、スペクトル空間をM個の部分空間{Ωk} に分割し、各部分空間毎にあらかじめ推定しておいた変換行列Ak により線形写像を行い、更にそれらを(数9)のような重み係数wikで補間した(数8)により広帯域化を行う。

0044

0045

0046

ここで、部分空間{Ωk}はベクトル量子化符号帳の代表点{Vk} との最小距離分類され、またpは内挿平滑度を制御するパラメータである。また、上記の説明でスペクトル空間をM個の代表点でファジィ区分化したと考えれば、内挿パラメータpはファジネスと(数10)の関係がある。

0047

0048

このように、各部分空間毎の線形写像で変換したスペクトル情報を重み係数で補間すなわち内挿することで、より精密な変換あるいは広帯域化が行える。ここで、重み係数で補間せずに、入力信号のスペクトル情報を最も近い部分空間の写像関数で変換してもよい。さらに部分空間数が1の場合には、第1の実施例の場合と全く同じになる。

0049

210は、この広帯域化スペクトル情報を用いて入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号をPSE合成により合成する音声合成器である。

0050

このように、帯域制限された信号のスペクトル情報(狭帯域スペクトル)から元の信号のスペクトル情報(広帯域スペクトル)を推定することを考えるとき、音声ならば音韻や個人差などに相当する個々のスペクトルの持つ特徴を踏まえて、いくつかのグループ毎にスペクトル変換を施せば、誤差の少ない正確な変換が可能になると考えられる。

0051

ここで以下に、本方式におけるスペクトル情報の広帯域化の手順を示す。
[ステップ1]帯域制限された信号(狭帯域信号)を音響分析し、スペクトル情報を抽出する。
[ステップ2]入力のスペクトル情報を、あらかじめ求めておいた狭帯域符号帳によりベクトル量子化し、どの空間に属すスペクトル情報であるか(対応コード)を求める。
[ステップ3]学習用音声を用いてあらかじめ作成しておいた写像関数の中で、[ステップ2]で得られた対応コードに対応する写像関数により入力スペクトル情報を変換し、広帯域化スペクトル情報を求める。
[ステップ4]広帯域化スペクトル包絡から合成により広帯域信号を得る。

0052

以下に、実際に本実施例によりコンピュータシミュレーション実験した結果を示す。写像関数としては、線形写像を用いて実験している。音声データは、東北大音声データベース中男性10名と女性10名が発声した212単語の単語音声であり、同一話者内の10〜100番目の100単語をの推定に用い、それ以外の101〜130番目の30単語を評価に用いることとする。収録条件としては、防音室で1インチマイクロフォン収録後、80Hzの遮断周波数を持つハイパスフィルタと9kHzの遮断周波数を持つローパスフィルターに通した後、サンプリング周波数24kHzでA/D変換され、12bitに量子化されている。本実験では、元の音声データベース(24kHzサンプリング)をフィルタリング処理して狭帯域音声(帯域幅0.3〜3.4kHz、8kHzサンプリング)および広帯域音声(帯域幅0.05〜7.4kHz、16kHzサンプリング)をそれぞれ作成して実験に使用している。また、スペクトル情報としては線形予測分析により得られる15次のLPCケプストラム係数を用いた。この係数は、スペクトルの包絡情報を表現している。音声の分析条件は1−0.98z-1の固定プリエンファシスを施し、20msのハミング窓にて10msのフレーム周期で係数を抽出している。本報告では、分析窓分析周期等の条件は狭帯域・広帯域音声とも共通とし、分析次数等が異なることによる影響をできるだけ排除した。また入力スペクトル情報が、どの部分空間に属しているかを判定するために用いる狭帯域符号帳は、LBGアルゴリズムにより求めた。

0053

最初に、内挿パラメータの値をp=∞、すなわち内挿を行わないとき(最小距離分類による空間分割)の部分空間数Mとスペクトル距離との関係を、学習単語数Nをいろいろ変えて調べた。図5が男性10名の場合、図6が女性10名の場合の平均スペクトル距離であり、それぞれ学習単語数が10、30、50、100単語の場合を示している。それぞれの図において、横軸は部分空間数を表し、縦軸は平均スペクトル距離[dB]を示している。この結果、とも同じような傾向を示しており、部分空間数を増加させるにしたがってスペクトル歪は減少し、ある部分空間数において最小値を取ることが伺える。学習単語数毎の最適な部分空間数は、N=10、30、50、100のとき、それぞれM=2、8、8、16となり、本手法の有効性が確認できた。結局、N=100、M=16の場合の平均スペクトル距離は、男性平均で3.81dB、女性平均で3.59dBとなり、空間分割しない場合(M=1)と比較してそれぞれ0.62dB、0.47dB向上している。

0054

次に、学習単語数をN=100として、部分空間数を固定したときの内挿パラメータの効果を調べた。図7は男性10名の、また図8は女性10名の内挿パラメータと平均スペクトル距離との関係を示したものである。それぞれの図において、横軸が内挿パラメータの値を、縦軸が平均スペクトル距離を示している。その結果、各部分空間毎の内挿パラメータの最適値が存在し、M=2、4、8、16、32のときはそれぞれp=2.0、2.0、2.0、0.2、0.5となり、内挿しない場合(Inf)に比較して約0.1dB程度向上している。結局、N=100、M=16、p=0.2 の場合に平均スペクトル距離が最小となり、男性平均で3.72dB、女性平均で3.49dBとなり、内挿しないときと比較してそれぞれ0.09dB、0.10dB向上している。よってスペクトル距離を最小にする条件は、(N、M、p)=(100、16、0.2) の場合となる。

0055

以上のように、本実施例の構成によれば、帯域制限された入力信号を広い周波数帯域を有する広帯域信号に正確に変換することができる信号合成装置を提供することができる。

0056

次に、本発明の第3の実施例について説明する。図9は本実施例の全体構成を示すブロック構成図である。本実施例には、第1の実施例、第2の実施例と共通する部分は多いが、本実施例が第1、第2の実施例と大きく異なる部分は、入力信号のスペクトル情報として、LPC分析(線形予測分析)により得られる情報、すなわちスペクトル包絡情報と音源情報であり、これらを別々に広帯域化するところにある。ここでスペクトル包絡情報としては、例えば線形予測係数PARCOR係数反射係数LSP係数、LPCケプストラム係数、LPCメルケプストラム係数等が考えられる。例えば線形予測係数、PARCOR係数、反射係数、LPCケプストラム係数、LPCメルケプストラム係数などの特徴量に関しては、L.R.RabinerとR.W.Schaferの共著、鈴木久喜訳の、”音声のディジタル信号処理(上)(下)”、コロナ社、に詳しく記載されている。またLSP係数に関しては、F.K.Soong,B.H.Juang:"Line Spectrum Pair(LSP) and Speech Data Compression",Proc.ICASSP,84,pp.1.10.1-1.10.4、に記載されている。これらは全て音声のスペクトル上の特徴を表現しているので、いずれの係数を用いても差し支えない。本実施例では、線形予測係数を使用することにする。また音源情報の表現の方法としては、ピッチやマルチパルス列音源符号帳を用いる方法等、種々考えられるが、これらはすべて音声のLPC分析後に得られる残差波形非線形表現したものに相当するので、いずれの情報を用いても差し支えない。ピッチやマルチパルス列に関しては、古井:”音響・音声工学”、近代科学社に詳しく記載されている。また音源符号帳に関しては、小野:“音声符号化技術の最近の進展”,日本音響学会誌,48巻、1号,pp.52-59,(1992)に記載されている。本実施例では以下、音源情報として音源符号帳を用いる方法を使用することにする。

0057

以下、本発明の第3の実施例について、図9のブロック構成図を参照しながら詳細に説明する。図9において、301は信号をフレーム毎に音声分析してスペクトル情報として線形予測係数と音源コードを抽出する音声分析器である。具体的には、伝送路やフィルタによって帯域制限された音響信号が入力されると、フレームiにおけるM次の線形予測係数Ai(M)が線形予測分析により求められる。また音源符号帳は、乱数から発生させた白色雑音を用いて用意に作成することができる。

0058

次に、第2の実施例と同様に学習用データから音声分析器301を用いて狭帯域スペクトル包絡情報と狭帯域音源符号帳を抽出し、同様に学習用データから音声分析器301により広帯域スペクトル包絡情報と広帯域音源符号帳を抽出する。そして、狭帯域スペクトル包絡情報から狭帯域包絡符号帳を作成すると同時に、この狭帯域スペクトル包絡情報と広帯域スペクトル包絡情報とから包絡写像関数を第2の実施例と同様に推定する。本実施例では、狭帯域音源符号帳と広帯域音源符号帳とから、さらに音源写像関数を推定する。すなわち、それぞれの符号帳内のコードの時間軸を合わせ込んでおき、各符号帳内のコードの対応関係をあらかじめ音源写像関数として求めておくことで、狭帯域音源情報から広帯域音源情報に変換することが可能になる。

0059

302は、まず入力信号の音声分析器301により得られたスペクトル包絡情報を狭帯域包絡符号帳でコード化し、どの部分空間に属しているかを判定する包絡符号判定器であり、303は、得られたスペクトル包絡情報を包絡写像関数を使って広帯域化して広帯域化スペクトル情報に変換する包絡広帯域化器である。302は第2の実施例のコード判定器と、また303は第2の実施例の広帯域化器と同じ働きをする。

0060

304は、入力信号の音声分析器301により得られた音源情報を狭帯域音源符号帳で符号化する音源符号判定器であり、305はこのとき得られた狭帯域音源コードに対応する広帯域音源コードを探索し、このコードから広帯域化音源情報に変換する音源広帯域化器である。音源コードの探索は、たとえばあらかじめ作成しておいた狭帯域音源符号帳中の音源コードjと、前述したM次の線形予測係数を用いて合成したiフレームにおける合成音声をsj(i)とすると、元の音声s(i)との(数11)のような差の二乗誤差を最小化する音源コードkを見つけることで、実現できる。

0061

0062

そして、この狭帯域音源コードと時間的に対応する広帯域音源コードを広帯域音源符号帳中から見つけだすことで、音源の広帯域化が可能になる。

0063

306は、求めた広帯域化スペクトル包絡情報と広帯域化音源情報とを用いてLPC合成により、入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する音声合成器である。

0064

以上のように、本実施例によれば、上記の構成により帯域制限された入力信号を広い周波数帯域を有する広帯域信号に正確に変換することができる信号合成装置を提供することができる。

0065

次に、本発明の第4の実施例について説明する。図10は本実施例の全体構成を示すブロック構成図である。本実施例には、第2の実施例と共通する部分が多く、共通する部分については、詳しい説明は割愛する。本実施例が第2の実施例と大きく異なる部分は、第2の実施例では線形写像により広帯域化スペクトル情報を求めていたのに対し、本実施例では広帯域コードの重みづけ加算により広帯域化スペクトル情報求めている部分である。具体的には、本実施例では入力信号のスペクトル情報を狭帯域符号帳を用いてベクトル量子化して狭帯域コードを求め、このコードに対応する広帯域コードをあらかじめ作成しておいた頻度テーブルから頻度の大きい順に検索し、この広帯域コードと頻度との重みづけ加算を行うことで広帯域化スペクトル包絡情報に変換している。

0066

以下、本発明の第4の実施例について、図10のブロック構成図を参照しながら詳細に説明する。図10において、401は信号をフレーム毎に音響分析して得られるスペクトル情報を抽出する音声分析器である。402の狭帯域データ処理器および403の広帯域データ処理器の構成は第2の実施例と同様である。404は、狭帯域データ処理器402で得られた狭帯域スペクトル情報を類似したスペクトルのグループにクラスタリングし、各グループを代表的に表現するいくつかの代表コードを持つ狭帯域符号帳を作成する狭帯域符号帳作成器である。

0067

405は、狭帯域データ処理器402で得られた狭帯域スペクトル情報が狭帯域符号帳中のどの代表コードに最も近い距離にあるかを判定し、最も近い距離にある狭帯域スペクトル情報をその代表コードに対する狭帯域スペクトル情報とし、これを全学習用データに亘って行うことで各コード毎の狭帯域スペクトル情報の集合すなわち狭帯域スペクトル情報群を作成する狭帯域データ蓄積器である。さらに406は、この狭帯域スペクトル情報とコードとの対応関係を用いて、すでに明かな狭帯域スペクトル情報と広帯域スペクトル情報との時間対応関係から、広帯域スペクトル情報とコードとの対応関係を全ての学習データについて調べ、各コード毎の広帯域スペクトル情報の集合すなわち広帯域スペクトル情報群を作成する広帯域データ蓄積器である。いずれも、第2の実施例と同様である。

0068

407は、広帯域スペクトル情報群を用いて各コード毎の平均広帯域スペクトル情報を算出して広帯域符号帳を作成し、さらに特定の狭帯域コードに対応した広帯域コードの数を頻度として算出し、これを全ての狭帯域コードに対して行い頻度テーブルを作成する頻度テーブル作成器である。ここで用いる広帯域スペクトル情報と狭帯域スペクトル情報は同じ学習音声データから求めているので、フレーム毎に完全に一対一に対応づけすることができる。

0069

408は、入力信号のスペクトル情報を音声分析器401により抽出し、このスペクトル情報が狭帯域符号帳中のどのコードに最も近い距離にあるかを判定するコード判定器である。具体的な処理は、第2の実施例の狭帯域データ蓄積器205の中で行っている手続きと同様である。そして409は、コード判定器408で得られた狭帯域コードに対応する広帯域コードにより入力信号のスペクトル情報を広帯域化する広帯域化器である。具体的には、iフレームにおける入力信号のスペクトル情報xiを狭帯域符号帳{Xk}でベクトル量子化したときの狭帯域コード番号をmとすると、コード番号mに対する各広帯域コード毎の頻度H(m,l)、但し(l=1〜L)を変換テーブルの中から求め、この頻度と広帯域符号帳{Yl}中の各広帯域コードとの重み付け加算を(数12)のように行うことで広帯域化スペクトルziへと変換する。

0070

0071

ここで、(数12)において復元時のコード数を符号帳中の全コード数L以下に制限することによって、計算量を削減し、必要以上のスペクトルの平滑化を防ぐことができる。

0072

410は、求めた広帯域化スペクトル情報を用いて入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成する音声合成器である。

0073

以上のように、本実施例によれば、上記の構成により帯域制限された入力信号を広い周波数帯域を有する広帯域信号に正確に変換することができる信号合成装置を提供することができる。

発明の効果

0074

以上の実施例から明らかなように、本発明によれば、ある特定の周波数帯域に制限された入力信号を一定フレーム毎に音響分析することによりスペクトル情報を抽出し、あらかじめ多量の学習用データから前記入力信号と同じ周波数帯域の狭帯域信号を作成し、前記狭帯域信号を音響分析により狭帯域スペクトル情報を抽出し、また前記多量の学習用データから前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を作成し、前記広帯域信号を音響分析により広帯域スペクトル情報を抽出し、前記狭帯域スペクトル情報と前記広帯域スペクトル情報との関係を写像関数として推定しておき、前記入力信号のスペクトル情報を前記写像関数により広帯域化した広帯域化スペクトル情報を算出し、前記算出後の広帯域化スペクトル情報から前記入力信号の周波数帯域を包含する広い周波数帯域を有する広帯域信号を合成するするように構成しているので、比較的簡単な構成で、帯域制限された入力信号を入力信号の持つ周波数帯域を包含するような広い周波数帯域を有する広帯域信号に正確に変換することができる信号合成方法および装置を提供することができる。

図面の簡単な説明

0075

図1本発明の第1の実施例における信号合成装置の全体構成を示すブロック図
図2本発明の第1の実施例における信号合成装置の狭帯域データ処理器、広帯域データ処理器による処理手順を説明するための図
図3本発明の第2の実施例における信号合成装置の全体構成を示すブロック図
図4本発明の第2の実施例における信号合成装置の写像関数として線形写像を用いた場合の写像関数の推定方法を説明するための図
図5本発明の実施例において、内挿を行わないときの部分空間数Mとスペクトル距離との関係(男性10名)を示した図
図6本発明の実施例において、内挿を行わないときの部分空間数Mとスペクトル距離との関係(女性10名)を示した図
図7本発明の実施例において、学習単語数をN=100として、部分空間数を固定したときの内挿パラメータと平均スペクトル距離との関係(男性10名)を示した図
図8本発明の実施例において、学習単語数をN=100として、部分空間数を固定したときの内挿パラメータと平均スペクトル距離との関係(女性10名)を示した図
図9本発明の第3の実施例における信号合成装置の全体構成を示すブロック図
図10本発明の第4の実施例における信号合成装置の全体構成を示すブロック図

--

0076

101音響分析器
102狭帯域データ処理器
103広帯域データ処理器
104写像関数推定器
105広帯域化器
106 信号合成器

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ