図面 (/)

技術 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

出願人 株式会社東芝
発明者 田村正統森田眞弘
出願日 2015年9月16日 (3年10ヶ月経過) 出願番号 2017-540389
公開日 2018年4月12日 (1年3ヶ月経過) 公開番号 WO2017-046887
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 分析時刻 後続区間 状態区間 補間モデル 波形数 回帰行列 再帰計算 M系列
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年4月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題・解決手段

音声劣化不自然音素継続長とを防止する。 実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータ出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成した音響特徴パラメータから音声波形を生成する。

概要

背景

任意のテキスト合成波形に変換する音声合成技術が知られている。また、音声波形データベース分析して得られる特徴パラメータから統計モデルを学習する音声合成モデル学習装置と、学習された統計モデルを音声合成に用いる音声合成装置が広く知られている。

概要

音声劣化不自然音素継続長とを防止する。 実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータ出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成した音響特徴パラメータから音声波形を生成する。

目的

本発明が解決しようとする課題は、音声劣化と不自然な音素継続長とを防止することができる音声合成装置、音声合成方法音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータ出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する記憶部と、入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する作成部と、前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する決定部と、前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する生成部と、前記生成部が生成した音響特徴パラメータから音声波形を生成する波形生成部と、を有する音声合成装置

請求項2

前記決定部は、前記時刻パラメータによる継続長分布に基づく継続時間長に対して、ピッチ特徴パラメータの出力分布に基づくピッチ情報に対応する基本周波数乗算を行うこと、又はピッチ周期除算を行うことによりピッチ波形数を決定する請求項1に記載の音声合成装置。

請求項3

前記記憶部は、静的特徴パラメータ及び動的特徴パラメータから構成される特徴パラメータの分布によるHMM出力分布を含むHMM情報を記憶し、前記生成部は、HMM出力分布の静的特徴パラメータ及び動的特徴パラメータの平均及び分散を用いて平滑化特徴パラメータを生成する請求項1に記載の音声合成装置。

請求項4

前記統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する選択部をさらに有し、前記決定部は、選択された各状態の継続長パラメータ及びピッチ情報からピッチ波形数を決定する請求項1に記載の音声合成装置。

請求項5

複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶する工程と、入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する工程と、前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する工程と、前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する工程と、生成した音響特徴パラメータから音声波形を生成する工程と、を含む音声合成方法

請求項6

複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶するステップと、入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成するステップと、前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定するステップと、前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成するステップと、生成した音響特徴パラメータから音声波形を生成するステップと、をコンピュータに実行させるための音声合成プログラム

請求項7

音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を記憶する音声コーパス記憶部と、前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する分析部と、前記分析部が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する統計モデル学習部と、を有する音声合成モデル学習装置

請求項8

前記統計モデル学習部は、前記音声データのコンテキスト情報、及び各ピッチマーク時刻における音響特徴パラメータとともにピッチマーク時刻情報を用い、前記ピッチマーク時刻情報を参照して継続長分布を学習する請求項7に記載の音声合成モデル学習装置。

請求項9

前記統計モデル学習部は、前記統計モデルとして、自己遷移確率状態継続長分布として表す隠れセミマルコフモデルを用い、各状態に滞在する開始点のピッチマーク時刻及び終了点のピッチマーク時刻から各状態に滞在する時刻パラメータによる時間長を求め、前記滞在時間長の分布を状態継続長分布とする請求項7に記載の音声合成モデル学習装置。

請求項10

前記統計モデル学習部は、状態継続長分布を用いて各状態の出力分布を推定することにより、前記統計モデルの各状態の出力分布を含むモデルパラメータの推定を行う請求項7に記載の音声合成モデル学習装置。

請求項11

前記音響特徴パラメータは、音声データの各ピッチマーク時刻におけるピッチ特徴パラメータ、スペクトル特徴パラメータ、及び音源特徴パラメータから構成され、音源特徴パラメータとして位相特徴パラメータを含む請求項7に記載の音声合成モデル学習装置。

請求項12

音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶する工程と、前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する工程と、分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する工程と、を含む音声合成モデル学習方法

請求項13

音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶するステップと、前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析するステップと、分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習するステップと、をコンピュータに実行させるための音声合成モデル学習プログラム

技術分野

0001

本発明の実施形態は、音声合成装置音声合成方法音声合成プログラム音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムに関する。

背景技術

0002

任意のテキスト合成波形に変換する音声合成技術が知られている。また、音声波形データベース分析して得られる特徴パラメータから統計モデルを学習する音声合成モデル学習装置と、学習された統計モデルを音声合成に用いる音声合成装置が広く知られている。

0003

特開2002−268660号公報

先行技術

0004

H.Zen, et al, “A Hidden Semi‐Markov Model‐Based Speech Synthesis System”,IEICE TRANS.INF. SYST., VOL. E90−D, NO.5 MAY 2007,p.825‐834

発明が解決しようとする課題

0005

従来は、固定フレームレート音声分析による音響特徴パラメータを用いた場合、精密な音声分析が行われずに音質劣化が生じるという問題があった。また、ピッチ同期分析によって音声分析を行った場合、学習時と合成時のピッチの不一致の影響等により不自然音素継続長になるという問題があった。本発明が解決しようとする課題は、音声劣化と不自然な音素継続長とを防止することができる音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムを提供することである。

課題を解決するための手段

0006

実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から、統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成部が生成した音響特徴パラメータから音声波形を生成する。

図面の簡単な説明

0007

実施形態にかかる音声合成装置を示すブロック図。
SMMを例示する図。
HMM記憶部が記憶しているHMMを示す図。
実施形態にかかる音声合成モデル学習装置を示すブロック図。
固定フレームレートによる分析と、ピッチ同期分析との違いを示す図。
HMM学習部が行う処理を示すフローチャート
実施形態にかかる音声合成装置がパラメータを生成する処理例を示す図。
波形生成部が行う処理を示す図。
状態占有確率計算方法を示す図。
実施形態にかかる音声合成装置が実行する処理を示すフローチャート。
実施形態にかかる音声合成モデル学習装置が実行する処理を示すフローチャート。
実施形態にかかる音声合成モデル学習装置の変形例を示すブロック図。
実施形態にかかる音声合成装置の変形例を示すブロック図。
選択部が実行する処理を示すフローチャート。
選択部の具体的な構成例を示す図。

実施例

0008

まず、本発明がなされるに至った背景について説明する。音声合成モデル学習装置には、時系列信号モデル化するために、複数の状態を持つ統計モデルである隠れマルコフモデル(HMM:Hidden Markov Model)を学習するものがある。また、音声合成装置には、学習されたHMMに基づいて音声を合成するものがある。

0009

HMMに基づく音声合成では、入力されたテキストに従って分布列を求め、得られた分布列から特徴パラメータを生成することにより音声を合成する。例えば、音声のスペクトル情報、音響特徴パラメータ及び韻律特徴パラメータを用いて、静的特徴パラメータと共に時間変化を表す動的特徴パラメータを併せた特徴パラメータ列からモデルを学習し、静的及び動的特徴パラメータの尤度最大化するパラメータ生成アルゴリズムを適用して、滑らかな特徴パラメータ系列による音声を生成することができる。音響特徴パラメータは、音源情報を表す。韻律特徴パラメータは、音声の韻律情報であるピッチ情報を表す。

0010

さらに、HMMの話者適応技術・話者補間技術等を応用することにより、少量データによる新話者モデルや話者補間モデル度合いの制御が可能な感情モデルの作成など、合成音声多様性を広げることも可能である。

0011

HMM音声合成では、メルケプストラム分析方法やSTRAIGHT分析によるスペクトル包絡抽出方法を用いる方法が一般的に利用されている。これらの方法は、スペクトル分析を行うときに、例えば5ms程度の固定のフレームレートによる音声分析を行い、特徴パラメータを分析する。

0012

メルケプストラム分析を用いる場合は、フレーム中心点波形周期性との対応は考慮されず、複数の周期を含む比較的広い窓幅のフレームを切り出してパラメータ分析を行う。よって、分析し再合成した音声は元の音声波形に対して歪みが生じ、音質劣化が生じる。

0013

STRAIGHT分析も同様に、固定のフレームレートによる音声分析を行う。STRAIGHT分析では、時間方向平滑化及び周波数方向平滑化の処理により、分析窓の中心と周期性との対応を補正しつつスペクトル分析を行う。よって、音質劣化は低減されるものの、破裂音無声摩擦音有声音境界などの非定常個所における音質劣化等、固定フレームレート分析に起因する音質劣化は依然として生じる。

0014

また、HMMに基づく音声合成の拡張として、統計モデルに基づく音声合成と音声素片選択に基づく音声合成を組み合わせたハイブリッド型音声合成方法や、特徴パラメータを選択する音声合成方法、及びニューラルネットを利用した音声合成方法などがある。しかし、これらの方法においても、メルケプストラム分析を用いた音声分析方法や、STRAIGHTを利用した音声分析方法を用いる場合には、同様に機械的な音質になる問題が生じる。

0015

固定のフレームレートによる音声分析方法を用いた場合、特徴パラメータの個数であるフレーム数は継続時間長と線形な関係になるため、フレーム数を継続長分布として利用することができる。すなわち、HMMの各状態のフレーム数を直接継続長分布のパラメータとして、隠れセミマルコフモデル(HSMM)のパラメータを学習した音声合成が可能である。

0016

HSMMは、出力分布と状態継続長分布による確率モデルであり、HMMの尤度計算において固定の自己遷移確率ではなく状態継続長分布を用いて尤度計算を行うモデルである。この場合、継続長モデルは、各音声データを各状態と統計的に対応づける状態占有確率と、状態系列における各状態に対応付けた特徴パラメータのフレーム数により、継続長分布のパラメータを学習する。時間長はフレーム数にフレームレートを乗じることによって求められるため、固定のフレームレートの音声分析を用いた場合、特徴パラメータと対応するコンテキストのみから、時間長と線形な関係を持つ継続長分布を学習することができる。

0017

パラメータ生成時には、決定木を辿って得られる継続長分布が直接フレーム数の分布となるため、継続長分布パラメータからフレーム数を定め、得られた各状態のフレーム数に従って分布列を生成し、パラメータ生成及び波形生成処理を行うことができる。このように、固定フレームレートによる音声分析を用いた場合、音質劣化は生じるものの、特徴パラメータのフレーム数を継続長分布としてモデル化し、継続長分布のパラメータから直接音声合成時のフレーム数を定めることができる。

0018

一方で、音声の分析方法の一つとして、ピッチ同期分析を用いることも可能である。ピッチ同期分析では、固定のフレームレートではなく、音声波形の各ピッチ周期に対応した間隔で特徴パラメータの分析を行う。例えば、音声の周期的な波形の各周期の中心時刻を表すピッチマーク情報を作成し、ピッチマーク位置から分析中心を定め、ピッチに依存した窓幅の窓関数を適用してピッチ波形を切り出し、切り出したピッチ波形を分析して音響特徴パラメータを求める。

0019

ここで、適切に付与したピッチマーク位置を分析中心時刻として分析することにより、音声波形の局所的な変化にも対応した適切な分析が可能となるため、分析合成音声の原音との一致性を増すことができ、音質劣化が低減される。しかし、この場合、各フレームの間隔が一定でなくなるため、フレームの個数であるピッチ波形数と時刻の情報が線形な関係ではなくなり、ピッチの高い個所では多くのフレーム数となり、低い個所では少ないフレーム数の分析となる。

0020

このように、ピッチ同期分析を用いた場合、音声フレームの個数を継続長分布のパラメータとしてモデル学習及び合成に用いると、学習時のピッチと合成時のピッチの不一致の影響により不自然な長さの合成音声となる問題が生じる。継続長モデルは、モーラ(拍)や音素との相関が高いため、ピッチに依存して変化するピッチ同期分析のピッチ波形数の分布ではなく、開始時刻終了時刻の差による時刻パラメータによる時間長をパラメータとする方法などにより、時刻と線形な関係にあるパラメータをモデル化することが望ましい。

0021

次に、添付図面を参照して、音声合成装置の実施形態について説明する。図1は、音声合成装置の実施形態(音声合成装置100)を示すブロック図である。図1に示すように、音声合成装置100は、解析部101、作成部102、決定部103、生成部104、波形生成部105及びHMM記憶部106を有する。

0022

解析部101は、入力テキストに対して形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた言語情報からコンテキスト情報を作成する。解析部101は、別途作成された入力テキストに対応する修正済みの読み情報及びアクセント情報などを受入れて、コンテキスト情報を作成してもよい。

0023

ここで、コンテキスト情報とは、音素・半音素・音節HMM等の音声を分類する単位として用いられる情報である。音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができる。さらに、先行音素・後続音素を付加したトライフォン、前後2音素ずつ含めた音素情報、有声音・無声音による分類、詳細化した音素種別属性を表す音素種別情報、各音素の文内・呼気段落内・アクセント句内の位置、アクセント句のモーラ数アクセント型モーラ位置アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的属性情報を含めてコンテキスト情報としてもよい。

0024

作成部102は、解析部101から入力されたコンテキスト情報に従って、HMM記憶部106が記憶しているHMM(図3を用いて後述)を用いて、入力テキストに対応するHMM系列を作成する。HMMは、状態遷移確率と各状態の出力分布とにより表される統計モデルである。具体的には、作成部102は、入力テキストに対応するコンテキスト情報、及び後述する統計モデル情報から、統計モデル系列を作成する。

0025

HMMは、left−to−right型HMMである場合、図2に示すように、各状態の出力分布N(o|μi、Σi)と、状態遷移確率aij(i,jは状態インデックス)によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率aijの代わりに継続長分布N(d|μid、Σid)を用いるものは、HSMM(隠れセミマルコフモデル)と呼ばれ、継続長のモデル化に用いられる。以下、HSMMも含めてHMMと記載する。

0026

決定部103は、作成部102が作成したHMM系列に基づいて、継続長分布パラメータ及びピッチ特徴パラメータの出力分布から生成されるピッチパラメータを用いてピッチ波形数を決定する。つまり、決定部103は、作成部102が作成した統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長と共に、ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。

0027

生成部104は、決定部103が決定したピッチ波形数に従って分布列を作成し、分布列から音響特徴パラメータを生成する。具体的には、生成部104は、ピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成する。

0028

波形生成部105は、生成部104が生成した音響特徴パラメータの系列から音声波形を生成する。

0029

HMM記憶部106は、ピッチ同期分析による音響特徴パラメータから学習したHMMを記憶している。具体的には、HMM記憶部106は、HMMの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。HMMの各状態におけるピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続長分布と、コンテキスト情報に基づいて各状態の分布を選択するための決定木を統計モデル情報として記憶する。

0030

図3は、HMM記憶部106が記憶しているHMMを示す図である。図3に示すように、HMM記憶部106は、例えばHMMの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶しており、さらに継続長分布のための決定木及び分布も記憶している。

0031

決定木の各ノードには、分布を分類する質問が関連付けられている。例えば、ノードは、「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問が関連付けられており、その質問に該当する場合の子ノードと、該当しない場合の子ノードに分類する。つまり、決定木では、入力されたコンテキスト情報に対して、各ノードの質問に該当するか否かを判断することによって探索し、リーフノードを得る。

0032

つまり、上述した作成部102は、得られたリーフノードに対応付けられている分布を各状態の出力分布として用いることにより、各音声単位に対応するHMMを構築する。そして、作成部102は、入力されたコンテキスト情報に対応するHMM系列を作成する。

0033

次に、音声合成モデル学習装置の実施形態について説明する。図4は、音声合成モデル学習装置の実施形態(音声合成モデル学習装置200)を示すブロック図である。図4に示すように、音声合成モデル学習装置200は、音声コーパス記憶部201、分析部203、特徴パラメータ記憶部204、HMM学習部205及びHMM記憶部106を有する。なお、音声合成モデル学習装置200が有するHMM記憶部106は、図1を用いて上述したHMM記憶部106に対応する。つまり、HMM記憶部106に記憶されるHMMは、図4に示したように、音声合成モデル学習装置200がピッチマークを用いたピッチ同期分析を行って作成している。

0034

音声コーパス記憶部201は、モデル学習に用いる音声波形(音声データ)、各音声波形に対応するコンテキスト情報及びピッチマーク情報を記憶している。音声波形は、発話者収録音声から文ごとに切り出されたデータからなる。コンテキスト情報は、各収録音声の発声内容から作成される。

0035

ピッチマーク情報は、有声音の周期的な区間に対しては、音声データからピッチ抽出し、周期に対応した時刻を抽出することにより作成される。また、ピッチマーク情報は、無声音や破裂音・無音などの非周期波形の区間に対しては、有声音区間周期波形のピッチを滑らかに補間するように時刻を定めることや、非周期区間では固定のフレームレートに時刻を定めることなどにより、文全体に対して分析中心位置を示す時刻情報が設定される。つまり、ピッチマーク情報は、非周期区間の分析時刻も含む。このように、各音声波形の分析中心時刻の情報であり、周期波形区間においてはピッチ周期に対応した分析中心時刻であるピッチマーク情報が音声コーパスに作成されている。

0036

分析部203は、音声波形から音響特徴パラメータを求める。音響特徴パラメータは、音声のスペクトル包絡を表すスペクトルパラメータ及び音源情報を表す音源パラメータ基本周波数の情報を表すピッチパラメータ等による特徴パラメータであり、音声波形から抽出される。つまり、分析部203は、音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する。

0037

スペクトルパラメータとしては、メルケプストラム、メルLSP、線形予測係数などのスペクトル包絡パラメータが利用できる。音源パラメータとしては、各スペクトル帯域非周期成分の割合を表す帯域雑音強度(BAP:band aperiodicity)、位相情報又は群遅延情報等が用いられる。

0038

よって、分析部203は、各ピッチマーク時刻に対応した音響特徴パラメータを適切に求めることができる。図5は、有声音の周期波形区間における固定フレームレートによる分析と、ピッチ同期分析との違いを示す図である。

0039

図5(a)は、固定フレームレートによる音声分析を表している。固定フレームレートによる音声分析では、フレームの中心時刻と、波形の周期性との間に関連がなく、予め定めた間隔によって特徴分析が行われる。

0040

例えば、固定フレームレートによる音声分析では、25ms程度の窓関数で複数の周期波形を含む範囲を切り出した分析が広く用いられるが、音声波形のピーク位置とフレーム位置との間に関連がなくなるため歪みが生じる。この影響により、固定フレームレートによる音声分析は、定常的な音声区間においても不安定なスペクトル包絡となる場合がある。また、変化の急な個所においては、広い窓幅等の影響により過剰に平滑化された分析結果となり、変化する波形を適切に再現できない問題も生じる。

0041

これに対し、ピッチ同期分析による特徴抽出では、図5(b)に示したように、音声波形の各周期のピーク時刻付近にピッチマークを定める方法など、ピッチ周期に応じた時刻にピッチマークが付与され、ピッチマーク時刻を分析中心として、2ピッチ程度の窓幅のハニング窓等を用いて波形が切り出される方法が用いられる。

0042

このように、ピッチ同期分析では、適切な時刻においてピッチに依存する窓幅で分析を行うことが可能になり、分析した特徴パラメータから合成する分析合成音声は元の音声に近い波形が得られる。

0043

また、固定のフレームレート分析の音質劣化を低減するため、STRAIGHT分析では、分析時刻の位置の不定性の補正を時間方向の平滑化によって行い、さらに周波数方向の平滑化によって滑らかなスペクトル包絡を抽出する。また、ピッチ同期分析によって得られたパラメータを固定フレームレート位置に補間して分析する場合にも、ピッチ同期分析によるパラメータをそのまま用いる場合と比較すると劣化が生じ、再合成した音声波形と元の音声波形との間には歪みが生じる。

0044

音響特徴パラメータとして、メルLSP,BAPを用いる場合、各ピッチマーク毎に切り出した音声にメルLSP分析を適用してメルLSPを求め、各時刻の左右のピッチマークの間隔の情報などからピッチ情報を求めて対数F0に変換し、帯域雑音強度の分析によりBAPを求める。帯域雑音強度の分析では、例えばPSHF(Pitch Scaled Harmonic Filter)方式に基づいて、音声を周期成分と非周期成分に分離し、各時刻の非周期成分比率を求め、予め定めた帯域毎に平均化すること等によりBAPを求めることができる。

0045

さらに、位相特徴パラメータを用いる場合は、ピッチ同期に切り出した各ピッチ波形の位相情報をパラメータとして表し、複数周期を含む波形や中心位置によって切り出した波形の形状が安定しない形となる固定フレームレートの分析では困難な位相情報も、ピッチ同期分析を用いることにより特徴パラメータとして扱うことが可能となる。

0046

ピッチ情報や継続長情報は、韻律情報を表す特徴パラメータであり、同様に音声コーパスの各音声波形から抽出される。ピッチ情報は、各音韻抑揚や高さの変化を表す情報である。継続長は、音素等音声単位の長さを表す特徴パラメータである。ピッチ特徴パラメータとしては、対数基本周波数、基本周波数、ピッチ周期情報を利用できる。継続長情報としては、音素継続長などを用いることができる。

0047

ピッチ同期分析では、各ピッチマーク時刻の左右の間隔から各時刻のピッチが定められ、対数基本周波数に変換される。ピッチ情報は、有声音のみ値を持つパラメータであるが、無声音の部分に補間したピッチを当てはめて特徴パラメータとすることや、無声音であることを表す値が用いられてもよい。

0048

各音素の継続長の情報は、音素境界時刻の情報としてコンテキスト情報に付加しておき、HMMの学習時の初期モデルの学習に用いられる。ただし、HSMMによる継続長分布のパラメータは、HMMの各状態と学習データとの対応づけから最尤推定により求められるため、予め音素時刻を特徴パラメータとして用意しない場合もある。このように、分析部203は、各ピッチマーク時刻における音響特徴パラメータを求めて、HMMの学習に用いる特徴パラメータを作成する。また、分析部203は、特徴パラメータの傾きの情報である動的特徴量(図中のΔパラメータおよびΔ2パラメータ等)も求めて付加する。そして、図5(b)に示すような音響特徴パラメータが構成される。

0049

特徴パラメータ記憶部204(図4)は、分析部203が求めた音響特徴パラメータを、そのコンテキスト情報や時間境界情報等とともに記憶する。

0050

HMM学習部205は、特徴パラメータ記憶部204が記憶した特徴パラメータをHMMの学習データとして用いる。HMM学習部205は、継続長分布のパラメータを同時推定する隠れセミマルコフモデルの学習を、HMMの学習として行う。つまり、HMM学習部205は、隠れセミマルコフモデルの学習において、コンテキスト情報及び音響特徴パラメータに加えて、ピッチ同期分析を用いるために各音声データのピッチマーク情報も入力し、時刻情報による継続長分布の学習を実現する。つまり、HMM学習部205は、分析部203が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する。

0051

図6は、HMM学習部205が行う処理を示すフローチャートである。HMM学習部205は、まず音素HMMの初期化を行い(S101)、HSMMの学習により音素HMMの最尤推定をして(S102)、初期モデルである音素HMMを学習する。HMM学習部205は、最尤推定する場合には、連結学習によってHMMを文に対応させて、連結した文全体のHMMと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。

0052

次に、HMM学習部205は、音素HMMを用いてコンテキスト依存HMMを初期化する(S103)。学習データに存在するコンテキストに対しては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするか否かといった音韻環境及び言語情報が用いられ、当該音素で初期化されたモデルが用意されている。

0053

そして、HMM学習部205は、コンテキスト依存HMMに対して連結学習による最尤推定を適用して学習し(S104)、決定木に基づく状態クラスタリングを適用する(S105)。このように、HMM学習部205は、HMMの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。

0054

より具体的には、HMM学習部205は、状態毎・ストリーム毎の分布から、最尤基準やMDL(Minimum Description Length)基準等によりモデルを分類する規則を学習し、図3に示した決定木を構築する。このように、HMM学習部205は、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するHMMを構築することができる。

0055

最後に、HMM学習部205は、クラスタリングしたモデルを最尤推定し、モデル学習が完了する(S106)。

0056

HMM学習部205は、クラスタリングを行うときに、各特徴量のストリーム毎に決定木を構築することにより、スペクトル情報(メルLSP)・音源情報(BAP)・ピッチ情報(対数基本周波数)の各ストリームの決定木を構築する。また、HMM学習部205は、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、HMM単位の継続長分布決定木を構築する。なお、HMM学習部205は、各最尤推定ステップにおいて、モデルの更新を行うときに、コンテキスト情報及び音響特徴量に加えて、ピッチマーク時刻情報を参照して状態継続長分布を学習する。

0057

また、HMM学習部205は、各音響特徴量に対応する時刻情報を用いて、継続長分布を学習するときに、各状態に対応づけられたフレーム数ではなく、各状態に対応づけられたフレームの開始点における時刻、及び終了点における時刻から、時刻パラメータによる時間長を求める。そして、HMM学習部205は、求めた時間長から継続長分布を求めることが可能となり、ピッチ同期分析のように、非線形な間隔で特徴分析したパラメータを用いて学習しても適切な継続長分布を学習することができる。

0058

なお、ピッチマーク時刻を用いたHSMMでは、後述するアルゴリズムを用いた連結学習による最尤推定が行われる。そして、HMM学習部205が作成したHMMを、HMM記憶部106が記憶する。

0059

つまり、音声合成装置100は、作成部102が入力コンテキストとHMM記憶部106が記憶しているHMMからHMM系列を作成し、決定部103が各HMMの各状態のピッチ波形数を決定する。そして、音声合成装置100は、決定したピッチ波形数に従って各状態の分布を繰り返すことにより分布列を作成して、生成部104が静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成する。

0060

図7は、音声合成装置100がパラメータを生成する処理例を示す図である。図7においては、音声合成装置100が3状態のHMMで「赤い」の音声を合成する場合が例示されている。

0061

まず、作成部102は、入力コンテキストのHMMの各状態・各ストリームの分布及び継続長分布を選択し、HMMの系列を構成する。コンテキストとして「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用いた場合、「赤い」は、3モーラ2型であり、最初の“a”の音素が、先行音素“sil”、当該音素“a”、後続音素“k”、音素位置1、音素数4、モーラ位置1、モーラ数3、アクセント型2型のため、“sil_a_k_1_4_1_3_2”といったコンテキストになる。

0062

HMMの決定木を辿る場合、各中間ノードに当該音素がaであるか否か、アクセント型が2型であるか否かといった質問が定められており、質問を辿ることによってリーフノードの分布が選択され、メルLSP,BAP,LogF0の各ストリーム及び継続長分布の分布がHMMの各状態に選択されて、HMM系列が構成される。そして、決定部103は、下式1によってピッチ波形のフレーム数を決定する。

0063

0064

ここでは、対数F0をピッチ情報の分布としているため、モデルq、状態iの対数基本周波数ストリームの静的特徴量の平均値μlf0qiから求めた基本周波数exp(μlf0qi)に、モデルq、状態iの状態継続長分布の平均値μdurqiを乗算し、切り捨て、又は四捨五入等による整数関数int()が適用されてピッチ波形数が定まる。

0065

ピッチマーク時刻の時間情報を用いて求められたμdurqiが継続長分布であるため、フレーム数を求める場合にはピッチ情報が必要である。従来法はフレーム数をそのまま継続長分布として表すため、下式2の様に、単に整数化することにより定められる。

0066

0067

上述したように、特徴パラメータ分析時に固定のフレームレートで分析され、時刻に線形な関係がある場合には、上式2の形でフレーム数を求めることができる。しかし、ピッチ同期分析などにより、可変のフレームレートで音声分析を行った場合には、時刻を継続長分布のパラメータとして用いる必要があり、上式1の形によって波形数を定める必要がある。

0068

なお、ここではピッチ情報の特徴パラメータとして対数基本周波数を用いているが、基本周波数を用いる場合はexp()関数が不要となる。また、ピッチ周期をパラメータとして用いる場合は下式3のように、除算により求めることになる。

0069

0070

生成部104は、このように定めたピッチ波形数によってHMMの各状態の分布を繰り返すことにより分布列を作成し、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔ2を動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻tの特徴パラメータotは、静的特徴パラメータctと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔct、Δ2ctを用いて、ot=(ct’、Δct’、Δ2ct’)と表される。P(O|J,λ)を最大化する静的特徴量ctからなるベクトルC=(c0’、・・・、cT−1’)’は、0TMをT×M次のゼロベクトルとして、下式4として与えられる方程式解くことによって求められる。

0071

0072

ただし、Tはフレーム数、Jは状態遷移系列である。特徴パラメータOと静的特徴パラメータCとの関係を、動的特徴を計算する行列Wによって関係付けると、O=WCと表される。Oは3TMのベクトル、CはTMのベクトルとなり、Wは、3TM×TMの行列である。そして、μ=(μs00’,・・・,μsJ−1Q−1’)’、Σ=diag(Σs00’,・・・,ΣsJ−1Q−1’)’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式4は、下式5として与えられる方程式を解くことによって最適な特徴パラメータ系列Cを求めることができる。

0073

0074

この方程式は、コレスキー分解による方法により求められる。また、RLSフィルタ時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成部の処理は本方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法が用いられてもよい。

0075

波形生成部105は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部105は、対数基本周波数系列及び帯域雑音強度系列から音源信号を作成し、メルLSP系列による声道フィルタを適用して音声波形を生成する。

0076

図8は、波形生成部105が行う処理を示す図である。図8に示すように、波形生成部105は、対数基本周波数系列からピッチマークを生成し、帯域雑音強度(BAP)系列に従って、ノイズ成分パルス成分の比率を制御して音源波形を生成し、メルLSP系列による声道フィルタを適用して音声波形を生成する。また、波形生成部105は、位相パラメータも用いてモデル化する場合、位相パラメータから位相スペクトルを生成して、スペクトルパラメータから振幅スペクトルを生成し、逆FFTにより各ピッチマークに対応するピッチ波形を生成して、重畳処理によって波形生成を行う。また、波形生成部105は、位相パラメータから音源波形を生成し、フィルタを適用する方法により波形生成を行ってもよい。

0077

上述した処理により、ピッチ同期分析を用いた特徴パラメータを用いてHMMモデルを構築し、音声合成に利用することが可能となる。また、これらの処理により、入力コンテキストに対応した合成音声が得られる。

0078

次に、HMM学習部205が行う最尤推定処理におけるモデル更新アルゴリズムの詳細について説明する。本アルゴリズムは、従来の隠れセミマルコフモデル学習アルゴリズムを、継続長分布を各特徴パラメータの時刻情報から学習するように拡張して導出したものである。従来法では、隠れセミマルコフモデルにより、HMMの各状態に何フレーム滞在したかを自己遷移確率に関する継続長分布として用いる。これに対し、HMM学習部205は、フレーム数ではなく各フレームのピッチマーク時刻の間隔を単位として継続長分布を学習する。これにより、継続長分布は、ピッチに依存せずに、音素及び各状態の継続時間の長さを直接表す分布となり、音声合成時にピッチの不一致の影響によって不自然な継続長になる問題が解消される。

0079

HMMでは、モデルλ、状態遷移系列Q={q0、q1、・・・、qT−1}、状態iから状態jへの状態遷移確率aij、状態iの出力分布bi(ot)に対し、観測ベクトル系列O={o0,o1,・・・,oT−1}の尤度P(O|λ)は、あらゆる状態遷移系列の総和として、下式6によって表される。

0080

0081

HMMは、上式6のように状態遷移すべてを状態遷移確率として表すが、隠れセミマルコフモデルHSMMでは、自己遷移確率を継続長分布として表す。

0082

0083

ここで、pi(t,d)は状態iに時刻tから時刻t+dまでdフレーム滞在する確率を表し、aqt+dqt+d+1は時刻t+dにおいて、異なる状態qt+d+1へ遷移する確率を表す。

0084

0085

従来法では、この時刻tとして観測ベクトルのフレーム番号を用いており、dフレーム同じ状態に継続した場合の確率と、その後状態遷移する確率をすべての状態遷移系列に計算することになる。このようなHSMMに対するForward−backwardアルゴリズムを用いた出力分布パラメータ、状態遷移確率、状態継続長分布パラメータ更新アルゴリズムでは、最尤推定によりモデルパラメータを求めることができる。

0086

HMM学習部205のピッチ同期分析のためのHSMMでは、状態継続長pi(t,d)は、フレーム数ではなく、時刻の情報をパラメータとして表す。そして、HMM学習部205は、各フレームに対応するピッチマークの時刻情報から、各フレームのピッチマーク時刻をpm(t)としたとき、時刻tから時刻t+dの状態継続長が、d(t,d)=pm(t+d)−pm(t−1)となり、継続長分布のパラメータとして、このピッチマーク時刻の間隔を用いる。

0087

0088

ピッチ同期分析の場合は、ピッチマーク位置をフレームの中心として波形の分析を行うが、このときフレーム数を状態継続長分布として表した場合、ピッチが高いほど、ピッチマークの間隔は狭くなり、多くのフレーム数となる。この場合、ピッチが低いほど、ピッチマークの間隔が広くなるため、少ないフレーム数となり、時間長だけでなく、ピッチに依存した状態継続長の分布となる。

0089

これに対し、HMM学習部205は、ピッチによらず、各状態の時間長をそのままモデル化するため、各音素の長さをピッチに依存せずにモデル化することができる。固定のフレームレートの分析を行った場合は、時刻情報・フレーム数、どちらを用いても線形な関係になるため、影響を受けない。HMM学習部205は、フレームの間隔が一定でない場合にも、適切に継続長モデルを計算することができる。

0090

次に、HMM学習部205が最尤推定を行う場合のモデルの連結学習のためのForward−Backwardアルゴリズムによる更新アルゴリズムについて説明する。まず、前向き確率を、以下式10〜17により計算する。前向き確立α(q)j(t、d)は、dフレーム続いた後に、時刻tにおいて、モデルq、状態jに存在する確率である。まず、時刻(t=1)において下式10〜13により初期化する。

0091

0092

そして、下式14〜17による再帰計算により、(2≦t≦T)のフレームの前向き確率α(q)j(t、d)を求める。

0093

0094

後ろ向き確率β(q)i(t、d)は、同様に、時刻tにおいて、状態iにdフレーム滞在し、その後時刻Tまでの観測ベクトルが出力される確率であり式18〜25により計算する。まず時刻(t=T)において下式18〜21により初期化する。

0095

0096

そして、下式22〜25の再帰(T−1≧t≧1)のステップにより、β(q)i(t、d)が計算される。

0097

0098

これらと混合ガウス分布を用いると、時刻tにおいてモデルqの状態j、混合m、ストリームsに滞在する確率は、下式26〜28により求められる。

0099

0100

また、時刻tにおいてモデルqの状態jに滞在する確率は、下式29により求められる。

0101

0102

上式28又は上式29は、従来の連結学習とは異なり、図9に示すように、状態をまたがった遷移も考慮した、時刻tにモデルqの状態jを通るあらゆる状態遷移系列の総和となっている。

0103

また、時刻t0から時刻t1までモデルqの状態j、ストリームsに滞在する確率は、下式30によって表される。

0104

0105

このように導出した状態遷移確率、前向き確率、後ろ向き確率を用いて、モデルパラメータの更新を行い、出力分布のパラメータ、継続長モデル、遷移確率の最尤推定が行われる。継続長分布パラメータの更新式は、下式31,32によって表される。

0106

0107

また、出力分布の混合重み、平均ベクトル及び共分散行列は、下式33〜35により更新される。

0108

0109

これら式10〜35を用いて、HMM学習部205は、モデルパラメータの最尤推定を行う。

0110

次に、音声合成装置100が実行する音声合成の処理について説明する。図10は、音声合成装置100が実行する音声合成の処理を示すフローチャートである。図10に示すように、まず、解析部101は、入力テキストを解析してコンテキスト情報を求める(S201)。作成部102は、HMM記憶部106が記憶しているHMMを参照して入力コンテキストに対応したHMM系列を作成する(S202)。

0111

決定部103は、HMM系列の継続長分布及びピッチ情報を用いて各状態のピッチ波形数を決定する(S203)。生成部104は、得られた各状態のピッチ波形数にしたがって出力分布を並べて分布列を作成し、パラメータ生成アルゴリズム等を適用して音声合成に用いるパラメータ系列を分布列から生成する(S204)。そして、波形生成部105は、音声波形を生成し、合成音声を得る(S205)。

0112

なお、音声合成装置100が有する各機能は、ハードウェアによって構成されてもよいし、CPUが実行するソフトウェアによって構成されてもよい。例えば、音声合成装置100は、音声合成プログラムを実行して音声合成を行う場合、図10に示した各ステップをCPUが実行する。

0113

次に、音声合成モデル学習装置200が実行する音声合成モデル学習の処理について説明する。図11は、音声合成モデル学習装置200が実行する音声合成モデル学習の処理を示すフローチャートである。図11に示すように、まず、分析部203は、音声コーパス記憶部201が記憶している音声データ、ピッチマーク情報を用いて、ピッチ同期分析によりスペクトルパラメータ、ピッチパラメータ、音源パラメータによる音響特徴パラメータを抽出する(S301)。特徴パラメータ記憶部204が、抽出された音響特徴パラメータを記憶する。

0114

次に、HMM学習部205は、音響特徴パラメータ、コンテキスト情報及びピッチマーク情報を用いてHMMを学習する(S302)。HMMは、時刻パラメータによる継続長分布及びピッチ情報の出力分布を含む。学習されたHMMは、HMM記憶部106に記憶され、音声合成において用いられる。

0115

なお、音声合成モデル学習装置200が有する各機能は、ハードウェアによって構成されてもよいし、CPUが実行するソフトウェアによって構成されてもよい。例えば、音声合成モデル学習装置200は、音声合成モデル学習プログラムを実行して音声合成モデル学習を行う場合、図11に示した各ステップをCPUが実行する。

0116

また、HMM学習部205については、特定話者コーパスを用いて話者依存モデルを最尤推定する場合を例に説明したが、これに限定されない。例えば、HMM学習部205は、HMM音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能である。また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式を用いることもできる。すなわち、HMM学習部205は、固定のフレームレートによる音声分析でフレーム数を継続長分布のパラメータとせず、ピッチ同期分析等時刻情報を継続長分布のパラメータとする任意の方式で学習したモデルを用いて音声合成モデルを学習することが可能である。

0117

次に、音声合成モデル学習装置200の変形例について説明する。図12は、音声合成モデル学習装置200の変形例(音声合成モデル学習装置200a)を示すブロック図である。図12に示すように、音声合成モデル学習装置200aは、音声コーパス記憶部201、分析部203、特徴パラメータ記憶部204、話者適応部301、平均声HMM記憶部302及びHMM記憶部106を有し、平均声からの話者適応を行って音声合成モデルを学習する。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。

0118

話者適応部301は、平均声HMM記憶部302が記憶している平均声モデルに対し、特徴パラメータ記憶部204が記憶している特徴パラメータを用いて話者適応技術を適用し、得られた適応HMMをHMM記憶部106に記憶させる。

0119

平均声HMMは、複数の話者から学習した平均的な声のモデルであり、平均的な声の特徴を有するモデルである。話者適応部301は、この平均声を、目標話者の特徴パラメータを用いて変換することにより適応HMMを得る。また、話者適応部301は、最尤線形回帰等の話者適応手法を用いることにより、目標話者データが少量で不足するコンテキストが存在する場合にも、平均声HMMのモデルを目標話者に近づけるため不足コンテキストを補ったモデルを作成することができる。

0120

最尤線形回帰では、重回帰分析により平均ベクトルを変換する。例えば、話者適応部301は、上式10〜35に示した時刻パラメータによる連結学習を用いて学習データと平均声HMMとの対応付けを行い、回帰行列を求める。そして、複数の分布で回帰行列を共有することにより、対応する学習データが存在しない分布の平均ベクトルも変換することが可能となる。これにより、少量の目標データのみを用いて学習したモデルよりも高品質な音声を合成することが可能となり、ピッチ同期分析による音響特徴パラメータを用いて話者適応したモデルから音声合成が可能となる。

0121

次に、音声合成装置100の変形例について説明する。図13は、音声合成装置100の変形例(音声合成装置100a)を示すブロック図である。図13に示すように、音声合成装置100aは、解析部101、作成部102、決定部103、生成部104、波形生成部105、HMM記憶部106、特徴パラメータ記憶部204及び選択部401を有し、特徴パラメータ系列選択による音声合成を行う。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。

0122

音声合成装置100aは、作成部102と決定部103の間において、選択部401が処理を行う。具体的には、音声合成装置100aは、作成部102において得られたHMM系列を目標として、特徴パラメータ記憶部204が記憶している音響特徴パラメータの中からパラメータを選択部401が選択し、選択したパラメータから音声波形を合成する。つまり、選択部401は、統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する。このように、選択部401が音響特徴パラメータの中からパラメータを選択することにより、HMM音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。

0123

ピッチ同期分析による特徴パラメータを用いた場合、分析パラメータから再生成した音声は、固定のフレームレートにより分析した従来の特徴パラメータを用いる場合よりも、原音に近い音質となる。このため、音声合成装置100aは、ピッチ同期分析が用いられた効果が顕著に現れ、従来の特徴パラメータを用いる場合よりも自然性が改善する。

0124

次に、選択部401についてさらに詳述する。選択部401は、HMMに基づいて、特徴パラメータ系列を選択する。特徴パラメータ選択の単位は、任意の単位により行うことが可能にされているが、ここではHMM系列の各状態毎に、特徴パラメータを選択する。

0125

特徴パラメータ記憶部204には、音声波形の各特徴パラメータとともに、状態に対応する境界を付与した情報が記憶されていることとする。例えば、HMMの各状態と、音声波形との対応付けは予めビタビアライメントにより求められ、得られた最尤状態遷移系列の時間境界が状態の境界として特徴パラメータ記憶部204に記憶される。選択部401は、特徴パラメータの選択に目標尤度及び接続尤度を用いる場合、HMM系列の状態を単位として、動的計画法により最適特徴パラメータ系列を選択する。

0126

図14は、選択部401が実行する処理を示すフローチャートである。まず、選択部401は、合成する文章の最初のHMMの初期状態における候補特徴パラメータを選択し(S401)、初期の各候補に対する目標尤度を計算する(S402)。

0127

目標尤度は、該当する区間における目標と適合する度合いを数値化したものであり、HMM系列の分布の尤度から求めることができる。対数尤度を用いる場合、各状態区間内の特徴パラメータの対数尤度の和として計算される。特徴パラメータの候補は、選択元の特徴パラメータの集合であり、該当するHMMの状態における決定木のリーフノードの分布を学習するときに用いた学習データを候補とすることができる。同一の状態に対応する同一音素の特徴パラメータを候補とする方法や、音韻環境で絞った同一音素を候補とする方法、韻律属性一致度合いによって候補を決定する方法など、他の方法により決めることも可能である。

0128

そして、選択部401は、状態番号を一つ進め、各状態に対する候補を選択し(S403)、目標尤度及び接続尤度などの尤度計算を行う(S404)。

0129

なお、HMMの最終状態の場合は、後続するHMMの初期状態に進めていく。S403の候補選択の処理は、S401の処理と同様に行うことができる。接続尤度は、該当区間が先行区間の後続として適合する度合いを数値化したものである。接続尤度は、先行状態区間の各候補素片に対し、該当状態における各候補素片が選ばれたときの尤度を用い、平均ベクトルとして一つ前の状態の各候補素片の後続区間の平均ベクトルを用い、分散は各状態の出力分布の分散を用いたガウス分布の尤度により計算することができる。

0130

そして、選択部401は、バックトラックするため、各候補素片に対して、一つ前の状態の最適候補の情報を保存しておく。選択部401は、現在の状態が入力文章に対応するHMM系列の最終HMMの最終状態であるか否かを判定する(S405)。選択部401は、最終状態である(S405:Yes)と判定すれば、S406の処理に進む。また、選択部401は、最終状態でない(S405:No)と判定すれば、状態及びHMMを一つ進めてS403の処理に戻る。

0131

最後に、選択部401は、尤度最大となる特徴パラメータを選択し、その先行状態の最適候補を順にバックトラックすることにより、最適特徴パラメータ系列を求める(S406)。選択部401は、このように選択された最適特徴パラメータ系列を決定部103に対して出力する。

0132

図15は、選択部401の具体的な構成例を示す図である。選択部401は、例えば候補選択部411、尤度計算部412及びバックトラック部413を備える。候補選択部411は、特徴パラメータ記憶部204から候補を選択する。尤度計算部412は、目標尤度・接続尤度を計算する。選択部401は、HMM系列の状態を単位として、候補選択部411及び尤度計算部412が処理を繰り返し、最後にバックトラック部413が最適特徴パラメータ系列を求める。

0133

なお、ここでは尤度最大化系列を例としたが、HMM系列に基づいて特徴パラメータ系列を選択する任意の方法が用いられてもよい。尤度の逆数や、平均ベクトルとの二乗誤差マハラノビス距離などによって計算するコスト関数を定義し、コスト最小化により特徴パラメータの選択を行ってもよい。また、動的計画法による特徴パラメータ選択ではなく、音響的尤度と韻律的尤度のみからコストを計算し、特徴パラメータの選択も行ってもよい。

0134

さらに、HMM系列から特徴パラメータを生成し、生成されたパラメータからの距離からコスト計算を行って特徴パラメータの選択を行ってもよい。パラメータ選択を行う場合、最適パラメータ系列のみでなく、各区間に複数のパラメータ系列を選択し、平均化したパラメータを利用してもよい。選択部401は、これらの処理により、入力されたHMM系列の各HMMの各状態に対して、最適特徴パラメータを選択することができ、これらの情報を決定部103に対して出力する。

0135

決定部103は、選択された継続長分布系列及びピッチ特徴パラメータの系列からピッチ波形数を決定する。生成部104は、選択された特徴パラメータを用いて分布を更新する。HMM系列の分散を用い、選択された特徴パラメータで分布の平均ベクトルを置き換えることにより分布を更新し、更新された分布列からパラメータを生成することにより、選択された特徴パラメータを反映したパラメータ生成を行うことができる。波形生成部105は、生成されたパラメータから合成音声を生成する。このように、音声合成装置100aは、選択部401を備えることにより、各区間に選択された音響特徴量より波形生成が可能となり、自然な合成音声が得られる。

0136

なお、音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aは、例えば、汎用コンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声合成装置及び音声合成モデル学習装置は、上述のコンピュータ装置に搭載されたプロセッサプログラムを実行させることにより実現することができる。

0137

音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aで実行されるプログラム(音声合成プログラム又は音声合成モデル学習プログラム)は、ROM等に予め組み込まれて提供される。

0138

また、音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルCD−ROM(Compact Disk Read Only Memory)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータ読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。さらに、これらのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

0139

このように、実施形態にかかる音声合成装置によれば、統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定し、決定したピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成するので、音声劣化と不自然な音素継続長とを防止することができる。また、実施形態にかかる音声合成装置は、ピッチ同期分析による精密な音響特徴パラメータを用いつつ、継続長分布としてピッチマークから算出される時間長をモデル化し、合成時には該当する状態の継続長分布パラメータ及びピッチ特徴パラメータの出力分布に基づいて生成されるピッチ情報に基づいてピッチ波形数を算出して音声合成することができる。よって、実施形態にかかる音声合成装置は、精密な音声分析を利用しつつ学習時と合成時のピッチの不一致の影響に起因する不自然な継続長となる問題を解消し、高品質な音声合成が可能となる。

0140

また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • アルパイン株式会社の「 情報提示装置、情報提示システム、端末装置」が 公開されました。( 2019/05/23)

    【課題】内容を把握しやすい態様で情報を提示する情報提示装置を提供すること。【解決手段】表示手段16と、ユーザからの音声又は操作による入力を受け付ける入力受付手段31と、前記入力受付手段が受け付けた入力... 詳細

  • 公立大学法人公立諏訪東京理科大学の「 信号処理装置、方法、及びプログラム」が 公開されました。( 2019/05/23)

    【課題】所望の信号を特定することができる。【解決手段】抽出手段が、入力信号ベクトルに基づいて、各時間に対し、観測信号と、前の時間のフィルタ係数を時間の前記入力信号ベクトルに適用して得られる推定第2信号... 詳細

  • 中野泰宏の「 音声学習システム、および音声学習方法」が 公開されました。( 2019/05/23)

    【課題】声を発することなく直感的に素早く正しい語順で文章を組み立てる能力をトレーニングすることができる音声学習システムおよび音声学習方法を提供する。【解決手段】CPU2により音声再生プログラム61aお... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ