図面 (/)

技術 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム

出願人 株式会社東芝
発明者 大谷大和森紘一郎
出願日 2015年9月16日 (5年2ヶ月経過) 出願番号 2015-183092
公開日 2017年3月23日 (3年8ヶ月経過) 公開番号 2017-058513
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 回帰行列 バイアスベクトル 平均パラメータ 占有確率 ノード分割 目標話者 適応学習 非周期性
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年3月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行う。

解決手段

実施形態の学習装置は、記憶部と学習部とを備える。記憶部は、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、学習話者の声質を音声に関する1以上の知覚表現得点により表した知覚表現得点情報と、を記憶する。学習部は、平均声モデルと、学習話者情報と、知覚表現得点情報と、から、1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する。

概要

背景

任意のテキストを入力することで、その内容を音声で出力することを目的としたテキスト音声合成技術が従来から知られている。近年の音声合成技術では、音声を合成するために必要な人の話し方及び声色等を表現する音響モデルを、統計的に構築する試みが盛んに行われている。例えば音響モデルとして、隠れマルコフモデル(HMM:Hidden Markov Model)を利用した音声合成技術が知られている。

概要

音声を合成する際に行われる話者性の制御を、ユーザの意した通りに精度良く行う。実施形態の学習装置は、記憶部と学習部とを備える。記憶部は、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する。学習部は、平均声モデルと、学習話者情報と、知覚表現得点情報と、から、1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する。

目的

任意のテキストを入力することで、その内容を音声で出力することを目的とした

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の種類の話者音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現得点により表した知覚表現得点情報と、を記憶する記憶部と、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する学習部と、を備える学習装置

請求項2

前記知覚表現は、声の性別、声の年齢、声の明るさ、声の太さ、及び、声の明瞭さの少なくとも1つを含む、請求項1に記載の学習装置。

請求項3

前記学習話者情報は、前記学習話者の音声を示す音響データ、前記音響データから抽出された言語データ、及び、前記学習話者の音響モデルを含む、請求項1に記載の学習装置。

請求項4

前記知覚表現得点情報は、前記学習話者の原音又は合成音声と、前記平均声モデルから合成された音声と、の差を示す得点である、請求項1に記載の学習装置。

請求項5

話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルと、を記憶する記憶部と、前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集する編集部と、任意のテキストの入力を受け付ける入力部と、前記編集部により話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行う合成部と、を備える音声合成装置

請求項6

複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部を備える学習装置の学習方法であって、学習装置が、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習するステップ、を含む学習方法。

請求項7

話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルと、を記憶する記憶部を備える音声合成装置の音声合成方法であって、音声合成装置が、前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集するステップと、音声合成装置が、任意のテキストの入力を受け付けるステップと、合成部が、前記編集するステップにより話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行うステップと、を含む音声合成方法。

請求項8

複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する記憶部を備えるコンピュータを、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する学習部、として機能させるための学習プログラム

請求項9

話者性の制御を行う対象となる目標話者の目標話者音響モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルと、を記憶する記憶部を備える音声合成装置を、前記知覚表現得点情報と、前記知覚表現音響モデルと、によって表現される話者性を、前記目標話者音響モデルに付与することにより、前記目標話者音響モデルを編集する編集部と、任意のテキストの入力を受け付ける入力部と、前記編集部により話者性が付与された前記目標話者音響モデルを用いて、前記テキストの音声合成を行う合成部、として機能させるための音声合成プログラム

技術分野

背景技術

0002

任意のテキストを入力することで、その内容を音声で出力することを目的としたテキスト音声合成技術が従来から知られている。近年の音声合成技術では、音声を合成するために必要な人の話し方及び声色等を表現する音響モデルを、統計的に構築する試みが盛んに行われている。例えば音響モデルとして、隠れマルコフモデル(HMM:Hidden Markov Model)を利用した音声合成技術が知られている。

0003

特開2007−219286号公報

先行技術

0004

Makoto Tachibana,Takashi Nose,Junichi Yamagishi and Takao Kobayashi,“A technique for controlling voice quality of synthetic speech using multiple regression HSMM,”in Proc. INTERSPEECH2006−ICSLP,p.2438−2441,2006
Kazuhiro Kobayashi,Tomoki Toda,Hironori Doi,Tomoyasu Nakano,Masataka Goto,Graham Neubig,Sakriani Sakti and Satoshi Nakamura,“Voice timbre control based on perceptual age in singing voice conversion,”IEICE Trans.Inf. & Syst.,vol.97−D,no.6,2014
Junichi Yamagishi and Takao Kobayashi,“Average−voice−based speech synthesis using HSMM−based speaker adaptation and adaptive training,” IEICE Transactions Information & Systems,vol.E90−D,no.2,pp.533−543,Feb.2007.
順一,田正統,益子貴史,小林隆夫,徳田恵一,”平均声モデル構築のためのコンテキストクラスタリング手法の検討”,電子情報通信学会技術研究報告.SP,音声102(108),25−30,2002
V.Wan et al.,“Combining multiple high quality corpora for improving HMM−TTS,” Proc.INTERSPEECH,Tue.O5d.01,Sept.2012.

発明が解決しようとする課題

0005

しかしながら、従来の技術では、音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行うことが難しかった。

課題を解決するための手段

0006

実施形態の学習装置は、記憶部と学習部とを備える。記憶部は、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築された平均声モデルと、学習話者の音声の特徴を表す学習話者情報と、前記学習話者の声質を音声に関する1以上の知覚表現の得点により表した知覚表現得点情報と、を記憶する。学習部は、前記平均声モデルと、前記学習話者情報と、前記知覚表現得点情報と、から、前記1以上の知覚表現に対応する1以上の知覚表現音響モデルを学習する。

図面の簡単な説明

0007

第1実施形態の学習装置の機能構成の例を示す図。
第1実施形態の知覚表現得点情報の例を示す図。
第1実施形態の学習処理の例を示すフローチャート
第1実施形態の平均ベクトルの抽出・連結処理の例の概要を示す図。
第1実施形態の回帰行列と知覚表現音響モデル104との対応の例を示す図。
第2実施形態の音声合成装置の機能構成の例を示す図。
第2実施形態の音声合成方法の例を示すフローチャート。
第1実施形態の学習装置、及び、第2実施形態の音声合成装置のハードウェア構成の例を示す図。

実施例

0008

以下に添付図面を参照して、学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラムの実施形態を詳細に説明する。

0009

(第1実施形態)
図1は第1実施形態の学習装置の機能構成の例を示す図である。第1実施形態の学習装置100は、記憶部1、取得部2及び学習部3を備える。

0010

記憶部1は、基準音響モデル101、学習話者情報102、知覚表現得点情報103及び知覚表現音響モデル104を記憶する。

0011

取得部1は、基準音響モデル101、学習話者情報102及び知覚表現得点情報103を他の装置等から取得する。

0012

ここで基準音響モデル101、学習話者情報102及び知覚表現得点情報103について説明する。

0013

基準音響モデル101は、知覚表現音響モデル104の学習に用いられる。

0014

基準音響モデル101について説明する前に、まず音響モデルの例について説明する。現在広く用いられているHMMに基づく音声合成では、隠れセミマルコフモデル(以下、HSMMという。)で表される音響モデルが用いられている。HSMMでは、出力分布及び継続長分布がそれぞれ正規分布で表現される。

0015

一般に、HSMMで表される音響モデルは以下のようにして構築される。

0016

(1)ある話者の音声波形から、声の高さの時間的な変動を表す韻律パラメータ、並びに、声の音韻及び声色の情報を表す音声パラメータが抽出される。

0017

(2)音声の内容を示すテキストから言語属性を表すコンテキスト情報が抽出される。コンテキスト情報は、HMMのモデルを分類する音声単位として用いられる情報の繋がりを表す情報である。音声単位は、例えば音素半音素及び音節等である。例えば音声単位として音素を用いる場合、コンテキスト情報として、音素名の系列を用いることができる。

0018

(3)コンテキスト情報に基づき、HSMMの持つ状態毎に、決定木により韻律パラメータ及び音声パラメータがクラスタリングされる。

0019

(4)決定木によるクラスタリングにより得られた各リーフノードの韻律パラメータ及び音声パラメータから、HSMMの出力分布が算出される。

0020

(5)EMアルゴリズムを使用し尤度最大化基準により、HSMMのモデルパラメータ(出力分布)が更新される。

0021

(6)同様に、コンテキスト情報に対応した音声の継続長を示すパラメータについてもクラスタリングが行われ、クラスタリングにより得られた各リーフノードに継続長を示すパラメータの正規分布が保持され、EMアルゴリズムによりモデルパラメータ(継続長分布)が更新される。

0022

HSMMに基づく音声合成では、上記(1)〜(6)の処理により、話者の声色や口調の特徴をモデル化する。これにより、話者の特徴を捉えた合成音声を出力することが可能となる。

0023

基準音響モデル101は、平均声モデルM0を表す音響モデルである。平均声モデルM0は、複数の種類の話者の音声波形から抽出された音響データ及び言語データを用いて構築される。平均声モデルM0のモデルパラメータは、複数の話者から得られる平均的な声の特徴を表す。

0024

ここで、声の特徴は音響的特徴量により表される。音響的特徴量は、人の発話から抽出された韻律に関するパラメータ、並びに、音韻及び声色等を表す音声スペクトルから抽出されたパラメータ等である。

0025

具体的には、韻律に関するパラメータは、声の高さを表す基本周波数時間系列データである。

0026

また、音韻及び音色等を表すパラメータは、音響データ及び当該音響データの時間変化を表す特徴量である。音響データは、ケプストラムメルケプストラム、LPC(Linear Predictive Coding)、メルLPC、LSP(line spectral pairs)、メルLSP等の時間系列データ、並びに、音声の周期及び非周期性の割合を表す指標データである。

0027

平均声モデルM0は、一般的なHMMに基づく音声合成と同様、コンテキストクラスタリングにより構築された決定木、HMMの各状態の出力分布を表す正規分布、及び、継続長分布を表す正規分布で構成されている。なお平均声モデルM0の構築方法の詳細については、非特許文献3に記載されている。

0028

学習話者情報102は、知覚表現音響モデル104の学習に用いられる。学習話者情報102は、音響データ、言語データ及び音響モデルを学習話者毎に関連付けて記憶する。学習話者は、知覚表現音響モデル104の学習対象の話者である。音響データ、言語データ及び音響モデルにより、学習話者の音声が特徴付けられる。例えば学習話者の音響モデルは、学習話者が発する音声の音声認識に利用することができる。

0029

言語データは、発話した音声の文字列情報から得られるものである。具体的には、言語データは、音素、発音方法に関わる情報、末位置、文長、呼気段落長、呼気段落位置、アクセント句長、アクセント句位置単語長、単語位置、モーラ長、モーラ位置、音節位置、音節の母音アクセント型係り受け情報、文法情報及び音素境界情報等である。音素境界情報は、各言語特徴先行、先々行、後続及び後々続に関する情報である。なお音素は半音素でもよい。

0030

学習話者情報102の音響モデルは、基準音響モデル101(平均声モデルM0)、学習話者の音響データ、及び、学習話者の言語データから構築される。具体的には、学習話者情報102の音響モデルは、非特許文献3に記載されている話者適応技術により、平均声モデルM0と同一の構造を有するモデルとして構築される。なお、各学習話者の音声が複数種類発話様式毎にある場合、発話様式毎に学習話者の音響モデルを構築してもよい。発話様式は、例えば読み上げ調、対話調及び感情音声等である。

0031

知覚表現得点情報103は、知覚表現音響モデル104の学習に用いられる。知覚表現得点情報103は、話者の声質を、音声に関する知覚表現の得点で表した情報である。音声に関する知覚表現は、人の音声を聴いたときに感じる非言語的な声の特徴を表す。知覚表現は、例えば声の明るさ、性別年齢、太さ及び明瞭さ等である。知覚表現得点は、音声に関する知覚表現の観点により、話者の声の特徴を得点(数値)で表した情報である。

0032

図2は第1実施形態の知覚表現得点情報の例を示す図である。図2の例は、性別、年齢、明るさ、太さ及び明瞭さの知覚表現の観点による得点が、学習話者ID毎に記憶されている場合を示す。知覚表現得点は、通常、1人又は複数の評価者が学習話者の音声を聴いて、その評価者の感覚に基づいて採点を行う。知覚表現得点は評価者の主観に依存するため、評価者によりその傾向が異なると考えられる。そこで、知覚表現得点は基準音響モデルの音声、すなわち平均声モデルM0の音声との相対的な差異により表す。

0033

例えば、学習話者IDがM001である話者の知覚表現得点は、性別が+5.3、年齢が+2.4、明るさが−3.4、太さが+1.2、明瞭さが+0.9である。図2の例では、知覚表現の得点は、平均声モデルM0から合成される音声の得点を基準(0.0)として表現されている。また得点の数値が大きい程、傾向が強いことを示す。なお性別の知覚表現得点は、プラスの場合、男性の声質の傾向が強いことを示し、マイナスの場合、女性の声質の傾向が強いことを示す。

0034

なお知覚表現得点を付与する際の具体的な方法は適宜定めてよい。

0035

例えば、各評価者に、学習話者の原音又は合成音声と、平均声モデルM0から合成された音声と、を別々に採点してもらった後、学習話者の知覚表現得点から平均声モデルM0から合成された音声の知覚表現得点を引くことにより、知覚表現得点を付与してもよい。

0036

また例えば、各評価者に学習話者の原音又は合成音声と、平均声モデルM0から合成された音声と、を続けて聴いてもらい、学習話者の音声と、平均声モデルM0から合成された音声との差を示す知覚表現得点を直接、各評価者に付与してもらってもよい。

0037

知覚表現得点情報103は、各評価者により付与された知覚表現得点の平均を学習話者毎に記憶する。なお記憶部1は、知覚表現得点情報103を、更に発話毎に記憶してもよい。また記憶部1は、知覚表現得点情報103を、更に発話様式毎に記憶してもよい。発話様式は、例えば読み上げ調、対話調及び感情付き発話等である。

0038

知覚表現音響モデル104は、学習部3により学習話者及び知覚表現毎に学習される。学習部3は、例えば学習話者IDがM001である学習話者の知覚表現音響モデル104として、声の性別の観点で性別音響モデルを学習し、声の年齢の観点で年齢音響モデルを学習し、声の明るさの観点で明るさ音響モデルを学習し、声の太さの観点で太さ音響モデルを学習し、声の明瞭さの観点で明瞭さ音響モデルを学習する。

0039

学習部3は、学習話者情報102及び知覚得点情報103により表された学習話者の声質の特徴と、基準音響モデル101(平均声モデルM0)と、から学習話者の知覚表現音響モデル104を学習し、当該知覚表現音響モデル104を記憶部1に記憶する。

0040

以下、知覚表現音響モデル104の学習処理の例について具体的に説明する。

0041

図3は第1実施形態の学習処理の例を示すフローチャートである。はじめに、学習部3が、知覚表現音響モデル104の初期モデルを構築する(ステップS1)。

0042

具体的には、初期モデルは、基準音響モデル101(平均声モデルM0)、学習話者情報102に含まれる各学習話者の音響モデル、及び、各学習話者の知覚表現得点情報103を用いて構築される。初期モデルは重回帰HSMM型のモデルである。

0043

ここで、重回帰HSMMについて簡単に説明する。なお重回帰HSMMの詳細は、例えば非特許文献1に記載されている。重回帰HSMMは、音響モデルが有するHSMMの出力分布N(μ,Σ)の平均ベクトル、及び、継続長分布N(μ,Σ)の平均ベクトルを、知覚表現得点、回帰行列及びバイアスベクトルにより表現するモデルである。

0044

すなわち、音響モデルに含まれるある正規分布の平均ベクトルは下記式(1)により表される。

0045

0046

ここでEはI行、C列の回帰行列である。Iは学習話者の数を示す。Cは知覚表現の種類を示す。w=[w1,w2,…,wc]Тは、C個の成分を有する知覚表現得点ベクトルである。C個の成分のそれぞれは、対応する知覚表現の得点を示す。なおTは転置を示す。bはI個の成分を有するバイアスベクトルである。

0047

回帰行列Eに含まれるC個の列ベクトル{e1,e2,…,eC}は、それぞれが知覚表現に対応する要素を表す。以下、回帰行列Eに含まれる列ベクトルを要素ベクトルという。例えば、知覚表現の種類が上述の図2の例の場合、回帰行列Eは、性別に対応する要素ベクトルe1、年齢に対応する要素ベクトルe2、明るさに対応する要素ベクトルe3、太さに対応する要素ベクトルe4、及び、明瞭さに対応する要素ベクトルe5を含む。

0048

知覚表現音響モデル104では、各知覚表現音響モデルのパラメータが重回帰HSMMの回帰行列Eの要素ベクトルeiに相当するものを保持しているため、回帰行列Eを知覚表現音響モデル104の初期パラメータとして利用できる。ところで、通常、重回帰HSMMは、回帰行列E(要素ベクトル)及びバイアスベクトルを、ある最適化基準、例えば尤度最大化基準及び最小二乗誤差基準等に基づいて、回帰行列E及びバイアスベクトルを求める。このとき得られるバイアスベクトルは、計算時に用いる最適化基準において、計算に用いるデータを最も効率よく表現できる値となる。すなわち、重回帰HSMMではモデル学習に用いる音響データが表現する音響空間の中心となるような値が計算される。

0049

ところで、重回帰HSMMにおける音響空間の中心であるバイアスベクトルは、音声に対する人の知覚を基準として求められていないため、重回帰HSMMが表す音響空間の中心と、音声に対する人の知覚を表す空間の中心が一致する保証がない。一方、知覚表現得点ベクトルは、平均声モデルM0から合成した音声と、学習話者の音声と、の間の知覚的な声質の差異を表している。そのため、音声に対する人の知覚を基準とした場合の音響空間の中心は平均声モデルM0であるとみなせる。

0050

そこで、平均声モデルM0の平均パラメータを重回帰HSMMのバイアスベクトルとして用いることで、知覚空間の中心と音響空間の中心を明に一致させてモデルの構築を行う。

0051

それでは、初期モデルの具体的な構築方法について述べる。ここでは最小二乗誤差基準により初期モデルを構築する場合を例にして説明する。

0052

まず、学習部3は、基準音響モデル101の平均声モデルM0、及び、学習話者情報102に含まれる各学習話者の音響モデルから、HSMMの出力分布を表す正規分布、及び、継続長分布を表す正規分布を取得する。そして学習部3は、各正規分布から平均ベクトルを抽出し、当該平均ベクトルを連結する。

0053

図4は第1実施形態の平均ベクトル203の抽出・連結処理の例の概要を示す図である。図4に示されるように決定木201のリーフノードには、あるコンテキスト情報に対応する音響特徴を表す正規分布202が対応付けられている。なおP1からP12までの記号は各正規分布202のインデックスを表す。

0054

まず学習部3は、各正規分布202から平均ベクトル203を抽出する。次に学習部3は、各平均ベクトル203を正規分布202のインデックスに従い、インデックスが昇順又は降順になるように平均ベクトル203を連結することにより、連結平均ベクトル204を構築する。

0055

学習部3は、上述の図4の平均ベクトルの抽出・連結処理を、基準音響モデル101の平均声モデルM0、及び、学習話者情報102に含まれる各学習話者の音響モデルに対して行う。ここで、平均声モデルM0及び各学習話者の音響モデルは、前述の通り、同一の構造を有する。すなわち、音響モデル内の決定木は同じ形状を有するので、このとき得られるすべての連結平均ベクトルの各成分は、各連結平均ベクトル間で音響的に対応がとれたものになる。すなわち、連結平均ベクトルの各成分は、同じコンテキスト情報に関する正規分布に対応する。

0056

次に、連結平均ベクトルを目的変数、知覚表現得点ベクトルを説明変数として、下記式(2)により、最小二乗誤差基準で回帰行列Eを求める。

0057

0058

ここで、sは学習話者情報102に含まれる各学習話者の音響モデルを識別するインデックスを表す。w(s)は、各学習話者の知覚表現得点ベクトルを表す。μ(s)は、各学習話者の音響モデルの連結平均ベクトルを表す。μ(0)は平均声モデルM0の連結平均ベクトルを表す。

0059

式(2)により、下記式(3)の回帰行列Eが得られる。

0060

0061

式(3)により得られる各回帰行列Eの各要素ベクトル(列ベクトル)成分は、平均声モデルM0の平均ベクトルと、各知覚表現得点により表現される音声と、の音響的な差異を示す。そのため、各要素ベクトル成分を、知覚表現音響モデル104が保持する平均パラメータとみなすことができる。

0062

また、各要素ベクトル成分は、平均声モデルM0と同一の構造を持つ学習話者の音響モデルから作られたものであるため、各要素ベクトル成分は、平均声モデルM0と同一の構造を保持しているとみなせる。そこで、学習部3は、各要素ベクトル成分を知覚表現音響モデル104の初期値として用いる。

0063

図5は第1実施形態の回帰行列Eと知覚表現音響モデル104との対応の例を示す図である。学習部3は、回帰行列Eの列ベクトル(要素ベクトル{e1,e2,…,e5})を、知覚表現音響モデル104(104a〜104e)へと変換し、各知覚表現音響モデルの初期値とする。

0064

ここで、回帰行列Eの要素ベクトル{e1,e2,…,e5}を、知覚表現音響モデル104(104a〜104e)へ変換する方法について説明する。学習部3は、上述の図4で説明した平均ベクトルの抽出・連結処理と逆の処理を行う。ここで、回帰行列Eの計算に用いられた連結平均ベクトルの各成分は、連結平均ベクトルに含まれる平均ベクトルに対応する正規分布のインデックス番号が同じ順番となるように構築されている。また、回帰行列Eの各要素ベクトルe1〜e5が有する各成分は、図4に示す連結平均ベクトルと同じ順番になっており、連結平均ベクトルに含まれる各平均ベクトルに対応する各正規分布と対応する。そのため、学習部3は、回帰行列Eの各要素ベクトルe1〜e5から、平均声モデルM0の正規分布のインデックスに対応する成分を抽出し、当該インデックスに対応する平均声モデルM0の正規分布の平均ベクトルと入れ替えることにより、知覚表現音響モデル104の初期モデルを与える。

0065

以下、知覚表現音響モデル104をMP={M1,M2,…,Mc}で表す。ここでCは知覚表現の種類を示す。なお、s番目の学習話者の音響モデルM(s)は、平均声モデルM0、知覚表現音響モデル104(MP={M1,M2,…,Mc})、及び、s番目の学習話者の知覚表現ベクトルw(s)=[w1(s),w2(s),…,wI(s)]を用いると、下記式(4)により表現できる。

0066

0067

図3戻り、学習部3は、知覚表現音響モデル104のモデルパラメータの更新回数を表す変数lを1に初期化する(ステップS2)。次に、学習部3は、更新対象の知覚表現音響モデル104(Mi)を識別するインデックスiを1に初期化する(ステップS3)。

0068

次に、学習部3は、コンテキストクラスタリングによるi番目の知覚表現音響モデル104の決定木の構築を行うことにより、モデル構造の最適化を行う(ステップS4)。具体的には、学習部3は、例えば決定木の構築方法として、共有決定木コンテキストクラスタリングを用いる。なお共有決定木コンテキストクラスタリングの詳細は、非特許文献4に記載されている。

0069

ここでは、ステップS4の共有決定木コンテキストクラスタリングの概要と、非特許文献3との差異について述べる。

0070

共有決定木コンテキストクラスタリングは、複数の学習話者のデータを用いた場合に、次の2つの条件を考慮して決定木のノード分割を実行する。

0071

(1)分割後の2つのノードにすべての話者のデータが存在している。

0072

(2)ノード分割において最小記述長(MDL)基準を満たす。

0073

なおMDLとは、情報理論におけるモデル選択基準の一つであり、モデルの対数尤度及びモデルパラメータ数で決定される指標である。HMMに基づく音声合成では、ノード分割によりMDLが増加する場合にノード分割を停止するという条件でクラスタリングを行う。

0074

非特許文献3では、学習話者の尤度として学習話者のデータのみで構築した話者依存の音響モデルに対する学習話者の尤度を用いている。

0075

一方、ステップS4では、学習部3は、学習話者の尤度として、上述の式(4)で与えられる学習話者の音響モデルM(s)に対する学習話者の尤度を用いる。

0076

以上の条件により、学習部3は、i番目の知覚表現音響モデル104の決定木を構築し、i番目の知覚表現音響モデル104が有する分布の数の最適化を行う。なお、ステップS4で得られる知覚表現音響モデルM(i)の決定木の構造(分布の数)は、他の知覚表現音響モデルM(j)(i≠j)が有する分布の数、及び、平均声モデルM0が有する分布の数と異なるものとなる。

0077

次に、学習部3は、インデックスiが、C+1(Cは知覚表現の種類)より小さいか否かを判定する(ステップS5)。インデックスiが、C+1より小さい場合(ステップS5、Yes)、学習部3は、iをインクリメントし(ステップS6)、ステップS4に戻る。

0078

インデックスiが、C+1以上の場合(ステップS5、No)、学習部3は、知覚表現音響モデル104のモデルパラメータを更新する(ステップS7)。具体的には、学習部3は、尤度最大化基準を満たす更新アルゴリズムを使用して、知覚表現音響モデル104(M(i)、iはC以下の整数)のモデルパラメータを更新する。尤度最大化基準を満たす更新アルゴリズムは、例えばEMアルゴリズムである。より具体的には、平均声モデルM0と、各知覚表現音響モデル(M(i)、iはC以下の整数)が有するモデル構造と、は異なるため、パラメータ更新法として、非特許文献5に記載されている平均パラメータの更新法を適用する。

0079

非特許文献5に記載の平均パラメータの更新法は、クラスタ適応学習に基づく音声合成における各クラスタが持つ平均パラメータを更新する方法である。例えば、i番目の知覚表現音響モデル104(Mi)において、決定木のn番目のリーフノードMi(n)が有する分布のパラメータei,nの更新は、この分布に属する全てのコンテキストの統計量が用いられる。

0080

更新されるパラメータは下記式(5)の通りである。

0081

0082

ここで、Gij(m)、ki(m)及びui(m)は、下記式(6)〜(8)により表される。

0083

0084

0085

0086

またOt(s)は学習話者sの時刻tの音響データ、γt(s)(m)は時刻tにおける学習話者sのコンテキストmに関する占有確率、μ0(m)は平均声モデルM0のコンテキストmに対応する平均ベクトル、Σ0(m)は平均声モデルM0のコンテキストmに対応する共分散行列、ej(m)はj番目の知覚表現音響モデル104のコンテキストmに対応する要素ベクトルである。

0087

学習部3は、ステップS7では、各話者の知覚表現得点情報103、及び、平均声モデルM0のモデルパラメータの更新は一切行わず、知覚表現のパラメータのみを更新するため、知覚表現の中心とのずれを生じさせることなく、精度よく知覚表現音響モデル104を学習することができる。

0088

次に、学習部3は、尤度変化量Dを計算する(ステップS8)。具体的には、学習部3は、モデルパラメータの更新前後の尤度の変化を求める。まず、学習部3は、モデルパラメータの更新前に、上述の式(4)で表される学習話者の音響モデルM(s)について、対応する学習話者のデータの尤度を学習話者の人数分、計算し、その和を取る。次に、学習部3は、モデルパラメータの更新後に、同様の方法で尤度の和を計算し、更新前の尤度との差Dを計算する。

0089

次に、学習部3は、尤度変化量Dが所定の閾値Thよりも小さいか否かを判定する(ステップS9)。尤度変化量Dが所定の閾値Thより小さい場合(ステップS9、Yes)、処理は終了する。

0090

尤度変化量Dが所定の閾値Th以上の場合(ステップS9、No)、学習部3は、モデルパラメータの更新回数を表す変数lが、更新回数の最大値Lより小さいか否かを判定する(ステップS10)。モデルパラメータの更新回数を表す変数lが、更新回数の最大値L以上の場合(ステップS10、No)、処理は終了する。更新回数の最大値Lより小さい場合(ステップS10、Yes)、学習部3は、lをインクリメントし(ステップS11)、ステップS3に戻る。

0091

図1に戻り、学習部3は、図3に示す学習処理を行うことにより学習された知覚表現音響モデル104を、記憶部1に記憶する。

0092

以上の説明を要約すると、知覚表現音響モデル104は、各学習話者の知覚表現得点ベクトルと、各学習話者のコンテキストに基づいてクラスタリングされた音響データ(継続長情報)と、平均声モデルの出力分布(継続長分布)とから、平均声と、各知覚表現に対応する特徴を表す音響データ(継続長情報)との差分を、知覚表現毎にモデル化したものである。

0093

知覚表現音響モデル104は、従来のHMMに基づく音声合成と同様に、決定木、HMMの各状態の出力分布及び継続長分布を持つ。ただし、知覚表現音響モデル104の出力分布及び継続長分布は平均パラメータのみを持つ。

0094

以上説明したように、第1実施形態の学習装置100では、学習部3が、基準音響モデル101(平均声モデルM0)と、学習話者情報102と、知覚表現得点情報103と、から、上述の学習処理により、1以上の知覚表現に対応する1以上の知覚表現音響モデル104を学習する。これにより第1実施形態の学習装置100によれば、音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行うことができる知覚表現音響モデル104を学習することができる。

0095

(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態の知覚表現音響モデル104を使用して音声合成を行う音声合成装置200について説明する。

0096

図6は第2実施形態の音声合成装置200の機能構成の例を示す図である。第2実施形態の音声合成装置200は、記憶部11、編集部12、入力部13及び合成部14を備える。記憶部11は、知覚表現得点情報103、知覚表現音響モデル104、目標話者音響モデル105及び目標話者音声106を記憶する。

0097

知覚表現得点情報103は、第1実施形態の説明と同様である。第2実施形態の音声合成装置200では、合成音声の話者性を制御する重みを示す情報として、編集部12により利用される。

0098

知覚表現音響モデル104は、第1実施形態の学習装置100により学習された音響モデルの一部又は全部である。

0099

目標話者音響モデル105は、話者性の制御を行う対象となる目標話者の音響モデルである。目標話者音響モデル105は、HMMに基づく音声合成で用いられているモデルと同様の形式を有する。目標話者音響モデル105は任意でよい。目標話者音響モデル105は、例えば知覚表現音響モデル104の学習に利用した学習話者の音響モデルでもよいし、学習に利用していない話者の音響モデルでもよいし、平均声モデルM0でもよい。

0100

編集部12は、知覚表現得点情報103及び知覚表現音響モデル104によって表現される話者性を、目標話者音響モデル105に付与することにより、目標話者音響モデル105を編集する。具体的には、編集部12は、上述の式(4)と同様にして、各知覚表現音響モデル104(MP={M1,M2,…,Mc})に対して、知覚表現得点情報103による重みづけを行い、目標話者音響モデル105との和をとる。これにより話者性が付与された目標話者音響モデル105が得られる。編集部12は、話者性が付与された目標話者音響モデル105を合成部14に入力する。

0101

入力部13は、任意のテキストの入力を受け付け、当該テキストを合成部14に入力する。

0102

合成部14は、編集部12から話者性が付与された目標話者音響モデル105を受け付け、入力部13からテキストを受け付けると、話者性が付与された目標話者音響モデル105を用いて、テキストの音声合成を行う。具体的には、まず、合成部14は、テキストの言語解析を行うことにより、テキストからコンテキスト情報を抽出する。次に、合成部14は、コンテキスト情報に基づいて、話者性が付与された目標話者音響モデル105から、合成に必要なHSMMの出力分布及び継続長分布を選択する。次に、合成部14は、選択されたHSMMの出力分布及び継続長分布を使用して、パラメータの生成を行うことにより、音響データ系列を取得する。次に、合成部14は、音響データ系列からボコーダにより音声波形を合成し、当該音声波形を目標話者音声106として、記憶部11に記憶する。

0103

次に第2実施形態の音声合成方法について説明する。

0104

図7は第2実施形態の音声合成方法の例を示すフローチャートである。はじめに、編集部12が、知覚表現得点情報103及び知覚表現音響モデル104によって表現される話者性を、目標話者音響モデル105に付与することにより、目標話者音響モデル105を編集する(ステップS21)。次に、入力部13が、任意のテキストの入力を受け付ける(ステップS22)。次に、合成部14が、ステップS21の処理により、話者性が付与された目標話者音響モデル105を用いて、ステップS22の処理により、入力を受け付けたテキストの音声合成を行うことにより、目標話者音声106を取得する(ステップS23)。次に、合成部14が、ステップS22の処理により取得された目標話者音声106を記憶部11に記憶する(ステップS24)。

0105

以上説明したように、第2実施形態の音声合成装置200では、編集部12が、知覚表現得点情報103と、知覚表現音響モデル104と、によって表現される話者性を、目標話者音響モデル105に付与することにより、目標話者音響モデル105を編集する。そして合成部14が、編集部12により話者性が付与された目標話者音響モデル105を用いて、テキストの音声合成を行う。これにより第2実施形態の音声合成装置200によれば、音声を合成する際に行われる話者性の制御を、ユーザの意図した通りに精度良く行うことができるので、ユーザが意図した所望の目標話者音声106を取得することができる。

0106

最後に、第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200のハードウェア構成の例について説明する。

0107

図8は第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200のハードウェア構成の例を示す図である。第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200は、制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305、通信装置306及びスピーカー307を備える。制御装置301、主記憶装置302、補助記憶装置303、表示装置304、入力装置305、通信装置306及びスピーカー307は、バス310を介して接続されている。

0108

制御装置301は補助記憶装置303から主記憶装置302に読み出されたプログラムを実行する。主記憶装置302はROM及びRAM等のメモリである。補助記憶装置303はメモリカード及びSSD(Solid State Drive)等である。

0109

表示装置304は情報を表示する。表示装置304は、例えば液晶ディスプレイである。入力装置305は、情報の入力を受け付ける。入力装置305は、例えばキーボード及びマウス等である。なお表示装置304及び入力装置305は、表示機能入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置306は他の装置と通信する。スピーカー307は音声を出力する。

0110

第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルCD−ROM、メモリカード、CD−R及びDVD(Digital Versatile Disk)等のコンピュータ読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

0111

また第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

0112

また第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。

0113

第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200で実行されるプログラムは、上述の第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。

0114

プログラムにより実現される機能は、制御装置301が補助記憶装置303等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置302にロードされる。すなわちプログラムにより実現される機能は、主記憶装置302上に生成される。

0115

なお第1実施形態の学習装置100、及び、第2実施形態の音声合成装置200の機能の一部又は全部を、IC(IntegratedCircuit)等のハードウェアにより実現してもよい。

0116

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

0117

1 記憶部
2 取得部
3 学習部
100学習装置
101基準音響モデル
102 学習話者情報
103知覚表現得点情報
104 知覚表現音響モデル
104a性別音響モデル
104b年齢音響モデル
104c 明るさ音響モデル
104d 太さ音響モデル
104e 明瞭さ音響モデル
105目標話者音響モデル
106目標話者音声
301制御装置
302主記憶装置
303補助記憶装置
304表示装置
305入力装置
306通信装置
307スピーカー
310 バス

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • ソニー株式会社の「 情報処理装置および電子機器」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の... 詳細

  • グーグルエルエルシーの「 オーディオベースのコンピュータプログラム出力の修正」が 公開されました。( 2020/09/24)

    【課題・解決手段】音声または非テキスト入力アクティブ化環境においてコンピュータプログラム出力を修正することが提供される。システムは、デバイスのマイクロフォンによって検出されるオーディオ信号を受信するこ... 詳細

  • グーグルエルエルシーの「 ホットワード認識音声合成」が 公開されました。( 2020/09/24)

    【課題・解決手段】方法(400)は、合成音声(160)に変換するためのテキスト入力データ(302)を受信することと、ユーザデバイス(110)に割り当てられているホットワード(130)の存在を検出するよ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ