図面 (/)

技術 発話リズム変換装置、方法及びプログラム

出願人 日本電信電話株式会社
発明者 廣谷定男
出願日 2015年5月26日 (5年5ヶ月経過) 出願番号 2015-106228
公開日 2016年12月22日 (3年11ヶ月経過) 公開番号 2016-218386
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード サンプリング点間 変換則 中心時刻 入力音声特徴 二グループ 平均値ベクトル 息継ぎ 混合数
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年12月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (4)

課題

発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換技術を提供する。

解決手段

ガウス混合モデル生成部3が、第一特徴抽出部1で求まったその音素の発話リズムと、第二特徴抽出部2で求まったその音素の発話リズムとを少なくとも要素とする発話リズム変換則ベクトルを表すガウス混合モデルを学習する。重み決定部5が、入力音声特徴抽出部4で求まった発話リズムに第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。変換部6は、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布平均値を重みを用いて重み付き加算することにより、変換後の発話リズムを求める。音声合成部7は、変換後の発話リズムを用いて、音声を合成する。

概要

背景

第二外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語母語話者は、英語母語話者の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、アクセントイントネーション発音発話リズムなどがあるが、これらの違いの克服が、第二外国語での音声コミュニケーションの問題解決に貢献すると考えられる。

これまで、日本語母語話者の発声した英語音声の発話リズムを変換し、ネイティブに聞き取り易くする技術が提案されてきた(例えば、非特許文献1)。しかしながら、発話リズムの変換には、予めネイティブが同一文章を発声した音声が必要であり、任意の英語文章に対して発話リズムを変換することは困難であった。

概要

発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換技術を提供する。ガウス混合モデル生成部3が、第一特徴抽出部1で求まったその音素の発話リズムと、第二特徴抽出部2で求まったその音素の発話リズムとを少なくとも要素とする発話リズム変換則ベクトルを表すガウス混合モデルを学習する。重み決定部5が、入力音声特徴抽出部4で求まった発話リズムに第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。変換部6は、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布平均値を重みを用いて重み付き加算することにより、変換後の発話リズムを求める。音声合成部7は、変換後の発話リズムを用いて、音声を合成する。

目的

この発明の目的は、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換装置、方法及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

一グループ話者が読み上げたテキスト音声信号から、その音声信号の各音素発話リズムを求める第一特徴抽出部と、第二グループの話者が読み上げた上記テキストの音声信号から、その音声信号の各音素の発話リズムを求める第二特徴抽出部と、ある音素についての発話リズム変換則ベクトルを、上記第一特徴抽出部で求まったその音素の発話リズムと、上記第二特徴抽出部で求まったその音素の発話リズムとを少なくとも要素とするベクトルとして、上記第一特徴抽出部で求まった発話リズムと上記第二特徴抽出部で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習するガウス混合モデル生成部と、入力された音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、上記ガウス混合モデルの中の、上記第一特徴抽出部で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、上記入音声特徴抽出部で求まった発話リズムに上記第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの重みを求める重み決定部と、上記ガウス混合モデルの中の、上記第二特徴抽出部で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、上記第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布平均値を上記重みを用いて重み付き加算することにより、変換後の発話リズムを求める変換部と、上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成部と、を含む発話リズム変換装置

請求項2

第一特徴抽出部が、第一グループの話者が読み上げたテキストの音声信号から、その音声信号の各音素の発話リズムを求める第一特徴抽出ステップと、第二特徴抽出部が、第二グループの話者が読み上げた上記テキストの音声信号から、その音声信号の各音素の発話リズムを求める第二特徴抽出ステップと、ガウス混合モデル生成部が、ある音素についての発話リズム変換則ベクトルを、上記第一特徴抽出部で求まったその音素の発話リズムと、上記第二特徴抽出部で求まったその音素の発話リズムとを少なくとも要素とするベクトルとして、上記第一特徴抽出部で求まった発話リズムと上記第二特徴抽出部で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習するガウス混合モデル生成ステップと、入力音声特徴抽出部が、入力された音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出ステップと、重み決定部が、上記ガウス混合モデルの中の、上記第一特徴抽出部で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、上記入力音声特徴抽出部で求まった発話リズムに上記第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの重みを求める重み決定ステップと、変換部が、上記ガウス混合モデルの中の、上記第二特徴抽出部で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、上記第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値を上記重みを用いて重み付き加算することにより、変換後の発話リズムを求める変換ステップと、音声合成部が、上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成ステップと、を含む発話リズム変換方法

請求項3

請求項1の発話リズム変換装置の各部としてコンピュータを機能させるためのプログラム

技術分野

0001

この発明は、音声信号発話リズムを変換する技術に関する。

背景技術

0002

第二外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語母語話者は、英語母語話者の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、アクセントイントネーション発音、発話リズムなどがあるが、これらの違いの克服が、第二外国語での音声コミュニケーションの問題解決に貢献すると考えられる。

0003

これまで、日本語母語話者の発声した英語音声の発話リズムを変換し、ネイティブに聞き取り易くする技術が提案されてきた(例えば、非特許文献1)。しかしながら、発話リズムの変換には、予めネイティブが同一文章を発声した音声が必要であり、任意の英語文章に対して発話リズムを変換することは困難であった。

先行技術

0004

廣谷定, “発話リズムを抽出・制御する音声信号処理”,NTT技術ジャーナル, 2013, pp.26-29.

発明が解決しようとする課題

0005

非特許文献1の方法により発話リズム変換を行う場合、予めネイティブが同一文章を発声した音声から、目標となる発話リズムを求めておく必要があった。すなわち、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号が必要であった。

0006

この発明の目的は、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる発話リズム変換装置、方法及びプログラムを提供することである。

課題を解決するための手段

0007

この発明の一態様による発話リズム変換装置は、第一グループ話者が読み上げたテキストの音声信号から、その音声信号の各音素の発話リズムを求める第一特徴抽出部と、第二グループの話者が読み上げたテキストの音声信号から、その音声信号の各音素の発話リズムを求める第二特徴抽出部と、ある音素についての発話リズム変換則ベクトルを、第一特徴抽出部で求まったその音素の発話リズムと、第二特徴抽出部で求まったその音素の発話リズムとを少なくとも要素とするベクトルとして、第一特徴抽出部で求まった発話リズムと第二特徴抽出部で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習するガウス混合モデル生成部と、入力された音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、ガウス混合モデルの中の、第一特徴抽出部で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部で求まった発話リズムに第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める重み決定部と、ガウス混合モデルの中の、第二特徴抽出部で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布平均値を重みを用いて重み付き加算することにより、変換後の発話リズムを求める変換部と、変換後の発話リズムと、入力された音声の特徴量とを用いて、音声を合成する音声合成部と、を備えている。

発明の効果

0008

発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも、発話リズムの変換を行うことができる。

図面の簡単な説明

0009

発話リズム変換装置の例を説明するためのブロック図。
発話リズム変換方法の例を説明するための流れ図。
時間関数φk(t)を説明するための図。

実施例

0010

[実施形態]
以下、図面を参照して、この発明の一実施形態について説明する。発話リズム変換装置は、図1に示すように、第一特徴抽出部1、第二特徴抽出部2、ガウス混合モデル生成部3、入力音声特徴抽出部4、重み決定部5、変換部6及び音声合成部7を例えば備えている。発話リズム変換装置の各部が、図2の発話リズム変換ステップの処理を行うことにより、発話リズム変換方法が実現される。

0011

〔発話リズムの学習〕
<第一特徴抽出部1,第二特徴抽出部2>
第一グループの話者にテキストを読み上げてもらい、その音声信号(以下、「第一音声信号」とする。)を第一特徴抽出部1に入力する。

0012

同様に、第二グループの話者に上記テキストと同じテキストを読み上げてもらい、その音声信号(以下、「第二音声信号」とする。)を第二特徴抽出部2に入力する。上記テキストは、少なくとも1個の文章を含むとする。

0013

第一グループの話者の人数及び第二グループの話者の人数は、それぞれ少なくとも1人以上とする。

0014

第一グループの話者とは例えば日本語母語話者であり、第二グループの話者とは例えば英語母語話者である。以下、第一グループの話者が日本語母語話者であり、第二グループの話者が英語母語話者である場合を例に挙げて説明する。

0015

第一特徴抽出部1は、第一音声信号に対して音素のラべリングを行う。この例では、第一音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

0016

第一音声信号、言い換えれば、この例では日本語母語話者の英語音声に対しては、日本語母語話者英語特有の挿入母音を特別な音素として割り当ててもよい。例えば、英単語’round’の最後の/d/を日本語母語話者は/ド/と発声するため、/d/の後ろに/o/を割り当ててもよい。また、息継ぎのタイミングの変換を行うために、無音を表す特別な音素を割り当ててもよい。

0017

同様に、第二特徴抽出部2は、第二音声信号に対して音素のラべリングを行う。この例では、第二音声信号に対応した英語の音素を割り当てる。音声信号に対する音素のラべリングは、既存の技術を用いればよい。

0018

つぎに、第一特徴抽出部1は、時系列信号Yである第一音声信号から声道スペクトルy(例えば、p次のLSPパラメータ)を抽出し、音素ラベルを用いて、非負値時空間分解法(例えば、参考文献1参照。)により、

0019

0020

二乗誤差を最小にするΦを決定する。すなわち、yi(t)とyi(tk-1)φk-1(t)+ yi(tk)φk(t)との二乗誤差を最小にするΦを決定する。

0021

≪参考文献1≫S. Hiroya, “Non-negative temporal decomposition of speech parameters by multiplicative update rules”,IEEE Trans. Audio, Speech, Lang. Process., 2013, pp.2108-2117.
ここで、時系列信号Yの時間長をTとし、、時刻を表すインデックスをtとし、Y={Y(1),…,Y(t),…,Y(T)}とする。LSPパラメータの分析次数総数をp、分析次数を表すインデックスをiとすると、Y(t)={y1(t),…,yi(t),…,yp(t)}である。よって、yi(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータyi(t)とも記載する。

0022

また、Φ={Φ(1),…,Φ(t),…,Φ(T)}であり、時系列信号Yに対応する音声データに含まれる音素の総数を(K-2)とし、kを音素を表すインデックス、k=1,…,Kとすると(ただし、k=1、k=Kをそれぞれ始まりと終わりを表すインデックスとする)、Φ(t)={φ1(t),…,φk(t),…,φK(t)}である。φk(t)は時刻tにおける音素kの時間関数の値を表し、単に時間関数φk(t)とも記載する。tkは、音素kの中心時刻を表す。

0023

時刻tk-1≦t≦tk+1において、φk(t)は単峰性かつ[0,1]の範囲の値をとる。ここで、時刻tk-1≦t≦tk+1において、φk(t)の値が0.5となる時刻が2つ存在するが、それぞれtsとteとすると、Dk=te-ts+1は当該音素の継続時間長と考えることができる。Dkについては、図3を参照のこと。図3において横軸は時刻を表し、縦軸は大きさをφk(t)の大きさを表す。図3破線はφk-1(t)を表し、太線はφk+1(t)を表す。φk(t)が単峰性であるとは、時間関数φk(t)を時間tで2回微分した関数φk''(t)が、時刻tk-1≦t≦tk+1においてφk''(t)≦0であることを意味する。D={D1,…,Dk,…,DK}とする。

0024

隣り合う音素のみが影響を及ぼすことを考慮して、発話リズム(Φ,D)は音素単位表現されている。

0025

第一特徴抽出部1は、tsとteの間を予め決められた点数N(例えばN=30)で、[0.5,1,0.5]の範囲の音素k(k=1,2,…,K)のφk(t)をサンプリングし直しφk’とする。tsとteの間のサンプリング点を1,…,n,…,Nと表記すると、φk’={φk'(1),…,φk'(n),…, φk'(N)}である。Φ'={φ1’,…,φk’,…,φK’}として、第一特徴抽出部1が求めた、サンプリングし直された、第一音声信号についての発話リズム(Φ',D)を(ΦJ',DJ)と表記する。各音素kの発話リズム(ΦJ',DJ)は、ガウス混合モデル生成部3に出力される。

0026

第二特徴抽出部2は、第一特徴抽出部1と同様にして、第二音声信号から、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を求める。第二特徴抽出部2が求めた、サンプリングし直された、第二音声信号についての発話リズム(Φ',D)を(ΦE',DE)と表記する。各音素kの発話リズム(ΦE',DE)は、ガウス混合モデル生成部3に出力される。

0027

<ガウス混合モデル生成部3>
日本語母語話者及び英語母語話者の発話リズム(ΦJ',DJ)と(ΦE',DE)から、発話リズム変換則を求めることを考える。ここで、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeとする。すなわち、kj=keである。

0028

ガウス混合モデル生成部3は、音素kjの発話リズム(φJ,kj’,Dkj)と、音素keの発話リズム(φE,ke’,Dke)とをベクトルとして、ガウス混合モデル(GMM)により発話リズム変換則の学習を行う。混合数Mは、予め定められた正の整数である。例えばM=1024とする。

0029

すなわち、φJ,kj’=(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N))とし、φE,ke’=(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))として、ガウス混合モデル生成部3は、2N+2次元のベクトル(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N),Dkj, φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N),Dke)を、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeの全ての音素についての、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとを用いて学習する。

0030

ここで、φJ,kj’=(φJ,kj’(1),…,φJ,kj’(n),…,φJ,kj’(N))は、第一音声信号の音素kjについてのφk'=(φk’(1),…,φk’(n),…,φk’(N))である。また、φE,ke’=(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))は、第二音声信号の音素keについてのφk'=(φk’(1),…,φk’(n),…,φk’(N))である。

0031

このようにして、ある音素kj,keについての発話リズム変換則ベクトルを、第一特徴抽出部1で求まったその音素kjの発話リズム(φJ,kj’,Dkj)と、第二特徴抽出部2で求まったその音素に基づく発話リズム(φE,ke’,Dke)とを少なくとも要素とするベクトルとして、ガウス混合モデル生成部3は、第一特徴抽出部1で求まった発話リズムと第二特徴抽出部2で求まった発話リズムとから発話リズム変換則ベクトルを表すガウス混合モデルを学習する。生成されたガウス混合モデルは、重み決定部5に出力される。

0032

なお、発話リズム変換則ベクトルには、Dとφ’以外にも、声道スペクトル、文章の開始から何番目の音素かを表わすインデックス、無音であれば0、それ以外は1、または前後の音素におけるこれらのパラメータなどを加えてもよい。

0033

〔発話リズムの変換〕
<入力音声特徴抽出部4>
入力音声特徴抽出部4は、入力された、発話リズムの変換の対象となる音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める。求まった、各音素の発話リズムは重み決定部に出力され、特徴量は音声合成部7に出力される。

0034

発話リズムの変換の対象となる音声信号とは、この例では、日本語母語話者の英語の音声信号である。日本語母語話者が読み上げる英文のテキストは任意であり、学習で用いたテキストである必要はない。

0035

音声信号の特徴量は、例えば、p次のLSPパラメータである。

0036

入力音声特徴抽出部4による入力された音声信号についての各音素kの発話リズム(φk’,Dk)の求め方は、第一音声信号から第一特徴抽出部1による各音素kの発話リズム(φk’,Dk)の求め方と同様であるため、ここでは説明を省略する。

0037

なお、以下では、入力音声特徴抽出部4で求まった発話リズムを(φ’,D)と表記する。ここで、φ=(φ1’,…,φk’,…,φK’)であり、D={D1,…,Dk,…,DK}である。

0038

<重み決定部5>
重み決定部5は、ガウス混合モデル生成部3で生成されたガウス混合モデルの中の、第一特徴抽出部1で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部4で求まった各音素kの発話リズム(φk’,Dk)に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。求まった重みは変換部6に出力される。

0039

すなわち、重み決定部5は、
P(φk’,Dk) = Σm=1M πmN(φk’,Dk|λm)
を最大にするような重みπm(m=1,2,…,M。ただしΣm=1M πm=1)を求める。ここで、Nは第一ガウス混合モデルを構成するm番目のガウス分布であり、λmは第一ガウス混合モデルを構成するm番目のガウス分布の平均値及び分散であり、Mは混合数を表わす。

0040

そのために、重み決定部5は例えば、
πm = N(φk’,Dk|λm) /Σm=1M N(φk’,Dk|λm)
となる重みπm(m=1,2,…,M)を求める。この式により求まる重みπm(m=1,2,…,M)の和は1となる。

0041

なお、重み決定部5の処理は、入力音声特徴抽出部4で求まった各音素kについて行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する重みπm(m=1,2,…,M)が求まる。

0042

<変換部6>
変換部6は、ガウス混合モデルの中の、第二特徴抽出部2で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値ベクトルを重みπm(m=1,2,…,M)を用いて重み付き加算することにより、変換後の発話リズムを求める。

0043

すなわち、変換部6は、変換後の発話リズムである(φmod’,Dmod)を以下の式により求める。ここで、φμ,mは、第二ガウス混合分布の中の、(φE,ke’(1),…,φE,ke’(n),…,φE,ke’(N))に対応する次元のガウス分布のm番目のガウス分布の平均値ベクトルである。Dμ,mは、第二ガウス混合分布の中のDkeに対応する次元のガウス分布のm番目のガウス分布の平均値である。

0044

0045

変換部6の処理は、入力音声特徴抽出部4で求まった各音素kに対応する重みπm(m=1,2,…,M)ごとに行われる。これにより、入力音声特徴抽出部4で求まった各音素kに対応する(φmod’,Dmod)が求まる。

0046

なお、重み付け和を求める代わりに、最も大きい重みπmを1、それ以外を0とすることで変換を行ってもよい。この際、求められたある音素の音素継続長が、前後の音素の音素継続長と大きく異なり、不自然な音声が合成される可能性があることから、最も大きい重みπmを1とする代わりに、動的計画法により音素継続長の時間的連続性も考慮して求めたガウス分布の重みを1としてもよい。また、変換の際、日本語母語話者英語特有の挿入母音や無音に対応する発話リズムを取り除いても良い。

0047

<音声合成部7>
音声合成部7は、変換後の発話リズム(φmod’,Dmod)と、入力音声特徴抽出部4で求まった入力された音声の特徴量とを用いて、音声を合成する。

0048

そのために、音声合成部7は、まず、変換したφmod’とDmodより、[0.5,1,0.5]の範囲のφmodを求める。具体的には、φmod’={φmod’(1),…,φmod’(n),…,φmod’(N)}として、φmod’(1),…,φmod’(n),…,φmod’(N)を、Dmodに基づいて伸縮し、サンプリング点間の値を線形補間や、スプライン補間することにより、[0.5,1,0.5]の範囲のφmod(t)を求めることができる。

0049

つぎに、音声合成部7は、入力された音声信号の音素の順番に従ってφmod(t)を接続する。すなわち、音素kについてのφmod(t)をφmod,k(t)として、入力された音声信号の全ての音素についての各時刻tにおけるφmod,k(t)を求める。

0050

φmod,k-1(t),φmod,k(t),φmod,k+1(t)は[0.5,1,0.5]の範囲で定義されており、かつ、時間関数の定義よりφmod,k-1(t)+φmod,k(t)=1であるため、時刻tk-1≦t≦tsにおいてφmod,k-1(t)が決まれば、時刻tk-1≦t≦tsのφmod,k(t)は、φmod,k(t)=1-φmod,k-1(t)により計算することができる。また、時間関数の定義よりφmod,k(t)+φmod,k+1(t)=1であるため、時刻te≦t≦tk+1においてφmod,k+1(t)が決まれば、時刻te≦t≦tk+1におけるφmod,k(t)は、φmod,k(t)=1-φmod,k+1(t)により計算することができる。t<tk-1,t>tk+1のφmod,k(t)は0とする。これを、各音素kについてのφmod,k(t)について行うことにより、入力された音声信号の全ての音素についての各時刻tにおけるφmod,k(t)を求めることができる。

0051

そして、音声合成部7は、

0052

0053

により、発話リズムを変換した声道スペクトルを生成する。音声合成部7は、生成された声道スペクトルに基づいて音源信号たたみ込むことにより、発話リズムが変換された音声を生成する。

0054

非特許文献1では、目標となる発話リズムはネイティブのそれとなる。一方、この例による発話リズム変換では、日本語母語話者の音素情報と発話リズムを与え、目標となる発話リズムはGMMによる変換により求められる。つまり、非特許文献1では、同一文章発声においては、どの話者が発声しても同一の発話リズムに変換されてしまうが、この例による発話リズム変換では、話者の発話スタイル話速など)を考慮した発話リズムを目標として与えることができるため、より自然な音声を合成することが可能である。

0055

[変形例]
音声信号に対する音素ラべリングは、人手で行ってもよい。

0056

上記方法によりDmodを求めた場合、GMMの平均値が選ばれることとなり、文章全体として発話リズムにメリハリがない音声が出力される可能性がある。そこで、重み決定部5は、学習データに含まれる英語母語話者の1文章あたりの音素継続長の分散の平均値および分散をM,Vとして、
ωN(Dmod|λm) + N(Dmodの分散 | M,V)
を最大にするようなDmodを求めてもよい。これにより、英語母語話者のメリハリを与えるような音素継続長を求めることができる(例えば、参考文献2参照。)。ここで、ωは重みであり、例えば0.5とする。なお、上記関数は、最急降下法などを用いて最適化を行ってもよい。

0057

また、上記実施形態では、第一グループとして日本語母語話者、第二グループとして英語母語話者、テキストとして英語を用いたが、第一グループとしてイギリス英語母語話者、第二グループとしてアメリカ英語母語話者や、テキストとして日本語などを用いてもよい。

0058

≪参考文献2≫T. Toda, K. Tokuda, “A speech parameter generation algorithm considering global variance for HMM-based speech synthesis”,IEICE Trans. Inf. & Syst., 2007, pp.816-824.
[プログラム及び記録媒体]
発話リズム変換装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

0059

また、発話リズム変換装置における各処理をコンピュータによって実現する場合、発話リズム変換装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各処理がコンピュータ上で実現される。

0060

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置光ディスク光磁気記録媒体半導体メモリ等どのようなものでもよい。

0061

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

0062

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

0063

1 第一特徴抽出部
2 第二特徴抽出部
3ガウス混合モデル生成部
4入力音声特徴抽出部
5重み決定部
6 変換部
7音声合成部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ