図面 (/)

技術 大規模コーパスに基づく音声合成方法及び装置

出願人 バイドゥオンラインネットワークテクノロジー(ペキン)カンパニーリミテッド
発明者 リーシウリン
出願日 2014年12月26日 (5年1ヶ月経過) 出願番号 2014-264861
公開日 2016年1月12日 (4年1ヶ月経過) 公開番号 2016-004267
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 個数調整 構造境界 主モジュール 候補単位 訓練済み 訓練フェーズ 汎用計算装置 パラメータ合成
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年1月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

音声合成の自然さ及び柔軟性を向上させる、大規模コーパスに基づく音声合成方法及び装置を提供する。

解決手段

大規模コーパスに基づく音声合成方法は、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップS310と、当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップS320と、決定された韻律境界分割方式に従い音声合成を実行するステップS330と、を含む。

概要

背景

音声は、人間と機械コミュニケーションするための最もありふれた、且つ最も自然な手段である。テキスト入力音声出力に変換する技術は、テキスト音声(TTS)変換又は音声合成技術と呼ばれる。当該技術は、音響学言語学デジタル信号処理マルチメディア技術等、複数の分野に関係しており、中国における情報処理分野での最先端技術である。

図1に、従来技術による音声合成システム信号フローを示す。図1を参照すると、訓練フェーズにおいて、韻律構造予測モデル103、音響モデル104、及び候補単位105は、テキストコーパス101及び音声コーパス102内の注釈付きデータの訓練に基づいて得ることができる。韻律構造予測モデル103は音声合成フェーズにおいて韻律構造予測107の基準を提供し、音響モデル104は音声合成109を行う基礎となり、候補単位105は、波形接続型の音声合成109における共通の候補波形を得るソフトウェアユニットである。

音声合成フェーズでは第1に、入力テキストに対してテキスト解析106が実行され、次いで韻律構造予測モデル103に従い入力テキストに対して韻律構造予測107が実行され、次いで各種の音声合成パターン、すなわちパラメータ合成型の音声合成又は波形接続型の音声合成に応じてパラメータ予測/単位選択108が実行され、最後に、最終的な音声合成109が実行される。

概要

音声合成の自然さ及び柔軟性を向上させる、大規模コーパスに基づく音声合成方法及び装置を提供する。大規模コーパスに基づく音声合成方法は、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップS310と、当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップS320と、決定された韻律境界分割方式に従い音声合成を実行するステップS330と、を含む。

目的

テキスト解析モジュールは主として、コンピュータが入力テキストを完全に理解して、後の2つの部分が必要とする各種の発音プロンプトを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

規模コーパスに基づく音声合成方法であって、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、前記少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップと、決定された前記1つの韻律境界分割方式に従い音声合成を実行するステップとを含むことを特徴とする方法。

請求項2

前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項1に記載の方法。

請求項3

テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項2に記載の方法。

請求項4

前記少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する前記ステップが、前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得するステップと、前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算するステップと、前記出力確率が最大である代替的な韻律境界分割方式を、前記1つの韻律境界分割方式として決定するステップとを含むことを特徴とする、請求項1に記載の方法。

請求項5

前記少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律境界、又は音調句境界を含むことを特徴とする、請求項4に記載の方法。

請求項6

前記韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする、請求項4に記載の方法。

請求項7

前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算する前記ステップが、所定の重みパラメータに従い前記少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するステップを含むことを特徴とする、請求項4に記載の方法。

請求項8

大規模コーパスに基づく音声合成装置であって、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、前記少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する境界分割モジュールと、決定された前記1つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールとを備えることを特徴とする装置。

請求項9

前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項8に記載の装置。

請求項10

テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項9に記載の装置。

請求項11

前記境界分割モジュールが前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得する構造確率情報取得ユニットと、前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算する出力確率計算ユニットと、前記出力確率が最大である代替的な韻律境界分割方式を、前記1つの韻律境界分割方式として決定する境界分割方式決定ユニットとを備えることを特徴とする、請求項8に記載の装置。

請求項12

前記少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項11に記載の装置。

請求項13

前記韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする、請求項11に記載の装置。

請求項14

前記出力確率計算ユニットが特に、所定の重みパラメータに従い前記少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するために使用されることを特徴とする、請求項11に記載の装置。

技術分野

0001

本発明の実施形態は、テキスト音声変換の技術分野に関し、特に大規模コーパスに基づく音声合成方法及び装置に関する。

背景技術

0002

音声は、人間と機械コミュニケーションするための最もありふれた、且つ最も自然な手段である。テキスト入力音声出力に変換する技術は、テキスト音声(TTS)変換又は音声合成技術と呼ばれる。当該技術は、音響学言語学デジタル信号処理マルチメディア技術等、複数の分野に関係しており、中国における情報処理分野での最先端技術である。

0003

図1に、従来技術による音声合成システム信号フローを示す。図1を参照すると、訓練フェーズにおいて、韻律構造予測モデル103、音響モデル104、及び候補単位105は、テキストコーパス101及び音声コーパス102内の注釈付きデータの訓練に基づいて得ることができる。韻律構造予測モデル103は音声合成フェーズにおいて韻律構造予測107の基準を提供し、音響モデル104は音声合成109を行う基礎となり、候補単位105は、波形接続型の音声合成109における共通の候補波形を得るソフトウェアユニットである。

0004

音声合成フェーズでは第1に、入力テキストに対してテキスト解析106が実行され、次いで韻律構造予測モデル103に従い入力テキストに対して韻律構造予測107が実行され、次いで各種の音声合成パターン、すなわちパラメータ合成型の音声合成又は波形接続型の音声合成に応じてパラメータ予測/単位選択108が実行され、最後に、最終的な音声合成109が実行される。

発明が解決しようとする課題

0005

韻律構造予測を実行すべく既存の音声合成システムを採用することにより、幾つかの入力テキストに関して、入力テキストにより決定される韻律階層構造が既に得られている場合がある。しかし、音声の韻律階層構造は往々にして人々の実際のコミュニケーションにおける各種要因に影響を受ける。図2は、実際の人の声における韻律構造の影響因子原理を示す模式図である。図2を参照すると、実際の人の声の韻律構造は、特徴、感情基本周波数、及び話者の文の意味に影響され得る。一例として話者の特徴を挙げると、70男性発話の韻律構造は30歳の女性の発話の韻律構造とは異なる。

0006

従って、一様な韻律構造予測モデル103による予測を介して得られる文の韻律構造は柔軟性に乏しく、従って音声合成システムにより最終的に合成される音声は結果的に不自然なものになる。

課題を解決するための手段

0007

この目的のため、本発明の実施形態は、合成音声の自然さ及び柔軟性を向上させるべく大規模コーパスに基づく音声合成方法及び装置を提案する。

0008

第1の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成方法を提案するものであり、本方法は、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップと、
決定された1つの韻律境界分割方式に従い音声合成を実行するステップと
を含む

0009

第2の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成装置を提案するものであり、本装置は、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する境界分割モジュールと、
決定された1つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールと、
を備える。

0010

韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行し、次いで当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本発明の実施形態で提案する大規模コーパスに基づく音声合成を行う方法及び装置は、合成音声の自然さ及び柔軟性を向上させる。

0011

添付の図面を参照しながら、以下の非限定的な実施形態の詳細説明精査することにより、本発明の他の特徴、目的、及び利点がより明らかになろう。

図面の簡単な説明

0012

従来技術による音声合成システムの信号フローを示す構成図
従来技術における実際の人の声の韻律構造の影響因子の原理を示す模式図
本発明の第1の実施形態による大規模コーパスに基づく音声合成方法のフローチャート
本発明の実施形態に適用可能な中国語の文の韻律構造の模式図
本発明の第1の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図
本発明の第1の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図
本発明の第2の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャート
本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャート
本発明の第3の実施形態による大規模コーパスに基づく音声合成装置の構造図

実施例

0013

本発明について、添付の図面及び実施形態と共に以下により詳細に記述する。本明細書に記述する特定の実施形態は本発明を限定するものではなく、単に本発明を説明する目的で用いるのに過ぎないことを理解されたい。また、説明を容易にするため、添付の図面は全ての構成要素ではなく本発明に関する部分のみを示していることにも留意する必要がある。

0014

図3〜6に、本発明の第1の実施形態を示す。

0015

図3は、本発明の第1の実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。大規模コーパスに基づく音声合成方法は、音声合成用特化された計算装置において実施される。音声合成用に特化された計算装置は、パーソナルコンピュータ及びサーバ等の汎用コンピュータを含み、音声合成用の各種の埋め込み型コンピュータを更に含む。大規模コーパスに基づく音声合成方法は、以下のステップを含む。
S310:韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップ。

0016

音声合成システムは、構成及び機能の観点から、テキスト解析、韻律処理、及び音響処理の3個の主モジュールに分割することができる。テキスト解析モジュールは主として、コンピュータが入力テキストを完全に理解して、後の2つの部分が必要とする各種の発音プロンプトを提供することができるように、人が自然言語を理解するプロセスをシミュレートする。韻律処理は、合成音声が意義素を正確に表してより自然に聞こえるように、合成音声の分節特性を計画する。音響処理は、先行する2つの部分の処理結果の要件に従い音声、すなわち合成音声を出力する。

0017

入力テキストの韻律処理は、入力テキストに対する韻律構造予測無しでは実行することができない。一般に、中国語の韻律構造は韻律語、韻律、及び音調句の3階層からなると考えられている。図4は、中国語の文の韻律構造の模式図である。中国語の文は、多くの文法に則った単語401を結合することにより構成される。1つ以上の文法に則った単語401は集合的に韻律語402を構成し、1つ以上の韻律語402は集合的に韻律句403を構成し、次いで、1つ以上の韻律句403は集合的に音調句404を構成する。

0018

韻律語402の基本的な特徴は以下の通りである。(1)1つの韻脚からなり、(2)一般に文法に則った単語又は3音節未満の単語群であり、(3)例えば接続詞前置詞のように1〜3音節、大部分は2又は3音節にわたり、(4)文法に則った単語と同様の連声パターン及び語強勢パターンを有し、内部にリズム境界が現れず、(5)韻律語402が韻律句403を形成することができる。

0019

韻律句403の主な特徴は、(1)1つ又は複数の韻律語402により形成されている、(2)7〜9音節にわたり、(3)各種の内部韻律語402の間に韻律の観点でリズム境界が潜在的に現れ、主な表現が韻律語の最後の音節の延長及び韻律語間のピッチ再設定からなり、(4)韻律句403の音程階調の傾向は基本的に下降傾向であり、(5)相対的に安定した句強勢構成パターン、すなわち統語構造に関する従来型の強勢パターンを有していることである。

0020

音調句404の主な特徴は、(1)恐らくは複数の韻脚を有し、(2)複数の韻律句音調パターン及び韻律句強勢パターンが恐らく内部に含まれ、従って関連するリズム境界が現れ、主な表現が韻律句の最後の音節の延長及び韻律句間のピッチ再設定からなり、(3)異なる音程又は文パターンに依存する音調パターンを有する、すなわち例えば平叙文は下降傾向を有し、一般的な疑問文は上昇傾向を有し、感嘆文の音高レベルは一般に上昇する特定の音程階調傾向を有している。

0021

入力テキストのこれらの3階層の認識、すなわち入力テキストに対する韻律構造予測により、文中での合成音声の休止特性を決定する。一般に、3個の休止レベルはシステムの入力テキストの韻律階層と1対1に対応しており、韻律階層が高いほど、それにより区切られる休止特性がより顕著であり、韻律階層が低いほど、それにより区切られる休止特性がより不明瞭である。更に、合成音声の休止特性は、その自然さに多大な影響を及ぼす。従って、入力テキストに対する韻律構造予測は、最終的な合成音声の自然さに多大な影響を及ぼす。

0022

入力テキストに対する韻律構造予測を実行した結果が韻律境界分割方式である。音声合成は、異なる韻律境界分割方式に従い実行されるため、合成音声の休止位置及び休止時間長等のパラメータは異なっている。韻律境界分割方式は、予測を介して得られる韻律語境界、韻律句境界、及び音調句境界を含む。すなわち、韻律境界分割方式は、韻律語、韻律句、及び音調句における境界分割を含む。

0023

韻律構造予測が同一入力テキストに対して実行されることで、入力テキストに対し異なる複数の韻律境界分割方式が出力され得ることを理解されたい。好適には、入力テキストに対する異なる韻律境界分割方式は、入力テキストに対する複数の優れた韻律境界分割方式を出力することにより得ることができる。

0024

入力テキストに対する韻律構造予測を実行するプロセスで、音調句は基本的に句読点で区切られるため、音調句は容易に認識できると一般に考えられている。一方、韻律語の予測は規則を要約する方法に依存しており、これは基本的に使用要件を満たしている。これに対して、韻律構造予測における韻律句の予測は困難なものとなる。従って、入力テキストの韻律構造予測とは、主として韻律句境界の予測を解くことである。

0025

入力テキストの韻律構造予測は、韻律構造予測モデルに基づいて実行される。韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を実行することにより生成される。好適には、統計的学習は、韻律構造予測モデルを生成すべくテキストコーパス及び音声コーパス内の注釈付きデータに対して決定木アルゴリズム条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムを利用して実行することができる。

0026

テキストコーパス及び音声コーパスは、韻律構造予測モデルの訓練に用いる2つの基本コーパスであり、テキストコーパスの保存対象はテキストデータであって、音声コーパスの保存対象は音声データである。テキストコーパス及び音声コーパスは基本コーパスを保存するだけでなく、これらのコーパスの注釈付きデータをも保存する。コーパスの注釈付きデータは少なくとも、コーパスの韻律階層構造に関する注釈付きデータを含む。

0027

コーパスに関する注釈付きデータの構造を、一例としてテキストコーパスを用いて示す。図5は、本発明の第1の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図である。図5を参照すると、テキストコーパスは、コーパス501を保存するだけでなく、コーパスの韻律構造に関する注釈付きデータ502をも保存する。コーパス501は文として保存され、韻律語、韻律句及び音調句はこれらの文中で分割される。コーパスの注釈付きデータ502は、当該コーパス内の韻律語の終端がどの韻律境界であるかに関する注釈である。コーパスの韻律構造に関する注釈付きデータにおいて、B0は韻律語の終端が韻律語境界であることを表し、B1は韻律語の終端が韻律句境界であることを表し、B2は韻律語の終端が音調句境界であることを表す。

0028

本実施形態において、入力テキストを受信した後で、韻律構造予測モデルを利用して入力テキストに対する少なくとも2つの韻律境界分割方式を得るべく入力テキストに対する韻律構造予測を実行する。

0029

S320:少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する。

0030

音声合成において、入力テキストは異なる韻律単位の組と考えられる。すなわち、入力テキストは複数の異なる韻律単位を含む。韻律単位は、入力テキストにおける各漢字に対応する音節である。例えば、入力テキスト

は韻律単位

を含み、入力テキスト


を含む。

0031

入力テキストに関して複数の異なる韻律境界分割方式が得られた後では、異なる韻律境界分割方式で得られる韻律境界が異なるため、異なる韻律境界分割方式内の同一箇所に位置する韻律単位は異なっている。

0032

例えば、入力テキスト

に関して、韻律句境界分割だけ与えられた場合、以下の2つの韻律境界分割方式がある。

0033

上述の2つの韻律境界分割方式において、記号「$」は、韻律境界分割方式における韻律句境界を表す。第1の韻律境界分割方式において、韻律単位「格」が韻律境界分割方式の第2の韻律句の終端にあるのに対し、第2の韻律境界分割方式では、韻律単位「了」が韻律境界分割方式の第2の韻律句の終端にあることが分かる。

0034

本実施形態において、音声コーパス内の複数の異なる韻律単位に関する構造確率情報を比較し、比較結果に従い少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。

0035

上述の2つの韻律境界分割方式の例において、韻律単位「格」及び韻律単位「了」は各々、第1の韻律境界分割方式及び第2の韻律境界分割方式の終端にある。音声コーパス内において、韻律単位「格」が韻律句の終端にある確率が、韻律単位「了」が韻律句の終端にある確率よりも大きい場合は、第1の韻律境界分割方式が最終的な韻律境界分割方式として選択され、音声コーパス内において、韻律単位「了」が韻律句の終端にある確率が、韻律単位「格」が韻律句の終端にある確率よりも大きい場合は、第2の韻律境界分割方式が最終的な韻律境界分割方式として選択される。

0036

S330:決定された韻律境界分割方式に従い音声合成を実行する。

0037

入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成及びパラメータ合成型の音声合成を含む。

0038

上述の方式において、韻律語分割方式を決定すべく最初に上述の方式を採用し、必要に応じて、複数の代替的な韻律句分割方式を得るために韻律語分割に基づいて韻律句分割を実行し、最終的な韻律境界分割方式として機能する好適な代替的な方式を得るために同様の方法を採用することが好適である。

0039

図6は、本発明の第1の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図である。図6を参照すると、大規模コーパスに基づいて音声合成方法を動作させる音声合成システムによる入力テキストに対する音声合成は、従来技術における音声合成システムに含まれる入力テキストに対するテキスト解析608、韻律構造予測モデルによる入力テキストに対する韻律構造予測609、入力テキストに対するパラメータ予測/単位選択610、及び最終音声合成611に加えて、音声コーパス内の韻律単位に関する構造確率情報に従い韻律構造に対して実行される韻律修正607を更に含む。入力テキストに対する音声合成は、修正された韻律構造により実行され、得られた合成音声はより自然なものとなっている。

0040

本実施形態は、入力テキストに対する韻律構造予測を実行することにより、少なくとも2つの代替的な韻律境界分割方式を提供し、次いで少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報に従い1つの韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行するため、入力テキストに対して実行される韻律構造予測は、コーパス内の韻律単位に関する構造確率情報を参照し、音声合成の自然さ及び柔軟性が向上する。

0041

図7に、本発明の第2の実施形態を示す。

0042

図7は、本発明の第2の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャートである。大規模コーパスに基づく音声合成方法は本発明の第1の実施形態に基づいており、更に、少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報による韻律境界分割方式の決定は以下のステップを含む。
S321:少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。

0043

入力テキストに対する韻律境界分割方式を、韻律単位に関する位置統計情報に従い決定する場合、第1に、少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。

0044

韻律単位は、代替的な韻律境界分割方式における韻律境界に位置する韻律単位を選択すべきである。韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭に韻律単位が出現する確率を指す場合は、韻律境界よりも後方の韻律単位を選択する必要があり、韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の末尾に韻律単位が出現する確率を指す場合は、韻律境界よりも前方の韻律単位を選択する必要がある。

0045

好適には、韻律単位に関する構造確率情報は、次式で表すことができる。
Wi=β×log(m+n0)−γ

0046

mが音声コーパス内の目標韻律階層における目標位置にある韻律単位の個数を表し、目標韻律階層は韻律語、韻律句、及び音調句を含み、目標位置は韻律語、韻律句、又は音調句の先頭又は末尾にあり、n0は個数調整パラメータであってゼロより大きい任意の整数であってよく、βは確率拡大縮小係数であり、γは確率オフセット係数である。上式において、パラメータn0、β、及びγは値が経験則に基づくパラメータであり、上式を介して計算で得られた結果Wiは音声コーパス内の韻律単位に関する構造確率情報を表す。

0047

S322:少なくとも2つの代替的な韻律境界分割方式の出力確率を、構造確率情報に従い出力確率計算関数を利用して計算する。

0048

好適には、少なくとも2つの代替的な韻律境界分割方式の出力確率を決定すべく所定の重みパラメータに従い少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求める。

0049

一例として、出力確率計算関数は次式のように示される。
f(Wp,Wi)=α×Wp+(1−α)Wi
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は0〜1の間にあり、Wpは韻律単位の韻律階層確率であり、Wiは韻律単位の構造確率である。韻律単位の韻律階層確率、すなわちWpは、韻律構造予測モデルを利用して入力テキストに対して韻律構造予測を実行する際に韻律構造予測モデルにより出力される韻律単位に対応する確率値であり、対応する階層の韻律境界が韻律単位に出現する入力テキストの確率を表す。対応する階層は、韻律語階層、韻律句階層、又は音調句階層であってよい。

0050

韻律単位の構造確率とは、韻律単位が音声コーパスのコーパス内の特定の位置に出現する確率を指す。構造確率は、韻律単位が音声コーパス内で出現する位置について統計を実施することにより得られる。

0051

好適には、韻律単位の構造確率は、音声コーパス内の韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を指す。

0052

出力確率計算関数の計算結果は、代替的な韻律境界分割方式の出力確率である。

0053

S323:出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定する。

0054

出力確率が最大である代替的な韻律境界分割方式が、音声コーパス内の韻律単位に関する構造確率情報に基づく最も適切な韻律境界分割方式であると考えられ、従って出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として採用する。

0055

少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得し、次いで構造確率情報に従い出力確率計算関数を利用して少なくとも2つの代替的な韻律境界分割方式の出力確率を計算して、最後に、出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として決定することにより、本実施形態は、韻律単位に関する位置統計情報による韻律境界分割方式の決定を完了し、音声合成の自然さ及び柔軟性が向上する。

0056

図8に、本発明の好適な実施形態を示す。

0057

図8は、本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。図8を参照すると、大規模コーパスに基づく音声合成方法は以下のステップを含む。
S810:テキストコーパス及び音声コーパス内の注釈付きデータを利用して韻律構造予測モデルを訓練する。

0058

音声合成システムは、入力テキストシーケンス合成音声波形に変換するシステムである。当該システムは、特定のソフトウェア及びハードウェアを介してテキストファイルを変換し、次いで、コンピュータ又は他の音声システムを介して音声を出力して、合成音声が極力人間の音声のように相対的に高い明瞭さ及び自然さを持ち得るようにする。

0059

入力テキストに対する音声合成は、2つのコーパス、すなわちテキストコーパス及び音声コーパス内のコーパスデータに基づいて実行される。テキストコーパス及び音声コーパスは共に大量のコーパスデータを保存している。テキストコーパス内のコーパスデータの形式テキスト形式であり、入力テキストに対するテキスト解析を実行する際の基本的な基準である。音声コーパス内のコーパスデータの形式は音声形式であり、入力テキストに対する解析が完了した後で音声合成を実行する際の基本データである。

0060

入力テキスト解析と、音声合成及び出力との2つのステップの間に、入力テキストの韻律構造の予測を実行する必要がある。入力テキストに対する韻律構造予測は、出力音声の休止位置及び休止時間長等の音響パラメータを決定する。入力テキストに対する韻律構造予測は、訓練済み韻律構造予測モデルに基づいて実行する必要がある。

0061

韻律構造予測モデルの訓練は、テキストコーパス及び音声コーパス内の注釈付きデータに基づいて実行される。注釈付きデータは、コーパス内の韻律構造に注釈を付ける。韻律構造予測モデルの訓練プロセスにおいて、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習により、韻律構造予測モデルは自身の構造を完成させ、従って入力テキストに関して入力テキストの韻律構造を予測することができる。

0062

本実施形態において、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。

0063

S820:韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置に対して統計を実施することにより得られる。

0064

音声コーパスは、大量の音声コーパスセグメントを保存している。音声コーパスセグメントは複数の異なる韻律単位からなる。例えば、音声コーパスは音声コーパスセグメント

を保存し、この音声コーパスセグメントは5個の韻律単位、すなわち

を含む。

0065

音声コーパスセグメントは、韻律語、韻律句、又は音調句であってよい。本実施形態において、音声コーパスセグメントは韻律句である。

0066

構造確率情報とは、音声コーパス内の音声コーパスセグメント内に設定された位置に韻律単位が出現する確率に関する情報を指す。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率に関する情報を指す。

0067

構造確率情報は、音声コーパス内で韻律単位が出現する位置について統計を実施することにより得られる。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率を介して得られる。

0068

S830:韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行する。

0069

入力テキストを受信した後で、訓練済み韻律構造予測モデルを利用して入力テキストに対する韻律構造予測処理を実行する。入力テキストに対して韻律構造予測処理を実行した結果は、入力テキストに関する少なくとも2つの代替的な韻律境界分割方式である。好適には、入力テキストに対する少なくとも2つの優れた代替的な韻律境界分割方式を出力することにより、入力テキストに対する複数の異なる韻律境界分割方式が得られる。

0070

韻律境界分割方式を用いて入力テキストに対する韻律境界を画定する。好適には、入力テキストに対する異なる韻律階層によれば、韻律境界分割方式により画定される入力テキストの韻律境界は、韻律語境界、韻律句境界、及び音調句境界を含む。

0071

韻律構造予測においては韻律句の予測が難点となるため、本実施形態では韻律構造境界分割について、単に韻律句境界分割を一例として説明している。当業者であれば、韻律語及び音調句に対して境界分割を実行するプロセスが、韻律句に対して境界分割を実行するプロセスと同様であることを理解できよう。

0072

一例として、入力テキスト

に対する韻律句境界分割を、少なくとも2つの代替的な韻律境界分割方式を提供するプロセスを説明するための例として挙げる。上述の入力テキストに関して、以下のように2つの韻律句境界分割方式がある。

0073

記号「$」は、韻律境界分割方式内の韻律句境界を表す。

0074

S840:少なくとも2つの代替的な韻律境界分割方式の音声コーパス内の韻律単位に関する構造確率情報に従い韻律境界分割方式を決定する。

0075

韻律語、韻律句、又は音調句は全て韻律単位を含む。音声コーパス内で、韻律単位は、特定の確率に従い、韻律語、韻律句、又は音調句の先頭又は末尾に出現する。例えば、韻律単位「了」が韻律句の末尾に出現する確率は0.78である。この確率は、音声コーパス内の韻律単位に関する構造確率情報である。

0076

韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置について実施された統計、すなわち韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率により得られる。韻律単位に関する構造確率情報が得られた後で、韻律単位に関する構造確率情報に基づいて、少なくとも2つの代替的な韻律境界分割方式の出力確率を各々計算し、次いで、出力確率に基づいて少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定することができる。

0077

好適には、少なくとも2つの代替的な韻律境界分割方式の出力確率は、次式により計算することができる。
f(Wp,Wi)=α×Wp+(1−α)Wi
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は0〜1の間にあって、一旦選択されたならば異なる代替的な韻律境界分割方式により変化せず、Wpは韻律単位の韻律階層確率であり、Wiは韻律単位の構造確率である。

0078

一例として上述の入力テキスト

に対する2つの韻律境界分割方式を挙げると、音声コーパス内の韻律句の終端に韻律単位「了」が出現する確率が韻律句の終端に韻律単位「格」が出現する確率よりも大きい場合、構造確率情報に基づく計算から得られた第2の韻律境界分割方式の出力確率は第1の韻律境界分割方式の出力確率よりも大きく、従って、第2の韻律境界分割方式が最終的な韻律境界分割方式として選択される。

0079

S850:決定された韻律境界分割方式に従い音声合成を実行する。

0080

入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成であってよく、またパラメータ合成型の音声合成であってよい。

0081

上述の方法ステップを1台のコンピュータで実行しなくてもよいことに注意されたい。実際に、韻律構造予測モデルに対する訓練をコンピュータで完了し、次いで、訓練済み韻律構造予測モデルを別のコンピュータに移植して入力テキストに対する音声合成を完了することもできる。

0082

韻律構造予測モデルを訓練し、韻律単位に関する位置統計情報について統計を実施し、少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測を実行し、韻律単位に関する位置統計情報に従い少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定して、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本実施形態は、韻律単位に関する位置統計情報が、音声合成の自然さ及び柔軟性を向上させるべく入力テキストに対する韻律構造予測を実行することを可能にする。

0083

図9に、本発明の第3の実施形態を示す。

0084

図9は、本発明の第3の実施形態による大規模コーパスに基づく音声合成装置の構造図である。図9を参照すると、大規模コーパスに基づく音声合成装置は、予測処理モジュール910、境界分割モジュール920、及び音声合成モジュール930を含む。

0085

予測処理モジュール910は、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行するために用いる。

0086

境界分割モジュール920は、少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するために用いる。

0087

音声合成モジュール930は、決定された韻律境界分割方式に従い音声合成を実行するために使用される。

0088

好適には、韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成される。

0089

好適には、テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。

0090

好適には、境界分割モジュールは、構造確率情報取得ユニット921、出力確率計算ユニット922、及び境界分割方式決定ユニット923を含む。

0091

構造確率情報取得ユニット921は、音声コーパス内のデータについて事前に実施された統計に従い少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を得るために使用される。

0092

出力確率計算ユニット922は、構造確率情報に従い出力確率計算関数を利用して少なくとも2つの代替的な韻律境界分割方式の出力確率を計算するために使用される。

0093

境界分割方式決定ユニット923は、出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定するために使用される。

0094

好適には、少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界は、韻律語境界、韻律句境界、又は音調句境界を含む。

0095

好適には、韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。

0096

好適には、出力確率計算ユニット922は特に、所定の重みパラメータに従い少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するために使用される。

0097

本発明の上記複数の実施形態のシーケンス番号は、説明目的のために過ぎず、実施形態の優先順位を表すものではない。

0098

当業者には、本発明の上述の各種モジュール又は各種ステップが、汎用計算装置を用いて実装でき、単一の計算装置に一体化でき、又は複数の計算装置を含むネットワーク上に分散されていてもよく、また任意選択的に、計算装置の実行可能なプログラムコードを用いて実装でき、その結果、ストレージ装置に保存されて計算装置により実行されても、又は各種集積回路モジュールに各々組み込まれてもよく、或いは複数のモジュール又はそのステップを単一の集積回路モジュールに一体化できることが理解されよう。このように、本発明は、ハードウェア及びソフトウェアの如何なる特定の組合せにも限定されない。

0099

本明細書において各種の実施形態を漸進的に記述しており、各実施形態において他の実施形態との差異を強調しながら、各種実施形態間で同一又は類似の部分を相互に参照してもよい。

0100

上記の説明は本発明の好適な実施形態に過ぎず、本発明を限定するものではなく、当業者には本発明に各種の変更及び変型があり得ることが理解されよう。本発明の趣旨及び原理の範囲内でなされる任意の変更、均等物との置換、又は改良は全て本発明の権利保護範囲に含まれるものとする。

0101

101テキストコーパス
102音声コーパス
103韻律構造予測モデル
104音響モデル
105候補単位
106テキスト解析
107 韻律構造予測
108パラメータ予測/単位選択
109音声合成
401 単語
402韻律語
403 韻律句
404音調句
501コーパス
502注釈付きデータ
607 韻律修正
608 テキスト解析
609 韻律構造予測
610 パラメータ予測/単位選択
611 音声合成
910予測処理モジュール
920境界分割モジュール
921 構造確率情報取得ユニット
922出力確率計算ユニット
923 境界分割方式決定ユニット
930 音声合成モジュール

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ