図面 (/)

技術 音声合成方法と装置

出願人 バイドゥオンラインネットワークテクノロジー(ペキン)カンパニーリミテッド
発明者 シェ,ヤンリ,シウリンバイ,ジエ
出願日 2015年11月24日 (3年7ヶ月経過) 出願番号 2016-572810
公開日 2017年9月21日 (1年9ヶ月経過) 公開番号 2017-527837
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 接合モジュール 完成済み 発明図 自然度 設備資源 電子設備 合成効果 関連ハードウェア
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年9月21日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題・解決手段

本発明は音声合成方法と装置を提出する。当該音声合成方法はテキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成待機テキストをオンライン音声合成システムに送信し、音声合成するステップと、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップと、を含む。本発明はオンライン音声合成とオフライン音声合成との利点を合わせ、更に安定的、効果の更に自然的な音声合成サービスを提供でき、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

概要

背景

音声合成技術は、サービス提供形態によりクラウドエンジンベースにした音声合成(以下「オンライン音声合成」と略する)と、ローカルエンジンをベースした音声合成(以下「オフライン音声合成」と略する)と、いう二つに分けられる。オンライン音声合成は高い自然度と、高い適時性と、クライアント側の設備資源占用しない利点がある。しかし、その欠点も非常に明らかである。音声合成のアプリケーション(Application、以下Appと略する)を使用することで、一回に大きいテキストサーバ—側まで送信できるが、サーバー側で合成された音声データは段階わけて上記Appをインストールしてあるクライアント側に送り返されることになっている。しかも、音声のデータ量は圧縮されても相対的に大きい(例えば、4kb/s)ため、もしネットワークの環境が安定的でないなら、オンライン音声合成は非常に遅くなり、連続的な合成を実現できない。オフライン音声合成はネットワークに依存しなくてもよいため、合成サービスの安定性を確保できるが、合成の効果はオンラインより比較的に悪い。

以上、従来技術で使用された音声合成技術の製品はみな単独なオンライン音声合成又は単独なオフラインの音声に基づいたのである。オンライン音声合成にはデータ流量の消耗が大きいが、ネットワークエラー遭遇した場合に、ユーザーエラーが発生していることを注意させるしかできないが、オフライン音声合成の効果はあまり自然的ではないため、ユーザーの体験が比較的に悪い。

概要

本発明は音声合成方法と装置を提出する。当該音声合成方法はテキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成待機テキストをオンライン音声合成システムに送信し、音声合成するステップと、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップと、を含む。本発明はオンライン音声合成とオフライン音声合成との利点を合わせ、更に安定的、効果の更に自然的な音声合成サービスを提供でき、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

目的

本発明の目的は、従来技術における少なくとも一つの技術的課題を解決することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続されている場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む、ことを特徴とする音声合成方法

請求項2

前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップの後に、前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成するステップ、を更に含む、ことを特徴とする請求項1に記載の方法。

請求項3

前記テキストを処理し、合成されるべきテキストを取得した後、前記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するステップの前に、ネットワークに接続されていない場合、前記合成されるべきテキストをオフライン音声合成システムに送信し、音声合成するステップと、前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成するステップと、を更に含む、ことを特徴とする請求項1に記載の方法。

請求項4

音声合成が完成された後、前記オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するステップを更に含む、ことを特徴とする請求項1ないし3のいずれかに記載の方法。

請求項5

前記テキストを処理することは、テキストに対する文単位の分け及び単語分割と、品詞表記と、数字符号の処理と、ピンインの表記と、韻律の停頓の予測処理と、を含む、ことを特徴とする請求項1乃至3のいずれかに記載の方法。

請求項6

前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップの後に、前記オンライン音声合成システムにより送信された、音声合成がすでに完成されたセンテンスに対応する音声データを、受信して保存するステップ、を更に含み、前記音声合成がすでに完成されたセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより、取得されたものである、ことを特徴とする請求項1又は2に記載の方法。

請求項7

前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップは、前記オンライン音声合成システムに故障が発生したり又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定するステップと、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得するステップと、を含む、ことを特徴とする請求項6に記載の方法。

請求項8

テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、ネットワークに接続されている場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信して、音声合成し、前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が発生したり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、を含む、ことを特徴とする音声合成装置

請求項9

前記送信モジュールは、更に、前記オフライン音声合成システムで音声合成する過程において、前記オンライン合成システムの故障が解消されたり、又は前記ネットワークとの接続が回復される場合、引き続き前記オフライン音声合成システムで音声合成が完成されなかったテキストを、前記オンライン音声合成システムに送信し、音声合成する、ことを特徴とする請求項8に記載の装置。

請求項10

前記送信モジュールは、更に、ネットワークに接続されていない場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オフライン音声合成システムに送信し、音声合成し、前記ネットワークと接続された後、前記オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する、ことを特徴とする請求項8に記載の装置。

請求項11

音声合成が完成された後、前記オンライン音声合成システムの音声データと前記オフライン音声合成システムの音声データとをつなぎ合わせ、完全な音声合成データを取得するための接合モジュール、を更に含む、ことを特徴とする請求項8ないし10のいずれかに記載の装置。

請求項12

前記テキスト処理モジュールは、具体的に、テキストに対する文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる、ことを特徴とする請求項8ないし10のいずれかに記載の装置。

請求項13

前記送信モジュールが前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成した後、前記オンライン音声合成システムが送信した音声合成がすでに完成されたセンテンスに対応する音声データを受信し、前記音声合成がすでに完成されたセンテンスに対応する音声データは、前記オンライン音声合成システムが前記合成されるべきテキストを文単位に分け、文単位に分けて得られた各センテンスに対して音声合成することにより取得されたものである、受信モジュールと、前記受信モジュールが受信した音声合成がすでに完成されたセンテンスに対応する音声データを保存するための保存モジュールと、を更に含む、ことを特徴とする請求項8又は9に記載の装置。

請求項14

決定モジュールを更に含み、前記決定モジュールは、前記オンライン音声合成システムに故障が発生したり、又は前記ネットワークとの接続が中断された際に受信した、音声合成がすでに完成されたセンテンスに対応する音声データに基づいて、前記オンライン音声合成システムで音声合成が完成されなかったテキストを決定し、前記送信モジュールは、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、前記オフライン音声合成システムに送信し、音声合成することにより、前記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する、ことを特徴とする請求項13に記載の装置。

請求項15

一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含み、前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、請求項1〜7のいずれかに記載の方法を実行する、ことを特徴とする電子機器

請求項16

一つ又は複数のモジュールが保存され、前記一つ又は複数のモジュールが実行される場合、請求項1〜7のいずれかに記載の方法を実行する、ことを特徴とする不揮発性コンピューター記憶媒体

技術分野

0001

本出願は、バイドオンラインネットワークテクノロジーペイジンカンパニーリミテッドが2015年7月15日に中国国家知識産権局に提出し、且つ発明の名称が「音声合成方法と装置」で、特許出願番号が2015101417099.Xである特許出願を優先権として主張するものであり、当該中国特許出願の全内容は参照により本明細書に組み入れられる。

0002

本発明は、音声処理技術分野に関し、特に音声合成方法と装置に関する。

背景技術

0003

音声合成技術は、サービス提供形態によりクラウドエンジンベースにした音声合成(以下「オンライン音声合成」と略する)と、ローカルエンジンをベースした音声合成(以下「オフライン音声合成」と略する)と、いう二つに分けられる。オンライン音声合成は高い自然度と、高い適時性と、クライアント側の設備資源占用しない利点がある。しかし、その欠点も非常に明らかである。音声合成のアプリケーション(Application、以下Appと略する)を使用することで、一回に大きいテキストサーバ—側まで送信できるが、サーバー側で合成された音声データは段階わけて上記Appをインストールしてあるクライアント側に送り返されることになっている。しかも、音声のデータ量は圧縮されても相対的に大きい(例えば、4kb/s)ため、もしネットワークの環境が安定的でないなら、オンライン音声合成は非常に遅くなり、連続的な合成を実現できない。オフライン音声合成はネットワークに依存しなくてもよいため、合成サービスの安定性を確保できるが、合成の効果はオンラインより比較的に悪い。

0004

以上、従来技術で使用された音声合成技術の製品はみな単独なオンライン音声合成又は単独なオフラインの音声に基づいたのである。オンライン音声合成にはデータ流量の消耗が大きいが、ネットワークエラー遭遇した場合に、ユーザーエラーが発生していることを注意させるしかできないが、オフライン音声合成の効果はあまり自然的ではないため、ユーザーの体験が比較的に悪い。

発明が解決しようとする課題

0005

本発明の目的は、従来技術における少なくとも一つの技術的課題を解決することである。

0006

そこで、本発明の第一の目的は、音声合成方法を提供することである。当該方法は、オンライン音声合成とオフライン音声合成との利点を合わせ、更に安定的、効果の更に自然的な音声合成サービスを提供でき、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度とを高める。

0007

本発明の第二の目的は、音声合成装置を提供することである。

課題を解決するための手段

0008

上記目的を実現するために、本発明の第一実施例にある音声の合成方法は、テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成待機テキストを、オンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を含む。

0009

本発明の実施例にある音声合成方法で、ネットワークに接続される場合、上記合成待機テキストを、オンライン音声合成システムに送信し、音声合成する。もし、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。オンライン音声合成とオフライン音声合成との利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

0010

上記目的を実現するために、本発明の第二の実施例にある音声合成装置は、テキストを処理し、合成されるべきテキストを取得するためのテキスト処理モジュールと、ネットワークに接続される場合、前記テキスト処理モジュールが取得した合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成し、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声の合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するための送信モジュールと、を含む。

0011

本発明の実施例にある音声合成装置で、ネットワークに接続される場合、送信モジュールは、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。オンライン音声合成とオフライン音声合成との利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

0012

本発明の実施例は更に電子設備が提供されている。電子設備は、一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含む。前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサにより実行される場合、以下のように操作する。テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を実行する。

0013

本発明の実施例は更に不揮発コンピューター記憶媒体が提供される。前記ンピューター記憶媒体は、一つ又は複数のモジュールを保存し、前記一つ又は複数のモジュールが実行される場合、以下のように操作する。テキストを処理し、合成されるべきテキストを取得するステップと、ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成するステップと、もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成するステップと、を実行する。

0014

本発明の付加的特徴と利点は、一部が下記の説明の中にあり、一部が下記の説明により、明らかになり、又は本発明の実践により、理解される。

図面の簡単な説明

0015

本発明の上述および/又は付加的な特徴と利点は、下記の添付図面を参照した実施例に対する説明により、明らかになり、理解されることが容易になる。その中で、
本発明の音声合成方法の一つの実施例のフローチャートである。
本発明の音声合成方法のもう一つの実施例のフローチャートである。
本発明の音声合成方法の更にもう一つの実施例のフローチャートである。
本発明の音声合成方法の更にもう一つの実施例のフローチャートである。
本発明の音声合成装置の一つの実施例の構造を示す図である。
本発明の音声合成方法のもう一つの実施例の構造を示す図である。

実施例

0016

以下に、本発明の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一または類似する符号は、常に、相同又は類似の部品、又は、相同又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示的なものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解されてはならない。逆に、本発明の実施例は付加の特権請求の範囲の主旨と内容範囲に入るすべての変化、修正と等しいものを含む。

0017

図1は本発明の音声合成方法の一つの実施例のフローチャートである。図1のように、当該音声の合成方法は以下のステップを含める。

0018

ステップ101:テキストを処理し、合成されるべきテキストを取得する。

0019

具体的に、テキストの処理は、テキストに対する文単位の分け及び単語分割と、品詞表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理と、を含める。

0020

0021

ステップ102:ネットワークに接続される場合、上記合成されるべきテキストをオンライン音声合成システムに送信し、音声を合成する。

0022

本実施例で、ネットワークに接続される場合、クライアント側は上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。オンライン音声合成システムは、波形スプライスという合成方法を採用し、録音された音声の断片をある規則に従い、センテンスつなぎ合わせる。このような合成方法は、音声の品質がよく、聞いた感じが自然的で、また人間の発音に近い利点を有する。音声の品質がよく、聞いた感じが自然的及び人間の発音に近いという利点の効果を満たすために、通常にグラウド側の音ライブラリーモデルはみな非常に大きく(通常複数のGに達せる)、ローカルに直接に適用することができない。

0023

ステップ103:上記オンライン音声合成システムで音声を合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

0024

本実施例で、上記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、クライアント側はオンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。オフライン音声合成システムは通常にパラメーターを合成する方法を採用する。音ライブラリーから事前音響学のパラメーターを抽出し、そして音響学のパラメーターとボコーダーを利用して、ヴォイスを改めて生成する必要がある。このような方法で、保存する必要のある音ライブラリーデータの大きさをMバイトのレベルに減少でき、オフライン音声合成はスマートフォンなどのモバイル設備に使われることになれるが、音響学のパラメーターは本当の声ではないため、オフライン音声合成システムは合成された音の自然度と音質の面で、オンライン音声合成システムより劣る。

0025

更に、音声の合成が完成されてから、クライアント側は、オンライン音声合成システムの音声データを、オフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得する。

0026

上記音声合成方法で、ネットワークに接続される場合、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。そして、オンライン音声合成とオフライン音声合成の利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度を高める。

0027

図2は本発明の音声合成方法のもう一つの実施例のフローチャートである。図2のように、ステップ103の後、以下のステップも含める。

0028

ステップ201:オフライン音声合成システムで音声合成する過程において、上記オンライン合成システムの故障が解消されたり、又はネットワークとの接続が回復される場合、オフライン音声合成システムで音声の合成が完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。

0029

即ち、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、クライアント側はオンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するとともに、クライアント側はオンライン音声合成システムの故障が解消されているか否か、又は当該クライアント側のネットワーク接続が回復されているか否か、を絶えず検査する。いったん、クライアント側はオンライン音声合成システムの故障が解消されたり、又は当該クライアント側のネットワーク接続が回復されたのを決定したら、クライアント側は、引き続きオフライン音声合成システムで音声合成が完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。即ち、本実施例では、更なる音声合成の効果を取得するために、クライアント側はオンライン音声合成システムでの音声合成を優先的に採用する。オンライン音声合成システムには故障が現れたり、又はクライアント側のネットワーク接続が中断された場合のみに、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。

0030

ステップ202:音声の合成が完成されてから、オンライン音声合成システムの音声データをオフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得する。

0031

図3は本発明の音声合成方法の更にもう一つの実施例のフローチャートである。図3のように、ステップ101の後に、ステップ103の前に、更に以下のようなステップを含むことができる。

0032

ステップ301:ネットワークに接続されていない場合、上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。

0033

ステップ302:上記ネットワーク接続が回復されてから、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

0034

本実施例で、合成されるべきテキストを取得してから、もしネットワークに接続されていないなら、クライアント側は、まず上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。そして、クライアント側は持続的にネットワークとの接続が回復されているか否かを検査する。ネットワークとの接続が回復されたのが検査により、わかったら、クライアント側はオフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

0035

図4は本発明の音声合成方法の更にもう一つの実施例のフローチャートである。図4のように、ステップ102の後に、更に以下のようなステップを含むことができる。

0036

ステップ401:オンライン音声合成システムにより送信した音声合成すでに完成済みのセンテンスと対応する音声データを受信して保存する。そのうち、上記音声合成すでに完成済みのセンテンスに対応する音声データは、オンライン音声合成システムで合成されるべきテキストに対して文単位に分け、分けて得たすべてのセンテンスに対して音声合成することにより取得されたのである。

0037

例として、合成待機テキストtに対して、ネットワークに接続される場合、クライアント側は、合成されるべきテキストtをオンライン音声合成システムに送信する。オンライン音声合成システムは、合成されるべきテキストtを受信してから、合成されるべきテキストtに対し、文の単位に分け、[t1、t2、t3、…]に表記する。そして、[t1、t2、t3、…]に対して、音声合成し、更に得た音声データ[a1、a2、a3、…]をクライアント側に送信する。

0038

本実施例で、ステップ103は、ステップ402とステップ403と、を含める。

0039

ステップ402:オンライン音声合成システムに故障が現れたり、又はネットワークとの接続が中断された際に、受信した音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえて、オンライン音声合成システムで音声合成が完成されなかったテキストを決定する。

0040

例として、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又はクライアント側のネットワーク接続が中断された場合、クライアント側は、オンライン音声合成システムに故障が現れた或いはネットワーク接続が中断された際に受信した音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえ、前記音声データは[a1、a2]と仮定する場合、t3に対応する音声データを取得する際に、エラーが発生したことを決定できる。従って、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定できる。

0041

ステップ403:上記オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成することにより、上記オンライン音声合成システムで音声合成が完成されなかったテキストに対応する音声データを取得する。

0042

具体的に、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定してから、クライアント側は、t3及びその後のテキストをオフライン音声合成システムに送信し、音声合成し、t3及びその後のテキストに対応する音声データ[a3’、…]を得る。

0043

本実施例で、音声の合成が完成されてから、クライアント側は、オンライン音声合成システムの音声データをオフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データ[a1、a2、a3’、…]を取得することができる。

0044

上記音声合成方法はニューザ—の音声合成に対する体験を改善し、ネットワーク環境の制限を突破でき、各種のネットワーク環境でユーザーの音声合成に関する要求を完成できるとともに、単独なオフライン音声合成より、さらに喜ばしい合成効果を取得することができ、音声合成サービスをさらに安定的、信頼的にさせる。

0045

図5は本発明の音声合成装置のもう一つの実施例の構造を示す図である。本実施例で、音声合成装置は、クライアント側或いはクライアント側の一部として、本発明図1に示された実施例にある流れを実現できる。そのうち、上記クライアントアプリ知能モバイル端末にインストールでき、上記知能モバイル端末はスマートフォン及び/又はタブレットコンピューターなどでよい。本実施例で、知能モバイル端末の形態について限定しない。

0046

図5のように、当該音声合成装置は、テキスト処理モジュール51と送信モジュール52と、を含める。

0047

そのうち、テキスト処理モジュール51は、テキストを処理し、合成されるべきテキストを取得することに用いられる。本実施例で、テキスト処理モジュール51は、具体的に、テキストの文単位の分け及び単語分割と、品詞の表記と、数字符号の処理と、ピンインの表記と、韻律停頓の予測処理とに用いられる。

0048

0049

送信モジュール52は、ネットワークに接続される場合、テキスト処理モジュール51が取得した合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムには故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、引き続きオンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成することに用いられる。

0050

本実施例で、ネットワークに接続される場合、送信モジュール52は、上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。オンライン音声合成システムは、波形スプライスという合成方法を採用し、録音された音声の断片をある規則に従い、センテンスにつなぎ合わせる。このような合成方法は音声の品質がよく、聞いた感じが自然的及び人間の発音に近い利点を有する。音声の品質がよく、聞いた感じが自然的及び人間の発音に近いという利点の効果を満たすために、通常にグラウド側の音ライブラリーモデルはみな非常に大きく(通常複数のGに達せる)、ローカルに直接に適用できるようがない。

0051

上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成する。オフライン音声合成システムは、通常にパラメーターを合成する方法を採用し、音ライブラリーから事前に音響学のパラメーターを抽出し、そして音響学のパラメーターとボコーダーを利用して、音を改めて生成する必要がある。このような方法で、保存される必要のある音ライブラリーデータの大きさをMバイトレベルに減少することにより、オフライン音声合成はスマートフォンなどのモバイル設備に使われることになれるが、音響学のパラメーターは本当の声ではないため、オフライン音声合成システムは合成された音の自然度と音質の面で、オンライン音声合成システムより劣る。

0052

更に、送信モジュール52はオフライン音声合成システムで音声合成する過程において、もしオンライン合成システムに現れた故障が解消されたり、又は上記ネットワークとの接続が回復される場合、オフライン音声合成システムで音声合成が、完成されなかったテキストをオンライン音声合成システムに送信し、音声合成する。

0053

即ち、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストをオフライン音声合成システムに送信し、音声合成するとともに、クライアント側は、オンライン音声合成システムの故障が解消されているか否か、又は当該クライアント側のネットワーク接続が回復されているか否かを、持続的に検査する。いったん、クライアント側は、オンライン音声合成システムの故障が解消されたり、又は当該クライアント側のネットワーク接続が回復されたのを決定したら、送信モジュール52は、引き続きオフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。即ち、本実施例では、更なるよい音声合成の効果を取得するために、クライアント側はオンライン音声合成システムでの音声合成を優先的に採用する。オンライン音声合成システムに故障が現れたり、又はクライアント側のネットワーク接続が中断された場合のみに、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

0054

更に、送信モジュール52は、ネットワークに接続されていない場合、テキスト処理モジュール51が取得した合成待機テキストを、オフライン音声合成システムに送信し、音声を合成し、上記ネットワークとの接続が回復されてから、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

0055

本実施例で、テキスト処理モジュール51が合成されるべきテキストを取得してから、もしネットワークに接続されていないなら、送信モジュール52は、まず上記合成待機テキストをオフライン音声合成システムに送信し、音声合成する。そして、クライアント側は、持続的に、ネットワークとの接続が回復されているか否かを検査する。ネットワークとの接続が回復されたのが検査により、わかったら、送信モジュール52は、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。その後、上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断された場合、送信モジュール52は、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。さらに、オンライン音声合成システムの故障が解消されたり、又は上記ネットワーク接続が回復されたのを決定した後、引き続き、オフライン音声合成システムで音声合成が完成されなかったテキストを、オンライン音声合成システムに送信し、音声合成する。

0056

上記音声合成装置で、ネットワークに接続される場合、送信モジュール52は、上記合成待機テキストをオンライン音声合成システムに送信し、音声合成する。もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。そして、オンライン音声合成とオフライン音声合成の利点を合わせて、更に安定的、効果の更に自然的な音声合成サービスを提供し、ユーザーの音声合成に関する要求をいつも順調に成し遂げられ、ユーザーの音声合成サービスに対する認可度とユーザーの体験度とを高める。

0057

図6は本発明の音声合成装置の更にもう一つの実施例の構造を示す図である。図5の示した音声合成装置に比べ、差異は、図6の示した音声合成装置において更に接合モジュール53をも含めることにある。

0058

接合モジュール53は、音声の合成が完成されてから、オンライン音声合成システムの音声データを、オフライン音声合成システムの音声データにつなぎ合わせ、完全的な音声合成データを取得することに用いられる。

0059

更に、上記音声合成装置は、受信モジュール54と保存モジュール55と、を含める。

0060

そのうち、受信モジュール54は、送信モジュール52が上記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成した後、上記オンライン音声合成システムが送信した音声合成がすでに完成済みのセンテンスの対応する音声データを受信し、上記音声合成がすでに完成済みのセンテンスに対応する音声データは、オンライン音声合成システムが上記合成されるべきテキストに対して文単位に分けし、更に分けて得たすべてのセンテンスに対して、音声合成することにより取得されたものである。

0061

保存モジュール55は、受信モジュール54が受信した音声合成がすでに完成済みのセンテンスに対応する音声データを、保存する。

0062

例として、合成待機テキストtに対して、ネットワークに接続される場合、送信モジュール52は、合成されるべきテキストtをオンライン音声合成システムに送信する。オンライン音声合成システムは、合成されるべきテキストtを受信してから、合成されるべきテキストtに対し、文単位に分け、[t1、t2、t3、…]に表記する。そして、[t1、t2、t3、…]に対して、音声合成し、更に得た音声データ[a1、a2、a3、…]をクライアント側に送信する。

0063

さらに、上記音声合成装置は、決定モジュール56を含める。

0064

決定モジュール56は、オンライン音声合成システムに故障が現れたり、又はネットワークとの接続が中断された際に受信した、音声の合成がすでに完成済みのセンテンスに対応する音声データを踏まえて、オンライン音声合成システムで音声の合成が完成されなかったテキストを決定する。例として、もし上記オンライン音声合成システムで音声合成する過程において、オンライン音声合成システムに故障が現れたり、或いはクライアント側のネットワーク接続が中断される場合、決定モジュール56は、オンライン音声合成システムに故障が現れたり、或いはネットワークとの接続が中断された際に受信した、音声の合成がすでに完成済みのセンテンスに対応する([a1、a2]と仮定する)音声データを踏まえて、t3に対応する音声データを取得する際にエラーが発生したことを決定できる。従って、決定モジュール56は、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストである、のを決定できる。

0065

この場合、送信モジュール52は、上記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成し、上記オンライン音声合成システムで音声の合成が完成されなかったテキストに対応する音声データを取得する。

0066

具体的に、決定モジュール56により、オンライン音声合成システムで音声合成が完成されなかったテキストがt3及びその後のテキストであることを決定してから、送信モジュール52は、t3及びその後のテキストをオフライン音声合成システムに送信し、音声合成し、t3及びその後のテキストに対応する音声データ[a3’、…]を取得する。

0067

本実施例で、音声合成が完成されてから、接合モジュール53は、オンライン音声合成システムの音声データとオフライン音声合成システムの音声データとをつなぎ、完全的な音声合成データ[a1、a2、a3’、…]を取得する。

0068

上記音声合成装置は、ユーザーの音声合成に対する体験を改善し、ネットワーク環境の制限を突破でき、各種のネットワーク環境でユーザーの音声合成に関する要求を完成できるとともに、単独なオフライン音声合成より、さらに喜ばしい合成効果を取得でき、音声合成サービスをさらに安定的、信頼的にさせる。

0069

本発明の実施例で以下のような電子設備も提供されている。一つ又は複数のプロセッサと、メモリーと、一つ又は複数のプログラムと、を含む。前記一つ又は複数のプログラムは、前記メモリーに保存され、前記一つ又は複数のプロセッサに実行される場合、以下の操作を行う。テキストを処理し、合成されるべきテキストを取得する。ネットワークに接続される場合、前記合成されるべきテキストをオンライン音声合成システムに送信し、音声合成する。もし前記オンライン音声合成システムで音声合成する過程において、前記ンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

0070

本発明の実施例で、一種の不揮発コンピューター記憶媒体も提供される。前記ンピューター記憶媒体には一つ又は複数のモジュールが保存され、前記一つ又は複数のモジュールが実行される場合、以下の操作が行われる。テキストを処理し、合成されるべきテキストを取得する。ネットワークに接続される場合、前記合成されるべきテキストを、オンライン音声合成システムに送信し、音声合成する。もし前記オンライン音声合成システムで音声合成する過程において、前記オンライン音声合成システムに故障が現れたり、又は実際の使用中にネットワークとの接続が中断される場合、前記オンライン音声合成システムで音声合成が完成されなかったテキストを、オフライン音声合成システムに送信し、音声合成する。

0071

説明する必要があるのは、本発明の説明で、用語「第一」、「第二」などは目的の説明にしか使われなく、相対的な重要性の指示又は暗示に理解されてはいけない。また、本発明の説明で、別途の説明がない限り、「複数」の意味は少なくとも二個を指す。

0072

フローチャート又はここでその他の方式で説明されたあらゆる過程又は方法の説明は、特定な論理機能又は過程のステップを実現することに使われる一つ又は更なる多い実行可能なコマンドのコードのモジュール、セグメント又は一部を含み、更に本発明の好ましい実施例の範囲はほかの実現を含み、うち、示された又は議論された順序に従わずに、関連機能に基づいてほとんど同時の形態に従う又は反対の順序に従うことを含み、機能を実行できることを表すことに理解されることができる。これは本発明の実施例の当業者に理解されるべき。

0073

理解すべきなのは、本発明の各部分はハードウェアソフトウェアファームウェア又はこれらの組み合わせによって実現されることができる。上記実施例で、複数のステップ又は方法は、メモリーに保存されている、かつ適切なコマンド実行システムに実行されるソフトウェア又はファームウェアによる実現されることができる。例えば、ハードウェアで実現するなら、もう一つの実施例でと同じく、本分野の下記の周知技術のあらゆる項目又はかれらの組み合わせで実現できる。データ信号の論理機能を実現する論理ゲート回路に使われる離散的論理回路を有し、論理ゲート回路を組み合わせる適切な専用集成回路プログラマブルゲートアレイPGA)、フィールド・プログラマブル・ゲート・アレイ(FPGA)などを有する。

0074

当業者は、上記実施例方法にある全部又は一部のステップを実現するには、プログラムによる関連ハードウェアを指示するのを通して完成できるのを理解できる。前記プログラムは一種のコンピューター読み出し可能な記憶媒体に保存できる。当該プログラムは実行される場合、方法の実施例にあるステップの一つ又はその組み合わせが含まれる。

0075

また、本発明の各実施例にある各機能セルは一つの処理モジュールに集成されることもできるし、各セルの単独的物理的な存在でもいいし、二つ又は二つ以上のセルは一つのモジュールに集成されることもできる。上記集成されたモジュールはハードウェアの形で実現されることもできるし、ソフトウェア機能を持つモジュールで実現されることもできる。前記集成されたモジュールはもしソフトウェア機能のモジュールで実現され、また独立の製品として販売又は使用されるのであるなら、一つのコンピューター読み出し可能な記憶媒体に保存することもできる。

0076

上記言及した読み出し可能な記憶媒体は読み出し専用メモリー、又は磁気ディスク、又はCDなどでよい。

0077

本明細書の説明で、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的な例示」、又は「いくつかの例示」などの説明意味は当該実施例又は例示に合わせて、説明された具体的な特徴、構造、材料又は特色が本発明の少なくとも一つの実施例又は例示に含まれていることを指す。本明細書で、上記用語の暗示的な表現は同じ実施例又は例示を指しているのに限らない。なお、説明された具体的な特徴、構造、材料又は特色が一つ又は複数のいずれかの実施例又は例示で適切な方式で組み合わせられる。

0078

以上、本発明の実施例を示して説明したが、理解できるのは上記実施例が例示的なもので、本発明を限定するものであると理解されてはいけない。普通の当業者は本発明の範囲内で、上記実施例に対して各種の変化、補正切り替え及び変形を行うことができる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • アイシン精機株式会社の「 運転支援装置」が 公開されました。( 2019/05/23)

    【課題】一例として、乗員の運転支援装置に対する話しかけにくさを低減する。【解決手段】実施形態にかかる運転支援装置は、車内を撮像する撮像装置の撮像画像に含まれる乗員の顔画像から、乗員の視線の向きを検出す... 詳細

  • アルパイン株式会社の「 情報提示装置、情報提示システム、端末装置」が 公開されました。( 2019/05/23)

    【課題】内容を把握しやすい態様で情報を提示する情報提示装置を提供すること。【解決手段】表示手段16と、ユーザからの音声又は操作による入力を受け付ける入力受付手段31と、前記入力受付手段が受け付けた入力... 詳細

  • 公立大学法人公立諏訪東京理科大学の「 信号処理装置、方法、及びプログラム」が 公開されました。( 2019/05/23)

    【課題】所望の信号を特定することができる。【解決手段】抽出手段が、入力信号ベクトルに基づいて、各時間に対し、観測信号と、前の時間のフィルタ係数を時間の前記入力信号ベクトルに適用して得られる推定第2信号... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ