図面 (/)

技術 音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体

出願人 バイドゥオンラインネットワークテクノロジー(ベイジン)カンパニーリミテッド
発明者 グ,ユサン,シャオフィ
出願日 2018年12月27日 (2年0ヶ月経過) 出願番号 2018-244454
公開日 2019年12月12日 (1年0ヶ月経過) 公開番号 2019-211748
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 区分方式 分離部品 部分ステップ 技術効果 自然度 候補手 修復コスト 訓練モジュール
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年12月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

問題音声修復時間を短縮し、問題音声の修復コストを節約し、合成した音声自然度連続性の改善を保証し、且つユーザの聴感に影響しない、音声合成方法を提供する。

解決手段

音声接続合成において、問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含む。時間長さ予測モデル、基本周波数予測モデルと音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。

概要

背景

音声合成技術は、主に統計パラメータに基づく技術及びセル選別に基づく接続合成技術という2種類に分かられ、この2種類の音声合成方法は、それぞれの利点があるが、それぞれに相応する問題もある。

例えば、統計パラメータに基づく音声合成技術は、小規模の音庫だけが必要し、オフラインシーンにおける音声合成タスクに適用することができ、同時に、表現力合成、情感音声合成、話者変換等のタスクに応用しても良く、このような方法によって合成された音声が相対的に安定で連続性がよいが、音響モデルモデリング能力の限定及び統計平滑等の効果の影響で、統計パラメータに基づく合成の音質が相対的に悪くなる。パラメータ合成と異なり、接続合成は、大規模の音庫が必要し、主にオンライン設備の音声合成タスクに応用され、接続合成は、音庫における波形素片を選別し、特定なアルゴリズムによって接続するという方式を採用するので、音声の音質が良く、自然音声に近いが、接続の方式を採用するので、多い異なる音声手段の間の連続性が悪くなる。合成のテキスト既定である場合に、候補手段による音庫からの選別の確度があまり高くなく、又は特定な語彙語句が音庫におけるコーパスによって覆われていなければ、接続合成された音声は自然度及び連続性が悪いという問題が発生し、ユーザの聴感に厳しく影響する。該技術の問題点を解決するために、従来の技術において音庫を補足する方式を採用し、音庫へ新たに幾つかの対応するコーパスを補充し、相応する問題点を修復するように再び音庫を構造する。

しかし、従来の技術において、製品より問題音声返送してから、再び発音者によってコーパスを補充して録音し、音庫を構造するまでは、相対的に長い繰り返し過程であり、問題音声の修復周期が長く、即時に修復するという効果を実現することができない。

概要

問題音声の修復時間を短縮し、問題音声の修復コストを節約し、合成した音声の自然度と連続性の改善を保証し、且つユーザの聴感に影響しない、音声合成方法を提供する。音声接続合成において、問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含む。時間長さ予測モデル、基本周波数予測モデルと音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。

目的

本発明は、接続合成における自然度及び連続性が悪い問題音声を早速修復するための音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声合成方法であって、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって前記目標テキストに対応する音声を合成すること、を含み、そのうち、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである音声合成方法。

請求項2

予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、前記音声合成方法は、更に音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練することを含む請求項1に記載された音声合成方法。

請求項3

音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練することは、具体的に、前記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、前記複数の訓練音声から、各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、各前記訓練テキスト及び対応する前記訓練音声における毎音素に対応する状態の時間長さに基づいて、前記時間長さ予測モデルを訓練すること、各前記訓練テキスト及び対応する前記訓練音声における毎フレームに対応する基本周波数に基づいて、前記基本周波数予測モデルを訓練すること、各前記訓練テキスト、対応する各前記訓練音声、対応する各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、前記音声合成モデルを訓練すること、を含む請求項2に記載された音声合成方法。

請求項4

予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、前記音声合成方法は、更に前記音庫を利用して音声接続合成を行う時、ユーザによって返送された前記問題音声及び前記問題音声に対応する前記目標テキストを受信すること、を含む請求項2に記載された音声合成方法。

請求項5

前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって前記目標テキストに対応する音声を合成した後、前記音声合成方法は、更に前記目標テキスト及び対応する合成した前記音声を前記音庫に添加すること、を含む請求項2に記載された音声合成方法。

請求項6

前記音声合成モデルはWaveNetモデルを採用する請求項1〜5のいずれか1項に記載された音声合成方法。

請求項7

音声合成装置であって、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、前記問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュールと、前記目標テキストに対応する前記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって、前記目標テキストに対応する音声を合成するための合成モジュールと、を含み、そのうち、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである音声合成装置。

請求項8

前記音声合成装置は、更に音庫におけるテキスト及び対応する音声に基づいて、前記時間長さ予測モデル、前記基本周波数予測モデル及び前記音声合成モデルを訓練するための訓練モジュールを含む請求項7に記載された音声合成装置。

請求項9

前記訓練モジュールは、具体的に、前記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、前記複数の訓練音声から、各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出し、各前記訓練テキスト及び対応する前記訓練音声における毎音素に対応する状態の時間長さに基づいて、前記時間長さ予測モデルを訓練し、各前記訓練テキスト及び対応する前記訓練音声における毎フレームに対応する基本周波数に基づいて、前記基本周波数予測モデルを訓練し、各前記訓練テキスト、対応する各前記訓練音声、対応する各前記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、前記音声合成モデルを訓練するために用いられる請求項8に記載された音声合成装置。

請求項10

前記音声合成装置は、更に前記音庫を利用して音声接続合成を行う時、ユーザによって返送された前記問題音声及び前記問題音声に対応する前記目標テキストを受信するための受信モジュールを含む請求項8に記載された音声合成装置。

請求項11

前記音声合成装置は、更に前記目標テキスト及び対応する合成した前記音声を前記音庫に添加するための添加モジュールを含む請求項8に記載された音声合成装置。

請求項12

前記音声合成モデルはWaveNetモデルを採用する請求項7〜11のいずれか1項に記載された音声合成方法。

請求項13

コンピュータ設備であって、1つ或複数のプロセッサと、1つ或複数のプログラムを記憶するためのメモリと、を含み、前記1つ或複数のプログラムが前記1つ或複数のプロセッサによって実行される時、前記1つ或複数のプロセッサに請求項1〜6のいずれか1項に記載された音声合成方法を実現させるコンピュータ設備。

請求項14

コンピュータプログラムを記憶しているコンピュータ読取り可能な媒体であって、該コンピュータプログラムがプロセッサによって実行される時、請求項1〜6のいずれか1項に記載された音声合成方法を実現するコンピュータ読取り可能な媒体。

技術分野

0001

本発明は、コンピュータ応用技術分野に関するものであり、特に音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体に関するものである。

背景技術

0002

音声合成技術は、主に統計パラメータに基づく技術及びセル選別に基づく接続合成技術という2種類に分かられ、この2種類の音声合成方法は、それぞれの利点があるが、それぞれに相応する問題もある。

0003

例えば、統計パラメータに基づく音声合成技術は、小規模の音庫だけが必要し、オフラインシーンにおける音声合成タスクに適用することができ、同時に、表現力合成、情感音声合成、話者変換等のタスクに応用しても良く、このような方法によって合成された音声が相対的に安定で連続性がよいが、音響モデルモデリング能力の限定及び統計平滑等の効果の影響で、統計パラメータに基づく合成の音質が相対的に悪くなる。パラメータ合成と異なり、接続合成は、大規模の音庫が必要し、主にオンライン設備の音声合成タスクに応用され、接続合成は、音庫における波形素片を選別し、特定なアルゴリズムによって接続するという方式を採用するので、音声の音質が良く、自然音声に近いが、接続の方式を採用するので、多い異なる音声手段の間の連続性が悪くなる。合成のテキスト既定である場合に、候補手段による音庫からの選別の確度があまり高くなく、又は特定な語彙語句が音庫におけるコーパスによって覆われていなければ、接続合成された音声は自然度及び連続性が悪いという問題が発生し、ユーザの聴感に厳しく影響する。該技術の問題点を解決するために、従来の技術において音庫を補足する方式を採用し、音庫へ新たに幾つかの対応するコーパスを補充し、相応する問題点を修復するように再び音庫を構造する。

0004

しかし、従来の技術において、製品より問題音声返送してから、再び発音者によってコーパスを補充して録音し、音庫を構造するまでは、相対的に長い繰り返し過程であり、問題音声の修復周期が長く、即時に修復するという効果を実現することができない。

発明が解決しようとする課題

0005

本発明は、接続合成における自然度及び連続性が悪い問題音声を早速修復するための音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体を提供する。

0006

本発明に関する音声合成方法は、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、
上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって上記目標テキストに対応する音声を合成すること、を含み、
そのうち、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

0007

更に好ましく、上記方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、上記音声合成方法は、更に
音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練することを含む。

0008

更に好ましく、上記方法において、音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練することは、具体的に、
上記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、
上記複数の訓練音声から、各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、
各上記訓練テキスト及び対応する上記訓練音声における毎音素に対応する状態の時間長さに基づいて、上記時間長さ予測モデルを訓練すること、
各上記訓練テキスト及び対応する上記訓練音声における毎フレームに対応する基本周波数に基づいて、上記基本周波数予測モデルを訓練すること、
各上記訓練テキスト、対応する各上記訓練音声、対応する各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、上記音声合成モデルを訓練すること、を含む。

0009

更に好ましく、上記方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測する前、上記音声合成方法は、
上記音庫を利用して音声接続合成を行う時、ユーザによって返送された上記問題音声及び上記問題音声に対応する上記目標テキストを受信すること、を更に含む。

0010

更に好ましく、上記方法において、上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって上記目標テキストに対応する音声を合成した後、上記音声合成方法は、更に
上記目標テキスト及び対応する合成した上記音声を上記音庫に添加すること、を含む。
更に好ましく、上記方法において、上記音声合成モデルはWaveNetモデルを採用する。

0011

本発明に関する音声合成装置は、
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、上記問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュールと、
上記目標テキストに対応する上記毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって、上記目標テキストに対応する音声を合成するための合成モジュールと、を含み、
そのうち、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

0012

更に好ましく、上記装置において、更に
音庫におけるテキスト及び対応する音声に基づいて、上記時間長さ予測モデル、上記基本周波数予測モデル及び上記音声合成モデルを訓練するための訓練モジュールを含む。

0013

更に好ましく、上記装置において、上記訓練モジュールは、具体的に、
上記音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
上記複数の訓練音声から、各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出し、
各上記訓練テキスト及び対応する上記訓練音声における毎音素に対応する状態の時間長さに基づいて、上記時間長さ予測モデルを訓練し、
各上記訓練テキスト及び対応する上記訓練音声における毎フレームに対応する基本周波数に基づいて、上記基本周波数予測モデルを訓練し、
各上記訓練テキスト、対応する各上記訓練音声、対応する各上記訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、上記音声合成モデルを訓練するために用いられる。

0014

更に好ましく、上記装置において、更に
上記音庫を利用して音声接続合成を行う時、ユーザによって返送された上記問題音声及び上記問題音声に対応する上記目標テキストを受信するための受信モジュールを含む。

0015

更に好ましく、上記装置において、更に
上記目標テキスト及び対応する合成した上記音声を上記音庫に添加するための添加モジュールを含む。

0016

更に好ましく、上記装置において、上記音声合成モデルはWaveNetモデルを採用する。

0017

本発明に関するコンピュータ設備は、
1つ或複数のプロセッサと、
1つ或複数のプログラムを記憶するためのメモリと、を含み、
上記1つ或複数のプログラムが上記1つ或複数のプロセッサによって実行される時、上記1つ或複数のプロセッサに上記音声合成方法を実現させる。

0018

本発明に関するコンピュータ読取り可能な媒体は、コンピュータプログラムを記憶しており、該コンピュータプログラムがプロセッサによって実行される時、上記音声合成方法を実現する。

0019

本発明の音声合成方法及び装置、コンピュータ設備及び読取り可能な媒体によれば、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含み、そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。本発明の技術案によれば、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に、本発明の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。

図面の簡単な説明

0020

本発明の音声合成方法の実施例1のフローチャートである。
本発明の音声合成方法の実施例2のフローチャートである
本発明の音声合成装置の実施例1の構成図である。
本発明の音声合成装置の実施例2の構成図である。
本発明のコンピュータ設備の実施例の構成図である。
本発明によって提供されたコンピュータ設備の例の図である。

実施例

0021

本発明の目的、技術案及び利点をより明確で簡潔させるために、以下、図面及び具体的な実施例を結合して本発明を詳しく説明する。

0022

図1は、本発明の音声合成方法の実施例1のフローチャートである。図1に示すように、本実施例の音声合成方法は、具体的に、以下のようなステップを含む。

0023

100、音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、
101、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、
そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

0024

本実施例の音声合成方法の実行本体は、音声合成装置である。具体的に、音声接続合成の過程において、合成待ちのテキストが音庫のコーパスによって完全に覆われていなければ、接続合成した音声は自然度及び連続性が悪いという問題が発生し、従来の技術において、該問題を修復するためにコーパスを補充して録音し、再び音庫を構造する必要があり、問題音声の修復周期が長くなってしまう。該問題を解決するために、本実施例において、音声合成装置を採用してこの部分の合成待ちのテキストに対する音声合成を実現し、従来の音声接続合成過程に問題音声が発生した時の補充案として、効率的に問題音声の修復周期を短縮するように、他の角度から音声合成を実現する。

0025

具体的に、本実施例の音声合成方法において、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルが必要する。そのうち、該時間長さ予測モデルは、目標テキストにおける毎音素の状態の時間長さを予測するために用いられる。そのうち、音素が、音声における最も小さいセルであり、例えば中国語発音において、1つの子音又は韻母がそれぞれに1つの音素とすることができる。他の言語の発音において、毎発音も1つの音素に相当する。本実施例において、隠れマルコフモデルに従って毎音素を5個の状態に切り分けることができ、状態の時間長さとは該状態にある時間の長さである。本実施例において、予めに訓練された時間長さ予測モデルは、目標テキストにおける毎音素の全ての状態の時間長さを予測することができる。また、本実施例において、予めに基本周波数予測モデルを訓練しておき、該基本周波数予測モデルは、目標テキストの発音における毎フレームの基本周波数を予測することができる。

0026

本実施例の目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数が、音声合成の必要特徴である。具体的に、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を、予めに訓練された音声合成モデルに入力し、該音声合成モデルは、該目標テキストに対応する音声を合成し出力することができる。このようにして、接続合成において自然度及び連続性の悪いという問題があると、直接に本実施例の技術案を使用して音声合成を行うことができる。本実施例の音声合成の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、合成した音声の音質は音声接続合成の音庫における音質と同じ、即ち合成した発音と接続した発音とは同一の発音者からの音声に聞こえることを保証できることで、ユーザの聴感を保証し、ユーザの使用体験度強化することができる。且つ、本実施例の音声合成技術案における時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルは、いずれも予めに訓練されたものであるので、問題音声を修復する時、即時に修復するという効果を実現することができる。

0027

本実施例の音声合成方法は、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測すること、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成すること、を含み、そのうち、時間長さ予測モデル、基本周波数予測モデルと音声合成モデルは、いずれも音声接続合成の音庫に基づいて訓練したものである。本実施例の技術案によると、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に本実施例の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。

0028

図2は、本発明の音声合成方法の実施例2のフローチャートである。図2に示すように、本実施例の音声合成方法は、上記図1に示す実施例の技術案を基礎として、更に詳細に本発明の技術案を説明する。図2に示すように、本実施例の音声合成方法は、具体的に、以下のようなステップを含むことができる。

0029

200、音庫におけるテキスト及び対応する音声に基づいて、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練すること。

0030

具体的に、該ステップ200は以下のようなステップを含むことができる。

0031

(a)音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出すること、
(b)複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すること、
(c)各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練すること、
(d)各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練すること、
(e)各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練すること。

0032

本実施例の音声接続合成において使用される音庫は、十分な原始コーパスを含むことができ、該原始コーパスには、原始テキスト及び対応する原始音声を含むことができ、例えば20時間だけの原始音声を含むことができる。まず、音庫から複数の訓練テキスト及び対応する訓練音声を抽出し、例えば毎訓練テキストが一言である。そして、隠れマルコフモデルに従って、複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さをそれぞれに抽出し、同時に、複数の訓練音声における毎訓練音声における毎フレームに対応する基本周波数を抽出してもよい。そして、3つのモデルをそれぞれに訓練する。本実施例に係る複数の訓練テキスト及び対応する訓練音声の具体的な数は、実際の必要に基づいて設置することができ、例えば数万の訓練テキスト及び対応する訓練音声を抽出することができる。

0033

例えば各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練する。訓練する前、該時間長さ予測モデルに対して初期パラメータを設置することができる。そして、訓練テキストを入力し、時間長さ予測モデルによって該訓練テキストに対応する訓練音声における毎音素に対応する状態の予測時間長さを予測し、次に、時間長さ予測モデルによって予測した該訓練テキストに対応する訓練音声における毎音素に対応する状態の予測時間長さを、対応する訓練音声における毎音素に対応する状態の実時間長さと比較して、両者の差の値が予め設定した範囲内にあるかを判断し、予め設定した範囲内でなければ、両者の差の値が予め設定した範囲内に入るように、時間長さ予測モデルのパラメータを調整する。複数の訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さを利用して、絶えず時間長さ予測モデルを訓練して、時間長さ予測モデルのパラメータを確定することで、時間長さ予測モデルを確定し、時間長さ予測モデルの訓練が終了する。

0034

また、具体的に各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練することができる。同様に、訓練する前、該基本周波数予測モデルに対して初期パラメータを設置することができる。基本周波数予測モデルによって、該訓練テキストに対応する訓練音声における毎フレームに対応する予測基本周波数を予測し、次に、基本周波数予測モデルによって予測した毎フレームの基本周波数を、対応する訓練音声における毎フレームの実基本周波数と比較して、両者の差の値が予め設定した範囲内にあるかを判断し、予め設定した範囲内でなければ、両者の差の値が予め設定した範囲内に入るように、時間長さ予測モデルのパラメータを調整する。複数の訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数を利用して、絶えず基本周波数予測モデルを訓練して、基本周波数予測モデルのパラメータを確定することで、基本周波数予測モデルを確定し、基本周波数予測モデルの訓練が終了する。

0035

そして、各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練してもよい。本実施例の音声合成モデルは、WaveNetモデルを採用することができる。該WaveNetモデルは、DeepMindチームは2016年に提出した波形モデリング能力を具備するモデルであり、該WaveNetモデルは、提出されてから、産業界及び学界において広く注目される。

0036

該音声合成モデル、例えばWaveNetモデルにおいて、毎訓練テキストの訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を合成音声の必要特徴とする。訓練する前、該WaveNetモデルに対して初期パラメータを設置する。訓練する時、各訓練テキスト、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を、該WaveNetモデルに入力し、WaveNetモデルは、入力した特徴に基づいて合成した音声を出力し、そして、該合成した音声と訓練音声との交差エントロピーを計算し、次に勾配低下方法によってWaveNetモデルのパラメータを調整して該交差エントロピーを極小値に到達させ、即ちWaveNetモデルによって合成した音声と対応する訓練音声とを十分に近接させる。上記方式に従って、複数の訓練テキスト、対応する複数の訓練音声、及び対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数を利用して、絶えずWaveNetモデルを訓練して、WaveNetモデルのパラメータを確定することで、WaveNetモデルを確定し、WaveNetモデルの訓練が終了する。

0037

本実施例に係る時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練することは、オフライン訓練の過程であり、上記3つのモデルを取得して、接続音声合成において問題が発生した時、オンラインで使用することができる。

0038

201、音庫を利用して音声接続合成を行う時、ユーザによって返送された問題音声及び問題音声に対応する目標テキストを受信したかを判断し、そうであれば、ステップ202を実行し、そうでなければ、続けて音庫を利用して音声接続合成を行うこと、
202、音声接続技術を利用して音庫に基づいて接続した目標テキストの音声が問題音声であることを確定し、ステップ203を実行すること。

0039

音声接続合成において、音庫には目標テキストのコーパスが存在しなければ、接続した音声は連続性及び自然性が悪くなるので、この時、合成した音声が問題音声であり、常にユーザが正常に使用することができない。

0040

203、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測し、ステップ204を実行すること、
204、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成し、ステップ205を実行すること、
ステップ203及びステップ204は、上記図1に示す実施例のステップ100及びステップ101を参照することができ、ここで贅言しない。

0041

205、目標テキスト及び対応する合成した音声を音庫に添加し、音庫をアップスケールさせる。

0042

上記処理によって、該目標テキストに対応する音声を合成することができ、そして、該音声を音庫に添加することができ、このようにして、後続音庫を使用して音声接続合成を行う時、音声接続合成の自然性及び連続性を向上することができる。問題音声があった時のみ、本実施例の方式で音声を合成し、且つ合成した音声が音庫における原始音声の音質と同じ、ユーザが聞く時、同一の発音者からの発音に聞こえ、ユーザの聴感に影響しない。且つ、本実施例の方式によると、絶えず音庫におけるコーパスを拡張して、後続音声接続合成を使用する効率を更に向上させることができ、本実施例の技術案によると、音庫を更新することで、音庫をアップスケールさせるだけでなく、更新後の音庫を使用する音声接続合成システムサービスをアップスケールさせることができ、より多い音声接続合成の要求を満足することができる。

0043

本実施例の音声合成方法は、音声接続合成において問題音声があった時、上記方式に基づいて問題音声の修復を実現することができ、コーパスを補充し録音すること及び音庫を再び構造することを避け、効率的に問題音声の修復時間を短縮して、問題音声の修復コストを節約し、問題音声の修復効率を向上することができ、更に本実施例の技術案において、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものであるので、モデル合成に基づいた音声の自然度及び連続性を保証することができ、且つ接続合成に基づいた音声音質と比べて、変更することがなく、ユーザの聴感に影響しない。

0044

図3は、本発明の音声合成装置の実施例1の構成図である。図3に示すように、本実施例の音声合成装置は、具体的に
音声接続合成において問題音声があった時、予めに訓練された時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するための予測モジュール10と、
予測モジュール10によって予測された目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、予めに訓練された音声合成モデルによって目標テキストに対応する音声を合成するための合成モジュール11と、を含み、
そのうち、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルはいずれも音声接続合成の音庫に基づいて訓練したものである。

0045

本実施例の音声合成装置は、上記モジュールを採用することで音声合成を実現する実現原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

0046

図4は、本発明の音声合成装置の実施例2の構成図である。図4に示すように、本実施例の音声合成装置は、上記図3に示す実施例の技術案を基礎として、具体的に以下の部品を含むことができる。

0047

図4に示すように、本実施例の音声合成装置は、庫におけるテキスト及び対応する音声に基づいて、時間長さ予測モデル、基本周波数予測モデル及び音声合成モデルを訓練するための訓練モジュール12を更に含む。

0048

相応に、予測モジュール10は、訓練モジュール12によって予めに訓練した時間長さ予測モデル及び基本周波数予測モデルに基づいて、問題音声に対応する目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測するために用いられ、
相応に、合成モジュール11は、予測モジュール10によって予測された目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数に基づいて、訓練モジュール12によって予めに訓練した音声合成モデルによって目標テキストに対応する音声を合成するために用いられる。

0049

更に好ましく、図4に示すように、本実施例の音声合成装置において、訓練モジュール12は、具体的に、
音庫におけるテキスト及び対応する音声から、複数の訓練テキスト及び対応する訓練音声を抽出し、
複数の訓練音声から、各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数をそれぞれに抽出すし、
各訓練テキスト及び対応する訓練音声における毎音素に対応する状態の時間長さに基づいて、時間長さ予測モデルを訓練し、
各訓練テキスト及び対応する訓練音声における毎フレームに対応する基本周波数に基づいて、基本周波数予測モデルを訓練し、
各訓練テキスト、対応する各訓練音声、対応する各訓練音声における毎音素に対応する状態の時間長さ及び毎フレームに対応する基本周波数に基づいて、音声合成モデルを訓練するために用いられる。

0050

更に好ましく、図4に示すように、本実施例の音声合成装置は、更に、音庫を利用して音声接続合成を行う時、ユーザによって返送された問題音声及び問題音声に対応する目標テキストを受信するための受信モジュール13を含む。

0051

相応に、受信モジュール13は、予測モジュール10を起動させることができ、受信モジュール13はユーザによって返送された問題音声を受信した後、予測モジュール10を起動させ、予めに訓練された時間長さ予測モデ及び基本周波数予測モデルに基づいて、目標テキストに対応する毎音素の状態の時間長さ及び毎フレームの基本周波数を予測させる。

0052

更に好ましく、図4に示すように、本実施例の音声合成装置は、更に、目標テキスト及び合成モジュール11によって合成した対応する音声を音庫に添加するための添加モジュール14を含む。

0053

更に好ましく、本実施例の音声合成装置において、音声合成モデルはWaveNetモデルを採用する。

0054

本実施例の音声合成装置は、上記モジュールを採用することで音声合成を実現する実現原理及び技術効果が上記相関方法の実施例の実現と同じであり、詳細は上記相関方法の実施例の記載を参照することができ、ここで贅言しない。

0055

図5は、本発明のコンピュータ設備の実施例の構成図である。図5に示すように、本実施例のコンピュータ設備は、メモリ40及び1つ或いは複数のプロセッサ30を含み、メモリ40は1つ或いは複数のプログラムを記憶するためのものであり、メモリ40に記憶された1つ或いは複数のプログラムが1つ或いは複数のプロセッサ30によって実行される時、1つ或いは複数のプロセッサ30に上記図1図2に示す実施例の音声合成方法を実現させる。図5に示す実施例において複数のプロセッサ30を含むことを例とする。

0056

例えば、図6は、本発明に関するコンピュータ設備の例の図である。図6は、本発明の実施形態を実現するために適する、例示的なコンピュータ設備12aのブロック図を示す。

0057

図6に示すコンピュータ設備12aは1つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。

0058

図6に示すように、コンピュータ設備12aは汎用演算設備の形態で表現される。コンピュータ設備12aの構成要素には、1つ又は複数のプロセッサ16aと、システムメモリ28aと、異なるシステム構成要素(システムメモリ28aとプロセッサ16aとを含む)を接続するためのバス18aを含むが、これに限定されない。

0059

バス18aは、複数種類バス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ周辺バスグラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバスビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含むが、これに限定されない。

0060

コンピュータ設備12aには、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータ設備12aにアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

0061

システムメモリ28aは、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30a及び/又はキャッシュメモリ32aを含むことができる。コンピュータ設備12aには、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、ストレジ34aは、移動不可能な不揮発性磁媒体を読み書くために用いられる(図6に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図6に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれ1つ又は複数のデータ媒体インターフェースによってバス18aに接続される。システムメモリ28aは少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の図1図4の各実施例の機能を実行するように配置される。

0062

1組の(少なくとも1つの)プログラムモジュール42aを含むプログラム/実用ツール40aは、例えばシステムメモリ28aに記憶され、このようなプログラムモジュール42aには、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含むが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42aは、常に本発明に記載された上記図1〜4の各実施例における機能及び/或いは方法を実行する。

0063

コンピュータ設備12aは、1つ又は複数の周辺設備14a(例えばキーボードポインティングデバイスディスプレイ24a等)と通信を行ってもよく、ユーザと該コンピュータ設備12aとのインタラクティブを実現することができ1つ又は複数のる設備と通信を行ってもよく、及び/又は該コンピュータ設備12aと1つ又は複数の他の演算設備との通信を実現することができるいずれかの設備(例えばネットワークカードモデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22aによって行うことができる。そして、コンピュータ設備12aは、ネットワークアダプタ20aによって1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワークWAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図に示すように、ネットワークアダプタ20aは、バス18aによってコンピュータ設備12aの他のモジュールと通信を行う。当然のことながら、図に示していないが、コンピュータ設備12aと連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

0064

プロセッサ16aは、システムメモリ28aに記憶されているプログラムを実行することで、様々な機能応用及びデータ処理、例えば本発明に記載された音声合成方法を実現する。

0065

本発明は、コンピュータプログラムを記憶したコンピュータ読取り可能な媒体も提供し、該プログラムがプロセッサによって実行される時、上記実施例に示すような音声合成方法方法を実現する。

0066

本実施例のコンピュータ読み取り可能な媒体は、上記図6に示す実施例におけるシステムメモリ28aにおけるRAM30a、及び/或いはキャッシュメモリ32a、及び/或いはストレジ34aを含むことができる。

0067

時間及び技術の進展に伴い、コンピュータプログラムの伝送方式も、有形の媒体に限らず、ネットワーク等から直接ダウンロードすることもでき、或いは他の方式を採用して取得することもできる。従って、本実施例におけるコンピュータ読み取り可能な媒体は、有形の媒体だけでなく、無形の媒体を含んでもよい。

0068

本実施例のコンピュータ読み取り可能な媒体は、1つ又は複数のコンピュータコンピュータ読取り可能な媒体の任意な組合を採用しても良い。コンピュータ読取り可能な媒体は、コンピュータ読取り可能な信号媒体又はコンピュータ読取り可能な記憶媒体である。コンピュータ読取り可能な記憶媒体は、例えば、電気磁気、光、電磁気赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形の媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されることができる。

0069

コンピュータ読取り可能な信号媒体は、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの1部として伝搬されるデータ信号を含み、それにコンピュータ読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号光信号又はそれらの任意で適当な組合を含むが、これに限定されない。コンピュータ読取り可能な信号媒体は、コンピュータ読取り可能な記憶媒体以外の任意なコンピュータ読取り可能な媒体であってもよく、該コンピュータ読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は伝送できる。

0070

コンピュータ読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって伝送されてもよく、無線電線光ケーブル、RF等、又は上記ものの任意で適当な組合を含むが、これに限定されない。

0071

1つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコード編集することができ、上記プログラミング言語は、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。

0072

本発明に開示されたいくつの実施例で開示されたシステム、装置および方法は、他の形態によって実現できることを理解すべきだ。例えば、上述装置に関する実施例が例示だけであり、例えば、上記手段の区分ロジック機能上の区分だけであり、実際に実現する時、他の区分方式であってもよい。

0073

上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセル分布されても良い。実際の必要に基づいて、その中の1部又は全部を選択して、本実施例の態様の目的を実現することができる。

0074

また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。

0075

上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピュータ読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の部分ステップを実行させるための若干の命令を含む。上記記憶媒体は、USBメモリリムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

0076

以上の説明は、本発明の好ましい例示だけであり、本発明を限定するものではなく、本発明の主旨及び原則の範囲で行った、いずれの修正、等価置換、改良なども全て本発明の保護する範囲に属すべきである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ