図面 (/)

技術 音声変換学習装置、音声変換装置、方法、及びプログラム

出願人 日本電信電話株式会社
発明者 亀岡弘和金子卓弘
出願日 2018年8月13日 (2年2ヶ月経過) 出願番号 2018-152394
公開日 2020年2月20日 (8ヶ月経過) 公開番号 2020-027193
状態 未査定
技術分野 音声の分析・合成
主要キーワード 任意属性 変換目標 目標属性 属性カテゴリ クロスエントロピー クラス確率 バイナリベクトル 時間周波数解析
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年2月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

所望の属性音声に変換することができる。

解決手段

学習部は、変換器の学習規準の値を最小化するように、変換器を学習し、音声識別器の学習規準の値を最小化するように、音声識別器を学習し、属性識別器の学習規準の値を最小化するように、属性識別器を学習する。

概要

背景

入力音声言語情報発話文)を保持したまま非言語・パラ言語話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援音声強調発音変換などへの応用が可能である。声質変換の問題は、変換元音声音響特徴量から変換目標の音声の音響特徴量への写像関数推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model;GMM) を用いた手法はその有効性汎用性から広く用いられている。また、近年では、フィードフォワードニューラルネットワーク(NeuralNetwork;NN)、再帰型NN(Recurrent NN; RNN)、畳み込み型NN(Convolutional NN;CNN) などのNN 系の手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。

これらの手法の多くは、時間整合された同一発話内容の音声ペアで構成されるパラレルデータを用いて変換音声の音響特徴量が目標音声の音響特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし、用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また、仮にそのようなペアデータが用意できる場合でも、高い精度の時間整合が必要となり、これを自動処理で行う際は整合ミス修正するため目視手動によるプリスクリーニングが必要となる場合が多い。

一方、パラレルデータを必ずしも必要としない非パラレル声質変換法も提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音響特徴量をペアとすることでパラレルデータを構築する。パラレルデータの構築のため対象音声に対し音声認識を高い精度で行えることが想定されるが、音声認識精度が十分でない場合には性能は限定的となる。話者性を変換するタスクに限定した方法としては話者適応技術を用いるものがある。この方法では、変換元音声と変換目標音声のパラレルデータを必要としないが、話者空間を学習するための参照音声のパラレルデータを用いる必要がある。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方式として、条件付変分自己符号化器(Conditional Variational Autoencoder;CVAE) に基づく非パラレル声質変換法が提案されている(非特許文献1、2)。この方法では、音響特徴量を入力として潜在変数の条件付分布パラメータを出力するエンコーダNNと潜在変数を入力として音響特徴量の条件付分布のパラメータを出力するデコーダNNを学習サンプルの音響特徴量を用いて学習することが目標となる。

この際、各サンプルに対応する属性コードをエンコーダとデコーダへの補助入力とすることで、エンコーダとデコーダの条件付分布がそれぞれ属性コードで条件付けした潜在変数の条件付分布と音響特徴量の条件付分布を表すよう学習される。このようにして学習したエンコーダとデコーダに対し変換元音声の音響特徴量と所望の属性コードを入力することで、変換元音声の発話内容を保持したまま所望の属性をもった音響特徴量を生成することが可能となる。前述のようにこの方式はパラレルデータを必要としない利点がある一方で、生成される音声の特徴量が過剰平滑化される傾向にあり、これが変換音声の品質限界を与える一因となっていた。これはデコーダの条件付分布にガウス分布などのパラメトリック確率分布形を仮定することに起因し、仮定した分布形が実際に音響特徴量が従う真の確率分布と一致しないことによる。この点を解決する可能性のあるアプローチとして、近年敵対的生成ネットワーク(Generative Adversarial Network; GAN)を用いた非パラレル声質変換法が提案されている(非特許文献3)。この方法では、異なる属性の音声間の変換関数G、Fと、入力が実音声の特徴量か合成音声の特徴量かを識別する識別器DをそれぞれNNによりモデル化し、これらを敵対的学習規準循環無矛盾性規準、恒等変換規準と呼ぶ三種の規準を用いて学習する。敵対的学習規準は識別器Dの損失関数をさし、Dはこれが大きくなるように学習されるのに対し、GとFはこれが小さくなるように学習される。これはすなわち、GとFにより変換された音響特徴量がDに実音声と誤まって識別される(実音声と見分けらない)ように促すことを意味する。循環無矛盾性規準は、GまたはFにより変換された音響特徴量をもう一方の変換関数により逆変換した際の復元誤差をさし、これを小さくするようにGとFを学習することで、GおよびFが一対一変換となるよう学習を促進させることができる。また、恒等変換規準は、変換先の属性の音響特徴量を変換関数の入力とした際の変化の大きさを表す変換誤差をさし、GとFはこれができるだけ小さくなるように学習される。これらの規準が、パラレルデータを用いずとも発話内容を保持したまま属性のみを変換する関数を得ることを可能にしている。このような、二種の属性間のデータの変換関数を学習する方式を、循環無矛盾敵対的ネットワーク(Cycle-consistency Adversarial Network; CycleGAN)と呼び、これを声質変換タスクに応用した方法(非特許文献3)をCycleGAN声質変換法と呼ぶ。

概要

所望の属性の音声に変換することができる。学習部は、変換器の学習規準の値を最小化するように、変換器を学習し、音声識別器の学習規準の値を最小化するように、音声識別器を学習し、属性識別器の学習規準の値を最小化するように、属性識別器を学習する。

目的

本発明は、上記問題点を解決するために成されたものであり、所望の属性の音声に変換することができる変換器を学習できる音声変換学習装置、方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

属性が異なる変換元音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部を含む音声変換学習装置

請求項2

前記変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される請求項1記載の音声変換学習装置。

請求項3

前記音声識別器は、前記属性識別器に含まれ、前記属性識別器は、前記属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力する請求項1又は2記載の音声変換学習装置。

請求項4

音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部を含み、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである音声変換装置

請求項5

学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する音声変換学習方法

請求項6

音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである音声変換方法。

請求項7

コンピュータを、請求項1〜請求項3のいずれか1項に記載の音声変換学習装置、又は請求項4に記載の音声変換装置の各部として機能させるためのプログラム

技術分野

0001

本発明は、音声変換学習装置音声変換装置、方法、及びプログラム係り、特に、音声を変換するための音声変換学習装置、音声変換装置、方法、及びプログラムに関する。

背景技術

0002

入力音声言語情報発話文)を保持したまま非言語・パラ言語話者性や発話様式など)のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援音声強調発音変換などへの応用が可能である。声質変換の問題は、変換元の音声の音響特徴量から変換目標の音声の音響特徴量への写像関数推定する回帰分析の問題として定式化することができる。声質変換の従来法の中でも混合ガウス分布モデル(Gaussian Mixture Model;GMM) を用いた手法はその有効性汎用性から広く用いられている。また、近年では、フィードフォワードニューラルネットワーク(NeuralNetwork;NN)、再帰型NN(Recurrent NN; RNN)、畳み込み型NN(Convolutional NN;CNN) などのNN 系の手法や非負値行列因子分解(Non-negative Matrix Factorization; NMF) などを用いた事例(Exemplar)ベースの手法の検討も進められている。

0003

これらの手法の多くは、時間整合された同一発話内容の音声ペアで構成されるパラレルデータを用いて変換音声の音響特徴量が目標音声の音響特徴量にできるだけ近くなるように変換関数の学習が行われる。しかし、用途によっては同一発話内容の変換元音声と目標音声のペアデータを用意することが難しい場面は多くある。また、仮にそのようなペアデータが用意できる場合でも、高い精度の時間整合が必要となり、これを自動処理で行う際は整合ミス修正するため目視手動によるプリスクリーニングが必要となる場合が多い。

0004

一方、パラレルデータを必ずしも必要としない非パラレル声質変換法も提案されている。一例は音声認識を用いた方法である。この方法では、変換元音声と変換目標音声において同一音素と認識された時間フレームの音響特徴量をペアとすることでパラレルデータを構築する。パラレルデータの構築のため対象音声に対し音声認識を高い精度で行えることが想定されるが、音声認識精度が十分でない場合には性能は限定的となる。話者性を変換するタスクに限定した方法としては話者適応技術を用いるものがある。この方法では、変換元音声と変換目標音声のパラレルデータを必要としないが、話者空間を学習するための参照音声のパラレルデータを用いる必要がある。また、近年、テキストラベルや参照音声などのデータや音声認識などのモジュールおよびパラレルデータを一切必要としない方式として、条件付変分自己符号化器(Conditional Variational Autoencoder;CVAE) に基づく非パラレル声質変換法が提案されている(非特許文献1、2)。この方法では、音響特徴量を入力として潜在変数の条件付分布パラメータを出力するエンコーダNNと潜在変数を入力として音響特徴量の条件付分布のパラメータを出力するデコーダNNを学習サンプルの音響特徴量を用いて学習することが目標となる。

0005

この際、各サンプルに対応する属性コードをエンコーダとデコーダへの補助入力とすることで、エンコーダとデコーダの条件付分布がそれぞれ属性コードで条件付けした潜在変数の条件付分布と音響特徴量の条件付分布を表すよう学習される。このようにして学習したエンコーダとデコーダに対し変換元音声の音響特徴量と所望の属性コードを入力することで、変換元音声の発話内容を保持したまま所望の属性をもった音響特徴量を生成することが可能となる。前述のようにこの方式はパラレルデータを必要としない利点がある一方で、生成される音声の特徴量が過剰平滑化される傾向にあり、これが変換音声の品質限界を与える一因となっていた。これはデコーダの条件付分布にガウス分布などのパラメトリック確率分布形を仮定することに起因し、仮定した分布形が実際に音響特徴量が従う真の確率分布と一致しないことによる。この点を解決する可能性のあるアプローチとして、近年敵対的生成ネットワーク(Generative Adversarial Network; GAN)を用いた非パラレル声質変換法が提案されている(非特許文献3)。この方法では、異なる属性の音声間の変換関数G、Fと、入力が実音声の特徴量か合成音声の特徴量かを識別する識別器DをそれぞれNNによりモデル化し、これらを敵対的学習規準循環無矛盾性規準、恒等変換規準と呼ぶ三種の規準を用いて学習する。敵対的学習規準は識別器Dの損失関数をさし、Dはこれが大きくなるように学習されるのに対し、GとFはこれが小さくなるように学習される。これはすなわち、GとFにより変換された音響特徴量がDに実音声と誤まって識別される(実音声と見分けらない)ように促すことを意味する。循環無矛盾性規準は、GまたはFにより変換された音響特徴量をもう一方の変換関数により逆変換した際の復元誤差をさし、これを小さくするようにGとFを学習することで、GおよびFが一対一変換となるよう学習を促進させることができる。また、恒等変換規準は、変換先の属性の音響特徴量を変換関数の入力とした際の変化の大きさを表す変換誤差をさし、GとFはこれができるだけ小さくなるように学習される。これらの規準が、パラレルデータを用いずとも発話内容を保持したまま属性のみを変換する関数を得ることを可能にしている。このような、二種の属性間のデータの変換関数を学習する方式を、循環無矛盾敵対的ネットワーク(Cycle-consistency Adversarial Network; CycleGAN)と呼び、これを声質変換タスクに応用した方法(非特許文献3)をCycleGAN声質変換法と呼ぶ。

先行技術

0006

C.-C. Hsu,H.-T.Hwang,Y.-C. Wu,Y.Tsao, and H.-M. Wang, "Voice conversion from non-parallel corpora using variational auto-encoder," in Proc.APSIPA,2016, pp.1-6.
C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, “Voice conversion from unaligned corpora using variational autoencodingWasserstein generative adversarial networks,” in Proc. Interspeech, 2017, pp. 3364-3368.
Takuhiro Kaneko, Hirokazu Kameoka, "Parallel-data-free voice conversion using cycle-consistent adversarial networks," eprint arXiv:1711.11293, Nov. 2017.

発明が解決しようとする課題

0007

この方法は、敵対的学習規準の導入により、CVAE方式のように音響特徴量の確率分布形を陽に仮定することなく実音声の音響特徴量が従う真の確率分布に近い音響特徴量を生成することができる特長をもつ。一方で、この方法は二種の属性間の相互変換に限ったものであるため、この方法を用いて多種の属性への変換を行うには、属性のペアの全組み合わせ分の変換関数を学習する必要があり、学習すべきパラメータの数が属性の種類に応じて爆発的に増大し学習が困難になる問題がある。
以上のように上述のCVAE方式とCycleGAN方式にはいずれも一長一短があり、それぞれに解決すべき点が残されている。また、いずれの方式も、変換音声の目標属性度合いが直接的な規準として考慮されていないため、属性変換の効果も限定的であると考えられる。

0008

本発明は、上記問題点を解決するために成されたものであり、所望の属性の音声に変換することができる変換器を学習できる音声変換学習装置、方法、及びプログラムを提供することを目的とする。

0009

また、所望の属性の音声に変換することができる音声変換装置、方法、及びプログラムを提供することを目的とする。

課題を解決するための手段

0010

上記目的を達成するために、本発明に係る音声変換学習装置は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する学習部であって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する学習部を含んで構成されている。

0011

また、本発明に係る音声変換学習方法は、学習部が、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習することであって、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習する。

0012

また、本発明に係る音声変換装置は、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換部を含み、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習され、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである。

0013

また、本発明に係る音声変換方法は、音声変換部が、音響特徴量系列及び属性コードを入力として前記属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定する音声変換方法であって、前記変換器は、属性が異なる変換元の音声信号の各々についての音響特徴量系列、及び前記変換元の音声信号の各々の属性を示す属性コードに基づいて、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように予め学習されたものであり、前記音声識別器は、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記属性コードを入力として前記属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように予め学習され、前記属性識別器は、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように予め学習されたものである。

0014

また、本発明に係るプログラムは、コンピュータを、上記発明に係る音声変換学習装置の各部、または上記発明に係る音声変換装置の各部として機能させるためのプログラムである。

発明の効果

0015

本発明の音声変換学習装置、方法、及びプログラムによれば、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習することにより、所望の属性の音声に変換することができる変換器を学習できる、という効果が得られる。

0016

本発明の音声変換装置、方法、及びプログラムによれば、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさと、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、属性識別器によって識別される前記任意の属性コードらしさと、前記変換元の音声信号の属性コードとは異なる属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、前記変換元の音声信号の属性コードを入力として前記変換器によって再変換された前記音響特徴量系列と、前記変換元の音声信号の音響特徴量系列との誤差と、前記変換元の音声信号の属性コードを入力として前記変換器によって変換された前記音響特徴量系列と、前記変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、前記変換器を学習し、任意の属性コードを入力として前記変換器によって変換された前記音響特徴量系列について、音声識別器によって識別される前記任意の属性コードが示す実音声らしさ、及び前記変換元の音声信号の音響特徴量系列について、前記変換元の音声信号の前記属性コードを入力としたときの前記音声識別器によって識別される前記属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、前記音声識別器を学習し、前記変換元の音声信号の音響特徴量系列について、前記属性識別器によって識別される前記変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、前記属性識別器を学習することにより得られた変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。

図面の簡単な説明

0017

本発明の実施の形態に係る音声変換方法の概要を説明するための図である。
本発明の実施の形態に係る音声変換方法の他の例の概要を説明するための図である。
本発明の実施の形態に係る音声変換学習装置の構成を示すブロック図である。
本発明の実施の形態に係る音声変換装置の構成を示すブロック図である。
本発明の実施の形態に係る音声変換学習装置における音声変換学習処理ルーチンを示すフローチャートである。
本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンを示すフローチャートである。
変換元音声(テストデータ)の音響特徴量系列を示す図である。
テストデータと発話文が同一の目標音声の音響特徴量系列を示す図である。
本発明の実施の形態の手法による、変換音声の音響特徴量系列を示す図である。
従来手法による、変換音声の音響特徴量系列を示す図である。
別の従来手法による、変換音声の音響特徴量系列を示す図である。
従来手法に係る音声変換方法の概要を説明するための図である。

実施例

0018

以下、図面を参照して本発明の実施の形態を詳細に説明する。

0019

<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。

0020

本発明の実施の形態では、以上の従来技術の問題や限界を克服する非パラレル声質変換手法を提案する。本発明の実施の形態の方法は、(1)テキストラベルや参照音声などのデータや音声認識などのモジュールを別途必要としない点、(2)従来の多くの声質変換法においてしばしば問題とされる音響特徴量の過剰平滑化が起こりにくい点、(3)変換元と変換目標の音声の時間依存性を捉えた変換が可能である点、(4)属性識別器を用いて測られる変換音声の目標属性の度合いを学習規準に含む点、(5)多種の属性への変換器を単一のNNで表現する(属性数に応じて学習すべきパラメータの数がほとんど変わらない)点、を特長にもつ。

0021

以上の本発明の実施の形態の方法の特長は、以下の(a)〜(d)により実現する。

0022

(a)変換器G、実音声/合成音声識別器D、属性識別器CをNNでモデル化する。

0023

(b)音響特徴量系列を各種NNの入力とする。

0024

(c)属性コードを変換器Gおよび実音声/合成音声識別器Dの補助入力とする。

0025

(d)敵対的学習規準、循環無矛盾性規準、復元誤差規準、属性識別規準からなる学習規準を用いて変換器G、実音声/合成音声識別器D、属性識別器Cを学習する。

0026

<本発明の実施の形態の原理
<CycleGAN による声質変換(従来法)>


をそれぞれ属性c、 c′の音声の音響特徴量(メルケプストラム係数パワースペクトルなど)系列を表す配列とする。CycleGAN声質変換では、非パラレル学習サンプルx、yを用いて、xを属性c′に変換する変換器


とyを属性cに変換する変換器


を学習することが目的である。ここで、属性c の実音声かそうでないかを識別する識別器DXと属性c′ の実音声かそうでないかを識別する識別器DYを用いて敵対的学習規準


0027

0028

と定め、この規準をもとにG、FとともにDX、DYも学習することを考える。この規準は、DX が正しくxを実音声、F(y)を合成音声と識別できている場合と、DYが正しくyを実音声、G(x)を合成音声と識別できている場合に大きい値をとる。DX、DYに関してはこの規準が大きくなるよう学習し、G、Fに関してはこの規準が小さくなるよう学習することで、G、Fによって変換される音響特徴量をDX、DYに実音声と見分けられにくくすることができる。これが本方式において品質の高い変換音声を得るための鍵となる。また、循環無矛盾性規準


および恒等変換規準


をそれぞれ

0029

0030

と定める。

0031

は、xをGで変換後、Fで変換したものが元通りxと一致する場合とyをFで変換後Gで変換したものが元通りyと一致する場合に最小になる。一方、


は、yをGの入力としたときの出力がyから変化がない場合とxをFの入力としたときの出力がxから変化がない場合に最小になる。GとFをこれらが小さくなるように学習することで、GとFがいずれも一対一変換となるように促進することができる。これが非パラレル声質変換法を実現する上での鍵となる。以上の三種の規準の重みつき

0032

0033

がG、F、DX、DYの学習規準となる。G、Fのパラメータを


が小さくなるように反復更新し、DX、DYのパラメータを


が大きくなるように反復更新することで、属性c、c′の音声の音響特徴量を相互変換する関数G、Fを得ることができる(図12参照)。以上のようにこの方式は、二属性間の変換器を学習する方法となっており、これをそのまま用いて多種の属性への変換を行えるようにするためには属性ペアごとにG、F、DX、DYに相当するNNを用意する必要がある。属性の数に応じて属性ペアの組み合わせは二乗オーダーで増大するため、これに応じて学習すべきパラメータ数も増大し、学習が困難となる。

0034

<StarGAN声質変換(本発明の実施の形態の方法)>
<学習方法I>
本発明の実施の形態の方法では、音響特徴量系列


と属性コードc を補助入力として受け付けるNNにより多種の属性への変換器Gを構成する。すなわち、


を、任意属性の入力x が属性cに変換されたものと見なす。この


を実音声らしく、かつ属性cをもつ音響特徴量系列とすることが目標であるので、実音声か合成音声かを識別する識別器Dと、属性を識別する属性識別器Cを導入し、G、D、Cの学習規準としてDの損失関数およびCの損失関数をまず考える(図1参照)。ここで、属性はI個のカテゴリからなり、各カテゴリは複数のクラスからなるものとする。従って、属性cはI個のクラスラベルによって表現される。今、実音声クラスのラベルを1、合成音声クラスのラベルを0とし、cを各カテゴリ中の該当クラスを示した1one-hotベクトルを結合したバイナリベクトル

0035

0036

とする。例えばiが「話者」カテゴリであればj=1,...,Jは話者IDとなり、iが「性別」カテゴリであればj=1,2は男性女性を表す。ここで、DとCをそれぞれNNで表される


のような関数とする。すなわち、Dを音響特徴量系列と属性コードc∈{0,1}I×Jを入力として音響特徴量系列が領域(q’,n’)においてどれくらい実音声らしいかを表す確率を出力する関数、Cを音響特徴量系列を入力として音響特徴量系列が領域(q’,n’)においてどれくらいカテゴリiのクラスjらしいかを表す確率を出力する関数とする。従って、D(y,c)の第(q’×n’)要素Dq’,n’(y,c)は領域(q’,n’)においてyがどれくらい実音声らしいかを表す確率のため、

0037

0038

を満たし、C(y)の要素Cq’,n’,i,j(y)は領域(q’,n’)におけるカテゴリiのクラスjの確率に対応するため、

0039

0040

を満たす。DとCの損失関数としてクロスエントロピー規準を用いる場合、

0041

0042

と書ける。ただし、Cq’,n’,(y)はyが領域(q’,n’)においてどれくらい属性コードcに適合しているかを表す確率

0043

0044

を表す。なお、


は、


であるクラスjに対応する確率値をC(y)から抜き出す操作に相当する。


は、Dが入力を実音声の音響特徴量系列か合成音声の音響特徴量系列かを正しく識別できている場合、すなわち、D(・,c)に実音声の音響特徴量系列yが入力されたときに


となり、かつ変換音声の音響特徴量系列G(x,c)が入力されたときに


となる場合に小さい値をとる規準となっている。一方、


は、属性cの音声の音響特徴量がCに正しく属性cと識別されるときに小さい値をとる規準となっている。よって、DとCについてはこれらができるだけ小さくなるように学習すれば良い。一方で変換器Gについては、G(x,c)がDに実音声と識別されるように、かつCに属性cと識別されるようにしたいので、

0045

0046

のような規準、または

0047

0048

のような規準を考え、式(12)、(13)または式(14)、(15)が小さくなるように学習すれば良い。

0049

DとCの損失関数として、クロスエントロピーのほかに二乗誤差規準を用いることもできる。この場合、


として、例えば

0050

0051

のような形のものを用いることができる。式(17)、(19)は、cの全カテゴリのクラス確率の積(同時確率)が1に近い場合に小さい値をとる規準となっているが、各カテゴリのクラス確率

0052

0053

がすべて1 に近い場合に小さい値をとる規準であれば良いので、例えば

0054

0055

のような規準を代わりに用いても良い。

0056

以上の規準のみの学習では、Gによる変換音声が入力音声の発話内容を保持することは保証されない。そこで、CycleGANと同様、循環無矛盾性規準

0057

0058

を導入する。ただし、ρは正の実数とする。これはすなわち、属性c’の入力音声の音響特徴量系列xを属性cに変換後、属性c’に再変換したものが元のxと一致するときに小さい値をとる規準である。

0059

また、属性cの入力音声の音響特徴量系列xを同一属性cに変換したものもxと一致すべきなので、

0060

0061

のような復元誤差規準も併せて考慮する。

0062

上より、G、D、C に関して最小化したい学習規準はそれぞれ

0063

0064

となる。GもDもCもNNで表現されているため、以上の規準を用いたG、D、Cの学習は各々のNNパラメータを誤差逆伝播法により反復更新することにより行うことができる。

0065

<学習方法II>
上記学習方法Iでは、実音声/合成音声識別器Dと属性識別器Cを別々のNNで構成することを想定したが、実音声か合成音声かを属性の一カテゴリと見なして、図2のようにCのみに実音声/合成音声識別と属性識別を担わせる方法も可能である。この場合、上述の方式において、例えばi=1を実音声か合成音声かを表す属性カテゴリとし、Cq’n’,1(y)をDq’n’(y)と置き、Cq’n’,2(y),...,Cq’n’,I(y)を改めてCと置いた上で式(25)〜(27)を学習規準として用いれば良い。

0066

<NNの構成について>
音声は文脈や発話内容に応じて話し方声質の変化の仕方は異なる。よって、音響特徴量を変換する関数は、時間依存性を有する(入力音声と出力音声の音響特徴量系列の履歴に依存して決定される)ことが望ましい。そこで、本発明の実施の形態ではG、D、Cに音声の音響特徴量の時間依存性を捉えた変換や識別を行えるように各々のNNを長短期記憶(Long Short-Term Memory; LSTM) や双方向LSTM(Birectional LSTM; BiLSTM) などのRNNや時間方向の畳み込みを含むCNNまたはゲート付きCNNなどによりモデル化する。

0067

変換方法(本発明の実施の形態の方法)>
音響特徴ベクトルとしては、
(A1)対数振幅スペクトルを要素としたベクトル
(A2)メルケプストラム係数を要素としたベクトル
(A3)線形予測係数を要素としたベクトル
(A4)偏自己相関係数(Partial Correlation; PARCOR)係数を要素としたベクトル
(A5)線スペクトル対(Line Spectral Pair; LSP)パラメータを要素としたベクトル
などを用いることができる。(A1)はSTFTやウェーブレット変換などの時間周波数解析、(A2)はメルケプストラム分析、(A3)は線形予測分析、(A4)はPARCOR分析、(A5)はLSP分析を用いることにより得ることができる。また、(A1)はSTRAIGHT 分析、WORLD分析などにより得られるスペクトル包絡としても良く、(A2−A5)もスペクトル包絡に対しそれぞれの分析により得られたものとしても良い。例えば、以下の(B1−B5)を音響特徴ベクトルとして用いても良い。

0068

(B1)対数スペクトル包絡を要素としたベクトル
(B2) B1より得られるメルケプストラム係数を要素としたベクトル
(B3) B1より得られる線形予測係数を要素としたベクトル
(B4) B1より得られるPARCOR係数を要素としたベクトル
(B5) B1より得られるLSPパラメータを要素としたベクトル

0069

Gの学習完了後、入力音声の音響特徴量系列xと目標属性コードcをGに入力することで変換音声の音響特徴量系列


を得ることができる。以上により得られる


から音響特徴量の算出プロセスに応じた時間領域信号の算出プロセスにより変換音声を得ることができる。例えば音響特徴量として(A1)を用いる場合は時間周波数解析の逆変換(逆STFT、ウェーブレット逆変換など)、(A2)-(A5)、 (B1)-(B5) を用いる場合はボコーダを用いることにより実現できる。

0070

<本発明の実施の形態に係る音声変換学習装置の構成>
次に、本発明の実施の形態に係る音声変換学習装置の構成について説明する。図3に示すように、本発明の実施の形態に係る音声変換学習装置100は、CPUと、RAMと、後述する音声変換学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換学習装置100は、機能的には図3に示すように入力部10と、演算部20と、出力部50とを備えている。

0071

入力部10は、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付ける。なお、変換元の音声信号の属性を示す属性コードは、人手で与えておけばよい。また、音声信号の属性とは、例えば、性別、大人/子供、話者ID、母語話者か否か(出身)、発話ムードの種類(怒り、悲しみなど)、発話モード(講演風、自由発話風など)などである。

0072

演算部20は、音響特徴抽出部30と、学習部32を含んで構成されている。

0073

音響特徴抽出部30は、入力された変換元の音声信号の各々から、音響特徴量系列を抽出する。

0074

学習部32は、変換元の音声信号の各々における音響特徴量系列と、変換元の音声信号の各々の属性を示す属性コードに基づいて、音響特徴量系列及び属性コードを入力として当該属性コードが示す属性の音声信号の音響特徴量系列に変換する変換器を学習する。

0075

具体的には、学習部32は、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性コードを入力として当該属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される当該任意の属性コードが示す実音声らしさと、当該任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との距離とを用いて表される上記(25)式に示す学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性コードを入力として属性コードが示す属性の実音声であるか合成音声であるかを識別するための音声識別器によって識別される当該任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される上記(26)式に示す学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の属性コードらしさを用いて表される上記(27)式に示す学習規準の値を最小化するように、属性識別器を学習し、出力部50に出力する。ここで、変換器、前記音声識別器、及び前記属性識別器の各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。

0076

なお、音声識別器は、属性識別器に含まれ、属性識別器は、属性コードに含まれる各属性カテゴリの各クラスらしさと、実音声らしさとを出力するように構成されてもよい。

0077

<本発明の実施の形態に係る音声変換装置の構成>
次に、本発明の実施の形態に係る音声変換装置の構成について説明する。図4に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この音声変換装置150は、機能的には図2に示すように入力部60と、演算部70と、出力部90とを備えている。

0078

入力部60は、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを、入力として受け付ける。なお、目標の音声信号の属性を示す属性コードは人手で与えればよい。

0079

演算部70は、音響特徴抽出部72と、音声変換部74と、変換音声生成部78とを含んで構成されている。

0080

音響特徴抽出部72は、入力された変換元の音声信号から、音響特徴量系列を抽出する。

0081

音声変換部74は、音声変換学習装置100により学習された変換器を用いて、音響特徴抽出部72により抽出された音響特徴量系列及び入力部60で受け付けた属性コードから、目標の音声信号の音響特徴量系列を推定する。

0082

変換音声生成部78は、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力する。

0083

<本発明の実施の形態に係る音声変換学習装置の作用>
次に、本発明の実施の形態に係る音声変換学習装置100の作用について説明する。入力部10により、属性が異なる変換元の音声信号の各々、及び変換元の音声信号の各々の属性を示す属性コードを受け付けると、音声変換学習装置100は、図5に示す音声変換学習処理ルーチンを実行する。

0084

まず、ステップS100では、入力された変換元の音声信号の各々から、音響特徴量系列を抽出する。

0085

次に、ステップS102では、変換元の音声信号の各々における音響特徴量系列と、変換元の音声信号の各々の属性を示す属性コードに基づいて、変換器、音声識別器、及び属性識別器を学習し、学習結果を出力部50により出力して、音声変換学習処理ルーチンを終了する。

0086

<本発明の実施の形態に係る音声変換装置の作用>
次に、本発明の実施の形態に係る音声変換装置150の作用について説明する。入力部60により、音声変換学習装置100による学習結果を受け付ける。また、入力部60により、変換元の音声信号と、目標の音声信号の属性を示す属性コードとを受け付けると、音声変換装置150は、図6に示す音声変換処理ルーチンを実行する。

0087

まず、ステップS150では、入力された変換元の音声信号から、音響特徴量系列を抽出する。

0088

次に、ステップS152では、音声変換学習装置100により学習された変換器を用いて、音響特徴抽出部72により抽出された音響特徴量系列及び入力部60で受け付けた属性コードから、目標の音声信号の音響特徴量系列を推定する。

0089

ステップS156では、推定された目標の音声信号の音響特徴量系列から、時間領域信号を生成し、目標の音声信号として出力部90により出力して、音声変換処理ルーチンを終了する。

0090

実験結果>
本発明の実施の形態の手法による音声変換の音質と変換効果を確認するため、Voice Conversion Challenge (VCC)2018 の4話者の音声データ(女性話者VCC2SF1、男性話者VCC2SM1、女性話者VCC2SF2、男性話者VCC2SM2)を用いて話者性変換実験を行った。よってここでは属性コードは話者IDに対応する4次元のone-hotベクトルとした。各話者につき81文を学習データ、35文をテストデータとし、全音声信号のサンプリング周波数は22050Hz とした。各発話に対し、WORLD分析によりスペクトル包絡、基本周波数(F0)、非周期性指標の抽出を行い、抽出したスペクトル包絡系列に対し35次のメルケプストラム分析を行った。F0に関しては、変換目標音声の学習データから有声区間における対数F0 の平均msrc と標準偏差σsrc、変換元音声の学習データから有声区間における対数F0 の平均mtrg と標準偏差σsrc を算出し、入力音声の対数F0パターンy(0),…,y(N‐1) を

0091

0092

のように変換した。本実験では上記学習方法Iの方法を用い、G、D、Cのネットワーク構成を表1のとおりとした。各表の1列目は各層のタイプ、2列目は各層への入力のチャネル数およびサイズ、3列目は各層の出力のチャネル数およびサイズ、4列目はフィルタサイズ、5列目は畳み込みのストライド、6列目は活性化関数のタイプ(GLUはGated Linear Unit、BNはBatch Normizationの略記)を表す。

0093

0094

各層の入力の( + 4)ch は属性コードcの補助入力チャネルを意味する。

0095

図7のテストデータに対し、本発明の実施の形態の方法で変換した音声の音響特徴量系列を図9に示し、非特許文献1に記載の従来法(CVAE方式)で変換した音声の音響特徴量系列を図10に示し、非特許文献2に記載の改良版で変換した音声の音響特徴量系列を図11に示す。また、図8にテストデータと発話文が同一の変換目標音声の音響特徴量系列を示す。図9〜11からも分かるように、二つの従来法と比較して本発明の実施の形態の方法ではより図8に近い音響特徴量系列の変換音声が得られることを確認した。また、これらの音響特徴量系列から生成した音声信号を聞き比べても、本発明の実施の形態の方法により、従来方法に比べて高品質かつ変換目標話者に類似した声質の音声が得られることを確認した。

0096

以上説明したように、本発明の実施の形態に係る音声変換学習装置によれば、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される当該任意の属性コードが示す実音声らしさと、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の前記属性コードらしさを用いて表される学習規準の値を最小化するように、属性識別器を学習することにより、所望の属性の音声に変換することができる変換器を学習できる。

0097

また、本発明の実施の形態に係る音声変換装置によれば、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される任意の属性コードが示す実音声らしさと、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、属性識別器によって識別される当該任意の属性コードらしさと、変換元の音声信号の属性コードとは異なる属性コードを入力として変換器によって変換された音響特徴量系列について、変換元の音声信号の属性コードを入力として変換器によって再変換された音響特徴量系列と、変換元の音声信号の音響特徴量系列との誤差と、変換元の音声信号の属性コードを入力として変換器によって変換された音響特徴量系列と、変換元の音声信号の前記音響特徴量系列との距離とを用いて表される学習規準の値を最小化するように、変換器を学習し、任意の属性コードを入力として変換器によって変換された音響特徴量系列について、音声識別器によって識別される当該任意の属性コードが示す実音声らしさ、及び変換元の音声信号の音響特徴量系列について、変換元の音声信号の属性コードを入力としたときの音声識別器によって識別される属性コードが示す実音声らしさを用いて表される学習規準の値を最小化するように、音声識別器を学習し、変換元の音声信号の音響特徴量系列について、属性識別器によって識別される変換元の音声信号の属性コードらしさを用いて表される学習規準の値を最小化するように、属性識別器を学習することにより得られた変換器を用いて、入力された変換元の音声信号における音響特徴量系列、及び目標の音声信号の属性を示す属性コードから、目標の音声信号の音響特徴量系列を推定することにより、所望の属性の音声に変換することができる。

0098

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0099

例えば、上述した実施の形態では、音声変換学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。

0100

また、上述の音声変換学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。

0101

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

0102

10 入力部
20演算部
30音響特徴抽出部
32 学習部
50 出力部
60 入力部
70 演算部
72 音響特徴抽出部
74音声変換部
78変換音声生成部
90 出力部
100 音声変換学習装置
150 音声変換装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • ソフトバンク株式会社の「 翻訳装置、翻訳方法、および翻訳プログラム」が 公開されました。( 2020/08/31)

    【課題】従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供する。【解決手段】本発明の翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部に... 詳細

  • 日本電信電話株式会社の「 信号処理装置、信号処理方法及び信号処理プログラム」が 公開されました。( 2020/08/31)

    【課題】学習済みモデルを記憶するためのメモリ容量を小さくすること。【解決手段】信号処理装置は、複数の音源の音が混合された混合音声信号を基に、第1のニューラルネットワークの所定の層の中間状態を計算する。... 詳細

  • オンキヨー株式会社の「 電子機器」が 公開されました。( 2020/08/31)

    【課題】種々の問題を解決する、音声認識機能を利用する電子機器を提供すること。【解決手段】スピーカー装置1は、音声認識の結果に対して音声を出力する。スピーカー装置1は、マイクロコンピューター2を備える。... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ