図面 (/)

技術 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法

出願人 国立研究開発法人産業技術総合研究所
発明者 藤原弘将後藤真孝
出願日 2010年7月21日 (10年6ヶ月経過) 出願番号 2011-523664
公開日 2013年1月7日 (8年1ヶ月経過) 公開番号 WO2011-010647
状態 特許登録済
技術分野 音楽補助具 音楽補助具 音声の分析・合成 音声認識
主要キーワード フィルターモデル 周波数スペクトル波形 歪み度合い 観測スペクトル 連続ウェーブレット変換 線形探索 帰属確率 パラメータ最適化
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年1月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題・解決手段

混合音信号中の対象音信号とノイズ信号との混合比率推定することができる混合音信号の混合比率推定方法及びシステムを提供する。確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

概要

背景

従来は、混合音信号中の対象音信号とノイズ信号との混合比率(S/N比)が既知であることを前提にして、音響信号中に含まれる音声を認識する技術や、音素認識技術において、認識精度を高める技術が提案されている(非特許文献1)。

概要

混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供する。確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

目的

本発明の目的は、混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

混合音信号から離散的に取得した1フレーム信号に含まれる対象音信号とノイズ信号との混合比率を、コンピュータを用いて推定する混合音信号の混合比率推定方法であって、1以上の学習用対象音信号の周波数成分とパワースペクトル確率分布の関係を示す1以上の対象音スペクトルテンプレートと、1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートを用意し、前記1以上の対象音スペクトルテンプレートと前記1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成し、前記混合音信号から前記1フレーム中の観測スペクトルを取得し、前記1以上の確率的スペクトルテンプレートを構成する前記1以上の対象音スペクトルテンプレートのゲインと前記1以上のノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定し前記最小距離ゲイン変更スペクトルテンプレートの前記ゲインと前記ノイズ・スペクトルテンプレートの前記ゲインに基づいて前記混合比率を推定することを特徴とする混合音信号中の混合比率推定方法。

請求項2

前記対象音スペクトルテンプレートと前記ノイズ・スペクトルテンプレートが、共に学習用混合信号から推定されたものである請求項1に記載の混合音信号中の混合比率推定方法。

請求項3

前記対象音信号が調波構造を有する有声音信号であるときに、前記対象音スペクトルテンプレートを、前記有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数音声包絡テンプレートとの積により定め、前記対象音信号が無声音信号であれば、前記対象音スペクトルテンプレートとして前記音声包絡テンプレートを用い、前記音声包絡テンプレートは、対象とする有声音または無声音についての学習用音信号周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれる前記パワー中の複数のピーク繋ぐ包絡線分布状態を示すテンプレートであることを特徴とする請求項1に記載の混合音信号中の混合比率推定方法。

請求項4

前記最小距離ゲイン変更スペクトルテンプレートを決定する際に、前記駆動音源関数の基本周波数F0を推定する請求項1または3に記載の混合音信号中の混合比率推定方法。

請求項5

前記パワースペクトルの確率分布は、各周波数において対数正規分布で表されている請求項1に記載の混合音信号中の混合比率推定方法。

請求項6

前記ゲインの最適化及び前記基本周波数F0の推定に、準ニュートン法を用いることを特徴とする請求項4に記載の混合音信号中の混合比率推定方法。

請求項7

請求項1乃至6のいずれか1項に記載の混合音信号中の混合比率推定方法により求めた、前記最小距離ゲイン変更スペクトルテンプレートに対応する音素を前記1フレームの音素と決定し、決定された複数の前記フレームの音素の連続性に基づいて音声の種類を決定することを特徴とする音素認識方法。

請求項8

混合音信号から離散的に取得した1フレーム信号に含まれる対象音信号とノイズ信号との混合比率を推定する混合音信号の混合比率推定システムであって、1以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上の対象音スペクトルテンプレートと、1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートとを記憶するスペクトルテンプレート記憶部と、前記1以上の対象音スペクトルテンプレートと前記1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成する確率的スペクトルテンプレート作成部と、前記混合音信号から前記1フレーム中の観測スペクトルを取得する観測スペクトル取得部と、前記1以上の確率的スペクトルテンプレートをそれぞれ構成する前記対象音スペクトルテンプレートのゲインと前記ノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する決定部と、前記最小距離ゲイン変更スペクトルテンプレートの前記ゲインと前記ノイズ・スペクトルテンプレートの前記ゲインに基づいて前記混合比率を推定する推定部とを備えていることを特徴とする混合音信号中の混合比率推定システム。

請求項9

前記1以上の対象音スペクトルテンプレート及び前記1以上のノイズ・スペクトルテンプレートを生成するテンプレート生成部を備え、前記テンプレート生成部は、前記対象音信号が調波構造を有する有声音信号であるときに、前記対象音スペクトルテンプレートを、前記有声音信号の調波構造の標準的なスペクトルの周波数成分を示す調波駆動音源関数と音声包絡テンプレートとの積により定め、且つ前記対象音信号が無声音信号であれば、前記対象音スペクトルテンプレートとして前記音声包絡テンプレートを用いるように構成されており、前記音声包絡テンプレートは、対象とする有声音または無声音についての学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれる前記パワー中の複数のピークを繋ぐ包絡線の分布状態を示すテンプレートであることを特徴とする請求項8に記載の混合音信号中の混合比率推定システム。

請求項10

前記テンプレート生成部は、前記対象音スペクトルテンプレートと前記ノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成されている請求項8に記載の混合音信号中の混合比率推定システム。

技術分野

0001

本発明は、混合音信号中の対象音信号とノイズ信号との混合比率推定する混合音信号の混合比率推定方法及びシステム並びに音素認識方法に関するものである。

背景技術

0002

従来は、混合音信号中の対象音信号とノイズ信号との混合比率(S/N比)が既知であることを前提にして、音響信号中に含まれる音声を認識する技術や、音素認識技術において、認識精度を高める技術が提案されている(非特許文献1)。

先行技術

0003

Gales、 M. J.F. and Yound、 S.「 An improved approach to the hidden Markov model decomposition of speech and noise」、 Proceedings of the 1997IEEE International Conference on Acoustics、 Speech、 and Signal Processing (ICASSP 1997)、 pp.835−838 (1997)

発明が解決しようとする課題

0004

従来は、混合比率(S/N比)が既知であることを前提にするため、混合音信号に含まれるノイズ信号の変動量が大きくなると、混合比率の推定精度が悪くなる問題があった。

0005

本発明の目的は、混合音信号中の対象音信号とノイズ信号との混合比率を推定することができる混合音信号の混合比率推定方法及びシステムを提供することにある。

0006

上記目的に加えて、本発明の他の目的は、有声音信号の混合比率を推定する際に、基本周波数F0も一緒に推定することができる混合音信号の混合比率推定方法を提供することにある。

0007

本発明の他の目的は、推定した混合比率を用いて音素認識を行う音素認識方法を提供することにある。

課題を解決するための手段

0008

本発明は、混合音信号から離散的に取得した1フレーム信号に含まれる対象音信号とノイズ信号との混合比率を、コンピュータを用いて推定する混合音信号の混合比率推定方法を改良の対象とする。本願明細書において、対象音信号には、音声信号歌声信号を含む)や楽器の音響信号等が含まれる。またノイズ信号は、混合音信号に含まれる対象音信号以外の信号を言う。また「離散的に取得した1フレーム信号」とは、所定の時間幅ハニング窓を1フレームとして用いて混合音信号から取得した信号である。

0009

本発明では、1以上の学習用対象音信号の周波数成分とパワースペクトル確率分布の関係を示す1以上の対象音スペクトルテンプレートを用意する。また1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートを用意する。そして1以上の対象音スペクトルテンプレートと1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成する。

0010

本願明細書において、音声(歌声を含む)等を含む混合音信号のスペクトルが存在する確率分布の集合を確率的スペクトルテンプレート(Probabilistic_Spectral Template)と呼ぶ。

0011

ここで学習用対象音信号とは、対象音に応じて集めた1以上の学習用の音信号である。例えば対象音が音声の場合には、母音子音等の有声音、無声音などの単音の音信号が、学習用対象音信号となる。精度を高めるためには、複数の人の音声信号から複数の単音の音信号を学習用対象音信号として取得するのが好ましい。観測する混合音信号に応じて、の音声信号、の音声信号、子供の音声信号などの種類に分けて複数種類の学習用対象音信号を用いてもよい。また対象音が弦楽器楽器音の場合には、ある弦楽器の単音の音信号が学習用対象音信号となり、対象音が打楽器の楽器音の場合には、ある打楽器の単音の音信号が学習用対象音信号となる。

0012

また本願明細書において、学習用ノイズ信号は、対象となる混合音信号に含まれる対象音の音信号以外の音信号である。歌声を含む楽曲楽曲信号が混合音信号であれば、歌声が対象音で、背景伴奏音ノイズ音となる。したがって学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定されることになる。歌声だけの音信号があれば、この歌声だけの音信号が学習用対象音信号となり、また伴奏だけの音信号があれば、この伴奏だけの音信号が学習用ノイズ信号となる。このような学習用対象音信号及び学習用ノイズ信号は、それぞれ個別に入手することになる。

0013

しかし学習対象音信号及び学習用ノイズ信号が、簡単に入手できない場合もある。そこでこのような場合には、学習用対象音信号の対象音スペクトルテンプレートと学習用ノイズ信号のノイズ・スペクトルテンプレートを、共に学習用混合信号から推定してもよい。この場合、学習用混合音とは、対象音に相当する音の信号とノイズに相当する音の信号が混合されて構成されたものである。例えば、対象音が歌声であれば、歌声と伴奏音を含む、ある音信号が混合音信号であり、対象音がスピーチ等の音声であれば、その音声と背景の雑音を含む音信号が混合音信号である。

0014

観察対象の混合音信号が、女性ボーカル歌声を含む混合音信号であれば、1以上の学習用混合音信号として、女性のボーカル歌声を含む混合音信号を用いるのが好ましい。観測する混合音信号とは種類が異なる音信号であっても、ある程度の数の混合音信号を学習用混合音信号として集めて、それぞれの学習用混合音信号から、複数の対象音スペクトルテンプレート及び複数のノイズ・スペクトルテンプレートを推定すれば、平均化された学習データが取得できるので、精度の低下には大きな問題は生じない。

0015

本発明の方法では、観測する混合音信号から1フレーム中の観測スペクトルを取得する。観測スペクトルとは、混合音信号から得た1フレーム中の信号の周波数とパワースペクトルとの関係を示すスペクトル波形である。そして本発明では、1以上の確率的スペクトルテンプレートを構成する1以上の対象音スペクトルテンプレートのゲインと1以上のノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと前記観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。そして最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

0016

なおゲイン決定のための最適化には、準ニュートン法を用いることができる。決定された最小距離ゲイン変更スペクトルテンプレートの対象音スペクトルテンプレートのゲインGsとノイズ・スペクトルテンプレートのゲインGnに基づいて、1フレームの混合音信号の混合比率(S/N比)を推定する。具体的には、Gs/Gnが、1フレームの混合音信号の混合比率となる。

0017

本発明によれば、対象音(音声、歌声等)がその他のノイズ(伴奏音等)と混ざった状態のスペクトルを、分離せずそのまま混合比率を認識することができる。本発明によれば、背景のノイズに関する情報も活用するため、混合音を認識するために混合音を構成する対象音及びノイズ音を分離し、その後分離した音を認識するという従来の技術と比べて、推定精度を向上させることができる。また本発明によれば、混合音信号について各フレームでS/N比の推定を行うので、ノイズの変動に対してロバストになるという利点がある。

0018

対象音信号が有声音信号のように調波構造を有する音信号であれば、対象音スペクトルテンプレートは駆動音源関数と音声包絡テンプレートとの積により定められる。駆動音源関数は、有声音信号のように調波構造を有する音信号の調波構造の標準的なスペクトルの周波数成分を示すフィルタである。なお駆動音源関数を用いる場合には、最小距離ゲイン変更スペクトルテンプレートを決定する際に、同時に駆動音源関数の基本周波数F0を推定する。基本周波数F0を推定する場合にも、前述の準ニュートン法を用いることができる。駆動音源関数を用いると、対象音信号のスペクトルのスペクトル包絡を推定しないため、調波構造を持つ音をそのまま表現できるという利点が得られる。

0019

対象音信号が音声信号であれば、対象音スペクトルテンプレートは音声スペクトルテンプレートである。そして調波構造を有する音信号が有声音信号であれば、対象音スペクトルテンプレートは有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定められる。また対象音信号が無声音信号であれば、対象音スペクトルテンプレートは音声包絡テンプレートである。ここで音声包絡テンプレートは、対象とする有声音または無声音について収集した学習用音信号を周波数分析して得た周波数成分とパワーの関係を示す複数の周波数スペクトル波形に含まれるパワー中の複数のピーク繋ぐ包絡線分布状態を示すテンプレートである。

0020

パワースペクトルの確率分布は、各周波数において対数正規分布で表されているのが好ましい。対数正規分布で表されていれば、推定のための演算が容易になる。

0021

なお対象音の種類が判っていない場合には、予め対象音スペクトルテンプレートを複数用意すればよい。

0022

本発明によれば、観測する混合音信号の1フレーム単位の混合比率を従来よりも高い精度で推定することができる。また対象音が有声音の場合に駆動音源関数を用いると、最小距離ゲイン変更スペクトルテンプレートを決定する際に、同時に駆動音源関数の基本周波数F0を推定することができる。

0023

本発明の混合比率推定方法を実施する混合比率推定システムは、スペクトルテンプレート記憶部と、確率的スペクトルテンプレート作成部と、観測スペクトル取得部と、決定部と、混合比率推定部とを備えている。

0024

スペクトルテンプレート記憶部は、1以上の学習用対象音信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上の対象音スペクトルテンプレートと、1以上の学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示す1以上のノイズ・スペクトルテンプレートとを記憶する。確率的スペクトルテンプレート作成部は、1以上の対象音スペクトルテンプレートと1以上のノイズ・スペクトルテンプレートとを組み合わせて合成することにより1以上の確率的スペクトルテンプレートを作成する。観測スペクトル取得部は、混合音信号から1フレーム中の観測スペクトルを取得する。そして決定部は、1以上の確率的スペクトルテンプレートをそれぞれ構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。推定部は、最小距離ゲイン変更スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて混合比率を推定する。

0025

本発明のシステムは、1以上の対象音スペクトルテンプレート及び1以上のノイズ・スペクトルテンプレートを生成するテンプレート生成部を備えていてもよい。テンプレート生成部は、対象音信号が調波構造を有する有声音信号であるときに、対象音スペクトルテンプレートを、有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、且つ対象音信号が無声音信号であれば、対象音スペクトルテンプレートとして音声包絡テンプレートを用いるように構成することができる。

0026

またテンプレート生成部は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成してもよい。

0027

本発明の音素認識方法では、混合音信号中の混合比率推定方法により求めた、最小距離ゲイン変更スペクトルテンプレートに対応する音素を1フレームの音素と決定する。そして決定された複数のフレームの音素の連続性に基づいて音声の種類を決定する。ここで「フレームの音素の連続性」とは、実際の信号において、同じ音素が複数のフレームで連続して現れる傾向を示す性質を意味する。

図面の簡単な説明

0028

本発明の混合音信号の混合比率推定方法を実施する本発明の混合音信号の混合比率推定システムの実施の形態を備えた音素認識システムの一例の構成を示すブロック図である。
図1の実施の形態を、コンピュータを用いて実現する場合に用いるプログラムアルゴリズムを示すフローチャートである。
(a)乃至(c)は、対象音が音声の場合における対象音スペクトルテンプレートとしての音声スペクトルテンプレートの生成過程を説明するために用いる図である。
(a)乃至(d)は、音声スペクトルテンプレートv、fとノイズ・スペクトルテンプレートとに基づいて確率的スペクトルテンプレートYfを生成する過程と、確率的スペクトルテンプレートYn、fと観測スペクトルy(f)との間の距離(尤度)を求める過程を説明するために用いる図である。
音素認識方法の概要を示す図である。
コンピュータを用いてゲイン変更スペクトルテンプレートY′fと観測スペクトルy(f)との距離(尤度)を求めるプログラムのアルゴリズの一例を示す図である。
図6のステップST12における基本周波数F0の推定のアルゴリズムの一例を示す図である。
音素の推定をコンピュータを用いて行う場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。
(a)乃至(d)は、パラメータの推定過程の例を示す図である。
パラメータ推定をコンピュータで実施する場合に用いるプログラムのアルゴリズムのフローチャートである。
学習用混合音信号から対象音スペクトルテンプレートとノイズ・スペクトルテンプレートを推定するためのアルゴリズムを示すフローチャートである。
サンプリング概念を模式的に示す図である。

実施例

0029

図1は、本発明の混合音信号の混合比率推定方法を実施する本発明の混合音信号の混合比率推定システムの実施の形態を備えた音素認識システムの一例の構成を示すブロック図である。図2は、図1の実施の形態を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。また図3は、対象音が音声の場合における対象音スペクトルテンプレートとしての音声スペクトルテンプレートの生成過程を説明するために用いる図である。図4は、音声スペクトルテンプレートとノイズ・スペクトルテンプレートとに基づいて確率的スペクトルテンプレートを生成する過程と、確率的スペクトルテンプレートと観測スペクトルとの間の距離(尤度)を求める過程を説明するために用いる図である。

0030

本実施の形態の混合比率推定システム1は、テンプレート生成部2と、スペクトルテンプレート記憶部3と、確率的スペクトルテンプレート作成部9と、観測スペクトル取得部14と、決定部15と、混合比率推定部25とを備えている。テンプレート生成部2は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを生成する。本実施の形態で採用するテンプレート生成部2は、2つの生成方法のいずれかを実施できるように構成されている、第1の生成方法を実施する場合、テンプレート生成部2は対象音信号が調波構造を有する有声音信号であるときに、対象音スペクトルテンプレートを、有声音信号の調波構造の標準的なスペクトルの周波数成分を示す駆動音源関数と音声包絡テンプレートとの積により定め、且つ対象音信号が無声音信号であれば、対象音スペクトルテンプレートとして音声包絡テンプレートを用いるように構成される。第2の生成方法を実施する場合、テンプレート生成部2は、対象音スペクトルテンプレートとノイズ・スペクトルテンプレートとを共に学習用混合信号から推定するように構成されている。なおこれら第1及び第2の生成方法については後に詳しく説明する。

0031

スペクトルテンプレート記憶部3は、テンプレート生成部2が生成した対象音スペクトルテンプレートを記憶する対象音スペクトルテンプレート記憶部5とテンプレート生成部2が生成したノイズ・スペクトルテンプレートを記憶するノイズ・スペクトルテンプレート記憶部7とから構成されている。対象音スペクトルテンプレート記憶部5は、複数の学習用対象音信号に基づいて予め用意した複数の対象音スペクトルテンプレート(本実施の形態では音素認識に使用するため、具体的には「音声スペクトルテンプレートv、f」)を記憶している。例えば、図3(c)に示すように、対象音スペクトルテンプレートは、複数の学習用対象音信号に基づいて作成した複数の学習用対象音信号の周波数成分とパワースペクトルの確率分布(確率密度)の関係を示すテンプレートである。例えば、対象音が音声信号の場合には、母音及び子音の有声音、無声音などの学習用の複数の単音信号について、それぞれ得た周波数成分とパワースペクトルの確率分布(確率密度)の関係を示すテンプレートが、複数の対象音スペクトルテンプレートである。

0032

ここで1以上の学習用対象音信号とは、対象音に応じて集めた1以上の学習用の音信号であり、例えば対象音が音声の場合には、母音、子音等の有声音、無声音などの単音の音信号であり、複数の人の音声信号から取得したものである。観測対象の混合音信号に応じて、男の音声の音声信号、女の音声の音声信号、子供の音声の音声信号などの種類に分けて学習用対象音信号を用いてもよい。また1以上の学習用ノイズ信号は、対象となる混合音信号に含まれる対象音の音信号以外の音信号である。学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定される。例えば、歌声だけの音信号があれば、この歌声だけの音信号が学習用対象音信号となり、また伴奏だけの音信号があれば、この伴奏だけの音信号が学習用ノイズ信号となる。

0033

また学習用混合音信号とは、対象音に相当する音の信号とノイズに相当する音の信号が混合されて構成されたものである。例えば、対象音が歌声であれば、歌声と伴奏音を含む、ある音信号が混合音信号であり、対象音がスピーチ等の音声であれば、その音声と背景の雑音を含む音信号が混合音信号である。

0034

観測対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、1以上の学習用混合音信号として女性のボーカル歌声を含む混合音信号を用いるのが好ましい。しかしながら観測の混合音信号とは種類が異なる音信号であっても、ある程度の数の混合音信号を学習用混合音信号として集めて、それぞれの学習用混合音信号から複数の学習用対象音信号及び複数の学習用ノイズ信号を取得して、複数の対象音スペクトルテンプレート及び複数のノイズ・スペクトルテンプレートを用意すれば、平均化された学習データが取得できるので、精度の低下に大きな問題は生じない。

0035

対象音信号が有声音信号であれば、テンプレート生成部2は、対象音スペクトルテンプレートを図3(b)に示す駆動音源関数H(f;f0)と図3(a)に示す音声包絡テンプレートY′v,fとの積により生成する。駆動音源関数(f;f0)は、有声音信号の調波構造の標準的なスペクトルの周波数成分を示すフィルタである。適切な駆動音源関数H(f;f0)の基本周波数F0は、音声スペクトルテンプレートYv、fとノイズ・スペクトルテンプレートのゲインまたは後述する重みパラメータgv、gnの最適化の際に同時に決定されることなる。

0036

音声包絡テンプレートY′v,fは、図3(a)に示すように、対象音(有声音または無声音)について収集した1以上の学習用対象音信号を、周波数分析して得た周波数成分とパワーの関係を示す周波数スペクトル波形に含まれるパワー中の複数のピークを繋ぐ包絡線の分布状態(確率密度)を示すテンプレートである。図3(a)の音声包絡テンプレートY′v,fに示される濃淡は、分布状態(確率密度)を示している。音声包絡テンプレートY′v,fは、対象音ごとに準備される。音素認識であれば、認識すべき全ての音素ごとに音声包絡テンプレートY′v,fが準備される。前述のように、対象音が有声音の場合には、図3に示すように駆動音源関数H(f;f0)と図3(a)に示す音声包絡テンプレートY′v,fとの積により求められた音声スペクトルテンプレートが対象音スペクトルテンプレート記憶部5に記憶されている。駆動音源関数H(f;f0)と音声包絡テンプレートY′v,f
は、テンプレート生成部2内の内部メモリに保存されており、両者の積の演算がテンプレート生成部2内の演算部で実行される。

0037

対象音が無声音の場合には、テンプレート生成部2が内部メモリに保存している音声包絡テンプレートY′v,fを、対象音スペクトルテンプレートとして対象音スペクトルテンプレート記憶部5に記憶させる。

0038

ノイズ・スペクトルテンプレート記憶部7は、1種以上のノイズ・スペクトルテンプレート[図4(b)参照]を記憶している。ノイズ・スペクトルテンプレートとは、学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係を示すテンプレートである。ここで学習用ノイズ信号は、観測対象となる混合音信号に含まれる対象音の音信号以外の音信号である。ノイズも混合音信号の種類によって、異なってくる。そこで学習用ノイズ音は、対象とする混合音信号に含まれるノイズ音の種類を想定して、適宜に選定されることになる。すなわち混合音信号の種類に応じて(ポップス音楽信号、オペラのようなクラシックの音楽信号等のように音楽種類に応じて)、ノイズ・スペクトルテンプレートを作成するのが好ましい。本実施の形態では、テンプレート生成部2が、学習用ノイズ信号の周波数成分とパワースペクトルの確率分布の関係に基づいてノイズ・スペクトルテンプレートを作成して、ノイズ・スペクトルテンプレート記憶部7にそれを記憶させる。本実施の形態では、観測対象となる混合音信号の種類に合わせて、複数種類のノイズ・スペクトルテンプレートが、ノイズ・スペクトルテンプレート記憶部7に記憶されている。図4(b)のノイズ・スペクトルテンプレートに示される濃淡は、確率密度を示している。

0039

確率的スペクトルテンプレート作成部9は、組合せ部11と確率的スペクトルテンプレート記憶部13とを備えている。組合せ部11は、対象音スペクトルテンプレート記憶部5に保存されている1以上の対象音スペクトルテンプレートと、ノイズ・スペクトルテンプレート記憶部7に保存されている1種類以上のノイズ・スペクトルテンプレートとを一つずつ組み合わせて合成することにより1以上確率的スペクトルテンプレートを作成する。100の対象音スペクトルテンプレート(音声スペクトルテンプレート)と2つのノイズ・スペクトルテンプレートとがある場合、200の確率的スペクトルテンプレートが、組合せ部11で組み合わされて合成される。200の確率的スペクトルテンプレートは、確率的スペクトルテンプレート記憶部13に保存される。図4(c)は、確率的スペクトルテンプレートYfを一例を示している。

0040

観測スペクトル取得部14は、観測対象の混合音信号から離散的に取得した1フレーム信号を周波数分析して、図4(d)に示すような周波数とパワースペクトルとの関係を示す観測スペクトルy(f)を取得する。具体的には、所定の時間幅のハニング窓を1フレームとして用いて混合音信号から1フレーム信号を取得し、周波数分析を行って観測スペクトルを取得する。

0041

決定部15は、選択部17と、距離演算部19と、一時記憶部21と、確定部23とから構成される。選択部17は、確率的スペクトルテンプレート記憶部13から確率的スペクトルテンプレートを順番に選択する。そして距離演算部19は、選択した1つの確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインGs(重みパラメータgv)とノイズ・スペクトルテンプレートのゲインGn(重みパラメータgn)を変えて得た複数のゲイン変更スペクトルテンプレートY′fと観測スペクトルy(f)との距離(尤度)を求め、この距離が一番小さくなるゲイン変更スペクトルテンプレートをその確率的スペクトルテンプレートにおける最小距離ゲイン変更スペクトルテンプレートY′fminとして決定する。そして一時記憶部21に、最小距離ゲイン変更スペクトルテンプレートY′fminを記憶する。確率的スペクトルテンプレート記憶部13に記憶されている全ての確率的スペクトルテンプレートについて最小距離ゲイン変更スペクトルテンプレートY′fminを求めてそれらを一時記憶部21に記憶した後、確定部23は複数の確率的スペクトルテンプレートについてそれぞれ決定されて一時記憶部12に記憶された複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートY′fminを確定する。そして推定部25は、確定した最小距離ゲイン変更スペクトルテンプレートY′fminの対象音スペクトルテンプレートのゲインGs(重みパラメータgv)とノイズ・スペクトルテンプレートのゲインGn(重みパラメータgn)に基づいて、混合比率Gs/Gnを推定する。例えば、100の対象音スペクトルテンプレートと2つのノイズ・スペクトルテンプレートとがある場合、200組の確率的スペクトルテンプレートが存在することにより、これら200組の確率的スペクトルテンプレートのそれぞれを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインとを変更して、200組の前述の候補を決定する。そして200組の候補の中から観測スペクトルとの距離が一番小さくなるものが、最小距離ゲイン変更スペクトルテンプレートとして決定される。ゲイン決定のための最適化には、準ニュートン法を用いることができる。

0042

推定部25が推定した1フレーム分の混合音信号の混合比率Gs/Gnは推定結果記憶部27に、対象音スペクトルテンプレートの識別情報(音素の種類を特定する情報)と一緒に格納される。音素認定部29は、推定結果記憶部27に記憶されているデータに基づいて、最小距離ゲイン変更スペクトルテンプレートに対応する音素を1フレームの音素として決定する。そして決定されたフレームの音素の連続性に基づいて音声の種類を決定する。ここで「フレームの音素の連続性」とは、実際の信号において、同じ音素が複数のフレームで連続して現れる傾向を示す性質を意味する。例えば、歌声の中で1つの母音が連続する長さは、1フレーム周期の100倍以上の長さになることもあり得る。

0043

したがってフレームの音素に基づいて、歌声の音素を決定する場合には、複数の連続するフレームの音素が、必ず、全てまたは大部分が同じになる。そこで本実施の形態では、フレームの音素の連続性に基づいて音声の種類を決定する。このようにすると混合音信号から音声信号だけを取り出すことなく、音素認識を行うことができる。

0044

次に、図1に示した実施の形態をコンピュータを用いて実施する場合のプログラムのアルゴリズムを示す図2に示したフローチャートについて説明する。このフローチャートは、一例であって、本発明はこのフローチャートに限定されるものではない。まずステップST1では、複数の確率スペクトルテンプレートを作成する。そこでステップST1を実施するために確率的スペクトルテンプレートを作成する。すなわち複数の学習用対象音信号に基づいて予め用意した複数の対象音スペクトルテンプレートと複数の学習用混合音信号に基づいて予め用意した1種類以上のノイズ・スペクトルテンプレートとを一つずつ組み合わせて合成することにより複数の確率的スペクトルテンプレートを作成する。次にステップST2では、混合音信号から1フレーム中の観測スペクトルを取得する。ステップST3では、複数(理論的には1つでも可能)の確率的スペクトルテンプレートのそれぞれについて、確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインを変えて得た複数のゲイン変更スペクトルテンプレートと観測スペクトルとの距離が一番小さくなるゲイン変更スペクトルテンプレートを最小距離ゲイン変更スペクトルテンプレートとして決定する。ステップST4では、複数の確率的スペクトルテンプレートについてそれぞれ決定された複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートの対象音スペクトルテンプレートのゲインとノイズ・スペクトルテンプレートのゲインに基づいて、混合比率を推定する。

0045

[具体的適用例]
次に上記実施の形態の混合比率推定方法及びシステムを用いて、混合音信号中の歌声の歌詞(音素)と基本周波数(F0)を同時に認識する実施の形態について説明する。歌詞は歌い手が歌声によって伝えたい内容を表現し、基本周波数F0 は楽曲の旋律を表すと同時に、歌手技巧表情なども表現するため、どちらも歌声を構成する重要な要素である。そのため、混合音中からこれらの要素を自動認識する技術は、音楽情報検索などにも応用可能で、重要な基礎技術となる。例えば、歌詞が認識できることで、歌詞が未知の楽曲を歌詞を手がかりに検索できる。また、音素の自動認識技術は、歌詞と音楽の時間的対応付けに適用することができ、歌詞をカラオケのように表示する音楽プレイヤー音楽ビデオテロップ自動作成などに応用できる。歌声の基本周波数(F0)の推定は、ボーカルパート自動採譜ハミング検索などに応用可能である。さらに、ハミング検索に歌詞の情報を統合することで、ハミング検索の精度が向上することも報告されているなど、歌詞とF0を同時に推定することでさらに応用範囲が広まる。しかし、歌声は話し声に比べて、ビブラートやF0 の変化幅の広さ、歌手の感情表現などに起因する変動が多い上に、伴奏音が大音量重畳するため、歌声(音素)の自動認識は非常に難しい問題がある。

0046

発明者等は、今までに音楽と歌詞の時間的対応付け手法(下記論文1及び2)と混合音中の歌声のF0推定手法(下記論文3) について研究してきた。

0047

[論文1]
Fujihara,H.及びGoto,M.著の「Three Techniques for Improving Automatic Synchronization between Music and Lyrics: Fricative Sound Detection、 Filler Model、 and Novel Feature Vectors for Vocal Activity Detection」、 Proceedings of the 2008IEEE International Conference on Acoustics、 Speech、 and Signal Processing(ICASSP2008)、 pp.69−72 (2008).
[論文2]
Fujihara,H、 Goto,M.、 Ogata,J.、 Komatani,K.、 Ogata,T. 及びOkuno,H.G.著の「Automatic synchronization between lyrics and music CD recordings based on Viterbialignment of segregated vocal signals」、 Proc.ISM、 pp.257−264 (2006).
[論文3]
原弘将、後藤真孝及び奥乃博著「歌声の統計的モデル化とビタビ探索を用いた多重奏中のボーカルパートに対する音高推定手法」情報処理学会論文誌、 Vol.49、 No.10 (2008).
上記論文に記載の手法では共通して、混合音から調波構造を手がかりに音を分離し、それを統計的手法により識別するというアプローチをとっていた。具体的には、歌詞の時間的対応付けの場合、既存手法によって推定された歌声のF0 の音がどの音素であるかを識別し、歌声のF0 推定の場合、各時刻の周波数成分の候補が歌声であるかそれ以外の音であるかを識別していた。しかし、それらの手法は下記の2つの問題点を抱えている。

0048

[分離の問題]
歌声の認識性能が、その前段に行われる分離の性能に大きく依存していた。そのため、F0推定や、分離の際にスペクトルから調波成分を選択する処理の誤りが、性能に悪影響を与えていた。また、歌声とノイズのS/N比や歌声の歪み度合いなどの情報を含んでいる背景雑音分離対象の音以外の音)を、分離の過程で捨ててしまっていた。

0049

[スペクトル包絡推定の問題]
従来の手法では、スペクトル包絡を分離後の歌声の調波構造から推定しスペクトル包絡同士の距離を計算することで、歌声を認識していた。しかし、調波構造の各倍音成分は元のスペクトル包絡からF0の整数倍の周波数成分をサンプリングしたものと考えることができるため、与えられた調波構造から元のスペクトル包絡を一意復元することは原理的に不可能であった。そのため、例えばF0 が高い音など、調波構造の各倍音成分の谷間の幅が広い場合など、距離を正確に計算することが困難であった。

0050

本実施の形態では、歌声を分離したり、単一の調波構造からスペクトル包絡を推定したりせず、観測されたスペクトルを伴奏音が重畳したありのままの形を確率的にモデリングする。さらに、学習の過程では、複数の調波構造を用いることで、より正確にスペクトル包絡を推定する。

0051

具体的には、図4(c)と図4(d)に示すように、歌声を含む混合音信号のスペクトルがある確率分布の集合から生成されると仮定する。ここで、スペクトルの各周波数ビン(周波数分析幅)に現れるパワーはある確率分布に従い、その確率分布は複数のスペクトルのビンごとに異なると考える。スペクトルの加法性を仮定すると、確率的スペクトルテンプレートは、歌声を表現する音声(歌声)スペクトルテンプレート[図4(a)]と歌声以外の音を表現するノイズ・スペクトルテンプレート[図4(b)]の線形軸上での加算で表現することができる。そしてこれら2つのスペクトルテンプレートの加算の際に重みパラメータ(ゲイン調整)を導入し、重み付きで加算することで、様々なS/N比のスペクトルを表現できる。さらに、ソースフィルターモデルを仮定すると、音声(歌声)スペクトルテンプレートは、スペクトル包絡を表現する音声(歌声)包絡テンプレート(Vocal Envelope Template)[図3(a)]と駆動源の調波構造を表現する駆動音源関数(Harmonic Filter)[図3(b)]の積によって生成されると考えられる。駆動音源関数の形状は、基本周波数F0の値をパラメータとして、コントロールできる。

0052

確率モデルのパラメータである駆動音源関数のF0と、音声(歌声)スペクトルテンプレートとノイズ・スペクトルテンプレートのそれぞれの重みが定まれば、観測スペクト
ルの確率モデル(確率的スペクトルテンプレート)に対する尤度(距離)を計算することができる。このモデルを用いると、図5に示すように、各音素を表現する音声(歌声)包絡テンプレートY′v,f[音素/a/,音素/b/,・・・音素/o/・・]をあらかじめ学習しておき、観測スペクトルに対して最尤な(最も距離が近い)音声(歌声)包絡テンプレートY′v,fを選択することで音素認識ができて、最尤な(最も距離が近い)F0 の値を推定することでF0 推定ができる。図3を用いて説明した最初の実施の形態で説明したように、各音素を表現する音声(歌声)包絡テンプレート[音素/a/,音素/b/,・・・音素/o/・・]と駆動音源関数H(fi,f0)との積をとって、各音素のスペクトルテンプレートを表現する複数の音声(歌声)スペクトルテンプレート(対象音スペクトルテンプレート)Yv,fを作る。次に図4に示すように、各音素のスペクトルテンプレートを表現する複数の音声(歌声)スペクトルテンプレートYv,fとノイズ・スペクトルテンプレートYn,fとの積をとり(組み合わせて)、複数の音声(歌声)スペクトルテンプレートに対する複数の確率的スペクトルテンプレートYfを作成する。

0053

各音素の確認的スペクトルテンプレートを構成する音声(歌声)スペクトルテンプレートとノイズ・スペクトルテンプレートのそれぞれの重みを定めるために、各確率的スペクトルテンプレートを構成する対象音スペクトルテンプレートのゲインGs(重みパラメータgv)とノイズ・スペクトルテンプレートのゲインGn(重みパラメータgn)を変えて各音素についての複数のゲイン変更スペクトルテンプレートY′fを得る。そして各音素についての複数のゲイン変更スペクトルテンプレートY′fと観測スペクトルy(f)との距離(尤度)を求め、この距離が一番小さくなるゲイン変更スペクトルテンプレートをその確率的スペクトルテンプレートにおける最小距離ゲイン変更スペクトルテンプレートY′fminとして決定する。すなわち各音素についての複数のゲイン変更スペクトルテンプレートY′fの中で距離(尤度)が一番小さくなるものを、その音素についての最小距離ゲイン変更スペクトルテンプレートY′fminとする。全ての音素についての確率的スペクトルテンプレートについて最小距離ゲイン変更スペクトルテンプレートY′fminを求め、求めた複数の最小距離ゲイン変更スペクトルテンプレートの中で、距離が最も小さい最小距離ゲイン変更スペクトルテンプレートY′fminに対応する音素を、認識した音素として確定する。

0054

図6には、コンピュータを用いて前述のゲイン変更スペクトルテンプレートY′fと観測スペクトルy(f)との距離(尤度)を求めるプログラムのアルゴリズの一例を示している。このアルゴリズでは、ステップST11で基本周波数F0の初期値を設定し、音声スペクトルテンプレートのゲインを設定し、ノイズ・スペクトルテンプレートのゲインの初期値を設定する。そしてステップST12では、準ニュートン法等の非線形最適化手法で最適なゲインとF0を推定する。そしてステップST13で、得られたゲインとF0値についての尤度を計算する。

0055

図7は、ステップST12における基本周波数F0の推定のアルゴリズムの一例を示している。このアルゴリズムでは、ステップST21で観測スペクトル中から複数個のF0候補を推定する。このF0候補の推定には、観測スペクトルの周波数ピークの値を使用する方法や、櫛形フィルタ応答に基づいて推定する手法等、公知の推定法を用いることができる。

0056

そしてステップST22で全てのF0候補について以下のループ1を実施することが開始される。ステップST23では、全ての音声スペクトルテンプレートについて以下のループ2を実施することが開始される。ステップST24では、全ての音声スペクトルテンプレートについて以下のループ3を実施することが開始される。ステップST25では、F0候補の値を初期値として、音声スペクトルテンプレート及びノイズ・スペクトルテンプレートと観測スペクトルとの尤度により最適なF0を計算して保存する。最適なF0は、後述する「パラメータ推定」の説明中におけるStep0〜Step3を用いて計算する。このとき、Step0で与えるF0の初期値に、F0候補の値を使用する。ステップST26でループ3を終了し、ステップST27でループ2を終了する。そしてステップST28でループ2とループ3で最も尤度が大きかったときのF0値と尤度を保存する。ステップST29でループ1を終了し、ステップST30では、ループ1で最も尤度が大きかったF0を推定結果として出力する。

0057

図8は、音素の推定をコンピュータを用いて行う場合に用いるプログラムのアルゴリズムの一例を示すフローチャートである。このアルゴリズムでは、ステップST31で全ての音素について以下のループ1を実施することが開始される。ステップST32では、その音素の全ての音声スペクトルテンプレートについて以下のループ2を実施することが開始される。ステップST33では、全てのノイズ・スペクトルテンプレートについて以下のループ3を実施することが開始される。ステップST34では、音声スペクトルテンプレート及びノイズ・スペクトルテンプレートと観測スペクトルとの尤度を計算して保存する。ステップST35でループ3を終了し、ステップST36でループ2を終了する。そしてステップST37でループ2とループ3で最も尤度が大きかった値をこの音素の尤度として保存する。ステップST38でループ1を終了し、ステップST39では、ループ1で最も尤度が大きかった音素を推定結果として出力する。

0058

この具体的な実施の形態によれば、音声(歌声)を分離せずに、ノイズ(伴奏音)が混在した状態をそのまま表現する。この具体的な実施の形態は、人間は音声(歌声)を分離せずにそのまま音声を認識できることを考えると、人間の知覚の観点からも自然な方法である。本実施の形態の方法では、音声(歌声)とノイズ(伴奏音)のS/N比をフレームごとに推定できるため、ノイズ(伴奏音)の変動に対してシステムは頑健である。さらに、複数のノイズ・スペクトルテンプレートを用意し、最尤なものを選択することで、システムをより頑健にすることができる。

0059

また本実施の形態では、単一の調波構造からスペクトル包絡を推定しないため、高いF0を持つ音に対してもシステムは頑健である。更に本実施の形態では、F0を持たない無声子音など、他の音や音源に対しても、駆動音源関数を用いない音声(歌声)スペクトルテンプレートを用意することで容易に拡張できる。

0060

定式化
以下上記に述べた方法及びシステムの具体的な定式化について説明する。本発明の方法をコンピュータに実装するに当たって、下記の3つの方法を具体化する。

0061

(1)確率的スペクトルテンプレートの表現方法

0062

(2)2つのスペクトルテンプレートの加算の計算方法

0063

(3)パラメータである、F0 とゲインを最適化する方法。

0064

上記の3つの方法を具体化するために、下記のようなアプローチを取る。

0065

(1)確率的スペクトルテンプレートの各周波数ビンの分布として、対数正規分布を用いる。

0066

(2)対数正規分布に従う確率変数を加算した確率変数が、対数正規分布に従うと仮定する。

0067

(3)準ニュートン法によりパラメータを最適化する。

0068

[確率的スペクトルテンプレート]
音声(歌声)を含む混合音のスペクトルy(f) は、確率変数Yf から生成されると仮定する。ただし、f は対数軸での周波数を表し、s は対数軸でのスペクトルのパワーを表す。この確率変数(の集合)Yf が前述の確率的スペクトルテンプレートである。

0069

次に、Yfは次式により2つの異なるスペクトルテンプレートに分割できると仮定する。

0070

ただし、Yv,fは音声(歌声)のスペクトルを表し、前述の音声(歌声)スペクトルテンプレートである。Yn,f は音声(歌声)以外の音(ノイズまたは伴奏音)のスペクトルを表し、前述のノイズ・スペクトルテンプレートである。gv とgn は音声スペクトルテンプレート及びノイズ・スペクトルテンプレートの重みであり、それらを変化させることで音声(歌声)とその他の音のS/N比を変化させることができる。なお、式(1)においては、線形軸上でスペクトルの加法性を仮定している。Yv,fとYn,fとが、次式のように、(対数周波数軸上で)正規分布に従うと仮定する。

0071

ここで、N(y; μ,σ2) は、平均μ、分散σ2 の正規分布である。さらに、ソースフィルターモデルを仮定することで、調波構造を持つ音声(歌声)Yv,f は、次式のように、包絡の確率モデルと調波構造を表現するフィルタの対数軸上の加算で表現できると仮定する(図3)。

0072

ここで、Y′v,f 〜N(y; μ′v,f ; σ2v,f ) は音声(歌声)のスペクトル包絡を表現する確率変数であり、前述の音声(歌声)包絡テンプレートである。また、H(f; f0) はF0 の値がf0のフィルタを表現し、駆動音源関数と呼ぶ。なお、駆動音源関数H(f; f0) は確率変数ではない。以上をまとめると、音声(歌声)とノイズ(伴奏音)が混ざったスペクトルを表現する確率的スペクトルテンプレートYfは下記のように表される。

0073

[スペクトルテンプレートの加算の近似
上記式(1)で表される確率的スペクトルテンプレートYf は、解析的に計算することは困難であるので、正規分布を用いて近似計算する。下記の関数l(x1, x2)を考える。

0074

上記式の(x1, x2) = (μv,f + gv、μn,f+ gn) における2次のテイラー展開は、

0075

のように計算される。ただし、C はx1 とx2とは独立な定数である。ここで、パラメータ
gv、 gn 、f0が固定された場合、式(12)がx1 とx2の重み付き加算であることに注意すると、確率的スペクトルテンプレートYfは以下のように表される。

0076

そしてYfは、

0077

のように表現される。

0078

[音素とF0の推定]
このモデルを使って音素とF0を認識するためには、まず、それぞれの音素iを表現する音声(歌声)包絡テンプレートθivとノイズ・スペクトルテンプレートθn を準備する必要がある。観測スペクトルy(f)が与えられたとき、次式によりy(f)に含まれる音素iとF0を推定することができる。

0079

ただし、uf とσ2f は、それぞれ式(16)と(17)で定義される。

0080

[準ニュートン法によるパラメータ最適化
式(19)を計算するためのパラメータθ= (gv、gn、f0) の最適化には、BFGS(Broyden−Fletcher−Goldfarb−Shanno)公式に基づく準ニュートン法を使用する。準ニュートン法は山登り法一種であり、反復的にパラメータを更新する。本モデルにおいて、最小化すべき目的関数Q(θ)は、

0081

で表される。ただし、y(f)は観測スペクトルである。

0082

ニュートン法では、目的関数を現在のパラメータの周りの二次のテイラー展開で近似し、パラメータを逐次的に更新する。しかし、ニュートン法では、2次のテイラー展開の計算に必要な2次の導関数ヘッセ行列が正定値であることを仮定しているが、この仮定は必ずしも成立しなかった。一方、準ニュートン法では、ヘッセ行列を直接計算せずに、パラメータの更新による1次の導関数の変化を用いて次式のように数値的に近似することで、安定した最適化が可能である。

0083

ただし、k は反復回数を表す。

0084

パラメータは下記のように最適化できる。

0085

Step 0 :k = 0 とB(0) = I を設定し、θ(0) を初期化する。

0086

Step 1 :θ(k+1) を次式により更新する。

0087

α(k) の値は、線形探索により決定する。

0088

Step 2:式(21) によりB(k+1) を更新する。

0089

Step 3:ステップ1に戻る。

0090

[歌声包絡テンプレートの推定]
式(4)中の音声(歌声)包絡テンプレートYv、f とノイズ・スペクトルテンプレートYn,f は、学習データから推定する。一般に、調波構造を持つ音声(歌声)のスペクトルは、真のスペクトル包絡に対して、基本周波数の整数倍の周波数成分の点をサンプリングしたものと考えることができる。そのため、観測スペクトル(調波構造)と、その元となるスペクトル包絡は一対多の関係になり得るので、単一フレームの調波構造から真のスペクトル包絡を推定することは困難である。そこで本実施の形態では、異なるF0 の値を持つ複数フレームの調波構造を用いることで、信頼性の高いスペクトル包絡を推定する。また、スペクトル包絡を一意に定めるのではなく、確率分布として推定するので、歌声の変動や学習データとテストデータの違いに対して頑健となる。複数の調波構造からその元となるスペクトル包絡を推定する場合、フレームごとの音量の違いを考慮に入れる必要がある。そのため、本実施の形態では各フレームの音量を正規化するためのパラメータを導入し、それも未知パラメータとして推定することでこの問題を解決した。

0091

[混合回帰分布]
スペクトルテンプレートを表現するモデルとして、各回帰要素として線形回帰を使用した混合回帰モデルを導入する。この混合回帰モデルは、例えば、 Jacobs,R.J.、 Jordan, M.、 Nowlan,S.J. 及び Hinton,G.E.著の「Adaptive mixtures of local experts」、 Neural Computation、 Vol.3、 pp.79−87 (1991)に記載されている。先に述べたように、本実施の形態では、スペクトルテンプレートはある周波数fにおける対数パワーの分布が正規分布で表現されるモデルを用いて定義される必要があるが、このモデルはその用件を満たしている。混合回帰モデルでは、スペクトルテンプレートの平均μv,f と分散σ2v,f を下記の通り表現する。

0092

ただし、Gm(f; ψm, μm,σ2m) はゲート関数の出力で、次式で定義される正規化ガウス関数を用いた。この正規化ガウス関数は、Xu, L.、 Jordan,M. I. 及び Hinton,G.E.著の「An alternative model for mixtures of experts」、 Advances in Neural Information Processing Systems 7、 pp.633−640 (1994)に記載されている。

0093

このモデルにおいて、未知パラメータは{ψm, μm, σ2m, am, bm,β2m} であり、EM(Expectation and Maximization)法により推定することが可能である。ただし、ψm は、ψm ≧ 0かつΣm ψm = 1 である。

0094

[パラメータ推定]
学習データとして与えられた1フレーム分の調波構造si(i = 1,...,I) のh次倍音の周波数fi,h とその対数パワーyi,h が、下記の式として表されたとする。

0095

この時、最大化したい尤度関数は、次式で表される。

0096

ここで、ki は各調波構造の音量を正規化するオフセットパラメータである。混合回帰モデルのパラメータとkiを同時に最適化することは困難であるため、それらを反復的に更新していく。

0097

パラメータは下記の手続きで推定される。

0098

Step 0:ki = 0 とし、その他のパラメータの初期値を与える。

0099

Step 1:混合回帰モデルのパラメータをEM法により推定する。

0100

Step 2:kiを次式により更新する。

0101

Step 3:1 に戻る。

0102

図9は、パラメータの推定過程の例である。図9は、混合回帰モデルのパラメータ推定の過程の一例であり、各図の中心の太い線は混合回帰モデルの平均を表し、その上下の細い2本の線は標準偏差を表す。背景の細かい点は学習データの調波成分を表し、図の下部の複数の山は、ゲート関数Gm(f; ψm, μm,σ2m) を表す。図より、更新を重ねることで学習データの各調波構造に対するオフセットパラメータki が最適化されて、より分散の少ない回帰曲線が推定されていることが見てとれる。ノイズ・スペクトルテンプレートについては、si(i = 1,....,I)を調波構造でなくスペクトルそのものと考えることで、同様に推定できる。

0103

図10は、このパラメータ推定をコンピュータで実施する場合に用いるプログラムのアルゴリズムのフローチャートを示している。まずステップST41でパラメータを初期化する。パラメータの初期化のために、学習データ、複数の調波構造(各倍音F0とパワー)が使用される。次にステップST42では、t=1としてループ1を開始する。ステップST43では、現在のオフセットパラメータと各混合回帰モデルのパラメータを用いて、学習データの調波構造の各混合回帰モデルに対する帰属確率を計算する。そしてステップST44では、現在のオフセットパラメータと各混合回帰モデルのパラメータに対する帰属確率を用いて、各混合回帰モデルを用いて、各混合回帰モデルのパラメータをEMアルゴリズムにより推定する。ステップST45では、オフセットパラメータを更新する。そしてステップST46で、tが一定の回数を上回ったか否かの判定がなされる。Yesであれば、ステップST48で終了し、Noであればループ1が繰り返される。

0104

上記実施の形態では、使用する学習用対象音信号及び学習用ノイズ信号は、それぞれ個別に入手することを前提としている。しかし学習対象音信号及び学習用ノイズ信号が、簡単に入手できない場合もある。そこでこのような場合には、学習用対象音信号の対象音スペクトルテンプレートと学習用ノイズ信号のノイズ・スペクトルテンプレートを、共に学習用混合信号から推定することができる。この推定は、図1のテンプレート生成部2の構成を変えることにより実現できる。なお学習用混合音とは、対象音が属する種類の音の信号とノイズに相当する音の信号が混合されて構成されたものである。観察対象の混合音信号が、女性のボーカル歌声を含む混合音信号であれば、1以上の学習用混合音信号として、女性のボーカル歌声を含む混合音信号を用いる。

0105

具体的に、学習用混合音からテンプレートを推定する場合は、音声包絡テンプレートとノイズ・スペクトルテンプレートを同時に推定する必要がある。図11には、テンプレート生成部2をコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示してある。ステップST51において、パラメータの初期化を行う。前提として、I 個の観測スペクトルy1(f), ・ ・ ・ ,yi(f), ・ ・ ・ ,yI (f) を観測したと仮定する。推定すべき対象音(音声)スペクトルテンプレートのパラメータはθv = {ψv,m、μv,m、σ2v,m、av,m、bv,m、β2v,m} とし、ノイズ・スペクトルテンプレートのパラメータはθn = {ψn,m、 μn,m、 σ2n,m、 an,m、 bn,m、 β2n,m} とする。i番目のスペクトルにおける駆動音源関数を加えた後の対象音スペクトルテンプレートは、以下のように表すことができる。

0106

ただし、i番目の観測スペクトルのF0 であるf0(i) は全てのi について既知であるとする。

0107

先の実施の形態では、対数正規分布の加算を1次のテイラー展開を用いて近似計算した。しかし、得られた式(15)〜(17) は複雑な形状となり、対象音(音声)スペクトルテンプレートθv、ノイズ・スペクトルテンプレートθn を最適化するのは困難である。そこで本実施の形態では、対数正規分布の加算を定義に従って厳密に計算した後、パラメータを近似的に推定するというアプローチをとる。合成後のスペクトルテンプレートの確率密度関数をpi,f (y; θv、θn、gi,v、gi,n) と書くと[なお観測するスペクトルの番号iごとに確率密度関数の形状が異なるので、添え字iを追加している。]、目的関数L は、以下のように表される。

0108

ここで、gi,vとgi,n は、先の実施の形態のオフセットパラメータki と同様で、音量をフレーム間で正規化するオフセットパラメータ(重み)である。また、gi,vとgi,n は、音声(歌声)包絡テンプレートとノイズ・スペクトルテンプレートのSIR(Signal-to-Interference Ratio)を調整する役割も持っている。実際の実装では、連続ウェーブレット変換は周波数軸に対して離散的に計算しているため、f に関する積分は和の演算で置き換えられる。

0109

ここで推定すべきパラメータは{gi,v、 gi,n、θv、θn} である。これらのパラメータを全て同時に最適化するのは困難であるので、逐次的に最適化する。まず、ステップST52において、重みgi,n とノイズ・スペクトルテンプレートθn を固定して、上記式(31) による重みgi,v とノイズ・スペクトルテンプレートθv の最適化を行い、ステップST56においては重みgi,v と対象音スペクトルテンプレートθv を固定して、式(32) による重みgi, n と対象音スペクトルテンプレートθn の最適化を交互に繰り返すことを考える。まず、ステップST52において、gi,n とθn を固定して考えると、式(31) の和の内部は期待値の計算と考えることができる。そこで、サンプルUの期待値の計算(正規分布の積分を含む計算)をサンプリングにより和の計算で近似する。ここでサンプリングとは、図12模擬的に示すように、分布に関する積分を多くの点の和で近似することを意味する。このサンプリングにより、gi,v とθv の近似的な最適化が可能になる。具体的には、学習用ノイズ音に関する正規分布N(U; μn,f + gi,n、 σ2n,f ) をU = yi(f) で切断した、確率変数の定義域の上限が有界な単一切断正規分布からそれぞれのi、f についてR 個ずつのサンプル(Ui,1,f 、 ・ ・ ・ 、 Ui,r,f 、 ・ ・ ・ 、 Ui,R,f ) をサンプリングしたとき、目的関数L は、以下のように近似できる。

0110

具体的な実施例では、Rの値を300 に設定している。ここで、重みgi,n とノイズ・スペクトルテンプレートθn を固定すると、πi,r,f と(log(exp(yi(f))−exp(Ui,r,f )) は定数となるため、式(33) を用いて、重みgi,vと対象音スペクトルテンプレートθv を最適化できる(ステップST51〜ステップST55)。また、重みgi,v と対象音スペクトルテンプレートθv を固定した場合も同様で、式(31) からサンプリングにより式(33) と同様の式を導出し、重みgi,n とノイズ・スペクトルテンプレートθn を最適化する(ステップST56〜ステップST59)。

0111

しかし、式(33) は和(Σ)の対数(log)の形をしているため、未だ直接の最適化が困難である。そこで、EMアルゴリズムに似た反復法によって、式(33) を反復的に最適化する。便宜的に、推定したいパラメータをλ = {gi,v,θv} と書く。また、一回前の反復におけるパラメータの推定値をλ′と置く。まず、下記の変数zi,r,f を考える。

0112

そしてλ′を用いて計算したzi,r,f をz′i,r,f とする(ステップST4)。このとき、zi,r,f を固定し、下記の新たな目的関数Q1(λ|λ′)を定める。

0113

そして上記目的関数をλ に関して最適化する操作と、最適化されたλ を用いてzi,r,f を再計算する操作を反復する(ステップST53〜ST55の繰り返し反復をする)と真の目的関数L が最大化できる。なおこの反復回数は少なくとも1回でよい。式(36) をよく見ると、πi,r,f は最適化に無関係であることがわかる。したがって、下記の関数Q2(λ|λ′) の最適化は、Q1(λ|λ′) の最適化と等価であることがわかる。

0114

さらに、Q2 は定数項z の存在を除くと、式(27) と同様の形式をしていることがわかる。そこで上記式(37)のQ2関数の最適化を実施する(ステップST54)。すなわち、先の実施の形態で述べた単独の学習用対象音信号及び学習用ノイズ信号からのテンプレート推定の場合と同様に、Q2 関数は最適化できることがわかる。

0115

上記と同様の操作を重みgi,v と対象音スペクトルテンプレートθv を固定し、式(31) からサンプリングにより式(33) と同様の式を導出し、重みgi,n とノイズ・スペクトルテンプレートθn を最適化する(ステップST56〜ステップST59)。そしてステップST52〜ST59を予め定めた回数反復(ステップST60)すると終了する。この反復回数は少なくとも1回でよい。

0116

以上をまとめるとパラメータは下記の手続きで推定される。

0117

ステップST51: gi,v = 0、gi,n =0 とし、その他のパラメータに対して後述のように初期値を与える。

0118

ステップST52: gi,n とθn を固定して、式(31) のUをサンプリングする。

0119

ステップST53:サンプリングしたUと現在のパラメータgi,v、θv を用いて、式(35) のzi,r,f を計算する。

0120

ステップST54: ステップST53 計算されたzi,r,f を用いて、式(37) のQ2関数を最適化する。この最適化には、反復的な最適化法を利用する。

0121

ステップST55: ステップST52〜ステップ54の反復が規定回数を超えた場合はステップST56へ、そうでない場合はステップST52に戻る。

0122

ステップST56: gi,v とθv を固定して、式(31) のUをサンプリングする。

0123

ステップST57:サンプリングしたUと現在のパラメータgi,n,θn を用いて、式(35) のzi,r,f を計算する。

0124

ステップST58: 計算されたzi,r,f を用いて、式(37) のQ2関数を最適化する。この最適化にも反復的な最適化法を利用する。

0125

ステップST59: ステップST57〜ST58の反復が規定回数を超えた場合はステップST60へ、そうでない場合はステップST57に戻る。

0126

ステップST60:ステップST52〜ST59 の反復が規定回数を超えた場合は終了する。そうでない場合はステップST52に戻る。

0127

対象音スペクトルテンプレートの初期値は、観測対象の対象音信号(例えば対象音がであれば、対象音の歌手とは異なる歌手の単独歌唱の音響信号から得る。またノイズ・スペクトルテンプレートの初期値は、歌声の入っていない音楽音響信号(例えば、カラオケトラック)から、それぞれ先の実施の形態で推定したパラメータの値を使用すればよい。

0128

本発明によれば、対象音(音声、歌声等)がその他のノイズ(伴奏音等)と混ざった状態のスペクトルを、分離せずそのまま認識することができる。混合音を認識するために、構成するそれぞれの音を分離し、その後分離した音を認識するという従来の技術と比べて、本発明によれば、背景のノイズに関する情報も活用するため、従来よりも性能を向上させることができる。また本発明によれば、混合音信号について各フレームでS/N比の推定を行うのでノイズの変動に対してロバストになるという利点がある。

0129

1混合比率推定システム
2テンプレート生成部
3スペクトルテンプレート記憶部
5対象音スペクトルテンプレート記憶部
7ノイズ・スペクトルテンプレート記憶部
9 確率的スペクトルテンプレート作成部
11組合せ部
13 確率的スペクトルテンプレート記憶部
14観測スペクトル取得部
15 決定部
17 選択部
19距離演算部
21一時記憶部
23確定部
25推定部
27 推定結果記憶部
29音素認識部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ