図面 (/)

技術 信号解析装置、方法、及びプログラム

出願人 日本電信電話株式会社国立大学法人筑波大学
発明者 亀岡弘和李莉井上翔太牧野昭二
出願日 2018年8月31日 (2年0ヶ月経過) 出願番号 2018-163563
公開日 2020年3月5日 (6ヶ月経過) 公開番号 2020-034870
状態 未査定
技術分野 音声の分析・合成
主要キーワード フィードフォワード計算 鏡像法 停留点 最適化規準 周辺尤度 属性ラベル ベクトル分析 自然勾配
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月5日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

各構成音が混合した混合信号から、各構成音を精度よく分離することができる。

解決手段

パラメータ推定部36が、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、構成音スペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、潜在ベクトル系列と、スケールパラメータとを推定する。

概要

背景

ブラインド音源分離(Blind Source Separation;BSS) は、音源マイクとの間の伝達関数未知な状況下で、マイクアレイの入力から個々の音源信号を分離する技術である。周波数領域で定式化されるBSSのアプローチは、周波数ごとの音源分離の問題と周波数ごとに得られる分離信号がそれぞれどの音源のものであるかを対応付けパーミュテーション整合と呼ぶ問題を併せて解く必要があるが、音源の混合過程畳み込み演算を含まない瞬時混合系で表せるため比較的効率の高いアルゴリズムを実現できる利点がある。また、音源に関する時間周波数領域で成り立つ様々な仮定マイクロホンアレー周波数応答に関する仮定を有効活用できるようになる点も大きな利点である。

例えば、同一音源に由来する周波数成分の大きさは同期して時間変化しやすいという傾向を手がかりにしながら各周波数における音源分離とパーミュテーション整合を同時解決する独立ベクトル分析(Independent Vector Analysis; IVA) と呼ぶ独立成分分析(Independent Component Analysis;ICA)の拡張版が提案されている。近年、非負値行列因子分解(Non-negative Matrix Factorization; NMF) を用いたモノラル音源分離法多チャンネル拡張した多チャンネルNMF(Multichannel NMF; MNMF) と呼ぶ枠組が提案されている。

NMFによるモノラル音源分離法では観測信号パワー(あるいは振幅スペクトログラムを非負値行列とみなし、これを二つの非負値行列の積で近似する。これは、各時間フレーム観測される混合信号パワースペクトルが、時間変化する振幅によってスケーリングされた基底スペクトル線形和によって近似することに相当する。MNMF法は、このアイディアをBSSにおける各音源のパワースペクトログラムのモデル化に導入した枠組である。この方法はIVA と同様音源のスペクトル構造を手がかりにしながら周波数ごとの音源分離とパーミュテーション整合を同時解決するアプローチとなっている。非特許文献1ではこの枠組を独立低ランク行列分析(Independent Low-Rank Matrix Analysis;ILRMA) と呼んでいる。

上述のとおりMNMFやILRMAでは各音源のパワースペクトログラムを二つの非負値行列の積(低ランクの行列)でモデル化するが、IVAは各音源のパワースペクトログラムを非負値ベクトル直積ランク1の行列)でモデル化した特殊ケースと見なせる。ILRMAのIVAに対する音源分離精度の優位性は、両モデル間の表現能力の差によるところが大きい。これはすなわち、より柔軟で高い表現能力をもつスペクトログラムモデルを導入することができれば、さらなる高精度化が望めることを示唆している。行列積では実際に表現可能なスペクトログラムの範囲は限定的である(音声をはじめ多くの音源のスペクトログラムを必ずしも正確に表現することができない)ため、パワースペクトログラムのモデル化には改良の余地が残されている。

非特許文献2では、行列積に代わるパワースペクトログラムモデルとしてニューラルネットワーク(Neural Network;NN)を用いることでILRMAの改良を試みた手法が提案されている。この手法では、単一フレームのパワースペクトルを出力するNNを各音源のサンプルを用いて事前学習し、音源分離アルゴリズムにおいて、学習したNNのフィードフォワード計算により各音源のパワースペクトログラムを更新する方法をとっている。NNがもつ豊かな関数表現能力により、非特許文献2の実験ではILRMA に比べて高い音源分離精度が得られている。

概要

各構成音が混合した混合信号から、各構成音を精度よく分離することができる。パラメータ推定部36が、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、潜在ベクトル系列と、スケールパラメータとを推定する。

目的

本発明は、上記課題を解決するために成されたものであり、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音スペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定するパラメータ推定部を含む信号解析装置

請求項2

各構成音についてのスペクトログラムに基づいて、前記構成音毎に、前記構成音のスペクトログラムを入力として潜在ベクトル系列を推定するエンコーダ、及び前記エンコーダを学習する学習部を更に含む請求項1記載の信号解析装置。

請求項3

前記エンコーダは、前記構成音のスペクトログラム及び前記構成音の属性を示す属性ラベルを入力として、前記潜在ベクトル系列を推定し、前記デコーダは、前記潜在ベクトル系列及び前記構成音の属性ラベルを入力として、前記構成音のスペクトログラムの分散を推定し、前記パラメータ推定部は、前記目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記属性ラベルと、前記スケールパラメータとを推定する請求項2記載の信号解析装置。

請求項4

パラメータ推定部が、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定する信号解析方法

請求項5

コンピュータを、請求項1〜請求項3のいずれか1項に記載の信号解析装置の各部として機能させるためのプログラム

技術分野

0001

本発明は、信号解析装置、方法、及びプログラム係り、特に、各構成音が混合された観測信号を入力として各構成音の信号に分離するための信号解析装置、方法、及びプログラムに関する。

背景技術

0002

ブラインド音源分離(Blind Source Separation;BSS) は、音源マイクとの間の伝達関数未知な状況下で、マイクアレイの入力から個々の音源信号を分離する技術である。周波数領域で定式化されるBSSのアプローチは、周波数ごとの音源分離の問題と周波数ごとに得られる分離信号がそれぞれどの音源のものであるかを対応付けパーミュテーション整合と呼ぶ問題を併せて解く必要があるが、音源の混合過程畳み込み演算を含まない瞬時混合系で表せるため比較的効率の高いアルゴリズムを実現できる利点がある。また、音源に関する時間周波数領域で成り立つ様々な仮定マイクロホンアレー周波数応答に関する仮定を有効活用できるようになる点も大きな利点である。

0003

例えば、同一音源に由来する周波数成分の大きさは同期して時間変化しやすいという傾向を手がかりにしながら各周波数における音源分離とパーミュテーション整合を同時解決する独立ベクトル分析(Independent Vector Analysis; IVA) と呼ぶ独立成分分析(Independent Component Analysis;ICA)の拡張版が提案されている。近年、非負値行列因子分解(Non-negative Matrix Factorization; NMF) を用いたモノラル音源分離法多チャンネル拡張した多チャンネルNMF(Multichannel NMF; MNMF) と呼ぶ枠組が提案されている。

0004

NMFによるモノラル音源分離法では観測信号のパワー(あるいは振幅スペクトログラムを非負値行列とみなし、これを二つの非負値行列の積で近似する。これは、各時間フレーム観測される混合信号パワースペクトルが、時間変化する振幅によってスケーリングされた基底スペクトル線形和によって近似することに相当する。MNMF法は、このアイディアをBSSにおける各音源のパワースペクトログラムのモデル化に導入した枠組である。この方法はIVA と同様音源のスペクトル構造を手がかりにしながら周波数ごとの音源分離とパーミュテーション整合を同時解決するアプローチとなっている。非特許文献1ではこの枠組を独立低ランク行列分析(Independent Low-Rank Matrix Analysis;ILRMA) と呼んでいる。

0005

上述のとおりMNMFやILRMAでは各音源のパワースペクトログラムを二つの非負値行列の積(低ランクの行列)でモデル化するが、IVAは各音源のパワースペクトログラムを非負値ベクトル直積ランク1の行列)でモデル化した特殊ケースと見なせる。ILRMAのIVAに対する音源分離精度の優位性は、両モデル間の表現能力の差によるところが大きい。これはすなわち、より柔軟で高い表現能力をもつスペクトログラムモデルを導入することができれば、さらなる高精度化が望めることを示唆している。行列積では実際に表現可能なスペクトログラムの範囲は限定的である(音声をはじめ多くの音源のスペクトログラムを必ずしも正確に表現することができない)ため、パワースペクトログラムのモデル化には改良の余地が残されている。

0006

非特許文献2では、行列積に代わるパワースペクトログラムモデルとしてニューラルネットワーク(Neural Network;NN)を用いることでILRMAの改良を試みた手法が提案されている。この手法では、単一フレームのパワースペクトルを出力するNNを各音源のサンプルを用いて事前学習し、音源分離アルゴリズムにおいて、学習したNNのフィードフォワード計算により各音源のパワースペクトログラムを更新する方法をとっている。NNがもつ豊かな関数表現能力により、非特許文献2の実験ではILRMA に比べて高い音源分離精度が得られている。

先行技術

0007

大地, 小野順貴, 澤田宏, 亀岡弘和,渡洋, "独立低ランク行列分析に基づくブラインド音源分離,"IEICE Technical Report, EA2017-56, vol. 117, no. 255, pp. 73-80, Oct. 2017.
北村大地, 角野隼斗, 高宗典玄, 高道慎之介, 猿渡洋, 小野順貴, "独立深層学習行列分析に基づく多チャネル音源分離の実験的評価," IEICE Technical Report, EA2017-104, vol. 117, no. 515, pp. 13-20, Mar. 2018.

発明が解決しようとする課題

0008

しかし、上記の手法では、各音源のパワースペクトログラムを更新する際に尤度関数を増大させる保証がないため、ILRMA やIVA と異なり音源分離アルゴリズムの収束性は保証されず、分離行列局所解停留点を得る保証がない点が解決すべき課題となっている。

0009

本発明は、上記課題を解決するために成されたものであり、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。

課題を解決するための手段

0010

上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定するパラメータ推定部を含んで構成されている。

0011

また、本発明に係る信号解析方法は、パラメータ推定部が、各構成音が混合された観測信号を入力として、各構成音についての、潜在ベクトル系列を入力として前記構成音のスペクトログラムの分散を生成するための予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定する。

0012

また、本発明に係るプログラムは、コンピュータを、上記発明に係る信号解析装置の各部として機能させるためのプログラムである。

発明の効果

0013

本発明の信号解析装置、方法、及びプログラムによれば、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、前記構成音のスペクトログラムの分散と、スケールパラメータとから算出される、前記構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び前記観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、前記分離行列と、前記潜在ベクトル系列と、前記スケールパラメータとを推定することにより、各構成音が混合した混合信号から、各構成音を精度よく分離することができる、という効果が得られる。

図面の簡単な説明

0014

本発明の実施の形態に係るエンコーダ及びデコーダの構成を説明するための概念図である。
本発明の実施の形態に係る信号解析装置の構成を示すブロック図である。
本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャートである。
本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャートである。
(A)音声のスペクトログラムを示す図、及び(B)行列積モデルを用いた手法により得られた音声のスペクトログラムを示す図である。
本発明の実施の形態の手法により得られた音声のスペクトログラムを示す図である。
本発明の実施の形態の手法と従来手法による、SDR、SIR、SAR平均値を示す図である。

実施例

0015

以下、図面を参照して本発明の実施の形態を詳細に説明する。

0016

<本発明の実施の形態に係る概要
まず、本発明の実施の形態における概要を説明する。

0017

本発明の実施の形態に係る手法は、以下の特徴を備えている。

0018

第一の特徴は、変分自己符号化器に基づく音源パワースペクトログラムのモデル化である。

0019

変分自己符号化器(VariationalAutoencoder; VAE)または音源クラスラベル補助入力とした条件付きVAE(ConditionalVAE;CVAE) により音源の複素スペクトログラムの生成モデル記述し、ネットワークパラメータを各音源のサンプルを用いて事前学習する。エンコーダとデコーダのネットワークアーキテクチャを全層畳み込みネットワーク(Fully Convolutional Network; FCN) とすることで、非特許文献2のように単一フレームのみのパワースペクトルではなく、パワースペクトログラム全体を生成するようなモデル化が可能である。

0020

第二の特徴は、音源分離アルゴリズムの収束性である。

0021

上述のVAE音源モデルに基づき分離行列の尤度関数を定義し、音源分離アルゴリズムでは分離行列とVAEのデコーダネットワーク入力および音源クラスベクトルを尤度関数が上昇するように更新する。これにより、分離行列を停留点に収束させることができる。デコーダネットワーク入力の更新には誤差伝播法(Backpropagation) を用いる。

0022

第三の特徴は、事前学習と音源分離の最適化規準一貫性である。

0023

事前学習に用いる音源モデルと音源分離に用いる音源モデルは同形確率モデル局所ガウス音源モデルの形)のため、事前学習と音源分離において同一規準により整合された最適化が行われる。

0024

<本発明の実施の形態の原理
<問題の定式化>
マイク数をM、音源数をM とし、マイクiの観測信号、音源jの信号の短時間フーリエ変換(Short-Time Fourier transform; STFT) をそれぞれxi(f,n)、 sj(f,n) とする。また、これらを要素としたベクトルを

0025

0026

0027

とする。ただし、fとnはそれぞれ周波数および時間フレームのインデックスを表すものとし、xi(f,n) やsj(f,n) のような信号の時間周波数表現を複素スペクトログラムという。以下、音源信号ベクトル


観測信号ベクトル


との間の関係式として瞬時分離系

0028

0029

0030

を仮定する。

0031

は分離行列と呼ばれ、優決定条件のBSSではこれを推定することが目的となる。ただし、(・)T は行列またはベクトルの転置、(・)H は複素共役転置を表す。以上の瞬時混合系の仮定の下で、さらに音源jの複素スペクトログラムsj(f,n)を

0032

0033

のように平均が0、分散がuj(f,n)の複素ガウス分布に従う確率変数と仮定する。



より、


は音源j のパワースペクトログラムを表す。このように各時間周波数点で異なる分散の複素ガウス分布に独立に従う複素スペクトログラムの生成モデルを局所ガウス音源モデルと呼ぶ。sj(f,n)とsj′(f, n)(j≠j′)が統計的に独立のとき、


0034

0035

0036

に従う。式(3)、(6)より


0037

0038

に従う。従って、分離行列


と各音源のパワースペクトログラム


が与えられたもとでの観測データ


の条件付分布対数

0039

0040

となる。式(11) は


対数尤度であり、式(11) が大きくなるように


を求めることで周波数ごとの独立成分を得る分離行列


を得ることができる。音源パワースペクトログラムuj(f,n)に制約がない場合は、式(11)は周波数fごとの項に分解されるため、式(11)により求まる


で得られた分離信号のインデックスにはパーミュテーションの任意性が生じる。このため、同一音源に由来する周波数ごとの独立成分をグルーピングするパーミュテーション整合処理後段別途必要になる。IVAやILRMAは、音源パワースペクトログラムuj(f,n)に構造的制約を与えることで周波数ごとの音源分離とパーミュテーション整合を同時解決することを可能にしている。

0041

先行技術1: 独立低ランク行列分析(ILRMA)(非特許文献1)>
ここで、音源パワースペクトログラムuj(f,n) を

0042

0043

のように非負の基底スペクトル


の線形和で表現した場合の上述の枠組をILRMAと呼び、式(11) を


の尤度関数として


を推定するアルゴリズムが非特許文献1で提案されている。

0044

式(11)を最大化する


解析的に求めることは難しいが、それぞれを反復的に式(11) が上昇するように更新することで、


の停留点を探索することができる。

0045

<Wの更新>
式(11) の中で


に関係する項だけを取り出すと

0046

0047

となる。ただし


である。式(13)を上昇させる


の更新は、自然勾配法、FastICAや反復射影法(IP)などを用いて行うことができる。導出は省略するが、IP による


の更新則は以下で与えられる。

0048

0049

ただし、


はM×Mの単位行列


の第j列ベクトルである。

0050




の更新>

0051

式(11) において


に関係する項は

0052

0053

となる。式(16) を上昇させる


の更新は、EMアルゴリズムや補助関数法を用いて行うことができる。導出は省略するが、補助関数法による


の更新則は以下で与えられる。

0054

0055

この手法では、uj(f,n)が式(12)の形に制約されるため、式(12)に従わないスペクトログラムをもつ音源を対象とした場合の分離性能は限定的となる。

0056

<先行技術2:独立深層学習行列分析(IDLMA)(非特許文献2)>
上述のILRMAのアルゴリズムにおいて


の更新を介して行われる


の更新を、事前学習したニューラルネットワーク(Neural Network;NN) のフィードフォワード計算

0057

0058

に置き換えた手法を独立深層学習行列分析(Independent Deeply Learned Matrix Analysis;IDLMA) と呼ぶ。ただし、


パラメータθのニューラルネットワークの出力を表し、入力


は分離信号j のフレームnの振幅スペクトル


、出力


は音源jのフレームnのパワースペクトル


である。式(20) の更新は式(11)を上昇させる保証はないため、


の更新と式(20) の更新による反復アルゴリズムの収束性は保証されない。

0059

<本発明の実施の形態の方法>
本発明の実施の形態は、各音源の複素スペクトログラムs(f,n)をVAEまたは音源クラスラベルを補助入力としたCVAEによりモデル化する点がポイントである。以下でまずVAEおよびCVAEの原理を説明し、VAE音源モデルを用いたBSS手法を定式化する。

0060

<変分自己符号化器(Variational Autoencoder; VAE)>
VAEはエンコーダとデコーダのNNからなる確率的生成モデルである。エンコーダネットワークは入力データ


が与えられた下での潜在変数


の条件付分布


パラメータを出力するNNで、デコーダネットワークは潜在変数


が与えられた下でのデータ


の条件付分布


のパラメータを出力するNNである。学習データを


とすると、VAEはエンコーダ分布


とデコーダ分布


が無矛盾となるように、エンコーダ分布


と、


から導かれる事後分布


ができるだけ一致するようにエンコーダとデコーダのNNパラメータφ,θを学習する。Jensenの不等式を用いることにより対数周辺尤度エビデンス


の下界

0061

0062

が得られる。式(21)の左辺右辺の差は





のKullback-Leibler (KL)ダイバージェンス


と等しく、

0063

0064

のとき最小となる。よって、式(21) の右辺を大きくすることは





を近づけることに相当する。ここで、


をパラメータφのエンコーダネットワークの出力、


をパラメータθのデコーダネットワークの出力とし、


をそれぞれこれらを平均と分散とした正規分布


を標準正規分布

0065

0066

と仮定すると、式(21) の右辺第一項は

0067

0068

と書ける。ただし、[・]nはベクトルの第n要素を表す。ここで、


という関係式を通して


変数変換できることを用いている。ただし、


はベクトルの要素ごとの積を表す。式(26)は、


に由来するランダム項を無視すると


の重み付き二乗誤差の負となっていることが分かる。これがVAE(確率的な自己符号化器)と呼ばれる所以である。また、式(21)の右辺第二項は





のKLダイバージェンスの負で与えられ、エンコーダネットワークの出力の各要素が独立にかつ正規分布に従うよう強制する正則化項として働く。

0069

条件付VAE(Conditional VAE;CVAE) は

0070

0071

のようにエンコーダとデコーダを補助変数cを入力可能な形にしたVAEの拡張版である。このとき、最大化したい目的関数は、

0072

0073

となる。ただし、


学習サンプル


による標本平均を表す。

0074

<VAE音源モデルを用いたBSS>
ある音源の複素スペクトログラムを


とし、対応する音源の属性ラベルをcとする。ここで音源の属性は、音声の場合は話者ID、楽音の場合は楽器の種類などをさし、cは該当属性を示した1one-hotベクトルとする。まず、


の生成モデルを、cを補助入力としたCVAEによりモデル化する。ここで、デコーダ分布


を式(5) の局所ガウス音源モデルと同形とするため、平均が0の複素ガウス分布

0075

0076

とし、分散


のみを出力するネットワークをデコーダとする。ただし、gはパワースペクトログラムのスケールを表す変数であり、


デコーダ出力


の第(f,n)要素を表す。一方、エンコーダ分布


は通常のCVAEと同様、

0077

0078

とする。ただし、


はそれぞれ


の第k要素を表す。

0079

上記の変分自己符号化器と同様に、デコーダとエンコーダのNNパラメータθ、φは各種属性の音源の複素スペクトログラム


のサンプルを用いて

0080

0081

を規準として学習する。ただし、


は学習サンプル


による標本平均を表す。以上により学習したデコーダ分布


をVAE音源モデルと呼ぶ。図1に本発明の実施の形態におけるCVAEの概念図を示す。

0082

VAE音源モデルは、学習サンプルに含まれる様々な属性の音源の複素スペクトログラムを表現可能なユニバーサルな生成モデルとなっており、VAEの特徴よりcは音源属性カテゴリカルな特徴を調整する役割、zは属性内の変動を調整する役割を担った変数となっている。式(30)より、VAE音源モデルは


をパラメータとした局所ガウス音源モデルと見なせるため、音源jの複素スペクトログラム


の生成モデルを、


を入力としたデコーダ分布


により表現することで、式(11) と同形の尤度関数に帰着する。すなわち、最大化すべき尤度関数は式(11)のvj(f,n)に


代入した

0083

0084

となる。従って、式(34)が大きくなるように分離行列


、VAE音源モデルパラメータ


、スケールパラメータgjを反復的に更新することで、式(34)の停留点を探索することができる。式(34)を上昇させる


の更新は上記<Wの更新>と同様の方法、式(34)を上昇させる


の更新は誤差逆伝播法(Backpropagation)、式(34)を上昇させる


の更新は

0085

0086

により行うことができる。ただし、cjの更新は、cjの要素の和が1となる制約の下で行う必要がある場合は、cjをソフトマックス

0087

0088

に置き換えた上で、その入力ujをcjの代わりのパラメータとして扱い最適化する方法が簡便である。また、式(35)は、


が固定された下で式(11)を最大にするgjをgjの更新値とすることを意味する。以上より提案する音源分離アルゴリズムは以下のようにまとめられる。

0089

1. 式(33)を学習規準としてθ、φを学習する。

0090

2.


初期化する。

0091

3. 各jについて下記ステップを繰り返す。

0092

(a)式(14)、(15)により


を更新する。

0093

(b)式(34)を規準として誤差逆伝播法により


または


を更新する。

0094

(c)式(35)によりgjを更新する。

0095

<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図2に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチン及びパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。

0096

入力部10は、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性ラベルを受け付ける。また、入力部10は、解析対象データとして、複数の構成音が混じっている混合信号(以後、観測信号)の時系列データを受け付ける。なお、構成音の信号の属性を示す属性ラベルは、人手で与えておけばよい。また、構成音の信号の属性とは、例えば、性別大人/子供、話者IDなどである。

0097

演算部20は、時間周波数展開部24と、学習部32と、音源信号モデル記憶部34と、パラメータ推定部36と、を含んで構成されている。

0098

時間周波数展開部24は、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻スペクトルを表すパワースペクトログラムを計算する。また、時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。

0099

学習部32は、構成音毎に、当該構成音についてのパワースペクトログラム及び属性ラベルに基づいて、当該構成音のパワースペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音のパワースペクトログラムを生成するデコーダを学習する。

0100

具体的には、学習部32は、構成音毎に、デコーダによって生成されたパワースペクトログラムと、元の構成音の信号におけるパワースペクトログラムとの誤差、並びに、エンコーダによって推定された潜在ベクトル系列と、元の構成音の信号における潜在ベクトル系列との距離を用いて表される、上記式(33)の目的関数の値を最大化するように、エンコーダ及びデコーダを学習し、音源信号モデル記憶部34に格納する。ここで、エンコーダ及びデコーダの各々は、畳み込みネットワーク又は再帰型ネットワークを用いて構成される。

0101

パラメータ推定部36は、観測信号のパワースペクトログラムに基づいて、各構成音についての、デコーダによって生成される、当該構成音のパワースペクトログラムの分散とスケールパラメータとから算出される、当該構成音のパワースペクトログラム、各構成音のパワースペクトログラムのスケールパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び観測信号を各構成音に分離した信号を用いて表される上記式(34)式の目的関数を最大化するように、分離行列と、潜在ベクトル系列と、構成音の属性ラベルと、スケールパラメータとを推定する。

0102

具体的には、パラメータ推定部36は、初期値設定部40、分離行列更新部42、潜在変数更新部44、スケールパラメータ更新部46、及び収束判定部48を備えている。

0103

初期値設定部40は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性ラベルと、各構成音のスケールパラメータとに初期値を設定する。

0104

分離行列更新部42は、観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(14)、(15)に従って、分離行列を更新する。

0105

潜在変数更新部44は、観測信号のパワースペクトログラムと、更新された分離行列と、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、上記式(34)に示す目的関数を大きくするように、誤差逆伝播法により、各構成音の潜在ベクトル系列と、各構成音の属性ラベルとを更新する。

0106

スケールパラメータ更新部46は、観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(35)に従って、スケールパラメータを更新する。

0107

収束判定部48は、収束条件を満たすか否かを判定し、収束条件を満たすまで、分離行列更新部42における更新処理と、潜在変数更新部44における更新処理と、スケールパラメータ更新部46における更新処理とを繰り返させる。

0108

収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記式(34)の目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下であることを用いることができる。

0109

出力部90は、パラメータ推定部36において取得した、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、各構成音のデコーダを用いて生成される各構成音のパワースペクトログラムを求め、各構成音のパワースペクトログラムから、各構成音の信号を生成して出力する。

0110

<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。

0111

入力部10において、学習データとして、複数の構成音の各々について、当該構成音の信号の時系列データ及び当該構成音の信号の属性を示す属性ラベルを受け付けると、信号解析装置100は、図3に示す学習処理ルーチンを実行する。

0112

まず、ステップS100において、構成音毎に、当該構成音の信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。

0113

次のステップS102では、構成音毎に、当該構成音についてのパワースペクトログラム及び属性ラベルに基づいて、当該構成音のパワースペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音のパワースペクトログラムを生成するデコーダを学習し、学習したエンコーダ及びデコーダのパラメータを、音源信号モデル記憶部34に格納する。

0114

そして、入力部10において、各構成音が混在した観測信号の時系列データを受け付けると、信号解析装置100は、図4に示すパラメータ推定処理ルーチンを実行する。

0115

まず、ステップS120において、観測信号の時系列データに基づいて、各時刻のスペクトルを表すパワースペクトログラムを計算する。

0116

ステップS122では、初期値設定部40は、分離行列と、各構成音の潜在ベクトル系列と、各構成音の属性ラベルと、各構成音のスケールパラメータとに初期値を設定する。

0117

ステップS124では、分離行列更新部42は、上記ステップS120で計算された観測信号のパワースペクトログラムと、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(14)、(15)に従って、分離行列を更新する。

0118

ステップS126では、潜在変数更新部44は、上記ステップS120で計算された観測信号のパワースペクトログラムと、更新された分離行列と、前回更新された、又は初期値が設定された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータとに基づいて、上記式(34)に示す目的関数を大きくするように、誤差逆伝播法により、各構成音の潜在ベクトル系列と、各構成音の属性ラベルとを更新する。

0119

ステップS128では、スケールパラメータ更新部46は、上記ステップS120で計算された観測信号のパワースペクトログラムと、更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、各構成音のスケールパラメータ、及び分離行列とに基づいて、上記式(34)に示す目的関数を大きくするように、上記式(35)に従って、スケールパラメータを更新する。

0120

次に、ステップS130では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS132へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124〜ステップS128の処理を繰り返す。

0121

ステップS132では、上記ステップS124〜S128で最終的に更新された、各構成音の潜在ベクトル系列、各構成音の属性ラベル、及び各構成音のスケールパラメータに基づいて、各構成音のデコーダを用いて各構成音のパワースペクトログラムを生成し、各構成音のパワースペクトログラムから、各構成音の信号を生成して、出力部90から出力し、パラメータ推定処理ルーチンを終了する。

0122

<実験結果>
本発明の実施の形態の手法による音源分離効果を確認するため、図5図6に音声のスペクトログラムに対して式(12)の行列積モデルをフィッティングした例と、本発明の実施の形態に係るVAE音源モデルをフィッティングした例を示す。行列積モデルに比べてVAE音源モデルの方が正確に音声のスペクトログラムを表現できていることが確認できる。

0123

また、本発明の実施の形態の手法の有効性を確認するため、VCTK2018の女性話者(SF1、SF2)と男性話者SM1、SM2)の声を用いて音源分離実験を行った。音源数を2、マイク数を2として、鏡像法によりシミュレートした室内インパルス応答を用いて混合信号を生成した。ILRMA(非特許文献1)をベースラインとして、Signal-to-Distortion Ration (SDR)、Signal-to-Interference Ratio (SIR)、 Signal-to-Artifact Ratio (SAR) を指標として、本発明の実施の形態の手法(MVAE)とILRMAの分離精度を評価した。図7にその結果を示す。本発明の実施の形態の手法(MVAE)が従来手法に比べて高い分離性能を得られていることが確認できる。

0124

以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音が混合された観測信号を入力として、予め学習されたデコーダによって生成される、構成音のスペクトログラムの分散と、スケールパラメータとから算出される、構成音のスペクトログラム、各構成音のスペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最適化するように、分離行列と、潜在ベクトル系列と、スケールパラメータとを推定することにより、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。

0125

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0126

例えば、属性ラベルを入力としないエンコーダ及びデコーダを用いてもよい。この場合、属性ラベルが不要なため、パラメータ推定部では、属性ラベルを推定しない。

0127

また、観測信号のパワースペクトログラムや構成音のパワースペクトログラムを計算する場合を例に説明したが、これに限定されるものではなく、観測信号の振幅スペクトログラムや構成音の振幅スペクトログラムを計算するようにしてもよい。この場合には、学習部32は、構成音毎に、当該構成音の振幅スペクトログラム及び属性ラベルを入力として潜在ベクトル系列を推定するエンコーダ、及び潜在ベクトル系列及び属性ラベルを入力として当該構成音の振幅スペクトログラムを生成するデコーダを学習する。また、パラメータ推定部36は、観測信号の振幅スペクトログラムに基づいて、各構成音についての、デコーダによって生成される、当該構成音の振幅スペクトログラムの分散とスケールパラメータとから算出される、当該構成音の振幅スペクトログラム、各構成音の振幅スペクトログラムのスケールパラメータ、分離行列、及び観測信号を各構成音に分離した信号を用いて表される目的関数を最大化するように、分離行列と、潜在ベクトル系列と、構成音の属性ラベルと、スケールパラメータとを推定する。

0128

また、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。

0129

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

0130

10 入力部
20演算部
24時間周波数展開部
32 学習部
34音源信号モデル記憶部
36パラメータ推定部
40初期値設定部
42分離行列更新部
44潜在変数更新部
46スケールパラメータ更新部
48収束判定部
90 出力部
100 信号解析装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ