図面 (/)

技術 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置

出願人 日本電信電話株式会社
発明者 丹羽健太小林和則小泉悠馬川瀬智子
出願日 2016年8月25日 (3年7ヶ月経過) 出願番号 2016-164726
公開日 2018年3月1日 (2年0ヶ月経過) 公開番号 2018-031910
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード フロア値 バイアスベクトル 非負行列 特性ベクトル ランプ関数 非負値行列 ハードウェアエンティティ 実数値ベクトル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年3月1日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

高精度かつ安定的に音源強調をするためのネットワークパラメータを学習する音源強調学習装置を提供する。

解決手段

事前学習部は、周波数領域混合音学習データから生成される目的音BF出力パワーから、目的音のスペクトル特性モデル化した目的音スペクトル特性ベクトルを計算する目的音非負オートエンコーダ計算部126と、周波数領域混合音学習データから生成される雑音BF出力パワーから、雑音のスペクトル特性をモデル化した雑音スペクトル特性ベクトルを計算する雑音非負オートエンコーダ計算部127と、目的音スペクトル特性ベクトルと雑音スペクトル特性ベクトルから、推定目的音PSD推定雑音PSDを計算する相補減算ニューラルネットワーク計算部128、推定目的音PSDと推定雑音PSDと、目的音PSDと雑音PSDを用いてネットワークパラメータを最適化するネットワークパラメータ最適化部129とを含む。

概要

背景

これまで、深層学習を構成するネットワークパラメータ(例えば、重み行列バイアスベクトル)については、初期値ランダムに設定し、誤差逆伝搬法に則って最適化することで、音源強調のための潜在変数群(例えば、目的音雑音PSD(Power Spectral Density)、ウィーナーフィルタ事前SNR(Signal-Noise Ratio))を出力する音源強調用ニューラルネットワーク構築してきた。

従来の音源分離・強調の方式として、非特許文献1がある。強調したい音源信号(以下、目的音という)をs(t)、目的音以外の雑音をn(t)と表す(ここで、tは時間のインデックスである)。s(t)、n(t)は時間領域信号である。

s(t)、n(t)を周波数領域に展開した信号である周波数領域目的音、周波数領域雑音をS(τ, ω)、N(τ, ω)と表す(ここで、τ、ωは、それぞれ時間フレームのインデックス、周波数のインデックスである)。このとき、周波数領域混合音X(τ, ω)は、以下のように表現される。また、X(τ, ω)の時間領域表現をx(t)とする。

雑音は特性に応じて複数に分けてもよい。ここで、雑音の特性とは、例えば、音楽のように非定常性が強いという性質、空調雑音のように定常性の強いという性質や低域成分が強いという性質、2ch以上のマイクを用いて観測する場合には到来方向が異なるといった性質等のことである。雑音の特性が異なる場合には、以下のように雑音をモデル化することができる。



ここで、Kは特性の異なる雑音の数、Ni(τ, ω)はi番目雑音特性に属する雑音源の周波数領域雑音である。

以下では、まず、図12〜図13を参照して従来技術の音源強調学習装置800を説明する。図12は、音源強調学習装置800の構成を示すブロック図である。図13は、音源強調学習装置800の動作を示すフローチャートである。図12に示すように音源強調学習装置800は、特徴量・ラベル生成部810と、事前学習部820を含む。

音源強調学習装置800は、学習データ記録部890に接続している。学習データ記録部890には、事前学習に用いるモノラル混合音X(τ, ω)とそれを構成する目的音S(τ, ω)、雑音N(τ, ω)が学習データとして記録されている。以下、X(τ, ω)、S(τ, ω)、N(τ, ω)をそれぞれ周波数領域混合音学習データ、周波数領域目的音学習データ、周波数領域雑音学習データという。

特徴量・ラベル生成部810は、周波数領域混合音学習データX(τ, ω)、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)から、特徴量とラベルを生成する(S810)。特徴量の設計方法は様々あるが、最も単純な例として、混合音のスペクトル|X(τ, ω)|2やスペクトル|X(τ, ω)|2を平滑化した値を利用することができる。また、ラベルの設計方法も様々あるが、最も単純な例として、バイナリマスクI(τ, ω)を用いることができる。以下では、特徴量として混合音のスペクトル|X(τ, ω)|2、ラベルとしてバイナリマスクI(τ, ω)を用いて説明する。|X(τ, ω)|2、I(τ, ω)は、フレーム時間ごと、周波数ごとに用意する。

バイナリマスクI(τ, ω)は、次式で計算される。



ここで、NL(τ, ω)は観測時点の雑音混在レベルであり、θはバイナリマスクの値(0または1)を決定する閾値である。

したがって、ラベル(0または1)は周波数ごと、または周波数帯域ごとに付与されることになる。

閾値θは、θ=0dB程度とすることが多い。これは、該当する周波数−時間フレームで、目的とする音源が最も主要な音源か否かを判断することに対応する。また、フロア値(つまり、NL(τ, ω)がθより小さいときのI(τ, ω)の値)は、式(3)では0としたが、実際には、0<α<1を満たす値αを用いることが多い。例えば、αを0.05〜0.3程度の値とする。

NL(τ, ω)は、次式で計算される。

事前学習部820は、特徴量とラベルの組からネットワークパラメータpを学習する(S820)。ネットワークパラメータpは、以下で説明する音源強調装置900を構成するバイナリマスク推定部920で使用するパラメータである。学習の枠組みには、例えば、DNN(Deep Neural Network)、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)といったいずれの教師あり学習方法を用いてもよい。つまり、ネットワークパラメータpは、事前の教師あり学習により、音源ごとに最適化されたパラメータの集合である。DNNを用いる場合、ネットワークパラメータpは、重み行列とバイアスベクトルとなる。

次に、図14〜図15を参照して従来技術の音源強調装置900を説明する。図14は、音源強調装置900の構成を示すブロック図である。図15は、音源強調装置900の動作を示すフローチャートである。図14に示すように音源強調装置900は、周波数領域変換部910と、バイナリマスク推定部920と、信号強調部930と、時間領域変換部940を含む。

音源強調装置900は、学習結果記録部990に接続している。学習結果記録部990には、音源強調学習装置800により事前学習したネットワークパラメータpが記録されている。

周波数領域変換部910は、時間領域の観測信号x(t)を周波数領域変換し、周波数領域観測信号X(τ, ω)を生成する(S910)。観測信号x(t)は、1chの信号であってもいいし、2ch以上の信号であってもよい。

バイナリマスク推定部920は、学習結果記録部990から読み出したネットワークパラメータpを用いて、周波数領域観測信号X(τ, ω)からバイナリマスクI(τ, ω)を生成する(S920)。バイナリマスクの推定方法については、音源強調学習装置800で用いた学習方法に対応するものを利用することを前提としている。

また、2ch以上の信号を入力とする場合は、ビームフォーミング等で目的音と雑音をそれぞれ強調した信号群(つまり、X(τ, ω)の線形変換信号群)を入力とし、バイナリマスクI(τ, ω)を出力してもよい。この場合、特徴量・ラベル生成部810における特徴量の生成や事前学習部820におけるネットワークパラメータの事前学習についても同様の処理を実行する必要がある。

信号強調部930は、周波数領域観測信号X(τ, ω)とバイナリマスクI(τ, ω)から式(5)により信号強調(音源強調)を実行し、周波数領域強調音^S(τ, ω)を生成する(S930)。

時間領域変換部940は、周波数領域強調音^S(τ, ω)から時間領域での推定音源信号である強調音^s(t)を生成する(S940)。

概要

高精度かつ安定的に音源強調をするためのネットワークパラメータを学習する音源強調学習装置を提供する。事前学習部は、周波数領域混合音学習データから生成される目的音BF出力パワーから、目的音のスペクトル特性をモデル化した目的音スペクトル特性ベクトルを計算する目的音非負オートエンコーダ計算部126と、周波数領域混合音学習データから生成される雑音BF出力パワーから、雑音のスペクトル特性をモデル化した雑音スペクトル特性ベクトルを計算する雑音非負オートエンコーダ計算部127と、目的音スペクトル特性ベクトルと雑音スペクトル特性ベクトルから、推定目的音PSDと推定雑音PSDを計算する相補減算ニューラルネットワーク計算部128、推定目的音PSDと推定雑音PSDと、目的音PSDと雑音PSDを用いてネットワークパラメータを最適化するネットワークパラメータ最適化部129とを含む。

目的

本発明では、音源強調のためのモデルをニューラルネットワークの構造に取り入れることにより、高精度かつ安定的に音源強調をするためのネットワークパラメータを学習する音源強調学習技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

周波数領域混合音学習データと周波数領域目的音学習データと周波数領域雑音学習データの組から、周波数領域混合音学習データを特徴量、目的音PSD雑音PSDの組をラベルとして生成する特徴量・ラベル生成部と、前記特徴量と前記ラベルを用いて、観測信号を入力とし推定目的音PSDと推定雑音PSDを出力とする音源強調用ニューラルネットワーク特徴付けネットワークパラメータを学習する事前学習部とを有する音源強調学習装置であって、前記事前学習部は、前記周波数領域混合音学習データから生成される目的音を強調したビームフォーミング出力信号パワーである目的音BF出力パワーから、目的音のスペクトル特性モデル化した目的音スペクトル特性ベクトルを計算する目的音非負オートエンコーダ計算部と、前記周波数領域混合音学習データから生成される雑音を強調したビームフォーミング出力信号のパワーである雑音BF出力パワーから、雑音のスペクトル特性をモデル化した雑音スペクトル特性ベクトルを計算する雑音非負オートエンコーダ計算部と、前記目的音スペクトル特性ベクトルと前記雑音スペクトル特性ベクトルから、前記推定目的音PSDと前記推定雑音PSDを計算する相補減算ニューラルネットワーク計算部と、前記推定目的音PSDと前記推定雑音PSDと、前記目的音PSDと前記雑音PSDを用いて前記ネットワークパラメータを最適化するネットワークパラメータ最適化部とを含む音源強調学習装置。

請求項2

請求項1に記載の音源強調学習装置であって、前記ネットワークパラメータのうち、前記目的音非負オートエンコーダ計算部で用いるネットワークパラメータは、非負の重み行列WS(2),WS(3)とバイアスベクトルbS(2),bS(3)であり、WS(2)とWS(3)とは次式の関係を満たすものであり、前記雑音非負オートエンコーダ計算部で用いるネットワークパラメータは、非負の重み行列WN(2),WN(3)とバイアスベクトルbN(2),bN(3)であり、WN(2)とWN(3)とは次式の関係を満たすものであり、前記相補減算ニューラルネットワーク計算部で用いるネットワークパラメータは、重み行列W(4)であり、重み行列W(4)は初期値Winit(4)を、(ただし、λS,ω_i、λN,ω_iは正の値、γS-N,ω_i、γN-S,ω_iは負の値、1≦i≦Ω)として学習して得られるものである音源強調学習装置。

請求項3

請求項1または2に記載の音源強調学習装置を用いて生成したネットワークパラメータを設定した音源強調用ニューラルネットワークを用いて、観測信号から前記観測信号を音源強調した強調音を生成する音源強調装置であって、前記観測信号から周波数領域観測信号を生成する周波数領域変換部と、前記音源強調用ニューラルネットワークを用いて、前記周波数領域観測信号から推定目的音PSDと推定雑音PSDを生成し、前記推定目的音PSDと前記推定雑音PSDからウィーナーフィルタを推定するウィーナーフィルタ推定部と、前記ウィーナーフィルタを用いて、前記周波数領域観測信号から周波数領域強調音を生成する信号強調部と、前記周波数領域強調音を時間領域変換し、前記強調音を生成する時間領域変換部とを含む音源強調装置。

請求項4

周波数領域混合音学習データと周波数領域目的音学習データと周波数領域雑音学習データの組から、周波数領域混合音学習データを特徴量、目的音PSDと雑音PSDの組をラベルとして生成する特徴量・ラベル生成ステップと、前記特徴量と前記ラベルを用いて、観測信号を入力とし推定目的音PSDと推定雑音PSDを出力とする音源強調用ニューラルネットワークを特徴付けるネットワークパラメータを学習する事前学習ステップとを含む音源強調学習方法であって、前記事前学習ステップは、前記周波数領域混合音学習データから生成される目的音を強調したビームフォーミング出力信号のパワーである目的音BF出力パワーから、目的音のスペクトル特性をモデル化した目的音スペクトル特性ベクトルを計算する目的音非負オートエンコーダ計算ステップと、前記周波数領域混合音学習データから生成される雑音を強調したビームフォーミング出力信号のパワーである雑音BF出力パワーから、雑音のスペクトル特性をモデル化した雑音スペクトル特性ベクトルを計算する雑音非負オートエンコーダ計算ステップと、前記目的音スペクトル特性ベクトルと前記雑音スペクトル特性ベクトルから、前記推定目的音PSDと前記推定雑音PSDを計算する相補減算ニューラルネットワーク計算ステップと、前記推定目的音PSDと前記推定雑音PSDと、前記目的音PSDと前記雑音PSDを用いて前記ネットワークパラメータを最適化するネットワークパラメータ最適化ステップとを含む音源強調学習方法。

請求項5

請求項1または2に記載の音源強調学習装置、または請求項3に記載の音源強調装置としてコンピュータを機能させるためのプログラム

請求項6

信号に関する特徴量と前記信号の処理結果であるラベルの組からなる学習データを用いて、信号を入力とし前記信号の推定処理結果を出力する信号処理用ニューラルネットワークを特徴付けるネットワークパラメータを学習する信号処理学習装置であって、前記信号から計算される特徴量から前記推定処理結果が出力されるまでの途中段階で計算される推定処理結果を途中段階推定処理結果i(1≦i≦n、nは1以上の整数)とし、前記特徴量を用いて、前記途中段階推定処理結果1を計算するニューラルネットワーク1計算部と、前記特徴量または前記途中段階推定処理結果1ないし前記途中段階推定処理結果j-1のいずれかを用いて、前記途中段階推定処理結果jを計算するニューラルネットワークj計算部と(2≦j≦n)、前記特徴量または前記途中段階推定処理結果1ないし前記途中段階推定処理結果nのいずれかを用いて、前記推定処理結果を計算するニューラルネットワークn+1計算部と、前記推定処理結果と前記ラベルを用いて、前記ネットワークパラメータを最適化するネットワークパラメータ最適化部とを含む信号処理学習装置。

技術分野

0001

本発明は、様々な音源音源信号が混合する音源信号から特定の音源の音源信号を強調する音源強調技術に関するものであり、特に深層学習を用いる音源強調技術に関する。

背景技術

0002

これまで、深層学習を構成するネットワークパラメータ(例えば、重み行列バイアスベクトル)については、初期値ランダムに設定し、誤差逆伝搬法に則って最適化することで、音源強調のための潜在変数群(例えば、目的音雑音PSD(Power Spectral Density)、ウィーナーフィルタ事前SNR(Signal-Noise Ratio))を出力する音源強調用ニューラルネットワーク構築してきた。

0003

従来の音源分離・強調の方式として、非特許文献1がある。強調したい音源信号(以下、目的音という)をs(t)、目的音以外の雑音をn(t)と表す(ここで、tは時間のインデックスである)。s(t)、n(t)は時間領域信号である。

0004

s(t)、n(t)を周波数領域に展開した信号である周波数領域目的音、周波数領域雑音をS(τ, ω)、N(τ, ω)と表す(ここで、τ、ωは、それぞれ時間フレームのインデックス、周波数のインデックスである)。このとき、周波数領域混合音X(τ, ω)は、以下のように表現される。また、X(τ, ω)の時間領域表現をx(t)とする。

0005

雑音は特性に応じて複数に分けてもよい。ここで、雑音の特性とは、例えば、音楽のように非定常性が強いという性質、空調雑音のように定常性の強いという性質や低域成分が強いという性質、2ch以上のマイクを用いて観測する場合には到来方向が異なるといった性質等のことである。雑音の特性が異なる場合には、以下のように雑音をモデル化することができる。



ここで、Kは特性の異なる雑音の数、Ni(τ, ω)はi番目雑音特性に属する雑音源の周波数領域雑音である。

0006

以下では、まず、図12図13を参照して従来技術の音源強調学習装置800を説明する。図12は、音源強調学習装置800の構成を示すブロック図である。図13は、音源強調学習装置800の動作を示すフローチャートである。図12に示すように音源強調学習装置800は、特徴量・ラベル生成部810と、事前学習部820を含む。

0007

音源強調学習装置800は、学習データ記録部890に接続している。学習データ記録部890には、事前学習に用いるモノラル混合音X(τ, ω)とそれを構成する目的音S(τ, ω)、雑音N(τ, ω)が学習データとして記録されている。以下、X(τ, ω)、S(τ, ω)、N(τ, ω)をそれぞれ周波数領域混合音学習データ、周波数領域目的音学習データ、周波数領域雑音学習データという。

0008

特徴量・ラベル生成部810は、周波数領域混合音学習データX(τ, ω)、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)から、特徴量とラベルを生成する(S810)。特徴量の設計方法は様々あるが、最も単純な例として、混合音のスペクトル|X(τ, ω)|2やスペクトル|X(τ, ω)|2を平滑化した値を利用することができる。また、ラベルの設計方法も様々あるが、最も単純な例として、バイナリマスクI(τ, ω)を用いることができる。以下では、特徴量として混合音のスペクトル|X(τ, ω)|2、ラベルとしてバイナリマスクI(τ, ω)を用いて説明する。|X(τ, ω)|2、I(τ, ω)は、フレーム時間ごと、周波数ごとに用意する。

0009

バイナリマスクI(τ, ω)は、次式で計算される。



ここで、NL(τ, ω)は観測時点の雑音混在レベルであり、θはバイナリマスクの値(0または1)を決定する閾値である。

0010

したがって、ラベル(0または1)は周波数ごと、または周波数帯域ごとに付与されることになる。

0011

閾値θは、θ=0dB程度とすることが多い。これは、該当する周波数−時間フレームで、目的とする音源が最も主要な音源か否かを判断することに対応する。また、フロア値(つまり、NL(τ, ω)がθより小さいときのI(τ, ω)の値)は、式(3)では0としたが、実際には、0<α<1を満たす値αを用いることが多い。例えば、αを0.05〜0.3程度の値とする。

0012

NL(τ, ω)は、次式で計算される。

0013

事前学習部820は、特徴量とラベルの組からネットワークパラメータpを学習する(S820)。ネットワークパラメータpは、以下で説明する音源強調装置900を構成するバイナリマスク推定部920で使用するパラメータである。学習の枠組みには、例えば、DNN(Deep Neural Network)、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)といったいずれの教師あり学習方法を用いてもよい。つまり、ネットワークパラメータpは、事前の教師あり学習により、音源ごとに最適化されたパラメータの集合である。DNNを用いる場合、ネットワークパラメータpは、重み行列とバイアスベクトルとなる。

0014

次に、図14図15を参照して従来技術の音源強調装置900を説明する。図14は、音源強調装置900の構成を示すブロック図である。図15は、音源強調装置900の動作を示すフローチャートである。図14に示すように音源強調装置900は、周波数領域変換部910と、バイナリマスク推定部920と、信号強調部930と、時間領域変換部940を含む。

0015

音源強調装置900は、学習結果記録部990に接続している。学習結果記録部990には、音源強調学習装置800により事前学習したネットワークパラメータpが記録されている。

0016

周波数領域変換部910は、時間領域の観測信号x(t)を周波数領域変換し、周波数領域観測信号X(τ, ω)を生成する(S910)。観測信号x(t)は、1chの信号であってもいいし、2ch以上の信号であってもよい。

0017

バイナリマスク推定部920は、学習結果記録部990から読み出したネットワークパラメータpを用いて、周波数領域観測信号X(τ, ω)からバイナリマスクI(τ, ω)を生成する(S920)。バイナリマスクの推定方法については、音源強調学習装置800で用いた学習方法に対応するものを利用することを前提としている。

0018

また、2ch以上の信号を入力とする場合は、ビームフォーミング等で目的音と雑音をそれぞれ強調した信号群(つまり、X(τ, ω)の線形変換信号群)を入力とし、バイナリマスクI(τ, ω)を出力してもよい。この場合、特徴量・ラベル生成部810における特徴量の生成や事前学習部820におけるネットワークパラメータの事前学習についても同様の処理を実行する必要がある。

0019

信号強調部930は、周波数領域観測信号X(τ, ω)とバイナリマスクI(τ, ω)から式(5)により信号強調(音源強調)を実行し、周波数領域強調音^S(τ, ω)を生成する(S930)。

0020

時間領域変換部940は、周波数領域強調音^S(τ, ω)から時間領域での推定音源信号である強調音^s(t)を生成する(S940)。

先行技術

0021

Y. Wang, A. Narayanan and D.L. Wang, “On training targets for supervised speech separation”,IEEE/ACMTransactions on Audio, Speech, and Language Processing, vol.22, No.12, pp.1849-1858, 2014.

発明が解決しようとする課題

0022

従来技術の方法では、音源強調に用いるバイナリマスクの推定において、DNN、CNN、RNN等を用いて(周波数領域)混合音を入力としてバイナリマスクを出力する関数(以下、バイナリマスク関数という)を設計している。バイナリマスク関数はニューラルネットワークを用いて表現されるが、このニューラルネットワークの構造には物理的な制約を一切加えることなく、ネットワークパラメータを学習していた。例えば、ネットワークの層の数、ノードの数はヒューリスティックに決定したり、(重み行列やバイアスベクトルなどの)ネットワークパラメータの初期値もランダムに決定していた。つまり、混合音からバイナリマスクを推定するバイナリマスク関数をブラックボックス化していることに等しいといえる。そのため、高精度かつ安定的に音源強調するための潜在変数群(例えば、目的音/雑音のPSD)を推定するのに適したニューラルネットワークを構築できているのか否かについて判断することが困難であった。実際、ニューラルネットワークにおける途中の計算段階で目的音/雑音のPSDを高精度に推定することができないこともあった。

0023

そこで本発明では、音源強調のためのモデルをニューラルネットワークの構造に取り入れることにより、高精度かつ安定的に音源強調をするためのネットワークパラメータを学習する音源強調学習技術を提供することを目的とする。また、信号処理アルゴリズムの構造をニューラルネットワークの構造に取り入れることにより、高精度かつ安定的に信号処理をするためのネットワークパラメータを学習する信号処理学習技術を提供することを目的とする。

課題を解決するための手段

0024

本発明の一態様は、周波数領域混合音学習データと周波数領域目的音学習データと周波数領域雑音学習データの組から、周波数領域混合音学習データを特徴量、目的音PSDと雑音PSDの組をラベルとして生成する特徴量・ラベル生成部と、前記特徴量と前記ラベルを用いて、観測信号を入力とし推定目的音PSDと推定雑音PSDを出力とする音源強調用ニューラルネットワークを特徴付けるネットワークパラメータを学習する事前学習部とを有する音源強調学習装置であって、前記事前学習部は、前記周波数領域混合音学習データから生成される目的音を強調したビームフォーミング出力信号パワーである目的音BF出力パワーから、目的音のスペクトル特性をモデル化した目的音スペクトル特性ベクトルを計算する目的音非負オートエンコーダ計算部と、前記周波数領域混合音学習データから生成される雑音を強調したビームフォーミング出力信号のパワーである雑音BF出力パワーから、雑音のスペクトル特性をモデル化した雑音スペクトル特性ベクトルを計算する雑音非負オートエンコーダ計算部と、前記目的音スペクトル特性ベクトルと前記雑音スペクトル特性ベクトルから、前記推定目的音PSDと前記推定雑音PSDを計算する相補減算ニューラルネットワーク計算部と、前記推定目的音PSDと前記推定雑音PSDと、前記目的音PSDと前記雑音PSDを用いて前記ネットワークパラメータを最適化するネットワークパラメータ最適化部とを含む。

0025

本発明の一態様は、信号に関する特徴量と前記信号の処理結果であるラベルの組からなる学習データを用いて、信号を入力とし前記信号の推定処理結果を出力する信号処理用ニューラルネットワークを特徴付けるネットワークパラメータを学習する信号処理学習装置であって、前記信号から計算される特徴量から前記推定処理結果が出力されるまでの途中段階で計算される推定処理結果を途中段階推定処理結果i(1≦i≦n、nは1以上の整数)とし、前記特徴量を用いて、前記途中段階推定処理結果1を計算するニューラルネットワーク1計算部と、前記特徴量または前記途中段階推定処理結果1ないし前記途中段階推定処理結果j-1のいずれかを用いて、前記途中段階推定処理結果jを計算するニューラルネットワークj計算部と(2≦j≦n)、前記特徴量または前記途中段階推定処理結果1ないし前記途中段階推定処理結果nのいずれかを用いて、前記推定処理結果を計算するニューラルネットワークn+1計算部と、前記推定処理結果と前記ラベルを用いて、前記ネットワークパラメータを最適化するネットワークパラメータ最適化部とを含む。

発明の効果

0026

本発明によれば、音源強調のためのモデルをニューラルネットワークの構造として取り入れ、目的音/雑音のPSDなどの潜在変数群を推定することにより、高精度かつ安定的に音源強調をするためのネットワークパラメータを学習することが可能となる。また、信号処理アルゴリズムの構造をニューラルネットワークの構造として取り入れ、潜在変数群に相当する途中段階推定処理結果を推定することにより、高精度かつ安定的に信号処理をするためのネットワークパラメータを学習することが可能となる。

図面の簡単な説明

0027

音源強調用ニューラルネットワーク500の構造を示す図。
音源強調学習装置100の構成を示すブロック図。
音源強調学習装置100の動作を示すフローチャート。
事前学習部120の構成を示すブロック図。
事前学習部120の動作を示すフローチャート。
ネットワークパラメータ計算部122の構成を示すブロック図。
ネットワークパラメータ計算122の動作を示すフローチャート。
音源強調装置200の構成を示すブロック図。
音源強調装置200の動作を示すフローチャート。
ウィーナーフィルタ推定部220の構成を示すブロック図。
ウィーナーフィルタ推定部220の動作を示すフローチャート。
音源強調学習装置800の構成を示すブロック図。
音源強調学習装置800の動作を示すフローチャート。
音源強調装置900の構成を示すブロック図。
音源強調装置900の動作を示すフローチャート。

実施例

0028

以下、本発明の実施の形態について、詳細に説明する。なお、音源強調学習装置800、音源強調装置900も含め、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

0029

また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。

0030

まず、発明の原理について説明する。
<発明の原理>
従来の方式では、ネットワークの層の数、ノード数、ノード間の連結をヒューリスティックに決定していた。つまり、ニューラルネットワークの物理的な構造について特段の制約を設けることなく、特徴量とラベルの組を入力としてニューラルネットワークを設計(学習)していた。

0031

本願では、音源強調のための物理的なモデルを反映したニューラルネットワークの設計を行う。設計するニューラルネットワークの構造を図1に示す。図1に示すように音源強調用ニューラルネットワーク500は、目的音非負オートエンコーダ510と、雑音非負オートエンコーダ515と、相補減算ニューラルネットワーク520を含む。目的音非負オートエンコーダ510、雑音非負オートエンコーダ515は、目的音のスペクトル特性、雑音のスペクトル特性をそれぞれ独立にモデル化するニューラルネットワークである。また、相補減算ニューラルネットワーク520は、目的音PSDと雑音PSDを推定するニューラルネットワークである。

0032

なお、音源強調用ニューラルネットワーク500は、特性の異なる目的音や特性の異なる雑音が複数ある場合、それぞれの目的音・雑音に対応して複数の目的音非負オートエンコーダ510や雑音非負オートエンコーダ515を含むものであってもよい。ただし、例えば、空調雑音のモデル、テレビの音を雑音とするモデルのように複数の雑音モデルを考える代わりに、これらの雑音の加算値を用いて、1つの雑音非負オートエンコーダ515を設計するのでもよい。以下では、簡単のため、目的音非負オートエンコーダ510と雑音非負オートエンコーダ515はそれぞれ1つであるとして説明する。

0033

音源強調学習用ニューラルネットワーク500は、周波数領域混合音X(τ,ω)にビームフォーミングを適用することにより得られる目的音を強調したビームフォーミング出力信号YSのパワーφY_S(τ,ω)(以下、φY_S(τ,ω)を目的音BF出力パワーという)と、周波数領域混合音X(τ,ω)にビームフォーミングを適用することにより得られる雑音を強調したビームフォーミング出力信号YNのパワーφY_N(τ,ω)(以下、φY_N(τ,ω)を雑音BF出力パワーという)を入力とし、推定目的音PSDqS(4)、推定雑音PSD qN(4)を結合した推定PSD q(4)を出力するように構成する。ただし、Ωを周波数バンド数とし、φY_S(τ,ω)、φY_N(τ,ω)、qS(4)、qN(4)はΩ次元実数値ベクトルである。つまり、目的音BF出力パワーφY_S(τ,ω)、雑音BF出力パワーφY_N(τ,ω)は、フレームごと、周波数バンドごとに計算されるものである。

0034

音源強調用ニューラルネットワーク500の学習に用いられる学習データとして、周波数領域混合音X(τ, ω)とそれを構成する周波数領域目的音S(τ, ω)、周波数領域雑音N(τ, ω)が与えられる。周波数領域混合音学習データX(τ, ω)、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)から目的音BF出力パワーφY_S(τ,ω)、雑音BF出力パワーφY_N(τ,ω)を学習前に生成しておく。また、学習を制御する、つまりネットワークパラメータpを最適化するために用いる目的音PSDφS、雑音PSDφNもそれぞれ周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)から生成しておく。

0035

以下、目的音非負オートエンコーダ510と雑音非負オートエンコーダ515、相補減算ニューラルネットワーク520について説明する。

0036

[非負オートエンコーダによる目的音スペクトル特性、雑音スペクトル特性のモデル化]
まず、目的音のスペクトル特性、雑音のスペクトル特性をモデル化するためのニューラルネットワークである目的音非負オートエンコーダ510と雑音非負オートエンコーダ515について説明する。

0037

音源のスペクトル特性を音源分離に利用する方法に、非負値行列分解(Non-Negative Matrix Factorization)がある。非負値行列分解では、次式のように、非負のスぺクトログラムSを非負のスペクトル基底行列Bと非負のアクティベーション行列Aの積として表現する。



ここで、Ωは周波数バンド数、Υは解析する時間フレーム数、βはスペクトル基底数を表す。なお、Rは実数の集合を表す。

0038

Sを非負値行列分解する方法として、例えば、最小二乗誤差を用いる方法があり、最小二乗誤差を用いると、アクティベーション行列A、スペクトル基底行列Bを最適化することができる(参考非特許文献1)。
〔参考非特許文献1〕D. D. Lee et al, “Algorithms for non-negative matrix factorization”, Proc. NIPS 2000, pp.556-562, 2000.

0039

非負値行列分解と同様の、非負のパワースペクトルをスペクトル基底群とアクティベーション群の積に分解する考え方は、ニューラルネットワークを用いて表現することができる。全結合型DNNを用いて、目的音のスペクトル特性をモデル化する方法、つまり目的音非負オートエンコーダ510の構造について説明する。

0040

まず、目的音非負オートエンコーダ510の入力層(第1層)に目的音BF出力パワーφY_S(τ,ω)を入力する。つまり、第1層への入力をqS(1)とすると、

0041

次に、β×Ωの実数値行列である重み行列WS(2)をβ個のスペクトル基底の集合体とみなし、WS(2)に非負行列の制約を課す。つまり、



ここで、WS(2)i,jは、WS(2)の(i、j)番目の要素を表す。

0042

以下の演算により、第1層の出力、つまり第2層の入力となるβ×1の実数値行列(β次元実数値ベクトル)qS(2)を得る。



ただし、bS(2)はβ次元実数値ベクトルで表されるバイアスベクトル、f(2) (・)は次式で表されるランプ関数(ReLU)である。



ここでは、活性化関数伝達関数)の例としてランプ関数を用いるとしたが、これに限られるものではない。従来から用いられているシグモイド関数など、様々な非線形関数を用いることができる。

0043

このように計算すると、qS(2)は、1フレーム分のβ個のスペクトル基底それぞれに対するアクティベーションとみなすことができる。

0044

次に、重み行列WS(3)をWS(2)の転置行列(式(12))とし、式(13)〜(15)によりスペクトログラム復元する演算を行う。



ここで、Tは転置を表す。



ただし、bS(3)はΩ次元実数値ベクトルで表されるバイアスベクトル、f(3) (・)は式(15)で表されるランプ関数(ReLU)である。

0045

目的音非負オートエンコーダ510は、Ω×1の実数値行列(Ω次元実数値ベクトル)qS(3)(以下、qS(3)を目的音スペクトル特性ベクトルという)を出力する。非負の重み行列WS(2)、WS(3)を用いて目的音非負オートエンコーダ510を構成することは、目的音のスペクトル特性をモデル化することに対応する。

0046

ちなみに、式(12)の構造を持つニューラルネットワークを一般にオートエンコーダという(参考非特許文献2)。
〔参考非特許文献2〕岡谷貴之, “深層学習(機械学習プロフェッショナルシリーズ)”, 講談社, 2015.

0047

同様に、雑音BF出力パワーφY_N(τ,ω)についても、同様の演算を行うニューラルネットワークである非負オートエンコーダを構成することにより、雑音のスペクトル特性をモデル化することができる。雑音非負オートエンコーダ515の出力をΩ×1の実数値行列(Ω次元ベクトル)qN(3)(以下、qN(3)を雑音スペクトル特性ベクトルという)とする。

0048

[相補減算による目的音/雑音PSDの推定]
次に、目的音のスペクトル特性をモデル化した目的音非負オートエンコーダ510の出力qS(3)と雑音のスペクトル特性をモデル化した雑音非負オートエンコーダ515の出力qN(3)からウィーナーフィルタの生成に用いる目的音PSD、雑音PSDを推定するためのニューラルネットワークである相補減算ニューラルネットワーク520について説明する。

0049

第2層の出力、つまり第3層の入力である目的音スペクトル特性ベクトルqS(3)及び雑音スペクトル特性ベクトルqN(3)をq(3)=[qS(3)T, qN(3)T]Tのように結合し、第3層の出力において、目的音スペクトル特性ベクトルqS(3)に残留する雑音成分を減算することで推定目的音PSDqS(4)を生成、雑音スペクトル特性ベクトルqN(3)に残留する目的音成分を減算することで推定雑音PSD qN(4)を生成する。つまり、2Ω×2Ωの実数値行列である重み行列W(4)を相補減算するように構成することにより、推定目的音PSD qS(4)及び推定雑音PSD qN(4)を高精度に推定することを考える。

0050

対称性マイクロホンアレイや対称性ビームフォーミングを用いて受音すると、ビームフォーミングの平均的な感度Dωは目的音の到来方向とは独立に決まる。したがって、W(4)の構造も目的音の到来方向に依存せず決まるため、最適化計算収束しやすいと考えられる。

0051

一例として、W(4)の初期値Winit(4)を以下の式で設計する。



ただし、λS,ω_i、λN,ω_iは正の値、γS-N,ω_i、γN-S,ω_iは負の値(1≦i≦Ω)とする。

0052

なお、このとき、W(4)の各要素の値の範囲に関して制約を課さない。

0053

次式で第3層の出力q(4)を計算する。

0054

第3層の出力q(4)は、q(4)=[qS(4)T, qN(4)T]T(ただし、qS(4),qN(4)はΩ次元実数値ベクトル)であり、qS(4),qN(4)がそれぞれ推定目的音PSD、推定雑音PSDとなる。
[音源強調用ニューラルネットワークのネットワークパラメータの最適化]
最後に、目的音PSDφS、雑音PSDφNを用いて誤差逆伝搬法により3層の全体を最適化し、ネットワークパラメータpを最適化する。最適化は学習データの数だけ実行される。

0055

ここで、ネットワークパラメータpは、3層分の重み行列WS(2),WN(2),WS(3),WN(3),W(4)と2層分のバイアスベクトルbS(2),bN(2),bS(3),bN(3)で構成される。WS(2),WN(2)はβ×Ωの実数値行列、WS(3),WN(3) はΩ×βの実数値行列、W(4) は2Ω×2Ωの実数値行列、bS(2),bN(2) はβ次元実数値ベクトル、bS(3),bN(3) はΩ次元実数値ベクトルである。また、WS(2)とWS(3)は式(12)を、WN(2)とWN(3) は以下の関係を満たし、W(4)はその初期値が式(16)で表現される。

0056

なお、あらかじめ、目的音非負オートエンコーダ510、雑音非負オートエンコーダ515を最適化した後、第3層のパラメータであるW(4)(つまり、相補減算ニューラルネットワーク520)を誤差逆伝搬法で最適化しておいてもよい。

0057

<実施形態1>
以下、図2図3を参照して実施形態1の音源強調学習装置100を説明する。図2は、音源強調学習装置100の構成を示すブロック図である。図3は、音源強調学習装置100の動作を示すフローチャートである。図2に示すように音源強調学習装置100は、特徴量・ラベル生成部110と、事前学習部120を含む。

0058

音源強調学習装置100は、音源強調学習装置800と同様、学習データ記録部890に接続している。学習データ記録部890には、周波数領域混合音学習データX(τ, ω)、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)が記録されている。

0059

特徴量・ラベル生成部110は、周波数領域混合音学習データX(τ, ω)、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)から、特徴量とラベルを生成する(S110)。ここでは特徴量として周波数領域混合音学習データX(τ, ω)を用いる。また、ラベルには、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)から計算される目的音PSDφS、雑音PSDφNを用いる。

0060

事前学習部120は、特徴量X(τ, ω)とラベルφS、φNの組からネットワークパラメータpを学習する(S120)。以下、図4図5を参照して事前学習部120について説明する。図4は、事前学習部120の構成を示すブロック図である。図5は、事前学習部120の動作を示すフローチャートである。図4に示すように事前学習部120は、ビームフォーミング出力パワー計算部121と、ネットワークパラメータ計算部122を含む。

0061

まず、ビームフォーミング出力パワー計算部121は、特徴量X(τ, ω)から目的音BF出力パワーφY_S(τ,ω)、雑音BF出力パワーφY_N(τ,ω)を計算する(S121)。先述した通り、目的音BF出力パワーφY_S(τ,ω)は、特徴量である周波数領域混合音学習データX (τ,ω)にビームフォーミングを適用し、目的音を強調したビームフォーミング出力信号YSを生成した後、そのパワーφY_S(τ,ω)を計算すればよい。雑音BF出力パワーφY_N(τ,ω)についても同様にして求めることができる。

0062

次に、ネットワークパラメータ計算部122は、S121で計算した目的音BF出力パワーφY_S(τ,ω)、雑音BF出力パワーφY_N(τ,ω)とラベルである目的音PSDφS、雑音PSDφNからネットワークパラメータpを計算する(S122)。以下、図6図7を参照してネットワークパラメータ計算部122について説明する。図6は、ネットワークパラメータ計算部122の構成を示すブロック図である。図7は、ネットワークパラメータ計算部122の動作を示すフローチャートである。図6に示すようにネットワークパラメータ計算部122は、目的音非負オートエンコーダ計算部126と、雑音非負オートエンコーダ計算部127と、相補減算ニューラルネットワーク計算部128と、ネットワークパラメータ最適化部129を含む。

0063

まず、目的音非負オートエンコーダ計算部126は、音源強調用ニューラルネットワークの目的音非負オートエンコーダ510に対応するものであり、目的音BF出力パワーφY_S(τ,ω)から目的音スペクトル特性ベクトルqS(3)を計算する(S126)。同様に、雑音非負オートエンコーダ計算部127は、音源強調用ニューラルネットワークの雑音非負オートエンコーダ515に対応するものであり、雑音BF出力パワーφY_N(τ,ω)から雑音スペクトル特性ベクトルqN(3)を計算する(S127)。

0064

次に、相補減算ニューラルネットワーク計算部128は、音源強調用ニューラルネットワークの相補減算ニューラルネットワーク520に対応するものであり、S126で計算した目的音スペクトル特性ベクトルqS(3)とS127で計算した雑音スペクトル特性ベクトルqN(3)から推定目的音PSDqS(4) と推定雑音PSD qN(4)を計算する(S128)。

0065

最後に、ネットワークパラメータ最適化部129は、S128で計算した推定目的音PSDqS(4) と推定雑音PSD qN(4)とS110で計算した目的音PSDφS、雑音PSDφNを用いて、ネットワークパラメータpを最適化する(S129)。<発明の原理>で説明したように、ネットワークパラメータpは、3層分の重み行列WS(2),WN(2),WS(3),WN(3),W(4)と2層分のバイアスbS(2),bN(2),bS(3),bN(3)から構成される。

0066

S121〜S129の処理は学習データの数だけ繰り返される。

0067

なお、目的音非負オートエンコーダ計算部126と雑音非負オートエンコーダ計算部127は、例えば、特性の異なる目的音の音源数、雑音の音源数に応じてそれぞれ複数あってもよい。

0068

本実施形態の発明によれば、物理的な制約を導入したニューラルネットワーク、具体的には目的音のスペクトル特性、雑音のスペクトル特性を独立にモデル化する非負オートエンコーダ部と、推定目的音PSDと推定雑音PSDを生成するための相補減算ニューラルネットワークから構成される音源強調用ニューラルネットワークを、(大量の)音声データ、つまり周波数領域混合音学習データ、周波数領域目的音学習データ、周波数領域雑音学習データの組を用いて学習することにより、高精度かつ安定的に目的音PSD、雑音PSDを推定することが可能となる。また、当該推定した目的音PSD、雑音PSDを用いることにより、高精度かつ安定的にウィーナーフィルタを生成することが可能となる。

0069

<実施形態2>
実施形態1では、周波数領域混合音学習データX(τ, ω)、周波数領域目的音学習データS(τ, ω)、周波数領域雑音学習データN(τ, ω)の組から音源強調用ニューラルネットワークのネットワークパラメータpを学習する方法について説明した。ここでは、実施形態1で学習したネットワークパラメータpを用いて、マイクロホン収音した観測信号から強調音を生成する方法について説明する。これにより、観測信号中の目的音を音源強調した強調音を出力することが可能となる。

0070

なお、ここで用いるネットワークパラメータpの値は、実施形態1の音源強調学習装置100による学習終了時のpの値である。

0071

以下、図8図9を参照して音源強調装置200を説明する。図8は、音源強調装置200の構成を示すブロック図である。図9は、音源強調装置200の動作を示すフローチャートである。図8に示すように音源強調装置200は、周波数領域変換部910と、ウィーナーフィルタ推定部220と、信号強調部230と、時間領域変換部940を含む。

0072

音源強調装置200は、音源強調装置900と同様、学習結果記録部990に接続している。学習結果記録部990には上述の学習終了時のネットワークパラメータpの値が記録されている。

0073

周波数領域変換部910は、時間領域混合音である観測信号x(t)を周波数領域変換し、周波数領域観測信号X(τ, ω)を生成する(S910)。

0074

ウィーナーフィルタ推定部220は、学習結果記録部990から読み出したネットワークパラメータpを用いて、周波数領域観測信号X(τ, ω)からウィーナーフィルタG(τ, ω)を生成する(S220)。以下、図10図11を参照してウィーナーフィルタ推定部220について説明する。図10は、ウィーナーフィルタ推定部220の構成を示すブロック図である。図11は、ウィーナーフィルタ推定部220の動作を示すフローチャートである。図10に示すようにウィーナーフィルタ推定部220は、ビームフォーミング出力パワー計算部121と、目的音非負オートエンコーダ部221と、雑音非負オートエンコーダ部222と、相補減算部223と、ウィーナーフィルタ計算部224を含む。

0075

まず、ビームフォーミング出力パワー計算部121は、周波数領域観測信号X(τ, ω)から目的音BF出力パワーφY_S(τ,ω)、雑音BF出力パワーφY_N(τ,ω)を計算する(S121)。

0076

次に、目的音非負オートエンコーダ部221は、S121で計算した目的音BF出力パワーφY_S(τ,ω)を第1層の入力qS(1)から目的音スペクトル特性ベクトルqS(3)を計算する(S221)。目的音非負オートエンコーダ部221は、学習終了時のネットワークパラメータp(重み行列WS(2),WS(3)とバイアスベクトルbS(2),bS(3)))が設定されている点においてのみ目的音非負オートエンコーダ計算部126と異なる。

0077

同様に、雑音非負オートエンコーダ部222は、S121で計算した雑音BF出力パワーφY_N(τ,ω)を第1層の入力qN(1)から雑音スペクトル特性ベクトルqN(3)を計算する(S222)。雑音非負オートエンコーダ部222は、学習終了時のネットワークパラメータp(重み行列WN(2),WN(3)とバイアスベクトルbN(2),bN(3))が設定されている点においてのみ雑音非負オートエンコーダ計算部127と異なる。

0078

次に、相補減算部223は、S221、S222で計算した目的音スペクトル特性ベクトルqS(3)、雑音スペクトル特性ベクトルqN(3)から推定目的音PSDqS(4),推定雑音PSD qN(4)を計算する(S223)。相補減算部223は、学習終了時のネットワークパラメータp(重み行列W(4))が設定されている点においてのみ相補減算ニューラルネットワーク計算部128と異なる。

0079

最後に、ウィーナーフィルタ計算部224は、S223で計算した推定目的音PSDqS(4),推定雑音PSD qN(4)からウィーナーフィルタG(τ, ω)を計算する(S224)。

0080

信号強調部230は、周波数領域観測信号X(τ, ω)とS220で推定したウィーナーフィルタG(τ, ω)から次式により信号強調(音源強調)を実行し、周波数領域強調音^S(τ, ω)を生成する(S230)。

0081

時間領域変換部940は、周波数領域強調音^S(τ, ω)から時間領域での推定音源信号である強調音^s(t)を生成する(S940)。

0082

なお、目的音非負オートエンコーダ部221と雑音非負オートエンコーダ部222は、目的音非負オートエンコーダ計算部126と雑音非負オートエンコーダ計算部127と同様複数あってもよく、この場合それぞれ同数含むことになる。

0083

本実施形態の発明によれば、観測信号中の目的音を音源強調した強調音を高精度かつ安定的に出力することが可能となる。

0084

<変形例>
実施形態1では、混合音を対象に音源強調処理を行うために、音源強調処理のアルゴリズムを反映した物理的構造を有するニューラルネットワークを学習した。ここでは、音源強調に最終的に必要になるウィーナーフィルタの代わりに、潜在変数である目的音スペクトル特性ベクトルを出力するニューラルネットワーク、雑音スペクトル特性ベクトルを出力するニューラルネットワーク、推定目的音PSD・推定雑音PSDを出力するニューラルネットワークをそれぞれ学習することにより、音源強調処理のアルゴリズムの特徴をニューラルネットワークの物理的構造として取り入れ、高精度かつ安定的に音源強調処理することができるニューラルネットワークを学習した。

0085

同様に、音響信号を対象にした音源強調以外の処理、画像信号を対象とした処理に加えて、電波や光波を電気信号に変換した信号全般を対象とした処理についても各処理アルゴリズムが途中段階で生成するベクトル(途中段階推定処理結果)を出力するニューラルネットワークを構成し、これらのニューラルネットワークを部品として最終的な処理結果(推定処理結果)を得るようなニューラルネットワークを構成することができる。このようにすることにより、各処理アルゴリズムに対応するニューラルネットワークを構成することができ、当該ニューラルネットワークは高精度かつ安定的に各処理を実行することができる。

0086

補記
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

0087

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。

0088

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。

0089

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

0090

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能コンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

0091

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置光ディスク光磁気記録媒体半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置フレキシブルディスク磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。

0092

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体販売譲渡貸与等することによって行う。さらに、このプログラムをサーバコンピュータ記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

0093

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。

0094

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

0095

100音源強調学習装置
110 特徴量・ラベル生成部
120事前学習部
121ビームフォーミング出力パワー計算部
122ネットワークパラメータ計算部
126目的音非負オートエンコーダ計算部
127雑音非負オートエンコーダ計算部
128 相補減算ニューラルネットワーク計算部
129 ネットワークパラメータ最適化部
200 音源強調装置
220ウィーナーフィルタ推定部
221 目的音非負オートエンコーダ部
222 雑音非負オートエンコーダ部
223 相補減算部
224 ウィーナーフィルタ計算部
230 信号強調部
800 音源強調学習装置
810 特徴量・ラベル生成部
820 事前学習部
890 学習データ記録部
900 音源強調装置
910周波数領域変換部
920バイナリマスク推定部
930 信号強調部
940時間領域変換部
990学習結果記録部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ