図面 (/)

技術 ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法

出願人 三菱電機株式会社
発明者 エルドガン、ハカンハーシェイ、ジョン渡部晋治ル・ルー、ジョナサン
出願日 2015年10月8日 (3年3ヶ月経過) 出願番号 2017-515359
公開日 2017年7月27日 (1年5ヶ月経過) 公開番号 2017-520803
状態 特許登録済
技術分野 音声の分析・合成 可聴帯域変換器の回路等
主要キーワード 反復形式 推定振幅 領域スペクトル 予測位相 後方伝搬 フィードフォワードニューラルネットワーク ターゲットマスク ターゲットクラス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年7月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題・解決手段

方法は、まず、環境からノイズを有するオーディオ信号を取得することによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する。ノイズを有するオーディオ信号は、ネットワークパラメーターを有するエンハンスメントネットワークによって処理され、大きさマスク及び位相推定値共同で生成される。次に、大きさマスク及び位相推定値を用いて、エンハンスドオーディオ信号を得る。

概要

背景

音声強調(speech enhancement(音声エンハンスメント))において、目標は、或る意味において、基礎をなす真の「クリーン音声」又は「ターゲット音声」により近い、ノイズを有する音声の処理されたバージョンである「エンハンスド音声(enhanced speech(強調された音声))」を得ることである。

クリーンな音声は、トレーニング中にのみ利用可能であり、システム現実世界での使用中は利用可能でないことが想定されていることに留意されたい。トレーニングの場合、クリーンな音声は接話マイクロフォンを用いて得ることができるのに対し、ノイズを有する音声は、同時に記録される遠距離場用マイクロフォンを用いて得ることができる。又は、クリーンな音声信号及びノイズ信号別個に与えられる場合、これらの信号を共に合算して、ノイズを有する音声信号を得ることができ、この場合、クリーンな音声信号及びノイズを有する音声信号の対を共にトレーニングに用いることができる。

音声強調及び音声認識は、互いに異なるものの、関連する問題とみなすことができる。良好な音声強調システムは、音声認識システムに対する入力モジュールとして確かに用いることができる。逆に、音声認識により、更なる情報が組み込まれるので、音声認識が音声強調を改善するために用いられる場合がある。一方、強調タスク及び認識タスクの双方のために、マルチタスクリカレントニューラルネットワークシステムをどのように共同構築するかは明らかでない。

本明細書において、音声強調を、「ノイズを有する音声」から「エンハンスド音声」を得る問題と呼ぶ。他方で、音声分離という用語は、「ターゲット音声」を背景信号から分離することを指す。ここで、背景信号は、任意の他の非音声オーディオ信号、又は更には、関心対象でない他の非ターゲット音声信号とすることができる。本発明では、全ての背景信号の組合せをノイズとみなすので、音声強調という用語の使用は、音声分離をも含有する。

音声分離及び音声強調の用途において、処理は通常、短時間フーリエ変換(STFT:short-time Fourier transform)領域において行われる。STFTは、信号の複素領域スペクトル−時間(又は時間−周波数表現を得る。観測されるノイズを有する信号のSTFTは、ターゲット音声信号のSTFTと、ノイズ信号のSTFTとの和として書くことができる。信号のSTFTは複素数であり、和は複素領域内にある。一方、従来の方法では、位相は無視され、観測される信号のSTFTの大きさが、ターゲット音声信号及びノイズ信号のSTFTの大きさの和に等しいと仮定されるが、これは粗い仮定である。このため、従来技術における焦点は、ノイズを有する音声信号を入力として与えられて、「ターゲット音声」の大きさを予測することであった。ノイズを有する信号の位相は、そのSTFTから時間領域がエンハンスド信号を再構成する間、エンハンスド音声のSTFTの推定位相として用いられる。これは通例、エンハンスド音声の位相の最小平均二乗誤差MMSE:minimum mean square error)推定値がノイズを有する信号の位相であることを示すことによって正しいと判断される。

概要

方法は、まず、環境からノイズを有するオーディオ信号を取得することによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する。ノイズを有するオーディオ信号は、ネットワークパラメーターを有するエンハンスメントネットワークによって処理され、大きさマスク及び位相推定値が共同で生成される。次に、大きさマスク及び位相推定値を用いて、エンハンスドオーディオ信号を得る。

目的

本発明の実施形態は、ノイズを有する音声信号をエンハンスド音声信号に変換する方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ノイズを有するオーディオ信号エンハンスドオーディオ信号に変換する方法であって、環境から前記ノイズを有するオーディオ信号を取得するステップと、ネットワークパラメーターを有するエンハンスメントネットワークによって前記ノイズを有するオーディオ信号を処理して、大きさマスク及び位相推定値共同で生成するステップと、前記大きさマスク及び前記位相推定値を用いて、前記エンハンスドオーディオ信号を得るステップとを含み、前記ステップはプロセッサが実行する、方法。

請求項2

前記エンハンスメントネットワークは、双方向長期短期記憶BLSTM深層リカレントニューラルネットワーク(DRNN)である、請求項1に記載の方法。

請求項3

前記エンハンスメントネットワークは、前記ノイズを有するオーディオ信号の振幅及び位相における誤差を含む複素スペクトルにおける誤差に基づく位相敏感目的関数を用いる、請求項1に記載の方法。

請求項4

前記位相推定値は、前記エンハンスメントネットワークを通じて直接得られる、請求項1に記載の方法。

請求項5

前記位相推定値は、複素値マスクを用いて前記ノイズを有するオーディオ信号の振幅と共同で得られる、請求項1に記載の方法。

技術分野

0001

本発明は、オーディオ信号を処理することに関し、より詳細には、信号の位相を用いてノイズを有するオーディオ音声信号を強調する(enhancing)ことに関する。

背景技術

0002

音声強調(speech enhancement(音声エンハンスメント))において、目標は、或る意味において、基礎をなす真の「クリーン音声」又は「ターゲット音声」により近い、ノイズを有する音声の処理されたバージョンである「エンハンスド音声(enhanced speech(強調された音声))」を得ることである。

0003

クリーンな音声は、トレーニング中にのみ利用可能であり、システム現実世界での使用中は利用可能でないことが想定されていることに留意されたい。トレーニングの場合、クリーンな音声は接話マイクロフォンを用いて得ることができるのに対し、ノイズを有する音声は、同時に記録される遠距離場用マイクロフォンを用いて得ることができる。又は、クリーンな音声信号及びノイズ信号別個に与えられる場合、これらの信号を共に合算して、ノイズを有する音声信号を得ることができ、この場合、クリーンな音声信号及びノイズを有する音声信号の対を共にトレーニングに用いることができる。

0004

音声強調及び音声認識は、互いに異なるものの、関連する問題とみなすことができる。良好な音声強調システムは、音声認識システムに対する入力モジュールとして確かに用いることができる。逆に、音声認識により、更なる情報が組み込まれるので、音声認識が音声強調を改善するために用いられる場合がある。一方、強調タスク及び認識タスクの双方のために、マルチタスクリカレントニューラルネットワークシステムをどのように共同構築するかは明らかでない。

0005

本明細書において、音声強調を、「ノイズを有する音声」から「エンハンスド音声」を得る問題と呼ぶ。他方で、音声分離という用語は、「ターゲット音声」を背景信号から分離することを指す。ここで、背景信号は、任意の他の非音声オーディオ信号、又は更には、関心対象でない他の非ターゲット音声信号とすることができる。本発明では、全ての背景信号の組合せをノイズとみなすので、音声強調という用語の使用は、音声分離をも含有する。

0006

音声分離及び音声強調の用途において、処理は通常、短時間フーリエ変換(STFT:short-time Fourier transform)領域において行われる。STFTは、信号の複素領域スペクトル−時間(又は時間−周波数表現を得る。観測されるノイズを有する信号のSTFTは、ターゲット音声信号のSTFTと、ノイズ信号のSTFTとの和として書くことができる。信号のSTFTは複素数であり、和は複素領域内にある。一方、従来の方法では、位相は無視され、観測される信号のSTFTの大きさが、ターゲット音声信号及びノイズ信号のSTFTの大きさの和に等しいと仮定されるが、これは粗い仮定である。このため、従来技術における焦点は、ノイズを有する音声信号を入力として与えられて、「ターゲット音声」の大きさを予測することであった。ノイズを有する信号の位相は、そのSTFTから時間領域がエンハンスド信号を再構成する間、エンハンスド音声のSTFTの推定位相として用いられる。これは通例、エンハンスド音声の位相の最小平均二乗誤差MMSE:minimum mean square error)推定値がノイズを有する信号の位相であることを示すことによって正しいと判断される。

発明が解決しようとする課題

0007

本発明の実施形態は、ノイズを有する音声信号をエンハンスド音声信号に変換する方法を提供する。

課題を解決するための手段

0008

ノイズを有する音声は、自動音声認識ASR:automatic speech recognition)システムによって処理され、ASR特徴が生成される。ASR特徴は、ノイズを有する音声スペクトル特徴と組み合わされ、トレーニングプロセス中に学習されたネットワークパラメーターを用いて深層リカレントニューラルネットワーク(DRNN:Deep Recurrent Neural Network)に渡され、マスクが生成される。このマスクは、ノイズを有する音声に適用され、エンハンスド音声が生成される。

0009

音声は、短時間フーリエ変換(STFT)領域において処理される。ノイズを有する音声からエンハンスド音声のSTFTの大きさを計算するための様々な方法が存在するが、本発明では、深層リカレントニューラルネットワーク(DRNN)に基づく手法に焦点を当てる。これらの手法は、ノイズを有する音声信号のSTFTから得られた特徴を入力として用いて、出力において、エンハンスド音声信号のSTFTの大きさを得る。これらのノイズを有する音声信号特徴は、スペクトルの大きさ、スペクトルのパワー又はそれらの対数、ノイズを有する信号のSTFTから得られた対数メルフィルタバンク(log-mel-filterbank)特徴とすることができるか、又は他の同様なスペクトル時間特徴を用いることができる。

0010

本発明によるリカレントニューラルネットワークベースのシステムでは、リカレントニューラルネットワークは、ノイズを有する音声信号のSTFTを直接乗算してエンハンスド信号のSTFTを得る、「マスク」又は「フィルタ」を予測する。「マスク」は、時間−周波数ビンごとにゼロと1との間の値を有し、理想的には、音声成分ノイズ成分との大きさの和によって除算された音声の大きさの比である。この「理想的なマスク」は、システムの実際の使用中は未知であるが、トレーニング中に利用可能である、理想的な比のマスク(ideal ratio mask)と呼ばれる。実数値のマスク(real-valued mask)は、ノイズを有する信号のSTFTを乗算するので、エンハンスド音声は、結果として、デフォルトでノイズを有する信号のSTFTの位相を用いることになる。当該マスクをノイズを有する信号のSTFTの大きさ部分に適用するとき、当該マスクがノイズを有する入力の大きさ部分にのみ適用されることを示すために、このマスクを「大きさマスク」と呼ぶ。

0011

ニューラルネットワークトレーニングは、「ネットワークパラメーター」を用いてネットワークによって得られる、クリーンな音声ターゲットとエンハンスド音声との間の差を量子化する目的関数を最小にすることによって実行される。トレーニング手順は、ニューラルネットワークの出力をクリーンな音声ターゲットに最も近付けるネットワークパラメーターを決定することを目的とする。ネットワークトレーニングは、通常、通時的後方伝搬(BPTT:backpropagation through time)アルゴリズムを用いて行われる。BPTTアルゴリズムは、各反復において、ネットワークのパラメーターに関する目的関数の勾配の計算を必要とする。

0012

本発明では、深層リカレントニューラルネットワーク(DRNN)を用いて音声強調を行う。DRNNは、低レイテンシ(low latency)(オンライン)用途の場合は、長期短期記憶(LSTM:long short-term memory)ネットワークとすることができるか、又はレイテンシが問題とならない場合、双方向長期短期記憶(BLSTM:bidirectional long short-term memory)ネットワークDRNNとすることができる。深層リカレントニューラルネットワークは、ゲートRNN又はクロックワークRNN(clockwork RNN)等の他の最新のRNNタイプとすることもできる。

0013

別の実施形態では、オーディオ信号の大きさ及び位相は、推定プロセス中に検討される。位相を意識した処理は、幾つかの異なる態様、すなわち、
いわゆる位相敏感信号近似(PSA:phase-sensitive signal approximation)技法において、ターゲットとなる大きさのみを予測しながら、目的関数において位相情報を用いることと、
大きさ及び位相の双方のより良好な予測を可能にする適切な目的関数を利用して、深層リカレントニューラルネットワークを用いて、エンハンスド信号の大きさ及び位相の双方を予測することと、
入力の位相を、大きさ及び位相を予測するシステムへの追加の入力として用いることと、
深層リカレントニューラルネットワークにおいて、マイクロフォンアレイ等のマルチチャネルオーディオ信号の全ての大きさ及び位相を用いることと、
を含む。

0014

この着想は、他のタイプのオーディオ信号の強調(エンハンスメント)に適用されることに留意されたい。例えば、オーディオ信号は、認識のタスクが音楽トランスクリプション(music transcription)である、音楽信号、又は認識のタスクが動物の声を様々なカテゴリ分類することであり得る、動物の声、及び認識のタスクが或る特定の音を出す事象及び/又は物を検出し区別することであり得る、環境音を含むことができる。

図面の簡単な説明

0015

ノイズを有する音声信号を、ASR特徴を用いてエンハンスド音声信号に変換する方法の流れ図である。
図1の方法のトレーニングプロセスの流れ図である。
共同の音声認識及び音声強調の方法の流れ図である。
位相情報を予測し、大きさマスクを用いることによって、ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法の流れ図である。
図4の方法のトレーニングプロセスの流れ図である。

実施例

0016

図1は、ノイズを有する音声信号(noisy speech signal)112をエンハンスド音声信号(enhanced speech signal)190に変換する方法を示す。すなわち、変換によりノイズを有する音声を強調(enhance(エンハンス))する。本明細書に記載される全ての音声及びオーディオ信号は、環境102から単一の又は複数のマイクロフォン101によって取得される単一チャネル又はマルチチャネルとすることができ、例えば、環境は、1又は複数の人物、動物、楽器等の複数のソースからのオーディオ入力を有し得る。本発明の課題の場合、ソースのうちの1つは、「ターゲットオーディオ」(多くの場合、「ターゲット音声」)であり、オーディオの他のソースは背景とみなされる。

0017

オーディオ信号が音声である場合、ノイズを有する音声は、自動音声認識(ASR:automatic speech recognition)システム170によって処理され、例えば、「アライメント情報ベクトル」の形態でASR特徴180が生成される。ASRは従来型とすることができる。ノイズを有する音声のSTFT特徴と組み合わされたASR特徴は、ネットワークパラメーター140を用いて深層リカレントニューラルネットワーク(DRNN:Deep Recurrent Neural Network)150によって処理される。パラメーターは、以下に説明するトレーニングプロセスを用いて学習することができる。

0018

DRNNはマスク160を生成する。次に、音声推定165中、マスクがノイズを有する音声に適用され、エンハンスド音声190が生成される。以下で説明されるように、強調ステップ及び認識ステップを反復することが可能である。すなわち、エンハンスド音声が得られた後、エンハンスド音声を用いて、より良好なASR結果を得ることができ、そして、そのASR結果を、以下の反復中に新たな入力として用いることができる。反復は、終了条件に達するまで、例えば、予め設定された反復回数に達するまで、又は、現在のエンハンスド音声と以前の反復から得られたエンハンスド音声との間の差が予め設定された閾値未満になるまで、継続することができる。

0019

本方法は、当該技術分野において既知のようにバスによってメモリ及び入出力インターフェースに接続されたプロセッサ100において実行することができる。

0020

図2は、トレーニングプロセスの要素を示す。ここで、ノイズを有する音声及び対応するクリーンな音声111がデータベース110に記憶される。目的関数(「コスト関数」又は「誤差関数」と呼ばれる場合がある)が決定される(120)。目的関数は、エンハンスド音声とクリーンな音声との間の差を量子化する。トレーニング中に目的関数を最小にすることによって、ネットワークは、クリーンな信号に類似するエンハンスド信号を生成することを学習する。目的関数は、DRNNトレーニング130を実行してネットワークパラメーター140を決定するのに用いられる。

0021

図3は、共同認識(joint recognition)及び強調(enhancement)を実行する方法の要素を示す。ここで、共同目的関数320は、クリーンな音声信号111及びエンハンスド音声信号190及び基準テキスト113、すなわち認識された音声と、生成された認識結果355との間の差を測定する。この場合、共同認識及びエンハンスメントネットワーク(enhancement network)350は、認識結果355も生成し、この認識結果355は、共同目的関数を決定する(320)のにも用いられる。認識結果は、ASR状態、音素又は単語シーケンス等の形態をとることができる。

0022

共同目的関数は、強調及び認識タスクの目的関数の重み付けされた和である。強調タスクの場合、目的関数は、マスク近似(MA:mask approximation)、大きさスペクトル近似(MSA:magnitude spectrum approximation)又は位相敏感スペクトル近似(PSA:phase-sensitive spectrum approximation)とすることができる。認識タスクの場合、目的関数は、単に、状態若しくは音素をターゲットクラスとして用いる交差エントロピーコスト関数とすることができるか、又は場合によっては、仮説ラティス(hypothesis lattice)を用いて計算される最小音素誤りMPE:minimum phone error)、ブーストされた最大相互情報(BMMI:boosted maximum mutual information)等の一連弁別的目的関数とすることができる。

0023

代替的に、認識結果355及びエンハンスド音声190は、破線で示されるように、共同認識及びエンハンスメントモジュール350への追加の入力としてフィードバックすることができる。

0024

図4は、エンハンスドオーディオ信号の推定位相455及び大きさマスク460を出力するエンハンスメントネットワーク(DRNN)450を用いる方法を示す。この方法は、その大きさ及び位相の双方から導出されたノイズを有するオーディオ信号412の特徴を入力としてとり、予測位相455及び大きさマスク460を用いてエンハンスドオーディオ信号490を得る(465)。ノイズを有するオーディオ信号は、環境402から1つ又は複数のマイクロフォン401によって取得される。次に、エンハンスドオーディオ信号490が、位相及び大きさマスクから得られる(465)。

0025

図5は、相当するトレーニングプロセスを示す。この場合、エンハンスメントネットワーク450は、位相敏感目的関数を用いる。全てのオーディオ信号は、信号の大きさ及び位相を用いて処理され、目的関数420も位相敏感であり、すなわち、目的関数は複素領域差を用いる。位相予測及び位相敏感目的関数は、エンハンスドオーディオ信号490における信号対雑音比(SNR)を改善する。

0026

詳細
モデルベース音声分離システム言語モデル統合された。フィードフォワードニューラルネットワークは、確率モデル対照的に、入力から出力への1つの方向においてのみ情報フロー(information flow)をサポートする。

0027

本発明は、一部には、音声エンハンスメントネットワークが、認識された状態シーケンスから利益を得ることができ、認識システムが音声強調システムの出力から利益を得ることができるという認識に基づく。完全に統合されたシステムがない場合、双方のタスクにおける利益を得るために、強調と認識とを交互に行うシステムを構想することができる。

0028

したがって、第1のパスの間、ノイズを有する音声に対しトレーニングされるノイズにロバスト認識器(noise-robust recognizer)を用いる。認識される状態シーケンスは、ノイズを有する音声特徴と組み合わされ、エンハンスド音声を再構成するようにトレーニングされたリカレントニューラルネットワークへの入力として用いられる。

0029

最新の音声認識システムは、複数のレベルにおける言語情報を利用する。言語モデルは、単語シーケンスの確率を見つける。単語は、手作業で作成された又は学習された語彙ルックアップテーブルを用いて音素シーケンス(phoneme sequence)にマッピングされる。音素は、左から右に遷移する3状態隠れマルコフモデル(HMM:hidden Markov model)としてモデル化される。ここで、各状態分布は、通常、コンテキストに依拠し、基本的には、左から右に遷移する音素のコンテキストウィンドウ内にどの音素が存在するかに依拠する。

0030

HMM状態は、異なる音素及びコンテキストにわたって連結することができる。これは、コンテキストに依拠するツリーを用いて達成することができる。フレームレベルで認識出力情報を組み込むことは、対象のフレームへの様々なレベルの言語単位アライメントを用いて行うことができる。

0031

したがって、本発明では、音声認識問題と、音声強調問題とを統合する。1つのアーキテクチャは、強調される入力のフレームごとに音声認識器から受信されるフレームレベルのアラインされた状態シーケンス又はフレームレベルのアラインされた音素シーケンスの情報を用いる。アライメント情報は、単語レベルのアライメントとすることもできる。

0032

アライメント情報は、LSTMネットワークの入力に加えられる追加の特徴として提供される。アライメント情報の様々なタイプの特徴を用いることができる。例えば、フレームレベル状態又は音素を示すのに1ホット表現(1-hot representation)を用いることができる。コンテキストに依拠した状態について終了すると、これによって、より大きなベクトルが得られ、これは学習に課題を課す可能性がある。状態又は音素ごとに、トレーニングデータから計算されたスペクトル特徴を平均化することによって導出される連続特徴を用いることもできる。これによって、より短い入力表現が得られ、各状態の或る種の類似性が保持されたコーディングがもたらされる。情報がノイズを有するスペクトル入力と同じ領域内にある場合、この情報は、ネットワークが音声強調マスクを見つける際に用いるのがより容易になり得る。

0033

本発明の別の態様は、次の段階における入力として、2つのシステムからのフィードバックを有することである。このフィードバックは、性能を更に改善するための「反復形式(iterative fashion)」で実行することができる。

0034

マルチタスク学習において、目標は、異なる目的について同時に、「良好な」特徴を一斉に学習する構造を構築することである。目標は、目的を学習することによって別個のタスクに対する性能を改善することである。

0035

大きさ予測のための位相敏感目的関数
BLSTM−DRNN450によって用いられる目的関数に対する改善を説明する。通常、従来技術において、ネットワークは、ノイズを有するオーディオスペクトルに適用されるフィルタ又は周波数領域マスクを推定し、クリーンな音声スペクトルの推定値を生成する。目的関数は、オーディオ推定値とクリーンなオーディオターゲットとの間の振幅スペクトル領域における誤差を求める。再構成されたオーディオ推定は、ノイズを有するオーディオ信号の位相を保持する。

0036

しかしながら、ノイズを有する位相が用いられるとき、位相誤差振幅インタラクトし、SNRの観点における最良の再構成が、クリーンなオーディオ振幅と異なる振幅で得られる。ここで、複素スペクトルにおける誤差に基づいて、振幅及び位相誤差の双方を含む位相敏感目的関数を直接用いることを検討する。これにより、推定振幅がノイズを有する位相の使用を補償することが可能になる。

0037

時間周波数マスクを用いた分離
時間周波数フィルタリング方法は、ノイズを有するオーディオの周波数領域特徴表現を乗算するフィルタ又はマスキング機能を推定して、クリーンなオーディオ信号の推定値を形成する。本発明では、時間領域信号のウィンドウ付きフレームの離散フーリエ変換により得られたノイズを有するオーディオの複素短時間スペクトルyf,t、ノイズnf,t及びオーディオsf,tを定義する。以後、f、tによるインデックス付けを省いて、単一の時間周波数ビンについて検討する。

0038

推定マスキング関数



と仮定すると、クリーンなオーディオは、



として推定される。トレーニング中、クリーンなオーディオ信号及びノイズを有するオーディオ信号が提供され、マスキング関数のための推定量



歪み尺度



によってトレーニングされる。ここで、θは位相を表す。

0039

様々な目的関数、例えば、マスク近似(MA:mask approximation)及び信号近似(SA:signal approximation)を用いることができる。MA目的関数は、y及びsを用いてターゲットマスクを計算し、次に、推定マスクとターゲットマスクとの間の誤差を以下のように測定する。

0040

SA目的関数は、フィルタリングされた信号と、ターゲットのクリーンなオーディオとの間の誤差を以下のように測定する。

0041

様々な「理想的な(ideal)」マスクがMA手法においてa*のために用いられている。最も一般的なのは、いわゆる「理想バイナリマスク」(IBM:ideal binary mask)及び「理想比マスク」(IRM:ideal ratio mask)である。

0042

オーディオ推定値



を計算するための様々なマスキング関数a、aに関するそれらの公式、及び、最適性の条件は、以下の通りである。IBMにおいて、式xが真である場合、δ(x)は1であり、そうでない場合、0である。

0043

ソース分離及び強調のための位相予測
ここで、オーディオソース分離及びオーディオソース強調の用途において位相を大きさと共に予測する方法を説明する。このセットアップは、ニューラルネットワークWを、ターゲット信号の大きさ及び位相の予測を行うために用いることを含む。(1組の)混合した(又はノイズを有する)信号y(τ)を仮定する。信号y(τ)は、異なるソースからのターゲット信号(又はソース)s*(τ)及び他の背景信号の和である。本発明では、y(τ)からs*(τ)を復元する。yt,f及び



がそれぞれ、y(τ)及びs*(τ)の短時間フーリエ変換を表すものとする。

0044

単純な手法(Naive Approach)
単純な手法において、



であり、ここで、



はトレーニング中に既知であるクリーンなオーディオ信号であり、



は、ノイズを有する信号の大きさ及び位相y=[yt,f]t,f∈Bからのネットワークの予測値であり、すなわち、



である。ここで、Wはネットワークの重みであり、Bは全ての時間−周波数インデックスの組である。ネットワークは、



を、極表記において、



として表すことができるか、又は複素表記において、



として表すことができる。ここで、Reは実数部であり、Imは虚数部である。

0045

複素フィルタ手法(Complex Filter Approach)
多くの場合、ノイズを有するオーディオ信号を適用するフィルタを推定した方がよい可能性がある。なぜなら、信号がクリーンである場合、フィルタは1(unity)になることができ、それによって、入力信号出力信号の推定値



となるためである。ここで、at,fは、クリーンな信号及びノイズを有する信号の振幅間の比を表すネットワークによって推定される実数である。本発明では、



を含める。ここで、φt,fは、クリーンな信号及びノイズを有する信号の位相間の差の推定値である。これを、複素フィルタ



として書くこともできる。入力が概ねクリーンであるとき、at,fは1(unity)に近く、φt,fはゼロに近く、それによって、複素フィルタht,fは1(unity)に近い。

0046

結合手
複素フィルタ手法は、信号がクリーンに近いときに最も良好に機能するが、信号のノイズが多いとき、システムは、ノイズを有する信号とクリーンな信号との間の差を推定しなくてはならない。この場合、クリーンな信号を直接推定した方がよい場合がある。これに動機付けられて、本発明では、ソフトゲートαt,fによって、ネットワークにどの方法を用いるか決定させることができる。ソフトゲートαt,fは、ネットワークの別の出力であり、ゼロと1との間の値をとり、時間−周波数出力



ごとに単純なフィルタ手法及び複素フィルタ手法の線形結合を選択するのに用いられる。ここで、ノイズを有する信号がクリーンな信号に概ね等しいとき、αt,fは、通常、1(unity)に設定され、rt,f、θt,fは、クリーンな信号の振幅及び位相のネットワークの最良の推定値を表す。この場合、ネットワークの出力は、



である。ここで、Wはネットワークにおける重みである。

0047

単純化された結合手法
結合手法は過度に多くのパラメーターを有する可能性があり、これは望ましくない場合がある。本発明では、結合手法を以下のように単純化することができる。αt,f=1であるとき、ネットワークは入力を出力に直接渡し、それによって、マスクを推定する必要がなくなる。このため、αt,f=1であるとき、マスクを1(unity)に設定し、マスクパラメータ



を省く。ここでもまた、ノイズを有する信号がクリーンな信号に概ね等しいとき、αt,fは、通常、1(unity)に設定され、αt,fが1(unity)でないとき、以下を求める。



これは、αt,fyt,fと



との間の差のネットワークの最良の推定値を表す。この場合、ネットワークの出力は、



である。ここで、Wは、ネットワークにおける重みである。結合手法及び単純化された結合手法の双方が、冗長な表現であり、同じ推定値が得られる複数組のパラメーターが存在し得ることに留意されたい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

  • ヤフー株式会社の「 生成装置、生成方法および生成プログラム」が 公開されました。( 2018/12/06)

    【課題】利用者の意図を反映させた応答を出力する生成装置、生成方法および生成プログラムを提供する。【解決手段】本生成装置は、利用者から受付けた発話から所定の条件を満たす文字列を抽出できるか否かを判定する... 詳細

  • 三菱電機株式会社の「 音声強調装置、音声強調方法、及び音声処理プログラム」が 公開されました。( 2018/12/06)

    【課題・解決手段】音声強調装置は、入力信号から音声の基本周波数(F0)を含む成分を抽出し、第1のフィルタ信号として出力する第1のフィルタ(21)と、入力信号から音声の第1フォルマント(F1)を含む成分... 詳細

  • 安彦浩志の「 音響装置」が 公開されました。( 2018/11/29)

    【課題・解決手段】楽器に加工を施すことなく装着し、豊かな音響を再生すると共に、取り外した後は、装着前と変わらず楽器本来の演奏を楽しむことができる音響装置を提供する。音響装置1は、振動発生器2と、支持体... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ