図面 (/)

技術 線形拘束条件下における最小分散空間フィルタリングによって信号を分離するための方法と装置

出願人 ユニヴェルシテボルドー1サントル・ナシオナル・ドゥ・ラ・ルシェルシュ・シオンティフィーク(セ・エヌ・エル・エス)
発明者 マルシャン,シルヴァンゴルロフ,スタニスラフ
出願日 2013年9月25日 (7年7ヶ月経過) 出願番号 2015-533570
公開日 2015年10月15日 (5年6ヶ月経過) 公開番号 2015-530619
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード オーディオ音楽 代表値抽出 分散フィルタ 統計的仮定 正規化パワー 振幅絶対値 変換形態 ソースチャンネル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年10月15日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (3)

課題・解決手段

本発明は、複数のオーディオソース信号(sl,sp)を混合することによって得られる多チャンネル混合デジタルオーディオ信号(smix)中に含まれる単数又は複数の特定のデジタルオーディオソース信号を分離するための方法とそれに関連する装置1とに関する。本発明に依れば、前記方法は、前記混合信号中に含まれる前記単数又は複数の特定デジタルソース信号を表す値から、当該単数又は複数の特定ソース信号振幅絶対値(modulus of amplitude)又は正規化パワー(normalized power)を決定し、次に、各特定ソース信号(si)を得るために前記混合信号の線形拘束条件下での最小分散空間フィルタリングを行う。前記フィルタリングは、前記混合信号の少なくとも二つのチャンネル間における前記特定ソース信号の分布に基づいて行われ、前記特定ソース信号の振幅絶対値又は正規化パワーがフィルタの線形拘束条件として使用される。

概要

背景

信号の混合は、混合信号と称される単数又は複数のコンポジット信号を得るために、ソース信号と称される複数の信号を合計することから成る。特にオーディオ用途においては、混合は、単純に、ソース信号を合算することから成るか、又は、更に、それらを合算する前後に信号をフィルタリングする工程、を含む場合もある。更に、コンパクトディスク(CD)オーディオ等のある種の用途の場合には、ステレオ信号の二つ(左右)のチャンネル又は経路に対応する二つの混合信号を形成するために、前記ソース信号を、様々な方法で混合することができる。

ソースの分離は、それらのソース信号から成るある個数の異なる混合信号の観察から、ソース信号を推定することからなる。その目的は、一般に、単数又は複数の標的ソース信号をハイライトすること、あるいは可能な場合には、それらを完全に抽出することにある。ソース分離は、特に、利用可能な混合信号の数が混合信号内に含まれるソース信号の数よりも少ない「劣決定的(underdetermined)」と称される状況においては特に困難である。その場合、ソース信号内に含まれるものと比較して混合信号内において利用可能な情報が少ないことにより、抽出は非常に困難であるか、もしくは実質的に不可能である。一つの代表的な例は、CDオーディオ音楽信号であるが、その理由は、そこでは利用可能な二つのステレオチャンネルしか無く(すなわち、左側混合信号と右側混合信号)、これら二つの信号は一般に冗長性が高く、潜在的に大きな数のソース信号に当てはまるからである。

ソース信号の分離にはいくつかのタイプのアプローチが存在し、これらは、ブラインド分離計算的聴覚情景分析(computational auditory scene analysis)、そしてモデルに基づく分離、を含む。ブラインド分離が最も一般的な形態であり、ここでは、ソース信号に関して、又は、混合信号の性質に関して事前に知られている情報は存在しない。次に、ソース信号と混合信号に関していくつかの仮定がなされ(たとえば、ソース信号は統計的に独立していると仮定する)、それらの仮定に基づく判断基準最大化することによって(たとえば、分離装置によって得られた信号の独立性を最大化することによって)、分離システムパラメータを推定する。しなしながら、この方法は、一般に、多数の混合信号が利用可能である時(少なくとも、ソース信号と同じ数存在する時)に使用されるものであり、従って、それは混合信号の数がソース信号の数よりも少ない劣決定系状況には適用することができない。

計算的聴覚情景分析は、一般に、ソース信号を部分(partials)としてモデル化することからなるが、混合信号は明確には分離されない。この方法は、我々のによって行われるのと同じように、ソース信号を分離する人間の聴覚システムメカニズムに基づいている。特に、D.P.W. Ellis, Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its application to speech/non-speech mixture (Speech Communication, 27 (3), pp.281-298, 1999); D. Godsmark and G.J. Brown, A blackboard architecture for computational auditory scene analysis (Speech Communication, 27 (3), pp. 351-366, 1999); およびT. Kinoshita, S. Sakai, and H. Tanaka, Musical source signal identification based on frequency component adaptation (In Proc. IJCAIWorkshop on CASA, pp. 18-24, 1999)を参照。しかしながら、現時点において、計算的聴覚情景分析は、分離されたソース信号の品質に関して不十分であるという問題がある。

もう一つの分離方式は、適応機能に基づく混合物の分解によるものである。二つの主要なカテゴリ、即ち、吝嗇性(parsimonious)時間分解と吝嗇性周波数分解、がある。

吝嗇性時間分解では混合物の波形が分解されるのに対して、吝嗇性周波数分解では分解されるのはそのスペクトル表示であり、それによってディクショナリエレメントを構成する「アトム(atoms)」と呼ばれるエレメント関数の合計を得る。ディクショナリのタイプと最も可能性の高い対応の分解とを選択するために様々なアルゴリズムを使用することができる。時間ドメインに関して、具体的には、L. Benaroya, Representations parcimonieuses pour la separation de sources avec un seul capteur[Parsimonious representations for separating sources with a single sensor] (Proc. GRETSI,2001) 又はP.J. Wolfe and S.J. Godsill, A Gabor regression scheme for audio signal analysis (Proc.IEEE Acoustics, pp. 103-106, 2003)を挙げることができる。Gribonval (R. Gribonval and E. Bacry, Harmonic decomposition of audio signals with matching pursuit, IEEE Trans. Signal Proc., 51 (1) pp. 101-112,2003)、によって提案された方法において、分解アトムは、独立部分空間(independent subspaces)に分類され、それによってハーモニック部分のグループの抽出を可能にする。この方法の制約の一つは、信号に適合しないということであり、たとえばGaborアトム等のアトムの汎用ディクショナリは良好な結果を提供しない。更に、それらの分解が有効であるためには、前記ディクショナリが各タイプの楽器(instrument)の波形の変換形態のすべてを含むことが必要である。それにより、予測(projection)とそれによる分解が有効であるためには、分解ディクショナリは極めて大きな量なものであることが必要となる。

時間状況において現れる変換下での不変性の問題を軽減するために、吝嗇的周波数分解のアプローチが存在する。具体的には、M.A. Casey and A. Westner, Separation of mixed audio sources by independent subspace analysis, Proc. Int. Computer Music Conf., 2000を挙げることができ、これは独立部分空間分析ISA)を紹介している、その分析は、アトムを基に、混合信号の短時間振幅スペクトル短時間フーリエ変換(STFT)によって計算される)を分解し、その後、ソースを別々に再同期化するために、それらアトムを、その各部分空間が一つのソースに対して特異的な、独立部分空間にグループ化することからなる。しかしながら、それは、前記STFTスペクトル分析解像度スペクトルドメインにおけるソースの重畳、そして、スペクトル分離振幅に制限されること(再同期化信号の位相が混合信号の位相である)など、一般にいくつかの要因によって制限される。したがって、スペクトルドメインにおける音情景複雑性(種々の成分の相当な重複)、そして、混合信号中の各成分の寄与が時間関数として変化する仕方により、混合信号を独立した部分空間の合計としてあらわすことは一般に困難である。方法は、多くの場合、良好に制御される「単純化」混合信号に基づいて評価される(ソース信号はMIDI楽器、又は、分離するのが比較的簡単な、数の少ない、楽器である)。

ソース分離のもう一つの方法は、「インフォームド(informed)」ソース分離であり、単数又は複数のソース信号に関する情報が混合信号と共にデコーダ伝送される。次に、アルゴリズムと前記情報とに基づき、デコーダは混合信号から、少なくとも部分的に、少なくとも1つのソース信号を分離することができる。インフォームドソース分離の一例は、M. Parvaix and L. Girin, Informed source separation of linear instantaneous underdetermined audio mixtures by source index embedding,IEEE Trans. Audio Speech Lang. Process., Vol. 19, pp. 1721-1733、2011年8月、によって記載されている。前記デコーダに伝送される情報は、特に、種々の周波数範囲について、前記混合信号中の二つの主要なソース信号を特定する。しかしながら、混合信号の共通の周波数範囲において同時に寄与している二つのソース信号が存在する場合には、そのような方法は、必ずしも適さず、そのような状況下では、少なくとも1つのソース信号が無視されることになり、それによって前記ソース信号の再構成における「スペクトルホール(spectral hole)」を作り出す。

又、特に、遠隔通信の分野において、複数のセンサを使用してピックアップされた信号を、これらセンサに対する三次元空間におけるこれらの信号の位置の関数としてフィルタリングすることも知られている。これは、他の方向からの信号をフィルタリング除去しながら、ある空間方向における信号に優先権を与える空間フィルタリング(又は実際には「ビームフォーミング」)を構成する。そのようなフィルタの一例は、線形拘束最小分散(LCMV)空間フィルタである。そのようなフィルタの一例が具体的には文献EP 1 633 121に開示されている。

概要

本発明は、複数のオーディオソース信号(sl,sp)を混合することによって得られる多チャンネル混合デジタルオーディオ信号(smix)中に含まれる単数又は複数の特定のデジタルオーディオソース信号を分離するための方法とそれに関連する装置1とに関する。本発明に依れば、前記方法は、前記混合信号中に含まれる前記単数又は複数の特定デジタルソース信号を表す値から、当該単数又は複数の特定ソース信号の振幅絶対値(modulus of amplitude)又は正規化パワー(normalized power)を決定し、次に、各特定ソース信号(si)を得るために前記混合信号の線形拘束条件下での最小分散空間フィルタリングを行う。前記フィルタリングは、前記混合信号の少なくとも二つのチャンネル間における前記特定ソース信号の分布に基づいて行われ、前記特定ソース信号の振幅絶対値又は正規化パワーがフィルタの線形拘束条件として使用される。

目的

その目的は、一般に、単数又は複数の標的ソース信号をハイライトすること、あるいは可能な場合には、それらを完全に抽出することにある

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

多チャンネル混合デジタルオーディオ信号(smix)中に含まれる単数又は複数の特定デジタルオーディオソース信号(si)を分離する方法であって、該混合信号が複数のデジタルオーディオソース信号(si,...,sp)を混合することによって得られ、単数又は複数の該特定ソース信号代表値(Φi)を含む方法において、前記混合信号中に含まれる単数又は複数の前記特定ソース信号を表す値(Φi)から、当該単数又は複数の特定ソース信号の振幅絶対値(modulusofamplitude)又は正規化パワー(normalizedpower)(φ’i)を決定する工程(9)と、その後、各前記特定ソース信号(s’i)を少なくとも部分的に得るための線形拘束最小分散空間フィルタリングであって、前記混合信号の少なくとも二つのチャンネル間における前記特定ソース信号の分布(ai)に基づいて行われ、前記特定ソース信号の前記振幅絶対値又は前記正規化パワー(φ’i)がフィルタの線形拘束条件として使用されるフィルタリングを実行する工程(10)と、を有する方法。

請求項2

前記混合信号は、当該混合信号の少なくとも二つのチャンネルに関して単数又は複数の前記特定ソース信号の代表値(Φil,Φir)を含み、空間フィルタリングを実行する前に、前記特定ソース信号の前記代表値を使用して前記混合信号(smixl,smixr)の少なくとも二つの前記チャンネル間における各前記特定ソース信号(si)の分布(ai1,air)を決定する請求項1記載の方法。

請求項3

前記混合信号(smixl,smixr)の前記少なくとも二つのチャンネル間における単数又は複数の前記特定ソース信号の前記分布(ai)は、例えば前記混合信号中で、入力として受け取られる請求項1記載の方法。

請求項4

単数又は複数の前記特定ソース信号の前記振幅絶対値又は前記正規化パワー(φ’i)を決定する工程は、時間−周波数平面において単数又は複数の前記特定ソース信号の前記代表値(Φi)を決定する工程を含む請求項1〜3のいずれか一項に記載の方法。

請求項5

単数又は複数の前記特定ソース信号の前記振幅絶対値又は前記正規化パワー(φ’i)を決定する工程は、例えば透かし入れウォーターマーキング(watermarking))によって、前記混合信号中に挿入された前記特定ソース信号の代表値(Φi)を抽出する工程を含む請求項1〜4のいずれか一項に記載の方法。

請求項6

単数又は複数の前記特定ソース信号の前記振幅絶対値又は前記正規化パワー(φ’i)は空間−時間値である請求項1〜5のいずれか一項に記載の方法。

請求項7

多チャンネル混合デジタルオーディオ信号(smix)中に含まれる単数又は複数の特定デジタルオーディオソース信号(si)を分離する装置(1)であって、該混合信号(smix)が複数のデジタルオーディオソース信号(si,...,sp)を混合することによって得られ、単数又は複数の該特定ソース信号の代表値(Φi)を含む装置において、前記混合信号中に含まれる単数又は複数の前記特定ソース信号の代表値(Φi)から、単数又は複数の前記特定ソース信号の振幅絶対値(modulusofamplitude)又は正規化パワー(normalizedpower)(φ’i)を決定する決定手段(4)と、前記混合信号(smix)から各前記特定ソース信号(s’i)を少なくとも部分的に単離するように構成された線形拘束最小分散空間フィルタ(5)であって、前記混合信号(smixl,smixr)の少なくとも二つのチャンネル間における前記特定ソース信号(s’i)の分布(ai)に基づき、前記特定ソース信号の前記振幅絶対値又は前記正規化パワー(φ’i)が線形拘束条件として使用されるフィルタと、を有する装置。

請求項8

前記混合信号は、当該混合信号の少なくとも二つのチャンネルに関して単数又は複数の前記特定ソース信号の代表値(Φi)を含み、前記混合信号から、及び、前記特定ソース信号の前記代表値(Φi)から、前記混合信号の少なくとも二つの前記チャンネル間における各前記特定ソース信号の分布(ai)を決定する決定手段を有する請求項7記載の装置。

請求項9

例えば透かし入れ(ウォーターマーキング(watermarking))によって、前記混合信号中に挿入された単数又は複数の前記特定ソース信号の前記代表値(Φi)を抽出するための抽出手段(3)を有する請求項7又は8記載の装置。

技術分野

0001

本発明は、総合(overall)デジタルオーディオ信号を構成するいくつかのソース信号を分離する方法に関する。また、本発明は、前記方法を実行する装置にも関する。

背景技術

0002

信号の混合は、混合信号と称される単数又は複数のコンポジット信号を得るために、ソース信号と称される複数の信号を合計することから成る。特にオーディオ用途においては、混合は、単純に、ソース信号を合算することから成るか、又は、更に、それらを合算する前後に信号をフィルタリングする工程、を含む場合もある。更に、コンパクトディスク(CD)オーディオ等のある種の用途の場合には、ステレオ信号の二つ(左右)のチャンネル又は経路に対応する二つの混合信号を形成するために、前記ソース信号を、様々な方法で混合することができる。

0003

ソースの分離は、それらのソース信号から成るある個数の異なる混合信号の観察から、ソース信号を推定することからなる。その目的は、一般に、単数又は複数の標的ソース信号をハイライトすること、あるいは可能な場合には、それらを完全に抽出することにある。ソース分離は、特に、利用可能な混合信号の数が混合信号内に含まれるソース信号の数よりも少ない「劣決定的(underdetermined)」と称される状況においては特に困難である。その場合、ソース信号内に含まれるものと比較して混合信号内において利用可能な情報が少ないことにより、抽出は非常に困難であるか、もしくは実質的に不可能である。一つの代表的な例は、CDオーディオ音楽信号であるが、その理由は、そこでは利用可能な二つのステレオチャンネルしか無く(すなわち、左側混合信号と右側混合信号)、これら二つの信号は一般に冗長性が高く、潜在的に大きな数のソース信号に当てはまるからである。

0004

ソース信号の分離にはいくつかのタイプのアプローチが存在し、これらは、ブラインド分離計算的聴覚情景分析(computational auditory scene analysis)、そしてモデルに基づく分離、を含む。ブラインド分離が最も一般的な形態であり、ここでは、ソース信号に関して、又は、混合信号の性質に関して事前に知られている情報は存在しない。次に、ソース信号と混合信号に関していくつかの仮定がなされ(たとえば、ソース信号は統計的に独立していると仮定する)、それらの仮定に基づく判断基準最大化することによって(たとえば、分離装置によって得られた信号の独立性を最大化することによって)、分離システムパラメータを推定する。しなしながら、この方法は、一般に、多数の混合信号が利用可能である時(少なくとも、ソース信号と同じ数存在する時)に使用されるものであり、従って、それは混合信号の数がソース信号の数よりも少ない劣決定系状況には適用することができない。

0005

計算的聴覚情景分析は、一般に、ソース信号を部分(partials)としてモデル化することからなるが、混合信号は明確には分離されない。この方法は、我々のによって行われるのと同じように、ソース信号を分離する人間の聴覚システムメカニズムに基づいている。特に、D.P.W. Ellis, Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its application to speech/non-speech mixture (Speech Communication, 27 (3), pp.281-298, 1999); D. Godsmark and G.J. Brown, A blackboard architecture for computational auditory scene analysis (Speech Communication, 27 (3), pp. 351-366, 1999); およびT. Kinoshita, S. Sakai, and H. Tanaka, Musical source signal identification based on frequency component adaptation (In Proc. IJCAIWorkshop on CASA, pp. 18-24, 1999)を参照。しかしながら、現時点において、計算的聴覚情景分析は、分離されたソース信号の品質に関して不十分であるという問題がある。

0006

もう一つの分離方式は、適応機能に基づく混合物の分解によるものである。二つの主要なカテゴリ、即ち、吝嗇性(parsimonious)時間分解と吝嗇性周波数分解、がある。

0007

吝嗇性時間分解では混合物の波形が分解されるのに対して、吝嗇性周波数分解では分解されるのはそのスペクトル表示であり、それによってディクショナリエレメントを構成する「アトム(atoms)」と呼ばれるエレメント関数の合計を得る。ディクショナリのタイプと最も可能性の高い対応の分解とを選択するために様々なアルゴリズムを使用することができる。時間ドメインに関して、具体的には、L. Benaroya, Representations parcimonieuses pour la separation de sources avec un seul capteur[Parsimonious representations for separating sources with a single sensor] (Proc. GRETSI,2001) 又はP.J. Wolfe and S.J. Godsill, A Gabor regression scheme for audio signal analysis (Proc.IEEE Acoustics, pp. 103-106, 2003)を挙げることができる。Gribonval (R. Gribonval and E. Bacry, Harmonic decomposition of audio signals with matching pursuit, IEEE Trans. Signal Proc., 51 (1) pp. 101-112,2003)、によって提案された方法において、分解アトムは、独立部分空間(independent subspaces)に分類され、それによってハーモニック部分のグループの抽出を可能にする。この方法の制約の一つは、信号に適合しないということであり、たとえばGaborアトム等のアトムの汎用ディクショナリは良好な結果を提供しない。更に、それらの分解が有効であるためには、前記ディクショナリが各タイプの楽器(instrument)の波形の変換形態のすべてを含むことが必要である。それにより、予測(projection)とそれによる分解が有効であるためには、分解ディクショナリは極めて大きな量なものであることが必要となる。

0008

時間状況において現れる変換下での不変性の問題を軽減するために、吝嗇的周波数分解のアプローチが存在する。具体的には、M.A. Casey and A. Westner, Separation of mixed audio sources by independent subspace analysis, Proc. Int. Computer Music Conf., 2000を挙げることができ、これは独立部分空間分析ISA)を紹介している、その分析は、アトムを基に、混合信号の短時間振幅スペクトル短時間フーリエ変換(STFT)によって計算される)を分解し、その後、ソースを別々に再同期化するために、それらアトムを、その各部分空間が一つのソースに対して特異的な、独立部分空間にグループ化することからなる。しかしながら、それは、前記STFTスペクトル分析解像度スペクトルドメインにおけるソースの重畳、そして、スペクトル分離振幅に制限されること(再同期化信号の位相が混合信号の位相である)など、一般にいくつかの要因によって制限される。したがって、スペクトルドメインにおける音情景複雑性(種々の成分の相当な重複)、そして、混合信号中の各成分の寄与が時間関数として変化する仕方により、混合信号を独立した部分空間の合計としてあらわすことは一般に困難である。方法は、多くの場合、良好に制御される「単純化」混合信号に基づいて評価される(ソース信号はMIDI楽器、又は、分離するのが比較的簡単な、数の少ない、楽器である)。

0009

ソース分離のもう一つの方法は、「インフォームド(informed)」ソース分離であり、単数又は複数のソース信号に関する情報が混合信号と共にデコーダ伝送される。次に、アルゴリズムと前記情報とに基づき、デコーダは混合信号から、少なくとも部分的に、少なくとも1つのソース信号を分離することができる。インフォームドソース分離の一例は、M. Parvaix and L. Girin, Informed source separation of linear instantaneous underdetermined audio mixtures by source index embedding,IEEE Trans. Audio Speech Lang. Process., Vol. 19, pp. 1721-1733、2011年8月、によって記載されている。前記デコーダに伝送される情報は、特に、種々の周波数範囲について、前記混合信号中の二つの主要なソース信号を特定する。しかしながら、混合信号の共通の周波数範囲において同時に寄与している二つのソース信号が存在する場合には、そのような方法は、必ずしも適さず、そのような状況下では、少なくとも1つのソース信号が無視されることになり、それによって前記ソース信号の再構成における「スペクトルホール(spectral hole)」を作り出す。

0010

又、特に、遠隔通信の分野において、複数のセンサを使用してピックアップされた信号を、これらセンサに対する三次元空間におけるこれらの信号の位置の関数としてフィルタリングすることも知られている。これは、他の方向からの信号をフィルタリング除去しながら、ある空間方向における信号に優先権を与える空間フィルタリング(又は実際には「ビームフォーミング」)を構成する。そのようなフィルタの一例は、線形拘束最小分散(LCMV)空間フィルタである。そのようなフィルタの一例が具体的には文献EP 1 633 121に開示されている。

0011

欧州特許出願公開第1633121号明細書

先行技術

0012

リス(D. P. W. Ellis)、「Using knowledge to organize sound: The prediction-driven approach to computational auditory scene analysis, and its application to speech/non-speech mixture」、(仏国)、Speech Communication、第27巻、第3号、1999年、p.281-298
ゴズマーク(D. Godsmark),ブラウン(G.J. Brown)、「A blackboard architecture for computational auditory scene analysis」(仏国)、Speech Communication、第27巻、第3号、1999年、p.351-366
キノシタ(T. Kinoshita),サカイ(S. Sakai),タナカ(H. Tanaka)、「Musical source signal identification based on frequency component adaptation」、(米国)、IJCAIWorkshop on CASA、1999年、p.18-24
ベネローヤ(L. Benaroya)、「Representations parcimonieuses pour la separation de sources avec un seul capteur(Parsimonious representations for separating sources with a single sensor)] (仏国)、GRETSI、2001年
ウォルフ(P.J. Wolfe),ゴズシル(S.J. Godsill)、「A Gabor regression scheme for audio signal analysis」、(米国)、IEEE Acoustics、2003年、p.103-106
グリボンバル(R. Gribonval),バクリー(E. Bacry)、「Harmonic decomposition of audio signals with matching pursuit」、(米国)、IEEE Trans. Signal Proc.、 51 (1) pp. 101-112,203)
キャシー(M.A. Casey),ウェストナー(A. Westner)、「Separation of mixed audio sources by independent subspace analysis」、(米国)、Int. Computer Music Conf.、2000年
パーバイック(M. Parvaix),ギリン(L. Girin)、「Informed source separation of linear instantaneous underdetermined audio mixtures by source index embedding」、(米国)、IEEE Trans. Audio Speech Lang. Process.、第19巻、2011年8月、p.1721-1733

発明が解決しようとする課題

0013

本発明の課題は、従って、単数又は複数の混合信号に含まれるソース信号をより効果的に分離することを可能にする方法を提案することにある。

課題を解決するための手段

0014

この目的のために、一実施例において、たとえばステレオ信号などの混合マルチチャンネルデジタルオーディオ信号(すなわち、少なくとも二つのチャンネルを有する信号)中に含まれる単数又は複数の特定のデジタルオーディオソース信号を、少なくとも部分的に、分離する方法が提供される。前記混合信号は、複数のデジタルオーディオソース信号を混合することによって得られ、それは、単数又は複数の前記特定のソース信号の代表値を含む。前記方法は、前記混合信号中に含まれる単数又は複数の前記特定ソース信号を表す値から、単数又は複数の前記特定ソース信号の振幅絶対値又は正規化パワーを決定する工程、及び、その後の行程として、各特定ソース信号を少なくとも部分的に得るために線形拘束最小分散空間フィルタリングであって、前記混合信号の少なくとも二つのチャンネル間における前記特定ソース信号の分布に基づくものであり、且つ、前記特定ソース信号の振幅絶対値又は正規化パワーが前記フィルタの線形拘束条件として使用されるフィルタリングを行う工程を含む。

0015

前記代表値は、前記特定ソース信号の時間、空間若しくは空間−時間分布、又は、前記混合信号中における前記特定ソース信号の時間、空間若しくは空間−時間寄与とすることができる。従って、前記ソース信号の前記代表値は、振幅絶対値又は正規化パワー(すなわち、エネルギにおいては、振幅絶対値の二乗に対応する)に含まれるものとすることができる。従って、前記代表値は、振幅絶対値又は正規化パワー(又はエネルギ)値とすることができる。

0016

例えば、前記代表値は、時間−周波数平面における複数のゾーン(又は点)の場合には、前記特定ソース信号の時間、空間又は空間−時間分布、あるいは、前記混合信号中における前記特定ソース信号の時間、空間又は空間−時間寄与、とすることができる。そのような状況下において、単数又は複数の前記特定ソース信号の前記振幅絶対値又は正規化パワーは、時間−周波数平面において決定することができ、前記振幅絶対値と正規化パワーは空間−時間値となる。

0017

前記時間−周波数平面への変換又は表示は、前記ソース信号を、時間と周波数との二つのパラメータの関数として、エネルギ(又は正規化パワー)又は振幅絶対値(すなわち、エネルギの平方根)として表現することから成る。これは、前記ソース信号の周波数コンテンツが時間の関数として、エネルギ又は絶対値においていかに変化するかに対応する。従って、ある瞬間、ある周波数において、その周波数とその瞬間における前記信号の成分に対応する正の実数値が得られる。時間−周波数表現の理論式と実用的具体化は既に記載されている(L. Cohen: Time-frequency distributions, a review, Proceedings of theIEEE, Vol. 77, No. 7, 1989; F. Hlawatsch, F. Auger: Tempo-frequence, concepts et outils [Time-frequency, concepts and tools], Hermes Science, Lavoisier 2005; P. Flandrin: Temps frequence [Time frequency], Hermes Science, 1998)。

0018

従って、上述した方法を使用して、それらの様々な信号に関する仮定を行うことなく(従来の統計的仮定、即ち、ソース信号の独立性、ソース信号のゼロ平均、ガウス分布、ではなく)、特定ソース信号を効果的に分離するために、混合信号に含まれる情報によって改善された空間フィルタリングを使用することが可能となる。具体的には、前記方法は、ソース信号を単離するために(空間フィルタリング)、混合信号の種々のチャンネル間における各ソース信号の分布に基づく。線形拘束最小分散フィルタを利用することによって、拘束条件として、ソース信号の振幅絶対値又は正規化パワーを使用して、高性能空間分離が達成される。従って、混合信号の特定のソース信号を空間的に脱相関するとともに、それと同時に、分離された信号の振幅の所望のレベルに適合させることが可能である。これによって、既知の特定ソース信号の代表値を考慮に入れることによって空間フィルタリング工程が改善される。

0019

特に、たとえば、分離されるべきソース信号と同じ数の空間フィルタを使用することによって、混合信号中に含まれる種々の特定ソース信号を同時に単離することができる。

0020

好ましくは、前記フィルタリングは、更に、前記特定ソース信号の振幅絶対値又は正規化パワーにも基づく。より正確には、前記空間フィルタリング工程は、前記特定ソース信号の前記振幅絶対値又は前記正規化パワーと、混合信号の少なくとも二つのチャンネル間における前記特定ソース信号の分布と、を用いた空間相関マトリックスのモデル化を含むことができる。

0021

好ましくは、前記混合信号は、当該混合信号の少なくとも二つのチャンネルについて単数又は複数の前記特定ソース信号の代表値を含み、空間フィルタリングを行う前に、前記混合信号と前記特定信号の前記代表値を使用して、前記混合信号の前記少なくとも二つのチャンネル間における各特定ソース信号の分布を決定する。

0022

あるいは、前記混合信号の少なくとも二つのチャンネル間における単数又は複数の前記特定ソース信号の分布を、入力として、たとえば前記混合信号中に受け入れることができる。

0023

換言すると、前記混合信号の異なるチャンネル間での前記特定ソース信号の分布は、前記分離法を実行する時、たとえば、前記特定ソース信号の前記代表値と同時に提供することができ、あるいは、それは、前記多チャンネル混合信号と前記特定ソース信号の前記代表値とに基づく前記分離法の間に求めることができる。

0024

一実施例において、単数又は複数の前記特定ソース信号の振幅絶対値又は正規化パワーの決定工程は、前記混合信号中に、たとえば、透かし入れウォーターマーキング(watermarking))によって挿入された前記特定ソース信号の代表値を抽出する工程を含むことができる。代表値の抽出は、前記特定ソース信号の代表値が伝送されることから起因するものであって、これは、混合信号とともに、たとえば、前記情報が前記混合信号中において不可聴的に透かし入れされる又は挿入される時に、あるいは、前記代表値の伝送専用の混合信号の特定チャンネルを介して、行うことができる。

0025

別の態様において、本発明は、多チャンネル混合オーディオソース信号中に含まれる単数又は複数の特定のデジタルオーディオソース信号を少なくとも部分的に分離する装置を提供する。前記混合信号は、複数のデジタルオーディオソース信号を混合することによって得られ、単数又は複数の前記特定ソース信号の代表値を含んでいる。

0026

前記装置は、単数又は複数の前記特定ソース信号の振幅絶対値又は正規化パワーを、前記混合信号中に含まれる単数又は複数の前記特定ソース信号の代表値から決定するための決定手段、そして、前記混合信号から各特定ソース信号を少なくとも部分的に単離するように構成された線形拘束最小分散空間フィルタであって、前記混合信号の少なくとも二つのチャンネル間における前記特定ソース信号の分布に基づき、前記特定ソース信号の前記振幅絶対値又は正規化パワーが線形拘束条件として使用されるフィルタ、を有する。

0027

好ましくは、前記混合信号はステレオ信号である。

0028

好ましくは、前記混合信号は、当該混合信号の少なくとも二つのチャンネルについて単数又は複数の前記特定ソース信号の代表値を含み、そして、前記装置は、前記混合信号と前記特定ソース信号の前記代表値とから、前記混合信号の前記少なくとも二つのチャンネル間における各特定ソース信号の分布を決定するための決定手段を有する。

0029

好ましくは、前記振幅絶対値又は正規化パワーを決定するための手段は、たとえば透かし入れによって、前記混合信号中に挿入された単数又は複数の前記特定ソース信号の前記代表値を抽出する抽出手段を含む。

0030

本発明は、非限定的具体例を介して記載され、添付の図面に図示される特定の実施例を参照することによってより良く理解されるであろう。

図面の簡単な説明

0031

本発明の分離装置の実施例の略図
本発明の分離方法フローチャート

実施例

0032

以下の詳細説明において、前記混合信号smix(t)は左チャンネルsmixl(t)と右チャンネルsmixr(t)とを有するステレオ信号であり、pソース信号s1(t),...,sp(t)を含むものとされる。前記混合信号smix(t)は、pソース信号と混合行列Aとの積として記載することができる。

0033

A=[a1l,...,apl]=[a1,...,ap]
[a1r,...,apr]
ここで、ai=[ail,apr]Τ(Τは前記行列転置行列を表す)であり、ailおよびairは前記混合信号のチャンネルのそれぞれにおける前記ソース信号iの分布を表す((ail)2+(air)2=1)。

0034

より正確には、前記係数ailとairは、ail=sin(θi)およびair=cos(θi)の形式で書くことができ、ここで、θiは前記混合信号の前記二つのチャンネル間における前記ソース信号iのバランスを表す。

0035

言い換えると、以下が成り立つ

0036

smix(t)=A・s(t)
ここで、
smix(t)=[smixl(t),smixr(t)]Τ
s(t)=[s1(t),...,sp(t)]Τ
(Τは転置行列(transpose)を表す)である。

0037

更に、以下の記載において、前記信号はオーディオ信号と見なされる。

0038

本明細書のコンテクストにおいて、前記時間−周波数平面における変換として短時間フーリエ変換が考慮される。従って、前記時間−周波数平面における前記ソース信号iの変換値(transform)は、以下のように書き表される。

0039

Si(k,m)=Σsi(k+n)f(n)e−2iπmn/N
ここで、Nは定数、f(n)は前記短時間フーリエ変換の窓関数である。

0040

以下の記載において、前記空間フィルタの線形拘束条件は正規化パワーであるとみなされる。従って、所与のソース信号si、前記時間−周波数平面における所与の点(k,m)に関して、前記正規化エネルギ又はパワーφi(k,m)は以下のように得られる。

0041

φi(k,m)=|Si(k,m)|2

0042

従って、前記ソース信号を表す値は、|Si(k,m)|(絶対値の値)又はφi(k,m)(前記正規化パワー値に等しいエネルギ値)。前記ソース信号を表す値は、前記エネルギ値の対数とすることも可能である。

0043

Φi=10log10(φi(k,m))

0044

前記ソース信号を表す値は、更に、例えば、前記エネルギスペクトル周波数解像度下げることによって、又は、前記代表値の定量化をヒトの耳の感度に適合させることによって、前記ソース信号に対して処理を行った後に決定することも可能である。これにより、所望の音質を維持しつつ、サイズにおいてより嵩張ることのないソース信号の代表値表示を得ることが可能となる。

0045

下記の記載において、前記ソース信号を表す値は、定量化された正規化パワー(又はエネルギ)値Φi(k,m)と見なされる。

0046

前記ソース信号の代表値Φi(k,m)は、前記分離装置又はデコーダに伝送される。それらは、専用のチャンネル(前記混合信号を形成するために前記ステレオチャンネルに関連付けられている)を介して、あるいは、透かし入れによって又は前記混合信号の未使用ビットを使用することにより前記混合信号に組み込まれることによって、伝送されることができる。未使用ビットを利用する場合、前記分離装置は、入力として前記混合信号を受け取り、出力として前記ソース信号の前記代表値を提供する代表値抽出手段を備えることができる。

0047

同様に、前記分離装置は、更に、前記混合信号の各チャンネルにおける前記ソース信号の分布:a1l,...,apl,a1r,...,aprを受け取ることができる。これらの分布は、(前記混合信号を形成するために前記ステレオチャンネルに関連付けられた、又は前記ステレオチャンネルから独立した)専用のチャンネルを介して、あるいは、たとえば、透かし入れによって又は前記混合信号の未使用ビットを利用することにより前記混合信号に組み込まれることによって、伝送することができる。未使用ビットを利用する場合、前記分離装置は、入力として前記混合信号を受け取り、出力として前記ソース信号の前記分布を提供する、ソースチャンネル分布抽出手段を備えることができる。前記代表値抽出手段および前記分布抽出手段は同じ単一の手段から構成することができる。

0048

あるいは、前記分離装置は、前記ソース信号の前記分布を決定するための決定手段を備えることができ、この決定手段は、入力として、前記混合信号と前記代表値Φi(k,m)とを受け取り、出力として、前記ソース信号の分布ail,airを提供するものとすることができる。これは、特に、前記混合信号の各チャンネルが前記混合信号の前記チャンネルに関してソース信号の代表値を含む場合、換言すると、あるソース信号の代表値が混合信号の各チャンネルに関して同じでなく、混合信号の異なるチャンネルに関して同じソース信号の代表値間の違いによって、前記混合信号の異なるチャンネル間における前記ソース信号の分布を決定することができる場合に可能である。

0049

図1は、混合信号smix中に含まれる特定のソース信号を分離するための分離装置1の実施例の略図である。前記分離装置1は、入力として、前記混合信号smixのステレオチャンネルamix1およびsmixrを受け取り、そして、それは、出力として、lが1からpに変化しつつ、少なくとも部分的に分離される特定ソース信号s’iを提供する。前記分離装置1は、前記特定ソース信号の代表値Φi(k,m)を使用することによって、前記混合信号smixに含まれる複数の特定ソース信号を、少なくとも部分的に、提供する。

0050

本記載において、前記分離装置1は、入力として、たとえば、透かし入れによって、前記特定ソース信号の代表値Φi(k,m)が挿入されている混合デジタルオーディオ信号smixl(t)およびsmixr(t)のチャンネルと、好ましくは、更に、前記混合デジタルオーディオ信号smixr(t)およびsmixl(t)の二つのチャンネル間における前記特定ソース信号の分布a1l,...,apl,a1r,...,aprを受け取る。

0051

前記分離装置1は、変換手段2、抽出手段3、処理手段4、フィルタ手段5、そして逆変換手段6を有する。

0052

前記変換手段2は、入力として、前記混合デジタルオーディオ信号smixl(t)およびsmixrのチャンネルを受け取り、出力として、前記時間−周波数平面における前記混合信号のチャンネルの変換値Smixl(k,m)およびSmixr(k,m)を提供する。

0053

前記抽出手段3は、入力として、前記時間−周波数平面における前記混合信号のチャンネルの変換値Smixl(k,m)およびSmixr(k,m)を受け取り、そして、前記混合信号に含まれる前記特定ソース信号の代表値Φi(k,m)を提供する。適当な場合、前記抽出手段3は、更に、それらが混合信号に挿入されている場合、前記混合デジタルオーディオ信号の二つのチャンネルsmixr(t)およびsmixl(t)間における前記特定ソース信号の分布a1l,...,apl,a1r,...,aprを提供する。従って、前記抽出手段3は、前記混合信号から、それに対して、たとえば、透かし込みによって加えられた代表値を後に抽出し、それらを混合信号から単離することを可能にする。次に、代表値Φi(k,m)が前記処理手段4に伝送され、適当な場合には、前記分布a1l,...,apl,a1r,...,aprが前記フィルタ手段5へと伝送される。

0054

尚、前記抽出手段3は、入力として、前記混合信号のチャンネルsmixr(t)およびsmixl(t)を直接受け取ることも可能である。

0055

前記処理手段4は、前記時間−周波数平面において分離されるべき前記ソース信号の前記正規化パワーφ’i(k,m)の推定値を決定するべく、前記抽出手段3によって受け取られた前記代表値Φi(k,m)を処理する。次に、分離されるべき前記ソース信号の前記正規化パワーの推定値φ’i(k,m)が前記フィルタ手段5に伝送される。

0056

このように、前記変換手段2によって提供された時間−周波数平面における混合信号のチャンネルの変換値(transforms)Smixr(k,m)およびSmixl(k,m)、特定ソース信号の正規化パワーの推定値φ’i(k,m)、そして混合デジタルオーディオ信号の二つのチャンネルsmixr(t)およびsmixl(t)間における前記特定ソース信号の分布a1l,...,apl,a1r,...,aprが前記フィルタ手段5に提供される。

0057

前記フィルタ手段5は、空間フィルタリングを実行することによって、各特定ソース信号の推定値S’i(k,m)を得るべく機能する。前記時間−周波数平面において、前記フィルタ手段5は、線形拘束最小分散空間フィルタリングを実行することによって特定ソース信号を単離するように機能する。より詳しくは、前記フィルタ手段5は、特定ソース信号を単離するために、前記混合信号の二つのチャンネル間における当該特定ソース信号の分布に基づく。従って、これは空間フィルタリング又は「ビームフォーミング」である。更に、前記フィルタリングと得られるソース信号の推定値とを改善するために、前記空間フィルタは、元のソース信号により近い推定値を得るための線形拘束条件として分離されるべき特定ソース信号の正規化パワーを使用する。

0058

より正確には、前記時間−周波数平面において、以下が適用される。

0059

Smix(k,m)=A・S(k,m)
ここで、
Smix(k,m)=[Smixl(k,m),Smixr(k,m)]Τ
S(k,m)=[S1(k,m),...,Sp(k,m)]]Τ
である。

0060

次に、各混合信号Smixr(k,m)およびSmixl(k,m)は、以下の線形空間フィルタリングを使用して、特定ソース信号の推定値S’1(k,m),...,S’p(k,m)に分解される。

0061

S’1(k,m)=wikl・Smixl(k,m)+wikr・Smixr(k,m)
=WikΤ・Smix(k,m)
ここで、
Wik=[wikl,wikr]Τ
S’i(k,m)=[S’il(k,m),S’ir(k,m)]Τ
である。

0062

Wikは、前記混合信号Smix(k,m)からサブバンドkのi番目のソース信号の推定値S’i(k,m)を得る機能を有する空間フィルタ又は「ビームフォーミング」である。

0063

線形拘束最小分散空間フィルタにおいて、フィルタリングされるべき信号を例外として、すべての干渉するソース信号の合計はノイズと見なされる。従って、前記混合信号は以下のように書き換えることができる。

0064

Smix(k,m)=ai・Si(k,m)+r(k,m)

0065

ここで、r(k,m)は他のソース信号の合計である。

0066

前記推定値S’i(k,m)は、平均ノイズパワー、又は同様に、分離されるべきソース信号の方向における前記空間フィルタからの出力の平均パワーを最小化することによって得られる。

0067

P(θi)=WikΤ(m)・R’Smix(k,m)・Wik(m)
ここで、RSmixは、前記混合信号Smix(k,m)の二つのチャンネルSmixr(t)およびSmixl(t)の空間相関行列である。

0068

以下によって解が与えられる。



これから次が得られる。

0069

ここでR’Smix−1(k,m)=Σφ’i(k,m)・ai・aiTである。

0070

前記混合信号Smix(k,m)に当てはめられると、それによって得られるフィルタは、他の信号からのパワースペクトルに対する寄与を低減する。更に、線形拘束のため、推定されるソース信号のパワーは、前記時間−周波数平面の様々な点に関して、最初のソース信号のパワー(これは、前記解WikをP(θi)を定義する前記等式に再代入することによって確認することができる)に対応する。従って、前記フィルタ手段5は、その脱相関された信号の振幅を所望のレベルに調節しながら、混合信号の残り部分からi番目のソース信号を空間的に脱相関するように機能する。

0071

混合信号中の透かし挿入された情報の量が無視すべき透かし挿入のノイズとしては多すぎる時は、推定されたソース信号の成分を以下のように調節することが可能であることが判る。

0072

S’i(k,m)=S’i(k,m)・(√φ’i(k,m))/|S’i(k,m)|

0073

次に、分離された特定ソース信号の推定値の変換値(transforms)が前記逆変換手段6に伝送される。この手段6は、前記分離されたソース信号の推定値の変換値を、少なくも部分的に、前記ソース信号Si(t),...,Sp(t)に対応する時間信号S’i(t),...,S’p(t)へ変換するように機能する。

0074

図2は、本発明の分離方法の様々な工程を示すフローチャートである。

0075

この方法は、混合信号が時間−周波数平面に変換される第1工程7を有する。その後、工程8において、前記混合信号に透かし込みされた情報、具体的には、代表値と混合信号の少なくとも二つのチャンネル間におけるソース信号の分布が抽出される。工程9において、分離のためのソース信号の正規化パワーが決定され、次に、工程10において、分離されるべきソース信号の正規化パワーを拘束条件として、線形拘束最小分散空間フィルタリングが実行される。最後に、工程11において、前記特定ソース信号を少なくとも部分的に得るべく、分離された特定ソース信号の変換の逆である変換が行われる。

0076

このように、オーディオ信号において、本発明の分離システムから、音景観の様々な要素(前記分離装置によって得られる楽器および声)に対して独立的に、オーディオリスニングにおけるいくつかの主要な制御(音量トーンエフェクト)を出力することが可能となる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ