図面 (/)

技術 音源の位置特定

出願人 ノモノ エーエス
発明者 ソルヴァン,オードゥン
出願日 2019年2月22日 (2年9ヶ月経過) 出願番号 2020-564659
公開日 2021年8月19日 (3ヶ月経過) 公開番号 2021-520760
状態 未査定
技術分野 可聴帯域変換器の回路等 スタジオ装置
主要キーワード 遅延反射 分離レベル 動作シーン 空間定位 対象追跡 フランジャー 範囲測定値 録音作業
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2021年8月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題・解決手段

音源(4)の位置を特定する方法が提供され、本方法は、少なくとも2つのマイクロホンを備える音場マイクホンステム(2)を使用して、空間的に符号化された音場信号を生成することを含み、この空間的に符号化された音場信号は複数の成分を含み、各成分は音源(4)からの音声を含む。本方法は、音源(4)に近接して配置されたローカルマイクロホン(8)を使用して、音源(4)からの音声に対応するローカルマイクロホン信号を生成することと、このローカルマイクロホン信号をこれら複数の成分のそれぞれと比較して、複数の比較結果を生成することと、これら複数の比較結果を使用して、音場マイクロホンシステム(2)に対する音源(4)の位置を特定することとをさらに含む。

概要

背景

音場、すなわち空間オーディオシステム及びフォーマット(たとえば、アンビソニックス、Dolby Atmos(商標)、Auro−3D(商標)、DTS:X(商標))は、特定の音響シーンに関連する空間的に符号化された音声情報を保存する方法をもたらしている。すなわち、これらのシステムは、音響シーン内音源位置情報割り当てる方法をもたらしている。空間的に符号化された音声情報(又は「音場」)は、(たとえば、コンピュータで生成されたビデオゲームの音響シーンを制作する場合に)位置情報が手動で割り当てられた、個別に録音されているサウンドトラックを使用して生成することができ、あるいは、たとえば多指向性アンビソニックマイクロホンを使用して、完全に生でキャプチャすることもできる。生の「音場」データのキャプチャは、(たとえば、オーケストラ一員として座っているかのような錯覚をもたらすことによって)典型的には従来の録音作業をより没入型のものにするために使用されてきたが、近年ではこの技術が仮想現実作品に適用され始めている。

仮想現実(VR)作品は通常、360度の立体映像信号と、対応するサウンドトラックとで構成されている。これらの作品は、臨場感を生み出すために、一人称視点サポートしているプラットフォームでユーザに対して再生される。このようなプラットフォームの例としては、双眼ヘッドセット及びステレオヘッドホンデスクトップ用360度ビデオプレーヤー及び360度映画が挙げられる。双眼型ヘッドセットは通常、(たとえば、IMU/加速度計を使用して)ユーザの頭部の位置及び方向を追跡できるため、ヘッドセット及びヘッドホンに対して再生される映像及び音声がそれぞれ適宜調整されて、仮想現実の錯覚を維持することができる。たとえば、ある時点で、仮想環境でのユーザの現在の視界に対応している360度の映像信号の一部のみが、そのユーザに表示される。ユーザが頭部を動かしたり向きを変えたりすると、この動きによりユーザの視界がどのように変化するかを仮想世界で反映するために、ユーザに表示される360度の信号の一部が変化する。同様に、仮想シーンでさまざまな場所から聞こえてくる音声は、ユーザが動くときに、左右のヘッドホンチャンネル適応フィルタリングを受けることになり、部と人の頭部と上半身との間の空間的オフセットが分散することによって現実に発生する、当該音声の周波数に依存した位相変化振幅の変化とをエミュレートすることができる。

一部のVR作品は、コンピュータ生成映像と、個別に事前録音又は合成された音声とで全て構成されている。しかしながら、360度の視界を記録できるカメラと、空間的に符号化されたサウンドトラックを録音できる音場マイクホンとを使用して、「生の動作」のVR録画映像を制作することがますます一般的になっている。その後、録音された音声と映像とが処理されて、上記のようなヘッドセットとヘッドホンとを介して再生できるVR録画映像が制作されることになる。

音場マイクロホンシステムを使用してVRサウンドトラックを録音すると、録音された音声は空間情報ネイティブに符号化されるため、この録音された音声をVRアプリケーションに容易に実装することができる。録音されたこれらの映像信号及び音声信号は、最終的なVR録画映像を制作するために「整列させる」だけでよく、これによって上記のシステムを介して再生できるようになる。多くの市販のビデオ制作ツールやコンピュータ・ソフトウェア・アプリケーションには、空間的に符号化された音声ファイルを当該作品に取り入れる機能など、VR制作機能がすでに含まれている。

概要

音源(4)の位置を特定する方法が提供され、本方法は、少なくとも2つのマイクロホンを備える音場マイクロホンシステム(2)を使用して、空間的に符号化された音場信号を生成することを含み、この空間的に符号化された音場信号は複数の成分を含み、各成分は音源(4)からの音声を含む。本方法は、音源(4)に近接して配置されたローカルマイクロホン(8)を使用して、音源(4)からの音声に対応するローカルマイクロホン信号を生成することと、このローカルマイクロホン信号をこれら複数の成分のそれぞれと比較して、複数の比較結果を生成することと、これら複数の比較結果を使用して、音場マイクロホンシステム(2)に対する音源(4)の位置を特定することとをさらに含む。

目的

本発明は、音源の位置を特定する方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音源の位置を特定する方法であって、前記方法は、少なくとも2つのマイクロホンを備える音場マイクホンステムを使用して、空間的に符号化された音場信号を生成することであって、前記空間的に符号化された音場信号は複数の成分を含み、各成分は前記音源からの音声を含む、ことと、前記音源に近接して配置されたローカルマイクロホンを使用して、前記音源からの音声に対応するローカルマイクロホン信号を生成することと、前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成することと、前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することとを含む、音源の位置を特定する方法。

請求項2

前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較することは、前記ローカルマイクロホン信号と前記複数の成分のそれぞれとの間の相関尺度をそれぞれ決定することを含む、請求項1に記載の方法。

請求項3

前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記相関の尺度を使用して、球面調和関数によって重み付けされた直接音自己相関を求めることと、前記直接音の自己相関の成分を評価することによって、前記音場マイクロホンシステムから前記ローカルマイクロホンへの方向を抽出することとを含む、請求項2に記載の方法。

請求項4

前記決定された相関の尺度を使用して、前記ローカルマイクロホン信号と前記複数の成分の少なくとも1つとの間における1つ又は複数の伝搬遅延を計算することを含む、請求項2又は3に記載の方法。

請求項5

前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記伝搬遅延の2つ以上の間の差を使用して、前記音場マイクロホンシステムから前記ローカルマイクロホンへの方向を特定することを含む、請求項4に記載の方法。

請求項6

前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定することは、前記伝搬遅延の少なくとも1つを使用して、前記音場マイクロホンシステムから前記ローカルマイクロホンまでの距離、又は距離の変化を特定することを含む、請求項4又は5に記載の方法。

請求項7

前記音源が移動している、請求項1から6のいずれか一項に記載の方法。

請求項8

前記複数の成分のそれぞれは第2の音源からの音声を含み、前記方法は、前記第2の音源に近接して配置された第2のマイクロホンを使用して、第2のマイクロホン信号をキャプチャすることであって、ここで前記第1のマイクロホン信号は、前記第2の音源からの音声を含む、ことと、前記第2のマイクロホン信号を前記複数の成分のそれぞれと比較して、第2の複数の比較結果を生成することと、前記第2の複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記第2の音源の位置を特定することとをさらに含む、請求項1から7のいずれか一項に記載の方法。

請求項9

空間的に符号化されたサウンドトラックを生成することをさらに含み、ここで前記ローカルマイクロホン信号は、前記音場マイクロホンシステムに対する前記音源の位置で符号化される、請求項1から8のいずれか一項に記載の方法。

請求項10

前記方法は、前記特定された前記音源の位置を使用して、さらなる動作を制御することを含む、請求項1から9のいずれか一項に記載の方法。

請求項11

カメラシステムを使用して映像信号をキャプチャすることをさらに含み、ここで前記音源は前記映像信号内でキャプチャされる、請求項1から10のいずれか一項に記載の方法。

請求項12

前記音場マイクロホンシステムは前記カメラシステムと併置されている、請求項11に記載の方法。

請求項13

前記方法は、光学画像追跡技術を前記映像信号と共に使用して、前記音源の位置を精緻化することをさらに含む、請求項11又は12に記載の方法。

請求項14

前記方法は、光学画像追跡技術を使用して、前記空間的に符号化された音場信号と前記映像信号とを整列させることをさらに含む、請求項11に記載の方法。

請求項15

前記音場マイクロホンシステムは、少なくとも4つのマイクロホンを備える、請求項1から14のいずれか一項に記載の方法。

請求項16

前記音場マイクロホンシステムは、マイクロホンアレイエンコーダとを備える、請求項1から15のいずれか一項に記載の方法。

請求項17

前記空間的に符号化された音場信号は、アンビソニックフォーマット信号を含む、請求項1から16のいずれか一項に記載の方法。

請求項18

前記音場マイクロホンシステムの前記少なくとも2つのマイクロホンは、互いに隣接している、請求項1から17のいずれか一項に記載の方法。

請求項19

前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較することは、前記ローカルマイクロホン信号及び前記複数の成分のそれぞれをニューラルネットワークに入力することと、前記音場マイクロホンシステムに対する前記音源の位置を前記ニューラルネットワークからの出力として受信することとを含む、請求項1から18のいずれか一項に記載の方法。

請求項20

従前にキャプチャされたローカルマイクロホン信号と、空間的に符号化された音場信号と、音源位置に関する情報とを使用して、前記ニューラルネットワークを訓練することをさらに含む、請求項19に記載の方法。

請求項21

音源の位置を特定する方法であって、前記方法は、複数の成分を含む、空間的に符号化された音場信号を供給することであって、各成分は前記音源からの音声を含む、ことと、前記音源からの音声に対応するローカルマイクロホン信号を供給することと、前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成することと、前記複数の比較結果を使用して、前記音源の位置を特定することとを含む、音源の位置を特定する方法。

請求項22

複数の成分を含む空間的に符号化された音場信号を受信し、各成分はある音源からの音声を含み、前記音源からの音声に対応するローカルマイクロホン信号を受信し、前記ローカルマイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ前記複数の比較結果を使用して、前記音源の位置を特定するように構成された、コンピュータソフトウェアツール。

請求項23

複数の成分を含む音場信号を出力するように構成された音場マイクロホンシステムであって、各成分はある音源からの音声を含む、音場マイクロホンシステムと、前記音源に近接して配置され、かつ前記音源からの音声に対応する近接マイクロホン信号を出力するように構成された近接マイクロホンと、前記近接マイクロホン信号及び前記音場信号を受信するように構成されたプロセッサとを備え、前記プロセッサは、前記近接マイクロホン信号を前記複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ前記複数の比較結果を使用して、前記音場マイクロホンシステムに対する前記音源の位置を特定するように構成されている、音源位置特定システム

技術分野

0001

本出願は、音場録音システム、特に、空間オーディオコンテンツ又は仮想現実作品での使用に適した音場録音システムに関するが、これに限定されない。

背景技術

0002

音場、すなわち空間オーディオシステム及びフォーマット(たとえば、アンビソニックス、Dolby Atmos(商標)、Auro−3D(商標)、DTS:X(商標))は、特定の音響シーンに関連する空間的に符号化された音声情報を保存する方法をもたらしている。すなわち、これらのシステムは、音響シーン内音源位置情報割り当てる方法をもたらしている。空間的に符号化された音声情報(又は「音場」)は、(たとえば、コンピュータで生成されたビデオゲームの音響シーンを制作する場合に)位置情報が手動で割り当てられた、個別に録音されているサウンドトラックを使用して生成することができ、あるいは、たとえば多指向性アンビソニックマイクロホンを使用して、完全に生でキャプチャすることもできる。生の「音場」データのキャプチャは、(たとえば、オーケストラ一員として座っているかのような錯覚をもたらすことによって)典型的には従来の録音作業をより没入型のものにするために使用されてきたが、近年ではこの技術が仮想現実作品に適用され始めている。

0003

仮想現実(VR)作品は通常、360度の立体映像信号と、対応するサウンドトラックとで構成されている。これらの作品は、臨場感を生み出すために、一人称視点サポートしているプラットフォームでユーザに対して再生される。このようなプラットフォームの例としては、双眼ヘッドセット及びステレオヘッドホンデスクトップ用360度ビデオプレーヤー及び360度映画が挙げられる。双眼型ヘッドセットは通常、(たとえば、IMU/加速度計を使用して)ユーザの頭部の位置及び方向を追跡できるため、ヘッドセット及びヘッドホンに対して再生される映像及び音声がそれぞれ適宜調整されて、仮想現実の錯覚を維持することができる。たとえば、ある時点で、仮想環境でのユーザの現在の視界に対応している360度の映像信号の一部のみが、そのユーザに表示される。ユーザが頭部を動かしたり向きを変えたりすると、この動きによりユーザの視界がどのように変化するかを仮想世界で反映するために、ユーザに表示される360度の信号の一部が変化する。同様に、仮想シーンでさまざまな場所から聞こえてくる音声は、ユーザが動くときに、左右のヘッドホンチャンネル適応フィルタリングを受けることになり、部と人の頭部と上半身との間の空間的オフセットが分散することによって現実に発生する、当該音声の周波数に依存した位相変化振幅の変化とをエミュレートすることができる。

0004

一部のVR作品は、コンピュータ生成映像と、個別に事前録音又は合成された音声とで全て構成されている。しかしながら、360度の視界を記録できるカメラと、空間的に符号化されたサウンドトラックを録音できる音場マイクホンとを使用して、「生の動作」のVR録画映像を制作することがますます一般的になっている。その後、録音された音声と映像とが処理されて、上記のようなヘッドセットとヘッドホンとを介して再生できるVR録画映像が制作されることになる。

0005

音場マイクロホンシステムを使用してVRサウンドトラックを録音すると、録音された音声は空間情報ネイティブに符号化されるため、この録音された音声をVRアプリケーションに容易に実装することができる。録音されたこれらの映像信号及び音声信号は、最終的なVR録画映像を制作するために「整列させる」だけでよく、これによって上記のシステムを介して再生できるようになる。多くの市販のビデオ制作ツールやコンピュータ・ソフトウェア・アプリケーションには、空間的に符号化された音声ファイルを当該作品に取り入れる機能など、VR制作機能がすでに含まれている。

発明が解決しようとする課題

0006

空間オーディオマイクロホンは、空間内の特定の地点から生の音場情報をキャプチャするための便利なツールであるが、出力の品質及び柔軟性に関していくつかの制限がある。たとえば、マイクロホンから遠く離隔した場所にいる人物音質は大幅に低下する恐れがある。また、エフェクトを追加したりレベルを調整したりする目的で、音場録音内の単一の音源を分離することも困難である。本出願は、これらの課題の少なくとも一部を軽減することを図るものである。

課題を解決するための手段

0007

第1の態様から、本発明は、音源の位置を特定する方法を提供するものであり、本方法は、
少なくとも2つのマイクロホンを備える音場マイクロホンシステムを使用して、空間的に符号化された音場信号を生成することであって、この空間的に符号化された音場信号は複数の成分を含み、各成分は当該音源からの音声を含む、ことと、
当該音源に近接して配置されたローカルマイクロホンを使用して、当該音源からの音声に対応するローカルマイクロホン信号を生成することと、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
これら複数の比較結果を使用して、音場マイクロホンシステムに対する当該音源の位置を特定することとを含む。

0008

このため、本発明によって、より高い音質及び/又は分離を生成し得るローカルマイクロホン信号を容易に使用し、かつこれを音場マイクロホン信号と一体化できることが、当業者には明らかとなるであろう。

0009

したがって、本発明は、音声のみの制作(たとえば、音楽演奏又は演劇上演、朗読作品、ラジオ放送ポッドキャストなど)を含む、高品質で精度も高く、かつ没入型の空間オーディオ録音又は生放送を容易に実現することができる。

0010

また、従来の音声及び映像の制作では、音質と分離レベルとを向上させるために、カメラから離隔している音源を近接マイクロホン(たとえば、人の衣服に留められるラベリアタイプのマイクロホン)でキャプチャする場合がある。ここで結果として得られる音声信号は、これら音声及び映像の2つのタイミングを同期することで映像に取り込むことができる(多くの場合、録音装置タイムコード及び同期信号装置へと接続し、当該ユニットに同一のワードクロックとタイムコードとをもたらすことで実現される)が、この手法はVR制作にそれほど容易に適用されるものではない。映像トラック及び音声トラックのタイミングの同期は比較的容易に行えるが、VR世界内に音声を配置して、映像内の特定の方向から音声が聞こえるように見せるには、音源の位置に関する追加情報が必要となる。音源が移動している場合、及び/又はシーンの一部若しくは全体でカメラの視界から音源が部分的に、又は完全に隠れている場合、本プロセスはさらに複雑になる。

0011

音源の位置を特定するために使用できる1つの手法は手動追跡であり、これにより、ユーザはポストプロダクション中に録画映像を監視し、音源の位置及び/又は経路を手動で追跡する。次いで、当該音源の近接マイクロホンを使用した録音が手動で追跡された位置又は動きに割り当てられ、正確な空間オーディオ情報を使用した最終的なVR作品を制作することができる。ただし、この手法は相当の労力を要し、精度も低くなる可能性があり、またカメラで確認できる音源でのみ実行可能となっている。その上、二次元で音源の位置特定を行うことに実質的に制限されている。距離情報推定され、かつ/又は一定値に設定される必要もあり得る。こうした課題は全て、最終的なVRサウンドトラックでの音場再生の精度が低下し、またVR体験における没入感が低下することへとつながっていく。この手法は、録画映像が利用できない音声のみの制作には全く適用されない。

0012

典型的な生の動作シーンには、数十又は数百の個々の音源が含まれる場合がある。対象となる各音源に個々の近接マイクロホンを供給することは、分離及び音質を考慮する点で有益であるが、上記の理由により、これには多くの制作リソースと時間とが別途必要になり得る。

0013

これに対し、本発明によれば、音源からの音声は近接マイクロホン及び音場マイクロホンシステムの両方によって検出される(ただし、強度及び品質は低下する)ので、本出願人は、複数の比較結果を使用すれば、音場マイクロホンシステムに対する当該音源の位置を特定することが可能であると理解している。これは、ユーザ(たとえば制作者)が、時間がかかり、なおかつ精度の低い手法を使用して、音源の位置を手動で特定する必要がないことを意味している。その代わりに、最小限のユーザ入力で、音源の位置を自動的に特定することができる。本手法には、精度が向上する可能性と、音声のみの制作で、又はカメラが認識できない音源(たとえば、低照度のシーン又は暗いシーン、あるいは当該音源がより大きな物体に含まれているが、その物体と区別できないような場合)で使用できるという別の利点がある。

0014

ローカルマイクロホン信号は通常、音源によって生成される音声を正確に表すと仮定され、またローカルマイクロホンは、好ましくは当該音源にできるだけ近接して配置され、その結果、当該音源の位置を特定することが、ローカルマイクロホンの位置を特定することと実質的に等価となる。

0015

「空間的に符号化された」という用語は、本明細書では、位置情報を特定できるデータを指すために使用されている。このデータは、音声データと共に保存される明示的な位置メタデータを含んでいてもよいが、位置情報を回復できるデータを含むとさらに理解される必要があり、この例としては、前記マイクロホンからの音声データと共にマイクロホンの既知の位置及び/又は指向性が挙げられる。空間的に符号化された音声信号の例としては、アンビソニックAフォーマット又はアンビソニックBフォーマットが挙げられる。

0016

本音マイクロホンシステムは、空間的に符号化された音場信号を生成できるマイクロホンのあらゆる配列を含んでいてもよく、これにはたとえば、平面配列直交配列、又はより複雑な配列が含まれる。

0017

本出願人は、三次元で位置情報を明確に特定するには、理論上は本音場マイクロホンシステムが4つ以上のマイクロホンを備えることが必要になり得ると認識しているが、多くの場合、位置を十分正確に特定するのに2つのマイクロホンがあれば十分であり得ることも理解している。たとえば、音源の位置又は動きに対する物理限界の知識、あるいは追跡技術と連携して得た開始位置に関する知識などの追加情報を使用することが、音源の位置を分析する補助となり得る。ただし、一組の実施形態では、本音場マイクロホンシステムは少なくとも3つのマイクロホンを備え、またいくつかのそのような実施形態では、本音場マイクロホンシステムは少なくとも4つのマイクロホンを備える。

0018

一組の実施形態では、本音場マイクロホンシステムは、処理モジュールをさらに備える。この処理モジュールは、複数のマイクロホンの出力を位置データで符号化するように構成されていてもよい。

0019

好ましくは、本音場マイクロホンシステムの少なくとも2つのマイクロホンは互いに隣接しているが、これらは概ね、互いから離隔している可能性がある。本音場マイクロホンシステムは、互いに直交して配置された複数のマイクロホンを備えていてもよく、これはすなわち、最大の応答を有する各マイクロホンのそれぞれの軸が、互いに直交していることを意味する。

0020

いくつかの実施形態の組では、ローカルマイクロホン信号を複数の成分のそれぞれと比較することは、このローカルマイクロホン信号と複数の成分のそれぞれとの間の相関尺度を決定することを含む。任意の適切な相関の尺度を使用してもよいが、一組の実施形態では、この相関の尺度は、ローカルマイクロホン信号と、空間的に符号化された音場信号の複数の成分のそれぞれとの間のクロススペクトルを含む。いくつかのそのような実施形態では、ローカルマイクロホン信号及び空間的に符号化された音場信号が前処理されてから、相関の尺度が決定される。たとえば、ローカルマイクロホン信号及び複数の成分のそれぞれは、フーリエ変換されてもよい。

0021

いくつかの実施形態では、空間的に符号化された音場信号の複数の成分のそれぞれは、マイクロホンの1つからの出力のみで構成されている。そのような実施形態では、各マイクロホンの位置及び方向は典型的には既知であり、そこから空間的符号化を達成することができる。いくつかのそのような実施形態では、空間的に符号化された音場信号は、アンビソニックAフォーマット信号のセットを含む。

0022

いくつかのそのような実施形態では、決定された相関の尺度を使用して、ローカルマイクロホン信号と複数の成分の少なくとも1つとの間における1つ又は複数の伝搬遅延(たとえば、ローカルマイクロホン信号と複数の成分のそれぞれとの間に発生する伝搬遅延)を計算することができる。そのような実施形態では、本音場マイクロホンシステムに対する音源の位置を特定することは、この伝搬遅延の2つ以上の間の差を使用して、本音場マイクロホンシステムからローカルマイクロホンへの方向を特定することを含んでいてもよい。

0023

マイクロホンのそれぞれの位置が分かっているので、計算されたこれらの伝搬遅延を音速推定値と共に使用して、音源からマイクロホンのそれぞれまでの距離を特定することができる。これらの距離がぴったり一致する地点を特定することにより、音源の位置を特定することができる。この「三辺測量」法は、特定された距離の差が個々の範囲測定値不確実性よりも大きいことに依存している。結果的に、本方法は、それぞれのマイクロホンと音源との間の特定された距離により大きな差が生じるために、これらのマイクロホンがある程度離隔して配置されているような音場マイクロホンシステムにとりわけ適している。

0024

ローカルマイクロホン信号と複数の成分のそれぞれとの間における伝搬遅延を計算することは、決定された相関の尺度のそれぞれ(たとえば、クロススペクトルのそれぞれ)における相互相関を計算することを含んでいてもよい。

0025

本音場マイクロホンシステムに対する音源の位置を特定することは、伝搬遅延の少なくとも1つ、たとえば、伝搬遅延の平均値を、音速の推定値と共に使用して、本音場マイクロホンシステムからローカルマイクロホンまでの距離を特定することにより、音場マイクロホンシステムからローカルマイクロホンまでの距離を特定することを含んでいてもよい。

0026

複数の成分のそれぞれとローカルマイクロホン信号との間に十分な時間的同期があれば、各送信機とマイクロホンとの間の距離範囲を高精度に(たとえば、数cmまで)測定することができる。

0027

複数の成分のそれぞれとローカルマイクロホン信号との間の時間的同期が不正確であるか、又は利用できない状況であっても、本音場マイクロホンシステムからローカルマイクロホンまでの距離の経時変化を依然として特定できる場合があり、たとえば、既知の音源の初期位置とこれとを組み合わせることにより、この距離の経時変化を使用して、本音場マイクロホンシステムに対する音源の位置を特定することができる。

0028

代替の実施形態では、少なくとも2つのマイクロホンからの出力が処理されて、空間的に符号化された音場信号が生成される。これは、マイクロホン信号からの出力を組み合わせて、複数の成分を生成することを含んでいてもよい。そのような実施形態では、これら複数の成分のそれぞれは、特定の位置、方向、及び感知領域を有する仮想マイクロホンの出力に対応していてもよい。たとえば、これら複数の成分のそれぞれは、球面調和関数の1つに対応する感知領域を有するマイクロホンに対応していてもよい。一組の実施形態では、空間的に符号化された音場信号は、アンビソニックBフォーマット信号のセットを含む。いくつかのそのような実施形態では、本音場マイクロホンシステムは、マイクロホンアレイエンコーダとを備える。エンコーダは、マイクロホンアレイからの出力を処理して、空間的に符号化された音場信号を生成するように構成されていてもよい。

0029

いくつかのそのような実施形態では、決定された相関の尺度を使用して、本音場マイクロホンシステムから音源への方向及び範囲を計算する。上記のように、Bフォーマット信号及びローカルマイクロホン信号はフーリエ変換されてもよく、また相関の尺度は、ローカルマイクロホン信号と複数の成分のそれぞれとの間のクロススペクトルを含んでいてもよい。

0030

ローカルマイクロホン信号と複数の成分のそれぞれとの間で計算されたクロススペクトルを使用して、音源及びマイクロホンを含む当該環境のインパルス応答を求めることができる。次いで、時間窓をこのインパルス応答に適用して、球面調和関数によって重み付けされた直接音を抽出することができる。球面調和関数の成分それぞれの重みを使用して、音源の方位角及び仰角(すなわち方向)を抽出することができる。

0031

いくつかの実施形態では、相関の尺度を使用して、球面調和関数によって重み付けされた直接音の自己相関を求めることができる。そのような実施形態では、本音場マイクロホンシステムからローカルマイクロホンへの方向は、直接音の自己相関の成分を評価することによって抽出することができる。

0032

音源から本音場マイクロホンシステムまでの範囲は、インパルス応答の0次成分(すなわち、0次の0球面調和関数)を調べ、かつローカルマイクロホン信号と空間的に符号化された音声信号との間における伝搬遅延を抽出することによって計算することができる。次いで、音源から本音場マイクロホンシステムまでの範囲は、伝搬遅延に音速の推定値を乗算することによって計算することができる。この計算された範囲を特定された音源の方向と組み合わせると、音源の位置が完全に確定することになる。一次球調和関数の成分の比重から方位角及び仰角を求める場合において、直接音を抽出するときに使用される時間窓を調整するために、この伝搬遅延も使用することができる。

0033

上記から理解されるように、本発明の多くの実施形態では、本音場マイクロホンシステムに対する音源の位置を正確に特定するために、音速を高精度に推定しなければならない。したがって、いくつかの実施形態では、周囲温度測定値を使用して、音源の位置を特定する際に使用される音速の推定値を計算又は精緻化している。

0034

前述のように、VR制作では、音源が当該シーン内を移動することがよくある。本発明は、音源が移動音源を含んでいる状況にとりわけ適用可能であり得るが、それはなぜなら、制作中、移動音源を手動で追跡する際に要する相当の労力を軽減することができるからである。

0035

移動音源を特徴とする実施形態では、ローカルマイクロホンは、好ましくは音源と共に移動するように構成され、当該音源からの音声に対応するローカルマイクロホン信号を確実に生成し続けるようにしている。これは、ローカルマイクロホンを音源に固定又は接続することで実現され得る。たとえば、この音源は発話中の人物を含んでいてもよく、またローカルマイクロホンは、その人物の衣服のアイテムに留められるラベリアマイクロホンを含んでいてもよい。

0036

本出願人は、本明細書に開示している位置特定技術が、対象となる音源が複数存在する状況にも適用できることを理解している。上記のように、複数の音源を使用する制作では、それぞれの位置を手動で追跡することは相当の労力を要する可能性がある。したがって、いくつかの実施形態では、複数の成分のそれぞれは第2の音源からの音声を含み、本方法は、
第2の音源に近接して配置された第2のマイクロホンを使用して、第2のマイクロホン信号をキャプチャすることであって、ここで第1のマイクロホン信号は、第2の音源からの音声を含む、ことと、
この第2のマイクロホン信号を複数の成分のそれぞれと比較して、第2の複数の比較結果を生成することと、
これら第2の複数の比較結果を使用して、本音場マイクロホンシステムに対する第2の音源の位置を特定することとをさらに含む。

0037

本明細書に記載の方法を使用して特定される音源の位置には、いくつかの異なる用途がある。いくつかの実施形態では、本方法は、空間的に符号化されたサウンドトラックを生成することをさらに含み、ここでローカルマイクロホン信号は、本音場マイクロホンシステムに対する音源の位置で符号化される。これにより、制作中に音源を手動で追跡することに関連した作業負荷を別途要することなく、精度が高く、没入感のある再生をユーザが行うことができる。

0038

本出願人はまた、いくつかの実施形態において、当該位置を有利に使用して、さらなる動作を制御できることを理解している。当該位置はリアルタイムで特定されてもよく、空間的に符号化された音場信号及びローカルマイクロホン信号が生成されている間に特定される。いくつかのそのような実施形態では、音源の位置を使用して、たとえば効果音、カメラの動き、及び/又は照明の変更を自動的にトリガすることができる。

0039

いくつかの実施形態では、音源の位置を使用して、効果音又は音響処理技術をトリガ又は制御することができ、この例としては、ゲインレベル及び/又は自動ゲイン制御(AGC)、コンプレッサーミキシングドライウェットミックスを含むディレイリバーブイコライジングを含むフィルタリングトレモロモジュレーションコーラスフランジャーワウワウ、フェイザー、タイムストレッチピッチシフトノイズリダクションリストア、ヴォコーディングオートチューン、及びサウンドシンセシスが挙げられる。

0040

そのような効果音若しくは処理技術は、ダイジェティックサウンド信号又はノン・ダイジェティック・サウンド信号に適用され、かつ/又は実行されてもよい。これらの効果音及び/又は処理技術は、他の音源から発信される音声にも同様に、又は代わりに適用されてもよいが、位置特定の対象となる音源によって発信される音声に適用され、かつ/又は実行されてもよい。

0041

これらの効果音及び処理はモノラルであってもよいし、空間的であってもよい。

0042

上記のように、本発明は、対応するサウンドトラックと共に映像を含む仮想現実(VR)制作内での使用にとりわけ適している。このため、いくつかの実施形態の組では、本方法は、カメラシステムを使用して映像信号をキャプチャすることをさらに含み、ここで音源は、この映像信号内でキャプチャされる。この映像信号は、360度の映像信号を含んでいてもよい。

0043

音源の位置を使用して、再編成フィルタテキスト字幕、又はコンピュータ生成画像CGI)などの映像効果又は処理技術をトリガし、かつ/又は制御することもできる。

0044

いくつかのそのような実施形態では、本音場マイクロホンシステムはカメラシステムと併置されている。本音場マイクロホンシステム及びカメラシステムは、エンドユーザにとって便利なVR制作ソリューションをもたらすために、一体になった映像及び音声記録装置の一部として設けられてもよい。ただし代替の実施形態では、本音場マイクロホンシステムは、カメラシステムとは別個に(すなわち、併置されずに)設けられてもよい。

0045

これらの実施形態のいずれかにおいて、本方法は、映像信号内で光学画像追跡技術を使用して、音源の位置を特定し、かつ精緻化することをさらに含んでいてもよい。これは自動化されていてもよいが、ユーザ入力が一部必要になり得る。2つの独立した位置特定技術を組み合わせることにより、位置の特定における不確実性を低減することができる。音源の位置を特定する際に使用される音速の推定値は、映像信号内で光学対象追跡を使用して位置特定バイアスを推定することによって精緻化されてもよい。

0046

音場マイクロホンが別々に設けられている実施形態では、映像信号内で光学画像追跡技術を使用して、空間的に符号化された音場信号と映像信号とを整列させてもよい。

0047

本音場マイクロホンシステムとカメラシステムとが離隔して配置されている実施形態では、2つのシステムの空間定位がずれている可能性がある。2つの独立した位置特定技術を組み合わせることにより、2つのシステムの空間定位を揃えることができる。

0048

いくつかの実施形態では、ローカルマイクロホン信号を複数の成分のそれぞれと比較することは、ローカルマイクロホン信号及び複数の成分のそれぞれをニューラルネットワークに入力することと、本音場マイクロホンシステムに対する音源の位置を前記ニューラルネットワークからの出力として受信することとを含む。いくつかのそのような実施形態では、このニューラルネットワークは、従前にキャプチャされたローカルマイクロホン信号と、空間的に符号化された音場信号と、音源位置に関する情報とを使用して訓練される。

0049

本明細書に記載の音源の位置を特定する方法が、本方法が実行されるそれぞれの信号をキャプチャするシステムの一部として使用できることが、当業者には理解されるであろう。ただしこのことは必須ではなく、従前にキャプチャされたか、又は他の場所でキャプチャされた信号に対しても同様に実行することができる。したがって、第2の態様から見た場合、本発明は、音源の位置を特定する方法を提供するものであり、本方法は、
複数の成分を含む、空間的に符号化された音場信号を供給することであって、各成分は当該音源からの音声を含む、ことと、
当該音源からの音声に対応するローカルマイクロホン信号を供給することと、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成することと、
これら複数の比較結果を使用して、当該音源の位置を特定することとを含む。

0050

本発明の第2の態様は、
複数の成分を含む空間的に符号化された音場信号を受信し、各成分はある音源からの音声を含み、
当該音源からの音声に対応するローカルマイクロホン信号を受信し、
このローカルマイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつ
これら複数の比較結果を使用して、当該音源の位置を特定するように構成されたソフトウェアを備える、コンピュータソフトウェアツール又は非一時的なコンピュータ可読媒体に及ぶ。

0051

本発明の第1の態様による方法の実施形態の多くが、上記の第2の態様による方法又はソフトウェアの実施形態でもあることが理解されるであろう。たとえば、上記の第2の態様による方法又はソフトウェアは、空間的に符号化されたサウンドトラックを生成するためのデータ、あるいは効果音、カメラの動き、及び/又は照明の変更などのさらなる動作を制御するための制御信号を供給することを含み得る。

0052

本発明は、概して、本明細書に記載の方法を実行するように構成された装置、たとえばある音源位置特定システムにも及ぶものであり、この音源位置特定システムは、
複数の成分を含む音場信号を出力するように構成された音場マイクロホンシステムであって、各成分はある音源からの音声を含む、音場マイクロホンシステムと、
当該音源に近接して配置され、かつ当該音源からの音声に対応する近接マイクロホン信号を出力するように構成された近接マイクロホンと、
この近接マイクロホン信号及び音場信号を受信するように構成されたプロセッサとを備え、
このプロセッサは、近接マイクロホン信号を複数の成分のそれぞれと比較して、複数の比較結果を生成し、かつこれら複数の比較結果を使用して、本音場マイクロホンシステムに対する当該音源の位置を特定するように構成されている。

図面の簡単な説明

0053

次に、本発明の特定の実施形態について、例示としてのみ、そして添付の図面を参照しながら説明する。
本発明の一実施形態に従って動作する、音場録音システムの概略図である。
簡略化された三辺測量による位置特定技術を示した概略図である。
本発明の一実施形態に従って動作する、移動音源を備える音場録音システムの概略図である。
本発明の一実施形態による、仮想現実生成システムの概略図である。

実施例

0054

図1は、音場マイクロホンアレイ2(たとえばアンビソニックマイクロホン)を備え、第1の人物4及び第2の人物6を伴う仮想現実制作からのシーンを示している。図1には示していないが、マイクロホンアレイ2は、あらゆる方向からマイクロホンアレイ2に到達する音声をキャプチャするように構成された、複数のマイクロホンを含む。これら複数のマイクロホンそれぞれの位置及び方向は、あらかじめ正確に選択される。マイクロホンアレイ2は、複数の音声信号を処理モジュール10へと出力するように構成されている。

0055

音場マイクロホンアレイ2と第1の人物4との間の距離、及びその結果としての信号対雑音比の低下に起因して、第1の人物からの発話が録音される際の音質が、特定の用途には適切でないものとなり得る。

0056

結果として得られるサウンドトラックでの第1の人物による発話の音質を上昇させるために、ローカルマイクロホン8が第1の人物4に近接して配置される。このマイクロホンは、たとえば衣服のアイテムに取り付けられる目立たないラベリアタイプのマイクロホンか、又は録音位置のすぐ外に配置される指向性のブームマイクロホンとすることができる。ローカルマイクロホン8は、処理モジュール10に渡される単一の(モノラルの)ローカルマイクロホン信号を出力する。

0057

マイクロホン2、8と処理モジュール10との間に物理的接続を示しているが、無線による接続、たとえば無線周波数接続を、それらの一方又は両方に同様に供給することができる。

0058

ローカルマイクロホン8が第1の人物4に非常に近接して配置されているので、高い信号対雑音比を実現することができ、またそこからの信号は、第1の人物4からの音声によって支配されることになる。

0059

図1に示すように、第1の人物4が発話中のため、当該シーン内の音源としてこれが機能している。第2の人物6も同様に発話中であり、これも別の音源として機能している。第1の人物4及び第2の人物6の両方によって生成される音声は、マイクロホンアレイ2によってキャプチャされる。その結果、マイクロホンアレイ2によって出力される複数の音声信号は、第1の人物及び第2の人物4、6の両方からの音声を表している。

0060

ここに示している本システムは、マイクロホンアレイ2によってキャプチャされる、第1の人物4及び第2の人物6の両方からの音声を含む、通常の空間的に符号化されたサウンドトラックを生成することができる。具体的には、処理モジュール10は、個々のマイクロホンの既知の位置及び方向と共に、マイクロホンアレイ2からの複数の信号を使用して、複数の成分を含む空間的に符号化された音場信号を生成し、各成分は第1の人物4及び第2の人物6からの音声を含む。

0061

ただし、本発明によれば、ローカルマイクロホン8からのより高品質の信号を、空間的に符号化されたサウンドトラックにさらに取り込むことができる。

0062

これを行うために、音場マイクロホンアレイ2に対する第1の人物4の位置を特定する必要がある。処理モジュール10は、ローカルマイクロホン8からの信号をマイクロホンアレイ2からの複数の成分のそれぞれと比較して、複数の比較結果を生成することによってこれを行う。

0063

ローカルマイクロホン8からのより高品質の信号を空間的に符号化されたサウンドトラックに取り込むことに加えて、又はその代わりに、音場マイクロホンアレイ2に対する第1の人物4の位置を使用して、制作中若しくは制作後に、たとえば効果音の適用の制御又は音響レベル自動制御をトリガしてもよい。

0064

処理モジュール10が第1の人物4(すなわち、音源)の位置を特定できるいくつかの方法があり、そのうちの2つについては、以下の一般的な例において詳述している。図1では、マイクロホンアレイ2及びローカルマイクロホン8に物理的に近接して配置され、かつこれに接続された状態で処理モジュール10を示しているが、処理モジュール10は、たとえば遠隔サーバ上に設けられるなど、遠隔に配置されてもよい。

0065

処理モジュール10を使用して、音声のキャプチャが進行している間に「リアルタイム」で第1の人物4の位置を特定することができ、たとえば上述したようなさらなる動作を制作中にトリガすることができる。ただし、その代わりに、この位置の特定を、たとえばポストプロダクション中など後で行ってもよい。

0066

図1に記載している状況の一般的な例を使用して、2つの異なる位置特定手法について説明する。

0067

第1の手法では、マイクロホンアレイは

個のマイクロホンで構成され、アンビソニックAフォーマット信号のセット

を出力しており(すなわち、それぞれのマイクロホンからの生の出力)、これらの信号はそれぞれ音源からの音声を含む。ローカルマイクロホンは、音源からの音声に対応するローカルマイクロホン信号

をキャプチャする。

0068

Aフォーマット信号が反射壁のある部屋に配置された

個の独立した音源で構成されていると仮定すると、

番目のマイクロホンの信号は次のように表すことができ、

ここで、

ノイズであり、



番目の音源と

番目のマイクロホンとの間の室内インパルス応答である。この室内インパルス応答が次のような

回の遅延反射で構成されていると仮定している。

0069

離散時間周波数フーリエ領域では、時間

における

番目のマイクロホンの信号は次のように表すことができる。

0070

サンプリング周波数である。本明細書の残りの部分では、可読性を確保するために、添え字Tを省略している。当該位置を推定するために、直接音

到達時刻が推定される。ローカルマイクロホン信号

及びAフォーマット信号

に対し、位相変換PHAT)アルゴリズムが使用されている。

0071

したがって、マイクロホン

から音源

までの距離が

に等しくなることを推定することができ、ここで

は音速である。

0072

マイクロホンのそれぞれから音源までの距離がひとたび特定されれば、音源の位置を特定するのに必要となるのは、これらの距離をマイクロホンの位置と併せて使用した簡単な代数操作のみである。図2は、このプロセスを二次元で示した概略図であるが、この理論は完全な3D実装にも同様に適用することができる。

0073

図2は、図1に示しているものと同様のマイクロホンアレイを構成する3つのマイクロホン202、204、206の位置を示している。音源208は、これら3つのマイクロホン202、204、206と、近接して配置されたローカルマイクロホン(図示せず)とによってキャプチャされる音声を生成する。上記と同様の方法を使用して、3つのマイクロホン202、204、206のそれぞれから当該音源までの距離が特定される。特定された距離のそれぞれは、当該音源が位置するところで対応しているマイクロホンを中心とする、円の半径画定する。音源208の位置は、3つの円がぴったり一致する地点を識別することによって特定することができる。

0074

次に、音源の位置を特定するための第2の手法について説明する。複数のマイクロホンを含むマイクロホンアレイは、それぞれが音源からの音声を含むアンビソニックAフォーマット信号のセットを出力している。このAフォーマット信号が処理されて、球面調和関数へと分解される部屋の音場を含む、アンビソニックBフォーマット信号のセットが生成される。Bフォーマット信号のそれぞれには符号

が付され、その際、m及びnは球面調和関数を表している。好ましい実施例では、本アンビソニックマイクロホンは、n=m=0及びn=1m=−1,0,1の場合に対応する4つの信号を出力する。これは、直交して配置された3つの8の字型マイクロホン(n=1m=−1,0,1)と一致する、全指向性マイクロホン(n=m=1)から発信されるAフォーマット信号と概念的に同等のものである。他の実施例では、高次の球面調和関数を使用してもよい(Bフォーマット信号の数を増加させる)。

0075

前述同様に、ローカルマイクロホンは、当該音源からの音声に対応するローカルマイクロホン信号

をキャプチャする。

0076

ここでも、

個の無相関の音源

が反射壁のある部屋でモデル化されている。この場合、結果として得られるアンビソニックBフォーマット信号は次のように記述でき、

ここで、

は室内インパルス応答であり、

は球面調和関数であり、また

はノイズを表している。

0077

この室内インパルス応答

は、次のような

回の遅延反射で構成されていると仮定している。

0078

したがって、Bフォーマット信号のフーリエ変換は、次のように記述することができる。

0079

位置特定の対象となる、Bフォーマット信号

とマイクロホン信号

との間のクロススペクトルが、次のように計算される。

0080

クロススペクトルに逆フーリエ変換を施すと、s番目の音源の推定自己相関関数

で畳み込まれたマイクロホン信号における、室内インパルス応答のアンビソニックBフォーマット表現(すなわち、球面調和関数へと分解されたもの)が、次のように生成される。

0081

このアンビソニック表現切り捨てた合計は、音源の方位角及び仰角に対応する球面調和関数によって重み付けされた、直接音の自己相関で切り捨てた合計(すなわち、あらゆる反射を除いたもの)を抽出する。

0082

切り捨ての制限成分

は、Aフォーマット信号の場合と同一の方法で、ローカルマイクロホン信号及び

全指向性Bフォーマット成分)にPHATアルゴリズムを使用することによって抽出することができる。



よりも小さいと仮定され、

となるように選択される。

0083

アンビソニックマイクロホンに対する音源の方向(方位角と仰角)は、以下のように

の成分を評価することによって抽出することができる。

0084

音源の位置を完全に確定するには、マイクロホンアレイから当該音源までの距離(又は範囲)も特定する必要がある。これは

を使用して計算することができ、ここで

は音速である。

0085

図3は、図1に示しているものと同様のシーンを示しており、ここで音場マイクロホンアレイ302及びローカルマイクロホン308が使用され、第1の人物304及び第2の人物306の両方からの音声を含む、空間的に符号化されたサウンドトラックを録音している。ただし、図1とは対照的に、このシーンの第1の人物304は、発話中に移動している(点線で示している)。従来技術のシステムでは、移動音源の位置を特定するには相当の労力を要するが、図1及び図2を参照して説明した本手法は、移動音源に完全に対応できるため、このシーンでも本手法を使用して、あらゆる動きを通して第1の人物4の位置を特定することができる。これにより、高品質のローカルマイクロホン信号を含む空間的に符号化されたサウンドトラックを、はるかに容易かつ迅速に生成することができる。

0086

図4は、図1及び図3に示すものと同様の仮想現実制作からのシーンを示しており、ここでは、音場マイクロホンアレイ402、ローカルマイクロホン408、及びプロセッサ410が使用され、第1の人物404及び第2の人物406の両方からの音声を含む、空間的に符号化されたサウンドトラックを録音している。ただし図4は、360度カメラ403も示しており、このカメラは、第1及び第2の人物404、406の両方を含む360度の映像信号をキャプチャするように動作可能である。この360度の映像信号は空間的に符号化されたサウンドトラックと共にユーザに対して再生され、制作中に手動追跡を集中的に行う必要もなく、第1の人物404からの高品質な音声を含む、没入型で精度の高いVR体験を生み出すことができる。

0087

上記のように、本明細書に開示している方法を使用して特定される、第1の人物404の位置は、制作中及び制作後の両方において高品質の音声を促進する以外の目的に使用することができる。たとえば、この第1の人物404の位置を使用して、カメラ403の動き及び/又は照明の調整を指示してもよい。本明細書に開示している方法は、ポッドキャスト又は音楽の演奏などの高品質の、没入型で精度の高い音声のみの制作(すなわち、360度映像付随させることなく)をさらに可能にし得る。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ