図面 (/)
課題・解決手段
概要
背景
特許文献1においては、ヘッドホン型の機構を有し、ノイズキャンセルのマイクを使用したバイノーラル録音装置が提案されている。
概要
本開示は、録音環境によらず、標準的な音に補償することができるようにする情報処理装置および方法に関する。マイクロホンは、音源からの音声を収音して、アナログの音声信号として録音装置に入力する。録音装置は、バイノーラル録音を行い、バイノーラル録音された音声の音声ファイルを生成する装置である。録音装置は、バイノーラル録音された音声ファイルに、バイノーラルコンテンツの録音時環境に関するメタデータを付加し、再生装置に送信する。本開示は、例えば、バイノーラル録音を行い、それを再生する録音再生システムに適用することができる。
目的
コンピュータ(CPU301)が実行するプログラムは、リムーバブルメディア311に記録して提供する
効果
実績
- 技術文献被引用数
- - 件
- 牽制数
- - 件
この技術が所属する分野
請求項1
請求項2
請求項3
前記メタデータは、前記バイノーラルコンテンツの録音時にダミーヘッドが使用されたか、実耳が使用されたかを示す使用フラグである請求項2に記載の情報処理装置。
請求項4
請求項5
前記位置フラグが耳介付近であることを示す場合、1乃至4kHz付近で補償処理が施される請求項4に記載の情報処理装置。
請求項6
請求項7
前記再生時補償処理は、5kHz付近および7kHz付近にディップを持つように行われる請求項6に記載の情報処理装置。
請求項8
前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクロホンの情報である請求項4に記載の情報処理装置。
請求項9
請求項10
録音時の音源からマイクロホンの位置までの音圧差を補償するための録音時補償処理を行う補償処理部をさらに備え、前記メタデータは、前記録音時補償処理が済んでいるか否かを示す補償フラグである請求項1に記載の情報処理装置。
請求項11
情報処理装置が、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する情報処理方法。
請求項12
バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する受信部を備える情報処理装置。
請求項13
前記メタデータに応じて、補償処理を行う補償処理部をさらに備える請求項12に記載の情報処理装置。
請求項14
前記受信部は、送信された画像を用いてのマッチングにより選択されて送信されてくるコンテンツを受信する請求項13に記載の情報処理装置。
請求項15
情報処理装置が、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する情報処理方法。
技術分野
背景技術
0002
特許文献1においては、ヘッドホン型の機構を有し、ノイズキャンセルのマイクを使用したバイノーラル録音装置が提案されている。
先行技術
0003
特開2009−49947号公報
発明が解決しようとする課題
0004
しかしながら、聴衆者の耳の形、耳の大きさといった身体的特徴は録音に使用されたダミーヘッド(または、人間の実耳を使用した録音環境)と異なるため、録音されたコンテンツをそのまま再生しても高い臨場感は得られない恐れがあった。
0005
本開示は、このような状況に鑑みてなされたものであり、録音環境によらず、標準的な音に補償することができるものである。
課題を解決するための手段
0007
前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたダミーヘッドまたは頭部の耳間距離である。
0008
前記メタデータは、前記バイノーラルコンテンツの録音時にダミーヘッドが使用されたか、実耳が使用されたかを示す使用フラグである。
0010
前記位置フラグが耳介付近であることを示す場合、1乃至4kHz付近で補償処理が施される。
0012
前記再生時補償処理は、5kHz付近および7kHz付近にディップを持つように行われる。
0013
前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクロホンの情報である。
0015
本技術の一側面の情報処理方法は、情報処理装置が、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する。
0016
本技術の他の側面の情報処理装置は、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する受信部を備える。
0017
前記メタデータに応じて、補償処理を行う補償処理部をさらに備えることができる。
0018
前記受信部は、送信された画像を用いてのマッチングにより選択されて送信されてくるコンテンツを受信することができる。
0019
本技術の他の側面の情報処理方法は、情報処理装置が、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する。
0020
本技術の一側面においては、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータが送信される。
0021
本技術の他の側面においては、バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータが受信される。
発明の効果
0022
本技術によれば、録音環境によらず、標準的な音に補償することができる。
0023
なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。
図面の簡単な説明
0024
本技術を適用する録音再生システムの構成例を示すブロック図である。
録音時の補償処理の例を説明する図である。
再生時に最適な音圧の調整について説明する図である。
実耳使用時の位置補償について説明する図である。
実耳使用時の位置補償について説明する図である。
再生の際の外耳道に対する影響の補償を説明する図である。
録音時補償処理を伝送前に施す場合の録音再生システムの例を示すブロック図である。
録音装置の録音処理について説明するフローチャートである。
再生装置の再生処理について説明するフローチャートである。
録音時補償処理を伝送後に施す場合の録音再生システムの例を示すブロック図である。
録音装置の録音処理について説明するフローチャートである。
再生装置の再生処理について説明するフローチャートである。
本技術を適用したバイノーラルマッチングシステムの例を示すブロック図である。
スマートフォンの構成例を示すブロック図である。
サーバの構成例を示すブロック図である。
バイノーラルマッチングシステムの処理例を説明するフローチャートである。
実施例
0025
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(概要)
2.第2の実施の形態(システム)
3.第3の実施の形態(応用例)
0026
<1.第1の実施の形態>
<概要>
携帯型の音楽プレイヤが普及している昨今では、音楽の視聴環境が主として家の外であり、ヘッドホンを利用して視聴を行うユーザは多いと考えられる。また、ヘッドホンを利用するユーザ数の増加に伴い、人間頭部の音響効果を再現するダミーヘッドや人間の実耳を利用して録音されたバイノーラルコンテンツを、ステレオ・イヤホンやステレオ・ヘッドホンにて使用するユースケースが今後増加すると考えられる。
0027
ところが、視聴者によってはバイノーラルコンテンツの視聴時に臨場感が損なわれる恐れがあった。これは、録音時に使用されたダミーヘッド(人間の実耳を利用した場合は頭部の形状など)について、視聴者との間に身体的な特徴差が生じることが要因となる。また、収音時の音圧レベルと再生時の音圧レベルに隔たりがあると、臨場感の低下につながる恐れがあった。
0028
さらに一般的に知られている通り、ヘッドホンやイヤホンには周波数特性が存在し、視聴者は好みに合わせたヘッドホンを選択することにより、快適に音楽コンテンツを使用することができる。しかしながら、バイノーラルコンテンツを再生する際は、ヘッドホンの周波数特性がコンテンツに付加されるため、再生ヘッドホンによっては臨場感の低下が生じる恐れがあった。加えて、本来ダミーヘッドを用いて鼓膜位置の音を収音すべきバイノーラル録音において、ノイズキャンセルマイクを用いて録音を行うと、録音位置の鼓膜に対する誤差によって臨場感に影響が生じる恐れがあった。
0029
本技術は、ダミーヘッドや実耳を使用してバイノーラル録音を実施する際に、
1.耳間の距離、頭部の形状といった個人差の要因になる情報
2.収音に使用するマイクの情報(周波数特性、感度など)
などの録音結果に影響がでる、録音環境(状況)に関するデータをメタデータとしてコンテンツに付加し、コンテンツ再生時に取得したメタデータを基に信号を補償することによって、録音機器や録音機材に依存せず、どのような機材を使用して録音しても標準的な音質および音量で録音が可能で、再生時においては、視聴者にとって最適な音量および音質の信号を再生する補償方法に関するものである。
0030
<録音再生システムの構成例>
図1は、本技術を適用する録音再生システムの構成例を示す図である。図1の例において、録音再生システム1は、バイノーラルコンテンツの録音と再生を行う。例えば、音源(source)11、ダミーヘッド12、ダミーヘッド12の鼓膜位置に設置されるマイクロホン13、録音装置14、再生装置15、ユーザ17の耳に装着して使用されるヘッドホン16、およびネットワーク18を含むように構成されている。なお、図1の例においては、録音装置14や再生装置15の表示部や操作部は説明の便宜上その図示は省略されている。
0031
音源11は、音声を出力する。マイクロホン13は、音源11からの音声を収音して、アナログの音声信号として録音装置14に入力する。録音装置14は、バイノーラル録音を行い、バイノーラル録音された音声の音声ファイルを生成する情報処理装置であり、生成された音声ファイルを送信する送信装置である。録音装置14は、バイノーラル録音された音声ファイルに、バイノーラルコンテンツの録音時環境に関するメタデータを付加し、再生装置15に送信する。
0032
録音装置14は、マイクアンプ22、ボリュームスライダ23、ADC(Analog-Digital Convertor)24、メタデータDB25、メタデータ付加部26、送信部27、および記憶部28により構成される。
0033
マイクアンプ22は、ボリュームスライダ23からのユーザによる操作信号に対応した音量となるように、マイクロホン13からの音声信号を増幅し、ADC24に出力する。ボリュームスライダ23は、ユーザ17によるマイクアンプ22のボリュームの操作を受け付け、受け付けた操作信号を、マイクアンプ22に送る。
0034
ADC24は、マイクアンプ22により増幅されたアナログの音声信号をデジタルの音声信号に変換し、メタデータ付加部26に出力する。メタデータDB(データベース)25は、録音に影響するデータであって、録音時の環境(状況)に関するデータを、すなわち、個人差の要因となり得る身体的特徴データ、および収音に使用した機材のデータをメタデータとして保持しており、メタデータ付加部26に供給する。具体的には、メタデータは、ダミーヘッドの型番、ダミーヘッド(または頭部)の耳間距離、頭の大きさ(縦、横)や形、髪型、マイクロホン情報(周波数特性、感度)、マイクアンプ22のゲインなどからなる。
0035
メタデータ付加部26は、メタデータDB25からのメタデータを、ADC24からの音声信号に付加し、音声ファイルとして、送信部27および記憶部28に供給する。送信部27は、メタデータが付加された音声ファイルを、ネットワーク18に送信する。記憶部28は、メモリやハードディスクにより構成され、メタデータが付加された音声ファイルを記憶する。
0036
再生装置15は、バイノーラル録音された音声の音声ファイルを再生する情報処理装置であり、受信装置である。再生装置15は、受信部31、メタデータDB32、補償信号処理部33、DAC(Digital - Analog Convertor)34、およびヘッドホンアンプ35を含むように構成されている。
0037
受信部31は、ネットワーク18から音声ファイルを受信し、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号(デジタル)をDAC34に供給し、取得したメタデータをメタデータDB32に蓄積する。
0038
補償信号処理部33は、受信部31からの音声信号に対して、再生時にメタデータを用いて個人差を補償し、視聴者(リスナ)にとって最適な信号を生成する処理を行う。DAC34は、補償信号処理部33により補償が行われたデジタル信号を、アナログ信号に変換する。ヘッドホンアンプ35は、DAC34からの音声信号を増幅する。ヘッドホン16は、DAC34からの音声信号対応する音声を出力する。
0039
ヘッドホン16は、ステレオ・ヘッドホンまたはステレオ・イヤホンであり、コンテンツ再生時に、再生されたコンテンツが聞けるように、ユーザ17の頭部や耳に装着される。
0040
ネットワーク18は、インターネットに代表されるネットワークである。なお、図1の録音再生システム1においては、ネットワーク18を介して、録音装置14から再生装置15に音声ファイルが送信され、再生装置15において受信されるように構成されているが、録音装置14から図示せぬサーバに音声ファイルが送信され、サーバを介して、再生装置15が音声ファイルを受信するようにしてもよい。
0041
なお、本技術においては、マイクロホンからの信号に対してメタデータを付加するが、このマイクロホンは、ダミーヘッドの鼓膜位置に設定されたものであってもよいし、実耳での使用を想定したバイノーラルマイクや、ノイズキャンセラ用の収音マイクを使用してもよい。さらに、別の目的のために設置されたマイクロホンを機能的に同時に使用する場合にも、本技術は適用される。
0042
図1の録音再生システム1は、上述したように、バイノーラル録音された録音コンテンツに対して、メタデータを付加し、伝送する機能を有する。
0043
<録音時の補償処理>
次に、図2を参照して、メタデータを用いることにより得られる補償処理の例について説明する。図2の例においては、基準となるダミーヘッド12−1でのバイノーラル録音の例と、録音の際に使用されるダミーヘッド12−2でのバイノーラル録音の例とが示されている。
0044
基準となるダミーヘッド12−1の特定位置の音源11からマイクロホン13−1が設置される鼓膜位置までの空間特性Fが測定される。また、録音の際に使用されるダミーヘッド12−2の音源11からマイクロホン13−2が設置される鼓膜位置までの空間特性Gが測定される。
0045
これらの空間特性を事前測定しておき、メタデータとして、メタデータDB25に記録しておくことにより、メタデータから得られる情報を用いて再生時に標準的な音に変換することが可能となる。
0047
また、頭部における耳間の距離をメタデータとして保持、付加し、音像を広げる(狭める)処理を行うことで、より標準的な音による録音が可能になる。本機能を便宜上、録音時補償処理と称する。この録音時補償処理を、数式を用いて説明を追加すると、基準となるダミーヘッド12−1を用いて録音した鼓膜位置の音圧Pは、次の式(1)により表される。
0048
一方で、標準とは異なるダミーヘッド(例えば、ダミーヘッド12−2)を用いて録音された際の音圧P´は、次の式(2)で表される。
0049
ここで、M1は基準となるマイクロホン13−1の感度であり、M2はマイクロホン13−2の感度である。Sは、音源の場所(位置)を表す。Fは上述したように基準となるダミーヘッド12−1の特定位置の音源11からマイクロホン13−1が設置される鼓膜位置までの空間特性である。Gは、録音の際に使用されるダミーヘッド12−2の音源11からマイクロホン13−2が設置される鼓膜位置までの空間特性である。
0051
なお、EQ1処理に加えて、耳間距離を用い、音像を広げる(狭める)処理実施してもよい。より臨場感が期待できる。
0052
<再生時の補償処理>
次に、図3を参照して、再生時に最適な音圧の調整について説明する。図3の録音再生システム51は、再生装置15において、補償信号処理部33が、再生時補償処理部61に入れ替わった点と、その図示が省略されていた表示部62と操作部63が明示された点が、図1の録画再生システム1と異なっている。
0053
図3の例の録音装置14においては、マイクアンプ22のマイク感度の情報をメタデータとしてメタデータDB25に記録しておき、再生装置15において、そのマイク感度の情報を用いることにより、ヘッドホンアンプ35の再生音圧を、最適値に設定することができる。なお、これを実現するためには、録音時の入力音圧の情報だけでなく、再生用ドライバの感度情報も必要となる。
0054
さらに、例えば、録音装置14において114dBSPLで入力された音源11を、再生装置15において114dBSPLの音声を出力できる。その際、すなわち、再生装置15において最適音量に調整する際は、事前にユーザに確認を呼びかけるメッセージを表示部62に表示させるか、または、音声ガイドとして出力させる。これにより、ユーザを驚かすことなく、音量調整を行うことができる。
0055
<実耳使用時の位置補償>
次に、図4を参照して、実耳使用時の位置補償について説明する。図4の例においては、図2と同様に、基準となるダミーヘッド12−1でのバイノーラル録音の例と、録音の際に使用されるダミーヘッド12−2でのバイノーラル録音と、実耳使用時のバイノーラル録音の例とが示されている。
0056
図4に示されるように、ユーザ81が実耳型のバイノーラルマイク82にて収音する場合、ダミーヘッド12−1や12−2の場合の鼓膜位置と異なり、マイク位置での収音となるため、マイク位置と鼓膜位置での目標音圧になるよう補償が必要となる。
0059
この録音時位置補償処理を、数式を用いて説明するに、本来鼓膜位置にて録音した場合における鼓膜位置にて録音した場合における鼓膜位置での音圧Pは次の式(4)により表される。
0060
一方で、実耳型のバイノーラルマイク82を用いて録音を行った際のマイク位置における音圧P´は、次の式(5)で表される。
0061
図2の場合と同様に、M1は基準となるマイクロホン13−1の感度であり、M2はマイクロホン13−2の感度である。Sは、音源の場所(位置)を表す。Fは上述したように基準となるダミーヘッド12−1の特定位置の音源11からマイクロホン13−1が設置される鼓膜位置までの空間特性である。Gは、録音の際に使用されるダミーヘッド12−2の音源11からバイノーラルマイク82(マイクロホン13−2)が設置される鼓膜位置までの空間特性である。
0062
以上より、次の式(6)のEQ2処理を施すことにより、鼓膜位置と異なる位置におけるマイクをしようしたとしても標準な音にて録音することが可能となる。
0063
なお、メタデータを用いて、鼓膜位置以外の位置に設置されたマイクの信号を鼓膜位置での標準的な信号に変換する為には、バイノーラル録音を実施したというフラグ、鼓膜位置でなく、実耳を用いて耳介付近に設置したマイクにて録音したというフラグ、そして、音源からバイノーラルマイクまでの空間特性が必要となる。
0064
ここで、ユーザ81が何らかの方法を用いて空間特性を測定できるのであれば、本人のデータを使用しても良い。しかしながら、データを有していない場合を考慮すると、図5のAに示されるように、標準的なダミーヘッド12−2にバイノーラルマイク82を設置し、音源からバイノーラルマイクまでの空間特性を事前測定すると、実耳を用いて録音したデータに対しても、標準的な音として録音が可能となる。
0065
なお、録音時位置補償処理に用いるEQ2の作成例について述べると、EQ2においてM1及びM2の項はマイクの感度差を補償する項となっており、周波数特性の差はF/Gの項に主に表れる。F/Gはマイク位置から鼓膜位置までの特性の差として表すことができるが、図5のBの矢印に示されるように、F/G特性は外耳道共振の影響を大きく受ける特性となる。つまり、標準的なデータとしては、耳介側が開放端、鼓膜側が密閉端とした共振構造を考えて、次のEQ構造を持てばよい。
・3kHz(1乃至4kHz)付近にピークを持つ
・ピークに向けて、200Hz-2kHzの間で3dB/octのカーブを描く
0067
<再生の際の外耳道に対する影響の補償>
バイノーラルコンテンツ再生時に実施する補償処理は鼓膜位置にて収音されたバイノーラル録音コンテンツおよび人間の実耳を利用して収録したコンテンツ両方に対して必要となる。
0068
すなわち、鼓膜位置で収音されたコンテンツは既に外耳道を経由しており、ヘッドホン等を利用してバイノーラルコンテンツを再生すると、二重に外耳道共振の影響を受けてしまう為である。また、実耳を使用してバイノーラルコンテンツを録音する際については、録音位置と再生位置が異なる為、上記の位置補償を事前に実施する必要がある。
0069
したがって、実耳を使用した録音コンテンツに対しても同様に、本補償処理は必要となる。本補償処理を、以下、便宜上、再生時補償処理と呼ぶものとする。補償処理EQ3について数式を用いて説明を追加すると、図6に示されるように、EQ3はヘッドホンの周波数特性に加え、耳穴密閉時の外耳道特性を補正する処理となる。
0070
吹き出しに記載の長方形は、外耳道を表しており、例えば、左側が耳介側で、固定端、右側が鼓膜側で固定端である。このような外耳道の場合、図6のグラフに示されるように、外耳道特性として、5kHzと7kHz付近に録音EQのディップがくる。
0071
したがって、標準的なデータとしては、耳穴密閉時の外耳道共振である、次の特徴を持たせればよい
・5kHz付近に-5dB程度のディップを持つ
・7kHz付近に-5dB程度のディップを持つ
0072
以上のように補償処理が行われるが、補償処理を行う際には、補償処理を施す位置によって、複数のパターンが考えられる。次に、パターン毎のシステム例について説明する。
0073
<2.第2の実施の形態>
<本技術を適用した録音再生システムの例>
図7は、録音時補償処理を伝送前に施す場合の録音再生システムの例を示す図である。図7の例の録音再生システムにおいては、録音の際にメタデータとして、基準ダミーヘッドと録音時に使用したダミーヘッドの情報が付加されるのではなく、2つのダミーヘッド間の特性差から、伝送前に録音時補償処理が実施されて、標準的な音に変換後、伝送が行われる。
0074
図7の録音再生システム101は、録音装置14において、録音時補償処理部111が追加された点と、再生装置15において、補償信号処理部33が、再生時補償処理部61に入れ替わった点とが、図1の録画再生システム1と異なっている。
0075
また、録音装置14から、再生装置15に送信される音声ファイル102は、ヘッダ部、データ部、フラグを含むメタデータが格納されるメタデータ領域で構成されている。フラグとしては、例えば、バイノーラル録音であるか否かを示すバイノーラル録音フラグ、ダミーヘッドor実耳装着マイクを用いて録音したのかを示す使用判別フラグ、録音時補償処理がなされているか否かを示す録音時補償処理実施フラグなどがある。図7の音声ファイル102においては、例えば、メタデータ領域において1が示される領域に、バイノーラル録音フラグが格納されており、2が示される領域に、使用判別フラグが格納されており、3が示される領域に、録音時補償処理実施フラグが格納されている。
0076
すなわち、録音装置14のメタデータ付加部26は、メタデータDB25からのメタデータを、ADC24からの音声信号に付加し、音声ファイル102として、録音時補償処理部111に供給する。録音時補償処理部111は、2つのダミーヘッド間の特性差に基づいて、音声ファイル102の音声信号に対して録音時補償処理を行う。そして、録音時補償処理部111は、音声ファイル102のメタデータ領域の3が示される領域に格納されている録音時補償処理実施フラグをオンに設定する。なお、録音時補償処理 実施フラグは、メタデータとして付加される時点ではオフに設定されている。録音時補償処理部111は、録音時補償処理がなされ、メタデータのうち、録音時補償処理 実施フラグがオンされた音声ファイルを、送信部27および記憶部28に供給する。
0077
再生装置15の受信部31は、ネットワーク18から音声ファイルを受信し、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号(デジタル)をDAC34に出力し、取得したメタデータをメタデータDB32に蓄積する。
0078
補償信号処理部33は、メタデータのうち録音時補償処理実施フラグを参照することで、録音時補償処理がなされていることがわかる。したがって、補償信号処理部33は、受信部31からの音声信号に対して、再生時補償処理を行い、視聴者(リスナ)にとって最適な信号を生成する処理を行う。
0079
なお、ダミーヘッドor 実耳装着マイクの使用判別フラグが実耳装着マイク示すとき、録音時補償処理には、録音時位置補償処理が含まれる。ダミーヘッドor 実耳装着マイクの使用判別フラグがダミーヘッドの場合には、録音時位置補償処理は必要なくなる。
0080
<録音再生システムの動作例>
次に、図8のフローチャートを参照して、図7の録音装置14の録音処理について説明する。ステップS101において、マイクロホン13は、音源11からの音声を収音して、アナログの音声信号として録音装置14に入力する。
0081
ステップS102において、マイクアンプ22は、ボリュームスライダ23からのユーザによる操作信号に対応した音量で、マイクロホン13からの音声信号を増幅し、ADC24に出力する。
0082
ステップS103において、ADC24は、マイクアンプ22により増幅されたアナログの音声信号に対して、AD変換を行い、デジタルの音声信号に変換し、メタデータ付加部26に出力する。
0083
メタデータ付加部26は、ステップS104において、ADC24からの音声信号に、メタデータDB25からのメタデータを付加し、音声ファイルとして、録音時補償処理部111に出力する。ステップS105において、録音時補償処理部111は、2つのダミーヘッド間の特性差に基づいて、音声ファイル102の音声信号に対して録音時補償処理を行う。その際、録音時補償処理部111は、音声ファイル102のメタデータ領域の3が示される領域に格納されている録音時補償処理実施フラグをオンに設定し、音声ファイル102を、送信部27および記憶部28に供給する。
0084
ステップS106において、送信部27は、音声ファイル102を、ネットワーク18を介して、再生装置15に送信する。
0086
再生装置15の受信部31は、ステップS121において、図8のステップS106において送信されてきた音声ファイル102を、受信し、ステップS122において、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号(デジタル)をDAC34に出力し、取得したメタデータをメタデータDB32に蓄積する。
0087
再生時補償処理部61は、メタデータのうち録音時補償処理実施フラグを参照することで、録音時補償処理がなされていることがわかる。したがって、補償信号処理部33は、ステップS123において、受信部31からの音声信号に対して、再生時補償処理を行い、視聴者(リスナ)にとって最適な信号を生成する処理を行う。
0088
DAC34は、ステップS124において、補償信号処理部33により補償が行われたデジタル信号を、アナログ信号に変換する。ヘッドホンアンプ35は、DAC34からの音声信号を増幅する。ヘッドホン16は、ステップS126において、DAC34からの音声信号対応する音声を出力する。
0089
<本技術を適用した録音再生システムの他の例>
図10は、録音時補償処理を伝送後に施す場合の録音再生システムの例を示す図である。図10の例の録音再生システムにおいては、録音の際にメタデータとして、基準ダミーヘッドと録音時に使用したダミーヘッドの情報が付加して、伝送後、受信側にて得られたメタデータを基に、録音時補償処理が実施される。
0090
図10の録音再生システム151は、図1の録音再生システム1と基本的に同様に構成されている。録音装置14から、再生装置15に送信される音声ファイル152は、図7の音声ファイル102と同様に構成されている。ただし、音声ファイル152においては、録音時補償処理実施フラグはオフに設定されている。
0091
<録音再生システムの動作例>
次に、図11のフローチャートを参照して、図10の録音装置14の録音処理について説明する。ステップS151において、マイクロホン13は、音源11からの音声を収音して、アナログの音声信号として録音装置14に入力する。
0092
ステップS152において、マイクアンプ22は、ボリュームスライダ23からのユーザによる操作信号に対応した音量で、マイクロホン13からの音声信号を増幅し、ADC24に出力する。
0093
ステップS153において、ADC24は、マイクアンプ22により増幅されたアナログの音声信号に対して、AD変換を行い、デジタルの音声信号に変換し、メタデータ付加部26に出力する。
0094
メタデータ付加部26は、ステップS154において、ADC24からの音声信号に、メタデータDB25からのメタデータを付加し、音声ファイルとして、送信部27および記憶部28に供給する。ステップS155において、送信部27は、音声ファイル102を、ネットワーク18を介して、再生装置15に送信する。
0096
再生装置15の受信部31は、ステップS171において、図10のステップS155において送信されてきた音声ファイル102を受信し、ステップS172において、受信した音声ファイルから音声信号とメタデータとを取得し、取得した音声信号(デジタル)をDAC34に出力し、取得したメタデータをメタデータDB32に蓄積する。
0097
補償信号処理部33は、ステップS173において、受信部31からの音声信号に対して、録音時補償処理と再生時補償処理を行い、視聴者(リスナ)にとって最適な信号を生成する処理を行う。
0098
DAC34は、ステップS174において、補償信号処理部33により補償が行われたデジタル信号を、アナログ信号に変換する。ヘッドホンアンプ35は、DAC34からの音声信号を増幅する。ヘッドホン16は、ステップS175において、DAC34からの音声信号対応する音声を出力する。
0099
なお、ダミーヘッドor 実耳装着マイクの使用判別フラグが実耳装着マイク示すとき、録音時補償処理には、録音時位置補償処理が含まれる。ダミーヘッドor 実耳装着マイクの使用判別フラグがダミーヘッドの場合には、録音時位置補償処理は必要なくなる。
0100
また、再生装置における周波数特性は一般的に未知数であることが多いため、再生装置の情報が得られない場合は、再生時補償処理を施さないという選択肢も存在する。あるいは、再生装置のドライバ特性がフラットという仮定に基づき、外耳道共振の影響のみを補償する処理を実施してもよい。
0101
以上のように、本技術においては、バイノーラルコンテンツ録音時に、コンテンツに対してメタデータを付加するようにしたので、バイノーラルコンテンツにおいて、どのようなダミーヘッドやマイクロホンといった機材を用いて録音を実施しても、標準的な音に補償することができる。
0102
また、録音にしようしたマイクロホンの感度情報をメタデータとして付加することにより、コンテンツの再生時に、出力音圧を適切に調整することができる。
0103
人の実耳を使用してバイノーラルコンテンツを収音した場合に、収音位置と鼓膜位置とのマイク位置の音圧の差を補償することができる。
0104
なお、近年、他人との交流の一手段としてSNSが多く利用されている。本技術のバイノーラルコンテンツにメタデータを付加することにより、以下のようなSNSに近い試みである、バイノーラルマッチングシステムが考えられる。
0105
<3.第3の実施の形態>
<本技術を適用したバイノーラルマッチングシステムの他の例>
図13は、本技術を適用したバイノーラルマッチングシステムの例を示す図である。
0106
図13のバイノーラルマッチングシステム201においては、スマートフォン(多機能携帯電話機)211とサーバ212とが、ネットワーク213を介して接続されている。なお、ネットワーク213には、スマートフォン211とサーバ212とが1台ずつしか接続されていないが、実際には、複数台のスマートフォン211、複数台のサーバ212が接続されている。
0107
スマートフォン211は、タッチパネル221を有しており、いま、図示せぬカメラなどで撮像された自分の顔画像が表示されている。スマートフォン211は、顔画像に対して、画像解析を行い、図1を参照して上述したメタデータ(例えば、ユーザの耳の形状、耳間距離、性別、髪形など、すなわち、顔の形状のメタデータ)を生成して、生成したメタデータを、ネットワーク213を介して、サーバ212に送信する。
0108
スマートフォン211は、送信したメタデータに対して特性が近いとされたメタデータと、メタデータに対応するバイノーラル録音コンテンツを受信し、メタデータを基に、バイノーラル録音コンテンツを再生する。
0109
サーバ212は、例えば、コンテンツDB231およびメタデータDB232を有している。コンテンツDB231には、他のユーザがスマートフォンや携帯型パーソナルコンピュータを用いてライブ会場などでバイノーラル録音して、送信してきたバイノーラル録音コンテンツが登録されている。メタデータDB232には、バイノーラル録音コンテンツDB231に登録されているバイノーラル録音コンテンツに対応させて、そのコンテンツを録音したユーザに関するメタデータ(例えば、耳の形状、耳間距離、性別、髪形など)が登録されている。
0110
サーバ212は、スマートフォン211からのメタデータを受信すると、メタデータDB232から、受信したメタデータに特性の近いメタデータを検索し、そのメタデータが対応するバイノーラル録音コンテンツを、コンテンツDB231から検索する。そして、サーバ212は、コンテンツDB231から、メタデータの特性の近いバイノーラル録音コンテンツを、ネットワーク213を介して、スマートフォン211に送信する。
0111
このようにすることで、骨格や耳の形が似ている他のユーザが録音したバイノーラル録音コンテンツを得ることができる。すなわち、より臨場感の高いコンテンツを受信することができる。
0112
図14は、スマートフォン211の構成例を示すブロック図である。
0113
スマートフォン211は、通信部252、音声コーデック253、カメラ部256、画像処理部257、記録再生部258、記録部259、タッチパネル221(表示装置)、CPU(Central Processing Unit)263を有している。これらは、バス265を介して互いに接続されている。
0114
また、通信部252にはアンテナ251が接続されており、音声コーデック253には、スピーカ254とマイクロホン255が接続されている。さらに、CPU263には、電源ボタンなどの操作部264が接続されている。
0116
スマートフォン211が通話モードの処理を行う場合、マイクロホン255で生成されたアナログの音声信号が、音声コーデック253に入力される。音声コーデック253は、アナログの音声信号をデジタルの音声データへ変換し、変換後の音声データを圧縮して、通信部252に供給する。通信部252は、圧縮後の音声データの変調処理や周波数変換処理等を行い、送信信号を生成する。そして、通信部252は、送信信号をアンテナ251に供給し、図示しない基地局へ送信する。
0117
通信部252はまた、アンテナ251で受信した受信信号の増幅、周波数変換処理、復調処理等を行うことにより、通話相手から送信されたデジタルの音声データを取得し、音声コーデック253に供給する。音声コーデック253は、音声データを伸張し、伸長後の音声データをアナログの音声信号へ変換して、スピーカ254に出力する。
0118
また、スマートフォン211が通信モードの処理としてメール送信を行う場合、CPU263は、ユーザがタッチパネル221を操作することにより入力した文字を受け付け、その文字をタッチパネル221に表示する。また、CPU263は、ユーザがタッチパネル221を操作することにより入力した指示等に基づいて、メールデータを生成し、通信部252に供給する。通信部252は、メールデータの変調処理や周波数変換処理等を行い、得られた送信信号をアンテナ251から送信する。
0119
通信部252はまた、アンテナ251で受信した受信信号の増幅、周波数変換処理、復調処理等を行い、メールデータを復元する。このメールデータは、タッチパネル221に供給され、表示部262に表示される。
0120
なお、スマートフォン211は、受信したメールデータを、記録再生部258により記録部259に記録させることも可能である。記録部259は、RAM(Random Access Memory)や内蔵型フラッシュメモリ等の半導体メモリ、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USB(Universal Serial Bus)メモリ、またはメモリカード等のリムーバブルメディアである。
0121
スマートフォン211が撮影モードの処理を行う場合、CPU263は、撮影準備動作の開始指令を、カメラ部256に供給する。カメラ部256は、通常使用状態におけるスマートフォン211の裏面(タッチパネル221と対向する面)にレンズを有するバックカメラと、表面(タッチパネル221が配置される面)にレンズを有するフロントカメラとからなる。バックカメラは、ユーザが自分以外の被写体を撮影するときに用いられ、フロントカメラは、ユーザが自分を被写体として撮影するときに用いられる。
0122
カメラ部256のバックカメラまたはフロントカメラは、CPU263から供給される撮影準備動作の開始指令に応じて、AF(測距)動作、仮撮影などの撮影準備動作を行う。CPU263は、ユーザがタッチパネル221を操作することにより入力した撮影指令に応じて、撮影指令をカメラ部256に供給する。カメラ部256は、撮影指令に応じて、本撮影を行う。仮撮影や本撮影によって撮影された撮影画像は、タッチパネル221に供給され、表示部262に表示される。また、本撮影によって撮影された撮影画像は、画像処理部257にも供給され、画像処理部257において符号化される。符号化の結果生成される符号化データは、記録再生部258に供給され、記録部259に記録される。
0123
タッチパネル221は、LCDからなる表示部262の上に、タッチセンサ260が積層されて構成されている。
0124
CPU263は、ユーザの操作によるタッチセンサ260からの情報に応じて、タッチ位置を計算することで、タッチ位置を判定する。
0125
また、CPU263は、ユーザにより操作部264の電源ボタンが押下された場合、スマートフォン211の電源をオンまたはオフにする。
0126
CPU263は、上述した処理を、例えば記録部259に記録されているプログラムを実行することにより行う。このプログラムは、有線または無線の伝送媒体を介して、通信部252で受信し、記録部259にインストールすることができる。その他、プログラムは、記録部259に、あらかじめインストールしておくことができる。
0128
サーバ212において、CPU301、ROM(Read Only Memory)302、RAM(Random Access Memory)303は、バス304により相互に接続されている。
0129
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
0130
入力部306は、キーボード、マウス、マイクロホンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
0131
以上のように構成されるサーバ212では、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行する。これにより、上述した一連の処理が行われる。
0132
コンピュータ(CPU301)が実行するプログラムは、リムーバブルメディア311に記録して提供することができる。リムーバブルメディア311は、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディア等である。また、あるいは、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
0133
コンピュータにおいて、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
0134
<バイノーラルマッチングシステムの動作例>
次に、図16のフローチャートを参照して、バイノーラルマッチングシステムの処理例について説明する。
0135
サーバ212にアクセスする際に、ステップS201において、スマートフォン211のCPU263は、自分の顔画像データが登録済みであるか否かを判定する。ステップS201において、顔画像データが登録済みであると判定された場合、ステップS202およびS203はスキップされ、処理は、ステップS204に進む。
0136
ステップS201において、顔画像データは登録済みではないと判定された場合、CPU263は、ステップS202において、自分の顔画像データの登録を行い、ステップS203において、画像処理部257に対し、登録された画像データの解析処理を行わせる。解析結果として、メタデータ(例えば、ユーザの耳の形状、耳間距離、性別など、すなわち、顔の形状のメタデータ)が生成される。
0137
ステップS204において、CPU263は、通信部252を制御し、サーバ212にメタデータを送信して、コンテンツをリクエストする。
0138
サーバ212のCPU301は、ステップS221において、通信部309を介してリクエストを受ける。このとき、通信部309は、メタデータも受信する。ステップS222において、CPU301は、コンテンツDB231に登録されているコンテンツから候補を抽出する。ステップS223において、CPU301は、受信したメタデータと、メタデータDB232のメタデータとのマッチングを行う。ステップS224において、CPU301は、メタデータに関して類似度の高いコンテンツを、スマートフォン211にレスポンスする。
0139
スマートフォン211のCPU263は、ステップS205において、サーバ212からレスポンスがあったか否かを判定する。ステップS205において、レスポンスがあったと判定された場合、処理は、ステップS206に進む。ステップS206において、通信部252を制御して、コンテンツを受信させる。
0140
一方、ステップS205において、レスポンスがないと判定された場合、処理は、ステップS207に進む。ステップS207において、CPU263は、表示部262に、エラーである旨が示されているエラー画像を表示させる。
0141
なお、上記説明では、画像分析を行って抽出されたメタデータを、サーバに送ることでそのメタデータに類似度の高いコンテンツを選ぶ例を説明したが、画像そのものをサーバに送り、サーバにおいて画像分析を行って抽出されたメタデータを用いてコンテンツを選ぶようにしてもよい。すなわち、メタデータ抽出は、ユーザ側で行ってもよいし、サーバ側で行ってもよい。
0142
以上のように、本技術によれば、バイノーラルコンテンツ録音時に、コンテンツに対してメタデータを付加することにより、自撮り画像を解析して、近い特性の録音データを受信する機能を実現することができ、SNSとして利用することができる。
0143
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。
0144
また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
0146
例えば、本開示は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
0147
また、以上において、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
0148
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
0149
なお、本技術は以下のような構成も取ることができる。
(1)バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する送信部を
備える情報処理装置。
(2) 前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたダミーヘッドまたは頭部の耳間距離である
前記(1)に記載の情報処理装置。
(3) 前記メタデータは、前記バイノーラルコンテンツの録音時にダミーヘッドが使用されたか、実耳が使用されたかを示す使用フラグである
前記(1)または(2)に記載の情報処理装置。
(4) 前記メタデータは、前記バイノーラルコンテンツの録音時におけるマイク位置が鼓膜付近であるか、または耳介付近であるかを示す位置フラグである
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5) 前記位置フラグが耳介付近であることを示す場合、1乃至4kHz付近で補償処理が施される
前記(4)に記載の情報処理装置。
(6) 前記位置フラグに応じて、耳穴密閉時の外耳道特性の補償処理である再生時補償処理が行われる
前記(4)に記載の情報処理装置。
(7) 前記再生時補償処理は、5kHz付近および7kHz付近にディップを持つように行われる
前記(6)に記載の情報処理装置。
(8) 前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクロホンの情報である
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9) 前記メタデータは、前記バイノーラルコンテンツの録音時に使用されたマイクアンプのゲイン情報である
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10) 録音時の音源からマイクロホンの位置までの音圧差を補償するための録音時補償処理を行う補償処理部を
さらに備え、
前記メタデータは、前記録音時補償処理が済んでいるか否かを示す補償フラグである
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11) 情報処理装置が、
バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを送信する
情報処理方法。
(12) バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する受信部を
備える情報処理装置。
(13) 前記メタデータに応じて、補償処理を行う補償処理部
をさらに備える
前記(12)に記載の情報処理装置。
(14) 送信された画像を用いてのマッチングにより選択されて送信されてくるコンテンツを受信する
前記(12)または(13)に記載の情報処理装置。
(15) 情報処理装置が、
バイノーラルコンテンツとともに、前記バイノーラルコンテンツの録音時環境に関するメタデータを受信する
情報処理方法。
0150
1録音再生システム, 11音源, 12,12−1,12−2ダミーヘッド, 13,13−1,13−2マイクロホン, 14録音装置, 15再生装置, 16ヘッドホン, 17 ユーザ, 18ネットワーク, 22マイクアンプ, 23スライダ, 24ADC, 25メタデータDB, 26 メタデータ付加部, 27 送信部, 28 記憶部, 31 受信部, 32 メタデータDB, 33補償信号処理部, 34 DAC, 35ヘッドホンアンプ, 51 録音再生システム, 61再生時補償処理部, 62 表示部, 63 操作部, 81 ユーザ, 82バイノーラルマイク, 101 録音再生システム, 102音声ファイル, 111録音時補償処理部, 151 録音再生システム, 152 音声ファイル, 201バイノーラルマッチングシステム, 211スマートフォン, 212サーバ, 213 ネットワーク, 221タッチパネル, 231コンテンツDB, 232 メタデータDB, 252通信部, 257画像処理部, 263 CPU, 301 CPU, 309 通信部