図面 (/)

技術 マイク選択装置、マイクシステムおよびマイク選択方法

出願人 ヤマハ株式会社
発明者 田中良
出願日 2015年2月4日 (5年9ヶ月経過) 出願番号 2015-019980
公開日 2016年8月8日 (4年3ヶ月経過) 公開番号 2016-144112
状態 特許登録済
技術分野 有線伝送方式及び無線の等化,エコーの低減 音声の分析・合成 可聴帯域変換器の細部(特性を得るもの) 可聴帯域変換器の回路等 電話通信サービス
主要キーワード レベル判定値 ピークフィルタ 相関関係係数 ローカットフィルタ 相互相関波形 数珠つなぎ 両マイク フィルタ係数列
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年8月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

残響のある空間でも正確なマイク選択が可能なマイク選択装置を提供する。

解決手段

マイク選択装置は、複数のマイク素子および選択部を備える。選択部は、残響抑圧部および相関判定部を備える。残響抑圧部は、各マイク素子が収音した音声を含む残響成分を抑圧することにより、各マイク素子の参照信号を生成する。相関判定部は、音源からの音声が各マイク素子に至るまでの到達時間を各マイク素子の参照信号間の相互相関より算出し、この相互相関に基づいて選択すべきマイク素子を決定する。選択部は、相関判定部によって選択されたマイク素子の収音信号を通過させる。

概要

背景

拠点間ネットワークで接続して音声送受信する音声会議システムが実用化されている。音声会議システムには、複数のマイクを設置し、広範囲カバーするものも提案されている(例えば特許文献1参照)。この種の音声会議システムでは、複数のマイクのうちどのマイクを選択するか、または、どのマイクの方向にカメラを向けるかが問題になる。このため、発言者音源)に最も近いマイクを検出して、そのマイクを収音用マイクとして選択し、且つ、その方向にカメラを向けることが好適である。

図23は、従来のマイク選択装置を説明する図である。2つのマイクM1、M2が収音した音声信号が、収音信号切替部および相互相関係数算出部に入力されている。相互相関係数算出部が、これら2つの収音信号の相互相関係数を算出してそのピーク位置を求める。ピーク位置が中立(同時)からどちらにずれているかによって、マイクM1,M2のうちどちらが音源Sに近いかを判定し、収音信号切替部に対して選択IDを出力する。収音信号切替部は、選択IDに従って信号を切り替え、選択された信号を所望信号として出力する。

また、特許文献2には、2つのマイクが収音した音声信号をそれぞれ複数の周波数成分に分割し、各周波数成分について両マイクの信号の位相差を求め、この位相差に基いて、両マイクの収音時間差すなわち音源の方向を推定する。全ての周波数成分に基いて推定された音源方向ヒストグラム集計し、最も度数の高かった方向を音源方向とするものである。

概要

残響のある空間でも正確なマイク選択が可能なマイク選択装置を提供する。マイク選択装置は、複数のマイク素子および選択部を備える。選択部は、残響抑圧部および相関判定部を備える。残響抑圧部は、各マイク素子が収音した音声を含む残響成分を抑圧することにより、各マイク素子の参照信号を生成する。相関判定部は、音源からの音声が各マイク素子に至るまでの到達時間を各マイク素子の参照信号間の相互相関より算出し、この相互相関に基づいて選択すべきマイク素子を決定する。選択部は、相関判定部によって選択されたマイク素子の収音信号を通過させる。

目的

この発明は、残響のある空間でも正確なマイク選択が可能なマイク選択装置、マイクシステムおよびマイク選択方法を提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音響空間に設置され音源からの音声収音する複数のマイク素子と、該複数のマイク素子がそれぞれ収音した音声を信号化し比較することにより、いずれかのマイク素子を選択する選択部と、を備えたマイ選択装置であって、前記選択部は、各マイク素子が収音した前記音響空間における音声を含む残響成分抑圧することにより、各マイク素子の参照信号を生成する残響抑圧部と、前記音源からの音声が各マイク素子に至るまでの到達時間を各マイク素子の前記参照信号間の相互相関より算出し、該相互相関に基づいて選択すべきマイク素子を決定する相関判定部と、を備え、選択されたマイク素子の収音信号を通過させるマイク選択装置。

請求項2

前記残響抑圧部は、前記収音信号の時間変化追従する第1指標値と、前記第1指標値と比較して低い追従性で前記収音信号の時間変化に追従する第2指標値とを算定する指標値算定部と、前記第1指標値と前記第2指標値との比に応じて、残響成分を抑圧するための調整値を算定する調整値算定部と、前記音声を含む残響成分に対して前記調整値を作用させ参照信号を生成する残響調整部とを備えた請求項1に記載のマイク選択装置。

請求項3

スピーカと、前記複数のマイク素子の各々に設けられ、対応するマイク素子が収音した音声信号から前記スピーカによって放音された音声の回帰音成分を、エコーキャンセルフィルタによってキャンセルし、前記収音信号として出力するエコーキャンセラと、を更に備え、前記残響抑圧部は、前記エコーキャンセラから取り出された前記エコーキャンセルフィルタのフィルタ係数列に基づき、前記スピーカおよび前記マイク素子が存在する空間の周波数帯域毎残響時間推定する残響時間推定部と、推定された周波数帯域毎の残響時間に基づき、残響時間の長い周波数帯域を抑制するフィルタ係数を算出するフィルタ係数算出部と、前記フィルタ係数算出部によって算出されたフィルタ係数を用いて、前記音声を含む残響成分をフィルタリングする残響抑圧フィルタと、を備えた請求項1に記載のマイク選択装置。

請求項4

前記残響抑圧部は、前記音声を含む残響成分の特定の周波数を固定的にカットまたは抑制する低域制御フィルタをさらに備えた請求項1乃至請求項3のいずれかに記載のマイク選択装置。

請求項5

前記選択部は、各マイク素子の収音した音声の信号レベルを比較する信号レベル比較部を備える請求項1乃至請求項4のいずれかに記載のマイク選択装置。

請求項6

前記選択部は、得られた参照信号を複数の帯域に分割し、前記相関判定部および前記信号レベル比較部は、分割された参照信号ごとに前記相互相関およひ前記信号レベルを算出する請求項5に記載のマイク選択装置。

請求項7

前記信号相関判定部および前記信号レベル比較部は、前記参照信号から得られた結果を正、負、または0のポイント書き換えて出力し、前記選択部は、前記信号相関判定部および前記信号レベル比較部から取得したポイントを合計して判断基準値を生成し、該判断基準値が一定の閾値を超えたマイク素子の収音信号を通過させる請求項5または請求項6に記載のマイク選択装置

請求項8

請求項1乃至請求項7のいずれかに記載のマイク選択装置を備えた複数のマイクユニットと、各マイクユニットが収音した音声信号を受け取る本体装置とを有するマイクシステムであって、各マイクユニットは、少なくとも3つのマイク素子を備え、該マイクユニット内で選択されたマイク素子の収音信号を本体装置に出力するとともに、各マイク素子の参照信号に基いて該マイクユニットの参照信号を生成して本体装置に出力し、前記本体装置は、音源からの音声が各マイクユニットに至るまでの到達時間を各マイクユニットの参照信号間の相互相関より算出し、該相互相関に基づいて選択すべきマイクユニットを決定する信号判定部を備え、該選択されたマイクユニットから受け取った収音信号を通過させるマイクシステム

請求項9

少なくとも3つのマイク素子および請求項1乃至請求項7のいずれかに記載のマイク選択装置を備えた複数のマイクユニットと、各マイクユニットが収音した音声信号を受け取る本体装置とを有するマイクシステムのマイク選択方法であって、各マイクユニットが、そのマイクユニット内において選択すべきマイク素子を決定するステップと、 各マイクユニットが、前記本体装置へ選択されたマイク素子の収音信号を送信するステップと、本体装置が、前記音源からの音声が各マイクユニットへ至るまでの到達時間を各マイクユニットから送信される収音信号から算出するステップと、を有するマイクシステムのマイク選択方法。

技術分野

0001

この発明は、同一の音源音声収音している複数のマイクから、最適のものを選択するマイク選択装置マイクシステムおよびマイク選択方法に関する。

背景技術

0002

拠点間ネットワークで接続して音声を送受信する音声会議システムが実用化されている。音声会議システムには、複数のマイクを設置し、広範囲カバーするものも提案されている(例えば特許文献1参照)。この種の音声会議システムでは、複数のマイクのうちどのマイクを選択するか、または、どのマイクの方向にカメラを向けるかが問題になる。このため、発言者(音源)に最も近いマイクを検出して、そのマイクを収音用マイクとして選択し、且つ、その方向にカメラを向けることが好適である。

0003

図23は、従来のマイク選択装置を説明する図である。2つのマイクM1、M2が収音した音声信号が、収音信号切替部および相互相関係数算出部に入力されている。相互相関係数算出部が、これら2つの収音信号の相互相関係数を算出してそのピーク位置を求める。ピーク位置が中立(同時)からどちらにずれているかによって、マイクM1,M2のうちどちらが音源Sに近いかを判定し、収音信号切替部に対して選択IDを出力する。収音信号切替部は、選択IDに従って信号を切り替え、選択された信号を所望信号として出力する。

0004

また、特許文献2には、2つのマイクが収音した音声信号をそれぞれ複数の周波数成分に分割し、各周波数成分について両マイクの信号の位相差を求め、この位相差に基いて、両マイクの収音時間差すなわち音源の方向を推定する。全ての周波数成分に基いて推定された音源方向ヒストグラム集計し、最も度数の高かった方向を音源方向とするものである。

0005

特許第3672320号公報

先行技術

0006

特許第4872871号公報

発明が解決しようとする課題

0007

図23に示した相互相関係数によるマイク(収音信号)の選択は、2つのマイクMと音源Sとの距離の差が小さくても精度良く音源Sに近いマイクMを割り出すことができる。しかしながら、図24に示すように、マイクM1,M2および音源Sが、会議室など反射による残響が生じる空間に設置されている場合、相互相関波形反射音によるピークが表れてしまう。残響が複雑な場合には、相互相関波形がより崩れたものになってしまう。このため、ピーク位置を正確に検出することができず、正確なマイクの選択ができなくなってしまう問題点がある。特に、発言者の発言間欠的である場合などは、発言の合間に残響の影響が強く現れる。たとえば、発言が途切れた瞬間は、直接音がなく反射音(残響)のみが到来しているため、反射音に引き寄せられてマイクの選択が切り換わってしまい、発言が途切れるごとにマイクの選択がばたついてしまうという問題が生じる。

0008

特許文献2のものは、ヒストグラム上に加算する度数を正規分布させ、残響などのノイズの大きさに応じてその分布の広さを可変しているが、残響やノイズを抑圧処理した後の信号を用いて方位を推定することは行っていない。

0009

この発明は、残響のある空間でも正確なマイク選択が可能なマイク選択装置、マイクシステムおよびマイク選択方法を提供することを目的とする。

課題を解決するための手段

0010

本発明のマイク選択装置は、音響空間に設置され音源からの音声を収音する複数のマイク素子と、複数のマイク素子がそれぞれ収音した音声を信号化し比較することによりいずれかのマイク素子を選択する選択部とを備える。選択部は、各マイク素子が収音した音響空間における音声を含む残響成分抑圧することにより、各マイク素子の参照信号を生成する残響抑圧部と、音源からの音声が各マイク素子に至るまでの到達時間を各マイク素子の参照信号間の相互相関より算出し、この相互相関に基づいて選択すべきマイク素子を決定する相関判定部とを備え、選択されたマイク素子の収音信号を通過させる。

0011

残響抑圧部の好適な形態は、収音信号の時間変化追従する第1指標値と、第1指標値と比較して低い追従性で収音信号の時間変化に追従する第2指標値とを算定する指標値算定部と、第1指標値と第2指標値との比に応じて残響成分を抑圧するための調整値を算定する調整値算定部と、音声を含む残響成分に対して調整値を作用させ参照信号を生成する残響調整部とを備える。
とを備える。

0012

上記発明の他の形態は、上記のマイク選択装置に、スピーカと、複数のマイク素子の各々に設けられ、対応するマイク素子が収音した音声信号からスピーカによって放音された音声の回帰音成分を、エコーキャンセルフィルタによってキャンセルし、収音信号として出力するエコーキャンセラとを更に備える。残響抑圧部は、エコーキャンセラから取り出されたエコーキャンセルフィルタのフィルタ係数列に基づき、スピーカおよびマイク素子が存在する空間の周波数帯域毎残響時間を推定する残響時間推定部と、推定された周波数帯域毎の残響時間に基づき、残響時間の長い周波数帯域を抑制するフィルタ係数を算出するフィルタ係数算出部と、フィルタ係数算出部によって算出されたフィルタ係数を用いて音声を含む残響成分をフィルタリングする残響抑圧フィルタとを備える。

0013

上記発明において、残響抑圧部が音声を含む残響成分の特定の周波数を固定的にカットまたは抑制する低域制御フィルタをさらに備えていてもよい。

0014

上記発明において、選択部が各マイク素子の収音した音声の信号レベルを比較する信号レベル比較部を備えてもよい。

0015

上記発明において、選択部が得られた参照信号を複数の帯域に分割し、相関判定部および信号レベル比較部が、分割された参照信号ごとに相互相関およひ信号レベルを算出してもよい。

0016

上記発明において、信号相関判定部および信号レベル比較部が、参照信号から得られた結果を正、負、または0のポイント書き換えて出力し、選択部が、信号相関判定部および信号レベル比較部から取得したポイントを合計して判断基準値を生成し、この判断基準値が一定の閾値を超えたマイク素子の収音信号を通過させてもよい。

0017

この発明のマイクシステムは、上述したマイク選択装置を備えた複数のマイクユニットと、各マイクユニットが収音した音声信号を受け取る本体装置とを有する。各マイクユニットは、少なくとも3つのマイク素子を備え、該マイクユニット内で選択されたマイク素子の収音信号を本体装置に出力するとともに、各マイク素子の参照信号に基いて該マイクユニットの参照信号を生成して本体装置に出力する。本体装置は、音源からの音声が各マイクユニットに至るまでの到達時間を各マイクユニットの参照信号間の相互相関より算出し、該相互相関に基づいて選択すべきマイクユニットを決定する信号判定部を備え、選択されたマイクユニットから受け取った収音信号を通過させる。

0018

この発明のマイク選択方法は、少なくとも3つのマイク素子および上述のマイク選択装置を備えた複数のマイクユニットと、各マイクユニットが収音した音声信号を受け取る本体装置とを有するマイクシステムで行われる以下のステップを有する。各マイクユニットが、そのマイクユニット内において選択すべきマイク素子を決定するステップ、各マイクユニットが、本体装置へ選択されたマイク素子の収音信号を送信するステップ、および、本体装置が、音源からの音声が各マイクユニットへ至るまでの到達時間を各マイクユニットから送信される収音信号から算出するステップ。

発明の効果

0019

この発明によれば、収音信号から残響を抑圧した参照信号を用いて判定することにより、反射や残響のある空間でも相互相関関数に基づいて適格なマイク(収音信号)の選択が可能になる。

図面の簡単な説明

0020

この発明の実施形態であるマイク選択装置のブロック図である。
マルチパス残響抑圧部のブロック図である。
解析処理部のブロック図である。
第1指標値と第2指標値と調整値との関係の説明図である。
音声信号の到来方向に応じて複数のマイクへ到達した音声信号に生じる位相差を説明する図である。
信号判定部のブロック図である。
この発明の他の実施形態であるマイク選択装置のブロック図である。
この発明が適用される音声会議システムの設置形態の一例を示す図である。
会議室における音声の反射の形態を説明する図である。
音声会議システムの収音器のブロック図である。
音声会議システムの収音器のマイクの指向性を示す図である。
収音器の回帰音エコーキャンセラのブロック図である。
収音器の音声選択部のブロック図である。
音声選択部のマルチパス残響抑圧部のブロック図である。
残響抑圧のプロセスの流れを示す図である。
パラメータ推定部において現れる信号波形を例示した図である。
マルチパス残響抑圧部の補正特性算出部のゲインテーブルの例を示す図である。
音声会議システムの通信器のブロック図である。
通信器の音声選択部のブロック図である。
相互相関係数を算出する一対一の組み合わせを示す図である。
マイク(収音器)を略直線状に配列した音声会議システムの例を示す図である。
信号レベルと位相進度を用いてマイクを選択する手法を説明する図である。
従来のマイク選択装置のブロック図である。
従来のマイク選択装置で、反射による残響が生じた場合の相互相関係数波形の変化を示す図である。

実施例

0021

以下、図面を参照して本発明の実施形態について説明する。図1は、この発明の第1の実施形態であるマイク選択装置Dのブロック図である。マイク選択装置Dは、複数(この実施形態では2つ)のマイクM(M1、M2)で、音源Sの音声を収音し、収音した音声信号ScからどのマイクMが音源Sに最も近いかを判定し、最も近いと判定されたマイクMで収音された音声信号を所望信号Sdとして出力する。マイク選択装置Dは、音声信号をデジタル処理するプロセッサ、および、該プロセッサに所望の動作をさせるためのプログラムとを有するコンピュータシステムで実現される。マイク選択装置Dは、マイクM1,M2にそれぞれ対応する2つのエコーキャンセラ105、マルチパス残響抑圧部110、信号判定部111および信号切換部112を有している。

0022

エコーキャンセラ105は、図示しないスピーカから放音された音声が回帰音としてマイクMに収音されるとエコーの原因となるが、エコーキャンセラ105は、回帰音をキャンセルしてエコーを防止する。エコーキャンセラ105は、スピーカから放音される音声信号および会議室Cの推定された伝達関数に基いてフィルタ係数を算出し、この係数のフィルタでマイクMの収音信号をフィルタリングすることで、回帰音を除去する。また、図1に示すように、会議室Cなどの壁や天井を有する空間では音源Sが発生した音声は直接マイクMに到達するのみならず、壁や天井で反射した成分もマイクMに到達する。このように、一つの音声信号が距離の異なる複数の経路を経てマイクに到来し、残響を生じさせることをマルチパスと言う。マルチパス残響抑圧部110は、マイクM(M1、M2)が収音した音声信号から、直接音(どこかで反射することなく音源から直接到来した音)の波形を残し、反射音(壁などで1回以上反射して到来した音)の波形を抑圧するための信号処理部である。マルチパス残響抑圧部110の詳細構成は、後で図2図4を参照して詳述する。マルチパス残響抑圧部110から出力された音声信号は、反射音の成分が抑圧されることにより、相対的に直接音成分が強調された信号となっている。この残響抑圧された信号が、マイク選択のための参照信号Srとして信号判定部111に入力される。

0023

信号判定部111は、マルチパス残響抑圧部110から入力されたマイクM1,M2のそれぞれに対応する参照信号Sr(Sr1,Sr2)に基いて、どちらのマイクM1,M2が音源Sに近いかを判定する。信号判定部111は、マイクM1,M2の参照信号Srの相互相関を求めることにより、どちらのマイクM1,M2が音源Sに近いかを判定して信号切換部112に選択IDを出力する。信号判定部111の詳細な動作は、図6図7を参照して後述する。

0024

参照信号Srは、直接音成分が強調され、反射音成分が抑圧されているため、相互相関を求めた場合に、直接音成分同士の相互相関が求められ、音源SとマイクM1,M2間の距離に応じた相関波形を得ることができる。以上の処理により、複数のマイクMがそれぞれ収音した音声信号Scの音量レベルに殆ど差がない場合でも、収音した信号波形の時間差を正確に推定することができ、音源Sに最も近いマイクMを的確に選択する事が可能になる。

0025

信号切換部112には、マイクM1の収音信号およびマイクM2の収音信号Scがそれぞれ入力される。信号切換部112は、信号判定部111から入力される選択IDに基いて、マイクM1,M2の収音信号Scのいずれか一方を所望信号Sdとして出力する。

0026

マルチパス残響抑圧部110の構成を図2図4を参照して説明する。図2図4に示すマルチパス残響抑圧部110は、時定数の異なる2つのフィルタを用いて残響の生じている周波数帯域を割り出し、この周波数帯域を抑制するフィルタを形成して音声信号をフィルタリングすることにより、残響を抑圧するものである。ただし、本発明のマルチパス残響抑圧部110が、この構成に限定されないことは勿論である。

0027

図2は、マルチパス残響抑圧部110のブロック図である。図2に示すように、マルチパス残響抑圧部110にはマイクMおよび信号判定部111が接続される。マイクMは、収音した音声信号Sc=x(t)をマルチパス残響抑圧部110に供給する。音声信号x(t)は、発音源から収音点に対して直接的に到来する直接音に会議室Cなどの音響空間内での反射後に収音点に到来する残響(初期反射音および後部残響音)が重畳された時間領域の信号である(t:時間)。マルチパス残響抑圧部110は、音声信号x(t)の残響成分(特に後部残響音)を抑圧した参照信号Sr=ys(t)を生成する。

0028

マルチパス残響抑圧部110は、演算処理装置222と記憶装置224とを備えるコンピュータシステムで実現される。記憶装置224は、演算処理装置222が実行するプログラムPGMや演算処理装置222が使用する各種のデータを記憶する。演算処理装置222は、記憶装置224に格納されたプログラムPGMを実行することで、音声信号x(t)から参照信号ys(t)を生成するための複数の機能(周波数分析部232,解析処理部234,残響調整部236,波形合成部238)を実現する。

0029

周波数分析部232は、音声信号x(t)のスペクトル複素スペクトル)X(k,m)を時間軸上の単位期間フレーム)毎に順次に生成する。記号kは、周波数軸上の任意の1個の周波数(帯域)を指定する変数であり、記号mは、時間軸上の任意の1個の単位期間(時間軸上の特定の時点)を指定する変数である。スペクトルX(k,m)の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、周波数分析部232として、通過帯域相違する複数の帯域通過フィルタで構成されるフィルタバンクを採用してもよい。

0030

解析処理部234は、音声信号x(t)のスペクトルX(k,m)に応じた調整値Gs(k,m)を各単位期間にて周波数毎に算定する。調整値Gs(k,m)は、音声信号x(t)の残響成分(特に後部残響音)を抑圧するための変数である。概略的には、第m番目の単位期間の音声信号x(t)のうち第k番目の周波数の成分において残響成分(後部残響音)が優勢であるほど調整値Gs(k,m)は小さい数値に設定されるという傾向がある。

0031

残響調整部236は、解析処理部234が算定する調整値Gs(k,m)を音声信号x(t)に作用させる。残響調整部236による調整は、各周波数について単位期間毎に順次に実行される。具体的には、残響調整部236は、音声信号x(t)のスペクトルX(k,m)に対し、当該スペクトルX(k,m)と共通の単位期間および周波数について算定された調整値Gs(k,m)を乗算することで、参照信号ys(t)のスペクトルYs(k,m)を算定する。すなわち、「Ys(k,m)=Gs(k,m)X(k,m)」である。調整値Gs(k,m)は、音声信号x(t)のスペクトルX(k,m)に対するゲインに相当する。

0032

波形合成部238は、残響調整部236が単位期間毎に生成するスペクトルYs(k,m)から時間領域の参照信号ys(t)を生成する。すなわち、波形合成部238は、各単位期間のスペクトルYs(k,m)を短時間逆フーリエ変換で時間領域の信号に変換するとともに相前後する単位期間について相互に連結することで参照信号ys(t)を生成する。波形合成部238が生成した参照信号ys(t)が、マイクM1またはM2のいずれを選択するかを判定するための信号として音声選択部111に出力される。

0033

図3は、解析処理部234のブロック図である。解析処理部234は、指標値算定部242Aと調整値算定部244とを備える。指標値算定部242Aは、音声信号x(t)に応じた第1指標値Q1(k,m)および第2指標値Q2(k,m)を順次に算定する。具体的には、指標値算定部242Aは、第1平滑部251と第2平滑部252とを含んで構成される。第1平滑部251は、音声信号x(t)のパワー|X(k,m)|^2の時系列を短い時定数で平滑化することで各周波数の第1指標値Q1(k,m)を単位期間毎に順次に算定する。同様に、第2平滑部52は、音声信号x(t)のパワー|X(k,m)|^2の時系列を長い時定数で平滑化することで各周波数の第2指標値Q2(k,m)を単位期間毎に順次に算定する。

0034

第1指標値Q1(k,m)は、以下の数式(1A)で定義されるように、相前後するN1個(N1は1以上の自然数)の単位期間で構成される第1期間内におけるパワー|X(k,m)|^2の移動平均(単純移動平均)である。第1期間は、例えば第m番目の単位期間を最後尾とするN1個の単位期間の集合である。他方、第2指標値Q2(k,m)は、以下の数式(1B)で定義されるように、相前後するN2個(N2は2以上の自然数)の単位期間で構成される第2期間内におけるパワー|X(k,m)|^2の移動平均である。第2期間は、例えば第m番目の単位期間を最後尾とするN2個の単位期間の集合である。以上の説明から理解されるように、第1平滑部251および第2平滑部252はFIR(finite impulse response)型のローパスフィルタに相当する。なお、個数N1を1に設定した構成(すなわち、音声信号x(t)のパワー|X(k,m)|^2自体を第1指標値Q1(k,m)として利用する構成)を採用してもよい。

0035

0036

第2指標値Q2(k,m)の算定に加味される単位期間の個数N2は、第1指標値Q1(k,m)の算定に加味される単位期間の個数N1を上回る(N2>N1)。すなわち、第2期間は第1期間よりも長い。例えば、第1期間は100ミリ秒から300ミリ秒程度の時間に設定され、第2期間は300ミリ秒から600ミリ秒程度の時間に設定される。したがって、第2平滑部252による平滑化の時定数τ2は第1平滑部251による平滑化の時定数τ1を上回る(τ2>τ1)。第1平滑部251および第2平滑部252をローパスフィルタで実現する場合を想定すると、第2平滑部252の遮断周波数が第1平滑部251の遮断周波数を下回ると換言することも可能である。

0037

図4(B)は、音声信号x(t)の任意の周波数について算定される第1指標値Q1(k,m)および第2指標値Q2(k,m)の時間変化のグラフである。図4(A)のようにパワー|X(k,m)|^2(パワー密度)が指数減衰する室内インパルス応答RIR)を音声信号x(t)としてマルチパス残響抑圧部100に供給した場合の第1指標値Q1(k,m)および第2指標値Q2(k,m)が図4(B)には図示されている。

0038

図4(B)から理解されるように、第1指標値Q1(k,m)および第2指標値Q2(k,m)は、音声信号x(t)のパワー|X(k,m)|^2に追従して経時的に変化する。ただし、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回るから、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性(変化率)で音声信号x(t)のパワー|X(k,m)|^2の時間変化に追従する。具体的には、図4(B)に示すように、室内インパルス応答の開始の時点t0の直後の区間では、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る変化率で増加する。そして、第1指標値Q1(k,m)および第2指標値Q2(k,m)は、時間軸上の相異なる時点でピークに到達し、第1指標値Q1(k,m)は第2指標値Q2(k,m)を上回る変化率で減少する。

0039

以上のように第1指標値Q1(k,m)と第2指標値Q2(k,m)とは相異なる変化率で変化するから、第1指標値Q1(k,m)と第2指標値Q2(k,m)との大小は時間軸上の特定の時点txで反転する。すなわち、時点t0から時点txまでの区間SAでは第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回り、時点tx以降の区間SBでは第2指標値Q2(k,m)が第1指標値Q1(k,m)を上回る。区間SAは、室内インパルス応答の直接音が存在する区間に相当し、区間SBは、室内インパルス応答の後部残響音が存在する区間に相当する。

0040

図3の調整値算定部244は、指標値算定部242Aが算定した第1指標値Q1(k,m)と第2指標値Q2(k,m)とに応じた調整値Gs(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の調整値算定部244は、比算定部262と閾値処理部264とを含んで構成される。

0041

比算定部262は、第1指標値Q1(k,m)と第2指標値Q2(k,m)との比R(k,m)を算定する。具体的には、比算定部262は、以下の数式(2)で表現される通り、第2指標値Q2(k,m)に対する第1指標値Q1(k,m)の比R(k,m)を単位期間毎に算定する。

0042

0043

図3の閾値処理部264は、比算定部262が算定した比R(k,m)と所定値Gmaxおよび所定値Gminとを比較した結果に応じた調整値Gs(k,m)を単位期間毎に算定する。所定値Gmaxおよび所定値Gminは、例えば利用者からの指示に応じて事前に設定されて比R(k,m)と比較されるしきい値である。第1実施形態では、所定値Gmaxを1に設定した場合を例示する。所定値Gminは、所定値Gmaxを下回る数値(0以上かつ1未満の範囲内の数値)に設定される。

0044

具体的には、しきい値処理部264は、以下の数式(3)の演算を実行する。第1に、比R(k,m)が所定値Gmax(Gmax=1)を上回る場合(R(k,m)≧Gmax)、しきい値処理部2264は、所定値Gmaxを調整値Gs(k,m)として設定する。第2に、比R(k,m)が所定値Gminを下回る場合(R(k,m)≦Gmin)、しきい値処理部264は、所定値Gminを調整値Gs(k,m)として設定する。第3に、比R(k,m)が所定値Gmaxと所定値Gminとの間の数値である場合(Gmin<R(k,m)<Gmax)、しきい値処理部264は、比R(k,m)を調整値Gs(k,m)として設定する。

0045

0046

第1指標値Q1(k,m)および第2指標値Q2(k,m)が図4(B)のように変化する場合の調整値Gs(k,m)の変化が図4(C)に図示されている。図4(C)から理解されるように、概略的には、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る場合(区間SA)の調整値Gs(k,m)は、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る場合(区間SB)の調整値Gs(k,m)よりも大きい数値となる。具体的には、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る区間SA内では比Rが所定値Gmax(Gmax=1)を上回るから、調整値Gs(k,m)は所定値Gmaxに維持される。また、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る区間SBのうち比Rが所定値Gminを上回る区間SB1では、調整値Gs(k,m)は比R(k,m)に設定されて経時的に減少する。そして、区間SBのうち比Rが所定値Gminを下回る区間SB2では、調整値Gs(k,m)は所定値Gminに維持される。

0047

すなわち、第1実施形態の調整値Gs(k,m)は、直接音および初期反射音が存在する区間SAでは所定値(最大値)Gmaxに設定され、後部残響音が存在する区間SBでは所定値(最小値)Gminまで経時的に減少する。したがって、残響調整部36が音声信号x(t)に調整値Gs(k,m)を作用させることで、音声信号x(t)の残響成分を抑圧(直接音を強調)した参照信号ys(t)が生成される。

0048

以上のように、音声信号x(t)の時間変化に追従する第1指標値Q1(k,m)および第2指標値Q2(k,m)の比R(k,m)に応じて調整値Gs(k,m)が算定されるから、簡便な処理で音声信号x(t)の残響成分を抑圧できる。

0049

図1において、信号判定部111は、2つの参照信号Srの相互相関に基いて、マイクM1,M2のどちらが音源Sに近いかを判定し、音源Sに近いと判定されたマイクMを選択する選択信号(選択ID)を出力する。図5は、相互相関による音源Sの方向推定の手法を説明する図である。図5(A)に示すように、音源SがマイクM1,M2の正面から左側(マイクM1側)にθの角度の方向にあるとする。この場合、マイクM1がマイクM2よりもdだけ音源Sに近い。したがって、マイクM1,M2が収音した信号(参照信号Sr1,Sr2)を比較すると、図5(B)のように、マイクM1の参照信号Sr2がマイクM2の参照信号Sr1よりもtdだけ位相遅れている。信号判定部111は、この位相差を検出することにより、音源Sの方向すなわちどちらのマイクM1,M2が音源Sに近いかを判定する。

0050

相互相関による位相差の検出は、一般的には、両方の信号Sr1,Sr2の瞬時値同士を乗算したものを加算合成する畳み込み積分の演算を、一方の信号波形(例えばSr2)をもう一方の信号波形(例えばSr1)の時間軸上を平行移動させながら繰り返し行うことで実現される。この積分値がピークになった時間軸上の位置が、両信号Sr1,Sr2の位相差に対応している。この相関値演算式で表すと、数4のようになる。

0051

0052

この実施形態では、参照信号Sr1,Sr2をそれぞれ複数の周波数帯域に分割し、各周波数帯域成分信号毎に相互相関を求めて集計し、その集計結果に基づきマイクM1、M2のうちどちらが音源Sに近いかを判断するようにしている。分割する周波数帯域は任意であるが、例えば、315Hz〜8000Hzまでを15のチャンネルに分割するなどの帯域分割を行えばよい。信号判定部111の構成を図6を参照して説明する。

0053

図6は、信号判定部111のブロック図である。信号判定部111は、周波数分割部120、位相差判定部121、度数積算部122およびマイク選択部123を有している。周波数分割部120は、マルチパス残響抑圧部110から入力された参照信号Sr1,Sr2をそれぞれ複数の周波数帯域に分割する。位相差判定部121は、各周波数帯域に分割された成分信号について、図5に示した相互相関を求める。ここでは、図5のように音源Sの方向を推定する必要はなく、参照信号Sr1の成分信号および参照信号Sr2の成分信号のどちらが位相的に先であるか、すなわち、マイクM1,M2のどちらに先に音声信号が到達したか判定されればよい。度数積算部122は、各周波数帯域毎に判定されたマイクM1,M2のどちらに音声信号が先に到達したかの判定結果を集計する。そして、マイク選択部123は、その集計結果に基いてマイクM1,M2のいずれかを選択する。すなわち、音声信号が先に到達したと判定された度数の多い方のマイクMが音源Sに近いと判断して、そのマイクMを選択する。マイク選択部123は、この選択結果を選択IDとして信号切換部112に出力する。

0054

信号判定部111は、短い間隔、例えば、4ミリ秒毎に相互相関係数の算出を行って、どのマイクMが音源Sに最も近いかを判定する。そして、この判定結果を複数回(例えば50回程度)移動平均した結果を選択IDとして出力する。このようにすることにより、音源Sが移動してもリアルタイムに追従することができるとともに、複数のマイクMが音源Sに対してほぼ等距離にある場合でもチャタリングを無くすことができる。また、信号切換部112は、入力された収音信号Scを単に切り換えるものであってもよいが、選択IDが切り換わったとき、今まで選択されていた収音信号Scから新たに選択された収音信号Scへクロスフェードするミキサ機能を備えたものであってもよい。これにより、選択が切り換わった場合でも出力される音声信号が不連続にならず、障りなノイズが発生することがなくなる。

0055

図7は、図1に示したマイク選択装置の変形例を示す図である。この実施形態では、マルチパス残響抑圧部110の後段にエコーキャンセラ113を設けている。エコーキャンセラ113は、スピーカ(例えば図8のスピーカ26)から放音される音声信号に対して線形な信号を入力することが基本であるが、ここではマルチパス残響抑圧部110によって残響が非線形に抑圧された信号を入力してエコーを除去している。このため、音質をそれほど考慮する必要がなく、簡易な構成で処理量の少ないエコーキャンセラとすることができる。なお、マルチパス残響抑圧部110の抑圧量が大きい場合には放音信号のゲインを調整してからフィルタ係数を算出するようにしてもよい。

0056

また、図1または図7の構成において、信号切換部112から出力された所望信号Sdに対して高音質のエコーキャンセラを1つ設けてもよい。これにより、複数のマイクMのそれぞれに対して高音質のエコーキャンセラを設ける構成に比してエコー除去処理負担を軽減することができる。

0057

このマイク選択装置Dは、複数のマイクが会議室に設置される音声会議システムにおいて、発言者に最も近いマイクを選択する処理部に適用可能である。会議などでは、収音音声明瞭度が強く要求される。したがって、会議において拡声遠隔転送に用いる音声信号は、複数のマイクをミキシングした音声信号よりも、最適な1本のマイクで収音された音声信号のほうが好適である。図1に示したマイク選択装置Dであれば、最適なマイクの選択が可能である。

0058

以下、図面を参照して上記マイク選択装置Dが適用された音声会議システムについて説明する。図8は、音声会議システム1の設置形態の一例を示す図である。なお、以下の説明において、図1図4に示した構成部と同一構成の部分は、同一番号を付して説明を省略する。

0059

この音声会議システム1は、会議室Cの会議H上に設置される。音声会議システム1は、1台の通信器10および複数台(この実施形態では5台)の収音器11を有する。通信器10は、スピーカ26を有する。収音器11は、複数のマイク素子31を備える。通信器10および収音器11は通信ケーブル12で相互に接続され、デジタル通信を行う。収音器11は、3つのマイク素子31のうち最も音源Sに近いと推定されるマイク素子31で収音した音声信号(所望信号Sd)、および、3つのマイク素子31の参照信号Srを加算合成した信号である合成参照信号Sraを通信器11に送信する。通信器10は、5つの収音器11から受信した5つの所望信号Sdのなかから、最適と思われる所望信号Sdを選択する(2段階選抜)。この信号を送信音声信号Sddとして出力する。通信器10は、ホスト装置であるパーソナルコンピュータ2に接続される。パーソナルコンピュータ2は、インターネットなどのネットワーク3を介して、他の拠点に設置されている他の音声会議システム(相手システム)と通信する。パーソナルコンピュータ2は、送信音声信号Sddを相手システムに送信するとともに、相手システムから受信した音声信号(送信音声信号Sdd)を通信器10に入力する。通信器10は、この信号を放音信号Soとしてスピーカ26から放音する。

0060

図9は、会議室Cにおける音声伝搬の形態を説明する図である。スピーカ26から放音された音声(放音音声)は、参加者SPに到達するとともに、収音器11のマイク素子31にも到達する。スピーカ26の放音音声がマイク素子31に到達して収音されると、回帰音となり、エコーの原因となる。また、参加者SP(音源S)が発言した音声は、直接および会議室Cの壁および天井で様々に反射して複数のマイク素子31に到達する。直接音以外の音声がマイク素子31に収音されるとマルチパスによる残響の原因となる。

0061

以下の説明では、スピーカ26から放音された音声がマイク素子31に収音されてシステム内を循環する現象をエコーと呼び、参加者SPが発言した音声が空間内の様々な経路を経てマイク素子31に到達するマルチパス現象を残響と呼ぶ。すなわち、エコーは、他拠点に設置された他の音声会議システムで収音された音声がスピーカ26から放音され、この音声がマイク素子31によって収音され、上記他の音声会議システムに返送される現象であり、残響は、参加者Sが発言した音声が、距離の異なる複数の経路を経てマイク素子31に収音されることにより、波形が崩れる現象である。

0062

《マルチパス残響抑圧部の変形例》
図10は、収音器11のブロック図である。図11は、収音器11の3つのマイク素子31のそれぞれの指向性を示す図である。図12は、収音器11の回帰音エコーキャンセラ32のブロック図である。図13は、収音器11の音声選択部33のブロック図である。図14は、マルチパス残響抑圧部114のブロック図である。なお、通信器10および収音器11に内蔵の機能部は、電子回路で構成されてもよく、コンピュータなどのプロセッサとプログラムの協働によって実現されてもよい。

0063

この音声会議システム1では、回帰音エコーを防止するため、各マイク素子31毎に、スピーカ26から放音された音声をキャンセルする回帰音エコーキャンセラ32(図10参照)が接続される。また、本実施例において、マルチパス残響を抑圧してマイク素子31を選択するための参照信号Srを生成するマルチパス残響抑圧部114は、図1図4で説明したもの(マルチパス残響抑圧部110)と異なり、回帰音エコーキャンセラ32が算出した推定インパルス応答Irを用いて残響を抑圧している。

0064

収音器11は、3つのマイク素子31を備える。図8および図11に示すように、収音器11は円盤状の平面形状をしており、その円周上に120度ずつの間隔で3つのマイク素子31が外向き(法線方向)に放射状に設けられている。各マイク素子31は単一指向性マイクであり、マイク素子31が向いている方向を中心にカージオイド形状の収音特性を有する。各マイク素子31は120度の間隔で設けられ、その指向特性図11に示すような配置になるため、各マイク素子31の収音信号を合成すればほぼ無指向性に近い特性の信号が得られる。なお、マイク素子31は、指向特性がカージオイドのものに限定されない。後方に若干の指向性を持つものであってもよく、双指向性のものであってもよい。

0065

図10において、収音器11は、3つのマイク素子31に加えて、各マイク素子31に対応する回帰音エコーキャンセラ32、音声選択部33、および、通信インタフェース34を備えている。各マイク素子31にはそれぞれ対応する回帰音エコーキャンセラ32が接続されている。回帰音エコーキャンセラ32は、マイク素子31で収音された音声信号のなかからスピーカ26から放音された音声信号の成分をキャンセルする。回帰音エコーキャンセラ32の詳細構成は、図12で説明する。回帰音エコーキャンセラ32には、スピーカ26から放音される音声信号(放音信号So)が入力される。放音信号Soは、通信インタフェース34を介して通信器10から送られてきたものである。各マイク素子31の音声信号は、回帰音エコーキャンセラ32によって、スピーカ26からの回帰音がキャンセルされ、収音信号Scとして信号選択部33に出力される。また、回帰音エコーキャンセラ32は、回帰音エコーをキャンセルするために空間Cのインパルス応答を推定して推定インパルス応答Irを算出する。この推定インパルス応答Irが信号選択部33に入力される。信号選択部33は、この推定インパルス応答Irをマルチパス残響の抑圧に用いる。

0066

図12は、回帰音エコーキャンセラ32のブロック図である。回帰音エコーキャンセラ32は、フィルタ係数設定部35Bおよび可変フィルタ35Bを有する適応フィルタ35を有し、さらに加算器37を有している。一般的に適応フィルタとは、所定の最適化アルゴリズムに従って自己の伝達関数(適応フィルタ係数列)を自動適応させるフィルタである。

0067

フィルタ係数設定部35Bは、会議室Cの音響伝達系(スピーカ26からマイク素子31に至る音響伝搬経路)の伝達関数を推定し、推定した伝達関数のフィルタとなるようなフィルタ係数を可変フィルタ35Aに設定する。

0068

可変フィルタ35Aには、スピーカ26から放音される音声信号(放音信号)が入力される。可変フィルタ35Aの伝達関数は、会議室Cの音響伝達系(スピーカ26からマイク素子31に至る音響伝搬経路)が模擬された伝達関数であるため、可変フィルタ35Aでフィルタリングされた放音信号は、スピーカ26から放音され会議室Cを伝搬してマイク素子31に収音された音声信号(回帰音信号)を模擬した音声信号(擬似回帰音信号)である。この擬似回帰音信号は加算器37に入力される。

0069

また、加算器37には、マイク素子31が収音した音声信号が入力される。加算器37は、この音声信号から模擬回帰音信号を減算する。マイク素子31が収音した音声信号には、会議の参加者MPの発話音声信号とともにスピーカ26から放音されて回り込んだ回帰音信号も含まれている。加算器37が、収音信号から模擬回帰音信号を減算することにより、収音信号から回帰音が除去される。回帰音が除去された、すなわち、回帰音エコーをキャンセルされた音声信号は、収音信号Scとして音声選択部33に入力されるとともに、参照信号としてフィルタ係数設定部35Bに入力される。また、フィルタ係数設定部35Bには、もう一つの参照信号としてスピーカ26から放音される音声信号である放音信号Soも入力される。フィルタ係数設定部35Bは、これら参照信号Sc,Soに基づいてフィルタ係数を継続的に更新する。なお、このフィルタ係数の更新は、スピーカ26から音声が放音されていて、かつ、会議室Cにいる参加者MPが発話をしていない時間区間を自動的に検出し、その時間区間の参照信号を用いて行われることが好適である。

0070

ここで、可変フィルタ35AはFIRフィルタである。したがって、可変フィルタ35Aに設定されるフィルタ係数は、フィルタ係数設定部35Bが、スピーカ26からマイク素子31に至る音響伝搬経路のインパルス応答を推定して模擬したものである。フィルタ係数設定部35Bは、このフィルタ係数を推定インパルス応答Irとして、音声選択部33(マルチパス残響抑圧部114)に入力する。

0071

図13は、音声選択部33のブロック図である。音声選択部33は、3つのマイク素子31の収音信号Scのうちどの収音信号Scが最適であるかを判定し、その収音信号Scを所望信号Sdとして通信器10に出力する機能部である。音声選択部33は、各マイク素子31に対応する3つのマルチパス残響抑制部114、信号判定部111、信号切替器112、および、加算器113を備えている。マルチパス残響抑圧部114は、後で、図14図17を参照して詳述する。マルチパス残響抑圧部114で、マルチパスによる残響を除去された音声信号は、マイク選択用の参照信号Srとして相互相関係数算出部111に入力されるとともに、加算器113に入力される。加算器113は、3つのマルチパス残響抑圧部114でそれぞれ残響抑圧された3つの参照Srを加算合成する。加算合成された合成参照信号Sraは、通信器10における収音器11の選択用(2段階選抜用)の参照信号として用いられる。なお、通信器10における収音器11の選択用(2段階選抜用)の参照信号として、所望信号Sdのマイク素子31の参照信号Srが用いられてもよい。

0072

信号判定部111は、マルチパス残響抑圧部114から入力された参照信号Srに基いて、どのマイク素子31が参加者SPに最も近いかを判定する。この判定は、図5図6で説明した手法を用いて行われればよい。信号判定部111は、3つのマイク素子31の全ての組み合わせで、図1で説明した相互相関係数の算出処理を行う。すなわち、図20(A)に示すように、3つのマイク素子31の場合、一対一の組み合わせが3種類あるため、相互相関係数の算出を3回行う。その結果に基いて、すなわち、どのマイク素子31の参照信号Srの相互相関のピークが時間的に先んじているかによって、どのマイク素子31を選択するかを決定する。決定されたマイク素子31を選択するための選択IDを信号切替器112に出力する。信号切替器112は、選択IDにもとづき、回帰音エコーキャンセラ32から入力されている2つの収音信号Scから1つを選択し、所望信号Sdとして通信インタフェース34に出力する。

0073

図14は、マルチパス残響抑圧部114のブロック図である。マルチパス残響抑圧部110は、収音信号Scのマルチパス残響を抑圧する。マルチパス残響抑圧部114は、残響を抑圧するための残響抑圧フィルタ24、および、回帰音エコーキャンセラ32から入力された推定インパルス応答Irに基づいて残響抑圧フィルタ24のフィルタ係数を決定するパラメータ推定部23を有している。残響抑圧フィルタ24には、会議室Cの残響時間の長い周波数帯域のレベルを抑制するような信号処理を行うようなフィルタ係数が設定される。この場合、低音域の残響が明瞭度の低下の原因になるため、低音域に対しては抑制の度合いを強くする。残響抑圧フィルタ24によって残響時間の長い周波数帯域が抑制された信号が参照信号Srとして、信号判定部111および加算器113に入力される。

0074

図15は、マルチパス残響抑圧部114の動作を示すフローチャートである。また、図16は、残響抑制処理の手順のなかで現れる信号波形を例示した図である。図14図16を参照してマルチパス残響抑圧部114の構成および動作を説明する。

0075

図15において、収音(S101)はマイク素子31が行う。エコーキャンセル処理(S102)、および、適応フィルタ35からのフィルタ係数(推定インパルス応答Ir)の取り出し(S103)は、回帰音エコーキャンセラ32が行う。回帰音エコーキャンセラ32は、可変フィルタ35Aのフィルタ係数を推定インパルス応答としてマルチパス残響抑圧部114に出力する。

0076

図14において、パラメータ推定部23は、残響時間推定部41、補正特性算出部43、および、フィルタ係数算出部44を備える。

0077

回帰音エコーキャンセラ32から入力された推定インパルス応答Irは、残響時間推定部41に入力される。残響時間推定部41では以下の処理が行われる。まず、推定インパルス応答を複数チャンネルバンドパス・フィルタに通して帯域を分割する。分割するチャンネルの数や各チャンネルの周波数帯域は任意であるが、例えば、315Hz〜8000Hzまでを15のチャンネルに分割するなどの帯域分割を行えばよい。この処理により、各周波数帯域(チャンネル)の信号成分のインパルス応答が推定される。この処理が図15のS104の処理である。

0078

残響時間推定部41は、各周波数帯域の推定インパルス応答に基づき、各周波数帯域の信号の残響時間を求める。残響時間は、一般的に信号レベルが−60dB(100万分の1)に減衰するまでの時間を言い、その算出・推定方法は種々あるが、ここではシュレーダー法により残響時間を求めればよい。シュレーダー法は、インパルス応答をシュレーダー積分または後方累積加算によって、図16(A)に例示するようなシュレーダー曲線(残響減衰曲線)を求め、この曲線が−60dBになるまでの時間を求めれば良い。簡略にはシュレーダー曲線の直接音や誤差成分等の含まれない所定区間を取り出してその区間の傾きをこの曲線の傾きとし、この傾きにより0dBから−60dBまで減衰する時間を推定してもよい。この処理が、図15のS105に相当し、各収音器11毎の周波数帯域毎に行われ、各収音器11の位置における周波数帯域毎の残響時間が推定される。

0079

S105の処理によって求められた各周波数帯域毎の残響時間を周波数軸にプロットすることにより、例えば、図16(B)に示すような会議室C全体の平均した残響特性が求められる。

0080

残響時間推定部41によって求められた残響特性は、補正特性算出部43に入力される。補正特性算出部43およびフィルタ係数算出部44は、入力された残響特性に基づき、残響時間の長い周波数帯域を抑制するような周波数領域の補正特性(フィルタ係数)を決定する。基本的には、シュレーダー法で求められた図16(B)のような残響特性に基づき、この残響をキャンセルするような(例えば図16(C)に示すような)、フィルタ係数が算出され、残響抑圧フィルタ24に設定される。この補正係数(フィルタ係数)の決定は、残響時間の閾値や音域などを考慮して以下の手法で行われる。

0081

補正特性の決定は、周波数帯域ごとに残響時間の閾値を定めておき、残響時間が閾値を超えている周波数帯域を抽出してこの周波数帯域のパワーを抑制する方法や、残響音を抑制する既知のフィルタリング法、周波数帯域ごとのゲインテーブルを用いることで周波数帯域ごとのパワーの抑制量を定める方法などを選択することができる。周波数帯域ごとのゲインテーブルは図17に示すようなものが使用できる。このゲインテーブルは縦軸がゲイン(dB)、横軸が残響時間RT(秒)となっており、周波数帯域ごとのゲイン値が傾きを有する線分で示されている。f1〜fnの線分は、上述したバンドパスフィルタにより分割された周波数帯域に対応し、f1が低音域側、fnが高音域側となっている。例えば帯域f3において残響時間が1.0秒であればゲインは−30dBと定められる。このゲインテーブルでは低音域の線分がより急峻な傾きをもつように設定されている。高帯域側のf4では残響時間が1.0秒であればゲインは−24dB付近となる。このように低音域の残響時間が長い場合には、この低音域を高音域の残響時間が長い場合よりも強く抑制するような補正特性が決定される。

0082

なお、ゲイン値には下限があり、所定の値(図に示したゲインテーブルでは−30dB)を超える抑制は行われないようにしている。また各周波数帯域において所定の残響時間(f3においては1.0秒)を超えた場合はゲインの下限値を適用するようにしている。この処理が図15のS106である。決定された補正特性はフィルタ係数算出部44に入力される。

0083

フィルタ係数算出部44は、残響抑圧フィルタ24が補正特性算出部43で算出された補正特性を持つようにフィルタ特性を決定する。残響抑圧フィルタ24は、FIRフィルタやIIRフィルタで構成される。フィルタ係数は、残響抑圧フィルタ24の構成に合わせて、離散時間逆フーリエ変換や、パラメトリックピークフィルタなどの演算によって算出される。この処理が図15のS107である。算出されたフィルタ係数は、残響抑圧フィルタ24に設定される(S108)。このフィルタ24で収音信号Scをフィルタリングすることにより、参加者MPの発話音声のマルチパス残響を抑圧して相互相関値演算の精度を向上させることができる。

0084

図18は、通信器10のブロック図である。通信器10は、パーソナルコンピュータ2と通信するための通信インタフェース21、マイクミキサ22、オーディオ回路25、スピーカ26および収音器11と通信するための通信インタフェース27を有する。通信インタフェース21は、パーソナルコンピュータ2とデジタル通信を行うためのインタフェースであり、たとえばUSBインタフェースが用いられる。USBインタフェースを用いた場合、パソコン2がホストであり通信器10がオーディオデバイスとなる。一方、収音器11が接続される通信インタフェース27は複数(実施形態では5つ)設けられており、それぞれケーブル12を介して個別の収音器11が接続される。通信インタフェース27は例えば有線LANのインタフェースを用いればよい。

0085

通信器10は、通信インタフェース27を介して、収音器11から、所望信号Sdおよび合成参照信号Sraを受信する。受信した所望信号Sdおよび合成参照信号Sraは音声選択部22に入力される。音声選択部22は、図19に示すような構成をしており、収音器11の音声選択部33と同様に、複数の音声信号(5つの所望信号Sd)の中から最適な一つを選択して出力する。音声選択部22については、後で図19を参照して詳述する。音声選択部22によって選択された音声信号は、送信音声信号Sddとして通信インタフェース21を介してパーソナルコンピュータ2に送信される。パーソナルコンピュータ2は、この送信音声信号Sddをネットワーク3を介して他拠点の音声会議システムに送信する。

0086

また、パーソナルコンピュータ2は、他拠点の音声会議システムから音声信号(送信音声信号Sdd)を受信する。この音声信号は、通信インタフェース21を介して通信器10に入力され、放音信号Soとしてオーディオ回路25に入力されるとともに、通信インタフェース27を介して各収音器11に送信される。オーディオ回路25は、放音信号Scをアナログの音声信号に変換し、所定のレベルで増幅してスピーカ26に入力する。スピーカ26は、この放音信号を音声として会議室Cに放音する。放音された音声は会議の出席者SPに聴取されるとともに、マイク素子31によって収音される。

0087

図19は、通信器10の音声選択部22のブロック図である。音声選択部22は、5つの収音器11から受信した5つの所望信号Sdから1つの送信音声信号Sddを選択する。音声選択部22は、信号判定部111および信号切換器112を有している。信号判定部111には、5つの収音器11から受信した5つの参照信号Sraが入力される。また、信号切換器112には、5つの収音器11から受信した5つの所望信号Sdが入力される。信号判定部111は、一対一の全ての組み合わせについて相互相関係数の算出を行う。5つから2つを取り出す組み合わせは、図20(B)に示すように10種類あるため、信号判定部111は、相互相関係数の算出を10回行う。信号判定部111は、算出結果に基づき、最も発言している参加者MP(音源S)に近いと判定された収音器11から受信した所望信号Sdを選択する。信号判定部111は、この信号の選択IDを信号切換器112に出力する。信号切換器112は、選択IDで選択された所望信号Sdを送信音声信号Sddとして通信インタフェース21に出力する。

0088

図1の実施形態では、時定数の異なる2つのフィルタを用いて残響特性を推定し、これに基いて残響を抑圧した。また、図8の実施形態では、シュレーダー曲線を用いて残響特性を推定し、これに基いて残響を抑圧した。ところで、マルチパスによる残響は、主として低音域で強く生じる。会議室などの音響空間で用いる人の音声を伝送する会議システムにおいては、特定の周波数を上限とした低音域においてマルチパスによる残響が生じることがわかった。この特定の周波数は4KHzが上限となることがわかっている。上記のマルチパス残響抑圧部110、114はこの特定の周波数を上限とした低音域を効果的に抑圧することができる。上記のマルチパス残響抑圧部110、114に、特定の周波数を上限とした低音域を固定的に削ってしまうローカットフィルタを追加で設けてもよい。これにより、残響成分をより強く抑圧することが可能になる。なお、参照信号Srは、マイク素子31(収音信号Sc)を選択するためみに用いられ、相手システムに音声信号として伝送されるものではないため、強い信号処理によって音質が劣化することを考慮する必要はなく、不要成分を効率的に除去して必要成分(本願の場合直接音信号)のみを残すようにすればよい。上記上限とした特定の周波数は、例えば4kHz程度とすることができる。また、人の聴覚器官入口付近で高い周波数を感知するため3KHz〜4KHzの音声は聞きやすい音域となる。この音域を相関関係係数算出のためのターゲットとするため3Khz以下の音声をカットオフするようにマルチパス残響抑圧部を設定することも効果的である。さらに、3KHz〜4KHzの音声のゲインを持ち上げることもできる。

0089

また、残響抑圧の処理を簡略化する場合には、マルチパス残響抑圧部110、114に代えてローカットフィルタを設け、このローカットフィルタで収音信号Scの低音域を抑圧した信号を参照信号Srとして用いてもよい。この場合でも、ローカットフィルタのカットオフ周波数は、例えば4kHz程度が好適である。また、ローカットフィルタに代えて、4kHz以下の音域をダウンサンプリングしてもよい。

0090

また、上記実施形態の信号判定部111では、どのマイクM(マイク素子31)が音源S(発言者SP)に最も近いかを相互相関係数のみで判定しているが、相互相関係数に加えて信号レベルも考慮して判定してもよい。

0091

例えば、以下のような処理を行ってもよい。「相互相関係数を算出する前に、まず2つのマイクMの収音信号Sc間のレベル差を検出する。」、「レベル差が明確なとき(レベル差が所定値以上の場合)は、信号レベルが大きいマイクMが音源Sに近いと判定して、相互相関係数の算出を省略する。」、「レベル差が所定値未満の場合には、相互相関係数を算出してどちらのマイクMが音源Sに近いかを判定する。」

0092

以上の処理により、信号レベルの差が大きい場合に、相互相関係数の算出処理を省略することができる。また、2つのマイクMと音源Sとの距離差が小さいときは、信号レベルの差が僅かであり、時にはその大小が逆転したりするため、信号レベルに基いてどちらのマイクMが音源Sに近いかを判定するのは困難である。このため、2つのマイクMと音源Sとの距離差が小さい場合には、相互相関係数を用いて判定したほうが有利である。一方、2つのマイクMと音源Sとの距離差が大きい場合は、信号レベルの差が大きく、その違いは明確であり、わざわざ相互相関係数を算出して判定するまでもない。さらに、信号レベルの差が大きい2つの信号は、信号波形も(振幅以外に)形状の相違があるため、正規化して相互相関係数を算出しても相関値が大きくならず、ピークが明確でなくなってしまう場合がある。したがって、信号レベル差が所定値よりも大きい場合には、相互相関係数を用いずに、信号レベル差のみで判定することも有効である。

0093

上記実施形態では、信号判定部111が、図5図6に示したように2本のマイクMで収音した音声信号の相互相関を求めてどちらのマイクMが音源Sに近いかを判定する。この2本のマイクM間の相互相関演算を全てのマイクMn(n=1,2,…)における2本の組み合わせについて行う。したがって、マイクの本数が多くなるにしたがって、相互相関の演算回数が増加し、マイクMがn本ある場合には数式5に示す組み合わせの相互相関の演算が必要になる。

0094

0095

たとえば、図20(A)に示すように3本のマイクM1−M3がある場合には、3回の演算が必要であり、図20(B)に示すように5本のマイクM1−M5がある場合、10回の演算が必要である。このように、マイクの本数が多くなるほど、演算回数が増加するが、全てのマイクMの2本の組み合わせについて演算することにより、マイクMがどのような配置になっていても、またマイクMが途中で移動しても、適切に音源Sに最も近いマイクMを選択することが可能である。たとえば、マイクMが5本設置される場合、図8のようなU字形の配置もあれば、図21のような数珠つなぎの直線状(ジグザグ)の配置もある。図21のような直線状の配列の場合、装置にその配列を設定しておけば、隣同士のマイクについて相互相関演算をするのみで(この例の場合4回の演算で)、最適なマイクMを選択することができる。しかし、全ての組み合わせの相互相関演算を行うことにより、ユーザにこのような配置形態の設定を行わせることなく、どのような配置形態であっても装置が適切なマイクMを選択する。また、それぞれのマイクの参照信号を複数の周波数帯域に分割し、各周波数帯域の成分信号毎に相互相関を求めて集計してもよい。なお、図20図21の例はマイクが3本および5本の場合を例示しているが、マイクの本数に理論上制限はない。

0096

上記実施形態では、音源Sに最も近いマイクMを1つ選択しているが、音源Sに最も近いものから複数のマイクを選択してその信号をミキシングしてもよい。その場合、その近さの程度に応じた重み付けでミキシングするようにしてもよい。

0097

図22を参照して、信号レベル判定値および相関値に基いてマイクを選択する手法について説明する。この実施形態では、複数(ここでは3本)のマイクM1−M3の信号レベルおよび相関度一括して比較し、所定の閾値を超えたマイクを収音用マイクとして選択する。ここで、信号レベル判定値とは、分割帯域ごとに一定レベルを超えたマイクに付与される値であり、相関値とは、信号位相が他の信号に比べてどれだけ進んでいるかを示す値である。例えば、上述した相互関係算出部で得られたピークが近い方のマイクに正の値、遠いマイクに負の値、中間である場合は0を相関値として付与することができる。数値の段階は任意に設定できる。また信号レベルは任意のマイク間で帯域ごとにレベルを比較し、レベルの高いマイクへ正の値、中間である場合に0、低いマイクへ負の値を信号レベル判定値として付与することができる。

0098

この実施形態の信号判定部111は、以下のような処理を実行する。マイクM1−3によって収音されマルチパスエコーを抑圧された参照信号Sr1−3を入力し、これら参照信号Sr1−3をそれぞれ複数の周波数帯域B1−B7に分割する。各参照信号の各周波数帯域の成分信号Sr1B1−7、Sr2B1−7、Sr3B1−7の信号レベル判定値を求めるとともに、各周波数帯域B1−7において、各成分信号Sr1−3B1−7の相関値を求める。ここで、相関値とは、信号位相が他の信号に比べてどれだけ進んでいるかを示す値であるため、各参照信号の成分信号Sr1−3Bnの中でどの信号の位相が進んでいるか/どの信号の位相が遅れているかを検出し、その位相の進度順番を判定する。この処理を周波数帯域B1からB7まで行う。このようにして求められた各参照信号Sr1−3の信号レベル判定値および相関値の順位をポイント化してその合計値である判断基準値を求める。この判断基準値が所定の閾値に達している場合、そのマイクを収音用マイクとして選択する。選択されるマイクが複数ある場合には、それらのマイクが収音した信号をミキシングして所望信号Sdとする。

0099

図22に示した例では、各周波数帯域B1−7において、信号レベルが高いものに1ポイント、低いものに0ポイントの信号レベル判定値を、信号の位相進度が早いものに1ポイント、中間のものに0ポイント、遅いものに−1ポイントの相関値を付している。そして、閾値を例えば2ポイントとする。この例では、それぞれの判断基準値は参照信号Sr1が7ポイント、参照信号Sr2が2ポイント、参照信号Sr3が−5ポイントであるため、閾値を超えたマイクM1およびマイクM2が選択される。この実施例の場合、レベル判定値のみで判定すると、マイクM2、マイクM3は同じ値「2」であるが、相関値を加えて算出するとマイクM3は選択すべきマイクではないことがわかる。このように算出することで信号レベルと相関度という異なるパラメータを同一の観点で比較することができる。また3つ以上のマイクを比較する場合、第一に任意の2つのマイクを比較し、得られた比較結果(信号レベル判定値、相関値)を保存しておき、第二に結果が得られた一方のマイクと比較を行っていない他のマイクとを比較し、先の比較結果に新たな結果を累積していくことができる。

0100

上述したように任意の2つのマイクを選択して比較を繰り返すこともできるが、それぞれの帯域において複数のマイクの信号レベル判定値、相関値を同時に比較することもできる。この場合は、一定のレベルを超えたマイクに正の値、一定のレベル付近である場合に0、一定のレベルよりも低いマイクへ負の値を信号レベル判定値として付与し、さらに、それぞれのマイクの音源からの遅延時間が一定の遅延時間よりも早いマイクに正の値、遅いマイクに負の値、一定の遅延時間付近である場合は0を相関値として付与することができる。なお、この実施形態において、複数のマイクが閾値を超えても、ポイントが最大の1本のマイクのみを選択するようにしてもよい。

0101

C会議室
Dマイク選択装置
H会議机
M(M1、M2) マイク
S音源
SP会議参加者(発言者)
1音声会議システム
2パーソナルコンピュータ
3ネットワーク
10通信器
11収音器
26スピーカ
31マイク素子
110、114マルチパス残響抑圧部
111信号判定部
112 信号切換部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ