図面 (/)

技術 ロボット視聴覚システム

出願人 国立研究開発法人科学技術振興機構
発明者 中臺一博奥乃博北野宏明
出願日 2002年3月1日 (18年2ヶ月経過) 出願番号 2002-056670
公開日 2003年9月9日 (16年7ヶ月経過) 公開番号 2003-251583
状態 特許登録済
技術分野 マニプレータ・ロボット マニプレータの制御、安全及び主従型のもの マニプレータ
主要キーワード 分離波形 原波形信号 特徴層 測定関数 調和関係 モータ制御モジュール 知覚装置 音響的環境
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2003年9月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

目標に対する視覚及び聴覚の情報を統合して、目標の音源定位を正確に行なうようにした、ロボット視聴覚システムを提供する。

解決手段

聴覚モジュール20,顔モジュール30,ステレオモジュール37,モータ制御モジュール40と、各モジュールを制御するアソシエーションモジュール50とを備え、アソシエーションモジュールが、聴覚モジュールからの聴覚イベント28,顔モジュールからの顔イベント39,ステレオモジュール37からのステレオイベント39a,モータ制御モジュールからのモータイベント48から聴覚ストリーム55及び視覚ストリーム56と、これらを関連付けたアソシエーションストリーム57を生成すると共に、聴覚モジュールが、アソシエーションモジュールからの正確な音源方向情報に基づいて、アクティブ方向通過型フィルタ23aによる音源分離を行なうようにロボット視聴覚システム17を構成する。

概要

背景

近年、このような人型または動物ロボットにおいては、視覚聴覚の能動知覚が注目されてきている。能動知覚とは、ロボット視覚やロボット聴覚等の知覚を担当する知覚装置を、知覚すべき目標追従するように、これらの知覚装置を支持する例えば頭部を駆動機構により姿勢制御するものである。

ここで、能動視覚に関しては、少なくとも知覚装置であるカメラが、駆動機構による姿勢制御によってその光軸方向が目標に向かって保持され、目標に対して自動的にフォーカシングズームインズームアウト等が行なわれることにより、目標がカメラによって撮像されるようになっており、種々の研究が行なわれている。

これに対して、能動聴覚に関しては、少なくとも知覚装置であるマイクが、駆動機構による姿勢制御によって、その指向性が目標に向かって保持され、目標からの音がマイクによって集音される。このとき、能動聴覚の不利な点として、駆動機構が作用している間は、マイクが駆動機構の作動音を拾ってしまうため、目標からの音に比較的大きなノイズ混入してしまい、目標からの音を認識できなくなってしまうことがある。このような能動聴覚の不利な点を排除するために、例えば視覚情報を参照して音源方向付けを行なうことにより、目標からの音を正確に認識する方法が採用されている。

概要

目標に対する視覚及び聴覚の情報を統合して、目標の音源定位を正確に行なうようにした、ロボット視聴覚システムを提供する。

聴覚モジュール20,顔モジュール30,ステレオモジュール37,モータ制御モジュール40と、各モジュールを制御するアソシエーションモジュール50とを備え、アソシエーションモジュールが、聴覚モジュールからの聴覚イベント28,顔モジュールからの顔イベント39,ステレオモジュール37からのステレオイベント39a,モータ制御モジュールからのモータイベント48から聴覚ストリーム55及び視覚ストリーム56と、これらを関連付けたアソシエーションストリーム57を生成すると共に、聴覚モジュールが、アソシエーションモジュールからの正確な音源方向情報に基づいて、アクティブ方向通過型フィルタ23aによる音源分離を行なうようにロボット視聴覚システム17を構成する。

目的

この発明は、以上の点にかんがみて、目標に対する視覚及び聴覚の情報を統合して、目標の音源分離を正確に行なうロボット視聴覚システムを提供することを目的としている。

効果

実績

技術文献被引用数
0件
牽制数
6件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む顔モジュールと、ステレオカメラにより物体を抽出するステレオモジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、上記聴覚モジュール,顔モジュール,ステレオモジュール及びモータ制御モジュールからのイベント統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えていて、上記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出調波構造に基づいたグルーピングによる音源の分離及び定位から、少なくとも一人の話者の方向を決定してその聴覚イベントを抽出し、上記顔モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から、各話者を同定してその顔イベントを抽出し、上記ステレオモジュールが、ステレオカメラにより撮像された画像から抽出された視差に基づいて縦に長い物体を抽出定位してステレオイベントを抽出し、上記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出し、これにより、上記アソシエーションモジュールが、聴覚イベント,顔イベント,ステレオイベント及びモータイベントから、聴覚イベントの音源定位及び顔イベントの顔定位並びにステレオイベントの物体定位の方向情報に基づいて各話者の方向を決定し、カルマンフィルタを用いてイベントを時間方向に接続することにより聴覚ストリーム,顔ストリーム及びステレオストリームを生成し、さらにこれらを関連付けてアソシエーションストリームを生成して、上記アテンション制御モジュールが、これらのストリームに基づいてアテンション制御とそれに伴う行動プランニング結果に基づいて、モータの駆動制御を行なうロボット視聴覚システムであって、上記聴覚モジュールが、アソシエーションモジュールからの正確な音源方向情報に基づいて、聴覚特性に従って正面方向で最小となり且つ左右に角度が大きくなるにつれて大きくなるパスレンジを有するアクティブ方向通過型フィルタにより、所定幅の範囲内の両耳間位相差(IPD)または両強度差(IID)をもったサブバンドを集めて、音源の波形再構築することにより音源分離を行なうことを特徴とする、ロボット視聴覚システム。

請求項2

前記聴覚モジュールが、拡張聴覚エピポーラ幾何による音源定位に基づいて音源分離を行なうことを特徴とする、請求項1に記載のロボット視聴覚システム。

請求項3

前記聴覚モジュールが、ロボット固有所定周波数を基準として、当該所定周波数未満で拡張聴覚エピポーラ幾何により、または全周波数帯域頭部伝達関数(HRTF)により、または全周波数帯域で拡張聴覚エピポーラ幾何により、あるいは所定周波数未満で拡張聴覚エピポーラ幾何により且つ所定周波数以上で頭部伝達関数により、それぞれ得られる音源定位に基づいて音源分離を行なうことを特徴とする、請求項2に記載のロボット視聴覚システム。

請求項4

前記アソシエーションモジュールが、各話者の方向を決定した後、カルマンフィルタを用いてイベントを時間方向に接続することにより、聴覚ストリーム,顔ストリーム及びステレオストリームを生成し、さらにこれらを関連付けてアソシエーションストリームを生成することを特徴とする、請求項1から3の何れかに記載のロボット視聴覚システム。

請求項5

前記聴覚モジュール,顔モジュール,ステレオモジュール,モータ制御モジュール,アソシエーションモジュール及びアテンション制御モジュールが、ネットワークを介して互いに接続されており、特にデータ量の大きいイベントやストリームの通信のために、比較的高速のネットワークが使用されていることを特徴とする、請求項1から4の何れかに記載のロボット視聴覚システム。

技術分野

0001

本発明はロボット、特に人型または動物型ロボットにおける視聴覚システムに関するものである。

背景技術

0002

近年、このような人型または動物型ロボットにおいては、視覚聴覚の能動知覚が注目されてきている。能動知覚とは、ロボット視覚やロボット聴覚等の知覚を担当する知覚装置を、知覚すべき目標追従するように、これらの知覚装置を支持する例えば頭部を駆動機構により姿勢制御するものである。

0003

ここで、能動視覚に関しては、少なくとも知覚装置であるカメラが、駆動機構による姿勢制御によってその光軸方向が目標に向かって保持され、目標に対して自動的にフォーカシングズームインズームアウト等が行なわれることにより、目標がカメラによって撮像されるようになっており、種々の研究が行なわれている。

0004

これに対して、能動聴覚に関しては、少なくとも知覚装置であるマイクが、駆動機構による姿勢制御によって、その指向性が目標に向かって保持され、目標からの音がマイクによって集音される。このとき、能動聴覚の不利な点として、駆動機構が作用している間は、マイクが駆動機構の作動音を拾ってしまうため、目標からの音に比較的大きなノイズ混入してしまい、目標からの音を認識できなくなってしまうことがある。このような能動聴覚の不利な点を排除するために、例えば視覚情報を参照して音源方向付けを行なうことにより、目標からの音を正確に認識する方法が採用されている。

発明が解決しようとする課題

0005

ところで、このような能動聴覚においては、一般に、音源定位の際に、HRTF頭部伝達関数)から求められる両耳間位相差(IPD)や両強度差(IID)を利用して、音源定位を行なうようにしている。しかしながら、上記HRTFを利用した音源定位では、部屋の音響環境まで考慮する必要があり、部屋の環境の変化が音源定位結果に大きく依存してしまう。また、測定関数であるため測定点間の値の補完が必要であるという問題もある。従って、実環境アプリケーションには不向きである。

0006

また、HRTFに依らず、視覚における所謂エピポーラ幾何を応用した音源定位も考えられるが、従来のエピポーラ幾何を応用した音源定位においては、両耳と目標とを結ぶ三角形に基づいて音源定位を行なっている。しかしながら、このようなエピポーラ幾何における三角形においては、頭部付近では、上記三角形の辺が頭部を貫通することになるが、実際の目標からの音は頭部を貫通せず、頭部表面に沿って伝達するため、正確な音源定位を行なうことができなかった。

0007

さらに、音源分離の際には、所謂方向通過型フィルタを用いて、特定の方向のIPDと同じIPDを有するサブバンドを選択する方法がある。しかしながら、このような方向通過型フィルタにおいては、方向による感度の違い及びアクティブな動作を考慮していないため、感度の良好な正面以外の音源定位の精度が低くなってしまうと共に、従来では測定関数であるHRTFを利用している。従って、実環境及び環境の動的な変化に対応することが困難であり、さらにアクティブな動作に対してはHRTFの補間が必要になるという問題があった。

0008

この発明は、以上の点にかんがみて、目標に対する視覚及び聴覚の情報を統合して、目標の音源分離を正確に行なうロボット視聴覚システムを提供することを目的としている。

課題を解決するための手段

0009

上記目的は、この発明によれば、外部の音を集音する少なくとも一対のマイクを含む聴覚モジュールと、ロボットの前方を撮像するカメラを含む顔モジュールと、ステレオカメラにより物体を抽出するステレオモジュールと、ロボットを水平方向に回動させる駆動モータを含むモータ制御モジュールと、上記聴覚モジュール,顔モジュール,ステレオモジュール及びモータ制御モジュールからのイベントを統合してストリームを生成するアソシエーションモジュールと、アソシエーションモジュールにより生成されたストリームに基づいてアテンション制御を行なうアテンション制御モジュールと、を備えていて、上記聴覚モジュールが、マイクからの音響信号に基づいて、ピッチ抽出調波構造に基づいたグルーピングによる音源の分離及び定位から少なくとも一人の話者の方向を決定してその聴覚イベントを抽出し、上記顔モジュールが、カメラにより撮像された画像に基づいて、各話者の顔識別と定位から各話者を同定してその顔イベントを抽出し、上記ステレオモジュールが、ステレオカメラにより撮像された画像から抽出された視差に基づいて縦に長い物体を抽出定位してステレオイベントを抽出し、上記モータ制御モジュールが、駆動モータの回転位置に基づいてモータイベントを抽出し、これにより、上記アソシエーションモジュールが、聴覚イベント,顔イベント,ステレオイベント及びモータイベントから、聴覚イベントの音源定位及び顔イベントの顔定位並びにステレオイベントの物体定位の方向情報に基づいて各話者の方向を決定し、カルマンフィルタを用いてイベントを時間方向に接続することにより聴覚ストリーム,顔ストリーム及びステレオストリームを生成し、さらにこれらを関連付けてアソシエーションストリームを生成して、上記アテンション制御モジュールが、これらのストリームに基づいてアテンション制御と、それに伴う行動プランニング結果に基づいてモータの駆動制御を行なう、ロボット視聴覚システムであって、上記聴覚モジュールが、アソシエーションモジュールからの正確な音源方向情報に基づいて、聴覚特性に従って正面方向で最小となり且つ左右に角度が大きくなるにつれて大きくなるパスレンジを有するアクティブ方向通過型フィルタにより、所定幅の範囲内の両耳間位相差(IPD)または両耳間強度差(IID)をもったサブバンドを集めて音源の波形再構築することにより音源分離を行なうことを特徴とするロボット視聴覚システムにより、達成される。

0010

本発明によるロボット視聴覚システムは、好ましくは、上記聴覚モジュールが、拡張聴覚エピポーラ幾何による音源定位に基づいて音源分離を行なう。

0011

本発明によるロボット視聴覚システムは、好ましくは、上記聴覚モジュールが、ロボット固有所定周波数を基準として、当該所定周波数未満で拡張聴覚エピポーラ幾何により、または全周波数帯域で頭部伝達関数(HRTF)により、または全周波数帯域で拡張聴覚エピポーラ幾何により、あるいは所定周波数未満で拡張聴覚エピポーラ幾何により且つ所定周波数以上で頭部伝達関数により、それぞれ得られる音源定位に基づいて音源分離を行なう。

0012

本発明によるロボット視聴覚システムは、好ましくは、上記アソシエーションモジュールが、各話者の方向を決定した後、カルマンフィルタを用いてイベントを時間方向に接続することにより聴覚ストリーム,顔ストリーム及びステレオストリームを生成し、さらにこれらを関連付けてアソシエーションストリームを生成する。

0013

本発明によるロボット視聴覚システムは、好ましくは、上記聴覚モジュール,顔モジュール,ステレオモジュール,モータ制御モジュール,アソシエーションモジュール及びアテンション制御モジュールが、ネットワークを介して互いに接続されており、特にデータ量の大きいイベントやストリームの通信のために、比較的高速のネットワークが使用されている。

0014

上記構成によれば、聴覚モジュールが、マイクが集音した外部の目標からの音から、調波構造を利用してピッチ抽出を行なうことにより音源毎の方向を得て、個々の話者の方向を決定してその聴覚イベントを抽出する。また、顔モジュールが、カメラにより撮像された画像から、パターン認識による各話者の顔識別と定位から各話者を同定して、個々の話者の顔イベントを抽出する。そして、ステレオモジュールが、ステレオカメラにより撮像された画像から抽出された視差に基づいて縦に長い物体を抽出定位してステレオイベントを抽出する。さらに、モータ制御モジュールが、ロボットを水平方向に回動させる駆動モータの回転位置に基づいて、ロボットの方向を検出することによってモータイベントを抽出する。なお、上記イベントとは、各時点において検出される音または顔が在ること、あるいは駆動モータが回転される状態を示しており、ストリームとは、エラー訂正処理を行ないながら、例えばカルマンフィルタ等により時間的に連続するように接続したイベントを示している。また、本明細書で用いることがある「視覚モジュール」「視覚ストリーム」の語は、顔モジュール,顔ストリーム及びステレオモジュール,ステレオストリームを包含する概念である。

0015

ここで、アソシエーションモジュールは、このようにしてそれぞれ抽出された聴覚イベント,顔イベント,ステレオイベント及びモータイベントに基づいて、聴覚イベントの音源定位及び顔イベントの顔定位並びにステレオイベントの物体定位の方向情報によって各話者の方向を決定することにより、各話者の聴覚ストリーム,顔ストリーム及びステレオストリーム(視覚ストリーム)を生成し、さらにこれらのストリームを関連付けてアソシエーションストリームを生成する。この際、アソシエーションモジュールは、聴覚イベントの音源定位及び顔イベントの顔定位並びにステレオイベントの物体定位、即ち聴覚及び視覚の方向情報に基づいて各話者の方向を決定し、決定された各話者の方向を参考にしてアソシエーションストリームを生成することになる。そして、アテンション制御モジュールが、これらのストリームに基づいてアテンション制御と、それに伴う行動のプランニング結果に基づいてモータの駆動制御を行なう。アテンションとは、ロボットが目標である話者を、聴覚的及び/又は視覚的に「注目」することであり、アンテンション制御とは、モータ制御モジュールによりその向きを変えることにより、ロボットが上記話者に注目するようにすることである。

0016

そして、アテンション制御モジュールは、このプランニングに基づいて、モータ制御モジュールの駆動モータを制御することにより、ロボットの方向を目標である話者に向ける。これにより、ロボットが目標である話者に対して正対することにより、聴覚モジュールが当該話者の声を、感度の高い正面方向にてマイクにより正確に集音,定位することができると共に、顔モジュールが当該話者の画像をカメラにより良好に撮像することができるようになる。

0017

従って、このような聴覚モジュール,視覚モジュール(顔モジュール及びステレオモジュール)及びモータ制御モジュールと、アソシエーションモジュール及びアテンション制御モジュールとの連携によって、聴覚ストリームの音源定位及び視覚ストリーム(顔ストリーム及びステレオストリーム)の話者定位という方向情報に基づいて各話者の方向を決定することにより、ロボットの聴覚及び視覚がそれぞれ有する曖昧性が互いに補完されることになり、所謂ロバスト性が向上し、複数の話者であっても、各話者をそれぞれ確実に知覚することができる。また、例えば聴覚ストリームまたは視覚ストリーム(顔ストリームとステレオストリーム)の何れか一方が欠落したときであっても、残りの視覚ストリーム(顔又はステレオストリーム)または聴覚ストリームのみに基づいて、目標である話者をアテンション制御モジュールが追跡することができるので、正確に目標の方向を把握して、モータ制御モジュールの制御を行なうことができる。

0018

ここで、聴覚モジュールが、アソシエーションモジュールからのアソシエーションストリームを参照することにより、顔モジュール及びステレオモジュールからの顔ストリーム及びステレオストリームをも考慮して音源定位を行なうことによって、より一層正確な音源定位を行なうことができる。そして、上記聴覚モジュールが、アソシエーションモジュールからの正確な音源方向情報に基づいて、聴覚特性に従って正面方向で最小となり且つ左右に角度が大きくなるにつれて大きくなるパスレンジを有するアクティブ方向通過型フィルタにより、所定幅の範囲内の両耳間位相差(IPD)または両耳間強度差(IID)をもったサブバンドを集めて、音源の波形を再構築することにより音源分離を行なうので、上述した聴覚特性に応じてパスレンジ即ち感度を調整することにより、方向による感度の違いを考慮してより正確に音源分離を行なうことができる。

0019

上記聴覚モジュールが、拡張聴覚エピポーラ幾何による音源定位に基づいて音源分離を行なう場合には、アソシエーションモジュールからのアソシエーションストリームを参照して、頭部表面に沿った拡張聴覚エピポーラ幾何により音源定位を行なうので、音源からロボットの両耳部に設けられた左右のマイクへの実際の距離に基づいて、聴覚エピポーラ幾何を応用することにより、ロボットの外装形状を考慮して、より正確に聴覚エピポーラ幾何による音源分離を行なうことができる。

0020

上記聴覚モジュールが、ロボット固有の所定周波数を基準として、当該所定周波数未満で拡張聴覚エピポーラ幾何により、または全周波数帯域で頭部伝達関数(HRTF)により、または全周波数帯域で拡張聴覚エピポーラ幾何により、あるいは所定周波数未満で拡張聴覚エピポーラ幾何により且つ所定周波数以上で頭部伝達関数により、それぞれ得られる音源定位に基づいて音源分離を行なう場合には、そのときの実環境に応じて、正確な音源分離を行なうことができる。

0021

上記アソシエーションモジュールが、各話者の方向を決定した後、カルマンフィルタを用いてイベントを時間方向に接続することにより聴覚ストリーム及び視覚ストリーム、即ち、顔ストリーム及びステレオストリームを生成し、さらにこれらを関連付けてアソシエーションストリームを生成する場合には、カルマンフィルタを使用することにより、より一層正確なストリームを生成することができる。

0022

上記聴覚モジュール,顔モジュール,ステレオモジュール,モータ制御モジュール,アソシエーションモジュール及びアテンション制御モジュールが、ネットワークを介して互いに接続されており、特にデータ量の大きいイベントやストリームの通信のために、比較的高速のネットワークが使用されている場合には、大容量のデータを比較的高速のネットワークで伝送することにより、リアルタイム性及びスケーラビリティを向上させることができる。

発明を実施するための最良の形態

0023

以下、図面に示した実施形態に基づいて、この発明を詳細に説明する。図1乃至図2はこの発明によるロボット視聴覚システムの一実施形態を備えた実験用人型ロボットの全体構成を示している。図1において、人型ロボット10は4DOF(自由度)のロボットとして構成されており、ベース11と、ベース11上にて一軸(垂直軸周りに回動可能に支持された胴体部12と、胴体部12上にて三軸方向(垂直軸,左右方向の水平軸及び前後方向の水平軸)の周りに揺動可能に支持された頭部13と、を含んでいる。

0024

上記ベース11は固定配置されていてもよく、脚部として動作可能としてもよい。また、ベース11は、移動可能な台車等の上に載置されていてもよい。上記胴体部12は、ベース11に対して垂直軸の周りに、図1にて矢印Aで示すように回動可能に支持されており、図示しない駆動手段によって回転駆動されると共に、図示の場合、防音性の外装によって覆われている。

0025

上記頭部13は胴体部12に対して連結部材13aを介して支持されており、この連結部材13aに対して前後方向の水平軸の周りに、図1にて矢印Bで示すように揺動可能に、また左右方向の水平軸の周りに、図2にて矢印Cで示すように揺動可能に支持されていると共に、上記連結部材13aが、胴体部12に対してさらに前後方向の水平軸の周りに、図1にて矢印Dで示すように揺動可能に支持されており、それぞれ図示しない駆動手段によって、各矢印A,B,C,D方向に回転駆動される。

0026

ここで、上記頭部13は、図3に示すように全体が防音性の外装14で覆われていると共に、前側にロボット視覚を担当する視覚装置としてのカメラ15を、また両側にロボット聴覚を担当する聴覚装置としての一対のマイク16(16a,16b)を備えている。なお、マイク16は、頭部13の両側に限定されることなく、頭部13の他の位置あるいは胴体部12等に設けられていてもよい。

0027

上記外装14は、例えばウレタン樹脂等の吸音性合成樹脂から構成されており、頭部13の内部をほぼ完全に密閉することにより、頭部13の内部の遮音を行なうように構成されている。なお、胴体部12の外装も、同様にして吸音性の合成樹脂から構成されている。上記カメラ15は公知の構成であって、例えば所謂パンチルトズームの3DOF(自由度)を有する市販のカメラが適用され得る。なお、上記カメラ15は、同期をとってステレオ画像を送ることができるように設計されている。

0028

上記マイク16は、それぞれ頭部13の側面において、前方に向かって指向性を有するように取り付けられている。ここで、マイク16の左右の各マイク16a,16bは、それぞれ図1及び図2に示すように、外装14の両側にて前方に向いた段部14a,14bにて内側に取り付けられ、段部14a,14bに設けられた貫通穴を通して前方の音を集音すると共に、外装14の内部の音を拾わないように適宜の手段により遮音されている。これにより、各マイク16a,16bは、所謂バイノーラルマイクとして構成されている。なお、マイク16a,16bの取付位置の近傍において、外装14は人間の外耳形状に形成されていてもよい。

0029

図4は、上記カメラ15及びマイク16を含むロボット視聴覚電気的構成を示している。図4において、ロボット視聴覚システム17は、聴覚モジュール20,視覚モジュール、即ち、顔モジュール30とステレオモジュール37,モータ制御モジュール40及びアソシエーションモジュール50から構成されている。ここで、アソシエーションモジュール50はサーバから構成されていると共に、他のモジュール、即ち聴覚モジュール20,顔モジュール30,ステレオモジュール37,モータ制御モジュール40は、それぞれクライアントから構成されており、互いに非同期で動作する。

0030

なお、上記サーバ及び各クライアントは、例えばパーソナルコンピュータにより構成されており、例えば100Base−T等のネットワーク(図示せず)を介して、例えばTCP/IPプロトコルにより、相互にLAN接続されている。この場合、好ましくは、データ量の大きいイベントやストリームの通信のためには、高速ネットワークが、また時刻の同期等の制御用通信のためには、中速ネットワークが、それぞれ区別して使用される。これにより、ロボット全体のリアルタイム性及びスケーラビリティを向上させるようにしている。また、各モジュール20,30,37,40,50は、それぞれ階層的に分散して、具体的には下位から順次にデバイス層プロセス層特徴層,イベント層から構成されている。

0031

上記聴覚モジュール20は、デバイス層としてのマイク16と、プロセス層としてのピーク抽出部21,音源定位部22,音源分離部23及びアクティブ方向通過型フィルタ23aと、特徴層(データ)としてのピッチ24,音源水平方向25と、イベント層としての聴覚イベント生成部26と、から構成されている。

0032

ここで、聴覚モジュール20は、図5に示すように作用する。即ち、図5において、聴覚モジュール20は、例えば48kHz,16ビットサンプリングされたマイク16からの音響信号を、符号X1で示すようにDFTにより周波数解析して、符号X2で示すように左右のチャンネル毎にスペクトルを生成する。そして、聴覚モジュール20は、ピーク抽出部21により左右のチャンネル毎に一連のピークを抽出して、左右のチャンネルで同じか類似のピークをペアとする。ここで、ピーク抽出は、パワーがしきい値以上で且つローカルピークであって、低周波ノイズとパワーの小さい高周波帯域カットするため例えば90Hz乃至3kHzの間の周波数であるという条件のデータのみを透過させる帯域フィルタを使用することにより行なわれる。このしきい値は、周囲の暗騒音計測して、さらに感度パラメータ、例えば10dBを加えた値として定義される。

0033

そして、聴覚モジュール20は、各ピークが調波構造を有していることを利用して、周波数が低い方から順に、調波構造を有するローカルピークを抽出して、抽出されたピークの集合を一つの音として、音源分離部23により各音源からの混合音から音源毎の音響信号を分離する。

0034

その際、聴覚モジュール20の音源定位部22は、符号X3で示すように、各音源毎の音響信号について、左右のチャンネルから同じ周波数の音響信号を選択して、例えば5度毎にIPD(両耳間位相差)及びIID(両耳間強度差)を計算し、アクティブ方向通過型フィルタ23aに出力する。

0035

これに対して、アクティブ方向通過型フィルタ23aは、アソシエーションモジュール50における顔定位及びステレオ視覚そして音源定位に基づくリアルタイムトラッキング(後述)によるアソシエーションストリーム59の方向に基づいて、以下に詳細に説明する拡張聴覚エピポーラ幾何を利用して、ロボット10の正面を0度として±90度の範囲で、符号X4で示すように、IPDの理論値IPD(=ΔφE (θ))を生成すると共に、IIDの理論値IID(=ΔρE(θ))を計算する。

0036

ここで、上記拡張聴覚エピポーラ幾何について説明する。聴覚エピポーラ幾何は、HRTFを使用せずに音源の方向情報を得るために必要である。ステレオ視覚研究においては、エピポーラ幾何が、最も一般的な定位法の一つであり、聴覚エピポーラ幾何は、視覚におけるエピポーラ幾何の聴覚への応用である。そして、聴覚エピポーラ幾何が幾何学的関係を利用して方向情報を得るので、HRTFを不要にすることができるのである。

0037

しかしながら、従来の聴覚エピポーラ幾何においては、外装14の影響や、ロボット10と部屋の反響のような実世界の環境の影響がある。外装14の影響に関しては、実際のロボットの頭部の両側にマイク16a,16bを設けた場合、図6(A)に示すように、例えば音源が右手前方に在ると、左側のマイク16aと音源Pとを結ぶ線分Qは、頭部13内を貫通することになるが、実際には音源からの音は頭部13の外装14の表面に沿って進んで左側のマイク16aに達する。従って、このような場合には、上記聴覚エピポーラ幾何は適用できない。

0038

そこで、本実施形態においては、より正確な方向情報を得るために、本発明による拡張聴覚エピポーラ幾何を利用している。拡張聴覚エピポーラ幾何は、以下のように作用する。即ち、先ず、FFT高速フーリエ変換)により得られた一対のスペクトルから、各サブバンドに対するIPDを計算する。そして、頭部13の形状を考慮して、図6(A)に示すように、頭部13中心から音源Pまでの距離をl、頭部の半径をrとする。そして、音源Pから左右のマイク16a,16bまでの距離差をD、IPDをΔψ、音の周波数をf、音速をv(以下、音速vは、計算を簡略化するために、例えば340m/秒に固定し、温度や湿度で変化しないものとする)とすると、以下の方程式

0039

ここで、Dの定義にて、ロボットの外装14の影響が考慮されるべきである。外装14のために、音は、一方の耳には直接に到達し得る。例えば図6(A)において、音源Pから左のマイク16aへの音の通路が真っ直ではないので、音は外装14の表面に沿って進行しなければならない。従って、外装14の形状を考慮することにより、聴覚エピポーラ幾何の方程式を調整すればよい。これにより、聴覚エピポーラ幾何の方程式は、

0040

このようにして、Dは、θ及びlの関数として定義される。図6(B)のグラフは、シミュレーションによって得られたD,θ及びlの関係を示している。これにより、θが大きくなるにつれて、lの影響が大きくなることが分かる。しかしながら、lが50cm以上になると、lの影響は無視できる。このような場合、Dは、lが無限であるとして、θのみの関数として、以下の式、

0041

ここで、音源が視覚エピポーラ幾何により定位されるときには、視覚及び聴覚におけるベースラインは平行であるので、Dは容易にθに変換され得る。これは、方向の表現が視覚及び聴覚情報を統合するための糸口として使用されることを意味している。

0042

また、アクティブ方向通過型フィルタ23aは、前述した実世界の環境の影響によって、以下の三つの大きな因子に依存することになる。
1.音源から左右の耳部への距離の差
2.ロボット本体と頭部の反響
3. 部屋の反響
ここで、これらの因子による実世界での影響を調べるために、無響室にて正中面から左右に±90度の範囲で10度毎にパルス応答を測定し、拡張エピポーラ幾何によるシミュレーションとの比較を行なったところ、図7に示す結果が得られた。即ち、図7(a)は、カバーのないステレオマイクを使用した音響測定結果であり、カバーの影響を考慮する必要はない。ここで、AEGで示す細線は、従来の聴覚エピポーラ幾何により推測されたIPDを示し、測定結果と良好に合っていることが分かる。これにより、聴覚エピポーラ幾何の原理が正しいことが分かる。

0043

これに対して、図7(b)は、無響室におけるロボットのIPD測定値と聴覚エピポーラ幾何により推測されたIPDを示している。この場合、聴覚エピポーラ幾何による推測は、300Hz以上の周波数では対応するデータと合っていない。この不一致は、ロボット本体と頭部の反響により引き起こされている。また、図7(c)は、無響室におけるロボットのIPD測定値と拡張聴覚エピポーラ幾何により推測されたIPDを示している。この場合、推測されたIPDは、図7(b)の場合よりも良好に推測されている。これは、カバーの影響による不一致の問題が拡張聴覚エピポーラ幾何により克服されたことを示している。さらに、図7(d)は、非無響室における測定結果を示している。この部屋は、10m2 で、音吸収材が壁面,天井及び床面に取り付けられている。この場合、測定されたIPDは、部屋の音響効果により歪められており、IPDの範囲がベースラインに対して±πを越えていることから、1200Hz以上の周波数にて拡張聴覚エピポーラ幾何が良好に作用していないことが分かる。

0044

次に、SYSNOISE(LMS International社のソフトウェア)を利用したBEM(Boundary Element Method)により部屋の反響の影響を解析する。図8は、30度におけるIPD及びIIDを示している。ここで、SYSNOISE(床なし)で示すIPD及びIIDは、ロボット頭部の三次元メッシュデータを使用して計算されており、300及び400Hzの間にピークを有している。これらのピークは、ロボット頭部により引き起こされている。ロボットにより測定されたIPD及びIIDもカバーにより300及び400Hzの間にピークを有している。また、SYSNOISE(床あり)で示すIPD及びIIDは、ロボットの下方1mの距離に床面がある条件のもとで計算されており、より多くのピークを有している。従って、単純な床面でさえ、IPD及びIIDのうねりを引き起こすので、音源定位のためには音響的環境の考慮が必要である。

0045

また、アクティブ方向通過型フィルタ23aは、同様にして上記ストリーム方向に基づいて、頭部伝達関数(HRTF)を利用して、ロボット10の正面を0度として±90度の範囲で、符号X5で示すように、IPD及びIIDの理論値IPD(=ΔφH (θ))及びIID(=ΔρH (θ))を生成する。

0046

さらに、アクティブ方向通過型フィルタ23aは、符号X7で示すように、前記ストリーム方向から、パスレンジ関数を利用して、パスレンジδ(θ)を計算する。ここで、パスレンジ関数は、図5に示すように、ロボットの正面方向(θ=0度)で、感度が最大となり、側方で感度が低下することから、θ=0度で最小値をとり、側方でより大きくなるような関数である。これは、正面方向で定位の感度が最大になり、左右に角度が大きくなるにつれて感度が低下するという聴覚特性を再現するためのものである。なお、正面方向で定位の感度が最大になることは、哺乳類の目の構造に見られる中心窩にならって聴覚中心窩と呼ぶ。この聴覚中心窩に関して、人間の場合には、正面の定位の感度が±2度程度であり、左右90度付近にて±8度程度とされている。

0047

このため、アクティブ方向通過型フィルタ23aは、拡張聴覚エピポーラ幾何による各サブバンド毎に計算されたIPD(=ΔφE (θ))及びIID(=ΔρE (θ))と、HRTFにより得られたIPD(=ΔφH (θ))及びIID(=ΔρH (θ))に基づいて、前述したパスレンジδ(θ)により決定される角度θ−δ(θ)(以下、θL という)からθ+δ(θ)(以下、θH という)の角度範囲で、抽出されたIPD(=Δφ’)及びIID(=Δρ’)が以下の条件のうち何れかを満たすようなサブバンドを集める。ここで、所定周波数fthは、IPDによる定位が有効である周波数の上限であり、ロボット10の頭部14のベースラインに依存し、例えば1200乃至1500Hz程度である。

0048

即ち、
条件A. f<fth: ΔφE (θL )≦Δφ’≦ΔφE (θH )
これは、所定周波数fth未満の周波数で、拡張聴覚エピポーラ幾何によるIPDのパスレンジδ(θ)の範囲内にIPD(=Δφ’)が在る場合に、サブバンドを集めることを意味している。
条件B. f<fth: ΔφH (θL )≦Δφ’≦ΔφH (θH )
且つ f≧fth: ΔρH (θL )≦ρφ’≦ΔρH (θH )
これは、所定周波数fth未満の周波数で、HRTFによるIPDのパスレンジδ(θ)の範囲内にIPD(=Δφ’)が在る場合、そして所定周波数fth以上の周波数で、HRTFによるIIDのパスレンジδ(θ)の範囲内にIID(=Δρ’)が在る場合に、サブバンドを集めることを意味している。
条件C.全周波数f: ΔφE (θL )≦Δφ’≦ΔφE (θH )
これは、すべての周波数で、拡張聴覚エピポーラ幾何によるIPDのパスレンジδ(θ)の範囲内にIPD(=Δφ’)が在る場合に、サブバンドを集めることを意味している。
条件D. f<fth: ΔφE (θL )≦Δφ’≦ΔφE (θH )
且つ f≧fth: ΔρE (θL )≦ρφ’≦ΔρH (θH )
これは、所定周波数fth未満の周波数で、拡張聴覚エピポーラ幾何によるIPDのパスレンジδ(θ)の範囲内にIPD(=Δφ’)が在る場合、そして、所定周波数fth以上の周波数で、HRTFによるIIDのパスレンジδ(θ)の範囲内にIID(=Δρ’)が在る場合に、サブバンドを集めることを意味している。

0049

そして、アクティブ方向通過型フィルタ23aは、このようにして集めたサブバンドから波形を構築することにより、符号X8で示すように、パス−サブバンド方向を生成し、符号X9で示すように、各サブバンド毎に、フィルタリングを行なって、逆周波数変換IDFTにより、符号X10で示すように、各音源からの聴覚イベントを抽出する。

0050

このようにして、聴覚モジュール20は、マイク16からの音響信号に基づいて、ピッチ抽出,音源の分離及び定位から、少なくとも一人の話者を特定(話者同定)して、その聴覚イベントを抽出し、ネットワークを介してアソシエーションモジュール50に対して送信するようになっている。

0051

上記顔モジュール30は、デバイス層としてのカメラ15と、プロセス層としての顔発見部31,顔識別部32,顔定位部33と、特徴層(データ)としての顔ID34,顔方向35と、イベント層としての顔イベント生成部36と、から構成されている。

0052

これにより、顔モジュール30は、カメラ15からの画像信号に基づいて、顔発見部31により例えば肌色抽出により各話者の顔を検出し、顔識別部32にて前もって登録されている顔データベース38により検索して、一致した顔があった場合、その顔ID34を決定して当該顔を識別すると共に、顔定位部33により当該顔方向35を決定(定位)する。ここで、顔モジュール30は、顔発見部31が画像信号から複数の顔を見つけた場合、各顔について上記処理、即ち識別及び定位そして追跡を行なう。その際、顔発見部31により検出された顔の大きさ,方向及び明るさがしばしば変化するので、顔発見部31は、顔領域検出を行なって、肌色抽出と相関演算に基づくパターンマッチング組合せによって、200m秒以内に複数の顔を正確に検出できるようになっている。

0053

顔定位部33は、二次元画像平面における顔位置を三次元空間に変換し、三次元空間における顔位置を、方位角θ,高さφ及び距離rのセットとして得る。

0054

そして、顔モジュール30は、各顔毎に、顔ID(名前)34及び顔方向35から、顔イベント生成部36により顔イベント39を生成して、ネットワークを介してアソシエーションモジュール50に対して送信するようになっている。

0055

上記ステレオモジュール37は、デバイス層としてのカメラ15と、プロセス層としての視差画像生成部37a,目標抽出部37bと、特徴層(データ)としての目標方向37cと、イベント層としてのステレオイベント生成部37dと、から構成されている。これにより、ステレオモジュール37は、カメラ15からの画像信号に基づいて、視差画像生成部37aにより双方のカメラ15の画像信号から視差画像を生成し、視差画像を領域分割した結果、縦に長い物体が発見されれば、人物候補として抽出し、その方向を同定し、ステレオイベントを生成し、ネットワークを介してアソシエーションモジュール50に対して送信するようになっている。

0056

上記モータ制御モジュール40は、デバイス層としてのモータ41及びポテンショメータ42と、プロセス層としてのPWM制御回路43,AD変換回路44及びモータ制御部45と、特徴層としてのロボット方向46と、イベント層としてのモータイベント生成部47と、から構成されている。

0057

これにより、モータ制御モジュール40は、アテンション制御モジュール57(後述)からの指令に基づいてモータ制御部45によりPWM制御回路43を介してモータ41を駆動制御すると共に、モータ41の回転位置をポテンショメータ42により検出して、AD変換回路44を介してモータ制御部45によりロボット方向46を抽出し、モータイベント生成部47によりモータ方向情報から成るモータイベント48を生成して、ネットワークを介してアソシエーションモジュール50に対して送信するようになっている。

0058

上記アソシエーションモジュール50は、上述した聴覚モジュール20,顔モジュール30,ステレオモジュール37,モータ制御モジュール40に対して、階層的に上位に位置付けられており、各モジュール20,30,37,40のイベント層の上位であるストリーム層を構成している。具体的には、上記アソシエーションモジュール50は、聴覚モジュール20,顔モジュール30,ステレオモジュール37及びモータ制御モジュール40からの非同期イベント51、即ち聴覚イベント28,顔イベント39,ステレオイベント39a及びモータイベント48を同期させて聴覚ストリーム53,顔ストリーム54,ステレオ視覚ストリーム55を生成する絶対座標変換部52と、各ストリーム53,54,55を関連付けてアソシエーションストリームを生成し、あるいはこれらの関連付けを解除する関連付け部56と、さらにアテンション制御モジュール57と、ビューア58を備えている。

0059

上記絶対座標変換部52は、聴覚モジュール20からの聴覚イベント28,顔モジュール30からの顔イベント39,ステレオモジュール37からのステレオイベント39aに、モータ制御モジュール40からのモータイベント48を同期させると共に、聴覚イベント28,顔イベント39及びステレオイベント39aに関して、同期させたモータイベントによって、の座標系絶対座標系に変換することにより、聴覚ストリーム53,顔ストリーム54及びステレオ視覚ストリーム55を生成する。その際、上記絶対座標変換部52は、同一話者の聴覚ストリーム,顔ストリーム及びステレオ視覚ストリームに接続することによって、聴覚ストリーム53,顔ストリーム54及びステレオ視覚ストリーム55を生成する。

0060

また、関連付け部56は、聴覚ストリーム53,顔ストリーム54,ステレオ視覚ストリーム55に基づいて、これらのストリーム53,54,55の時間的つながりを考慮してストリームを関連付け、あるいは関連付けを解除して、アソシエーションストリーム59を生成すると共に、逆にアソシエーションストリーム59を構成する聴覚ストリーム53,顔ストリーム54及びステレオ視覚ストリーム55の結び付きが弱くなれば、関係付けを解除するようになっている。これにより、目標となる話者が移動している場合であっても、当該話者の移動を予測してその移動範囲となる角度範囲内であれば、上述したストリーム53,54,55の生成を行なうことによって、当該話者の移動を予測して追跡できることになる。

0061

ここで、上記ストリームの形成及び関連付けは、具体的には以下のようにして行なわれる。前述したように座標変換された各イベントは、カルマンフィルタに基づくアルゴリズムを使用してストリームに接続される。ここで、カルマンフィルタは、特により大きな曖昧さを有する聴覚プロセスにおける定位でのプロセス及び測定ノイズの影響を低減するために有効である。

0062

カルマンフィルタに基づくストリーム生成において、大きさNの位置ベクトルpは、lを平均速度のパラメータとして、以下の式

0063

従って、カルマンフィルタは、それぞれ

0064

聴覚ストリーム53の生成において、聴覚ストリーム53及び聴覚イベント28が調和関係を有し、当該ストリーム53及び聴覚イベント28のyk の間の方位角の差が±10度以内であるとき、これらは接続される。また、顔ストリーム54及びステレオストリーム55の生成において、ストリームとイベントのyk の間の距離差が40cm以内であって、それらが同じイベントIDを有するとき、顔イベントまたはステレオイベントが顔ストリームまたはステレオストリームに接続される。尚、イベントIDとは、顔モジュール30で生成される顔ID34または目標IDである。そして、同一人物からの複数のストリームと判断されたとき、これらの複数のストリームは、一つのアソシエーションストリームに関連付けられる。アソシエーションストリームを構成するストリームの一つが終了すると、終了したストリームはアソシエーションストリームから取り除かれ、アソシエーションモジュールは、一つまたはいくつかの分離されたストリームに関連付けを解除される。

0065

また、アテンション制御モジュール57は、モータ制御モジュール40の駆動モータ制御のプランニングのためのアテンション制御を行なうものであり、その際アソシエーションストリーム59,聴覚ストリーム53,顔ストリーム54そしてステレオストリーム55の順に優先的に参照して、アテンション制御を行なう。そして、アテンション制御モジュール57は、聴覚ストリーム53,顔ストリーム54及びステレオストリーム55の状態とアソシエーションストリーム59の存否に基づいて、ロボット10の動作プランニングを行ない、駆動モータ41の動作の必要があれば、モータ制御モジュール40に対して動作指令としてのモータイベントをネットワークを介して送信する。

0066

ここで、アテンション制御モジュール57におけるアテンション制御は、連続性トリガに基づいており、連続性により同じ状態を保持しようとし、トリガにより最も興味のある対象を追跡しようとして、アテンションを向けるべきストリームを選択して、トラッキングを行なう。このようにして、アテンション制御モジュール57はアテンション制御を行なって、モータ制御モジュール40の駆動モータ41の制御のプランニングを行ない、このプランニングに基づいてモータコマンド64aを生成し、ネットワーク70を介してモータ制御モジュール40に伝送する。これにより、モータ制御モジュール40では、このモータコマンド64aに基づいてモータ制御部45がPWM制御を行なって、駆動モータ41を回転駆動させてロボット10を所定方向に向けるようになっている。

0067

ビューア58は、このようにして生成された各ストリーム53,54,55,57をサーバの画面上に表示するものであり、具体的にはレーダチャート58a及びストリームチャート58bにより表示する。ここで、レーダチャート58aは、その瞬間におけるストリームの状態、より詳細にはカメラの視野角音源方向を示し、ストリームチャート58bは、アソシエーションストリーム(太線図示)と聴覚ストリーム及び視覚ストリーム(細線図示)を示している。

0068

本発明実施形態による人型ロボット10は以上のように構成されており、以下のように動作する。例えばカメラ15の視野外に居る話者がロボット10に対して話し掛けると、ロボット10は、マイク16が当該話者の音声を拾って、聴覚モジュール20が音源方向を伴う聴覚イベント28を生成して、ネットワークを介してアソシエーションモジュール60に伝送する。

0069

これにより、アソシエーションモジュール50は、この聴覚イベント28に基づいて、聴覚ストリーム53を生成する。このとき、顔モジュール30は、当該話者がカメラ15の視野内に入っていないので、顔イベント39を生成せず、ステレオモジュール37もステレオイベント39aを生成しない。従って、アソシエーションモジュール50は、聴覚イベント28のみに基づいて、聴覚ストリーム53を生成し、アテンション制御モジュール57は、この聴覚ストリーム53をトリガーとして、ロボット10を話者の方向に向けるようなアテンション制御を行なう。

0070

このようにして、ロボット10が話者の方向を向き、所謂声によるトラッキングが行なわれる。そして、顔モジュール30がカメラ15による話者の顔の画像を取り込んで顔イベント39を生成して、当該話者の顔を顔データベース38により検索して顔識別を行なうと共に、その結果である顔ID24及び画像をネットワーク70を介してアソシエーションモジュール60に伝送する。尚、当該話者の顔が顔データベース38に登録されていない場合には、顔モジュール30はその旨をネットワークを介してアソシエーションモジュール50に伝送する。

0071

このとき、アソシエーションモジュール50は、聴覚イベント28及び顔イベント39によりアソシエーションストリーム59を生成しており、このアソシエーションストリーム59によりアテンション制御モジュール57は、そのアテンション制御を変更しないので、ロボット10は話者の方向を向き続ける。従って、話者が移動したとしても、ロボット10は、アソシエーションストリーム59によりモータ制御モジュール40を制御することにより、話者を追跡して、顔モジュール30のカメラ15が話者を継続して撮像し得るようになっている。

0072

このようにして、人型ロボット10は、聴覚モジュール20による聴覚イベント28及び顔モジュール30による顔イベント39と、アソシエーションモジュール50によるアソシエーションストリーム59に基づいて、複数の話者を聴覚及び視覚により認識すると共に、複数の話者のうちの一人の話者を追跡したり、あるいは途中で他の話者に切り換えて追跡することができる。

0073

ここで、聴覚モジュール20は、アクティブ方向通過型フィルタ23aにより拡張聴覚エピポーラ幾何によるIPDを利用して音源定位を行なっているので、ロボット10の頭部14の形状を考慮したより正確な音源定位を行なうことができる。また、聴覚モジュール20は、アクティブ方向通過型フィルタ23aにより、パスレンジδ(θ)により、方向θに応じて感度を調整しているので、より正確な音源定位が可能な正面付近においては、サブバンドを集める角度範囲を狭く、また側方では角度範囲を広く設定することにより、より正確な音源分離を行なうことができる。さらに、聴覚モジュール20は、アクティブ方向通過型フィルタ23aにより、アソシエーションモジュール59からのアソシエーションストリーム59を参照して、IPD及びIIDを計算することから、ロボット10が移動しているときでも、正確に音源定位・分離を行なうことができる。

0074

このようにして、本発明実施形態による人型ロボット10によれば、アソシエーションモジュール50が、聴覚モジュール20、顔モジュール30及びステレオモジュール37からの聴覚イベント、顔イベント及びステレオイベントに基づいて、これらの方向情報そして個々の話者同定から、これらの時間的流れを考慮して、聴覚ストリーム,視覚ストリームそしてアソシエーションストリームを生成することによって、複数の対象である話者を認識しているので、何れかのイベントが欠落したり明確に認識できなくなった場合、例えば話者が移動して「見えなく」なった場合でも聴覚により、また話者が話をせず「聞こえなく」なった場合でも視覚により、リアルタイムに複数の話者を聴覚的及び/又は視覚的にトラッキングすることができる。

0075

以下に、アクティブ方向通過型フィルタの動作を下記に実験により評価する。これらの実験においては、上記人型ロボット10が、約10平方mの部屋にて、音源としての一つのスピーカに対向しており、このスピーカは、ロボット10の正面方向を0度として、約100cmの距離にて同じ高さに位置している。スピーカから発する音響信号は、ASJ Continuous Corpusにおける毎日新聞記事からの男性及び女性により読み上げられた20の文章が使用される。

0076

そして、以下の四種の指標、即ち
1.入力と分離された話声の間の周波数帯域におけるSN比の差
2.入力と分離された話声の間の信号損失
3.ノイズ抑制の効果
4.音響信号処理専門家による評価
を評価のために使用した。

0077

番目のSN比の差は、sp (i,j),spo(i,j)及びsps(i,j)をそれぞれ原波形信号,マイク16で集音された観測波形信号及びアクティブ方向通過型フィルタにより分離された分離波形信号のスペクトル、m,nをサブバンド及びサンプルの数、βを原波形信号と観測波形信号の間の大きさの減衰比として、

0078

二番目の信号損失は、s(n),so (n),ss (n)をそれぞれ原波形信号,マイク16で集音された観測波形信号及びアクティブ方向通過型フィルタにより分離された分離波形信号、Sを信号を有するサンプルの集合、即ちs(i)−βso (i)≧0を満足するiの集合として、

0079

また、二番目のノイズ抑制の効果は、s(n),so (n),ss (n)をそれぞれ原波形信号,マイク16で集音された観測波形信号及びアクティブ方向通過型フィルタにより分離された分離波形信号、Nをノイズを有するサンプルの集合、即ちs(i)−βso (i)<0を満足するiの集合として、

0080

そして、以下の四つの実験を行なった。ここで、前述のfthは1500Hzとした。
実験1.音源方向が0度から90度まで変化するときの聴覚モジュール,顔モジュール及びステレオモジュールの音源定位のエラーを測定する。
実験2.カルマンフィルタの有効性を測定する。この場合、二つのスピーカが使用され、一方が60度の方向に固定され、他方が±30度以内で繰返し左から右に移動している。そして、第二のスピーカからの話声がアクティブ方向通過型フィルタにより抽出される。カルマンフィルタの使用または不使用による二種の音ストリームがアクティブ方向通過型フィルタへの入力として使用され、抽出された音がR1 により比較される。
実験3. 前記各フィルタリング条件A,B,Dによるアクティブ方向通過型フィルタの有効性を、R1 ,R2 ,R3 の指標を利用して、測定する。二話者同時発話及び三話者同時発話の場合の音源分離を行なった。第一のスピーカは、0度に固定される。第二のスピーカは、30度,60度及び90度に位置する。三つの同時の話声の分離において、第二及び第三のスピーカは、±30度,±60度及び±90度に位置する。これらのスピーカは、同時に同じ音量で異なる話声を出す。パスレンジ関数δ(θ)は、0度及び30度の方向でスピーカに対して±20度であり、60度及び90度の方向にて±30度である。なお、これらの値は、単一音源に対する聴覚中心窩に従って定義される。
実験4. 一つのスピーカを0度方向に、もう一つのスピーカを30度,60度,90度と変化させて、同時に音声が出力されている状態で、前述したアクティブ方向通過型フィルタ23aのサブバンドを集める際の条件A乃至DによってR3 の指標を利用して、正面方向のスピーカからの音声の分離,抽出を試みた。

0081

実験1によれば、ステレオモジュールによる音源定位は、図9にて符号Bで示すように最も正確であり、誤差は1度以内である。これに対して、顔モジュール及び聴覚モジュールによる音源定位は、図9にてそれぞれ符号A及びCで示すようになる。一般に視覚による定位は、聴覚による定位より正確であるが、聴覚モジュールは、全方向性センサの利点を有している。即ち、聴覚モジュールは、方位角±15度以上からの音の方向を判断することができる。聴覚モジュールによる定位の感度は、音源方向に依存し、正面方向が最良であり、0度から30度までは誤差±5度以内であって、30度以上ではより悪化する。これは、聴覚中心窩の正当性及び音源に対向するように旋回するような動作の有効性を証明するものである。

0082

図10は、実験2の結果であって、(A)カルマンフィルタ無し及び(B)カルマンフィルタ有りの場合のSN比を示している。これにより、アクティブ方向通過型フィルタによるSN比は、カルマンフィルタに基づくストリーム形成によって、約1dB増大することが分かる。これは、カルマンフィルタがより良好なストリーム形成及び正確な音源方向を提供することを示している。図11は、実験3の結果であって、(A)二話者同時発話及び(B)三話者同時発話における音源分離の結果をそれぞれ示している。すべてのフィルタリング条件において、同様の傾向が示されている。1500Hz以下の周波数を使用するフィルタリング条件Aと、他の条件との間の差は小さい。これは、IIDにより集められた1500Hz以上の周波数によるサブバンドがより低いパワーを有しているからである。これは、拡張聴覚エピポーラ幾何が、実環境においてもアクティブ方向通過型フィルタにより音源を分離するために十分であることを証明している。指標R1 及びR3 は正面方向で最良であり、周辺で悪化する。正面方向にて、ノイズ抑制の有効性は三話者同時発話において約9dBである。しかしながら、30度より接近した二話者同時発話の場合の話者の分離は、困難である。信号損失は、図11(A)においてR2 により2〜4dBである。聴覚信号処理の二人の専門家によれば、最も明瞭なフィルタリング条件はDである。分離された音の品質は、14チャンネルの線形マイクロホンアレーまたは16チャンネルの円形マイクロホンアレーによる分離と同様に良好である。聴取による評価は、アクティブ方向通過型フィルタが音源分離のために良好な性能を有していることを示している。

0083

さらに、図12は、実験4の結果であって、条件Dが最良の音源分離の結果を示すことが分かった。これは、二つのスピーカの場合の場合に、アクティブ方向通過型フィルタ23aの効率が6乃至10dBであることを示している。HRTFに基づく条件Bによる音源定位は、拡張聴覚エピポーラ幾何に基づく条件A,Dによる音源定位より良好ではない。これは、実世界における音源分離での拡張聴覚エピポーラ幾何の有効性を示している。一般に、IIDにより集められる例えば1200乃至1500Hz以上の周波数のサブバンドのパワーが小さいことから、条件A,Dにおける音源定位の差は小さい。しかしながら、自動音声認識がより高い周波数のサブバンドからの情報を利用するので、自動音声認識の場合の音声認識率の差は、より大きくなると期待される。そこで、条件Cの場合には、ロボット10の両耳部の間のベースラインの制限により、1500Hz以上の最も多くのサブバンドが集められる。従って、音源定位の改良はそれ程大きくはない。

0084

上述した実施形態において、人型ロボット10は、4DOF(自由度)を有するように構成されているが、これに限らず、任意の動作を行なうように構成されたロボットに本発明によるロボット聴覚システムを組み込むことも可能である。また、上述した実施形態においては、本発明によるロボット視聴覚システムを人型ロボット10に組み込んだ場合について説明したが、これに限らず、型等の各種動物型ロボットや、その他の形式のロボットに組み込むことも可能であることは明らかであり、ここにロボットとは、広く産業用自動制御装置等を含む概念である。

発明の効果

0085

以上述べたように、この発明によれば、上記聴覚モジュールが、アソシエーションモジュールからの正確な音源方向情報に基づいて、聴覚特性に従って正面方向で最小となり且つ左右に角度が大きくなるにつれて大きくなるパスレンジを有するアクティブ方向通過型フィルタにより、所定幅の範囲内の両耳間位相差(IPD)または両耳間強度差(IID)をもったサブバンドを集めて、音源の波形を再構築することにより、音源分離を行なうので、上述した聴覚特性に応じて、パスレンジ即ち感度を調整することにより、方向による感度の違いを考慮して、より正確に音源分離を行なうことができる。上記聴覚モジュールが、拡張聴覚エピポーラ幾何による音源定位に基づいて音源分離を行なう場合には、アソシエーションモジュールからのアソシエーションストリームを参照して、頭部表面に沿った拡張聴覚エピポーラ幾何により音源定位を行なうので、音源からロボットの両耳部に設けられた左右のマイクへの実際の距離に基づいて、聴覚エピポーラ幾何を応用することにより、ロボットの外装形状を考慮して、より正確に聴覚エピポーラ幾何による音源分離を行なうことができる。上記聴覚モジュールが、ロボット固有の所定周波数を基準として、当該所定周波数未満で拡張聴覚エピポーラ幾何により、または全周波数帯域で頭部伝達関数(HRTF)により、または全周波数帯域で拡張聴覚エピポーラ幾何により、あるいは所定周波数未満で拡張聴覚エピポーラ幾何により且つ所定周波数以上で頭部伝達関数により、それぞれ得られる音源定位に基づいて音源分離を行なう場合には、そのときの実環境に応じて、正確な音源分離を行なうことができる。上記アソシエーションモジュールが、各話者の方向を決定した後、カルマンフィルタを用いてイベントを時間方向に接続することにより、聴覚ストリーム及び視覚ストリーム(顔ストリーム,ステレオストリーム)を生成し、さらにこれらを関連付けてアソシエーションストリームを生成する場合には、カルマンフィルタを使用することにより、より一層正確なストリームを生成することができる。上記聴覚モジュール,顔モジュール,ステレオモジュール,モータ制御モジュール,アソシエーションモジュール及びアテンション制御モジュールが、ネットワークを介して互いに接続されており、特にデータ量の大きいイベントやストリームの通信のために、比較的高速のネットワークが使用されている場合には、大容量のデータを比較的高速のネットワークで伝送することにより、リアルタイム性及びスケーラビリティを向上させることができる。これにより、本発明によれば、目標に対する視覚及び聴覚の情報を統合して、目標の音源定位を正確に行なうようにした、極めて優れたロボット視聴覚システムが提供される。

図面の簡単な説明

0086

図1この発明によるロボット聴覚装置の第一の実施形態を組み込んだ人型ロボットの外観を示す正面図である。
図2図1の人型ロボットの側面図である。
図3図1の人型ロボットにおける頭部の構成を示す概略拡大図である。
図4図1の人型ロボットにおけるロボット視聴覚システムの電気的構成を示すブロック図である。
図5図4に示すロボット視聴覚システムにおける聴覚モジュールの作用を示す図である。
図6図4のロボット視聴覚システムにおける、(A)拡張聴覚エピポーラ幾何を示す図及び(B)IPDと音源からの距離との関係を示すグラフである。
図7図4に示すロボット視聴覚システムにおけるIPDの計算結果を示すグラフである。
図8図4のロボット視聴覚システムにおける角度30度での(A)IPDの測定値・計算値を示すグラフ及び(B)IIDの測定値・計算値を示すグラフである。
図9図4のロボット視聴覚システムの実験1による音源定位精度を示すグラフである。
図10図4のロボット視聴覚システムの実験2によるカルマンフィルタの有無によるS/N比を示すグラフである。
図11図4のロボット視聴覚システムの実験3における(A)二つの同時の話声及び(B)三つの同時の話声の場合の音源分離の評価を示す図である。
図12図4のロボット視聴覚システムの具体的な実験例による聴覚モジュールの条件A〜Dによる正面話者抽出のS/N比改善を示すグラフである。

--

0087

10人型ロボット
11ベース
12胴体部
13 頭部
14外装
15カメラ(ロボット視覚)
16,16a,16bマイク(ロボット聴覚)
17ロボット視聴覚システム
20聴覚モジュール
21ピーク抽出部
22音源定位部
23音源分離部
23aアクティブ方向通過型フィルタ
26聴覚イベント生成部
30顔モジュール
37ステレオモジュール
40モータ制御モジュール
50アソシエーションモジュール
57アテンション制御モジュール

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ