図面 (/)

技術 音声処理装置及び音声処理方法

出願人 シャープ株式会社
発明者 中澤剛蛭川慶子大崎洋介
出願日 2019年4月15日 (1年10ヶ月経過) 出願番号 2019-076861
公開日 2020年10月29日 (3ヶ月経過) 公開番号 2020-178150
状態 未査定
技術分野 可聴帯域変換器の回路等
主要キーワード 一時記憶メモリー 指向性パラメータ 集音対象 コマンド音声 電子ボード USBドライブ ゲインパラメータ 初期設定モード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年10月29日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

複数のユーザにより利用される音声処理装置において、発話者音声を適切に取得すること。

解決手段

音声処理装置は、マイクにより集音される音声を受け付ける音声受付部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記画像取得部により取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出処理部と、前記検出処理部により検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整部と、を備え、前記音声受付部は、前記指向性調整部により設定される前記指向性に基づいて前記音声を受け付ける。

概要

背景

発話者音声を取得して、音声データを保存したり、他の情報処理装置に送信したりすることが可能な音声処理装置が知られている。この種の音声処理装置は、例えば、複数のユーザが参加する会議遠隔地ネットワーク接続して複数のユーザが参加するリモート会議などに利用可能である。

例えば特許文献1には、携帯端末推定部が、カメラ撮影された動画像データ内における撮影対象者の位置と、カメラが撮影に用いるパラメータ情報とに基づき、携帯端末に対する撮影対象者の相対位置を推定し、調整部が相対位置に向けてマイクの指向性を調整する技術が開示されている。

概要

複数のユーザにより利用される音声処理装置において、発話者の音声を適切に取得すること。音声処理装置は、マイクにより集音される音声を受け付ける音声受付部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記画像取得部により取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出処理部と、前記検出処理部により検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整部と、を備え、前記音声受付部は、前記指向性調整部により設定される前記指向性に基づいて前記音声を受け付ける。

目的

本発明の目的は、複数のユーザにより利用される音声処理装置において、発話者の音声を適切に取得することにある

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

マイクにより集音される音声受け付ける音声受付部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記画像取得部により取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出処理部と、前記検出処理部により検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整部と、を備え、前記音声受付部は、前記指向性調整部により設定される前記指向性に基づいて前記音声を受け付ける、音声処理装置

請求項2

前記検出処理部は、前記音声処理装置から前記複数の人物のそれぞれの位置までの距離を検出し、前記指向性調整部は、前記距離が長い程、前記指向性の強度を強め、前記距離が短い程、前記指向性の強度を弱める、請求項1に記載の音声処理装置。

請求項3

前記音声受付部により受け付けられた前記音声の音源位置が、前記指向性調整部により前記指向性が設定された位置と同一である場合に、前記音声を記憶する一方、前記音声受付部により受け付けられた前記音声の音源位置が、前記指向性調整部により前記指向性が設定された位置と異なる場合に、前記音声を削除する、請求項1又は請求項2に記載の音声処理装置。

請求項4

前記指向性調整部は、前記音声受付部により受け付けられた前記音声の音源位置が、前記指向性調整部により前記指向性が設定された位置と同一である場合に、当該音源位置に対する前記指向性の強度を強める、請求項1から請求項3のいずれか1項に記載の音声処理装置。

請求項5

前記指向性調整部は、さらに、前記音源位置とは異なる位置に対する前記指向性の強度を弱める、請求項4に記載の音声処理装置。

請求項6

前記指向性調整部は、前記音声受付部により受け付けられた前記音声の音源が複数存在する場合に、それぞれの前記音源の音源位置に応じて、それぞれの前記音源位置に対する前記指向性を調整する、請求項1から請求項5のいずれか1項に記載の音声処理装置。

請求項7

前記音声受付部により受け付けられた前記音声が、前記検出処理部により検出された前記複数の人物のうちいずれかの人物から発話された音声であるか否かを判定する判定処理部をさらに備え、前記判定処理部により前記音声受付部により受け付けられた前記音声が前記複数の人物のうちいずれかの人物から発話された音声でないと判定された場合に、前記音声を削除する、請求項1から請求項6のいずれか1項に記載の音声処理装置。

請求項8

前記音声受付部により受け付けられた前記音声の音量に対するゲイン値を設定するゲイン調整部をさらに備え、前記ゲイン調整部は、前記音声の音源が複数存在する場合に、複数の音源のそれぞれの音声の音量比に基づいて、前記複数の音源のそれぞれの音量に対応する前記ゲイン値を設定する、請求項1から請求項7のいずれか1項に記載の音声処理装置。

請求項9

前記マイクと前記撮像部とをさらに備える、請求項1から請求項8のいずれか1項に記載の音声処理装置。

請求項10

マイクにより集音される音声を受け付ける音声受付ステップと、撮像部により撮像される撮像画像を取得する画像取得ステップと、前記画像取得ステップにより取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出ステップと、前記検出ステップにより検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整ステップと、を含み、前記音声受付ステップでは、前記指向性調整ステップにより設定される前記指向性に基づいて前記音声を受け付ける、音声処理方法

技術分野

0001

本発明は、音声処理装置及び音声処理方法に関する。

背景技術

0002

発話者音声を取得して、音声データを保存したり、他の情報処理装置に送信したりすることが可能な音声処理装置が知られている。この種の音声処理装置は、例えば、複数のユーザが参加する会議遠隔地ネットワーク接続して複数のユーザが参加するリモート会議などに利用可能である。

0003

例えば特許文献1には、携帯端末推定部が、カメラ撮影された動画像データ内における撮影対象者の位置と、カメラが撮影に用いるパラメータ情報とに基づき、携帯端末に対する撮影対象者の相対位置を推定し、調整部が相対位置に向けてマイクの指向性を調整する技術が開示されている。

先行技術

0004

特開2011−41096号公報

発明が解決しようとする課題

0005

しかし、前記従来の技術では、携帯端末を利用するユーザ1人を対象として前記指向性を調整するものである。このため、例えば会議などのように音声処理装置に対して複数のユーザが存在する場合には、複数のユーザの中から発話者を確実に特定することが困難である。また複数のユーザが同時に発話者となる場合には、マイクの指向性を適切に調整することが困難である。このように、音声処理装置を複数のユーザが利用する場合に、発話者の音声を適切に取得することは困難である。

0006

本発明の目的は、複数のユーザにより利用される音声処理装置において、発話者の音声を適切に取得することにある。

課題を解決するための手段

0007

本発明の一の態様に係る音声処理装置は、マイクにより集音される音声を受け付ける音声受付部と、撮像部により撮像される撮像画像を取得する画像取得部と、前記画像取得部により取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出処理部と、前記検出処理部により検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整部と、を備え、前記音声受付部は、前記指向性調整部により設定される前記指向性に基づいて前記音声を受け付ける。

0008

本発明の他の態様に係る音声処理方法は、マイクにより集音される音声を受け付ける音声受付ステップと、撮像部により撮像される撮像画像を取得する画像取得ステップと、前記画像取得ステップにより取得される前記撮像画像から、複数の人物と前記複数の人物のそれぞれの位置とを検出する検出ステップと、前記検出ステップにより検出される前記複数の人物のそれぞれの位置に基づいて、前記マイクの前記複数の人物のそれぞれの位置に対する指向性を設定する指向性調整ステップと、を含み、前記音声受付ステップでは、前記指向性調整ステップにより設定される前記指向性に基づいて前記音声を受け付ける。

発明の効果

0009

本発明によれば、複数のユーザにより利用される音声処理装置において、発話者の音声を適切に取得することが可能となる。

図面の簡単な説明

0010

図1は、本発明の実施形態に係る音声処理装置が適用される会議を模式的に示す図である。
図2は、本発明の実施形態に係る音声処理装置の構成を示す機能ブロック図である。
図3は、本発明の実施形態に係る音声処理装置において利用されるパラメータ情報の一例を示す図である。
図4Aは、本発明の実施形態に係る音声処理装置において設定される指向性パラメータの設定例を示すグラフである。
図4Bは、本発明の実施形態に係る音声処理装置において設定される指向性パラメータの設定例を示すグラフである。
図4Cは、本発明の実施形態に係る音声処理装置において設定される指向性パラメータの設定例を示すグラフである。
図4Dは、本発明の実施形態に係る音声処理装置において設定される指向性パラメータの設定例を示すグラフである。
図5は、本発明の実施形態に係る音声処理装置において利用されるパラメータ情報の他の例を示すグラフである。
図6は、本発明の実施形態に係る音声処理装置において利用されるパラメータ情報の他の例を示すグラフである。
図7は、本発明の実施形態に係る音声処理装置おける音声処理初期設定処理の手順の一例を説明するためのフローチャートである。
図8は、本発明の実施形態に係る音声処理装置おける音声処理の音声入力処理の手順の一例を説明するためのフローチャートである。

実施例

0011

以下、添付図面を参照しながら、本発明の実施形態について説明する。尚、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

0012

本発明に係る音声処理装置は、例えばオフィス会議室に設置され、複数のユーザが参加する会議、遠隔地をネットワーク接続して複数のユーザが参加するリモート会議に適用される。図1には、前記会議が行われる会議室の一例を模式的に示している。図1に示す会議室には、テーブルの上に配置された音声処理装置1と、テーブルを囲うようにして着席した4人の会議参加者であるユーザA〜Dと、空席椅子2と、電子ボードホワイトボード黒板などのボード3とが含まれている。

0013

ここで例えば、音声処理装置1に対するユーザDが位置する方向(角度)を基準(0度)とする。この場合、例えばユーザCの位置は、音声処理装置1に対して30度の位置であり、ユーザBの位置は、音声処理装置1に対して60度の位置であり、ユーザAの位置は、音声処理装置1に対して120度の位置である。また、椅子2の位置は、音声処理装置1に対して160度の位置であり、ボード3の位置は、音声処理装置1に対して250度の位置である。また図1では、音声処理装置1からユーザDまでの距離がDdであり、音声処理装置1からユーザCまでの距離がDcであり、音声処理装置1からユーザBまでの距離がDbであり、音声処理装置1からユーザAまでの距離がDaであり、音声処理装置1から椅子2までの距離がDxであり、音声処理装置1からボード3までの距離がDyであるとする。

0014

図1に示す会議において、音声処理装置1は、例えばユーザA〜Dが発話した音声をマイクで集音し、集音した音声の音声データを記憶部12に記憶する。記憶された音声データは、例えば会議の議事録データとして保存される。なお、前記会議が、遠隔地の他の会議室とネットワーク接続されたリモート会議である場合には、音声処理装置1は、前記音声データを他の会議室に配置された音声処理装置1に送信したり、他の会議室で発話された音声の音声データを受信したりすることも可能である。

0015

また音声処理装置1は、ユーザの指示に基づいて各種コマンドを実行する機能を備えてもよい。この場合、音声処理装置1は、ユーザの指示に応じたコマンド音声クラウドサーバ(不図示)に送信し、クラウドサーバにおいて実行されたコマンドに対応する応答コマンド応答)をクラウドサーバから取得し、当該コマンド応答を音声処理装置1のスピーカから出力させる。

0016

[音声処理装置1]
図2に示すように、音声処理装置1は、制御部11、記憶部12、カメラ13、マイク14、スピーカ15、通信インターフェース16などを備える。音声処理装置1は、例えば表示装置、又はパーソナルコンピュータのような情報処理装置であってもよい。音声処理装置1は、本発明の音声処理装置の一例である。本発明の音声処理装置は、カメラ13、マイク14、及びスピーカ15が省略されたサーバであってもよい。

0017

通信インターフェース16は、音声処理装置1を有線又は無線ネットワークに接続し、前記ネットワークを介して他の外部機器(例えば他の音声処理装置1)との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。

0018

スピーカ15は、音声処理装置1が取得する音声を外部に出力する。本発明の音声処理装置は、スピーカ15を備えていなくてもよい。

0019

マイク14は、音声処理装置1の周囲の音声を集音する。マイク14は、音声処理装置1の周囲360度の範囲の音声を受信可能である。またマイク14は、音声を集音する際に音源方向の指向性を高める機能(ビームフォーミング)に対応しており、制御部11により設定される指向性パラメータの設定値に基づいて音声を集音する。

0020

カメラ13は、被写体の画像を撮像してデジタル画像データとして出力するデジタルカメラである。例えばカメラ13は、音声処理装置1の上面に設けられ、音声処理装置1の周囲360度の範囲を撮像可能である。図1に示す例では、カメラ13は、会議室の室内全体を撮像することが可能である。カメラ13は、本発明の撮像部の一例である。

0021

記憶部12は、各種の情報を記憶する半導体メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)などを含む不揮発性の記憶部である。例えば、記憶部12には、制御部11に後述の音声処理(図7及び図8参照)を実行させるための音声処理プログラムなどの制御プログラムが記憶されている。例えば、前記音声処理プログラムは、USB、CD又はDVD(何れも登録商標)などのコンピュータ読取可能な記録媒体に非一時的に記録されており、音声処理装置1に電気的に接続されるUSBドライブCDドライブ又はDVDドライブなどの読取装置(不図示)で読み取られて記憶部12に記憶される。前記音声処理プログラムは、ネットワークを介して外部機器からダウンロードされて記憶部12に記憶されてもよい。

0022

また、記憶部12には、画像情報121と、パラメータ情報122とが記憶されている。画像情報121には、カメラ13により撮像される撮像データが記憶される。また、記憶部12には、マイク14により集音された音声が制御部11の指示に従って記憶される。

0023

図3にはパラメータ情報122の一例を示している。パラメータ情報122には、撮像画像に含まれる検出対象ごとに、角度、距離、指向性パラメータ、ゲインパラメータなどの情報が登録される。「検出対象」は、図1に示す例では、人(ユーザA〜D)、椅子2、ボード3である。前記検出対象は、予め記憶部に記憶されてもよい。前記検出対象の他の例としては、会議室に存在するテーブル、会議室の壁、表示パネルなどが挙げられる。「角度」は、音声処理装置1から前記検出対象の位置に向かう方向の前記基準(0度)に対する角度である。「距離」は、音声処理装置1(例えばマイク14)から前記検出対象の位置までの距離である。前記検出対象、前記角度及び前記距離は、制御部11(対象検出部112)により検出される。

0024

「指向性パラメータ」は、マイク14の指向性(ビームフォーミング)の強度に対応する設定値である。例えば、集音対象の発話者に対して指向性パラメータが強い値に設定され、発話者以外のユーザに対して指向性パラメータが弱い値に設定される。また指向性パラメータは、前記距離に応じた値に設定される。例えば、音声処理装置1からユーザまでの距離が長い程、指向性が強くなるように指向性パラメータが設定され、音声処理装置1からユーザまでの距離が短い程、指向性が弱くなるように指向性パラメータが設定される。指向性パラメータは、制御部11(指向性調整部113)により設定される。

0025

「ゲインパラメータ」は、マイク14を介して音声処理装置1に入力された音声の音量に対する調整値ゲイン値)である。例えば一人の発話者の音声が入力された場合、ゲインパラメータは100%に設定される(図5参照)。また、例えば二人の発話者の音声が入力されて、一方の発話者(例えばユーザC)及び他方の発話者(例えばユーザB)の音量比が7:3である場合、ユーザCの音声に対してゲインパラメータは30%に設定され、ユーザBの音声に対してゲインパラメータは70%に設定される(図6参照)。ゲインパラメータは、制御部11(ゲイン調整部116)により設定される。

0026

制御部11は、CPU、ROM、及びRAMなどの制御機器を有する。前記CPUは、各種の演算処理を実行するプロセッサーである。前記ROMは、前記CPUに各種の処理を実行させるためのBIOS及びOSなどの制御プログラムを予め記憶する。前記RAMは、各種の情報を記憶し、前記CPUが実行する各種の処理の一時記憶メモリー(作業領域)として使用される。そして、制御部11は、前記ROM又は記憶部12に予め記憶された各種の制御プログラムを前記CPUで実行することにより音声処理装置1を制御する。

0027

具体的に、制御部11は、画像取得部111、対象検出部112、指向性調整部113、音声受付部114、判定処理部115、ゲイン調整部116などの各種の処理部を含む。尚、制御部11は、前記CPUで前記音声処理プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、制御部11に含まれる一部又は全部の処理部が電子回路で構成されていてもよい。尚、前記音声処理プログラムは、複数のプロセッサーを前記各種の処理部として機能させるためのプログラムであってもよい。

0028

画像取得部111は、カメラ13により撮像された撮像画像を取得する。画像取得部111は、本発明の画像取得部の一例である。例えば、会議室においてカメラ13により音声処理装置1の周囲が撮像された場合に、画像取得部111は、音声処理装置1の周囲の撮像画像を取得する。例えば画像取得部111は、カメラ13により所定のフレームレートで撮像されたフレーム画像を順次取得する。画像取得部111は、取得した撮像画像の画像データを記憶部12に記憶する。

0029

対象検出部112は、画像取得部111により取得される前記撮像画像に基づいて、所定の検出対象を検出する。対象検出部112は、本発明の検出処理部の一例である。例えば対象検出部112は、前記撮像画像を画像解析して、人物(ユーザA〜D)、椅子2、又はボード3を検出する。また、対象検出部112は、検出した前記検出対象の位置(前記角度及び前記距離)を検出する。対象検出部112は、検出した前記検出対象、前記角度、及び前記距離の情報を記憶部12のパラメータ情報122(図3参照)に登録する。なお、検出した撮像画像から所定の物体を検出する方法、及び、検出した前記物体の位置(角度、距離)を検出する方法は、周知の技術を適用することができる。

0030

指向性調整部113は、対象検出部112により検出された複数の人物のそれぞれの位置に対するマイク14の指向性を設定(調整)する。指向性調整部113は、本発明の指向性調整部の一例である。具体的には、指向性調整部113は、マイク14の指向性パラメータを設定する。例えば、初期設定処理(初期設定モード)(図7参照)において、指向性調整部113は、対象検出部112により検出された検出対象の位置(角度、距離)に基づいて指向性パラメータを設定する。例えば、指向性調整部113は、音声処理装置1のマイク14からの距離を「近距離」、「中距離」、「長距離」の3段階に区別し、当該距離の段階に応じて指向性パラメータを「弱」、「中」、「強」の3段階で設定する。なお、指向性調整部113は、指向性パラメータを、前記距離に応じて追従的に変化するように設定してもよい。

0031

図4A及び図4Bは、前記初期設定処理において設定される指向性パラメータの一例を示すグラフである。例えば、図1に示す会議室について、対象検出部112により、人物(ユーザA〜D)、椅子2、及びボード3と、それぞれの位置(角度、距離)が検出されると、指向性調整部113は、4人のユーザA〜Dの距離に応じた指向性パラメータを設定する。具体的には、指向性調整部113は、音声処理装置1からユーザまでの距離が長い程、指向性パラメータが強くなるように設定し、音声処理装置1からユーザまでの距離が短い程、指向性パラメータが弱くなるように設定する。ここでは、角度「0度」かつ距離「Dd」のユーザDに対して、指向性パラメータを「Bp1」(弱)に設定し、角度「30度」かつ距離「Dc」のユーザCに対して、指向性パラメータを「Bp2」(中)に設定し、角度「60度」かつ距離「Db」のユーザBに対して、指向性パラメータを「Bp4」(強)に設定し、角度「120度」かつ距離「Da」のユーザAに対して、指向性パラメータを「Bp3」(強)に設定する。ここで、距離は、「Db>Da>Dc>Dd」の関係を満たす。このため、指向性パラメータ距離は、「Bp4>Bp3>Bp2>Bp1」の関係を満たす。また、指向性調整部113は、椅子2及びボード3については、指向性パラメータを「0」(ノイズパラメータ)に設定する。指向性調整部113は、設定した各指向性パラメータをパラメータ情報122(図3参照)に登録する。

0032

音声受付部114は、マイク14により集音される音声を受け付ける。音声受付部114は、本発明の音声受付部の一例である。例えば、音声受付部114は、対象検出部112により検出された複数の人物から発話される音声を受け付ける。また、音声受付部114は、例えば、会議に参加していない第三者が発話した音声、前記人物及び第三者が発話した音声が物体(椅子2、ボード3など)に反射した音声、その他の雑音なども受け付ける。すなわち、発話者の音声、第三者の音声、反射音声、雑音などは、音源となる。なお、これら第三者の音声、反射音声、雑音などの音源位置は、対象検出部112により検出される人物の位置とは異なる位置となる。

0033

音声受付部114は、前記初期設定処理(初期設定モード)において複数の人物(ユーザA〜D)のそれぞれの位置に対する指向性が設定された後、音声入力モード移行すると、音声の受け付けを開始する。音声受付部114は、指向性調整部113により設定された前記指向性に基づいて前記音声を受け付ける。音声受付部114が音声を受け付けると、指向性調整部113は、当該音声の音源位置に基づいて、初期設定処理において設定した指向性を再調整する。具体的には、指向性調整部113は、前記音源位置に基づいて、前記指向性パラメータを再設定する。具体的には、対象検出部112により検出される音声処理装置1から複数の音源位置それぞれまでの距離に応じて、前記指向性パラメータを再設定して前記指向性を調整する。例えば指向性調整部113は、前記距離が長い程、前記指向性が強くなるように前記指向性パラメータを再設定し、前記距離が短い程、前記指向性が弱くなるように前記指向性パラメータを再設定する。

0034

例えば、指向性調整部113は、音声受付部114により受け付けられた音声の音源位置が、指向性調整部113により前記指向性が設定された位置(図3参照)と同一である場合に、当該音源位置に対する前記指向性の強度を強める。例えば、図3及び図4Bに示すように指向性パラメータが設定された場合において、ユーザBが発話した場合、指向性調整部113は、音源位置であるユーザBの位置がパラメータ情報122に登録された位置(角度「60度」、距離「Db」)と同一であるため、指向性調整部113は、例えば図4Cに示すように、当該音源位置に対する前記指向性パラメータを「Bp4」から最大値(「Bpmax」)に再設定する。この場合、指向性調整部113は、さらに、前記音源位置とは異なる位置に対する前記指向性の強度を弱める。例えば、指向性調整部113は、前記音源位置とは異なるユーザA,C,Dの位置に対する前記指向性パラメータを弱い値(例えば、「Bp31」、「Bp21」、「Bp11」)に再設定する。指向性調整部113は、前記指向性パラメータを再設定すると、パラメータ情報122を更新する(図5参照)。

0035

さらに、指向性調整部113は、音声受付部114により受け付けられた前記音声の音源が複数存在する場合に、それぞれの前記音源の音源位置に応じて、それぞれの前記音源位置に対する前記指向性を調整する。例えば、図4Cに示すようにユーザBが発話中にユーザCが発話した場合、前記音源は、ユーザBの位置とユーザCの位置の複数存在することになる。この場合、指向性調整部113は、ユーザBの位置及びユーザCの位置に応じて、それぞれの音源位置に対する指向性を調整(割り振る)する。具体的には、音声処理装置1からの距離が長いユーザBの音源位置に対する前記指向性パラメータを「Bpmax」から「Bp42」に再設定し、音声処理装置1からの距離が短いユーザCの音源位置に対する前記指向性パラメータを「Bp21」から「Bp22」に再設定する(図4D参照)。ここで、「Bp22」は、「Bp42」より弱い(小さい)値である。指向性調整部113は、前記指向性パラメータを再設定すると、パラメータ情報122を更新する(図6参照)。なお、ここではユーザA及びユーザDは発話していないため、「Bp12」は「Bp11」(図5参照)と同一の値であってもよく、「Bp32」は「Bp31」(図5参照)と同一の値であってもよい。

0036

ここで、音声受付部114は、受け付けた前記音声の音源位置が、指向性調整部113により前記指向性が設定された位置と同一である場合に、前記音声を記憶部12に記憶する。一方、音声受付部114は、受け付けた前記音声の音源位置が、指向性調整部113により前記指向性が設定された位置と異なる場合には、前記音声を削除する。

0037

判定処理部115は、音声受付部114により受け付けられた前記音声が、対象検出部112により検出された前記複数の人物のうちいずれかの人物から発話された音声であるか否かを判定する。すなわち、判定処理部115は、撮像画像に基づいて発話者を特定する。例えば、判定処理部115は、撮影画像に含まれる人物の口の動きを検出し、口の動きを検出した方向からの音声をマイク14が集音した場合に、当該方向の人物を発話者として特定し、当該音声を当該人物から発話された音声であると判定する。これにより、判定処理部115は、例えば会議に参加するユーザA〜Dが発話した音声であるか、第三者の音声、反射音、及びその他の雑音であるかを判定することができる。判定処理部115は、本発明の判定処理部の一例である。

0038

ゲイン調整部116は、音声処理装置1に入力された音声の音量に対するゲイン値(ゲインパラメータ)を設定する。ゲイン調整部116は、設定したゲインパラメータをパラメータ情報122に登録する。具体的には、ゲイン調整部116は、前記音声の音源が複数存在する場合に、複数の音源のそれぞれの音声の音量比に基づいて、前記複数の音源のそれぞれの音量に対応するゲインパラメータを設定する。例えば、図4Cに示すように、一人のユーザBが発話している場合、ゲイン調整部116は、ユーザBの音声に対するゲインパラメータを「100%」に設定する(図5参照)。また図4Dに示すように、二人のユーザB及びユーザCが発話している場合であって、ユーザB及びユーザCそれぞれの音声の音量比が「3:7」である場合、ゲイン調整部116は、ユーザBの音声に対するゲインパラメータを「70%」に設定し、ユーザCの音声に対するゲインパラメータを「30%」に設定する(図6参照)。このように、ゲイン調整部116は、複数の発話者それぞれの音声に対するゲインパラメータを、複数の発話者それぞれの音声の音量比に反比例する値に設定する。これにより、記憶部12に記憶される音声の音量を均一化することができる。なお、ゲイン調整部116は、音源が発話者でない場合、すなわち音源が椅子2、ボード3などである場合、ゲインパラメータを「0」に設定する。

0039

[音声処理]
以下、図7及び図8を参照しつつ、音声処理装置1の制御部11によって実行される音声処理の手順の一例について説明する。前記音声処理には、初期設定モードにおいて初期設定を行う初期設定処理(図7参照)と、初期設定後の音声入力モードにおいて音声入力を行う音声入力処理とが含まれる(図8参照)。例えば、音声処理装置1の制御部11は、音声処理装置1の電源オン状態になることにより前記初期設定処理プログラムの実行を開始することによって、前記初期設定処理の実行を開始する。

0040

なお、本発明は、前記音声処理に含まれる一又は複数のステップを実行する音声処理方法の発明として捉えることができる。また、ここで説明する前記音声処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部11によって前記音声処理における各ステップが実行される場合を例に挙げて説明するが、他の実施形態では、複数のプロセッサーによって前記音声処理における各ステップが分散して実行されてもよい。

0041

先ず図7を参照しつつ、前記初期設定処理の手順の一例について説明する。

0042

ステップS11において、制御部11は、カメラ13により撮像される撮像画像を取得したか否かを判定する。例えば、会議室(図1参照)においてカメラ13により音声処理装置1の周囲が撮像された場合に、制御部11は、音声処理装置1の周囲の撮像画像を取得する。制御部11により撮像画像が取得された場合(S11:YES)、処理はステップS12に移行する。ステップS11は、本発明の画像取得ステップの一例である。

0043

ステップS12において、制御部11は、人物を検出したか否かを判定する。具体的には、制御部11は、前記撮像画像を画像解析して、人物、椅子2、ボード3などの所定の検出対象を検出する。制御部11により人物が検出された場合(S12:YES)、処理はステップS13に移行する。一方、制御部11により人物が検出されなかった場合(S12:NO)、すなわち前記撮像画像に人物が含まれない場合、処理はステップS15に移行する。

0044

ステップS13において、制御部11は、人物の位置を検出する。具体的には、制御部11は、音声処理装置1から、検出した人物までの距離及び角度を検出する。制御部11は、検出した検出対象(「人物」)、距離、及び角度を撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。ステップS12、S13は、本発明の検出ステップの一例である。

0045

次にステップS14において、制御部11は、検出された人物の位置に対するマイク14の指向性を設定(調整)する。具体的には、制御部11は、検出された人物の位置(角度、距離)に基づいて指向性パラメータを設定する。制御部11は、複数の人物を検出した場合、各人物の位置に応じた指向性パラメータを設定する(図4B参照)。制御部11は、設定した指向性パラメータを撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。

0046

一方、ステップS15において、制御部11は、物体の位置を検出する。具体的には、制御部11は、音声処理装置1から、検出した物体(椅子2、ボード3など)までの距離及び角度を検出する。制御部11は、検出した検出対象(「椅子」、「ボード」)、距離、及び角度を撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。

0047

次にステップS16において、制御部11は、検出された物体の位置に対するマイク14の指向性を設定(調整)する。具体的には、制御部11は、物体(「椅子」、「ボード」)の位置に対して、指向性パラメータを、ノイズ用パラメータである「0」に設定する(図3参照)。制御部11は、設定したノイズ用パラメータを撮像画像に対応付けてパラメータ情報122(図3参照)に登録する。ステップS14、S16は、本発明の指向性調整ステップの一例である。

0048

以上のようにして、前記初期設定処理が行われる。前記初期設定処理が完了すると、以下に示す音声入力処理が行われる。図8を参照しつつ、前記音声入力処理の手順の一例について説明する。

0049

ステップS21において、制御部11は、マイク14を介して音声を受け付けたか否かを判定する。制御部11により音声が受け付けられた場合(S21:YES)、処理はステップS22に移行する。ステップS21は、本発明の音声受付ステップの一例である。

0050

ステップS22において、制御部11は、受け付けた前記音声の音源位置(距離、角度)が、指向性パラメータが設定された位置(距離、角度)(図3参照)と同一であるか否かを判定する。制御部11により前記音源位置が前記指向性パラメータの設定位置と同一であると判定されると(S22:YES)、処理はステップS23に移行する。一方、前記音源位置が前記指向性パラメータの設定位置と同一でないと判定されると(S22:NO)、処理はステップS29に移行する。

0051

ステップS23において、制御部11は、前記音源位置の音声が発話者による音声であるか否かを判定する。制御部11により前記音源位置の音声が発話者による音声であると判定された場合(S23:YES)、処理はステップS24に移行する。一方、制御部11により前記音源位置の音声が発話者による音声でないと判定された場合(S23:NO)、処理はステップS29に移行する。

0052

ステップS24において、制御部11は、前記音源位置が、既に受け付けた音声の音源位置と同一であるか否かを判定する。例えば、一人のユーザBが発話を継続して行っている場合、前記音源位置であるユーザBの位置は、既に受け付けられているユーザBの音声の音源位置と同一である。これに対して、ユーザBが発話しているときにユーザCが発話した場合には、前記音源位置であるユーザCの位置は、既に受け付けられているユーザBの音声の音源位置と異なる。制御部11により前記音源位置が既に受け付けた音声の音源位置と同一であると判定された場合(S24:YES)、処理はステップS25に移行する。一方、制御部11により前記音源位置が既に受け付けた音声の音源位置と同一でないと判定された場合(S24:NO)、処理はステップS27に移行する。

0053

ステップS25において、制御部11は、一つの音源である一人のユーザの音源の音源位置に対する指向性パラメータを設定する。例えば図4Cに示すように、制御部11は、ユーザBの音源位置に対する前記指向性パラメータを「Bp4」から最大値(「Bpmax」)に再設定して、当該音源位置に対する指向性の強度を強める。また、制御部11は、前記音源位置とは異なる位置に対する前記指向性の強度を弱める。制御部11は、設定した前記指向性パラメータをパラメータ情報122に登録する(図5参照)。

0054

次にステップS26において、制御部11は、一つの音源である一人のユーザの音声の音量に対するゲインパラメータを設定する。例えば図4Cに示すように、制御部11は、一人のユーザBの音声に対するゲインパラメータを「100%」に設定する。ゲイン調整部116は、設定したゲインパラメータをパラメータ情報122に登録する(図5参照)。その後、処理はステップS21に戻る。

0055

ステップS27において、制御部11は、複数の音源である複数のユーザの音源の音源位置のそれぞれに対する指向性パラメータを設定する。例えば図4Dに示すように、制御部11は、音声処理装置1からの距離が長いユーザBの音源位置に対する前記指向性パラメータを「Bpmax」から「Bp42」に弱め、音声処理装置1からの距離が短いユーザCの音源位置に対する前記指向性パラメータを「Bp21」から「Bp22」に強める(図4D参照)。制御部11は、ユーザCの位置に対する指向性を、ユーザBの位置に対する指向性より弱く設定する。制御部11は、設定した各指向性パラメータをパラメータ情報122に登録する(図6参照)。

0056

次にステップS28において、制御部11は、複数の音源である複数のユーザの音声のそれぞれの音量に対するゲインパラメータを設定する。例えば図4Dに示すように、制御部11は、二人のユーザB及びユーザCが発話している場合であって、ユーザB及びユーザCそれぞれの音声の音量比が「3:7」である場合、制御部11は、ユーザBの音声に対するゲインパラメータを「70%」に設定し、ユーザCの音声に対するゲインパラメータを「30%」に設定する(図6参照)。制御部11は、設定した各ゲインパラメータをパラメータ情報122に登録する(図6参照)。その後、処理はステップS21に戻る。

0057

ステップS29において、制御部11は、受け付けた音声をノイズとして判定して削除する。ここで、ステップS29において処理される前記音声は、第三者の音声、反射音、その他の雑音である。制御部11は、前記音声の音源位置に対して指向性パラメータを「0」(ノイズ用パラメータ)に設定し、指向性を持たせない。そして、制御部11は、前記音声を記憶部12に記憶するなどの入力処理を行わず、音声処理装置1から削除する。その後、処理はステップS21に戻る。以上のようにして前記音声入力処理が行われ、制御部11は、音声を受け付けるたびに前記音声入力処理を繰り返す。

0058

以上のように、本実施形態に係る音声処理装置1によれば、会議などのように音声処理装置に対して複数のユーザが存在する場合において、複数のユーザの中から発話者を確実に特定することが可能である。また複数のユーザが同時に発話者となる場合であっても、各発話者の位置(距離、角度)に応じてマイクの指向性を適切に調整することができるため、発話者の音声を適切に取得することが可能となる。また、音声処理装置1の周囲の人物の位置とは異なる位置から取得する音声の方向に対しては指向性を持たせず、当該音声をノイズと判定して削除するため、不要な音声の入力を防ぐことができ、発話者の音声を適切に取得することが可能となる。

0059

尚、本発明の音声処理装置は、各請求項に記載された発明の範囲において、以上に示された各実施形態を自由に組み合わせること、或いは各実施形態を適宜、変形又は一部を省略することによって構成されることも可能である。

0060

1 :音声処理装置
11 :制御部
12 :記憶部
13 :カメラ
14 :マイク
15 :スピーカ
111 :画像取得部
112 :対象検出部
113 :指向性調整部
114 :音声受付部
115 :判定処理部
116 :ゲイン調整部
121 :画像情報
122 :パラメータ情報

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社ソシオネクストの「 音響システム、音響制御装置及び制御プログラム」が 公開されました。( 2020/12/17)

    【課題・解決手段】音声出力装置から出力される音声を、受聴者の特定の部位で継続して定位させる。音響システムは、少なくとも一定時間静止している受聴者に、音声を出力する音声出力装置と、前記音声出力装置を介し... 詳細

  • PioneerDJ株式会社の「 音響機器」が 公開されました。( 2020/12/17)

    【課題・解決手段】音響機器は、表示部(43)と、表示部(43)の一部を覆うマスク部(44)とを備え、表示部(43)は、画像を自由に表示可能な第1表示領域(431A)と、マスク部(44)により覆われる第... 詳細

  • ディープ エレクトロニクス ゲーエムベーハーの「 ミュージックカラー」が 公開されました。( 2020/12/17)

    【課題・解決手段】本発明はミュージックカラーを開示し、ミュージックカラーは首装置の周りに装着するように構成され、ミュージックカラーは、後方左側振動パッドおよび後方右側振動パッドを含み、ミュージックカラ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ