図面 (/)

技術 情報処理装置および電子機器

出願人 ソニー株式会社
発明者 渡辺秀明
出願日 2018年10月24日 (2年2ヶ月経過) 出願番号 2019-525931
公開日 2020年9月24日 (3ヶ月経過) 公開番号 WO2019-093123
状態 未査定
技術分野 音声の分析・合成 音声認識 音声入出力
主要キーワード 角度方向θ 応答生成処理 トラッキング対象 最高気温 顔向き検出 人検出 センシング情報 バイタルセンサ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年9月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題・解決手段

本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話受け付けるべき発話者に特定し、意味解析部は、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する。本技術は、例えば、家庭用の音声アシスタントデバイスに適用することができる。

概要

背景

近年、ユーザが音声により操作を行うことができる家庭用の音声アシスタントデバイスホームエージェント)が提供されている。

ホームエージェントの中には、複数のユーザそれぞれのプロファイルデータに基づいて、どのユーザが発話による操作を依頼しているかを認識できるものがある。

また、特許文献1には、マイクロホンアレイに対する特定の方向からのオーディオ信号成分を抽出することで、環境の中を動いているユーザの音声を、他のユーザが話しても認識できるようにした構成が開示されている。このような構成によれば、個々のユーザのプロファイルデータを用いることなく、どのユーザに対して応答するべきかを判断することができる。

概要

本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定し、意味解析部は、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する。本技術は、例えば、家庭用の音声アシスタントデバイスに適用することができる。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話受け付けるべき発話者に特定する発話者特定部と、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部とを備える情報処理装置

請求項2

前記発話者特定部は、前記ユーザとの対話を行うための音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの顔がトラッキングされている場合、前記ユーザを前記発話者に特定する請求項1に記載の情報処理装置。

請求項3

前記画像において検出された前記ユーザの前記顔をトラッキングするトラッキング部と、前記ユーザとの対話を開始するトリガが検出された前記角度方向に前記音声セッションを生成する音声セッション生成部とをさらに備える請求項2に記載の情報処理装置。

請求項4

前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する請求項3に記載の情報処理装置。

請求項5

前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される請求項4に記載の情報処理装置。

請求項6

前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である請求項5に記載の情報処理装置。

請求項7

前記トリガは、前記画像から検出される、あらかじめ決められた動作である請求項5に記載の情報処理装置。

請求項8

前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する請求項3に記載の情報処理装置。

請求項9

前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する請求項8に記載の情報処理装置。

請求項10

前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する請求項9に記載の情報処理装置。

請求項11

前記トラッキング部は、M個の前記顔をトラッキングしている状態で、前記M個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記M個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する請求項8に記載の情報処理装置。

請求項12

前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する請求項11に記載の情報処理装置。

請求項13

前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する請求項12に記載の情報処理装置。

請求項14

前記トラッキング部がトラッキングする前記顔の数Mと、前記音声セッション生成部が生成する前記音声セッションの数Nとは同じ数である請求項11に記載の情報処理装置。

請求項15

特定された前記発話者による前記発話の音声認識を行う音声認識部をさらに備え、前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う請求項1に記載の情報処理装置。

請求項16

前記発話者の要求に対する応答を生成する応答生成部をさらに備える請求項1に記載の情報処理装置。

請求項17

前記環境の前記画像を取得する撮像部と、前記環境の前記音声を取得する音声取得部とを備える請求項1に記載の情報処理装置。

請求項18

ユーザが存在する環境の画像を取得する撮像部と、前記環境の音声を取得する音声取得部と、前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部とを備える電子機器

請求項19

ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングするユーザトラッキング部と、トラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部とを備える情報処理装置。

請求項20

前記複数のモーダルは、少なくとも前記環境の画像と音声を含む請求項19に記載の情報処理装置。

技術分野

0001

本技術は、情報処理装置および電子機器に関し、特に、どのユーザに対して応答するべきかを判断することができるようにした情報処理装置および電子機器に関する。

背景技術

0002

近年、ユーザが音声により操作を行うことができる家庭用の音声アシスタントデバイスホームエージェント)が提供されている。

0003

ホームエージェントの中には、複数のユーザそれぞれのプロファイルデータに基づいて、どのユーザが発話による操作を依頼しているかを認識できるものがある。

0004

また、特許文献1には、マイクロホンアレイに対する特定の方向からのオーディオ信号成分を抽出することで、環境の中を動いているユーザの音声を、他のユーザが話しても認識できるようにした構成が開示されている。このような構成によれば、個々のユーザのプロファイルデータを用いることなく、どのユーザに対して応答するべきかを判断することができる。

先行技術

0005

特表2006−504130号公報

発明が解決しようとする課題

0006

しかしながら、特許文献1の構成では、オーディオ信号のみに基づいてユーザの音声を認識するため、様々な環境音が存在する環境などにおいては、音声の認識に失敗し、どのユーザに対して応答するべきかが正しく判断されない可能性があった。

0007

本技術は、このような状況に鑑みてなされたものであり、どのユーザに対して応答するべきかを正しく判断することができるようにするものである。

課題を解決するための手段

0008

本技術の第1の側面の情報処理装置は、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部とを備える。

0009

本技術の第1の側面においては、ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求が出力される。

0010

本技術の第2の側面の電子機器は、ユーザが存在する環境の画像を取得する撮像部と、前記環境の音声を取得する音声取得部と、前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部とを備える。

0011

本技術の第2の側面においては、ユーザが存在する環境の画像が取得され、前記環境の音声が取得され、前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答が生成される。

発明の効果

0012

本技術によれば、どのユーザに対して応答するべきかを正しく判断することが可能となる。

0013

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

図面の簡単な説明

0014

本技術を適用した応答システム概要について説明する図である。
ホームエージェントのハードウェア構成例を示すブロック図である。
ホームエージェントの機能構成例を示すブロック図である。
音声セッションの詳細について説明する図である。
顔トラッキング処理の流れについて説明するフローチャートである。
応答生成処理の流れについて説明するフローチャートである。
1人のユーザによる操作の例を示す図である。
複数人のユーザによる操作での音声セッションの制御について説明する図である。
音声セッションと顔トラッキング状態管理の流れについて説明するフローチャートである。
トラッキング切り替え処理の流れについて説明するフローチャートである。
顔トラッキングの切り替えの例を示す図である。
音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。
応答システムの機能構成例を示すブロック図である。
応答システムによる応答生成処理の流れを示す図である。
コンピュータの構成例を示すブロック図である。

実施例

0015

以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。

0016

1.応答システムの概要
2.ホームエージェントの構成と動作
3.複数人のユーザによる操作の例
4.クラウドコンピューティングへの適用
5.その他

0017

<1.応答システムの概要>
図1は、本技術を適用した応答システムの概要を示している。

0018

図1には、3人のユーザ10A,10B,10Cと、本技術を適用した情報処理装置(電子機器)として、各ユーザの発話に対して応答を出力するホームエージェント20が示されている。ホームエージェント20は、家庭用の音声アシスタントデバイスとして構成される。

0019

ホームエージェント20は、ユーザ10A,10B,10Cが存在する環境の画像と音声を取得するとともに、その環境におけるセンシングを行う。ホームエージェント20は、その画像から得られる顔やその方向、音声から得られる発話区間(発話している時間)や発話された位置、および、センシングにより得られたセンシング情報を用いて、どのユーザが発話により操作を依頼しているかを特定する。そして、ホームエージェント20は、特定されたユーザに対する応答を生成し、出力する。

0020

図1の例では、ユーザ10Aが「OK Agent.」という起動ワードを発話した後、「明日の天気を教えて」と発話することで、ホームエージェント20に対して明日の天気をねている。起動ワードは、ホームエージェント20がユーザとの対話を開始するためのトリガとなる。

0021

これに対して、ホームエージェント20は、ユーザ10Aの発話を認識し、意味解析を行うことで、「明日は晴れです」という応答を生成し、出力している。

0022

以下においては、上述した応答システムを実現するホームエージェント20の詳細について説明する。

0023

<2.ホームエージェントの構成と動作>
(ホームエージェントのハードウェア構成例)
図2は、本技術を適用したホームエージェント20のハードウェア構成例を示すブロック図である。

0024

CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。

0025

バス54には、カメラ55、マイクロホン(以下、マイクという)56、センサ57、スピーカ58、ディスプレイ59、入力部60、記憶部61、および通信部62が接続される。

0026

カメラ55は、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサやCCD(Charge Coupled Device)イメージセンサなどの固体撮像素子を備え、ユーザが存在する環境を撮像することで、その環境の画像を取得する。

0027

マイク56は、ユーザが存在する環境の音声を取得する。

0028

センサ57は、人感センサバイタルセンサなどの各種のセンサにより構成される。例えば、センサ57は、人物(ユーザ)の存在の有無や、その人物の脈拍呼吸などの生体情報を検知する。

0029

スピーカ58は、音声(合成音声)を出力する。

0030

ディスプレイ59は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。

0031

入力部60は、ディスプレイ59に重ねて設けられたタッチパネルや、ホームエージェント20の筐体に設けられた各種のボタンにより構成される。入力部60は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。

0032

記憶部61は、不揮発性メモリなどにより構成される。記憶部61は、CPU51が実行するプログラムの他に、音声合成用のデータなどの各種のデータを記憶する。

0033

通信部62は、ネットワークインタフェースなどにより構成される。通信部62は、無線有線による通信を外部の装置との間で行う。

0034

(ホームエージェントの機能構成例)
図3は、ホームエージェント20の機能構成例を示すブロック図である。

0035

図3に示されるホームエージェント20の機能ブロックのうちの一部は、図2のCPU51により所定のプログラムが実行されることによって実現される。

0036

ホームエージェント20は、撮像部71、音声取得部72、センシング部73、トラッキング部74、音声セッション生成部75、発話者特定部76、音声認識部77、意味解析部78、および応答生成部79から構成される。

0037

撮像部71は、図2のカメラ55に対応し、ユーザが存在する環境を撮像することにより、その環境の画像を取得する。ユーザが存在する環境の画像(画像データ)は、リアルタイムに取得され、トラッキング部74と音声セッション生成部75に供給される。

0038

音声取得部72は、図2のマイク56に対応し、ユーザが存在する環境の音声を取得する。ユーザが存在する環境の音声(音声データ)もまた、リアルタイムに取得され、音声セッション生成部75に供給される。

0039

センシング部73は、図2のセンサ57に対応し、ユーザが存在する環境においてセンシングを行う。センシングにより得られたセンシング情報もまた、リアルタイムに取得され、トラッキング部74、音声セッション生成部75、および発話者特定部76に供給される。

0040

トラッキング部74は、撮像部71からの画像と、センシング部73からのセンシング情報に基づいて、撮像部71の撮像範囲におけるユーザの状態(存在の有無や動きの有無)を推定し、顔識別顔向き検出位置推定の各処理を行う。これらの各処理により、ユーザが誰であるのか、ユーザの顔が向いている方向、ユーザのいる位置が推定される。

0041

また、トラッキング部74は、上述した各処理の結果に基づいて、撮像部71からの画像において検出されたユーザの顔をトラッキングする。トラッキングされている顔の角度方向を表すトラッキング情報は、発話者特定部76に供給される。なお、ハードウェア上のリソース制約により、同時にトラッキングできる顔の数には上限があるものとする。

0042

音声セッション生成部75は、音声取得部72からの音声と、センシング部73からのセンシング情報に基づいて、発話しているユーザの方向(ホームエージェント20から見た角度方向)と発話区間を推定する。

0043

また、音声セッション生成部75は、発話しているユーザの角度方向に、ユーザとの対話を行うための音声セッションを生成する。これにより、音声セッションが生成された角度方向からの音声のみが取得される。音声セッション生成部75は、取得した音声と、生成された音声セッションの角度方向を表す音声セッション情報とを対応付けて、発話者特定部76に供給する。なお、同時にトラッキングできる顔の数の制限に従い、同時に生成できる音声セッションの数にも上限があるものとする。

0044

発話者特定部76は、ユーザが存在する環境の画像、音声、およびその環境におけるセンシングにより得られたセンシング情報に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定する。

0045

具体的には、発話者特定部76は、トラッキング部74からのトラッキング情報と、音声セッション生成部75からの音声セッション情報に基づいて、音声セッションが生成された角度方向周辺にユーザの顔がトラッキングされているか否かを判定する。音声セッションが生成された角度方向周辺にユーザの顔がトラッキングされている場合、発話者特定部76は、その顔のユーザを発話者に特定する。

0046

また、発話者特定部76は、音声セッション生成部75からの音声のうち、発話者がいる角度方向に生成されている音声セッション(音声セッション情報)に対応付けられている音声(音声データ)を音声認識部77に供給する。

0047

以上のことから、トラッキング部74、音声セッション生成部75、および発話者特定部76は、ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべきユーザをトラッキングする、ユーザトラッキング部を構成すると言える。

0048

ここでいうモーダルには、撮像部71により取得される画像、音声取得部72により取得される音声、センシング部73により取得されるセンシング情報が含まれる。

0049

音声認識部77は、発話者特定部76からの音声データと、広範囲発話内容に対応する語彙があらかじめ登録された大語彙音声認識辞書に登録されている語彙(単語)とを照合することで音声認識を行う。音声認識によって得られた文字列は、意味解析部78に供給される。

0050

意味解析部78は、音声認識部77からの文字列からなる文章に対して、自然言語処理、具体的には意味解析を行うことで、発話者の要求を抽出する。発話者の要求を示す情報は、応答生成部79に供給される。

0051

応答生成部79は、意味解析部78からの情報に基づいて、発話者の要求に対する応答を生成する。生成された応答は、図2のスピーカ58を介して出力される。

0052

(音声セッションの詳細)
ここで、音声セッションの詳細について説明する。

0053

上述したように、音声セッションは、発話しているユーザとの対話を行うために、そのユーザのいる角度方向に生成され、ホームエージェント20が、そのユーザにより操作可能な状態にあることを示すものである。

0054

音声セッションは、ユーザによる何らかの操作を行うという意思表示をトリガとして、ホームエージェント20がそれを認識することで生成される。

0055

そして、ホームエージェント20は、音声セッションが生成されている角度方向からの音声に対してのみ発話解析を行い、応答を生成する。

0056

例えば、図4に示されるように、ホームエージェント20から見て角度方向θaにいるユーザUaによって、トリガとして「OK Agent.」という起動ワードが発話されると、時刻t1において、角度方向θaに音声セッションが生成される。

0057

その後、ユーザUaによって「明日の天気を教えて」と発話されると、ホームエージェント20は、角度方向θaからの音声に対して発話解析を行い、「明日の天気を教えて」に対する応答を生成する。

0058

また、ホームエージェント20から見て角度方向θbにいるユーザUbによって、トリガとして「OK Agent.」という起動ワードが発話されると、時刻t2において、角度方向θbに音声セッションが生成される。

0059

その後、ユーザUbによって「今何時?」と発話されると、ホームエージェント20は、角度方向θbからの音声に対して発話解析を行い、「今何時?」に対する応答を生成する。

0060

なお、上述したように、同時に生成できる音声セッションの数には上限があり、最大N個までとする。すでにN個の音声セッションが生成されている状態で、新たな音声セッションを生成しようとする場合、ホームエージェント20は、既存の音声セッションのうちの1つを終了させ、新たな音声セッションを生成する。

0061

(ホームエージェントの動作例)
ホームエージェント20は、ユーザの存在する環境において、一定の時間間隔で顔のトラッキングをしながら、起動ワードをトリガとして音声セッションを生成することで、発話者を特定する。

0062

そこで、まず、図5のフローチャートを参照して、ホームエージェント20による顔トラッキング処理の流れについて説明する。

0063

テップS11において、ホームエージェント20は、センシング部73によるセンシングを開始する。このとき、ホームエージェント20は、撮像部71による画像の取得も開始する。これ以降、センシング部73によるセンシングと、撮像部71による画像の取得は、継続的に行われるものとする。

0064

ステップS12において、トラッキング部74は、撮像部71により取得されている画像において、顔を検出したか否かを判定する。顔が検出されていない間、処理はステップS12を繰り返し、顔が検出されると、処理はステップS13に進む。

0065

ステップS13において、トラッキング部74は、検出された顔のトラッキングを開始する。顔のトラッキングに成功すると、トラッキング部74は、その顔についてのトラッキング情報を発話者特定部76に供給する。

0066

ステップS14において、トラッキング部74は、同時にトラッキングできる顔の数の上限であるM個の顔をトラッキングしているか否かを判定する。

0067

M個の顔がトラッキングされておらず、まだ、トラッキングしている顔の数が上限に達していない場合、M個の顔がトラッキングされるまで、処理はステップS12乃至S14を繰り返す。

0068

一方、M個の顔がトラッキングされると、処理はステップS14を繰り返す。その間、何らかの原因でトラッキングに失敗し、トラッキングしている顔の数がM個を下回ると、処理はステップS12に戻り、再びM個の顔がトラッキングされるまで、ステップS12乃至S14を繰り返す。

0069

以上のようにして、顔のトラッキングが継続的に行われる。

0070

次に、図6のフローチャートを参照して、応答生成処理の流れについて説明する。図6の処理は、図5のフローチャートを参照して説明した顔トラッキング処理が実行されている状態で実行される。

0071

ステップS31において、音声セッション生成部75は、音声取得部72からの音声に基づいて、起動ワードを検出したか否かを判定する。起動ワードが検出されていない間、処理はステップS31を繰り返し、起動ワードが検出されると、処理はステップS32に進む。

0072

ステップS32において、音声セッション生成部75は、起動ワードが検出された角度方向θに音声セッションを生成する。このとき、音声セッション生成部75は、生成された音声セッションについての音声セッション情報を、発話者特定部76に供給する。

0073

ステップS33において、発話者特定部76は、トラッキング部74からのトラッキング情報と、音声セッション生成部75からの音声セッション情報に基づいて、起動ワードが検出された角度方向θ周辺に顔がトラッキングされているか否かを判定する。

0074

角度方向θ周辺に顔がトラッキングされていると判定された場合、処理はステップS34に進む。

0075

ステップS34において、発話者特定部76は、音声セッション情報とトラッキング情報をバインドして、角度方向θ周辺にトラッキングされている顔のユーザを、発話者に特定する。これにより、角度方向θからの音声に対する発話解析が行われるようになる。

0076

すなわち、ステップS35において、音声セッション生成部75は、音声取得部72からの音声に基づいて、角度方向θからの発話を検出したか否かを判定する。発話が検出されていない間、処理はステップS35を繰り返す。一方、発話が検出されると、発話者特定部76は、検出された音声(音声データ)を音声認識部77に供給し、処理はステップS36に進む。

0077

ステップS36において、音声認識部77は、発話者特定部76からの音声データと、大語彙音声認識辞書に登録されている語彙とを照合することで音声認識を行う。

0078

ステップS37において、意味解析部78は、音声認識部77による音声認識によって得られた文字列からなる文章に対して意味解析を行うことで、発話者の要求を抽出する。

0079

ステップS38において、応答生成部79は、意味解析部78により抽出された発話者の要求に対する応答を生成し、スピーカ58を介して出力する。

0080

なお、ステップS33において、角度方向θ周辺に顔がトラッキングされていないと判定された場合、ステップS34はスキップされ、処理はステップS35に進む。ここで、角度方向θからの発話が検出された場合であっても、ホームエージェント20は、発話内容に応じた応答を出力する。

0081

図7は、上述した顔トラッキング処理と応答生成処理に基づいた、1人のユーザによるホームエージェント20の操作の例を示している。

0082

図7には、1人のユーザ10とホームエージェント20が示されている。

0083

まず、#1に示されるように、ホームエージェント20は、ユーザ10の顔のトラッキングを開始する(図5のステップS13)。

0084

この状態で、#2に示されるように、ユーザ10が「OK Agent.」と起動ワードを発話すると、ホームエージェント20は、起動ワードを検出する(図6のステップS31)。

0085

起動ワードが検出されると、#3に示されるように、ホームエージェント20は、起動ワードが検出された角度方向に音声セッションを生成する(図6のステップS32)。これにより、ホームエージェント20は、ユーザ10を発話者に特定する(図6のステップS34)。

0086

その後、#4に示されるように、ユーザ10が「明日の天気を教えて」と発話すると、ホームエージェント20は、その発話を検出し、音声認識と意味解析を行うことで、ユーザ10の要求を抽出する(図6のステップS35乃至S37)。

0087

そして、ホームエージェント20は、#5に示されるように、ユーザ10の要求に対して「明日は晴れです」という応答を生成し、出力する(図6のステップS38)。

0088

以上の処理によれば、複数人のユーザが存在する環境において、顔がトラッキングされているユーザ毎に音声セッションが生成されることにより、発話者が特定されるようになる。すなわち、様々な環境音の影響を受けることなく、複数のモーダルに基づいて発話を受け付けるべきユーザがトラッキングされるので、ホームエージェント20は、どのユーザに対して応答するべきかを正しく判断することが可能となる。

0089

(トリガの例)
以上においては、ホームエージェント20に対して何らかの操作を行うという意思表示(トリガ)として、「OK Agent.」などのあらかじめ決められた言葉(起動ワード)の発話を例にして説明した。これに限らず、トリガは、撮像部71からの画像、音声取得部72からの音声、センシング部73からのセンシング情報の少なくともいずれかに基づくものであってもよい。

0090

例えば、ホームエージェント20に向かって「手を振る」などのあらかじめ決められたジェスチャ(動作)をトリガとしてもよい。ジェスチャは、撮像部71により取得されている画像において検出されるようにする。

0091

また、センシング部73からのセンシング情報に基づいた顔向き検出や視線検出によって、ユーザがホームエージェント20を一定の時間見続けていることをトリガとしてもよい。

0092

さらに、人感センサの機能を有するセンシング部73からのセンシング情報に基づいた人検出によって、ユーザがホームエージェント20から一定の距離範囲内に近づいたことをトリガとしてもよい。

0093

<3.複数人のユーザによる操作の例>
ホームエージェント20は、複数人のユーザによる操作を受け付けることができる。

0094

(音声セッションの制御)
図8は、複数人のユーザによる操作での音声セッションの制御について説明する図である。

0095

図8に示されるように、ホームエージェント20から見て角度方向θaにいるユーザUa、角度方向θbにいるユーザUb、角度方向θcにいるユーザUc、角度方向θdにいるユーザUdの4人によって、起動ワード「OK Agent.」が発話されている。これにより、角度方向θa,θb,θc,θdの4方向に音声セッションが生成されている。

0096

図8の例では、ユーザUaは、起動ワードを発話した後、「明日の天気を教えて」と発話し、続いて「最高気温は?」と発話している。その時刻はt12である。

0097

ユーザUbは、起動ワードを発話した後、「今何時?」と発話している。その時刻はt11である。

0098

ユーザUcは、起動ワードを発話した後、「美味しいレストランを教えて」と発話している。その時刻はt13である。

0099

ユーザUdは、起動ワードを発話した後、「メール送って」と発話している。その時刻はt14である。

0100

ここでは、同時に生成できる音声セッションの数の上限は4個であるものとする。

0101

この状態の中で、時刻t15において、ホームエージェント20から見て角度方向θeにいるユーザUeによって、起動ワード「OK Agent.」が発話された場合、ホームエージェント20は、4方向の音声セッションの中で、時間的に最も前に発話が検出された音声セッションを終了させる。

0102

具体的には、ホームエージェント20は、時刻t15において、時刻t11に発話が検出された角度方向θbの音声セッションを終了し、新たに角度方向θeに音声セッションを生成する。

0103

このようにして、音声セッションの生成・終了の制御が行われる。なお、ユーザの移動がある場合にも、同様の制御が行われる。

0104

図8の例では、時間的に最も前に発話が検出された音声セッションを終了させるものとしたが、ホームエージェント20に対する発話の発生する確率が最も低い音声セッションを終了させればよく、他の条件に基づいて音声セッションを終了させることもできる。

0105

例えば、人感センサの機能を有するセンシング部73からのセンシング情報に基づいた人検出や、撮像部71により取得されている画像における動き検出によって、動きのあるユーザの音声セッションを終了させるようにしてもよい。

0106

また、センシング部73からのセンシング情報に基づいた顔向き検出や視線検出、撮像部71により取得されている画像における顔検出によって、ユーザがホームエージェント20に顔を向けていないユーザの音声セッションを終了させるようにしてもよい。

0107

さらに、バイタルセンサの機能を有するセンシング部73からのセンシング情報に基づいて、寝てしまったユーザの音声セッションを終了させるようにしてもよい。

0108

また、自身の所有するスマートフォンなどの携帯端末を操作しているユーザの音声セッションを終了させるようにしてもよい。ユーザが携帯端末を操作しているか否かの判定は、撮像部71により取得されている画像、携帯端末上で起動しているアプリケーション起動状態動作状態の検知などに基づいて行うことができる。

0109

以上のようにして、複数人のユーザによる操作での音声セッションの制御が行われる。

0110

(音声セッションと顔トラッキングの状態管理)
上述したように、ホームエージェント20は、顔をトラッキングしているユーザ毎に音声セッションを生成する。さらに、ホームエージェント20は、音声セッションと顔トラッキングの状態をともに管理することで、図8を参照して説明した音声セッションの制御と連動して、顔のトラッキングを切り替えることができる。

0111

ここで、図9のフローチャートを参照して、音声セッションと顔トラッキングの状態管理の流れについて説明する。

0112

ステップS51において、音声セッション生成部75は、音声取得部72からの音声に基づいて、起動ワードを検出したか否かを判定する。起動ワードが検出されていない間、処理はステップS51を繰り返し、起動ワードが検出されると、処理はステップS52に進む。

0113

ステップS52において、現在生成されている音声セッションとして、生成できる数の上限であるN個の音声セッションがあるか否かを判定する。なお、同時に生成できる音声セッションの数の上限Nは、同時にトラッキングできる顔の数の上限Mと同じ数であるものとするが、異なる数であってもよい。

0114

N個の音声セッションがある場合、処理はステップS53に進み、音声セッション生成部75は、発話の発生する確率が最も低いと推定される音声セッションを終了する。

0115

このとき、音声セッション生成部75は、撮像部71からの画像、音声取得部72からの音声、および、センシング部73からのセンシング情報の少なくともいずれかに基づいて、発話の発生する確率が最も低い音声セッションを推定する。例えば、図8の例と同様に、音声セッション生成部75は、音声取得部72からの音声に基づいて、時間的に最も前に発話が検出された音声セッションを、発話の発生する確率が最も低い音声セッションと推定し、その音声セッションを終了する。

0116

一方、N個の音声セッションがなく、まだ、音声セッションの数が上限に達していない場合、ステップS53はスキップされる。

0117

ステップS54において、音声セッション生成部75は、起動ワードが検出された角度方向θに音声セッションを生成する。

0118

ステップS55において、トラッキング部74は、角度方向θ周辺に顔がトラッキングされているか否かを判定する。

0119

角度方向θ周辺に顔がトラッキングされていると判定された場合、音声セッションと顔トラッキングの状態管理の処理は終了し、図6のフローチャートのステップS34以降と同様の処理が実行される。

0120

一方、角度方向θ周辺に顔がトラッキングされていないと判定された場合、処理はステップS56に進む。

0121

ステップS56において、トラッキング部74は、トラッキング対象となる顔を切り替えるトラッキング切り替え処理を実行し、その後、図6のフローチャートのステップS34以降と同様の処理が実行される。

0122

ここで、図10のフローチャートを参照して、トラッキング切り替え処理の詳細について説明する。

0123

ステップS71において、トラッキング部74は、同時にトラッキングできる顔の数の上限であるM個の顔をトラッキングしているか否かを判定する。

0124

M個の顔がトラッキングされている場合、処理はステップS72に進み、トラッキング部74は、撮像部71により取得されている画像において、角度方向θ周辺に顔を検出したか否かを判定する。

0125

角度方向θ周辺に顔が検出された場合、処理はステップS73に進み、トラッキング部74は、発話する確率が最も低いと推定されるユーザの顔のトラッキングを終了する。

0126

このとき、トラッキング部74は、撮像部71からの画像と、センシング部73からのセンシング情報の少なくともいずれかに基づいて、発話する確率が最も低いユーザを推定する。例えば、トラッキング部74は、撮像部71からの画像に基づいて、ホームエージェント20から最も離れた位置にいるユーザを、発話する確率が最も低いユーザと推定し、そのユーザの顔のトラッキングを終了する。

0127

その後、ステップS74において、トラッキング部74は、角度方向θ周辺で検出された顔のトラッキングを開始する。このとき、角度方向θ周辺で検出された顔が複数ある場合には、角度方向θに最も近い角度方向で検出された顔のトラッキングが開始されるようにする。

0128

一方、ステップS71において、M個の顔がトラッキングされていないと判定されるか、ステップS72において、角度方向θ周辺に顔が検出されていないと判定された場合、新たなトラッキングが開始されることなく、処理は終了する。

0129

図11は、上述した処理に基づいた、起動ワードの検出に連動した顔トラッキングの切り替えの例を示している。

0130

図11には、5人のユーザ10A,10B,10C,10D,10Eとホームエージェント20が示されている。

0131

図11左側の状態では、5人のユーザのうち4人のユーザ10A,10B,10C,10Dの顔がホームエージェント20によりトラッキングされている。図中、破線TR1乃至TR4は、顔がトラッキングされていることを表している。

0132

図11の例では、同時にトラッキングできる顔の数の上限は4個であるものとする。したがって、図11左側の状態においては、ユーザ10Eの顔はトラッキングされていない。

0133

この状態で、ユーザ10Eが「OK Agent.」と起動ワードを発話すると、ホームエージェント20は、起動ワードが検出された角度方向に音声セッションを生成する。

0134

その後、図11右側に示されるように、ホームエージェント20は、最も離れた位置にいるユーザ10Dの顔のトラッキングを終了するとともに、起動ワードが検出された角度方向に検出されたユーザ10Eの顔のトラッキング(TR4’)を開始する。

0135

このようにして、起動ワードの検出に連動して、トラッキング対象となる顔を切り替えることができる。

0136

以上においては、起動ワードの検出に連動したトラッキングの切り替えの例について説明したが、発話の検出に連動して、トラッキング対象となる顔を切り替えるようにすることもできる。

0137

図12は、発話の検出に連動して顔のトラッキングを切り替えるようにした、音声セッションと顔トラッキングの状態管理の流れについて説明するフローチャートである。

0138

ステップS91において、音声セッション生成部75は、音声取得部72からの音声に基づいて、角度方向θに発話を検出したか否かを判定する。発話が検出されていない間、処理はステップS91を繰り返し、発話が検出されると、処理はステップS92に進む。

0139

ステップS92において、トラッキング部74は、角度方向θ周辺に顔がトラッキングされているか否かを判定する。

0140

角度方向θ周辺に顔がトラッキングされていると判定された場合、音声セッションと顔トラッキングの状態管理の処理は終了し、図6のフローチャートのステップS34以降と同様の処理が実行される。

0141

一方、角度方向θ周辺に顔がトラッキングされていないと判定された場合、処理はステップS93に進み、トラッキング部74は、図10のフローチャートを参照して説明したトラッキング切り替え処理を実行する。

0142

角度方向θに音声セッションが生成されている状態で、その角度方向θにいるユーザが一時的に移動するなどした場合、そのユーザの顔のトラッキングは終了してしまうことがある。そのような場合であっても、上述した処理によれば、新たにそのユーザの顔のトラッキングを開始することができる。

0143

<4.クラウドコンピューティングへの適用>
本技術は、クラウドコンピューティングへ適用することもできる。

0144

図13は、クラウドコンピューティングへ適用した応答システムの機能構成例を示すブロック図である。

0145

図13に示されるように、ホームエージェント120は、撮像部121、音声取得部122、センシング部123、および応答生成部124を備えている。

0146

ホームエージェント120は、撮像部121により取得された画像、音声取得部122により取得された音声、センシング部123により取得されたセンシング情報を、ネットワークNWを介して接続されるサーバ130に送信する。

0147

また、ホームエージェント120は、サーバ130からネットワークNWを介して送信されてくる意味解析の結果に基づいて、応答生成部124により生成された応答を出力する。

0148

サーバ130は、通信部131、トラッキング部132、音声セッション生成部133、発話者特定部134、音声認識部135、および意味解析部136を備えている。

0149

通信部131は、ホームエージェント120からネットワークNWを介して送信されてくる画像、音声、センシング情報を受信する。また、通信部131は、意味解析部136による意味解析の結果を、ネットワークNWを介してホームエージェント120に送信する。

0150

トラッキング部132乃至意味解析部136は、それぞれ、図3のトラッキング部74乃至意味解析部78と同一の機能を有している。

0151

次に、図14を参照して、図13の応答システムによる応答生成処理の流れについて説明する。

0152

ステップS111において、ホームエージェント120は、撮像部121、音声取得部122、センシング部123それぞれにより取得される画像、音声、センシング情報を、逐次サーバ130に送信する。

0153

サーバ130は、ステップS121において、画像、音声、センシング情報を受信すると、ステップS122において、ホームエージェント120からの画像とセンシング情報に基づいて、顔のトラッキングを開始する。

0154

サーバ130は、ホームエージェント120からの音声として、起動ワードを受信すると、ステップS123において、音声セッションを生成し、ステップS124において、発話者を特定する。

0155

サーバ130は、ホームエージェント120からの音声として、発話(発話者による要求)を受信すると、ステップS125において、音声認識を行う。さらに、サーバ130は、ステップS126において、音声認識によって得られた文字列からなる文章に対して意味解析を行うことで、発話者の要求を抽出する。

0156

そして、サーバ130は、ステップS127において、意味解析の結果である発話者の要求を示す情報を、ホームエージェント120に送信する。

0157

ホームエージェント120は、ステップS112において、サーバ130からの発話者の要求を示す情報を受信すると、ステップS113において、発話者の要求に対する応答を生成し、図示せぬスピーカを介して出力する。

0158

以上の処理においても、様々な環境音の影響を受けることなく発話を受け付けるべきユーザがトラッキングされるので、サーバ130は、どのユーザに対して応答するべきかを正しく判断することが可能となる。

0159

<5.その他>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用パーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

0160

図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

0161

上述したホームエージェント20およびサーバ130は、図15に示す構成を有するコンピュータにより実現される。

0162

CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。

0163

バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボードマウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。

0164

以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。

0165

CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワークインターネットデジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。

0166

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。

0167

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

0168

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

0169

さらに、本技術は以下のような構成をとることができる。
(1)
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在する前記ユーザを、発話を受け付けるべき発話者に特定する発話者特定部と、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する意味解析部と
を備える情報処理装置。
(2)
前記発話者特定部は、前記ユーザとの対話を行うための音声セッションが生成された前記角度方向に、前記画像において検出された前記ユーザの顔がトラッキングされている場合、前記ユーザを前記発話者に特定する
(1)に記載の情報処理装置。
(3)
前記画像において検出された前記ユーザの前記顔をトラッキングするトラッキング部と、
前記ユーザとの対話を開始するトリガが検出された前記角度方向に前記音声セッションを生成する音声セッション生成部と
をさらに備える
(2)に記載の情報処理装置。
(4)
前記発話者特定部は、前記画像、前記音声、および、前記環境におけるセンシングにより得られたセンシング情報に基づいて、前記発話者を特定する
(3)に記載の情報処理装置。
(5)
前記トリガは、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて検出される
(4)に記載の情報処理装置。
(6)
前記トリガは、前記音声から検出される、あらかじめ決められた文言の発話である
(5)に記載の情報処理装置。
(7)
前記トリガは、前記画像から検出される、あらかじめ決められた動作である
(5)に記載の情報処理装置。
(8)
前記音声セッション生成部は、N個の前記音声セッションを生成している状態で、前記N個の前記音声セッションが生成されている前記角度方向とは異なる前記角度方向に前記トリガが検出された場合、前記N個の前記音声セッションのうち、前記発話の発生する確率が最も低いと推定される前記音声セッションを終了する
(3)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記音声セッション生成部は、前記画像、前記音声、および前記センシング情報の少なくともいずれかに基づいて、前記発話の発生する確率が最も低い前記音声セッションを推定する
(8)に記載の情報処理装置。
(10)
前記音声セッション生成部は、前記音声に基づいて、時間的に最も前に前記発話が検出された前記音声セッションを終了する
(9)に記載の情報処理装置。
(11)
前記トラッキング部は、M個の前記顔をトラッキングしている状態で、前記M個の前記顔がトラッキングされている前記角度方向とは異なる前記角度方向に前記顔が検出された場合、前記M個の前記顔のトラッキングのうち、前記発話する確率が最も低いと推定される前記ユーザの前記顔のトラッキングを終了する
(8)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記トラッキング部は、前記画像および前記センシング情報の少なくともいずれかに基づいて、前記発話する確率が最も低い前記ユーザを推定する
(11)に記載の情報処理装置。
(13)
前記トラッキング部は、前記画像に基づいて、最も離れた位置にいる前記ユーザの前記顔のトラッキングを終了する
(12)に記載の情報処理装置。
(14)
前記トラッキング部がトラッキングする前記顔の数Mと、前記音声セッション生成部が生成する前記音声セッションの数Nとは同じ数である
(11)乃至(13)のいずれかに記載の情報処理装置。
(15)
特定された前記発話者による前記発話の音声認識を行う音声認識部
をさらに備え、
前記意味解析部は、前記発話の音声認識結果を用いて前記意味解析を行う
(1)乃至(14)のいずれかに記載の情報処理装置。
(16)
前記発話者の要求に対する応答を生成する応答生成部
をさらに備える
(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記環境の前記画像を取得する撮像部と、
前記環境の前記音声を取得する音声取得部と
を備える
(1)乃至(16)のいずれかに記載の情報処理装置。
(18)
情報処理装置が、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
情報処理方法
(19)
コンピュータに、
ユーザが存在する環境の画像と音声に基づいて、所定の角度方向に存在するユーザを、発話を受け付けるべき発話者に特定し、
特定された前記発話者による前記発話の意味解析を行うことで、前記発話者の要求を出力する
処理を実行させるプログラム。
(20)
ユーザが存在する環境の画像を取得する撮像部と、
前記環境の音声を取得する音声取得部と、
前記画像と前記音声に基づいて、所定の角度方向に存在する前記ユーザが、発話を受け付けるべき発話者に特定され、特定された前記発話者による前記発話の意味解析が行われることで出力された前記発話者の要求に対する応答を生成する応答生成部と
を備える電子機器。
(21)
ユーザが存在する環境において得られた複数のモーダルに基づいて、発話を受け付けるべき前記ユーザをトラッキングするユーザトラッキング部と、
トラッキングされている前記ユーザによる前記発話の意味解析を行うことで、前記ユーザの要求を出力する意味解析部と
を備える情報処理装置。
(22)
前記複数のモーダルは、少なくとも前記環境の画像と音声を含む
(21)に記載の情報処理装置。

0170

20ホームエージェント, 71撮像部, 72音声取得部, 73センシング部, 74トラッキング部, 75音声セッション生成部, 76発話者特定部, 77音声認識部, 78意味解析部, 79応答生成部, 120 ホームエージェント, 121 撮像部, 122 音声取得部, 123 センシング部, 124 応答生成部, 130サーバ, 131通信部, 132 トラッキング部, 133 音声セッション生成部, 134 発話者特定部, 135 音声認識部, 136 意味解析部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ