図面 (/)

技術 情報処理装置、情報処理方法、およびプログラム

出願人 ソニー株式会社
発明者 菅野沙也前田幸徳
出願日 2018年10月17日 (2年2ヶ月経過) 出願番号 2019-521168
公開日 2020年9月24日 (3ヶ月経過) 公開番号 WO2019-087779
状態 未査定
技術分野 検索装置
主要キーワード サーモグラフィカメラ ウェアラブル機器 パーティー会場 行動モード 冷暖房器具 センシング範囲 うるささ リストバンド型
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年9月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題・解決手段

本技術は、複数人のユーザが皆満足できる空間を提供することができるようにする情報処理装置情報処理方法、およびプログラムに関する。分析部は、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報分析し、応答生成部は、センシング情報の分析結果に応じて、少なくともいずれかのユーザに対する応答を生成する。本技術は、例えば、家庭用音声アシスタントデバイスに適用することができる。

概要

背景

近年、ユーザからの指示やユーザの状態などに応じて、そのユーザに対して適切な応答を出力する家庭用音声アシスタントデバイスホームエージェント機器)が提供されている。このようなホームエージェント機器の中には、ユーザによる楽曲再生回数、ユーザの好きなアーティストジャンルの他、時間帯季節位置情報など、楽曲とは直接関係のない情報を用いて楽曲推薦を行うものもある。

例えば、特許文献1には、ユーザのそのときの感情に基づいて、楽曲の推薦を行う楽曲推薦システムが開示されている。

概要

本技術は、複数人のユーザが皆満足できる空間を提供することができるようにする情報処理装置情報処理方法、およびプログラムに関する。分析部は、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報分析し、応答生成部は、センシング情報の分析結果に応じて、少なくともいずれかのユーザに対する応答を生成する。本技術は、例えば、家庭用の音声アシスタントデバイスに適用することができる。

目的

本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、複数人のユーザが皆満足できる空間を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報分析する分析部と、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する応答生成部とを備える情報処理装置

請求項2

前記分析部は、前記センシング情報を分析することで、前記環境における前記ユーザの状態を推定し、前記応答生成部は、推定された前記ユーザの状態に対応した前記応答を生成する請求項1に記載の情報処理装置。

請求項3

前記ユーザの状態をクラスタリングすることで、前記ユーザの状態が分類されるクラスタを決定するクラスタリング部をさらに備え、前記応答生成部は、決定された前記クラスタに対応した前記応答を生成する請求項2に記載の情報処理装置。

請求項4

前記応答生成部は、前記センシング情報を用いて、前記クラスタに対応した前記応答を生成する請求項3に記載の情報処理装置。

請求項5

前記応答生成部は、前記ユーザそれぞれのプロファイルを用いて、前記クラスタに対応した前記応答を生成する請求項3に記載の情報処理装置。

請求項6

前記応答生成部は、前記複数人のユーザの中に、前記プロファイルのない前記ユーザが存在する場合、前記プロファイルのない前記ユーザの属性に応じた一般化プロファイルを用いて、前記クラスタに対応した前記応答を生成する請求項5に記載の情報処理装置。

請求項7

前記応答は、楽曲である請求項1に記載の情報処理装置。

請求項8

前記応答は、発話音声である請求項1に記載の情報処理装置。

請求項9

前記センシング情報は、前記環境を撮像した画像を含む請求項1に記載の情報処理装置。

請求項10

前記センシング情報は、前記環境において検出された音声を含む請求項1に記載の情報処理装置。

請求項11

前記センシング情報は、前記ユーザの視線情報を含む請求項1に記載の情報処理装置。

請求項12

前記センシング情報は、前記ユーザの生体情報を含む請求項1に記載の情報処理装置。

請求項13

前記センシング情報は、前記ユーザの位置情報を含む請求項1に記載の情報処理装置。

請求項14

前記センシング情報は、前記ユーザの動作情報を含む請求項1に記載の情報処理装置。

請求項15

前記センシング情報は、前記環境における照度を含む請求項1に記載の情報処理装置。

請求項16

前記センシング情報は、前記ユーザの予定情報を含む請求項1に記載の情報処理装置。

請求項17

前記センシング情報は、前記ユーザの発話履歴を含む請求項1に記載の情報処理装置。

請求項18

前記環境においてセンシングを行うセンシング部をさらに備える請求項1に記載の情報処理装置。

請求項19

情報処理装置が、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する情報処理方法

請求項20

コンピュータに、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する処理を実行させるプログラム

技術分野

0001

本技術は、情報処理装置情報処理方法、およびプログラムに関し、特に、複数人のユーザが皆満足できる空間を提供することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

背景技術

0002

近年、ユーザからの指示やユーザの状態などに応じて、そのユーザに対して適切な応答を出力する家庭用音声アシスタントデバイスホームエージェント機器)が提供されている。このようなホームエージェント機器の中には、ユーザによる楽曲再生回数、ユーザの好きなアーティストジャンルの他、時間帯季節位置情報など、楽曲とは直接関係のない情報を用いて楽曲推薦を行うものもある。

0003

例えば、特許文献1には、ユーザのそのときの感情に基づいて、楽曲の推薦を行う楽曲推薦システムが開示されている。

先行技術

0004

特開2016−194614号公報

発明が解決しようとする課題

0005

しかしながら、ホームエージェント機器による応答の出力は、1人のユーザを対象として行われていた。そのため、複数人のユーザが存在する環境において、複数人のユーザが皆満足するような応答を出力することはできなかった。

0006

本技術は、このような状況に鑑みてなされたものであり、複数人のユーザが皆満足できる空間を提供することができるようにするものである。

課題を解決するための手段

0007

本技術の情報処理装置は、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報分析する分析部と、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する応答生成部とを備える。

0008

本技術の情報処理方法は、情報処理装置が、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する情報処理方法である。

0009

本技術のプログラムは、コンピュータに、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する処理を実行させるプログラムである。

0010

本技術においては、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報が分析され、前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答が生成される。

発明の効果

0011

本技術によれば、複数人のユーザが皆満足できる空間を提供することが可能となる。

0012

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

図面の簡単な説明

0013

本技術を適用した応答システム概要について説明する図である。
エージェント装置ハードウェア構成例を示すブロック図である。
エージェント装置の機能構成例を示すブロック図である。
応答出力処理について説明するフローチャートである。
クラスタに対応して生成される応答の例を示す図である。
応答システムの第1の利用例について説明する図である。
第1の利用例におけるセンシング情報と応答生成の例を示す図である。
応答システムの第2の利用例について説明する図である。
第2の利用例におけるセンシング情報と応答生成の例を示す図である。
応答システムの第3の利用例について説明する図である。
第3の利用例におけるセンシング情報と応答生成の例を示す図である。
応答システムの第4の利用例について説明する図である。
第4の利用例におけるセンシング情報の例を示す図である。
ニューラルネットワークの構成例を示す図である。
本技術を適用したサーバの機能構成例を示すブロック図である。
コンピュータの構成例を示すブロック図である。

実施例

0014

以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。

0015

1.応答システムの概要
2.エージェント装置の構成と動作
3.応答システムの第1の利用例(団欒モード)
4.応答システムの第2の利用例(別々行動モード
5.応答システムの第3の利用例(邪魔者乱入モード
6.応答システムの第4の利用例(パーティーモード
7.ニューラルネットワークへの適用
8.クラウドコンピューティングへの適用
9.その他

0016

<1.応答システムの概要>
図1は、本技術を適用した応答システムの概要を示している。

0017

図1には、3人のユーザ10A,10B,10Cと、ユーザ10A,10B,10Cに対して応答を出力する、本技術を適用したエージェント装置20が示されている。エージェント装置20は、家庭用の音声アシスタントデバイスとして構成される。

0018

エージェント装置20は、ユーザ10A,10B,10Cそれぞれの状態をセンシングすることで得られるセンシング情報SD1,SD2,SD3を分析し、それらの分析結果に応じた応答Resを出力する。

0019

エージェント装置20によって分析されるセンシング情報は、ユーザ10A,10B,10Cそれぞれの状態をセンシングして得られるものに限らず、ユーザ10A,10B,10Cが存在する環境におけるセンシングにより得られるものを含む。

0020

例えば、センシング情報は、ユーザ10A,10B,10Cが存在する環境を撮像した画像や、その環境における音声、ユーザ10A,10B,10Cそれぞれの位置や動作を示す情報などを含む。

0021

エージェント装置20によって出力される応答Resは、ユーザ10A,10B,10Cが皆満足できる空間を作り上げるような応答とされる。応答Resは、ユーザ10A,10B,10C全てに対する応答であってもよいし、そのいずれかに対する応答であってもよい。応答Resは、センシング情報の分析結果に応じて、楽曲として出力されたり、発話音声として出力されたりする。

0022

<2.エージェント装置の構成と動作>
(エージェント装置の構成例)
図2は、本技術を適用したエージェント装置20のハードウェア構成例を示すブロック図である。

0023

CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。

0024

バス54には、マイク55、センサ56、スピーカ57、ディスプレイ58、入力部59、記憶部60、および通信部61が接続される。

0025

マイク55は、ユーザが存在する環境における音声を検出する。

0026

センサ56は、カメラ照度センサなどの各種のセンサにより構成される。例えば、センサ56は、撮影により得られた画像を出力する。また、センサ56は、その場の照度を表す情報を出力する。

0027

スピーカ57は、音声(合成音声)や楽曲を出力する。

0028

ディスプレイ58は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。

0029

入力部59は、ディスプレイ58に重ねて設けられたタッチパネルや、エージェント装置20の筐体に設けられた各種のボタンにより構成される。入力部59は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。

0030

記憶部60は、不揮発性メモリなどにより構成される。記憶部60は、CPU51が実行するプログラムの他に、楽曲データや音声合成用のデータなどの各種のデータを記憶する。

0031

通信部61は、ネットワークインタフェースなどにより構成される。通信部61は、無線有線による通信を外部の装置との間で行う。

0032

図3は、エージェント装置20の機能構成例を示すブロック図である。

0033

図3に示されるエージェント装置20の機能ブロックのうちの少なくとも一部は、図2のCPU51により所定のプログラムが実行されることによって実現される。

0034

エージェント装置20は、センシング部71、分析部72、クラスタリング部73、応答生成部74、記憶部75、および出力部76から構成される。

0035

センシング部71は、図2のマイク55やセンサ56に対応し、複数人のユーザが存在する環境においてセンシングを行う。センシング部71は、エージェント装置20の外部に設けられていてもよい。センシング部71によって行われ得るセンシング技術の詳細については後述する。センシングにより得られたセンシング情報は、分析部72と応答生成部74に供給される。

0036

分析部72は、センシング部71からのセンシング情報を分析することで、複数人のユーザが存在する環境におけるユーザの状態を推定する。具体的には、分析部72は、センシング情報を分析することで、その環境におけるユーザ同士関係性や、ユーザそれぞれが1つの目的を共有しているか否かなどを推定する。センシング情報の分析結果(推定されたユーザの状態)は、クラスタリング部73に供給される。

0037

クラスタリング部73は、分析部72による分析結果をクラスタリングする。具体的には、クラスタリング部73は、ユーザの状態が分類されるクラスタを決定する。決定されたクラスタを表す情報は、応答生成部74に供給される。

0038

応答生成部74は、クラスタリング部73からの情報で表されるクラスタに対応した応答を生成する。このとき、応答生成部74は、センシング部71からのセンシング情報を用いたり、記憶部75に記憶されているデータを用いたりして、クラスタに対応した応答を生成する。

0039

記憶部75は、図2の記憶部60に対応し、ユーザ個人嗜好や経験を示すプロファイルデータ81や、種々の楽曲を表す楽曲データ82を記憶する。応答生成部74は、プロファイルデータ81で示されるユーザの嗜好や経験に基づいて、クラスタに対応した応答を生成したり、クラスタに対応した応答を、楽曲データ82で示される楽曲に基づいて生成する。

0040

応答生成部74によって生成された応答は、出力部76に供給される。

0041

出力部76は、図2のスピーカ57に対応し、応答生成部74からの応答を、発話音声や楽曲として出力する。

0042

(センシング技術の詳細)
ここで、センシング情報を得るのに必要なセンシング技術の詳細について説明する。

0043

センシング部71によって行われ得るセンシング技術として、以下のような技術を用いることができる。

0044

(a)GPS(Global Positioning System)機能
スマートフォンウェアラブル機器など、ユーザが携帯可能なデバイスが有するGPS機能によって、センシング情報として、位置情報を取得することができる。位置情報は、ユーザの嗜好(どのような楽曲を好んで選ぶかの傾向)とづけることができる。蓄積された位置情報により、ユーザの現在位置が、日よく行く場所であるか、ユーザにとって非日常的な場所であるか、などを判定することも可能となる。

0045

(b)加速度センシング
スマートフォンやウェアラブル機器など、ユーザが携帯可能なデバイスが有する加速度センサによって、センシング情報として、ユーザの動作を表す動作情報を取得することができる。動作情報は、ユーザの嗜好と紐づけることができる。

0046

(c)照度センシング
ユーザが存在する環境に設けられた照度センサによって、センシング情報として、その場の照度を取得したり、光源推定を行うことができる。照度や光源推定結果は、ユーザの嗜好と紐づけることができる。

0047

(d)音源方向推定
ユーザが存在する環境において、センシング情報として、マイクによって検出された音声を取得することで、その場の“うるささ”の判定や、音源方向推定を行うことができる。音源方向推定の結果により、例えば、子供が走り回っているのか、大人同士の会話盛り上がっているのか、テレビの音声が流れているのか、などといった、音源の種類を特定することもできる。

0048

さらに、話者認識機能を用いることにより、誰が発話したのか、などを判定することもできる。

0049

(e)顔認識動作認識
センシング情報として、カメラによって撮像された画像(動画像)を取得し、リアルタイム解析することで、顔認識と動作認識を行うことができる。顔認識や動作認識の結果として得られる、その環境に誰がいるのか、何をしているのか、などの情報を、センシング情報として取得するようにしてもよい。

0050

(f)視線検出
視線検出が可能なメガネ型のウェアラブル機器をユーザが装着したり、視線検出機能を有するカメラがユーザを撮像することで、センシング情報として、ユーザの視線位置を示す視線情報を取得することができる。

0051

(g)心拍の変動検知
心拍の変動検知が可能なリストバンド型のウェアラブル機器をユーザが装着することで、センシング情報として、ユーザの心拍の変動を示す心拍情報を取得することができる。ここでは、心拍情報が取得されるものとするが、これ以外にも、心電図、血圧体温などの生体情報が取得されるようにしてもよい。

0052

(h)表情認識
センシング情報として、カメラによって撮像された画像(動画像)を取得し、リアルタイムで解析することで、ユーザの発話時の表情を認識することができる。

0053

(i)感情推定
センシング情報として、マイクによって検出されたユーザの発話時の音声を取得し、その特徴量を解析することで、そのユーザの感情を推定することができる。

0054

(j)ユーザの予定情報
センシング情報として、ユーザのカレンダ情報ToDoリストなどから、例えばその日のユーザの予定や過去の行動を示す予定情報を取得することができる。ユーザの予定情報をモデル化することで、ユーザの置かれている状況を推定することもできる。このとき、「デート」や「ライブ」などの短期的な予定を示す予定情報と、「資格試験」などの長期的な予定を示す予定情報とを区別してモデル化してもよい。さらに、ユーザ固有習慣を考慮して、ユーザの予定情報をモデル化してもよい。

0055

(k)楽曲の評価・再生回数
センシング情報として、動画投稿サイトでの他者による動画像の評価を取得することができる。さらに、投稿ユーザ情報やタグ情報を取得することで、その動画像が楽曲中心の動画像であるか否かを推定することができる。

0056

また、センシング情報として、音楽配信サービスでの他者による楽曲の評価を取得することもできる。さらに、他者のプレイリストを参照することで、他者が、どのようなタイミングでどのようなジャンルの楽曲を聴く傾向にあるのかなどを推定することもできる。

0057

さらに、センシング情報として、音楽配信サービスでの楽曲再生や、オフライン状態での楽曲再生によってカウントされる再生回数を取得することもできる。

0058

(l)発話履歴
センシング情報として、ユーザによる発話履歴を取得することができる。発話履歴は、複数人のユーザ同士の会話の内容を示すものであってもよいし、エージェント装置20に対する依頼のための発話の内容を示すものであってもよい。

0059

(m)デバイス情報
センシング情報として、エージェント装置20以外で楽曲を出力可能なデバイスを示すデバイス情報を取得することができる。デバイス情報は、例えばクラウド上に蓄積されるようにする。これにより、複数人のユーザが存在する環境にあるオーディオ機器、ユーザ個人が所有するスマートフォンや携帯音楽プレーヤなどから、選択的に応答を出力することができる。

0060

(n)家の中での位置情報
エージェント装置20のカメラによって撮像された画像を解析することで、センシング情報として、家の中でのユーザの位置情報を取得することができる。

0061

また、サーモグラフィカメラ人感センサなどを設置し、得られたサーモグラフィ画像センサ出力を解析することで、センシング情報として、カメラの撮像範囲外にいる人物の位置情報を取得することもできる。これにより、エージェント装置20を設置しにくい浴室などにおいても人がいることを認識することができるようになる。なお、家の中であるので、カメラの撮像範囲外にいる人物(家族)が誰であるのかを特定することも可能である。

0062

(o)ON/OFF状況
センシング情報として、家の中の家電製品冷暖房器具照明器具)のON/OFF状況を取得することで、家の中でのユーザの位置情報を取得することができる。

0063

以上のようなセンシング技術により、種々のセンシング情報を取得することができる。

0064

(エージェント装置の動作例)
次に、図3のフローチャートを参照して、エージェント装置20によって実行される応答出力処理の流れについて説明する。

0065

テップS1において、センシング部71は、複数人のユーザが存在する環境においてセンシングを行うことで、センシング情報を取得する。

0066

ステップS2において、分析部72は、センシング部71により得られたセンシング情報を分析することで、複数人のユーザが存在する環境におけるユーザの状態を推定する。

0067

ステップS3において、クラスタリング部73は、分析部72による分析結果をクラスタリングすることでユーザの状態を分類し、その状態が分類されるクラスタを決定する。

0068

ステップS4において、応答生成部74は、センシング部71からのセンシング情報を用いたり、記憶部75に記憶されているプロファイルデータ81を用いたりして、決定されたクラスタに対応した応答を生成する。

0069

なお、複数人のユーザの中には、プロファイルデータ81のないユーザが存在する場合が考えられる。この場合、応答生成部74は、そのユーザの属性性別年齢など)に応じて一般化されたプロファイルデータ(一般化プロファイル)を用いて、クラスタに対応した応答を生成することができる。

0070

ここで、図5を参照して、決定されたクラスタに対応して生成される応答の例について説明する。

0071

図5においては、クラスタとして、複数人のユーザの状態を分類する4つのモード(団欒モード、別々行動モード、邪魔者乱入モード、パーティーモード)と、それぞれのモードに対応する応答の例が示されている。

0072

団欒モードは、複数人のユーザが互いに楽しく会話を交わしているような状態に該当するクラスタである。ユーザの状態が団欒モードに分類された場合、応答として、例えば、ユーザ同士の会話(団欒)を邪魔しないようなBGM(Back Ground Music)(楽曲)が選出される。

0073

別々行動モードは、複数人のユーザが会話もなく別々の作業を行っているような状態に該当するクラスタである。ユーザの状態が別々行動モードに分類された場合、応答として、例えば、ユーザ同士の会話を発生させるような話題(発話音声)が生成される。

0074

邪魔者乱入モードは、数人のユーザが1つの作業を行っている中で、例えば他の1人のユーザがその作業の邪魔になるような行動をとっているような状態に該当するクラスタである。ユーザの状態が邪魔者乱入モードに分類された場合、応答として、例えば、邪魔者と判断された人物に対する話題(発話音声)が生成される。

0075

パーティー(超多人数)モードは、超多人数のユーザがパーティー会場などで盛り上がっている(大きな声で会話したり、動き回ったりしている)ような状態に該当するクラスタである。ユーザの状態がパーティーモードに分類された場合、応答として、例えば、パーティー(盛り上がり)を邪魔しないようなBGM(楽曲)が選出される。

0076

このようにして、複数人のユーザの状態に応じた応答が生成されるようになる。

0077

さて、図4のフローチャートに戻り、ステップS5において、出力部76は、応答生成部74によって生成された応答を出力する。

0078

以上の処理によれば、複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報の分析結果に応じて、複数人のユーザの状態に応じた応答が出力されるので、複数人のユーザが皆満足できる空間を提供することが可能となる。

0079

以下においては、上述した応答システムの利用例について説明する。

0080

<3.応答システムの第1の利用例>
図6は、本技術を適用した応答システムの第1の利用例について説明する図である。

0081

図6は、エージェント装置20が設置されているある家のリビングで、3人のユーザ10A,10B,10Cが、お互いに顔を合わせながら会話を交わして盛り上がっている様子を示している。

0082

ユーザ10Aは、心拍の変動検知が可能なリストバンド型のウェアラブル機器を装着しており、ユーザ10Aの心拍情報は、センシング情報として、エージェント装置20によってリアルタイムに取得されている。

0083

ユーザ10Bは、視線検出が可能なメガネ型のウェアラブル機器を装着しており、ユーザ10Bの視線情報は、センシング情報として、エージェント装置20によってリアルタイムに取得されている。

0084

エージェント装置20には、プロファイルデータ81として、ユーザ10A,10Bのプロファイルデータが記憶されており、ユーザ10Cのプロファイルデータは存在しない。例えば、ユーザ10Cは、普段この家にいない客人などとされる。

0085

図6の例において、分析部72は、各種のセンシング情報を分析することで、ユーザ10A,10B,10Cの状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、(g)心拍の変動検知、および、(h)表情認識が用いられることで得られたセンシング情報とされる。

0086

これらのセンシング情報に基づいて、ユーザ10A,10B,10Cの状態は、複数人のユーザが互いに楽しく会話を交わしているような状態であると推定され、クラスタとして団欒モードに分類される。

0087

応答生成部74は、各種のセンシング情報と、ユーザ10A,10Bのプロファイルデータを用いて、団欒モードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(c)照度センシング、(h)表情認識、(i)感情推定、(j)ユーザの予定情報、(k)楽曲の評価・再生回数、および、(l)発話履歴が用いられることで得られたセンシング情報とされる。

0088

これにより、団欒モードに対応する応答として、ユーザ同士の会話を邪魔しないようなBGMが選出される。

0089

図7は、図6に示される環境において得られるセンシング情報と、エージェント装置20による応答生成の例について説明する図である。

0090

図7においては、時刻t11乃至t13の間に得られた、ユーザ10A,10B,10Cについてのセンシング情報が示されている。

0091

図7のAには、ユーザ10Aの音信号実線)、動作信号点線)、および心拍情報(破線)を表す波形が示されている。図7のBには、ユーザ10Bの音信号、動作信号、および視線情報(一点鎖線)を表す波形が示されている。図7のCには、ユーザ10Cの音信号と動作信号を表す波形が示されている。

0092

各ユーザの音信号は、マイクにより検出された音声を表す信号であり、各ユーザの動作信号は、カメラによって撮像された画像や加速度センサのセンサ出力に基づいて得られる信号である。

0093

図7の例において、時刻t11乃至t12の間では、3人のユーザ10A,10B,10Cは、子供の卒業式の話で盛り上がっている状態にある。

0094

この間、センシング情報において、3人のユーザ10A,10B,10Cの音信号がそれぞれ異なるタイミングで大きくなっている。このことから、3人のユーザ10A,10B,10Cがそれぞれ交互にテンポよく会話していることが推定される。また、各ユーザの音信号が増大すると動作信号も増幅することから、各ユーザは、身振り手振りで会話していることが推定される。

0095

すなわち、ユーザ10A,10B,10Cの状態は、複数人のユーザが互いに楽しく会話を交わしているような状態であると推定され、クラスタとして団欒モードに分類される。

0096

この場合、団欒モードに対応する応答としては、センシング情報として得られる会話の内容((l)発話履歴)から「卒業ソング」がBGMとして選出される。

0097

次いで、時刻t12乃至t13の間では、ユーザ10Aが中心となってイギリス旅行の話をしている状態にある。

0098

この間、センシング情報において、ユーザ10Aの音信号がずっと大きく、その間にユーザ10B,10Cの音信号がたまに大きくなっている。このことから、ユーザ10Aが中心となって発話し、それを聞いているユーザ10B,10Cが相づちを打っていることが推定される。

0099

ここでも、ユーザ10A,10B,10Cの状態は、複数人のユーザが互いに楽しく会話を交わしているような状態であると推定され、クラスタとして団欒モードに分類される。

0100

この場合、団欒モードに対応する応答としては、センシング情報として得られるユーザ10Aの発話の内容((l)発話履歴)とスケジュール検索((j)ユーザの予定情報)に基づいて、ユーザ10Aが旅行したイギリスの楽曲が抽出される。

0101

さらに、センシング情報として得られるユーザ10Aの楽しげな声色((i)感情推定)に基づいて、抽出されたイギリスの楽曲の中から「楽しげな曲」がBGMとして選出される。

0102

このようにして、複数人のユーザがお互いに顔を合わせながら会話を交わして盛り上がっている場合にも、ユーザが皆満足できる空間が提供されるようになる。

0103

<4.応答システムの第2の利用例>
図8は、本技術を適用した応答システムの第2の利用例について説明する図である。

0104

図8は、エージェント装置20が設置されているある家のリビングで、3人のユーザ10A,10B,10Cが、例えば、本を読んだり、スマートフォンを操作するなどして、別々の作業を行っている様子を示している。

0105

図8の例においても、ユーザ10A,10B,10Cそれぞれについて得られるセンシング情報と、記憶されているプロファイルデータは、図6の例と同様とする。

0106

図8の例において、分析部72は、各種のセンシング情報を分析することで、ユーザ10A,10B,10Cの状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、(g)心拍の変動検知、および、(h)表情認識が用いられることで得られたセンシング情報とされる。

0107

これらのセンシング情報に基づいて、ユーザ10A,10B,10Cの状態は、複数人のユーザが会話もなく別々の作業を行っているような状態であると推定され、クラスタとして別々行動モードに分類される。

0108

応答生成部74は、各種のセンシング情報と、ユーザ10A,10Bのプロファイルデータを用いて、別々行動モードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(c)照度センシング、(j)ユーザの予定情報、(k)楽曲の評価・再生回数、および、(l)発話履歴が用いられることで得られたセンシング情報とされる。

0109

これにより、別々行動モードに対応する応答として、ユーザ同士の会話を発生させるような話題が生成される。

0110

図9は、図8に示される環境において得られるセンシング情報と、エージェント装置20による応答生成の例について説明する図である。

0111

図9においては、時刻t21乃至t23の間に得られた、ユーザ10A,10B,10Cについてのセンシング情報が示されている。

0112

なお、図9のA,B,Cに示される波形が表すセンシング情報は、図7の例と同様である。

0113

図9の例において、時刻t21乃至t22の間では、3人のユーザ10A,10B,10Cは、全く別の作業をしている状態にある。

0114

この間、センシング情報において、3人のユーザ10A,10B,10Cのいずれの信号も小さく変動していないことから、3人のユーザ10A,10B,10Cはそれぞれ会話も動きもなく静かにしていることが推定される。

0115

すなわち、ユーザ10A,10B,10Cの状態は、複数人のユーザが会話もなく別々の作業を行っているような状態であると推定され、クラスタとして別々行動モードに分類される。

0116

この場合、別々行動モードに対応する応答としては、センシング情報として得られる、最近の発話履歴((l)発話履歴)から映画の話題が生成され、時刻t22において、ユーザ10A,10B,10Cに対してその話題が提供される。

0117

これにより、時刻t22乃至t23の間では、ユーザ10A,10B,10C同士で会話が発生した状態になる。すなわち、ユーザ10A,10B,10Cそれぞれの音信号と動作信号が大きく変動している。

0118

このようにして、複数人のユーザが別々の作業を行っている場合にも、ユーザが皆満足できる空間が提供されるようになる。

0119

<5.応答システムの第3の利用例>
図10は、本技術を適用した応答システムの第3の利用例について説明する図である。

0120

図10は、エージェント装置20が設置されているある家のリビングで、2人のユーザ10B,10Cが、ものを組み立てるなど1つの作業を行っている状態で、ユーザ10Aが外から室内に入ってきて、ユーザ10B,10Cに話しかけている様子を示している。

0121

図10の例においても、ユーザ10A,10B,10Cそれぞれについて得られるセンシング情報と、記憶されているプロファイルデータは、図6の例と同様とする。

0122

図10の例において、分析部72は、各種のセンシング情報を分析することで、ユーザ10A,10B,10Cの状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、(g)心拍の変動検知、および、(h)表情認識が用いられることで得られたセンシング情報とされる。

0123

これらのセンシング情報に基づいて、ユーザ10A,10B,10Cの状態は、数人のユーザが1つの作業を行っている中で、他のユーザがその作業の邪魔になるような行動をとっているような状態であると推定され、クラスタとして邪魔者乱入モードに分類される。

0124

応答生成部74は、各種のセンシング情報と、ユーザ10A,10Bのプロファイルデータを用いて、邪魔者乱入モードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(h)表情認識、(j)ユーザの予定情報、および、(l)発話履歴が用いられることで得られたセンシング情報とされる。

0125

これにより、邪魔者乱入モードに対応する応答として、邪魔者と判断された人物に対する話題が生成される。

0126

図11は、図10に示される環境において得られるセンシング情報と、エージェント装置20による応答生成の例について説明する図である。

0127

図11においては、時刻t31乃至t34の間に得られた、ユーザ10A,10B,10Cについてのセンシング情報が示されている。

0128

なお、図11のA,B,Cに示される波形が表すセンシング情報は、図7の例と同様である。

0129

図11の例において、時刻t31乃至t32の間では、2人のユーザ10B,10Cが、1つの作業をしている状態にある。

0130

この間、センシング情報において、ユーザ10B,10Cの音信号の変動は小さく、動作信号の変動が若干大きいことから、2人のユーザ10B,10Cはそれぞれ会話をしないで作業のために動いていることが推定される。ユーザ10Aは、エージェント装置20によるセンシング範囲の外にいるため、センシング情報は取得されない。

0131

時刻t32において、ユーザ10Aが部屋に入ってきて、ユーザ10B,10Cに話しかけ始める。そして、時刻t32乃至t33の間では、ユーザ10Aが、ユーザ10B,10Cに話しかけることで、ユーザ10B,10Cが作業を中断している状態にある。

0132

この間、センシング情報において、ユーザ10Aの音信号と動作信号が大きく変動していることから、ユーザ10Aが身振り手振りで発話していることが推定される。また、ユーザ10B,10Cの音信号の変動は大きくなったものの、動作信号の変動が小さくなったことから、2人のユーザ10B,10Cはユーザ10Aとの会話のため作業を中断していることが推定される。

0133

すなわち、ユーザ10A,10B,10Cの状態は、数人のユーザが1つの作業を行っている中で、例えば他の1人のユーザがその作業の邪魔になるような行動をとっているような状態され、クラスタとして邪魔者乱入モードに分類される。

0134

この場合、邪魔者乱入モードに対応する応答としては、センシング情報として得られるユーザ10Aの行動履歴((j)ユーザの予定情報)に基づいておすすスポットの話題が生成され、時刻t33において、ユーザ10Aに対してその話題が提供される。おすすめスポットは、例えば、ユーザ10Aの行動履歴から推定される、ユーザ10Aが興味を示しそうな街などとされる。

0135

これにより、時刻t33乃至t34の間では、ユーザ10Aがエージェント装置20と会話し、ユーザ10B,10Cが作業に戻った状態になる。

0136

具体的には、ユーザ10Aの音信号が大きく変動し続けている一方、ユーザ10B,10Cの音信号の変動は小さく、動作信号の変動が再び若干大きくなっている。

0137

このようにして、2人のユーザが1つの作業を行っている状態で、1人のユーザが外から室内に入ってきて、2人のユーザに話しかけている場合にも、ユーザが皆満足できる空間が提供されるようになる。

0138

<6.応答システムの第4の利用例>
図12は、本技術を適用した応答システムの第4の利用例について説明する図である。

0139

図12は、エージェント装置20が設置されているある家のリビングで、多人数のユーザ10がパーティーに参加している様子を示している。

0140

図12の例において、分析部72は、各種のセンシング情報を分析することで、全ユーザ10の状態、言い換えると、室内全体の状態を推定する。ここで用いられるセンシング情報は、例えば、センシング技術として(b)加速度センシング、(d)音源方向推定、(e)顔認識/動作認識、(f)視線検出、および、(g)心拍の変動検知が用いられることで得られたセンシング情報とされる。

0141

図13は、図12に示される環境において得られるセンシング情報について説明する図である。

0142

図13には、上から順に、室内全体(全ユーザ10)の音信号(実線)、動作信号(点線)、および心拍情報(破線)を表す波形が示されている。心拍情報は、心拍の変動検知が可能なリストバンド型のウェアラブル機器を装着しているユーザ10についてのみ取得される。

0143

図13においては、室内全体の音信号、動作信号、および心拍情報が、それぞれ高いレベルを取りながら変動している。このことから、各ユーザ10の状態(室内全体の状態)は、超多人数のユーザがパーティー会場などで盛り上がっているような状態であると推定され、クラスタとしてパーティーモードに分類される。

0144

応答生成部74は、各種のセンシング情報を用いて、パーティーモードに対応した応答を生成する。ここで用いられるセンシング情報は、例えば、センシング技術として(c)照度センシング、(j)ユーザの予定情報、(k)楽曲の評価・再生回数、および、(n)家の中での位置情報が用いられることで得られたセンシング情報とされる。

0145

これにより、パーティーモードに対応する応答として、パーティーを邪魔しないようなBGMが選出される。

0146

このようにして、多人数のユーザがパーティーに参加している場合にも、ユーザが皆満足できる空間が提供されるようになる。

0147

なお、以上においては、本技術を、音声アシスタントデバイスとして構成されるエージェント装置20に適用した例について説明したが、例えば、スマートフォンなどの携帯端末に適用することも可能である。

0148

<7.ニューラルネットワークへの適用>
本技術は、ニューラルネットワークへ適用することができる。

0149

図14は、ニューラルネットワークの構成例を示す図である。

0150

図14のニューラルネットワークは、入力層101、中間層102、および出力層103で構成される階層型ニューラルネットワークである。

0151

入力層101には、上述したセンシング情報や、センシング情報を解析することで得られる特徴量などが入力される。

0152

中間層102においては、各ニューロンにおいて、入力層101に入力されたセンシング情報や特徴量などの分析、分析結果のクラスタリング、クラスタに対応した応答の生成などの演算が行われる。

0153

出力層103には、中間層102における演算の結果として、ユーザの状態が分類されたクラスタや、そのクラスタに対応して生成された応答が出力される。

0154

このようにして、本技術は、階層型ニューラルネットワークに適用することができる。

0155

<8.クラウドコンピューティングへの適用>
本技術は、クラウドコンピューティングへ適用することもできる。

0156

例えば、図15に示されるように、エージェント装置210は、複数人のユーザが存在する環境においてセンシングを行い、得られたセンシング情報を、ネットワークNWを介して接続されるサーバ220に送信する。さらに、エージェント装置210は、サーバ220からネットワークNWを介して送信されてくる、ユーザに対する応答を、発話音声や楽曲として出力する。

0157

サーバ120は、通信部231、分析部232、クラスタリング部233、応答生成部234、および記憶部235を備えている。

0158

通信部231は、エージェント装置210からネットワークNWを介して送信されてくるセンシング情報を受信する。また、通信部231は、応答生成部234によって生成された応答を、ネットワークNWを介してエージェント装置210に送信する。

0159

分析部232は、図3の分析部72と同一の機能を有し、通信部231からのセンシング情報を分析することで、複数人のユーザが存在する環境におけるユーザの状態を推定する。

0160

クラスタリング部233は、図3のクラスタリング部73と同一の機能を有し、ユーザの状態が分類されるクラスタを決定する。

0161

応答生成部234は、図3の応答生成部74と同一の機能を有し、分類されたクラスタに対応した応答を生成し、通信部231に供給する。

0162

記憶部235は、図3の記憶部75と同一の機能を有し、ユーザ個人の嗜好や経験を示すプロファイルデータや、種々の楽曲を表す楽曲データを記憶する。

0163

このような構成においても、複数人のユーザが皆満足できる空間を提供することが可能となる。
<9.その他>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用パーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

0164

図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

0165

上述したエージェント装置20およびサーバ220は、図16に示す構成を有するコンピュータにより実現される。

0166

CPU1001、ROM1002、RAM1003は、バス1004により相互に接続されている。

0167

バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、キーボードマウスなどよりなる入力部1006、ディスプレイ、スピーカなどよりなる出力部1007が接続される。また、入出力インタフェース1005には、ハードディスクや不揮発性のメモリなどよりなる記憶部1008、ネットワークインタフェースなどよりなる通信部1009、リムーバブルメディア1011を駆動するドライブ1010が接続される。

0168

以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを入出力インタフェース1005およびバス1004を介してRAM1003にロードして実行することにより、上述した一連の処理が行われる。

0169

CPU1001が実行するプログラムは、例えばリムーバブルメディア1011に記録して、あるいは、ローカルエリアネットワークインターネットデジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部1008にインストールされる。

0170

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。

0171

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

0172

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

0173

さらに、本技術は以下のような構成をとることができる。
(1)
複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析する分析部と、
前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する応答生成部と
を備える情報処理装置。
(2)
前記分析部は、前記センシング情報を分析することで、前記環境における前記ユーザの状態を推定し、
前記応答生成部は、推定された前記ユーザの状態に対応した前記応答を生成する
(1)に記載の情報処理装置。
(3)
前記ユーザの状態をクラスタリングすることで、前記ユーザの状態が分類されるクラスタを決定するクラスタリング部をさらに備え、
前記応答生成部は、決定された前記クラスタに対応した前記応答を生成する
(2)に記載の情報処理装置。
(4)
前記応答生成部は、前記センシング情報を用いて、前記クラスタに対応した前記応答を生成する
(3)に記載の情報処理装置。
(5)
前記応答生成部は、前記ユーザそれぞれのプロファイルを用いて、前記クラスタに対応した前記応答を生成する
(3)または(4)に記載の情報処理装置。
(6)
前記応答生成部は、前記複数人のユーザの中に、前記プロファイルのない前記ユーザが存在する場合、前記プロファイルのない前記ユーザの属性に応じた一般化プロファイルを用いて、前記クラスタに対応した前記応答を生成する
(5)に記載の情報処理装置。
(7)
前記応答は、楽曲である
(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記応答は、発話音声である
(1)乃至(6)のいずれかに記載の情報処理装置。
(9)
前記センシング情報は、前記環境を撮像した画像を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記センシング情報は、前記環境において検出された音声を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(11)
前記センシング情報は、前記ユーザの視線情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(12)
前記センシング情報は、前記ユーザの生体情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(13)
前記センシング情報は、前記ユーザの位置情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(14)
前記センシング情報は、前記ユーザの動作情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(15)
前記センシング情報は、前記環境における照度を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(16)
前記センシング情報は、前記ユーザの予定情報を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(17)
前記センシング情報は、前記ユーザの発話履歴を含む
(1)乃至(8)のいずれかに記載の情報処理装置。
(18)
前記環境においてセンシングを行うセンシング部をさらに備える
(1)乃至(17)のいずれかに記載の情報処理装置。
(19)
前記応答生成部は、前記ユーザの状態が、複数人の前記ユーザが互いに楽しく会話を交わしているような状態であると推定された場合、前記ユーザ同士の会話を邪魔しないような前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(20)
前記応答生成部は、前記ユーザの状態が、複数人の前記ユーザが別々の作業を行っているような状態であると推定された場合、前記ユーザ同士の会話を発生させるような前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(21)
前記応答生成部は、前記ユーザの状態が、第1のユーザが第2のユーザが行っている作業の邪魔になるような行動をとっているような状態であると推定された場合、前記第1のユーザに対する前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(22)
前記応答生成部は、前記ユーザの状態が、超多人数で盛り上がっている状態であると推定された場合、その盛り上がりを邪魔しないような前記応答を生成する
(2)乃至(18)のいずれかに記載の情報処理装置。
(23)
情報処理装置が、
複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、
前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する
情報処理方法。
(24)
コンピュータに、
複数人のユーザが存在する環境におけるセンシングにより得られたセンシング情報を分析し、
前記センシング情報の分析結果に応じて、少なくともいずれかの前記ユーザに対する応答を生成する
処理を実行させるプログラム。

0174

20エージェント装置, 71センシング部, 72分析部, 73クラスタリング部, 74応答生成部, 75 記憶部, 76 出力部, 210 エージェント装置, 220サーバ, 231通信部, 232 分析部, 233 クラスタリング部, 234 応答生成部, 235 記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ