図面 (/)

技術 情報処理システムおよび情報処理方法

出願人 ソニー株式会社
発明者 河野真一滝祐平
出願日 2015年12月7日 (5年0ヶ月経過) 出願番号 2017-507338
公開日 2018年1月11日 (2年11ヶ月経過) 公開番号 WO2016-151956
状態 特許登録済
技術分野 デジタル計算機のユーザインターフェイス 音声入出力 音声認識
主要キーワード ウェアラブルデバイス 音情報取得 類似範囲 起動トリガ 動きオブジェクト 機会損失 基準音量 押下解除
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年1月11日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供されることが望まれる。

解決手段

集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、情報処理システムが提供される。

概要

背景

近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の認識結果を得る技術が知られている。音声認識処理の認識結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る(例えば、特許文献1参照。)。

概要

音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供されることが望まれる。集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、情報処理システムが提供される。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

集音部から入力される音情報に対して音声認識処理音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、情報処理システム

請求項2

前記認識制御部は、前記ユーザの視線に基づいて、前記音声認識処理を継続するか否かを制御する、請求項1に記載の情報処理システム。

請求項3

前記認識制御部は、前記ユーザの視点動きオブジェクトとに基づいて、前記音声認識処理を継続するか否かを制御する、請求項2に記載の情報処理システム。

請求項4

前記認識制御部は、前記ユーザの視点と前記動きオブジェクトとの一致度に基づいて、前記音声認識処理を継続するか否かを制御する、請求項3に記載の情報処理システム。

請求項5

前記認識制御部は、前記一致度が閾値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、請求項4に記載の情報処理システム。

請求項6

前記認識制御部は、前記一致度が前記閾値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、請求項5に記載の情報処理システム。

請求項7

前記情報処理システムは、前記動きオブジェクトを出力部に出力させる出力制御部を備える、請求項4に記載の情報処理システム。

請求項8

前記出力制御部は、前記音声認識処理が開始されてから前記音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記動きオブジェクトを前記出力部に出力させる、請求項7に記載の情報処理システム。

請求項9

前記所定のタイミングは、前記動きオブジェクトが前記出力部によって出力された後のタイミングである、請求項7に記載の情報処理システム。

請求項10

前記出力制御部は、前記一致度が閾値を上回っている場合には、所定の第1の通知オブジェクトを前記出力部に出力させる、請求項7に記載の情報処理システム。

請求項11

前記出力制御部は、前記一致度が前記閾値を下回っている場合には、前記第1の通知オブジェクトとは異なる所定の第2の通知オブジェクトを前記出力部に出力させる、請求項10に記載の情報処理システム。

請求項12

前記認識制御部は、前記ユーザの頭部の傾きに基づいて、前記音声認識処理を継続するか否かを制御する、請求項1に記載の情報処理システム。

請求項13

前記認識制御部は、前記ユーザの頭部の傾きが所定の基準値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、請求項12に記載の情報処理システム。

請求項14

前記認識制御部は、前記ユーザの頭部の傾きが前記基準値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、請求項13に記載の情報処理システム。

請求項15

前記認識制御部は、前記ユーザの頭部の動きに基づいて、前記音声認識処理を継続するか否かを制御する、請求項1に記載の情報処理システム。

請求項16

前記認識制御部は、前記ユーザの頭部の動きが所定の動きを示す場合に、前記音声認識処理を継続するように前記音声認識部を制御する、請求項15に記載の情報処理システム。

請求項17

前記認識制御部は、前記ユーザの頭部の動きが前記所定の動きを示さない場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、請求項16に記載の情報処理システム。

請求項18

前記認識制御部は、前記音声認識処理の起動トリガが検出された場合に、前記音声認識処理を前記音声認識部に開始させる、請求項1に記載の情報処理システム。

請求項19

前記実行動作は、前記音声認識処理の結果に応じた検索結果を出力させる動作、前記音声認識処理の結果を出力させる動作、前記音声認識処理の過程において得られた処理結果候補を出力させる動作および前記音声認識処理の結果から抽出される発話内容返答するための文字列を出力させる動作のいずれか一つを含む、請求項6に記載の情報処理システム。

請求項20

集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御することを含み、プロセッサにより所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御することを含む、情報処理方法

技術分野

0001

本開示は、情報処理システムおよび情報処理方法に関する。

背景技術

0002

近年、マイクロフォンによって集音された音情報に対して音声認識処理を施して音声認識処理の認識結果を得る技術が知られている。音声認識処理の認識結果は、ユーザに知覚可能な態様によって出力される。例えば、マイクロフォンによって集音された音情報に対する音声認識処理は、ユーザから開始操作が入力されたことをトリガとして開始され得る(例えば、特許文献1参照。)。

先行技術

0003

特開2004−094077号公報

発明が解決しようとする課題

0004

ここで、マイクロフォンによって集音された音情報に対する音声認識処理が一旦停止されてしまった場合でも、音情報に対する音声認識処理を継続させたいとユーザが考える場合がある。そこで、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供されることが望まれる。

課題を解決するための手段

0005

本開示によれば、集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、情報処理システムが提供される。

0006

本開示によれば、集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御することを含み、プロセッサにより所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御することを含む、情報処理方法が提供される。

発明の効果

0007

以上説明したように本開示によれば、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

図面の簡単な説明

0008

一般的なシステムにおける音声認識処理を説明するための図である。
本開示の実施形態に係る情報処理システムの構成例を示す図である。
本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。
初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。
ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態突入した場合を説明するための図である。
ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明するための図である。
一致度閾値を上回っている場合について説明するための図である。
一致度が閾値を下回っている場合について説明するための図である。
一致度と閾値との関係の出力例を示す図である。
本開示の実施形態に係る情報処理システムの全体的な動作の流れを示すフローチャートである。
情報処理システムの構成の変形例1を示す図である。
情報処理システムの構成の変形例2を示す図である。
情報処理システムの構成の変形例2を示す図である。
情報処理システムの構成の変形例2を示す図である。
情報処理システムの構成の変形例2を示す図である。
情報処理システムの構成の変形例3を示す図である。
情報処理システムの構成の変形例4を示す図である。
情報処理システムの構成の変形例4を示す図である。
情報処理システムの構成の変形例4を示す図である。
情報処理システムの構成の変形例4を示す図である。
次元空間における視野領域動きオブジェクトが表示される例を示す図である。
仮想画像に動きオブジェクトが重畳表示される例を示す図である。
ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明するための図である。
ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明するための図である。
ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明するための図である。
ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明するための図である。
情報処理システムのハードウェア構成例を示すブロック図である。

実施例

0009

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

0010

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

0011

なお、説明は以下の順序で行うものとする。
0.背景
1.本開示の実施形態
1.1.システム構成
1.2.機能構成例
1.3.情報処理システムの機能詳細
1.4.システム構成の変形例
1.5.動きオブジェクトの表示形態
1.6.ユーザのジェスチャの変形例
1.7.ハードウェア構成例
2.むすび

0012

<0.背景>
まず、図面を参照しながら本開示の実施形態の背景を説明する。図1は、一般的なシステムにおける音声認識処理を説明するための図である。以下の説明において、音声(voiceまたはspeech)と音(sound)とは区別して用いられる。また、発話は、ユーザが音声を発している状態を示し、無音は、閾値よりも小さい音量によって音情報が集音されている状態を示す。

0013

図1に示すように、一般的なシステム(以下、単に「システム」とも言う。)は、音声認識処理を開始させるための音声認識開始操作オブジェクトG14を選択する操作がユーザから入力されると、かかる操作を音声認識処理の起動トリガとして検出し、集音開始画面G91を表示する(時刻T91)。集音開始画面G91が表示されると、ユーザは発話を開始し(時刻T92)、システムはマイクロフォンによって集音しつつ、集音された音情報に対する音声認識処理を行う(S91)。

0014

発話区間Haが終了すると(時刻T93)、無音状態が開始される。そして、システムは、マイクロフォンによって集音される音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した区間(以下、「無音区間」とも言う。)Maが検出されると(時刻T94)、発話区間Haにおいて集音された音情報に対して施される音声認識処理の結果に基づいて所定の実行動作を実行する(S92)。

0015

ここで、音声認識処理の結果に基づく実行動作は特に限定されない。例えば、音声認識処理の結果に基づく実行動作は、音声認識処理の結果としての文字列に応じた検索結果を出力させる動作、音声認識処理の結果としての文字列を出力させる動作、音声認識処理の過程において得られた処理結果候補を出力させる動作、音声認識処理の結果の文字列から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含んでよい。

0016

ここで、音声認識処理の結果としての文字列から発話内容を抽出する手法は限定されない。例えば、音声認識処理の結果としての文字列から発話内容を抽出する手法は、音声認識処理の結果としての文字列に対して自然言語処理(例えば、言語解析意味解析など)を施すことによって発話内容が抽出されてよい。

0017

システムは、実行動作の処理中には、実行動作の処理中である旨を示す画面G92を表示する。そして、システムは、実行動作が終了すると(時刻T95)、実行動作の結果を示す画面G93を表示する。図1に示した例においては、実行動作の結果を示す画面G93に、音声認識処理の結果としての文字列に応じた検索結果として、「」「競り」「蹴り」が含まれている。

0018

以上に説明したように、一般的なシステムにおいては、無音区間が検出されるとマイクロフォンによって集音された音情報に対する音声認識処理が一旦停止されてしまう。そのため、発話をしながら発話内容を考えるユーザが存在した場合などには、ユーザが発話内容を考えるために発話を停止させてしまった時間が無音区間として検出されてしまい、ユーザの意図する発話内容の途中までしか音声認識処理の対象とされなくなってしまう可能性がある。

0019

また、発話の最中に発話内容を失念してしまう可能性や、発話以外の作業に突発的に追われる可能性(例えば、自動車運転中に緊急事態に陥る可能性など)もある。そのため、このような理由で発話が停止されてしまった時間が無音区間として検出されてしまい、ユーザの意図する発話内容の途中までしか音声認識処理の対象とされなくなってしまう可能性がある。

0020

また、音声認識処理が一旦停止されてしまい、音声認識処理の結果に基づく実行動作が開始されてしまうと、音声認識処理が再開されたときに続きの発話を開始しても、続きの発話は、既に開始されてしまっている実行動作に反映されない可能性がある。また、実行動作が完了するのを待ち、実行動作の結果を見てから続きの発話をしようとすると、ユーザは、続きの発話内容を忘れやすく、考えついた発話内容を忘れてしまうという機会損失が生じ得る。

0021

また、発話が途切れてしまってから無駄な発話を行うことによって、無音区間の検出を回避することも考えられるが、無駄な発話に対しても音声認識処理が施されてしまう可能性がある。また、無駄な発話に対しても音声認識処理が施されてしまうことによって、無駄な発話に続いて発話された音声認識処理の対象とすべき内容に対する音声認識処理の結果が影響を受けてしまう可能性もある。

0022

このように、一般的なシステムにおいては、マイクロフォンによって集音された音情報から無音区間が検出され、音情報に対する音声認識処理が一旦停止してしまうと、音声認識処理を再度継続させるのが困難となり得る。そこで、本明細書においては、マイクロフォンによって集音された音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能な技術を提案する。

0023

以上、本開示の実施形態の背景を説明した。

0024

<1.本開示の実施形態>
[1.1.システム構成例]
続いて、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、集音部120と、出力部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識処理を行うことが可能である。

0025

画像入力部110は、画像を入力する機能を有する。図2に示した例では、画像入力部110は、テーブルTblに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。

0026

操作入力部115は、ユーザUの操作を入力する機能を有する。図2に示した例では、操作入力部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。

0027

出力部130は、テーブルTblに画面を表示する機能を有する。図2に示した例では、出力部130は、テーブルTblの上方に天井から吊り下げられている。しかし、出力部130が設けられる位置は特に限定されない。また、典型的には、出力部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。

0028

なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよい。あるいは、画面の表示面は、カーテンヒダなどの非平面であってもよいし、他の場所にある面であってもよい。また、出力部130が表示面を有する場合には、画面の表示面は、出力部130が有する表示面であってもよい。

0029

集音部120は、集音する機能を有する。図2に示した例では、集音部120は、テーブルTblの上方に存在する3つのマイクロフォンとテーブルTblの上面に存在する3つのマイクロフォンとの合計6つのマイクロフォンを含んでいる。しかし、集音部120に含まれるマイクロフォンの数は1以上であれば特に限定されない。かかる場合、集音部120に含まれる1以上のマイクロフォンそれぞれが設けられる位置も特に限定されない。

0030

ただし、集音部120が、複数のマイクロフォンを含んでいれば、複数のマイクロフォンそれぞれによって集音された音情報に基づいて音の到来方向推定され得る。また、集音部120が指向性を有するマイクロフォンを含んでいれば、指向性を有するマイクロフォンによって集音された音情報に基づいて音の到来方向が推定され得る。

0031

以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。

0032

[1.2.機能構成例]
続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図3は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図3に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、集音部120と、出力部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。

0033

情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、出力部130から出力する情報を生成する。また、例えば、情報処理装置140は、画像入力部110、操作入力部115および集音部120それぞれが入力した情報を、出力部130から出力する情報に反映させる。図3に示したように、情報処理装置140は、入力画像取得部141と、音情報取得部142と、操作検出部143と、認識制御部144と、音声認識部145と、出力制御部146とを備える。これらの各機能ブロックについての詳細は、後に説明する。

0034

なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。

0035

以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。

0036

[1.3.情報処理システムの機能詳細]
続いて、本開示の実施形態に係る情報処理システム10の機能詳細について説明する。本開示の実施形態においては、認識制御部144が、集音部120から入力される音情報に対して音声認識処理が音声認識部145によって施されるように音声認識部145を制御し、認識制御部144が、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する。

0037

かかる構成によれば、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能となる。どのようなパラメータに基づいて、音声認識処理を継続するか否かを制御するかは特に限定されない。まず、以下では、認識制御部144が、ユーザの視線に基づいて、音声認識処理を継続するか否かを制御する例を説明する。ユーザの視線を検出する手法は、特に限定されない。一例として、操作検出部143は、操作入力部115によって入力された画像を解析することによってユーザの視線を検出することが可能である。視点は、視線と画面との交点として算出され得る。

0038

図4は、初期画面の表示から音声認識処理の起動トリガを検出するまでの画面遷移の例を示す図である。図4を参照すると、出力制御部146は、初期画面G10−1を表示させている。初期画面G10−1には、音声認識処理を開始させるための音声認識開始操作オブジェクトG14、音声認識処理によって得られた文字列(以下、「認識文字列」とも言う。)の表示欄である認識文字列表示欄G11が含まれる。

0039

また、初期画面G10−1には、認識文字列を全部削除するための全削除操作オブジェクトG12、認識文字列を確定するための確定操作オブジェクトG13が含まれる。また、初期画面G10−1には、認識文字列におけるカーソル位置を前に戻すための前方移動操作オブジェクトG15、認識文字列におけるカーソル位置を後ろに進めるための後方移動操作オブジェクトG16、カーソル位置の文字または単語を削除するための削除操作オブジェクトG17が含まれる。

0040

まず、初期画面G10−2に示すように、ユーザによる音声認識開始操作オブジェクトG14を選択する操作が操作入力部115によって入力されると、その操作が音声認識処理の起動トリガとして操作検出部143によって検出される(時刻T10)。出力制御部146は、音声認識処理の起動トリガが検出されると、集音部120による集音機能オンにする。なお、ここでは、音声認識処理の起動トリガとして音声認識開始操作オブジェクトG14を選択する操作を例に挙げて説明するが、音声認識処理の起動トリガは、かかる例に限定されない。

0041

例えば、音声認識処理の起動トリガは、音声認識処理を起動するためのハードウェアボタンを押下する操作であってもよい。このとき、音声認識処理は、ハードウェアボタンの押下開始から押下解除までの間に起動されてもよい(Push To Talk型)。あるいは、音声認識処理の起動トリガは、音声認識処理の起動コマンド(例えば、「音声」という発話など)の実行であってもよい。

0042

あるいは、音声認識処理の起動トリガは、所定の音声認識処理の起動ジェスチャ(例えば、手の振り上げ、手の振り下ろし、顔の動き(例えば、うなずき、左右に顔を傾ける動作など)など)であってもよい。また、音声認識処理の起動トリガは、音声らしさが閾値を上回る音情報が集音部120から取得されたことを含んでもよい。続いて、ユーザは集音部120に向かって発話を開始する。まず、図5を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明する。

0043

集音部120によって集音された音情報が音情報取得部142によって取得されると、図5に示すように、出力制御部146は、所定のオブジェクト(以下、「表示オブジェクト」とも言う。)Muを表示させる。表示オブジェクトMuは、静止していてもよいし、動きを有していてもよい。例えば、表示オブジェクトMuが動きを有する場合、表示オブジェクトMuの移動方向Deは、ユーザによる発話音声音源から集音部120への到来方向に応じて決まってよい。なお、ユーザによる発話音声の到来方向の推定手法も特に限定されない。

0044

例えば、認識制御部144は、音声認識開始操作オブジェクトG14を選択する操作を行ったユーザの指方向(例えば、指の根元から指先への方向)に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。

0045

あるいは、認識制御部144は、集音部120によって入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。音の到来方向が複数あった場合には、複数の到来方向のうち最初に入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよいし、複数の到来方向のうち音声認識開始操作オブジェクトG14を選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の到来方向として推定してもよい。

0046

あるいは、認識制御部144は、複数の到来方向のうち集音部120によって最も大きな音量で入力された音の到来方向をユーザによる発話音声の到来方向として推定してもよい。このようにしてユーザによる発話音声の到来方向が推定され得る。一方において、認識制御部144は、ユーザによる発話音声の到来方向以外の方向から集音部120によって入力された音を雑音として取得してよい。したがって、雑音には、情報処理システム10からの出力音も含まれ得る。

0047

また、図5には、出力制御部146が、ユーザによる発話音声の到来方向(移動方向De)に表示オブジェクトMuを移動させる例が示されている。これによって、ユーザは自分の発話音声が集音部120によって集音されていることを直感的に把握することが可能となる。しかし、表示オブジェクトMuの動きは、かかる動きに限定されない。また、図5には、表示オブジェクトMuの移動先が、音声認識開始操作オブジェクトG14である例が示されている。しかし、表示オブジェクトMuの移動先は、かかる例に限定されない。

0048

また、図5には、出力制御部146が、集音部120による集音に応じて次々出現した円形状の表示オブジェクトMuを移動させる例が示されているが、表示オブジェクトMuの表示態様はかかる例に限定されない。例えば、出力制御部146は、音情報に応じた所定の情報(例えば、音情報の音声らしさ、音量など)に基づいて表示オブジェクトMuの各種パラメータを制御してよい。このときに用いられる音情報は、ユーザによる発話音声の到来方向からの音情報であるとよい。また、表示オブジェクトMuのパラメータは、表示オブジェクトMuの形状、透明度、色、サイズおよび動きのうち、少なくともいずれか一つを含んでもよい。

0049

なお、音情報から音声らしさを評価する手法は特に限定されない。例えば、音情報から音声らしさを評価する手法として、特許文献(特開2010−38943号公報)に記載されている手法を採用することも可能である。また、例えば、音情報から音声らしさを評価する手法として、特許文献(特開2007−328228号公報)に記載されている手法を採用することも可能である。ここでは、音声らしさの評価が、出力制御部146によって行われる例を説明するが、音声らしさの評価は、図示しないサーバによって行われてもよい。

0050

続いて、認識制御部144は、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。音声認識処理を開始させるタイミングは限定されない。例えば、認識制御部144は、音声らしさが所定の閾値を超える音情報が集音されてから、音声認識部145に開始させてもよいし、表示オブジェクトMuが音声認識開始操作オブジェクトG14に到達してから、表示オブジェクトMuに対応する音情報に対する音声認識処理を音声認識部145に開始させてもよい。

0051

ここで、図5に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わり(時刻T11)、無音状態を維持した場合には、認識制御部144は、無音区間を検出する(時刻T12)。そして、出力制御部146は、無音区間が検出された場合に、動きオブジェクトを出力部130に出力させる(時刻T13)。図5に示した例では、出力制御部146は、動きを有する音声認識開始操作オブジェクトG14を動きオブジェクトとして出力させているが、動きオブジェクトは、音声認識開始操作オブジェクトG14とは別に設けられてもよい。

0052

続いて、認識制御部144は、ユーザの視点と動きオブジェクトG14とに基づいて、音声認識処理を継続するか否かを制御する。より具体的には、認識制御部144は、ユーザの視点と動きオブジェクトG14との一致度に基づいて、音声認識処理を継続するか否かを制御する。一致度の詳細については後に説明する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わっているため、ユーザは動きオブジェクトG14を見続けなくてよい。

0053

ユーザが動きオブジェクトG14を見続けないと、動きオブジェクトの軌跡K10とユーザの視点の軌跡K20との一致度は閾値を下回ることとなる。したがって、認識制御部144は、所定のタイミングにおいて双方の一致度が閾値を下回る場合に、音声認識処理の結果に基づく実行動作を実行するように音声認識部145を制御すればよい(時刻T15)。所定のタイミングは、動きオブジェクトG14が出力部130によって出力された後のタイミングであれば特に限定されない。

0054

続いて、音声認識部145は、認識制御部144の制御に従って、音声認識処理の結果に基づく実行動作を実行する(時刻T16)。このとき、出力制御部146は、音声認識処理の結果に基づく実行動作が行われている間、実行動作が終わるまで音声入力待機するように指示するオブジェクトG22を出力させてもよい。実行動作が完了すると、出力制御部146は、実行動作の結果を出力させることが可能である。

0055

続いて、図6を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明する。まず、集音部120によって集音された音情報が音情報取得部142によって取得されると、図6に示すように、出力制御部146は、表示オブジェクトMuを表示させる。表示オブジェクトMuについては既に述べた通りである。続いて、認識制御部144は、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。音声認識処理を開始させるタイミングは上記した通りに特に限定されない。

0056

ここで、図6に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに、無音状態を維持した場合には、認識制御部144は、無音区間を検出する(時刻T12)。そして、出力制御部146は、無音区間が検出された場合に、動きオブジェクトを出力部130に出力させる(時刻T13)。図6に示した例では、出力制御部146は、動きを有する音声認識開始操作オブジェクトG14を動きオブジェクトとして出力させているが、動きオブジェクトは、音声認識開始操作オブジェクトG14とは別に設けられてもよい。

0057

続いて、認識制御部144は、ユーザの視点と動きオブジェクトG14とに基づいて、音声認識処理を継続するか否かを制御する。より具体的には、認識制御部144は、ユーザの視点と動きオブジェクトG14との一致度に基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってはいないため、ユーザは動きオブジェクトG14を見続ける必要がある。

0058

ユーザが動きオブジェクトG14を見続けると、動きオブジェクトの軌跡K10とユーザの視点の軌跡K21との一致度は閾値を上回ることとなる。したがって、認識制御部144は、所定のタイミングにおいて双方の一致度が閾値を上回る場合に、音声認識処理を継続するように音声認識部145を制御すればよい(時刻T15)。所定のタイミングは、動きオブジェクトG14が出力部130によって出力された後のタイミングであれば特に限定されない。

0059

続いて、音声認識部145は、認識制御部144の制御に従って、集音部120から入力される音情報に対する音声認識処理を継続する(時刻T16)。これによって、一旦中止された音声認識処理が再開される。なお、集音部120によって集音された音情報が音情報取得部142によって再度取得され始めると、図6に示すように、出力制御部146は、表示オブジェクトMuを再度表示させ始めてよい。

0060

また、所定のタイミングが到来した場合に、音声認識処理の結果に基づく実行動作が自動的に開始されてしまう場合も想定される。かかる場合に対処するため、音声認識部145は、既に起動していた音声認識処理とは別の音声認識処理を新たに開始して、二つの音声認識処理の結果をマージしてもよいし、音情報をバッファリングしておき、次に音声認識処理を開始可能になったらバッファリングした音情報と集音部120から入力される音情報とに基づいて音声認識処理を行うようにしてもよい。

0061

ここで、ユーザの視点と動きオブジェクトG14との一致度について、図7および図8を参照しながらさらに詳細に説明する。図7は、一致度が閾値を上回っている場合について説明するための図である。図7に示すように、動きオブジェクトの軌跡K10に応じた判定領域R10を想定する。図7に示した例では、判定領域R10は、動きオブジェクトの軌跡K10を基準とした幅W10の領域であるが、判定領域R10はこのような領域に限定されない。

0062

そして、認識制御部144は、ユーザの視点の軌跡K20の全体の長さに対して判定領域R10に収まっているユーザの視点の軌跡K20の長さの割合を一致度として算出すればよい。図7に示した例では、このようにして算出される一致度が閾値を上回るため、認識制御部144は、音声認識処理を継続するように音声認識部145を制御すればよい。しかし、動きオブジェクトの軌跡K10とユーザの視点の軌跡K21との一致度を算出する手法はかかる例に限定されない。

0063

一方、図8は、一致度が閾値を下回っている場合について説明するための図である。図8に示した例では、上記したようにして算出される一致度が閾値を下回るため、認識制御部144は、音声認識処理の結果に基づく実行動作を実行するように音声認識部145を制御すればよい。なお、一致度が閾値と等しい場合には、認識制御部144は、音声認識処理を継続するように音声認識部145を制御してもよいし、音声認識処理の結果に基づく実行動作を実行するように音声認識部145を制御してもよい。

0064

また、このように算出される一致度と閾値との関係は、ユーザによって知覚されるように出力されてもよい。図9は、一致度と閾値との関係の出力例を示す図である。図9に示すように、出力制御部146は、一致度が閾値を上回っている場合には、所定の第1の通知オブジェクトG41を出力部130に出力させてもよい。図9に示した例では、第1の通知オブジェクトG41は、目を開いている様子を表したアイコンであるが、このような例に限定されない。

0065

一方、図9に示すように、出力制御部146は、一致度が閾値を下回っている場合には、第1の通知オブジェクトG41とは異なる所定の第2の通知オブジェクトG42を出力部130に出力させてもよい。図9に示した例では、第2の通知オブジェクトG42は、目を閉じている様子を表したアイコンであるが、このような例に限定されない。なお、出力制御部146は、一致度が閾値を下回る状態が所定時間を超えて継続しているときは、動きオブジェクトG14の出力を停止してもよい。

0066

続いて、図10を参照しながら、本開示の実施形態に係る情報処理システム10の全体的な動作の流れについて説明する。なお、図10のフローチャートは、本開示の実施形態に係る情報処理システム10の全体的な動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム10の全体的な動作の流れは、図10のフローチャートに示された例に限定されない。

0067

まず、図10に示すように、操作検出部143は、音声認識処理の起動トリガを検出し(S11)、認識制御部144は、集音部120から入力される音情報から発話を検出すると(S12)、音情報に対する音声認識処理を音声認識部145に開始させる(S13)。続いて、認識制御部144は、無音区間を検出するまで音声認識処理を継続させるが(S14において「No」)、無音区間が検出された場合には(S14において「Yes」)、音声認識処理を一旦停止し、出力制御部146は、動きオブジェクトを表示させる(S15)。

0068

続いて、認識制御部144は、ユーザの視点の軌跡K20を取得し(S16)、動きオブジェクトの軌跡K10とユーザの視点の軌跡K20との一致度rを算出する(S17)。認識制御部144は、継続判定のタイミングが到来しないうちは(S18において「No」)、S15に動作を移行させるが、継続判定のタイミングが到来した場合には(S18において「Yes」)、S19に動作を移行させる。

0069

続いて、認識制御部144は、一致度rが閾値r_thresholdを上回る場合には(S19において「Yes」)、音声認識処理を継続させるが(S13)、一致度rが閾値r_thresholdを上回らない場合には(S19において「No」)、音声認識処理の結果に基づく実行動作に動作を移行させ(S20)、実行動作の結果を取得する(S21)。

0070

以上、本開示の実施形態に係る情報処理システム10の機能詳細について説明した。

0071

[1.4.システム構成の変形例]
上記においては、出力部130がテーブルTblの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、情報処理システム10のシステム構成は、かかる例に限定されない。以下では、情報処理システム10のシステム構成の変形例について説明する。図11は、情報処理システム10の構成の変形例1を示す図である。図11に示すように、情報処理システム10が携帯端末である場合に、出力部130は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。

0072

また、図12図15は、情報処理システム10の構成の変形例2を示す図である。図12図15に示すように、出力部130は、テレビジョン装置であり、情報処理装置140は、ゲーム機であり、操作入力部115は、ゲーム機を操作するコントローラであってよい。

0073

また、図12に示すように、集音部120および出力部130は、操作入力部115に接続されていてもよい。また、図13に示すように、画像入力部110および集音部120は、情報処理装置140に接続されていてもよい。また、図14に示すように、操作入力部115、集音部120および出力部130は、情報処理装置140に接続されたスマートフォンに備えられていてもよい。また、図15に示すように、集音部120は、テレビジョン装置に備えられていてもよい。

0074

また、図16は、情報処理システム10の構成の変形例3を示す図である。図16に示すように、情報処理装置140は、ゲーム機であり、操作入力部115は、ゲーム機を操作するコントローラであってよい。また、図16に示すように、出力部130、集音部120および画像入力部110は、ユーザの頭部に装着されるウェアラブルデバイスに設けられていてもよい。

0075

また、図17図20は、情報処理システム10の構成の変形例4を示す図である。図17に示すように、情報処理システム10は、自動車に取り付け可能な車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザUによって利用されてもよい。また、図18に示すように、情報処理システム10は、携帯端末に搭載され、自動車を運転中のユーザUによって利用されてもよい。上記したように、携帯端末の種類は特に限定されない。

0076

また、図19に示すように、情報処理システム10のうち、操作入力部115は、携帯端末によって備えられており、出力部130、集音部120および画像入力部110は、ユーザUの身体に装着されるウェアラブルデバイスに設けられていてもよい。また、図20に示すように、情報処理システム10は、自動車に内蔵されている車載向けナビゲーションシステムに搭載され、自動車を運転中のユーザUによって利用されてもよい。

0077

[1.5.動きオブジェクトの表示形態]
上記では、動きオブジェクトG14の表示について説明した。ここで、動きオブジェクトG14の表示形態は特に限定されない。図21は、3次元空間における視野領域に動きオブジェクトG14が表示される例を示す図である。例えば、図21に示すように、出力部130がシースルー型ヘッドマウントディスプレイである場合、出力部130は、3次元空間Reにおける視野領域Viに動きオブジェクトG14を表示させてよい。また、図21には、動きオブジェクトの軌跡K10が示されている。ユーザは、このように表示されている動きオブジェクトG14を見続けることによって、音声認識処理を継続させることが可能となる。

0078

図22は、仮想画像に動きオブジェクトG14が重畳表示される例を示す図である。例えば、図22に示すように、出力部130がテレビジョン装置である場合、出力部130は、ゲーム画面などの仮想画像に対して動きオブジェクトG14を重畳表示させてよい。また、図21には、動きオブジェクトの軌跡K10が示されている。ユーザは、このように表示されている動きオブジェクトG14を見続けることによって、音声認識処理を継続させることが可能となる。なお、テレビジョン装置の代わりに、ユーザの頭部に装着されるウェアラブルデバイスなどが用いられてもよい。

0079

[1.6.ユーザのジェスチャの変形例]
上記では、認識制御部144が、ユーザの視線に基づいて、音声認識処理を継続するか否かを制御する例を説明する例を説明した。しかし、音声認識処理を継続するか否かを制御する例は、かかる例に限定されない。例えば、認識制御部144は、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御してもよい。かかる例について、図23および図24を参照しながら説明する。

0080

なお、図23および図24に示した例において、ユーザは、頭部の傾きを検出することが可能なセンサ(例えば、加速度センサなど)を含んだ操作入力部115を装着している。その他、ユーザは、図23および図24に示すように、集音部120を装着していてもよい。まず、図23を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明する。

0081

出力制御部146は、音声認識処理の起動トリガが検出されると、集音部120による集音機能をオンにし、集音部120によって集音された音情報が音情報取得部142によって取得されると、図23に示すように、出力制御部146は、表示オブジェクトMuを表示させる。続いて、認識制御部144は、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。

0082

ここで、図23に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わり(時刻T11)、無音状態を維持した場合には、認識制御部144は、無音区間を検出する(時刻T12)。そして、出力制御部146は、無音区間が検出された場合に、頭部を所定方向(例えば、上方向)に傾けると音声認識処理を継続させることが可能な旨を示すオブジェクト(例えば、音声認識開始操作オブジェクトG14)を出力部130に出力させる(時刻T13)。

0083

続いて、認識制御部144は、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わっているため、ユーザは頭部を傾けなくてよい。ユーザが頭部を傾けないと、ユーザの頭部の傾きは所定の基準値を下回ることとなる。したがって、認識制御部144は、所定のタイミングにおいてユーザの頭部の傾きが基準値を下回る場合に、音声認識処理の結果に基づく所定の実行動作を実行するように音声認識部145を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

0084

続いて、音声認識部145は、認識制御部144の制御に従って、音声認識処理の結果に基づく実行動作を実行する(時刻T16)。このとき、出力制御部146は、音声認識処理の結果に基づく実行動作が行われている間、実行動作が終わるまで音声入力を待機するように指示するオブジェクトG22を出力させてもよい。実行動作が完了すると、出力制御部146は、実行動作の結果を出力させることが可能である。

0085

続いて、図24を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明する。まず、集音部120によって集音された音情報が音情報取得部142によって取得されると、図24に示すように、出力制御部146は、表示オブジェクトMuを表示させる。続いて、認識制御部144は、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。

0086

ここで、図24に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに、無音状態を維持した場合には、認識制御部144は、無音区間を検出する(時刻T12)。そして、出力制御部146は、無音区間が検出された場合に、頭部を所定方向(例えば、上方向)に傾けると音声認識処理を継続させることが可能な旨を示すオブジェクト(例えば、音声認識開始操作オブジェクトG14)を出力部130に出力させる(時刻T13)。

0087

続いて、認識制御部144は、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってはいないため、ユーザは頭部を所定方向に傾ける必要がある。ユーザが頭部を傾けると、ユーザの頭部の傾きは所定の基準値を上回ることとなる。したがって、認識制御部144は、所定のタイミングにおいてユーザの頭部の傾きが基準値を上回る場合に、音声認識処理を継続するように音声認識部145を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

0088

続いて、音声認識部145は、認識制御部144の制御に従って、集音部120から入力される音情報に対する音声認識処理を継続する(時刻T16)。これによって、一旦中止された音声認識処理が再開される。なお、集音部120によって集音された音情報が音情報取得部142によって再度取得され始めると、図24に示すように、出力制御部146は、表示オブジェクトMuを再度表示させ始めてよい。頭部の傾きが閾値と等しい場合には、認識制御部144は、音声認識処理を継続するように音声認識部145を制御してもよいし、音声認識処理の結果に基づく実行動作を実行するように音声認識部145を制御してもよい。

0089

以上、ユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する一例として、ユーザの頭部の傾きに基づいて、音声認識処理を継続するか否かを制御する例を説明した。ここで、他の例として、認識制御部144は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御してもよい。かかる例について、図25および図26を参照しながら説明する。

0090

なお、図25および図26に示した例において、ユーザは、頭部の動きを検出することが可能なセンサ(例えば、ジャイロセンサなど)を含んだ操作入力部115を装着している。その他、ユーザは、図25および図26に示すように、集音部120を装着していてもよい。まず、図25を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってから無音状態に突入した場合を説明する。

0091

出力制御部146は、音声認識処理の起動トリガが検出されると、集音部120による集音機能をオンにし、集音部120によって集音された音情報が音情報取得部142によって取得されると、図25に示すように、出力制御部146は、表示オブジェクトMuを表示させる。続いて、認識制御部144は、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。

0092

ここで、図25に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わり(時刻T11)、無音状態を維持した場合には、認識制御部144は、無音区間を検出する(時刻T12)。そして、出力制御部146は、無音区間が検出された場合に、頭部を所定方向(例えば、右方向)に回転させると音声認識処理を継続させることが可能な旨を示すオブジェクト(例えば、音声認識開始操作オブジェクトG14)を出力部130に出力させる(時刻T13)。

0093

続いて、認識制御部144は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わっているため、ユーザは頭部を所定方向に回転させなくてよい。ユーザが頭部を右に回転させなければ、ユーザの頭部の動きは所定の動き(所定方向への回転)を示さないことになる。したがって、認識制御部144は、所定のタイミングにおいてユーザの頭部の動きが所定の動きを示さない場合に、音声認識処理の結果に基づく所定の実行動作を実行するように音声認識部145を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

0094

続いて、音声認識部145は、認識制御部144の制御に従って、音声認識処理の結果に基づく実行動作を実行する(時刻T16)。このとき、出力制御部146は、音声認識処理の結果に基づく実行動作が行われている間、実行動作が終わるまで音声入力を待機するように指示するオブジェクトG22を出力させてもよい。実行動作が完了すると、出力制御部146は、実行動作の結果を出力させることが可能である。

0095

続いて、図26を参照しながら、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに無音状態に突入した場合を説明する。まず、集音部120によって集音された音情報が音情報取得部142によって取得されると、図26に示すように、出力制御部146は、表示オブジェクトMuを表示させる。続いて、認識制御部144は、音情報取得部142によって取得された音情報に対する音声認識処理を音声認識部145に開始させる。

0096

ここで、図26に示すように、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わらないうちに、無音状態を維持した場合には、認識制御部144は、無音区間を検出する(時刻T12)。そして、出力制御部146は、無音区間が検出された場合に、頭部を所定方向(例えば、右方向)に回転させると音声認識処理を継続させることが可能な旨を示すオブジェクト(例えば、音声認識開始操作オブジェクトG14)を出力部130に出力させる(時刻T13)。

0097

続いて、認識制御部144は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御する。ここでは、ユーザが音声認識処理を行わせたい発話内容をすべて発話し終わってはいないため、ユーザは頭部を所定方向に回転させる必要がある。ユーザが頭部を所定方向に回転させると、ユーザの頭部の動きは所定の動き(所定方向への回転)を示すこととなる。したがって、認識制御部144は、所定のタイミングにおいてユーザの頭部の動きが所定の動きを示す場合に、音声認識処理を継続するように音声認識部145を制御すればよい。所定のタイミングは、無音区間が検出された後であれば、特に限定されない。

0098

続いて、音声認識部145は、認識制御部144の制御に従って、集音部120から入力される音情報に対する音声認識処理を継続する(時刻T16)。これによって、一旦中止された音声認識処理が再開される。なお、集音部120によって集音された音情報が音情報取得部142によって再度取得され始めると、図26に示すように、出力制御部146は、表示オブジェクトMuを再度表示させ始めてよい。

0099

以上、ユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する一例として、認識制御部144は、ユーザの頭部の動きに基づいて、音声認識処理を継続するか否かを制御する例を説明した。

0100

[1.7.ハードウェア構成例]
次に、図27を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図27は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。

0101

図27に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific IntegratedCircuit)と呼ばれるような処理回路を有してもよい。

0102

CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。

0103

入力装置915は、例えば、マウスキーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。

0104

出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。

0105

ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶デバイス半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

0106

ドライブ921は、磁気ディスク光ディスク光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。

0107

接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。

0108

通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用ルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用モデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信ラジオ波通信または衛星通信などである。

0109

撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

0110

センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ光センサ音センサなどの各種のセンサである。センサ935は、例えば情報処理システム10の筐体姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度経度および高度を測定するGPSセンサを含んでもよい。

0111

以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々技術レベルに応じて適宜変更され得る。

0112

<2.むすび>
以上説明したように、本開示の実施形態によれば、集音部120から入力される音情報に対して音声認識処理が音声認識部145によって施されるように音声認識部145を制御する認識制御部144を備え、認識制御部144は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する、情報処理システム10が提供される。かかる構成によれば、音情報に対する音声認識処理を継続させるか否かをユーザが容易に指示することが可能となる。

0113

また、上記したように、一般的なシステムにおいては、マイクロフォンによって集音された音情報から無音区間が検出され、音情報に対する音声認識処理が一旦停止してしまうと、音声認識処理を再度継続させるのが困難となり得る。一方、本開示の実施形態によれば、集音部120によって集音された音情報から無音区間が検出され、音情報に対する音声認識処理が一旦停止してしまっても、ユーザのジェスチャによって音声認識処理を再度容易に継続させることが可能となる。

0114

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

0115

例えば、上記においては、情報処理システム10のシステム構成例およびシステム構成の変形例を説明したが、情報処理システム10のシステム構成例は、これらの例に限定されない。例えば、出力部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計眼鏡など)に備わるディスプレイであってもよい。また、例えば、出力部130は、ヘルスケア分野において利用されるディスプレイであってもよい。

0116

また、上記においては、ユーザのジェスチャに基づいて音声認識処理を継続するか否かを制御する例として、ユーザの視線、ユーザの頭部の傾きおよびユーザの頭部の動きに基いて音声認識処理を継続するか否かを制御する例を説明した。しかし、ユーザのジェスチャは、かかる例に限定されない。例えば、ユーザのジェスチャは、ユーザの表情であってもよいし、ユーザのの動きであってもよいし、ユーザの唇の形状であってもよいし、ユーザの目の開閉状態であってもよい。

0117

また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理装置140が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

0118

また、出力制御部146は、出力部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を出力部130に出力することで、当該表示内容が出力部130に表示されるように出力部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。

0119

具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。

0120

なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115および集音部120と出力部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115および集音部120と出力部130とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。

0121

また、情報処理装置140が有するすべての構成要素が同一の装置に収まっていなくてもよい。例えば、入力画像取得部141と、音情報取得部142と、操作検出部143と、認識制御部144と、音声認識部145と、出力制御部146とのうち、一部は情報処理装置140とは異なる装置に存在していてもよい。例えば、音声認識部145は、入力画像取得部141と、音情報取得部142と、操作検出部143と、認識制御部144と、出力制御部146とを備える情報処理装置140とは異なるサーバに存在していてもよい。

0122

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。

0123

なお、以下のような構成も本開示の技術的範囲に属する。
(1)
集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御する認識制御部を備え、
前記認識制御部は、所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御する、
情報処理システム。
(2)
前記認識制御部は、前記ユーザの視線に基づいて、前記音声認識処理を継続するか否かを制御する、
前記(1)に記載の情報処理システム。
(3)
前記認識制御部は、前記ユーザの視点と動きオブジェクトとに基づいて、前記音声認識処理を継続するか否かを制御する、
前記(2)に記載の情報処理システム。
(4)
前記認識制御部は、前記ユーザの視点と前記動きオブジェクトとの一致度に基づいて、前記音声認識処理を継続するか否かを制御する、
前記(3)に記載の情報処理システム。
(5)
前記認識制御部は、前記一致度が閾値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
前記(4)に記載の情報処理システム。
(6)
前記認識制御部は、前記一致度が前記閾値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
前記(5)に記載の情報処理システム。
(7)
前記情報処理システムは、前記動きオブジェクトを出力部に出力させる出力制御部を備える、
前記(4)〜(6)のいずれか一項に記載の情報処理システム。
(8)
前記出力制御部は、前記音声認識処理が開始されてから前記音情報の音量が継続して基準音量を下回る継続時間が所定の目標時間に達した場合に、前記動きオブジェクトを前記出力部に出力させる、
前記(7)に記載の情報処理システム。
(9)
前記所定のタイミングは、前記動きオブジェクトが前記出力部によって出力された後のタイミングである、
前記(7)または(8)に記載の情報処理システム。
(10)
前記出力制御部は、前記一致度が閾値を上回っている場合には、所定の第1の通知オブジェクトを前記出力部に出力させる、
前記(7)〜(9)のいずれか一項に記載の情報処理システム。
(11)
前記出力制御部は、前記一致度が前記閾値を下回っている場合には、前記第1の通知オブジェクトとは異なる所定の第2の通知オブジェクトを前記出力部に出力させる、
前記(10)に記載の情報処理システム。
(12)
前記認識制御部は、前記ユーザの頭部の傾きに基づいて、前記音声認識処理を継続するか否かを制御する、
前記(1)に記載の情報処理システム。
(13)
前記認識制御部は、前記ユーザの頭部の傾きが所定の基準値を上回る場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
前記(12)に記載の情報処理システム。
(14)
前記認識制御部は、前記ユーザの頭部の傾きが前記基準値を下回る場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
前記(13)に記載の情報処理システム。
(15)
前記認識制御部は、前記ユーザの頭部の動きに基づいて、前記音声認識処理を継続するか否かを制御する、
前記(1)に記載の情報処理システム。
(16)
前記認識制御部は、前記ユーザの頭部の動きが所定の動きを示す場合に、前記音声認識処理を継続するように前記音声認識部を制御する、
前記(15)に記載の情報処理システム。
(17)
前記認識制御部は、前記ユーザの頭部の動きが前記所定の動きを示さない場合に、前記音声認識処理の結果に基づく所定の実行動作を実行するように前記音声認識部を制御する、
前記(16)に記載の情報処理システム。
(18)
前記認識制御部は、前記音声認識処理の起動トリガが検出された場合に、前記音声認識処理を前記音声認識部に開始させる、
前記(1)〜(17)のいずれか一項に記載の情報処理システム。
(19)
前記実行動作は、前記音声認識処理の結果に応じた検索結果を出力させる動作、前記音声認識処理の結果を出力させる動作、前記音声認識処理の過程において得られた処理結果候補を出力させる動作および前記音声認識処理の結果から抽出される発話内容に返答するための文字列を出力させる動作のいずれか一つを含む、
前記(6)に記載の情報処理システム。
(20)
集音部から入力される音情報に対して音声認識処理が音声認識部によって施されるように前記音声認識部を制御することを含み、
プロセッサにより所定のタイミングにおいて検出されたユーザのジェスチャに基づいて前記音声認識処理を継続するか否かを制御することを含む、
情報処理方法。

0124

10情報処理システム
110画像入力部
115操作入力部
120集音部
130 出力部
140情報処理装置(制御部)
141入力画像取得部
142音情報取得部
143操作検出部
144 認識制御部
145音声認識部
146出力制御部
G10初期画面
G11認識文字列表示欄
G12 全削除操作オブジェクト
G13確定操作オブジェクト
G14 音声認識開始操作オブジェクト(動きオブジェクト)
G15前方移動操作オブジェクト
G16後方移動操作オブジェクト
G17 削除操作オブジェクト
K10 動きオブジェクトの軌跡
K20、K21 ユーザの視点の軌跡
G41 第1の通知オブジェクト
G42 第2の通知オブジェクト
r 一致度

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 京セラ株式会社の「 電子機器、制御方法、及びプログラム」が 公開されました。( 2020/10/29)

    【課題】操作性を向上させた電子機器、制御方法、及びプログラムを提供する。【解決手段】電子機器1は、自機器に接触されないジェスチャを検出する第1センサ(近接センサ18)と、自機器に接触されるタッチを検出... 詳細

  • クリスタルメソッド株式会社の「 推定システム、及び推定装置」が 公開されました。( 2020/10/29)

    【課題】キー入力を推定する精度の向上を図ることができる推定システム、及び推定装置を提供する。【解決手段】仮想キーボードを用いて入力された文字列を推定する推定システムであって、ユーザが前記仮想キーボード... 詳細

  • 京セラ株式会社の「 電子機器、制御方法、及びプログラム」が 公開されました。( 2020/10/29)

    【課題】移動体の運転の安全性を向上可能な電子機器、制御方法、及びプログラムを提供する。【解決手段】自動車に搭載可能な電子機器は、自機器に触れられずにジェスチャを検出する第1センサと、自機器に接触される... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ