図面 (/)

技術 音声対話制御装置、音声対話制御装置の制御方法、および音声対話装置

出願人 シャープ株式会社
発明者 本村暁
出願日 2015年1月8日 (4年9ヶ月経過) 出願番号 2015-002569
公開日 2016年7月11日 (3年3ヶ月経過) 公開番号 2016-126294
状態 特許登録済
技術分野 音声認識 音声の分析・合成
主要キーワード 動作候補 修正要否 平均待機 可動部位 応答生成処理 動作属性 修正テーブル 修正条件
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年7月11日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

ユーザとのコミュニケーションの柔軟性を向上させる音声対話制御装置、音声対話制御装置の制御方法及び音声対話装置を提供する。

解決手段

音声対話装置10の制御部1は、音声を取得してから応答を生成するまでの待機時間に、応答の修正要否を判定するための修正条件が満たされたと判定したとき、生成した応答を修正する修正実行部22を備える。

概要

背景

ユーザの発話に対して音声や動作で応答することで、ユーザと対話する音声対話装置ロボット)が、従来から広く研究されている。ここで、ユーザと音声対話装置の対話においては、ユーザが発話してから、音声対話装置が当該発話の内容に応じた応答をするまでにある程度の時間を要する。この時間に音声対話装置が何も動作しないと、ユーザが音声対話装置とのコミュニケーションにおいてストレス感じる可能性がある。この問題に対する解決策として、例えば、下記の特許文献1には、サーバからの回答を受信するまでの待機時間を予測して、必要であれば待機時間を埋める動作(場つなぎ動作)を実行する技術が開示されている。

概要

ユーザとのコミュニケーションの柔軟性を向上させる音声対話制御装置、音声対話制御装置の制御方法及び音声対話装置を提供する。音声対話装置10の制御部1は、音声を取得してから応答を生成するまでの待機時間に、応答の修正要否を判定するための修正条件が満たされたと判定したとき、生成した応答を修正する修正実行部22を備える。

目的

本発明は、上記の問題に鑑みてなされたものであり、その目的は、応答を修正すべき状況で応答を修正することで、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させる音声対話制御装置などを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成部と、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定部と、上記判定部が、上記修正条件が満たされたと判定したとき、上記応答生成部が生成した上記応答を修正した修正応答を生成する修正部と、上記修正部が生成した上記修正応答を上記音声対話装置に実行させる応答実行部と、を備えることを特徴とする音声対話制御装置

請求項2

上記待機時間を計測する待機時間計測部をさらに備え、上記判定部は、上記待機時間計測部が計測した待機時間が所定の時間を超えるとき、上記修正条件が満たされたと判定することを特徴とする請求項1に記載の音声対話制御装置。

請求項3

上記修正部は、上記待機時間に対応する時間情報対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正することを特徴とする請求項2に記載の音声対話制御装置。

請求項4

上記待機時間を予測する待機時間予測部をさらに備え、上記判定部は、上記待機時間予測部が予測した予測待機時間が所定の時間を超えるとき、上記修正条件が満たされたと判定することを特徴とする請求項1に記載の音声対話制御装置。

請求項5

上記待機時間に上記音声対話装置に実行させる場つなぎ動作を決定する場つなぎ動作決定部をさらに備え、上記判定部は、上記場つなぎ動作決定部が、上記場つなぎ動作として上記音声対話装置に音声の出力および身振りの少なくとも一方を行わせることを決定したとき、上記修正条件が満たされたと判定することを特徴とする請求項1に記載の音声対話制御装置。

請求項6

音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成ステップと、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定ステップと、上記判定ステップにて、上記修正条件が満たされたと判定したとき、上記応答生成ステップにて生成した上記応答を修正した修正応答を生成する修正ステップと、上記修正ステップにて生成した上記修正応答を上記音声対話装置に実行させる応答実行ステップと、を含むことを特徴とする音声対話制御装置の制御方法

請求項7

請求項1から5のいずれか1項に記載の音声対話制御装置を備えることを特徴とする音声対話装置。

技術分野

0001

本発明は、ユーザの発話に対して応答する音声対話装置を制御するための音声対話制御装置に関する。

背景技術

0002

ユーザの発話に対して音声や動作で応答することで、ユーザと対話する音声対話装置(ロボット)が、従来から広く研究されている。ここで、ユーザと音声対話装置の対話においては、ユーザが発話してから、音声対話装置が当該発話の内容に応じた応答をするまでにある程度の時間を要する。この時間に音声対話装置が何も動作しないと、ユーザが音声対話装置とのコミュニケーションにおいてストレス感じる可能性がある。この問題に対する解決策として、例えば、下記の特許文献1には、サーバからの回答を受信するまでの待機時間を予測して、必要であれば待機時間を埋める動作(場つなぎ動作)を実行する技術が開示されている。

先行技術

0003

特開2014−191030号公報(2014年10月06日公開
特開2003−330923号公報(2003年11月21日公開)

発明が解決しようとする課題

0004

しかしながら、上記の特許文献1および2に記載の技術では、場つなぎ動作の実行の有無に関わらず、ユーザが同じ内容の音声を発した場合の応答は画一的である。例えば「今日の天気は何?」というユーザの質問に対してすぐに応答した場合と、場つなぎ動作を実行した後で(時間を要して)応答した場合とで、同じ「晴れだよ」という応答を実行している。つまり、従来の技術では、応答までに時間を要したなどの通常と異なる応答をすべき状況で、音声対話装置は画一的な応答しかできないという問題があった。

0005

本発明は、上記の問題に鑑みてなされたものであり、その目的は、応答を修正すべき状況で応答を修正することで、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させる音声対話制御装置などを提供することにある。

課題を解決するための手段

0006

上記の課題を解決するために、本発明の一態様に係る音声対話制御装置は、音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成部と、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定部と、上記判定部が、上記修正条件が満たされたと判定したとき、上記応答生成部が生成した上記応答を修正した修正応答を生成する修正部と、上記修正部が生成した上記修正応答を上記音声対話装置に実行させる応答実行部と、を備える。

0007

また、上記の課題を解決するために、本発明の一態様に係る音声対話制御装置の制御方法は、音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成ステップと、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定ステップと、上記判定ステップにて、上記修正条件が満たされたと判定したとき、上記応答生成ステップにて生成した上記応答を修正した修正応答を生成する修正ステップと、上記修正ステップにて生成した上記修正応答を上記音声対話装置に実行させる応答実行ステップと、を含む。

発明の効果

0008

本発明の一態様によれば、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させるという効果を奏する。

図面の簡単な説明

0009

本発明の実施形態1に係る音声対話装置の構成を示すブロック図である。
図1に示す音声対話装置の記憶部に記憶されている応答修正テーブルデータ構造およびデータ例を示す図である。
図1に示す音声対話制御装置が実行する応答実行処理の流れの一例を示すフローチャートである。
本発明の実施形態2に係る音声対話装置の構成を示すブロック図である。
図4に示す音声対話装置の記憶部に記憶されている呼びかけ属性テーブルのデータ構造およびデータ例を示す図である。
図4に示す音声対話装置の記憶部に記憶されている応答修正テーブルのデータ構造およびデータ例を示す図である。
図4に示す音声対話制御装置が実行する応答実行処理の流れの一例を示すフローチャートである。
本発明の実施形態3に係る音声対話装置の構成を示すブロック図である。
図8に示す音声対話装置の記憶部に記憶されている場つなぎ動作テーブルのデータ構造およびデータ例を示す図である。
図8に示す音声対話制御装置が実行する応答実行処理の流れの一例を示すフローチャートである。
図10に示すフローチャートにおける場つなぎ動作決定処理の流れの一例を示すフローチャートである。

実施例

0010

〔実施形態1〕
本発明の一実施形態(実施形態1)について図1から図4に基づいて説明すると以下のとおりである。

0011

まず、図1に基づいて、本実施形態に係る音声対話装置10について説明する。図1は、本実施形態に係る音声対話装置10の構成を示すブロック図である。

0012

音声対話装置10は、ユーザの発話に対して音声や動作で応答することで、ユーザと対話する装置である。なお、音声対話装置10の具体例としては人型ロボットが挙げられるが、これに限定されるものではない。例えば、音声対話装置10の他の具体例として、スマートフォンなどの音声対話機能付きの携帯端末や、音声対話機能付きのカーナビゲーションシステムなどが挙げられる。図1に示すように、音声対話装置10は、音声対話制御装置を制御部1として備えている。なお、音声対話装置10と音声対話制御装置とは別体であってもよい。また、音声対話装置10は、上記制御部1(音声対話制御装置)の他に、音声入力部2、通信部3、音声出力部4、駆動部5、および記憶部6を備えている。

0013

音声入力部2はユーザが発した音声を取得するいわゆるマイクである。音声入力部2は、取得した音声を音声データに変換し、後述する音声認識部13に出力する(図1においてはd2で示している)。また、音声入力部2は、音声を取得した旨を後述する待機時間計測部11に通知する(図1においてはd1で示している)。通信部3は音声対話装置10が外部機器と通信を行う。具体的には、通信部3は、後述する応答生成部14によって制御されて、外部機器から応答生成に必要なデータを受信する。例えば通信部3は、天気予報に関するデータを管理する天気予報サーバ(不図示)から、明日の天気に関するデータを取得し、応答生成部14に出力する。音声出力部4は音声を出力するいわゆるスピーカである。具体的には、音声出力部4は、ユーザが発した音声に対する応答としての音声を出力する。駆動部5は音声対話装置10(人型ロボット)における頭部や脚部などの可動部位を駆動させるものであり、例えばサーボモータである。なお、サーボモータ以外のアクチュエータを用いてもよい。具体的には、駆動部5は、ユーザが発した音声に対する応答としての動作を、可動部位を駆動させることで音声対話装置10に行わせる。なお、音声対話装置10がスマートフォンなどの可動部位を有しない装置である場合、駆動部5は省略されてもよい。記憶部6は、音声対話装置10にて使用される各種データを記憶する。記憶部6は少なくとも、応答修正テーブル61を記憶している。なお、応答修正テーブル61の詳細については後述する。

0014

制御部1は、音声対話装置10が備える各部を統括制御する。制御部1は、待機時間計測部11、応答修正部12、音声認識部13、応答生成部14、および応答実行部15を含んでいる。

0015

待機時間計測部11は、ユーザが発した音声を取得してから、当該音声に対する応答を生成するまでの待機時間を計測する。具体的には、待機時間計測部11は音声入力部2から音声を取得した旨を通知されると、タイマ(不図示)による時間の計測を開始する。また、待機時間計測部11は、応答生成部14から応答情報の生成が完了した旨の通知を受けると、タイマによる時間の計測を終了する。そして、計測した時間Taを応答修正部12に出力する。

0016

応答修正部12は、応答生成部14が生成した応答情報を修正して修正応答を生成する。応答修正部12は、修正要否判定部21(判定部)および修正実行部22(修正部)を含む。

0017

修正要否判定部21は、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能になるまでの待機時間に応答の修正要否を判定するための修正条件が満たされたか否かを判定する。具体的には、修正要否判定部21は、待機時間計測部11から受け取った時間(待機時間計測部11が計測した時間)が、所定の値より大きいか否かを判定する。そして、判定結果を修正実行部22に出力する。なお、所定の値は、応答情報の生成が長引いたと判断されるような時間の値(例えば3秒など)である。

0018

修正実行部22は、上記修正条件が満たされたと判定されたとき、応答生成部14が生成した応答情報を修正する。具体的には、修正実行部22は、修正要否判定部21から受け取った判定結果が、待機時間計測部11から受け取った時間が所定の値より大きいことを示しているとき、記憶部6に記憶されている応答修正テーブル61を用いて、応答生成部14から受け取った応答情報を修正する。

0019

ここで、図2を参照して、応答修正テーブル61の詳細について説明する。図2は、記憶部6に記憶されている応答修正テーブル61のデータ構造およびデータ例を示す図である。なお、図2に示す応答修正テーブル61は一例であり、データ構造およびデータ例を図2の例に限定するものではない。応答修正テーブル61は、応答情報の生成に要した時間、すなわち待機時間を示す情報(時間情報、以降、待機時間と称する)と、応答情報に付加する付加応答の内容(修正内容)を示す情報(修正内容情報、以降、付加応答情報)とを対応付けたテーブルである。つまり、応答修正テーブル61は、待機時間計測部11が計測した時間に応じて、異なる付加応答情報が対応付けられたテーブルである。なお、「待機時間」のカラムには、「4〜7秒」などの時間の範囲を示す情報が格納されてもよい。

0020

より具体的には、修正実行部22は、応答修正テーブル61を参照して、待機時間計測部11から受け取った時間と合致する(対応する)待機時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、受け取った応答情報に付加することで、応答情報を修正する。例えば、「晴れだよ」と発話する応答を示す応答情報(音声データ)を受け取っており、また、受け取った時間が5秒である場合、修正実行部22は、図2に示すNo.1またはNo.2の付加応答情報のいずれかを応答情報を修正するための付加応答情報として決定する。このように、対応付けられた待機時間が合致する付加応答情報が複数ある場合、修正実行部22は、ランダムに1つを選択すればよい。なおここでは、No.1の付加応答情報が選択されたものとする。修正実行部22は、「晴れだよ」と発話するための音声データを「お待たせ。晴れだよ」と発話する音声データに修正する。そして、修正実行部22は、修正した応答情報(上記の例の場合、音声データ)を応答実行部15に出力する。なお、受け取った時間と「待機時間」のカラムに格納された時間とが完全に合致しなくてもよく、格納された待機時間を含む所定の範囲内に、受け取った時間が含まれているときに、当該待機時間に対応付けられた付加応答情報を応答情報に付加してもよい。

0021

一方、修正実行部22は、修正要否判定部21から受け取った判定結果が、待機時間が所定の値以下であることを示しているとき、応答生成部14から受け取った応答情報を修正せず、そのまま応答実行部15に出力する。

0022

音声認識部13は、音声入力部2から受け取った音声データについて、音声認識処理を行う。なお、音声認識処理については既存の技術を利用することができる。音声認識部13は、受け取った音声データの音声認識結果を応答生成部14に出力する。

0023

応答生成部14は、ユーザが発した音声に対する応答を示す応答情報を生成する。この応答には、音声の出力、音声対話装置10の可動部位の動作、並びに、音声の出力および可動部位の動作の3種類がある。応答生成部14による応答情報の生成には既存の技術を利用することができる。例えば、記憶部6に認識した音声データの内容と応答内容とを対応付けたテーブル(不図示)を格納しておき、当該テーブルを参照することで応答情報を生成してもよい。また、応答生成部14は、応答情報の生成に、明日の天気の情報などの外部データを用いる必要がある場合、通信部3を制御して当該データを取得する。応答生成部14は、生成した応答情報(音声出力用の音声データや、可動部位を動作させるためのアクションデータなど)を応答修正部12(修正実行部22)に出力する(図1においてはd4で示している)。また、応答生成部14は、応答情報の生成が完了した旨を待機時間計測部11に通知する(図1においてはd3で示している)。

0024

応答実行部15は、応答生成部14が生成し、必要に応じて応答修正部12が修正した応答情報に応じて応答を実行する。具体的には、応答実行部15は、応答修正部12(修正実行部22)から応答情報を受け取り、当該応答情報が示す動作を音声対話装置10に実行させる。例えば、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10の可動部位を動作させたりする。

0025

次に、図3に基づいて、制御部1が実行する応答実行処理の流れについて説明する。図3は、制御部1が実行する応答実行処理の流れの一例を示すフローチャートである。

0026

まず、音声入力部2は音声の入力を待機している(S1)。音声入力部2は、ユーザが発した音声を取得すると(S1でYES)、取得した音声を音声データに変換し、当該音声データを音声認識部13に出力する。また、音声入力部2は、音声を取得した旨を待機時間計測部11に通知する。

0027

続いて待機時間計測部11は、音声を取得した旨の通知を受けると、時間の計測を開始する(S2)。また、音声認識部13は受け取った音声データについて音声認識処理を行う(S3)。音声認識部13は、音声認識結果を応答生成部14に出力する。続いて、応答生成部14は、受け取った音声認識結果に応じて、応答情報を生成する(S4、応答生成ステップ)。そして、応答生成部14は、応答情報を生成した旨を待機時間計測部11に通知する。また、応答生成部14は、生成した応答情報を修正実行部22に出力する。続いて、待機時間計測部11は、応答生成部14からの通知を受けると、時間の計測を終了する(S5)。そして、計測結果(計測した時間Ta)を修正要否判定部21に出力する。

0028

修正要否判定部21は、待機時間計測部11から受け取った時間Taが所定の値より大きいか否かを判定する(S6、判定ステップ)。そして、修正要否判定部21は、判定結果を修正実行部22に出力する。

0029

時間Taが所定の値より大きいと判定された場合(S6でYES)、修正実行部22は当該判定結果を受け取ると、時間Taに応じた付加応答を特定し、応答情報を修正する(S7、修正ステップ)。具体的には、修正実行部22は、記憶部6に記憶されている応答修正テーブル61を参照して、受け取った時間Taと合致する待機時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、応答生成部14から受け取った応答情報に付加することで、応答情報を修正する。そして、修正実行部22は、修正した応答情報を応答実行部15に出力する。

0030

これに対して、時間Taが所定の値以下であると判定された場合(S6でNO)、修正実行部22は当該判定結果を受け取ると、応答生成部14から受け取った応答情報を修正することなく、応答実行部15に出力する。つまり、上述したステップS7の処理が省略される。

0031

最後に、応答実行部15は音声対話装置10に応答を実行させる(S8、応答実行ステップ)。具体的には、応答実行部15は、受け取った応答情報に応じて、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10の可動部位を動作させたりする。以上で、応答実行処理は終了する。

0032

〔実施形態2〕
本発明の他の実施形態(実施形態2)について、図4図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

0033

本実施形態では、待機時間計測部11から受け取った時間と「待機時間」のカラムに格納された待機時間とが合致する付加応答情報を特定する前に、音声入力部2から入力された音声(音声データ)の属性と、付加応答情報の属性とが合致する付加応答情報を特定する例について説明する。

0034

まず、図4に基づいて、本実施形態に係る音声対話装置10aについて説明する。図4は、本実施形態に係る音声対話装置10aの構成を示すブロック図である。音声対話装置10aは、実施形態1に係る音声対話装置10と比較して、制御部1に代えて制御部1aを備え、記憶部6に代えて記憶部6aを備えている。本実施形態では、制御部1aは、実施形態1に係る制御部1と比較して、応答修正部12に代えて応答修正部12aを含み、音声認識部13に代えて音声認識部13a(音声属性特定部)を含む。また、記憶部6aは、実施形態1に係る記憶部6と比較して、応答修正テーブル61に代えて応答修正テーブル61aを記憶している。また、記憶部6aは新たに呼びかけ属性テーブル62を記憶している。

0035

音声認識部13aは、音声入力部2から受け取った音声データについて、音声認識処理を行い、音声認識結果を応答生成部14に出力する(図4においてはd5で示している)。また、音声認識部13aは音声データに属性を付与する。具体的には、音声認識部13aは、音声認識を行った後、記憶部6aに記憶されている呼びかけ属性テーブル62を参照する。

0036

ここで、図5を参照して、呼びかけ属性テーブル62の詳細について説明する。図5は記憶部6aに記憶されている呼びかけ属性テーブルのデータ構造およびデータ例を示す図である。なお、図5に示す呼びかけ属性テーブル62は一例であり、データ構造およびデータ例を図5の例に限定するものではない。呼びかけ属性テーブル62は、図5の(a)に示すように、音声認識結果と呼びかけ属性とを対応付けたテーブルである。換言すれば、呼びかけ属性テーブル62は、音声認識結果に基づいて音声データの呼びかけ属性を特定するためのテーブルである。「呼びかけ」のカラムには、音声認識結果、すなわちユーザが発した音声をテキストデータにした情報が格納されている。また、「呼びかけ属性」のカラムには、当該音声の内容のカテゴリを示す呼びかけ属性(音声属性)が格納されている。音声認識部13aは、音声認識結果を用いて呼びかけ属性テーブル62を参照し、音声データの呼びかけ属性を特定する。そして、特定した呼びかけ属性を修正実行部22aに出力する(図4においてはd6で示している)。例えば、音声認識の結果、音声データが「今日の天気はなに?」であった場合、音声認識部13aは、当該音声データの呼びかけ属性として、「質問」および「天気」を修正実行部22aに出力する。

0037

なお、呼びかけ属性テーブル62は図5の(b)に示すようなものであってもよい。つまり、「呼びかけ」のカラムにはユーザが発した音声の中に含まれるキーワードが格納されており、キーワードそれぞれに呼びかけ属性が対応付けられているものであってもよい。この場合、音声認識部13aは音声データに含まれるキーワードに対応付けられている呼びかけ属性をすべて特定し、特定した呼びかけ属性を修正実行部22aに出力する。

0038

応答修正部12aは、応答生成部14が生成した応答情報を修正する。応答修正部12aは、修正要否判定部21および修正実行部22aを含む。なお、修正要否判定部21については、実施形態1にて既に説明したため、ここでの説明を省略する。

0039

修正実行部22aは、応答生成部14が生成した応答情報を修正する。具体的には、修正実行部22aは、修正要否判定部21から受け取った判定結果が、待機時間計測部11から受け取った時間が所定の値より大きいことを示しているとき、記憶部6に記憶されている応答修正テーブル61aを用いて、応答を修正する。

0040

ここで、図6を参照して、応答修正テーブル61aの詳細について説明する。図6は、記憶部6aに記憶されている応答修正テーブル61aのデータ構造およびデータ例を示す図である。応答修正テーブル61aでは、待機時間と付加応答情報とに、さらに付加応答情報が示す付加応答の内容のカテゴリを示す付加応答属性が対応付けられている。「付加応答属性」のカラムには、上述した付加応答属性が格納されている。「質問」という付加応答属性は、当該付加応答属性に対応付けられた付加応答情報が示す付加応答が、質問に対する回答を示す応答への付加に適していることを示す。また、「全て」という付加応答属性は、当該付加応答属性に対応付けられた付加応答情報が示す付加応答が、応答の内容を問わず、全ての応答への付加に適していることを示す。

0041

より具体的には、修正実行部22aは、修正要否判定部21から受け取った判定結果が、待機時間計測部11から受け取った時間が所定の値より大きいことを示しているとき、まず、音声認識部13aから受け取った呼びかけ属性と合致する付加応答属性を、応答修正テーブル61aから特定する。なお、修正実行部22aは「全て」の他に、呼びかけ属性と合致する付加応答属性がある場合は、当該付加応答属性と対応付けられた付加応答情報のみを特定する。そして、修正実行部22aは、特定した付加応答属性に対応付けられた付加応答情報の中から、待機時間計測部11から受け取った時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、受け取った応答情報に付加することで、応答情報を修正する。

0042

例えば、応答生成部14から「晴れだよ」と発話する応答を示す応答情報(音声データ)を受け取っており、音声認識部13aから、「質問」および「天気」という呼びかけ属性を受け取っており、また、受け取った時間が5秒である場合、修正実行部22aは、まず受け取った「質問」という呼びかけ属性と合致するNo.1およびNo.3の付加応答情報を特定する。そして、受け取った時間と、付加応答情報に対応付けられた応答生成処理時間とが合致する、No.1の付加応答情報を、応答情報を修正するための付加応答情報として決定する。そして、修正実行部22aは、「晴れだよ」と発話するための音声データを「お待たせ。晴れだよ」と発話する音声データに修正する。なお、上述した例では、複数の呼びかけ属性を受け取っている場合は、当該呼びかけ属性の少なくとも1つと合致する付加応答属性が対応付けられている付加応答情報を特定していたが、これに限定されず、複数の呼びかけ属性と完全に合致する付加応答属性が対応付けられている付加応答情報を特定してもよい。

0043

次に、図7に基づいて、制御部1aが実行する応答実行処理の流れについて説明する。図7は、制御部1aが実行する応答実行処理の流れの一例を示すフローチャートである。なおここでは、実施形態1にて説明した応答実行処理と異なる点のみを説明する。具体的には、ステップS11からステップS13、ステップS15からステップS17、およびステップS20についてはそれぞれ、図3のフローチャートのステップS1からステップS3、ステップS4からステップS6、およびステップS8と同様であるためここでの説明を省略する。

0044

音声認識部13aは、音声認識処理を行った後、認識した音声の呼びかけ属性を特定する(S14)。具体的には、音声認識部13aは、音声認識結果を用いて呼びかけ属性テーブル62を参照し、音声データの呼びかけ属性を特定する。そして、特定した呼びかけ属性を修正実行部22aに出力する。

0045

時間Taが所定の値より大きいと判定された場合(S17でYES)、修正実行部22は当該判定結果を受け取ると、音声認識部13aから受け取った呼びかけ属性と一致する付加応答属性と対応付けられた付加応答情報を特定する(S18)。具体的には、修正実行部22は記憶部6に記憶されている応答修正テーブル61aを参照して、呼びかけ属性と一致する付加応答属性と対応付けられた付加応答情報を特定する。そして、特定した付加応答情報の中から、時間Taに応じた付加応答情報をさらに特定し、応答を修正する(S19)。そして、修正実行部22は、修正した応答情報を応答実行部15に出力する。

0046

なお、時間Taが所定の値以下であると判定された場合(S17でNO)、修正実行部22は当該判定結果を受け取ると、応答生成部14から受け取った応答情報を修正することなく、応答実行部15に出力する。つまり、ステップS18およびステップS19の処理が省略される。

0047

また本実施形態では、音声認識部13aが、音声入力部2から受け取った音声データの呼びかけ属性を特定する例を説明した。これに対して、応答生成部14a(不図示)が、生成した応答情報の応答属性を特定してもよい。具体的には、記憶部6aには呼びかけ属性テーブル62に代えて、応答情報と応答属性とを対応付けたテーブルである応答属性テーブル62a(不図示)が記憶されており、応答生成部14aは、生成した応答情報を用いて、応答属性テーブル62aから応答属性を特定する。そして、生成した応答情報と特定した応答属性とを対応付けて、修正実行部22aに出力する。

0048

〔実施形態3〕
本発明のさらに別の実施形態(実施形態3)について、図8図11に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

0049

上述した実施形態1および2では、待機時間計測部11が計測した時間が、所定の値より大きいか否かを判定することで、応答を修正するか否かを決定していた。一方本実施形態では、待機時間、すなわちユーザが発した音声を取得してから、当該音声に対する応答を生成するまでの時間中に、上記音声対話装置に音声の出力および動作の少なくとも一方を行わせると決定したか否か(または実際に行わせたか否か)を判定することで、応答を修正するか否かを決定する例について説明する。

0050

まず、図8に基づいて、本実施形態に係る音声対話装置10bについて説明する。図8は、本実施形態に係る音声対話装置10bの構成を示すブロック図である。音声対話装置10bは、実施形態1に係る音声対話装置10と比較して、制御部1に代えて制御部1bを備え、音声入力部2に代えて音声入力部2bを備え、記憶部6に代えて記憶部6bを備えている。本実施形態では、制御部1bは、実施形態1に係る制御部1と比較して、待機時間計測部11を含まない。また、応答修正部12に代えて応答修正部12bを含む。さらに、新たに待機時間予測部16および場つなぎ動作制御部17を含む。また、記憶部6bは、実施形態1に係る記憶部6と比較して、新たに場つなぎ動作テーブル63を記憶している。

0051

音声入力部2bは、取得した音声を音声データに変換し、後述する音声認識部13に出力する(図8においてはd8で示している)。また音声入力部2は当該音声データのサイズ(データ量)および時間(発話時間)の少なくとも一方(以降、音声付属情報と称する)を、待機時間予測部16に出力する(図8においてはd7で示している)。

0052

待機時間予測部16は、音声対話装置10bがユーザの発した音声を取得してから、当該音声に対する応答が出力可能となるまでの待機時間Tbを予測する。具体的には、まず待機時間予測部16は音声入力部2から音声付属情報を受け取ると、当該音声データのサイズ(データ量)を用いて待機時間を予測する。より詳細には、待機時間予測部16は、「待機時間Tb=α×データ量(αは単位データ量あたりに要する待機時間であり、所定の値である)」という計算式を用いて、予測待機時間Tbを算出する。待機時間予測部16は、予測(算出)した予測待機時間Tbを後述する場つなぎ動作決定部71および修正実行部22bに出力する。なお、待機時間予測部16は、音声データの時間(ユーザの発話時間)を用いて待機時間を予測してもよい。具体的には、待機時間予測部16は、「待機時間Tb=β×発話時間(βは単位発話時間あたりに要する待機時間であり、所定の値である)」という計算式を用いて、予測待機時間Tbを算出してもよい。また、音声データのデータ量および発話時間の両方を用いて、待機時間を予測(算出)してもよい。データ量から算出した予測待機時間と発話時間から算出した予測待機時間とが異なる場合、より長い(または短い)方の予測待機時間を採用してもよいし、2つの予測待機時間の平均値を算出し、算出した平均待機時間を場つなぎ動作決定部71に出力してもよい。

0053

場つなぎ動作制御部17は、場つなぎ動作の決定および実行を行う。場つなぎ動作制御部17は、場つなぎ動作決定部71および場つなぎ動作実行部72を含む。

0054

場つなぎ動作決定部71は、待機時間予測部16が予測した予測待機時間Tbに基づいて、音声対話装置10が実行する場つなぎ動作を決定するものである。ここで、場つなぎ動作とは、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能となるまでの時間(待機時間)中に、音声対話装置10に実行させる動作である。具体的には、場つなぎ動作決定部71は、記憶部6に記憶されている場つなぎ動作テーブル63を用いて、待機時間予測部16が予測した予測待機時間Tbと、待機時間中に音声対話装置10bに実行させる場つなぎ動作に要する場つなぎ動作時間とに応じて、場つなぎ動作を決定する。

0055

ここで、図9を参照して、場つなぎ動作テーブル63の詳細について説明する。図9は、記憶部6bに記憶されている場つなぎ動作テーブル63のデータ構造およびデータ例を示す図である。なお、図9に示す場つなぎ動作テーブル63は一例であり、データ構造およびデータ例を図9の例に限定するものではない。場つなぎ動作テーブル63は、場つなぎ動作を示す情報と、当該場つなぎ動作に要する時間である場つなぎ動作時間とを対応付けたテーブルである。「場つなぎ動作」のカラムには、音声対話装置10が実行可能な動作を示す複数の動作候補の情報(以下、場つなぎ動作情報と称する)が格納される。「種別」のカラムには、各場つなぎ動作が音声を出力するものであるか(図9では「音声」で示されている)、音声対話装置10bの可動部位を動作させるものであるか(図9では「身振り」で示されている)、またはその両方を実行するものであるか(図9では「音声+身振り」で示されている)を示す情報が格納される。「場つなぎ動作時間」のカラムには、上記場つなぎ動作時間が格納されている。

0056

より具体的には、場つなぎ動作決定部71は、受け取った予測待機時間Tbから、場つなぎ動作テーブル63の各場つなぎ動作時間を減算して、各場つなぎ動作情報における減算値Tcを算出する。なお、cは場つなぎ動作テーブル63における「No.」に格納されている数字である。続いて、場つなぎ動作決定部71は、算出した減算値Tcのそれぞれについて、0以上かつ、場つなぎ動作を音声対話装置10bが実行してから応答の生成が完了するまでに、音声対話装置10bが動作しない時間として許容できる時間を示す第1許容時間X以下となるか否か(0≦Tc≦Xを満たす場つなぎ動作情報があるか否か)を判定する。第1許容時間Xは予め設定されている値であり、例えばX=2であれば、場つなぎ動作が完了してから応答の生成が完了するまでの時間として許容できる時間が2秒であるということである。

0057

0≦Tc≦Xを満たす場つなぎ動作情報がある場合、場つなぎ動作決定部71は、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる場つなぎ動作として決定し、当該場つなぎ動作情報を場つなぎ動作実行部72に出力する。例えば予測待機時間Tbが2秒であり、第1許容時間X=1である場合、図9に示すNo.2およびNo.3の場つなぎ動作情報が0≦Tc≦Xを満たす。よって、場つなぎ動作決定部71は、No.2またはNo.3の場つなぎ動作情報を読み出し、場つなぎ動作実行部72に出力する。

0058

なお、0≦Tc≦Xを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10bが動作を実行しない時間をより短くするために、減算値Tcの値がより小さい場つなぎ動作情報を選択することが好ましい。つまり上記の例の場合、減算値Tcが0となるNo.3の場つなぎ動作情報を選択することが好ましい。また、減算値Tcの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。

0059

一方、0≦Tc≦Xを満たす場つなぎ動作情報が無い場合、場つなぎ動作決定部71は、減算値Tcの正負の符号を変更した値である符号変更値−Tcそれぞれについて、0以上かつ、応答の生成が完了してから音声対話装置10bの場つなぎ動作が完了するまでの時間として許容できる時間を示す第2許容時間Y以下となるか否か(0≦−Tc≦Yを満たす場つなぎ動作情報があるか否か)を判定する。第2許容時間Yは予め設定されている値であり、例えば、Y=2であれば、応答の生成が完了してから、場つなぎ動作が完了するまでの時間として許容できる時間が2秒であるということである。なお、場つなぎ動作決定部71は、各場つなぎ動作時間から受け取った予測待機時間Tbを減算することで符号変換値−Tcを算出してもよい。

0060

0≦−Tc≦Yを満たす場つなぎ動作情報がある場合、場つなぎ動作決定部71は、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる場つなぎ動作として決定し、当該場つなぎ動作情報を場つなぎ動作実行部72に出力する。例えば予測待機時間Tbが1秒であり、第2許容時間Y=1である場合、図9に示すNo.2およびNo.3の場つなぎ動作情報が0≦−Tc≦Yを満たす。そのため、場つなぎ動作決定部71は、No.2またはNo.3の場つなぎ動作情報を読み出し、場つなぎ動作実行部72に出力する。

0061

なお、0≦−Tc≦Yを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10bが動作を実行しない時間をより短くするために、符号変換値−Tcがより小さい場つなぎ動作情報を選択することが好ましい。つまり上記の例の場合、符号変換値−Tcが0となるNo.2の場つなぎ動作情報を選択することが好ましい。

0062

また、符号変換値−Tcの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。

0063

なお、第1許容時間Xおよび第2許容時間Yの少なくとも一方において、すべての場つなぎ動作情報に対して同じ値が設定されてもよいし、場つなぎ動作情報ごとに異なる値が設定されてもよい。また、第1許容時間Xおよび第2許容時間Yの少なくとも一方は、音声データのデータ量および発話時間の少なくとも一方に応じて設定されてもよい。つまり場つなぎ動作決定部71は、待機時間予測部16から受け取った音声データのデータ量または発話時間に基づいて、第1許容時間Xおよび第2許容時間Yの少なくとも一方を決定する。

0064

一方、0≦−Tc≦Yを満たす場つなぎ動作情報が無い場合、場つなぎ動作決定部71は、複数の場つなぎ動作情報を選択する。具体的には、場つなぎ動作決定部71は、場つなぎ動作時間≦待機時間を満たす場つなぎ動作情報のうち、場つなぎ動作時間が最も長い場つなぎ動作情報を1つ選択する。そして、予測待機時間Tbから、選択した場つなぎ動作情報に対応付けられた場つなぎ動作時間を減算した値(残時間)を算出し、場つなぎ動作時間≦残時間を満たす場つなぎ動作情報をさらに選択する。そして、場つなぎ動作決定部71は、選択した複数の場つなぎ動作情報に対応付けられた場つなぎ動作時間を合計した合計値を算出し、0≦予測待機時間Tb−合計値≦Xまたは0≦−(予測待機時間Tb−合計値)≦Yを満たすか否かを判定する。いずれか一方を満たす場合、複数の場つなぎ動作情報を「No.」のカラムの数字と対応付けて場つなぎ動作実行部72に出力する。

0065

一方、いずれも満たさない場合、予測待機時間Tbから合計値を減算した値を算出し、場つなぎ動作時間≦当該算出した値を満たす場つなぎ動作情報をさらに選択する。そして、場つなぎ動作決定部71は、選択した複数の場つなぎ動作情報に対応付けられた場つなぎ動作時間を合計した合計値を算出し、0≦予測待機時間Tb−合計値≦Xまたは0≦−(予測待機時間Tb−合計値)≦Yを満たすか否かを判定する。場つなぎ動作決定部71は、これらの処理を0≦予測待機時間Tb−合計値≦Xまたは0≦−(予測待機時間Tb−合計値)≦Yのいずれか一方を満たすようになるまで繰り返す。

0066

なお、0≦Tc≦Xまたは0≦−Tc≦Yを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10bが動作を実行しない時間をより短くするために、Tcまたは−Tcの値がより小さい場つなぎ動作情報を選択することが好ましい。なお、Tcまたは−Tcの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。

0067

場つなぎ動作実行部72は、場つなぎ動作決定部71が決定した場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる。具体的には、場つなぎ動作実行部72は、場つなぎ動作決定部71から場つなぎ動作情報を受け取ると、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる。例えば、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10bの可動部位を動作させたりする。場つなぎ動作実行部72は、場つなぎ動作の実行が完了すると、その旨を応答実行部15に通知する。また、場つなぎ動作実行部72は、場つなぎ動作決定部71から複数の場つなぎ動作情報を受け取った場合、複数の場つなぎ動作の動作順序をランダムに決定する。そして、決定した動作順序で音声対話装置10に場つなぎ動作を実行させる。なお、記憶部6bに動作順序を規定する情報を格納しておき、当該情報が示す動作順序に基づいて動作順序を決定してもよいし、動作順序を場つなぎ動作に対応付けられている「No.」の数字が若い順としてもよい。なお、場つなぎ動作制御部17は、音声対話装置10bに実行させる場つなぎ動作を示す場つなぎ動作情報を、修正要否判定部21bに出力する。これは、場つなぎ動作決定部71が音声対話装置10bに実行させる場つなぎ動作を示す場つなぎ動作情報を決定した時点で行ってもよいし、場つなぎ動作実行部72が音声対話装置10bに場つなぎ動作を実行させてから行ってもよい。なお、後述するフローチャートでは、場つなぎ動作実行部72が音声対話装置10bに場つなぎ動作を実行させてから、場つなぎ動作情報を修正要否判定部21bに出力するものとして説明する。

0068

応答修正部12bは、応答生成部14が生成した応答情報を修正する。応答修正部12bは、修正要否判定部21bおよび修正実行部22bを含む。

0069

修正要否判定部21bは、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能になるまでの待機時間に応答の修正要否を判定するための修正条件が満たされたか否かを判定する。具体的には、修正要否判定部21bは、場つなぎ動作決定部71から受け取った場つなぎ動作情報が、音声対話装置10bに音声の出力および動作の少なくとも一方を行わせる場つなぎ動作を示しているか否かを判定する。より具体的には、修正要否判定部21bは、図9に示す場つなぎ動作情報のうち、受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であるか、またはその他の場つなぎ動作情報であるかを判定する。そして、判定結果を修正実行部22bに出力する。

0070

修正実行部22bは、上記修正条件が満たされたと判定されたとき、応答生成部14が生成した応答情報を修正する。具体的には、修正実行部22bは、修正要否判定部21bから受け取った判定結果が、修正要否判定部21bが受け取った場つなぎ動作情報がNo.1以外の場つなぎ動作情報であることを示しているとき、応答修正テーブル61を参照して、待機時間予測部16から受け取った予測待機時間Tbに対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、受け取った応答情報に付加することで、応答情報を修正する。そして、修正実行部22bは、修正した応答情報を応答実行部15に出力する。

0071

一方、修正実行部22bは、修正要否判定部21bから受け取った判定結果が、修正要否判定部21bが受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であることを示しているとき、応答生成部14から受け取った応答情報を修正せず、そのまま応答実行部15に出力する。

0072

次に、図10に基づいて、制御部1bが実行する応答実行処理の流れについて説明する。図10は、制御部1bが実行する応答実行処理の流れの一例を示すフローチャートである。

0073

まず、音声入力部2は音声の入力を待機している(S21)。音声入力部2は、ユーザが発した音声を取得すると(S21でYES)、取得した音声を音声データに変換し、当該音声データを音声認識部13に出力し、また当該音声データの音声付属情報を待機時間予測部16に出力する。

0074

続いて待機時間予測部16は待機時間を予測する(S22)。具体的には、待機時間予測部16は、音声データを受け取ると、当該音声データのデータ量および発話時間の少なくとも一方を用いて、予測待機時間Tbを算出する。待機時間予測部16は予測した待機時間を場つなぎ動作制御部17(場つなぎ動作決定部71)および修正実行部22bに出力する。続いて場つなぎ動作決定部71は、場つなぎ動作決定処理を行う(S23)。なお、場つなぎ動作決定処理の詳細については後述する。場つなぎ動作決定部71は、音声対話装置10bに実行させると決定した場つなぎ動作を示す場つなぎ動作情報を、場つなぎ動作実行部72に出力する。そして、場つなぎ動作実行部72は、受け取った場つなぎ動作情報に応じて、音声対話装置10bに場つなぎ動作を実行させる(S24)。場つなぎ動作実行部72は、場つなぎ動作の実行が完了すると、その旨を修正実行部22bに通知する。

0075

一方、音声認識部13は音声認識処理を行う(S25)。具体的には、音声認識部13は、音声データを受け取ると、当該音声データについて音声認識処理を行い、音声認識結果を応答生成部14に出力する。続いて応答生成部14は応答情報を生成する(S26)。具体的には、応答生成部14は、受け取った音声認識結果に応じた応答情報を生成し、修正実行部22bに出力する。

0076

なお、図10に示すように、ステップS22、S23、S24の処理と、ステップS25、S26の処理とは並列に行われる。つまり、応答修正部12bは、応答情報および場つなぎ動作の実行が完了した旨の通知のいずれか一方のみを受け取った場合、もう一方を受け取るまで待機する。そして、応答修正部12b(修正要否判定部21b)は、上記通知と応答情報とを受け取ると、場つなぎ動作として発話および動作の少なくとも一方を実行させたか否かを判定する(S27)。具体的には、修正要否判定部21bは、図9に示す場つなぎ動作情報のうち、受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であるか、またはその他の場つなぎ動作情報であるかを判定する。そして、判定結果を修正実行部22bに出力する。

0077

修正要否判定部21bが受け取った場つなぎ動作情報がNo.1以外の場つなぎ動作情報であると判定された場合(S27でYES)、修正実行部22bは当該判定結果を受け取ると、待機時間予測部16から受け取った予測待機時間Tbに応じた付加応答を特定し、応答情報を修正する(S28)。具体的には、修正実行部22bは、記憶部6に記憶されている応答修正テーブル61を参照して、受け取った予測待機時間Tbと合致する待機時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、応答生成部14から受け取った応答情報に付加することで、応答情報を修正する。そして、修正実行部22bは、修正した応答情報を応答実行部15に出力する。

0078

これに対して、修正要否判定部21bが受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であると判定された場合(S27でNO)、修正実行部22bは当該判定結果を受け取ると、応答生成部14から受け取った応答情報を修正することなく、応答実行部15に出力する。つまり、上述したステップS28の処理が省略される。

0079

最後に、応答実行部15は音声対話装置10bに応答を実行させる(S29)。具体的には、応答実行部15は、受け取った応答情報に応じて、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10bの可動部位を動作させたりする。以上で、応答実行処理は終了する。

0080

続いて、図11に基づいて、場つなぎ動作決定部71が実行する場つなぎ動作決定処理の流れについて説明する。図11は、図10のフローチャートにおける場つなぎ動作決定処理の流れの一例を示すフローチャートである。なお、図11のフローチャートにおいて、場つなぎ動作テーブル63に含まれる場つなぎ動作情報には、一般的に想定される待機時間程度の場つなぎ動作時間が対応付けられているものとする。

0081

まず、場つなぎ動作決定部71は、待機時間予測部16が予測した予測待機時間Tbを受け取ると、場つなぎ動作テーブル63を読み出し、予測待機時間Tbから各場つなぎ動作時間を減算した減算値Tcを算出する(S31)。続いて、場つなぎ動作決定部71は、算出した減算値Tcおよび第1許容時間Xを用いて場つなぎ動作テーブル63を参照し、0≦Tc≦Xを満たす場つなぎ動作情報があるか否かを判定する(S32)。

0082

0≦Tc≦Xを満たす場つなぎ動作情報がある場合(S32でYES)、場つなぎ動作決定部71は、当該場つなぎ動作情報のうちの1つが示す場つなぎ動作を、音声対話装置10bが実行する場つなぎ動作に決定する(S33)。具体的には、0≦Tc≦Xを満たす場つなぎ動作情報のうち、Tcの値がより小さい場つなぎ動作情報を選択する。そして、場つなぎ動作決定部71は、選択した場つなぎ動作情報を場つなぎ動作実行部72に出力する。

0083

一方、0≦Tc≦Xを満たす場つなぎ動作情報が無い場合(S32でNO)、場つなぎ動作決定部71は、減算値Tcから符号変更値−Tcを算出し、符号変更値−Tcおよび第2許容時間Yを用いて場つなぎ動作テーブル63を参照し、0≦−Tc≦Yを満たす場つなぎ動作情報があるか否かを判定する(S34)。

0084

0≦−Tc≦Yを満たす場つなぎ動作情報がある場合(S34でYES)、場つなぎ動作決定部71は、当該場つなぎ動作情報のうちの1つが示す場つなぎ動作を、音声対話装置10bが実行する場つなぎ動作に決定する(S35)。具体的には、0≦−Tc≦Yを満たす場つなぎ動作情報のうち、−Tcの値がより小さい場つなぎ動作情報を選択する。

0085

一方、0≦−Tc≦Yを満たす場つなぎ動作情報が無い場合(S34でNO)、複数の場つなぎ動作を組み合わせて、音声対話装置10が実行する場つなぎ動作を示す場つなぎ動作情報とする(S36)。なおこの場合、場つなぎ動作実行部72は、受け取った複数の場つなぎ動作情報の動作順序を決定する。以上で、場つなぎ動作決定処理は終了する。

0086

なお、本実施形態では、第1許容時間Xおよび第2許容時間Yの両方を用いた判定を行ったが、第1許容時間Xまたは第2許容時間Yのいずれか一方のみを用いた判定を行ってもよい。

0087

また、本実施形態では、0≦−Tc≦Yを満たす場つなぎ動作情報が無い場合、複数の場つなぎ動作情報を組み合わせることで、0≦−Tc≦Yを満たす場つなぎ動作情報としていたが、場つなぎ動作情報に対応付けられた場つなぎ動作時間を変更することで、0≦Tc≦Xまたは0≦−Tc≦Yを満たす場つなぎ動作情報としてもよい。

0088

また、待機時間予測部16が予測した予測待機時間Tbよりも応答情報の生成に時間がかかった場合、待機時間予測部16は、音声認識部13が行った音声認識結果を用いて、再度予測待機時間Tbを算出してもよい。そして、新たな予測待機時間が以前の予測待機時間よりも長くなる場合、場つなぎ動作決定部71は、再度場つなぎ動作の決定を行ってもよい。

0089

また、待機時間予測部16が予測した予測待機時間Tbよりも早く応答情報の生成が完了した場合であって、場つなぎ動作決定部71が複数の場つなぎ動作を選択している場合、場つなぎ動作実行部72は、その時点以降に行う場つなぎ動作の実行をキャンセルしてもよい。また、待機時間予測部16が予測した予測待機時間Tbよりも早く応答情報の生成が完了した場合、場つなぎ動作実行部72は実行する場つなぎ動作の場つなぎ動作時間を早めてもよい。

0090

また、本実施形態では、場つなぎ動作決定部71は、条件を満たす場つなぎ動作情報が複数ある場合、減算値Tc(または符号変更値−Tc)の値がより小さいものを選択していたが、この例に限定されるものではない。例えば、場つなぎ動作テーブル63に、各場つなぎ動作を最後に実行した日時を示す履歴情報を格納するカラムがあり、条件を満たす場つなぎ動作情報が複数ある場合は、当該履歴情報がより古い日時を示しているものを選択してもよい。

0091

また、場つなぎ動作決定部71が決定した場つなぎ動作の種別が「音声」である場合、決定した場つなぎ動作より場つなぎ動作時間が短く、かつ種別が「身振り」である場つなぎ動作情報を選択し、2つの場つなぎ動作情報を組み合わせて場つなぎ動作実行部72に出力してもよい。同様に、決定した場つなぎ動作の種別が「身振り」である場合は、決定した場つなぎ動作より場つなぎ動作時間が短く、かつ種別が「音声」である場つなぎ動作情報を選択し、2つの場つなぎ動作情報を組み合わせて場つなぎ動作実行部72に出力してもよい。例えば、図9に示すNo.7の場つなぎ動作情報が示す場つなぎ動作(種別:身振り、「起き上がる」動作を行う)を、音声対話装置10bが実行する場つなぎ動作と決定した場合、場つなぎ動作決定部71は、例えば図9に示すNo.4の場つなぎ動作情報が示す場つなぎ動作(種別:音声、「ちょっと待ってね」と発話する)を音声対話装置10bが実行する場つなぎ動作としてさらに決定し、これらの場つなぎ動作情報を場つなぎ動作実行部72に出力する。場つなぎ動作実行部72は、この情報を受けて、音声対話装置10bに「『ちょっと待ってね』と発話しながら『起き上がる』動作」を実行させる。これにより、場つなぎ動作のバリエーションが増え、ユーザを飽きさせないようにすることができる。

0092

また、本実施形態では、待機時間予測部16が予測した予測待機時間Tbと、応答修正テーブル61に含まれる時間とが合致するという条件のみで付加応答情報を特定していたが、この例に限定されるものではない。例えば、修正実行部22bは、音声対話装置に実行させると決定した場つなぎ動作のカテゴリを示す場つなぎ動作属性と、実施形態2にて説明した付加応答属性とが合致する付加応答情報を選択し、選択した付加応答情報の中から、予測待機時間Tbと応答修正テーブル61に含まれる時間とが合致する付加応答情報を特定してもよい。

0093

この場合、場つなぎ動作テーブル63に含まれる場つなぎ動作情報には、各場つなぎ動作の内容のカテゴリを示す場つなぎ動作属性が対応付けられており、また、記憶部6bには応答修正テーブル61に代えて、実施形態2にて説明した応答修正テーブル61aが記憶されている。場つなぎ動作決定部71は、音声対話装置に実行させると決定した場つなぎ動作の場つなぎ動作属性を特定し、修正実行部22bに出力する。修正実行部22bは、受け取った場つなぎ動作属性と合致する付加応答属性と対応付けられた付加応答情報を選択し、さらにその中から、予測待機時間Tbと応答修正テーブル61aに含まれる時間とが合致する付加応答情報を特定する。

0094

〔変形例〕
上述した実施形態1では、ユーザが発した音声の音声認識、および当該音声に対する応答情報の生成は、いずれも音声対話制御装置(制御部1)にて行っていたが、これらの処理は音声対話装置10と通信可能な外部装置外部サーバ、不図示)が行ってもよい。つまり、音声対話装置10は、音声を取得すると音声データに変換し、通信部3を介して当該音声データを外部装置に送信する。外部装置は、音声認識および応答情報の生成を行い、応答情報を音声対話装置10に送信する。なお、この変形例は実施形態2および3にも適用可能である。

0095

また、上述した実施形態1において、制御部1は、待機時間計測部11に代えて待機時間予測部16を含み、待機時間を計測する代わりに待機時間を予測してもよい。なおこの変形例は実施形態2にも適用可能である。

0096

また、上述した実施形態1では、応答情報を応答修正テーブル61に格納された付加応答情報を用いて修正していたが、応答情報の修正はこの例に限定されない。例えば、音声に含まれる言葉の少なくとも一部を修正応答に含めてもよい。具体的には、修正実行部22は、音声認識部13が認識した音声データの少なくとも一部を切り出したり、編集または要約したりしたものを付加応答情報として用いることで応答情報を修正してもよい。例えば、ユーザが発した音声、すなわち音声認識部13が認識した音声データが「今日の天気はなに?」であったとき、修正実行部22は、音声認識部13から音声認識結果を受け取り、「今日の天気は」を切り出す。そして、修正実行部22は、応答生成部14から受け取った「晴れだよ」という音声データ(応答情報)に対して、「今日の天気は」という音声データを付加して、「今日の天気は晴れだよ」という応答情報を生成する。なお、この変形例は実施形態2および3にも適用可能である。

0097

また修正条件は、上述した各実施形態の例に限定されるものではない。例えば、外部装置との通信ができなくなったときや、音声対話装置に備えられたセンサ(不図示)が取得した情報が所定の条件を満たしているときに、応答を修正してもよい。また、応答の修正は応答情報に付加応答情報を付加することに限定されない。例えば、応答情報の内容を変更してもよい。また、付加応答情報が示す内容は、応答情報が示す応答の前に実行されてもよいし、当該応答の後に実行されてもよい。

0098

ソフトウェアによる実現例〕
音声対話装置10、10a、10bそれぞれの音声対話制御装置、すなわち制御部1、1a、1bは、集積回路ICチップ)等に形成された論理回路ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。

0099

後者の場合、音声対話装置10は、各機能を実現するソフトウェアであるプログラム命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形媒体」、例えば、テープディスクカード半導体メモリプログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体通信ネットワーク放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

0100

〔まとめ〕
本発明の態様1に係る音声対話制御装置(制御部1)は、音声対話装置(10)が実行する、ユーザが発した音声に対する応答を生成する応答生成部(14)と、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定部(修正要否判定部21)と、上記判定部が、上記修正条件が満たされたと判定したとき、上記応答生成部が生成した上記応答を修正した修正応答を生成する修正部(修正実行部22)と、上記修正部が生成した上記修正応答を上記音声対話装置に実行させる応答実行部(15)と、を備える。

0101

上記の構成によれば、音声を取得してから応答が出力可能になるまでに、修正条件が満たされたとき、応答を修正するので、応答を修正すべき状況で応答を修正することができる。例えば、応答が出力可能になるまでに時間を要したとき、そのことを当該応答にて表現する(時間を要したことを詫びる音声を追加で出力する)ことができる。よって、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させることができる。

0102

本発明の態様2に係る音声対話制御装置は、上記態様1において、上記待機時間を計測する待機時間計測部(11)をさらに備え、上記判定部は、上記待機時間計測部が計測した待機時間が所定の時間を超えるとき、上記修正条件が満たされたと判定してもよい。

0103

上記の構成によれば、待機時間を計測して、計測した待機時間が所定の時間を超えるとき、修正条件が満たされたと判定するので、応答が出力可能になるまでに時間を要したことを正確に判定することができる。これにより、応答が出力可能になるまでに時間を要したとき、そのことを当該応答にて表現することができる。

0104

本発明の態様3に係る音声対話制御装置は、上記態様2において、上記修正部は、上記待機時間に対応する時間情報に対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正してもよい。

0105

上記の構成によれば、待機時間に対応する時間情報に対応付けられた修正内容情報を用いて応答を修正するので、待機時間の長さに応じた応答の修正を行うことができる。例えば、待機時間が長時間となった場合は、長時間考えていたことを示すような音声を追加で出力する。つまり、待機時間の長さに応じた応答をすることができるので、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。

0106

本発明の態様4に係る音声対話制御装置は、上記態様1において、上記待機時間を予測する待機時間予測部(16)をさらに備え、上記判定部は、上記待機時間予測部が予測した予測待機時間が所定の時間を超えるとき、修正条件が満たされたと判定してもよい。

0107

上記の構成によれば、待機時間を予測して、予測した待機時間が所定の時間を超えるとき、修正条件が満たされたと判定するので、応答が出力可能になるまでに時間を要したことを正確に判定することができる。これにより、応答が出力可能になるまでに時間を要したとき、そのことを当該応答にて表現することができる。

0108

本発明の態様5に係る音声対話制御装置は、上記態様4において、上記修正部は、上記予測待機時間に対応する時間情報に対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正してもよい。

0109

上記の構成によれば、予測待機時間に対応する時間情報に対応付けられた修正内容情報を用いて応答を修正するので、予測した待機時間の長さに応じた応答の修正を行うことができる。例えば、予測した待機時間が長時間となった場合は、長時間考えていたことを示すような音声を追加で出力する。つまり、予測した待機時間の長さに応じた応答をすることができるので、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。

0110

本発明の態様6に係る音声対話制御装置は、上記態様3または5において、上記音声の内容のカテゴリを示す音声属性を特定する音声属性特定部(音声認識部13)をさらに備え、上記修正内容情報には、上記修正内容のカテゴリを示す応答属性がさらに対応付けられており、上記修正部は、上記音声属性特定部が特定した上記音声属性に対応する上記応答属性に対応付けられた上記修正内容情報を用いて、上記応答を修正してもよい。

0111

上記の構成によれば、待機時間または予測待機時間に対応する時間情報に対応付けられ、かつ音声属性に対応する応答属性に対応付けられた修正内容情報を用いて応答を修正するので、音声対話装置が、ユーザが発した音声に対して、より適切な修正を施した応答を行うことができる。

0112

本発明の態様7に係る音声対話制御装置は、上記態様1において、上記待機時間に上記音声対話装置に実行させる場つなぎ動作を決定する場つなぎ動作決定部(71)をさらに備え、上記判定部は、上記場つなぎ動作決定部が、上記場つなぎ動作として上記音声対話装置に音声の出力および身振りの少なくとも一方を行わせることを決定したとき、上記修正条件が満たされたと判定してもよい。

0113

場つなぎ動作は、音声を取得してから応答が出力可能になるまでの待機時間を埋める動作であるので、当該動作として音声の出力および動作の少なくとも一方を音声対話装置が実行するということは、応答の生成に時間を要するということである。ここで、上記の構成によれば、場つなぎ動作として音声の出力および身振りの少なくとも一方を音声対話装置に行わせるとき、修正条件が満たされたと判定するので、応答の生成に時間を要したことを正確に判定することができる。

0114

本発明の態様8に係る音声対話制御装置は、上記態様7において、上記待機時間を予測する待機時間予測部をさらに備え、上記修正部は、上記待機時間予測部が予測した予測待機時間に対応する時間情報に対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正してもよい。

0115

上記の構成によれば、予測待機時間に対応する時間情報に対応付けられた修正内容情報を用いて応答を修正するので、予測した待機時間の長さに応じた応答の修正を行うことができる。つまり、予測した待機時間の長さに応じた応答をすることができるので、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。

0116

本発明の態様9に係る音声対話制御装置は、上記態様8において、上記修正内容情報には、上記修正内容のカテゴリを示す応答属性がさらに対応付けられており、上記場つなぎ動作決定部は、決定した上記場つなぎ動作のカテゴリを示す場つなぎ動作属性を特定し、上記修正部は、上記場つなぎ動作決定部が特定した上記場つなぎ動作属性に対応する上記応答属性に対応付けられた上記修正内容情報を用いて、上記応答を修正してもよい。

0117

上記の構成によれば、待機時間に対応する時間情報に対応付けられ、かつ場つなぎ動作属性に対応する応答属性に対応付けられた修正内容情報を用いて応答を修正するので、音声対話装置が、実行した場つなぎ動作に合った修正を施した応答を行うことができる。

0118

本発明の態様10に係る音声対話制御装置は、上記態様1から9のいずれかにおいて、上記修正部は、上記音声に含まれる言葉の少なくとも一部を上記修正応答に含めてもよい。

0119

ユーザが発した音声を取得してから応答を生成するまでに時間を要した場合、当該音声がどのような内容であったかを応答に含めることが望ましい。そこで上記の構成によれば、音声に含まれる言葉の少なくとも一部を修正応答に含める。これにより、ユーザと音声対話装置とのコミュニケーションを円滑に進めることができる。なお、音声に含まれる言葉の少なくとも一部を修正応答に含めるとは、例えば、「今日の天気はなに?」という音声に対する応答である「晴れだよ」を、音声の一部を用いて「今日の天気は晴れだよ」と修正することである。また、音声を編集した内容、すなわち、音声に含まれる言葉の一部を切り出し、再構成したものを用いて応答を修正してもよい。例えば、「今日の天気はなに?」という音声データから「今日」と「は」という言葉を切り出し、「今日は」という音声データを再構成し、「晴れだよ」という応答を「今日は晴れだよ」と修正してもよい。

0120

本発明の態様11に係る音声対話制御装置の制御方法は、音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成ステップと、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定ステップと、上記判定ステップにて、上記修正条件が満たされたと判定したとき、上記応答生成ステップにて生成した上記応答を修正した修正応答を生成する修正ステップと、上記修正ステップにて生成した上記修正応答を上記音声対話装置に実行させる応答実行ステップと、を含む。この制御方法によれば、態様1に係る音声対話制御装置と同様の作用効果を有する。

0121

本発明の態様12に係る音声対話装置は、上記態様1から10のいずれかに係る音声対話制御装置を備えてもよい。上記の構成によれば、この音声対話装置は、ユーザとのコミュニケーションの柔軟性を向上させることができる。

0122

本発明の各態様に係る音声対話制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声対話制御装置が備える各部(ソフトウェア要素)として動作させることにより上記音声対話制御装置をコンピュータにて実現させる音声対話制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

0123

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

0124

本発明は、ユーザの発話に対して応答する音声対話装置を制御するための音声対話制御装置に利用することができる。

0125

1、1a、1b 制御部(音声対話制御装置)、10、10a、10b音声対話装置、11待機時間計測部、13音声認識部(音声属性特定部)、14応答生成部、15応答実行部、16 待機時間予測部、21、21b修正要否判定部(判定部)、22、22a、22b修正実行部(修正部)、71 場つなぎ動作決定部、S4 応答生成ステップ、S6 判定ステップ、S7修正ステップ、S8 応答実行ステップ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ