図面 (/)

技術 音声処理装置および音声処理方法

出願人 本田技研工業株式会社
発明者 中臺一博中村圭佑山本俊一近藤宏住田直亮
出願日 2015年9月17日 (4年6ヶ月経過) 出願番号 2015-183973
公開日 2017年3月23日 (2年11ヶ月経過) 公開番号 2017-058545
状態 特許登録済
技術分野 音声入出力 音声認識 音声の分析・合成
主要キーワード 使用タイミング 質問回数 確認文 発話パターン 音声認識手順 理解結果 概念モデル 認識内容
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年3月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

発話内容の意図を正確に取得するまでの時間を短縮することができ、かつ高精度で意図の認識をすることができる音声処理装置および音声処理方法を提供することを目的とする。

解決手段

音声処理装置は、音声信号を取得する音声入力部と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部と、音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、意図理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。

概要

背景

利用者発話内容に対して音声認識を行い、音声認識した結果を用いて処理を行う音声対話システムが求められている。近年、例えば会社やホテル受け付け等に人型ロボットが採用され始めている。このような受け付けロボットは、シナリオに沿った案内の音声を出力するだけであった。また、会社等の受け付けに、表示部やタッチパネルを有する無人受け付けシステムが採用され始めている。例えば、無人受け付けシステムを会社の受け付けに用いる場合、来客者は、タッチパネルを操作して、訪問先担当者電話を接続していた。この場合、無人受け付けシステムは、例えば担当者の名前、担当者の所属部署名を来客者が入力または選択することで、担当者の内線番号検索して担当者に電話を接続していた。

例えば、特許文献1には、入力された音声信号を認識して、認識した結果を用いて航空券列車チケット予約または購入、ホテルの予約を行う音声対話システムが開示されている。特許文献1に記載の技術では、入力された音声信号を認識して、その中から意味表現を取り出す。そして、特許文献1に記載の技術では、取り出した意味表現を意味的まとまり細分化し、分割された意味的なまとまりを逐次処理することで、予約や販売処理を行う。なお、意味表現とは、航空券や列車チケットの予約または購入、ホテルの予約を行う際に利用者が発話するフレーズである。

概要

発話内容の意を正確に取得するまでの時間を短縮することができ、かつ高精度で意の認識をすることができる音声処理装置および音声処理方法を提供することを目的とする。音声処理装置は、音声信号を取得する音声入力部と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部と、音声認識部によって認識された認識結果に基づいて、利用者の意を理解する意理解部と、意理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。

目的

本発明は、上記の問題点に鑑みてなされたものであって、発話内容の意図を正確に取得するまでの時間を短縮することができ、かつ高精度で意図の認識をすることができる音声処理装置および音声処理方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声信号を取得する音声入力部と、前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、前記意図理解部によって理解された理解結果に基づいて前記利用者に対して質問を行う質問部と、を備え、前記質問部は、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する音声処理装置

請求項2

前記質問部は、前記理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、前記意図理解部によって前記確認質問が理解された結果に基づいて、前記優先度を変更する、請求項1に記載の音声処理装置。

請求項3

前記質問部は、前記優先度に応じて、前記質問内容を、必要な目的語を聞きだす質問内容に変更する、請求項1または請求項2に記載の音声処理装置。

請求項4

前記優先度は、前記利用者に対して行った質問回数に基づく、請求項1から請求項3のいずれか1項に記載の音声処理装置。

請求項5

画像表示部を備え、前記理解結果に基づいて前記利用者の意図する内容の候補を前記画像表示部に表示させ、前記利用者により前記候補を選択可能にする、請求項1から請求項4のいずれか1項に記載の音声処理装置。

請求項6

前記質問部は、前記音声認識部によってN−Bestを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させる、請求項5に記載の音声処理装置。

請求項7

音声入力部が、音声信号を取得する音声入力手順と、音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識うぃ行う音声認識手順と、意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、質問部が、前記意図理解手順によって理解された理解結果に基づいて前記利用者に対して質問を行い、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する質問手順と、を含む音声処理方法

技術分野

0001

本発明は、音声処理装置および音声処理方法に関する。

背景技術

0002

利用者発話内容に対して音声認識を行い、音声認識した結果を用いて処理を行う音声対話システムが求められている。近年、例えば会社やホテル受け付け等に人型ロボットが採用され始めている。このような受け付けロボットは、シナリオに沿った案内の音声を出力するだけであった。また、会社等の受け付けに、表示部やタッチパネルを有する無人受け付けシステムが採用され始めている。例えば、無人受け付けシステムを会社の受け付けに用いる場合、来客者は、タッチパネルを操作して、訪問先担当者電話を接続していた。この場合、無人受け付けシステムは、例えば担当者の名前、担当者の所属部署名を来客者が入力または選択することで、担当者の内線番号検索して担当者に電話を接続していた。

0003

例えば、特許文献1には、入力された音声信号を認識して、認識した結果を用いて航空券列車チケット予約または購入、ホテルの予約を行う音声対話システムが開示されている。特許文献1に記載の技術では、入力された音声信号を認識して、その中から意味表現を取り出す。そして、特許文献1に記載の技術では、取り出した意味表現を意味的まとまり細分化し、分割された意味的なまとまりを逐次処理することで、予約や販売処理を行う。なお、意味表現とは、航空券や列車チケットの予約または購入、ホテルの予約を行う際に利用者が発話するフレーズである。

先行技術

0004

特開平6−259090号公報

発明が解決しようとする課題

0005

しかしながら、特許文献1に記載の技術では、認識内容誤りがあった場合、訪問者が発話を繰り返しても認識を誤ることがあるので、発話内容の意図を正確に取得するまで時間がかかるという課題があった。

0006

本発明は、上記の問題点に鑑みてなされたものであって、発話内容の意図を正確に取得するまでの時間を短縮することができ、かつ高精度で意図の認識をすることができる音声処理装置および音声処理方法を提供することを目的とする。

課題を解決するための手段

0007

(1)上記目的を達成するため、本発明の一態様に係る音声処理装置は、音声信号を取得する音声入力部と、前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、前記意図理解部によって理解された理解結果に基づいて前記利用者に対して質問を行う質問部と、を備え、前記質問部は、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する。

0008

(2)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、前記意図理解部によって前記確認質問が理解された結果に基づいて、前記優先度を変更するようにしてもよい。

0009

(3)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記優先度に応じて、前記質問内容を、必要な目的語を聞きだす質問内容に変更するようにしてもよい。
(4)また、本発明の一態様に係る音声処理装置において、前記優先度は、前記利用者に対して行った質問回数に基づくようにしてもよい。

0010

(5)また、本発明の一態様に係る音声処理装置は、画像表示部を備え、前記理解結果に基づいて前記利用者の意図する内容の候補を前記画像表示部に表示させ、前記利用者により前記候補を選択可能にするようにしてもよい。
(6)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記音声認識部によってN−Bestを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させるようにしてもよい。

0011

(7)上記目的を達成するため、本発明の一態様に係る音声処理方法は、音声入力部が、音声信号を取得する音声入力手順と、音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識うぃ行う音声認識手順と、意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、質問部が、前記意図理解手順によって理解された理解結果に基づいて前記利用者に対して質問を行い、前記理解結果と所定の優先度に応じて前記利用者に対する質問内容を変更する質問手順と、を含む。

発明の効果

0012

上述した(1)または(7)の構成によれば、意図理解の結果に応じて質問内容を変更することで、利用者の意図を理解するのに必要な時間を短くすることができるとともに意図理解の高精度化を図ることができる。

0013

また、上述した(2)の構成によれば、理解した結果が正しいか否かに応じて質問内容を変更することで、音声認識が正しくできなかった項目に対して、優先度に応じて例えば異なる質問文を用いて、利用者に質問を行う。この結果、上述した(2)の構成によれば、利用者の返答を得やすくなるため、得た音声信号の認識結果の精度を向上させることができる。

0014

また、上述した(3)の構成によれば、利用者から得たい目的語に関する質問を行うことで、目的語を得ることができる。なお、目的語とは、例えば受け付け業務において、訪問者の所属、訪問者の名前、担当者の所属、担当者の名前等である。これにより、上述した(3)の構成によれば、得た目的語を音声認識することで、複数の目的語に対して行う音声認識より高い認識率を得ることができる。

0015

また、上述した(4)の構成によれば、質問回数に応じて優先度が設定されているため、質問回数が多くなった場合に、例えば優先的に得たい目的語に対する質問を行い、優先度が低い目的語に対する質問を行わないように質問を変更することができる。これにより、上述した(4)の構成によれば、利用者に対する負担を軽減でき、例えば受け付け業務における必要最低限な情報を効率よく得ることができる。

0016

また、上述した(5)または(6)の構成によれば、ロボットと訪問者とのやりとりの時間を短縮することができ、かつ音声の返答を再度、音声認識する必要がないので高い認識精度を得ることができる。

図面の簡単な説明

0017

第1実施形態に係る音声処理装置を含むロボットの概略構成を示すブロック図である。
第1実施形態に係る優先度とシナリオの例を示す図である。
第1実施形態に係る優先度が1の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。
第1実施形態に係る優先度が2の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。
第1実施形態に係る優先度が3の場合のシナリオに基づくロボットと訪問者との会話の一例を示す図である。
第1実施形態に係る音声処理装置の処理のフローチャートである。
第2実施形態に係る音声処理装置の概略構成を示すブロック図である。
第2実施形態に係る画像表示部に表示される画像の例を示す図である。
第2実施形態に係る音声処理装置の処理のフローチャートである。
第1実施形態〜第3実施形態に係るDBに格納されている担当者に関する情報の例を示す図である。
第3実施形態に係るシナリオ記憶部に記憶されている情報の一例を示す図である。
第3実施形態に係る画像表示部に表示される画像の例を示す図である。

実施例

0018

以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、音声処理装置をロボットが備える例について説明を行う。

0019

[発明の概要
まず、本発明の概要を説明する。
本発明では、人型ロボット(以下、単にロボットともいう)が受付にて来客者を認識したとき、受け付け業務を開始する。ロボットは、まず、所定の優先度に応じて、来客者に来客者の所属と名前、訪問先の担当者の所属と名前の発話を促す1回目の質問または発話を行う。そして、ロボットは、来客者の発話を音声認識した結果を理解し、理解した内容が正しいか否かを来客者に確認する。理解した内容が正しい場合、ロボットは、担当者に来客者が訪れたことを送信、または担当者に電話を接続する。理解した内容が正しくなかった場合、ロボットは、来客者の発話内容におけるキーワードを聞き出すために、1回目の質問とは異なる質問を所定の優先度に応じて行い、質問への応答内容を変更する。このように、本発明では、質問内容を質問回数毎に変化させることで、発話者が意図するキーワードを適切に発話者から聞き出すことができる。

0020

[第1実施形態]
<音声処理装置1の構成>
図1は、本実施形態に係る音声処理装置1を含むロボット2の概略構成を示すブロック図である。図1に示すように、ロボット2は、音声処理装置1、センサ21、駆動制御部22、駆動部23を含んで構成される。音声処理装置1は、撮像部10、画像認識部11、収音部12、音声認識辞書13、音声認識部14、DB15、意図理解部16、および質問部17を備えている。質問部17は、シナリオ記憶部171、シナリオ選択部172、質問回数記憶部173、および音声出力部174を備えている。
なお、以下の説明では、ロボット2が、担当者への来客時の受付を行う場合について説明する。

0021

センサ21は、例えば各駆動部23に取り付けられている力センサ姿勢センサであり、検出した検出結果を駆動制御部22に出力する。
駆動制御部22は、センサ21が出力した検出結果に応じて、各駆動部23の駆動を制御する。また、駆動制御部22は、音声処理装置1が出力した画像に基づいて、例えば、ロボット2の顔に相当する部分を訪問者に向けるように制御してもよい。
駆動部23は、ロボット2の腕、脚、頭部等に取り付けられている例えば複数のモータ機構部等である。
なお、ロボット2は、電源(不図示)等をさらに備えている。

0022

撮像部10は、ロボット2の例えば人の目に対応する位置に取り付けられているCCD(Charge Coupled Device;電荷結合素子カメラ、またはCMOS(Complementary MOS;相補性金属酸化膜半導体)カメラ等である。撮像部10は、撮像した画像を画像認識部11に出力する。なお、撮像部10は、所定のタイミング毎に画像を撮像するようにしてもよい。

0023

画像認識部11は、撮像部10が出力した画像に対して、周知の画像認識手法を用いて、例えば顔認識を行う。画像認識部11は、画像に人間の顔が含まれていると認識できた場合、訪問者が訪れたと判別して訪問者が訪れたことを示す情報を生成する。画像認識部11は、生成した訪問者が訪れたことを示す情報を質問部17に出力する。
なお、本実施形態では、撮像部10と画像認識部11を用いて、訪問者の訪問を認識する例を説明するが、訪問者の認識は、例えば人感センサ等を用いて行うようにしてもよい。

0024

収音部12は、ロボット2の例えばに対応する位置または頭部に対応する位置に取り付けられている少なくとも1つのマイクロホンである。収音部12は、収音した音声信号を音声認識部14に出力する。

0025

音声認識辞書13には、例えば音響モデル言語モデル単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、単語辞書には、訪問者の会社名や部署名、担当者の部署名、人名が含まれている。また、音声認識辞書13に格納されていない訪問者の会社名、訪問者名取得する毎に、音声認識辞書13を音声認識部14が更新するようにしてもよい。

0026

音声認識部14には、収音部12が出力する音声信号、質問部17が出力するロボット2の発話区間を示す情報が入力される。音声認識部14は、収音部12が出力した音声信号のうちロボット2の発話区間以外の音声信号について発話区間を検出し、検出した発話区間の音声信号に対して、音声認識辞書13を参照して、周知の手法を用いて音声認識を行う。音声認識部14は、認識した認識結果を意図理解部16に出力する。なお、認識結果は、例えばテキスト情報である。なお、音声認識部14は、例えば特開2015−64554号公報に開示されている手法等を用いて音声認識を行う。なお、音声認識部14は、例えばB−Bestを用いて最も認識スコアが高かった認識候補を認識結果として意図理解部16に出力する。例えば、訪問者の発話が「XXX社の田中と申しますが、YYY部の鈴木さまをお願いいたします。」の場合の認識結果は、「えっくすえっくすえっくすしゃのたなかともうしますが、わいわいわいぶのすずきさまをおねがいします」である。

0027

DB15には、概念モデルが格納されている。ここで、概念モデルとは、訪問者の発話パターンに基づいて、どのような要件が発話されるのかを想定し、発話パターン毎に、意味理解に用いる規則文法などが記述されているモデルである。発話パターンは、例えば、担当者への来客時の受付での訪問者による発話、タクシーの呼び出しのための発話、打合せ場所の案内を求める発話等である。さらに、DB15には、担当者の名前に担当者の所属と電話番号、性別、主な業務内容等が関連付けられて格納されている。

0028

意図理解部16には、音声認識部14が出力した認識結果、シナリオ選択部172が出力した質問文または確認文を示す情報が入力される。意図理解部16は、認識結果を、DB15を参照して、かつシナリオ選択部172から入力された情報に基づいて、発話内容の意図を周知の手法を用いて発話内容の意図を理解する。ここで、発話内容の意図とは、担当者への来客時の受付、タクシーの呼び出し、打合せ場所の案内等である。意図理解部16は、発話パターンが担当者への来客時の受付である場合、優先度に応じて、該当する担当者と当該担当者に対応付けられている情報(部署、性別、電話番号、主な業務)をDB15から抽出する。意図理解部16は、音声認識された結果と理解した発話内容の意図を示す情報を理解結果としてシナリオ選択部172に出力する。

0029

シナリオ記憶部171には、優先度に応じた訪問者に対する受け答えのシナリオが記憶されている。また、シナリオ記憶部171には、質問回数と優先度の対応が記憶されている。なお、シナリオ記憶部171に記憶されている情報の例は、後述する。

0030

シナリオ選択部172は、画像認識部11から訪問者が訪問したことを示す情報が入力されたとき、質問回数に1を加算する。シナリオ選択部172は、質問回数記憶部173に記憶されている質問回数を読み出し、読み出した質問回数に応じて優先度を決定する。シナリオ選択部172は、意図理解部16が出力した理解結果と、優先度に基づいて、訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。シナリオ選択部172は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174に出力する。また、シナリオ選択部172は、意図理解部16が出力した理解結果が正しいか否かを判別するために、優先度に応じたタイミングで理解内容の確認を行う質問を、シナリオを用いて行い、この質問に対する訪問者の応答に応じて、2回目以降の質問を行うか否かを判別する。シナリオ選択部172は、訪問者に対する質問文または確認文を示す情報を意図理解部16に出力する。シナリオ選択部172は、同一の訪問者に対して行った質問回数を質問回数記憶部173に記憶させる。シナリオ選択部172は、同一の訪問者に対する一連のやりとりが終了したとき、質問回数を0にリセットする。なお、優先度、シナリオの例については、後述する。

0031

質問回数記憶部173は、同一の訪問者に対する質問回数を記憶する。なお、質問回数の初期値は、例えば0である。

0032

音声出力部174は、ロボット2の例えば口に対応する位置に取り付けられているスピーカである。音声出力部174は、シナリオ選択部172が出力した音声信号を発する。

0033

<優先度、シナリオの例>
次に、優先度とシナリオの例を説明する。
図2は、本実施形態に係る優先度とシナリオの例を示す図である。図2に示すように、各シナリオには、優先度と、何回目の質問でシナリオを用いるのかと、発話を切るタイミングおよび理解結果を確認するタイミングとが対応付けられてシナリオ記憶部171に記憶されている。
質問回数が1回目のとき優先度は1であり、質問回数が2回目または3回目のとき優先度は2であり、質問回数が4回目のとき優先度は3である。また、図2において「−>」は、発話を切るタイミングと理解結果を確認するタイミングを表している。なお、図2に示した例は一例であり、これに限られない。例えば、質問回数が2回目のとき優先度は2であり、質問回数が3回目のとき優先度は3であってもよい。また、優先度は2つ以上であればよく、4つ以上であってもよい。

0034

優先度が1では、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」を、訪問者に発話させることを促すシナリオと、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」を理解した結果を確認するシナリオが設定されている。

0035

図3は、本実施形態に係る優先度が1の場合のシナリオに基づくロボット2と訪問者との会話の一例を示す図である。図3において、R11とR12は、シナリオに基づくロボット2の発話であり、H11とH12は、訪問者(お客様)の発話である。
質問回数が1回目であるため、シナリオ選択部172は優先度を1に設定し、優先度が1に対応するシナリオをシナリオ記憶部171から読み出す。
図3に示すように、ロボット2は、読み出されたシナリオに対応する発話R11を、音声出力部174を介して行うことによって、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」の4つの項目を、訪問者に発話させることを促す。
この発話R11に応じて、訪問者は、発話H11を行う。

0036

ロボット2は、発話H11を取得し、取得した発話H11の音声認識を行う。音声認識の結果、音声認識部14は、「XXX社の田中と申しますが、YYY部の鈴木さまを、お願いいたします。」のテキスト情報を得る。そして、意図理解部16は、訪問者の発話H11の内容を、DB15を参照して理解し、理解した結果、訪問者の所属が「えっくすえっくすえっくすしゃ」であり、訪問者の名前が「たなか」であり、担当者の所属が「ぜっとぜっとぜっとぶ」であり、担当者の名前が「すずか」であると理解する。そして、シナリオ選択部172は、優先度が1に対応するシナリオに応じて、理解結果を確認する発話R12を、音声出力部174を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。なお、シナリオ選択部172は、例えば、シナリオ記憶部171に記憶されているシナリオのひな形に、意図理解部16が出力した理解された結果を埋め込んで、音声信号を生成する。
この発話R12に対して、訪問者は、発話H12を行う。すなわち、音声処理装置1の認識、理解結果が間違っていたため、間違っていることを示す発話を行う。
シナリオ選択部172は、図3に示した一連の会話を終了した後、理解結果が誤っていたため、質問回数に1を加算する。

0037

なお、シナリオ選択部172は、意図理解部16が出力した理解結果に基づいて、理解された結果が正しいか否かを判別する例を説明したが、これに限られない。例えば、画像認識部11が、取得した画像に対して周知の手法で画像認識を行うことで、訪問者がうなずいているのか、首をかしげる等を行っているのかを認識して、認識した動作認識結果をシナリオ選択部172に出力するようにしてもよい。この場合、シナリオ選択部172は、画像認識部11が出力した動作認識結果に基づいて、理解された結果が正しいか否かを判別するようにしてもよい。

0038

図2に戻って、優先度とシナリオの説明を続ける。
優先度が2では、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」の項目の1つずつを、訪問者に発話させることを促すシナリオと、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」それぞれを逐次理解した結果を逐次確認するシナリオが設定されている。

0039

図4は、本実施形態に係る優先度が2の場合のシナリオに基づくロボット2と訪問者との会話の一例を示す図である。図4において、R21〜R28は、シナリオに基づくロボット2の発話であり、H21〜H28は、訪問者の発話である。また、C21〜C24は、発話のグループを示している。

0040

図4に示すように、シナリオ選択部172は、優先度が2に対応付けられているシナリオに応じて、まず、「訪問者の所属」を、訪問者に発話させることを促すシナリオ読み出し、読み出したシナリオに基づく発話R21を、音声出力部174を介して行う。
訪問者は、発話R21に応じて、発話H21を行う。
そして、シナリオ選択部172は、発話H21が理解された結果を用いて、優先度が2に対応するシナリオに応じた発話R22を、音声出力部174を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。2回目では、このように1つの項目毎に認識および理解と確認を行う。
訪問者は、発話R22に応じて、発話H22を行う。なお、シナリオ選択部172は、確認した応答である発話H22が「いいえ」であっても、C22以下の会話を継続する。
以下、音声処理装置1は、「訪問者の名前」、「担当者の所属」、および「担当者の名前」1つずつを、訪問者に発話させることを促し、1つの項目毎に理解された結果を確認していく。
シナリオ選択部172は、図4に示したC21〜C24の一連の会話を終了した後、理解結果が誤っていたため、質問回数に1を加算する。

0041

意図理解部16は、2回目の質問で得られた結果、音声認識結果が間違っていた項目が「担当者の所属」および「担当者の名前」であると理解する。そして、意図理解部16は、シナリオ選択部172に、3回目の質問を行うことを示す情報を出力する。この場合、シナリオ選択部172は、音声認識結果が間違っていた「担当者の所属」および「担当者の名前」についての会話C23とC24を行う。なお、シナリオ選択部172は、同じ優先度に複数のシナリオがシナリオ記憶部171に格納されている場合、2回目と3回目で異なるシナリオを選択する、すなわち2回目と3回目で質問が異なるようにしてもよい。

0042

図2に戻って、優先度とシナリオの説明を続ける。
優先度が3では、「担当者の所属」と「担当者の名前」1つずつを、訪問者に発話させることを促すシナリオと、「担当者の所属」と「担当者の名前」それぞれを逐次理解した結果を、逐次確認するシナリオが設定されている。このように、優先度が3の場合に、「担当者の所属」と「担当者の名前」のみを質問して、訪問者から得る理由は、仮に訪問者の名前や所属の認識・理解結果が間違っていても、担当者へ連絡する優先順位が高いためである。例えば、初めて来社された訪問者の場合、訪問者名がDB15に格納されていず、正しく音声認識できない場合もある。その場合であっても、例えば電話を接続することが優先であるため、会社名および訪問者名の再質問を担当者に行わない。

0043

図5は、本実施形態に係る優先度が3の場合のシナリオに基づくロボット2と訪問者との会話の一例を示す図である。図5において、R31、R32は、シナリオに基づくロボット2の発話であり、H31、H32は、訪問者の発話である。
図5に示す例では、発話R31に対して、訪問者が担当者の名前に関する発話H31を行ったため、意図理解部16は、発話H31に含まれている名詞が担当者の名前であると理解する。なお、図5に示す例では、音声認識部14によって、担当者の名前が「すずき」と認識された例である。そして、意図理解部16は、DB15を参照して、「すずき」に該当する担当者が「鈴木」であると理解する。次に、意図理解部16は、複数の「鈴木」がDB15に存在する場合、DB15を探索して「鈴木」が所属する部署を抽出する。図5に示す例では、該当する担当者「鈴木」が2名存在していたため、意図理解部16は、該当する2人の担当者に関する情報(所属と名前)を、シナリオ選択部172に出力する。シナリオ選択部172は、優先度が3に対応付けられているシナリオに応じて、担当者がどちらであるかを質問する発話R31のシナリオを選択する。
なお、図5に示した例では、同じ名字の担当者が異なる部署に存在する例を示したが、同じ部署に同じ名字の担当者が複数存在する場合、該当者が男性女性の場合、男性であるか女性であるかを質問するシナリオを選択するようにしてもよく、該当者のフルネームを質問するシナリオを選択するようにしてもよく、該当者が主に担当している業務内容を質問するシナリオを選択するようにしてもよい。

0044

以上のように、優先度が1の場合、音声処理装置1は、4つの項目(訪問者の所属、訪問者名、担当者の所属、担当者の名前)を一回の発話から認識する。このため、仮に1つの項目に対する認識率が90%である場合、4つの項目が全て正しく認識できる確率は約66%(=0.9^4)である。
一方、優先度が2および3の場合、音声処理装置1は、1つの項目(訪問者の所属、訪問者名、担当者の所属、担当者の名前のうちの1つ)毎に発話を促し、1つの項目が含まれている発話から認識する。このため、仮に1つの項目に対する認識率が90%である場合、4つの項目それぞれを正しく認識できる確率それぞれは90%である。すなわち、項目を1つずつ認識することで、4つの項目全ての認識率を向上させることができる。また、認識結果が誤っていた項目のみについて質問を行う(すなわち、前回と異なる質問を行う)ようにしたので、全ての項目に対して再度認識を繰り返す必要がなくなり、認識にかかる時間を短縮することができる。

0045

<音声処理装置1の処理手順
次に、音声処理装置1の処理手順を説明する。
図6は、本実施形態に係る音声処理装置1の処理のフローチャートである。なお、図6では、優先度が1〜3の例を説明する。

0046

(ステップS1)画像認識部11は、撮像部10が出力した画像に対して、周知の画像認識手法を用いて、例えば顔認識を行う。続けて、画像認識部11は、画像に人間の顔が含まれていると認識できた場合、訪問者が訪れたと判別して訪問者が訪れたことを示す情報を生成する。

0047

(ステップS2)シナリオ選択部172は、画像認識部11から訪問者が訪問したことを示す情報が入力されたとき、質問回数に1を加算する。続けて、シナリオ選択部172は、質問回数記憶部173を参照して、優先度を1に決定する。
(ステップS3)シナリオ選択部172は、優先度が1であるか2であるか3であるかを判別する。シナリオ選択部172は、優先度が1であると判別した場合(ステップS3;優先度1)、ステップS4に処理を進め、優先度が2であると判別した場合(ステップS3;優先度2)、ステップS10に処理を進め、優先度が3であると判別した場合(ステップS3;優先度3)、ステップS13に処理を進める。

0048

(ステップS4)シナリオ選択部172は、優先度1に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。

0049

(ステップS5)シナリオ選択部172は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174から発することで、訪問者への質問を行う。
(ステップS6)音声認識部14は、収音部12によって収音された訪問者への質問に対する応答である音声信号を取得する。続けて、音声認識部14は、取得した音声信号に対して、音声認識辞書13を参照して、音声認識を行う。

0050

(ステップS7)意図理解部16は、音声認識部14が出力した認識結果に対して、DB15を参照して、発話内容の意図を理解する。

0051

(ステップS8)シナリオ選択部172は、優先度1に応じて、訪問者の発話を認識、理解した結果が正しいか否かを確認するシナリオを選択する。続けて、シナリオ選択部172は、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174から発することで、訪問者への確認を行う。

0052

(ステップS9)音声認識部14は、収音部12によって収音された訪問者への確認に対する応答である音声信号を取得する。続けて、音声認識部14は、取得した音声信号に対して、音声認識辞書13を参照して、音声認識を行う。続けて、意図理解部16は、音声認識部14が出力した認識結果に対して、DB15を参照して、発話内容の意図を理解する。続けて、意図理解部16は、ステップS16に処理を進める。

0053

(ステップS10)シナリオ選択部172は、優先度2に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。
(ステップS11)音声認識部14、意図理解部16、およびシナリオ選択部172は、ステップS5〜ステップS9の処理を行う。

0054

(ステップS12)シナリオ選択部172は、優先度2に対応するシナリオの質問が全て終了したか否かを判別する。シナリオ選択部172は、優先度2に対応するシナリオの質問が全て終了したと判別した場合(ステップS12;YES)、ステップS16の処理に進め、優先度2に対応するシナリオの質問が全て終了していないと判別した場合(ステップS12;NO)、ステップS11の処理に戻す。

0055

(ステップS13)シナリオ選択部172は、優先度3に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。
(ステップS14)音声認識部14、意図理解部16、およびシナリオ選択部172は、ステップS5〜ステップS9の処理を行う。

0056

(ステップS15)シナリオ選択部172は、優先度3に対応するシナリオの質問が全て終了したか否かを判別する。シナリオ選択部172は、優先度3に対応するシナリオの質問が全て終了したと判別した場合(ステップS15;YES)、ステップS16の処理に進め、優先度3に対応するシナリオの質問が全て終了していないと判別した場合(ステップS15;NO)、ステップS14の処理に戻す。

0057

(ステップS16)意図理解部16は、ステップS5で音声認識され、ステップS6で理解された結果が正しいか否かを、ステップS8で音声認識かつ理解した結果に基づいて判別する。意図理解部16は、音声認識され理解された結果が正しいと判別した場合(ステップS16;YES)、処理を終了し、音声認識され理解された結果が正しくないと判別された場合(ステップS16;NO)、ステップS2に処理を戻す。
以上で、音声処理装置1の処理を終了する。

0058

以上のように、本実施形態の音声処理装置1は、音声信号を取得する音声入力部(収音部12)と、音声入力部によって取得された音声信号に対して音声認識を行う音声認識部14と、音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部16と、意図理解部によって理解された理解結果に基づいて利用者に対して質問を行う質問部17と、を備え、質問部は、理解結果と所定の優先度に応じて利用者に対する質問内容を変更する。

0059

この構成によって、本実施形態によれば、意図理解の結果に応じて質問内容を変更することで、利用者の意図を理解するのに必要な時間を短くすることができるとともに意図理解の高精度化を図ることができる。

0060

また、本実施形態の音声処理装置1において、質問部17は、理解結果が正しいか否かを利用者に対して確認する確認質問を行い、意図理解部によって確認質問が理解された結果に基づいて、優先度を変更する。

0061

この構成によって、本実施形態によれば、理解した結果が正しいか否かに応じて質問内容を変更することで、音声認識が正しくできなかった項目に対して、優先度に応じたシナリオを用いて例えば異なる質問文を用いて、利用者に質問を行う。この結果、本実施形態によれば、利用者の返答を得やすくなるため、得た音声信号の認識結果の精度を向上させることができる。

0062

また、本実施形態の音声処理装置1において、質問部17は、優先度に応じて、質問内容を、必要な目的語を聞きだす質問内容に変更する。

0063

この構成によって、本実施形態によれば、利用者から得たい目的語に関する質問を行うことで、目的語を得ることができる。なお、目的語とは、訪問者の所属、訪問者の名前、担当者の所属、担当者の名前等である。これにより、本実施形態によれば、得た目的語を音声認識することで、複数の目的語に対して行う音声認識より高い認識率を得ることができる。

0064

また、本実施形態の音声処理装置1において、優先度は、利用者に対して行った質問回数に基づく。

0065

この構成によって、本実施形態によれば、質問回数に応じて優先度が設定されているため、質問回数が多くなった場合に、例えば優先的に得たい目的語に対する質問を行い、優先度が低い目的語に対する質問を行わないように質問を変更することができる。これにより、利用者に対する負担を軽減でき、例えば受け付け業務における必要最低限な情報を効率よく得ることができる。

0066

なお、図2に示したタイミングの例は1例であり、訪問者へ確認を行うタイミングは、これに限られない。さらに質問を行う順番もこれに限られない。例えば、優先度が2の場合、訪問者の所属と名前までを連続して質問、取得し、担当者の所属と名前については、項目毎に質問、取得するようにしてもよい。訪問者の所属や名前の前に、担当者の所属や名前を質問して取得するようにしてもよい。また、質問の仕方も、1項目毎に行う方法に限られず、図5に示したように、担当者の名前を質問して、得られた応答に基づいて、担当者の所属を候補の中から質問するようにしてもよい。

0067

なお、音声認識辞書13、DB15、シナリオ記憶部171のうち少なくとも1つが、ネットワーク(不図示)を介して音声処理装置1と接続されていてもよい。さらに、音声認識辞書13、DB15、シナリオ記憶部171に格納または記憶されている情報は、更新、追加、修正のうちの少なくとも1つが音声認識部14、意図理解部16、シナリオ選択部172によって行われてもよい。

0068

[第2実施形態]
第1実施形態では、訪問者が発話した発話内容に対する理解結果が正しいか否かを、音声を用いて確認する例を説明した。本実施形態では、画像表示部に理解結果を提示して、訪問者に確認してもらい、または認識結果または理解結果の候補が複数有る場合に複数の候補を提示して訪問者に選択してもらう例を説明する。

0069

図7は、本実施形態に係る音声処理装置1Aの概略構成を示すブロック図である。図7に示すように、音声処理装置1Aは、撮像部10、画像認識部11、収音部12、音声認識辞書13、音声認識部14、DB15、意図理解部16、質問部17A、画像表示部18、およびタッチパネル入力部19を備えている。質問部17Aは、シナリオ記憶部171、シナリオ選択部172A、質問回数記憶部173、および音声出力部174を備えている。なお、第1実施形態と同様に、音声処理装置1Aがロボット2に搭載されている例を説明する。また、音声処理装置1と同じ機能を有する機能部には同じ符号を用いて、説明を省略する。

0070

シナリオ選択部172Aは、画像認識部11から訪問者が訪問したことを示す情報が入力されたとき、質問回数に1を加算する。シナリオ選択部172Aは、質問回数記憶部173に記憶されている質問回数を読み出し、読み出した質問回数に応じて優先度を決定する。シナリオ選択部172Aは、意図理解部16が出力した理解結果と、優先度に基づいて、訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。シナリオ選択部172Aは、選択したシナリオを音声信号に変換し、変換した音声信号を音声出力部174に出力する。また、シナリオ選択部172Aは、意図理解部16が出力した理解結果が正しいか否かを判別するために、理解内容の確認を行う質問を行う画像を生成し、生成した画像を画像表示部18に表示させる。シナリオ選択部172Aは、この質問に対するタッチパネル入力部19が出力した訪問者の応答に応じて、2回目以降の質問を行うか否かを判別する。シナリオ選択部172Aは、同一の訪問者に対して行った質問回数を質問回数記憶部173に記憶させる。また、シナリオ選択部172Aは、音声認識された結果の候補が複数存在する場合、または理解された結果の候補が複数存在する場合、タッチパネル入力部19を訪問者が操作した操作結果を取得し、取得した操作結果に基づいて、複数の候補から1つの候補を選択する。シナリオ選択部172Aは、同一の訪問者に対する一連のやりとりが終了したとき、質問回数を0にリセットする。

0071

画像表示部18は、例えば液晶パネルである。画像表示部18は、質問部17Aが出力した画像を表示する。質問部17Aと画像表示部18とは、有線または無線で接続されている。また、画像表示部18は、例えばスマートフォンなどの携帯電話タブレット端末等であってもよい。

0072

タッチパネル入力部19は、画像表示部18の上面に設けられているタッチパネルセンサである。タッチパネル入力部19は、訪問者の操作を受け付け、受け付けた操作結果を示す情報をシナリオ選択部172Aに出力する。

0073

<画像表示部18に表示される画像の例>
次に、画像表示部18に表示される画像の例を説明する。
図8は、本実施形態に係る画像表示部18に表示される画像g101の例を示す図である。なお、図8に示した例は、4つの項目(訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前)それぞれに対する理解結果を画像表示部18に表示させ、タッチパネル入力部19を訪問者が操作して、それぞれの確認を行う例である。符号121で囲んだ領域における各欄の領域毎(ただし空欄を除く)には、ボタン割り当てられている。図8に示した画像g101は、例えば、優先度が1の場合に、訪問者の返答を音声認識、理解したときに表示される。

0074

鎖線g111で囲んだ領域は、訪問者の所属を確認するために画像表示部18に表示される画像である。また、鎖線g111で囲んだ領域は、音声認識部14が、訪問者の所属を示す音声信号に対して認識した結果に対してN−Best探索により上位3つを選択し、意図理解部16が、選択された上位3つに対応する単語(「XXX」、「AAA」、「ZZZ」)を選択した例である。訪問者は、「XXX」、「AAA」、「ZZZ」の候補の中に正解が存在する場合、正解の候補に対応するボタンの画像をタッチして選択し、正解が無い場合、「該当なし」を選択する。なお、正解が無い場合、シナリオ選択部172Aは、ソフトウェアキーボードを画像表示部18上に表示させ、訪問者にタッチパネル入力部19を操作してもらって所属を入力させるようにしてもよい。または、シナリオ選択部172Aは、音声信号を用いて、訪問者に所属を再質問するようにしてもよい。

0075

鎖線g112で囲んだ領域は、訪問者の名前を確認するために画像表示部18に表示される画像である。また、鎖線g112で囲んだ領域は、音声認識部14が、訪問者の名前を示す音声信号に対して認識した結果からN−Best探索により上位3つを選択し、意図理解部16が、選択された上位3つに対応する単語(「田中」、「中」、「真中」)を選択した例である。

0076

鎖線g113で囲んだ領域は、訪問先の担当者の所属を確認するために画像表示部18に表示される画像である。また、鎖線g113で囲んだ領域は、担当者の所属を示す音声信号に対して認識した結果、該当する単語が2つ存在した例であり、意図理解部16が、N−Best探索により選択された上位2つに対応する単語(「CCCC」、「YYY」)を選択した例である。

0077

鎖線g114で囲んだ領域は、訪問先の担当者の名前を確認するために画像表示部18に表示される画像である。また、鎖線g114で囲んだ領域は、担当者の名前の音声信号に対して認識した結果、1つの候補が得られた例であり、意図理解部16が、選択された1つに対応する単語(「鈴木」)を選択した例である。

0078

なお、シナリオ選択部172Aは、図8に示した確認画面を、優先度毎に表示させるようにしてもよい。また、シナリオ選択部172Aは、優先度が1のとき、図8の表示を行った場合、優先度が2のときに該当なしの項目のみに対して音声信号を用いて項目毎に質問する。または、シナリオ選択部172Aは、優先度が2のときに該当なしの項目のみに対して画像表示部18にソフトウェアキーボードの画像を表示させ、訪問者によってタッチパネル入力部19が操作された結果である入力を取得するようにしてもよい。

0079

また、シナリオ選択部172Aは、訪問者への確認に対する応答である「はい」、「いいえ」のボタンを含む画像を生成し、生成した画像を画像表示部18に表示させるようにしてもよい。この場合、音声処理装置1Aは、認識、理解した結果に対する質問を、音声信号を用いて行い、図6のステップS9において、「はい」、「いいえ」のボタンを含む画像を画像表示部18に表示させ、タッチパネル入力部19が出力した入力結果に応じて、認識された内容が正しいか否かを判別するようにしてもよい。

0080

<音声処理装置1Aの処理手順>
次に、音声処理装置1Aの処理手順を説明する。
図9は、本実施形態に係る音声処理装置1Aの処理のフローチャートである。なお、図9では、優先度が1〜3の例を説明する。
(ステップS1〜S3)音声処理装置1Aは、ステップS1〜S2の処理を行う。シナリオ選択部172Aは、優先度が1であるか2であるか3であるかを判別する。シナリオ選択部172Aは、優先度が1であると判別した場合(ステップS3;優先度1)、ステップS4に処理を進め、優先度が2であると判別した場合(ステップS3;優先度2)、ステップS105に処理を進め、優先度が3であると判別した場合(ステップS3;優先度3)、ステップS110に処理を進める。

0081

(ステップS4)シナリオ選択部172Aは、ステップS4の処理の終了後、ステップS101の処理に進む。
(ステップS101)音声処理装置1Aは、ステップS5〜S7の処理を行い、処理の終了後、ステップS102の処理に進む。

0082

(ステップS102)シナリオ選択部172Aは、意図理解部16が出力した理解結果に基づいて、例えば図8に示したような項目毎に応答内容を確認する画像を生成し、生成した画像を画像表示部18に出力する。続けて、画像表示部18は、シナリオ選択部172Aが出力した画像を表示する。

0083

(ステップS103)タッチパネル入力部19は、訪問者が操作した結果を取得する。
(ステップS104)シナリオ選択部172Aは、タッチパネル入力部19が出力した結果の中に、「該当なし」を示す情報が含まれていないか否かを判別する。シナリオ選択部172Aは、「該当なし」を示す情報が含まれていると判別した場合(ステップS104;NO)、「該当なし」が含まれていた項目を示す情報を抽出し、ステップS2に処理を戻す。シナリオ選択部172Aは、「該当なし」を示す情報が含まれていないと判別した場合(ステップS104;YES)、処理を終了する。

0084

(ステップS105)シナリオ選択部172Aは、優先度2に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。続けて、シナリオ選択部172Aは、選択したシナリオのうち、「該当なし」を示す情報が含まれていた項目のシナリオのみを抽出する。
(ステップS106)音声処理装置1Aは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップS5〜ステップS7の処理を行う。

0085

(ステップS107)シナリオ選択部172Aは、意図理解部16が出力した理解結果に基づいて、「該当なし」を示す情報が含まれていた項目毎に応答内容を確認する画像を生成し、生成した画像を項目毎に画像表示部18に出力する。続けて、画像表示部18は、シナリオ選択部172Aが出力した画像を項目毎に表示する。
(ステップS108)タッチパネル入力部19は、訪問者が操作した結果を取得する。

0086

(ステップS109)シナリオ選択部172Aは、優先度2に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したか否かを判別する。シナリオ選択部172Aは、優先度2に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したと判別した場合(ステップS109;YES)、ステップS104の処理に進め、優先度2に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了していないと判別した場合(ステップS109;NO)、ステップS106の処理に戻す。

0087

(ステップS110)シナリオ選択部172Aは、優先度3に応じた訪問者に対して発話するシナリオをシナリオ記憶部171から選択する。続けて、シナリオ選択部172Aは、選択したシナリオのうち、「該当なし」を示す情報が含まれていた項目のシナリオのみを抽出する。
(ステップS111)音声処理装置1Aは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップS5〜ステップS7の処理を行う。

0088

(ステップS112)シナリオ選択部172Aは、意図理解部16が出力した理解結果に基づいて、「該当なし」を示す情報が含まれていた項目毎に応答内容を確認する画像を生成し、生成した画像を項目毎に画像表示部18に出力する。続けて、画像表示部18は、シナリオ選択部172Aが出力した画像を項目毎に表示する。
(ステップS113)タッチパネル入力部19は、訪問者が操作した結果を取得する。

0089

(ステップS114)シナリオ選択部172Aは、優先度3に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したか否かを判別する。シナリオ選択部172Aは、優先度3に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したと判別した場合(ステップS114;YES)、ステップS104の処理に進め、優先度3に対応する「該当なし」を示す情報が含まれていた項目に対する質問が全て終了していないと判別した場合(ステップS114;NO)、ステップS111の処理に戻す。
以上で、音声処理装置1Aの処理を終了する。

0090

なお、図9に示した例では、優先度が2または3の場合、項目毎のタイミングで質問と確認を行う例を示したが、確認画面の表示は、各優先度における「該当なし」を示す情報が含まれていた項目に対する質問が全て終了したときに行うようにしてもよい。

0091

以上のように、本実施形態の音声処理装置1Aは、画像表示部18を備え、理解結果に基づいて利用者の意図する内容の候補を画像表示部に表示させ、利用者により候補を選択可能にする。
また、本実施形態の音声処理装置1Aにおいて、質問部17Aは、音声認識部14によってN−Bestを用いて利用者の発話内容に対する候補を抽出し、抽出した候補を画像表示部18に表示させる。

0092

この構成によって、本実施形態によれば、音声処理装置1Aが音声認識した結果に基づいて各項目の候補を画像表示部18に表示させ、タッチパネル入力部19で選択させるようにしたので、ロボット2と訪問者とのやりとりの時間を短縮することができ、かつ音声の返答を再度、音声認識する必要がないので高い認識精度を得ることがすることができる。
例えば、図8において、ロボット2が訪問者に対して「お名前は田中さまでしょうか?竹中さまでしょうか?真中さまでしょうか?」と音声信号を用いて確認を行った場合、音声処理装置1Aは、訪問者のこの確認に応じた返答の「田中です。」に対して、再度、音声認識を行う必要がある。この場合、前述したように、仮に認識率が90%の場合、2回音声認識を行うことで、認識率が約80%(=0.9^2)に低下する。一方、本実施形態によれば、画像表示部18への表示と、タッチパネル入力部19による選択により、音声認識を行う回数が1回で済むため、認識率90%を得ることができる。

0093

[第3実施形態]
第2実施形態では、例えば図8に示したように、全ての項目に対して、画像表示部18に表示させてタッチパネル入力部19の操作によって選択させる例を説明したが、本実施形態では、予め定められている使用タイミングと項目のみタッチパネル入力部19の操作によって選択させる例を説明する。

0094

音声処理装置1Aの構成は、第2実施形態と同様であるが、シナリオ記憶部171に、図11に示すように、タッチパネル入力部19の使用の有無、使用タイミングが優先度に関連付けられて記憶されている。なお、シナリオ記憶部171に記憶されている情報については、後述する。

0095

<DB15に格納されている担当者に関する情報の例>
まず、DB15に格納されている担当者に関する情報の例を説明する。
図10は、第1実施形態〜第3実施形態に係るDB15に格納されている担当者に関する情報の例を示す図である。
図10に示すように、DB15には、担当者の名字の読みに、担当者の名前、所属、電話番号、性別、および主な業務内容等が関連付けられて格納されている。図9に示す例は、担当者の名前の読みが「すずき」と「よしだ」である情報の一例である。図9に示す例では、読みが「すずき」である担当者は4名であり、読みが「よしだ」である担当者は2名である。

0096

<優先度、シナリオの例>
次に、本実施形態に係るシナリオ記憶部171に記憶されている情報の一例を説明する。
図11は、本実施形態に係るシナリオ記憶部171に記憶されている情報の一例を示す図である。図11に示すように、シナリオ記憶部171には、確認を行うタイミングといずれの項目に対してタッチパネル入力部19を用いるかが、優先度と質問回数とシナリオに関連付けられている。図11に示すように、本実施形態では、受け付けにおいて、特に重要な項目である担当者の所属と担当者の名前についてタッチパネル入力による選択を併用する。

0097

優先度が1の場合、質問部17Aは、第1実施形態と同様に、訪問者が4つの項目を発話するように促す質問を行い、質問に対する応答を音声認識および理解した結果を、音声信号で出力する。図11に示すように、本実施形態では、理解結果に対する訪問者の返答を得るためにタッチパネル入力部19を使用せずに、訪問者の返答の音声信号を用いる。

0098

次に、優先度が2または3の場合、質問部17Aは、第1実施形態と同様に、4つの項目毎に訪問者へ質問と確認を行う。図11に示すように、本実施形態では、訪問者の所属と訪問者の名前に対して、第1実施形態と同様に音声信号を用いて確認を行い、音声信号による返答を取得する。そして、担当者の所属と担当者の名前に対する確認を画像表示部18に表示させ、タッチパネル入力部19を用いて選択結果を取得する。

0099

意図理解部16は、DB15を参照した結果、候補が3人以下の場合、候補の担当者の名前を全て選択する。そして、意図理解部16は、選択した候補者に関する情報を読み出して、読み出した候補者に関する情報をシナリオ選択部172Aに出力する。
意図理解部16は、DB15を参照した結果、候補が4人以上の場合、DB15に格納されている同じ読みの名字である担当者のうち、格納されている上位3人を選択する。そして、意図理解部16は、選択した候補者に関する情報を読み出して、読み出した候補者にかんする情報をシナリオ選択部172Aに出力する。

0100

図11に示すように、本実施形態では、優先度、確認を行うタイミング、得たい目的語の重要性等に応じて、音声で応対を行うのか、画像表示とタッチパネルによる選択を行うかが、設定されている。

0101

なお、図11に示した例は1例であり、訪問者へ確認を行うタイミング、タッチパネル入力を用いる項目は、これに限られない。さらに質問を行う順番もこれに限られない。訪問者の所属や名前の前に、担当者の所属や名前を質問して取得するようにしてもよい。また、質問の仕方も、1項目毎に行う方法に限られず、図5に示したように、担当者の名前を質問して、得られた応答に基づいて、担当者の所属を候補の中から質問するようにしてもよい。

0102

<画像表示部18に表示される画像の例>
次に、画像表示部18に表示される画像の例を説明する。
例えば、優先度が2の場合、画像表示部18には、図8における鎖線g113と鎖線g114で囲まれた領域の画像が、画像表示部18に表示される。訪問者は、タッチパネル入力部19を操作して、それぞれの確認または選択を行う。

0103

例えば、優先度が3の場合に、図5に示した応対によって担当者の名前「すずき」を取得したとき、意図理解部16は、DB15を参照して候補を選択する。
図12は、本実施形態に係る画像表示部18に表示される画像g201の例を示す図である。図12に示した例は、読み「すずき」に対して複数の候補が存在する場合の表示例である。
図12に示す例では、担当者の名前が「すずき」であり、3人の候補者を表示した例である。この場合、図12に示すように担当者の所属と名前とが関連付けられている。これにより、鎖線g211、g212、g213で囲まれた領域それぞれには、1つのボタンが設定されている。例えば、鎖線g211で囲まれた領域のうち、候補の欄、所属の欄、名前の欄のいずれがタッチパネル入力部19の操作によって選択されても、第1候補が選択される。

0104

なお、図12に示すように、所属は訪問者が判別可能な範囲で省略して表示されるようにしてもよい。例えば、同じ読みであり、かつ同じ部に所属している場合に下の階層の課名まで表示させるようにしてもよい。同様に、名前についても、同じ漢字の名字の担当者が複数存在する場合にフルネームを表示させ、該当する漢字の名字の担当者が1名の場合に名字のみを表示させるようにしてもよい。
また、従来技術では、意図理解部の理解が誤っていた場合、例えば、訪問者が「ZZZ部の金髪の方をお願いします。」と発話した場合、「金髪」を担当者名であると理解を誤る場合もあり得た。このような場合、再度、訪問者に同じ質問を繰り返しても認識率を向上できなかった。第1実施形態〜第3実施形態によれば、優先度毎に、目的語を聞き出せるように質問を変え、質問を区切るタイミングと質問を認識・理解した結果を確認するタイミングを変えたので、上述したように1つの項目の認識率を向上させることができる。

0105

以上のように、本実施形態では、優先度と、得たい目的語の重要性等に応じて、音声による応対と音声認識、または画像表示とタッチパネル入力部19による選択を併用する。この結果、本実施形態によれば、音声認識した結果、例えば担当者の名前について複数の候補がある場合であっても、N−Best探索によって最も可能性の高い順に表示させて、利用者に選択してもらいことで、利用者の作業負担を軽減でき、応対にかかる時間を短縮することができる。

0106

なお、第1実施形態〜第3実施形態では、会社における受け付け業務のうち、訪問者と担当者に関するやりとりを例に説明したが、これに限られない。本実施形態のロボット2を、会社における受け付け業務のうち、タクシーの受け付け、敷地内の案内等のやりとりを行うようにしてもよい。また、本実施形態のロボット2を、イベントの受け付け、ホテルの受け付け、チケット販売窓口業務等で利用することも可能である。この場合、DB15、シナリオ記憶部171には、用途に応じたモデル、シナリオ、優先度、優先度毎にどのタイミングで確認を訪問者へ行うか等の情報が、格納、記憶されている。
また、第1実施形態〜第3実施形態では、音声処理装置1(または1A)がロボット2に搭載されている例を説明したが、これに限られない。音声処理装置1(または1A)は、例えば、スマートフォン等の携帯電話、タブレット端末等に搭載されていてもよい。

0107

また、第1実施形態〜第3実施形態において、音声処理装置1(または1A)が撮像部10と画像認識部11を備えている場合、訪問者の顔の画像、訪問者の所属、訪問者の生前を関連付けて、例えばDB15に格納するようにしてもよい。これにより、音声処理装置1(または1A)は、訪問者の音声認識に加え、訪問者の顔の画像認識を併用して訪問者を識別するようにしてもよい。

0108

なお、本発明における音声処理装置1(または1A)の機能を実現するためのプログラムコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識、意図理解、訪問者とのやりとりを行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。

0109

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル差分プログラム)であってもよい。

0110

1、1A…音声処理装置、10…撮像部、11…画像認識部、12…収音部、13…音声認識辞書、14…音声認識部、15…DB、16…意図理解部、17、17A…質問部、171、171A…シナリオ記憶部、172、172A…シナリオ選択部、173…質問回数記憶部、174…音声出力部、18…画像表示部、19…タッチパネル入力部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ