図面 (/)

技術 対話方法、対話プログラム及び対話システム

出願人 パナソニックIPマネジメント株式会社
発明者 高橋ヴィヴィアネ遠藤充
出願日 2015年12月28日 (4年6ヶ月経過) 出願番号 2015-256787
公開日 2016年11月24日 (3年7ヶ月経過) 公開番号 2016-197227
状態 特許登録済
技術分野 音声入出力 音声の分析・合成 音声認識
主要キーワード チーズバー 応答タイプ 言い換え語 話者特定 追加的情報 知識抽出 スロット値 ホットコーヒー
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年11月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる対話方法対話プログラム及び対話システムを提供する。

解決手段

意味ネットワーク記憶部111は、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶し、自然言語プロセッサ102は、ユーザの発話内容を示す発話情報を取得し、複数のノードの中から発話情報に対応する第1のノードを特定し、会話生成部121は、特定された第1のノードに関連付けられている複数の第2のノードの中から、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択し、選択された1の第2のノードに応じた応答文を生成する。

概要

背景

近年、ユーザの好みを表したモデルを作成することにより、システムとユーザとのやり取りを効率よく行う技術が提案されている。

例えば、特許文献1に示す音声対話システムは、認識対象となっているキーワードに対して、それらを応答文中に含める場合に使用する言い換え語と、応答文の種類を表す応答タイプと、言い換え語と応答タイプとが選択される条件と、を記録し、言い換え語と応答タイプとが選択される条件に基づいて、認識されたキーワードに対する言い換え語と応答文テンプレートを決定し、決定された応答文テンプレートに言い換え語を挿入することにより応答文を生成している。

また、特許文献2に示す従来の音声理解システムは、電子番組ガイドEPG)の情報を受信し、EPG情報を処理して、番組データベースを形成する知識抽出部と、口述リクエストを受け、口述リクエストを複数の単語からなる一連テキスト情報翻訳する音声認識部と、一連のテキスト情報を受け、口述リクエストの語義内容解釈するように単語を処理する自然言語プロセッサと、十分な数のキーワードスロットが入力されたかどうかを判断するためにタスクフレーム分析し、空のスロットに入力するためにユーザに対して追加的情報質問する会話制御部とを備えている。

概要

対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる対話方法対話プログラム及び対話システムを提供する。意味ネットワーク記憶部111は、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶し、自然言語プロセッサ102は、ユーザの発話内容を示す発話情報を取得し、複数のノードの中から発話情報に対応する第1のノードを特定し、会話生成部121は、特定された第1のノードに関連付けられている複数の第2のノードの中から、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択し、選択された1の第2のノードに応じた応答文を生成する。

目的

本開示は、上記の問題を解決するためになされたもので、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる対話方法、対話プログラム及び対話システムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ユーザの発話に対して応答する対話システムに用いられる対話方法であって、前記ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶し、前記ユーザの発話内容を示す発話情報を取得し、前記複数のノードの中から前記発話情報に対応する第1のノードを特定し、特定された前記第1のノードに関連付けられている複数の第2のノードの中から、前記複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択し、選択された前記1の第2のノードに応じた応答文を生成する、対話方法。

請求項2

前記重み値は、前記複数の第2のノードが過去に前記ユーザによって選択された確率を表す、請求項1記載の対話方法。

請求項3

前記複数の第2のノードのうち、前記確率が所定の値より大きい第2のノードを選択する、請求項2記載の対話方法。

請求項4

前記複数の第2のノードのうち、前記確率が所定の値より大きい第2のノードが存在しない場合、前記複数の第2のノードのいずれかを前記ユーザに選択させるための応答文を生成する、請求項2又は3記載の対話方法。

請求項5

前記応答文に対する前記ユーザの回答を示す情報を取得し、前記ユーザの回答が前記複数の第2のノードのうち1の第2のノードを選択する回答であるか否かに応じて、前記重み値を更新する、請求項1〜4のいずれか1項に記載の対話方法。

請求項6

複数の第1のノードのうちの1の第1のノードに関連付けられている複数の第2のノードのうちの1の第2のノードと、前記複数の第1のノードのうちの他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して前記重み値が対応付けられており、前記1の第2のノードが特定されたか否かを判断し、前記1の第2のノードが特定された場合、前記1の第2のノードと、前記他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して対応付けられた重み値に基づいて、前記他の第1のノードに関連付けられている前記複数の第2のノードの中から1の第2のノードを選択する、請求項1〜5のいずれか1項に記載の対話方法。

請求項7

ユーザの発話に対して応答する対話プログラムであって、前記ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶する記憶部と、前記ユーザの発話内容を示す発話情報を取得する取得部と、前記複数のノードの中から前記発話情報に対応する第1のノードを特定する特定部と、前記特定部によって特定された前記第1のノードに関連付けられている複数の第2のノードの中から、前記複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択する選択部と、前記選択部によって選択された前記1の第2のノードに応じた応答文を生成する生成部としてコンピュータを機能させる、対話プログラム。

請求項8

ユーザの発話に対して応答する対話システムであって、前記ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶する記憶部と、前記ユーザの発話内容を示す発話情報を取得する取得部と、前記複数のノードの中から前記発話情報に対応する第1のノードを特定する特定部と、前記特定部によって特定された前記第1のノードに関連付けられている複数の第2のノードの中から、前記複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択する選択部と、前記選択部によって選択された前記1の第2のノードに応じた応答文を生成する生成部と、を備える対話システム。

技術分野

0001

本開示は、ユーザの発話に対して応答する対話システムにおける対話方法、ユーザの発話に対して応答する対話プログラム及びユーザの発話に対して応答する対話システムに関するものである。

背景技術

0002

近年、ユーザの好みを表したモデルを作成することにより、システムとユーザとのやり取りを効率よく行う技術が提案されている。

0003

例えば、特許文献1に示す音声対話システムは、認識対象となっているキーワードに対して、それらを応答文中に含める場合に使用する言い換え語と、応答文の種類を表す応答タイプと、言い換え語と応答タイプとが選択される条件と、を記録し、言い換え語と応答タイプとが選択される条件に基づいて、認識されたキーワードに対する言い換え語と応答文テンプレートを決定し、決定された応答文テンプレートに言い換え語を挿入することにより応答文を生成している。

0004

また、特許文献2に示す従来の音声理解システムは、電子番組ガイドEPG)の情報を受信し、EPG情報を処理して、番組データベースを形成する知識抽出部と、口述リクエストを受け、口述リクエストを複数の単語からなる一連テキスト情報翻訳する音声認識部と、一連のテキスト情報を受け、口述リクエストの語義内容解釈するように単語を処理する自然言語プロセッサと、十分な数のキーワードスロットが入力されたかどうかを判断するためにタスクフレーム分析し、空のスロットに入力するためにユーザに対して追加的情報質問する会話制御部とを備えている。

先行技術

0005

特開2008−39928号公報
特開2000−250575号公報

発明が解決しようとする課題

0006

しかしながら、従来の音声理解システムでは、タスクフレームのスロットに入力する値をユーザに直接質問し、ユーザから得られた回答に対して再度確認し、スロットの値を決定している。そのため、システムとユーザとの対話時間が長くなるとともに、システムの処理時間が長くなる。

0007

本開示は、上記の問題を解決するためになされたもので、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる対話方法、対話プログラム及び対話システムを提供することを目的とするものである。

課題を解決するための手段

0008

本開示の一局面に係る対話方法は、ユーザの発話に対して応答する対話システムに用いられる対話方法であって、前記ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶し、前記ユーザの発話内容を示す発話情報を取得し、前記複数のノードの中から前記発話情報に対応する第1のノードを特定し、特定された前記第1のノードに関連付けられている複数の第2のノードの中から、前記複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択し、選択された前記1の第2のノードに応じた応答文を生成する。

0009

この構成によれば、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードがそれぞれ関連付けて記憶されている。ユーザの発話内容を示す発話情報が取得される。複数のノードの中から発話情報に対応する第1のノードが特定される。特定された第1のノードに関連付けられている複数の第2のノードの中から、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードが選択される。そして、選択された1の第2のノードに応じた応答文が生成される。

0010

したがって、複数の第2のノードの中から1の第2のノードをユーザに選択させるための質問文を生成する必要がなく、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて選択された1の第2のノードに応じた応答文が生成されるので、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる。

0011

また、上記の対話方法において、前記重み値は、前記複数の第2のノードが過去に前記ユーザによって選択された確率を表してもよい。

0012

この構成によれば、重み値は、複数の第2のノードが過去にユーザによって選択された確率を表すので、簡単に重み値を算出することができる。

0013

また、上記の対話方法において、前記複数の第2のノードのうち、前記確率が所定の値より大きい第2のノードを選択してもよい。

0014

この構成によれば、複数の第2のノードのうち、確率が所定の値より大きい第2のノードが選択されるので、簡単に1の第2のノードを選択することができる。

0015

また、上記の対話方法において、前記複数の第2のノードのうち、前記確率が所定の値より大きい第2のノードが存在しない場合、前記複数の第2のノードのいずれかを前記ユーザに選択させるための応答文を生成してもよい。

0016

この構成によれば、複数の第2のノードのうち、確率が所定の値より大きい第2のノードが存在しない場合、複数の第2のノードのいずれかをユーザに選択させるための応答文が生成されるので、1の第2のノードを選択することができない場合であっても、ユーザに選択させることができる。

0017

また、上記の対話方法において、前記応答文に対する前記ユーザの回答を示す情報を取得し、前記ユーザの回答が前記複数の第2のノードのうち1の第2のノードを選択する回答であるか否かに応じて、前記重み値を更新してもよい。

0018

この構成によれば、応答文に対するユーザの回答を示す情報が取得される。ユーザの回答が複数の第2のノードのうち1の第2のノードを選択する回答であるか否かに応じて、重み値が更新される。

0019

したがって、ユーザがシステムを利用する毎に重み値が更新されるので、ユーザの利用状況に応じた1の第2のノードを選択することができる。

0020

また、上記の対話方法において、複数の第1のノードのうちの1の第1のノードに関連付けられている複数の第2のノードのうちの1の第2のノードと、前記複数の第1のノードのうちの他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して前記重み値が対応付けられており、前記1の第2のノードが特定されたか否かを判断し、前記1の第2のノードが特定された場合、前記1の第2のノードと、前記他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して対応付けられた重み値に基づいて、前記他の第1のノードに関連付けられている前記複数の第2のノードの中から1の第2のノードを選択してもよい。

0021

この構成によれば、複数の第1のノードのうちの1の第1のノードに関連付けられている複数の第2のノードのうちの1の第2のノードと、複数の第1のノードのうちの他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して重み値が対応付けられている。1の第2のノードが特定されたか否かが判断される。1の第2のノードが特定された場合、1の第2のノードと、他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して対応付けられた重み値に基づいて、他の第1のノードに関連付けられている複数の第2のノードの中から1の第2のノードが選択される。

0022

したがって、複数の第1のノードのうちの1の第1のノードに関連付けられている複数の第2のノードのうちの1の第2のノードと、複数の第1のノードのうちの他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに応じた1の第2のノードを選択することができる。

0023

本開示の他の局面に係る対話プログラムは、ユーザの発話に対して応答する対話プログラムであって、前記ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶する記憶部と、前記ユーザの発話内容を示す発話情報を取得する取得部と、前記複数のノードの中から前記発話情報に対応する第1のノードを特定する特定部と、前記特定部によって特定された前記第1のノードに関連付けられている複数の第2のノードの中から、前記複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択する選択部と、前記選択部によって選択された前記1の第2のノードに応じた応答文を生成する生成部としてコンピュータを機能させる。

0024

この構成によれば、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードがそれぞれ関連付けて記憶されている。ユーザの発話内容を示す発話情報が取得される。複数のノードの中から発話情報に対応する第1のノードが特定される。特定された第1のノードに関連付けられている複数の第2のノードの中から、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードが選択される。そして、選択された1の第2のノードに応じた応答文が生成される。

0025

したがって、複数の第2のノードの中から1の第2のノードをユーザに選択させるための質問文を生成する必要がなく、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて選択された1の第2のノードに応じた応答文が生成されるので、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる。

0026

本開示の他の局面に係る対話システムは、ユーザの発話に対して応答する対話システムであって、前記ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶する記憶部と、前記ユーザの発話内容を示す発話情報を取得する取得部と、前記複数のノードの中から前記発話情報に対応する第1のノードを特定する特定部と、前記特定部によって特定された前記第1のノードに関連付けられている複数の第2のノードの中から、前記複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択する選択部と、前記選択部によって選択された前記1の第2のノードに応じた応答文を生成する生成部と、を備える。

0027

この構成によれば、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードがそれぞれ関連付けて記憶されている。ユーザの発話内容を示す発話情報が取得される。複数のノードの中から発話情報に対応する第1のノードが特定される。特定された第1のノードに関連付けられている複数の第2のノードの中から、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードが選択される。そして、選択された1の第2のノードに応じた応答文が生成される。

0028

したがって、複数の第2のノードの中から1の第2のノードをユーザに選択させるための質問文を生成する必要がなく、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて選択された1の第2のノードに応じた応答文が生成されるので、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる。

発明の効果

0029

本開示によれば、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができる。

図面の簡単な説明

0030

本実施の形態における音声対話システムの概要を説明するための図である。
本実施の形態における音声対話システムの構成を示す図である。
判断条件テーブルの一例を示す図である。
本実施の形態における音声対話システムの音声対話処理について説明するためのフローチャートである。
本実施の形態における音声対話システムの重み値更新処理について説明するためのフローチャートである。
本実施の形態における音声対話システムの音声対話処理と、従来の音声対話システムの音声対話処理との差異を説明するための図である。
本実施の形態の変形例における音声対話システムの意味ネットワークの一例を示す図である。
本実施の形態の変形例における音声対話システムの音声対話処理について説明するためのフローチャートである。
従来例の音声対話システムにおいて用いられる対話方法による対話文の一例を表す図である。
本開示に係る音声対話システムにおいて用いられる対話方法による対話文の一例を表す図である。

実施例

0031

以下添付図面を参照しながら、本発明の実施の形態について説明する。なお、以下の実施の形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定するものではない。

0032

図1は、本実施の形態における音声対話システムの概要を説明するための図である。

0033

図1に示す例は、ドリンク販売する際に用いられる意味ネットワークの一例を示している。図1に示す意味ネットワークは、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードを含む。複数のノードは、それぞれ関連付けられている。関連付けられている2つのノードに対しては、2つのノードの関係性を示す関係情報が付与されている。関係情報は、一方のノードが他方のノードに対して下位概念の関係にあることを示す情報、一方のノードが他方のノードに含まれるコンセプトに係るタスクを実行するために必須の項目であることを示す情報、一方のノードが他方のノードに含まれるコンセプトに係るタスクに対して任意に設定される項目であることを示す情報、及び一方のノードが他方のノードの値であることを示す情報を含む。

0034

例えば、“coffee”を示すノード11と“drink”を示すノード12とには、“coffee”を示すノード11が“drink”を示すノード12に対して下位概念である(is−a関係である)ことを示す関係情報が対応付けられている。なお、“coffee”を示すノード11は、ドメインとも呼ばれる。

0035

また、“size”を示すノード14と“drink”を示すノード12とには、“size”を示すノード14が“drink”を示すノード12に対して必須の項目であることを示す関係情報が対応付けられている。“quantity”を示すノード15と“drink”を示すノード12とには、“quantity”を示すノード15が“drink”を示すノード12に対して任意に設定される項目であり、ユーザが通知する場合に決められるノードであることを示す関係情報が対応付けられている。

0036

また、“sugar”を示すノード17と“coffee”を示すノード11とには、“sugar”を示すノード17が“coffee”を示すノード11に対してタスクを実行するために必須の項目であることを示す関係情報が対応付けられている。“temperature”を示すノード18と“coffee”を示すノード11とには、“temperature”を示すノード18が“coffee”を示すノード11に対してタスクを実行するために必須の項目であることを示す関係情報が対応付けられている。“sugar”を示すノード17及び“temperature”を示すノード18は、必須スロット又は単にスロットと呼ぶ。

0037

“hot”を示すノード19と“temperature”を示すノード18とには、“hot”を示すノード19が“temperature”を示すノード18の値であることを示す関係情報が対応付けられている。“cold”を示すノード20と“temperature”を示すノード18とには、“cold”を示すノード20が“temperature”を示すノード18の値であることを示す関係情報が対応付けられている。“hot”を示すノード19及び“cold”を示すノード20は、“temperature”を示すノード18に対していずれかが選択されるノードである。“hot”を示すノード19及び“cold”を示すノード20は、スロット値と呼ぶ。

0038

ユーザがドリンクを購入する際に、コーヒーを選択した場合、砂糖が必要であるか否か、ホット及びコールドのいずれであるかは、必ず決定する必要があり、これらが決定されない場合、ドリンクを提供する際のユーザの発話に対して応答文を生成するタスクを実行することができない。すなわち、温度は、タスクを達成するために必須のノード(スロット)であり、システムは、スロットの値(この場合、コールド又はホット)を決定する必要がある。

0039

従来のシステムでは、コーヒーの温度について、システムがユーザに対し、ホット及びコールドのいずれにするかを質問し、ユーザの回答を音声認識により判断していた。ユーザがホットを選択した場合、システムは、ホットでよいか否かを再度質問し、ユーザの回答を音声認識により判断し、コーヒーの温度を決定していた。

0040

これに対し、本開示のシステムでは、コーヒーの温度について、システムがユーザに対し、ホット及びコールドのいずれにするかを質問することなく、過去に複数のユーザがホット及びコールドのいずれを選択したかに応じてそれぞれに重み値を付与し、重み値に応じて、ホットにするか否か又はコールドにするか否かを質問する。例えば、過去にコールドが60%の確率で選択され、ホットが40%の確率で選択された場合、システムは、ユーザに対してコールドにするか否かを質問し、ユーザの回答を音声認識により判断し、コーヒーの温度を決定する。この場合、従来のシステムに比べて温度を再度確認する必要がなく、システムとユーザとの対話時間を短縮することができるとともに、システムの処理時間を短縮することができる。

0041

また、具体的かつ正しい内容の質問が生成できれば、ユーザから、タスクを実行するために必要な情報を獲得することが容易となる。例えば、ユーザがコーヒーを注文した場合、システムが「ホットコーヒーでよろしいですね?」と問いかけることによって、ユーザの回答を「はい」又は「いいえ」などの肯定的な表現又は否定的な表現に限定することができる。

0042

また、別のケースとして、例えば、ユーザが「チーズバーガーセット」を指定するセットメニューの注文を行った場合について考える。このとき、システムがユーザにセットメニューにおけるドリンクの種類をねる場合には、確率に基づいて、例えば、「コークオレンジジュースのどちらですか?」という択一的な質問をする。これにより、ユーザの回答を、「コークです。」又は「オレンジジュースです。」など、システムが受理できる内容を含む回答に誘導しやすくなる。すなわち、システムが択一的な質問をすることによって、ユーザが想定外の回答を行わないよう促す。これにより、システムが受理できる表現をユーザが用いる可能性が従来技術を適用した場合よりも高まり、ユーザからより確実に情報を獲得することができる。

0043

図2は、本実施の形態における音声対話システムの構成を示す図である。音声対話システムは、音声認識部101、自然言語プロセッサ102、メモリ103、会話管理部104及び音声合成部105を備える。

0044

メモリ103は、意味ネットワーク記憶部111、重み値管理テーブル記憶部112及び判断条件テーブル記憶部113を備える。

0045

意味ネットワーク記憶部111は、複数のノードを繋げた意味ネットワークを予め記憶している。意味ネットワーク記憶部111は、ユーザの発話に対して応答文を生成するタスクを実行するために必要な複数のノードをそれぞれ関連付けて記憶する。

0046

重み値管理テーブル記憶部112は、意味ネットワークに含まれるスロットの値と、重み値とを対応付けて記憶している。

0047

判断条件テーブル記憶部113は、選択可能なスロット値の数と、スロット値が選択される条件と、条件を満たす際に得られるスロット値と、応答文を表すテンプレートとを対応付けて記憶している。

0048

音声認識部101は、マイク(不図示)によって取得された入力音声をテキスト情報に変換する。音声認識部101は、ユーザの発話を認識してテキスト情報に変換する。

0049

自然言語プロセッサ102は、ユーザの発話内容を示す発話情報(テキスト情報)を取得する。自然言語プロセッサ102は、複数のノードの中から発話情報に対応する第1のノード(スロット)を特定する。自然言語プロセッサ102は、音声認識部101によって出力される一連のテキスト情報を分析して、語義内容及びユーザの発話の意図を理解する。自然言語プロセッサ102は、例えば、言語理解データベース(不図示)に記憶されている言語理解用知識を用いて発話内容を理解する。自然言語プロセッサ102は、テキスト情報から、意味のある単語を抽出する。自然言語プロセッサ102は、意味ネットワーク記憶部111に記憶されている意味ネットワーク内を検索し、意味ネットワーク内に抽出した単語が存在する場合、抽出した単語によって特定されるタスクに関係するスロット及びスロットに対応付けられている複数のスロット値を意味ネットワークから抽出する。

0050

自然言語プロセッサ102は、構文解析部131及びメモリアクセス部132を備える。構文解析部131は、テキスト化されたユーザの発話内容から単語を抽出する処理を行う。メモリアクセス部132は、構文解析部131にて抽出された単語について、メモリ103に格納された意味ネットワーク内を検索し、スロット等を抽出し、抽出したスロットを会話管理部104(会話生成部121)へ出力する。

0051

なお、メモリアクセス部132は、会話管理部104が備えていてもよい。自然言語プロセッサ102は、テキスト化されたユーザの発話内容から、単語を抽出して会話管理部104のメモリアクセス部へ出力し、会話管理部104のメモリアクセス部は、意味ネットワークからスロット等を抽出してもよい。

0052

会話管理部104は、会話生成部121及び重み値更新部122を備える。会話生成部121は、自然言語プロセッサ102によって特定された第1のノード(スロット)に関連付けられている複数の第2のノード(スロット値)の中から、複数の第2のノードのそれぞれに対応付けられた重み値に基づいて、1の第2のノードを選択する。なお、重み値は、複数の第2のノードが過去にユーザによって選択された確率を表す。会話生成部121は、複数の第2のノードのうち、確率が所定の値より大きい第2のノードを選択する。会話生成部121は、選択された1の第2のノード(スロット値)に応じた応答文を生成する。会話生成部121は、複数の第2のノードのうち、確率が所定の値より大きい第2のノードが存在しない場合、複数の第2のノードのいずれかをユーザに選択させるための応答文を生成する。

0053

会話生成部121は、自然言語プロセッサ102によって抽出された複数のスロット値のそれぞれに対応付けられている重み値を、重み値管理テーブルから取得し、取得した重み値に基づいて、1のスロット値を決定する。会話生成部121は、決定したスロット値に応じた応答文を生成する。このとき、会話生成部121は、判断条件テーブル記憶部113に記憶されている判断条件テーブルを参照し、あるスロットに対して選択可能なスロット値の数に対応する判断条件を満たすか否かを判断する。判断条件を満たす場合には、会話生成部121は、スロット値を予め用意された応答文のテンプレートに挿入し、応答文を生成する。

0054

図3は、判断条件テーブルの一例を示す図である。

0055

図3に示すように、判断条件テーブルは、選択可能なスロット値の数と、スロット値が選択される条件と、条件を満たす際に得られるスロット値と、応答文を表すテンプレートとを対応付けている。

0056

例えば、会話生成部121は、選択可能なスロット値が“v1”及び“v2”の2つであり、v1が50%より大きく、v2が50%より小さい場合、v1をスロット値として選択する。また、会話生成部121は、選択可能なスロット値が“v1”及び“v2”の2つであり、v1が50%より小さく、v2が50%より大きい場合、v2をスロット値として選択する。そして、v1がスロット値として選択された場合、会話生成部121は、“v1が欲しいですか?(Do you want v1?)”という応答文を生成する。一方、v2がスロット値として選択された場合、会話生成部121は、“v2が欲しいですか?(Do you want v2?)”という応答文を生成する。

0057

また、会話生成部121は、選択可能なスロット値が“v1”及び“v2”の2つであり、v1及びv2が50%である場合、v1及びv2をスロット値として選択する。そして、v1及びv2がスロット値として選択された場合、会話生成部121は、“v1又はv2のどちらにしますか?(How about v1 or v2?)”という応答文を生成する。

0058

また、会話生成部121は、選択可能なスロット値が“v1”、“v2”、・・・、“vx”の複数であり、いずれかのスロット値viが50%より大きい場合、viをスロット値として選択する。そして、viがスロット値として選択された場合、会話生成部121は、“viが欲しいですか?(Do you want vi?)”という応答文を生成する。

0059

また、会話生成部121は、選択可能なスロット値が“v1”、“v2”、・・・、“vx”の複数であり、いずれか1つのスロット値viが40%より大きく、スロット値viとは異なるいずれか1つのスロット値vjが40%より大きい場合、vi及びvjをスロット値として選択する。そして、vi及びvjがスロット値として選択された場合、会話生成部121は、“vi又はvjのどちらにしますか?(How about vi or vj?)”という応答文を生成する。

0060

また、会話生成部121は、選択可能なスロット値が“v1”、“v2”、・・・、“vx”の複数であり、いずれのスロット値viも40%より小さい場合、スロット値を選択しない。そして、スロット値が選択されない場合、会話生成部121は、“どのXX(スロット名)が欲しいですか?(What XX(slot name) do you want?)”という応答文を生成する。

0061

また、自然言語プロセッサ102は、応答文に対するユーザの回答を示すテキスト情報を取得する。自然言語プロセッサ102は、テキスト情報が例えば“はい”などの肯定的な回答であるか、又は回答情報が例えば“いいえ”などの否定的な回答であるかを判断する。自然言語プロセッサ102は、ユーザの回答が肯定的であるか否定的であるかを示す階乙情報を重み値更新部122へ出力する。重み値更新部122は、ユーザの回答が複数の第2のノードのうち1の第2のノードを選択する回答であるか否かに応じて、重み値を更新する。すなわち、回答情報が肯定的な回答である場合、重み値更新部122は、選択可能な複数のスロット値に対応付けられている確率を再計算して更新する。一方、回答情報が否定的な回答である場合、会話生成部121は、複数のスロット値のいずれかをユーザに選択させるための応答文を生成する。

0062

音声合成部105は、会話管理部104によって生成された応答文を音声に変換する。音声合成部105によって変換された音声は、スピーカ(不図示)から出力される。

0063

なお、図2に示す音声対話システムにおいて、1つの装置が、音声認識部101、自然言語プロセッサ102、メモリ103、会話管理部104及び音声合成部105を備えてもよい。また、音声認識部101、自然言語プロセッサ102、メモリ103、会話管理部104及び音声合成部105は、複数の装置に分散されていてもよい。例えば、端末装置が、音声認識部101及び音声合成部105を備え、端末装置とネットワークを介して通信可能に接続されたサーバが、自然言語プロセッサ102、メモリ103及び会話管理部104を備えてもよい。

0064

続いて、本実施の形態における音声対話システムの音声対話処理について説明する。

0065

図4は、本実施の形態における音声対話システムの音声対話処理について説明するためのフローチャートである。

0066

まず、ステップS1において、自然言語プロセッサ102は、ユーザの発話内容を示す発話情報から、単語を取得する。

0067

次に、ステップS2において、自然言語プロセッサ102は、意味ネットワーク記憶部111に記憶されている意味ネットワーク内を検索し、各ノード間に対応付けられている関係情報に基づいて、抽出した単語によって特定されるタスクに関係するノード(スロット及びスロット値)を意味ネットワークから抽出する。

0068

次に、ステップS3において、会話生成部121は、タスクを実行するために値を入力する必要があるスロットを決定する。

0069

次に、ステップS4において、会話生成部121は、決定したスロットに対応付けられている複数のスロット値の重み値を、重み値管理テーブルから取得する。

0070

次に、ステップS5において、会話生成部121は、判断条件テーブル記憶部113に記憶されている判断条件テーブルを参照し、判断条件を満たす重み値があるか否かを判断する。ここで、判断条件を満たす重み値があると判断された場合(ステップS5でYES)、ステップS6において、会話生成部121は、スロット値を、判断条件を満たす重み値に対応するスロット値に決定する。

0071

次に、ステップS7において、会話生成部121は、決定したスロット値を用いて確認応答文を生成する。確認応答文とは、決定したスロット値でよいかをユーザに確認する応答文である。

0072

一方、判断条件を満たす重み値がないと判断された場合(ステップS5でNO)、ステップS8において、会話生成部121は、要求応答文を生成する。要求応答文とは、複数の選択可能なスロット値の中から所望のスロット値の選択をユーザに対して要求する応答文である。

0073

続いて、本実施の形態における音声対話システムの重み値更新処理について説明する。

0074

図5は、本実施の形態における音声対話システムの重み値更新処理について説明するためのフローチャートである。

0075

まず、ステップS11において、重み値更新部122は、会話生成部121によって生成された応答文に含まれるスロット値を確認する。

0076

次に、ステップS12において、重み値更新部122は、応答文に対するユーザの回答が肯定的であるか否かを示す回答情報を自然言語プロセッサ102から取得する。

0077

次に、ステップS13において、重み値更新部122は、回答情報が肯定的な回答であるか否かを判断する。ここで、回答情報が肯定的な回答であると判断された場合(ステップS13でNO)、ステップS14において、重み値更新部122は、新たなスロット値を取得する。このとき、選択可能なスロット値が2つである場合、重み値更新部122は、ユーザに提示されなかったスロット値を新たなスロット値として取得する。また、選択可能なスロット値が3つ以上ある場合、重み値更新部122は、ユーザによって選択されたスロット値を新たなスロット値として取得する。

0078

一方、回答情報が肯定的な回答であると判断された場合(ステップS13でYES)、ステップS15において、重み値更新部122は、重み値を再計算する。

0079

ここで、重み値の計算方法について説明する。まず、重み値更新部122によって重み値が計算される前の重み値管理テーブルには、重み値の初期値が格納される。あるスロットに対してx個のスロット値v1,v2,・・・,vxが選択可能であり、ユーザの人数がn人であり、各スロット値を選択したユーザの人数をN1,N2,・・・,Nxとすると、各スロット値の重み値(確率)は、N1/n,N2/n,・・・,Nx/nで表される。このとき、ユーザの人数n及び各スロット値を選択したユーザの人数N1,N2,・・・,Nxには、任意の数が代入される。例えば、過去の統計的なデータに基づいて、人数N1,N2,・・・,Nxが設定されてもよい。また、重み値の初期値は、全て同じ値に設定されてもよく、例えば、2つのスロット値が選択可能である場合、各スロット値の重み値(確率)の初期値は、それぞれ50%に設定されてもよい。

0080

また、重み値更新部122によって重み値が再計算される場合、重み値更新部122は、ユーザの人数nに1を加算するとともに、選択されたスロット値の人数Nxに1を加算し、選択可能な全てのスロット値の重み値を再計算する。例えば、スロット値v2が選択された場合、各スロット値v1,v2,・・・,vxの重み値(確率)は、N1/(n+1),(N2+1)/(n+1),・・・,Nx/(n+1)となる。

0081

次に、ステップS16において、重み値更新部122は、再計算した重み値を重み値管理テーブル記憶部112に記憶し、重み値管理テーブルの重み値を更新する。

0082

図6は、本実施の形態における音声対話システムの音声対話処理と、従来の音声対話システムの音声対話処理との差異を説明するための図である。図6は、ハンバーガー店においてユーザがハンバーガーセットを注文する際の音声対話処理の一例を示している。

0083

まず、ユーザは、音声対話システムに対し、“ハンバーガーセットを下さい。”と発話する。

0084

従来の音声対話システムでは、ユーザの発話から“ハンバーガーセット”という単語を抽出し、抽出した単語に対応するタスクフレームを特定する。この場合、ハンバーガーセットを提供するタスクフレームが特定される。次に、従来の音声対話システムは、特定したタスクフレームを実行するのに必要なスロットを特定し、特定したスロットに対応する複数のスロット値のうちどのスロット値にするのかをユーザに質問する。図6に示す例では、スロットは、ドリンクであり、スロット値は、コーク、お、オレンジジュースなどである。従来の音声対話システムは、“ドリンクは何にしますか?”という応答文405を作成して音声出力する。これに対し、ユーザは、“コークを下さい。”と回答する。さらに、従来の音声対話システムは、ユーザによって発話された内容を確認するため、“ドリンクはコークでよいですか?”という応答文を作成して音声出力する。そして、ユーザは、“はい。”と回答する。ユーザから肯定する回答を取得すると、従来の音声対話システムは、タスクフレームのスロット値を設定し、タスクフレームを実行する。このとき、タスクフレーム内の必須スロットの全てに値が入力された場合、タスクフレームに対応したタスクが実行される。必須スロットの全てに値が入力されていない場合は、ユーザに対して、値の入力を促すような質問等が行われる。

0085

一方、本実施の形態における音声対話システムでは、ユーザの発話から“ハンバーガーセット”という単語を抽出し、抽出した単語によって特定されるタスクに関係するノード(ドメイン、スロット及びスロット値)を意味ネットワークから抽出する。図6に示す例では、ドメイン400は、“ハンバーガーセット”であり、スロット401は、“ドリンク”であり、スロット値402,403,404は、“コーク”、“お茶”及び“オレンジジュース”などである。

0086

次に、本実施の形態における音声対話システムは、タスクを実行するために値を入力する必要があるスロットを決定する。ここで、決定されるスロットは、ドリンクである。次に、本実施の形態における音声対話システムは、決定したスロットに対応付けられている複数のスロット値の重み値を、重み値管理テーブルから取得する。図6に示す例では、スロット値であるコークの重み値は60%であり、スロット値であるお茶の重み値は20%であり、スロット値であるオレンジジュースの重み値は5%である。

0087

次に、本実施の形態における音声対話システムは、判断条件を満たす重み値があるか否かを判断する。この場合、コークの重み値が60%であるため、本実施の形態における音声対話システムは、判断条件を満たす重み値があると判断する。次に、本実施の形態における音声対話システムは、スロット値を“コーク”に決定する。そして、本実施の形態における音声対話システムは、“コークにしますか?”という応答文406を作成して音声出力する。これに対し、ユーザは、“はい。”と回答する。ユーザから肯定する回答を取得すると、本実施の形態における音声対話システムは、ハンバーガーセットを提供する際のユーザの発話に対して応答文を生成するタスクを実行する。

0088

上記のように、従来のシステムでは、システムがユーザに対し、ドリンクを何にするかを質問し、ユーザの回答を音声認識により判断していた。ユーザがコークを選択した場合、従来のシステムは、コークでよいか否かを再度質問し、ユーザの回答を音声認識により判断し、ドリンクを決定していた。

0089

これに対し、本開示のシステムでは、システムがユーザに対し、ドリンクを何にするかを質問することなく、過去にユーザがいずれのドリンクを選択したかに応じてそれぞれに重み値を付与し、重み値に応じて、コークにするか否かを質問する。例えば、過去にコークが60%の確率で選択された場合、本開示のシステムは、ユーザに対してドリンクはコークでよいかを確認する。そして、本開示のシステムは、ユーザの回答を音声認識により判断し、ユーザから肯定する回答が得られれば、ドリンクをコークに決定する。

0090

この場合、本開示のシステムは、従来のシステムに比べてドリンクを再度確認する必要がなく、システムとユーザとの対話時間を短縮することができるとともに、システムの処理時間を短縮することができる。

0091

続いて、本実施の形態における音声対話システムの変形例について説明する。

0092

図7は、本実施の形態の変形例における音声対話システムの意味ネットワークの一例を示す図である。図7に示す意味ネットワークは、レストランを検索する際に用いられる意味ネットワークの一例を示している。

0093

図7において、“レストラン”を示すノード21は、“地域(area)”を示すノード22と、“種類(type)”を示すノード23とにリンクしている。“地域”を示すノード22及び“種類(type)”を示すノード23は、必須のスロットである。“地域”を示すノード22は、“”を示すノード24と“”を示すノード25とにリンクしている。“北”を示すノード24及び“南”を示すノード25は、“地域”を示すノード(スロット)22のスロット値である。また、“種類”を示すノード23は、“インド料理”を示すノード26と“中華料理”を示すノード27と“アメリカ料理”を示すノード28とにリンクしている。“インド料理”を示すノード26、“中華料理”を示すノード27及び“アメリカ料理”を示すノード28は、“種類”を示すノード(スロット)23のスロット値である。

0094

さらに、図7に示す変形例では、異なるスロットのスロット値がリンクしており、“北”を示すノード(スロット値)24は、“インド料理”を示すノード(スロット値)26と“中華料理”を示すノード(スロット値)27と“アメリカ料理”を示すノード(スロット値)28とにリンクしている。“北”を示すノード24と“インド料理”を示すノード26との接続には、例えば30%の重み値が付与されている。また、“北”を示すノード24と“中華料理”を示すノード27との接続には、例えば60%の重み値が付与されている。さらに、“北”を示すノード24と“アメリカ料理”を示すノード(スロット値)28との接続には、例えば10%の重み値が付与されている。つまり、過去に、北の地域が選択された後インド料理が選択された確率は、30%であり、北の地域が選択された後中華料理が選択された確率は、60%であり、北の地域が選択された後アメリカ料理が選択された確率は10%である。

0095

本開示のシステムでは、ユーザが“の北部にあるレストランを探している。(I’m looking for a restaurant at the north part of town.)”と発話した場合、ユーザに対して中華料理店にするか否かを確認し、ユーザの回答を音声認識により判断し、レストランを決定する。

0096

重み値管理テーブル記憶部112は、複数の第1のノードのうちの1の第1のノードに関連付けられている複数の第2のノードのうちの1の第2のノードと、前記複数の第1のノードのうちの他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して重み値を対応付けて記憶している。ここで、第1のノードは、スロットであり、第2のノードは、スロット値である。

0097

自然言語プロセッサ102は、1の第2のノードが特定されたか否かを判断する。会話生成部121は、1の第2のノードが特定された場合、1の第2のノードと、他の第1のノードに関連付けられている複数の第2のノードのそれぞれとの組合せに対して対応付けられた重み値に基づいて、他の第1のノードに関連付けられている複数の第2のノードの中から1の第2のノードを選択する。

0098

続いて、本実施の形態の変形例における音声対話システムの音声対話処理について説明する。

0099

図8は、本実施の形態の変形例における音声対話システムの音声対話処理について説明するためのフローチャートである。

0100

ステップS21及びステップS22の処理は、図4に示すステップS1及びステップS2の処理と同じであるので、説明を省略する。

0101

次に、ステップS23において、自然言語プロセッサ102は、意味ネットワーク内の任意のスロットが特定されたか否かを判断する。例えば、図7に示す例では、ユーザの発話内容から“地域”を示すスロットが特定されることになる。ここで、任意のスロットが特定されたと判断された場合(ステップS23でYES)、ステップS24において、自然言語プロセッサ102は、特定されたスロットを選択する。

0102

次に、ステップS25において、自然言語プロセッサ102は、特定されたスロットにリンクしている次のスロットを選択する。例えば、図7に示す例では、“地域”を示すスロットにリンクしている“種類”を示すスロットが選択されることになる。

0103

次に、ステップS26において、会話生成部121は、特定されたスロットのスロット値と、選択された次のスロットの複数のスロット値とに対応付けられている重み値を、重み値管理テーブルから取得する。なお、重み値管理テーブルは、複数のスロットのうちの1のスロットに関連付けられている複数のスロット値のうちの1のスロット値と、複数のスロットのうちの他のスロットに関連付けられている複数のスロット値のそれぞれとの組合せに対して重み値を対応付けて記憶している。

0104

次に、ステップS27において、会話生成部121は、判断条件テーブル記憶部113に記憶されている判断条件テーブルを参照し、判断条件を満たす重み値があるか否かを判断する。ここで、判断条件を満たす重み値があると判断された場合(ステップS27でYES)、ステップS28において、会話生成部121は、スロット値を、判断条件を満たす重み値に対応するスロット値に決定する。例えば、図7に示す例では、“中華料理”を示すスロット値が決定されることになる。

0105

次に、ステップS29において、会話生成部121は、決定したスロット値を用いて確認応答文を生成する。確認応答文とは、決定したスロット値でよいかをユーザに確認する応答文である。例えば、図7に示す例では、“中華料理店はどうですか?(How about a chinese restaurant?)という確認応答文が生成されることになる。

0106

一方、任意のスロットが特定されていないと判断された場合(ステップS23でNO)、又は、判断条件を満たす重み値がないと判断された場合(ステップS27でNO)、ステップS30において、会話生成部121は、要求応答文を生成する。要求応答文とは、複数の選択可能なスロット値の中から所望のスロット値の選択をユーザに対して要求する応答文である。例えば、図7に示す例において、ユーザが“レストランを探している。”と発話した場合、音声対話システムは、“地域”及び“種類”を示すスロットを決定する必要がある。そのため、会話生成部121は、地域”及び“種類”のいずれかのスロットのスロット値を選択するための要求応答文を生成する。例えば、会話生成部121は、“北部と南部のどちらですか?”という要求応答文、又は“インド料理、中華料理及びアメリカ料理のどれにしますか?”という要求応答文を生成する。

0107

なお、ステップ23において、任意のスロットが特定されていないと判断された場合、音声対話処理を終了してもよい。

0108

また、本実施の形態における重み値は、選択可能なスロット値のそれぞれが過去にユーザによって選択された確率を表しているが、本開示は特にこれに限定されず、選択可能なスロット値のそれぞれに対して値を付与してもよい。例えば、重み値更新部122は、スロット値がユーザによって選択された場合、選択されたスロット値の重み値に対して1を加算してもよい。

0109

また、音声対話システムは、スロット値に対して任意の重み値を設定してもよい。例えば、販売店が特に販売したい商品のスロット値の重み値を他の商品のスロット値の重み値より高くすることにより、特に販売したい商品をユーザに勧めることができる。

0110

また、音声対話システムは、時期(季節)によって、任意の重み値を設定してもよい。参照される頻度が時期によって大きく変わるスロットについては、それまで更新処理によって更新されてきた重み値を、その時期が訪れる際に、時期の影響を考慮して任意の値に設定してもよい。また、時期毎に対応する重み値の情報を予め用意し、その時期が訪れた際に、全てのスロットの重み値を任意の値へ変更してもよい。このとき、変更した値は、その時期が過ぎるまで固定とせず、設定した後には重み値の更新処理を適用してもよい。

0111

また、本実施の形態では、ユーザの音声から変換されたテキスト情報を用いているが、本開示は特にこれに限定されず、キーボード又はタッチパネルなどの入力デバイスにより直接入力されたテキスト情報を用いてもよい。

0112

また、本実施の形態の音声対話システムは、発話したユーザを特定する話者特定部を備えてもよい。この場合、重み値管理テーブルは、特定されたユーザ毎にスロット値と重み値とを対応付けて記憶する。これにより、個々のユーザに応じた応答文を生成することができ、システムとユーザとの対話時間をより短縮することができる。

0113

また、本実施の形態の音声対話システムにおいて、重み値を更新する期間又は回数を設定してもよい。この場合、音声対話システムは、重み値の更新を開始してから所定の期間が経過した場合、重み値の更新を停止させてもよい。また、音声対話システムは、重み値の更新回数が所定の回数に達した場合、重み値の更新を停止させてもよい。重み値の更新回数が増えるにつれて、重み値はある一定の値に収束する可能性がある。そこで、重み値を更新する期間又は回数を設定することにより、音声対話システムの処理負担を軽減することができる。

0114

また、所定の季節又は所定の期間のみ販売される商品なども存在するため、本実施の形態の音声対話システムは、所定の季節又は所定の期間のみ選択可能なスロット値を設定し、所定の季節又は所定の期間のみ重み値を更新してもよい。

0115

本発明の効果を定量的に確認するために、シミュレーション実験を行った。図9A図9Bは、それぞれ2つの異なる条件において実行された対話例を示す図である。図9A図9Bともに、ハンバーガーショップにおける同一の状況において、店員と客との間で行われる対話の一例を示している。

0116

図9Aに示す対話例では、従来の音声対話システムが用いる質問の仕方(条件)によって店員側の質問文が生成され、それに対して客側の応答が行われている。図9Bに示す対話例では、本開示における音声対話システムが用いる質問の仕方(条件)によって店員側の質問文が生成され、それに対して客側の応答が行われている。以下、これら2つの質問の仕方(条件)を比較しながら説明を行う。

0117

図9A図9Bにおいて、“Would you like side salad or French fries?”(会話文1001)と、“Would you like French fries?”(会話文2001)とが対応している。このとき、会話文2001の示す内容が質問として音声対話システムから出力されるとき、「meal side」として「french fries」が注文される確率が閾値以上であるという判断がなされている。それに対する客の発話は、それぞれ会話文1002の“French fries”と会話文2002の“Yes”となり、質問と回答のどちらも、図9Bに示す例の方が短くなっており、効率がよい。また、同様に、会話文1005の“Would you like large, small or medium?”に対応する会話文2005では、「medium」の注文確率が高いという統計に基づき、会話文1005から“Would you like medium?”という効率のよい聞き方へ変更しており、それに対する客の回答も、従来例においては、会話文1006の“medium”であるのに対して、本開示における音声対話システムの例では、会話文2006の“Yes”となり、応答内容が短くなっている。

0118

一方で、従来例の会話文1007の“What kind of meal drink would you like?”に対して、本開示に係る音声対話システムの例では、会話文2007の“Would you like coke?”が提案型の質問として出力されており、従来例に対して短い質問となっている。しかし、これに対する客の応答は、従来例では会話文1008の“Hi-orange lavaburst”であるのに対して、本開示の音声対話システムの例では、会話文2008の“No. Hi-orange lavaburst”という回答となり、本開示の音声対話システムの例の方が、部分的に会話文が長くなっている。複数の特に高確率が期待される選択肢がない場合は、会話文1003と会話文2003、会話文1004と会話文2004のように、質問と回答に大きな違いはない。図9A図9Bにおいて示される会話例によって受け付けられた注文の内容は、それぞれ、注文受付内容1010と注文内容2010であり、全く同じ結果となる。

0119

このようにして行われた2つの対話の総文字数カウントすると、それぞれ、330文字(1009)と273文字(2009)となり、本開示の音声対話システムが用いる質問の仕方(条件)によって店員側の質問文が生成された方が、会話の文字数が少ない、すなわち会話が短いことが分かる。ここでは、文字数を用いて両者を比較したが、文字数に所定の係数掛け算することで、会話に要した時間を推定することができる。上述のとおり、店側の提案型の質問に対する客の回答が否定的であった場合には、会話に要する時間が部分的に長くなるが、店側の提案型の質問に対する客の回答が高確率で肯定的であることが期待できる場合のみ、Yes/Noタイプの質問を行うため、このように、従来例の質問よりも、提案型の質問を出力する場合の方が会話に要する時間が長くなるケースが起こるのは稀(低確率)であると言える。

0120

この一例と同様にして、100例のオーダーについてシミュレーションしたところ、総文字数は、従来の方法で28746文字、本開示にかかる方法で26168文字となった。本開示にかかる方法では、トータルの対話の長さは、従来例と比較して11.4%削減されており、本開示の音声対話システムにおける対話方法の効果が大きいことが確認された。

0121

本開示に係る対話方法、対話プログラム及び対話システムは、対話システムとユーザとの対話時間を短縮することができるとともに、対話システムの処理時間を短縮することができ、ユーザの発話に対して応答する対話システムにおける対話方法、ユーザの発話に対して応答する対話プログラム及びユーザの発話に対して応答する対話システムとして有用である。

0122

101音声認識部
102自然言語プロセッサ
103メモリ
104会話管理部
105音声合成部
111意味ネットワーク記憶部
112重み値管理テーブル記憶部
113判断条件テーブル記憶部
121 会話生成部
122 重み値更新部
131構文解析部
132メモリアクセス部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ