図面 (/)

技術 ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法

出願人 KDDI株式会社
発明者 呉剣明内藤正樹
出願日 2020年2月28日 (1年9ヶ月経過) 出願番号 2020-034460
公開日 2021年9月16日 (3ヶ月経過) 公開番号 2021-139921
状態 未査定
技術分野 検索装置 音声認識 イメージ分析
主要キーワード 推定エンジン 音響オブジェクト 基礎調査 推定段階 上位概念化 顔パラメータ ユーザ周辺 対話インタフェース
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2021年9月16日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

ユーザ周辺から取得したマルチメディアデータに応じた対話文を生成する対話装置等を提供する。

解決手段

語彙を、意味属性的に階層化した語彙体系データベースと、所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、マルチメディアデータから語彙を抽出する語彙抽出手段と、語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段とを有する。

概要

背景

対話装置は、一般的に、マイクによってユーザの発話音声収音し、その発話音声から音声認識によってテキストに変換し、そのテキストに応じた対話文を生成し、その対話文を音声合成によって生成した対話音声スピーカから発声する。対話型AI(Artificial Intelligence)としては、例えば、「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」のような対話システムや、「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカがある。このような技術は、音楽再生や、天気予報ニュースを知らせるなどの特定タスクを実行することに適する。

従来、ユーザの対話相手擬人化した「SOTA(登録商標)」や「ユニボー(登録商標)」のようなロボットの技術がある。例えば、ユーザと一緒テレビ視聴する「テレビ視聴ロボット」について、視聴中のテレビ番組連動してユーザへ自発的に発話する技術がある(例えば非特許文献1参照)。この技術によれば、ロボットは、テレビ番組からキーワードを抽出し、そのキーワードをテンプレートに埋め込んだ対話文を生成し、その対話文をユーザへ発声する。これによって、ユーザに対して、テレビ番組のような対話のきっかけを作ることができる。

また、テレビ視聴中のユーザに対して、ランダムなタイミングで、話題辞書及び発話文テンプレートを用いて話題を生成する技術もある(例えば非特許文献2参照)。この技術によれば、そのユーザの属性に合わせて対話文を生成することができる。

更に、ユーザの嗜好情報及び人間関係を考慮した雑談対話システムの技術もある(例えば非特許文献3参照)。この技術によれば、話題を提示するテンプレートを大量に用意する必要がなく、ユーザからの発話を起点として対話を開始するものである。

概要

ユーザ周辺から取得したマルチメディアデータに応じた対話文を生成する対話装置等を提供する。語彙を、意味属性的に階層化した語彙体系データベースと、所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、マルチメディアデータから語彙を抽出する語彙抽出手段と、語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段とを有する。

目的

本発明は、ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ユーザと対話する対話装置において、語彙を、意味属性的に階層化した語彙体系データベースと、所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、マルチメディアデータから語彙を抽出する語彙抽出手段と、語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段とを有することを特徴とする対話装置。

請求項2

対話装置は、テレビに接続されており、マルチメディアデータは、テレビの視聴中番組における電子番組表記述テキスト、又は、放送内容字幕テキストであることを特徴とする請求項1に記載の対話装置。

請求項3

対話装置は、テレビに接続されており、マルチメディアデータは、テレビの視聴中番組における映像であり、語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することを特徴とする請求項1に記載の対話装置。

請求項4

対話装置は、ユーザの周辺撮影する外側カメラに接続されており、マルチメディアデータは、外側カメラによって撮影された映像であり、語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することを特徴とする請求項1に記載の対話装置。

請求項5

対話装置は、ユーザの周辺を収音するマイクに接続されており、マルチメディアデータは、マイクによって収音された音声であり、語彙抽出手段は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出することを特徴とする請求項1に記載の対話装置。

請求項6

対話装置は、ユーザを撮影する内側カメラに接続されており、内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、顔画像からユーザ世代を検出するユーザ世代推定エンジンとを更に有し、対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択することを特徴とする請求項1から5のいずれか1項に記載の対話装置。

請求項7

ユーザ世代推定エンジンは、IMDb(Internet Movie Database)のデータセットを用いて、顔画像と年代性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものであることを特徴とする請求項6に記載の対話装置。

請求項8

語彙選択手段によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段を更に有し、対話実行手段は、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザとの対話を更に進行させることを特徴とする請求項1から7のいずれか1項に記載の対話装置。

請求項9

ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、語彙を、意味属性的に階層化した語彙体系データベースと、所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、マルチメディアデータから語彙を抽出する語彙抽出手段と、語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段としてコンピュータを機能させることを特徴とするプログラム。

請求項10

ユーザと対話する装置の対話方法において、装置は、語彙を、意味属性的に階層化した語彙体系データベースと、所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースとを有し、ユーザ周辺から、マルチメディアデータを取得する第1のステップと、マルチメディアデータから語彙を抽出する第2のステップと、語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第3のステップと、対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する第4のステップと、選択された対話シナリオを用いて、ユーザと対話を進行する第5のステップとを実行することを特徴とする装置の対話方法。

技術分野

0001

本発明は、ユーザと自然な対話を実現する対話装置の技術に関する。

背景技術

0002

対話装置は、一般的に、マイクによってユーザの発話音声収音し、その発話音声から音声認識によってテキストに変換し、そのテキストに応じた対話文を生成し、その対話文を音声合成によって生成した対話音声スピーカから発声する。対話型AI(Artificial Intelligence)としては、例えば、「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」のような対話システムや、「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカがある。このような技術は、音楽再生や、天気予報ニュースを知らせるなどの特定タスクを実行することに適する。

0003

従来、ユーザの対話相手擬人化した「SOTA(登録商標)」や「ユニボー(登録商標)」のようなロボットの技術がある。例えば、ユーザと一緒テレビ視聴する「テレビ視聴ロボット」について、視聴中のテレビ番組連動してユーザへ自発的に発話する技術がある(例えば非特許文献1参照)。この技術によれば、ロボットは、テレビ番組からキーワードを抽出し、そのキーワードをテンプレートに埋め込んだ対話文を生成し、その対話文をユーザへ発声する。これによって、ユーザに対して、テレビ番組のような対話のきっかけを作ることができる。

0004

また、テレビ視聴中のユーザに対して、ランダムなタイミングで、話題辞書及び発話文テンプレートを用いて話題を生成する技術もある(例えば非特許文献2参照)。この技術によれば、そのユーザの属性に合わせて対話文を生成することができる。

0005

更に、ユーザの嗜好情報及び人間関係を考慮した雑談対話システムの技術もある(例えば非特許文献3参照)。この技術によれば、話題を提示するテンプレートを大量に用意する必要がなく、ユーザからの発話を起点として対話を開始するものである。

先行技術

0006

星祐太, 金子豊,崎康博, 上原道宏:“視聴実験によるロボットとのテレビ視聴に関する基礎調査”,映像情報メディア学会2018年次大会14B-2 (2018)
山本大介, et al. "高齢者対話インタフェース:話し相手となって, お年寄りの生活を豊かに."電子情報通信学会技術研究報告. HCS,ヒューマンコミュニケーション基礎109.224: pp.47-51(2009).
小林峻也, and 萩原将文. "ユーザの嗜好や人間関係を考慮する非タスク指向型対話システム."人工知能学会論文誌 (2016):DSF-502.
NTTコミュニケーション科学基礎研究所、「汎用的な意味解析技術への挑戦」、[online]、[令和2年2月22日]、インターネット<URL:https://www.ntt.co.jp/journal/0806/files/jn200806024.pdf>
MathWorks、「顔認識」、[online]、[令和2年2月22日]、インターネット<https://jp.mathworks.com/discovery/face-recognition.html>

発明が解決しようとする課題

0007

非特許文献1に記載の技術によれば、テレビ番組から抽出したキーワードを単にテンプレートに埋め込んだに過ぎず、テレビ番組の内容と直接的な対話文を生成するものである。また、非特許文献2及び3に記載のいずれの技術も、ユーザの周辺状況に応じて対話を展開させるものではない。
これに対し、本願の発明者らは、対話中ユーザ周辺状況から概念的に広く捉えた雑談のような対話を進行させることができないか、と考えた。

0008

そこで、本発明は、ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法を提供することを目的とする。

課題を解決するための手段

0009

本発明によれば、ユーザと対話する対話装置において、
語彙を、意味属性的に階層化した語彙体系データベースと、
所定階層における所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段と
を有することを特徴とする。

0010

本発明の対話装置における他の実施形態によれば、
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における電子番組表記述テキスト、又は、放送内容字幕テキストであることも好ましい。

0011

本発明の対話装置における他の実施形態によれば、
対話装置は、テレビに接続されており、
マルチメディアデータは、テレビの視聴中番組における映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。

0012

本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザの周辺撮影する外側カメラに接続されており、
マルチメディアデータは、外側カメラによって撮影された映像であり、
語彙抽出手段は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出することも好ましい。

0013

本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザの周辺を収音するマイクに接続されており、
マルチメディアデータは、マイクによって収音された音声であり、
語彙抽出手段は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出することも好ましい。

0014

本発明の対話装置における他の実施形態によれば、
対話装置は、ユーザを撮影する内側カメラに接続されており、
内側カメラによって撮影されたユーザ毎の顔画像を抽出する顔画像抽出手段と、
顔画像からユーザ世代を検出するユーザ世代推定エンジン
を更に有し、
対話シナリオデータベースは、所定階層の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶しており、
対話シナリオ選択手段は、語彙選択手段によって選択された語彙と、ユーザ世代推定エンジンによって検出されたユーザ世代とに応じて、対話シナリオを選択する
ことも好ましい。

0015

本発明の対話装置における他の実施形態によれば、
ユーザ世代推定エンジンは、IMDb(Internet Movie Database)のデータセットを用いて、顔画像と年代性別とを対応付けて学習した畳み込みニューラルネットワークに基づくものであることも好ましい。

0016

本発明の対話装置における他の実施形態によれば、
語彙選択手段によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索するインターネット検索手段を更に有し、
対話実行手段は、インターネット検索手段の検索結果となるテキストに含まれる語彙を用いて、ユーザとの対話を更に進行させる
ことも好ましい。

0017

本発明によれば、ユーザと対話する装置に搭載されたコンピュータを機能させるプログラムにおいて、
語彙を、意味属性的に階層化した語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと、
ユーザ周辺から、マルチメディアデータを取得するユーザ周辺データ取得手段と、
マルチメディアデータから語彙を抽出する語彙抽出手段と、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する語彙選択手段と、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する対話シナリオ選択手段と、
選択された対話シナリオを用いて、ユーザと対話を進行する対話実行手段と
してコンピュータを機能させることを特徴とする。

0018

本発明によれば、ユーザと対話する装置の対話方法において、
装置は、
語彙を、意味属性的に階層化した語彙体系データベースと、
所定階層における複数の語彙それぞれについて、対話シナリオを記憶した対話シナリオデータベースと
を有し、
ユーザ周辺から、マルチメディアデータを取得する第1のステップと、
マルチメディアデータから語彙を抽出する第2のステップと、
語彙体系データベースを用いて、当該語彙の上位概念となる所定階層の語彙を選択する第3のステップと、
対話シナリオデータベースを用いて、選択された語彙に基づく対話シナリオを選択する第4のステップと、
選択された対話シナリオを用いて、ユーザと対話を進行する第5のステップと
を実行することを特徴とする。

発明の効果

0019

本発明の対話装置、プログラム及び方法によれば、ユーザ周辺データに応じて雑談のような対話を進行させることができる。即ち、対話のきっかけを多く提供することでき、飽きられにくい雑談対話AIを実現することができる。

図面の簡単な説明

0020

本発明における対話装置の周辺環境を表すシステム構成図である。
本発明における対話装置の機能構成図である。
語彙体系データベース及び対話シナリオデータベースの構成図である。
対話中のユーザを撮影可能な対話装置の機能構成図である。
対話用の語彙をインターネットで検索する説明図である。
対話装置とユーザとの間の対話を表すシーケンス図である。
ユーザ周辺データを画像、映像又は音声をとした場合における対話装置の構成図である。

実施例

0021

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

0022

図1は、本発明における対話装置の周辺環境を表すシステム構成図である。

0023

図1によれば、対話装置1は、キャラクタとしてのロボットであり、ユーザとの自然な雑談対話を実現する。
対話装置1は、ユーザインタフェース入出力デバイスとして、少なくともマイク及びスピーカを搭載する。マイクによってユーザの発話音声を収音し、スピーカによって対話音声をユーザへ発声する。

0024

<第1の実施形態:テレビから取得したテキスト=マルチメディアデータ>
図1によれば、対話装置1は、テレビ2に接続されており、テレビ2によって取得可能なマルチメディアデータを取得することができる。
この場合のマルチメディアデータとしては、テレビの視聴中番組における電子番組表(EPG(Electronic Program Guide))の記述テキスト、又は、放送内容の字幕テキストであってもよい。
電子番組表とは、放送番組放送予定を、時間帯及びチャンネル番号によって表形式(ラテ欄)にまとめたものである。一般に、縦軸に時間帯を、横軸チャネルを構成した格子状のセルとして表される。セルの中に、タイトル出演者名等のメタデータ番組内容)が記述されている。
字幕テキストは、字幕放送に基づくものであって、セリフトーク部分は勿論のこと、 “パトカーサイレン音”や“ドアたたく音”なども文字表現される。字幕テキストは、映像及び音声と同期して取得可能な文字データである。
本発明の対話装置1は、これらテキスト(ユーザにおける周辺状況)に応じた内容で、ユーザと雑談対話を進行させることができる。

0025

尚、図1によれば、対話装置1は、テレビ2からマルチメディアデータを取得する実施形態について記載しているが、他の実施形態については、図5によって後述する。

0026

図2は、本発明における対話装置の機能構成図である。

0027

図2によれば、対話装置1は、語彙体系データベース101と、対話シナリオデータベース102と、ユーザ周辺データ取得部11と、語彙抽出部12と、語彙選択部13と、対話シナリオ選択部14と、音声認識部151と、対話実行部152と、音声変換部153とを有する。これら機能構成部は、対話装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、装置の対話方法としても理解できる。

0028

[語彙体系データベース101]
語彙体系データベース101は、語彙を、意味属性的に階層化したものである(例えば非特許文献4参照)。これは、シソーラス(thesaurus)と称され、単語の上位下位関係部分全体関係、同義関係類義関係などによって語彙を体系的に分類したものである。

0029

図3は、語彙体系データベース及び対話シナリオデータベースの構成図である。

0030

図3(a)によれば、語彙体系データベース101は、55個の最上位概念的な語彙(トップノード)から、意味属性的に下位概念へ向けてツリー構造を持つ。
例えば語彙「ブドウ」については、語彙「果物」に属し、以下のように上位概念化され、最上位語彙は「食料」となる。
「食料」<=「嗜好品」<=「果物」(ブドウ)

0031

各語彙は、例えばWord2vecに基づいてベクトルで表現されたものである。
「Word2vec」とは、単語の意味や文法を捉えるために単語をベクトル表現化して次元圧縮する技術をいう。2つの語彙について、類似度が高いほどベクトル間距離ユークリッド距離)は短くなり、類似度が低いほどベクトル間距離は長くなる。当然、同一カテゴリに属する語彙同士は、類似度が高くなる(ベクトル間距離は短くなる)。
語彙の類似度は、以下のようにコサイン類似度で表される。
S(a,b)=cosθ=(Va・Vb)/(|Va||Vb|)
Va:第1の語彙の特徴ベクトル
Vb:第2の語彙の特徴ベクトル
S(a,b):0〜1(類似度が高いほど1に近づく)

0032

[対話シナリオデータベース102]
対話シナリオデータベース102は、所定階層(例えば最上位階層)における複数の語彙それぞれについて、対話シナリオを記憶したものである。
対話シナリオとは、質問文を含む対話ノードを、ユーザからの回答文に応じてツリー状に辿るように構成したものである。例えば、ユーザの入力に対する応答パターンを記述するFST(Finite State Transducer)のスクリプトファイルで記述されたものであってもよい。

0033

ここで、所定階層を、最上位概念層とする。
図3(b)によれば、対話シナリオデータベース102は、55個の最上位概念的な語彙毎に、対話シナリオが対応付けられている。
本発明によれば、例えば語彙「果物」の場合、最上位語彙「食料」の対話シナリオが選択されることとなる。

0034

[ユーザ周辺データ取得部11]
ユーザ周辺データ取得部11は、ユーザ周辺から、マルチメディアデータを取得するものである。
図2によれば、対話装置1は、マルチメディアデータとして、テレビの視聴中番組における電子番組表の記述テキスト、又は、放送内容の字幕テキストを取得する。
取得されたマルチメディアデータは、語彙抽出部12へ出力される。

0035

[語彙抽出部12]
語彙抽出部12は、マルチメディアデータから「語彙」を抽出する。
図2によれば、マルチメディアデータがテキストである場合、形態素解析によって一般名詞を抽出する。抽出された一般名詞を表現するベクトルと、語彙体系データベース101に登録された各語彙のベクトルとを比較して、最も類似度が高い語彙を抽出する。
このとき、例えば所定時間毎に、その時間内に取得されたマルチメディアデータの中で、出現頻度が最も高い一般名詞を検出するものであってもよい。そして、語彙体系データベース101を用いて、その一般名詞と最も類似度が高い語彙を抽出する。
図2によれば、例えばテレビの視聴中番組の中で一般名詞「ブドウ」の出現頻度が最も高い場合、「ブドウ」のベクトルと最も類似度が高い語彙「果物」が抽出される。
そして、抽出された語彙は、語彙選択部13へ出力される。

0036

[語彙選択部13]
語彙選択部13は、語彙体系データベース101を用いて、当該語彙の上位概念となる所定階層(例えば最上位)の語彙を選択する。
図2によれば、語彙選択部13は、例えば語彙抽出部12から語彙「果物」が入力された場合、その最上位概念となる語彙「食料」(<-「嗜好品等」<-「果物」)を選択する。

0037

[対話シナリオ選択部14]
対話シナリオ選択部14は、対話シナリオデータベース102を用いて、選択された語彙に基づく対話シナリオを選択するものである。
図2によれば、対話シナリオ選択部14は、例えば語彙選択部13から語彙「食料」を入力した場合、その「食料」に対応する対話シナリオを選択する。
選択された対話シナリオは、対話実行部152へ出力される。

0038

[音声認識部151・対話実行部152・音声変換部153]
音声認識部151、対話実行部152及び音声変換部153は、一般的な対話装置の機能構成部である。
音声認識部151は、マイクからユーザの発話音声を入力し、その発話音声をテキスト語彙に変換し、そのテキストを対話実行部152へ出力する。
対話実行部152は、音声認識部151から入力したテキストに対して、選択された対話シナリオを用いて対話文を辿っていく。
音声変換部153は、対話実行部152によって決定された対話文を、音声合成によって音声信号に変換し、その音声信号をスピーカへ出力する。
このようにして、対話装置1は、ユーザとの間で、音声によって対話を進行していく。

0039

<第2の実施形態:対話シナリオの拡充>
前述した第1の実施形態によれば、例えば語彙体系データベース101における最上位語彙(トップノード)毎に、対話シナリオが対応付けられたものとした。
これに対し、第2の実施形態では、同一の語彙であっても、対話中のユーザの属性(世代)に応じて異なる対話シナリオを選択するようにしたものである。

0040

図4は、対話中のユーザを撮影可能な対話装置の機能構成図である。

0041

図4の対話装置は、図2と比較して、対話中のユーザを撮影するインカメラ(内側カメラ)を搭載すると共に、顔画像認識部16と、ユーザ世代推定エンジン17とを更に有する。

0042

[顔画像認識部16]
顔画像認識部16は、インカメラによって撮影されたユーザの顔画像(映像)を入力し、各画像からユーザ毎の顔領域を検出する。
顔画像認識部16は、時系列各画像フレームから、顔パラメータ時系列変化を特徴量として抽出する。例えば、顔のパーツの相対位置や大きさ、目やほお骨やあごの形を用いる。顔画像の特徴から作成されたテンプレートと一致する画像部分を、顔領域として検索する。尚、顔認識アルゴリズムとしては、様々な既存の方法がある(例えば非特許文献5参照)。
そして、顔画像認識部16は、顔画像の時系列特徴量を、ユーザ世代推定エンジン17へ出力する。

0043

[ユーザ世代推定エンジン17]
ユーザ世代推定エンジン17は、学習段階として、IMDb(Internet Movie Database)のデータセット(例えば45,723枚)を教師データとして、「顔画像の時系列特徴量」と「年代」と「性別」()とを対応付けて学習した畳み込みニューラルネットワークに基づくものである。年代は、例えば以下のように3種類に区別したものであってもよい。
「子供」(0〜17
大人」(18〜64歳)
「シニア」(65歳以上)

0044

ユーザ世代推定エンジン17は、推定段階として、顔画像認識部16から「顔画像の時系列特徴量」を入力する。これに対して、ユーザ世代推定エンジン17は、「年代」及び「性別」を出力する。

0045

ユーザ世代推定エンジン17を用いる場合、対話シナリオデータベース102は、所定階層(例えば最上位)の語彙毎に、ユーザ世代に応じて及び/又は複数のユーザ世代の組合せに応じて異なる対話シナリオを更に記憶する。例えば以下のように、1つの語彙に対して、5種類の対話シナリオを予め記憶しており、複数の年代が一緒に対話していることも考慮する。
「子供」
「大人」
「シニア」
親子」(子供+大人、大人+シニア)
「祖母と孫」(子供+シニア)
この場合、対話シナリオ選択部14は、語彙選択部13によって選択された語彙と、ユーザ世代推定エンジン17によって推定されたユーザ世代とに応じて、対話シナリオを選択する。

0046

<第3の実施形態:語彙のインターネット検索>
図5は、対話用の語彙をインターネットで検索する説明図である。

0047

図5の対話装置1は、図2と比較して、インターネット検索部18を更に有する。
[インターネット検索部18]
インターネット検索部18は、語彙選択部13によって選択された語彙と、ユーザの発話から音声認識されたテキストに含まれる語彙との両方をキーワードとして、インターネット上の検索エンジンに対して検索する。
これによって、対話実行部152は、インターネット検索部18の検索結果となるテキストに含まれる語彙を更に用いて、ユーザとの対話を更に進行させることができる。

0048

図6は、対話装置とユーザとの間の対話を表すシーケンス図である。

0049

(S11)対話装置1は、テレビから、ユーザ周辺データを取得する。ユーザ周辺データは、例えば視聴中の番組内容から抽出されたテキストであるとする。このとき、語彙「ブドウ」が含まれていたとする。
(S12)対話装置1は、語彙体系データベース101を用いて、語彙「ブドウ」とベクトル表現で最も近い語彙「果物」を抽出したとする。
(S13)対話装置1は、語彙体系データベース101を用いて、語彙「果物」の最上位概念の語彙「食料」を選択する。
(S14)対話装置1は、対話シナリオデータベース102を用いて、語彙「食料」に対応する対話シナリオを選択する。
(S15)対話装置1は、語彙「食料」に対応する対話シナリオを用いて対話を進行する。
対話装置「好きな食べ物は何ですか?」
ユーザ 「ケーキが好きだね」
対話装置「手作りですか?」
ユーザ 「山手沿線のケーキ屋を探してるよ」
対話装置(「食料」「山手沿線」「ケーキ屋」をキーとしてインターネット検索)
対話装置(「新宿」「○○屋」が検索される)
対話装置「新宿駅近くの○○屋が有名ですよ」

0050

図7は、ユーザ周辺データを画像、映像又は音声をとした場合における対話装置の構成図である。

0051

前述した図1及び図2における対話装置1によれば、ユーザ周辺データとしてのマルチメディアデータは、テレビから取得した視聴中番組のテキストであるとして説明した。これに対して、以下のように4つの他の実施形態も想定される。

0052

<第4の実施形態:カメラによってテレビを撮影した映像=マルチメディアデータ>
対話装置1は、図1と同様にテレビに接続されているが、ユーザ周辺データ取得部11は、マルチメディアデータとして、テレビの視聴中番組における「映像」を取得する。
この場合、語彙抽出部12は、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。語彙抽出部12は、例えば、語彙が付与された画像オブジェクトを蓄積するデータベースを有する。画像オブジェクトとは、視聴中番組の映像の中に映り込む画像単位である。
語彙「ブドウ」<->画像オブジェクト「ブドウ」

0053

画像オブジェクトの検出には、例えばSSD(Single Shot Multibox Detector)のようなものであってもよい。SSDは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、1つの画像オブジェクトが収まる。

0054

そして、バウンディングボックスで囲まれた物体の画像オブジェクトに対応する語彙を検出する。例えば映像の中に「ブドウ」の画像オブジェクトと一致する部分を検出した際に、語彙「ブドウ」検出する。このとき、語彙抽出部12は、語彙「ブドウ」と最も類似するベクトル表現の語彙「果物」を抽出することとなる。

0055

<第5の実施形態:カメラによってユーザ周辺を撮影した映像=マルチメディアデータ>
対話装置1は、ユーザの周辺を撮影する外側カメラに接続されている。ユーザ周辺データ取得部11は、マルチメディアデータとして、外側カメラによって撮影された「映像」を取得する。
この場合、語彙抽出部12は、第4の実施形態と同様に、映像から画像認識によって抽出した画像オブジェクトに付与された語彙を抽出する。

0056

<第6の実施形態:マイクによってユーザ周辺を収音した音声=マルチメディアデータ>
対話装置1は、ユーザの周辺を収音するマイクに接続されている。ユーザ周辺データ取得部11は、マルチメディアデータとして、マイクによって収音された「音声」を取得する。
この場合、語彙抽出部12は、音声から音声認識によって抽出した音声オブジェクトに付与された語彙を抽出する。語彙抽出部12は、例えば、語彙が付与された音響オブジェクトを蓄積するデータベースを有する。音響オブジェクトとは、ユーザ周辺の環境音の中に混在する音声単位である。
語彙「ドア」<->音響オブジェクト「バタン」
環境音の中に「バタン」の音響オブジェクトと一致する部分を検出した際に、語彙「ドア」検出する。このとき、語彙抽出部12は、語彙「ドア」と最も類似するベクトル表現の語彙「建造物」を抽出することとなる。
尚、音響オブジェクトは、音響信号そのものに限らず、音響から抽出された特徴量のようなものであってもよい。また、音響信号の収音については、例えばITU-R勧告BS.2051「番組制作における高度音響システム」のような技術を用いることもできる。

0057

以上、詳細に説明したように、本発明の対話装置、プログラム及び方法によれば、ユーザ周辺データに応じて雑談のような対話を進行させることができる。即ち、対話のきっかけを多く提供することでき、飽きられにくい雑談対話AIを実現することができる。

0058

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

0059

1対話装置
101語彙体系データベース
102対話シナリオデータベース
11ユーザ周辺データ取得部
12語彙抽出部
13 語彙選択部
14対話シナリオ選択部
151音声認識部
152対話実行部
153音声変換部
16顔画像認識部
17 ユーザ世代推定エンジン
18インターネット検索部
2 テレビ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ