図面 (/)

技術 発話意図推定装置および発話意図推定方法

出願人 トヨタ自動車株式会社大学共同利用機関法人情報・システム研究機構
発明者 池野篤司相原健郎河野進
出願日 2017年3月30日 (2年8ヶ月経過) 出願番号 2017-066738
公開日 2018年11月1日 (1年1ヶ月経過) 公開番号 2018-169494
状態 未査定
技術分野 音声認識 画像処理 音声の分析・合成
主要キーワード 判別ロジック 特徴量取得ステップ 雑音発生源 テキスト化処理 クラス識別器 サポートベクタ 発話特徴 身体画像
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年11月1日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

発話テキストが得られなくても発話の意図を推定可能とする。

解決手段

発話意図推定装置は、ユーザ発話音声データを取得する音声取得手段と、発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、を備える。前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されてもよく、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合やテキストから発話意図を推定できなかった場合には音響特徴量を用いて意図を推定することも好ましい。

概要

背景

近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。例えば、特許文献1は、複数の人間が会話している状況において意思決定支援するためにコンピュータが介入する技術を開示する。

このような介入を行うためには、会話の状況や会話中話者グループの状態を、会話音声に基づいて把握する必要がある。特許文献2は、複数の話者による発話関係性分析する技術を開示する。特許文献3は、会話を行っている話者グループの状態を判定する技術を開示する。ここで、上述のような会話状況やグループ状態を判定するために、特許文献2や特許文献3では発話内容からその意図を推定(抽出)し、推定された意図を利用している。

また、特許文献4は、発話が相手への質問、説明、相づちのいずれの意図を示すものであるかを判定し、使用語彙数などと共に発話意図を用いて、発話者知識量を推定することを開示する。

発話意図の推定は、いずれの先行技術において、発話のテキストに基づいて行われている。

概要

発話テキストが得られなくても発話の意を推定可能とする。発話意推定装置は、ユーザ発話音声データを取得する音声取得手段と、発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意を推定する意推定手段と、を備える。前記意推定手段は、発話のテキストを用いても前記ユーザ発話の意を推定可能に構成されてもよく、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合やテキストから発話意を推定できなかった場合には音響特徴量を用いて意を推定することも好ましい。

目的

本発明は、音声認識ができない場合でも発話の意図を推定可能な技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ユーザ発話音声データを取得する音声取得手段と、前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、を備える、発話意図推定装置

請求項2

前記音声データから前記ユーザ発話のテキストを抽出する音声認識手段をさらに備え、前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されており、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合には音響特徴量を用いて意図を推定する、請求項1に記載の発話意図推定装置。

請求項3

前記意図推定手段は、発話のテキストを用いた意図の推定が失敗した場合に、音響特徴量を用いて意図を推定する、請求項2に記載の発話意図推定装置。

請求項4

前記意図推定手段は、意図が既知の発話と当該発話の音響特徴量を元に学習処理によってあらかじめ作成された識別器である、請求項1から3のいずれか1項に記載の発話意図推定装置。

請求項5

発話者性別および年齢層を特定する話者識別手段をさらに備え、前記識別器は、発話者の性別および年齢層に応じて複数種類があらかじめ作成されており、前記意図推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器を用いて、前記音響特徴量から前記ユーザ発話の意図を推定する、請求項4に記載の発話意図推定装置。

請求項6

前記話者識別手段は、前記音響特徴量に基づいて発話者の性別および年齢層を特定する、請求項5に記載の発話意図推定装置。

請求項7

前記話者識別手段は、発話者の顔画像を用いて発話者の性別および年齢層を特定する、請求項5または6に記載の発話意図推定装置。

請求項8

前記音響特徴量は、発話の音圧レベル基本周波数発話長発話速度、間隔または重なり、の少なくともいずれかを含む、請求項1から7のいずれか1項に記載の発話意図推定装置。

請求項9

前記発話の意図は、話題切り出し、提案、肯定否定質問回答集約、の少なくともいずれかを含む、請求項1から8のいずれか1項に記載の発話意図推定装置。

請求項10

発話意図推定装置が実行する発話意図推定方法であって、ユーザ発話の音声データを取得する音声取得ステップと、前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得ステップと、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定ステップと、を含む、発話意図推定方法。

請求項11

請求項10に記載の方法の各ステップをコンピュータに実行させるためのプログラム

技術分野

0001

本発明は、ユーザ発話の意図を推定する技術に関する。

背景技術

0002

近年、コンピュータから人間に対して提案や援助などの種々の介入を行う技術の研究・開発が進められている。例えば、特許文献1は、複数の人間が会話している状況において意思決定支援するためにコンピュータが介入する技術を開示する。

0003

このような介入を行うためには、会話の状況や会話中話者グループの状態を、会話音声に基づいて把握する必要がある。特許文献2は、複数の話者による発話関係性分析する技術を開示する。特許文献3は、会話を行っている話者グループの状態を判定する技術を開示する。ここで、上述のような会話状況やグループ状態を判定するために、特許文献2や特許文献3では発話内容からその意図を推定(抽出)し、推定された意図を利用している。

0004

また、特許文献4は、発話が相手への質問、説明、相づちのいずれの意図を示すものであるかを判定し、使用語彙数などと共に発話意図を用いて、発話者知識量を推定することを開示する。

0005

発話意図の推定は、いずれの先行技術において、発話のテキストに基づいて行われている。

先行技術

0006

特開2017−10309号公報
特開2017−9825号公報
特開2017−9826号公報
特開2013−167765号公報

発明が解決しようとする課題

0007

上述のように従来の発話意図推定は音声認識精度の影響を強く受ける。音声認識処理すなわち発話内容のテキスト化処理は、必ずしも確実に行えるわけではない。そして、音声認識に失敗した場合には、発話意図推定が行えなくなる。

0008

上記のような問題を考慮して、本発明は、音声認識ができない場合でも発話の意図を推定可能な技術を提供することを目的とする。

課題を解決するための手段

0009

上記目的を達成するために、本発明の第一の態様に係る発話意図推定装置は、ユーザ発話の音声データを取得する音声取得手段と、前記音声データから発話の音響的な特徴量である音響特徴量を取得する特徴量取得手段と、前記音響特徴量から前記ユーザ発話の意図を推定する意図推定手段と、を備えることを特徴とする。

0010

本開示において、「発話」とは言語を音声として発声すること、およびその結果として発声された音声を意味する。音響特徴量は、発話(音声)の音響的な特徴量であり、その例として、発話の音圧レベル基本周波数発話長発話速度、間隔または重なりが挙げ
られる。また、発話の意図の例として、話題切り出し、提案、肯定否定、質問、回答集約が挙げられる。

0011

本態様によれば、発話テキストを利用することなく意図推定が可能となるので、音声認識ができないような場合でも発話の意図を推定できる。

0012

本態様に係る発話意図推定装置は、前記音声データから前記ユーザ発話のテキストを抽出する音声認識手段をさらに備え、前記意図推定手段は、発話のテキストを用いても前記ユーザ発話の意図を推定可能に構成されていてもよい。この場合、本態様に係る発話意図推定装置は、前記音声データから前記ユーザ発話のテキストを抽出できた場合には発話のテキストを用いて意図を推定し、前記音声データから前記ユーザ発話のテキストを抽出できなかった場合には音響特徴量を用いて意図を推定することが好ましい。なお、「ユーザ発話のテキストを抽出できた場合」とは、閾値以上の信頼度でテキストを抽出できた場合と表現してもよい。

0013

このような構成によれば、テキストが抽出できた場合にはテキストに基づいて発話意図を推定し、テキストが週出できなかった場合に音響特徴量に基づいて発話意図を推定できる。したがって、テキストを用いる意図推定が失敗する場合でも、意図を推定することが可能となる。

0014

本態様に係る発話意図推定装置は、さらに、発話のテキストを用いた意図の推定が失敗した場合に、音響特徴量を用いて意図を推定するように構成されてもよい。

0015

テキスト抽出成功したが意図推定に失敗する場合の例として、意図推定の根拠となる語彙が発話内に含まれない場合が挙げられる。このような構成によれば、意図推定の精度をさらに向上させることができる。

0016

本態様における意図推定手段として、機械学習処理によって作成された識別器を利用できる。機械学習処理では、発話意図が既知発話データとその音響特徴量を学習データとして用いればよい。発話意図の正解は、話者本人あるいは第三者手動割り当てればよい。識別器は、複数の2クラス識別器として作成してもよいし、1つの多クラス識別器として作成してもよい。また、本態様における意図推定手段は、ルールベースの判定を行うものであってもよい。

0017

発話意図の推定に用いられる音響特徴量の一つである基本周波数は、話者の性別年齢によって変化の傾向が異なる。基本周波数以外の音響特徴量にも、話者の性別や年齢によって異なるものがある。そこで、本態様に係る発話意図推定装置は、発話者の性別および年齢層を特定する話者識別手段をさらに備え、前記識別器は、発話者の性別および年齢層に応じて複数種類があらかじめ作成されており、前記意図推定手段は、前記話者識別手段によって特定された発話者の性別および年齢層に対応する識別器を用いて、前記音響特徴量から前記ユーザ発話の意図を推定する、ことも好ましい。

0018

本態様における話者識別手段はどのようにして話者の性別や年齢層を特定してもよいが、例えば、音声データから取得される音響特徴量に基づいて特定してもよいし、話者の顔を撮影した顔画像を用いて特定してもよい。

0019

このような構成によれば、発話テキストを利用できなくても発話の意図を推定可能となる。

0020

なお、本発明は、上記手段の少なくとも一部を備える発話意図推定装置あるいは支援装
置として捉えることができる。また、本発明は、上記手段が行う処理の少なくとも一部を実行する発話意図推定装置による発話意図推定方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

発明の効果

0021

本発明によれば、発話の意図を精度良く推定することができる。

図面の簡単な説明

0022

図1は、実施形態に係る音声処理装置(発話意図推定装置)の機能ブロック図である。
図2は、コーパス辞書に含まれる発話意図判別用のキーワードの例を示す。
図3は、特徴量ベース意図推定部(識別器)を学習するための学習装置の機能ブロック図である。
図4は、特徴量ベース意図推定部(識別器)の学習方法の流れを示すフローチャートである。
図5は、実施形態に係る発話意図推定処理の流れを示すフローチャートである。
図6は、変形例に係る音声処理装置(発話意図推定装置)の機能ブロック図である。
図7は、変形例に係る音声処理装置(発話意図推定装置)の機能ブロック図である。
図8は、変形例に係る音声処理装置(発話意図推定装置)の機能ブロック図である。
図9は、音声処理装置(発話意図推定装置)を含む会話介入支援システムの構成例を示す図である。

実施例

0023

(第1の実施形態)
本実施形態は、複数人による会話をモニタして、それぞれの発話の意図を推定する音声処理装置(発話意図推定装置)である。本実施形態に係る音声処理装置は、ユーザと会話を行ったりユーザ間の会話に対して仲介を行ったりする音声処理システムの一部として使われることが想定されるが、ここでは発話意図推定処理に焦点を当てて説明する。

0024

システム構成
図1は本実施形態に係る音声処理装置100の機能ブロック図である。音声処理装置100は、CPUなどの演算装置、RAMやROMなどの記憶装置キーボードマイクなどの入力装置ディスプレイスピーカーなどの出力装置通信インタフェースなどを備えるコンピュータであり、記憶装置に記憶されたプログラムを演算装置が実行することによって、図1に示す各機能を実現する。ただし、上記の機能の一部または全部を専用のハードウェアによって実現しても構わない。また、音声処理装置100は、1台の装置として構成する必要はなく、通信回線を介して結合された複数の装置(コンピュータ)を用いて構成し、それぞれの装置間で機能を分担して実行しても構わない。

0025

図1に示すように、音声処理装置100は、マイク(音声入力部)101、雑音除去部102、音源分離部(話者分離部)103、発話区間検出部104、音声認識部105、音響特徴量抽出部106、発話意図推定部107、コーパス辞書108をその機能部として含む。

0026

マイク101は、複数のユーザによる会話音声を取得する。使用するマイク101の数や配置は特に限定されないが、複数のマイクやアレイマイクを用いて音源の方向を特定できるように構成することが好ましい。

0027

雑音除去部102は、マイク101から取得される音声データから雑音を除去する機能部である。雑音除去部102は、例えば、雑音発生源近くに配置されたマイクから得られる音声と、その他のマイクから得られる音声との相違から、雑音を特定して除去するように構成される。雑音除去部102は、また、複数のマイクに入力される発話の相関を利用して、雑音を除去するよう構成されてもよい。

0028

音源分離部103は、雑音除去部102によって雑音が除去された音声データを対象として、それぞれの音声の音源(話者)を特定する機能部である。音源分離部103は、複数のマイクに音声が入力される時間差から各話者のマイクに対する方向および距離を検出することによって、話者を特定するように構成される。

0029

発話区間検出部104は、音源分離部103によって分離された音声データを対象に、一人のユーザによるひとまとまりの発話を発話区間として検出する機能部である。発話区間検出には、音声モデルスペクトラムエントロピーを用いた手法など既存の任意の手法を利用できる。以下では、ひとまとまりの発話の音声データを発話データとも称する。

0030

音声認識部105は、発話区間検出部104によって検出されたそれぞれの発話データに対して音声認識処理を施して、発話内容をテキスト化する機能部である。音声認識処理には既存の技術、例えば、音響モデル言語モデル発音辞書を用いたモデルベースの手法を適用すればよい。音声認識部105は、音声認識の結果(テキスト)とともに、音声認識結果の信頼度も計算する。

0031

音響特徴量抽出部106は、発話区間検出部104によって検出されたそれぞれの発話データについて、その発話の音響的な発話特徴量(音響特徴量)を計算する機能部である。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。

0032

発話意図推定部107は、音声認識結果のテキストまたは発話の音響的な特徴量(音響特徴量)に基づいて、発話の意図を推定する機能部である。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約が挙げられる。発話意図推定部107は、テキストに基づく意図推定を行うテキストベース意図推定部107aと、音響特徴量に基づく意図推定を行う特徴量ベース意図推定部107bを有する。

0033

テキストベース意図推定部107aは、発話テキストに基づいて発話意図を推定する機能部である。テキストベース意図推定部107aは、意図推定用のコーパス辞書108を参照して発話意図を推定する。発話意図推定用のコーパス辞書108には、発話意図を推定するための判別用のキーワード(単語や言い回し)が格納される。図2は、コーパス辞書108に含まれるキーワードの一例を示す。このようなキーワードは、実際の会話に現れる語彙等からあらかじめ生成しておけばよい。テキストベース意図推定部107aは、発話テキストをコーパス辞書108と照合して発話テキストの中に意図判別用キーワードが含まれているか判断することによって、発話意図を推定する。

0034

特徴量ベース意図推定部107bは、発話の音響特徴量に基づいて発話意図を推定する機能部である。本実施形態においては、特徴量ベース意図推定部107bは、音響特徴量を入力として受け付け、この音響特徴量があらかじめ定義された複数の発話意図のいずれ
に該当するかを決定する識別器である。発話意図の例として、話題切り出し、提案、肯定、否定、質問、回答、集約を含むことができる。特徴量ベース意図推定部107bは、入力された音響特徴量が話題切り出し、提案、肯定、否定、質問、回答、集約に該当するか否かをそれぞれ判別する複数の2クラス識別器として生成されてもよいし、これらを識別する1つの多クラス識別器として生成されてもよい。

0035

学習処理
ここで図3および図4を参照して、特徴量ベース意図推定部107bの学習(生成)処理について説明する。図3は、特徴量ベース意図推定部107bを生成するための学習装置150の構成を示す。図4は、特徴量ベース意図推定部107bの学習処理の流れを示すフローチャートである。

0036

テップS101において、学習データ取得部151が、学習データを取得する。学習データは、発話の意図がラベル付けされた音声データとすることができる。複数人による会話データに対する発話意図のラベル付けは、例えば、管理者が手動でその意図(本実施形態では、話題切り出し、提案、肯定、否定、質問、回答、集約のいずれか)を決定して行える。学習データ取得部151は、このようにして用意された学習データを取得する。

0037

ステップS102では、学習データに含まれる音声データに前処理を施して、会話音声から話者ごとのそれぞれの発話を抽出する。前処理は、具体的には、雑音除去部102による雑音除去処理、音源分離部103による音源(話者)分離処理、発話区間検出部104による発話区間検出処理を含む。

0038

ステップS103では、音響特徴量抽出部106を用いて、発話データから発話の音響特徴量を抽出する。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。

0039

ステップS104では、学習部152が、学習データに含まれる発話意図とステップS103で抽出した音響特徴量を用いて、音響特徴量から発話意図を推定するための識別器を機械学習処理により生成する。機械学習アルゴリズムは特に限定されず、SVM(サポートベクタマシーン)、決定木ランダムフォレストニューラルネットワークロジスティック回帰などの任意の教師あり学習アルゴリズムを採用可能である。

0040

以上の処理によって、特徴量ベース意図推定部107b(識別器)が生成できる。

0041

<発話意図推定処理>
図5は、本実施形態に係る音声処理装置100が行う、発話意図推定処理の流れを示すフローチャートである。

0042

ステップS201において、音声処理装置100が、マイク101を介して複数のユーザによる会話音声を取得する。ステップS202では、取得された音声データに前処理を施す。前処理は、具体的には、雑音除去部102による雑音除去処理、音源分離部103による音源(話者)分離処理、発話区間検出部104による発話区間検出処理を含む。ステップS201前処理により、話者ごとのそれぞれの発話データが得られる。

0043

ステップS203において、音声認識部105がそれぞれの発話に対して音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術、例えば、音響モデル・言語モデル・発音辞書を用いたモデルベースの手法を適用すればよい。音声認識部105は、音声認識の結果(テキスト)とともに、音声認識結果の信頼度も計算する。

0044

ステップS204において、ステップS103の音声認識処理が成功したか否かが判断される。ここでは音声認識結果の信頼度が所定の閾値以上であれば音声認識処理に成功したと判断され、そうでない場合には音声認識処理に失敗したと判断される。

0045

ステップS203の音声認識処理が成功であった場合(S204−YES)、ステップS205に進んで、発話テキストに基づく発話意図推定処理を行う。一方、音声認識処理に失敗した場合(S204−NO)は、ステップS207に進んで、音響特徴量に基づく発話意図推定処理を行う。

0046

ステップS205では、テキストベース意図推定部107aが、発話テキストに基づいて発話意図の推定を行う。テキストベース意図推定部107aは、発話テキストをコーパス辞書108と照合して、発話テキストの中に意図判別用キーワードが含まれているか判断することによって、発話意図を推定する。テキストベース意図推定部107aは、発話意図推定結果と共に、発話意図の推定精度も計算する。

0047

ステップS206では、ステップS205における発話意図の推定精度が閾値以上であるか否かを判定する。推定精度が閾値以上であれば(S206−YES)、ステップS205で得られた発話意図を最終的な推定結果として確定する。

0048

一方、推定精度が閾値未満であれば(S206−NO)、ステップS207に進んで、音響特徴量に基づく発話意図推定処理を行う。なお、発話意図の推定精度が低くなるのは、発話テキストの中に発話意図を推定できるキーワードが存在しない場合や、発話テキストの中に異なる意図に対応するキーワードが混在している場合に生じうる。

0049

ステップS207は、音声認識処理に失敗した場合(S204−NO)あるいは発話テキストに基づく発話意図推定精度が低い場合(S206−NO)に実行される。ステップS207では、音響特徴量抽出部106が、それぞれの発話について、その発話の音響的な特徴量(音響特徴量)を計算する。音響特徴量の例として、音圧レベル、基本周波数、発話長、発話速度、平均モーラ長、発話の重なりまたは間隔などが挙げられる。

0050

ステップS208では、特徴量ベース意図推定部107bが、ステップS207において抽出された音響特徴量を用いて、発話の意図を推定する。本実施形態においては、特徴量ベース意図推定部107bは、音響特徴量を入力として受け付け、この音響特徴量があらかじめ定義された複数の発話意図のいずれに該当するかを決定する識別器である。したがって、特徴量ベース意図推定部107bは、入力された音響特徴量から、その発話意図を推定できる。

0051

以上のように、本実施形態では、テキストベースの発話意図推定が成功した場合にはその結果を最終的な推定結果とし、テキストベースの発話意図推定が行えなかったり失敗したりした場合には、特徴量ベースの発話意図推定の結果を最終的な推定結果として確定する。

0052

<本実施形態の有利な効果>
本実施形態によれば、音声認識処理が正しく行えなかった場合や、発話内容に発話意図を推定できるキーワードが含まれなかった場合であっても、発話の意図を推定できる。したがって、発話テキストのみに基づいて意図推定を行う手法と比較して、より多くの場面で発話意図の推定が行えるようになる。

0053

発話意図は会話の状況や内容を判断するために重要な要素の一つであり、発話意図推定がより多くの場面で推定できることで、会話状況や内容の判断がより適確に行えるように
なる。さらには、会話に対する応答や介入をより適確に行えるようになる。

0054

(変形例1)
上記の説明において、特徴量ベース意図推定部107bは、音響特徴量のみに基づいて発話意図を推定している。しかしながら、音響特徴量以外の要素を考慮して発話意図を推定するようにしてもよい。

0055

図6は、上記第1の実施形態の変形例に係る音声処理装置200の機能ブロック図である。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ201、表情抽出部202、およびジェスチャー抽出部203が追加されている点で異なる。また、特徴量ベース意図推定部204の構成も変更されている。

0056

カメラ201は、ユーザ(話者)の顔および身体を含む全身を撮影する。表情抽出部202は、カメラ201の撮影画像に含まれる顔画像から、話者の表情を抽出する。ジェスチャー抽出部203は、カメラ201の撮影画像に含まれる身体画像から、話者のジェスチャーを抽出する。表情抽出やジェスチャー抽出には、既存の任意の手法が適用できる。

0057

特徴量ベース意図推定部204は、音響特徴量と表情とジェスチャーを入力として、発話意図を識別する識別器である。特徴量ベース意図推定部204の生成(学習)方法は、上記で図4を参照して説明した方法とほぼ同様であり、学習データとして発話データだけでなく表情やジェスチャーに関するデータも利用すればよい。

0058

ここでは、表情やジェスチャーを利用する例を説明したが、それ以外にも、脳波心拍脈拍などの生体データを用いてもよい。

0059

(変形例2)
第1の実施形態では、特徴量ベース意図推定部107b,204として機械学習処理により生成した識別器を利用している。しかしながら、特徴量ベース意図推定部107b,204は、機械学習により生成される必要はなく、設計者によって定められた判別ロジック算出条件)にしたがって入力データから発話意図を推定するように構成してもかまわない。

0060

(変形例3)
第1の実施形態では、発話テキストに基づく発話意図推定ができない場合に、音響特徴量を利用して発話意図推定を行っている。しかしながら、発話テキストが抽出できた場合にも、音響特徴量を考慮して発話意図を推定するようにしてもよい。一例として、発話テキストが抽出できた場合に、テキストベース意図推定部107aによる意図推定結果と、特徴量ベース意図推定部107b(204)の意図推定結果とを考慮した結果を最終的な意図推定結果とすることができる。

0061

あるいはまた、全てのケースにおいて、発話テキストを用いずに音響特徴量に基づいて発話意図を推定するように構成してもかまわない。

0062

(変形例4)
第1の実施形態では、特徴量ベース意図推定部107bを1種類のみ用いている。しかしながら、発話意図の推定に用いられる音響特徴量の一つである基本周波数は、話者の性別や年齢によって平均値や平均値からの変化の傾向が異なることが想定される。したがって、話者の性別ごとおよび年齢層ごとに異なる特徴量ベース意図推定部107b(識別器)を生成して用いることが音響特徴量の分析の精度向上に、更には発話意図推定精度の向
上につながる。

0063

図7は、本変形例に係る音声処理装置300の機能ブロックを示す図である。本変形例では、意図推定時において話者の性別および年齢層を特定することが必要となる。第1の実施形態と同様の構成については、同一の符号を付してその説明を省略する。本変形例は、第1の実施形態と比較して、カメラ301、および性別年齢層特定部302が追加されている点で異なる。また、特徴量ベース意図推定部107bが話者の性別および年齢層ごとに複数用意されている。

0064

カメラ301は、少なくとも話者の顔を撮影するように設置される。性別年齢層特定部302は、カメラ301が撮影した顔画像に基づいて、話者の性別と年齢層を特定する。なお、年齢層の定義は適宜行えばよい。例えば、10代未満、10代、20代、30代、40代、50代、60代以上の7区分を利用できる。もちろん、より細かく分類してもよいし、より粗く分類してもよい。顔画像から性別および年齢を推定するためには、既存の顔認識技術利用可能である。

0065

特徴量ベース意図推定部107bは、性別および年齢層グループごとの学習データを用いて、第1の実施形態で説明した方法と同様の方法によって生成すればよい。

0066

本変形例において、特徴量を用いて発話意図推定を行う場合(図5のステップS208)には、発話意図推定部107に、音響特徴量抽出部106が抽出した音響特徴量と、性別年齢層特定部302が特定した話者の性別および年齢層が入力される。発話意図推定部107は、話者の性別および年齢層に対応した特徴量ベース意図推定部107bを選択し、選択された特徴量ベース意図推定部107bに音響特徴量を入力して、話者の発話意図を推定する。

0067

図8は、さらなる変形例に係る音声処理装置400の機能ブロックを示す図である。図7では、顔画像に基づいて話者の性別および年齢層を特定しているが、本構成例では、性別・年齢層特定部401を利用して、音響特徴量に基づいて話者の性別および年齢層を特定する。性別・年齢層特定部401は音響特徴量抽出部106から音響特徴量を取得して、話者の性別および年齢層を特定する。音響特徴量から話者の性別および年齢を推定するためには、既存の音声処理技術が利用可能である。

0068

(第2の実施形態)
本発明の第2の実施形態は、第1の実施形態に係る音声処理装置(発話意図推定装置)を適用した会話介入支援システムである。会話介入支援システムは、車両内の複数の話者による会話に対して、情報提供や意思決定の支援を行うものである。

0069

図9は本実施形態に係る会話介入支援システム500の構成の一例を示す図である。ナビゲーション装置511がマイクを介して取得した乗員の会話音声は、通信装置514を経由して会話支援サーバ520に送られる。会話支援サーバ520は、車両510から送信された会話音声を分析して、グループの状態や各話者の会話満足度を推定し、状況に応じて適切な情報提供や意思決定支援などの介入を行う。会話支援サーバ520は、会話音声を分析してどのような方針で介入を行うかを決定し、その方針に従った情報をレコメンドシステム531、店舗広告情報DB532、関連情報WEBサイト540から取得する。この際に、会話支援サーバ520は、ユーザ情報利用履歴DB533に格納されているユーザの嗜好店舗等の利用履歴も考慮して、ユーザに合った情報を取得する。会話支援サーバ520は介入指示を車両510に送信し、車両510はナビゲーション装置511のスピーカーやディスプレイを通じて音声再生あるいはテキストや画像の表示を行う。また、車両510は、現在位置を取得するGPS装置512および乗員(話者)の顔や体
を撮影するカメラ513も備える。

0070

発話意図推定処理に関して説明すると、第1の実施形態で説明した発話意図推定のための各機能部(図1参照)は、車両510と会話支援サーバ520に適宜分散して実装することができる。例えば、雑音除去、音源分離、発話区間検出、音響特徴量抽出を車両510で実施し、音声認識および発話意図推定を会話支援サーバ520で行うように実装できる。ただしこれは機能分担の一例であり、これとは異なるように機能分担してもよい。また、会話支援サーバ520が、複数のコンピュータ(例えば、音声認識サーバ、意図抽出サーバ、会話分析サーバ会話エージェントサーバ)によって実現されてもよい。

0071

会話支援サーバ520は、発話意図推定結果も用いながら、会話内容や会話状況の分析、グループ状態の分析、各話者の会話における満足度の推定などの処理を行う。また、会話エージェントを用いて、どのようなシステム発話を行うかを決定する。例えば、ユーザが話題としている事物に関する情報を検索して提供したり、会話に参加できず満足度が低いユーザに対して意見提示の機会を与えるように介入したりすることが考えられる。会話エージェントがシステム発話の内容(テキスト)を決定して、車両510に送信すると、車両510は音声合成処理によってそのテキストを音声化して、スピーカーから出力する。これらの処理は、例えば特許文献1−3に詳しく記載されている。

0072

本実装例では、車両内のカメラ513を用いて、上記変形例で説明した表情やジェスチャーを用いた発話意図推定や表情やジェスチャーに基づく性別および年齢層の推定を行うこともできる。

0073

本実装例では、発話意図の推定精度および推定可能機会が向上するので、会話の内容や状況をより適確に分析できるようになり、より適確な介入が実現できるようになる。

0074

本実装例は、車両とサーバ装置とが連携するテレマティクスサービスとして構成する会話介入支援システムであるが、具体的なシステムの形態はこれに限られない。例えば、会議室などの室内における会話を取得して、この会話に介入するシステムとして構成することができる。

0075

101:マイク
102:雑音除去部
103:音源(話者)分離部
104:発話区間検出部
105:音声認識部
106:音響特徴量抽出部
107:発話意図推定部
107a:テキストベース意図推定部
107b:特徴量ベース意図推定部
108:コーパス辞書

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ