図面 (/)

技術 感情認識装置

出願人 パナソニック株式会社
発明者 加藤弓子釜井孝浩中藤良久廣瀬良文
出願日 2007年5月21日 (11年3ヶ月経過) 出願番号 2007-541566
公開日 2009年11月19日 (8年9ヶ月経過) 公開番号 WO2007-148493
状態 特許登録済
技術分野 音声認識 音声の分析・合成
主要キーワード 発生指標 統計的代表値 正規化振幅 特徴量分析 質的データ 周期性信号 対話ロボット ピークツーピーク
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2009年11月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

韻律情報個人差地方差、言語による差に関わらず、正確で安定した音声による感情認識を行うことができる感情認識装置を提供は、入力音声から当該入力音声の発話者感情を認識する感情認識装置であって、入力音声に含まれる音韻の種類を認識する音声認識手段(106)と、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段(104)と、前記音声認識手段(106)で認識された音韻の種類に基づいて、音韻ごとに、前記特徴的音色の発生頻度を示す特徴的音色発生指標を計算する特徴的音色発生指標計算手段(111)と、前記特徴的音色発生指標計算手段(111)で計算された前記特徴的音色発生指標に基づいて、前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段(113)とを備える。

概要

背景

動電応対電子秘書対話ロボット等、音声対話によるインタフェースを持つ対話システムにおいて、対話システムがユーザの要求により適切に対応するためには、ユーザが発声した音声からユーザの感情を理解することが重要な要件となる。例えば、上記のような自動電話対応や対話ロボットがユーザと音声による対話を行う際、対話システムの音声認識は必ずしも正確に音声を認識できるとは限らない。対話システムが誤認識を起こした場合には、対話システムはユーザ対して再度音声入力を要求する。このような状況において、ユーザは少なからず怒りを覚えたり、イライラしたりする。誤認識が重なればなおさらである。怒りやイライラは、ユーザの話し方声質を変化させ、ユーザの音声は平常時の音声とは異なるパターンとなる。このため、平常時の音声を認識用モデルとして保持する対話システムは、さらに誤認識をし易くなり、ユーザに対して同じ回答を何度も要求するなど、ユーザにとってさらに不愉快な要求をすることになる。対話システムが上記のような悪循環に陥った場合、その対話インタフェースとしての用を成さなくなる。

ユーザが発声する音声から感情を認識することは、このような悪循環を断ち切り機器とユーザとの音声対話を正常化するために必要である。すなわち、ユーザの怒りやイライラを理解することができれば、対話システムは誤認識したことに対して、より丁寧な口調で聞き返したり、謝罪したりすることができる。これにより、対話システムは、ユーザの感情を平常に近づけ、平常の発話を導くことができ、認識率回復することができる。しいては対話システムによる機器操作をスムースに行うことができる。

従来、音声から感情を認識する方法としては、話者の発声した音声から、声の高さ(基本周波数)、大きさ(パワー)、発話速度などの韻律的特徴を抽出し、入力音声全体に対して、「声が高い」、「声が大きい」といった判断に基づき、感情を認識する方式(例えば特許文献1、特許文献2参照)が提案されている。また、入力音声全体に対して、「高い周波数領域のエネルギーが大きい」といった判断をする方式(例えば特許文献1参照)が提案されている。さらに、音声のパワーと基本周波数とのシーケンスより、それらの平均、最大値最小値といった統計的な代表値を求めて感情を認識する方式(例えば特許文献3参照)が提案されている。さらにまた、文や単語のイントネーションアクセントといった韻律時間パターンを用いて、感情を認識する方式(例えば特許文献4、特許文献5参照)が提案されている。

図20は、前記特許文献1に記載された従来の音声による感情認識装置を示すものである。

マイクロホン1は、入力音声を電気信号に変換する。音声コード認識手段2は、マイクロホン1から入力された音声の音声認識を行い、認識結果を感性情報抽出手段3および出力制御手段4へ出力する。

一方、感性情報抽出手段3の話速検出部31、基本周波数検出部32および音量検出部33は、マイクロホン1より入力された音声より話速、基本周波数および音量をそれぞれ抽出する。

音声レベル判定基準格納部34には、入力された音声の話速、基本周波数および音量を標準の話速、基本周波数および音量とそれぞれ比較して音声レベルを決定するための基準が記憶されている。標準音声特徴量格納部35には、音声レベルを判定する際の基準となる標準の発声速度、基本周波数および音量が記憶されている。音声レベル分析部36は、入力された音声の特徴量と標準の音声特徴量との比に基づいて、音声レベル、すなわち話速レベル、基本周波数レベルおよび音量レベルを決定する。

さらに、感性レベル分析知識ベース格納部37は、音声レベル分析部36で決定された各種音声レベルによって感性レベルを判定するルールを記憶している。感性レベル分析部38は、音声レベル分析部36からの出力と音声コード認識手段2からの出力とから、感性レベル分析用知識ベース格納部37に記憶されているルールに基づき、感性レベルすなわち感性の種類とレベルとを判定する。

出力制御手段4は、感性レベル分析部38が出力した感性レベルに従って、出力装置5を制御して、入力された音声の感性レベルに対応する出力を生成する。ここで音声レベルの決定に用いられている情報は、1秒当たりモーラ話しているかで表した話速や、平均基本周波数や、発話、文あるいはフレーズといった単位で求められた韻律情報である。

しかしながら、韻律情報は言語的情報を伝達するためにも使用されており、さらにその言語的情報の伝達方法が、言語の種類ごとに違うという特徴がある。たとえば、日本語においては「橋」と「」のように、基本周波数の高低によって作られるアクセントにより言葉の意味が異なる同音異義語が多くある。また、中国語においては、四声と呼ばれる基本周波数の動きにより、同じ音でもまったく異なる意味(文字)を示すことが知られている。英語では、アクセントは基本周波数よりもむしろストレスと呼ばれる音声の強度によって表現されるが、ストレスの位置は単語あるいはの意味や、品詞を区別する手がかりとなっている。韻律による感情認識を行うためにはこのような言語による韻律パターンの違いを考慮する必要があり、言語ごと感情表現としての韻律の変化と、言語情報としての韻律の変化とを分離して、感情認識用のデータを生成する必要があった。また、同一言語内においても、韻律を用いる感情認識においては、早口の人や、声の高い(低い)人、等の個人差があり、例えば、普段から大声且つ早口で話す声の高い人は、常に怒っていると認識されてしまうことになる。そのため、個人ごとの標準データを記憶し、個人ごとに標準データと比較することで各個人に合わせた感情認識を行い、個人差による感情の認識間違いを防ぐ(例えば特許文献2、特許文献5)という方法も必要であった。
特開平9−22296号公報(第6−9頁、表1−5、第2図)特開2001−83984号公報(第4−5頁、第4図)特開2003−99084号公報特開2005−39501号公報(第12頁)特開2005−283647号公報

概要

韻律情報の個人差、地方差、言語による差に関わらず、正確で安定した音声による感情認識を行うことができる感情認識装置を提供は、入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、入力音声に含まれる音韻の種類を認識する音声認識手段(106)と、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段(104)と、前記音声認識手段(106)で認識された音韻の種類に基づいて、音韻ごとに、前記特徴的音色の発生頻度を示す特徴的音色発生指標を計算する特徴的音色発生指標計算手段(111)と、前記特徴的音色発生指標計算手段(111)で計算された前記特徴的音色発生指標に基づいて、前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段(113)とを備える。

目的

本発明は、前記従来の課題を解決するものであり、音韻単位という短い単位で感情を検出可能で、且つ比較的、個人差、言語差および地方差が少ない特徴的音色と、話者の感情との関係を利用して精度の高い感情認識を行う音声による感情認識装置を提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
2件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力音声から当該入力音声の発話者感情を認識する感情認識装置であって、前記入音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、前記特徴的音色手段で検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識手段と、前記音声認識手段で認識された音韻の種類に基づいて、前記特徴的音色の発声され易さを示す特徴的音色発生指標音韻ごとに計算する特徴的音色発生指標計算手段と、前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段とを備えることを特徴とする感情認識装置。

請求項2

さらに、前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別手段を備えることを特徴とする請求項1に記載の感情認識装置。

請求項3

前記感情強度判別手段は、前記特徴的音色発生指標計算手段で計算された音韻ごとの特徴的音色発生指標と前記特徴的音色検出手段で検出された特徴的音色が発生する時間的音声位置とを比較し、特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生している音韻における感情強度を判別することを特徴とする請求項2に記載の感情認識装置。

請求項4

前記特徴的音色検出手段は、母音部分の音源揺らぎのある音声の音色を特徴的音色として検出することを特徴とする請求項1に記載の感情認識装置。

請求項5

さらに、音韻の種類ごとに前記特徴的音色を含む音声の特徴量を記憶している特徴量データベースを少なくとも含み、前記音声認識手段は、前記特徴量データベースに基づいて、前記入力音声に含まれる音韻の種類を認識することを特徴とする請求項1に記載の感情認識装置。

請求項6

前記特徴量データベースは、前記音韻の種類ごとに、少なくとも1つ以上の前記特徴的音色を含む音声の特徴量を記憶している第1データベースと、前記音韻の種類ごとに、前記特徴的音色を含まない音声の特徴量を記憶している第2データベースとを含み、前記感情認識装置は、さらに、前記特徴的音色検出手段での検出結果に対応するデータベースを、前記第1データベースおよび前記第2データベースの中から選択する選択手段を備え、前記音声認識手段は、前記選択手段で選択されたデータベースに基づいて、前記入力音声に含まれる音韻の種類を認識することを特徴とする請求項5に記載の感情認識装置。

請求項7

さらに、音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特徴量データベースとを備え、前記音声認識手段は、前記特徴的音色を検出した単語については、前記音響特徴量データベースに含まれる音響特徴量の重みを小さくし、前記言語特徴量データベースに含まれる言語特徴量の重みを大きくすることにより、前記音響特徴量データベースと前記言語特徴量データベースとに基づいて、前記入力音声に含まれる音韻の種類を認識することを特徴とする請求項1に記載の感情認識装置。

請求項8

入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、入力音声に含まれる音韻の種類を入力する音韻入力手段と、少なくとも前記音韻入力手段から入力された音韻の種類をパラメータとして用いて、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算手段と、前記特徴的音色指標が小さいほど前記感情が強くなる対応規則に基づいて、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段とを備えることを特徴とする感情認識装置。

請求項9

入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、入力音声に含まれる音韻の種類を認識する音声認識手段と、前記入力音声から母音部分の音源に振幅揺らぎあるいは周波数揺らぎのある力み音声部分を抽出する特徴的音色検出手段と、前記音声認識手段で認識された音韻ごとに、前記特徴的音色検出手段で検出された音声部分が、口唇によって構音される無声破裂音、歯によって構音される無声破擦音、口唇と歯とによって構音される無声摩擦音を少なくとも一つ含む音韻である場合に、前記入力音声の発話者の感情が強い怒りであると判定する感情判定手段とを備えることを特徴とする感情認識装置。

請求項10

入力音声から当該入力音声の発話者の感情を認識する感情認識方法であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出ステップと、前記特徴的音色検出ステップで検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識ステップと、前記音声認識ステップで認識された音韻の種類に基づいて、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算ステップと、前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算ステップで計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定ステップとを含むことを特徴とする感情認識方法。

請求項11

さらに、前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別ステップを含むことを特徴とする請求項10に記載の感情認識方法。

請求項12

入力音声から当該入力音声の発話者の感情を認識するプログラムであって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出ステップと、前記特徴的音色検出ステップで検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識ステップと、前記音声認識ステップで認識された音韻の種類に基づいて、前記特徴的音色の発声され易さを示す特徴的音色発生指標を音韻ごとに計算する特徴的音色発生指標計算ステップと、前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算ステップで計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定ステップとをコンピュータに実行させることを特徴とするプログラム。

請求項13

さらに、前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別ステップをコンピュータに実行させることを特徴とする請求項12に記載のプログラム。

技術分野

0001

本発明は、音声により発話者感情を認識する感情認識装置に関する。より特定的には、発話者の感情、表情態度あるいは発話スタイルによって時々刻々変化する発声器官緊張弛緩によって、発声された音声中に特徴的な音色が生じたことを認識することで、発話者の感情を認識する、音声による感情認識装置に関するものである。

背景技術

0002

動電応対電子秘書対話ロボット等、音声対話によるインタフェースを持つ対話システムにおいて、対話システムがユーザの要求により適切に対応するためには、ユーザが発声した音声からユーザの感情を理解することが重要な要件となる。例えば、上記のような自動電話対応や対話ロボットがユーザと音声による対話を行う際、対話システムの音声認識は必ずしも正確に音声を認識できるとは限らない。対話システムが誤認識を起こした場合には、対話システムはユーザ対して再度音声入力を要求する。このような状況において、ユーザは少なからず怒りを覚えたり、イライラしたりする。誤認識が重なればなおさらである。怒りやイライラは、ユーザの話し方声質を変化させ、ユーザの音声は平常時の音声とは異なるパターンとなる。このため、平常時の音声を認識用モデルとして保持する対話システムは、さらに誤認識をし易くなり、ユーザに対して同じ回答を何度も要求するなど、ユーザにとってさらに不愉快な要求をすることになる。対話システムが上記のような悪循環に陥った場合、その対話インタフェースとしての用を成さなくなる。

0003

ユーザが発声する音声から感情を認識することは、このような悪循環を断ち切り機器とユーザとの音声対話を正常化するために必要である。すなわち、ユーザの怒りやイライラを理解することができれば、対話システムは誤認識したことに対して、より丁寧な口調で聞き返したり、謝罪したりすることができる。これにより、対話システムは、ユーザの感情を平常に近づけ、平常の発話を導くことができ、認識率回復することができる。しいては対話システムによる機器操作をスムースに行うことができる。

0004

従来、音声から感情を認識する方法としては、話者の発声した音声から、声の高さ(基本周波数)、大きさ(パワー)、発話速度などの韻律的特徴を抽出し、入力音声全体に対して、「声が高い」、「声が大きい」といった判断に基づき、感情を認識する方式(例えば特許文献1、特許文献2参照)が提案されている。また、入力音声全体に対して、「高い周波数領域のエネルギーが大きい」といった判断をする方式(例えば特許文献1参照)が提案されている。さらに、音声のパワーと基本周波数とのシーケンスより、それらの平均、最大値最小値といった統計的な代表値を求めて感情を認識する方式(例えば特許文献3参照)が提案されている。さらにまた、文や単語のイントネーションアクセントといった韻律時間パターンを用いて、感情を認識する方式(例えば特許文献4、特許文献5参照)が提案されている。

0005

図20は、前記特許文献1に記載された従来の音声による感情認識装置を示すものである。

0006

マイクロホン1は、入力音声を電気信号に変換する。音声コード認識手段2は、マイクロホン1から入力された音声の音声認識を行い、認識結果を感性情報抽出手段3および出力制御手段4へ出力する。

0007

一方、感性情報抽出手段3の話速検出部31、基本周波数検出部32および音量検出部33は、マイクロホン1より入力された音声より話速、基本周波数および音量をそれぞれ抽出する。

0008

音声レベル判定基準格納部34には、入力された音声の話速、基本周波数および音量を標準の話速、基本周波数および音量とそれぞれ比較して音声レベルを決定するための基準が記憶されている。標準音声特徴量格納部35には、音声レベルを判定する際の基準となる標準の発声速度、基本周波数および音量が記憶されている。音声レベル分析部36は、入力された音声の特徴量と標準の音声特徴量との比に基づいて、音声レベル、すなわち話速レベル、基本周波数レベルおよび音量レベルを決定する。

0009

さらに、感性レベル分析知識ベース格納部37は、音声レベル分析部36で決定された各種音声レベルによって感性レベルを判定するルールを記憶している。感性レベル分析部38は、音声レベル分析部36からの出力と音声コード認識手段2からの出力とから、感性レベル分析用知識ベース格納部37に記憶されているルールに基づき、感性レベルすなわち感性の種類とレベルとを判定する。

0010

出力制御手段4は、感性レベル分析部38が出力した感性レベルに従って、出力装置5を制御して、入力された音声の感性レベルに対応する出力を生成する。ここで音声レベルの決定に用いられている情報は、1秒当たりモーラ話しているかで表した話速や、平均基本周波数や、発話、文あるいはフレーズといった単位で求められた韻律情報である。

0011

しかしながら、韻律情報は言語的情報を伝達するためにも使用されており、さらにその言語的情報の伝達方法が、言語の種類ごとに違うという特徴がある。たとえば、日本語においては「橋」と「」のように、基本周波数の高低によって作られるアクセントにより言葉の意味が異なる同音異義語が多くある。また、中国語においては、四声と呼ばれる基本周波数の動きにより、同じ音でもまったく異なる意味(文字)を示すことが知られている。英語では、アクセントは基本周波数よりもむしろストレスと呼ばれる音声の強度によって表現されるが、ストレスの位置は単語あるいはの意味や、品詞を区別する手がかりとなっている。韻律による感情認識を行うためにはこのような言語による韻律パターンの違いを考慮する必要があり、言語ごと感情表現としての韻律の変化と、言語情報としての韻律の変化とを分離して、感情認識用のデータを生成する必要があった。また、同一言語内においても、韻律を用いる感情認識においては、早口の人や、声の高い(低い)人、等の個人差があり、例えば、普段から大声且つ早口で話す声の高い人は、常に怒っていると認識されてしまうことになる。そのため、個人ごとの標準データを記憶し、個人ごとに標準データと比較することで各個人に合わせた感情認識を行い、個人差による感情の認識間違いを防ぐ(例えば特許文献2、特許文献5)という方法も必要であった。
特開平9−22296号公報(第6−9頁、表1−5、第2図)特開2001−83984号公報(第4−5頁、第4図)特開2003−99084号公報特開2005−39501号公報(第12頁)特開2005−283647号公報

発明が解決しようとする課題

0012

前述のように、韻律による感情認識は、言語ごとに、韻律情報のうち言語情報を表すために使われている変動と感情表現としての変動とを分離するために、大量の音声データ、分析処理および統計処理が必要となる。さらに同一言語であっても、地方差や年齢等による個人差も大きく、同一話者による音声であったとしても体調等により大きく変動する。このため、ユーザごとに標準データを持たない場合には、韻律による感情表現は地方差や個人差が大きく、不特定多数の音声に常に安定した結果を生成することは困難であった。

0013

さらに、個人ごとに標準データを用意する方式については、不特定多数の使用を想定するコールセンターなどの公共の場所での案内システム等には採用できない。なぜならば、発話者ごとの標準データを用意することができないからである。

0014

また、韻律データは1秒あたりのモーラ数や、平均、ダイナミックレンジのような統計的代表値、あるいは時間パターンなどを、発話、文、フレーズといった音声としてまとまった長さで分析する必要がある。このため、音声の特徴が短時間で変化する場合には、分析の追随が困難であり、音声による感情認識を高い精度で行うことができないという課題を有している。

0015

本発明は、前記従来の課題を解決するものであり、音韻単位という短い単位で感情を検出可能で、且つ比較的、個人差、言語差および地方差が少ない特徴的音色と、話者の感情との関係を利用して精度の高い感情認識を行う音声による感情認識装置を提供することを目的とする。

課題を解決するための手段

0016

本発明のある局面に係る感情認識装置は、入力音声から当該入力音声の発話者の感情を認識する感情認識装置であって、前記入力音声から特定の感情と関連する特徴的音色を検出する特徴的音色検出手段と、前記特徴的音色手段で検出した特徴的音色に基づいて、前記入力音声に含まれる音韻の種類を認識する音声認識手段と、前記音声認識手段で認識された音韻の種類に基づいて、前記特徴的音色の発声され易さを示す特徴的音色発生指標音韻ごとに計算する特徴的音色発生指標計算手段と、前記特徴的音色指標が小さいほど前記感情が強くなる規則に基づいて、前記特徴的音色発生指標計算手段で計算された前記特徴的音色発生指標から前記特徴的音色が発生した音韻における前記入力音声の発話者の感情を判定する感情判定手段とを備える。

0017

音声の物理的特徴発生機序は、破裂音のように口唇口蓋とによって声道を一旦閉鎖してから一気開放する動作のためにや舌に力が入りやすいといった、発声器官の生理的原因により求められる。このため、話者の感情あるいは発話態度によって発声器官が緊張したり弛緩したりすることにより、音声中のところどころに音韻単位で観察される裏声や力んだ声あるいは気息性の声のような特徴的音色を検出することができる。この特徴的音色の検出結果に基づいて、言語の種類の違い、話者の特性による個人差および地方差に影響されることなく、話者の感情を音韻単位で認識することができる。

0018

好ましくは、上述の感情認識装置は、さらに、前記特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生した音韻における感情強度を判別する感情強度判別手段を備える。

0019

また、前記感情強度判別手段は、前記特徴的音色発生指標計算手段で計算された音韻ごとの特徴的音色発生指標と前記特徴的音色検出手段で検出された特徴的音色が発生する時間的音声位置とを比較し、特徴的音色発生指標が小さいほど感情強度が強くなる計算規則に基づいて、前記特徴的音色が発生している音韻における感情強度を判別する。

0020

特徴的音色が発生しにくい音韻において特徴的音色が発生した場合には、当該特徴的音色に対応する特定の感情が強く現れたと考えられる。よって、このような規則に則って、言語差、個人差および地方差に影響されることなく正確に感情の強度を判別することができる。

0021

好ましくは、上述の感情認識装置は、さらに、音韻の種類ごとに音響特徴量を記憶している音響特徴量データベースと、少なくとも読みまたは発音記号を有する単語辞書を表す言語特徴量を含む言語特徴量データベースとを備え、前記音声認識手段は、前記特徴的音色を検出した単語については、前記音響特徴量データベースに含まれる音響特徴量の重みを小さくし、前記言語特徴量データベースに含まれる言語特徴量の重みを大きくすることにより、前記音響特徴量データベースと前記言語特徴量データベースとに基づいて、前記入力音声に含まれる音韻の種類を認識する。

0022

特徴的音色の発生した単語については、言語特徴量の重みを大きくすることにより、特徴的音色の発生位置において音響特徴量が適合しないことによる音声認識精度の低下を防ぐことができる。これにより、正確に感情を認識することができる。

0023

なお、本発明は、このような特徴的な手段を備える感情認識装置として実現することができるだけでなく、感情認識装置に含まれる特徴的な手段をステップとする感情認識方法として実現したり、感情認識方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM(Compact Disc−Read Only Memory)等の記録媒体インターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

発明の効果

0024

本発明の音声による感情認識装置によれば、話者の感情あるいは発話態度によって発声器官が緊張したり弛緩したりすることによりおこる、平均的な発話(平常発声をされた発話)の様態から逸脱した発話様態、すなわち、音声中のところどころに音韻単位で観察される裏声や力んだ声あるいは気息性の声のような、特定の音響特性において、平均的な発声とは離れた値を示す、はずれ値に当たる特性を持った特徴的音色を検出することができる。この特徴的音色の検出結果を用いることにより、言語の種類、話者の特性による個人差および地方差に影響されることなく、話者の感情を音韻単位で認識することができるため、発話中の感情の変化に追随することができる。

図面の簡単な説明

0025

図1Aは、話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図1Bは、話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図1Cは、話者1について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図1Dは、話者2について「中程度の怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図2Aは、話者1について、録音された音声における特徴的音色「かすれ」の音声の音韻種類による発生頻度を示すグラフである。図2Bは、話者2について、録音された音声における特徴的音色「かすれ」の音声の音韻種類による発生頻度を示すグラフである。図3Aは、録音された音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。図3Bは、録音された音声において観察された特徴的音色の音声の発生位置と推定された特徴的音色の音声の時間位置の比較を示す図である。図4は、本発明の実施の形態1における音声による感情認識装置のブロック図である。図5は、本発明の実施の形態1における音声による感情認識装置の動作を示すフローチャートである。図6は、本発明の実施の形態1における特徴的音色発生指標の計算規則の一例を示す図である。図7は、本発明の実施の形態1における感情種類判定規則の一例を示す図である。図8は、本発明の実施の形態1における感情強度計算規則の一例を示す図である。図9は、「力み」ありのモーラの発生頻度と「力み」なしのモーラの発生頻度と指標の値、および感情の強さ(弱さ)と指標の値の関係を模式的に示した図である。図10は、本発明の実施の形態1の変形例における音声による感情認識装置のブロック図である。図11は、本発明の実施の形態1の変形例における音声による感情認識装置の動作を示すフローチャートである。図12は、録音された音声において観察された特徴的音色の音声の発生位置とその特徴的音色の発生のしやすさの比較を示す図である。図13は、本発明の実施の形態1の変形例における感情種類判定規則の一例を示す図である。図14は、本発明の実施の形態2における音声による感情認識装置のブロック図である。図15は、本発明の実施の形態2における音声による感情認識装置の動作を示すフローチャートである。図16Aは、本発明の実施の形態2における音声認識処理の具体例を示す図である。図16Bは、本発明の実施の形態2における音声認識処理の具体例を示す図である。図16Cは、本発明の実施の形態2における音声認識処理の具体例を示す図である。図17は、本発明の実施の形態3における音声による感情認識装置の機能ブロック図である。図18は実施の形態3における感情認識装置の動作を示したフローチャートである。図19は実施の形態3における音韻入力方法の一例を示した図である。図20は、従来の音声による感情認識装置のブロック図である。

符号の説明

0026

1マイクロホン
2音声コード認識手段
3感性情報抽出手段
4出力制御手段
5出力装置
31話速検出部
32基本周波数検出部
33音量検出部
34音声レベル特定基準格納部
35標準音声特徴量格納部
36 音声レベル分析部
37感性レベル分析用知識ベース格納部
38 感性レベル分析部
101音声認識用特徴量抽出
102逆フィルタ
103周期性分析部
104 特徴的音色検出部
105特徴量データベース
106音声認識部
107 スイッチ
108 特徴的音色発生音韻特定部
109韻律情報抽出部
110 特徴的音色発生指標計算規則記憶部
111 特徴的音色発生指標計算部
112感情種類判定基準記憶部
113 感情種類判定部
114感情強度計算規則記憶部
115 感情強度計算部
116 表示部
132 感情種類判定規則記憶部
133 感情種類強度計算
205音響特徴量データベース
206言語特徴量データベース
207連続単語音声認識
208 特徴的音色発生音韻特定部

発明を実施するための最良の形態

0027

まず、本発明の基礎となる、音声中の特徴的音色と話者の感情との関係について、実際の音声に見られる現象を説明する。

0028

感情や表情を伴った音声においては、様々な声質の音声が混在し、音声の感情や表情を特徴付け、音声の印象を形作っていることが知られている(例えば日本音学会誌51巻11号(1995),pp869−875,粕谷英樹・楊長盛,“音源から見た声質”、特開2004−279436号公報参照)。本願発明に先立って、同一テキストに基づいて発話された50文について無表情な音声と感情を伴う音声との調査を行った。

0029

図1Aは、話者1について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図1Bは、話者2について「強い怒り」の感情表現を伴った音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図1Cおよび図1Dは、それぞれ図1Aおよび図1Bと同じ話者について「中程度の怒り」の感情表現を伴って音声中の「力んだ」音あるいは「ざらざら声(harsh voice)」のモーラ頻度をモーラ内の子音ごとに示したグラフである。

0030

特徴的音色の発生頻度は当該モーラの子音の種類によって偏りがあり、図1Aおよび図1Bのグラフに示されたそれぞれの話者について「t」(硬口蓋によって構音される無声破裂子音)、「k」(軟口蓋によって構音される無声破裂子音)、「d」(硬口蓋によって構音される有声破裂子音)、「m」(口唇によって構音される音)、「n」(硬口蓋によって構音される鼻音)あるいは子音無しの場合には発生頻度が高く、「p」(口唇によって構音される無声破裂音)、「ch」(歯によって構音される無声破擦音)、「ts」(無声破擦音)、「f」(口唇と歯によって構音される無声摩擦音)などでは発生頻度が低い、という2名の話者に共通の特徴が見られる。すなわち、図1Aおよび図1Bのグラフは、「怒り」の感情の音声に表れる「力み」が発生する条件は話者に共通であることを示している。図1Aおよび図1Bに示された2名の話者における「力み」の発生が、当該モーラの子音の種類によって同様の傾向で偏っている。また同程度の「怒り」の感情を伴って発話された音声であっても、音韻の種類によって「力んだ」音で発声される確率が異なり、「力んだ」音で発声される確率がより低い種類の音韻で「力んだ」音での発声が検出されれば、「怒り」の感情の程度が大きいことが推定できる。

0031

また、同一人物である話者1についての特徴的音色「力み」の出現頻度を示した図1A図1Cとを比較する。「sh」や「f」のように、図1Cに示した中程度の怒りの表現では「力んだ」音は発生しないが、図1Aに示した強い怒りの表現になると「力んだ」音が発生するものがある。また、子音のないモーラのように、図1Cに示した中程度の怒りの表現では「力んだ」音が発生する頻度は低いが、図1Aに示した強い怒りの表現になると「力んだ」音の発生頻度が増大するものがある。このように、怒りの強度が強くなると、本来力みにくいはずの音韻においても「力んだ」音が発生するようになることがわかる。さらには、「力んだ」音で発声される確率の音韻ごとの偏りは話者1と話者2について確認されたように、話者に共通なものである。

0032

図2Aおよび図2Bは「朗らか」の感情表現を伴った音声中の「気息性」の音、すなわち「かすれ」あるいは「やわらかい声(soft voice)」で発声されたモーラの頻度をモーラ内の子音ごとに示したグラフである。図2Aは話者1、図2Bは話者2について「朗らか」の感情表現を伴って音声中の「気息性」の音、すなわち「かすれ」あるいは「やわらかい声(soft voice)」のモーラ頻度をモーラ内の子音ごとに示したグラフである。特徴的音色の発生頻度は当該モーラの子音の種類によって偏りがあり、図2A図2Bのグラフに示されたそれぞれの話者について、「h」(声門によって構音される無声摩擦子音)、「k」(軟口蓋によって構音される無声破裂子音)の場合には発生頻度が高く、「d」(硬口蓋によって構音される有声破裂子音)、「m」(口唇によって構音される鼻音)、「g」(軟口蓋によって構音される有性破裂音)などでは発生頻度が低い、という2名の話者に共通の特徴が見られる。また、図2Aおよび図2Bの「b」「g」「m」の音韻における特徴的音色の発生頻度は、話者1では0であるが、話者2では低いものの存在している。一方の話者では発生頻度が0で、他方の話者では発生頻度が低いが存在しているという傾向は、図1A図1Dにおける「f」の音韻の傾向(図1Aの話者1では発生頻度が低く、図1Bの話者2では発生頻度が0である。)と同様である。したがって、図1A図1Dの「f」は本来力みにくいはずの音韻であり、怒りの強度が強くなると発生する音韻であることと同様に、図2Aおよび図2Bの「b」「g」「m」の「かすれ」音は、本来かすれにくいはずの音韻であり、「朗らか」の強度が強くなると発生する音韻であると考えられる。

0033

上記のように、音韻による発生確率の偏りと、偏りの話者共通性は「力んだ」音や「かすれ」音以外に「裏声」や「裏返り」の音にもみられる。「力んだ」音、「かすれ」音、「裏声」、「裏返り」のように平均的な発話様態(平常発声の発話)から逸脱した発話様態により発声された音声は、特定の音響的特性について、平均的な発話様態により発声された音声から離れた値を示す。十分に大量且つ様々な発話様態を含む音声データがある場合、特開2004−279436号公報に示される「気息性」(かすれ)の第1フォルマント周辺のエネルギーと第3フォルマント周辺のエネルギーとの時間的相関の例のように、特定の音響特性値が、多くの音声の分布位置とは統計的に離れた位置に分布する場合がある。このような分布は、特定の発話スタイルあるいは感情表現において観測される。例えば「気息性」の音響特性値の場合であれば、親近感を表現する音声に属する傾向が確認できることになる。翻って、入力音声中の「力んだ」音や、特開2004−279436号公報に記述されているような「気息性」(かすれ)の音や、「裏声」を抽出することで、話者の感情または発話態度の種類もしくは状態を判定できる可能性がある。さらに、その特徴的音色が検出された部分の音韻を特定することで、話者の感情あるいは発話態度の程度を判定できる可能性がある。

0034

図3Aおよび図3Bは、図1A〜1Dと同一のデータから統計的学習手法の1つである数量化II類を用いて作成した推定式により、図3Aに示す入力「10分ほどかかります(じゅっぷんほどかかります)」と図3Bに示す入力「温まりました(あたたまりました)」について各モーラが「力んだ」音で発声される「力みやすさ」を推定した結果を示したものである。例えば、図3Aの「かかります」では確率の高いモーラでのみ「力んだ」音が発生しており、程度の小さい「怒り」であることを示している。同様に図3Bにおいても、「あたたま」は「力み」の発生確率が高いまたは中程度であるため、「怒り」の程度が小から中程度であり、「り」では「力み」の発生確率が低いため、「怒り」の程度が大であることを示している。この例は学習用データの各モーラについて、モーラに含まれる子音および母音の種類あるいは音韻のカテゴリといった音韻の種類を示す情報とアクセント句内のモーラ位置の情報と、さらに前後の音韻の情報とを独立変数とする。また、「力んだ」音あるいは「ざらざら声(harsh voice)」が発生したか否かの2値従属変数とする。この例は、これら独立変数および従属変数に基づいて、数量化II類により推定式を作成し、発生確率を低・中・高の3段階に分けた場合の結果である。この例は、音声認識結果を用いて入力音声のモーラごとの特徴的音色の発生確率を求めることで、話者の感情あるいは発話態度の程度を判定可能であることを示している。

0035

発声時の生理的特徴による特徴的音色の発生確率を使用して求められる感情あるいは発話態度の種類と程度とを、感情の種類と強度との指標として用いることで、言語や地方(方言)差や個人差による影響の小さい正確な感情の判断を行うことができる。

0036

以下、本発明の実施の形態について、図面を参照しながら説明する。

0037

(実施の形態1)
図4は、本発明の実施の形態1における音声による感情認識装置の機能ブロック図である。図5は実施の形態1における感情認識装置の動作を示したフローチャートである。図6は特徴的音色発生指標計算規則記憶部110に記憶された計算規則の一例であり、図7は感情種類判定基準記憶部112に記憶された判定基準の一例であり、図8は感情強度計算規則記憶部114に記憶された感情強度計算規則の一例である。

0038

図4において、感情認識装置は、音声より感情を認識する装置であり、マイクロホン1と、音声認識用特徴量抽出部101と、逆フィルタ102と、周期性分析部103と、特徴的音色検出部104と、特徴量データベース105と、音声認識部106と、スイッチ107と、特徴的音色発生音韻特定部108と、韻律情報抽出部109と、特徴的音色発生指標計算規則記憶部110と、特徴的音色発生指標計算部111と、感情種類判定基準記憶部112と、感情種類判定部113と、感情強度計算規則記憶部114と、感情強度計算部115と、表示部116とを備えている。

0039

マイクロホン1は、入力音声を電気信号に変換する処理部である。

0040

音声認識用特徴量抽出部101は、入力音声を分析し、スペクトル包絡を表すパラメータ、例えばメルケプストラム係数を抽出する処理部である。

0041

逆フィルタ102は、音声認識用特徴量抽出部101が出力するスペクトル包絡情報の逆フィルタであり、マイクロホン1より入力された音声の音源波形を出力する処理部である。

0042

周期性分析部103は、逆フィルタ102より出力された音源波形の周期性を分析し、音源情報を抽出する処理部である。

0043

特徴的音色検出部104は、話者の感情や発話態度によって発話音声中に出現する「力んだ」声や「裏声」や「気息性」(かすれ)の声等の特徴的音色を物理的特性、例えば音源波形の振幅揺らぎや音源波形の周期揺らぎなど、を用いて周期性分析部103により出力された音源情報より検出する処理部である。

0044

特徴量データベース105は、音韻種類ごとの特徴量を音声認識用に保持する記憶装置であり、例えば、音韻ごとの特徴量の分布を確率モデルとして表現したデータを保持する。特徴量データベース105は、音声中に特徴的音色が見られない音声データより作成された特徴量データベースと、特定の特徴的音色が見られる音声データより作成された特徴量データベースとで構成されている。例えば、特徴的音色が見られない音声データから作成されたデータベースを特徴的音色なし特徴量データベース105a、「力んだ」声の特徴的音色がみられた音声データから作成された特徴量データベースを「力み」あり特徴量データベース105b、「気息性」(かすれ)の声の特徴的音色が見られた音声データから作成された特徴量データベースを「かすれ」あり特徴量データベース105c、「力んだ」声の特徴的音色と「気息性」(かすれ)の声の特徴的音色との両方が見られた音声データから作成された特徴量データベースを「力み」「かすれ」あり特徴量データベース105dのように構成する。

0045

音声認識部106は、特徴量データベース105を参照し、音声認識用特徴量抽出部101が出力した特徴量と特徴量データベース105に格納された特徴量とのマッチングを行って音声認識を行う処理部である。

0046

スイッチ107は、特徴的音色検出部104で検出された音源波形の揺らぎの有無および揺らぎの種類に従って、音声認識部106が特徴量データベース105を構成するいずれのデータベースを参照するかを切り替える。

0047

特徴的音色発生音韻特定部108は、音声認識部106が出力する音韻列情報と特徴的音色検出部104が出力する入力音声中の特徴的音色の時間位置情報とから、入力音声中のどの音韻で特徴的音色が発生していたかを特定する処理部である。

0048

韻律情報抽出部109は、逆フィルタ102より出力された音源波形より、音声の基本周波数とパワーとを抽出する処理部である。

0049

特徴的音色発生指標計算規則記憶部110は、音韻ごとの特徴的音色の発生しやすさの指標を当該音韻の属性(例えば子音の種類、母音の種類、アクセント句やストレス句内での位置、アクセントやストレス位置との関係、基本周波数の絶対値あるいは傾斜等)から求めるためのルールを記憶した記憶装置である。

0050

特徴的音色発生指標計算部111は、音声認識部106で生成された音韻列情報と韻律情報抽出部109から出力された韻律情報すなわち基本周波数およびパワーより、特徴的音色発生指標計算規則記憶部110を参照して、入力音声の音韻ごとに特徴的音色発生指標を計算する処理部である。

0051

感情種類判定基準記憶部112は、当該モーラおよび隣接するモーラの特徴的音色の種類と特徴的音色発生指標との組み合わせにより感情の種類を判定する基準を記憶した記憶装置である。

0052

感情種類判定部113は、特徴的音色発生音韻特定部108で生成された特徴的音色発生位置情報に基づき、感情種類判定基準記憶部112の基準を参照して、モーラごとの感情の種類を判定する処理部である。

0053

感情強度計算規則記憶部114は、特徴的音色の発生指標と入力音声の特徴的音色発生位置情報とから感情あるいは発話態度の程度を計算するための規則を記憶する記憶装置である。

0054

感情強度計算部115は、特徴的音色発生音韻特定部108で生成された入力音声中の特徴的音色が発生した音韻の情報と特徴的音色発生指標計算部111で計算された音韻ごとの特徴的音色発生指標とから、感情強度計算規則記憶部114を参照して感情あるいは発話態度の程度および感情種類と、音韻列とを出力する処理部である。

0055

表示部116は感情強度計算部115の出力を表示する表示装置である。

0056

先に述べたように構成された音声による感情認識装置の動作を図5に従って説明する。

0057

まずマイクロホン1より音声が入力される(ステップS1001)。音声認識用特徴量抽出部101は、入力音声を分析し、音声認識用の音響特徴量としてメルケプストラム係数を抽出する(ステップS1002)。次に、逆フィルタ102は、ステップS1002で生成されたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップS1001でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する(ステップS1003)。

0058

周期性分析部103は、ステップS1003で抽出された音源波形の周期性を、例えば特開平10−197575号公報に記載の技術のように低周波側が緩やかで高周波側が急峻な遮断特性を有するフィルタ出力振幅変調の大きさと周波数変調の大きさとから基本波らしさを計算し、入力音声のうち周期性のある信号の時間領域を周期性信号区間として出力する(ステップS1004)。

0059

特徴的音色検出部104は、ステップS1004で周期性分析部103により抽出された周期性信号区間について、音源波形の揺らぎのうち本実施の形態では音源波形の基本周波数揺らぎ(ジッタ)および音源波形の高域成分の揺らぎを検出する(ステップS1005)。なお基本周波数揺らぎは、例えば特開平10−19757号公報の方式で求められる瞬時周波数を利用して検出する。また、音源波形の高域成分の揺らぎは、例えば特開2004−279436号公報に記載の技術のように、音源波形のピークツーピークの振幅を、音源波形の微分の振幅の最小値(最大ネガティブピーク)で除した値を基本周波数で正規化した正規化振幅指数を用いる方法で検出する。

0060

入力音声の周期性信号区間において音源波形の周波数揺らぎあるいは音源波形の高域成分の揺らぎが検出されたか否かにより、スイッチ107を切り替えて特徴量データベース105内の適切な特徴量データベースと音声認識部106とを接続する(ステップS1006)。すなわち、ステップS1005において音源波形の周波数揺らぎが検出された場合には、特徴量データベース105のうち「力み」あり特徴量データベース105bと音声認識部106とをスイッチ107により接続する。ステップS1005において音源波形の高域成分の揺らぎすなわち気息性(かすれ)の成分が検出された場合には、特徴量データベース105のうち「かすれ」あり特徴量データベース105cと音声認識部106とをスイッチ107により接続する。ステップS1005において音源波形の周波数揺らぎと音源波形の高域成分の揺らぎの両方が検出された場合には、特徴量データベース105のうち「力み」「かすれ」あり特徴量データベース105dと音声認識部106とをスイッチ107により接続する。また、ステップS1005において音源波形の周波数揺らぎと音源波形の高域成分の揺らぎのいずれも検出されなかった場合は、特徴量データベース105のうち特徴的音色なし特徴量データベース105aと音声認識部106とをスイッチ107より接続する。

0061

音声認識部106は、特徴量データベース105のうちステップS1006においてスイッチ107によって接続された特徴量データベースを参照し、ステップS1002で抽出されたメルケプストラム係数を用いて音声認識を行い、認識結果として入力音声中の時間位置情報と共に音韻列を出力する(ステップS1007)。

0062

特徴的音色発生音韻特定部108は、音声認識部106が出力する時間位置情報付きの音韻列情報と特徴的音色検出部104が出力する入力音声中の特徴的音色の時間位置情報とから入力音声中のどの音韻で特徴的音色が発生しているかを特定する(ステップS1008)。

0063

一方、韻律情報抽出部109は、逆フィルタ102より出力された音源波形を分析し、基本周波数と音源パワーとを抽出する(ステップS1009)。

0064

特徴的音色発生指標計算部111は、音声認識部106で生成された時間位置情報付き音韻列と韻律情報抽出部109で抽出された基本周波数と音源パワーの情報とから、基本周波数パターンと音源パワーパターン山谷を音韻列と照合し、音韻列に対応するアクセント句切りおよびアクセント情報を生成する(ステップS1010)。

0065

さらに、特徴的音色発生指標計算部111は、特徴的音色発生指標計算規則記憶部110に記憶された、子音、母音、アクセント句中のモーラ位置、アクセント核からの相対位置等のモーラ属性から特徴的音色の発生しやすさを求める規則を用いて特徴的音色発生指標を音韻列のモーラごとに計算する(ステップS1011)。特徴的音色発生指標の計算規則は、例えば特徴的音色を伴う音声を含む音声データよりモーラ属性を説明変数とし、特徴的音色が発生したか否かの2値を従属変数として質的データを取り扱う統計的手法の1つである数量化II類を用いて統計的学習を行い、モーラ属性から特徴的音色の発生しやすさを数値で表現できるモデルを生成することにより作成される。

0066

特徴的音色発生指標計算規則記憶部110は、例えば図6のように統計的学習結果を特徴的音色の種類ごとに記憶しているものとする。特徴的音色発生指標計算部111は、各モーラの属性に従って、特徴的音色発生指標計算規則記憶部110に記憶された統計モデルを適用し、特徴的音色発生指標を計算する。入力音声が図3Bに示すような「あたたまりました」である場合、特徴的音色発生指標計算部111は、先頭のモーラ「あ」の属性の得点を、「子音なし」すなわち子音の得点が−0.17、母音は「ア」で母音の得点は0.754、「あたたまりました」というアクセント句中正順位置での1番目のモーラであるので正順位置の得点が0.267、アクセント中逆順位置では8番目のモーラとなり逆順位置の得点が0.659のように求める。また、特徴的音色発生指標計算部111は、これらの得点を加算することにより、先頭のモーラ「あ」の特徴的音色発生指標を計算する。特徴的音色発生指標計算部111は、同様の処理を各モーラについて行い、各モーラの特徴的音色発生指標を計算する。このようにして各モーラはその属性より、先頭の「あ」は1.51(=−0.17+0.754+0.267+0.659)、次の「た」は0.79、3モーラ目の「た」は0.908のように特徴的音色発生指標が計算される。

0067

感情種類判定部113は、特徴的音色発生音韻特定部108で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し、例えば図7のように記述された感情種類判定基準記憶部112の情報を参照し、入力音声に含まれる特徴的音色が発生したモーラにおける感情種類を特定する(ステップS1012)。入力音声の「あたたまりました」のうち「あたたまりま」が「力んだ」音声であり、それ以外では特徴的音色での発声がなかった場合、特徴的音色によって発生されたモーラについてのみ、図7の表に従って感情を判断し、モーラ単位での感情の変化を認識する。図3Bについて、「あ」について、図7に従った計算を行うと、当該モーラ「あ」の直前モーラはないため、当該モーラの「力み」の発生指標1.51に、直後モーラの「力み」発生指標0.79の半分の0.395が加算され、1.905となる。また、「かすれ」の発生は隣接するモーラには見られない。このため、「力み」に対する計算値が正となり、「かすれ」に対する計算値が0となるため、このモーラに含まれる感情は「怒り」であると判断される。同様に2モーラ目の「た」についても当該モーラの0.79に直前モーラの1.51の半分の0.755と直後モーラの0.91の半分の0.455を加算すると2.0となり、1モーラ目同様感情は「怒り」であると判断される。

0068

ところが、図3Aに示す「じゅっぷんほどかかります」という入力音声については、「ほ」では「かすれ」の発声がされており、直前のモーラでは特徴的音色による発生はないが、直後の「ど」では「力み」の発声がされている。このため「ほ」については当該モーラの「かすれ」の発生指標2.26と直後モーラの「力み」の発生指標0.73の半分0.365をあわせて判断することとなり、図7の表に従って、「ほ」また同様に「ど」の部分については入力音声は「はしゃぎ・うれしい興奮」の感情を含むものとして判断される。しかし、「ほど」につづく「かか」の部分では特徴的音色は「力み」のみが検出されており、図7の表に従って「怒り」の感情を含むものと判断され、ユーザがシステム語りかけるうちに変動する感情をモーラ単位で追随することができる。

0069

入力音声が「あたたまりました」の場合、ステップS1011で計算されたモーラごとの特徴的音色発生指標の値(例えば先頭の「あ」は1.51、次の「た」は0.79、3モーラ目の「た」は0.908)に対して、図8のように記述された感情強度計算規則記憶部114の感情強度計算規則を参照すると、先頭の「あ」は「力み」の発生指標が1.51であり、0.9以上であるため「力み」やすさが「高」と判断される。入力音声が図3Bのように「あたたまりました」のうち「あたたまりま」が「力んだ」音声で発声されていた場合、「力み」易さが大きい先頭の「あ」で「力んで」いるため「怒り」の感情強度は低くなる。次の「た」は「力み」の発生指標が0.79であり中程度の「力み」易さで中程度の「怒り」、3モーラ目の「た」は発生指標が0.908であり「力み」易さが高く「怒り」の感情強度は低い。このように、モーラごとに感情強度が計算され(ステップS1013)、ステップS1012で感情判断をしたよりさらに詳細に感情強度の変化を求めることができる。表示部116は、ステップS1013で計算された感情種類判定部113の出力としてのモーラごとの感情強度を表示する(ステップS1014)。

0070

図3Aのような入力については、ステップS1012で「じゅっぷんほどかかります」の「ほ」は「かすれ」の発生指標2.26と「力み」の発生指標0.365とにより「はしゃぎ・うれしい興奮」と判断されており、図8のように記述された感情強度計算規則記憶部114の規則を参照すると、「ほ」の「力み」の発生指標と「かすれ」の発生指標とを乗算した値は0.8249となり、「はしゃぎ・うれしい興奮」の強度は弱となる。また、「ど」については、「力み」の指標が当該モーラの0.73と直後モーラの1.57の半分を加算して1.515となり、「かすれ」の指標が直前モーラ「ほ」の指標2.26の半分1.13となり、これらを乗算した値は1.171195であるので「はしゃぎ・うれしい興奮」の強度は弱となる。続く「か」では力みの指標が直前モーラの指標の半分と直後モーラの指標の半分と当該モーラの指標とを加算して2.55となり、「怒り」の強度は「弱」であると判断される。

0071

ここで、図8に示した感情強度計算規則記憶部114に記憶されている感情強度計算規則の作成方法のうち、指標範囲と「力み」易さと感情強度との関係の作成方法について説明する。図9は、「力み」ありのモーラの発生頻度と「力み」なしのモーラの発生頻度と「力み」易さの指標の値との関係、および感情の強さ(弱さ)と指標の値との関係を模式的に示した図である。図9では横軸にモーラごとに求められた「力み」易さの指標を、右へ行くほど「力み」易くなるように設定する。また、縦軸に音声中の「力み」ありまたは「力み」なしのモーラの発生頻度およびモーラごとの「力み」確率を示す。また、グラフ左の軸に「力み」ありまたは「力み」なしのモーラの発生頻度を、グラフの右の軸にモーラごとの「力み」確率を示している。グラフの曲線のうち、実線は実際の音声データより作成された、指標の値と「力み」ありのモーラの発生頻度との関係を示す関数であり、点線は実際の音声データより作成された、指標の値と「力み」なしのモーラの発生頻度との関係を示す関数である。両関数より、ある指標の値を持つモーラの内「力み」で発生される頻度を求め、「力み」発生確率として100分率でまとめたものが、破線で示した「感情の弱さ」である。発生確率すなわち「感情の弱さ」は発生指標が小さくなると感情が強くなり、発生指標が大きくなると感情が弱くなる特性となっている。図9に示すような発生指標により変化する「感情の弱さ」の関数に対して、実際の音声データより感情強度の範囲を設定し、設定された感情強度範囲の境界に対応する発生指標を関数より求め、図8のようなテーブルを作成する。

0072

なお、図8に示した感情強度計算規則記憶部114では「感情の弱さ」の関数より作成したテーブルを用いて感情強度を計算したが、図9に示した関数を記憶しておき、関数より直接「感情の弱さ」すなわち関数強度を計算するものとしても良い。

0073

かかる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎを抽出し、特徴的音色を含む特徴量データベースと特徴的音色を含まない特徴量データベースとを保持し、音源揺らぎの有無によって特徴量データベースを切り替えることで音声認識精度を向上させている。他方で音声認識結果より求められる特徴的音色の発生しやすさと実際の入力音声の音源揺らぎの有無との比較結果により、特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低いと判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断する。このことで、入力音声から音声の発話者の感情の種類と強度を、言語差、個人差および地方差に影響されることなく正確に認識することができる。

0074

また、感情表現のある音声中に見られる特徴的音色に対する音声認識精度は、無表情な音声データから作られた特徴量データベースを用いた場合には低いが、特徴的音色を含む音声から作られた特徴量データベースに切り替えることで音声認識精度も向上する。また、認識精度の向上により音韻列を用いて計算する特徴的音色の発生しやすさの計算精度も向上する。このため、感情強度の計算も精度が向上する。さらに、特徴的音色をモーラ単位で検出し、感情認識をモーラ単位で行うことで、入力音声中の感情の変化をモーラ単位で追随させることができる。このため、システムを対話制御等に用いる場合にはユーザである話者が対話動作過程のどのイベントに対して、どのような反応をしたかを特定する場合に効果的である。このように入力音声よりユーザの感情の変化を詳細に捉えることができるため、例えば、ユーザの怒り強度に合わせて、システム側の出力音声を「大変申し訳ございませんが・・・」というようなより丁寧な謝罪や「お手数ではございますが・・・」というような丁寧な依頼の表現にしたりすることで、ユーザの感情を平常な状態に導き、対話インタフェースとしてスムースに動作することができる。

0075

(実施の形態1の変形例)
本発明の実施の形態1の変形例を示す。図10は本発明の実施の形態1の音声による感情認識装置の変形例の機能ブロック図である。図11は実施の形態1の変形例における音声による感情認識装置の動作を示すフローチャートである。図12は入力された音声の音韻列と特徴的音色で発声されたモーラおよびその「力み」の発生指標と「かすれ」の発生指標の値とを模式的に示したものである。図13は感情種類判定規則記憶部132に記憶された感情の種類を判定する基準の情報の例を示したものである。

0076

図10に示す感情認識装置は、図4に示した実施の形態1に係る感情認識装置と同様の構成を有するが、一部構成が異なる。すなわち、図4における感情種類判定基準記憶部112が感情種類判定規則記憶部132に置き換えられている。また、感情種類判定部113と感情強度計算部115とが感情種類強度計算部133に置き換えられている。さらに、感情強度計算規則記憶部114が無くなり、感情種類強度計算部133が感情種類判定規則記憶部132とを参照するように構成されている。

0077

このような構成の、音声による感情認識装置は、実施の形態1におけるステップS1011でモーラごとの特徴的音色発生指標の計算を行う。

0078

図12のような例の場合、特徴的音色の「力み」と「かすれ」とを抽出し、その頻度のみに基づいて感情を判断した場合、モーラ数の多い「力み」が判断に大きく影響し、「力み」が典型的に出現する「怒り」の感情の音声であると判断し、システムは謝罪の対応を取ることとなる。しかしながら、実際に入力された音声は、中程度の「はしゃぎ・うれしい興奮」の感情をともなっており、対話システムはユーザがシステムとの会話をより楽しむための情報提供をすべきである。

0079

例えば図12のように「力み」で発生されたモーラが24モーラ中5モーラあり、「かすれ」で発生されたモーラが24モーラ中3モーラあった場合、S1011と同様の方法で「力み」と「かすれ」の特徴的音色発生指標を1モーラごとに算出する。「力み」の特徴的音色発生指標の逆数の和は4.36となる。一方「かすれ」の特徴的音色発生指標の逆数の和は4.46となる。これは検出された特徴的音色のモーラ数としては「力み」の音声が多いが、「かすれ」の音声はよりかすれにくい音声でも「かすれ」の音声が発生しているすなわち、より「かすれ」を起こす感情が強いことを示している。さらには、感情種類強度計算部133は、図13に示すような感情種類判定規則に従って感情の種類と強度とを判定する(ステップS1313)。

0080

また、1種類の特徴的音色の指標を平均することもできる。例えば、図3Bのように、「力み」で発生されたモーラが8モーラ中5モーラあり、他の特徴的音色が発生していない。「力み」と「かすれ」とが特徴的音色が発生しているときと同様に計算すると、「力み」の特徴的音色発生指標の逆数(1モーラ目の「あ」0.52、2モーラ目の「た」0.50、3モーラ目の「た」0.56、4モーラ目の「ま」1.04、5モーラ目の「り」6.45、6モーラ目の「ま」1.53)の和は10.6となる。図13に示す感情強度計算規則から感情が「怒り」で強度が「弱」であることがわかる。実施の形態1では、図3Bにおいて、5モーラ目の「り」は特徴的音色発生指標が−0.85であり、図8から感情が「怒り」で強度が「強」であると判断できる。この感情の強度の判断結果は、実施の形態1のように1モーラごとに判断したときと異なる。対話システムが入力音声全体の感情の種類と強度を判定する変形例は、人と対話システムの対話が短く、単純な場合に有効である。実施の形態1のように、1モーラごとに感情の種類と強度を判断し、感情の種類や強度の変化を得ることは、複雑な内容の会話や長い会話の場合には非常に重要である。しかし、非常に単純な会話に対話システムを利用する場合には、入力音声全体で感情の種類と強度を判定する方法が有効である。例えば、チケット販売を行う対話システムが考えられる。対話システムが「何枚ですか?」と問いかけて、それに対してユーザが「二枚お願いします。」と応答するという対話を目的とする。この場合、「二枚お願いします。」という入力音声全体で感情の種類と強度を判定し、システムが音声を認識できなかった場合には、感情の種類や強度に応じた謝罪を行ない、もう一度ユーザに応答をしてもらう対応を対話システムが行うことにより、対話システムは有効に動作することができる。よって、本変形例の1種類の特徴的音色の指標のみを用いて入力音声全体で感情の種類や強度を判定する音声認識のシステムは、短い会話や単純な会話の対話システム等に有効である。

0081

なお、感情の判定に用いられる数値は、モーラごとの特徴的音色の種類ごとに各モーラの指標の逆数の和により求められる。あるいは入力音声の特徴的音色発生位置での特徴的音色発生指標の値を特徴的音色種類ごとに平均し、入力音声の全モーラ数に占める特徴的音色が発生したモーラ数を特徴的音色頻度として求め、その逆数を先に求めた特徴的音色発生指標の平均値に乗ずることにより求められる。あるいは、入力音声の特徴的音色発生位置での特徴的音色発生指標の値を特徴的音色種類ごとに平均し、平均値の逆数に特徴的音色頻度を乗ずる等により感情の判定に用いられる数値を求めてもよい。勘定の判定に用いられる数値は、特徴的音色の発生のし易さが重みとして感情判断に生かされる方法であり、計算方法に合わせた判定基準が感情種類判定規則記憶部132に記憶されているものであれば、他の方法で求めるものとしても良い。

0082

なお、ここではステップS1313において特徴的音色発生指標の強度を求め、感情種類判定規則記憶部132は特徴的音色ごとの強度の差による判定規則を記憶していたが、判定基準は特徴的音色発生指標の強度の比によって構成するものとしても良い。

0083

かかる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎが抽出される。一方で音源揺らぎの有無によって特徴量データベースを切り替えることで音声認識精度が向上した音声認識が行なわれる。音声認識結果を利用して特徴的音色の発生しやすさが計算される。特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低く、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断して、入力音声の1発話中で検出された特徴的音色の発生指標から、その発話全体で表され発話者の感情の種類と強度を個人差や地方差に影響されることなく正確に認識することができる。

0084

(実施の形態2)
本発明における音声中の特徴的音色を用いた感情認識では、音声認識結果の音韻列を用いて、特徴的音色発生指標を求めることにより、精度の高い感情認識を行うことができる。ところが、音声認識においては、感情に伴う特徴的音色は一般的な音響モデルから乖離している場合が多く、音声認識精度が低下するという課題がある。実施の形態1では、この課題を特徴的音色を含む音響モデルを用意して切り替えることによって解決したが、音響モデルを複数種備えるため、データ量が大きくなり、また、音響モデルを生成するためのオフライン作業が増大すると言う課題があった。本実施の形態では、これらの実施の形態1の課題を解決するため、音響モデルによる認識結果を言語モデルを用いて修正し、認識精度を高め、正しい音声認識結果の音韻列に基づき、特徴的音色発生指標を求め、精度の高い感情認識を行うための構成を示すものである。

0085

図14は本発明の実施の形態2の音声による感情認識装置の機能ブロック図である。図15は実施の形態2における音声による感情認識装置の動作を示したフローチャートである。図16A図16Cは実施の形態2の動作の具体例を示したものである。

0086

図14において、図4と同じ部分については説明を省略し、図4と異なる部分についてのみ説明する。図15においても、図5と同じ部分については説明を省略し、図5と異なる部分についてのみ説明する。

0087

図14において、感情認識装置の構成は、図4の機能ブロック図より韻律情報抽出部109およびスイッチ107がなくなり、特徴量データベース105が音響特徴量データベース205に置き換わり、言語特徴量データベース206が付け加わり、音声認識部106が音響特徴量と、言語モデルによる言語特徴量とから音韻のみでなく言語情報も含めて認識を行う連続単語音声認識部207に置き換わった以外は図4と同様の構成である。

0088

このように構成された音声による感情認識装置の動作について図15に従って説明する。図5と同じ動作については説明を省略し、異なる部分についてのみ説明する。

0089

マイクロホン1より音声が入力され(ステップS1001)、音声認識用特徴量抽出部101はメルケプストラム係数を抽出する(ステップS1002)。逆フィルタ102は音源波形を抽出し(ステップS1003)、周期性分析部103は入力音声のうち周期性のある信号の時間領域を周期性信号区間として出力する(ステップS1004)。特徴的音色検出部104は周期性信号区間について音源波形の揺らぎ、例えば音源波形の基本周波数揺らぎ(ジッタ)および音源波形の高域成分の揺らぎを検出する(ステップS1005)。連続単語音声認識部207は、音響モデルを記憶している音響特徴量データベース205と言語モデルを記憶している言語特徴量データベース206とを参照し、ステップS1002で抽出されたメルケプストラム係数を用いて音声認識を行う。連続単語音声認識部207による音声認識は、例えば、音響モデルと言語モデルを用いた確率モデルを用いた音声認識方法によるものとする。認識は一般的に、

0090

0091

W:指定された単語系列
Y:音響的な観測値系列
P(Y/W):単語列条件付けられた音響的な観測値系列の確率(音響モデル)
P(W):仮定された単語系列に対する確率(言語モデル)
のように音響モデルと言語モデルの積が最も高くなる単語系列を選択することで行われる。数1は対数を取ると

0092

0093

のように表現できる。音響モデルと言語モデルのバランスが等価であるとは限らないため、両モデルへの重みをつける必要がある。一般的には両重みの比として、言語モデルの重みを設定し、

0094

0095

α:音響モデルと言語モデルとの両モデルにおける言語モデルの重み
のように表現する。言語モデルの重みαは、一般的な認識処理においては、時間的に一定の値を持つものとされる。しかし、連続単語音声認識部207はステップS1005で検出された特徴的音色の発生位置の情報を取得し、単語ごとに言語モデル重みαを変更する、

0096

0097

wi:i番目の単語
αi:i番目の単語に適用する言語モデルの重み
のように表現されるモデルに基づき連続音声認識を行う。音響特徴量データベースと言語特徴量データベースとを参照して音声認識を行う際に、音声認識を行うフレームが特徴的音色を含む場合には言語モデルの重みαを大きくし、相対的に音響モデルの重みを小さくして(ステップS2006)、音声認識を行う(ステップS2007)。言語モデルの重みを大きくし、音響モデルの重みを小さくすることで、特徴的音色の発生位置で音響モデルが適合しないことにより認識精度が低下する影響を小さくすることができる。連続単語音声認識部207は入力音声を音声認識した結果の単語列および音韻列について単語の読み情報、アクセント情報、品詞情報よりアクセント句境界アクセント位置を推定する(ステップS2010)。

0098

例えば、図16Aに示すように、入力音声の音韻列が「なまえをかくえんぴつがほしいんです」で、そのうち「えんぴつが」の部分が特徴的音色である「力み」で発声された音声が入力された場合、連続単語音声認識部207はステップS1005で検出された特徴的音色の発生位置の情報を取得し、特徴的音色を含まない、「なまえをかく」と「ほしいんです」の部分については、特徴的音色を含まない学習用データより決定された言語モデルの重みα=0.9を適用する。このとき、図16Bに示すように従来の連続音声認識の方法すなわち言語モデルの重みαを一定として、特徴的音色で発声された部分についても特徴的音色で発声されていない場合に適用する言語モデルの重みα=0.9を適用する。「力み」で発声された「えんぴつが」の部分が「力み」のない音響モデルとしては「えんとつ」とのマッチングが良かった場合、

0099

0100

のように、言語モデルとしては、文頭から「書く」までの単語列に「えんとつ」が続く確率より「えんぴつ」が続く確率の方が大きい。このため

0101

0102

となるにもかかわらず、言語モデルの重みが小さいために相対的に音響モデルの値が大きく、数3の値は

0103

0104

となり、認識結果としては「名前を書く煙突が欲しいんです」が採用されることになる。

0105

しかし、本実施の形態では、連続単語音声認識部207はステップS2006で、特徴的音色を含んだ入力音声を特徴的音色を含まない学習データより作成した音響モデルにより認識する場合には認識精度が低下することに対応して、「力み」で発声された「えんぴつが」の部分については言語モデルの重みを大きくする。すなわち図16Cに示すように「力み」の発声を含んだデータより作成した言語モデルの重みα=2.3を適用することで、

0106

0107

となり、認識結果としては「名前を書く鉛筆が欲しいんです」が採用され、正しい認識結果を得ることができる。

0108

特徴的音色発生指標計算部111は、連続単語音声認識部207から出力された音韻列と音韻単位で記述された特徴的音色発生位置、および音韻列のアクセント句境界とアクセント位置の情報を取得する。特徴的音色発生指標計算部111は、取得した情報と、特徴的音色発生指標計算規則記憶部110に記憶された、子音、母音、アクセント句中の位置、アクセント核からの相対位置等のモーラ属性から特徴的音色の発生しやすさを求める規則とを用いて特徴的音色発生指標を音韻列のモーラごとに計算する(ステップS1011)。感情種類判定部113は、特徴的音色発生音韻特定部208で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し、感情種類判定基準記憶部112の情報を参照して入力音声に含まれる特徴的音色の種類に対応する感情種類を特定する(ステップS1012)。感情強度計算部115は、音韻単位で記述された入力音声の特徴的音色発生位置とステップS1011で特徴的音色発生指標計算部111で計算されたモーラごとの特徴的音色発生指標とを比較し、各モーラの指標の大きさと入力音声の対応するモーラの状態との関係に基づき、感情強度計算規則記憶部114に記憶された規則に従ってモーラごとの感情強度を計算する(ステップS1013)。表示部116は、ステップS1013で計算された感情種類判定部113の出力としてのモーラごとの感情強度を表示する(ステップS1014)。

0109

なお、本実施の形態2において特徴的音色を含まないフレームに適用する言語モデルの重みを0.9、「力み」で発声されたフレームに適用する言語モデルの重みを2.3としたが、特徴的音色を含むフレームにおいて言語モデルの重みが相対的に大きくなる限りにおいて、これ以外の値であっても良い。また、「力み」以外の「かすれ」「裏声」等の特徴的音色に対してもそれぞれに適用する言語モデルの重みを設定しておくものとしても良いし、特徴的音色を含むフレームに適用する言語モデルの重みと特徴的音色を含まないフレームに適用する言語モデルの重みとの2種を設定しておくものとしても良い。

0110

なお、本実施の形態2においても、実施の形態1で述べたような変形例が可能である。

0111

かかる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎを抽出し、一方で音源揺らぎがある場合には音響特徴量データベース内の音響モデルに合致しにくいことを考慮して言語モデルの重み係数αを大きくし、相対的に音響モデルの重みを軽くする。これにより、音響モデルが合致しないことによる音韻レベルの誤認識を防ぎ、文レベルの音声認識精度を向上させることができる。他方で音源揺らぎの有無によって入力音声の感情の種類を判定し、さらに音声認識結果を利用して特徴的音色の発生しやすさを計算して、特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低いと判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断する。これにより、入力音声から音声の発話者の感情の種類と強度を、個人差や地方差に影響されることなく正確に認識することができる。

0112

さらには言語モデルの重みは、既存の言語モデルと音響モデルとのバランスを決定するものである。このため、特徴的音色を含む音響モデルを生成する場合より、少量のデータで特徴量データベースの生成が可能である。また、感情表現のある音声中に見られる特徴的音色は無表情な音声データから作られた音響特徴量データベースを用いた場合には音声認識精度が低いが、特徴的な音色が発生している部分については音響モデルが適切でない可能性があるとして音響モデルの重みを軽くして言語モデルの重みを大きくする。このことにより不適切な音響モデルを適用することの影響を小さくして音声認識精度も向上する。音声認識精度の向上により音韻列を用いて計算する特徴的音色の発生しやすさの計算精度も向上する。このため、感情強度の計算も精度が向上する。さらに、特徴的音色を音韻単位で検出し、感情認識を音韻単位で行うことで、入力音声中の感情の変化を音韻単位で追随することができる。このため、対話制御等に用いる場合にはユーザである話者が対話動作過程のどのイベントに対して、どのような反応をしたかを特定する場合に効果的である。

0113

(実施の形態3)
図17は、本発明の実施の形態3における音声による感情認識装置の機能ブロック図である。図18は実施の形態3における感情認識装置の動作を示したフローチャートである。図19は実施の形態3における音韻入力方法の一例を示した図である。

0114

図17において、図4と同じ部分については説明を省略し、図4と異なる部分についてのみ説明する。図18においても、図5と同じ部分については説明を省略し、図5と異なる部分についてのみ説明する。

0115

図17に示す感情認識装置では、図4における音声認識用特徴量抽出部101が特徴量分析部301に置き換えられている。また、特徴量データベース105とスイッチ107がなくなり、音声認識部106が音韻入力部306に置き換わった以外は図4と同様の構成である。

0116

図17において、感情認識装置は、音声より感情を認識する装置であり、マイクロホン1と、特徴量分析部301と、逆フィルタ102と、周期性分析部103と、特徴的音色検出部104と、音韻入力部306と、特徴的音色発生音韻特定部108と、韻律情報抽出部109と、特徴的音色発生指標計算規則記憶部110と、特徴的音色発生指標計算部111と、感情種類判定基準記憶部112と、感情種類判定部113と、感情強度計算規則記憶部114と、感情強度計算部115と、表示部116とを備えている。

0117

特徴量分析部301は、入力音声を分析し、スペクトル包絡を表すパラメータ、例えばメルケプストラム係数を抽出する処理部である。

0118

音韻入力部306は、ユーザが、入力波形の特定の区間に対して、対応する音韻種類を入力する入力手段であり、例えば、マウスペンタブレットのようなポインティングデバイスである。ユーザは、例えば、画面上に提示された入力音声の波形スペクトログラムに対して、ポインティングデバイスを用いて区間指定をし、その区間に対応する音韻種類をキーボードから入力する、あるいは表示された音韻種類のリストからポインティングデバイスを用いて選択するという方法で音韻種類を入力する。

0119

先に述べたように構成された音声による感情認識装置の動作を図5に従って説明する。

0120

まずマイクロホン1より音声が入力される(ステップS1001)。特徴量分析部301は、入力音声を分析し、スペクトル情報を現す音響特徴量としてメルケプストラム係数を抽出する(ステップS3001)。次に、逆フィルタ102は、ステップS3001で生成されたメルケプストラム係数の逆フィルタとなるようにパラメータを設定し、ステップS1001でマイクロホンより入力された音声信号を通過させ、音源波形を抽出する(ステップS1003)。

0121

周期性分析部103は、ステップS1003で抽出された音源波形の基本波らしさを計算し、基本波らしさを元に入力音声のうち周期性のある信号の時間領域を周期性信号区間として出力する(ステップS1004)。

0122

特徴的音色検出部104は、ステップS1004で周期性分析部103により抽出された周期性信号区間について、音源波形の揺らぎを検出する(ステップS1005)。

0123

一方、音韻入力部306より、ユーザは入力音声の特定区間に対応する音韻種類を入力する(ステップS3002)。音韻入力部306は入力された入力音声の区間と対応する音韻種類とを、入力音声の時間位置とその時間位置に対応する音韻情報として、特徴的音色発声音韻特定部108に出力する。

0124

特徴的音色発生音韻特定部108は、音韻入力部306が出力する時間位置情報付きの音韻列情報と特徴的音色検出部104が出力する入力音声中の特徴的音色の時間位置情報とから入力音声中のどの音韻で特徴的音色が発生していたかを特定する(ステップS1008)。

0125

一方、韻律情報抽出部109は、逆フィルタ102より出力された音源波形を分析し、基本周波数と音源パワーとを抽出する(ステップS1009)。

0126

特徴的音色発生指標計算部111は、ステップS3002で入力された時間位置情報付き音韻列と韻律情報抽出部109で抽出された基本周波数と音源パワーの情報とから、基本周波数パターンと音源パワーパターンの山谷を音韻列と照合し、音韻列に対応するアクセント句切りおよびアクセント情報を生成する(ステップS1010)。

0127

さらに、特徴的音色発生指標計算部111は、特徴的音色発生指標計算規則記憶部110に記憶された、子音、母音、アクセント句中の位置、アクセント核からの相対位置等の音韻属性から特徴的音色の発生しやすさを求める規則を用いて特徴的音色発生指標を音韻列の音韻ごとに計算する(ステップS1011)。

0128

感情種類判定部113は、特徴的音色発生音韻特定部108で生成された音韻単位で記述された特徴的音色発生位置より入力音声中の特徴的音色発生種類を特定し、感情種類判定基準記憶部112の情報を参照し、入力音声に含まれる特徴的音色が発生した音韻における感情種類を特定する(ステップS1012)。

0129

感情強度計算部は、感情強度計算規則記憶部114に格納された規則を参照し、音韻ごとに感情強度を計算する(ステップS1013)。ステップS1012で感情判断をしたよりさらに詳細に感情強度の変化を求めることができる。表示部116は、ステップS1013で計算された感情種類判定部113の出力としての音韻ごとの感情強度を表示する(ステップS1014)。

0130

なお、本実施の形態3ではステップS1012で感情種類判定基準記憶部112に記憶された感情種類判定基準に従って各音韻における感情種類を特定した後、ステップS1013において感情強度計算規則記憶部114に格納された規則に従って音韻ごとの感情強度を計算したが、実施の形態1の変形例のように、音韻ごとの特徴的音色発生指標を計算し、その結果に基づいて発話全体の感情種類と強度を計算するものとしても良い。

0131

かかる構成によれば、入力された音声より感情が反映された特徴的音色として音源揺らぎを抽出する一方で、入力音声の特定の区間に対応する音韻種類が入力される。音韻列と韻律情報とから求められる特徴的音色の発生しやすさと実際の入力音声の音源揺らぎの有無との比較結果により、特徴的音色が発生しやすい部分で実際に特徴的音色が発生している場合には感情の強度が低いと判断し、特徴的音色が発生しにくい部分で入力音声に特徴的音色が発生している場合には感情の強度が高いと判断される。このことで、入力音声から音声の発話者の感情の種類と強度を、言語差、個人差および地方差に影響されることなく正確に認識することができる。

0132

なお、韻律情報がまったく同じで、特徴的音色の発生指標が大きくなる傾向の強い音韻で構成された特徴的音色で発声された音声(たとえばタ行とカ行とダ行のア段、エ段、オ段の音韻で構成された「力み」易い音声)と、特徴的音色の発生指標が小さくなる傾向の強い音韻で構成された特徴的音色で発声された音声(例えばハ行とサ行のイ段とウ段の音韻で構成された音声)とを本願の感情認識装置に入力した場合のそれぞれの感情種類と強度の判断結果を見比べることにより、音韻種類と韻律情報とをパラメータとして用いた特徴的音色発生指標が計算され、特徴的音色発生指標に基づいて感情種類と強度が推定されていることが確認できる。また、特徴的音色で発声された同一音韻が連続する音声のアクセント位置を1音韻ずつずらした音声を本願の感情認識装置に入力した場合の、アクセント位置の移動による感情強度の変化を確認することにより、音韻種類と韻律情報とをパラメータとして用いた特徴的音色発生指標が計算され、特徴的音色発生指標に基づいて感情種類と強度が推定されていることが確認できる。

0133

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において、音声による感情認識装置は、入力音声全体を取得してから処理を行うものとしたが、マイクロホン1より入力される音声に対して、逐次的に処理を行うものとしても良い。その際、実施の形態1およびその変形例では逐次処理は音声認識の処理単位である音韻を逐次処理の単位とし、実施の形態2については言語処理が可能な文節あるいはフレーズ等の単位を逐次処理の単位とするものとする。

0134

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において音源波形はメルケプストラムの逆フィルタによって求めるものとしたが、声道モデルを元に声道伝達特性を求め、その逆フィルタによって音源波形を求める方法や、音源波形のモデルを元に求める方法等、音源波形の求め方はメルケプストラムの逆フィルタによる方法以外の方法を用いても良い。

0135

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において音声認識の音響特性モデルはメルケプストラムのパラメータを用いるものとしたが、それ以外の音声認識方式でも良い。その際、音源波形はメルケプストラムの逆フィルタを用いて求めるものとしても、それ以外の方法で求めるものとしても良い。

0136

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において、特徴的音色として音源の周波数揺らぎと音源の高域成分の揺らぎとを、「力み」と「かすれ」として検出するものとしたが、音源の振幅揺らぎ等、「日本音響学会誌51巻11号(1995),pp869−875 粕谷英樹・楊長盛“音源から見た声質”」に列挙されている裏声や緊張した声等、「力み」と「かすれ」以外の特徴的音色を検出するものとしても良い。

0137

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において基本周波数と音源パワーの抽出とを、ステップS1009すなわち特徴的音色発生指標計算部111でアクセント句境界とアクセント位置を決定する直前で行うものとしたが、ステップS1003で逆フィルタ102が音源波形を生成した後で、且つステップS1010で特徴的音色発生指標計算部111がアクセント句境界とアクセント位置を決定する以前であればどのタイミングで基本周波数と音源パワーを抽出しても良い。

0138

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において特徴的音色発生指標計算部111は統計的学習手法として数量化II類を用い、説明変数には子音、母音、アクセント句中の位置、アクセント核からの相対位置を用いるものとしたが、統計的学習手法はこれ以外の方法でも良く、説明変数も前記の属性のみでなく、基本周波数やパワーとそのパターン音韻の時間長等の連続量を用いて特徴的音色発生指標を計算するものとしても良い。

0139

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において、入力音声はマイクロホン1より入力されるものとしたが、あらかじめ録音、記録された音声あるいは装置外部より入力される音声信号であっても良い。

0140

なお、実施の形態1およびその変形例、実施の形態2、実施の形態3において、認識した感情の種類と強度を表示部116で表示するものとしたが、記憶装置へ記録する、あるいは装置外部へ出力するものとしても良い。

0141

本発明にかかる音声による感情認識装置は、発声器官の緊張や弛緩、あるいは感情、あるいは表情、あるいは発話スタイルによって音声のところどころに出現する特徴的な音色の音声を検出することで入力音声の話者の感情あるいは態度を認識するものであり、ロボット等の音声・対話インタフェース等として有用である。またコールセンターや、電話交換の自動電話応対システム等の用途にも応用できる。さらには音声通信時に、音声の調子に合わせてキャラクタ画像の動作が変化するような携帯端末アプリケーションにおいて、音声に現れる感情の変化に合わせてキャラクタ画像の動作や表情を変化させるアプリケーションを搭載した携帯端末等にも応用できる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

新着 最近 公開された関連が強い 技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ