図面 (/)

技術 感情の判別方法、感情判別装置、雰囲気情報通信端末

出願人 国立大学法人東京大学株式会社GSユアサ
発明者 山田一郎志村誠本橋洋介ジャン・ジャック・ドロネー梶村正俊竹石文彦
出願日 2006年9月22日 (14年4ヶ月経過) 出願番号 2006-257983
公開日 2008年4月3日 (12年10ヶ月経過) 公開番号 2008-076904
状態 特許登録済
技術分野 音声の分析・合成 音声認識
主要キーワード 判定サイクル 雰囲気情報 差分関数 時間的特性 特徴抽出機 外部ケーシング 感情判定 データ中心
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2008年4月3日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

定率が高く、信頼性ある感情判別装置等を提供することを目的とする。

解決手段

本感情判別装置は、過去の音声データの平均と、前記サンプル音声のデータの平均とを比較して補正値を決定し、判定対象となる音声データの座標Pを、補正値L分だけシフトさせ、その上で、感情の判定を行っている。このように、話者が元から持つ音声の特徴を予め見込んで音声データの座標を補正しておけば、話者が元から持つ音声の特徴の影響を排除した状態でマハラノビスの距離が算出され、正しい判別結果を得ることが可能となる。

概要

背景

従来より、音声に基づいて話者感情判別する感情判別装置が提案されている(例えば、特許文献1)。特許文献1の装置では、感情を判別するための感情データベースを予め作成している。そして、マイクロフォンで音声が検出されると、その後、音声の特徴部分を抽出する処理が行われ、これを感情データベースに参照させることで話者の感情判別を行っている。
特開2002−91482公報

概要

定率が高く、信頼性ある感情判別装置等を提供することを目的とする。本感情判別装置は、過去の音声データの平均と、前記サンプル音声のデータの平均とを比較して補正値を決定し、判定対象となる音声データの座標Pを、補正値L分だけシフトさせ、その上で、感情の判定を行っている。このように、話者が元から持つ音声の特徴を予め見込んで音声データの座標を補正しておけば、話者が元から持つ音声の特徴の影響を排除した状態でマハラノビスの距離が算出され、正しい判別結果を得ることが可能となる。

目的

一方、人の発する音声は、少なからず個体差があり、話者が普通に話したとしても、先の基準から声の傾向がずれていることがある。例えば、元から声が大きい特徴を持っている人などがその一例であり、仮に、この声の大きい特徴を持っている人の音声データを感情データベースに参照させると、怒ってない場合であっても怒っていると誤判定されてしまうことがある。
本発明は上記のような事情に基づいて完成されたものであって、判定率が高く、信頼性ある感情判別装置等を提供することを目的とする。

効果

実績

技術文献被引用数
2件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

話者音声を取得する音声取得手段と、取得された音声から特徴を抽出する特徴抽出手段と、を備え、得られた特徴を要素とする音声データを、複数人サンプル音声からなる感情データに参照させて話者の感情カテゴリを判定する感情判別装置であって、判定された過去の音声データの平均と前記サンプル音声のデータの平均と、に基づいて話者が元から持つ音声の特徴に応じた補正値を決定し、以降に判定される話者の音声データを前記補正値で補正するデータ補正手段を備え、前記補正後の音声データを、前記感情データに参照させて感情のカテゴリを判定することを特徴とする感情判別装置。

請求項2

記憶手段を備えて、判定された過去の音声データを累積的に記憶させる構成であるとともに、前記データ補正手段は、所定時間経過ごとに前記記憶手段から前記音声データを読み出して音声データの平均を改めて算出し、前記補正値を更新することを特徴とする請求項1に記載の感情判別装置。

請求項3

前記データ補正手段による前記補正処理、並びにこれに続くカテゴリの判定処理が、前記音声取得手段が話者の音声を取得する処理と並行して行われることを特徴とする請求項1又は請求項2に記載の感情判別装置。

請求項4

話者から取得された音声から特徴を抽出し、得られた特徴を要素とする音声データを、複数人のサンプル音声からなる感情データに参照させて話者の感情のカテゴリを判定する感情の判別方法であって、判定された過去の音声データの平均と前記サンプル音声のデータの平均と、に基づいて話者が元から持つ音声の特徴に応じた補正値を決定し、以降に判定される話者の音声データを前記補正値で補正した上で、前記感情データに参照させて前記感情のカテゴリを判定することを特徴とする感情の判別方法。

請求項5

互いに離間した室内間をネットワークを通じて通信可能に接続し、室内の雰囲気情報を前記ネットワークを通じて一方側から他方側へ送信して他方側の室内において表示させる雰囲気情報通信システムに用いられる雰囲気情報通信端末であって、請求項1ないし請求項3のいずれかに記載された感情判別装置と、前記感情判別装置で判別された、前記雰囲気情報としての感情情報を前記ネットワークを通じて相手側に送信する送信部と、を有する雰囲気情報通信端末。

技術分野

0001

本発明は音声に基づいて人の感情判別する感情の判別方法感情判別装置、並びにそれを使用した雰囲気情報通信端末に関する。

背景技術

0002

従来より、音声に基づいて話者の感情を判別する感情判別装置が提案されている(例えば、特許文献1)。特許文献1の装置では、感情を判別するための感情データベースを予め作成している。そして、マイクロフォンで音声が検出されると、その後、音声の特徴部分を抽出する処理が行われ、これを感情データベースに参照させることで話者の感情判別を行っている。
特開2002−91482公報

発明が解決しようとする課題

0003

感情データベースというのは、複数人からサンプル音声(音声資料)を得て、それを平均値化して作られる。すなわち、データベースには、怒りの特徴、悲しみの特徴、喜びの特徴等が記憶されているが、これらは、あくまで平均的な傾向を表しているに過ぎない。すなわち、ある基準に対して、声が大きい傾向にあれば怒っているとか、声が高い傾向にあれば悲しんでいるとか、などである。

0004

一方、人の発する音声は、少なからず個体差があり、話者が普通に話したとしても、先の基準から声の傾向がずれていることがある。例えば、元から声が大きい特徴を持っている人などがその一例であり、仮に、この声の大きい特徴を持っている人の音声データを感情データベースに参照させると、怒ってない場合であっても怒っていると誤判定されてしまうことがある。
本発明は上記のような事情に基づいて完成されたものであって、判定率が高く、信頼性ある感情判別装置等を提供することを目的とする。

課題を解決するための手段

0005

上記の目的を達成するための手段として、請求項1の発明は、話者の音声を取得する音声取得手段と、取得された音声から特徴を抽出する特徴抽出手段と、を備え、得られた特徴を要素とする音声データを、複数人のサンプル音声からなる感情データに参照させて話者の感情のカテゴリを判定する感情判別装置であって、判定された過去の音声データの平均と前記サンプル音声のデータの平均と、に基づいて話者が元から持つ音声の特徴に応じた補正値を決定し、以降に判定される話者の音声データを前記補正値で補正するデータ補正手段を備え、前記補正後の音声データを、前記感情データに参照させて感情のカテゴリを判定するところに特徴を有する。
尚、話者が元から持つというのは、話者が生まれつき持つ、或いは日常的に持つという意味である。

0006

請求項2の発明は、請求項1に記載のものにおいて、記憶手段を備えて、判定された過去の音声データを累積的に記憶させる構成であるとともに、前記データ補正手段は、所定時間経過ごとに前記記憶手段から前記音声データを読み出して音声データの平均を改めて算出し、前記補正値を更新するところに特徴を有する。

0007

請求項3の発明は、請求項1又は請求項2記載のものにおいて、前記データ補正手段による前記補正処理、並びにこれに続くカテゴリの判定処理が、前記音声取得手段が話者の音声を取得する処理と並行して行われるところに特徴を有する。

0008

請求項4の発明は、話者から取得された音声から特徴を抽出し、得られた特徴を要素とする音声データを、複数人のサンプル音声からなる感情データに参照させて話者の感情のカテゴリを判定する感情の判別方法であって、判定された過去の音声データの平均と前記サンプル音声のデータの平均と、に基づいて話者が元から持つ音声の特徴に応じた補正値を決定し、以降に判定される話者の音声データを前記補正値で補正した上で、前記感情データに参照させて前記感情のカテゴリを判定するところに特徴を有する。

0009

請求項5の発明は、互いに離間した室内間をネットワークを通じて通信可能に接続し、室内の雰囲気情報を前記ネットワークを通じて一方側から他方側へ送信して他方側の室内において表示させる雰囲気情報通信システムに用いられる雰囲気情報通信端末であって、請求項1ないし請求項3のいずれかに記載された感情判別装置と、前記感情判別装置で判別された、前記雰囲気情報としての感情情報を前記ネットワークを通じて相手側に送信する送信部と、を有するところに特徴を有する。
尚、ここでいう、雰囲気情報というのは、メディアコミュニケーションで用いる言語や映像などによるメッセージ以外のものであって、室内の環境に関する情報や、人が無意識に発する情報などである。

発明の効果

0010

<請求項1並びに請求項4の発明>
請求項1の発明によれば、話者が元から持つ音声の特徴に応じた補正値で音声データを補正した上で、感情データに参照させている。このような構成であれば、音声の個体差に起因するカテゴリの誤判定を少なく出来るので、判別率が高まる。また、補正値を音声データの平均に基づいて算出している。平均であれば、演算が比較的簡単に出来るので、データ補正手段の処理負担が少なくて済む。

0011

<請求項2の発明>
請求項2の発明によれば、所定時間経過するごとに、補正値を更新することとした。このような構成であれば、新しく検出された音声が、データの補正に反映されるから、判定率の向上が期待できる。また、使用状況によっては、話者が途中で変わってしまうことがあるが、本構成であれば、話者の変更にも対応できる。

0012

<請求項3の発明>
請求項3の発明によれば、データ補正手段による補正処理、並びにこれに続くカテゴリの判定処理が、音声取得手段が話者の音声を取得する処理と並行して行われるようにした。このような構成であれば、高い判定率を維持しつつ、リアルタイムで感情を判別出来るので、商品性が高まる。

0013

<請求項5の発明>
請求項5の発明によれば、雰囲気情報通信システムによって、雰囲気情報を授受させているが、これに感情情報を含ませることとした。感情情報は、相手の様子を最も表す情報のうちの一つであるので、これを、授受させることで、利用者間によるコミニュケーション増進が期待できる。

発明を実施するための最良の形態

0014

本実施形態は、本発明に係る感情判別装置を雰囲気情報通信端末S1、S2に搭載したものである。
1.雰囲気情報通信端末の構成
図1は、雰囲気情報通信端末S1、S2の分解斜視図である。雰囲気情報通信端末S1、S2は端末本体20と、筒状の外部ケーシング40とから構成されている。端末本体20は円盤状をなすベース部21上にLED基板31を縦向きに固定したものである。係る雰囲気情報通信端末S1、S2は、図2に示すように、2つの住居1、2にそれぞれ設置され、ネットワークNWを介して通信可能に接続されている。

0015

図3には、端末S1、S2の電気的構成が示されている。同図に示すように両端末S1、S2は環境センサ50、人検知センサ60、記憶部71、表示部Ds、並びに制御装置75などから構成されている。端末S1、S2は室内の雰囲気情報として、環境面に関する情報(以下、環境情報)と、人が発する情報(以下、人情報)を検出する構成になっており、環境情報の検出機能を環境センサ50が担い、人情報の検出機能を人検知センサ60が担っている。

0016

環境センサ50は温度センサ51、照度センサ55からなる。これら両センサ51、55により、室内の温度情報照度情報(明るさ)が検出される。尚、環境センサ50の具体的な設置場所は、図1に示す通りであり、LED基板31の上部において、センサ基板37上に実装される形で設置されている。

0017

一方、人検知センサ60は焦電センサ61、マイクロフォン65の2つのセンサからなる。焦電センサ61は焦電効果を利用した赤外線検出器であって、人体から照射される赤外線を検出することで、人の存在情報を検出する。焦電センサ61は、図1に示すように、ベース部21の外周面において等間隔で周方向に3個設けられている。

0018

また、マイクロフォン65は、感情判別装置を構成するものであって、室内において発せられる音声を検出する機能を有する。詳細には後述するが、本実施形態のものは、マイクロフォン65で検出される音声に基づいて話者の感情のカテゴリを判定するようになっている。

0019

かくして、人検知センサ60(61、65)により、室内の人情報として、人の存在情報、感情情報が検出されるようになっている。

0020

記憶部71には、端末S1、S2の制御、並びに各種センサから出力されたデータの処理に必要とされるプログラムなどが記憶されるとともに、感情のカテゴリを判別するための感情データベースDBが設けられている。

0021

制御装置75は各端末S1、S2を制御統括するものであって、所定のタイミング(例えば、数分おき)で相手側の端末S1、S2とネットワークNWを介して雰囲気情報を授受し、相手側の雰囲気情報を表示させる処理を行う。

0022

図4に示すように、LED基板31上には、回路基板35に実装される形でLEDマトリクスMtと、上下10段に亘ってLEDが配置されている。LEDマトリクスMtは人情報の表示に割り当てられ、上下10段のLED1〜LED10は、環境情報の表示に割り当てられている。これらLEDは、光の強さ、発光色を選択・変更できるようになっている。

0023

これにより、相手側の端末S1、S2から、雰囲気情報が送信されてくると、制御装置75によって、各LEDの発光状態(光の強さ、発光色など)が制御され、人情報、環境情報が発光表示される(図5参照)。この結果、離れていながら相手側の雰囲気情報を知ることが出来る。尚、外部ケーシング90はLED基板31と共に表示部Dsを構成しており、LEDが発光すると内部から照らされて、全体が発光するようになっている。

0024

2.感情判別装置
図6は、感情判別装置の電気的構成を示すブロック図である。
感情判別装置はマイクロフォン65、A/D変換器91、フレームメモリ93、音声信号解析部100、感情データベースDB、データ格納部101並びに出力回路103などから構成されている。

0025

マイクロフォン65は室内の音声を検出し、これを電気信号(以下、音声信号と呼ぶ)に変換して出力するものである。

0026

A/D変換器91は、出力された音声信号をA/D変換し、ディジタル信号にして出力するものである。出力された音声信号はフレーズ(意味をもった、言葉まとまり)ごとに区切られ、フレームメモリ93に記憶される。例えば、マイクロフォン65によって図7に示す波形の音声が検出された場合であれば、D1とD2の2区間に区切られて記憶されることとなる。

0027

尚、フレーズは無音区間が500ms程度続いたときに、区切ることが好ましい。

0028

音声信号解析部100は特徴抽出機能、音声データの生成機能補正機能判定機能を備え、図8に示す判定フローに従って、話者の感情を判定するものである。尚、音声信号解析部100による感情の判定処理は、マイクロフォン65で音声を検出するのと並行して行われる。係る構成とすることで、リアルタイムで話者の感情を判別出来る。

0029

さて、判定処理が開始されると、まず、ステップ10でフレームメモリ93から音声信号を読み出す処理が行われる。音声信号の読み出しはフレーズ単位で行われる。

0030

そして、これ以降の各ステップ20〜ステップ70で、音声信号の解析処理がなされ、これに続いて感情のカテゴリを判定する処理が行われるが、これらの処理についても、フレーズを1単位として行われる。

0031

ステップ20、30では音声信号の特徴を抽出する処理と、特徴量を算出する処理が行われる。本実施形態のものは、音声信号の特徴として、音の強さ、並びに音のピッチ基本周波数)を抽出することとしている。

0032

音の強さは1フレーズの全音声信号を対象に、振幅に基づいて算出される。そして、得られた音の強さから、それらの分散値最大値文頭値、差分値など合計5個の特徴量が算出される。

0033

尚、本実施形態のものは、これら音の強さに関する特徴量の算出過程において、これらの値を、平均値(1フレーズにおける音の強さの平均値)で除してデータの標準化を図っている。これは、マイクロフォン65から話者までの距離の違いによって検出される音の強さが異なるなどの、検出誤差を考慮したものである。

0034

次に、ピッチの抽出であるが、本実施形態のものは、これを、下記の(1)式に示す自己相関関数Rに基づいて算出している。自己相関関数Rは、関数時間的特性を表すことが知られており、得られた自己相関関数Rの値が最小となるkの数値求めることで、音声のピッチが得られる。

0035

0036

尚、nはデータの番号であり、kは遅れ時間である。
また、X(n)は、n番目のデータの数値である。

0037

尚、本実施形態のものは、上記のように、自己相関関数として差分関数を用いている。差分関数であれば、少ない演算量でピッチを算出できるので、音声信号解析部100による処理負担を軽減できる。

0038

そして、得られたピッチから、それらの平均値、分散値、最大値、最小値、差分値など合計5個の特徴量が算出される。

0039

かくして、1フレーズの音声より10個の特徴量が得られる。この10個の特徴量をパラメータとする10次元のデータを以下、音声データと呼ぶものとする。

0040

ステップ40〜ステップ60では、音声データを感情データベースDBと照合する処理が行われる。尚、ステップ50では、音声データの座標値を補正する処理が行われるが、これについては、後に詳しく述べる。

0041

感情データベースDBは複数人から取得したサンプル音声(音声資料)を元に作成されたものである。取得されたサンプル音声に対しては、上述したステップ20、ステップ30の解析処理と同様の処理を行ってあり、各サンプル音声は10個の特徴量をパラメータとする音声データとしてデータ化されている。

0042

感情データベースDBの構成は、図9に示す通りであり、ごとに設けられている。男性女性の各感情データベースには、「怒り」、「悲しみ」「喜び」のカテゴリに区分して音声データが記憶されている。尚、音声データを感情ごとに区分できるのは、サンプル音声(音声資料)を発してもらう複数人には、予め、感情を含ませた状態で言葉を発してもらっているからである。

0043

本実施形態のものは男女の判定、並びに感情のカテゴリの判定を、いわゆるマハラノビスの距離に基づいて行っている。マハラノビスの距離というのは、カテゴリのデータ中心(一般的に言えば、母集団の重心位置)から判定対象となるデータまでの距離であって、この距離が短いほど判定対象のデータはそのカテゴリの属性に近いというこが出来る。

0044

尚、カテゴリのデータ中心というのは、そのカテゴリが有する特徴量の平均値のことである。具体的に言えば、本実施形態において、1つの音声データは、10個の特徴量を持っているから、各特徴量について、それぞれカテゴリ内の平均をとった10次元のデータが、カテゴリのデータ中心である。また、以下の説明において、感情データベースDBのデータ中心Goに対する言及があるが、データ中心Goとは、各特徴量について、それぞれ感情データベース内の平均をとった10次元のデータのことである。

0045

そして、ここでは、判定対象となる音声データがステップ40の処理で男性のものであると判定された、と仮定して判定フローの説明を進める。ステップ40で男性と判定されると、ステップ60では男性用の感情データベースDBが読み出される。図10には、男性用の感情データベースDBを2次元平面に展開した状態を表してある。

0046

音声データは先にも述べたように、特徴量をパラメータとする10次元のデータであるが、本実施形態のものは、これに主成分分析を行って全体の持つ情報量を保持しつつデータの次元を下げている。ここでは、理解を容易にするため音声データを2次元まで下げたものが例示してある。

0047

図11に示す点O1は「喜び」のカテゴリのデータ中心であり、点O2は「怒り」のカテゴリのデータ中心であり、点O3は「悲しみ」のカテゴリのデータ中心は点O3である。

0048

また、点Aは判定対象となる音声データの座標である。この例であれば、点Aは「怒り」のカテゴリのデータ中心O2に最も近いので、話者の感情は「怒り」であると判定される。

0049

尚、データによっては、中心O1、O2、O3のいずれに対しても近距離でない、或いはほぼ等しい距離にある場合があるが、本実施形態は、このような場合を「平静」と判定している。

0050

かくしてステップ60で、感情のカテゴリが判定されると、ステップ70に移行する。ステップ70では、判定対象となった音声データ、並びに判定結果をデータ格納部101にそれぞれ記憶させる処理が行われる。

0051

その後、ステップ80では、音声検出が開始されてから1分が経過したか、判定が行われる。開始から1分以内であれば、NO判定され、ステップ10に移行する。

0052

ステップ10では、次の音声信号がフレームメモリ93から読み出される。その後、上記した要領に従ってステップ20〜ステップ60の処理が行われ、男女の別、並びに感情のカテゴリが判定される。

0053

そして、ステップ70で判定対象となった音声データ、並びに判定結果がデータ格納部101に記憶される。その後、ステップ80で判定処理が行われ、音声検出の開始から1分以内であれば、再び、ステップ10に移行され、次の音声信号が読み出される。

0054

係る処理が繰り返し行われることで、図12に示すようにデータ格納部101に、判定結果、並びに音声データがストックされてゆく。

0055

やがて、音声検出の開始から1分が経過すると、ステップ80の判定処理を行ったときに、Yes判定されて、ステップ90に移行される。

0056

ステップ90では、データ格納部101から、それまでの1分間に判定された判定結果が読み出される。読み出された判定結果は、感情のカテゴリごとに判定回数カウントされる。そして、判定回数の大小により、1分当たりの感情のカテゴリが判定される。

0057

図13の例であれば、1分間に合計で15回の判定がなされ、そのうちの9回が「怒り」と判定されている。一方、「悲しみ」、「喜び」の判定回数は、それぞれ「2回」「3回」であり、また、「平静」と判定されたのは1回である。そのため、この場合であれば、「怒り」の判定回数が最も多く、1分間トータルの感情は「怒り」であると判定される。

0058

このように、本実施形態のものは、感情の判定をフレーズ単位で行ってはいるものの、更に、これを所定時間(本例では、1分)ごとに、まとめて判定を行い、これを最終的な判定結果としている。これは、以下の点を考慮したためである。

0059

人の感情表現は一様でなく、ある瞬間の音声については、他のカテゴリの特徴に似通っていることがある。そのため、音声の特徴部分を抽出してある程度正確に判定を行ったとしても、これが誤判定を生じさせ、判定率の低下を招いている。

0060

一方、感情の変化は早くても数分単位で起きることが予想され、それより短い単位で起きることは稀である。すなわち、1分程度の時間であれば、表現が一様でないとしても同じ感情が続く可能性が高く、その間は、同じ判定結果が続く傾向にある。

0061

従って、同じ感情が続くと考えられる期間内であれば、感情を正しく判定できた数が、誤って判定された数を上回るので、これを1つにまとめて判定してやれば、高い確率で正しい判定結果が得られる。

0062

そして、ステップ90の判定処理が完了すると、処理はステップ100に移行され、最終的な判定結果が出力回路103を通じて出力される。これにより、本実施形態であれば、一方側の端末S1から他方側の端末S2、或いは他方側の端末S2から一方側の端末S1に感情の判定結果が送信されることとなる。

0063

その後、処理はステップ110に移行され、音声信号解析部100により補正値を算出する処理が行われる。

0064

ステップ110では、まず、ストックされた音声データ(判定対象となったデータ)をデータ格納部101から読み出す処理が行われる。図12の例であれば、最初の1分間が経過したところでは、15の音声データがストックされており、これら全音声データが読み出されることとなる。

0065

そして、読み出された音声データを対象として演算処理、具体的には、データ個々の特徴量の平均値を算出する処理が実行される。これにより、判定対象となった音声データのデータ中心W1が得られる。

0066

そして、音声データのデータ中心W1と、感情データベースDBのデータ中心Goと、の間の距離(以下、中心間距離)Lが算出され、これが、補正値とされる(図14参照)。

0067

感情データベースDBのデータ中心Goはデータベースを構成するデータ個々の特徴量の平均であり、人が発する音声の平均データ(ここでは、サンプル音声を提供した複数人の平均データ)ということが出来る。

0068

一方、データ中心W1は、最初の1分間における音声の平均データである。従って、サンプル数としては少ないものの、中心間距離Lは、平均的に人が発する声に対する話者の音声のずれ、すなわち話者が元(生まれつき)から持つ音声の特徴に相当する量であるといえる。

0069

そして、ステップ110において補正値(中心間距離L)が算出されると、ステップ120に移行して、時刻Tがリセットされる。これにて、第一回目判定サイクルが終了する。時刻Tは1サイクル(すなわち、本例では1分)を計時するものであり、これがリセットされることで、第二回目の判定サイクルが開始されることとなる。

0070

それ以降は、ステップ10〜ステップ80までの処理が上述した要領で繰り返し行われる。そして、ステップ10〜ステップ80の処理を行う過程で、ステップ60において判定対象となる音声データの座標値を補正する処理が行われる。

0071

具体的に説明すると、座標値の補正は、音声データの座標値を、データ中心W1からデータ中心Goに向かう方向に、補正値(中心間距離L)の大きさ分だけシフト(移動)させることにより行われる。これにより、音声データの座標が、話者が元から持つ音声の特徴を含んだ位置から、同音声の特徴を取り除いた位置に補正される。

0072

図15の例であれば、補正前の音声データの座標が点Pであったとすると、これが補正処理により、同図に示す矢印方向に中心間距離Lだけ座標が移動され、補正後には音声データの座標がP’とされる。

0073

そして、この座標P’に基づいてマハラノビスの距離が算出される結果、この例であれば、感情は「喜び」と判別される。仮に、上述のような補正処理が行われないとすると、話者が元(生まれつき)から持つ音声の特徴を含んだ状態のままマハラノビスの距離が算出される結果、話者が元から持つ音声の特徴が顕著である場合には、誤判定が起きてしまう。この点、本実施形態のように、話者が元から持つ音声の特徴を予め見込んで音声データの座標を補正しておけば、話者が元から持つ音声の特徴の影響を排除した状態でマハラノビスの距離が算出され、正しい判別結果を得ることが可能となる。

0074

尚、2サイクル目が終了するときには、再び、ステップ110で補正値(中心間距離L)を算出する処理が行われ、本実施形態のものは、ここで、補正値を更新している。

0075

すなわち、図12の例であれば、1サイクル目で15個、2サイクル目で14個、合計で29個の音声データがデータ格納部101に記憶されている。そのため、ステップ130では、この記憶されたデータを対象として、データ中心W2が算出される。そして、3サイクル目には、補正値として、感情データベースDBのデータ中心Goと、新たに算出された音声データのデータ中心W2との間の中心間距離Lが、補正値として適用される。

0076

このように、本実施形態のものは、1つの判定サイクルが終了すると、そのサイクルの音声データを取り込んでデータ中心Wの算出に反映させている。従って、時間の経過とともに、フィードバックされるデータの量が増える結果、データ中心Wが、図16に示すように、話者の声の真のデータ中心Woに近づいてゆくこととなり、判定精度(判定率)を一層高めることが可能となる。

0077

補足しておくと、最初の1分間においてトータルの感情は「怒り」であると判定されている。そのため、1サイクル目が終了した時点のデータ中心W1は「怒り」のカテゴリに近い位置にある筈である。しかし、それ以降についても、判定対象となった音声データを継続的に取り込んでデータ中心Wを更新してゆくことで、「怒り」のデータの他にも、「悲しみ」、「喜び」などの特徴をもった話者の音声データが取り込まれ、やがて、データ中心Wが話者の発する声の真のデータ中心Woに近づいてゆくのである。

0078

また、本実施形態のものは、ある一定の音声データが蓄積されたら、それ以降は、古い音声データを消去し、新しいもののみを残すようにしている。例えば、音声の検出が開始されてから、1時間を経過したときには、それ以降に取得された音声データを保存させる処理と並行して、古い音声データを消去し、直近1時間の音声データのみを記憶させている。そして、データ中心Wについても、直近1時間の音声データに基づいて算出することとしている。

0079

このようにしているのは、長時間に渡って使用状態が続いていると、途中で話者が入れ替わることもあり、古いデータを使用しない方が、現在いる人の特徴を効果的に、反映出来るからである。

0080

3.本実施形態の効果
以上述べたように、本実施形態のものは、話者が元から持つ音声の特徴を排除する処理を行った上で、感情のカテゴリを判定しているので、感情のカテゴリを正確に判定できる。また、話者が元から持つ音声の特徴を排除する処理は、中心間距離Lの算出と、音声データの座標をシフトする処理によって実現されている。中心間距離Lの算出、並びに座標のシフトは比較的簡単な処理であり、音声信号解析部100の処理負担が少ないので高速処理が可能となる。また、本実施形態のものは、音声を検出する処理と、カテゴリを判定する処理を並行して行っているので、リアルタイムで感情の判定をすることが可能で、商品性に優れるものとなっている。

0081

<他の実施形態>
本発明は上記記述及び図面によって説明した実施形態に限定されるものではなく、例えば次のような実施形態も本発明の技術的範囲に含まれ、更に、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。

0082

(1)上記実施形態では、音声の特徴として、強さ、ピッチなどを抽出したが、これ以外の要素、例えば、音色(周波数成分の違い)を抽出するものであってもよい。

0083

(2)上記実施形態では、人の属性については男女のみ判別しているが、声紋などによって話者を特定する機能を新たに加え、個人を判別するようにしてもよい。この場合に、音声データのデータ中心Wについても、各個人ごとに生成・記憶させておく構成とすることが好ましい。係る構成とすることで、使用中に話者が変わっても、個人のデータ中心Wを読み出すなどすることで、話者が元から持つ音声の特徴を効果的に排除できる。

図面の簡単な説明

0084

本実施形態に係る雰囲気情報通信端末の分解斜視図
雰囲気情報通信端末の使用例を示す図
雰囲気情報通信端末の電気的構成を示すブロック図
雰囲気情報通信端末の垂直断面図
雰囲気情報通信端末の斜視図
感情判別装置の電気的構成を示すブロック図
音声信号の一例を示す図
感情判定処理の流れを示すフローチャート
感情データベースのデータ構成を示す図
感情データベースを二次元平面に展開した状態を示す図
マハラノビスの距離を示す図
データ格納部に、判別結果並びに音声データがストックされた様子を示す図
1分間の判定結果を示す図
感情データベースのデータ中心に対する、音声データのデータ中心のずれを示す図
補正前の音声データと、補正後の音声データの関係を示す図
データ中心Wが時間の経過とともに、更新される様子を示す図

符号の説明

0085

65…マイクロフォン(本発明の「音声取得手段」に相当)
93…フレームメモリ
100…音声信号解析部(本発明の「特徴検出手段」、「データ補正手段」に相当)
101…データ格納部(本発明の「記憶手段」に相当)
S1、S2…雰囲気情報通信端末
DB…感情データベース(本発明の「感情データ」に相当)

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ