図面 (/)

技術 翻訳装置、翻訳方法、および翻訳プログラム

出願人 ソフトバンク株式会社
発明者 荻野篤上園慎哉愛知信也岩上靖徳
出願日 2019年2月20日 (1年9ヶ月経過) 出願番号 2019-028464
公開日 2020年8月31日 (2ヶ月経過) 公開番号 2020-134719
状態 特許登録済
技術分野 音声認識 音声入出力 機械翻訳 音声の分析・合成
主要キーワード 学習データ群 振幅軸 口語表現 発話音声データ 学習フェーズ 翻訳テキスト 感情推定 再配置可能
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年8月31日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

従来よりもコンパクトな構成で、話者感情推定して翻訳に反映することができる翻訳装置を提供する。

解決手段

本発明の翻訳装置は、入力された話者の発話音声音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。

概要

背景

従来、話者発話音声翻訳する翻訳装置として、話者の感情推定し、翻訳に用いる機器が知られている。
例えば、特許文献1には、話者の表情を読み取ることで、話者の感情を推定する翻訳装置が開示されている。

概要

従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供する。本発明の翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。

目的

本発明は、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力された話者発話音声音声認識する音声認識部と、前記音声認識部により音声認識された音声情報から、話者の感情推定する感情推定部と、前記音声認識部において認識されたテキスト情報を、前記感情推定部が推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報翻訳する翻訳部と、を備えている翻訳装置

請求項2

前記感情推定部は、前記発話音声の速度の特徴により、前記話者の感情を推定することを特徴とする請求項1に記載の翻訳装置。

請求項3

前記感情推定部は、前記発話音声の抑揚の特徴により、前記話者の感情を推定することを特徴とする請求項1又は2に記載の翻訳装置。

請求項4

前記感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項1から3のいずれか1項に記載の翻訳装置。

請求項5

前記学習モデルは、SVM(SupportVectorMachine)であることを特徴とする請求項4に記載の翻訳装置。

請求項6

前記感情推定部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定することを特徴とする請求項1から3のいずれか1項に記載の翻訳装置。

請求項7

前記学習モデルとして、LSTM(Long short term memory)の機能を有する学習モデルを使用することを特徴とする請求項6に記載の翻訳装置。

請求項8

前記学習モデルは、前記感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、前記フィードバック部に入力された前記感情推定情報を用いて、再帰学習する再帰学習部と、を備えていることを特徴とする請求項7に記載の翻訳装置。

請求項9

前記感情推定部は、音声認識された単語に対して、話者の感情を推定することを特徴とする請求項1から8のいずれか1項に記載の翻訳装置。

請求項10

前記翻訳テキスト情報に基づく音声発話する発話部を備え、前記発話部は、前記翻訳テキスト情報に基づく音声を発話する際に、前記感情推定部が推定した話者の感情を反映させることを特徴とする請求項1から9のいずれか1項に記載の翻訳装置。

請求項11

コンピュータが、入力された話者の発話音声を音声認識する音声認識ステップと、前記音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、前記音声認識ステップにおいて認識されたテキスト情報を、前記感情推定ステップにより推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する翻訳方法

請求項12

コンピュータに、入力された話者の発話音声を音声認識する音声認識機能と、前記音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、前記音声認識機能において認識されたテキスト情報を、前記感情推定機能により推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる翻訳プログラム

技術分野

0001

本発明は、翻訳装置翻訳方法、および翻訳プログラムに関する。

背景技術

0002

従来、話者発話音声翻訳する翻訳装置として、話者の感情推定し、翻訳に用いる機器が知られている。
例えば、特許文献1には、話者の表情を読み取ることで、話者の感情を推定する翻訳装置が開示されている。

先行技術

0003

特開平2−183371号公報

発明が解決しようとする課題

0004

しかしながら従来の翻訳装置では、話者の表情を読み取るために、カメラを備えた画像認識装置が必要であり、翻訳装置をコンパクトな構成とすることに改善の余地があった。

0005

そこで本発明は、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる翻訳装置を提供することを目的とする。

課題を解決するための手段

0006

本発明に係る翻訳装置は、入力された話者の発話音声を音声認識する音声認識部と、音声認識部により音声認識された音声情報から、話者の感情を推定する感情推定部と、音声認識部において認識されたテキスト情報を、感情推定部が推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている。

0007

また、感情推定部は、発話音声の速度の特徴により、話者の感情を推定してもよい。

0008

また、感情推定部は、発話音声の抑揚の特徴により、話者の感情を推定してもよい。

0009

また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。

0010

また、学習モデルは、SVM(support vector machine)であってもよい。

0011

また、感情推定部は、音声認識された発話音声の速度の特徴、および抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部により認識された音声情報から、話者の感情を推定してもよい。

0012

また、学習モデルとして、LSTM(Long short term memory)の機能を有する学習モデルを使用してもよい。

0013

また、学習モデルは、感情推定部による話者の感情の推定結果である感情推定情報を受付けるフィードバック部と、フィードバック部に入力された感情推定情報を用いて、再帰学習する再帰学習部と、を備えてもよい。

0014

また、感情推定部は、音声認識された単語に対して、話者の感情を推定してもよい。

0015

また、翻訳テキスト情報に基づく音声発話する発話部を備え、発話部は、翻訳テキスト情報に基づく音声を発話する際に、感情推定部が推定した話者の感情を反映させてもよい。

0016

また、本発明に係る翻訳方法は、コンピュータが、入力された話者の発話音声を音声認識する音声認識ステップと、音声認識ステップにより音声認識された音声情報から、話者の感情を推定する感情推定ステップと、音声認識ステップにおいて認識されたテキスト情報を、感情推定ステップにより推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳ステップと、を実行する。

0017

また、本発明に係る翻訳プログラムは、コンピュータに、入力された話者の発話音声を音声認識する音声認識機能と、音声認識機能により音声認識された音声情報から、話者の感情を推定する感情推定機能と、音声認識機能において認識されたテキスト情報を、感情推定機能により推定した話者の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳機能と、を実現させる。

発明の効果

0018

本発明の翻訳装置では、感情推定部が、話者が発話し、音声認識部により音声認識された音声情報から、話者の感情を推定する。そして、翻訳部が、話者の感情を反映させながら、音声認識部が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、話者の感情を推定して翻訳に反映することができる。

図面の簡単な説明

0019

本発明の翻訳装置をユーザが使用する様子を示す図である。
第1実施形態に係る翻訳装置の構成例を示すブロック図である。
図1に示す翻訳装置の感情推定部で行う処理を説明する図である。
図2に示す辞書データを示す図である。
翻訳装置における処理フローを示す図である。
第2実施形態に係る翻訳装置の感情推定部で行う処理を説明する図である。
感情推定部における学習モデルの学習フェーズを説明する図である。
感情推定部における学習モデルの推定フェーズを説明する図である。
学習データの変形例を示す図である。
図9に示す学習データを使用する翻訳装置の構成例を示すブロック図である。
図10に示す翻訳装置における処理フローを示す図である。

実施例

0020

(第1実施形態)
本発明の第1の実施形態について、図面を参照しながら説明する。
図1は、翻訳装置100およびその周辺の構成を示す図である。翻訳装置100は、ユーザ10(話者)の発話音声を、ユーザ10の感情を反映しながら翻訳する装置である。翻訳装置100は、翻訳した結果をユーザ10に向けて発話可能となっている。

0021

図2は、翻訳装置100の構成例を示すブロック図である。翻訳装置100は、入力部110、記憶部120、処理部130、発話部140、および表示部150を備えている。
入力部110は、ユーザ10の発話音声が入力されるマイクの機能を有している。入力部110は、音声データを受信すると、処理部130に伝達する。

0022

記憶部120は、翻訳装置100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDDSSD、フラッシュメモリなど各種の記憶媒体により実現される。
なお、翻訳装置100は、各種プログラムを記憶部120に記憶し、当該プログラムを実行して、処理部130が、処理部130に含まれる各機能部としての処理を実行してもよい。これらの各種プログラムは、翻訳装置100に、処理部130が実行する各機能を実現させる。各機能とは、後述する音声認識機能、感情推定機能、および翻訳機能を含んでいる。

0023

記憶部120は、各種プログラムとして、入力された音声データからテキスト情報を認識するための音声認識プログラム、発話音声からユーザ10の感情を推定する感情推定プログラム、および認識されたテキスト情報から翻訳を行うための翻訳プログラムを記憶している。なお、この説明においてテキスト情報とは、後述する音声認識部により、意味のある単位に分割されて認識された文字列であり、単語、熟語、又は意味の通る短文等を含む概念である。
また、記憶部120は、後述する翻訳部133が翻訳時に用いる辞書データ121を備えている。

0024

図4に示すように、辞書データ121は、テキスト情報および翻訳テキスト情報それぞれについて、対応する感情情報づけて記憶している。
辞書データ121は、テキスト情報と、テキスト情報が訳されるべき複数の翻訳テキスト情報を、話者の感情の属性毎対応付けて記憶している。
テキスト情報は、音声認識部131により認識されたテキストを示す情報である。翻訳テキスト情報は、テキスト情報および感情情報により特定されるテキスト情報を翻訳した単語のテキスト情報である。また、テキスト情報および翻訳テキスト情報については、方言ごとに記憶してもよい。ここで方言とは、所定の地域内で限定的に使用される口語表現をいう。

0025

感情情報は、テキスト情報と対応する単語が発話される際における話者の感情を示す情報である。感情情報は、例えば喜怒哀楽および平常の5つに分類されている。すなわち、それぞれの単語について、ユーザ10がどのような感情のとき使用されるかという属性を指している。
また、ユーザ10の感情によらずに使用される単語については、感情情報を記憶していなくてもよい。

0026

図2に示す処理部130は、翻訳装置100の各部を制御するものであり、例えば、中央処理装置(CPU)やマイクロプロセッサASICFPGAなどであってもよい。なお、処理部130は、これらの例に限られず、どのようなものであってもよい。

0027

処理部130は、音声認識部131と、感情推定部132と、翻訳部133と、音声生成部134と、を備えている。
音声認識部131は、入力部110から伝達された音声データを解析する機能を有する。音声認識部131は、伝達されたユーザ10の発話音声に対して、後述する音声特徴量の抽出や形態素解析を含む音声認識処理を施して、テキスト情報に変換する。

0028

感情推定部132は、音声認識された発話音声の速度の特徴、および抑揚の特徴を学習した学習モデルを用いて、音声認識部131により音声認識された音声情報から、話者の感情を推定する。
感情推定部132は、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方により、ユーザ10の感情を推定する。この点について、以下に詳述する。

0029

学習モデルは、例えばSVM(Support Vector Machine)である。
SVMとは、パターン認識モデルの一つであり、データを属性に沿って分類を行うことで、発話音声を発話したユーザ10の感情を推定することができる。SVMの学習データを用いた学習および分類について、図3を用いて説明する。

0030

本実施の形態に係るSVMは、少なくとも音声の発話速度と、音声の抑揚とに基づいて、入力された音声を発した話者の感情を推定する分類器である。
SVMは、例えば、予め学習データとして、分類したい感情を示す音声データを複数用意し、その音声データを分類することで閾値を算出する。例えば、喜びを示す音声と、悲しみを示す音声とを複数用意し、それらを分類することによって、喜びと悲しみの閾値を算出する。ここで、予め用意する音声データとして、方言を使用してもよい。このように、方言ごとの音声データを用いて、それぞれの方言ごとに学習させた学習モデルを用意した場合、その方言に特有の発話速度および抑揚を考慮した感情推定が可能になる。

0031

そして、推定の段階においては、感情を推定したい音声の、少なくとも、発話速度および抑揚を要素とするベクトルに変換する。
例えば、「ありがとう」という音声の発話速度として、発話に要した秒数を用い、抑揚をその音声の振幅の変化を用いるとした場合、このありがとうという音声のベクトルは、例えば(発話の秒数、スペクトル値)という形で表現することができる。なお、ここに更に、音量(あるいはその変化)など他の要素を含ませてベクトルを生成してよい。

0032

そして、生成したベクトルが、SVMが定める空間上のどこに位置するかによって、音声の感情がどのような感情に属するかを特定(分類)することによって、音声の感情を推定する。SVMは、予め学習済みのものを利用してもよいし、翻訳装置が学習したものを利用してもよい。

0033

図3に示すように、例えばSVMは、多数の学習データの特徴量を2次元ベクトル空間により把握してもよい。この場合の特徴量とは、本実施形態では、発話音声の速度の特徴、および抑揚の特徴を含む音声特徴量である。
図示の例では、多数の学習データは、属性により、2つのクラスを構成している。例えば図3(a)に示すベクトル空間には、発話音声の話者の感情が「平常」であるクラスと、「喜」であるクラスとが存在している。そして、SVMは、学習データ群線形に分離する境界を学習している。また、この境界を学習したのちには、多数の学習データを記憶しておく必要は無いが、記憶しておいてもよい。

0034

そしてSVMは、感情推定部132に新たな発話音声データが入力されると、その発話音声データの音声特徴量を抽出し、境界線に対して当該発話音声データがどこに位置するかを判断することで、発話音声データの話者の感情が「平常」であるか、「喜」であるかを分類することができる。

0035

また、SVMは、例えば図3(b)に示すように、感情情報として「平常」を有しているクラスと、「哀」を有しているクラスとに分類可能なベクトル空間を同時に把握していてもよい。この場合、話者の感情が「平常」であるか、「喜」であるか、を分類するための第1ベクトル空間と、話者の感情が「平常」であるか、「哀」であるか、を分類する第2ベクトル空間と、の両方を持っていることとなる。この場合の感情推定について説明する。

0036

例えば、第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「喜」であると推定する。
次に、第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「哀」である場合には、話者の感情は「哀」であると推定する。

0037

また、仮に第1ベクトル空間において話者の感情が「平常」であり、第2ベクトル空間において話者の感情が「平常」である場合には、話者の感情は「平常」であると推定する。
そして、仮に第1ベクトル空間において話者の感情が「喜」であり、第2ベクトル空間において話者の感情が「哀」である場合には、以下の判断により感情を推定する。

0038

すなわち、この場合には、当該音声データの音声特徴量のベクトルの位置が、第1ベクトル空間のうち、「喜」に相当するデータ群中央値に近いか、第2ベクトル空間のうち、「哀」に相当するデータ群の中央値に近いか、を判断し、よりデータ群の中央値に近い属性を採用する。これにより、複数の感情に対して分類をすることができる。また、前述したように複数のベクトル空間を備えずに、一つのベクトル空間の中に、複数の感情情報に分類するためのクラスを有していてもよい。

0039

また、感情推定部132は、音声認識された単語に対して、話者の感情を推定する。この際、感情推定部132は、全ての単語に対して感情推定を行ってもよい。また、感情推定部132は、音声認識部131が変換したテキスト情報に基づいて、発話音声のうち、特に感情が表現された単語を抽出し、その単語についてのみ感情推定を行ってもよい。

0040

翻訳部133は、音声認識部131において認識されたテキスト情報を、感情推定部132が推定したユーザ10の感情を反映させながら、テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する。
翻訳部133は、音声認識部131により認識されたテキスト情報が伝達されると、当該テキスト情報に対応する翻訳テキスト情報を、図4に示す辞書データ121のテキスト情報を参照して、検索する。そして、感情推定部が推定した感情に対応する感情情報を参照して、翻訳テキスト情報を特定する。

0041

例えば、図4に示すように、音声認識部131により認識された音声のテキストが「おい」であり、感情推定部により推定された感情が、「喜」であった場合には、翻訳部は、このテキストの翻訳テキストとして、「Hi」を特定する。これにより、翻訳部133はユーザ10の感情を翻訳作業に反映させる。
翻訳部133は、翻訳テキスト情報、および感情情報を音声生成部134に伝達する。

0042

音声生成部134は、翻訳テキスト情報に基づいて、ユーザ10に向けて発話するロボット発話音声データを生成する。ロボット発話音声データは、翻訳部133から伝達された翻訳テキスト情報に基づいて、ロボット発話音声データを生成する。
発話部140は、音声生成部134が生成したロボット発話音声データを発話するスピーカーとしての機能を有する。

0043

ここで、発話部140は、翻訳テキスト情報に基づく音声を、例えば単調に発話してもよいし、感情推定部132が推定した話者の感情を反映させながら発話してもよい。後者の場合には、音声生成部134は、感情推定部132が推定した感情情報を参照し、当該感情情報と対応付けて記憶する音声特徴量を再現しながら、ロボット発話音声データを生成する。

0044

表示部150は、翻訳部133が翻訳した翻訳テキスト情報を表示するディスプレイである。表示部150には、翻訳テキスト情報とともに、音声認識部131により認識された音声情報を示すテキスト情報が表示される。

0045

次に、翻訳装置100における処理フローについて図5を用いて説明する。
図5に示すように、まず、翻訳装置100の入力部110に、ユーザ10の発話音声が入力される(S501)。入力部110は、受け付けた発話音声を、処理部130における音声認識部131および感情推定部132に伝達する(S502)。
次に、音声認識部131が、音声認識ステップとして、検出した音からユーザ10の発話音声を解析して音声認識を行う。(S503)。音声認識の処理としてはまず、入力された音声波形切り出し、特徴量を抽出する。次に音響モデル及び言語モデルを使用して、音素の並びを単語に変換し、変換された内容をテキストで出力する。これにより、音声認識結果として、テキスト情報が特定される。なお、音声認識の処理は、他の処理により行ってもよい。
音声認識部131は、解析により得られたテキスト情報を、翻訳部133に伝達する。

0046

次に、感情推定部132が、感情推定ステップとして、発話音声の特徴量から、話者の感情を推定する。本実施形態では、感情推定部132が有する学習モデルであるSVMが、前述した手法により、話者の感情を推定する(S504)。
次に、翻訳部133が、翻訳ステップとして、テキスト情報を翻訳テキストに翻訳する(S505)。この際、翻訳部133は、ユーザ10の感情を反映しながら翻訳を行う。翻訳部133は、辞書データ121を参照して、音声認識部131から伝達されたテキスト情報と、感情推定部132から伝達された感情情報とに対応する翻訳テキスト情報を特定して翻訳を行う。

0047

次に、表示部150が、翻訳テキスト情報を表示する。これにより、ユーザ10は、感情が反映されて翻訳された内容を、表示部150の表示内容を見ることで確認することができる。
次に、音声生成部134が、翻訳テキスト情報からロボット発話音声データを生成する(S506)。そして、発話部140が、発話ステップとして、ロボット発話音声データをユーザ10に向けて発話する(S507)。これにより、ユーザ10は、感情が反映されて翻訳された内容を、発話部140の発話内容を聞くことで確認することができる。

0048

以上説明したように、本実施形態に係る翻訳装置100によれば、感情推定部132がユーザ10の発話音声からユーザ10の感情を推定する。そして、翻訳部133が、ユーザ10の感情を反映させながら、音声認識部131が認識したテキスト情報を、異なる言語体系の翻訳テキスト情報に翻訳する。このため、従来よりもコンパクトな構成で、ユーザ10の感情を推定して翻訳に反映することができる。

0049

また、感情推定部132が、ユーザ10の発話音声発話速度、および抑揚からユーザ10の感情を推定するので、ユーザ10が使用した単語のみから感情を推定する構成と比較して、より一層正確にユーザ10の感情を推定することができる。

0050

また、SVMという学習モデルを用いて音声認識された発話音声発話速度、および抑揚の特徴を学習させるので、様々なパターンの発話音声に対して、適切に感情の推定を行うことができる。

0051

また、発話部140が、翻訳部133から伝達された感情情報に基づいて、ユーザ10の感情を反映させながら翻訳テキスト情報に基づく音声を発話する場合には、より一層正確にユーザ10の感情を反映させることができる。
また、感情推定部132が、翻訳を行う単語に対して感情情報を行うことで、ユーザ10の感情を正確に推定することができる。
また、方言ごとの学習データを用いて学習した学習モデルを使用することで、方言独特の発話速度、抑揚等を考慮した感情推定が可能になり、利便性が向上する。

0052

(第2実施形態)
次に、本発明の第2実施形態に係る翻訳装置100について、図6から図8を用いて説明する。第2実施形態に係る翻訳装置100では、感情推定部132の学習モデルの構造が、第1実施形態と異なっている。なお、以下の説明では、第1実施形態との相違点について主に説明し、前述した第1実施形態と同一の構成および効果についてはその説明を省略する。

0053

図6は、第2実施形態に係る翻訳装置100の感情推定部132で行う処理を説明する図である。図7は、感情推定部132における学習モデルの学習フェーズを説明する図である。図8は、感情推定部132における学習モデルの推定フェーズを説明する図である。

0054

図6に示すように、本実施形態に係る感情推定部132は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を学習した学習モデルを用いて、音声認識部131により音声認識された音声情報から、話者の感情を推定する。

0055

詳述すると、感情推定部132は、入力層と、中間層と、出力層と、を備えた学習モデルを有している。
本実施形態における学習モデルとは、発話音声を入力することで、発話音声の話者の感情を推定した感情推定情報を出力する関数集合である。ここでまず、学習モデルが行う学習データを用いた学習フェーズについて説明する。

0056

図7に示すように、学習フェーズでは、まずユーザ10が、例えば発話音声と、ラベルとしての感情情報と、を有する学習データを感情推定部132の学習モデルに入力する(S301)。すなわち、学習モデルは、発話音声から発話速度の特徴及び抑揚の特徴の違いを学習し、感情を推定できるように学習する。なお、学習データに入力する発話音声として、方言を使用してもよい。
ラベルとしての感情情報とは、発話音声の速度の特徴、および抑揚の特徴のうちの少なくともいずれか一方に紐づく、話者の感情を指す情報である。

0057

そして、学習モデルは、様々な発話音声と、それに対応する感情情報と、を学習する必要があるため、大量の学習データが必要となる。学習モデルにおいて出力として得られる感情情報は、例えば喜怒哀楽それぞれに対応するように4種類に設定されている。なお、感情情報は4種類よりも大別化して設定してもよいし、更に細分化して設定してもよい。

0058

感情推定部132は、発話音声の音声信号から発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出する。発話速度は主に音声信号の時間軸に依存し、発話音声の抑揚は、主に音声信号の振幅軸に依存する。
なお音声特徴量は、その他の値として、例えば周波数スペクトルメル帯域化・対数化した値等を用いてもよい。

0059

そして、学習モデルは、学習データを学習する(S302)。ここでいう学習データは、音声から抽出した発話速度を示す特徴量、および音声から抽出した抑揚を示す特徴量のうちの少なくともいずれか一方と、その音声が示す感情の情報(ラベル)が対応付けられた情報である。学習データに対応付けられている感情の情報(ラベル)は、ユーザ10(オペレータ)が付与したものであり、ここでは、喜怒哀楽のいずれかを示す情報である。

0060

学習データを学習することで、学習モデルを構成する関数それぞれの係数が変更される。すなわち、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、感情情報の数値と、を用いて、音声特徴量から感情情報を導く学習モデルへと構築されていく。

0061

学習モデルの中間層は、LSTM(Long short term memory)の機能を有している。LSTMの機能を有する学習モデルでは、ユーザ10が既に発話した発話音声の音声特徴量に基づいて、ユーザ10の感情を、例えば単語単位で順次推定してゆく。
中間層は、感情推定部132による話者の感情の推定結果である感情推定情報を受付けるフィードバック部として機能し、学習フェーズにおいて、バックプロパゲーションを行うことができる。

0062

バックプロパゲーションとは、ある学習データにおける音声特徴量を入力層に入力し、中間層で計算されて出力層に出力された計算結果が、該当するラベルが示す感情情報と異なった場合に、その計算結果を再度中間層に戻して再度計算を行うことである。この際、再計算の結果が、該当するラベルが示す感情情報と一致するように、中間層の係数を調整することで、中間層による感情推定の精度を向上することができる。

0063

また中間層は、入力された感情推定情報を用いて、再帰学習する再帰学習部として機能してもよい。ここで、学習モデルにおける再帰学習とは、実際に翻訳装置100を利用するユーザ10が、入力した音声に対して翻訳された翻訳結果の音声が納得いかなかった場合に行う処理である。
具体的には、入力した音声に対して本来翻訳されるべき内容、あるいは、音声の感情情報を入力層に再入力し、入力した音声と、そのユーザ10が指定した翻訳されるべき内容、あるいは、感情情報をラベルとして、新しい追加の学習データを、元からある学習データ群に混ぜて、もう一度学習モデルを作る。これにより、学習モデルによる感情推定の精度をより一層向上することができる。

0064

このようにして、学習モデルが学習済みの状態となる。この作業を大量の学習データに対して行うことで、学習モデルの精度が向上する。次に、実際に学習モデルを用いて話者の感情を推定する推定フェーズについて説明する。

0065

図8に示すように、推定フェーズでは、まず、感情推定部132の学習モデルに発話音声データを入力する(S401)。感情推定部132は、発話音声における発話速度、および発話音声の抑揚の特徴を含む音声特徴量を抽出し、学習モデルに入力する。
学習モデルは、入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる確度を出力層に出力してもよい。確度とは、入力データが、どのラベルに相当するかの確からしさを定量的に評価した指標であり、例えば「喜0.7、怒0.2、哀0.4、楽0.1」のように表示される。この場合には、数値が最も大きい「喜」が選択され、発話音声の話者の感情が「喜」と推定される(S402)。また、確度に代えて、感情を示すタグが出力されてもよい。

0066

また、ユーザ10が翻訳装置100を使用する中で、感情推定部132が推定した感情推定情報に違和感が生じた場合には、この感情推定情報をフィードバック部としての入力層に入力することができる。そして、入力層に入力された感情推定情報を用いて、再帰学習部としての中間層が、ユーザ10が所期する感情推定情報が得られるように、再帰学習をすることができる。

0067

(学習データの変形例)
次に、学習データの変形例について図9を用いて説明する。
図9に示すように、変形例に係る学習データでは、ラベルとして、感情情報に代えて翻訳テキスト情報を有している。この場合、翻訳テキスト情報が示す単語に、話者の感情が内包されていることとなる。

0068

そして、学習モデルは、このようなラベルを有する学習データで学習を行う。この場合には、学習モデルを構成する関数が、それぞれの係数を変更してゆくことで、学習データのうち、抽出された音声特徴量の値と、翻訳テキスト情報と、を用いて、音声特徴量から翻訳テキスト情報を導く学習モデルへと構築されていく。

0069

また、このような学習データを用いる翻訳装置100Bの構成例を、図10を用いて説明する。
図10に示すように、翻訳装置100Bの記憶部120Bは、辞書データを備えていない。また、処理部130Bにおいて、感情推定部132Bは、翻訳部133Bに含まれている。この場合の翻訳装置100Bの処理フローについて、図11を用いて説明する。なお、この説明では、前述した処理フローと異なる部分についてのみ説明する。

0070

図11に示すように、翻訳部133Bは、音声データを、感情情報が反映された翻訳テキスト情報に翻訳する(S604)。この点について詳述すると、発話音声が翻訳部133Bの感情推定部132Bに入力され、学習モデルの入力層に音声特徴量が入力されると、中間層で計算をした計算結果となる感情を示すタグが出力層に出力される。この感情を示すタグと、翻訳テキスト情報と、を翻訳部133Bが比較し、類似する翻訳テキスト情報が選択されることで、翻訳テキスト情報が確定する。これにより、発話音声の話者の感情が推定された翻訳が行われる。

0071

以上説明したように、本実施形態に係る翻訳装置100によれば、感情推定部132が、発話音声の速度の特徴、および抑揚の特徴、並びに当該発話音声が発話された際の話者の感情情報を学習した学習モデルを用いて話者の感情を推定するので、話者の感情を正確に推定することができる。

0072

また、学習モデルとして、LSTMの機能を有する学習モデルを使用することで、ユーザ10が既に発話した発話音声の音声特徴量に基づいて、ユーザ10の感情を、例えば単語単位で順次推定してゆくことができる。これにより、音声の入力に対して、より的確に感情推定を行うことができる。

0073

また、学習モデルがフィードバック部と再帰学習部として機能する中間層を備えているので、感情推定部132による話者の感情の推定結果である感情推定情報を、中間層に再度入力することができる。そして、中間層に再度入力された感情推定情報を用いて、再帰学習することができる。これにより、継続した使用により感情推定の精度を向上してゆくことができる。

0074

上記実施形態に係る装置は、上記実施形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
例えば翻訳装置100は、日本語英語との間の翻訳に限られず、様々な言語間の翻訳に使用することができる。また、例えば同じ日本語における標準語と方言との間の翻訳に使用してもよいし、異なる言語間での方言どうしの翻訳に使用してもよい。翻訳に方言を使用することで、翻訳した内容に親しみやすさを持たせることができる。

0075

翻訳装置100は、どのような態様で実現されてもよい。すなわち、上述した実施形態のように、単一の装置により実現されてもよいし、例えば入力部110、記憶部120、処理部130および発話部140が、異なる複数の装置により実現されてもよい。
また、翻訳装置100は、発話部140を備えなくてもよい。この場合には、例えば翻訳装置100が、翻訳テキスト情報に基づく音声を発話することなく、翻訳テキスト情報を表示部150にのみ出力するような構成であってもよい。

0076

また、翻訳部133がロボット発話音声データを生成してもよい。この場合には、翻訳装置100に音声データを入力することで、翻訳部133から翻訳されたロボット発話音声データが出力されることとなる。
また、学習モデルとして利用するアルゴリズムは、音声から感情を推定、あるいは、感情を推定した上で翻訳を実行することができれば、SVMやLSTMに限られるものではなく、他のアルゴリズムを利用してもよい。

0077

また、上記実施形態のプログラムは、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよい。記憶媒体は、「一時的でない有形媒体」に、プログラムを記憶可能である。記憶媒体は、HDDやSDDなどの任意の適切な記憶媒体、またはこれらの2つ以上の適切な組合せを含むことができる。記憶媒体は、揮発性不揮発性、または揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイスまたは媒体であってもよい。

0078

なお、翻訳装置100は、例えば、記憶媒体に記憶されたプログラムを読み出し、読み出したプログラムを実行することによって、各実施形態に示す複数の機能部の機能を実現することができる。また、当該プログラムは、任意の伝送媒体通信ネットワーク放送波等)を介して、翻訳装置100に提供されてもよい。翻訳装置100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現する。

0079

なお、当該プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective—C、Java(登録商標)などのオブジェクト指向プログラミング言語HTML5などのマークアップ言語などを用いて実装できる。

0080

翻訳装置100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。また、翻訳装置100の各機能部は、上記実施形態に示した機能を実現する1または複数の回路によって実現されてもよく、1の回路により複数の機能部の機能が実現されることとしてもよい。

0081

また、本開示の実施形態を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。例えば、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、各実施形態に示す構成を適宜組み合わせることとしてもよい。

0082

(付記)
また、前述した構成における翻訳装置を下記の構成としてもよい。
入力された話者の発話音声を音声認識する音声認識部と、
前記音声認識部により音声認識された音声情報から、話者の感情を推定するとともに、前記音声認識部において認識されたテキスト情報を、推定した話者の感情を反映させながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳する翻訳部と、を備えている翻訳装置。

0083

前記翻訳部は、音声認識された発話音声の速度の特徴、抑揚の特徴、およびこれらのうちの少なくともいずれか一方と話者の感情との関係を反映した翻訳テキスト情報を学習した学習モデルを用いて、前記音声認識部により音声認識された音声情報から、話者の感情を推定しながら、前記テキスト情報の言語体系と異なる言語体系の翻訳テキスト情報に翻訳することを特徴とする前段落に記載の翻訳装置。

0084

100翻訳装置
121辞書データ
131音声認識部
132感情推定部
133翻訳部
140発話部
150 表示部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ