図面 (/)

技術 音声認識装置および音声認識方法

出願人 三菱電機株式会社
発明者 伍井啓恭
出願日 2013年10月15日 (7年2ヶ月経過) 出願番号 2013-214411
公開日 2015年4月23日 (5年8ヶ月経過) 公開番号 2015-079035
状態 特許登録済
技術分野 音声認識
主要キーワード ADコンバーター スパースネス 音声認識手順 がいし 混合重み 認識文 グラムモデル 例文情報
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年4月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

音声認識結果単語連鎖を学習して言語モデルに含まれていなかった単語連鎖のカバー率を向上することが可能な言語モデルを備えた音声認識装置を得ることを目的とする。

解決手段

混合言語モデルおよび混合言語モデルのNグラムの学習に用いられた例文に関する情報を記憶する第2言語モデル記憶部107と、混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部106と、他の音声認識部による入力された音声信号の第1の音声認識結果が入力され、この第1の音声認識結果の単語系列と混合言語モデルのNグラムの学習に用いられた例文に関する情報とに基づいて前記第2言語モデル記憶部107に記憶された前記混合言語モデルにNグラムを追加するNグラム追加部105と、を備える。

概要

背景

音声テキスト化する音声認識技術は有用であり、医療法律分野における発話音声の書き起こしや、放送等における字幕の作成など、多くの分野でテキスト入力効率向上やテキスト入力によるデータベース検索の容易化などへの適用が期待され、あるいは既に適用され始めている。
しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である。現在の音声認識技術では音声の特徴と音素対応付け音響モデルと、連鎖する単語間の関係を表現した言語モデルが一般的に用いられている。

なお、以下で用いる専門用語は、従来技術文献1:鹿野清宏,伊克亘,河原達也,武田一哉,山本幹雄著,「音声認識システム」,株式会社オーム社,平成13年5月15日,p.53〜175(以下教科書1)、または従来技術文献2:研二,辻井潤一著,「確率的言語モデル」,東京大出版会,1999年11月25日,p.57〜99(以下教科書2)、または従来技術文献3:長尾真著,「自然言語処理」,岩波書店,1996年4月26日,p.118〜137(以下教科書3)に著された用語を用いるものとする。

音声を精度よく認識するための言語モデルとして教科書1〜3に記されているNグラムモデルを用いる方式が注目されている。Nグラムモデルの言語モデルでは、Nグラムコーパスから学習されるので、コーパスに出現しない単語連鎖は誤認識の原因となるというスパースネス問題があることが知られている。

このスパースネス問題に対応するため、言語モデルを入力音声に対して適応化する技術が提案されている。例えば、特許文献1には1回目の音声認識結果に基づいて、予め階層化した言語モデルのなかから適切な言語モデルを選択し、選択した言語モデルを混合して1つの言語モデルを生成して、言語モデルを入力音声に対して適応化する技術が開示されている。

概要

音声認識結果の単語連鎖を学習して言語モデルに含まれていなかった単語連鎖のカバー率を向上することが可能な言語モデルを備えた音声認識装置を得ることを目的とする。 混合言語モデルおよび混合言語モデルのNグラムの学習に用いられた例文に関する情報を記憶する第2言語モデル記憶部107と、混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部106と、他の音声認識部による入力された音声信号の第1の音声認識結果が入力され、この第1の音声認識結果の単語系列と混合言語モデルのNグラムの学習に用いられた例文に関する情報とに基づいて前記第2言語モデル記憶部107に記憶された前記混合言語モデルにNグラムを追加するNグラム追加部105と、を備える。

目的

しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

混合言語モデルおよび前記混合言語モデルのNグラムの学習に用いられた例文に関する情報を記憶する第2言語モデル記憶部と、前記混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部と、他の音声認識部(以下、第1音声認識部と称す)による前記音声信号の第1の音声認識結果が入力され、この第1の音声認識結果の単語系列と前記例文に関する情報とに基づいて前記第2言語モデル記憶部に記憶された前記混合言語モデルにNグラムを追加するNグラム追加部と、を備えたことを特徴とする音声認識装置

請求項2

前記Nグラム追加部は、前記第1および第2の音声認識部と異なる第3の音声認識部による前記音声信号の第3の音声認識結果が入力され、前記第1の音声認識結果の単語系列と前記第3の音声認識結果の単語系列に基づいて前記例文に関する情報を作成し、この作成した情報に基づいて前記第2言語モデル記憶部に記憶された前記混合言語モデルにNグラムを追加することを特徴とする請求項1に記載の音声認識装置。

請求項3

第1言語モデルを記憶する第1言語モデル記憶部と、前記第1言語モデルを用いて前記音声信号を認識し前記第1の音声認識結果を出力する前記第1音声認識部と、を備えたことを特徴とする請求項1に記載の音声認識装置。

請求項4

前記第2言語モデルは前記第1言語モデルと異なる例文に基づいてNグラムが学習された言語モデルであることを特徴とする請求項3に記載の音声認識装置。

請求項5

第1言語モデルを記憶する第1言語モデル記憶部と、前記第1言語モデルを用いて前記音声信号を認識し前記第1の音声認識結果を出力する前記第1音声認識部と、第3言語モデルを記憶する第3言語モデル記憶部と、前記第3言語モデルを用いて前記音声信号を認識し前記第3の音声認識結果を出力する前記第3音声認識部と、を備えることを特徴とする請求項2に記載の音声認識装置。

請求項6

前記Nグラム追加部は、前記例文に関する情報と前記第2音声認識部の前記第2の音声認識結果の単語系列に基づいて前記第2言語モデルにNグラムを追加することを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。

請求項7

前記第1言語モデル記憶部と前記第2言語モデル記憶部が1つの言語モデル記憶部であり、前記第1言語モデルと前記第2言語モデルがこの言語モデル記憶部に記憶された一つの言語モデルであることを特徴とする請求項3に記載の音声認識装置。

請求項8

前記Nグラム追加部は、更新もしくは作成した前記例文に関する情報に基づいて、前記混合言語モデルにNグラムを追加するとともに、前記混合言語モデルに記憶されたていたNグラムの確率を更新することを特徴とする請求項1から請求項7のいずれか一項に記載の音声認識装置。

請求項9

前記Nグラム追加部は、前記第1音声認識結果もしくは前記第3音声認識結果にそれぞれ前記第1音声認識部もしくは前記第3音声認識部に対応した重みで重み付けをして、前記第2言語モデルに追加するNグラムの確率を算出することを特徴とする請求項1から請求項8のいずれか一項に記載の音声認識装置。

請求項10

前記第2言語モデル記憶部は複数の前記第2言語モデルを記憶し、前記Nグラム追加部は、前記複数の第2言語モデルのそれぞれに対応する前記第1音声認識結果に対する前記重みと前記第3音声認識結果に対する前記重みとの予め定められた組み合わせに基づいて前記重み付けをして、前記複数の第2言語モデルのそれぞれに追加するNグラムの確率を算出し、前記第2音声認識部は、前記複数の第2言語モデルのそれぞれを参照して音声認識を行い、得られた音声認識結果のいずれかをその音声認識結果の尤度に基づいて選択して前記第2の音声認識結果とする、ことを特徴とする請求項9に記載の音声認識装置。

請求項11

第1音声認識部が第1言語モデルを参照して入力された音声の音声認識を行う第1の音声認識手順と、第2音声認識部が混合言語モデルを参照して前記入力された音声の音声認識を行う第2の音声認識手順と、Nグラム追加部が前記第1音声認識手順による音声認識結果の単語系列と前記混合言語モデルのNグラムの学習に用いられた例文に関する情報に基づいて、前記混合言語モデルにNグラムを追加するNグラム追加手順と、を備えたことを特徴とする音声認識方法

請求項12

第3音声認識部が第3言語モデルを参照して前記入力された音声の音声認識を行う第3の音声認識手順と、を備え、前記Nグラム追加手順は、前記第1の音声認識手順による音声認識結果の単語系列と前記第3の音声認識手順による音声認識結果の単語系列と基づいて前記例文に関する情報を作成し、作成した前記例文に関する情報に基づいて前記混合言語モデルにNグラムを追加することを特徴とする請求項11に記載の音声認識方法。

技術分野

0001

本発明は、言語モデル入力音声に対して適応化することにより単語連鎖カバー率を向上して、音声認識精度を向上する音声認識技術に関するものである。

背景技術

0002

音声をテキスト化する音声認識技術は有用であり、医療法律分野における発話音声の書き起こしや、放送等における字幕の作成など、多くの分野でテキスト入力効率向上やテキスト入力によるデータベース検索の容易化などへの適用が期待され、あるいは既に適用され始めている。
しかしながら、音声認識結果には誤認識が含まれる可能性があり、誤認識をいかに低減するかが音声認識技術の大きな課題である。現在の音声認識技術では音声の特徴と音素対応付け音響モデルと、連鎖する単語間の関係を表現した言語モデルが一般的に用いられている。

0003

なお、以下で用いる専門用語は、従来技術文献1:鹿野清宏,伊克亘,河原達也,武田一哉,山本幹雄著,「音声認識システム」,株式会社オーム社,平成13年5月15日,p.53〜175(以下教科書1)、または従来技術文献2:研二,辻井潤一著,「確率的言語モデル」,東京大出版会,1999年11月25日,p.57〜99(以下教科書2)、または従来技術文献3:長尾真著,「自然言語処理」,岩波書店,1996年4月26日,p.118〜137(以下教科書3)に著された用語を用いるものとする。

0004

音声を精度よく認識するための言語モデルとして教科書1〜3に記されているNグラムモデルを用いる方式が注目されている。Nグラムモデルの言語モデルでは、Nグラムコーパスから学習されるので、コーパスに出現しない単語連鎖は誤認識の原因となるというスパースネス問題があることが知られている。

0005

このスパースネス問題に対応するため、言語モデルを入力音声に対して適応化する技術が提案されている。例えば、特許文献1には1回目の音声認識結果に基づいて、予め階層化した言語モデルのなかから適切な言語モデルを選択し、選択した言語モデルを混合して1つの言語モデルを生成して、言語モデルを入力音声に対して適応化する技術が開示されている。

先行技術

0006

WO2008/004666(図3

発明が解決しようとする課題

0007

上述の従来の音声認識装置において、入力音声に含まれる選択された言語モデルのいずれにも学習されていない単語連鎖は、混合した言語モデルにおいても未学習の単語連鎖であり、それらの未学習の単語系列が誤認識される可能性が依然として高いという問題点があった。

0008

この発明は上記のような問題点を解決するためになされたもので、音声認識結果の単語連鎖を学習してもともとの言語モデルに含まれていなかった単語連鎖のカバー率を向上することが可能な言語モデルを備えた音声認識装置を得ることを目的とする。

課題を解決するための手段

0009

この発明の音声認識装置は、混合言語モデルおよび混合言語モデルのNグラムの学習に用いられた例文に関する情報を記憶する第2言語モデル記憶部と、混合言語モデルを用いて、入力された音声信号を認識し第2の音声認識結果を出力する第2音声認識部と、他の音声認識部による入力された音声信号の第1の音声認識結果が入力され、この第1の音声認識結果の単語系列と混合言語モデルのNグラムの学習に用いられた例文に関する情報とに基づいて前記第2言語モデル記憶部に記憶された前記混合言語モデルにNグラムを追加するNグラム追加部と、を備えるようにしたものである。

0010

この発明の音声認識方法は、第1音声認識部が第1言語モデルを参照して入力された音声の音声認識を行う第1の音声認識手順と、第2音声認識部が混合言語モデルを参照して入力された音声の音声認識を行う第2の音声認識手順と、Nグラム追加部が第1音声認識手順による音声認識結果の単語系列と混合言語モデルのNグラムの学習に用いられた例文に関する情報に基づいて、混合言語モデルにNグラムを追加するNグラム追加手順と、を備えたるようにしたものである。

発明の効果

0011

上述のように、この発明に係る音声認識装置によれば、第1言語モデルの認識結果の単語系列に基づいて混合言語モデルである第2言語モデルを更新することにより、第2言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。
この発明に係る音声認識方法によれば、第1の音声認識手順による入力された音声の認識結果の単語系列に基づいて混合言語モデルである第2言語モデルを更新する手順を実施することにより、第2言語モデルを入力音声に適応させて入力音声に現れた単語連鎖のカバー率を向上し、音声認識性能を向上することができる。

図面の簡単な説明

0012

この発明の実施の形態1の音声認識装置の構成を示すブロック図である。
実施の形態1の音声認識装置の処理のフローチャートである。
実施の形態1の音声認識装置の第1音声認識部の認識結果の単語系列の例を示す図である。
実施の形態1の音声認識装置の第2音声認識部の更新前の学習例文情報の例を示す図である。
実施の形態1の音声認識装置の第2言語モデルの更新前のNグラムの例を示す図である。
実施の形態1の音声認識装置の第2音声認識部の更新後の学習例文情報の例を示す図である。
実施の形態1の音声認識装置の第2言語モデルの更新後のNグラムの例を示す図である。
実施の形態1の音声認識装置の動作例の更新後の第2言語モデルに基づく正解の単語系列の各単語の確率の例を示す図である。
実施の形態1の音声認識装置の動作例の更新後の第2言語モデルに基づく誤りを含む単語系列の各単語の確率の例を示す図である。
実施の形態1の文字列検索装置の更新後の第2言語モデルと第1言語モデルと更新前の第2言語モデルを混合した言語モデルの単語の確率の比較を示す図である。
実施の形態1において第2音声認識部の認識結果で第2言語モデルを更新する変形例の構成を示すブロック図である。
実施の形態1において第2音声認識部の認識結果で第2言語モデルを更新する場合の学習例文の例を示す図である。
実施の形態1において第2音声認識部の認識結果で更新した第2言語モデルの例を示す図である。
実施の形態1において第1音声認識部の認識結果で更新した場合と第2音声認識部の認識結果で更新した場合の第2言語モデルの単語の確率の比較を示す図である。
この発明の実施の形態2の音声認識装置の構成を示すブロック図である。
実施の形態2の音声認識装置の処理のフローチャートである。
実施の形態2の音声認識装置の第3音声認識部の認識結果の例を示す図である。
実施の形態2の音声認識装置のNグラム追加部が更新した学習例文の例を示す図である。
実施の形態2の音声認識装置の更新された第2言語モデルの例を示す図である。
実施の形態2の音声認識装置の更新された第2言語モデルの例を示す図である。
この発明の実施の形態3の音声認識装置の構成を示すブロック図である。
実施の形態3の音声認識装置の重み付けを行った学習例文情報の例を示す図である。
実施の形態3の音声認識装置の重み付けを行った学習例文情報の例を示す図である。

実施例

0013

以下この発明の実施の形態を、図を参照して説明する。なお、参照する図において同一もしくは相当する部分には同一の符号を付している。

0014

なお以下に示す動作の具体例は、音声認識処理を行う音声認識エンジンの一例として、オープンソースの大語彙連続音声認識エンジンであるJulius-4.2.2(http://julius.sourceforge.jp、以降ではJulius-4.2.2を単にJuliusとも表記する)を使用して行った実験結果を用いて説明する。
また、音響モデルは例えばJuliusディクテーション実行キットに含まれているhmmdefs_ptm_gid.binhmmを、言語モデルの更新処理におけるNグラム確率を求めるツール(以下言語モデル作成ツールと称す)は例えば教科書1に記載されたCMU-Cambridge統計的言語モデルツールキットを用いることができる。
なお、以下に示す実施の形態ではNグラムの次数が3(N=3)の場合について説明する。ただし、この発明はNグラムの次数を3に限定するものではなく、2グラムあるいは4以上の多次数のNグラムであっても良い。

0015

実施の形態1.
図1はこの発明の実施の形態1に係る音声認識装置の構成を示す図である。実施の形態1の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105、第2音声認識部106、第2言語モデル(混合言語モデル)記憶部107、第2音響モデル記憶部108で構成される。

0016

音声入力部101は、ユーザが発した音声をデジタル処理可能なデジタル音声信号に変換する。音声入力部101が出力するデジタル音声信号は第1音声認識部102および第2音声認識部106に入力される。
第1音声認識部102では入力されたデジタル音声信号について、第1音響モデル記憶部104に記憶された第1音響モデルと第1言語モデル記憶部103に記憶された第1言語モデルを参照して、音声認識を行う。第1音声認識部102は音声認識結果の単語系列(認識文)をNグラム追加部105に出力する。Nグラム追加部105は、入力された音声認識結果の単語系列からNグラムを抽出してそのNグラム確率を計算して、第2言語モデル記憶部107に記憶される第2言語モデルにNグラムを追加する。

0017

音声入力部101からデジタル音声信号を入力された第2音声認識部106は、第2言語モデル記憶部107に記憶された混合言語モデルである第2言語モデルと第2音響モデル記憶部108に記憶された第2音響モデルを参照して音声認識を行い、音声認識結果の単語系列を出力する。第2音声認識部106から出力された音声認識結果の単語系列は、例えば表示部109に表示されるなどの処理で使用される。

0018

上記において音響モデル(第1音響モデル、第2音響モデル)は、音素などの単位で音声の標準的な特徴量のパターンを保持するデータベースである。音声の特徴量としては、例えばMFCC(Mel Frequency Cepstrum Coefficient)やΔMFCCなどがある。音響モデルは音声認識処理において入力音声の特徴量と照合され、音素単位での入力音声の認識に用いられるものである。なお、ここでは第1音響モデルと第2音響モデルは双方とも一例として上述の同じ音響モデルを用いているが、第1音響モデルと第2音響モデルが互いに異なる音響モデルであっても良い。

0019

言語モデル(第1言語モデル、第2言語モデル)は、単語の連鎖に関する制約(単語連鎖の発生確率)を規定するデータベースであり、Nグラムモデルに基づいて構成されている。言語モデルは、音声認識処理において音響モデルを用いた音素レベルの認識結果に基づいてこれらの言語モデルが参照される。

0020

音声認識部(第1音声認識部102、第2音声認識部106)が行う音響モデルと言語モデルを参照して入力音声から認識文を得る処理は、周知の方法を適用すればよい。ここでは一例として上述の通りJuliusを使用するものとする。

0021

図1の音声入力部101は音声を収録するマイクロホンと、アナログ音声デジタルデータに変換するAD(Analog Digital)コンバーターなどの回路で構成することが可能である。また、第1音声認識部102、Nグラム追加部105、及び第2音声認識部106は、プロセッサとRAM(Random Access Memory)などの周辺回路およびプロセッサで実行されるソフトウェアで構成することが可能である。また、第1言語モデル記憶部103、第1音響モデル記憶部104、第2言語モデル記憶部107、第2音響モデル記憶部108はハードディスクなどの記憶装置で構成することが可能である。

0022

あるいはクライアントサーバ形式を採用して、例えば第1音声認識部102および、第1言語モデル記憶部103、第1音響モデル記憶部104をネットワーク経由でアクセス可能なサーバの機能として実現し、第2音声認識部106、第2言語モデル記憶部107、第2音響モデル記憶部108およびNグラム追加部105をクライアントの機能として実現するなどの構成にすることも可能である。

0023

ここで、音声認識部(第1音声認識部102、第2音声認識部106)が行う音声認識処理における尤度計算について説明する。今、単語系列Wが以下の数式1で定義するように、n個の単語w1からwnで構成されるものとする。このとき、単語系列Wの確率(尤度)は以下の数式2で表される。ここで、P(wi|wi-2,wi-1)は単語wi-2と単語wi-1に続いて単語wiが出現する確率(3次のNグラムにおけるNグラム確率)である。

0024

0025

0026

単語系列の確率は上記の数式2であるが、最も尤度の高い単語系列の判定では候補となる単語系列の確率の大小関係が比較できれば良い。このことから実際の処理では、以下の数式3に示すように、単語系列に含まれる各単語wiの確率(P(wi|wi-2,wi-1))を対数(対数確率と称す)にして、各単語系列の対数確率の総和X(W)を求め、各候補の単語系列のX(W)の比較する処理が行われる。

0027

0028

なお、上述の各単語の確率を与えるものが言語モデルである。以降では、言語モデルに基づく尤度を言語尤度と称する。

0029

音声認識処理では、上述の言語尤度と音響モデルに基づく尤度(音響尤度)を以下の数式4に従って加えた総合尤度f(h)で評価して、最尤の候補を音声認識結果とする。数式4においてhは音声認識結果の候補の単語系列、AC(h)は単語系列hに対する音響尤度、LM(h)は単語系列hに対する言語尤度、nは候補の単語系列の単語数である。また、LM_WEIGHTは言語モデル重み、LM_PENALTYは単語納入ペナルティである。なお、以下に示す動作具体例の説明ではそれぞれを8.0、-2.0とした場合の結果を用いている。

0030

0031

次に、この実施の形態の音声認識装置の動作について説明する。図2は実施の形態1の音声認識装置の処理フローを示す図である。なお、以下の動作説明では「しゅーずけーすからーこーどおねがいします」(表記は「シューズケースカラーコードお願いします」)という文が発話された場合を例に具体例を説明する。
まず音声入力部101がユーザの発した音声をアナログ電気信号に変換し(ST201)、そしてアナログの電気信号である入力音声をADコンバーターにより、デジタル情報に変換する(ST202)。

0032

次に、第1音声認識部102がこの入力音声のデジタル情報に基づいて音声認識を行う(ST203)。ST203の処理では、まず入力音声のデジタル情報から適当な時間間隔(例えば60ミリ秒ごと)で音声の特徴量の抽出を行う。そして、抽出した特徴量を用いて第1音響モデル記憶部104に記憶された第1音響モデルを参照し、音素レベルの認識を行って認識結果候補の単語系列とその単語系列の音響モデルに基づく音響尤度を求める。さらにこの認識結果候補の単語系列に基づいて第1言語モデル記憶部103に記憶された第1言語モデルを参照して言語モデルに基づく言語尤度を求め、上述の通り数式4に示した計算の結果により音響尤度と言語尤度を総合的に判断して、入力音声との照合の度合いが最も高い(すなわち最尤の)単語系列を認識文(第1の音声認識結果)として得る。

0033

Juliusにより上述の「しゅーずけーすからーこーどおねがいします」という音声入力の認識を行うと、図3に示す単語系列が認識結果として出力される。なお、ここでは第1言語モデルの一例として、情報処理学会の連続音声認識コンソーシアム2002年度版ソフトウェアのNP12y.60k.4.arpa(60K 単語N-gram,学習データ:毎日新聞社の新聞記事データ「CD-毎日新聞 91〜2002年版」,形態素解析:chasen 2.2.1 + ipadic 2.4.1,テキストサイズ:3.5億形態素,語彙サイズ:60156)を使用することとする。「カラーコード」はこの言語モデルには学習されておらず、この言語モデルにおいて未知語である。

0034

図3において、はそれぞれ文頭文末を示す記号である。また、例えば「し:シ:する:227」の「し」は認識した単語の表記を、「シ」は読みを、「する」は原形を、「227」は品詞を表すコード(品詞コード)をそれぞれ示している。すなわち認識結果の単語系列は「シューズケースから行動お願いします」である。この認識結果では「カラーコード」を「から行動」(から:カラ:から:63 行動:コードー:行動:505)に認識誤りが起こっている。これは、第1言語モデルでは「カラーコード」が未知語であり、類似した読みの対立候補が存在して、この対立候補が最尤と判断されてしまったためである。

0035

次に、Nグラム追加部105が第1音声認識部102の認識結果の単語系列に基づくNグラムを第2言語モデル記憶部107に記憶された第2言語モデルに追加する。ここで、第2言語モデルは第1言語モデルとは異なり特定分野の専門の例文からNグラムを学習した言語モデルとする。また、第2言語モデル記憶部107には学習に用いた例文(学習例文)を学習例文情報(Nグラムの学習に用いられた例文に関する情報)として記憶しているものとする。なお、この学習例文情報は第2言語モデル記憶部107とは別のRAM(Random Access Memory)などの記憶媒体(学習例文情報記憶部)に記憶するようにしても良い。また、この実施の形態では例文自体を学習例文情報としたが、例文に出現する各単語の出現回数の情報を学習例文情報にするなどNグラム確率の計算に用いることが可能な他の情報にすることも可能である。

0036

今、第2言語モデルには「シューズケース」、「カラーコード」の2つの例文からNグラムが学習されているものとする。図4に学習例文情報として記憶されたこの2つの例文を示す。図3と同様には文頭、は文末を示し、表記、読み、原形、品詞コードを表している。また、図5に第2言語モデルに学習されたこの2つの例文に係るNグラムを示す。今、Nグラムの次数はN=3であるので1グラム、2グラム、3グラムが学習されている。

0037

図5において例えば\1-gramsの4行目の「-0.9031カラーコード:カラーコード:カラーコード:507 0.0000」は、「カラーコード:カラーコード:カラーコード:507」がNグラム(「カラーコード」という1グラムで図3と同様の表記、読み、原形、品詞コードを示す)であり、「-0.9031」がこのNグラムの対数確率である。「0.0000」は、高次のNグラムが言語モデルに存在しない場合に、グッドチューリング推定法に基づくバックオフスムージングにより低次のNグラムの確率を用いてその存在しない高次のNグラムの確率を推定する処理で用いるバックオフ係数対数値である。
また、例えば\3-gramsの2行目の「-0.3010 カラーコード:カラーコード:カラーコード:507 」は、「 カラーコード:カラーコード:カラーコード:507 」がNグラム(「文頭、カラーコード、文末」という3グラム)であり、「-0.3010」がNグラム確率である。なお、次数が3のNグラムの言語モデルにおいて、3グラムを用いてより高次のNグラムの確率を推定することはないのでバックオフ係数は存在しない。

0038

ここで、バックオフ係数を用いて低次のNグラム確率から高次のNグラム確率を推定する処理を説明する。2次のNグラム確率を用いて3次のNグラム確率を推定する計算は以下に示す擬似的なプログラムコード擬似コード)で定義される。
P(wd3|wd1,wd2) = if(trigram exists) p_3(wd1,wd2,wd3)
else if(bigram wd1,wd2 exists) bo_wt_2(wd1,wd2) * P(wd3|wd2)
else P(wd3|wd2)
この擬似コードにおいて、wd1、wd2、wd3は単語を示している。P(wd3|wd1,wd2)は前述の通り、wd1、wd2の後にwd3が生成される確率(単語wd3の確率)である。P(wd3|wd2)も同様である。また、p_3(wd1,wd2,wd3)は単語列wd1,wd2,wd3の3グラムの確率である。bo_wt_2(wd1,wd2)は単語列wd1,wd2の2グラムのバックオフ係数である。
つまり、単語列wd1,wd2,wd3の3グラムが言語モデルに存在する場合はその3グラムの確率が単語wd3の確率となる。単語列wd1,wd2,wd3の3グラムが存在せず、単語列wd1,wd2の2グラムが存在する場合は、単語列wd1,wd2の2グラムのバックオフ係数とP(wd3|wd2)の積が単語wd3の確率となる。単語列wd1,wd2の2グラムも存在しない場合にはP(wd3|wd2)が単語wd3の確率となる。

0039

同様に、1次のNグラム確率を用いて2次のNグラム確率を推定する計算は以下に示す擬似コードで定義される。
P(wd2|wd1) = if(bigram exists) p_2(wd1,wd2)
else bo_wt_1(wd1)*p_1(wd2)
ここで、p_2(wd1,wd2)は単語列wd1,wd2の2グラムの確率であり、p_1(wd2)は単語列wd2の1グラムの確率である。また、bo_wt_1(wd1)は単語列wd1の1グラムのバックオフ係数である。
なお、上記の擬似コードでは積を求めるように定義されているが、対数確率で計算をする場合には積ではなく和を計算する。

0040

第2言語モデルへの第1音声認識部102の認識結果の単語系列の追加処理では、まずNグラム追加部105が学習例文に第1音声認識部102の認識結果の単語系列を加えて学習例文を更新する(ST204)。上述のように「しゅーずけーすからーこーどおねがいします」という音声入力について第1音声認識部102が「シューズケースから行動お願いします」と認識したとき、図4に示した学習例文にこの認識結果の単語系列が追加される。第1音声認識部102の認識結果の単語系列である「シューズケースから行動お願いします」が追加された学習例文情報を図6に示す。「シューズケースから行動お願いします」に対応した「シューズ:シューズ:シューズ:507ケース:ケース:ケース:507 から:カラ:から:63 行動:コードー:行動:505 お願い:オネガイ:お願い:505 し:シ:する:227 ます:マス:ます:146 」が追加されている。

0041

次に、Nグラム追加部105はこの更新した学習例文に基づいてNグラム確率を算出し(ST205)、算出したNグラム確率により第2言語モデル記憶部107に記憶された第2言語モデルを更新する(ST206)。図7に更新後の第2言語モデルを示す。なお、Nグラム確率の計算は上述の言語モデルツールキットを用いて行った。図7において、例えば\3-gramsでは、1行目の「-0.4771カラーコード:カラーコード:カラーコード:507」では、Nグラム確率が図5に示した更新前の-0.3010から-0.4771に更新されている。また、6行目の「-0.3010 お願い:オネガイ:お願い:505 し:シ:する:227 ます:マス:ます:146」など図5に示した更新前の第2言語モデルには存在しなかったNグラムが第1音声認識部102の認識結果の単語系列に基づいて新たに追加されている。

0042

次に、第2音声認識部106が音声認識を行う(ST207)。ST207の処理では、第1音声認識部102と同様に入力音声のデジタル情報から音声の特徴量の抽出し、抽出した特徴量に基づいて第2音響モデル記憶部108に記憶された第2音響モデルおよび第2言語モデル記憶部107に記憶された第2言語モデル(混合言語モデル)を参照して、最尤の単語系列を認識文(第2の音声認識結果)として得る。

0043

ここで、図8を参照してこの第2音声認識部106が行う音声認識処理における尤度計算の具体例を説明する。なお、図8では表を見やすくするために単語の表記のみを記載し、読みや原形等は省略した形式で表現している。図9図10図14も同様である。
尤度計算で用いられる単語の確率は最も次数の高いNグラムの値を採用する。例えば文頭の確率であるP( |)の場合、前接の単語が無いので次数は1グラムであり、図7の\1-gramsの「」の値-0.6368を採用する。また文頭に続くシューズケースの確率であるP(シューズケース | )の場合は、2グラムであるので\2-gramsの「 シューズケース:シューズケース:シューズケース:507」の値-0.5441を対数確率として採用する。

0044

次のP(カラーコード| ,シューズケース)は3グラムであるが\3-gramsに対応するものが無いので、前述のバック・スムージングによりNグラム確率を推定する。\2-gramsに「 シューズケース:シューズケース:シューズケース:507」があるのでこの2グラムのバックオフ係数を使用する。ただし、\2-gramsに「シューズケース:シューズケース:シューズケース:507 カラーコード:カラーコード:カラーコード:507」の2グラムが存在しないのでこの2グラムの確率も同様にバック・スムージングにより推定する。
具体的な推定値の計算は、bo_wt_2(,シューズケース:シューズケース:シューズケース:507)+bo_wt_1(シューズケース:シューズケース:シューズケース:507)+p_1(カラーコード:カラーコード:カラーコード:507)=(0.1761)+(-0.4046)+(-1.2109)=-1.4394となる。以上により推定値-1.4394を対数確率として採用する。同様にしてすべての単語の対数確率を取得し、この各単語の対数確率を用いて上述の数式3により正解の単語系列である「シューズケースカラーコードお願いします」の言語モデルに基づく尤度を計算すると、図8の表に示すように(-0.6368)+(-0.5441)+(-1.4394)+(-1.6155)+(-0.1761)+(-0.301)+(-0.301)=-5.0139となる。

0045

今回使用した音響モデルにおける正解の単語系列の音響尤度は-9118.412109であり、上述の数式4に基づいて正解の単語系列「シューズケースカラーコードお願いします」の総合尤度は、-9118.412109+(-5.0139×8.0)+(-2.0×7)=-9172.52と算出できる。

0046

第1音声認識部102の認識結果として出力された単語系列は誤認識を含んだまま第2言語モデルに混合されており、誤認識された単語を含む単語系列が最尤と判定されてしまうと認識性能を向上することができない。
しかし、誤りを含む単語系列「シューズケースから行動お願いします」の音響尤度は-9133.199219であり、また言語尤度は図9に示す表の通り(-0.6368)+(-0.5441)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)+(-0.301)=-3.2879であるので、総合尤度は-9133.199219+(-3.2879×8.0)+(-2.0×9)=-9177.5となる。従って誤りを含む単語系列の総合尤度よりも正解の単語系列の総合尤度の方が高いことから、この誤りを含む単語系列は棄却され、正解の単語系列を音声認識結果として得ることができる。

0047

次に、第1言語モデルと更新前の第2言語モデルを単純に混合して得られる言語モデル(単純混合モデルと称する)と、上記で説明したこの実施の形態の更新後の第2言語モデルの比較を示す。図10に正解の単語系例「シューズケースカラーコードお願いします」についての単純混合言語モデルとこの実施の形態の更新後の第2言語モデルのそれぞれに基づく各単語の確率とNグラムの次数と言語尤度を示す。単純混合言語モデルではX(W)=-11.91879であるのに対し更新後の第2言語モデルではX(W)=-5.0139であるので、更新後の第2言語モデルの方が同じ単語系列に関して言語尤度が高くなっている。これは、第1音声認識部102の認識結果の単語系列を学習例文に加えて第2言語モデルを更新したことによる効果である。音声認識処理において言語尤度が高い更新後の第2言語モデルを使用する方が認識誤りを起こす可能性が低く、認識性能を向上することができる。

0048

なお、この実施の形態では第1音声認識部102の認識結果を第2言語モデルに追加混合したが、図11に示すようにNモデル追加部105cが第2音声認識部106の認識結果に基づいて学習例文を更新し、更新した学習例文に基づいて第2言語モデルにNグラムを追加する構成にしてもよい。このとき、第1音声認識部102の認識結果と第2音声認識部106の認識結果が異なる場合は、第1音声認識部102の認識結果を棄却し、第2音声認識部106の認識結果を採用するようにしてもよい。第2音声認識部106の認識結果を学習例文に追加した場合の学習例文を図12に、このときの言語モデルを図13に示す。また、図14に第1音声認識部102の認識結果を学習した場合と、第2音声認識部106の認識結果を学習した場合との正解の単語系列に対する対数確率と適用されるNグラム次数の比較を示す。第2音声認識部102の認識結果を学習した場合の対数確率の合計は-2.5464となっており第1音声認識部106の認識結果を学習した場合よりも言語尤度が向上している。

0049

上述のように、第2言語モデルに第1言語モデルの認識結果の単語系列を追加混合するNグラム追加部を備えることにより、第1言語モデルの認識結果の単語系列により第2言語モデルを入力音声に適応させて、第2言語モデルの入力音声に現れた単語連鎖のカバー率を向上し、音声認識装置の音声認識性能を向上することが可能である。

0050

また、この実施の形態では第1音声認識器と第2音声認識器は別個のものとしたが、同じ1つの音声認識器を用いても良い。また、第1言語モデルと第2言語モデルをそれぞれ第1言語モデル記憶部と第2言語モデル記憶部に記憶された別の言語モデルとしていたが、同じ言語モデル記憶部に記憶された一つの言語モデルにしてもよい。このとき、例えば発話が「音声認識」であり、もともとの言語モデルには1グラムの「音声」と「認識」のみが存在した場合、「音声認識」が学習され、「音声」,「音声認識」、「認識」の2グラムが学習されることとなり音声認識性能を向上することができる。

0051

実施の形態2.
実施の形態1は、1つの音声認識結果を混合言語モデルに追加するようにしたものであったが、次に2つの音声認識器から得た2つの音声認識結果を混合言語モデルに追加する実施の形態を示す。
図15はこの発明の実施の形態2に係る音声認識装置の構成図である。実施の形態2の音声認識装置は、音声入力部101、第1音声認識部102、第1言語モデル記憶部103、第1音響モデル記憶部104、Nグラム追加部105b、第2音声認識部106、第2言語モデル記憶部107b、第2音響モデル記憶部108、第3音声認識部112、第3言語モデル記憶部113、第3音響モデル記憶部114で構成される。実施の形態1と同じ符号を付した部分は実施の形態1と同様であるので説明を省略する。

0052

第3音声認識部112は第1音声認識部102、第2音声認識部106と同様に、第3言語モデル記憶部113に記憶された第3言語モデル、第3音響モデル記憶部114に記憶された第3音響モデルを参照して音声認識処理を行う。第3言語モデル記憶部113に記憶された第3言語モデルは、実施の形態1の第2言語モデルと同様の特定分野の専門の学習例文から学習された言語モデルとする。

0053

Nグラム追加部105bは第1音声認識部102の認識結果の単語系列および第3音声認識部112の認識結果の単語系列に基づいて、第2言語モデル記憶部107bに記憶された第2言語モデルにNグラムを追加する。第2言語モデル記憶部107bに記憶された第2言語モデルは実施の形態1と同様に第2音声認識部106が参照する言語モデルである。ただし、この言語モデルはNグラム追加部105bによって追加されるNグラムを記憶するための言語モデルであり、初期状態ではNグラムは学習されておらず、学習例文も記憶されていない。

0054

次に実施の形態2の音声認識装置の動作を実施の形態1との差分を中心に動作に説明する。図16は実施の形態2の音声認識装置の処理フローである。この実施の形態の特徴は図16に示したST208とST204bの処理である。その他の処理は実施の形態1と同様である。ST208の処理で第3音声認識部112は第1音声認識部102と同様の処理により、第3音響モデル記憶部114に記憶された第3音響モデルと第3言語モデル記憶部113に記憶された第3言語モデルを参照して認識結果の単語系列(第3の音声認識結果)を得る。第1音声認識部102による認識結果の単語系列と第3音声認識部112の認識結果の単語系列はNグラム追加部105bに出力される。

0055

Nグラム追加部105bは、受信した第1音声認識部102による認識結果の単語系列と第3音声認識部112の認識結果の単語系列から学習例文を作成する(ST204b)。なお、この学習例文は記憶しておき、以降の別の音声入力の音声認識の際にはこの記憶していた学習例文を更新する。

0056

実施の形態1と同様に「しゅーずけーすからーこーどおねがいします」という音声が入力された場合を例にして具体的な動作を説明する。第1音声認識部102の認識結果は実施の形態1で示した図3と同様の単語系列となる。また、第3音声認識部112の認識結果は図17に示す通りとなる。これらに基づいてNグラム追加部105bは学習例文を作成する。図18に作成された学習例文を示す。

0057

Nグラム追加部105bは図18に示した学習例文からNグラム確率を求め、図19図20に示すNグラムを第2言語モデルに追加する。次に、第2音声認識部106がこの新たに学習されたNグラムを有する第2言語モデルを参照して音声認識をすることにより、実施の形態1の場合と同様に正しい音声認識結果を得ることができる。

0058

以上のように、第1音声認識器の出力する単語系列と第3音声認識器の出力する単語系列から混合言語モデルを生成するようにしているので、カバー率を改善する効果を損なうことなく、混合言語モデルをコンパクトにすることができる。これは、第2音声認識器をモバイル端末などの小型機器で実施する場合に特に有効である。

0059

上述の実施の形態2では第1言語モデルを用いて音声認識を行う第1音声認識部の認識結果と、第3言語モデルを用いて音声認識を行う第3音声認識部の認識結果の2つの認識結果により混合言語モデルを更新したが、さらに多くの言語モデルおよび音声認識部を備えて、それらの音声認識部の認識結果を加えて混合言語モデルを更新するようにしても良い。また、実施の形態1に示したように第2音声認識部の認識結果に基づいて第2言語モデルを更新するように構成しても良い。

0060

実施の形態3.
実施の形態2では、第2言語モデルへのNグラムの追加時にそれぞれの音声認識部が出力する認識結果の単語列を同じ重みで混合して第2言語モデルを生成する構成であった。この実施の形態では、音声認識部毎に重み付け(混合重み)をし、混合重みを変化させた1個以上の第2言語モデルを生成して、すべての組み合わせのうち最尤の認識結果を出力するようにする。

0061

基本的な構成は実施の形態2と同様であるので、重み付けを行った混合言語モデルの生成と、複数の混合言語モデルを用いた認識結果の比較を中心に説明する。なお、以下の説明では3個の混合言語モデルを備える場合を例に説明するが、混合言語モデルの個数は1個あるいは2個でも良いし、また4個以上であってもよい。ただし、混合言語モデルが1この場合には、認識結果を比較する処理は不要である。

0062

図21はこの実施の形態の音声認識装置の構成を、第1音声認識部102、第3音声認識部112、Nグラム追加部105d、第2言語モデル記憶部107dおよび第2音声認識部106dに注目して示した機能ブロック図である。図21においてλ(0≦λ≦1)は第1音声認識部102の認識結果と第3音声認識部112の認識結果に重み付けをする係数である。ここでは、λが第1音声認識部102の認識結果に対する重みであり、(1−λ)が第3音声認識部112の認識結果に対する重みであるものとする。
なお、λの値はそれぞれの第2言語モデルに対応して予め定められているものとする。ここではλ=2/3、λ=1/2,λ=1/3の3種類とし、それぞれ図21に示す第2言語モデルA、第2言語モデルB、第2言語モデルCに対応するものとする。

0063

次に動作を説明する。Nグラム追加部105dはλおよび1−λに基づいて重み付けを行った学習例文を作成してそれぞれの学習例文に基づいて第2言語モデルA、第2言語モデルB、第2言語モデルCを作成する。
λ=1/2の場合の学習例文は図17に示した学習例文と同様である。λ=2/3の場合は図22に示すように、第1音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。反対にλ=1/3の場合には図23に示すように、第3音声認識部の認識結果の単語系列が第3音声認識部の認識結果の単語系列の2倍になるようにして学習例文を生成する。このようにλ:1-λと同等の比になるように第1音声認識部の認識結果の単語系列と第3音声認識部の認識結果の単語系列を含む学習例文を生成してそれぞれに対応した第2言語モデルA、第2言語モデルB、第2言語モデルCを作成する。
このように第2言語モデルを作成することにより、第2言語モデルに追加するNグラムの確率にそのNグラムの元となった例文を出力した音声認識部に対応した重み付けをすることができる。

0064

第2音声認識部106dは実施の形態1、実施の形態2と同様の処理で第2言語モデルA、第2言語モデルB、第2言語モデルCそれぞれを参照して認識結果となる単語系列を取得し、これらの単語系列を以下の数式5を用いて比較して、最尤のものを認識結果の単語系列として出力する。なお、数式5においてhA,hB,hCはそれぞれ第2言語モデルA、第2言語モデルB、第2言語モデルCを参照した音声認識処理で得られる単語系列、AC(hA),AC(hB),AC(hC)は単語系列hA,hB,hCに対する音響尤度、LM(hA),LM(hB),LM(hC)は単語系列hA,hB,hCに対する言語尤度、nA,nB,nCはそれぞれ単語系列hA,hB,hCの単語数である。また、LM_WEIGHTは言語モデル重み、LM_PENALTYは単語納入ペナルティである。

0065

0066

以上のようにすることにより、入力音声に現れた単語連鎖のカバー率を向上し、音声認識装置の音声認識性能を向上するとともに、適切な言語モデルの混合比による音声認識結果が得られる効果がある。
なお、実施の形態1において第1音声認識部の認識結果の単語系列を第2言語モデルに追加するときに重み付けをすることも可能である。

0067

なお、以上に述べた実施の形態では最尤解を混合の対象としたが、複数の候補を選ぶNベスト解を用いるようにしても良い。また、第1音声認識部、第2音声認識部、第3音声認識部で認識した単語系列を形態素解析した結果に基づいて混合言語モデルを更新するようにしても良い。また、第1言語モデルと第2言語モデルもしくは第3言語モデルで形態素単位が異なるようにしても良い。

0068

101音声入力部、102 第1音声認識部、103 第1言語モデル記憶部、104 第1音響モデル記憶部、105,105b,105c,105d Nグラム追加部、106,106d 第2音声認識部、107,107b,107d 第2言語モデル記憶部、108 第2音響モデル記憶部、109 表示部、112 第3音声認識部、113 第3言語モデル記憶部、114 第3音響モデル記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ