図面 (/)

技術 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム

出願人 日本電信電話株式会社
発明者 河内祐太政瀧浩和浅見太一
出願日 2016年4月15日 (3年8ヶ月経過) 出願番号 2016-081898
公開日 2017年10月19日 (2年2ヶ月経過) 公開番号 2017-191278
状態 特許登録済
技術分野 音声認識
主要キーワード 誤り頻度 追加装置 検定値 書記素 誤り傾向 音素変換 獲得装置 ヒューリスティクス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年10月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

非ネイティブ発話に対する音声認識精度を向上する。

解決手段

非ネイティブ音素頻度集計部20は、非ネイティブ発話の音声音素認識した非ネイティブ音素認識結果を非ネイティブ発話の音素書起した非ネイティブ音素書起しと比較して、音素ペア毎に音素誤り頻度を集計する。ネイティブ音素頻度集計部21は、ネイティブ発話の音声を音素認識したネイティブ音素認識結果をネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素ペア毎に音素誤り頻度を集計する。音素誤り獲得部22は、非ネイティブ発話の音素誤り頻度とネイティブ発話の音素誤り頻度とを比較して、音素ペア毎に、非ネイティブ発話がネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する。

概要

背景

非ネイティブ話者音素誤り傾向音声データから獲得する技術として、いくつかの方法が知られている。そのような技術は、ルールを直接利用するアプローチと、データからルールを獲得するアプローチとに大きく分類される。データから獲得するアプローチとしては、例えば、非特許文献1に記載された技術が挙げられる。非特許文献1に記載の技術は、非ネイティブ話者による発話音素認識し、標準的な発音系列と比較することで音素変換ルールを導出するものである。

概要

非ネイティブ発話に対する音声認識精度を向上する。非ネイティブ音素頻度集計部20は、非ネイティブ発話の音声を音素認識した非ネイティブ音素認識結果を非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素ペア毎に音素誤り頻度を集計する。ネイティブ音素頻度集計部21は、ネイティブ発話の音声を音素認識したネイティブ音素認識結果をネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素ペア毎に音素誤り頻度を集計する。音素誤り獲得部22は、非ネイティブ発話の音素誤り頻度とネイティブ発話の音素誤り頻度とを比較して、音素ペア毎に、非ネイティブ発話がネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する。

目的

この発明の目的は、上記のような点に鑑みて、認識時間の増大や認識精度の悪化を抑えながら、発音辞書へ非ネイティブ発話の音素変動規則を追加することができる音声認識技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

非ネイティブ発話音声音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度集計する非ネイティブ音素頻度集計部と、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、を含む音素誤り獲得装置

請求項2

請求項1に記載の音素誤り獲得装置であって、上記非ネイティブ音素頻度集計部は、上記非ネイティブ音素認識結果を上記非ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつ非ネイティブ音素混同行列を生成するものであり、上記ネイティブ音素頻度集計部は、上記ネイティブ音素認識結果を上記ネイティブ音素書起しと比較して、各音素ペアの音素誤り頻度を値にもつネイティブ音素混同行列を生成するものであり、上記音素誤り獲得部は、上記非ネイティブ音素混同行列と上記ネイティブ音素混同行列とをそれぞれ頻度分布とみなして、上記音素ペア毎に検定値を算出し、その検定値を音素ペアに付与した音素誤りを獲得するものである、音素誤り獲得装置。

請求項3

請求項1または2に記載の音素誤り獲得装置により生成された音素誤りを記憶する音素誤り記憶部と、各単語に標準的な読みを表す音素列が付与されたネイティブ発音辞書を記憶する発音辞書記憶部と、上記発音辞書に含まれる単語のうち上記音素誤りに含まれる音素書起しの音素を含む単語について、上記単語に付与された音素列に含まれる音素書起しの音素を上記音素誤りに含まれる音素認識結果の音素に置換した変動読みを上記発音辞書へ追加して非ネイティブ発音辞書を生成する複数読み追加部と、を含む辞書追加装置

請求項4

請求項3に記載の辞書追加装置により生成された非ネイティブ発音辞書を記憶する発音辞書記憶部と、上記非ネイティブ発音辞書を用いて入力音声音声認識音声認識結果を出力する音声認識部と、を含む音声認識装置

請求項5

非ネイティブ音素頻度集計部が、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を上記非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、ネイティブ音素頻度集計部が、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果を上記ネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計し、音素誤り獲得部が、上記非ネイティブ発話の音素誤り頻度と上記ネイティブ発話の音素誤り頻度とを比較して、上記音素ペア毎に、上記非ネイティブ発話が上記ネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する、音素誤り獲得方法

請求項6

発音辞書記憶部に、非ネイティブ発音辞書が記憶されており、音声認識部が、上記非ネイティブ発音辞書を用いて入力音声を音声認識し音声認識結果を出力し、上記非ネイティブ発音辞書は、各単語に標準的な読みを表す音素列が付与されたネイティブ発音辞書に含まれる単語のうち請求項5に記載の音素誤り獲得方法により生成された音素誤りに含まれる音素書起しの音素を含む単語について、上記単語に付与された音素列に含まれる音素書起しの音素を上記音素誤りに含まれる音素認識結果の音素に置換した変動読みを上記発音辞書へ追加して生成したものである、音声認識方法

請求項7

請求項1または2に記載の音素誤り獲得装置としてコンピュータを機能させるためのプログラム

請求項8

請求項4に記載の音声認識装置としてコンピュータを機能させるためのプログラム。

技術分野

0001

この発明は、非ネイティブ話者音声を認識する音声認識技術に関する。

背景技術

0002

非ネイティブ話者の音素誤り傾向を音声データから獲得する技術として、いくつかの方法が知られている。そのような技術は、ルールを直接利用するアプローチと、データからルールを獲得するアプローチとに大きく分類される。データから獲得するアプローチとしては、例えば、非特許文献1に記載された技術が挙げられる。非特許文献1に記載の技術は、非ネイティブ話者による発話音素認識し、標準的な発音系列と比較することで音素変換ルールを導出するものである。

先行技術

0003

Kim, Mina, Yoo Rhee Oh, and Hong Kook Kim, "Non-native pronunciation variation modeling using an indirect data driven method." Automatic Speech Recognition & Understanding, 2007.ASRU.IEEE Workshop on. IEEE, 2007.

発明が解決しようとする課題

0004

非ネイティブ話者による発話を音素認識し、その音素認識結果を別の標準的な音素系列と比較することによって、非ネイティブ発話の音素変動規則を獲得することができる。しかしながら、音素認識の誤りを音素変動規則として誤って獲得してしまうことや、ネイティブ話者読み誤りやすいパターンを獲得してしまうこともある。そのため、従来の方法では、獲得される音素変動規則の数が膨大になるという課題があった。

0005

実際に音素変動規則を音声認識で利用するとき、単語の読みを記載した発音辞書に音素変動規則を追加することによって、非ネイティブ話者に特有読み方カバーすることができる。しかしながら、認識候補パターンの増大による認識時間の増大や紛らわしい認識候補パターンの増大による認識精度の悪化は避けられない。また、非ネイティブ性に由来する誤りは、基本的に外国語習熟度等に依存する音素の置換、挿入、削除等の音素誤りであり、他の誤りとは異なり、発音辞書へ非ネイティブ発話の音素変動規則を追加する以外の方法でこれに対処することは困難である。

0006

この発明の目的は、上記のような点に鑑みて、認識時間の増大や認識精度の悪化を抑えながら、発音辞書へ非ネイティブ発話の音素変動規則を追加することができる音声認識技術を提供することである。

課題を解決するための手段

0007

上記の課題を解決するために、この発明の第一の態様の音素誤り獲得装置は、非ネイティブ発話の音声を音素認識した音素認識結果である非ネイティブ音素認識結果を非ネイティブ発話の音素を書起した非ネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度集計する非ネイティブ音素頻度集計部と、ネイティブ発話の音声を音素認識した音素認識結果であるネイティブ音素認識結果をネイティブ発話の音素を書起したネイティブ音素書起しと比較して、音素認識結果の音素と音素書起しの音素との音素ペア毎に音素誤り頻度を集計するネイティブ音素頻度集計部と、非ネイティブ発話の音素誤り頻度とネイティブ発話の音素誤り頻度とを比較して、音素ペア毎に、非ネイティブ発話がネイティブ発話より誤りやすい程度を示す情報を生成し、その情報を音素ペアに付与した音素誤りを獲得する音素誤り獲得部と、を含む。

0008

この発明の第二の態様の辞書追加装置は、第一の態様の音素誤り獲得装置により生成された音素誤りを記憶する音素誤り記憶部と、各単語に標準的な読みを表す音素列が付与された発音辞書を記憶する発音辞書記憶部と、発音辞書に含まれる単語のうち音素誤りに含まれる音素書起しの音素を含む単語について、単語に付与された音素列に含まれる音素書起しの音素を音素誤りに含まれる音素認識結果の音素に置換した変動読みを発音辞書へ追加して非ネイティブ発音辞書を生成する複数読み追加部と、を含む。

0009

この発明の第三の態様の音声認識装置は、第二の態様の辞書追加装置により生成された非ネイティブ発音辞書を記憶する発音辞書記憶部と、非ネイティブ発音辞書を用いて入力音声を音声認識し音声認識結果を出力する音声認識部と、を含む。

発明の効果

0010

この発明の音声認識技術によれば、非ネイティブ発話の音素誤りのうち、非ネイティブ性に由来するもののみを、ネイティブ発話との異なりが大きい順に獲得することができる。これにより、認識候補パターンの増大による認識時間の増大や紛らわしい候補の増大による認識精度の悪化を抑えながら、非ネイティブ発話に対する音声認識精度を向上することができる。

図面の簡単な説明

0011

図1は、音素認識装置機能構成を例示する図である。
図2は、音素認識方法の処理手続きを例示する図である。
図3は、音素誤り獲得装置の機能構成を例示する図である。
図4は、音素誤り獲得方法の処理手続きを例示する図である。
図5は、音素誤り獲得部のデータフローを説明するための図である。
図6は、辞書追加装置の機能構成を例示する図である。
図7は、辞書追加方法の処理手続きを例示する図である。
図8は、音声認識装置の機能構成を例示する図である。
図9は、音声認識方法の処理手続きを例示する図である。

実施例

0012

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

0013

最初に、この発明の基本的な考え方を説明する。前提として、学習用の各音声に対して標準発音系列が与えられているものとする。標準発音系列は、例えば、人手による単語書起しをネイティブ話者による標準的な発音で音素に変換した系列である。まず、非ネイティブ音声とネイティブ音声それぞれで音響モデルを学習し、非ネイティブ音声とネイティブ音声をそれぞれに対応する音響モデルを用いて音素認識する。次に、それぞれの音素認識結果と標準発音系列とをDPマッチング等で対応を取り、それぞれの標準発音系列と音素認識結果の音素ペア毎に出現回数を集計した頻度値行列を作成する。以下、この行列を音素混同行列と呼ぶ。ネイティブ音声の音素誤り傾向と非ネイティブ音声の音素誤り傾向を比較するため、ネイティブ音声と非ネイティブ音声それぞれに対応する2つの音素混同行列に対してカイ2乗検定を実施し、カイ2乗値の大きい順に音素ペアを獲得する。これにより、ネイティブ話者と非ネイティブ話者の双方で間違えやすい音素や、収録環境に由来する誤認識キャンセルされ、ネイティブ話者とは誤り傾向が異なる、非ネイティブ話者が間違えやすい音素誤りのみを抽出することができる。

0014

この発明の実施形態は以下の4つの装置から構成される音声認識システムである。第一の装置は、ネイティブ発話の音声と非ネイティブ発話の音声とを用いて音響モデルを学習し、その音響モデルを用いてネイティブ発話の音声と非ネイティブ発話の音声それぞれの音素認識結果を得る音素認識装置である。第二の装置は、ネイティブ発話と非ネイティブ発話それぞれの音素認識結果を標準音素系列と比較して、ネイティブ発話と比べて非ネイティブ発話で誤り率が高い音素誤りを獲得する音素誤り獲得装置である。第三の装置は、音素誤り獲得装置で獲得された音素誤りに基づいて発音辞書へ変動読みを追加する辞書追加装置である。第四の装置は、辞書追加装置により変動読みを追加された発音辞書を用いて音声認識を行う音声認識装置である。

0015

これらの装置は必ずしも4台で構成されるものではなく、各処理部を配置する装置を変更することで任意に装置構成を変更することができる。例えば、音素認識装置の各処理部を音素誤り獲得装置が備えるように構成し、音響モデルの学習から音素誤りの獲得までを一台で実行する音素誤り獲得装置として構成することができる。また、例えば、辞書追加装置の各処理部を音声認識装置が備えるように構成し、変動読みの追加から音声認識までを一台で実行する音声認識装置として構成することができる。また、例えば、音素認識装置、音素誤り獲得装置、および単語追加装置の各処理部を音声認識装置が備えるように構成し、音響モデルの学習から音声認識までを一台で実行する音声認識装置として構成することができる。

0016

実施形態の音素認識装置、音素誤り獲得装置、辞書追加装置、および音声認識装置の各装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。各装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。各装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、各装置が備える各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。各装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスク光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースキーバリューストアなどのミドルウェアにより構成することができる。

0017

<音素認識装置>
実施形態の音素認識装置は、図1に示すように、非ネイティブ書記素音素変換部10、ネイティブ書記素音素変換部11、非ネイティブ音素書起し記憶部12、ネイティブ音素書起し記憶部13、非ネイティブ音響モデル学習部14、ネイティブ音響モデル学習部15、非ネイティブ音響モデル記憶部16、ネイティブ音響モデル記憶部17、非ネイティブ音素認識部18、およびネイティブ音素認識部19を含む。この音素認識装置が図2に示す各ステップの処理を行うことにより実施形態の音素認識方法が実現される。

0018

非ネイティブ書記素音素変換部10とネイティブ書記素音素変換部11、非ネイティブ音響モデル学習部14とネイティブ音響モデル学習部15、非ネイティブ音素認識部18とネイティブ音素認識部19は、それぞれ処理対象とする情報が非ネイティブ発話の音声に由来するものかネイティブ発話の音声に由来するものかが異なるだけで、処理内容は同一である。そのため、それぞれを独立の処理部として備えずに、例えば、書記素音素変換部、音響モデル学習部、および音素認識部を一組だけ備え、各処理部では、非ネイティブ発話の音声に由来する情報とネイティブ発話の音声に由来する情報の双方を入力し、それぞれ独立に処理するように構成することも可能である。

0019

非ネイティブ音素書起し記憶部12、ネイティブ音素書起し記憶部13、非ネイティブ音響モデル記憶部16、およびネイティブ音響モデル記憶部17は、必ずしも音素認識装置が備える必要はなく、これらに記憶すべき情報を記憶部に記憶することなく、次の処理を行う処理部へ直接入力されるように構成してもよい。

0020

以下、図2を参照して、実施形態の音素認識方法の処理手続きを説明する。

0021

ステップS10において、非ネイティブ書記素音素変換部10は、非ネイティブ単語書起しを入力とし、非ネイティブ音素書起しを生成する。非ネイティブ単語書起しは、非ネイティブ発話の音声データを、単語、文字、書記素等の単位で書起した情報である。非ネイティブ音素書起しは、非ネイティブ単語書起しを発音記号や音素記号等の音を表す単位に変換した情報である。生成した非ネイティブ音素書起しは、非ネイティブ音素書起し記憶部12に記憶される。書き起こされた書記素を音素に変換する手法は、従来から用いられている技術や、あらかじめ定めたルール等を用いることができる。書記素を音素に変換する公知の技術としては、例えば、下記参考文献1に記載のものが挙げられる。
〔参考文献1〕Maximilian Bisani, Hermann Ney, "Joint-sequence models for grapheme-to-phoneme conversion", Speech Communication, vol. 50(5), pp. 434-451, 2008

0022

ステップS11において、ネイティブ書記素音素変換部11は、ネイティブ単語書起しを入力とし、ネイティブ音素書起しを生成する。生成したネイティブ音素書起しは、ネイティブ音素書起し記憶部13に記憶される。単語書起しを音素へ変換する方法は、非ネイティブ書記素音素変換部10と同様の方法により行えばよい。

0023

ステップS14において、非ネイティブ音響モデル学習部14は、非ネイティブ発話の音声データと、非ネイティブ音素書起し記憶部12に記憶された非ネイティブ音素書起しを入力とし、音声データと音素書起しのペアから音響モデルを学習し、非ネイティブ音響モデルを生成する。学習した非ネイティブ音響モデルは、非ネイティブ音響モデル記憶部16へ記憶される。学習する音響モデルは、公知の音声認識技術で用いられる、GMM−HMM(Gaussian Mixture Model - Hidden Markov Model)やDNN−HMM(Deep Neural Network - Hidden Markov Model)等を用いることができる。

0024

ステップS15において、ネイティブ音響モデル学習部15は、ネイティブ発話の音声データと、ネイティブ音素書起し記憶部13に記憶されたネイティブ音素書起しを入力とし、音声データと音素書起しのペアから音響モデルを学習し、ネイティブ音響モデルを生成する。学習したネイティブ音響モデルは、ネイティブ音響モデル記憶部17へ記憶される。音響モデルの学習は、非ネイティブ音響モデル学習部14と同様の方法により行えばよい。

0025

ステップS18において、非ネイティブ音素認識部18は、非ネイティブ発話の音声データを入力とし、非ネイティブ音響モデル記憶部16に記憶された非ネイティブ音響モデルと、非ネイティブ音素書起しと同じ単位で作成した音素BNF(Backus Nauer Form)とを用いて、非ネイティブ発話の音声データを音素認識し、非ネイティブ音素認識結果を生成する。このとき、入力される非ネイティブ発話の音声データは、非ネイティブ音響モデルの学習に用いた音声データとは異なるものを利用する。生成した非ネイティブ音素認識結果は、音素誤り獲得装置へ送られる。

0026

ステップS19において、ネイティブ音素認識部19は、ネイティブ発話の音声データを入力とし、ネイティブ音響モデル記憶部17に記憶されたネイティブ音響モデルと、ネイティブ音素書起しと同じ単位で作成した音素BNFとを用いて、ネイティブ発話の音声データを音素認識し、ネイティブ音素認識結果を生成する。このとき、入力されるネイティブ発話の音声データは、ネイティブ音響モデルの学習に用いた音声データとは異なるものを利用する。生成したネイティブ音素認識結果は、音素誤り獲得装置へ送られる。

0027

<音素誤り獲得装置>
実施形態の音素誤り獲得装置は、図3に示すように、非ネイティブ音素頻度集計部20、ネイティブ音素頻度集計部21、音素誤り獲得部22、および音素誤り記憶部23を含む。この音素誤り獲得装置が図4に示す各ステップの処理を行うことにより実施形態の音素誤り獲得方法が実現される。

0028

非ネイティブ音素頻度集計部20とネイティブ音素頻度集計部21は、それぞれ処理対象とする情報が非ネイティブ発話の音声に由来するものかネイティブ発話の音声に由来するものかが異なるだけで、処理内容は同一である。そのため、それぞれを独立の処理部として備えずに、例えば、一個の音素誤り集計部だけを備え、非ネイティブ発話の音声に由来する情報とネイティブ発話の音声に由来する情報の双方を入力し、それぞれ独立に処理するように構成しても構わない。

0029

以下、図4を参照して、実施形態の音素誤り獲得方法の処理手続きを説明する。

0030

ステップS20において、非ネイティブ音素頻度集計部20は、音素認識装置により生成された非ネイティブ音素認識結果と、その非ネイティブ音素認識結果に対応する非ネイティブ音素書起しを入力とし、非ネイティブ音素認識結果と非ネイティブ音素書起しの対応を取る。非ネイティブ音素書起しは音素認識装置と同様に、非ネイティブ発話の音声データから書起した非ネイティブ単語書起しを音素に変換したものである。音素間の対応付けには、例えば、DPマッチング等を用いればよい。次に、非ネイティブ音素頻度集計部20は、非ネイティブ音素認識結果の音素と非ネイティブ音素書起しの音素をペアとして、各音素ペアの出現頻度を集計することで音素ペアの頻度行列を生成する。以下、この行列を非ネイティブ音素混同行列と呼ぶ。生成した非ネイティブ音素混同行列は、音素誤り獲得部22へ送られる。

0031

ステップS21において、ネイティブ音素頻度集計部21は、音素認識装置により生成されたネイティブ音素認識結果と、そのネイティブ音素認識結果に対応するネイティブ音素書起しを入力とし、非ネイティブ音素頻度集計部20と同様に、ネイティブ音素混同行列を生成する。生成したネイティブ音素混同行列は、音素誤り獲得部22へ送られる。

0032

ステップS22において、音素誤り獲得部22は、非ネイティブ音素混同行列とネイティブ音素混同行列とを入力とし、ネイティブ音素認識結果と比較して非ネイティブ音素認識結果の方が誤りやすい音素ペアを音素誤りとして獲得する。獲得した音素誤りは、音素誤り記憶部23へ記憶される。

0033

音素誤りの獲得は、例えば、以下のようにして行う。ある音素について、非ネイティブ音素混同行列とネイティブ音素混同行列それぞれから、書起し側音素がその音素と一致する行を抽出し、各認識結果側音素について、その認識結果側音素の出現頻度と、その認識結果側音素以外の音素の出現頻度の総和とを算出する。算出した認識結果側音素の出現頻度とそれ以外の音素の出現頻度の総和との集合頻度分布とみなし、非ネイティブ発話に関する頻度分布とネイティブ発話に関する頻度分布とが同じかどうかについてカイ2乗検定を行う。これにより、ある書起し側音素と各認識結果側音素との音素ペアについて、ネイティブ発話と非ネイティブ発話とで誤り傾向が異なるか否かを表すカイ2乗値を得ることができる。上述の計算をすべての書起し側音素について行い、各音素ペアとカイ2乗値を関係付けて音素誤りとして記憶する。なお、この発明では音素誤りを抽出することを目的としているため、書起し側音素と認識結果側音素とが同一の場合はカイ2乗値計算の対象外として構わないが、仮に計算対象としても以降の処理に影響することはない。

0034

図5を参照して、音素誤りの獲得方法について、より詳細に説明する。非ネイティブ音素混同行列とネイティブ音素混同行列は、書起し側音素と認識結果側音素のすべての音素ペアに関する出現頻度を並べた行列である。まず、非ネイティブ音素混同行列とネイティブ音素混同行列それぞれから書起し側音素が「/a/」である行を抽出する。次に、ネイティブ音素混同行列から抽出した行から認識結果側音素が「/b/」である出現頻度(#1)と、認識結果側音素が「/b/」以外である出現頻度の総和(#2)を算出する。同様に、非ネイティブ音素混同行列から抽出した行から認識結果側音素が「/b/」である出現頻度(#3)と、認識結果側音素が「/b/」以外である出現頻度の総和(#4)を算出する。こうして算出した出現頻度#1, #2, #3, #4を値にもつ観測頻度行列を生成し、さらに、次式により計算される出現頻度#1', #2', #3', #4'を値にもつ期待頻度行列を生成する。

0035

0036

こうして音素ペア毎に生成した観測頻度行列と期待頻度行列を用いて、次式によりカイ2乗値χ2を計算する。算出したカイ2乗値は各音素ペアとづけて音素誤りとして音素誤り記憶部23へ記憶される。

0037

0038

上記の計算は各音素ペアすべてに対して行う。これにより、すべての音素ペアそれぞれに対してカイ2乗値が付与されて音素誤り記憶部23へ記憶されることになる。

0039

<辞書追加装置>
実施形態の辞書追加装置は、図6に示すように、音素誤り記憶部23、ネイティブ発音辞書記憶部30、複数読み追加部31、および非ネイティブ発音辞書記憶部32を含む。音素誤り記憶部23には、音素誤り獲得装置により生成された音素誤りが記憶されている。この辞書追加装置が図7に示す各ステップの処理を行うことにより実施形態の辞書追加方法が実現される。

0040

以下、図7を参照して、実施形態の辞書追加方法の処理手続きを説明する。

0041

ステップS31において、複数読み追加部31は、音素誤り記憶部23に記憶された音素誤りからカイ2乗値に基づいて音素ペアを抽出する。音素ペアの抽出方法は、例えば、予め定めた閾値を上回るカイ2乗値を持つ音素ペアを抽出してもよいし、カイ2乗値の大きい順に所定の数の音素ペアを抽出してもよい。

0042

ステップS32において、複数読み追加部31は、抽出した音素ペアを用いて、ネイティブ発音辞書記憶部30に記憶されたネイティブ発音辞書に変動読みを追加する。ネイティブ発音辞書は、例えば、ネイティブ話者の標準的な読みを単語に付与した単語読み辞書である。ネイティブ発音辞書に変動読みを追加した非ネイティブ発音辞書は、非ネイティブ発音辞書記憶部32に記憶される。

0043

変動読みの追加は、例えば、以下のようにして行う。抽出した一つ以上の音素ペアについて、音素ペアの書起し側音素と一致する音素を読みにもつ単語をネイティブ発音辞書から選択し、その読み中の書起し側音素を認識結果側音素に置き換えて、変動読みとして追加する。その際、変動読みに対する確率は、元の単語に紐づいた確率を等分してもよいし、適当な非ネイティブ読みのための変動確率を定義し、それに基づいた基準で決定してもよいし、カイ2乗値が高いほど変動確率が高いとみなすような基準で決定してもよい。一つの単語について抽出した音素ペアの書起し側音素と一致するものが複数あった場合、すべての組み合わせについて変動読みを追加してもよいし、カイ2乗値が高いほど非ネイティブ性が高いものとし、それに基づいた基準で一つ以上の単語を選択して変動読みを追加してもよいし、適当な閾値を決めてその個数までの単語を選択して変動読みを追加してもよいし、非ネイティブ発話の音素誤りに関する外部知識を用いてルールを決定し、そのルールを用いて変動読みを追加してもよい。

0044

<音声認識装置>
実施形態の音声認識装置は、図8に示すように、非ネイティブ発音辞書記憶部32、言語モデル記憶部40、および音声認識部41を含む。非ネイティブ発音辞書記憶部32には、辞書追加装置により生成された非ネイティブ発音辞書が記憶されている。言語モデル記憶部40には、音声認識において用いられる標準的な言語モデルが記憶されている。この音声認識装置が図9に示す各ステップの処理を行うことにより実施形態の音声認識方法が実現される。

0045

以下、図9を参照して、実施形態の音声認識方法の処理手続きを説明する。

0046

ステップS41において、音声認識部41は、非ネイティブ発音辞書記憶部32に記憶された非ネイティブ発音辞書と言語モデル記憶部40に記憶された言語モデルとを用いて、入力された非ネイティブ発話の音声データを音声認識し、音声認識結果を出力する。ここで用いる言語モデルはどのようなものであってもよく、従来のネイティブ発話に対して用いる言語モデルであってもよい。

0047

<変形例1>
上述の実施形態では、ネイティブ発話と非ネイティブ発話とを比較して非ネイティブ発話で誤りやすい音素のみを抽出して発音辞書へ変動読みを追加する構成を説明した。この発明の音声認識技術は、同様にして、方言や訛りなどの標準的な言語体系から外れた発話に適用して、例えば、方言発話に特有の音素誤りのみを抽出して発音辞書へ変動読みを追加することも可能である。

0048

<変形例2>
カイ2乗値の計算において、ネイティブ発話に関する項と、非ネイティブに関する項を逆にしてもよい。すなわち、次式によりカイ2乗値を計算してもよい。

0049

0050

<変形例3>
音素認識装置において、音響モデル学習に用いる音声と音素認識に用いる音声とは異なるものである構成を説明した。しかしながら、これらの音声は同じものであってもよい。すなわち、非ネイティブ音素認識部18が用いる非ネイティブ音声と非ネイティブ単語書起しは、非ネイティブ音響モデル学習部14が用いる非ネイティブ音声と非ネイティブ単語書起しの全部もしくは一部であってもよく、ネイティブ音素認識部19が用いるネイティブ音声とネイティブ単語書起しは、ネイティブ音響モデル学習部15が用いるネイティブ音声とネイティブ単語書起しの全部もしくは一部であってもよい。

0051

<変形例4>
辞書追加装置において、カイ2乗値に基づいて抽出した音素ペアを用いて変動読みを追加する構成を説明した。しかしながら、同様に音素ペアを抽出した後、他の開発セット等の音声データを用意し、それに対していくつかの音素組み合わせに対して音声認識を実施し、音声認識精度等の認識結果評価尺度を計算し、その値に基づいて変動読みの追加に用いる音素ペアを決定してもよい。

0052

<変形例5>
音素誤り獲得装置において、カイ2乗検定によりネイティブ発話と非ネイティブ発話で誤りやすい音素の抽出を行った。しかしながら、ネイティブと非ネイティブの頻度分布の類似性の判定または類似性の定量的評価方法としては、カイ2乗検定に限定されず、その他の統計学的検定法や頻度値によるヒューリスティクスを用いてもよい。

0053

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

0054

[プログラム、記録媒体
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

0055

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体半導体メモリ等どのようなものでもよい。

0056

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体販売譲渡貸与等することによって行う。さらに、このプログラムをサーバコンピュータ記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

0057

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。

0058

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

0059

10非ネイティブ書記素音素変換部
11ネイティブ書記素音素変換部
12 非ネイティブ音素書起し記憶部
13 ネイティブ音素書起し記憶部
14 非ネイティブ音響モデル学習部
15 ネイティブ音響モデル学習部
16 非ネイティブ音響モデル記憶部
17 ネイティブ音響モデル記憶部
18 非ネイティブ音素認識部
19 ネイティブ音素認識部
20 非ネイティブ音素頻度集計部
21 ネイティブ音素頻度集計部
22 音素誤り獲得部
23 音素誤り記憶部
30 ネイティブ発音辞書記憶部
31 複数読み追加部
32 非ネイティブ発音辞書記憶部
40言語モデル記憶部
41音声認識部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ