図面 (/)

技術 音響モデル学習用テキスト作成装置とその方法とプログラム

出願人 日本電信電話株式会社
発明者 野本済央小橋川哲青野裕司政瀧浩和
出願日 2012年11月19日 (6年9ヶ月経過) 出願番号 2012-253587
公開日 2014年6月5日 (5年3ヶ月経過) 公開番号 2014-102345
状態 特許登録済
技術分野 音声認識
主要キーワード 抽出割合 集計過程 頻度閾値 周辺音 テキスト候補 追加候補 音素変換 学習量
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年6月5日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

「学習すべき音素」を含むテキストを抽出することが出来る音響モデル学習用テキスト作成装置を提供する。

解決手段

音声認識処理部は、外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキスト音素系列情報とを出力する。認識結果集計部は、音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する。苦手音素抽出部は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する。追加候補テキストコーパスは、音響モデル学習用テキスト候補であるテキストを大量に記憶する。苦手音素包含テキスト選択部は、苦手音素リストを参照して追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する。

概要

背景

近年における音声認識システムでは、音響モデル言語モデルが利用される。音響モデルは、/a/や/k/などの各音素が持つ音響的特徴を有した辞書であり、入力音声がどのような音素列かを推測するのに用いる。

音響モデルの学習には、音声とそれに対応するテキスト音声データベース)が必要となる。精度の良い音響モデルを統計的に学習するには、大規模な音声データベースの構築が必要とされる。大量の音声とそれに対応するテキストを収集するには、高いコスト(時間や労力)を要する。

そこで、従来から音響モデルの学習効率を向上させるためのテキスト作成方法が検討されて来ている。図10に、特許文献1に開示された音響モデル学習用ラベル作成装置900の機能構成を示して、その動作を簡単に説明する。音響モデル学習用ラベル作成装置900は、第1音素環境頻度計算部923と、第2音素環境頻度計算部933と、格納部934と、新出音素環境抽出部935と、テキスト選択部936と、蓄積部937などを具備する。

第1音素環境頻度計算部923は、音素変換部922から入力される音素系列をもとに、音素環境毎に出現頻度カウントし、既存音声DB910の音素環境頻度を計算して出力する。第2音素環境頻度計算部933は、音素変換部932から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストDB930の音素環境頻度を計算して出力する。

第1と第2音素環境頻度計算部923,933からそれぞれ出力される既存音声DB音素環境頻度及び元テキストDB音素環境頻度は新出音素環境抽出部935に入力される。新出音素環境抽出部935は入力された既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DB910に含まれず、元テキストDB930に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。

新出音素環境抽出部935から出力された追加収録音素環境はテキスト選択部936に入力される。テキスト選択部936は読み、音素系列と組とされて格納部934に格納されている元テキストDB930のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択は、テキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。

概要

「学習すべき音素」を含むテキストを抽出することが出来る音響モデル学習用テキスト作成装置を提供する。音声認識処理部は、外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する。認識結果集計部は、音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する。苦手音素抽出部は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する。追加候補テキストコーパスは、音響モデル学習用テキスト候補であるテキストを大量に記憶する。苦手音素包含テキスト選択部は、苦手音素リストを参照して追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する。

目的

本発明は、この課題に鑑みてなされたものであり、「学習すべき音素」を正確に抽出することが出来る音響モデル学習用テキスト作成装置とその方法とプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキスト音素系列情報とを出力する音声認識処理部と、上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計部と、上記音素認識率が閾値以下の音素苦手音素として抽出して苦手音素リストを生成する苦手音素抽出部と、音響モデル学習テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスと、上記苦手音素リストを参照して上記追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する苦手音素包含テキスト選択部と、を具備する音響モデル学習用テキスト作成装置

請求項2

請求項1に記載した音響モデル学習用テキスト作成装置において、上記苦手音素抽出部は、外部から入力される各音素と当該音素の出現回数情報とからなる音素頻度情報と、上記音素認識率とを入力として、上記音素頻度情報が頻度閾値に満たない音素を苦手音素として抽出して苦手音素リストを生成するものであることを特徴とする音響モデル学習用テキスト作成装置。

請求項3

外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理部と、上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計部と、音素毎の上記音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す音素テキスト抽出割合rat_pを計算して出力する音素抽出率算出部と、音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスと、上記追加候補テキストコーパスに蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する音素包含マトリックス生成部と、上記音素テキスト抽出割合rat_pの値にしたがって音素を選択し、音素包含マトリックスを参照して選択した音素を含むテキストを選択するテキスト選択部と、を具備する音響モデル学習用テキスト作成装置。

請求項4

請求項3に記載した音響モデル学習用テキスト作成装置において、上記音素抽出率算出部は、外部から入力される各音素と当該音素の出現回数情報とからなる音素頻度情報と、上記音素認識率とを入力として、どの音素を含むテキストをどれだけ選択するかを表す音素テキスト抽出割合rat_pを計算して出力するものであることを特徴とする音響モデル学習用テキスト作成装置。

請求項5

請求項3又は4に記載した音響モデル学習用テキスト作成装置において、上記音素テキスト抽出割合rat_pは、上記音素認識率の値が低いほど音素テキスト抽出割合rat_pの値が高くなる関数であることを特徴とする音響モデル学習用テキスト作成装置。

請求項6

外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理過程と、上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計過程と、上記音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する苦手音素抽出過程と、上記苦手音素リストを参照して音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する苦手音素包含テキスト選択過程と、を備える音響モデル学習用テキスト作成方法

請求項7

外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する音声認識処理過程と、上記音素系列情報と上記開発用音声データの正解テキストとから音素認識率を計算する認識結果集計過程と、音素毎の上記音素認識率を元に、どの音素を含むテキストをどれだけ選択するかを表す音素テキスト抽出割合rat_pを計算して出力する音素抽出率算出過程と、音響モデル学習用テキスト候補であるテキストを大量に記憶した追加候補テキストコーパスに蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する音素包含マトリックス生成過程と、上記音素テキスト抽出割合rat_pの値にしたがって音素を選択し、音素包含マトリックスを参照して選択した音素を含むテキストを選択するテキスト選択過程と、を備える音響モデル学習用テキスト作成方法。

請求項8

請求項1乃至5の何れかに記載した音響モデル学習用テキスト作成装置としてコンピュータを機能させるためのプログラム

技術分野

0001

本発明は、音響モデル学習に用いる学習用テキストを作成する音響モデル学習用テキスト作成装置とその方法とプログラムに関する。

背景技術

0002

近年における音声認識システムでは、音響モデル言語モデルが利用される。音響モデルは、/a/や/k/などの各音素が持つ音響的特徴を有した辞書であり、入力音声がどのような音素列かを推測するのに用いる。

0003

音響モデルの学習には、音声とそれに対応するテキスト(音声データベース)が必要となる。精度の良い音響モデルを統計的に学習するには、大規模な音声データベースの構築が必要とされる。大量の音声とそれに対応するテキストを収集するには、高いコスト(時間や労力)を要する。

0004

そこで、従来から音響モデルの学習効率を向上させるためのテキスト作成方法が検討されて来ている。図10に、特許文献1に開示された音響モデル学習用ラベル作成装置900の機能構成を示して、その動作を簡単に説明する。音響モデル学習用ラベル作成装置900は、第1音素環境頻度計算部923と、第2音素環境頻度計算部933と、格納部934と、新出音素環境抽出部935と、テキスト選択部936と、蓄積部937などを具備する。

0005

第1音素環境頻度計算部923は、音素変換部922から入力される音素系列をもとに、音素環境毎に出現頻度カウントし、既存音声DB910の音素環境頻度を計算して出力する。第2音素環境頻度計算部933は、音素変換部932から入力される音素系列をもとに、音素環境毎に出現頻度をカウントし、元テキストDB930の音素環境頻度を計算して出力する。

0006

第1と第2音素環境頻度計算部923,933からそれぞれ出力される既存音声DB音素環境頻度及び元テキストDB音素環境頻度は新出音素環境抽出部935に入力される。新出音素環境抽出部935は入力された既存音声DB音素環境頻度と元テキストDB音素環境頻度とから、既存音声DB910に含まれず、元テキストDB930に含まれている新出音素環境を抽出し、その抽出した新出音素環境を追加収録音素環境として出力する。

0007

新出音素環境抽出部935から出力された追加収録音素環境はテキスト選択部936に入力される。テキスト選択部936は読み、音素系列と組とされて格納部934に格納されている元テキストDB930のテキストの中から追加収録音素環境を含むテキストを選択する。テキストの選択は、テキスト毎に追加収録音素環境が含まれているか否かを判定することによって行われる。このようにして選択されたテキストは追加収録用ラベルセットとして出力される。

先行技術

0008

特開2011−248001号公報

発明が解決しようとする課題

0009

従来技術では、読み上げ対象となるテキストの音素数や既存音声DB910に含まれる音素数など、音素環境ガバレッジ(音素カバー率)の情報を用いる。つまり、学習量として頻度的に少ない音素を含むテキストを重点的に選択するといったものである。しかし、学習量が少ない音素を含む音声を大量に集めれば当該音素の認識精度が向上するとは限らない。学習量は少ないが認識性能としては十分に高い性能を示す音素のケースも考えられる。同様に、学習量としては十分に足りているが認識性能としてはまだ改善の余地があるという音素のケースも考えられる。このように、音素環境ガバレッジだけでは「学習すべき音素」を正確に抽出することが出来ない課題がある。

0010

本発明は、この課題に鑑みてなされたものであり、「学習すべき音素」を正確に抽出することが出来る音響モデル学習用テキスト作成装置とその方法とプログラムを提供することを目的とする。

課題を解決するための手段

0011

本発明の音響モデル学習用テキスト作成装置は、音声認識処理部と、認識結果集計部と、苦手音素抽出部と、追加候補テキストコーパスと、苦手音素包含テキスト選択部と、を具備する。音声認識処理部は、外部から入力される開発用音声データを、言語モデルと既存音響モデルを参照して音声認識し、認識結果テキストと音素系列情報とを出力する。認識結果集計部は、音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する。苦手音素抽出部は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する。追加候補テキストコーパスは、音響モデル学習用テキスト候補であるテキストを大量に記憶する。苦手音素包含テキスト選択部は、苦手音素リストを参照して追加候補テキストコーパスから苦手音素を含むテキストを選択して音響モデル学習用テキストとして出力する。

発明の効果

0012

本発明の音響モデル学習用テキスト作成装置によれば、既存音声データベースを用いて学習した既存音響モデルを用いて、評価用音声データを音声認識し、認識性能が低い苦手音素を含むテキストを選択して出力するので、「学習すべき音素」を含む音響モデル学習用テキストを抽出することが出来る。

図面の簡単な説明

0013

この発明の音響モデル学習用テキスト作成装置100の機能構成例を示す図。
音響モデル学習用テキスト作成装置100の動作フローを示す図。
正解音素系列情報と認識結果の音素系列情報の例を示す図。
この発明の音響モデル学習用テキスト作成装置200の機能構成例を示す図。
音響モデル学習用テキスト作成装置200の動作フローを示す図。
音素包含マトリックスの例を示す図。
テキスト選択部230の動作フローを示す図。
この発明の音響モデル学習用テキスト作成装置300の機能構成例を示す図。
この発明の音響モデル学習用テキスト作成装置400の機能構成例を示す図。
特許文献1に開示された音響モデル学習用ラベル作成装置900の機能構成を示す図。

0014

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

0015

図1に、この発明の音響モデル学習用テキスト作成装置100の機構構成例を示す。その動作フローを図2に示す。音響モデル学習用テキスト作成装置100は、音声認識処理部10と、認識結果集計部40と、苦手音素抽出部50と、苦手音素包含テキスト選択部60と、追加候補テキストコーパス70と、制御部80と、を具備する。音響モデル学習用テキスト作成装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。以降で説明する他の実施例についても同様である。

0016

音声認識処理部10は、外部から入力される開発用音声データを、言語モデル20と既存音響モデル30を参照して音声認識し、認識結果テキストと音素系列情報とを出力する(ステップS10)。言語モデル20は、言語の特徴を統計的手法によりモデル化したデータを格納し、連続音声認識の実行時に音声認識結果候補に対して言語的な尤もらしさを与えるものである。既存音響モデル30は、既存の音声データベースを用いて音素が持つ音響特性を学習した音響モデルを大量に格納している。音響モデルは、混合正規分布出力確率とした隠れマルコフモデル(HMM)が良く用いられ、音素の三組からなるトライフォン表現されるものである。例えば「会社(/k/a/i/sh/a/)」をトライフォンで表現すると「/*-k+a/k−a+i/a−i+sh/i—sh+a/a−sh+*/」の5個の音素によって、音響モデルが構成される。開発用音声データは、既存音声データベースとは異なる音声データの集合であり、既存音響モデル30を評価するためのものである。開発用音声データは、既存音声データベースよりも少ないデータ量でも良い。

0017

音声認識処理部10は、開発用音声データに含まれる各音声について、言語モデル20と既存音響モデル30とを用いて音声認識処理を行い認識結果テキストと音素系列情報とを出力する。認識結果テキストを例えば「会社」とした場合、その音素系列情報は「/*-k+a/k−a+i/a−i+sh/i—sh+a/a−sh+*/」である。音声認識処理部10と言語モデル20と既存音響モデル30とによる音声認識処理は、一般的な音声認識処理と同じである。

0018

認識結果集計部40は、音声認識処理部10で音声認識した結果の音素系列情報と開発用音声データの正解テキストとから音素認識率を計算する(ステップS40)。例えば、図3に示すように正解テキストを「会社」とした場合の認識結果が「外車」であったと仮定する。正解音素系列情報である音素列「/*-k+a/k−a+i/a−i+sh/i—sh+a/a−sh+*/」に対して、認識結果の音素列「/*-g+a/k−a+i/a−i+sh/i—sh+a/a−sh+*/」が対応する。

0019

正解音素「/*-k+a/」に対して認識音素「/*-g+a/」が不一致(×)であり、音素「/*-k+a/」の音素認識率は、音素データがこれだけだとすると0%として計算される。その他の音素の音素認識率は100%として計算される。同様の処理を開発音声データに含まれる音素データの数だけ実施し、その結果を集計したものが各音素の音素認識率として計算される。

0020

ここで、音素の表現を音素の三つ組からなる音素環境依存のトライフォンを用いて説明したが、周辺音素に依存しない音素環境独立のモノフォンを用いても良い。また、中心音素が合っていれば正解としても良い。

0021

苦手音素抽出部50は、音素認識率が閾値以下の音素を苦手音素として抽出して苦手音素リストを生成する(ステップS50)。閾値は、0〜1の範囲の任意の値である。閾値が0に近いほど苦手音素と判定する認識精度が低くなる。また、1に近い値にすると苦手音素を抽出し難くなる。閾値は、全音素の音素認識率の平均値を用いても良い。又は、音声認識率の低い下位から所定の順位の音素を苦手音素として抽出して苦手音素リストを生成するようにしても良い。

0022

苦手音素包含テキスト選択部60は、苦手音素抽出部50で生成した苦手音素リストをを参照して音響モデル学習用テキスト候補であるテキストとその音素系列情報とを大量に記憶した追加候補テキストコーパスから苦手音素を含むテキストを所定数以上選択して音響モデル学習用テキストとして出力する(ステップS60)。ここで所定数は、予め苦手音素包含テキスト選択部60に定数として与えておいても良い。又は、外部から与えても良い。その所定数は、例えば既存音響モデル30の学習データのテキスト量の10%程度のテキスト量となる値とする。

0023

このステップS60の処理は、苦手音素リストの全ての音素について終了するまで繰り返される。この繰り返し動作の制御は、制御部80が行う。制御部80は、音響モデル学習用テキスト作成装置100の各部の時系列的な動作を制御する。

0024

以上説明したようにこの発明の音響モデル学習用テキスト作成装置100によれば、既存音響モデル30を用いて開発用音声データを音声認識して音素認識率が低い音素をリストアップし、音素認識率の低い音素を含むテキストを追加候補テキストコーパス70から音響モデル学習用テキストとして選択して出力する。したがって、「学習すべき音素」を含むテキストを抽出することが出来る。

0025

図4に、この発明の音響モデル学習用テキスト作成装置200の機能構成例を示す。その動作フローを図5に示す。音響モデル学習用テキスト作成装置200は、音響モデル学習用テキスト作成装置100の苦手音素抽出部50に代えて音素抽出率算出部210を備える点と、苦手音素包含テキスト選択部60に代えてテキスト選択部230を備える点と、音素包含マトリックス生成部220を備える点で異なる。音響モデル学習用テキスト作成装置100と異なる点のみを説明する。

0026

音素抽出率算出部210は、認識結果集計部40で計算した音素毎の音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す「音素テキスト抽出割合rat_p」を計算して出力する。rat_pは例えば式(1)で計算する(ステップS210)。

0027

0028

ここでcor_pは音素pの音素認識率である。「p」はある任意の音素を意味する。音素テキスト抽出割合rat_pは、音素認識率の値が低い音素ほど大きな値を示す。音素テキスト抽出割合rat_pを大きい順番リスト化し、その音素テキスト抽出割合リスト降順ソートすることで、音素認識率の値が低い順番に音素とその音素テキスト抽出割合の値を得ることが出来る。音素テキスト抽出割合リストは、音素pとその音素pの音素認識率との組のリストである。

0029

音素包含マトリックス生成部220は、追加候補テキストコーパス70に蓄えられた各テキストにどのような音素が出現しているかをまとめた音素包含マトリックスを生成する(ステップS220)。なお、図5では、ステップS220を、音素抽出率算出過程(ステップS210)と並列表記しているが、音素包含マトリックスはテキスト選択過程の前の段階で出来ていれば良い。音素包含マトリックスは予め生成済みであっても良い。

0030

図6に音素包含マトリックスの例を示す。図6の1列目はテキスト、2列目以降は音素である。テキストと音素が交差する部分の数値は、当該音素の出現回数を表す。テキスト「会社」の音素列「/*-k+a/k−a+i/a−i+sh/i—sh+a/a−sh+*/」の各音素に対応する部分に1が設定され、「会社」に含まれない音素の部分には0が設定されている。音素包含マトリックスは、音素抽出率算出部210で算出した音素テキスト抽出割合rat_pを参照して、例えばその値の降順にテキストを配列したマトリックスにしても良い。

0031

テキスト選択部230は、音素抽出率算出部210で算出した音素テキスト抽出割合rat_pの値に応じて音素pを選択し、音素包含マトリックスを参照して選択した音素pを含むテキストを選択する。

0032

図7に、テキスト選択部230の動作フローを示してその動作を説明する。テキスト選択部230は、音素テキスト抽出割合リストを参照して音素pを選択する(ステップS231)。テキスト選択部230は、音素抽出率算出部210で計算した音素テキスト抽出割合rat_pの値が大きい順番に配列された音素テキスト抽出割合リストから、例えば降順に音素pを選択する。

0033

次に、選択した音素pの出現回数の多いテキストを音素包含マトリックスを参照して、テキストを選択する(ステップS232)。選択したテキストは音響モデル学習用テキストとして外部に出力する(ステップS233)。そして、選択したテキストは音素包含マトリックスから削除する(ステップS234)と共に、選択したテキスト数ext_pをインクリメントする(ステップS235)。

0034

以上の動作は、選択したテキスト数ext_pがテキストの選択数num_pに等しくなるまで繰り返される(ステップS236のNo)。テキストの選択数num_pは外部から与えても良いし、テキスト選択部230に予め定数として設定しておいても良い。

0035

ステップS231〜S236までの処理は、音素テキスト抽出割合リストの所定の順位の音素pについて終了するまで繰り返される(ステップS237のNo)。この所定の順位の情報についても、テキストの選択数num_pと同様に外部から与えても良いし、定数として予め設定しておいても良い。

0036

以上説明したように音響モデル学習用テキスト作成装置200によれば、音素認識率の悪い音素の順に、且つ、その音素を多く含むテキストを音響モデル学習用テキストとして採用することが出来る。その結果、既存音響モデルの学習効率を向上させることが出来る。

0037

音素認識率だけでは無く音素頻度情報と組み合わせて音響モデル学習用テキストを選択するようにしても良い。音素認識率が低い音素には「学習データ量としては十分だが、認識精度が低い」という場合もある。つまり、そもそも認識が難しい音素が存在することも考えられる。

0038

その場合は、いくらデータ量を増やしたとしてもそれに見合った性能改善を期待することができない。そこで、既存音声データベースを元に作成された既存音響モデルの音素頻度情報と、音素認識率とを併せて用いることで、より効率的に音響モデル学習用テキストを選択するようにした音響モデル学習用テキスト作成装置300が考えられる。

0039

図8に、音響モデル学習用テキスト作成装置300の機能構成例を示す。音響モデル学習用テキスト作成装置300は、音響モデル学習用テキスト作成装置100の苦手音素抽出部50が、苦手音素抽出部350に置き代わった点のみが異なる。

0040

苦手音素抽出部350は、認識結果集計部40で計算した音素認識率が閾値以下の音素を苦手音素として抽出する際に、音素頻度情報も参照して苦手音素リストを生成する。音素頻度情報は、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる情報である。

0041

苦手音素抽出部350は、音素認識率が低く出現回数の少ない音素を苦手音素として抽出するに当たって、音素頻度情報が頻度閾値よりも小さい音素を苦手音素リストとして出力する。音響モデル学習用テキスト作成装置300によれば、学習データ量が足りていない音素を含むテキストを優先的に音響モデル学習用テキストとして選択することが出来る。

0042

なお、音素頻度情報は外部から与えても良いし、音響モデル学習用テキスト作成装置300の内部に音素頻度算出部390を備えて、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる音素頻度情報を生成するようにしても良い。

0043

音響モデル学習用テキスト作成装置200についても、実施例3と同様に音素頻度情報を用いた実施例が考えられる。図9に、音素頻度情報も用いるようにした音響モデル学習用テキスト作成装置400の機能構成例を示す。

0044

音響モデル学習用テキスト作成装置400は、音響モデル学習用テキスト作成装置200の音素抽出率算出部210が、音素抽出率算出部410に置き代わった点のみが異なる。音素抽出率算出部410は、認識結果集計部40で計算した音素毎の音素認識率を元に、どの音素を含むテキストをどれだけ選択するべきかを表す「音素テキスト抽出割合rat_pを、式(2)に基づいて計算して出力する。

0045

0046

ここでocc_pは音素pの出現頻度である。音素頻度情報は外部から与えても良いし、音響モデル学習用テキスト作成装置300の内部に音素頻度算出部390を備え、既存音声データベースに含まれる各音素の出現回数と各音素の組からなる音素頻度情報を生成するようにしても良い。

0047

音響モデル学習用テキスト作成装置400によれば、音素認識率の悪い音素の順に、且つ、学習データ量が足りていない音素を含むテキストを音響モデル学習用テキストとして採用することが出来る。その結果、既存音響モデルの学習効率を向上させることが出来る。

0048

以上説明したようにこの発明の音響モデル学習用テキスト作成装置によれば、既存音声データベースを用いて学習した既存音響モデルを用いて、評価用音声データを音声認識し、認識性能が低い苦手音素を含むテキストを追加候補テキストコーパス70から選択して出力するので、「学習すべき音素」を含む音響モデル学習用テキストを正確に抽出することが出来る。よって、限られた量の音響モデル学習用テキストでも誤認識し易い音素を効率的に減らすことが出来る効果を奏する。

0049

また、音素頻度情報も用いるこの発明の音響モデル学習用テキスト作成装置300,400によれば、学習量は少ないが認識性能は十分に高い音素を含まないテキストを選択することが出来る。また、学習量は多いが認識性能が低い音素を含むテキストを選択することも可能である。

0050

なお、音素テキスト抽出割合rat_pを求める式は、式(1)と式(2)に限定されない。音素認識率の値が低いほど、音素テキスト抽出割合rat_pの値が高くなるものであればどのような関数であっても良い。また、音素テキスト抽出割合rat_pは尤度値に基づく値としても良い。それぞれの式の分母は省略しても良い。分母をつけることによりrat_pの値を正規化することができるため、その値の範囲を限定することが可能である。

0051

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

0052

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置光ディスク光磁気記録媒体半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置フレキシブルディスク磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることが出来る。

0053

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体販売譲渡貸与等することによって行う。さらに、このプログラムをサーバコンピュータ記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

実施例

0054

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ