図面 (/)

技術 音声認識のための話者学習法

出願人 パナソニック株式会社
発明者 脇田由実水谷研治芳澤伸一
出願日 2001年12月12日 (19年0ヶ月経過) 出願番号 2001-378341
公開日 2003年6月27日 (17年5ヶ月経過) 公開番号 2003-177779
状態 特許登録済
技術分野 音声認識
主要キーワード 音響的距離 発声部分 発声回数 学習用入力 正誤結果 候補音 信頼度スコア 音節認識
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2003年6月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (2)

課題

従来の認識性能の低い話者の性能を向上させるための話者適応話者登録学習では、学習用発声量が多くなるため話者に負担がかかるか、または負担を軽くするために発声量を制限した場合には、全ての発声において認識性能が向上するとは限らず、認識率が低下する単語も出現する可能性がある、という問題を有している。

解決手段

少ない発声で発声内容が認識結果に依存しているかどうかを推定し、依存していない場合には話者適応学習、依存している場合には話者登録学習を行うことにより、話者の負担にならない程度の学習発声で、確実に認識率を向上させることができる話者学習法を提供できる。

概要

背景

以下、従来の話者学習法を説明する。従来の不特定話者音声認識システムでは、なるべく不特定多数の話者に対応できる標準的な音響モデル構築して用いているが、実用上では、話者の発声特徴は多種多様であり、全ての使用話者に対して高性能保証する音響モデルを学習することは困難である。そこで従来は、認識しない話者について、話者自身の発声を用いて音響モデルパラメータ再学習し、話者に適応した音響モデルを再構築することにより全話者に対する性能を保証する話者適応手段をとっている。この話者適応には話者の特徴を捉えるに十分な多くの学習用音声が必要であるが、発声者の負担になるので、最低限の発声回数に絞る様々な工夫がなされている(たとえば、特許第2037877)。一方、別の学習方法として、誤認識した単語の認識結果に相当する音響モデル系列正解系列として発音辞書に追加し、誤った系列として認識したものを正しい系列として認識することを可能とする話者登録方法もある(特開平8-171396号公報)。

概要

従来の認識性能の低い話者の性能を向上させるための話者適応や話者登録学習では、学習用の発声量が多くなるため話者に負担がかかるか、または負担を軽くするために発声量を制限した場合には、全ての発声において認識性能が向上するとは限らず、認識率が低下する単語も出現する可能性がある、という問題を有している。

少ない発声で発声内容が認識結果に依存しているかどうかを推定し、依存していない場合には話者適応学習、依存している場合には話者登録学習を行うことにより、話者の負担にならない程度の学習発声で、確実に認識率を向上させることができる話者学習法を提供できる。

目的

本発明の目的は、従来の話者適応学習と話者登録学習の問題点を解決し、話者に負担にならない学習発声量で、学習後に確実に認識率を向上させる話者学習法を提供するものである。

効果

実績

技術文献被引用数
2件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

話者学習用音声を用いて音響モデルパラメータ再学習し、話者に適応した音響モデルを作成する手段(以下話者適応学習と呼ぶ。)と、誤認識した単語の認識結果に相当する音響モデル系列正解系列として発音辞書に追加する手段(以下話者登録学習と呼ぶ。)と、認識しやすさが発声内容に依存するかどうかを判断する手段とを有し、話各話者の認識しやすさと発声内容の依存の強さによって、話者適応学習を行うか話者登録学習を行うかの選択を行い、どちらかの学習を話者に促すことを特徴とする話者学習法

請求項2

請求項1に記載の話者学習法において、認識のしやすさが発声内容に依存するかどうかを判断する手段は、依存することが判断できる最低限の学習用発声に対する認識スコアを計算し、スコアの高さから依存するかどうかを決定することを特徴とする話者学習法。

請求項3

請求項1に記載の話者学習法において、認識しやすさが発声内容に依存するかどうかを判断した結果、依存すると判断された場合には話者登録学習を行い、依存しないと判断された場合には話者適応学習を行うことを特徴とする話者学習法。

請求項4

請求項2に記載の話者学習法における認識スコアは、認識結果の正誤結果あるいは標準音声との距離値あるいは左記距離値の信頼度を各々単独かまたは組み合わせて算出されることを特徴とする話者学習法。

請求項5

請求項2に記載の話者学習法における認識スコアは、認識結果の正誤結果あるいは標準音声との距離値あるいは左記距離値の信頼度を各々単独かまたは組み合わせて算出されることを特徴とする話者学習法。

技術分野

0001

本発明は、音声認識における話者学習法に関するものである。

背景技術

0002

以下、従来の話者学習法を説明する。従来の不特定話者音声認識システムでは、なるべく不特定多数の話者に対応できる標準的な音響モデル構築して用いているが、実用上では、話者の発声特徴は多種多様であり、全ての使用話者に対して高性能保証する音響モデルを学習することは困難である。そこで従来は、認識しない話者について、話者自身の発声を用いて音響モデルパラメータ再学習し、話者に適応した音響モデルを再構築することにより全話者に対する性能を保証する話者適応手段をとっている。この話者適応には話者の特徴を捉えるに十分な多くの学習用音声が必要であるが、発声者の負担になるので、最低限の発声回数に絞る様々な工夫がなされている(たとえば、特許第2037877)。一方、別の学習方法として、誤認識した単語の認識結果に相当する音響モデル系列正解系列として発音辞書に追加し、誤った系列として認識したものを正しい系列として認識することを可能とする話者登録方法もある(特開平8-171396号公報)。

発明が解決しようとする課題

0003

従来の話者適応法は、学習データが十分あれば、原理的に確実に認識性能を向上できる手法であるが、ほとんど全ての実用上システムでは行われているように、話者の学習負担を考慮して発声回数が絞られた場合、学習データに存在しない一部の発声に対して、逆に認識率が低下してしまう可能性があるという問題がある。一方、従来の話者登録法は、学習された発声部分の認識率は確実に向上するが、多くの発声内容で認識しにくい話者の場合は、学習時に認識しにくい全ての発声をしなければならず学習に負担がかかる、という問題がある。

0004

本発明の目的は、従来の話者適応学習と話者登録学習の問題点を解決し、話者に負担にならない学習発声量で、学習後に確実に認識率を向上させる話者学習法を提供するものである。

課題を解決するための手段

0005

上述した課題を解決するために、請求項1から5に記載の話者学習法は、話者の学習用音声を用いて音響モデルパラメータを再学習し、話者に適応した音響モデルを作成する手段と、誤認識した単語の認識結果に相当する音響モデル系列を正解系列として発音辞書に追加する手段と、認識しやすさが発声内容に依存するかどうかを判断する手段とから構成される。

発明を実施するための最良の形態

0006

以下、図面を参照して本発明の請求項1〜5に記載の話者学習法を説明する。

0007

図1は本発明の請求項1〜5の話者学習法ブロック図である。

0008

各話者が自分に対する認識性能を向上させる必要を感じた場合に選択するように設定された話者学習機能において、まず、システムからユーザに対し特定単語発声を促し、話者の特定単語発声が入力される。この発声内容は、各話者に対して、予め準備した標準音声がどのくらい適切かを判断するのに必要な最低限の内容であり、たとえば日本語認識の場合は、5母音を全て含む単語「マイクテスト」などの内容がふさわしい。システムが単語認識の場合には5母音が全て含まれるように対象単語から複数単語を選択しても良い。

0009

この発声に対して音声認識処理1で通常の認識処理が行われ、認識スコア算出処理2で認識結果と認識信頼度スコアが計算される。認識結果は、認識結果の音素または音節系列と正解音素系列とを比較し、異なっている部分を誤りとし一致している部分を正解として、正解系列の各音素毎正誤を記録しておく。また信頼度スコアは、たとえば正解音素または音節系列と発声された結果との各音素または音節毎の音響的距離スコアであり、距離尺度として重み付きケプストラム距離を用いた場合は、各音素の信頼度は式1で算出されるものを用いてもよい。

0010

0011

学習法決定処理3では、信頼度スコアが閾値以下であるか、閾値以上であったとしても誤認識している音素または音節(適応候補音素または音節と呼ぶ)の全発声に含まれる音素または音節に対する割合を計算する。この割合が大きい場合は、発声内容に依存せず話者の発声特徴が標準音声に適用していないことが推定され、全ての標準音声を話者に適用するように学習する必要があると考えられる。また、この割合が小さい場合には、誤認識は発声内容に依存しており、話者の発声特徴と標準音声は適用しているが、特定の発声においてのみ学習が必要であると考えられる。従って、この割合が一定値以上である場合、話者適応学習を選択し、一定値以下である場合、話者登録学習を選択する。

0012

話者適応学習を選択した場合は、話者適応処理4で、ユーザにさらに適応するに必要最低限の発声を促す。話者適応法は、たとえば、特開平5-53599に記載のVFS法を利用した場合には、標準音響モデル学習用入力音声パラメータとをマッチングし、対応するパラメータの関係からファジー級関数を求め、求められた関数を重みとして、標準音声を学習用入力音声に近づくように標準音響モデルのパラメータを更新している。

0013

また、話者登録学習を選択した場合には、話者登録処理5で、学習決定処理で算出した適応候補音素または音節が含まれている単語のみの発声を促し、適応候補音素に相当する音素系列を含む単語の音素系列に、発声に対する音素または音節認識結果系列を発音辞書7に追加する。たとえば、「メニュー」という単語が誤認識を起こす場合、この単語のみの発声を促し、その認識結果が「デニュー」であったとする。音響モデルとして音素モデルを使用している場合には、「メニュー」の正しい音素モデル系列は/m e ny u u/であり、認識結果音素系列は/d eny u u/である。この話者の場合、単語の始めであり、次に/e/が続く音素/m/は/d/に誤る傾向があることがわかる。そこで、認識対象単語の中で、単語の先頭であり、次が/e/である/m/は/d/と誤っても/m/と認識するように、発音辞書に音素系列を追加する。この例の場合には、もともと辞書上で「メニュー/m e ny uu/」であったところに/d e ny u u/を追加し、「メニュー/m e ny u u/または/de ny u u/」と辞書を変更する。これにより、この話者が「メニュー」を/d e ny u u/ と認識しても結果的には「メニュー」が認識できることになる。

0014

以上のように、話者の発声が発声内容に依存せずに誤るかどうかを推定し、発声内容に依存しない場合は話者適応学習、依存する場合は話者登録学習を行うことにより、従来の話者適応学習で、適応するための多くの学習発声をしたにもかかわらず認識率が低下する問題を、話者適応学習ではなく話者登録学習を行うことで解決することができる。また、従来の話者登録学習で、多くの単語を発声しなければ学習できなかった問題を、話者登録学習ではなく話者適応学習を行うことで解決することができる。

発明の効果

0015

以上詳述したように、本発明に係る請求項1に記載の話者学習法は、各話者の認識しやすさと発声内容の依存の強さによって、話者適応学習を行うか話者登録学習を行うかの選択を行い、どちらかの学習を話者に促すことにより、従来の話者適応学習において、適応するための多くの学習発声をしたにもかかわらず認識率が低下する問題を、話者適応学習のかわりに話者登録学習を自動選択することで解決することができる。また、従来の話者登録学習において、多くの単語を発声しなければ学習できなかった問題を、話者登録学習のかわりに話者適応学習を自動選択することで解決することができる。従って、話者に負担にならない程度の学習量で、確実に認識率を向上させることが可能である話者学習法を提供するものである。

0016

以上詳述したように、本発明に係る請求項2に記載の話者学習法は、認識のしやすさが発声内容に依存するかどうかを判断する手段において、依存することが判断できる最低限の学習用発声に対する認識スコアを計算し、スコアの高さから依存するかどうかを決定することにより、従来の話者適応学習において、適応するための多くの学習発声をしたにもかかわらず認識率が低下する問題を、話者適応学習のかわりに話者登録学習を自動選択することで解決することができる。また、従来の話者登録学習において、多くの単語を発声しなければ学習できなかった問題を、話者登録学習のかわりに話者適応学習を自動選択することで解決することができる。従って、話者に負担にならない程度の学習量で、確実に認識率を向上させることが可能である話者学習法を提供するものである。

0017

以上詳述したように、本発明に係る請求項3に記載の話者学習法は、認識しやすさが発声内容に依存するかどうかを判断した結果、依存すると判断された場合には話者登録学習を行い、依存しないと判断された場合には話者適応学習を行うことにより、従来の話者適応学習において、適応するための多くの学習発声をしたにもかかわらず認識率が低下する問題を、話者適応学習のかわりに話者登録学習を自動選択することで解決することができる。また、従来の話者登録学習において、多くの単語を発声しなければ学習できなかった問題を、話者登録学習のかわりに話者適応学習を自動選択することで解決することができる。従って、話者に負担にならない程度の学習量で、確実に認識率を向上させることが可能である話者学習法を提供するものである。

0018

以上詳述したように、本発明に係る請求項4に記載の話者学習法は、認識スコアを、認識結果の正誤結果あるいは標準音声との距離値あるいは左記距離値の信頼度を各々単独かまたは組み合わせて算出されることにより、従来の話者適応学習において、適応するための多くの学習発声をしたにもかかわらず認識率が低下する問題を、話者適応学習のかわりに話者登録学習を自動選択することで解決することができる。また、従来の話者登録学習において、多くの単語を発声しなければ学習できなかった問題を、話者登録学習のかわりに話者適応学習を自動選択することで解決することができる。従って、話者に負担にならない程度の学習量で、確実に認識率を向上させることが可能である話者学習法を提供するものである。

0019

以上詳述したように、本発明に係る請求項5に記載の話者学習法は、認識スコアを、認識結果の正誤結果あるいは標準音声との距離値あるいは左記距離値の信頼度を各々単独かまたは組み合わせて算出されることにより、従来の話者適応学習において、適応するための多くの学習発声をしたにもかかわらず認識率が低下する問題を、話者適応学習のかわりに話者登録学習を自動選択することで解決することができる。また、従来の話者登録学習において、多くの単語を発声しなければ学習できなかった問題を、話者登録学習のかわりに話者適応学習を自動選択することで解決することができる。従って、話者に負担にならない程度の学習量で、確実に認識率を向上させることが可能である話者学習法を提供するものである。

図面の簡単な説明

0020

図1本発明の一実施例である話者学習法ブロック図

--

0021

1音声認識
2認識スコア算出
3学習法決定
4話者適応
5話者登録
6音響モデル
7発音辞書
8 認識スコアバッファ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ