図面 (/)

技術 音声認識システム、音声認識方法、および音声認識プログラム

出願人 日本電気株式会社
発明者 江森正
出願日 2005年7月25日 (15年11ヶ月経過) 出願番号 2005-214706
公開日 2007年2月8日 (14年5ヶ月経過) 公開番号 2007-033671
状態 特許登録済
技術分野 音声認識
主要キーワード サーチ条件 統合手順 始端時刻 信頼度計算 雑音状況 ノイズ区間 終端時刻 単語ネットワーク
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2007年2月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

得意分野の違う複数の音声認識システムの認識結果を使うことで音声認識認識精度を改善する方法において、単語単位や言語、分析条件などが違う場合でも有効な認識結果を得ることのできる音声認識システムを提供する。

解決手段

音声認識システム11a、11bは認識結果として、認識された単語の時間情報と単語の接続情報音響尤度などが含まれる単語グラフWg1,Wg2を出力する。単語グラフ統合部12は単語グラフWg1,Wg2をWgに統合し、統合単語グラフ記憶部15に記憶する。信頼度計算部13は、単語グラフWgに含まれる単語毎信頼度を計算し、信頼度付き統合単語グラフcWgを統合単語グラフ記憶部15に記憶する。N位候補計算部14は信頼度付き統合単語グラフcWgからN位候補の単語列を探索する。

概要

背景

従来、得意とする分野、環境などが違う複数の音声認識システムを用い、同一の音声に対して認識を行い、得られた複数の認識結果から尤もらしい単語列を抽出することで認識性能を向上させる方法が考案されている。ここで、得意とする分野、環境とは、男性女性性別雑音環境登録されている単語やその連鎖確率などの情報、日本語英語のような言語などである。

得意分野、環境などの違う複数の音声認識システムの認識結果を用いて認識精度を上げるような方法として、従来ローバー法が知られている(非特許文献1)。このローバー法を用いた音声認識システムを図5、図6を用いて説明する。この音声認識システムは、音声認識システム21a、21b、21cとアライメント部22とスコア計算部23と単語選択部24とアライメント結果記憶部25とスコア付きアライメント結果記憶部26とスコア付きアライメント結果記憶部27構成される。音声認識システム21a、21b、21cは、得意とする分野、環境などが相異なる音声認識システムである。音声認識システムの数は3つに限らず、2つ以上の任意の数でよい。音声認識システム21a、21b、21cは、音声を認識して認識結果を出力するものであればどのようなものでも良く、たとえば日本電気株式会社から発売されているスマートボイスXPや、日本IBM社から発売されているViaVoice、京都大学で開発されたJuliusなどが挙げられる。音声認識システム21a、21b、21cは、共通の音声Sの認識を行い、それぞれの認識結果C1、C2,C3を出力する。アライメント部22は、認識結果C1、C2,C3の単語列に対し、認識単語表記に対しDPマッチングを用いて図6の下図で示されるような単語(図6にてアルファベットa、b、c、d、e、fで表される)を区間毎にまとめた単語ネットワークAを出力、アライメント結果記憶部25に記憶する。ここで、区間とは図6の下図に示されるように、時間順に左からa、n、n、nやb、b、bなどのまとまりを表す。図6は、アルファベット(a、b、c、d、e、f)を単語とみなした3つの認識結果C1、C2,C3の単語を区間ごとにまとめ、単語ネットワークAを作成する様子を表したものである。図6中の「n」は単語の無いナル遷移を表す。スコア計算部23は、アライメント結果記憶部25に記憶されている単語ネットワークAから区間ごとに単語(a、b、c、d、e、f)のスコアS(w)を次式にしたがって計算し、スコア付き単語ネットワークAcをスコア付きアライメント結果記憶部26に記憶する。

S(w)=α(N(w、i)/Ni)+(1−α)C(w、i) (1)
ここで、wは単語(a、b、c、d、e、f)を表し、iは区間を表す。N(w、i)は、区間iでの単語wの数を表し、C(w、i)は区間iでの単語wの信頼度を表し、Niは区間iの延べ単語数を表す。αは係数で、認識率が最もよくなるように調整する。

単語選択部24は、各区間iのスコアS(w)の最も高い単語をそれぞれの区間の認識結果Rとして出力する。
JonathanG.Fiscus : “A post-processing system to yield reduced word error rates (「単語誤り率低減のための後処理システム:ローバー」):Recognizer output voting error reduction (ROVER)”,IEEE Workshop on AutomaticSpeech Recognition and Understanding,1997

概要

得意分野の違う複数の音声認識システムの認識結果を使うことで音声認識の認識精度を改善する方法において、単語単位や言語、分析条件などが違う場合でも有効な認識結果を得ることのできる音声認識システムを提供する。音声認識システム11a、11bは認識結果として、認識された単語の時間情報と単語の接続情報音響尤度などが含まれる単語グラフWg1,Wg2を出力する。単語グラフ統合部12は単語グラフWg1,Wg2をWgに統合し、統合単語グラフ記憶部15に記憶する。信頼度計算部13は、単語グラフWgに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフcWgを統合単語グラフ記憶部15に記憶する。N位候補計算部14は信頼度付き統合単語グラフcWgからN位候補の単語列を探索する。1

目的

本発明の目的は、得意分野の違う複数の音声認識システムの認識結果を使うことで音声認識の認識精度を改善する方法において、単語単位や言語、分析条件などが違う場合でも有効な認識結果を得ることのできる音声認識システム、方法、およびプログラムを提供することである。

効果

実績

技術文献被引用数
2件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

認識結果として、認識された単語の時間情報と単語の接続情報音響尤度などが含まれる単語グラフを出力する複数の音声認識手段と、前記複数の単語グラフを1つの単語グラフに統合する単語グラフ統合手段と、統合された単語グラフを記憶する統合単語グラフ記憶手段と、前記統合された単語グラフに含まれる単語毎信頼度を計算し、信頼度付き統合単語グラフを出力する信頼度計算手段と、前記信頼度付き統合単語グラフを記憶する信頼度付き統合単語グラフ記憶手段と、前記信頼度付き統合単語グラフからN位候補単語列を探索するN位候補計算手段とを有する音声認識システム

請求項2

前記信頼度計算手段は、単語グラフを用いて単語の事後確率を求め、単語の事後確率を信頼度として出力する、請求項1記載の音声認識システム。

請求項3

認識結果として、認識された単語の時間情報と単語の接続情報と音響尤度などが含まれる単語グラフを複数の音声認識手段から出力するステップと、前記複数の単語グラフを1つの単語グラフに統合するステップと、統合された単語グラフを記憶するステップと、前記統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力するステップと、前記信頼度付き統合単語グラフを記憶するステップと、前記信頼度付き統合単語グラフからN位候補の単語列を探索するステップと、を有する音声認識方法

請求項4

前記の信頼度を計算するステップにおいて、単語グラフを用いて単語の事後確率を求め、単語の事後確率を信頼度として出力する、請求項4記載の音声認識方法。

請求項5

認識結果として、認識された単語の時間情報と単語の接続情報と音響尤度などが含まれる単語グラフを複数の音声認識手段から出力する手順と、前記複数の単語グラフを1つの単語グラフに統合する手順と、統合された単語グラフを記憶手段に記憶する手順と、前記統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力する手順と、前記信頼度付き統合単語グラフを記憶手段に記憶する手順と、前記信頼度付き統合単語グラフからN位候補の単語列を探索する手順とをコンピュータに実行させるための音声認識プログラム

請求項6

前記信頼度計算手順は、単語グラフを用いて単語の事後確率を求め、単語の事後確率を信頼度として出力する、請求項5記載の音声認識プログラム。

技術分野

0001

本発明は、得意とする分野、環境などが違う複数の音声認識システムを用いた音声認識システム、音声認識方法、および音声認識プログラムに関する。

背景技術

0002

従来、得意とする分野、環境などが違う複数の音声認識システムを用い、同一の音声に対して認識を行い、得られた複数の認識結果から尤もらしい単語列を抽出することで認識性能を向上させる方法が考案されている。ここで、得意とする分野、環境とは、男性女性性別雑音環境登録されている単語やその連鎖確率などの情報、日本語英語のような言語などである。

0003

得意分野、環境などの違う複数の音声認識システムの認識結果を用いて認識精度を上げるような方法として、従来ローバー法が知られている(非特許文献1)。このローバー法を用いた音声認識システムを図5図6を用いて説明する。この音声認識システムは、音声認識システム21a、21b、21cとアライメント部22とスコア計算部23と単語選択部24とアライメント結果記憶部25とスコア付きアライメント結果記憶部26とスコア付きアライメント結果記憶部27構成される。音声認識システム21a、21b、21cは、得意とする分野、環境などが相異なる音声認識システムである。音声認識システムの数は3つに限らず、2つ以上の任意の数でよい。音声認識システム21a、21b、21cは、音声を認識して認識結果を出力するものであればどのようなものでも良く、たとえば日本電気株式会社から発売されているスマートボイスXPや、日本IBM社から発売されているViaVoice、京都大学で開発されたJuliusなどが挙げられる。音声認識システム21a、21b、21cは、共通の音声Sの認識を行い、それぞれの認識結果C1、C2,C3を出力する。アライメント部22は、認識結果C1、C2,C3の単語列に対し、認識単語表記に対しDPマッチングを用いて図6下図で示されるような単語(図6にてアルファベットa、b、c、d、e、fで表される)を区間毎にまとめた単語ネットワークAを出力、アライメント結果記憶部25に記憶する。ここで、区間とは図6の下図に示されるように、時間順に左からa、n、n、nやb、b、bなどのまとまりを表す。図6は、アルファベット(a、b、c、d、e、f)を単語とみなした3つの認識結果C1、C2,C3の単語を区間ごとにまとめ、単語ネットワークAを作成する様子を表したものである。図6中の「n」は単語の無いナル遷移を表す。スコア計算部23は、アライメント結果記憶部25に記憶されている単語ネットワークAから区間ごとに単語(a、b、c、d、e、f)のスコアS(w)を次式にしたがって計算し、スコア付き単語ネットワークAcをスコア付きアライメント結果記憶部26に記憶する。

0004

S(w)=α(N(w、i)/Ni)+(1−α)C(w、i) (1)
ここで、wは単語(a、b、c、d、e、f)を表し、iは区間を表す。N(w、i)は、区間iでの単語wの数を表し、C(w、i)は区間iでの単語wの信頼度を表し、Niは区間iの延べ単語数を表す。αは係数で、認識率が最もよくなるように調整する。

0005

単語選択部24は、各区間iのスコアS(w)の最も高い単語をそれぞれの区間の認識結果Rとして出力する。
JonathanG.Fiscus : “A post-processing system to yield reduced word error rates (「単語誤り率低減のための後処理システム:ローバー」):Recognizer output voting error reduction (ROVER)”,IEEE Workshop on AutomaticSpeech Recognition and Understanding,1997

発明が解決しようとする課題

0006

音声認識システムの1位候補の単語列の境界は、それぞれの音声認識システムで用いられている単語単位の違いや分析条件サーチ条件などの違いから、必ずしも一致するとは限らない。例えば、認識単位として、ある音声認識システムでは音節、別の音声認識システムでは単語、また別の音声認識システムでは文節などさまざまである。さらに、同じ単語が候補に現れていても、得意な環境と音声の環境がマッチしているものとミスマッチしているものでは単語の境界の位置が大幅に違うことも考えられる。その結果、従来の方法であるローバー法では、図6のように理想的な単語ネットワークが作成できない可能性があり、その後の単語選択に大きな支障が出る可能性がある。そもそも、英語と日本語、中国語のように、それぞれに違う言語を得意とする音声認識システムの結果を統合する場合、表記がまったく異なるため、アライメント部22において、図6の下図のような単語ネットワークAを作成することが困難であるため、認識性能が劣化する可能性がある。

0007

電話による自動応答システムのような音声認識を用いたアプリケーションシステムにおいて、第1候補が間違った場合に第2候補の認識結果を提示して正解にたどりつけようとする場合が考えられる。このようなアプリケーションシステムへの入力された音声の環境や内容、言語が音声認識システム21aと最も整合性する場合、音声認識システム21aの第2候補の方が、他の音声認識システム21b、21cの認識結果の第1候補よりも正解の可能性が高いと考えられる。しかし、ローバー法は音声認識システム21a、21b、21cにおけるそれぞれの第1候補を用いているため、認識システム21aの第2候補ではなく、他の認識システムの第1候補の結果を織り交ぜた認識結果になる。その結果、音声認識システム21aの第2候補よりも精度の低い、すなわち間違いの可能性の高い結果を第2候補として提示することになると考えられる。

0008

本発明の目的は、得意分野の違う複数の音声認識システムの認識結果を使うことで音声認識の認識精度を改善する方法において、単語単位や言語、分析条件などが違う場合でも有効な認識結果を得ることのできる音声認識システム、方法、およびプログラムを提供することである。

0009

本発明の他の目的は、ある特定の音声認識システムにマッチした条件では、最も良い認識結果を出力すると思われる音声認識システムを用いた複数の認識結果を取り出すことのできる音声認識システム、方法、およびプログラムを提供することである。

課題を解決するための手段

0010

本発明の音声認識システムは、
認識結果として、認識された単語の時間情報と単語の接続情報音響尤度などが含まれる単語グラフを出力する複数の音声認識手段(11a、11b)と、
複数の単語グラフを1つの単語グラフに統合する単語グラフ統合手段(12)と、
統合された単語グラフを記憶する統合単語グラフ記憶手段(15)と、
統合された単語グラフに含まれる単語毎に信頼度を計算し、信頼度付き統合単語グラフを出力する信頼度計算手段(13)と、
信頼度付き統合単語グラフを記憶する信頼度付き統合単語グラフ記憶手段(16)と、
信頼度付き統合単語グラフからN位候補の単語列を探索するN位候補計算手段(14)と
を有する。

0011

認識結果として単語グラフで定義された複数の音声認識システムの認識結果を結合して、最も信頼できる単語列を認識結果として得ることができる。また、入力された認識結果が単語グラフで定義されているので、同一単語時刻のずれなどを気にすることなく任意の数の認識候補を探索することが可能である。また、単語グラフは音声認識システムが認識途中で得た情報を詳細に持つことが可能であるため、各音声認識システムのうち最も整合性の良い音声認識システムの候補を優先的に探索することが可能である。

発明の効果

0012

第1の効果は、単語の表記や音声認識の認識単位に違いがあっても複数の認識結果を統合できることができることにある。その理由は、本発明において統合するのは単語グラフ全体の始端終端だけを用いるためである。

0013

第2の効果は、複数の認識結果を統合した場合において、第2候補以降も適切な認識システムから出力された適切な単語系列を自動的に得ることができる。その理由は、本発明において統合するのが複数の音声認識システムの第1候補ではなく単語接続や音声認識時における探索の途中結果などの情報が多い単語グラフのためである。

発明を実施するための最良の形態

0014

次に、本発明の実施の形態について図面を参照して説明する。

0015

図1を参照すると、本発明の第1の実施形態による音声認識システムは、得意とする分野の違う音声認識システム11a、11bと、単語グラフ統合部12と、信頼度計算部13と、N位候補計算部14と、統合単語グラフ記憶部15と、信頼度付き統合単語グラフ記憶部16で構成される。

0016

音声認識システム11a、11bは、それぞれ単語グラフWg1、Wg2を出力できるものであればよい。たとえば、ケンブリッジ大学が開発したHIKなどが挙げられる。図2を用いて単語グラフの説明をする。図2(1)の単語グラフにおける単語の始端時刻終端時刻を定義する点(I1〜I5)であり、始端時刻を表すものを始端ノード、終端時刻を表すものを終端ノードと呼ぶ。図2(1)で単語は、a1、b1、c1、d1、e1、f1、g1として表されており、単語の先頭時刻である始端ノードから単語の終端時刻である終端ノードを結ぶ実線として図示されている。これを単語アークと呼ぶ。始終端ノードの表す時刻がその単語が認識候補として現れた時刻を示す。単語グラフは、図2(1)を図2(2)のように書き下したもので、各始端終端ノード(I1〜I5)を用いて単語アークを記述する。記述された単語アークごとに、単語、音響尤度などの情報が記述されている。このような形態をとる単語グラフとして、例えばヤング著のHIK Book for HIK Version 3.2.1の334ページから338ページ(以後参考文献1とする)に記述されている。単語グラフWg1、Wg2に記述される情報は、前述の情報の他に単語の始端終端時刻間の波形の2乗を足し上げたパワーノイズ区間との平均パワーの比であるSNR、特開平10−133693号公報(以後参考文献2とする)に示される調波性強度やその時間差分平均値、単語と単語の接続確率なども考えられる。本実施形態において音声認識システム11a、11bの、2つの得意とする分野の違う認識システムを組み合わせるとしているが、3つ以上の任意の数であってもよい。

0017

次に、単語グラフ1Wg1、Wg2は単語グラフ統合部12に入力され、1つの単語グラフへ結合された結合単語グラフWgが出力される。図3を用いて単語グラフの統合手順を説明する。図3において2つの単語グラフWg1と単語グラフWg2が単語グラフ統合部12に入力される(図3(1))。単語グラフ統合部12は、単語グラフWg1と単語グラフWg2それぞれの始終端ノードの範囲外にダミーの始端ノードIbと終端Ifを作成する(図3(2))。次に、始端ノードIbを各単語グラフ全体の始まりの時刻に相当する始端ノードI0へダミーの単語アークで接続し、各単語グラフ全体の終わりの時刻を表す終端ノードI5と作成された終端ノードIfへダミーの単語アークで接続し、結合単語グラフWg作成し、統合単語グラフ記憶部15に記憶する(図3(2))。

0018

次に、信頼度計算部13は、統合された単語グラフWgを用いて、ヴィッセル等(Frank Wessel ,Ralf Schluter ,Kalus Macherey,ans Herman Ney,''Confidence Measures for Large Vocabulary Continuous Speech Recognition ,''(「大語彙連続音声認識のための信頼度」)IEEETrans. on Speech and Audio Processing. Vol 9, No. 3, March 2001 以後参考文献3とする) によって示される単語の事後確率を信頼度として計算し、結合単語グラフWgの各単語への付加情報として信頼度を付け加え、信頼度付き結合単語グラフcWgとして信頼度付き統合単語グラフ記憶部16に記憶する。

0019

ここで、参考文献3で取り上げた事後確率の求め方を図2に沿って説明する。なお、下付き添え字を"_{x}",上付き添え字を"^{x}"のように示す。また、図2では、単語をa_{1}〜g_{1}まで、添え字を入れているが、ここでは"_{1}"を省略する。

0020

参考文献3に従い単語cの事後確率の計算方法を示す。
事後確率を計算するためには、単語cの前向き確率αと単語cの後ろ向き確率βを求める必要がある。以後これら、αβの計算の方法を説明する。計算方法の例は、単語の3連鎖する確率をモデル化した場合(トライグラム)について説明する。

0021

前向き確率αは次の式で表される。

0022

α(a;c) =P_{A}(o_{c}|c)Σ_{z∈aの始端に接続される単語全て}α(z;a)P_{L}(c|az)
ここで、P_{A}(o_{c}|c)は、単語cの音響尤度を表し、o_{c}は単語cの区間の観測系列を現す。観測時系列o_{c}は、音声認識で標準的に用いられているメルケプストラム係数やパワー、それらの回帰係数などが考えられる。o_{c}は、単語cの区間に対応する観測時系列であるが、全体の観測時系列はOと表す。音響尤度は、cが出現したときにo_{c}が観測される確からしさを表すものである。P_{L}(c|az)は、単語z→a→cの順番で出現する確率を表しており、一般に言語確率と呼ばれる。ここで、単語cの前向き確率であるが、単語aの始端につながる全ての単語の前向き確率と言語確率の積を全て足し合わせたものになっている。単語c以外の単語の前向き確率を求める場合、前向き確率を求めたい単語より前の時刻に出現した単語の前向き確率を求めておくことで計算できる。

0023

後ろ向き確率βは次の式で表される。

0024

β(c;e)=P_{A}(o_{c}|c)Σ_{z'∈eの終端に接続される単語全て}α(e;z')P_{L}(z'|ce)
記号はαの場合と同様であるが、αに比べ、cとe,z'等の関係が前後逆になっている。

0025

これらの式をふまえ事後確率は、次式で表される。

0026

P(c|o_{o})=Σ_{z∈全ての単語}Σ_{z'∈全ての単語}(α(z;c)β(c;z')P_{L}(z'|zc))/(P_{A}(O)P_{A}(o_{c}|c))
ここで、Oは全ての観測時系列を表し、P_{A}(O)は、全ての観測時系列Oの出現確率を表す。
P_{A}(0)はαを用いて下記のように計算することができる。

0027

P_{A}(O)=Σ_{z∈全ての単語}Σ_{z'∈全ての単語}α(z;z')
ここで、事後確率の計算方法の定義を見てみると、事後確率は単語ごとに求められることがわかる。事後確率は、単語cが同じ区間の単語d,h等と比べて観測時系列o_{c}とどの程度マッチしたかを示す値で、0〜1の値に正規化されている。

0028

以上の事後確率の計算方法をふまえ、図3を用いて統合された単語グラフWgにおける事後確率を求める方法について説明する(ここからは"_{1,2}"をつけて説明する)。統合前の単語グラフにおいて、c_{1}の前向き確率αを求める場合a_{1}に接続されている単語の前向き確率が必要であるが、a_{1}には何も接続されていないため、初期値として与えられた"1"等の定数が前向き確率として使われる。本発明の場合、a_{1}にはダミーの単語が接続されている。ダミーの単語は特に前向き確率値を持っていないが、予め用意しておいた値を用いる。ただし、図3(2)に記述されているような単語グラフWgの先頭ノードI_{b}から延びる2つのダミーの単語に同じ初期値を与えるのではなく、事前知識に基づきそれぞれの初期値を持たせることが可能である。例えば、雑音状況感知して、雑音と音声のパワーの比であるSNRを用いて耐雑音対策が行われているほうの初期値を大きくするなどの操作や、GPS(Global Positioning System)情報を用いて使われる地域に即した言語の初期値を大きくすることが可能である。単語グラフを統合しても従来の枠組みをそのまま適用して計算することが可能であると同時に、認識結果を選ぶ際に外部要因を反映できるメリットもある。

0029

ここでは信頼度を単語の事後確率としているが、結合単語グラフWgを用いて得られるものであればなんでも良く、たとえば音響尤度や、調波性(音声の基本周波数構造)の強さや、単語の終端時刻から始端時刻を引いた継続時間、始端終端それぞれに接続される単語アークの数、それらの値になる確率等、どのような値でも用いることが可能である。

0030

N位候補計算部14は、信頼度を基に信頼度付き結合単語グラフcWgを探索し、N位候補の認識単語列Rを探索し出力する。探索方法は、例えば電子情報通信学会出版の中川著の確率モデルによる音声認識の124〜126ページに記載されているA*サーチ(Aスターサーチ)等が考えられる。

0031

以下、図4を用いてA*サーチを説明する。
A*サーチでは、スタックと呼ばれる単語情報を記憶する手段が用意されている。ここで、単語情報とは、単語グラフ上の単語(a〜h)とその経路情報および経路のスコアをさす。経路情報とは、単語グラフの終端であるI_{5}のノードに接続する単語、例えばeから先頭までたどったときに通過した単語e→c→aのような経路を表す情報である。経路のスコアは、本実施形態の場合、単語の事後確率の和とする。経路スコアは、前向きスコアと後ろ向きスコアの和からなる。前向きスコアとは、始端からある単語にたどり着くまでに足された対数の事後確率の和とし、後ろ向きスコアとは、終端からある単語スコアにたどり着くまでに足された対数の事後確率の和とする。例えば、単語aにおける経路スコアはを計算する場合、前向きスコアは0で、後ろ向きスコアは単語e、cもしくはg、f、cか、g、dの3通りの経路のいずれかの対数の事後確率の和として定義される。

0032

手順を説明する。

0033

初期状態として、特に単語の意味を成さない仮の終端(終端)がスタックにつまれている。終端は、図2の単語e、gに繋がっているとする。

0034

まず、スタックの先頭を取り出す(ステップ101)。ここで、一旦スタックは空になる。

0035

次に、終端に繋がる単語e、gをスタックに積む(ステップ102)。そのとき、各単語に終端から接続されたとする経路情報と、経路のスコアを付加する。

0036

スタックを経路のスコアでソートする(ステップ103)。図の場合、gが先頭に来たとしている。スタックの先頭の単語gを取り出す。このとき一旦、スタックは単語アークeだけになる。

0037

単語アークgに繋がる単語f、d、hをスタックに積む(ステップ104)。このとき、f、d、hの経路情報として、「g←終端」のように、終端からgを経て到達したことを示す経路情報を付加する。さらに、経路スコアを付加する。

0038

ステップ103,104と同様な処理を繰り返す(ステップ105、106)。

0039

ステップ107の処理が終了した後に先頭に来ている単語の前に新たな単語が無い場合(単語aのように)、第1位候補として、単語で表されていた単語g、d、aを認識結果として出力する。

0040

ステップ103,104の処理を繰り返し行い、スタックの先頭に来た単語アークの接続先が無い場合、認識結果として単語列を出力する動作を行うことで第N位の単語列を認識結果として出力することができる。

0041

本実施形態によれば、認識結果として単語グラフで定義された複数の音声認識システムの認識結果を結合して、最も信頼できる単語列を認識結果として得ることができる。また、入力された認識結果が単語グラフで定義されているので、同一単語の時刻のずれなどを気にすることなく任意の数の認識候補を探索することが可能である。また、単語グラフは音声認識システムが認識途中で得た情報を詳細に持つことが可能であるため、各音声認識システムのうち最も整合性の良い音声認識システムの候補を優先的に探索することが可能である。従来例のように音声認識の結果の文字列をベースにアライメントを取るなどの調整が必要ないため、対象言語の違う音声認識システムが出力した認識結果を表記、発音記号文法などを気にすることなく結合でき、最も整合性の高い言語の単語列を認識結果として求めることが可能である。

0042

なお、図1に示した音声認識システムの機能は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク光磁気ディスクCD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。

0043

本発明によれば、例えば、入力された音声が、複数の音声認識システムに入力できるような場合において、複数の音声認識システムから得られる複数の認識結果を統合し高精度な認識結果を得るためのプログラムや装置等の用途に適用できる。

図面の簡単な説明

0044

本発明の一実施形態の音声認識システムの構成を示すブロック図である。
単語グラフを示す図である。
単語グラフ統合部における単語グラフの統合手順を示す図である。
N位候補計算部14における処理手順を示す図である。
従来例の音声認識システムの構成を示すブロック図である。
図5の従来例における認識候補の結合法を説明するための図である。

符号の説明

0045

11a音声認識システム
11b 音声認識システム
12単語グラフ統合部
13信頼度計算部
14 N位候補計算部
15 結合単語グラフ記憶部
16信頼度付き統合単語グラフ記憶部
17信頼度付N位候補記憶部
21a 音声認識システム
21b 音声認識システム
21c 音声認識システム
22アライメント部
23スコア計算部
24 単語選択部
25 アライメント結果記憶部
26スコアつきアライメント結果記憶部
27認識結果記憶
101〜107 ステップ
S音声
C1 音声認識システム21aの第1位候補
C2 音声認識システム21bの第1位候補
C3 音声認識システム21cの第1位候補
A アライメント結果
Ac スコア付きアライメント結果
R 認識結果
Wg1 音声認識システム11aの単語グラフ
Wg2 音声認識システム11bの単語グラフ
Wg 統合単語グラフ
cWg 信頼度付き単語グラフ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ