図面 (/)

技術 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム

出願人 株式会社東芝
発明者 雍坤丁沛朱会峰
出願日 2015年10月28日 (4年4ヶ月経過) 出願番号 2015-211710
公開日 2016年5月23日 (3年9ヶ月経過) 公開番号 2016-091028
状態 特許登録済
技術分野 音声認識
主要キーワード プログラマブルハードウェア 動的計画 出力セグメント 混同行列 論理チップ 重要人物 本実施形態装置 プログラマブルメモリ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年5月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

音声認識エンジン改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な装置を提供する。

解決手段

実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換え置換部とを備える。

概要

背景

音声認識の適用シナリオにおいて、音声内容にはキーワードがいつも含まれる。キーワードが正しく認識されることは、音声認識システムに対するユーザ満足感と大いに関係している。例えば、音声認識システムが会議話者発言内容を認識する会議支援アプリケーションにおいて、その会議に含まれる重要人物名、場所名、技術用語等はキーワードとなる。キーワードの認識精度はこのアプリケーションの最重要な処理指標となる。

キーワードは2つのカテゴリ分類される。もしキーワードが音声認識システムのシステム辞書に含まれない場合は、それを新語という。もしキーワードがシステム辞書に含まれる場合は、それを核語という。新語はシステム辞書に登録されておらず、音声認識システムはシステム辞書の登録語のみを出力できるため、新語を(完全には)直接に認識することが出来ない。

新語のほとんどがシステム辞書に存在する語で構成されており、間接的に認識して出力できるとしても、新語のそのような構成例は学習コーパスでは非常に稀である。この学習コーパスは、新語について非常に低い言語モデル(LM)スコアを生じる。従ってこの方法では、新語の認識成功確率が非常に低くなる。

システム辞書に登録された核語について、もしシステム辞書に存在する非核語が同じまたは類似した発音であって高いLMスコアを有する場合、音声認識システムはこの非核語を出力結果として間違って選択する傾向がある。

このように、通常の音声認識システムによるキーワードの認識精度は非常に低く、キーワードと同じか類似した発音を有する単語が誤認識結果となっていた。

キーワードの認識精度を向上するために、キーワードのLMスコアを増加することは非常に危険である。一般に、クラベースのLMはこの目的で用いられる。この方法では、あるキーワードタイプに対応するクラス(例えば、人名のクラス、場所名のクラス、技術用語のクラス)が構築される。そして、クラスの属性を有する所定数代表語がシステム辞書から選択され、該クラスに付加される。LM学習においては、各クラスのLMスコアは、該クラスに含まれる全ての代表語の統計に基づいて計算される。認識前に、キーワードがシステム辞書に登録され、最適クラスにリンクされる。認識ステージにおいては、キーワードはそれが属するLMスコアをシェアする。代表語のLMスコアは非常に高い為、キーワードのLMスコアも大幅に増加する。結果として、認識精度が効率的に向上する。

しかしながら、上記のクラスベースLM方法を使ったとしても、正しく認識できないキーワードがある程度存在する。従って、音声認識システム、特に会議支援システムにおいて、ユーザが満足できない音声認識結果となっていた。

概要

音声認識エンジン改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な装置を提供する。実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換え置換部とを備える。

目的

特許第5282737号公報
US2012/0290302号公報






音声認識エンジンを改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換え置換部と、を備える音声認識結果最適化装置

請求項2

前記置換部は、前記発音類似度が前記第1閾値よりも高く、前記セグメントの言語モデルスコアが第2閾値よりも低い場合に、前記セグメントを前記キーワードで置き換える、請求項1に記載の音声認識結果最適化装置。

請求項3

前記計算部は、前記音声認識結果のセグメントの中で、前記言語モデルスコアが前記第2閾値より低いセグメントとキーワードリスト内のキーワードとの発音類似度を計算する、請求項2に記載の音声認識結果最適化装置。

請求項4

前記計算部は、前記音声認識結果の前記セグメントと前記キーワードリスト内の前記キーワードとの聴覚距離を計算し、前記聴覚距離を前記キーワードの文字数音節数、又は音素数で除算することで得られる平均聴覚距離に基づいて、前記発音類似度を計算する、請求項1に記載の音声認識結果最適化装置。

請求項5

前記計算部は、前記セグメントの音素系列と前記キーワードの音素系列との音素聴覚距離を計算する、請求項4記載の音声認識結果最適化装置。

請求項6

前記計算部は、音素混同行列を重みとして用いて、前記セグメントの音素系列と前記キーワードの音素系列との前記音素聴覚距離を計算する、請求項5に記載の音声認識結果最適化装置。

請求項7

前記計算部は、前記セグメントの音系列と前記キーワードの音系列との音聴覚距離を計算する、請求項5に記載の音声認識結果最適化装置。

請求項8

前記計算部は、音混同行列を重みとして用いて、前記セグメントの音系列と前記キーワードの音系列との前記音聴覚距離を計算する、請求項7に記載の音声認識結果最適化装置。

請求項9

前記計算部は、前記セグメントと前記キーワードとの前記聴覚距離として、前記セグメントの音素系列と前記キーワードの音素系列との前記音素聴覚距離と、前記セグメントの音系列と前記キーワードの音系列との前記音聴覚距離と、に対して重み付き平均を計算する、請求項7に記載の音声認識結果最適化装置。

請求項10

音声認識エンジンから音声認識結果を受け取るステップと、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算するステップと、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換えるステップと、を備える音声認識結果最適化方法

請求項11

キーワードリストを介して音声認識結果を最適化するためのコンピュータに用いられるプログラムであって、前記コンピュータに、音声認識エンジンから前記音声認識結果を受け取る機能と、前記音声認識結果のセグメントと前記キーワードリスト内のキーワードとの発音類似度を計算する機能と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換える機能と、を実現させるプログラム。

技術分野

0001

本発明の実施形態は、音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムに関する。

背景技術

0002

音声認識の適用シナリオにおいて、音声内容にはキーワードがいつも含まれる。キーワードが正しく認識されることは、音声認識システムに対するユーザ満足感と大いに関係している。例えば、音声認識システムが会議話者発言内容を認識する会議支援アプリケーションにおいて、その会議に含まれる重要人物名、場所名、技術用語等はキーワードとなる。キーワードの認識精度はこのアプリケーションの最重要な処理指標となる。

0003

キーワードは2つのカテゴリ分類される。もしキーワードが音声認識システムのシステム辞書に含まれない場合は、それを新語という。もしキーワードがシステム辞書に含まれる場合は、それを核語という。新語はシステム辞書に登録されておらず、音声認識システムはシステム辞書の登録語のみを出力できるため、新語を(完全には)直接に認識することが出来ない。

0004

新語のほとんどがシステム辞書に存在する語で構成されており、間接的に認識して出力できるとしても、新語のそのような構成例は学習コーパスでは非常に稀である。この学習コーパスは、新語について非常に低い言語モデル(LM)スコアを生じる。従ってこの方法では、新語の認識成功確率が非常に低くなる。

0005

システム辞書に登録された核語について、もしシステム辞書に存在する非核語が同じまたは類似した発音であって高いLMスコアを有する場合、音声認識システムはこの非核語を出力結果として間違って選択する傾向がある。

0006

このように、通常の音声認識システムによるキーワードの認識精度は非常に低く、キーワードと同じか類似した発音を有する単語が誤認識結果となっていた。

0007

キーワードの認識精度を向上するために、キーワードのLMスコアを増加することは非常に危険である。一般に、クラベースのLMはこの目的で用いられる。この方法では、あるキーワードタイプに対応するクラス(例えば、人名のクラス、場所名のクラス、技術用語のクラス)が構築される。そして、クラスの属性を有する所定数代表語がシステム辞書から選択され、該クラスに付加される。LM学習においては、各クラスのLMスコアは、該クラスに含まれる全ての代表語の統計に基づいて計算される。認識前に、キーワードがシステム辞書に登録され、最適クラスにリンクされる。認識ステージにおいては、キーワードはそれが属するLMスコアをシェアする。代表語のLMスコアは非常に高い為、キーワードのLMスコアも大幅に増加する。結果として、認識精度が効率的に向上する。

0008

しかしながら、上記のクラスベースLM方法を使ったとしても、正しく認識できないキーワードがある程度存在する。従って、音声認識システム、特に会議支援システムにおいて、ユーザが満足できない音声認識結果となっていた。

先行技術

0009

特許第5282737号公報
US2012/0290302号公報

発明が解決しようとする課題

0010

音声認識エンジン改変すること無く、少ない計算コストで、キーワードリストを介して音声認識結果を最適化することが可能な音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムを提供することを目的とする。

課題を解決するための手段

0011

実施形態に係る音声認識結果最適化装置は、音声認識エンジンから音声認識結果を受け取る受取部と、前記音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部と、前記発音類似度が第1閾値よりも高い場合、前記セグメントを前記キーワードで置き換え置換部とを備える。

図面の簡単な説明

0012

1実施形態に係る音声認識結果最適化方法のフローチャート
好適な実施形態に係る音声認識結果最適化方法のフローチャート。
キーワードリストと音声認識結果とのマッチング例を示す図。
平均聴覚距離を計算するための具体例を示す図。
他の実施形態に係る音声認識結果最適化装置のブロック図。

実施例

0013

以下、図面を参照しながら、発明を実施するための実施形態について説明する。

0014

<音声認識結果最適化方法>
本発明の第1の実施形態は音声認識結果最適化方法を提供する。この方法は以下のステップを有する。音声認識結果を受け取るステップ、該音声認識結果のセグメント(分割単位)とキーワードリスト内のキーワードとの発音類似度を計算するステップ、該発音類似度が第1閾値よりも高い場合は、該セグメントをキーワードで置き換えるステップ、である。

0015

図1は、第1の実施形態に係る音声認識結果最適化方法を示すフローチャートである。図1に示すように、先ずステップ101において、音声認識エンジンから音声認識結果101が受信される。

0016

該実施形態において、受信された音声認識結果10は、当業者に周知のいずれかの音声認識エンジン又はシステムを介して取得可能であり、中国語英語日本語等の、いずれかの言語による音声認識結果でありえる。本発明はこれに関して制限は無い。

0017

次にステップ105において、音声認識結果10のセグメントとキーワードリスト20のキーワードとの発音類似度を計算する。

0018

本実施形態においては、音声認識結果のセグメントは、該音声認識結果の単語、複数の隣接する単語の組み合わせ、又は複数の隣接する文字列の組み合わせ、を含む。

0019

本実施形態においては、発音類似度を計算するステップ105の処理は、実際は音声認識結果とキーワードリストとのマッチング処理である。つまり、キーワードリストを用いて音声認識結果の間違った出力セグメントを獲得する処理である。

0020

ステップ105において望ましくは、マッチングは音声認識結果の始端から、全ての音声認識結果について完了するまで実行すべきである。更に計算コストを減らすため、音声認識結果のセグメントであって、言語モデルスコアが第2閾値より低いもののみ、キーワードリストとのマッチングを行ってもよい。音声認識結果のセグメントの言語モデルスコアは、該セグメントに関連する単語の言語モデルスコアに基づいて計算してもよい。ここで音声認識結果の単語の言語モデルスコアは音声認識結果に存在するデータである。

0021

図3は音声認識結果とキーワードリストとのマッチング例を示す図である。図3に示すように、音声認識結果“高強度{gao1qiang2du4,LMS1}{cha2,LMS2}果{guo3,LMS3}制作{zhi4zuo4,LMS4}”は4つの単語、各単語の言語モデルスコア(LMS)、及び各単語の各文字のピンインと音、から構成される。キーワードリスト“キーワード_1{ピンイン_1},...叉管{cha1guan3},...キーワード_N{ピンイン_N}”は、N個のキーワード、各キーワードの各文字のピンインと音、から構成される。

0022

図3の例において、2番目の単語“茶{cha2,LMS2}”と3番目の単語“果{guo3,LMS3}”は1セグメントに組み合わせられる。キーワードリストの各キーワードは音声認識結果の3個のセグメントと夫々マッチングがとられ、各キーワードと各セグメント間の発音類似度が得られる。

0023

本例においては、全てのキーワードについて、2番目の単語“茶{cha2,LMS2}”と3番目の単語“果{guo3,LMS3}”は1セグメントに組み合わせられているが、本実施形態はこれに限られない。各キーワードについて、音声認識結果の複数の隣接する単語、又は複数の隣接する文字を組み合わせてもよい。

0024

マッチング方法について、“高強度茶果制作”と“叉管”を例として以下説明する。

0025

音声認識結果:高強度茶果制作
マッチングすべきキーワード:叉管
1マッチング方法は単語レベルファジーマッチングである:
マッチングすべきセグメントは1又は複数の隣接語であり、その少なくとも1つは次の類似度計算を有する:
茶<->叉管
茶果<->叉管
茶果制作<->叉管
果制作<->叉管
高強度茶果制作<->叉管
.....
他のマッチング方法は文字レベルファジーマッチングである:
マッチングすべきセグメントは1又は複数の隣接文字であり、マッチングすべきタイプ数は第1シナリオより大きく、その少なくとも1つは次の類似度計算を有する:
強度<->叉管
度<->叉管
度茶<->叉管
茶<->叉管
茶果<->叉管
果制<->叉管
高強度茶果制作<->叉管
上記マッチング方法の特定アルゴリズム動的計画アルゴリズムが望ましい。これによれば、アルゴリズムの消費時間を効率的に削減できる。

0026

本実施形態において、セグメントとキーワード間の発音類似度は、その2つの発音の類似度であり、望ましくは2つの聴覚距離を用いて計算すべきである。2つの聴覚距離が小さくなるほど、2つの類似度が高くなる。聴覚距離の計算は図面を用いて後程詳細に説明する。

0027

次にステップ110において、セグメントとキーワード間の発音類似度が第1閾値よりも高い場合、該セグメントを該キーワードで置き換える。

0028

本実施形態において、第1閾値及び第2閾値は実際の用途に応じて設定されるが、本発明はこれに限定されない。

0029

次に、音声認識結果最適化方法の好適実施形態を図2図4を用いて詳細に説明する。

0030

図2に示すように、ステップ201において、ステップ101と同様に、音声認識結果101を受信する。

0031

次にステップ205において、音声認識結果10のセグメントとキーワードリスト20内のキーワードとの平均聴覚距離を計算する。

0032

本実施形態において、聴覚距離の計算は、音声認識結果10のセグメントの音素列とキーワードの音素列間の差と比較するためのものであり、望ましくは、各音素ペア間の聴覚距離は音素混同行列によって重み付けすべきである。音素は発音の基本単位である。標準中国語にとっては、音素はピンインであり、ピンインは子音頭文字)と母音最終文字)に分割される。あるいは、結合した母音は更に単母音に分割される。一般に、子音と母音を用いた音素の分割は、本実施形態の方法にとって十分正確である。音素混同行列は認識結果の統計に基づいて計算され、各音素ペアの混同度の定量的な測定(つまり、音声認識の見地からの聴覚類似度の測定)である。類似した発音を有する2音素は聴覚距離の意味で非常に近い。例えば、標準中国語の音素の“in”と“ing”は発音が非常に似ており、“in”は“ing”として誤認識されやすく、“ing”は“in”として誤認識されやすい。従って、この発音差が出力セグメントの音素列とキーワードの音素列間で生じるならば、聴覚距離への寄与分が相対的に小さくなる。逆に、2音素の発音差が大きいならば、聴覚距離への寄与分が相対的に大きくなる。

0033

標準中国語は音調言語であるため、音系列の比較を聴覚距離計算に付加できる。望ましくは、聴覚距離は音混同行列を用いて重み付けすべきである。

0034

本実施形態において、音素系列の聴覚距離と音系列の聴覚距離を重み付けして加算することが望ましい。例えば、2つの重みをwと1-wに夫々設定する。もし音素系列の聴覚距離の計算のみ考慮するならば、それはw=1のシナリオに対応する。更に、音声認識結果のセグメントとキーワード間の聴覚距離を、該キーワードの文字数音節数、又は音素数で除算することにより、単文字、単音節、又は単音素の平均聴覚距離が得られる。

0035

次に、平均聴覚距離の計算プロセス図4を用いて詳細に説明する。図4に示す通り、セグメント“茶{cha2}果{guo3}”とキーワード“叉管{cha1guan3}”を例として説明する。

0036

第1に、セグメント“茶{cha2}果{guo3}”の音素系列“ch, a, g, uo”とキーワード“叉管{cha1guan3}”の音素系列“ch, a, g, uan”に基づいて、これら2つの音素聴覚距離を計算する。計算時には、各音素ペア間の聴覚距離を音素混同行列を用いて重み付けする。

0037

第2に、セグメント“茶{cha2}果{guo3}”の音系列“2, 3”とキーワード“叉管{cha1guan3}”の音系列“1, 3”に基づいて、これら2つの音聴覚距離を計算する。計算時には、各音ペア間の聴覚距離を音混同行列を用いて重み付けする。

0038

第3に、音素聴覚距離と音聴覚距離の重みをwと1-wに夫々設定する。これら2つの重み付き平均をセグメントとキーワード間の聴覚距離として計算する。

0039

第4に、セグメントとキーワード間の聴覚距離を、該キーワードの文字数“2”、音節数“2”、又は音素数“4”で除算することにより、単文字、単音節、又は単音素の平均聴覚距離を得る。

0040

図2に戻って、次にステップ210において、ステップ205で計算した平均聴覚距離を第1閾値TH1と比較する。平均聴覚距離がTH1より小さい場合は、処理をステップ215へ進める。そうでない場合は、処理をステップ225へ進める。

0041

ステップ215において、セグメント“茶{cha2}果{guo3}”の言語モデルスコアを第2閾値TH2と比較する。セグメント“茶{cha2}果{guo3}”の言語モデルスコアは、セグメント内の単語“茶{cha2}”の言語モデルスコアLMS3と、セグメント内の単語“果{guo3}”の言語モデルスコアLMS4に基づく。例えば、これら2つの積を該セグメントの言語モデルスコアとする。

0042

ステップ215において、言語モデルスコアがTH2より小さい場合は、処理をステップ220へ進める。そうでない場合は、処理をステップ225へ進める。

0043

ステップ220において、セグメント“茶{cha2}果{guo3}”をキーワード“叉管{cha1guan3}”で置き換える。ステップ225において、セグメント“茶{cha2}果{guo3}”を置換無しで保持する。

0044

本実施形態による音声認識結果最適化方法においては、音声認識結果10で誤認識されたキーワードをキーワードリスト20を使って最適化することにより、音声認識結果の品質を向上でき、音声認識システム(特に会議支援システム)の性能を向上できる。本実施形態による方法は、音声認識エンジンの修正無しで実行可能であり、少ない計算コストで適用に大変便利である。キーワードを追加し、又は修正するためには、対応するキーワードリストを修正するのみでよい。

0045

本実施形態方法においては、低いLMスコアを有するセグメントのみを置き換えることにより、置換精度を向上できる。更に、LMスコアは音声認識結果に既に存在するデータを利用して得ることにより、計算コストが非常に少なくて済む。更に本実施形態方法においては、低いLMスコアを有するセグメントのみに対して計算することにより、計算コストを減少できる。本実施形態方法においては、聴覚距離の計算が文字レベル又は単語レベルで処理されるため、計算コストが非常に少なくて済む。

0046

<音声認識結果最適化装置>
発明の同じ概念に基づいて、図5は他の実施形態に係る音声認識結果最適化装置のブロック図である。以下、本実施形態を図面を用いて説明する。第1の実施形態と同じ部分については説明を省略する。

0047

図5に示すように、本実施形態の音声認識結果最適化装置500は以下を有する。音声認識結果を受信する受信部501、該音声認識結果のセグメントとキーワードリスト内のキーワードとの発音類似度を計算する計算部505、該発音類似度が第1閾値よりも高い場合に該セグメントを該キーワードで置き換える置換部510。

0048

本実施形態において、受信部501は音声認識エンジンから音声認識結果10を受け取る。

0049

本実施形態において、受信部501で受信した音声認識結果10は当業者に周知のいずれかの音声認識エンジン又はシステムによる取得結果である。更に、これは中国語、英語、日本語等のいずれかの言語のよる音声認識結果であるが、本発明はこれに限定されない。

0050

本実施形態において、計算部505は、音声認識結果10のセグメントとキーワードリスト20のキーワード間の発音類似度を計算する。

0051

本実施形態において、音声認識結果のセグメントは、該音声認識結果の単語、複数の隣接する単語の組み合わせ、又は複数の隣接する文字列の組み合わせ、を含む。

0052

本実施形態においては、発音類似度を計算する計算部505の処理は、実際は音声認識結果とキーワードリストとのマッチング処理である。つまり、キーワードリストを用いて音声認識結果の間違った出力セグメントを獲得する処理である。

0053

計算部505は、望ましくは、マッチングは音声認識結果の始端から、全ての音声認識結果について完了するまで実行すべきである。更に計算コストを減らすため、音声認識結果のセグメントであって、言語モデルスコアが第2閾値より低いもののみ、キーワードリストとのマッチングを行ってもよい。音声認識結果のセグメントの言語モデルスコアは、該セグメントに関連する単語の言語モデルスコアに基づいて計算してもよい。ここで音声認識結果の単語の言語モデルスコアは音声認識結果に存在するデータである。

0054

計算部505による音声認識結果とキーワードリストとのマッチングの具体例を図3に示す。この詳細内容は図3を用いて説明した第1実施形態の説明と同じため、省略する。

0055

計算部505による音声認識結果とキーワードリストとのマッチング方法は、上記ステップ105で述べた単語レベルファジーマッチング方法又は文字レベルファジーマッチング方法を利用してもよい(説明はここでは省略する)。上記マッチング方法の具体的アルゴリズムは、望ましくは動的計画アルゴリズムがよく、これによれば該アルゴリズムによる消費時間を効率的に短縮できる。

0056

本実施形態において、セグメントとキーワード間の発音類似度は、その2つの発音の類似度であり、望ましくは2つの聴覚距離を用いて計算すべきである。2つの聴覚距離が小さくなるほど、2つの類似度が高くなる。聴覚距離の計算は図面を用いて後程詳細に説明する。

0057

本実施形態において、セグメントとキーワード間の発音類似度が第1閾値よりも高い場合、置換部510により該セグメントを該キーワードで置き換える。

0058

本実施形態において、第1閾値及び第2閾値は実際の用途に応じて設定されるが、本発明はこれに限定されない。

0059

次に、音声認識結果最適化装置の好適実施形態を詳細に説明する。本実施形態において、受信部501が音声認識結果101を受信する。

0060

本実施形態において、計算部505が音声認識結果10のセグメントとキーワードリスト20内のキーワードとの平均聴覚距離を計算する。

0061

本実施形態において、聴覚距離の計算は、音声認識結果10のセグメントの音素列とキーワードの音素列間の差と比較するためのものであり、望ましくは、各音素ペア間の聴覚距離は音素混同行列によって重み付けすべきである。音素は発音の基本単位である。標準中国語にとっては、音素はピンインであり、ピンインは子音(頭文字)と母音(最終文字)に分割される。あるいは、結合した母音は更に単母音に分割される。一般に、子音と母音を用いた音素の分割は、本実施形態の装置にとって十分正確である。音素混同行列は認識結果の統計に基づいて計算され、各音素ペアの混同度の定量的な測定(つまり、音声認識の見地からの聴覚類似度の測定)である。類似した発音を有する2音素は聴覚距離の意味で非常に近い。例えば、標準中国語の音素の“in”と“ing”は発音が非常に似ており、“in”は“ing”として誤認識されやすく、“ing”は“in”として誤認識されやすい。従って、この発音差が出力セグメントの音素列とキーワードの音素列間で生じるならば、聴覚距離への寄与分が相対的に小さくなる。逆に、2音素の発音差が大きいならば、聴覚距離への寄与分が相対的に大きくなる。

0062

標準中国語は音調言語であるため、音系列の比較を聴覚距離計算に付加できる。望ましくは、聴覚距離は音混同行列を用いて重み付けすべきである。

0063

本実施形態において、音素系列の聴覚距離と音系列の聴覚距離を重み付けして加算することが望ましい。例えば、2つの重みをwと1-wに夫々設定する。もし音素系列の聴覚距離の計算のみ考慮するならば、それはw=1のシナリオに対応する。更に、音声認識結果のセグメントとキーワード間の聴覚距離を、該キーワードの文字数、音節数、又は音素数で除算することにより、単文字、単音節、又は単音素の平均聴覚距離が得られる。

0064

次に、計算部505による平均聴覚距離の計算プロセスを、セグメント“茶{cha2}果{guo3}”とキーワード“叉管{cha1guan3}”を例として説明する。

0065

第1に、セグメント“茶{cha2}果{guo3}”の音素系列“ch, a, g, uo”とキーワード“叉管{cha1guan3}”の音素系列“ch, a, g, uan”に基づいて、これら2つの音素聴覚距離を計算する。計算時には、各音素ペア間の聴覚距離を音素混同行列を用いて重み付けする。

0066

第2に、セグメント“茶{cha2}果{guo3}”の音系列“2, 3”とキーワード“叉管{cha1guan3}”の音系列“1, 3”に基づいて、これら2つの音聴覚距離を計算する。計算時には、各音ペア間の聴覚距離を音混同行列を用いて重み付けする。

0067

第3に、音素聴覚距離と音聴覚距離の重みをwと1-wに夫々設定する。これら2つの重み付き平均をセグメントとキーワード間の聴覚距離として計算する。

0068

第4に、セグメントとキーワード間の聴覚距離を、該キーワードの文字数“2”、音節数“2”、又は音素数“4”で除算することにより、単文字、単音節、又は単音素の平均聴覚距離を得る。

0069

本実施形態において、装置500は比較部を有する。比較部は、計算部505により計算された平均聴覚距離を第1閾値TH1と比較し、平均聴覚距離が第1閾値TH1より小さい場合はセグメント“茶{cha2}果{guo3}”の言語モデルスコアを第2閾値TH2と比較する。セグメント“茶{cha2}果{guo3}”の言語モデルスコアは、セグメント内の単語“茶{cha2}”の言語モデルスコアLMS3と、セグメント内の単語“果{guo3}”の言語モデルスコアLMS4に基づく。例えば、これら2つの積を該セグメントの言語モデルスコアとする。

0070

前記言語モデルスコアがTH2より小さい場合、置換部510は、セグメント“茶{cha2}果{guo3}”をキーワード“叉管{cha1guan3}”で置き換える。前記平均聴覚距離がTH1より大きいか等しい場合、又は前記言語モデルスコアがTH2より大きいか等しい場合、置換部510は置換処理を行わず、セグメント“茶{cha2}果{guo3}”を保持する。

0071

本実施形態による音声認識結果最適化装置においては、音声認識結果10で誤認識されたキーワードをキーワードリスト20を使って最適化することにより、音声認識結果の品質を向上でき、音声認識システム(特に会議支援システム)の性能を向上できる。本実施形態による装置は、音声認識エンジンの修正無しで実行可能であり、少ない計算コストで適用に大変便利である。キーワードを追加し、又は修正するためには、対応するキーワードリストを修正するのみでよい。

0072

本実施形態装置においては、低いLMスコアを有するセグメントのみを置き換えることにより、置換精度を向上できる。更に、LMスコアは音声認識結果に既に存在するデータを利用して得ることにより、計算コストが非常に少なくて済む。更に本実施形態装置においては、低いLMスコアを有するセグメントのみに対して計算することにより、計算コストを減少できる。本実施形態装置においては、聴覚距離の計算が文字レベル又は単語レベルで処理されるため、計算コストが非常に少なくて済む。

0073

上述した方法及び装置は、コンピュータ実行可能命令(プログラム)により、及び/又はこれらをプロセッサ制御コードに含ませることにより、実行してもよいことを、当業者は理解できる。コンピュータ実行可能命令は、ディスク、CD、DVD-ROMなどの搬送媒体読み出し専用メモリファームウェア)のようなプログラマブルメモリ光学的又は電子的な信号搬送のようなデータ搬送として供給される。本実施形態の方法・装置は、大規模集積回路の様な半導体、又はゲートアレイによって実行してもよい。これらは例えば、論理チップトランジスタフィールドプログラマブルゲートアレイのようなプログラマブルハードウェア機器ハードウェア回路等である。更に本実施形態の方法・装置は、上記のハードウェア回路とソフトウェアを組み合わせて実行してもよい。

0074

本発明の音声認識結果最適化装置、音声認識結果最適化方法、及びプログラムは、各実施形態として詳細に説明したが、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、様々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同時に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

0075

10・・・音声認識結果
20・・・キーワードリスト
500・・・音声認識結果最適化装置
501・・・受信部
505・・・計算部
510・・・置換部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ