図面 (/)

技術 音声認識辞書作成方法及びその装置と音声認識装置

出願人 三菱電機株式会社
発明者 岡登洋平石井純
出願日 2002年10月8日 (19年2ヶ月経過) 出願番号 2002-294402
公開日 2004年4月30日 (17年8ヶ月経過) 公開番号 2004-133003
状態 特許登録済
技術分野 音声認識
主要キーワード 時刻フレーム 枝狩り 出力表現 文字列表記 ユーザ目的 規則番号 相対順位 出力語
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2004年4月30日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

ある語についての話者発声パリエーションを自動的に音声認識用辞書登録する。

解決手段

入力された見出し語部分文字列に分割し、入力語出力語との関係を表現する語置換規則に基づいて、部分文字列ごとにその部分文字列を上記入力語とする出力語を取得し、この出力語と上記部分文字列と置換することによって、見出し語中の文字列表記には現れない表現を含む言い換え表現とその読みを自動生成する手段を提供する。

概要

背景

従来の音声認識システムは、認識辞書登録されている語彙に基づいて認識を行うため、認識辞書に登録されていない語彙を認識することはできない。しかし、ユーザは認識辞書に登録されている語彙通りの発声を行うとは限らない。例えばユーザが発声対象となる名称を正確に知っているとは限らないし、正確な名称を知っていても省略可能と判断した部位を適宜省略して発声するのが実情である。そこで、音声認識に用いる認識辞書には、同じ単語や概念について、ユーザが異なる言い方をしても認識できるように、あらかじめ複数の言い換えが登録されている必要がある。例えば、特許文献1には、カーナビゲーション音声による操作コマンド言い換え表現を予め登録しておき、ユーザが複数通りの発声をしても正しく認識するための手法が開示されている。

概要

ある語についての話者の発声パリエーションを自動的に音声認識用辞書に登録する。入力された見出し語部分文字列に分割し、入力語出力語との関係を表現する語置換規則に基づいて、部分文字列ごとにその部分文字列を上記入力語とする出力語を取得し、この出力語と上記部分文字列と置換することによって、見出し語中の文字列表記には現れない表現を含む言い換え表現とその読みを自動生成する手段を提供する。     

目的

本発明の目的は、認識語彙低コストかつ効率的に追加することにより、高い認識精度を得る音声認識用辞書作成装置、作成された辞書を用いた音声認識装置、および音声認識用辞書作成方法、作成された辞書を用いた音声認識方法を提供する

効果

実績

技術文献被引用数
3件
牽制数
3件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

見出し語を入力する入力ステップと、不揮発性記憶装置に記憶され入力語出力語との関係を表現する語置換規則に基づいて、上記見出し語を上記入力語とする上記出力語を上記言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、上記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有することを特徴とする音声認識用辞書作成方法

請求項2

前記音声認識用辞書作成方法は、前記入力ステップが入力した見出し語を部分文字列に分割する文字分割ステップを有し、前記言い換え表現作成ステップは、上記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得することを特徴とする請求項1に記載された音声認識用辞書作成方法。

請求項3

記文字列分割ステップは、前記見出し語から分割された部分文字列ごと言語的意味を付与し、前記言い換え表現作成ステップは、上記部分文字列の言語的意味に応じてその部分文字列の省略を指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得することを特徴とする請求項2に記載された音声認識用辞書作成方法。

請求項4

前記文字列分割ステップは、前記見出し語から分割された部分文字列ごとに言語的意味を付与し、前記言い換え表現作成ステップは、上記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得することを特徴とする請求項2に記載された音声認識用辞書作成方法。

請求項5

前記文字列分割ステップは、前記部分文字列ごとに出現頻度尤度言語解析尤度とを付与し、前記言い換え表現作成ステップは、前記部分文字列の上記出現頻度尤度と上記言語解析尤度から前記言い換え表現の発声尤度を算出し、前記出力ステップは、この言い換え表現の発声尤度を音声認識用辞書に記憶させることを特徴とする請求項2乃至請求項4のいずれか一に記載された音声認識用辞書作成方法。

請求項6

前記言い換え表現作成ステップは、作成された前記言い換え表現から前記言い換え表現の発声尤度が所定の条件を満たす言い換え表現を選択し、前記出力ステップは、前記言い換え表現作成ステップが選択した言い換え表現とその読みを音声認識用辞書に記憶させることを特徴とする請求項5に記載された音声認識用辞書作成方法。

請求項7

前記言い換え表現作成ステップは、不揮発性記憶装置が記憶するシステム知識データベースに基づく所定の条件に従って、前記見出し語の言い換え表現とその読みを選択し、前記出力ステップは、前記言い換え表現作成ステップが選択した言い換え表現とその読みを音声認識用辞書に記憶させることを特徴とする請求項1乃至請求項6のいずれか一に記載された音声認識用辞書作成方法。

請求項8

見出し語を入力する入力手段と、不揮発性記憶装置が記憶し入力語と出力語との関係を表現する語置換規則に基づいて、上記見出し語を上記入力語とする上記出力語を上記言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成手段と、上記言い換え表現とその読みを音声認識用辞書に記憶させる出力手段を有する構成とされたことを特徴とする音声認識用辞書作成装置

請求項9

前記音声認識用辞書作成装置は、前記入力手段が入力した見出し語を部分文字列に分割する文字列分割手段を備え、前記言い換え表現作成手段は、上記部分文字列を前記入力語とする前記語置換規則の前記出力語に基づいて、その部分文字列の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項8に記載された音声認識用辞書作成装置。

請求項10

前記文字列分割手段は、前記見出し語から分割された部分文字列ごとに言語的意味を付与し、前記言い換え表現作成手段は、上記部分文字列の言語的意味に応じてその部分文字列の省略を指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項9に記載された音声認識用辞書作成装置。

請求項11

前記文字列分割手段は、前記見出し語から分割された部分文字列ごとに言語的意味を付与し、前記言い換え表現作成手段は、上記部分文字列の言語的意味に応じてその部分文字列と前後の部分文字列との入れ替えを指示する前記語置換規則に基づいて、前記見出し語から分割された部分文字列の言語的意味を参照することにより、前記見出し語の言い換え表現とその読みを取得する構成とされたことを特徴とする請求項9に記載された音声認識用辞書作成装置。

請求項12

前記文字列分割手段は、前記部分文字列ごとに出現頻度尤度と言語解析尤度とを付与し、前記言い換え表現作成手段は、前記部分文字列の上記出現頻度尤度と上記言語解析尤度から前記言い換え表現の発声尤度を算出し、前記出力手段は、この言い換え表現の発声尤度を音声認識用辞書に記憶させる構成とされたことを特徴とする請求項9乃至請求項11の一に記載された音声認識用辞書作成装置。

請求項13

前記言い換え表現作成手段は、作成された前記言い換え表現から前記言い換え表現の発声尤度が所定の条件を満たす言い換え表現を選択し、前記出力手段は、前記言い換え表現作成手段が選択した言い換え表現とその読みを音声認識用辞書に記憶させる構成とされたことを特徴とする請求項12に記載された音声認識用辞書作成装置。

請求項14

前記言い換え表現作成手段は、不揮発性記憶装置が記憶するシステム知識データベースに基づく所定の条件に従って、前記見出し語の言い換え表現とその読みを選択し、前記出力手段は、前記言い換え表現作成手段が選択した言い換え表現とその読みを音声認識用辞書に記憶させる構成とされたことを特徴とする請求項8乃至請求項13のいずれか一に記載された音声認識用辞書作成装置。

請求項15

前記システム知識データベースは、前記音声認識用辞書作成装置についてのハードウェア資源上の制約を満たすことを前記所定の条件とする構成とされたことを特徴とする請求項14に記載された音声認識用辞書作成装置。

請求項16

前記システム知識データベースは、音声認識性質上認識困難な語彙を棄却することを前記所定の条件とする構成とされたことを特徴とする請求項14に記載された音声認識辞書作成装置

請求項17

前記システム知識データベースは、ユーザの使用目的に応じた語彙を優先的に選択することを前記所定の条件とする構成とされたことを特徴とする請求項14に記載された音声認識辞書作成装置。

請求項18

系列に従い入力音声分析して音響特徴量を算出する音響分析手段と、上記音響特徴量と音響標準パタンとを照合し、尤度を算出する尤度計算手段と、上記尤度から音声認識用辞書が記憶する語彙についての尤度を算出し、尤度の高い語彙を認識語彙として出力する照合手段とを有する音声認識装置において、上記音声認識用辞書は、請求項8乃至請求項17のいずれか一に記載された音声認識辞書作成装置により作成されたことを特徴とする音声認識装置。

技術分野

0001

本発明は、言い換え自動登録可能な音声認識のための認識辞書作成方法及びその装置とこの方式で作成した辞書を用いた音声認識装置に関するものである。

0002

従来の音声認識システムは、認識辞書に登録されている語彙に基づいて認識を行うため、認識辞書に登録されていない語彙を認識することはできない。しかし、ユーザは認識辞書に登録されている語彙通りの発声を行うとは限らない。例えばユーザが発声対象となる名称を正確に知っているとは限らないし、正確な名称を知っていても省略可能と判断した部位を適宜省略して発声するのが実情である。そこで、音声認識に用いる認識辞書には、同じ単語や概念について、ユーザが異なる言い方をしても認識できるように、あらかじめ複数の言い換えが登録されている必要がある。例えば、特許文献1には、カーナビゲーション音声による操作コマンド言い換え表現を予め登録しておき、ユーザが複数通りの発声をしても正しく認識するための手法が開示されている。

0003

ここで、例えば、認識対象語表記が「大阪大学菅平高原実験センター」で、その音声的な表記を表す読みが(オオサカダイガクスガダイラコウゲンジッケンセンター)である場合、ユーザは、「阪大菅平実験センター」(ハンダイスガダイラジッケンセンター)や「阪大菅平実験所」(ハンダイスガダイラジッケンジョ)、「大阪大学菅平実験センター」(オオサカダイガクスガダイラジッケンセンター)、「菅平実験センター」(スガダイラジッケンセンター)、「菅平阪大実験センター」(スガダイラハンダイジッケンセンター)などと言い換えて発声することが考えられるが、従来は、想定される言い方のバリエーションを全て人手で辞書に追加していた。

0004

しかし、対象の単語数が多い場合や、認識対象の語彙が逐次更新される場合、これらを全て人手で登録することは困難であり、自動処理が必須である。

0005

この問題に対して、限定されたテキストを対象として言い換えを自動生成する手法として、対象範囲のテキストから形態素解析読み付与あいまい性、部分的な省略を考慮した言い換えを辞書へ自動追加する方法が特許文献2に開示されている。

0006

図18は、特許文献2に開示された手法による音声認識辞書作成装置の動作を説明する機能ブロック図である。図18において、10は言い換え表現を求める対象となる文字列情報である。11は本文献で開示された辞書作成装置であって、12は文字列情報10をテキスト分割し、その読みを付与する解析処理手段である。また13は解析処理手段12がテキスト分割し、その読みを付与するために参照記憶する言語解析辞書であり、1001はテキスト分割および読み付与手段12の出力に基づいて言い換え表現を生成する語彙作成手段であって、16は語彙作成手段1001が生成した言い換え表現を記憶する語彙記憶手段である。

0007

解析処理手段12は、文字列情報10で示される表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する。分割方法読み方にあいまい性がある場合は、それらを全て含むような複数の候補へ分割することができる。言語解析辞書13は、解析処理部がテキスト分割し読み付与するために参照する辞書である。

0008

語彙作成手段1001は、解析処理手段12で分割されて読みを付与されたテキストを読み込み、分割した候補から任意の部分文字列の組み合わせを生成して、出力する。

0009

語彙記憶手段16は、音声認識用の辞書であり、語彙作成手段1001で作成された部分文字列の組み合わせとその読みを認識語彙として記憶する。

0010

図19は、特許文献2で開示された手法による音声認識辞書作成の例である。「大阪大学菅平実験センター」という認識対象語は、形態素解析されて形態素へ分割される。分割した形態素それぞれに読みを付与し、これらの任意の組み合わせを辞書へ登録する。さらに、形態素分割のあいまい性、読み付与のあいまい性が考慮され、組み合わせのそれぞれに出現確率を付与することも可能である。この場合であれば、図19に示す6つの形態素がそれぞれ一通りの読みを持つため、 63通りの組み合わせが生成される。

0011

また、認識対象語を、この語よりも短い言語単位の組み合わせとして表すことにより、任意の言い換えを大語彙連続音声認識枠組みでも扱うことができる。一般的な大語彙の連続音声を対象とした音声認識方法として、大量のテキストから単語の連鎖確率を統計的に学習した言語モデルを認識辞書として用いる方法がある。例えば、特許文献3では、読みを考慮して日本語の大語彙を扱う言語モデルを作成する方法が開示されている。

0012

これらの手法により認識辞書を作成することにより、音声認識を実施可能である。その典型的な手法は、非特許文献1に詳しく記されている。

0013

【特許文献1】
特開2000−029490(段落0051)

0014

【特許文献2】
特開2002−41081(第1図)

0015

【特許文献3】
特開平11−259088(段落0011−0046、第2図)

0016

【非特許文献1】
「音声認識の基礎(上、下)」L.R.RABIER、B.H.JUANG(古井監訳)、1995年、11月、NTアドバンステクノロジ

背景技術

0017

【非特許文献2】
「音声認識システム」鹿野・伊・河原・武田・山本、2001年、オーム社、p108

0018

しかし、特許文献2で開示された手法は、主に認識対象とするテキストの一部を組み合わせることにより言い換え表現を生成するものである。したがって認識対象となるテキスト表記には現れない表現を組み合わせて得られるような言い換え表現を生成することができない。また与えられたテキストの部分の順序が入れ替わる言い換え表現を生成することもできないという問題がある。

0019

また、特許文献3で開示された手法は、高精度な言語モデルの学習には認識対象とするユーザ発声を大量に収集し、テキスト化する必要がある。これは、非常に高コストであり、データ収集を含めると開発に長い時間を要する。また、認識単語数が増加すると、全ての単語の十分な言い回しを集めること自体が困難という問題がある。さらに、認識結果と認識対象となる語の関係が明確でないという問題がある。

発明が解決しようとする課題

0020

そこで、本発明の目的は、認識語彙を低コストかつ効率的に追加することにより、高い認識精度を得る音声認識用辞書作成装置、作成された辞書を用いた音声認識装置、および音声認識用辞書作成方法、作成された辞書を用いた音声認識方法を提供することである。

課題を解決するための手段

0021

本発明に係る音声認識用辞書作成方法は、見出し語を入力する入力ステップと、不揮発性記憶装置が記憶し入力語出力語との関係を表現する語置換規則に基づいて、上記見出し語を上記入力語とする上記出力語を上記言い換え表現として取得し、さらにその言い換え表現の読みを取得する言い換え表現作成ステップと、上記言い換え表現とその読みを音声認識用辞書に記憶させる出力ステップを有するものである。

0022

実施の形態1.
図1は、第1の実施の形態に係る音声認識用辞書の作成方法と、これを用いた音声認識方法の動作を説明するブロック図である。図1において、10は認識対象となる文字列表記を含む文字列情報である。文字列情報10は、ハードディスク装置が記憶するファイルやRAMが記憶する文字列、インターネット上のHTMLファイルなどでよく、処理の都度キーボードより入力することで与えてもよい。11はユーザが発声するバリエーション表現を文字列情報10にマッチング可能とする言い換え表現を生成する辞書作成装置である。辞書作成装置11において、12は文字列情報10で示される表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する解析手段である。13は解析処理手段12が文字列情報10をテキスト分割し、各部分文字列に読み付与するために参照する言語解析辞書である。14は言い換え表現を生成する言い換え生成手段であって、15は言い換え表現手段14が言い換え表現を生成するために参照する言い換え辞書である。また110は認識処理の対象となる入力音声であって、111は入力音声110の音声認識を行う音声認識装置である。音声認識装置111において、112は入力音声110の分析を行う音響分析手段であり、113は音響分析手段112の出力結果と音響標準パタンとの尤度を求める尤度計算手段である。114は尤度計算手段113が参照する音響標準パタンであって、115は語彙記憶手段16と尤度計算手段113との出力を照合して音声認識を行う照合手段である。なお、上記において、言語解析辞書13、言い換え辞書15、音響標準パタン114は、主としてハードディスク装置が記憶するファイルにより構成されるが、ROM(Read Only Memory)や磁気カードに記憶させたものを用いてもよく、また他の情報処理装置が動的に生成する結果をプロセス間通信などにより読み込んでこれらの構成要素としてもよい。

0023

本実施の形態による辞書作成装置11の動作について説明する。文字列情報10が入力されると、解析処理手段12は文字列情報10をその形態素や文字などの単位に基づいて、部分文字列に分割する。次に解析処理手段12は部分文字列に対応する読みを言語解析辞書13より読み込む。言語解析辞書13は、文字列表記ごとに少なくとも読み情報を記憶している。図2は、分割単位を形態素とした場合の、言語解析辞書13が記憶する文字列表記と読みの例を示すものである。言語解析辞書13は、文字列表記と対応する読みの他に、解析のための言語情報として、品詞や部分文字列間の接続確率などの情報を保持していてもよい。

0024

次に言い換え生成手段14は、解析処理手段12の出力に対して、言い換え辞書15が記憶する規則を適用して言い換えを生成し、言い換えと入力した元のテキストとの対応付けを付与して語彙記憶手段16へ出力する。図3は、言い換え生成手段14が言い換え表現を生成するために参照する言い換え辞書15の構成例である。この例では、言い換え辞書15は入力の形態素列、その読みと、出力する言い換えの形態素列と読みの対応付けを記憶している。図において、出力側の欄内に「NIL」と記載されている場合は、入力側に指定された表現が省略可能であることを示している。

0025

言い換え生成手段14の出力結果は、語彙記憶手段16によって音声認識用辞書として保管される。ここに格納される内容は、認識語彙の音響標準パタンの並びを表す読みと、読みと対応する元の入力テキストである。さらに、元のテキストおよび読みに付与された、付加情報があれば、それらも保持することもできる。付加情報とは、例えば、出現尤度、認識語彙間の接続情報である。

0026

次に本実施の形態における音声認識装置111の動作について説明する。ユーザが入力音声110を発声すると図示せぬマイクロフォンなどによりこれを取り込み、音響分析手段112は、入力音声10を一定時間間隔で分析して、音声の特徴をよく表す音響特徴量を計算する。例えば、16kHzで標本化された音声信号を10ms間隔で窓長25msのHamming 窓で切り出して、14次のLPC分析から10次のメルケプストラム、10次のデルタメルケプストラムを求め、1次のデルタパワーと合わせた合計21次元音響特徴量ベクトルを計算する。

0027

このようにして求められた音響特徴量に対し、尤度計算手段113は、音響標準パタン114の記憶する音響標準パタンを照合して、照合の度合いを示す尤度を求める。音響標準パタン114とは、音声の断片について音響特徴量の性質を表す標準モデルであって、例えば音素を単位として、HMM(隠れマルコフモデル)等によりモデル化されたものである。また、それぞれのモデルの構造はLeft−to−right型3状態出力確率密度関数が16混合の対角共分散行列からなるガウス分布とすることができる。

0028

さらに照合手段115は、語彙記憶部から読み込んだ認識語彙の音響標準パタン系列に従い、例えばビタビアルゴリズムを使って認識候補の尤度を加算した累積尤度を計算する。入力音声の終端に到達したら、尤度の大きさを比較して認識結果を決定する。

0029

次に図4動作フローを用いて、本実施の形態による辞書の作成手順を説明する。ここでは、例として、「大阪大学菅平実験センター」という語を形態素単位の部分文字列へ分割して言い換えを生成する処理の過程を示すこととする。

0030

まずステップS11において、解析処理手段12は、文字列情報10の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読みを付与する。部分文字列への分割は、一般的な仮名漢字変換や形態素解析と同一の手法を用いることができる。例えば、文字列の左側から辞書と一致する最長部分を逐次切り出す方法や、分割したテキストの組み合わせの中から読み付与辞書13の部分文字列と読みに付与されたスコアが高くなる部分文字列の組み合わせを選択する方法を用いてもよい。

0031

部分文字列への分割や読みの付与にあいまい性がある場合は、可能な部分文字列の組み合わせを包含した形式で出力する。出力形式は、例えば、あいまい性を展開して列挙したものや、ラティストレリスを用いたより効率的な表現を用いる。ラティスやトレリスによる表現方法は、非特許文献2に詳しく説明されている。図2に示した辞書は、形態素を単位とした、部分文字列と対応する読みの組み合わせを示している。「大阪大学菅平実験センター」という入力は、形態素・読み付与のあいまい性を考慮すると、図5に示す3通りの解析候補が得られる。ただし、図中、スラッシュ(/)は部分文字列区切り括弧内はカタカナ表記で当該部分文字列の読みを示す。

0032

なお、解析処理手段12は、文字列情報10として、表記テキストの他にその読みを受け取ってもよい。この場合には、部分文字列に付与される読みは、文字列情報10の有する読みと整合するものとする。図5の例では読み「オオサカダイガクスガダイラコウゲンジッケンセンター」という読みが付与されていれば、[1]の候補のみを選択されることになる。

0033

次にステップS12において言い換え生成手段14は、解析処理手段12の出力を言い換え辞書15と照合する。その結果、言い換え生成手段14は、部分文字列のうち言い換え辞書15との照合に成功したものを言い換え辞書中の表現に置換することで、言い換え表記とその読みを作成する。ここで、言い換え辞書15との照合は、解析処理手段12が出力した部分文字列の複数の部分を範囲としても良い。また照合にあいまい性が生じる場合、すなわち、照合結果として複数の候補が選択できる場合には、それらの組み合わせを全て展開する。図3に示した例では、「大阪/大学」は「阪大」、「菅平/高原」は「菅平」、「実験/センター」は「実験/場」と置き換え可能であることがわかる。この結果、図5に示した分割・読み付与候補から、図6に示す16通りの言い換え文字列を生成する。

0034

最後にステップS13において、生成した言い換え文字列を語彙記憶手段16へ追加する。

0035

次に図7の動作フローを参照し、本実施の形態による音声認識の手順を説明する。まず、ステップS1101において音響分析手段112は、入力音声110を1時刻フレーム分読み込み、音響分析して音響特徴量を得る。続いてステップS1102において、その音響特徴量と各音響標準パタン間の尤度を計算する。次にステップS1103において、認識語彙ごとに読みが指定する音響標準パタンの尤度を加算し、それまでの累積尤度へ加算する。次にS1104において、入力音声が終端に到達しているか判定し、到達していなければステップS1101へ戻る。最後にステップS1105において、入力音声の終端に到達したら、累積尤度が大きい認識候補を求め認識結果として出力する。

0036

以上のように、本実施の形態によれば、文字列を分割し、分割された部分文字列に読み付与辞書を用いて読みを付与して、言い換え辞書に従って言い換え表現を生成可能である。言い換え表現は、辞書を用いて生成するので、元の文字列が含まない表現を生成することができる。また、単に一部の部分文字列をスキップして言い換え表現を生成する方法に比べると、不要な言い換えの生成を少なくすることができる。

0037

なお、本実施の形態による辞書作成方法は、部分文字列への分割を行っているが、言い換え辞書は部分文字列だけでなく入力文字列全体に対しても適用可能であることはいうまでもなく、したがって部分文字列への分割処理を省略しても、言い換え表現を生成することが可能である。

0038

また、本実施の形態による辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、図1の辞書作成装置11に対応する辞書作成プログラムと、音声認識装置111に対応する音声認識プログラムから構成される。辞書作成プログラムは、テキスト分割および読み付与手段12と同様の処理を行う解析処理機能、言い換え生成手段14と同様の処理を行う言い換え生成機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。また、音声認識プログラムは、音響分析手段112と同様の処理を行う音響分析機能、尤度計算手段113と同様の処理を行う尤度計算機能、照合手段115と同様の処理を行う照合機能から構成されるソフトウェアである。

0039

実施の形態2.
図8は、実施の形態2に係る音声認識用辞書の作成方法を説明するブロック図である。図8において、21は本実施の形態による辞書作成装置であり、辞書作成装置21において、22は文字列を部分文字列に分割し、それぞれの部分文字列にその読みと読み以外の言語情報を付与する言語解析手段である。また23は文字列についての読み情報と言語情報を記憶する言語解析辞書である。24は言語解析手段22の出力結果に基づいて、言い換え表現を生成する言語情報付き言い換え生成手段であって、25は、言語情報付き言い換え生成手段24が参照する言語情報付き言い換え辞書である。なお本実施の形態において、実施の形態1と同じ符号を付した構成要素については、実施の形態1と同様であるため説明を省略する。

0040

次に図9の動作フローを用いて、本実施の形態に示す辞書の作成手順を説明する。ここでは、実施の形態1の場合と同様に、「大阪大学菅平実験センター」という入力例について、形態素単位の部分文字列へ分割して言い換えを生成する処理の過程を示す。

0041

初めにステップS21において、言語解析手段22は、文字列情報10の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ読み・言語情報を付与する。典型的な言語解析部の処理は、次のようなものである。

0042

入力の表記文字列を形態素解析し、分割された形態素を単位として読みと品詞情報を得る。次に、形態素に付与された情報から言い換え生成に必要な形態素ごとの意味情報を言語解析辞書23より得る。意味情報とは、地名・人名などの固有名詞のさらに詳細な情報や、業種職種を表す語、修飾語などの分類である。さらに形態素を単位として、表記・品詞・意味を参照して、形態素間係り受け関係や、並列関係などの統語情報を求める。部分文字列への分割や付与する言語情報にあいまい性がある場合、言語解析手段22は可能な組み合わせをすべて包含した形式で出力する。

0043

図10は、解析結果の一例である。分割したそれぞれの部分文字列には読み、品詞、意味の言語情報が付与されている。また、複数の部分文字列にまたがる係り受けや並列関係の統語情報が付与されている。解析の結果、入力例は6形態素からなり、さらに3つの複合名詞から構成されていること、先頭の二つの複合名詞はそれぞれ最後の複合名詞にかかる並列構造を持つことがわかる。

0044

なお、言語解析手段22の入力は、テキスト表記と部分的な言語解析結果としてもよい。部分的な言語解析結果とは、例えば、図10で示した解析結果の一部である。あらかじめ部分的な言語解析結果を与えることにより、言語解析の誤りを防ぐ効果がある。この場合、部分文字列の分割結果と付与される言語情報は、入力の言語情報と整合するものとする。

0045

次にステップS22において、言語情報付き言い換え生成手段24は、言語解析手段22の出力を、言語情報付き言い換え辞書23と照合する。この照合処理においては、部分文字列の表記、読みのほか、部分文字列の品詞、意味、統語情報を利用することができる。辞書との照合にあいまい性がある場合は、それらの組み合わせを全て展開する。

0046

図11は、言語情報付き言い換え辞書25の内容の例を示したものである。本実施の形態では、言語情報付き言い換え辞書は図のように、入力値の条件とそれに対応する出力値の組み合わせを、規則という形で与え、この規則が複数集合したものとなっている。各規則には、2−1、2−2のように規則番号が付与されている。この例では、入力値の条件として、表記の他、意味・構文による構造情報が表されている。ここで、図中の「*」は、照合の際に無視できる項目であることを示す。また、出力値に「<n>(nは数字)」と記載されている場合は、照合結果のn番目の部分文字列を出力とすることを示す。規則番号「2−1」「2−2」は、表記のみと対応する言い換えの例である。一方、規則「2−3」は地名の接尾語が省略可能であることを示す規則である。この規則により、表記上で「菅平/高原」を「菅平」と言い換える場合があることを表している。また、規則「2−4」では、2つの項(2つの部分文字列)からなる並列関係を検出したとき、それらの順番入れ替えた言い換えを生成する規則の例を示している。このような規則の表現を許すことにより、語順の入れ替えや、隣接する部分文字列の言語情報に依存した言い換えの生成を処理できる。複数の部分文字列の照合は、統語情報を利用する。このため、「大学/菅平」「高原/実験」のように隣接しても、直接の統語関係がない場合は照合しない。

0047

ステップS23において言語情報付き言い換え生成手段24が照合に成功した場合は、該当部分を言い換え辞書の出力表現に置換した表記・読みを作成する。図3に示した辞書では、実施の形態1について図6に示した言い換えの生成のほかに、省略や語順の入れ替えを許すため、図12に示す16通りの言い換えが生成可能である。

0048

最後にステップS24において、生成した文字列を辞書へ追加する。

0049

本実施の形態によれば、言語情報付き言い換え辞書25に従って表記と読みに加えて、意味や統語情報などの言語情報を利用することにより、言い換え表現を生成できる。ここで生成する言い換え表現は、言語情報を考慮したものであるため、不適切な言い換えを廃し、実際の発声を広範囲カバーする結果、このような認識辞書を用いることで、従来より音声認識の精度を向上することができる。

0050

なお、本実施の形態における辞書作成方法は、プログラムとして記憶媒体に記憶することもできる。このプログラムは、言語解析手段22と同様の処理を行う言語解析機能、言語情報付き言い換え生成手段24と同様の処理を行う言語情報付き言い換え生成機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。

0051

実施の形態3.
図13は、実施の形態3に係る音声認識用辞書の作成方法を説明するブロック図である。図13において、30は言い換え表現の生成対象となる文字列情報である。本実施の形態においては、文字列情報30は出現頻度情報も有するものとする。31は本実施の形態における辞書作成装置である。辞書作成装置31において、32は文字列情報30のテキスト表記を部分文字列に分割するとともに、各部分文字列に出現頻度尤度を付与する言語解析・尤度付与手段である。33は言語解析・尤度付与手段32が参照する言語解析用尤度付き辞書である。34は言語解析・尤度付与手段32の出力結果に基づいて、各部分文字列に規則を適用し、言い換え表現を生成する一方で、言い換え生成尤度を付与する言語情報・尤度付き言い換え生成手段である。35は言語情報・尤度付き言い換え生成手段34が参照する言語情報・尤度付き言い換え辞書である。36は言語情報・尤度付き言い換え生成手段34の出力結果に基づいて、各言い換え表現の発声尤度を計算する言い換え生成尤度計算手段である。なお本実施の形態において、実施の形態1と同じ符号を付した構成要素については、実施の形態1と同様の動作を行うものであるため説明を省略する。

0052

本実施の形態の特徴的な部分は、辞書作成装置31が、出現頻度情報と、テキスト分割および言語情報付与における解析の尤もらしさと、生成した言い換えが出現する確率を考慮した尤度を生成した言い換えに付与する点にある。以下、図13の機能ブロックについて説明する。

0053

言語解析・尤度付与手段32は、文字列情報30から表記テキストを読み込み、可能な全ての分割候補による部分文字列へ分割する一方で、言語解析用尤度付き辞書33を参照して、それぞれの部分文字列へ言語情報、出現頻度尤度および言語解析尤度を付与する。ここで言語情報には、部分文字列の読みと、品詞、意味、統語情報などを含み、出現頻度尤度には、文字列情報30が有する出現頻度情報から求められる出現のしやすさを表す数値を含む。また言語解析尤度とは、表記テキストから分割された各部分文字列に付与された言語情報の尤もらしさを表す数値である。言語解析・尤度付与手段32の解析結果は、分割された各部分文字列とその言語情報、出現頻度尤度、言語解析尤度の組、あるいは等価な出力形式で出力する。例えば図5で示した3つの分割・言語情報付与候補に対して、それぞれL0(1)、L0(2)、L0(3)、L0(4)という出現頻度尤度と、L1(1)、L1(2)、L1(3)、L1(4)という言語解析尤度を付与する。

0054

次に、言語情報・尤度付き言い換え生成手段34は、言語解析・尤度付与手段32の出力結果を読み込み、言語情報・尤度付き言い換え辞書35の記憶する規則の中から適用可能なものを選択して、言い換え表現を生成する。その一方で、言語情報・尤度付き言い換え生成手段34は、それぞれの言い換えが生成される出現確率を表す言い換え尤度を付与する。例えば、図6で示した言い換え生成結果について、それぞれL2(1−1)、L2(1−2)…というように、言い換え生成尤度を付与する。

0055

最後に、言い換え生成尤度計算手段36は、言語情報・尤度付き言い換え生成手段34の出力を読み込み、上記で説明した出現頻度尤度L0、言語解析尤度L1、言い換え尤度L2と、次に説明する読み配列尤度L3のうち、少なくとも一つを用いて対象語の発声尤度を計算し、認識語彙、その読みとともに語彙記憶手段16へ格納する。この読み配列尤度L3とは、生成した読みの発声のしやすさや一般性を考慮して算出される尤度である。例えば、生成された認識語彙の読みYがm個モーラによりY=[y1...ym] と表わすことができるとき、読み付与尤度L3を発声される確率をP(Y)とする。さらに、P(Y)は、語彙のモーラ数に関して定義される確率分布 とモーラ単位のN−gram確率Pseq(Y)の重み付き線形和として、P(Y)=α1Plen(m)+α2Pseq(Y)、あるいは両者の積であるP(Y)=α1Plen(m)×α2Pseq(Y) とする。ここでα1、α2は重み付けパラメータである。Pseq(Y)は、式1に基づいて算出する。

0056

【数1】

0057

次に図14を用いて参照し、実施の形態3にかかるシステムの動作フローを説明する。まずステップS31において、言語解析・尤度付与手段32は、文字列情報および出現頻度情報30の表記テキストを部分文字列へ分割し、それぞれの部分文字列へ言語情報と言語解析尤度を付与する。言語解析尤度は、例えば、解析時に適用したそれぞれの規則にあらかじめ尤度を付与しておき、それらの重み付き加重和や積として算出する。

0058

次にステップS32において、言語情報・尤度付き言い換え生成手段34は、言語情報・尤度付き言い換え辞書35を参照し、言語解析・尤度付与手段32の出力である表記の部分文字列あるいは付与した言語情報と照合する辞書エントリ検索する。

0059

続いてステップS33において、言い換え生成尤度計算手段36は、テキスト分割および読み付与尤度L1、言い換え尤度L2、生成された認識語彙の読み配列に基づく読み配列尤度L3の少なくとも一つを用いて、例えばそれらを重み付き加算して、それぞれの言い換えごとに尤度を付与する。

0060

最後にステップS34において、生成した文字列と尤度を認識辞書へ追加する。

0061

本実施の形態によれば、言語情報・尤度付き言い換え辞書の記憶する言語情報を参照して照合処理を行うことにより、もとの文字列表記にはない表記を用いた言い換え表現を生成可能である。このため、不要な言い換えを生成することが少なく、効率的に言い換えを自動で生成することができる。さらに、それぞれの認識語彙に言語解析の信頼性、言い換えられる表現の出現確率を考慮した尤度を付与しており、この尤度は、言い換え候補の尤もらしさを表しているため、音声認識時に計算する累積尤度と合わせて、認識結果に反映することにより、精度の高い音声認識処理を実現することができる。

0062

なお、本実施の形態による辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段32と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段34と同様の処理を行う言語情報・尤度付き言い換え生成機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。

0063

実施の形態4.
図15は、実施の形態4に係る音声認識用辞書の作成方法を説明するブロック図である。本実施の形態において、41は生成した言い換え表現のうち尤度の低いものを削除する語彙候補枝刈り手段である。なお、本実施の形態において実施の形態3と同一の符号を付した構成要素については、実施の形態3と同様の動作を行うものであるため、説明を省略する。

0064

語彙候補枝刈り手段41は、認識語彙の表記・読みと、言い換え生成尤度計算手段36にて計算された言い換え生成尤度を入力として読み込み、入力された文字列情報一つごとに生成される認識語彙とその尤度のうち、尤度値相対順位、尤度値としきい値との比較の少なくとも一条件により選んだ認識語彙のみ語彙記録部へ登録する。

0065

次に図16を用いて、本実施の形態に係るシステムの動作フローを説明する。ただし、ステップS31、S32、S33については実施の形態3と同様の動作を行うものであるため、同一の記号を付し、説明を省略する。

0066

ステップS41において、語彙候補枝狩り手段41は、ステップS33により生成された認識語彙のうち、同一の語から生成された言い換えの中の相対的な尤度差、しきい値の少なくとも一条件を用いて、尤度が小さい言い換えを認識候補から削除する。

0067

次に、ステップS42において、ステップS41の結果残存している言い換え候補を認識語彙として語彙記憶手段16へ記憶する。

0068

本実施の形態によれば、尤度が低く、出現する見込みが少ない言い換えを認識語彙から削除するため、この結果得られる認識辞書を用いて音声認識を行うことにより、語彙候補枝刈りを実施しない場合に比べて認識辞書サイズを削減することができ、限られた計算量・メモリで言い換えを処理可能とする効果がある。

0069

なお、本実施の形態における辞書作成方法、音声認識方法はプログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段32と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段34と同様の処理を行う言語情報・尤度付き言い換え生成機能、語彙候補枝刈り手段41と同様の処理を行う語彙候補枝刈り機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。

0070

実施の形態5.
図17は、実施の形態5に係る音声認識用辞書の作成方法を説明するブロック図である。図において、51は一以上の言い換え表現から所定の制約適合する言い換え表現を選択する言い換え検証手段である。52は言い換え検証手段51に対して制約条件を与えるシステム知識データベースである。なお、本実施の形態において実施の形態3と同一の符号を付した構成要素については、実施の形態3と同様の動作を行うものであるため、説明を省略する。

0071

次に本実施の形態による処理について説明する。言い換え検証手段51は、言い換え生成尤度計算手段36の出力する登録対象語彙の言い換え表現を全て読み込む。次に、システム知識データベース52に与えられた制約に従い、認識語彙に用いる言い換え表現を選択する。システム知識データベース52による制約とは、例えば音声認識システムの計算速度、メモリ量など、現実実時間処理するために課せられる制約であり、これを満たすために生成された言い換え全体から尤度の低いものを順次削除する。具体的には、認識語彙から計算量と必要なメモリ量を求め、システムの条件を超える場合は、尤度の低い言い換えから順に認識語彙から削除する。ただし、全ての語について少なくとも一つの認識語彙は残す。

0072

システム知識データベース52による別の制約は、音声認識の性質から認識困難な語彙を削除するものである。例えば、認識語彙の読みの長さが非常に短い場合、十分な認識精度が確保できないという音声認識の制約がある。これを避けて十分な精度を得るために、例えば2音節以下の短い言い換えを削除する。あるいは、言い換え表現として同音異義語が多数生成されることによる選択範囲の制約も考えられる。同音、あるいは非常に類似した認識語彙がある場合は、正しく認識できたとしても、さらに認識語彙の候補から同定する必要が生じる。この候補数が増加すると、認識しても同定の処理が困難となる。そこで、このような制約条件をシステム知識データベース52に定義することにより、尤度が低い同音あるいは類似した言い換えを削除する。

0073

またその他の制約として、対象とするユーザ目的に応じた語彙の設定を行うことが考えられる。例えば、ある施設名がユーザ発話の認識対象であっても、ユーザが施設の電話番号をねる場合と、施設近辺天気を尋ねる場合では、それぞれ言い換えの傾向が異なる。これは、電話番号を尋ねる場合は、対象施設チェーン名など、他の施設と識別する情報が強調される一方、天気を尋ねる場合は場所の情報こそが重要と考えられるためである。このような目的を達成するためにタスク知識による言い換え型の制約を条件としてシステム知識データベースに記述する。

0074

このような言い換え検証部51による処理を通じて、システムが実用的に稼動可能な認識語彙を選択する。最後に選択された言い換えとその尤度を認識対象語彙として語彙記憶手段16へ出力する。

0075

本実施の形態によれば、システムの言い換え検証手段51によって、システムの制約を考慮した認識語彙を設定可能となり、全体の認識精度を改善させる効果がある。また、限られた計算量・メモリでの実施のために、認識辞書サイズを削減する効果がある。この結果、音声認識に用いた場合は、コンパクトで高精度の音声認識エンジン構築可能となる。

発明を実施するための最良の形態

0076

なお、本実施の形態における辞書作成方法、音声認識方法は、プログラムとして記憶媒体に記憶することもできる。この場合、このプログラムは、言語解析・尤度付与手段32と同様の処理を行う言語解析・尤度付与機能、言語情報・尤度付き言い換え生成手段34と同様の処理を行う言語情報・尤度付き言い換え生成機能、言い換え検証手段51と同様の処理を行う言い換え検証機能、語彙記憶手段16と同様の処理を行う語彙記憶機能から構成されるソフトウェアである。

図面の簡単な説明

0077

本発明は、入力語と出力語の関係を記述した語置換規則に基づいて見出し語の言い換え表現とその読みを作成することとしたので、見出し語の表記上出現しない表現を組み合わせた表現を含む音声認識用辞書を自動生成することが可能となる。

図1
実施の形態1による辞書作成装置と音声認識装置のブロック図である。
図2
実施の形態1における言語解析辞書の記憶内容例を示す図である。
図3
実施の形態1における語置換規則の例を示す図である。
図4
実施の形態1における辞書作成処理を表すフローチャートである。
図5
実施の形態1における形態素解析を用いた文字列分割結果の例を示す図である。
図6
実施の形態1における言い換え表現生成結果の例を示す図である。
図7
実施の形態1における音声認識処理を表すフローチャートである。
図8
実施の形態2における辞書作成装置のブロック図である。
図9
実施の形態2における辞書作成処理のフローチャートである。
図10
実施の形態2における言語的意味の付与例を示す図である。
図11
実施の形態2における語置換規則の例を示す図である。
図12
実施の形態2における言い換え表現生成結果の例を示す図である。
図13
実施の形態3における辞書作成装置のブロック図である。
図14
実施の形態3における辞書作成処理のフローチャートである。
図15
実施の形態4における辞書作成装置のブロック図である。
図16
実施の形態4における辞書作成処理のフローチャートである。
図17
実施の形態5における辞書作成装置のブロック図である。
図18
従来技術による辞書作成装置のブロック図である。
図19
従来技術の動作例を示す図である。
【符号の説明】
10:文字列情報 11:辞書作成装置 12:解析処理手段
13:言語解析辞書 14:言い換え生成手段 15:言い換え辞書
16:語彙記憶手段 21:辞書作成装置 22:解析処理手段
23:言語解析辞書 24:言語情報付き言い換え生成手段
25:言い換え辞書 31:辞書作成装置 32:言語解析・尤度付与手段
33:言語解析用尤度付き辞書 34:言語情報・尤度付き言い換え生成手段
35:言語情報・尤度付き言い換え辞書 36:言い換え生成尤度計算手段
41:語彙候補枝刈り手段 51:言い換え検証手段
52:システム知識データベース 110:入力音声 111:音声認識装置
112:音響分析手段 113:尤度計算手段 114:音響標準パタン
115:照合手段 1001:語彙作成手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ