図面 (/)
課題
解決手段
外部のシステム又は装置内部から受け取ることができるテキストデータ入力手段と、前記テキストデータ入力手段で入力されたテキストデータを形態素解析する解析手段と、前記解析手段結果のテキストが前記テキストデータ内での出現する割合を計算し、前記テキストに数値を付与する定量評価手段と、前記解析手段結果のテキストと読み音声データのデータ関連付けを持たせる組み合わせ手段と、前記組み合わせ手段で組みわせたデータ同士の関連付けの範囲を調整する第一調整手段と、前記第一調整手段で調整したデータ同士の関連付けと、前記定量評価手段で付与した出現率を利用して音声認識処理を制御する音声認識処理手段と、を備えることを特徴とする音声認識テキストデータ出力制御装置によって、音声認識処理の認識率向上が期待できる。
概要
背景
現在、聴覚障がい者向けサービスのひとつとして、テレビ放送の音声をすべてテキスト化し、映像音声データと一緒にテキストをデータとして圧縮して放送をする、字幕放送が行われている。
近年、テレビ放送の視聴スタイルが変化し、家事を行いながらといった、いわゆる「ながら視聴」が増え、聴覚障がい者以外でも、字幕を表示しながらの視聴できる字幕放送の需要が高まっている。さらにスマートフォン、タブレットの普及により、音を出力できない環境でのテレビ視聴も増加、字幕放送の需要が急激に高まってきており、国をあげて字幕付与率の向上に努めている。
字幕番組用のテキストデータは、ドラマやバラエティといった事前収録番組の場合、あらかじめ準備をすることができるが、報道番組などの生放送では、放送しながらテキスト化をする必要があり、リアルタイムで音声をテキスト化する技術が求められている。
概要
音声認識処理を正確に認識し、且つ、迅速に修正を行うこと。外部のシステム又は装置内部から受け取ることができるテキストデータ入力手段と、前記テキストデータ入力手段で入力されたテキストデータを形態素解析する解析手段と、前記解析手段結果のテキストが前記テキストデータ内での出現する割合を計算し、前記テキストに数値を付与する定量評価手段と、前記解析手段結果のテキストと読み音声データのデータ関連付けを持たせる組み合わせ手段と、前記組み合わせ手段で組みわせたデータ同士の関連付けの範囲を調整する第一調整手段と、前記第一調整手段で調整したデータ同士の関連付けと、前記定量評価手段で付与した出現率を利用して音声認識処理を制御する音声認識処理手段と、を備えることを特徴とする音声認識テキストデータ出力制御装置によって、音声認識処理の認識率向上が期待できる。
目的
本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、辞書データを付き合って音声認識の精度を上げると共に、音声認識処理テキストデータを、より正確に、且つ、少ない人数のオペレータで迅速に修正することが可能な音声認識テキストデータ出力制御技術を提供する
効果
実績
- 技術文献被引用数
- 0件
- 牽制数
- 0件
この技術が所属する分野
請求項1
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御装置であって、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ることができるテキストデータ群入力手段と、前記テキストデータ群入力手段で入力されたテキストデータ群を形態素解析する解析手段と、前記解析手段結果のテキストデータが前記テキストデータ群内での出現する割合を計算し、前記テキストデータに出現率を付与する定量評価手段と、前記解析手段結果のテキストデータと読み音声データのデータ関連付けを持たせる組み合わせ手段と、前記組み合わせ手段で組みわせたデータ同士の関連付けの範囲を調整する第一調整手段と、前記第一調整手段で調整したデータ同士の関連付けと、前記定量評価手段で付与した出現率を利用して音声認識処理を制御する音声認識処理手段と、を備えることを特徴とした音声認識テキストデータ出力制御装置。
請求項2
請求項1に記載の音声認識テキストデータ出力制御装置であって、前記音声認識処理手段で得られたテキストデータの認識確度を計算する計算手段と、前記計算手段結果の認識確度と前記音声認識処理手段で得られたテキストデータとを紐づけて表示制御部に送信する送信手段と、を備えることを特徴とした請求項1に記載の音声認識テキストデータ出力制御装置。
請求項3
請求項2に記載の音声認識テキストデータ出力制御装置であって、前記音声認識処理手段で得られたテキストデータと、前記音声認識処理手段で得られたテキストデータの認識確度を色、乃至数値で表示する第一表示手段と、前記第一表示手段で表示された後に、前記音声認識処理手段で得られたテキストデータの認識音声が再生されるディレイ再生手段と、前記第一表示手段で表示されたテキストデータの一つを選択する選択手段と、前記選択手段で選択された前記テキストデータを確定テキストデータとして、テキストデータを出力する出力手段と、を備えることを特徴とした請求項1又は2に記載の音声認識テキストデータ出力制御装置。
請求項4
請求項3に記載の音声認識テキストデータ出力制御装置であって、前記選択手段で選択されたテキストデータの音声認識確度正答率を計算する計算手段と、前記計算手段で計算された数値を基に、前記解析手段結果のテキストと前記読み音声データの前記データ関連付けをする数を増減させる第二調整手段と、を備えることを特徴とした請求項1又は2に記載の音声認識テキストデータ出力制御装置。
請求項5
請求項3に記載の音声認識テキストデータ出力制御装置であって、前記第一表示手段で表示したテキストデータを認識テキストデータとして表示する第二表示手段と、前記選択手段で選択したテキストデータを正答テキストデータとして表示する第三表示手段と、前記第二表示手段と、前記第三表示手段で表示したテキストデータを並列表示した状態で、音声認識した音声を再生する任意再生手段と、を備えることを特徴とした請求項1又は2に記載の音声認識テキストデータ出力制御装置。
請求項6
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御方法であって、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ることができるテキストデータ群入力ステップと、前記テキストデータ群入力手段で入力されたテキストデータ群を形態素解析する解析手段と、前記解析手段結果のテキストデータが前記テキストデータ群内での出現する割合を計算し、前記テキストデータに出現率を付与する定量評価ステップと、前記解析手段結果のテキストデータと読み音声データのデータ関連付けを持たせる組み合わせステップと、前記組み合わせ手段で組みわせたデータ同士の関連付けの範囲を調整する調整ステップと、前記第一調整手段で調整したデータ同士の関連付けと、前記定量評価手段で付与した出現率を利用して音声認識処理を制御する音声認識処理ステップと、を含むことを特徴とする音声認識テキストデータ出力制御方法。
請求項7
音声データ及び前記音声データを音声認識させた結果であるテキストデータの出力を制御する音声認識テキストデータ出力制御するコンピュータを、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ることができるテキストデータ群入力手段、前記テキストデータ群入力手段で入力されたテキストデータ群を形態素解析する解析手段、前記解析手段結果のテキストデータが前記テキストデータ群内での出現する割合を計算し、前記テキストデータに出現率を付与する定量評価手段、前記解析手段結果のテキストデータと読み音声データのデータ関連付けを持たせる組み合わせ手段、前記組み合わせ手段で組みわせたデータ同士の関連付けの範囲を調整する第一調整手段、前記第一調整手段で調整したデータ同士の関連付けと、前記定量評価手段で付与した出現率を利用して音声認識処理を制御する音声認識処理手段、、として機能させることを特徴とする音声認識テキストデータ出力制御プログラム。
技術分野
背景技術
0003
近年、テレビ放送の視聴スタイルが変化し、家事を行いながらといった、いわゆる「ながら視聴」が増え、聴覚障がい者以外でも、字幕を表示しながらの視聴できる字幕放送の需要が高まっている。さらにスマートフォン、タブレットの普及により、音を出力できない環境でのテレビ視聴も増加、字幕放送の需要が急激に高まってきており、国をあげて字幕付与率の向上に努めている。
0004
字幕番組用のテキストデータは、ドラマやバラエティといった事前収録番組の場合、あらかじめ準備をすることができるが、報道番組などの生放送では、放送しながらテキスト化をする必要があり、リアルタイムで音声をテキスト化する技術が求められている。
先行技術
0005
特開2001ー60192号公報
特開2004ー72705号公報
特開2004ー226910号公報
特開2004ー240920号公報
特開2014ー149490号公報
特開2014ー219569号公報
発明が解決しようとする課題
0006
特許文献1、3の発明では、音声認識システムを利用した音声認識テキストをタッチパネル上にて、画面上に表示される認識結果をタッチして特定し、認識誤りの種別に応じて、必要であれば修正のための文字列を、キーボードを用いて入力している。この操作では画面タッチとキーボードの操作を行き来するため、修正手順だけでなくその動きにも習熟が必要で、迅速な修正作業が困難となる。
0007
特許文献2に記載されている従来のリアルタイム字幕制作システムでは、特殊訓練された数人の入力オペレータが音声を聞きながら高速タイピングを行う必要がある。この方式はオペレータコストが増加するだけではなく、聞き取り、タイピングによる遅延が発生、リアルタイム字幕放送にも関わらず字幕が実際の放送より遅れて表示されている。
0008
特許文献4に記載されている従来の校正システムは、数人オペレータが音声認識結果を確認しながら高速で修正を行う必要がある。特許文献2と同じくオペレータコストが増加するだけではなく、修正オペレーションよる遅延が発生し、リアルタイム字幕放送にも関わらず字幕が非常に遅れて表示されている。
0009
特許文献5に記載されている従来の誤り修正システムは、仮説ラティスを用いて認識スコアを導き、不明瞭な発音や言い間違いといった音響的な理由場合は手書き文字認識で素早く正確に修正可能としているが、各スコアに関してはオペレータは確認することができず、最終的にはオペレータの熟練度によってオペレーションスピードが左右されてしまう。
0010
特許文献6に記載されている辞書作成装置は、統計学的音響モデルを用いてエントロピー計算を行い、言い間違い直し等の認識を中心に辞書作成(言語モデル更新)を行っているが、最新のニュースで使われている固有名詞の出現回数などを使った言語モデル更新には何ら言及しておらず、トレンドのニュース単語の認識率は上がらない。
0011
そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、辞書データを付き合って音声認識の精度を上げると共に、音声認識処理テキストデータを、より正確に、且つ、少ない人数のオペレータで迅速に修正することが可能な音声認識テキストデータ出力制御技術を提供することを目的とする。
課題を解決するための手段
0012
上記の課題を解決するために、請求項1記載の発明は、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ることができるテキストデータ群入力手段と、前記テキストデータ群入力手段で入力されたテキストデータ群を形態素解析する解析手段と、前記解析手段結果のテキストデータが前記テキストデータ群内での出現する割合を計算し、前記テキストデータに出現率を付与する定量評価手段と、前記解析手段結果のテキストデータと読み音声データのデータ関連付けを持たせる組み合わせ手段と、前記組み合わせ手段で組みわせたデータ同士の関連付けの範囲を調整する第一調整手段と、前記第一調整手段で調整したデータ同士の関連付けと、前記定量評価手段で付与した出現率を利用して音声認識処理を制御する音声認識処理手段と、を備えることを特徴としている。
0013
本発明によれば、あらかじめニュース原稿として入稿されているテキストデータ群を解析することにより、現在トレンドワードとなっているテキストを、出現率を基に事前に辞書登録をすることによって、固有名詞の漢字変換の正答率が高まり、音声認識処理の認識率を向上させることができる。結果としてオペレータコストを抑えつつ、正確、且つ、迅速に音声認識テキストデータを作成することができ、その結果正確、且つ、迅速な字幕放送を送出することができる。
0014
請求項2記載の発明は、請求項1に記載の音声認識テキストデータ出力制御装置であって、前記音声認識処理手段で得られたテキストデータの認識確度を計算する計算手段と、前記計算手段結果の認識確度と前記音声認識処理手段で得られたテキストデータとを紐づけて表示制御部に送信する送信手段と、を特徴としている。
0015
本発明によれば、前記音声認識処理結果を使い音声認識した認識確率を表示することによって、誤って音声認識をしたテキストをオペレータが一目で確認できるため、オペレータコストを抑えつつ、正確、且つ、迅速な修正を行うことが可能となり、その結果、正確、且つ、迅速な字幕放送を送出することができる。
0016
請求項3記載の発明は、請求項2に記載の音声認識テキストデータ出力制御装置であって、前記音声認識処理手段で得られたテキストデータと、前記音声認識処理手段で得られたテキストデータの認識確度を色、乃至数値で表示する第一表示手段と、前記第一表示手段で表示された後に、前記音声認識処理手段で得られたテキストデータの認識音声が再生されるディレイ再生手段と、前記第一表示手段で表示されたテキストデータの一つを選択する選択手段と、前記選択手段で選択された前記テキストデータを確定テキストデータとして、テキストデータを出力する出力手段と、を備えることを特徴としている。
0017
本発明によれば、誤って音声認識をしたテキストをオペレータコストを抑えつつ、オペレータが正確、且つ、迅速な修正を行うことが可能となり、その結果、正確、且つ、迅速な字幕放送を送出することができる。
0018
請求項4記載の発明は、請求項3に記載の音声認識テキストデータ出力制御装置であって、前記選択手段で選択されたテキストデータの音声認識確度正答率を計算する計算手段と、前記計算手段で計算された数値を基に、前記解析手段結果のテキストと前記読み音声データの前記データ関連付けをする数を増減させる第二調整手段と、を備えることを特徴としている。
0019
本発明によれば、誤って音声認識をした確率から深層学習を経て、より確度が高い音声認識処理を行うことが可能となり、その結果、正確、且つ、迅速な字幕放送を送出することができる。
0020
請求項5記載の発明は、請求項3に記載の音声認識テキストデータ出力制御装置であって、前記第一表示手段で表示したテキストデータを認識テキストデータとして表示する第二表示手段と、前記選択手段で選択したテキストデータを正答テキストデータとして表示する第三表示手段と、前記第二表示手段と、前記第三表示手段で表示したテキストデータを並列表示した状態で、音声認識した音声を再生する任意再生手段と、を備えることを特徴としている。
0021
本発明によれば、正しく認識したテキストと、誤って音声認識をしたテキストを並記させ、認識させた音声を再生させることにより、音声認識エンジンが認識しやすい音声を発声した本人が確認し、より精度の高い音声認識をすることが可能となる発声の練習をすることが可能となり、その結果、正確、且つ、迅速な字幕放送を送出することができる。
発明の効果
0022
本発明によれば、音声認識処理テキストデータがの確度が上昇し、修正ポイントの減少が見込めるため、オペレータコストを抑えつつ、正確、且つ、迅速に修正することが可能となるため。音声認識テキストデータ出力制御技術を提供することができる。
図面の簡単な説明
0023
本発明の実施形態に係る情報処理システムの概略構成(システム構成)の一例を示す図である。
本発明の実施形態に係る音声認識処理サーバの一例を示す概略構成図(ブロック図)である。
本発明の実施形態に係る音声認識テキストデータ出力制御サーバ一例を示す概略構成図(ブロック図)である。
本発明の実施形態に係る形態素解析処理サーバの一例を示す概略構成図(ブロック図)である。
本発明の辞書生成処理例1に係る辞書生成処理制御の一例を示すフローチャートである。
本発明の辞書生成処理例1に係る辞書生成処理制御のテキスト選択過程の解説図と選択するための数式例である。
本発明の辞書生成処理例1に係る情報処理装置に表示される画面の一例を示す図である。
本発明の辞書生成処理例2に係る辞書生成処理制御の一例を示すフローチャートである。
本発明の音声認識テキストデータ出力実施例に係るテキストデータの出力一例を示すフローチャートである。
本発明の音声認識テキストデータ出力実施例に係る情報処理装置に表示される画面の一例を示す図である。
本発明の音声認識テキストデータ出力実施例に係る音声認識確度正答率の一例を示す図である。
本発明の音声認識テキストと正答テキストを並列表示し、認識させた音声を再生しながら音声認識結果を確認する画面の一例を示す図である。
実施例
0024
以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。
0025
図1は、本発明の実施形態に係る情報処理システム100の一実施形態を示す概略構成図(システム構成図)である。図1に示すように、本発明の実施の形態に係る情報処理システム100は、例示的にリアルタイム音声入力処理装置1、音声認識処理サーバ2、音声認識テキストデータ出力制御サーバ3、形態素解析処理サーバ4、及び情報処理装置5を備えて構成されている。
0026
リアルタイム音声入力処理装置1は、アナログ音声データ及びデジタル音声データをリアルタイムで受信することができる装置である。リアルタイム音声入力処理装置1は、リアルタイム音声データとして受信された音声データを、情報処理システム100内で処理を可能とする形式のデータに変更する機能を有し、例えば、人の声以外の周波数を取り除くノイズキャンセルや、無音区間で区切るなどのデータ処理を行う装置である。
0027
音声認識処理サーバ2は、リアルタイム音声入力処理装置1と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識処理サーバ2は、音声認識処理方法に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識処理装置として機能するものである。具体的に、音声認識処理サーバ2は、リアルタイム音声入力処理装置1から送信される音声データを受信し、音声認識処理を実行し、音声認識させた結果であるテキストデータ、および音声データを後段のサーバに送信する。また、音声認識処理の精度を向上させるために、辞書データとなるテキストデータ群を受信する機能を有するものである。さらに、誤った音声認識をした際に、後段の装置で修正を行った場合、その修正の記録を受信する機能も有している。音声認識処理サーバ2は記憶領域を有しており、音声認識処理を実行する際に使用される、単数又は複数の、音声認識プログラム、各種データベース、及び各種モデルが格納されている。なお、本実施形態においては、日本語のみならず、英語等の外国語についても対象としてもよい。音声認識処理サーバ2のさらに具体的な構成及び動作については、後述する。
0028
音声認識テキストデータ出力制御サーバ3は、音声認識処理サーバ2と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。音声認識テキストデータ出力制御サーバ3は、本実施形態に係る音声認識テキストデータ出力制御に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、音声認識テキストデータ出力制御装置として機能を有するものである。具体的に、音声認識テキストデータ出力制御サーバ3は、音声認識処理サーバ2から受信した音声認識テキストデータと音声データを後述する情報処理装置5に送信しながら、情報処理装置5から受信した修正結果であるテキストデータの出力を制御する。音声認識テキストデータ出力制御サーバ3のさらに具体的な構成及び動作については、後述する。
0029
形態素解析処理サーバ4は、音声認識処理サーバ2と通信可能に所定のネットワークに接続されたサーバ用コンピュータである。形態素解析処理サーバ4は、外部のシステムのテキストデータ群又は装置内部のテキストデータ群から受け取ったテキストデータ群を受信し、本実施形態に係る形態素解析処理に係るソフトウェアプログラムをサーバ用コンピュータが実行することにより、辞書データを生成する機能を有するものである。辞書データとなるテキストデータを生成後は音声認識処理サーバ2に辞書データを送信する機能も有する。形態素解析処理サーバ4は記憶領域を有しており、形態素解析処理を実行する際に使用される、単数又は複数の、形態素解析処理プログラム、各種データベースが格納されている。形態素解析処理サーバ4のさらに具体的な構成及び動作については、後述する。
0030
情報処理装置5は、形態素解析処理サーバ4から辞書データとなるテキストデータ群を受信し、辞書編集後に再度形態素解析処理サーバ4へ辞書を送信する機能、及び、音声認識テキストデータ出力制御サーバ3から取得したテキストデータを受信及び修正したテキストを音声認識テキストデータ出力制御サーバ3へ出力する機能を有する装置である。情報処理装置5は、汎用のコンピュータ装置であり、例えば、所定のネットワークに接続されたスマートフォン等の携帯電話、タブレット端末、ラップトップ/ノートブック型コンピュータ、及び据え置き型コンピュータ等である。
0031
音声認識プログラムは、音声認識処理サーバ2のメインプログラムである上述したサーバ用プログラム等である。音声認識プログラムは、リアルタイム音声入力処理装置1から送信されてくる音声データを基に、情報処理を行うため、記憶領域から呼び出されて実行される。各種データベースは、音声認識処理のために必要な各種辞書、例えば日本語辞書、外国語辞書等が含まれる。各種モデルは、音声認識に使用する音響モデルや言語モデル等を含む。またこの辞書は形態素解析処理サーバ4から受信した辞書データとなるテキストデータ群を受信、もしくは誤った音声認識結果を情報処理装置5で修正した修正データを音声認識テキストデータ出力制御サーバ3経由で受信し、辞書をアップデートする機能を有する。
0032
所定のネットワークは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、リアルタイム音声入力処理装置1と音声認識処理サーバ2との間、音声認識処理サーバ2と音声認識テキストデータ出力制御サーバ3との間、音声認識処理サーバ2と形態素解析処理サーバ4との間、音声認識テキストデータ出力制御サーバ3と情報処理装置5との間で各種情報及び各種データの送受信が可能なように構成されていれば特に制限されない。所定のネットワークは、例えば、インターネットといった広帯域ネットワーク、携帯電話網といったコアネットワーク、LAN(Local Area Network)、あるいはこれらを組み合わせた狭帯域ネットワークにより実現される。
0033
なお、情報処理システム100は、本実施形態では、リアルタイム音声入力処理装置1、音声認識処理サーバ2、音声認識テキストデータ出力制御サーバ3、形態素解析処理サーバ4、及び情報処理装置5を一台ずつ備えて構成されているが、必ずしも一台ずつである必要はない。例えば、リアルタイム音声入力処理装置1に関しては、情報処理システム100が扱える音声データ形式で各装置に入力されていれば、設置しなくてもよい。また、情報処理装置5に関しては、複数台設置して、同時に音声認識テキストデータ出力制御サーバ3と通信を行ってもよい。また、音声認識処理サーバ2の機能と音声認識テキストデータ出力制御サーバ3の機能を同一のサーバで構成してもよいし、別の機能を有するサーバ上に機能を持たせてもよい。
0034
図2は、本発明の実施形態に係る音声認識処理サーバ2の一例を示す概略構成図(ブロック図)である。図2に示すように、音声認識処理サーバ2は、例示的に、各種データ及び各種情報を送受信する送受信部21と、テキストデータ及び音声データの出力を制御するための各種処理を実行する情報処理部22と、各種情報及び各種データを記録する記憶部23と、を備えて構成される。なお、情報処理部22は、例えば、不図示であるが、記憶部23に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
0035
送受信部21は機能的に、リアルタイム音声データ受信部211と、辞書テキストデータ受信部212と、修正結果テキストデータ受信部213と、音声認識結果テキストデータ/音声データ送信部214と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
0036
リアルタイム音声データ受信部211は、図1に示すリアルタイム音声入力処理装置1からリアルタイム音声データを受信する。例えば、リアルタイム音声データ受信部211は、図1に示すリアルタイム音声入力処理装置1が区間分割、及び適正化し、音声が入力された時刻を時刻情報化し、タグ付けされた音声データを受信する。
0037
辞書テキストデータ受信部212は、図1に示す形態素解析処理サーバ4から辞書データとなるテキストデータを受信する。例えば、辞書テキストデータ受信部212は、図1に示す形態素解析処理サーバ4が外部テキストの形態素解析を実施し、生成した辞書テキストデータ適正なタイミングで受信する。
0038
修正結果テキストデータ受信部213は、図1に示す情報処理装置5からテキスト修正結果データを音声認識テキストデータ出力制御サーバ3経由で受信する。例えば、修正結果テキストデータ受信部213は、図1に示す情報処理装置5が、字幕を送出する直前で修正したテキストを時刻情報と共に辞書化したテキスト修正結果データを音声認識テキストデータ出力制御サーバ3へ送信し、音声認識テキストデータ出力制御サーバ3から修正結果を受信する。
0039
音声認識結果テキストデータ/音声データ送信部214は、音声認識結果であるテキストデータを図1に示す音声認識テキストデータ出力制御サーバ3へ送信する。例えば、リアルタイム音声データ受信部211で受信したリアルタイム音声データを情報処理部22による音声認識処理でテキスト化し、結果であるテキストデータに音声時刻情報をタグ付けして図1に示す音声認識テキストデータ出力制御サーバ3へ送信する。また、テキストデータ送信と同時に音声データも送信する。音声認識テキストデータには認識候補が他にある場合、音声認識テキストデータに認識候補テキストを候補順にタグづけして送信する。その認識候補には音声認識の確度の高さを表す音声認識確度データを付与して送信してもよい。
0040
情報処理部22は機能的に、音声認識部221と、辞書データ生成部222と、テキスト出力部223と、を含んで構成されている。
0041
音声認識部221は、リアルタイム音声データ受信部211から受信した音声データを記憶部23に記憶されている音声認識プログラム(不図示)を使って、音声認識処理を行う。音声認識をする際に、認識候補テキストが他にある場合、認識候補テキストを候補順を認識テキストにタグづけしてもよい。その認識候補テキストには音声認識の確度の高さを表す音声認識確度データを付与して送信してもよい。例えば、このプログラム処理を行う際、記憶部23に記憶されている各モデル、辞書を使うことによって、音声認識の効率を上げている。なお、音声認識部221は受信したリアルタイム音声データに時刻情報をタグ付けを行い、記憶部23に保存する。
0042
辞書データ生成部222は、辞書テキストデータ受信部212から受信したテキストデータ、もしくは修正結果テキストデータ受信部213から受信した時刻情報付きテキストデータを、記憶部23に記憶されている辞書に格納できる形式に辞書テキストデータへ変換する処理を行う。
0043
テキスト出力部223は、記憶部23に記憶されている辞書を使って、音声認識部221が音声認識データから音声認識処理を行い、音声データをテキスト化した後、そのテキストを出力する処理を行う。
0044
記憶部23は、あらかじめ定義された音響モデルAMDと、言語モデルデータLMDと、を記録し、保存されている。音響モデルAMDと、言語モデルデータLMDはあらかじめ定義されており、情報処理システム100内では自動アップデートはされなくてもよいが、外部からのデータ受信(不図示)にてアップデートすることは可能である。音響モデルAMDと、言語モデルデータLMDは、図1に示す情報処理装置5から修正結果テキストデータ受信部213を通じて受信したテキスト修正結果データを利用し、自動アップデートはされてもよい。
0045
記憶部23は、情報処理システム100内で自動アップデートされる辞書データDIDと、を記録し、保存されている。辞書データは辞書データ生成部222によって生成された辞書テキストデータにて自動アップデートされ、適宜辞書テキストデータが音声認識部221の処理を支援する。
0046
記憶部23は、リアルタイム音声データ受信部211で受信したリアルタイム音声データに音声認識部221にて時刻情報をタグ付けされた、時刻付き音声データATD2が記録されている。修正結果テキストデータ受信部213で受信したテキスト修正結果データと、最初に受信したリアルタイム音声データに時刻情報をタグ付けした時刻付き音声データATD2を使って、音声認識部221の認識率向上に貢献する。
0047
図3は、本発明の実施形態に係る音声認識テキストデータ出力制御サーバ3の一例を示す概略構成図(ブロック図)である。図3に示すように、音声認識テキストデータ出力制御サーバ3は、例示的に、各種データ及び各種情報を送受信する送受信部31と、テキストデータの修正制御するための各種処理を実行する情報処理部32と、各種情報及び各種データを記録する記憶部33と、を備えて構成される。なお、情報処理部32は、例えば、不図示であるが、記憶部33に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
0048
送受信部31は機能的に、音声認識結果テキスト/音声データ受信部311と、放送用テキストデータ送信部312と、辞書用修正結果テキストデータ送信部313と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
0049
音声認識結果テキスト/音声データ受信部311は、図1に示す音声認識処理サーバ2から音声認識結果である音声認識結果テキストデータと音声データを受信する。受信した音声認識結果テキストデータと音声データは音声認識処理サーバ2で時刻情報がタグ付けされ、音声認識結果テキストデータを生成した時間が判別できるようにしておく。
0050
放送用テキストデータ送信部312は、音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストデータを修正した放送用テキストデータを外部システムに送信する。外部システムは放送用字幕を送出するデータに変換するシステムなどが考えられる。
0051
辞書用修正結果テキストデータ送信部313は、音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストデータを、正しいテキストに修正したテキストデータを図1に示す音声認識処理サーバ2へ、修正結果テキストデータとして送信する。例えば、修正したテキストデータには、修正前の音声認識結果テキストデータにタグ付けされていた時刻情報を基に時刻情報をタグ付け、もしくは情報処理システム100内で管理されている固有のシステムIDをタグ付けするなどで、修正したデータが特定できるようにしておく。
0052
修正前テキスト/音声送信部314は、音声認識結果テキスト/音声データ受信部311で受信した音声認識結果テキストデータと音声データを、図1に示す情報処理装置5へ、修正前データとして送信する。例えば、受信した音声認識結果テキストデータと音声データを情報処理装置5に送信し、情報処理装置5で音声認識が正しかったか確認ができるようにする。
0053
情報処理部32は機能的に、音声結果修正部321と、修正結果辞書生成部322と、放送用テキスト出力部323と、を含んで構成されている。
0054
音声結果修正部321は、音声認識結果データテキスト/音声データ受信部311から受信した音声認識結果テキストデータの中で、誤って音声認識されたデータを、図1に示す情報処理装置5から指示された修正内容でテキスト修正処理を行う。例えば、情報処理装置5が音声結果修正プログラム処理を行う際、音声認識結果テキストデータには認識候補テキストが候補順にタグづけされているので、その候補を候補順に認識候補テキストを情報処理装置5へ送信部(不図示)から送信してもよいし、情報処理装置5から入力された全く異なるテキストを修正結果として送信してもよい。
0055
修正結果辞書生成部322は、音声結果修正部321で修正した内容を時刻情報と共に記憶部33へ記録可能な形式に生成を行う。例えば、誤った認識結果テキストと、修正後のテキストが時刻情報と共に辞書として記録されることで、同様の誤った認識の防止を支援することができる。
0056
放送用テキスト出力部323は、音声結果修正部321で修正を行なったテキスト、または音声結果修正部321で修正を行わなかったテキストを、放送用テキストとして、情報処理装置5から指示で放送用テキストを出力する。
0057
記憶部33は、音声認識結果データテキスト/音声データ受信部311で受信した受信テキストログRTLと、放送用テキストデータ送信部312から送信した送信テキストログSTLと、修正結果辞書生成部322で生成された修正結果である辞書データMDDと、を記録し、保存されている。
0058
記憶部33は、音声認識結果データテキスト/音声データ受信部311で受信した音声データに時刻情報がタグ付けされた、時刻付き音声データATD3が記録されている。例えば、受信テキストログRTLと、送信テキストログSTLと、ATD3を送信部(不図示)から情報処理装置5に送信することによって、情報処理装置5で音声認識エンジンが認識しやすい音声を、発声した本人が確認をすることが可能となる。
0059
図4は、本発明の実施形態に係る形態素解析処理サーバ4の一例を示す概略構成図(ブロック図)である。図4に示すように、形態素解析処理サーバ4は、例示的に、各種データ及び各種情報を送受信する送受信部41と、テキストデータ群の解析、及び生成を制御するための各種処理を実行する情報処理部42と、各種情報及び各種データを記録する記憶部43と、を備えて構成される。なお、情報処理部42は、例えば、不図示であるが、記憶部43に格納されているプログラムをCPU等が実行したりすることにより実現することができる。
0060
送受信部41は機能的に、外部テキスト受信部411と、辞書データ送信部412と、を含んで構成されている。また、各種データ及び各種情報を送信する送信部(不図示)、及び、各種データ及び各種情報を受信する受信部(不図示)をも含む。
0061
外部テキスト受信部411は、外部システム、もしくは形態素解析処理サーバ4内の記憶部43に記録されているテキストを受信する。例えば、前記テキストはインターネット上でSNS(Social Networking Service)等から収集し受信したテキスト、もしくはLAN内でニュース原稿システムといった他システム等から収集し、受信したものでもよい。
0062
辞書データ送信部412は、情報処理部42で生成した辞書データを図1に示す音声認識処理サーバ2へ送信する。例えば、前記辞書データはSNS、及び内部システムから取り込んだ比較的新しい辞書であると、ニュース番組等の音声認識率が上がると期待できる。
0064
形態素解析部421は、外部テキスト受信部411で受信したテキストを形態素解析する。形態素解析とは文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。形態素解析を行った前記テキストは形態素毎の列に分割され、記憶部43に記録、保存をする。
0065
ルビ生成部422は、形態素解析部421で形態素毎の列に分割されたテキストにルビと呼ばれる読み仮名を関連づける。例えば、記憶部43に記録されているルビ振りツール432などを利用してルビを検索し、該当するルビを形態素解析部421で形態素毎の列に分割されたテキストにタグ付け等をして、記憶部43に記録、保存をする。
0066
辞書生成部423は、ルビ生成部422でタグ付けされたテキストを、図1に示す音声認識処理サーバ2へ送信した際に辞書として登録できる形式に整形、生成をする。例えば、形態素解析部421にて品詞毎に分割されたテキストと、ルビ生成部422でタグ付け等をされた読み仮名を図1に示す音声認識処理サーバ2が読み込み可能な辞書形式にデータベース化等を行う。
0067
出現スコア計算部424は、形態素解析部421で形態素毎の列に分割されたテキストがどの頻度で出現し、分割されたテキストごとにその出現率を付与し、定量評価する出現スコアを計算する。出現スコアの計算例は後述する。
0068
記憶部43は、外部テキスト受信部411で受信したテキストを形態素解析部421にて形態素解析をする際に使用する形態素解析ツールMDTと、前記形態素解析を行ったテキストの読み仮名を定義する際に使用するルビ振りツールRBTと、を記録し、保存されている。
0069
記憶部43は、外部テキスト受信部411で受信した外部テキストデータODTと、形態素解析部421にて品詞毎に分割されたテキストと、ルビ生成部422でタグ付け等をされた読み仮名を図1に示す音声認識処理サーバ2が読み込み可能な辞書形式にデータベース化等を行った辞書生成データDMDと、を記録し、保存されている。
0070
<辞書生成処理例1>
図5、図6、および図7を参照して、辞書生成処理、もしくは出力制御処理としての、テキストデータの出力及び音声データの制御処理を実施例1として説明する。図5は、本発明の実施形態に係るデータ辞書生成処理の一例を示すフローチャートである。
0071
(ステップS1)
形態素解析処理サーバ4は、外部システム、もしくは形態素解析処理サーバ4内の図4に示す記憶部43に記録されているテキストを受信する。例えば、前記テキストはインターネット上でSNS(Social Networking Service)等から収集し受信したテキスト、もしくはLAN内でニュース原稿システムといった他システム等から収集し受信したものでもよい。
0072
(ステップS2)
形態素解析処理サーバ4は、前記受信したテキストを形態素解析する。形態素解析とは前記同様の解析を意味し、文法的な情報の注記の無い自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別することをいう。
0073
(ステップS3)
図4に示す形態素解析部421で形態素毎の列に分割されたテキスト(以下辞書単語)にルビと呼ばれる読み仮名を関連づける。例えば、図4に示す記憶部43に記録されているルビ振りツール432などを利用してルビを検索し、該当するルビを形態素解析部421で形態素毎の列に分割された辞書単語にタグ付け等をして、記憶部43に記録、保存をする。もしく前記受信テキストにルビを振るルールが定義されていれば、それを基にルビを振ってもよい。
0074
(ステップS4)
図4に示す出現スコア計算部424で辞書単語の出現率を定量評価する出現スコアを計算する。図6を参照して出現スコアの計算方法を説明する。TLは時刻の流れを表す軸タイムラインであり、どのタイミングでそのテキストが取り込まれたかをタイムライン上で表している。またこの出現スコアを作成する開始タイミングをAStとし、このAStの数値を変更しながら音声認識の制度を高めていく。tpが現在時刻を表し、時刻を数値化した場合、t1<t8<tpという関係が成り立つ。このような条件とした場合、たとえば以下のような式で出現スコアを定義しても良い。
(出現スコア式)
現在時刻から離れた時間ほど、tp−tkは大きな値となり、その逆数は小さくなる。この数値の総和の対数を取ることにより、出現スコアは多く出現すれば大きくなり、時刻が過ぎればすぎるほど小さくなる数値となる。
例えば「国会会期末」といったテキストがt1のタイミングでW1として、t2のタイミングでW2として、t4のタイミングでw3として、t6のタイミングでW6として、t8のタイミングでW8として出現していた場合、計算式はCS内のような式が成り立つ。「労働災害」「原辰徳」といったワードも同様である。出現回数も多く、現在時刻直近で出現した「国会会期末」の出現スコアAS1と、「労働災害」の出現スコアAS2は通常AS1>AS2といった関係になるが、「原辰徳」の出現スコアAS3と前記AS2の関係は双方の出現時間によって関係が変わってくる。前記出現スコアは定量評価値として、音声認識処理の際に認識結果確率の増減に利用する。
0075
(ステップS5a)
情報処理装置5は形態素解析処理サーバ4に対し、辞書単語表示の要求を行う。
0076
(ステップS5b)
辞書単語表示の要求に対し、形態素解析処理サーバ4は前記形態素毎の列に分割されたルビに当たる辞書単語にタグ付け等された辞書を情報処理装置5に送信して辞書の表示をする。図7は情報処理装置5に表示される画面の一例を示す図である。図7を参照しながら、図1に示す情報処理装置5の表示部(不図示)に表示される、辞書登録画面について説明する。辞書登録表示画面は、例えば入力された原稿テキストの放送番組名511が放送時間と共に表示される。どの辞書単語群、もしくは辞書単語を登録するか、選択ボタン512、513が用意されている。表には形態素解析によって、分割された辞書単語となるテキスト514、それに対する読み表示515、その元となるテキストが登録された時間516などが表示されている。なお、出現スコアはここに表記しなくてもよいし、してもよい。
0077
(ステップS6)
登録される放送番組名511、もしくは辞書単語となるテキスト514をボタン512、もしくは513を選択した後、辞書登録ボタン517を押下する。押下後は図5に戻り、選択された辞書単語のを外部に送信する処理の準備を行う。また、図6に示した出現スコアAStをは出現スコア作成タイミング表示エリア518に表示され、手動で変更することができる。
0078
(ステップS7)
情報処理装置5上で選択された辞書単語送信処理により、形態素解析処理サーバ4に辞書単語群の送信指示が送信される。辞書単語群は辞書単語の選択はカテゴリ毎に送信されてもよいし、受信した時間毎に単語群毎に送信してもよい。
0079
(ステップS8)
送信指示を受けた形態素解析処理サーバ4は図4の辞書生成部423を使って、ルビ生成部422でタグ付けされたテキストを、音声認識処理サーバ2へ送信した際に辞書として登録できる形式に整形、生成をする変換処理を行う。
0080
(ステップS9)
前記ステップで変換処理をした辞書単語群は音声認識処理サーバ2へ送信する。
0081
(ステップS10)
辞書単語群を受信した音声認識処理サーバ2は、この辞書を利用して音声認識処理を行う。音声認識処理は後述するステップS23と同様である。
0082
<辞書生成処理例2>
次に図8を参照して、辞書生成処理、もしくは出力制御処理としての、テキストデータの出力及び音声データの制御処理を実施例2として説明する。図8は、本発明の実施形態に係るデータ辞書生成処理の一例を示すフローチャートである。
0083
(ステップS11)から(ステップS14)
上記ステップは図5のステップS1からステップS4のステップと同様である。
0085
(ステップS16)
自動で辞書単語を選択した形態素解析処理サーバ4は図4の辞書生成部423を使って、ルビ生成部422でタグ付けされたテキストを、音声認識処理サーバ2へ送信した際に辞書として登録できる形式に整形、生成をする変換処理を行う。
0086
(ステップS17)
前記ステップで変換処理をした辞書単語群は音声認識処理サーバ2へ送信する。
0087
(ステップS18)
辞書単語群を受信した音声認識処理サーバ2は、この辞書を利用して音声認識処理を行う。音声認識処理は後述するステップS23と同様である。
0088
(ステップS19)
音声認識処理サーバ2は、音声認識テキストデータ出力制御サーバ3から受信した時刻情報付き音声認識確度正答率を形態素解析処理サーバ4に送信をする。音声認識確度正答率とは、音声認識をした際に、音声認識結果であるテキストの他にその認識確率の高さである音声認識確度データを送信するが、音声認識確度と実際の認識正答がどの程度マッチングしていたかを表す確率のことをいう。形態素解析処理サーバ4は自動で選択した辞書と前記音声認識確度正答率を対比しデータベース化等を行う。生成されたデータベースから深層学習を行い、最適値を自動で算出していく仕組みを導入してもよい。具体例に関しては後述する(ステップS32)、(ステップS33)にて説明する。
0089
<音声認識テキストデータ出力実施例>
次に図9、図10、および図11を参照して、音声認識処理、テキスト出力制御処理、及びテキストの修正処理を実施例として説明する。図8は、本発明の実施形態に係る音声認識処理、テキスト出力制御処理、及びテキストの修正処理の一例を示すフローチャートである。
0090
(ステップS21)
リアルタイム音声入力処理装置1は、音声データを受信する。例えば、映像データからDEMUXした音声データであってもよいし、デジタル音声データはもちろん、アナログ音声データでもよい。リアルタイム音声入力処理装置1はリアルタイム音声を処理することを前提としているため、受信方法はストリーム、もしくは連続したアナログ音声を想定している。
0091
(ステップS22)
リアルタイム音声入力処理装置1は、前記受信音声データを音声認識精度を上げるための処理を行う。例えば、前記音声データにおける無音区間を特定し、当該区間において音声データを区切る処理や、音声データを分割するルールを作成し、当該ルールに基づいて分割処理を実行してもよい。また、例えば、音声データから人間の声に近い周波数以外の周波数音域を低減させるノイズキャンセルなどの処理を実行してもよい。処理をした際には音声データの受信時刻を処理済み音声データに紐づけるようにタグづけなどの処理をしておく。
0092
(ステップS23)
リアルタイム音声入力処理装置11は、前記処置を行った処置済音声データを、音声認識処理サーバ2へ送信する。
0093
(ステップS24)
音声認識処理サーバ2は、前記処理済音声データを受診後、前記処理済音声データを音声認識する。音声認識処理サーバ2は、例えば、未知のパラメータに従って確率的に変化する現象をモデル化する分析技術手法であるHMM(Hidden Markov Model)(隠れマルコフモデル)により、入力された音声データを文字列データに変換する。なお、他の分析技術手法として、DPマッチングやニューラルネットワーク等を採用してもよい。また、ステップS9やS17で受け取った出現スコアを使って、言語モデルの絶えずアップデート行い、辞書単語をその都度増やしたり減らしたりしてもよい。この際、ステップS9、ステップS17の音声認識処理と同様の処理となるが、ステップS9、ステップS17では受信した辞書を利用しての音声認識となるため、音声認識確度の上昇が期待できる。
0094
(ステップS25)
音声認識処理サーバ2は、音声認識処理をした後、認識候補テキストそれぞれの音声認識精度の確率の高さを表す、音声認識確度を計算する。その後、音声認識処理サーバ2は前記音声認識結果であるテキスト等を送信する。例えば、送信するテキスト等とは、認識候補テキストと、その区間の音声データ、他に認識候補テキストがあればその認識候補テキスト、それぞれの認識候補テキストの音声認識確度の高さを表す音声認識確度データ等である。
0095
(ステップS26)
音声認識テキストデータ出力制御サーバ3は、受信したテキスト等を同時に、もしくは別ルートで受信した音声データ再生と共に表示できるように、処理を行う。例えば、テキスト修正を行いやすくするために、音声再生よりもテキストを早く表示させる処理を行っておく。
0096
(ステップS27)
情報処理装置5の要求を受けた音声認識テキストデータ出力制御サーバ3は、処理を行ったテキスト群と音声データを情報処理装置5に送信を行う。
0097
(ステップS28)
情報処理装置5は受信したテキスト群の修正を行う。図10は情報処理装置5に表示される画面の一例を示す図である。図10を参照しながら、図1に示す情報処理装置5の表示部(不図示)に表示される、テキストデータ群を含む画面の一例を説明する。まずボタンにて、候補選択エリア521、もしくは自由修正エリア522を選択する。候補選択エリア521、及び自由修正エリア522ともに番組枠情報523、524が表示され、現在放送をしている番組が目視可能である。
候補選択エリア521を選択中は、音声認識確度順にテキスト525、526を併記させ、音声認識確度が一番高い現在選択しているテキストエリアの色を変えてもよいし、図10記載の通り音声認識確度を表示しても良い。テキスト表示から一定時間x秒音声データが遅れて再生され、選択テキスト525が正答であれば、転送エリア527に表示されている確定ボタンを押下する。そこで音声認識テキストが確定する。選択テキストが正答でない場合は、別の認識候補テキスト526を選択する。認識候補テキスト526も正当でない場合には他候補エリアにある528の矢印を押下すると、さらに認識候補テキストが確度順に表示される。正答認識候補テキストが表示された場合は、正当認識候補テキストを選択して、転送エリア527に表示されている確定ボタンを押下する。
正答が認識候補テキスト内になかった場合、自由修正エリア522を選択し、キーボードを使ってテキストエリア530でキーボードを使って直接テキストを入力をする。
0098
(ステップS29)
図8に戻り、ステップS28で確定した字幕用テキストは字幕システムで受信可能なフォーマットに変換して、後段の前記字幕システムに送信する。テキストのフォーマットは放送規格ARIBフォーマットB37形式でもよいし、Web配信形式であるWebVtt(Web Video Text Tracks)形式でもよい。
0099
(ステップS30)
ステップS28で確定した字幕用テキストが認識候補エリアで選択候補テキストから選択された場合は、選択された認識候補テキストにタグづけされていた音声認識確度データと共に認識候補テキストを前段の音声認識テキストデータ出力制御サーバ3へ送信する。自由入力エリアで入力された場合は、入力された修正テキストを前段の音声認識テキストデータ出力制御サーバ3へ送信する。
0100
(ステップS31)
ステップS30で修正テキストを受信した音声認識テキストデータ出力制御サーバ3は音声認識確度正答率を計算する。図11は情報処理装置5に表示される音声認識確度正答率の一例を示す画面の図である。音声認識後に確定させたテキストがcn個とする。最初の確定テキストは「高速道路の」が正答であり、音声認識確度が90%だったとすると、音声認識正答確度CPの数値0.9に正答係数yを乗じ、それ以外のテキストは音声認識誤答確度IPの数値と誤答係数zを乗じ、その総和を計算し、そのテキストの音声認識確度正答率M1とする。同様にM2、M3と計算を実施し、Mkの総和に正答率変数wを乗じて、確定させたテキスト数cnで割ると、音声認識確度正答率が求められる。変数y、z、wはそれぞれ深層学習で適切な数値に変更を加えていってもよい。
0101
(ステップS32)
図9に戻り説明する。認識候補テキスト、及び修正テキストを受信した音声認識テキストデータ出力制御サーバ3は、辞書化する。例えば、音声認識確度正答率が高いテキストは音声認識確度が高いと判断し辞書化しなくてもよいが、音声認識確度正答率が低いテキストは優先的に辞書化を実施していく。全体の音声認識確度の数値が上がらない場合は、辞書を作成し始めるタイミングに1たる図6に示した出現スコア作成タイミングを深層学習によって進めてもよいし、戻してもよい。
0102
(ステップS33)
音声認識テキストデータ出力制御サーバ3は、ステップS31で辞書化した辞書データと、計算した音声認識確度正答率を、音声認識プログラムを有する音声認識処理サーバ2へ送信する。
0103
(ステップS34)
音声認識処理サーバ2は受信したへ辞書データと、音声認識確度正答率を音声認識プログラムに組み込み、図2に図示した記憶部23内の辞書データDIDに辞書データを記憶する。例えば、この辞書データ、音声認識確度正答率を基に記憶部23内の言語モデルデータLMDのアップデートを行ってもよい。
0104
図12は本発明の音声認識テキストと正答テキストを並列表示し、認識させた音声を再生しながら音声認識結果を確認する画面の一例を示す図である。例えば、音声認識テキストデータ出力制御サーバ3は図3に示した受信テキストログRTLと、送信テキストログSTLと、時刻付音声データATD3を送信部(不図示)を使って情報処理装置5に送信する。受信テキストRTLの音声認識確度が一番高い第一認識のテキストを534に表示し、送信テキストログSTLを正答テキストログとして535に表示をする。533の再生ボタンを押下することによって、その欄に表示されたテキストにタグづけされた時刻536付近の時刻付音声データATD3が再生される。その再生音声を発声した本人が確認すをることによって、どの音声が音声認識エンジンが認識しやすい音声かを、発声した本人が確認をすることが可能となり、その結果発声者がより音声認識制度が上がる音声を発声する補助となる。
0105
1リアルタイム音声入力処理装置
2音声認識処理サーバ
3音声認識テキストデータ出力制御サーバ
4形態素解析サーバ
5情報処理装置
21 音声認識処理サーバ送受信部
22 音声認識処理サーバ情報処理部
23 音声認識処理サーバ記憶部
31 音声認識テキストデータ出力制御サーバ送受信部
32 音声認識テキストデータ出力制御サーバ情報処理部
33 音声認識テキストデータ出力制御サーバ記憶部
41 形態素解析サーバ送受信部
42 形態素解析サーバ情報処理部
43 形態素解析サーバ記憶部
100情報処理システム
211 リアルタイム音声データ受信部
212辞書テキストデータ受信部
213修正結果テキストデータ受信部
214音声認識結果テキストデータ/音声データ送信部
221音声認識部
222辞書データ生成部
223テキスト出力部
311 音声認識結果テキスト/音声データ受信部
312放送用テキストデータ送信部
313辞書用修正結果テキストデータ送信部
314 修正前テキスト/音声送信部
321音声認識結果修正処理部
322 修正結果辞書生成部
323 放送用テキスト出力部
324 修正前テキスト/音声出力部
411 外部テキスト受信部
412 辞書データ送信部
421 形態素解析部
422ルビ生成部
423 辞書生成部
424出現スコア計算部
AMD音響モデルデータ
ATD2時刻付音声データ
ATD3 時刻付音声データ
DID 辞書データ
DMD辞書生成データ
LMD言語モデルデータ
MDD修正結果辞書データ
MDT形態素解析ツール
OTD 外部テキストデータ
RBTルビ振りツール
RTL受信テキストログ
STL送信テキストログ