図面 (/)

技術 音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体

出願人 東洋製罐株式会社
発明者 高家浩
出願日 1999年3月10日 (22年5ヶ月経過) 出願番号 1999-063630
公開日 2000年9月22日 (20年11ヶ月経過) 公開番号 2000-259181
状態 未査定
技術分野 音声入出力 音声認識 音声の分析・合成 圧縮、伸長・符号変換及びデコーダ
主要キーワード マークアドレス ユーザIDコード 音声ファイル内 ディジタルレコーダ 基本領域 音声認識ボタン ステムバー PCカードアダプタ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2000年9月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

一つの音声ファイル内に異なる圧縮率音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることができる音声情報認識装置等を提供する。

解決手段

音声ファイル内に所定のブロック単位で格納されている音声情報を該ブロック毎に音声認識して文字情報に変換する音声認識プログラム9と、音声情報の圧縮率をブロック毎に確認して、該圧縮率が、所定の圧縮率以下である場合に音声認識に適していると判断し、所定の圧縮率よりも大きい場合には音声認識に適していないと判断して、音声認識に適していると判断された場合にのみ音声認識および文字情報への変換を実行させる制御プログラム8と、音声認識に適していないと判断された場合には、その旨を表示して警告するディスプレイ5とを備えたパーソナルコンピュータ4でなる音声情報認識装置。

概要

背景

近年、音声ディジタルデータに変換して音声ファイルとしてフラッシュメモリカード等に記録するディジタルレコーダ製品化されている。

このようなディジタルレコーダは、音声ファイルを記録する際に、情報量を小さくするために符号化を行うようにしているが、このときの圧縮率として、比較的圧縮率の低いSP(スタンダードプレイ)モードと、比較的圧縮率の高いLPロングプレイ)モードとを設けたものがある。このように複数の録音モードを設けることによって、音質重視する際にはSPモードを用い、録音時間を重視する際にはLPモードを用いるなどの必要に応じた使い分けが可能となる利点を有している。

音声ファイルは、例えば512バイトのサイズでなるブロックを単位として記録されるようになっており、録音モードは該ブロック毎に変更することが可能である。

一方で、音声を認識して文字情報に変換する技術は、従来より研究されていたが、近年では、パーソナルコンピュータ等の情報機器におけるソフトウェアとして製品化されており、実用化の段階に達している。

このような音声認識の技術を、上述したようなディジタルレコーダによって録音された音声ファイル内の音声データに適用する場合には、認識率の低下を避けるために、対象となる音声データの品質をある程度以上のレベルに制限する必要があり、上述したような録音モードの例においては、SPモードにより録音されたもののみを音声認識の対象として、LPモードにより録音されたものは音声認識の対象から外すことが行われている。

すなわち、従来の音声認識に係る技術においては、SPモードのみにより録音された音声ファイルを音声認識の対象とし、その他の音声ファイルは音声認識の対象外としており、音声認識を行うか否かは音声ファイルを単位としたものであった。

概要

一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることができる音声情報認識装置等を提供する。

音声ファイル内に所定のブロック単位で格納されている音声情報を該ブロック毎に音声認識して文字情報に変換する音声認識プログラム9と、音声情報の圧縮率をブロック毎に確認して、該圧縮率が、所定の圧縮率以下である場合に音声認識に適していると判断し、所定の圧縮率よりも大きい場合には音声認識に適していないと判断して、音声認識に適していると判断された場合にのみ音声認識および文字情報への変換を実行させる制御プログラム8と、音声認識に適していないと判断された場合には、その旨を表示して警告するディスプレイ5とを備えたパーソナルコンピュータ4でなる音声情報認識装置。

目的

本発明は上記事情に鑑みてなされたものであり、一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることができる音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体を提供することを目的としている。

効果

実績

技術文献被引用数
0件
牽制数
2件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声情報を認識して文字情報に変換する変換手段と、所定の圧縮率で符号化された音声情報を該圧縮率に応じて文字情報に変換するかしないかを制御する制御手段と、を具備したことを特徴とする音声情報認識装置

請求項2

上記制御手段は、音声情報の圧縮率が音声認識に適したレベルにあるときは上記変換手段に音声認識を行わせて音声情報を文字情報に変換させ、音声情報の圧縮率が音声認識に適さないレベルにあるときは所定の警告信号を出力するものであることを特徴とする請求項1に記載の音声情報認識装置。

請求項3

音声ブロック毎に文字情報に変換するかしないかの制御を行うことを特徴とする請求項1または請求項2に記載の音声情報認識装置。

請求項4

所定の圧縮率で符号化された音声情報を該圧縮率に応じて文字情報に変換するかしないかを制御し、文字情報に変換するという制御がされたときには音声情報を認識して文字情報に変換させることを特徴とする音声情報認識方法

請求項5

コンピュータによって音声情報の認識をするためのプログラムを記録した記録媒体であって、該プログラムは、コンピュータに、所定の圧縮率で符号化された音声情報を該圧縮率に応じて文字情報に変換するかしないかを制御させ、文字情報に変換するという制御がされたときには、音声情報を認識して文字情報に変換させることを特徴とする音声情報の認識をするためのプログラムを記録した記録媒体。

技術分野

0001

本発明は、音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体、より詳しくは、音声情報を認識して文字情報に変換する音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体に関する。

背景技術

0002

近年、音声ディジタルデータに変換して音声ファイルとしてフラッシュメモリカード等に記録するディジタルレコーダ製品化されている。

0003

このようなディジタルレコーダは、音声ファイルを記録する際に、情報量を小さくするために符号化を行うようにしているが、このときの圧縮率として、比較的圧縮率の低いSP(スタンダードプレイ)モードと、比較的圧縮率の高いLPロングプレイ)モードとを設けたものがある。このように複数の録音モードを設けることによって、音質重視する際にはSPモードを用い、録音時間を重視する際にはLPモードを用いるなどの必要に応じた使い分けが可能となる利点を有している。

0004

音声ファイルは、例えば512バイトのサイズでなるブロックを単位として記録されるようになっており、録音モードは該ブロック毎に変更することが可能である。

0005

一方で、音声を認識して文字情報に変換する技術は、従来より研究されていたが、近年では、パーソナルコンピュータ等の情報機器におけるソフトウェアとして製品化されており、実用化の段階に達している。

0006

このような音声認識の技術を、上述したようなディジタルレコーダによって録音された音声ファイル内の音声データに適用する場合には、認識率の低下を避けるために、対象となる音声データの品質をある程度以上のレベルに制限する必要があり、上述したような録音モードの例においては、SPモードにより録音されたもののみを音声認識の対象として、LPモードにより録音されたものは音声認識の対象から外すことが行われている。

0007

すなわち、従来の音声認識に係る技術においては、SPモードのみにより録音された音声ファイルを音声認識の対象とし、その他の音声ファイルは音声認識の対象外としており、音声認識を行うか否かは音声ファイルを単位としたものであった。

発明が解決しようとする課題

0008

上述したようにSPモードによる録音とLPモードによる録音は、音声ファイルを構成するブロックを単位として行うことが可能であり、使用者録音中に、記録媒体の残り容量が少なくなってきたと判断して、途中でSPモードからLPモードに録音モードを切り換える、といった使い方をすることが考えられる。

0009

このような場合には、1つの音声ファイル内にSPモードにより記録されたブロックとLPモードにより記録されたブロックとが混在することになるが、上述したような従来の技術では、このような音声ファイルは音声認識の対象から外されてしまっていた。従って、例え一部分であっても音声認識を行いたいと考える使用者に対応することができなかった。

0010

本発明は上記事情に鑑みてなされたものであり、一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることができる音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体を提供することを目的としている。

課題を解決するための手段

0011

上記の目的を達成するために、第1の発明による音声情報認識装置は、音声情報を認識して文字情報に変換する変換手段と、所定の圧縮率で符号化された音声情報を該圧縮率に応じて文字情報に変換するかしないかを制御する制御手段とを備えたものである。

0012

また、第2の発明による音声情報認識装置は、上記第1の発明による音声情報認識装置において、上記制御手段が、音声情報の圧縮率が音声認識に適したレベルにあるときは上記変換手段に音声認識を行わせて音声情報を文字情報に変換させ、音声情報の圧縮率が音声認識に適さないレベルにあるときは所定の警告信号を出力するものである。

0013

さらに、第3の発明による音声情報認識装置は、上記第1または第2の発明による音声情報認識装置において、音声ブロック毎に文字情報に変換するかしないかの制御を行うものである。

0014

第4の発明による音声情報認識方法は、所定の圧縮率で符号化された音声情報を該圧縮率に応じて文字情報に変換するかしないかを制御し、文字情報に変換するという制御がされたときには音声情報を認識して文字情報に変換させるものである。

0015

第5の発明による音声情報の認識をするためのプログラムを記録した記録媒体は、コンピュータによって音声情報の認識をするためのプログラムを記録した記録媒体であって、該プログラムは、コンピュータに、所定の圧縮率で符号化された音声情報を該圧縮率に応じて文字情報に変換するかしないかを制御させ、文字情報に変換するという制御がされたときには、音声情報を認識して文字情報に変換させるものである。

発明を実施するための最良の形態

0016

以下、図面を参照して本発明の実施の形態を説明する。図1から図7は本発明の一実施形態を示したものであり、図1ディクテーションステムの全体的な構成を示す図である。

0017

このディクテーションシステムは、図1に示すように、音声を電気信号に変換して音声データ化し、低圧縮率のSP(スタンダードプレイ)モードまたは高圧縮率のLP(ロングプレイ)モードにより記録するディジタルレコーダ1と、このディジタルレコーダ1に着脱可能に装着して用いられるものであって上記音声データを記録する記録媒体たるミニチュアカード2と、このミニチュアカード2を後述するPCカードスロット10(図2参照)に挿入して接続可能とするためのPCカードアダプタ3と、警告手段たるディスプレイ5や入力を行うためのキーボード6,マウス7等を備え、上記PCカードスロット10を介して上記ミニチュアカード2から得た音声データに、制御プログラム8や音声認識プログラム9による処理を施す音声情報認識装置たるパーソナルコンピュータ4とを有して構成されている。

0018

次に、図2は上記パーソナルコンピュータ4の電気的な構成を示すブロック図である。

0019

このパーソナルコンピュータ4は、上記制御プログラム8に従って音声再生情報表示等を行い、また上記音声認識プログラム9に従って音声情報を認識して文字情報に変換する処理等を行うとともに、その他の各種のプログラムに応じて様々な処理を行うものであり、変換手段、制御手段、音声認識手段を兼ねたCPU11と、このCPU11の作業領域となる記録媒体たるメインメモリ12と、例えばハードディスク等でなり上記制御プログラム8や音声認識プログラム9が記録されている記録媒体たる内部記録媒体13と、各種の外部機器に接続するための外部ポート14と、上記ディスプレイ5を接続するインターフェース(以下、IFと略す)15と、上記キーボード6やマウス7を接続するIF16と、音声データに基づいて音声を発するスピーカ18と、このスピーカ18を接続するIF17と、上記PCカードアダプタ3に装着されたミニチュアカード2が挿入されるPCカードスロット10と、このPCカードスロット10を接続するためのIF19と、を有して構成されていて、上記CPU11、メインメモリ12、内部記録媒体13、外部ポート14、IF15,16,17,19は、バスを介して互いに接続されている。

0020

なお、音声データは、上記PCカードスロット10を介してミニチュアカード2から直接読み込むようにしても良いが、一旦、上記内部記録媒体13に記録して、この内部記録媒体13から読み出すようにしても良いし、あるいは、ディジタルレコーダ1から赤外線シリアル、USB等の通信手段を介して直接読み込むようにしても構わない。

0021

また、上記制御プログラム8や音声認識プログラム9は、出荷時に予め内部記録媒体13に記録しておいても良いが、汎用のパーソナルコンピュータの場合には、これらのプログラムが記録されたフロッピーディスクCD−ROM、DVD−ROMなどの記録媒体から、内部記録媒体13にインストールするようにしても良い。このときには、これらフロッピーディスク、CD−ROM、DVD−ROM等が、音声情報の認識をするためのプログラムを記録した記録媒体を構成することになる。

0022

図3は、上述したようなディクテーションシステムにおける音声ファイルの構造を示すブロック図である。

0023

この音声ファイルは、例えばDSSというタイプのファイル構造を有するものとして構成されている。

0024

すなわち、音声ファイルは、図3(A)に示すように、例えば512バイトのサイズでなるブロックを単位として構成されていて、その内の先頭の例えば2ブロックがファイルヘッダとなっており、残りの部分が音声データが記録されているブロックである。

0025

上記ファイルヘッダには、例えばブロックヘッダ数、自己認識フラグ、システムバージョン番号、システムリリース番号ライセンスIDコードユーザIDコードジョブ番号コード、使用目的種別コード、工程管理コード、状態管理コード、録音開始日時録音終了日時、録音時間、誤消去防止フラグ、優先度レベル送り先IDコード、複数のIマークアドレス予備領域管理コード領域、ファイルテキスト基本領域、ファイルテキスト予備領域等が設けられている。

0026

上記音声データは、音声情報ブロックであるDSSブロックを1つ以上有して構成されている。これら各DSSブロックには、図3(B)に示すように、先頭にDSSブロックヘッダが設けられており、その他の部分にフレーム単位で音声データが記録されている。

0027

上記DSSブロックヘッダには、該DSSブロックに記録される音声データが、上記SP(スタンダードプレイ)モードにより低圧縮率で記録されたものか、あるいはLP(ロングプレイ)モードにより高圧縮率で記録されたものかを判別するための情報が記録されている。

0028

すなわち、この音声ファイルは、ブロックを単位として、SPモードによる録音と、LPモードによる録音とを切り換えることが可能となっている。これにより、音声ファイルの種類としては、SPモードのみのDSSブロックで構成されるものと、LPモードのみのDSSブロックで構成されるものと、SPモードによるDSSブロックとLPモードによるDSSブロックとが混在して構成されるものとの3種類が存在する。

0029

図4は、上述したようなパーソナルコンピュータにおいて音声認識を行うときの動作を示すフローチャートである。

0030

動作が開始されると、PCカードスロット10を介してミニチュアカード2に記録されている音声ファイルの取り込みを行う(ステップS1)。そして、ファイルシステムの管理領域や上記ファイルヘッダに記録されている各ファイルのデータを読み込んで(ステップS2)、読み込んだファイルデータに含まれているファイル名情報を、上記ディスプレイ5に一覧表示させる(ステップS3)。

0031

このときにディスプレイ5の画面には例えば図6に示すような表示が行われる。図6は、パーソナルコンピュータにおいて音声認識を行うときの画面表示の一例を示す図である。

0032

この図6メイン画面21を示しており、ファイルに関する操作や編集に関する操作などを選択するためのメニューバー22と、各種の操作をアイコンを用いて視覚的に分かり易く表示するツールボタンバー23と、上記ミニチュアカード2から転送された音声ファイルに係る各種のデータを表示する音声ファイルリストボックス24と、再生や停止、早送りや早戻しなどの処理を行うためのコントロールボタン25と、がそれぞれ表示されていて、上記ツールボタンバー23には音声認識処理を開始させるための音声認識ボタン26が設けられている。

0033

上記音声ファイルリストボックス24には、ファイル名を一覧表示させる欄31と、録音時間を表示させる欄32と、録音日時を表示させる欄33と、音声認識を行うことができるか否かを確認するために録音モードを表示させる欄34と、エンドマーク欄35とが順に設けられており、上記ステップS2において読み取ったファイルデータに基づいて、上記ステップS3で表示するようになっている。

0034

続いて、使用者により音声認識処理を行う対象となるファイルが選択され、かつ、その選択されたファイルについて音声認識を行う指示がなされるのを待機する(ステップS4)。

0035

ここで、音声ファイルの選択は、上記図6に示すように、上記音声ファイルリストボックス24内の選択を行おうとする対象のファイル部分を、上記マウス7等によりクリックすることで、反転表示がなされ、選択されていることを視覚的に確認することができる。

0036

そして、ファイルが選択されている状態において、上記音声認識ボタン26をマウス7等によりクリックすることで、音声認識を行う指示入力がなされるようになっている。

0037

こうして、上記ステップS4において、音声ファイルが選択されて音声認識の指示が行われたことが確認された場合には、次に、その音声ファイルがSPモードによる録音部分とLPモードによる録音部分とを混合して有するファイルであるか否かを判断する(ステップS5)。

0038

ここで、混合ファイルでない場合には、SPモードのみにより録音された音声ファイルであるかを判断し(ステップS6)、SPモードの音声ファイルである場合には、該音声ファイル内の全音声データが音声認識の対象となって、音声認識処理を行う(ステップS8)。この音声認識が終了した場合には、上記ステップS4へ戻って、次のファイルが選択されるのを待機する。

0039

また、上記ステップS6において、音声ファイルがSPモードのみにより録音された音声ファイルでないと判断された場合には、LPモードのみにより録音された音声ファイルであることになるために、該音声ファイル内には音声認識の対象となる音声データが存在しないことになる。従って、音声認識を実行することが不可能である旨を上記ディスプレイ5に表示して(ステップS7)、その後、上記ステップS4に戻って、他のファイルが選択されるのを待機する。

0040

一方、上記ステップS5において、SPモードとLPモードによる録音部分が混合されたファイルであると判断された場合には、一部に音声認識を実行することができないところがある旨の警告表示を上記ディスプレイ5により行って(ステップS9)、念のために、処理をキャンセルするか否かを使用者に確認させる(ステップS10)。

0041

ここで、処理をキャンセルすることが選択された場合には、上記ステップS4に戻り、一方、処理を行うことが選択された場合には、上記ステップS8へ行って、音声ファイル中のSPモードで録音された部分についてのみ音声認識処理を行う。

0042

次に、図5は上記ステップS8の音声認識処理の詳細を示すフローチャートである。

0043

この動作が開始されると、音声認識を行う対象のDSSブロックのDSSブロックヘッダ情報を読み込んで(ステップS21)、該DSSブロックの録音モード(圧縮モード)を判断する(ステップS22)。

0044

ここで、圧縮モードがSPモードであると判断された場合には、そのDSSブロックについて音声認識を実行し(ステップS23)、その音声認識の結果を出力して例えば図7に示すように文字として上記ディスプレイ5に表示する(ステップS24)。

0045

図7は、文章の表示を行うことができるソフトウェアの表示画面の一例を示した図であり、音声認識の結果が表示されている状態を示している。この図7において、画面41中の符号42や符号44に示した部分が、その認識結果を表示する部分である。

0046

そして、該DSSブロックについての音声認識が終了したら、音声ファイルの終端に達したか否かを判断し(ステップS26)、まだ終端でない場合には、上記ステップS21へ戻って、次のDSSブロックについての処理を行う。

0047

また、上記ステップS22において、圧縮モードがLPモードであると判断された場合には、そのDSSブロックについては音声認識を実行しないことになるために、その旨の警告信号を出力して、上記ディスプレイ5に、図7中の符号43に示すように表示させる(ステップS24)。

0048

この図7における例では、音声認識が不可能となるブロックが18秒の録音時間分だけ存在する旨を文字として表示しているが、これに限るものではなく、例えば「?」や「*」などの記号を挿入するようにしても良く、さらには、挿入する記号の数を認識が不可能となる時間に比例させるようにしても良い。

0049

こうして、上記ステップS26において、音声ファイルの終端に達したと判断されたところで、音声認識の処理を終了する。

0050

なお、上述では音声情報認識装置として、制御プログラムや音声認識プログラムを実行するパーソナルコンピュータを例に挙げたが、勿論これに限るものではなく、その他の汎用のコンピュータであっても良いし、あるいは専用の音声情報認識装置として構成しても構わない。

0051

このような実施形態によれば、圧縮率が音声認識に適したものであるか否かをブロック単位(音声ブロック単位)で確認しているために、一つの音声ファイル内に音声認識に適しているブロックと適していないブロックとが混在する場合でも、音声認識可能な部分については音声認識を行って文字情報に変換することができる。

0052

また、音声認識が行われないときにはディスプレイにその旨を表示するために、容易に認識することが可能となる。そして、音声認識が行われない時間長さに比例した表示を行えば、その量をより感覚的に把握し易くなる。

0053

なお、本発明は上述した実施形態に限定されるものではなく、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能であることは勿論である。

0054

[付記]以上詳述したような本発明の上記実施形態によれば、以下のごとき構成を得ることができる。

0055

(1)音声ファイル内に所定のブロック単位で格納されている音声情報を、該ブロック毎に音声認識して文字情報に変換する音声認識手段と、音声情報が音声認識に適しているか否かをブロック毎に確認して、音声認識に適していると判断された場合にのみ、上記音声認識手段による動作を実行させる制御手段と、を具備したことを特徴とする音声情報認識装置。

0056

(2) 上記制御手段は、ブロック単位の音声情報の圧縮率が、所定の圧縮率以下である場合に音声認識に適していると判断し、所定の圧縮率よりも大きい場合には音声認識に適していないと判断するものであることを特徴とする付記(1)に記載の音声情報認識装置。

0057

(3) 上記制御手段により音声認識に適していないと判断された場合には、その旨を警告する警告手段をさらに具備したことを特徴とする付記(1)に記載の音声情報認識装置。

0058

(4)音声ファイル内に所定のブロック単位で格納されている音声情報が、音声認識に適しているか否かをブロック毎に確認するステップと、音声認識に適していると判断された場合にのみ、上記音声情報を上記ブロック毎に音声認識して文字情報に変換するステップと、を具備したことを特徴とする音声認識方法

0059

(5)コンピュータによって音声情報の認識をするためのプログラムを記録した記録媒体であって、該プログラムは、コンピュータに、音声ファイル内に所定のブロック単位で格納されている音声情報が、音声認識に適しているか否かをブロック毎に確認させ、音声認識に適していると判断された場合にのみ、上記音声情報を上記ブロック毎に音声認識して文字情報に変換させるものであることを特徴とする音声情報の認識をするためのプログラムを記録した記録媒体。

0060

(6)音声情報を記録する記録媒体と、この記録媒体に記録された音声情報を文字情報に変換する変換手段と、この変換手段による音声情報の処理を、該音声情報の圧縮率に応じて制御する制御手段と、を具備したことを特徴とする音声情報認識装置。

0061

(7) 警告手段をさらに具備し、上記制御手段は、上記圧縮率が音声認識可能な範囲である場合には上記変換手段に音声認識を行わせ文字情報を出力させ、音声認識可能な範囲外である場合には上記警告手段にその旨を警告させるものであることを特徴とする付記(6)に記載の音声情報認識装置。

0062

従って、付記(1)に記載の発明によれば、音声情報が音声認識に適しているか否かをブロック単位で確認しているために、一つの音声ファイル内に音声認識に適している音声情報ブロックと適していない音声情報ブロックとが混在する場合でも、音声認識可能な部分については音声認識を行って文字情報に変換することができる。

0063

また、付記(2)に記載の発明によれば、付記(1)に記載の発明と同様の効果を奏するとともに、音声認識に適しているか否かを圧縮率により判断することができる。

0064

さらに、付記(3)に記載の発明によれば、付記(1)に記載の発明と同様の効果を奏するとともに、音声認識が行われないときには警告手段により警告が行われるために、その旨を認識することが可能となる。

0065

付記(4)に記載の発明によれば、音声情報が音声認識に適しているか否かをブロック単位で確認しているために、一つの音声ファイル内に音声認識に適している音声情報ブロックと適していない音声情報ブロックとが混在する場合でも、音声認識可能な部分については音声認識を行って文字情報に変換することができる。

0066

付記(5)に記載の発明によれば、該プログラムによりコンピュータを制御することによって、音声情報が音声認識に適しているか否かがブロック単位で確認されるために、一つの音声ファイル内に音声認識に適している音声情報ブロックと適していない音声情報ブロックとが混在する場合でも、音声認識可能な部分については音声認識を行って文字情報に変換することができる。

0067

付記(6)に記載の発明によれば、音声情報から文字情報への変換を、圧縮率に応じて制御しているために、一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることが可能となる。

0068

付記(7)に記載の発明によれば、付記(6)に記載の発明と同様の効果を奏するとともに、音声認識が行われないときには警告手段により警告が行われるために、その旨を認識することが可能となる。

発明の効果

0069

以上説明したように請求項1による本発明の音声情報認識装置によれば、音声情報から文字情報への変換を、圧縮率に応じて制御しているために、一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることが可能となる。

0070

また、請求項2による本発明の音声情報認識装置によれば、請求項1に記載の発明と同様の効果を奏するとともに、音声認識が行われないときには所定の警告信号を出力するようにしたために、その旨を認識することが可能となる。

0071

さらに、請求項3による本発明の音声情報認識装置によれば、請求項1または請求項2に記載の発明と同様の効果を奏することができる。

0072

請求項4による本発明の音声情報認識方法によれば、音声情報から文字情報への変換を、圧縮率に応じて制御しているために、一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることが可能となる。

0073

請求項5による本発明の音声情報の認識をするためのプログラムを記録した記録媒体によれば、該プログラムによりコンピュータを制御することによって、音声情報から文字情報への変換が、圧縮率に応じて制御されるために、一つの音声ファイル内に異なる圧縮率の音声データが混在する場合でも、音声認識可能な部分については音声認識の対象とすることが可能となる。

図面の簡単な説明

0074

図1本発明の一実施形態におけるディクテーションシステムの全体的な構成を示す図。
図2上記実施形態のディクテーションシステムにおけるパーソナルコンピュータの電気的な構成を示すブロック図。
図3上記実施形態のディクテーションシステムにおける音声ファイルの構造を示すブロック図。
図4上記実施形態のパーソナルコンピュータにおいて、音声認識を行うときの動作を示すフローチャート。
図5上記図4における音声認識処理の詳細を示すフローチャート。
図6上記実施形態のパーソナルコンピュータにおいて、音声認識を行うときの画面表示の一例を示す図。
図7上記実施形態のパーソナルコンピュータにおいて、音声認識の結果を示す表示画面の一例を示す図。

--

0075

1…ディジタルレコーダ
2…ミニチュアカード
4…パーソナルコンピュータ(音声情報認識装置)
5…ディスプレイ(警告手段)
6…キーボード
7…マウス
8…制御プログラム
9…音声認識プログラム
11…CPU(変換手段、制御手段、音声認識手段)
12…メインメモリ
13…内部記録媒体(音声情報の認識をするためのプログラムを記録した記録媒体)

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • ヤマハ株式会社の「 情報処理方法、情報処理装置およびプログラム」が 公開されました。( 2021/07/08)

    【課題】コンテンツのシーン種別を適切に特定する。【解決手段】情報処理装置は、映像と音響とを含むコンテンツにおける音響の特徴量Fに応じて当該コンテンツのシーン種別Sを特定する解析処理部32と、解析処理部... 詳細

  • 株式会社東芝の「 表示制御システム、表示制御方法及びプログラム」が 公開されました。( 2021/07/08)

    【課題】ユーザの視界に入っていない音源からの音を含む音場を視覚的に表す。【解決手段】実施形態の表示制御システムは、認識部と算出部と表示制御部とを備える。認識部は、音源から発せられた音を認識する。算出部... 詳細

  • 日本電気株式会社の「 認証装置、認証方法、及びプログラム」が 公開されました。( 2021/07/08)

    【課題】高い認証精度を実現する認証装置等を提供する。【解決手段】本発明による認証装置は、入力データ(入力音声201、202)に対し第1のスコア及び第2のスコアを算出するスコア算出手段(男性向け照合スコ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ