図面 (/)

技術 ディクテーション装置及びディクテーションプログラムを記録した記録媒体

出願人 株式会社東芝
発明者 矢島真人小山紀子
出願日 1998年6月30日 (22年0ヶ月経過) 出願番号 1998-199525
公開日 2000年1月21日 (20年5ヶ月経過) 公開番号 2000-020092
状態 拒絶査定
技術分野 音声入出力 文書処理装置 音声認識 文書処理装置
主要キーワード コマンド音声 削除記号 コマンド辞書 音声入力待ち 音声入力モード 入力間隔 単語文字列 コマンド文字列
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2000年1月21日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

ユーザが発声を一定時間中断した場合に、特定のコマンド音声を除いて音声入力受け付けない状態にすることで、ユーザが意図しない音声が入力される可能性を排除する。

解決手段

入力部11から入力された音声を音声認識部14にて認識処理して文字列に変換し、その文字列をコマンド生成部15またはテキスト生成部16を通じて処理する。ここで、音声入力判断部17にて音声の入力間隔監視し、一定時間経過しても音声が入力されなかった場合に、音声入力モードオフにして、その間に入力された文字列を無効とする。これにより、ユーザが音声入力を中断している間に、外部からの音やユーザが意図しない音声など、不要な音声が入力される可能性を排除するこができる。

概要

背景

音声認識技術の進歩に伴い、テキスト入力音声で行うディクテーションステムが開発されるようになってきた。ディクテーションシステムでは、キーボードなどから入力していたテキストを音声によって入力する。

通常、テキスト以外の制御コード改行、削除など)は、キーボードから入力するか、もしくは、予め登録しておいた特定のコマンド音声(例えば「改行記号」や「削除記号」など)を発声することで入力する。

ここで、従来のディクテーションシステムでは、音声入力モードオンオフ切り替えはキーボードやマウスなどからコントロールすることが多く、一旦音声入力モードをオンにすると、マイクから入力される音声はすべて音声認識される。そのため、ユーザが意図して発声した音声以外に、例えば外部からきた音声や、ユーザが入力の意図なく発声した音声(呟きや唸り声など)が入力される可能性がある。

従来、ユーザが席を離れるもしくは入力作業を止めるなど、長期に亘って音声入力中断する場合には、キーボードなどを通じて音声入力モードをオフの状態にして、不要な音声が入力される危険性を回避していた。

概要

ユーザが発声を一定時間中断した場合に、特定のコマンド音声を除いて音声入力を受け付けない状態にすることで、ユーザが意図しない音声が入力される可能性を排除する。

入力部11から入力された音声を音声認識部14にて認識処理して文字列に変換し、その文字列をコマンド生成部15またはテキスト生成部16を通じて処理する。ここで、音声入力判断部17にて音声の入力間隔監視し、一定時間経過しても音声が入力されなかった場合に、音声入力モードをオフにして、その間に入力された文字列を無効とする。これにより、ユーザが音声入力を中断している間に、外部からの音やユーザが意図しない音声など、不要な音声が入力される可能性を排除するこができる。

目的

本発明は上記のような点に鑑みなされたもので、ユーザが発声を一定時間中断した場合に、特定のコマンド音声を除いて音声入力を受け付けない状態にすることで、ユーザが意図しない音声が入力される可能性を排除するようにしたディクテーション装置及びディクテーションプログラムを記録した記録媒体を提供することを目的とする。

効果

実績

技術文献被引用数
1件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声を入力する音声入力手段と、この音声入力手段によって入力された音声を認識処理して文字列に変換する音声認識手段と、この音声認識手段によって認識結果として得られた文字列を処理する処理手段と、音声の入力間隔監視し、上記音声入力手段から一定時間経過しても音声が入力されなかった場合に、音声入力モードオフにして、その間に入力された文字列を無効とする入力制御手段とを具備したことを特徴とするディクテーション装置。

請求項2

音声を入力する音声入力手段と、この音声入力手段によって入力された音声を認識処理して文字列に変換する音声認識手段と、この音声認識手段によって認識結果として得られた文字列を処理する処理手段と、入力を受け付けるべき特定の文字列を記憶した記憶手段と、音声の入力間隔を監視し、上記音声入力手段から一定時間経過しても音声が入力されなかった場合に、音声入力モードをオフにして、その間に入力された上記記憶手段に記憶された特定の文字列以外の文字列を無効とする入力制御手段とを具備したことを特徴とするディクテーション装置。

請求項3

上記音声入力モードがオフの状態であるとき、その旨を通知する通知手段を具備したことを特徴とする請求項1または請求項2記載のディクテーション装置。

請求項4

記入力制御手段は、コマンドに関する文字列が入力された場合に、上記音声入力モードをオンの状態に切り替えることを特徴とする請求項1または請求項2記載のディクテーション装置。

請求項5

上記入力制御手段は、上記音声認識手段による認識率が予め設定された値より高い文字列が入力された場合に、上記音声入力モードをオンの状態に切り替えることを特徴とする請求項1または請求項2記載のディクテーション装置。

請求項6

音声を認識してテキストとして入力するためのディクテーションプログラムを記録した記録媒体であって、音声を入力する手順と、入力された音声を認識処理して文字列に変換する手順と、認識結果として得られた文字列を処理する手順と、音声の入力間隔を監視し、一定時間経過しても音声が入力されなかった場合に、音声入力モードをオフにして、その間に入力された文字列を無効とする手順とをコンピュータに実行させるプログラムを記録したコンピュータ読取り可能な記録媒体。

請求項7

音声を認識してテキストとして入力するためのディクテーションプログラムを記録した記録媒体であって、音声を入力する手順と、入力された音声を認識処理して文字列に変換する手順と、認識結果として得られた文字列を処理する手順と、音声の入力間隔を監視し、一定時間経過しても音声が入力されなかった場合に、音声入力モードをオフにして、その間に入力された特定の文字列以外の文字列を無効とする手順とをコンピュータに実行させるプログラムを記録したコンピュータ読取り可能な記録媒体。

技術分野

0001

本発明は、例えばパーソナルコンピュータなどに用いられ、ユーザが発声した言葉音声認識してテキストとして入力するディクテーション装置に係り、特にユーザが音声入力中断している状態での不要な音声入力の受け付けを制御する機能を備えたディクテーション装置及びディクテーションプログラムを記録した記録媒体に関する。

背景技術

0002

音声認識技術の進歩に伴い、テキスト入力音声で行うディクテーションシステムが開発されるようになってきた。ディクテーションシステムでは、キーボードなどから入力していたテキストを音声によって入力する。

0003

通常、テキスト以外の制御コード改行、削除など)は、キーボードから入力するか、もしくは、予め登録しておいた特定のコマンド音声(例えば「改行記号」や「削除記号」など)を発声することで入力する。

0004

ここで、従来のディクテーションシステムでは、音声入力モードオンオフ切り替えはキーボードやマウスなどからコントロールすることが多く、一旦音声入力モードをオンにすると、マイクから入力される音声はすべて音声認識される。そのため、ユーザが意図して発声した音声以外に、例えば外部からきた音声や、ユーザが入力の意図なく発声した音声(呟きや唸り声など)が入力される可能性がある。

0005

従来、ユーザが席を離れるもしくは入力作業を止めるなど、長期に亘って音声入力を中断する場合には、キーボードなどを通じて音声入力モードをオフの状態にして、不要な音声が入力される危険性を回避していた。

発明が解決しようとする課題

0006

上記したように、不要な音声入力を避けるため、長期に亘って音声入力を中断する場合には音声入力モードをオフの状態にしておくことが考えられる。しかしながら、長期の中断ではなく、ユーザが次の入力を考えるなどの理由から一時的に短期の中断をする場合には、その都度、キーボードなどから音声入力オフモードの指示を行う必要があり、非常に面倒である。

0007

しかも、この短期的な中断は音声入力中に頻繁に起こる上、ユーザが入力を意図しない音声(呟きなど)が最も発声しやすい間隔でもある。このため、従来方法では、音声入力中にノイズが入力されてしまう可能性を排除しきれないという欠点があった。

0008

本発明は上記のような点に鑑みなされたもので、ユーザが発声を一定時間中断した場合に、特定のコマンド音声を除いて音声入力を受け付けない状態にすることで、ユーザが意図しない音声が入力される可能性を排除するようにしたディクテーション装置及びディクテーションプログラムを記録した記録媒体を提供することを目的とする。

課題を解決するための手段

0009

本発明は、ユーザの発声した音声を認識してテキストを作成する際に、音声の入力間隔絶えず監視し、一定時間以上音声が途切れた場合に、音声入力モードをオフにして、その間に入力された文字列を無効とするか、あるいは、例えばシステムを起動するためのコマンドなど、特定の文字列を除いて入力を受け付けない状態とすることを特徴とする。

0010

このような構成によれば、ディクテーションシステムにおいて、音声入力が一定時間途絶えると、音声入力モードが自動的にオフの状態となって不要な音声入力を受け付けなくなる。したがって、ユーザが音声入力を中断している間に、外部からの音やユーザが意図しない音声など、不要な音声が入力される可能性を排除するこができる。

発明を実施するための最良の形態

0011

以下、図面を参照して本発明の実施形態を説明する。

0012

(第1の実施形態)図1は本発明の第1の実施形態に係るディクテーション装置の構成を示すブロック図である。なお、本装置は、ユーザが発声した言葉を音声認識してテキストとして入力するものであって、例えば磁気ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現される。

0013

図1に示すように、本装置は、入力部11、制御部12、表示部13、音声認識部14、コマンド生成部15、テキスト生成部16、音声入力判断部17、コマンド辞書18、テキスト格納部19から構成される。

0014

入力部11は、ユーザが発した音声を入力するためのもので、例えばマイクロフォンなどの入力装置からなる。

0015

制御部12は本装置全体を司るもので、例えば中央処理ユニット(CPU)であり、文章作成処理を実行するための各処理部(音声認識部14、コマンド生成部15、テキスト生成部16、音声入力判断部17)の制御を行う。また、この制御部12には、音声入力モードのオン/オフ状態を記憶するためのモード記憶部12aが設けられている。この音声入力モードがオン状態のとき、音声入力された情報は有効とされ、音声入力モードがオフ状態のとき、音声入力された情報は無効とされる。

0016

表示部13は、音声認識により変換されたテキストの文字列などを表示するためのもので、例えばCRTディスプレイ装置または液晶表示装置(等のフラットパネルディスプレイ装置)からなる。

0017

音声認識部14、コマンド生成部15、テキスト生成部16、音声入力判断部17、コマンド辞書18、テキスト生成部19は、文章作成処理に必要な機能要素であり、それぞれ固有処理ルーチン(と当該処理ルーチンを実行するCPU)により実現されるものである。

0018

音声認識部14は、入力部11から入力された音声を音声認識辞書14aを参照して認識処理して、その認識結果として得られる文字列に変換して出力する。なお、この音声認識部14による音声認識処理認識エンジン)は、音声入力モードのオン/オフに関係なく常にも起動状態にある。

0019

コマンド生成部15は、音声認識部14で変換された文字列がコマンド辞書18に登録されているかどうかを検索する。そして、登録されていれば、該当するコマンドの制御コードを出力し、登録されていなければ、そのまま文字列を出力する。

0020

テキスト生成部16は、音声入力モードがオンの場合、コマンド生成部15から渡された文字列をテキスト格納部19に格納し、音声入力モードがオフの場合、テキスト格納部19への格納はしない。

0021

音声入力判断部17は、音声入力の間隔を監視し、音声入力モードがオンの場合に一定時間経過しても音声入力がなければ、制御部12のモード記憶部12aに設定された音声入力モードをオフにする。

0022

コマンド辞書18は、コマンドを表わす文字列と、対応する制御コードと、コマンドを実行するレベルとの組み合わせを保持してある。図4にコマンド辞書18の一例を示す。

0023

図4の例では、文字列「おんせいにゅうりょくもーどおん」とコマンド「音声入力モードをオンにする」とが対応付けられており、そのレベルが「1」に設定されている。同様に、文字列「おんせいにゅうりょくもーどおふ」とコマンド「音声入力モードをオフにする」とが対応付けられており、そのレベルが「1」に設定されている。また、文字列「かいぎょう」とコマンド「改行する」とが対応付けられており、そのレベルが「0」に設定されている。同様に、文字列「かいぺいじ」とコマンド「改頁する」とが対応付けられており、そのレベルが「0」に設定されている。

0024

なお、前者のコマンドはシステムの制御自体に直接関わるものであり、レベル「1」として登録されている。後者のコマンドは文書編集に関するものであって、システムの制御自体に直接関わるものではない。したがって、この種のコマンドはレベル「0」として登録されている。

0025

テキスト格納部19は、音声認識で変換されたテキスト文字列を格納するものである。

0026

次に、第1の実施形態の動作を説明する。

0027

まず、入力部11から音声が入力されると、音声認識部14と音声入力判断部17に送られる。音声認識部14は、入力された音声を認識して単語文字列に変換してコマンド生成部15に送る。

0028

コマンド生成部15は、当該単語文字列をキーにしてコマンド辞書18に予め登録してあるコマンド文字列を検索して、該当するコマンド文字列があった場合に、当該文字列に対応するコマンドのレベルが予め設定されているレベルに該当するかをチェックする。その結果、該当する場合には、その文字列に対応したコマンド処理を実行する。該当しない場合は、そのまま単語文字列をテキスト生成部16に送る。

0029

テキスト生成部16は、音声入力モードがオンの場合、送られてきた単語文字列をテキスト格納部19に格納し、音声入力モードがオフの場合にはテキスト格納部19への格納はしない。テキスト格納部19に格納されたテキストは、たえず表示部13に表示される。

0030

ここで、音声入力モードをオンにするのは、上述した入力部11からコマンド生成部15までの流れで行う。入力部11から音声入力モードをオンにするコマンド音声が入力されると、コマンド生成部15はコマンド辞書18に当該コマンド文字列が存在することを確認して、そのコマンド文字列に対応するコマンドの制御コードを出力する。

0031

音声入力判断部17は、音声入力の間隔を監視していて、音声入力モードがオンになると、入力部11から送られる音声と音声の間隔が一定時間を越えた場合には音声入力モードをオフにする。

0032

次に、図2フローチャートを参照して詳しく説明する。

0033

図2は第1の実施形態における音声処理の動作を示すフローチャートである。入力部11から音声が入力されると、制御部12は、これを音声認識部14に渡す(ステップA11)。音声認識部14は、音声認識辞書14aを用いて、入力された音声を認識処理して単語文字列に変換し、これをコマンド生成部15に渡す(ステップA12)。

0034

コマンド生成部15では、音声認識部14によって得られた単語文字列がコマンド辞書18に登録されているコマンド文字列と一致するかどうかをチェックする(ステップA13)。そして、コマンド文字列と一致しない場合、つまり、コマンド以外の文字列が入力された場合において(ステップA13のNo)、コマンド生成部15は現在の音声入力モードの状態をチェックする(ステップA14)。

0035

その結果、音声入力モードがオンであれば(ステップA14のYes)、コマンド生成部15はそのときの単語文字列をテキスト生成部16に渡してテキスト格納部9に格納する(ステップA15)。また、音声入力モードがオフの場合には(ステップA14のNo)、テキスト格納部19への格納はせず、音声入力待ちの状態となる。

0036

具体的に説明すると、例えば音声入力モードがオンの状態で、入力部11から「はじめに」といった音声が入力されたとする。この入力音声は音声認識部14に渡され、「はじめに」といった単語文字列に変換される。コマンド生成部15は、図4に示すようなコマンド辞書18から該当するコマンド文字列を検索する。この場合、一致するコマンド文字列がないため、そのままテキスト生成部16に送られる。コマンド生成部15から渡された「はじめに」という単語文字列は、テキスト格納部19に格納される。

0037

一方、上記ステップA13で、単語文字列がコマンド辞書18に登録されているコマンド文字列と一致する場合、コマンド生成部15は音声入力モードがオンかどうかをチェックする(ステップA16)。音声入力モードがオフの場合には(ステップA16のNo)、コマンド生成部15は単語文字列に一致したコマンド文字列のレベルが、予め設定されたレベルに該当するかどうかをチェックする(ステップA17)。

0038

その結果、設定レベルに該当しない場合、つまり、文書編集に使われるようなレベルの低いコマンド文字列であった場合には(ステップA17のNo)、当該文字列の入力を無効とし、それに対応するコマンド処理を実行しない。また、設定レベルに該当する場合、つまり、システムの制御自体に関わるレベルの高いコマンド文字列であった場合には(ステップA17のYes)、当該文字列の入力を有効とし、それに対応するコマンド処理を実行する(ステップA18)。

0039

上記ステップA16において、音声入力モードがオンの場合には、コマンドレベルに関係なく、そのときのコマンド文字列の入力を有効とし、それに応じたコマンド処理を実行することになる(ステップA18)。

0040

例えば、「はじめに」という音声を入力してから、次の音声が一定時間以上入力されず、音声入力モードがオフになった場合を考える。

0041

この状態で、「改行」という音声を入力したとする。この入力音声「かいぎょう」は、音声認識部14で「かいぎょう」という単語文字列に変換され、コマンド辞書18に登録されているコマンド文字列と比較される。この場合、単語文字列「かいぎょう」は、図4に示すようにコマンド辞書18に登録されたコマンド文字列と一致する。

0042

ステップA16において、音声入力モードはオフの状態なので、コマンド辞書18で「かいぎょう」のレベルが、予め設定してあるコマンドのレベルに該当するかどうかをチェックする。ここでは、「レベル1のコマンドのみを受け付ける」と設定してあるとする。「かいぎょう」のレベルは図4に示すように「0」なので、これに対応するコマンド処理は実行されない。

0043

続いて、「音声入力オン」という音声を入力したとする。この入力音声は音声認識部14で「おんせいにゅうりょくもーどおん」という単語文字列に変換され、コマンド辞書18に登録されているコマンド文字列と比較される。音声入力モードはオフなので、ステップA17で「おんせいにゅうりょくもーどおん」のレベルをコマンド辞書18でチェックする。この場合、「おんせいにゅうりょくもーどおん」というコマンドのレベルは「1」であり、予め設定してあるコマンドのレベルに該当する。したがって、ステップA18で、対応するコマンド「音声入力モードをオンにする」の処理を実行する。

0044

ここで、予め設定してあるコマンドのレベルというのは、「レベル0のコマンドのみを受け付ける」とか「すべてのレベルのコマンドを受け付ける」などのように設定されていても構わない。

0045

次に、音声入力モードがオフになる仕組みについては、図3のフローチャートを参照して説明する。

0046

図3は第1の実施形態における音声入力判断処理の動作を示すフローチャートである。音声入力判断部17は、常に音声入力モードの状態を監視している(ステップB11)。そして、音声入力モードがオンになると(ステップB11のYes)、音声入力判断部17は入力部11から渡される音声の入力間隔をチェックする(ステップB12)。ここで、一定時間を越えて音声が入力されてこないような場合には(ステップB12のYes)、音声入力判断部17は制御部12のモード記憶部12aに設定された音声入力モードの状態をオフにする(ステップB13)。

0047

例えば、「はじめに」という音声を入力してから、一定の時間経過後に「えーと」という音声が入力されたとする。このような場合に、音声入力判断部16は音声入力モードがオンだと判断した状態で音声入力の間隔を監視し、「はじめに」という音声の後に一定時間音声が入力されていないことを確認して、音声入力モードをオフにする。

0048

そのため、入力部11から入力された音声「えーと」が音声認識部14にて単語文字列「えーと」に変換された際、テキスト生成部16では音声入力モードがオフであると判断するため、当該文字列はテキスト格納部19には格納されない。つまり、テキスト格納部19には、音声入力モードがオフになる前に入力された「はじめに」といった文字列のみが格納される。これにより、図5に示すように、表示部13には、テキスト格納部19に格納されたテキスト「はじめに」が表示される。

0049

このように、音声が一定時間経過しても入力されてない場合に音声入力モードをオフとすることで、音声入力の合間に発せられた外部の音(ノイズ)や、ユーザが意図せずに発した音声など、不要な音声をテキストとして入力してしまうことを回避できる。また、この間に特定のコマンドが音声入力された場合には、そのコマンドの処理を行うことで、不要な音声入力のみ排除して、システムの制御自体に直接関わる音声入力については、そのまま扱うことができる。

0050

(第2の実施形態)次に、本発明の第2の実施形態について説明する。

0051

図6は本発明の第2の実施形態に係るディクテーション装置の構成を示すブロック図である。本装置も、図1と同様に、例えば磁気ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現されるものであり、図中11〜19は図1と同じものである。

0052

図6の構成において、図1と異なる点は音声入力モード警告部20が設けられていることである。この音声入力モード警告部20は、音声入力判断部17の判断結果に従って音声入力モードがオンもしくはオフであることを明示するためのメッセージを表示部13に表示する処理を行う。

0053

次に、第2の実施形態の動作について説明する。

0054

図6の構成の動作については、上記第1の実施形態における図1の構成の動作と全く同じであり、図2のフローチャートによる音声処理の動作の詳細も全く変わらない。異なるのは、音声入力モードがオフになる仕組みについて、音声入力モード警告部20の処理が追加されることである。これについては、図7のフローチャートを参照して説明する。

0055

図7は第2の実施形態における音声入力判断処理の動作を示すフローチャートである。音声入力判断部17は、常に音声入力モードの状態を監視している(ステップC11)。そして、音声入力モードがオンになると(ステップC11のYes)、音声入力判断部17は入力部11から渡される音声の入力間隔をチェックする(ステップC12)。ここで、一定時間を越えて音声が入力されてこないような場合には(ステップC12のYes)、音声入力判断部17は制御部12のモード記憶部12aに設定される音声入力モードの状態をオフにする(ステップC13)。

0056

音声入力モードがオフになると、音声入力判断部17は音声入力モード警告部20を起動し、音声入力モードがオフになったことを伝える。これを受けて、音声入力モード警告部20は音声入力モードがオフであることを表示部13に表示する(ステップC14)。

0057

ここでは、テキスト格納部19に「はじめに」が格納された状態で、音声入力モードがオンの状態を考える。音声入力判断部16は音声入力モードがオンであるので、音声と音声の間隔をチェックする。そして、「はじめに」に続く音声が一定時間経過しても入力されなかったら、音声入力判断部16は音声入力モードをオフにして、音声入力モード警告部20に知らせる。音声入力モード警告部20は音声入力モードがオフになったことを、図8に示すようなメッセージ31を表示部13に表示することで、ユーザに通知する。

0058

このように、音声入力モードが自動的にオフした場合に、その旨がユーザに通知されるため、ユーザがモードオフの状態を気付かずに無駄な発声をしてしまうことを回避できる。

0059

なお、本実施形態では、図8に示すようなメッセージ31の表示により音声入力モードがオフになったことをユーザに通知するようにしたが、その他の通知方法として、例えば警告ランプ点灯警告音の発生、さらに、音声にて「音声入力モードをオフしました。」といったようなメッセージを出力するようにしても良い。

0060

(第3の実施形態)次に、本発明の第3の実施形態について説明する。

0061

図9は本発明の第3の実施形態に係るディクテーション装置の構成を示すブロック図である。本装置も、図1と同様に、例えば磁気ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現されるものであり、図中11〜19は図1と同じものである。

0062

図9の構成において、図1と異なる点は音声入力モード切り替え部21が設けられていることである。この音声入力モード切り替え部21は、音声入力モードがオフの状態で、コマンド文字列が入力されたときに音声入力モードをオンに切り替える処理を行う。

0063

次に、第3の実施形態の動作を説明する。

0064

まず、入力部11から音声が入力されると、音声認識部14と音声入力判断部17に送られる。音声認識部14は、入力された音声を認識して単語文字列に変換してコマンド生成部15に送る。

0065

コマンド生成部15は、当該単語文字列でコマンド辞書18に予め登録してあるコマンド文字列を検索して、該当するコマンド文字列があった場合に、当該文字列に対応するコマンドのレベルが予め設定されているレベルに該当するかをチェックする。その結果、該当する場合には対応したコマンド処理を実行する。その際に、音声入力モード切り替え部21を起動する。該当しない場合は、そのまま単語文字列をテキスト生成部16に送る。

0066

音声入力モード切り替え部21は、音声入力モードがオンかどうかをチェックし、オフの場合にはオンにする。

0067

テキスト生成部16は、音声入力モードがオンの場合、送られて来た単語文字列をテキスト格納部19に格納する。音声入力モードがオフの場合にはテキスト格納部19への格納はしない。テキスト格納部19に格納されたテキストは、たえず表示部13に表示される。

0068

音声入力モードをオンにするのは、上述した入力部11からコマンド生成部15までの流れで行う。入力部11から音声入力モードをオンにするコマンド音声が入力されると、コマンド生成部15はコマンド辞書18に当該コマンド文字列が存在することを確認して、そのコマンド文字列に対応するコマンドの制御コードを出力する。

0069

音声入力判断部17は、音声入力の間隔を監視していて、音声入力モードがオンになると、入力部11から送られる音声と音声の間隔が一定時間を越えた場合には音声入力モードをオフにする。

0070

次に、図10のフローチャートを参照して詳しく説明する。

0071

図10は第3の実施形態における音声処理の動作を示すフローチャートである。入力部11から音声が入力されると、制御部12は、これを音声認識部14に渡す(ステップD11)。音声認識部14は、音声認識辞書14aを用いて、入力された音声を認識処理して単語文字列に変換し、これをコマンド生成部15に渡す(ステップD12)。

0072

コマンド生成部15では、音声認識部14によって得られた単語文字列がコマンド辞書18に登録されているコマンド文字列と一致するかどうかをチェックする(ステップD13)。コマンド文字列と一致しない場合、つまり、コマンド以外の文字列が入力された場合において(ステップD13のNo)、コマンド生成部15は現在の音声入力モードの状態をチェックする(ステップD14)。

0073

その結果、音声入力モードがオンであれば(ステップD14のYes)、コマンド生成部15はそのときの単語文字列をテキスト生成部16に渡してテキスト格納部9に格納する(ステップD15)。また、音声入力モードがオフの場合には(ステップD14のNo)、テキスト格納部19への格納はせず、音声入力待ちの状態となる。

0074

一方、上記ステップD13で、単語文字列がコマンド辞書18に登録されているコマンド文字列と一致する場合、コマンド生成部15は音声入力モードがオンかどうかをチェックする(ステップD16)。音声入力モードがオフの場合には(ステップD16のNo)、コマンド生成部15は単語文字列に一致したコマンド文字列のレベルが、予め設定されたレベルに該当するかどうかをチェックする(ステップD17)。

0075

その結果、コマンド文字列のレベルが設定レベルに該当しない場合には(ステップD17のNo)、当該文字列の入力を無効として、それに対応するコマンド処理を実行しない。また、設定レベルに該当する場合には(ステップD17のYes)、当該文字列の入力を有効として、それに対応するコマンド処理を実行する(ステップD18)。

0076

ここで、コマンド生成部15は音声入力モード切り替え部21を起動する。音声入力モード切り替え部21は音声入力モードがオンであるかオフであるかをチェックし、オフの場合には音声入力モードをオンに切り替える(ステップD19)。

0077

また、音声入力モードがオンの場合には(ステップD16のYes)、コマンドレベルに関係なく、そのときのコマンド文字列を有効とし、それに応じた処理を実行することになる(ステップD20)。

0078

例えば、音声入力モードがオフの状態で、「改頁」という音声を入力したとする。「改頁」という音声は音声認識部14にて「かいぺーじ」という単語文字列に変換される。コマンド生成部15でコマンド辞書18を検索すると、一致するコマンド文字列が存在する。

0079

ステップD16で音声入力モードをチェックすると、音声入力モードはオフなので、コマンド辞書18でコマンド文字列「かいぺーじ」のレベルが予め設定してあるコマンドのレベルに該当するかどうかをチェックする。

0080

ここで、「すべてのレベルのコマンドを受け付ける」と設定してあったとすると、当該コマンド文字列「かいぺーじ」は設定レベルのコマンドということになり、ステップD19にて、対応するコマンド「改頁する」を実行することになる。

0081

さらに、コマンド生成部15により音声入力モード切り替え部21が起動される。音声入力モード切り替え部21は、音声入力モードがオンかどうかをチェックする。この場合、音声入力モードがオフの状態にあるので、これをオンの状態に切り替える。

0082

ここで、予め設定してあるコマンドのレベルというのは、「レベル0のコマンドのみを受け付ける」とか「レベル1のコマンドのみを受け付ける」などのように設定されていても構わない。

0083

このように、入力された音声がコマンドのための音声である場合に、ユーザが中断していた音声入力を再開したと判断して、音声入力を受け付ける状態に切り替える。これにより、音声入力を受け付けない状態で(音声入力モードがオフの状態)、ユーザが音声入力を再開する際に、キーボードなどから状態を変更するコマンドを与えるなどしなくとも、コマンドのための音声入力後、直ちに音声入力を行うことができるようになる。

0084

(第4の実施形態)次に、本発明の第4の実施形態について説明する。

0085

図11は本発明の第4の実施形態に係るディクテーション装置の構成を示すブロック図である。本装置も、図1と同様に、例えば磁気ディスク等の記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現されるものであり、図中11〜19は図1と同じものである。

0086

図11の構成において、図1と異なる点は認識率判定部22が設けられていることである。この認識率判定部22は、音声認識部14で認識された単語文字列の認識率が一定の値よりも高いかどうかを判定する。

0087

次に、第4の実施形態の動作を説明する。

0088

まず、入力部11から音声が入力されると、音声認識部14と音声入力判定部17に送られる。音声認識部14は、入力された音声を認識して単語文字列に変換してコマンド生成部15に送る。

0089

コマンド生成部15は、当該単語文字列でコマンド辞書18に予め登録してあるコマンド文字列を検索して、該当するコマンド文字列があった場合に、当該文字列に対応するコマンドのレベルが予め設定されているレベルに該当するかをチェックする。その結果、該当する場合には対応したコマンド処理を実行する。該当しない場合は、認識率判定部22に問い合わせを行う。

0090

認識率判定部22は、音声認識部14が認識した単語文字列の認識率が予め設定してある値を越えているかどうかをチェックする。越えている場合には、音声入力モードをオンにして、コマンド生成部15に制御を戻す。コマンド生成部15は、単語文字列をテキスト生成部16に送る。

0091

テキスト生成部16は、音声入力モードがオンの場合、送られて来た単語文字列をテキスト格納部19に格納し、音声入力モードがオフの場合にはテキスト格納部19への格納はしない。テキスト格納部19に格納されたテキストは、たえず表示部13に表示される。

0092

音声入力モードをオンにするのは、上述した入力部11からコマンド生成部15までの流れで行う。入力部11から音声入力モードをオンにするコマンド音声が入力されると、コマンド生成部15はコマンド辞書18に当該コマンド文字列が存在することを確認して、そのコマンド文字列に対応するコマンドの制御コードを出力する。

0093

音声入力判断部17は、音声入力の間隔を監視していて、音声入力モードがオンになると、入力部11から送られる音声と音声の間隔が一定時間を越えた場合には音声入力モードをオフにする。

0094

次に、図12のフローチャートを参照して詳しく説明する。

0095

図12は第4の実施形態における音声処理の動作を示すフローチャートである。入力部11から音声が入力されると、制御部12は、これを音声認識部14に渡す(ステップE11)。音声認識部14は、音声認識辞書14aを用いて、入力された音声を認識処理して単語文字列に変換し、これをコマンド生成部15に渡す(ステップE12)。

0096

コマンド生成部15では、音声認識部14によって得られた単語文字列がコマンド辞書18に登録されているコマンド文字列と一致するかどうかをチェックする(ステップE13)。コマンド文字列と一致する場合は、コマンド生成部15は音声入力モードがオンかどうかをチェックする(ステップE14)。

0097

音声入力モードがオフの場合には(ステップE14のNo)、コマンド生成部15は単語文字列に一致したコマンド文字列のレベルが、予め設定されたレベルに該当するかどうかをチェックする(ステップE15)。

0098

その結果、設定レベルに該当しない場合、つまり、文書編集に使われるようなレベルの低いコマンド文字列であった場合には(ステップE15のNo)、当該文字列の入力を無効とし、それに対応するコマンド処理を実行しない。また、設定レベルに該当する場合、つまり、システムの制御を自体に関わるレベルの高いコマンド文字列であった場合には(ステップE15のYes)、当該文字列の入力を有効とし、それに対応するコマンド処理を実行する(ステップE16)。

0099

一方、上記ステップE13において、単語文字列がコマンド辞書18に登録されたコマンド文字列と一致しない場合には、認識率判定部22に問い合わせを行う。

0100

例えば、音声入力モードがオフの状態で、入力部11から「おわりに」という音声を入力したとする。「おわりに」という音声は音声認識部14に渡され、「おわりに」という単語文字列に変換される。コマンド生成部15はコマンド辞書18を検索するが、該当するコマンド文字列がないので、認識率判定部22に問い合わせる。

0101

認識率判定部22は、音声認識部14によって得られる単語文字列の認識率が予め設定された値より大きいかどうかを判定する(ステップE17)。その結果、単語文字列の認識率が設定値を越えている場合には(ステップE17のYes)、音声入力モードをオンにして(ステップE18)、コマンド生成部15に制御を戻す。コマンド生成部15は、当該単語文字列をそのままテキスト生成部16に渡す。

0102

この場合、音声認識部14に設けられた音声認識辞書14aには、予め文章作成に関する単語を対象として、その単語を音声認識するための情報が登録されている。したがって、文章作成に関する単語が音声入力された際には、その単語を高い認識率で認識することができ、ノイズと区別することができる。

0103

ここで、「おわりに」という単語文字列はノイズではなく正しい単語なので認識率が高いとする。すると、認識率判定率12は設定値より大きい認識率だと判定し、音声入力モードをオンとする。

0104

テキスト生成部16は、音声入力モードがオンかどうかをチェックし(ステップE19)、音声入力モードがオンの場合には(ステップE19のYes)、コマンド生成部15から渡された単語文字列をテキスト格納部19に格納する(ステップE20)。音声入力モードがオフの場合は(ステップE19のNo)、テキスト格納部19に格納しないで、ステップE11に戻る。

0105

上記の例で、コマンド生成部15から渡された「おわりに」という単語文字列は、認識率判定部22の判定により音声入力モードがオンになっているため、テキスト格納部19に格納され、表示部13に表示される。

0106

このように、入力された音声がノイズであるかどうかを音声認識の認識率で区別し、認識率が高ければ、ユーザが意図した音声入力であると判断することができる。したがって、音声入力を受け付けない状態(音声入力モードがオフの状態)で、ユーザが音声入力を再開する際に、キーボードなどから状態を変更するコマンドを与えるなどしなくとも、直ちに音声入力を行うことができるようになる。

0107

なお、本発明は上述した実施形態に限定されるものではない。

0108

例えば、音声入力モードをオフにする音声入力判定部17と、認識率が一定の値より大きい場合に音声入力モードをオンにする認識率判定部22と、コマンドのための音声が入力された場合に音声モードをオンにする音声入力モード切り替え部21とが別々に処理を行う構成となっているが、これらを同時に行うようにしても良い。

0109

要するに、本発明は要旨を逸脱しない範囲で種々変形して実施することができる。

0110

また、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フロッピーディスクハードディスク等)、光ディスクCD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、通信媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。

発明の効果

0111

以上のように本発明によれば、ユーザの発声した音声を認識してテキストを作成する際に、音声の入力間隔を絶えず監視し、一定時間以上音声が途切れた場合に、音声入力モードをオフにして、その間に入力された文字列を無効とするか、あるいは、例えばシステムを起動するためのコマンドなど、特定の文字列を除いて入力を受け付けない状態とすることで、ユーザが音声入力を中断している間に、外部からの音やユーザが意図しない音声など、不要な音声が入力される可能性を排除するこができる。

0112

また、音声入力を受け付けない状態(音声入力モードがオフの状態)にあるときに、ユーザにその旨を通知することで、ユーザがモードオフの状態を気付かずに無駄な発声をしてしまうことを回避できる。

0113

また、コマンドのための音声が入力された場合に、ユーザが中断していた音声入力を再開したと判断して、音声入力を受け付ける状態に切り替えることで、音声入力を受け付けない状態で(音声入力モードがオフの状態)、ユーザが音声入力を再開する際に、キーボードなどから状態を変更するコマンドを与えるなどしなくとも、コマンドのための音声入力後、直ちに音声入力を行うことができる。また、入力された音声がノイズであるかどうかを音声認識の認識率で区別し、認識率が高ければ、ユーザが意図した音声入力であると判断することで、音声入力を受け付けない状態(音声入力モードがオフの状態)で、ユーザが音声入力を再開する際に、キーボードなどから状態を変更するコマンドを与えるなどしなくとも、直ちに音声入力を行うことができる。

図面の簡単な説明

0114

図1本発明の第1の実施形態に係るディクテーション装置の構成を示すブロック図。
図2上記第1の実施形態における音声処理の動作を説明するためのフローチャート。
図3上記第1の実施形態における音声入力判断処理の動作をを説明するためのフローチャート。
図4上記第1の実施形態におけるコマンド辞の構成を示す図。
図5上記第1の実施形態における表示画面を示す図。
図6本発明の第2の実施形態に係るディクテーション装置の構成を示すブロック図。
図7上記第2の実施形態における音声入力判断処理の動作を説明するためのフローチャート。
図8上記第2の実施形態における表示画面を示す図。
図9本発明の第3の実施形態に係るディクテーション装置の構成を示すブロック図。
図10上記第3の実施形態における音声処理の動作を説明するためのフローチャート。
図11本発明の第4の実施形態に係るディクテーション装置の構成を示すブロック図。
図12上記第4の実施形態における音声処理の動作を説明するためのフローチャート。

--

0115

11…入力部
12…制御部
12a…モード記憶部
13…表示部
14…音声認識部
14a…音声認識辞書
15…コマンド生成部
16…テキスト生成部
17…音声入力判断部
18…コマンド辞書
19…テキスト格納部
20…音声入力モード警告部
21…音声入力モード切り替え部
22…認識率判定部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ