図面 (/)
課題
解決手段
概要
背景
非特許文献1に示すような、自動車のインフォテイメントシステムなどの操作を音声認識を使って行うシステムでは、音声認識結果の文字列を解析して、どのようなコマンドが発せられたかを判定する。このシステムでは、定型文のコマンドの判定や、言い回しの違うコマンドの解析も行うことができる。コマンドの解析は、あらかじめ用意されたルールに従って行われる。例えば、“エアコン”、“温度”、“上げる”の組み合わせが含まれる際に、エアコンの温度を上昇させるコマンドであると判定するなどである。図1に、従来技術のコマンド解析装置の構成例を示す。同図に示すように、従来例のコマンド解析装置9は、認識ルール記憶部90aと、音声認識部91と、コマンド解析部92を含む。図2に、従来技術のコマンド解析装置の動作例を示す。音声認識部91は、音声信号を取得して、音声認識を実行し、認識結果を得る(S91)。コマンド解析部92は、認識ルール記憶部90aに記憶された認識ルールに基づいて認識結果からコマンドを解析して出力する(S92)。
概要
コマンド実行までの時間を短縮することができるコマンド解析装置を提供する。所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する音声認識部と、途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力するコマンド解析部を含む。
目的
本発明では、コマンド実行までの時間を短縮することができるコマンド解析装置を提供する
効果
実績
- 技術文献被引用数
- 0件
- 牽制数
- 0件
この技術が所属する分野
請求項1
所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する音声認識部と、前記途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、前記音声信号の入力の最中に解析結果を出力するコマンド解析部を含むコマンド解析装置。
請求項2
請求項1に記載のコマンド解析装置であって、前記音声認識部は、前記部分的な音声認識結果が文末であるか否かを判定して、文末である場合に前記音声認識結果(以下、最終結果)と文末信号を出力し、前記文末信号を受信した場合に、前記途中結果用認識ルールを所定の最終結果用認識ルールに切り替えるルール切替部を含み、前記コマンド解析部は、前記途中結果用認識ルールが前記最終結果用認識ルールに切り替えられた場合に、前記最終結果を前記最終結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力するコマンド解析装置。
請求項3
請求項2に記載のコマンド解析装置であって、前記音声認識部は、前記部分的な音声認識結果が文末でない場合に、無音区間が所定時間以上継続しているか否か、あるいは新たな前記音声認識結果が所定時間以上に渡り取得されていないかを判定して、前記無音区間が所定時間以上継続している場合、あるいは新たな前記音声認識結果が所定時間以上に渡り取得されていない場合に、無音信号を出力し、前記ルール切替部は、前記無音信号を受信した場合に、前記途中結果用認識ルールを、第2の途中結果用認識ルールに切り替え、前記コマンド解析部は、前記途中結果用認識ルールが前記第2の途中結果用認識ルールに切り替えられた場合に、前記途中結果を前記第2の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力するコマンド解析装置。
請求項4
コマンド解析装置が実行するコマンド解析方法であって、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得するステップと、前記途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、前記音声信号の入力の最中に解析結果を出力するステップを含むコマンド解析方法。
請求項5
技術分野
背景技術
0002
非特許文献1に示すような、自動車のインフォテイメントシステムなどの操作を音声認識を使って行うシステムでは、音声認識結果の文字列を解析して、どのようなコマンドが発せられたかを判定する。このシステムでは、定型文のコマンドの判定や、言い回しの違うコマンドの解析も行うことができる。コマンドの解析は、あらかじめ用意されたルールに従って行われる。例えば、“エアコン”、“温度”、“上げる”の組み合わせが含まれる際に、エアコンの温度を上昇させるコマンドであると判定するなどである。図1に、従来技術のコマンド解析装置の構成例を示す。同図に示すように、従来例のコマンド解析装置9は、認識ルール記憶部90aと、音声認識部91と、コマンド解析部92を含む。図2に、従来技術のコマンド解析装置の動作例を示す。音声認識部91は、音声信号を取得して、音声認識を実行し、認識結果を得る(S91)。コマンド解析部92は、認識ルール記憶部90aに記憶された認識ルールに基づいて認識結果からコマンドを解析して出力する(S92)。
先行技術
発明が解決しようとする課題
0005
そこで本発明では、コマンド実行までの時間を短縮することができるコマンド解析装置を提供することを目的とする。
課題を解決するための手段
0006
本発明のコマンド解析装置は、音声認識部と、コマンド解析部を含む。
0007
音声認識部は、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する。コマンド解析部は、途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力する。
発明の効果
0008
本発明のコマンド解析装置は、コマンド実行までの時間を短縮することができる。
図面の簡単な説明
0009
従来技術のコマンド解析装置の構成例を示すブロック図。
従来技術のコマンド解析装置の動作例を示すフローチャート。
実施例1のコマンド解析装置に入力される発話音声の例1を示す図。
実施例1のコマンド解析装置に入力される発話音声の例2を示す図。
実施例1のコマンド解析装置の構成を示すブロック図。
実施例1のコマンド解析装置の動作を示すフローチャート。
実施例2のコマンド解析装置の構成を示すブロック図。
実施例2のコマンド解析装置の動作を示すフローチャート。
0010
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
0012
実施例1のコマンド解析装置は音声信号を入力とし、音声信号から音声認識結果を取得し、事前に設定されたルールに基づいて、コマンドを解析する。本実施例では、コマンド解析のためのルールを2種類、事前に準備する。1つは最終結果用認識ルール、もう1つは途中結果用認識ルールである。
0013
途中結果用認識ルールは部分的な音声認識結果(以下、途中結果という)に対するコマンド解析に利用され、最終結果用認識ルールは、文末を含む音声認識結果(以下、最終結果という)に対してのみ利用される。
0014
途中結果用認識ルールは、音声信号が文末まで未だ達していない(入力されていない)段階、すなわち、音声認識の途中であっても、コマンドを解析(特定)可能なルールであり、最終結果用認識ルールは音声認識の途中ではコマンドを解析(特定)できないルールであるものとする。
0015
図3に例示するように、発話音声「エアコンの温度を22度に設定して」であれば、「えあこんのおんどをにじゅう」まで発話した段階であれば、「エアコンの温度を20…」または「エアコンの温度を2●…」と、二つの可能性が考えられる。また、「えあこんのおんどをにじゅうに」まで発話した段階であれば、「エアコンの温度を20に…」または「エアコンの温度を22…」と、二つの可能性が考えられる。
0016
一方、「えあこんのおんどをにじゅうにど」まで発話した段階では、「エアコンの温度を22度」と確定することができるので、例えば、コマンドの実行主体である“エアコン”、コマンドの実行内容である“温度”、“*度”(ただし*は、エアコン温度の設定範囲の任意の数字とする)が含まれるルールを、途中結果用認識ルールとすることができる。
0017
エアコンの例では、上述の例の他に「エアコンの温度を3度上げて」などの発話音声も考えられる。このような発話音声に対しコマンド解析の誤りを防ぐために、*をエアコン温度の設定範囲(例えば18〜30)に制限したルールとすれば好適である。
0018
一方、図4に例示した発話音声「音楽のボリュームを22にして」に関しては、コマンドの実行主体である“音楽”(“音楽”と発話があった時点において楽音再生中のハードウェア)、コマンドの実行内容である“ボリューム”、“#”(#はボリュームの設定範囲の数字)が含まれるというルールとした場合、「おんがくのぼりゅーむをにじゅう」の段階で「音楽のボリュームを20」という誤ったコマンド解析が行われる可能性がある。
0019
従って、途中結果用認識ルールを“音楽”、“ボリューム”、“#に”とするか、あるいは“音楽”、“ボリューム”、“#”を最終結果用のルールとしなければならない。
0020
なお、上述ではコマンドの実行内容にパラメータ(“#”)が含まれる例を説明したが、これ以外の例も考えられる。例えば、音声信号が「窓をあけて」である場合、コマンドの実行主体は“窓”、コマンドの実行内容は“あけて”であるため、上述したパラメータ“#”を含まない。
0021
以下、図5を参照して実施例1のコマンド解析装置の構成を説明する。同図に示すように本実施例のコマンド解析装置1は、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bと、音声認識部11と、コマンド解析部12と、ルール切替部13を含む。
0022
図6を参照して本実施例のコマンド解析装置1の動作を説明する。フローチャートF1に示すように、音声認識部11は、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する(S11a)。コマンド解析部12は、途中結果を、途中結果用認識ルール記憶部10bに記憶された、所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力する(S12a)。
0023
なお、音声認識部11は、部分的な音声認識結果が文末であるか否かを判定して、文末である場合に(F2スタート)、音声認識結果(以下、最終結果)をコマンド解析部12に、文末信号をルール切替部13に出力するものとする(S11b)。ルール切替部13は、文末信号を受信した場合に、途中結果用認識ルールを最終結果用認識ルール記憶部10aに予め記憶された最終結果用認識ルールに切り替える(S13)。コマンド解析部12は、途中結果用認識ルールが最終結果用認識ルールに切り替えられた場合に、最終結果を最終結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する(S12b)。
0024
本実施例のコマンド解析装置1によれば、部分的な音声認識結果を途中結果用認識ルールと照合してコマンド解析を実行するため、音声信号の入力の最中に解析結果を出力することができ、コマンド実行までの時間を短縮することができる。
0025
実施例2では、コマンド解析のためのルールを3種類、事前に準備する。最終結果用認識ルール、途中結果用認識ルール、第2の途中結果用認識ルールの3つであり、最終結果用認識ルール、途中結果用認識ルールについては実施例1と同じである。第2の途中結果用認識ルールは、無音区間が検出された場合や、音声認識結果が所定時間に渡り取得されない場合に有効となるルールである。
0026
以下、図7を参照して実施例2のコマンド解析装置の構成を説明する。同図に示すように本実施例のコマンド解析装置2は、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bと、第2の途中結果用認識ルール記憶部20cと、音声認識部21と、コマンド解析部22と、ルール切替部23を含み、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bについては実施例1と同じである。
0027
図8を参照して本実施例のコマンド解析装置2の動作を説明する。フローチャートF3に示すように、音声認識部21は、部分的な音声認識結果が文末でない場合に、無音区間が所定時間以上継続しているか否か、あるいは新たな音声認識結果が所定時間以上に渡り取得されていないかを判定して、無音区間が所定時間以上継続している場合、あるいは新たな音声認識結果が所定時間以上に渡り取得されていない場合に、無音信号を出力する(S21)。例えば、音声認識部21は、無音区間が継続している時間をカウントして、当該時間が予め設定した閾値(例えば1〜3秒)を超えた場合に、無音信号を出力してもよい。同様に、音声認識部21は、音声認識結果が取得されていない時間をカウントして、当該時間が予め設定した閾値(例えば1〜3秒)を超えた場合に、無音信号を出力してもよい。
0029
例えば、「音楽のボリュームを20」という文があった場合に、本実施例では、数字の発音の後に長いポーズが入らないということを利用して、“音楽”、“ボリューム”、“#”(#はボリュームの設定範囲の数字)を第2の途中結果用認識ルールとすることで、実施例1の方法よりも早い段階でコマンドを確定できる場合がある。
0030
ルール切替部23は、無音信号を受信した場合に、途中結果用認識ルールを、第2の途中結果用認識ルール記憶部20cに予め記憶された第2の途中結果用認識ルールに切り替える(S23)。コマンド解析部22は、途中結果用認識ルールが第2の途中結果用認識ルールに切り替えられた場合に、途中結果を第2の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する(S22)。
0031
なお、音声認識部21は、前述のステップS11a,S11bを、コマンド解析部22は、前述のステップS12a,S12bを、ルール切替部23は、前述のステップS13を場合に応じて実行するものとし、場合に応じて実施例1と同様の動作(フローチャートF1,F2)を実行するものとする。
0032
本実施例のコマンド解析装置2によれば、実施例1の効果に加え、文末以外の状況で音声信号が途切れた場合であっても、部分的な音声認識結果を第2の途中結果用認識ルールと照合してコマンド解析を実行するため、コマンド実行までの時間を短縮することができる。
0033
実施例1、2のコマンド解析装置1、2によれば、単語、もしくはフレーム単位で条件を充たしたか否かが判定され、コマンドが解析されるため、文章単位での構文解析を行わずに、コマンドを解析、出力することができる。
0034
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
0035
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
0036
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
0037
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
0038
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
0039
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
0040
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
0041
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
実施例
0042
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。