図面 (/)

技術 コマンド解析装置、コマンド解析方法、プログラム

出願人 日本電信電話株式会社
発明者 小林和則齊藤翔一郎伊藤弘章
出願日 2019年4月17日 (1年10ヶ月経過) 出願番号 2019-078762
公開日 2020年10月29日 (3ヶ月経過) 公開番号 2020-177108
状態 未査定
技術分野 音声入出力 音声の分析・合成 音声認識
主要キーワード 認識ルール ハードウェアエンティティ イノベーション 物理的実体 コマンド文 読み出し専用記憶装置 無音信号 文章単位
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年10月29日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

コマンド実行までの時間を短縮することができるコマンド解析装置を提供する。

解決手段

所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する音声認識部と、途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容解析された場合に、音声信号の入力の最中に解析結果を出力するコマンド解析部を含む。

概要

背景

非特許文献1に示すような、自動車インフォテイメントシステムなどの操作を音声認識を使って行うシステムでは、音声認識結果文字列を解析して、どのようなコマンドが発せられたかを判定する。このシステムでは、定型文のコマンドの判定や、言い回し違うコマンドの解析も行うことができる。コマンドの解析は、あらかじめ用意されたルールに従って行われる。例えば、“エアコン”、“温度”、“上げる”の組み合わせが含まれる際に、エアコンの温度を上昇させるコマンドであると判定するなどである。図1に、従来技術のコマンド解析装置の構成例を示す。同図に示すように、従来例のコマンド解析装置9は、認識ルール記憶部90aと、音声認識部91と、コマンド解析部92を含む。図2に、従来技術のコマンド解析装置の動作例を示す。音声認識部91は、音声信号を取得して、音声認識を実行し、認識結果を得る(S91)。コマンド解析部92は、認識ルール記憶部90aに記憶された認識ルールに基づいて認識結果からコマンドを解析して出力する(S92)。

概要

コマンド実行までの時間を短縮することができるコマンド解析装置を提供する。所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する音声認識部と、途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力するコマンド解析部を含む。

目的

本発明では、コマンド実行までの時間を短縮することができるコマンド解析装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する音声認識部と、前記途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容解析された場合に、前記音声信号の入力の最中に解析結果を出力するコマンド解析部を含むコマンド解析装置

請求項2

請求項1に記載のコマンド解析装置であって、前記音声認識部は、前記部分的な音声認識結果が文末であるか否かを判定して、文末である場合に前記音声認識結果(以下、最終結果)と文末信号を出力し、前記文末信号を受信した場合に、前記途中結果用認識ルールを所定の最終結果用認識ルールに切り替えルール切替部を含み、前記コマンド解析部は、前記途中結果用認識ルールが前記最終結果用認識ルールに切り替えられた場合に、前記最終結果を前記最終結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力するコマンド解析装置。

請求項3

請求項2に記載のコマンド解析装置であって、前記音声認識部は、前記部分的な音声認識結果が文末でない場合に、無音区間が所定時間以上継続しているか否か、あるいは新たな前記音声認識結果が所定時間以上に渡り取得されていないかを判定して、前記無音区間が所定時間以上継続している場合、あるいは新たな前記音声認識結果が所定時間以上に渡り取得されていない場合に、無音信号を出力し、前記ルール切替部は、前記無音信号を受信した場合に、前記途中結果用認識ルールを、第2の途中結果用認識ルールに切り替え、前記コマンド解析部は、前記途中結果用認識ルールが前記第2の途中結果用認識ルールに切り替えられた場合に、前記途中結果を前記第2の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力するコマンド解析装置。

請求項4

コマンド解析装置が実行するコマンド解析方法であって、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得するステップと、前記途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、前記音声信号の入力の最中に解析結果を出力するステップを含むコマンド解析方法。

請求項5

コンピュータを請求項1から3の何れかに記載のコマンド解析装置として機能させるプログラム

技術分野

0001

本発明は、音声認識結果からどのようなコマンドが発せられたかを解析するコマンド解析装置コマンド解析方法、プログラムに関する。

背景技術

0002

非特許文献1に示すような、自動車インフォテイメントシステムなどの操作を音声認識を使って行うシステムでは、音声認識結果の文字列を解析して、どのようなコマンドが発せられたかを判定する。このシステムでは、定型文のコマンドの判定や、言い回し違うコマンドの解析も行うことができる。コマンドの解析は、あらかじめ用意されたルールに従って行われる。例えば、“エアコン”、“温度”、“上げる”の組み合わせが含まれる際に、エアコンの温度を上昇させるコマンドであると判定するなどである。図1に、従来技術のコマンド解析装置の構成例を示す。同図に示すように、従来例のコマンド解析装置9は、認識ルール記憶部90aと、音声認識部91と、コマンド解析部92を含む。図2に、従来技術のコマンド解析装置の動作例を示す。音声認識部91は、音声信号を取得して、音声認識を実行し、認識結果を得る(S91)。コマンド解析部92は、認識ルール記憶部90aに記憶された認識ルールに基づいて認識結果からコマンドを解析して出力する(S92)。

先行技術

0003

西雅史、田岳人、「音声インタフェースの現状とイノベーションの可能性」、情報処理、一般社団法人情報処理学会、平成22年11月、第51巻、第11号、p.1434-1439

発明が解決しようとする課題

0004

従来のコマンド解析は音声認識結果が確定してから行われるため、発話を行ってから、実際にコマンドが実行されるまでにタイムラグが生じることがあった。

0005

そこで本発明では、コマンド実行までの時間を短縮することができるコマンド解析装置を提供することを目的とする。

課題を解決するための手段

0006

本発明のコマンド解析装置は、音声認識部と、コマンド解析部を含む。

0007

音声認識部は、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する。コマンド解析部は、途中結果を所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力する。

発明の効果

0008

本発明のコマンド解析装置は、コマンド実行までの時間を短縮することができる。

図面の簡単な説明

0009

従来技術のコマンド解析装置の構成例を示すブロック図。
従来技術のコマンド解析装置の動作例を示すフローチャート
実施例1のコマンド解析装置に入力される発話音声の例1を示す図。
実施例1のコマンド解析装置に入力される発話音声の例2を示す図。
実施例1のコマンド解析装置の構成を示すブロック図。
実施例1のコマンド解析装置の動作を示すフローチャート。
実施例2のコマンド解析装置の構成を示すブロック図。
実施例2のコマンド解析装置の動作を示すフローチャート。

0010

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

0011

以下、図3を参照して、実施例1のコマンド解析装置に入力される発話音声、その認識結果(途中結果、最終結果)、コマンドの解析例について説明する。

0012

実施例1のコマンド解析装置は音声信号を入力とし、音声信号から音声認識結果を取得し、事前に設定されたルールに基づいて、コマンドを解析する。本実施例では、コマンド解析のためのルールを2種類、事前に準備する。1つは最終結果用認識ルール、もう1つは途中結果用認識ルールである。

0013

途中結果用認識ルールは部分的な音声認識結果(以下、途中結果という)に対するコマンド解析に利用され、最終結果用認識ルールは、文末を含む音声認識結果(以下、最終結果という)に対してのみ利用される。

0014

途中結果用認識ルールは、音声信号が文末まで未だ達していない(入力されていない)段階、すなわち、音声認識の途中であっても、コマンドを解析(特定)可能なルールであり、最終結果用認識ルールは音声認識の途中ではコマンドを解析(特定)できないルールであるものとする。

0015

図3に例示するように、発話音声「エアコンの温度を22度に設定して」であれば、「えあこんのおんどをにじゅう」まで発話した段階であれば、「エアコンの温度を20…」または「エアコンの温度を2●…」と、二つの可能性が考えられる。また、「えあこんのおんどをにじゅうに」まで発話した段階であれば、「エアコンの温度を20に…」または「エアコンの温度を22…」と、二つの可能性が考えられる。

0016

一方、「えあこんのおんどをにじゅうにど」まで発話した段階では、「エアコンの温度を22度」と確定することができるので、例えば、コマンドの実行主体である“エアコン”、コマンドの実行内容である“温度”、“*度”(ただし*は、エアコン温度の設定範囲の任意の数字とする)が含まれるルールを、途中結果用認識ルールとすることができる。

0017

エアコンの例では、上述の例の他に「エアコンの温度を3度上げて」などの発話音声も考えられる。このような発話音声に対しコマンド解析の誤りを防ぐために、*をエアコン温度の設定範囲(例えば18〜30)に制限したルールとすれば好適である。

0018

一方、図4に例示した発話音声「音楽ボリュームを22にして」に関しては、コマンドの実行主体である“音楽”(“音楽”と発話があった時点において楽音再生中のハードウェア)、コマンドの実行内容である“ボリューム”、“#”(#はボリュームの設定範囲の数字)が含まれるというルールとした場合、「おんがくのぼりゅーむをにじゅう」の段階で「音楽のボリュームを20」という誤ったコマンド解析が行われる可能性がある。

0019

従って、途中結果用認識ルールを“音楽”、“ボリューム”、“#に”とするか、あるいは“音楽”、“ボリューム”、“#”を最終結果用のルールとしなければならない。

0020

なお、上述ではコマンドの実行内容にパラメータ(“#”)が含まれる例を説明したが、これ以外の例も考えられる。例えば、音声信号が「窓をあけて」である場合、コマンドの実行主体は“窓”、コマンドの実行内容は“あけて”であるため、上述したパラメータ“#”を含まない。

0021

以下、図5を参照して実施例1のコマンド解析装置の構成を説明する。同図に示すように本実施例のコマンド解析装置1は、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bと、音声認識部11と、コマンド解析部12と、ルール切替部13を含む。

0022

図6を参照して本実施例のコマンド解析装置1の動作を説明する。フローチャートF1に示すように、音声認識部11は、所定の単位の音声信号が入力される都度、当該音声信号を音声認識して、部分的な音声認識結果(以下、途中結果)を取得する(S11a)。コマンド解析部12は、途中結果を、途中結果用認識ルール記憶部10bに記憶された、所定の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に、音声信号の入力の最中に解析結果を出力する(S12a)。

0023

なお、音声認識部11は、部分的な音声認識結果が文末であるか否かを判定して、文末である場合に(F2スタート)、音声認識結果(以下、最終結果)をコマンド解析部12に、文末信号をルール切替部13に出力するものとする(S11b)。ルール切替部13は、文末信号を受信した場合に、途中結果用認識ルールを最終結果用認識ルール記憶部10aに予め記憶された最終結果用認識ルールに切り替える(S13)。コマンド解析部12は、途中結果用認識ルールが最終結果用認識ルールに切り替えられた場合に、最終結果を最終結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する(S12b)。

0024

本実施例のコマンド解析装置1によれば、部分的な音声認識結果を途中結果用認識ルールと照合してコマンド解析を実行するため、音声信号の入力の最中に解析結果を出力することができ、コマンド実行までの時間を短縮することができる。

0025

実施例2では、コマンド解析のためのルールを3種類、事前に準備する。最終結果用認識ルール、途中結果用認識ルール、第2の途中結果用認識ルールの3つであり、最終結果用認識ルール、途中結果用認識ルールについては実施例1と同じである。第2の途中結果用認識ルールは、無音区間が検出された場合や、音声認識結果が所定時間に渡り取得されない場合に有効となるルールである。

0026

以下、図7を参照して実施例2のコマンド解析装置の構成を説明する。同図に示すように本実施例のコマンド解析装置2は、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bと、第2の途中結果用認識ルール記憶部20cと、音声認識部21と、コマンド解析部22と、ルール切替部23を含み、最終結果用認識ルール記憶部10aと、途中結果用認識ルール記憶部10bについては実施例1と同じである。

0027

図8を参照して本実施例のコマンド解析装置2の動作を説明する。フローチャートF3に示すように、音声認識部21は、部分的な音声認識結果が文末でない場合に、無音区間が所定時間以上継続しているか否か、あるいは新たな音声認識結果が所定時間以上に渡り取得されていないかを判定して、無音区間が所定時間以上継続している場合、あるいは新たな音声認識結果が所定時間以上に渡り取得されていない場合に、無音信号を出力する(S21)。例えば、音声認識部21は、無音区間が継続している時間をカウントして、当該時間が予め設定した閾値(例えば1〜3秒)を超えた場合に、無音信号を出力してもよい。同様に、音声認識部21は、音声認識結果が取得されていない時間をカウントして、当該時間が予め設定した閾値(例えば1〜3秒)を超えた場合に、無音信号を出力してもよい。

0028

人がコマンド文を発話する場合、何も発音をしないポーズの時間は、それほど長くないことが想定される。よって一定時間のポーズがあった場合は、コマンドが確定できる場合がある。

0029

例えば、「音楽のボリュームを20」という文があった場合に、本実施例では、数字の発音の後に長いポーズが入らないということを利用して、“音楽”、“ボリューム”、“#”(#はボリュームの設定範囲の数字)を第2の途中結果用認識ルールとすることで、実施例1の方法よりも早い段階でコマンドを確定できる場合がある。

0030

ルール切替部23は、無音信号を受信した場合に、途中結果用認識ルールを、第2の途中結果用認識ルール記憶部20cに予め記憶された第2の途中結果用認識ルールに切り替える(S23)。コマンド解析部22は、途中結果用認識ルールが第2の途中結果用認識ルールに切り替えられた場合に、途中結果を第2の途中結果用認識ルールと照合し、コマンドの実行主体および実行内容が解析された場合に解析結果を出力する(S22)。

0031

なお、音声認識部21は、前述のステップS11a,S11bを、コマンド解析部22は、前述のステップS12a,S12bを、ルール切替部23は、前述のステップS13を場合に応じて実行するものとし、場合に応じて実施例1と同様の動作(フローチャートF1,F2)を実行するものとする。

0032

本実施例のコマンド解析装置2によれば、実施例1の効果に加え、文末以外の状況で音声信号が途切れた場合であっても、部分的な音声認識結果を第2の途中結果用認識ルールと照合してコマンド解析を実行するため、コマンド実行までの時間を短縮することができる。

0033

実施例1、2のコマンド解析装置1、2によれば、単語、もしくはフレーム単位で条件を充たしたか否かが判定され、コマンドが解析されるため、文章単位での構文解析を行わずに、コマンドを解析、出力することができる。

0034

補記
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

0035

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。

0036

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。

0037

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

0038

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能コンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

0039

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置光ディスク光磁気記録媒体半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置フレキシブルディスク磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。

0040

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体販売譲渡貸与等することによって行う。さらに、このプログラムをサーバコンピュータ記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

0041

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。

実施例

0042

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ