図面 (/)

技術 音声認識装置、音声認識方法および音声認識プログラム

出願人 株式会社東芝
発明者 山本幸一正井康之田中信一桃崎浩平矢島真人笹島宗彦阿部一彦
出願日 2004年2月25日 (16年9ヶ月経過) 出願番号 2004-049817
公開日 2005年9月8日 (15年2ヶ月経過) 公開番号 2005-241833
状態 拒絶査定
技術分野 音声認識
主要キーワード 雑音重畳 各標準パターン 零交差数 時間変更 出力制御ステップ ホルマント 境界値 音声辞書
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2005年9月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

より高い精度の音声認識を行うことができ、かつこの結果を提供することのできる音響認識装置を提供する。

解決手段

音響信号を取得する取得手段102と、取得手段102が取得した音響信号に対して、音声認識を行う音声認識手段120と、音声認識手段120による音声認識結果を出力する出力手段150と、取得手段102が取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出手段104と、特徴量抽出手段104が抽出した特徴量に基づいて、音響信号の音の種類を示す音響種別判別する音響判別手段108と、音響判別手段108が判別した音響種別に基づいて、出力手段150から出力すべき音声認識結果を制御する出力制御手段140とを備えた。

概要

背景

従来から音響信号種別を判定する技術が知られている。ここで、音響信号の種別とは、音声信号であるか否か、声信号であるか、声信号であるかなどの種類である。このような技術としては、例えば、予め記憶された音響種別判別用の標準パターンと音声信号とを照合することによって音響種別を判別するものが知られている(例えば、非特許文献1)。

また、従来の音声認識装置においては、あらかじめ認識すべき音声信号の特徴を標準パターンとして記憶しておく。そして、入力された音響信号から得られる特徴とこれらの標準パターンとを照合する。照合の結果、最も良く一致する標準パターンを特定し、その一致度が所定のレベル以上の場合に標準パターンの音声が入力されたと認識する。

また一般に、男声には男声用の音声認識辞書、女声には女声用の音声認識辞書を用いることで音声認識率が向上することが知られており、音声認識においては、ユーザが前もって認識辞書の選択を行うことにより、入力される音声により近い辞書を利用するものが知られている。

E.Scheirer and M.Slaney, "Construction and evaluation of a robust multifeatures speech/music discriminator", in Int. Conf. Acoustic, Speech, and Signal Processing(ICASSP-97),vol.2, Munich, Germany, Apr.21-24, 1997, pp.1331-1334.

概要

より高い精度の音声認識を行うことができ、かつこの結果を提供することのできる音響認識装置を提供する。音響信号を取得する取得手段102と、取得手段102が取得した音響信号に対して、音声認識を行う音声認識手段120と、音声認識手段120による音声認識結果を出力する出力手段150と、取得手段102が取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出手段104と、特徴量抽出手段104が抽出した特徴量に基づいて、音響信号の音の種類を示す音響種別を判別する音響判別手段108と、音響判別手段108が判別した音響種別に基づいて、出力手段150から出力すべき音声認識結果を制御する出力制御手段140とを備えた。

目的

しかしながら、従来の音声認識においては、入力されるべき音響信号により適した辞書を利用するためにユーザが前もって認識辞書の選択を行うか、または男女共通の辞書を使うなどで対応していた。しかし、この場合には、意図しない音響信号が入力された場合には、より適した辞書が利用できるにもかかわらず、当該辞書が選択されていないため、認識精度が低下する場合があり問題となっていた。また、より精度よく音声認識を行うことのできる技術が望まれている。

効果

実績

技術文献被引用数
1件
牽制数
3件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音響信号を取得する取得手段と、前記取得手段が取得した前記音響信号に対して、音声認識を行う音声認識手段と、前記音声認識手段による前記音声認識結果を出力する出力手段と、前記取得手段が取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段が抽出した前記特徴量に基づいて、前記音響信号の音の種類を示す音響種別判別する音響判別手段と、前記音響判別手段が判別した前記音響種別に基づいて、前記出力手段から出力すべき前記音声認識結果を制御する制御手段とを備えたことを特徴とする音声認識装置

請求項2

前記音響種別と前記特徴量とを対応付け音響種別テーブルと、前記音響種別テーブルの特徴量と、前記特徴量抽出手段が抽出した特徴量とを照合する照合手段とをさらに備え、前記音響判別手段は、前記照合手段による照合の結果、前記音響種別テーブルの特徴量のうち、前記特徴量抽出手段が抽出した特徴量に一致する特徴量に対応付けられている前記音響種別を、前記音響信号の前記音響種別と判別することを特徴とする請求項1に記載の音声認識装置。

請求項3

前記音響種別テーブルは、前記音響種別と、前記特徴量を示す音響信号標準パターンとを対応付け、前記照合手段は、前記音響信号標準パターンと、前記音響信号の特徴量とを照合し、前記音響判別手段は、前記照合手段による照合の結果、前記音響種別テーブルの音響信号標準パターンのうち、前記特徴量に一致する前記標準パターンに対応付けられている前記音響種別を、前記音響信号の前記音響種別と判別することを特徴とする請求項2に記載の音声認識装置。

請求項4

前記制御手段は、前記音響判別手段による判別結果に基づいて前記音声認識結果の出力を許可するか否かを決定し、前記出力手段は、前記出力制御手段が前記音声認識結果の出力を許可した場合に当該音声認識結果を出力することを特徴とする請求項1に記載の音声認識装置。

請求項5

前記音響判別手段は、前記音響信号が音声信号および非音声信号のいずれであるかを判別し、前記制御手段は、前記音響判別手段により前記音響信号が前記音声信号であると判別された場合に、当該音響信号に対する前記音声認識結果の出力を許可することを特徴とする請求項4に記載の音声認識装置。

請求項6

前記音響判別手段は、前記音響信号が前記音声認識手段による音声認識が可能な音声認識可能信号、および前記音声認識手段による音声認識ができない音声認識不可信号のいずれであるかを判別し、前記制御手段は、前記音響判別手段により前記音響信号が前記音声認識可能信号であると判別された場合に、当該音響信号に対する前記音声認識結果の出力を許可することを特徴とする請求項4または5に記載の音声認識装置。

請求項7

前記音響種別判別手段は、前記音声認識手段による前記音響信号の音声認識結果の信頼度を判別し、前記制御手段は、前記信頼度が所定の値以上である場合に、当該音響信号に対する音声認識結を出力することを許可することを特徴とする請求項4から6のいずれか一項に記載の音声認識装置。

請求項8

前記音声認識手段は、前記制御手段が前記出力を許可した場合に前記音声認識を行うことを特徴とする請求項4から7のいずれか一項に記載の音声認識装置。

請求項9

前記音声認識手段が利用すべき複数の音声認識辞書を保持する辞書保持手段をさらに備え、前記音声認識手段は、前記辞書保持手段が保持する複数の音声認識辞書それぞれを利用して、前記音声信号に対する複数の前記音声認識を行い、前記制御手段は、前記音響判別手段による判別結果に基づいて、前記辞書保持手段が保持する前記複数の音声認識辞書のうちいずれの音声認識辞書を利用した前記音声認識結果を出力するかを決定し、前記出力手段は、前記制御手段が決定した前記音声認識結果を出力することを特徴とする請求項1から8のいずれか一項に記載の音声認識装置。

請求項10

前記音声認識手段は、前記制御手段が決定した音声認識辞書を利用した音声認識のみを行うことをと特徴とする請求項9に記載の音声認識装置。

請求項11

前記音響種別判別手段は、前記音声認識手段による前記音響信号の音声認識結果の信頼度を判別し、前記辞書保持手段は、前記信頼度の異なる音声に対応する複数の音声認識辞書を保持し、前記制御手段は、前記辞書保持手段が保持する前記複数の音声認識辞書のうち前記音響判別手段が判別した前記信頼度に対応する音声認識辞書を利用した音声認識結果を出力することを決定することを特徴とする請求項10に記載の音声認識装置。

請求項12

音響信号を取得する取得ステップと、前記取得ステップにおいて取得した前記音響信号に対して、音声認識を行う音声認識ステップと、前記音声認識ステップにおける前記音声認識結果を出力する出力ステップと、前記取得ステップにおいて取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップにおいて抽出した前記特徴量に基づいて、前記音響信号の音の種類を示す音響種別を判別する音響判別ステップと、前記音響判別ステップにおいて判別した前記音響種別に基づいて、前記出力ステップにおいて出力されるべき前記音声認識結果を制御する出力制御ステップとを有すること特徴とする音声認識方法

請求項13

音声認識処理コンピュータに実行させる音声認識プログラムであって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した前記音響信号に対して、音声認識を行う音声認識ステップと、前記音声認識ステップにおける前記音声認識結果を出力する出力ステップと、前記取得ステップにおいて取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップにおいて抽出した前記特徴量に基づいて、前記音響信号の音の種類を示す音響種別を判別する音響判別ステップと、前記音響判別ステップにおいて判別した前記音響種別に基づいて、前記出力ステップにおいて出力されるべき前記音声認識結果を制御する出力制御ステップとをコンピュータに実行させること特徴とする音声認識プログラム。

技術分野

0001

本発明は、音響信号に対する音声認識を行う音響認識装置、音響認識方法および音響認識プログラムに関するものである。

背景技術

0002

従来から音響信号の種別を判定する技術が知られている。ここで、音響信号の種別とは、音声信号であるか否か、声信号であるか、声信号であるかなどの種類である。このような技術としては、例えば、予め記憶された音響種別判別用の標準パターンと音声信号とを照合することによって音響種別を判別するものが知られている(例えば、非特許文献1)。

0003

また、従来の音声認識装置においては、あらかじめ認識すべき音声信号の特徴を標準パターンとして記憶しておく。そして、入力された音響信号から得られる特徴とこれらの標準パターンとを照合する。照合の結果、最も良く一致する標準パターンを特定し、その一致度が所定のレベル以上の場合に標準パターンの音声が入力されたと認識する。

0004

また一般に、男声には男声用の音声認識辞書、女声には女声用の音声認識辞書を用いることで音声認識率が向上することが知られており、音声認識においては、ユーザが前もって認識辞書の選択を行うことにより、入力される音声により近い辞書を利用するものが知られている。

0005

E.Scheirer and M.Slaney, "Construction and evaluation of a robust multifeatures speech/music discriminator", in Int. Conf. Acoustic, Speech, and Signal Processing(ICASSP-97),vol.2, Munich, Germany, Apr.21-24, 1997, pp.1331-1334.

発明が解決しようとする課題

0006

しかしながら、従来の音声認識においては、入力されるべき音響信号により適した辞書を利用するためにユーザが前もって認識辞書の選択を行うか、または男女共通の辞書を使うなどで対応していた。しかし、この場合には、意図しない音響信号が入力された場合には、より適した辞書が利用できるにもかかわらず、当該辞書が選択されていないため、認識精度が低下する場合があり問題となっていた。また、より精度よく音声認識を行うことのできる技術が望まれている。

0007

本発明は、上記に鑑みてなされたものであって、より高い精度の音声認識を行うことができ、かつこの結果を提供することのできる音響認識装置を提供することを目的とする。

課題を解決するための手段

0008

上述した課題を解決し、目的を達成するために、本発明は、音響信号を取得する取得手段と、前記取得手段が取得した前記音響信号に対して、音声認識を行う音声認識手段と、前記音声認識手段による前記音声認識結果を出力する出力手段と、前記取得手段が取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段が抽出した前記特徴量に基づいて、前記音響信号の音の種類を示す音響種別を判別する音響判別手段と、前記音響判別手段が判別した前記音響種別に基づいて、前記出力手段から出力すべき前記音声認識結果を制御する制御手段とを備えたことを特徴とする。

0009

また、本発明は、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した前記音響信号に対して、音声認識を行う音声認識ステップと、前記音声認識ステップにおける前記音声認識結果を出力する出力ステップと、前記取得ステップにおいて取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップにおいて抽出した前記特徴量に基づいて、前記音響信号の音の種類を示す音響種別を判別する音響判別ステップと、前記音響判別ステップにおいて判別した前記音響種別に基づいて、前記出力ステップにおいて出力されるべき前記音声認識結果を制御する出力制御ステップとを有すること特徴とする。

0010

また、本発明は、音声認識処理コンピュータに実行させる音声認識プログラムであって、音響信号を取得する取得ステップと、前記取得ステップにおいて取得した前記音響信号に対して、音声認識を行う音声認識ステップと、前記音声認識ステップにおける前記音声認識結果を出力する出力ステップと、前記取得ステップにおいて取得した前記音響信号から当該音響信号の特徴を示す特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップにおいて抽出した前記特徴量に基づいて、前記音響信号の音の種類を示す音響種別を判別する音響判別ステップと、前記音響判別ステップにおいて判別した前記音響種別に基づいて、前記出力ステップにおいて出力されるべき前記音声認識結果を制御する出力制御ステップとをコンピュータに実行させること特徴とする。

発明の効果

0011

本発明にかかる音声認識装置は、より高い精度の音声認識を行うことができ、かつこの結果を提要することができるという効果を奏する。すなわち、音響種別判別手段による判別結果を利用することにより、音声認識結果の信頼性を案し、音声認識結果の出力を制御することができる。これにより、信頼性の高い音声認識結果を出力することができる。

発明を実施するための最良の形態

0012

以下に、本発明にかかる音声認識装置、音声認識方法および音声認識プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

0013

(実施の形態1)
図1は、本実施の形態にかかる音声認識装置10の機能構成を示すブロック図である。音声認識装置10は、取得部102と、特徴量抽出部104と、照合部106と、音響判別部108と、音響種別テーブル110と、音声認識部120と、音声認識辞書保持部130と、出力制御部140と、出力部150とを備えている。

0014

取得部102は、外部から入力された音響信号を取得し、電気信号に変換する。

0015

特徴量抽出部104は、取得部102から音響信号を取得し、音響信号から特徴量を抽出する。ここで、特徴量とは、音響信号における特徴的な性質を示すパラメータのことである。特徴量としては、例えば、パワー零交差数FFTなどがある。

0016

また、音響種別テーブル110は、各音響種別に対応する標準パターンを保持している。ここで、音響種別とは、例えば音声信号であるか、非音声信号であるかなど音響信号の種類のことである。また、非音声信号とは、例えば音楽雑音などの音響信号である。また、標準パターンとは、各音声に特徴的な音響信号のパターンである。本実施の形態においては、音声信号の標準パターンと、非音声信号の標準パターンとを保持している。予め判別したい音声に対応する標準パターンを音響種別テーブル110に登録しておく。

0017

照合部106は、特徴量抽出部104が抽出した特徴量に基づいて、取得部102が取得した音響信号と、音響種別テーブル110に保持されている各標準パターンとを照合し、各標準パターンとの尤度を求める。標準パターンを照合することにより音響種別を判別する方法としては、例えば非特許文献1にかかる方法を利用する。

0018

音響判別部108は、照合部106における照合により得られた各標準パターンとの尤度に基づいて、音響信号の種別を判別する。音響判別部108は、音響種別を音声認識部120および出力制御部140に送る。

0019

音声認識辞書保持部130は、音響信号の音声認識に利用する複数の音声認識辞書を保持している。本実施の形態においては、男声辞書、女声辞書が保持されている。音声認識部120は、取得部102から取得した音響信号に対して、音声認識辞書保持部130が保持する音声認識辞書を利用して音声認識を行う。

0020

図2は、本実施の形態に係る音声認識装置10の音声認識処理を示すフローチャートである。まず、取得部102は、音響信号を取得する(ステップS100)。次に、音声認識部120は、取得部102が取得した音響信号に対して音声認識を行う(ステップS102)。

0021

ここで、図3を参照しつつ音声認識部120の音声認識処理について詳述する。音声認識部120は、音声認識辞書保持部130に保持されている複数の音声認識辞書のうちから任意の一の音声認識辞書を選択する(ステップS1020)。次に、選択した音声認識辞書を利用して、取得部102から取得した音響信号に対して音声認識を行う(ステップS1022)。次に、音声認識結果に基づいて、音声認識精度を算出する(ステップS1024)。

0022

本実施の形態においては、音声認識精度として次式で示される文字正解精度を利用する。

0023

そして、音声認識辞書保持部130が保持する全ての音声認識辞書について音声認識を行うまで、ステップS1020〜ステップS1024の処理を繰り返す。すなわち、本実施の形態においては、男声辞書を利用して音声認識し、さらに女声辞書を利用して音声認識すると上記ループが終了する。

0024

再び説明を図2に戻す。ステップS102に続いて、音響種別の判別処理を行う(ステップS104)。具体的には、まず、特徴量抽出部104が、取得部102が取得した音響信号から特徴量を抽出する。そして、照合部106は、特徴量抽出部104が抽出した特徴量と、音響種別テーブル110に保持される標準パターンとを比較する。そして、音響判別部108は、いずれの標準パターンにより近いかによって音響信号が音声信号であるか、非音声信号であるかを判別する。

0025

なお、音声認識部120による音声認識処理と、特徴量抽出部104、照合部106および音響判別部108による音響種別の判別処理とは、それぞれ並行して行われてもよい。これにより、音声認識処理が終了するのを待ってから音響種別判別処理を行うことにより生じるタイムラグを吸収することができ、処理の迅速化を図ることができる。

0026

取得部102は、特徴量抽出部104および音声認識部120の両者にパラレルに音響信号を送出する。従って、特徴量抽出部104および音声認識部120は、音響信号を取得した場合に、それぞれ独立に当該音響信号に対する処理を開始すればよい。

0027

ステップS106において、音響信号は音声信号であると判別した場合には(ステップS106,Yes)、音声認識部120は、複数の音声認識辞書に対する複数の音声認識結果のうちから、認識精度の最も高い音声認識結果を選択する(ステップS110)。具体的には、男声辞書による音声認識結果と女声辞書による音声認識結果のいずれか一方を選択する。そして、出力制御部140は、音響判別部108から音声信号であるとの判別結果を受け取ると、音声認識部120による音声認識結果の出力を許可する(ステップS120)。そして、出力部150は、音声認識部120が選択した、認識精度の最も高い音声認識結果を外部に出力する(ステップS122)。

0028

一方、ステップS106において、音響信号は非音声信号であると判別した場合には(ステップS106,Yes)、出力制御部140は、音声認識結果の出力を禁止する(ステップS130)。そしてこの場合には、出力部150は、音声認識不能である旨を示す情報を外部に出力する(ステップS132)。

0029

音響信号が非音声信号であると判別された場合には、例えば、雑音に対する音声認識結果であるなど、精度の低い認識結果であることが予想される。そこで、音響信号が音声信号であると判別された場合にのみ音声認識結果を出力することとした。これにより、音声認識結果が不正確であると予め予想される場合には出力されないので、誤った音声認識結果を利用者通知することがなくなり、音声認識装置の利便性を向上させることができる。

0030

また、音声認識結果を出力しない場合には、音声認識できなかったことを利用者に知らせることができるので、利用者は、入力された音響信号が音声認識できない信号であったことを知ることができる。

0031

さらに、このとき、音声認識できない理由をさらに利用者に通知してもよい。このように、音声認識できない理由を利用者に通知することにより、利用者が何らかの対応を施すことを期待することができる。

0032

図4は、本実施の形態にかかる音声認識装置10のハードウェア構成を示す図である。音声認識装置10は、ハードウェア構成として、音声認識装置10における音声認識処理を実行する音声認識プログラムなどが格納されているROM52と、ROM52内のプログラムに従って音声認識装置10の各部を制御し、バッファリング時間変更処理等を実行するCPU51と、ワークエリアが形成され、音声認識装置10の制御に必要な種々のデータを記憶するRAM53と、ネットワークに接続して通信を行う通信I/F57と、各部を接続するバス62とを備えている。

0033

先に述べた音声認識装置10における音声認識プログラムは、インストール可能な形式又は実行可能な形式のファイルCD−ROMフロッピー(R)ディスクFD)、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。

0034

この場合には、音声認識プログラムは、音声認識装置10において上記記録媒体から読み出して実行することにより主記憶装置上にロードされ、上記ソフトウェア構成で説明した各部が主記憶装置上に生成されるようになっている。

0035

また、本実施例の音声認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。

0036

本実施の形態にかかる音響種別テーブル110は、音声信号の標準パターンと非音声信号の標準パターンとを保持していたが、これにかえて、音響種別テーブル110は音声信号または非音声信号のいずれか一方の標準パターンのみを保持してもよい。この場合、音響判別部108は、さらに音声信号と非音声信号の境界となる特徴量の境界値を保持する。そして、音響信号と境界値とを比較する。比較の結果いずれの信号に近いかを特定し、この結果と標準パターンとの尤度の両者に基づいて音響種別を判別する。

0037

また他の例としては、音響判別部108は、さらに音声信号および非音声信号の閾値を保持し、当該閾値と音声信号の特徴量とを比較し、当該比較結果を加味して、音声信号の種別を判別してもよい。例えば、音響信号の特徴量と閾値とを比較することにより、音響信号が音声信号と非音声信号のいずれの特徴量を示すかを特定できる。従って、音響種別を判別することができる。

0038

また、本実施の形態においては、音響判別部108は、音声信号および非音声信号のいずれの信号であるかの判別を行ったが、他の例としては、これにかえて、音声認識可能信号および音声認識不可信号のいずれの信号であるかの判別を行ってもよい。ここで、音声認識可能信号とは、音声認識部120が音声認識を行うことができる音響信号であって、音声認識不可信号とは、音声認識部120が音声認識を行うことのできない音響信号である。ここで、音声認識部120が音声認識できるか否かについては、予め閾値を設定しておき、音声認識精度が閾値以上を示す音響信号を音声認識可能信号とする。また、音声認識不可信号とは、例えば、音声信号に雑音が重畳された音響信号などである。

0039

音声認識可能信号に対する標準パターンとしては、クリーンまたは、高SNR(Signal to Noise Ratio)音声の信号を用いて予め学習させたものを音声認識辞書保持部130に登録しておく。また、音声認識不可信号に対する標準パターンとしては、雑音または低SNR音声の信号を用いて予め学習させたものを登録しておく。また、高SNRおよび低SNRの基準となる値は任意に定めることができる。

0040

また、他の例としては、音声認識辞書保持部130はより多くの音声認識辞書を保持してもよい。例えば、日本語音声辞書、日本語の女声辞書、英語の男声辞書、英語の女声辞書の4つの辞書を保持してもよい。この場合にも、図3において説明して音声認識部120の処理において、4つの辞書それぞれを利用して音声認識を行い、認識精度の最も高い音声認識結果を出力すべき音声認識結果とする。このように、より多くの辞書を利用することにより、取得した音声により適した音声認識辞書を利用できる可能性が高くなるので、音声認識精度を向上させることができる。

0041

なお、本実施の形態においては、音声信号であると判別された場合には、音声認識結果を出力することとしたが、他の例としては、音声信号であると判別され、かつ音声認識の結果得られた音声認識精度が最も高い音声認識結果における音声認識精度が予め定められた閾値以上である場合に、音声認識結果を出力することとしてもよい。これにより、音声認識精度が閾値以下である場合には、音声認識結果は出力されない。従って、誤った音声認識結果を出力するのを避けることができる。

0042

(実施の形態2)
次に、実施の形態2にかかる音声認識装置10について説明する。実施の形態2にかかる音声認識装置10においては、音声認識の信頼度を加味して音声認識結果の出力の有無を判断する。この点で本実施の形態の音声認識装置10は、実施の形態1にかかる音声認識装置10と異なっている。

0043

ここで、信頼度とは、音響信号に対して音声認識を行った場合に出力される音声認識結果の信頼度を示す値である。本実施の形態においては、信頼度として、実施の形態1において述べた文字正解精度を利用する。

0044

実施の形態2にかかる音声認識装置10の音響種別テーブル110は、音声信号、非音声信号の標準パターンの他に、信頼度の値に対応する標準パターンを保持している。例えば、20%以下の信頼度に対応する標準パターンを保持している。また、照合部106は、音声信号、非音声信号および20%以下の信頼度のそれぞれの標準パターンと、音響信号との照合を行う。そして、音響判別部108は、音響信号が音声信号であるか非音声信号であるかを判別するとともに、音響信号が音声認識の信頼度20%以下か否かを判別する。出力制御部140は、音響判別部108から判別結果を受け取り、信頼度20%以下である場合には、音声認識結果の出力を禁止する。

0045

図5は、実施の形態2にかかる音声認識装置10の音声認識処理を示すフローチャートである。実施の形態2にかかる音声認識処理においては、音響判別部108は、音響種別を判別し(ステップS104)、さらに信頼度を判定する(ステップS140)。そして、音響信号が音声信号であった場合には(ステップS106)、音声認識部120は、音声認識精度の最も高い音声認識結果を選択する(ステップS110)。さらに、信頼度が予め定められた閾値以上である場合には(ステップS142,Yes)、出力制御部140は、音声認識結果の出力を許可する(ステップS120)。なお、本実施の形態における信頼度は20%である。

0046

低SNR音声は、文字正解精度も低くなる。従って、音声認識処理を行っても、正確な認識結果を得られない。そこで、本実施の形態においては、低SNR音声のように音声認識が困難な音響信号、すなわち信頼度の低い音響信号に対して音声認識をした場合に得られる精度の低い音声認識結果を利用者に提示することを未然に防止することとした。すなわち実施の形態2においては、音声信号であること、および判別の結果得られた信頼度が閾値以上であることの2つの条件を満たしている場合にのみ、音声認識結果を出力する。このように、音響種別の判別結果を信頼度により修正してもよい。これにより、精度の低い音声認識結果を出力するのを避けることができる。

0047

なお、これ以外の音声認識装置10の構成および動作は、実施の形態1にかかる音声認識装置10の構成および動作と同様である。

0048

実施の形態2においては、音響種別の判別結果により音声認識結果の出力が許可された場合であっても、信頼度が閾値以下である場合には、音声認識結果の出力を禁止することとしたが、他の例としては、音響種別の判別結果により音声認識結果の出力が禁止された場合であっても、信頼度が閾値以上である場合には、音声認識結果の出力を許可することとしてもよい。このように、信頼度を利用して音声認識結果を修正することで、精度の低い音声認識結果を正しく特定することができる。

0049

(実施の形態3)
次に、実施の形態3にかかる音声認識装置10について説明する。実施の形態3にかかる音声認識装置10は、音響種別の判別結果に基づいて、音声認識に利用すべき音声認識辞書を選択する。なお、実施の形態3にかかる音声認識装置10の音響種別テーブル110は、音声信号の標準パターンとして、男声の標準パターンおよび女声の標準パターンを保持している。男声信号であるか、女声信号であるかの判別は、声の高さ、すなわち音響信号の周波数の値により判別可能である。具体的には、周波数の閾値を設定し、当該閾値と比較することにより、男声信号であるか女声信号であるかを判別することができる。

0050

図6は、実施の形態3にかかる音声認識装置10の音声認識処理を示すフローチャートである。本実施の形態においては、取得部102が音響信号を取得すると(ステップS200)、まず音響種別判別処理を行う(ステップS202)。すなわち、標準パターンとの照合により、男声信号であるか、女声信号であるか、または非音声信号であるかの判別を行う。

0051

そして、音声信号であると判別された場合、すなわち男声信号または女声信号であると判別された場合には(ステップS204)、音声認識部120は、音声認識辞書保持部130が保持している音声信号のうちから、ステップS202において判別した結果に対応する音声認識辞書を選択する(ステップS210)。次に、音声認識部120は、選択した音声認識辞書を利用して音響信号に対し音声認識を行う(ステップS212)。

0052

そして、出力制御部140は、音響判別部108から音声信号であるとの判別結果を受け取り、音声認識結果の出力を許可し(ステップS220)、出力部150は、音声認識部120による音声認識結果を出力する(ステップS222)。

0053

一方、ステップS204において、音響信号が非音声信号であると判別された場合には(ステップS204,No)、出力制御部140は、音声認識結果の出力を禁止する(ステップS230)。そして、出力部150は、音声認識できなかった旨を示す情報を出力する(ステップS232)。以上で、実施の形態3にかかる音声認識装置10の音声認識処理が完了する。

0054

なお、音響信号が非音声信号であると判別された場合には、音声認識部120は音声認識を行わない。これにより処理の効率化を図ることができる。

0055

また、本実施の形態においては、音声認識部120は、音響判別部108から受け取った判別結果に基づいて選択された1つの音声認識辞書を利用して音声認識を行うだけで、音声認識部120が保持する残りの音声認識辞書を利用した音声認識は行わない。すなわち、不必要な音声認識処理を行うのを避けることができ、処理量を低減することができる。

0056

(実施の形態4)
次に、実施の形態4にかかる音声認識装置10について説明する。実施の形態4にかかる音声認識装置10の音声認識辞書保持部160は、異なる信頼度に対応する音声認識辞書を保持している。そして、音響種別の判別結果に基づいて、いずれの音声認識辞書を利用するかを決定する。

0057

図7は、実施の形態4にかかる音声認識装置10の機能構成を示すブロック図である。実施の形態4にかかる音声認識装置10の音声認識辞書保持部160は、音声認識辞書として、信頼度30%以下の音声に対応する音声認識辞書と、30%−60%の音声に対する音声認識辞書と、60%以上の音声に対する音声認識辞書とを保持している。

0058

そして、音声認識部120は、音響判別部108から受け取った判別結果に基づいていずれの音声認識辞書を利用するかを決定する。例えば、音声信号の標準パターンとの尤度が非音声信号の標準パターンとの尤度に比べて高い場合には、信頼度60%以上の音声に対する音声認識辞書を利用する。そして、いずれの標準パターンとの尤度も同程度である場合には信頼度30%−60%の音声に対する音声認識辞書を利用する。非音声信号の標準パターンとの尤度が音声信号の標準パターンとの尤度に比べて高い場合には、信頼度30%以下の音声に対応する音声認識辞書を利用する。なお、各尤度の閾値は予め設定しておく。この閾値は任意の値でよい。

0059

なお、実施の形態4にかかる音声認識装置10の音声認識処理は、図6を説明した実施の形態3にかかる音声認識装置10の音声認識処理とほぼ同様である。実施の形態4にかかる音声認識装置10においては、図6におけるステップS210において、音声認識部120は音響判別部108による音響判別の結果得られる音声信号との尤度および非音声信号との尤度に基づいて、音声認識を行うべき音声認識辞書を選択する。なお、これ以外の音声認識装置10の処理は、図6を参照しつつ説明した実施の形態3にかかる音声認識装置10による音声認識処理と同様である。

0060

本実施の形態においては、音響種別テーブル110は、音声信号の標準パターンとして、男声信号および女声信号の標準パターンをそれぞれ保持していたが、音響種別テーブル110は、さらに詳細に分類された複数の標準パターンを保持してもよい。例えば、日本語と英語、男声と女声、世代別で分類された標準パターンを保持してもよい。この場合、標準パターンとの照合により「日本語、男声、かつ20代」の音響種別であることが判別できる。また、これに対応して、音声認識辞書保持部130が音声認識辞書を複数保持することにより、より精度の高い音声認識結果を得ることができる。

0061

ここで、日本語と英語の判別は、韻律を特徴量とし韻律の違いに基づいて行う。すなわち、韻律が異なる2つの標準パターンと音響信号とを照合することにより、日本語であるか英語であるかを判別する。また、年齢を判別する場合には、ピッチホルマント調波構造の明瞭さなどを特徴量とする。

0062

また、これ以外にも、方言の違いにより音響種別を判別してもよい。この場合、韻律を特徴量とする。また、話速の違いにより音響種別を判別してもよい。この場合、ある単位時間における有声音無声音出現頻度を特徴量とする。また、音量の違いにより音響種別を判別してもよい。この場合、入力信号のパワーを特徴量とする。また、雑音重畳具合の程度の違いにより音響種別を判別してもよい。この場合、SNRの推定値を特徴量とする。これ以外にも、韻律を特徴量として母国語の違いによる音響種別を判別してもよく、ピッチを特徴量として声の高さによる音響種別を判別してもよく、ホルマント、調波構造の明瞭さ、韻律などを特徴量として発声方法による音響種別を判別してもよい。

0063

また、以上のようにより詳細な音響種別を判別しつつ、かつ音声信号であるか非音声信号であるかの判別を行い、両者の判別結果に基づいて、総合的に音声認識結果を出力するか否かを決定してもよい。

0064

さらにまた、以上のように詳細な音響種別を判別した場合であって、対応する詳細な音声認識辞書がない場合には、当該音響種別を含む音声認識辞書を利用することとしてもよい。具体的には、音響種別の判別により「日本語、男声、かつ20代」という判別結果が得られたが、音声認識辞書保持部130は、男声および女声の音声認識辞書しか保持していない場合には、男声辞書を利用することとしてもよい。これにより、判別結果と音声認識辞書の整合性がとれない場合であっても、最も適当な音声認識辞書を利用して音声認識を行うことができ、汎用性を向上させることができる。

0065

以上、本発明を実施の形態を用いて説明したが、上記実施の形態に多様な変更または改良を加えることができる。

0066

以上のように、本発明にかかる音声認識装置は、音響信号の音声認識に有用であり、特に、音声以外を含む音響信号の音声認識に適している。

図面の簡単な説明

0067

実施の形態1にかかる音声認識装置10の機能構成を示すブロック図である。
実施の形態1にかかる音声認識装置10の音声認識処理を示すフローチャートである。
図2に示すステップS120における詳細な処理を示すフローチャートである。
実施の形態1にかかる音声認識装置10のハードウェア構成を示す図である。
実施の形態2にかかる音声認識装置10の音声認識処理を示すフローチャートである。
実施の形態3にかかる音声認識装置10の音声認識処理を示すフローチャートである。
実施の形態4にかかる音声認識装置10の機能構成を示すブロック図である。

符号の説明

0068

10音声認識装置
51 CPU
52 ROM
53 RAM
57通信I/F
62バス
102 取得部
104特徴量抽出部
106 照合部
108 音響判別部
110音響種別テーブル
120音声認識部
130,160音声認識辞書保持部
140出力制御部
150 出力部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • ソニー株式会社の「 情報処理装置、及び情報処理方法」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、より正確に、ユーザの発話の意図を推定することができるようにする情報処理装置、及び情報処理方法に関する。ユーザの発話中に得られる認識の結果に基づいて、ユーザの発話の区切りを検... 詳細

  • ソニー株式会社の「 情報処理装置および電子機器」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の... 詳細

  • グーグルエルエルシーの「 オーディオベースのコンピュータプログラム出力の修正」が 公開されました。( 2020/09/24)

    【課題・解決手段】音声または非テキスト入力アクティブ化環境においてコンピュータプログラム出力を修正することが提供される。システムは、デバイスのマイクロフォンによって検出されるオーディオ信号を受信するこ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ