図面 (/)

技術 信号特徴抽出装置および信号特徴抽出方法

出願人 国立研究開発法人産業技術総合研究所
発明者 小林匠
出願日 2013年12月9日 (7年0ヶ月経過) 出願番号 2013-253726
公開日 2014年3月13日 (6年9ヶ月経過) 公開番号 2014-044447
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 判断用データ 線形特徴 量子化表現 位相情報θ 局所相関 特徴ベクトル群 高次局所自己相関 入力信号データ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年3月13日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

音響信号などの信号から高精度に特徴を抽出する信号特徴抽出装置および信号特徴抽出方法を提供すること。

解決手段

信号特徴抽出装置は、所定期間だけサンプリングされたデジタル入力信号周波数軸に変換する複素フーリエ変換手段、複素フーリエ変換手段において変換されたデータから高次局所相関特徴データを抽出する特徴抽出手段を備える。特徴抽出手段の後あるいは前に所定の帯域毎にデータを加算するフィルター手段を備えてもよい。音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出することができ、位相に特徴がある信号の識別精度が向上する。

概要

背景

従来、例えば音声認識機械故障診断等のために、音声あるいはその他の音響信号から音源を認識、識別する技術が各種提案されている。下記特許文献1にはこのような音源の識別方法の一例が開示されている。この音源の識別方法は、機械装置からの音響信号を高速フーリエ変換して周波数スペクトルを求め、次にこの周波数スペクトルに対してファジィルールによるフィルタリング処理を行うことにより、周波数スペクトルの特徴部を抽出する。

次に、この抽出されたスペクトルデータを階層型ニューラルネットワークに入力し、この階層型ニューラルネットワーク内で、上記スペクトルデータに基づき演算された演算データと予め記憶されている判断用データとを比較するとともに、この比較データを所定の評価関数により判断して音源を識別する際に、上記判断用データを入力されたスペクトルデータに応じて切り換える。

概要

音響信号などの信号から高精度に特徴を抽出する信号特徴抽出装置および信号特徴抽出方法を提供すること。信号特徴抽出装置は、所定期間だけサンプリングされたデジタル入力信号周波数軸に変換する複素フーリエ変換手段、複素フーリエ変換手段において変換されたデータから高次局所相関特徴データを抽出する特徴抽出手段を備える。特徴抽出手段の後あるいは前に所定の帯域毎にデータを加算するフィルター手段を備えてもよい。音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出することができ、位相に特徴がある信号の識別精度が向上する。

目的

本発明の目的は、前記のような従来技術の問題点を解決し、音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出する信号特徴抽出装置および信号特徴抽出方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

所定期間だけサンプリングされたデジタル入力信号を、時間軸および周波数軸にそって2次元に配列された多数の複素数データに変換する複素フーリエ変換手段と、前記複素数データの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの間において、一方のデータの複素数虚数正負反転させる複素共役をとって積を求める演算により相関値を算出し、この演算を前記マスクパターン毎に時間軸および周波数軸にそって全ての前記複素数データについて行って、前記マスクパターン毎に前記相関値の集合を求めることによりフーリエ高次局所相関特徴データを抽出する特徴抽出手段とを備えたことを特徴とする信号特徴抽出装置

請求項2

Aを振幅情報、θを位相情報とした場合、前記複素数データが以下の数式1で表されるとき、前記相関値の内の1次相関値は以下の数式2で表されることを特徴とする請求項1に記載の特徴抽出装置

請求項3

Aを振幅情報、θを位相情報とした場合、前記複素数データが以下の数式1で表されるとき、前記相関値の内の2次相関値は以下の数式3で表されることを特徴とする請求項1に記載の特徴抽出装置。

請求項4

複数のバンドパスフィルターからなるフィルターバンクであり、各バンドパスフィルターは入力されたデータに重みを乗算して加算し、出力するフィルター手段が、前記複素フーリエ変換手段と前記特徴抽出手段の間に、あるいは前記特徴抽出手段の後に配置されていることを特徴とする請求項1に記載の特徴抽出装置。

請求項5

前記フィルター手段は、入力信号を参照して、各バンドパスフィルターの帯域幅振幅時間平均値周波数分布が一様になるように決定された分布平滑化フィルターであることを特徴とする請求項4に記載の特徴抽出装置。

請求項6

前記特徴抽出手段の後にあるいは前記フィルター手段の後に振幅情報の対数変換手段が配置されたことを特徴とする請求項2に記載の特徴抽出装置。

請求項7

所定期間だけサンプリングされたデジタル入力信号を、時間軸および周波数軸にそって2次元に配列された多数の複素数データに変換する複素フーリエ変換処理を行うステップと、前記複素数データの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの間において、一方のデータの複素数の虚数の正負を反転させる複素共役をとって積を求める演算により相関値を算出し、この演算を前記マスクパターン毎に時間軸および周波数軸にそって全ての前記複素数データについて行って、前記マスクパターン毎に前記相関値の集合を求めることによりフーリエ高次局所相関特徴データを抽出する特徴抽出処理を行うステップとを含むことを特徴とする信号特徴抽出方法

技術分野

0001

本発明は、信号特徴抽出装置および信号特徴抽出方法に関するものであり、特に音声音響信号あるいはその他の時系列信号から特徴を抽出する信号特徴抽出装置および信号特徴抽出方法に関する。

背景技術

0002

従来、例えば音声認識機械故障診断等のために、音声あるいはその他の音響信号から音源を認識、識別する技術が各種提案されている。下記特許文献1にはこのような音源の識別方法の一例が開示されている。この音源の識別方法は、機械装置からの音響信号を高速フーリエ変換して周波数スペクトルを求め、次にこの周波数スペクトルに対してファジィルールによるフィルタリング処理を行うことにより、周波数スペクトルの特徴部を抽出する。

0003

次に、この抽出されたスペクトルデータを階層型ニューラルネットワークに入力し、この階層型ニューラルネットワーク内で、上記スペクトルデータに基づき演算された演算データと予め記憶されている判断用データとを比較するとともに、この比較データを所定の評価関数により判断して音源を識別する際に、上記判断用データを入力されたスペクトルデータに応じて切り換える。

先行技術

0004

特開平8−44695号公報

発明が解決しようとする課題

0005

前記した従来の信号特徴抽出方法においては、下記のような問題点があった。
(1)信号に含まれる各周波数成分位相情報が抽出されておらず、位相に特徴がある信号の識別精度が低かった。
(2)各周波数成分からの線形特徴を抽出しており、周波数間での関係性に注目した特徴量はほとんど提案されていない。

0006

本発明の目的は、前記のような従来技術の問題点を解決し、音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出する信号特徴抽出装置および信号特徴抽出方法を提供することにある。

課題を解決するための手段

0007

本発明の信号特徴抽出装置は、所定期間だけサンプリングされたデジタル入力信号周波数軸に変換する複素フーリエ変換手段と、前記複素フーリエ変換手段において変換されたデータから高次局所相関特徴データを抽出する特徴抽出手段とを備えたことを主要な特徴とする。

0008

また、前記した信号特徴抽出装置において、前記高次局所相関特徴は、時間軸および周波数軸にそって2次元に配列された多数のデータの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの相関値を算出するものである点にも特徴がある。

0009

また、前記した信号特徴抽出装置において、前記高次局所相関特徴は、フーリエ変換手段から入力された複素データの位相情報をベクトル表現に変換するベクトル変換手段を備えている点にも特徴がある。

0010

また、前記した信号特徴抽出装置において、複数のバンドパスフィルターからなるフィルターバンクを適用可能であり、入力されたデータに重みを乗算して加算し、出力する複数のバンドパスフィルター手段が、前記複素フーリエ変換手段と前記特徴抽出手段の間に、あるいは前記特徴抽出手段の後に配置される点にも特徴がある。

0011

また、前記した信号特徴抽出装置において、前記フィルター手段は、入力信号を参照して、各バンドパスフィルターの帯域幅振幅時間平均値周波数分布が一様になるように決定された分布平滑化フィルターである点にも特徴がある。

0012

また、前記した信号特徴抽出装置において、前記特徴抽出手段の後にあるいは前記フィルター手段の後に振幅情報対数変換手段が配置された点にも特徴がある。

0013

本発明の信号特徴抽出方法は、所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換処理を行うステップと、前記複素フーリエ変換処理において変換されたデータから高次局所相関特徴データを抽出する特徴抽出処理を行うステップとを含むことを主要な特徴とする。

発明の効果

0014

本発明の信号特徴抽出装置および信号特徴抽出方法には以下のような効果がある。
(1)音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出することができ、位相に特徴がある信号の識別精度が向上する。
(2)高次局所自己相関により、周波数間の関係性を効果的に抽出することが可能となり、識別精度が向上する。

図面の簡単な説明

0015

図1は本発明の信号特徴抽出装置のハードウェア構成を示すブロック図である。
図2は本発明の信号特徴抽出方法を使用した信号認識処理の内容を示すフローチャートである。
図3はフーリエ変換処理の内容を示す説明図である。
図4は本発明の特徴抽出処理において使用するマスクパターンの内容を示す説明図である。
図5は本発明のフェーズインデックスHLACにおける量子化方法(1)を示す説明図である。
図6は本発明のフェーズインデックスHLACにおける量子化方法(2)を示す説明図である。
図7はMelフィルターの特性例を示す説明図である。

0016

以下に、この発明の実施の形態を実施例によって、図面に基づき詳細に説明する。なお、実施例においては音をマイクにて入力する例を開示するが、本発明はコンピューター入力可能な任意の電気信号に適用可能である。

0017

図1は本発明の信号特徴抽出装置のハードウェア構成を示すブロック図である。マイク10は例えば対象物から発生する可聴音を電気信号に変換し、コンピューター11に出力する。コンピューター11は例えば音信号を取り込むためのインターフェイス回路マイク入力回路:サンプリング、A/D変換回路)を備えた周知のパソコン(PC)であってもよい。本発明は、パソコンなどの周知の任意のコンピューター11に後述する処理を実行するプログラムを作成、インストールすることにより実現される。

0018

モニタ装置12はコンピューター11の周知の出力装置であり、例えば対象物が発する音の種別などの認識結果等をオペレータに表示するために使用される。キーボード13およびマウス14は、オペレータが入力に使用する周知の入力装置である。

0019

図2(a)は本発明の信号特徴抽出方法を使用した信号認識処理(1)の内容を示すフローチャートである。S10においては、マイク10から入力されたアナログ信号が所定の周期でサンプリングされ、A/D変換されたデジタル信号データから、移動する時間窓を用いた公知の複素フーリエ変換処理を行う。

0020

図3はフーリエ変換処理の内容を示す説明図である。マイク10から入力されたアナログ信号は所定の周期(例えば50μ秒(サンプリング周波数20kHz))でサンプリングされ、A/D変換されて、一旦保存される。このデジタル信号データは所定の長さ(例えば数秒)の時間窓を用いて切り出され、公知の短時間複素フーリエ変換処理によって、下記の数式1に示す周波数軸上の複数の離散複素数値Fに変換される。なお、Aはその周波数成分の振幅、θは位相を表している。

0021

0022

時間窓は1〜複数サンプリング周期毎に移動され、所定の期間(例えば数十秒)だけフーリエ変換処理が行われる。この結果、図3右側に示すような、時間軸および周波数軸にそって配列された多数の複素数データFが得られる。

0023

S11においては、特徴抽出処理として、(1)フーリエHLAC(Fourier HLAC、以下FHLACと記す)、(2)フェーズインデックスHLAC(Phase Index HLAC、以下PHLAC)と記す)のいずれか1つの特徴データを算出する。

0024

(1)FHLAC:
FHLACは本発明者が発明したフーリエ高次局所自己相関特徴である。まず、図3右側に示された時間軸および周波数軸にそって配列された多数の複素数データFの内の1つに注目し、その注目複素数データと予め定められたマスクパターンによって決定される近傍の複素数データとの相関値を算出する。この処理を全てのマスクパターンについて実行することによって、1つの注目複素数データに関して、マスクパターンの数と等しい複数の複素数データXの集合からなる特徴データが得られる。

0025

図4は本発明の特徴抽出処理において使用するマスクパターンの内容を示す説明図である。マスクパターンの決定においては注目データを中心とする3×3の正方形の内部に限定し、中心の注目データは必ず1回以上選択されるものとする。また、上下左右および斜め方向に並行移動して重なるマスクパターンは注目データを移動させれば重複するので1つを残して他を削除する。

0026

この重複排除の結果、中心および他の1点を選択する1次のマスクパターンが(1)〜(4)の4種類、中心および他の2点を選択する2次のマスクパターンが(1)〜(20)の20種類残る。また、中心を2回選択する1次のマスクパターン(5)が1種類、中心を2回および他の1点を選択する2次のマスクパターン(21)〜(28)が8種類、中心を3回選択する2次のマスクパターン(29)が1種類存在する。
マスクパターンの黒丸●のある位置の複素数データ同士の相関値が算出される。同じ位置に2個以上の黒丸●があるときは、その値が2個以上あると考えて他と同様に相関を取る(自分自身を2回以上かける)。なお、特徴データの抽出には1次あるいは2次マスクの一方のみを使用してもよいし、1次および2次マスクの双方を使用してもよい。

0027

1次および2次のマスクパターンを用いた1次および2次相関の演算式を下記の数式2、3に示す。演算においては一方の複素数虚数正負反転させる複素共役をとっており、(Fの上部のバーで表現)相関値も複素数である。1次相関値の位相情報はその周波数成分の位相の1次微分情報を示しており、2次相関値の位相情報はその周波数成分の位相の2次微分情報を示している。
なお、図4パターン(5)、(29)など、自分自身のみのマスクパターンの場合には、実数値の特徴が得られ、これは従来のパワースペクトル特徴に一致する。

0028

0029

0030

なお、上記数式2、3においては複数の振幅Aを乗算しているが、演算は乗算以外に、*(内積)、min(A,B)(A、Bの小さい方)などであってもよい。従って、演算を任意の関数fとすれば以下の数式4、5のように表現できる。

0031

0032

0033

注目複素数データを周波数軸および時間軸方向走査スキャン)して全ての複素数データFについて上記の処理を行って複素数データXの集合を求めたものがFHLACである。

0034

(2)PHLAC:
PHLACはやはり本発明者が発明したフーリエ高次局所自己相関特徴である。図3右側に示された時間軸および周波数軸にそって2次元に配列された多数の複素数データFの1つに注目し、その注目複素数データと予め定められたマスクパターンによって決定される近傍の複素数データとの相関値を算出する。この際、各複素数データについて位相情報を量子化表現(ベクトル表現)に変換してから相関をとる。
なお、PHLACにおいては、自分自身を2回以上選択する相関(図4のマスクパターン(5)、(21)〜(29))はとらない。

0035

図5は本発明のPHLAC(フェーズインデックスHLAC)における量子化方法(1)を示す説明図である。前記した数式1の複素数Fを複素平面上で表すと、図5左側に示すように表すことができる。ここで、位相θは、それぞれが均等な角度だけ他と方向が異なる複数(図5では8個)の基準方向(1〜8)の内、複素数Fを挟む2個の基準方向の重み付け和によって表すことができる。

0036

例えば図5に示す複素数Fの場合には、θがベクトル2と3のちょうど中間にあるので、ベクトル2とベクトル3の重みがそれぞれ0.5、他の重みは0である8個の実数によって表すことができる。そこでこの8個の重み値を8次元のベクトルhとすると、複素数Fは以下の数式6のように表わされる。

0037

0038

ここで、数式6の表現を使用し、前記した1次および2次のマスクパターンを用いた1次および2次相関の演算式を下記の数式7、8に示す。なお、関数fは前記したものと同一である。

0039

0040

0041

演算は数式7においてはベクトルの外積(outer-product)となり、数式8においてはテンソル積となる。数式7の1つのマスクパターンと対応する1次相関特徴は8×8個の実数値からなるベクトル、数式8の1つのマスクパターンと対応する2次相関特徴は8×8×8個の実数値からなるベクトルとなる。

0042

次に、PHLACの変形例について説明する。上記したPHLACにおいては位相θを8次元のベクトルhによる量子化表現に変換する例を開示したが、数式4あるいは5に示す複素数データXの位相差分情報をベクトルhを用いた量子化表現に変換することも可能である。

0043

下記の数式9においては数式4の位相差分情報を8次元のベクトルhによる量子化表現に変換している。また、下記の数式10においては数式5の位相情報を2つの位相差分情報の和に変形し、2個の8次元のベクトルhの積による量子化表現に変換している。数式9、10においては数式4、5よりも次元が低下し、データ量が減少している。

0044

0045

0046

次に、PHLACの他の変形例について説明する。上記したPHLACにおいては位相情報θを量子化表現に変換する例を開示したが、この変形例は位相情報の代わりに位相の周波数微分値である群遅延あるいは位相の時間微分値である瞬時周波数を用いる。

0047

図6は本発明のフェーズインデックスHLACにおいて、位相情報の代わりに群遅延あるいは瞬時周波数を用いる場合の量子化方法を示す説明図である。群遅延あるいは瞬時周波数は周期性のない値であるので、最小値最大値の間を複数の区間に分割し、量子化する。

0048

群遅延あるいは瞬時周波数の値(θハット)は、複数(図6では8個)の基準値(1〜8)の内、群遅延あるいは瞬時周波数の値(θハット)を挟む2個の基準値の重み付け和によって表すことができる。そこでこの8個の重み値を上述した8次元のベクトルhとする。以下は前述した処理と同一である。最小値、最大値、区間の分け方は学習データ(入力信号データ)から決定してもよいし、事前パラメータとして与えてもよい。

0049

S12においてはフィルター処理として(1)分布平滑化フィルター処理、(2)Melフィルター処理のいずれかを行う。フィルター処理においては、複数のバンドパスフィルター機能を使用して下記の数式11に示す演算が行われる。各バンドパスフィルターは入力されたデータに重みを乗算して加算(積算、合算)し、出力する。なお、wはフィルターの重みである。この結果、特徴データXの周波数方向データ数がフィルターの数に減少する。

0050

0051

Melフィルター処理:
図7はMelフィルターの特性例を示す説明図である。公知のMelフィルターは、複数のバンドパスフィルターからなるフィルターバンクである。各フィルターの特性は図7に示すような3角形の形をしており、それぞれのフィルターの重みを積分した値は同一となっている。

0052

各フィルターの中心周波数の間隔は周波数が高くなるほど広くなっており、周波数軸を対数スケールで表わした場合に、Melフィルターの各フィルターの中心周波数は等間隔に配置されている。また、各フィルターの帯域幅も同じ幅になる。

0053

分布平滑化フィルター処理:
前記したMelフィルターは各バンドパスフィルターの中心周波数が対数スケールにおいて等間隔に配置されているが、信号によってはこれが最適な配置とは限らない。そこで、本発明者は以下に示す分布平滑化フィルターを発明した。この分布平滑化フィルターにおいては、Melフィルターと同様に複数のバンドパスフィルターからなるフィルターバンクを用いる。

0054

分布平滑化フィルターの各バンドパスフィルターの帯域幅は、入力信号の特性に合わせて以下のように決定される。まず、下記の数式12によって、複素数データFの振幅AからH、qを求める。Hは周波数kのヒストグラム値(=振幅の時間平均値)であり、qは周波数軸におけるHの累積分布関数となる。また、gは任意の関数であり、対数(log)関数あるいは閾値をもつステップ関数などでもよい。

0055

0056

このqは、周波数kが増加するに従って0から1まで単調増加する関数である。このqによって周波数軸を変換すると、振幅の小さい帯域は狭くなり、振幅の大きな帯域は広くなるので、変換された周波数軸を均等に区切ると、各区間における振幅の加算値が同一(一様分布)になるような新たな周波数軸が得られる。この新たな周波数軸上で均等な重みとなる、即ち、各バンドパスフィルターの中心周波数の間隔が均等であり、かつフィルター特性の形状も同一となるようなフィルター群を構成する。

0057

具体的には、例えばこのqの値を均等に分割する点(例えば10等分であれば、0、0.1、0.2…0.9、1.0)の周波数を求め、この周波数を各バンドパスフィルターの境界の周波数あるいは中心周波数とする。
フィルターをこのように構成すれば、入力信号の特性に合わせて、振幅の大きな帯域はバンドパスフィルターの帯域幅が狭くなり、特徴を細かく抽出することができる。従って、認識、識別精度が向上する。

0058

S13においては、必要に応じて振幅Aについて対数変換を行う。この処理によって例えば大きな雑音の影響を抑制することができる。

0059

S14においては、抽出された特徴データに基づき、公知の認識、識別処理が行われる。例えばxiを時間窓を用いて得られた学習用特徴ベクトル群であるとすると、xiに対して主成分分析(フーリエHLACの場合には複素固有値問題になる。)を行うことによって、学習データに頻繁に含まれる(正常な)特徴ベクトルの張る空間Vが求まる。そして、入力特徴ベクトルをxとするとき、以下に示す数式13によってd2を求め、この値の大小によって異音かどうか、即ち故障か否かを判定する。

0060

0061

図2(b)は本発明の信号特徴抽出方法を使用した信号認識処理の実施例2の内容を示すフローチャートである。前述した実施例1においてはS11の特徴抽出処理を行った後にS12のフィルター処理を行う例を開示したが、実施例2は、実施例1のS11とS12の実行順序入れ替えてS16(=S12)、S17(=S11)としたものである。その他の処理は実施例1と同一である。実施例2においてはフィルター処理によってデータ量が減少するので、特徴抽出処理の負荷が軽減され、全体の処理速度が向上する。

実施例

0062

上実施例を説明したが、本発明の装置には更に以下のような変形例も考えられる。実施例においてはA/D変換後に一旦保存し、オフライン処理を行う例を開示したが、処理速度が間に合えばリアルタイムで処理してもよい。

0063

本発明は音声その他の音響信号を初め、コンピューターに入力可能な任意の信号の認識、識別、機械の故障等による異音検出に適用可能である。

0064

10…マイク
11…コンピューター
12…モニタ装置
13…キーボード
14…マウス

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ