図面 (/)

技術 音源同定方法及び音源同定装置

出願人 国立大学法人名古屋工業大学
発明者 岩田彰マウリシオクグレ
出願日 2008年9月29日 (10年0ヶ月経過) 出願番号 2008-250360
公開日 2010年4月8日 (8年6ヶ月経過) 公開番号 2010-079188
状態 特許登録済
技術分野 音声の分析・合成 音声認識
主要キーワード パルス頻度 パルス列生成 各参照ベクトル パルス変換 音源種類 最近隣法 持ち時間 ポテンシャル値
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2010年4月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

より少ない回路数ハードウェア化可能な音源同定方法を提供する。

解決手段

入力音から生成された音圧に応じたパルス頻度を持つ周波数帯域別パルス列において、時間軸方向所定幅を有するカウント範囲内のパルス数を数えて、パルス数ベクトルを生成する第1ステップと、パルス数ベクトルの各要素のうちの大きい方からN個を1とし、残りを0とした特徴ベクトルを生成する第2ステップと、特徴ベクトルと同様に生成されて元の音源を示す音源カテゴリ分類された複数の参照ベクトルから、特徴ベクトルにハミング距離で近い方からk個の参照ベクトルを検索し、それらのうちの最も多くの参照ベクトルが属する音源カテゴリを決定する第3ステップとを、カウント範囲をずらしつつ繰り返す音源同定方法。

概要

背景

音による周辺環境把握の基本機能は、音源方向識別する音源定位と、音源種類を識別する音源同定音源認識)であり、パルスニューロンモデルを用いた音源同定装置には、下記非特許文献1に記載されたものがある。また、出願人による音源同定に関する出願に、下記特許文献1、2があり、特許文献2には、処理の高速化のため、音源定位・同定装置FPGA(Field Programmable Gate Array)に実装した例が示されている。
特開2008−77177号公報
特開2008−85472号公報
坂口晋也、黒奨、岩田彰、「環境把握のための音源同定システム」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、1999年12月、NC99−70、p.61−68

概要

より少ない回路数ハードウェア化可能な音源同定方法を提供する。入力音から生成された音圧に応じたパルス頻度を持つ周波数帯域別パルス列において、時間軸方向所定幅を有するカウント範囲内のパルス数を数えて、パルス数ベクトルを生成する第1ステップと、パルス数ベクトルの各要素のうちの大きい方からN個を1とし、残りを0とした特徴ベクトルを生成する第2ステップと、特徴ベクトルと同様に生成されて元の音源を示す音源カテゴリ分類された複数の参照ベクトルから、特徴ベクトルにハミング距離で近い方からk個の参照ベクトルを検索し、それらのうちの最も多くの参照ベクトルが属する音源カテゴリを決定する第3ステップとを、カウント範囲をずらしつつ繰り返す音源同定方法。

目的

しかし、上記特許文献2の表1から分かるように、特許文献2記載の装置では、音源同定用周波数パターン検出部のみでも約5,000ALUTsの回路数が必要であり、更なる処理の高速化と装置のコンパクト化のためには、より少ない回路数でハードウェア化可能な音源同定方法が望まれていた。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度持ち時間軸方向にパルスが並んだパルス列に変換し、前記各周波数帯域のパルス列を用いて入力音の音源識別する音源同定方法であって、前記各周波数帯域のパルス列において、時間軸方向所定幅を有するカウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成する第1ステップと、前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する第2ステップと、音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリ分類されて記憶されている複数の参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する第3ステップとを、前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする音源同定方法。

請求項2

前記第1ステップと、前記第2ステップと、前記第3ステップと、前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記第3ステップで出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げる第4ステップとを、前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定することを特徴とする請求項1記載の音源同定方法。

請求項3

入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換するパルス列生成手段と、時間軸方向に所定幅を有し時間軸方向に重ならないように設定されるカウント範囲毎に、前記各周波数帯域のパルス列における前記カウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成するパルス数ベクトル生成手段と、前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する特徴ベクトル生成手段と、音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類された複数の参照ベクトルを記憶した参照ベクトル記憶手段と、前記参照ベクトル記憶手段に記憶されている参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する音源カテゴリ識別手段と、を有し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする音源同定装置

請求項4

前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記音源カテゴリ識別手段によって出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げるポテンシャル値処理手段を有し、前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定することを特徴とする請求項3記載の音源同定装置。

技術分野

0001

本発明は、音源の種類を同定する音源同定方法及び音源同定装置に関する。

背景技術

0002

音による周辺環境把握の基本機能は、音源方向識別する音源定位と、音源種類を識別する音源同定(音源認識)であり、パルスニューロンモデルを用いた音源同定装置には、下記非特許文献1に記載されたものがある。また、出願人による音源同定に関する出願に、下記特許文献1、2があり、特許文献2には、処理の高速化のため、音源定位・同定装置FPGA(Field Programmable Gate Array)に実装した例が示されている。
特開2008−77177号公報
特開2008−85472号公報
坂口晋也、黒奨、岩田彰、「環境把握のための音源同定システム」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、1999年12月、NC99−70、p.61−68

発明が解決しようとする課題

0003

しかし、上記特許文献2の表1から分かるように、特許文献2記載の装置では、音源同定用周波数パターン検出部のみでも約5,000ALUTsの回路数が必要であり、更なる処理の高速化と装置のコンパクト化のためには、より少ない回路数でハードウェア化可能な音源同定方法が望まれていた。

0004

この発明は、上述した問題を解決するものであり、より少ない回路数でハードウェア化可能な音源同定方法及び音源同定装置を提供することを目的とする。

課題を解決するための手段

0005

本発明の音源同定方法は、入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度持ち時間軸方向にパルスが並んだパルス列に変換し、前記各周波数帯域のパルス列を用いて入力音の音源を識別する音源同定方法であって、前記各周波数帯域のパルス列において、時間軸方向所定幅を有するカウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成する第1ステップと、前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する第2ステップと、音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリ分類されて記憶されている複数の参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する第3ステップとを、前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする。

0006

なお、好ましくは、前記第1ステップと、前記第2ステップと、前記第3ステップと、前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記第3ステップで出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げる第4ステップとを、前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定する。

0007

本発明の音源同定装置は、入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換するパルス列生成手段と、時間軸方向に所定幅を有し時間軸方向に重ならないように設定されるカウント範囲毎に、前記各周波数帯域のパルス列における前記カウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成するパルス数ベクトル生成手段と、前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する特徴ベクトル生成手段と、音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類された複数の参照ベクトルを記憶した参照ベクトル記憶手段と、前記参照ベクトル記憶手段に記憶されている参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する音源カテゴリ識別手段と、を有し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする。

0008

なお、好ましくは、前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記音源カテゴリ識別手段によって出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げるポテンシャル値処理手段を有し、前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定する。

発明の効果

0009

本発明の音源同定方法及び音源同定装置は、入力音の特徴を0、1で表した特徴ベクトルを生成し、音源が分かっている音から特徴ベクトルと同様に生成された参照ベクトルを用いて、特徴ベクトルと参照ベクトルとの遠近類似度)をハミング距離で決定するという、シンプル演算容易なロジックを用いているので、より少ない回路数でハードウェア化可能である。

発明を実施するための最良の形態

0010

以下、本発明の一実施形態について図面に基づいて説明する。

0011

音源同定装置Sは、図1に示すように、マイクロホン(図示せず。)に接続されたパルス列生成手段6を備えている。パルス列生成手段6は、AD変換部14と、人の聴覚系蝸牛に相当する周波数分解部15と、有毛細胞に相当する非線形変換部16と、蝸牛神経に相当するパルス変換部17とを備えている。AD変換部14は、マイクロホンから入力された信号(入力音)をAD変換する。周波数分解部15は、バンドパスフィルタ(BPF)群により構成され、AD変換された信号を所定の周波数範囲について対数スケールで複数の周波数帯域(以下、「チャンネル」ともいう。)別の信号に分解する。非線形変換部16は、周波数分解部15から入力された各周波数帯域の信号に対して、それぞれ、非線形変換を行うことによりその正の成分だけを取り出すとともに、ローパスフィルタLPF)によりエンベロープ検出を行う。パルス変換部17は、非線形変換部16から入力された各周波数帯域の信号を、それぞれ、信号強度(すなわち、音圧)に比例したパルス頻度を持つパルス列に変換する。これらの処理により、パルス列生成手段6は、入力音を、チャンネル別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換する。

0012

また、音源同定装置Sは、図2に示すように、パルス数ベクトル生成手段1と、特徴ベクトル生成手段2と、音源カテゴリ識別手段3と、参照ベクトル記憶手段4とを備えている。

0013

パルス数ベクトル生成手段1には、パルス列生成手段6で生成された各チャンネルのパルス列が入力される。実施形態では、チャンネル数は43である。パルス数ベクトル生成手段1は、チャンネル数分のパルスカウンタ5を備え、各チャンネルのパルス列におけるカウント範囲内のパルス数を、各パルスカウンタ5により数え、それらのパルス数を要素とするパルス数ベクトルを生成する。パルス数ベクトルの要素数は、チャンネル数すなわち43となる。カウント範囲は、実施形態ではパルス1000個分の幅とする。実施形態では、入力信号を48kHzでサンプリングしてパルス列を生成するため、1secに48000個のパルスを発生可能であり、パルス1000個分の幅とは1000÷48000≒0.02secの幅となる。すなわち、各チャンネルのパルス列を、約20msec間隔で区切って数える。

0014

特徴ベクトル生成手段2には、パルス数ベクトルが入力される。特徴ベクトル生成手段2は、パルス数ベクトルの各要素のうちの大きい方からN個の要素を1とし、残りの要素を0とした特徴ベクトルを生成するものである。すなわち、特徴ベクトルは、音圧の強い部分を1とし残りの部分を0とすることにより音の特徴を表すバイナリーベクトルである。なお、Nは、パルス数ベクトルの要素数以下の正整数であり、実施形態ではN=9とする。

0015

音源カテゴリ識別手段3には、特徴ベクトルが入力される。音源カテゴリ識別手段3は、参照ベクトル記憶手段4に記憶されている参照ベクトルから、特徴ベクトルにハミング距離で近い方からk個の参照ベクトルを検索し、それらk個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、その音源カテゴリを示すカテゴリ情報を出力するものである。kは、参照ベクトルの総数以下の正整数であり、実施形態ではk=12とする。

0016

参照ベクトル記憶手段4は、複数の参照ベクトルを記憶したもの(実施形態ではROM)である。各参照ベクトルは、音源が分かっている入力音から上記特徴ベクトルと同様にして生成したバイナリーベクトルである。すなわち、所定時間長さを持つ入力音からチャンネル別のパルス列を生成し、時間軸方向に所定幅(パルス1000個分)を有するカウント範囲を、時間軸方向に重ならないように、かつ、間隔が開かないように移動させつつ、各パルス列におけるカウント範囲内のパルス数をカウントして、各パルス列におけるパルス数を要素とするパルス数ベクトルを生成する。そして、パルス数ベクトルの要素のうち大きい方からN(=9)個を1に、残りの要素を0にした特徴ベクトルを生成し、その特徴ベクトルを参照ベクトルとする。各参照ベクトルは、元の音源を示す音源カテゴリ(音源種類)に、例えばその音源カテゴリを示すカテゴリ情報に関連付けることにより、分類されている。なお、参照ベクトルの総数を少なくするために、K平均法(K-means clustering)を用いて、各音源カテゴリについて、その音源カテゴリに属する特徴ベクトルを複数のクラスタに分けるクラスタリングを行い、各クラスタの代表(中心)をその音源カテゴリの参照ベクトルとする。実施形態では、各音源カテゴリについて参照ベクトルを1,000個とした。勿論、クラスタリングの方法は、K平均法以外の方法であってもよい。

0017

音源同定装置Sにおいて実行される音源同定方法について、次に説明する。

0018

音源同定装置Sでは、まず、パルス列生成手段6により入力音をチャンネル別のパルス列に変換する。図3は、入力音(入力信号)からパルス列が生成される様子を示したイメージ図であるが、図の最上段が入力信号(audio signal)であり、図の2段目以降に、この入力信号をチャンネル毎に周波数分解したものを破線で、周波数分解された信号から生成されたパルス列を実線で示している。なお、図3では、チャンネル1(channel 1)、チャンネル4(channel 4)、チャンネル7(channel 7)、チャンネル10(channel 10)、チャンネル13(channel 13)のみを図示している。

0019

また、図4−1〜図6−2は、音源が分かっている入力音、具体的には、図4−1は目覚まし時計アラーム音、図4−2はインターホン呼び出し音、図4−3は吹きケトル沸騰音、図5−1は救急車サイレン音、図5−2はパトカーのサイレン音、図5−3は電話ベル音、図6−1は消防車のサイレン音、図6−2は人の声から生成されたパルス列を示す。なお、縦軸はチャンネル、横軸は時間を示し、濃淡が濃い程パルス頻度大であることを示している。

0020

〈第1ステップ〉次に、音源同定装置Sは、パルス数ベクトル生成手段1により、チャンネル別のパルス列からパルス数ベクトルを生成する第1のステップを実行する。第1のステップでは、パルス数ベクトル生成手段1は、図7のステップS01に示すように、各ウィンドウ時間窓)についてパルスカウンタ5によりパルス数を数える。ここで、ウィンドウとは、カウント範囲を示すものであり、図8のウィンドウA、ウィンドウBに示すように、すべてのチャンネルを通してパルス列を所定幅(実施形態ではパルス1000個分の幅)で言わば覗いて数えるためのものである。

0021

パルス数ベクトル生成手段1は、まず、最初のウィンドウ内に存在するパルス数を数える。最初のウィンドウは、時刻0から約20msecの範囲となる。パルス数を数えている間は、図7に示すように、待機状態アイドリング状態)となる。そのウィンドウについてパルス数を数え終わると、パルス数ベクトル生成手段1は、パルス数をチャンネル順に並べたパルス数ベクトルを、特徴ベクトル生成手段2に渡す。次にステップS01を行うときは、パルス数ベクトル生成手段1は、ウィンドウを、最初のウィンドウに重ならないように、かつ、最初のウィンドウとの間に間隔が開かないように移動させ、そのウィンドウ内に存在するパルス数を数える。そして、そのウィンドウについてパルス数を数え終わると、パルス数をチャンネル順に並べたパルス数ベクトルを、特徴ベクトル生成手段2に渡す。パルス数ベクトル生成手段1は、かかる処理を、ウィンドウを時間軸方向に(すなわち、時間の早い方から遅い方に向かって)、前のウィンドウと後のウィンドウとが重ならないように、かつ、前のウィンドウと後のウィンドウとで間隔が開かないように移動させつつ、繰り返す。

0022

かかる処理により、例えば、図8に示すように、ウィンドウAについてはパルス数ベクトルA1=(3,2,4,3,…,5,2,4,5)が、ウィンドウBについてはパルス数ベクトルB1=(2,3,5,3,…,3,5,9,10)が生成される。

0023

〈第2ステップ〉パルス数ベクトル生成手段1からパルス数ベクトルを受け取った特徴ベクトル生成手段2は、パルス数ベクトルから特徴ベクトルを生成する第2のステップを実行する(図7のS02)。

0024

詳しくは、図9に示すように、特徴ベクトル生成手段2は、パルス数ベクトルの各要素からN(=9)個の要素を任意に選択し、それらの要素を所定領域に格納する(S101)。次に、所定領域に格納された9個の要素の中で最小値の要素を見つける(S102)。最小値の要素を見つけたら、所定領域に格納されなかった残りの要素とその最小値の要素とを比較する(S103)。そして、残りの要素の中から、その最小値の要素より大きい値の要素を見つけたら、その最小値の要素の代わりに、見つかったより大きい値の要素を所定領域に格納し、ステップS102に戻って、所定領域に格納されている要素の中で最小値の要素を見つける。

0025

ステップS102、103は、所定領域中の最小値の要素より大きい値の要素が、残りの要素から見つからなくなるまで繰り返される。ステップS103で、所定領域中の最小値の要素より大きい値の要素が、残りの要素から見つからなかったら、所定領域にはパルス数ベクトルの各要素のうちの大きい方から9個の要素が格納されているので、パルス数ベクトル中のそれら9個の要素を1とし、それら9個以外の要素を0とすることにより、特徴ベクトルを生成する(S104)。

0026

かかる処理により、例えば、図8に示すように、パルス数ベクトルA1については特徴ベクトルA2が、パルス数ベクトルB1については特徴ベクトルB2が生成される。生成された特徴ベクトルは音源カテゴリ識別手段3に渡される。

0027

〈第3ステップ〉特徴ベクトル生成手段2から特徴ベクトルを受け取った音源カテゴリ識別手段3は、参照ベクトルと特徴ベクトルとの距離を調べ、特徴ベクトルに近い参照ベクトルが多く属する音源カテゴリのカテゴリ情報を出力する第3のステップを実行する(図7のS03)。

0028

詳しくは、図10に示すように、音源カテゴリ識別手段3は、まず、参照ベクトル記憶手段4から参照ベクトルをすべて作業領域に読み出す(S201)。次に、作業領域中の参照ベクトルから任意のk(=12)個の参照ベクトルを選択し、それらの参照ベクトルを所定領域に格納する(S202)。

0029

そして、所定領域に格納された12個の参照ベクトルの中から、特徴ベクトルとの距離が最大のものを見つける(S203)。なお、距離はハミング距離とする。最大距離の参照ベクトルを見つけたら、所定領域に格納されなかった残りの参照ベクトルと特徴ベクトルとの距離をそれぞれ調べ、それらの距離と見つけた最大距離とを比較する(S204)。そして、残りの参照ベクトルの中から、その最大距離より小さい距離の参照ベクトルを見つけたら、その最大距離の参照ベクトルの代わりに、見つかったより小さい距離の参照ベクトルを所定領域に格納し、ステップS203に戻って、所定領域に格納されている参照ベクトルの中で最大距離の参照ベクトルを見つける。

0030

ステップS203、204は、所定領域中の最大距離の参照ベクトルより小さい距離の参照ベクトルが、残りの参照ベクトルから見つからなくなるまで繰り返される。ステップS204で、最大距離の参照ベクトルより小さい距離の参照ベクトルが、残りの参照ベクトルから見つからなかったら、所定領域には、すべての参照ベクトルのうち、特徴ベクトルとの距離が小さい方からk(=12)個の参照ベクトル(k-Nearest Neighbor)が格納されている(k最近隣法)。各参照ベクトルはその参照ベクトルが属する音源カテゴリに分類されているので、所定領域の12個の参照ベクトルが属する音源カテゴリをそれぞれ調べて、例えば、救急車のサイレン音であれば救急車のサイレン音の投票数に1を加える等、属する音源カテゴリに投票を行う(S205)。そして、所定領域の12個の参照ベクトルの中で最も多くの参照ベクトルが属する音源カテゴリを決定して、その音源カテゴリを示すカテゴリ情報を、識別結果として出力する(S206)。

0031

この出力されたカテゴリ情報によって示される音源カテゴリは、特徴ベクトルに最も近い方から12個の参照ベクトルのうち、最も多くの参照ベクトルが属するものであるので、特徴ベクトルが属する音源カテゴリであると判断できる。

0032

図7に示すように、カテゴリ情報の出力を終えると(すなわち、クラス分けが終了すると)、音源同定装置Sは、ステップS01に戻って、次のカウント範囲についてパルス数ベクトルの生成を行い、以下、ステップS01〜S03の処理をパルス列が終了するまで繰り返す。なお、ステップS01〜03の処理は、例えば、前のパルス数ベクトルについてステップS02、S03の処理が行われているときに、次のパルス数ベクトルの生成をステップS01で行う等、平行して行ってもよい。

0033

図11−1〜図13−2は、各種の入力音を音源同定装置Sで識別したときの識別結果を示す図であり、出力されたカテゴリ情報が示す音源カテゴリを黒の棒線で示している。図11−1は目覚まし時計のアラーム音、図11−2はインターホンの呼び出し音、図11−3は笛吹きケトルの沸騰音、図12−1は救急車のサイレン音、図12−2はパトカーのサイレン音、図12−3は電話のベル音、図13−1は消防車のサイレン音、図13−2は人の声をそれぞれ入力したときの識別結果を表す。なお、縦軸は音源カテゴリで、上から順に、不明(Unknown)、目覚まし時計のアラーム音(Alarm)、インターホンの呼び出し音(Interphone)、笛吹きケトルの沸騰音(Kettle)、救急車のサイレン音(Ambulance)、パトカーのサイレン音(Police)、電話のベル音(Phone)、消防車のサイレン音(Fire)、人の声(Voice)であり、横軸は時間である。これらの図から、音源同定装置Sは、かなり正確に音源を識別していることが分かる。

0034

音源同定装置Sにおいて、パルス数ベクトルをそのまま識別に用いずに特徴ベクトルに変換したのは、パルス数ベクトルをそのまま用いると、音圧(音の強さ)の影響を強く受けるため、ノイズに弱くなってしまうからである。1つのウィンドウ内の各チャンネルのパルス数は、そのウィンドウに相当する時間内の各チャンネルの平均エネルギーに比例するので、特徴ベクトルは、その時間内の音のエネルギーの強い部分を表すことになるが、強い部分を「1」でその他の部分を「0」で表しているので、音圧の影響は小さくなって、ノイズに強い。

0035

また、図14に示すように、パルス数ベクトルをそのまま用いるとともに、参照ベクトルとしてパルス数ベクトルと同様のベクトルを用いて、両者の距離をマンハッタン距離計測すると、幾つかの要素が入れ替わっただけの殆ど同じベクトルでも、距離が遠くなってしまうことがある。図14では、参照ベクトル(reference)と殆ど同じベクトルA(vector A)が、参照ベクトルに似ていないベクトルB(vector B)よりも、参照ベクトルから遠くなってしまっている。音源同定装置Sでは、特徴ベクトルと参照ベクトルとをいずれもバイナリーベクトルとし、両者の距離をハミング距離で計測しているので、似ているもの同士は距離が近く、似ていないもの同士は距離が遠くなり、識別の正確さが向上する。また、ハミング距離は排他的論理和を用いて容易に演算可能である。

0036

なお、図11−1〜図13−2から分かるように、音源同定装置Sは、単純な音については正しく分類できるが、複雑な音については分類ミスを生じている。この分類ミスを除去するには、音源カテゴリ識別手段3がカテゴリ情報を出力する度に、そのカテゴリ情報が示す音源カテゴリのポテンシャル値を上げ、他の音源カテゴリのポテンシャル値を下げるポテンシャル値処理手段を、音源カテゴリ識別手段3の後段に設け、ポテンシャル値が最大になった音源カテゴリを、入力音の音源と判定することが好ましい。以下、ポテンシャル値処理手段が行う第4のステップについて説明する。第4のステップは、第3のステップの次に実行される。

0037

〈第4のステップ〉ポテンシャル値処理手段は、各音源カテゴリiのポテンシャル値Pi(t)を記憶している。なお、iは、上記8種類の音源カテゴリにそれぞれ付されたインデックスでi=0〜7である。例えば、i=0は目覚まし時計のアラーム音(Alarm)に、i=1はインターホンの呼び出し音(Interphone)に付されたインデックスである。音源カテゴリ識別手段3は、カテゴリ情報として、かかるインデックスを出力するものとする。また、tは時刻であり、Pi(0)=0(i=0〜7)とする。

0038

ポテンシャル値処理手段は、音源カテゴリ識別手段3から時刻tにおけるカテゴリ情報y(t)を受け取ると、次の数式(1)(2)に従って、Pi(t)(i=0〜7)を増減する。

0039

i=y(t)に対しては、Pi(t)=min(Pmax,Pi(t−1)+γ)…(1)
i≠y(t)に対しては、Pi(t)=max(0,Pi(t−1)−1)…(2)
すなわち、カテゴリ情報y(t)で示された音源カテゴリに対しては、そのポテンシャル値をγ上昇させ、それ以外の音源カテゴリに対しては、そのポテンシャル値を1下降させる。なお、1回あたりの上昇幅は1回あたりの下降幅よりも大きいもの(すなわち、γ>1)とし、ここではγ=2とする。また、Pmaxはポテンシャル値の上限であり、ポテンシャル値の下限は0とする。

0040

このように、時間情報を加えれば、音源は一般に急変することはないので、時間の経過と共にその音源が識別されるようになる。以下に実験例を示す。

0041

〈実験例〉
上記8種類の音源をマイクの周囲に並べ、インデックスが小さい音源から順に音を発してマイクで集音し、サンプリング周波数48kHzで3つの音信号ファイルを作った。そのうち2つのファイルをトレーニング(すなわち、参照ベクトルの作成)に用い、1つのファイルをテストに用いた。各パラメータは、次のように定めた。

0042

ウィンドウ(カウント範囲)の幅=1000(パルス1000個分)
N=9
k=12
Pmax=192
γ=2
テスト・ファイルの音信号を音源同定装置Sに入力したときの出力結果を、図15に示す。図15の最上段(Original Labels)は入力音を示し、2段目(k-Nearest Neighbor Classification Result)は音源カテゴリ識別手段3の出力結果を×印で示す。なお、×印が多数密集している部分は棒状に見える。また、4段目(Time Potentials)のグラフは、ポテンシャル値処理手段によって処理されたポテンシャル値を示す。なお、このグラフにおいて、符号P0が付された線はP0(t)、符号P1が付された線はP1(t)、符号P2が付された線はP2(t)、符号P3が付された線はP3(t)、符号P4が付された線はP4(t)、符号P5が付された線はP5(t)、符号P6が付された線はP6(t)、符号P7が付された線はP7(t)を表している。4段目のグラフからは、時間の経過と共に正しい音源がポテンシャル値によって示されることが分かる。なお、3段目(Time Potentials Classification Result)は、4段目のポテンシャル値のうち最大となったものの音源カテゴリを示している。

0043

このように、時間情報を加えたポテンシャル値によって音源を判定すれば、複雑な音であっても入力音の音源を正しく識別できることが分かる。

0044

本発明の音源同定方法は、一般のコンピュータソフトウェアにより実行させることもできる(すなわち、音源同定装置Sを一般のコンピュータで実現することもできる)が、処理の高速化のためには処理ロジックをハードウェア化することが好ましい。実施形態の音源同定方法(但し、ポテンシャル値の処理を行う第4ステップを除く。)をコーディングしてFPGAに書き込みハードウェア化した場合、回路数は約2,300ALUTsとなり、上記特許文献2記載の装置に比して回路数が大幅に少なくなった。これは、処理ロジックがシンプルでステップ数が少ないためである。このように、本発明の音源同定方法は、少ない回路数でハードウェア化可能であるので、音源同定装置Sのコンパクト化と処理の高速化が可能である。

0045

また、本発明の音源同定方法では、パラメータ数が、従来のパルスニューロンモデルを用いた手法に比して少ない。しかも、図16に、パラメータN(Number of Features)の値を6〜12の範囲で変更するとともにパラメータk(Nearest Neighbor)の値を1〜17の範囲で変更して、識別の正確さ(正しく識別された割合)の変化を調べた結果を示すが、図16から分かるように、パラメータN、kは、ある程度大きいところからは値を変えても識別の正確さを維持できる。すなわち、これらのパラメータはいずれも臨界的(critical)でないため、調整が容易であり、新しい音を学習させる(すなわち、新しい音により参照ベクトルを生成する)ときも、パラメータの調整が容易である。

0046

また、参照ベクトルがバイナリーベクトルであるため、参照ベクトルを記憶するメモリの容量が少なくて済む。

0047

なお、上記実施形態では、カウント範囲を、時間軸方向に重ならないように、かつ、間隔が開かないように移動させつつ、各パルス列におけるカウント範囲内のパルス数をカウントしたが、カウント範囲同士の間隔を開けるように構成してもよい。適宜間隔を開けつつカウント範囲を移動させてパルス数をカウントしても、入力音の特徴を抽出でき、音源同定が可能であるとともに、データ量を減少させることができるからである。

図面の簡単な説明

0048

本発明の一実施形態に係る音源同定装置のパルス列生成手段のブロック構成図である。
同実施形態に係る音源同定装置のブロック構成図である。
入力信号からパルス列を生成する様子を示したイメージ図である。
目覚まし時計のアラーム音から生成されたパルス列を示す図である。
インターホンの呼び出し音から生成されたパルス列を示す図である。
笛吹きケトルの沸騰音から生成されたパルス列を示す図である。
救急車のサイレン音から生成されたパルス列を示す図である。
パトカーのサイレン音から生成されたパルス列を示す図である。
電話のベル音から生成されたパルス列を示す図である。
消防車のサイレン音から生成されたパルス列を示す図である。
人の声から生成されたパルス列を示す図である。
同実施形態に係る音源同定方法を示すフローチャートである。
パルス列からパルス数ベクトル、特徴ベクトルが生成される様子を示したイメージ図である。
同実施形態に係る音源同定方法の第2ステップのフローチャートである。
同実施形態に係る音源同定方法の第3ステップのフローチャートである。
目覚まし時計のアラーム音を入力したときの識別結果を示す図である。
インターホンの呼び出し音を入力したときの識別結果を示す図である。
笛吹きケトルの沸騰音を入力したときの識別結果を示す図である。
救急車のサイレン音を入力したときの識別結果を示す図である。
パトカーのサイレン音を入力したときの識別結果を示す図である。
電話のベル音を入力したときの識別結果を示す図である。
消防車のサイレン音を入力したときの識別結果を示す図である。
人の声を入力したときの識別結果を示す図である。
パルス数ベクトルと、パルス数ベクトルと同様の参照ベクトルとの距離をマンハッタン距離で計測した例である。
テスト・ファイルの音信号を入力したときの出力結果を示す図である。
パラメータN、kの値を変えて、識別の正確さの変化を調べた結果を示す図である。

符号の説明

0049

S…音源同定装置
1…パルス数ベクトル生成手段
2…特徴ベクトル生成手段
3…音源カテゴリ識別手段
4…参照ベクトル記憶手段
6…パルス列生成手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ