図面 (/)

技術 音声処理プログラム、音声処理方法及び音声処理装置

出願人 富士通株式会社
発明者 大谷猛外川太郎香村紗友梨
出願日 2016年8月30日 (4年2ヶ月経過) 出願番号 2016-168593
公開日 2018年3月8日 (2年8ヶ月経過) 公開番号 2018-036431
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 伝達関数算出 音声入力状態 抑制ゲイン 算出関数 スぺクトル 雑音パワースペクトル 抑圧制御 離散フーリエ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年3月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

音声分析の精度を向上する方法を提供する。

解決手段

第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成し、第1の入力装置と第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、第1の周波数スペクトルと伝達特性から算出される結果に応じて、第2の周波数スペクトルのレベル抑圧制御する。

概要

背景

音声認識音声分析ニーズが高まり、話者が発した音声を正確に分析する技術が求められている。音声分析の技術の1つにバイナリマスキングという方法がある。バイナリマスキングでは、複数の入力装置で得られる音声それぞれについて周波数解析を行い、周波数成分毎信号レベルの大きさを比較して、信号レベルが大きい目的音の入力と小さい非目的音(目的音以外の雑音等)の入力の特定を行い、非目的音を除去することにより、目的音の分析を行う。

概要

音声の分析の精度を向上する方法を提供する。第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成し、第1の入力装置と第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、第1の周波数スペクトルと伝達特性から算出される結果に応じて、第2の周波数スペクトルのレベル抑圧制御する。

目的

本発明は、音声分析の精度を向上することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成し、前記第1の入力装置と前記第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性から算出される結果に応じて、前記第2の周波数スペクトルのレベル抑圧制御する、処理をコンピュータに実行させることを特徴とする音声処理プログラム

請求項2

前記第1の周波数スペクトルと前記伝達特性から第3の周波数スペクトルを算出し、前記第2の周波数スペクトルと前記第3の周波数スペクトルの差分に応じて、前記第2の周波数スペクトルのレベルを抑圧制御する、処理をコンピュータに実行させることを特徴とする請求項1に記載の音声処理プログラム。

請求項3

前記第2の周波数スペクトルと前記第3の周波数スペクトルの差分が所定の値より大きい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を大きくする、処理をコンピュータに実行させることを特徴とする請求項2に記載の音声処理プログラム。

請求項4

前記第2の周波数スペクトルと前記第3の周波数スペクトルの差分が所定の値より小さい場合に、前記第2の周波数スペクトルのレベルを抑圧制御する際の抑圧量を小さくする、処理をコンピュータに実行させることを特徴とする請求項2に記載の音声処理プログラム。

請求項5

複数の周波数の各帯域及び/又は複数の各フレームにおける前記抑圧量を平滑化する処理をコンピュータに実行させることを特徴とする請求項1乃至4のいずれか一項に記載の音声処理プログラム。

請求項6

前記平滑化した抑圧量に基づいて前記第2の周波数スペクトルのレベルを抑圧制御する処理をコンピュータに実行させることを特徴とする請求項5に記載の音声処理プログラム。

請求項7

前記記憶部に記憶する伝達特性を算出する際、前記第1の周波数スペクトルと、前記第2の周波数スペクトルの各周波数成分振幅周波数成分毎に比較し、前記第1の周波数スペクトルが前記第2の周波数スペクトルの振幅より大きい周波数成分を特定し、特定した前記周波数成分が、振幅の大きさの比較を行った周波数成分に対して占める割合に応じて算出するかどうかを判定する処理をコンピュータに実行させることを特徴とする請求項1乃至6のいずれか一項に記載の音声処理プログラム。

請求項8

第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成し、前記第1の入力装置と前記第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性から算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御する、処理をコンピュータが実行することを特徴とする音声処理方法

請求項9

第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成する解析部と、前記第1の入力装置と前記第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記第1の周波数スペクトルと前記伝達特性から算出される結果に応じて、前記第2の周波数スペクトルのレベルを抑圧制御する制御部と、を有することを特徴とする音声処理装置

請求項10

3つ以上の入力装置それぞれに入力される音信号に対応する周波数スペクトルを生成し、前記複数の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記複数の周波数スペクトルと前記伝達特性から、複数の抑圧量を算出する、処理をコンピュータに実行させることを特徴とする音声処理プログラム。

請求項11

前記複数の抑圧量のうち、最大の値を示す抑圧量に基づいて、前記周波数スペクトルの抑圧を行う処理をコンピュータに実行させることを特徴とする請求項10に記載の音声処理プログラム。

請求項12

前記抑圧量を算出する際、前記複数の周波数スペクトルの大きさに応じて、抑圧量を調整する処理をコンピュータに実行させることを特徴とすることを特徴とする請求項10に記載の音声処理プログラム。

請求項13

3つ以上の入力装置それぞれに入力される音信号に対応する周波数スペクトルを生成し、前記複数の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記複数の周波数スペクトルと前記伝達特性から、複数の抑圧量を算出する、処理をコンピュータが実行することを特徴とする音声処理方法。

請求項14

3つ以上の入力装置それぞれに入力される音信号に対応する周波数スペクトルを生成する解析部と、前記複数の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、前記複数の周波数スペクトルと前記伝達特性から、複数の抑圧量を算出する算出部と、を有することを特徴とする音声処理方法。

技術分野

0001

本発明は音声処理プログラム音声処理方法及び音声処理装置に関する。

背景技術

0002

音声認識音声分析ニーズが高まり、話者が発した音声を正確に分析する技術が求められている。音声分析の技術の1つにバイナリマスキングという方法がある。バイナリマスキングでは、複数の入力装置で得られる音声それぞれについて周波数解析を行い、周波数成分毎信号レベルの大きさを比較して、信号レベルが大きい目的音の入力と小さい非目的音(目的音以外の雑音等)の入力の特定を行い、非目的音を除去することにより、目的音の分析を行う。

先行技術

0003

特開2009−20471号公報

発明が解決しようとする課題

0004

しかしながら、周辺環境が変化することによって、音声の周波数スペクトルに変化が生じて、目的音と非目的音の大小が逆転し、目的音と非目的音の分離精度が低下する場合があり、結果として音声分析を誤ることがある。

0005

一つの側面では、本発明は、音声分析の精度を向上することを目的とする。

課題を解決するための手段

0006

一つの実施態様では、第1の入力装置に入力される第1の音信号に対応する第1の周波数スペクトルと、第2の入力装置に入力される第2の音信号に対応する第2の周波数スペクトルを生成し、第1の入力装置と第2の入力装置それぞれに入力される同一の音源から発生する音に対応する音信号の関係を示す伝達特性を記憶する記憶部を参照し、第1の周波数スペクトルと伝達特性から算出される結果に応じて、第2の周波数スペクトルのレベル抑圧制御する。

発明の効果

0007

一つの側面では、音声の分析の精度を向上することができる。

図面の簡単な説明

0008

第1の実施形態に係る音声処理装置の構成例を示す図である。
第1の実施形態に係る音声処理装置の処理フローを示す図である。
抑圧ゲイン算出関数の例を示す図である。
第2の実施形態に係る音声処理装置の構成例を示す図である。
第2の実施形態に係る音声処理装置の処理フローを示す図である。
抑圧ゲイン算出関数の例を示す図である。
重み関数の例を示す図である。
音声処理装置のハードウェア構成例を示す図である。

発明を実施するための最良の形態

0009

以下、図面を参照しながら、第1の実施形態に係る音声処理装置100について説明する。

0010

第1の実施形態に係る音声処理装置100は、2つの入力装置から受信した音声信号を周波数解析し、各音声信号に対応する周波数スペクトルを生成する。音声処理装置100は、算出した周波数スペクトルについて周波数毎に信号レベルを比較し、その比較結果に基づいて、音声の入力状態を判定する。即ち、主に一方の装置から音声が入力される状態にあるか、2つの入力装置から音声が入力される状態にあるかを判定する。例えば、入力装置を2人の話者のそれぞれの近くに設置することで、一方の入力装置からの音声の入力に偏った状態である場合には、該当する入力装置側の話者が発話状態であると判断し、2つ入力装置からの音声の入力が同程度である場合には、2人の話者が発話状態であると判断する。なお、複数の話者の音声を1つの入力装置に対応させて受信しても良い。

0011

音声処理装置100は、主に一方の入力装置(ここでは、第1の入力装置とする)からの音声入力状態にあると判定した場合には、一方の入力装置から入力について生成した周波数スペクトル(X1)と、他方の入力装置(ここでは第2の入力装置とする)からの入力について生成した周波数スペクトル(X2)に基づいて、伝達特性(第1の伝達特性(H12=X2*X1−1))を求め、記憶部に記憶する。なお、予め、2つの入力装置間で受信した単一の音源に基づき、装置間の伝達特性を算出し、記憶しておき、記憶した伝達特性に基づいて上述の処理を行っても良い。または、主に他方の入力装置からの音声入力状態にあると判定した場合にも、他方の入力装置から入力について生成した周波数スペクトル(X2)と、一方の入力装置からの入力について生成した周波数スペクトル(X1)に基づいて、伝達特性(第2の伝達特性(H21=X1*X2−1))を求め、記憶部に記憶する。なお、周波数スペクトルに基づいてパワースペクトルを求め、パワースペクトルに基づいて伝達特性を求めることもできるが、依然として周波数スペクトルに基づいて伝達特性を求めているといえる。

0012

その後、音声処理装置100は、2つの入力装置から音声が入力される状態にあると判定した場合には、2つの入力装置の内の第1の入力装置に入力された音声信号に対応する周波数スペクトルと、第2の入力装置に入力された音声信号に対応する周波数スペクトルに記憶部に記憶された伝達特性(H21)を与えた周波数スペクトルとを比較する。音声処理装置100は、周波数スペクトルの比較結果に基づいて、第1の入力装置に入力される音声に対応する周波数スペクトルの抑圧量を算出する。即ち、各周波数について、第1の入力装置に入力された音声信号に対応する周波数スペクトルと、第2の入力装置に入力された音声信号に対応する周波数スペクトルに伝達特性を与えて得られる周波数スペクトルとの比較を周波数毎に行い、差が小さいほど抑圧量を大きくする方向に抑圧量を制御する。

0013

上述の処理を行うことにより、入力装置が配置された周辺環境の影響を含む伝達特性に応じて、音声処理を行うことができる。

0014

図1は第1の実施形態に係る音声処理装置100の構成例を示す図である。

0015

第1の実施形態に係る音声処理装置100は、入力部101、周波数解析部102、状態判別部103、雑音推定部104、算出部105、制御部106、変換部107、出力部108、記憶部109を有する。算出部105は伝達特性算出部105aとゲイン算出部105bを有する。

0016

入力部101は、この例では2つの入力装置(マイクロフォン)から音声を受信する。入力部101は、受信した音声をアナログデジタル変換器により音声信号へ変換する。既にアナログ/デジタル変換された信号を受信することとしてもよい。

0017

周波数解析部102は、入力部101でデジタル化した音声信号を音声スペクトルに変換する。周波数解析部102は、入力部101でデジタル化した音声信号を、所定長T(例えば10msec)の長さのフレーム単位に分割する。そして、周波数解析部102は、フレームごとに音声信号を周波数解析する。周波数解析部102は、例えば、短時間離散フーリエ変換(STFT:Short Time Fourier Transform)を行い、各音声信号をスペクトル変換する。ただし、音声信号を周波数に変換する方法は上述の方法に限定されない。また、周波数解析部102は、フレーム毎の周波数スペクトル信号から、周波数毎のパワースペクトルを算出する。

0018

状態判別部103は、2つの入力装置から入力を受け付けた音声信号が、主に一方の装置からの入力される状態であるか、2つの入力装置から入力される状態であるかを判別する。状態判別部103は、例えば、2つの入力装置から受信した周波数スペクトルのそれぞれの音声レベルを周波数毎に比較し、その大小関係に基づいて一方の装置からの入力によるものであるか、2つの入力装置からの入力によるものであるかを判別する。具体的には、全周波数に占める、他の入力装置よりも大きい音声レベルを有する周波数の割合により判別する。音声処理装置100は、算出した割合が、第1の割合より大きい、または、第2の割合(第1の割合>第2の割合)より小さい場合には入力された音声が主に一方の装置からの入力される状態であると判別し、その他の場合(第2の割合以上、第1の割合以下の場合)には、入力された音声が2つの入力装置からの入力によるものであると判別する。

0019

雑音推定部104は、周波数解析部102で算出した周波数スペクトルに含まれる雑音スペクトル推定を行う。雑音スペクトルとは、音声信号が入力装置に入力されていない場合に、入力装置が検出する信号に対応したスペクトルである。雑音スペクトルを算出する方法として、例えば、スペクトルサブトラクション法がある。ただし、雑音推定部104による雑音スペクトルの算出方法は前述のスペクトルサブトラクション法に限定されない。また、雑音推定部104は、周波数解析部で行った処理と同様の処理を行い、周波数毎の雑音のパワースペクトルを算出する。なお、雑音パワースペクトルは、後述するゲインの算出の際に利用することができる。

0020

算出部105の伝達特性算出部105aは、状態判別部103での判別の結果、一方の装置からの入力状態であると判別された場合に、2つの入力装置から受信した周波数スペクトルの大きさに基づき、伝達特性を算出する。

0021

算出部105のゲイン算出部105bは、入力部101で各入力装置から受信した音声信号のパワースペクトルと、状態判別部103での判別結果と、伝達関数算出部105aで算出した伝達関数とに基づき、各入力装置から入力された音声信号に対応する音声スペクトルに対するゲイン(抑圧のための調整量)を各周波数について算出する。また、ゲイン算出部105bは、平滑化関数を用いて、現在のフレームにおけるゲインと1フレーム前におけるゲインの平滑化を行い、平滑化ゲインを算出する。

0022

制御部106は、入力部101で入力装置から受信した音声信号の周波数スペクトルと、ゲイン算出部105bで算出した平滑化ゲインとに基づき出力スペクトルを算出する。

0023

変換部107は、出力スペクトルを短時間離散フーリエ逆変換し、出力信号に変換する。

0024

出力部108は、変換部107で変換した出力信号を出力する。

0025

記憶部109は、各機能部で算出した情報や処理に関する情報を記憶する。記憶部109は、具体的には、入力装置から入力された音声、入力部101で変換した音声信号、周波数解析部102で解析した周波数スペクトル、パワースペクトル、状態判別部103での判別結果、雑音推定部104で推定した周波数スペクトルやパワースぺクトル、算出部105で算出した伝達特性、ゲイン、平滑化ゲイン、制御部106で算出した出力スペクトル、変換部107で変換した出力信号等、各機能部で処理を行う際に必要な情報を適宜記憶する。

0026

次に、第1の実施形態に係る音声処理装置100の処理フローについて説明する。図2は第1の実施形態に係る音声処理装置100の処理フローを示す図である。

0027

例えば、2個の入力装置が存在し、第1の入力装置から音声信号x1(t)、第2の入力装置から音声信号x2(t)を受信した場合の処理について説明する。

0028

第1の実施形態に係る音声処理装置100は、入力部101で入力装置から音声信号x1(t)、x2(t)を受信(ステップS201)した後、周波数解析部102で、音声信号x1(t)、x2(t)を周波数解析して周波数スペクトルX1(f)、X2(f)を算出する(ステップS202)。fは周波数を示す。周波数解析の方法は、例えば、周波数解析部102で説明した短時間離散フーリエ変換を用いる。また、音声処理装置100の周波数解析部102は、フレーム毎の周波数スペクトル信号から、周波数毎のパワースペクトルPx1(f)、Px2(f)を算出する。音声スペクトルをパワースペクトルに変換する際の式を(数1)示す。
(数1)

0029

次に、音声処理装置100の状態判別部103は、2つの入力装置から入力を受け付けた音声信号が、主に一方の入力装置からの入力状態であるか、2つの入力装置からの入力状態であるかを判別する(ステップS203)。状態判別部103は、第1の入力装置に入力された音声信号の周波数スペクトルと、第2の入力装置に入力された音声信号の周波数スペクトルの周波数毎の音声レベルを比較し、第1の入力装置に入力された音声スペクトルが第2の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数を特定する。状態判別部103は、比較を行った全周波数に占める、第1の入力装置に入力された音声スペクトルが第2の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数の割合が、第1の割合より大きい場合には第1の入力装置からの入力によるもの(第1の入力装置が活性)であると判別し、第2の割合(第1の割合>第2の割合)より小さい場合には、第2の入力装置からの入力によるもの(第2の入力装置が活性)であると判別する。なお、第1の入力装置に入力された音声スペクトルが第2の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数の割合が、第2の割合以上、第1の割合以下の場合は、2つの入力装置からの入力状態であると判定する。

0030

音声処理装置100の雑音推定部104は、周波数解析部102で解析した音声スペクトルに含まれる雑音スペクトルN1(f)、N2(f)を例えば、スペクトルサブトラクション法により算出する。また、雑音推定部104は、上述の周波数解析部102で行った周波数スペクトルをパワースペクトルに変換する際と同様の処理を行い、雑音パワースペクトルPN1(f)、PN2(f)を算出する(ステップS204)。雑音スペクトルを雑音パワースペクトルに変換する際の式を(数2)に示す。
(数2)

0031

なお、ここで求めた雑音パワースペクトルは、ゲインの算出の際に利用される。

0032

次に、音声処理装置100の伝達特性算出部105aは、入力部101で受信した音声信号に対応する音声スペクトルと状態判別部103の判別結果と、第1の入力装置と第2の入力装置に入力される音声レベルに基づき、伝達特性の算出を行う(ステップS205)。音声処理装置100の伝達特性算出部105aは、状態判別部103で、入力信号が一方の装置からの入力によるものであると判別した場合に伝達関数を算出する。伝達特性算出部105aは、第1の入力装置から受信した音声信号の周波数スペクトルX1(f)の音声レベルが、第2の入力装置から受信した音声信号の周波数スペクトルX2(f)の音声レベルに比べ大きい場合に、第1の入力装置から受信した音声信号のパワースペクトルに対する第2の入力装置から受信した音声信号のパワースペクトルの伝達特性H12(t,f)を算出する。伝達特性H12(t,f)を算出する際の式を(数3)に示す。
(数3)

0033

音声処理装置100の伝達特性算出部105aは、伝達特性H12(t,f)を算出した後、フレーム間での伝達特性H12(t,f)の平滑化を行い、平滑化伝達特性を算出する(ステップS206)。平滑化を行うことにより、所定のフレームで急な雑音が発生し、本来の伝達特性に対し大きな変化が生じた場合でもその影響を抑制することができる。伝達特性算出部105aが平滑化伝達特性を算出する際の式を(数4)に示す。
(数4)

0034

一方、状態判別部103での判別の結果、一方の装置からの入力によるものである場合において、第2の入力装置から受信した音声信号の周波数スペクトルが第1の入力装置から受信した音声信号の周波数スペクトルに比べ、音声レベルが大きい場合には、伝達特性算出部105aは、下記の(数5)、(数6)に示す式に従って、第2の入力装置から受信した音声信号のパワースペクトルに対する第1の入力装置から受信した音声信号のパワースペクトルの伝達特性H21(t,f)と平滑化伝達特性を算出する。
(数5)

0035

(数6)

0036

ただし、伝達特性の平滑化は必ずしも行う必要はなく、例えば、フレーム間での音声の大きな変化が発生していない場合には処理を省略しても良い。

0037

続いて、音声処理装置100は、ゲイン算出部105bで抑圧ゲインGn(t,f)の算出を行う(ステップS207)。ゲイン算出部106は、複数の入力装置からの音声の活性の状態に応じて、抑圧ゲインGn(t,f)を算出する。活性の状態を判定する方法は、例えば、状態判別部103で判別した情報に基づき判定する。
第1の入力装置が活性している場合のゲインGn(t,f)の算出式を(数7)に示す。
(数7)

0038

続いて、第2の入力装置が活性している場合のゲインGn(t,f)の算出式を(数8)に示す。
(数8)

0039

音声処理装置100が、活性していない入力装置からの音声に対するゲインを入力信号のパワースペクトルと雑音信号のパワースペクトルの差分とするのは、活性していない入力装置からの音声を雑音信号のレベルまで小さくし、音声処理を行うためである。

0040

音声処理装置100は、状態判別部103での状態判別の結果、2つの入力装置からの入力状態である場合には、ゲイン算出部105bで図3に示すような関数を用い、ゲインを算出する。図3は抑圧ゲイン算出関数の例を示す図である。ただし、図3はあくまで一例であり、他の関数を利用して処理を行っても良い。ゲインGn(t,f)を算出する際の数式を(数9)に示す。
(数9)

0041

以下、図3に示すような関数を利用する理由について説明する。

0042

第1の入力装置に入力された音声スペクトルと、第2の入力装置に入力された音声スペクトルに伝達特性を付加した音声スペクトルとについて、各周波数成分についてのレベル差が小さい場合には、第1の入力装置に入力された音声が、第2の入力装置側から入力された音声に対応している可能性が高い。よって、第1の入力装置に入力された音声スペクトルの抑圧を行う必要があるため、抑圧量を大きくする。一方、スペクトルのレベル差が大きい場合には、第2の入力装置側からではなく、第1の入力装置側から入力された音声である可能性が高いため、抑圧量を小さくする。

0043

続いて、音声処理装置100のゲイン算出部105bは、抑圧ゲインに基づき平滑化ゲインを算出する(ステップS208)。
平滑化ゲインを算出する際の数式を(数10)に示す。
(数10)

0044

音声処理装置100の制御部106は、ゲイン算出部105bで算出した平滑化ゲインを用い、入力装置から入力を受け付けた音声に対応する周波数スペクトルに対する抑圧を行う(ステップS209)。
ゲインを付加し出力スペクトルY1(f)、Y2(f)を算出する際の数式を(数11)に示す。
(数11)

0045

そして、音声処理装置100の変換部107は、抑圧を行った出力スペクトルY1(f)、Y2(f)に対し、短時間離散フーリエ逆変換を行い、出力音声信号y1(t)、y2(t)を算出する(ステップS210)。

0046

音声処理装置100の出力部108は、変換部107で変換した出力音声信号y1(t)、y2(t)を出力し(ステップS211)、処理を終了する。

0047

続いて、第2の実施形態に係る音声処理装置100について説明する。

0048

第2の実施形態に係る音声処理装置100は、3つの入力装置から音声信号を受信した際の処理を行う。第2の実施形態における音声処理を行う際、複数の装置との伝達特性に基づき算出したゲインの内、大きい値を示すゲインに基づいて音声の抑圧を行うことにより、より正確な音声分析を行うことができる。

0049

図4は第2の実施形態に係る音声処理装置100の構成例を示す図である。

0050

第2の実施形態に係る音声処理装置100は、入力部301、周波数解析部302、状態判別部303、算出部304、制御部305、変換部306、出力部307、記憶部308を有し、算出部304は、伝達特性算出部304aとゲイン算出部304bを有する。入力部301、周波数解析部302、伝達特性算出部304a、制御部305、変換部306、出力部307、記憶部308は、第1の実施形態に係る音声処理装置100の構成における各機能部と同様の処理を行う。

0051

状態判別部303は、第1の実施形態と同様の処理を行い、受信した音声信号が主に1つの装置からの入力状態であるか複数(2つまたは3つ)の装置からの入力状態であるかを判別する。状態判別部303は、いずれかの特定の入力装置に入力された音声スペクトルが他の入力装置に入力された音声スペクトルよりも大きいレベルを示す周波数の、比較を行なった全周波数のうちの占める割合が第1の割合より大きい場合には、その特定の入力装置が活性であると判定し、第1の割合より小さい場合には、音声信号が複数の入力装置から入力されたものであると判別する。

0052

ゲイン算出部304bは、第1の実施形態と同様に、状態判別部303で判定した発話状態に応じて、抑圧ゲインの算出を行う。第2の実施形態では3つの入力装置から入力された音声の活性に応じて抑圧ゲインを算出する。また、ゲイン算出部304bは、重みづけ関数を用いてゲインに対し重みづけを行う。

0053

次に、第2の実施形態に係る音声処理装置100の処理フローについて説明する。図5は第2の実施形態に係る音声処理装置100の処理フローを示す図である。

0054

例えば、3個の入力装置が存在し、第1の入力装置から音声信号x1(t)、第2の入力装置から音声信号X2(f)、第3の入力装置から音声信号X3(f)を受信した場合の処理について説明する。

0055

第2の実施形態に係る音声処理装置100は、入力部301で入力装置から音声信号を受信(ステップS401)した後、周波数解析部302で、音声信号x1(t)、x2(t)、x3(t)を周波数解析して周波数スペクトルX1(f)、X2(f)、X3(f)を算出する(ステップS402)。fは周波数を示す。周波数解析の方法は、例えば、周波数解析部302で説明した短時間離散フーリエ変換を用いる。また、音声処理装置100の周波数解析部302は、フレーム毎の周波数スペクトル信号から、周波数毎のパワースペクトルPx1(f)、Px2(f)、Px3(f)を算出する。音声スペクトルをパワースペクトルに変換する際の式を(数12)示す。
(数12)

0056

次に、音声処理装置100の状態判別部303は、各入力装置から受信した音声信号の周波数スペクトルから入力装置に入力された音声が主に一つの装置からの入力によるものであるか複数の装置からの入力によるものであるかを判別する(ステップS403)。

0057

音声処理装置100の伝達特性算出部304aは、第1の入力装置と第2の入力装置と第3の入力装置とに入力される音声の活性の状態と音声レベルに基づき、伝達特性の算出を行い(ステップS404)、算出した伝達特性に基づき伝達特性の平滑化を行う(ステップS405)。伝達特性の算出方法と伝達特性の平滑化の方法は第1の実施形態と同様である。

0058

音声処理装置100のゲイン算出部304bは、状態判別部303で判別した発話状態が、単一話者である場合において、第1の入力装置から受信した音声信号の周波数スペクトルの音声レベルが、第2の入力装置、第3の入力装置から受信した音声信号の周波数スペクトルの音声レベルに比べ大きい場合には、(数13)に示すようにゲインGn(t,f)を設定する(ステップS406)。
(数13)

0059

音声処理装置100のゲイン算出部304bは、状態判別部303で判別した発話状態が単一話者である場合において、第2の入力装置、第3の入力装置から受信した音声信号が活性である場合には、上述の(数13)と同様に、それぞれ(数14)、(数15)に示すようにゲインGn(t,f)を算出する。
(数14)

0060

(数15)

0061

上述の式では、活性していない入力装置からの音声スペクトルに対する抑圧ゲインを一律で15dBとしているが、必ずしも15dBとする必要はなく、周辺環境に応じて設定するようにしても良い。

0062

音声処理装置100のゲイン算出部304bは、状態判別部303で判別した発話状態が複数話者である場合には他の入力装置と間の伝達特性と周波数解析部302で算出したパワースペクトルを用い、図6に示す関数に基づき、抑圧ゲインGn(t,f)を算出する。図6は抑圧ゲイン算出関数の例を示す図である。第1の入力装置、第2の入力装置、第3の入力装置それぞれの抑圧ゲインを算出する際の式を(数16)、(数17)、(数18)に示す。
(数16)

0063

(数17)

0064

(数18)

0065

続いて、ゲイン算出部304bは複数の周波数周波数のゲインを、重み関数に基づいて重みづけする(ステップS407)。重みづけを行う際の式を(数19)に示す。ゲイン算出部304bは、重み関数として、例えば、図7グラフのような関数を利用して算出する。図7は重み関数の例を示す図である。
(数19)

0066

図7に示す重み関数は、下記の(数20)の条件を満たすものとする。
(数20)

0067

音声処理装置100は、ゲイン算出部304bで算出した重みづけを行った抑制ゲインを用い、制御部305で、複数の入力装置から入力を受け付けた音声に対応する周波数スペクトルに対する抑圧ゲインの付加を行う(ステップS408)。
ゲインを付加し出力スペクトルYn(f)を算出する際の数式を(数21)に示す。
(数21)

0068

そして、音声処理装置100の変換部306は、抑圧を行った出力スペクトルY1(f)、Y2(f)、Y3(f)に対し、短時間離散フーリエ逆変換を行い、出力音声信号y1(t)、y2(t)、y3(t)を算出する(ステップS409)。
音声処理装置100の出力部307は、変換部306で変換した出力音声信号y1(t)、y2(t)、y3(t)を出力し(ステップS410)、処理を終了する。

0069

次に、第1と第2の実施の形態に係る音声処理装置100のハードウェア構成例について説明する。図8は音声処理装置100のハードウェア構成例を示す図である。
図8に示すように、音声処理装置100は、CPU(Central Processing Unit)501、メモリ主記憶装置)502、補助記憶装置503、I/O装置504、ネットワークインタフェース505がバス506を介して接続されている。

0070

CPU501は、音声処理装置100の全体の動作を制御する演算処理装置であり、第1の実施形態と第2の実施形態における周波数解析部や雑音推定部、算出部等の各機能の処理を制御する。

0071

メモリ502は、音声処理装置100の動作を制御するOS(Operating System)等のプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部であり、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)等である。

0072

補助記憶装置503は、例えば、ハードディスクフラッシュメモリなどの記憶装置であり、CPU501により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。

0073

I/O装置504は、入力装置からの音声の入力、マウスキーボードなどの入力デバイスを用いた音声処理装置100に対する指示やユーザが設定する値の入力等を受け付ける。また、抑圧を行った周波数スペクトル等の出力を外部の音声出力部に出力したり、記憶部に記憶したデータに基づいて生成した表示画像ディスプレイなどに出力する。

0074

ネットワークインタフェース505は、有線または無線により外部との間で行われる各種データのやりとりの管理を行うインタフェース装置である。

0075

バス506は、上記各装置を互いに接続し、データのやり取りを行う通信経路である。

0076

なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第1と第2の実施形態は上記に限定されず、論理的に可能な限りの組合せが可能である。

0077

100音声処理装置
101、301 入力部
102、302周波数解析部
103、303状態判別部
104雑音推定部
105、304 算出部
105a、304a伝達特性算出部
105b、304bゲイン算出部
106、305 制御部
107、306 変換部
108、307 出力部
109、308 記憶部
501 CPU
502メモリ(主記憶装置)
503補助記憶装置
504 I/O装置
505ネットワークインタフェース
506 バス

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • ソニー株式会社の「 情報処理装置および電子機器」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の... 詳細

  • グーグルエルエルシーの「 オーディオベースのコンピュータプログラム出力の修正」が 公開されました。( 2020/09/24)

    【課題・解決手段】音声または非テキスト入力アクティブ化環境においてコンピュータプログラム出力を修正することが提供される。システムは、デバイスのマイクロフォンによって検出されるオーディオ信号を受信するこ... 詳細

  • グーグルエルエルシーの「 ホットワード認識音声合成」が 公開されました。( 2020/09/24)

    【課題・解決手段】方法(400)は、合成音声(160)に変換するためのテキスト入力データ(302)を受信することと、ユーザデバイス(110)に割り当てられているホットワード(130)の存在を検出するよ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ