図面 (/)

技術 雑音抑圧装置、雑音抑圧方法及びプログラム

出願人 株式会社東芝
発明者 広畑誠木田祐介
出願日 2016年1月5日 (4年2ヶ月経過) 出願番号 2016-000494
公開日 2017年7月13日 (2年8ヶ月経過) 公開番号 2017-122769
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 周辺帯域 フィルタバンク処理 重み付き和 雑音抑圧信号 ウィーナーフィルタ サンプル系列 平均スペクトル 重み付け和
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年7月13日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

音響信号に含まれる雑音成分の過剰な抑圧を防ぐ。

解決手段

実施形態の雑音抑圧装置は、推定部と算出部と第1減衰部と第2減衰部と生成部とを備える。推定部は、音を示す第1音響信号の周波数帯域毎の特徴を示す特徴量から、特徴量の雑音成分を推定する。算出部は、特徴量と雑音成分とから、第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出する。第1減衰部は、第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を算出する。第2減衰部は、第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を算出する。生成部は、特徴量と第3抑圧係数とから、特徴量の音声成分を推定し、推定された音声成分から、第1音響信号に含まれる雑音が抑圧された第2音響信号を生成する。

概要

背景

音声認識及び映像制作等では、マイクロホンにより音が取得され、音響信号に変換されている。マイクロホンから出力される音響信号には、ユーザの音声を示す音声信号だけでなく、背景に流れる背景音雑音)が雑音信号として含まれている。音声信号と雑音信号とが混入した音響信号(入力信号)から雑音信号を抑圧する技術として、雑音抑圧技術が従来から知られている。

従来の雑音抑圧技術には、例えばスペクトルサブトラクション法及びウィーナーフィルタリング法等がある。スペクトルサブトラクション法は、非音声区間平均スペクトル雑音推定値仮定し、入力信号のスペクトルから雑音推定値を引いた値を雑音抑圧後のスペクトルとする雑音抑圧技術である。またウィーナーフィルタリング法は、雑音抑圧後のスペクトル、及び、入力信号のスペクトルの比から、入力信号から雑音信号を抑圧するための雑音抑圧係数導出し、入力信号に雑音抑圧係数を掛け合わせることで雑音抑圧信号を求める雑音抑圧技術である。

概要

音響信号に含まれる雑音成分の過剰な抑圧を防ぐ。実施形態の雑音抑圧装置は、推定部と算出部と第1減衰部と第2減衰部と生成部とを備える。推定部は、音を示す第1音響信号の周波数帯域毎の特徴を示す特徴量から、特徴量の雑音成分を推定する。算出部は、特徴量と雑音成分とから、第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出する。第1減衰部は、第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を算出する。第2減衰部は、第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を算出する。生成部は、特徴量と第3抑圧係数とから、特徴量の音声成分を推定し、推定された音声成分から、第1音響信号に含まれる雑音が抑圧された第2音響信号を生成する。

目的

また第1及び第2実施形態の雑音抑圧装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音を示す第1音響信号周波数帯域毎の特徴を示す特徴量から、前記特徴量の雑音成分を推定する推定部と、前記特徴量と前記雑音成分とから、前記第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出する算出部と、前記第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を算出する第1減衰部と、前記第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を算出する第2減衰部と、前記特徴量と前記第3抑圧係数とから、前記特徴量の音声成分を推定し、推定された音声成分から、前記第1音響信号に含まれる雑音が抑圧された第2音響信号を生成する生成部と、を備える雑音抑圧装置

請求項2

前記第1減衰部は、処理対象時刻よりも過去に算出された前記第2抑圧係数の重み付け和と、処理対象の時刻の前記第1抑圧係数と、のうち、小さい方の値に基づいて、処理対象の時刻の前記第2抑圧係数を算出する、請求項1に記載の雑音抑圧装置。

請求項3

前記第1減衰部は、前記特徴量の算出に使用される前記第1音響信号のフレームに含まれるサンプルの数が多いほど、前記第1抑圧係数を時間領域で減衰させる際の減衰量を小さくする、請求項1に記載の雑音抑圧装置。

請求項4

前記第2減衰部は、処理対象の周波数の周辺帯域で算出された前記第2抑圧係数の重み付け和と、処理対象の周波数の第2抑圧係数と、のうち、小さい方の値に基づいて、処理対象の周波数の前記第3抑圧係数を算出する、請求項1に記載の雑音抑圧装置。

請求項5

前記第2減衰部は、前記特徴量の算出に使用される前記第1音響信号のフレームに含まれるサンプルの数が多いほど、前記第2抑圧係数を周波数領域で減衰させる際の減衰量を小さくする、請求項1に記載の雑音抑圧装置。

請求項6

前記第3抑圧係数に、時間方向で平滑化する処理と、周波数方向で平滑化する処理とのうち、少なくとも一方の処理を行うことにより、第4抑圧係数を算出する平滑化部を更に備え、前記生成部は、前記特徴量と前記第4抑圧係数とから、前記特徴量の音声成分を推定し、推定された音声成分から、前記第1音響信号に含まれる雑音が抑圧された第2音響信号を生成する、請求項1に記載の雑音抑圧装置。

請求項7

前記第1音響信号を周波数分析することにより、前記第1音響信号の周波数帯域毎に前記特徴量を算出する特徴量算出部、を更に備える請求項1に記載の雑音抑圧装置。

請求項8

雑音抑圧装置が、音を示す第1音響信号の周波数帯域毎の特徴を示す特徴量から、前記特徴量の雑音成分を推定するステップと、雑音抑圧装置が、前記特徴量と前記雑音成分とから、前記第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出するステップと、雑音抑圧装置が、前記第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を算出するステップと、雑音抑圧装置が、前記第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を算出するステップと、雑音抑圧装置が、前記特徴量と前記第3抑圧係数とから、前記特徴量の音声成分を推定し、推定された音声成分から、前記第1音響信号に含まれる雑音が抑圧された第2音響信号を生成するステップと、を含む雑音抑圧方法

請求項9

コンピュータを、音を示す第1音響信号の周波数帯域毎の特徴を示す特徴量から、前記特徴量の雑音成分を推定する推定部と、前記特徴量と前記雑音成分とから、前記第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出する算出部と、前記第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を算出する第1減衰部と、前記第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を算出する第2減衰部と、前記特徴量と前記第3抑圧係数とから、前記特徴量の音声成分を推定し、推定された音声成分から、前記第1音響信号に含まれる雑音が抑圧された第2音響信号を生成する生成部、として機能させるためのプログラム

技術分野

0001

本発明の実施形態は雑音抑圧装置雑音抑圧方法及びプログラムに関する。

背景技術

0002

音声認識及び映像制作等では、マイクロホンにより音が取得され、音響信号に変換されている。マイクロホンから出力される音響信号には、ユーザの音声を示す音声信号だけでなく、背景に流れる背景音雑音)が雑音信号として含まれている。音声信号と雑音信号とが混入した音響信号(入力信号)から雑音信号を抑圧する技術として、雑音抑圧技術が従来から知られている。

0003

従来の雑音抑圧技術には、例えばスペクトルサブトラクション法及びウィーナーフィルタリング法等がある。スペクトルサブトラクション法は、非音声区間平均スペクトル雑音推定値仮定し、入力信号のスペクトルから雑音推定値を引いた値を雑音抑圧後のスペクトルとする雑音抑圧技術である。またウィーナーフィルタリング法は、雑音抑圧後のスペクトル、及び、入力信号のスペクトルの比から、入力信号から雑音信号を抑圧するための雑音抑圧係数導出し、入力信号に雑音抑圧係数を掛け合わせることで雑音抑圧信号を求める雑音抑圧技術である。

先行技術

0004

特許第4423300号公報
特開2010−102199号公報

発明が解決しようとする課題

0005

しかしながら従来の雑音抑圧技術では、入力信号に実際に含まれる雑音と雑音推定値との間に大きな誤差があったり、雑音抑圧係数に大きな変動があったりする場合、雑音成分の過剰な抑圧、及び、雑音成分の抑圧不足が生じる問題があった。すなわち従来の雑音抑圧技術では、ミュージカルノイズが発生したり、音が不自然になったりする等の出力音劣化を生じさせてしまう場合があった。

課題を解決するための手段

0006

実施形態の雑音抑圧装置は、推定部と算出部と第1減衰部と第2減衰部と生成部とを備える。推定部は、音を示す第1音響信号の周波数帯域毎の特徴を示す特徴量から、前記特徴量の雑音成分を推定する。算出部は、前記特徴量と前記雑音成分とから、前記第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出する。第1減衰部は、前記第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を算出する。第2減衰部は、前記第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を算出する。生成部は、前記特徴量と前記第3抑圧係数とから、前記特徴量の音声成分を推定し、推定された音声成分から、前記第1音響信号に含まれる雑音が抑圧された第2音響信号を生成する。

図面の簡単な説明

0007

第1実施形態の雑音抑圧装置の機能構成の例を示す図。
音響信号の例を示す図。
第1実施形態の第2抑圧係数の算出方法の例を示す概念図。
第1実施形態の第1抑圧係数及び第2抑圧係数の比較図。
第1実施形態の第3抑圧係数の算出方法の例を示す概念図。
第1実施形態の第2抑圧係数及び第3抑圧係数の比較図。
第1実施形態の雑音抑圧方法の例を示すフローチャート
第2実施形態の雑音抑圧装置の機能構成の例を示す図。
第2実施形態の雑音抑圧方法の例を示すフローチャート。
第1及び第2実施形態の雑音抑圧装置のハードウェア構成の例を示す図。

実施例

0008

以下に添付図面を参照して、雑音抑圧装置、雑音抑圧方法及びプログラムの実施形態を詳細に説明する。

0009

(第1実施形態)
図1は第1実施形態の雑音抑圧装置100の機能構成の例を示す図である。第1実施形態の雑音抑圧装置100は、特徴量算出部1、推定部2、第1抑圧係数算出部3、第1減衰部4、第2減衰部5及び生成部6を備える。

0010

特徴量算出部1は、音を示す音響信号を周波数分析し、当該音響信号の特徴を示す特徴量を、音響信号の周波数帯域毎に算出する。なお特徴量の算出の単位とする周波数帯域の大きさは任意に定めてよい。

0011

音響信号は、例えば16kHzでサンプリングされたデジタル信号である。音響信号には、ユーザの音声を示す音声信号だけでなく、雑音を示す雑音信号も含まれる。雑音信号は、ユーザにより音が取得された際の環境、音響信号の通信過程、及び、音響信号を処理する装置等の影響により生じる。

0012

なお音響信号の取得方法は任意でよい。雑音抑圧装置100は、例えばマイクを使用して音響信号を取得してもよい。また例えば、雑音抑圧装置100は、記憶装置に記憶された音響信号を読み取ることにより音響信号を取得してもよい。また例えば、雑音抑圧装置100は、有線又は無線通信装置を介して音響信号を受信することにより音響信号を取得してもよい。

0013

特徴量算出部1は、例えば以下のようにして特徴量を算出する。まず、特徴量算出部1は、音響信号を長さ128のサンプル、間隔64サンプルのフレームに分割する。次に、特徴量算出部1は、窓関数を各時刻のフレームに適用する。窓関数は、例えばハニング窓及びハミング窓等である。次に、特徴量算出部1は、窓関数が適用された各時刻のフレームから、周波数に関する特徴を示す特徴ベクトルを取得する。具体的には、特徴ベクトルの各成分のスカラー値が、当該スカラー値に対応する周波数帯域の特徴量を示す。

0014

なお特徴ベクトルは、各フレームのサンプル系列フーリエ変換して得られるスペクトル領域の特徴ベクトルとして算出されてもよいし、LPケプストラム及びMFCC等のケプストラム領域の特徴ベクトルとして算出されてもよい。

0015

特徴量算出部1は、周波数帯域毎に算出された特徴量を、推定部2、第1抑圧係数算出部3及び生成部6に入力する。

0016

推定部2は、特徴量算出部1から、周波数帯域毎に算出された特徴量を受け付けると、当該特徴量の雑音成分を推定する。なお雑音成分の推定方法は任意でよい。

0017

推定部2は、例えば雑音成分が時刻毎に変わらずに一定だと仮定して、雑音区間の特徴量の平均値を雑音成分として推定する。雑音区間は、例えば音声区間が検出された際に、音声区間として検出されなかった区間である。また例えば推定部2は、雑音成分が時刻毎に変動すると仮定して、カルマンフィルタを用いることにより、時刻毎に雑音成分を推定してもよい。また例えば推定部2は、雑音成分が時刻毎に変わらずに一定だと仮定して推定した雑音成分と、雑音成分が時刻毎に変動するとして仮定して推定した雑音成分との重み付き和により、雑音成分を推定してもよい。なお重みの付与の仕方は任意に定めてよい。

0018

推定部2は、雑音成分を示す雑音成分情報を第1抑圧係数算出部3に入力する。

0019

第1抑圧係数算出部3は、特徴量算出部1から、周波数帯域毎に算出された特徴量を受け付け、推定部2から雑音成分情報を受け付ける。第1抑圧係数算出部3は、特徴量と雑音成分とから、第1音響信号に含まれる雑音を抑圧する第1抑圧係数を周波数帯域毎に算出する。

0020

第1抑圧係数は、雑音を抑圧するために、特徴量に掛け合わせる係数である。なお第1抑圧係数の決定方法は任意でよい。

0021

第1抑圧係数は、例えば音声成分Mと特徴量Xとの比M/Xである。ここで第1抑圧係数算出部3は、例えばスペクトルサブトラクション法により特徴量Xから雑音成分Bの値を引くことにより、音声成分M=X−Bを推定する。また例えば、第1抑圧係数算出部3は、音声成分Mと雑音成分Bとを別々に推定し、M=X−Bが成立しなければ、第1抑圧係数をM/(M+B)としてもよい。

0022

また特徴量算出部1が、フーリエ変換だけでなく、フィルタバンク処理等により細分化された周波数帯域の状態から、より広い周波数帯域を代表する特徴量を算出する処理をしていた場合、第1抑圧係数算出部3は、再び細分化する処理を行ってもよい。すなわち第1抑圧係数算出部3は、フィルタバンク処理の逆変換等により、周波数帯域を再び細分化し、細分化された音声成分M、及び、細分化された雑音成分Bを用いて第1抑圧係数を算出してもよい。

0023

第1抑圧係数算出部3は、音響信号の周波数帯域毎に算出された第1抑圧係数を、第1減衰部4に入力する。

0024

第1減衰部4は、第1抑圧係数算出部3から、音響信号の周波数帯域毎に算出された第1抑圧係数を受け付けると、第1抑圧係数を時間領域で減衰させることにより、第2抑圧係数を、音響信号の周波数帯域毎に算出する。第2抑圧係数の具体的な算出方法の例は後述する。第1減衰部4は、音響信号の周波数帯域毎に算出された第2抑圧係数を第2減衰部5に入力する。

0025

第2減衰部5は、第1減衰部4から、音響信号の周波数帯域毎に算出された第2抑圧係数を受け付けると、第2抑圧係数を周波数領域で減衰させることにより、第3抑圧係数を、音響信号の周波数帯域毎に算出する。第3抑圧係数の具体的な算出方法の例は後述する。第2減衰部5は、音響信号の周波数帯域毎に算出された第3抑圧係数を生成部6に入力する。

0026

生成部6は、特徴量算出部1から、音響信号の周波数帯域毎に算出された特徴量を受け付け、第2減衰部5から、音響信号の周波数帯域毎に算出された第3抑圧係数を受け付けると、特徴量と第3抑圧係数とから、雑音が抑圧された音響信号を生成する。具体的には、生成部6は、特徴量に第3抑圧係数を掛け合せることにより、特徴量の音声成分を推定する。そして生成部6は、推定された音声成分を音響信号に変換する処理を行うことにより、雑音が抑圧された音響信号を生成する。

0027

推定された音声成分を音響信号に変換する処理は、例えば逆フーリエ変換等の処理である。なお生成部6は、音響信号の連続性を保つために、ハニング窓又はハミング窓に基づいて設計された窓関数を適用する処理を行ってもよいし、前フレームとオーバーラップしている部分は、それぞれのフレームの音響信号の和をとる処理を行ってもよい。

0028

次に第2抑圧係数及び第3抑圧係数の具体的な算出方法について説明する。

0029

図2は音響信号20の例を示す図である。図2(a)の例は、音響信号20に、非音声区間21、音声区間22、ショートポーズ23、音声区間24及び非音声区間25が含まれる場合を示す。図2(b)は、音響信号20を周波数で表した場合を示す。

0030

第1減衰部4は、第1抑圧係数算出部3により、音響信号20の周波数帯域毎に算出された第1抑圧係数を、時間方向26の関数とみなし、時間領域で減衰させる。第2減衰部5は、第1減衰部4により第1抑圧係数から算出された第2抑圧係数を、周波数方向27の関数とみなし、周波数領域で減衰させる。

0031

まず第2抑圧係数の算出方法について説明する。

0032

図3Aは第1実施形態の第2抑圧係数R2tの算出方法の例を示す概念図である。第1減衰部4は、音響信号の周波数帯域毎に算出された第1抑圧係数R1tを減衰させることにより、第2抑圧係数R2tを算出する。図3Aは、第1抑圧係数R1t1の値を示す点41、時刻t1よりも過去の第2抑圧係数R2tの値(例えば点43及び点44)に基づいて、第2抑圧係数R2t1の値を示す点51が算出される例を概念的に示す。また図3Aは、第1抑圧係数R1t2の値を示す点42、時刻t2よりも過去の第2抑圧係数R2tの値(例えば点45及び点46)に基づいて、第2抑圧係数R2t2の値を示す点52が算出される例を概念的に示す。

0033

具体的には、まず、第1減衰部4は、過去のN個のフレームで算出された第2抑圧係数R2tの重み付き和R2aを算出する。

0034

なお重み付き和R2aの算出方法は任意でよい。第1減衰部4は、例えば処理対象の時刻tに近いフレームで算出された第2抑圧係数R2tほど、重みが大きくなるようにして重みを付与してもよい。

0035

なお第1減衰部4は、重み付き和R2aの算出に必要な過去のN個のフレームがない場合、過去のN個のフレームが取得可能となる時刻tから処理を開始する。

0036

また重み付き和R2aの算出に使用されるフレームの数Nは任意でよい。例えばN=1とし、重み付き和R2aを、時刻t−1の第2抑圧係数R2t−1とすることもできる。また、1フレームに含まれるサンプルの数に応じて、重み付き和R2aの算出に使用されるフレームの数Nを変更してもよい。例えば1フレームに含まれるサンプルの数が少ないほど、重み付き和R2aの算出に使用されるフレームの数Nを多くしてもよい。

0037

次に、第1減衰部4は、重み付き和R2aと第1抑圧係数R1tのうち、小さい方の値により、最小値R1minを算出する。

0038

次に、第1減衰部4は、最小値R1minと、処理対象の時刻の第1抑圧係数R1tと、のうち、小さい方の値に基づいて、処理対象の時刻の第2抑圧係数R2tを算出する。第1減衰部4は、例えば下記式(1)による重み付き和により第2抑圧係数R2tを算出する。

0039

αR1min+(1−α)R1t ・・・(1)

0040

なおαの値の範囲は、0<α<1である。またαの値は1フレームに含まれるサンプルの数に応じて変更してもよい。例えば1フレームに含まれるサンプルの数が少ないほど、αの値を大きくしてもよい。言い換えると、1フレームに含まれるサンプルの数が多いほど、αの値を小さくしてもよい。これにより第1減衰部4は、1フレームに含まれるサンプルの数が多いほど、第1抑圧係数R1tを時間領域で減衰させる際の減衰量を小さくすることができるので、過剰な減衰を防ぐことができる。

0041

図3Bは第1実施形態の第1抑圧係数R1t及び第2抑圧係数R2tの比較図である。上述の式(1)による重み付き和により、第1抑圧係数R1tよりも値が減衰された第2抑圧係数R2tが算出される。

0042

次に第3抑圧係数の算出方法について説明する。

0043

図4Aは第1実施形態の第3抑圧係数R3fの算出方法の例を示す概念図である。第2減衰部5は、音響信号の周波数帯域毎に、時間領域の関数として算出された第2抑圧係数R2tを、周波数領域の関数として表された第2抑圧係数R2fに変換し、当該第2抑圧係数R2fを減衰させることにより、第3抑圧係数R3fを算出する。図4Aは、第2抑圧係数R2f1の値を示す点61、周波数f1周辺の第2抑圧係数R2fの値(例えば点63及び点64)に基づいて、第3抑圧係数R3f1の値を示す点71が算出される例を概念的に示す。また図3Aは、第2抑圧係数R2f2の値を示す点62、周波数f2周辺の第2抑圧係数R2fの値(例えば点65及び点66)に基づいて、第3抑圧係数R3f2の値を示す点72が算出される例を概念的に示す。

0044

具体的には、まず、第2減衰部5は、処理対象の周波数fの周辺帯域の第2抑圧係数R2fの重み付き和R2bを算出する。第2減衰部5は、例えば周波数fの低域側のNlow個のフレームで算出された第2抑圧係数R2lowと、周波数fの高域側のNhigh個のフレームで算出された第2抑圧係数R2highと、の重み付き和R2bを算出する。

0045

なおNlow及びNhighは任意に定めてよい。例えば図4Aの概念図の例では、Nlow=2、Nhigh=0である。また、1フレームに含まれるサンプルの数に応じて、重み付き和R2bの算出に使用されるNlow及びNhighの数を変更してもよい。例えばサンプルの数が少ないほど、重み付き和R2bの算出に使用されるフレームの数Nlow及びNhighを多くしてもよい。

0046

また重み付き和R2bの算出方法は任意でよい。第2減衰部5は、例えば処理対象の周波数fに近い第2抑圧係数R2fほど、重みが大きくなるようにして重みを付与してもよい。

0047

次に、第2減衰部5は、重み付き和R2bと第2抑圧係数R2fのうち、小さい方の値により、最小値R2minを算出する。

0048

次に、第2減衰部5は、最小値R2minと、処理対象の周波数の第2抑圧係数R2fと、のうち、小さい方の値に基づいて、処理対象の周波数の第3抑圧係数R3fを算出する。第2減衰部5は、例えば下記式(2)による重み付き和により第3抑圧係数R3fを算出する。

0049

βR2min+(1−β)R2f ・・・(2)

0050

なおβの値の範囲は、0<β<1である。またβの値は1フレームに含まれるサンプルの数に応じて変更してもよい。例えば1フレームに含まれるサンプルの数が少ないほど、βの値を大きくしてもよい。言い換えると、1フレームに含まれるサンプルの数が多いほど、βの値を小さくしてもよい。これにより第2減衰部5は、1フレームに含まれるサンプルの数が多いほど、第2抑圧係数R2fを周波数領域で減衰させる際の減衰量を小さくすることができるので、過剰な減衰を防ぐことができる。

0051

図4Bは第1実施形態の第2抑圧係数R2f及び第3抑圧係数R3fの比較図である。上述の式(2)による重み付き和により、第2抑圧係数R2fよりも値が減衰された第3抑圧係数R3fが算出される。

0052

ここで上述の図2の音響信号20を例にして、第1実施形態の雑音抑圧装置100の効果について説明する。

0053

従来の雑音抑圧技術では、例えば音声区間22からショートポーズ23に移行する際、及び、音声区間24から非音声区間25に移行する際に、第1抑圧係数R1tを急に増幅させた場合、雑音の抑圧量を高める反面、不自然さが生じる問題がある。しかしながら、第1抑圧係数R1tの平滑化等の単純な処理では、音声区間22及び24の冒頭の第1抑圧係数R1tを逆に高めてしまうことにより、音響信号20の音声成分を失うことになる。

0054

第1実施形態の雑音抑圧装置100によれば、図3A及び図3Bに示すように、過去の第2抑圧係数R2tに基づいて第2抑圧係数R2tを減衰させるため、音声成分を失うような第2抑圧係数R2tの増幅を起こさないので、第2抑圧係数R2tを滑らかに変動させることができる。これにより、音声区間22からショートポーズ23に移行する際、及び、音声区間24から非音声区間25に移行する際の不自然さを改善することができる。

0055

また、周波数軸方向での変動も、雑音抑圧後の音響信号の自然性劣化に繋がるが、第1実施形態の雑音抑圧装置100によれば、図4A及び図4Bに示すように、周辺帯域の第2抑圧係数R2fに基づいて第3抑圧係数R3fを減衰させるため、音声成分を失うことなく、雑音抑圧後の音響信号の自然性を改善することができる。

0056

次に、第1実施形態の雑音抑圧方法の例について説明する。

0057

図5は第1実施形態の雑音抑圧方法の例を示すフローチャートである。はじめに、特徴量算出部1が、処理対象の音響信号として、1フレーム分の音響信号(例えば128サンプル)を取得し、当該音響信号の周波数帯域毎に、当該音響信号の特徴を示す特徴量を取得する(ステップS1)。

0058

次に、推定部2が、特徴量算出部1から、周波数帯域毎に算出された特徴量を受け付けると、当該特徴量の雑音成分を推定する(ステップS2)。

0059

次に、第1抑圧係数算出部3が、ステップS1の処理で算出された特徴量と、ステップS2の処理で推定された雑音成分とから、第1音響信号に含まれる雑音を抑圧する第1抑圧係数R1tを周波数帯域毎に算出する(ステップS3)。

0060

次に、第1減衰部4が、過去のN個のフレームで算出された第2抑圧係数R2tの重み付き和R2aを算出する(ステップS4)。

0061

次に、第1減衰部4が、重み付き和R2aと第1抑圧係数R1tとから、第2抑圧係数R2tを、音響信号の周波数帯域毎に算出する(ステップS5)。具体的には、第1減衰部4は、重み付き和R2aと第1抑圧係数R1tのうち、小さい方の値により、最小値R1minを算出する。次に、第1減衰部4は、上述の式(1)による重み付き和により第2抑圧係数R2tを算出する。

0062

次に、第2減衰部5が、周波数fの周辺帯域の第2抑圧係数R2fの重み付き和R2bを算出する(ステップS6)。具体的には、第2減衰部5は、音響信号の周波数帯域毎に、時間領域の関数として算出された第2抑圧係数R2tを、周波数領域の関数として表された第2抑圧係数R2fに変換する。そして第2減衰部5は、周波数fの低域側のNlow個のフレームで算出された第2抑圧係数R2lowと、周波数fの高域側のNhigh個のフレームで算出された第2抑圧係数R2highと、の重み付き和R2bを算出する。

0063

次に、第2減衰部5が、重み付き和R2bと第2抑圧係数R2fとから、第3抑圧係数R3fを、音響信号の周波数帯域毎に算出する(ステップS7)。具体的には、第2減衰部5は、重み付き和R2bと第2抑圧係数R2fのうち、小さい方の値により、最小値R2minを算出する。次に、第2減衰部5は、上述の式(2)による重み付き和により第3抑圧係数R3fを算出する。

0064

次に、生成部6が、ステップS1の処理で音響信号の周波数帯域毎に算出された特徴量と、ステップS7の処理で周波数領域の関数として算出された第3抑圧係数R3fとから、特徴量の音声成分を推定する(ステップS8)。具体的には、生成部6は、周波数領域の関数として算出された第3抑圧係数R3fを、時間領域の関数として表された第3抑圧係数R3tに変換する。そして生成部6は、ステップS1の処理で音響信号の周波数帯域毎に算出された特徴量に、音響信号の周波数帯域毎に算出された第3抑圧係数R3tを掛け合せることにより、特徴量の音声成分を推定する。

0065

次に、生成部6は、ステップS8の処理で推定された音声成分を、音響信号に変換する処理を行うことにより、雑音が抑圧された音響信号を生成する(ステップS9)。次に、特徴量算出部1が、音響信号を全て処理したか否かを判定する(ステップS10)。音響信号を全て処理していない場合(ステップS10、No)、処理はステップS1に戻る。音響信号を全て処理した場合(ステップS10、Yes)、処理は終了する。

0066

以上、説明したように、第1実施形態の雑音抑圧装置100では、第1抑圧係数算出部3が、特徴量算出部1により算出された特徴量と、推定部2により推定された雑音成分とから、音響信号に含まれる雑音を抑圧する第1抑圧係数R1tを、周波数帯域毎に算出する。第1減衰部4は、第1抑圧係数R1tを時間領域で減衰させることにより、第2抑圧係数R2tを算出する。第2減衰部5は、第2抑圧係数R2fを周波数領域で減衰させることにより、第3抑圧係数R3fを算出する。そして生成部6が、特徴量と第3抑圧係数R3tとから、特徴量の音声成分を推定し、推定された音声成分から、雑音が抑圧された音響信号を生成する。

0067

これにより第1実施形態の雑音抑圧装置100によれば、過剰な雑音抑圧を改善することができるので、音声成分の抑圧を防ぐことができ、聞き取りやすい音響信号を生成することができる。例えば、第1実施形態の雑音抑圧装置100により雑音が抑圧された音響信号を、音声認識装置に入力することにより、雑音の影響を取り除いた音声認識処理を行うことができる。また例えば、携帯電話等を用いた音声通話の際に、第1実施形態の雑音抑圧装置100により雑音が抑圧された音声を再生することにより、音声を聴き取り易くすることができる。

0068

(第2実施形態)
次に第2実施形態について説明する。第2実施形態の雑音抑圧装置100は、平滑化部7を更に備える点が、第1実施形態の雑音抑圧装置100と異なる。第2実施形態の説明では、第1実施形態と同様の説明については省略する。

0069

図6は第2実施形態の雑音抑圧装置100の機能構成の例を示す図である。第2実施形態の雑音抑圧装置100は、特徴量算出部1、推定部2、第1抑圧係数算出部3、第1減衰部4、第2減衰部5、生成部6及び平滑化部7を備える。特徴量算出部1、推定部2、第1抑圧係数算出部3及び第1減衰部4の動作の説明は、第1実施形態と同じなので省略する。第2実施形態の第2減衰部5は、第1実施形態と同じ方法で第3抑圧係数R3fを算出し、当該第3抑圧係数R3fを平滑化部7に入力する。

0070

平滑化部7は、時間領域の関数として表された第3抑圧係数R3tを時間平滑化する処理(時間方向で平滑化する処理)を行うことにより、第4抑圧係数R4tを算出する。また平滑化部7は、周波数領域の関数として表された第3抑圧係数R3fを周波数平滑化する処理(周波数方向で平滑化する処理)を行うことにより、第4抑圧係数R4fを算出する。

0071

なお時間平滑化の処理及び周波数平滑化の処理の順序は任意でよい。また時間平滑化の処理及び周波数平滑化の処理は、少なくともどちらか一方が実施されればよい。また時間平滑化の処理及び周波数平滑化の処理の実行回数は任意でよい。

0072

まず時間平滑化の処理について具体的に説明する。平滑化部7は、処理対象の時刻t1の第3抑圧係数R3t1と、処理対象の時刻t1よりも過去の時刻tに算出された第3抑圧係数R3tと、の重み付き和により、時刻t1の第4抑圧係数R4t1を算出する。

0073

なお重みの付け方は任意でよい。平滑化部7は、例えば処理対象の時刻t1に近いフレームで算出された第3抑圧係数R3tほど、重みが大きくなるようにして重みを付与してもよい。

0074

また平滑化部7は、処理対象の時刻t1よりも過去の時刻tに算出された第3抑圧係数R3tではなく、処理対象の時刻t1よりも過去の時刻tに算出された第4抑圧係数R4tを使用して、時刻t1の第4抑圧係数R4t1を算出してもよい。

0075

次に周波数平滑化の処理について具体的に説明する。平滑化部7は、処理対象の周波数f1の第3抑圧係数R3f1と、処理対象の周波数f1の低域及び高域の周波数fで算出された第3抑圧係数R3fと、の重み付き和により、周波数f1の第4抑圧係数R4f1を算出する。

0076

なお重みの付け方は任意でよい。平滑化部7は、例えば処理対象の周波数f1に近い第3抑圧係数R3fほど、重みが大きくなるようにして重みを付与してもよい。

0077

また平滑化部7は、処理対象の周波数f1の低域及び高域の周波数fで算出された第3抑圧係数R3fではなく、処理対象の周波数f1の低域及び高域の周波数fで算出された第4抑圧係数R4fを使用して、周波数f1の第4抑圧係数R4f1を算出してもよい。なお平滑化部7は、時間平滑化の処理の後に周波数平滑化の処理を行う場合、時間平滑化の処理により得られた第4抑圧係数R4tを、周波数領域の関数に変換した第4抑圧係数R4fに対して、周波数平滑化の処理を行う。

0078

次に、第2実施形態の雑音抑圧方法の例について説明する。

0079

図7は第2実施形態の雑音抑圧方法の例を示すフローチャートである。ステップS21〜ステップS27の説明は、第1実施形態の雑音抑圧方法のステップS1〜ステップS7の説明(図5参照)と同じなので省略する。

0080

平滑化部7は、時間領域の関数として表された第3抑圧係数R3tを、上述の方法により時間平滑化する処理を行うことにより、第4抑圧係数R4tを算出する(ステップS28)。

0081

次に、平滑化部7は、ステップS28で得られた第4抑圧係数R4tを、周波数領域の関数として表された第4抑圧係数R4fに変換し、当該第4抑圧係数R4fを周波数平滑化する処理を行う(ステップS29)。

0082

次に、生成部6が、ステップS21の処理で音響信号の周波数帯域毎に算出された特徴量と、ステップS29の処理で周波数領域の関数として算出された第4抑圧係数R4fとから、特徴量の音声成分を推定する(ステップS30)。具体的には、生成部6は、周波数領域の関数として算出された第4抑圧係数R4fを、時間領域の関数として表された第4抑圧係数R4tに変換する。そして生成部6は、ステップS21の処理で音響信号の周波数帯域毎に算出された特徴量に、音響信号の周波数帯域毎に算出された第4抑圧係数R4tを掛け合せることにより、特徴量の音声成分を推定する。

0083

ステップS31及びステップS32の説明は、第1実施形態の雑音抑圧方法のステップS9及びステップS10の説明(図5参照)と同じなので省略する。

0084

以上、説明したように、第2実施形態の雑音抑圧装置100では、平滑化部7が、時間方向で平滑化する処理と、周波数方向で平滑化する処理とのうち、少なくとも一方の処理を行うことにより、第4抑圧係数R4tを算出する。そして、生成部6が、音響信号の特徴量と、第4抑圧係数R4tとから、音響信号の特徴量の音声成分を推定し、推定された音声成分から、雑音が抑圧された音響信号を生成する。

0085

これにより第2実施形態の雑音抑圧装置100によれば、第4抑圧係数R4t(第4抑圧係数R4f)は時間方向(周波数方向)により滑らかに変動するため、第1実施形態の雑音抑圧装置100の効果に加え、より自然性の高い音響信号を生成することができる。

0086

最後に第1及び第2実施形態の雑音抑圧装置100のハードウェア構成の例について説明する。

0087

図8は第1及び第2実施形態の雑音抑圧装置100のハードウェア構成の例を示す図である。第1及び第2実施形態の雑音抑圧装置100は、制御装置201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205、通信装置206及びマイク207を備える。制御装置201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205、通信装置206及びマイク207は、バス208を介して接続されている。

0088

制御装置201は補助記憶装置203から主記憶装置202に読み出されたプログラムを実行する。主記憶装置202はROM及びRAM等のメモリである。補助記憶装置203はメモリカード及びSSD(Solid State Drive)等である。

0089

表示装置204は情報を表示する。表示装置204は、例えば液晶ディスプレイである。入力装置205は、情報の入力を受け付ける。入力装置205は、例えばキーボード及びマウス等である。なお表示装置204及び入力装置205は、表示機能入力機能とを兼ねる液晶タッチパネル等でもよい。通信装置206は他の装置と通信する。マイク207は周囲の音を取得する。

0090

第1及び第2実施形態の雑音抑圧装置100で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルCD−ROM、メモリカード、CD−R及びDVD(Digital Versatile Disk)等のコンピュータ読み取り可能な記憶媒体に記憶されてコンピュータ・プログラム・プロダクトとして提供される。

0091

また第1及び第2実施形態の雑音抑圧装置100で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また第1及び第2実施形態の雑音抑圧装置100が実行するプログラムを、ダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

0092

また第1及び第2実施形態の雑音抑圧装置100で実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。

0093

第1及び第2実施形態の雑音抑圧装置100で実行されるプログラムは、上述の第1及び第2実施形態の雑音抑圧装置100の機能構成のうち、プログラムにより実現可能な機能を含むモジュール構成となっている。

0094

プログラムにより実現される機能は、制御装置201が補助記憶装置203等の記憶媒体からプログラムを読み出して実行することにより、プログラムにより実現される機能が主記憶装置202にロードされる。すなわちプログラムにより実現される機能は、主記憶装置202上に生成される。

0095

なお第1及び第2実施形態の雑音抑圧装置100の機能の一部又は全部を、IC(IntegratedCircuit)等のハードウェアにより実現してもよい。

0096

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

0097

1特徴量算出部
2推定部
3 第1抑圧係数算出部
4 第1減衰部
5 第2減衰部
6 生成部
7平滑化部
100雑音抑圧装置
201制御装置
202主記憶装置
203補助記憶装置
204表示装置
205入力装置
206通信装置
207マイク
208 バス

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ