図面 (/)

技術 音声信号処理装置、音声信号処理方法及びプログラム

出願人 富士通株式会社
発明者 松尾直司
出願日 2015年9月28日 (4年5ヶ月経過) 出願番号 2015-190254
公開日 2017年4月6日 (2年11ヶ月経過) 公開番号 2017-067862
状態 特許登録済
技術分野 音声認識 音声の分析・合成
主要キーワード スマートデバイス 加法性雑音 雑音抑制 背景雑音信号 ゲインα 車載電子機器 非発話区間 発話区間検出
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年4月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

音声認識率を向上させるために、音声の発話区間終端を適切に判定することができるように音声の雑音を抑制することを可能とする。

解決手段

発話区間検出部(11)は音声信号の発話区間を検出する。抑制部(12)は音声信号の雑音を抑制する。補正部(13)は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。

概要

背景

電子機器ユーザインターフェイスとして音声の利用が増加しきている。電子機器のユーザインターフェイスとして利用される場合、音声は、一般的に、音声を認識するアプリケーションで認識される。音声を認識するアプリケーションにおける音声の認識率を向上させるために、アプリケーションに入力される音声に対して雑音の抑制が行われる。例えば、周波数軸上で帯域毎音源方向の検出を行い、音源方向が雑音抑制範囲である場合に雑音を抑制する技術が存在する。

概要

音声の認識率を向上させるために、音声の発話区間終端を適切に判定することができるように音声の雑音を抑制することを可能とする。発話区間検出部(11)は音声信号の発話区間を検出する。抑制部(12)は音声信号の雑音を抑制する。補正部(13)は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。

目的

本発明は、1つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声信号発話区間を検出する発話区間検出部と、前記音声信号の雑音を抑制する抑制部と、前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、を含む音声信号処理装置

請求項2

前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、請求項1に記載の音声信号処理装置。

請求項3

前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、請求項1に記載の音声信号処理装置。

請求項4

前記音声信号を入力する複数の音声入力部を含み、前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、請求項1〜請求項3の何れか1項に記載の音声信号処理装置。

請求項5

プロセッサが、音声信号の発話区間を検出し、前記音声信号の雑音を抑制し、検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、音声信号処理方法

請求項6

音声信号の発話区間を検出し、前記音声信号の雑音を抑制し、検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、音声信号処理をプロセッサに実行させるためのプログラム

技術分野

0001

本発明は、音声信号処理装置音声信号処理方法及びプログラムに関する。

背景技術

0002

電子機器ユーザインターフェイスとして音声の利用が増加しきている。電子機器のユーザインターフェイスとして利用される場合、音声は、一般的に、音声を認識するアプリケーションで認識される。音声を認識するアプリケーションにおける音声の認識率を向上させるために、アプリケーションに入力される音声に対して雑音の抑制が行われる。例えば、周波数軸上で帯域毎音源方向の検出を行い、音源方向が雑音抑制範囲である場合に雑音を抑制する技術が存在する。

先行技術

0003

特開2007−318528号公報

発明が解決しようとする課題

0004

しかしながら、雑音を過度に抑制すると音声に歪みが生じ、後段音声認識で認識率が低下し、雑音の抑制が不十分であると、ユーザが発話している区間である発話区間が適切に検出されず、後段の音声認識で認識率が低下する。

0005

本発明は、1つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを目的とする。

課題を解決するための手段

0006

1つの実施形態では、発話区間検出部は、音声信号の発話区間を検出する。抑制部は、音声信号に混じる雑音を抑制する。補正部は、発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部による抑制量が他の区間より大きくなるように補正する。

発明の効果

0007

1つの側面として、音声の発話区間の終端を適切に判定することができるように音声の雑音を抑制することを可能とする。

図面の簡単な説明

0008

第1〜第4実施形態に係る音声信号処理装置の要部機能の一例を示すブロック図である。
第1〜第3実施形態に係る音声信号処理装置の電気系の構成の一例を示すブロック図である。
第1〜第3実施形態に係る音声信号処理の一例を説明するためのイメージ図である。
第1〜第4実施形態に係る音声信号処理の抑制増大区間及び抑制用ゲインを説明するためのイメージ図である。
第1及び第4実施形態に係る音声信号処理の流れの一例を示すフローチャートである。
第2実施形態に係る音声信号処理の流れの一例を示すフローチャートである。
第3実施形態に係る音声信号処理の流れの一例を示すフローチャートである。
第3実施形態に係る抑制用ゲインの取得方法の一例を説明するためのイメージ図である。
第4実施形態に係る音声信号処理装置の電気系の構成の一例を示すブロック図である。
第4実施形態に係る音声信号処理の一例を説明するためのイメージ図である。

実施例

0009

[第1実施形態]
以下、図面を参照して実施形態の一例である第1実施形態を詳細に説明する。

0010

図1に示す音声信号処理装置10は、発話区間検出部11、抑制部12及び補正部13を含む。発話区間検出部11は、音声信号の発話区間を検出する。抑制部12は、音声信号の雑音を抑制する。補正部13は、発話区間検出部11で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、発話区間の終端を基準とした位置から所定期間の間、抑制部12による抑制量が他の区間より大きくなるように補正する。

0011

音声信号処理装置10は、一例として、図2に示すように、プロセッサの一例であるCPU(Central Processing Unit)31、一次記憶部32、二次記憶部33及びマイク35を含む。CPU31、一次記憶部32、二次記憶部33及びマイク35は、バス36を介して相互に接続されている。なお、マイク35は、マイク端子などを介して音声信号処理装置10に接続される外部マイクであってよい。

0012

一次記憶部32は、例えば、RAM(Random Access Memory)などの揮発性メモリである。二次記憶部33は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。

0013

二次記憶部33は、一例として、音声信号処理プログラム34を記憶している。CPU31は、二次記憶部33から音声信号処理プログラム34を読み出して一次記憶部32に展開する。CPU31は、音声信号処理プログラム34を実行することで、図1の発話区間検出部11、抑制部12、及び補正部13として動作する。なお、音声信号処理プログラム34は、外部サーバに記憶され、ネットワークを介して、一次記憶部32に展開されてもよいし、DVDなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部32に展開されてもよい。

0014

マイク35は、音声を受け取り、当該音声を音声信号に変換する。なお、音声信号処理装置10は、例えば、パーソナルコンピュータタブレットスマートデバイス携帯電話、音声信号処理専用装置、又は、車載電子機器用音声信号処理装置などであってよい。

0015

次に、音声信号処理装置10の作用の概略について説明する。本実施形態では、図3に例示するように、CPU31は、ブロック43で、マイク35が受け取った音声に対応する音声信号xの雑音を抑制する。雑音の抑制には、例えば、フィルタリングによる雑音抑制又はスペクトル復元による雑音抑制など、既存の雑音抑制技術を用いることができる。

0016

一方、CPU31は、ブロック41で、マイク35が受け取った音声信号の発話区間を検出する。発話区間の検出には、既存の音声区間検出技術を用いることができる。図4グラフ(a)の実線はユーザが発話している発話区間51を例示し、破線は発話区間51と発話区間51との間の非発話区間52を例示する。非発話区間52は、背景雑音を含む区間である。図4横軸(c)は時間Tの推移を表す。

0017

CPU31は、ブロック42で、発話区間51の終端を基準とした位置から所定期間Tsの間、ブロック43で行われる音声信号の雑音の抑制の抑制量が、所定期間Ts以外の区間の抑制量よりも大きくなるように制御する。以下、所定期間Tsを抑制量増大区間Tsとも呼ぶ。抑制量増大区間Tsは、発話区間51の終端から次の発話区間51の先端までの期間より短い期間である。

0018

CPU31は、雑音を抑制した音声信号に対して音声認識処理を行うために、ブロック44(以下、音声認識ブロック44とも呼ぶ。)に、雑音を抑制した音声信号を送信する。

0019

詳細には、図5に例示するように、CPU31は、ステップ61で、マイク35が受け取った音声に対応する音声信号xを、例えば、1フレーム分受け取る。CPU31は、ステップ62で、受け取った音声信号xが発話区間51の音声信号であるか否か判定する。

0020

この例では、音声信号xのパワーPを式(1)を用いて計算し、音声信号xのパワーが所定値以上である場合には、発話区間であると判定する。
P=Σx(t)2 …(1)
式(1)において、x(t)は、時間t(t=Tfi(i=1,…,n:nは1フレームの分割数を表す))の音声信号を表す。

0021

ステップ62の判定が肯定された場合、CPU31は、ステップ65で、音声信号xの雑音を抑制する。(なお、後述する通り、ステップ62の判定が否定された場合であっても、CPU31は、他のステップを実行した後、ステップ65で、音声信号xの雑音を抑制する。)

0022

例えば、加法性雑音では、雑音を含む音声信号x(t)、雑音を含まない音声信号s(t)、及び雑音信号n(t)は、式(2)の関係を有する。
x(t)=s(t)+n(t) …(2)
式(2)を周波数領域で考えると、雑音を含む音声信号スペクトルX(ω)、雑音を含まない音声信号スペクトルS(ω)、及び雑音信号スペクトルN(ω)の関係は、式(3)で表される。
X(ω)=S(ω)+N(ω) …(3)
ωは周波数を表す。

0023

例えば、フィルタリングによる雑音抑制では、式(4)に例示するように、雑音を含む音声信号スペクトルX(ω)にフィルタであるゲインG(ω)を乗じることにより、雑音が抑制された音声信号スペクトルS’(ω)(以下、雑音抑制信号スペクトルS’(ω)とも呼ぶ。)を取得することができる。
S’(ω)=G(ω)X(ω) …(4)

0024

一方、ステップ62の判定が否定された場合、CPU31は、ステップ63で、受け取った音声信号xが抑制量増大区間Tsの音声信号xであるか否か判定する。詳細には、発話区間51の終端を基準とした位置から所定期間Tsの間の音声信号xであるか否か判定する。発話区間51の終端を基準とした位置は、例えば、発話区間51の終端から0秒〜数100m秒までの範囲に含まれる位置であってよい。また、抑制量増大区間Tsは、例えば、数百m秒の期間であってよい。

0025

ステップ63の判定が否定されると、即ち、抑制量増大区間Tsの音声信号xではないと判定されると、ステップ65で、音声信号xの雑音を抑制する。

0026

ステップ63の判定が肯定されると、即ち、抑制量増大区間Tsの音声信号xであると判定されると、CPU31は、ステップ64で、ステップ65で行われる雑音抑制の抑制量を増大させる。

0027

式(4)において、ゲインG(ω)が1に近付く程、雑音抑制信号スペクトルS’(ω)と雑音を含む音声信号スペクトルX(ω)との差である抑制量(X(ω)−G(ω)X(ω))は小さくなる。一方、ゲインG(ω)の値が0に近付く程、雑音抑制信号スペクトルS’(ω)と音声信号スペクトルX(ω)との差である抑制量(X(ω)−G(ω)X(ω))は大きくなる。従って、ここでは、例えば、図4のグラフ(b)の実線54で示すように、抑制量増大区間Tsの間、ゲインG(ω)に抑制用ゲインα(0<α<1)を乗算することにより、抑制量を増大させる。

0028

CPU31は、ステップ65で、ステップ64で増大させた抑制量で、音声信号xの雑音を抑制する。即ち、抑制量増大区間Tsの間、音声信号xの雑音は、他の区間と比較して強く抑制される。

0029

CPU31は、ステップ66で、全ての音声信号xの処理が完了したか否かを判定する。ステップ66の判定が否定された場合、CPU31は、ステップ61に戻る。ステップ66の判定が肯定された場合、CPU31は、音声信号処理を終了する。

0030

なお、上記では、フィルタリングによる雑音抑制を用いて説明したが、本実施形態はこれに限定されない。例えば、スペクトル復元による雑音抑制又は音声モデルベースによる雑音抑制など、既存の雑音抑制技術を利用することができる。以下で説明する他の実施形態についても、同様である。

0031

本実施形態では、音声信号xの発話区間51を検出し、音声信号xの雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。

0032

上記のように、本実施形態では、音声信号x全体の雑音を抑制するが、音声信号x全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号xに歪みが発生することを防止する。即ち、音声信号xに歪みが発生することで、後段の音声認識ブロック44での認識率が低下すること防止する。

0033

また、本実施形態では、音声信号x全体の雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。

0034

ここで、音声信号xの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間51の音声信号xと非発話区間52の背景雑音である音声信号xとの差異不明瞭となる。これにより、音声認識ブロック44で発話の終端を認識することはさらに困難となり、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44での認識率が低下することを防止する。

0035

[第2実施形態]
次に、実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。

0036

本実施形態では、図6に例示するように、ステップ62で発話区間を検出する前に、CPU31は、ステップ65Aで、ステップ61で受け取った音声信号xの雑音を抑制する。また、ステップ63の判定が肯定されると、即ち、抑制量増大区間Tsであると判定されると、CPU31は、ステップ65Bで、ステップ65Aで雑音を抑制された音声信号s”(以下、雑音抑制信号s”とも呼ぶ。)に抑制用ゲインαを乗算することにより、音声信号xの雑音をさらに抑制する。

0037

即ち、第1実施形態では、抑制量増大区間Ts以外では、ゲインGで音声信号xの雑音の抑制を行い、抑制量増大区間Tsでは、ゲインGに抑制用ゲインαを乗算して雑音の抑制を行う。これに対し、第2実施形態では、まず、音声信号x全体にわたって、まず、ゲインGで雑音の抑制を行い、抑制増大区間Tsで、雑音抑制信号s”に抑制用ゲインαを乗算する。雑音抑制信号s”に抑制用ゲインαを乗算することにより、抑制量増大区間Tsでは、雑音の抑制の抑制量が大きくなる。

0038

本実施形態では、音声信号xの雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。

0039

また、本実施形態では、雑音抑制信号s”の雑音を、抑制量増大区間Tsの間、さらに抑制することによって、抑制量増大区間Tsの間、雑音の抑制の抑制量が他の区間より大きくなるように補正する。

0040

上記のように、本実施形態では、音声信号x全体の雑音を抑制するが、音声信号x全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号xに歪みが発生することを防止する。即ち、音声信号xに歪みが発生することで、後段の音声認識ブロック44での認識率が低下すること防止する。

0041

また、本実施形態では、音声信号xの雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。

0042

ここで、音声信号xの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間51の音声信号xと非発話区間52の背景雑音である音声信号xとの差異が不明瞭となる。これにより、音声認識ブロック44で発話の終端を認識することはさらに困難となり、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44での認識率が低下することを防止する。

0043

[第3実施形態]
次に、実施形態の一例である第3実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。図7に例示するように、第3実施形態では、ステップ71で非発話区間52の音声信号xのパワーを蓄積し、ステップ72で、ステップ71で蓄積した音声信号xのパワーの平均値に基づいて抑制用ゲインαを取得している点で、第1実施形態と異なる。

0044

詳細には、ステップ62で、発話区間51ではないと判定された場合、即ち、非発話区間52であると判定された場合、CPU31は、ステップ71で、1フレーム分の音声信号xのパワーΣx(t)2及び時間を蓄積する。非発話区間52で、音声信号xは背景雑音信号である。

0045

ステップ63の判定が肯定されると、即ち、抑制量増大区間Tsであると判定されると、CPU31は、ステップ72で、抑制用ゲインαを取得する。例えば、ステップ71で、蓄積した非発話区間の音声信号xのパワーの合計を時間の合計で除算することで、音声信号xのパワーの平均値γを求め、図8に例示するグラフにおいて、平均値γに対応する値αを抑制用ゲインαとして取得する。

0046

図8に例示するグラフにおいて、縦軸は抑制用ゲインの値を表し、横軸は非発話区間52の音声信号xのパワーの平均値を表す。なお、図8のグラフは一例であり、本実施形態はこれに限定されない。

0047

なお、ステップ71で蓄積される音声信号xのパワーの合計及び時間の合計は、例えば、定期的にリセットされてもよい。また、以前に行われた音声信号処理で蓄積された音声信号xのパワーの合計及び時間の合計が、今回行う音声信号処理で、音声信号xのパワー及び時間の蓄積の初期値として利用されてもよい。

0048

また、上記では、第1実施形態の処理にステップ71及びステップ72の処理を追加する例について説明したが、本実施形態は、第2実施形態にも適用することができる。第2実施形態に本実施形態を適用する場合、例えば、ステップ71をステップ62の下に含め、ステップ72をステップ63の下に含めればよい。

0049

本実施形態では、音声信号xの雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。

0050

上記のように、本実施形態では、音声信号x全体の雑音を抑制するが、音声信号x全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって音声信号xに歪みが発生することを防止する。即ち、音声信号xに歪みが発生することで、後段の音声認識ブロック44での音声の認識率が低下すること防止する。

0051

また、本実施形態では、音声信号xの雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。

0052

ここで、音声信号xの雑音を抑制する抑制量が強くない、即ち不十分であると、残留する雑音のために発話区間51の音声信号xと非発話区間52の背景雑音である音声信号xとの差異が不明瞭となる。これにより、音声認識ブロック44で発話の終端を認識することはさらに困難となり、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44での認識率が低下することを防止する。

0053

また、本実施形態では、抑制量増大区間Tsの間、抑制量が、非発話区間52の音声信号xに基づいて取得された量に応じて大きくなるように補正する。また、本実施形態では、雑音抑制信号s”の雑音を、抑制量増大区間Tsの間、非発話区間52の音声信号xに基づいて取得された量に応じてさらに抑制することによって、抑制量増大区間Tsの間、抑制量が他の区間より大きくなるように補正してもよい。これにより、本実施形態では、抑制量増大区間Tsの間の抑制量を適切に調整することができる。

0054

[第4実施形態]
次に、実施形態の一例である第4実施形態を説明する。第1実施形態と同様の構成及び作用については、説明を省略する。図9に例示するように、第4実施形態では、マイク35に代えて、第1マイク35A及び第2マイク35Bを含む点で、第1実施形態とは異なる。なお、第1マイク35A及び第2マイク35Bは、マイク端子などを介して音声信号処理装置10に接続される外部マイクであってよい。

0055

次に、音声信号処理装置10の作用の概略について説明する。本実施形態では、図10に例示するように、CPU31は、ブロック43で、第1マイク35Aが受け取った音声に対応する音声信号x1及び第2マイク35Bが受け取った音声に対応する音声信号x2の雑音を抑制する。雑音の抑制には、例えば、単一マイクのためのフィルタリングによる雑音抑制又はスペクトル復元による雑音抑制などを複数マイクに応用した技術など、既存の雑音抑制技術を用いることができる。

0056

一方、CPU31は、ブロック41で、音声信号x1及び音声信号x2の相関値に基づいて発話区間51を検出する。また、CPU31は、抑制量増大区間Tsの間、ブロック43で行われる音声信号の雑音の抑制の抑制量が、抑制量増大区間Ts以外の区間の抑制量よりも大きくなるように制御する。

0057

詳細には、図5のステップ61で、CPU31は、第1マイク35Aで受け取った音声に対応する音声信号x1及び第2マイク35Bで受け取った音声に対応する音声信号x2を、例えば、1フレーム分受け取る。CPU31は、ステップ62で、受け取った音声信号x1及びx2が発話区間51の音声信号であるか否か判定する。

0058

CPU31は、例えば、式(5)を用いて、音声信号x1と音声信号x2との相関値Rを計算する。
R=Σx1(t)x2(t−d)/(Σx1(t)2Σx2(t−d)2)1/2 …(5)例えば、第1マイク35Aと音源(例えば、自動車内における運転者)との距離が第2マイク35Bと音源との距離よりも長いと仮定した場合、dは音源の方向に適合する遅延時間である。CPU31は、相関値Rが所定値よりも大きい場合、発話区間51であると判定する。

0059

なお、上記では、マイクが2つである例について説明したが、本実施形態はこれに限定されない。例えば、マイクは3つ以上であってもよい。

0060

また、上記では、第1実施形態で、マイク35を第1マイク35A及び第2マイク35Bと置き換える例について説明したが、本実施形態は、第2実施形態及び第3実施形態にも適用することができる。

0061

本実施形態では、音声信号x1及び音声信号x2の雑音を抑制する。本実施形態では、発話区間51の終端から次の発話区間51の先端までの期間より短い期間であって、発話区間51の終端を基準とした位置から所定期間Tsの間、抑制量が他の区間より大きくなるように補正する。

0062

上記のように、本実施形態では、音声信号x1及び音声信号x2全体の雑音を抑制するが、音声信号x1及び音声信号x2全体ではなく、抑制量増大区間Tsの抑制量を増大させている。これにより、本実施形態では、抑制量を過度に増大させることによって、雑音を抑制した音声信号に歪みが発生することを防止する。即ち、雑音を抑制した音声信号に歪みが発生することで、後段の音声認識ブロック44での音声の認識率が低下すること防止する。

0063

また、本実施形態では、音声信号x1及び音声信号x2の雑音を抑制する抑制量が強くないことで、後段の音声認識ブロック44での音声の認識率が低下することを防止する。一般に、ユーザの発話のパワーは発話の終端に近付く程小さくなる。また、非発話区間52であっても背景雑音が存在するため、発話区間51と非発話区間52との境界である発話の終端を認識することが困難となる。

0064

ここで、音声信号x1及び音声信号x2の雑音を抑制する抑制量が強くない、即ち不十分であると、雑音が残留するため、音声信号x1及び音声信号x2と非発話区間52の背景雑音である音声信号x1及び音声信号x2との差異が不明瞭となる。従って、音声認識ブロック44で発話の終端を認識することはさらに困難となる。これにより、音声認識ブロック44での音声の認識率が低下する。本実施形態によれば、抑制量増大区間Tsの抑制量を増大させることにより、音声認識ブロック44で発話の終端を認識することが容易となるため、音声認識ブロック44で音声の認識率が低下することを防止する。

0065

[比較結果例]
走行中の自動車室内収録した640個の音声データを用いて、上記実施形態を適用した音声信号と適用しない音声信号の発話区間の検出率を比較した。上記実施形態を適用した音声信号では、走行中の自動車室内で収録した640個の音声データの内、640個全ての音声データで音声信号の発話区間を適切に検出することができた。一方、上記実施形態を適用しない音声信号では、上記640個の音声データの内、11個の音声データで音声信号の発話区間を適切に検出することに失敗した。

0066

以上の各実施形態に関し、更に以下の付記を開示する。

0067

(付記1)
音声信号の発話区間を検出する発話区間検出部と、
前記音声信号の雑音を抑制する抑制部と、
前記発話区間検出部で検出された発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、前記抑制部による雑音の抑制の抑制量が他の区間より大きくなるように補正する補正部と、
を含む音声信号処理装置。
(付記2)
前記補正部は、前記所定期間の間、前記抑制部による抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記1の音声信号処理装置。
(付記3)
前記補正部は、前記抑制部によって雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように前記抑制部を制御することによって、前記所定期間の間、前記抑制部による抑制量が他の区間より大きくなるように補正し、
前記抑制部は、前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記1の音声信号処理装置。
(付記4)
前記音声信号を入力する複数の音声入力部を含み、
前記発話区間検出部は、前記複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記1〜付記3の何れかの音声信号処理装置。
(付記5)
プロセッサが、
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理方法。
(付記6)
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記5の音声信号処理方法。
(付記7)
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記5の音声信号処理方法。
(付記8)
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記5〜付記7の何れかの音声入力方法
(付記9)
音声信号の発話区間を検出し、
前記音声信号の雑音を抑制し、
検出された前記発話区間の終端から次の発話区間の先端までの期間より短い期間であって、前記発話区間の終端を基準とした位置から所定期間の間、雑音を抑制する抑制量が他の区間より大きくなるように補正する、
音声信号処理をプロセッサに実行させるためのプログラム。
(付記10)
前記音声信号処理は、
前記所定期間の間、前記抑制量が、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて大きくなるように補正する、
付記9のプログラム。
(付記11)
前記音声信号処理は、
雑音が抑制された前記音声信号の雑音を、前記所定期間の間、前記発話区間と発話区間との間の非発話区間の前記音声信号に基づいて取得された量に応じて、さらに抑制するように制御することによって、前記所定期間の間、前記抑制量が他の区間より大きくなるように補正し、
前記所定期間の間、前記雑音が抑制された音声信号の雑音をさらに抑制する、
付記9のプログラム。
(付記12)
前記音声信号処理は、
複数の音声入力部で受け取った音声に対応する音声信号の間の相関値に基づいて、前記発話区間を検出する、
付記9〜付記11の何れかのプログラム。

0068

10音声信号処理装置
11発話区間検出部
12 抑制部
13補正部
31 CPU

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ