図面 (/)

技術 音声処理プログラム、音声処理装置、及び音声処理方法

出願人 富士通株式会社
発明者 香村紗友梨外川太郎大谷猛
出願日 2016年8月30日 (4年4ヶ月経過) 出願番号 2016-168045
公開日 2018年3月8日 (2年9ヶ月経過) 公開番号 2018-036378
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード ゲイン付加 散布度 絶対偏差 入力信号スペクトル 離散フーリエ 音声処理プログラム ゲイン決定 音声処理技術
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年3月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (19)

課題

伝達特性に基づいて音声信号を適切に抑圧する。

解決手段

音声処理プログラムは、下記の第1の処理〜第4の処理をコンピュータに実行させる。第1の処理は、第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する処理である。第2の処理は、第1の周波数スペクトルにおける各周波数成分のレベルと、第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する処理である。第3の処理は、周波数成分毎に、所定期間内におけるレベル差の分布広がりを算出する処理である。第4の処理は、レベル差の分布の広がりに基づいて、第1の周波数スペクトルの周波数成分に付加するゲインと、第2の周波数スペクトルの周波数成分に付加するゲインとを決定する処理である。

概要

背景

収音装置収音した音声信号に対する音声処理技術の1つとして、伝達特性を利用して音源を分離する技術が知られている。この種の技術では、収音目的である音源のみが音を発している状態の音声信号に基づいて伝達特性を推定し、推定した伝達特性に基づいて、処理対象の音声信号に含まれる、収音目的である音源とは別の音源の成分を抑圧する(例えば、特許文献1を参照)。

概要

伝達特性に基づいて音声信号を適切に抑圧する。音声処理プログラムは、下記の第1の処理〜第4の処理をコンピュータに実行させる。第1の処理は、第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する処理である。第2の処理は、第1の周波数スペクトルにおける各周波数成分のレベルと、第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する処理である。第3の処理は、周波数成分毎に、所定期間内におけるレベル差の分布広がりを算出する処理である。第4の処理は、レベル差の分布の広がりに基づいて、第1の周波数スペクトルの周波数成分に付加するゲインと、第2の周波数スペクトルの周波数成分に付加するゲインとを決定する処理である。

目的

この種の技術では、収音目的である音源のみが音を発している状態の音声信号に基づいて伝達特性を推定し、推定した伝達特性に基づいて、処理対象の音声信号に含まれる、収音目的である

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する第2の周波数スペクトルとを取得し、前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、前記周波数成分毎に、所定期間内における前記レベル差の分布広がりを算出し、前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、処理をコンピュータに実行させることを特徴とする音声処理プログラム

請求項2

前記ゲインを決定する処理は、前記第1の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定するとともに、前記第2の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項3

前記レベル差の分布の広がりを算出する処理は、前記コンピュータに、前記レベル差のばらつきの度合いを算出する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項4

前記レベル差の分布の広がりを算出する処理は、前記所定期間内における前記レベル差の分布のピーク値を算出し、前記ピーク値の時間変化及び前記レベル差の少なくともいずれか1つに基づいて、前記レベル差の分布の広がりを算出する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項5

前記レベル差の分布の広がりを算出する処理は、前記所定期間内における前記レベル差の分布のピーク値を算出し、前記ピーク値よりも大きい前記レベル差の分布に基づいて第1の広がりを算出するとともに、前記ピーク値よりも小さい前記レベル差の分布に基づいて第2の広がりを算出する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項6

前記ゲインを決定する処理は、前記所定期間内における前記レベル差の分布のピーク値と、前記レベル差の分布の広がりを示す値を定数倍した値との和及び差のいずれかに基づいて抑圧閾値を算出し、前記レベル差が前記抑圧閾値により特定される範囲内であるか否かに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加する前記ゲインと、前記第2の周波数スペクトルの前記周波数成分に付加する前記ゲインとを決定する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項7

前記ゲインを決定する処理は、1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲とに重なりが生じる場合に、前記抑圧閾値を修正する処理を含む、ことを特徴とする請求項2に記載の音声処理プログラム。

請求項8

前記ゲインを決定する処理は、1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲との間隙閾値以上である場合に、前記抑圧閾値を修正する処理を含む、ことを特徴とする請求項2に記載の音声処理プログラム。

請求項9

前記音声処理プログラムは、前記所定期間内における前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束しているか否かを判定する処理を更に含み、前記ゲインを決定する処理は、前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束している場合に、前記コンピュータに、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項10

前記音声処理プログラムは、前記第1の周波数スペクトルと、前記第2の周波数スペクトルとに基づいて、前記音声信号における発話状態推定する処理を更に含み、前記レベル差の広がりを算出する処理は、前記発話状態の推定結果が、一人の人物発話している状態である場合に、前記コンピュータに、前記レベル差の広がりを算出する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項11

前記周波数スペクトルを取得する処理は、前記第1の音声信号及び前記第2の音声信号を含む3以上の音声信号のそれぞれに対応する3以上の周波数スペクトルを取得し、前記ゲインを決定する処理は、前記3以上の周波数スペクトルの中から選択した前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差の分布の広がりと、前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差と、に基づいて、前記3以上の周波数スペクトルの各周波数成分に付加するゲインを決定する処理である、ことを特徴とする請求項1に記載の音声処理プログラム。

請求項12

第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する周波数変換部と、前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する伝達特性推定部と、前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出する伝達特性分布算出部と、前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを算出するゲイン算出部と、を備えることを特徴とする音声処理装置

請求項13

コンピュータが、第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得し、前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、ことを特徴とする音声処理方法

技術分野

0001

本発明は、音声処理プログラム音声処理装置、及び音声処理方法に関する。

背景技術

0002

収音装置収音した音声信号に対する音声処理技術の1つとして、伝達特性を利用して音源を分離する技術が知られている。この種の技術では、収音目的である音源のみが音を発している状態の音声信号に基づいて伝達特性を推定し、推定した伝達特性に基づいて、処理対象の音声信号に含まれる、収音目的である音源とは別の音源の成分を抑圧する(例えば、特許文献1を参照)。

先行技術

0003

特開2006−197552号公報

発明が解決しようとする課題

0004

伝達特性に基づいて音声信号を抑圧する際には、ある時点で推定した伝達特性の値に基づいて、音声信号に付加するゲインを決定している。しかしながら、収音目的である音源が人物などである場合、音声の伝達特性は常に一定の値であるわけではなく、伝達特性の時間変化ピーク値の前後に広がりを持った分布となる。そのため、ある時点で推定した伝達特性の値に基づいて音声信号に付加するゲインを決定する場合、実際の伝達特性と、推定した伝達特性との違いにより、音声信号に対し誤った抑圧をしてしまうことがある。

0005

1つの側面において、本発明は、伝達特性に基づいて音声信号を適切に抑圧することを目的とする。

課題を解決するための手段

0006

1つの態様の音声処理プログラムは、下記の第1の処理〜第4の処理をコンピュータに実行させる。第1の処理は、第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する処理である。第2の処理は、第1の周波数スペクトルにおける各周波数成分のレベルと、第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する処理である。第3の処理は、周波数成分毎に、所定期間内におけるレベル差の分布の広がりを算出する処理である。第4の処理は、レベル差の分布の広がりに基づいて、第1の周波数スペクトルの周波数成分に付加するゲインと、第2の周波数スペクトルの周波数成分に付加するゲインとを決定する処理である。

発明の効果

0007

上記の態様によれば、伝達特性に基づいて音声信号を適切に抑圧することが可能となる。

図面の簡単な説明

0008

第1の実施形態に係る音声処理装置の機能的構成を示す図である。
第1の実施形態に係る音声処理装置におけるゲイン決定部の構成を示す図である。
第1の実施形態に係る音声処理装置の適用例を示す図である。
第1の実施形態に係る音声処理装置が行う処理を説明するフローチャートである。
第1の実施形態に係るゲイン決定処理の内容を説明するフローチャートである。
伝達特性の分布の例を示す図である。
伝達特性の分布と時系列変化との関係を説明する図である。
伝達特性が抑圧範囲内である場合の処理結果の例を示す図である。
伝達特性が抑圧範囲外となる期間がある場合の処理結果の例を示す図である。
伝達特性のばらつきの度合いと抑圧閾値との関係の変形例を説明する図である。
第2の実施形態に係る音声処理装置の適用例を示す図である。
第2の実施形態に係る音声処理装置の機能的構成を示す図である。
第2の実施形態に係る音声処理装置におけるゲイン決定部の構成を示す図である。
第2の実施形態に係るゲイン決定処理の内容を説明するフローチャート(その1)である。
第2の実施形態に係るゲイン決定処理の内容を説明するフローチャート(その2)である。
第2の実施形態における抑圧閾値の算出方法を説明する図である。
抑圧範囲が重なっている場合の修正方法を説明する図である。
コンピュータのハードウェア構成を示す図である。

実施例

0009

[第1の実施形態]
図1は、第1の実施形態に係る音声処理装置の機能的構成を示す図である。

0010

図1に示すように、本実施形態に係る音声処理装置1は、入力受付部110と、周波数変換部120と、発話状態推定部130と、ゲイン決定部140と、ゲイン付加部150と、逆変換部160と、を備える。また、音声処理装置1は、ファイル化部171と、表示信号出力部172と、を備える。更に、音声処理装置1は、伝達特性情報保持部191と、音声ファイル記憶部192と、を備える。

0011

入力受付部110は、第1の収音装置2(2A)及び第2の収音装置2(2B)を含む複数の収音装置で収音した音声信号の入力を受け付ける。入力受付部110は、例えば、第1の収音装置2A及び第2の収音装置2Bから入力されたアナログ音声信号デジタル音声信号に変換する。第1の収音装置2A及び第2の収音装置2Bは、それぞれ、収音部201と、表示部202とを含む。収音部201は、マイクロフォンであり、当該収音部201の周囲の音を収音する。表示部202は、例えばLight Emitting Diode(LED)ランプであり、音声処理装置1等の外部装置から入力される表示信号に基づいて、点灯消灯、或いは点滅する。

0012

周波数変換部120は、複数の収音装置2のそれぞれから入力された音声信号を周波数スペクトルに変換する。周波数変換部120は、入力された時間領域の音声信号を所定の時間長T毎のフレームに分割し、例えば短時間離散フーリエ変換(Short-Time Discrete Fourier Transform;STDFT)により、各フレームの音声信号を周波数スペクトルに変換する。以下の説明では、第1の収音装置2Aから入力された音声信号を第1の音声信号といい、第2の収音装置2Bから入力された音声信号を第2の音声信号という。また、以下の説明では、第1の音声信号についての周波数スペクトルを第1の周波数スペクトルといい、第2の音声信号についての周波数スペクトルを第2の周波数スペクトルという。

0013

発話状態推定部130は、第1の周波数スペクトルと、第2の周波数スペクトルとに基づいて、処理対象のフレームにおける人物の発話状態を推定する。発話状態推定部130は、例えば、発話ダイアライゼーション技術における既知推定方法に従って、処理対象のフレームにおける人物の発話状態を推定する。例えば、二人の人物のうちの一方の人物の近傍に第1の収音装置2Aを設置し、他方の人物の近傍に第2の収音装置2Bを設置している場合、発話状態推定部130は、人物の発話状態が下記の4通りの状態のいずれの状態であるかを推定する。
(状態1)発話している人物がいない状態。
(状態2)第1の収音装置2Aの近傍にいる人物のみが発話している状態。
(状態3)第2の収音装置2Bの近傍にいる人物のみが発話している状態。
(状態4)第1の収音装置2Aの近傍にいる人物と第2の収音装置2Bの近傍にいる人物とが発話している状態。

0014

ゲイン決定部140は、各周波数スペクトルに付加するゲインを決定する。処理対象のフレームの発話状態が、一人の人物のみが発話している状態である場合、ゲイン決定部140は、周波数スペクトルと発話状態とに基づいて伝達特性を推定し、所定期間内における伝達特性のばらつきの度合いを算出する。所定期間内における伝達特性のばらつきの度合いを算出する際、ゲイン決定部140は、伝達特性情報保持部191で保持している伝達特性や伝達特性の分布のピーク値を表す情報を参照する。また、ゲイン決定部140は、所定期間内における伝達特性の分布のピーク値と、伝達特性のばらつきの度合いとに基づいて、抑圧範囲の閾値を設定する。更に、ゲイン決定部140は、周波数スペクトルと、抑圧範囲の閾値と、背景雑音スペクトルとに基づいて、周波数スペクトルに付加するゲインを算出する。ゲイン決定部140は、スペクトルサプレッション法等の既知の推定方法に従って、周波数スペクトルにおける背景雑音スペクトルを推定する。

0015

ゲイン付加部150は、ゲイン決定部140において算出したゲインを周波数スペクトルに付加する。

0016

逆変換部160は、周波数スペクトルを時間領域の音声信号に変換する。逆変換部160は、ゲインを付加した周波数スペクトルを、例えば短時間離散フーリエ逆変換(InverseSTDFT)により、時間領域の音声信号に変換する。

0017

ファイル化部171は、逆変換部160で周波数スペクトルを変換して得た時間領域の音声信号を、所定のファイルフォーマットに従って音声ファイルにし、当該音声ファイルを音声ファイル記憶部192に格納する。

0018

表示信号出力部172は、収音装置2の表示部202の表示を制御する表示信号を生成して出力する。表示信号出力部172は、入力された音声信号と、逆変換部160で周波数スペクトルを変換して得た時間領域の音声信号とに基づいて、第1の収音装置2Aの表示部202に出力する表示信号と、第2の収音装置2Bの表示部202に出力する表示信号とを生成する。

0019

図2は、第1の実施形態に係る音声処理装置におけるゲイン決定部の構成を示す図である。

0020

図2に示すように、本実施形態におけるゲイン決定部140は、伝達特性推定部141と、伝達特性分布算出部142と、収束判定部143と、背景雑音推定部144と、ゲイン算出部145と、を含む。

0021

伝達特性推定部141は、処理対象のフレームの発話状態が、一人の人物のみが発話している状態である場合に、周波数スペクトルと発話状態とに基づいて伝達特性を推定する(算出する)。伝達特性推定部141は、発話状態を示す情報に基づいて発話している人物の近傍に設置されている収音装置2を特定し、特定した収音装置2の近傍にいる話者が発話しているときの伝達特性を推定する。伝達特性推定部141は、周波数スペクトルの帯域毎に、発話している人物の近傍に設置されている収音装置2から入力された音声信号の周波数スペクトルと、他の収音装置から入力された音声信号の周波数スペクトルとに基づいて伝達特性を推定する。伝達特性推定部141は、推定した伝達特性を伝達特性情報保持部191に保持させる。

0022

例えば、入力音声信号が第1の音声信号及び第2の音声信号の2個の音声信号である場合、伝達特性推定部141は、第1の収音装置2Aの近傍にいる人物のみが発話しているとき、或いは第2の収音装置2Bの近傍にいる人物のみが発話しているときの伝達特性を推定する(算出する)。この際、伝達特性推定部141は、伝達特性として、第1の収音装置2Aから入力された音声信号の周波数スペクトルと、第2の収音装置2Bから入力された音声信号の周波数スペクトルとの差を算出する
伝達特性分布算出部142は、処理対象のフレームについての伝達特性と、伝達特性情報保持部191で保持している所定期間内の伝達特性とに基づいて、伝達特性の分布を算出し、伝達特性のばらつきの度合いを算出する。伝達特性分布算出部142は、例えば、所定期間内における伝達特性の平均を伝達特性の分布のピーク値とし、当該ピーク値からのばらつきの度合いを算出する。伝達特性分布算出部142は、算出した伝達特性の分布とばらつきの度合いを、伝達特性情報保持部191に格納する。

0023

収束判定部143は、伝達特性の分布のピーク値と、伝達特性のばらつきの度合いとが収束しているか否かを判定する。例えば、収束判定部143は、所定期間(所定のフレーム数)における伝達特性の分布のピーク値から回帰直線の傾きを算出し、当該回帰直線の傾きが閾値よりも小さくなった場合に、伝達特性の分布のピーク値が収束していると判定する。

0024

背景雑音推定部144は、既知の推定方法に従って、入力音声信号の周波数スペクトルに対する背景雑音スペクトルを推定する。

0025

ゲイン算出部145は、伝達特性の分布のピーク値と、伝達特性のばらつきの度合いとに基づいて抑圧範囲の閾値を算出し、抑圧範囲の閾値と、周波数スペクトル間のレベル差とに基づいて、周波数スペクトルに付加するゲインを算出する。

0026

本実施形態に係る音声処理装置1は、複数の収音装置で収音した複数の人物による会話対話)の録音利用可能である。

0027

図3は、第1の実施形態に係る音声処理装置の適用例を示す図である。
図3には、本実施形態に係る音声処理装置1の適用例として、テーブル3を挟んで向かい合う2人の人物4A,4Bによる会話を録音する場合の収音装置2A,2Bと人物4A.4Bとの位置関係を示している。2人の人物4A,4Bによる会話は、音声処理装置1に接続された第1の収音装置2Aと、第2の収音装置2Bとにより収音する。この際、第1の収音装置2Aは、第1の人物4Aの近傍に設置し、第2の人物4Bから第1の収音装置2Aまでの距離が、第1の人物4Aから第1の収音装置2Aまでの距離よりも長くなるようにする。これに対し、第2の収音装置2Bは、第2の人物4Bの近傍に設置し、第1の人物4Aから第2の収音装置2Bまでの距離が、第2の人物4Bから第2の収音装置2Bまでの距離よりも長くなるように設置する。すなわち、第1の収音装置2Aは第1の人物4Aが発した音声の収音を目的として第1の人物4Bの近傍に設置され、第2の収音装置2Bは第2の人物4Bが発した音声の収音を目的として設置される。

0028

ところが、2人の人物4A,4Bが会話をしている場合、第1の収音装置2Aで収音した音声信号には、収音目的である第1の人物4Aの音声の他に、第2の人物4Bの音声が含まれる。一方、第2の収音装置2Bで収音した音声信号には、収音目的である第2の人物4Bの音声の他に、第1の人物4Aの音声が含まれる。本実施形態に係る音声処理装置1は、収音目的である人物の音声と、収音目的である人物とは別の人物の音声とを含む音声信号における、当該別の人物の音声を抑圧する。すなわち、音声処理装置1は、第1の収音装置2Aで収音した音声信号に含まれる第2の人物4Bの音声を抑圧するとともに、第2の収音装置2Bで収音した音声信号に含まれる第1の人物4Aの音声を抑圧する。

0029

本実施形態に係る音声処理装置1は、会話を録音する処理を開始すると、まず、複数の収音装置2のそれぞれから音声信号を取得する処理を開始する。会話の録音に用いる収音装置が第1の収音装置2A及び第2の収音装置2Bの2個の収音装置である場合、音声処理装置1は、第1の収音装置2Aから第1の音声信号を取得するとともに、第2の収音装置から第2の音声信号2Bを取得する。複数の収音装置のそれぞれで収音した音声信号の取得を開始した後、本実施形態に係る音声処理装置1は、図4に示す処理を行う。

0030

図4は、第1の実施形態に係る音声処理装置が行う処理を説明するフローチャートである。

0031

本実施形態に係る音声処理装置1は、入力された音声信号を所定の時間長Tの区間(フレーム)に分割し、フレーム単位でゲインを付加する処理を行う。このため、音声処理装置1は、まず、入力音声信号における分析開始点を指定する変数pを0にするとともに、フレーム番号を指定する変数mを0にする(ステップS1)。ステップS1の処理は、周波数変換部120が行う。ここで、分析開始点pは、入力音声信号における処理対象のフレームの開始時刻を表す。

0032

次に、音声処理装置1は、複数の入力音声信号のそれぞれにおけるm番目のフレームを抽出し、当該フレームの音声信号を周波数スペクトルに変換する(ステップS2)。ステップS2の処理は、周波数変換部120が行う。周波数変換部120は、分析開始点pと1フレームの時間長Tとに基づいて、入力音声信号xn(t)における時刻pから時刻p+Tの区間を、処理対象のフレームとして抽出する。この際、周波数変換部120は、抽出したフレームに対して時系列順を表すフレーム番号mを付与する。入力音声信号がN個である場合、周波数変換部120は、N個の入力信号xn(t)(n=1,2,・・・,N)のそれぞれから、処理対象のフレームFn,m(t)を抽出する。

0033

また、周波数変換部120は、抽出したフレームFn,m(t)の音声信号を、それぞれ、周波数スペクトルXn(m,k)(k=0,1,・・・,T−1)に変換する。周波数変換部120は、既知の変換方法に従って、各入力音声信号xn(t)から抽出したフレームFn,m(t)のそれぞれを、時間領域の音声信号から周波数スペクトルXn(m,k)に変換する。例えば、周波数変換部120は、短時間離散フーリエ変換により、各フレームFn,m(t)を周波数スペクトルXn(m,k)に変換する。

0034

次に、音声処理装置1は、周波数スペクトルXn(m,k)に基づいて、処理対象のフレームにおける発話状態を推定する(ステップS3)。ステップS3の処理は、発話状態推定部130が行う。発話状態推定部130は、例えば、発話ダイアライゼーション技術等の既知の推定方法に従って、処理対象のフレームにおいて発話している人物の数や位置を推定する。

0035

また、処理対象のフレームにおける発話状態の推定した後、発話状態推定部130は、推定結果を示す変数C(m)を生成する。処理対象のフレームにおける発話状態が、一人の人物のみが発話している状態である場合、発話状態推定部130は、発話状態の推定結果C(m)を、発話している人物の近傍に設置された収音装置2から入力された音声信号を示す値n(≠0)にする。一方、処理対象のフレームにおける発話状態が、一人の人物のみが発話している状態ではない場合、発話状態推定部130は、発話状態の推定結果C(m)を「0」にする。発話状態推定部130は、発話状態の推定結果C(m)をゲイン決定部140に通知する。

0036

次に、音声処理装置1は、発話状態の推定結果C(m)等に基づいて、各入力音声信号についての周波数スペクトルに付加するゲインを決定するゲイン決定処理(ステップS4)を行う。ステップS4の処理は、ゲイン決定部140が行う。

0037

発話している人物が一人である場合(C(m)=n)、ゲイン決定部140は、発話状態の推定結果C(m)に基づいて伝達特性dn(m,k)を推定し、例えば、伝達特性の分布のピーク値Dn(m,k)と、ばらつきの度合いσn(m,k)とを算出する。この際、ゲイン決定部140は、伝達特性情報保持部191で保持している過去のフレームの伝達特性に関する情報を参照し、伝達特性の分布のピーク値Dn(m,k)と、ばらつきの度合いσn(m,k)とを算出する。

0038

また、本実施形態に係るゲイン決定部140は、伝達特性の分布のピーク値Dn(m,k)の時間変化と、ばらつきの度合いσn(m,k)の時間変化とが収束しているか否かを判定する。そして、ピーク値Dn(m,k)及びばらつきの度合いσn(m,k)が収束している場合にのみ、ゲイン決定部140は、ピーク値Dn(m,k)及びばらつきの度合いσn(m,k)に基づいてゲインGn(m,k)を算出する。

0039

この際、ゲイン決定部140は、ピーク値Dn(m,k)及びばらつきの度合いσn(m,k)に基づいて、抑圧範囲の閾値THn(m,k)を算出し、伝達特性の絶対値が抑圧範囲内である帯域kに対するゲインGn(m,k)を算出する。なお、本実施形態に係るゲイン決定部140は、入力音声信号についての周波数スペクトルXn(m,k)に対する背景雑音スペクトルBNn(m,k)を推定する。そして、ゲイン決定部140は、周波数スペクトルXn(m,k)と、背景雑音スペクトルBNn(m,k)とに基づいて、ゲインGn(m,k)を算出する。一方、ピーク値Dn(m,k)及びばらつきの度合いσn(m,k)のいずれか(或いは両方)が収束していない帯域kの周波数スペクトルXn(m,k)に対するゲインGn(m,k)の値を、周波数スペクトルXn(m,k)を変化させない値にする。

0040

上記のゲイン決定処理が終了すると、音声処理装置1は、次に、周波数スペクトルに算出したゲインを付加する(ステップS5)。ステップS5の処理はゲイン付加部150が行う。ゲイン付加部150は、例えば、周波数スペクトルXn(m,k)にゲインGn(m,k)を乗じた値Sn(m,k)=Gn(m,k)・Xn(m,k)を、ゲイン付加後の周波数スペクトルとする。

0041

ステップS4及びS5の処理を終えると、音声処理装置1は、次に、ゲイン付加後の周波数スペクトルを時間領域の音声信号に変換する(ステップS6)。ステップS6の処理は、逆変換部160が行う。逆変換部160は、周波数変換部120で時間領域の音声信号を周波数スペクトルに変換する際の変換方法に対する逆変換により、周波数スペクトルを時間領域の音声信号に変換する。例えば、周波数変換部120において短時間離散フーリエ変換により時間領域の音声信号を周波数スペクトルに変換する場合、逆変換部160では、短時間離散フーリエ逆変換により周波数スペクトルを時間領域の音声信号に変換する。

0042

次に、音声処理装置1は、音声信号及び表示信号を出力する(ステップS7)。ステップS7の処理は、ファイル化部171と、表示信号出力部172とが行う。ファイル化部171は、逆変換部160で得た音声信号に基づいて所定のファイルフォーマットの音声ファイルを生成し、音声ファイル記憶部192に格納する。表示信号出力部172は、収音装置2から入力された音声信号と、逆変換部160で得た音声信号とに基づいて、話者の近傍に設置された収音装置2を特定し、特定した収音装置2の表示部202を点灯させる表示信号を生成する。また、表示信号出力部172は、話者の近傍に設置された収音装置を除く他の収音装置2の表示部202を消灯させる表示信号を生成する。表示信号出力部172は、生成した表示信号を各収音装置2の表示部202に出力する。なお、発話している人物がいない場合、或いは二人以上の人物が発話している場合には、表示信号出力部172は、全ての収音装置2の表示部202を消灯させる生成信号を生成し、各収音装置2の表示部202に出力する。

0043

ステップS7の処理を終えると、音声処理装置1は、ステップS2〜S7の処理を終了するか否かを判定する(ステップS8)。ステップS8の判定は、例えば、周波数変換部120が行う。録音を終了し入力音声信号における全フレームに対するステップS2〜S8の処理を行った場合、或いは処理の途中で外部装置等から処理を終了する命令が入力された場合、周波数変換部120は、上記の処理を終了する(ステップS8;YES)と判定する。一方、終了条件を満たしていない場合(ステップS8;NO)、周波数変換部120は、分析開始点pをp+Tに更新するとともに、フレーム番号mをm+1に更新し(ステップS9)、ステップS2の処理を行う。

0044

次に、図5を参照して、本実施形態に係るゲイン決定処理(ステップS4)について詳細に説明する。

0045

図5は、第1の実施形態に係るゲイン決定処理の内容を説明するフローチャートである。

0046

本実施形態に係るゲイン決定処理において、ゲイン決定部140は、まず、図5に示すように、発話状態推定部130から受信した発話状態の推定結果C(m)に基づいて、発話している人物が一人であるか否かを判定する(ステップS401)。ステップS401は、伝達特性推定部141が行う。

0047

発話している人物が一人である場合(ステップS401;YES)、伝達特性推定部141は、続けて、発話状態の推定結果C(m)と、周波数スペクトルXn(m,k)とに基づいて、伝達特性dn(m,k)を推定する処理(ステップS402)を行う。ステップS402において、伝達特性推定部141は、発話状態の推定結果C(m)の値に基づいて、発話している人物の近傍に設置されている収音装置を特定する。その後、伝達特性推定部141は、特定した収音装置の近傍にいる人物が発話しているときの伝達特性dn(m,k)を推定する。伝達特性推定部141は、n=C(m)の周波数スペクトルXn(m,k)と、周波数スペクトルXn(m、k)と対応付けられた他の周波数スペクトルXn’(m,k)とのレベル差を、伝達特性dn(m,k)として算出する。例えば、入力音声信号が2個(x1(t)及びx2(t))であり、発話状態の推定結果C(m)=1である場合、伝達特性推定部141は、下記式(2−1)及び式(2−2)により、各帯域kの伝達特性d1(m,k),d2(m,k)を算出する。

0048

d1(m,k)=X1(m,k)−X2(m,k) ・・・(2−1)
d2(m,k)=none ・・・(2−2)

0049

また、例えば、入力音声信号が2個(x1(t)及びx2(t))であり、発話状態の推定結果C(m)=2である場合、伝達特性推定部141は、下記式(2−3)及び式(2−4)により、各帯域kの伝達特性d1(m,k),d2(m,k)を算出する。

0050

d1(m,k)=none ・・・(2−3)
d2(m,k)=X1(m,k)−X2(m,k) ・・・(2−4)

0051

式(2−2)及び式(2−3)におけるnoneは、それぞれ、伝達特性d2(m,k)及び伝達特性d1(m,k)を以後の処理対象から除外することを意味する。

0052

伝達特性推定部141は、推定した伝達特性dn(m,k)(n=0,1,・・・,N,k=0,1,・・・,T−1)を伝達特性情報保持部191に格納する。

0053

次に、ゲイン決定部140は、伝達特性dn(m,k)を含む所定期間内における伝達特性の分布のピーク値Dn(m,k)と、伝達特性のばらつきの度合いσn(m,k)とを算出する(ステップS403)。ステップS403の処理は、伝達特性分布算出部142が行う。

0054

伝達特性分布算出部142は、例えば、十数秒から数十秒分の伝達特性dn(m−h0,k)〜dn(m,k)に基づいて、伝達特性の分布のピーク値Dn(m,k)とばらつきの度合いσn(m,k)を算出する。伝達特性分布算出部142は、例えば、変数n毎、及び変数k毎に、下記式(3−1)により分布のピーク値Dn(m,k)を算出し、式(3−2)によりばらつきの度合いσn(m,k)を算出する。

0055

0056

式(3−1)におけるαは重み係数である。また、式(3−2)のh0は、ばらつきの度合いσn(m,k)を算出する際に参照するフレーム数である。

0057

次に、ゲイン決定部140は、伝達特性の分布のピーク値Dn(m,k)の時間変化と、伝達特性dn(m,k)の時間変化とが収束したか否かを判定する処理(ステップS404)を行う。また、発話している人物が一人ではない場合(ステップS401;NO)、伝達特性推定部141は、ステップS402及びS403の処理をスキップして、ステップS404の処理を行う。ステップS404の処理は、収束判定部143が行う。

0058

収束判定部143は、フレーム番号m−h1からフレーム番号mまでの分布のピーク値Dn(m,k)における回帰直線の傾きを最小二乗法により算出する。そして、当該回帰直線の傾きが所定の閾値THA以上である帯域kについて、収束判定部143は、ピーク値Dn(m,k)が収束していないと判定し、収束判定結果Dconvn(k)を「0」にする。一方、回帰直線の傾きが所定の閾値THAよりも小さい帯域kについて、収束判定部143は、ピーク値Dn(m,k)が収束したと判定し、収束判定結果Dconvn(k)を「1」にする。

0059

同様に、収束判定部143は、帯域k毎に、フレーム番号m−h1からフレーム番号mまでの伝達特性dn(m,k)における回帰直線の傾きを最小二乗法により算出する。そして、当該回帰直線の傾きが所定の閾値THB以上である帯域kについて、収束判定部143は、伝達特性dn(m,k)が収束していないと判定し、収束判定結果dconvn(k)を「0」にする。一方、回帰直線の傾きが所定の閾値THBよりも小さい帯域kについて、収束判定部143は、伝達特性dn(m,k)が収束したと判定し、収束判定結果dconvn(k)を「1」にする。

0060

収束判定部143は、収束判定結果Dconvn(k),dconvn(k)をゲイン算出部145に渡す。

0061

次に、ゲイン決定部140は、周波数スペクトルXn(m,k)に基づいて、背景雑音スペクトルBNn(m,k)を推定する(ステップS405)。ステップS405の処理は、背景雑音推定部144が行う。背景雑音推定部144は、既知の推定方法に従って、周波数スペクトルXn(m,k)における背景雑音スペクトルBNn(m,k)を推定する。背景雑音推定部144は、推定した背景雑音スペクトルBNn(m,k)をゲイン算出部145に渡す。

0062

次に、ゲイン決定部140は、伝達特性の分布のピーク値Dn(m,k)と、ばらつきの度合いσn(m,k)とに基づいて、抑圧閾値THn(m,k)を算出する(ステップS406)。ステップS406の処理は、ゲイン算出部145が行う。ゲイン算出部145は、下記式(4)により抑圧閾値THn(m,k)を算出する。

0063

THn(m,k)=Dn(m,k)+β・σn(m,k) ・・・(4)

0064

式(4)のβは重み係数である。

0065

次に、ゲイン算出部145は、収束判定結果Dconvn(k),dconvn(k)と、周波数スペクトルXn(m,k)と、背景雑音スペクトルBNn(m,k)と、抑圧閾値THn(m、k)とに基づいて、ゲインGn(m,k)を算出する(ステップS407)。

0066

ゲイン算出部145は、全ての周波数スペクトルXn(m,k)のうちの、収束判定結果がDconvn(k)=0、又はdconvn(k)=0である帯域kの周波数スペクトルXn(m,k)に付加するゲインGn(m,k)を全て「1」にする。

0067

一方、ゲイン算出部145は、全ての周波数スペクトルXn(m,k)のうちの、収束判定結果がDconvn(k)=dconvn(k)=1である帯域kのスペクトルXn(m,k)に付加するゲインGn(m,k)を、次のように算出する。

0068

まず、ゲイン算出部145は、帯域kのスペクトルXn(m,k)と、当該スペクトルXn(m,k)と対応付けられた他のスペクトルXn’(m,k)とのレベル差の絶対値と、抑圧閾値THn(m,k)とを比較する。ここで、帯域kのスペクトルXn(m,k)と他のスペクトルXn’(m,k)との対応関係は、伝達特性を算出する際の対応関係と同じ対応関係とする。スペクトルのレベル差の絶対値が抑圧閾値THn(m,k)よりも小さい場合、ゲイン算出部145は、式(5−1)及び式(5−2)により、帯域kのスペクトルXn(m,k)及びスペクトルXn’(m、k)のそれぞれに付加するゲインGn(m,k)及びGn’(m,k)を算出する。

0069

Gn(m,k)=1 ・・・(5−1)
Gn’(m,k)=BNn’(m,k)/Xn’(m,k) ・・・(5−2)

0070

一方、スペクトルのレベル差の絶対値が抑圧閾値THn(m,k)よりも小さい場合、ゲイン算出部145は、式(5−3)及び式(5−4)により、帯域kのスペクトルXn(m,k)及びXn’(m、k)のそれぞれに付加するゲインGn(m,k)及びゲインGn’(m,k)を算出する。

0071

Gn(m,k)=BNn(m,k)/Xn(m,k) ・・・(5−3)
Gn’(m,k)=1 ・・・(5−4)

0072

すなわち、帯域kの伝達特性dn(m,k)に相当する、第1のスペクトルXn(m,k)と第2のスペクトルXn’(m,k)とのレベル差の絶対値が抑圧閾値THn(m,k)よりも小さい場合、ゲイン算出部145は、第スペクトルXn’(m,k)を抑圧する。一方、帯域kの伝達特性dn’(m,k)に相当する、第1のスペクトルXn(m,k)と第2のスペクトルXn’(m,k)とのレベル差の絶対値が抑圧閾値THn’(m,k)よりも小さい場合、ゲイン算出部145は、第2のスペクトルXn(m,k)を抑圧する。

0073

ゲイン算出部145が処理対象である全ての変数n,kについてのゲインGn(m,k)を算出し、算出したゲインGn(m,k)をゲイン付加部150に渡すと、ゲイン決定処理が終了する。

0074

ゲイン決定処理が終了した後、音声処理装置1は、既知の抑圧方法に従って、ゲインGn(m,k)を付加した周波数スペクトルSn(m,k)を算出し、周波数スペクトルSn(m,k)を時間領域の音声信号sxn(m,k)に変換する。

0075

このように、本実施形態に係るゲイン決定処理では、帯域k毎に、所定期間内における伝達特性の分布のピーク値Dn(m,k)と、伝達特性のばらつきの度合いσn(m,k)とに基づいて、抑圧閾値THn(m,k)を算出する。この際、ゲイン決定部140は、ばらつきの度合いσn(m,k)が大きい帯域の抑圧範囲が、ばらつきの度合いσn(m,k)が小さい帯域の抑圧範囲よりも広くなるよう抑圧閾値THn(m,k)を算出する。そのため、伝達特性が抑圧範囲内である場合に入力信号についての周波数スペクトルXn(m,k)を抑圧する音声処理における抑圧不足を防ぐことが可能となる。よって、本実施形態によれば、複数の人物による会話を収音した音声信号における各人物の音声を精度良く分離することが可能となる。

0076

図6は、伝達特性の分布の例を示す図である。
音声信号を周波数スペクトルに変換して伝達特性を算出した場合、伝達特性の分布のピーク値及び伝達特性のばらつきの度合いは、帯域毎に異なる。ある音声信号の所定期間における周波数スペクトルX1(m,k)の帯域k=k1についての伝達特性の分布は、例えば、図6の(a)に示すように、伝達特性のばらつきの度合いが小さく、ピークの鋭い分布となる。このとき、当該周波数スペクトルX1(m,k)の別の帯域k=k2についての伝達特性の分布は、例えば、図6の(b)に示すように、帯域k1の伝達特性の分布と比べてばらつきの度合いが大きく、ピークの鈍い分布となることがある。このため、例えば、伝達特性の分布のピーク値と、ある一定の抑圧閾値THとに基づいて抑圧範囲を設定した場合、帯域k2の周波数スペクトルXn(m,k2)の抑圧が不十分になることがある。

0077

図7は、伝達特性の分布と時系列変化との関係を説明する図である。
図7の(a)には、帯域k1についての伝達特性の分布のばらつきの度合いσ(k1)に基づいて抑圧範囲を設定した場合の、伝達特性d(k1)の時系列変化の例を示している。この場合、各時間における帯域k1の伝達特性d(k1)は、例えば、伝達特性の分布のピーク値D(k1)を中心とする上限値D(k1)+σ(k1)と下限値D(k1)−σ(k1)との間で推移する。このように、伝達特性d(k1)がばらつきの度合いσ(k1)に基づいて設定される抑圧範囲内である場合、上記のように、対応する周波数スペクトルは適切なゲインにより抑圧される。

0078

図7の(b)には、帯域k2についての伝達特性の分布のばらつきの度合いσ(k2)に基づいて抑圧範囲を設定した場合の、伝達特性d(k2)の時系列変化の例を示している。また、図7の(b)には、帯域k1についての伝達特性の分布のばらつきの度合いσ(k1)に基づいて設定した抑圧範囲も示している。

0079

帯域k2についての伝達特性の分布のばらつきの度合いσ(k2)は、帯域k1についての伝達特性の分布のばらつきの度合いσ(k1)よりも大きい。そのため、帯域k2についての伝達特性d(k2)の時系列変化は、帯域k1についての伝達特性d(k1)の時系列変化と比べて、伝達特性の振れ幅が大きくなる。ここで、帯域k1におけるばらつきの度合いσ(k1)に基づいて、帯域k2についての抑圧範囲を設定すると、伝達特性の分布のピーク値D(k2)を中心とする上限値D(k2)+σ(k1)から下限値D(k2)−σ(k1)までが抑圧範囲となる。この場合、図7の(b)に示したように、伝達特性d(k2)が抑圧範囲を超えてしまうことがある。伝達特性d(k2)が抑圧範囲を超えた場合、帯域k2のスペクトルは抑圧の対象から除外されるため、抑圧後の音声信号に抑圧不足が生じる。

0080

これに対し、本実施形態では、帯域k2の伝達特性の分布のばらつきの度合いσ(k2)に応じて、伝達特性の分布のピーク値D(k2)を中心とする上限値D(k2)+σ(k2)から下限値D(k2)−σ(k2)までの範囲を抑圧範囲とする。これにより、帯域k2の伝達特性d(k2)が抑圧範囲を超えることを防ぐことが可能となる。

0081

図8は、伝達特性が抑圧範囲内である場合の処理結果の例を示す図である。
図8には、第1の収音装置2Aから入力された第1の音声信号x1と、第2の収音信号2Bから入力された第2の音声信号x2とを示している。ここで、第1の収音装置2Aと第2の収音装置2Bとは、それぞれ、図3に示したように、第1の収音装置2Aが第1の人物4Aの近傍に設置され、第2の収音装置2Bが第2の人物4Bの近傍に設置されているとする。

0082

図8に示した第1の音声信号x1と第2の音声信号x2とでは、第1の音声信号x1の方が同一時刻における振幅が大きい。このため、図8に示した時刻t0から時刻t1の区間は、第1の収音装置2Aの近傍にいる第1の人物2Aが発話していると考えられる。この場合、第2の音声信号x2には、収音目的ではない第1の人物2Aの音声が含まれる。したがって、音声処理装置1では、第2の音声信号x2に含まれる第1の人物2Aの音声成分を抑圧する処理を行う。この場合、音声処理装置1は、図8に示したように、第2の音声信号x2の周波数スペクトルX2(m,k2)についての伝達特性の分布のピーク値D2(k2)と、ばらつきの度合いσ2(k2)とに基づいて、抑圧範囲(抑圧閾値)を設定する。ここで、図8に示した帯域k2を含む全ての帯域kで、第2の音声信号x2についての伝達特性d2が抑圧範囲内で推移していれば、図8に示したように、ゲインを付加した周波数スペクトルから得られる音声信号sx2は、振幅がほぼ0となる。このように、第2の音声信号x2についての周波数スペクトルX2(m,k2)が抑圧範囲内で推移していれば、第2の音声信号x2に含まれる第1の人物2Aの音声成分を適切に抑圧し、音源(発話している人物)を分離することが可能となる。

0083

図9は、伝達特性が抑圧範囲外となる期間がある場合の処理結果の例を示す図である。
図9には、第1の収音装置2Aから入力された第1の音声信号x1と、第2の収音信号2Bから入力された第2の音声信号x2とを示している。ここで、第1の収音装置2Aと第2の収音装置2Bとは、それぞれ、図3に示したように、第1の収音装置2Aが第1の人物4Aの近傍に設置され、第2の収音装置2Bが第2の人物4Bの近傍に設置されているとする。

0084

図9に示した第1の音声信号x1と第2の音声信号x2とは、それぞれ、図8に示した音声信号x1,x2と同じパターンであり、第1の音声信号x1のほうが同一時刻における振幅が大きい。このため、図9に示した時刻t0から時刻t1の区間は、第1の収音装置2Aの近傍にいる第1の人物2Aが発話していると考えられる。したがって、音声処理装置1では、第2の音声信号x2に含まれる第1の人物2Aの音声成分を抑圧する処理を行う。この場合、音声処理装置1は、図9に示したように、第2の音声信号x2の周波数スペクトルX2(m,k2)についての伝達特性の分布のピーク値D2(k2)と、ばらつきの度合いσとに基づいて、抑圧範囲(抑圧閾値)を設定する。ここで、帯域k2を含む全ての帯域kで、第2の音声信号x2についての伝達特性d2が抑圧範囲内となる区間では、上記のように、ゲインを付加した周波数スペクトルから得られる音声信号sx2の振幅がほぼ0となる。これに対し、帯域k2を含む1つ以上の帯域における伝達特性d2が抑圧範囲を超えている区間では、当該帯域のスペクトルに付加するゲインが「1」となり、スペクトルが抑圧されない。よって、伝達特性d2が抑圧範囲を超えている区間(帯域)がある場合、図9に示した音声信号sx2のように、抑圧が不十分な区間が生じ、音源(発話している人物)を適切に分離することが困難となることがある。

0085

これに対し、本実施形態に係るゲイン決定処理では、上記のように、帯域k毎に、所定期間内における伝達特性のばらつきの度合いσn(m,k)に基づいて、抑圧範囲(抑圧閾値THn(m,k))を制御する。この際、伝達特性のばらつきの度合いσn(m,k)が大きい帯域の抑圧範囲は、ばらつきの度合いσn(m,k)が小さい帯域の抑圧範囲よりも広くなる。よって、本実施形態によれば、伝達特性のばらつきの度合いσn(m,k)が大きい帯域における伝達特性が抑圧範囲を超えてしまうことによる抑圧不足を防ぐことが可能となる。

0086

なお、図4及び図5のフローチャートは、それぞれ、音声処理装置1が行う処理の一例に過ぎない。本実施形態に係る音声処理装置1が行う処理の内容は、図4及び図5の内容に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

0087

また、伝達特性のばらつきの度合いσn(m,k)は、上記の式(3)により算出される値に限らず、平均偏差標準偏差絶対偏差、分散、最大値最小値との差等の各種散布度であってもよい。すなわち、本実施形態に係る伝達特性分布算出部140が行う処理は、伝達特性(周波数スペクトルのレベル差)の分布の広がりを示す値を算出する処理であればよい。この際、周波数スペクトルのレベル差の分布の広がりを示す値を算出する処理は、レベル差の分布のピーク値の時間変化及び前記レベル差のいずれか1つに基づいて算出する処理であってもよい。例えば、レベル差の分布の広がりを示す値は、過去数秒間のレベル差における最大値と最小値の差等でもよい。

0088

また、例えば、抑圧閾値THn(m,k)を算出する処理(ステップS406)では、図10に示すように、伝達特性のばらつきの度合いが所定の閾値以下である場合には抑圧閾値THn(m,k)を一定の値にしてもよい。

0089

図10は、伝達特性のばらつきの度合いと抑圧閾値との関係の変形例を説明する図である。

0090

上記の式(4)により抑圧閾値THn(m,k)を算出する場合、伝達特性のばらつきの度合いσn(m,k)が小さくなると抑圧閾値THn(m,k)も小さくなる。そのため、伝達特性のばらつきの度合いσn(m,k)が小さい帯域kでは、抑圧範囲が狭くなり、伝達特性が抑圧範囲を超えてしまう可能性がある。よって、抑圧閾値THn(m,k)を算出する場合、図10に示すように、伝達特性のばらつきの度合いσn(m,k)が閾値σa以下である場合には、抑圧閾値THn(m,k)を一定の値THaとしてもよい。これにより、伝達特性のばらつきの度合いσn(m,k)が小さい帯域kにおける抑圧範囲が狭くなりすぎて伝達特性が抑圧範囲を超えてしまうことによる抑圧不足を防ぐことが可能となる。

0091

[第2の実施形態]
本実施形態では、インターネット等の通信ネットワークを利用して、収音装置で収音した音声信号を音声処理装置1に送信し、音声信号を抑圧する例を説明する。

0092

図11は、第2の実施形態に係る音声処理装置の適用例を示す図である。
図11に示すように、本実施形態に係る音声処理装置1は、サーバ装置5に内蔵されている。サーバ装置5は、音声処理装置1の他、分析装置510と、記憶部520とを含む。分析装置510は、例えば、音声処理装置1で抑圧処理をした音声信号に対する音声分析を行いパラメータ化する。記憶部520は、音声処理装置1で抑圧処理をした音声信号や、分析装置510で行った分析処理の結果等を記憶する。サーバ装置5は、インターネット等のネットワーク6と通信可能に接続される。

0093

音声処理装置1に送信する音声信号は、3個の収音装置2A,2B,2Cで収音する。3個の収音装置2A,2B,2Cは、テーブル3を囲む3人の人物4A,4B,4Cの音声を収音する。ここで、第1の収音装置2Aは、第1の人物4Aの音声を収音目的としており、第1の人物4Aの近傍に設置されている。第2の収音装置2Bは、第2の人物4Bの音声を収音目的としており、第2の人物4Bの近傍に設置されている。第3の収音装置2Cは、第3の人物4Cの音声を収音目的としており、第3の人物4Cの近傍に設置されている。第1の収音装置2A、第2の収音装置2B、及び第3の収音装置2Cは、通信端末7に接続されている。通信端末7は、収音装置から入力された音声信号を所定のファイルフォーマットでファイル化し、ネットワーク6を介してサーバ装置5に送信する。

0094

図12は、第2の実施形態に係る音声処理装置の機能的構成を示す図である。
図12に示すように、本実施形態に係る音声処理装置1は、通信部180と、周波数変換部120と、発話状態推定部130と、ゲイン決定部140と、ゲイン付加部150と、表示信号出力部172と、を備える。更に、音声処理装置1は、伝達特性情報保持部191を備える。

0095

本実施形態における周波数変換部120、発話状態推定部130、ゲイン付加部150、及び表示信号出力部172は、それぞれ、第1の実施形態で説明した機能を有する。なお、ゲイン付加部150は、ゲインを付加した周波数スペクトルを、表示信号出力部172と、サーバ5の分析装置510とに出力する。すなわち、本実施形態に係る音声処理装置1は、ゲインを付加した周波数スペクトルを、周波数スペクトルのまま分析装置510に出力する。

0096

通信部180は、音声処理装置1をネットワーク6と通信可能に接続し、ネットワーク6を介して通信端末7を含む各種通信機器との通信を行う。通信部180は、通信端末7の通信部701との間で音声ファイル及び表示信号の送受信を行う。

0097

通信端末7は、収音装置2の収音部201で収音した音声信号を取得し、ファイル化部702で取得した音声信号をファイル化する。通信端末7の通信部701は、ファイル化した音声信号(音声ファイル)を音声処理装置1の通信部180に向けて送信する。また、通信端末7の通信部701は、音声処理装置1の通信部180が収音装置2の表示部202に向けて送信する表示信号を受信し、各収音装置2に転送する。

0098

図13は、第2の実施形態に係る音声処理装置におけるゲイン決定部の構成を示す図である。

0099

図13に示すように、本実施形態におけるゲイン決定部140は、伝達特性推定部141と、伝達特性分布算出部142と、背景雑音推定部144と、ゲイン算出部145と、を含む。本実施形態における伝達特性推定部141、伝達特性分布算出部142、背景雑音推定部144、及びゲイン算出部145は、それぞれ、第1の実施形態で説明した機能を有する。すなわち、本実施形態に係る音声処理装置1では、収束判定部143が省略されている。

0100

本実施形態に係る音声処理装置1は、通信端末7から音声信号を取得する処理を開始した後、図4に示したステップS1〜S5,及びS7〜S9の処理を行う。なお、本実施形態に係る音声処理装置1が行うステップS7の処理のうちの、音声信号を出力する処理は、ゲイン付加部150が行う。ゲイン付加部150は、ゲインを付加した周波数スペクトルSn(m,k)=Gn(m,k)・Xn(m,k)を、表示信号出力部172と、分析装置510とに出力する。

0101

また、本実施形態に係る音声処理装置1のゲイン決定部140は、ステップS4のゲイン決定処理として、図14A及び図14Bに示す処理を行う。

0102

図14Aは、第2の実施形態に係るゲイン決定処理の内容を説明するフローチャート(その1)である。図14Bは、第2の実施形態に係るゲイン決定処理の内容を説明するフローチャート(その2)である。

0103

本実施形態に係るゲイン決定処理において、ゲイン決定部140は、まず、図14Aに示すように、発話状態推定部130から受信した発話状態の推定結果C(m)に基づいて、発話している人物が一人であるか否かを判定する(ステップS421)。ステップS421は、伝達特性推定部141が行う。

0104

発話している人物が一人である場合(ステップS421;YES)、伝達特性推定部141は、続けて、発話状態の推定結果C(m)と、周波数スペクトルXn(m,k)とに基づいて、伝達特性dn(m、k)を推定する処理(ステップS422)を行う。伝達特性推定部141が行うステップS422の処理は、第1の実施形態で説明したステップS402の処理と同じでよい。例えば、入力音声信号が3個であり、発話状態の推定結果C(m)=1である場合、伝達特性推定部141は、下記式(6−1)及び式(6−2)により、伝達特性d1(m,k),d2(m、k),及びd3(m,k)を算出する。

0105

d1(m,k)=X1(m,k)−X2(m,k) ・・・(6−1)
d2(m,k)=d3(m,k)=none ・・・(6−2)

0106

また、例えば、入力音声信号が3個であり、発話状態の推定結果C(m)=2である場合、伝達特性推定部141は、下記式(6−3)及び式(6−4)により、伝達特性d1(m,k),d2(m,k),及びd3(m,k)を算出する。

0107

d1(m,k)=d3(m,k)=none ・・・(6−3)
d2(m,k)=X1(m,k)−X2(m,k) ・・・(6−4)

0108

また、例えば、入力音声信号が3個であり、発話状態の推定結果C(m)=3である場合、伝達特性推定部141は、下記式(6−5)及び式(6−6)により、伝達特性d1(m,k),d2(m,k),及びd3(m,k)を算出する。

0109

d1(m,k)=d2(m,k)=none ・・・(6−5)
d3(m,k)=X1(m,k)−X3(m,k) ・・・(6−6)

0110

式(6−2)、式(6−3)、及び式(6−5)におけるnoneは、それぞれ、伝達特性dn(m,k)を以後の処理対象から除外することを意味する。

0111

伝達特性推定部141は、推定した伝達特性dn(m,k)(n=0,1,・・・,N,k=0,1,・・・,T−1)を伝達特性情報保持部191に格納する。

0112

次に、ゲイン決定部140は、伝達特性dn(m,k)を含む所定期間内における伝達特性の分布のピーク値Dn(m,k)を算出する(ステップS423)。ステップS423の処理は、伝達特性分布算出部142が行う。伝達特性分布算出部142は、例えば、上記式(3−1)により分布のピーク値Dn(m,k)を算出する。

0113

分布のピーク値Dn(m,k)を算出した後、伝達特性分布算出部142は、続けて、伝達特性dn(m,k)がピーク値Dn(m,k)よりも大きいフレームにおける伝達特性のばらつきの度合いφn(m,k)を算出する(ステップS424)。更に続けて、伝達特性分布算出部142は、伝達特性dn(m,k)がピーク値Dn(m,k)よりも小さいフレームにおける伝達特性のばらつきの度合いψn(m,k)を算出する(ステップS425)。伝達特性分布算出部142は、下記式(3−3)により伝達特性のばらつきの度合いφn(m,k)を算出し、下記式(3−4)により伝達特性のばらつきの度合いψn(m,k)を算出する。

0114

0115

次に、ゲイン決定部140は、図14Bに示すように、周波数スペクトルXn(m,k)に基づいて、背景雑音スペクトルBNn(m,k)を推定する(ステップS426)。また、発話している人物が一人ではない場合(ステップS421;NO)、ゲイン決定部140は、ステップS422〜S425の処理をスキップして、ステップS426の処理を行う。ステップS426の処理は、背景雑音推定部144が行う。背景雑音推定部144は、既知の推定方法に従って、周波数スペクトルXn(m,k)における背景雑音スペクトルBNn(m,k)を推定する。背景雑音推定部144は、推定した背景雑音スペクトルBNn(m,k)をゲイン算出部145に渡す。

0116

次に、ゲイン決定部140は、伝達特性の分布のピーク値Dn(m,k)と、ばらつきの度合いσn(m,k)とに基づいて、抑圧閾値THn(m,k)を算出する(ステップS427)。ステップS427の処理は、ゲイン算出部145が行う。ゲイン算出部145は、下記式(7−1)及び式(7−2)により抑圧閾値THφn(m,k),THψn(m,k)を算出する。

0117

THφn(m,k)=Dn(m,k)+c(k)・σn(m,k) ・・・(7−1)
THψn(m,k)=Dn(m,k)−d(k)・σn(m,k) ・・・(7−2)

0118

式(7−1)のc(k)及び式(7−2)のd(k)は、それぞれ帯域k毎に定めた係数である。なお、係数c(k),d(k)は、全ての帯域kで共通の値であってもよい。

0119

次に、ゲイン算出部145は、算出した抑圧閾値THn(m,k)により特定される抑圧範囲に重なりがあるか否かを判定する(ステップS428)。重なりがある場合(ステップS428)、ゲイン算出部145は、重なりがなくなるよう抑圧閾値の係数c(k),d(k)を修正する(ステップS429)。

0120

ステップS429で抑圧閾値THn(m,k)を修正した後、ゲイン算出部140は、続けて、間隙が閾値以上の抑圧閾値の組があるか否かを判定する(ステップS430)。また、抑圧範囲に重なりがない場合(ステップS428;NO)、ゲイン算出部145は、ステップS429をスキップしてステップS430の判定を行う。ステップS430において、ゲイン算出部140は、例えば、帯域kの抑圧閾値THφn(m,k),THψn(m,k)に基づいて、抑圧範囲に含まれない伝達特性の区間の幅を算出する。算出した幅が閾値以上である区間を検出した場合(ステップS430;YES)、ゲイン算出部140は、間隙が狭くなるよう抑圧閾値を修正する(ステップS431)。

0121

ステップS431で抑圧閾値THn(m,k)を修正した後、ゲイン算出部140は、周波数スペクトルXn(m,k)と、背景雑音スペクトルBNn(m,k)と、抑圧閾値THφn, THψnとに基づいて、ゲインGn(m,k)を算出する(ステップS432)。

0122

ゲイン算出部145は、帯域k毎に、スペクトルXn(m,k)と、当該スペクトルXn(m,k)と対応付けられた他のスペクトルXn’(m,k)とのレベル差の絶対値と、抑圧閾値THφn(m,k),THψn(m,k)により定まる抑圧範囲を比較する。ここで、スペクトルXn(m,k)と他のスペクトルXn’(m,k)との対応関係は、伝達特性を算出する際の対応関係と同じ対応関係とする。スペクトルのレベル差の絶対値が抑圧閾値THn(m,k)よりも小さい場合、ゲイン算出部145は、スペクトルXn(m、k)に付加するゲインGn(m,k)と、スペクトルXn’(m、k)に付加するゲインGn’(m,k)とを算出する。

0123

例えば、入力音声信号が3個である場合、ゲイン算出部145は、まず、帯域k毎に、スペクトルX1(m,k)とスペクトルX2(m,k)とのレベル差が、抑圧閾値THφ1(m,k),THψ1(m,k)とにより定まる抑圧範囲内であるか否かを判定する。スペクトルX1(m,k)とスペクトルX2(m,k)とのレベル差が、抑圧範囲内である場合、ゲイン算出部145は、下記式(8−1)〜式(8−3)により、ゲインGn(m,k)を決定する。

0124

G1(m,k)=1 ・・・(8−1)
G2(m,k)=BN2(m,k)/X2(m,k) ・・・(8−2)
G3(m,k)=BN3(m,k)/X3(m,k) ・・・(8−3)

0125

また、スペクトルX1(m,k)とスペクトルX2(m,k)とのレベル差が、抑圧閾値THφ2(m,k),THψ2(m,k)とにより定まる抑圧範囲内である場合、ゲイン算出部145は、下記式(8−4)及び(8−6)により、ゲインGn(m,k)を決定する。

0126

G1(m,k)=BN1(m,k)/X1(m,k) ・・・(8−4)
G2(m,k)=1 ・・・(8−5)
G3(m,k)=BN3(m,k)/X3(m,k) ・・・(8−6)

0127

また、スペクトルX1(m,k)とスペクトルX3(m,k)との差が、抑圧閾値THφ3(m,k),THψ3(m,k)とにより定まる抑圧範囲内である場合、ゲイン算出部145は、下記式(8−7)及び(8−9)により、ゲインGn(m,k)を決定する。

0128

G1(m,k)=BN1(m,k)/X1(m,k) ・・・(8−7)
G2(m,k)=BN2(m,k)/X2(m,k) ・・・(8−8)
G3(m,k)=1 ・・・(8−9)

0129

ゲイン算出部145が全てのゲインGn(m,k)を算出し、算出したゲインGn(m,k)をゲイン付加部150に渡すと、ゲイン決定処理が終了する。

0130

ゲイン決定処理が終了した後、音声処理装置1は、ゲイン付加部150において、既知の抑圧方法に従って、ゲインGn(m,k)を付加した周波数スペクトルSn(m,k)を算出する。ゲイン付加部150は、算出した周波数スペクトルSn(m,k)を表示信号出力部172と、分析装置510に出力する。表示信号出力部172は、発話状態の推定結果C(m)と、周波数スペクトルXn(m,k)に適用したゲインGn(m,k)とに基づいて、発話している人物の近傍に設置された収音装置2を特定し、特定した収音装置2の表示部202を表示させる信号を出力する。表示信号出力部172が出力した表示信号は、通信部180から、ネットワーク6を介して通信端末7に送信される。通信端末7は、受信した表示信号を所定の収音装置2に転送して表示部202を表示させる。

0131

このように、本実施形態に係るゲイン決定処理では、帯域k毎に、所定期間内における伝達特性の分布のピーク値Dn(m,k)と、伝達特性のばらつきの度合いσn(m,k)とに基づいて、抑圧閾値THn(m,k)を算出する。この際、ゲイン決定部140は、ばらつきの度合いσn(m,k)が大きい帯域の抑圧範囲が、ばらつきの度合いσn(m,k)が小さい帯域の抑圧範囲よりも広くなるよう抑圧閾値THn(m,k)を算出する。そのため、伝達特性が抑圧範囲内である場合に入力信号スペクトルXn(m,k)を抑圧する音声処理における抑圧不足を防ぐことが可能となる。よって、本実施形態によれば、複数の人物による会話を収音した音声信号における各人物の音声を精度良く分離することが可能となる。

0132

また、本実施形態に係るゲイン決定処理では、伝達特性が分布のピーク値Dn(m,k)よりも大きい区間でのばらつきの度合いφn(m,k)と、ピーク値Dn(m,k)よりも小さい区間でのばらつきの度合いψn(m,k)と、別個に算出する。そして、それぞれのばらつきの度合いφn(m,k),ψn(m,k)に基づいて算出した抑圧閾値により抑圧範囲を設定する。

0133

図15は、第2の実施形態における抑圧閾値の算出方法を説明する図である。
図15の(a)には、図6のような伝達特性の分布のヒストグラムを簡略化した伝達特性の分布を示している。伝達特性の分布は、例えば、図15の(a)に示すように、伝達特性がピーク値Dn(m,k)よりも大きい区間におけるばらつきの度合いφと、ピーク値Dn(m,k)よりも小さい区間におけるばらつきの度合いψとが異なる場合がある。図15の(a)に示した伝達特性の分布では、伝達特性がピーク値Dn(m,k)よりも大きくなる場合が、伝達特性がピーク値Dn(m,k)よりも小さくなる場合よりも多い。そのため、抑圧閾値THn(m,k)を算出する際には、図15の(b)に示すように、ピーク値D2(m,k2)よりも大きい伝達特性に対する抑圧範囲が、ピーク値D2(m,k)よりも小さい伝達特性に対する抑圧範囲よりも広くなるようにすることが好ましい。これにより、伝達特性の分布に応じたより適切な抑圧範囲を設定することが可能となる。なお、図15の(b)には、帯域k=k2の場合の抑圧閾値を例示しているが、他の帯域kについても、同様に、伝達特性の分布に基づいて抑圧閾値を設定する。この際、各帯域における抑圧範囲は、ピーク値Dn(m,k)よりも大きい区間のほうが広くなる帯域と、ピーク値Dn(m,k)よりも小さい区間のほうが広くなる帯域と、が混在していてもよいことはもちろんである。

0134

更に、本実施形態に係るゲイン決定処理では、抑圧閾値THφn(m,k),THψn(m,k)により定まる抑圧範囲に重なりがある場合には、重なりがなくなるよう抑圧閾値THφn(m,k),THψn(m,k)の値を修正する。

0135

図16は、抑圧範囲が重なっている場合の修正方法を説明する図である。
図16の(a)には、ある帯域における、周波数スペクトルX1(m,k)についての伝達特性のピーク値D1及び抑圧閾値THφ1と、周波数スペクトルX2(m,k)についての伝達特性のピーク値D2及び抑圧閾値THφ2,THψ2とを示している。図16の(a)では、周波数スペクトルX1(m,k)についての上限側の抑圧閾値THφ1(m,k)と、周波数スペクトルX2(m,k)についての下限側の抑圧閾値THψ2(m,k)との大小関係が、THφ1(m,k)>THψ2(m,k)となっている。すなわち、周波数スペクトルX1(m,k)に対する抑圧範囲と、周波数スペクトルX2(m,k)に対する抑圧範囲とに重なりがある。このように抑圧範囲に重なりがあると、例えば、付加するゲインG1(m,k),G2(m,k)を算出する際に誤った判定をし、誤った抑圧をしてしまう可能性がある。

0136

このため、本実施形態のゲイン決定処理では、抑圧範囲に重なりがある場合、重なりがなくなるよう抑圧閾値を修正する。すなわち、図16の(b)に示すように、周波数スペクトルX1(m,k)についての上限側の抑圧閾値THφ1(m,k)と、周波数スペクトルX2(m,k)についての下限側の抑圧閾値THψ2(m,k)との大小関係が、THφ1(m,k)<THψ2(m,k)となるように修正する。これにより、抑圧範囲の重なりによる不適切な抑圧を防止することが可能となる。なお、抑圧閾値THφ1(m,k),THψ2(m,k)を修正方法は適宜設定可能であり、抑圧閾値THφ1(m,k)及びTHψ2(m,k)のいずれか一方のみを修正してもよいし、抑圧閾値THφ1(m,k)及びTHψ2(m,k)の両方を修正してもよい。

0137

また、本実施形態に係るゲイン決定処理では、抑圧閾値THφn(m,k),THψn(m,k)により定まる抑圧範囲の間隙が閾値以上である場合には、間隙が狭くなるように抑圧閾値THφn(m,k),THψn(m,k)の値を修正する。これにより、抑圧範囲に設定されていない伝達特性の存在による抑圧不足を防止することが可能となる。

0138

なお、図14A及び図14Bのフローチャートは、それぞれ、本実施形態に係る音声処理装置1が行うゲイン決定処理の一例に過ぎない。本実施形態に係る音声処理装置1が行うゲイン決定処理の内容は、図14A及び図14Bの内容に限らず、本実施形態の要旨を逸脱しない範囲において適宜変更可能である。

0139

上記の実施形態で説明した、音声処理装置1は、例えば、コンピュータと、当該コンピュータに実行させるプログラムとにより実現可能である。以下、図17を参照して、コンピュータとプログラムとにより実現される音声処理装置1について説明する。

0140

図17は、コンピュータのハードウェア構成を示す図である。
図17に示すように、コンピュータ15は、プロセッサ1501と、主記憶装置1502と、補助記憶装置1503と、入力装置1504と、出力装置1505と、入出力インタフェース1506と、通信制御装置1507と、媒体駆動装置1508と、を備える。コンピュータ15におけるこれらの要素1501〜1508は、バス1510により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

0141

プロセッサ1501は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ1501は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ15の全体の動作を制御する。また、プロセッサ1501は、例えば、図4及び図5に示した各処理を行う。また、プロセッサ1501は、図5に示した各処理の代わりに、図14A及び図14Bに示した各処理を行うことも可能である。

0142

主記憶装置1502は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置1502のROMには、例えば、コンピュータ15の起動時にプロセッサ1501が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置1502のRAMは、プロセッサ1501が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置1502のRAMは、例えば、図1の音声処理装置1における伝達特性情報保持部191として利用可能である。また、主記憶装置1502のRAMは、伝達特性情報保持部191として利用可能である他、入力音声信号、周波数スペクトル、ゲインを決定する過程で算出する各種情報等の記憶に利用可能である。

0143

補助記憶装置1503は、例えば、Hard Disk Drive(HDD)や、フラッシュメモリ等の不揮発性メモリ(Solid State Drive(SSD)を含む)等、主記憶装置1502のRAMと比べて容量の大きい記憶装置である。補助記憶装置1503は、プロセッサ1501によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置1503は、例えば、図4及び図5に示した各処理を含むプログラム等の記憶に利用可能である。また、補助記憶装置1503は、例えば、音声ファイル記憶部192として利用可能である他、入力音声信号、周波数スペクトル等の記憶に利用可能である。

0144

入力装置1504は、例えば、キーボード装置タッチパネル装置等である。コンピュータ15のオペレータ利用者)が入力装置1504に対して所定の操作を行うと、入力装置1504は、その操作内容に対応付けられている入力情報をプロセッサ1501に送信する。入力装置1504は、例えば、会話の録音を開始させる命令、コンピュータ15が実行可能な他の処理に関する命令等の入力や、各種設定値の入力等に利用可能である。

0145

出力装置1505は、例えば、液晶表示装置等の装置、スピーカ等の音声再生装置を含む。

0146

入出力インタフェース1506は、コンピュータ15と、他の電子機器とを接続する。入出力インタフェース1506は、例えば、Universal Serial Bus(USB)規格コネクタ等を備える。入出力インタフェース1506は、例えば、コンピュータ15と、収音装置2との接続に利用可能である。

0147

通信制御装置1507は、コンピュータ15をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ15と他の電子機器との各種通信を制御する装置である。通信制御装置1507は、例えば、コンピュータ15と、収音装置で収音した音声信号を音声ファイルにしてコンピュータ15に送信する通信端末7との通信に利用可能である。

0148

媒体駆動装置1508は、可搬型記憶媒体16に記録されているプログラムやデータの読み出し、補助記憶装置1503に記憶されたデータ等の可搬型記憶媒体16への書き込みを行う。媒体駆動装置1508には、例えば、1種類又は複数種類の規格に対応したメモリカードリーダライタが利用可能である。媒体駆動装置1508としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体16としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体16としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ15が媒体駆動装置1508として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体16として利用可能である。可搬型記録媒体16として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。可搬型記録媒体16は、図4及び図5に示した処理を含むプログラム、入力音声信号、ゲインを付加して抑圧した音声信号等の記憶に利用可能である。

0149

オペレータが入力装置1504等を利用して会話の録音を開始する命令をコンピュータ15に入力すると、プロセッサ1501が、補助記憶装置1503等の非一時的な記録媒体に記憶させた音声処理プログラムを読み出して実行する。この処理において、プロセッサ1501は、音声処理装置1の入力受付部110、周波数変換部120、発話状態推定部130、ゲイン決定部140、ゲイン付加部150、逆変換部160等として機能する(動作する)。また、主記憶装置1502のRAMや補助記憶装置1503等は、音声処理装置1における伝達特性情報保持部191、音声データ記憶部192の他、入力音声信号や周波数スペクトル等を記憶する記憶部として機能する。

0150

なお、音声処理装置1として動作させるコンピュータ15は、図17に示した全ての要素1501〜1508を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ15は、媒体駆動装置1508が省略されたものであってもよい。

0151

以上記載した各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する第2の周波数スペクトルとを取得し、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(付記2)
前記ゲインを決定する処理は、
前記第1の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定するとともに、
前記第2の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記3)
前記レベル差の分布の広がりを算出する処理は、
前記レベル差のばらつきの度合いを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記4)
前記レベル差のばらつきの度合いを算出させる処理は、
前記レベル差の分布についての散布度を算出する処理である、
ことを特徴とする付記3に記載の音声処理プログラム。
(付記5)
前記レベル差の分布の広がりを算出する処理は、
前記所定期間内における前記レベル差の分布のピーク値を算出し、
前記ピーク値の時間変化及び前記レベル差の少なくともいずれか1つに基づいて、前記レベル差の分布の広がりを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記6)
前記レベル差の分布の広がりを算出する処理は、
前記所定期間内における前記レベル差の分布のピーク値を算出し、
前記ピーク値よりも大きい前記レベル差の分布に基づいて第1の広がりを算出するとともに、前記ピーク値よりも小さい前記レベル差の分布に基づいて第2の広がりを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記7)
前記ゲインを決定する処理は、
前記所定期間内における前記レベル差の分布のピーク値と、前記レベル差の分布の広がりを示す値を定数倍した値との和及び差のいずれかに基づいて抑圧閾値を算出し、
前記レベル差が前記抑圧閾値により特定される範囲内であるか否かに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加する前記ゲインと、前記第2の周波数スペクトルの前記周波数成分に付加する前記ゲインとを決定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記8)
前記ゲインを決定する処理は、
1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲とに重なりが生じる場合に、前記抑圧閾値を修正する処理を含む、
ことを特徴とする付記2に記載の音声処理プログラム。
(付記9)
前記ゲインを決定する処理は、
1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲との間隙が閾値以上である場合に、前記抑圧閾値を修正する処理を含む、
ことを特徴とする付記2に記載の音声処理プログラム。
(付記10)
前記音声処理プログラムは、前記所定期間内における前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束しているか否かを判定する処理を更に含み、
前記ゲインを決定する処理は、前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束している場合に、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記11)
前記音声処理プログラムは、前記第1の周波数スペクトルと、前記第2の周波数スペクトルとに基づいて、前記音声信号における発話状態を推定する処理を更に含み、
前記レベル差の広がりを算出する処理は、前記発話状態の推定結果が、一人の人物が発話している状態である場合に、前記レベル差の広がりを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記12)
前記音声処理プログラムは、前記第1の周波数スペクトルの前記周波数成分と、前記第2の周波数スペクトルの前記周波数成分のそれぞれに決定した前記ゲインを付加し、
前記ゲインを付加した前記第1の周波数スペクトルと、前記第2の周波数スペクトルとを時間領域の音声信号に変換させる処理、を更に含む、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記13)
前記音声処理プログラムは、前記第1の周波数スペクトルについての第1の背景雑音スペクトルと、前記第2の周波数スペクトルについての第2の背景雑音スペクトルとを算出させる処理を更に含み、
前記ゲインを決定する処理は、前記第1の周波数スペクトルと前記第1の背景雑音スペクトルとに基づいて前記第1の周波数スペクトルに付加する前記ゲインを算出し、前記第2の周波数スペクトルと前記第2の背景雑音スペクトルとに基づいて前記第2の周波数スペクトルに付加する前記ゲインを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記14)
前記周波数スペクトルを取得する処理は、前記第1の音声信号及び前記第2の音声信号を含む3以上の音声信号のそれぞれに対応する3以上の周波数スペクトルを取得し、
前記ゲインを決定する処理は、前記3以上の周波数スペクトルの中から選択した前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差の分布の広がりと、前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差と、に基づいて、前記3以上の周波数スペクトルの各周波数成分に付加するゲインを決定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記15)
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する周波数変換部と、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する伝達特性推定部と、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出する伝達特性分布算出部と、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを算出するゲイン算出部と、
を備えることを特徴とする音声処理装置。
(付記16)
前記第1の周波数スペクトルと、前記第2の周波数スペクトルとに基づいて前記第1の音声信号及び前記第2の音声信号の発話状態を推定する発話状態推定部、を更に備え、
前記伝達特性推定部は、前記発話状態が一人の人物が発話している状態である場合に前記レベル差の広がりを算出する、
ことを特徴とする付記15に記載の音声処理装置。
(付記17)
前記第1の周波数スペクトルについての第1の背景雑音スペクトルと、前記第2の周波数スペクトルについての第2の背景雑音スペクトルとを算出する背景雑音推定部、を更に備え、
前記ゲイン算出部は、前記第1の周波数スペクトルと前記第1の背景雑音スペクトルとに基づいて前記第1の周波数スペクトルに付加する前記ゲインを算出し、前記第2の周波数スペクトルと第2の背景雑音スペクトルとに基づいて前記第2の周波数スペクトルに付加する前記ゲインを算出する、
ことを特徴とする付記15に記載の音声処理装置。
(付記18)
前記所定期間内における前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束しているか否かを判定する収束判定部、を更に備え、
前記ゲイン算出部は、前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束している場合に、前記第1の周波数スペクトルに付加する前記ゲインと、前記第2の周波数スペクトルに付加する前記ゲインとを算出する
ことを特徴とする付記15に記載の音声処理装置。
(付記19)
コンピュータが、
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得し、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、
ことを特徴とする音声処理方法。

0152

1音声処理装置
110入力受付部
120周波数変換部
130発話状態推定部
140ゲイン決定部
141伝達特性推定部
142 伝達特性分布算出部
143収束判定部
144背景雑音推定部
145ゲイン算出部
150ゲイン付加部
160逆変換部
171ファイル化部
172表示信号出力部
180通信部
191 伝達特性情報保持部
192音声ファイル記憶部
2,2A,2B,2C収音装置
201収音部
202 表示部
4A,4B,4C人物
5サーバ装置
501分析装置
502 記憶部
6ネットワーク
7通信端末
701 通信部
702 ファイル化部
15コンピュータ
1501プロセッサ
1502主記憶装置
1503補助記憶装置
1504入力装置
1505出力装置
1506入出力インタフェース
1507通信制御装置
1508媒体駆動装置
16 可搬型記録媒体

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ