図面 (/)

技術 音声処理装置およびプログラム

出願人 ヤマハ株式会社
発明者 吉岡靖雄
出願日 2007年8月29日 (11年4ヶ月経過) 出願番号 2007-222669
公開日 2009年3月12日 (9年10ヶ月経過) 公開番号 2009-053618
状態 特許登録済
技術分野 音声の分析・合成 音声認識
主要キーワード 開閉音 空調音 基準ピッチ 低下側 ガウス混合モデル 高域強調フィルタ 収音機器 平均ピッチ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2009年3月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

入力音が非人声を含む場合でも声と声とを適切に区別する。

解決手段

記憶装置24は、複数の男性発声音から生成された男性話者モデルMMと複数の女性の発声音から生成された女性話者モデルMFとを記憶する。男声指標算定部52は、入力音VIN(音声信号SIN)と男性話者モデルMMとの類否を示す男声指標値LM0を算定する。女声指標算定部54は、入力音VINと女性話者モデルMFとの類否を示す女声指標値LF0を算定する。判別部62は、入力音VINを人声と非人声とに判別し、人声と判別した場合には男声指標値LM0と女声指標値LF0とに基づいて入力音VINを男声と女声とに判別する。

概要

背景

入力音声および声の何れであるかを判別する技術が従来から提案されている。例えば特許文献1には、入力音と男声標準パターンとの距離および入力音と女声標準パターンとの距離を比較した結果に応じて入力音を男声および女声の何れであるかを判定する技術が開示されている。
特開昭60−129795号公報

概要

入力音が非人声を含む場合でも男声と女声とを適切に区別する。記憶装置24は、複数の男性発声音から生成された男性話者モデルMMと複数の女性の発声音から生成された女性話者モデルMFとを記憶する。男声指標算定部52は、入力音VIN(音声信号SIN)と男性話者モデルMMとの類否を示す男声指標値LM0を算定する。女声指標算定部54は、入力音VINと女性話者モデルMFとの類否を示す女声指標値LF0を算定する。判別部62は、入力音VINを人声と非人声とに判別し、人声と判別した場合には男声指標値LM0と女声指標値LF0とに基づいて入力音VINを男声と女声とに判別する。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力音声と声と非人声とに区別する装置であって、複数の男性発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、前記入力音と前記男性話者モデルとの類否を示す男声指標値算定する男声指標算定手段と、前記入力音と前記女性話者モデルとの類否を示す女声指標値を算定する女声指標算定手段と、前記入力音を人声と非人声とに判別する第1判別手段と、前記第1判別手段が人声と判別した場合に前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第2判別手段とを具備する音声処理装置

請求項2

前記入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、前記第1判別手段は、前記安定指標値に基づいて前記入力音を人声と非人声とに判別する請求項1の音声処理装置。

請求項3

前記安定指標算定手段は、前記入力音を区分した複数のフレームのうち相前後する各フレーム間の特徴量の相違を前記複数のフレームについて平均化することで前記安定指標値を算定し、前記第1判別手段は、前記安定指標値が閾値を下回る場合に前記入力音を人声と判定し、前記安定指標値が閾値を上回る場合に前記入力音を非人声と判定する請求項2の音声処理装置。

請求項4

前記入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、前記第1判別手段は、前記有声指標値に基づいて前記入力音を人声と非人声とに判別する請求項1から請求項3の何れかの音声処理装置。

請求項5

前記第1判別手段は、前記男声指標値および前記女声指標値の何れかが閾値に対して類似側にある場合に前記入力音を人声と判定し、前記男声指標値および前記女声指標値の双方が当該閾値に対して非類似側にある場合に前記入力音を非人声と判定する請求項1から請求項4の何れかの音声処理装置。

請求項6

前記入力音のピッチを特定するピッチ特定手段と、前記ピッチが所定値を下回る場合に前記男声指標値を類似側に変化させ、前記ピッチが所定値を上回る場合に前記女声指標値を類似側に変化させる調整手段とを具備し、前記第2判別手段は、前記調整手段による調整後の男声指標値および女声指標値に基づいて前記入力音を男声と女声とに判別する請求項1から請求項5の何れかの音声処理装置。

請求項7

前記第1判別手段および前記第2判別手段による判別の結果に応じて異なる処理を前記入力音に実行する信号処理手段を具備する請求項1から請求項6の何れかの音声処理装置。

請求項8

入力音と複数の男性の発声音から生成された男性話者モデルとの類否を示す男声指標値を算定する男声指標算定処理と、前記入力音と複数の女性の発声音から生成された女性話者モデルとの類否を示す女声指標値を算定する女声指標算定処理と、前記入力音を人声と非人声とに判別する第1判別処理と、前記第1判別処理で人声と判別した場合に前記男声指標値と前記女声指標値とに基づいて前記入力音を男声と女声とに判別する第2判別処理とをコンピュータに実行させるプログラム

技術分野

0001

本発明は、収音機器収音した音響(以下「入力音」という)を当該入力音の音響的な特性に応じて区別する技術に関する。

背景技術

0002

入力音が声および声の何れであるかを判別する技術が従来から提案されている。例えば特許文献1には、入力音と男声標準パターンとの距離および入力音と女声標準パターンとの距離を比較した結果に応じて入力音を男声および女声の何れであるかを判定する技術が開示されている。
特開昭60−129795号公報

発明が解決しようとする課題

0003

しかし、実際の入力音には、収音時の環境音など人声以外の音声(以下「非人声」という)が含まれる。したがって、男声標準パターンおよび女声パターンの各々を入力音と単純に対比するだけでは、男声と女声とを高精度に判別することは困難である。以上の事情に鑑みて、本発明は、入力音が非人声を含む場合であっても男声と女声とを適切に区別するという課題の解決をひとつの目的としている。

課題を解決するための手段

0004

以上の課題を解決するために、本発明に係る音声処理装置は、入力音を男声と女声と非人声とに区別する装置であって、複数の男性発声音から生成された男性話者モデルと複数の女性の発声音から生成された女性話者モデルとを記憶する記憶手段と、入力音と男性話者モデルとの類否を示す男声指標値算定する男声指標算定手段と、入力音と女性話者モデルとの類否を示す女声指標値を算定する女声指標算定手段と、入力音を人声と非人声とに判別する第1判別手段と、第1判別手段が人声と判別した場合に男声指標値と女声指標値とに基づいて入力音を男声と女声とに判別する第2判別手段とを具備する。以上の構成においては、第1判別手段が人声と判別した場合に入力音が男声と女声とに区別されるから、入力音が非人声を含む場合であっても男声と女声とを適切に判別することが可能である。なお、記憶手段は、ひとつの記憶装置画定された記憶領域であっても複数の記憶装置にわたって分散的に画定された記憶領域であってもよい。

0005

本発明の好適な態様に係る音声処理装置は、入力音における特徴量の経時的な安定性の指標となる安定指標値を算定する安定指標算定手段を具備し、第1判別手段は、安定指標値に基づいて入力音を人声と非人声とに判別する。以上の態様によれば、入力音における特徴量の安定性に応じて入力音を人声と非人声とに区別することが可能である。
例えば、人声の安定性が非人声と比較して高いことを前提とすれば、第1判別手段は、安定指標値が閾値に対して安定側にある場合に入力音を人声と判定し、安定指標値が閾値に対して不安定側にある場合に入力音を非人声と判定する。「安定指標値が閾値に対して安定側にある場合」とは、入力音の安定性が高いほど安定指標値が増加するように安定指標値を算定する構成においては安定指標値が閾値を上回る場合を意味し、入力音における特徴量の安定性が高いほど安定指標値が減少するように安定指標値を算定する構成においては安定指標値が閾値を下回る場合を意味する。例えば、安定指標算定手段が、入力音を区分した複数のフレームのうち相前後する各フレーム間の特徴量の相違を複数のフレームについて平均化することで安定指標値を算定する構成において、第1判別手段は、安定指標値が閾値を下回る場合に入力音を人声と判定し、安定指標値が閾値を上回る場合に入力音を非人声と判定する。

0006

本発明の好適な態様に係る音声処理装置は、入力音を区分した複数のフレームのうち有声音のフレームの個数の割合に応じた有声指標値を算定する有声指標算定手段を具備し、第1判別手段は、有声指標値に基づいて入力音を人声と非人声とに判別する。以上の態様によれば、入力音における有声音のフレームの個数の割合(換言すると無声音のフレームの個数の割合)に応じて入力音を人声と非人声とに区別することが可能である。
例えば、人声における有声音のフレームの割合が非人声と比較して高いことを前提とすれば、第1判別手段は、有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合に入力音を人声と判定し、有声指標値が当該閾値に対して有声音のフレームの割合の低下側にある場合に入力音を非人声と判定する。「有声指標値が閾値に対して有声音のフレームの割合の上昇側にある場合」とは、有声音のフレームの割合が上昇するほど有声指標値が増加するように有声指標値を算定する構成においては有声指標値が閾値を上回る場合を意味し、有声音のフレームの割合が上昇するほど有声指標値が減少するように有声指標値を算定する構成においては有声指標値が閾値を下回る場合を意味する。

0007

本発明の好適な態様に係る音声処理装置において、第1判別手段は、男声指標値および女声指標値の何れかが閾値に対して類似側にある場合に入力音を人声と判定し、男声指標値および女声指標値の双方が当該閾値に対して非類似側にある場合に入力音を非人声と判定する。以上の態様によれば、入力音と男性話者モデルおよび女性話者モデルとの類否に応じて入力音を人声と非人声とに区別することが可能である。
男声指標値や女声指標値が閾値に対して「類似側にある場合」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値が閾値を上回る場合を意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値が閾値を下回る場合を意味する。前者の構成としては、ガウス混合モデルなどの確率モデルと入力音との平均尤度を男声指標値や女声指標値として算定する構成が典型的であり、後者の構成としては、VQ符号帳と入力音とのVQ歪を男声指標値や女声指標値として算定する構成が典型的である。

0008

本発明の好適な態様に係る音声処理装置は、入力音のピッチ(例えば図2におけるピッチP0や平均ピッチPA)を特定するピッチ特定手段(例えば図2ピッチ検出部36や平均ピッチ算定部42)と、ピッチが所定値を下回る場合に男声指標値を類似側に変化させ、ピッチが所定値を上回る場合に女声指標値を類似側に変化させる調整手段とを具備し、第2判別手段は、調整手段による調整後の男声指標値および女声指標値に基づいて入力音を男声と女声とに判別する。以上の態様によれば、入力音のピッチに応じて男声指標値や女声指標値が調整(補正)されるから、男声と女声との判別の確実性を向上することが可能である。なお、男声指標値や女声指標値を「類似側に変化させる」とは、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が増加する構成においては男声指標値や女声指標値を増加させることを意味し、入力音が男性話者モデルや女性話者モデルに類似するほど男声指標値や女声指標値が減少する構成においては男声指標値や女声指標値を減少させることを意味する。

0009

本発明の好適な態様に係る音声処理装置は、第1判別手段および第2判別手段による判別の結果に応じて異なる処理を入力音に実行する信号処理手段を具備する。本態様によれば、入力音の判別の結果(非人声と男声と女声との何れに区別されたか)に応じて入力音に対する処理が制御されるから、入力音の特性にとって適切な処理を実行することが可能である。

0010

以上の各態様に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用演算処理装置プログラムとの協働によっても実現される。本発明に係るプログラムは、入力音と複数の男性の発声音から生成された男性話者モデルとの類否を示す男声指標値を算定する男声指標算定処理と、入力音と複数の女性の発声音から生成された女性話者モデルとの類否を示す女声指標値を算定する女声指標算定処理と、入力音を人声と非人声とに判別する第1判別処理と、第1判別処理で人声と判別した場合に男声指標値と女声指標値とに基づいて入力音を男声と女声とに判別する第2判別処理とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。なお、本発明は、コンピュータを第1の態様に係る音声処理装置や第2の態様に係る音声処理装置として機能させるためのプログラムとしても特定される。

発明を実施するための最良の形態

0011

<A:第1実施形態>
図1は、本発明の第1実施形態に係る遠隔会議システムブロック図である。遠隔会議システム100は、地理的に離間した空間R1と空間R2とで複数の利用者U(会議参加者)が相互に音声を授受するシステムである。各空間R(R1,R2)には、収音機器12と音声処理装置14と音声処理装置16と放音機器18とが設置される。

0012

収音機器12は、空間R内の音声(以下「入力音」という)VINの波形を表す音声信号SINを生成する装置(マイクロホン)である。空間R1および空間R2の各々の音声処理装置14は、音声信号SINから音声信号SOUTを生成して空間R1および空間R2の他方の音声処理装置16に送信する。音声処理装置16は、音声信号SOUTを増幅して放音機器18に出力する。放音機器18は、音声処理装置16から供給される増幅後の音声信号SOUTに応じた音波放射する装置(スピーカ)である。以上の構成により、空間R1内の各利用者Uの発声音が空間R2内の放音機器18から出力され、空間R2内の各利用者Uの発声音が空間R1内の放音機器18から出力される。

0013

図2は、空間R1および空間R2の各々に設置される音声処理装置14の構成を示すブロック図である。同図に示すように、音声処理装置14は制御装置22と記憶装置24とを具備する。制御装置22は、プログラムを実行する演算処理装置である。記憶装置24は、制御装置22が実行するプログラムや制御装置22が使用する各種のデータを記憶する。半導体記憶装置磁気記憶装置など公知の記憶媒体が記憶装置24として任意に採用される。

0014

記憶装置24は、男性話者モデルMMと女性話者モデルMFとを記憶する。男性話者モデルMMは、複数の男性による発声音の平均的な音響特性モデル化する。女性話者モデルMFは、複数の女性による発声音の平均的な音響特性をモデル化する。本形態の男性話者モデルMMおよび女性話者モデルMFは、音声の特徴量(例えばMFCC(Mel-Frequency Cepstrum Coefficient)に代表される特徴ベクトル)の分布確率分布加重和としてモデル化する確率モデルである。例えば、M個(Mは自然数)の正規分布の加重和として以下の式(1)で表現されるガウス混合モデルλが男性話者モデルMMや女性話者モデルMFとして好適に採用される。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値重み値)である。加重値p1〜pMの総和は1となる。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。

0015

制御装置22は、プログラムを実行することで図2の各要素として機能する。さらに詳述すると、制御装置22は、入力音VINが男性の発声音(男声)と女性の発声音(女声)と人声以外の音声(非人声)とのなかの何れであるかを判別する機能と、入力音VINについて判別された属性(男声と女声と非人声との何れであるか)に応じた処理を音声信号SINに対して実行する機能とを実現する。なお、制御装置22の各要素はDSPなどの電子回路によっても実現される。また、別個集積回路に分散して各要素が実装されてもよい。

0016

図2の分割部32は、音声信号SIN(入力音VIN)を時間軸に沿って複数のブロックに区分する。音声信号SINの属性はブロック毎に判定される。各ブロックは、相互に重複しないように画定された所定長(例えば1秒)の区間である。さらに、分割部32は、音声信号SINを複数のフレームに区分する。各ブロックはN個(Nは自然数)のフレームを含む。ただし、フレームの総数がブロック毎に相違する(すなわち各ブロックが可変長である)構成も採用される。

0017

特徴抽出部34は、音声信号SINの各フレームについて入力音VINの音響的な特徴量をベクトル(以下「特徴ベクトル」という)Xとして抽出する。男性話者モデルMMや女性話者モデルMFの生成に利用された特徴量と同種の特徴量(例えばMFCC)が特徴ベクトルXとして抽出される。ピッチ検出部36は、音声信号SINの各フレームについてピッチ(基本周波数)P0を検出する。特徴抽出部34による特徴ベクトルXの抽出やピッチ検出部36によるピッチP0の検出には公知の技術が任意に採用される。平均ピッチ算定部42は、各ブロックのN個のフレームについてピッチ検出部36が検出したピッチP0の平均値(以下「平均ピッチ」という)PAをブロック毎に算定する。

0018

有声指標算定部44は、音声信号SINの各ブロックについて有声指標値RVを算定する。有声指標値RVは、ブロック内のN個のフレームのうち有声音のフレームの個数NVの割合(RV=NV/N)である。有声指標算定部44は、ピッチ検出部36が有意なピッチP0を検出できたフレームを有声音のフレームと判断して有声指標値RVを算定する。ただし、各フレームの入力音VINが有声音か無声音かの判断には公知の技術が任意に採用される。人声は非人声と比較して有声音の割合が高いという傾向がある。したがって、人声の有声指標値RVは非人声の有声指標値RVと比較して大きい。

0019

図2の安定指標算定部46は、特徴抽出部34が抽出した特徴ベクトルXに基づいて各ブロックの安定指標値STを算定する。安定指標値STは、ブロック内における入力音VINの特徴量の経時的な安定性(変動の多少や変動量)の指標となる数値である。安定指標値STの算定には例えば以下の式(2)が利用される。




式(2)におけるX[t]は、ブロックを構成するN個のフレームのうち第t番目のフレームから抽出された特徴ベクトルXである。また、式(2)におけるd(X[t+1],X[t])は、特徴ベクトルX[t+1]と特徴ベクトルX[t]との距離(例えばユークリッド距離)である。式(2)から理解されるように、ブロック内で相前後する各フレームの特徴ベクトルXの相違が大きい(すなわちブロック内の入力音VINが不安定である)ほど安定指標値STは増加する。非人声は人声と比較して特性が不安定である場合が多いから、非人声の安定指標値STは人声の安定指標値STと比較して大きいという傾向がある。

0020

図2の男声指標算定部52は、入力音VINと男性話者モデルMMとの類否の指標となる数値(以下「男声指標値」という)LM0を音声信号SINの各ブロックについて算定する。同様に、女声指標算定部54は、入力音VINと女性話者モデルMFとの類否の指標となる数値(以下「女声指標値」という)LF0を音声信号SINの各ブロックについて算定する。

0021

さらに詳述すると、男声指標算定部52は、ブロック内の各フレームについて抽出されたN個の特徴ベクトルXが男性話者モデルMMから発生する確率(尤度)を当該ブロック内の総ての特徴ベクトルXについて平均化した数値を男声指標値LM0として算定する。同様に、女声指標算定部54は、ブロック内のN個の特徴ベクトルXが女性話者モデルMFから発生する確率をブロック内で平均化した数値を女声指標値LF0として算定する。

0022

例えば、特徴ベクトルXをD次元のベクトルとすると、男性話者モデルMMから特徴ベクトルXが出現する尤度p(X|λ)は以下の式(3)で算定される。




男声指標算定部52は、ブロック内のN個の特徴ベクトルX(X[1]〜X[N])を式(4)に代入することで男声指標値LM0を算定する。

0023

式(4)から理解されるように、男性話者モデルMMとブロック内の入力音VINとで特徴量が類似するほど男声指標値LM0は増加する。女声指標算定部54は、男声指標算定部52と同様の方法で女声指標値LF0を算定する。したがって、女性話者モデルMFとブロック内の入力音VINとで特徴量が類似するほど女声指標値LF0は増加する。

0024

調整部56は、平均ピッチ算定部42が算定した各ブロックの平均ピッチPAに基づいて当該ブロックの男声指標値LM0および女声指標値LF0を調整することで新たな男声指標値LMおよび女声指標値LFをブロック毎に算定する。さらに詳述すると、調整部56は、入力音VINが男声および女声の何れであるかを平均ピッチPAから推定し、男声と推定した場合には男声指標値LM0を増加させることで男声指標値LMを決定し、女声と推定した場合には女声指標値LF0を増加させることで女声指標値LFを決定する。平均ピッチPAに応じた男女の推定は、女声の平均ピッチPAと比較して男声の平均ピッチPAが低いという一般的な傾向に基づいている。

0025

図3は、調整部56による処理の内容を示すフローチャートである。同図の処理は音声信号SINの各ブロックについて実行される。図3のステップSA1において、調整部56は、平均ピッチPAが男声基準ピッチPMを下回るか否か(当該ブロックの入力音VINが男声と推定できるか否か)を判定する。男声基準ピッチPMは、平均的な男声のピッチを上回る数値(例えば100Hz)に設定される。

0026

ステップSA1の結果が肯定である場合(平均ピッチPAからは当該ブロックの入力音VINが男声であると推定される場合)、調整部56は、男声指標値LM0および平均ピッチPAについて以下の式(5)の演算を実行することで男声指標値LMを算定する(ステップSA2)。
LM=LM0+α・(PM−PA)/PM ……(5)
式(5)における係数αは所定の正数である。式(5)から理解されるように、平均ピッチPAが男声基準ピッチPMと比較して低いほど(すなわち当該ブロックの入力音VINが男声である可能性が高いほど)男声指標値LMは大きい数値となる。ステップSA2に続くステップSA3において、調整部56は、女声指標値LF0を女声指標値LFとして図3の処理を終了する。

0027

一方、ステップSA1の結果が否定である場合、調整部56は、平均ピッチPAが女声基準ピッチPFを上回るか否か(当該ブロックの入力音VINが女声と推定できるか否か)を判定する(ステップSA4)。女声基準ピッチPFは、平均的な女声のピッチを下回る数値(例えば200Hz)に設定される。

0028

ステップSA4の結果が肯定である場合(平均ピッチPAからは当該ブロックの入力音VINが女声であると推定される場合)、調整部56は、女声指標値LF0および平均ピッチPAについて以下の式(6)の演算を実行することで女声指標値LFを算定する(ステップSA5)。
LF=LF0+β・(PA−PF)/PF ……(6)
式(6)における係数βは所定の正数である。式(6)から理解されるように、平均ピッチPAが女声基準ピッチPFと比較して高いほど(すなわち当該ブロックの入力音VINが女声である可能性が高いほど)、女声指標値LFは大きい数値となる。ステップSA5に続くステップSA6において、調整部56は、男声指標値LM0を男声指標値LMとして図3の処理を終了する。

0029

ステップSA1およびステップSA4の何れの結果も否定である場合、ブロックの入力音VINが男声および女声の何れであるかを平均ピッチPAのみからは推定できない。したがって、調整部56は、男声指標値LMを男声指標値LM0に設定するとともに女声指標値LFを女声指標値LF0に設定して図3の処理を終了する(ステップSA7)。すなわち、男声指標値LM0および女声指標値LF0の何れも調整されない。以上が調整部56による具体的な処理である。

0030

図2判別部62は、以上に説明した複数種の指標値(LM,LF,ST,RV)に基づいて各ブロックの入力音VINが男声と女声と非人声との何れであるかを判定し、入力音VINの種別を示す識別データDをブロック毎に出力する。図4は、判別部62による具体的な処理の内容を示すフローチャートである。ひとつのブロックについて4種類の指標値(LM,LF,ST,RV)が算定されるたびに図4の処理が実行される。図4のステップSB1からステップSB5は、入力音VINを人声と非人声とに判別する処理であり、ステップSB6は入力音VINを男声と女声とに判別する処理である。

0031

ステップSB1において、判別部62は、安定指標算定部46の算定した安定指標値STが閾値STHを上回るか否かを判定する。非人声の安定指標値STは人声の安定指標値STと比較して大きいから、ステップSB1の結果が肯定である場合、判別部62は、当該ブロックの入力音VINが非人声(VN)であることを示す識別データDを生成して図4の処理を終了する(ステップSB2)。

0032

ステップSB1の結果が否定である場合、判別部62は、有声指標算定部44の算定した有声指標値RVが閾値RTHを下回るか否かを判定する(ステップSB3)。非人声の有声指標値RVは人声の有声指標値RVと比較して低いから、ステップSB3の結果が肯定である場合、判別部62は、非人声(VN)を示す識別データDをステップSB2にて生成する。ステップSB1やステップSB3の判定が、人間の標準的な発声音について否定されるとともに各種の非人声(例えば空間R内の空調音や扉の開閉音など)について肯定されるように、閾値STHおよび閾値RTHは実験的または統計的に選定される。

0033

ステップSB3の結果が否定である場合、判別部62は、調整部56の算定した男声指標値LMおよび女声指標値LFのうちの大きい方を人声指標値LVに設定する(ステップSB4)。次いで、判別部62は、人声指標値LVが閾値LTHを下回るか否かを判定する(ステップSB5)。男性話者モデルMMおよび女性話者モデルMFの何れにも類似しない非人声の人声指標値LVは小さいから、ステップSB5の結果が肯定である場合、判別部62は、非人声(VN)を示す識別データDをステップSB2にて生成する。人間の標準的な発声音についてステップSB5の判定が否定されるとともに非人声について肯定されるように、閾値LTHは実験的または統計的に選定される。

0034

ステップSB5の結果が否定である場合、ブロック内の入力音VINが人声であることが確定される。ステップSB5に続くステップSB6において、判別部62は、人声指標値LVが男声指標値LMであるか否か(すなわち男声指標値LMが女声指標値LFを上回るか否か)を判定する。ステップSB6の結果が肯定である場合(LM>LF)、判別部62は、当該ブロックの入力音VINを男声と判断する。すなわち、判別部62は、男声(VM)を示す識別データDを生成したうえで図4の処理を終了する(ステップSB7)。一方、ステップSB6の結果が否定である場合(LM<LF)、判別部62は、女声(VF)を示す識別データDを生成したうえで図4の処理を終了する(ステップSB8)。

0035

図2の信号処理部66は、識別データDに応じた処理を各ブロックの音声信号SINに実行することで音声信号SOUTを生成する。音声信号SINに対する処理の内容は、各ブロックの入力音VINの属性(男声と女声と非人声との何れであるか)に応じてブロック毎に個別に選定される。

0036

例えば、男声は一般的に女声よりも高周波成分に乏しく聴き取り難い。したがって、ブロックの識別データDが男声(VM)を示す場合、信号処理部66は、高周波成分を強調するフィルタ処理高域強調フィルタ)を当該ブロックの音声信号SINに対して実施した信号を音声信号SOUTとして生成する。また、非人声の音量が大きいと本来の音声(人間の発声音)を聴き取り難い。したがって、ブロックの識別データDが非人声(VN)である場合、信号処理部66は、当該ブロックの音声信号SINの音量を低下させた信号を音声信号SOUTとして生成する。女声はそのままでも聴き易い場合が多いから、ブロックの識別データDが女声(VF)を示す場合、信号処理部66は、当該ブロックの音声信号SINを処理せずに音声信号SOUTとして出力する。したがって、空間R1および空間R2の各々においては、男声の高周波成分が強調されるとともに非人声が抑制された明瞭な音声が音声処理装置16を介して放音機器18から放射される。

0037

以上に説明したように、本形態においては、入力音VINが非人声であるか否かが判定され、非人声ではないと判定された場合(図4のステップSB5:NO)に男声と女声とに区別されるから、入力音VINが非人声を含む場合であっても男声と女声とが適切に区別されるという利点がある。

0038

さらに、人声と非人声との判別に複数の指標値(ST,RV,LV)が使用されるから、ひとつの指標値のみが使用される構成と比較して高い精度で人声と非人声とを判別することが可能である。例えば、有声音が豊富で人声に類似する入力音VINであっても安定指標値STが高い場合には非人声と判定することができ(ステップSB1)、特徴量が時間的に安定で人声に類似する入力音VINであっても有声指標値RVが低い場合には非人声と判定することができる(ステップSB3)。さらに、特徴量が時間的に安定で有声音が豊富な入力音VINであっても人声指標値LVが低い場合には非人声と判定することができる(ステップSB5)。

0039

また、平均ピッチPAから入力音VINを男声と推定できる場合には男声指標値LMが増加し、平均ピッチPAから入力音VINを女声と推定できる場合には女声指標値LFが増加するように、調整部56が男声指標値LM0および女声指標値LF0を調整(補正)する。したがって、男声と女声とを高い精度で明確に判別できるという利点がある。

0040

<B:第2実施形態>
以上の各形態においてはガウス混合モデルλを男性話者モデルMMおよび女性話者モデルMFとして利用した。本形態における男性話者モデルMMおよび女性話者モデルMFは、VQ(Vector Quantization)符号帳である。すなわち、男性話者モデルMMは、複数の男性による平均的な発声音から抽出された多数の特徴ベクトルの分布に対応したnA個のコードベクトルCA[1]〜CA[nA]を定義する。女性話者モデルMFは、複数の女性による平均的な発声音の特徴ベクトルの分布に対応したnB個のコードベクトルCB[1]〜CB[nB]を定義する。VQ符号帳(コードブック)の生成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。

0041

男声指標値LM0は、男性話者モデルMMとブロックのN個の特徴ベクトルXとから算定されるVQ歪である。同様に、女声指標値LF0は、女性話者モデルMFとN個の特徴ベクトルXとから算定されるVQ歪である。男声指標算定部52は、例えば以下の式(7)に基づいて男声指標値LM0を算定する。なお、式(7)のd(CA[i],X[j])は、コードベクトルCA[i]と特徴ベクトルX[j]との距離(例えばユークリッド距離)である。




すなわち、VQ歪は、男性話者モデルMMが定義するnA個のコードベクトルCA[1]〜CA[nA]とブロック内の特徴ベクトルXとの距離の最小値(min)をN個の特徴ベクトルX[1]〜X[N]について平均化した数値である。したがって、本形態においては、各ブロックの入力音VINが男性話者モデルMMに類似するほど男声指標値LM0は減少する。女声指標値LF0は、nB個のコードベクトルCB[1]〜CB[nB]とN個の特徴ベクトルXとについて式(7)と同様の演算を実行することで算定される。したがって、各ブロックの入力音VINが女性話者モデルMFに類似するほど女声指標値LF0は減少する。

0042

図3の処理において、平均ピッチPAが男声基準ピッチPMを下回る場合(ステップSA1:YES)、調整部56は、男声指標値LM0を平均ピッチPAに応じて減少させることで男声指標値LMを算定する(図3のステップSA2)。同様に、平均ピッチPAが女声基準ピッチPFを上回る場合(ステップSA4)、調整部56は、女声指標値LF0を平均ピッチPAに応じて減少させることで女声指標値LFを算定する(図3のステップSA5)。

0043

判別部62は、図4のステップSB4において男声指標値LMおよび女声指標値LFのうちの小さい方を人声指標値LVに設定し、ステップSB5においては、人声指標値LVが閾値LTHを上回る場合に入力音VINを非人声と判定するとともに人声指標値LVが閾値LTHを下回る場合に入力音VINを人声と判定する。また、ステップSB6において、判別部62は、男声指標値LMが女声指標値LFを下回る場合には入力音VINを男声と判定し、男声指標値LMが女声指標値LFを上回る場合には入力音VINを女声と判定する。以上の構成によっても第1実施形態と同様の効果が奏される。

0044

<C:変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。

0045

(1)変形例1
以上の各形態においては、入力音VINを収音した空間R内の音声処理装置14にて識別データDおよび音声信号SOUTを生成したが、識別データDを生成する位置や音声信号SOUTを生成する位置は適宜に変更される。

0046

例えば、図5の遠隔会議システム100において、空間R1および空間R2の各々に設置された音声処理装置14は、図2の信号処理部66を持たず、収音機器12から供給される音声信号SINと判別部62が音声信号SINの各ブロックについて生成した識別データDとを出力する。空間R1および空間R2の各々の音声処理装置16は図2と同様の信号処理部66(図5では図示略)を具備する。音声処理装置16の信号処理部66は、他の空間Rから受信した音声信号SINと識別データDとから音声信号SOUTを生成して放音機器18に出力する。音声信号SOUTは、第1実施形態と同様に、音声信号SINを識別データDに応じて処理した信号である。

0047

また、図6の遠隔会議システム100において、空間R1および空間R2の各々に設置された音声処理装置14は、収音機器12から供給される音声信号SINを他の空間Rに送信する。空間R1および空間R2の各々に設置された音声処理装置16は、図2と同様の構成を具備し、他の空間Rから受信した音声信号SINから音声信号SOUTを生成して放音機器18に出力する。

0048

(2)変形例2
以上の各形態においては、平均ピッチPAに応じて男声指標値LM0や女声指標値LF0を調整したが、調整の要否や調整量を決定する要素は平均ピッチPAに限定されない。例えば、ブロック内のN個のフレームについてピッチ検出部36が検出した何れかのピッチP0に基づいて男声指標値LM0や女声指標値LF0を調整する構成も採用される。また、調整部56や平均ピッチ算定部42は省略され得る。調整部56を省略した構成において、判別部62は、図4のステップSB4にて男声指標値LM0および女声指標値LF0のうち大きい方を人声指標値LVに設定し、ステップSB6では、男声指標値LM0が女声指標値LF0を上回る場合に入力音VINを男声と判定する一方、男声指標値LM0が女声指標値LF0を下回る場合に入力音VINを女声と判定する。

0049

(3)変形例3
入力音VINを人声と非人声とに判別する方法は任意である。例えば、図4のステップSB1とステップSB3とステップSB5とのなかの1以上の処理を省略した構成も採用される。また、人声の音量が非人声の音量を上回る場合が多いという傾向を前提とすれば、音量が閾値を上回るブロックの入力音VINを人声と判定するとともに音量が閾値を下回るブロックの入力音VINを非人声と判定するといった構成も採用される。

0050

(4)変形例4
人声指標値LVの大小と人声/非人声の区別との関係は第1実施形態と第2実施形態とで逆転する。すなわち、第1実施形態においては人声指標値LVが大きい場合に入力音VINが人声と判定されるのに対し、第2実施形態においては人声指標値LVが小さい場合に入力音VINが人声と判定される。以上の各形態に例示した他の指標値(ST,RV)についても同様に、当該指標値の大小と人声/非人声の区別との関係は適宜に変更される。

0051

例えば、ブロック内の入力音VINの安定性が高いほど安定指標値STが増加するように安定指標値STを算定する構成を想定する。例えば式(2)の右辺逆数が安定指標値STとして算定される。判別部62は、第1実施形態とは逆に、安定指標値STが閾値STHを下回る場合に入力音VINを非人声と判定し、安定指標値STが閾値STHを上回る場合に入力音VINを人声と判定する。安定指標値STの大小と入力音VINの安定性の高低とが第1実施形態および本変形例の何れの関係にあっても、安定指標値STが閾値STHに対して安定側にある場合に入力音VINを人声と判定し、安定指標値STが閾値STHに対して不安定側にある場合に入力音VINを非人声と判定するという関係は同様である。

0052

次に、ブロックのうち有声音のフレームの割合が高いほど有声指標値RVが減少するように有声指標値RVが算定される構成を想定する。例えば、ブロック内のN個のフレームのうち無声音のフレームの個数NNの割合(RV=NN/N)が有声指標値RVとして算定される。したがって、人声の有声指標値RVは非人声の有声指標値RVと比較して小さい数値となる。判別部62は、有声指標値RVが閾値RTHを上回る場合に入力音VINを非人声と判定し、有声指標値RVが閾値RTHを下回る場合に入力音VINを人声と判定する。有声指標値RVの大小と人声/非人声の区別とが第1実施形態および本変形例の何れの関係にあっても、有声指標値RVが閾値RTHに対して有声音のフレームの減少側(無声音のフレームの増加側)にある場合に入力音VINを非人声と判定し、有声指標値RVが閾値RTHに対して有声音のフレームの増加側(無声音のフレームの減少側)にある場合に入力音VINを人声と判定するという関係は同様である。

0053

(5)変形例5
信号処理部66による処理の内容は任意である。例えば、男声(VM)と判断されたブロックについて音声信号SINの音量を増加させる構成や、女声(VF)と判断されたブロックについて音声信号SINの音量を減少させる構成も採用される。また、例えば音声信号SINの各ブロックを例えば男声と女声とで別個のクラスタ分類する構成や音声信号SINを発声者毎に別個のクラスタに分類する構成において、非人声に判別されたブロックを分類の対象から除外するといった構成も好適である。

0054

(6)変形例6
以上の各形態においては音声信号SINを3種類の音声(男声,女声,非人声)に分類したが、音声信号SINをさらに多種に分類する構成も採用される。例えば、複数の子供の平均的な音声から生成された話者モデルとN個の特徴ベクトルXとの対比に基づいて両者の類否の指標値(以下「子供指標値」という)を算定する。判別部62は、図4のステップSB4にて設定した人声指標値LVが当該子供指標値である場合に入力音VINを子供の発声音と判定する。

図面の簡単な説明

0055

本発明の第1実施形態に係る遠隔会議システムの構成を示すブロック図である。
音声処理装置の構成を示すブロック図である。
調整部による具体的な処理の内容を示すフローチャートである。
判別部による具体的な処理の内容を示すフローチャートである。
変形例に係る遠隔会議システムの構成を示すブロック図である。
変形例に係る遠隔会議システムの構成を示すブロック図である。

符号の説明

0056

100……遠隔会議システム、12……収音機器、14……音声処理装置、16……音声処理装置、18……放音機器、22……制御装置、24……記憶装置、32……分割部、34……特徴抽出部、36……ピッチ検出部、42……平均ピッチ算定部、44……有声指標算定部、46……安定指標算定部、52……男声指標算定部、54……女声指標算定部、56……調整部、62……判別部、66……信号処理部、R1,R2……空間、VIN……入力音、SIN,SOUT……音声信号、ST……安定指標値、RV……有声指標値、LM0,LM……男声指標値、LF0,LF……女声指標値、LV……人声指標値、X(X[1]〜X[N])……特徴ベクトル、D……識別データ。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ