図面 (/)

技術 音声補正装置、音声補正方法及び音声補正プログラム

出願人 富士通株式会社
発明者 石川千里大谷猛外川太郎鈴木政直田中正清
出願日 2011年7月27日 (9年4ヶ月経過) 出願番号 2011-164828
公開日 2012年9月6日 (8年2ヶ月経過) 公開番号 2012-168499
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 目標補正量 各基本周波数 所定セット 初期音声 参照音 帰属度 音声補正処理 出力オン
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2012年9月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

簡単な応答によってユーザの聴力に合わせて音声を聞きやすくすること。

解決手段

ユーザからの応答を検知する検知部と、入力された音声信号音響特徴量を算出する算出部と、算出部により算出された音響特徴量をバッファリングし、検知部から応答による応答信号を取得した場合、所定量の音響特徴量を出力する分析部と、分析部により出力された音響特徴量を記憶する記憶部と、算出部により算出された音響特徴量と、記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出する制御部と、制御部により算出された補正量に基づき、音声信号を補正する補正部と、を備える。

概要

背景

従来から、音声を聞きやすくするための制御を行う音声制御装置がある。例えば、ユーザからの聞き返しが会話に含まれていると判断したとき、音声を補正する制御する技術がある。

また、入力音声から重要となる強調語がキーワード検出部で検出され、その検出された強調語が強調処理部で強調処理され、入力音声が該当部分を強調処理された語におきかえて音声出力部から音声出力する技術がある。

また、音声認識の前処理において、予め複数の雑音の特徴と雑音に適した強調量を記憶し、入力音の特徴から記憶されている雑音の特徴の帰属度を計算し、この雑音の帰属度に応じて入力音を強調する技術がある。

また、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異に基づいて、ユーザにとって聞き分けが困難な語句を抽出し、抽出した語句を強調する技術がある。

また、携帯電話端末において、複数の単音周波数信号再生し、ユーザが聴取結果を入力(聴力試験)し、聴取結果に基づいて音声を補正する技術がある。また、受話音が小さいときに、送話音を小さく制御する技術がある。

概要

簡単な応答によってユーザの聴力に合わせて音声を聞きやすくすること。ユーザからの応答を検知する検知部と、入力された音声信号音響特徴量を算出する算出部と、算出部により算出された音響特徴量をバッファリングし、検知部から応答による応答信号を取得した場合、所定量の音響特徴量を出力する分析部と、分析部により出力された音響特徴量を記憶する記憶部と、算出部により算出された音響特徴量と、記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出する制御部と、制御部により算出された補正量に基づき、音声信号を補正する補正部と、を備える。

目的

そこで、開示の技術は、上記課題に鑑みてなされたものであり、簡単な応答によって、ユーザの聴力に合わせて音声を聞きやすくすることができる音声補正装置音声補正方法及び音声補正プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ユーザからの応答を検知する検知部と、入力された音声信号音響特徴量を算出する算出部と、前記算出部により算出された音響特徴量をバッファリングし、前記検知部から前記応答による応答信号を取得した場合、所定量の音響特徴量を出力する分析部と、前記分析部により出力された音響特徴量を記憶する記憶部と、前記算出部により算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出する制御部と、前記制御部により算出された補正量に基づき、音声信号を補正する補正部と、を備える音声補正装置

請求項2

前記分析部は、前記応答信号が取得されない場合、音響特徴量の統計量を算出し、前記算出部は、前記比較結果及び前記統計量に基づき、前記補正量を算出する請求項1記載の音声補正装置。

請求項3

前記算出部は、複数の異なる音響特徴量を算出し、前記分析部は、前記応答信号を取得した場合、前記統計量に基づいて選択した各音響特徴量の中の少なくとも1つの音響特徴量を前記記憶部に出力する請求項2記載の音声補正装置。

請求項4

前記統計量は頻度分布であり、前記分析部は、前記頻度分布の平均値と前記算出された音響特徴量との差分に基づいて複数の異なる音響特徴量の中から一つの音響特徴量を選択し、前記制御部は、前記平均値に基づいて前記補正量を算出する請求項3記載の音声補正装置。

請求項5

前記音声信号とは異なる入力信号の音響特徴量を算出する第2算出部をさらに備え、前記分析部は、前記音声信号の音響特徴量及び前記入力信号の音響特徴量をバッファリングし、前記検知部から前記応答信号を受信した場合、算出された各音響特徴量の頻度分布に基づき選択された1つの音響特徴量を前記記憶部に出力し、前記制御部は、前記分析部により選択された音響特徴量の前記比較結果に基づき、前記補正量を算出する請求項1記載の音声補正装置。

請求項6

前記算出部は、前記音声信号の第一の音響特徴量と、前記音声信号とは異なる入力信号の第二の音響特徴量とを算出し、前記記憶部は、前記検知部により検知される応答の有無と、前記第一の音響特徴量及び前記第二の音響特徴量とを関連付けた入力応答履歴情報を記憶し、前記制御部は、前記算出部により算出された第一の音響特徴量の値及び第二の音響特徴量の値にそれぞれ対応する値を有する入力応答履歴情報を抽出し、抽出された前記入力応答履歴情報に基づいて、前記第一の音響特徴量に対する補正量を算出する請求項1記載の音声補正装置。

請求項7

前記制御部は、抽出された前記入力応答履歴情報に含まれる第一の音響特徴量の値毎に、応答有の回数と応答無の回数とに基づく比を算出し、前記比が閾値以上となる第一の音響特徴量の値を用いて補正量を算出する請求項6記載の音声補正装置。

請求項8

前記記憶部は、前記第一の音響特徴量に対する補正量を示す目標補正量を記憶し、前記算出部により算出された第一の音響特徴量及び第二の音響特徴量、前記検知部により検知される応答の有無に基づき前記目標補正量を更新する更新部をさらに備える請求項6又は7記載の音声補正装置。

請求項9

前記算出部は、前記音声信号から第一の音響特徴量と、少なくとも1つ以上の第二の音響特徴量とを算出し、前記記憶部は、前記検知部により検知される応答の有無と、前記第一の音響特徴量及び前記第二の音響特徴量とを関連付けた入力応答履歴情報を記憶し、前記制御部は、前記算出部により算出された第一の音響特徴量の値及び第二の音響特徴量の値にそれぞれ対応する値を有する入力応答履歴情報を抽出し、抽出された前記入力応答履歴情報に基づいて、前記第一の音響特徴量に対する補正量を算出する請求項1記載の音声補正装置。

請求項10

音声補正装置における音声補正方法であって、入力された音声信号の音響特徴量を算出し、ユーザからの応答を検知し、前記算出された音響特徴量をバッファリングし、検知された前記応答による応答信号を取得した場合、所定量の音響特徴量を記憶部に記憶し、前記算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出し、前記算出された補正量に基づき、音声信号を補正する音声補正方法。

請求項11

入力された音声信号の音響特徴量を算出し、ユーザからの応答を検知し、前記算出された音響特徴量をバッファリングし、検知された前記応答による応答信号を取得した場合、所定量の音響特徴量を記憶部に記憶し、前記算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出し、前記算出された補正量に基づき、音声信号を補正する、処理をコンピュータに実行させるための音声補正プログラム

技術分野

0001

本発明は、入力音声補正する音声補正装置音声補正方法及び音声補正プログラムに関する。

背景技術

0002

従来から、音声を聞きやすくするための制御を行う音声制御装置がある。例えば、ユーザからの聞き返しが会話に含まれていると判断したとき、音声を補正する制御する技術がある。

0003

また、入力音声から重要となる強調語がキーワード検出部で検出され、その検出された強調語が強調処理部で強調処理され、入力音声が該当部分を強調処理された語におきかえて音声出力部から音声出力する技術がある。

0004

また、音声認識の前処理において、予め複数の雑音の特徴と雑音に適した強調量を記憶し、入力音の特徴から記憶されている雑音の特徴の帰属度を計算し、この雑音の帰属度に応じて入力音を強調する技術がある。

0005

また、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異に基づいて、ユーザにとって聞き分けが困難な語句を抽出し、抽出した語句を強調する技術がある。

0006

また、携帯電話端末において、複数の単音周波数信号再生し、ユーザが聴取結果を入力(聴力試験)し、聴取結果に基づいて音声を補正する技術がある。また、受話音が小さいときに、送話音を小さく制御する技術がある。

先行技術

0007

特開2007−4356号公報
特開2008−278327号公報
特開平5−27792号公報
特開2007−279349号公報
特開2009−229932号公報
特開平7−66767号公報
特開平8−163212号公報

発明が解決しようとする課題

0008

しかし、前述した従来技術では、音声を制御する場合は予め決められた量に基づき制御するだけであり、簡単な応答によって、ユーザの聴力に応じて制御することができないという問題点があった。

0009

そこで、開示の技術は、上記課題に鑑みてなされたものであり、簡単な応答によって、ユーザの聴力に合わせて音声を聞きやすくすることができる音声補正装置、音声補正方法及び音声補正プログラムを提供することを目的とする。

課題を解決するための手段

0010

開示の一態様における音声補正装置は、ユーザからの応答を検知する検知部と、入力された音声信号音響特徴量を算出する算出部と、前記算出部により算出された音響特徴量をバッファに記憶し、前記検知部から前記応答による応答信号を取得した場合、所定量の音響特徴量を出力する分析部と、前記分析部により出力された音響特徴量を記憶する記憶部と、前記算出部により算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出する制御部と、前記制御部により算出された補正量に基づき、音声信号を補正する補正部と、を備える。

発明の効果

0011

開示の技術によれば、簡単な応答によって、ユーザの聴力に合わせて音声を聞きやすくすることができる。

図面の簡単な説明

0012

実施例1における音声補正装置の構成の一例を示すブロック図。
分析処理の一例を説明するための図。
音声レベルヒストグラムの一例を示す図。
実施例1における音声補正処理(その1)の一例を示すフローチャート
実施例1における音声補正処理(その2)の一例を示すフローチャート。
実施例2における携帯端末装置の構成の一例を示すブロック図。
実施例2における音声補正部の構成の一例を示すブロック図。
補正量の一例を示す図。
実施例2における音声補正処理の一例を示すフローチャート。
実施例3における携帯端末装置の構成の一例を示すブロック図。
実施例3における音声補正部の構成の一例を示すブロック図。
実施例3における音声補正処理の一例を示すフローチャート。
実施例4における携帯端末装置の構成の一例を示すブロック図。
実施例4における音声補正部の構成の一例を示すブロック図。
各音響特徴量頻度分布の一例を示す図。
各音響特徴量の平均と度数との関係を示す図。
各音響特徴量の補正量の一例を示す図。
実施例4における音声補正処理の一例を示すフローチャート。
実施例5における音声補正装置の構成の一例を示すブロック図。
出力音の音声レベル及び周囲騒音レベルと時間の関係の一例を示す図。
入力応答履歴情報の一例を示す図。
抽出された入力応答履歴情報の一例を示す図。
出力音の音声レベルSと了解値p(S)との関係の一例を示す図。
実施例5における音声補正処理の一例を示すフローチャート。
実施例6における音声補正装置の構成の一例を示すブロック図。
第一の音響特徴量及び第二の音響特徴量ベクトルランクに対する組み合わせ情報の一例を示す図。
実施例6における目標補正量の一例を示す図。
実施例6における音声補正処理の一例を示すフローチャート。
実施例7における音声補正装置の構成の一例を示すブロック図。
基本周波数ランクと話速ランクとの了解度の一例を示す図。
実施例7における目標補正量の一例を示す図。
実施例7における音声補正処理の一例を示すフローチャート。
携帯端末装置のハードウェアの一例を示すブロック図。

実施例

0013

以下、添付図面を参照しながら実施例について詳細に説明する。

0014

[実施例1]
<構成>
図1は、実施例1における音声補正装置10の構成の一例を示すブロック図である。音声補正装置10は、音響特徴量算出部101、特徴分析部103、特徴記憶部105、補正制御部107、補正部109を備える。なお、音声補正装置10は、後述する応答検知部111を含んでもよい。

0015

音響特徴量算出部101は、入力音の音声信号を取得し、音響特徴量を算出する。音響特徴量は、例えば、入力音の音声レベル、入力音のスペクトル傾斜(傾き)、入力音の高域(例えば2−4kHz)と低域(例えば0−2kHz)のパワーの差、入力音の基本周波数、又は入力音のSNR(Signal to Noise ratio)である。

0016

他にも、音響特徴量は、例えば、入力音の雑音レベル、入力音の話速、参照音マイクから入力された音)の雑音レベル、又は入力音と参照音とのSNR(入力音の音声レベル/参照音の雑音レベル)などである。音響特徴量は、前述したこれらのうち、1つ又は複数を用いればよい。音響特徴量算出部101は、算出した1又は複数の音響特徴量を特徴分析部103、補正制御部107に出力する。

0017

特徴分析部103は、算出された最新の音響特徴量を所定フレーム分だけバッファリングする。特徴分析部103は、応答検知部111から応答信号を取得した場合、応答信号の取得時にバッファリングしたフレームを含む所定量のフレームの音響特徴量を不良音響特徴量として特徴記憶部105に出力する。特徴記憶部105への出力が行われるフレームは、応答信号の受信時刻や応答信号に含まれる応答検知部111により検知された応答時刻を有するフレームなどでもよい。応答検知部111からの応答信号は、ユーザが聞き取りにくいと感じたときに所定の応答を行い、この応答を応答検知部111が検知した場合に出力される。

0018

なお、特徴分析部103は、音響特徴量算出部101を含む構成にしてもよい。この場合、特徴分析部103は、所定長分(例えば、10フレーム)の入力音の音声信号をバッファリングしておく。特徴分析部103は、応答検知部111から応答信号を取得した時点から分析長分の音声信号に基づき音響特徴量を算出する。特徴分析部103は、算出した音響特徴量を特徴記憶部105に出力する。

0019

また、特徴分析部103は、応答信号を取得してないときは、バッファリングした音響特徴量を正常な音響特徴量として統計量を算出し、統計量を特徴記憶部105に記憶してもよい。このとき、正常な音響特徴量の統計量は、例えば頻度分布(ヒストグラム)や正規分布である。特徴分析部103は、所定単位の音響特徴量毎に頻度を算出し、算出した頻度に基づくヒストグラムを生成、更新し、特徴記憶部105に出力する。

0020

なお、特徴分析部103は、異なる音響特徴量が複数算出されている場合は、次の処理を行う。特徴分析部103は、応答信号がない場合は現フレームの音声信号から複数の異なる音響特徴量の頻度分布(例えばヒストグラム)を更新する。

0021

特徴分析部103は、応答信号がある場合は現フレームを含む所定数のフレームの音声信号から複数の異なる音響特徴量を算出してもよい。所定数のフレームは、現フレームのみでもよいし、現フレームから過去の数フレームでもよいし、現フレームの前後の数フレームでもよいし、現フレームから後の数フレームでもよい。フレーム数については実験により適切な値を設定すればよい。

0022

特徴分析部103は、算出した複数の異なる音響特徴量毎に、現フレームの音響特徴量又は所定数のフレームの音響特徴量の平均と頻度分布の平均との差分を算出し、差分が最も大きい音響特徴量を選択する。この処理は、聞き取りにくいと判断された要因に一番寄与する不良音響特徴量を求める処理である。特徴分析部103は、選択された音響特徴量を特徴記憶部105の不良音響特徴量として登録する。

0023

ここで、音響特徴量を音声レベルとした場合の分析処理について例を用いて説明する。図2は、分析処理の一例を説明するための図である。図2(A)は、音声レベルと時間との関係を示す図である。図2(A)に示すr1のタイミングで、特徴分析部103は、応答検知部111から応答信号を受信すると、例えばr1から過去の数フレーム分(例えば10フレーム)(図2(A)に示すa11)の音声レベルを不良音声レベルとして特徴記憶部105に記憶する。このとき、特徴記憶部105には、不良音響特徴量と判断された数フレームの音声レベルの平均を記憶すればよい。

0024

なお、r1のタイミングは、ユーザが聞こえづらいと判断し、応答信号が出力されるまでの間に、所定時間かかるため、この時間差時定数補償すればよい。例えば、r1のタイミングから数フレーム前のフレームを基準にして所定数のフレームを取得してもよい。

0025

図2(B)は、不良音響特徴DBのデータ構造の一例を示す図である。図2(B)に示すDBは、登録番号と、音声レベルと、範囲が関連付けられる。登録番号は、このDBに不良音響特徴量が登録される度にインクリメントされていく。音声レベルは、特徴分析部103から登録される不良音声レベルである。不良音声レベルは、所定数のフレームの音声レベルの平均でもよい。範囲は、音声の補正の段階で、不良とみなされる範囲を示す。例えば、不良音声レベルが10dBであると、不良とみなす範囲は、0〜13dBとする。不良音響特徴DBは、特徴記憶部105に出力される。

0026

不良音声レベルが記憶された後、不良音声レベルと同様の図2(A)に示す音声レベルa12の区間がある場合は、後述する補正制御部107により、この音声レベルの補正量が決定される。後述する補正部109は、決定された補正量に基づき音声信号を補正する。これにより、出力される音声は聞きやすくなる。不良音声レベルと同様であるか否かの判断は、補正制御部107が、例えば、低い音声レベルとして登録された不良音声レベル以下の音声レベルを、補正が必要と判断すればよい。

0027

図1戻り、特徴記憶部105は、不良音響特徴量を記憶し、複数の異なる音響特徴量がある場合は、音響特徴量毎に不良音響特徴量を記憶する。また、特徴記憶部105は、正常な音響特徴量の統計量を記憶してもよく、複数の異なる音響特徴量がある場合は、音響特徴量毎に統計量を記憶してもよい。

0028

補正制御部107は、音響特徴量算出部101により算出された音響特徴量を取得し、取得した音響特徴量と特徴量記憶部105に記憶されている不良音響特徴量とを比較し、補正の要否を判定する。補正制御部107は、例えば、現フレームの音響特徴量が不良音響特徴量と同様であれば、補正が必要であると判定し、補正量を算出する。

0029

以下、音響特徴量が音声レベルである場合についての補正制御の処理を説明する。すでに、特徴記憶部105には、正常な音声レベルのヒストグラムが記憶されているとする。図3は、音声レベルのヒストグラムの一例を示す図である。

0030

なお、図3に示す頻度分布は、正規系(ガウス系)になっている例を示している。一般的に、相手に聞こえやすいように話すため、音声レベルの頻度分布は正規系に近い頻度分布になりやすい。

0031

図3に示すLaveは、正常な音声レベルの平均値を示す。Lrangeは、聞き取りやすい区間を示し、平均値Laveから例えば2σの範囲を示す。L1、L2は、ユーザから応答があった時点のフレームの音声レベルを示す。図3に示す例は、例えば、0〜40dBで、4dB毎の区間において頻度を算出するとする。

0032

例えば、ユーザがL1の音声レベルのときに聞き取りにくいとして所定の応答をしたとする。このとき、補正制御部107は、音声レベルL1をLrangeの範囲内になるように補正量を決定する。補正制御部107は、例えば、音声レベルL1のときに(Lave−2σ)−L1を補正量とする。補正量を(Lave−2σ)−L1とする理由は、補正量が大きくなりすぎることを防止するためである。補正制御部107により決定される補正量は、補正部109で増幅量として用いられる。

0033

また、ユーザがL2の音声レベルのときに聞き取りにくいとして所定の応答をしたとする。このとき、補正制御部107は、音声レベルL2をLrangeの範囲内になるように補正量を決定する。補正制御部107は、例えば、音声レベルL2のときにL2−(Lave+2σ)を補正量とする。この補正量は、補正部109で減衰量として用いられる。

0034

図1に戻り、補正制御部107は、特徴記憶部105に正常な音響特徴量の統計量が記憶されている場合はこの正常な音響特徴量の統計量を用いて補正量を決定する。例えば、補正制御部107は、不良の音響特徴量が正常な音響特徴量の平均値を含む所定範囲内になるように補正量を決定すればよい。補正制御部107は、決定した補正量を補正部109に出力する。

0035

補正部109は、入力された音声信号に対して、補正制御部107から取得した補正量に基づき補正を行う。例えば、補正量が音声レベルの増幅量や減衰量の場合は、補正部109は、音声信号の音声レベルに対して、補正量分だけ増幅させたり減衰させたりする。

0036

また、補正部109は、補正量に対応する音響特徴量に応じて音声信号の補正を行う。例えば、補正量が音声レベルのゲインであれば、補正部109は音声信号のレベル増減し、補正量が話速であれば、補正部109は、話速変換を行う。補正部109は、補正した音声信号を出力する。

0037

応答検知部111は、ユーザからの応答を検知し、この応答による応答信号を特徴分析部103に出力する。ユーザからの応答は、例えば、ユーザが出力音を聞き取りにくいと感じたときに行う所定の応答をいう。応答検知部111の例は次に示す。

0038

キー入力センサ
応答検知部111(キー入力センサ)は、携帯端末の既存のキー(例えば出力音量調節ボタン)又は新規のキー(例えば新規に設けられた聞こえにくいときに押すボタン)などが押下されたことを検知する。

0039

加速度センサ
応答検知部111(加速度センサ)は、筐体に対する特殊な衝撃を検知する。特殊な衝撃とは、ダブルタップなどである。

0040

音響センサ
応答検知部111(音響センサ)は、マイクにより入力された参照信号から予め設定されたキーワードを検知する。この場合、応答検知部111は、人が聞こえない時に発生しやすい発話内容を記憶しておく。この発話内容は、例えば「えっ」、「聞こえない」、「もう一回」などである。

0041

圧力センサ
応答検知部111(圧力センサ)は、筐体に押し付けられたことを検知する。聞こえにくい場合、携帯電話を耳に押し付ける傾向があるからである。このとき、応答検知部111は、レシーバ付近の圧力をセンシングする。

0042

前述した応答は、簡単な操作によって可能である。これは、例えば高齢者がユーザとなることを考えた場合、高齢者は煩雑な操作を行うことは困難であるからである。よって、本実施例及び以下に説明する実施例は、簡単な操作によって音声を制御することを可能にする。

0043

以下、本実施例及び以下に説明する実施例の原理について説明する。まず、特徴分析部103は、フレーム毎に音響特徴量を算出してバッファリングしておく。ここでの音響特徴量は、音声レベルを例にして説明する。

0044

(1)1つの音響特徴量を用いる場合
(1−1)不良音響特徴量の学習
ユーザからの応答があった場合に、ユーザからの応答に基づいてユーザの応答時刻から所定の分析長分の入力音の音声レベルを不良音声レベルとして特徴記憶部105に登録する。不良音声レベルはユーザからの応答がある度に、特徴記憶部105に登録される。

0045

(1−2)音声の補正
補正制御部107は、フレーム毎に算出された音声レベルと、特徴記憶部105に記憶された不良音声レベルとを比較する。入力された音声レベルと、不良音声レベルの所定範囲に入る場合に、補正量を決定する。

0046

補正量の決定方法としては、予め決められた補正量に決定する方法と、ユーザの聴力特性に応じて補正量を決定する方法とがある。予め決められた補正量に決定する方法は、例えば、補正量を10dBと予め決定しておく。

0047

ただし、予め決められた補正量は必ずしもユーザの聴力特性に適している訳ではない。よって、ユーザの聴力特性に応じて補正量を決定するため、ユーザから応答があった時以外の各フレームの音声レベルを用いる。

0048

ユーザから応答がなかったということは、その区間の音声信号は、「聞くことができた」音声信号であることを意味するので、逐次、正常な音声レベルとして記憶し、頻度分布を作成しておく。

0049

補正制御部107は、この頻度分布を用いて、補正量を決定すれば、「ユーザ個人の聴力特性に応じた」補正量を決定することができる。補正制御部107は、補正量として、例えば、正常な音声レベルの平均値になるように補正量を決定する。

0050

また、補正制御部107は、入力音声と補正後の音声との乖離を考慮した場合、すなわち、自然な補正を考慮した場合、例えば、平均値から2σの音声レベルになるよう補正量を決定することも可能である。ここまで、音響特徴量として音声レベルを例に挙げて説明したが、話速などを音響特徴量としても同様の処理を適用することができる。

0051

(2)複数の異なる音響特徴量を用いる場合
次に、複数の異なる音響特徴量を用いて音声を補正する場合について説明する。ここでは、複数の異なる音響特徴量としては音声レベルと、話速とを例に説明する。

0052

(2−1)不良音響特徴の学習
ユーザからの応答があった場合に、ユーザからの応答に基づいてユーザの応答時刻から所定の分析長分の入力音の音声レベルを不良音声レベルとして、および入力音の話速を不良話速として特徴記憶部105に登録する。不良音声レベル及び不良話速はユーザからの応答がある度に、特徴記憶部105に登録される。

0053

また、特徴分析部103は、ユーザからの応答があった場合、複数の異なる音響特徴量のうち、聞こえづらい原因となっている音響特徴量を少なくとも1つ選択し、選択した音響特徴量を不良音響特徴量として特徴記憶部105に登録する。選択の方法として、正常な音響特徴量の平均値を使って判断する方法がある。

0054

特徴分析部103は、例えば、ユーザからの応答があった場合に、音声レベルと話速とがそれぞれ算出され、それぞれの正常な音響特徴量の平均値から乖離している方を選択する。

0055

これにより、例えば、話す音量は適切だが、話す速度が速いケースや、話す速度は適切であるが、話す音量が適切ではない場合を分けて、不良音響特徴量を登録することができる。

0056

(2−2)音声の補正
音声の補正については、複数の異なる音響特徴量毎に、(1−2)で説明した処理を行えばよい。

0057

<動作>
次に、実施例1における音声補正装置10の動作について説明する。音響特徴量を1つ算出する場合と、複数の異なる音響特徴量を算出する場合とに分けて説明する。図4は、実施例1における音声補正処理の一例を示す図である。図4(A)で1つの音響特徴量を用いる場合を説明し、図4(B)で複数の異なる音響特徴量を用いる場合について説明する。
(1)1つの音響特徴量を用いる場合
図4(A)は、実施例1における音声補正処理(その1)の一例を示すフローチャートである。図4(A)に示すステップS101で、音響特徴量算出部101は、入力された音声信号から音響特徴量(例えば音声レベル)を算出する。

0058

ステップS102で、補正制御部107は、算出された音響特徴量と、特徴記憶部105に記憶されている不良音響特徴量とを比較し、補正の必要があるか否かを判定する。例えば、算出された音響特徴量が、不良音響特徴量を含む所定範囲内にある場合は補正の必要があると判定され(ステップS102−YES)、ステップS103に進み、不良音響特徴量を含む所定範囲内にない場合は補正の必要がないと判定され(ステップS102−NO)、ステップS105に進む。

0059

ステップS103で、補正制御部107は、特徴記憶部105に記憶されている正常な音響特徴量を用いて補正量を算出する。例えば、補正制御部107は、正常な音響特徴量の平均値を含む所定範囲内になるように音響特徴量の補正量を算出する。

0060

ステップS104で、補正部109は、補正制御部107で算出された補正量に基づき、音声信号を補正する。

0061

ステップS105で、応答検知部111は、ユーザからの応答があったか否かを判定する。ユーザからの応答がある場合(ステップS105−YES)ステップS106に進み、ユーザからの応答がない場合(ステップS105−NO)ステップS107に進む。

0062

ステップS106で、特徴分析部103は、算出された音響特徴量を特徴記憶部105に記憶される不良音響特徴量として登録する。

0063

ステップS107で、特徴分析部103は、現フレームの音響特徴量を用いて特徴記憶部105に記憶されている頻度分布(ヒストグラム)を更新する。

0064

(2)複数の異なる音響特徴量を用いる場合
図4(B)は、実施例1における音声補正処理(その2)の一例を示すフローチャートである。図4(B)に示すステップS201で、音響特徴量算出部101は、入力された音声信号から複数の異なる音響特徴量(例えば音声レベル、話速)を算出する。

0065

ステップS202で、補正制御部107は、算出された複数の異なる音響特徴量と、特徴記憶部105に記憶されている、対応する不良音響特徴量とを比較し、補正の必要があるか否かを判定する。例えば、算出された複数の異なる音響特徴量のうち、少なくとも1つが、対応する不良音響特徴量を含む所定範囲内にある場合は補正の必要があると判定され(ステップS202−YES)、ステップS203に進み、不良音響特徴量を含む所定範囲内にない場合は補正の必要がないと判定され(ステップS202−NO)、ステップS205に進む。

0066

ステップS203で、補正制御部107は、特徴記憶部105に記憶されている正常な音響特徴量を用いて補正量を算出する。例えば、補正制御部107は、正常な音響特徴量の平均値を含む所定範囲内になるように音響特徴量の補正量を算出する。

0067

ステップS204で、補正部109は、補正制御部107で算出された補正量に基づき、音声信号を補正する。

0068

ステップS205で、応答検知部111は、ユーザからの応答があったか否かを判定する。ユーザからの応答がある場合(ステップS205−YES)ステップS206に進み、ユーザからの応答がない場合(ステップS205−NO)ステップS210に進む。

0069

ステップS209で、特徴分析部103は、複数の異なる音響特徴量から少なくとも1つの音響特徴量を選択するかを判定する。この判定は、選択する、選択しないのいずれかが予め設定されていればよい。

0070

音響特徴量を選択する場合(ステップS206−YES)ステップS207に進み、音響特徴量を選択しない場合(ステップS206−NO)ステップS209に進む。

0071

ステップS207で、特徴分析部103は、複数の異なる音響特徴量のうち、聞こえにくい原因となっている音響特徴量を複数の音響特徴量の中から選択する。選択については、正常な音響特徴量の統計量(例えば頻度分布)の平均と、応答信号を取得した時点のフレームの音響特徴量との差分が一番大きいものを選択すればよい。

0072

ステップS208で、特徴分析部103は、選択した音響特徴量を、特徴記憶部105に不良音響特徴量として登録する。

0073

ステップS209で、特徴分析部103は、算出された複数の異なる音響特徴量を、特徴記憶部105に不良音響特徴量として登録する。

0074

ステップS210で、特徴分析部103は、現フレームの複数の異なる音響特徴量を用いて、特徴記憶部105に記憶されているそれぞれの頻度分布(ヒストグラム)を更新する。

0075

以上、実施例1によれば、簡単な応答によって、ユーザの聞こえ方(聴力)に応じて音声を聞きやすくすることができる。また、実施例1によれば、ユーザからの応答があるほど、不良音響特徴量を学習することができ、そのユーザの好みに応じた聞きやすい音質にすることができる。

0076

[実施例2]
次に、実施例2における携帯端末装置2について説明する。実施例2に示す携帯端末装置2は、音声補正部20を有し、音響特徴量として入力信号のパワーを用い、応答検知部として加速度センサを用いる。入力信号のパワーは、周波数領域での音声レベルである。

0077

図5は、実施例2における携帯端末装置2の構成の一例を示すブロック図である。図5に示す携帯端末装置2は、受信部21、デコード部23、音声補正部20、アンプ25、加速度センサ27、スピーカ29を備える。

0078

受信部21は、基地局から受信信号を受信する。デコード部23は、受信信号を復号し、音声信号に変換する。

0079

音声補正部20は、加速度センサ27からの応答信号に応じて、聞き取りにくい音声信号のパワーを記憶し、記憶したパワーに基づいて、音声信号を聞き取りやすく補正する。音声補正部20は、補正した音声信号をアンプ25に出力する。

0080

アンプ25は、取得した音声信号を増幅する。アンプ25から出力された音声信号は、D/A変換されてスピーカ29から出力音として出力される。

0081

加速度センサ27は、予め設定された筐体への衝撃を検知し、応答信号を音声補正部20に出力する。予め設定された衝撃は、例えばダブルタップなどである。

0082

図6は、実施例2における音声補正部20の構成の一例を示すブロック図である。図6に示す音声補正部20は、パワー算出部201、分析部203、記憶部205、補正制御部207、増幅部209を備える。

0083

パワー算出部201は、入力された音声信号に対して次の式(1)によりパワーを算出する。

0084

x():音声信号
i:サンプル番号
p():フレームパワー
N:1フレームのサンプル数
n:フレーム番号
パワー算出部201は、算出したパワーを分析部203及び補正制御部207に出力する。

0085

分析部203は、応答信号がない場合、パワーの平均値を次の式(2)により更新する。ここでは、統計量として平均値を用いる。

0086

—(—R)():パワーの平均値初期値は例えば0
α:第1の重み係数
分析部203は、更新したパワーの平均値を記憶部205に記憶する。

0087

分析部203は、応答信号がある場合、聞き取りにくい音声のパワーとして記憶部205に登録する。

0088

Z():登録パワー
j:登録数初期値は例えば0
jはインクリメントされる。
記憶部205は、パワーの平均値、及び登録番号と共に登録パワーを記憶する。

0089

補正制御部207は、記憶部205に記憶されたパワーの平均値を用いて補正量を算出する。補正量の算出手順について、以下に説明する。補正制御部207は、次の式(4)(5)によりパワーの正常範囲を定める。

0090

Llow:正常範囲の下限値
Lhigh:正常範囲の上限値
β:第2の重み係数
補正制御部207は、LlowからLhighまでの範囲を正常範囲と定める。

0091

補正制御部207は、図7に示す変換式を用いて補正量g(n)を算出する。図7は、補正量の一例を示す図である。図7に示す例では、補正量g(n)は以下の通りである。
p(n)がLlow−6未満の場合は、g(n)は6dBである。6dBは、例えば音声が変化したとユーザが感じる量である。
p(n)がLlow−6以上Llow未満の場合は、g(n)はp(n)に比例して6dBから0dBまで減少する。
p(n)がLlow以上Lhigh未満の場合は、g(n)は0dBである。
p(n)がLhigh以上Lhigh+6未満の場合は、g(n)はp(n)に比例して0dBから−6dBまで減少する。
p(n)がLhigh+6以上の場合は、g(n)は−6dBである。

0092

補正制御部207は、算出した補正量g(n)を増幅部209に出力する。なお、図7に示すg(n)の上限値6と下限値−6は一例であり、実験により適切な値が設定されればよい。また、p(n)のLlowから減算される6と、Lhighから加算される6とは一例であり、それぞれ実験により適切な値が設定されればよい。

0093

図6に戻り、増幅部209は、補正制御部207から取得した補正量を次の式(6)を用いて音声信号に乗算することで、音声信号を補正する。

0094

y():出力信号(補正された音声信号)

0095

<動作>
次に、実施例2における音声補正部20の動作について説明する。図8は、実施例2における音声補正処理の一例を示すフローチャートである。図8に示すS301で、パワー算出部201は、入力された音声信号のパワーを、例えば式(1)により算出する。

0096

ステップS302で、補正制御部207は、現フレームのパワーと、記憶部205に記憶される正常範囲のパワーとを比較し、補正をする必要があるか否かを判定する。現フレームのパワーが正常範囲内でなければ補正をする必要があると判定し(ステップS302−YES)ステップS303に進み、現フレームのパワーが正常範囲内であれば補正をする必要なしと判定し(ステップS302−NO)ステップS305に進む。

0097

ステップS303で、補正制御部207は、記憶部205に記憶された正常なパワーの平均値を用いて、例えば図7に示すような変換式により補正量を算出する。

0098

ステップS304で、増幅部209は、補正制御部207で算出された補正量に基づき、音声信号を補正する(増幅する)。

0099

ステップS305で、分析部203は、加速度センサ27から応答信号があるか否かを判定する。加速度センサ27は、予め設定された衝撃があった場合、応答信号を分析部203に出力する。応答信号がある場合(ステップS305−YES)ステップS306に進み、応答信号がない場合(ステップS305−NO)ステップS307に進む。

0100

ステップS306で、分析部203は、応答信号があった時点の現フレームを含む所定数のフレームを不良のパワーとして記憶部205に登録する。

0101

ステップS307で、分析部203は、応答信号がない場合、パワーの平均値を更新し、記憶部205に記憶する。

0102

以上、実施例2によれば、音声信号のパワーや加速度センサ27を用いて、ユーザが聞き取りにくいと感じた際の簡単な応答によって、ユーザの聴力特性に応じた聞き取りやすい音声に補正することができる。

0103

[実施例3]
次に、実施例3における携帯端末装置3について説明する。実施例3に示す携帯端末装置3は、音声補正部30を有し、音響特徴量として入力信号の話速を用い、応答検知部としてキー入力センサ31を用いる。

0104

図9は、実施例3における携帯端末装置3の構成の一例を示すブロック図である。図9に示す構成において、図5に示す構成と同様の構成があれば同じ符号を付し、その説明を省略する。

0105

図9に示す携帯端末装置3は、受信部21、デコード部23、音声補正部30、アンプ25、キー入力センサ31、スピーカ29を備える。

0106

音声補正部30は、キー入力センサ31からの応答信号に応じて、聞き取りにくい音声信号の話速を記憶し、記憶した話速に基づいて、音声信号を聞き取りやすく補正する。音声補正部30は、補正した音声信号をアンプ25に出力する。

0107

キー入力センサ31は、通話中における、予め設定されたボタンの押下を検知し、応答信号を音声補正部30に出力する。予め設定されたボタンは、例えば既存のキーであったり、新規に設けられたキーであったりする。

0108

図10は、実施例3における音声補正部30の構成の一例を示すブロック図である。図10に示す音声補正部30は、話速計測部301、分析部303、記憶部305、補正制御部307、和速変換部309を備える。

0109

話速計測部301は、入力された音声信号に対して、例えば過去1秒間のモーラ数m(n)を推定する。モーラ数とは、単語の仮名文字個数をいう。モーラ数の推定については、既存の技術を用いればよい。話速計測部301は、推定した話速を分析部303及び補正制御部307に出力する。

0110

分析部303は、応答信号がない場合、話速の頻度分布を次の式(7)により更新する。ここでは、統計量として頻度分布を用いる。

0111

m(n):話速(1秒間のモーラ数)
H():話側の頻度分布初期値は0
n:フレーム番号
分析部303は、更新した話速の頻度分布を記憶部305に記憶する。

0112

分析部303は、応答信号がある場合、聞き取りにくい音声の話速として記憶部305に登録する。分析部303は、次の手順により、聞き取りにくい音声の話速を登録する。分析部303は、話速の基準値を次の式(8)により算出する。基準値は、例えば、頻度分布の最頻値とする。

0113

∧(∧R)():話速の最頻値

0114

分析部303は、話速の基準値に基づいて次の式(9)により聞こえにくさへの寄与度を算出する。

0115

q():寄与度
分析部303は、寄与度q(n)が閾値以上の場合に、記憶部305に話速を登録する。

0116

W():登録話速
j:登録数初期値は例えば0
jはインクリメントされる。
記憶部305は、話速の頻度分布、及び登録番号と共に登録話速を記憶する。

0117

補正制御部307は、記憶部205に記憶された登録話速を用いて補正量を算出する。この場合の補正量は、目標伸長率である。

0118

r():目標伸長率
補正制御部307は、例えば、現フレームの話速が登録話速の最高値よりも速い場合は、話速を伸長するため、補正量を1.4とする。補正制御部307は、現フレームの話速が登録話速の最高値以下の場合は、補正量を1.0とする。なお、目標伸長率は、3つ以上設定してもよく、目標伸長率の数に応じた閾値が設定されればよい。

0119

話速変換部309は、補正制御部307から取得した補正量(目標伸長率)に基づき話速を変換し、音声信号を補正する。話速変換については、例えば、特許第3619946号公報を参照されたい。

0120

特許第3619946号公報では、一定時間毎に区切った所定期間毎の音声の特徴を表すパラメータ値を算出し、各所定期間の音声信号の再生速度をパラメータ値に応じて算出し、算出した再生速度に基づいて再生データを生成する。さらに、この公報では、各所定期間の再生データを接続し、ピッチは変えずに話速だけを変えた音声データを出力する。

0121

話速変換部309は、前述した文献を含む公知の話速変換技術のいずれかを用いて話速を変換するようにすればよい。

0122

<動作>
次に、実施例3における音声補正部30の動作について説明する。図11は、実施例3における音声補正処理の一例を示すフローチャートである。図11に示すS401で、話速計測部301は、入力された音声信号の話速を、モーラ数を用いて推定する。

0123

ステップS402で、補正制御部307は、現フレームの話速と、記憶部305に記憶される話速の最頻値とを比較し、補正をする必要があるか否かを判定する。現フレームの話速と最頻値との差分の絶対値が閾値以上であれば補正をする必要があると判定し(ステップS402−YES)ステップS403に進み、この差分の絶対値が閾値未満であれば補正をする必要なしと判定し(ステップS402−NO)ステップS405に進む。

0124

ステップS403で、補正制御部307は、記憶部305に記憶された登録話速の最大値を用いて、補正量を算出する。

0125

ステップS404で、話速変換部309は、補正制御部307で算出された補正量に基づき音声信号を補正する(話速変換する)。

0126

ステップS405で、分析部303は、キー入力センサ31から応答信号があるか否かを判定する。キー入力センサ31は、予め設定されたキー押下(入力)があった場合、応答信号を分析部303に出力する。応答信号がある場合(ステップS405−YES)ステップS406に進み、応答信号がない場合(ステップS405−NO)ステップS407に進む。

0127

ステップS406で、分析部303は、応答信号があった時刻に基づく1秒間のモーラ数を算出して不良の話速として記憶部305に登録する。この場合の1秒間は、例えば、応答信号があった時刻から過去の1秒間とする。

0128

ステップS407で、分析部303は、応答信号がない場合、話速の頻度分布を更新し、記憶部305に記憶する。

0129

以上、実施例3によれば、音声信号の話速やキー入力センサ31を用いて、ユーザが聞き取りにくいと感じた際の簡単な応答によって、ユーザの聴力特性に応じた聞き取りやすい音声に補正することができる。また、実施例3によれば、寄与度を算出して、寄与度が高い場合に不良と判断して音響特徴量を記憶することができる。なお、寄与度の算出は、話速に限られず、他の音響特徴量でも寄与度を算出するようにしてもよい。

0130

[実施例4]
次に、実施例4における携帯端末装置4について説明する。実施例4に示す携帯端末装置4は、音声補正部40を有し、音響特徴量として入力信号の音声レベルとSNR、マイク信号ノイズレベルの3種類を用い、応答検知部としてキー入力センサ31を用いる。

0131

図12は、実施例4における携帯端末装置4の構成の一例を示すブロック図である。図12に示す構成において、図5及び図9に示す構成と同様の構成があれば同じ符号を付し、その説明を省略する。

0132

図12に示す携帯端末装置4は、受信部21、デコード部23、音声補正部40、アンプ25、キー入力センサ31、スピーカ29、マイク41を備える。

0133

音声補正部40は、キー入力センサ31からの応答信号に応じて、聞き取りにくい音声信号の音響特徴量を記憶し、記憶した音響特徴量に基づいて、音声信号を聞き取りやすく補正する。音声補正部40は、補正した音声信号をアンプ25に出力する。マイク41は、周囲の音を入力し、マイク信号として音声補正部40に出力する。

0134

図13は、実施例4における音声補正部40の構成の一例を示すブロック図である。図13に示す音声補正部40は、FFT部401、403、特徴量算出部405、407、分析部409、記憶部411、補正制御部413、補正部415、IFFT部419を備える。

0135

FFT部401は、マイク信号に対して高速フーリエ変換(FFT)処理を行い、スペクトルを算出する。FFT部401は、算出したスペクトルを特徴量算出部405に出力する。

0136

FFT部403は、入力された音声信号に対して高速フーリエ変換(FFT)処理を行い、スペクトルを算出する。FFT部403は、算出したスペクトルを特徴量算出部407及び補正部415に出力する。

0137

なお、FFT部401、403は、時間周波数変換の一例としてFFTを挙げたが、他の時間周波数変換を行う処理部でもよい。

0138

特徴量算出部405は、マイク信号のスペクトルからノイズレベルNMIC(n)を推定する。特徴量算出部405は、算出したノイズレベルを分析部409及び補正制御部413に出力する。

0139

特徴量算出部407は、音声信号のスペクトルから音声レベルS(n)、信号対雑音比SNR(n)を推定する。SNR(n)は、S(n)/N(n)で求められる。N(n)は、音声信号のノイズレベルである。特徴量算出部407は、算出した音声レベル及びSNRを分析部409及び補正制御部413に出力する。

0140

分析部409は、応答信号がない場合、各音響特徴量の頻度分布を更新し、記憶部411に記憶する。ここでは、統計量として頻度分布を用いる。

0141

図14は、各音響特徴量の頻度分布の一例を示す図である。図14(A)は、音声レベルの頻度分布の一例を示す。図14(B)は、SNRの頻度分布の一例を示す。図14(C)は、ノイズレベルの頻度分布の一例を示す。

0142

分析部409は、応答信号がある場合、次の式により、各音響特徴量の過去Mフレーム分の平均値を算出する。

0143

0144

分析部409は、各音響特徴量の平均値を求めた後、この平均値とそれぞれの頻度分布とを比較し、平均値に対応する度数が最も少ない音響特徴量を選択する。

0145

図15は、各音響特徴量の平均と度数との関係を示す図である。図15(A)は、音声レベルの平均値に対応する度数を示す。図15(B)は、SNRの平均値に対応する度数を示す。図15(C)は、ノイズレベルの平均値に対応する度数を示す。

0146

図15に示す例では、ノイズレベルの平均値に対応する度数が、その他の音響特徴量の平均値に対応する度数よりも少ない。よって、分析部409は、ノイズレベルを、聞き取りにくい原因として選択する。分析部409は、選択された音響特徴量を記憶部411に登録する。図15に示す例では、ノイズレベルが記憶部411に登録される。記憶部411は、各音響特徴量の頻度分布、及び不良として登録された音響特徴量を記憶する。

0147

図13に戻り、補正制御部413は、記憶部205に記憶された各音響特徴量の頻度分布と、登録された音響特徴量と、現フレームから過去Mフレームの平均とを用いて補正量を算出する。各音響特徴量の補正量については、図16を用いて説明する。図16は、各音響特徴量の補正量の一例を示す図である。

0148

・音声レベルの補正量を算出する場合
図16(A)は、音声レベルの補正量の一例を示す図である。図16(A)に示す例では、補正制御部413は、まず登録音声レベル1,2を求める。登録音声レベル1は、頻度分布の平均値以下の記憶部411に登録された音声レベル(登録音声レベル)の中で最大値の登録音声レベルとする。なお、頻度分布の平均値以下の登録音声レベルがない場合は登録音声レベル1を0とする。

0149

登録音声レベル2は、例えば、頻度分布の平均値以上の登録音声レベルの中で最小値の登録音声レベルとする。なお、頻度分布の平均値以上の登録音声レベルがない場合は登録音声レベル2を無限大とする。

0150

補正制御部413は、図16(A)に示す関係に基づいて、補正量を算出する。例えば、登録音声レベル2の前後の所定レベルに対しては、音声レベルに比例して6dBから0dBまで減少するように補正量が算出される。また、音声登録レベル2の前後の所定レベルに対しては、音声レベルに比例して0dBから−6dBまで減少するように補正量が算出される。

0151

・SNRの補正量を算出する場合
図16(B)は、SNRの補正量の一例を示す図である。図16(B)に示す例では、補正制御部413は、記憶部411に登録されたSNR(登録SNR)の前後の所定SNRに対して、SNRに比例して6dBから0dBまで減少するように補正量を算出する。

0152

・ノイズレベルの補正量を算出する場合
図16(C)は、ノイズレベルの補正量の一例を示す図である。図16(C)に示す例では、補正制御部413は、記憶部411に登録されたノイズレベル(登録ノイズレベル)の前後の所定ノイズレベルに対して、ノイズレベルに比例して0dBから6dBまで増加するように補正量を算出する。

0153

補正部415は、補正制御部413により算出された補正量に基づいて音声信号を補正する。例えば、補正部415は、FFT部403から入力されたスペクトルに対して補正量を乗算することで補正処理を行う。補正部415は、補正処理したスペクトルをIFFT部417に出力する。

0154

IFFT部419は、取得したスペクトルに対して逆高速フーリエ変換を行い、時間信号を算出する。この処理は、FFT部401、403の時間周波数変換に対する周波数時間変換を行えばよい。

0155

<動作>
次に、実施例4における音声補正部40の動作について説明する。図17は、実施例4における音声補正処理の一例を示すフローチャートである。図17に示すステップS501で、特徴量算出部405、407は、音声信号やマイク信号から複数の異なる音響特徴量を算出する。この場合、音響特徴量は、音声信号の音声レベルとSNR、マイク信号のノイズレベルである。

0156

ステップS502で、補正制御部413は、現フレームの各音響特徴量を算出し、算出した各音響特徴量と記憶部411に記憶されている各不良音響特徴量とを比較し、補正の必要があるか否かを判定する。

0157

例えば、算出された各音響特徴量が、不良音響特徴量を含む所定範囲内にある場合は補正の必要があると判定され(ステップS502−YES)、ステップS503に進み、不良音響特徴量を含む所定範囲内にない場合は補正の必要がないと判定され(ステップS502−NO)、ステップS505に進む。

0158

ステップS503で、補正制御部413は、記憶部411に記憶されている正常な音響特徴量を用いて、補正の必要がある音響特徴量の補正量を算出する。例えば、補正制御部413は、図16に示すような関係になるように音響特徴量の補正量を算出する。

0159

ステップS504で、補正部415は、補正制御部413で算出された補正量に基づき、音声信号を補正する。

0160

ステップS505で、キー入力センサ31は、ユーザからの応答があったか否かを判定する。ユーザからの応答がある場合(ステップS505−YES)ステップS506に進み、ユーザからの応答がない場合(ステップS505−NO)ステップS508に進む。

0161

ステップS506で、分析部409は、聞こえにくい原因となっている不良音響特徴量を音声信号の音声レベルとSNR、マイク信号のノイズレベルの中から選択する。選択については、例えば、正常な音響特徴量の統計量(例えば頻度分布)を用いて、応答信号を取得した時点から過去Mフレームの音響特徴量の平均の度数が一番小さいものを選択すればよい(図15参照)。なお、選択される音響特徴量は、複数であってもよい。

0162

ステップS507で、分析部409は、選択した音響特徴量を記憶部411の不良音響特徴量に登録する。

0163

ステップS508で、補正制御部413は、現フレームの音響特徴量を用いて記憶部411に記憶されている度数分布(ヒストグラム)を更新する。

0164

以上、実施例4によれば、音声信号の音声レベルやSNR、マイク信号のノイズレベル、キー入力センサ31を用いて、ユーザが聞き取りにくいと感じた際の簡単な操作によって、ユーザの聴力に応じた聞き取りやすい音声に補正することができる。

0165

また、実施例4では、複数の音響特徴量を用いるので、聞き取りにくい原因となっている音響特徴量を見つけやすく、その原因を取り除くことができる。なお、実施例4では、音声信号の音声レベルやSNRなどを用いたが、実施例1で説明した音響特徴量のうちの2又は3つ以上の組み合わせを用いるようにしてもよい。

0166

[実施例5]
次に、ユーザの聞きにくさの要因と、ユーザの聴力特性とに応じて、音声を聞きやすくする各実施例について説明する。ユーザの聞こえにくさの要因には、周囲騒音受話音声の特徴(話速、基本周波数)などがある。

0167

ユーザにとって音声の聞きにくさは、ユーザの周囲の騒音毎や受話音声の特徴毎に異なる傾向がある。例えば、周囲騒音に応じて聞こえやすくするための補正量は、ユーザの聴力特性によって異なる。そこで、ユーザの聞こえにくさの要因やユーザの聴力特性に応じて、そのユーザにとって適切な補正量を求めることが重要になる。

0168

実施例5では、聞きにくさの要因としての周囲騒音毎に、聞きにくさを反映したユーザの応答信号と、入力音の音響特徴量及び参照音の音響特徴量を関連付けて入力応答履歴情報として記憶する。また、実施例5では、記憶した入力応答履歴情報に基づいてユーザの聴力特性と周囲騒音とに応じた補正を行う。

0169

<構成>
図18は、実施例5における音声補正装置50の構成の一例を示すブロック図である。音声補正装置50は、特徴量算出部501、記憶部502、補正制御部503、補正部504を備える。応答検知部511は、実施例1の応答検知部111と同様であり、音声補正装置50に含まれてもよい。

0170

特徴量算出部501は、入力音、参照音、出力音(補正後の入力音)の処理フレーム(例えば20ms分)を取得する。参照音とは、マイクから入力された信号であり、例えば周囲の雑音が含まれる信号である。特徴量算出部501は、入力音、参照音の音声信号を取得し、第一の音響特徴量及び少なくとも1つ以上の第二の音響特徴量を算出する。

0171

以下、前述の少なくとも1つ以上の第二の音響特徴量の数値集合を、第二の音響特徴量ベクトルと呼ぶ。音響特徴量は、前述しているが、例えば入力音の音声レベル、入力音の話速、入力音の基本周波数、入力音のスペクトル傾斜、入力音のSNR(Signal to Noise ratio)、参照音の周囲騒音レベル、参照音のSNR、入力音と参照音のパワー比などがある。

0172

特徴量算出部501は、第一の音響特徴量として、前述した音響特徴量のうちの1つを用い、第二の音響特徴量ベクトルの要素として、前述した音響特徴量のうちで第一の音響特徴量と同一のものを除いた少なくとも1つ以上を用いればよい。

0173

実施例5では、第一の音響特徴量として選択したものが補正の対象となる。例えば、第一の音響特徴量が音声レベルであれば、補正部504において、入力音の音声レベルの増幅処理もしくは減衰処理が施される。

0174

特徴量算出部501は、例えば、入力音及び出力音より第一の音響特徴量として式(15)に示す音声レベルと、参照音より第二の音響特徴量として式(17)に示す周囲騒音レベルとを算出する。

0175

なお、この時、特徴量算出部501は入力音及び参照音が音声であるか否かを判別する。音声であるか否かの判別は、公知の技術を用いて行う(例えば、特許第3849116号公報)。

0176

0177

0178

実施例5では、第二の音響特徴量の数は1つであるため、第二の音響特徴量ベクトルはスカラ値となる。特徴量算出部501は、算出した出力音の音声レベルと参照音の周囲騒音レベルとを記憶部502に出力する。

0179

特徴量算出部501は、算出した入力音の音声レベルと参照音の周囲騒音レベルとを補正制御部503に出力する。特徴量算出部501は、出力音の補正前の入力音が音声でない場合は記憶部502への出力を行わないように制御する。

0180

記憶部502は、特徴量算出部501で算出された第一の音響特徴量及び第二の音響特徴量ベクトルと、それらの特徴量が検出された時点から所定時間内におけるユーザ応答の有無を関連付けて保存する。保存の形態は、各特徴量の組み合わせに対するユーザ応答の発生回数や頻度を参照できる形式であればよい。

0181

実施例5では、記憶部502は、特徴量算出部501により算出された出力音の音声レベルと参照音の周囲騒音レベルとユーザ応答の有無との関係を記憶する。記憶部502は、特徴量算出部501にて算出された<出力音の音声レベル,周囲騒音レベル>をバッファ保存残余時間(例えば数秒)と共にバッファに記憶する。

0182

記憶部502は、処理フレーム毎に、バッファ保存残余時間の更新としてバッファ内にある各データに対するバッファ保存残余時間をデクリメントする。バッファは、出力オンをユーザが聞いてから応答するまでのタイムラグ以上のデータが保持できる容量を有すればよい。例えば、処理フレームを2、3秒記憶できる容量を有するバッファであればよい。

0183

記憶部502は、バッファ保存残余時間が0以下となったデータに対して、「ユーザの応答無」の情報を付加し、<出力音の音声レベル,周囲騒音レベル,ユーザの応答無>という形式で入力応答履歴情報として記憶する。入力応答履歴情報として記憶したデータは、バッファから削除する。

0184

記憶部502は、応答検知部511から応答信号があった時に、バッファ内にある所定のデータに対して「ユーザの応答有」の情報を付加し、<出力音の音声レベル,周囲騒音レベル,ユーザの応答有>という形式で入力応答履歴情報として記憶する。記憶部502は、入力応答履歴情報として記憶すると、記憶したデータはバッファから削除する。

0185

所定のデータは、例えばバッファ内の最も古いデータ又はバッファ内のデータの平均などである。

0186

応答検知部511は、ユーザの応答を検知し、記憶部502に応答信号を出力する。以下では、簡単のため、ユーザが応答をした時間と、応答信号を出力する時間とを同じ時間として説明する。

0187

ここで、図19を用いて、記憶部502への登録について説明する。図19は、出力音の音声レベル及び周囲騒音レベルと時間の関係の一例を示す図である。図19に示すr2のタイミングでユーザの応答があった場合、記憶部502は、バッファ保存残余時間以内(t1)にある入力音の各処理フレームの音響特徴量を入力応答履歴情報として記憶する。

0188

この時、記憶部502は、入力応答履歴<出力音の音声レベル,周囲騒音レベル,応答の有無>を、<S3,N2,有>として、出力音の音声レベルと周囲騒音レベルと入力応答の有無をセットにして入力応答履歴情報に記憶する。

0189

r3のタイミングのユーザ応答についても同様に、記憶部502は、バッファ保存残余時間以内(t3)にある入力音の各処理フレームについて、<S2,N1,有>のように、応答の有無を「有」として入力応答履歴情報に記憶する。

0190

バッファ保存残余時間以内にユーザ応答が無い区間(t2,t4)については、記憶部502は、<S2,N2,無>として、応答の有無を「無」として入力応答履歴情報に記憶する。例えばt2区間は、バッファ保存残余時間分の区間が複数存在する。

0191

図19に示すt5の区間は、バッファ保存残余時間が0以上であり、対応するユーザ応答が無い区間であり、バッファリングされている状態を示す。

0192

図20は、入力応答履歴情報の一例を示す図である。図20に示すように、出力音の音声レベル、周囲騒音レベル、応答の有無が入力応答履歴情報として記憶部502に記憶される。図20に示すレベルは、例えば、バッファ保存残余時間分のデータの平均値や、ユーザの応答があった時までにバッファに保存されていたデータの平均値である。

0193

図18に戻り、補正制御部503は、特徴量算出部501により算出された音響特徴量を取得し、取得した音響特徴量と、記憶部502に記憶されている入力応答履歴情報とを比較し、補正量を算出する。

0194

補正制御部503は、特徴量算出部501により算出された、参照音の第二の音響特徴量ベクトルと同じベクトルを持つ入力応答履歴情報を記憶部502から参照する。また、補正制御部503は、ユーザの聞きにくさを反映した信号の発生頻度が低くなるような第一の音響特徴量を推定する。補正制御部503、推定した第一の音響特徴量に基づき目標補正量を設定する。

0195

なお、補正制御部503は、ベクトルの一致を判定する際に、両ベクトル間の距離を算出し、距離が小さい時に一致すると判定してもよい。ベクトル間の距離としては、例えばユークリッド距離標準ユークリッド距離、マンハッタン距離マハラノビス距離チェビシェフ距離、ミンコフスキー距離などがある。ベクトル間の距離算出の際に、ベクトルの各要素に重みづけを行ってもよい。

0196

補正制御部503は、目標補正量の設定後、入力音の第一音響特徴量と目標補正量とを比較し、補正量を決定する。

0197

実施例5では、補正制御部503は、特徴量算出部501により算出された周囲騒音レベルNinと、入力応答履歴情報に含まれる周囲騒音レベルNhistとを比較する。補正制御部503は、比較の結果、式(18)を満たす入力応答履歴情報を記憶部502から抽出する。

0198

0199

図21は、抽出された入力応答履歴情報の一例を示す図である。図21に示す例では、図20に示す入力応答履歴情報から、式(18)を満たす周囲騒音レベル「N1」が補正制御部503により抽出される。これは、処理フレームの周囲騒音レベルが、N1レベルと同等であることを表す。

0200

補正制御部503は、抽出した入力応答履歴情報を用いて現在の周囲騒音レベルに対する、各出力音の音声レベルの聞きやすさを推定する。補正制御部503は、音声レベルの値毎に「ユーザの応答無」となる確率を算出し、この確率を聞きやすさの推定値(以降、了解値と呼ぶ)として算出する。

0201

補正制御部503は、了解値が所定値以上となる出力音の音声レベルを、目標補正量として設定する。所定値は、例えば0.95とする。補正制御部503は、特徴量算出部501により算出された入力音の音声レベルと、求めた目標補正量との差分を補正量として、補正部504に出力する。

0202

なお、入力音の音声レベルに対する了解値が既に所定値以上の場合、例えば補正量を0としてもよい。次に、現処理フレームの参照音の周囲騒音レベルがNinである場合を例として、補正量算出処理を説明する。

0203

(補正量算出処理)
記憶部502には、補正量算出に十分な入力応答履歴情報が記憶されているとする。まず、補正制御部503は、式(18)を満たすデータを記憶部502から抽出する(図21参照)。

0204

補正制御部503は、抽出したデータにおいて、出力音の音声レベル毎に「応答の有無が有となっている数」と「応答の有無が無となっている数」とをカウントし、num(出力音の音声レベル,応答の有無)と表す。

0205

例えば、<出力音の音声レベル,周囲騒音レベル,応答の有無>=<S1,*,有>である入力応答履歴情報が、抽出した入力応答履歴情報の中に50個含まれていた場合、num(S1,有)=50となる。

0206

次に、補正制御部503は、出力音の音声レベルの値毎に、了解値として、応答の有無が無となる頻度num(S1,無)を算出する。補正制御部503は、出力音の音声レベルS1に対する了解値p(S1)を、式(19)により求める。

0207

0208

補正制御部503は、算出した了解値p(S)を用いて補正量を算出する。補正量算出処理については、図22を用いて説明する。図22に示すSinは、入力音の音声レベルを示す。

0209

図22(A)は、出力音の音声レベルSと了解値p(S)との関係(その1)の一例を示す図である。まず、了解値が所定の閾値TH2(例えば0.95)よりも高いとき、そのときの出力音は、十分に聞きやすいと判断できる。

0210

補正制御部503は、了解値が閾値TH2となる音声レベルの値を目標補正量に設定する。例えば、補正制御部503は、了解値p−1(TH2)を、周囲騒音レベルNinに対する目標補正量o(Nin)として設定する。補正部504は、入力音の音声レベルSinに対して、周囲騒音レベルNin時の目標補正量まで補正すれば、ユーザにとって聞き取りやすい音声に補正することができる。

0211

図22(B)は、出力音の音声レベルSと了解値p(S)との関係(その2)の一例を示す図である。図22(B)に示す関係は、p(Sin)>TH2が成り立つ場合である。図22(B)に示す場合、補正制御部503は、目標補正量o(Nin)をSinに設定する。

0212

図22(C)は、出力音の音声レベルSと了解値p(S)との関係(その3)の一例を示す図である。図22(C)に示す関係は、p−1(TH2)が複数ある場合である。図22(C)に示す場合、補正制御部503は、p−1(TH2)の解のうち、Sinに最も近い値を目標補正量o(Nin)に設定する。

0213

上より、補正制御部503は、式(20)により、目標補正量o(Nin)を設定する。

0214

0215

補正制御部503は、式(20)により、目標補正量が決まると、式(21)により補正量gを算出する。
g=o(Nin)−Sin ・・・式(21)
g:補正量(dB(デシベル)単位)
o(x):周囲騒音レベルがxのときの目標補正量
Sin:入力音の音声レベル
補正制御部503は、算出した補正量gを、補正部504に出力する。

0216

図18に戻り、補正部504は、補正制御部503から取得した補正量gに基づいて、入力音の音声レベルに対して増幅または減衰させる。補正部504は、式(22)に従って補正した音声信号(出力音)を出力する。

0217

0218

これにより、周囲騒音に応じて、ユーザの聴力特性に合った聞き取りやすい音声に補正することができる。

0219

<動作>
次に、実施例5における音声補正装置50の動作について説明する。図23は、実施例5における音声補正処理の一例を示すフローチャートである。図23に示すステップS601で、記憶部502は、ユーザからの応答があったか否かを判定する。ユーザからの応答がある場合(ステップS601−YES)ステップS602に進み、ユーザからの応答がない場合(ステップS601−NO)ステップS603に進む。

0220

ステップS602で、記憶部502は、バッファに保存された各音響特徴量のデータセットに対して応答有を付与して入力応答履歴情報として記憶し、記憶されたデータをバッファから削除する。

0221

ステップS603で、記憶部502は、バッファに保存された各音響特徴に付随したバッファ保存残余時間をデクリメントし、バッファ保存残余時間が0となったデータがあるかどうかを判定する。残余時間が0(所定時間経過後)のデータがある場合(ステップS603−YES)ステップS604に進み、残余時間が0のデータがない場合(ステップS603−NO)ステップS605に進む。

0222

ステップS604で、記憶部502は、バッファに保存された各音響特徴量のデータセットのうち、残余時間が0のデータに対して、応答無を付与して入力応答履歴情報として記憶し、記憶されたデータをバッファから削除する。

0223

ステップS605で、補正制御部503は、記憶部502に記憶された入力応答履歴情報と、特徴量算出部501で算出された周囲騒音レベルとに基づいて、目標補正量を算出する。目標補正量の算出については、前述した通りである。

0224

ステップS606で、補正制御部503は、ステップS605で算出された目標補正量と、特徴量算出部501で算出された入力音の音声レベルとを比較し、補正量を算出する。

0225

ステップS607で、補正部504は、補正制御部503で算出された補正量に応じて入力音を補正する。

0226

ステップS608で、記憶部502は、特徴量算出部501により算出された現フレームの補正後の音声レベルと、周囲騒音レベルとをバッファに記憶する。ただし、特徴量算出部501は、入力音の現フレームが音声でないと判別した場合はバッファリングしない。ここで、入力音の音声レベルをバッファに記憶するのではなく、出力音の音声レベルをバッファに記憶するのは、出力音に対してユーザが応答を行うからである。

0227

以上、実施例5によれば、ユーザの簡単な応答により、周囲騒音に応じて、ユーザの聴力特性に合った聞き取りやすい音声に補正することができる。

0228

[実施例6]
次に、実施例6における音声補正装置60について説明する。実施例6では、第二の音響特徴量として、参照音から周囲騒音レベル、入力音からSNR(signal-noise ratio)を算出する。また、実施例6では、記憶部の記憶領域を実施例5よりも減らす。

0229

<構成>
図24は、実施例6における音声補正装置60の構成の一例を示すブロック図である。音声補正装置60は、特徴量算出部601、目標補正量更新部602、記憶部603、補正制御部604、補正部605を備える。応答検知部611は、実施例1の応答検知部111と同様であり、音声補正装置60に含まれてもよい。

0230

特徴量算出部601は、入力音、参照音、出力音(補正後の入力音)の処理フレーム(例えば20ms)を取得する。特徴量算出部601は、第一の音響特徴量として、入力音及び出力音より式(15)に示す音声レベルと、第二の音響特徴量として参照音より式(17)に示す周囲騒音レベルと、入力音より式(25)に示すSNRを算出する。なお、特徴量算出部601は、入力音が音声であるか否かを判別する。

0231

0232

実施例6では、第二の音響特徴量ベクトルは、<周囲騒音レベル,SNR>となる。特徴量算出部601は、算出した出力音の音声レベルと<周囲騒音レベル,SNR>とを目標補正量更新部602に出力し、入力音の音声レベルと<周囲騒音レベル,SNR>とを補正制御部604に出力する。特徴量算出部601は、入力音が音声でない場合は目標補正量更新部602への出力を行わないように制御する。

0233

目標補正量更新部602は、特徴量算出部601により算出された<音声レベル,<周囲騒音レベル,SNR>>のデータセットを、所定セット保存できるバッファに記憶する。目標補正量更新部602は、ユーザの応答が有った場合、バッファ内の所定のデータに対して、「ユーザの応答有」の情報を付加して、記憶部603に出力する。

0234

なお、所定のデータは、例えば最も古いデータである。また、バッファは、応答があってからのタイムラグを考慮して、例えば1〜3秒分程度の記憶領域を有していればよい。

0235

記憶部603は、特徴量算出部601より入力された音響特徴量の値を数段階のランクに分ける。1つのランクに対し、所定範囲(例えば5dB)の音響特徴量が割り当てられる。音声レベル、周囲騒音レベル、SNRのランクは、式(26)〜(28)により求められる。

0236

0237

記憶部603は、第一の音響特徴量及び第二の音響特徴量ベクトルのランクに対する全ての組み合わせ毎カウンタを2個持つ。記憶部603は、第一の音響特徴量及び第二の音響特徴量ベクトルのランクの各組み合わせにおけるユーザ応答が「有」の回数と、ユーザ応答が「無」の回数とを記録する。このカウンタは、Rs*Rn*Rsnr*2の配列によって実現することができる。

0238

図25は、第一の音響特徴量及び第二の音響特徴量ベクトルのランクに対する組み合わせ情報の一例を示す図である。図25に示すように、記憶部603は、音声レベルのランクと、<周囲騒音レベル,SNR>のランク毎に、応答の有無の回数を記憶する。

0239

これにより、所定範囲を有するランク毎に回数をカウントするため、各履歴について応答の有無を記録するよりも、記憶部603の記憶領域を減らすことができる。

0240

目標補正量更新部602は、特徴量算出部601から取得して記憶部603に登録した<周囲騒音レベルランク,SNRランク>と同じ値を持つカウンタの値を記憶部603から取得する。目標補正量更新部602は、取得した音声レベルのランク毎に、式(29)を用いて了解値を算出する。

0241

0242

目標補正量更新部602は、式(30)により了解値が所定の値TH3以上となる最小の音声レベルランクを求める。

0243

0244

目標補正量更新部602は、求めた音声レベルランクを式(31)により音声レベルに変換し、<周囲騒音レベルランク,SNRランク>に対する目標補正量として、記憶部603に記憶する。

0245

0246

図26は、実施例6における目標補正量の一例を示す図である。図26に示すように、記憶部603は、SNRランク、周囲騒音レベルランクに応じて、音声レベルの目標補正量を記憶する。目標補正量更新部602は、例えば、この目標補正量を定期的(例えば1分おき)に更新する。目標補正量の更新は、図25に示す組み合わせ情報の更新とは別のタイミングで行われてもよい。

0247

図24に戻り、補正制御部604では、現フレームの<周囲騒音レベルランク,SNRランク>に対する目標補正量を記憶部603から取得する。補正制御部604は、式(32)により、目標補正量と、入力音の音声レベルSinと比較して、補正量gを算出する。

0248

補正部605は、式(22)に従って補正した音声信号を出力する。

0249

<動作>
次に、実施例6における音声補正装置60の動作について説明する。図27は、実施例6における音声補正処理の一例を示すフローチャートである。図27に示すステップS701で、目標補正量更新部602は、ユーザからの応答があったか否かを判定する。

0250

目標補正量更新部602は、ユーザからの応答がある場合、例えば、バッファ内の最も古い音響特徴量のデータセットに対してユーザ応答有を付与して入力応答履歴情報として記憶部603に記憶する。

0251

また、目標補正量更新部602は、ユーザからの応答がない場合は、バッファ内の最も古い音響特徴量のデータセットに対して、ユーザ応答無を付与して入力応答履歴情報として記憶部603に記憶する。ユーザからの応答がない場合は、目標補正量更新部602は、バッファ内の所定の音響特徴量やバッファ内の音響特徴量のデータセットを平均化して記憶部603に記憶するようにしてもよい。

0252

ステップS702で、目標補正量更新部602は、ステップS701で記憶部603に記憶されたデータセットと同じ<周囲騒音レベルランク,SNRランク>を持つ入力応答履歴情報を参照する。目標補正量更新部602は、参照した入力応答履歴情報を用いて、<周囲騒音レベルランク,SNRランク>に対する目標補正量を更新する。

0253

ステップS703で、補正制御部604は、現フレームの<周囲騒音レベルランク,SNRランク>に対する目標補正量を記憶部603から取得し、現フレームの音声レベルと目標補正量とを比較して補正量を算出する。

0254

ステップS704で、補正部605は、ステップS703で算出された補正量に応じて入力音を補正する。

0255

ステップS705で、目標補正量更新部602は、現フレームの補正後の音声レベルと、SNRと、周囲騒音レベルとをバッファに記憶する。ただし、特徴量算出部601は、入力音の現フレームが音声でないと判別した場合はバッファに記憶しないよう制御する。

0256

以上、実施例6によれば、ユーザの簡単な応答により、ユーザの聴力特性と周囲騒音とSNRとに応じて音声を聞きやすくすることができる。また、実施例6によれば、各音響特徴量の分割ランクを調節することによって、少ない記憶容量で実装することができる。

0257

[実施例7]
次に、実施例7における音声補正装置70について説明する。実施例7では、第一の音響特徴量として話速、第二の音響特徴量として基本周波数、参照音から周囲騒音レベル、入力音からSNRを算出する。また、実施例7では、ユーザ応答として、聞き返しを用いる。

0258

<構成>
図28は、実施例7における音声補正装置70の構成の一例を示すブロック図である。音声補正装置70は、特徴量算出部701、目標補正量更新部702、記憶部703、補正制御部704、補正部705を備える。また、音声補正装置70は、装置の外部に聞き返し検出部711を備えるが、内部に備えてもよい。

0259

聞き返し検出部711は、参照音よりユーザの聞き返しを検出する。聞き返し検出方法は、公知の技術を用いて行われる(例えば、特開2008−278327を参照されたい)。また、聞き返し検出部711は、発話区間長が短く、発話区間の音声レベルが上昇し、発話区間のピッチの変動が大きい場合に、聞き返しと判断してもよい。

0260

特徴量算出部701は、入力音の処理フレーム(例えば20ms)を取得する。特徴量算出部701は、第一の音響特徴量として式(33)に示す話速と、第二の音響特徴量として式(34)に示す基本周波数とを算出する。

0261

ここで、話速と基本周波数とを組み合わせる理由として、物理的な話速が同じであっても、基本周波数F0が高いほど、主観上では話速が速く感じるという現象があるからである。よって、主観上で適切な話速にするには、基本周波数毎に調節するとよい。なお、特徴量算出部701は入力音が音声であるか否かを判別する。

0262

0263

0264

特徴量算出部701は、算出した出力音の話速と基本周波数とを目標補正量更新部702に出力し、入力音の話速と基本周波数とを補正制御部704に出力する。特徴量算出部701は、入力音が音声でない場合、目標補正量更新部702への出力を行わないように制御する。

0265

記憶部703は、各基本周波数に対する話速の了解度p(話速,基本周波数)を記憶する。初期の了解度は1とする。了解度とは、聞きやすい話速にするための変数である。

0266

図29は、基本周波数ランクと話速ランクとの了解度の一例を示す図である。図29に示すように、記憶部703は、基本周波数ランクと、話速ランクとの了解度を記憶する。了解度は、目標補正量更新部702により算出される。

0267

なお、実施例7における記憶部703でも、実施例6で説明するような所定範囲を示すランク毎に記憶する。よって、基本周波数は、所定Hz毎にランク分けされ、話速は、所定単位毎にランク分けされる。

0268

図28に戻り、目標補正量更新部702は、ユーザの応答(聞き返し)を検出した場合、特徴量算出部701により算出された<話速,基本周波数>の了解度に対して、式(35)に従ってペナルティを乗算する。

0269

θ:ペナルティ(例えば0.9)

0270

目標補正量更新部702は、ユーザの聞き返しがない所定フレーム毎に、特徴量算出部701により算出された<話速,基本周波数>の了解度に対して、式(36)に従って得点を乗算する。

0271

0272

目標補正量更新部702は、記憶部703の了解度を更新する都度、基本周波数に対する話速の目標補正量を式(37)に従って更新する。

0273

0274

図30は、実施例7における目標補正量の一例を示す図である。図30に示すように、記憶部703は、基本周波数ランクに対応させて話速の目標補正量を記憶する。

0275

図28に戻り、補正制御部704は、現フレームの基本周波数F0inに対する目標補正量を記憶部703から取得し、式(38)のように入力音の話速Minに対して、補正量mを算出する。

0276

0277

補正部705は、補正制御部704が算出した補正量に従って入力音の話速を倍速し、出力する。話速の変換については公知の技術を用いる(例えば。特許第3619946号公報を参照されたい)。

0278

<動作>
次に、実施例7における音声補正装置70の動作について説明する。図31は、実施例7における音声補正処理の一例を示すフローチャートである。図31に示すステップS801で、目標補正量更新部702は、聞き返し検出があったか否かを判定する。聞き返し検出があった場合(ステップS801−YES)ステップS802に進み、聞き返し検出がない場合(ステップS801−NO)ステップS803に進む。

0279

ステップS802で、目標補正量更新部702は、現在の各音響特徴量のデータセットに対する了解度に対してペナルティを与え、目標補正量を更新する。

0280

ステップS803で、目標補正量更新部702は、フレーム番号が更新間隔(例えば数秒)の倍数であるかどうかを判定する。更新間隔の倍数である場合(ステップS803−YES)ステップS804に進み、更新間隔の倍数で無い場合(ステップS803−NO)ステップS805に進む。

0281

ステップS804で、目標補正量更新部702は、現在の各音響特徴量のデータセットに対する了解度に対して得点を与え、目標補正量を更新する。

0282

ステップS805で、補正制御部704は、現在の基本周波数に対する目標補正量を、現在の話速と比較して補正量を算出する。

0283

ステップS806で、補正部705は、ステップS805にて算出された補正量に応じて入力音の話速を変換する。

0284

ステップS807で、目標補正量更新部702は、特徴量算出部701で算出された現フレームの補正後の話速と基本周波数とを更新する。ただし、特徴量算出部701にて、入力音の現フレームが音声でないと判別された場合は更新を行わないよう制御する。

0285

以上、実施例7によれば、ユーザは自然に会話をしているだけで、ユーザの聴力特性と相手の声色に合わせて音声を聞きやすくすることができる。ここで、話速が速い場合、理解するために脳が会話に集中する傾向がある。そのため、会話から気をそらす必要がある応答手段は使われにくくなる。よって、聞き取れなくてもユーザからの応答がないため、ユーザ応答無しとなり、誤学習が生じる。

0286

そこで、実施例7では、ユーザ応答として、会話中の聞き返しを用いることで、会話に集中しているユーザの聞き取れない状況を精度良く学習することができる。

0287

なお、実施例5〜7では、実施例1〜4で説明した分析部を含まない構成について説明した。しかし、実施例5〜7においても、分析部を含み、この分析部が、ユーザ応答があった場合に、特徴量算出部から取得し、バッファリングしていた音響特徴量を記憶部に記憶するようにしてもよい。

0288

次に、各実施例で説明した音声補正装置又は音声補正部を有する携帯端末装置のハードウェアについて説明する。図32は、携帯端末装置800のハードウェアの一例を示すブロック図である。図32に示す携帯端末装置800は、アンテナ801、無線部803、ベースバンド処理部805、制御部807、端末インタフェース部809、マイク811、スピーカ813、主記憶部815、補助記憶部817を有する。

0289

アンテナ801は、送信アンプで増幅された無線信号を送信し、また、基地局から無線信号を受信する。無線部803は、ベースバンド処理部805で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部803は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部805に伝送する。

0290

ベースバンド部805は、送信データ誤り訂正符号の追加、データ変調拡散変調、受信信号の逆拡散受信環境の判定、各チャネル信号閾値判定誤り訂正復号などのベースバンド処理などを行う。

0291

制御部807は、制御信号送受信などの無線制御を行う。また、制御部807は、補助記憶部817などに記憶されている音声補正プログラムを実行し、各実施例における音声補正処理を行う。

0292

主記憶部815は、ROM(Read Only Memory)やRAM(Random Access Memory)などであり、制御部807が実行する基本ソフトウェアであるOSやアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。

0293

補助記憶部817は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。

0294

端末インタフェース部809は、データ用アダプタ処理、ハンドセットおよび外部データ端末とのインタフェース処理を行う。

0295

これにより、携帯端末装置800において、音声を聞いている最中に、簡単な操作により、ユーザの聴力特性に応じて聞き取りやすい音声に補正することができる。また、各実施例で言えることは、音声補正処理を行えば行うほど、ユーザの聴力特性に応じて、より聞きやすくなる。

0296

また、各実施例における音声補正装置又は音声補正部を1つ又は複数の半導体集積化回路として、携帯端末装置800に実装することも可能である。また、開示の技術は、携帯端末装置800に限らず、音声を出力する情報処理端末などにも実装することができる。

0297

また、前述した各実施例で説明した音声補正処理を実現するためのプログラムを記録媒体に記録することで、各実施例での音声補正処理をコンピュータに実施させることができる。例えば、このプログラムを記録媒体に記録し、このプログラムが記録された記録媒体をコンピュータや携帯端末装置に読み取らせて、前述した音声補正処理を実現させることも可能である。

0298

なお、記録媒体は、CD−ROMフレキシブルディスク光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

0299

なお、前述した各実施例は、携帯端末装置以外にも、コールセンター等に設定されている固定電話においても適用可能である。

0300

以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、種々の変形及び変更が可能である。また、前述した各実施例の構成要素を全部又は複数を組み合わせることも可能である。

0301

なお、以上の各実施例に関し、さらに以下の付記を開示する。
(付記1)
ユーザからの応答を検知する検知部と、
入力された音声信号の音響特徴量を算出する算出部と、
前記算出部により算出された音響特徴量をバッファリングし、前記検知部から前記応答による応答信号を取得した場合、所定量の音響特徴量を出力する分析部と、
前記分析部により出力された音響特徴量を記憶する記憶部と、
前記算出部により算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出する制御部と、
前記制御部により算出された補正量に基づき、音声信号を補正する補正部と、
を備える音声補正装置。
(付記2)
前記分析部は、
前記応答信号が取得されない場合、音響特徴量の統計量を算出し、
前記算出部は、
前記比較結果及び前記統計量に基づき、前記補正量を算出する付記1記載の音声補正装置。
(付記3)
前記算出部は、
複数の異なる音響特徴量を算出し、
前記分析部は、
前記応答信号を取得した場合、前記統計量に基づいて選択した各音響特徴量の中の少なくとも1つの音響特徴量を前記記憶部に出力する付記2記載の音声補正装置。
(付記4)
前記統計量は頻度分布であり、
前記分析部は、
前記頻度分布の平均値と前記算出された音響特徴量との差分に基づいて複数の音響特徴量の中から一つの音響特徴量を選択し、
前記制御部は、
前記平均値に基づいて前記補正量を算出する付記3記載の音声補正装置。
(付記5)
前記音声信号とは異なる入力信号の音響特徴量を算出する第2算出部をさらに備え、
前記分析部は、
前記音声信号の音響特徴量及び前記入力信号の音響特徴量を前記バッファに記憶し、前記検知部から前記応答信号を取得した場合、算出された各音響特徴量の頻度分布に基づき選択された1つの音響特徴量を前記記憶部に出力し、
前記制御部は、
前記分析部により選択された音響特徴量の前記比較結果に基づき、前記補正量を算出する付記1記載の音声補正装置。
(付記6)
前記制御部は、
算出された音響特徴量の平均値と前記記憶手段に記憶されている音響特徴量とから正常範囲を算出し、該正常範囲の上限又は下限と現フレームの音響特徴量との差分を前記補正量とする付記1記載の音声補正装置。
(付記7)
前記分析部は、
前記頻度分布の平均値と前記算出された音響特徴量とから寄与度を算出し、該寄与度が閾値以上の場合に前記記憶部に音響特徴量を出力する付記4記載の音声補正装置。
(付記8)
前記音響特徴量は、
前記音声信号の音声レベル、スペクトルの傾き、話速、基本周波数、ノイズレベル、SNRのうちの少なくとも1つである付記1乃至7いずれか一項に記載の音声補正装置。
(付記9)
前記算出部は、
前記音声信号の第一の音響特徴量と、前記音声信号とは異なる入力信号の第二の音響特徴量とを算出し、
前記記憶部は、
前記検知部により検知される応答の有無と、前記第一の音響特徴量及び前記第二の音響特徴量とを関連付けた入力応答履歴情報を記憶し、
前記制御部は、
前記算出部により算出された第一の音響特徴量の値及び第二の音響特徴量の値にそれぞれ対応する値を有する入力応答履歴情報を抽出し、抽出された前記入力応答履歴情報に基づいて、前記第一の音響特徴量に対する補正量を算出する付記1記載の音声補正装置。
(付記10)
前記制御部は、
抽出された前記入力応答履歴情報に含まれる第一の音響特徴量の値毎に、応答有の回数と応答無の回数とに基づく比を算出し、前記比が閾値以上となる第一の音響特徴量の値を用いて補正量を算出する付記9記載の音声補正装置。
(付記11)
前記記憶部は、
前記第一の音響特徴量に対する補正量を示す目標補正量を記憶し、
前記算出部により算出された第一の音響特徴量及び第二の音響特徴量、前記検知部により検知される応答の有無に基づき前記目標補正量を更新する更新部をさらに備える付記9又は10記載の音声補正装置。
(付記12)
前記算出部は、
前記音声信号から第一の音響特徴量と、少なくとも1つ以上の第二の音響特徴量とを算出し、
前記記憶部は、
前記検知部により検知される応答の有無と、前記第一の音響特徴量及び前記第二の音響特徴量とを関連付けた入力応答履歴情報を記憶し、
前記制御部は、
前記算出部により算出された第一の音響特徴量の値及び第二の音響特徴量の値にそれぞれ対応する値を有する入力応答履歴情報を抽出し、抽出された前記入力応答履歴情報に基づいて、前記第一の音響特徴量に対する補正量を算出する付記1記載の音声補正装置。
(付記13)
前記算出部は、
前記補正部により補正された音声信号に対し、前記第一の音響特徴量及び前記第二の音響特徴量を算出し、
前記記憶部は、
前記補正された音声信号の前記第一の音響特徴量又は前記第二の音響特徴量を記憶する付記12記載の音声補正装置。
(付記14)
音声補正装置における音声補正方法であって、
入力された音声信号の音響特徴量を算出し、
ユーザからの応答を検知し、
前記算出された音響特徴量をバッファリングし、検知された前記応答による応答信号を取得した場合、所定量の音響特徴量を出力し、
前記出力された音響特徴量を記憶部に記憶し、
前記算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出し、
前記算出された補正量に基づき、音声信号を補正する音声補正方法。
(付記15)
入力された音声信号の音響特徴量を算出し、
ユーザからの応答を検知し、
前記算出された音響特徴量をバッファリングし、検知された前記応答による応答信号を取得した場合、所定量の音響特徴量を出力し、
前記出力された音響特徴量を記憶部に記憶し、
前記算出された音響特徴量と、前記記憶部に記憶された音響特徴量との比較結果に基づき、音声信号の補正量を算出し、
前記算出された補正量に基づき、音声信号を補正する、
処理をコンピュータに実行させるための音声補正プログラム。

0302

10、50、60、70音声補正装置
20、30、40音声補正部
27加速度センサ
31キー入力センサ
101音響特徴量算出部
103特徴分析部
105 特徴記憶部
107補正制御部
109、415補正部
111応答検知部
201パワー算出部
203、303、409分析部
205、305、411 記憶部
207、307、413 補正制御部
209増幅部
301話速計測部
309話速変換部
401、403FFT部
405、407特徴量算出部
417IFFT部
501、601、701 特徴量算出部
502、603、703 記憶部
503、604、704 補正制御部
504、605、705 補正部
602、702目標補正量更新部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • ソニー株式会社の「 情報処理装置および電子機器」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、どのユーザに対して応答するべきかを正しく判断することができるようにする情報処理装置および電子機器に関する。発話者特定部は、ユーザが存在する環境の画像と音声に基づいて、所定の... 詳細

  • グーグルエルエルシーの「 オーディオベースのコンピュータプログラム出力の修正」が 公開されました。( 2020/09/24)

    【課題・解決手段】音声または非テキスト入力アクティブ化環境においてコンピュータプログラム出力を修正することが提供される。システムは、デバイスのマイクロフォンによって検出されるオーディオ信号を受信するこ... 詳細

  • グーグルエルエルシーの「 ホットワード認識音声合成」が 公開されました。( 2020/09/24)

    【課題・解決手段】方法(400)は、合成音声(160)に変換するためのテキスト入力データ(302)を受信することと、ユーザデバイス(110)に割り当てられているホットワード(130)の存在を検出するよ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ