図面 (/)

技術 音声出力装置および音声出力方法

出願人 日本電気株式会社
発明者 松村孝和
出願日 2014年3月11日 (6年8ヶ月経過) 出願番号 2014-047776
公開日 2015年10月1日 (5年1ヶ月経過) 公開番号 2015-172622
状態 特許登録済
技術分野 音声の分析・合成 音声認識
主要キーワード システム値 処理済みフラグ 出力音声レベル 未処理状態 参考技術 防災放送 拡声放送 設定出力
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年10月1日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供すること。

解決手段

音声出力装置100は、音声認識部103と、音声調整部105と、音声出力部106とを備えている。音声認識部103は、入力される音声データの話速度文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部105により設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。

概要

背景

市町村防災放送などの同報通信システムで使用される拡声放送は、屋外に設置された複数の音声出力装置(受信拡声装置)によって、同時に行われる。その際、拡声放送の聴取者は、複数の音声出力装置から出力された音声拡声音声)を同時に聞く。このときに聴取者が聞く音声は、複数の音声出力装置各々から聴取者までの距離の違いに基づく伝搬遅延や、建物等により反射などの影響を受けた複数の音声が合成されたものとなる。このため、言葉が重なって聞こえたり、文節ごとの切れ目が不明確になったりするなど、複数の音声出力装置から出力された音声が聴取者にとって聞こえにくい音声になる。

そこで、音声出力装置に音声を入力する話者は、話す速度や、文節の長さや、文節間に無音時間を設けるなど、複数の音声出力装置から出力された音声が聴取者にとって聞きやすくなるように工夫をしている。

なお、本発明の参考技術が、特許文献1および特許文献2に記載されている。

概要

複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供すること。音声出力装置100は、音声認識部103と、音声調整部105と、音声出力部106とを備えている。音声認識部103は、入力される音声データの話速度を文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部105により設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。

目的

本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力される音声データの話速度文節毎に認識する音声認識部と、前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間無音時間を調整して出力用無音時間を設定する音声調整部と、前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えた音声出力装置

請求項2

前記音声認識部は、入力される音声データの話速度および音声レベルを文節毎に認識し、前記音声調整部は、前記音声認識部により認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声ベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定し、前記音声出力部は、前記音声調整部により設定された前記出力用話速度、前記出力用音声レベルおよび前記出力用無音時間に基づいて、前記音声データを出力する請求項1に記載の音声出力装置。

請求項3

前記音声調整部は、前記音声認識部により認識された前記話速度を、前記基準話速度に基づいて調整して、出力用話速度を設定し、前記音声出力部は、前記音声調整部により設定された前記出力用話速度と、予め設定された設定出力用無音時間とに基づいて、前記音声データを出力する請求項1に記載の音声出力装置。

請求項4

前記音声認識部は、入力される音声データの話速度および音声レベルを文節毎に認識し、前記音声調整部は、前記音声認識部により認識された前記話速度および前記音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定し、前記音声出力部は、前記音声調整部により設定された前記出力用話速度および前記出力用音声レベルと、予め設定された基準無音時間とに基づいて、前記音声データを出力する請求項1に記載の音声出力装置。

請求項5

入力される音声データの話速度を文節毎に認識する音声認識ステップと、前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含む音声出力方法

技術分野

0001

本発明は、音声出力装置等に関し、例えば、市町村防災放送など屋外拡声放送するシステムに使用されるものに関する。

背景技術

0002

市町村防災放送などの同報通信システムで使用される拡声放送は、屋外に設置された複数の音声出力装置(受信拡声装置)によって、同時に行われる。その際、拡声放送の聴取者は、複数の音声出力装置から出力された音声拡声音声)を同時に聞く。このときに聴取者が聞く音声は、複数の音声出力装置各々から聴取者までの距離の違いに基づく伝搬遅延や、建物等により反射などの影響を受けた複数の音声が合成されたものとなる。このため、言葉が重なって聞こえたり、文節ごとの切れ目が不明確になったりするなど、複数の音声出力装置から出力された音声が聴取者にとって聞こえにくい音声になる。

0003

そこで、音声出力装置に音声を入力する話者は、話す速度や、文節の長さや、文節間に無音時間を設けるなど、複数の音声出力装置から出力された音声が聴取者にとって聞きやすくなるように工夫をしている。

0004

なお、本発明の参考技術が、特許文献1および特許文献2に記載されている。

先行技術

0005

特開2010−151965号公報
特開平04−06999号公報

発明が解決しようとする課題

0006

しかしながら、前述の話者による工夫では、音声の聞きやすさが、放送毎に異なるという問題があった。その原因として、放送内容を話す速度や、文節の長さや、文節間の無音時間の長さが、話者毎に異なる点と、同一の話者であっても毎回同じ速度や間隔で話すことが難しいという点が、挙げられている。

0007

本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる音声出力装置等を供することにある。

課題を解決するための手段

0008

本発明の音声出力装置は、入力される音声データの話速度を文節毎に認識する音声認識部と、前記音声認識部により認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整部と、前記音声調整部により設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力部とを備えている。

0009

本発明の音声出力方法は、入力される音声データの話速度を文節毎に認識する音声認識ステップと、前記音声認識ステップにより認識された前記話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の前記文節間の無音時間を調整して出力用無音時間を設定する音声調整ステップと、前記音声調整ステップにより設定された前記出力用話速度および前記出力用無音時間に基づいて、前記音声データを出力する音声出力ステップとを含んでいる。

発明の効果

0010

本発明にかかる音声出力装置等によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

図面の簡単な説明

0011

本発明の第1の実施の形態における音声出力装置の構成を示すブロック図である。
本発明の第1の実施の形態における音声出力装置の動作の流れを示すフロー図である。
音声認識部がメモリに記憶するデータ例を示す図である。
本発明の第2の実施の形態における音声出力装置の構成を示すブロック図である。
本発明の第2の実施の形態における音声出力装置の動作の流れを示すフロー図である。
音声認識部がメモリに記憶するデータ例を示す図である。

実施例

0012

<第1の実施の形態>
本発明の第1の実施の形態における音声出力装置100の構成について説明する。

0013

図1は、音声出力装置100の構成を示すブロック図である。図1に示されるように、音声出力装置100は、MIC(Microphone:マイク)101と、A/D(Analog Digital:アナログデジタル)変換部102と、音声認識部103と、メモリ104と、音声調整部105と、音声出力部106と、システム値設定部107とを備えている。

0014

MIC101は、A/D変換部102に接続されている。MIC101は、音声入力手段として機能する。MIC101は、話者の音声データを集音する。

0015

A/D変換部102は、MIC101および音声認識部103に接続されている。A/D変換部102は、MIC101に入力される音声データを、アナログ信号からデジタル信号へ変換する。A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。

0016

音声認識部103は、A/D変換部102およびメモリ104に接続されている。音声認識部103は、入力されるデジタル信号中の音声データの話速度および音声レベル(音声の大きさ)を文節毎に認識する。すなわち、音声認識部103は、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部103は、音声データ、話速度および音声レベルを、メモリ104に文節毎に記憶する。

0017

メモリ104は、音声認識部103、音声調整部105およびシステム値設定部107に接続されている。メモリ104は、入力される音声データ等を記憶する。メモリ104の機能の詳細は、動作説明中で詳しく説明する。

0018

音声調整部105は、メモリ104および音声出力部106に接続されている。音声調整部105は、音声認識部103により認識された話速度および音声レベルを、基準話速度および基準音声ベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。ここで、基準話速度は、システム値設定部107に予め設定された話速度の基準値である。基準音声レベルは、システム値設定部107に予め設定された音声レベルの基準値である。また、併せて、音声調整部105は、複数の文節間の無音時間を調整して出力用無音時間を設定する。出力用無音時間は、音声出力部106が出力する際の文節間の無音時間である。

0019

音声出力部106は、音声調整部105に接続されている。音声出力部106は、音声調整部105により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力(拡声放送)する。

0020

システム値設定部107は、メモリ104に接続されている。システム値設定部107は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部107は、基準話速度や基準音声レベルを設定して、メモリ104に入力する。

0021

以上、音声出力装置100の構成について説明した。

0022

次に、音声出力装置100の動作を説明する。図2は、音声出力装置100の動作の流れを示すフロー図である。

0023

図2に示されるように、まず、MIC101が、放送において話者が話す音声データを集音する(S1)。入力された音声データは、MIC101によってアナログの電気信号に変換され、A/D変換部102へ出力される。

0024

次に、A/D変換部102は、MIC101から入力される音声データのアナログ信号を、デジタルアナログ変換する(S2)。すなわち、A/D変換部103は、MIC101から入力される音声データのアナログ信号を、音声データのデジタル信号へ変換する。ここで、デジタル信号に変換する際の条件(例えば、ビット数サンプリング周波数)は、放送システム毎に適したものが採用される。そして、A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。

0025

音声認識部103は、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する(S3)。より具体的には、音声認識部103は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節を認識する。次に、音声認識部103は、音声データの話速度および音声レベルを文節毎に測定して分割する。そして、音声認識部103は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ104に記憶する。

0026

ここで、図3は、音声認識部103がメモリ104に記憶するデータ例を示す図である。図3に示されるように、音声データ、話速度(話速情報)および音声レベルが、文節毎に、1つのデータとして記憶されている。

0027

図2に戻って、次に、音声調整部105は、音声認識部103により認識された話速度および音声レベルを、システム値設定部107に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する(S4)。

0028

ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部107により予め設定されている。基準話速度および基準音声レベルは、システム値設定部107によりメモリ104に登録されている。また、システム値設定部107は、音声出力部106が音声データを出力する際の複数の文節間の無音時間である出力用無音時間も設定し、これをメモリ104に登録する。なお、メモリ104に登録されている基準話速度、基準音声レベルおよび出力用無音時間は、システム値設定部107により、いつでも自由に変更することができる。

0029

次に、音声調整部105の具体的な処理を説明する。まず、音声調整部105は、メモリ104から、基準話速度、基準音声レベルおよび出力用無音時間を読み出す。また、音声調整部105は、音声認識部103により文節毎に認識された話速度および音声レベルと、文節間の無音時間とをメモリ104等から読み出す。

0030

音声調整部105は、図3の文節1に対応する各種データ(音声データ、話速情報、音声レベル)を読み出す。

0031

音声調整部105は、文節1の話速度と、基準話速度とを比較する。文節1の話速度から基準話速度を引いた差分値が一定範囲内であった場合、音声調整部105は、文節1の話速度の調整は不要であると判定し、文節1の話速度の調整を行わず、出力話速度を設定する。この場合、音声調整部105は、出力話速度として、元のままの話速度で、そのままの音声データを音声出力部106へ出力する。

0032

一方、文節1の話速度から基準話速度を引いた差分値が一定範囲を超えた場合、音声調整部105は、文節1の話速度の調整は必要であると判定し、文節1の話速度を基準話速度へ調整して、出力話速度を設定する。この場合、音声調整部105は、出力話速度に速度調整を行いながら音声データを音声出力部106へ出力する。

0033

同様に、音声調整部105は、文節1の音声レベルと、基準音声レベルとを比較する。文節1の音声レベルから基準音声レベルを引いた差分値が一定範囲内であった場合、音声調整部105は、文節1の音声レベルの調整は不要であると判定し、文節1の音声レベルの調整を行わず、出力音声レベルを設定する。この場合、音声調整部105は、出力音声レベルとして、元のままの音声レベルで、そのままの音声データを音声出力部106へ出力する。

0034

一方、文節1の音声レベルから基準音声レベルを引いた差分値が一定範囲を超えた場合、音声調整部105は、文節1の音声レベルの調整は必要であると判定し、文節1の音声レベルを基準音声レベルへ調整して、出力音声レベルを設定する。この場合、音声調整部105は、出力音声レベルに音量調整を行いながら音声データを音声出力部106へ出力する。

0035

なお、音声調整部105は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部106へ出力する。

0036

同様に、音声調整部105は、文節2、3・・・、nまで、順次、音声認識部103により認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定して、音声データを音声出力部106へ出力する。

0037

音声調整部105から音声出力部106への文節2の音声データの出力は、文節1の音声データの出力が終了した時間から、システム値設定部107により設定された出力用無音時間が経過した後に、開始される。これにより、文節1の音声再生と、文節2の音声再生の間に所定の無音時間を設けることができる。

0038

最後に、音声出力部106が、音声調整部105により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する(S5)。このとき、音声出力部106は、音声データを、放送を行うシステムに適した信号形態に変換して出力する。例えば、音声データをシステムにアナログ信号として入力する必要がある場合、音声出力部106は、音声データをデジタル信号からアナログ信号へ変換して出力する。

0039

なお、本実施の形態では、音声調整部105は、話速度および音声レベルの双方をあわせて調整しながら、音声データを音声出力部106へ出力すると説明した。一方、音声調整部105は、話速度のみを調整しながら、音声データを音声出力部106へ出力してもよい。

0040

以上の通り、本発明の第1の実施の形態における音声出力装置100は、音声認識部103と、音声調整部105と、音声出力部106とを備えている。音声認識部103は、入力される音声データの話速度を文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部105により設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。

0041

このように、音声調整部105は、話速度を基準話速度に基づいて調整しつつ、複数の文節間の無音時間を調整している。これにより、聴取者が複数の音声出力装置100から音声を聴き取る場合、聴取者に到達する音声の話速度および文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置100から音声の重なり具合も適切な範囲に調整される。ゆえに、話者(同一話者でも話す状況)に関わらず、適切な話速度および文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第1の実施の形態における音声出力装置100によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

0042

また、本発明の第1の実施の形態における音声出力装置100において、音声認識部103は、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105は、音声認識部103により認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力部106は、音声調整部103により設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。

0043

このように、音声調整部105は、話速度および無音時間に加えて、音声レベルも調整している。これにより、聴取者が複数の音声出力装置100から音声を聴き取る場合、聴取者に到達する音声の話速度、音声レベルおよび文節間の無音時間が、適切な範囲に収まるように調整され、複数の音声出力装置100から音声の重なり具合も適切な範囲に調整される。ゆえに、話者(同一話者でも話す状況)に関わらず、適切な話速度、音声レベルおよび文節間の無音時間で音声を聴取者へ提供することができる。したがって、本発明の第1の実施の形態における音声出力装置100によれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

0044

本発明の第1の実施の形態における音声出力方法は、音声認識ステップと、音声調整ステップと、音声出力ステップとを含んでいる。音声認識ステップでは、入力される音声データの話速度を文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度を、予め設定された話速度の基準値である基準話速度に基づいて調整して、出力用話速度を設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度および出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置100と同様の効果を奏することができる。

0045

本発明の第1の実施の形態における音声出力方法において、音声認識ステップでは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整ステップでは、音声認識ステップにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間を設定する。音声出力ステップでは、音声調整ステップにより設定された出力用話速度、出力用音声レベルおよび出力用無音時間に基づいて、音声データを出力する。これにより、前述の音声出力装置100と同様の効果を奏することができる。

0046

<第2の実施の形態>
本発明の第2の実施の形態における音声出力装置100Aの構成について説明する。

0047

図4は、音声出力装置100Aの構成を示すブロック図である。なお、図4では、図1で示した各構成要素と同等の構成要素には、図1に示した符号と同等の符号を付している。

0048

図4に示されるように、音声出力装置100は、MIC101と、A/D変換部102と、音声認識部103Aと、メモリ104Aと、音声調整部105Aと、音声出力部106Aと、システム値設定部107とを備えている。

0049

ここで、図1図4を対比する。図1では、メモリ104は、音声認識部103、音声調整部105およびシステム値設定部107に接続されていた。これに対して、図4では、メモリ104Aは、音声認識部103A、音声調整部105A、音声出力部106Aおよびシステム値設定部107に接続されている。この点で、図1および図4は互いに相違する。

0050

音声認識部103Aは、A/D変換部102およびメモリ104Aに接続されている。音声認識部103Aは、第1の実施の形態と同様に、入力されるデジタル信号中の音声データの話速度および音声レベル(音声の大きさ)を文節毎に認識する。すなわち、音声認識部103Aは、入力されるデジタル信号中の音声データを文節毎に分割して、音声データの話速度および音声レベルを文節毎に認識する。そして、音声認識部103Aは、音声データ、話速度および音声レベルを、メモリ104に文節毎に記憶する。

0051

メモリ104Aは、音声認識部103A、音声調整部105A、音声出力部106Aおよびシステム値設定部107に接続されている。メモリ104Aは、入力される音声データ等を記憶する。また、メモリ104は、システム値設定部107により予め設定される基準無音時間を記憶する。基準無音時間は、前述の通り、文節間の無音時間の基準値である。メモリ104Aの機能の詳細は、動作説明中で詳しく説明する。

0052

音声調整部105Aは、メモリ104Aに接続されている。音声調整部105Aは、音声認識部103により認識された話速度および音声レベルを、システム値設定部107に予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。

0053

なお、第1の実施の形態では、音声調整部105は、音声認識部103により認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するとともに、複数の文節間の無音時間を調整して出力用無音時間をも設定していた。一方、本実施形態では、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。

0054

音声出力部106Aは、メモリ104Aに接続されている。音声出力部106Aは、音声調整部105により設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間(メモリ104Aに記憶)とに基づいて、音声データを出力(拡声放送)する。

0055

システム値設定部107は、メモリ104に接続されている。システム値設定部107は、予めシステムで使用する各種数値を設定する。具体的には、例えば、システム値設定部107は、基準話速度や基準音声レベルや出力用無音時間を設定して、メモリ104に入力する。

0056

以上、音声出力装置100Aの構成について説明した。

0057

次に、音声出力装置100Aの動作を説明する。

0058

図5は、音声出力装置100Aの動作の流れを示すフロー図である。

0059

図5に示されるように、まず、MIC101が、放送において話者が話す音声データを集音する(S1)。入力された音声データは、MIC101によってアナログの電気信号に変換され、A/D変換部102へ出力される。

0060

次に、A/D変換部102は、MIC101から入力される音声データのアナログ信号を、デジタルアナログ変換する(S2)。そして、A/D変換部102は、音声データのデジタル信号を音声認識部103へ出力する。

0061

音声認識部103Aは、音声認識処理によって、入力されるデジタル信号中の音声データの話速度および音声レベルを文節毎に認識する(S3A)。より具体的には、音声認識部103は、入力されるデジタル信号中の音声データに対して音声認識処理を行うことによって、文節に分割する。次に、音声認識部103は、音声データの話速度および音声レベルを文節毎に測定して認識する。そして、音声認識部103は、音声認識処理の結果として、音声データ、話速度および音声レベルをメモリ104に記憶する。

0062

ここで、図6は、音声認識部103Aがメモリ104Aに記憶するデータ例を示す図である。図6に示されるように、音声データ、話速度(話速情報)、音声レベルおよび処理済みフラグが、文節毎に、1つのデータとして記憶されている。なお、音声認識部103Aがメモリ104Aに音声データ、話速度(話速情報)および音声レベルを記憶する時には、処理済みフラグは、未処理状態を示している。

0063

図5に戻って、次に、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する(S4A)。

0064

ここで、基準話速度および基準音声レベルは、前述の通り、システム値設定部107により予め設定されている。基準話速度および基準音声レベルは、システム値設定部107によりメモリ104Aに登録されている。また、システム値設定部107は、複数の文節間の無音時間の基準値である基準無音時間も設定し、これをメモリ104Aに登録する。なお、メモリ104Aに登録されている基準話速度、基準音声レベルおよび基準無音時間は、システム値設定部107により、いつでも自由に変更することができる。

0065

次に、音声調整部105Aの具体的な処理を説明する。音声調整部105Aは、システム値での文節間の基準無音時間を考慮しないで、話速度および音声レベルの調整処理のみを行う。

0066

すなわち、まず、音声調整部105Aは、メモリ104Aから、基準話速度および基準音声レベルを読み出す。また、音声調整部105Aは、音声認識部103により文節毎に認識された話速度および音声レベルをメモリ104等から読み出す。そして、音声調整部105Aは、文節毎に、音声データの話速度および音声レベルを調整して、調整後の出力用話速度および出力用音声レベルを順次、メモリ4上の文節毎のデータ記憶領域に書き戻す。調整後の出力用話速度および出力用音声レベルがメモリ104Aに書き戻されると、メモリ104Aは当該文節に対応する処理済みフラグを処理済み状態に変更する。音声調整部105Aは、メモリ104Aに記憶されている全ての文節について、処理済みフラグを処理済み状態に設定できるまで、この動作を繰り返す。

0067

そして、音声出力部106Aが、音声調整部105Aにより設定された出力用話速度および出力用音声レベルと、予めメモリ104Aに設定された基準無音時間に基づいて、音声データを出力する(S5A)。このとき、音声出力部106Aは、まず、最初にメモリ104Aに登録されているシステムとして使用する文節と、基準無音時間の値を読み出す。次に、音声出力部106Aは、文節1の処理済みフラグを監視し、処理済みフラグが処理済み状態になるまで待つ。そして、処理済みフラグが処理済み状態になると、音声出力部106Aは、メモリ104Aから、音声データを読み出して出力する。

0068

次に、音声出力部106Aは、文節1の音声データの出力を完了した後、次の文節2の処理済みフラグの状態を確認する。

0069

文節2の処理済みフラグが未処理状態である場合、音声出力部106Aは、文節2の処理済みフラグが処理済み状態になるまで、待機する。文節2の処理済みフラグが処理済み状態になった場合、文節1の音声再生完了後の経過時間が、メモリ104Aから読み出した基準無音時間以上の時間を経過しているとき、そのまま文節2の音声データをメモリ104Aから読み出して出力する。

0070

文節1の音声データの出力が完了した後の経過時間が、メモリ104Aに記憶されている基準無音時間(システムで設定)以下の場合、音声出力部106Aは、基準無音時間が経過するまで待って、文節2の音声データを出力し始める。そして、音声出力部106Aは、全ての文節の音声データを出力し終えるまで、この動作を繰り返す。

0071

なお、本実施の形態では、音声調整部105Aは、話速度および音声レベルの双方をあわせて調整しながら、音声データをメモリ104Aに記憶すると説明した。一方、音声調整部105Aは、話速度のみを調整して、調整後の出力用話速度をメモリ104Aに記憶してもよい。

0072

以上の通り、本発明の第2の実施の形態における音声出力装置100Aにおいて、音声認識部103Aは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部106Aは、音声調整部103Aにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。

0073

このように、音声出力装置100Aでは、第1の実施の形態における音声出力装置100と異なり、音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを調整して出力用話速度および出力用音声レベルを設定するが、複数の文節間の無音時間を調整して出力用無音時間を設定しない。このため、音声出力部106Aが、予め設定された基準無音時間に基づいて、音声データを出力する際の文節間の無音時間を調整する。このような構成であっても、音声出力装置100Aによれば、第1の実施の形態における音声出力装置100と同様に、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

0074

本発明の第2の実施の形態における音声出力装置100Aにおいて、音声認識部103Aは、入力される音声データの話速度および音声レベルを文節毎に認識する。音声調整部105Aは、音声認識部103Aにより認識された話速度および音声レベルを、予め設定された話速度および音声レベルの基準値である基準話速度および基準音声レベルに基づいて調整して、出力用話速度および出力用音声レベルを設定する。音声出力部105Aは、音声調整部103Aにより設定された出力用話速度および出力用音声レベルと、予め設定された基準無音時間とに基づいて、音声データを出力する。

0075

このように、音声調整部105Aは、話速度に加えて、音声レベルも調整している。これにより、音声レベルの点においても、適切な音声レベルで音声を聴取者へ提供することができる。したがって、本発明の第2の実施の形態における音声出力装置100Aによれば、複数の音声出力装置から出力される音声をより聞きやすくして聴取者に提供することができる。

0076

以上、実施の形態をもとに本発明を説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、上述各実施の形態に対して、さまざまな変更、増減組合せを加えてもよい。これらの変更、増減、組合せが加えられた変形例も本発明の範囲にあることは当業者に理解されるところである。

0077

100、100A音声出力装置
101MIC
102 A/D変換部
103、103A音声認識部
104メモリ
105、105A音声調整部
106、106A音声出力部
107システム値設定部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ