図面 (/)

技術 話速変換装置、そのプログラムおよびプログラムを記録した記録媒体

出願人 日本放送協会一般財団法人NHKエンジニアリングシステム
発明者 今井篤清山信正都木徹
出願日 2012年1月18日 (8年5ヶ月経過) 出願番号 2012-008073
公開日 2013年8月1日 (6年11ヶ月経過) 公開番号 2013-148654
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード 出力時間長 所定倍数 出力長 ピッチ値 物理的特徴量 総時間長 部分区間 音響成分
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年8月1日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

文章を斜め読みするかのように、音声コンテンツ高速再生することが可能な話速変換装置を提供する。

解決手段

話速変換装置1は、音声コンテンツの時刻ごと音響特徴量と、音声区間および非音声区間時刻対応付けて記憶する記憶手段20と、非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量との変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間として探索する削除区間探索手段30と、探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する指定された再生倍率の出力時間長となるように、削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段40と、を備えることを特徴とする。

概要

背景

近年、オーディオブックなどの予め録音された音声コンテンツや、インターネットなどの通信媒体を介して配信される音声コンテンツが普及している。それに伴い、利用者からこれらの音声コンテンツを高速に聞きたいという要望が高まっている。この要望を解決する一手法としては、音声コンテンツの再生速度を一律に上げる手法が一般的である。
この手法は、再生倍率に従って、音声波形線形伸縮させるものである。また、音声波形を伸縮させる際に、アナログ音声信号のように音程の変化を生じさせることなく、原音声の高さ(ピッチ)を保ちながら時間短縮を行う手法が、特許文献に開示されている(例えば、特許文献1参照)。

しかし、このように、音声波形を伸縮させる手法では、元の音声話速にもよるが、概ね3倍速再生が、人が聞き取れる限界とされている。
そこで、このような再生速度を上げても聞き取り易くする手法として、音声信号内無音区間を一部削除して、その時間を音声の再生時間に割り当てる手法が提案されている(例えば、特許文献2参照)。

この手法は、指定された変換倍率音声信号話速変換して目標時間長の音声信号とする際に、その時間内で、音声をできるだけゆっくり再生させる手法である。すなわち、この手法は、話速変換によって音声の再生速度を上げる際に、無音区間の一部を削除し、目標時間長における音声の再生時間の割合を高めている。これによって、この手法は、無音区間を削除せずに、音声信号を目標時間長に話速変換した場合に比べて、目標時間長における音声の時間長の割合が高くなり、ゆっくり音声が再生されることになる。

また、音声の再生速度を保持しつつ、部分的に音声信号を削除して、音声に対応した映像の再生速度を上げる手法が提案されている(例えば、特許文献3参照)。
この手法は、音声信号をリングメモリに書き込み、読み出し時に1倍速再生タイミングで音声信号を再生し、対応する映像信号をn倍速で再生する。このとき、この手法は、リングメモリの容量以内の音声信号については1倍速で再生するが、容量を超えた音声信号については削除している。

概要

文章を斜め読みするかのように、音声コンテンツを高速再生することが可能な話速変換装置を提供する。話速変換装置1は、音声コンテンツの時刻ごと音響特徴量と、音声区間および非音声区間時刻対応付けて記憶する記憶手段20と、非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量との変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間として探索する削除区間探索手段30と、探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する指定された再生倍率の出力時間長となるように、削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段40と、を備えることを特徴とする。

目的

本発明は、以上のような問題、要望に鑑みてなされたものであり、文章を斜め読みするかのように、音声コンテンツをその内容を把握しつつ高速に再生するとともに、高速再生時においても聞き取り易くすることが可能な話速変換装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声コンテンツを部分的に削除し、指定された再生倍率再生させる話速変換装置であって、前記音声コンテンツを予め記憶する音声コンテンツ記憶手段と、前記音声コンテンツの時刻ごと音響特徴量を、当該時刻対応付けて予め記憶する音響特徴量記憶手段と、前記音声コンテンツの音声区間および非音声区間を前記音声コンテンツの時刻に対応付けて予め記憶する区間情報記憶手段と、前記非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、前記音声コンテンツの削除区間として探索する削除区間探索手段と、この削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する前記指定された再生倍率の出力時間長となるように、前記削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段と、を備えることを特徴とする話速変換装置。

請求項2

前記音声コンテンツから音響特徴量を抽出し、時刻に対応付けて前記音響特徴量記憶手段に書き込む音響特徴量抽出手段と、前記音声コンテンツにおいて、音声区間および非音声区間を検出し、時刻に対応付けて当該音声区間および当該非音声区間を前記区間情報記憶手段に書き込む区間情報検出手段と、をさらに備えることを特徴とする請求項1に記載の話速変換装置。

請求項3

前記音響特徴量は、声の高さを示すピッチおよび声の大きさを示すパワーであって、前記削除区間探索手段は、前記音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するピッチ参照探索手段と、前記音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するパワー参照探索手段と、前記ピッチ参照探索手段で探索された削除区間と前記パワー参照探索手段で探索された削除区間とから、予め定めたピッチおよびパワーの重みの比率に応じて、前記音声区間における削除区間を決定する削除区間決定手段と、を備えることを特徴とする請求項1または請求項2に記載の話速変換装置。

請求項4

前記音響特徴量は、声の高さを示すピッチであって、前記削除区間探索手段は、前記音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するピッチ参照探索手段、を備えることを特徴とする請求項1または請求項2に記載の話速変換装置。

請求項5

前記音響特徴量は、声の大きさを示すパワーであって、前記削除区間探索手段は、前記音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、前記削除区間として探索するパワー参照探索手段、を備えることを特徴とする請求項1または請求項2に記載の話速変換装置。

請求項6

前記削除区間探索手段は、前記音声区間の終了時刻から遡って前記削除区間を探索する時刻が、当該音声区間の開始時刻から予め定めた時刻を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長を超えない範囲とすることを特徴とする請求項1または請求項2に記載の話速変換装置。

請求項7

前記削除区間探索手段は、予め定めた時間長以上の非音声区間において、当該時間長より短い予め定めた時間長を残した他の区間を、さらに前記音声コンテンツの削除区間とすることを特徴とする請求項1または請求項2に記載の話速変換装置。

請求項8

音声コンテンツを部分的に削除し、指定された再生倍率で再生させるために、前記音声コンテンツを記憶する音声コンテンツ記憶手段と、前記音声コンテンツの時刻ごとの音響特徴量を、当該時刻に対応付けて記憶する音響特徴量記憶手段と、前記音声コンテンツの音声区間および非音声区間を前記音声コンテンツの時刻に対応付けて記憶する区間情報記憶手段とを備えた話速変換装置のコンピュータを、前記非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、前記音声コンテンツの削除区間として探索する削除区間探索手段、この削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する前記指定された再生倍率の出力時間長となるように、前記削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段、として機能させるための話速変換プログラム

請求項9

音声コンテンツを部分的に削除し、指定された再生倍率で再生させるために、前記音声コンテンツを記憶する音声コンテンツ記憶手段と、前記音声コンテンツの時刻ごとの音響特徴量を、当該時刻に対応付けて記憶する音響特徴量記憶手段と、前記音声コンテンツの音声区間および非音声区間を前記音声コンテンツの時刻に対応付けて記憶する区間情報記憶手段とを備えた話速変換装置のコンピュータを、前記非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、前記音声コンテンツの削除区間として探索する削除区間探索手段、この削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する前記指定された再生倍率の出力時間長となるように、前記削除区間を除いた音声コンテンツを伸縮させて出力する出力時間長調整手段、として機能させるための話速変換プログラムを記録したコンピュータ読み取り可能な記録媒体

技術分野

0001

本発明は、音声コンテンツ再生する際に話速を変換させる話速変換装置、そのプログラムおよびプログラムを記録した記録媒体に関する。

背景技術

0002

近年、オーディオブックなどの予め録音された音声コンテンツや、インターネットなどの通信媒体を介して配信される音声コンテンツが普及している。それに伴い、利用者からこれらの音声コンテンツを高速に聞きたいという要望が高まっている。この要望を解決する一手法としては、音声コンテンツの再生速度を一律に上げる手法が一般的である。
この手法は、再生倍率に従って、音声波形線形伸縮させるものである。また、音声波形を伸縮させる際に、アナログ音声信号のように音程の変化を生じさせることなく、原音声の高さ(ピッチ)を保ちながら時間短縮を行う手法が、特許文献に開示されている(例えば、特許文献1参照)。

0003

しかし、このように、音声波形を伸縮させる手法では、元の音声の話速にもよるが、概ね3倍速再生が、人が聞き取れる限界とされている。
そこで、このような再生速度を上げても聞き取り易くする手法として、音声信号内無音区間を一部削除して、その時間を音声の再生時間に割り当てる手法が提案されている(例えば、特許文献2参照)。

0004

この手法は、指定された変換倍率音声信号話速変換して目標時間長の音声信号とする際に、その時間内で、音声をできるだけゆっくり再生させる手法である。すなわち、この手法は、話速変換によって音声の再生速度を上げる際に、無音区間の一部を削除し、目標時間長における音声の再生時間の割合を高めている。これによって、この手法は、無音区間を削除せずに、音声信号を目標時間長に話速変換した場合に比べて、目標時間長における音声の時間長の割合が高くなり、ゆっくり音声が再生されることになる。

0005

また、音声の再生速度を保持しつつ、部分的に音声信号を削除して、音声に対応した映像の再生速度を上げる手法が提案されている(例えば、特許文献3参照)。
この手法は、音声信号をリングメモリに書き込み、読み出し時に1倍速再生タイミングで音声信号を再生し、対応する映像信号をn倍速で再生する。このとき、この手法は、リングメモリの容量以内の音声信号については1倍速で再生するが、容量を超えた音声信号については削除している。

先行技術

0006

特開平9−16193号公報
特開平10−301598号公報
特開平8−147874号公報

発明が解決しようとする課題

0007

前記した特許文献1の手法では、概ね3倍速再生が人が聞き取れる限界とされており、それよりも高速に再生すると、内容を把握することができないという問題がある。
一方、人が目視文章読む場合、いわゆる斜め読みを行うことで、文章を3倍速で音声再生する場合よりも、さらに早く文章の内容を把握することができる。特に、視覚障害者からは、少なくとも斜め読みと同程度の速さで、音声コンテンツを高速に聞きたいという要望がある。

0008

また、前記した特許文献2の手法によって、高速再生時の聞き取り易さを改善することは可能である。しかし、再生速度は3倍速で十分であるという人であっても、長時間視聴疲れてしまう。そこで、この手法に対して、さらなる聞き取り易さの改善が望まれていた。
また、前記した特許文献3の手法では、リングバッファ超過する音声信号を無条件に削除してしまう。そのため、この手法では、重要な意味内容を持つ音声が音声信号から削除されてしまうことがあり、内容を把握することが困難であるという問題がある。

0009

本発明は、以上のような問題、要望に鑑みてなされたものであり、文章を斜め読みするかのように、音声コンテンツをその内容を把握しつつ高速に再生するとともに、高速再生時においても聞き取り易くすることが可能な話速変換装置を提供することを課題とする。

課題を解決するための手段

0010

本発明は、前記課題を解決するために創案されたものであり、まず、本発明の話速変換装置は、音声コンテンツを部分的に削除し、指定された再生倍率で再生させる話速変換装置であって、音声コンテンツ記憶手段と、音響特徴量記憶手段と、区間情報記憶手段と、削除区間探索手段と、出力時間長調整手段と、を備える構成とした。

0011

かかる構成において、話速変換装置は、音声コンテンツ記憶手段に、話速変換する対象となる音声コンテンツを予め記憶する。また、話速変換装置は、音響特徴量記憶手段に、音声コンテンツの時刻ごとの音響特徴量を時刻対応付けて予め記憶する。この音響特徴量は、音声の音響としての物理的特徴量であって、例えば、ピッチ(物理的な声の高さ)、パワー(物理的な声の大きさ)である。

0012

また、話速変換装置は、区間情報記憶手段に、音声コンテンツの音声区間および非音声区間を音声コンテンツの時刻に対応付けて予め記憶する。この音声区間および非音声区間は、例えば、音声のパワーが予め定めた閾値より大きいか小さいかによって、区分することができる。ここで、音声区間は、話者発話した区間をいい、非音声区間は、話者が発話していない区間をいう。また、この非音声区間には、話者が発話していない区間に加え、ノイズ無音等も含まれる。

0013

そして、話速変換装置は、削除区間探索手段によって、非音声区間の直前の音声区間において、当該音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間として探索する。すなわち、削除区間探索手段は、非音声区間の直前で、音声の大きさの変化が少ない場合等、音響特徴量の変化が少ない音声区間については、音声コンテンツから削除する区間として設定する。このように、音響特徴量の変化が少ない音声区間は、発話者相手に伝える意思が弱いと判断し、本発明においては削除する。

0014

そして、話速変換装置は、出力時間長調整手段によって、削除区間探索手段で探索された複数の削除区間を除いた音声コンテンツの出力時間長が、元の音声コンテンツの時間長に対する指定された再生倍率の出力時間長となるように、削除区間を除いた音声コンテンツを伸縮させて出力する。このとき、削除区間が設定されていることから、出力すべき音声は、その削除された分だけ余分に再生時間が確保されることになる。これにより、元の音声コンテンツをそのまま話速変換する場合に比べ、出力すべき音声がゆっくり再生されることになる。

0015

また、本発明の話速変換装置は、音響特徴量抽出手段と、区間情報検出手段と、をさらに備えることを特徴とする。

0016

かかる構成において、話速変換装置は、音響特徴量抽出手段によって、音声コンテンツから音響特徴量を抽出し、時刻に対応付けて音響特徴量記憶手段に書き込む。この音響特徴量は、パワー、ピッチ等の物理的特徴量である。
また、話速変換装置は、区間情報検出手段によって、音声コンテンツにおいて、音声区間および非音声区間を検出し、時刻に対応付けて当該音声区間および当該非音声区間を区間情報記憶手段に書き込む。

0017

このように、音響特徴量抽出手段および区間情報検出手段は、音響特徴に基づいて音声コンテンツを予め分析し、時刻ごとの音響特徴量や、音声区間および非音声区間といった特徴を抽出し、削除区間を探索するための準備を行う。これによって、本発明の話速変換装置は、任意の音声コンテンツを入力として、話速変換を行うことができる。

0018

また、本発明の話速変換装置は、音響特徴量が、声の高さを示すピッチおよび声の大きさを示すパワーであって、削除区間探索手段が、ピッチ参照探索手段と、パワー参照探索手段と、削除区間決定手段と、を備えることを特徴とする。

0019

かかる構成において、話速変換装置は、ピッチ参照探索手段によって、音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。また、話速変換装置は、パワー参照探索手段によって、音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。すなわち、話速変換装置は、同じ音声区間において、ピッチとパワーとで、終了時刻からの時間長が異なる削除区間をそれぞれ探索する。

0020

そして、話速変換装置は、削除区間決定手段によって、ピッチ参照探索手段で探索された削除区間とパワー参照探索手段で探索された削除区間とから、予め定めたピッチおよびパワーの重みの比率に応じて、音声区間における削除区間を決定する。すなわち、ピッチの重みが大きければ、ピッチ参照探索手段で探索された削除区間に近い区間が設定され、パワーの重みが大きければ、パワー参照探索手段で探索された削除区間に近い区間が設定されることになる。

0021

これによって、本発明の話速変換装置は、ピッチとパワーとの重みに応じて、削除区間を定めることができる。また、本発明の話速変換装置は、各国の言語の特性に応じて、予め重みを変更することで、言語に適した話速変換を行うことができる。例えば、パワーの変化が少ない言語であれば、ピッチの重みを大きくすることで、ピッチを優先させた削除区間を設定することができる。

0022

また、本発明の話速変換装置は、音響特徴量が声の高さを示すピッチであって、削除区間探索手段が、ピッチ参照探索手段を備えることを特徴とする。

0023

かかる構成において、話速変換装置は、ピッチ参照探索手段によって、音声区間の終了時刻から遡って、ピッチの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。

0024

また、本発明の話速変換装置は、音響特徴量が声の大きさを示すパワーであって、削除区間探索手段が、パワー参照探索手段を備えることを特徴とする。

0025

かかる構成において、話速変換装置は、パワー参照探索手段によって、音声区間の終了時刻から遡って、パワーの変化が予め定めた基準よりも少ない区間を、削除区間として探索する。

0026

また、本発明の話速変換装置は、削除区間探索手段が音声区間の終了時刻から遡って削除区間を探索する時刻が、当該音声区間の開始時刻から予め定めた時刻を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長を超えない範囲とすることを特徴とする。

0027

かかる構成において、話速変換装置は、削除区間探索手段によって、音声区間において、削除区間を探索する際に、その時間長を制限することで、当該音声区間の音声をすべて削除区間とすることなく、少なくとも先頭から予め定めた時間長が削除されない区間となる。これによって、本発明の話速変換装置は、音響特徴量の変化によらず、少なくとも一連発話間隔呼気段落)の先頭から所定の時間長が確保される。そのため、本発明の話速変換装置は、音声を部分的に削除しても、利用者が意味内容を把握することが容易になる。

0028

また、本発明の話速変換装置は、削除区間探索手段が、予め定めた時間長以上の非音声区間において、当該時間長より短い予め定めた時間長を残した他の区間を、さらに音声コンテンツの削除区間とすることを特徴とする。

0029

かかる構成において、話速変換装置は、削除区間探索手段によって、非音声区間の一部を削除区間とすることで、当該削除区間を音声の再生時間に割り当てる。
これによって、本発明の話速変換装置は、音声区間と非音声区間を削除した分だけ、他の音声を割り当てる時間的余裕を確保することができる。そして、本発明の話速変換装置は、同じ再生速度で音声コンテンツを再生する場合、従来の話速変換よりも音声をゆっくり再生することになり、利用者は聞き易くなる。

0030

なお、本発明の話速変換装置は、コンピュータを、削除区間探索手段、出力時間長調整手段、として機能させるための話速変換プログラムによって実現することができる。また、この話速変換プログラムは、コンピュータで読み取り可能な記録媒体に記録して配布することができる。

発明の効果

0031

本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音声コンテンツの音声区間の一部を削除することで、音声コンテンツを高速に再生することができる。これによって、利用者は、文章を斜め読みするかのように、音声コンテンツを部分的に高速に聞くことができる。また、本発明によれば、音声区間を削除した分だけ、他の音声を割り当てる時間的余裕を確保することができる。そのため、本発明は、同じ再生速度で音声コンテンツを再生する場合、従来の話速変換よりも音声をゆっくり再生することになり、利用者は聞き易くなる。

図面の簡単な説明

0032

本発明の実施形態に係る話速変換装置の構成を示すブロック構成図である。
本発明の実施形態に係る話速変換装置において、削除区間探索手段が探索する非音声区間内の削除区間を説明するための説明図である。
本発明の実施形態に係る話速変換装置において、削除区間探索手段が探索する音声区間内の削除区間を説明するための説明図である。
本発明の実施形態に係る話速変換装置において、出力時間長調整手段が削除区間を除いて音声コンテンツの出力長を制御する手法を説明するための説明図である。
本発明の実施形態に係る話速変換装置の動作を示すフローチャートである。
本発明の他の実施形態に係る話速変換装置の構成を示すブロック構成図である。
本発明の他の実施形態に係る話速変換装置の構成を示すブロック構成図である。

実施例

0033

以下、本発明の実施形態について図面を参照して説明する。
[話速変換装置の構成]
まず、図1を参照して、本発明の実施形態に係る話速変換装置1の構成について説明する。この話速変換装置1は、音声コンテンツ(音声信号)を1倍速再生よりも高速に再生する際に、無音等の非音声区間のみならず、音声区間を部分的に削除して、話速変換を行うものである。すなわち、話速変換装置1は、人が活字で表された文章を目視で斜め読みするかのように、音声コンテンツを部分再生するものである。
なお、話速変換装置1は、一連の発話のかたまりである、吸気で区切られた呼気段落の終了部分において、音響特徴量の変化が少なくなった箇所を削除することで、発話の意味内容の欠落を極力防止する。
ここでは、話速変換装置1は、音響分析手段10と、記憶手段20と、削除区間探索手段30と、出力時間長調整手段40と、を備えている。

0034

音響分析手段10は、入力された音声コンテンツを音響分析し、時間ごとの音響特徴量(音響特徴情報)や、音声区間、非音声区間(無音区間を含む)の区間情報を抽出するものである。この音響分析手段10は、分析によって抽出した音響特徴情報、区間情報を記憶手段20に書き込み、分析が完了した旨を削除区間探索手段30に通知する。
ここでは、音響分析手段10は、パワー抽出手段11と、ピッチ抽出手段12と、音声区間検出手段13と、を備えている。

0035

パワー抽出手段(音響特徴量抽出手段)11は、外部から入力された音声コンテンツ(音声信号)から、音響特徴量の一つであるパワー(音の強さ、大きさ)を抽出するものである。このパワー抽出手段11におけるパワー抽出の手法は、一般的な手法を用いればよい。例えば、パワー抽出手段11は、音声コンテンツを、所定の時間間隔ごとに、所定のフレーム幅周波数変換FFT)し、振幅値を2乗することで、パワー(パワースペクトル)を算出する。

0036

なお、パワー抽出手段11は、パワーの時間経過に伴う信号レベルスムージング平滑化)しておく。例えば、パワー抽出手段11は、パワーの逐次変化を、カットオフ周波数6〜10Hz程度でスムージングする。これによって、パワー抽出手段11は、音声コンテンツから、パワーの変化を滑らかにして、ノイズの影響を抑えた、時間経過に伴うパワーの変化を抽出することができる。

0037

このパワー抽出手段11は、抽出した時間経過に伴うパワーの値(dB)を、音響特徴情報の一つとして、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。すなわち、パワー抽出手段11は、パワーのスムージング波形におけるある時刻の瞬時値を、その時刻に対応付けて記憶手段20に書き込む。

0038

ピッチ抽出手段(音響特徴量抽出手段)12は、外部から入力された音声コンテンツ(音声信号)から、音響特徴量の一つであるピッチ(音の高さ)を抽出するものである。このピッチ抽出手段12におけるピッチ抽出の手法は、一般的な手法を用いればよい。例えば、ピッチ抽出手段12は、パワー抽出手段11で抽出されたパワースペクトルの自己相関関数を求め、その自己相関関数の係数極大値周期間隔として、ピッチ(基本周波数)を抽出する。

0039

なお、ピッチ抽出手段12は、パワー抽出手段11と同様に、ピッチの時間経過に伴う信号レベルをスムージング(平滑化)しておく。例えば、ピッチ抽出手段12は、ピッチの逐次変化を、カットオフ周波数10Hz程度でスムージングする。これによって、ピッチ抽出手段12は、音声コンテンツから、一般的な会話音声において知覚されない音響成分を除外して、時間経過に伴うピッチの変化を抽出することができる。

0040

このピッチ抽出手段12は、抽出した時間経過に伴うピッチの値(Hz)を、音響特徴情報の一つとして、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。すなわち、ピッチ抽出手段12は、ピッチのスムージング波形におけるある時刻の瞬時値を、その時刻に対応付けて記憶手段20に書き込む。

0041

音声区間検出手段(区間情報検出手段)13は、外部から入力された音声コンテンツ(音声信号)から、音声を含んだ音声区間や、音声を含まない非音声区間(無音区間を含む)を検出するものである。

0042

この音声区間検出手段13における音声/非音声区間の検出手法は、一般的な手法を用いればよい。
例えば、音声区間検出手段13は、パワー抽出手段11で抽出されたパワーが、予め定めた閾値よりも大きい場合に当該時間区間を音声区間と判別し、それ以外を非音声区間とする。なお、この閾値は、音声信号のレベルに応じて適応的に変化させてもよく、特開平10−301593号公報に記載された手法を用いることとしてもよい。

0043

すなわち、音声区間検出手段13は、入力された音声コンテンツに対して、過去の所定の時間内のパワーの最大値および最小値を図示を省略したメモリ等に保持し、その保持されている最大値より予め定めた値だけ小さいパワーに関する閾値を決定する。そして、音声区間検出手段13は、パワーの最大値と最小値との差が予め定めた基準値より小さくなった場合には、その差に応じて閾値を大きくする。これによって、音声レベルの変化に逐次適応させながら、音声区間と非音声区間とを判別することができる。

0044

この音声区間検出手段13は、検出した音声区間および非音声区間(無音区間を含む)のそれぞれの開始時刻および終了時刻を、区間情報として、音声コンテンツの開始からの時刻と対応付けて、記憶手段20に書き込む。なお、区間情報は、開始時刻および終了時刻以外に、当該区間が、音声区間であるか非音声区間であるかを示す種類情報や、音声コンテンツの最初から何番目の区間であるかを示す識別情報(例えば、シリアル番号等)を含んでいる。

0045

また、ここでは、音響分析手段10は、入力された音声コンテンツから、逐次、音響分析を行うこととした。しかし、音響分析手段10は、音声コンテンツが予め記憶手段20に書き込まれた後、記憶手段20に記憶されている音声コンテンツに対して、音響分析を行うこととしてもよい。

0046

記憶手段(音声コンテンツ記憶手段、音響特徴量記憶手段、区間情報記憶手段)20は、外部から入力された音声コンテンツや、音響分析手段10によって分析された音響特徴情報(パワー、ピッチ)、区間情報(音声区間、非音声区間)を記憶するものである。この記憶手段20は、ハードディスク等の一般的な記憶装置を用いることができる。
この記憶手段20に記憶される音響特徴情報および区間情報は、削除区間探索手段30によって参照され、音声コンテンツの削除区間を探索する際に用いられる。

0047

また、記憶手段20には、削除区間探索手段30によって探索された音声コンテンツの削除区間(削除区間情報)が書き込まれるものとする。
この記憶手段20に記憶される音声コンテンツ、区間情報および削除区間情報は、出力時間長調整手段40によって参照され、部分的に削除した音声コンテンツの出力時間長を調整する際に用いられる。

0048

削除区間探索手段30は、外部から入力される削除条件に基づいて、音声コンテンツの音声区間および非音声区間において、削除する区間を探索するものである。
この削除区間探索手段30は、削除条件により、非音声区間において、予め定めた時間長以上の区間を削除区間とする。また、削除区間探索手段30は、削除条件により、音声区間において、音声区間の終了時刻から遡って、音響特徴量の変化が予め定めた基準よりも少ない区間を、音声コンテンツの削除区間とする。この削除条件については、後で詳細に説明する。
この削除区間探索手段30は、削除すべき区間を示す削除区間情報を記憶手段20に書き込み、削除区間を探索し終わった旨を出力時間長調整手段40に通知する。
ここでは、削除区間探索手段30は、非音声区間探索手段31と、非音声区間部分削除手段32と、音声削除区間探索手段33と、音声区間部分削除手段34と、を備えている。

0049

非音声区間探索手段31は、記憶手段20に記憶されている区間情報に基づいて、予め定めた時間長以上の非音声区間(対象非音声区間)を探索するものである。
この非音声区間探索手段31は、区間情報として記憶されている開始時刻と終了時刻との差が、削除条件として予め定められた時間長よりも長い非音声区間を探索する。この予め定めた時間長は、呼気段落内の短い非音声区間を削除対象とすることを除外するための時間長であって、例えば、300msとする。
この非音声区間探索手段31は、探索した対象非音声区間の識別情報(シリアル番号)を、非音声区間部分削除手段32と、音声削除区間探索手段33とに出力する。

0050

非音声区間部分削除手段32は、非音声区間探索手段31で探索された対象非音声区間において、削除条件として予め定められた最低限残す時間長分の区間を残して、区間を部分的に削除するものである。例えば、この最低限残す非音声区間の時間長は、100msとする。

0051

すなわち、非音声区間部分削除手段32は、記憶手段20に記憶されている区間情報の対象非音声区間において、開始時刻から、最低限残す時間長を加算した時刻を終了時刻とし、識別情報(シリアル番号)に対応した新たな区間情報(削除区間情報)として記憶手段20に書き込む。なお、対象非音声区間において、削除する部分区間は、必ずしも対象非音声区間の終端側である必要はなく、始端側であっても構わない。

0052

音声削除区間探索手段33は、非音声区間探索手段31で探索された対象非音声区間の直前の音声区間(対象音声区間)において、予め定めた条件に基づいて、当該音声区間の終端から、音響特徴の変化が少ない削除対象となる区間を探索するものである。
このように、非音声区間探索手段31で探索された対象非音声区間の直前の音声区間を探索対象とすることで、呼気段落の途中で音声が削除されてしまうことを防止することができる。
ここでは、音声削除区間探索手段33は、パワー参照探索手段331と、ピッチ参照探索手段332と、削除区間決定手段333と、を備えている。

0053

パワー参照探索手段331は、対象非音声区間の直前の音声区間(対象音声区間)において、音響特徴量の1つであるパワーの変化が予め定めた変化量よりも少ない時間区間を、当該音声区間の終端から遡って探索するものである。

0054

すなわち、パワー参照探索手段331は、対象非音声区間の開始時刻に対応する記憶手段20に記憶されているパワー値を基準値とし、対象非音声区間の直前の音声区間(対象音声区間)の終了時刻から当該音声区間の開始時刻の方向に時間を遡って、記憶手段20に記憶されているパワー値と基準値との変化量が予め定めた変化よりも少ない区間を求める。そして、パワー参照探索手段331は、その求めた区間の開始時刻を、パワー値により求めた削除区間の開始時刻(パワー参照削除開始時刻)とする。

0055

ここで、パワー参照探索手段331が音声区間の終了時刻から開始時刻の方向に時間を遡る時間は、その最大時間が予め設定されているものとする。また、パワー参照探索手段331は、予め定めた最大時間以内であっても、音声区間の開始時刻から予め定めた時間区間以上は遡らないこととする。これによって、音声区間には、少なくとも先頭から予め定めた時間以上の削除対象外の区間が設定されることになり、呼気段落における文頭部分が削除されることがない。なお、パワー参照探索手段331は、音声区間の時間長が予め定めた時間長より短い区間については、削除を行う対象音声区間と扱わないこととする。
このパワー参照探索手段331は、音声区間における削除区間の開始時刻(パワー参照削除開始時刻)を削除区間決定手段333に出力する。
なお、パワー参照探索手段331が探索する削除区間の例については、後でさらに具体的に説明する。

0056

ピッチ参照探索手段332は、対象非音声区間の直前の音声区間(対象音声区間)において、音響特徴量の1つであるピッチの変化が予め定めた変化量よりも少ない時間区間を、当該音声区間の終端から遡って探索するものである。

0057

すなわち、ピッチ参照探索手段332は、対象非音声区間の開始時刻に対応する記憶手段20に記憶されているピッチ値を基準値とし、対象非音声区間の直前の音声区間(対象音声区間)の終了時刻から当該音声区間の開始時刻の方向に時間を遡って、記憶手段20に記憶されているピッチ値と基準値との変化量が予め定めた変化よりも少ない区間を求める。そして、ピッチ参照探索手段332は、その求めた区間の開始時刻を、ピッチ値により求めた削除区間の開始時刻(ピッチ参照削除開始時刻)とする。

0058

ここで、ピッチ参照探索手段332が音声区間の終了時刻から開始時刻の方向に時間を遡る時間は、その最大時間が予め設定されているものとする。また、ピッチ参照探索手段332は、パワー参照探索手段331と同様に、予め定めた最大時間以内であっても、音声区間の開始時刻から予め定めた時間区間以上は遡らないこととする。これによって、音声区間には、少なくとも先頭から予め定めた時間以上の削除対象外の区間が設定されることになり、呼気段落における文頭部分が削除されることがない。なお、ピッチ参照探索手段332は、音声区間の時間長が予め定めた時間長より短い区間については、削除を行う対象音声区間と扱わないこととする。
このピッチ参照探索手段332は、音声区間における削除区間の開始時刻(ピッチ参照削除開始時刻)を削除区間決定手段333に出力する。
なお、ピッチ参照探索手段332が探索する削除区間の例については、後でさらに具体的に説明する。

0059

削除区間決定手段333は、パワー参照探索手段331で探索されたパワー参照削除開始時刻と、ピッチ参照探索手段332で探索されたピッチ参照削除開始時刻とに基づいて、対応する音声区間における削除区間(開始時刻)を決定するものである。なお、削除区間の終了時刻は、当該音声区間の終了時刻と同じである。

0060

ここでは、削除区間決定手段333は、パワーとピッチとでいずれに重みをおくかを予め設定し、その重み(比率)に応じて削除区間を決定する。例えば、パワーの重みをm、ピッチの重みをnとし、パワー参照削除開始時刻がtpw、ピッチ参照削除開始時刻がtpiであった場合、削除区間決定手段333は、以下の(1)式によって、削除区間の開始時刻tdを算出する。

0061

0062

この削除区間決定手段333は、決定した削除区間(開始時刻)を音声区間部分削除手段34に出力する。
なお、ここでは、削除区間決定手段333は、パワーとピッチとの重み(比率)に応じて、削除区間を決定したが、パワー参照削除開始時刻またはピッチ参照削除開始時刻の早い方の時間区間を当該音声区間における削除区間としてもよいし、パワー参照削除開始時刻またはピッチ参照削除開始時刻の遅い方の時間区間を当該音声区間における削除区間としてもよい。

0063

この削除区間決定手段333において、パワーとピッチとにより、どのように削除区間を決定するかは、例えば、音声コンテンツの言語の種類によって予め定めておくこととしてもよい。例えば、各国の言語の特性に応じて、パワーの変化が少ない言語であれば、ピッチの重みを大きくすることで、ピッチを優先させた削除区間を設定することができる。あるいは、ピッチの変化が少ない言語であれば、パワーの重みを大きくすることで、パワーを優先させた削除区間を設定することができる。

0064

音声区間部分削除手段34は、対象非音声区間の直前の音声区間から、音声削除区間探索手段33で探索された削除区間を部分的に削除するものである。
すなわち、音声区間部分削除手段34は、記憶手段20に記憶されている区間情報の対応する音声区間の終了時刻を、音声削除区間探索手段33で探索された削除区間の開始時刻の直前の時刻に設定し、新たな区間情報(削除区間情報)として記憶手段20に書き込む。

0065

ここで、図2図3を参照(適宜図1参照)して、削除区間探索手段30が音声コンテンツ内で削除する区間を探索する手法の具体例について説明する。

0066

〔非音声区間の削除区間〕
まず、図2を参照して、非音声区間において削除する区間について説明する。
図2に示すように、削除区間探索手段30は、区間長が予め定めた時間長以上の非音声区間(無音区間を含む)を対象非音声区間Seg1とし、予め定めた最低限残す時間長leaveS1だけを残して、残りの区間を削除区間とする。例えば、対象非音声区間Seg1の時間長は300ms以上とし、最低限残す時間長leaveS1は100msとする。

0067

すなわち、非音声区間探索手段31が、音声コンテンツから、区間長が300ms以上の非音声区間を対象非音声区間Seg1として探索する。そして、非音声区間部分削除手段32が、対象非音声区間Seg1の開始時刻t1sに最低限残す時間長leaveS1を加算した時刻(t1s+leaveS1)から、対象非音声区間Seg1の終了時刻t1eまでの区間を削除区間とする。
これによって、対象非音声区間Seg1の開始時刻t1sから、leaveS1の時間長分の非音声区間が削除されずに残されることになる。

0068

〔音声区間の削除区間〕
次に、図3を参照して、音声区間において削除する区間について説明する。なお、部分的に削除する対象となる音声区間は、図2で説明した対象非音声区間Seg1の直前の音声区間(対象音声区間Seg2)である。この対象音声区間Seg2は、予め定めた最低限残す時間長leaveS2よりも長い区間とする。

0069

図3に示すように、削除区間探索手段30は、対象非音声区間Seg1の直前であって、最低限残す時間長leaveS2よりも長い音声区間である対象音声区間Seg2において、対象非音声区間Seg1の開始時刻t1sにおける音響特徴を基準に、終了時刻t2eから、当該音響特徴との変化量が予め定めた基準よりも多くなる探索最終時刻tstopまで遡り、音響特徴の変化量が予め定めた基準より少ない区間を削除区間とする。このとき、探索最終時刻tstopと終了時刻t2eとの時間長は、最大でも予め定めた最大削除時間長cutMaxを超過しないこととし、削除区間探索手段30は、対象音声区間Seg2の冒頭から最低限残す時間長leaveS2の時間区間までは探索を行わないこととする。例えば、最大削除時間長cutMaxは250ms、最低限残す時間長leaveS2は50msとする。

0070

すなわち、音声削除区間探索手段33のパワー参照探索手段331およびピッチ参照探索手段332は、対象音声区間Seg2の終了時刻t2eから遡って削除区間を探索する時刻が、対象音声区間Seg2の開始時刻t2sから予め定めた時刻(t2s+leaveS2)を越えず、かつ、探索する削除区間の時間長が予め定めた最大時間長(最大削除時間長cutMax)を超えない範囲で、対象非音声区間Seg1の先頭の基準となる音響特徴に対して、変化が少ない区間を削除区間とする。

0071

以下、対象音声区間Seg2において、探索を継続する条件、すなわち、音響特徴の変化が予め定めた基準より少ない条件(削除条件)について、例を挙げて説明する。

0072

(パワーを参照する場合)
まず、パワー参照探索手段331が、対象音声区間Seg2において、パワーを参照して、削除区間を探索する条件について説明する。なお、以下の条件を満たす場合であっても、最大削除時間長cutMax、最低限残す時間長leaveS2によって、探索時刻が制限を受けることは前記したとおりである。

0073

<例1>
例1として、パワー参照探索手段331は、対象非音声区間Seg1の開始時刻t1sにおけるパワー値(時刻t1sにおけるスムージング波形の瞬時値)をPWBASE、探索時点におけるパワー値(探索時刻におけるスムージング波形の瞬時値)をPWNOWとしたとき、以下の(2)式の条件を満たす間、探索を続ける。

0074

0075

ここで、th1は、予め定めた閾値であって、例えば、10(dB)とする。
パワー参照探索手段331は、この条件を満たさなくなった探索時刻を、探索最終時刻tstopとする。
この例1によれば、音声区間の終端部分のパワーと、非音声区間の先頭のパワーとを比較して、その差が小さいことを条件に、削除する区間を特定する。

0076

<例2>
例2として、パワー参照探索手段331は、対象非音声区間Seg1の開始時刻t1sにおけるパワー値(時刻t1sにおけるスムージング波形の瞬時値)をPWBASE、探索時点におけるパワー値(探索時刻におけるスムージング波形の瞬時値)をPWNOW、対象音声区間Seg2におけるパワー値の最大値をPWMAX、最小値をPWMINとしたとき、以下の(3)式の条件を満たす間、探索を続ける。

0077

0078

ここで、th2は、閾値を調整する予め定めた係数であって、例えば、0.1とする。
パワー参照探索手段331は、この条件を満たさなくなった探索時刻を、探索最終時刻tstopとする。
この例2によれば、音声区間の終端部分のパワーが、非音声区間の先頭のパワーと比較して、その差が小さいことを条件とする点においては、例1と同じである。しかし、その差が発話者によって異なることに鑑み、音声区間内のパワーに応じて閾値を変化させることとした。これによって、音声コンテンツにおいて発話者が変化する場合であっても、適宜最適な削除区間を特定することができる。

0079

(ピッチを参照する場合)
次に、ピッチ参照探索手段332が、対象音声区間Seg2において、ピッチを参照して、削除区間を探索する条件について説明する。
ピッチ参照探索手段332は、対象非音声区間Seg1の開始時刻t1sにおけるピッチ値(時刻t1sにおけるピッチ波形のスムージング周波数)をPTBASE、探索時点におけるピッチ値(探索時刻におけるピッチ波形のスムージング周波数)をPTNOWとしたとき、以下の(4)式の条件を満たす間、探索を続ける。

0080

0081

ここで、th3は、予め定めた閾値であって、例えば、2とする。
ピッチ参照探索手段332は、この条件を満たさなくなった探索時刻を、探索最終時刻tstopとする。
この例によれば、音声区間の終端部分のピッチが、非音声区間の先頭のピッチの所定倍数よりも小さいことを条件に、削除する区間を特定する。
なお、この条件を満たす場合であっても、最大削除時間長cutMax、最低限残す時間長leaveS2によって、探索時刻が制限を受けることは前記したとおりである。
図1に戻って、話速変換装置1の構成について説明を続ける。

0082

出力時間長調整手段40は、削除区間探索手段30によって探索された、音声区間および非音声区間の削除する区間(削除区間情報)に基づいて、音声コンテンツを部分的に削除するとともに、指定された再生速度となるように、音声コンテンツの出力時間長を調整するものである。ここでは、出力時間長調整手段40は、伸縮率算出手段41と、出力時間長変更手段42と、を備えている。

0083

伸縮率算出手段41は、削除区間探索手段30によって探索された削除区間を削除した音声コンテンツの再生時間長が、指定された再生速度(再生倍率)で削除前の音声コンテンツを再生した時間長と同じになるように、音声区間の伸縮率を算出するものである。なお、非音声区間については、伸縮率を“1”として、伸縮を行わないこととする。

0084

具体的には、伸縮率算出手段41は、削除前の音声コンテンツにおける音声区間の総時間長をPO、非音声区間の総時間長をQO、指定された再生速度(再生倍率)をRO、削除区間削除後の音声コンテンツにおける音声区間の総時間長をPD、非音声区間の総時間長をQD、としたとき、以下の(5)式によって、音声区間の伸縮率RDを算出する。

0085

0086

この伸縮率算出手段41は、算出した音声区間の伸縮率を、出力時間長変更手段42に出力する。
なお、音声コンテンツを高速再生する場合、基本的には、伸縮率算出手段41は、音声区間を短くする方向に伸縮率を算出することになる。しかし、再生倍率が小さく、また、音声区間内の削除区間が長い場合、伸縮率算出手段41は、残った音声区間を伸ばす方向に伸縮率を算出する場合もあり得る。

0087

出力時間長変更手段42は、伸縮率算出手段41で算出された伸縮率に基づいて、削除区間探索手段30で探索された削除区間を削除した音声コンテンツの出力時間長を変更するものである。すなわち、出力時間長変更手段42は、記憶手段20に記憶されている区間情報および削除区間情報に基づいて、音声コンテンツの音声データを区間(音声区間、非音声区間)ごとに読み出し、出力時間長を調整する。

0088

ここで、出力時間長変更手段42は、音声区間については、削除区間情報によって削除区間が定められている場合、当該削除区間を削除した音声データを記憶手段20から読み出して、伸縮率算出手段41で算出された伸縮率で時間長を変更する。
また、出力時間長変更手段42は、削除区間が定められていない音声区間については、そのまま音声区間分の音声データを記憶手段20から読み出して、伸縮率算出手段41で算出された伸縮率で時間長を変更する。

0089

ここで、伸縮率に応じて音声データを伸縮させるには、ピッチの周期に応じて音声波形の間引き/繰り返しを行い、音声波形どうしを伸縮率に応じた時間長で重ね合わせて接続すればよい。このような音声データの伸縮には、一般的な話速変換手法を用いればよく、例えば、特許第3327936号、特許第2955247等の技術を用いることができる。

0090

また、出力時間長変更手段42は、非音声区間については、削除区間情報によって削除区間が定められている場合、当該削除区間を削除した音声データ(非音声データ)を記憶手段20から読み出し、伸縮を行わずにそのまま出力する。
また、出力時間長変更手段42は、削除区間が定められていない非音声区間については、非音声区間分の音声データ(非音声データ)を記憶手段20から読み出し、伸縮を行わずにそのまま出力する。

0091

このように、話速変換装置1は、非音声区間のみならず、音声区間においても削除区間を設けて出力時間長を調整することで、従来の話速変換と同じ再生速度であっても、部分的に再生する音声に対する時間長を、従来よりも長く割り当てることができ、再生時において、音声を聞き取り易くすることができる。

0092

ここで、図4を参照(適宜図1参照)して、話速変換装置1における音声コンテンツの話速変換処理を模式的に説明する。
図4(a)は、話速変換前の音声コンテンツのデータを示し、音声区間と非音声区間とが含まれた状態を示している。なお、非音声区間は、所定時間長以上の削除の対象となる対象非音声区間とする。また、音声区間には、非音声区間の前に音響特徴量の変化が少ない区間Bが含まれていることとする。
すなわち、話速変換装置1は、音響分析手段10によって、音声コンテンツを音響分析することで、音声区間や非音声区間(無音区間を含む)の区間情報や、区間A,Bを特定ためのパワーやピッチ等の音響特徴情報を生成する。

0093

図4(b)は、図4(a)の音声コンテンツにおいて、削除区間を設定した状態を示している。すなわち、話速変換装置1は、図4(b)に示すように、削除区間探索手段30によって、図4(a)で示した音響特徴量の変化が少ない区間Bを削除区間D1として特定するとともに、非音声区間についても所定時間長以上の区間を削除区間D2として特定する。そして、話速変換装置1は、音声区間において、区間Aのみを再生対象とする。

0094

図4(c)は、話速変換装置1が、図4(a)の音声コンテンツを話速変換した後のデータを示している。ここでは、一例として再生速度を3倍としている。
すなわち、話速変換装置1は、出力時間長調整手段40によって、音声コンテンツから削除区間D1,D2を削除して、総時間長が、図4(a)の音声コンテンツに対して3倍速となるように、音声区間の出力時間長を調整する。ここでは、図4(a)の音声コンテンツの音声区間のうちで区間Aのみが、(c)の区間A1に変換されたことを示している。

0095

図4(d)は、従来の話速変換によって、図4(a)の音声コンテンツを話速変換した後のデータを示している。なお、従来手法においても、非音声区間から部分的にデータ(D2)を削除しているものとする。この従来手法では、図4(a)の音声コンテンツの音声区間の区間Aと区間Bとが、(d)の区間A2と区間B2とにそれぞれ変換されたことを示している。すなわち、この従来手法では、話速変換装置1が音声区間から削除する音響特徴量の変化が少ない区間Bに対しても話速変換を行っている。

0096

この図4(c)と図4(d)を比較しても分かるように、同じ再生速度であっても、図4(a)に示した音声区間のうち、部分的に再生したい区間Aの音声データの時間長が、(c)では区間A1、(d)では区間A2の時間長となり、図4(c)の方が長い時間長を確保することができる。このように、話速変換装置1によって話速変換された音声は、従来手法によって話速変換された音声よりもゆっくり再生されることになり、聞き取り易くなる。
以上、話速変換装置1の構成について説明したが、この話速変換装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(話速変換プログラム)により動作させることができる。また、このプログラムは、コンピュータで読み取り可能なCD−ROM等の記録媒体に記録して配布することもできる。

0097

以上説明したように、話速変換装置1は、音響特徴の変化が少ない音声を削除して、高速再生が可能な音声コンテンツを生成することができる。これによって、話速変換装置1は、従来では3倍速が限界であった再生速度をさらに早めることができ、人が目視で文章を斜め読みするのと同様に、音声コンテンツを聞くことができる。
また、話速変換装置1は、従来と同じ再生速度で再生する場合であっても、再生音声に割り当てる時間が相対的に長いため、従来よりも聞き取り易い音声コンテンツに変換することができる。

0098

[話速変換装置の動作]
次に、図5を参照(構成については適宜図1参照)して、話速変換装置1の動作について説明する。
まず、話速変換装置1は、音響分析手段10によって、入力された音声コンテンツについて、音響分析を行う(ステップS1)。すなわち、話速変換装置1は、音響分析手段10のパワー抽出手段11によって、音響特徴量の一つであるパワー(音の強さ、大きさ)を抽出し、ピッチ抽出手段12によって、ピッチ(音の高さ)を抽出する。さらに、話速変換装置1は、音響分析手段10の音声区間検出手段13によって、音声コンテンツから、音声を含んだ音声区間や、音声を含まない非音声区間(無音区間を含む)を検出する。これらの音響特徴量や区間情報は、記憶手段20に記憶される。また、入力された音声コンテンツも記憶手段20に記憶される。

0099

そして、話速変換装置1は、削除区間探索手段30の非音声区間探索手段31によって、記憶手段20に記憶されている区間情報を参照して、予め定めた時間長以上の非音声区間(対象非音声区間)を探索する(ステップS2)。そして、話速変換装置1は、削除区間探索手段30の非音声区間部分削除手段32によって、対象非音声区間において、削除条件として予め定められた最低限残す時間長分の区間を残して区間を部分的に削除し、新たな区間情報(削除区間情報)として記憶手段20に書き込む(ステップS3)。

0100

そして、話速変換装置1は、ステップS2で探索された対象非音声区間の直前の音声区間において、音声削除区間探索手段33によって、記憶手段20に記憶されている音響特徴情報を参照して、当該音声区間の終端から、音響特徴の変化が少ない削除対象となる区間(削除区間)を探索する(ステップS4)。

0101

すなわち、話速変換装置1は、音声削除区間探索手段33のパワー参照探索手段331によって、対象非音声区間の直前の音声区間(対象音声区間)において、パワーの変化が予め定めた変化量よりも少ない削除区間を、当該音声区間の終端から遡って探索する。また、話速変換装置1は、音声削除区間探索手段33のピッチ参照探索手段332によって、同じ音声区間において、ピッチの変化が予め定めた変化量よりも少ない削除区間を、当該音声区間の終端から遡って探索する。そして、話速変換装置1は、音声削除区間探索手段33の削除区間決定手段333によって、パワーおよびピッチに基づいてそれぞれで独立して探索した削除区間から、予め定めたパワーとピッチとの重みに基づいて削除区間を決定する。

0102

そして、話速変換装置1は、音声区間部分削除手段34によって、ステップS4で探索された削除区間を音声区間から部分的に削除し、新たな区間情報(削除区間情報)として記憶手段20に書き込む(ステップS5)。
そして、話速変換装置1は、区間情報において、対象非音声区間をすべて探索していない場合(ステップS6でNo)、ステップS2に戻って、次の対象非音声区間を探索する。

0103

一方、対象非音声区間をすべて探索し終わった場合(ステップS6でYes)、話速変換装置1は、出力時間長調整手段40によって、記憶手段20に記憶されている新たな区間情報(削除区間情報)に基づいて、音声コンテンツを部分的に削除するとともに、指定された再生速度となるように、音声コンテンツの出力時間長を調整する。

0104

すなわち、話速変換装置1は、出力時間長調整手段40の伸縮率算出手段41によって、削除区間を削除した音声コンテンツの再生時間長が、指定された再生速度(再生倍率)で削除前の音声コンテンツを再生した時間長と同じになるように、音声区間の伸縮率を算出する(ステップS7)。そして、話速変換装置1は、出力時間長調整手段40の出力時間長変更手段42によって、記憶手段20に記憶されている区間情報および削除区間情報に基づいて、音声コンテンツの音声データを区間(音声区間、非音声区間)ごとに読み出し、伸縮率に基づいて出力時間長を調整する(ステップS8)。
以上の動作によって、話速変換装置1は、音声区間においても音声データを削除することで、高速に再生可能な音声コンテンツを出力することができる。

0105

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、話速変換装置1が音響分析手段10を備える構成としたが、予め外部の分析装置において、音声コンテンツに対応したデータ(音響特徴情報、区間情報)が分析されているのであれば、そのデータのみを入力し、記憶手段20に記憶する形態でも構わない。

0106

また、本発明は、音声区間を部分的に削除することに特徴があり、非音声区間部分削除手段32は必須の構成ではない。ただし、非音声区間部分削除手段32を備えることで、削除した非音声区間に、音声の再生時間を割り当てることができるため、当該手段を備えることはより好ましい形態であるといえる。

0107

また、ここでは、話速変換装置1において、音響分析手段10のパワー抽出手段11やピッチ抽出手段12が、それぞれの音響特徴をスムージングして、記憶手段20に書き込むこととした。しかし、パワー抽出手段11やピッチ抽出手段12は、抽出した時刻における音響特徴をそのまま書き込むこととしてもよい。
その場合、音声削除区間探索手段33は、記憶手段20に記憶されている音響特徴を順次スムージングし、時刻ごとの瞬時値を用いて削除区間を探索することとすればよい。

0108

また、ここでは、話速変換装置1が、音響特徴としてパワーおよびピッチの両方を用いることとしたが、いずれか一方であっても構わない。
例えば、図6の話速変換装置1Bの構成として示すように、話速変換装置1(図1)の構成から、パワー抽出手段11、パワー参照探索手段331および削除区間決定手段333を省略して構成することで、音響特徴としてピッチのみを用いて話速変換を行うこととしてもよい。

0109

また、例えば、図7の話速変換装置1Cの構成として示すように、話速変換装置1(図1)の構成から、ピッチ抽出手段12、ピッチ参照探索手段332および削除区間決定手段333を省略して構成することで、音響特徴としてパワーのみを用いて話速変換を行うこととしてもよい。

0110

1話速変換装置
10音響分析主手段
11パワー抽出手段(音響特徴量抽出手段)
12ピッチ抽出手段(音響特徴量抽出手段)
13音声区間検出手段(区間情報検出手段)
20 記憶手段
(音声コンテンツ記憶手段、音響特徴量記憶手段、区間情報記憶手段)
30削除区間探索手段
31非音声区間探索手段
32 非音声区間部分削除手段
33音声削除区間探索手段
331 パワー参照探索手段
332ピッチ参照探索手段
333 削除区間決定手段
34音声区間部分削除手段
40出力時間長調整手段
41伸縮率算出手段
42 出力時間長変更手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ