図面 (/)

技術 録音の終了点自動検出のための方法及びシステム

出願人 科大訊飛股分有限公司
発明者 魏思胡国平胡郁劉慶峰
出願日 2010年10月29日 (8年9ヶ月経過) 出願番号 2013-535238
公開日 2013年12月19日 (5年8ヶ月経過) 公開番号 2013-545133
状態 特許登録済
技術分野 音声認識 音声の分析・合成
主要キーワード 値決定ユニット サンプリング窓 取得サブユニット 識別効率 特徴音 応用環境 ミュートデータ 最大コスト
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年12月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題・解決手段

録音終了点自動検出のための方法及びシステムが提供される。本方法は録音テキストを取得して録音テキストに対するテキスト終了点音響モデルを確認することと、録音データにおける録音開始フレームから順番に各フレームの録音データの取得を開始することと、録音データの取得された現在のフレームに対する復号化最適パス特徴音モデルを確認することと、録音データの現在のフレームから取得された復号化最適パスの特徴音響モデルと終了点音響モデルとを比較してそれらが同一であるかを決定することと、YESである場合にミュート期間しきい値を第1の時間しきい値よりも小さな第2の時間しきい値に更新することとを含む。本方法は、録音終了点の認識効率を改善させることができる。

概要

背景

多年にわたる技術発展の後、テキストに関する発話評価は、実施段階に入っている。テキストに関する発話評価とは、あるテキストがユーザによって読まれて、発話評価システムがユーザの発音データを格納して、発音データを評価して評価スコアを与えることを指す。

既存の発話評価システムにおいて、ユーザ録音制御は一般にユーザによって手動で行われる。すなわち、ユーザが開始録音プリセットボタンクリックするときに録音は開始して、ユーザが終了録音のプリセットボタンをクリックするときに録音は終了する。この録音制御は、ユーザが多数回手動でクリックすることを必要としており、操作が複雑であり、ユーザの経験に影響を与える。

したがって、自動録音制御の方法が従来技術において現れている。この方法において、発話評価システムは、ユーザ録音の状態が発音であるかミュートであるかを自動的に検出して、ユーザミュート期間プリセット時間しきい値よりも長い場合に録音の終了を決定する。しかしながら、自動録音制御の方法において、時間しきい値がより短く設定されると、ユーザの通常の発音ポーズが録音の終了点として判定される場合があり、ユーザ音声切り捨てにつながる。したがって、従来技術において、時間しきい値を、例えば2秒又はそれより長い、より大きな値として設定することが一般的であり、これによって、ユーザが発音を完了した後、ユーザは、発話評価システムが録音の終了点を識別して録音を終了するために非常に長い時間待機する必要がある。このように、発話評価システムによる録音の終了点の識別の効率は低下して、発話評価の効率が低下して、ユーザの経験に影響を与える。

概要

録音の終了点自動検出のための方法及びシステムが提供される。本方法は録音テキストを取得して録音テキストに対するテキスト終了点音響モデルを確認することと、録音データにおける録音開始フレームから順番に各フレームの録音データの取得を開始することと、録音データの取得された現在のフレームに対する復号化最適パス特徴音モデルを確認することと、録音データの現在のフレームから取得された復号化最適パスの特徴音響モデルと終了点音響モデルとを比較してそれらが同一であるかを決定することと、YESである場合にミュート期間しきい値を第1の時間しきい値よりも小さな第2の時間しきい値に更新することとを含む。本方法は、録音終了点の認識効率を改善させることができる。

目的

本発明の目的は技術的問題点を解決し、録音の終了点に対する識別効率を改善させるように、録音の終了点を検出する方法及びシステムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ミュート期間しきい値を第1の時間しきい値としてプリセットすることを含む録音終了点を検出するための方法であって、上記方法はさらに、録音テキストを取得して、上記録音テキストのテキスト終了点に対する音響モデルを決定して、上記録音データ録音開始フレームから開始して順番に録音データの各フレームを取得することと、上記録音データの取得された現在のフレームに対する復号化最適パス特徴音モデルを決定することと、上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する上記音響モデルと同一であると決定して、上記ミュート期間しきい値を、上記第1の時間しきい値よりも小さい第2の時間しきい値に更新することとを含む方法。

請求項2

上記テキスト終了点に対する音響モデルを決定することは、上記録音テキストに従って上記テキストに対応する復号化ネットワークを発生して、上記復号化ネットワークの最後の音響モデルを上記テキスト終了点に対する上記音響モデルとして決定することを含む請求項1に記載の方法。

請求項3

上記録音データの現在のフレームに対する復号化最適パスの特徴音響モデルを決定することは、上記録音データの上記現在のフレームからプリセット音響モデルに対応するMFCCの特徴を抽出して、上記録音データの上記現在のフレームに対する上記復号化最適パスを取得することと、上記録音データの上記現在のフレームに対する上記復号化最適パスの最後の音響モデルを上記復号化最適パスの上記特徴音響モデルとして決定することとを含む請求項2に記載の方法。

請求項4

上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する上記音響モデルと異なると決定された場合、上記ミュート期間しきい値を上記第1の時間しきい値として保持することをさらに含む請求項1に記載の方法。

請求項5

録音データの1つのフレームが取得された後、上記方法はさらに、上記録音データの上記取得された現在のフレームがミュートデータであり、かつ、現在のミュート期間が現在のミュート期間しきい値よりも長いと決定された場合、上記録音を終了することを含む請求項1〜4のうちのいずれか一項に記載の方法。

請求項6

録音データの各フレームを取得する前に、上記方法はさらに、上記録音データを受信して、上記録音データの上記録音開始フレームを決定することを含む請求項1〜4のうちのいずれか一項に記載の方法。

請求項7

上記録音データの上記録音開始フレームを決定することは、上記録音データの各フレームが上記ミュートデータであるか非ミュートデータであるかを順番に決定して、上記非ミュートデータの最初のフレームを上記録音開始フレームとして使用することを含む請求項6に記載の方法。

請求項8

録音の終了点を検出するシステムであって、ミュート期間しきい値は第1の時間しきい値としてプリセットされ、上記システムはさらに、録音テキストを取得して、上記録音テキストのテキスト終了点に対する音響モデルを決定するように適応された第1の決定ユニットと、上記録音データの録音開始フレームから開始して順番に録音データの各フレームを取得するように適応された第1の取得ユニットと、上記録音データの取得された現在のフレームに対する復号化最適パスの特徴音響モデルを決定するように適応された第2の決定ユニットと、上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する音響モデルと同一であると決定された場合、上記ミュート期間しきい値を、上記第1の時間しきい値よりも小さい上記第2の時間しきい値に更新するように適応されたしきい値決定ユニットとを備えるシステム。

請求項9

上記第1の決定ユニットは、上記録音テキストを取得するように適応された取得サブユニットと、上記録音テキストに従って上記テキストに対応する復号化ネットワークを構築するように適応されたネットワーク構築サブユニットと、上記復号化ネットワークの最後の音響モデルを上記テキスト終了点に対する上記音響モデルとして決定するように適応された第1の特徴決定サブユニットとを備える請求項8に記載のシステム。

請求項10

上記第2の決定ユニットは、上記録音データの上記現在のフレームからプリセット音響モデルに対応するMFCCの特徴を抽出して、上記録音データの上記現在のフレームに対する上記復号化最適パスを取得するように適応された抽出サブユニットと、上記録音データの上記現在のフレームに対する上記復号化最適パスの最後の音響モデルを上記復号化最適パスの上記特徴音響モデルとして決定するように適応された第2の特徴決定サブユニットとを備える請求項9に記載のシステム。

請求項11

上記しきい値決定ユニットはさらに、上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する上記音響モデルと異なると決定された場合、上記ミュート期間しきい値を上記第1の時間しきい値として保持するように適応された請求項8に記載のシステム。

請求項12

上記録音データの上記取得された現在のフレームがミュートデータであり、かつ、現在のミュート期間が現在のミュート期間しきい値よりも長いと決定された場合、上記録音を終了するように適応された録音制御ユニットをさらに備える請求項8〜11のうちのいずれか一項に記載のシステム。

請求項13

上記録音データを受信して、上記録音データの上記録音開始フレームを決定するように適応された受信ユニットをさらに備える請求項8〜11のうちのいずれか一項に記載のシステム。

請求項14

上記受信ユニットは、上記録音データを受信するように適応された受信サブユニットと、上記録音データの各フレームが上記ミュートデータであるか非ミュートデータであるかを順番に決定して、上記非ミュートデータの最初のフレームを上記録音開始フレームとして使用するように適応された開始フレーム決定サブユニットとを備える請求項13に記載のシステム。

技術分野

0001

本発明は、録音オーディオの記録(audio record))制御技術に関し、特に録音の終了点自動検出技術に関する。

背景技術

0002

多年にわたる技術発展の後、テキストに関する発話評価は、実施段階に入っている。テキストに関する発話評価とは、あるテキストがユーザによって読まれて、発話評価システムがユーザの発音データを格納して、発音データを評価して評価スコアを与えることを指す。

0003

既存の発話評価システムにおいて、ユーザ録音制御は一般にユーザによって手動で行われる。すなわち、ユーザが開始録音のプリセットボタンクリックするときに録音は開始して、ユーザが終了録音のプリセットボタンをクリックするときに録音は終了する。この録音制御は、ユーザが多数回手動でクリックすることを必要としており、操作が複雑であり、ユーザの経験に影響を与える。

0004

したがって、自動録音制御の方法が従来技術において現れている。この方法において、発話評価システムは、ユーザ録音の状態が発音であるかミュートであるかを自動的に検出して、ユーザミュート期間プリセット時間しきい値よりも長い場合に録音の終了を決定する。しかしながら、自動録音制御の方法において、時間しきい値がより短く設定されると、ユーザの通常の発音ポーズが録音の終了点として判定される場合があり、ユーザ音声切り捨てにつながる。したがって、従来技術において、時間しきい値を、例えば2秒又はそれより長い、より大きな値として設定することが一般的であり、これによって、ユーザが発音を完了した後、ユーザは、発話評価システムが録音の終了点を識別して録音を終了するために非常に長い時間待機する必要がある。このように、発話評価システムによる録音の終了点の識別の効率は低下して、発話評価の効率が低下して、ユーザの経験に影響を与える。

先行技術

0005

”A statistical model−based voice activity detection”,J. Sohn, N. S. Kim, and W. Sung,IEEE Signal Process. Lett., vol. 16, no. 1, pp. 1−3, 1999.
”Speech processing, transmission and quality aspects (STQ); distributed speech recognition; advanced front−end feature extraction algorithm; compression algorithms”,ETSI, ETSIES202 050 Rec., 2002.

発明が解決しようとする課題

0006

この観点において、本発明の目的は技術的問題点を解決し、録音の終了点に対する識別効率を改善させるように、録音の終了点を検出する方法及びシステムを提供することにある。

課題を解決するための手段

0007

したがって、本発明の実施形態は、以下の技術的解決方法を用いる。

0008

本発明の実施形態は録音の終了点を検出する方法を提供する。本方法は、ミュート期間しきい値を第1の時間しきい値としてプリセットすることを含む。本方法はさらに、
録音テキストを取得して、上記録音テキストのテキスト終了点に対する音響モデルを決定して、上記録音データ録音開始フレームから開始して順番に録音データの各フレームを取得することと、
上記録音データの取得された現在のフレームに対する復号化最適パス特徴音モデルを決定することと、
上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する上記音響モデルと同一であると決定して、上記ミュート期間しきい値を、上記第1の時間しきい値よりも小さい第2の時間しきい値に更新することとを含む。

0009

上記テキスト終了点に対する音響モデルを決定することは、
上記録音テキストに従って上記テキストに対応する復号化ネットワークを発生して、上記復号化ネットワークの最後の音響モデルを上記テキスト終了点に対する上記音響モデルとして決定することを含む。

0010

上記録音データの現在のフレームに対する復号化最適パスの特徴音響モデルを決定することは、
上記録音データの上記現在のフレームからプリセット音響モデルに対応するMFCCの特徴を抽出して、上記録音データの上記現在のフレームに対する上記復号化最適パスを取得することと、
上記録音データの上記現在のフレームに対する上記復号化最適パスの最後の音響モデルを上記復号化最適パスの上記特徴音響モデルとして決定することとを含む。

0011

上記方法はさらに、上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する上記音響モデルと異なると決定された場合、上記ミュート期間しきい値を上記第1の時間しきい値として保持することを含む。

0012

上記方法はさらに、録音データの1つのフレームが取得された後、
上記録音データの上記取得された現在のフレームがミュートデータであり、かつ、現在のミュート期間が現在のミュート期間しきい値よりも長い場合、上記録音を終了することを含む。

0013

上記方法はさらに、録音データの各フレームを取得する前に、
上記録音データを受信して、上記録音データの上記録音開始フレームを決定することを含む。

0014

上記録音データの上記録音開始フレームを決定することは、
上記録音データの各フレームが上記ミュートデータであるか非ミュートデータであるかを順番に決定して、上記非ミュートデータの最初のフレームを上記録音開始フレームとして使用することを含む。

0015

本発明の実施形態はさらに、録音の終了点を検出するシステムを提供し、ミュート期間しきい値は第1の時間しきい値としてプリセットされる。
上記システムはさらに、
録音テキストを取得して、上記録音テキストのテキスト終了点に対する音響モデルを決定するように適応された第1の決定ユニットと、
上記録音データの録音開始フレームから開始して順番に録音データの各フレームを取得するように適応された第1の取得ユニットと、
上記録音データの取得された現在のフレームに対する復号化最適パスの特徴音響モデルを決定するように適応された第2の決定ユニットと、
上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する音響モデルと同一であると決定された場合、上記ミュート期間しきい値を、上記第1の時間しきい値よりも小さい上記第2の時間しきい値に更新するように適応されたしきい値決定ユニットとを備える。

0016

上記第1の決定ユニットは、
上記録音テキストを取得するように適応された取得サブユニットと、
上記録音テキストに従って上記テキストに対応する復号化ネットワークを構築するように適応されたネットワーク構築サブユニットと、
上記復号化ネットワークの最後の音響モデルを上記テキスト終了点に対する上記音響モデルとして決定するように適応された第1の特徴決定サブユニットとを備える。

0017

上記第2の決定ユニットは、
上記録音データの上記現在のフレームからプリセット音響モデルに対応するMFCCの特徴を抽出して、上記録音データの上記現在のフレームに対する上記復号化最適パスを取得するように適応された抽出サブユニットと、
上記録音データの上記現在のフレームに対する上記復号化最適パスの最後の音響モデルを上記復号化最適パスの上記特徴音響モデルとして決定するように適応された第2の特徴決定サブユニットとを備える。

0018

上記しきい値決定ユニットはさらに、上記録音データの上記現在のフレームに対する上記復号化最適パスの上記特徴音響モデルが上記終了点に対する上記音響モデルと異なると決定された場合、上記ミュート期間しきい値を上記第1の時間しきい値として保持するように適応される。

0019

上記システムはさらに、
上記録音データの上記取得された現在のフレームがミュートデータであり、かつ、現在のミュート期間が現在のミュート期間しきい値よりも長いと決定された場合、上記録音を終了するように適応された録音制御ユニットを備える。

0020

上記システムはさらに、
上記録音データを受信して、上記録音データの上記録音開始フレームを決定するように適応された受信ユニットを備える。

0021

上記受信ユニットは、
上記録音データを受信するように適応された受信サブユニットと、
上記録音データの各フレームが上記ミュートデータであるか非ミュートデータであるかを順番に決定して、上記非ミュートデータの最初のフレームを上記録音開始フレームとして使用するように適応された開始フレーム決定サブユニットとを備える。

0022

上述の技術的解決方法の技術的効果の分析は以下の通りである。

0023

テキスト終了点の音響モデルは、録音データの現在のフレームに対応する復号化最適パスの特徴音響モデルと比較される。それらが同一である場合、ユーザは録音テキストを既に読み終えていて、ミュート期間しきい値は、第1の時間しきい値と比較してより短い第2の時間しきい値に更新される。ユーザミュート期間が第2の時間しきい値よりも長い場合、録音は終了する。これによって、従来技術と比較すると、本発明の技術的解決方法は、録音の終了点を識別する効率を改善させて、ユーザが録音の終了の後に待機するために必要とする時間期間を短縮させる。

図面の簡単な説明

0024

本発明の実施形態に係る録音の終了点を検出する方法を示す概略フローチャートである。
本発明の実施形態に係る録音の終了点を検出するもう1つの方法を示す概略フローチャートである。
本発明の実施形態に係るビタビアルゴリズムを示す概略図である。
本発明の実施形態に係る符号化ネットワークの例示的な図である。
本発明の実施形態に係る録音の終了点を検出するシステムを示す構造概略図である。
本発明の実施形態に係る録音の終了点を検出するシステムにおけるユニットの実施例を示す構造概略図である。
本発明の実施形態に係る録音の終了点を検出するシステムにおけるもう1つのユニットの実施例を示す構造概略図である。

実施例

0025

以下において、本発明の実施形態に係る録音の終了点を検出する方法及びシステムの実施例について添付の図面を参照して説明する。

0026

図1は、本発明の実施形態に係る録音の終了点を検出する方法を示す概略フローチャートである。図1に示されるように、本方法は、
ミュート期間しきい値を第1の時間しきい値としてプリセットすることを含む。

0027

本方法はさらに、以下のステップを含む。

0028

ステップ101:録音テキストを取得して、録音テキストのテキスト終了点に対する音響モデルを決定する。

0029

具体的には、録音テキストは、録音している間にユーザが読む必要があるテキストである。本テキストは、中国語英語などの任意の言語のテキストであり、言語はこれらに限定されない。

0030

ステップ102:録音データの録音開始フレームから開始して順番に録音データの各フレームを取得する。

0031

録音データは、録音の処理の間に録音デバイスによって取得された音声データであってもよい。

0032

ステップ103:録音データの取得された現在のフレームに対する復号化最適パスの特徴音響モデルを決定する。

0033

ステップ101及びステップ102から103の実行順序は、それらがステップ104の前に実行される限りは、これに限定されない。

0034

ステップ104:録音データの現在のフレームに対する復号化最適パスの特徴音響モデルが終了点に対する音響モデルと同一であると決定して、ミュート期間しきい値を、第1の時間しきい値よりも小さい第2の時間しきい値に更新する。

0035

図1に示される録音の終了点を検出する方法において、テキスト終了点に対する音響モデルは、復号化最適パスの特徴音響モデルと比較される。それらが同一である場合、ユーザは録音テキストを既に読み終えており、ミュート期間しきい値の値は、第1の時間しきい値よりも短い第2の時間しきい値に更新される。ユーザミュート期間が第2の時間しきい値よりも長い場合、録音は終了する。これによって、従来技術と比較すると、本方法は、録音の終了点を識別する効率を改善させ、ユーザが録音の終了後に待機する必要がある期間を短縮させる。

0036

図1に基づいて、本発明の実施形態に係る録音の終了点を検出する方法について、図2を参照してより詳細に説明する。図2に示されるように、本方法は、
ミュート期間しきい値を第1の時間しきい値として設定することを含む。

0037

ステップ201:録音テキストを取得して、テキスト終了点の音響モデルを決定する。

0038

録音テキストの終了点に対応するテキスト終了点の音響モデルを決定することは、
録音テキストに関する対応復号化ネットワークを発生することと、
復号化ネットワークの最後の音響モデルをテキスト終了点の音響モデルとして決定することとを含んでもよい。

0039

具体的には、構築された復号化ネットワークは、録音テキストの開始点ミュートモデルと、録音テキストにおける各ワード又は各フレーズの音響モデルと、録音テキストの終了点のミュートモデルとを含んでもよい。テキスト終了点の音響モデルは、録音テキストの終了点のミュートモデルであってもよい。

0040

例えば、図4に示されるように、録音テキスト「ハローワールド」に対して、構築された復号化ネットワークは、録音テキストの開始点のミュートモデルSil_Beginと、ワード「はろー」の音響モデルと、ワード「ワールド」の音響モデルと、録音テキストの終了点のミュートモデルSil_Endとを含む。本ミュートモデルSil_Endは、このステップにおいて取得される必要がある。

0041

ステップ202:録音データを受信して、録音データをプリセットバッファに格納する。

0042

ステップ203:録音データの録音開始フレームを決定する。

0043

録音データの録音開始フレームを決定することは、録音データの各フレームがミュートデータであるか非ミュートデータであるかを順番に決定して、非ミュートデータの最初のフレームを録音開始フレームとして使用することを含んでもよい。

0044

録音データがミュートデータであるか非ミュートデータであるかを決定するステップは、VAD(Voice Activity Detection:音声区間検出)方法によって実施されてもよい。例えば、VAD方法によって実施されるミュートデータ又は非ミュートデータの決定方法は、非特許文献1及び非特許文献2において説明されており、その説明は省略される。

0045

録音データの各フレームのための時間区間及びサンプリング窓の長さは、異なる複数の応用環境において異なってもよくこれらに限定されない。例えば、一般に、時間期間(すなわちフレームオフセット)は10msに設定され、また、サンプリング窓の長さは25msに設定されてもよい。

0046

ステップ204:録音開始フレームから開始して順番にバッファから録音データのフレームを取得する。

0047

ステップ205:録音データの取得された現在のフレームを復号化して、録音データのフレームに対応する復号化最適パスの特徴音響モデルを取得する。

0048

具体的には、ステップ205における録音データを復号化することは、
録音データの現在のフレームからプリセット音響モデルに対応するメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)を抽出して、録音データのフレームに対応する復号化最適パスを取得することと、
復号化最適パスの特徴音響モデルを決定することとを含んでもよい。

0049

ステップ201に対応して、復号化最適パスの最後の音響モデルは復号化最適パスの特徴音響モデルとして決定されてもよい。

0050

復号化のために使用されるプリセット音響モデルは、音素ベルにおける単音素(Mono−Phone)モデル、又は文脈依存の三音素(Tri−Phone)モデルであってもよく、さらに、ミュートモデルを含んでもよい。

0051

MFCCの特徴は、録音データに対応する復号化最適パスを取得するように、プリセット音響モデルを使用することによって復号化される。復号化最適パスは、モデルの最尤度又は最大コスト関数を有するパスであってもよい。

0052

復号化を、ビタビアルゴリズム(Viterbi algorithm)などを用いることによって実行してもよい。

0053

例えば、復号化をビタビアルゴリズムによって実行した後、図3に示されるような復号化結果が取得される。本発明の実施形態によれば、復号化最適パスの最後の音響モデルは、最後の瞬間tに対応する音響モデルである。録音データに対応する復号化最適パスの最後の音響モデルが、録音データのフレームに対応する復号化最適パスの特徴音響モデルとして使用されると決定される。

0054

ステップ206:テキスト終了点に対する音響モデルが、録音データのフレームに対する復号化最適パスの特徴音響モデルと同一であるかを決定する。同一の場合、ステップ207に進む。そうでなければ、ステップ208に進む。

0055

ステップ207:ミュート期間しきい値を、第1の時間しきい値よりも小さい第2の時間しきい値に更新する。次いで、ステップ209に進む。

0056

ステップ208:ミュート期間しきい値を第1の時間しきい値として保持する。次いで、ステップ209に進む。

0057

ステップ209:バッファから取得された録音データの現在のフレームがミュートデータであるか非ミュートデータであるかを決定する。現在のフレームがミュートデータである場合、ステップ210に進む。そうでなければ、ステップ204に戻り、バッファから現在のフレームの次のフレームに対する録音データを取得する。

0058

録音データは、バッファからフレームに逐次的に取得される。ステップ209において、録音データの現在のフレームは、バッファから現在取得されかつ処理される必要がある録音データのフレームである。

0059

録音データがミュートデータであるか非ミュートデータであるかを決定するステップはまた、VAD(Voice Activity Detection)方法によって実施されてもよい。例えば、VAD方法によって実施されるミュートデータ又は非ミュートデータの決定方法は、非特許文献1及び非特許文献2に説明されており、その説明は省略される。

0060

ステップ210:現在のミュート期間が現在のミュート期間しきい値よりも長いかを決定する。現在のミュート期間が現在のミュート期間しきい値よりも長い場合、録音を終了する。そうでなければ、ステップ204に戻り、バッファから現在のフレームの次のフレームに対する録音データを取得して、録音データのフレームを録音データの現在のフレームとして使用する。

0061

ステップ209は、ステップ204とステップ210との間で実行される必要があるのみであり、ステップ205から208の実行順序は限定されない。

0062

ステップ210において、現在のミュート期間は、録音データの現在のフレームの前の録音データの連続するいくつかのフレームがミュートデータであるという事実に関連する。具体的には、現在のミュート期間は、以下の公式にしたがって計算される。
現在のミュート期間=(現在のフレームのシリアル番号−現在のフレームの前の非ミュートデータでの最初のフレームに対応するフレームのシリアル番号)*1フレームの長さ

0063

例えば、録音データの(m−1)番目のフレーム及び(m−2)番目のフレームが両方とも非ミュートデータであり、かつ、録音データの(m)番目のフレームから(m+n)番目のフレームが全てミュートデータである場合、録音データの(m)番目のフレームが処理されるときの現在のミュート期間は1フレームの長さである。録音データの(m+1)番目のフレームが処理されるときの現在のミュート期間は2フレームの長さである。…。録音データの(m+n)番目のフレームが処理されるときの現在のミュート期間は(n+1)フレームの長さである。

0064

さらに、ステップ210において、現在のミュート期間しきい値は、複数の異なる瞬間における第1の時間しきい値又は第2の時間しきい値であってもよい。具体的には、特徴音響モデルがテキスト終了点に対する音響モデルと同一である録音データのフレームが存在するとステップ206において決定される前に、現在のミュート期間は常に第1の時間しきい値である。あるフレームに対する復号化最適パスの特徴音響モデルがテキスト終了点の音響モデルと同一であるとステップ206で一旦決定されると、ミュート期間しきい値は、より短い時間長さを有する第2の時間しきい値に更新される。

0065

図2に示される方法において、復号化最適パスの特徴音響モデルがテキスト終了点の音響モデルと異なると常に決定される場合、このことはユーザが録音テキストを読み終えていないことを意味し、このときミュート期間しきい値は第1の時間しきい値である。ユーザが異常な録音を行う(例えば、読んでいるときに間違えが発生する、又は、読むことが途中で終了される)場合であっても録音が自動的に終了できることを確実にするように、ユーザによって保たれるミュート期間が現在のミュート期間しきい値(すなわち、第1の時間しきい値)よりも長い場合にのみ、録音は終了される。復号化最適パスの特徴音響モデルがテキスト終了点の音響モデルと同一であると決定された場合、このことは、ユーザが録音テキストを既に読み終えていることを意味し、このときミュート期間しきい値は第2の時間しきい値に更新され、第2の時間しきい値は、第1の時間しきい値と第2の時間しきい値との間の短い方の時間しきい値である。したがって、ユーザミュート期間が現在のミュート期間しきい値(すなわち、第2の時間しきい値)よりも長くなり次第、録音は終了される。このように、ユーザが録音テキストを通常に読み終える場合において、ユーザの待機期間は単に第2の時間しきい値である。したがって、待機期間は従来技術における第1の時間しきい値に対して短縮され、録音の終了点の識別の効率が改善される。

0066

しかしながら、図2に示される方法において、ステップ206において復号化最適パスの特徴音響モデルがテキスト終了点の音響モデルと同一であると決定された場合、ユーザが録音テキストを読み終えていると判定されるが、ステップ206の決定はまた、ユーザが録音テキストを読み終えていると決定された後に、録音データの後続の複数のフレームのそれぞれに対して続いて実行される。この場合、ステップ206の決定ステップは成功しない。例えば、録音データのN番目のフレームに対する決定結果がステップ206での決定結果と同一である場合、このことは、ユーザが録音データのN番目のフレームにおける録音テキストを既に読み終えていることを意味する。この場合、録音データの(N+1)番目のフレーム及びその後続のいくつかのフレームに対して、ステップ206の決定を実行する必要はない。したがって、実際の応用において、録音の終了点の識別及び処理の効率のさらなる改善を目的として、ステップ205から208よりむしろステップ209から210が録音データの特徴音響モデルがステップ206における最初のときでのテキスト終了点の音響モデルと同一であると決定されたあと、録音データの後続の複数のフレームに対して実行される。すなわち、録音データの取得された現在のフレームがミュートデータであるか否かが決定されるのみであり、ミュート期間は、録音データの取得された現在のフレームがミュートデータである場合に決定される。

0067

録音の終了点を検出する方法に対応して、図5に示されるように、録音の終了点を検出するシステムが、本発明の実施形態に関して提供される。本システムにおいて、ミュート期間しきい値が第1の時間しきい値としてプリセットされる。システムはさらに、
録音テキストを取得して、録音テキストのテキスト終了点に対する音響モデルを決定するように適応された第1の決定ユニット510と、
録音データの録音開始フレームから開始して順番に録音データの各フレームを取得するように適応された第1の取得ユニット520と、
録音データの取得された現在のフレームに対する復号化最適パスの特徴音響モデルを決定するように適応された第2の決定ユニット530と、
録音データの現在のフレームに対する復号化最適パスの特徴音響モデルが終了点に対する音響モデルと同一であると決定された場合、ミュート期間しきい値を、第1の時間しきい値よりも小さい第2の時間しきい値に更新するように適応されたしきい値決定ユニット540とを備える。

0068

好ましくは、しきい値決定ユニット540はさらに、録音データの現在のフレームに対する復号化最適パスの特徴音響モデルが終了点に対する音響モデルと異なると決定された場合に、ミュート期間しきい値を第1の時間しきい値として保持するように適応される。

0069

さらに、図5に示されるように、本システムはさらに、
録音データの取得された現在のフレームがミュートデータであり、かつ、現在のミュート期間が現在のミュート期間しきい値よりも長いと決定された場合に、録音を終了するように適応された録音制御ユニット550を備えてもよい。

0070

好ましくは、図6に示されるように、第1の決定ユニット510は、
録音テキストを取得するように適応された取得サブユニット610と、
録音テキストに関するテキストに対応する復号化ネットワークを構築するように適応されたネットワーク構築サブユニット620と、
復号化ネットワークの最後の音響モデルをテキスト終了点に対する音響モデルとして決定するように適応された第1の特徴決定サブユニット630とを備えてもよい。

0071

好ましくは、図7に示されるように、第2の決定ユニット520は、
録音データの現在のフレームからプリセット音響モデルに対応するMFCCの特徴を抽出して、録音データの現在のフレームに対する復号化最適パスを取得するように適応された抽出サブユニット710と、
録音データの現在のフレームに対する復号化最適パスの最後の音響モデルを復号化最適パスの特徴音響モデルとして決定するように適応された第2の特徴決定サブユニット720とを備えてもよい。

0072

図5に示されるように、システムはさらに、
録音データを受信して、録音データの録音開始フレームを決定するように適応された受信ユニット500を備えてもよい。

0073

好ましくは、受信ユニット500は、
録音データを受信するように適応された受信サブユニットと、
録音データの各フレームがミュートデータであるか非ミュートデータであるかを順番に決定して、非ミュートデータの最初のフレームを録音開始フレームとして使用するように適応された開始フレーム決定サブユニットとを備えてもよい。

0074

録音データが、上述されたようにミュートデータであるか非ミュートデータであるかを決定するステップは、VAD方法によって実施されてもよく、それらの説明は省略される。

0075

図5から図7に示されるような録音の終了点を検出するシステムにおいて、しきい値決定ユニットは、復号化最適パスの特徴音響モデルを、テキスト終了点に対する音響モデルと比較する。それらが同一である場合、そのことは、ユーザが録音テキストを既に読み終えていることを意味し、ミュート期間しきい値は第1の時間しきい値よりも短い第2の時間しきい値に更新される。その場合において、録音制御ユニットが現在のミュート期間が第2の時間しきい値よりも長いと決定する場合、録音は終了する。このように、従来技術と比較すると、本システムは、録音が終了された後のユーザの待機期間が短縮され、録音の終了点の識別に対する効率を改善させ、ユーザの経験を向上させることができる。

0076

本発明の実施形態に係る録音の終了点を検出する方法及びシステムは、発話評価システムのみに応用されなくともよく、既知のテキストが読まれて録音が行われる必要がある他の場合にも応用されてもよい。

0077

上述された実施形態に係る録音の終了点を検出する方法の実施のプロセスは、当業者によって理解される。プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、プログラムは実行されるとき、本方法における対応する複数のステップを実行する。記憶媒体は、ROM/RAM、磁気ディスク光学ディスク等である。

0078

上述されたことは単に本発明の好ましい複数の実施形態である。当業者によれば、本発明のいくつかの実施例及びいくつかの変形例は本発明の原理から逸脱することなく行われることができ、複数の実施例及び複数の変形例は本発明の保護の範囲内にある。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ