図面 (/)

技術 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム

出願人 バイドゥオンラインネットワークテクノロジー(ベイジン)カンパニーリミテッド
発明者 リ、チャオチュウ、ウェイシン
出願日 2018年12月27日 (2年0ヶ月経過) 出願番号 2018-244676
公開日 2019年12月12日 (1年0ヶ月経過) 公開番号 2019-211749
状態 特許登録済
技術分野 音声認識
主要キーワード 区分方式 分離部品 静音状態 訓練過程 訓練モジュール 検出モデル コンピュータ設備 携帯式コンピュータ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年12月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

音声の始点及び終点の検出結果の確度等を向上することができる装置、コンピュータ設備及び記憶媒体を提供する。

解決手段

検出装置において、検出モジュール901及び訓練モジュール902を有する。検出モジュールの分割手段9012は、第1の取得手段9011から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割し、その後、確定手段9013は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて、音声データの始点及び終点を確定する。分割した各音声断片に対して、確定手段9013は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定する。

概要

背景

技術の発展に従って、各々音声インタラクション機能を具備する製品、例えばスマートスピーカボックススマートテレビ、スマート冷蔵庫等が登場している。

音声インタラクションにおいて、非常に重要な点が、音声の始点及び終点を検出することができるものである。

始点を検出する必要性は、真正な音声を抽出できることにあり、例えば、スマートスピーカボックスはずっと待機状態であり、常に環境における音声をモニタリングしており、音声データに関してフレーム毎に音声認識の処理が行われば、システムに多い電力消費するが、音声の始点を検出することによって、システムに人の話がある断片だけを注目させ、ほかの例えばノイズを処理しない。

終点を検出する必要性は、ユーザが要求を話した時、システムが早く反応する必要があるので、遅延があると、ユーザにより「システムの反応が遅い」等の文句を言い、例えば、ユーザが「今日の京の天気」という要求を発した時、ユーザが要求を話した直後にシステムが「今日は北京がっている」等と答えることを希望する、ということにある。

従来の技術において、音声の始点及び終点を検出する様々な方法、例えば信号処理の方法に基づく方法や分類モデルによって検出を行う方法等を提出した。しかし、これらの方法は、いずれも比較的に検出エラーが発生しやすく、例えば始点の誤報や遺漏及び終点の誤報や遺漏等が発生しやすい。

そのうち、始点の誤報は以下のような場合を含む。即ち、ノイズを音声に分類することで、ノイズをバックグラウンド音声認識器伝送し、更にシステムの消費電力が増加し、バックグラウンドがクラウド端に位置すれば、トラフィックも増加する。

始点の遺漏は以下のような場合を含む。即ち、音声の始点が検出されていないので、いずれの音声もバックグラウンドの音声認識器に伝送されなく、このような状況が常に発生し、例えばユーザの話し声が非常に小さいので、ユーザの小声な話しを背景ノイズとして処理し間違って、バックグラウンドの音声認識器がいずれの音声も受信できない。

終点の誤報は以下のような場合を含む。即ち、早く終了し、即ちユーザが話し終わっていないが、終わったと考えされ、このような状況が、ユーザの話しが「始めは勢いがあるが終わりは振るわない」の場合に常に発生し、例えば音がいよいよ小さくなる場合に、又は、ユーザの話しは長い時間のポーズがあり、例えばユーザが「今日の北京の天気」を話した後、大きく息をして、次に「外出して山に登るに適するか」を話す場合に、終点の検出が余りに敏感したら、2つの話しに分けて処理する。

終点の遺漏は以下のような場合を含む。即ち、長時間でも終了しなく、このような状況は環境が比較的に騒々しい場合に常に発生し、ユーザの話しが終わったが、背景ノイズが比較的に強いので終了しなく、結果として、ユーザが「今日、北京の天気がどうですか」を話してから、ずっとシステムの反応を待つ。

誤報及び遺漏のいずれかが発生しても、検出結果の確度が低下してしまう。

概要

音声の始点及び終点の検出結果の確度等を向上することができる装置、コンピュータ設備及び記憶媒体を提供する。検出装置において、検出モジュール901及び訓練モジュール902を有する。検出モジュールの分割手段9012は、第1の取得手段9011から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割し、その後、確定手段9013は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて、音声データの始点及び終点を確定する。分割した各音声断片に対して、確定手段9013は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定する。

目的

本発明は、音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声の始点及び終点検出方法であって、検出待ちの音声データを取得することと、前記音声データを、数が1より多い音声断片に分割することと、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することと、前記音声状態に基づいて、前記音声データの始点及び終点を確定することと、を含む、音声の始点及び終点の検出方法。

請求項2

少なくとも隣接する2つの音声断片の間に重畳が存在する請求項1に記載の音声の始点及び終点の検出方法。

請求項3

前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む請求項1に記載の音声の始点及び終点の検出方法。

請求項4

前記予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することは、前記音声活動検出モデルによって前記音声断片に対して分類を行うことと、前記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって前記音声断片の音声状態を確定することと、を含む請求項1に記載の音声の始点及び終点の検出方法。

請求項5

訓練することによって前記音声活動検出モデルを取得することは、訓練データとする音声データを取得することと、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出することと、抽出された前記サンプル断片に基づいて訓練して前記音声活動検出モデルを取得することと、を含む請求項1に記載の音声の始点及び終点の検出方法。

請求項6

前記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、音声データ毎にそれぞれに前記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得すること、前記ラベリング結果に基づいて、前記音声データからN個の異なる音声状態のサンプル断片を抽出すること、を含む請求項5に記載の音声の始点及び終点の検出方法。

請求項7

前記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む請求項5に記載の音声の始点及び終点の検出方法。

請求項8

前記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出すること、を含み、そのうち、前記始点状態のサンプル断片において、音声の始点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きく、前記終点状態のサンプル断片において、音声の終点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きい請求項7に記載の音声の始点及び終点の検出方法。

請求項9

前記音声状態に基づいて、前記音声データの始点及び終点を確定することは、前記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、前記音声データの始点及び終点を確定することを含む請求項7に記載の音声の始点及び終点の検出方法。

請求項10

音声の始点及び終点の検出装置であって、検出モジュールを含み、前記検出モジュールには、第1の取得手段と、分割手段と、確定手段とを含み、前記第1の取得手段が、検出待ちの音声データを取得するために用いられ、前記分割手段が、前記音声データを、数が1より多い音声断片に分割するために用いられ、前記確定手段が、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、前記音声状態に基づいて前記音声データの始点及び終点を確定するために用いられる音声の始点及び終点の検出装置。

請求項11

少なくとも隣接する2つの音声断片の間に重畳が存在する請求項10に記載の音声の始点及び終点の検出装置。

請求項12

前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む請求項10に記載の音声の始点及び終点の検出装置。

請求項13

前記確定手段は、前記音声活動検出モデルによって前記音声断片に対して分類を行い、前記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって前記音声断片の音声状態を確定するために用いられる請求項10に記載の音声の始点及び終点の検出装置。

請求項14

前記音声の始点及び終点の検出装置には訓練モジュールを更に含み、前記訓練モジュールには、第2の取得手段と、抽出手段と、訓練手段とを含み、前記第2の取得手段が、訓練データとする音声データを取得するために用いられ、前記抽出手段が、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出することに用いられ、前記訓練手段が、抽出されたサンプル断片に基づいて訓練して前記音声活動検出モデルを取得することに用いられる請求項10に記載の音声の始点及び終点の検出装置。

請求項15

前記抽出手段は、更に、音声データ毎にそれぞれに前記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得し、前記ラベリング結果に基づいて、前記音声データからN個の異なる音声状態のサンプル断片を抽出するために用いられる請求項14に記載の音声の始点及び終点の検出装置。

請求項16

前記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む請求項14に記載の音声の始点及び終点の検出装置。

請求項17

前記抽出手段は、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出し、そのうち、前記始点状態のサンプル断片において、音声の始点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きく、前記終点状態のサンプル断片において、音声の終点が前記サンプル断片の前半部分に位置し、且つ前記サンプル断片の始点との距離が予定閾値より大きい請求項16に記載の音声の始点及び終点の検出装置。

請求項18

前記確定手段は、前記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、前記音声データの始点及び終点を確定する請求項16に記載の音声の始点及び終点の検出装置。

請求項19

メモリプロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、前記プロセッサによって前記コンピュータプログラムが実行される時、請求項1〜9のいずれか1項に記載の音声の始点及び終点の検出方法を実現するコンピュータ設備。

請求項20

プロセッサによって実行される時、請求項1〜9のいずれか1項に記載の音声の始点及び終点の検出方法を実現するコンピュータプログラム。

技術分野

0001

本発明は、音声処理技術に関するものであり、特に音声の始点及び終点検出方法、装置、コンピュータ設備及びプログラムに関するものである。

背景技術

0002

技術の発展に従って、各々音声インタラクション機能を具備する製品、例えばスマートスピーカボックススマートテレビ、スマート冷蔵庫等が登場している。

0003

音声インタラクションにおいて、非常に重要な点が、音声の始点及び終点を検出することができるものである。

0004

始点を検出する必要性は、真正な音声を抽出できることにあり、例えば、スマートスピーカボックスはずっと待機状態であり、常に環境における音声をモニタリングしており、音声データに関してフレーム毎に音声認識の処理が行われば、システムに多い電力消費するが、音声の始点を検出することによって、システムに人の話がある断片だけを注目させ、ほかの例えばノイズを処理しない。

0005

終点を検出する必要性は、ユーザが要求を話した時、システムが早く反応する必要があるので、遅延があると、ユーザにより「システムの反応が遅い」等の文句を言い、例えば、ユーザが「今日の京の天気」という要求を発した時、ユーザが要求を話した直後にシステムが「今日は北京がっている」等と答えることを希望する、ということにある。

0006

従来の技術において、音声の始点及び終点を検出する様々な方法、例えば信号処理の方法に基づく方法や分類モデルによって検出を行う方法等を提出した。しかし、これらの方法は、いずれも比較的に検出エラーが発生しやすく、例えば始点の誤報や遺漏及び終点の誤報や遺漏等が発生しやすい。

0007

そのうち、始点の誤報は以下のような場合を含む。即ち、ノイズを音声に分類することで、ノイズをバックグラウンド音声認識器伝送し、更にシステムの消費電力が増加し、バックグラウンドがクラウド端に位置すれば、トラフィックも増加する。

0008

始点の遺漏は以下のような場合を含む。即ち、音声の始点が検出されていないので、いずれの音声もバックグラウンドの音声認識器に伝送されなく、このような状況が常に発生し、例えばユーザの話し声が非常に小さいので、ユーザの小声な話しを背景ノイズとして処理し間違って、バックグラウンドの音声認識器がいずれの音声も受信できない。

0009

終点の誤報は以下のような場合を含む。即ち、早く終了し、即ちユーザが話し終わっていないが、終わったと考えされ、このような状況が、ユーザの話しが「始めは勢いがあるが終わりは振るわない」の場合に常に発生し、例えば音がいよいよ小さくなる場合に、又は、ユーザの話しは長い時間のポーズがあり、例えばユーザが「今日の北京の天気」を話した後、大きく息をして、次に「外出して山に登るに適するか」を話す場合に、終点の検出が余りに敏感したら、2つの話しに分けて処理する。

0010

終点の遺漏は以下のような場合を含む。即ち、長時間でも終了しなく、このような状況は環境が比較的に騒々しい場合に常に発生し、ユーザの話しが終わったが、背景ノイズが比較的に強いので終了しなく、結果として、ユーザが「今日、北京の天気がどうですか」を話してから、ずっとシステムの反応を待つ。

0011

誤報及び遺漏のいずれかが発生しても、検出結果の確度が低下してしまう。

発明が解決しようとする課題

0012

そこで、本発明は、音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラムを提供する。

0013

具体的な技術案は、以下とおりである。

0014

音声の始点及び終点の検出方法であって、検出待ちの音声データを取得すること、上記音声データを、数が1より多い音声断片に分割すること、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定すること、上記音声状態に基づいて、上記音声データの始点及び終点を確定すること、を含む。

0015

本発明の1つの好ましい実施例によると、少なくとも隣接する2つの音声断片の間に重畳が存在する。

0016

本発明の1つの好ましい実施例によると、前記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む。

0017

本発明の1つの好ましい実施例によると、上記予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することは、上記音声活動検出モデルによって上記音声断片に対して分類を行うこと、上記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって上記音声断片の音声状態を確定すること、を含む。

0018

本発明の1つの好ましい実施例によると、訓練することによって上記音声活動検出モデルを取得することは、訓練データとする音声データを取得すること、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出すること、抽出されたサンプル断片に基づいて訓練して上記音声活動検出モデルを取得すること、を含む。

0019

本発明の1つの好ましい実施例によると、上記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、音声データ毎にそれぞれに上記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得すること、上記ラベリング結果に基づいて、上記音声データからN個の異なる音声状態のサンプル断片を抽出すること、を含む。

0020

本発明の1つの好ましい実施例によると、上記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む。

0021

本発明の1つの好ましい実施例によると、上記取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出することは、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出すること、を含み、そのうち、上記始点状態のサンプル断片において、音声の始点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きく、上記終点状態のサンプル断片において、音声の終点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きい。

0022

本発明の1つの好ましい実施例によると、上記音声状態に基づいて、上記音声データの始点及び終点を確定することは、上記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、上記音声データの始点及び終点を確定することを含む。

0023

音声の始点及び終点の検出装置であって、検出モジュールを含み、上記検出モジュールには、第1の取得手段と、分割手段と、確定手段とを含み、上記第1の取得手段が、検出待ちの音声データを取得するために用いられ、上記分割手段が、上記音声データを、数が1より多い音声断片に分割するために用いられ、上記確定手段が、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、上記音声状態に基づいて上記音声データの始点及び終点を確定するために用いられる。

0024

本発明の1つの好ましい実施例によると、少なくとも隣接する2つの音声断片の間に重畳が存在する。

0025

本発明の1つの好ましい実施例によると、上記音声活動検出モデルは、畳み込みニューラルネットワークモデルを含む。

0026

本発明の1つの好ましい実施例によると、上記確定手段は、上記音声活動検出モデルによって上記音声断片に対して分類を行い、上記音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって上記音声断片の音声状態を確定するために用いられる。

0027

本発明の1つの好ましい実施例によると、上記音声の始点及び終点の検出装置には訓練モジュールを更に含み、上記訓練モジュールには、第2の取得手段と、抽出手段と、訓練手段とを含み、上記第2の取得手段が、訓練データとする音声データを取得するために用いられ、上記抽出手段が、取得された音声データ毎からN(Nが1以上の正の整数である)個の異なる音声状態のサンプル断片をそれぞれに抽出することに用いられ、上記訓練手段が、抽出されたサンプル断片に基づいて訓練して上記音声活動検出モデルを取得することに用いられる。

0028

本発明の1つの好ましい実施例によると、上記抽出手段は、更に、音声データ毎にそれぞれに上記音声データの音声フレーム及び非音声フレームに関するラベリング結果を取得し、上記ラベリング結果に基づいて、上記音声データからN個の異なる音声状態のサンプル断片を抽出するために用いられる。

0029

本発明の1つの好ましい実施例によると、上記音声状態は、静音状態、始点状態、音声保持状態及び終点状態を含む。

0030

本発明の1つの好ましい実施例によると、上記抽出手段は、取得された音声データ毎からランダムにN個の異なる音声状態のサンプル断片をそれぞれに抽出し、そのうち、上記始点状態のサンプル断片において、音声の始点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きく、上記終点状態のサンプル断片において、音声の終点が上記サンプル断片の前半部分に位置し、且つ上記サンプル断片の始点との距離が予定閾値より大きい。

0031

本発明の1つの好ましい実施例によると、上記確定手段は、上記音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、上記音声データの始点及び終点を確定する。

0032

メモリプロセッサ及び上記メモリに記憶され上記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、上記プロセッサによって上記コンピュータプログラムが実行される時、上記音声の始点及び終点の検出方法を実現する。

0033

コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、上記プログラムがプロセッサによって実行される時、上記音声の始点及び終点の検出方法を実現する。

0034

上記説明から分かるように、本発明に係る技術案を採用すれば、検出待ちの音声データを取得した後、まず音声データを複数の音声断片に分割し、その後、予めに訓練した音声活動検出モデルに基づいて、それぞれに各音声断片の音声状態を確定することができ、更に音声状態に基づいて音声データの始点及び終点を確定することができ、従来の技術に比べて、本発明の上記技術案において断片レベルの分類及び深層学習モデル等を結合して始点及び終点の検出を行うことで、検出結果の確度を向上した。

図面の簡単な説明

0035

本発明に係る音声の始点及び終点の検出方法の実施例のフローチャートである。
既存の1つの音声データのスペクトログラム図である。
本発明に係る各状態の模式図である。
本発明に係る静音状態のサンプル断片の抽出方式の模式図である。
本発明に係る始点状態のサンプル断片の抽出方式の模式図である。
本発明に係る音声保持状態のサンプル断片の抽出方式の模式図である。
本発明に係る終点状態のサンプル断片の抽出方式の模式図である。
本発明に係る抽出された4つのサンプル断片の模式図である。
本発明に係る音声の始点及び終点の検出装置の実施例の構成模式図である。
本発明の実施形態を実現することに適する、例示的なコンピュータシステムサーバ12のブロック図を示す。

実施例

0036

本発明の技術案をより明確で簡潔させるために、以下、図面を参照して実施例を挙げて、本発明に係る技術案を詳しく説明する。

0037

明らかに、ここで記載された実施例は本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。

0038

図1は、本発明に係る音声の始点及び終点の検出方法の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。

0039

101において、検出待ちの音声データを取得する。

0040

102において、音声データを、数が1より多い音声断片に分割する。

0041

103において、予めに訓練した音声活動検出(VAD,Voice Activity Detection)モデルに基づいて、各音声断片の音声状態をそれぞれに確定する。

0042

104において、音声状態に基づいて、音声データの始点及び終点を確定する。

0043

1つの音声データにおいて、一般、以下のような4つの状態を含む。
ノイズを含む可能性があるものである静音、
ユーザが話し始めるものである音声の始点、
ユーザが話しており、微弱なポーズを含む可能性があるものである音声の保持、
ユーザの話しが終了したものである音声の終点。

0044

図2は、既存の1つの音声データのスペクトログラム図である。図3は、本発明に係る各状態の模式図である。図3に示したように、図2に示すスペクトログラム図に対して、1でユーザの話しがあることを表し、0でユーザの話しがないことを表し、A、B、C、Dは、それぞれに静音、音声の始点、音声の保持及び音声の終点等の状態を表す。

0045

図1に示すフローを実現するために、まずモデル訓練を行い、即ち、訓練して音声活動検出モデルを取得する必要がある。訓練過程とは、訓練データを整理し抽象することによって、訓練集合収束する1つのモデルを訓練することである。その後、訓練したモデルを実際的な応用に用いて音声の始点及び終点を検出することができる。

0046

図3に示すように、一般に、1条の音声データにおいて、静音状態A及び音声保持状態Cの続き時間がより長く、始点状態B及び終点状態Dが1つだけであるので、1条の音声データ全体を使用して訓練すれば、B及びDという2つの状態にとっては非常に不利であり、それらによって発生したコストが、A及びCの状態にカーバされる可能性が高いので、本実施例において、断片レベルの分類を採用し、それを基礎として訓練及び検出を行う。

0047

そのうち、訓練して音声活動検出モデルを取得するために、まず訓練データとする音声データを取得した後に、取得された毎音声データからN個の異なる音声状態のサンプル断片をそれぞれに抽出し、更に抽出されたサンプル断片に基づいて訓練して音声活動検出モデルを得ることができ、Nが1より大きい正の整数である。

0048

Nの具体的な値が、実際的な必要に応じて確定することができ、好ましく、上記記載のようにNの値を4とすることができ、4つの音声状態はそれぞれ静音状態、始点状態、音声保持状態及び終点状態である。

0049

例えば、10,000条の音声データを取得することができ、1条の音声データが約数秒の長さである。音声データ毎に、まず、音声データの音声フレーム及び非音声フレームに関するラベリング結果をそれぞれに取得することができる。人工的にラベリングする方式を採用してラベリング結果を獲得してもよく、音声認識における機械強制アライメントという方式を採用してラベリング結果を獲得してもよく、音声フレームであれば1とラベリングし、非音声フレームであれば0とラベリングすることができる。

0050

その後、ラベリング結果に基づいて、毎音声データから4つの異なる音声状態のサンプル断片をそれぞれに抽出することができ、具体的な抽出方式は、以下とおりである。

0051

1)静音状態のサンプル断片
図4は、本発明に係る静音状態のサンプル断片の抽出方式の模式図である。図4に示すように、音声データからランダムに1段の静音断片を抽出して、静音状態のサンプル断片とすることができ、サンプル断片は、0とラベリングられたフレームからなる。

0052

2)始点状態のサンプル断片
図5は、本発明に係る始点状態のサンプル断片の抽出方式の模式図である。図5に示すように、音声データからランダムに1段の音声の始点を含む断片を抽出して、始点状態のサンプル断片とすることができ、サンプル断片は、0及び1とラベリングされたフレームからなる。

0053

好ましく、音声の始点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい、即ち音声の始点はサンプル断片の前半部分に位置する必要があるが、あまり先に位置することではなく、例えば、0.25〜0.5という範囲に位置することができ、0.25がサンプル断片の長さの1/4の位置を表し、0.5がサンプル断片の長さの1/2の位置を表す。

0054

実験で分かるように、上記方式に従って取得されたサンプル断片の方が、より後続のモデル訓練に適し、モデル訓練の効果を更に向上することができる。

0055

3)音声保持状態のサンプル断片
図6は、本発明に係る音声保持状態のサンプル断片の抽出方式の模式図である。図6に示すように、音声データからランダムに1段の音声断片を抽出して、音声保持状態のサンプル断片とすることができ、サンプル断片は、1とラベリングされたフレームからなる。

0056

4)終点状態のサンプル断片
図7は、本発明に係る終点状態のサンプル断片の抽出方式の模式図である。図7に示すように、音声データからランダムに1段の音声の終点を含む断片を抽出して、終点状態のサンプル断片とすることができ、サンプル断片は、0及び1とラベリングされたフレームからなる。

0057

好ましく、音声の終点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい、即ち音声の終点はサンプル断片の前半部分に位置する必要があるが、あまり先に位置することではなく、例えば、0.25〜0.5という範囲に位置することができ、0.25がサンプル断片の長さの1/4の位置を表し、0.5がサンプル断片の長さの1/2の位置を表す。

0058

図8は、本発明に係る抽出された4つのサンプル断片の模式図である。図8に示すように、抽出された各サンプル断片を纏めて、4つのサンプル断片を得ることができ、それぞれに静音状態のサンプル断片、始点状態のサンプル断片、音声保持状態のサンプル断片及び終点状態のサンプル断片である。

0059

このように、音声データ毎に、4つのサンプル断片をそれぞれに取得することができ、更に、サンプル断片毎に、1つの訓練pair{x,y}をそれぞれに生成することができ、そのうち、xが特徴であり、yがラベル(label)、即ち音声状態(分類結果)である。

0060

上記特徴及び各サンプル断片の長さ等は、いずれも実際的な必要に応じて確定することができ、各サンプル断片の長さが同じでもよい。

0061

例えば、フレーム長さが25ms、フレームシャフトが10ms、メルフィルタバンク(mel filterbank)が64次元であるという特徴を採用することができ、もちろん、フレーム長、フレームシャフトが他の値でもよく、特徴は、他の音響特徴、例えばメル周波数ケプストラム係数MFCC,Mel−frequency Cepstrum Coefficients)、知覚線形予測係数PLP,Perceptual Linear Predictive)等で代替してもよい。また、context=32を採用しておよく、更に大きくなってもよく、原則では、大きいほど正確であるが、時間上の遅延を齎す。

0062

すべての音声データを処理した後、全体の訓練pairを取得することができ、全体の訓練pairに基づいて訓練して音声活動検出モデルを取得することができる。

0063

深層ニューラルネットワークを音声活動検出モデルとして採用することができ、好ましく、畳み込みニューラルネットワーク(CNN,Convolutional Neural Network)モデルを採用することができる。ネットワークは、複数の層のcnnの積層からなり、出力層が4つのノードであり、softmaxがアクティブとし、交差エントロピーコスト関数として採用する。どのように訓練を行うことは、従来の技術である。

0064

音声活動検出モデルの訓練を完成した後、該モデルによって実際的に音声の始点及び終点の検出を行うことができる。

0065

具体的に、検出待ちの音声データを取得した後、まず音声データを複数の音声断片に分割し、その後、音声活動検出モデルに基づいて各音声断片の音声状態をそれぞれに確定し、更に音声状態に基づいて音声データの始点及び終点を確定することができる。

0066

検出待ちの音声データを、重畳がある幾つかの音声断片に分割することができ、即ち少なくとも隣接している2つの音声断片の間に重畳が存在する。例えば、32フレーム毎に1つの音声断片とし、8フレームおきに1つのこのような音声断片を取得することができ、即ち第1〜32のフレームを1つの音声断片とし、第9〜40のフレームを1つの音声断片とし、このように類推する。

0067

分割した各音声断片に対して、それぞれに音声活動検出モデルによって音声断片に対して分類し、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができる。

0068

具体的に、音声断片の特徴を取得し、取得された特徴を4つの状態の音声活動検出モデルへ入力して分類を行い、確率出力hを取得し、その後、確率出力hに基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができ、上記ビタビ復号アルゴリズムは標準的なビタビ復号アルゴリズムであり、具体な実現が従来の技術である。

0069

正常な1つの音声データについては、順次、静音状態−始点状態−音声保持状態−終点状態という階段を通過し、各状態のジャンプは必ず連続である。

0070

相応に、音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、音声データの始点及び終点を確定し、例えば第1の始点状態の音声断片と第1の終点状態の音声断片及び両者の間の音声データを本当の音声として抽出し、音声認識等の後続処理を行うことができる。

0071

注意すべきことは、上記方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序でまたは同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例だけであり、係る動作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。

0072

要するに、上記方法の実施例に係る技術案において、断片レベルの分類及び深層学習モデル等を結合して始点及び終点の検出を行うことで、検出結果の確度等を向上した。

0073

以上は方法の実施例に関する説明であり、以下、装置の実施例によって、本発明に係る技術案を更に説明する。

0074

図9は、本発明に係る音声の始点及び終点の検出装置の実施例の構成模式図である。図9に示すように、検出モジュール901を含み、該検出モジュール901は、具体的に、第1の取得手段9011、分割手段9012及び確定手段9013を含むことができる。

0075

第1の取得手段9011は、検出待ちの音声データを取得するために用いられる。

0076

分割手段9012は、音声データを、数が1より多い音声断片に分割するために用いられる。

0077

確定手段9013は、予めに訓練した音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定し、音声状態に基づいて音声データの始点及び終点を確定するために用いられる。

0078

上記操作を実現するために、まずモデル訓練を行い、即ち、訓練して音声活動検出モデルを取得する必要がある。相応に、図9に示す装置において、訓練モジュール902を更に含む。該訓練モジュール902は、具体的に、第2の取得手段9021、抽出手段9022及び訓練手段9023を含むことができる。

0079

第2の取得手段9021は、訓練データとする音声データを取得するために用いられる。

0080

抽出手段9022は、取得された音声データ毎からN個の異なる音声状態のサンプル断片をそれぞれに抽出するために用いられし、Nが1より大きい正の整数である。

0081

訓練手段9023は、抽出されたサンプル断片に基づいて訓練して音声活動検出モデルを得るために用いられる。

0082

Nの具体的な値が、実際的な必要に応じて確定することができ、好ましく、Nの値を4とすることができ、4つの音声状態はそれぞれ静音状態、始点状態、音声保持状態及び終点状態であることができる。

0083

例えば、第2の取得手段9021は、10,000条の音声データを取得することができ、1条の音声データが約数秒の長さである。音声データ毎に、抽出手段9022は、まず、音声データの音声フレーム及び非音声フレームに関するラベリング結果をそれぞれに取得することができ、例えば、音声フレームであれば1とラベリングし、非音声フレームであれば0とラベリングすることができ、その後、ラベリング結果に基づいて、音声データから4つの異なる音声状態のサンプル断片を抽出することができる。

0084

抽出手段9022は、取得された音声データ毎からランダムに4つの異なる音声状態のサンプル断片、即ち静音状態のサンプル断片、始点状態のサンプル断片、音声保持状態のサンプル断片及び終点状態のサンプル断片をそれぞれに抽出することができる。

0085

そのうち、始点状態のサンプル断片において、音声の始点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい。終点状態のサンプル断片において、音声の終点はサンプル断片の前半部分に位置し、且つサンプル断片の始点との距離が予定閾値より大きい。

0086

このようにして、音声データ毎に、4つのサンプル断片をそれぞれに取得することができ、更に、訓練手段9023は、サンプル断片毎に、それぞれに1つの訓練pair{x,y}を生成することができ、そのうち、xが特徴であり、yがlabel、即ち音声状態(分類結果)であり、すべての音声データを処理した後、全体の訓練pairを取得することができ、更に全体の訓練pairに基づいて訓練して音声活動検出モデルを得ることができる。

0087

深層ニューラルネットワークを音声活動検出モデルとして採用することができ、好ましく、畳み込みニューラルネットワークモデルを採用することができる。

0088

音声活動検出モデルの訓練を完成した後、該モデルによって実際的に音声の始点及び終点の検出を行うことができる。

0089

分割手段9012は、第1の取得手段9011から検出待ちの音声データを取得した後、音声データを複数の音声断片に分割することができ、その後、確定手段9013は、音声活動検出モデルに基づいて、各音声断片の音声状態をそれぞれに確定することができ、更に音声状態に基づいて、音声データの始点及び終点を確定することができる。

0090

分割手段9012は、検出待ちの音声データを重畳がある幾つかの音声断片に分割することができ、即ち少なくとも隣接する2つの音声断片の間に重畳が存在する。例えば、32フレーム毎に1つの音声断片とし、8フレームおきに1つのこのような音声断片を取得することができる。

0091

分割した各音声断片に対して、確定手段9013は、音声活動検出モデルによって音声断片に対して分類を行い、音声活動検出モデルの出力に基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができる。

0092

具体的に、音声断片の特徴を取得し、取得された特徴を4つの状態の音声活動検出モデルへ入力して分類を行い、確率出力hを得ることができ、その後、確率出力hに基づいて、ビタビ復号アルゴリズムによって音声断片の音声状態を確定することができ、上記ビタビ復号アルゴリズムは標準なビタビ復号アルゴリズムであり、具体な実現が従来の技術である。

0093

更に、確定手段9013は、音声データにおける第1の始点状態の音声断片及び第1の終点状態の音声断片に基づいて、音声データの始点及び終点を確定し、例えば第1の始点状態の音声断片と第1の終点状態の音声断片及び両者の間の音声データを本当な音声として抽出し、音声認識等の後続処理を行うことができる。

0094

図9に示すように、装置の実施例の具体的なワークフローは、上記方法の実施例における相応説明を参照することができ、ここで贅言しない。

0095

図10は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12のブロック図を示す。図10に示すコンピュータシステム/サーバ12は、1つの例だけであり、本発明の実施例の機能及び使用範囲を制限するものではない。

0096

図10に示すように、コンピュータシステム/サーバ12は、汎用演算設備の形態で表現される。コンピュータシステム/サーバ12の構成要素は、1つ又は複数のプロセッサ16(処理手段)と、メモリ28と、異なるシステム構成要素(メモリ28とプロセッサ16とを含む)を接続するためのバス18を含んでいるが、これに限定されない。

0097

バス18は、複数種類バス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ周辺バスグラフィック加速ポート、プロセッサ又は複数種類のバス構成でのいずれかのバス構成を使用したローカルバスを含む。例えば、それらの架構は、工業標準架構(IS)バス、マイクロチャンネル架構(MC)バス、増強型ISバス、ビデオ電子規格協会(VES)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。

0098

コンピュータシステム/サーバ12には、典型的には複数のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータシステム/サーバ12にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

0099

メモリ28は、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30及び/又はキャッシュメモリ32を含むことができる。コンピュータシステム/サーバ12は、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例だけとして、ストレジ34は、移動不可能な不揮発性磁媒体を読み書くために用いられる(図10に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図10に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれに1つ又は複数のデータ媒体インターフェースによってバス18に接続される。メモリ28には少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。

0100

1組の(少なくとも1つの)プログラムモジュール42を含むプログラム/実用ツール40は、例えばメモリ28に記憶され、このようなプログラムモジュール42には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示における1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42は、常に本発明に記載されている実施例における機能及び/或いは方法を実行する。

0101

コンピュータシステム/サーバ12は、1つ又は複数の周辺設備14(例えばキーボードポインティングデバイスディスプレイ24等)と通信を行ってもよく、ユーザと該コンピュータシステム/サーバ12とのインタラクティブを実現することができる1つ又は複数の設備と通信を行ってもよく、及び/又は該コンピュータシステム/サーバ12と1つ又は複数の他の演算設備との通信を実現することができるいずれの設備(例えばネットワークカードモデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22によって行うことができる。そして、コンピュータシステム/サーバ12は、ネットワークアダプタ20によって1つ又は複数のネットワーク(例えばローカルエリアネットワーク(LAN)、広域ネットワークWAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図10に示すように、ネットワークアダプタ20は、バス18によってコンピュータシステム/サーバ12の他のモジュールと通信を行う。もちろん、図に示していないが、コンピュータシステム/サーバ12と連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイRIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

0102

プロセッサ16は、メモリ28に記憶したプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図1に示す実施例における方法を実現する。

0103

本発明は、コンピュータプログラムを記憶したコンピュータ読取り可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図1に示す実施例における方法を実現する。

0104

本実施例のコンピュータ読取り可能な媒体は、1つ又は複数のコンピューター読取り可能な媒体の任意な組合を採用しても良い。コンピューター読取り可能な媒体は、コンピューター読取り可能な信号媒体又はコンピューター読取り可能な記憶媒体である。コンピューター読取り可能な記憶媒体は、例えば、電気磁気、光、電磁気赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピューター読取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤを具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピューター読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。

0105

コンピューター読取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピューター読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピューター読取り可能な信号媒体は、コンピューター読取り可能な記憶媒体以外の任意なコンピューター読取り可能な媒体であってもよく、該コンピューター読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

0106

コンピューター読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線電線光ケーブル、RF等又は上記ものの任意で適当な組合が含まれているが、これに限定されない。

0107

1つ又は複数のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコード編集することができ、上記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。

0108

本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述の装置に関する実施形態は例示だけであり、例えば、上記手段の区分ロジック機能上の区分だけであり、実際的に実現する時、他の区分方式であってもよい。

0109

上記分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセル分布されても良い。実際な必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することができる。

0110

また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。

0111

上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピューター読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。上記記憶媒体は、USBメモリリムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる媒体を含む。

0112

以上の説明は、本発明の好ましい実施例だけであり、本発明を限定するものではなく、本発明の主旨及び原則内で実行したいずれの修正、等価置換、改良なども、すべて本発明の保護する範囲に属すべきである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ