図面 (/)

技術 音声信号を検出するための方法および装置

出願人 華為技術有限公司
発明者 王ジー
出願日 2014年12月1日 (6年9ヶ月経過) 出願番号 2016-556770
公開日 2017年4月27日 (4年4ヶ月経過) 公開番号 2017-511901
状態 特許登録済
技術分野 音声の分析・合成 音声認識
主要キーワード 設計制約条件 アクティブ音声 実施方式 サンプルフレーム 復号プロセッサ 動作プロセス 零交差 エネルギー比
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年4月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題・解決手段

本発明の実施形態は音声信号を検出するための方法および装置を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。本発明の実施形態で提供される方法および装置によると、アクティブ音声非アクティブ音声とが正確に区別されることができる。

概要

背景

音声区間検出(Voice Activity Detection, VAD)は、音声通信およびマンマシンインタラクション等の分野において広く使用されている重要な技術である。VADはまた、音区間検出(Sound Activity Detection, SAD)とも呼ばれることができる。VADは、入力音声信号内にアクティブ信号があるかどうかを検出するために使用され、ここで、アクティブ信号は、非アクティブ信号と相対する(環境背景雑音ミュート音声等)。典型的なアクティブ信号は、音声、音楽等を含む。VADの原理は、1つ以上の特徴パラメータが入力音声信号から抽出され、1つ以上の特徴値が1つ以上の特徴パラメータに従って決定され、そして1つ以上の特徴値が1つ以上の閾値と比較されることである。

従来技術では、分節信号対雑音比(Segmental Signal-to-Noise Ratio,SSNR)に基づくアクティブ信号検出方法は、入力音声信号を周波数帯上の複数のサブバンド信号に分割し、各サブバンド上の音声信号エネルギーを計算し、各サブバンド上の音声信号の信号対雑音比(Signal-to-Noise Ratio, SNR)を取得するために、各サブバンド上の音声信号のエネルギーを、各サブバンド上の背景雑音信号推定されたエネルギーと比較するステップと、そしてその後、各サブバンドのサブバンドSNRに従って、SSNRを決定し、SSNRを事前に設定されたVAD決定閾値と比較するステップと含み、ここで、SSNRがVAD決定閾値を超えた場合、音声信号はアクティブ信号であり、または、SSNRがVAD決定閾値を超えない場合、音声信号は非アクティブ信号である。

SSNRを計算するための典型的な方法は、音声信号の全てのサブバンドSNRを合計することであり、得られた結果がSSNRである。例えば、SSNRは、式1.1:

を使用することによって決定されてよく、ここで、kはk番目のサブバンドを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、Nは音声信号がそれらに分割されるサブバンドの合計サブバンド数を示す。

SSNRを計算するための前述の方法がアクティブ音声を検出するために使用されるとき、アクティブ音声の誤検出が生じ得る。

概要

本発明の実施形態は音声信号を検出するための方法および装置を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。本発明の実施形態で提供される方法および装置によると、アクティブ音声と非アクティブ音声とが正確に区別されることができる。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声信号を検出するための方法であって、前記方法は、入力音声信号を決定されるべき音声信号として決定するステップと、前記音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、前記強化されたSSNRは基準SSNRよりも大きい、ステップと、前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップとを含む、方法。

請求項2

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号のサブバンド信号雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項1に記載の方法。

請求項3

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項2に記載の方法。

請求項4

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項2に記載の方法。

請求項5

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項2に記載の方法。

請求項6

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項1に記載の方法。

請求項7

前記音声信号の強化された分節信号対雑音比SSNRを決定する前記ステップは、前記音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、そのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、前記強化されたSSNRを決定するステップとを含む、請求項3または4に記載の方法。

請求項8

前記音声信号の強化された分節信号対雑音比SSNRを決定する前記ステップは、前記音声信号の基準SSNRを決定するステップと、前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定するステップとを含む、請求項1乃至6のいずれか1項に記載の方法。

請求項9

前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定する前記ステップは、以下の式:SSNR’=x*SSNR+yを使用することによって前記強化されたSSNRを決定するステップであって、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、xおよびyは強化パラメータを示す、ステップを含む、請求項8に記載の方法。

請求項10

前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定する前記ステップは、以下の式:SSNR’=f(x)*SSNR+h(y)を使用することによって前記強化されたSSNRを決定するステップであって、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、ステップを含む、請求項8に記載の方法。

請求項11

前記強化されたSSNRを音声区間検出VAD決定閾値と比較する前記ステップの前に、前記方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して前記VAD決定閾値を低減するステップをさらに含み、前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定する前記ステップは、具体的には、前記強化されたSSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップを含む、請求項1乃至10のいずれか1項に記載の方法。

請求項12

音声信号を検出するための方法であって、前記方法は、入力音声信号を決定されるべき音声信号として決定するステップと、前記音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定するステップであって、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、強化された分節信号対雑音比SSNRを決定するステップであって、前記強化されたSSNRは基準SSNRよりも大きい、ステップと、前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップとを含む、方法。

請求項13

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号のサブバンドSNRに従って、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項12に記載の方法。

請求項14

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項13に記載の方法。

請求項15

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項13に記載の方法。

請求項16

音声信号を検出するための方法であって、前記方法は、入力音声信号を決定されるべき音声信号として決定するステップと、前記音声信号の基準分節信号対雑音比SSNRを取得するステップと、低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するステップと、前記基準SSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するステップとを含む、方法。

請求項17

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項16に記載の方法。

請求項18

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項17に記載の方法。

請求項19

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項17に記載の方法。

請求項20

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項17に記載の方法。

請求項21

入力音声信号を決定されるべき音声信号として決定する前記ステップは、前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するステップを含む、請求項16に記載の方法。

請求項22

装置であって、前記装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、前記音声信号の強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、前記強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む、装置。

請求項23

前記第1決定ユニットは、具体的には、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項22に記載の装置。

請求項24

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項23に記載の装置。

請求項25

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項23に記載の装置。

請求項26

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項23に記載の装置。

請求項27

前記第1決定ユニットは、具体的には、前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項22に記載の装置。

請求項28

前記第2決定ユニットは、具体的には、前記音声信号における各サブバンドのサブバンドSNRの重みを決定し、前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、前記強化されたSSNRを決定するように構成され、そのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、請求項24または25に記載の装置。

請求項29

前記第2決定ユニットは、具体的には、前記音声信号の基準SSNRを決定し、前記音声信号の前記基準SSNRに従って、前記強化されたSSNRを決定するように構成される、請求項22乃至27のいずれか1項に記載の装置。

請求項30

前記第2決定ユニットは、具体的には、以下の式:SSNR’=x*SSNR+yを使用することによって前記強化されたSSNRを決定するように構成され、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、xおよびyは強化パラメータを示す、請求項29に記載の装置。

請求項31

前記第2決定ユニットは、具体的には、以下の式:SSNR’=f(x)*SSNR+h(y)を使用することによって前記強化されたSSNRを決定するように構成され、SSNRは前記基準SSNRを示し、SSNR’は前記強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、請求項29に記載の装置。

請求項32

前記装置は第4決定ユニットをさらに含み、前記第4決定ユニットは、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して前記VAD決定閾値を低減するように構成され、前記第3決定ユニットは、具体的には、前記強化されたSSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される、請求項22乃至31のいずれか1項に記載の装置。

請求項33

装置であって、前記装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、前記音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、前記音声信号内の各サブバンドの前記サブバンドSNRおよび各サブバンドの前記サブバンドSNRの前記重みに従って、強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、前記強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、前記強化されたSSNRを音声区間検出VAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む、装置。

請求項34

前記第1決定ユニットは、具体的には、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項33に記載の装置。

請求項35

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンド信号対雑音比SNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項34に記載の装置。

請求項36

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが前記第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項34に記載の装置。

請求項37

装置であって、前記装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、前記音声信号の基準分節信号対雑音比SSNRを取得するように構成される第2決定ユニットと、低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される第3決定ユニットと、前記基準SSNRを前記低減されたVAD決定閾値と比較して、前記音声信号がアクティブ信号であるかどうかを決定するように構成される第4決定ユニットとを含む、装置。

請求項38

前記第1決定ユニットは、具体的には、前記音声信号のサブバンド信号対雑音比SNRに従って、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項37に記載の装置。

請求項39

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項38に記載の装置。

請求項40

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、前記音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項38に記載の装置。

請求項41

前記第1決定ユニットは、具体的には、前記音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項38に記載の装置。

請求項42

前記第1決定ユニットは、具体的には、前記音声信号が無声信号であると決定された場合に、前記音声信号を決定されるべき音声信号として決定するように構成される、請求項37に記載の装置。

技術分野

0001

本願は、2014年3月12日に中国特許に出願された、“METHODFOR DETECTING AUDIO SIGNALANDAPPARATUS”と題する中国特許出願番号201410090386.Xに対して優先権を主張し、その全体が参照によって本明細書に組み込まれる。

0002

本発明の実施形態は信号処理技術の分野に関し、より具体的には、音声信号を検出するための方法および装置に関する。

背景技術

0003

音声区間検出(Voice Activity Detection, VAD)は、音声通信およびマンマシンインタラクション等の分野において広く使用されている重要な技術である。VADはまた、音区間検出(Sound Activity Detection, SAD)とも呼ばれることができる。VADは、入力音声信号内にアクティブ信号があるかどうかを検出するために使用され、ここで、アクティブ信号は、非アクティブ信号と相対する(環境背景雑音ミュート音声等)。典型的なアクティブ信号は、音声、音楽等を含む。VADの原理は、1つ以上の特徴パラメータが入力音声信号から抽出され、1つ以上の特徴値が1つ以上の特徴パラメータに従って決定され、そして1つ以上の特徴値が1つ以上の閾値と比較されることである。

0004

従来技術では、分節信号対雑音比(Segmental Signal-to-Noise Ratio,SSNR)に基づくアクティブ信号検出方法は、入力音声信号を周波数帯上の複数のサブバンド信号に分割し、各サブバンド上の音声信号のエネルギーを計算し、各サブバンド上の音声信号の信号対雑音比(Signal-to-Noise Ratio, SNR)を取得するために、各サブバンド上の音声信号のエネルギーを、各サブバンド上の背景雑音信号推定されたエネルギーと比較するステップと、そしてその後、各サブバンドのサブバンドSNRに従って、SSNRを決定し、SSNRを事前に設定されたVAD決定閾値と比較するステップと含み、ここで、SSNRがVAD決定閾値を超えた場合、音声信号はアクティブ信号であり、または、SSNRがVAD決定閾値を超えない場合、音声信号は非アクティブ信号である。

0005

SSNRを計算するための典型的な方法は、音声信号の全てのサブバンドSNRを合計することであり、得られた結果がSSNRである。例えば、SSNRは、式1.1:

0006

0007

を使用することによって決定されてよく、ここで、kはk番目のサブバンドを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、Nは音声信号がそれらに分割されるサブバンドの合計サブバンド数を示す。

0008

SSNRを計算するための前述の方法がアクティブ音声を検出するために使用されるとき、アクティブ音声の誤検出が生じ得る。

課題を解決するための手段

0009

本発明の実施形態は、音声信号を検出するための方法および装置を提供し、これらは、アクティブ音声と非アクティブ音声とを正確に区別することができる。

0010

第1の態様によると、本発明の実施形態は、音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。

0011

第1の態様を参照すると、第1の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。

0012

第1の態様の第1の可能な実施方式を参照すると、第1の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0013

第1の態様の第1の可能な実施方式を参照すると、第1の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0014

第1の態様の第1の可能な実施方式を参照すると、第1の態様の第4の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0015

第1の態様を参照すると、第1の態様の第5の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0016

第1の態様の第2の可能な実施方式または第3の可能な実施方式を参照すると、第1の態様の第6の可能な実施方式では、音声信号の強化された分節信号対雑音比SSNRを決定するステップは、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップとを含む。

0017

第1の態様または第1の態様の第1の可能な実施方式乃至第1の態様の第5の可能な実施方式のうちの任意の可能な実施方式を参照すると、第1の態様の第7の可能な実施方式では、音声信号の強化された分節信号対雑音比SSNRを決定するステップは、音声信号の基準SSNRを決定するステップと、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップとを含む。

0018

第1の態様の第7の可能な実施方式を参照すると、第1の態様の第8の可能な実施方式では、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップは、以下の式:
SSNR’=x*SSNR+y
を使用することによって強化されたSSNRを決定するステップであって、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す、ステップを含む。

0019

第1の態様の第7の可能な実施方式を参照すると、第1の態様の第9の可能な実施方式では、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップは、以下の式:
SSNR’=f(x)*SSNR+h(y)
を使用することによって強化されたSSNRを決定するステップであって、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す、ステップを含む。

0020

第1の態様または第1の態様の前述の可能な実施方式のうちのいずれか1つを参照すると、第1の態様の第10の可能な実施方式では、強化されたSSNRを音声区間検出VAD決定閾値と比較するステップの前に、方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するステップをさらに含み、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップを含む。

0021

第2の態様によると、本発明の実施形態は音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい、ステップと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。

0022

第2の態様を参照すると、第2の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。

0023

第2の態様の第1の可能な実施方式を参照すると、第2の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0024

第2の態様の第1の可能な実施方式を参照すると、第2の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0025

第3の態様によると、本発明の実施形態は音声信号を検出するための方法を提供し、ここで、方法は、入力音声信号を決定されるべき音声信号として決定するステップと、音声信号の基準分節信号対雑音比SSNRを取得するステップと、低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するステップと、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップとを含む。

0026

第3の態様を参照すると、第3の態様の第1の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。

0027

第3の態様の第1の可能な実施方式を参照すると、第3の態様の第2の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0028

第3の態様の第1の可能な実施方式を参照すると、第3の態様の第3の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0029

第3の態様の第1の可能な実施方式を参照すると、第3の態様の第4の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0030

第3の態様を参照すると、第3の態様の第5の可能な実施方式では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0031

第4の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号の強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、ここで、強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む。

0032

第4の態様を参照すると、第4の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0033

第4の態様の第1の可能な実施方式を参照すると、第4の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0034

第4の態様の第1の可能な実施方式を参照すると、第4の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0035

第4の態様の第1の可能な実施方式を参照すると、第4の態様の第4の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0036

第4の態様を参照すると、第4の態様の第5の可能な実施方式では、第1決定ユニットは、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0037

第4の態様の第2の可能な実施方式または第4の態様の第3の可能な実施方式を参照すると、第4の態様の第6の可能な実施方式では、第2決定ユニットは、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。

0038

第4の態様または第4の態様の第1の可能な実施方式乃至第4の態様の第5の可能な実施方式のうちの任意の可能な実施方式を参照すると、第4の態様の第7の可能な実施方式では、第2決定ユニットは、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。

0039

第4の態様の第7の可能な実施方式を参照すると、第4の態様の第8の可能な実施方式では、第2決定ユニットは、具体的には、以下の式:
SSNR’=x*SSNR+y
を使用することによって強化されたSSNRを決定するように構成され、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。

0040

第4の態様の第7の可能な実施方式を参照すると、第4の態様の第9の可能な実施方式では、第2決定ユニットは、具体的には、以下の式:
SSNR’=f(x)*SSNR+h(y)
を使用することによって強化されたSSNRを決定するように構成され、ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。

0041

第4の態様または第4の態様の前述の可能な実施方式のうちのいずれか1つを参照すると、第4の態様の第10の可能な実施方式では、装置は第4決定ユニットをさらに含み、ここで、第4決定ユニットは、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するように構成され、第3決定ユニットは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0042

第5の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するように構成される第2決定ユニットであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい、第2決定ユニットと、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第3決定ユニットとを含む。

0043

第5の態様を参照すると、第5の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0044

第5の態様の第1の可能な実施方式を参照すると、第5の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0045

第5の態様の第1の可能な実施方式を参照すると、第5の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0046

第6の態様によると、本発明の実施形態は装置を提供し、ここで、装置は、入力音声信号を決定されるべき音声信号として決定するように構成される第1決定ユニットと、音声信号の基準分節信号対雑音比SSNRを取得するように構成される第2決定ユニットと、低減された音声区間検出VAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される第3決定ユニットと、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される第4決定ユニットとを含む。

0047

第6の態様を参照すると、第6の態様の第1の可能な実施方式では、第1決定ユニットは、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0048

第6の態様の第1の可能な実施方式を参照すると、第6の態様の第2の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0049

第6の態様の第1の可能な実施方式を参照すると、第6の態様の第3の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0050

第6の態様の第1の可能な実施方式を参照すると、第6の態様の第4の可能な実施方式では、第1決定ユニットは、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0051

第6の態様を参照すると、第6の態様の第5の可能な実施方式では、第1決定ユニットは、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0052

本発明の実施形態で提供される方法によると、音声信号の特徴が決定されることができ、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較され、その結果、アクティブ信号の誤検出の割合は低減されることができる。

図面の簡単な説明

0053

本発明の実施形態における技術的解決手段をより明確に説明するために、以下では、本発明の実施形態を説明するために必要とされる添付図面を簡潔に説明する。明らかに、以下の説明における添付図面は単に、本発明のいくつかの実施形態を示し、且つ、当業者は、創造努力なしにこれらの添付図面から他の図面をさらに導出することができる。

0054

図1は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
図2は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
図3は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
図4は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。
図5は、本発明の実施形態に係る装置の構成ブロック図である。
図6は、本発明の実施形態に係る別の装置の構成ブロック図である。
図7は、本発明の実施形態に係る装置の構成ブロック図である。
図8は、本発明の実施形態に係る別の装置の構成ブロック図である。
図9は、本発明の実施形態に係る別の装置の構成ブロック図である。
図10は、本発明の実施形態に係る別の装置の構成ブロック図である。

実施例

0055

以下では、本発明の実施形態における添付図面を参照して、本発明の実施形態における技術的解決手段を明確且つ完全に説明する。明らかに、説明される実施形態は、本発明の実施形態の単に一部であって全てではない。創造的努力なしに本発明の実施形態に基づいて当業者によって得られる全ての他の実施形態は、本発明の保護範囲包含されるべきである。

0056

図1は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。

0057

101.入力音声信号を決定されるべき音声信号として決定する。

0058

102.音声信号の強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい。

0059

103.強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。

0060

本発明の本実施形態では、強化されたSSNRがVAD決定閾値と比較されるとき、基準VAD決定閾値が使用されてよく、または、基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減された後に得られる低減されたVAD決定閾値が使用されてよい。基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。

0061

従来のSSNR計算方法がいくつかの音声信号のSSNRを計算するために使用されるとき、これらの音声信号のSSNRは、事前に設定されたVAD決定閾値よりも低くてよい。しかしながら、実際には、これらの音声信号はアクティブな音声信号である。このことは、これらの音声信号の特徴によって引き起こされる。例えば、環境SNRが比較的低い場合、高周波部分のサブバンドSNRは大幅に低減される。加えて、心理音響理論は一般に、サブバンド分割を実行するために使用されるため、高周波部分のサブバンドSNRは、SSNRに対して比較的低い貢献を有する。この場合、無声信号等、そのエネルギーが比較的高い周波部分に主に集中化されるいくつかの信号については、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよく、このことは、アクティブ信号の誤検出を引き起こす。別の例では、いくつかの音声信号については、これらの音声信号のエネルギーの分布は、スペクトル上で比較的平坦であるが、これらの音声信号の全体的なエネルギーは比較的低い。従って、環境SNRが比較的低い場合、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよい。図1に示される方法では、SSNRを適切に増加させる方式が使用され、その結果、SSNRはVAD決定閾値よりも大きくてよい。従って、アクティブ信号の誤検出の割合が効果的に低減されることができる。

0062

図2は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。

0063

201.入力音声信号のサブバンドSNRを決定する。

0064

入力音声信号のスペクトルは、N個のサブバンドに分割され、ここで、Nは1よりも大きい正の整数である。具体的には、心理音響理論は音声信号のスペクトルを分割するために使用されてよい。心理音響理論が音声信号のスペクトルを分割するために使用される場合、低周波により近いサブバンドの幅はより狭く、且つ、高周波により近いサブバンドの幅はより広い。確かに、音声信号のスペクトルはまた、別の方式、例えば、音声信号のスペクトルをN個のサブバンドに均等に分割する方式で分割されてもよい。入力音声信号の各サブバンドのサブバンドSNRが計算され、ここで、サブバンドSNRはサブバンドのエネルギーとサブバンド上の背景雑音のエネルギーとの比である。サブバンド上の背景雑音のエネルギーは一般に背景雑音推定器による推定によって得られる推定値である。背景雑音推定器を使用して各サブバンドに対応する背景雑音エネルギーを推定する方法は、この分野の周知技術である。従って、詳細はここでは説明される必要はない。当業者は、サブバンドSNRは直接エネルギー比であってよく、または、対数サブバンドSNR等の直接エネルギー比の別の表現方式であってよいことを理解することができる。加えて、当業者は、サブバンドSNRもまた、直接サブバンドSNRに対して線形または非線形処理が実行された後に得られるサブバンドSNRであってもよく、またはサブバンドSNRの別の変換であってよいことをさらに理解することができる。サブバンドSNRの直接エネルギー比は、以下の式で示される:
snr(k)=E(k)/En(k) 式 1.2
ここで、snr(k)はk番目のサブバンドのサブバンドSNRを示し、E(k)およびEn(k)はそれぞれ、k番目のサブバンドのエネルギーとk番目のサブバンド上の背景雑音のエネルギーとを示す。対数サブバンドSNRは
snrlog(k)=10×log10snr(k)
として示されてよく、ここで、snrlog(k)はk番目のサブバンドの対数サブバンドSNRを示し、snr(k)はk番目のサブバンドの、式1.2を使用することによる計算を介して得られたサブバンドSNRを示す。当業者は、サブバンドSNRを計算するために使用されるサブバンドエネルギーはサブバンド上の入力音声信号のエネルギーであってよく、または、サブバンド上の背景雑音のエネルギーがサブバンド上の入力音声信号のエネルギーから差し引かれた後に得られるエネルギーであってよいことをさらに理解することができる。SNRの計算は、SNRの意味から逸脱しない限り適切である。

0065

202.入力音声信号を決定されるべき音声信号として決定する。

0066

任意で、実施形態では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号の、ステップ201で決定されるサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含んでよい。

0067

任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0068

任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。本発明の本実施形態では、音声信号の1つのフレームの高周波端と低周波端とは相対しており、すなわち、比較的高い周波数を有する部分は高周波端であり、且つ、比較的低い周波数を有する部分は低周波端である。

0069

任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0070

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0071

第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。

0072

第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、大量の雑音信号フレーム内で、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの雑音サンプルフレームのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数は第4の数よりも大きい。

0073

任意で、別の実施形態では、入力音声信号が無声信号であるかどうかを決定することによって、入力音声信号が決定されるべき音声信号であるかどうかが決定されてよい。この場合、音声信号のサブバンドSNRは、音声信号が決定されるべき音声信号であるかどうかが決定されているときに決定される必要はない。換言すると、ステップ201は、音声信号が決定されるべき音声信号であるかどうかが決定されているときに実行される必要はない。具体的には、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定される場合に、音声信号を決定されるべき音声信号として決定するステップを含む。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。

0074

203.音声信号の強化されたSSNRを決定するステップであって、ここで、強化されたSSNRは基準SSNRよりも大きい。

0075

基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、任意のサブバンドのサブバンドSNRに対して重み付け処理は実行されない、すなわち、基準SSNRが計算されているとき全てのサブバンドのサブバンドSNRの重みが等しいことは式1.1からわかる。

0076

任意で、実施形態では、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合、または、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合、音声信号の強化されたSSNRを決定するステップは、音声信号における各サブバンドのサブバンドSNRの重みを決定するステップであって、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい、ステップと、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するステップとを含む。

0077

例えば、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、且つ、サブバンド18およびサブバンド19の両方が第1の事前に設定された値T1よりも大きい場合、4つのサブバンド、すなわち、サブバンド20からサブバンド23が追加されてよい。具体的には、その信号対雑音比がT1よりも大きいサブバンド18およびサブバンド19はそれぞれ、サブバンド18a、サブバンド18bおよびサブバンド18cと、サブバンド19a、サブバンド19bおよびサブバンド19cとに分割されてよい。この場合、サブバンド18は、サブバンド18a、サブバンド18bおよびサブバンド18cの母サブバンドとみなされてよく、且つ、サブバンド19は、サブバンド19a、サブバンド19bおよびサブバンド19cの母サブバンドとみなされてよい。サブバンド18a、サブバンド18bおよびサブバンド18cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じであり、且つ、サブバンド19a、サブバンド19bおよびサブバンド19cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じである。このようにして、分割を介して本来得られた20個のサブバンドは24個のサブバンドに再分割される。アクティブ信号検出の間、VADは未だ20個のサブバンドに従って設計されるため、24個のサブバンドは、強化されたSSNRを決定するために、20個のサブバンドに再びマッピングされる必要がある。結論として、強化されたSSNRが、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数を増加させることによって決定されるとき、以下の式を使用することによって計算が実行されてよい:

0078

0079

ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示す。

0080

式1.1を使用することによる計算を介して得られるSSNRが基準SSNRである場合、計算を介して得られる基準SSNRは

0081

0082

である。明らかに、第1のタイプの音声信号について、式1.3を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。

0083

別の例では、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、snr(18)およびsnr(19)の両方が第1の事前に設定された値T1よりも大きく、snr(0)からsnr(17)は全て第2の事前に設定された閾値T2よりも小さい場合、強化されたSSNRは、以下を使用することによって決定されてよい:

0084

0085

ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、a1およびa2はパラメータを増加させる重みであり、a1およびa2の値はa1×snr(18)+a2×snr(19)をsnr(18)+snr(19)よりも大きくさせる。明らかに、式1.4を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。

0086

任意で、別の実施形態では、音声信号の強化されたSSNRを決定するステップは、音声信号の基準SSNRを決定するステップと、音声信号の基準SSNRに従って、強化されたSSNRを決定するステップとを含む。

0087

任意で、強化されたSSNRは以下の式を使用することによって決定されてよい:
SSNR’=x*SSNR+y 式1.5
ここで、SSNRは音声信号の基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.05であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。

0088

任意で、強化されたSSNRは以下の式を使用することによって決定されてよい:
SSNR’=f(x)*SSNR+h(y) 式1.6
ここで、SSNRは音声信号の元のSSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号の長期信号対雑音比は比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく15よりも大きいとき、f(lsnr)は1.05と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが15よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。

0089

204.強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。

0090

具体的には、強化されたSSNRがVAD決定閾値と比較されるとき、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも大きくない場合、音声信号は非アクティブ信号であると決定される。

0091

任意で、別の実施形態では、強化されたSSNRをVAD決定閾値と比較するステップの前に、方法は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するステップをさらに含んでよい。この場合、強化されたSSNRをVAD決定閾値と比較するステップは、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するステップを含む。基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。

0092

図2に示される方法によると、音声信号の特徴が決定され、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較される。このようにして、アクティブ信号の誤検出の割合は低減されることができる。

0093

図3は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。

0094

301.入力音声信号を決定されるべき音声信号として決定する。

0095

302.音声信号における各サブバンドのサブバンドSNRの重みを決定し、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。

0096

303.音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定し、ここで、強化されたSSNRは基準SSNRよりも大きい。

0097

基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、任意のサブバンドのサブバンドSNRに対して重み付け処理は実行されない、すなわち、基準SSNRが計算されているとき全てのサブバンドのサブバンドSNRの重みが等しいことは式1.1からわかる。

0098

例えば、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、且つ、サブバンド18およびサブバンド19の両方が第1の事前に設定された値T1よりも大きい場合、4つのサブバンド、すなわち、サブバンド20からサブバンド23が追加されてよい。具体的には、その信号対雑音比がT1よりも大きいサブバンド18およびサブバンド19はそれぞれ、サブバンド18a、サブバンド18bおよびサブバンド18cと、サブバンド19a、サブバンド19bおよびサブバンド19cとに分割されてよい。この場合、サブバンド18は、サブバンド18a、サブバンド18bおよびサブバンド18cの母サブバンドとみなされてよく、且つ、サブバンド19は、サブバンド19a、サブバンド19bおよびサブバンド19cの母サブバンドとみなされてよい。サブバンド18a、サブバンド18bおよびサブバンド18cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じであり、且つ、サブバンド19a、サブバンド19bおよびサブバンド19cの信号対雑音比の値は、それらの母サブバンドの信号対雑音比の値と同じである。このようにして、分割を介して本来得られた20個のサブバンドは24個のサブバンドに再分割される。アクティブ信号検出の間、VADは未だ20個のサブバンドに従って設計されるため、24個のサブバンドは、強化されたSSNRを決定するために、20個のサブバンドに再びマッピングされる必要がある。結論として、強化されたSSNRが、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数を増加させることによって決定されるとき、以下の式を使用することによって計算が実行されてよい:

0099

0100

ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示す。

0101

式1.1を使用することによる計算を介して得られるSSNRが基準SSNRである場合、計算を介して得られる基準SSNRは

0102

0103

である。明らかに、第1のタイプの音声信号について、式1.3を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。

0104

別の例では、心理音響理論に従って、音声信号が20個のサブバンド、すなわち、サブバンド0からサブバンド19に分割され、snr(18)およびsnr(19)の両方が第1の事前に設定された値T1よりも大きく、snr(0)からsnr(17)は全て第2の事前に設定された閾値T2よりも小さい場合、強化されたSSNRは、以下の式を使用することによって決定されてよい:

0105

0106

ここで、SSNR’は強化されたSSNRを示し、snr(k)はk番目のサブバンドのサブバンドSNRを示し、a1およびa2はパラメータを増加させる重みであり、a1およびa2の値はa1×snr(18)+a2×snr(19)をsnr(18)+snr(19)よりも大きくさせる。明らかに、式1.4を使用することによる計算を介して得られる強化されたSSNRの値は、式1.1を使用することによる計算を介して得られる基準SSNRの値よりも大きい。

0107

304.強化されたSSNRをVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。

0108

具体的には、強化されたSSNRがVAD決定閾値と比較されるとき、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも大きくない場合、音声信号は非アクティブ信号であると決定される。

0109

図3に示される方法によると、音声信号の特徴が決定されてよく、音声信号の特徴に従って、強化されたSSNRが対応する方式で決定され、強化されたSSNRはVAD決定閾値と比較される。従って、アクティブ信号の誤検出の割合は低減されることができる。

0110

さらに、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。

0111

任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0112

任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0113

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0114

第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。

0115

図1乃至図3の実施形態では、入力音声信号がアクティブ信号であるかどうかが、強化されたSSNRを使用する方式で決定される。図4に示される方法では、入力音声信号がアクティブ信号であるかどうかが、VAD決定閾値を低減する方式で決定される。

0116

図4は、本発明の実施形態に係る音声信号を検出するための方法の概略フローチャートである。

0117

401.入力音声信号を決定されるべき音声信号として決定する。

0118

任意で、実施形態では、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号の、ステップ201で決定されるサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するステップを含む。

0119

任意で、実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0120

任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0121

任意で、別の実施形態では、音声信号のサブバンドSNRに従って、音声信号が決定されるべき音声信号として決定される場合、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するステップを含む。

0122

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0123

第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。

0124

第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、大量の雑音信号フレーム内で、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの雑音サンプルフレームのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも小さいサブバンドの数は第4の数よりも大きい。

0125

任意で、別の実施形態では、入力音声信号が無声信号であるかどうかを決定することによって、入力音声信号が決定されるべき音声信号であるかどうかが決定されてよい。この場合、音声信号のサブバンドSNRは、音声信号が決定されるべき音声信号であるかどうかが決定されているときに決定される必要はない。換言すると、ステップ201は、音声信号が決定されるべき音声信号であるかどうかが決定されているときに実行される必要はない。具体的には、入力音声信号を決定されるべき音声信号として決定するステップは、音声信号が無声信号であると決定される場合に、音声信号を決定されるべき音声信号として決定するステップを含む。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。

0126

402.音声信号の基準SSNRを取得する。

0127

具体的には、基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。

0128

403. 低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減する。

0129

具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。

0130

404. 基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定する。

0131

従来のSSNR計算方法がいくつかの音声信号のSSNRを計算するために使用されるとき、これらの音声信号のSSNRは、事前に設定されたVAD決定閾値よりも低くてよい。しかしながら、実際には、これらの音声信号はアクティブな音声信号である。このことは、これらの音声信号の特徴によって引き起こされる。例えば、環境SNRが比較的低い場合、高周波部分のサブバンドSNRは大幅に低減される。加えて、心理音響理論は一般に、サブバンド分割を実行するために使用されるため、高周波部分のサブバンドSNRは、SSNRに対して比較的低い貢献を有する。この場合、無声信号等、そのエネルギーが比較的高い周波部分に主に集中化されるいくつかの信号については、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよく、このことは、アクティブ信号の誤検出を引き起こす。別の例では、いくつかの音声信号については、これらの音声信号のエネルギーの分布は、スペクトル上で比較的平坦であるが、これらの音声信号の全体的なエネルギーは比較的低い。従って、環境SNRが比較的低い場合、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRは、VAD決定閾値よりも低くてよい。図4に示される方法では、VAD決定閾値を低減する方式が使用され、その結果、従来のSSNR計算方法を使用することによる計算を介して得られるSSNRはVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合が効果的に低減されることができる。

0132

図5は、本発明の実施形態に係る装置の構成ブロック図である。図5に示される装置は、図1または図2に示される全てのステップを実行することができる。図5に示されるように、装置500は、第1決定ユニット501、第2決定ユニット502および第3決定ユニット503を含む。

0133

第1決定ユニット501は、入力音声信号を決定されるべき音声信号として決定するように構成される。

0134

第2決定ユニット502は、音声信号の強化された分節信号対雑音比SSNRを決定するように構成され、ここで、強化されたSSNRは基準SSNRよりも大きい。

0135

第3決定ユニット503は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0136

図5に示される装置500は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。

0137

任意で、実施形態では、第1決定ユニット501は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0138

任意で、実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0139

任意で、別の実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0140

任意で、別の実施形態では、第1決定ユニット501が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット501は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0141

任意で、別の実施形態では、第1決定ユニット501は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。

0142

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0143

第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。

0144

第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。

0145

さらに、第2決定ユニット502は、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。

0146

任意で、実施形態では、第2決定ユニット502は、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。

0147

基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、全てのサブバンドの、SSNRに含まれるサブバンドSNRの重みはSSNRにおいて同じである。

0148

任意で、別の実施形態では、第2決定ユニット502は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=x*SSNR+y 式1.7
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.05であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。

0149

任意で、別の実施形態では、第2決定ユニット502は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=f(x)*SSNR+h(y) 式1.8
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号の長期信号対雑音比は比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく15よりも大きいとき、f(lsnr)は1.05と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが15よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。

0150

第3決定ユニット503は、具体的には、強化されたSSNRを音声区間検出VAD決定閾値と比較して、比較の結果に従って、音声信号がアクティブ信号であるかどうかを決定するように構成される。具体的には、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも小さい場合、音声信号は非アクティブ信号であると決定される。

0151

任意で、別の実施形態では、事前に設定されたアルゴリズムがまた、基準VAD決定閾値を低減するために使用されて、低減されたVAD決定閾値を得てもよく、且つ、低減されたVAD決定閾値は、音声信号がアクティブ信号であるかどうかを決定するために使用される。この場合、装置500は第4決定ユニット504をさらに含んでよく、ここで、第4決定ユニット504は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するように構成される。この場合、第3決定ユニット503は、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0152

図6は、本発明の実施形態に係る別の装置の構成ブロック図である。図6に示される装置は、図3に示される全てのステップを実行することができる。図6に示されるように、装置600は、第1決定ユニット601、第2決定ユニット602および第3決定ユニット603を含む。

0153

第1決定ユニット601は、入力音声信号を決定されるべき音声信号として決定するように構成される。

0154

第2決定ユニット602は、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい。

0155

第3決定ユニット603は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0156

図6に示される装置600は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。

0157

さらに、第1決定ユニット601は、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0158

任意で、実施形態では、第1決定ユニット601は、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0159

任意で、別の実施形態では、第1決定ユニット601は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0160

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0161

第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。

0162

図7は、本発明の実施形態に係る装置の構成ブロック図である。図7に示される装置は、図1または図2に示される全てのステップを実行することができる。図7に示されるように、装置700はプロセッサ701とメモリ702とを含む。プロセッサ701は、汎用プロセッサデジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific IntegratedCircuit,ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGA)または別のプログラマブルロジックコンポーネントディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ702内に配置される。プロセッサ701はメモリ702から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。

0163

プロセッサ701は、入力音声信号を決定されるべき音声信号として決定するように構成される。

0164

プロセッサ701は、音声信号の強化された分節信号対雑音比SSNRを決定するように構成され、ここで、強化されたSSNRは基準SSNRよりも大きい。

0165

プロセッサ701は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0166

図7に示される装置700は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。

0167

任意で、実施形態では、プロセッサ701は、具体的には、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0168

任意で、実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0169

任意で、別の実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0170

任意で、別の実施形態では、プロセッサ701が、音声信号のサブバンドSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ701は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0171

任意で、別の実施形態では、プロセッサ701は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。

0172

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0173

第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。

0174

第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。

0175

さらに、プロセッサ701は、具体的には、音声信号における各サブバンドのサブバンドSNRの重みを決定し、音声信号内の各サブバンドのSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化されたSSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの重みは、別のサブバンドのサブバンドSNRの重みよりも大きい。

0176

任意で、実施形態では、プロセッサ701は、具体的には、音声信号の基準SSNRを決定し、音声信号の基準SSNRに従って、強化されたSSNRを決定するように構成される。

0177

基準SSNRは式1.1を使用することによる計算を介して得られるSSNRであってよい。基準SSNRが計算されているとき、全てのサブバンドの、SSNRに含まれるサブバンドSNRの重みはSSNRにおいて同じである。

0178

任意で、別の実施形態では、プロセッサ701は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=x*SSNR+y 式1.7
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、xおよびyは強化パラメータを示す。例えば、xの値は1.07であってよく、yの値は1であってよい。当業者は、xおよびyの値は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な値であってよいことを理解することができる。

0179

任意で、別の実施形態では、プロセッサ701は、具体的には、強化されたSSNRを以下の式を使用することによって決定するように構成される:
SSNR’=f(x)*SSNR+h(y) 式1.8
ここで、SSNRは基準SSNRを示し、SSNR’は強化されたSSNRを示し、f(x)およびh(y)は強化関数を示す。例えば、f(x)およびh(y)は、音声信号の長期信号対雑音比(Long-term SNR, LSNR)に関連する関数であってよく、ここで、音声信号の長期信号対雑音比は比較的長い期間内の平均SNRまたは重み付けされたSNRである。例えば、lsnrが20よりも大きいとき、f(lsnr)は1.1と等しくてよく、且つ、y(lsnr)は2と等しくてよく、lsnrが20よりも小さく17よりも大きいとき、f(lsnr)は1.07と等しくてよく、且つ、y(lsnr)は1と等しくてよく、lsnrが17よりも小さいとき、f(lsnr)は1と等しくてよく、且つ、y(lsnr)は0と等しくてよい。当業者は、f(x)およびh(y)は、強化されたSSNRを基準SSNRよりも適切に大きくさせる他の適切な形態であってよいことを理解することができる。

0180

プロセッサ701は、具体的には、強化されたSSNRを音声区間検出VAD決定閾値と比較して、比較の結果に従って、音声信号がアクティブ信号であるかどうかを決定するように構成される。具体的には、強化されたSSNRがVAD決定閾値よりも大きい場合、音声信号はアクティブ信号であると決定され、または、強化されたSSNRがVAD決定閾値よりも小さい場合、音声信号は非アクティブ信号であると決定される。

0181

任意で、別の実施形態では、事前に設定されたアルゴリズムがまた、基準VAD決定閾値を低減するために使用されて、低減されたVAD決定閾値を得てもよく、且つ、低減されたVAD決定閾値は、音声信号がアクティブ信号であるかどうかを決定するために使用される。この場合、プロセッサ701は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用してVAD決定閾値を低減するようにさらに構成されてよい。この場合、プロセッサ701は、具体的には、強化されたSSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0182

図8は、本発明の実施形態に係る別の装置の構成ブロック図である。図8に示される装置は、図3に示される全てのステップを実行することができる。図8に示されるように、装置800はプロセッサ801とメモリ802とを含む。プロセッサ801は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific IntegratedCircuit,ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ802内に配置される。プロセッサ801はメモリ802から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。

0183

プロセッサ801は、入力音声信号を決定されるべき音声信号として決定するように構成される。

0184

プロセッサ801は、音声信号における各サブバンドのサブバンド信号対雑音比SNRの重みを決定し、音声信号内の各サブバンドのサブバンドSNRおよび各サブバンドのサブバンドSNRの重みに従って、強化された分節信号対雑音比SSNRを決定するように構成され、ここで、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンドSNRの重みは、別のサブバンドのサブバンドSNRの重みよりも大きく、強化されたSSNRは基準SSNRよりも大きい。

0185

プロセッサ801は、強化されたSSNRを音声区間検出VAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0186

図8に示される装置800は、入力音声信号の特徴を決定し、音声信号の特徴に従って、対応する方式で強化されたSSNRを決定し、強化されたSSNRをVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。

0187

さらに、プロセッサ801は、具体的には、音声信号のサブバンド信号対雑音比SNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0188

任意で、実施形態では、プロセッサ801は、具体的には、音声信号内にあるとともにそのサブバンド信号対雑音比SNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0189

任意で、別の実施形態では、プロセッサ801は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0190

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0191

第1の数、第2の数および第3の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を取得するための方法は、第1の数を取得するための方法と同様である。第2の数は第1の数と同じであってよく、または第2の数は第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の無声音声サンプルフレーム内で、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの無声音声サンプルフレームのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数は第3の数よりも大きい。

0192

図9は、本発明の実施形態に係る別の装置の構成ブロック図である。図9に示される装置900は、図4に示される全てのステップを実行することができる。図9に示されるように、装置900は、第1決定ユニット901、第2決定ユニット902、第3決定ユニット903および第4決定ユニット904を含む。

0193

第1決定ユニット901は、入力音声信号を決定されるべき音声信号として決定するように構成される。

0194

第2決定ユニット902は、音声信号の基準SSNRを取得するように構成される。

0195

具体的には、基準SSNRは、式1.1を使用することによる計算を介して得られるSSNRであってよい。

0196

第3決定ユニット903は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される。

0197

具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。

0198

第4決定ユニット904は、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0199

任意で、実施形態では、第1決定ユニット901は、具体的には、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0200

任意で、実施形態では、第1決定ユニット901が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0201

任意で、実施形態では、第1決定ユニット901が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0202

任意で、実施形態では、第1決定ユニット901が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、第1決定ユニット901は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0203

任意で、実施形態では、第1決定ユニット901は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。

0204

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0205

第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。

0206

第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。

0207

図9に示される装置900は、入力音声信号の特徴を決定し、音声信号の特徴に従って、基準VAD決定閾値を低減し、SSNRを低減されたVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。

0208

図10は、本発明の実施形態に係る別の装置の構成ブロック図である。図10に示される装置1000は、図4に示される全てのステップを実行することができる。図10に示されるように、装置1000はプロセッサ1001とメモリ1002とを含む。プロセッサ1001は、汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor, DSP)、特定用途向け集積回路(Application Specific IntegratedCircuit,ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGA)または別のプログラマブルロジックコンポーネント、ディスクリートゲートまたはトランジスタロジックコンポーネント、またはディスクリートハードウェアコンポーネントであってよく、これらは、本発明の実施形態で開示される方法、ステップおよび論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサであってよく、または、プロセッサは任意の従来のプロセッサ等であってよい。本発明の実施形態で開示される方法のステップは、ハードウェア復号プロセッサによって直接実行されてよく、または、復号プロセッサ内のハードウェアおよびソフトウェアモジュールの組み合わせによって実行されてよい。ソフトウェアモジュールは、ランダムアクセスメモリ(Random Access Memory, RAM)、フラッシュメモリ、読み出し専用メモリ(Read-Only Memory, ROM)、プログラマブル読み出し専用メモリ、電気的に消去可能なプログラマブルメモリまたはレジスタ等の、当技術における成熟した記憶媒体内に配置されてよい。記憶媒体はメモリ1002内に配置される。プロセッサ1001はメモリ1002から命令を読み出すとともに、ハードウェアと組み合わせて前述の方法のステップを完了する。

0209

プロセッサ1001は、入力音声信号を決定されるべき音声信号として決定するように構成される。

0210

プロセッサ1001は、音声信号の基準SSNRを取得するように構成される。

0211

具体的には、基準SSNRは、式1.1を使用することによる計算を介して得られるSSNRであってよい。

0212

プロセッサ1001は、低減されたVAD決定閾値を取得するために、事前に設定されたアルゴリズムを使用して基準VAD決定閾値を低減するように構成される。

0213

具体的には、基準VAD決定閾値はデフォルトのVAD決定閾値であってよく、且つ、基準VAD決定閾値は事前に記憶されてよく、または、計算を介して一時的に得られてよく、ここで、基準VAD決定閾値は、既存の周知の技術を使用することによって計算されてよい。基準VAD決定閾値が事前に設定されたアルゴリズムを使用することによって低減されるとき、事前に設定されたアルゴリズムは、基準VAD決定閾値に1より小さい係数を掛けることであってよく、または、別のアルゴリズムが使用されてよい。本発明の本実施形態は、使用される特定のアルゴリズムへの限定を課さない。VAD決定閾値は、事前に設定されたアルゴリズムを使用することによって適切に低減されてよく、その結果、強化されたSSNRは低減されたVAD決定閾値よりも大きい。従って、アクティブ信号の誤検出の割合は低減されることができる。

0214

プロセッサ1001は、基準SSNRを低減されたVAD決定閾値と比較して、音声信号がアクティブ信号であるかどうかを決定するように構成される。

0215

任意で、実施形態では、プロセッサ1001は、具体的には、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定するように構成される。

0216

任意で、実施形態では、プロセッサ1001が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第1の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0217

任意で、実施形態では、プロセッサ1001が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数が第2の数よりも大きく、且つ、音声信号内にあるとともにそのサブバンドSNRが第2の事前に設定された閾値よりも小さい低周波端サブバンドの数が第3の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0218

任意で、実施形態では、プロセッサ1001が、音声信号のSNRに従って、音声信号を決定されるべき音声信号として決定する場合、プロセッサ1001は、具体的には、音声信号内にあるとともにそのサブバンドSNRの値が第3の事前に設定された閾値よりも大きいサブバンドの数が第4の数よりも大きい場合に、音声信号を決定されるべき音声信号として決定するように構成される。

0219

任意で、実施形態では、プロセッサ1001は、具体的には、音声信号が無声信号であると決定された場合に、音声信号を決定されるべき音声信号として決定するように構成される。具体的には、当業者は、音声信号が無声信号であるかどうかを検出するための複数の方法があり得ることを理解することができる。例えば、音声信号が無声信号であるかどうかは、音声信号の時間領域の零交差率(Zero-Crossing Rate, ZCR)を検出することによって決定されてよい。具体的には、音声信号のZCRがZCR閾値よりも大きい場合、音声信号が無声信号であると決定され、ここで、ZCR閾値は、大量の実験に従って決定される。

0220

第1の事前に設定された閾値と第2の事前に設定された閾値とは、大量の音声サンプルによる統計収集によって得られてよい。具体的には、高周波端サブバンドのサブバンドSNRに関する統計は、背景雑音を含む大量の無声音声サンプル内で収集され、且つ、第1の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声サンプル内の高周波端サブバンドのほとんどのサブバンドSNRは第1の事前に設定された閾値よりも大きい。同様に、低周波端サブバンドのサブバンドSNRに関する統計は、これらの無声音声サンプル内で収集され、且つ、第2の事前に設定された閾値は、サブバンドSNRに従って決定され、その結果、これらの無声音声サンプル内の低周波端サブバンドのほとんどのサブバンドSNRは第2の事前に設定された閾値よりも小さい。

0221

第3の事前に設定された閾値もまた、統計収集によって得られる。具体的には、第3の事前に設定された閾値は、大量の雑音信号のサブバンドSNRに従って決定され、その結果、これらの雑音信号内のサブバンドのほとんどのサブバンドSNRは第3の事前に設定された閾値よりも小さい。

0222

第1の数、第2の数、第3の数および第4の数もまた統計収集によって得られる。第1の数が例として使用され、ここで、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第1の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第1の事前に設定された閾値よりも大きい高周波端サブバンドの数は第1の数よりも大きい。第2の数を決定するための方法は、第1の数を決定するための方法と同様である。第2の数は第1の数と同じであってよく、または第1の数とは異なってよい。同様に、第3の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドのサブバンド数についての統計が収集され、その数に従って、第3の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第2の事前に設定された閾値よりも大きい低周波端サブバンドの数は第3の数よりも大きい。第4の数については、雑音を含む大量の音声サンプル内で、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数についての統計が収集され、その数に従って、第4の数が決定され、その結果、これらの音声サンプルのほとんどにおける、そのサブバンドSNRが第3の事前に設定された閾値よりも大きいサブバンドの数は第4の数よりも大きい。

0223

図10に示される装置1000は、入力音声信号の特徴を決定し、音声信号の特徴に従って、基準VAD決定閾値を低減し、SSNRを低減されたVAD決定閾値と比較してよく、その結果、アクティブ信号の誤検出の割合は低減されることができる。

0224

本明細書において開示される実施形態で説明される例と組み合わせて、ユニットおよびアルゴリズムステップは、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施されてよいことを当業者は認識することができる。機能がハードウェアによって実行されるかソフトウェアによって実行されるかは、技術的解決手段の特定のアプリケーションおよび設計制約条件に依存する。当業者は、各特定のアプリケーションのために説明される機能を実施する異なる方法を使用してよいが、実施は本発明の範囲を越えると考えられるべきではない。

0225

便利且つ簡潔な説明のために、前述のシステム、装置およびユニットの詳細な動作プロセスについて、前述の方法の実施形態における対応するプロセスに対して参照が行われてよく、詳細はここでは再び説明されないことは、当業者によって明確に理解されることができる。

0226

本願で提供されるいくつかの実施形態では、開示されるシステム、装置および方法は他の方式で実施されてよいことは理解されるべきである。例えば、説明される装置の実施形態は単に例示的なものである。例えば、ユニットの分割は単に論理的な機能の分割であるとともに、実際の実施において他の分割であってよい。例えば、複数のユニットまたはコンポーネントは、別のシステムに結合または統合されてよく、またはいくつかの特徴は無視されるか実行されなくてよい。加えて、表示または議論される相互結合または直接結合または通信接続は、いくつかのインタフェースを使用することによって実施されてよい。装置またはユニット間の間接結合または通信接続は、電子的、機械的または他の形態で実施されてよい。

0227

分離した部分として説明されるユニットは、物理的に分離していてもしていなくてもよく、且つ、ユニットとして表示される部分は、物理的なユニットであってもなくてもよく、1つの位置に配置されてよく、または、複数のネットワークユニット分配されてよい。ユニットのいくつかまたは全ては、実施形態の解決手段の目的を達成するための実際のニーズに従って選択されてよい。

0228

加えて、本発明の実施形態における機能ユニットは、1つの処理ユニットに統合されてよく、または、それぞれのユニットは物理的に孤立して存在してよく、または2つ以上のユニットは1つのユニットに統合される。

0229

機能がソフトウェア機能ユニットの形態で実施されるとともに、独立した製品として販売または使用されるとき、機能は、コンピュータ可読記憶媒体内に記憶されてよい。このような理解に基づいて、本発明の技術的解決手段は本質的に、または従来技術に貢献する部分は、または技術的解決手段の一部は、ソフトウェア製品の形態で実施されてよい。ソフトウェア製品は、記憶媒体内に記憶されるとともに、コンピュータデバイスパーソナルコンピュータサーバまたはネットワークデバイスであってよい)またはプロセッサ(processor)に、本発明の実施形態で説明される方法のステップの全てまたは一部を実行するように命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブリムーバブルハードディスク読出し専用メモリ(ROM, Read-Only Memory)、ランダムアクセスメモリ(RAM, Random Access Memory)、磁気ディスクまたは光ディスク等の、プログラムコードを記憶することができる任意の媒体を含む。

0230

前述の説明は単に、本発明の特定の実施形態であるが、本発明の保護範囲を限定することを意図されない。本発明で開示される技術的範囲内で当業者によって容易に理解されるいかなる変更または置換も、本発明の保護範囲に包含するべきである。従って、本発明の保護範囲は、請求項の保護範囲に従うべきである。

0231

500 装置
501 第1決定ユニット
502 第2決定ユニット
503 第3決定ユニット
504 第4決定ユニット
600 装置
601 第1決定ユニット
602 第2決定ユニット
603 第3決定ユニット
700 装置
701プロセッサ
702メモリ
800 装置
801 プロセッサ
802 メモリ
900 装置
901 第1決定ユニット
902 第2決定ユニット
903 第3決定ユニット
904 第4決定ユニット
1000 装置
1001 プロセッサ
1002 メモリ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ