図面 (/)

技術 音声信号処理装置および音声信号処理方法

出願人 キヤノン株式会社
発明者 北澤恭平
出願日 2016年6月29日 (4年4ヶ月経過) 出願番号 2016-128786
公開日 2018年1月11日 (2年10ヶ月経過) 公開番号 2018-006892
状態 特許登録済
技術分野 可聴帯域変換器の回路等 可聴帯域変換器の細部(特性を得るもの)
主要キーワード 目的エリア 矩形窓 非負値行列 音声信号処理システム 音声分離処理 合成エリア サンプル分遅延 ゲインパラメータ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年1月11日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

複数エリアを有する空間から収音した音声欠損を低減させた音声信号処理装置を提供すること。

解決手段

音声信号処理装置は、複数のエリアを有する空間から収音した音声の音声信号を処理する処理手段と、前記音声信号の処理量または処理後の音声信号の再生部への送信量が所定量以上であるかを判定する判定手段と、前記判定手段が前記処理量または送信量は前記所定量以上であると判定した場合、前記処理量または送信量を制限する制御手段と、を備える。

概要

背景

従来、空間を複数のエリアに分割してエリアごとの音声を取得(収音)する技術が知られている(特許文献1)。近年では、より指向性の高い収音技術が提案され、遠方の音声をクリア録音・強調することが可能になってきている(特許文献2)。特許文献2のように、より指向性が鋭く、遠距離の音声まで録音可能なマイクを使って目的エリアの収音をすると、かなり広範囲な空間を細かいエリアに分けて収音することが可能になる。

概要

複数エリアを有する空間から収音した音声の欠損を低減させた音声信号処理装置を提供すること。音声信号処理装置は、複数のエリアを有する空間から収音した音声の音声信号を処理する処理手段と、前記音声信号の処理量または処理後の音声信号の再生部への送信量が所定量以上であるかを判定する判定手段と、前記判定手段が前記処理量または送信量は前記所定量以上であると判定した場合、前記処理量または送信量を制限する制御手段と、を備える。

目的

本発明は上記した従来技術の課題を解決するためになされたものであり、複数エリアを有する空間から収音した音声の音声処理過負荷による音声欠損を低減させた音声信号処理装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数のエリアを有する空間から収音した音声音声信号を処理する処理手段と、前記音声信号の処理量または処理後の音声信号の再生部への送信量が所定量以上であるかを判定する判定手段と、前記判定手段が前記処理量または送信量は前記所定量以上であると判定した場合、前記処理量または送信量を制限する制御手段と、を備えることを特徴とする音声信号処理装置

請求項2

前記判定手段は、前記再生部におけるリアルタイム再生の状況に基づいて、前記判定を行うことを特徴とする請求項1に記載の音声信号処理装置。

請求項3

前記制御手段により処理量または送信量が制限された音声信号を復元する復元手段をさらに備えることを特徴とする請求項1または2に記載の音声信号処理装置。

請求項4

前記制御手段は、隣接する少なくとも2つのエリアの音声信号を合成することにより前記送信量を制限することを特徴とする請求項1から3のいずれか1項に記載の音声信号処理装置。

請求項5

前記制御手段は、前記音声の聴取点から略同じ方向にある複数のエリアの音声信号を合成することにより前記送信量を制限することを特徴とする請求項1から3のいずれか1項に記載の音声信号処理装置。

請求項6

各エリアの音声信号を比較する比較手段をさらに備え、前記制御手段は、前記比較手段の比較結果に基づいて、合成するエリアを決めることを特徴とする請求項4または5に記載の音声信号処理装置。

請求項7

前記比較手段は、エリアごとの音声信号の相関度に基づいて前記比較を行うことを特徴とする請求項6に記載の音声信号処理装置。

請求項8

前記制御手段は、エリアごとの音声信号の量子化ビット数を低減することにより前記送信量を制限することを特徴とする請求項1から3のいずれか1項に記載の音声信号処理装置。

請求項9

前記制御手段は、エリアごとの音声信号のサンプリング周波数を低減することにより前記送信量を制限することを特徴とする請求項1から3のいずれか1項に記載の音声信号処理装置。

請求項10

前記制御手段は、前記音声の聴取点からエリアまでの距離に応じて、エリアごとに前記処理量または送信量の制限を行うことを特徴とする請求項1から9のいずれか1項に記載の音声信号処理装置。

請求項11

前記制御手段は、エリアごとに設定された重要度に応じて、エリアごとに前記処理量または送信量の制限を行うことを特徴とする請求項1から9のいずれか1項に記載の音声信号処理装置。

請求項12

前記処理は音源分離処理であることを特徴とする請求項1から11のいずれか1項に記載の音声信号処理装置。

請求項13

前記制御手段は、音源分離処理に使用する音声のチャンネル数を低減することにより前記処理量を制限することを特徴とする請求項12に記載の音声信号処理装置。

請求項14

前記制御手段は、音源分離処理に使用するフィルタタップ数を低減することにより前記処理量を制限することを特徴とする請求項12に記載の音声信号処理装置。

請求項15

前記制御手段による前記処理量または送信量の制限の状況を表示する表示手段をさらに備えることを特徴とする請求項1から14のいずれか1項に記載の音声信号処理装置。

請求項16

前記復元手段による音声信号の復元の順序を設定する手段をさらに備えることを特徴とする請求項3に記載の音声信号処理装置。

請求項17

前記空間から収音を行う複数のマイクロホンからなる収音手段をさらに備えることを特徴とする請求項1から16のいずれか1項に記載の音声信号処理装置。

請求項18

前記複数のマイクロホンは、少なくとも1本の指向性マイクを含むことを特徴とする請求項17に記載の音声信号処理装置。

請求項19

請求項1から18のいずれか1項に記載の音声信号処理装置と、前記音声信号処理装置から送信された音声信号を受信して再生する再生部と、を備える音響システム

請求項20

複数のエリアを有する空間から収音した音声の音声信号を処理するステップと、前記音声信号の処理量または処理後の音声信号の再生部への送信量が所定量以上であるかを判定するステップと、前記処理量または送信量が前記所定量以上であると判定された場合、前記処理量または送信量を制限するステップと、を有することを特徴とする音声信号処理方法

請求項21

コンピュータを請求項1から18のいずれか1項に記載の音声信号処理装置の各手段として機能させるためのプログラム

技術分野

0001

本発明は音声信号処理装置および音声信号処理方法に関する。

背景技術

0002

従来、空間を複数のエリアに分割してエリアごとの音声を取得(収音)する技術が知られている(特許文献1)。近年では、より指向性の高い収音技術が提案され、遠方の音声をクリア録音・強調することが可能になってきている(特許文献2)。特許文献2のように、より指向性が鋭く、遠距離の音声まで録音可能なマイクを使って目的エリアの収音をすると、かなり広範囲な空間を細かいエリアに分けて収音することが可能になる。

先行技術

0003

特開2014−72708号公報
特開2012−165189号公報

発明が解決しようとする課題

0004

しかしながら、広範囲な空間を細かいエリアに分割してエリアごとに収音すると、収音エリア数が多くなる。収音エリア数が増加すると、エリアごとの音声分離処理量(音源分離処理量)も増加する。収音エリア数が多い場合に、収音した音声を例えばリアルタイム再生しようとすると、音声分離処理が間に合わず音声データが欠損してしまう(音声が途切れてしまう)可能性がある。
本発明は上記した従来技術の課題を解決するためになされたものであり、複数エリアを有する空間から収音した音声の音声処理過負荷による音声欠損を低減させた音声信号処理装置を提供することを目的とする。

課題を解決するための手段

0005

本発明の1つの態様による音声信号処理装置は、複数のエリアを有する空間から収音した音声の音声信号を処理する処理手段と、前記音声信号の処理量または処理後の音声信号の再生部への送信量が所定量以上であるかを判定する判定手段と、前記判定手段が前記処理量または送信量は前記所定量以上であると判定した場合、前記処理量または送信量を制限する制御手段と、を備える。

発明の効果

0006

本発明によれば、音声信号の処理量または送信量が所定量以上になることを制限するので、音声の欠損を低減させて再生することができる。

図面の簡単な説明

0007

実施形態1の音声信号処理装置の機能構成を示すブロック図。
実施形態1の音声信号処理を示すフローチャート
実施形態1の音声信号処理装置のハードウェア構成を示すブロック図。
実施形態2の音声信号処理システムの構成を示すブロック図。
実施形態2の音声信号処理を示すフローチャート。
エリア音声の合成を説明する図。
データ制御状況を表示する表示部を示す図。

実施例

0008

以下、本発明の音声信号処理装置の実施形態を、添付図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。実施形態の構成は、本発明が適用される装置の仕様や各種条件(使用条件使用環境等)によって適宜修正または変更され得る。なお、以下の記載においては、同一の構成については、同じ符号を付して説明する。本明細書において、音声とは、人の発する声に限定されず、人や動物の声はもとより楽音環境音などのマイクロホンで収音可能な種々の音一般を意味する。

0009

実施形態1
(音声信号処理装置の構成)
図1は音声信号処理装置100の構成を示す機能ブロック図である。音声信号処理装置100は、マイクアレイ111、音源分離部112、データ制御部113、第1記憶部114、リアルタイム再生用信号生成部115、第2記憶部116およびリプレイ再生用信号生成部117を有する。音声信号処理装置100の各構成要素は、バス118により相互接続されている。音声信号処理装置100は、有線または無線により、再生装置119に接続されている。リアルタイム再生用信号生成部115は、リアルタイムで音声を再生する再生部である。

0010

マイクアレイ111は空間から収音を行う複数のマイクロホンからなる。マイクアレイ111は、音源分離部112に接続されている。マイクアレイ111は、空間の音声をマイクロホンで収音し、収音した音声の音声信号をA/D変換したのち、音源分離部112へ出力する。マイクアレイ111は、収音部である。
音源分離部112は、マイクロプロセッサなどの処理装置からなる。音源分離部112は、マイクアレイ111から入力された音声信号を用いて空間をN(N>1)のエリアに分割するように音源分離処理を行う。音源分離処理は、処理フレームごと、つまり所定の時間(時間間隔時間単位)ごとに行われる。音源分離部112は、例えば前記所定の時間ごとにビームフォーミング処理を行い、エリア(a)ごとの音声信号を取得する。取得した音声信号は、時刻(t)情報と共にリアルタイム再生用信号生成手段115および第2記憶手段116へ出力される。本実施形態では、マイクアレイ111が有するマイク数をMとする。つまり、マイクアレイ111はMチャンネル音声チャンネル)のマイクアレイである。

0011

データ制御部113は、音源分離部112の処理量を常時検出する。そして、データ制御部113は、音源分離部112の処理量と音源分離部112の処理許容量とに基づいて、音源分離部112で音源分離に使用する音声チャンネル数を制御(制限)する。例えば、音源分離部112の処理負荷が大きく、マイクアレイ111の全てのマイクを使って音源分離処理を行うと処理がリアルタイム再生に間に合わない場合、データ制御部113は音源分離部112で使用する音声チャネルの数を減らす。つまり、音源分離部112の処理量(処理負荷)が処理許容量以上である場合、音源分離部112はMチャンネルのうちP(P<M)チャンネルの音声をピックアップして、音源分離処理を行う。データ制御部113は、音声チャンネル数を制御・制限することによって、音源分離部112の取り扱いデータ量を低減している。本実施形態において、音源分離部112の処理量が処理許容量以上である場合とは、例えば、音源分離処理がリアルタイム再生に間に合わない場合である。なお、音源分離のビームフォーミング処理に使用するフィルタは、使用するマイク数に応じて事前に用意しておくとよい。

0012

データ制御部113はさらに、データ制限リストを作成して管理する。より詳しくは、データ制御部113は、時間ごとおよびエリアごとに使用したマイク数などのデータをデータ制限リストとして管理する。また、データ制御部113は、音源分離部112の処理負荷が軽くなると(処理許容量より小さくなると)、データ制限リストを参照し、データ制限の行われたフレーム時間フレーム)の再処理が行われるように音源分離部112へ命令を送信する。「データ制限を行う」または「データ制限する」とは、音源分離部112における音源分離処理の処理量を制限することをいう。
第1記憶部114は例えばHDDSSD、メモリのような記憶装置である。第1記憶部114は、音源分離部112においてデータ制限された(チャンネル数を削減された)時間フレームの全音声チャンネルの信号を、時刻情報とともに記録(記憶)する。HDDは、Hard Disk Driveの略である。SSDは、Solid State Driveの略である。音源分離部112の処理許容量は、例えば、第1記憶部114に記憶されている。

0013

リアルタイム再生用信号生成部115は、音源分離部112から得たエリアごとの音声信号を収音から所定の時間内にミキシングすることでリアルタイム再生用の信号を生成し、当該信号を再生装置119に出力する。例えば、リアルタイム再生用信号生成部115は、時間に応じて変化する空間内の仮想聴取点聴取者の位置)と仮想の聴取者の向き(以下、「聴取点と聴取者の向き」と称する)と、再生環境の情報とを外部から取得し、音源のミキシングを行う。再生環境とは、例えば、リアルタイム再生用信号生成部115で生成した信号を再生する再生装置119の種類(スピーカであればステレオサラウンドマルチチャンネルスピーカなのか、あるいはヘッドホンなのか)を意味する。

0014

第2記憶部116は、例えばHDD、SSD、メモリのような記憶装置である。第2記憶部116は、音源分離部112において分離されたエリアごとの音声信号を、エリアおよび時刻情報とともに記録する。
リプレイ再生用信号生成部117は、時刻を指定されてリプレイ再生が要求された場合、当該時刻の音声データ(音声信号)を第2記憶部116から取得し、リアルタイム再生用信号生成部115と同様の処理を行う。そして、リプレイ再生用信号生成部117は、処理後の音声データを再生装置119に出力する。つまり、リプレイ再生用信号生成部117は、第2記憶部116から得たエリアごとの音声信号をミキシングすることでリプレイ再生用の信号を生成し、当該音声信号を再生装置119に出力する。

0015

(音声信号処理のフロー)
図2(A)から図2(C)は、本実施形態の音声信号処理装置100が実行する処理を示すフローチャートである。
図2(A)は、収音からリアルタイム再生用信号を生成するまでのフローを示す。図2(A)に示されているように、はじめに、マイクアレイ111により、空間内の音声の収音が行われる(S111)。収音された各チャンネルの音声の音声信号は、マイクアレイ111から音源分離部12へ出力される。
続いてデータ制御部113が、音源分離部112の処理量に基づいて、音源分離処理がリアルタイム再生に間に合うか否かを判定する(S112)。S112の判定がYesの場合、S115に進む。S112の判定がNoの場合、S113に進む。

0016

リアルタイム再生に間に合わないと判定された場合(S112:No)、データ制御部113は、音源分離部112へ、音源分離処理に使用するチャンネル数を減らすように命令を出力する。さらに、データ制御部113は、データ制限リストを作成する。
続いて音源分離部112は、データ制御部113からの命令に基づいて、チャンネル数の削減を行う(S113)。音源分離部112は、データ制御部113からの命令に基づいて、音源分離に使用する音声(チャンネル)をあらかじめ決められた通りに削減する。本実施形態では、すべてのエリアの音源分離のチャンネル数を一律に削減する。
続いて、音源分離部112は、第1記憶部114に、チャンネル数を削減されたフレームの全チャンネルの音声信号を記録する(S114)。S114の後に、S115に進む。

0017

S115において、音源分離部112は音源分離処理を行う。より詳しくは、音源分離部112は、あらかじめ設定された境界に基づき前記空間を分割したエリアごとの音源(音声信号)を取得する。取得されたエリアごとの音声信号は、音源分離部112からリアルタイム再生用信号生成部115および第2記憶部116へ出力される。
S115の後(音源分離部112から音声信号を受け取ると)、リアルタイム再生用信号生成部115は、リアルタイム再生用の音声信号のミキシングを行う(S116)。リアルタイム再生用にミキシングされた音声信号は、リアルタイム再生用信号として、リアルタイム再生用信号生成部115から外部の再生装置119に出力される。なお、リアルタイム再生用信号は、再生装置119に出力せずに、放送用信号として音声信号処理装置100から他の機器に出力(送信)されてもよい。
第2記憶部116は、音源分離部112から音声信号を受け取ると、各エリアの音声信号の記録を行う(S117)。
なお、リプレイ再生用の音声信号は、第2記憶部116のエリアごとの音声信号を用いて作成される。

0018

次に、図2(B)を用いて、図2(A)のS112の判定がNoになった後に、音源分離部112の負荷が小さくなった場合の処理を説明する。より詳しくは、S112においてリアルタイム再生に処理が間に合わなかったと判定された後に、音源分離部112の処理量が所定量(処理許容量)より小さくなった場合の処理を説明する。
データ制御部113は、音源分離部112の処理量が所定量(処理許容量)より小さくなると、データ制限リストに基づいて第1記憶部114から音声データ(音声信号)を読み出す(S121)。読み出された音声信号は、音源分離部112に送られる。
読み出された音声信号を受け取った音源分離部112は、データ制限リストに記載されているフレーム(S113でチャンネル数を削減されたフレーム)の音声信号に、再度音分離処理を行う(S122)。音源分離処理を行った音声信号は、音源分離部112から第2記憶部116へ出力される。つまり、当該フレームについては、すべてのチャンネルの音声信号の音源分離処理が行われたものが、第2記憶部116へ出力される。換言すると、当該フレームについて、全チャンネルデータを使用した音源分離を行った音声信号が、第2記憶部116へ出力される。

0019

第2記憶部116は、入力されたエリアの音声信号を以前の音声データ(音声信号)に上書きし記録する(S123)。
図2(C)は、リプレイ再生が要求された場合の処理フローを示している。リプレイ再生が要求されると、リプレイ再生用信号生成部117は、第2記憶部116からリプレイ時間に対応したエリアごとの音声信号を読み出す(S131)。
続いてリプレイ再生用信号生成部117は、リプレイ再生用の音声信号のミキシングを行う(S132)。リプレイ再生用にミキシングされた音声信号は、リプレイ再生用信号生成部117から再生装置119へ出力されるか放送用信号として他の機器に出力される。

0020

(実施形態1の効果)
以上説明したように、本実施形態の音声信号処理装置100は、音源分離部112の処理量に応じて音源分離に使用するマイク数(チャンネル数)を制御(制限、削減)する。マイク数を制限・削減すると、音源分離度(分解能)は低下するが、音声信号処理装置100は、リアルタイム再生に間に合うように音源分離を終了することができる。つまり、リアルタイム再生において、音声が欠損することはない。
より詳しくは、音源分離部112における信号処理の処理量が所定量以上である場合、従来の手法では、リアルタイム再生時に音声が欠損する可能性があった。これに対し、本実施形態では、音源分離部112における信号処理の処理量が所定量以上である場合、リアルタイム再生に間に合う範囲(量)で音源分離処理を行って、音声信号を音声再生部に供給している。よって、リアルタイム再生において音声欠損がないか、あるいは音声欠損を低減させることができる。

0021

また、本実施形態では、音源分離部112の処理負荷が所定量未満になると、全チャンネルデータを使用した音源分離を行うことができる。そして、全チャンネルデータを使用した音源分離を行った後の音声データは第2記憶部116に記憶される。リプレイ再生時に、第2記憶部116に記憶した音声データを使用すれば、十分な分解能の音声データをリプレイ再生することができる。本実施形態では、リアルタイム再生時にはすべての音源分離が間に合わなかったエリアに対しても、後に音源分離を行うので(図2(B)のS122)、リプレイ再生時には、完全に音源分離された音声信号を使って再生音声を生成できる。
本実施形態は、チャンネル数を制御することにより、音源分離処理がリアルタイム再生に間に合わない場合に使用するデータ量を低減している。

0022

(変形例)
なお、本実施形態においてマイクアレイ111はマイクロホンからなるとしたが、マイクロホンと反射板などの構造物との組み合わせからなってもよい。
またマイクアレイ111で使用するマイクロホンは、無指向性マイクロホンであってもよいし、指向性マイクロホンであってもよいし、それらの組み合わせでもよい。つまり、マイクアレイ111は、少なくとも1本の指向性マイクを含んでもよい。
本実施形態においてデータ制御部113はある時間フレームにおいて全てのエリアの音源分離のチャンネル数を一律に削減したが、エリアごとにチャンネルの削減率を変えてもよい。例えば、音声信号処理装置100は、エリア重要度設定部をさらに備える。そして、エリア重要度設定部は、エリアごとの重要度(優先度)を設定する。音声信号処理装置100は、設定されたエリアごとの重要度に応じて、例えば、重要度の高いエリアはチャンネルの削減率が低く、重要度の低いエリアはチャンネルの削減率が高くなるようにする。より具体的には、収音すべき空間がサッカースタジアムの場合、ゴール付近のエリアの重要度を高く設定する。また収音すべき空間が道路である場合、信号機付近のエリアの重要度を高く設定する。

0023

またエリアごとの重要度は、処理フレームよりも前のフレームの音声信号に基づいて決定してもよい。例えば連続する音声がフレーム間にまたがる場合、処理を急に変えると音質が変わってしまうおそれがある。そのため、例えば、直前のフレームの音声信号のレベル所定レベルより高いエリアは、重要度が高くなるように設定する。あるいは、所定時間の平均音声レベル所定値より高いエリアは重度が高くなるように設定してもよい。
本実施形態においてデータ制御部113は、処理負荷が所定量より小さくなった場合に、チャンネル数を削除されたフレームの全チャンネルの音声信号を使用して再度音源分離を行った(S121〜S122)が、チャンネルの一部を用いてもよい。例えば、音源分離のビームフォーミング処理が遅延和処理である場合、音源分離を行った際に使用しなかったチャンネルの遅延和信号を先の音源分離で遅延和処理した信号に加算する。この加算により、全部のチャンネルを使用して遅延和処理した場合と同様の信号が得られる。ビームフォーミング処理は線形処理であるためチャンネルを分割して別々に処理を行い後で加算(あるいは減算)を行うことができる。このようにすれば処理量の増加を抑えることができる。

0024

本実施形態において音源分離部112はビームフォーミングを用いてエリアごとの音声収音を行ったが、その他の音源分離の手法を用いてもよい。例えばエリアごとのパワースペクトル密度(PSD)を推定し、推定したPSDに基づいてウィナーフィルタによる音源分離を行ってもよい。PSDは、Power Spectral Densityの略である。
またマイクアレイ111の各マイクロホンを指向性マイクとして、隣接するエリアとのクロストークを分離するために、非負値行列因子分解(NMF)を用いてもよい。つまり、隣接するエリア同士に含まれる同じ基底を持つ成分をクロストーク成分として、アクティビティの大きさの比から音源位置を決定するようにしてもよい。その場合、処理負荷が所定量以上の場合には、基底数を減らした状態で処理を行い、処理負荷が所定量未満の場合には必要十分な基底数を用いて処理を行うようにしてもよい。NMFはNon−negative Matrix Factorizationの略である。

0025

本実施形態において、音源分離部112は音声チャンネル数を減らすことで音源分離部112の処理量を低減させたが、音声チャンネル数を減らさずに処理量を低減してもよい。例えば、音源分離部112は、音源分離処理に使用するフィルタのタップ数を減らすことで音源分離部112の処理量を低減させてもよい。例えば、処理負荷が所定量以上の場合には、フィルタをフィルタ長の半分の長さの矩形窓切り出して使用する。そして、処理負荷が所定量未満になると、残りの半分のフィルタでフィルタリングした音声を出力し、前記フィルタ長の半分のサンプル分遅延させて加算するようにしてもよい。

0026

あるいはリアルタイム再生用信号生成で設定される仮想の聴取点(仮想の聴取者の位置)および仮想の聴取者の向きに応じて音声データの処理量を制御するようにしてもよい。例えば、仮想の聴取点からエリアまでの距離が近いエリアの音声信号ほど、データ処理量が多くなるようにしてもよい。
本実施形態においてリプレイ再生用信号生成部117とリアルタイム再生用信号生成部115は同様の処理(ミキシング)を行うとした。しかしリプレイ再生用信号生成部117とリアルタイム再生用信号生成部115では異なるミキシングをしてもよい。例えば、リアルタイム再生時とリプレイ再生時とで、仮想の聴取点が異なる場合には、リプレイ再生のミキシングは、リアルタイム再生のミキシングとは異なってもよい。

0027

図1に示した構成には、遅延補正ゲイン補正エコー除去雑音除去等を行う音声信号処理部が含まれていないが、必要に応じて、例えば、音源分離部112につながる位置に音声信号処理部を設けてもよい。また、図1の音声信号処理装置100は表示部を備えてもよい。表示部がユーザインタフェイス機能を備えていれば、音声信号処理装置100のユーザは、表示部の表示画面を使ってエリアごとの重要度などを設定することができる。
図1に示した構成では、マイクアレイ111が音声信号処理装置100に含まれているが、マイクアレイ111は音声信号処理装置100に含まれなくてもよい。その場合、音声信号処理装置100(音源分離部112)は、外部装置であるマイクアレイ111から音声信号を受け取る。また、図1に示した構成では、リアルタイム再生用信号生成部115およびリプレイ再生用信号生成部117が音声信号処理装置100に含まれているが、再生用信号生成部115および(または)117は音声信号処理装置100に含まれなくてもよい。

0028

図2(A)のフローチャートにおいて、S117はS116の後に実行されるように示されているが、S117はS116と同時に実行されてもよいし、S116の前に実行されてもよい。
上記の説明では、音源分離部112の処理量と音源分離部112の処理許容量とに基づいて、音源分離処理がリアルタイム再生に間に合うか否かを判定した(図2のS112)が、他の構成要素等の処理量と処理許容量に基づいて上記判定をしてもよい。例えば、音源分離部112の処理量と図3のCPU121の処理許容量に基づいて上記判定をしてもよい。音源分離部112がマイクプロセッサなどの処理装置からなる場合、音源分離部112の処理量と当該処理装置の処理許容量に基づいて上記判定をしてもよい。

0029

(ハードウェア構成)
図1に示す機能ブロックの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、たとえば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA上に自動的に専用回路を生成すればよい。FPGAは、Field Programmable Gate Arrayの略である。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。さらに、ASIC(Application Specific IntegratedCircuit)により実現するようにしてもよい。

0030

図3は音声信号処理装置100のハードウェア構成の一例を示す図である。この例において、音声信号処理装置100は、CPU121、RAM122、ROM123、外部メモリ124、通信インタフェイス(I/F)125、表示部126、入力部127及びマイクアレイ111を有する。CPU121は、RAM122、ROM123、外部メモリ124等に格納されたプログラムを実行することにより、上記した実施形態1の音声信号処理装置100の各部の機能を実現することができる。音声信号処理装置100は、CPU121が必要なプログラムを読み出して実行することにより、図2に示す各処理を実現することができる。通信I/F125は、外部の装置や機器との通信を行うインタフェイスである。音声信号処理装置100は、通信I/F125を介して、図1の再生装置119と通信することができる。表示部126は、各種ディスプレイにより構成することができる。表示部126は、例えば、データ制御部113のデータ制御の実施状況(例えば、マイク数の削減状況やフィルタ長の削減状況)を表示することができる。入力部127は、キーボードポインティングデバイスマウスなど)、タッチパネルおよび各種スイッチにより構成することができる。ユーザは、入力部127を用いて、音声信号処理装置100にリプレイ再生を要求することができる。

0031

実施形態2
実施形態1ではマイクアレイ111と音源分離部112とデータ制御部113とリアルタイム再生用信号生成部115とリプレイ再生用信号生成部117とが1つの装置100に含まれる構成を説明したが、本発明はこのような構成に限定されない。例えば、マイクアレイと音源分離部とデータ量制御部を1つの装置に含むようにし、再生用信号生成部は当該装置から分離した構成(システム)でも実施することができる。また、マイクアレイは指向性マイクアレイを採用してもよい。このような構成を有する音声信号処理システム(音響システム)を、実施形態2として説明する。なお、実施形態1と同様な構成部には同じ参照符号を付ける。

0032

(音響システム200の構成)
図4は実施形態2の音響システム200の構成を示すブロック図である。音響システム200は、収音処理部(収音処理装置)210と再生信号生成部(再生信号生成装置)220とを有する。収音処理部210と再生信号生成部220は、有線もしくは無線で相互接続されており、有線もしくは無線の伝送経路通信経路)118cを通じてデータの送受信を行うことができる。生成信号生成部は、音声信号の再生部と称してもよい。

0033

収音処理部210は、指向性マイクアレイ211、音源分離部212、データ量制御部213、第1送受信部214および第1記憶部215を有する。収音処理部210の各構成部は、バス118aにより相互接続されている。
指向性マイクアレイ211は、複数の指向性マイクロホンからなる。複数の指向性マイクロホンは、例えば、複数のショットガンマイクである。指向性マイクアレイ211は、空間をN(N>1)のエリアに分割した各エリアの音声を収音するように配置される。収音したエリアごとの音声は、A/D変換されたのち、所定の時間フレームサイズごとに指向性マイクアレイ211から音源分離部212へ出力される。
音源分離部212は、指向性マイクアレイ211でエリアごとに収音された音声(音源)に混じったエリア外の音声を分離する。例えば、指向性マイクで発生するサイドローブで収音してしまった音声を、他の指向性マイクの出力を使って低減する。音源分離したデータは、音源分離部212からデータ量制御部213へ出力される。つまり、音源分離部212は、処理後(音源分離処理後)の音声信号をデータ量制御部213へ出力する。

0034

データ量制御部213は、第1送受信部214から再生信号生成部220(第2送受信部221)への伝送経路118cの音声データ通信量をモニタする。そして、データ量制御部213は、当該通信量に応じて、データ量制御部213から第1送受信部214へ出力する音声データの通信量を制御する。例えば、第2送受信部221への通信量(通信負荷)が所定量以上であるために、全エリアの音声データを送信する余裕がない場合、データ量制御部213は、隣接する2つの音源(音声信号)を合成して一つの音源として第1送受信部214へ出力する。全エリアに対してこの処理を行うことにより、通信量は半分に減る。その結果、第1送受信部214から第2送受信部221へ送信(伝送)される音声データの通信量も半分に減る。つまり、データ量制御部213は、収音処理部210(第1送受信部214)から再生信号生成部220へのデータ通信量を制御していると言える。なお、全エリアの音声データを送信する余裕がない場合とは、全エリアの音声データを送信するとリアルタイム再生に間に合わない場合(通信量が所定量以上である場合)のことである。音声信号を合成した場合、データ量制御部213は、合成した音声信号のエリア番号、フレーム番号および合成時のゲインパラメータ等が記録されている合成リストを作成する。

0035

例えば、エリアAの音声SAとエリアBの音声SBをそれぞれ1:α(≦1)の比率で合成した音声をSCとすると、SC=SA+α×SBとなる。第1送受信部214から第2送受信部221へのデータ通信量が所定量以上の場合、データ量制御部213は、合成した音声SCを第1送受信部214に出力する。その後、前記通信量が所定量未満になると、データ量制御部213は、上記合成リストに基づいて音声信号を第1送受信部214へ送信する。より詳しくは、データ量制御部213は、通信の負荷が低くなり余裕ができると、ゲインパラメータαとエリアBの音声SBとフレーム番号を第1送受信部214へ送信する。

0036

第1送受信部214は、データ量制御部213から入力されたエリアごとの音声信号を再生信号生成部220へ出力する。より詳しくは、データ量制御部213においてデータ合成がされていない場合、第1送受信部214は、当該エリアの音声信号を第2送受信部221へ送信する。データ量制御部213においてデータ合成がされている場合、第1送受信部214は、データ合成された音声信号を第2送受信部221へ送信する。データ量制御部213が上記合成リストに基づいて音声信号を第1送受信部214へ送信した場合、この音声信号はゲインパラメータを含む。

0037

再生信号生成部220は、第2送受信部221、リアルタイム再生用信号生成部222、第2記憶部223、リプレイ再生用信号生成部224およびデータ復元処理部225を有する。再生信号生成部220の各構成部は、バス118bにより相互接続されている。
第2送受信部221は、第1送受信部214から出力された音声信号を受信し、当該音声信号をリアルタイム再生用信号生成部222および第2記憶部223へ出力する。
また、第2送受信部221は、ゲインパラメータαを含む音声データ(音声信号SB)を第1送受信部214から受信した場合、当該受信データをデータ復元処理部225へ出力する。

0038

リアルタイム再生用信号生成部222、第2記憶部223、リプレイ再生用信号生成部224は、それぞれ、実施形態1のリアルタイム再生用信号生成部115、第2記憶部116、リプレイ再生用信号生成部117とほぼ同様のものである。
データ復元処理部225は、第2送受信部221から音声信号SB、ゲインパラメータα、エリア情報および時間情報を受け取ると、当該時間とエリアに対応する音声信号SCを第2記憶部223から取得する。第2記憶部223から取得した音声信号SCと第2送受信部221から入力された音声信号SBとゲインパラメータαとを用いて、データ復元処理部225は、エリアAの音声信号SA(=SC−α×SB)を算出する。データ復元処理部225は、算出した音声信号SA、入力された音声信号SB、エリア情報および時間情報を第2記憶部223へ出力する。これにより、データ復元処理部225は、音声信号SAと音声信号SBを復元したと言える。
リアルタイム再生用信号生成部222は、第2送受信部221から入力された音声信号をミキシングして、リアルタイム再生信号を生成する。
リプレイ再生用信号生成部224は、第2記憶部223から入力された音声信号をミキシングして、リプレイ再生信号を生成する。

0039

(音響システム200の処理フロー)
次に、音響システム200の処理フローを、図5(A)から図5(C)を参照して説明する。
図5(A)に示すように、はじめに、指向性マイクアレイ211が、空間内の音の収音を行う(S211)。収音された各エリアの音声の音声信号は、指向性マイクアレイ211から音源分離部212へ出力される。
音源分離部212は、入力された音声信号に対してエリアごとの音声信号を取得するための音源分離処理を行う(S212)。音源分離処理された音声信号は、音源分離部212からデータ量制御部213へ出力される。

0040

データ量制御部213は、データ伝送がリアルタイム再生に間に合うか否かの判定(S213)を行う。データ量制御部213は、収音処理部210と再生信号生成部220との間の伝送経路118cの通信負荷(音声データの送信量)に応じて、音声データの伝送完了までの時間を推定し、リアルタイム再生に間に合うか否かを判定する。リアルタイム再生に間に合うと判定した場合、データ量制御部213は、そのエリアの音声データを第1送受信部214へ出力する。第1送受信部214は、当該音声データを第2送受信部221へ送信する(S216)。

0041

一方、データ量制御部213は、リアルタイム再生に間に合わないと判定した場合、隣接する2つのエリアの音声データを合成する(S214)。上記した例と同じように、データ量制御部213は、エリアAの音声SAとエリアBの音声SBを1:αの比率で合成し、合成音声SCを生成するとする。合成の情報は、合成リストとして管理される。合成された音声データはエリアAの音声データとして、データ量制御部213から第1送受信部214へ出力される。
音声データの合成が行われると、第1記憶部215は、合成前の音声データ(SA,SB)と、ゲインパラメータαとを、時刻情報とエリア情報とにづけて記録する(S215)。
S215の後、第1送受信部214は、合成した音声データを第2送受信部221送信する(S216)。
第2送受信部221は、第1送受信部214から送信されたエリアの音声信号を受信する(S217)。受信されたエリアの音声信号は、第2送受信部221からリアルタイム再生用信号生成部222および第2記憶部223へ出力される。
S218およびS219は、実施形態1のS116およびS117と同様であるので詳細な説明は省略する。

0042

次に、図4(B)を用いて図4(A)のステップS213においてリアルタイム再生にデータ伝送が間に合わなかった場合で、エリアAとエアリBの音声が合成された場合の処理を説明する。
データ量制御部213は、通信負荷が所定量より小さくなると、合成リストに基づき第1記憶部215から合成したエリアBの音声信号SBとゲインパラメータαの読み出しを行う(S221)。読み出された音声信号SBおよびゲインパラメータαは、データ量制御部213から第1送受信部214へ出力される。
ステップS222は図5(A)のS216と同様のため説明を省略する。

0043

続いて第2送受信部221が、第1送受信部214から音声データSBを受信する(S223)。第2送受信部221は、ゲインパラメータαを含む音声データSBを受信すると、当該データSBをデータ復元処理部225へ出力する。
データ復元処理部225は、エリアAの音声データSAの復元算出を行う(S224)。データ復元処理部225で算出された音声データSAは、第2記憶部223へ出力される。
最後に第2記憶部223は、算出された音声データSAおよびS223で受信した音声データSBを記録する(S225)。
図5(C)に示されているリプレイ再生が要求された場合の処理フロー(S231、S232)については実施形態1の処理(S131、S132)と同様のため説明を省略する。

0044

(実施形態2の効果)
以上説明したように、実施形態2の音響システム200は、伝送経路118cの音声信号の送信量(伝送量、負荷)に基づいて隣接するエリアの音声信号を合成し、伝送経路118cの音声信号の量(データ量)を制御している。このような制御をすることで、実施形態2の音響システム200は、すべての収音エリアについて、リアルタイム再生に間に合うように音声信号をリアルタイム再生用信号生成部222に供給することができる。よって、再生装置119でリアルタイム再生が行われるときに、音声が途切れることのない(あるいは音声の途切れが少ない)リアルタイム再生(放送)を行うことができる。

0045

さらにリプレイ再生時には、リアルタイム再生のときに伝送が間に合わず合成音声SCを使ったエリア(AとB)についても、音響システム200は、分離された音(SAとSB)を使ってリプレイ再生音声を生成できる。つまり、リプレイ再生時には、すべてのエリアについて、元の音声信号を使って(合成した音声信号を使わずに)再生音を生成できる。
第1送受信部214から第2送受信部221への信号送信量が所定量以上である場合、従来の手法ではリアルタイム再生時に音声が欠損する可能性がある。これに対し、本実施形態では、リアルタイム再生に間に合う範囲で、複数のエリアの音声信号を合成し、合成音声信号と、合成されていない音声信号とを第1送受信部214から送信している。よって、確実にリアルタイム再生できるように、音声信号が第1送受信部214から第2送受信部221に届くようになっている。

0046

(変形例)
本実施形態においてエリアごとの音声の収音には指向性マイクアレイ211を用いたが、実施形態1のようにマイクアレイを用いて収音した後、音源分離を行ってもよい。また、無指向性のマイクロホンは、設定したエリアそれぞれの略中心に配置して音声を取得するようにしてもよい。
本実施形態においては、データ量制御部213は、説明を容易にするために、隣接する2つのエリアの音声信号を合成したが、隣接する3つ以上のエリアの音声信号を合成してもよい。つまり、合成するエリア数は2に限定されず、3以上でもよい。例えば、データ量制御部213は、隣接する4つのエリアの音声信号を合成するようにしてもよい。ただし、合成するエリアの数を多くしすぎると、聴取点に応じたミキシングが難しくなる可能性がある。したがって、合成するエリアの数は、例えば、聴取点に応じたミキシングの困難の程度に応じて決める。

0047

またデータ量制御部213は、リアルタイム再生用信号生成時の聴取点および聴取者の向きに基づいて、所定数のエリアの音声信号を合成してもよい。リアルタイム再生用信号生成時の聴取点および聴取者の向きは、例えば、リアルタイム再生用信号生成部222から第2送受信部221および第1送受信部214を経由してデータ量制御部213へ送られる。より具体的には、データ量制御部213は、聴取点からエリアまでの距離に応じて、低減するデータ量を決定(変更)してもよい。つまり、聴取点の近傍のエリアについては、エリアの粒度を適切な粒度に保つためエリア同士の合成はせず、聴取点から離れるに従って合成するエリアの数を増やすようにしてもよい。あるいは音声の聴取点からの略同じ方向にある複数のエリアの音声信号を合成するようにしてもよい。
データ量制御部213は、エリアごとの重要度を設定する設定部を有してもよい。その場合、重要度に応じて、低減するデータ量を決定(変更)してよい。

0048

音声信号の合成によりエリアの数を減らす場合、合成後のエリアの形状は、合成前のエリアの形状に基づいていなくてもよい。音声信号の合成により全体としてエリアの数が減少していれば、第1送受信部214から第2送受信部221への音声信号の送信量は減少するので、合成後のエリアの形状はユーザが適宜決めてよい。図6(A)には、合成前の4つのエリア501、502、503および504が示されている。以下の記載において、これら4つのエリアは、エリアA、エリアB、エリアCおよびエリアDと称する。図6(A)の4つのエリア(エリアA、エリアB、エリアCおよびエリアD)は、音声信号の合成により、図6(B)に示すような3つのエリア503、505および506になるとする。つまり、図6の例では、4つのエリアA〜エリアDが3つのエリアC、EおよびFになる。図6の例では、エリアCは合成されておらず、エリアA、BおよびDがエリアEおよびFに合成されている。
図6の例では、エリアCの音声はSCである。エリアEの音声SEは、SE=SA+SB/2で算出され、エリアFの音声SFはSF=SD+SB/2で算出する。

0049

また音声信号を合成するエリアはエリアの音声信号に基づいて決めてもよい。つまり、どのエリアをどのエリアと合成するかは、当該エリアの音声信号に基づいて決めてよい。例えば、隣接する2つのエリアの音声信号を比較し、比較結果に基づいて当該隣接する2つのエリアの音声信号を合成するか否かを決めてもよい。具体的には、例えば隣接するエリア同士の音声信号の相関度を計算し、相関度が所定値以上の場合(相関度が高い場合)には、当該隣接するエリア同士の音声信号を合成する。相関度が高いエリア同士では、同じ音源の音声が隣接するエリアにクロストークしていると考えられるため、隣接するエリアの音声信号を合成するようにしてもよいからである。

0050

また本実施形態においてデータ量制御部213はエリアごとの音声信号を合成することでチャンネル数を少なくし、送信するデータ量を減らしたが、他の方法でデータ量を制御(制限)してもよい。例えば、エリアの音声信号の量子化ビット数サンプリング周波数を制御してもよい。具体的には、聴取点から遠いエリアの音声信号はミキシングを行う際に小さいゲインで合成されるため、通常時の音声信号の量子化ビット数を2^Q(2のQ乗)とすると聴取点から遠いエリアについては2^R(R<Q)としてもよい。またサンプリング周波数についても通常時48kHzでサンプリングしていた音声信号を2サンプルごとに平均値をとり、24kHzの音声データ(音声信号)として出力してもよい。このように量子化ビット数を減らした場合、リアルタイム再生用信号生成部222は、音声データを削減した2^(Q−R)ビット分の音声データにゼロを詰めて他の音声データとビット数を合わせてからミキシングする。またサンプリング周波数を減らした場合、リアルタイム再生用信号生成部222は、線形補間などの補間を行い48kHzの音声データとしてミキシングを行う。データ量制御部213は、制御した量子化ビット数やサンプリング周波数のデータ(情報)をデータ量制御リストで管理する。つまり、削除した音声データがどのようなものであるかは、データ量制御リストを参照すると分かるようになっている。

0051

データ量制御部213は、第1送受信部214からの音声信号の通信量が所定量未満になると、データ量制御リストに基づいて、削減した音声データを第1送受信部214へ出力する。データ復元処理部225は、第1送受信部214から送られてきた音声データの時刻とエリアの情報に基づいて第2記憶部223から音声データを読み出し、音声データを復元する。なお、データ量制御部213は、量子化ビット数およびサンプリング周波数の削減を、聴取点から当該エリアまでの距離に応じて制御するようにしてもよい。

0052

実施形態2の音響システム200は、データ量制御の実施状況を表示する表示部を備えてもよい。図7(A)〜(C)は、表示部の表示画面600の例を示している。表示画面600は、タイムバー601とタイムカーソル602とエリア603を有する。あるフレームの全エリアのデータを第1送受信部214から第2送受信部221へ送信できている場合には、表示画面600は図7(A)のようになる。つまり、図7(A)の表示画面600は、データ量制御が実施されていない状況を表示している。図7(A)の表示画面600には40個のエリア603が表示されている。一方、データ量制御(エリアの音声信号の合成)が実施されたときは、例えば、表示画面600は図7(B)に示すようになる。より詳しくは、表示画面600は、4つのエリア603と、複数の合成エリア604(2つの合成エリア604aと、1つの合成エリア604bと、2つの合成エリア604c)とを表示する。つまり、合成された複数のエリア603は、それぞれ合成エリア604a、604b、604cとして、ひとまとめにされて表示される。

0053

なお、データ量制御が実施されたときの表示画面600は図7(B)のような表示画面に限定されない。例えば、図7(C)に示すように、エリア603に、データ量制御がされたことが分かる表示606を追加(重畳表示)してもよい。例えば、量子化ビット数が1/2になった場合は、図7(D)に示すように「Bit1/2」という表示606がエリア603に追加される。サンプリング周波数が1/2になった場合は、図7(E)に示すように「Freq1/2」という表示606がエリア603に追加される。
なお、実施形態1の音声信号処理装置100も、図7(C)の表示画面600を有する表示部を備えてよい。実施形態1において例えば、マイク数を1/2に制御した場合には、図7(F)のように、「Mic1/2」という表示606がエリア603に追加される。また、例えば、フィルタ長が1/2にされた場合は、図7(G)に示すように「Filt1/2」という表示606がエリア603に追加される。

0054

また、表示画面600にはリアルタイム再生時の視点、リプレイ再生時の視点、被写体の位置などを重ねて表示するようにしてもよい。また、全エリア表示は実際の空間の画像に重ねて表示してもよい。
表示画面600は、表示機能だけでなくユーザインタフェイスとして機能を備えてもよい。その場合、実施形態2の音響システム200のユーザは、例えば、音声データの復元を行う際に、表示画面600の合成エリア604を少なくとも1つ選択し、タイムカーソル602を用いて時間区間を選択することができる。このような選択をすることにより、復元すべき合成エリアを指定して、且つ、復元すべき時間区間を指定することができる。また、復元すべき合成エリアが複数ある場合には、復元順序を指定することもできる。

0055

(他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラム(コンピュータプログラム)を、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(たとえば、ASIC)によっても実現可能である。

0056

100…音声信号処理装置、111…マイクアレイ、112…音源分離部、113…データ制御部、114…第1記憶部、115…リアルタイム再生用信号生成部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 中興通訊股ふん有限公司の「 音声再生方法および端末、記憶媒体」が 公開されました。( 2020/09/24)

    【課題・解決手段】音声再生の過程においてターゲットスピーカーモジュールを識別し、前記ターゲットスピーカーモジュールを用いて音声を再生することを含む、音声再生方法である。端末である。本開示は受話器または... 詳細

  • 三菱電機株式会社の「 スピーカーシステム」が 公開されました。( 2020/09/24)

    【課題】高音質な音場空間を実現するスピーカーシステムを提供する。【解決手段】スピーカーシステムは、音場空間に設置されるキャビネットと、キャビネットに設けられ、音を放射する複数のスピーカーユニットと、音... 詳細

  • 日本精機株式会社の「 表示装置」が 公開されました。( 2020/09/24)

    【課題】薄型化を実現することができる表示装置を提供する。【解決手段】本実施形態の表示装置1は、表示ユニット20と、表示ユニット20を制御する回路基板30と、前面10aと、前面10aと反対の面である背面... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ