図面 (/)

技術 オーディオ分類および処理のための装置および方法

出願人 ドルビーラボラトリーズライセンシングコーポレイション
発明者 ルー,リエシーフェルドット,アランジェイワン,ジュン
出願日 2014年3月25日 (7年7ヶ月経過) 出願番号 2016-505531
公開日 2016年7月7日 (5年3ヶ月経過) 公開番号 2016-519784
状態 特許登録済
技術分野 音声の分析・合成
主要キーワード ステップ長さ 遷移カウント 外部観察者 依存制御 本解決策 相対ノイズ 出力スコア 周波数閾値
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年7月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

オーディオ分類および処理のための装置および方法が開示される。ある実施形態では、オーディオ処理装置は、リアルタイムオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;聞き手の経験を改善するためのオーディオ改善装置と;前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを含む。

概要

背景

いくつかのオーディオ改善装置は、オーディオの全体的な品質を改善し、相応してユーザーの経験を向上させるために、時間領域またはスペクトル領域のいずれかにおいてオーディオ信号修正する傾向がある。さまざまなオーディオ改善装置がさまざまな目的のために開発されている。オーディオ改善装置のいくつかの典型的な例は次のものを含む。

ダイアログ向上器〔エンハンサー〕:ダイアログは、映画およびラジオまたはテレビプログラムにおいてストーリーを理解するための最も重要な構成要素である。特に聴力衰えつつある高齢者のために、ダイアログの明瞭性および了解性を高めるためにダイアログを向上させる諸方法が開発された。

サラウンド仮想化器:サラウンド仮想化器は、PCの内部スピーカーを通じてまたはヘッドフォンを通じてサラウンド(マルチチャネルサウンド信号レンダリングされることができるようにする。すなわち、(スピーカーおよびヘッドフォンのような)ステレオ装置を用いて、仮想的にサラウンドの効果を生成し、消費者のために映画館体験を提供するのである。

ボリューム平準化器:ボリューム平準化器は、再生時にオーディオ・コンテンツのボリュームを調整し、目標ラウドネス値に基づいて時間軸を通じてボリュームがほぼ一貫しているようにするすることをねらいとする。

等化器イコライザー〕:等化器は、「トーン」または「音色」として知られるスペクトル・バランス一貫性を提供し、ユーザーが、ある種の音を強調したり望ましくない音を除去したりするために、個々の周波数帯域での周波数応答(利得)の全体的なプロファイル曲線または形状)を構成設定できるようにする。伝統的な等化器では、異なる等化器プリセットが、種々の音楽ジャンルのような種々の音のために提供されてもよい。ひとたびプリセットが選択されたらまたは等化プロファイルが設定されたら、手動で等化プロファイルが修正されるまで、同じ等化利得が信号に対して適用される。対照的に、動的等化器は、オーディオのスペクトル・バランスを連続的にモニタリングし、それを所望されるトーンと比較し、オーディオの元のトーンを所望されるトーンに変換するための等化フィルタを動的に調整することによってスペクトル・バランス一貫性を達成する。

一般に、オーディオ改善装置はその独自の応用シナリオコンテキストをもつ。すなわち、オーディオ改善装置は、あらゆる可能なオーディオ信号についてではなく、ある種のコンテンツの集合についてのみ好適であることがある。異なるコンテンツは異なる仕方で処理される必要があることがあるからである。たとえば、ダイアログ向上方法は、通例、映画コンテンツに適用される。それがダイアログのない音楽に適用されたとしたら、いくつかの周波数サブバンドを誤ってブーストし、重度音色変化および知覚的非一貫性を導入することがありうる。同様に、音楽信号に対してノイズ抑制方法が適用されたとしたら、強いアーチファクト可聴となるであろう。

しかしながら、通例はオーディオ改善装置の集合を含むオーディオ処理システムについて、その入力は、必然的に、あらゆる可能な型のオーディオ信号でありうる。たとえば、PCに統合されたオーディオ処理システムは映画、音楽、VoIPおよびゲームを含む多様な源からオーディオ・コンテンツを受領することになる。よって、対応するコンテンツに対してよりよいアルゴリズムまたは各アルゴリズムのよりよいパラメータを適用するために、処理されるコンテンツを識別または区別することが重要になる。

オーディオ・コンテンツを区別して、相応してよりよいパラメータまたはよりよいオーディオ改善アルゴリズムを適用するために、伝統的なシステムは、通例、プリセットの集合を事前設計し、ユーザーは再生されるコンテンツについてのプリセットを選ぶことを求められる。プリセットは通例、映画または音楽再生のために特に設計された「映画」プリセットおよび「音楽」プリセットのように、適用されるオーディオ改善アルゴリズムおよび/またはその最良のパラメータの集合をエンコードする。

概要

オーディオ分類および処理のための装置および方法が開示される。ある実施形態では、オーディオ処理装置は、リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;聞き手の経験を改善するためのオーディオ改善装置と;前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを含む。

目的

すなわち、(スピーカーおよびヘッドフォンのような)ステレオ装置を用いて、仮想的にサラウンドの効果を生成し、消費者のために映画館の体験を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

リアルタイムオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;聞き手の経験を改善するためのオーディオ改善装置と;前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善装置の少なくとも一つのパラメータを調整する調整ユニットとを有する、オーディオ処理装置

請求項2

前記少なくとも一つのオーディオ型が、短期音楽発話背景音およびノイズコンテンツ型の少なくとも一つおよび/または長期的音楽、映画メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項1記載のオーディオ処理装置。

請求項3

前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、請求項1記載のオーディオ処理装置。

請求項4

前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、請求項1記載のオーディオ処理装置。

請求項5

前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、請求項3記載のオーディオ処理装置。

請求項6

前記短期的音楽が、少なくとも一つのジャンルベースクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズムテンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、請求項3記載のオーディオ処理装置。

請求項7

前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項1記載のオーディオ処理装置。

請求項8

前記オーディオ改善装置が、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器から選択される少なくとも一つを含む、請求項2記載のオーディオ処理装置。

請求項9

前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、前記ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項10

前記オーディオ改善装置がダイアログ向上器を含み、前記調整ユニットが、前記ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項11

前記オーディオ改善装置がそれぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上器を含み、前記調整ユニットは、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項12

前記オーディオ改善装置が、前記オーディオ信号における背景レベル推定するための最小追跡ユニットを有し、前記調整ユニットは、前記最小追跡ユニットによって推定される背景レベルに調整を割り当てるよう構成されており、前記調整ユニットはさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項13

前記調整ユニットは、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項12記載のオーディオ処理装置。

請求項14

前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項15

前記調整ユニットが、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項14記載のオーディオ処理装置。

請求項16

前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項17

前記オーディオ改善装置がサラウンド仮想化器を含み、前記調整ユニットが、前記サラウンド仮想化器のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、請求項2記載のオーディオ処理装置。

請求項18

前記調整ユニットが、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、請求項17記載のオーディオ処理装置。

請求項19

前記調整ユニットが、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、請求項2記載のオーディオ処理装置。

請求項20

異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、請求項19記載のオーディオ処理装置。

請求項21

前記調整ユニットが、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項1ないし20のうちいずれか一項記載のオーディオ処理装置。

請求項22

前記調整ユニットが、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項1ないし20のうちいずれか一項記載のオーディオ処理装置。

請求項23

前記調整ユニットが、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、請求項22記載のオーディオ処理装置。

請求項24

前記調整ユニットが、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、請求項1ないし20のうちいずれか一項記載のオーディオ処理装置。

請求項25

前記調整ユニットによって調整される前記オーディオ改善装置のあるパラメータについて、現時点で前記調整ユニットによって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整ユニットによって決定されるパラメータ値を平滑化するパラメータ平滑化ユニットをさらに有する、請求項1ないし20のうちいずれか一項記載のオーディオ処理装置。

請求項26

前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、請求項25記載のオーディオ処理装置。

請求項27

前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、請求項25記載のオーディオ処理装置。

請求項28

前記重み付けされた和を計算するための重みが、前記調整ユニットによって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、請求項25記載のオーディオ処理装置。

請求項29

各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化する型平滑化ユニットをさらに有する、請求項1ないし20のうちいずれか一項記載のオーディオ処理装置。

請求項30

前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、請求項29記載のオーディオ処理装置。

請求項31

前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、請求項29記載のオーディオ処理装置。

請求項32

前記オーディオ分類器が同じ新しいオーディオ型を連続的に出力する継続時間を測定するタイマーをさらに有しており、前記調整ユニットは、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、請求項1ないし20のうちいずれか一項記載のオーディオ処理装置。

請求項33

あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、請求項32記載のオーディオ処理装置。

請求項34

前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、請求項32記載のオーディオ処理装置。

請求項35

それぞれオーディオ・フレームシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する短期的特徴抽出器と;長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する短期的分類器と;前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記短期的分類器の結果の統計量長期的特徴として計算する統計抽出器と;前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する長期的分類器とを有する、オーディオ分類器。

請求項36

前記短期的分類器が、短期的セグメントの前記シーケンスの各短期的セグメントを、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類するよう構成されている、請求項35記載のオーディオ分類器。

請求項37

前記統計抽出器が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、請求項35記載のオーディオ分類器。

請求項38

前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する長期的特徴抽出器をさらに有する、請求項35記載のオーディオ分類器。

請求項39

前記長期的特徴抽出器がさらに、前記長期的特徴として、前記短期的特徴の次の統計量、すなわち:平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、請求項38記載のオーディオ分類器。

請求項40

オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器をさらに有しており、前記短期的特徴抽出器は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算するよう構成される、請求項35ないし39のうちいずれか一項記載のオーディオ分類器。

請求項41

前記フレーム・レベル特徴抽出器は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、請求項40記載のオーディオ分類器。

請求項42

さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち:フレーム・エネルギーサブバンドスペクトル分布スペクトルフラックスメル周波数ケプストラム係数、ベース、残差情報クロマ特徴および零交差レートのうちの少なくとも一つを含む、請求項41記載のオーディオ分類器。

請求項43

前記短期的特徴抽出器が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算するよう構成されている、請求項40記載のオーディオ分類器。

請求項44

前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、請求項40記載のオーディオ分類器。

請求項45

前記短期的特徴抽出器は、短期的特徴として、次の特徴、すなわち:リズム特性中断ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出するよう構成されている、請求項40記載のオーディオ分類器。

請求項46

オーディオ・フレームからフレーム・レベル特徴を抽出するフレーム・レベル特徴抽出器と、それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類するフレーム・レベル分類器とを有しており、前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル分類器の結果に基づいて前記短期的特徴を計算するよう構成されている、請求項35ないし39のうちいずれか一項記載のオーディオ分類器。

請求項47

前記短期的特徴抽出器は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームに関する前記フレーム・レベル分類器の結果の両方に基づいて前記短期的特徴を計算するよう構成されている、請求項46記載のオーディオ分類器。

請求項48

前記フレーム・レベル特徴抽出器は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出するよう構成されている、請求項46または47記載のオーディオ分類器。

請求項49

前記短期的特徴抽出器が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して作用するよう構成されている、請求項46または47記載のオーディオ分類器。

請求項50

前記フレーム・レベル分類器が前記シーケンスのオーディオ・フレームを、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類するよう構成されている、請求項46または47記載のオーディオ分類器。

請求項51

請求項35ないし50のうちいずれか一項記載のオーディオ分類器を有するオーディオ処理装置。

請求項52

リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的に調整する段階とを含む、オーディオ処理方法

請求項53

前記少なくとも一つのオーディオ型が、短期的音楽、発話、背景音およびノイズのコンテンツ型の少なくとも一つおよび/または長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型の少なくとも一つを含む、請求項52記載のオーディオ処理方法。

請求項54

前記少なくとも一つのオーディオ型がVoIPまたは非VoIPのコンテキスト型を含む、請求項52記載のオーディオ処理方法。

請求項55

前記少なくとも一つのオーディオ型が高品質オーディオまたは低品質オーディオのコンテキスト型を含む、請求項1記載のオーディオ処理方法。

請求項56

前記短期的音楽が、優勢な源のない音楽または優勢な源のある音楽を含む、請求項54記載のオーディオ処理方法。

請求項57

前記短期的音楽が、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含む、請求項54記載のオーディオ処理方法。

請求項58

前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、請求項52記載のオーディオ処理方法。

請求項59

前記少なくとも一つのパラメータが、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含む、請求項53記載のオーディオ処理方法。

請求項60

ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、ダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させることを含む、請求項53記載のオーディオ処理方法。

請求項61

ダイアログ向上処理することをさらに含み、前記調整する動作が、ダイアログ向上のレベルを、発話の信頼値と正に相関させることを含む、請求項53記載のオーディオ処理方法。

請求項62

それぞれの閾値より高い周波数帯域を向上させるためのダイアログ向上処理することをさらに含み、前記調整する動作は、前記閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記閾値を発話の信頼値と負に相関させるよう構成されている、請求項53記載のオーディオ処理方法。

請求項63

前記オーディオ信号における背景レベルを推定することをさらに含み、前記調整する動作は、推定される背景レベルに調整を割り当てるよう構成されており、前記調整する動作はさらに、前記調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または前記調整を発話の信頼値と負に相関させるよう構成されている、請求項53記載のオーディオ処理方法。

請求項64

前記調整する動作は、前記調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項63記載のオーディオ処理方法。

請求項65

サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、ノイズおよび/または背景音および/または発話の信頼値と正に相関させるおよび/または該サラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されている、請求項53記載のオーディオ処理方法。

請求項66

前記調整する動作が、前記サラウンド・ブースト量を、コンテンツ型発話より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されている、請求項65記載のオーディオ処理方法。

請求項67

サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理の開始周波数を、短期的音楽の信頼値と正に相関させるよう構成されている、請求項53記載のオーディオ処理方法。

請求項68

サラウンド仮想化処理することをさらに含み、前記調整する動作が、前記サラウンド仮想化処理のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/または該サラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されている、請求項53記載のオーディオ処理方法。

請求項69

前記調整する動作が、前記サラウンド・ブースト量を、ゲームより、映画的メディアの信頼値と、より正に相関させるよう構成されている、請求項68記載のオーディオ処理方法。

請求項70

前記調整する動作が、前記少なくとも一つのパラメータを、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて調整するよう構成されている、請求項53記載のオーディオ処理方法。

請求項71

異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、前記オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる、請求項70記載のオーディオ処理方法。

請求項72

前記調整する動作が、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の前記信頼値を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項52ないし71のうちいずれか一項記載のオーディオ処理方法。

請求項73

前記調整する動作が、前記信頼値に基づいて前記少なくとも一つのオーディオ型を重み付けすることを通じて前記少なくとも一つのオーディオ型の少なくともいくつかを考慮するよう構成されている、請求項52ないし71のうちいずれか一項記載のオーディオ処理方法。

請求項74

前記調整する動作が、前記信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されている、請求項73記載のオーディオ処理方法。

請求項75

前記調整する動作が、あるオーディオ型の重みを少なくとも一つの他のオーディオ型の信頼値を用いて修正するよう構成されている、請求項52ないし71のうちいずれか一項記載のオーディオ処理方法。

請求項76

前記調整する動作によって調整されるあるパラメータについて、現時点で前記調整する動作によって決定されるパラメータ値と最後の時点での平滑化されたパラメータ値との重み付けされた和を計算することによって、現時点での前記調整する動作によって決定されるパラメータ値を平滑化することをさらに含む、請求項52ないし71のうちいずれか一項記載のオーディオ処理方法。

請求項77

前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型に基づいて適応的に変更される、請求項76記載のオーディオ処理方法。

請求項78

前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、請求項76記載のオーディオ処理方法。

請求項79

前記重み付けされた和を計算するための重みが、前記調整する動作によって決定される前記パラメータ値の増加または減少トレンドに基づいて適応的に変更される、請求項76記載のオーディオ処理方法。

請求項80

各オーディオ型について、現在の実際の信頼値と最後の時点での平滑化された信頼値との重み付けされた和を計算することによって、現時点での前記オーディオ信号の信頼値を平滑化することをさらに含む、請求項52ないし71のうちいずれか一項記載のオーディオ処理方法。

請求項81

前記重み付けされた和を計算するための重みが、前記オーディオ信号のオーディオ型の信頼値に基づいて適応的に変更される、請求項80記載のオーディオ処理方法。

請求項82

前記重み付けされた和を計算するための重みが、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更される、請求項80記載のオーディオ処理方法。

請求項83

前記分類する動作が同じ新しいオーディオ型を連続的に出力する継続時間を測定することをさらに含み、前記調整する動作は、新しいオーディオ型の継続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成される、請求項52ないし71のうちいずれか一項記載のオーディオ処理方法。

請求項84

あるオーディオ型から別のオーディオ型への異なる遷移対について、前記閾値が異なる、請求項83記載のオーディオ処理方法。

請求項85

前記閾値が、前記新しいオーディオ型の信頼値と負に相関している、請求項83記載のオーディオ処理方法。

請求項86

それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と;長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と;前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と;前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを有する、オーディオ分類方法

請求項87

短期的セグメントの前記シーケンスは、発話、短期的音楽、背景音およびノイズの短期的オーディオ型の少なくとも一つに分類される、請求項86記載のオーディオ分類方法。

請求項88

前記計算する動作が、前記長期的特徴として、前記短期的オーディオ型の信頼値の平均および分散、前記短期的セグメントの重要度によって重み付けされた前記平均および分散、各短期的オーディオ型の出現頻度および種々の短期的オーディオ型の間の遷移の頻度のうちの少なくとも一つを計算するよう構成されている、請求項86記載のオーディオ分類方法。

請求項89

前記長期的オーディオ・セグメント内の短期的セグメントの前記シーケンスの前記短期的特徴に基づいて、前記長期的オーディオ・セグメントからのさらなる長期的特徴を抽出する段階をさらに含む、請求項86記載のオーディオ分類方法。

請求項90

前記長期的特徴として、前記短期的特徴の次の統計量、すなわち:平均、分散、重み付けされた平均、重み付けされた分散、高平均、低平均および高平均と低平均の間の比のうちの少なくとも一つを計算するよう構成される、請求項89記載のオーディオ分類方法。

請求項91

オーディオ・フレームの前記シーケンスの各オーディオ・フレームからフレーム・レベル特徴を抽出する段階をさらに含み、前記短期的特徴を抽出する動作は、オーディオ・フレームの前記シーケンスから抽出される前記フレーム・レベル特徴に基づいて短期的特徴を計算することを含む、請求項86ないし90のうちいずれか一項記載のオーディオ分類方法。

請求項92

前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、請求項91記載のオーディオ分類方法。

請求項93

さまざまな短期的オーディオ型の属性を特徴付ける前記特徴が、次の特徴、すなわち:フレーム・エネルギー、サブバンド・スペクトル分布、スペクトル・フラックス、メル‐周波数ケプストラム係数、ベース、残差情報、クロマ特徴および零交差レートのうちの少なくとも一つを含む、請求項92記載のオーディオ分類方法。

請求項94

前記短期的特徴を抽出する動作が、前記短期的特徴として、前記フレーム・レベル特徴の統計量を計算することを含む、請求項91記載のオーディオ分類方法。

請求項95

前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、請求項91記載のオーディオ分類方法。

請求項96

前記短期的特徴を抽出する動作は、短期的特徴として、次の特徴、すなわち:リズム特性、中断/ミュート特性および短期的オーディオ品質特徴のうちの少なくとも一つを、各短期的オーディオ・セグメントから直接抽出することを含む、請求項91記載のオーディオ分類方法。

請求項97

オーディオ・フレームからフレーム・レベル特徴を抽出する段階と、それぞれのフレーム・レベル特徴を使ってオーディオ・フレームのシーケンスの各フレームをフレーム・レベル・オーディオ型に分類する段階とを含み、前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームに関するフレーム・レベル・オーディオ型に基づいて前記短期的特徴を計算することを含む、請求項86ないし90のうちいずれか一項記載のオーディオ分類方法。

請求項98

前記短期的特徴を抽出する動作は、前記シーケンスのオーディオ・フレームから抽出された前記フレーム・レベル特徴および前記シーケンスのオーディオ・フレームの前記フレーム・レベル・オーディオ型の両方に基づいて前記短期的特徴を計算することを含む、請求項97記載のオーディオ分類方法。

請求項99

前記フレーム・レベル特徴を抽出する動作は、次の特徴、すなわち:さまざまな短期的オーディオ型の属性を特徴付ける特徴、カットオフ周波数、静的な信号雑音比特性、セグメントの信号雑音比特性、基本的発話記述子および声道特性のうちの少なくとも一つを抽出することを含む、請求項97または98記載のオーディオ分類方法。

請求項100

前記短期的特徴を抽出する動作が、所定のステップ長さで前記長期的オーディオ・セグメントの時間次元内をスライドする移動窓を用いて形成される短期的オーディオ・セグメントに対して実行される、請求項97または98記載のオーディオ分類方法。

請求項101

前記シーケンスのオーディオ・フレームのそれぞれが、発話、音楽、背景音およびノイズのフレーム・レベル・オーディオ型のうちの少なくとも一つに分類される、請求項97または98記載のオーディオ分類方法。

請求項102

プロセッサによって実行されると該プロセッサがオーディオ処理方法を実行できるようにするコンピュータプログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ処理方法は、リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類する段階と;前記少なくとも一つのオーディオ型の信頼値に基づいてオーディオ改善のための少なくとも一つのパラメータを連続的な仕方で調整する段階とを含む、コンピュータ可読媒体。

請求項103

プロセッサによって実行されると該プロセッサがオーディオ分類方法を実行できるようにするコンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記オーディオ分類方法は、それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する段階と;長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する段階と;前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して前記分類する動作の結果の統計量を長期的特徴として計算する段階と;前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する段階とを含む、コンピュータ可読媒体。

技術分野

0001

関連出願への相互参照
本願は2013年4月11日に出願された米国仮特許出願第61/811,062号および2013年3月26日に出願された中国特許出願第201310100367.6号の優先権を主張するものである。これら出願はここに参照によってその全体において組み込まれる。

0002

技術分野
本願は概括的にはオーディオ信号処理に関する。詳細には、本願の実施形態はオーディオ分類および処理、特にダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器の制御のための装置および方法に関する。

背景技術

0003

いくつかのオーディオ改善装置は、オーディオの全体的な品質を改善し、相応してユーザーの経験を向上させるために、時間領域またはスペクトル領域のいずれかにおいてオーディオ信号修正する傾向がある。さまざまなオーディオ改善装置がさまざまな目的のために開発されている。オーディオ改善装置のいくつかの典型的な例は次のものを含む。

0004

ダイアログ向上器〔エンハンサー〕:ダイアログは、映画およびラジオまたはテレビプログラムにおいてストーリーを理解するための最も重要な構成要素である。特に聴力衰えつつある高齢者のために、ダイアログの明瞭性および了解性を高めるためにダイアログを向上させる諸方法が開発された。

0005

サラウンド仮想化器:サラウンド仮想化器は、PCの内部スピーカーを通じてまたはヘッドフォンを通じてサラウンド(マルチチャネルサウンド信号レンダリングされることができるようにする。すなわち、(スピーカーおよびヘッドフォンのような)ステレオ装置を用いて、仮想的にサラウンドの効果を生成し、消費者のために映画館体験を提供するのである。

0006

ボリューム平準化器:ボリューム平準化器は、再生時にオーディオ・コンテンツのボリュームを調整し、目標ラウドネス値に基づいて時間軸を通じてボリュームがほぼ一貫しているようにするすることをねらいとする。

0007

等化器〔イコライザー〕:等化器は、「トーン」または「音色」として知られるスペクトル・バランス一貫性を提供し、ユーザーが、ある種の音を強調したり望ましくない音を除去したりするために、個々の周波数帯域での周波数応答(利得)の全体的なプロファイル曲線または形状)を構成設定できるようにする。伝統的な等化器では、異なる等化器プリセットが、種々の音楽ジャンルのような種々の音のために提供されてもよい。ひとたびプリセットが選択されたらまたは等化プロファイルが設定されたら、手動で等化プロファイルが修正されるまで、同じ等化利得が信号に対して適用される。対照的に、動的等化器は、オーディオのスペクトル・バランスを連続的にモニタリングし、それを所望されるトーンと比較し、オーディオの元のトーンを所望されるトーンに変換するための等化フィルタを動的に調整することによってスペクトル・バランス一貫性を達成する。

0008

一般に、オーディオ改善装置はその独自の応用シナリオコンテキストをもつ。すなわち、オーディオ改善装置は、あらゆる可能なオーディオ信号についてではなく、ある種のコンテンツの集合についてのみ好適であることがある。異なるコンテンツは異なる仕方で処理される必要があることがあるからである。たとえば、ダイアログ向上方法は、通例、映画コンテンツに適用される。それがダイアログのない音楽に適用されたとしたら、いくつかの周波数サブバンドを誤ってブーストし、重度音色変化および知覚的非一貫性を導入することがありうる。同様に、音楽信号に対してノイズ抑制方法が適用されたとしたら、強いアーチファクト可聴となるであろう。

0009

しかしながら、通例はオーディオ改善装置の集合を含むオーディオ処理システムについて、その入力は、必然的に、あらゆる可能な型のオーディオ信号でありうる。たとえば、PCに統合されたオーディオ処理システムは映画、音楽、VoIPおよびゲームを含む多様な源からオーディオ・コンテンツを受領することになる。よって、対応するコンテンツに対してよりよいアルゴリズムまたは各アルゴリズムのよりよいパラメータを適用するために、処理されるコンテンツを識別または区別することが重要になる。

0010

オーディオ・コンテンツを区別して、相応してよりよいパラメータまたはよりよいオーディオ改善アルゴリズムを適用するために、伝統的なシステムは、通例、プリセットの集合を事前設計し、ユーザーは再生されるコンテンツについてのプリセットを選ぶことを求められる。プリセットは通例、映画または音楽再生のために特に設計された「映画」プリセットおよび「音楽」プリセットのように、適用されるオーディオ改善アルゴリズムおよび/またはその最良のパラメータの集合をエンコードする。

0011

国際公開第2008/106036号(H. Muesch、“Speech Enhancement in Entertainment Audio”)
米国特許出願公開第2009/0097676A1号(A. J. Seefeldt et al.、“Calculating and Adjusting the Perceived Loudness and/or the Perceived Spectral Balance of an Audio Signal”)
国際公開第2007/127023号(B.G. Grockett et al.、“Audio Gain Control Using Specific-Loudness-Based Auditory Event Detection”)
国際公開第2009/011827号、(A. Seefeldt et al.、“Audio Processing Using Auditory Scene Analysis and Spectral Skewness”)

先行技術

0012

L. Lu, H.-J. Zhang, and S. Li、"Content-based Audio Classification and Segmentation by Using Support Vector Machines"、ACMMultimedia Systems Journal 8 (6), pp. 482-492, March, 2003
L. Lu, D. Liu, and H.-J. Zhang、“Automatic mood detection and tracking of music audio signals”、IEEE Transactions on Audio, Speech, and Language Processing, 14(1):5−18, 2006
M.F McKinney and J. Breebaart、“Features for audio and music classification”、Proc.ISMIR, 2003
G. H. Wakefield、“Mathematical representation of joint time Chroma distributions”、SPIE, 1999
Ludovic Malfait, Jens Berger, and Martin Kastner、“P.563- TheITU-T Standard for Single-Ended Speech Quality Assessment”、IEEE Transaction on Audio, Speech, and Language Processing, VOL. 14, NO. 6, November 2006

発明が解決しようとする課題

0013

しかしながら、手動選択はユーザーにとって不便である。ユーザーは通例、あらかじめ定義されたプリセットの間で頻繁に切り換えることはせず、単にすべてのコンテンツについて一つのプリセットを使い続ける。さらに、いくつかの自動ソリューションにおいてでさえ、プリセットにおけるパラメータまたはアルゴリズム・セットアップは通例離散的であり(たとえば特定のコンテンツに関して特定のアルゴリズムについてオンまたはオフにするなど)、コンテンツ・ベースの連続的な仕方でパラメータを調整することはできない。

課題を解決するための手段

0014

本願の第一の側面は、再生時にオーディオ・コンテンツに基づいて連続的な仕方でオーディオ改善装置を自動的に構成設定することである。この「自動」モードでは、ユーザーは、わざわざ異なるプリセットを選ぶことなく、簡単にコンテンツを享受することができる。他方、連続的に調整することは、遷移点におけるに聞こえるアーチファクトを避けるために、より重要である。

0015

第一の側面のある実施形態によれば、オーディオ処理装置は、リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するオーディオ分類器と;聴衆の経験を改善するためのオーディオ改善装置と;前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方で前記オーディオ改善装置の少なくとも一つのパラメータを調整するための調整ユニットとを含む。

0016

オーディオ改善装置は、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器のうちの任意のものであってもよい。

0017

対応して、オーディオ処理方法は、リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類し;前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方でオーディオ改善のための少なくとも一つのパラメータを調整することを含む。

0018

第一の側面のもう一つの実施形態によれば、ボリューム平準化器コントローラが、リアルタイムでオーディオ信号のコンテンツ型を識別するためのオーディオ・コンテンツ分類器と;識別されたコンテンツ型に基づいて連続的な仕方でボリューム平準化器を調整する調整ユニットとを含む。調整ユニットは、ボリューム平準化器の動的な利得を、オーディオ信号の情報性のコンテンツ型と正に相関させ、ボリューム平準化器の動的な利得を、オーディオ信号の干渉性のコンテンツ型と負に相関させるよう構成されていてもよい。

0019

上記のようなボリューム平準化器コントローラを有するオーディオ処理装置も開示される。

0020

対応して、ボリューム平準化器制御方法は、リアルタイムでオーディオ信号のコンテンツ型を識別し;識別されたコンテンツ型に基づいて連続的な仕方でボリューム平準化器を調整することを含む。該調整は、ボリューム平準化器の動的な利得を、オーディオ信号の情報性のコンテンツ型と正に相関させ、ボリューム平準化器の動的な利得を、オーディオ信号の干渉性のコンテンツ型と負に相関させることによる。

0021

第一の側面のさらにもう一つの実施形態によれば、等化器コントローラが、リアルタイムでオーディオ信号のオーディオ型を識別するためのオーディオ分類器と;識別されたオーディオ型の信頼値に基づいて連続的な仕方で等化器を調整する調整ユニットとを含む。

0022

上記のような等化器コントローラを有するオーディオ処理装置も開示される。

0023

対応して、等化器制御方法は、リアルタイムでオーディオ信号のオーディオ型を識別し;識別されたオーディオ型の信頼値に基づいて連続的な仕方で等化器を調整することを含む。

0024

本願は、コンピュータプログラム命令が記録されたコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサが上述したオーディオ処理方法または前記ボリューム平準化器制御方法または前記等化器制御方法を実行できるようにするものをも提供する。

0025

第一の側面の実施形態によれば、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器および等化器のうちの一つであってもよいオーディオ改善装置は、オーディオ信号の型および/または該型の信頼値に従って連続的に調整されてもよい。

0026

本願の第二の側面は、複数のオーディオ型を識別するコンテンツ識別コンポーネントを開発することである。検出結果は、連続的な仕方でよりよいパラメータを見出すことにおいてさまざまなオーディオ改善装置の挙動操縦/案内するために使われてもよい。

0027

第二の側面のある実施形態によれば、オーディオ分類器は:それぞれオーディオ・フレームシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出する短期的特徴抽出器と;長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類する短期的分類器と;前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して短期的分類器の結果の統計量長期的特徴として計算する統計抽出器と;前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類する長期的分類器とを含む。

0028

上記のようなオーディオ分類器を有するオーディオ処理装置も開示される。

0029

対応して、オーディオ分類方法は:それぞれオーディオ・フレームのシーケンスを含む短期的オーディオ・セグメントから短期的特徴を抽出し;長期的オーディオ・セグメント内の短期的セグメントのシーケンスをそれぞれの短期的特徴を使って諸短期的オーディオ型に分類し;前記長期的オーディオ・セグメント内の短期的セグメントのシーケンスに関して分類処理の結果の統計量を長期的特徴として計算し;前記長期的特徴を使って、前記長期的オーディオ・セグメントを長期的オーディオ型に分類することを含む。

0030

第二の側面のもう一つの実施形態によれば、オーディオ分類器は、オーディオ信号の短期的セグメントのコンテンツ型を識別するオーディオ・コンテンツ分類器と;少なくとも部分的には前記オーディオ・コンテンツ分類器によって識別されたコンテンツ型に基づいて前記短期的セグメントのコンテキスト型を識別するオーディオ・コンテキスト分類器とを含む。

0031

上記のようなオーディオ分類器を有するオーディオ処理装置も開示される。

0032

対応して、オーディオ分類方法は、オーディオ信号の短期的セグメントのコンテンツ型を識別し;少なくとも部分的には識別されたコンテンツ型に基づいて前記短期的セグメントのコンテキスト型を識別することを含む。

0033

本願は、コンピュータ・プログラム命令が記録されたコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されると、前記プロセッサが上述したオーディオ分類方法を実行できるようにするものをも提供する。

0034

第二の側面の実施形態によれば、オーディオ信号は、短期的な型またはコンテンツ型とは異なる、種々の長期的な型またはコンテキスト型に分類されてもよい。オーディオ信号の型および/または該型の信頼値は、ダイアログ向上器、サラウンド仮想化器、ボリューム平準化器または等化器のようなオーディオ改善装置を調整するためにさらに使われてもよい。

図面の簡単な説明

0035

本願は、限定ではなく例として、付属の図面の図において例解される。図面において同様の参照符号は同様の要素を指す。
本願のある実施形態に基づくオーディオ処理装置を示す図である。
図1に示した実施形態の変形を示す図である。
図1に示した実施形態の変形を示す図である。
複数のオーディオ型を識別し、信頼値を計算する分類器の可能な構成を示す図である。
複数のオーディオ型を識別し、信頼値を計算する分類器の可能な構成を示す図である。
複数のオーディオ型を識別し、信頼値を計算する分類器の可能な構成を示す図である。
本願のオーディオ処理装置のさらなる実施形態を示す図である。
本願のオーディオ処理装置のさらなる実施形態を示す図である。
本願のオーディオ処理装置のさらなる実施形態を示す図である。
種々のオーディオ型の間の遷移遅延を示す図である。
本願の実施形態に基づくオーディオ処理方法を示すフローチャートである。
本願の実施形態に基づくオーディオ処理方法を示すフローチャートである。
本願の実施形態に基づくオーディオ処理方法を示すフローチャートである。
本願の実施形態に基づくオーディオ処理方法を示すフローチャートである。
本願のある実施形態に基づくダイアログ向上器コントローラを示す図である。
ダイアログ向上器の制御において本願に基づくオーディオ処理方法の使用を示すフローチャートである。
ダイアログ向上器の制御において本願に基づくオーディオ処理方法の使用を示すフローチャートである。
本願のある実施形態に基づくサラウンド仮想化器コントローラを示す図である。
サラウンド仮想化器の制御において本願に基づくオーディオ処理方法の使用を示すフローチャートである。
本願のある実施形態に基づくボリューム平準化器コントローラを示す図である。
本願に基づくボリューム平準化器コントローラの効果を示す図である。
本願のある実施形態に基づく等化器コントローラを示す図である。
所望されるスペクトル・バランス・プリセットのいくつかの例を示す図である。
本願のある実施形態に基づくオーディオ分類器を示す図である。
本願のオーディオ分類器によって使用されるいくつかの特徴を示す図である。
本願のオーディオ分類器によって使用されるいくつかの特徴を示す図である。
本願に基づくオーディオ分類器のさらなる実施形態を示す図である。
本願に基づくオーディオ分類器のさらなる実施形態を示す図である。
本願に基づくオーディオ分類器のさらなる実施形態を示す図である。
本願の実施形態に基づくオーディオ分類方法を示すフローチャートである。
本願の実施形態に基づくオーディオ分類方法を示すフローチャートである。
本願の実施形態に基づくオーディオ分類方法を示すフローチャートである。
本願の実施形態に基づくオーディオ分類方法を示すフローチャートである。
本願のもう一つの実施形態に基づくオーディオ分類器を示す図である。
本願にさらにもう一つの実施形態に基づくオーディオ分類器を示す図である。
本願のオーディオ分類器において使われるヒューリスティック規則を示す図である。
本願に基づくオーディオ分類器のさらなる実施形態を示す図である。
本願に基づくオーディオ分類器のさらなる実施形態を示す図である。
本願の実施形態に基づくオーディオ分類方法を示すフローチャートである。
本願の実施形態に基づくオーディオ分類方法を示すフローチャートである。
本願の実施形態を実装する例示的なシステムを示すブロック図である。

実施例

0036

以下では、本願の実施形態が図面を参照しつつ記述される。明確のために、当業者に知られているが本願を理解するために必要ではないコンポーネントおよびプロセスについての表現および記述は、図面および説明において省略されることを注意しておく。

0037

当業者は理解するであろうが、本願の諸側面は、システム、装置(たとえば携帯電話ポータブルメディアプレーヤーパーソナル・コンピュータ、バーサー、テレビジョンセットトップボックスまたはデジタルビデオレコーダまたは他の任意のメディア・プレーヤー)、方法またはコンピュータ・プログラム・プロダクトとして具現されうる。よって、本願の諸側面は、ハードウェア実施形態、ソフトウェア実施形態(ファームウェア常駐ソフトウェアマイクロコードなどを含む)またはソフトウェアおよびハードウェア側面の両方を組み合わせる実施形態の形と取りうる。これらはみな本稿では「回路」、「モジュール」または「システム」と称されることがある。さらに、本願の諸側面は、コンピュータ可読プログラム・コードが具現された一つまたは複数のコンピュータ可読媒体において具現されたコンピュータ・プログラム・プロダクトの形を取ることがある。

0038

一つまたは複数のコンピュータ可読媒体のいかなる組み合わせが利用されてもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体でありうる。コンピュータ可読記憶媒体は、たとえば、電子的、磁気的、光学式電磁式赤外線または半導体のシステム、装置またはデバイスまたは以上のものの任意の好適な組み合わせでありうるがそれに限られない。コンピュータ可読記憶媒体のさらなる個別的な例(網羅的なリストではない)は、次のものを含む:一つまたは複数のワイヤをもつ電気的接続、ポータブル・コンピュータ・ディスケットハードディスクランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラム可能型読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブル・コンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶デバイス磁気記憶デバイスまたは以上のものの任意の好適な組み合わせ。本稿のコンテキストでは、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって使うためまたはそれらとの関連で使うためのプログラムを含むまたは記憶することができるいかなる有体の媒体であってもよい。

0039

コンピュータ可読信号媒体は、たとえばベースバンドにおいてまたは搬送波の一部としてコンピュータ可読プログラム・コードが具現されている伝搬するデータ信号を含みうる。そのような伝搬する信号は、電磁的または光学的な信号またはそれらの任意の好適な組み合わせを含むがそれに限られない多様な形の任意のものを取りうる。

0040

コンピュータ可読信号媒体は、命令実行システム、装置またはデバイスによって使うためまたはそれらとの関連で使うためのプログラムを通信する、伝搬させるまたは搬送することができる、コンピュータ可読記憶媒体ではないいかなるコンピュータ可読媒体であってもよい。

0041

コンピュータ可読媒体上に具現されるプログラム・コードは、無線有線光ファイバーケーブル、RFなどまたは以上のものの任意の好適な組み合わせを含むがそれに限られないいかなる適切な媒体を使って伝送されてもよい。

0042

本願の諸側面の動作を実行するためのコンピュータ・プログラム・コードは、ジャバスモールトーク、C++などといったオブジェクト指向プログラミング言語および「C」プログラミング言語といった従来型手続き型プログラミング言語または同様のプログラミング言語を含む、一つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。プログラム・コードは、完全にユーザーのコンピュータ上でスタンドアローンのソフトウェア・パッケージとして、部分的にユーザーのコンピュータ上で部分的にはリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバー上で実行されうる。この最後のシナリオでは、リモート・コンピュータはユーザーのコンピュータに、ローカルエリアネットワーク(LAN)または広域ネットワークWAN)を含む任意の型のネットワークを通じて接続されてもよく、あるいは(たとえばインターネットサービスプロバイダーを使ってインターネットを通じて)外部コンピュータに接続がされてもよい。

0043

本発明の諸側面は、本発明の実施形態に基づく方法、装置(システム)およびコンピュータ・プログラム・プロダクトのフローチャート図および/またはブロック図を参照して記述される。フローチャート図および/またはブロック図の各ブロックならびにフローチャート図および/またはブロック図のブロックの組み合わせは、コンピュータ・プログラム命令によって実装されることができることは理解されるであろう。これらのコンピュータ・プログラム命令は、汎用コンピュータ特殊目的コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに与えられて、該コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行される該命令が前記フローチャートおよび/またはブロック図の単数または複数のブロックにおいて特定されている機能/工程を実装する手段を作り出すよう、機械を生成してもよい。

0044

これらのコンピュータ・プログラム命令は、コンピュータ、他のプログラム可能なデータ処理装置または他のデバイスが特定の仕方で機能するよう指令することができるコンピュータ可読媒体に記憶され、それにより、該コンピュータ可読媒体に記憶される命令は、前記フローチャートおよび/またはブロック図の単数または複数のブロックにおいて特定されている機能/工程を実装する命令を含む製造物を作り出してもよい。

0045

コンピュータ・プログラム命令はコンピュータ、他のプログラム可能なデータ処理装置または他のデバイスにロードされて、該コンピュータ、他のプログラム可能な装置または他のデバイス上で一連動作処理を実行させて、前記コンピュータまたは他のプログラム可能な装置上で実行される前記命令が前記フローチャートおよび/またはブロック図の単数または複数のブロックにおいて特定されている機能/工程を実装するためのプロセスを提供するようなコンピュータ実装されたプロセスを作り出してもよい。

0046

下記では、本願の実施形態が詳細に記述される。明確のため、記述は次の構成に編成される:
第一部:オーディオ処理装置および方法
1.1節オーディオ型
1.2節 オーディオ型の信頼値および分類器の構成
1.3節 オーディオ型の信頼値の平滑化
1.4節パラメータ調整
1.5節パラメータ平滑化
1.6節 オーディオ型の遷移
1.7節 実施形態の組み合わせおよび応用シナリオ
1.8節オーディオ処理方法
第二部:ダイアログ向上器コントローラおよび制御方法
2.1節 ダイアログ向上のレベル
2.2節 向上させるべき周波数帯域の決定のための閾値
2.3節背景レベルへの調整
2.4節 実施形態の組み合わせおよび応用シナリオ
2.5節 ダイアログ向上器制御方法
第三部:サラウンド仮想化器コントローラおよび制御方法
3.1節 サラウンド・ブースト量
3.2節開始周波数
3.3節 実施形態の組み合わせおよび応用シナリオ
3.4節 サラウンド仮想化器制御方法
第四部:ボリューム平準化器コントローラおよび制御方法
4.1節 情報性および干渉性のコンテンツ型
4.2節 種々のコンテキストにおけるコンテンツ型
4.3節 コンテキスト型
4.4節 実施形態の組み合わせおよび応用シナリオ
4.5節 ボリューム平準化器制御方法
第五部:等化器コントローラおよび制御方法
5.1節 コンテンツ型に基づく制御
5.2節音楽における優勢な源の確からしさ
5.3節 等化器プリセット
5.4節 コンテキスト型に基づく制御
5.5節 実施形態の組み合わせおよび応用シナリオ
5.6節 等化器制御方法
第六部:オーディオ分類器および分類方法
6.1節 コンテンツ型分類に基づくコンテキスト分類器
6.2節長期的特徴の抽出
6.3節短期的特徴の抽出
6.4節 実施形態の組み合わせおよび応用シナリオ
6.5節 オーディオ分類方法
第七部:VoIP分類器および分類方法
7.1節短期的セグメントに基づくコンテキスト分類
7.2節 VoIP発話およびVoIPノイズを使った分類
7.3節 平滑化ゆらぎ
7.4節 実施形態の組み合わせおよび応用シナリオ
7.5節 VoIP分類方法。

0047

〈第一部:オーディオ処理装置および方法〉
図1は、再生時にオーディオ・コンテンツに基づく改善されたパラメータでの少なくとも一つのオーディオ改善装置の自動的な構成設定をサポートするコンテンツ適応的なオーディオ処理装置100の概括的なフレームワークを示している。これは三つの主要なコンポーネントを有する:オーディオ分類器200、調整ユニット300、オーディオ改善装置400である。

0048

オーディオ分類器200は、リアルタイムでオーディオ信号を少なくとも一つのオーディオ型に分類するものである。これは再生時にコンテンツのオーディオ型を自動的に識別する。オーディオ・コンテンツを識別するためには、信号処理機械学習およびパターン認識を通じてなど、いかなるオーディオ分類技術が適用されることもできる。あらかじめ定義された目標オーディオ型の集合に関するオーディオ・コンテンツの確率を表わす信頼値がほぼ同時に推定される。

0049

オーディオ改善装置400は、オーディオ信号に対して処理を実行することによって聴衆の経験を改善するものであり、のちに詳細に論じる。

0050

調整ユニット300は、前記少なくとも一つのオーディオ型の信頼値に基づいて連続的な仕方で前記オーディオ改善装置の少なくとも一つのパラメータを調整するものである。これは、オーディオ改善装置400の挙動を操縦するよう設計される。これは、オーディオ分類器200から得られた結果に基づいて対応するオーディオ改善装置の最も好適なパラメータを推定する。

0051

さまざまなオーディオ改善装置がこの装置において適用できる。図2は、ダイアログ向上器(DE: Dialog Enhancer)402、サラウンド仮想化器(SV: Surround Virtualizer)404、ボリューム平準化器(VL: Volume Leveler)406および等化器(EQ: Equalizer)408を含む四つのオーディオ改善装置を含む例示的なシステムを示している。各オーディオ改善装置は、オーディオ分類器200において得られる結果(オーディオ型および/または信頼値)に基づいて連続的な仕方で自動的に調整されることができる。

0052

むろん、オーディオ処理装置は、必ずしもすべての種類のオーディオ改善装置を含まなくてもよく、そのうち一つまたは複数を含むだけでもよい。他方、オーディオ改善装置は本開示において与えられている装置に限定されず、さらなる種類のオーディオ改善装置を含んでいてもよく、それらも本願の範囲内である。さらに、ダイアログ向上器(DE)402、サラウンド仮想化器(SV)404、ボリューム平準化器(VL)406および等化器(EQ)408を含む本開示において論じられるオーディオ改善装置の名称は限定をなすものではなく、そのそれぞれは同じまたは同様の機能を実現する他の任意の装置をカバーすると解釈される。

0053

〈1.1節オーディオ型〉
さまざまな種類のオーディオ改善装置を適正に制御するために、本願はさらに、オーディオ型の新たな構成を提供する。ただし、従来技術におけるオーディオ型も本願で適用可能である。

0054

具体的には、オーディオ信号中の基本成分を表わす低レベルオーディオ要素と、現実のユーザー娯楽アプリケーションにおけるたいていの一般的なオーディオ・コンテンツを表わす高レベルのオーディオ・ジャンルとを含め、異なる意味的レベルからのオーディオ型がモデル化される。前者は「コンテンツ型」と称されてもよい。基本的オーディオ・コンテンツ型は、発話、音楽(を含む)、背景音(または効果音)およびノイズを含んでいてもよい。

0055

発話および音楽の意味は明らかである。本願におけるノイズは、意味的なノイズではなく、物理的なノイズを意味する。本願における物理的なノイズは、たとえばエアコンからのノイズや、信号伝送経路に起因するピンク・ノイズのような技術的理由により生じるノイズを含みうる。対照的に、本願における「背景音」は、聴取者の注意のコアターゲット周辺生起する聴覚イベントであってもよい効果音である。たとえば、電話の通話におけるオーディオ信号では、話者の声のほかに、通話に関係ない何らかの他の人物の声、キーボードの音、足音などのような、意図されない何らかの他の音があることがある。これらの望まれない音は、ノイズではなく、「背景音」と称される。つまり、「背景音」は、ターゲット(または聴取者の注意のコア・ターゲット)ではない、あるいはさらに望まれないものであるが、それでも何らかの内容的な意味をもつ音と定義してもよい。一方、「ノイズ」は、ターゲットオンおよび背景音を除く望まれない音と定義されてもよい。

0056

時に、背景音は本当に「望まれない」のではなく、意図的に生成され、何らかの有用な情報を担う。たとえば、映画、テレビ番組またはラジオ放送番組における背景音がそうである。よって、時に、「効果音」と称されることがある。本開示では以下では、簡潔のため「背景音」のみが使用され、さらに「背景」と短縮されることもある。

0057

さらに、音楽はさらに、優勢な源のない音楽と優勢な源のある音楽に分類されてもよい。音楽片において他の源よりずっと強い源(声または楽器)がある場合には、「優勢な源のある音楽」と称される。そうでない場合には、「優勢な源のない音楽」と称される。たとえば、歌声およびさまざまな楽器を伴う多声音楽では、和声的にバランスが取れているまたはいくつかの最も顕著な源のエネルギーが互いに匹敵する場合には、優勢な源のない音楽と考えられる。対照的に、ある源(たとえば声)がずっと大きく、一方他の源がずっと静かである場合には、優勢な源を含んでいると考えられる。もう一つの例として、飛び抜けた、あるいは目立つ楽器トーンは「優勢な源をもつ音楽」である。

0058

音楽はさらに、種々の標準に基づく種々の型に分類されうる。音楽は、これに限られないがロックジャズ、ラップおよびフォークのような音楽のジャンルに基づいて分類されることができる。音楽は、声楽および器楽のように、楽器に基づいて分類されることもできる。器楽は、ピアの音楽およびギター音楽など、種々の楽器を用いて演奏されるさまざまな音楽を含みうる。他の例示的な標準は、リズムテンポ、音楽の音色および/または属性類似性に基づいて音楽がグループ化されることのできる他の任意の音楽的な属性を含む。たとえば、音色に基づいて、声楽はテノール、バリトンバス、ソプラノメゾソプラノおよびアルトに分類されうる。

0059

オーディオ信号のコンテンツ型は、複数のフレームから構成されるような短期的オーディオ・セグメントに関して分類されてもよい。一般に、オーディオ・フレームは20msのような複数ミリ秒の長さであり、オーディオ分類器によって分類されるべき短期的オーディオ・セグメントの長さは、数百ミリ秒から数秒、たとえば1秒の長さをもちうる。

0060

コンテンツ適応的な仕方でオーディオ改善装置を制御するために、オーディオ信号はリアルタイムで分類されてもよい。上記のコンテンツ型については、現在の短期的オーディオ・セグメントのコンテンツ型は現在のオーディオ信号のコンテンツ型を表わす。短期的オーディオ・セグメントの長さはそれほど長くないので、オーディオ信号は、順次の、重なり合わない短期的オーディオ・セグメントとして分割されてもよい。しかしながら、短期的オーディオ・セグメントは、オーディオ信号の時間軸に沿って連続的/半連続的サンプリングされてもよい。すなわち、短期的オーディオ・セグメントは、オーディオ信号の時間軸に沿って一つまたは複数のフレームのステップ・サイズで動く所定の長さ(短期的オーディオ・セグメントの意図される長さ)をもつ窓を用いてサンプリングされてもよい。

0061

高レベルのオーディオ・ジャンルは、オーディオ信号の長期的な型を示すので「コンテキスト型」と称されることもあり、その時のサウンドイベントの環境またはコンテキストと見なされてもよく、それは上記のようなコンテンツ型に分類されてもよい。本願によれば、コンテキスト型は、映画的メディア、音楽(歌を含む)、ゲームおよびVoIP(インターネット・プロトコル上での音声)のようなたいていの一般的なオーディオ・アプリケーションを含みうる。

0062

音楽、ゲームおよびVoIPの意味は自明である。映画的メディアは映画、テレビ番組、ラジオ放送番組または上記のものと同様の他の任意のオーディオ・メディアを含んでいてもよい。映画的メディアの主要な特徴は、可能な発話、音楽およびさまざまな種類の背景音(効果音)の混合である。

0063

コンテンツ型およびコンテキスト型はいずれも音楽(歌を含む)を含むことを注意してもよいであろう。以下、本願では、それらを区別するためにそれぞれ「短期的音楽」および「長期的音楽」という言い方を使う。

0064

本願のいくつかの実施形態については、他のいくつかのコンテキスト型構成も提案される。

0065

たとえば、オーディオ信号は高品質オーディオ(映画的メディアおよび音楽CDなど)または低品質オーディオ(VoIP、低ビットレートオンラインストリーミング・オーディオおよびユーザー生成コンテンツなど)と分類されてもよい。これらはまとめて「オーディオ品質型」と称されてもよい。

0066

もう一つの例として、オーディオ信号はVoIPまたは非VoIPとして分類されてもよい。これらは上述した4コンテキスト型構成(VoIP、映画的メディア、(長期的)音楽およびゲーム)の変換と見なされてもよい。VoIPまたは非VoIPのコンテキストとの関連で、オーディオ信号は、VoIP発話、非VoIP発話、VoIPノイズおよび非VoIPノイズのようなVoIPに関係したオーディオ・コンテンツ型として分類されてもよい。VoIPオーディオ・コンテンツ型の構成は、VoIPおよび非VoIPコンテキストを区別するために特に有用である。通例、VoIPコンテキストは、ボリューム平準化器(オーディオ改善装置の一つの種類)の最も困難な応用シナリオだからである。

0067

一般に、オーディオ信号のコンテキスト型は、短期的オーディオ・セグメントより長い長期的オーディオ・セグメントに関して分類されてもよい。長期的オーディオ・セグメントは、短期的オーディオ・セグメントにおけるフレーム数より多くの数の複数のフレームから構成される。長期的オーディオ・セグメントは、複数の短期的オーディオ・セグメントから構成されてもよい。一般に、長期的オーディオ・セグメントは、数秒から数十秒、たとえば10秒などの秒のオーダーの長さをもちうる。

0068

同様に、適応的な仕方でオーディオ改善装置を制御するために、オーディオ信号は、リアルタイムでコンテキスト型に分類されてもよい。同様に、現在の長期的オーディオ・セグメントのコンテキスト型は、現在のオーディオ信号のコンテキスト型を表わす。長期的オーディオ・セグメントの長さは比較的長いので、オーディオ信号は、そのコンテキスト型の急激な変化を、よってオーディオ改善装置(単数または複数)の作動パラメータの急激な変化を避けるために、オーディオ信号の時間軸に沿って連続的/半連続的にサンプリングされてもよい。すなわち、長期的オーディオ・セグメントは、オーディオ信号の時間軸に沿って一つまたは複数のフレームまたは一つまたは複数の短期的セグメントのステップ・サイズで動く所定の長さ(長期的オーディオ・セグメントの意図される長さ)をもつ窓を用いてサンプリングされてもよい。

0069

上記では、コンテンツ型およびコンテキスト型の両方が記述された。本願の実施形態では、調整ユニット300は、さまざまなコンテンツ型の少なくとも一つおよび/またはさまざまなコンテキスト型の少なくとも一つに基づいて、オーディオ改善装置(単数または複数)の少なくとも一つのパラメータを調整してもよい。したがって、図3に示されるように、図1に示した実施形態のある変形では、オーディオ分類器200は、オーディオ・コンテンツ分類器202またはオーディオ・コンテキスト分類器204またはその両方を有していてもよい。

0070

上記では、(たとえばコンテキスト型について)種々の標準に基づく種々のオーディオ型および(たとえばコンテンツ型について)種々の階層レベルでの種々のオーディオ型が言及された。しかしながら、これらの標準および階層レベルは単にここでの記述の便宜のためであって、全く限定するものではない。つまり、本願では、上述したオーディオ型の任意の二つ以上は、同時にオーディオ分類器200によって識別され、同時に調整ユニット300によって考慮されることができる。これについては後述する。つまり、種々の階層レベルにおけるすべてのオーディオ型は並列、あるいは同じレベルであってもよい。

0071

〈1.2節オーディオ型の信頼値および分類器の構成〉
オーディオ分類器200は、硬判定結果を出力してもよく、あるいは調整ユニット300はオーディオ分類器200の結果を硬判定結果と見なしてもよい。硬判定についてでも、複数のオーディオ型がオーディオ・セグメントに割り当てられることができる。たとえば、オーディオ・セグメントは、発話および短期的音楽の混合信号でありうるので、「発話」および「短期的音楽」の両方によってラベル付けされることができる。得られたラベルは、オーディオ改善装置(単数または複数)400を操縦するために直接使われることができる。簡単な例は、発話が存在するときにダイアログ向上器402を有効にし、発話が存在しないときにオフにするというものである。しかしながら、この硬判定方法は、注意深い平滑化方式(後述)なしの場合には、あるオーディオ型から別のオーディオ型への遷移点においていくらか不自然さを導入することがある。

0072

より柔軟性をもち、連続的な仕方でオーディオ改善装置のパラメータを調整するために、各ターゲット・オーディオ型の信頼値が推定されることができる(軟判定)。信頼値は、識別されるべきオーディオ・コンテンツとターゲット・オーディオ型の間の一致レベルを0から1の値で表わす。

0073

先述したように、多くの分類技法は直接、信頼値を出力してもよい。信頼値は、分類器の一部と見なされてもよいさまざまな方法から計算されることもできる。たとえば、オーディオ・モデルガウシアン混合モデルGMM: Gaussian Mixture Models)のようないくつかの確率的モデル化技術によってトレーニングされる場合、信頼値を表わすために、次のように事後確率が使われることができる。

0074

ここで、xはオーディオ・セグメントの一片であり、ciはターゲット・オーディオ型であり、Nはターゲット・オーディオ型の数であり、p(chi)はオーディオ・セグメントxがオーディオ型ciである確からしさであり、p(coax)は対応する事後確率である。

0075

他方、オーディオ・モデルがサポートベクターマシン(SVM: Support Vector Machine)およびアダブースト(adaBoost)のようないくつかの弁別的方法からトレーニングされる場合には、モデル比較からはスコア実数値)だけが得られる。これらの場合、得られたスコア(理論的には−∞から∞)を期待される信頼度(0から1)にマッピングするために、通例、次のシグモイド関数が使われる。

0076

ここで、yはSVMまたはアダブーストからの出力スコアであり、AおよびBは何らかのよく知られた技術を使ってトレーニング・データ・セットから推定される必要のある二つのパラメータである。

0077

本願のいくつかの実施形態については、調整ユニット300は、三つ以上のコンテンツ型および/または三つ以上のコンテキスト型を使ってもよい。その場合、オーディオ・コンテンツ分類器202は三つ以上のコンテンツ型を識別する必要がある、および/またはオーディオ・コンテキスト分類器h204は三つ以上のコンテキスト型を識別する必要がある。そのような状況では、オーディオ・コンテンツ分類器202またはオーディオ・コンテキスト分類器204は、ある構成で編成された分類器の群であってもよい。

0078

たとえば、調整ユニット300が四種類のコンテンツ型、映画的メディア、長期的音楽、ゲームおよびVoIPの全部を必要とする場合には、オーディオ・コンテキスト分類器204は以下の種々の構成をもちうる。

0079

第一に、オーディオ・コンテキスト分類器204は、図4に示されるように編成された6個の一対一二項分類器(各分類器は一つのターゲット・オーディオ型を別のあるターゲット・オーディオ型から弁別する)と、図5に示されるように編成された3個の一対他の二項分類器(各分類器はターゲット・オーディオ型を他のオーディオ型から弁別する)と、図6に示されるように編成された4個の一対他の分類器を有していてもよい。判定有向非環状グラフDDAG: Decision Directed Acyclic Graph)構成のような他の構成もある。図4図6および対応する以下の記述において、簡潔のため、「映画的メディア」の代わりに「映画」が使われていることを注意しておく。

0080

各二項分類器は、その出力について信頼スコアH(x)を与える(xはオーディオ・セグメントを表わす)。各二項分類器の出力が得られたのち、それらを、識別された諸コンテキスト型の最終的な諸信頼値にマッピングする必要がある。

0081

意p0版に、オーディオ信号はM個のコンテキスト型に分類されるとする(Mは正の整数)。通常の一対一構成はM(M−1)/2個の分類器を構築する。ここで、各分類器は二つのクラスからのデータでトレーニングされる。次いで、それぞれの一対一分類器はその好ましいクラスについて一票を投じ、最終結果は、M(M−1)/2個の分類器の分類のうちの最多票をもつクラスである。通常の一対一構成と比べ、図4における階層的な構成もM(M−1)/2個の分類器を構築することを必要とする。しかしながら、セグメントxは各階層レベルにおいて対応するクラスにある/ないと判定され、全体的なレベル・カウントはM−1なので、試験反復工程はM−1に短縮されることができる。さまざまなコンテキスト型についての最終的な信頼値は、たとえば二項分類信頼値Hk(x)から計算されてもよい(k=1,2,…,6は種々のコンテキスト型を表わす)。

0082

図5に示した構成では、二項分類結果Hk(x)から最終的な信頼値へのマッピング関数は次の例のように定義できる。

0083

図6に示した構成では、最終的な信頼値は、対応する二項分類結果Hk(x)に等しくてもよく、あるいはすべてのクラスについての信頼値の和が1であることが要求されるならば、最終的な信頼値は単に推定されたHk(x)に基づいて規格化されることができる。

0084

最大の信頼値をもつ一つまたは複数が最終的な識別されたクラスとして決定されることができる。

0085

図4図6に示される構成では、種々の二項分類器のシーケンスは必ずしも図示したとおりではなく、他のシーケンスであってもよいことを注意しておくべきである。そうしたシーケンスは、さまざまな応用の種々の要求に応じて、手動の割り当てまたは自動学習によって選択されてもよい。

0086

上記の記述は、オーディオ・コンテキスト分類器204に向けられている。オーディオ・コンテンツ分類器202については、状況は同様である。

0087

あるいはまた、オーディオ・コンテンツ分類器202またはオーディオ・コンテキスト分類器204は、同時にすべてのコンテンツ型/コンテキスト型を識別する一つの単独の分類器として実装され、同時に対応する諸信頼値を与えてもよい。これを行なうために多くの既存の技法がある。

0088

信頼値を使って、オーディオ分類器200の出力はベクトルとして表現できる。ベクトルの各次元が各ターゲット・オーディオ型の信頼値を表わす。たとえば、ターゲット・オーディオ型が順次(発話、短期的音楽、ノイズ、背景)であれば、例示的な出力結果は(0.9,0.5,0.0,0.0)であることができる。これは、そのオーディオ・コンテンツが発話であることは90%確実であり、そのオーディオが音楽であることは50%確実であることを示す。出力ベクトル中のすべての次元の和が1である必要はないことを注意しておく(たとえば、図6からの結果は必ずしも規格化されない)。つまり、オーディオ信号は発話および短期的音楽の混合信号であってもよい。

0089

のちに、第六部および第七部において、オーディオ・コンテキスト分類およびオーディオ・コンテンツ分類の新規な実装を詳細に論じる。

0090

〈1.3節オーディオ型の信頼値の平滑化〉
任意的に、各オーディオ・セグメントがあらかじめ定義されたオーディオ型に分類された後、追加的なステップは、ある型から別の型への急激なジャンプを避け、オーディオ改善装置におけるパラメータのよりなめらかな推定をするために、時間軸に沿って分類結果を平滑化するというものである。たとえば、長い抜粋が、VoIPとして分類された一つだけのセグメントを除いて映画的メディアと分類されると、急激なVoIP判定は、平滑化によって映画的メディアに修正されることができる。

0091

したがって、図7に示した実施形態のある変形では、各オーディオ型について、現在の時間でのオーディオ信号の信頼値を平滑化するために、型平滑化ユニット712がさらに設けられる。

0092

一般的な平滑化方法は、現在の実際の信頼値と最後の時点の平滑化された信頼値の重み付けされた和を計算するなど、重み付けされた平均に基づく。

0093

smoothConf(t)=β・smoothConf(t−1)+(1−β)・conf(t) (3)
ここで、tは現在の時間(現在のオーディオ・セグメント)、t−1は最後の時間(最後のオーディオ・セグメント)、βは重み、confおよびsmoothConfはそれぞれ平滑化の前および後の信頼値(confidence value)である。

0094

信頼値の観点からは、分類器の硬決定からの結果は、値が0か1のいずれかである信頼値を用いて表わされることもできる。すなわち、ターゲット・オーディオ型が選ばれ、オーディオ・セグメントに割り当てられる場合、対応する信頼値は1であり、そうでなければ信頼値は0である。したがって、たとえオーディオ分類器200が信頼値を与えず、オーディオ型に関する硬決定を与えるだけであっても、調整ユニット300の連続的な調整は、型平滑化ユニット712の平滑化動作を通じて、相変わらず可能である。

0095

平滑化アルゴリズムは、異なる場合について異なる平滑化重みを使うことによって「非対称」であることができる。たとえば、重み付けされた和を計算するための重みは、オーディオ信号のオーディオ型の信頼値に基づいて適応的に変えられてもよい。現在のセグメントの信頼値がより大きければ、その重みもより大きくなる。

0096

別の観点からは、重み付けされた和を計算するための重みは、特に、オーディオ改善装置(単数または複数)が、一つの単独のコンテンツ型の有無に基づくのではなく、オーディオ分類器200にいおって識別される複数のコンテンツ型に基づいて調整されるときは、あるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変えられてもよい。たとえば、あるコンテキストにおいてより頻繁に現われるオーディオ型からそのコンテキストにおいてそれほど頻繁に現われない別のオーディオ型への遷移については、後者の信頼値は、あまり速く増大しないよう、平滑化されてもよい。たまたまの突発であることもありうるからである。

0097

もう一つの要因は、変化レートを含む変化(増大または減少)トレンドである。あるオーディオ型が存在するようになるときに(すなわちその信頼値が増すときに)我々が遅延についてより気にするとすると、次のようにして平滑化アルゴリズムを設計できる。

0098

上記の公式は、平滑化された信頼値が、信頼値が増加するときには迅速に現在状態応答し、信頼値が減少するときにはゆっくりと平滑化されていくことを許容する。平滑化関数の諸変形が同様にして簡単に設計できる。たとえば、公式(4)は、conf(t)≧smoothConf(t−1)であるときにconf(t)の重みがより大きくなるよう修正されてもよい。実際、公式(4)では、β=0であり、conf(t)の重みは最大、すなわち1であると見なすことができる。

0099

異なる観点からは、あるオーディオ型の変化トレンドを考えることは、オーディオ型の異なる遷移対を考えることの単なる個別的な例である。たとえば、型Aの信頼値を増すことは、非AからAへの遷移と見なされてもよく、型Aの信頼値を減らすことは、Aから非Aへの遷移と見なされてもよい。

0100

〈1.4節パラメータ調整〉
調整ユニット300は、オーディオ分類器200からの得られた結果に基づいてオーディオ改善装置(単数または複数)400についての適正なパラメータを推定または調整するよう設計される。コンテンツ型またはコンテキスト型のいずれかをまたは合同判定のために両方を使って、異なるオーディオ改善装置について異なる調整アルゴリズムが設計されてもよい。たとえば、映画的メディアおよび長期的音楽のようなコンテキスト型情報では、上述したようなプリセットが自動的に選択され、対応するコンテンツに適用されることができる。利用可能なコンテンツ型情報を用いて、各オーディオ改善装置のパラメータは、後述する部において示されるように、より細かい仕方で調整されることができる。コンテンツ型情報およびコンテキスト情報はさらに、長期的および短期的情報をバランスさせるために、調整ユニット300において合同で使われることができる。特定のオーディオ改善装置についての特定の調整アルゴリズムは、別個の調整ユニットと見なされてもよい。あるいは、異なる調整アルゴリズムがまとめて連合した調整ユニットと見なされてもよい。

0101

すなわち、調整ユニット300は、少なくとも一つのコンテンツ型の信頼値および/または少なくとも一つのコンテキスト型の信頼値に基づいて、オーディオ改善装置の前記少なくとも一つのパラメータを調整するよう構成されていてもよい。特定のオーディオ改善装置について、オーディオ型のいくつかは情報性であり、オーディオ型のいくつかは干渉性である。よって、特定のオーディオ改善装置のパラメータは、情報性のオーディオ型(単数または複数)または干渉性のオーディオ型(単数または複数)の信頼値(単数または複数)と正または負に相関しうる。ここで「正に相関する」とは、オーディオ型の信頼値の増大または減少とともに、パラメータが線形または非線型に増大または減少することを意味する。「負に相関する」とは、オーディオ型の信頼値の減少または増大とともに、パラメータが線形または非線型にそれぞれ増大または減少することを意味する。

0102

ここで、信頼値の減少および増大は、正または負の相関によって、調整されるべきパラメータに直接「伝達」される。数学では、そのような相関または「伝達」は、正比例または反比例、プラスまたはマイナス加算または減算)演算乗算または除算または非線型関数として具現されうる。これらすべての形の相関は「伝達関数」と称されてもよい。信頼値の増大または減少を決定するために、現在の信頼値またはその数学的変換を最後の信頼値もしくは複数の履歴信頼値またはその数学的変換と比較することもできる。本願のコンテキストにおいて、用語「比較」は、減算を通じた比較または除算を通じた比較を意味する。差が0より大きいか否かまたは比が1より大きいか否かを判定することによって増大または減少を判定できる。

0103

個別的な実装では、適正なアルゴリズム(伝達関数など)を通じてパラメータを信頼値またはその比もしくは差と直接関係させることができ、「外部観察者」が特定の信頼値および/または特定のパラメータが増大したまたは減少したことを明示的に知ることは必要でない。いくつかの個別的な例が、個別的なオーディオ改善装置についての後述する第二〜五部において与えられる。

0104

前節で述べたように、同じオーディオ・セグメントに関し、分類器200は、それぞれの信頼値をもつ複数のオーディオ型を識別することがある。オーディオ・セグメントは音楽と発話と背景音など、同時に複数の成分を含むことがあるので、それらの信頼値は必ずしも総計1にならないことがある。そのような状況では、オーディオ改善装置のパラメータは、異なるオーディオ型の間でバランスを取る必要がある。たとえば、調整ユニット300は、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の信頼値を重み付けすることを通じて、複数のオーディオ型の少なくともいくつかを考慮するよう構成されていてもよい。特定のオーディオ型がより重要であるほど、パラメータはそれによってより大きく影響される。

0105

重みは、オーディオ型の情報性および干渉性の効果を反映することもできる。たとえば、干渉性のオーディオ型については、マイナスの重みが与えられてもよい。いくつかの個別的な例が、個別的なオーディオ改善装置についての後述する第二〜五部において与えられる。

0106

本願のコンテキストにおいて、「重み」は、多項式における係数よりも広い意味をもつことを注意しておく。多項式における係数のほか、「重み」は指数または冪の形を取ることもできる。多項式における係数であるとき、重み付け係数は規格化されてもされなくてもよい。一言で言うと、重みは単に重み付けされた対象が調整されるべきパラメータに対してどのくらいの影響をもつかを表わすものである。

0107

いくつかの他の実施形態では、同じオーディオ・セグメントに含まれる複数のオーディオ型について、その信頼値が、規格化されることを通じて重みに変換されてもよい。次いで、最終的なパラメータが、各オーディオ型についてあらかじめ定義され、信頼値に基づいて重みによって重み付けされたパラメータ・プリセット値の和を計算することを通じて決定されてもよい。すなわち、調整ユニット300は、信頼値に基づいて複数のオーディオ型の効果を重み付けすることを通じて複数のオーディオ型を考慮するよう構成されていてもよい。

0108

重み付けの個別的な例として、調整ユニットは、信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成される。あまりに低い(閾値より低い)信頼値をもつオーディオ型については、考慮されなくてもよい。これは、信頼値が閾値より小さい他のオーディオ型の重みが0に設定されることと等価である。いくつかの個別的な例が、個別的なオーディオ改善装置についての後述する第二〜五部において与えられる。

0109

コンテンツ型およびコンテキスト型は一緒に考慮されることができる。ある実施形態では、それらは同じレベルにあると見なされることができ、それらの信頼値はそれぞれの重みをもちうる。もう一つの実施形態では、まさに名称が示すように、「コンテキスト型」は、「コンテキスト型」が位置しているコンテキストまたは環境であり、よって調整ユニット200は、異なるコンテキスト型のオーディオ信号におけるコンテンツ型が、オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられるよう構成されてもよい。一般に、いかなるオーディオ型も、別のオーディオ型のコンテキストを構成することができ、調整ユニット200はあるオーディオ型の重みを、別のオーディオ型の信頼値を用いて修正するよう構成されてもよい。いくつかの個別的な例が、個別的なオーディオ改善装置についての後述する第二〜五部において与えられる。

0110

本願のコンテキストでは、「パラメータ」は、その文字通りの意味より広い意味をもつ。単一の値をもつパラメータのほかに、パラメータは、種々のパラメータの集合、種々のパラメータからなるベクトルまたはプロファイルを含め、上述したようなプリセットを意味することもある。特に、後述する第二〜五部においては、次のパラメータが論じられるが、本願はそれに限定されるものではない:ダイアログ向上のレベル、ダイアログ向上されるべき周波数帯域を決定するための閾値、背景レベル、サラウンド・ブースト量、サラウンド仮想化器についての開始周波数、ボリューム平準化器の動的利得または動的利得の範囲〔ダイナミックゲインのレンジ〕、オーディオ信号が新しい知覚可能なオーディオ・イベントである度合いを示すパラメータ、等化レベル、等化プロファイルおよびスペクトル・バランス・プリセット。

0111

〈1.5節パラメータ平滑化〉
1.3節では、急激な変化を避け、よってオーディオ改善装置のパラメータの急激な変化を避けるためにオーディオ型の信頼値を平滑化することを論じた。他の措置も可能である。一つは、オーディオ型に基づいて調整されるパラメータを平滑化することであり、本節で論じる。他方は、オーディオ分類器および/または調整ユニットを、オーディオ分類器の結果の変化を遅らせるよう構成することであり、これについては1.6節で論じる。

0112

ある実施形態では、パラメータは、遷移点における可聴アーチファクトを導入しうる素速い変化を避けるために、次のように、さらに平滑化されることができる。

0113

ここで、チルダ付きのL(t)は平滑化されたパラメータ、L(t)は平滑化されていないパラメータ、τ時定数を表わす係数、tは現在の時間、t−1は最後の時間である。

0114

すなわち、図8に示されるように、オーディオ処理装置は、パラメータ平滑化ユニット814を有していてもよい。これは、調整ユニット300によって調整される(ダイアログ向上器402、サラウンド仮想化器404、ボリューム平準化器406および等化器408のうちの少なくとも一つのような)オーディオ改善装置のパラメータについて、現在の時間において調整ユニットによって決定されたパラメータ値および最後の時間の平滑化されたパラメータ値の重み付けされた和を計算することによって、現在の時間における調整ユニット300によって決定されるパラメータ値を平滑化する。

0115

時定数τは、応用の個別的な要求および/またはオーディオ改善装置400の実装に基づく固定値であることができる。時定数τは、オーディオ型に基づいて、特に、音楽から発話、発話から音楽など、あるオーディオ型から別のオーディオ型への種々の遷移型に基づいて適応的に変更されてもよい。

0116

等化器を例に取る(さらなる詳細は第五部で言及されうる)。等化は、音楽コンテンツに適用するのには良好だが、発話コンテンツに適用するのはよくない。よって、等化のレベルを平滑化するためには、オーディオ信号が音楽から発話に遷移するときは時定数は比較的小さくてもよく、それにより発話コンテンツに対してより小さな等化レベルがより迅速に適用されることができる。他方、発話から音楽への遷移についての時定数は、遷移点における可聴アーチファクトを避けるために、比較的大きいことができる。

0117

遷移型(たとえば、発話から音楽または音楽から発話)を推定するために、コンテンツ分類結果は直接使われることができる。すなわち、オーディオ・コンテンツを音楽または発話に分類するれば、遷移型を得ることは単純になる。より連続的な仕方で遷移を推定できるよう、オーディオ型の硬決定を直接比較する代わりに、推定された平滑化されない等化レベルにも頼ることができる。一般的な発想は、平滑化されない等化レベルが増大する場合には、それは発話から音楽への(またはより音楽的への)遷移を示し、そうでない場合にはそれは音楽から発話への(またはより発話的への)遷移により近い。異なる遷移型を区別することにより、時定数は対応して設定されることができる。一例は次のようなものである。

0118

ここで、τ(t)は、コンテンツに依存する時間変化する時定数であり、τ1およびτ2は二つのプリセット時定数値であり、通例τ1>τ2を満たす。直観的には、上記の関数は、等化レベルが増加するときには比較的遅い遷移を示し、等化レベルが減少するときには比較的速い遷移を示す。だが本願はこれに限定されるものではない。さらに、パラメータは等化レベルに限定されず、他のパラメータであってもよい。すなわち、パラメータ平滑化ユニット814は、重み付けされた和を計算するための重みが、調整ユニット300によって決定されるパラメータ値の増加トレンドまたは減少トレンドに基づいて適応的に変えられるよう構成されてもよい。

0119

〈1.6節オーディオ型の遷移〉
図9および図10を参照して、オーディオ型の急激な変化を避け、よってオーディオ改善装置のパラメータの急激な変化を避けるためのもう一つの方式が記述される。

0120

図9に示されるように、オーディオ処理装置100はさらに、オーディオ分類器200が連続的に同じ新しいオーディオ型を出力する持続時間を測定するためのタイマー916を有していてもよい。調整ユニット300は、新しいオーディオ型の持続時間の長さが閾値に達するまで、現在のオーディオ型を使い続けるよう構成されてもよい。

0121

換言すれば、図10に示されるように、観察(または維持)フェーズが導入される。調整ユニット300が実際に新しいオーディオ型を使う前に、(持続時間の長さの閾値に対応する)観察フェーズにおいて、オーディオ型が本当に変化したのかどうかを確証するために、ある連続量の時間にわたってオーディオ型の変化がさらにモニタリングされる。

0122

図10に示されるように、矢印(1)は、現在状態が型Aであり、オーディオ分類器200の結果が変わらない状況を示す。

0123

現在状態が型Aであり、オーディオ分類器200の結果が型Bになる場合、タイマー916は計時を開始する、あるいは図10に示されるように、プロセスは観察フェーズにはいり(矢印(2))、残存(hangover)カウントcntの初期値が設定される。これは観察継続時間の長さ(前記閾値に等しい)を示す。

0124

次いで、オーディオ分類器200が連続的に型Bを出力し、cntは連続的に減少して(矢印(3))、しまいにはcntは0に等しくなる(すなわち、新しい型Bの持続時間の長さが閾値に達する)場合、調整ユニット300は新しいオーディオ型Bを使用しうる(矢印(4))。あるいは、換言すれば、この時点になってはじめて、オーディオ型は本当に型Bに変わったと見なされうる。

0125

そうでなく、cntが0になる前に(持続時間の長さが閾値に達する前に)オーディオ分類器200の出力がもとの型Aに戻る場合には、観察フェーズは打ち切られ、調整ユニット300は相変わらずもとの型Aを使う(矢印(5))。

0126

型Bから型Aへの変化は、上記のプロセスと同様であってもよい。

0127

上記のプロセスでは、閾値(または残存カウント)は用途の要件に基づいて設定されうる。これはあらかじめ定義された固定値であってもよい。これは適応的に設定されてもよい。ある変形では、閾値は、あるオーディオ型から別のオーディオ型への異なる遷移対については異なる。たとえば、型Aから型Bに変わるとき、閾値は第一の値であってもよく、型Bから型Aに変わるとき、閾値は第二の値であってもよい。

0128

もう一つの変形では、残存カウント(閾値)は、新しいオーディオ型の信頼値と負に相関していてもよい。一般的な発想は、信頼値が二つの型の間の混乱を示す場合には(たとえば、信頼値が約0.5しかないときは)、観察継続時間は長い必要がある。そうでない場合には、継続時間は比較的短くてもよい。このガイドラインに従い、例示的な残存カウント(hangover count)は、次の公式によって設定されることができる。

0129

HangCnt=C・|0.5−Conf|+D
ここで、HangCntは残存継続時間または閾値であり、CおよびDは用途の要求に基づいて設定されることのできる二つのパラメータであり、通例、Cは負、Dは正の値である。

0130

なお、タイマー916(よって上記の遷移プロセス)はオーディオ処理装置の一部だがオーディオ分類器200の外部として記述した。他のいくつかの実施形態では、まさに7.3節で述べるように、オーディオ分類器200の一部と見なされてもよい。

0131

〈1.7節 実施形態の組み合わせおよび応用シナリオ〉
上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。

0132

具体的には、以上において実施形態およびその変形を記述するとき、前の実施形態または変形においてすでに記述されたものと同様の参照符号をもつ構成要素は省略され、異なる構成よそが記述されるだけである。実際、これらの異なる構成要素は、他の実施形態または変形の構成要素と組み合わされたり、あるいは単独で別個の解決策を構成したりすることができる。たとえば、図1ないし図10を参照して述べた解決策の任意の二つ以上が互いと組み合わされてもよい。最も完備な解決策として、オーディオ処理装置はオーディオ・コンテンツ分類器202およびオーディオ・コンテキスト分類器204の両方ならびに平滑化ユニット712、パラメータ平滑化ユニット814およびタイマー916を有していてもよい。

0133

先述したように、オーディオ改善装置400は、ダイアログ向上器402、サラウンド仮想化器404、ボリューム平準化器406および等化器408を含んでいてもよい。オーディオ処理装置100は、それらの任意の一つまたは複数を含んでいてもよく、調整ユニット300がそれに適応されてもよい。複数のオーディオ改善装置400に関わるとき、調整ユニット300は、それぞれのオーディオ改善装置400に固有の複数のサブユニット300A〜300D(図15図18図20および図22)を含むものと見なされてもよし、あるいは相変わらず一つの連合した調整ユニットと見なされてもよい。あるオーディオ改善装置に固有であるとき、調整ユニット300はオーディオ分類器200および他の可能なコンポーネントと一緒になって、その特定のオーディオ改善装置のコントローラと見なされてもよい。これについては、後述する第二部〜第五部において詳細に論じる。

0134

さらに、オーディオ改善装置400は、上述した例に限定されず、他のいかなるオーディオ改善装置を含んでいてもよい。

0135

さらに、すでに論じた任意の解決策またはそれらの任意の組み合わせは、本開示の他の部分において記述または含意される任意の実施形態とさらに組み合わされてもよい。特に、第六部および第七部において論じられるオーディオ分類器の実施形態は、オーディオ処理装置において使用されてもよい。

0136

〈1.8節オーディオ処理方法〉
上記の実施形態におけるオーディオ処理装置を記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。ただし、これらの方法はオーディオ処理装置を記述する過程において開示されているものの、これらの方法は必ずしも記載されるコンポーネントを採用するものではなく、必ずしもそうしたコンポーネントによって実行されるのではない。たとえば、オーディオ処理装置の実施形態は、部分的または完全にハードウェアおよび/またはファームウェアを用いて実現されてもよく、一方、以下で論じるオーディオ処理方法は、オーディオ処理装置のハードウェアおよび/またはファームウェアを採用してもよいが、完全にコンピュータ実行可能プログラムによって実現されてもよい。

0137

図11図14を参照して以下でこれらの方法について述べる。本方法がリアルタイムで実装されるときは、オーディオ信号のストリーミング属性に対応して、さまざまな動作が繰り返され、異なる動作は必ずしも同じオーディオ・セグメントに関してではないことに注意されたい。

0138

図11に示される実施形態では、オーディオ処理方法が提供される。まず、処理されるべきオーディオ信号がリアルタイムで少なくとも一つのオーディオ型に分類される(動作1102)。前記少なくとも一つのオーディオ型の信頼値に基づいて、オーディオ改善のための少なくとも一つのパラメータが連続的に調整されることができる(動作1104)。オーディオ改善は、ダイアログ向上(動作1106)、サラウンド仮想化(動作1108)、ボリューム平準化(動作1110)および/または等化(動作1112)であってもよい。対応して、前記少なくとも一つのパラメータは、ダイアログ向上処理、サラウンド仮想化処理、ボリューム平準化処理および等化処理のうちの少なくとも一つについての少なくとも一つのパラメータを含んでいてもよい。

0139

ここで、「リアルタイムで」および「連続的に」はオーディオ型が、よってパラメータも、オーディオ信号の特定の内容とともにリアルタイムで変化することを意味する。「連続的に」は、調整が、急激または離散的な調整ではなく、信頼値に基づく連続的な調整であることをも意味する。

0140

オーディオ型はコンテンツ型および/またはコンテキスト型を含んでいてもよい。対応して、調整の動作1104は、少なくとも一つのコンテンツ型の信頼値および少なくとも一つのコンテキスト型の信頼値に基づいて前記少なくとも一つのパラメータを調整するよう構成されていてもよい。コンテンツ型はさらに、短期的音楽、発話、背景音およびノイズのコンテンツ型のうちの少なくとも一つを含んでいてもよい。コンテキスト型はさらに、長期的音楽、映画的メディア、ゲームおよびVoIPのコンテキスト型のうちの少なくとも一つを含んでいてもよい。

0141

他のいくつかのコンテキスト型スキームも提案される。たとえば、VoIPおよび非VoIPを含むVoIP関係コンテキスト型および高品質オーディオまたは低品質オーディオを含むオーディオ品質型などである。

0142

短期的音楽は、種々の標準に従ってサブ型にさらに分類されてもよい。優勢な源の存在に依存して、優勢な源のない音楽および優勢な源のある音楽を含んでいてもよい。さらに、短期的音楽は、少なくとも一つのジャンル・ベースのクラスターまたは少なくとも一つの楽器ベースのクラスターまたは音楽のリズム、テンポ、音色および/または他の任意の音楽的属性に基づいて分類された少なくとも一つの音楽クラスターを含んでいてもよい。

0143

コンテンツ型およびコンテキスト型の両方が識別されたとき、コンテンツ型の重要性は、そのコンテンツ型が位置しているところのコンテキスト型によって決定されてもよい。すなわち、異なるコンテキスト型のオーディオ信号におけるコンテンツ型は、オーディオ信号のコンテキスト型に依存して異なる重みを割り当てられる。より一般には、あるオーディオ型が別のオーディオ型に影響してもよく、別のオーディオ型の前提であってもよい。したがって、調整1104の動作は、あるオーディオ型の重みを別のオーディオ型の信頼値を用いて修正するよう構成されていてもよい。

0144

オーディオ信号が同時に(すなわち、同じオーディオ・セグメントに関して)複数のオーディオ型に分類されるとき、調整1104の動作は、そのオーディオ・セグメントを改善するためのパラメータ(単数または複数)を調整するための識別されたオーディオ型の一部または全部を考慮してもよい。たとえば、調整1104の動作は、前記少なくとも一つのオーディオ型の重要性に基づいて前記少なくとも一つのオーディオ型の信頼値に重み付けするよう構成されていてもよい。あるいは、調整1104の動作は、前記オーディオ型の少なくともいくつかを、その信頼値に基づいてそれらに重み付けすることを通じて考慮するよう構成されていてもよい。ある特別な場合には、調整1104の動作は、信頼値に基づいて少なくとも一つの優勢なオーディオ型を考慮するよう構成されていてもよい。

0145

結果の急激な変化を避けるために、平滑化方式が導入されてもよい。

0146

調整されたパラメータ値は平滑化されてもよい(図12の動作1214)。たとえば、現在の時間における調整1104の動作によって決定されたパラメータ値が、現在の時間における調整の動作によって決定されたパラメータ値と、最後の時間の平滑化されたパラメータ値の重み付けされた和で置き換えられてもよい。このように、逐次反復される平滑化動作を通じて、パラメータ値は時間軸上で平滑化される。

0147

重み付けされた和を計算するための重みは、オーディオ信号のオーディオ型に基づいてまたはあるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更されてもよい。あるいはまた、重み付けされた和を計算するための重みは、調整の動作によって決定されたパラメータ値の増加または減少トレンドに基づいて適応的に変更される。

0148

もう一つの平滑化方式が図13に示されている。すなわち、本方法はさらに、各オーディオ型について、現在における実際の信頼値と最後の時間の平滑化された信頼値の重み付けされた和を計算することによって、現在の時間におけるオーディオ信号の信頼値を平滑化することを含んでいてもよい(動作1303)。パラメータ平滑化動作1214と同様に、重み付けされた和を計算するための重みは、オーディオ信号のオーディオ型の信頼値に基づいて、またはあるオーディオ型から別のオーディオ型への異なる遷移対に基づいて適応的に変更されてもよい。

0149

もう一つの平滑化方式は、オーディオ分類動作1102の出力が変わったとしてもあるオーディオ型から別のオーディオ型への遷移を遅らせるバッファ機構である。すなわち、調整1104の動作は、すぐに新しいオーディオ型を使うのではなく、オーディオ分類動作1102の出力の安定化を待つ。

0150

具体的には、本方法は、分類動作が同じ新しいオーディオ型を連続的に出力する持続時間を測定することを含んでいてもよい(図14の動作1403)。ここで、調整1104の動作は、新しいオーディオ型の持続時間の長さがある閾値に達する(動作14035における「Y」および動作11042)まで、現在のオーディオ型を使い続ける(動作14035における「N」および動作11041)よう構成される。具体的には、オーディオ分類動作1102から出力されるオーディオ型が、オーディオ・パラメータ調整動作1104において使われている現在のオーディオ型に関して変化するとき(動作1403において「Y」)、計時が始まる(動作14032)。オーディオ分類動作1102が新しいオーディオ型を出力することを続ければ、すなわち、動作14031における判断が「Y」であり続ければ、計時は続く(動作14032)。最終的には、新しいオーディオ型の持続時間が閾値に達すると(動作14035における「Y」)、調整動作1104は新しいオーディオ型を使い(動作11042)、計時は、オーディオ型の次の切り換えに備えてリセットされる(動作14034)。閾値に達するまでは(動作14035における「N」)、調整動作1104は現在のオーディオ型を使い続ける(動作11041)。

0151

ここで、計時はタイマーの機構カウントアップまたはカウントダウン)を用いて実装されてもよい。計時が始まった後、ただし閾値に達する前に、オーディオ分類動作1102の出力が調整動作1104において使われている現在のオーディオ型に戻る場合には、調整動作1104によって使用される現在のオーディオ型に関して変化がないと見なされるべきである(動作14031における「N」)。だが(オーディオ信号における分類されるべき現在のオーディオ・セグメントに対応する)現在の分類結果は、(オーディオ信号における分類されるべき前のオーディオ・セグメントに対応する)オーディオ分類動作1102の前の出力に関して変化し(動作14033における「Y」)、よって計時は、次の変化(動作14031における「Y」)が計時を開始するまで、リセットされる(動作14034)。むろん、オーディオ分類動作1102の分類結果がオーディオ・パラメータ調整動作1104によって使用される現在のオーディオ型に関して変化せず(動作14031における「N」)、前の分類に関しても変化しない(動作14033における「N」)場合には、そのことは、オーディオ分類が安定した状態にあることを示し、現在のオーディオ型が使用され続ける。

0152

ここで使われる閾値は、あるオーディオ型から別のオーディオ型への異なる遷移対については異なっていてもよい。というのも、状態があまり安定でないときは、一般に、オーディオ改善装置が他の状態よりもそのデフォルト状態にあることが好ましいことがありうるからである。他方、新しいオーディオ型の信頼値が比較的高い場合には、新しいオーディオ型に遷移するほうが安全である。したがって、閾値は、新しいオーディオ型の信頼値と負に相関していてもよい。信頼値が高いほど、閾値は低く、つまりオーディオ型は新しいオーディオ型により速く遷移しうる。

0153

オーディオ処理装置の実施形態と同様に、オーディオ処理方法の実施形態およびその変形の任意の組み合わせが現実的である。他方、オーディオ処理方法の実施形態およびその変形のあらゆる側面は別個の解決策であってもよい。特に、オーディオ処理方法のすべてにおいて、第六部および第七部において論じるようなオーディオ分類方法が使われてもよい。

0154

〈第二部:ダイアログ向上器コントローラおよび制御方法〉
オーディオ改善装置の一例はダイアログ向上器(DE)である。これは、特に聴力が低下しつつある高齢者のために、再生時にオーディオを断続的にモニタリングし、ダイアログの存在を検出し、ダイアログの明瞭性および了解性を高める(ダイアログを聞いて理解しやすくする)ためにダイアログを向上させることをねらいとする。ダイアログが存在するかどうかを検出するほか、ダイアログが存在し、よって(動的スペクトル再均衡化(dynamic spectral rebalancing)を用いて)相応して向上される場合、了解性に最も重要な周波数も検出される。例示的なダイアログ向上方法が特許文献1に呈示されている。その全体はここに参照によって組み込まれる。

0155

ダイアログ向上器における一般的な手動の構成設定は、通例、映画的メディア・コンテンツについては有効にされるが、音楽コンテンツについては無効にされるというものである。ダイアログ向上は、音楽信号に対しては誤ってトリガーしすぎることがあるからである。

0156

利用可能なオーディオ型情報を用いて、ダイアログ向上のレベルおよび他のパラメータが、識別されたオーディオ型の信頼値に基づいて調整されることができる。先に論じたオーディオ処理装置および方法の個別的な例として、ダイアログ向上器は、第一部で論じたすべての実施形態およびそれらの実施形態の任意の組み合わせを使用してもよい。特に、ダイアログ向上器を制御する場合、図1図10に示されるようなオーディオ処理装置100におけるオーディオ分類器200および調整ユニット300は、図15に示されるようなダイアログ向上器コントローラ1500を構成してもよい。この実施形態では、調整ユニットはダイアログ向上器に固有なので、300Aと称されてもよい。先述した部において論じたように、オーディオ分類器200は、オーディオ・コンテンツ分類器202およびオーディオ・コンテキスト分類器204のうちの少なくとも一つを含んでいてもよく、ダイアログ向上器コントローラ1500はさらに、型平滑化ユニット712、パラメータ平滑化ユニット814およびタイマー916のうちの少なくとも一つを含んでいてもよい。

0157

したがって、この部においては、先の部ですでに記述した内容を繰り返すことはせず、単にこの部のいくつかの固有の例を与える。

0158

ダイアログ向上器については、調整可能なパラメータは、ダイアログ向上のレベル、背景レベルおよび向上されるべき周波数帯域を決定するための閾値を含むがそれに限定されない。特許文献1参照。その全体はここに参照によって組み込まれる。

0159

〈2.1節ダイアログ向上のレベル〉
ダイアログ向上のレベルに関わるとき、調整ユニット300Aは、ダイアログ向上器のダイアログ向上のレベルを、発話の信頼値と正に相関させるよう構成されていてもよい。追加的または代替的に、レベルは、他のコンテンツ型の信頼値に負に相関させられてもよい。こうして、ダイアログ向上のレベルは発話信頼度に(線形または非線形に)比例するように設定されることができる。よって、ダイアログ向上は、音楽および背景音(効果音)のような非発話信号についてはそれほど効果的ではない。

0160

コンテキスト型については、調整ユニット300Aは、ダイアログ向上器のダイアログ向上のレベルを、映画的メディアおよび/またはVoIPの信頼値と正に相関させ、ダイアログ向上器のダイアログ向上のレベルを、長期的音楽および/またはゲームの信頼値と負に相関させるよう構成されていてもよい。たとえば、ダイアログ向上のレベルは映画的メディアの信頼値に(線形または非線形に)比例するように設定されることができる。映画的メディア信頼値が0のとき(たとえば音楽コンテンツにおいて)は、ダイアログ向上のレベルも0であり、これはダイアログ向上器を無効にすることと等価である。

0161

先の部で述べたように、コンテンツ型およびコンテキスト型は合同して考慮されてもよい。

0162

〈2.2節 向上させるべき周波数帯域の決定のための閾値〉
ダイアログ向上器の作動の間、各周波数帯域について、向上される必要があるかどうかを判定するための閾値(通例、エネルギーまたはラウドネス閾値)がある。すなわち、それぞれのエネルギー/ラウドネス閾値より上の周波数帯域が向上される。それらの閾値を調整するために、調整ユニット300Aは、閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または閾値を発話の信頼値と負に相関させるよう構成されていてもよい。たとえば、発話信頼度が高ければ、より信頼できる発話検出を想定して閾値を下げることができ、より多くの周波数帯域が向上されることを許容する。他方、音楽信頼値が高ければ、閾値を高くすることができ、より少数の周波数帯域が向上されるようにする(よってアーチファクトをより少なくする)。

0163

〈2.3節背景レベルへの調整〉
ダイアログ向上器におけるもう一つのコンポーネントは、図15に示されるような最小追跡ユニット4022である。これは、(SNR推定および2.2節で述べた周波数帯域閾値推定のために)オーディオ信号における背景レベルを推定するために使われる。これは、オーディオ・コンテンツ型の信頼値に基づいて調整されることもできる。たとえば、発話信頼値が高い場合、最小追跡ユニットは、背景レベルを現在の最小に設定するのにより自信を持つことができる。音楽信頼度が高い場合には、背景レベルはその現在の最小よりはやや高く設定されることができ、あるいは別の仕方では現在の最小と現在フレームのエネルギーとの、現在の最小に大きな重みをかけた重み付き平均に設定されることができる。ノイズおよび背景信頼度が高い場合には、背景レベルは現在の最小値よりずっと高く設定されることができ、あるいは別の仕方では、現在の最小と現在フレームのエネルギーとの、現在の最小に小さな重みをかけた重み付き平均に設定されることができる。

0164

こうして、調整ユニット300Aは、最小追跡ユニットによって推定された背景レベルに調整を割り当てるよう構成されてもよい。ここで、調整ユニットはさらに、調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または調整を発話の信頼値と負に相関させるよう構成されている。ある変形では、調整ユニット300Aは、調整を、短期的音楽より、ノイズおよび/または背景音の信頼値と、より正に相関させるよう構成されていてもよい。

0165

〈2.4節 実施形態の組み合わせおよび応用シナリオ〉
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。

0166

たとえば、2.1節ないし2.3節において述べた解決策の任意の二つ以上が互いと組み合わされてもよい。そして、これらの組み合わせは、第一部および後述する他の部において記載または含意されている任意の実施形態とさらに組み合わされてもよい。特に、それぞれの種類のオーディオ改善装置または方法に対して多くの公式が実際に適用可能であるが、それらは必ずしも本開示の各部において記載または議論されていない。そのような場合、ある部において論じられる特定の公式を、特定の用途の特定の要件に応じて関連するパラメータ、係数、冪(指数)および重みが適正に調整されるだけで他の部に適用するために、本開示の各部の間で相互参照がなされることがある。

0167

〈2.5節ダイアログ向上器制御方法〉
第一部と同様に、上記の実施形態におけるダイアログ向上器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。

0168

まず、第一部で論じたオーディオ処理方法の実施形態がダイアログ向上器のために使われてもよい。ダイアログ向上器のパラメータ(単数または複数)が、オーディオ処理方法によって調整されるべきターゲットの一つである。この観点から、オーディオ処理方法はダイアログ向上器制御方法でもある。

0169

この節では、ダイアログ向上器の制御に固有の側面のみが論じられる。制御方法の一般的な側面については、第一部が参照されうる。

0170

ある実施形態によれば、オーディオ処理方法はさらに、ダイアログ向上処理を含んでいてもよく、調整1104の動作は、ダイアログ向上のレベルを映画的メディアおよび/またはVoIPの信頼値と正に相関させるおよびまたはダイアログ向上のレベルを長期的音楽および/またはゲームの信頼値と負に相関させることを含む。すなわち、ダイアログ向上は主として、映画的メディアまたはVoIPのコンテキストにおけるオーディオ信号に向けられる。

0171

より具体的には、調整1104の動作は、ダイアログ向上器のダイアログ向上のレベルを発話の信頼値と正に相関させることを含んでいてもよい。

0172

本願は、ダイアログ向上処理において向上されるべき周波数帯域を調整してもよい。図16に示されるように、それぞれの周波数帯域が向上されるべきかどうかを決定するための閾値(通例エネルギーまたはラウドネス)が、本願に従って、識別されたオーディオ型の信頼値(単数または複数)に基づいて調整されてもよい(動作1602)。次いで、ダイアログ向上器内で、調整された閾値に基づいて、それぞれの閾値より上の周波数帯域が選択され(動作1604)、向上される(動作1606)。

0173

具体的には、調整1104の動作は、それらの閾値を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/またはそれらの閾値を発話の信頼値と負に相関させることを含んでいてもよい。

0174

オーディオ処理方法(特にダイアログ向上処理)は一般にさらに、オーディオ信号における背景レベルを推定することを含む。これは一般に、ダイアログ向上器402において実現される最小追跡ユニット4022によって実装され、SNR推定または周波数帯域閾値推定において使われる。本願は、背景レベルを調整するために使われてもよい。そのような状況では、背景レベルが推定された後(動作1702)、背景レベルはまず、オーディオ型(単数または複数)の信頼値(単数または複数)に基づいて調整され(動作1704)、次いでSNR推定および/または周波数帯域閾値推定において使われる(動作1706)。特に、調整1104の動作は、推定された背景レベルに調整を割り当てるよう構成されていてもよい。ここで、調整1104の動作は、調整を、短期的音楽および/またはノイズおよび/または背景音の信頼値と正に相関させるおよび/または調整を発話の信頼値と負に相関させるよう構成されていてもよい。

0175

より具体的には、調整1104の動作は、調整を、短期的音楽よりも、ノイズおよび/または背景の信頼値と、より正に相関させるよう構成されていてもよい。

0176

オーディオ処理装置の実施形態と同様に、オーディオ処理方法の実施形態およびその変形の任意の組み合わせが現実的である。他方、オーディオ処理方法の実施形態およびその変形のあらゆる側面は別個の解決策であってもよい。さらに、この節に記載される解決策の任意の二つ以上が互いと組み合わされてもよく、これらの組み合わせがさらに、第一部または後述する他の部において記載または含意される任意の実施形態と組み合わされてもよい。

0177

〈第三部:サラウンド仮想化器コントローラおよび制御方法〉
サラウンド仮想化器は、サラウンドサウンド信号(マルチチャネル5.1および7.1など)がPCの内部スピーカーを通じてまたはヘッドフォンを通じてレンダリングされることを可能にする。すなわち、内蔵ラップトップ・スピーカーまたはヘッドフォンのようなステレオ装置を用いて、仮想的にサラウンド効果を生成し、消費者のために映画館の体験を提供するのである。サラウンド仮想化器では、マルチチャネル・オーディオ信号に関連付けられたさまざまなスピーカー位置からくる音の耳への到来シミュレートするために、通例、頭部伝達関数(HRTF: Head Related Transfer Function)が利用される。

0178

現在のサラウンド仮想化器はヘッドフォン上でよく機能するが、組み込みスピーカーと異なるコンテンツに対して異なる仕方で機能する。一般医、映画的メディア・コンテンツはスピーカーのためにサラウンド仮想化器を有効にし、一方、音楽はそうしない。あまりに薄っぺらに聞こえることがありうるからである。

0179

サラウンド仮想化器における同じパラメータが映画的メディアおよび音楽コンテンツの両方について同時に良好な音像を作り出すことはできないので、パラメータはコンテンツに基づいてより精密に調整される必要がある。利用可能なオーディオ型情報、特に音楽信頼値および発話信頼値ならびに他の何らかのコンテンツ型情報およびコンテキスト情報を用いて、機能は本願とともに行なうことができる。

0180

第二部と同様に、第一部で論じたオーディオ処理装置および方法の個別的な例として、サラウンド仮想化器404は、第一部で論じたすべての実施形態およびそこで開示されたそれらの実施形態の任意の組み合わせを使用してもよい。特に、サラウンド仮想化器を制御する場合、図1図10に示されるようなオーディオ処理装置100におけるオーディオ分類器200および調整ユニット300は、図18に示されるようなサラウンド仮想化器コントローラ1800を構成してもよい。この実施形態では、調整ユニットはサラウンド仮想化器に固有なので、300Bと称されてもよい。第二部と同様に、オーディオ分類器200は、オーディオ・コンテンツ分類器202およびオーディオ・コンテキスト分類器204のうちの少なくとも一つを含んでいてもよく、サラウンド仮想化器コントローラ1800はさらに、型平滑化ユニット712、パラメータ平滑化ユニット814およびタイマー916のうちの少なくとも一つを含んでいてもよい。

0181

したがって、この部においては、第一部ですでに記述した内容を繰り返すことはせず、単にこの部のいくつかの固有の例を与える。

0182

サラウンド仮想化器については、調整可能なパラメータは、サラウンド・ブースト量およびサラウンド仮想化器404の開始周波数を含むがそれに限定されない。

0183

〈3.1節サラウンド・ブースト量〉
サラウンド・ブースト量に関わるとき、調整ユニット300Bは、サラウンド仮想化器404のサラウンド・ブースト量を、ノイズおよび/または背景および/または発話の信頼値と正に相関させるおよび/またはサラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されていてもよい。

0184

特に、音楽(コンテンツ型)が受け入れ可能に聞こえるようにサラウンド仮想化器404を修正するために、調整ユニット300Bの例示的な実装は、短期的音楽信頼値に基づいてサラウンド・ブーストの量を調整することができる。たとえば、
SB∝(1−Confmusic) (5)
ここで、SBはサラウンド・ブースト量、Confmusicは短期的音楽の信頼値である。

0185

それは、音楽についてサラウンド・ブーストを減少させ、音楽が生気ないように聞こえることを防ぐ。

0186

同様に、発話信頼値も利用でき、たとえば、
SB∝(1−Confmusic)*Confspeechα (6)
ここで、Confspeechは発話の信頼値であり、αは指数の形の重み付け係数であり、1〜2の範囲にあってもよい。この公式は、サラウンド・ブースト量は純粋な発話(高い発話信頼度および低い音楽信頼度)についてのみ高くなることを示す。

0187

あるいは、発話の信頼値のみを考慮することもできる
SB∝Confspeech (7)
さまざまな変形が同様にして設計できる。特に、ノイズまたは背景音について、公式(5)ないし(7)と同様の公式が構築されてもよい。さらに、それら四つのコンテンツ型の効果は任意の組み合わせにおいて一緒に考慮されてもよい。そのような状況において、ノイズおよび背景は周囲音であり、大きなブースト量をもってもより安全である。発話は、話者が通例はスクリーンの前方に座ると想定して、中程度のブースト量をもつことができる。したがって、調整ユニット300Bは、サラウンド・ブースト量を、コンテンツが型発話よりも、ノイズおよび/または背景の信頼値と、より正に相関させるよう構成されていてもよい。

0188

各コンテンツ型について期待されるブースト量(これは重みと等化である)をあらかじめ定義していたとして、もう一つの代替を適用することもできる。

0189

ここで、^付きのaは推定されたブースト量、コンテンツ型の添え字をもつαはそのコンテンツ型の期待される/あらかじめ定義されたブースト量(重み)、コンテンツ型の添え字をもつConfはそのコンテンツ型の信頼値である(ここで、bkgは「background sound」(背景音)を表わす)。状況に依存して、amusicは(必須ではないが)0に設定されてもよい。これはサラウンド仮想化器404が純粋な音楽(コンテンツ型)については無効にされることを示す。

0190

別の観点からは、公式(8)におけるコンテンツ型の添え字をもつαはそのコンテンツ型の期待される/あらかじめ定義されたブースト量であり、対応するコンテンツ型の信頼値を、すべての識別されたコンテンツ型の信頼値の和で割った商は、対応するコンテンツ型のあらかじめ定義された/期待されるブースト量の規格化された重みと見なされてもよい。すなわち、調整ユニット300Bは、それらの信頼値に基づいて複数のコンテンツ型のあらかじめ定義された諸ブースト量に重み付けすることを通じて、複数のコンテンツ型のうち少なくともいくつかを考慮するよう構成されていてもよい。

0191

コンテキスト型については、調整ユニット300Bは、サラウンド仮想化器404のサラウンド・ブースト量を、映画的メディアおよび/またはゲームの信頼値と正に相関させ、サラウンド・ブースト量を、長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されていてもよい。次いで、(5)ないし(8)と同様の公式が構築されうる。

0192

特殊な例として、サラウンド仮想化器404は、純粋な映画的メディアおよび/またはゲームについては有効にされ、音楽および/またはVoIPについては無効にされることができる。一方、サラウンド仮想化器404のブースト量は映画的メディアおよびゲームについて異なるように設定されることができる。映画的メディアはより高いブースト量を使い、ゲームはより低い。したがって、調整ユニット300Bは、サラウンド・ブースト量を、ゲームよりも、映画的メディアの信頼値と、より正に相関させるよう構成されてもよい。

0193

コンテンツ型と同様に、オーディオ信号のブースト量は、コンテキスト型の信頼値の重み付き平均に設定されることもできる。

0194

ここで、^付きのaは推定されたブースト量、コンテキスト型の添え字をもつαはそのコンテキスト型の期待される/あらかじめ定義されたブースト量(重み)、コンテキストの添え字をもつConfはそのコンテキスト型の信頼値である。状況に依存して、aMUSICおよびaVOIPは(必須ではないが)0に設定されてもよい。これはサラウンド仮想化器404が純粋な音楽(コンテキスト型)およびまたは純粋なVoIPについては無効にされることを示す。

0195

やはりコンテンツ型と同様に、公式(9)におけるコンテキスト型の添え字をもつαはそのコンテキスト型の期待される/あらかじめ定義されたブースト量であり、対応するコンテキスト型の信頼値を、すべての識別されたコンテキスト型の信頼値の和で割った商は、対応するコンテキスト型のあらかじめ定義された/期待されるブースト量の規格化された重みと見なされてもよい。すなわち、調整ユニット300Bは、それらの信頼値に基づいて複数のコンテキスト型のあらかじめ定義された諸ブースト量に重み付けすることを通じて、複数のコンテキスト型のうち少なくともいくつかを考慮するよう構成されていてもよい。

0196

〈3.2節開始周波数〉
他のパラメータも開始周波数のようなサラウンド仮想化器において修正されることができる。一般に、オーディオ信号中の高周波数成分は空間的にレンダリングされるのに、より好適である。たとえば、音楽では、ベースがより多くのサラウンド効果をもつようにレンダリングされると、おかしく聞こえる。よって、特定のオーディオ信号について、サラウンド仮想化器は、それより上の成分が空間的にレンダリングされ、それより下の成分が保持される周波数閾値を決定する必要がある。周波数閾値は開始周波数である。

0197

本願のある実施形態によれば、サラウンド仮想化器についての開始周波数は音楽コンテンツに対しては高められることができ、それにより音楽信号についてはより多くのベースが保持されることができる。すると、調整ユニット300Bは、サラウンド仮想化器の開始周波数を短期的音楽の信頼値と正に相関させるよう構成されうる。

0198

〈3.3節 実施形態の組み合わせおよび応用シナリオ〉
第一部と同様に、上記で論じたすべての実施形態およびその変形は、そのいかなる組み合わせにおいて実装されてもよく、異なる部/実施形態において言及されるが同じまたは同様の機能をもついかなる構成要素も同じまたは別個の構成要素として実装されてもよい。

0199

たとえば、3.1節および3.2節において述べた解決策の任意の二つ以上が互いと組み合わされてもよい。そして、これらの組み合わせの任意のものが、第一部、第二部および後述する他の部において記載または含意されている任意の実施形態とさらに組み合わされてもよい。

0200

〈3.4節サラウンド仮想化器制御方法〉
第一部と同様に、上記の実施形態におけるサラウンド仮想化器コントローラを記述する過程で、いくつかのプロセスまたは方法も開示されていることは明らかである。以下では、これらの方法の概要が与えられるが、上記ですでに論じた詳細の一部は繰り返さない。

0201

まず、第一部で論じたオーディオ処理方法の実施形態がサラウンド仮想化器について使用されてもよい。サラウンド仮想化器のパラメータ(単数または複数)が、オーディオ処理方法によって調整されるべきターゲットの一つである。この観点から、オーディオ処理方法はサラウンド仮想化器制御方法でもある。

0202

この節では、サラウンド仮想化器の制御に固有の側面のみが論じられる。制御方法の一般的な側面については、第一部が参照されうる。

0203

ある実施形態によれば、オーディオ処理方法はさらに、サラウンド仮想化処理を含んでいてもよく、調整する動作1104はサラウンド仮想化処理のサラウンド・ブースト量をノイズおよび/または背景および/または発話の信頼値と正に相関させるおよび/またはサラウンド・ブースト量を短期的音楽の信頼値と負に相関させるよう構成されていてもよい。

0204

特に、調整する動作1104はサラウンド・ブースト量をノイズおよび/または背景および/または発話の信頼値と、コンテンツ型発話よりも、より正に相関させるよう構成されていてもよい。

0205

代替的または追加的に、サラウンド・ブースト量は、コンテキスト型(単数または複数)の信頼値(単数または複数)に基づいて調整されてもよい。特に、調整する動作1104は、サラウンド仮想化処理のサラウンド・ブースト量を映画的メディアおよび/またはゲームの信頼値と正に相関させるおよび/またはサラウンド・ブースト量を長期的音楽および/またはVoIPの信頼値と負に相関させるよう構成されていてもよい。

0206

特に、調整する動作1104はサラウンド・ブースト量を映画的メディアと、ゲームよりも、より正に相関させるよう構成されていてもよい。

0207

調整されるべきもう一つのパラメータは、サラウンド仮想化処理のための開始周波数である。図19に示されるように、開始周波数はオーディオ型(単数または複数)の信頼値(単数または複数)に基づいてまず調整され(動作1902)、次いで、サラウンド仮想化器は、開始周波数より上のオーディオ・コンポーネントを処理する(動作1904)。特に、調整する動作1104は、サラウンド仮想化処理の開始周波数を短期的音楽の信頼値と正に相関させるよう構成されていてもよい。

0208

オーディオ処理装置の実施形態と同様に、オーディオ処理方法の実施形態およびその変形の任意の組み合わせが現実的である。他方、オーディオ処理方法の実施形態およびその変形のあらゆる側面は別個の解決策であってもよい。さらに、この節に記載される解決策の任意の二つ以上が互いと組み合わされてもよく、これらの組み合わせがさらに、本開示の他の部において記載または含意される任意の実施形態と組み合わされてもよい。

0209

〈第四部:ボリューム平準化器コントローラおよび制御方法〉
異なるオーディオ源または同じオーディオ源の異なるピースのボリュームは時に大きく変化する。ユーザーがボリュームを頻繁に調整しなければならないので、これはわずらわしい。ボリューム平準化器(VL: Volume Leveler)は再生時のオーディオ・コンテンツのボリュームを調整し、ターゲット・ラウドネス値に基づいて時間軸上でほとんど一貫しているようにすることをねらいとする。例示的なボリューム平準化器は特許文献2、特許文献3、特許文献4に記載されている。これら三つの文書はここに全体において参照によって組み込まれる。

0210

ボリューム平準化器は、何らかの仕方でオーディオ信号のラウドネスを連続的に測定し、次いで利得(gain)の量だけ信号を修正する。gainはオーディオ信号のラウドネスを修正するためのスケーリング因子であり、通例、測定されたラウドネス、所望されるターゲット・ラウドネスおよび他のいくつかの因子の関数である。適正な利得を推定するためにいくつかの因子が、ターゲット・ラウドネスに接近しかつダイナミックレンジを維持するための基礎になる基準とともに、考慮される必要がある。それは通例、自動利得制御(AGC)、聴覚イベント検出、ダイナミックレンジ制御(DRC)のようないくつかのサブ要素を含む。

0211

制御信号は、オーディオ信号の「利得」を制御するためにボリューム平準化器において一般に適用される。たとえば、制御信号は、純粋な信号解析によって導出される、オーディオ信号の大きさの変化のインジケーターであることができる。制御信号はまた、聴覚シーン解析または特定ラウドネス・ベースの(specific-loudness-based)聴覚イベント・検出といった音響心理学的解析を通じた、新しいオーディオ・イベントが現われるかどうかを表わすオーディオ・イベント・インジケーターであることもできる。そのような制御信号は、たとえばオーディオ信号における利得の急激な変化に起因する可能な可聴アーチファクトを低減するために利得が聴覚イベント内でほぼ一定であることを保証することによって、および利得変化の多くをイベント境界の近傍に制約することによって、利得制御のためにボリューム平準化器において適用される。

0212

しかしながら、制御信号を導出する従来の方法は、情報性の聴覚イベントを非情報性(干渉性)の聴覚イベントから区別することができない。ここで、情報性の聴覚イベントは、ダイアログおよび音楽のような、意味のある情報を含むオーディオ・イベントを表わし、ユーザーがより注意を払うことがありうる。一方、非情報性の信号は、VoIPにおけるノイズのように、ユーザーにとって意味のある情報を含まない。結果として、非情報性の信号も、大きな利得を適用され、ターゲット・ラウドネス近くにブーストされうる。それはいくつかの応用では快くない。たとえば、VoIP通話では、会話休止に現われるノイズ信号が、ボリューム平準化器により処理された後に、しばしば大きなボリュームにブーストされる。これはユーザーによって望まれない。

0213

この問題に少なくとも部分的に対処するために、本願は、第一部で論じた実施形態に基づいてボリューム平準化器を制御することを提案する。

0214

第二部および第三部と同様に、第一部で論じたオーディオ処理装置および方法の個別的な例として、ボリューム平準化器406は、第一部で論じたすべての実施形態およびそこで開示されたそれらの実施形態の任意の組み合わせを使用してもよい。特に、ボリューム平準化器406を制御する場合、図1図10に示されるようなオーディオ処理装置100におけるオーディオ分類器200および調整ユニット300は、図20に示されるようなボリューム平準化器406コントローラ2000を構成してもよい。この実施形態では、調整ユニットはボリューム平準化器406に固有なので、300Cと称されてもよい。

0215

すなわち、第一部の開示に基づき、ボリューム平準化器コントローラ2000は、オーディオ信号のオーディオ型(コンテンツ型および/またはコンテキスト型など)を連続的に識別するオーディオ分類器200と、識別されたオーディオ型の信頼値に基づいて連続的な仕方でボリューム平準化器を調整する調整ユニット300Cとを有していてもよい。同様に、オーディオ分類器200は、オーディオ・コンテンツ分類器202およびオーディオ・コンテキスト分類器204のうちの少なくとも一つを含んでいてもよく、ボリューム平準化器コントローラ2000はさらに、型平滑化ユニット712、パラメータ平滑化ユニット814およびタイマー916のうちの少なくとも一つを含んでいてもよい。

0216

したがって、この部においては、第一部ですでに記述した内容を繰り返すことはせず、単にこの部のいくつかの固有の例を与える。

0217

分類結果に基づいて、ボリューム平準化器406の種々のパラメータが適応的に調整されることができる。たとえば非情報性信号についての利得を低減することにより、動的利得または動的利得の範囲に直接関係したパラメータを調整することができる。信号が新しい知覚可能なオーディオ・イベントである度合いを示すパラメータを調整し、そして動的利得を間接的に制御することもできる(利得は、オーディオ・イベント内でゆっくり変化するが、二つのオーディオ・イベントの境界では急激に変化することがある)。本願では、パラメータ調整またはボリューム平準化器制御機構のいくつかの実施形態が呈示される。

0218

〈4.1節 情報性および干渉性のコンテンツ型〉
上述したように、ボリューム平準化器の制御との関連で、オーディオ・コンテンツ型は情報性のコンテンツ型および干渉性のコンテンツ型として分類されうる。
調整ユニット300Cは、ボリューム平準化器の動的利得をオーディオ信号の情報性コンテンツ型と正に相関させ、ボリューム平準化器の動的利得をオーディオ信号の干渉性コンテンツ型と負に相関させるよう構成されてもよい。

0219

例として、ノイズが干渉性(非情報性)であり、それは大きなボリュームにブーストされるとわずらわしいとする。動的利得を直接制御するパラメータまたは新しいオーディオ・イベントを示すパラメータは、
GainControl∝1−Confnoise (10)
のように、ノイズ信頼値(Confnoise)の減少関数に比例するよう設定されることができる。

0220

ここで、簡単のため、ボリューム平準化器における利得制御に関係するすべてのパラメータ(またはその効果)を表わすために記号GainControlを用いる。ボリューム平準化器の異なる実装は異なる基礎的な意味をもつパラメータの異なる名前を使いうるからである。単一の用語GainControlを使うことは、一般性を失うことなく、短い表現をもつことができる。本質的には、これらのパラメータを調整することは、もとの利得に線形または非線形の重みを適用することと等価である。一例として、GainControlは、GainControlが小さければ利得が小さくなるよう、利得をスケーリングするために直接使われることができる。もう一つの個別的な例として、利得は、特許文献3に記載されるイベント制御信号をGainControlを用いてスケーリングすることによって間接的に制御される。同出願はここにその全体において参照によって組み込まれる。この場合、GainControlが小さいときは、ボリューム平準化器の利得の制御は、利得が時間とともに著しく変化することを防ぐよう修正される。GainControlが大きいときは、制御は、平準化器の利得がより自由に変化することを許容されるように修正される。

0221

公式(10)において記述される利得制御(もとの利得またはイベント制御信号を直接スケーリングすること)を用いて、オーディオ信号の動的利得はそのノイズ信頼値に(線形または非線形に)相関される。信号が高い信頼値でノイズであれば、採取的な利得は、因子(1−Confnoise)のため、小さくなる。このように、ノイズ信号を快くない大きなボリュームにブーストすることを避ける。

0222

公式(10)の変形例として、(VoIPなどの)用途において背景音にも関心がない場合には、背景音も同様に扱うことができ、小さな利得によって適用されうる。制御関数は、ノイズ信頼値(Confnoise)および背景信頼値(Confbkg)の両方を考慮に入れることができる。たとえば、
GainControl∝(1−Confnoise)・(1−Confbkg) (11)
上記の公式においては、ノイズおよび背景音の両方が望まれないので、GainControlはノイズの信頼値および背景の信頼値によって等しく影響される。これは、ノイズおよび背景音が同じ重みをもつと見なしうる。状況に依存して、両者は異なる重みをもってもよい。たとえば、ノイズおよび背景音の信頼値(またはそれらの1との差)に異なる係数または異なる指数(αおよびγ)を与えてもよい。すなわち、公式(11)は
GainControl∝(1−Confnoise)α・(1−Confbkg)γ (12)
または
GainControl∝(1−Confnoiseα)・(1−Confbkgγ) (13)
と書き直されてもよい。

0223

あるいはまた、調整ユニット300Cは、信頼値に基づいて少なくとも一つの優勢なコンテンツ型を考慮するよう構成されていてもよい。たとえば、
GainControl∝1−max(Confnoise,Confbkg) (14)
公式(11)(およびその諸変形)および公式(14)の両方は、ノイズ信号および背景音信号についての小さな利得を示し、ボリューム平準化器のもとの挙動は、(発話および音楽信号におけるように)ノイズ信頼値および背景信頼値の両方が小さくGainControlが1に近いときにのみ保持される。

0224

上記の例は、優勢な干渉コンテンツ型を考慮する。状況に依存して、調整ユニット300Cは、信頼値に基づいて優勢な情報性コンテンツ型を考慮するよう構成されていてもよい。より一般には、調整ユニット300Cは、識別されたオーディオ型が情報性および/または干渉性オーディオ型である/を含むか否かに関わりなく、信頼値に基づいて少なくとも一つの優勢なコンテンツ型を考慮するよう構成されていてもよい。

0225

公式(10)のもう一つの例示的な変形として、発話信号が最も情報性のコンテンツであり、ボリューム平準化器のデフォルトの挙動に対して必要な修正がより少ないとすると、制御関数はノイズ信頼値(Confnoise)および発話信頼値(Confspeech)の両方を
GainControl∝1−Confnoise・(1−Confspeech) (15)
として考慮することができる。この数を用いると、小さなGainControlが得られるのは、高いノイズ信頼度および低い発話信頼度をもつ信号(たとえば純粋なノイズ)についてのみであり、発話信頼度が高い場合にはGainControlは1に近くなる(よってボリューム平準化器のもとの挙動を保持する)。より一般には、あるコンテンツ型(Confnoiseなど)の重みが少なくとも一つの他のコンテンツ型(Confspeechなど)をもって修正されうると見なされることができる。上記の公式(15)において、発話の信頼度はノイズの信頼度の重み係数を変化させると見なされることができる(公式(12)および(13)における重みに比べると別の種類の重み)。換言すれば、公式(10)ではConfnoiseの係数が1と見なされることができ、一方、公式(15)では、いくつかの他のオーディオ型(発話などだがそれに限られない)がノイズの信頼値の重要性に影響する。よって、Confnoiseの重みが発話の信頼値によって修正されると言うことができる。本開示のコンテキストにおいて、用語「重み」はこれを含むように解釈される。すなわち、値の重要性を示すが、必ずしも規格化されていない。1.4節が参照されてもよい。

0226

別の観点からは、公式(12)および(13)と同様に、指数の形の重みが上記の関数における信頼値に適用されて、異なるオーディオ信号の優先度(または重要性)を示すことができる。たとえば、公式(15)は次のように変更できる。

0227

GainControl∝1−Confnoiseα・(1−Confspeech)γ (16)
ここで、αおよびγは二つの重みである。これらは、平準器パラメータを修正するためにより大きく反応することが期待される場合にはより小さく設定されることができる。

0228

公式(10)〜(16)は、自由に組み合わされて、異なる応用において好適でありうるさまざまな制御関数を形成することができる。音楽信頼値のような他のオーディオ・コンテンツ型の信頼値も同様の仕方で制御関数に簡単に組み込まれることができる。

0229

GainControlが信号が新しい知覚可能なオーディオ・イベントである度合いを示すパラメータを調整し、そして動的利得を間接的に制御するために使われる場合には(利得はオーディオ・イベント内ではゆっくり変化するが、二つのオーディオ・イベントの境界では急激に変化しうる)、コンテンツ型の信頼値と最終的な動的利得との間のもう一つの伝達関数があると見なされてもよい。

0230

〈4.2節 種々のコンテキストにおけるコンテンツ型〉
公式(10)〜(16)における上記の制御関数は、ノイズ、背景音、短期的音楽および発話のようなオーディオ・コンテンツ型の信頼値を考慮に入れるが、映画的メディアおよびVoIPなど、音がどこからくるかのオーディオ・コンテキストは考慮しない。同じオーディオ・コンテンツ型が、たとえば背景音について、異なるオーディオ・コンテキストでは異なる仕方で処理される必要があることがありうる。背景音は、自動車エンジン爆発および拍手など、さまざまな音を含む。VoIPでは意味がないかもしれないが、映画的メディアでは重要であることがある。これは、関心のあるオーディオ・コンテキストが識別され、異なるオーディオ・コンテキストについて異なる制御関数が設計される必要があることを示している。

0231

したがって、調整ユニット300Cはオーディオ信号のコンテンツ型を、オーディオ信号のコンテキスト型に基づいて情報性または干渉性と見なすよう構成されていてもよい。たとえば、ノイズ信頼値および背景信頼値を考慮し、VoIPおよび非VoIPコンテキストを区別することによって、オーディオ・コンテキスト依存制御関数は次のようなものであることができる。

0232

ifオーディオ・コンテキストがVoIP
GainControl∝1−max(Confnoise,Confbkg)
else
GainControl∝1−Confnoise (17)
すなわち、VoIPコンテキストでは、ノイズおよび背景音は干渉性コンテンツ型と見なされ、一方、非VoIPコンテキストでは、背景音は情報性コンテンツ型と見なされる。

0233

もう一つの例として、発話、ノイズおよび背景の信頼値を考え、VoIPおよび非VoIPコンテキストを区別するオーディオ・コンテキスト依存制御関数は次のようなものであることができる。

0234

ifオーディオ・コンテキストがVoIP
GainControl∝1−max(Confnoise,Confbkg)
else
GainControl∝1−Confnoise・(1−Confspeech) (18)
ここで、発話は情報性コンテンツ型として強調される。

0235

音楽も非VoIPコンテキストにおいて重要な情報性の情報であるとすると、公式(18)の後半を
GainControl∝1−Confnoise・(1−max(Confspeech,Confmusic) (19)
拡張できる。

0236

実のところ、(10)〜(16)における制御関数のそれぞれまたはその変形は、異なる/対応するオーディオ・コンテキストにおいて適用されることができる。よって、オーディオ・コンテキスト依存制御関数を形成する多数の組み合わせを生成することができる。

0237

公式(17)および(18)において区別され、利用されるVoIPおよび非VoIPコンテキストのほか、映画的メディア、長期的音楽およびゲームまたは低品質オーディオおよび高品質オーディオのような他のオーディオ・コンテキストが同様の仕方で利用されることができる。

0238

〈4.3節コンテキスト型〉
コンテキスト型は、ノイズのようなわずらわしい音がブーストされすぎるのを避けるようボリューム平準化器を制御するために直接使われることもできる。たとえば、VoIP信頼値が、ボリューム平準化器を、その信頼値が高いときに感度を低くするよう操縦するために使われることができる。

0239

具体的には、VoIP信頼値ConfVOIPを用いて、ボリューム平準化器のレベルは(1−ConfVOIP)に比例するよう設定されることができる。すなわち、ボリューム平準化器はVoIPコンテンツでは(VoIP信頼値が高いときは)ほとんど非作動にされる。これは、VoIPコンテキストについてボリューム平準化器を無効にする伝統的な手動のセットアップ(プリセット)と整合する。

0240

あるいはまた、オーディオ信号の種々のコンテキストについて異なる動的利得範囲を設定することができる。一般に、VL(ボリューム平準化器)量は、オーディオ信号に適用される利得の量をさらに調整し、利得に対するもう一つの(非線形な)重みと見ることができる。ある実施形態では、セットアップは次のようなものであることができる。

0241

さらに、期待されるVL量が各コンテキスト型についてあらかじめ定義されているとする。たとえば、VL量は映画的メディアについては1、VoIPについては0、音楽については0.6、ゲームについては0.3と設定されるが、本願はそれに限定されない。この例によれば、映画的メディアの動的利得の範囲が100%であれば、VoIPの動的利得の範囲は60%である、などとなる。オーディオ分類器200の分類が硬判定に基づく場合には、動的利得の範囲は上記の例のように直接設定されてもよい。オーディオ分類器200の分類が軟判定に基づく場合には、該範囲はコンテキスト型の信頼値に基づいて調整されてもよい。

0242

同様に、オーディオ分類器200は、オーディオ信号から複数のコンテキスト型を識別することがあり、調整ユニット300Cは、前記複数のコンテンツ型の重要性に基づいて前記複数のコンテンツ型の信頼値に重み付けすることによって動的利得の範囲を調整するよう構成されていてもよい。

0243

一般に、コンテキスト型についても、適切なVL量を適応的に設定するために、(10)〜(16)と同様の関数が、その中のコンテンツ型をコンテキスト型で置き換えて、ここで使用されることができる。実際、表1は異なるコンテキスト型の重要性を反映する。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ