図面 (/)

技術 オーディオ信号符号化装置及びその符号化プログラム

出願人 日本ビクター株式会社
発明者 安良定浩
出願日 2003年3月31日 (17年0ヶ月経過) 出願番号 2003-093029
公開日 2004年10月28日 (15年6ヶ月経過) 公開番号 2004-301972
状態 特許登録済
技術分野 音声の分析・合成 圧縮、伸長・符号変換及びデコーダ
主要キーワード 処理制御器 可否判定基準 機能ブロック回路 システム回路図 解決方式 終了インデックス マイクロコンピュータ回路 ブロックスイッチング
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2004年10月28日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

オーディオ信号ショートブロックロングブロック区分し、量子化可変長符号化ビット数判定の反復処理系の前段でショートブロックをグループ化するオーディオ信号符号化装置において、グループ処理判定精度を向上させると共に、符号化処理時間の更なる短縮を図る。

解決手段

グループ処理部11において、ショートブロックを複数のスケールファクタバンド(sfb)に分け、各sfbのバンドパワー量子化ステップ数を求める。そして、隣接するショートブロック間で対応するsfbのバンドパワーの量子化ステップ数を比較し、その差を全てのsfbについて合計した総和値が一定範囲内であれば、各sfbを共有させて隣接するショートブロックをグループ化する。バンドパワーを判定要素としたことで判定精度が向上し、グループ処理と量子化処理整合性を持たせることができる。

概要

背景

従来のMPEG2 AACオーディオ符号化装置は、図5に示すような機能部から構成されている。
先ず、オーディオ信号が所定サンプル数からなるフレーム単位聴覚心理分析器1とMDCT(変形離散コサイン変換:Modified Discrete Cosine Transform)器2へ取り込まれる。
そして、聴覚心理分析器1では、入力オーディオ信号に対して高速フーリエ変換FFT:Fast Fourier Transform)を行って周波数スペクトルを求め、その周波数スペクトルに基づいて聴覚上のマスキング演算し、予め設定された周波数帯域毎許容量子化雑音電力と聴覚心理パラメータを算出すると共に、その聴覚心理パラメータに基づいてMDCTのための変換ブロック長を決定する。
一方、MDCT器2では、入力オーディオ信号に対してMDCTを行って周波数スペクトルに変換し、各周波数スペクトルに係るMDCT係数を求める。
その場合、MDCT器2は、周波数スペクトルへの変換に際して、その変換ブロック長を50%ずつオーバーラップさせ、例えば、2048サンプルを1024本のMDCT係数に変換する。

概要

オーディオ信号をショートブロックロングブロック区分し、量子化可変長符号化ビット数判定の反復処理系の前段でショートブロックをグループ化するオーディオ信号符号化装置において、グループ処理判定精度を向上させると共に、符号化処理時間の更なる短縮をる。グループ処理部11において、ショートブロックを複数のスケールファクタバンド(sfb)に分け、各sfbのバンドパワー量子化ステップ数を求める。そして、隣接するショートブロック間で対応するsfbのバンドパワーの量子化ステップ数を比較し、その差を全てのsfbについて合計した総和値が一定範囲内であれば、各sfbを共有させて隣接するショートブロックをグループ化する。バンドパワーを判定要素としたことで判定精度が向上し、グループ処理と量子化処理整合性を持たせることができる。

目的

本発明は、オーディオ信号の符号化処理において、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ化を実行する場合に、高い精度でグループ化の可否を判定できると共に、量子化処理と整合性をもった判定基準を採用することにより、前記の問題点を解消したオーディオ信号符号化装置及び符号化プログラムを提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力されるオーディオ信号を符号化するオーディオ信号符号化装置において、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎量子化雑音電力聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定される変形離散コサイン変換(以下、「MDCT」という)のための変換ブロック長を求める聴覚心理分析手段と、前記フレームのオーディオ信号を前記聴覚心理分析手段が求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手段と、前記MDCT手段が求めたMDCT係数を前記聴覚心理分析手段が求めた変換ブロック長に基づいてショートブロックロングブロック区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手段と、前記ロングブロックと前記グループ処理手段での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手段であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手段から得られる前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手段と、前記量子化手段が求めた量子化値可変長符号化する可変長符号化手段と、前記可変長符号化手段で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手段と、前記符号量判定手段が前記符号量条件を満たさないと判定した場合に、前記量子化手段による量子化ステップ数を変更した量子化処理と前記可変長符号化手段による符号化処理とを繰り返し実行させる処理制御手段と、前記符号量判定手段が前記符号量条件を満たすと判定した符号化データと前記聴覚心理分析手段が求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手段とを具備したことを特徴とするオーディオ信号符号化装置。

請求項2

オーディオ信号を符号化する符号化プログラムであって、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定されるMDCTのための変換ブロック長を求める聴覚心理分析手順と、前記フレームのオーディオ信号を前記聴覚心理分析手順で求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手順と、前記MDCT手順で求めたMDCT係数を前記聴覚心理分析手順で求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手順と、前記ロングブロックと前記グループ処理手順での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手順であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手順で得られた前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手順と、前記量子化手順で求めた量子化値を可変長符号化する可変長符号化手順と、前記可変長符号化手順で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手順と、前記符号量判定手順で前記符号量条件を満たさないと判定された場合に、前記量子化手順での量子化ステップ数を変更した量子化処理と前記可変長符号化手順での符号化処理とを繰り返し実行させる処理制御手順と、前記符号量判定手順で前記符号量条件を満たすと判定された符号化データと前記聴覚心理分析手順で求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手順とをコンピュータに実行させる符号化プログラム。

技術分野

0001

本発明はオーディオ信号符号化装置及びその符号化プログラム係り、特にMPEG−2/4ACCオーディオ符号化方式において、量子化可変長符号化・符号量判定に係る処理の前段階でショートブロックグループ化処理を行う場合に、そのグループ化処理の判定精度を向上させ、また符号化処理全体の効率化を図るための改良に関する。

0002

従来のMPEG2 AACオーディオ符号化装置は、図5に示すような機能部から構成されている。
先ず、オーディオ信号が所定サンプル数からなるフレーム単位聴覚心理分析器1とMDCT(変形離散コサイン変換:Modified Discrete Cosine Transform)器2へ取り込まれる。
そして、聴覚心理分析器1では、入力オーディオ信号に対して高速フーリエ変換FFT:Fast Fourier Transform)を行って周波数スペクトルを求め、その周波数スペクトルに基づいて聴覚上のマスキング演算し、予め設定された周波数帯域毎許容量子化雑音電力と聴覚心理パラメータを算出すると共に、その聴覚心理パラメータに基づいてMDCTのための変換ブロック長を決定する。
一方、MDCT器2では、入力オーディオ信号に対してMDCTを行って周波数スペクトルに変換し、各周波数スペクトルに係るMDCT係数を求める。
その場合、MDCT器2は、周波数スペクトルへの変換に際して、その変換ブロック長を50%ずつオーバーラップさせ、例えば、2048サンプルを1024本のMDCT係数に変換する。

0003

また、MDCT器2は、聴覚心理分析器1から得られる変換ブロック長情報に基づいてMDCTの対象となるブロック長を長い変換ブロックロングブロック)又は短い変換ブロック(ショートブロック)に切り替えるためのブロックスイッチング機能を採用している。
これは、一般に長い変換ブロック長を用いる方がスペクトル集中度が高まるので効率的なビット配分を行えるが、周波数領域での量子化雑音は時間領域に戻された時に変換ブロック長全体に広がるため、静寂部の後で急峻な立ち上がりアタック部)を有するような波形を長いブロック長で変換して量子化すると、その量子化雑音が静寂部まで広がることになり、聴覚上極めて障りなものとなるからである。
即ち、MDCT器2は、聴覚心理分析器1から得た変換ブロック長情報に基づいて変換ブロック長を選択し、特に、アタック部の前後では長い変換ブロックから複数個の短い変換ブロックに切り替えるようにしている。

0004

例えば、定常的な信号の場合には、MDCTの変換ブロック長は2048サンプルのロングブロックとして1024本のMDCT係数に変換し、一方、過渡的な信号の場合には、256サンプルのショートブロックとして128本のMDCT係数に変換する。
そして、ショートブロックについては、8個連続で短い変換長を選択することとし、出力されるMDCT係数の本数を1024本としてロングブロックと一致させるようにしている。

0005

次に、量子化器3では、人間の聴覚特性に基づいて周波数帯域毎に1024本のMDCT係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にMDCT係数を正規化して量子化を行う。
その際に、ショートブロックの場合には128本のMDCT係数を複数のスケールファクタバンドに分ける。
また、各スケールファクタバンドについて計算された量子化雑音が聴覚心理分析器1で算出された許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御し、且つ量子化に必要なビット数がフレーム単位で所定ビット数以内に収まるように全体の量子化ステップ数を制御して量子化を実行する。
尚、スケールファクタバンドの量子化ステップ数とは、各周波数帯域内のサンプルデータを波形と倍率に分離し、波形の最大振幅が1.0となるように正規化して倍率を符号化したものに相当し、スケールファクタとも言われるものである。

0006

次に、量子化されたデータはグループ処理器4へ入力され、より高い符号化効率が得られるようにショートブロックについてグループ化が行われる。
図6はそのグルーピングの一例を示し、8個のショートブロックが4組のグループに分けられており、各グループにはそれぞれ3,1,2,2個のショートブロックが含まれている。
また、図7はグループ化を行う前のスケールファクタバンド(sfb)の順序を表している。
各ショートブロックに属する128本のMDCT係数は複数のスケールファクタバンドに区分され、ショートブロック毎にスケールファクタバンドのインデックス順に並べられている。

0007

一方、図8は、図6グループ分けに対応してスケールファクタバンドの順序を並べ替えてグループ毎共有化させたものである。
この図では、図6のグループ0に含まれている3個のショートブロック内の同じインデックスを持つスケールファクタバンドが同一であるために1つのグループ内にまとめられ、同一であったものが単一のスケールファクタバンドとして統合されている。
これは、その他のグループについても前記の条件下で同様に処理されている。
このように、隣接したショートブロックの相応するスケールファクタバンドのスケールファクタが全て同一である場合に、スケールファクタの共有化のために、各ショートブロック内のスケールファクタバンドを並び替えて1つのスケールファクタバンドとして統合化することにより、スケールファクタ分の符号化ビットの削減が可能になる。

0008

次に、可変長符号化器5では、量子化器3とグループ処理器4で処理された後のMDCT係数の量子化値やスケールファクタ等の符号化パラメータに対して可変長符号化処理を施して冗長度を削減し、それをビット数判定器6へ出力する。
ビット数判定器6では、符号化された1フレーム分のビット数が予め設定された所定範囲内に収まっているか否かを判定し、その条件を満たしていれば、符号化データをそのままビットストリーム生成器7へ出力するが、満たしていない場合には、その判定結果を処理制御部8へ出力する。
処理制御部8では、その判定結果に基づいて量子化器3とグループ処理器4と可変長符号化器5による前記の一連の処理を再度実行させ、ビット数判定器6において前記条件を満たしていると判定されるまでその処理を反復させる。
そして、ビット数判定器6において前記条件を満たした符号化データはビットストリーム生成器7へ出力され、ブロック情報等の符号化パラメータと共に多重化されたビットストリームとして伝送されることになる。

0009

ところで、上記のMPEG2 AACオーディオ符号化方式においては、量子化・符号化の処理段階で、符号化後の1フレーム分のビット数が所定範囲に収まっていない場合に反復処理を実行させるため、量子化を行う度にスケールファクタバンドの量子化ステップ数が変化することになる。
その場合、グループ処理器4において、隣接するショートブロックを周波数帯域が対応したスケールファクタバンドを共有化させる態様でグループ化するには、量子化後の量子化ステップ数の比較判定を反復処理の回数分実行する必要があり、結果的に符号化処理全体の所要時間が長くなってしまうという問題がある。

0010

この問題に対して、本願出願人は、下記の特許文献1において、次のような解決方式を提案している。
この提案では、図1に示すように、グループ処理器10を量子化器3の前に配置させ、量子化する前の段階で予めショートブロックのグループ化を行うようにしている。
先ず、量子化器3での量子化はスケールファクタバンド単位で実行されるため、スケールファクタバンドの量子化ステップ数は各スケールファクタバンド内のMDCT係数の最大絶対値に依存することになる。
そこで、MDCT器2が求めたMDCT係数を聴覚心理分析器1が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、ショートブロックについてはその各スケールファクタバンド内のMDCT係数の最大絶対値を検出し、更にその量子化ステップ数(以下、「最大量子化ステップ数」という)を求める。
次に、隣接するショートブロック間で周波数帯域が対応しているスケールファクタバンドについて最大量子化ステップ数の絶対差分値を求め、更にその絶対差分値の総和を求める。
その場合、前記の総和値が小さいほど、隣接するショートブロックにおけるスケールファクタバンドの最大量子化ステップ数の差が小さいことになり、量子化においても隣接するショートブロックが同じ量子化ステップ数で量子化される確率が高くなる。
そこで、前記の絶対差分値の総和が所定閾値以下であればグループ化が可能と判定し、図8に示すようにスケールファクタを共有化させた態様でショートブロックのグループ化を行って符号化ビットの削減を可能にする。
この提案によれば、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ処理を行っているため、符号化処理全体の所要時間が長くなるという問題が解消できることになる。

背景技術

0011

【特許文献1】
特開2001−154698号公報

0012

ところで、前記の特許文献1の提案では、隣接するショートブロックのグループ化の判定要素として、各スケールファクタバンド内のMDCT係数の最大量子化ステップ数を用いているが、最大量子化ステップ数が同一であっても、それがスケールファクタバンド内のMDCT係数の形状についての同一性を的確に表しているとは限らない。
即ち、前記の最大量子化ステップ数がスケールファクタ内のMDCT係数全体を反映するとする前提には不十分さがあり、且つ判定基準である前記の絶対差分値の総和は隣接するショートブロック間での各スケールファクタバンドの近似性を示すだけであることから、実際にはグループ化の判定精度に問題が生じる。

0013

また、実際の符号化処理においては、聴覚心理分析器1が各ブロックの各スケールファクタバンドのバンドパワーに基づいて許容量子化雑音電力を求め、その許容量子化雑音電力に基づいて量子化器3が各スケールファクタバンドの量子化ステップ数を制御するため、ショートブロックのグループ化においてバンドパワーの要素が欠落しているとグループ処理と量子化処理整合性がとれず、逆に前記の反復処理の回数を多くして符号化処理の所要時間が長くなる可能性がある。

発明が解決しようとする課題

0014

そこで、本発明は、オーディオ信号の符号化処理において、量子化・可変長符号化・ビット数判定の反復処理系の前段階でショートブロックのグループ化を実行する場合に、高い精度でグループ化の可否を判定できると共に、量子化処理と整合性をもった判定基準を採用することにより、前記の問題点を解消したオーディオ信号符号化装置及び符号化プログラムを提供することを目的として創作された。

0015

本発明のオーディオ信号符号化装置は、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定される変形離散コサイン変換(以下、「MDCT」という)のための変換ブロック長を求める聴覚心理分析手段と、前記フレームのオーディオ信号を前記聴覚心理分析手段が求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手段と、前記MDCT手段が求めたMDCT係数を前記聴覚心理分析手段が求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手段と、前記ロングブロックと前記グループ処理手段での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手段であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手段から得られる前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手段と、前記量子化手段が求めた量子化値を可変長符号化する可変長符号化手段と、前記可変長符号化手段で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手段と、前記符号量判定手段が前記符号量条件を満たさないと判定した場合に、前記量子化手段による量子化ステップ数を変更した量子化処理と前記可変長符号化手段による符号化処理とを繰り返し実行させる処理制御手段と、前記符号量判定手段が前記符号量条件を満たすと判定した符号化データと前記聴覚心理分析手段が求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手段とを具備したことを特徴とするオーディオ信号符号化装置に係る。

0016

この発明では、グループ処理手段において、ロングブロックについてはそのまま量子化手段へ出力するが、ショートブロックについてはそのブロック内のスケールファクタバンドのバンドパワーに着目してグループ化を行っている。
そして、各バンドパワーを量子化ステップ数に換算した後、隣接するショートブロック間で周波数帯域が対応している各スケールファクタバンドのバンドパワーを量子化ステップ数に換算して比較し、その差のスケールファクタバンド全体での総和値の大きさをグループ化の可否判定基準としている。
ここに、バンドパワーとはスケールファクタバンド内の各MDCT係数を1本にまとめたものであり、スケールファクタバンド内のMDCT係数全体を反映している。
従って、ショートブロックのグループ処理の判定精度が向上すると共に、グループ処理手段と量子化手段との整合性がとれて量子化・可変長符号化・符号化量判定の反復処理回数を少なくでき、全体としての符号化所要時間も短くすることができる。

課題を解決するための手段

0017

また、前記のオーディオ信号符号化装置をコンピュータで構成する場合には、オーディオ信号を所定サンプル数からなるフレーム単位で取り込み、予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータと前記聴覚心理パラメータとに基づいて決定されるMDCTのための変換ブロック長を求める聴覚心理分析手順と、前記フレームのオーディオ信号を前記聴覚心理分析手順で求めた変換ブロック長で周波数スペクトルに変換してMDCT係数を求めるMDCT手順と、前記MDCT手順で求めたMDCT係数を前記聴覚心理分析手順で求めた変換ブロック長に基づいてショートブロックとロングブロックに区分し、その内のショートブロックについてのみ、前記MDCT係数を前記周波数帯域毎の各スケールファクタバンドに分け、各スケールファクタバンド毎のバンドパワーを求めた後に前記各バンドパワーの量子化ステップ数を求め、隣接するショートブロック間における前記周波数帯域が対応する各スケールファクタバンドのバンドパワーの量子化ステップ数を比較し、その差を全てのスケールファクタバンドについて合計した総和値が一定の範囲である場合に、隣接するショートブロックを各スケールファクタバンドを共有させる態様でグループ化するグループ処理手順と、前記ロングブロックと前記グループ処理手順での処理を経たショートブロックとの各MDCT係数を前記スケールファクタバンド単位で量子化する手順であって、前記スケールファクタバンド毎の量子化雑音が前記聴覚心理分析手順で得られた前記聴覚心理パラメータの許容量子化雑音電力より小さくなるように、量子化ステップ数を制御して量子化を行う量子化手順と、前記量子化手順で求めた量子化値を可変長符号化する可変長符号化手順と、前記可変長符号化手順で得られた符号化データが前記フレーム単位で所定符号量以下であるか否かを判定する符号量判定手順と、前記符号量判定手順で前記符号量条件を満たさないと判定された場合に、前記量子化手順での量子化ステップ数を変更した量子化処理と前記可変長符号化手順での符号化処理とを繰り返し実行させる処理制御手順と、前記符号量判定手順で前記符号量条件を満たすと判定された符号化データと前記聴覚心理分析手順で求めた聴覚心理パラメータと変換ブロック長情報とを、前記フレーム単位でビットストリームに構成して出力するビットストリーム生成手順とを実行させる符号化プログラムが適用できる。

0018

以下、本発明の「オーディオ信号符号化装置及びその符号化プログラム」に係る実施形態を、図1から図4を用いて詳細に説明する。
[実施形態1]
先ず、図1はこの実施形態のオーディオ信号符号化装置の機能ブロック図を示す。
ここで、図1と従来技術に係る図5の装置を比較すれば明らかなように、聴覚心理分析器1,MDCT器2,量子化器3,可変長符号化器5,ビット数判定器6,ビットストリーム生成器7,処理制御部8を用いる点は共通しており、それらの機能も同様である。
また、前記のように、従来技術に係る特許文献1の装置は、機能ブロック回路としては図1と同様であり、同図で符号(10)として示されたグループ処理器がMDCT器2と量子化器3の間に設けられている。
従って、この実施形態のオーディオ信号符号化装置は、量子化器3と可変長符号化器5とビット数判定器6と処理制御部8からなる反復処理系の前にショートブロックのグループ処理がなされる点では特許文献1の装置と共通している。
しかし、この実施形態では、グループ処理器(符号11として示す)によるグループ化の可否に係る判定基準が異なっており、この実施形態の装置はその点に特徴がある。

0019

この実施形態の装置は次のように動作する。
先ず、オーディオ信号が所定サンプル数のフレーム単位で聴覚心理分析器1とMDCT器2へ取り込まれ、聴覚心理分析器1において、人間の聴覚特性に基づいて予め設定された周波数帯域毎の量子化雑音電力と聴覚心理パラメータとMDCTのための変換ブロック長情報が求められることは、従来技術の装置と同様である。
また、MDCT器2が、聴覚心理分析器1から得られる変換ブロック長情報に基づいて変換ブロック長を設定し、オーディオ信号をMDCTによって周波数スペクトルに変換してMDCT係数を求めることも同様である。

0020

次に、グループ処理器11では、聴覚心理分析器1が得ている変換ブロック長情報に基づいて各MDCT係数をショートブロックとロングブロックに区分し、ショートブロックについてのみ以下の処理を行う。
先ず、ショートブロックの各MDCT係数(128本)を前記の周波数帯域毎の各スケールファクタバンドに分割する。
そして、各ショートブロックにおけるスケールファクタバンド毎に、次の数式(1)によりバンドパワーBP(n,m)を求める。
【数001】
ここに、nはショートブロック番号(b=1〜7)、mはショートブロック内のスケールファクタバンドの番号、Xkはスケールファクタバンドに含まれる各MDCT係数、low(m)はスケールファクタバンドにおけるMDCT係数の開始インデックス、high(m)はスケールファクタバンドにおけるMDCT係数の終了インデックスである。

0021

次に、グループ処理器11では、前記の数式(1)で求めた各バンドパワーPB(n,m)を用いて、次の数式(2)により各バンドパワーPBに対する量子化ステップ数SF(n,m)を求める。
これは、スケールファクタバンド内に1本に統合された仮想的なMDCTスペクトルが存在しているものとして算出するものである。
【数002】
但し、VALは定数値である。

0022

そして、グループ処理器11は、隣接するショートブロック内の対応したスケールファクタバンド毎に、次の数式(3)により量子化ステップ数の絶対差分値の総和δ(n,n+1)を求める。
【数003】
尚、この数式(3)ではショートブロック番号がnとn+1である隣接したショートブロックについて量子化ステップ数の絶対差分値を求めており、各ショートブロック内のスケールファクタバンドの総数はMである。

0023

前記の総和δ(n,n+1)は、スケールファクタバンド毎のバンドパワーBP(n,m)を用いて求められたものであり、その値が小さいほど隣接するショートブロック間でスケールファクタバンドに含まれる周波数スペクトル全体近似度が高くなり、量子化後の値もそれだけ近似した値になる。
即ち、スケールファクタバンドのバンドパワーは、上記の特許文献1におけるMDCT係数の最大絶対値よりも、スケールファクタバンドに含まれる周波数スペクトル全体(MDCT係数全体の形状)をより正確に反映している。
そこで、グループ処理器11では、閾値として定数THR_deltaを用い、δ(n,n+1)がTHR_deltaに対してδ(n,n+1)≦THR_deltaの条件を満たしていれば、n番目とn+1番目の各ショートブロックをグループ化が可能なものと判定する。
この場合、前記のように、スケールファクタバンドのバンドパワーBP(n,m)をグループ化判定の基本要素としているため、より正確な判定結果が得られている。
尚、THR_deltaは固定値でもよいが、入力信号の特性に応じて可変設定されるようにしてもよい。

0024

このようにして、グループ化が可能と判定された各ショートブロックは、各スケールファクタバンドをインターリーブ方式で並び替えて共有させた態様でグループ化される。
そして、グループ処理器11は、グループ化した後のショートブロックをロングブロックと共に量子化器103へ出力する。

0025

次に、量子化器3では、ショートブロックとロングブロックの各MDCT係数をスケールファクタバンド単位で量子化する。
ロングブロックの場合は、グループ処理器11から得られた1024本のMDCT係数を複数のスケールファクタバンドに分け、各スケールファクタバンド毎にMDCT係数を正規化して量子化する。
一方、ショートブロックの場合は、128本のMDCT係数を複数のスケールファクタバンドに分割した後、各スケールファクタバンド毎にMDCT係数を正規化して量子化する。
また、前記の量子化に際しては、各スケールファクタバンドについて求められる量子化雑音が聴覚心理分析器1から得られている許容量子化雑音電力よりも大きくならないように、各スケールファクタバンドの量子化ステップ数を制御すると共に、量子化に必要なビット数が所定ビット数以下に収まるように全体の量子化ステップ数も制御する。
ところで、聴覚心理分析器1は各ブロックの各スケールファクタバンドのバンドパワーに基づいて許容量子化雑音電力を求めているが、前記のように、グループ処理部11でもショートブロックのグループ化の可否判定に際して各スケールファクタバンドのバンドパワーを判定要素としている。
従って、グループ処理と量子化処理の整合性が確保でき、量子化部3での量子化ステップ数の制御を小さい誤差範囲で行えるため、高い精度で量子化ステップ数を設定できる。

0026

次に、可変長符号化器5では、量子化器3が出力する各MDCT係数の量子化値とスケールファクタ等の符号化パラメータに対して可変長符号化処理を行って冗長度を削減し、その符号化データをビット数判定器6へ出力する。
そして、ビット数判定器6では、符号化後のデータの符号量がフレーム単位で所定範囲に収まっている否かを判定する。

0027

ビット数判定器6では、前記の符号量条件が満たされていれば、符号化データをそのままビットストリーム生成器7へ出力するが、その条件を満たしていない場合には、その判定結果を処理制御部8へ出力する。
そして、処理制御部8は、前記の符号量条件を満たしていない場合の判定結果に基づいて、量子化器3と可変長符号化器5とビット数判定器6による前記の一連の処理を再度実行させ、ビット数判定器6で前記の符号量条件を満たしていると判定されるまでその処理を反復して実行させる。
ビット数判定器6から出力された符号化データは、ビットストリーム生成器7においてブロック情報等の符号化パラメータと共に多重化され、1フレーム分のオーディオ信号に係るビットストリームとして伝送されることになる。
尚、上記の処理は1フレーム分のオーディオ信号が取り込まれる度に実行されて、ビットストリームが順次出力されてゆくことになる。

0028

以上のように、この実施形態の装置では、上記の特許文献1の装置と同様に、グループ処理器11を量子化器3の前段に配置させており、量子化・可変長符号化・ビット数判定の反復処理系にグループ処理が含まれないために全体としての符号化処理時間を短縮できるが、更に、スケールファクタバンドのバンドパワーをショートブロックのグループ化判定要素としたことにより、グループ化の判定精度を向上させると共に、量子化段階での量子化ステップ数も高精度に設定できることから、前記の反復処理回数を少なくしてより効率的な符号化処理が実現できる。

0029

[実施形態2]
前記の実施形態1ではオーディオ信号符号化装置をハードウェアで構成することを前提として説明したが、その符号化処理全体はプログラムによるソフトウェア処理によっても実行させることができる。
図2はオーディオ信号符号化装置をマイクロコンピュータ回路20で構成した場合のシステム回路図であり、CPU21とROM22とRAM23とI/Oポート24からなる。
オーディオ信号はI/Oポート24から取り込まれ、符号化後のビットストリームもI/Oポート24から出力される。

0030

そして、ROM23には、実施形態1における各ユニット(聴覚心理分析器1、MDCT器2、グループ処理器11、量子化器3、可変長符号化器5、ビット数判定器6、及びビットストリーム生成器7)によるデータ処理と同様の機能を実行する各プログラムモジュールシステム制御プログラムが格納されており、CPU21がシステム制御プログラムに基づいて各プログラムモジュールをシーケンシャルに実行させることにより、符号化されたビットストリームを作成する。

0031

この装置による全体的なデータ処理手順図4フローチャートに示され、またグループ処理モジュールによるショートブロックのグルーピング処理手順に係るフローチャートは図3に示される。
各図から明らかなように、基本的な処理内容は実施形態1と同様であるため、以下の個々のデータ処理手順に係る説明は概略的な範囲に留める。

0032

先ず、入力されるオーディオ信号はI/Oポート24から所定データ量毎に取り込まれ、RAM23にセーブされる(S1)。
そして、聴覚心理分析モジュールが起動してRAM23にセーブしたオーディオ信号を分析し、その分析により得られた聴覚心理パラメータと変換ブロック長情報をRAM23にセーブする(S2)。
また、MDCT変換モジュールが起動され、オーディオ信号を前記のブロック情報に基づいた変換ブロック長で周波数スペクトルに変換してMDCT係数を求め、それをRAM23にセーブする(S3)。

0033

次に、グループ処理モジュールが起動され、図3に示す手順に基づいて、予めショートブロックについてのグループ処理が実行される(S4)。
このグループ処理では、先ず、ステップS3で求めたMDCT係数をステップS2で求められた変換ブロック長に基づいてショートブロックとロングブロックに区分し、各ショートブロック内のスケールファクタバンドのバンドパワーを求めた後、更にそのバンドパワーの量子化ステップ数を求める(S41〜S43)。
尚、それらの演算には実施形態1で用いた数式(1)及び(2)が適用される。

0034

バンドパワーの量子化ステップ数が求まると、隣接するショートブロック間で周波数帯域が対応する各スケールファクタバンドのバンドパワーの差を前記の量子化ステップ数の絶対値差分として求め、実施形態1で用いた数式(3)を適用して、それら絶対値差分の総和:δ(n,n+1)を求める(S44)。
そして、予め設定されている定数:THR_deltaと前記の総和:δ(n,n+1)を比較し、δ(n,n+1)≦THR_deltaの場合には、隣接しているn番目とn+1番目の各ショートブロックをグループ化し、δ(n,n+1)>THR_deltaの場合にはグループ化せずにそのままとする(S45,S46)。
尚、ここでのグループ処理はショートブロックだけを対象とし、ロングブロックはそのままとされる。

0035

前記のグループ処理が完了すると、図4に戻って、量子化モジュールが起動されてロングブロックとショートブロックの各MDCT係数を各スケールファクタバンド毎に正規化して量子化し、量子化後のデータをRAM23にセーブする(S5)。
次に、可変長符号化モジュールが起動され、前記のMDCT係数の量子化値とスケールファクタ等のパラメータ値を可変長符号化する(S6)。
そして、ビット数判定モジュールを起動して、1フレーム分の符号化後の符号量が所定ビット数以下であるか否かを判定し、その符号量条件を満たさなかった場合には、量子化ステップ数を変更させて前記の量子化処理及び可変長符号化処理を再度実行させる(S7→S5,S7)。
また、その反復処理は符号化後の1フレーム分のビット数が前記の符号量条件を満たすまで繰り返して実行される。

0036

このようにして、1フレーム分の符号化データが前記の符号量条件を満たすと、ビットストリーム生成モジュールが起動され、符号化データとブロック情報等の符号化パラメータを多重化してビットストリームにまとめられ、そのビットストリームがI/Oポート24から出力される(S8,S9)。
また、その段階でRAM23のセーブデータクリアされ、次の1フレーム分のオーディオ信号がRAM23に取り込まれ、以降、入力オーディオ信号があれば、ステップS1からステップS8のデータ処理を繰り返して実行する(S9→S1)。

発明を実施するための最良の形態

0037

尚、この実施形態に係る符号化プログラム(システム制御プログラム及び各処理に係るプログラムモジュール)は、記録媒体に格納した提供方式だけでなく、インターネット等の通信回線を介して提供してもよく、それぞれ適当なシステムを用いてマイクロコンピュータ回路に実装させることができる。

図面の簡単な説明

0038

本発明のオーディオ信号符号化装置及びその符号化プログラムは、以上の構成を有していることにより、次のような効果を奏する。
オーディオ信号をショートブロックとロングブロックに分け、ショートブロックをグループ化して符号量を削減する符号化装置及びその符号化プログラムにおいて、符号化処理時間を短縮するためにショートブロックのグループ処理を反復処理系(量子化・可変長符号化・符号量判定)の前段階で実行させる場合に、そのグループ化の可否の判定精度を向上させると共に、グループ処理と量子化処理に整合性を持たせて更に符号化処理時間の短縮を実現する。

図1
本発明の実施形態1に係るオーディオ信号符号化装置の機能ブロック回路図である。
図2
本発明の符号化プログラムを適用した実施形態2のオーディオ信号符号化装置のシステム回路図である。
図3
実施形態2におけるグループ処理手順を示すフローチャートである。
図4
実施形態2におけるデータ処理手順全体を示すフローチャートである。
図5
従来技術に係るオーディオ信号符号化装置の機能ブロック回路図である。
図6
ショートブロックのグルーピングの一例を示す図である。
図7
グルーピング前におけるスケールファクタバンドの順序の一例を示す図である。
図8
グルーピング後におけるスケールファクタバンドの順序の一例を示す図である。
【符号の説明】
1…聴覚心理分析器、2…MDCT器、3…量子化器、4,10,11…グループ処理器、5…可変長符号化器、6…ビット数判定器、7…ビットストリーム生成器、8…処理制御器、20…マイクロコンピュータ回路、21…CPU、22…ROM、23…RAM、24…I/Oポート。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ