図面 (/)

技術 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム

出願人 カシオ計算機株式会社
発明者 井手博康
出願日 2008年2月18日 (11年7ヶ月経過) 出願番号 2008-036273
公開日 2009年8月27日 (10年0ヶ月経過) 公開番号 2009-193015
状態 未査定
技術分野 音声の分析・合成
主要キーワード 包絡値 合計エネルギー 分割周波数 分割周波数帯域 辞書用 正規化前 存在フラグ 各周波数帯域毎
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2009年8月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

符号化効率を向上させるように情報の重複を避けてデータを符号化し、符号化されたこのデータを復号化する。

解決手段

CPU15の符号化部15−1は、各周波数帯域重要度の高い順に、量子化したデータのエントロピー符号化を行い、その符号化データの合計符号量目標符号量を超えたとき、そのときの周波数帯域MDCT係数をすべて削除する。符号化部15−1は、この周波数帯域のMDCT係数を符号化対象から除外するため、存在フラグを1にセットする。この周波数帯域の包絡値は0となるため、符号化部15−1は、この存在フラグを符号化せずに、再計算した包絡値のみを符号化して情報の重複を避ける。復号化部15−2は、包絡値0となった周波数帯域のMDCT係数に0をセットして符号化データを復号化する。

概要

背景

従来、人間の聴覚の特性に基づいて音声符号化を行い、この符号化データを復号化する音声処理装置がある(例えば、特許文献1参照)。

音声処理装置は、録音時にデジタル音声信号を符号化し、再生時に符号化されて生成された符号列を復号化する。

このような音声処理装置は、電子辞書装置のような語学辞書において発音される単語の音声用としても利用される。語学辞書用の音声処理装置では、十分な音質を確保しつつ、16kbps程度のデータレートを確保しなければならない。
特開2005−128404号公報(第4−10頁、図1)

概要

符号化効率を向上させるように情報の重複を避けてデータを符号化し、符号化されたこのデータを復号化する。CPU15の符号化部15−1は、各周波数帯域重要度の高い順に、量子化したデータのエントロピー符号化を行い、その符号化データの合計符号量目標符号量を超えたとき、そのときの周波数帯域MDCT係数をすべて削除する。符号化部15−1は、この周波数帯域のMDCT係数を符号化対象から除外するため、存在フラグを1にセットする。この周波数帯域の包絡値は0となるため、符号化部15−1は、この存在フラグを符号化せずに、再計算した包絡値のみを符号化して情報の重複を避ける。復号化部15−2は、包絡値0となった周波数帯域のMDCT係数に0をセットして符号化データを復号化する。

目的

本発明は、このような従来の問題点に鑑みてなされたもので、符号化効率を向上させることが可能な符号化装置符号化方法及びプログラムを提供することを目的とする。

効果

実績

技術文献被引用数
2件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

デジタル信号周波数変換して得られた周波数変換係数全周波数帯域を複数の分割周波数帯域に分割する周波数帯域分割部と、前記周波数帯域分割部が分割した前記分割周波数毎に、各周波数変換係数を量子化する量子化部と、前記量子化部が量子化した前記周波数変換係数を符号化対象とするか、前記符号化対象から除外するかを示す識別情報を生成する識別情報生成部と、前記分割周波数帯域毎に、前記量子化部によって量子化された前記周波数変換係数の最大値を、包絡値として取得する包絡値取得部と、前記分割周波数帯域毎に重要度を取得し、前記識別情報生成部が生成した識別情報に基づいて前記符号化対象の前記周波数変換係数を判別し、判別した前記周波数変換係数を、前記分割周波数帯域毎に取得した重要度の順に符号化するとともに、前記識別情報生成部が生成した識別情報と前記包絡値取得部が前記分割周波数帯域毎に取得した前記包絡値とを符号化する符号化部と、を備え、前記符号化部は、符号化したデータの合計符号量が予め設定された目標符号量を超えて前記分割周波数帯域の周波数変換係数が符号化対象から除外されたとき、当該符号化対象から除外された分割周波数帯域について前記包絡値取得部が取得した前記包絡値、または前記分割周波数帯域の周波数変換係数を符号化対象から除外する旨の識別情報のいずれか一方を符号化する、ことを特徴とする符号化装置

請求項2

前記符号化部が符号化したデータの合計符号量と予め設定された目標符号量とを比較する符号量比較部と、前記符号量比較部の比較結果に基づいて前記合計符号量が前記目標符号量を超えたと判別したときに、前記符号化部が符号化した前記分割周波数帯域の周波数変換係数を削除する帯域データ削除部と、を備え、前記識別情報生成部は、前記帯域データ削除部が削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報を生成し、前記包絡値取得部は、前記帯域データ削除部により削除された分割周波数帯域の包絡値を再取得し、前記符号化部は、前記包絡値取得部が再取得した前記包絡値、または前記帯域データ削除部が削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報のいずれか一方を符号化する、ことを特徴とする請求項1に記載の符号化装置。

請求項3

前記請求項1又は前記請求項2に記載の符号化装置によって符号化されたデータを復号化する復号化部と、前記復号化部が復号化したデータのうち、前記符号化対象から除外された周波数変換係数を、前記復号化部が復号化した前記包絡値及び前記識別情報に基づいて判別し、判別した前記周波数変換係数に、予め設定された値を挿入する周波数変換係数設定部と、前記復号化部が復元した前記周波数変換係数及び前記周波数変換係数設定部が予め設定された値を挿入した前記周波数変換係数の逆量子化を行う逆量子化部と、前記逆量子化部が逆量子化を行った前記周波数変換係数の逆周波数変換を行い、前記デジタル信号を復元する逆周波数変換部と、を備えた、ことを特徴とする復号化装置

請求項4

デジタル信号を周波数変換して得られた周波数変換係数の全周波数帯域を複数の分割周波数帯域に分割するステップと、前記分割周波数毎に、各周波数変換係数を量子化するステップと、量子化した前記周波数変換係数を符号化対象とするか、前記符号化対象から除外するかを示す識別情報を生成するステップと、前記分割周波数帯域毎に量子化された前記周波数変換係数の最大値を、包絡値として取得するステップと、前記分割周波数帯域毎に重要度を取得し、前記識別情報に基づいて前記符号化対象の前記周波数変換係数を判別し、判別した前記周波数変換係数を、前記分割周波数帯域毎に取得した重要度の順に符号化するとともに、前記識別情報と前記分割周波数帯域毎に取得した前記包絡値とを符号化するステップと、符号化したデータの合計符号量が予め設定された目標符号量を超えたとき、前記合計符号量が前記目標符号量を超えた分割周波数帯域の周波数変換係数を削除するステップと、削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報を生成するステップと、前記削除ステップにより削除された分割周波数帯域の包絡値を再取得するステップと、再取得した前記包絡値、または削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報のいずれか一方を符号化するステップと、を備えた、ことを特徴とする符号化方法

請求項5

前記請求項4に記載の符号化方法によって符号化されたデータを復号化するステップと、復号化したデータのうち、前記符号化対象から除外された周波数変換係数を、復号化した前記包絡値及び前記識別情報に基づいて判別し、判別した前記周波数変換係数に、予め設定された値を挿入するステップと、前記周波数変換係数の逆量子化を行うステップと、逆量子化を行った前記周波数変換係数の逆周波数変換を行い、前記デジタル信号を復元するステップと、を備えた、ことを特徴とする復号化方法

請求項6

コンピュータに、デジタル信号を周波数変換して得られた周波数変換係数の全周波数帯域を複数の分割周波数帯域に分割する手順、前記分割周波数毎に、各周波数変換係数を量子化する手順、量子化した前記周波数変換係数を符号化対象とするか、前記符号化対象から除外するかを示す識別情報を生成する手順、前記分割周波数帯域毎に量子化された前記周波数変換係数の最大値を、包絡値として取得する手順、前記分割周波数帯域毎に重要度を取得し、前記識別情報に基づいて前記符号化対象の前記周波数変換係数を判別し、判別した前記周波数変換係数を、前記分割周波数帯域毎に取得した重要度の順に符号化するとともに、前記識別情報と前記分割周波数帯域毎に取得した前記包絡値とを符号化する手順、符号化したデータの合計符号量が予め設定された目標符号量を超えたとき、前記合計符号量が前記目標符号量を超えた分割周波数帯域の周波数変換係数を削除する手順、削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報を生成する手順、前記削除手順により削除された分割周波数帯域の包絡値を再取得する手順、再取得した前記包絡値、または削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報のいずれか一方を符号化する手順、を実行させるためのプログラム

請求項7

コンピュータに、請求項6に記載のプログラムに従って符号化されたデータを復号化する手順、復号化したデータのうち、前記符号化対象から除外された周波数変換係数を、復号化した前記包絡値及び前記識別情報に基づいて判別し、判別した前記周波数変換係数に、予め設定された値を挿入する手順、前記周波数変換係数の逆量子化を行う手順、逆量子化を行った前記周波数変換係数の逆周波数変換を行い、前記デジタル信号を復元する手順、を実行させるためのプログラム。

技術分野

0001

本発明は、符号化装置復号化装置符号化方法復号化方法及びプログラムに関するものである。

背景技術

0002

従来、人間の聴覚の特性に基づいて音声符号化を行い、この符号化データを復号化する音声処理装置がある(例えば、特許文献1参照)。

0003

音声処理装置は、録音時にデジタル音声信号を符号化し、再生時に符号化されて生成された符号列を復号化する。

0004

このような音声処理装置は、電子辞書装置のような語学辞書において発音される単語の音声用としても利用される。語学辞書用の音声処理装置では、十分な音質を確保しつつ、16kbps程度のデータレートを確保しなければならない。
特開2005−128404号公報(第4−10頁、図1

発明が解決しようとする課題

0005

このため、符号化に際し、データ量をできるだけ低減させてデジタル音声信号を符号化する必要がある。また、このように符号化された符号化データを復号化して、できるだけ忠実にデジタル音声信号を復元する必要がある。

0006

本発明は、このような従来の問題点に鑑みてなされたもので、符号化効率を向上させることが可能な符号化装置、符号化方法及びプログラムを提供することを目的とする。

0007

また、本発明は、符号化されたデータからデジタル信号を復元することが可能な復号化装置、復号化方法及びプログラムを提供することを目的とする。

課題を解決するための手段

0008

この目的を達成するため、本発明の第1の観点に係る符号化装置は、
デジタル信号を周波数変換して得られた周波数変換係数全周波数帯域を複数の分割周波数帯域に分割する周波数帯域分割部と、
前記周波数帯域分割部が分割した前記分割周波数毎に、各周波数変換係数を量子化する量子化部と、
前記量子化部が量子化した前記周波数変換係数を符号化対象とするか、前記符号化対象から除外するかを示す識別情報を生成する識別情報生成部と、
前記分割周波数帯域毎に、前記量子化部によって量子化された前記周波数変換係数の最大値を、包絡値として取得する包絡値取得部と、
前記分割周波数帯域毎に重要度を取得し、前記識別情報生成部が生成した識別情報に基づいて前記符号化対象の前記周波数変換係数を判別し、判別した前記周波数変換係数を、前記分割周波数帯域毎に取得した重要度の順に符号化するとともに、前記識別情報生成部が生成した識別情報と前記包絡値取得部が前記分割周波数帯域毎に取得した前記包絡値とを符号化する符号化部と、を備え、
前記符号化部は、符号化したデータの合計符号量が予め設定された目標符号量を超えて前記分割周波数帯域の周波数変換係数が符号化対象から除外されたとき、当該符号化対象から除外された分割周波数帯域について前記包絡値取得部が取得した前記包絡値、または前記分割周波数帯域の周波数変換係数を符号化対象から除外する旨の識別情報のいずれか一方を符号化することを特徴とする。

0009

前記符号化部が符号化したデータの合計符号量と予め設定された目標符号量とを比較する符号量比較部と、
前記符号量比較部の比較結果に基づいて前記合計符号量が前記目標符号量を超えたと判別したときに、前記符号化部が符号化した前記分割周波数帯域の周波数変換係数を削除する帯域データ削除部と、を備え、
前記識別情報生成部は、前記帯域データ削除部が削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報を生成し、
前記包絡値取得部は、前記帯域データ削除部により削除された分割周波数帯域の包絡値を再取得し、
前記符号化部は、前記包絡値取得部が再取得した前記包絡値、または前記帯域データ削除部が削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報のいずれか一方を符号化するようにしてもよい。

0010

本発明の第2の観点に係る復号化装置は、
上述の符号化装置によって符号化されたデータを復号化する復号化部と、
前記復号化部が復号化したデータのうち、前記符号化対象から除外された周波数変換係数を、前記復号化部が復号化した前記包絡値及び前記識別情報に基づいて判別し、判別した前記周波数変換係数に、予め設定された値を挿入する周波数変換係数設定部と、
前記復号化部が復元した前記周波数変換係数及び前記周波数変換係数設定部が予め設定された値を挿入した前記周波数変換係数の逆量子化を行う逆量子化部と、
前記逆量子化部が逆量子化を行った前記周波数変換係数の逆周波数変換を行い、前記デジタル信号を復元する逆周波数変換部と、を備えたことを特徴とする。

0011

本発明の第3の観点に係る符号化方法は、
デジタル信号を周波数変換して得られた周波数変換係数の全周波数帯域を複数の分割周波数帯域に分割するステップと、
前記分割周波数毎に、各周波数変換係数を量子化するステップと、
量子化した前記周波数変換係数を符号化対象とするか、前記符号化対象から除外するかを示す識別情報を生成するステップと、
前記分割周波数帯域毎に量子化された前記周波数変換係数の最大値を、包絡値として取得するステップと、
前記分割周波数帯域毎に重要度を取得し、前記識別情報に基づいて前記符号化対象の前記周波数変換係数を判別し、判別した前記周波数変換係数を、前記分割周波数帯域毎に取得した重要度の順に符号化するとともに、前記識別情報と前記分割周波数帯域毎に取得した前記包絡値とを符号化するステップと、
符号化したデータの合計符号量が予め設定された目標符号量を超えたとき、前記合計符号量が前記目標符号量を超えた分割周波数帯域の周波数変換係数を削除するステップと、
削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報を生成するステップと、
前記削除ステップにより削除された分割周波数帯域の包絡値を再取得するステップと、
再取得した前記包絡値、または削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報のいずれか一方を符号化するステップと、を備えたことを特徴とする。

0012

本発明の第4の観点に係る復号化方法は、
上述の符号化方法によって符号化されたデータを復号化するステップと、
復号化したデータのうち、前記符号化対象から除外された周波数変換係数を、復号化した前記包絡値及び前記識別情報に基づいて判別し、判別した前記周波数変換係数に、予め設定された値を挿入するステップと、
前記周波数変換係数の逆量子化を行うステップと、
逆量子化を行った前記周波数変換係数の逆周波数変換を行い、前記デジタル信号を復元するステップと、を備えたことを特徴とする。

0013

本発明の第5の観点に係るプログラムは、
コンピュータに、
デジタル信号を周波数変換して得られた周波数変換係数の全周波数帯域を複数の分割周波数帯域に分割する手順、
前記分割周波数毎に、各周波数変換係数を量子化する手順、
量子化した前記周波数変換係数を符号化対象とするか、前記符号化対象から除外するかを示す識別情報を生成する手順、
前記分割周波数帯域毎に量子化された前記周波数変換係数の最大値を、包絡値として取得する手順、
前記分割周波数帯域毎に重要度を取得し、前記識別情報に基づいて前記符号化対象の前記周波数変換係数を判別し、判別した前記周波数変換係数を、前記分割周波数帯域毎に取得した重要度の順に符号化するとともに、前記識別情報と前記分割周波数帯域毎に取得した前記包絡値とを符号化する手順、
符号化したデータの合計符号量が予め設定された目標符号量を超えたとき、前記合計符号量が前記目標符号量を超えた分割周波数帯域の周波数変換係数を削除する手順、
削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報を生成する手順、
前記削除手順により削除された分割周波数帯域の包絡値を再取得する手順、
再取得した前記包絡値、または削除した前記分割周波数帯域の周波数変換係数を前記符号化対象から除外する旨の識別情報のいずれか一方を符号化する手順、
を実行させるためのものである。

0014

本発明の第6の観点に係るプログラムは、
コンピュータに、
上述のプログラムに従って符号化されたデータを復号化する手順、
復号化したデータのうち、前記符号化対象から除外された周波数変換係数を、復号化した前記包絡値及び前記識別情報に基づいて判別し、判別した前記周波数変換係数に、予め設定された値を挿入する手順、
前記周波数変換係数の逆量子化を行う手順、
逆量子化を行った前記周波数変換係数の逆周波数変換を行い、前記デジタル信号を復元する手順、
を実行させるためのものである。

発明の効果

0015

本発明によれば、符号化効率を向上させることができる。また、符号化されたデータからデジタル信号を復元することができる。

発明を実施するための最良の形態

0016

以下、本発明の実施形態に係る符号化・復号化装置を図面を参照して説明する。尚、本実施形態では、符号化・復号化装置を音声処理装置に適用した場合について説明する。

0017

本実施形態に係る音声処理装置の構成を図1に示す。
本実施形態に係る音声処理装置1は、音声入出力装置11と、記憶装置12と、ROM13と、RAM14と、CPU15と、を備える。これらのものは、バスを介して接続される。

0018

この音声処理装置1は、例えば、電子辞書装置のような語学辞書用のものであり、十分な音質を確保しつつ、16kbps程度のデータレートを確保するようにしている。

0019

このため、この音声処理装置1は、符号化前の周波数変換係数の最大値としての包絡値の情報と、デジタル音声信号から変換された周波数変換係数を符号化対象とするか否かを示す存在フラグの情報との重複を避けて符号化効率を向上させるように構成されている。

0020

音声入出力装置11は、入力された音声をデジタル音声信号に変換し、また、デジタル音声信号が供給されると、このデジタル音声信号に基づいて音声を出力するものである。音声入出力装置11は、例えば、入力された音声をサンプリング周波数16kHzでサンプリングし、16ビットで量子化してデジタル音声信号Sound0を生成する。

0021

記憶装置12は、音声入出力装置11が生成したデジタル音声信号Sound0を記憶するとともに、このデジタル音声信号Sound0の符号化処理に必要なデータを記憶するものである。

0022

ROM13は、CPU15が音声処理に必要なプログラムのデータ等を記憶するものである。RAM14は、CPU15が処理に必要なデータを記憶するものである。

0023

CPU15は、ROM13に記憶されたプログラムデータに従って、各処理を実行するものであり、符号化部15−1と復号化部15−2とを備える。

0024

符号化部15−1は、音声入出力装置11が変換したデジタル音声信号の符号化をフレーム単位で行うものであり、図2に示すように、DC削除部21と、MDCT(Modified Descrete Cosine Transform,修正離散コサイン変換)部22と、正規化部23と、帯域分割部24と、包絡生成部25と、包絡除算部26と、量子化部27と、存在フラグ生成部28と、包絡再計算部29と、エントロピー符号化部30と、符号量比較部31と、帯域データ削除部32と、によって構成される。

0025

DC削除部21は、音声入出力装置11が生成したデジタル音声信号Sound0から、直流成分Xdcを削除するものである。直流成分Xdcを削除するのは、直流成分Xdcが音質に関係しないためである。DC削除部21は、例えば、次の式(1)によって表される高域通過フィルタによって構成される。



・・・(1)
DC削除部21は、この高域通過フィルタを介して直流成分Xdcを削除したデジタル音声信号Sound1を取得し、取得したデジタル音声信号Sound1をMDCT部22に供給する。また、DC削除部21は、直流成分Xdcのデータを記憶装置12に記憶する。

0026

MDCT部22は、DC削除部21から供給されたデジタル音声信号Sound1に対して、1フレームを複数のブロックに分割し、ブロック毎に周波数変換を行い、周波数変換係数としてMDCT係数Xk(k;変換した周波数を示す符号)を算出するものである。MDCT部22は、次の式(2)に従い、MDCT係数Xkを算出する。



・・・(2)
尚、MDCT係数Xkのタップ長Mは512タップ理想的である。

0027

正規化部23は、MDCT部22が算出したMDCT係数Xkを正規化(量子化)するものである。正規化部23は、MDCT係数Xkの最大値gainを取得して分離し、各MDCT係数Xkをこの最大値gainで除算することにより、正規化を行う。

0028

即ち、正規化部23は、次の式(3)に従い、フレーム毎に、MDCT係数Xkの最大値gainを取得する。
gain=MAX{xk|k=1,・・・,N}
但し、MAX;最大値gainを取得する関数
xk;1フレームにおけるサンプル(MDCT係数)
N;1フレームにおけるサンプル数
・・・(3)

0029

正規化部23は、次の式(4)に従って正規化を行う。



・・・(4)
正規化部23は、このような正規化を行うことにより、MDCT係数Xkを8ビット程度に量子化し、MDCT係数Xk_regを取得する。正規化部23は、取得したMDCT係数Xk_regを帯域分割部24に供給する。また、正規化部23は、最大値gainを記憶装置12に記憶する。

0030

帯域分割部24は、正規化部23から供給されたMDCT係数Xk_regの全周波数帯域を複数の(分割)周波数帯域b_i(i;分割した周波数帯域の数)に分割する(区分けする)ものである。帯域分割部24は、人間の聴覚の特性に合わせて、低域(低周波数帯域)ほど狭く、高域高周波数帯域)ほど広くなるように、全周波数帯域を分割する。周波数分割部24は、周波数帯域b_iの情報を記憶装置12に記憶する。

0031

包絡生成部25は、包絡値env_iを取得するものである。包絡生成部25は、各周波数帯域b_i中でMDCT係数Xk_regの絶対値の最大値を検索し、各周波数帯域b_iの最大値を包絡値env_iとして取得する。

0032

包絡除算部26は、包絡生成部25が取得したenv_iで各MDCT係数Xk_regを除算して、除算した結果のMDCT係数Xk_eを取得するものである。

0033

量子化部27は、包絡除算部26が取得したMDCT係数Xk_eを、各周波数帯域b_i毎に予め設定された精度で量子化するものであり、量子化した結果のMDCT係数Xk_qを取得する。量子化部27は、取得したMDCT係数Xk_qを存在フラグ生成部28に供給する。

0034

存在フラグ生成部28は、存在フラグFl_kを生成するものである。この存在フラグFl_kは、量子化されたMDCT係数Xk_qを符号化対象とするか符号化対象から除外するかを示す識別情報であり、各MDCT係数Xk_qに対応している。

0035

符号化部15−1は、量子化部27の量子化によってMDCT係数Xk_qが0となったとき、符号量低減のため、このMDCT係数Xk_qを符号化対象とはしない。この場合、存在フラグ生成部28は、このMDCT係数Xk_qを符号化対象から除外することを示すため、この存在フラグFl_kに1をセットする。

0036

また、存在フラグ生成部28は、帯域データ削除部32から、重要度の低い周波数帯域b_iのMDCT係数Xk_qを削除した旨の通知を受けると、この周波数帯域b_i内の各MDCT係数Xk_qに対応する存在フラグFl_kに1をセットする。

0037

一方、存在フラグ生成部28は、それ以外のMDCT係数Xk_qを符号化対象とするため、存在フラグFl_kに0をセットする。

0038

包絡再計算部29は、包絡値env_iの再計算を行うものである。量子化部27がMDCT係数Xk_regを量子化した場合、あるいは、帯域データ削除部32のデータが、ある周波数帯域b_iのMDCT係数Xk_qを削除した場合、包絡値env_iは変化する。包絡再計算部29は、このような場合のために包絡値env_iを再計算する。

0039

包絡再計算部29は、符号化対象のMDCT係数Xk_qと、存在フラグ生成部28が生成した存在フラグFl_kと、をエントロピー符号化30に供給する。

0040

但し、帯域データ削除部32が、ある周波数帯域b_iのMDCT係数Xkを削除すると、この周波数帯域b_iの包絡値env_iが0となり、包絡値env_kと、削除されたMDCT係数Xkの存在フラグFl_kとが重複する。このため、包絡再計算部29は、再計算した包絡値env_iのみをエントロピー符号化30に供給し、この周波数帯域b_iのMDCT係数Xk_qと存在フラグFl_kとの供給を停止する。包絡再計算部29は、このようにして、情報の重複を避ける。

0041

エントロピー符号化部30は、包絡再計算部29から供給された符号化対象のMDCT係数Xk_qを符号化し、符号化データXk_codeを生成するものである。

0042

エントロピー符号化部30は、符号化の処理量を低減するため、存在フラグFl_kと包絡値env_iとに基づいて符号化対象のMDCT係数Xk_qを判別する。

0043

エントロピー符号化部30は、符号化データの符号量を目標符号量以下とするため、周波数帯域b_i毎に重要度を算出し、この重要度に基づいて、符号化対象の周波数帯域b_iを選択する。

0044

重要度を算出する最も単純な方法として、エントロピー符号化部30は、各周波数帯域毎合計エネルギーを用いる。周波数帯域iの合計エネルギーgiは、次の式(5)によって表される。



・・・(5)

0045

エントロピー符号化部30は、この式(5)に従ってエネルギーgiを算出し、このエネルギーgiが高いほどこの周波数帯域b_iの重要度が高いと判定する。そして、エントロピー符号化部30は、重要度の高い順に周波数帯域b_iを選択し、選択した周波数帯域b_iのMDCT係数Xk_qのエントロピー符号化を行う。

0046

尚、エントロピー符号化部30は、場合に応じ、エネルギーgiに、周波数に依存した重み係数乗算しても良い。その場合、例えば、エントロピー符号化部30は、500Hz未満の周波数帯周波数係数には、1.3を乗算し、500以上3500Hz未満の周波数帯の周波数係数には、1.1を乗算し、3500Hz以上の周波数帯の周波数係数には、1.0を乗算する。

0047

エントロピー符号化部30は、RangeCoder、ハフマンコード等のエントロピー符号化に従い、コード表を用いてMDCT係数Xk_qを符号化し、符号化データXk_codeを生成する。

0048

また、エントロピー符号化部30は、MDCT係数Xk_qとともに、各部のデータも符号化する。

0049

エントロピー符号化部30は、各部のデータとして、最大値gainと、周波数帯域b_1〜b_7を示すデータと、包絡再計算部29が再計算した包絡値env_iと、存在フラグFl_kと、を符号化する。

0050

存在フラグFl_kについては、エントロピー符号化部30は、復号化部1−2が量子化により0となったMDCT係数Xk_qが符号化対象から除外されたことを判別できるようにするため、このMDCT係数Xk_qを示す存在フラグFl_kを符号化対象とする。

0051

一方、帯域データ削除部32によって削除された周波数帯域b_iの包絡値env_iの情報があれば、復号化部1−2は、存在フラグFl_kの情報がなくても周波数帯域b_i内のMDCT係数Xk_qが符号化対象から除外されたことを判別できる。即ち、帯域データ削除部32によって削除された周波数帯域b_iについては、包絡値env_iの情報と存在フラグFl_kとの情報が重複していることになる。

0052

このため、エントロピー符号化部30は、この重複を避けるため、帯域データ削除部32によって削除された周波数帯域b_iの存在フラグFl_kを符号化対象から除外する。

0053

エントロピー符号化部30は、生成した符号化データXk_codeと、符号化に用いたコード表と、符号化した各部のデータと、を記憶装置12に記憶する。そして、エントロピー符号化部30は、符号化したデータを符号量比較部31に供給する。

0054

符号量比較部31は、エントロピー符号化部30からデータが供給される毎に、供給されたデータの符号量を合計し、この合計符号量と目標符号量とを比較するものである。この目標符号量は、十分な音質を確保しつつ、16kbps程度のデータレートを確保するために予め設定されたものである。

0055

符号量比較部31は、合計符号量と目標符号量とを比較した比較結果を帯域データ削除部32に供給する。

0056

帯域データ削除部32は、符号量比較部31の比較結果に基づいて、合計符号量が目標符号量を超えたか否かを判別し、超えた場合、その周波数帯域b_iのMDCT係数Xk_qを削除するものである。

0057

帯域データ削除部32は、周波数帯域b_iのMDCT係数Xk_qを削除した場合、この旨を存在フラグ生成部28に通知する。

0058

図1に示す復号化部15−2は、記憶装置12からデータを読み出して符号化データXk_codeを復号化し、デジタル音声信号を復元するものであり、図3に示すように、エントロピー復号化部41と、包絡値処理部42と、逆量子化部43と、包絡乗算部44と、ゲイン合成部45と、IMDCT部46と、を備える。

0059

エントロピー復号化部41は、供給された符号化データXk_code及び各部のデータのエントロピー復号を行い、MDCT係数Xk_qと各部のデータとを取得するものである。

0060

包絡値処理部42は、符号化対象から除外されたMDCT係数Xk_qに、予め設定された値として0をセットするものである。包絡値処理部42は、このようなMDCT係数Xk_qとして、包絡値env_iが0である周波数帯域b_iのMDCT係数Xk_q、存在フラグFl_kに1がセットされたMDCT係数Xk_qに0をセットする。

0061

逆量子化部43は、各MDCT係数Xk_qに対し、各周波数帯域b_i毎に予め設定された精度で逆量子化を行い、MDCT係数Xkを取得するものである。逆量子化部43は、取得したMDCT係数Xkを包絡乗算部44に供給する。

0062

包絡乗算部44は、逆量子化部43から供給されたMDCT係数Xkと包絡値env_iとを乗算するものであり、乗算することにより、正規化部23が正規化したMDCT係数Xk_regを取得する。包絡乗算部44は、取得したMDCT係数Xk_regをゲイン合成部45に供給する。

0063

ゲイン合成部45は、包絡乗算部44から供給されたMDCT係数Xk_regに最大値gainを乗算し、正規化前のMDCT係数Xkを取得するものである。ゲイン合成部45は、取得したMDCT係数XkをIMDCT部46に供給する。

0064

IMDCT部46は、ゲイン合成部45から供給されたMDCT係数Xkに対して、逆MDCTを行うものである。IMDCT部46は、逆MDCTを行ってデジタル音声信号Sound1を取得してデジタル音声信号を復元する。

0065

次に本実施形態に係る音声処理装置1の動作を説明する。
録音時、音声が入力されると、音声入出力装置11は、図4(a)に示すように、サンプリング間隔Ts毎に、入力された音声をデジタル音声信号Sound0に変換する。

0066

CPU15の符号化部15−1は、音声入出力装置11が変換したデジタル音声信号Sound0を取得し、DC削除部21は、このデジタル音声信号Sound0に対し、式(1)に従って演算を行うことにより、図4(a)に示す直流成分Xdcを削除し、デジタル音声信号Sound1を取得する。

0067

MDCT部22は、デジタル音声信号Sound1に対し、式(2)に従って、ブロック毎に周波数変換を行い、図4(b)に示すようなMDCT係数Xkを算出する。

0068

図4(b)に示すように、この全体のMDCT係数Xkのうち、周波数f3のMDCT係数X3が最大とすると、正規化部23は、式(3)に従ってこのMDCT係数X3を最大値gainとして取得し、式(4)に従い、取得した最大値gainで各MDCT係数Xkを除算する。正規化部23は、このような演算により正規化を行い、MDCT係数Xk_regを取得する。

0069

帯域分割部24は、全周波数帯域を複数の周波数帯域b_iに分割する。ここでは、図4(c)に示すように、帯域分割部24は、i=7として、全周波数帯域を7つの周波数帯域b_1〜b_7に分割するものとする。

0070

包絡生成部25は、図5(a)に示すように、帯域分割部24が分割した各周波数帯域b_1〜b_7毎に、各MDCT係数Xk_regの包絡値env_1〜env_7を取得する。

0071

包絡除算部26は、包絡生成部25が取得した包絡値env_1〜env_7で各周波数帯域b_1〜b_7のMDCT係数Xk_regを除算し、図5(b)に示すようなMDCT係数Xk_eを取得する。

0072

量子化部27は、例えば、図6(a)に示すように、周波数帯域b_1を低域、周波数帯域b_2〜b_5を中域、周波数帯域b_6,b_7を高域として、低域、中域、高域毎に量子化の精度を設定する。

0073

そして、量子化部27は、MDCT係数Xk_eに対して、周波数帯域b_1〜b_7毎に予め設定された精度で量子化を行い、図6(b)に示すような量子化したMDCT係数Xk_qを取得する。

0074

図6(c)に示すように、周波数帯域b_2の周波数f7のMDCT係数X7_qが量子化により0となったものとすると、存在フラグ生成部28は、このMDCT係数X7_qを符号化対象から除外することを示すため、このMDCT係数X7_qの存在フラグFl_7に1をセットする。

0075

MDCT係数X7_q以外のMDCT係数Xk_qは、0ではないため、存在フラグ生成部28は、これらの存在フラグFl_kに0をセットする。包絡再計算部29は、再度、包絡値env_1〜env_7を計算する。

0076

エントロピー符号化部30は、式(5)に従って、合計エネルギーgiを算出し、図7(a)に示すように、この合計エネルギーgiが高い順に重要度1〜7を決定するものとする。

0077

エントロピー符号化部30は、決定した重要度に従い、コード表を用いて、周波数帯域b_1,b_5,b_7,b_6,b_2,b_4,b_3の順に、量子化部27が量子化したMDCT係数Xk_qを符号化し、各MDCT係数Xkの符号化データXk_codeを生成する。

0078

尚、エントロピー符号化部30は、存在フラグFl_7に1がセットされているため、MDCT係数X7_qを符号化対象から除外し、このMDCT係数X7_qの符号化を行わない。

0079

エントロピー符号化部30が、重要度7の周波数帯域b_3のMDCT係数Xk_qを符号化したときに、符号量比較部31が求めた合計符号量が目標符号量を超えたものとする。

0080

帯域データ削除部32は、図7(b)及び図7(c)に示すように、符号量比較部31から供給された比較結果に基づいて、重要度の低い周波数帯域b_3のMDCT係数X12_q〜X17_qをすべて削除する(0とする)。

0081

存在フラグ生成部28は、帯域データ削除部32から、周波数帯域b_3のMDCT係数X12_q〜X17_qをすべて削除した旨の通知を受けると、図7(c)に示すように、MDCT係数X12_q〜X17_q(周波数f12〜f17)の存在フラグFl_12〜Fl_17に1をセットする。存在フラグ生成部28は、このようにしてMDCT係数X12_q〜X17_qを符号化対象から除外すことを示す。

0082

包絡再計算部29は、図8に示すように、データを削除した周波数帯域b_3の包絡値env_3を0とする。

0083

エントロピー符号化部30は、最終的に、存在フラグFl_12〜Fl_17のフラグ値が1となったMDCT係数X7_q,X12_q〜X17_qを符号化せず、これらを除くMDCT係数Xk_qを符号化する。そして、エントロピー符号化部30は、符号化データXk_codeを生成する。

0084

また、エントロピー符号化部30は、各部のデータとして、存在フラグFl_k、包絡値env_iも符号化する。この存在フラグFl_kは、MDCT係数X7_qが符号化対象から除外されたか否かを復号化部15−2が判別できるように生成されたものであるため、エントロピー符号化部30は、基本的には、この存在フラグFl_kも符号化する。従って、エントロピー符号化部30は、存在フラグFl_7を符号化する。

0085

しかし、周波数帯域b_3の包絡値env_3が0であれば、復号化部15−2は、存在フラグFl_12〜Fl_17がなくても、MDCT係数X12_q〜X17_qが符号化対象から除外されたことを判別できる。このため、エントロピー符号化部30は、包絡値env_3のみを符号化し、存在フラグFl_12〜Fl_17を符号化しない。

0086

最終的に、エントロピー符号化部30は、各部のデータとして、周波数帯域b_1〜b_7を示すデータと、包絡再計算部29が再計算した包絡値env_3を含むenv_1〜env_7と、存在フラグFl_12〜Fl_17を除く存在フラグFl_kと、MDCT係数Xk_qと、最大値gainと、を符号化する。

0087

エントロピー符号化部30は、符号化データXk_codeと、コード表と、符号化した各部のデータと、を記憶装置12に記憶する。

0088

音声を再生する場合、CPU15の復号化部15−2は、記憶装置12から、これらのデータを読み出し、読み出したデータに基づいてデジタル音声信号を復元する。

0089

即ち、復号化部15−2のエントロピー復号化部41は、記憶装置12から読み出したコード表を用いて、符号化データXk_codeと各部のデータとを復号化し、図8に示すMDCT係数Xk_qを取得する。

0090

復号化された包絡値env_3が0であるため、包絡値処理部42は、包絡値env_3の周波数帯域b_3のデータに基づいて、この周波数帯域b_3の周波数f12〜f17を判別する。

0091

また、包絡値処理部42は、包絡値env_3が0であることから、周波数帯域b_3の存在フラグFl_12〜Fl_17が符号化されていないことを判別する。そして、包絡値処理部42は、各周波数f12〜f17のMDCT係数X12_q〜X17_qに0をセットする。

0092

また、包絡値処理部42は、存在フラグFl_7に1がセットされているため、MDCT係数X7_qに0をセットする。

0093

逆量子化部43は、MDCT係数Xk_qに対し、各周波数帯域b_1〜b_7毎に、予め設定された精度で逆量子化を行い、図6(a)に示すようなMDCT係数Xk_eを取得する。

0094

包絡乗算部44は、復号化された各包絡値env_1〜env_7とMDCT係数Xk_eとを乗算し、図4(c)及び図5(a)に示すようなMDCT係数Xk_regを取得する。

0095

ゲイン合成部45は、復号化された最大値gainと包絡乗算部が取得したとMDCT係数Xk_regとを乗算し、図4(b)に示すような正規化部23が正規化する前のMDCT係数Xkを取得する。

0096

IMDCT部46は、逆MDCTを行ってデジタル音声信号Sound1を復元する。

0097

復号化部15−2は、このようにして復元したデジタル音声信号Sound1を音声入出力装置11に供給し、音声入出力装置11は、供給されたデジタル音声信号Sound1に基づいて音声を再生する。

0098

以上説明したように、本実施形態1によれば、符号化部15−1は、量子化によって0となったMDCT係数Xk_q、合計符号量が目標符号量を超えたために削除したMDCT係数Xk_qを符号化対象から除外するようにした。

0099

また、符号化部15−1は、合計符号量が目標符号量を超えたために削除したMDCT係数Xk_qの存在フラグFl_kを符号化対象から除外するようにして、包絡値env_iの情報と存在フラグFl_kの情報との重複を避けるようにした。

0100

従って、符号化効率を向上させることができ、十分な音質を確保しつつ、16kbps程度のデータレートを確保することができる。

0101

尚、本発明を実施するにあたっては、種々の形態が考えられ、上記実施形態に限られるものではない。
例えば、上記実施形態では、エントロピー符号化部30は、MDCT係数Xk_qを削除した周波数帯域b_iの包絡値env_iのみを符号化し、このMDCT係数Xk_qの存在フラグFl_kを符号化対象から除外するようにした。

0102

しかし、この反対に、エントロピー符号化部30は、MDCT係数Xk_qを削除した周波数帯域b_iの存在フラグFl_kのみを符号化し、この包絡値env_iを符号化対象から除外するようにしてもよい。このようにしても、MDCT係数Xk_qを削除した周波数帯域b_iの包絡値env_iの情報と存在フラグFl_kの情報との重複を避けて、符号化効率を向上させることができる。

0103

上記実施形態では、周波数変換としてMDCTを用いて説明した。しかし、周波数変換は、MDCTに限られるものではなく、DCTであってもよい。

0104

上記実施形態では、符号化装置、復号化装置を音声処理装置に適用した場合について説明した。しかし、符号化装置、復号化装置は、音声処理装置に限られるものではなく、例えば、携帯電話携帯端末のような送受信装置等に適用することができる。

0105

また、上記実施形態では、プログラムが、それぞれメモリ等に予め記憶されているものとして説明した。しかし、符号化装置、復号化装置を、装置の全部又は一部として動作させ、あるいは、上述の処理を実行させるためのプログラムを、フレキシブルディスクCD−ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、MO(Magneto Optical disk)などのコンピュータ読み取り可能な記録媒体に格納して配布し、これを別のコンピュータにインストールし、上述の手段として動作させ、あるいは、上述の工程を実行させてもよい。

0106

さらに、インターネット上のサーバ装置が有するディスク装置等にプログラムを格納しておき、例えば、搬送波重畳させて、コンピュータにダウンロード等するものとしてもよい。

図面の簡単な説明

0107

本発明の実施形態に係る音声処理装置の構成を示すブロック図である。
図1に示す符号化部の構成を示すブロック図である。
図1に示す復号化部の構成を示すブロック図である。
図1に示す符号化部の動作(その1)を示す図であり、(a)は、音声入出力装置が入力したデジタル音声信号を示し、(b)は、図2に示すMDCT部が生成したMDCT係数を示し、(c)は、帯域分割部が分割した周波数帯域を示す。
図1に示す符号化部の動作(その2)を示す図であり、(a)は、図2に示す包絡生成部が生成した包絡値を示し、(b)は、包絡除算部の除算結果を示す。
図1に示す符号化部の動作(その3)を示す図であり、(a)は、図2に示す量子化部が予め設定した量子化の精度を示し、(b)は、量子化部が量子化した結果を示し、(c)は、(b)の詳細を示す。
図1に示す符号化部の動作(その4)を示す図であり、(a)は、図2に示すエントロピー符号化部が取得した重要度を示し、(b)は、帯域データ削除部が帯域データを削除した結果を示し、(c)は、(b)の詳細を示す。
図2に示す包絡再計算部が計算した包絡値の再計算結果を示す図である。

符号の説明

0108

1・・・音声処理装置、15・・・CPU、15−1・・・符号化部、15−2・・・復号化部、22・・・MDCT部、24・・・帯域分割部、25・・・包絡生成部、27・・・量子化部、28・・・存在フラグ生成部、29・・・包絡再計算部、30・・・エントロピー符号化部、32・・・帯域データ削除部、41・・・エントロピー復号化部、42・・・包絡値処理部、43・・・逆量子化部、44・・・包絡乗算部、46・・・IMDCT部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ