図面 (/)

技術 デジタル放送受信装置

出願人 パナソニック株式会社
発明者 笹川義幸稲田賢二
出願日 2009年8月18日 (10年10ヶ月経過) 出願番号 2009-188872
公開日 2011年2月24日 (9年4ヶ月経過) 公開番号 2011-041169
状態 未査定
技術分野 TV送受信機回路 双方向TV,動画像配信等 音声認識 音声の分析・合成
主要キーワード 不定位置 所定変換 速報データ 置換対象文字列 マルコフ過程 メルスケール ペアレンタルロック 置換文字列
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2011年2月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題

放送中の番組不定位置にある音声の一部をリアルタイムユーザ所望の音声に変更するデジタル放送受信装置を提供する。

解決手段

デジタル放送受信装置は、放送信号を受信する受信手段と、受信した放送信号をデコードして映像データ及び音声データを出力するデコード手段と、デコードされた映像データ及び音声データを保存するストリーム記憶手段と、ストリーム記憶手段から音声データを取り出して、所定変換手法により音声データを文字列に変換し、変換した文字列とユーザ所望の音声データとのパターンマッチを行う音声認識手段と、音声データにおいて、パターンマッチした箇所をユーザ所望の音声データで書き変える音声合成手段、を持つことを特徴とする。

概要

背景

地上デジタル放送BSデジタル放送、CSデジタル放送等のデジタル放送システムにおいては、近年、100以上のチャンネルが用意されており、この多数の番組において映像音声にユーザの好みを反映させたいというニーズが高まっている。

一般的なデジタル放送受信装置においては、OSD(On Screen Display)によりユーザの好みの映像や音声の出力特性を設定することが可能である。また、番組のジャンル毎にユーザの好みの映像や音声の出力特性を記憶し、視聴チャンネル変更時に変更後のチャンネルで放送される番組のジャンル情報を取得して、ユーザ所望の映像や音声の出力特性を設定する従来技術が存在する(例えば、特許文献1参照)。

概要

放送中の番組の不定位置にある音声の一部をリアルタイムでユーザ所望の音声に変更するデジタル放送受信装置を提供する。デジタル放送受信装置は、放送信号を受信する受信手段と、受信した放送信号をデコードして映像データ及び音声データを出力するデコード手段と、デコードされた映像データ及び音声データを保存するストリーム記憶手段と、ストリーム記憶手段から音声データを取り出して、所定変換手法により音声データを文字列に変換し、変換した文字列とユーザ所望の音声データとのパターンマッチを行う音声認識手段と、音声データにおいて、パターンマッチした箇所をユーザ所望の音声データで書き変える音声合成手段、を持つことを特徴とする。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

デジタル放送デコードして音声を出力するデジタル放送受信装置において、音声の全部または一部をリアルタイムユーザ所望の音声に変更することを特徴とするデジタル放送受信装置。

請求項2

放送信号を受信する受信手段と、受信した前記放送信号をデコードして映像データ及び音声データを出力するデコード手段と、デコードされた前記映像データ及び前記音声データを保存するストリーム記憶手段と、前記ストリーム記憶手段から前記音声データを取り出して、所定変換手法により前記音声データを文字列に変換し、変換した前記文字列とユーザ所望の音声データとのパターンマッチを行う音声認識手段と、前記音声データにおいて、パターンマッチした箇所を前記ユーザ所望の音声データで書き変える音声合成手段、を持つことを特徴とするデジタル放送受信装置。

請求項3

前記音声合成手段が書き変えた前記ユーザ所望の音声データと前記映像データとのズレ補正する出力遅延部を保持することを特徴とする請求項2記載のデジタル放送受信装置。

請求項4

前記所定変換方法を、ネットワークまたは外部メディアからも取得することを特徴とする請求項2記載のデジタル放送受信装置。

請求項5

地震等の緊急速報が発生した場合に速報データを検知する速報判定部と、前記速報データをOSD表示するOSD合成部と、を備えることを特徴とする請求項2記載のデジタル放送受信装置。

技術分野

0001

本発明は地上デジタル放送等のデジタル放送を受信するデジタル放送受信装置に関し、更に詳しくは、放送中の番組不定位置にある音声リアルタイムユーザ所望の音声に変更することが可能なデジタル放送受信装置に関する。

背景技術

0002

地上デジタル放送、BSデジタル放送、CSデジタル放送等のデジタル放送システムにおいては、近年、100以上のチャンネルが用意されており、この多数の番組において映像や音声にユーザの好みを反映させたいというニーズが高まっている。

0003

一般的なデジタル放送受信装置においては、OSD(On Screen Display)によりユーザの好みの映像や音声の出力特性を設定することが可能である。また、番組のジャンル毎にユーザの好みの映像や音声の出力特性を記憶し、視聴チャンネル変更時に変更後のチャンネルで放送される番組のジャンル情報を取得して、ユーザ所望の映像や音声の出力特性を設定する従来技術が存在する(例えば、特許文献1参照)。

先行技術

0004

特開平10−322622号公報

発明が解決しようとする課題

0005

しかしながら、上記従来の技術は、放送全体の映像や音声の出力特性を変更するものであって、例えば放送中の番組の不定位置にある音声の一部をリアルタイムでユーザ所望の音声に変更することはできないといった課題があった。

課題を解決するための手段

0006

放送中の番組の不定位置にある音声をリアルタイムでユーザ所望の音声に変更するために、本発明の受信装置は、放送をデコードしながらデータを保存するストリーム記憶手段と、ストリーム記憶手段から音声データを取り出し、ユーザ所望の音声とのパターンマッチを行う音声認識手段と、パターンマッチした箇所をユーザ所望の音声で書き変える音声合成手段を持つことを特徴とする。

0007

また、音声認識、音声合成により生じた映像と音声のズレ補正する映像出力遅延部、音声出力遅延部を保持することを特徴とする。

0008

また、音声認識、音声合成に必要なデータはデジタル放送受信装置内のメモリ上のデータからだけでなく、インターネット等のネットワークSDカード等の外部メディアからも取得可能であることを特徴とする。

0009

また、地震等の緊急速報が発生した場合、速報データを検知した段階で、OSDにて速報内容の表示を行い、出力遅延による弊害を起こさないことを特徴とする。

発明の効果

0010

本発明によれば、デジタル放送受信装置において、放送中の番組の不定位置にある音声をリアルタイムでユーザ所望の音声に変更することができる。

図面の簡単な説明

0011

本発明の実施の形態1に係るデジタル放送受信装置の構成を示すブロック図
同実施の形態に係るデジタル放送受信装置の処理手順を示すフローチャート
同実施の形態に係る音声認識処理音声合成処理の処理手順を示すフローチャート
同実施の形態に係るユーザ所望の設定と音声合成で使用するデータを関連付けたリストを示す図

実施例

0012

以下本発明を実施するための最良の形態について、図面を参照しながら説明する。

0013

(実施の形態1)
本発明では、デジタル放送受信装置において、放送中の番組の不定位置にある音声をリアルタイムでユーザ所望の音声に変更する。本発明の第1のポイントは、放送中の番組の不定位置にある音声をユーザ所望の音声に変更することであり、第2のポイントは第1のポイントをリアルタイムで行うことである。
図1は、本発明の実施の形態1に係るデジタル放送受信装置の構成を示すブロック図である。デジタル放送受信装置100は、CPU10、メモリ11、チューナ12、TD(Transport Stream Decoder)13、AVデコーダ14、速報判定部15、ストリーム記憶部16、音声認識部17、音声合成部18、OSD合成部19、映像出力遅延部20、音声出力遅延部21を備えている。

0014

CPU10は、デジタル放送受信装置100の動作を制御するコントローラである。メモリ11は、各制御部の制御結果や音声認識、音声合成用のデータを保持する。チューナ12は、放送局から送られてきた信号を受信し、デジタル復調処理を行う。TD13は、チューナ12から送られてくるデータから、映像データ/音声データ/その他のデータをフィルタリングする。AVデコーダ14は、TD13でフィルタリングされた映像データと音声データから、映像信号音声信号復号する。

0015

速報判定部15は、TD13でフィルタリングされたSI(Service Information)から緊急速報が発生したかどうかを調べ、緊急速報で表示する文字列を抜き出しメモリ11に保存する。ストリーム記憶部16は、AVデコーダ14で復号された映像信号、音声信号を保存し、音声信号を保存する際に音声波形も保存する。なお、ストリーム記憶部16で保存するストリーム(映像信号、音声信号、音声波形)の時間は、デジタル放送受信装置のシステム固有値としてもよいし、ユーザ設定で決定してもよいが、ストリームを再生しながら保存する必要があるため、ストリームの保存時間の1/2が音声認識部17で音声認識を行うことができる時間の最大値となる。

0016

音声認識部17は、ストリーム記憶部16から音声信号を取り出してメモリ11に展開する。また、ストリーム記憶部16から音声波形を取り出しMFCC(Mel−Frequency Cepstrum Coefficient)とHMM(Hidden Markov Model)により、音声波形を文字列に変換する。ここでは音声認識の一般的な手法であるMFCCとHMMを取り上げたが、音声波形を文字列に変換できる手法であればどんな手法でもかまわない。SIに字幕放送用データが存在する場合には、字幕放送用データで音声波形から変換された文字列を補正することで、音声認識率を上げることができる。さらに、メモリ11、SDカード等の外部メディア22、インターネット等のネットワーク23に保存されているユーザ所望の音声とのマッチングを行い、ユーザ所望の音声とマッチした音声信号を関連付ける。音声合成部18は、音声認識部17で関連付けられたユーザ所望の音声と音声信号を基に、メモリ11、外部メディア21、ネットワーク22に保存されているユーザ所望の音声でメモリ11上に展開されている音声信号を書き換える。OSD合成部19は、メモリ11に保存されている緊急速報用文字列からOSDを生成し、映像信号と合成する。映像出力遅延部20と音声出力遅延部21は映像と音声のズレを補正するため、ストリーム記憶時間、音声認識処理時間、音声合成処理時間、を考慮して遅延時間を決定し、映像と音声のズレの補正をおこなう。
図2に実施の形態1における音声をリアルタイムでユーザ所望の音声に変更する処理の動作フローを示す。チューナ12、TD13、AVデコーダ14にて、映像と音声をデコードするまでの処理は一般的なデジタル放送受信装置と同じであるため、動作フローはデコード以降の処理について示す。以下、動作フローについて詳細を説明する。

0017

速報判定部15は、緊急速報が存在するかどうかSIを基に判定し(ステップS101)、緊急速報で出力する文字列がある場合(ステップS101で「YES」)、メモリ11に文字列を保存する(ステップS102)。ここで緊急速報が映像に埋め込まれている場合は、緊急速報部分の画像認識を行い、文字列を抽出する。OSD合成部19は、メモリ11から緊急速報用文字列を取り出し、OSDを生成する(ステップS104)。同時に映像信号、音声信号、音声波形の保存も行う。生成されたOSDは即座に映像に合成されて出力される(ステップS105)。これにより、緊急速報を遅延無しで表示できる。

0018

一方、緊急速報が存在しない場合(ステップS101で「NO」)、すぐにストリーム記憶部16に映像信号と音声信号を保存する(ステップS103)。ここで音声信号を保存する際、音声波形も同時に保存する。なお、ストリーム保存時間は、デジタル放送受信装置のシステム固有値としてもよいし、ユーザ設定で決定してもよいが、ストリームを再生しながら保存する必要があるため、ストリームの保存時間の1/2が音声認識を行うことができる時間の最大値となる。

0019

そして音声認識部17は、音声信号をストリーム記憶部16から取り出してメモリ11に展開する。また、音声波形をストリーム記憶部16から取り出しMFCCとHMMにより、音声波形を文字列に変換する。ここでは音声認識の一般的な手法であるMFCCとHMMを取り上げたが、音声波形を文字列に変換できる手法であればどんな手法でもかまわない。SIに字幕放送用データが存在する場合には、字幕放送用データで音声波形から変換された文字列を補正することで、音声認識率を上げることができる。さらに、メモリ11、SDカード等の外部メディア22、インターネット等のネットワーク23に保存されているユーザ所望の音声とのマッチングを行い、ユーザ所望の音声とマッチした音声信号を関連付ける。音声パターンマッチング処理の詳細については図3及び図4を用いて後ほど説明する。

0020

音声合成部18は、ユーザ所望の音声と音声信号を基に、ユーザ所望の音声でステップS106にてメモリ11上に展開した音声信号を書き換える。これによりユーザ所望の音声が番組の音声に合成されて出力される。

0021

音声出力遅延部21は、映像と音声のズレを補正するため、遅延処理行う。音声認識と音声合成の処理時間の最大値は、ストリームの保存時間の1/2であるため、映像はストリームの保存時間の1/2時間遅延させる。音声は音声認識と音声合成の処理時間がストリームの保存時間の1/2時間未満の場合、ストリームの保存時間の1/2時間まで遅延させる。それ以外の場合、遅延処理は行わない。
続いて、音声パターンマッチと音声合成処理について、更なる詳細を図3図4を用いて説明する。図3は音声認識処理と音声合成処理の詳細を示すフローチャートであり、図4はユーザ所望の設定と音声合成で使用するデータを関連付けたリストを示す図である。

0022

音声認識部17は、音声を再生するために、ストリーム記憶部11に保存している音声信号をメモリ11に展開する(ステップS201)。メモリ11に展開された音声信号はそのまま音声として出力されるため、このメモリ11に展開された音声信号を書き換えることで、音声合成を実現できる。そして、音声認識のために、ストリーム記憶部11に保存している音声波形を取り出す(ステップS202)。

0023

音声波形を取り出した後、音声認識部17は、音声波形から文字列を抽出する(ステップS203)。文字列抽出の例として、ここではMFCCとHMMを取り上げるが、音声波形を文字列に変換できる手法であればどんな手法でもかまわない。音声認識でよく用いられる音響特徴量のひとつとして、ケプストラム領域の特徴量(MFCC)が挙げられる。MFCCとは、フレーム毎に音声データのFFT分析で得られるパワースペクトルに対してメルスケールフィルタバンクを施し、周波数軸変換されたパワースペクトルに対して離散コサイン変換(DCT)を実行することにより抽出される、スペクトル包絡を表すパラメータであり、その詳細は「音声認識システム」(野清宏、伊克亘、河原達也、武田一哉、山本幹雄編著、オーム出版局;ISBN4−274−13228−5)などで説明されている。12次元のMFCCを用いることで、音声波形を12の係数数値化でき、その数値から文字を特定できる。また、人間の発音は時間的に揺らいでいるため、音声の特徴がマルコフ過程で確率的に生成されるとしてモデル化したものがHMMであり、音声の実際の揺らぎを確率的に反映しやすいため、MFCCと組み合わせると音声認識率が向上する。このようにして音声波形を文字列に変換する。

0024

上記処理後、音声認識部17は、TD13でフィルタリングしたSIから、字幕放送用データを取り出し、ステップS203で作成した文字列と比較する。ステップS203の文字列と一部が異なる場合、音声認識で誤認している可能性が高いため、字幕データを用いて修正する(ステップS204)。これにより音声認識率をさらに向上できる。

0025

そして、ステップS204にて作成した文字列と図4で示されるユーザ所望の置換対象文字列でマッチングを行う(ステップS205)。ユーザ所望の置換対象置換用音声図4のように管理され、メモリ11に保存される。ユーザはこの設定をOSDにて設定してもよいし、外部メディア22、ネットワーク23を利用して設定してもよい。図4の置換対象は置換したい音声、置換対象グループは置換対象と文字列は違う言葉の意味が同じであるため置換したい音声、置換用音声は置き換えたい音声、置換先アドレスはメモリ11上で置換用音声を展開するアドレス、サイズは置換用音声を書き込む先のメモリ11の領域のサイズを示す。ユーザは、置換対象、置換対象グループ、置換用音声を設定できる。置換対象グループは、置換対象がユーザによって設定されると、文字列は異なるが意味として同じ文字列をデフォルト値としてデジタル放送受信装置が自動で設定する。置換用音声は、音声ファイルがある位置とファイル名をあわせて指定する。ファイル名だけ指定するとパスの通ったディレクトリからファイルを検索する。また、外部メディア22、ネットワーク23に音声ファイルを入れた場合、音声ファイルを指定した段階で音声ファイルを取得し、それぞれメモリ11上に展開する。音声マッチングを行う際には、置換対象、及び置換対象グループとS204にて作成した文字列が一致しているかを調べる。置換対象グループは、図4のように正規表現の利用が可能である。

0026

ステップS204にて作成した文字列がユーザ所望の置換文字列と一致した場合、文字列に対応した音声信号が格納されているメモリ11上のアドレスとサイズを、図4の置換先アドレス、サイズに書き込む(ステップS206)。

0027

そして、上記全ての文字列のマッチングが終了するか、ストリームの保存時間の1/2時間を経過した場合(ステップS207で「YES」)、音声マッチング処理を終了する。それ以外の場合は(ステップS207で「NO」)、ステップS205の処理に戻り、音声マッチング処理を繰り返す。

0028

上記処理後、図4の置換先アドレスがNULLでなければ、置換用音声を置換先アドレスに、サイズ分書き込む(ステップS208)。

0029

以上により、デジタル放送受信装置において、放送中の番組の不定位置にある音声を
リアルタイムでユーザ所望の音声に変更することができる。

0030

本発明はデジタル放送を受信する受信装置であって、PDPやLCD等のデジタルTVに有用である。この発明によれば、特定の言葉を無音にすることで、子供に聞かせたくない言葉を消すといった音声の局所的なペアレンタルロックや、番組中、電話が鳴るシーンにおいて、着信音を別の音に変更することで、自身の電話が鳴ったのかどうか確認する手間を省くことが可能である。

0031

100デジタル放送受信装置
10 CPU
11メモリ
12チューナ
13 TD
14AVデコーダ
15速報判定部
16ストリーム記憶部
17音声認識部
18音声合成部
19OSD合成部
20映像出力遅延部
21外部メディア
22 ネットワーク

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ