図面 (/)

技術 画像判定装置及びそのプログラム

出願人 日本放送協会
発明者 河合吉彦三ツ峰秀樹
出願日 2014年9月3日 (6年3ヶ月経過) 出願番号 2014-178913
公開日 2016年4月14日 (4年8ヶ月経過) 公開番号 2016-053792
状態 特許登録済
技術分野 文字入力 イメージ分析
主要キーワード 比較技法 エッジ状態 操作窓 略菱形状 画像判定装置 エッジ方向ヒストグラム 周囲近傍 オープンキャプション
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年4月14日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

入力画像における文字領域を判別可能とする画像判定装置及びそのプログラムを提供する。

解決手段

本発明の画像判定装置は、入力画像を所定のブロックサイズ判定ブロックに分割する判定ブロック分割部2と、判定ブロック内の各画素エッジ画素であるか非エッジ画素であるかを示すエッジ画素情報を生成するエッジ検出部4と、判定ブロックの各画素に対して、当該各画素の周囲におけるエッジ状態に基づいて画素特徴ベクトルを算出する画素特徴ベクトル算出部51と、判定ブロックの各画素に対して算出された画素特徴ベクトルを合計し、合計後の画素特徴ベクトルを生成するとともに、当該合計後の画素特徴ベクトルを基に、判定ブロックに対する文字領域判別用の特徴ベクトルを生成する特徴ベクトル生成部52と、を備える。

概要

背景

テレビジョンにおける字幕データは、テレビ映像における字幕映像重畳される文字画像オープンキャプションとも称される。)の情報は、映像に映る人名や、撮影場所の地名、その番組で取り扱っている話題などを表しており、例えば映像検索映像内容解析のためのメタデータ付与において非常に有用な情報といえる。

このため、映像上に字幕が表された状態で、当該映像の文字部分の位置(文字領域)を検出可能とする技法が望まれる。例えば、映像を構成する連続するフレーム画像のうち文字部分の位置を自動的に把握して改めて文字データを抽出して映像検索や映像内容解析に利用したい場合、或いはこの文字部分をその周囲画素を用いて補完して、フレーム画像から文字部分を自動的に消去したい場合に、当該映像の文字領域を検出することが有効となる。

そこで、当該映像から文字部分の位置を把握するために、従来技法として、映像の字幕検出(文字検出)に利用可能な画像特徴量を検出する技法が幾つか知られている。

例えば、映像における連続するフレーム画像を利用して、時間的に連続するエッジ成分密集している領域を、字幕領域として検出する技法が知られている(例えば、非特許文献1参照)。

また、どの方向のエッジがどの程度ずつ領域内に存在するかという特徴に基づいたエッジ方向ヒストグラムを画像特徴量として検出する技法が知られている(例えば、非特許文献2参照)。このエッジ方向ヒストグラムは、エッジ方向数パターン量子化し、各パターン出現頻度を求めることで算出される。

また、着目画素の周囲におけるエッジ画素及び非エッジ画素並び方のパターンを基にエッジ画素の出現頻度を求めることで画像特徴量とする技法が開示されている(例えば、特許文献1参照)。

そして、ローカルバイナリパターン(以下、「LBP」と略す。)と称される画像分析法が知られている(例えば、非特許文献3参照)。本技法では、対象とするグレースケール画像について複数の解像度及び複数の角度で回転を加えた複数種の画像に変換して2値化し、2値化した複数種の画像についてその局部的な2値パターンを比較して、2値パターンの不変性に基づく統計を取ることで画像特徴量としている。

概要

入力画像における文字領域を判別可能とする画像判定装置及びそのプログラムを提供する。本発明の画像判定装置は、入力画像を所定のブロックサイズ判定ブロックに分割する判定ブロック分割部2と、判定ブロック内の各画素がエッジ画素であるか非エッジ画素であるかを示すエッジ画素情報を生成するエッジ検出部4と、判定ブロックの各画素に対して、当該各画素の周囲におけるエッジ状態に基づいて画素特徴ベクトルを算出する画素特徴ベクトル算出部51と、判定ブロックの各画素に対して算出された画素特徴ベクトルを合計し、合計後の画素特徴ベクトルを生成するとともに、当該合計後の画素特徴ベクトルを基に、判定ブロックに対する文字領域判別用の特徴ベクトルを生成する特徴ベクトル生成部52と、を備える。

目的

本発明の目的は、上述の問題を鑑みて、入力画像における文字領域を判別可能とする画像判定装置及びそのプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

入力画像における文字領域を判別可能とする画像判定装置であって、入力画像を所定のブロックサイズ判定ブロックに分割する判定ブロック分割手段と、前記判定ブロック内の各画素エッジ画素であるか非エッジ画素であるかを示すエッジ画素情報を生成するエッジ画素情報生成手段と、前記エッジ画素情報を基に、前記判定ブロックの各画素に対して、当該各画素の周囲におけるエッジ状態に基づいて画素特徴ベクトルを算出する画素特徴ベクトル算出手段と、前記判定ブロックの各画素に対して算出された画素特徴ベクトルを合計し、合計後の画素特徴ベクトルを生成する画素特徴ベクトル合計手段と、前記合計後の画素特徴ベクトルを基に、前記判定ブロックに対する文字領域判別用の特徴ベクトルを生成する特徴ベクトル生成手段と、を備えることを特徴とする画像判定装置。

請求項2

前記画素特徴ベクトル算出手段は、前記判定ブロック内の着目画素に対する所定の周囲近傍位置における予め定められたエッジパターンに基づいて前記画素特徴ベクトルを算出することを特徴とする、請求項1に記載の画像判定装置。

請求項3

前記画素特徴ベクトル算出手段は、前記画素特徴ベクトルを算出する際に、前記判定ブロックの着目画素がエッジ画素であるか、非エッジ画素であるかを示す値を含み、該着目画素に対する周囲近傍画素を対象として、予め定められた画素の組み合わせよるエッジパターンに基づいて当該画素特徴ベクトルを算出することを特徴とする、請求項1又は2に記載の画像判定装置。

請求項4

前記画素特徴ベクトル算出手段は、前記判定ブロック内の着目画素に対する所定の周囲近傍位置における予め定められた複数種のエッジパターンに基づいてそれぞれの前記画素特徴ベクトルを算出し、前記画素特徴ベクトル合計手段は、前記複数種のエッジパターンに基づくそれぞれの前記画素特徴ベクトルを前記判定ブロックの各画素に対して合計し、前記特徴ベクトル生成手段は、前記複数種のエッジパターンに基づく複数種の当該合計後の画素特徴ベクトルを連結することにより前記特徴ベクトルを生成することを特徴とする、請求項1から3のいずれか一項に記載の画像判定装置。

請求項5

コンピュータを、請求項1から4のいずれか一項に記載の画像判定装置として機能させるためのプログラム

技術分野

0001

本発明は、入力画像における文字領域を判別可能とする画像判定装置及びそのプログラムに関する。

背景技術

0002

テレビジョンにおける字幕データは、テレビ映像における字幕映像重畳される文字画像オープンキャプションとも称される。)の情報は、映像に映る人名や、撮影場所の地名、その番組で取り扱っている話題などを表しており、例えば映像検索映像内容解析のためのメタデータ付与において非常に有用な情報といえる。

0003

このため、映像上に字幕が表された状態で、当該映像の文字部分の位置(文字領域)を検出可能とする技法が望まれる。例えば、映像を構成する連続するフレーム画像のうち文字部分の位置を自動的に把握して改めて文字データを抽出して映像検索や映像内容解析に利用したい場合、或いはこの文字部分をその周囲画素を用いて補完して、フレーム画像から文字部分を自動的に消去したい場合に、当該映像の文字領域を検出することが有効となる。

0004

そこで、当該映像から文字部分の位置を把握するために、従来技法として、映像の字幕検出(文字検出)に利用可能な画像特徴量を検出する技法が幾つか知られている。

0005

例えば、映像における連続するフレーム画像を利用して、時間的に連続するエッジ成分密集している領域を、字幕領域として検出する技法が知られている(例えば、非特許文献1参照)。

0006

また、どの方向のエッジがどの程度ずつ領域内に存在するかという特徴に基づいたエッジ方向ヒストグラムを画像特徴量として検出する技法が知られている(例えば、非特許文献2参照)。このエッジ方向ヒストグラムは、エッジ方向数パターン量子化し、各パターン出現頻度を求めることで算出される。

0007

また、着目画素の周囲におけるエッジ画素及び非エッジ画素並び方のパターンを基にエッジ画素の出現頻度を求めることで画像特徴量とする技法が開示されている(例えば、特許文献1参照)。

0008

そして、ローカルバイナリパターン(以下、「LBP」と略す。)と称される画像分析法が知られている(例えば、非特許文献3参照)。本技法では、対象とするグレースケール画像について複数の解像度及び複数の角度で回転を加えた複数種の画像に変換して2値化し、2値化した複数種の画像についてその局部的な2値パターンを比較して、2値パターンの不変性に基づく統計を取ることで画像特徴量としている。

0009

特開2012−108656号公報

先行技術

0010

鷲尾, 有木, 緒方, “クロスメディアパッセージ検索テロップCGフリップ文字列を検索質問とした発話文書に対する検索方式−”,電子情報通信学会論文誌, Vol.J84-D-II, no.8, pp.1809-1816, 2001
K.Levi and Y.Weiss, “Learning object detection from small number of examples : the importance of good features,”Computer Vision and Pattern Recognition, Vol.2, pp.53-60, 2004
T.Ojala, M.Pietikainen, and T. Maenpaa, “Multiresdution gray-scale and rotation invariant texture classification with local binary patterns,”IEEE Transactions on Pattern Analysis and Machine intelligence,Vo1 24,No 7,pp 971-987, July 2002

発明が解決しようとする課題

0011

非特許文献1の技法では、時間的に連続するエッジ成分が密集している領域を字幕領域として検出しているが、字幕以外でもエッジが密集する場合があるため、誤検出が発生するという問題がある。また、時間的な連続性を考慮する必要があるため、単一のフレームのみで判定することはできないという問題もある。

0012

非特許文献2の技法では、エッジ方向を数パターンに量子化し、各パターンの出現頻度を求めることで画像特徴量が算出されるが、この技法では、エッジ同士がどのような位置関係にあるか、どのように繋がっているかなど、エッジ間の関係を考慮していないため、文字らしさの判定に関する判定精度が低いという問題がある。

0013

これに対して、特許文献1の技法では、着目画素の周囲におけるエッジ画素及び非エッジ画素の並び方のパターンを基にエッジ画素の出現頻度を求めることで画像特徴量としているため、文字らしさの判定に関する判定精度をより高めることができるが、エッジ画素及び非エッジの並び方は、字幕の下にある背景画像の影響を受けやすく、エッジ画素及び非エッジの並び方のパターンを基にエッジ画素の出現頻度を画像特徴量とすることは複雑な背景に重畳された字幕の検出時には判定精度が低下するという問題がある。

0014

また、非特許文献3の技法では、対象とするグレースケール画像について複数の解像度及び複数の角度で回転を加えた複数種の画像に変換して2値化し、2値化した複数種の画像についてその局部的な2値パターンを比較して、2値パターンの不変性に基づく統計を取ることで画像特徴量としているが、この画像特徴量で文字らしさの判定を行っても、エッジ画素及び非エッジの並び方が考慮されておらず、判定精度が低いものとなる。

0015

本発明の目的は、上述の問題を鑑みて、入力画像における文字領域を判別可能とする画像判定装置及びそのプログラムを提供することにある。

課題を解決するための手段

0016

本発明は、映像に重畳される文字領域を検出するために、映像から抽出したフレーム画像内の各画素の周囲におけるエッジの状態に基づいて画像特徴量を算出し、この画像特徴量を用いて文字領域を判別する画像判定装置及びそのプログラムとして構成される。本発明に係る画像判定装置は、映像から抽出したフレーム画像を入力し、フレーム画像内の或る領域の画像(本願明細書中、「判定ブロック」と称する。)が字幕らしいか(文字の画像らしいか)どうかを判定する際に、当該判定ブロック内の着目画素の周囲におけるエッジの出現パターン(以下、「エッジパターン」とも称する。)を画素特徴ベクトルとして数値化し、この画素特徴ベクトルを当該判定ブロック内で合計して特徴ベクトルと為し、これを画像特徴量とする。特に、本発明では、エッジパターン以外の画素の状態は無視して画素特徴ベクトルを算出するため、背景画像の影響を受けにくくすることができる。

0017

即ち、本発明の画像判定装置は、入力画像における文字領域を判別可能とする画像判定装置であって、入力画像を所定のブロックサイズの判定ブロックに分割する判定ブロック分割手段と、前記判定ブロック内の各画素がエッジ画素であるか非エッジ画素であるかを示すエッジ画素情報を生成するエッジ画素情報生成手段と、前記エッジ画素情報を基に、前記判定ブロックの各画素に対して、当該各画素の周囲におけるエッジ状態に基づいて画素特徴ベクトルを算出する画素特徴ベクトル算出手段と、前記判定ブロックの各画素に対して算出された画素特徴ベクトルを合計し、合計後の画素特徴ベクトルを生成する画素特徴ベクトル合計手段と、前記合計後の画素特徴ベクトルを基に、前記判定ブロックに対する文字領域判別用の特徴ベクトルを生成する特徴ベクトル生成手段と、を備えることを特徴とする。

0018

また、本発明の画像判定装置において、前記画素特徴ベクトル算出手段は、前記判定ブロック内の着目画素に対する所定の周囲近傍位置における予め定められたエッジパターンに基づいて前記画素特徴ベクトルを算出することを特徴とする。

0019

また、本発明の画像判定装置において、前記画素特徴ベクトル算出手段は、前記画素特徴ベクトルを算出する際に、前記判定ブロックの着目画素がエッジ画素であるか、非エッジ画素であるかを示す値を含み、該着目画素に対する周囲近傍画素を対象として、予め定められた画素の組み合わせよるエッジパターンに基づいて当該画素特徴ベクトルを算出することを特徴とする。

0020

また、本発明の画像判定装置において、前記画素特徴ベクトル算出手段は、前記判定ブロック内の着目画素に対する所定の周囲近傍位置における予め定められた複数種のエッジパターンに基づいてそれぞれの前記画素特徴ベクトルを算出し、前記画素特徴ベクトル合計手段は、前記複数種のエッジパターンに基づくそれぞれの前記画素特徴ベクトルを前記判定ブロックの各画素に対して合計し、前記特徴ベクトル生成手段は、前記複数種のエッジパターンに基づく複数種の当該合計後の画素特徴ベクトルを連結することにより前記特徴ベクトルを生成することを特徴とする。

0021

さらに、本発明は、本発明の画像判定装置をコンピュータで構成し、コンピュータに、本発明の画像判定装置の機能を実現させるためのプログラムを構成する。

発明の効果

0022

本発明によれば、画像中から文字領域をより正確に検出することが可能となる。

図面の簡単な説明

0023

本発明による一実施形態の画像判定装置の構成例を示すブロック図である。
本発明による一実施形態の画像判定装置の動作例を示すフローチャートである。
(a),(b)は、それぞれ本発明による一実施形態の画像判定装置における判定ブロックと画素の関係を例示する図である。
(a),(b),(c)は、それぞれ本発明による一実施形態の画像判定装置における着目画素の周囲近傍位置とする画素を例示する図である。
本発明による一実施形態の画像判定装置における画素特徴ベクトルの一例を説明する説明図である。
本発明による一実施形態の画像判定装置における画素特徴ベクトルの別例を説明する説明図である。
本発明による一実施形態の画像判定装置における画素特徴ベクトルの更に別例を説明する説明図である。
(a),(b)は、それぞれ本発明による一実施形態の画像判定装置における文字判定のために事前学習として利用する正例及び負例を例示する説明図である。
本発明による一実施形態の画像判定装置における文字判定の識別率実験結果を示す図である。

実施例

0024

(画像判定装置の構成)
以下、図面を参照して、本発明による一実施形態の画像判定装置1を説明する。図1は、本発明による一実施形態の画像判定装置1の構成例を示すブロック図である。

0025

画像判定装置1は、映像に重畳される文字領域を検出可能とする装置であり、判定ブロック分割部2、判定ブロック指定部3、エッジ検出部4、画像特徴量生成部5及び文字判定部6を備える。画像特徴量生成部5は、画素特徴ベクトル算出部51及び特徴ベクトル生成部52を備え、特徴ベクトル生成部52は、画素特徴ベクトル合計部53及び画素特徴ベクトル連結部54を有する。

0026

判定ブロック分割部2は、単一画像(例えば、映像から抽出したフレーム画像)を入力画像として入力し、この入力画像を所定の画素数からなるブロックサイズの判定ブロックに分割し、個別にラベルを付した判定ブロックを判定ブロック指定部3に出力する。したがって、各判定ブロックが文字領域の画像であるか否かの判定対象となる。尚、本願明細書中、判定ブロックとして、16画素×16画素の正方形状を例示して説明する。

0027

判定ブロック指定部3は、入力画像を構成する1つの判定ブロックを指定して、エッジ検出部4に出力する。判定ブロックのラベルを参照することで入力画像内任意領域を指定することができる。この判定ブロックの指定は、画像判定装置1を操作する操作者によって指定するよう構成することもできるが、本例では、入力画像を構成する或る判定ブロックの文字判定が行われる度に、順次、別の判定ブロックの文字判定を行うよう自動的に判定ブロックを走査して指定するよう構成される。したがって、本実施形態の画像判定装置1では、単一画像(例えば、映像から抽出したフレーム画像)を入力画像として入力するのみで、当該入力画像のどの画像領域が文字領域に該当するかを明示する判定結果が得られるよう構成されている。

0028

エッジ検出部4は、判定ブロック(本例では、16画素×16画素の正方形状)のエッジを検出し、判定ブロック内の各画素がエッジ画素であるか非エッジ画素であるかを示す態様で、当該判定ブロックの各画素に関するエッジ画素情報を画素特徴ベクトル算出部51に出力する。エッジ画素情報は、各画素位置に対応づけられたエッジ画素であるか非エッジ画素であるかを示すフラグ値とするか、或いは、各画素がエッジ画素であるか非エッジ画素であるかを示す態様であればエッジ検出後の判定ブロックの画像そのもの(多値の画像でも2値化した画像でもよい)とすることができる。以下では、発明の理解を容易とするために、各画素がエッジ画素であるか非エッジ画素であるかを示すエッジ検出後の判定ブロックの画像を画素特徴ベクトル算出部51に出力するものとして説明する。このエッジ検出は、入力された判定ブロック内の画素を走査し、例えば、輝度値の変化が予め定めた閾値を超える画素をエッジ画素として検出する。具体的なエッジ検出法は、画像からエッジを検出することができれば特に限定されず、sobel法やCanny法等の公知の技法を用いることができる。

0029

尚、判定ブロック分割部2、判定ブロック指定部3及びエッジ検出部4に処理順は、上述した例に限らず、入力画像に対してエッジ検出部4によりエッジ検出した後、判定ブロック分割部2により判定ブロックに分割して、判定ブロック指定部3により判定ブロックを指定するように構成することや、入力画像に対して判定ブロック分割部2により判定ブロックに分割した後、エッジ検出部4によりエッジ検出し、判定ブロック指定部3により判定ブロックを指定するように構成することもできる。したがって、判定ブロック分割部2、判定ブロック指定部3及びエッジ検出部4は、入力画像を所定のブロックサイズで分割した判定ブロックについて、各画素がエッジ画素であるか非エッジ画素であるかを示すエッジ画素情報を生成するエッジ画素情報生成手段として構成されたものであればよい。

0030

画素特徴ベクトル算出部51は、エッジ画素情報を有するエッジ検出後の判定ブロックの画像の各画素に対して、その周囲におけるエッジ状態に基づいて画素の特徴ベクトル(以下、「画素特徴ベクトル」と称する。)を求め、画素特徴ベクトル合計部53に出力する。より具体的には、画素特徴ベクトル算出部51は、着目画素に対する或る周囲近傍位置(例えば、着目画素を中心とする3画素×3画素のブロック内の位置)の予め定められたエッジパターンに基づいて画素特徴ベクトルを算出する。詳細は後述するが、画素特徴ベクトルは、着目画素とその周囲近傍位置の画素のエッジ状態を示す多次元数値列で構成される。

0031

画素特徴ベクトル合計部53は、エッジ検出後の判定ブロックの画像の各画素に対して求めた画素特徴ベクトルを当該判定ブロック内で合計し、合計した当該多次元の数値列で構成される画素特徴ベクトルを生成して画素特徴ベクトル連結部54に出力する。

0032

画素特徴ベクトル連結部54は、画素特徴ベクトル合計部53から当該合計した画素特徴ベクトルを入力して保持するとともに、着目画素に対する或る周囲近傍位置の予め定められた別のエッジパターンに基づいて画素特徴ベクトルを算出するよう画素特徴ベクトル算出部51に指示する。これにより、画素特徴ベクトル算出部51は、当該別のエッジパターンに基づいて画素特徴ベクトルを算出し、画素特徴ベクトル合計部53は当該別のエッジパターンに基づいて算出した画素特徴ベクトルを当該判定ブロック内で合計して、画素特徴ベクトル連結部54に出力する。したがって、画素特徴ベクトル連結部54は、複数種のエッジパターンに基づいて算出し合計された多次元の数値列で構成される画素特徴ベクトルをそれぞれ入力して保持し、複数種のエッジパターンに基づく各画素特徴ベクトルの数値列を連結した「特徴ベクトル」を画像特徴量として生成して文字判定部6に出力する。

0033

尚、複数種のエッジパターンに基づく必要が無い場合には、画素特徴ベクトル連結部54は、画素特徴ベクトル合計部53から当該合計した画素特徴ベクトルをそのまま特徴ベクトルとして文字判定部6に出力するよう構成することができる。

0034

このように、画素特徴ベクトル合計部53及び画素特徴ベクトル連結部54を有する特徴ベクトル生成部52は、エッジ検出後の判定ブロックの画像の各画素に対して、画素特徴ベクトル算出部51によって特定のエッジパターンに基づいて求められた画素特徴ベクトルを当該判定ブロック内で合計し、更には1種類以上のエッジパターンに基づいて求めた合計後の画素特徴ベクトルを基に生成した特徴ベクトルを文字判定部6に出力する。

0035

したがって、画素特徴ベクトル算出部51及び特徴ベクトル生成部52を備える画像特徴量生成部5は、エッジ検出後の判定ブロックの画像の各画素に対して、その周囲のエッジ状態に基づいた特徴ベクトルを生成して文字判定部6に出力するよう構成される。

0036

文字判定部6は、任意の判定ブロックの画像に対して求めた特徴ベクトルを入力して、当該任意の判定ブロックの画像が文字領域を示す画像であるか否かを示す判定結果を生成して出力する。このような文字判定部6は、予め、文字領域を示す判定ブロックの画像と同サイズの画像(正例)と非文字領域を示す判定ブロックの画像と同サイズの画像(負例)を複数種用意して、それぞれの正例及び負例の画像に対応する当該特徴ベクトルの数値列を学習データとして学習しておくよう構成され、例えば、公知のサポートベクタマシンによる識別器とすることができる。また、文字判定部6は、任意の判定ブロックの画像に対して判定結果を生成した後、別の判定ブロックの画像に対して特徴ベクトルを生成するよう判定ブロック指定部3に対して指示することで、当該入力画像を構成する全ての判定ブロックの画像に対して判定結果を生成し出力するよう構成することができる。

0037

(画像判定装置の動作)
次に、本実施形態の画像判定装置1の一動作例について、図2を参照して詳細に説明する。図2は、本発明による一実施形態の画像判定装置1の動作を示すフローチャートである。

0038

まず、画像判定装置1は、判定ブロック分割部2により、映像から抽出されるフレーム画像を入力画像として入力し、この入力画像を所定のブロックサイズの判定ブロックに分割する(ステップS1)。例えば、フレーム画像Frは、図3(a)に概略図示するように複数の判定ブロックBjに分割され、各判定ブロックBjは、図3(b)に図示するように、16画素×16画素の略正方形状で分割され、個別にラベルが付される。

0039

続いて、画像判定装置1は、判定ブロック指定部3により、入力画像を構成する1つの判定ブロックを指定する(ステップS2)。判定ブロックのラベルを参照することで入力画像内の領域を指定することができる。

0040

続いて、画像判定装置1は、エッジ検出部4により、判定ブロック(本例では、16画素×16画素の正方形状)のエッジを検出する(ステップS3)。これにより、当該判定ブロックの画像は、判定ブロック内の各画素がエッジ画素であるか非エッジ画素であるかが示される。

0041

続いて、画像判定装置1は、画素特徴ベクトル算出部51により、着目画素に対する或る周囲近傍位置の予め定められたエッジパターンに基づいて画素特徴ベクトルを算出する。着目画素に対する或る周囲近傍位置とは、例えば、図4(a),(b),(c)にそれぞれ示すように、3画素×3画素の正方形状(図4(a)参照)とするか、更に水平軸垂直軸上に画素を加えた略菱形状図4(b)参照)とするか、或いは更に近傍位置の画素数を拡大した5画素×5画素の正方形状(図4(c)参照)とすることができる。したがって、画素特徴ベクトル算出部51は、着目画素に対する所定の周囲N画素を対象にして、後述する予め定められたエッジパターンに基づいて画素特徴ベクトルを算出する。本実施形態の例では、図示Aの着目画素(Po)に対する周囲近傍位置を、図4(a)に示す3画素×3画素の正方形状で示される位置の周囲8画素(Pa)を対象とした例を説明する。

0042

画素特徴ベクトルは、図示Aの着目画素に対する周囲8画素を対象として、予め定められた任意のn画素の組み合わせよりなるエッジパターンに基づいて算出される。図5に、n=1の場合の画素特徴ベクトルの算出例を示す。図5に示す例では、周囲8画素から1エッジ画素を選ぶという意味で8C1(edge)と記述する。

0043

図5に示す例において、着目画素Aがエッジ画素である場合は、周囲8画素における、或る1画素がエッジ画素であるか(この場合、“1”)、そうではないか(この場合、“0”)を表す数値列のベクトルを求める。周囲8画素から1エッジ画素を選ぶ際の選び方は8通りあるため、この数値列のベクトルの次元数は8次元となる。着目画素Aが非エッジ画素である場合は、この8次元を全て “0”を表す数値列のベクトルとする。この8次元の数値列のベクトルを画素特徴ベクトルとすることもできるが、本例では、更に、注目画素Aがエッジ画素であるか否かを表す1次元を加えて(エッジ画素であれば“0”、非エッジ画素であれば“1”)、9次元の数値列のベクトルを画素特徴ベクトル8C1(edge)として算出する。

0044

また、画素特徴ベクトルは、図示Aの着目画素に対する周囲8画素を対象として、予め定められた任意のn画素の組み合わせよりなる別のエッジパターンに基づいて算出することができる。

0045

このようにして、画像判定装置1は、画素特徴ベクトル算出部51により、判定ブロック内の全ての画素における画素特徴ベクトルの算出が終了するまで、着目画素に対する或る周囲近傍位置(例えば、着目画素を中心とする3画素×3画素のブロック内の位置)の予め定められたエッジパターンに基づいて画素特徴ベクトルを算出する(ステップS4)。

0046

尚、判定ブロックの端部に着目画素Aが位置してその周囲近傍画素が8画素未満となり欠落している場合、その欠落している周囲近傍画素は当該画素特徴ベクトル上で非エッジ画素として扱うか、又はエッジ画素として扱うかを予め定めておくようにする。本例では、欠落している周囲近傍画素は当該画素特徴ベクトル上で非エッジ画素として扱うものとする。

0047

続いて、画像判定装置1は、画素特徴ベクトル算出部51により、判定ブロック内の全ての画素の特徴ベクトルを算出し(ステップS5)、画素特徴ベクトル合計部53により、エッジ検出後の判定ブロックの画像の各画素に対して求めた画素特徴ベクトルを当該判定ブロック内で合計し、当該合計した画素特徴ベクトルを生成する(ステップS6)。

0048

各画素で求めた画素特徴ベクトルの合計とは、例えば、
・第1の画素特徴ベクトル(1,1,1,1,1,1,1,1,0)
・第2の画素特徴ベクトル(1,0,1,0,1,0,1,0,0)
・第3の画素特徴ベクトル(0,0,1,0,0,0,1,1,0)
の3つを合計すると、
・合計後の画素特徴ベクトル(2,1,3,1,2,1,3,2,0)
となることを意味する。

0049

このように生成された合計後の画素特徴ベクトル8C1(edge)は、図5に示すエッジパターンに基づいて算出され、特徴ベクトル要素となる。

0050

続いて、画像判定装置1は、画素特徴ベクトル連結部54により、画素特徴ベクトル合計部53によって生成した当該合計後の画素特徴ベクトル8C1(edge)を入力して保持する。そして、画素特徴ベクトル連結部54は、図5に示す例とは別のエッジパターンに基づいた画素特徴ベクトルを算出する際には、その旨を画素特徴ベクトル算出部51に指示する(ステップS7)。

0051

例えば、図6に、任意のn画素について非エッジ画素に着目する別のエッジパターンに基づいた画素特徴ベクトルの算出例を示す。図6に示す例では、周囲8画素から1非エッジ画素を選ぶという意味で8C1(noedge)と記述する。着目画素Aがエッジ画素である場合は、周囲8画素における、或る1画素が非エッジ画素であるか(この場合、“1”)、そうではないか(この場合、“0”)を表す数値列のベクトルを求める。周囲8画素から1非エッジ画素を選ぶ際の選び方は8通りあるため、この数値列のベクトルの次元数は8次元となる。着目画素Aが非エッジ画素である場合は、この8次元を全て “0”を表す数値列のベクトルとする。この8次元の数値列のベクトルを画素特徴ベクトルとすることもできるが、本例では、更に、注目画素Aがエッジ画素であるか否かを表す1次元を加えて(エッジ画素であれば“0”、非エッジ画素であれば“1”)、9次元の数値列のベクトルを画素特徴ベクトル8C1(noedge)として算出する。

0052

また、図7に、任意のn画素についてエッジ画素に着目する別のエッジパターンに基づいた画素特徴ベクトルの算出例を示す。図7に示す例では、周囲8画素から2エッジ画素を選ぶという意味で8C2(edge)と記述する。着目画素Aがエッジ画素である場合は、周囲8画素における、或る2画素がエッジ画素であるか(この場合、“1”)、そうではないか(この場合、“0”)を表す数値列のベクトルを求める。周囲8画素から2エッジ画素を選ぶ際の選び方は28通りあるため、この数値列のベクトルの次元数は28次元となる。着目画素Aが非エッジ画素である場合は、この28次元を全て “0”を表す数値列のベクトルとする。この28次元の数値列のベクトルを画素特徴ベクトルとすることもできるが、本例では、更に、注目画素Aがエッジ画素であるか否かを表す1次元を加えて(エッジ画素であれば“0”、非エッジ画素であれば“1”)、29次元の数値列のベクトルを画素特徴ベクトル8C2(edge)として算出する。

0053

このように生成されたそれぞれの合計後の画素特徴ベクトル8C1(edge),8C1(noedge),8C2(edge)等の複数種の画素特徴ベクトルは、それぞれ特徴ベクトル要素となる。

0054

そして、画像判定装置1は、画素特徴ベクトル連結部54により、上述のように予め指定された複数種の画素特徴ベクトル(例えば、8C1(edge),8C1(noedge),8C2(edge)等)が生成される度に保持して、所定種類の画素特徴ベクトルが得られた際に、複数種のエッジパターンに基づく各画素特徴ベクトル(8C1(edge),8C1(noedge),8C2(edge)等)の数値列を特徴ベクトル要素として順次連結し、この連結した特徴ベクトル要素からなる「特徴ベクトル」を画像特徴量として生成する(ステップS8)。

0055

最終的に、画像判定装置1は、文字判定部6により、任意の判定ブロックの画像に対して求めた特徴ベクトルを入力して、当該任意の判定ブロックの画像が文字領域を示す画像であるか否かを示す判定結果を生成して出力する(ステップS9)。他の判定ブロックの画像についても文字領域を示す画像であるか否かを示す判定結果を生成するときは、上記のステップS3にて他の判定ブロックを走査して指定することで、当該入力画像を構成する全ての判定ブロックの画像に対して判定結果を自動的に生成することができる。

0056

以上のように、本発明に係る画像判定装置1は、映像に重畳される文字領域を検出するために、映像から抽出したフレーム画像内の各画素の周囲におけるエッジの状態に基づいて画像特徴量(特徴ベクトル)を算出し、この画像特徴量を用いて文字領域を判別する。特に、本発明に係る画像判定装置1は、フレーム画像内の或る領域の画像(判定ブロック)が字幕らしいか(文字の画像らしいか)どうかを判定する際に、当該判定ブロック内の着目画素の周囲におけるエッジの出現パターンを画素特徴ベクトルとして数値化し、この画素特徴ベクトルを当該判定ブロック内で合計して特徴ベクトルと為し、これを画像特徴量とする。そして、本発明に係る画像判定装置1では、エッジパターン以外の画素の状態は無視して画素特徴ベクトルを算出するため、背景画像の影響を受けにくいものとなる。

0057

実測結果
本実施形態の画像判定装置1を利用して、字幕画像とそれ以外の画像を分類する実験を実施した。特徴ベクトルとして、エッジ画素に基づいて合計した画素特徴ベクトル8C1(edge),8C2(edge),8C3(edge),8C4(edge)と、非エッジ画素に基づいて合計した画素特徴ベクトル8C2(noedge),8C3(noedge),8C4(noedge)を順に連結したものとした。

0058

実験データとしては、実際に放送された2番組分の映像から切り出した部分画像を利用した。フレーム画像のサイズは432画素×240画素であり、判定ブロックのサイズは16画素×16画素とした。一方の番組から切り出した画像を学習データとしてサポートベクタマシンによる識別器を学習させ、もう一方の番組から切り出した画像をテストデータとして識別精度を評価した。学習データの画像数は、正例が2500枚、負例が5000枚である。また、テストデータは、正例が2500枚、負例が2500枚である。実験に利用した正例及び負例の画像データの例をそれぞれ図8(a),(b)に示している。

0059

実験では、本発明に係る一実施形態の画像判定装置1を利用した場合に加え、比較として、従来の非特許文献2に示されるエッジ方向ヒストグラム(EOH)の技法を利用した場合、従来の特許文献1に示される技法を利用した場合、及び、従来の非特許文献3に示されるローカルバイナリパターン(LBP)の技法を利用した場合のそれぞれについて、精度を比較評価した。評価尺度には次式で算出される識別率を用いた。

0060

識別率=Nc/N

0061

ここで、Ncはテストデータのうち正しく識別されたデータの総数、Nはテストデータの総数を表す。

0062

評価結果を図9に示す。実験の結果、本発明に係る技法の識別率は、90.04%となり、比較技法の中で最も高い精度となった。他の技法と比較して約2.5〜4%程度、識別率が向上している。画面全体を小さな操作窓で走査しながら文字領域を判定するような処理を想定した場合、1フレーム画像あたり数万から数十万回の判定処理を繰り返すことも考えられることから、本実験における精度の差は非常に大きく、本発明は極めて有用となる。

0063

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、本実施形態の画像判定装置1は、それぞれの各構成要素の機能について、コンピュータにより実現することができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリ(図示せず)に記憶される。コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで実行することにより、本実施形態の画像判定装置1の構成要素の機能をコンピュータにより実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。

0064

本発明によれば、画像中から文字領域をより正確に検出することが可能となるので、映像に重畳される文字領域を検出する用途に有用である。

0065

1画像判定装置
2判定ブロック分割部
3 判定ブロック指定部
4エッジ検出部
5画像特徴量生成部
6文字判定部
51画素特徴ベクトル算出部
52特徴ベクトル生成部
53 画素特徴ベクトル合計部
54 画素特徴ベクトル連結部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ