図面 (/)

技術 画像処理装置および画像処理方法

出願人 キヤノン株式会社
発明者 長谷川邦洋五十嵐洋介
出願日 2014年9月12日 (6年3ヶ月経過) 出願番号 2014-187032
公開日 2016年4月25日 (4年8ヶ月経過) 公開番号 2016-062123
状態 特許登録済
技術分野 イメージ分析
主要キーワード 紙面領域 パラメータ比 輝度値比 最大濃度位置 領域評価値 ノイズ判定処理 直線エッジ 各分割点
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年4月25日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

文書撮影画像から文書領域を高精度に検出する。

解決手段

S502で撮影画像からエッジ画素を抽出したエッジ画像を作成する。S503,S504でエッジ画像において隣接する複数のエッジ画素からなる連結画素塊外接矩形を作成する。S505,S506,S508で、外接矩形の特性に基づき、連結画素塊がノイズ相当であるか否かを判定し、連結画素塊がノイズである場合に、S509でエッジ画像から連結画素塊を除去する。このように連結画素塊が除去されたエッジ画像から文書の領域を検出する。

概要

背景

カメラ付き携帯電話の普及により、ポスターホワイトボード名刺配布資料など、様々な文書紙面カメラによってスキャン(撮影)し、電子文書化する技術が開発されている。しかしながら、撮影された画像にはカメラと紙面の位置関係に応じて台形状の歪みが生じることが多い。このような歪みを補正し、カメラを従来のスキャナ代替として利用するためには、撮影画像における紙面と背景境界である紙面端エッジを正確に取得する必要がある。このように撮影画像から紙面端エッジを取得する際、様々な要因から画像にノイズが乗ってしまうことがあるため、このノイズを除去する必要がある。

文書を撮影した画像からノイズを除去するための技術として、特許文献1では画像データの輝度値ヒストグラムを用いて閾値を設定し、下地や文書の裏写り由来するノイズの除去を行っている。

また特許文献2では、検出された線分毎に幅や濃度の変動値最大濃度位置の変動などを見て、ノイズの影響を受けずに、紙面端となる線分を抽出している。

さらに特許文献3では、輝度変化量からエッジ画素を検出し、その中からペアになる線分を探索するという方法で、ノイズを拾わずに紙面端エッジである四辺を抽出している。

概要

文書の撮影画像から文書領域を高精度に検出する。S502で撮影画像からエッジ画素を抽出したエッジ画像を作成する。S503,S504でエッジ画像において隣接する複数のエッジ画素からなる連結画素塊外接矩形を作成する。S505,S506,S508で、外接矩形の特性に基づき、連結画素塊がノイズ相当であるか否かを判定し、連結画素塊がノイズである場合に、S509でエッジ画像から連結画素塊を除去する。このように連結画素塊が除去されたエッジ画像から文書の領域を検出する。5

目的

本発明は上記問題に鑑み、文書の撮影画像から文書領域を高精度に検出することを目的とする

効果

実績

技術文献被引用数
2件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文書撮影した撮影画像からエッジ画素を抽出したエッジ画像を作成するエッジ画像作成手段と、前記文書の辺を構成するエッジでないと推定されるノイズに相当するエッジ画素を前記エッジ画像から除去するノイズ除去手段と、を有し、前記ノイズ除去されたエッジ画像から前記文書の辺を検出することを特徴とする画像処理装置

請求項2

前記ノイズ除去手段は、隣接する複数のエッジ画素を連結した画素集合を作成する作成手段と、前記画素集合の外接矩形の特性に基づいて前記画素集合がノイズ相当か否かを判定する第1ノイズ判定手段と、前記エッジ画像から、ノイズ相当と判定された前記画素集合を除去する除去手段と、を有することを特徴とする請求項1に記載の画像処理装置。

請求項3

前記ノイズ除去手段は、エッジ画素が属するエッジを挟む2つの近傍領域内画素情報に基づき、当該エッジ画素がノイズ相当か否かを判定する第2ノイズ判定手段と、前記エッジ画像から、ノイズ相当と判定されたエッジ画素を除去する除去手段と、を有することを特徴とする請求項1に記載の画像処理装置。

請求項4

前記ノイズ除去手段は、隣接する複数のエッジ画素を連結した画素集合の外接矩形の特性に基づいて前記画素集合がノイズ相当か否かを判定し、ノイズ相当と判定された前記画素集合を前記エッジ画像から除去する第1ノイズ除去手段と、エッジ画素が属するエッジを挟む2つの近傍領域内の画素情報に基づいて前記エッジ画素がノイズ相当か否かを判定し、ノイズ相当と判定されたエッジ画素を前記エッジ画像から除去する第2ノイズ除去手段と、を有することを特徴とする請求項1に記載の画像処理装置。

請求項5

前記第1ノイズ除去手段による処理後の前記エッジ画像に対し、前記第2のノイズ除去手段による処理を行うことを特徴とする請求項4に記載の画像処理装置。

請求項6

前記第2ノイズ除去手段による処理後の前記エッジ画像に対し、前記第1のノイズ除去手段による処理を行うことを特徴とする請求項4に記載の画像処理装置。

請求項7

前記第1ノイズ判定手段は、前記外接矩形の長辺長が第1の閾値以下であれば、前記画素集合がノイズ相当と判定することを特徴とする請求項2、4乃至6のいずれか1項に記載の画像処理装置。

請求項8

前記第1ノイズ判定手段は、前記外接矩形の縦横比が第2の閾値以上であれば、前記画素集合はノイズ相当でないと判定することを特徴とする請求項2、4乃至7のいずれか1項に記載の画像処理装置。

請求項9

前記第1ノイズ判定手段は、前記外接矩形の縦横比が前記第2の閾値未満であり、かつ前記外接矩形に含まれるエッジ画素の密度が第3の閾値以上であれば、前記画素集合がノイズ相当と判定することを特徴とする請求項8に記載の画像処理装置。

請求項10

前記第2ノイズ判定手段は、前記2つの近傍領域のそれぞれにおける輝度分布に基づいて、エッジ画素がノイズ相当か否かを判定することを特徴とする請求項3乃至6のいずれか1項に記載の画像処理装置。

請求項11

前記第2ノイズ判定手段は、前記2つの近傍領域の一方における最大輝度値と他方における最小輝度値の差と、前記一方における最小輝度値と前記他方における最大輝度値の差のうち、絶対値の大きい方の値が第4の閾値以下であれば、エッジ画素がノイズ相当と判定することを特徴とする請求項10に記載の画像処理装置。

請求項12

前記第2ノイズ判定手段は、前記エッジ画素が属するエッジが前記撮影画像における上下または左右のいずれかの方向であるとして、前記2つの近傍領域を決定することを特徴とする請求項10または11に記載の画像処理装置。

請求項13

文書を撮影した撮影画像からエッジ画素を抽出したエッジ画像を作成し、前記文書の辺を構成するエッジでないと推定されるノイズに相当するエッジ画素を前記エッジ画像から除去し、前記ノイズ除去されたエッジ画像から前記文書の辺を検出することを特徴とする画像処理方法

請求項14

コンピュータ装置で実行されることにより、該コンピュータ装置を請求項1乃至12のいずれか1項に記載の画像処理装置の各手段として機能させるためのプログラム

請求項15

請求項14に記載のプログラムを記憶したことを特徴とするコンピュータ可読な記憶媒体

技術分野

0001

本発明は、画像からエッジ抽出を行う技術に関する。

背景技術

0002

カメラ付き携帯電話の普及により、ポスターホワイトボード名刺配布資料など、様々な文書紙面カメラによってスキャン(撮影)し、電子文書化する技術が開発されている。しかしながら、撮影された画像にはカメラと紙面の位置関係に応じて台形状の歪みが生じることが多い。このような歪みを補正し、カメラを従来のスキャナ代替として利用するためには、撮影画像における紙面と背景境界である紙面端エッジを正確に取得する必要がある。このように撮影画像から紙面端エッジを取得する際、様々な要因から画像にノイズが乗ってしまうことがあるため、このノイズを除去する必要がある。

0003

文書を撮影した画像からノイズを除去するための技術として、特許文献1では画像データの輝度値ヒストグラムを用いて閾値を設定し、下地や文書の裏写り由来するノイズの除去を行っている。

0004

また特許文献2では、検出された線分毎に幅や濃度の変動値最大濃度位置の変動などを見て、ノイズの影響を受けずに、紙面端となる線分を抽出している。

0005

さらに特許文献3では、輝度変化量からエッジ画素を検出し、その中からペアになる線分を探索するという方法で、ノイズを拾わずに紙面端エッジである四辺を抽出している。

先行技術

0006

特開2010−219857号公報
特開2007−58634号公報
特開2011−151714号公報

発明が解決しようとする課題

0007

しかしながら、上記特許文献1においては、輝度の閾値に基づくノイズ除去処理を行っているため、紙面端エッジとほぼ同じ輝度値を持つノイズは除去できない。したがって、文書の撮影画像から文書領域として紙面端エッジを取得する際に、例えば文書内の表罫線文字等によるノイズとなるエッジを除去することができない。

0008

上記特許文献2の場合も同様に、撮影画像において紙面端エッジと、ノイズである表罫線によるエッジとは、線分の長さや濃度等がほぼ同等であることが多いため、これらのノイズ除去を行うことができない。

0009

また上記特許文献3においては、紙面端エッジに隣接した画素のみを参照して処理を行っているため、罫線や文字等のエッジににじみがある場合には正しい判定を行うことができない。

0010

本発明は上記問題に鑑み、文書の撮影画像から文書領域を高精度に検出することを目的とする。

課題を解決するための手段

0011

上記目的を達成するために、本発明の画像処理装置は以下の構成を備える。すなわち、文書を撮影した撮影画像からエッジ画素を抽出したエッジ画像を作成するエッジ画像作成手段と、前記文書の辺を構成するエッジでないと推定されるノイズに相当するエッジ画素を前記エッジ画像から除去するノイズ除去手段と、を有し、前記ノイズ除去されたエッジ画像から前記文書の辺を検出する。

0012

好適には前記ノイズ除去手段は、隣接する複数のエッジ画素を連結した画素集合を作成する作成手段と、前記画素集合の外接矩形の特性に基づいて前記画素集合がノイズ相当か否かを判定する第1ノイズ判定手段と、前記エッジ画像から、ノイズ相当と判定された前記画素集合を除去する除去手段と、を有する。

0013

また好適には前記ノイズ除去手段は、エッジ画素が属するエッジを挟む2つの近傍領域内輝度情報に基づき、当該エッジ画素がノイズ相当か否かを判定する第2ノイズ判定手段と、前記エッジ画像から、ノイズ相当と判定されたエッジ画素を除去する除去手段と、を有する。

発明の効果

0014

本発明によれば、文書の撮影画像から文書領域を高精度に検出することができる。

図面の簡単な説明

0015

第1実施形態における画像処理装置の構成を示す図、
第1実施形態における紙面検出処理概要を示す図、
紙面検出処理を示すフローチャート
第1実施形態におけるエッジ検出処理を行う際の機能構成を示す図、
第1実施形態におけるエッジ検出処理を示すフローチャート、
第1実施形態における第1のノイズ判定処理を説明する図、
第1実施形態における第2のノイズ判定処理を説明する図、
線分検出処理を示すフローチャート、
線分フィッティング処理を示すフローチャート、
線分フィッティングにおける輝度の分離度概念を示す図、
線分フィッティング処理の具体例を示す図、
線分マージ処理の具体例を示す図、
四角形生成処理の具体例を示す図、
四角形候補のフィルタリング処理を説明する図、
紙面領域選択処理を示すフローチャート、
紙面領域候補と近傍領域を説明する図、
紙面領域候補の辺近傍領域の分割例を示す図、
分割領域のスコア算出処理を示すフローチャート、
分割領域の評価値の例を示す図、
紙面領域候補の分割領域例を示す図、
分割領域の評価値の例を示す図、
第2実施形態におけるエッジ検出処理を示すフローチャート、
第2実施形態におけるエッジ方向を説明する図、
第2実施形態におけるエッジ近傍処理対象範囲の例を示す図、
第2実施形態におけるエッジ検出処理を行う際の機能構成を示す図、である。

実施例

0016

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施の形態は特許請求の範囲に関る本発明を限定するものではなく、また、本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

0017

<第1の実施形態>
本実施形態では、文書の撮影画像からエッジ画像を作成し、該エッジ画像から、文書の辺を構成するエッジでないと推定されるノイズに相当するエッジ画素を除去してから、文書の辺を検出することで、文書領域を高精度に検出する。

0018

装置構成
図1は、本実施形態における画像処理装置の構成を示す図である。本実施形態の画像処理装置は、撮影された画像データの入力を行う画像入力部101と、CPU102、RAM103、記憶部104、を有する。CPU102は画像データに本実施形態のエッジ抽出処理を施す画像処理プログラムを実行、制御し、RAM103は該プログラムを実行する際のワークメモリやデータの一時保存などに利用される。該プログラムやデータは、記憶部104に格納される。なお、図1に示す画像処理装置の構成は一例にすぎず、さらに他の構成要素を含んでいてもよい。また、外部の汎用コンピュータなどを用いて画像処理を実行してもよいし、電子回路上で画像処理を実行してもよい。さらに、画像入力部101に入力する画像データは撮像画像に限らず、人工的に作成された画像でもよい。

0019

●紙面検出処理概要
図2は、本実施形態の画像処理装置による紙面検出処理の概要を示す図である。図2(a)は画像入力部101によって取得される撮影画像データの例であり、複数枚の紙面が配置されている。この撮影画像データに対して本実施形態による紙面検出処理を施すと、図2(b)に示すように各紙面の領域を表す四角形が得られる。以下、このような紙面と背景との境界を表す直線が成す四角形の領域を、紙面領域と称する。

0020

図3は、本実施形態における紙面検出処理を示すフローチャートである。上述したように本処理は、CPU102がプログラムを実行することによって実現される。

0021

まずS301で、画像入力部101で取得された撮影画像データに対してエッジ検出を行う。この処理によって、撮影画像データにおいて輝度勾配の強度が大きい画素がエッジ画素として得られる。本実施形態ではこのエッジ検出の際に、ノイズ相当のエッジを適切に除去する。ここでノイズ相当のエッジとは、文書の辺を構成するエッジでないと推定されるエッジ画素である。

0022

次にS302で、S301で得たエッジ画素の集合から、エッジ画素の点列によって構成される直線を検出する。この直線検出には、ハフ変換ラドン変換など周知の方法を用いればよい。なお、エッジ画素群を輝度勾配の方向毎に複数に分割してから、各集合それぞれに対してハフ変換等を行うことで、直線検出の精度が向上する。続いてS303で、S302で検出された直線とエッジ画素の集合に基づき、線分群を取得する。なお本発明では、直線は端点を持たず、線分は2つの端点を持つとして区別する。続いてS304で、各線分の位置関係に基づいて線分を4本ずつ選択し、紙面領域の候補となる四角形を生成する。そして最後にS305で、S304で生成した四角形から、紙面領域を示す四角形を選択する。

0023

以下、図3に示すフローチャートにおける各処理について、詳細に説明する。

0024

●エッジ検出処理(S301)
S301におけるエッジ検出処理について、図4〜7を用いて詳細に説明する。図4は、本実施形態の画像処理装置においてエッジ検出処理を行う際の機能構成を示す図であり、図5は、本実施形態のエッジ検出処理を示すフローチャートである。まずS501で撮影画像入力部401が、処理対象画像を入力する。次にS502でエッジ画像作成部402が、入力画像からエッジ画素を抽出したエッジ画像を作成する。このエッジ画像の作成には、cannyのエッジ検出等、周知の手法を用いるとする。そしてS503で連結画素塊作成部403が、S502で作成されたエッジ画像から連結画素塊を作成する。ここで連結画素塊とは、エッジ画素が8近傍で連結している画素集合のことである。そしてS504で外接矩形作成部404が、S503で作成された連結画素塊のそれぞれに外接する矩形を作成する。ここで作成された矩形が、エッジを構成する領域となる。この時点では、例えば図2(a)に示す入力画像であれば、紙面と背景の境界による紙面端エッジと、背景のテクスチャや文書中の文字によるノイズとすべきエッジ、の両方が存在している。撮影画像から紙面領域を検出する際には、このノイズとすべきエッジを除去して紙面端エッジのみを抽出することが望ましい。

0025

そこで本実施形態ではS505以降において、外接矩形の特性を示す各種パラメータから、当該外接矩形が対応する連結画素塊がノイズ相当か否かを判定し、ノイズ相当であれば当該連結画素塊を除去する。これは、一般に紙面の境界領域に相当する紙面端エッジは直線であり、ノイズによるエッジよりも長い、もしくはノイズによるエッジは一直線に伸びるものではない、という性質を利用したものである。以下、本実施形態におけるS505〜S509のノイズ除去処理について、詳細に説明する。

0026

まずS505で外接矩形パラメータ比較部405が、外接矩形の長辺の長さを所定の閾値(第1の閾値)と比較し、第1ノイズ判定部406が該比較結果から、当該外接矩形が紙面端エッジを構成する領域(以下、境界領域)の候補であるか否かを判定する。これは、紙面端エッジの外接矩形であれば一方向に長く伸びている可能性が高いという性質を利用している。具体的には、外接矩形の長辺が第1の閾値よりも短いものは境界領域ではなく、抽出対象外のノイズであると判断してS509に進み、第1ノイズ除去部407が当該連結画素塊を除去する。一方、外接矩形の長辺の長さが第1の閾値以上であれば、境界領域の候補であるとして当該連結画素塊を残したまま、第2のノイズ判定処理であるS506に進む。

0027

ここで図6に、S505によるノイズ判定処理の具体例を示す。この例では、連結画素塊601に対する外接矩形602の長辺603については、その長さが第1の閾値よりも短いため、この外接矩形602を持つ連結画素塊601はノイズであると判断され、除去される。一方、連結画素塊604に対する外接矩形605の長辺606は第1の閾値よりも長いため、この外接矩形605を持つ連結画素塊604は境界領域の候補として残される。

0028

次にS506で外接矩形パラメータ比較部405が、外接矩形の縦横比(長辺の長さ/短辺の長さ)を所定の閾値(第2の閾値)と比較し、第1ノイズ判定部406が該比較結果から、当該外接矩形が境界領域候補であるか否かを判定する。ここで、上記S505の外接矩形の長辺の長さによるノイズ判定では、背景の大きな模様がある場合等、サイズの大きいノイズでは外接矩形の長辺も長くなり、ノイズと判別されないことがある。これに対しS506のノイズ判定では、紙面の境界領域ならば一方向に長く伸びている可能性が高く、外接矩形が長方形に近くなることに対し、ノイズの場合の外接矩形は正方形に近くなるという性質を利用する。具体的には、外接矩形の縦横比(長辺の長さ/短辺の長さ)が第2の閾値を超えていれば、境界領域の候補であると判断してS507に進み、当該画素塊を残す。一方、外接矩形の縦横比が第2の閾値以下であればノイズの可能性があるとし、S508のノイズ判定に進む。

0029

ここで図7に、S506によるノイズ判定処理の具体例を示す。この例では、連結画素塊701に対する外接矩形702の縦横比(長辺の長さ/短辺の長さ)は第2の閾値よりも大きくなるため、境界領域の候補であると判断して当該画素を残す。一方、連結画素塊703に対する外接矩形704の縦横比は第2の閾値以下となり、ノイズの可能性ありと判定される。ただし、この判定方法では斜め方向に伸びた境界領域の連結画素塊705についても、その外接矩形706の縦横比は第2の閾値以下となってしまう。このような斜め方向に伸びた連結画素塊705については紙面端エッジである可能性も高いため、ここではまだノイズと判断せず、S508の第3のノイズ判定に進む。

0030

S508で外接矩形パラメータ比較部405が、外接矩形内の連結画素塊の密度を所定の閾値(第3の閾値)と比較し、第1ノイズ判定部406が該比較結果から、当該外接矩形が境界領域候補であるか否かを判定する。上述したように、斜めに伸びている画素塊が紙面端エッジであるかノイズであるかは外接矩形の縦横比では判定できないため、外接矩形内の連結画素塊の密度による判定を行う。これは以下の性質を利用している。すなわち、外接矩形が紙面端エッジに対応する境界領域であれば、該矩形内では対角線上に連結画素塊があるだけであるから、該矩形内での画素密度は低くなる。一方、ノイズであれば外接矩形内のいたるところ、少なくとも境界領域の場合よりも広く画素が分布するので、画素密度が高くなる。外接矩形内の連結画素塊の密度が第3の閾値以上であればノイズと判定してS509に進み、当該連結画素塊の除去を行う。一方、密度が第3の閾値未満であれば境界領域候補と判定してS507に進み、当該画素塊を残す。

0031

S508によるノイズ判定処理の具体例を、図7に示す。この例では、連結画素塊701についてはS506で既に境界領域候補として判定されているため、S508での処理対象外である。連結画素塊703については、その外接矩形704内に画素塊が広く分布していることから画素密度が高く、ノイズであると判断されて該画素塊が除去される。一方、連結画素塊705については、その外接矩形706内での画素塊の広がりが対角線上のみであることから画素密度が低く、境界領域候補として判断されて当該画素塊が残される。

0032

以上、図5のフローチャートに示した一連の処理により、処理対象画像からノイズであると判定されたエッジが除去され、境界領域の候補である紙面端エッジが残された画像として出力される。このエッジ検出処理を経た画像であれば、後段の直線・線分検出処理によって境界領域を正しく検出することができる。

0033

●線分検出処理(S303)
S303における線分検出処理について、図8のフローチャートを用いて詳細に説明する。まずS801で、S502で得たエッジ画像とS302で得た直線群に基づき、線分検出用のエッジ画素群を取得する。S301で得られるエッジ画像は、精度良く直線を検出するためにノイズ除去が行われている。しかしながら本実施形態における線分検出では、直線近傍にあるエッジ画素をもとに線分を生成するため、直線近傍のエッジ画素はノイズとして除去されていないことが望ましい。そこでS801では、S502で得たエッジ画像において各直線から距離N1以内にあるエッジ画素を、S301で得たエッジ画像に加え、このエッジ画像を線分検出用のエッジ画素群として、以降の処理で用いる。なお、距離N1としては、例えば2mmに相当する画素数を用いる。

0034

次にS802で、S302で検出された各直線を複数の線分に分割する。具体的には、まず直線上の任意の点pi(x,y)から距離N2以内にエッジ画素があるか否かを判定する。次に、エッジ画素があると判定された点piと点pj間の距離を測る。この点間距離がn以内であれば該両点が同一線分の要素であるとし、点間距離がnより大であれば該両点は異なる線分の要素であるとして線分を生成する。N2は、例えばS801で定めたN1と同値とする。またnとしては、例えば図2(a)に示す複数紙面のように、処理対象画像における紙面間の最小間隔以上の値を設定する必要があり、例えば5cmに相当する画素数を設定する。

0035

次にS803で、S802で得た各線分について、線分近傍のエッジ画素に対するフィッティングを行う。このフィッティングの詳細は、図9〜11を用いて後述する。

0036

S802およびS803の処理を全直線及び全線分について行った後に、S804で近接する2本の線分を1本にマージする線分マージ処理を行う。2本の線分をマージするか否かの判定は、線分間距離線分間角度がいずれも所定の閾値以下である場合に、マージ対象として判定する。ここで、例えば画像中の紙面枚数が1枚であることが既知の場合には、同一直線上にある線分を積極的にマージする必要がある。この場合、線分間距離の閾値を大きくすると、閾値以内の距離で並列した2線分もマージ対象となり、意図しない結果が得られてしまう。そこで、マージ条件として、両線分の中点同士を結んだ線分と、マージ対象の2線分それぞれが成す角度に対して閾値を与えることで、延長線上にある線分のみをマージできる。このマージ処理の具体例については、図12を用いて後述する。

0037

マージされた線分は、S805において再度フィッティング処理を行う。これを全線分について行うことで、線分検出処理を終了する。

0038

●線分フィッティング処理(S803,S805)
ここで、S803,S805における線分フィッティング処理について、図9のフローチャートを用いて詳細に説明する。まずS901で、処理対象の線分(線分1)の信頼度を、[線分長]×[分離度]/[平均二乗誤差]によって定める。ここで[線分長]は、処理対象の線分の長さである。[分離度]は、線分の両面の輝度がどれだけ分離しているかを表す指標であり、以下の式(1)によって定義される。

0039

0040

ここで、N1は領域1の画素数、N2は領域2の画素数
m1は領域1の平均輝度値、m2は領域2の平均輝度値
mは領域1+領域2の平均輝度値
siは画素iの輝度値
式(1)において領域1は、該線分を一辺とする幅wの領域とし、領域2は、該線分を一辺とする領域1と重ならない幅wの領域とする。

0041

また[平均二乗誤差]は、線分と距離D以内にあるエッジ画素の距離を二乗した平均について、さらに平方根を取った値である。本実施形態では、w及びDを、S801のエッジ画素群抽出の際に用いた距離N1とする。

0042

ここで図10に、分離度の概念図を示す。図10(a)において、線分1001を境界とする領域1002a,1002bの輝度ヒストグラムが、1003a,1003bである。同様に、図6(b)の各領域から得たヒストグラムを1004a,1004bに示した。この例の場合、図10(b)よりも図10(a)の方が分離度が高い値となる。

0043

線分の信頼度は、線分が長く、線分を境界とする両面での輝度の変化が大きく、エッジ画素が線分近傍に密集している場合に大きくなる指標である。該信頼度は式(1)に限らず、その変形であったり、別の式を用いてもよい。例えば、距離D以内のエッジ画素数の積を取る、分離度を領域1と領域2の最大値あるいは平均の差として定義する、平均二乗誤差をエッジ画素と線分の距離総和と置き換える、などの変形が可能である。さらに、距離D以内のエッジ画素群について輝度勾配方向の分散の商を取る、距離D以内のエッジ画素群について輝度勾配強度の総和の積を取る、などの変形も考えられる。

0044

図9に戻り、S902で線分1から距離D以下にあるエッジ画素群E1を取得する。次にS903で、エッジ画素群E1から新たに線分2を求める。まず、エッジ画素群E2に対して主成分分析を適用して直線を得る。主成分分析とは、点群の分散が最も大きくなる方向を求める方法である。次に、該エッジ画素群E2から得られた直線と、エッジ画素群E1を包含する外接矩形の交点を端点とする線分を求める。次にS90で、線分2について線分1と同様に、S901で定義した信頼度を求める。そしてS905で、線分1の信頼度と線分2の信頼度を比較し、大きい方を線分Aとして選択する。ここで線分Aとして線分1が選択された場合にはS906に進み、距離の閾値Dをより小さな値に更新する。例えば、D=D/2とする。線分Aとして線分2が選択された場合には、そのままS907に進む。

0045

S907では、線分Aから距離D以下のエッジ画素群E2を取得する。線分Aが線分1である場合には、エッジ画素群E2はエッジ画素群E1に完全に包含される点群となる。一方、線分Aが線分2である場合には、エッジ画素群E2はエッジ画素群E1に重複する点群となる。

0046

S907で得たエッジ画素群E2がエッジ画素群E1と等しい場合、処理が収束したとみなし、線分フィッティング処理を終了する。一方、エッジ画素群E2とエッジ画素群E1が異なる場合にはS908に進み、エッジ画素群E2を新たなエッジ画素群E1とし、線分Aを新たな線分1としてS903に戻り、処理を続行する。

0047

以上、図9のフローチャートに示した線分フィッティングの処理は一例に過ぎず、線分フィッティング処理はこの例に限定されない。例えば、S902とS907で、線分の角度に類似した方向に輝度勾配を持つエッジ画素のみを対象とすることで、S903における線分2の検出精度が向上できる。また、S905で選択した線分Aをそのままフィッティング結果として出力してもよいし、所定のループ回数強制的に計算を打ち切り、その時点での線分Aを出力してもよい。また、予め距離の閾値Diを複数用意し、S902とS903の時点でそれぞれの閾値Diについてエッジ画素群Ei及び線分iを求め、信頼度が最大となる線分iを選択してもよい。あるいはS903で、主成分分析以外の手法を用いてもよい。例えば、外接矩形に接する2点や、距離が最大となる2点を端点としてもよい。また、周知の最小二乗法、ハフ変換、RANSAC等の方法を用いてもよい。さらに、これらを全て同時に使用して複数の線分を求め、いずれかを選択、あるいは信頼度が閾値以上となる線分を全て出力してもよい。

0048

ここで図11に、線分フィッティング処理の具体例を示す。図11(a)では、3枚の紙面の上辺エッジ画素1101a〜1101cと、線状ノイズ画素1102を通る直線1103がある。直線1103を、近傍のエッジ画素に基づいて分割すると、図11(b)に示す線分1104a〜1104cが得られる。線分1104a〜1104cは、単に直線1103を分割した結果であり、いずれも上辺エッジ画素1101a〜1101cから位置、傾き共にズレがある。これらの線分1104a〜1104cに対して、線分フィッティング処理を行う。

0049

図11(c)は、線分1104a〜1104cそれぞれに対して、S902及びS903の処理を施した結果である。線分1105b、1105cについては、上辺エッジ画素1101b、1101cに適した線分を得られた一方で、線分1105aは、線状ノイズ画素1102の影響を受けて上辺エッジ画素1101aからズレがある線分となっている。ここでS905の処理を行って、線分1104aと1104bの信頼度を比較する。両線分の信頼度は、特に分離度に有意な差が出るため、線分1104aが選択される。選択された線分は直線1103を分割して得た線分であるため、S906に進んで距離の閾値Dを更新し、再度エッジ画素群を求める。

0050

図11(d),(e)は、線分1104aの近傍に更新前後の距離の範囲を示した図であり、距離の閾値Dに対応する範囲1106と、距離の閾値D/2に対応する範囲1107を示している。距離の閾値をD/2とすることで、線状ノイズ画素1102を除いた上辺エッジ画素1101aのみを含むエッジ画素群が得られる。これをS907におけるエッジ画素群E2としてS908及びS903に進み、主成分分析を行うことで、信頼度の高い線分を得ることができる。

0051

●線分マージ(S804)
ここで図12を用いて、S804における線分マージ処理を説明する。図12(a)には、マージ対象となる2線分1201,1202と、両線分の端点1201a,1201b,1202a,1202bを示す。線分マージ処理では、図12(b)〜(e)に示すように、まず端点1201aまたは1202aと、端点1201bまたは1202bを端点とする候補線分1203〜1206を求める。次にこれらの候補線分についてS901と同様の信頼度を求め、最も信頼度が高くなる候補線分をマージ結果として出力する。

0052

ここで出力される線分が候補線分1205または1206の場合、これらは新たに生成された線分であるため、S805において線分フィッティングが行われる。なお、候補線分は図12(b)〜(e)に示す線分に限らず、例えば端点1201aと1202aの中点と、端点1201bと1202bの中点を新たに定め、それらを端点とする候補線分を求めてもよい。

0053

●四角形生成処理(S304)
以下、S304における四角形生成処理について、図13を用いて詳細に説明する。図13(a)は、S303で得られた線分1301〜1305を示している。まず、各線分間の端点間距離を求める。図13(a)から得られる端点間距離の一覧を図13(b)に示す。図13(b)では、後述する閾値Tより小さい端点間距離の値を下線付き太字で示している。ここでは端点間距離を、点p(xp,yp)と点q(xq,yq)から得る((xp−xq)2+(yp−yq)2)の平方根とした。これを例えば、端点間距離をmax(点pが属する線分長,点qが属する線分長)で正規化してもよい。また、[点pが属する線分]と[点qが属する線分]を延長して得る交点を点rとして、[点pと点r間距離]+[点qと点r間距離]の和を点pと点q間の距離としてもよい。

0054

次に、端点間距離が閾値T以下になる端点ペアを探索して、線分ペアを得る。図13(b)の例では、閾値T=20として、1301aと1302a、1301bと1304a、1302aと1305a、1302bと1303a、1303bと1304b、1304aと1305b、の6組の端点ペアが検出される。そして。該6組の各端点ペアに対応する線分ペアが得られる。

0055

次に、線分ペアのフィルタリングを行う。ここでは、紙面とカメラの光軸が成す角度が限定できると仮定し、線分間角度が所定の角度外(例えば90度±30度)となる線分ペアを除去する。また、撮影画像内に完全に紙面が含まれるように撮影を行ったことが既知の場合、両線分を延長して得る交点が所定の範囲外(例えば画像外)にある線分ペアを除去してもよい。さらに、検出対象紙面のアスペクト比と、紙面とカメラの光軸が成す角度が限定できる場合に、隣接する線分の長さ比が所定の範囲外(例えば長辺/短辺≧2)にある線分ペアを除去してもよい。さらに、画像から紙面境界部のエッジ画素が十分に得られ、それに紙面境界が線分として得られることが仮定できる場合に、各端点から両線分を延長して得る交点までの距離が所定の範囲外にある線分ペアを除去してもよい。例えば、紙面背景と紙面の輝度差が30以上、かつ紙面境界の隠れが無い場合等が該当する。

0056

続いて、端点ペアを2組ずつ比較し、線分を共有しながら異なる端点を持つ線分ペアを順次結合する。具体的には、端点1301aと1302aのペアと、端点1302bと1303aのペアは、線分1302を異なる端点で共有するため、線分1301と1302と1303が結合される。この処理を再帰的に繰り返し、4本の線分が結合された時に、それらの線分を延長して得る4交点が成す四角形を四角形候補として保持する。図13(a)からは、線分1301〜1304が成す四角形と、線分1302〜1305が成す四角形が四角形候補として得られる。

0057

最後に、四角形候補のフィルタリングを行い、残った四角形候補を出力する。ここでは、四角形候補を構成する4線分のうち、連続して結合された3線分が図14に示す関係にある場合に除去する。図14(a)は、1本目の線分1401を境界として、2本目の線分1402と3本目の線分1403の両端点が互いに異なる領域にある。閾値Tが適切な値よりも大きい場合に、図14(a)の結合が生じる。図14(b)は、2本目の線分1406を境界として、1本目の線分1405と3本目の線分1407の両端点が互いに異なる領域にある。線分ペアを作成する際には2本ずつの関係のみに着目する為、図14(b)の関係を除去することはできない。図14(c)は、1本目の線分1408と3本目の線分1410が交差する関係にある。検出対象とする領域が四角形以上の多角形であれば、1本目の線分と3本目の線分が交差することは無いため、この関係を用いたフィルタリングが有効となる。

0058

なお、本実施形態では四角形を検出対象として説明したが、これに限定するものではない。例えば三角形が検出対象となる場合、線分間角度の閾値を60度±30度とし、図14に示した3線分の関係によるフィルタリングを行わないことで容易に対応できる。また、例えば凹四角形の場合には、図14(b)に示したフィルタリングを行わないことで同様に検出が可能である。

0059

●紙面領域選択処理(S305)
以下、S305における紙面領域選択処理について、図15を用いて詳細に説明する。ここでは説明上、紙面領域候補を四角形として説明するが、対象の形状は四角形に限らず、角と辺から構成される多角形であればよい。

0060

まずS1501で、S304で四角形として生成された紙面領域候補O1〜Onを順次、処理対象の紙面領域候補Oとして、S1502〜S1509の処理を繰り返す。それぞれの紙面領域候補Oに対する処理は独立しているため、最終的に得られる結果は処理の順序により変動しない。したがって、それぞれの紙面領域候補Oの処理を並列に行ってもよい。

0061

S1502では、紙面領域候補Oの辺近傍領域について、紙面領域候補Oの外部領域の輝度の分散値σを以下の式(2)を用いて算出する。

0062

0063

ここで、Nは画素数
mは領域の平均輝度値
siは画素iの輝度値
紙面領域候補と近傍領域について、図16を用いて説明する。破線の四角形1601は、S301〜S304の処理で得られた紙面領域の候補となる四角形である。1602は、四角形1601を外側に所定サイズ分拡大した四角形であり、1603は四角形1601を内側に所定サイズ分縮小した四角形である。四角形1602から紙面領域候補の四角形1601を減算した領域が、辺近傍領域の外部領域であり、四角形1601から四角形1603を減算した領域が、辺近傍の内部領域である。

0064

S1503では、紙面領域候補Oの辺近傍の内部領域と外部領域について、輝度の分離度を算出する。分離度の算出には上述した式(1)を用いればよい。分離度は、2つの領域の輝度の差を示す指標であるため、紙面領域の近傍であれば、背景と紙面のそれぞれの輝度の均一性が高く、該2領域間の輝度が大きく異なる場合に、分離度は大きい値をとる。

0065

S1504では、紙面領域候補Oの辺近傍をm個に分割して分割領域B1,B2,…,Bmを作成する。ここで、紙面領域候補Oの辺近傍領域の分割について、図17を用いて説明する。図17は、図16に示す紙面領域候補の四角形1601の近傍領域を分割する様子を説明する図である。図17(a)に示すように紙面領域候補である四角形1601は、4つの線分1701,1702,1703.1704から構成される。

0066

図17(b)は、図17(a)に示す4つの線分1701,1702,1703,1704を分割した例を示す。本実施形態では、四角形1601の長辺にあたる線分1701,1703を5等分し、短辺にあたる線分1702.1704を3等分するように、分割点1705〜1716を設定している。さらに、各辺の両端、即ち四角形1601の角の部分にあたる1717,1718,1719,1720を併せて、全16個の分割点を作成した例を示す。なお、図17に示す分割点は一例に過ぎず、各辺で異なる個数への分割を行ってもよいし、全辺同数に分割してもよい。また、辺を等分に分割する方法の他、各辺の端から一定間隔で分割点を決定してもよい。

0067

そして図17(c)に示すように、各分割点を中心とした正方形として、分割領域1721〜1736を作成する。各分割領域は、その中心を紙面領域候補である四角形1601の辺上に持ち、四角形1601の辺で内部が区切られてることで、四角形1601の内側と外側の両方の領域から構成される。なお、この分割領域は一例に過ぎず、例えば分割領域の形状については正方形ではなく長方形でもよいし、円形やその他の形であってもよい。また、分割領域のサイズも一定でなくても良く、後述する分割領域の評価値に応じて変更してもよい。

0068

そしてS1505では、S1504で作成した分割領域について、紙面領域候補の確からしさ(確度)を得るための評価値を算出する。分割領域ごとの評価値算出方法については、図18を用いて後述する。

0069

そしてS1506で、S1505で算出した分割領域ごとの評価値に基づき、四角形1601全体についての、紙面領域としての確度のスコアを算出する。このスコアとしては、辺ごとに、該辺に位置する分割領域の評価値の平均を求め、それらの平均値と、角に位置する分割領域の外部分散値の平均を用いて、以下の(3)式によりで求める。

0070

0071

ここで、SaはS1503で求めた紙面領域候補Oの内外分離度
SmはS1505で求めた分割領域の各辺の内外分離度の平均
νaはS1502で求めた紙面領域候補Oの外部分散値
νmはS1505で求めた分割領域の各角の外部分散値の平均
図17に示す分割領域の例では、1721〜1732が辺に位置する分割領域であり、1733〜1736が角に位置する分割領域である。そして辺ごとの平均とはすなわち、分割領域1721〜1724の平均と、分割領域1725,1726の平均と、分割領域1727〜1730の平均と、分割領域1731,1732の平均である。

0072

入力画像中の紙面の背景、すなわち紙面が置かれた台の色が均一である場合、紙面領域候補が正しく紙面領域であれば、紙面領域候補の外部は紙面の背景であり、背景が輝度の均一性を持っていれば輝度分散値は低い値を示す。同様に、紙面領域候補が正しく紙面領域であれば、紙面領域候補の内部、すなわち紙面と、その外部のそれぞれの色差により、分離度は高い値を示す。なお、上記(3)式は紙面領域候補の確度を算出する一例に過ぎず、分割領域の分離度が高いほど紙面領域候補の確度が高くなり、角部の分散値が低いほど紙面領域候補の確度が低くなればよい。したがって、(3)式のスコア算出に重み付けを行ってもよいし、それぞれの分離度、分散値に閾値を設けるなど、その他の算出方法を適用してもよい。

0073

そしてS1507で、対象紙面領域候補Oのスコアが閾値以上であるか否かを判定し、閾値以上であればS1508へ進み、対象紙面領域候補Oを紙面領域として選択してS1510へ進む。一方、閾値未満であればS1509へ進み、対象紙面領域候補Oは紙面領域でないとして、紙面領域候補群から削除してS1510へ進む。なお、本実施形態ではこの閾値を0.0010とするが、閾値は他の固定値であってもよいし、実際の処理対象の種類に応じて調整可能な値でもよい。S1507〜S1509では、閾値を用いて紙面であるか否かの判定を行ったが、入力画像内に一つの紙面領域しか存在しないことが明らかである場合には、スコアが最も高い四角形領域候補のみを残してもよい。

0074

そしてS1510で、紙面領域候補の全てに対する処理が終了していれば、図15に示す紙面領域選択処理を終了するが、未処理の紙面領域候補が残っていればS1501へ戻って、次の紙面領域候補の処理を開始する。

0075

●分割領域評価値算出処理(S1505)
以下、上記S1505における分割領域の評価値の算出処理について、図18のフローチャートを用いて説明する。まずS1801で、S902で作成した分割領域B1〜Bmを順次、処理対象の分割領域Bとして、S1802〜S1806の処理を繰り返す。それぞれの分割領域Bに対する処理は独立しているため、最終的に得られる結果は処理の順序により変動しない。したがって、それぞれの分割領域Bの処理を並列に行ってもよい。

0076

S1802では、分割領域Bが紙面領域候補Oの角に位置するか否かを判定する。分割領域Bが角に位置すればS1805へ進み、角に位置しない、すなわち辺であればS1803へ進む。この判定は、上記S1504で領域を分割する際に、辺の両端の領域には角部としてタグを付し、該タグを判定すればよい。また、分割領域Bが紙面領域候補Oの2辺を含むか否かの判定を行ってもよい。図17の例では、分割領域1733,1734,1735,1736については角に位置するためS1805の処理へ進み、それ以外の分割領域についてはS1803の処理へ進む。

0077

S1803では、分割領域Bの内部領域と外部領域の輝度の分離度を算出する。分離度の算出には上記(1)式を用いればよい。ここで分離度は、線分の両面の輝度がどれだけ分離しているかを表す指標であるから、紙面領域候補Oが正しく紙面領域であれば、紙面領域と背面領域(例えば原稿原稿台)の輝度差により、分離度が高く算出される。そしてS1804で、S1803で求めた分離度を分割領域Bの評価値としてS1807へ進む。

0078

ここで、上記S1503では、紙面領域候補Oの辺近傍領域の全体で分離度を求めているが、一般に広い領域では環境光などの影響により、輝度ヒストグラムのピークの幅が広くなる。したがって広い領域内の2領域間における分離度としては、2領域の輝度差が小さいと、2領域のヒストグラムが重なりあってしまい、分離度も小さい値が算出される。そこで背景と紙面の輝度差が小さい場合には、領域を分割することによって高い分離度を得ることができる。また、分離度をより大きく得るために、分割領域のサイズを変更してもよい。例えば、紙面内の余白が狭い箇所では、分割領域のサイズによっては文字などの余計な画素が入るため、分離度が小さい値をとってしまうことがある。そのような場合は、分割領域のサイズを変更して、分離度の高い方を評価値として採用すればよい。

0079

一方、S1805では、分割領域Bの外部領域の輝度分散値を算出する。ここで外部領域とは、分割領域Bにおける、紙面領域候補Oの辺の外側の領域を示す。輝度分散値の算出には上記(2)式を用いればよい。ここで分散値は、領域中の輝度が一様であるかを示す指標であるから、紙面領域候補Oが正しく紙面領域であれば、背景領域(例えば原稿台)の輝度が一様となり、分散値が小さい値として求まる。そしてS1806で、S1805で求めた分散値を分割領域Bの評価値としてS1807へ進む。

0080

S1807では、全ての分割領域についての処理が終了していれば、図18に示す評価値の算出処理を終了するが、未処理の分割領域が残っていればS1801へ戻って、次の分割領域の処理を開始する。

0081

評価値算出
以下、図19に、図17に示す紙面領域候補(1601)に対して、S1503〜S1505により算出した評価値の例を示す。表1901において、分割領域1721〜1732については、辺部としてS1803,S1804において算出した分離度が、評価値として記載されている。また分割領域1733〜1736については、角部としてS1805,S1806において算出した外部領域の分散値が、評価値として記載されている。また、各辺の評価値の平均が、各辺平均S1,S2,S3,S4として記載されている。図19に示す評価値をもとに、S1506で(3)式を用いて当該紙面領域候補の確度のスコアを計算すると0.0013となる。この場合、S1507でスコアが閾値(0.0010)以上であると判定され、S1508へ進んで該紙面領域候補1601は紙面領域として選択される。

0082

以下、同じ入力画像に対する、図17に示す紙面領域候補1601とは異なる紙面領域候補を例とした、評価値算出例を示す。図20(a)に示す紙面領域候補2000は、紙面上の黒帯部分上端にある線分2001と、紙面の三辺にある線分2002,2003,2004から構成されており、紙面として選択するのは好ましくない。図20(b)は、上記S1504で図20(a)に示す4つの線分2001,2002,2003,2004を分割した例を示す。同図において、2004〜2013が辺部の分割領域であり、2014〜2017が角部の分割領域である。

0083

図20(c)は、角部の分割領域2014における外部領域を拡大した図である。分割領域2014の外部領域は、背景2018と紙面2019から構成される。この外部領域についての輝度ヒストグラムを求めると、背景2018と紙面2019を構成する画素群によって発生した2つのピークの幅が広くなるため、分散値、つまり角部の分割領域2014についての評価値が大きくなる。同じく角部である分割領域2015についても同様である。

0084

図21は、図20の紙面領域候補2000の分割領域に対して、S1503〜S1505により算出した評価値の例を示す。表2101において、分割領域2014と2015の評価値が非常に高くなっている。図21に示す処理結果をもとに、S1506で(3)式を用いて当該紙面領域候補の確度のスコアを計算すると0.0006となる。この値は、S1507において閾値(0.0010)以上を満たさないため、S1509で該紙面領域候補は不正解領域として削除される。

0085

以上説明したように本実施形態によれば、エッジとして検出された連結画素塊の外接矩形の長辺長もしくは縦横比、およびエッジ画素密度に基づいて、ノイズとなる画素塊を除去する。これにより、処理対象画像におけるノイズの影響を低減して、境界領域候補を検出することができるため、ノイズとなるエッジを多く含む背景を有する紙面であっても、高精度に検出できる。従って本実施形態は特に、エッジ方向がランダムとなる布地や壁紙等のテクスチャを背景とした紙面を検出する際に有効である。また、処理対象画像内に複数枚の紙面がある場合でも、該複数枚の紙面を同時かつ高精度に検出可能となる。
<第2の実施形態>
以下、本発明にかかる第2実施形態について説明する。第2実施形態では、図23の文書2301に示すような表罫線を多く持つ文書を処理対象として、ノイズ除去を行う例を示す。このような文書においては、境界領域から得られるエッジとノイズである表罫線から得られるエッジは類似しているため、第1実施形態のように連結画素塊の外接矩形を比較するだけでは、ノイズの除去を適切に行うことができない。そこで第2実施形態ではさらに、エッジ近傍における画素情報の傾向の違いを利用して、境界領域の候補を抽出する。すなわち、表罫線を挟んだ2領域の組み合わせと、文書の境界領域を挟んだ2領域の組み合わせとでは、異なる傾向を持ちやすいことを利用する。ここでは、画素情報として輝度値を利用する例を示す。

0086

第2実施形態の画像処理装置においてエッジ検出処理を行うための機能構成を図25に示す。同図に示す構成は、上述した第1実施形態で図4に示す401〜407の構成に対し、輝度値比較部408、第2ノイズ判定部409、第2ノイズ除去部410をさらに有する。以下、401〜407における処理については第1実施形態と同様であるため説明を省略し、第2実施形態で追加された上記部分における処理ついて図22のフローチャートを用いて説明する。

0087

第2実施形態では、第1実施形態におけるS301のエッジ抽出処理を、さらに高精度とする。図22のフローチャートは、上記S301のエッジ検出処理として、図5に示す第1のノイズ除去処理を経たエッジ画像に対して実行する、第2のノイズ除去処理を示す。

0088

まずS2201で、図5に示す処理を経たエッジ画像が入力されると、該エッジ画像の各エッジ画素に対し、まずエッジの方向判別を行う。これは、エッジの方向によってエッジの左右・上下のどちらを参照すべきかが変わってくるためである。例えば、Cannyのエッジ検出を行った際の縦・横双方向の微分画像からエッジの角度を求め、その値によって判別を行えば良い。この結果、エッジの方向が縦であればS2202に進んでエッジの左右の画素を参照するとし、エッジの方向が横であればS2203に進んでエッジの上下の画素を参照するとする。このエッジの方向の判定について、図23を用いて説明する。図23は、表2302を有する文書2301の画像であり、すでに第1実施形態における第1のノイズ除去処理が行われている。図23において、文書2301の境界領域であるエッジ2303と、表罫線であるエッジ2304とは、文書2301の上下方向に伸びでいるため、これらのエッジを構成する画素はS2202で処理される。一方、文書2301の他方の境界領域であるエッジ2305と、表罫線であるエッジ2306は文書2301の左右方向に伸びているため、これらのエッジを構成する画素はS2203で処理される。

0089

S2202およびS2203では、エッジ画素近傍の画素における輝度値の最大値と最小値を取得する。すなわちS2202ではエッジ画素の左右それぞれの近傍画素における最大輝度値参照輝度値を取得し、S2203ではエッジ画素の上下それぞれの近傍画素における最大輝度値と参照輝度値を取得する。ここでエッジ画素の近傍画素とは、エッジ画素から所定範囲にある画素または所定数の画素であり、その範囲は適宜設定可能である。例えば、エッジ画素の左右の近傍画素として、エッジ画素を中心とした左右5画素ずつを参照してもよいし、さらに幅を持たせて、エッジ画素の左右それぞれに位置する3×5画素を参照してもよい。

0090

そしてS2204で輝度値比較部408が、S2202またはS2203で取得した、エッジ画素の左右または上下の2領域間における最大輝度値と最小輝度値の差を、所定の閾値と比較する。これは上述したように、境界領域のエッジであるか否かによって、エッジを挟んだ両領域の画素情報に違いがあることを利用している。例えば文書の境界領域であれば、エッジを挟んだ領域のうち片方は文書、もう片方はなどの背景となる。このように双方の領域で写っている物が異なるので、その輝度は大きく異なっている可能性が高い。一方、表罫線であれば、エッジを挟んだ領域は双方とも文書であるから、その輝度はさほど変わらない可能性が高い。第2実施形態ではこの性質を利用して、ノイズの判定および除去を行う。

0091

すなわち輝度値比較部408が、まずエッジ近傍の両領域(近傍領域Aと近傍領域Bとする)において所定範囲内にある画素の輝度値を取得する。なお、ここで取得する近傍領域の始点もしくは終点はエッジ画素の近傍であれば良く、エッジ画素に隣接している必要はない。これは、エッジ画素の最近傍は線分の滲み等の影響を受ける可能性があるためである。そして次に、各近傍領域内の最大輝度値と最小輝度値を取得し、近傍領域Aの最大輝度値と近傍領域Bの最小輝度値の差、および近傍領域Aの最小輝度値と近傍領域Bの最大輝度値の差を算出する。なお、これら輝度値の差としては絶対値を算出する。そして、上記2種類の輝度差のうちの大きい方の値を所定の閾値(第4の閾値)と比較し、第2ノイズ判定部409が該比較結果から、当該エッジがノイズであるか否かを判断する。すなわち、輝度差が第4の閾値以下であれば表罫線、つまりノイズであると判断してS2206に進み、第2ノイズ除去部410が当該エッジを除去する。一方、大きい方の値が第4の閾値よりも大きければ、文書の境界領域の候補であると判断してS2205に進み、境界領域候補として残す。

0092

なお、S2202,2203でエッジの最近傍の画素だけでなく、所定範囲内の画素の輝度値を取得するのは、エッジの最近傍の画素のみでは、滲み等の発生により正しく判断できない可能性があるためである。

0093

図24に、エッジ近傍における処理対象範囲の例を示す。文書2401における縦方向のエッジ2403を処理する際には、文書2401の外側の処理対象範囲2404と、内側の処理対象範囲2405に含まれる画素から輝度値の最大値と最小値を取得し、その差分を取る。そして、その差分値が第4の閾値より大きくなることから、このエッジ2403は境界領域であると判断され、対応する画素を残す。一方、文書2401に含まれる表2402の罫線であるエッジ2406を処理する際には、表2402の外側の処理対象範囲2407と、表2402の内側の処理対象範囲2408に含まれる画素から輝度値の最大値と最小値を取得し、その差分を取る。そして、その差分値が第4の閾値以下になることから、このエッジ2406はノイズであると判断され、対応する画素が除去される。

0094

なお、エッジを挟む領域間での比較対象としては、最大輝度最小輝度の差に限らず、領域間で差が出るものであればよく、例えば平均輝度値を用いても構わない。また、例えば最大輝度値と最小輝度値の差と平均輝度値の差、双方の絶対値等、複数の値を用いても構わない。

0095

また、画素の持つ画素情報として輝度値を利用する例を示したが、画素情報はこの例に限らない。例えば、RGB等の各種表色系や、cannyのエッジ検出によって得られた境界領域以外のエッジ、SIFT等の局所特徴量、等の情報を画素情報として用いてもよい。更には、上記の最大輝度値と最小輝度値の差及び平均値の差、の双方の絶対値を用いるときのように、複数の情報を組み合わせて使用してもよい。このように輝度値以外の情報を利用する場合には、輝度値比較部408での比較対象が対応する情報に変更される。

0096

またノイズの判定方法としても、閾値との比較に限らず、他の方法を用いてもよい。例えば局所特徴量を利用する場合であれば、処理対象範囲内の画素情報のパターンの違いに基づく判定を行ってもよい。複数の情報を利用する際には、超平面を作成して判断を行うこともできる。これらの場合には、S2204における比較方法が対応するように変更される。

0097

上述した第1実施形態で説明した図5のフローチャートによる第1のノイズ除去処理に続けて図22のフローチャートによる第2のノイズ除去処理を行うことで、紙面内部のエッジがさらに除去され、境界領域候補であるエッジが残る。したがって、後段の直線・線分検出処理による境界領域の検出をさらに高精度に行うことができる。

0098

以上説明したように第2実施形態によれば、エッジを挟んだ両領域の輝度値の差に基づいて、紙面内でノイズとなる画素塊を除去する。これにより、紙面内のノイズの影響を低減して、境界領域候補を検出することができるため、第2実施形態は特に、内部に罫線等の直線を有する紙面を検出する際に有効である。

0099

<変形例>
第2実施形態では、S301のエッジ検出処理として、第1実施形態の図5に示す第1のノイズ除去処理の後に、図22に示す第2のノイズ除去処理を行う例を示した。しかしながらこの場合、境界領域である直線のエッジ上にノイズが乗る、もしくは直線エッジにノイズが隣接している場合には、以下のような不具合が生じる。すなわち、エッジ画素塊の外接矩形ごとに処理を行う第1のノイズ除去処理を先に行うと、直線とノイズを合わせたものが連結画素塊となるため、直線ごと除去されてしまう恐れがある。したがってこの場合には、第2のノイズ除去処理を先に行った後、第1のノイズ除去処理を行うようにする。これにより、まずは第2のノイズ除去処理によって画素ごとのノイズ除去判定が行われるため、境界領域である直線エッジは残り、該直線エッジの上もしくは隣接しているノイズのみが除去される。この状態で第1のノイズ除去処理を行うことで、境界領域である直線エッジについてはノイズと判定されることはない。

0100

また、第2実施形態を第1実施形態での処理後に実行する例を示したが、第2実施形態のみを実行することも可能である。この場合、S301のエッジ検出処理として、図5に示すS501,S502の処理を実行した後、図22に示すS2201〜S2206の処理を実行すればよい。

0101

<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータ可読な記録媒体に記録して提供してもよい。

0102

また、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

0103

401:撮影画像入力部、402:エッジ画像作成部、403:連結画素塊作成部、404:外接矩形作成部、405:外接矩形パラメータ比較部、406:第1ノイズ判定部、407:第1ノイズ除去部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ