図面 (/)

技術 モバイル画像キャプチャおよび処理のためのシステムならびに方法

出願人 コファックス,インコーポレイテッド
発明者 マッチオーラ,アンソニーアントラップ,ジャン・ウィラーズシュストロヴィッチ,アレクサンダースラッシャー,クリストファー・ダブリュ
出願日 2015年11月25日 (3年7ヶ月経過) 出願番号 2015-229466
公開日 2016年2月25日 (3年4ヶ月経過) 公開番号 2016-028363
状態 特許登録済
技術分野 文字入力
主要キーワード 部分セクション 遷移閾値 固有座標 繰返し頻度 セクション幅 段階的移動 補正分布 サブ動作
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年2月25日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

効率的な処理方法によって低計算コストを維持しつつ、モバイル機器を用いた画像キャプチャおよび処理と関連付けられる問題を補償および/または解決する画像キャプチャおよび処理アルゴリズムならびにそのアプリケーションを提供する。

解決手段

さまざまな実施形態において、モバイル機器によってキャプチャしたデジタル画像を処理するための方法、システム、およびコンピュータプログラム製品が開示される。多数の特徴が、他の方法では技術的に不可能であるか実用的でないようなモバイル機器を用いたそのようなデジタル画像の処理を可能におよび/または容易にし、さらに、従来の平床スキャナ、給紙スキャナまたは多機能周辺装置ではなくカメラを用いてキャプチャした画像によって提示される固有の課題に対処する。

概要

背景

発明の背景
手紙小切手請求書インボイス等の文書が中に描かれているデジタル画像は従来、ラップトップまたはデスクトップコンピュータなどのコンピュータワークステーションに結合されたスキャナまたは多機能周辺装置を用いてキャプチャおよび処理されている。そのようなキャプチャおよび処理を実行可能な方法ならびにシステムは当該技術において周知であり、それらが使用されるタスクによく適合している。

しかし、日々の活動、コンピューティングおよびビジネスがだんだんとモバイル機器を用いて行われつつある時代には、スマートフォンデジタルカメラタブレットコンピュータ等のモバイルプラットフォーム上で展開および使用する類似の文書キャプチャおよび処理システムならびに方法を提供することが非常に有益であろう。

従来の文書キャプチャおよび処理技術を移行させる際の大きな課題は、モバイル機器で現在使用可能なハードウェアを用いて達成可能な処理能力および画像解像度が限られていることである。従来のスキャナによって達成可能な解像度よりも典型的にはるかに低い解像度でキャプチャされた画像を処理することは不可能であるか実用的でないため、これらの制限は重要な課題を提起する。この結果、従来のスキャナを利用した処理アルゴリズムは典型的に、モバイル機器を用いてキャプチャしたデジタル画像に対する働きが悪い。

さらに、モバイル機器上で使用可能な処理およびメモリが限られているため、スキャナに使用される従来の画像処理アルゴリズム計算コストの点で法外に高額になってしまう。従来のスキャナを利用した画像処理アルゴリズムを処理しようとする試みは、現代のモバイルプラットフォーム上に実用化するには時間がかかり過ぎる。

モバイルキャプチャコンポーネント(たとえば携帯電話タブレット等のカメラ)の性質によってさらなる課題が提起される。従来のスキャナはデジタル画像内物理的文書アスペクト比、寸法および形状を決定的に維持しつつ当該デジタル画像内の物理的文書を忠実表現可能であるのに対して、モバイルキャプチャコンポーネントはそのような結果を生成不可能であることが多い。

具体的には、カメラによってキャプチャされた文書の画像は、スキャナによってキャプチャされた画像を扱う際には直面しない新たな一連の処理問題を提起する。これは一つには、文書画像を取得する方法、および装置が構成される方法における固有相違に起因する。いくつかのスキャナは、紙と直線センサアレイとの間の相対運動をもたらす搬送機構を用いて働く。これらのセンサは、文書が移動すると文書の画素値を生成し、これらのキャプチャされた一連の画素値が画像を形成する。したがって、一般にセンサ自体内に最大でノイズまでの水平方向または垂直方向一貫性があり、これは線内のすべての画素を提供するのと同じセンサである。

対照的に、カメラは非直線アレイの、たとえば典型的に矩形に配置された、より多くのセンサを有する。このように、これらの個々のセンサのすべてが独立しており、典型的に
水平方向または垂直方向の一貫性を有しない画像データをレンダリングする。また、カメラは、写真を撮る角度の関数である投影効果を引き起こす。たとえば、スキャナ内などのような直線アレイを用いると、紙の搬送がセンサのアライメントに対して完全に直交しておらずいくらかスキューが発生したとしても、カメラ内で起こるような投影効果は生じない。さらに、カメラキャプチャを用いると、カメラ光学部品のために非線形の歪みが発生し得る。

上記の課題に鑑みて、効率的な処理方法によって低計算コストを維持しつつ、モバイル機器を用いた画像キャプチャおよび処理と関連付けられる問題を補償および/または解決する画像キャプチャおよび処理アルゴリズムならびにそのアプリケーションを提供することが有益であるだろう。

概要

効率的な処理方法によって低計算コストを維持しつつ、モバイル機器を用いた画像キャプチャおよび処理と関連付けられる問題を補償および/または解決する画像キャプチャおよび処理アルゴリズムならびにそのアプリケーションを提供する。さまざまな実施形態において、モバイル機器によってキャプチャしたデジタル画像を処理するための方法、システム、およびコンピュータプログラム製品が開示される。多数の特徴が、他の方法では技術的に不可能であるか実用的でないようなモバイル機器を用いたそのようなデジタル画像の処理を可能におよび/または容易にし、さらに、従来の平床式スキャナ、給紙スキャナまたは多機能周辺装置ではなくカメラを用いてキャプチャした画像によって提示される固有の課題に対処する。B

目的

しかし、日々の活動、コンピューティングおよびビジネスがだんだんとモバイル機器を用いて行われつつある時代には、スマートフォン、デジタルカメラ、タブレットコンピュータ等のモバイルプラットフォーム上で展開および使用する類似の文書キャプチャおよび処理システムならびに方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文書デジタル表現を含むデジタル画像を処理するための方法であって、プロセッサを用いて複数の候補エッジ点を定義するステップを備え、各候補エッジ点を定義するステップは、デジタル画像内に1つ以上の大分析ウィンドウを定義するステップと、前記デジタル画像内に複数の小分析ウィンドウを定義するステップと、各大分析ウィンドウについて1つ以上の統計の分布推定するステップと、各小分析ウィンドウについて1つ以上の統計を計算するステップと、前記小分析ウィンドウの各々について計算した前記1つ以上の統計と、前記1つ以上の大分析ウィンドウについて推定した対応する統計の分布との間に、統計的に有意な差が存在するか否かを判断するステップと、前記統計的に有意な差が存在すると判断すると、前記統計的に有意な差が存在する各小分析ウィンドウ内の点を候補エッジ点に指定するステップとを含み、前記方法はさらに、前記複数の候補エッジ点に基づいて四角形の四辺を定義するステップと、前記文書のデジタル表現および前記四角形をモバイル機器ディスプレイに出力するステップとを備える、方法。

請求項2

前記文書のデジタル表現を含む画像データおよび前記文書のデジタル表現に関する音声データの1つ以上をキャプチャするステップをさらに備える、請求項1に記載の方法。

請求項3

前記文書のデジタル表現を含む画像データおよび前記文書のデジタル表現に関する音声データの1つ以上をキャプチャするステップは、前記モバイル機器に結合された1つ以上のキャプチャコンポーネントを用いて実行される、請求項2に記載の方法。

請求項4

前記画像データおよび前記音声データの1つ以上は、前記モバイル機器に結合されたコンピュータ読取可能な記録媒体からキャプチャされる、請求項2に記載の方法。

請求項5

前記小分析ウィンドウの1つについて前記統計的に有意な差が存在すると判断すると、新たな大分析ウィンドウを定義するステップと、前記新たな大分析ウィンドウについて前記統計の分布を再推定するステップと、前記小分析ウィンドウについて計算した前記1つ以上の統計と再推定した前記統計の分布との間に前記統計的に有意な差が存在するか否かを判断するステップとをさらに備える、請求項1に記載の方法。

請求項6

各小分析ウィンドウについて計算する前記統計は、最小輝度値最大輝度値、および輝度値範囲、の1つ以上を含み、各大分析ウィンドウについて推定する前記統計の分布は、色チャネル値最小の分布、色チャネル値最大の分布、および色チャネル値範囲の分布、の1つ以上を含む、請求項1に記載の方法。

請求項7

前記小分析ウィンドウを定義するステップは、経路に沿って各小分析ウィンドウを定義するステップを含み、前記経路は、前記デジタル画像の外側領域から前記デジタル画像の中心に向かって進む、請求項1に記載の方法。

請求項8

前記経路は、前記デジタル画像の1本以上の行および列に沿って進む、請求項7に記載の方法。

請求項9

少なくとも1つの大分析ウィンドウは前記画像の角領域を含む、請求項1に記載の方法。

請求項10

前記デジタル画像の背景テクスチャの1つ以上の変化をバイパスするステップをさらに備える、請求項1に記載の方法。

請求項11

各大分析ウィンドウは実質的な矩形状によって特徴付けられ、各小分析ウィンドウは実質的な矩形状によって特徴付けられる、請求項1に記載の方法。

請求項12

各小分析ウィンドウは1つの中心画素によって特徴付けられ、前記中心画素は、前記統計的に有意な差が存在すると判断すると、候補エッジ点に指定される、請求項1に記載の方法。

請求項13

前記四角形の各辺を定義するステップは、少なくとも1つの最小二乗平均(LMS)近似を実行するステップを含む、請求項1に記載の方法。

請求項14

前記複数の候補エッジ点から1つ以上のアウトライアー候補エッジ点を除去するステップをさらに備える、請求項13に記載の方法。

請求項15

前記1つ以上のアウトライアー候補エッジ点を除外する少なくとも1つの追加のLMS近似を実行するステップをさらに備える、請求項14に記載の方法。

請求項16

前記四角形の各辺は、あるクラスの関数から選択された方程式によって特徴付けられ、前記少なくとも1つのLMS近似を実行するステップは、各方程式について1つ以上の係数を求めるステップを含む、請求項14に記載の方法。

請求項17

前記四角形の辺を定義するステップは、前記文書のデジタル表現の各辺が、あるクラスの関数内に含まれるか否かを判断するステップを含む、請求項1に記載の方法。

請求項18

前記四角形の1つ以上の角を定義するステップをさらに備え、前記定義するステップは、2本の隣接辺同士の1つ以上の交点を計算するステップと、計算した前記1つ以上の交点から適切な交点を指定するステップとを含む、請求項1に記載の方法。

請求項19

前記四角形の一角は、前記四角形の2本の湾曲した隣接辺同士の交点を含む、請求項1に記載の方法。

請求項20

前記四角形の一角は、2本の実質的な直線同士の交点を含む、請求項1に記載の方法。

請求項21

前記四角形の一角は、1本の実質的な直線と1本の実質的な曲線との交点を含む、請求項1に記載の方法。

請求項22

前記四角形の一角は、1本の実質的な直線と1本の実質的な放物曲線との交点を含む、請求項1に記載の方法。

請求項23

前記四角形の一角は、2本の実質的な放物曲線同士の交点を含む、請求項1に記載の方法。

請求項24

四角形の1つ以上の角を定義するステップをさらに備え、前記定義するステップは、一次多項式、二次多項式、三次多項式、および四次多項式、の1つ以上を解くステップを含む、請求項1に記載の方法。

請求項25

前記四角形の面積は、前記デジタル画像の全面積の少なくとも閾値パーセンテージを含む、請求項1に記載の方法。

請求項26

第1の線が、前記四角形の計算された左上角と前記四角形の計算された右下角とを結び、第2の線が、前記四角形の計算された右上角と前記四角形の計算された左下角とを結び、前記第1の線と前記第2の線とは前記四角形の内部で交差する、請求項1に記載の方法。

請求項27

前記四角形が1つ以上の品質制御メトリックを満たすか否かを判断するステップと、前記四角形が前記1つ以上の品質制御メトリックを満たさないと判断すると前記四角形を拒絶するステップとをさらに備え、前記品質制御メトリックは、LMSサポートメトリック、最小四角形面積メトリック、四角形角位置メトリック、および四角形対角線交点位置メトリック、の1つ以上を含む、請求項1に記載の方法。

請求項28

前記複数の候補エッジ点に基づいて四角形の四辺を定義するステップによって妥当な四角形を定義できなかったというインジケーションを受信するステップと、前記複数の候補エッジ点を再定義するステップとをさらに備え、前記再定義するステップは、前記定義するステップでサンプリングした点の数よりも多い数の前記デジタル画像内の点をサンプリングするステップを含む、請求項1に記載の方法。

請求項29

前記デジタル画像の全体を前記文書のデジタル表現に指定するステップをさらに備える、請求項28に記載の方法。

請求項30

前記プロセッサはモバイル機器の一部であり、前記モバイル機器は内蔵カメラを有する、請求項1に記載の方法。

請求項31

デジタル画像内の文書のデジタル表現の1つ以上の空間特性修正するための方法であって、四角形を矩形に変形するステップを備え、前記四角形は複数の方程式によって特徴付けられ、各方程式は前記四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される、方法。

請求項32

前記変形するステップは、前記四角形を前記矩形に滑らかに伸ばすステップを含む、請求項31に記載の方法。

請求項33

前記変形するステップは、前記矩形の高さを求めるステップと、前記矩形の幅を求めるステップと、前記矩形のスキュー角を求めるステップと、前記矩形の中心位置を求めるステップとを含む、請求項31に記載の方法。

請求項34

前記変形するステップは、前記四角形の内部に複数の四角形に基づく固有座標対(p,q)を定義するステップを含み、各固有座標対(p,q)は、前記四角形の左辺に対応する方程式および前記四角形の右辺に対応する方程式から導出される方程式によって特徴付けられる上下曲線と、前記四角形の上辺に対応する方程式および前記四角形の下辺に対応する方程式から導出される方程式によって特徴付けられる左右曲線との交点に対応し、前記上下曲線の方程式は、前記四角形の左辺に対応する方程式の1つ以上の係数および前記四角形の右辺に対応する方程式の1つ以上の係数をp対(1−p)の比率組合わせることによって導出され、0≦p≦1であり、前記左右曲線の方程式は、前記四角形の上辺に対応する方程式の1つ以上の係数および前記四角形の下辺に対応する方程式の1つ以上の係数をq対(1−q)の比率で組合わせることによって導出され、0≦q≦1である、請求項31に記載の方法。

請求項35

前記四角形は実質的な矩形状によって特徴付けられる、請求項34に記載の方法。

請求項36

前記上下曲線を特徴付ける前記方程式は、x=((1−p)*a2+p*b2)*y2+((1−p)*a1+p*b1)*y+((1−p)*a0+p*b0)であり、前記左右曲線を特徴付ける前記方程式は、y=((1−q)*c2+q*d2)*x2+((1−q)*c1+q*d1)*x+((1−q)*c0+q*d0)である、請求項34に記載の方法。

請求項37

前記変形するステップはさらに、前記デジタル画像から矩形化デジタル画像を生成するステップと、前記矩形化デジタル画像内の複数の点についてp座標およびq座標を求めるステップとを含み、前記矩形の左に位置する各点はp座標値p<0を有し、前記矩形の右に位置する各点はp座標値p>1を有し、前記矩形の上に位置する各点はq座標値q<0を有し、前記矩形の下に位置する各点はq座標値q>1を有する、請求項31に記載の方法。

請求項38

前記変形するステップはさらに、前記デジタル画像から矩形化デジタル画像を生成するステップと、前記矩形化デジタル画像内の各点について矩形に基づく座標対を求めるステップと、矩形に基づく各座標対を、前記デジタル画像内の四角形に基づく同等の固有座標対と対応付けるステップとを含む、請求項31に記載の方法。

請求項39

前記対応付けるステップは、前記上下曲線と前記左右曲線との交点の反復探索を実行するステップを含み、前記反復探索は、開始点(x0,y0)を指定するステップと、前記開始点(x0,y0)を方程式x1=u2*y02+u1*y0+u0に基づく前記左右曲線に投影するステップと、次の点(x1,y0)を方程式y1=v2*x12+v1*x1+v0に基づく前記上下曲線に投影するステップとを含み、ui=(1−p)*ai+p*biであり、vi=(1−q)*ci+q*diである、請求項38に記載の方法。

請求項40

複数の点(xk,yk)を方程式xk+1=u2*yk2+u1*yk+u0に基づく前記左右曲線に反復的に投影するステップと、複数の点(xk+1,yk)を方程式yk+1=v2*xk+12+v1*xk+1+v0に基づく前記上下曲線に反復的に投影するステップとをさらに備える、請求項39に記載の方法。

請求項41

前記対応付けるステップはさらに、(xk,yk)と(xk+1,yk+1)との間の距離を求めるステップと、前記距離が予め定められた閾値未満であるか否かを判断するステップとを含む、請求項40に記載の方法。

請求項42

前記距離が前記予め定められた閾値未満であると判断すると前記反復探索を終了するステップをさらに備える、請求項41に記載の方法。

請求項43

前記四角形の左辺は二次多項式:x=a2*y2+a1*y+a0によって特徴付けられ、前記四角形の右辺は二次多項式:x=b2*y2+b1*y+b0によって特徴付けられ、前記四角形の上辺は二次多項式:y=c2*x2+c1*x+c0によって特徴付けられ、前記四角形の下辺は二次多項式:y=d2*x2+d1*x+d0によって特徴付けられる、請求項31に記載の方法。

請求項44

文書のデジタル表現内に照明問題が存在するか否かを判断するための方法であって、プロセッサを用いて、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの輝度値の分布を求めるステップと、各セクションの輝度値範囲を求めるステップと、各セクションの輝度値の変動を求めるステップと、各セクションが飽和であるか否かを判断するステップと、各セクションが不足であるか否かを判断するステップと、飽和セクションの数を求めるステップと、不足セクションの数を求めるステップと、セクションの総数に対する前記飽和セクションの数の比率が飽和閾値を超えていると判断すると、前記デジタル画像が飽和であると判断するステップと、セクションの総数に対する前記不足セクションの数の比率が不足閾値を超えていると判断すると、前記デジタル画像が不足であると判断するステップと、前記デジタル画像が不足および飽和のいずれか一方であると判断すると、前記デジタル画像内に前記照明問題が存在すると判断するステップとを備える、方法。

請求項45

各セクションについてセクション飽和率を求めるステップをさらに備え、各セクション飽和率は、前記セクション内の画素の総数で除算された前記セクション内の最大輝度値を示す画素の数を含む、請求項44に記載の方法。

請求項46

各セクションについて、前記セクションの飽和レベルが予め定められた閾値よりも大きいか否かを判断するステップと、前記セクションの飽和レベルが予め定められた閾値よりも大きいと判断すると、前記セクションを飽和であると特徴付けるステップとをさらに備える、請求項45に記載の方法。

請求項47

各セクションの前記輝度値の分布の中間変動を求めるステップと、各中間変動が予め定められた変動閾値よりも大きいか否かを判断するステップと、各セクションについて、前記セクションの前記中間変動が前記予め定められた変動閾値よりも大きいと判断すると、前記セクションが不足であると判断するステップとをさらに備える、請求項44に記載の方法。

請求項48

各セクションの前記輝度値範囲は、前記セクションの前記輝度値の分布内の最大特性輝度値と、前記セクションの前記輝度値の分布内の最少特性輝度値との差を含む、請求項44に記載の方法。

請求項49

各輝度値は0〜255の範囲内の整数値である、請求項44に記載の方法。

請求項50

前記変動を求めるステップは、前記複数の画素内の目標画素の輝度値を求めるステップと、前記目標画素の前記輝度値と1つ以上の隣接画素の輝度値との差を計算するステップとを含み、各隣接画素は前記目標画素から1画素以上離れており、前記変動を求めるステップはさらに、前記複数の画素内の各画素について前記求めるステップおよび前記計算するステップを繰返して各目標画素変動を得るステップと、目標画素変動値の分布を生成するステップとを含み、各目標画素変動値は0〜255の範囲内の整数である、請求項44に記載の方法。

請求項51

前記1つ以上の隣接画素は、垂直方向に沿って前記目標画素の5画素以内に配置される、請求項50に記載の方法。

請求項52

前記1つ以上の隣接画素は、水平方向に沿って前記目標画素の5画素以内に配置される、請求項50に記載の方法。

請求項53

前記目標画素変動値の分布から1つ以上の目標画素変動値を除去して補正分布を生成するステップと、前記補正分布に基づいて特性背景変動を定義するステップとをさらに備える、請求項50に記載の方法。

請求項54

各セクションについて、前記文書の高さを予め定義された数の水平方向のセクションに分割することによって、セクション高さを定義するステップと、前記文書の幅を予め定められた数の垂直方向のセクションに分割することによって、セクション幅を定義するステップとをさらに備える、請求項44に記載の方法。

請求項55

各セクションはセクション高さおよび幅によって特徴付けられ、前記デジタル画像は画像幅wおよび画像高さhによって特徴付けられ、h>=wであり、前記セクションのサイズはセクション幅wsおよびセクション高さhsによって特徴付けられ、ws=w/mであり、hs=h/nであり、mおよびnはwsがhsとほぼ等しいように定義される、請求項44に記載の方法。

請求項56

文書のデジタル表現内に照明問題が存在するか否かを判断するための方法であって、プロセッサを用いて、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの輝度値の分布を求めるステップと、各セクションの輝度値範囲を求めるステップと、各セクションの輝度値の変動を求めるステップと、各セクションについてセクション飽和率を求めるステップとを備え、各セクション飽和率は、前記セクション内の画素の総数で除算された前記セクション内の最大輝度値を示す画素の数を含み、前記方法はさらに、各セクションについて、前記セクションの飽和率が予め定められた飽和閾値よりも大きいか否かを判断するステップと、各セクションについて、前記セクションの飽和レベルが予め定められた飽和閾値よりも大きいと判断すると、前記セクションが飽和であると判断するステップと、各セクションについて、前記セクションの前記輝度値の分布の中間変動を求めるステップと、各中間変動が予め定められた中間変動閾値よりも大きいか否かを判断するステップと、各セクションについて、前記セクションの前記中間変動が前記予め定められた中間変動閾値よりも大きいと判断すると、前記セクションが不足であると判断するステップと、前記デジタル画像が不足および飽和のいずれか一方であると判断すると、前記デジタル画像内に前記照明問題が存在すると判断するステップとを備える、方法。

請求項57

前記プロセッサはモバイル機器の一部であり、前記モバイル機器は内蔵カメラを有する、請求項44に記載の方法。

請求項58

デジタル画像の1つ以上の領域内の照明の不均一を補正するための方法であって、プロセッサを用いて、前記デジタル画像から二次元照明モデルを導出するステップと、前記二次元照明モデルを前記デジタル画像内の各画素に適用するステップとを備える、方法。

請求項59

前記導出するステップは、プロセッサを用いて、前記デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの色チャネル値の分布を求めるステップとを含み、各色チャネル値の分布は複数の色チャネルの1つに対応し、前記導出するステップはさらに、各色チャネル値の分布について、対応する前記セクションの一次背景の平均色、および対応する前記セクションの二次背景の平均色、の1つ以上を求めるステップと、各セクションについて、前記一次背景の色および前記二次背景の色のいずれか一方を前記文書のデジタル表現の主要背景の局所表現に指定するステップとを含み、各局所表現は、対応する前記セクションの前記一次背景の前記平均色および対応する前記セクションの前記二次背景の前記平均色のいずれか一方によって特徴付けられる、請求項58に記載の方法。

請求項60

前記二次元照明モデルは、方程式v=ax2+bxy+cy2+dx+ey+fによって特徴付けられる二次多項式であり、vは前記複数の色チャネルのうちの1つの平均色チャネル値であり、a,b,c,d,eおよびfは前記二次元照明モデルの未知の各パラメータであり、未知の各パラメータa,b,c,d,eおよびfは最小二乗平均近似を用いて近似され、xは前記セクション内の中点画素のx座標であり、yは前記セクション内の中点画素のy座標である、請求項58に記載の方法。

請求項61

各セクションについて、複数の色クラスタを求めるステップと、複数の多数色クラスタを求めるステップとをさらに備え、多数色クラスタの各々は前記セクション内の表現高周波数に対応し、さらに、前記セクションの全面積を求めるステップと、複数の部分セクション面積を求めるステップとを備え、各部分セクション面積は前記複数の多数色クラスタの1つによって表される面積に対応し、さらに、各部分セクション面積を前記全面積で除算して、多数色クラスタの各々についてクラスタパーセンテージ面積を得るステップと、前記クラスタパーセンテージ面積に基づいて、多数色クラスタの各々を背景クラスタおよび非背景クラスタのいずれか一方に分類するステップとを備え、前記分類するステップは、前記セクション内に1つも背景を識別しない、前記セクション内に1つの最多数背景を識別する、および前記セクション内に2つの最多数背景を識別する、のいずれか1つである、請求項58に記載の方法。

請求項62

前記適用するステップは、複数の背景クラスタについて、各背景クラスタの平均色チャネル値を計算するステップと、各背景クラスタの色相比を計算するステップと、前記複数の背景クラスタの中間色相比を計算するステップとを含み、前記適用するステップはさらに、各背景クラスタの前記色相比を前記複数のクラスタの前記中間色相比と比較するステップと、当該比較に基づいて、最も予想される背景を局所表現として選択するステップと、複数の局所表現にわたる複数の平均主要背景色チャネル値を計算するステップと、1つ以上の予測される背景チャネル値と前記複数の平均主要背景色チャネル値との差を計算するステップと、前記差に分数乗算して分数の差を生成するステップと、前記デジタル画像内の各画素について、前記分数の差を1つ以上の色チャネル値に加算するステップとを含む、請項61に記載の方法。

請求項63

前記分数は0〜1の範囲内の値である、請求項62に記載の方法。

請求項64

前記分類するステップは、背景閾値よりも大きい数の画素を含むクラスタに属する各画素を背景画素に分類するステップを含む、請求項61に記載の方法。

請求項65

前記背景閾値は0〜100%の範囲内にある、請求項64に記載の方法。

請求項66

前記プロセッサはモバイル機器の一部であり、前記モバイル機器は内蔵カメラを有する、請求項58に記載の方法。

請求項67

文書のデジタル表現を含むデジタル画像の解像度を推定するための方法であって、前記デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するステップと、前記複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるステップと、前記複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるステップと、前記1つ以上の平均文字寸法に基づいて、前記デジタル画像の解像度を推定するステップとを備える、方法。

請求項68

前記デジタル画像の推定した前記解像度に基づいて、前記文書のデジタル表現の1つ以上の寸法を推定するステップと、前記文書のデジタル表現の推定した前記1つ以上の寸法を、複数の公知の文書種類の1つ以上の公知の寸法と比較するステップと、当該比較に基づいて、前記文書のデジタル表現を前記複数の公知の文書種類の1つ以上と対応付けるステップと、当該対応付けが1つ以上の品質制御基準を満たすか否かを判断するステップと、当該対応付けが前記1つ以上の品質制御基準を満たすと判断すると、前記公知の文書種類の前記公知の寸法に基づいて前記文書のデジタル表現の推定した前記解像度を調整するステップとをさらに備える、請求項67に記載の方法。

請求項69

1つ以上の接続されたコンポーネントについて、前記接続されたコンポーネント内のオンオフ遷移の数、前記接続されたコンポーネント内の黒画素密度、前記接続されたコンポーネントのアスペクト比、の1つ以上を算出するステップと、前記黒画素密度、前記オンオフ遷移の数、および前記アスペクト比、の1つ以上に基づいて、前記接続されたコンポーネントの1つ以上がテキスト文字を表す可能性を計算するステップとをさらに備える、請求項67に記載の方法。

請求項70

前記デジタル画像を2進化して2値画像を生成するステップをさらに備える、請求項67に記載の方法。

請求項71

前記平均文字寸法は、平均文字幅および平均文字高さを含む、請求項67に記載の方法。

請求項72

前記複数のテキスト文字の少なくとも2文字の文字高さを求めるステップと、少なくとも2つの前記テキスト文字の各文字高さに基づいて平均文字高さを計算するステップと、前記複数のテキスト文字の少なくとも2文字の文字幅を求めるステップと、少なくとも2つの前記テキスト文字の各文字幅に基づいて平均文字幅を計算するステップと、前記平均文字高さと参照平均文字高さとの比較、および前記平均文字幅と参照平均文字幅との比較からなるグループから選択される少なくとも1つの比較を実行するステップと、前記少なくとも1つの比較に基づいて前記デジタル画像の解像度を推定するステップとをさらに備え、前記参照平均文字高さおよび前記参照平均文字幅の各々は1つ以上の参照文字に対応し、各参照文字は公知の文字幅および公知の文字高さによって特徴付けられる、請求項67に記載の方法。

請求項73

各参照文字は、参照解像度で1つ以上の文書をスキャンすることによって得られる文字のデジタル表現に対応し、各参照文字は1つ以上の一般のフォントに対応する、請求項72に記載の方法。

請求項74

前記文書のデジタル表現の推定した前記解像度に基づいて、前記文書のデジタル表現の1つ以上の寸法を推定するステップと、前記平均文字寸法から平均文字幅を算出するステップと、前記平均文字寸法から平均文字高さを算出するステップと、前記平均文字幅を前記平均文字高さと比較するステップと、当該比較に基づいて前記文書のデジタル表現の向きを推定するステップと、推定した前記寸法および推定した前記向きに基づいて、前記文書のデジタル表現を公知の文書種類と対応付けるステップとをさらに備える、請求項67に記載の方法。

請求項75

1つ以上の前記公知の文書種類は、レターサイズ文書、リーガルサイズ文書、A3文書、A4(欧州レターサイズ)文書、A5文書、元帳タブイド紙文書運転免許証、業務用名刺個人小切手、業務用小切手、2.25インチ幅の領収書、および3.125インチ幅の領収書、の1つ以上を含む、請求項74に記載の方法。

請求項76

前記プロセッサはモバイル機器の一部であり、前記モバイル機器は内蔵カメラを有する、請求項67に記載の方法。

請求項77

プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションについて、前記セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、前記セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするステップと、前記セクションが前記第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するステップと、前記セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするステップと、前記セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、前記セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするステップと、前記セクションが前記第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するステップと、前記セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするステップと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、前記セクションがブランクであると判断するステップと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるステップと、すべての非ブランクセクションについて、第2の方向のブラー率r2=SS2/SB2を求めるステップと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに前記第1の方向にブラーがあると判断するステップと、r2が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに前記第2の方向にブラーがあると判断するステップと、非ブランクセクションに前記第1の方向にブラーがあること、および前記非ブランクセクションに前記第2の方向にブラーがあることの1つ以上を判断すると、前記非ブランクセクションにブラーがあると判断するステップとを含み、さらに、ブラーセクションの総数を求めるステップと、セクションの総数に対する前記ブラーセクションの総数を含む画像ブラー率Rを計算するステップと、前記画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、前記デジタル画像にブラーがあると判断するステップとを備える、方法。

請求項78

各セクションについて、前記複数の画素の輝度値の分布を求めるステップと、前記輝度値の分布の特性変動vを求めるステップと、vに基づいて顕著な輝度遷移閾値ηを計算するステップと、ηに基づいて大きい輝度遷移閾値μを計算するステップと、前記複数の画素内の各画素について、前記画素を囲むウィンドウ内の輝度変化方向パターン分析するステップと、当該分析に基づいて、前記鮮明な画素間遷移および前記ブラーがある画素間遷移の1つ以上を識別するステップとをさらに備える、請求項77に記載の方法。

請求項79

複数の中心画素を定義するステップと、各中心画素を囲む画素の1つ以上の小ウィンドウ内の前記複数の中心画素の各々を順次分析するステップと、前記中心画素のうちの1つの中心画素の直接近傍内に大きい輝度遷移が存在し、前記大きい輝度遷移の前に第1の小さい輝度変化が存在し、前記大きい輝度遷移の後に第2の小さい輝度変化が存在すると判断すると、前記鮮明な画素間遷移を識別するステップと、前記小ウィンドウの1つ以上の内部に前記大きい遷移が存在し、前記大きい遷移内に輝度単調変化が存在すると判断すると、前記鮮明な画素間遷移を検出するステップと、小ウィンドウ内に顕著な遷移が発生し、前記顕著な遷移内に輝度の単調変化が存在すると判断すると、前記ブラーがある画素間遷移を検出するステップとをさらに備える、請求項78に記載の方法。

請求項80

各セクションについて、1つ以上の選択方向の各々における鮮明な遷移の総数をカウントするステップと、各選択方向におけるブラー遷移の総数をカウントするステップと、前記鮮明な遷移の総数が予め定義された鮮明遷移閾値未満であり、前記ブラー遷移の総数が予め定義されたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するステップと、前記ブラー遷移の総数に対する前記鮮明な遷移の総数を含むセクションブラー率が前記選択方向の少なくとも1つにおいてセクションブラー率閾値未満であると判断すると、非ブランクセクションにブラーがあると判断するステップと、前記セクションがブランクでもなくブラーもないと判断すると、前記セクションが鮮明であると判断するステップとをさらに備える、請求項79に記載の方法。

請求項81

前記複数のセクション内のブランクセクションの総数(Nblank)を求めるステップと、前記複数のセクション内のブラーセクションの総数(Nblur)を求めるステップと、前記複数のセクション内の鮮明なセクションの総数(Nsharp)を求めるステップと、ブラー率(RB)=Nblur/(Nblur+Nsharp)を求めるステップと、RBがブラー閾値未満であれば前記デジタル画像が鮮明であると判断するステップとをさらに備える、請求項80に記載の方法。

請求項82

前記プロセッサはモバイル機器の一部であり、前記モバイル機器は内蔵カメラを有する、請求項77に記載の方法。

請求項83

デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するステップと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いて前記データをキャプチャするステップと、キャプチャした前記データを、前記モバイル機器のディスプレイ、前記モバイル機器のプロセッサ、および前記モバイル機器の記録媒体の1つ以上に出力するステップと、キャプチャした前記データの分析を求める要求を受信するステップと、当該分析要求の受信に応じて、キャプチャした前記データを前記モバイル機器を用いて分析するステップと、当該分析の結果を、前記モバイル機器の前記ディスプレイ、前記モバイル機器の前記プロセッサ、および前記モバイル機器の前記記録媒体の1つ以上に出力するステップとを備える、方法。

請求項84

1つ以上のキャプチャデータパラメータの修正を求める要求を受信するステップと、前記要求に応じて前記1つ以上のキャプチャデータパラメータを修正するステップとをさらに備え、前記1つ以上のキャプチャデータパラメータは、フラッシュ設定、キャプチャ安定度支援設定、キャプチャアライメント支援設定、ズームレベル、キャプチャ色モード、およびキャプチャデータ宛先、の1つ以上を含む、請求項83に記載の方法。

請求項85

キャプチャした前記データは文書のデジタル表現に対応し、前記分析するステップは、前記文書のデジタル表現の1つ以上の特性を1つ以上の品質制御メトリックと比較するステップと、当該比較に基づいて各特性が許容可能であるか否かを判断するステップと、各特性について、前記特性が許容可能であると判断すると、前記特性が許容可能であるというインジケーションを出力するステップと、前記特性が許容不可能であると判断すると、前記特性が許容不可能であるというインジケーションを出力するステップと、各特性が許容可能であると判断すると、前記文書のデジタル表現が許容可能であるというインジケーションを出力するステップとを備える、請求項83に記載の方法。

請求項86

前記1つ以上の品質制御メトリックは、ページ検出メトリック、照明メトリック、およびブラーメトリック、の1つ以上を含む、請求項85に記載の方法。

請求項87

前記モバイル機器のディスプレイを介して、前記特性が許容不可能であるというインジケーションを表示するステップと、当該表示に応じてデータの再キャプチャを指示する命令を受信するステップと、前記命令の受信に応じて前記データを再キャプチャするステップと、再キャプチャした前記データを出力するステップとをさらに備える、請求項85に記載の方法。

請求項88

前記モバイル機器のディスプレイを介して、前記特性が許容不可能であるというインジケーションを表示するステップと、当該表示に応じて、キャプチャした前記データの向上を指示する命令を受信するステップと、前記命令の受信に応じて、前記データを再キャプチャすることなく、キャプチャした前記データを向上させるステップと、向上させた前記データを出力するステップとをさらに備える、請求項85に記載の方法。

請求項89

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、前記文書のデジタル表現を前記モバイル機器のディスプレイに出力するステップと、前記文書のデジタル表現の修正を指示する命令に対応するユーザ入力を受信するステップとを備える、請求項83に記載の方法。

請求項90

キャプチャした前記データは文書のデジタル表現に対応し、前記分析するステップはさらに、前記文書のデジタル表現と1つ以上の公知の文書種類との比較を求める要求を受信するステップと、当該比較要求の受信に応じて、前記文書のデジタル表現の解像度を推定するステップと、推定した前記解像度を、各々が前記公知の文書種類の1つに対応する1つ以上の公知の解像度と相関付けるステップと、当該相関付けに基づいて推定した文書種類を出力するステップとを含む、請求項83に記載の方法。

請求項91

キャプチャした前記データは文書のデジタル表現に対応し、前記分析するステップはさらに、前記文書の内容を判断するために前記文書のデジタル表現を処理するステップと、前記内容に基づいて文書種類を判断するステップと、前記文書種類に基づいて前記文書のデジタル表現の解像度を求めるステップとを含む、請求項83に記載の方法。

請求項92

キャプチャした前記データに対応するメタデータを受信するステップと、前記メタデータをキャプチャした前記データと関連付けるステップとをさらに備え、前記メタデータは、1つ以上の英数字、1つ以上の記号、1つ以上の署名、および1つ以上のポインタ、の1つ以上に対応する、請求項83に記載の方法。

請求項93

前記キャプチャするステップは、前記モバイル機器の記録媒体から前記データを読取るステップを含む、請求項83に記載の方法。

請求項94

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、前記文書のデジタル表現の1つ以上の部分の歪みを補正するステップを備える、請求項83に記載の方法。

請求項95

1つ以上のアーティファクトを補正するステップは、前記文書のデジタル表現に対応する四角形を矩形に変形するステップを含み、前記四角形は複数の方程式によって特徴付けられ、各方程式は前記四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される、請求項94に記載の方法。

請求項96

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、前記文書のデジタル表現を検出するステップを備える、請求項83に記載の方法。

請求項97

キャプチャした前記データ内の前記文書のデジタル表現を検出するステップは、プロセッサを用いて、前記文書のデジタル表現に対応する複数の候補エッジ点を定義するステップと、前記複数の候補エッジ点に基づいて四角形の四辺を定義するステップと、前記文書のデジタル表現および前記四角形を前記モバイル機器の前記ディスプレイに出力するステップとを含む、請求項96に記載の方法。

請求項98

前記複数の候補エッジ点を定義するステップは、デジタル画像内に1つ以上の大分析ウィンドウを定義するステップと、前記デジタル画像内に複数の小分析ウィンドウを定義するステップと、各大分析ウィンドウについて1つ以上の統計の分布を推定するステップと、各小分析ウィンドウについて1つ以上の統計を計算するステップと、前記小分析ウィンドウの1つについて計算した前記1つ以上の統計と、前記大分析ウィンドウの1つについて推定した対応する統計の分布との間に、統計的に有意な差が存在するか否かを判断するステップと、前記統計的に有意な差が存在すると判断すると、前記小分析ウィンドウ内の点を候補エッジ点に指定するステップとを含む、請求項97に記載の方法。

請求項99

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、前記文書のデジタル表現内に1つ以上の照明問題が存在するか否かを判断するステップを備える、請求項83に記載の方法。

請求項100

前記1つ以上の照明問題が存在するか否かを判断するステップは、プロセッサを用いて、前記文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの輝度値の分布を求めるステップと、各セクションの輝度値範囲を求めるステップと、各セクションの輝度値の変動を求めるステップと、各セクションが飽和であるか否かを判断するステップと、各セクションが不足であるか否かを判断するステップと、飽和セクションの数を求めるステップと、不足セクションの数を求めるステップと、セクションの総数に対する前記飽和セクションの数の比率が飽和閾値を超えていると判断すると、キャプチャした前記データが飽和であると判断するステップと、セクションの総数に対する前記不足セクションの数の比率が不足閾値を超えていると判断すると、キャプチャした前記データが不足であると判断するステップと、キャプチャした前記データが不足および飽和のいずれか一方であると判断すると、キャプチャした前記データ内に1つ以上の照明問題が存在すると判断するステップとを含む、請求項99に記載の方法。

請求項101

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、前記文書のデジタル表現の1つ以上の領域内の照明の不均一を補正するステップを備える、請求項83に記載の方法。

請求項102

前記補正するステップは、プロセッサを用いて、前記文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの色チャネル値の分布を求めるステップとを含み、各色チャネル値の分布は複数の色チャネルの1つに対応し、前記補正するステップはさらに、各色チャネル値の分布について、対応する前記セクションの一次背景の平均色、および対応する前記セクションの二次背景の平均色、の1つ以上を求めるステップと、各セクションについて、前記一次背景の色および前記二次背景の色のいずれか一方を前記文書のデジタル表現の主要背景の局所表現に指定するステップとを含み、各局所表現は、対応する前記セクションの前記一次背景の前記平均色および対応する前記セクションの前記二次背景の前記平均色のいずれか一方によって特徴付けられ、前記補正するステップはさらに、前記二次元照明モデルをキャプチャした前記データに適用するステップを含む、請求項101に記載の方法。

請求項103

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、前記文書のデジタル表現の解像度を推定するステップを備える、請求項83に記載の方法。

請求項104

前記推定するステップは、キャプチャした前記データ内の複数の非背景要素の複数の接続されたコンポーネントを検出するステップと、前記複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるステップと、前記複数の予想される文字に基づいて、1つ以上の平均文字寸法を求めるステップと、前記1つ以上の平均文字寸法に基づいて、キャプチャした前記データの解像度を推定するステップとを含む、請求項103に記載の方法。

請求項105

キャプチャした前記データは文書のデジタル表現に対応し、前記方法はさらに、キャプチャした前記データが1つ以上のブラー領域を含むか否かを判断するステップを備える、請求項83に記載の方法。

請求項106

前記キャプチャした前記データが1つ以上のブラー領域を含むか否かを判断するステップは、プロセッサを用いて、前記文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションについて、前記セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、前記セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするステップと、前記セクションが前記第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するステップと、前記セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするステップと、前記セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、前記セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするステップと、前記セクションが前記第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するステップと、前記セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするステップと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、前記セクションがブランクであると判断するステップと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるステップと、すべての非ブランクセクションについて、第2の方向のブラー率r2=SS2/SB2を求めるステップと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに前記第1の方向にブラーがあると判断するステップと、r2が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに前記第2の方向にブラーがあると判断するステップと、非ブランクセクションに前記第1の方向にブラーがあること、および前記非ブランクセクションに前記第2の方向にブラーがあることの1つ以上を判断すると、前記非ブランクセクションにブラーがあると判断するステップとを含み、前記キャプチャした前記データが1つ以上のブラー領域を含むか否かを判断するステップはさらに、ブラーセクションの総数を求めるステップと、セクションの総数に対する前記ブラーセクションの総数を含む画像ブラー率Rを計算するステップと、前記画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、キャプチャした前記データがブラー領域を含むと判断するステップとを含む、請求項105に記載の方法。

請求項107

ケース管インターフェイスをモバイル機器のディスプレイに出力するステップと、1つ以上のケース行動に対応する1つ以上の命令を、表示された前記ケース管理インターフェイスを介して受信するステップとを備え、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、前記命令の受信に応じて前記1つ以上のケース行動を実行するステップを備える、方法。

請求項108

文書のデジタル表現を含む画像をキャプチャするための前記モバイル機器の前記ディスプレイにデータキャプチャインターフェイスを出力するステップと、前記データキャプチャインターフェイスを介して前記画像のキャプチャを求める要求をユーザから受信するステップと、前記要求の受信に応じて前記画像をキャプチャするステップとをさらに備え、前記キャプチャするステップは前記モバイル機器のキャプチャコンポーネントを用いて実行され、さらに、キャプチャした前記画像を1つ以上のケースと関連付けるステップを備える、請求項107に記載の方法。

請求項109

前記文書のデジタル表現を検出するステップをさらに備える、請求項108に記載の方法。

請求項110

前記画像内の前記文書のデジタル表現を検出するステップは、プロセッサを用いて、前記文書のデジタル表現に対応する複数の候補エッジ点を定義するステップと、前記複数の候補エッジ点に基づいて四角形の四辺を定義するステップと、前記文書のデジタル表現および前記四角形を前記モバイル機器の前記ディスプレイに出力するステップとを含む、請求項109に記載の方法。

請求項111

前記複数の候補エッジ点を定義するステップは、デジタル画像内に1つ以上の大分析ウィンドウを定義するステップと、前記デジタル画像内に複数の小分析ウィンドウを定義するステップと、各大分析ウィンドウについて1つ以上の統計の分布を推定するステップと、各小分析ウィンドウについて1つ以上の統計を計算するステップと、前記小分析ウィンドウの1つについて計算した前記1つ以上の統計と、前記大分析ウィンドウの1つについて推定した対応する統計の分布との間に、統計的に有意な差が存在するか否かを判断するステップと、前記統計的に有意な差が存在すると判断すると、前記小分析ウィンドウ内の点を候補エッジ点に指定するステップとを含む、請求項110に記載の方法。

請求項112

前記文書のデジタル表現の1つ以上の部分の1つ以上の歪みを補正するステップをさらに備える、請求項108に記載の方法。

請求項113

前記1つ以上の歪みを補正するステップは、前記文書のデジタル表現に対応する四角形を矩形に変形するステップを含み、前記四角形は複数の方程式によって特徴付けられ、各方程式は前記四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される、請求項112に記載の方法。

請求項114

前記文書のデジタル表現内に1つ以上の照明問題が存在するか否かを判断するステップをさらに備える、請求項108に記載の方法。

請求項115

前記1つ以上の照明問題が存在するか否かを判断するステップは、プロセッサを用いて、前記デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの輝度値の分布を求めるステップと、各セクションの輝度値範囲を求めるステップと、各セクションの輝度値の変動を求めるステップと、各セクションが飽和であるか否かを判断するステップと、各セクションが不足であるか否かを判断するステップと、飽和セクションの数を求めるステップと、不足セクションの数を求めるステップと、セクションの総数に対する前記飽和セクションの数の比率が飽和閾値を超えていると判断すると、前記デジタル画像が飽和であると判断するステップと、セクションの総数に対する前記不足セクションの数の比率が不足閾値を超えていると判断すると、前記デジタル画像が不足であると判断するステップと、前記デジタル画像が不足および飽和のいずれか一方であると判断すると、前記デジタル画像内に前記照明問題が存在すると判断するステップとを含む、請求項114に記載の方法。

請求項116

前記文書のデジタル表現の1つ以上の領域内の照明の不均一を補正するステップをさらに備える、請求項108に記載の方法。

請求項117

前記補正するステップは、前記デジタル画像から二次元照明モデルを導出するステップと、前記二次元照明モデルを前記デジタル画像内の各画素に適用するステップとを含む、請求項116に記載の方法。

請求項118

前記文書のデジタル表現の解像度を推定するステップをさらに備える、請求項108に記載の方法。

請求項119

前記推定するステップは、前記デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するステップと、前記複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるステップと、前記複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるステップと、前記1つ以上の平均文字寸法に基づいて、前記デジタル画像の解像度を推定するステップとを含む、請求項118に記載の方法。

請求項120

前記画像が1つ以上のブラー領域を含むか否かを判断するステップをさらに備える、請求項108に記載の方法。

請求項121

前記画像が1つ以上のブラー領域を含むか否かを判断するステップは、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションについて、前記セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、前記セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするステップと、前記セクションが前記第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するステップと、前記セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするステップと、前記セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、前記セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするステップと、前記セクションが前記第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するステップと、前記セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするステップと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、前記セクションがブランクであると判断するステップと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるステップと、すべての非ブランクセクションについて、第2の方向のブラー率r2=SS2/SB2を求めるステップと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに前記第1の方向にブラーがあると判断するステップと、r2が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに前記第2の方向にブラーがあると判断するステップと、非ブランクセクションに前記第1の方向にブラーがあること、および前記非ブランクセクションに前記第2の方向にブラーがあることの1つ以上を判断すると、前記非ブランクセクションにブラーがあると判断するステップとを含み、前記画像が1つ以上のブラー領域を含むか否かを判断するステップはさらに、ブラーセクションの総数を求めるステップと、セクションの総数に対する前記ブラーセクションの総数を含む画像ブラー率Rを計算するステップと、前記画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、前記デジタル画像にブラーがあると判断するステップとを含む、請求項120に記載の方法。

請求項122

認証インターフェイスを前記モバイル機器のディスプレイに出力するステップと、前記認証インターフェイスを介して認証データを受信するステップと、認証要求を受信するステップと、前記認証要求の受信に応じて、前記認証データが妥当であるか否かを判断するステップと、前記認証データが妥当であると判断すると、1つ以上の安全なケース行動へのアクセスを認めるステップと、前記認証データが妥当でないと判断すると、前記安全なケース行動へのアクセスを拒否するステップとをさらに備える、請求項108に記載の方法。

請求項123

前記ケース行動は、新たなケースを作成するステップと、既存のケースを開くステップと、前記既存のケースの1つ以上を削除するステップと、ケース種類を指定するステップと、ケース情報をキャプチャするステップと、画像データおよびビデオデータのいずれか一方を含む、文書のデジタル表現に対応するデータをキャプチャするステップと、キャプチャした前記データを前記モバイル機器の前記ディスプレイに出力するステップと、キャプチャした前記データを前記新たなケースおよび前記既存のケースの1つ以上と関連付けるステップと、キャプチャした前記データを前記新たなケースおよび前記既存のケースの1つ以上から分離するステップと、キャプチャした前記データを処理するステップと、処理した前記データを前記モバイル機器の前記ディスプレイに出力するステップと、前記モバイル機器の前記ディスプレイを介してユーザ入力を受信するステップと、前記新たなケースおよび前記既存のケースの1つ以上をリモートサーバ提出するステップとを含む、請求項107に記載の方法。

請求項124

前記キャプチャするステップは、前記モバイル機器の前記ディスプレイを介してユーザ入力を受信するステップと、前記ユーザ入力に応じて前記モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするステップとを含む、請求項123に記載の方法。

請求項125

前記キャプチャするステップは、前記モバイル機器の前記ディスプレイを介してユーザ入力を受信するステップと、前記ユーザ入力に応じて前記モバイル機器のコンピュータ読取可能な記録媒体から前記データを読取るステップとを含む、請求項123に記載の方法。

請求項126

前記ユーザ入力は、前記新たなケースおよび前記既存のケースの1つ以上に関連するメタデータに対応し、前記方法はさらに、前記メタデータを、前記新たなケースおよび前記既存のケースの1つ以上と関連付けるステップを備え、前記メタデータは、1つ以上の英数字、1つ以上の記号、1つ以上の署名、および1つ以上のポインタ、の1つ以上を含む、請求項123に記載の方法。

請求項127

前記ケース種類を指定するステップは、複数の可能性のあるケース種類を前記モバイル機器の前記ディスプレイに表示するステップと、前記モバイル機器の前記ディスプレイを介してユーザ入力を受信するステップとを含み、前記ユーザ入力は、前記複数の可能性のあるケース種類の1つが所望のケース種類であることを示し、前記指定するステップはさらに、前記ケース種類を前記所望のケース種類に指定するステップを含む、請求項123に記載の方法。

請求項128

前記可能性のあるケース種類は、保険金請求ローン申請配達証明未定義のケース種類、新規口座開設、教育プログラム申込み医療記録経費管理、事故報告書、およびユーザが定義したケース種類を含む、請求項127に記載の方法。

請求項129

前記ケース情報は、デジタル署名電子署名、および手書きの署名の1つ以上を含む、請求項123に記載の方法。

請求項130

前記処理するステップは、キャプチャした前記データ内の前記文書のデジタル表現を検出するステップと、前記文書のデジタル表現が矩形状によって特徴付けられるか否かを判断するステップと、前記文書のデジタル表現がスキュー角≠0°によって特徴付けられるか否かを判断するステップと、前記文書のデジタル表現が矩形状および前記スキュー角≠0°によって特徴付けられないと判断すると、前記文書のデジタル表現を、スキュー角=0°によって特徴付けられる前記文書の実質的に矩形状のデジタル表現に変形するステップとを含む、請求項123に記載の方法。

請求項131

前記処理するステップはさらに、前記文書のデジタル表現の解像度を推定するステップと、推定した前記解像度に基づいて、前記文書のデジタル表現を公知の文書種類と対応付けるステップとを含む、請求項130に記載の方法。

請求項132

前記処理するステップはさらに、実質的に矩形状の、デスキューされた前記文書のデジタル表現が1つ以上の問題のある照明領域によって特徴付けられるか否かを判断するステップと、実質的に矩形状の、デスキューされた前記文書のデジタル表現が1つ以上の問題のある照明領域によって特徴付けられると判断すると、プレビューインターフェイスを前記モバイル機器の前記ディスプレイに出力するステップと、前記モバイル機器の前記ディスプレイを介して、前記1つ以上の問題のある照明領域に関するユーザ入力を受信するステップと、1つ以上の不均一に照明された領域に関する前記ユーザ入力に応じて、前記1つ以上の不均一に照明された領域を補正するステップとを含む、請求項130に記載の方法。

請求項133

前記処理するステップはさらに、実質的に矩形状の、デスキューされた前記文書のデジタル表現が1つ以上のブラー領域によって特徴付けられるか否かを判断するステップと、実質的に矩形状の、デスキューされた前記文書のデジタル表現が1つ以上のブラー領域によって特徴付けられると判断すると、プレビューインターフェイスを前記モバイル機器の前記ディスプレイに出力するステップと、前記モバイル機器の前記ディスプレイを介して、前記1つ以上のブラー領域に関するユーザ入力を受信するステップと、前記1つ以上のブラー領域に関する前記ユーザ入力に応じて、1つ以上のブラー領域によって特徴付けられる実質的に矩形状の、デスキューされた前記デジタル表現を受付ける、拒絶する、または再処理するステップとを含む、請求項130に記載の方法。

請求項134

前記ケース行動は、1つ以上のケースに関する1つ以上の文書を印刷するステップを含み、前記印刷するステップは、前記モバイル機器からリモートリソース印刷要求を提出するステップを含み、前記リモートリソースおよび前記モバイル機器はローカルネットワークを介して通信しておらず、前記印刷するステップはさらに、前記印刷要求に応じて、前記リモートリソースを用いてリモート位置で前記1つ以上の文書を印刷するステップを含む、請求項107に記載の方法。

請求項135

前記1つ以上のケース行動を実行するステップは前記モバイル機器のプロセッサを利用し、前記モバイル機器は内蔵カメラを有する、請求項107に記載の方法。

請求項136

ロジックおよび/またはいずれかの先行する請求項に記載の方法を実行するためのロジックを実行するように構成されたプロセッサを備える、システム

請求項137

コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を備えるコンピュータプログラム製品であって、前記コンピュータ読取可能なプログラムコードは、いずれかの先行する請求項に記載の方法を実行するように構成されている、コンピュータプログラム製品。

技術分野

0001

発明の分野
本発明は画像キャプチャおよび画像処理に関し、特にモバイル機器を用いたデジタル画像キャプチャおよび処理に関する。

背景技術

0002

発明の背景
手紙小切手請求書インボイス等の文書が中に描かれているデジタル画像は従来、ラップトップまたはデスクトップコンピュータなどのコンピュータワークステーションに結合されたスキャナまたは多機能周辺装置を用いてキャプチャおよび処理されている。そのようなキャプチャおよび処理を実行可能な方法ならびにシステムは当該技術において周知であり、それらが使用されるタスクによく適合している。

0003

しかし、日々の活動、コンピューティングおよびビジネスがだんだんとモバイル機器を用いて行われつつある時代には、スマートフォンデジタルカメラタブレットコンピュータ等のモバイルプラットフォーム上で展開および使用する類似の文書キャプチャおよび処理システムならびに方法を提供することが非常に有益であろう。

0004

従来の文書キャプチャおよび処理技術を移行させる際の大きな課題は、モバイル機器で現在使用可能なハードウェアを用いて達成可能な処理能力および画像解像度が限られていることである。従来のスキャナによって達成可能な解像度よりも典型的にはるかに低い解像度でキャプチャされた画像を処理することは不可能であるか実用的でないため、これらの制限は重要な課題を提起する。この結果、従来のスキャナを利用した処理アルゴリズムは典型的に、モバイル機器を用いてキャプチャしたデジタル画像に対する働きが悪い。

0005

さらに、モバイル機器上で使用可能な処理およびメモリが限られているため、スキャナに使用される従来の画像処理アルゴリズム計算コストの点で法外に高額になってしまう。従来のスキャナを利用した画像処理アルゴリズムを処理しようとする試みは、現代のモバイルプラットフォーム上に実用化するには時間がかかり過ぎる。

0006

モバイルキャプチャコンポーネント(たとえば携帯電話タブレット等のカメラ)の性質によってさらなる課題が提起される。従来のスキャナはデジタル画像内物理的文書アスペクト比、寸法および形状を決定的に維持しつつ当該デジタル画像内の物理的文書を忠実表現可能であるのに対して、モバイルキャプチャコンポーネントはそのような結果を生成不可能であることが多い。

0007

具体的には、カメラによってキャプチャされた文書の画像は、スキャナによってキャプチャされた画像を扱う際には直面しない新たな一連の処理問題を提起する。これは一つには、文書画像を取得する方法、および装置が構成される方法における固有相違に起因する。いくつかのスキャナは、紙と直線センサアレイとの間の相対運動をもたらす搬送機構を用いて働く。これらのセンサは、文書が移動すると文書の画素値を生成し、これらのキャプチャされた一連の画素値が画像を形成する。したがって、一般にセンサ自体内に最大でノイズまでの水平方向または垂直方向一貫性があり、これは線内のすべての画素を提供するのと同じセンサである。

0008

対照的に、カメラは非直線アレイの、たとえば典型的に矩形に配置された、より多くのセンサを有する。このように、これらの個々のセンサのすべてが独立しており、典型的に
水平方向または垂直方向の一貫性を有しない画像データをレンダリングする。また、カメラは、写真を撮る角度の関数である投影効果を引き起こす。たとえば、スキャナ内などのような直線アレイを用いると、紙の搬送がセンサのアライメントに対して完全に直交しておらずいくらかスキューが発生したとしても、カメラ内で起こるような投影効果は生じない。さらに、カメラキャプチャを用いると、カメラ光学部品のために非線形の歪みが発生し得る。

0009

上記の課題に鑑みて、効率的な処理方法によって低計算コストを維持しつつ、モバイル機器を用いた画像キャプチャおよび処理と関連付けられる問題を補償および/または解決する画像キャプチャおよび処理アルゴリズムならびにそのアプリケーションを提供することが有益であるだろう。

先行技術

0010

特開2011−055467号公報
特開平07−260701号公報
特開2006−031379号公報
特開平11−118444号公報
特開2011−034387号公報

課題を解決するための手段

0011

発明の要約
一実施形態では、文書のデジタル表現(representation)を含むデジタル画像を処理するための方法は、プロセッサを用いて複数の候補エッジ点を定義するステップを含み、各候補エッジ点を定義するステップは、デジタル画像内に1つ以上の大分析ウィンドウを定義するステップと、デジタル画像内に複数の小分析ウィンドウを定義するステップと、各大分析ウィンドウについて1つ以上の統計の分布推定するステップと、各小分析ウィンドウについて1つ以上の統計を計算するステップと、小分析ウィンドウの各々について計算した1つ以上の統計と、1つ以上の大分析ウィンドウについて推定した対応する統計の分布との間に、統計的に有意な差が存在するか否かを判断するステップと、統計的に有意な差が存在すると判断すると、統計的に有意な差が存在する各小分析ウィンドウ内の点を候補エッジ点に指定するステップとを含み、方法はさらに、複数の候補エッジ点に基づいて四角形の四辺を定義するステップと、文書のデジタル表現および四角形をモバイル機器のディスプレイに出力するステップとを含む。

0012

別の実施形態では、システムは、ロジックと、四角形を矩形に変形するためのロジックとを実行するように構成されたプロセッサを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0013

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、四角形を矩形に変形するように構成されたコンピュータ読取可能なプログラムコードを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0014

別の実施形態では、デジタル画像内の文書のデジタル表現の1つ以上の空間特性修正するための方法は、四角形を矩形に変形するステップを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0015

別の実施形態では、システムは、ロジックと、および四角形を矩形に変形するためのロジックとを実行するように構成されたプロセッサ含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0016

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログ
ムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、四角形を矩形に変形するように構成されたコンピュータ読取可能なプログラムコードを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0017

別の実施形態では、文書のデジタル表現内に照明問題が存在するか否かを判断するための方法は、プロセッサを用いて、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの輝度値の分布を求めるステップと、各セクションの輝度値範囲を求めるステップと、各セクションの輝度値の変動を求めるステップと、各セクションが飽和(oversaturated)
であるか否かを判断するステップと、各セクションが不足(undersaturated)であるか否かを判断するステップと、飽和セクションの数を求めるステップと、不足セクションの数を求めるステップと、セクションの総数に対する飽和セクションの数の比率飽和閾値を超えていると判断すると、デジタル画像が飽和であると判断するステップと、セクションの総数に対する不足セクションの数の比率が不足閾値を超えていると判断すると、デジタル画像が不足であると判断するステップと、デジタル画像が不足および飽和のいずれか一方であると判断すると、デジタル画像内に照明問題が存在すると判断するステップとを含む。

0018

別の実施形態では、システムは、ロジックと、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するためのロジックと、各セクションの輝度値の分布を求めるためのロジックと、各セクションの輝度値範囲を求めるためのロジックと、各セクションの輝度値の変動を求めるためのロジックと、各セクションが飽和であるか否かを判断するためのロジックと、各セクションが不足であるか否かを判断するためのロジックと、飽和セクションの数を求めるためのロジックと、不足セクションの数を求めるためのロジックと、セクションの総数に対する飽和セクションの数の比率が飽和閾値を超えていると判断すると、デジタル画像が飽和であると判断するためのロジックと、セクションの総数に対する不足セクションの数の比率が不足閾値を超えていると判断すると、デジタル画像が不足であると判断するためのロジックと、デジタル画像が不足および飽和のいずれか一方であると判断すると、デジタル画像内に照明問題が存在すると判断するためのロジックとを実行するように構成されたプロセッサを含む。

0019

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するように構成されたコンピュータ読取可能なプログラムコードと、各セクションの輝度値の分布を求めるように構成されたコンピュータ読取可能なプログラムコードと、各セクションの輝度値範囲を求めるように構成されたコンピュータ読取可能なプログラムコードと、各セクションの輝度値の変動を求めるように構成されたコンピュータ読取可能なプログラムコードと、各セクションが飽和であるか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、各セクションが不足であるか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、飽和セクションの数を求めるように構成されたコンピュータ読取可能なプログラムコードと、不足セクションの数を求めるように構成されたコンピュータ読取可能なプログラムコードと、セクションの総数に対する飽和セクションの数の比率が飽和閾値を超えていると判断すると、デジタル画像が飽和であると判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションの総数に対する不足セクションの数の比率が不足閾値を超えていると判断すると、デジタル画像が不足であると判断するように構成されたコンピュータ読取可能なプログラムコードと、デジタル画像が不足および飽
和のいずれか一方であると判断すると、デジタル画像内に照明問題が存在すると判断するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0020

別の実施形態では、デジタル画像の1つ以上の領域内の照明の不均一を補正するための方法は、プロセッサを用いて、デジタル画像から二次元照明モデル導出するステップと、二次元照明モデルをデジタル画像内の各画素に適用するステップとを含む。

0021

別の実施形態では、システムは、ロジックと、デジタル画像から二次元照明モデルを導出するためのロジックと、二次元照明モデルをデジタル画像内の各画素に適用するためのロジックとを実行するように構成されたプロセッサを含む。

0022

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像から二次元照明モデルを導出するように構成されたコンピュータ読取可能なプログラムコードと、二次元照明モデルをデジタル画像内の各画素に適用するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0023

別の実施形態では、文書のデジタル表現を含むデジタル画像の解像度を推定するための方法は、デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するステップと、複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるステップと、複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるステップと、1つ以上の平均文字寸法に基づいて、デジタル画像の解像度を推定するステップとを含む。

0024

別の実施形態では、システムは、ロジックと、デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するためのロジックと、複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるためのロジックと、複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるためのロジックと、1つ以上の平均文字寸法に基づいて、デジタル画像の解像度を推定するためのロジックとを実行するように構成されたプロセッサを含む。

0025

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するように構成されたコンピュータ読取可能なプログラムコードと、複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるように構成されたコンピュータ読取可能なプログラムコードと、複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるように構成されたコンピュータ読取可能なプログラムコードと、1つ以上の平均文字寸法に基づいて、デジタル画像の解像度を推定するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0026

別の実施形態では、方法は、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションについて、セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするステップと、セクションが第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するステップと、セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするステップと、セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするステップと、
セクションが第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するステップと、セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするステップと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するステップと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるステップと、すべての非ブランクセクションについて、第2
の方向のブラー率r2=SS2/SB2を求めるステップと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに第1の方向にブラーがあると判断するステップと、r2が予め定義されたセクションブラー率閾値未満であると判
断すると、非ブランクセクションに第2の方向にブラーがあると判断するステップと、非ブランクセクションに第1の方向にブラーがあること、および非ブランクセクションに第2の方向にブラーがあることの1つ以上を判断すると、非ブランクセクションにブラーがあると判断するステップとを含み、さらに、ブラーセクションの総数を求めるステップと、セクションの総数に対するブラーセクションの総数を含む画像ブラー率Rを計算するステップと、画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、デジタル画像にブラーがあると判断するステップとを含む。

0027

別の実施形態では、システムは、ロジックと、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するためのロジックと、セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するためのロジックと、セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするためのロジックと、セクションが第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するためのロジックと、セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするためのロジックと、セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するためのロジックと、セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするためのロジックと、セクションが第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するためのロジックと、セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするためのロジックと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するためのロジックと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求める
ためのロジックと、すべての非ブランクセクションについて、第2の方向のブラー率r2
=SS2/SB2を求めるためのロジックと、r1が予め定義されたセクションブラー率閾値
未満であると判断すると、非ブランクセクションに第1の方向にブラーがあると判断するためのロジックと、r2が予め定義されたセクションブラー率閾値未満であると判断する
と、非ブランクセクションに第2の方向にブラーがあると判断するためのロジックと、非ブランクセクションに第1の方向にブラーがあること、および非ブランクセクションに第2の方向にブラーがあることの1つ以上を判断すると、非ブランクセクションにブラーがあると判断するためのロジックと、さらに、ブラーセクションの総数を求めるためのロジックと、セクションの総数に対するブラーセクションの総数を含む画像ブラー率Rを計算するためのロジックと、画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、デジタル画像にブラーがあると判断するためのロジックとを実行するように構成されたプロセッサを含む。

0028

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四
角形を、各々が複数の画素を含む複数のセクションに分割するように構成されたコンピュータ読取可能なプログラムコードと、セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、セクションが第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、セクションが第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するように構成されたコンピュータ読取可能なプログラムコードと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるように構成されたコンピュ
タ読取可能なプログラムコードと、すべての非ブランクセクションについて、第2の方向のブラー率r2=SS2/SB2を求めるように構成されたコンピュータ読取可能なプログラ
ムコードと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非
ブランクセクションに第1の方向にブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードと、r2が予め定義されたセクションブラー率閾値未満で
あると判断すると、非ブランクセクションに第2の方向にブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードと、非ブランクセクションに第1の方向にブラーがあること、および非ブランクセクションに第2の方向にブラーがあることの1つ以上を判断すると、非ブランクセクションにブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードと、さらに、ブラーセクションの総数を求めるように構成されたコンピュータ読取可能なプログラムコードと、セクションの総数に対するブラーセクションの総数を含む画像ブラー率Rを計算するように構成されたコンピュータ読取可能なプログラムコードと、画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、デジタル画像にブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0029

別の実施形態では、方法は、デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するステップと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするステップと、キャプチャしたデータを、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するステップと、キャプチャしたデータの分析を求める要求を受信するステップと、当該分析要求の受信に応じて、キャプチャしたデータをモバイル機器を用いて分析するステップと、当該分析の結果を、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するステップとを含む。

0030

別の実施形態では、システムは、ロジックと、デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するためのロジックと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするためのロジックと、キャプチャしたデータを、モバイル機器のディスプレイ
、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するためのロジックと、キャプチャしたデータの分析を求める要求を受信するためのロジックと、当該分析要求の受信に応じて、キャプチャしたデータをモバイル機器を用いて分析するためのロジックと、当該分析の結果を、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するためのロジックとを実行するように構成されたプロセッサを含む。

0031

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するように構成されたコンピュータ読取可能なプログラムコードと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするように構成されたコンピュータ読取可能なプログラムコードと、キャプチャしたデータを、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するように構成されたコンピュータ読取可能なプログラムコードと、キャプチャしたデータの分析を求める要求を受信するように構成されたコンピュータ読取可能なプログラムコードと、当該分析要求の受信に応じて、キャプチャしたデータをモバイル機器を用いて分析するように構成されたコンピュータ読取可能なプログラムコードと、当該分析の結果を、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0032

別の実施形態では、方法は、ケース管インターフェイスをモバイル機器のディスプレイに出力するステップと、1つ以上のケース行動に対応する1つ以上の命令を、表示されたケース管理インターフェイスを介して受信するステップとを含み、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、命令の受信に応じて1つ以上のケース行動を実行するステップを含む。

0033

別の実施形態では、システムは、ロジックと、ケース管理インターフェイスをモバイル機器のディスプレイに出力するためのロジックと、1つ以上のケース行動に対応する1つ以上の命令を、表示されたケース管理インターフェイスを介して受信するためのロジックと、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、命令の受信に応じて1つ以上のケース行動を実行するためのロジックを実行するように構成されたプロセッサを含む。

0034

別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、ケース管理インターフェイスをモバイル機器のディスプレイに出力するように構成されたコンピュータ読取可能なプログラムコードと、1つ以上のケース行動に対応する1つ以上の命令を、表示されたケース管理インターフェイスを介して受信するように構成されたコンピュータ読取可能なプログラムコードと、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、命令の受信に応じて1つ以上のケース行動を実行するように構成されたコンピュータ読取可能なプログラムコードを含む。

図面の簡単な説明

0035

一実施形態に従う、ネットワークアーキテクチャを示す図である。
一実施形態に従う、図1サーバおよび/またはクライアントと関連付けられ得る代表的なハードウェア環境を示す図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像の概略図である。
一実施形態に係る、文書のデジタル表現および複数のページ検出分析ウィンドウを含むデジタル画像の概略図である。
一実施形態に係る、複数の候補エッジ点によって特徴付けられる文書のデジタル表現を含むデジタル画像の概略図である。
一実施形態に係る、デジタル画像の複数の画素を含む大分析ウィンドウと大分析ウィンドウの中の小分析ウィンドウとの概略図である。
一実施形態に係る、目標四角形によって境界を付けられた文書のデジタル表現を含むデジタル画像の概略図である。
一実施形態に係る、ページ矩形化アルゴリズムの第1の反復のグラフ表現の図である。
一実施形態に係る、ページ矩形化アルゴリズムへの入力のグラフ表現の図である。
一実施形態に係る、ページ矩形化アルゴリズムの出力のグラフ表現の図である。
一実施形態に係る、デジタル画像内の文書のデジタル表現のスキューを検出および/または補正する1つのアルゴリズム的アプローチのグラフ表現の図である。
一実施形態に係る、不均一な照明によって特徴付けられる文書のデジタル表現を含むデジタル画像の図的表現の図である。
一実施形態に係る、不均一な照明を正規化した後の図7Aに示されるようなデジタル画像の出力の図的表現の図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像を示す図である。
一実施形態に係る、デジタル画像に対してページ検出アルゴリズムを実行した後の図8Aに示されるようなデジタル画像であって、文書の検出されたデジタル表現を内部に有するデジタル画像を示す図である。
一実施形態に係る、デジタル画像の背景が除去され、かつ文書のデジタル表現のスキュー角が補正された、図8Bに示されるような文書のデジタル表現を示す図である。
2値画像を生成するために文書のデジタル表現が閾値化された、図8Cに示されるような文書のデジタル表現の図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するための方法のフローチャートの図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのユーザ認証インターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのホスト接続ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケース作成ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケースオブジェクト管理ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケースオブジェクト管理ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケース管理行動ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのオブジェクト削除ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのオブジェクト編集ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのオブジェクト編集行動ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのオブジェクトクロップユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのオブジェクト制約ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケース種類管理ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケースデータ入力ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの署名キャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケース提出ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのケース印刷ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのプリンタ選択ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの詳細印刷ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのジョブ印刷ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの画像キャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの画像キャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの画像キャプチャQC結果ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの画像アタッチメントキャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの音声アタッチメントキャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのビデオアタッチメントキャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションのモバイルスキャナ画像キャプチャユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの設定ユーザインターフェイスの概略図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像をキャプチャおよび/または処理するためのアプリケーションの通知ユーザインターフェイスの概略図である。
一実施形態に係る、ページ検出のための方法のフローチャートの図である。
一実施形態に係る、ページ矩形化のための方法のフローチャートの図である。
一実施形態に係る、照明問題を検出するための方法のフローチャートの図である。
一実施形態に係る、照明問題を補正するための方法のフローチャートの図である。
一実施形態に係る、文書のデジタル表現を含むデジタル画像の解像度を推定するための方法のフローチャートの図である。
一実施形態に係る、デジタル画像内のブラーを検出するための方法のフローチャートの図である。
一実施形態に係る、デジタル画像内のブラーを検出するための方法のフローチャートの図である。
一実施形態に係る、画像処理アプリケーション機能を提供するための方法のフローチャートの図である。
一実施形態に係る、ケース管理アプリケーション機能を提供するための方法のフローチャートの図である。

実施例

0036

詳細な説明
以下の説明は本発明の一般原理を示す目的でなされ、ここに特許請求の範囲として記載される発明の概念を限定することを意図していない。さらに、ここに記載される特定の特徴は、さまざまな可能な組合わせおよび順列の各々において、他の記載される特徴と組合わせて使用され得る。

0037

ここに特に具体的に定義されない限り、すべての用語は、明細書から暗示される意味、ならびに当業者によって理解される、および/または辞書全書等に定義される意味を含む、できる限り広範な解釈を与えられるものとする。

0038

また、明細書および添付の特許請求の範囲において使用されるように、単数形の「a」、「an」および「the」は特に定めのない限り複数の指示対象を含むことを留意しなければならない。

0039

本願は、カメラ、特にモバイル機器のカメラによってキャプチャされた画像(たとえば写真、図面、グラフ図、映画、ビデオ、フィルムクリップ単一フレーム等)の画像処理について述べる。ここに理解されるように、モバイル機器とは、物理的接続(たとえばワイヤ、コード、ケーブル等)を介して電力を供給されずにデータを受信可能であり、かつ物理的なデータ接続(たとえばワイヤ、コード、ケーブル等)なしでデータを受信可能な任意の機器である。本開示の範囲内のモバイル機器は、携帯電話、スマートフォン、タブレット、携帯情報端末、iPod(登録商標)、iPad(登録商標)、BLACKBERRY(登録商標)機器等の例示的な機器を含む。

0040

しかし、さまざまな機能の説明から明らかになるように、本開示のモバイル画像処理アルゴリズムは、場合によっては一定の修正を伴って、スキャナおよび多機能周辺装置(MFP)から得られる画像に適用され得る。同様に、いくつかのアプローチでは、本開示の処理アルゴリズムを用いて処理される画像は、従来のスキャナ処理アルゴリズムを用いてさらに処理され得る。

0041

もちろん、ここに記述されるさまざまな実施形態は、ハードウェア、ソフトウェア、またはそれらの任意の所望の組合せを利用して実現され得る。そのことについて、ここに記述されるさまざまな機能を実現可能な任意の種類のロジックが利用され得る。

0042

モバイル機器を用いる1つの利点は、データプランを用いて、キャプチャ画像に基づく画像処理および情報処理が、スキャナの存在に依拠する以前の方法よりもはるかに便利で能率化および統合された方法で行うことができることである。しかし、文書キャプチャおよび/または処理装置としてのモバイル機器の使用は、さまざまな理由によりこれまで不可能であると考えられてきた。

0043

1つのアプローチでは、画像はモバイル機器のカメラによってキャプチャされ得る。「カメラ」という語は、紙などの機器外部の物理的対象の画像をキャプチャ可能な任意の種類の機器を含むと広範に解釈すべきである。「カメラ」という語は、周辺スキャナまたは多機能装置を含まない。任意の種類のカメラが使用され得る。好ましい実施形態では、たとえば8MP以上、理想的には12MP以上のより高い解像度を有するカメラが使用され得る。画像はカラーで、グレースケールで、モノクロで、または任意の他の公知の光学効果を有してキャプチャされ得る。ここで言及される「画像」という語は、生データ、処理データ等を含む、カメラの出力に対応する任意の種類のデータを含むことが意図される。

0044

一般的な実施形態
一般的な一実施形態では、文書のデジタル表現を含むデジタル画像を処理するための方法は、プロセッサを用いて複数の候補エッジ点を定義するステップを含み、各候補エッジ点を定義するステップは、デジタル画像内に1つ以上の大分析ウィンドウを定義するステップと、デジタル画像内に複数の小分析ウィンドウを定義するステップと、各大分析ウィンドウについて1つ以上の統計の分布を推定するステップと、各小分析ウィンドウについて1つ以上の統計を計算するステップと、小分析ウィンドウの各々について計算した1つ以上の統計と、1つ以上の大分析ウィンドウについて推定した対応する統計の分布との間に、統計的に有意な差が存在するか否かを判断するステップと、統計的に有意な差が存在すると判断すると、統計的に有意な差が存在する各小分析ウィンドウ内の点を候補エッジ点に指定するステップとを含み、方法はさらに、複数の候補エッジ点に基づいて四角形の四辺を定義するステップと、文書のデジタル表現および四角形をモバイル機器のディスプレイに出力するステップとを含む。

0045

一般的な別の実施形態では、システムは、ロジックと、四角形を矩形に変形するためのロジックとを実行するように構成されたプロセッサを含み、四角形は複数の方程式によっ
て特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0046

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、四角形を矩形に変形するように構成されたコンピュータ読取可能なプログラムコードを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0047

一般的な別の実施形態では、デジタル画像内の文書のデジタル表現の1つ以上の空間特性を修正するための方法は、四角形を矩形に変形するステップを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0048

一般的な別の実施形態では、システムは、ロジックと、四角形を矩形に変形するためのロジックとを実行するように構成されたプロセッサを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0049

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、四角形を矩形に変形するように構成されたコンピュータ読取可能なプログラムコードを含み、四角形は複数の方程式によって特徴付けられ、各方程式は四角形の一辺に対応し、各方程式は選択されたクラスの関数から選択される。

0050

一般的な別の実施形態では、文書のデジタル表現内に照明問題が存在するか否かを判断するための方法は、プロセッサを用いて、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションの輝度値の分布を求めるステップと、各セクションの輝度値範囲を求めるステップと、各セクションの輝度値の変動を求めるステップと、各セクションが飽和であるか否かを判断するステップと、各セクションが不足であるか否かを判断するステップと、飽和セクションの数を求めるステップと、不足セクションの数を求めるステップと、セクションの総数に対する飽和セクションの数の比率が飽和閾値を超えていると判断すると、デジタル画像が飽和であると判断するステップと、セクションの総数に対する不足セクションの数の比率が不足閾値を超えていると判断すると、デジタル画像が不足であると判断するステップと、デジタル画像が不足および飽和のいずれか一方であると判断すると、デジタル画像内に照明問題が存在すると判断するステップとを含む。

0051

一般的な別の実施形態では、システムは、ロジックと、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するためのロジックと、各セクションの輝度値の分布を求めるためのロジックと、各セクションの輝度値範囲を求めるためのロジックと、各セクションの輝度値の変動を求めるためのロジックと、各セクションが飽和であるか否かを判断するためのロジックと、各セクションが不足であるか否かを判断するためのロジックと、飽和セクションの数を求めるためのロジックと、不足セクションの数を求めるためのロジックと、セクションの総数に対する飽和セクションの数の比率が飽和閾値を超えていると判断すると、デジタル画像が飽和であると判断するためのロジックと、セクションの総数に対する不足セクションの数の比率が不足閾値を超えていると判断すると、デジタル画像が不足であると判断するためのロジックと、デジタル画像が不足および飽和のいずれか一方であると判断すると、デジタル画像内に照明問題が存在すると判断するためのロジックとを実行するように構成されたプロ
セッサを含む。

0052

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像内の文書の検出されたデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するように構成されたコンピュータ読取可能なプログラムコードと、各セクションの輝度値の分布を求めるように構成されたコンピュータ読取可能なプログラムコードと、各セクションの輝度値範囲を求めるように構成されたコンピュータ読取可能なプログラムコードと、各セクションの輝度値の変動を求めるように構成されたコンピュータ読取可能なプログラムコードと、各セクションが飽和であるか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、各セクションが不足であるか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、飽和セクションの数を求めるように構成されたコンピュータ読取可能なプログラムコードと、不足セクションの数を求めるように構成されたコンピュータ読取可能なプログラムコードと、セクションの総数に対する飽和セクションの数の比率が飽和閾値を超えていると判断すると、デジタル画像が飽和であると判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションの総数に対する不足セクションの数の比率が不足閾値を超えていると判断すると、デジタル画像が不足であると判断するように構成されたコンピュータ読取可能なプログラムコードと、デジタル画像が不足および飽和のいずれか一方であると判断すると、デジタル画像内に照明問題が存在すると判断するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0053

一般的な別の実施形態では、デジタル画像の1つ以上の領域内の照明の不均一を補正するための方法は、プロセッサを用いて、デジタル画像から二次元照明モデルを導出するステップと、二次元照明モデルをデジタル画像内の各画素に適用するステップとを含む。

0054

一般的な別の実施形態では、システムは、ロジックと、デジタル画像から二次元照明モデルを導出するためのロジックと、二次元照明モデルをデジタル画像内の各画素に適用するためのロジックとを実行するように構成されたプロセッサを含む。

0055

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像から二次元照明モデルを導出するように構成されたコンピュータ読取可能なプログラムコードと、二次元照明モデルをデジタル画像内の各画素に適用するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0056

一般的な別の実施形態では、文書のデジタル表現を含むデジタル画像の解像度を推定するための方法は、デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するステップと、複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるステップと、複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるステップと、1つ以上の平均文字寸法に基づいて、デジタル画像の解像度を推定するステップとを含む。

0057

一般的な別の実施形態では、システムは、ロジックと、デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するためのロジックと、複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるためのロジックと、複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるためのロジックと、1つ以上の平均文字寸法に基づいて、デジタル画像の解像度を推定するためのロジックとを実行するように構成されたプロセッサを含む。

0058

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像内の複数の非背景要素の複数の接続されたコンポーネントを検出するように構成されたコンピュータ読取可能なプログラムコードと、複数の接続されたコンポーネントに基づいて、複数の予想される文字を求めるように構成されたコンピュータ読取可能なプログラムコードと、複数の予想されるテキスト文字に基づいて、1つ以上の平均文字寸法を求めるように構成されたコンピュータ読取可能なプログラムコードと、1つ以上の平均文字寸法に基づいて、デジタル画像の解像度を推定するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0059

一般的な別の実施形態では、方法は、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するステップと、各セクションについて、セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするステップと、セクションが第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するステップと、セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするステップと、セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するステップと、セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするステップと、セクションが第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するステップと、セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするステップと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するステップと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるステップと、すべての非ブランクセクションについ
て、第2の方向のブラー率r2=SS2/SB2を求めるステップと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに第1の方向にブラーがあると判断するステップと、r2が予め定義されたセクションブラー率閾値未満で
あると判断すると、非ブランクセクションに第2の方向にブラーがあると判断するステップと、非ブランクセクションに第1の方向にブラーがあること、および非ブランクセクションに第2の方向にブラーがあることの1つ以上を判断すると、非ブランクセクションにブラーがあると判断するステップとを含み、さらに、ブラーセクションの総数を求めるステップと、セクションの総数に対するブラーセクションの総数を含む画像ブラー率Rを計算するステップと、画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、デジタル画像にブラーがあると判断するステップとを含む。

0060

一般的な別の実施形態では、システムは、ロジックと、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するためのロジックと、セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するためのロジックと、セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするためのロジックと、セクションが第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するためのロジックと、セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするためのロジックと、セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するためのロジックと、セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするためのロジックと、セクションが第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するためのロジックと、セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするためのロジックと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未
満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するためのロジックと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1
を求めるためのロジックと、すべての非ブランクセクションについて、第2の方向のブラー率r2=SS2/SB2を求めるためのロジックと、r1が予め定義されたセクションブラー率閾値未満であると判断すると、非ブランクセクションに第1の方向にブラーがあると判断するためのロジックと、r2が予め定義されたセクションブラー率閾値未満であると判
断すると、非ブランクセクションに第2の方向にブラーがあると判断するためのロジックと、非ブランクセクションに第1の方向にブラーがあること、および非ブランクセクションに第2の方向にブラーがあることの1つ以上を判断すると、非ブランクセクションにブラーがあると判断するためのロジックと、さらに、ブラーセクションの総数を求めるためのロジックと、セクションの総数に対するブラーセクションの総数を含む画像ブラー率Rを計算するためのロジックと、画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、デジタル画像にブラーがあると判断するためのロジックと実行するように構成されたプロセッサを含む。

0061

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、プロセッサを用いて、デジタル画像内の文書のデジタル表現を含む四角形を、各々が複数の画素を含む複数のセクションに分割するように構成されたコンピュータ読取可能なプログラムコードと、セクションが第1の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第1の方向の鮮明な画素間遷移の総数(SS1)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、セクションが第1の方向において1つ以上のブラーがある画素間遷移を含むか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第1の方向のブラーがある画素間遷移の総数(SB1)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、セクションが第2の方向において1つ以上の鮮明な画素間遷移を含むか否かを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第2の方向の鮮明な画素間遷移の総数(SS2)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、セクションが第2の方向において1つ以上のブラーがある画素間遷移を含むかを判断するように構成されたコンピュータ読取可能なプログラムコードと、セクションについて第2の方向のブラーがある画素間遷移の総数(SB2)をカウントするように構成されたコンピュータ読取可能なプログラムコードと、SS1が予め定められた鮮明遷移閾値未満であり、SB1が予め定められたブラー遷移閾値未満であり、SS2が予め定められた鮮明遷移閾値未満であり、SB2が予め定められたブラー遷移閾値未満であると判断すると、セクションがブランクであると判断するように構成されたコンピュータ読取可能なプログラムコードと、すべての非ブランクセクションについて、第1の方向のブラー率r1=SS1/SB1を求めるように構成されたコ
ピュータ読取可能なプログラムコードと、すべての非ブランクセクションについて、第2の方向のブラー率r2=SS2/SB2を求めるように構成されたコンピュータ読取可能な
プログラムコードと、r1が予め定義されたセクションブラー率閾値未満であると判断す
ると、非ブランクセクションに第1の方向にブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードと、r2が予め定義されたセクションブラー率閾
値未満であると判断すると、非ブランクセクションに第2の方向にブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードと、非ブランクセクションに第1の方向にブラーがあること、および非ブランクセクションに第2の方向にブラーがあることの1つ以上を判断すると、非ブランクセクションにブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードと、さらに、ブラーセクションの総数を求めるように構成されたコンピュータ読取可能なプログラムコードと、セクション
の総数に対するブラーセクションの総数を含む画像ブラー率Rを計算するように構成されたコンピュータ読取可能なプログラムコードと、画像ブラー率が予め定められた画像ブラー閾値よりも大きいと判断すると、デジタル画像にブラーがあると判断するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0062

一般的な別の実施形態では、方法は、デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するステップと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするステップと、キャプチャしたデータを、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するステップと、キャプチャしたデータの分析を求める要求を受信するステップと、当該分析要求の受信に応じて、キャプチャしたデータをモバイル機器を用いて分析するステップと、当該分析の結果を、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するステップとを含む。

0063

一般的な別の実施形態では、システムは、ロジックと、デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するためのロジックと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするためのロジックと、キャプチャしたデータを、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するためのロジックと、キャプチャしたデータの分析を求める要求を受信するためのロジックと、当該分析要求の受信に応じて、キャプチャしたデータをモバイル機器を用いて分析するためのロジックと、当該分析の結果を、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するためのロジックとを実行するように構成されたプロセッサを含む。

0064

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、デジタル画像およびデジタルビデオの1つ以上を含むデータのキャプチャを求める要求を受信するように構成されたコンピュータ読取可能なプログラムコードと、当該キャプチャ要求の受信に応じて、モバイル機器のキャプチャコンポーネントを用いてデータをキャプチャするように構成されたコンピュータ読取可能なプログラムコードと、キャプチャしたデータを、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するように構成されたコンピュータ読取可能なプログラムコードと、キャプチャしたデータの分析を求める要求を受信するように構成されたコンピュータ読取可能なプログラムコードと、当該分析要求の受信に応じて、キャプチャしたデータをモバイル機器を用いて分析するように構成されたコンピュータ読取可能なプログラムコードと、当該分析の結果を、モバイル機器のディスプレイ、モバイル機器のプロセッサ、およびモバイル機器の記録媒体の1つ以上に出力するように構成されたコンピュータ読取可能なプログラムコードとを含む。

0065

一般的な別の実施形態では、方法は、ケース管理インターフェイスをモバイル機器のディスプレイに出力するステップと、1つ以上のケース行動に対応する1つ以上の命令を、表示されたケース管理インターフェイスを介して受信するステップとを含み、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、命令の受信に応じて1つ以上のケース行動を実行するステップを含む。

0066

一般的な別の実施形態では、システムは、ロジックと、ケース管理インターフェイスをモバイル機器のディスプレイに出力するためのロジックと、1つ以上のケース行動に対応する1つ以上の命令を、表示されたケース管理インターフェイスを介して受信するための
ロジックと、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、命令の受信に応じて1つ以上のケース行動を実行するためのロジックを実行するように構成されたプロセッサを含む。

0067

一般的な別の実施形態では、コンピュータプログラム製品は、コンピュータ読取可能なプログラムコードを格納したコンピュータ読取可能な記録媒体を含み、コンピュータ読取可能なプログラムコードは、ケース管理インターフェイスをモバイル機器のディスプレイに出力するように構成されたコンピュータ読取可能なプログラムコードと、1つ以上のケース行動に対応する1つ以上の命令を、表示されたケース管理インターフェイスを介して受信するように構成されたコンピュータ読取可能なプログラムコードと、各ケース行動は少なくとも1つのケースと関連付けられおり、さらに、命令の受信に応じて1つ以上のケース行動を実行するように構成されたコンピュータ読取可能なプログラムコードを含む。

0068

アプリケーションがモバイル機器にインストールされ得、たとえば機器の不揮発性メモリに格納され得る。1つのアプローチでは、アプリケーションは、モバイル機器に対する画像処理の実行を指示する命令を含む。別のアプローチでは、アプリケーションは、ネットワークサーバなどのリモートサーバへの画像の送信を指示する命令を含む。さらに別のアプローチでは、アプリケーションは、モバイル機器に対していくつかもしくはすべての処理を実行することの決定および/またはリモートサイトへの画像の送信を指示する命令を含み得る。画像がどのように処理され得るかの例を以下により詳細に提示する。

0069

投影効果および非線形光学効果を補正するための1つの例示的な手法は、引用によって本明細書に援用される米国特許番号第7,545,529号および第6,370,277号に記載されるアルゴリズムなどの公知のエッジ検出用アルゴリズムの延長である。そのような例示的な手法は、ここに開示されるアルゴリズム的特徴のいくつかまたはすべてを公知のアルゴリズムの延長として含み得、それらはここに開示される具体的な機能を含まない。

0070

エリアセンサ(カメラ)によってキャプチャされた画像を扱うために採用される相違点について述べる前に、ページ検出がどのように行われるのかを理解することが有用であり得る。1つのアプローチでは、エッジ検出アルゴリズムは画像の境界から画像内部に進み、背景のプロパティについて知られているものとは十分に異なる点を探す。しかし、同じモバイル機器によってキャプチャされた画像内の背景でさえも毎回異なり得るため、画像内の文書を識別する新たな技術が提供される。

0071

一実施形態では、文書のエッジが検出される。当該技術において公知の任意のエッジ検出方法が用いられ得る。たとえば、2008年9月8日に出願され、引用によって本明細書に援用される米国特許出願番号第12/206,594号に記載される技術が用いられ得る。さらに、外側から内側へのエッジ検出技術、内側から外側へのエッジ検出技術、または両者の組合わせが用いられ得る。

0072

次に図面を参照して、図1は一実施形態に従うネットワークアーキテクチャ100を示す。図1に示されるように、第1の遠隔ネットワーク104および第2の遠隔ネットワーク106を含む複数の遠隔ネットワーク102が設けられる。ゲートウェイ101が遠隔ネットワーク102と近接ネットワーク108との間に結合され得る。本願のネットワークアーキテクチャ100の文脈において、ネットワーク104,106の各々は、LAN、インターネットなどのWAN公衆交換電話網(PSTN)、構内電話網等を含むがこれらに限定されない任意の形態を取り得る。

0073

使用時、ゲートウェイ101は遠隔ネットワーク102から近接ネットワーク108へ
入口点として働く。したがって、ゲートウェイ101は、ゲートウェイ101に到着する所与データパケットを導くことが可能なルータとして、および所与のパケットにゲートウェイ101に出入りする実際の経路を提供するスイッチとして機能し得る。

0074

近接ネットワーク108に結合され、ゲートウェイ101を介して遠隔ネットワーク102からアクセス可能な、少なくとも1つのデータサーバ114がさらに含まれる。データサーバ114は任意の種類のコンピューティングデバイスグループウェアを含み得ることに留意すべきである。各データサーバ114には複数のユーザデバイス116が結合される。そのようなユーザデバイス116は、デスクトップコンピュータ、ラップトップコンピュータハンドヘルドコンピュータ、モバイル機器、プリンタまたは任意の他の種類のロジックを含み得る。一実施形態では、ユーザデバイス111もネットワークのいずれかに直接に結合され得ることに留意すべきである。

0075

たとえばファクシミリ装置、プリンタ、ネットワーク化されたおよび/もしくは局所的な記憶装置またはシステム等の周辺装置120または一連の周辺装置120がネットワーク104,106,108の1つ以上に結合され得る。データベースおよび/または付加的なコンポーネントが、ネットワーク104,106,108に結合された任意の種類のネットワーク要素とともに利用され得るか、当該ネットワーク要素に統合され得ることに留意すべきである。本説明の文脈において、ネットワーク要素はネットワークの任意のコンポーネントを指し得る。

0076

いくつかのアプローチによると、ここに記載される方法およびシステムは、IBMのz/OS(登録商標)環境をエミュレートするUNIX(登録商標)システム、マイクロソフトウィンドウズ(登録商標)環境を仮想的にホストするUNIXシステム、IBMのz
OS環境をエミュレートするマイクロソフトウィンドウズシステム等の1つ以上の他のシステムをエミュレートする1つおよび/もしくは複数の仮想システムを用いて、ならびに/または当該システム上に実現され得る。この仮想化および/またはエミュレーションは、いくつかの実施形態ではVMWARE(登録商標)ソフトウェアを使用して高められ得る。

0077

さらなるアプローチでは、1つ以上のネットワーク104,106,108は一般に「クラウド」と称されるシステムのクラスタを表現し得る。クラウドコンピューティングでは、処理能力、周辺装置、ソフトウェア、データ、サーバ等の共有リソースがクラウド内の任意のシステムにオンデマンドの関係で提供されることによって、多くのコンピューティングシステム全体にわたってサービスアクセスおよび分散が可能になる。クラウドコンピューティングは典型的にクラウド内で動作するシステム同士の間のインターネット接続を含むが、システムを接続する他の技術も用いられ得る。

0078

図2は、一実施形態に従う、図1のユーザデバイス116および/またはサーバ114と関連付けられる代表的なハードウェア環境を示す。図2は、いくつかの実施形態に係る、マイクロプロセッサなどの中央処理装置(CPU)210と、ローカルバス並列バス直列バス等の異なる種類であり得る1本以上のバス212を介して相互接続される多数の他の装置とを有するワークステーションの典型的なハードウェア構成を示す。

0079

図2に示されるワークステーションは、ランダムアクセスメモリ(RAM)214と、読取専用メモリ(ROM)216と、ディスク記憶装置220などの周辺装置を1本以上のバス212に接続するためのI/Oアダプタ218と、キーボード224、マウス226、スピーカ228、マイク232、および/またはタッチスクリーン、デジタルカメラ(図示せず)等の他のユーザインターフェイス装置を1本以上のバス212に接続するためのユーザインターフェイスアダプタ222と、ワークステーションを通信ネットワーク
235(たとえばデータ処理ネットワーク)に接続するための通信アダプタ234と、1本以上のバス212をディスプレイ装置238に接続するためのディスプレイアダプタ236とを含む。

0080

ワークステーションには、マイクロソフトウィンドウズオペレーティングシステム(OS)、MAC OS(登録商標)、UNIX OS等のオペレーティングシステムが常駐していてもよい。好ましい実施形態は、言及されるもの以外のプラットホームおよびオペレーティングシステム上でも実現され得ることが認識されるであろう。好ましい実施形態は、オブジェクト指向プログラミング手法とともに、JAVA(登録商標)、XML、C、および/またはC++言語を用いて書かれ得る。複雑なアプリケーションを開発するために使用されることが増えているオブジェクト指向プログラミング(OOP)が用いられ得る。

0081

ここの説明は、いずれの当業者も本発明を作製および使用することができるように提示され、本発明の特定の用途およびその要件の文脈内で提供される。開示された実施形態に対するさまざまな修正が当業者に容易に明らかになり、ここに定義される一般原理は本発明の思想および範囲から逸脱することなく他の実施形態および用途に適用され得る。このように、本発明は示される実施形態に限定されることが意図されておらず、ここに開示される原理および特徴と合致する最も広範な範囲が付与される。

0082

特に、ここに記載される発明のさまざまな実施形態は、複数のコンピュータシステム同士の間の通信手段としてインターネットを用いて実現される。当業者は、本発明は記録媒体としてインターネットを用いることに限定されないこと、かつ発明の代替的な方法はプライベートイントラネットローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、または他の通信手段の使用を含み得ることを認識するであろう。さらに、有線無線(たとえば無線周波数)および光学通信リンクのさまざまな組合せが利用され得る。

0083

発明の一実施形態が実行され得るプログラム環境は、ハンドヘルドコンピュータなどの1つ以上の汎用コンピュータまたは専用装置を例示的に組込み得る。そのような装置(たとえばプロセッサ、メモリ、データ記憶装置入出力装置)の詳細は周知であり、簡潔にするために省略される。

0084

本発明の技術はさまざまなテクノロジーを用いて実現され得ることも理解すべきである。たとえば、ここに記載される方法は、コンピュータシステムで実行されるソフトウェア内で実現され得るか、方法、特定用途向け集積回路フィールドプログラマブルゲート・アレイ(FPGA)などのプログラマブルロジックデバイスの動作を実行するための1つ以上のプロセッサおよびロジック(ハードウェアおよび/またはソフトウェア)を利用するハードウェア内で実現され得るか、および/またはそれらのさまざまな組合せである。1つの例示的なアプローチでは、ここに記載される方法は、物理的な(たとえば非一時的な)コンピュータ読取可能な媒体などの記録媒体に常駐する一連のコンピュータ実行可能命令によって実現され得る。さらに、発明の具体的は実施形態はオブジェクト指向ソフトウェアプログラミング概念を使用し得るが、発明はそのように限定されず、コンピュータの動作を導く他の形態を使用するように容易に適合される。

0085

発明は、コンピューティングデバイス(たとえばプロセッサ)および/またはシステムによって実行され得るコンピュータコードを有するコンピュータ読取可能な記憶装置または信号媒体を含むコンピュータプログラム製品の形態でも提供され得る。コンピュータ読取可能な記録媒体は、読取専用および書込可能CDおよびDVD、磁気メモリまたは媒体(たとえばハードディスクドライブテープ)、半導体メモリ(たとえばフラッシュメモ
リおよび他のポータブルメモリカード等)、チップ内に符号化されたファームウェア等の光学媒体を含む、コンピューティングデバイスまたはシステムによって使用するコンピュータコードを格納可能な任意の媒体を含み得る。

0086

コンピュータ読取可能な信号媒体は、上記の記録媒体のクラスに収まらない媒体である。たとえば、例示的なコンピュータ読取可能な信号媒体は、システム内で、たとえば物理的または仮想的ネットワーク等を介してシステム同士の間で、一時的な信号を通信またはそうでなければ転送する。

0087

上記の手法のさまざまな特徴は任意の方法で組合されて、上に提示した説明から複数の組合せが作られ得ることが明らかになるであろう。

0088

本発明の手法はここに提示される手法のさまざまなステップを実行するためのロジックを含むロジックデバイス内に好適に具体化され得ること、かつそのようなロジックはハードウェアコンポーネントまたはファームウェアコンポーネントを含み得ることも当業者に明らかになるであろう。

0089

さまざまなアプローチにおける論理配列は方法のさまざまなステップを実行するためのロジックを含むロジックデバイス内に好適に具体化され得ること、かつそのようなロジックはたとえばプログラマブルロジックアレイ内の論理ゲートなどのコンポーネントを含み得ることも当業者に等しく明らかになるであろう。そのような論理配列はさらに、たとえば固定されたまたは送信可能なキャリア媒体を用いて格納され得る仮想ハードウェア記述言語を用いて、そのようなアレイ内に論理構造を一時的または永続的に確立するための可能化手段またはコンポーネント内で具体化され得る。

0090

上記の手法は1つ以上のプロセッサ(図示せず)で実行されるソフトウェア内でも完全にまたは部分的に好適に実行され得ること、かつ当該ソフトウェアは、磁気または光コンピュータディスクなどの任意の好適なデータキャリア(これも図示せず)上で搬送されるコンピュータプログラム要素として提供され得ることが認識されるであろう。データ伝送用チャネルは同様に、すべての記述の記録媒体と、有線または無線信号媒体などの信号搬送媒体とを含み得る。

0091

本発明の実施形態は、コンピュータシステムとともに用いるコンピュータプログラム製品として好適に具体化され得る。そのような実現は、たとえばディスケットCD−ROM、ROM、またはハードディスクなどのコンピュータ読取可能な媒体などの有形媒体上に固定される、およびモデムまたは他のインターフェイス装置を介して、光もしくはアナログ通信線を含むがこれらに限定されない有形媒体上で、またはマイクロ波赤外線もしくは他の送信技術を含むがこれらに限定されない無線技術を用いて無形に、コンピュータシステムに送信可能である、のいずれか一方である、一連のコンピュータ読取可能な命令を含み得る。一連のコンピュータ読取可能な命令は、ここに先に記載した機能のすべてまたは一部を具体化する。

0092

当業者は、そのようなコンピュータ読取可能な命令は、多くのコンピュータアーキテクチャまたはオペレーティングシステムとともに用いる多数のプログラミング言語で書かれ得ることを認識するであろう。さらに、そのような命令は、半導体、磁気、もしくは光を含むがこれらに限定されない現在もしくは将来の任意のメモリテクノロジーを用いて格納され得るか、または光、赤外線もしくはマイクロ波を含むがこれらに限定されない現在もしくは将来の任意の通信テクノロジーを用いて送信され得る。そのようなコンピュータプログラム製品は、たとえばシュリンクラップソフトウェアなどの、印刷されたまたは電子ドキュメンテーションが添付された取外し可能媒体として分散され得るか、たとえばシス
テムROMまたは固定ディスク上にコンピュータシステムを用いてプレロードされ得るか、たとえばインターネットまたはWWWなどのネットワーク上でサーバまたは電子掲示板から分散され得ると考えられる。

0093

入出力またはI/O装置(キーボード、ディスプレイ、ポインティングデバイス等を含むがこれらに限定されない)などの通信コンポーネントが、直接にまたは介在I/Oコントローラを介してシステムに結合され得る。

0094

バス、インターフェイス、ネットワークアダプタ等の通信コンポーネントもシステムに結合されて、たとえばホストなどのデータ処理システムが介在プライベートまたはパブリックネットワークを介して他のデータ処理システムまたはリモートプリンタまたは記憶装置に結合されることを可能にし得る。モデム、ケーブルモデムおよびイーサネット(登録商標)カードは、現在使用可能な種類のネットワークアダプタの一例にすぎない。

0095

モバイル画像キャプチャおよび処理アルゴリズムのさまざまな実施形態
モバイル画像キャプチャおよび処理アルゴリズムのさまざまな実施形態、ならびに本開示の範囲内でそのようなアルゴリズム的処理の使用を容易にするように構成されたいくつかのモバイルアプリケーションを以下に説明する。以下の各節では、ここに記載される機能のいずれかまたは最大ですべてを含む、他の節に開示される機能との任意の組合せで利用され得る機能を説明する。さらに、処理アルゴリズム実施形態およびモバイルアプリケーション実施形態の機能は、いくつかのアプローチにおいて、さまざまなコンピューティングリソースおよび/またはシステム全体にわたって任意の態様で組合せられ、および/または分散され得る。

0096

アプリケーションがモバイル機器にインストールされ得、たとえば機器の不揮発性メモリに格納され得る。1つのアプローチでは、アプリケーションは、モバイル機器に対する画像処理の実行を指示する命令を含む。別のアプローチでは、アプリケーションは、本説明を読むと当業者によって理解されるように、ネットワークサーバ、リモートワークステーションクラウドコンピューティング環境等のたとえばリモートサーバなどの1つ以上の非モバイル機器への画像の送信を指示する命令を含む。さらに別のアプローチでは、アプリケーションは、モバイル機器に対していくつかもしくはすべての処理を実行することの決定および/またはリモートサイトへの画像の送信を指示する命令を含み得る。画像がどのように処理され得るかの例を以下により詳細に提示する。

0097

一実施形態では、モバイル機器上およびリモートサーバ上で実行され得る処理同士の間には、処理速度、使用可能なメモリに対する制約等以外には差がない場合がある。さらに、たとえばモバイルアプリケーションの一部としてモバイル機器上に提示されるさまざまなユーザインターフェイスと、非モバイル機器と通信中のディスプレイ上に提示される対応のユーザインターフェイスとの間には、差がいくつかあるか全くない場合がある。

0098

他の実施形態では、リモートサーバは、より高い処理能力、より多い能力、より多い処理アルゴリズム等を有し得る。さらなる実施形態では、モバイル機器は、リモートサーバに画像を送信するのに必要な能力以外は、アプリケーションと関連付けられる画像処理能力を有しない場合がある。さらに別の実施形態では、リモートサーバは、リモートサーバから処理画像を受信するのに必要な能力以外は、ここに提示されるプラットホームに関する画像処理能力を有しない場合がある。したがって、画像は、モバイル機器上で部分的にもしくは完全に、および/またはリモートサーバ上で部分的にもしくは完全に、および/またはクラウド内で部分的にもしくは完全に、および/またはその中間のアーキテクチャ全体の任意の部分において部分的にもしくは完全に処理され得る。さらに、いくつかの処理ステップは異なる装置上で複製され得る。

0099

どの装置が処理のどの部分を実行するかは、ユーザによって定義され得る、予め定められ得る、実行中に定められ得る、等である。さらに、いくつかの処理ステップは、たとえばユーザから要求を受信すると再び実行され得る。したがって、生画像データ、部分的に処理された画像データ、または完全に処理された画像データが、たとえば無線データネットワークを用いてモバイル機器からリモートシステムに送信され得る。リモートシステムで処理された画像データは、出力および/またはさらなる処理のためにモバイル機器に戻され得る。

0100

さらなるアプローチでは、画像は分割され得、さまざまな部分の処理がさまざまな装置に割当てられ得、たとえば1/2がモバイル機器に、1/2がリモートサーバに割当てられ、その後、処理した半分同士が組合せられる。

0101

一実施形態では、どの装置が処理を実行するかの選択は、モバイル機器上の局所的な処理とサーバとの通信との相対速度に少なくとも一部は基づき得る。

0102

1つのアプローチでは、処理機能ライブラリが存在し得、モバイル機器上のアプリケーションまたはリモートサーバ上のアプリケーションが単純にこのライブラリを呼出し、本質的にこの通話の意味が、どの種類の処理を実行すべきかを定義する。装置は次に、いくつかの対応するメタデータおそらく用いて、当該処理を実行して処理画像を出力する。

0103

当該技術において公知のおよび/またはここに新たに提示される任意の種類の画像処理が、さまざまな実施形態において任意の組合せで実行され得る。

0104

次に例示的な画像処理を参照して、カメラは画像をキャプチャするエリアセンサと考えることができ、画像は任意の数の投影効果、および場合によっては非線形効果を有し得る。画像は、そのような効果を補正するために処理され得る。さらに、たとえばページを囲む背景内の紙の1枚以上の実際のページの境界などの、画像内の文書の位置および境界が処理時に見つけられ得る。さまざまな実施形態の移動可能な性質のため、紙は大概どんなものの上にも存在し得る。このため、スキャナを用いて生成する文書の画像の処理と比べて画像分析が複雑になる。スキャナの背景プロパティは一定で典型的に公知であるのに対して、モバイルキャプチャの背景は文書の位置および画像背景内にキャプチャされた対応の周囲テクスチャに従って、かつ可変照明状況のために、ほぼ無限に変化し得るからである。

0105

したがって、カメラによってキャプチャするために紙が位置決めされ得る表面の背景の非一様性が1つの課題を提起し、非線形および投影効果がさらなる課題を提起する。すぐに明らかになるように、さまざまな実施形態はこれらの課題を克服する。

0106

1つの例示的な動作モードでは、モバイル機器上のアプリケーションは、たとえばアプリケーションを開くことを求めるユーザ要求に応じて開始され得る。たとえば、アプリケーションを表すアイコンユーザ選択が検出され得る。

0107

いくつかのアプローチでは、ユーザ認証が要求および/または実行され得る。たとえば、ユーザIDおよびパスワード、または任意の他の認証情報が要求され得、および/またはユーザから受信され得る。

0108

さらなるアプローチでは、アプリケーションのグラフィカルユーザインターフェイスを介してさまざまなタスクが可能になり得る。たとえば、タスクのリストが提示され得る。
そのような場合、ユーザによるタスクのうちの1つの選択が検出され得、さらなるオプションがユーザに提示され得、予め定義されたタスクが開始され得、カメラが開始され得る、等である。

0109

画像は好ましくは、モバイル機器の画面タップ、モバイル機器のボタンの押下、音声コマンドジェスチャ等の何らかの種類のユーザ入力を受信すると、モバイル機器のカメラによってキャプチャされ得る。別の可能性のあるシナリオは、たとえばビデオストリームからなどの順次フレームの何らかのレベルの分析を含み得る。順次フレーム分析の後、いくつかのアプローチでは、自動的にまたはユーザによってトリガされ得る単一の高解像度画素フレームのキャプチャへの切換が行われ得る。さらに、トリガは、1つ以上のモバイル機器センサから受信する情報に基づき得る。たとえば、一実施形態では、モバイル機器内のまたはモバイル機器に結合された加速度計がカメラの安定度を示し得、アプリケーションは文書があるか否か低解像度ビデオフレームを分析し得る。文書が検出されると、アプリケーションは合焦動作を実行し、検出文書の高解像度画像を獲得し得る。低解像度および高解像度画像のいずれか一方はさらに処理され得るが、好ましい実施形態ではその後の処理のために高解像度画像を利用する。さらなるアプローチでは、上記のような単一フレームモードへの切換は、業務用名刺および領収書などの特により小さい文書には不要であり得る。処理レートを高めて処理リソース消費を減らすために、文書種類識別は、処理のために単一フレームモードに切換えるおよび/または高解像度画像をキャプチャするか否かの判断を容易にし得る。本考察では、1つ以上の文書の画像がキャプチャされると仮定する。

0110

モバイル機器は典型的に従来の非モバイル機器の処理能力を有しないため、1つのアプローチでは、モバイル機器に対して何らかの限定された処理を実行し、たとえばページが正確に見つかったこと、画像にブラーがないこと、および/または照明が適切であること、たとえばある種のプレビューをユーザに確認させる。

0111

1つのアプローチでは、カメラによってキャプチャされた画像内に文書が見つけられ得る。

0112

文書の1つ以上の境界を検出する付加的な方法もここに提示される。画像内の文書が非線形性を有するか矩形ではない場合、補正処理が適用され得る。

0113

画像内にページが見つかると、一実施形態では、もちろん元の紙が矩形であったと仮定して、ページを矩形にするために滑らかな変形を実行する。画像に対する別の有用な補正は、照明の不均一の緩和であり得る。

0114

1つの例示的なアプローチでは、ページ検出および矩形化は実質的に以下に説明するように実行され得る。

0115

モバイルページ検出のさまざまな実施形態
ページ検出を実行するための例示的な手法を示す1つの例示的な実施形態を、図3A図4を参照して説明する。これらの説明を参照して、ここに記載されるようなモバイル処理アルゴリズムについて実現される利点が、エリアセンサ(カメラ)によってキャプチャされた画像をどのように扱い、それによって提示される固有の困難をどのように打消すかがより明らかになるであろう。

0116

1つのアプローチでは、特に図3A図3Bを参照して、エッジ検出アルゴリズムはデジタル画像300の境界から画像300の中心領域に向かって進み、背景のプロパティについて知られているものとは十分に異なる点を探す。

0117

とりわけ、同じモバイル機器によってキャプチャされた画像内の背景304でさえも毎回異なり得るため、画像内の文書を識別する新たな技術が提供される。

0118

本開示に係るカメラキャプチャ画像内にページエッジを見つけることは、たとえばスキャナとは対照的にモバイル機器を用いてキャプチャした画像のプロパティの重要な差を調整するのに役立つ。たとえば、投影効果のため、写真内の矩形文書の画像は厳密には矩形に見えないことがあり、画像内の文書の対向辺は同じ長さを有しないことがある。第2に、最良レンズでさえもいくらかの非線形性を有するため、たとえば実質的に矩形の文書の直線辺などのオブジェクト内の直線が、当該オブジェクトのキャプチャ画像内でやや湾曲して見えることになる。第3に、カメラを用いてキャプチャした画像は、キャプチャ画像内に不均一な照明効果を圧倒的に引き起こす傾向がある。この照明の不均一によって、文書が配置され得る表面の完全に均一の背景でさえも、ページが完全に平坦ではない場合に特にページエッジの周りで、画像内で輝度が変化し、しばしば影ができて見える。

0119

例示的なアプローチでは、背景内の変動をページエッジと間違えることを避けるため、本願のアルゴリズムは以下の機能の1つ以上を利用する。

0120

さまざまな実施形態では、画像のフレームは、周囲の背景304の余白を有する文書302のデジタル表現を含む。好ましい実現では、個々のページエッジ306の探索は、画像の行および列を外側から内側に分析するステップオーバーアプローチに対して実行され得る。一実施形態では、ステップオーバーアプローチは、図3A図3Bに示されるように、デジタル画像300内に複数の分析ウィンドウ308を定義し得る。ここに理解されるように、分析ウィンドウ308は、1つ以上の「背景ウィンドウ」、すなわちデジタル画像300の背景304を描く画素のみを含むウィンドウと、1つ以上の「テストウィンドウ」、すなわちデジタル画像300の背景304、文書302のデジタル表現、または両方を描く画素を含むウィンドウとを含み得る。

0121

好ましい実施形態では、文書のデジタル表現は、文書が置かれる表面の背景304に対応する画像の余白内に第1の分析ウィンドウ308、すなわち背景分析ウィンドウを定義することによって、デジタル画像内に検出され得る。第1の分析ウィンドウ308内に、複数の小分析ウィンドウ(たとえば図3Dに示されるようなテストウィンドウ312)が第1の分析ウィンドウ308内に定義され得る。複数のテストウィンドウ312を利用して、背景304を記述する1つ以上の統計プロパティの1つ以上の分布が推定され得る。

0122

真上に記載した好ましい実施形態を引続き参照して、文書のデジタル表現の境界を検出する際の次のステップは、デジタル画像内に複数のテストウィンドウ312を定義するステップと、デジタル画像の対応領域を分析するステップとを含み得る。各テストウィンドウ312について、画像の対応領域を記述する1つ以上の統計値が計算され得る。さらに、これらの統計値は、背景304を記述する対応の統計の分布と比較され得る。

0123

好ましいアプローチでは、複数のテストウィンドウ312は経路、特に直線経路に沿って定義され得る。特に好ましいアプローチでは、複数のテストウィンドウ312は、たとえばデジタル画像の行および列に沿って、水平方向および/または垂直方向に定義され得る。さらに、経路に沿って、ならびに/または行および/もしくは列同士の間にテストウィンドウ312を定義するために段階的進行を用いてもよい。いくつかの実施形態では、本説明を読むと当業者によって認識されるように、段階的進行を利用することによって文書検出処理の算出効率が有利に高まり得る。

0124

さらに、いくつかの実施形態では、開始ステップの大きさが画像の解像度または画素サ
イズに基づいて推定され得るが、以下にさらに説明するように、文書の辺を確実に検出するために有利であるなら、このステップを削減してもよい。

0125

さらなる実施形態では、アルゴリズムは、文書を囲む背景内に配置される大分析ウィンドウ308内に見つけられる画像プロパティを記述するいくつかの統計の分布を推定する。1つのアプローチでは、大分析ウィンドウ308内に複数の小ウィンドウ312が定義され得、小テストウィンドウ312を記述する統計の分布が推定され得る。一実施形態では、大分析ウィンドウ308は、画像の左上角などのデジタル画像の背景領域内に定義される。

0126

背景画素を記述する統計は、本説明を読むと当業者によって理解されるように、最小値最大値中央値平均値、値の広がりまたは範囲、分散、標準偏差等の、デジタル画像データから生成され得る任意の統計値を含み得る。本説明を読むと当業者によって理解されるように、1つ以上のカラーチャネル内の輝度値、たとえば赤−緑−青すなわちRGB、シアンマゼンタ、黄、黒すなわちCMYK、色相飽和またはHSV等、デジタル画像300を記述する任意のデータから値がサンプリングされ得る。

0127

図3Dに示されるように、小分析ウィンドウ312の各々は、大分析ウィンドウ308内に複数の画素のサブセットを含み得る。さらに、小分析ウィンドウ312は、大分析ウィンドウ308の境界内に収まることが可能な任意のサイズおよび/または形状であり得る。好ましい実施形態では、小分析ウィンドウ312は矩形状によって、さらにより好ましくは第1の方向(たとえば高さ)に3画素の長さおよび第2の方向(たとえば幅)に7画素の長さであることよって特徴付けられる矩形によって特徴付けられ得る。もちろん、他の小分析ウィンドウのサイズ、形状、および寸法も本開示の処理アルゴリズムにおける実現に好適である。

0128

一実施形態では、テストウィンドウは、画像を分析して画像内に描かれた文書のデジタル表現の境界を検出するために用いられ得る。背景ウィンドウは、背景の元の統計プロパティを推定するため、および/または背景の局所的な統計プロパティを再推定するために用いられる。再推定は、不均一な照明および/または背景テクスチャ変化などのアーティファクト対処するために必要および/または有利であり得る。

0129

好ましくは、統計的推定は、いくつかのアプローチにおいて、文書ページの外側の余白内の大分析ウィンドウ308内の複数の小分析ウィンドウ312のいくつかまたはすべてに対して実行され得る。そのような推定は大分析ウィンドウ308内の小分析ウィンドウ312の段階的移動を用いて実行され得、段階的移動は、所与の画素について取られるサンプル数を変更するように任意の好適な増分でなされ得る。たとえば、算出効率を向上させるため、分析処理は、各画素318が一度サンプリングされることを確実にするのに十分な大分析ウィンドウ308内の小分析ウィンドウ312の数を定義し得る。このように、この算出効率的アプローチにおいて定義される複数の小分析ウィンドウ312は、共通の境界を共有するが重なり合わない。

0130

統計的推定の頑強性を向上させるように設計された別のアプローチでは、分析処理は、たとえば順次定義された小分析ウィンドウ312同士の間に所与の方向において単一の画素シフトのみを生成するステップを削減することによって、各画素318が最大回数サンプリングされることを確実にするのに十分な大分析ウィンドウ308内の小分析ウィンドウ312の数を定義し得る。もちろん、本説明を読むと当業者によって理解されるように、本開示の処理アルゴリズムのさまざまな実施形態において任意の段階増分が用いられ得る。

0131

熟練者は、デジタル画像内の局所背景の統計を再推定するために利用する大分析ウィンドウ308およびテストウィンドウは任意の所望の方法でデジタル画像内に配置され得ることを認識するであろう。

0132

たとえば、図3Aに示される一実施形態によると、所与の行iにおける左側エッジの探索は、所与の行iを中心とする画像の左辺上のフレーム境界に隣接する大分析ウィンドウ308における上記の統計の計算から開始する。

0133

さらなる実施形態では、アルゴリズムが画像の外側領域から画像の内部領域に向かって進むにつれて、可能性のある非背景テストウィンドウ(たとえばその推定統計が最後に知られている局所背景の統計特性の分布とは異なるテストウィンドウ)に出会うと、いくつかの実施形態では、アルゴリズムは先に定められた背景領域内に後戻りし、新たな大分析ウィンドウ308を形成し、小分析ウィンドウ312内の選択された統計と大分析ウィンドウ308内の対応する統計の局所分布との差の妥当性再評価するために背景統計の分布を再評価し得る。

0134

本説明を読むと当業者によって認識されるように、アルゴリズムはさまざまな態様で画像300の外側領域から画像300の内側領域に進み得る。たとえば、1つのアプローチでは、アルゴリズムは実質的に螺旋状パターンのテストウィンドウ312を定義して進行する。他のアプローチでは、パターンは垂直方向および水平方向のいずれか一方に沿って実質的に蛇状であり得る。さらなるアプローチでは、パターンは実質的に屋根板状であり得る。パターンはさらに、本説明を読むと当業者によって理解されるように、碁盤の目状パターン、垂直、水平、または対角線状のストライプパターン同心形状等の、デジタル画像300の一部またはすべてを覆う「連続マスク」によって定義され得る。他の実施形態では、大分析ウィンドウ308および/または小分析ウィンドウ312などの分析ウィンドウは、本説明を読むと当業者によって理解されるように、何らかの定義された手順に従って、ランダムに、擬似ランダムに、確率的に、等、デジタル画像300全体にわたって定義され得る。アルゴリズムは、経路によって公知の背景内に後戻りすることができる限り、かつ経路が画像全体を所望の粒度で覆っている限り、任意の所望の態様で一連のテストウィンドウで続けることができる。

0135

有利には、このように統計を再計算することによって、再計算しなければ画像内の非背景点の誤った識別(たとえば図3Cに示されるようなアウトライアー候補エッジ点316)の原因となり得る、デジタル画像300および/または背景304に固有のすべての照明ドリフトを吸収するのに役立つ。

0136

さらなる実施形態では、差が統計的に妥当である場合、本説明を読むと当業者によって理解されるように、アルゴリズムは、再びチェックすることによって木目、表面上のかき傷、表面のパターン、小ウィンドウ等の背景304のテクスチャの小さい変化をバイパスするために、その経路にさらに沿って一定距離をジャンプし得る。

0137

付加的なおよび/または代替的な実施形態では、可能性のある非背景点が見つかった後、アルゴリズムは当該点が影のエッジ上にあるか否かを判断し(ページのエッジが背景面より高く上がっている場合に特にあり得る)、実際のページエッジに達することを試みる。この処理は、影が通常は実際のエッジに向かって暗くなった後に画像がいきなり明るくなるという観察に依拠する。

0138

上記のページエッジ検出のアプローチを利用した理由は、標準的なエッジ検出器の使用がいくつかの理由により不要であり、好ましくないことさえあり得るためである。第1に、ほとんどの標準的なエッジ検出器は時間が掛かる動作を含み、第2に、本願のアルゴリ
ズムは、エッジがどれほど薄いか、エッジがどの方向に従うか、等の観察などの付加的な要件と関係がない。さらに重要なことに、ページエッジ306を探すことは必ずしもエッジ検出自体を含まず、すなわち、本開示に係るページエッジ検出は、文書境界(たとえばページエッジ306)を探索せず、むしろ背景から文書への遷移と関連付けられる画像特性を探索する態様で行われ得る。たとえば、遷移は、光沢紙の内部のオフホワイト輝度レベルを平坦化することによって、すなわち平均のグレーまたは色レベルの変化ではなくテクスチャの変化によって特徴付けられ得る。

0139

この結果、グリッド上の各行および列内の本質的に第1のおよび最後の非背景画素である候補エッジ点(たとえば図3Cに示されるような候補エッジ点314)を得ることができる。ランダムなアウトライアー(たとえば図3Cに示されるようなアウトライアー候補エッジ点316)を削除し、どの候補エッジ点314がページの各辺に対応するかを判断するために、1つのアプローチでは隣接候補エッジ点を分析することが有用である。

0140

一実施形態では、「点」は、本説明を読むと当業者によって理解されるように、画素、画素同士の間の位置(たとえば2画素×2画素正方形の中心などの分数座標を有する点)、画素の小ウィンドウ等の、デジタル画像内の任意の領域と考えられ得る。好ましい実施形態では、候補エッジ点は、局所背景を記述する統計の分布とは異なると判断される統計によって特徴付けられると認められたテストウィンドウ(たとえば3画素×7画素ウィンドウ)の中心と関連付けられる。

0141

ここに理解されるように、「隣接」候補エッジ点、または「隣接」画素は、本説明を読むと当業者によって理解されるように、対象点または画素(たとえば画素318)に近いか隣接した点または画素、たとえば対象点または画素の境界に少なくとも一部沿って位置する点または画素、対象点または画素の閾値距離以内に位置する点または画素(対象点または画素の一行内、対象点または画素の一列内の、所与の方向における2,10,64画素等以内など)等と考えられる。好ましいアプローチでは、「隣接」点または画素は、たとえば水平方向および/または垂直方向などの特定の方向に沿って対象点に最も近い候補エッジ点であり得る。

0142

各「良好な」エッジ点は理想的に、少なくとも2つの直接隣接点(各辺に1つずつ)を有し、これらの隣接点と「良好な」エッジ点とを結ぶ直線分から大きく逸脱せず、たとえば候補エッジ点および少なくとも2つの直接隣接点は線形回帰フィッティングすることができ、この結果は0.95以上の決定係数(R2)によって特徴付けられ得る。デジタ
ル画像の1つ以上の境界に対するこの線分の角度は、その相対位置とともに、エッジ点がページの上、左、右、または下辺に割当てられていることを判断する。好ましい実施形態では、候補エッジ点および2つの隣接エッジ点が三角形のそれぞれの角に割当てられ得る。候補エッジ点の三角形の角度がほぼ180度である場合、候補エッジ点は「良好な」候補エッジ点と考えられ得る。候補エッジ点の三角形の角度が180度から閾値よりも大きく(たとえば20度以上)逸脱する場合、候補エッジ点は「良好な」候補エッジ点のセットから除外され得る。この発見的方法の背後にある論理根拠は、行および列内の第1のおよび最後の非背景画素を求める際にランダムエラーを捨てたいという願望に基づいている。これらの画素は一貫性のある線内に存在する可能性は低いため、距離および方向に関して隣接点をチェックすることはいくつかのアプローチにおいて特に有利である。

0143

速度について、このグリッドのステップは32などの大数から開始し得るが、これは2倍減らしてもよく、エッジ点の探索は、ページ辺の最小二乗平均(LMS)に基づく方程式(以下参照)を求めるのに十分なエッジ点があるまで繰返される。画像内のすべての行および列の使用後でさえもこの処理によって辺を確実に求めることができない場合は、諦め、画像全体をページとして処理する。

0144

一実施形態では、ページ辺の方程式は以下のように求められる。まず、アルゴリズムは、すべての残りのサポートエッジがLMS線から短距離内に存在するまで最悪のアウトライアーを捨てる戦略を用いて、最良のLMS直線を各辺にフィッティングする。たとえば、文書の特定の境界に沿って複数の候補エッジ点同士を結ぶ実質的な直線からの最大距離を有する点が「最悪の」アウトライアーに指定され得る。この手順を繰返して、複数の候補エッジ点から1つ以上の「最悪の」アウトライアーが指定および/または除去され得る。いくつかのアプローチでは、複数の候補エッジ点同士を結ぶ線から1つの候補エッジ点が逸脱し得る距離は、デジタル画像のサイズおよび/または解像度に少なくとも一部基づく。

0145

この線がその伸びに沿ってあまりサポートされていない場合、アルゴリズムは最良の二次多項式放物線)を同じ元の候補点にフィッティングすることを試み得る。最良の放物線を見つけることと最良の直線を見つけることとの間のアルゴリズム差は小さい。すなわち、線の方向およびオフセットを求める2つの未知係数の代わりに、放物線の曲率、方向およびオフセットを求める3つの係数があるが、他の点では当該処理は一実施形態において本質的に同一である。

0146

放物線のサポートが直線のサポートよりも強く、特に候補エッジスパンの端により近い場合、結論として、アルゴリズムは放物線を画像内のページ辺のより良いモデルとして好むべきである。そうでなければ、線形モデルがさまざまなアプローチにおいて使用される。

0147

ページ四角形(たとえば図4に示されて以下により詳細に説明されるような四角形400)の角(やや湾曲している可能性がある)を見つけるために、文書の見つけられた四辺の交点が計算され得る。好ましい実現では、これを行うために3つのケース、すなわち2本の直線同士の交点の計算、1本の直線と1本の放物線との交点の計算、および2本の放物線同士の交点の計算を考慮することが必要である。

0148

第1のケースでは解が1つあり(上下のページエッジ306がほぼ水平に伸びているが左右のページエッジ306はほぼ垂直に伸びているため、対応するLMS線は平行ではあり得ない)、この解によって、対応するページ角の座標が求められる。

0149

直線と放物線との交点を計算する第2のケースは、ややより複雑である。結果として生じる二次方程式の解は0、1つまたは2つであり得る。交点がない場合、それはページ検出の致命的な問題を示し得、その結果は拒絶され得る。1つの解は可能性が多少低いが、さらなる問題を提起しない。2つの交点は選択を提示し、その場合、フレームの対応する角に近い方の交点がより良い候補であり、実際には、方程式の他方の解は画像フレーム座標範囲から非常に遠い場合がある。

0150

2本の放物線同士の交点を計算する第3のケースでは、(原則として)分析的に解かれ得る四次多項式が得られる。しかし、実際には、解を達成するのに必要な計算の数は、これも所望のサブ画素精度保証する近似反復アルゴリズムにおける数よりも多い場合がある。

0151

この目的のために用いられる1つの例示的な手順を、1つのアプローチに従って、文書302のデジタル表現の矩形化を参照して以下に詳細に説明する。

0152

結果として生じる目標四角形(たとえば図4に関して以下により詳細に説明するような四角形400)の妥当性についていくつかの制約がある。すなわち、四角形は好ましくは
小さすぎず(たとえば画像の全面積の25%などの、任意の所望の値の予め定義された閾値未満)、四角形の角は好ましくは画像のフレームの外側のあまり遠くに存在せず(たとえば100画素以下だけ離れている)、角自体は好ましくは四角形の内部で交差する対角線を有して左上、右上、左下および右下と解釈可能であるべきである、等である。これらの制約が満たされない場合、いくつかの実施形態では所与のページ検出結果が拒絶され得る。

0153

文書302のデジタル表現の検出された四角形が妥当である1つの例示的な実施形態では、アルゴリズムは目標矩形を求め得る。目標矩形の幅および高さは、四角形の上下辺の平均および左右辺の平均にそれぞれ設定され得る。

0154

一実施形態では、スキュー補正が実行される場合、目標矩形のスキューの角度は、ページ辺が水平および垂直になるようにゼロに設定され得る。そうでなければ、スキュー角は、水平軸に対する上下辺の角度および垂直軸に対する左右辺の角度の平均に設定され得る。

0155

同様に、クロップ補正が実行される場合、目標矩形の中心は四角形の4つの角の座標の平均と対応するように設計され得る。そうでなければ、中心は、付加的な実施形態において目標矩形が最後に画像フレームの左上にあるように計算され得る。

0156

いくつかのアプローチでは、ページ検出結果が何らかの理由で拒絶された場合、より多くの候補エッジ点を得て、有利により可能性が高い結果を達成するために、ここに記載される処理のいくつかまたはすべてのステップがより小さい段階増分で繰返され得る。最小許容ステップでも問題が解消されない最悪のシナリオでは、検出されたページが画像フレーム全体に設定され得、元の画像は手付かずのままであり得る。

0157

次に、ここに記載される発明のページ検出実施形態の例示的な実現を特に参照して、1つのアプローチでは、ページ検出は図19に示されるような方法1900の実行を含む。本説明を読むと当業者によって認識されるように、方法1900は、ここに記載されて本開示とともに提供される図面のいずれかに示される環境を含む任意の環境で実行され得る。

0158

一実施形態では、方法1900は動作1902を含み、ここでは文書のデジタル画像背景からデジタル表現への遷移に対応する複数の候補エッジ点が定義される。

0159

さまざまな実施形態では、動作1902において複数の候補エッジ点を定義するステップは、以下に説明する動作1904〜1920などの1つ以上の付加的な動作を含み得る。

0160

動作1904において、一実施形態によると、デジタル画像300内に大分析ウィンドウ(たとえば図3A図3Bおよび図3Dに示されるような大分析ウィンドウ308が定義される。好ましくは、デジタル画像背景304の情報特性を、非背景の情報特性(たとえば動作1910を参照して以下により詳細に説明する背景統計などの文書302のデジタル表現)と比較および対比するために、デジタル画像背景304の複数の画素を描くが非背景(たとえば文書302のデジタル表現)を描かない領域内に第1の大分析ウィンドウが定義される。たとえば、第1の大分析ウィンドウ308はデジタル画像300の角(左上角など)に定義され得る。もちろん、第1の大分析ウィンドウは、本開示の範囲から逸脱することなくデジタル画像300の任意の部分に定義され得る。

0161

さらに、本説明を読むと当業者によって理解されるように、大分析ウィンドウ308は
任意のサイズであり得、および/または任意の好適な寸法によって特徴付けられ得るが、好ましい実施形態では大分析ウィンドウ308は約40画素の高さおよび約40画素の幅を有する。

0162

特に好ましいアプローチでは、大分析ウィンドウ308はデジタル画像の角領域内に定義され得る。たとえば、図3Aを参照して、デジタル画像300が示されており、デジタル画像300は、複数の辺306を有する文書302のデジタル表現および背景304を含む。動作1904を参照して上に説明したように、大分析ウィンドウ308は、複数の背景画像を含むが文書302のデジタル表現に対応する画素を含まない領域内に定義され得る。さらに、いくつかのアプローチでは、大分析ウィンドウ308はデジタル画像300の角に定義され得る。

0163

動作1906において、一実施形態によると、大分析ウィンドウ308内などのデジタル画像300内に複数の小分析ウィンドウ312が定義され得る。小分析ウィンドウ312は、図3Dに示されるように1つ以上の重なり領域320を含むことによって特徴付けられるように、1つ以上の他の小分析ウィンドウ312と少なくとも一部重なり得る。好ましいアプローチでは、すべての可能性のある小分析ウィンドウ312が大分析ウィンドウ308内に定義される。もちろん、小分析ウィンドウは図3Bに示されるようにデジタル画像の任意の部分内に定義され得、好ましくは小分析ウィンドウは、各小分析ウィンドウが1つの中心画像によって特徴付けられるように定義され得る。

0164

動作1908において、一実施形態によると、1つ以上の小分析ウィンドウ312(たとえば大分析ウィンドウ308内の1つ以上の小分析ウィンドウ312)について1つ以上の統計が計算され、1つ以上の対応する統計の分布が推定される(たとえば複数の小分析ウィンドウ312全体にわたって推定される統計の分布)。別の実施形態では、統計の分布は1つ以上の大分析ウィンドウ308全体にわたって推定されて随意併合され得る。

0165

さらに、値は、本説明を読むと当業者によって理解されるように、背景輝度値背景色チャネル値、背景テクスチャ値、背景色合い値、背景コントラスト値、背景鮮明度値等の、デジタル画像の背景と関連付けられる任意の特徴を記述し得る。さらに、統計は、大分析ウィンドウ308内の複数の小ウィンドウ312にわたるデジタル画像背景304を記述する複数の画素の1つ以上のチャネル内の最小、最大および/または輝度値範囲を含み得る。

0166

動作1910において、一実施形態によると、背景統計の1つ以上の分布が推定される。統計の分布を推定することによって、たとえば大分析ウィンドウ308内のデジタル画像300の背景304のプロパティを特徴付ける記述分布を得ることができる。

0167

分布は好ましくは各小分析ウィンドウについて計算した背景統計に対応し、たとえば輝度最小の分布、輝度最大の分布等を含み得、本説明を読むと当業者によって認識されるように、これから、最小輝度値の最小および/または最大、最小輝度値の最小および/または最大、輝度値の最小および/または最大広がり、最小色チャネル値の最小および/または最大、最大色チャネル値の最小および/または最大、色チャネル値の最小および/または最大広がり等の分布統計記述子を得ることができる。もちろん、本開示の範囲から逸脱することなく、(たとえば輝度値、色チャネル値、コントラスト値、テクスチャ値色合い値、鮮明度値等について)計算した背景統計のいずれかを分布にアセンブルしてもよく、分布を記述する任意の値を使用してもよい。

0168

動作1912において、一実施形態によると、図3A図3Bに示されるような分析ウ
ィンドウ308などの大分析ウィンドウがデジタル画像300内に定義される。

0169

さらに、ウィンドウ形状は、ウィンドウの境界をデジタル画像300の一部として設定することによって肯定的に定義され得、たとえばデジタル画像300にマスクを当て、マスクに覆われていないデジタル画像300の領域を分析ウィンドウと定義することによって消極的に定義され得る。さらに、特にウィンドウがデジタル画像300にマスクを当てることによって消極的に定義される実施形態では、ウィンドウはパターンに従って定義され得る。もちろん、ウィンドウを定義するための他の態様も本開示の範囲から逸脱することなく使用され得る。

0170

動作1914において、一実施形態によると、分析ウィンドウ312について1つ以上の統計が計算される。さらに、好ましい実施形態では、各分析ウィンドウ統計は、動作1910において大分析ウィンドウ308について推定した背景統計の分布に対応する。たとえば、一実施形態では、本説明を読むと当業者によって理解されるように、最大輝度背景輝度最大の分布に対応し、最小輝度は背景輝度最小の分布に対応し、輝度広がりは背景輝度広がりの分布に対応する、等である。

0171

動作1916において、一実施形態によると、少なくとも1つの分析ウィンドウ統計と対応する背景統計の分布との間に統計的に有意な差が存在するか否かが判断される。本説明を読むと当業者によって認識されるように、統計的に有意な差が存在するか否かの判断は、本説明を読むと熟練者によって認識されるように、p値、zテスト、カイ二乗相関等の任意の公知の統計的有意性評価法またはメトリックを用いて実行され得る。

0172

動作1918において、一実施形態によると、画素318を記述する値と対応する背景統計の分布との間に統計的に有意な差が存在する分析ウィンドウ内の1つ以上の点(たとえば真ん中の画素318または点)が候補エッジ点に指定される。指定するステップは、画素に対応するフラッグの設定、画素の座標の格納、画素座標の配列の作成、画素318を記述する1つ以上の値(輝度、色相、コントラスト等)の変更などの当該技術において公知の任意の好適な方法、または任意の他の好適な手段によって達成され得る。

0173

動作1920において、一実施形態によると、動作1912〜1918の1つ以上が1回以上繰返され得る。好ましい実施形態では、複数のそのような繰返しが行われ得、各繰返しはデジタル画像の異なる部分に対して行われる。好ましくは、繰返しは、文書のデジタル表現の各辺が評価されるまで行われ得る。さまざまなアプローチにおいて、本説明を読むと当業者によって理解されるように、分析ウィンドウ308,312を定義することによって、1つ以上の境界を共有する、全体がもしくは一部が重なり合う、および/または共通の境界をまったく共有せず全く重なり合わない、等の複数の分析ウィンドウ308,312が得られ得る。

0174

特に好ましい実施形態では、複数の繰返しは、可能性のある非背景ウィンドウ(たとえば候補エッジ点を含むウィンドウ、または不均一な照明、背景テクスチャ変化等のアーティファクトを含むウィンドウ)を検出すると局所背景統計を再評価するように仕向けられた態様で行われ得る。

0175

動作1922において、一実施形態によると、複数の候補エッジ点に基づいて四角形400の四辺が定義される。好ましくは、四角形400の辺はデジタル画像300内の文書302のデジタル表現のエッジ306を含む。四角形400の辺を定義するステップは、いくつかのアプローチでは、1つ以上の最小二乗平均(LMS)近似を実行するステップを含み得る。

0176

さらなるアプローチでは、四角形400の辺を定義するステップは、1つ以上のアウトライアー候補エッジ点を識別するステップと、複数の候補エッジ点から1つ以上のアウトライアー候補エッジ点を除去するステップとを含み得る。さらに、四角形400の辺を定義するステップは、1つ以上のアウトライアー候補エッジ点を除外する少なくとも1つの追加のLMS近似を実行するステップを含み得る。

0177

さらに、一実施形態では、四角形400の各辺は、あるクラスの関数から選択された方程式によって特徴付けられ、少なくとも1つのLMS近似を実行するステップは、好ましい実現において二次多項式の最良係数など、各方程式について1つ以上の係数を求めるステップを含む。これらのアプローチによると、四角形400の辺を定義するステップは、文書のデジタル表現の各辺が、二次多項式または二次多項式の代わりに一次関数などのより単純な関数などの、所与のクラスの関数内に収まるか否かを判断するステップを含み得る。

0178

好ましいアプローチでは、方法1900を実行することによって、図3A図3Cおよび図4に示されるような裂け目310および/または出張り320などの文書の主要な四辺からの1つ以上の偏差を無視しつつ、文書の主要辺の周りに四角形を正確に定義することができる。

0179

ここに開示される四角形400の付加的なおよび/または代替的な実施形態は四辺を有することによって特徴付けられ得、各辺は上記の多項式関数などの1つ以上の方程式によって特徴付けられる。たとえば、四角形400の辺が2つ以上の方程式によって特徴付けられる実施形態は、1つ以上の辺を複数のセグメントに分割するスッテプを含み得、各セグメントは上記の多項式関数などの方程式によって特徴付けられる。

0180

四角形400を定義するステップは、さまざまな実施形態において、代替的におよび/または付加的に四角形400の1つ以上の角を定義するステップを含み得る。たとえば、四角形400の角は、四角形400の隣接辺同士の1つ以上の交点を計算し、複数の交点を計算した場合は1つ以上の計算した交点から適切な交点を指定することによって定義され得る。さらなる実施形態では、角を定義するステップは1つ以上の方程式を解くステップを含み得、各方程式は、本説明を読むと当業者によって理解されるように、n次多項式等の選択されたクラスの関数に属することによって特徴付けられる。

0181

さまざまな実施形態では、四角形400の一角は、四角形400の2本の湾曲した隣接辺同士の交点、2本の実質的な直線同士の交点、および1本の実質的な直線と1本の実質的な曲線との交点、の1つ以上によって定義され得る。

0182

動作1924において、一実施形態によると、文書302のデジタル表現および四角形400がモバイル機器のディスプレイに出力される。出力するステップは任意の態様で実行され得、モバイル機器ハードウェアおよび/またはソフトウェアの構成に依存し得る。

0183

さらに、出力するステップは、さらなる処理および/または出力とのユーザインタラクションを容易にするためにさまざまなアプローチで実行され得る。たとえば、一実施形態では、四角形400は、本説明を読むと当業者によって理解されるように、たとえば四角形400の辺を特定の色、パターン、照明モチーフで、アニメーションとして、等と表示することによって、四角形400をデジタル画像300の他の特徴と区別するように設計された態様で表示され得る。

0184

さらに、いくつかの実施形態では、四角形400および文書302のデジタル表現の出力によって、ユーザが任意の好適な態様で四角形400を手動で調整および/または定義
することが容易になり得る。たとえば、ユーザはモバイル機器のディスプレイと対話して四角形400を翻訳することができ、すなわち四角形400のアスペクト比、形状、エッジ長面積等を維持しつつ四角形400の位置を1つ以上の方向に動かすことができる。付加的におよび/または代替的に、ユーザはモバイル機器のディスプレイと対話して、たとえば四角形400の角をタップして当該角を文書302のデジタル表現の角などのデジタル画像300内の所望の位置にドラッグして、四角形400の角の位置を手動で定義または調整することができる。

0185

再び図4を参照して、ページ検出の理想的な結果の1つの特定の例が描かれており、当該例はデジタル画像300内の文書302のデジタル表現を示し、文書302のデジタル表現のエッジを含む四角形400を有する。

0186

いくつかのアプローチでは、図19および方法1900を参照して上に説明したようなページ検出は、以下に説明するような1つ以上の付加的なおよび/または代替的な動作を含み得る。

0187

1つのアプローチでは、方法1900は、文書のデジタル表現を含む画像データおよび文書のデジタル表現に関する音声データの1つ以上をキャプチャするステップをさらに含み得る。キャプチャするステップは、本説明を読むと当業者によって理解されるように、マイク、カメラ、加速度計、センサ等の、モバイル機器に結合された1つ以上のキャプチャコンポーネントを用いて実行され得る。

0188

別のアプローチでは、方法1900は、統計的に有意な差が存在すると判断すると、新たな大分析ウィンドウ309を定義して、新たな大分析ウィンドウ309について背景統計の分布を再推定するステップを含み得、すなわち本質的に、文書のエッジ306のうちの1つの近くなどの、可能性のある非背景点が識別された点の近くのデジタル画像300の異なる領域内で動作1908および/または1910を繰返す。

0189

いくつかの例示的な実施形態では、大分析ウィンドウ308は、一行の最も左の非背景画素の近くにもしくは当該画素に位置決めされ得るか一行の最も右の非背景画素の近くにもしくは当該画素に位置決めされ得、一列の最も上の非背景画素の近くにもしくは当該画素に位置決めされ得、一列の最も下の非背景画素の近くにもしくは当該画素に位置決めされ得る。

0190

そのような再推定を含むアプローチは、少なくとも1つの小分析ウィンドウ(たとえばテストウィンドウ)統計と対応する大分析ウィンドウ統計の再推定分布との間に統計的に有意な差が存在するか否かを判断するステップをさらに含み得る。このように、統計的に有意な差が存在するか否かの高信頼のある判断を得ることができ、したがって、たとえばデジタル画像内のテクスチャの変化、照明異常、および/または他のアーティファクトとは対照的に、文書のデジタル画像背景からデジタル表現への真の遷移をより良く区別することができる。

0191

さらに、上記のような再推定を実行することによって、または実行しないことによって、方法1900が、文書のデジタル画像背景からデジタル表現への真の遷移に対応しない、デジタル画像内の照明および/または背景テクスチャの変化等の1つ以上のアーティファクトを回避することが容易になり得る。いくつかのアプローチでは、アーティファクトの回避は、デジタル画像の1つ以上の領域(たとえば当該領域を真の背景と区別するテクスチャ、変化等によって特徴付けられる領域)をバイパスする形態を取り得る。

0192

いくつかのアプローチでは、大分析ウィンドウ308について推定した統計的分布と小
分析ウィンドウ312について計算した対応する統計との間に統計的に有意な差が存在すると判断し、小分析ウィンドウの近くに新たな大分析ウィンドウを定義し、新たな大分析ウィンドウについて統計の分布を再推定し、再推定した統計的分布と小分析ウィンドウ312について計算した対応する統計との間に統計的に有意な差が存在すると判断すると、1つ以上の領域がバイパスされ得る。

0193

他のアプローチでは、バイパスするステップは、経路にさらに沿って別の分析ウィンドウ312をチェックし、このチェックしたウィンドウの統計が、たとえば統計的有意性のテストによって示されるように背景の公知の統計プロパティと有意な差がないと判断すると非背景への遷移の探索を再開することによって達成され得る。

0194

本開示を読むと熟練者によって認識されるように、バイパスするステップは、経路にさらに沿って別の分析ウィンドウをチェックすることによって達成され得る。

0195

さらなるアプローチでは、ページ検出は付加的におよび/または代替的に、四角形400が1つ以上の品質制御メトリックを満たすか否かを判断するステップと、四角形400が1つ以上の品質制御メトリックを満たさないと判断すると四角形400を拒絶するステップとを含み得る。さらに、品質制御メトリックは、LMSサポートメトリック、最小四角形400面積メトリック、四角形400角位置メトリック、および四角形400対角線交点位置メトリックなどの評価基準を含み得る。

0196

実際は、四角形400がこれらのメトリックの1つ以上を満たすか否かを判断するステップは、方法1900の性能に対するチェックとして働く。たとえば、チェックは、四角形400が全デジタル画像面積の少なくとも閾値を含むか否か、たとえば四角形400が全画像面積の少なくとも25%を含むか否かを判断するステップを含み得る。さらに、チェックは、四角形400の対角線が四角形400の境界内で交差するか否かを判断するステップと、LMS近似の1つ以上が、そこから導出される統計の頑強な信頼性を有するのに十分なデータから計算されたか否か、すなわちLMS近似が十分な「サポート」(さまざまなアプローチにおいて、少なくとも5つのデータ点、もしくはデータ点の総数の少なくとも4分の1から計算された近似など)を有するか否かを判断するステップと、および/または四角形400の角の位置(四角形400の各辺を特徴付ける方程式によって定義されるような)がデジタル画像のエッジの閾値距離内に存在するか否か、たとえば四角形400の角が所与の方向においてデジタル画像のエッジから100画素よりも多く離れているか否かを判断するステップとを含み得る。もちろん、本説明を読むと当業者によって認識されるように、他の品質メトリックおよび/またはチェックもこれら開示の範囲から逸脱することなく使用され得る。

0197

1つのアプローチでは、品質メトリックおよび/チェックは、準最適な四角形400の定義を拒絶することを容易にし得、さらに四角形400の辺の定義を向上させることを容易にし得る。たとえば、1つのアプローチは、複数の候補エッジ点に基づいて四角形400の四辺を定義するステップによって妥当な四角形400を定義できなかった、すなわち1つ以上の品質制御メトリックを満たすことができなかったというインジケーションを受信するステップと、複数の候補エッジ点を再定義するステップとを含む。とりわけ、本実施形態では、複数の候補エッジ点を再定義するステップは、先の失敗した試みでサンプリングした点の数よりも多い数のデジタル画像内の点をサンプリングするステップを含む。これは、1つのアプローチでは、より多くの候補エッジ点を分析するために、当該ステップをデジタル画像の1つ以上の行または列にわたって削減し、アルゴリズムのすべてのステップを繰返すことによって達成され得る。当該ステップは垂直方向、水平方向、または両方向で減少し得る。もちろん、デジタル画像内の候補エッジ点および/または再サンプリング点を再定義する他の方法も本開示の範囲から逸脱することなく利用され得る。

0198

さらに、ページ検出は、特にデジタル画像分析による進行時にステップを大幅に削減しても、方法1900を複数回反復することによって妥当な四角形400を定義できなかった場合に、デジタル画像全体を文書のデジタル表現に指定するステップを含み得る。1つのアプローチでは、デジタル画像全体を文書のデジタル表現に指定するステップは、本説明を読むと当業者によって理解されるように、画像角を文書角に定義するステップ、画像辺を文書辺に定義するステップ等を含み得る。

0199

ここに記載されるように、四角形400の対角線は、四角形400の計算された左上角と四角形400の計算された右下角とを結ぶ第1の線と、四角形400の計算された右上角と四角形400の計算された左下角とを結ぶ第2の線とによって特徴付けられ得る。さらに、第1の線と第2の線とは好ましくは四角形400の内部で交差する。

0200

さまざまなアプローチにおいて、上記の動作の1つ以上はプロセッサを用いて実行され得、当該プロセッサはモバイル機器、特に内蔵カメラを有するモバイル機器の一部であり得る。

0201

モバイルページ矩形化のさまざまな実施形態
本説明はデジタル画像内の文書のデジタル表現の矩形化に関し、そのさまざまなアプローチを図5A図5Cおよび図20を参照して以下に詳細に説明する。

0202

一実施形態では、矩形化アルゴリズムの目標は、(ページ検出方法1900において上に定義されたような)四角形400を(図5Cに示されるような)矩形に滑らかに変形することである。とりわけ、四角形400は複数の方程式によって特徴付けられ、各方程式は四角形400の一辺に対応し、選択されたクラスの関数から選択される。たとえば、四角形400の各辺は、本説明を読むと熟練者によって認識されるように、一次多項式、二次多項式、三次多項式等によって特徴付けられ得る。

0203

1つのアプローチでは、四角形400の辺は方程式によって記述され得、好ましい実施形態では、四角形400の左辺は二次多項式:x=a2*y2+a1*y+a0によって特徴付けられ、四角形400の右辺は二次多項式:x=b2*y2+b1*y+b0によって特徴付けられ、四角形400の上辺は二次多項式:y=c2*x2+c1*x+c0によって特徴付けられ、四角形400の下辺は二次多項式:y=d2*x2+d1*x+d0によって特徴付けられる。

0204

以下に提示するページ矩形化アルゴリズムの説明は、四角形内部の複数の四角形に基づく固有座標対(p,q)の定義を利用しており、各固有座標対(p,q)は、すべての対応する係数をp対1−pの上下曲線係数比で組合わせることによってその左右辺の方程式からから得られる方程式によって特徴付けられる上下曲線と、すべての対応する係数をq対1−qの左右曲線係数比で組合わせることによってその上下辺の方程式から得られる方程式によって特徴付けられる左右曲線との交点に対応し、0≦p≦1および0≦q≦1である。

0205

四角形400の辺が二次多項式によって特徴付けられる好ましい実施形態では、固有座標pに対応する上下曲線は方程式:x=((1−p)*a2+p*b2)*y2+((1−
p)*a1+p*b1)*y+((1−p)*a0+p*b0)によって特徴付けられ、固有座標qに対応する左右曲線は方程式:y=((1−q)*c2+q*d2)*y2+((1
−q)*c1+q*d1)*y+((1−q)*c0+q*d0)によって特徴付けられることになる。もちろん、本説明を読むと当業者によって認識されるように、他の方程式も上記の辺および/または曲線のいずれかを特徴付けてもよい。

0206

四角形の特定のケースである矩形については、固有座標は特に単純になる。すなわち、矩形内で、各固有座標対(p,q)は、矩形の左辺および矩形の右辺の各々と平行な線、たとえば上下両辺をp対1−pの比率で分割する線と、矩形の上辺および矩形の下辺の各々と平行な線、たとえば上下両辺をq対1−qの比率で分割する線との交点に対応し、0≦p≦1および0≦q≦1である。

0207

以下に記載する矩形化アルゴリズムの目標は、矩形化された画像内の各点を元の画像内の対応する点と対応付けることであり、かつ、四角形400の対向辺が互いに平行であり他方の辺の対に直交しながら、すなわち四角形400の上下辺が互いに平行であり、四角形400の左右辺が互いに平行であり新たな上下に直交しながら、四角形400の四辺の各々を実質的な直線に変形するように対応付けを行うことである。このように、四角形400は4つの角によって特徴付けられる真の矩形に変形され、各角は、交差して90度の角度をなす2本の直線を含む。

0208

以下に説明する矩形化アルゴリズムの主な考えは、第1に、矩形化された宛先画像内の各点P(図示せず)について矩形に基づく固有座標(p,q)を計算し、第2に、それらを元の画像内の四角形に基づく同じ対の固有座標(p,q)と対応付け、第3に、これらの固有座標に対応する左右曲線と上下曲線との交点の座標をそれぞれ計算し、最後に、元の画像内に見つけられた点の色またはグレー値を点Pに割当てることによって、この目標を達成することである。

0209

次に、一実施形態に係るページ矩形化アルゴリズムの第1の反復のグラフ表現を示す図5Aを参照する。図5Aに示されるように、デジタル画像500内の各点は、点と関連付けられる(上記のような)固有座標に対応する上下曲線504と左右曲線506(本説明を読むと当業者によって理解されるように、曲線は直線、曲線、たとえば放物線等を含み得る)との交点に対応し得る。

0210

本説明から明らかになるように、矩形化は、複数のそのような左右線506および上下線504を定義するステップを含み得る。

0211

さらに、矩形化は、目標の矩形に基づく座標を、文書502のデジタル表現の固有の四角形に基づく座標と対応付けるステップを含み得る。

0212

図5Aに示されるように、この対応付けるステップは、所与の左右曲線506と所与の上下曲線504との交点を反復して探索するステップを含み得る。図5Aは、本開示の範囲内の例示的な反復探索の第1の反復を示す。

0213

図20に関して以下により詳細に説明する1つのアプローチに係る反復探索は、座標(x0,y0)を有する開始点508を指定するステップを含む。開始点508は、文書502のデジタル表現内のどこかに位置し得るが、好ましくは目標矩形の中心にまたは中心の近くに位置する。

0214

反復探索は、開始点508を2本の交差曲線504,506の一方に投影するステップを含み得る。開始点は曲線504,506のいずれか一方に投影され得るが、1つのアプローチでは、反復探索における第1の反復の前半は、開始点508を上下曲線に投影して次の点のx座標(x1)を得るステップを含み、この投影結果は座標(x1,y0)を有す
る点510によって図5Aに示される。同様に、いくつかの実施形態では、反復探索における第1の反復の後半は、点510を左右曲線506に投影して次の点のy座標(y1)
を得るステップを含み、この投影結果は座標(x1,y1)を有する点512によって図5
Aに示される。

0215

図5Bは、一実施形態に係る、文書502のデジタル表現を、複数の上下曲線504および複数の左右曲線506によって定義される複数の等しいサイズのセクションに分割した後の、ページ矩形化アルゴリズムの開始点のグラフ表現である。

0216

矩形化は、ページ検出において定義される四角形400を真の矩形に変形するステップを含む。この処理の結果は、一実施形態に係る、ページ矩形化アルゴリズムを実行した後の出力のグラフ表現として図5Cに示される。

0217

さらなる反復は、いくつかの実施形態では、図20および方法2000に関して以下により詳細に説明するような同様のアプローチを利用し得る。

0218

図5A図5Cを引続き参照して、さらにここでは図20も参照して、一実施形態に係る、デジタル画像内の文書のデジタル表現の1つ以上の空間特性を修正するための方法2000が示される。本説明を読むと当業者によって認識されるように、方法2000は、本開示の図面および対応する説明に示されるおよび/または記載される環境を含む任意の好適な環境で実行され得る。

0219

一実施形態では、方法2000は動作2002を含み、ここでは、(ページ検出方法1900において上に定義されたような)四角形400が(図5Cに示されるような)矩形に変形される。とりわけ、四角形400は複数の方程式によって特徴付けられ、各方程式は四角形400の一辺に対応し、選択されたクラスの関数から選択される。たとえば、四角形400の各辺は、本説明を読むと熟練者によって認識されるように、一次多項式、二次多項式、三次多項式等によって特徴付けられ得る。

0220

一実施形態では、四角形400の辺は方程式によって記述され得、好ましい実施形態では、四角形400の左辺は二次多項式:x=a2*y2+a1*y+a0によって特徴付けられ、四角形400の右辺は二次多項式:x=b2*y2+b1*y+b0によって特徴付けられ、四角形400の上辺は二次多項式:y=c2*x2+c1*x+c0によって特徴付けられ、四角形400の下辺は二次多項式:y=d2*x2+d1*x+d0によって特徴付けられる。さらに、上下曲線方程式はx=((1−p)*a2+p*b2)*y2+((1−p
)*a1+p*b1)*y+((1−p)*a0+p*b0)であり、左右曲線方程式はy=((1−q)*c2+q*d2)*y2+((1−q)*c1+q*d1)*y+((1−q
)*c0+q*d0)である。もちろん、本説明を読むと当業者によって認識されるように、他の方程式が上記の辺および/または曲線のいずれかを特徴付けてもよい。

0221

一実施形態では、曲線504,506は、以下の一般形態の1つ以上にフィッティングさせる例示的な多項式関数によって記述され得る。

0222

x1=u2*y02+u1*y0+u0
y1=v2*x12+v1*x1+v0
式中、ui=(1−p)*ai+p*biおよびvi=(1−q)*ci+q*diであり、aiは四角形の左辺の方程式中の係数であり、biは四角形の右辺の方程式中の係数であり、ciは四角形の上辺の方程式中の係数であり、diは四角形の下辺の方程式中の係数であり、pおよびqは曲線504,506に対応する四角形に基づく固有座標である。いくつかのアプローチでは、ai,b1,c1,d1等の係数は、方法1900および図19を参照して上に述べたようなページ検出方法などのページ検出を実行する過程で達成される計算、推定および/または判断から導出され得る。

0223

もちろん、当業者によって理解されるように、四角形400を矩形に変形するステップは、以下により詳細に説明するような1つ以上の付加的な動作を含み得る。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社エスピックの「 表認識処理装置」が 公開されました。( 2019/05/23)

    【課題】非定型の帳票等を認識する場合において、データ文字列と項目名文字列との位置関係のみによらず、データ文字列の属性を特定することの可能な表認識処理装置を実現すること。【解決手段】本発明は、項目名文字... 詳細

  • 株式会社エスピックの「 表認識処理装置」が 公開されました。( 2019/05/23)

    【課題】非定型の帳票等を認識する場合において、データ文字列と項目名文字列との位置関係のみによらず、データ文字列の属性を特定することの可能な表認識処理装置を実現すること。【解決手段】本発明は、項目名文字... 詳細

  • ネットスマイル株式会社の「 文字種推定システム、文字種推定方法、および文字種推定プログラム」が 公開されました。( 2019/05/23)

    【課題】 様々な書類内の文字情報の抽出を正確に行えるようにする。【解決手段】 書類画像取得部21は、書類画像を取得し、文字種推定部22は、その書類画像内の1または複数のテキスト領域の位置・サイズ情... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ