図面 (/)

技術 帳票処理装置、帳票処理方法、帳票処理プログラム

出願人 株式会社日立情報通信エンジニアリング
発明者 高橋寿一新庄広中島和樹木村博文
出願日 2013年6月5日 (6年1ヶ月経過) 出願番号 2013-118849
公開日 2014年12月15日 (4年7ヶ月経過) 公開番号 2014-235694
状態 特許登録済
技術分野 文字入力
主要キーワード 日付表記 切り出しパターン 記載文字 表記パターン 表部分 認識対象外 スコア範囲 切り出し誤り
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年12月15日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

帳票プレ印刷部分と記載文字部分が重なっている場合であっても、記載文字を精度よく認識することができる帳票処理技術を実現する。

解決手段

本発明に係る帳票処理装置は、帳票画像から色毎に文字を認識し、認識した文字の順序入れ替えて複数の候補文字列を生成し、候補文字列と表記辞書内の文字列パターンとを比較することにより候補文字列を評価する。

概要

背景

OCRを用いて文字を読取る場合、一般に2値化、文字行抽出、文字切り出し文字識別、言語照合というステップを経る。個々の処理の概要は次のとおりである。2値化は、入力したカラー画像濃淡画像から、文字を黒、その他を白とする2値画像を生成する処理である。文字行抽出は、画像内において文字が記載されている行領域を特定する処理である。文字切り出しは、文字行領域内における個々の文字領域を特定する処理である。文字識別は、個々の文字領域の画像に対して文字認識処理を実施し、その文字認識結果文字コード)と確信度を求める処理である。言語照合は、あらかじめ登録済みの単語などと文字認識結果を照合し、文字認識結果の誤り訂正する処理である。例えば国名を認識したい場合は、国名の単語を登録した辞書と文字認識結果を比較し、最も合致する単語を認識結果とみなす

文字識別の他、文字切り出しにおいても誤りが発生する。例えば「∝」を「oc」などのように誤って切り出す可能性がある。このような切り出し誤りは、文字のかすれや潰れによっても発生する。このような切り出し誤りを回避するためには、例えば考えられる全ての切り出しパターンについて文字識別を実施し、言語照合において最も合致する文字認識結果を最終結果とすることが考えられる。

帳票を対象とするOCRにおいては、罫線や文字があらかじめ紙上に帳票の一部として印刷されており(プレ印刷と呼ぶ)、その上に記載された文字を認識する場合がある。OCRの読み取り対象である記載文字は、一般に黒や青で記載されることが多い。プレ印刷部分は、記載文字と区別するため、記載文字とは異なる色で印刷されていることが多い。

プレ印刷と記載文字が混在している帳票から文字行を認識する方法として、プレ印刷をドロップアウト(文字として認識しない)して記載文字のみ認識することが考えられる。この場合、認識すべき文字とプレ印刷が同じ色で記載されていると、これらを併せてドロップアウトすることにより言語照合ができなくなる課題がある。

下記特許文献1は、上記課題を解決するための技術として、プレ印刷文字と記載文字を併せて認識する手法を開示している。具体的には赤、緑、青、黒それぞれの色で抽出された2値画像を組み合わせて画像を合成し、合成画像に対して文字認識を実施して、手書き文字とプレ印刷文字を認識している。

概要

帳票のプレ印刷部分と記載文字部分が重なっている場合であっても、記載文字を精度よく認識することができる帳票処理技術を実現する。本発明に係る帳票処理装置は、帳票画像から色毎に文字を認識し、認識した文字の順序入れ替えて複数の候補文字列を生成し、候補文字列と表記辞書内の文字列パターンとを比較することにより候補文字列を評価する。

目的

本発明は、上記のような課題に鑑みてなされたものであり、帳票のプレ印刷部分と記載文字部分が重なっている場合であっても、記載文字を精度よく認識することができる帳票処理技術を実現することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

帳票画像を処理する装置であって、前記帳票画像を受け取る画像入力部と、前記帳票画像内に含まれる色を抽出する色抽出部と、前記帳票画像内に記述されている文字を前記色抽出部が抽出した色毎に認識する文字認識部と、前記文字認識部が前記色毎に認識した文字を連結することにより複数の候補文字列を生成する文字列生成部と、前記帳票画像内に記述されている文字列パターンを含む複数の文字列パターンを格納する表記辞書から前記文字列パターンを読み出す表記辞書読出部と、各前記候補文字列と前記表記辞書内の文字列パターンを比較することにより各前記候補文字列と前記表記辞書内の文字列パターンとの間の合致度を評価する文字列評価部と、前記文字列評価部による評価結果と前記候補文字列を出力する出力部と、を備えることを特徴とする帳票処理装置

請求項2

前記文字列生成部は、前記文字認識部が認識した文字を前記色抽出部が抽出した色毎に連結することにより前記色毎に前記候補文字列を生成し、前記文字列評価部は、前記文字認識部が生成した前記色毎の文字列が前記帳票画像内において文字単位で重なり合っている場合は、各前記文字列内の文字の位置をずらして連結することにより前記複数の候補文字列を生成し、前記文字認識部が生成した前記色毎の文字列が前記帳票画像内において文字単位で重なり合っていない場合は、前記文字認識部が生成した前記色毎の文字列を前記候補文字列として用いることを特徴とする請求項1記載の帳票処理装置。

請求項3

前記文字認識部は、前記色毎に認識した文字間の距離が所定値以上である場合は、その文字間にはスペース文字が記載されていると認識し、前記文字列生成部は、ある前記色について前記文字認識部がスペース文字として認識した部分に対して他の前記色の文字を挿入することによって前記候補文字列を生成することを特徴とする請求項2記載の帳票処理装置。

請求項4

前記文字認識部は、前記帳票画像を、前記色抽出部が抽出した色を中心とする所定範囲内の色値を有する部分とその他の部分に分割することにより、前記帳票画像内において文字が記述されている部分領域を抽出し、さらに前記所定範囲を変化させて前記分割を実施することにより、同じ文字が記述されている複数の前記部分領域を抽出し、各前記部分領域を用いて前記文字を認識した結果を照合して最も尤もらしい認識結果を特定することを特徴とする請求項1記載の帳票処理装置。

請求項5

前記文字列生成部は、前記文字認識部が認識した複数の文字のうち、文字の高さ方向において所定範囲内に含まれるものは、同じ行内に記述されている文字とみなし、同じ行内に記述されているとみなした文字を連結することにより、前記色抽出部が抽出した色毎に前記候補文字列を生成することを特徴とする請求項2記載の帳票処理装置。

請求項6

前記出力部は、前記文字列評価部が評価した前記合致度が所定範囲内にあるものについてのみ、前記評価結果を出力することを特徴とする請求項1記載の帳票処理装置。

請求項7

前記出力部は、前記文字列評価部が評価した前記文字列パターンを、前記評価結果と併せて出力することを特徴とする請求項1記載の帳票処理装置。

請求項8

前記出力部は、前記文字列評価部が評価した前記文字列パターンを、前記色抽出部が抽出した色毎に区別して出力することを特徴とする請求項7記載の帳票処理装置。

請求項9

前記出力部は、前記評価結果と前記候補文字列を画面表示する表示部として構成されており、前記表示部は、前評価結果を修正するための修正入力欄を有し、前記修正入力欄が表示する初期値は、最も高い前記評価結果を有する前記候補文字列であることを特徴とする請求項7記載の帳票処理装置。

請求項10

帳票画像を処理する方法であって、前記帳票画像を受け取る画像入力ステップ、前記帳票画像内に含まれる色を抽出する色抽出ステップ、前記帳票画像内に記述されている文字を前記色抽出ステップにおいて抽出した色毎に認識する文字認識ステップ、前記文字認識ステップにおいて前記色毎に認識した文字を連結することにより複数の候補文字列を生成する文字列生成ステップ、前記帳票画像内に記述されている文字列パターンを含む複数の文字列パターンを格納する表記辞書から前記文字列パターンを読み出す表記辞書読出ステップ、各前記候補文字列と前記表記辞書内の文字列パターンを比較することにより各前記候補文字列と前記表記辞書内の文字列パターンとの間の合致度を評価する文字列評価ステップ、前記文字列評価ステップにおける評価結果と前記候補文字列を出力する出力ステップ、を有することを特徴とする帳票処理方法

請求項11

請求項10記載の帳票処理方法をコンピュータに実行させることを特徴とする帳票処理プログラム

技術分野

0001

本発明は、OCR(Optical Character Reader:光学式文字読取装置)などにおける画像処理技術に関する。

背景技術

0002

OCRを用いて文字を読取る場合、一般に2値化、文字行抽出、文字切り出し文字識別、言語照合というステップを経る。個々の処理の概要は次のとおりである。2値化は、入力したカラー画像濃淡画像から、文字を黒、その他を白とする2値画像を生成する処理である。文字行抽出は、画像内において文字が記載されている行領域を特定する処理である。文字切り出しは、文字行領域内における個々の文字領域を特定する処理である。文字識別は、個々の文字領域の画像に対して文字認識処理を実施し、その文字認識結果文字コード)と確信度を求める処理である。言語照合は、あらかじめ登録済みの単語などと文字認識結果を照合し、文字認識結果の誤り訂正する処理である。例えば国名を認識したい場合は、国名の単語を登録した辞書と文字認識結果を比較し、最も合致する単語を認識結果とみなす

0003

文字識別の他、文字切り出しにおいても誤りが発生する。例えば「∝」を「oc」などのように誤って切り出す可能性がある。このような切り出し誤りは、文字のかすれや潰れによっても発生する。このような切り出し誤りを回避するためには、例えば考えられる全ての切り出しパターンについて文字識別を実施し、言語照合において最も合致する文字認識結果を最終結果とすることが考えられる。

0004

帳票を対象とするOCRにおいては、罫線や文字があらかじめ紙上に帳票の一部として印刷されており(プレ印刷と呼ぶ)、その上に記載された文字を認識する場合がある。OCRの読み取り対象である記載文字は、一般に黒や青で記載されることが多い。プレ印刷部分は、記載文字と区別するため、記載文字とは異なる色で印刷されていることが多い。

0005

プレ印刷と記載文字が混在している帳票から文字行を認識する方法として、プレ印刷をドロップアウト(文字として認識しない)して記載文字のみ認識することが考えられる。この場合、認識すべき文字とプレ印刷が同じ色で記載されていると、これらを併せてドロップアウトすることにより言語照合ができなくなる課題がある。

0006

下記特許文献1は、上記課題を解決するための技術として、プレ印刷文字と記載文字を併せて認識する手法を開示している。具体的には赤、緑、青、黒それぞれの色で抽出された2値画像を組み合わせて画像を合成し、合成画像に対して文字認識を実施して、手書き文字とプレ印刷文字を認識している。

先行技術

0007

特開2009−265751号公報

発明が解決しようとする課題

0008

プレ印刷帳票上に記載された文字を認識する場合、プレ印刷部分に文字が重なって記載されている場合がある。この場合、上記特許文献1に記載されている技術においては、合成画像上においてもプレ印刷部分と文字部分が重なっているため、文字を識別することはできない。また、帳票の種類によっては、プレ印刷の色が必ずしも定まっていない場合があるので、上記特許文献1記載の技術によってはプレ印刷部分と文字部分を適切に分離することができない場合がある。

0009

本発明は、上記のような課題に鑑みてなされたものであり、帳票のプレ印刷部分と記載文字部分が重なっている場合であっても、記載文字を精度よく認識することができる帳票処理技術を実現することを目的とする。

課題を解決するための手段

0010

本発明に係る帳票処理装置は、帳票画像から色毎に文字を認識し、認識した文字の順序入れ替えて複数の候補文字列を生成し、候補文字列と表記辞書内の文字列パターンとを比較することにより候補文字列を評価する。

発明の効果

0011

本発明に係る帳票処理装置によれば、帳票のプレ印刷部分と記載文字が重なっている場合であっても、記載文字を精度よく認識することができる。

図面の簡単な説明

0012

実施形態1に係る帳票処理装置100機能ブロック図である。
プレ印刷文字と記載文字が重なっている場合における文字認識結果の1例を示す図である。
カラー帳票画像から色を抽出することによりプレ印刷文字と記載文字を分離した例を示す図である。
帳票処理装置100の動作フローを説明する図である。
ステップS406の詳細を説明するフローチャートである。
ステップS406において生成された候補文字列を例示する図である。
ステップS407〜S408の詳細を説明する図である。
出力部180が文字列評価部160による評価結果をGUI形式画面表示する例を示す図である。
カラードロップアウトの程度が異なる複数の2値化画像を例示する図である。

実施例

0013

<実施の形態1>
図1は、本発明の実施形態1に係る帳票処理装置100機能ブロック図である。帳票認識装置100は、帳票画像を処理する装置であり、画像入力部110、色抽出部120、文字認識部130、文字列生成部140、表記辞書読出部151、表記辞書152、文字列評価部160、記憶装置170、出力部180を備える。

0014

画像入力部110は、例えばスキャナなどの装置を用いて構成され、帳票を画像データとして取り込む。色抽出部120は、取り込まれた帳票画像内の色を抽出する。文字認識部130は、抽出された色毎に文字を認識する。文字列生成部140は、後述の図4図7で説明する処理により、色毎の文字識別結果から最終認識結果の候補となる文字列を生成する。表記辞書読出部は、表記辞書152が格納している文字列パターンを読み出す。文字列評価部160は、文字列生成部140が生成した候補文字列と表記辞書152内の文字列パターンに対して言語照合を実施し、照合結果をスコア付けして評価する。出力部180は、文字列評価部160による評価結果を出力する。

0015

表記辞書152は、帳票処理装置100が帳票を処理する際に参照する辞書データベースである。表記辞書152は、具体的には、帳票処理装置100が文字認識を実施する際に参照する文字認識辞書、言語照合を実施する際に参照する知識辞書帳票レイアウトを特定する際に参照するレイアウト情報、などを格納する。知識辞書は、例えば日付、金額住所、氏名、口座番号といった項目を有する。各辞書は、後述の図7で例示する文字列パターンを保持している。記憶装置170は、帳票処理装置100が処理する帳票画像データを格納する。

0016

文字認識部130は、帳票画像の2値化、文字行抽出、文字切り出し、文字認識を実施する。文字行抽出においては例えば、文字が記載されていると予想される矩形領域を連結し、その全体を包含する矩形を文字行とみなすことができる。

0017

上記各機能部は、その機能を実現する回路デバイスなどのハードウェアを用いて実現することもできるし、その機能を実装したソフトウェアをCPU(Central Processing Unit)などの演算装置が実行することによって実現することもできる。

0018

表記辞書152と記憶装置170は、ハードディスク装置などの記憶装置にデータを格納することによって実現することができる。出力部180の出力形式は、例えば任意の通信線を介して出力するデータ形式でもよいし、画面上にGUI(Graphical User Interface)として出力する形式でもよい。

0019

図2は、プレ印刷文字と記載文字が重なっている場合における文字認識結果の1例を示す図である。カラー帳票画像201において、プレ印刷文字202の上に印字ずれにより記載文字203が重なっている。2値化画像204は、カラー帳票画像201を2値化した画像である。領域205は、プレ印刷文字202と記載文字203が重なりあった領域である。文字行206は、2値化画像204内の文字行部分を抽出した結果を示す。認識結果207は、文字行206から文字を切り出して文字識別を実施した結果である。プレ印刷文字202と記載文字203が重なっていない部分は文字を識別できているが、重なっている部分は識別結果がないかまたは誤った文字として識別される。

0020

図2に例示するように、プレ印刷文字と記載文字が重なっている場合には、その2値化画像に対してまま文字認識を実施しても、重なっている部分の文字認識結果を得ることは困難である。そこで本実施形態1においては、以下に説明する手法によりプレ印刷部分と記載文字部分を分離する。

0021

図3は、カラー帳票画像から色を抽出することによりプレ印刷文字と記載文字を分離した例を示す図である。2値化画像301は、記載文字色を残して他の色をドロップアウトした2値化画像である。文字行302は、2値化画像301から文字行を抽出した結果である。文字列303は、文字行302に対して文字切り出し、文字識別を実施した結果得られた文字列である。2値化画像304は、プレ印刷色を残して他の色をドロップアウトした2値化画像である。文字行305は、2値化画像304から文字行を抽出した結果である。文字列306は、文字行305に対して文字切り出し、文字識別を実施した結果得られた文字列である。各文字の識別結果には帳票画像内における座標値が関連付けられるので、文字間スペース部分については省略してもよい。

0022

図3に例示するように、色毎に生成した2値化画像を用いることにより、記載文字とプレ印刷文字を区別して文字認識することができる。しかし、それぞれの文字認識結果は互いに独立しているので、これらが一体になった文字列に対して言語照合を実施することができない。そこで本実施形態1においては、さらにプレ印刷文字と記載文字を組み合わせた候補文字列を生成する。候補文字列の詳細については後述の図6で説明する。

0023

図4は、帳票処理装置100の動作フローを説明する図である。以下、図4の各ステップについて説明する。

0024

図4:ステップS401〜S403)
画像入力部110は、カラー帳票画像を取得する(S401)。色抽出部120は、カラー帳票画像からプレ印刷色と記載文字色を抽出する(S402)。このとき、近似した色については同一色とみなしてもよい。ステップS402において抽出した各色について、以下のステップS404〜S405を繰り返す。

0025

図4:ステップS404)
文字認識部130は、ステップS402において抽出されたいずれか1色を残してその他の色をドロップアウトすることにより、2値化画像を生成する。文字認識部130はさらに、生成した2値化画像に対してレイアウト解析を実施し、文字行を抽出する。例えば帳票画像内の罫線や点線を抽出し、抽出された罫線や点線に基づき表部分を抽出し、表の内外から文字行を抽出することができる。帳票画像全体のレイアウトについては、同様の手法により実施してもよいし、例えば表記辞書152内のレイアウト情報を用いて認識してもよい。

0026

図4:ステップS405)
文字認識部130は、ステップS404において抽出した文字行内の各文字を識別するため、文字認識を実施する。具体的には、文字行から文字を切り出して文字列パターンを生成し、生成した文字パターンと表記辞書152内の文字認識辞書が保持している文字パターンを比較することにより、各文字を識別する。文字認識部130は、識別した文字パターンの帳票画像内における座標値や識別結果を、記憶装置170に格納する。

0027

図4:ステップS406)
文字列生成部140は、ステップS405において認識された文字を用いて、表記辞書152内の知識辞書が保持している文字列パターンに合致する候補文字列を生成する。具体的には、プレ印刷文字と記載文字それぞれの順序を入れ替えることにより、複数の文字列パターンを候補文字列として生成する。本ステップの詳細は後述の図5で説明する。

0028

図4:ステップS407〜S408)
文字列評価部160は、ステップS406において生成された候補文字列と表記辞書152内の知識辞書が保持している文字列パターンを比較することにより、言語照合を実施する(S407)。文字列評価部160は、言語照合の結果に基づき、候補文字列に対してスコアを付与する(S408)。

0029

図4:ステップS409)
出力部180は、文字列評価部160による評価結果を出力する。評価結果をGUIとして出力する場合の画面例については後述の図8で説明する。

0030

図5は、ステップS406の詳細を説明するフローチャートである。以下、図5に示す各ステップについて説明する。

0031

図5:ステップS501〜S502)
文字列生成部140は、ステップS405において認識された記載文字とプレ印刷文字を、候補文字列の初期値とする(S501)。文字列生成部140は、各文字に関連付けられている座標値に基づき、記載文字とプレ印刷文字が行単位で重なりあうか否かを確認する(S502)。行が重なり合っている場合はステップS503へ進み、重なり合っていない場合はステップS501において生成した候補文字列をそのまま用いる。

0032

図5:ステップS502:補足
文字列生成部140は、記載文字とプレ印刷文字が行単位で重なりあうかを判断する際に、ある程度の許容範囲を設けてもよい。例えば、記載文字とプレ印刷文字が重なり合っている部分の高さが文字高さの半分以内であれば、これらは同じ行内に記載されているとみなすことができる。これにより、記載文字が高さ方向に若干ずれている場合であってもプレ印刷文字と同じ行内に記載されているものとして処理することができる。

0033

図5:ステップS503)
文字列生成部140は、ステップS405の文字認識によって得られた各文字の座標値に基づき、記載文字とプレ印刷文字をそれぞれ左端座標ソートする。これにより例えば図3の文字行302内に記載されている文字列は左詰めされ、文字列303となる。

0034

図5:ステップS504)
文字列生成部140は、各文字の座標値に基づき、記載文字とプレ印刷文字が文字単位で重なっているか否かを確認する。文字単位で重なっている場合はステップS505へ進み、重なっていない場合はステップS503で生成した文字列を候補文字列とする。

0035

図5:ステップS505)
文字列生成部140は、記載文字の文字順とプレ印刷文字の文字順を入れ替えることにより、文字認識の最終結果の候補となる候補文字列を生成する。例えば以下のような仮説に基づいて文字順を入れ替えることにより、候補文字列を生成することができる。

0036

図5:ステップS505:文字順を入れ替える手法例)
(手法例1)記載文字が左にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、記載文字を右方向にX文字ずらす:
(手法例2)記載文字が右にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、記載文字を左方向にX文字ずらす:
(手法例3)記載文字が大きく右にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、まず全ての記載文字を左から順にセットし、その後にプレ印刷文字が続く文字列を生成する:
(手法例4)記載文字が大きく左にずれることにより記載文字とプレ印刷文字が文字単位で重なっていると仮定し、まず全てのプレ印刷文字を左から順にセットし、その後に記載文字が続く文字列を生成する。

0037

図5:ステップS505:補足)
文字認識部130は、記載文字の文字間隔が文字行の高さ以上ある場合は、記載文字のなかにスペース文字が含まれていると判断することもできる。プレ印刷文字についても同様である。文字列生成部140は、記載文字内のスペース部分にプレ印刷文字を挿入し、またはプレ印刷文字内のスペース部分に記載文字を挿入することにより、候補文字列を生成することもできる。各文字が複数の色で記載されている場合は、挿入する文字を色毎に組み合わせることもできる。

0038

図6は、ステップS406において生成された候補文字列を例示する図である。候補文字列表601は候補文字列のリストである。記載文字は濃い文字で表し、プレ印刷文字は薄い文字で表している。候補文字列602と603はステップS501において生成されたものである。候補文字列607と608はそれぞれ(手法例3)(手法例4)によって生成されたものである。

0039

図7は、ステップS407〜S408の詳細を説明する図である。説明のため、表記辞書152が保持している文字列パターンを例示した。照合表701は、ステップS407〜S408において表記辞書152と候補文字列を照合した結果を示す。まず表記辞書152の構成について説明し、次に照合表701について説明する。

0040

表記辞書152は、例えばRTN(Recursive Transition Network)形式で記述することができる。候補文字列と表記辞書152を照合する際には、例えば候補文字列を候補文字ネットワークと呼ばれる文字の切り出しの曖昧性や文字識別結果の曖昧性を考慮したネットワーク形式に置き換えた上で、両者を照合することができる。表記辞書152の形式および照合方法はこれらに限られるものではなく、表記辞書152が保持している文字列パターンと候補文字列を比較することができればよい。

0041

日付表記パターン1521と1522は、日付表記をRTN形式で表現した例である。YYYYは西、MMは月、DDは日を表す。丸括弧は省略可能であることを示し、「|」の前後はどちらかがあることを示す。例えば(年|.|−)は、「年」「.」「−」のいずれかが存在すれば同文字列パターンに合致することを示す。さらに同文字列パターンは丸括弧で囲まれているため、照合を省略することもできる。金額表記パターン1523と1524は、金額表記をRTN形式で表現した例である。「N」は数字を表し、「^」は数字Nの繰り返しを表す。これらの表記は1例であり、表記辞書152が保持する文字列パターンはこれらに限られるものではない。

0042

照合表701は、文字列評価部160が図6に示す候補文字列602〜608を図7に示す表記辞書152と照合した結果を示している。候補文字列602は日付表記パターン1521の「YYMMDD」と合致するとともに、金額表記パターン1524の「NNNNNN」と合致している。候補文字列606は、日付表記パターン1521の「YY年MM月DD日」と合致している。候補文字列603〜605と607〜608はいずれの表記パターンとも合致していない。

0043

文字列評価部160は、表記パターンと合致した候補文字列に対して、例えば以下の計算式を用いてスコアを付与する。

0044

照合表701においては、候補文字列606が最も高いスコアを得ているので、候補文字列606を文字列認識の最終結果とすることができる。したがって文字認識結果は、日付表記パターンの文字列とみなされる。スコアの計算式は上記に限られるものではなく、その他の計算式を用いることもできる。

0045

図8は、出力部180が文字列評価部160による評価結果をGUI形式で画面表示する例を示す図である。入力画像表示部801は帳票処理装置100に入力されたカラー帳票画像を表示する。対象領域802は、文字認識を実施する領域である。文字行認識結果欄803は、対象領域802から色毎に文字行を認識した結果を表示する。照合表欄804は図7で説明した照合表701を表示する。照合表欄804内の太線枠は文字認識の最終結果となった候補文字列を示す。最終認識結果805はその最終結果を表示する。ユーザは最終認識結果805を修正することもできる。この場合、修正入力欄に表示する初期値は最終認識結果805(すなわち最も評価結果が高かった評価文字列)とする。

0046

<実施の形態1:まとめ>
以上のように、本実施形態1に係る帳票処理装置100は、帳票画像から色毎に文字を認識して文字順を入れ替えることにより候補文字列を生成し、候補文字列と表記辞書152を照合することにより候補文字列が正しいか否かを評価する。これにより、プレ印刷文字と記載文字が重なっている場合であっても、文字列を精度よく認識することができる。

0047

また、本実施形態1に係る帳票処理装置100は、文字行内に含まれるスペース文字を認識し、スペース部分に他色の文字を挿入することにより、候補文字列を生成する。これにより、スペース部分に文字を記載することが意図されているプレ印刷帳票に対して文字認識を精度よく実施することができる。

0048

<実施の形態2>
実施形態1では、色毎に文字を認識して文字順を入れ替えることを説明した。色毎に文字を認識する際には、認識対象外の色はドロップアウトする。このとき、記載文字やプレ印刷に濃淡むらがあると、カラードロップアウトを実施することにより文字の一部が欠落してしまう可能性がある。そこで本発明の実施形態2では、色をドロップアウトする程度が異なる複数の2値化画像を生成し、これらを比較することにより濃淡むらを補償する手法を説明する。帳票処理装置100の構成は実施形態1と同様であるため、以下では濃淡むらに関する動作について主に説明する。

0049

図9は、カラードロップアウトの程度が異なる複数の2値化画像を例示する図である。文字認識部130は、ステップS403において、ステップS402で抽出した色値を中心として所定範囲内にある色値を残し、その他の色値をドロップアウトすることにより、2値化画像を生成する。さらに、ドロップアウトする色値の閾値を変更して複数の2値化画像を取得する。ドロップアウトする色の閾値は、例えばRGB色空間における色値を用いてもよいし、RGB値色相彩度輝度または明度に変更したHSV色空間における色値を用いてもよいし、その他の色空間を用いてもよい。ここでは、図9に示す2値化画像901〜906が生成されたものと仮定する。

0050

2値化画像901は、記載文字色を中心として小さめの閾値を設定する(残す範囲を少なくする)ことにより生成したものである。2値化画像903は、記載文字色を中心として大きめの閾値を設定する(残す範囲を多くする)ことにより生成したものである。2値化画像902は901と903の中間程度の閾値を設定したものである。2値化画像904は、プレ印刷文字色を中心として小さめの閾値を設定することにより生成したものである。2値化画像906は、プレ印刷文字色を中心として大きめの閾値を設定することにより生成したものである。2値化画像905は904と906の中間程度の閾値を設定したものである。

0051

文字認識部130は、図9のように生成した複数の2値化画像を比較することにより、文字行内の文字を認識する。例えば記載文字に濃淡むらがあり文字の一部が欠落している場合は、大きめの閾値を用いて生成した2値化画像903や906により、欠落が少ない状態で文字を認識することができる。他方、記載文字が滲んで文字の一部が潰れている場合は、小さめの閾値を用いて生成した2値化画像901や904により、文字の潰れが少ない状態で文字を認識することができる。いずれの場合においても、例えば文字認識結果の尤度が最も高いものを採用すればよい。

0052

なお、ステップS504において文字単位で重なり合うか否かを確認する際には、同じ文字行から生成した複数の2値化画像については確認対象外とする。これら複数の2値化画像は文字座標が同じであるため当然に重なり合うからである。

0053

<実施の形態2:まとめ>
以上のように、本実施形態2に係る帳票処理装置100は、カラードロップアウトを実施する範囲を変更して複数の2値化画像を生成し、これらに対する文字認識結果を照合することにより最も尤もらしい文字認識結果を特定する。これにより、記載文字に濃淡むらや滲みがある場合であっても、精度よく文字認識を実施することができる。

0054

<実施の形態3>
実施形態1〜2において、カラー帳票画像内にはプレ印刷文字と記載文字が重なっている部分と重なっていない部分が混在している場合がある。両者が重なっていない部分については従来の文字認識手法を用いるのみで充分であると考えられる。そこで、例えば入力されたカラー帳票画像に対して従来の文字認識をいったん実施し、認識できなかった部分に対してのみ実施形態1で説明した手法を実施するようにしてもよい。これにより、帳票全面に対して文字の重なりを調べる必要がなくなり、処理時間の短縮につながる。

0055

実施形態1〜2において、出力部180は、最終認識結果805を1つのみ出力してもよいし、例えばスコアが高いほうから順に複数の認識結果を出力してもよい。この場合、出力する認識結果の個数またはスコア範囲はあらかじめ定めておいてもよいし、ユーザが指定できるようにしてもよい。

0056

本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。

0057

上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラム解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリハードディスクSSD(Solid State Drive)等の記録装置ICカードSDカード、DVD等の記録媒体に格納することができる。

0058

100:帳票認識装置、110:画像入力部、120:色抽出部、130:文字認識部、140:文字列生成部、151:表記辞書読出部、152:表記辞書、160:文字列評価部、170:記憶装置、180:出力部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ