図面 (/)

技術 文字列認識装置とそのプログラム

出願人 株式会社日立製作所
発明者 永崎健丸川勝美新庄広
出願日 2002年6月7日 (17年3ヶ月経過) 出願番号 2002-166462
公開日 2004年1月15日 (15年8ヶ月経過) 公開番号 2004-013548
状態 特許登録済
技術分野 文字入力 文字認識
主要キーワード 外形矩形 特定パタン 定義位置 線形識別関数 分類図 上下配置 識別文字 検定作業
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2004年1月15日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

プレ印刷文字印字文字とが共存する文字列を読取る文字列認識手法、更にプレ印刷文字と印字文字とが重なって1つのパタンとなったケースに対して、周囲のプレ印刷文字の情報を利用して重なり文字からプレ印刷文字を除去することにより印字文字を読取る文字列認識手法を提供する

解決手段

読取り対象文字列行文字切出し多重仮説表現し、かつ文字列表記知識に基づき、プレ印刷文字と印字文字とが重なって1つの文字パタンとなる問題に対処することを特徴とする。文字列中に重なり文字が存在すると判定された場合は、文字列表記知識を用いてプレ印刷文字と印字文字との重なりを検知し、この重なり文字に対して複数の手法を適用して印字文字抽出処理を行い、再度の文字列認識を行う。印字文字抽出処理では、重なり文字以外のプレ印刷文字及び印字文字の位置・サイズ等の情報を用いて抽出処理を行う。

概要

背景

一般に、定型文書である帳票記入された文字を認識するには、読取り対象となる枠の罫線情報を予め辞書登録し、入力画像中から抽出した罫線と辞書の登録情報を付き合わせて、読取り対象枠内の文字を切り出して文字を認識する方法が採用されている(特開平10−49602等を参照)。一般に枠内には、帳票に予め印刷された文字(以後、プレ印刷文字)と、プリンタ等で後から印字された文字(以後、印字文字)が存在する。この場合、読取り対象となるのは印字文字である。プレ印刷文字と印字文字が共存する環境下で文字列を読取る方法としては、文字列表記知識を用いてプレ印刷文字と印字文字を共に読取る手法(特開2001−126010)、事前に登録しておいたプレ印刷文字の枠内配置情報を用いてプレ印刷文字を取り除き、印字文字のみを読取る手法(特開2000−207488)などがある。
しかし、プレ印刷文字と印字文字が同じ枠内に共存する場合、2つの文字が重なって1つの文字パタンとなる問題(重なり文字の問題)が生じるが、上述した手法ではこの問題に対応できない。
この重なり文字の問題に対しては、文字切出処理(特開平08−243506等に記載)を適用してプレ印刷文字と印字文字とを予め切断し、文字列表記知識を用いて文字列を読取ることで対応が可能である。文字切出処理の各種パラメータを調整することで、重なり文字をより細かなパタンへと分割することが可能である。

概要

プレ印刷文字と印字文字とが共存する文字列を読取る文字列認識手法、更にプレ印刷文字と印字文字とが重なって1つのパタンとなったケースに対して、周囲のプレ印刷文字の情報を利用して重なり文字からプレ印刷文字を除去することにより印字文字を読取る文字列認識手法を提供する読取り対象文字列行文字切出し多重仮説表現し、かつ文字列表記知識に基づき、プレ印刷文字と印字文字とが重なって1つの文字パタンとなる問題に対処することを特徴とする。文字列中に重なり文字が存在すると判定された場合は、文字列表記知識を用いてプレ印刷文字と印字文字との重なりを検知し、この重なり文字に対して複数の手法を適用して印字文字抽出処理を行い、再度の文字列認識を行う。印字文字抽出処理では、重なり文字以外のプレ印刷文字及び印字文字の位置・サイズ等の情報を用いて抽出処理を行う。 

目的

しかし、上述の文字切出処理は、切断対象であるパタンのサイズや画素射影量等の局所的な情報を利用して行うため、重なり文字用に調整したパラメータを使った場合、正しい文字パタンもまた過剰に切断してしまうオーバーセグメンテーションの問題が生じる。そのため、文字切出パラメータのみで重なり文字に対応すると、全体的な文字列読取りの精度が低下するという現象が生じる。
本発明の目的は、プレ印刷文字と印字文字とが共存する文字列を読取る文字列認識において、プレ印刷文字(帳票にあらかじめ印刷された文字)と印字文字(プリンタ等で後から印字又は加筆された文字)とが重なって1つのパタンとなったケースに対して、プレ印刷文字と印字文字とを区別した文字列表記知識に基づき、周囲のプレ印刷文字の情報を利用して重なり文字からプレ印刷文字を除去することにより印字文字を読取る文字列認識手法、その装置及び文字列認識処理プログラムを提供することにある。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

帳票画像を読み込む手段と、上記帳票画像に予め印刷されたプレ印刷文字と、後から加筆された印字文字とを区別する情報を有する文字列表記知識を記憶する記憶手段と、上記文字列表記知識を用いて帳票画像から上記プレ印刷文字と上記印字文字が重なり部分が存在するか判定する手段と、上記重なり部分について重なり文字認識処理を行う手段とを有することを特徴とする文字列認識装置

請求項2

上記重なり文字の認識処理を行う手段は、上記判定手段により重なり部分と判定された各々の部分に対して複数種類の重なり文字の認識処理を行い、上記文字列認識装置は、上記複数の認識結果を比較して選択した結果を出力する手段とを有することを特徴とする請求項1記載の文字列認識装置。

請求項3

上記重なり部分の判定手段は、上記帳票画像の文字列に対して、文字切出仮説を複数作ることで上記プレ印刷文字と上記印字文字を分離し、上記文字列表記知識を用いて上記文字列を読取り、上記文字切出で分離できなかった部分について上記文字列表記知識を用いて文字列を読取った上で、読取った文字列に対応するパタン形状情報及び識別情報を用いて判断することを特徴とする請求項1乃至2に記載の文字列認識装置。

請求項4

上記複数種類の認識処理は、上記プレ印刷文字と上記印字文字の線の太さの違いを利用する太線抽出処理、上記プレ印刷文字と上記印字文字の各文字パタン外形矩形の大きさの違いを利用する矩形分解、上記記憶手段に保持するプレ印刷文字の情報を用いたパタン照合、の少なくとも何れか2つを含むことを特徴とする請求項1乃至3に記載の文字列認識装置。

請求項5

帳票画像を取得するステップと、上記帳票画像に予め印刷されたプレ印刷文字と、後から加筆された印字文字とを区別する情報を有する文字列表記知識を記憶手段から読み出すステップと、上記文字列表記知識を用いて帳票画像から上記プレ印刷文字と上記印字文字が重なり部分が存在するか判定するステップと、上記重なり部分について複数の重なり文字の認識処理を行うステップと、上記認識処理の結果を比較して選択した結果を出力するステップとを有することを特徴とする文字列認識方法を実行をコンピュータに実行させるプログラム

技術分野

0001

本発明は、帳票記入された文字列を認識する文字列認識方法、装置および文字列認識処理プログラムに関する。

背景技術

0002

一般に、定型文書である帳票に記入された文字を認識するには、読取り対象となる枠の罫線情報を予め辞書登録し、入力画像中から抽出した罫線と辞書の登録情報を付き合わせて、読取り対象枠内の文字を切り出して文字を認識する方法が採用されている(特開平10−49602等を参照)。一般に枠内には、帳票に予め印刷された文字(以後、プレ印刷文字)と、プリンタ等で後から印字された文字(以後、印字文字)が存在する。この場合、読取り対象となるのは印字文字である。プレ印刷文字と印字文字が共存する環境下で文字列を読取る方法としては、文字列表記知識を用いてプレ印刷文字と印字文字を共に読取る手法(特開2001−126010)、事前に登録しておいたプレ印刷文字の枠内配置情報を用いてプレ印刷文字を取り除き、印字文字のみを読取る手法(特開2000−207488)などがある。
しかし、プレ印刷文字と印字文字が同じ枠内に共存する場合、2つの文字が重なって1つの文字パタンとなる問題(重なり文字の問題)が生じるが、上述した手法ではこの問題に対応できない。
この重なり文字の問題に対しては、文字切出処理(特開平08−243506等に記載)を適用してプレ印刷文字と印字文字とを予め切断し、文字列表記知識を用いて文字列を読取ることで対応が可能である。文字切出処理の各種パラメータを調整することで、重なり文字をより細かなパタンへと分割することが可能である。

発明が解決しようとする課題

0003

しかし、上述の文字切出処理は、切断対象であるパタンのサイズや画素射影量等の局所的な情報を利用して行うため、重なり文字用に調整したパラメータを使った場合、正しい文字パタンもまた過剰に切断してしまうオーバーセグメンテーションの問題が生じる。そのため、文字切出パラメータのみで重なり文字に対応すると、全体的な文字列読取りの精度が低下するという現象が生じる。
本発明の目的は、プレ印刷文字と印字文字とが共存する文字列を読取る文字列認識において、プレ印刷文字(帳票にあらかじめ印刷された文字)と印字文字(プリンタ等で後から印字又は加筆された文字)とが重なって1つのパタンとなったケースに対して、プレ印刷文字と印字文字とを区別した文字列表記知識に基づき、周囲のプレ印刷文字の情報を利用して重なり文字からプレ印刷文字を除去することにより印字文字を読取る文字列認識手法、その装置及び文字列認識処理プログラムを提供することにある。

課題を解決するための手段

0004

上記課題解決のため、本出願の開示する代表的な発明を概説すれば帳票画像を読み込む手段と、上記帳票画像に予め印刷されたプレ印刷文字と、後から加筆された印字文字とを区別する情報を有する文字列表記知識を記憶する記憶手段と、上記文字列表記知識を用いて帳票画像から上記プレ印刷文字と上記印字文字が重なり部分が存在するか判定する手段と、上記重なり部分について重なり文字の認識処理を行う手段とを有することを特徴とする文字列認識装置である。さらに、重なり文字の認識処理を行う手段は、上記判定手段により重なり部分と判定された各々の部分に対して複数種類の重なり文字の認識処理を行い、えられた複数の認識結果を比較して選択した結果を出力する。

0005

本発明の一実施例について図面を用いて説明する。第1図は、読取り対象の帳票を入力して、重なり文字処理部が起動されるまでの処理フローを示したものである。第2図は、読取り対象文字行の例と、それに対応する文字列表記知識の概念図である。第3図は、読取り対象文字行から候補文字ネットワークを作り、文字列表記知識を用いて文字列パス確定するまでの処理の概念図である。第4図は、文字列パスの中から重なり文字を検出し、処理を行い、新しい文字列パスを確定するまでの処理の流れである。第5図は、重なり文字を線の太さと重なり具合によって分類した表である。第6図は、モルフォロジーを用いた太線パタン抽出処理の概念図である。第7図は、矩形分解を用いたプレ印刷文字除去処理の概念図である。第8図は、パタン照合を用いたプレ印刷文字除去処理の概念図である。第9図は、本発明による文字列認識手法を組み込んだ帳票認識装置の一構成例である。次に、これらの図を用いて発明の実施の形態を詳述する。
第1図について詳述する。本発明の実施例である帳票認識装置では、初めに読取り対象の帳票を撮像し、これを電子データに変換する(101)。本処理は、元々の帳票が電子データである場合は省略可能である。次に、帳票画像の電子データを元にして、罫線抽出、枠構造解析、およびその結果を用いた読取り対象枠の位置推定等の帳票解析を行う(102)。これについては特開平06−052156、特開平09−305701、特開2000−251012等に記載された技術を用いることができる。次に、帳票解析の結果を受けて、読取り対象である文字行画像を抽出する(103)。次に、文字行画像から文字パタン候補の切出し及び各パタンの識別を行う(104)。切出しパタン及び識別結果を候補文字ネットワークと称する。次に、候補文字ネットワークから文字列表記知識を使って文字列パス(文字コード列と文字パタン列の組)の候補を出力する(105)。文字列表記知識の例を図2−(c)(d)に掲げる。文字列表記知識とは、対象とする文章がどのように書かれうるかを文脈自由文法(あるいは正規文法)によって記述したものである。例えば図2−(d)の表記知識は、始めに「*」が書かれ、次に「血液化学検査」または「処方箋料」などの単語が続き、さらにその次に「1」「12」などの数字が続き、最後に「項目」や「点」などの単語が書かれるような文章を表している。次に、得られた文字列パス群に対して、文字識別尤度、文字パタンの配置、適用した表記知識の尤度等によって文字列パスの尤度を評価して、順位を付ける(106)。このとき、文字列パス中に重なり文字が存在すると判定された場合は、重なり文字処理部が呼ばれる。このように本願発明では、プレ印刷文字と印字文字が重なった場合でも文字切出仮説を複数作ることでプレ印刷文字と印字文字を分離し、文字列表記知識を用いて文字列を読取り、文字切出で分離できなかった重なり文字を検知し、重なり文字に対して再文字切出・再文字識別・再知識処理を行う。重なり文字の問題は、あらかじめ印刷された定型帳票に文字を印字して文書を作成する場合においてしばしば発生する。これまでに提案された手法の多くは、これを文字切出しの問題と捉えて、文字切出し処理の改良により対応している。本願発明は、文字列表記知識を利用して重なり文字を検知し、後処理として重なり文字に対応するため、既存の文字列読取り処理にオーバーセグメンテーション等の悪影響を与えることなく、重なり文字の読取りが可能となる。
重なり文字処理部(107)は、文字列パス中にある重なり文字について、プレ印刷文字部分を消去して印字文字を識別し、知識処理を再適用することで文字列パスを再計算する処理である。
第2図について詳述する。第2図は、読取り対象文字行の例(a、b)と、それぞれに対応する文字列表記知識(c、d)を示した概念図である。文字列表記知識では読取り対象である印字文字部分(201)と、プレ印刷文字部分(202)とが区別して記述される。ここで、201の「N」は数字列を意味するものとする。また、202の中括弧(“[]”)は、この部分が「コード」または「医コ」または「医コ:」と表記され得ることを意味するものとする。
第3図について詳述する。第3図は、知識処理部(105)の処理過程を概念図で示したものである。初めに、読取り対象文字行(a)から、文字パタンと思われる部分をさまざまに切り出し、各々の文字パタンの候補を文字識別して、候補文字ネットワークを作る(b)。候補文字ネットワークは、文字パタン、文字識別の結果得られた順位付けされた文字コード群各文字コードに対応した尤度、候補文字ネットワーク中での文字パタン間の接続関係の情報、を最低限持つものとする。次に文字列表記知識(c)を使って、候補文字ネットワークから文字列パス(d)を計算する。ここで言う文字コードとは、「あ」という文字概念に対応するコード(例えばJIS_X_0208規格であれば242216というコードがそれにあたる)を意味する。本稿では文字コードの列を文字列と称し、印字または手書きで記された文字パタンの列を特に指す場合は文字パタン列と称することとする。
文字列パスは、文字列と、文字列中の各文字コードに対応する文字パタンと、候補文字ネットワーク中での文字パタンの接続関係の情報、を持つ。文字列表記知識は文字列認識プログラムとは独立したデータベースであり、外部記憶装置等に記録される、文字列表記知識の記述手法としてはトライ、文脈自由文法などがある(特開2001−014311等に記載)。本特許では、プレ印刷文字及び印字文字を併せて読むことを特徴とし、かつプレ印刷文字と印字文字は表記知識上で区別して記述される。
通常の知識処理では105の処理により文字列パスが確定するが、106の文字列検定処理によって重なり文字が存在すると判定された場合は、この文字列パスを107の重なり文字処理に渡して再処理を行う。107の処理に関しては第4図で詳しく述べる。106の重なり文字の判定は、105で候補として挙げられた各文字列パスに対して行う。文字列パス中に重なり文字が有るか無いかの判定は、文字列パス中の全ての文字パタンを走査して、文字パタンの外接矩形のサイズと識別尤度を、あらかじめ定めてある閾値と較べることで行う。例えば、文字列パスを文字パタン列{P1、P2、・・・、Pn}とし、ある文字パタンPkに対応する文字コードをCkとし、その識別尤度をLkとし、文字パタンPkの外接矩形の高さ及び幅をHkとWkとし、あらかじめ定めてある尤度閾値及び高さ閾値及び幅閾値をTLk、THk、TWkで表すならば、重なり文字有無の判定を(Lk<TLkかつ(Hk>THkまたはWk>TWk))という論理でできる。判定に用いる各種閾値の価は、プレ印刷文字の平均高さ、平均幅、及び平均識別尤度などから実験的に求められる。このように処理106は、重なり文字有無を単純な論理で判定することで、重なり文字処理部(107)に渡すべき文字列パスを少ない計算量で絞り込むことができる。重なり文字処理部では、絞り込んだ文字列パス群に対して、重なり文字の詳細判定及び位置特定を改めて行う(処理401、後述)。
第4図について詳述する。この処理では、上位モジュールより重なり文字を含むと思われる文字列パスを与えられ、これに対して重なり文字の部分を特定してプレ印刷文字の除去を行い、残った印字文字を再文字識別して、再知識照合によってより正確な文字列パスを計算する処理である。まず初めに、文字列パス中からプレ印刷文字と印字文字とが重なっていると思われるパタンを推定し、重なり文字の候補を列挙する(401)。次に、重なり文字部分以外で普通に読めているプレ印刷文字から、重なり文字の部分にあるプレ印刷文字の位置やサイズ等の情報を推定する(402)。次に、重なり文字の候補に対して画像処理文字識別処理が行われる(403)。これによりプレ印刷文字が除去され、読取り対象である印字文字が抽出され、これに対して再度文字識別が行われる。次に、前記処理を受けて再知識照合処理が行われる(404)。これにより重なり文字から抽出された印字文字を読取り、文字列パスを計算する。最後に、読取った文字列パスについて、文字識別の尤度、文字パタンの配置情報、利用した表記知識の尤度等によって検定を行い、文字列パスの尤度を評価し、優先順位付け及び棄却するか否かの決定を行う(405)。
第4図403の処理を更に詳述する。重なり文字と推定されたパタンに対しては、3つの画像処理を並列に適用して印字文字を抽出し、各々の抽出結果に対して文字識別を行う(406、407、408)。最後に、上記処理(406〜408)により得られた3つの印字文字の識別結果を順位付けして、重なり文字の文字識別結果として決定する(409)。各文字識別について尤度を比較して、識別文字コードの順位を決定する(409)。406は太線仮説処理と称する。これは、重なり文字に対して太線パタンの抽出を行い、印字文字のみを抜き出す処理である。407は矩形仮説処理と称する。これは、プレ印刷文字と印字文字の重なり具合を矩形情報から判別し、プレ印刷文字と思われる矩形を除く処理である。408はパタン照合処理と称する。これは、文字パタン照合を用いてプレ印刷文字位置、印字文字の位置を特定し、プレ印刷文字を除去する処理である。更に細かな処理である410〜418については、以下の記述で述べる。
401の重なり文字候補推定方法について述べる。文字列パスは、読取り対象文字行から作られる候補文字ネットワークと、文字列表記知識を用いることで計算される。具体的なアルゴリズムとしては、表記知識を用いた動的計画法、あるいは文脈自由文法解析(特開2001−014311等に記載)がある。更に、プレ印刷文字と印字文字とが知識上で区分されているため、文字列パス中の各パタンが両者のどちらかであるかを判別できる。
例えば第2図(a)に掲げた文字列を例とすれば、この文字列は知識処理によって、
(1)「平成11年5月分県番1?コ12、3334、5」
(2)「平成11年5月分県番13コ12、3334、5」
(3)「平成11年5月分県番1医コ12、3334、5」
などと読まれる可能性がある。但し、「?」は文字識別で読めなかった文字パタン(=不読文字)を意味するものとする。
例えば(1)のケースでは、文字列中の「?」に相当する文字パタンが不読であるとわかる。文字パタンの不読原因としては、元々の文字パタンが擦れにより識別できない場合、重なり文字パタンであるため識別できない場合、ノイズ混入しているため識別できない場合、等の原因が考えられる。これらの内、重なり文字パタンが原因で不読「?」となっているケースについては、他のプレ印刷文字との位置・サイズ比較、あるいは他の印字文字との位置・サイズ比較(同種同士の比較、例えば数字同士が望ましい)、文字パタン中の連結成分数等の情報を使って、重なり文字パタンが原因であろうということが推定できる。なぜならば、擦れが原因であれば文字パタンのサイズには大きな変動が無く、重なり文字のように横幅に広がる(横書きの場合)ことはない。また連結成分数を調べれば擦れが原因かどうかの計算も、ある程度の信頼度を持ってできるからである。ノイズが混入したケースでも同様である。
また(2)のケースでは、重なり文字パタンが「3」と読まれている。この場合も、文字列中の印字文字同士(この場合は、数字同士)の横幅、高さ、位置、文字識別の尤度を比較することにより、「3」が重なり文字パタンを無理に読んでいるとの判定が可能である。同様に(3)のケースでも、重なり文字パタンを「医」と読んでいるが、これも文字列中のプレ印刷文字同士の横幅、高さ、位置、文字識別の尤度を比較することにより、「医」が重なり文字を無理に読んでしまった結果であると判定することが可能である。
重なり文字の具体的な判定手法としては、プレ印刷文字または印字文字同士の横幅比、高さ比、文字識別の尤度などを入力とする識別器ニューラルネット構築する、あるいは線形識別関数・2次識別関数を構築する、またはロジックベース判定器を構築する等の手がある。ニューラルネット、線形識別関数、2次識別関数を用いた重なり文字パタンの判定器は、多量のデータによる学習が必要となるが精度の高い判定が可能である。またロジックベースによる判定器は、ヒューリスティック盛り込むことにより比較的少量のデータでも精度の良い判定が可能になるというメリットがある。
尚、401の処理は、106の文字列検定部で、文字列パス中に重なり文字があると判定する場合にも用いられる。106によって文字列中に重なり文字があると判定された場合は、重なり文字の処理(第1図107、及び第4図)に移行する。
402のプレ印刷情報推定について述べる。これは重なり文字の近傍のプレ印刷文字から、重なり文字中のプレ印刷文字の位置・サイズ等を推定する処理である。例えば第2図(a)に掲げた文字列を例とすれば、この場合は「医」が重なり文字である。このとき、まず初めに、「医」と同じグループに属する「コ」の位置・サイズを参照する。「コ」が不読であるばあいは、他の文字で最も近い文字、例えば「県」「番」などからプレ印刷文字の位置・サイズを推定する。例えば、プレ印刷文字の高さ・文字行中の上下位置がほぼ一定であることを利用すれば高さ・上下配置の推定が可能であり、また重なり文字に含まれるプレ印刷文字のコードが分かれば、それが重なり文字中の左右どちらかに存在するかが推定できる。ここで求めた重なり文字パタン中のプレ印刷文字の推定位置推定サイズは、後の処理で用いられる。このように本願発明では、従来処理では文字切出しが難しかったパタンに対しても、プレ印刷文字と印字文字を区別した文字列表記知識を使って一段目の文字列読取りを行うため、正常な文字パタンのサイズや位置、本来書かれるべきプレ印刷の位置等の情報が容易に計算され、これらの情報を利用することで重なり文字の判別精度を向上することができる。
403で行われる3通りの文字抽出及び識別処理(406〜408)について述べる。重なり文字は第5図に示すように、線の太さと接触の度合いによって分類される。501は印字文字の線の太さがプレ印刷文字よりも十分太いケースを、502は印字文字の線の太さがプレ印刷文字よりもやや太いケースを、503は印字文字の線の太さがプレ印刷文字と等しいか、または細いケースを示す。504は印字文字とプレ印刷文字が文字の左右端で接触しているケース、505はどちらかのパタンがやや含まれる形で接触しているケース、506は両者が完全に重なっているケースを示す。これらのケースに対して3通りの文字抽出を行うことで、507に示すマスク部分のケースに対して対応を行う。尚、508のケースに対しては、識別結果の尤度等により文字識別を棄却することを方針とする。第5図に示した通り、重なり文字のケースはその形態により幾つかに分類でき、各形態に有効な文字抽出処理が存在する。その中の一つである太線抽出処理は、プレ印刷文字と印字文字とで線の太さが異なるケースにおいて有効に機能する。また、外接矩形分解処理は、プレ印刷と印字文字とが異なる高さに印字されたケースにおいて有効に機能する。さらに文字パタン照合処理は、上記処理の適用が困難な場合において補完的に機能する。本願発明では、重なり文字と推定されたパタンに対して、これら複数の文字抽出処理を並行に適用することで、様々な重なり文字のケースに対して対応可能な処理を実現する。
重なり文字処理の第1の処理は、太線パタンの抽出及び識別を使ったものである(406)。これは第5図のプレ印刷文字に比べて印字文字が十分に太く印刷されたケースにおいて有効である。406の処理は3つの過程から構成され、まず太線パタンの抽出(410)を行い、次に抽出したパタンのサイズ等の検定を行い(411)、最後に文字識別を行う(412)。
410の処理にはモルフォロジー(「モルフォロジー」コロナ社、ISBN4−339−00664−5等に記載)を用いる。モルフォロジーとは、画像の太め・細め平滑化細線化等の処理を、処理対象画像Aと構造要素Bと呼ばれる2つの画像間に対してミンコフスキー和・ミンコフスキー差等の演算を適用することによって実現する、画像処理の演算体系である。
2値画像に対するモルフォロジー演算の模式図を第6図に示す。この例ではモルフォロジーのopening演算を使い、構造要素に3×3ドットの画像を用いて(b)、対象画像A(a)から最低3ドット以上の太さを持つパタンを抽出している(c)。モルフォロジーの構造要素は、これ以外にも様々に定義ができるので、より太いパタンあるいは細いパタンでも選択的に抽出できる。この図のように太線抽出には一般にopening演算が使われる。opening演算は次のように定義される。
opening演算:(A−Bs)+B
但し、「+」は画像間のミンコフスキー和、「−」は画像間のミンコフスキー差、Bsは画像Bの原点に関する対象図形を表すものとする。

0006

太線抽出のみでは、本来抽出したい太線数字文字以外の所にも雑音領域が抽出される恐れがあるので、抽出後に、他の印字文字のサイズに比べて閾値α倍以上に小さい孤立領域を除去する等の、パタンの検定作業を行う(411)。この処理の後に文字識別を行う(412)。
重なり文字処理の第2の処理は、文字パタンの矩形分解及び識別を使ったものである(407)。これは第5図に示すとおり、プレ印刷文字に比べて印字文字(この場合は数字)の線の太さは同様であるが、文字が完全に重ならないケースや、両者の文字の大きさが異なる、または位置がずれて印刷されるケースを対象とする。407の処理は3つの過程から構成され、まず矩形分解を行い印字文字のパタンを抽出し(413)、次に抽出したパタンのサイズ等の検定を行い(414)、最後に文字識別を行う(415)。
413の矩形分解処理は、大きさの異なる文字パタン、または位置がずれた文字パタンの重なりについては、矩形の重なりとして表現できることを利用する。重なり文字が2つの矩形重なりとして表現できた場合、402で行ったプレ印刷文字の位置・サイズ推定の結果から、どちらの矩形がプレ印刷文字に相当するかが分かるので、プレ印刷文字に相当する矩形部分内の画素を消去し、目的である印字文字のパタンを抽出することが可能となる。この処理の概念図を第7図に掲げる。第7図では、数字「4」とプレ印刷文字「コ」が重なった様子を示している。矩形分解により文字パタンの重なりが2つの矩形の重なりとして表現できる。数字「4」に相当する矩形が701、プレ印刷文字「コ」に相当する矩形が702である。事前に行われているプレ印刷文字の位置推定によって、2つの矩形のどちらがプレ印刷文字に相当するかが分かるので、該当するプレ印刷文字の矩形部分の画像を消去することで、読取り対象である数字パタンを抽出することができる。
重なり文字の矩形分解は次のように行う。初めに重なり文字の外接矩形を求める。次に外接矩形の4隅を中心として白領域の矩形を広げる。その際、孤立黒領域が悪影響を及ぼさないように、あるサイズ以下の連結黒領域はあらかじめ削除する。求まった左右上下4隅の白領域に対して、次の条件で正規化を行う。例えば右側の上下白領域のサイズは次のように正規化する。初めに、右上の白領域のサイズを(sx1、sy1)、右下の白領域のサイズを(sx2、sy2)とする。このとき、それぞれの値を次の処理により書き換える。

同様の処理を左端の白領域サイズについても行う。この処理は、基本的に右端(または左端)の上下の白領域の横幅(sx1、sx2)を両者の最小値に等しくする正規化処理である。但し、ノイズの影響によって誤った白領域が求まることを配慮して、白領域の高さが閾値βよりも小さいものついてはこれを無視する。また、ここで述べた方法以外にも、モルフォロジー演算を適用した矩形分解が可能である。これはあらかじめ推定したプレ印刷文字パタンの大きさを用いて、横1ドット、縦にプレ印刷文字の高さサイズの構造要素を用意し、これを用いてclosing演算を行うことで実現される。これにより文字内部の微小黒画素塗りつぶされ、外輪郭を矩形として近似されるからである。closing演算は次に定義される。
closing演算:(A+BS)—B
但し、「+」は画像間のミンコフスキー和、「−」は画像間のミンコフスキー差、BSは画像Bの原点に関する対象図形を表すものとする。

発明を実施するための最良の形態

0007

これらの処理により印字文字が抽出される。次に抽出した印字文字についてパタン検定(414)と文字識別(415)を行う。この処理については411、412と同じである。
重なり文字処理の第3の処理は文字パタンの照合及び識別を使ったものである(408)。文字パタンの形状照合の概念図を第8図に示す。第8図では、対象図形(a)に対して、あらかじめ用意していたプレ印刷文字のパタン(b)を使ってパタン照合を行い、重なった部分をプレ印刷文字部分として消去する(c)。図(c)ではパタン照合の結果、印字文字部分が801に、プレ印刷文字のパタンが802に示されている。照合アルゴリズムとしては、動的計画法を用いたXY軸独立整合法や屈曲ワープサーチ法(”Recognition of Handwritten Digits Using Template and Model Matching,” Pattern Recognition, vol.24, no.5, pp.421−431等に記載)を用いる。408の処理は3つの過程から構成され、まずパタン照合によりプレ印刷文字の位置特定と除去を行い(416)、次に抽出したパタンのサイズ等の検定を行い(417)、最後に文字識別を行う(418)。417及び418の処理については、それぞれ411及び412と同様である。
以上述べた3つの処理により、プレ印刷文字が除去され、読取り対象である印字文字(この場合は数字)が残り、それぞれの処理後のパタンに対して識別が行われる。次にこれらの識別結果の順位を決定する(409)。判定は基本的に文字識別の尤度の降順(高い順)に選ばれる。但し特定のパタン(数字の「1」など)については、プレ印刷文字除去の結果、たまたま残ったノイズを読んでしまうなどの間違いが多く見られるので、これら特定パタンに対しては文字識別の尤度を下げる処理を行う。最後に重なり文字パタンを再認識した結果に基づいて知識処理を適用し、文字列パスを計算し(404)、検定を行って文字列パスを決定する(405)。このように本願発明では、文字列の表記知識を用いて重なり文字の推定を行い、重なり文字と推定されたパタンに対しては、複数の文字抽出処理及び文字識別を並列に行い、それら複数の識別結果の中から最適なものを選択することにより、切出し誤りやノイズ等に対してロバストな読取り処理を実現する。
最後に第9図を詳述する。これは本発明による文字列認識装置を組み込んだ帳票読取装置の一構成例である。この装置は、画像入力装置(901)により帳票を電子データに変換し、それを外部記憶装置(904)及びメモリ(905)に蓄えて、中央演算装置(906)が記憶媒体等に記録された本願発明実行のためのプログラムを読み出すことにより本願発明の文字列認識処理を行う。必要となる文字列表記知識、帳票読取り定義位置などは外部記憶装置(904)に蓄えられる。これらの処理は操作端末装置(902)を通して人間が操作可能であり、処理の結果等は表示端末装置(903)を通して表示され、また通信装置(907)を通して外部装置とのデータ連携が可能である。
以上の様に、本願においては、予め印刷された文字を含む帳票に、記入された文字列を認識する文字列認識手法であり、予め印刷された文字(プレ印刷文字)とプリンタ等を用いて後から帳票に印字された文字(印字文字)とが混在する環境下において、文字切出多重仮説と文字列表記知識を用いて共に読取ることを基本処理とし、プレ印刷文字と印字文字とが重なった場合に、重なったパタン(重なり文字)を判定する機能を有し、重なり文字に対して、太線抽出、矩形分解、パタン照合等の技術を用いてプレ印刷文字除去及び印字文字抽出を行い、文字の再識別及び再知識照合処理を行うことで、印字文字を正しく読取ることを特徴とする文字列認識手法を開示する。

図面の簡単な説明

0008

以上説明したように本発明による文字列認識装置は、プレ印刷文字と印字文字とが重なった場合においても、プレ印刷文字と印字文字とを区別した文字列表記知識を用いて重なり文字を判定し、重なり文字に対しては複数の処理を使って印字文字を抽出し、再文字識別及び再知識照合を行うことで、文字列認識を行うことが可能となる。

図1
重なり文字処理を含む文字列認識のフロー図。
図2
読取り対象文字行及び文字列表記知識の概要図。
図3
文字列表記知識を用いた文字列読取りの概念図。
図4
重なり文字処理のフロー図。
図5
重なり文字パタンの分類図
図6
モルフォロジーによる太線抽出処理の概念図。
図7
矩形分解によるプレ印刷文字除去処理の概念図。
図8
パタン照合によるプレ印刷文字除去処理の概念図。
図9
重なり文字列読取機能を組み込んだ帳票認識装置の一構成例。
【符号の説明】
101…画像入力
102…帳票解析部
103…読取り対象行の抽出部
104…文字パタン候補の生成部
105…知識処理部
106…文字列検定部
107…重なり文字処理部
201…文字列表記知識中の印字文字部分
202…文字列表記知識中のプレ印刷文字部分
401…重なり文字の候補を列挙する処理
402…重なり文字中のプレ印刷文字の情報を推定する処理
403…重なり文字候補の全てに関するループ処理
404…重なり文字処理後の知識処理
405…文字列検定処理
406…太線仮説処理
407…矩形仮説処理
408…パタン照合処理
409…識別結果選択処理
410…太線パタン抽出による印字文字抽出処理
411…パタンの検定処理
412…文字識別処理
413…矩形分解による印字文字抽出処理
414…パタンの検定処理
415…文字識別処理
416…パタン照合による印字文字抽出処理
417…パタンの検定処理
418…文字識別処理
501…印字文字の線の太さがプレ印刷文字より十分太いケース
502…印字文字の線の太さがプレ印刷文字よりやや太いケース
503…印字文字の線の太さがプレ印刷文字と同じか細いケース
504…印字文字とプレ印刷文字が弱く接触するケース
505…印字文字とプレ印刷文字が強く接触するケース
506…印字文字とプレ印刷文字が完全に重なるケース
507…本発明で読取り対象とするケース
508…本発明で読取り棄却とするケース
701…矩形分解において印字文字矩形と判定された部分
702…矩形分解においてプレ印刷文字矩形と判定された部分
801…文字パタン照合において印字文字と判定された部分
802…文字パタン照合においてプレ印刷文字と判定された部分
901…画像入力装置
902…操作端末装置
903…表示端末装置
904…外部記憶装置
905…メモリ
906…中央演算装置
907…通信装置。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ