図面 (/)

技術 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム

出願人 株式会社リコー
発明者 大黒慶久
出願日 2012年12月7日 (6年8ヶ月経過) 出願番号 2012-267869
公開日 2014年6月26日 (5年1ヶ月経過) 公開番号 2014-115750
状態 特許登録済
技術分野 計算機におけるファイル管理 検索装置 文書処理装置 機械翻訳
主要キーワード 自動置換 連続記号 制限サイズ 出力規制 写真ページ 分割形式 書き込み出力 存在位置情報
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年6月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

本発明は、文書画像データに対して、該文書画像データの出力先での出力条件に適した形式文書名データを作成する。

解決手段

文書処理装置1は、OCR部13が文書画像データから抽出した文字情報から、タイトル作成部14が、該文書画像データの特徴を示す所定数文字列をタイトル文字列として抽出し、文書名作成部15が、該文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得して、該出力条件に応じた文字条件の前記文書名を上記タイトル文字列から生成する。

概要

背景

外部から取り込んだ文書画像データには、文書名が付与されていない文書画像データがあり、特に、スキャナ装置によって紙文書から取り込んだ文書画像データには、該文書データを有効に利用するために、文書名を付与して保管管理する必要がある。

このような取り込んだ文書画像データに対して文書名を付与する方法としては、従来、取り込んだ日付や所定の連番等を自動作成して付与する方法が用いられていたが、日付や連番のみでは、文書画像データの文書内容が分からず、文書画像データの利用性が悪いという問題があった。

そして、ユーザが、取り込んだ文書画像データに対して、該文書画像データの内容に応じた文書名を操作入力することも従来から行われている。この場合、ユーザは、文書名から文書画像データの内容を理解することができ、利用性は向上されるが、文書画像データの数が多いときには、作業性が悪く、改良の必要があった。

そこで、従来、文書画像データから文書画像データの内容に応じたタイトルを抽出する技術が種々提案されている。例えば、文書画像データにOCR(Optical Character Reader:光学式文字読取装置)処理を施して認識した文書に対して、タイトル候補文の各々の特徴量を抽出し、該特徴量が、タイトル候補文と文書中の複数の文との類似度関数である類似度情報を含むようにして、タイトルを抽出する方法(特許文献1参照)、文書画像データの、文字領域の属性、行領域のレイアウト的特徴からレイアウトらしさを抽出してタイトルを抽出する方法(特許文献2参照)、及び、タイトル文字列の近傍に記載されるキーワード文字列とタイトル文字列の相対位置等の情報からタイトルを抽出する方法(特許文献3参照)等がある。

概要

本発明は、文書画像データに対して、該文書画像データの出力先での出力条件に適した形式文書名データを作成する。文書処理装置1は、OCR部13が文書画像データから抽出した文字情報から、タイトル作成部14が、該文書画像データの特徴を示す所定数の文字列をタイトル文字列として抽出し、文書名作成部15が、該文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得して、該出力条件に応じた文字条件の前記文書名を上記タイトル文字列から生成する。

目的

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文書画像データから文字情報を抽出する文字情報抽出手段と、前記文情報抽出手段の抽出した前記文字情報から前記文書画像データの特徴を示す所定数文字列を文書名候補文字列として抽出する特徴文字列抽出手段と、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する出力条件取得手段と、前記出力条件に応じた文字条件の前記文書名を前記文書名候補文字列から生成する文書名生成手段と、を備えていることを特徴とする文書処理装置

請求項2

前記出力条件取得手段は、前記出力条件として、文字コードを取得し、前記文書名生成手段は、前記文字条件として、前記出力条件の前記文字コードを採用して、該文字コードの前記文書名を生成することを特徴とする請求項1記載の文書処理装置。

請求項3

前記文書名生成手段は、前記出力条件取得手段が、記憶メディアへの蓄積を前記出力先とする出力条件を取得すると、前記文字条件として、前記文書画像データで用いられている文字コードを採用して、該文字コードの前記文書名を生成することを特徴とする請求項1または請求項2記載の文書処理装置。

請求項4

前記文書名生成手段は、前記出力条件取得手段が、メール送信またはデータ送信による他の装置を前記出力先とする出力条件を取得すると、前記文字条件として、ASCII文字コードの前記文書名を生成することを特徴とする請求項1または請求項2記載の文書処理装置。

請求項5

前記文書名生成手段は、前記出力条件取得手段が、前記出力先として、メール送信による他の装置を取得し、かつ、出力条件の1つとして、該メール送信への添付文書制限データ量を取得すると、前記文書画像データが該制限データ量によって分割される各分割文書画像データに対して同じ文書名を付与するとともに、該文書の順序を示す順序情報を付加した文書名を生成することを特徴とする請求項1から請求項4のいずれかに記載の文書処理装置。

請求項6

文書画像データを取り込んで、該文書画像データに対して、文書処理部が、文書名を付与して保管し、該保管されている該文書画像データに対する出力要求に応じて該文書画像データの出力を行う画像処理装置において、前記文書処理部として、請求項1から請求項5のいずれかに記載の文書処理装置を搭載していることを特徴とする画像処理装置。

請求項7

文書画像データから文字情報を抽出する文字情報抽出処理ステップと、前記文字情報抽出処理ステップで抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理ステップと、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する出力条件取得処理ステップと、前記出力条件に応じた文字条件の前記文書名を前記文書名候補文字列から生成する文書名生成処理ステップと、を有していることを特徴とする文書処理方法

請求項8

制御プロセッサに、文書画像データから文字情報を抽出する文字情報抽出処理と、前記文字情報抽出処理で抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理と、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する出力条件取得処理と、前記出力条件に応じた文字条件の前記文書名を前記文書名候補文字列から生成する文書名生成処理と、を実行させることを特徴とする文書処理プログラム

技術分野

0001

本発明は、文書処理装置画像処理装置文書処理方法及び文書処理プログラムに関し、詳細には、文書画像データに対して、該文書画像データの出力時及び出力先での出力条件に適した形式文書名を作成する文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムに関する。

背景技術

0002

外部から取り込んだ文書画像データには、文書名が付与されていない文書画像データがあり、特に、スキャナ装置によって紙文書から取り込んだ文書画像データには、該文書データを有効に利用するために、文書名を付与して保管管理する必要がある。

0003

このような取り込んだ文書画像データに対して文書名を付与する方法としては、従来、取り込んだ日付や所定の連番等を自動作成して付与する方法が用いられていたが、日付や連番のみでは、文書画像データの文書内容が分からず、文書画像データの利用性が悪いという問題があった。

0004

そして、ユーザが、取り込んだ文書画像データに対して、該文書画像データの内容に応じた文書名を操作入力することも従来から行われている。この場合、ユーザは、文書名から文書画像データの内容を理解することができ、利用性は向上されるが、文書画像データの数が多いときには、作業性が悪く、改良の必要があった。

0005

そこで、従来、文書画像データから文書画像データの内容に応じたタイトルを抽出する技術が種々提案されている。例えば、文書画像データにOCR(Optical Character Reader:光学式文字読取装置)処理を施して認識した文書に対して、タイトル候補文の各々の特徴量を抽出し、該特徴量が、タイトル候補文と文書中の複数の文との類似度関数である類似度情報を含むようにして、タイトルを抽出する方法(特許文献1参照)、文書画像データの、文字領域の属性、行領域のレイアウト的特徴からレイアウトらしさを抽出してタイトルを抽出する方法(特許文献2参照)、及び、タイトル文字列の近傍に記載されるキーワード文字列とタイトル文字列の相対位置等の情報からタイトルを抽出する方法(特許文献3参照)等がある。

発明が解決しようとする課題

0006

しかしながら、上記従来技術にあっては、いずれも、文書画像データからタイトル(文書名)として文書画像データの内容に適した文字列を抽出する技術であるが、抽出した文書名を出力する出力先のデバイスについては、考慮されておらず、改良の必要があった。

0007

すなわち、文書画像データは、種々のデバイスに保管されて利用されたり、種々のソフトウェアを利用して転送されて利用され、このような場合に、文書画像データを上記文書名に基づいて特定して文書画像データの利用上の利便性を向上させるために、文書名を付与する。

0008

ところが、文書名の表示出力記録出力においては、デバイスによって文字コード相違があったり、文書画像データを転送等で出力するソフトウェアには、一回の送信で送信可能なデータ量に制限があったり、文書名の文字数に制限ある等のように種々の制限がある。その結果、文書名が、付与した文字から文字化けする等が発生して正確に出力されなかったり、意図する文書名が出力されない場合があり、文書名の付与において、改良の必要があった。

0009

そこで、本発明は、文書画像データの内容を表現する文書名を、文書名の出力条件に応じて作成することを目的としている。

課題を解決するための手段

0010

上記目的を達成するために、請求項1記載の文書処理装置は、文書画像データから文字情報を抽出する文字情報抽出手段と、前記文字情報抽出手段の抽出した前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名として抽出する文書名生成手段と、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する出力条件取得手段と、前記出力条件に応じた文字条件の前記文書名を生成する文書名生成手段と、を備えていることを特徴としている。

発明の効果

0011

本発明によれば、文書画像データの内容を表現する文書名を、文書名の出力条件に応じて作成することができる。

図面の簡単な説明

0012

本発明の一実施例を適用した文書処理装置の要部ブロック構成図。
文書名作成部のブロック構成図。
基本文書処理を示すフローチャート
出力方式毎出力先指定画面の一例を示す図。
メール送信の場合の文書名生成処理を示すフローチャート。
文書処理を行なうコンピュータ装置の要部ブロック構成図。
複数の装置で分担して文書処理を行う文書処理システム概略構成図。

0013

以下、本発明の好適な実施例を添付図面に基づいて詳細に説明する。なお、以下に述べる実施例は、本発明の好適な実施例であるので、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明によって不当に限定されるものではなく、また、本実施の形態で説明される構成の全てが本発明の必須の構成要件ではない。

0014

図1図7は、本発明の文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムの一実施例を示す図であり、図1は、本発明の文書処理装置、画像処理装置、文書処理方法及び文書処理プログラムの一実施例を適用した文書処理装置1の要部ブロック構成図である。

0015

図1において、文書処理装置1は、文書画像データを取り扱う種々の装置、例えば、複写装置複合装置、スキャナ装置、コンピュータ装置、ブックリーダ等に適用される。文書処理装置1は、少なくとも、本発明の文書処理方法を実行する文書処理プログラムが、不揮発性メモリに導入されて、CPU(Central Processing Unit )等の制御プロセッサが実行することで、文書給紙部11、文書読み取り部12、OCR部13、タイトル作成部14、文書名作成部15及び文書蓄積部16等が構築されている。

0016

すなわち、文書処理装置1は、ROM、EEPROM(Electrically Erasable and Programmable Read Only Memory )、EPROM、フラッシュメモリフレキシブルディスクCD−ROM(Compact Disc Read Only Memory )、CD−RW(Compact Disc Rewritable )、DVD(Digital Versatile Disk)、SD(Secure Digital)カード、MO(Magneto-Optical Disc)等のコンピュータ読み取り可能な記録媒体に記録されている本発明の文書処理方法を実行する文書処理プログラムを読み込んでROMやハードディスク等の不揮発性メモリに導入することで、後述する取り込んだ文書画像データの内容を表現する文書名の文字コードを出力条件に応じて設定する文書処理方法を実行する文書処理装置として構築されている。この文書処理プログラムは、アセンブラ、C、C++、C#、Java(登録商標)等のレガシープログラミング言語オブジェクト指向ブログラミング言語等で記述されたコンピュータ実行可能なプログラムであり、上記記録媒体に格納して頒布することができる。

0017

文書給紙部11は、複数枚の紙文書が載置可能であり、載置された紙文書を1枚ずつ分離して文書読み取り部12に送り出す。

0018

文書読み取り部12は、例えば、CCD(Charge Coupled Device )やCMOS(Complementary Metal Oxide Semiconductor )を利用したイメージスキャナ等が利用されており、文書給紙部11から送り込まれてきた紙文書を、主走査及び副走査して、該紙文書の画像を所定の解像度で読み取って、2値化して、文書蓄積部16及びOCR部13に出力する。

0019

OCR部13は、文書読み取り部12の読み取った紙文書の画像データから文字データを読み出すとともに、該文字データの対応する文字画像位置文字認識スコア及び言語処理結果(文字が所属する単語の位置や品詞等の文法上の情報)等の付加情報を付加してタイトル作成部14に出力する。すなわち、OCR部13は、文書読み取り部12の取り込んだ文書画像データやネットワーク接続等されている他の装置から取り込んだ文書画像データ等から文字情報を抽出する文字情報抽出手段として機能している。

0020

なお、本実施例の文書処理装置1は、紙文書を文書読み取り部12で読み取ることで、文書画像データを取り込んでいるが、文書画像データの取り込み方法としては、上記方法に限るものではない。例えば、文書処理装置1は、紙文書を読み取るスキャナ装置や文書画像データを保存する複写装置、複合装置、コンピュータ装置等からネットワークとネットワークI/Fを介して受信することで、文書画像データを取り込んでもよい。

0021

タイトル作成部14は、OCR部13から入力される文字データ及び付加情報から文書画像データのページ毎に、該ページの内容を特徴的に表現するテキスト(以下、タイトル文字列という。)を抽出して、文書名作成部15に出力する。

0022

すなわち、タイトル作成部14は、OCR部13の抽出した文字情報である文字データ及び付加情報から文書画像データの特徴を示す所定数の文字列をタイトル文字列(文書名候補文字列)として抽出する特徴文字列抽出手段として機能している。

0023

タイトル作成部14によるタイトルの抽出は、上述した特許文献に記載の方法等の既存のタイトル抽出方法を用いることができる。例えば、タイトル作成部14は、ページのタイトルや見出し語が、大きな文字で横書きの場合、ページ上部、縦書きの場合、ページ右側に存在することに注目して、OCR部13からの付加情報のテキスト存在位置情報を参照してタイトルらしさや見出し語らしさを判定する方法、無意味な文字列ではなく、意味のある単語を含むテキストの方が有用である場合が多いことから、OCR結果のテキストを、その付属情報を用いて文法的に解析して、文法的な逸脱の少ないテキストの方を採用する方法、さらには、テキスト位置情報や文法的解析結果等の複数の要素を総合的に評価してページを端的に表現する短いテキストを作成する方法等を用いることができる。タイトル作成部14は、この特徴文字列抽出処理を、文書画像データのページ毎に実行する。

0024

タイトル作成部14は、本実施例では、タイトル文字列として、基本的には、OCR部13がOCR処理して取得した文字列の文字コードで、文書名候補文字列を作成する。

0025

文書名作成部15は、タイトル作成部14が作成したタイトル文字列から、出力時及び出力先での文書名の出力条件に適した文字条件、例えば、文字列及び文字コードを設定して、文書名を作成して、文書蓄積部16に出力する。すなわち、文書名作成部15は、タイトル作成部14の抽出したタイトル文字列から、出力時及び出力先での文書名の出力条件に応じた文字条件、例えば、文字列と文字コードを設定して、文書名を生成する文書名作成手段として機能している。

0026

文書蓄積部16は、ハードディスク等の大容量の不揮発性メモリを備えており、文書読み取り部12から入力される文書画像データと文書名作成部15で作成された文書名を関連付けて不揮発性メモリに保管して管理する。

0027

そして、この文書処理装置1は、上述のように、スキャナ装置、複写装置、複合装置等の画像処理装置に適用され、該画像処理装置の操作表示部のユーザによる操作に応じて、文書蓄積部16に保管されている文書画像データの文書名を、操作表示部のディスプレイに、表示出力する。文書処理装置1は、ユーザが、該ディスプレイの表示される文書名から文書画像データの内容を把握して、意図する文書名の文書画像データを操作表示部の操作で選択操作すると、画像処理装置が、選択された該文書画像データを操作表示部の操作に応じた出力形式、例えば、表示出力、プリント出力、他の装置への転送出力、他の装置へのメールの添付書類としてメール送信出力、USB(Universal Serial Bus)やSDカード等の電子メディアへの書き込み出力である電子メディア書き込み出力等の出力形式で出力を行って、出力先で、文書名を参考にして文書画像データの検索、利用が行えるようにする。

0028

ところが、文書処理装置1が実行する文書画像データ及び文書名の出力においては、出力先のデバイスや出力に用いるソフトウェア(例えば、メールソフトウェア)によって、文書処理装置1における文書画像データや文書名の出力条件、例えば、文字コードや文字数が異なっていることがある。このような場合、文字化けが発生して正確に文書名が出力されなかったり、文字数が生成した文書名よりも少ない文字数に制限されると、意図する文書名が出力されない。その結果、文書名を利用することができなかったり、利用性を損なうこととなる。

0029

そこで、本実施例の文書処理装置1は、文書名作成部15が、図2に示すように、タイトル候補入力部21、文書名文字列決定部22、文字列整形部23及び文書名文字列出力部24等を備えて、出力条件に基づいて文書名の文字コードを設定する。

0030

すなわち、タイトル候補入力部21は、タイトル作成部14からタイトル文字列が入力され、該タイトル文字列を文書名文字列決定部22に入力する。

0031

文書名文字列決定部22は、タイトル候補入力部21から入力されるタイトル文字列から、文書画像データの内容を顕著に表現する文書名候補文字列を選択して文字列整形部23に入力する。

0032

文字列整形部23は、出力先別文書名生成部23a、ファイル規則適用部23b及び出力別規則適用部23cを備えており、同じ意味の文字を、出力条件に適合した文字コードや文字数に整形する。

0033

出力別規則適用部23cは、文書画像データの種々の出力先に応じた文字列整形規則が予め設定登録されている。そして、文書処理装置1は、文書画像データを、例えば、他の装置に有線または無線のネットワークを介して転送してその装置の記憶部のフォルダに記憶させるフォルダ送信、SMB(Server Message Block)を用いて他の装置にネットワークを介して添付文書として文書画像データを添付してメールで送信するメール送信、文書装置1に着脱可能に装着されたUSB(Universal Serial Bus)メモリ、SDメモリ等の電子メディアに書き込む電子メディア書き込み出力及び自機でのプリント出力や表示部への表示出力等の出力方式を利用して出力する。これらの出力方式のうち、フォルダ送信とメール送信による出力方式は、文書名を適切に出力するためには、送信先の装置において利用可能な文字コードを考慮する必要がある。一方、電子メディア書き込み出力は、文書処理装置1に装着された電子メディアへの書き込みであるため、文書処理装置1内で処理が完結することから文字コードを考慮する必要がない。

0034

そこで、出力規制適用部23cは、出力方式がフォルダ送信とメール送信で指定される出力先の装置で利用可能な文字コードを文字列整形規則として予め格納しており、出力先別文書名生成部23aは、出力方式がフォルダ送信とメール送信であると、その出力先装置で利用可能な文字コードを出力規制適用部23cから利用可能な文字コードを取得して、文書名の文字コードとして、出力先装置で利用可能な文字コードを設定する。特に、出力別文書名生成部23aは、出力先装置で利用可能な文字が不明なときには、あらゆる装置で出力が可能なASCIIコードを設定する。

0035

また、出力規制適用部23cは、出力方式が電子メディア書き込みに対しては、OCR処理で取得した文字コードを適用できるように各種文字コードが文字列整形規則として予め格納しており、出力先別文書名生成部23aは、出力方式が電子メディア書き込みであると、OCR処理で取得した文字コードを出力規制適用部23cから取得して、該文字コードを文書名の文字コードとして、設定する。

0036

すなわち、出力先装置が、欧米系言語のみ表示可能な装置であると、この出力先装置で、日本語SJISの文書名を表示させると、1文字を2バイトで表現するSJIS文字列は、無意味な1バイト記号列として表示され、文字化けによって文書名を適切に表示させることができない。また、出力先装置が、日本語のSJISコードを表示可能な装置である場合に、文書処理装置1が、例えば、スペイン語のte'le'phonee':アキュート付きeという単語を含む文書名を送信すると、t駘駱honeというように、文字化けして、適切に表示させることができない。このスペイン語の文字化けは、アキュート付きe(0xE9)がSJISの第1バイトで、それに続くl(0x6C)やe(0x70)がSJIS第2バイトであることから、SJISの漢字に一致して、el(0xE9 0x6C)→駘、ep(0xE9 0x70)→駱と変換されることによる。

0037

ファイル名規則適用部23bは、文書名として利用することで、出力先装置が文書名の認識等を誤認したり、文字列を制限することに対する規制処理を行うための禁止規則が格納されている。

0038

例えば、MS−DOS(登録商標)では、デフォルトでSJISが使用されているが、SJISは、漢字の「表」、カタカナの「ソ」等のように、2バイト目に\が使われる場合がある。ところが、\はWindows(登録商標)では、パス区切り等に使用されているため、文書名に\が使用されていると、パスの区切り等と誤認され、意図しないところでパスが区切られてしまうという問題が発生する。すなわち、文書処理装置1は、文書名に\が含まれていると、存在しないサブディレクトリ解釈され、不正な文書名となって、出力処理に失敗するおそれがある。例えば、Windowsでは、\、/、:、*、?、"、<、>、|の文書名(ファイル名)としての使用が禁止されている。

0039

そこで、ファイル名規則適用部23bは、文書名として使用することを禁止する文字・記号禁止文字・記号として予め格納されている。

0040

そして、出力先別文書名生成部23aは、文書名文字列決定部22から渡された文書名候補文字列に、ファイル名規則適用部23bに格納されている禁止文字・記号が含まれていると、該文字・記号の使用を禁止し、禁止されていない他の適切な文字に自動置換したり、ユーザにその旨を通知して他の文字に変更させる。

0041

また、装置が搭載しているOS(Operating System)によって、ファイル名の長さに制限が設けられており、文書名においても、この長さ制限を超える文書名を使用することができない。

0042

そこで、ファイル名規則適用部23bは、文書名としての文字列の長さを規制する規制文字列長さが予め格納されている。

0043

そして、出力先別文書名生成部23aは、文書名文字列決定部22から渡された文書名候補文字列が、ファイル名規則適用部23bに格納されている規制文字列長さを超えていると、該規制文字列長さへの規制を行う。すなわち、出力先別文書名生成部23aは、該文字列の使用禁止、文書名候補文字列の後端部分の規制文字列長さへの自動切り捨て、ユーザへのその旨の通知による規制文字列の長さの文字列の文書名への変更要求等を行う。

0044

さらに、メール送信においては、ソフトウェアによって、あるいは、受信側の装置によって、添付文書のデータサイズに制限が設けられていることがある。

0045

このような場合、文書処理装置1は、送信対象の文書画像データを、複数の分割文書画像データに分割して、メール送信し、受信側の装置で、複数の分割文書画像データを1つの文書画像データに復元することが行わる。

0046

ところが、このような分割した分割文書画像データを複数のメールで送信する場合に、添付文書である分割文書画像データ毎に、異なる文書名をつけて送信すると、受信側の装置では、複数の分割文書画像データを1つの文書画像データに復元する際に、分割文書画像データの関連を識別することが困難となり、利用性が悪化する。

0047

そこで、出力先別文書名生成部23aは、文書画像データを複数の分割文書画像データに分割して送信する場合には、全ての分割文書画像データに同じ文書名を付与するとともに、送信順に分割文書画像データの元文書画像データとしての並び順を示す数値や記号(例えば、連番や連続記号等)を付与して文書名として生成する。

0048

出力先別文字列名生成部23aは、出力別規則適用部23cとファイル名規則適用部23b及び分割文書画像データに対応する文書名を生成すると、生成した文書名を文書名文字列出力部24に渡す。

0049

文書名文字列出力部24は、文字列整形部23が作成した文書名を、文書蓄積部16に出力する。

0050

すなわち、本実施例の文書名作成部15は、タイトル候補入力部21がタイトル作成部14からタイトル文字列を受け取って文書名文字列決定部22に渡し、文書名文字列決定部22が、入力されるタイトル文字列から、文書画像データの内容を顕著に表現する文書名候補文字列を選択して文字列整形部23に入力する。

0051

文字列整形部23は、その出力先別文書名生成部23aが、出力別規則適用部23cの出力先別文字コード等、ファイル名規則適用部23bの禁止規則等及び分割文書画像データ用文書名付与処理を行なって、適切に表示、送信を行うことができるとともに、利用性良好な文書名を作成する。

0052

次に、本実施例の作用について説明する。本実施例の文書処理装置1は、取り込んだ文書画像データの内容を表現する文書名を、文書名の出力条件に応じて設定する出力条件に応じて作成する。

0053

まず、文書処理装置1による基本文書処理について、図3に基づいて説明する。すなわち、文書処理装置1は、図3に示すように、文書給紙部11に読み取り対象の紙文書があるかチェックし(ステップS101)、読み取り対象の紙文書が文書給紙部11にあるとき(ステップS101で、YESのとき)には、文書給紙部11から1枚だけ紙文書を文書読み取り部12に送給して、文書読み取り部12が、該紙文書を主走査及び副走査して、該紙文書の画像を所定の解像度で読み取って、2値化して、文書蓄積部16及びOCR部13に出力する文書取り込み処理を行う(ステップS102)。

0054

OCR部13は、文書読み取り部12の読み取った紙文書の画像データから文字データを読み出すとともに、該文字データの対応する文字画像位置や文字認識スコア及び言語処理結果(文字が所属する単語の位置や品詞等の文法上の情報)等の付加情報を付加してタイトル作成部14に出力する文字情報抽出処理(OCR処理)を行う(ステップS103)。

0055

タイトル作成部14は、OCR部13から入力される文字データ及び付加情報から文書画像データの該ページの内容を特徴的に表現するテキストであるタイトル文字列を抽出して、文書名作成部15に出力する特徴文字列抽出処理を行なう(ステップS104)。

0056

文書処理装置1は、1ページ分の文書取り込み処理、文字情報抽出処理及び特徴文字列抽出処理を行うと、ステップS101に戻って、読み取り対象の紙文書が文書給紙部22にあるかチェックして(ステップS101)、読み取り対象の紙文書があるときには、同様に、次の紙文書の文書取り込み処理、文字情報抽出処理及び特徴文字列抽出処理を行う処理を、読み取り対象の紙文書がある限り順次繰り返し行う(ステップS101〜S104)。

0057

文書処理装置1は、ステップS101で、読み取り対象の紙文書がないとき(ステップS101で、NOのとき)には、文書名作成部15が、タイトル作成部14が作成したタイトル文字列から予め設定されている出力条件に適した文字列、例えば、出力先の文字コード、出力方式の文字数制限使用可能文字制限等に適合した文字列等、を文書名として作成して、文書蓄積部16に出力する文書名作成処理を行なう(ステップS105)。

0058

文書蓄積部16は、文書読み取り部12から入力される文書画像データ(複数ページからなるときには、該複数のページをまとめた文書画像データ)と文書名作成部15で作成された文書名を関連付けて不揮発性メモリに保管して管理する。

0059

そして、文書処理装置1は、文書名作成部15によるステップS105の文書名作成処理において、文書画像データが複数ページからなる場合、全てのページの特徴文字列抽出結果を利用して、より適切な文書名を作成する。

0060

すなわち、複数ページからなる文書画像データの文書名の作成を行なう場合、通常、先頭ページが表紙と予想されるため、先頭ページのタイトル文字列が文書全体を表現していると考えることができるが、表紙は本文ページとは傾向が異なり、飾り文字で文書名が書かれていたり、文字のない全面写真ページ等のように、OCR部13による文字情報抽出処理では、適切にテキスト処理することのできないページであると、先頭ページからタイトル文字列を取得することができない。また、文書区切りとして白紙が挿入されている場合には、OCR部13は、タイトル文字を取得することができない。

0061

そして、タイトル作成部14は、文字情報抽出処理結果の信頼度や文字サイズ、文字の存在位置等の要素から総合的に評価して、タイトルの順位付けを行なっている。

0062

そのため、OCR部13による文字情報抽出処理の信頼度が低いときには、タイトル作成部14による特徴文字列抽出結果の評価値も低くなる。

0063

そこで、文書名作成部15は、複数のページからなる文書画像データに対しては、全ページの特徴文字列抽出結果を利用して、例えば、各ページの特徴文字列抽出結果の評価値を求め、先頭ページから、該評価値を所定の閾値と比較して、評価値が該閾値よりも低い場合には、次のページに対する特徴文字列抽出結果の評価値を該閾値と比較する処理を順次行う。文書名作成部15は、ページの特徴文字列抽出結果の評価値が該閾値を越えるページがあると、該ページでのタイトル文字列を文書名として用いる。

0064

このようにすると、文字情報抽出処理機能が低い場合にも、適切な文書名を作成することができる。

0065

そして、文書処理装置1は、上記ステップS105の文書名作成処理においては、文書名作成部15の文字列整形部23が、文書画像データの内容を表現する文書名を、上述のように、文書名の出力条件に応じて作成する。

0066

すなわち、文書処理装置1は、例えば、図4に示すように、文書画像データの出力方式として、上述したメール送信、フォルダ送信及び電子メディア書き込みのいずれかで行うものとした場合、紙文書を読み取って(スキャンして)、電子化するとともに文書名を生成・付与して、操作表示部のディスプレイに、出力方式と出力先の選択または入力を行う出力先指定画面を表示し、出力方式と出力先の指定をユーザに行なわせる。

0067

例えば、図4(a)は、メール送信が出力方式として選択されている場合の出力先指定画面、図4(b)は、フォルダ送信が出力方式として選択されている場合の出力先指定画面、図4(c)は、電子メディア書き込みが出力方式として選択されている場合の出力先指定画面を、それぞれ示している。

0068

そして、文字列整形部23は、出力方式が、電子メディア書き込みの場合には、文書処理装置1内で処理が完結することから文字コードを考慮する必要がないため、タイトル作成部14が作成したタイトル文字列、すなわち、文書画像データと同じ文字コードの文字列を文書名として生成する。

0069

ところが、文字列整形部23は、出力方式が、メール送信とフォルダ送信の場合には、出力先の装置によって、タイトル作成部14が作成したタイトル文字列を文書名とすると、該文書名の文字コードや文字長さでは、正確に文書名の表示を行うことができないことがあるため、上述のように、予め出力別規則適用部23cに文字列規制規則として格納されている出力先の装置で利用可能な文字コードを取得して、文書名の文字コードに変更して文書名を生成するか、文字化けを生じさせないASCIIコードで文書名を生成する。

0070

また、文字列整形部23は、ファイル名規則適用部23bに予め格納されている文書名として利用することで、出力先装置が文書名の認識等を誤認したり、文字列を制限することに対する規制処理を行うための禁止規則を読み出して、該禁止規則の文字・記号を自動で代替文字等に自動置換したり、ユーザに変更させる。

0071

さらに、文字列整形部23は、ファイル名規則適用部23bに予め格納されている文書名としての文字列の長さを規制する規制文字列長さを、取得して、規制文字列長さを超えていると、該文字列の使用を禁止して、文書名候補文字列の後端部分を、規制文字列長さになるまで自動で切り捨てたり、ユーザにその旨を通知して、規制文字列の長さ以内に収まる文字列の文書名に変更させる。

0072

また、文字列整形部23は、メール送信においては、ソフトウェアによって、あるいは、受信側の装置によって、添付文書のデータサイズに制限が設けられていることがある。

0073

このような場合、文書処理装置1は、送信対象の文書画像データを、複数の分割文書画像データに分割して、メール送信し、受信側の装置で、複数の分割文書画像データを1つの文書画像データに復元することが行わる。

0074

ところが、このような分割した分割文書画像データを複数のメールで送信する場合に、添付文書である分割文書画像データ毎に、異なる文書名をつけて送信すると、受信側の装置では、複数の分割文書画像データを1つの文書画像データに復元する際に、分割文書画像データの関連を識別することが困難となり、利用性が悪化する。

0075

そこで、出力先別文書名生成部23aは、文書画像データを複数の分割文書画像データに分割して送信する場合には、全ての分割文書画像データに同じ文書名を付与するとともに、送信順に分割文書画像データの元文書画像データとしての並び順を示す数値や記号(例えば、連番や連続記号等)を連続情報として付与して文書名として生成する。

0076

すなわち、文字列整形部23は、図5に示すように、出力方式がメール送信の場合、まず、メールに添付する添付文書の制限サイズを取得し(ステップS201)、上述のようにして生成した文書名を取得して(ステップS202)、添付する文書画像データの文書サイズを取得する(ステップS203)。

0077

文字列整形部23は、文書画像データの文書サイズを取得すると、制限サイズと比較して、文書サイズが制限サイズよりも大きいかチェクする(ステップS204)。

0078

ステップS204で、文書サイズが制限サイズよりも大きとき(ステップS204で、YESのとき)には、文字列整形部23は、文書分割形式を決定し(ステップS205)、文書画像データを該文書分割形式で文書分割する(ステップS206)。

0079

文字列整形部23は、この文書分割形式として、例えば、ファイルの先頭から等しいファイル長の連続領域に等分割する等の単純な分割形式アルゴリズム、文書のページ切れ目に注目し、ページ単位に制限サイズ上限を超えない範囲で分割する分割形式、分散ファイル配置(連続領域を一つのファイルではなく複数のファイルに分散する)やファイル圧縮アルゴリズムと組み合わせた分割方法等の種々の分割形式を用いることができる。そして、文字列政経部23は、これらの各種分割形式のうち、予め設定された分割形式、または、ユーザが適宜選択した分割形式で、文書分割する。

0080

そして、文字列整形部23は、添付ファイル作成と該添付ファイルのファイル名を命名する処理、すなわち、文書画像データを分割しているときには、複数のメールを作成して、送信順にそれぞれ分割した分割文書画像データを添付するとともに該分割文書画像データのファイル名を付与する命名を行う(ステップS207)。この場合、文字列整形部23は、全ての分割文書画像データに同じ文書名を付与するとともに、分割文書画像データの順番を明確にする数値や記号等の連続情報を付与した文書名を生成して命名する。

0081

文字列整形部23は、ステップS204で、文書画像データの文書サイズが制限サイズ以下であると(ステップS204で、NOのとき)、文書画像データの分割を行うことなく、添付ファイル作成と該添付ファイルのファイル名を命名する処理を行う。文書整形部23は、文書画像データを分割しないときには、該画像データをメールの添付ファイルとして添付するとともに、文書名をファイル名として命名する。

0082

なお、この添付ファイル作成と命名処理は、具体的には、文字列整形部23と文書名文字列出力部24が、共同して実行する。

0083

次に、文書名文字列出力部24は、上述のようにして命名された添付ファイルを、メールに添付し(ステップS208)、添付ファイルの添付されたメールを指定のメール宛先にメール送信して処理を終了する(ステップS209)。この場合、文書画像データを分割しているときには、文書名文字列出力部24は、複数のメールを上記連続情報の示す順番に順次送信する。

0084

したがって、メール送信する場合にも、送信先の装置の文字コードを考慮した文書名を付与することができるとともに、データ量に制限がある場合に、制限サイズ以下の文書画像データに分割するとともに、同じ文書名で、連続性を明確にする連続情報を付与した文書名をファイル名として付与してメール送信することができ、送信先装置で正確に文書名を表示することができるとともに、正確かつ容易に元の文書画像データに復元することができる。

0085

なお、上記説明においては、文書画像データの取り込みから文書名作成及び文書蓄積までの処理を、1つの文書処理装置1で行なっているが、文書処理としては、1つの文書処理装置1内での処理に限定されるものではない。例えば、文書処理としては、文書読み取り部12の取り込んだ文書画像データを、図6に示すようなコンピュータ装置30に送信して、コンピュータ装置30が、ソフトウェア処理することで、文字情報抽出処理、特徴文字列抽出処理及び文書名作成処理等の文書処理を行ってもよい。また、この場合、文書蓄積処理も、コンピュータ装置30で行なってもよい。

0086

すなわち、コンピュータ装置30は、CPU31、メモリ32、通信部33、表示部34、ハードディスク35、キーボード36、CD−ROMドライブ37及びFD(フレキシブルディスク)ドライブ38等を備えており、上記各部は、バス39によって接続されている。コンピュータ装置30は、ハードディスク35等に本発明の文書処理プログラムが導入されることで、上記OCR部、タイトル作成部、文書名作成部、文書蓄積も行う場合には、文書蓄積部が構築される。

0087

コンピュータ装置30は、通信部33がLAN(Local Area Network)やインターネット等の通信回線を介して、スキャナ装置等から取り込んだ文書画像データに対して、CPU31が、ハードディスク35等に導入された文書処理プログラムに基づいて、文字情報抽出処理、特徴文字列抽出処理及び文書名作成処理等の文書処理を行なって文書名を作成し、作成した文書名を該文書画像データに関連付けて、ハードディスク35に保管したり、CD−ROMドライブ37に挿入されているCD−ROM、または、FDドライブ38に挿入されているFDに保管する。

0088

また、文書処理は、1つの装置で行う場合に限るものではなく、例えば、図7に示すように、インターネットやLAN等の通信回線NWに接続された複数(図7では、3つ)の装置S1から装置S3を用いて文書処理システムBSを構築して、該文書処理システムBSを構築する装置S1〜S3を用いて実行してもよい。

0089

この場合、例えば、装置S1が、文字情報抽出処理用の文書処理プログラムを搭載して、他の装置または図示しないスキャナ装置等から取り込んだり、自装置がスキャナ処理して取り込んだ文書画像データに対して文字情報抽出処理を実行して、装置S2に、少なくとも文字情報抽出処理結果を、通信回線NWを介して送信する。

0090

装置S2は、タイトル作成用の文書処理プログラムを搭載して、装置S1から送られてきた文字情報抽出処理結果に基づいて、特徴文字列抽出処理を行ない、抽出結果のタイトル文字列を、通信回線NWを介して装置S3に送信する。

0091

装置S3は、文書名作成用の文書処理プログラムを搭載して、装置S2から送信されてきたタイトル文字列から文書名を作成し、装置S1から送られてきた文書画像データまたは装置S2から送られてきた文書画像データと該文書名を関連付けて、自装置内の不揮発性メモリまたは通信回線NW上の記憶装置に保管する。

0092

このように、本実施例の文書処理装置1は、文書画像データから文字情報を抽出するOCR部(文字情報抽出手段)13と、OCR部13の抽出した前記文字情報から前記文書画像データの特徴を示す所定数の文字列をタイトル文字列(文書名候補文字列)として抽出するタイトル作成部(特徴文字列抽出手段)14と、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する文書名作成部(出力条件取得手段)15と、前記出力条件に応じた文字条件の前記文書名を前記文書名候補文字列から生成する(文書名作成部)文書名生成手段)15と、を備えている。

0093

したがって、文書画像データの内容を表現する文書名を、出力時から出力先までの出力方式で要求される出力条件に適した文字条件の文字列で作成することができ、出力先で正確に文書名を出力することができる。

0094

また、本実施例の文書処理装置1は、文書画像データから文字情報を抽出する文字情報抽出処理ステップと、該文字情報抽出処理ステップで抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理ステップと、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する出力条件取得処理ステップと、前記出力条件に応じた文字条件の前記文書名を前記文書名候補文字列から生成する文書名生成処理ステップと、を有する文書処理方法を実行している。

0095

したがって、文書画像データの内容を表現する文書名を、出力時から出力先までの出力方式で要求される出力条件に適した文字条件の文字列で作成することができ、出力先で正確に文書名を出力することができる。

0096

さらに、本実施例の文書処理装置1は、制御プロセッサに、文書画像データから文字情報を抽出する文字情報抽出処理と、該文字情報抽出処理で抽出された前記文字情報から前記文書画像データの特徴を示す所定数の文字列を文書名候補文字列として抽出する特徴文字列抽出処理と、前記文書画像データの文書名の出力を伴う複数の処理方式のうち1つの処理方式で該文書画像データを処理する場合に、該文書画像データの該文書名の出力に対して要求される出力条件を取得する出力条件取得処理と、前記出力条件に応じた文字条件の前記文書名を前記文書名候補文字列から生成する文書名生成処理と、を実行させる文書処理プログラムを搭載している。

0097

したがって、文書画像データの内容を表現する文書名を、出力時から出力先までの出力方式で要求される出力条件に適した文字条件の文字列で作成することができ、出力先で正確に文書名を出力することができる。

0098

また、本実施例の文書処理装置1は、出力条件取得手段としての文書名作成部15が、前記出力条件として、文字コードを取得し、文書名生成手段としての文書名作成部15が、前記文字条件として、前記出力条件の前記文字コードを採用して、該文字コードの前記文書名を生成している。

0099

したがって、文書画像データの特徴を示す所定数の文字列からなるタイトル文字列のうち、出力時及び出力先での出力条件に適した文字コードの文字列を文書名として、文書画像データの内容を表現する文書名を、文書名の出力条件としての文字コードに応じて作成することができ、出力先でより一層正確に文書名を出力することができる。

0100

さらに、本実施例の文書処理装置1は、文書名作成部15が、記憶メディアへの蓄積を前記出力先とする出力条件を取得すると、前記文字条件として、前記文書画像データで用いられている文字コードを採用して、該文字コードの前記文書名を生成している。

0101

したがって、文書処理装置1内で完結する処理に対して、該文書処理装置1で表現可能な文字コードを採用して文書名を生成することができ、正確に文書名を出力することができる。

0102

また、本実施例の文書処理装置1は、文書名作成部15が、メール送信またはデータ送信による他の装置を前記出力先とする出力条件を取得すると、前記文字条件として、ASCII文字コードの前記文書名を生成している。

0103

したがって、メール送信またはデータ送信による出力先装置で利用可能な文字コードが不明であっても、正確に文書名を出力することができる。

0104

さらに、本実施例の文書処理装置1は、文書名作成部15が、前記出力先として、メール送信による他の装置を取得し、かつ、出力条件の1つとして、該メール送信への添付文書の制限データ量を取得すると、前記文書画像データが該制限データ量によって分割される各分割文書画像データに対して同じ文書名を付与するとともに、該文書の順序を示す順序情報を付加した文書名を生成している。

0105

したがって、文書画像データをメール添付文書として送信する場合に、分割する必要があっても、送信先で正確に文書名を出力させることができるとともに、分割した文書画像データを相互に関連性が分かるように文書名を付与することができ、利用性を向上させることができる。

実施例

0106

以上、本発明者によってなされた発明を好適な実施例に基づき具体的に説明したが、本発明は上記実施例で説明したものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

0107

1文書処理装置
11文書給紙部
12 文書読み取り部
13OCR部
14タイトル作成部
15 文書名作成部
16 文書蓄積部
21タイトル候補入力部
22 文書名文字列決定部
23 文字列整形部
23a出力先別文書名生成部
23bファイル名規則適用部
23c 出力別規則適用部
24 文書名文字列出力部
30コンピュータ装置
31 CPU
32メモリ
33通信部
34 表示部
35ハードディスク
36キーボード
37CD−ROMドライブ
38FDドライブ
39バス
NW通信回線
S1〜S3 装置

先行技術

0108

特開2007−122403号公報
特開2002−297629号公報
特開2008−077454号公報

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ