図面 (/)

技術 文書検索装置、文書検索システム及びプログラム

出願人 富士ゼロックス株式会社
発明者 大竹祐
出願日 2018年9月20日 (2年3ヶ月経過) 出願番号 2018-175759
公開日 2020年3月26日 (8ヶ月経過) 公開番号 2020-047031
状態 未査定
技術分野 検索装置
主要キーワード 文書特性 因子情報 文字列イメージ 光学式文字読み取り装置 類似文字列 検索用文字列 要因情報 コインキット
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

一つの入力検索文字列に対して複数の検索用文字列を用いて検索を実行するものと比較して、検索漏れを少なくするように維持しつつ、検索処理数を減少させることができる文書検索装置文書検索システム及びプログラムを提供する。

解決手段

文書検索装置20は、画像データからなる文書受け付ける文書受付手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段32と、前記画像文字列変換手段32により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段40と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して検索処理する検索処理手段44と、を有する。

概要

背景

特許文献1は、検索文字列を対応する文字列イメージ展開する展開工程と、前記展開工程で展開された文字列イメージに所定のフィルタリングを行うフィルタリング工程と、前記フィルタリング工程でフィルタリングされた文字列イメージを独立部分にセグメンテーションし、セグメンテーションされた各部分の文字認識を行い、認識文字列候補を獲得する認識工程と、前記認識工程で獲得された認識文字列候補の違いに基づいて、組み合わせ可能な別の認識文字列候補を生成する生成工程と、前記生成工程で生成された前記組み合わせ可能な別の認識文字列候補と前記認識工程で獲得された認識文字列候補の論理和条件で所定の文字列の検索を行う文字列検索工程とを備えることを特徴とする画像検索方法を開示する。

特許文献2は、紙の形態の文書イメージデータとして取り込むためのスキャナと、検索結果を表示するディスプレイと、検索条件式を入力するキーボードと、文書をテキストコードの状態で蓄積する蓄積手段と、蓄積したテキストコードを読出して検索条件式として指示された文字列が存在する文書を検索する検索手段と、文書を登録する際に紙の形態の文書を該スキャナを用いてイメージ入力し文字認識手段を用いてテキストコードに変換して前記蓄積手段に登録する手段を持つ文書検索装置における文書検索方法であって、前記蓄積手段への文書のテキストコード登録時には前記文字認識手段が認識出力した文字をそのまま登録し、検索時には、検索条件式の検索文字列を文字認識手段が誤認識しやすい文字について複数の候補をあげた類似文字列リストにより展開して展開文字列を生成し、該展開文字列のいずれかの文字列を含む文書を検索することを特徴とする文書検索方法を開示する。

概要

一つの入力検索文字列に対して複数の検索用文字列を用いて検索を実行するものと比較して、検索漏れを少なくするように維持しつつ、検索処理数を減少させることができる文書検索装置、文書検索システム及びプログラムを提供する。文書検索装置20は、画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段32と、前記画像文字列変換手段32により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段40と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して検索処理する検索処理手段44と、を有する。

目的

本発明は、一つの入力検索文字列に対して複数の検索用文字列を用いて検索を実行するものと比較して、検索漏れを少なくするように維持しつつ、検索処理数を減少させることができる文書検索装置、文書検索システム及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

画像データからなる文書受け付ける文書受付手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して検索処理する検索処理手段と、を有する文書検索装置

請求項2

前記画像文字変換手段により変換された文字列から検索インデックスを生成する検索インデックス生成手段をさらに有し、前記分類手段は、前記検索インデックス生成手段により生成された検索インデックスを分類する請求項1記載の文書検索装置。

請求項3

前記文書受付手段により受け付けた文書に関するデータから文書の特性を抽出する文書特性抽出手段をさらに有し、前記分類手段は、前記文書特性抽出手段により抽出された文書の特性で分類する請求項1又は2記載の文書検索装置。

請求項4

前記文書特性抽出手段は、文書を構成する画像の特性を抽出する請求項3記載の文書検索装置。

請求項5

前記文書特性抽出手段は、文書を構成する文字画像解像度、文字サイズ及びフォントの少なくとも1つを含む文書の特性を抽出する請求項4記載の文書検索装置。

請求項6

前記検索処理手段は、前記検索文字列受付手段により受け付けられた検索文字列から前記分類手段により分類された文書の特性に合わせて検索文字列画像を生成する検索文字列画像生成部と、前記検索文字列画像生成部により生成された検索文字列画像を前記画像文字列変換手段により検索用文字列に変換する検索用文字列変換部と、前記検索用文字列変換手段により変換された検索用文字列と前記分類手段により分類された前記画像文字列変換手段の変換結果との組み合わせを決定する決定部とを有し、前記決定部で決定された組み合わせ毎に検索処理する請求項1から5いずれか記載の文書検索装置。

請求項7

画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記画像文字列変換手段に影響を与える要因毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された要因に合わせて変換して検索処理する検索処理手段と、を有する文書検索装置。

請求項8

前記文書受付手段により受け付けた文書に関するデータから前記画像文字列変換手段に影響を与える要因を抽出する要因抽出手段をさらに有し、前記分類手段は、前記要因抽出手段により抽出された要因で分類する請求項7記載の文書検索装置。

請求項9

前記要因抽出手段は、文書を構成する画像の特性から抽出する請求項8記載の文書検索装置。

請求項10

前記要因抽出手段は、文書を構成する文字画像の解像度、文字サイズ及びフォントの少なくとも1つを含む文書の特性を抽出する請求項9記載の文書検索装置。

請求項11

画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書を保存する文書保存手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して前記文書保存手段により保存されている文書を検索する検索処理手段と、を有する文書検索システム

請求項12

画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書を保存する文書保存手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記画像文字列変換手段に影響を与える要因毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された要因に合わせて変換して前記文書保存手段により保存されている文書を検索する検索処理手段と、を有する文書検索システム。

請求項13

画像データからなる文書を受け付けるステップと、受け付けた文書の画像データを文字列に変換するステップと、変換された結果を受け付けた文書の特性毎に分類するステップと、検索文字列を受け付けるステップと、受け付けられた検索文字列を分類された文書の特性に合わせて変換して検索処理するステップと、を有するコンピュータに実行させるためのプログラム

請求項14

画像データからなる文書を受け付けるステップと、受け付けた文書の画像データを文字列に変換するステップと、変換された結果を画像文字列変換に影響を与える要因毎に分類するステップと、検索文字列を受け付けるステップと、受け付けられた検索文字列を分類された要因に合わせて変換して検索処理するステップと、を有するコンピュータに実行させるプログラム。

技術分野

0001

本発明は、文書検索装置文書検索システム及びプログラムに関する。

背景技術

0002

特許文献1は、検索文字列を対応する文字列イメージ展開する展開工程と、前記展開工程で展開された文字列イメージに所定のフィルタリングを行うフィルタリング工程と、前記フィルタリング工程でフィルタリングされた文字列イメージを独立部分にセグメンテーションし、セグメンテーションされた各部分の文字認識を行い、認識文字列候補を獲得する認識工程と、前記認識工程で獲得された認識文字列候補の違いに基づいて、組み合わせ可能な別の認識文字列候補を生成する生成工程と、前記生成工程で生成された前記組み合わせ可能な別の認識文字列候補と前記認識工程で獲得された認識文字列候補の論理和条件で所定の文字列の検索を行う文字列検索工程とを備えることを特徴とする画像検索方法を開示する。

0003

特許文献2は、紙の形態の文書イメージデータとして取り込むためのスキャナと、検索結果を表示するディスプレイと、検索条件式を入力するキーボードと、文書をテキストコードの状態で蓄積する蓄積手段と、蓄積したテキストコードを読出して検索条件式として指示された文字列が存在する文書を検索する検索手段と、文書を登録する際に紙の形態の文書を該スキャナを用いてイメージ入力し文字認識手段を用いてテキストコードに変換して前記蓄積手段に登録する手段を持つ文書検索装置における文書検索方法であって、前記蓄積手段への文書のテキストコード登録時には前記文字認識手段が認識出力した文字をそのまま登録し、検索時には、検索条件式の検索文字列を文字認識手段が誤認識しやすい文字について複数の候補をあげた類似文字列リストにより展開して展開文字列を生成し、該展開文字列のいずれかの文字列を含む文書を検索することを特徴とする文書検索方法を開示する。

先行技術

0004

特開平10−69494号公報
特開平7−152774号公報

発明が解決しようとする課題

0005

本発明は、一つの入力検索文字列に対して複数の検索用文字列を用いて検索を実行するものと比較して、検索漏れを少なくするように維持しつつ、検索処理数を減少させることができる文書検索装置、文書検索システム及びプログラムを提供することを目的としている。

課題を解決するための手段

0006

請求項1に係る本発明は、画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して検索処理する検索処理手段と、を有する文書検索装置である。

0007

請求項2に係る本発明は、前記画像文字変換手段により変換された文字列から検索インデックスを生成する検索インデックス生成手段をさらに有し、前記分類手段は、前記検索インデックス生成手段により生成された検索インデックスを分類する請求項1記載の文書検索装置である。

0008

請求項3に係る本発明は、前記文書受付手段により受け付けた文書に関するデータから文書の特性を抽出する文書特性抽出手段をさらに有し、前記分類手段は、前記文書特性抽出手段により抽出された文書の特性で分類する請求項1又は2記載の文書検索装置である。

0009

請求項4に係る本発明は、前記文書特性抽出手段は、文書を構成する画像の特性を抽出する請求項3記載の文書検索装置である。

0010

請求項5に係る本発明は、前記文書特性抽出手段は、文書を構成する文字画像解像度、文字サイズ及びフォントの少なくとも1つを含む文書の特性を抽出する請求項4記載の文書検索装置である。

0011

請求項6に係る本発明は、前記検索処理手段は、前記検索文字列受付手段により受け付けられた検索文字列から前記分類手段により分類された文書の特性に合わせて検索文字列画像を生成する検索文字列画像生成部と、前記検索文字列画像生成部により生成された検索文字列画像を前記画像文字列変換手段により検索用文字列に変換する検索用文字列変換部と、前記検索用文字列変換部により変換された検索用文字列と前記分類手段により分類された前記画像文字列変換手段の変換結果との組み合わせを決定する決定部とを有し、前記決定部で決定された組み合わせ毎に検索処理する請求項1から5いずれか記載の文書検索装置である。

0012

請求項7に係る本発明は、画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記画像文字列変換手段に影響を与える要因毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された要因に合わせて変換して検索処理する検索処理手段と、を有する文書検索装置である。

0013

請求項8に係る本発明は、前記文書受付手段により受け付けた文書に関するデータから前記画像文字列変換手段に影響を与える要因を抽出する要因抽出手段をさらに有し、前記分類手段は、前記要因抽出手段により抽出された要因で分類する請求項7記載の文書検索装置ある。

0014

請求項9に係る本発明は、前記要因抽出手段は、文書を構成する画像の特性から抽出する請求項8記載の文書検索装置である。

0015

請求項10に係る本発明は、前記要因抽出手段は、文書を構成する文字画像の解像度、文字サイズ及びフォントの少なくとも1つを含む文書の特性を抽出する請求項9記載の文書検索装置である。

0016

請求項11に係る本発明は、画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書を保存する文書保存手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記文書受付手段により受け付けた文書の特性毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された文書の特性に合わせて変換して前記文書保存手段により保存されている文書を検索する検索処理手段と、を有する文書検索システムである。

0017

請求項12に係る本発明は、画像データからなる文書を受け付ける文書受付手段と、前記文書受付手段により受け付けた文書を保存する文書保存手段と、前記文書受付手段により受け付けた文書の画像データを文字列に変換する画像文字列変換手段と、前記画像文字列変換手段により変換された結果を前記画像文字列変換手段に影響を与える要因毎に分類する分類手段と、検索文字列を受け付ける検索文字列受付手段と、前記検索文字列受付手段により受け付けられた検索文字列を前記分類手段により分類された要因に合わせて変換して前記文書保存手段により保存されている文書を検索する検索処理手段と、を有する文書検索システムである。

0018

請求項13に係る本発明は、画像データからなる文書を受け付けるステップと、受け付けた文書の画像データを文字列に変換するステップと、変換された結果を受け付けた文書の特性毎に分類するステップと、検索文字列を受け付けるステップと、受け付けられた検索文字列を分類された文書の特性に合わせて変換して検索処理するステップと、を有するコンピュータに実行させるためのプログラムである。

0019

請求項14に係る本発明は、画像データからなる文書を受け付けるステップと、受け付けた文書の画像データを文字列に変換するステップと、変換された結果を画像文字列変換に影響を与える要因毎に分類するステップと、検索文字列を受け付けるステップと、受け付けられた検索文字列を分類された要因に合わせて変換して検索処理するステップと、を有するコンピュータに実行させるプログラムである。

発明の効果

0020

請求項1、7、11から14いずれかに係る本発明によれば、一つの入力検索文字列に対して複数の検索用文字列を用いて検索を実行するものと比較して、検索漏れを少なくするように維持しつつ、検索処理数を減少させることができる。

0021

請求項2に係る本発明によれば、請求項1に係る本発明の効果に加えて、インデックス検索を行うことができる。
なお、インデックス検索とは、文書から予め検索対象となる文字列を抽出して索引を作っておく検索方法であり、検索インデックスとはインデックス検索に用いる索引のことである。

0022

請求項3に係る本発明によれば、請求項1又は2に係る本発明の効果に加えて、文書の特性を文書から抽出して文書の特性により分類することができる。

0023

請求項4に係る本発明によれば、請求項3に係る本発明の効果に加えて、文書の特性を、文書を構成する画像から求めることができる。

0024

請求項5に係る本発明によれば、請求項4に係る発明の効果に加えて、文字画像の解像度、文字サイズ及びフォントの少なくとも1つから文書の特性を抽出することができる。

0025

請求項6に係る本発明によれば、請求項1から5いずれかに係る本発明の効果に加えて、検索処理においては、分類された文字の特性と同様の特性を検索文字列が持つようにして検索することができる。

0026

請求項8に係る本発明によれば、請求項7に係る本発明の効果に加えて、画像文字列変換に影響を与える要因を文書の特性から抽出することができる。

0027

請求項9に係る本発明によれば、請求項8に係る発明の効果に加えて、文書を構成する画像から文書の特性を抽出することができる。

0028

請求項10に係る本発明によれば、請求項9に係る本発明の効果に加えて、文字画像の解像度、文字サイズ及びフォントの少なくとも1つから文書の特性を抽出することができる。

図面の簡単な説明

0029

本発明の実施形態に係る文書検索システムを有する文書管理システムを示すブロック図である。
本発明の実施形態に係る文書検索装置のハードウエアを示すブロック図である。
本発明の実施形態に係る文書検索装置の機能の概略を示す説明図である。
本発明の実施形態に係る文書検索装置の機能を示すブロック図である。
本発明の実施形態に係る文書検索装置において、保存データの一例を示す図表である。
本発明の実施形態に係る文書検索装置において、検索先のインデックス決定の組み合わせの一例を示す図表である。
本発明の実施形態に係る文書検索装置において、保存処理における処理フローを示すフローチャートである。
本発明の実施形態に係る文書検索装置において、検索処理における処理フローを示すフローチャートである。

実施例

0030

次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る文書検索システム10を有する文書管理システム12の全体を示す。

0031

文書管理システム12は、端末装置である複数のパーソナルコンピュータ14a,14bがネットワーク16を介して接続されている。ネットワーク16は、ローカルエリアネットワークでもよいし、インターネットでもよい。また、ネットワーク16には、複数の画像形成装置18a,18bが接続されている。画像形成装置18a,18bは、プリント機能ファクシミリ機能コピー機能スキャン機能等を有する、いわゆる複合機である。

0032

画像形成装置18a,18bは、認証装置を有し、この認証装置によって認証された使用者が使用できるようになっている。

0033

文書検索システム10は、例えばサーバである文書検索装置20と、大容量の記憶装置であるデータベース22とを有する。データベース22には、画像形成装置18a,18bを経由した文書がログと共に記憶される。即ち、画像形成装置18a,18bによりプリントされ、ファクシミリ機能により送受信され、コピーされ、又はスキャンされた文書を使用者のID(Identification、画像形成装置の使用者を一意識別するための番号や略称)及び使用日時等と共に記憶する。パーソナルコンピュータ14a,14bからプリント指示等を行った場合は、画像形成装置14a,14bで認証された使用者のIDの代わりにパーソナルコンピュータ14a,14bの使用者のIDであってもよい。

0034

文書検索装置20は、図2に示すように、CPU23、メモリ24、記憶装置26及びネットワークインターフェイス28を有し、これらCPU23、メモリ24、記憶装置26及びネットワークインターフェイス28がバス30を介して接続されている。

0035

CPU23は、メモリ24に格納された制御プログラムに基づいて予め定められた処理を実行する。記憶装置26は、例えばハードディスクから構成され、必要とされるソフトウエアやデータが記憶されている。ネットワークインターフェイス28は、前述したネットワーク14を介してデータを入出力する。

0036

図3は、文書検索装置20の概略機能を説明する説明図である。
まず文書の保存処理時について説明する。
文書検索装置20は、例えば画像データから構成された文書A,B,Cを受け付ける。文書A,B,CはOCR光学式文字読み取り装置の略であるが、ここでは画像データを文字列データに変換するソフトウエア)により文字列データに変換される。また、文書A,B,Cの要因情報を抽出する。要因情報とは、OCRの精度に影響を与える因子情報のことをいう。この要因情報は、文書の特性から判断される。文書の特性には、解像度、文字サイズ、フォントが含まれる。文書の特性は、解像度、文字サイズ及びフォントの少なくとも1つがあればよい。また、回動度、文字サイズ及びフォント以外にさらに背景色、文字の色、言語等が含まれてもよい。

0037

OCRの結果から検索インデックスを生成する。例えば文書Aと文書Cとは同じ要因の値であり、文書A及び文書Bから抽出したインデックスAとインデックスCとは、要因グループ1に分類される。文書Bは、文書A,Cとは要因の値が異なり、文書Bから抽出されたインデックスBは要因グループ2に分類される。このように文書の保存時には、文書から抽出した要因別に検索インデックスを分類する。

0038

次に検索処理時について説明する。
検索時においては、パーソナルコンピュータ14a,14bにおいて検索文字列が作成され、この検索文字列が文書検索装置20へ送られる。文書検索装20では検索文字列に対して検索文字列を画像データに変換する。検索文字列の画像データへの変換は、要因グループ別に実施される。即ち、要因グループ1及び要因グループ2に対応した解像度、文字サイズ、フォントで変換する。そして、このようにして画像データに変換された検索文字列画像を前述した保存処理時に用いた同じOCRにより文字列データに変換する。要因グループ1と同じ条件で文字列データに変換された検索文字列で要因グループ1に分類されたインデックスを検索する。一方、要因グループ2に対しても同じ条件で変換された検索文字列で要因グループ2に分類されたインデックスを検索する。

0039

図4は、文書検索装置20の機能ブロック図である。

0040

OCR処理部32は、受け付けた文書の画像を文字列に変換する。検索インデックス生成部34は、OCR処理部32で変換された文字列から検索インデックスを生成する。この検索インデックス生成部34で生成された検索インデックスは、検索インデックス保存部36により保存される。また、要因情報抽出部38は、文書の特性である解像度、文字サイズ、フォント等、OCRの精度に影響を与える要因の値を抽出して要因グループを形成する。要因グループの形成は、例えば図5に示すように、解像度が300dpi、文字サイズが10.5ポイント、フォントがゴシックである文書に対してOCRをかけた場合は要因グループ1とし、解像度が300dpi、文字サイズが10.5ポイント、フォントが明である文書に対してOCRをかけた場合は要因グループ2とし、解像度が300dpi、文字サイズが11ポイント、フォントが明朝である文書に対してOCRをかけた場合は要因グループ3とする。

0041

分類保存部40は、検索インデックス保存部36に保存された検索インデックスを要因情報抽出部38で抽出されたどのグループに保存するかを決定して検索インデックスを保存する。
なお、要因情報抽出部32で抽出された要因情報は要因情報保存部42により保存される。

0042

検索処理部44は、検索文字列画像の生成部46、検索文字列画像のOCR処理部48及び検索インデックスの組み合わせ決定部50とから構成されている。

0043

検索文字列画像の生成部46は、ユーザから受け付けた検索文字列を、前述した要因情報保存部42に保存されている要因グループの要因の値に従って要因グループ毎に検索文字列を画像に変換して検索文字列画像を生成する。

0044

検索文字列画像のOCR処理部48は、検索文字列画像の生成部48で生成された検索文字列画像を要因グループ毎に検索文字列に変換する。

0045

検索インデックスの組み合わせ決定部50は、検索文字列画像のOCR処理部48で変換された検索文字列によりどの検索インデックスを検索するかを決定する。
即ち、図6に示すように、検索インデックス1は番号1の要因グループに、検索インデックス2は番号2の要因グループに、検索インデックス3は番号3の要因グループにそれぞれ保存されているとする。ここで、検索文字列が「AAA」であり、この検索文字列「AAA」を要因グループ1の値で画像に変換し、さらにOCR処理した結果が「AAA」となり、要因グループ2の値で画像に変換し、OCR処理した結果が「AAB」となり、要因グループ3の値で画像に変換し、さらにOCR処理した結果が「ABA」であれば、検索インデックス1は、「AAA」による検索を受け、検索インデックス2は、「AAB」で検索を受け、検索インデックス3は、「ABA」で検索を受けることになる。

0046

図7は、文書検索装置20の保存処理時の処理フローを示すフローチャートである。
まず、ステップS10において、対象となる文書を受信する。次のステップS12においては、ステップS10で受信した画像データからなる文書に対してOCR処理する。

0047

次のステップS14においては、保存対象の文書の画像を解析して、解像度、文字サイズ、フォント等の値を抽出する。次のステップS16においては、ステップS14において抽出した要因別の値の組み合わせが新しい場合は、新しい要因グループとして保存する。既存の組み合わせであれば保存しない。

0048

次のステップS18においては、ステップS14の結果に応じてインデックスの保存先(要因グループ)を決定する。ステップS14の結果が新たなものであれば新たな保存先を作成し、そこを保存先とする。

0049

次のステップS20においては、ステップS18で決定されたインデックスの保存先にステップS12でOCR処理して生成されたインデックス情報を追加する。

0050

次のステップS22においては、受信した文書をデータベース22に保存し、処理を終了する。

0051

図8は、文書検索装置20の検索処理時の処理フローを示すフローチャートである。
まずステップS30において、ユーザがパーソナルコンピュータ14a,14bで作成した検索文字列を受け付ける。

0052

次のステップS32においては、前述した要因グループ毎に要因グループの情報を取得する。

0053

次のステップS34においては、ステップS32で取得した要因グループ毎の情報から要因グループ毎に要因グループの要因の値に従った検索文字列画像を生成する。

0054

次のステップS36においては、ステップS34で生成した検索文字列画像に対してOCR処理する。

0055

次のステップS38においては、ステップS34で生成した検索文字列画像生成時の要因の値からステップS36でOCR処理した結果の検索文字列をどのインデックスに検索を行うかを決定する。

0056

そして、ステップS40においては、ステップS38で決定した組み合わせの文字列により検索を実行し、次のステップS42において、ユーザのパーソナルコンピュータ14a,14bに検索結果を表示するように制御して処理を終了する。

0057

なお、上記実施形態においては、インデックス検索に対して本発明を適用した実施形態について説明したが、インデックス検索に限らず、逐次検索に対しても本発明を適用することができる。逐次検索とは、検索インデックスを作成することなく、OCRした文書に対して検索を実施する検索方法である。この逐次検索の場合であっても、文書毎にOCRの精度に影響がある要因で検索文字列画像を生成してこれにOCR処理を行い、文書毎に検索を行うようにしてもよい。

0058

10文書検索システム
12文書管理システム
14a,14bパーソナルコンピュータ
16ネットワーク
18a,18b画像形成装置
18a,18bコインキット
20文書検索装置
22データベース
23 CPU
24メモリ
26記憶装置
28ネットワークインターフェイス
30バス
32OCR処理部
34検索インデックス生成部
36 検索インデックス保存部
38要因情報抽出部
40分類保存部
42 要因情報の保存部
44検索処理部
46検索文字列画像の生成部
48 検索文字列画像のOCR処理部
50 検索インデックスの組み合わせ決定部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ