図面 (/)

技術 情報処理装置、情報処理方法、プログラムおよび記憶媒体

出願人 キヤノン株式会社
発明者 戴暁艶
出願日 2014年12月25日 (4年11ヶ月経過) 出願番号 2014-263172
公開日 2016年7月7日 (3年5ヶ月経過) 公開番号 2016-122404
状態 特許登録済
技術分野 検索装置 文字入力 イメージ分析 医療・福祉事務
主要キーワード I表示 規制対象外 種別分類 医療文書 予約票 精査対象 領域併合 抽出項目
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年7月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

画像化された紙文書から簡単且つ迅速に情報を自動抽出する。

解決手段

画像化された文書データから複数の領域を抽出する第1抽出手段と、前記複数の領域から第1の文字または単語を含む領域を抽出する第2抽出手段と、前記第2抽出手段によって抽出された領域から前記第1の文字または単語とは異なる情報を抽出する第3抽出手段と、を備える。

概要

背景

電子カルテを中心に医療分野におけるIT化が急速に進みつつある。一方、院内には依然として様々な紙媒体診療情報が存在する。紙媒体の診療情報とは例えば、診療情報提供書、説明同意書類、入退院時の必要書類診断書類といった診療関連の文書、また、オーダー伝票や、予約票申込書といった事務手続き用の文書である。

紙媒体の診療情報(紙文書)と電子カルテ等の電子情報とが混在する環境において、電子情報だけではなく紙文書も迅速に検索活用できることが望ましい。

そこで、紙文書の見読性を確保するため、紙文書をスキャナ電子化し、そして、紙文書の種類を示す種別情報診療科情報、患者番号といった基本情報人手によって登録し、電子システム紐付けワークフローが一般的に実施されている。しかし、病院で利用されている紙文書の種類は数千種類以上にも及ぶ場合があり、病院それぞれ独自の書式があるため、紙文書から上述の基本情報を登録する作業には膨大な時間と手間がかかる。

紙文書に含まれる基本情報の登録作業の省力化を図るものとして、特許文献1において、紙文書にバーコードを付加し、バーコードリーダによってバーコードを読み取ることで紙文書に含まれる基本情報を抽出・登録する方法が開示されている。

また、特許文献2においては、帳票から抽出したい文字列(帳票の発行元名前)を記憶しておき、この文字列を帳票の認識結果と照合して帳票の認識を行うことが開示されている。

概要

画像化された紙文書から簡単且つ迅速に情報を自動抽出する。 画像化された文書データから複数の領域を抽出する第1抽出手段と、前記複数の領域から第1の文字または単語を含む領域を抽出する第2抽出手段と、前記第2抽出手段によって抽出された領域から前記第1の文字または単語とは異なる情報を抽出する第3抽出手段と、を備える。

目的

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

画像化された文書データから複数の領域を抽出する第1抽出手段と、前記複数の領域から第1の文字または単語を含む領域を抽出する第2抽出手段と、前記第2抽出手段によって抽出された領域から前記第1の文字または単語とは異なる情報を抽出する第3抽出手段と、を備えることを特徴とする情報処理装置

請求項2

前記第3抽出手段により抽出された情報を用いて前記文書データを分類する分類手段を更に備えることを特徴とする請求項1記載の情報処理装置。

請求項3

前記第1の文字は複数の文字からなる単語の語尾の文字であることを特徴とする請求項1または請求項2に記載の情報処理装置。

請求項4

互いに異なる第1の参照用の文字と第2の参照用の文字とを保持する保持手段を更に備え、前記第3抽出手段は、前記第2抽出手段によって抽出された領域に含まれる文字と前記第1の参照用の文字とを比較し、比較結果が一致する場合には前記第1の参照用の文字に一致する文字を前記情報として抽出し、比較結果が一致しない場合には前記第2抽出手段によって抽出された領域に含まれる文字と前記第2の参照用の文字とを比較することを特徴とする請求項1乃至3の何れか1項に記載の情報処理装置。

請求項5

前記第1抽出手段により抽出された領域に関する情報に基づいて前記第1抽出手段により抽出された領域を併合する領域併合手段を更に備え、前記第2抽出手段は、前記併合された領域から前記第1の文字または単語を含む領域を抽出することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。

請求項6

前記領域に関する情報は、前記第1抽出手段により抽出された領域の位置および前記第1抽出手段により抽出された領域に含まれる文字の少なくとも1つを示す情報であることを特徴とする請求項5記載の情報処理装置。

請求項7

前記領域併合手段は、前記第1抽出手段により抽出された複数の領域について、領域の間隔が第1の閾値以下で、且つ、各領域に含まれる文字サイズの差が第2の閾値以下である領域を併合することを特徴とする請求項5または請求項6記載の情報処理装置。

請求項8

前記領域併合手段は、前記第1抽出手段により抽出された複数の領域について、更に各領域に含まれる文字間隔の差が第3の閾値以下の場合に領域を併合することを特徴とする請求項7記載の情報処理装置。

請求項9

前記第1抽出手段により抽出された領域に関する情報に基づいて前記第2抽出手段の処理対象とする領域を選択する領域選択手段を更に備え、前記第2抽出手段は、前記選択された領域から前記第1の文字または単語を含む領域を抽出することを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。

請求項10

前記領域に関する情報は、前記第1抽出手段により抽出された領域の位置および前記第1抽出手段により抽出された領域に含まれる文字の少なくとも1つを示す情報であり、前記領域選択手段は、前記文書データにおける所定の範囲にあり、且つ、含まれる文字の行数が第4の閾値以下の前記第1抽出手段により抽出された領域を選択することを特徴とする請求項9記載の情報処理装置。

請求項11

前記第1抽出手段により抽出された領域に対して優先度を付与する付与手段を更に備え、前記第2抽出手段は、前記優先度に基づいた順序で前記第1の文字または単語を含む領域を抽出することを特徴とする請求項1乃至10のいずれか1項に記載の情報処理装置。

請求項12

前記付与手段は、前記第1抽出手段により抽出された領域の位置および前記領域に含まれる文字の大きさの少なくとも1つに基づいて優先度を付与することを特徴とする請求項11記載の情報処理装置。

請求項13

前記文書データは医療文書データであることを特徴とする請求項1乃至12のいずれか1項に記載の情報処理装置。

請求項14

前記第3抽出手段は、前記医療文書データの種別情報診療科情報、患者識別情報のうち少なくとも1つを前記情報として抽出することを特徴とする請求項13記載の情報処理装置。

請求項15

前記種別情報を抽出する場合には、前記第2抽出手段は前記領域選択手段により選択された領域から前記第1の文字または単語を含む領域を抽出し、前記診療科情報または患者識別情報を抽出する場合には、前記第2抽出手段は前記領域選択手段を用いずに前記第1抽出手段により抽出された複数の領域から前記第1の文字または単語を含む領域を抽出することを特徴とする請求項9に従属する請求項13または請求項14記載の情報処理装置。

請求項16

前記分類手段は、電子カルテから得られた情報および前記第3抽出手段により抽出された情報を用いて前記医療文書データを分類することを特徴とする請求項2に従属する請求項13または請求項14記載の情報処理装置。

請求項17

前記電子カルテから得られた情報は、初診か否かを示す情報であることを特徴とする請求項16記載の情報処理装置。

請求項18

画像化された文書データから複数の領域を抽出する第1抽出工程と、前記複数の領域から第1の文字または単語を含む領域を抽出する第2抽出工程と、前記第2抽出工程において抽出された領域から前記第1の文字または単語とは異なる情報を抽出する第3抽出工程と、を備えることを特徴とする情報処理方法

請求項19

請求項18記載の各工程をコンピュータに実行させることを特徴とするプログラム

請求項20

請求項19記載のプログラムを記憶した記憶媒体

技術分野

0001

開示の技術は、情報処理装置情報処理方法プログラムおよび記憶媒体に関する。

背景技術

0002

電子カルテを中心に医療分野におけるIT化が急速に進みつつある。一方、院内には依然として様々な紙媒体診療情報が存在する。紙媒体の診療情報とは例えば、診療情報提供書、説明同意書類、入退院時の必要書類診断書類といった診療関連の文書、また、オーダー伝票や、予約票申込書といった事務手続き用の文書である。

0003

紙媒体の診療情報(紙文書)と電子カルテ等の電子情報とが混在する環境において、電子情報だけではなく紙文書も迅速に検索活用できることが望ましい。

0004

そこで、紙文書の見読性を確保するため、紙文書をスキャナ電子化し、そして、紙文書の種類を示す種別情報診療科情報、患者番号といった基本情報人手によって登録し、電子システム紐付けワークフローが一般的に実施されている。しかし、病院で利用されている紙文書の種類は数千種類以上にも及ぶ場合があり、病院それぞれ独自の書式があるため、紙文書から上述の基本情報を登録する作業には膨大な時間と手間がかかる。

0005

紙文書に含まれる基本情報の登録作業の省力化を図るものとして、特許文献1において、紙文書にバーコードを付加し、バーコードリーダによってバーコードを読み取ることで紙文書に含まれる基本情報を抽出・登録する方法が開示されている。

0006

また、特許文献2においては、帳票から抽出したい文字列(帳票の発行元名前)を記憶しておき、この文字列を帳票の認識結果と照合して帳票の認識を行うことが開示されている。

先行技術

0007

特許第5356905号
特開2001−312694号公報

発明が解決しようとする課題

0008

しかしながら、特許文献1の方法では、大量の診療記録問診票の各用紙を電子化するにあたって予めバーコードを紙文書に付与することが必要なため、人手を介する作業が煩雑で負荷が大きい。さらに特許文献2の方法では、抽出したい文字列全体と帳票の認識結果とを照合しているため、照合できなかった場合には所合できなかった文字とは異なる新たな文字列全体と認識結果とを過去と同様に照合する必要があるため帳票の認識に時間を要する。

0009

開示の技術はこのような状況に鑑みてなされたものであり、紙文書からより簡単且つ迅速に情報を自動抽出することを目的の1つとする。

0010

なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の1つとして位置付けることができる。

課題を解決するための手段

0011

開示の技術に係る情報処理装置は、画像化された文書データから複数の領域を抽出する第1抽出手段と、前記複数の領域から第1の文字または単語を含む領域を抽出する第2抽出手段と、前記第2抽出手段によって抽出された領域から前記第1の文字または単語とは異なる情報を抽出する第3抽出手段と、を備える。

発明の効果

0012

開示の技術によれば画像化された紙文書から簡単且つ迅速に情報を自動抽出することができる。

図面の簡単な説明

0013

第1の実施形態に係る情報処理システムの構成の一例を示す図である。
第1実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
第1実施形態に係る情報処理装置の動作の一例を示すフローチャートである。
第1の実施形態に係る図3のステップS120における候補領域設定処理の手順の一例を示すフローチャートである。
第1の実施形態に係る図3のステップS140における抽出対象同定処理の手順の一例を示すフローチャートである。
第1の実施形態に係る、図4のステップS120における候補領域の設定処理および図6のステップS140における抽出対象の同定処理の一例を示す模式図である。
第1の実施形態に係る知識構成の一例を示す模式図である。
第2の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
第2の実施形態に係る図8のステップS’230における候補領域の補正処理の手順の一例を示すフローチャートである。
第2の実施形態に係る図8のステップS’230における候補領域の補正処理の一例を示す模式図である。
第3の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
第3の実施形態に係る図11のステップS240における候補領域の絞込み処理の手順の一例を示すフローチャートである。
第3の実施形態に係る図11のステップS240における候補領域の絞込み処理の一例を示す模式図である。
第4の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
第5の実施形態に係る、図3のステップS140における診療科の抽出処理の手順の一例を示すフローチャートである。
第6の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
第6の実施形態に係る図16に関わる抽出対象の構造上の特性有無、抽出対象の知識管理の一例を示す模式図である。
第7の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。
第7の実施形態に係る図17情報処理の一例を示す模式図である。
第8の実施形態に係る図3のステップS140における知識に基づく抽出対象を同定し、取引規制対象であるかどうかの確認作業支援の手順の一例を示すフローチャートである。
第8の実施形態に係る図19の情報処理の一例を示す模式図である。

実施例

0014

以下、図面を参照して、本実施形態に係る情報処理装置について詳細に説明する。ただし、この実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術の範囲は、特許請求の範囲によって確定されるものであって、以下の個別の実施形態によって限定されるわけではない。

0015

(第1の実施形態)
まず、第1の実施形態について説明する。

0016

図1は、第1の実施形態に係る情報処理システムの構成の一例を示すものである。

0017

図1に示すように、情報処理システムは、登録部1(情報処理装置)、格納部2を備える。また、登録部1および格納部2は有線もしくは無線ネットワーク6を介して互いに通信可能に接続されている。また、登録部1および格納部2はネットワーク6を介して病院内の各種システム(電子カルテシステム3、オーダリングシステム4、その他のシステム5)と通信可能に接続されている。なお、登録部1および格納部2は複数台あっても構わない。

0018

登録部1について詳細に述べる。登録部1は例えばPC等の情報処理装置である。登録部1はUIデバイス101、CPU102、RAM103、通信IF104、UI表示部105、プログラム用記憶領域106およびデータ用記憶領域107を備える。

0019

UIデバイス101はマウスデジタイザおよびキーボード等の少なくとも1つを含むものであり、ユーザによる登録情報の確認、修正、送信のために用いられる。

0020

CPU102はプログラム用記憶領域106からRAM103に読み込んだプログラムを解釈・実行することによって装置内の各種制御や計算、UIの表示が可能である。例えば、CPU102は、プログラムを実行することで図2に示すように、文書画像解析部110、候補領域設定部120、候補領域認識部130、抽出情報同定部140および登録部150として機能する。なお、登録部1が備えるCPU102およびRAM103は1つであってもよいし複数であってもよい。すなわち、少なくとも1以上の処理装置(CPU)と少なくとも1つの記憶装置(RAM)とが接続されており、少なくとも1以上の処理装置が少なくとも1以上の記憶装置に記憶されたプログラムを実行した場合に登録部1は上記の各部として機能する。

0021

文書画像解析部110は図示しないスキャナにより得られた紙文書が電子化された文書画像を取得し、解析を行う。ここでスキャナによる電子化とは画像化と言い換えることができる。すなわち、文書画像は画像化された文書データの一例に相当する。なお、画像化された医療文書を医療文書データという。文書画像解析部110はスキャナにより得られた電子化された文書画像をスキャナから直接取得してもよいし、スキャナにより得られた文書画像が格納部2に保存されている場合には文書画像解析部110は格納部2から文書画像を取得することとしてもよい。

0022

文書画像解析部110は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域の複数の領域に分割(領域分割)して領域を抽出する。すなわち、文書画像解析部110は画像化された文書データから複数の領域を抽出する第1抽出手段の一例に相当する。

0023

なお、領域分割によって、文書画像解析部110は領域分割した各領域の座標および各領域が文字領域か写真領域かを示す属性情報を領域毎に取得する。文字領域か写真領域かを示す属性情報は既知の種々の手法により取得可能である。なお、紙文書を電子化する手段はスキャナに限定されるものではなく他の手段であってもよい。

0024

候補領域設定部120は、文書解析部110により分割された領域から情報を抽出する対象となる候補領域を設定する。具体的には、候補領域設定部120は文字領域を候補領域として設定する。言い換えれば、候補領域設定部120は文書解析部110により分割された領域のうち写真領域は候補領域としない。なお、候補領域設定部120の処理を省略して、候補領域を設定することなく抽出情報同定部140により後述する辞書を用いて文書の種別等を同定することとしてもよい。候補領域設定部120の処理により文書の種別等を同定するまでの時間は短縮されるが、候補領域設定部120の処理を省略しても上述の効果を奏することが可能である。

0025

候補領域認識部130は、候補領域設定部120により設定された候補領域の中身を認識する処理を行うことで文字認識情報を取得する。文字認識情報は候補領域の中身の認識結果である。

0026

抽出情報同定部140は、候補領域認識部130の認識結果に基づいて候補領域から抽出対象領域を同定し、同定した領域の記載から基本情報を同定する。具体的には、抽出情報同定部140は予め作成された辞書等の知識を用いて候補領域から抽出対象領域を同定する。そして、抽出情報同定部140は、同定した領域から予め作成された辞書等の知識を用いて例えば文書の種別を同定する。辞書等の知識についての詳細は後述する。なお、辞書等の知識はRAM103に記憶されていてもよいしデータ記憶領域107に記憶されていてもよい。また辞書等の知識は登録部1が備える不図示のROMに記憶されることとしてもよい。

0027

登録部150は、抽出情報同定部140によって同定された情報を用いて文書画像を所定の記憶手段に登録(記録)する。例えば、登録部150は抽出情報同定部140によって同定された紙文書の種別を文書画像と対応付けて登録情報10としてデータ記憶領域107等に登録する。なお、登録部150は登録情報10を格納部2に記憶することとしてもよい。

0028

なお、上記の例ではCPU102が図2に示す各部として機能することとしているが、これに限定されるものではなくFPGAに上記の機能の少なくとも一部を持たせることとしてもよい。また、複数のCPUに上記の機能を分散させることとしてもよい。さらに、プログラム用記憶領域106は登録部1の内部に備えられることとしてもよいし登録部1の外部に備えられることとしてもよい。また、プログラム用記憶領域106は1つもメモリ等の記憶装置により構成されていてもよいし、複数の記憶装置により構成されることとしてもよい。

0029

通信IF104はネットワーク6に繋がっており、登録部1と格納部2および病院内の各種サーバ3〜5との間の通信インタフェースである。

0030

UI表示部105は装置の状態や画像情報登録内容を表示するLEDや液晶パネル等である。

0031

プログラム用記憶領域106およびデータ用記憶領域107は具体的にはハードディスクフラッシュメモリである。但し、特定の記憶媒体に限定されるものではない。登録部1では、データ用記憶領域107に登録情報10が記憶される。なお、登録情報10は格納部2上に記憶されることとしても構わない。なお、登録部1の登録情報10を直接病院内のシステム(例えば、電子カルテシステム3)に関連付けて格納してもよい。

0032

登録情報を格納部2に置かれる場合を想定し、格納部2について詳細に述べる。格納部2は少なくとも1以上のHDDまたはSSD等の記憶媒体であり、格納部2にはバインダプール20が記憶されている。バインダプール20にはバインダ201、202が含まれる。各バインダには医療文書が含まれている。すなわち、格納部2は医用文書をバインダという単位で管理する。なお、バインダプール20は病院内のシステム(例えば、電子カルテシステム3)に関連付けて記憶しても構わない。バインダプール20の中には、情報が使用しやすいように所定の規則登録資料がバインダ毎に格納される。バインダのまとめ方として、例えば、患者毎に各種別の資料を保存してもよいし、種別毎に各資料を保存してもよい。例えば、登録部150は抽出情報同定部140によって同定された紙文書の種別に基づいて文書画像を含む登録情報を種別毎にバインダに記憶させることが可能である。

0033

上述の構成で、情報処理システム全体で登録情報を参照する事が可能となる。

0034

なお、ネットワーク6は、病院あるいは組織内で運用されるイントラネットであってもよいし、インターネットであってもよい。

0035

なお、電子カルテシステム/オーダーシステムは、広く普及し良く知られている装置なので、ハードウェア構成例や動作フローの説明を省略する。

0036

次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順の一例について説明する。

0037

図3は、第1の実施形態に係る情報処理装置による情報処理方法の処理手順の一例を示すフローチャートである。

0038

まず、ステップS110において、文書画像解析部110は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部110は、紙文書の電子化された文書画像のレイアウトを解析し、文字領域や写真領域に分割(領域分割)する。尚、文書画像の領域分割方法として、例えば特開2002−314806公報で開示されている公知の方法等を使用することができる。

0039

続いて、ステップS120において、候補領域設定部120は、上記文書画像の解析結果から抽出対象の候補となる領域を設定する。この処理の詳細については後述する。

0040

続いて、ステップS130において、候補領域認識部130は、上記候補領域にある文字列を認識し、認識情報を記録する。認識情報として、文字列の認識結果および文字数、また、段落である場合の行数などが挙げられる。尚、認識処理は、公知の文字認識技術を用いることができる。

0041

続いて、ステップS140において、情報処理装置の抽出情報同定部140は、上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象領域から基本情報を同定する。そして、情報処理装置の登録部150は、同定情報により文書画像を登録する。この処理の詳細については後述する。

0042

次に、ステップS120における候補領域の設定処理について説明する。

0043

図4は、第1の実施形態に係る図3のステップS120における候補領域の設定処理の手順の一例を示すフローチャートである。

0044

先ず、ステップS1201において、文書画像解析部110による文書画像解析により取得される領域情報、即ち、各領域の位置を示す座標情報と、各領域が文字領域か写真領域を示す属性情報とを文書画像解析部110は候補領域設定部120に入力する。

0045

続いて、ステップS1202では、候補領域設定部120は、属性情報に基づいて文書画像解析部110よって取得された領域が文字領域であるかどうかを判断する。文字領域であれば、ステップS1203で、候補領域設定部120は当該文字領域を候補領域として設定する。

0046

続いて、ステップS1204では、候補領域設定部120は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップS1202に入り、ステップS1202からステップS1204までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域設定処理を終了する。

0047

次に、ステップS140における抽出対象の同定処理について説明する。

0048

図5は、第1の実施形態に係る図3のステップS140における抽出対象の同定処理の手順の一例を示すフローチャートである。

0049

先ず、ステップS1401において、候補領域情報を候補領域設定部120および候補領域認識部130は抽出情報同定部140に入力する。候補領域情報には、候補領域設定部120により得られた候補領域の座標情報及び候補領域認識部130により得られた文字認識情報が含まれる。

0050

続いて、ステップS1402からステップS1407において、抽出情報同定部140は候補領域の文字認識情報及び知識情報に基づいて抽出対象領域を同定し、抽出対象領域の中身を同定する。この部分について詳細に説明する。

0051

先ず、ステップS1402では、抽出情報同定部140は処理対象となる候補領域に語尾辞書(図6における符号604参照)にある語尾があるかどうかを判断する。

0052

語尾が候補領域にある場合、ステップS1403では、抽出情報同定部140は当該候補領域を抽出領域として同定する。すなわち、抽出情報同定部140は、複数の領域から第1の文字を含む領域を抽出する第2抽出手段の一例に相当する。また、語尾辞書に含まれる語尾は第1の文字または単語の一例に相当する。より具体的には第1の文字は複数の文字からなる単語の語尾である。また、語尾辞書に含まれる語尾は1文字としているがこれに限定されるものではなく複数の文字であってもよい。

0053

そして、ステップS1404では、抽出情報同定部140は当該抽出領域から用語辞書図6における符号605参照)にある用語を抽出する。ここで、用語辞書に含まれる用語は第1の文字とは異なる情報の一例に相当する。すなわち、抽出情報同定部140は、第2抽出手段によって抽出された領域か第1の文字とは異なる情報を抽出する第3抽出手段の一例に相当する。

0054

そして、ステップS1405では、用語辞書と分類辞書図6における符号606参照)の関係に基づき、抽出された用語により文書の種別を同定し、抽出対象の同定処理を終了させる。すなわち、抽出情報同定部140は第3抽出手段により抽出された情報を用いて文書データを分類する分類手段の一例に相当する。

0055

なお、語尾辞書に含まれる語尾が候補領域にない場合、ステップS1406では、抽出情報同定部140は未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップS1402からステップS1405までの処理を繰り返して実行する。未処理の候補領域がなければ、抽出情報同定部140は候補領域の中に種別に該当する領域がないとし、種別なしと判断する。

0056

次に、本実施形態における抽出対象の同定処理の一例について辞書の内容を示しながらより詳細に説明する。

0057

図6は、第1の実施形態に係るステップS120における候補領域の設定処理と、図5のステップS140における抽出対象の同定処理の一例を示す模式図である。

0058

601は、ある文書画像に対する文書画像解析部110による解析の結果例である。文書画像は、枠に囲まれる領域毎に分割され、また、領域毎に文字領域か写真領域、或いは、その他の属性が付与される。

0059

602は、文書画像の解析結果から候補領域設定部120によって得られた候補領域の設定結果例である。各候補領域順番領域番号、そして、座標情報が記録される。

0060

603は、候補領域から抽出対象の同定処理の結果である。

0061

本実施形態においては抽出対象の同定処理に用いる語尾辞書604、用語辞書605および分類辞書606が不図示のROMに記憶されている。語尾辞書604は、種別に含まれる共通の語尾を記録する。用語辞書605は種別に含まれる用語を記録する。例えば、用語辞書605は「問診」および「質問」という用語を含む。すなわち、用語辞書605は互いに異なる第1の参照用の文字と第2の参照用の文字とを含んでおり、用語辞書605を保持する不図示のROMは保持手段の一例に相当する。分類辞書606は種別に関わる分類を記録する。なお、上記の辞書はROM以外の記憶手段(プログラム記憶領域106、データ記憶領域107、格納部2など)に記憶されることとしてもよい。この場合、記憶手段が保持手段の一例に相当する。

0062

候補領域の順番で処理する。候補領域認識部130により得られた候補領域01の文字認識情報には6語尾辞書04にある「書」という語尾が含まれるため、抽出情報同定部140は当該候補領域を抽出対象領域として同定する。

0063

また、抽出情報同定部140は当該抽出対象領域には用語辞書605にある「説明」という用語が含まれると判断する。具体的には、抽出情報同定部140は用語辞書605に含まれる用語と抽出対象領域に含まれる文字とを比較し、比較結果が一致する場合には用語辞書605に含まれる用語が抽出対象領域から抽出されたと判断する。本実施例では抽出情報同定部140は「問診」という用語を抽出対象領域に含まれる文字と比較し、一致しない場合には用語辞書605の次の用語と抽出対象領域に含まれる文字との比較を行う。すなわち、第3抽出手段の一例である抽出情報同定部140は、第2抽出手段によって抽出された領域に含まれる文字と第1の参照用の文字とを比較し、比較結果が一致する場合には第1の参照用の文字に一致する文字を情報として抽出し、比較結果が一致しない場合には第2抽出手段によって抽出された領域に含まれる文字と第2の参照用の文字とを比較する。

0064

抽出情報同定部140は用語辞書605から、「説明」という用語は「02」という「種別番号」と対応付けられると判断する。したがって、抽出情報同定部140は、分類辞書606に「02」と対応する「説明・同意書」という種別が抽出対象(紙文書)の文書種別であると決定する。そして、登録部150は「説明・同意書」という種別を文書画像と対応付けてデータ記憶領域107または格納部2に記録する。

0065

上述の如く本実施形態は、文書画像における各領域の属性情報に基づき抽出対象の候補領域を設定し、候補領域の文字認識情報及び知識情報に基づき候補領域から抽出対象領域を同定し、紙文書の種別を取得するものである。しかしながら、本発明は上記の実施形態に限定されるものではなく、例えば医用文書(紙文書)から診療科情報や、患者情報患者ID等の患者識別情報)などを抽出する場合は、抽出対象に応じて知識情報を置き換えればよい。患者IDは例えば数字である。

0066

例えば、診療科情報抽出の場合、種別抽出用の語尾辞書を「科」などを含む診療科辞書にすればよい。さらに、用語辞書は「小児」、「皮膚」などの文言を含む辞書に変更すればよい。分類辞書は必須の構成ではないが、使用する場合には分類辞書についても同様に診療科で分類を行うよう種別を「小児科」、「皮膚科」などに変更すればよい。また、本実施形態では、知識を辞書という言葉で記述したが、辞書以外の呼び方をされるものであってもよい。なお、患者情報(患者ID等)などを抽出する場合には、種別抽出用の語尾辞書を「ID」、「番号」などを含む辞書にすればよい。この場合、「ID」等の文字は領域内の末尾ではなく先頭に存在する場合が多いが、本実施形態においては説明を簡単にするために語尾辞書という文言を用いている。なお、患者情報(患者ID等)などを抽出する場合には分類を行う必要がないため用語辞書等は不要である。なお診療科情報および患者情報(患者ID等)の抽出方法の詳細については後述の第5の実施形態で述べる。

0067

また、本実施形態では、医用文書の種別抽出に、文書画像を管理しやすいために種別を図6に示す分類に分けたが、これに限定されるものではなくより細かく分類することとしてもよいし、より粗く分類することとしてもよい。なお各辞書に含まれる言葉や言葉の数も図6記載の内容に限定されるものではなく任意に変更可能である。

0068

また、本実施形態では、種別抽出用の語尾辞書、用語辞書、分類辞書を例にしたが、辞書の名称図6記載の名称以外であってもよいし、辞書の構成を図6とは異なる構成にしてもよい。例えば、図7に示すように、用語辞書に用語及び用語と種別の関連付けのみならず、語尾との関連付けも持つようにしてもよい。この場合、語尾が見つかれば、それと組み合わせ可能な用語が含まれるかどうかのみをチェックし用語を抽出すればよい。例えば、ステップS1402では、「書」という「101」番号の語尾が見つかった場合、ステップS1404では、当該領域から用語辞書に含まれる用語すべてを抽出する代わりに、「101」番号の語尾「書」と組み合わせることが可能な用語のみを抽出する。即ち、「問診」、「説明」等だけを抽出すれば良く(「質問」を抽出しようとする必要はない)、処理の高速化を図ることが可能となる。また、図6の例に示す601、602、603をまとめて辞書として持っていてもよい。すなわち、辞書の形態は上記の例に限定されるものではなく他の形態とすることとしてもよい。

0069

また、本実施形態では、辞書を登録部1の内部に持たせることを例にしたが、登録部1の外部に辞書を持たせることとしてもよい。外部で定義して参照するようにしてもよい。また、本実施形態では、種別に該当する情報を見つからない文書画像において種別なしと出力するが、それ以外の出力、例えば、種別不明としてもよい。

0070

以上、述べたように第1の実施形態によれば、紙文書から簡単に情報を自動抽出することができる。上記実施形態においてはバーコード等追加の情報を紙文書に付加する必要がないため、従来に比べて手間をかけずに文書種別等の情報を抽出することが可能となる。また、バーコード等の追加の情報を紙文書に付加する必要がないため未知フォーマットの文書からも簡単に文書種別等の情報を抽出することが可能となる。すなわち、医用文書に人手を介する情報の付与作業が行われなくても、また、医用文書のフォーマットが予め分からなくても、文書種別等の情報を自動的に抽出できる。

0071

また、上記実施形態においては語尾辞書を用いて抽出領域を同定しているため、全ての領域に対して用語辞書と照らし合わせる必要がなく文書種別等の情報を高速で抽出することが可能となる。また、「問診票」など種別そのものを示す言葉を文書画像から抽出する場合には、種別を示す言葉の多さから抽出に多くの時間がかかる虞がある。しかし、本実施形態によれば語尾と用語との組み合わせを用いているため「問診票」などの種別を示す用語を抽出する時間を短縮することが可能である。ここで、医療分野においては診療科および文書の種別は病院毎に様々な呼び名があるため、本実施形態を医療分野に用いることで顕著な効果を得ることができる。

0072

なお、上記の例ではステップS1405において文書画像の種別を同定しているが、このステップは必須のものではなく、ステップS1404で処理を終了することとしてもよい。この場合、ステップS1404で抽出された用語を操作者が参照して分類を行うことができる。

0073

(第2の実施形態)
次に、本発明の第2の実施形態について説明する。

0074

上述した第1の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定した。第2の実施形態では、文書画像の解析処理によって正しい塊の領域抽出ができていない場合に領域に併合するものである。

0075

ここで、第2の実施形態に係る情報処理システムのハードウェア構成および情報処理装置の機能構成は、図1、2と同様であるため、その説明は省略する。

0076

次に、本実施形態に係る情報処理方法の処理手順の一例について説明する。

0077

図8は、第2の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

0078

まず、ステップS’210において、文書画像解析部110は、図示しないスキャナにより得られた紙文書が電子化された文書画像を取得する。そして、文書画像解析部110は、紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。本ステップはステップS110と同様である。

0079

続いて、ステップS’220において、候補領域設定部120は、上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。

0080

続いて、ステップS’230において、候補領域設定部120は、上記候補領域を補正する。この処理についての詳細は後述する。

0081

続いて、ステップS’240において、候補領域認識部130上記補正後の候補領域にある文字列を認識し、認識情報を記録する。本ステップはステップS130と同様である。

0082

続いて、ステップS’250において、抽出情報同定部140は上記補正後の候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。本ステップはステップS140と同様である。

0083

次に、ステップS’230における候補領域の補正処理について説明する。

0084

図9は第2の実施形態に係る図8のステップS’230における候補領域の補正処理の手順の一例を示すフローチャートである。

0085

先ず、ステップS’2301において、ステップS’220で設定された候補領域を入力する。

0086

続いて、ステップS’2302からステップS’2306では、上記候補領域から併合すべき領域を選択し、併合する。

0087

ステップS’2302では、候補領域設定部120が処理対象となる二つの候補領域間の間隔は所定の閾値T1以下であるかどうかを判断する。すなわち、候補領域設定部120は隣り合う二つの候補領域間の間隔を閾値T1と比較する。ここで、閾値T1は第1の閾値の一例に相当する。

0088

候補領域間の間隔は所定の閾値T1以下あれば、ステップS’2303では、候補領域設定部120が更に処理対象となる二つの候補領域にある文字サイズの差は所定の閾値T2以下であるかどうかを判断する。ここで、閾値T2は第2の閾値の一例に相当する。

0089

候補領域にある文字サイズの差は所定の閾値T2以下であれば、ステップS’2304へ進む。ステップS’2304では、候補領域設定部120が更に処理対象となる一の候補領域に複数の文字が含まれている場合には、それらの文字間隔の差が所定の閾値T3以下であるかどうかを判断する。すなわち、一の候補領域に複数の文字が含まれていない場合にはステップS’2304は実行されないこととしてもよい。ここで、閾値T3は第3の閾値の一例に相当する。

0090

候補領域にある文字の間隔の差は所定の閾値T3以下であれば、ステップS’2305では、当該二つの候補領域は併合すべき領域と判断し、ステップS’2306では、候補領域設定部120が当該二つの候補領域同士を併合し、候補領域の情報を更新する。すなわち、候補領域設定部120は、第1抽出手段により抽出された領域に関する情報に基づいて第1抽出手段により抽出された領域を併合する領域併合手段の一例に相当する。また、本実施例では第2抽出手段の一例に相当する抽出情報同定部140は、併合された領域から第1の文字または単語を含む領域を抽出することとなる。

0091

続いて、ステップS’2307では、候補領域設定部120が未比較の領域があるかどうかを判断します。まだ未比較の領域があれば、ステップS’2302に入り、ステップS’2302からステップS’2306までの処理を繰り返して実行するが、未比較の領域がなければ、候補領域の補正処理を終了する。

0092

次に、ステップS’230における候補領域の補正処理の一例について説明する。

0093

図10は、本発明の第2の実施形態を示し、図8のステップS’230における候補領域の補正処理の一例を示す模式図である。

0094

10001は、ある文書画像における候補領域の設定結果例である。「同」「意」「書」は離れているため、それぞれ独立な領域として抽出されている。

0095

10002は、種別抽出の場合、10001から候補領域の補正処理の結果例である。10001の候補領域から領域の間隔が一定範囲T1以内、しかも、其々の領域にある文字サイズの差が一定範囲T2以内、其々の領域に複数の文字がある場合の文字列の間隔の差が一定範囲T3以内の候補領域を分断された領域として併合する。

0096

本実施形態では、抽出対象の特性に基づき候補領域を補正し、意味のある領域にするものである。本実施形態では、候補領域の併合条件として候補領域間の間隔、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差を用いたが、それ以外の条件を設定してもよい。また、候補領域が過統合場合の分割処理を例にしてもよい。なお、上記の実施例では候補領域の併合条件として候補領域間の間隔(すなわち候補領域の位置)、候補領域にある文字サイズの差、候補領域にある文字列の間隔の差の全てを用いたが、少なくとも1つを用いることとしてもよい。すなわち、領域を併合するために用いられる領域に関する情報は、第1抽出手段により抽出された領域の位置、第1抽出手段により抽出された領域に含まれる文字の少なくとも1つを示す情報である。

0097

第2の実施形態によれば、意味のある領域の抽出ができ、情報抽出処理の精度を向上することが可能になる。

0098

(第3の実施形態)
次に、本発明の第3の実施形態について説明する。

0099

上述した第2の実施形態では、文書画像の解析結果により意味のある領域に補正する領域にするものであった。第3の実施形態では、抽出対象の特性に基づき、候補領域を絞るものである。

0100

ここで、第3の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第3の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

0101

次に、本実施形態に係る情報処理方法の処理手順について説明する。

0102

図11は、本発明の第3の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

0103

まず、ステップS210において、文書画像解析部110は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップS110と同様である。

0104

続いて、ステップS220において、候補領域設定部120は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。

0105

続いて、ステップS230において、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。

0106

続いて、ステップS240において、抽出情報同定部140は抽出対象の特性に基づき、上記候補領域を絞る。この処理の詳細については後述する。

0107

続いて、ステップS250において、抽出情報同定部140は上記候補領域の認識結果及び、知識情報に基づき抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップS140と同様である。

0108

次に、ステップS240における候補領域の絞込み処理について説明する。候補領域の絞込み処理は、以下、候補領域のフィルタリング処理とも呼ぶ。

0109

図12は、本発明の第3の実施形態を示し、図11のステップS240における候補領域の絞込み処理の手順の一例を示すフローチャートである。

0110

先ず、ステップS2401において、候補領域設定部120はステップS220で設定された候補領域を抽出情報同定部140に入力する。

0111

続いて、ステップS2402からステップS2404では、抽出情報同定部140は上記候補領域を絞る。種別抽出の場合、種別領域は文書画像の上から一定範囲以内にある可能性が高いこと及び種別領域は複数段落の文書内に存在する可能性は低いという特性を利用して候補領域の絞込み条件として設定する。ここで、複数段落は2以上の段落でもよいし3以上の段落であってもよい。また、一定範囲内とは例えば文書画像全体の上部1/3の範囲内である。なお、一定範囲は文書画像全体の上部1/2の範囲内であってもよいし他の範囲あってもよい。また、診療科抽出または患者情報抽出の場合には絞り込みの範囲を種別抽出の場合と異なる範囲にしてもよい。すなわち、抽出対象に応じて候補領域の絞りこみ条件を変更することとしてもよい。なお、候補領域を絞るためには上記の2つの条件を使用することとしてもよいし、どちらか一方の条件を使用することとしてもよい。また、上記2つの条件に文書画像の横方向における位置等の他の条件を加えることとしてもよい。

0112

ステップS2402では、抽出情報同定部140は処理対象となる候補領域は所定の範囲以内にあるかどうかを判断する。所定の範囲以内にあれば、ステップ2403では、抽出情報同定部140は更に候補領域の行数は所定の閾値T以下であるかどうかを判断する。所定の閾値T以下であれば、ステップ2404では、当該候補領域を候補領域として残す。ここで、閾値Tは第4の閾値の一例に相当する。

0113

ステップ2405では、所定の範囲以外にある候補領域あるいは候補領域内の文字の行数が所定の閾値T以上の候補領域を当該領域を候補領域から外す。これは文書画像の種別を示す情報は通常複数行の文書中に存在する可能性が低いことを利用したものである。上述のように、抽出情報同定部140は、第2抽出手段の処理対象とする領域を選択する領域選択手段の一例に相当する。

0114

続いて、ステップS2406では、抽出情報同定部140は未処理の領域があるかどうかを判断します。まだ未処理の領域があれば、ステップS2402に入り、ステップS2402からステップS2405までの処理を繰り返して実行するが、未処理の領域がなければ、候補領域のフィルタリング処理を終了する。

0115

次に、ステップS240における候補領域の絞込み処理の一例について説明する。

0116

図13は、本発明の第3の実施形態を示し、図11のステップS240における候補領域の絞込み処理の一例を示す模式図である。

0117

1001は、ある文書画像における候補領域の設定結果例である。枠に囲まれる領域は、候補領域として設定されるものである。

0118

1002は、種別抽出の場合、1001から候補領域のフィルタリングの結果例である。1001の候補領域から位置が一定範囲以内にある、しかも、複数行ではない枠に囲まれる領域のみが残る。これらの候補領域は同定処理の対象領域になる。

0119

本実施形態では、抽出対象の特性に基づき候補領域を絞り、残った候補領域から抽出対象を同定するものである。本実施形態では、種別抽出を例に、種別情報の特性に基づき候補領域のフィルタリングの条件を設定したが、それ以外の条件を設定してもよい。また、他の情報を抽出する場合、当該抽出情報の特性に応じてフィルタリングの条件を設定してもよい。本実施形態では候補領域の絞り込みのために、候補領域の位置(ステップS2402)および候補領域内の文字の行数(ステップS2403)を用いたが、少なくとも一つの情報を用いることとしてもよい。 第3の実施形態によれば、第1の実施形態による効果に加え、情報抽出処理の効率を向上することが可能になる。

0120

(第4の実施形態)
次に、本発明の第4の実施形態について説明する。

0121

上述した第3の実施形態では、文書画像の解析結果から候補領域を設定し、抽出対象の特性に応じて候補領域をフィルタリングし、対象となる候補領域から抽出対象を同定するものであった。第4の実施形態では、対象となる候補領域において、抽出対象らしさの順番を付けて、その抽出対象らしさ順で抽出対象を同定していくものである。

0122

ここで、第4の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第4の実施形態に係る情報処理システムの機能構成は、図1に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

0123

次に、本実施形態に係る情報処理方法の処理手順について説明する。

0124

図14は、本発明の第4の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

0125

まず、ステップS310において、文書画像解析部110は紙文書の電子化された文書画像を解析し、文字領域や写真領域に分割する。具体的な処理はステップS110と同様である。

0126

続いて、ステップS320において、候補領域設定部120は上記文書画像の解析結果から文字領域を抽出対象の候補となる領域を設定する。具体的な処理はステップS120と同様である。

0127

続いて、ステップS330において、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。

0128

続いて、ステップS340において、抽出情報同定部140は抽出対象の特性に基づき、上記候補領域を絞る。具体的な処理はステップS240と同様である。

0129

続いて、ステップS350において、抽出情報同定部140は処理対象となる候補領域において、抽出対象らしさを計算し、抽出対象らしさの順番を付ける。すなわち、候補領域に対して処理の優先度を付与する。すなわち、抽出情報同定部140は第1抽出手段により抽出された領域に対して優先度を付与する付与手段の一例に相当する。抽出対象らしさの順番を付与する処理の詳細について後述する。

0130

続いて、ステップS360において、抽出情報同定部140は上記候補領域の認識結果及び知識情報に基づき、ステップS350で決められる抽出対象らしさの順で、抽出対象領域を同定し、抽出対象中身を同定する。具体的な処理はステップS140と同様である。

0131

次に、ステップS350における候補領域の抽出対象らしさの計算処理方法について説明する。

0132

文書の種別領域は基本的に文書画像のタイトルらしい領域に該当する。タイトルは基本的に文書の上に位置する、文字サイズが大きい、また、中心線に寄せるといった特徴を持つ。しかし、医用文書のフォーマットが多種多様なため、種別領域は必ずしも上述の特性を持つわけではない。ここで、これらの特性を用いて、以下の式で候補領域の種別らしさを総合的に求めるようにする。
種別らしさ=w1*{文字サイズ}+w2*{中心線との近さの逆数}+w3*{上部にある領域数の逆数}
ここで、W1、W2、W3は各要素の重み付けである。重要視される要素に高い数値の重みを付ける。ここで、「上部」とは例えば文書画像全体の上部1/3の範囲内を示すが、これに限定されるものではない。なお、式1に示した種別らしさを示す値は3つの項のうち少なくとも1つの項目を用いることとしてもよい。また、上部にある領域数を求めるためには候補領域の位置を利用する。すなわち付与手段の一例である抽出情報同定部140は、第1抽出手段により抽出された領域の位置および領域に含まれる文字の大きさの少なくとも1つに基づいて優先度を付与する。

0133

なお、式1に示した種別らしさを示す値は3つの項により求められているが、4つ以上の項目を用いて種別らしさを算出することとしてもよい。また、例えば、上記種別らしさを示す値が大きい領域から抽出情報同定部140の処理対象とする。

0134

本実施形態では、候補領域の抽出対象らしさ(優先度)を計算し、抽出対象らしさ順で抽出対象を同定するものであった。本実施形態では、種別抽出を例に、抽出対象らしさに関わる要素として文字サイズ、領域の位置、領域の数を用いたが、それ以外の特性を使ってもよい。

0135

第4の実施形態によれば、第1、第3の実施形態による効果に加え、抽出対象領域の可能性の高い候補領域から処理することが可能になり、更に抽出処理の効率性を向上することができるようになる。

0136

(第5の実施形態)
次に、第5の実施形態について説明する。

0137

上述した第1、第2、第3及び第4の実施形態では、医用文書から種別情報を抽出する例を主として説明した。第5の実施形態では、医療文書から診療科情報、或いは、患者情報を抽出するものである。

0138

ここで、第5の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第5の実施形態に係る情報処理システムの機能構成は、図1に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。さらに、第5の実施形態に係る情報処理方法の処理手順は、図3に示す第1の実施形態に係る情報処理方法のステップS140を除いて同様であるため、ステップS110〜130の説明を省略する。

0139

種別抽出処理は基本的に種別領域の同定の後に、種別領域の中身による種別分類が必要なため、語尾情報による種別領域の同定、種別領域にある種別用語の抽出、種別同定の3ステップで処理される。診療科抽出は基本的に診療科名を抽出するためのものなので、診療科領域の同定、診療科領域にある診療科名の抽出の2ステップで処理する。患者情報の抽出は診療科抽出と同様である。

0140

ここで、本実施形態のステップS140における診療科抽出の同定処理について説明する。

0141

図15は、本発明の第5の実施形態を示し、図3のステップS140における診療科の抽出処理の手順の一例を示すフローチャートである。

0142

先ず、ステップS4401では、候補領域設定部120は抽出情報同定部140に候補領域情報を入力する。

0143

続いて、ステップS4402では、抽出情報同定部140は処理対象となる候補領域に診療科語尾辞書にある語尾があるかどうかを判断する。

0144

語尾がある場合、ステップS4403では、抽出情報同定部140は当該候補領域を診療科領域として同定する。そして、ステップS4404では、抽出情報同定部140は当該領域に診療科用語辞書にある用語を診療科名として抽出する。

0145

語尾がない場合、ステップS4405では、未処理の候補領域があるかどうかを判断する。未処理の候補領域があれば、上記ステップS4402からステップS4404までの処理を繰り返して実行する。未処理の候補領域がなければ、候補領域のなかから診療科に該当する領域がないとし、診療科情報がないと判断する。

0146

本実施形態では、種別抽出の他、文書画像から診療科情報、或いは、患者情報を抽出するものであった。抽出対象に応じて、知識情報を置き換えればよい。

0147

第5の実施形態によれば、第1、第2、第4の実施形態による効果に加え、種別情報以外の情報抽出も可能になる。

0148

(第6の実施形態)
次に、第6の実施形態について説明する。

0149

上述した第1、第2、第3、第4及び第5の実施形態では、種別、診療科、患者情報のうち1種類の情報のみを抽出する例を主として説明した。第6の実施形態では、文書画像から複数の情報を抽出する場合を説明する。

0150

ここで、第6の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第6の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

0151

次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。

0152

図16は、本発明の第6の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

0153

まず、ステップS510では、文書画像解析部110は紙文書の電子化された文書画像を分割する。具体的な処理はステップS110と同様である。

0154

続いて、ステップS520では、候補領域設定部120は上記領域分割の結果から抽出対象の候補領域を設定する。具体的な処理はステップS120と同様である。

0155

続いて、ステップS530では、候補領域認識部130は上記候補領域にある文字列を認識し、認識情報を記録する。具体的な処理はステップS130と同様である。

0156

続いて、ステップS540では、抽出情報同定部140は、図17に示す情報を参照することで抽出対象が構造上の特性があるかどうかを判断する。

0157

特性があると判断される場合、ステップS550では、抽出情報同定部140は抽出対象の特性に基づき候補領域を絞る。例えば、構造上の特性を有する種別情報を抽出する場合には抽出情報同定部140は候補領域を文書画像の上部に存在する候補領域に絞り込む。具体的な処理はステップS340と同様である。ここで、「上部」とは例えば文書画像全体の上部1/3の範囲内を示すが、これに限定されるものではない。

0158

続いて、ステップS560では、抽出情報同定部140は図18に示す情報に基づいて抽出対象に応じて知識情報を切り替える。

0159

続いて、ステップS570では、抽出情報同定部140は上記候補領域の認識結果及び知識情報に基づき抽出対象を同定する。具体的な処理はステップS140と同様である。なお、操作者が抽出対象を示す情報を登録部1に入力することで登録部1が抽出対象を把握できるようにしてもよいし、登録部1が所定の順序で抽出対象を自動的に切換えることで登録部1が抽出対象を把握することとしてもよい。

0160

次に、抽出対象の構造上の特性有無、抽出対象の知識管理の一例について説明する。

0161

図17は、本発明の第6の実施形態を示し、図16に関わる抽出対象の構造上の特性有無、抽出対象の知識管理の一例を示す模式図である。

0162

1401は抽出対象の構造上の特性有無の管理表で、抽出対象は構造上の特性があるかどうかを記録するものである。種別情報は基本的に文書画像の上部にあるので、構造上の特性があるものとする。診療科情報と患者情報は文書画像のどこにも記述される可能性があるので、構造上の特性がないものとする。

0163

1402は抽出対象の知識管理表で、抽出対象の抽出に必要な知識を管理するものである。種別抽出に種別抽出用の語尾辞書1、用語辞書1、更に分類に必要となる分類辞書1を用いる。診療科抽出に診療科抽出用の語尾辞書2、用語辞書2を用いる。患者情報抽出に患者情報抽出用の語尾辞書3を用いる。

0164

本実施形態では、複数の情報を抽出する場合、抽出対象の情報に応じて構造情報による候補領域の設定処理、抽出対象の同定処理に用いる知識情報を切り替えて行うものである。また、本実施形態では、抽出対象は構造上に特性がある場合、抽出対象の構造上の特性に基づき候補領域の絞込み処理を行うが、更に抽出対象の構造上の特性に基づき抽出対象らしさを計算し順位付け処理を行ってもよい。また、本実施形態では、複数の抽出情報の知識を別々に管理するものであったが、知識をまとめて管理してもよい。

0165

第6の実施形態によれば、第1、第2、第3、第5の実施形態による効果に加え、複数の情報を抽出する場合、情報の特性を考慮する情報抽出の効率化が実現可能になる。

0166

なお、上述した第1、第2、第3、第4、第5及び第6の実施形態では、文書画像の解析結果から文字領域を抽出対象の候補領域として設定するであった。しかし、文字領域のみならず、所定範囲以内でその他の属性領域を抽出対象の候補領域として広く設定してもよい。また、上述した第1、第2、第3、第4及び第6の実施形態では、候補領域の文字認識及び知識に基づき抽出対象領域を同定し、抽出情報を同定するものであったが、候補領域の文字認識の結果を補正し、補正情報及び知識に基づき抽出対象を同定してもよい。

0167

(第7の実施形態)
次に、第7の実施形態について説明する。

0168

上述した第1、第2、第3、第4、第5及び第6の実施形態では、文書画像の解析により抽出対象となる情報を抽出するものであった。第7の実施形態では、院内システム(例えば、電子カルテシステム)に格納される診療情報及び文書画像の両方を解析し情報を抽出するものである。

0169

ここで、第7の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第7の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。

0170

次に、本実施形態に係る情報処理システムによる情報処理方法の処理手順について説明する。

0171

図18は、本発明の第7の実施形態に係る情報処理システムによる情報処理方法の処理手順の一例を示すフローチャートである。

0172

まず、ステップS610では、抽出情報同定部140は文書画像から患者番号を抽出する。患者番号の抽出処理は上記第5の実施形態を使用することができる。

0173

続いて、ステップS620では、抽出情報同定部140は電子カルテシステムから当該患者の関連情報を取り出す。関連情報は種別分類に関わるものとする。関連情報の詳細については後述する。

0174

続いて、ステップS630では、抽出情報同定部140は種別分類の関連情報があるかどうかを確認する。関連情報があれば、ステップS640では、関連情報を用いて種別分類を絞る。関連情報がなければ、ステップS650に入る。

0175

続いて、ステップS650では、種別分類から種別を同定する。種別の抽出処理は上記第1、第2、第4の実施形態の何れかを使用することができる。

0176

次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。

0177

図19は、本発明の第7の実施形態を示し、図18の情報処理の一例を示す模式図である。

0178

1601は、電子カルテシステムにおける診療情報の構造情報の記述例である。基本情報に患者情報、診察日初診再診を含む。また、診療情報としてS(主訴)O(所見)A(検査)P(計画)が含まれる。

0179

1602は、電子カルテの診療情報に含まれる種別分類に関わる関連情報例である。基本情報の中に、例えば、初診、或いは、再診といった用語が挙げられる。また、診療情報の中に、例えば、手術予定、或いは、入院治療といった用語が挙げられる。

0180

1603は、本来種別抽出処理に用いる分類辞書である。

0181

基本情報から種別分類に関わる用語を抽出し、種別分類候補を絞込む処理例では、先ず、1601から「初診」という関連情報が抽出される。「初診」の場合、文書画像が同意書や記録・報告などの種別の可能性がないので、それを種別候補から除外する。そして、「初診」と関連付け可能な種別番号「01」、「10」から種別を判定し、分類する。

0182

また、診療情報から種別分類に関わる用語を抽出する場合は、上記と同様に、抽出される関連用語に対応する範囲の種別分類から文書画像の種別を同定する。

0183

本実施形態では、電子カルテシステムから抽出情報と関連する内容を取り出し、抽出情報候補を絞るものである。本実施形態では、電子カルテシステムの利用を例にしたが、それ以外の関連システム連携してもよい。また、本実施形態では、種別抽出に関連する情報を例に挙げたが、それ以外の関連情報を設定してもよい。また、本実施形態では、種別抽出を例に説明したが、診療科抽出、或いは、それ以外の情報抽出にしてもよい。さらに、本実施形態では、関連情報により種別分類候補を絞り、可能性のある種別分類から種別を同定するものであった。しかし、第1、第2、第3、第4、第5の実施例のように、種別分類を先に同定に、関連情報から絞った種別分類で抽出結果の確認を行う処理方法にしてもよい。

0184

第7の実施形態によれば、第1、第2、第3、第4、第6の実施形態による効果に加え、関連システムと連携した情報抽出仕組みの実現が可能になる。

0185

(第8の実施形態)
次に、第8の実施形態について説明する。

0186

上述した第1、第2、第3、第4、第5、第6及び第7の実施形態では、医用向け非定型文書を対象に種別情報等を自動的に情報を抽出するものであった。第8の実施形態では、一般分野の非定型文書における情報抽出に関するものである。

0187

例えば、銀行の場合は、口座開設をはじめ、融資取組や、住宅ローンなどの業務に関連するドキュメントとデータのキャプチャは、基本的は手作業で行うのが現状である。例えば、米ドル建ての外国送金の場合では、米国OFA規制により、取引の関係当事者所在地禁止取引国、また、問題のある法人・個人等が含まれているかどうかを確認する作業は非常に手間がかかるため、業務の効率化のサポートが必要である。

0188

ここで、業務効率の向上に、様々なフォーマットを有するドキュメントから必要な情報を自動的に抽出し、ドキュメントを分類する第8の実施形態として挙げる。第8の実施形態に係る情報処理システムのハードウェア構成は、図1に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明を省略する。また、第8の実施形態に係る情報処理システムの機能構成は、図2に示す第1の実施形態に係る情報処理システムの機能構成と同様であるため、その説明は省略する。また、第3の実施形態に係る情報処理システムのハードウェア構成は、図2に示す第1の実施形態に係る情報処理システムのハードウェア構成と同様であるため、その説明も省略する。また、第8の実施形態に係る情報処理方法の処理手順は、図3に示す第1の実施形態に係る情報処理方法のステップS140を除いて同様であるため、ステップS110〜130の説明は省略する。

0189

次に、ステップS140における知識に基づく抽出対象の同定処理について説明する。

0190

図20は、本発明の第8の実施形態を示し、図3のステップS140における知識に基づく抽出対象を同定し、取引規制対象であるかどうかの確認作業支援の手順の一例を示すフローチャートである。

0191

先ず、ステップS7401では、候補領域設定部120は候補領域情報を抽出情報同定部140に入力する。

0192

続いて、抽出情報同定部140はステップS7402からステップS7406において、基本抽出項目内容に該当するかどうかをチェックし、取引規制対象の判断を行う。以下、詳細に説明する。

0193

ステップS7402では、抽出情報同定部140は基本抽出項目nを取り出す。そして、ステップS7403では、基本抽出項目nに対応する中身mを取り出す。

0194

そして、ステップS7404では、候補情報の中に、上記基本抽出項目nの中身mに該当するものがあるかどうかをチェックする。上記基本抽出項目nの中身mに該当するものがあれば、当該文書は更に精査する必要があると判断し、ステップS7407の処理に入る。上記基本抽出項目nの中身mに該当するものがなければ、ステップS7405に入り、基本項目nの中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップS7403に入り、ステップS7403からステップS7404までの処理を繰り返して実行する。基本抽出項目nの中身はすべてチェックする場合、ステップS7406では、基本抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの基本抽出項目があれば、ステップS7402に入り、ステップS7402からステップS7406までの処理を繰り返して実行する。すべでの基本抽出項目において、すべでの基本項目の中身に該当するものがなければ、ステップS7412に入り、本文書画像は規制対象外と判断する。

0195

ステップS7407からステップS7413は、ステップS7404で基本抽出項目の中身に該当するものがある場合の精査処理である。以下、詳細に説明する。

0196

ステップS7407では、抽出項目を取り出す。そして、ステップS7408では、抽出項目n’に対応する中身m’を取り出す。

0197

そして、ステップS7409では、候補情報の中に、上記抽出項目n’の中身m’に該当するものがあるかどうかをチェックする。上記抽出項目n’の中身m’に該当するものがあれば、ステップS7413に入り、当該文書を規制対象と判断する。上記抽出項目n’の中身m’に該当するものがなければ、ステップS74010に入り、抽出項目n’の中身をすべてチェックしたかどうかを確認する。まだ未チェックの中身があれば、ステップS7408に入り、ステップS7408からステップS7409までの処理を繰り返して実行する。抽出項目nの中身はすべてチェックする場合、ステップS7411では、抽出項目はすべてチェックしたかどうかを確認する。まだ未チェックの抽出項目があれば、ステップS7407に入り、ステップS7407からステップS7411までの処理を繰り返して実行する。すべでの抽出項目において、すべでの抽出項目の中身に該当するものがなければ、ステップS7412に入り、本文書画像は規制対象外と判断する。

0198

次に、本実施形態に係る情報処理システムによる情報処理の一例について説明する。

0199

図21は、本発明の第8の実施形態を示し、図20の情報処理の一例を示す模式図である。

0200

1801は、海外送金業務用の帳票例である。取引規制対象のチェック対象項目として、楕円で囲まれる送金通貨、国名、取引人が挙げられる。

0201

1802は、取引規制対象のチェックに用いる知識例である。知識情報は、18030基本抽出項目、18040抽出項目、18031基本抽出項目に含む各項目の中身リスト、18041、18042抽出項目に含む各項目の中身リストから構成される。例えば、18030基本抽出項目01「送金通貨」の中身番号は「0101」で、内容は「USD」として設定される。また、例えば、18040抽出項目11「国名」に対応する中身リストが複数あり、順番にリストアップされる。また、日本語だけではなく、他言語での記述も対応付けて記録されている。

0202

上記情報処理では、基本抽出項目として設定されている「送金通貨」「USD」に該当するものがあれば、精査対象とする。そして、更に抽出項目として設定されている取引禁止国名のリスト、または、抽出項目として設定されている問題のある法人・個人のリストに該当するかどうかをチェックする。

0203

本実施形態では、金融業務の知識を利用し、金融帳票から自動的に情報抽出するものである。本実施形態では、金融業務の中に、海外送金業務を例にしたが、それ以外の文書画像関連の業務に適用してもよい。また、海外送金業務の自動化の例では、チェックする項目を基本抽出項目と抽出項目に分けて管理する例を挙げたが、まとめて管理してもよいし、それ以外の構造にしてもよい。

0204

第8の実施形態によれば、ターゲットと設定される分野の情報抽出において、必要となる知識を置き換えて、本提案のアーキテクチャを適用すれば、医療以外の業務にも適用が可能になる。

0205

上述した第1、第2、第3、第4、第5、第6、第7及び第8の実施形態では、スキャン文書画像から情報抽出するものであったが、カメラ撮影画像を情報抽出処理対象にしてもよい。その際に、カメラ入力画像用の画像補正処理を加えればよい。

0206

(他の実施形態)
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアプログラムコードを記録したコンピュータ可読の記憶媒体を、システムあるいは装置に供給することによっても、達成されることは言うまでもない。また、システムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。

0207

この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

0208

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク光磁気ディスクCD−ROM、CD−R、不揮発性メモリカード、ROMなどを用いることができる。

0209

また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される。また、プログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態が実現される場合も含まれることは言うまでもない。

0210

なお、上記の複数の実施形態を組み合わせることとしてもよい。

0211

110文書画像解析部
120候補領域設定部
130 候補領域認識部
140抽出情報同定部
150登録部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社ソケッツの「 検索装置および方法」が 公開されました。( 2019/09/19)

    【課題】同一の感性ワードで加重的に絞り込み検索を行えるようにする。【解決手段】同一の感性ワードで加重的に絞り込み検索を行う場合、類似・関連ワード抽出部319が、感性ワードに類似・関連する別のワードを検... 詳細

  • アマネファクトリー株式会社の「 月齢表示アクセサリー」が 公開されました。( 2019/09/19)

    【課題】容易に胎児の月齢等の情報を取得することが可能な装身具、及び胎児の月齢等を前記装身具に表示するシステムを提供する。【解決手段】 装身具に胎児の月齢及び/又は胎児イメージ画像を含む胎児情報を表示... 詳細

  • 株式会社おいしい健康の「 検索装置、検索方法、及び検索プログラム」が 公開されました。( 2019/09/19)

    【課題】患者ごとの症状に合わせてレシピ情報を検索可能であり、最適な料理のレシピ情報を提案可能な検索装置、方法およびプログラムを提供する。【解決手段】ユーザが罹患している病気の病態や症状を入力することで... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ