図面 (/)

技術 文字列検索装置および方法並びにプログラム

出願人 富士フイルム株式会社
発明者 日野明
出願日 2014年10月22日 (4年11ヶ月経過) 出願番号 2014-214988
公開日 2016年5月16日 (3年4ヶ月経過) 公開番号 2016-081445
状態 特許登録済
技術分野 検索装置
主要キーワード 統一形式 追加検索 除外対象 近傍探索 誤り箇所 各部分文字列 語尾変化 文字列検索装置
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年5月16日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

OCR(optical character recognition)の結果などノイズが含まれる文字列に基づく検索において、簡易かつ過不足のない適切な検索を行う文字列検索装置および方法並びにプログラムを提供する。

解決手段

検索対象の文字列を受け付ける文字列受付部10と、文字列受付部10によって受け付けられた文字列を用いてデータ記憶部を参照して検索を行う検索部11と、検索部11によって検索された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出する評価部12を備える。

概要

背景

従来、文字列検索が広く一般に利用されている。多く場合、ユーザは検索クエリとして文字列を手動入力し、検索サーバからの回答を得る。その際、検索クエリの文字列は、スペルミス等といった多少のあいまいさは含むが、多量または大きな誤りは含まないことが前提とされている。

上記のような多少のあいまいさについては、たとえば正規化処理編集距離などを用いた近傍探索によって解消され、適切な検索を行うことができる。なお、正規化処理は、検索クエリを予め定められた統一形式に変換する処理であり、たとえば「行った」から「行く」への変換や「apples」から「apple」への変換といった語尾変換処理や、「ダイヤモンド」を「ダイアモンド」に変換する表記揺れ修正する処理や、「Apple」を「apple」に変換する大文字または小文字への統一化処理や、「apple」を「apple」に変換する半角または全角への統一化処理などがある。

また、編集距離などを用いた近傍探索は、編集距離などによって語の類似度計測し、検索クエリに近い語を含む検索結果を出力する。たとえば、編集距離「1」まで許容すれば、検索クエリから1文字違いの語の集合を得ることができる。

概要

OCR(optical character recognition)の結果などノイズが含まれる文字列に基づく検索において、簡易かつ過不足のない適切な検索を行う文字列検索装置および方法並びにプログラムを提供する。検索対象の文字列を受け付ける文字列受付部10と、文字列受付部10によって受け付けられた文字列を用いてデータ記憶部を参照して検索を行う検索部11と、検索部11によって検索された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出する評価部12を備える。

目的

本発明は、上記の問題に鑑み、OCRの結果などノイズが含まれる文字列に基づく検索において、簡易かつ過不足のない適切な検索を行うことができる文字列検索装置および方法並びにプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

検索対象文字列を用いてデータ記憶部を参照して検索を行う検索部と、該検索部によって検索された検索結果の文字列と前記検索対象の文字列とを照合して前記検索結果の文字列を評価することによって、前記検索結果の文字列の信頼度を算出する評価部とを備えたことを特徴とする文字列検索装置

請求項2

前記評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部をさらに備え、前記検索部が、前記追加検索要否判定部において前記追加検索が必要であると判定された場合には、前記検索対象の文字列に基づく前記追加検索を行い、最初の前記検索の検索結果と前記追加検索の結果とを合併統合する検索結果統合部をさらに備えた請求項1記載の文字列検索装置。

請求項3

前記評価部が、前記検索結果の文字列を分割して部分文字列を生成し、該生成した部分文字列と前記検索対象の文字列とを照合して前記評価を行う請求項1または2記載の文字列検索装置。

請求項4

前記評価部が、2種類以上の指標を用いて前記評価を行う請求項3記載の文字列検索装置。

請求項5

前記評価部が、前記部分文字列が前記検索対象の文字列の中に含まれる割合および前記検索対象の文字列の中における前記部分文字列の出現頻度を前記指標として前記評価を行う請求項4記載の文字列検索装置。

請求項6

前記評価部が、前記部分文字列の出現頻度が高い前記検索結果の文字列から順に並べ、前記検索結果の文字列の数が予め設定された閾値よりも多い場合には、予め設定された数の下位の順位の前記検索結果の文字列を最初の前記検索の検索結果から除外する請求項5記載の文字列検索装置。

請求項7

前記追加検索要否判定部が、前記部分文字列の出現頻度が最も高い前記検索結果の文字列を取得し、該取得した文字列の前記部分文字列が前記検索対象の文字列の中に含まれる割合が予め設定された閾値より大きい場合には、前記追加検索は不要と判定し、前記割合が閾値以下である場合には、前記追加検索が必要であると判定する請求項6記載の文字列検索装置。

請求項8

最初の前記検索に用いられる前記検索対象の文字列に基づく検索クエリと前記追加検索に用いられる前記検索対象の文字列に基づく検索クエリとが異なる請求項1から7いずれか1項記載の文字列検索装置。

請求項9

最初の前記検索に用いられる検索アルゴリズムと前記追加検索に用いられる検索アルゴリズムとが異なる請求項1から8いずれか1項記載の文字列検索装置。

請求項10

最初の前記検索に用いられるデータ記憶部と前記追加検索に用いられるデータ記憶部とが異なる請求項1から9いずれか1項記載の文字列検索装置。

請求項11

前記検索対象の文字列が、OCR(optical character recognition)によって取得されたものである請求項1から10いずれか1項記載の文字列検索装置。

請求項12

検索対象の文字列を用いて検索を行い、該検索による検索結果の文字列と前記検索対象の文字列とを照合して前記検索結果の文字列を評価することによって、前記検索結果の文字列の信頼度を算出することを特徴とする文字列検索方法。

請求項13

コンピュータを、検索対象の文字列を用いて検索を行う検索部と、該検索部によって検索された検索結果の文字列と前記検索対象の文字列とを照合して前記検索結果の文字列を評価することによって、前記検索結果の文字列の信頼度を算出する評価部として機能させることを特徴とする文字列検索プログラム

技術分野

0001

本発明は、検索対象文字列を受け付け、その文字列を用いてデータ記憶部を参照することによって文字列の検索を行う文字列検索装置および方法並びにプログラムに関するものである。

背景技術

0002

従来、文字列検索が広く一般に利用されている。多く場合、ユーザは検索クエリとして文字列を手動入力し、検索サーバからの回答を得る。その際、検索クエリの文字列は、スペルミス等といった多少のあいまいさは含むが、多量または大きな誤りは含まないことが前提とされている。

0003

上記のような多少のあいまいさについては、たとえば正規化処理編集距離などを用いた近傍探索によって解消され、適切な検索を行うことができる。なお、正規化処理は、検索クエリを予め定められた統一形式に変換する処理であり、たとえば「行った」から「行く」への変換や「apples」から「apple」への変換といった語尾変換処理や、「ダイヤモンド」を「ダイアモンド」に変換する表記揺れ修正する処理や、「Apple」を「apple」に変換する大文字または小文字への統一化処理や、「apple」を「apple」に変換する半角または全角への統一化処理などがある。

0004

また、編集距離などを用いた近傍探索は、編集距離などによって語の類似度計測し、検索クエリに近い語を含む検索結果を出力する。たとえば、編集距離「1」まで許容すれば、検索クエリから1文字違いの語の集合を得ることができる。

先行技術

0005

特開2012−133539号公報
特開平10−240870号公報
特開平7−152871号公報

発明が解決しようとする課題

0006

ここで、今後は、上述したような手動入力以外の入力方法(画像または音声)が広がるものと想定されるが、画像に基づくOCR(optical character recognition)の結果や音声認識の結果では、多量でかつ人間が起こしえないような、誤りおよびノイズを含み、有意義な検索結果を得られない恐れがある。特に、広告包装などでは、特殊な書体意匠またはロゴを含み、OCRを適切に行うことが難しい。その結果、たとえばノイズを含んだ認識結果をAND検索すれば該当無し、ノイズを含んだ認識結果をOR検索すれば無意味な結果を大量に得ることになる。

0007

上述した正規化処理は、検索クエリに多量でかつ人間が起こしえないような誤りがないことが前提であるため、OCRの結果などを検索に用いたとしても適切な検索を行うことができない。

0008

また、上述した編集距離などを用いた近傍探索は、編集距離に対し、その集合の大きさ(語の数)は指数的に増大し、検索に要する時間も増える。OCRの結果など誤り箇所が限定的と仮定できない場合、単純適用は困難である。

0009

特許文献1においては、ノイズを含むOCRの結果を検索対象として、検索文字列クラスタリングして特徴ベクトルを算出し、検索対象の特徴ベクトルと照合することによりあいまい検索を実現する方法が提案されている。

0010

しかしながら、特許文献1の方法では、特徴ベクトル生成へのノイズの影響を抑制するために入力文字列および検索文字列以外の情報を必要とするため、ノイズの影響の抑制が難しい。

0011

また、特許文献2においては、OCRの結果の文字列を単語毎区切り、その単語の出現回数集計し、その出現回数によって認識結果の妥当性チェックすることによって単語の認識率を向上させることが開示されているが、大量の単語を含む文書におけるOCRの精度を上げる方法であり、OCRの結果に基づく検索文字列に多くのノイズを含む場合に適切な検索を行うのは難しい。また、特許文献3には、2回の異なる文字認識結果総合して基本ツリー辞書により判定することによりOCRの結果の文字列の文字認識率を向上させることが提案されているが、OCRの結果に基づく検索文字列に多くのノイズを含む場合に適切な検索を行うのは難しい。

0012

本発明は、上記の問題に鑑み、OCRの結果などノイズが含まれる文字列に基づく検索において、簡易かつ過不足のない適切な検索を行うことができる文字列検索装置および方法並びにプログラムを提供することを目的とする。

課題を解決するための手段

0013

本発明の文字列検索装置は、検索対象の文字列を用いてデータ記憶部を参照して検索を行う検索部と、検索部によって検索された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出することを特徴とする。

0014

また、本発明の文字列検索装置においては、評価部において算出された信頼度に基づいて、追加検索が必要か否かを判定する追加検索要否判定部をさらに設け、検索部は、追加検索要否判定部において追加検索が必要であると判定された場合には、検索対象の文字列に基づく追加検索を行い、最初の検索の検索結果と追加検索の結果とを合併統合する検索結果統合部をさらに設けることができる。

0015

また、評価部は、検索結果の文字列を分割して部分文字列を生成し、その生成した部分文字列と検索対象の文字列とを照合して評価を行うことができる。

0016

また、評価部は、2種類以上の指標を用いて評価を行うことができる。

0017

また、評価部は、部分文字列が検索対象の文字列の中に含まれる割合および検索対象の文字列の中における部分文字列の出現頻度を上記指標として評価を行うことができる。

0018

また、評価部は、部分文字列の出現頻度が高い検索結果の文字列から順に並べ、検索結果の文字列の数が予め設定された閾値よりも多い場合には、予め設定された数の下位の順位の検索結果の文字列を最初の検索の検索結果から除外することができる。

0019

また、追加検索要否判定部は、部分文字列の出現頻度が最も高い検索結果の文字列を取得し、その取得した文字列の部分文字列が検索対象の文字列の中に含まれる割合が予め設定された閾値より大きい場合には、追加検索は不要と判定し、上記割合が閾値以下である場合には、追加検索が必要であると判定することができる。

0020

また、最初の検索に用いられる検索対象の文字列に基づく検索クエリと追加検索に用いられる検索対象の文字列に基づく検索クエリとは異なっていてもよい。

0021

また、最初の検索に用いられる検索アルゴリズムと追加検索に用いられる検索アルゴリズムとは異なっていてもよい。

0022

また、最初の検索に用いられるデータ記憶部と追加検索に用いられるデータ記憶部とは異なっていてもよい。

0023

また、検索対象の文字列として、OCR(optical character recognition)によって取得された文字列を用いることができる。

0024

本発明の文字列検索方法は、検索対象の文字列を用いて検索を行い、その検索による検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出することを特徴とする。

0025

本発明の文字列検索プログラムは、コンピュータを、検索対象の文字列を用いて検索を行う検索部と、検索部によって検索された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出する評価部として機能させることを特徴とする。

発明の効果

0026

本発明の文字列検索装置および方法並びにプログラムによれば、検索対象の文字列を用いて検索を行い、その検索による検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価することによって、検索結果の文字列の信頼度を算出するようにしたので、ノイズを含む短い文字列による適切な検索を行うことができる。

0027

たとえば、検索結果の文字列の信頼度に基づいて、追加検索が必要か否かを判定し、追加検索が必要であると判定した場合に、検索対象の文字列に基づく追加検索を行うようにした場合には、最初の検索では、冗長な検索結果の発生を抑制する検索を行い、その検索結果を評価して追加検索が必要と判定された場合に、追加検索を行ってより広い検索結果を得ることができ、簡易かつ過不足のない適切な検索を行うことができる。

図面の簡単な説明

0028

本発明の文字列検索装置の一実施形態を用いた検索システム概略構成を示す図
本発明の文字列検索装置の一実施形態を用いた検索システムの作用を説明するためのフローチャート
最初の検索結果の評価方法を説明するためのフローチャート
検索対象の文字列と検索結果の文字列との照合を説明するための図
光電的に読み取られるPTP(Press Through Package)の一例を示す図
図1に示す検索システムを薬剤検査ステムに適用した場合における検索結果の表示例を示す図

実施例

0029

以下、本発明の文字列検索装置および方法並びにプログラムの一実施形態を用いた検索システムについて、図面を参照しながら詳細に説明する。図1は、本実施形態の検索システムの概略構成を示す図である。

0030

本実施形態の検索システムは、図1に示すように、文字列検索装置1と、OCR(Optical Character Recognition)装置2と、データベース装置3(本発明のデータ記憶部に相当する)と、ディスプレイ4とを備えている。

0031

文字列検索装置1は、コンピュータに対して本発明の文字列検索プログラムの一実施形態がインストールされたものである。

0032

文字列検索装置1は、CPU(Central Processing Unit)(中央処理装置)、半導体メモリおよびハードディスクなどを備えており、ハードディスクに本発明の文字列検索プログラムの一実施形態がインストールされている。そして、この文字列検索プログラムがCPUを有する制御部17によって実行されることによって、図1に示すような文字列受付部10、検索部11、評価部12、追加検索要否判定部13、検索結果統合部14、記憶部15および出力部16が動作する。

0033

文字列受付部10は、検索対象の文字列を受け付けるものである。具体的には、本実施形態の文字列受付部10は、OCR装置2から出力されたOCRの結果である文字列を受け付けるものである。OCR装置2は、文字列を含む読取対象を光電的に読み取った画像データに対して文字認識処理を施し、これにより画像データに含まれる文字列を認識して出力するものである。文字認識処理としては既に公知の処理が施されるが、この文字認識処理の際、文字以外の記号マークまたは模様などが誤認識され、実際の文字認識処理の結果にはノイズが含まれている。本実施形態では、このような誤認識による雑多なノイズを多量に含む、相当程度長い文字列が文字列受付部10によって受け付けられることを想定している。

0034

検索部11は、文字列受付部10によって受け付けられた文字列が入力され、その文字列を用いてデータベース装置3に記憶されているデータを参照することによって検索を行うものである。本実施形態の検索部11は、文字列受付部10によって受け付けられた文字列、すなわちOCRの結果をそのまま用いるのではなく、この文字列から検索クエリを生成し、その検索クエリを用いてデータベース装置3に記憶されているデータの検索を行う。検索クエリの生成方法としては、たとえば文字列を分割して部分文字列とし、この部分文字列のANDを検索クエリとすることができる。文字列の分割方法としては、たとえばN-Gram分割を用いることができる。なお、検索クエリの生成方法としては、上述したような方法に限らず、その他の公知な方法を用いることができる。

0035

また、検索部11における検索アルゴリズムについては、既に公知の検索アルゴリズムを用いることができる。

0036

評価部12は、検索部11によって最初に検索された検索結果の文字列および文字列受付部10によって受け付けられた検索対象の文字列が入力され、その入力された検索結果の文字列と検索対象の文字列とを照合して検索結果の文字列を評価するものである。なお、検索結果の文字列の評価方法については、後述する。

0037

追加検索要否判定部13は、評価部12における検索結果の文字列の評価結果に基づいて、検索対象の文字列の追加検索が必要か否かを判定するものである。この追加検索は、文字列受付部10によって受け付けられた検索対象の文字列に基づく追加の検索である。したがって、最初に行った検索とは異なる検索結果が得られるような検索が行われる。

0038

具体的には、たとえば最初の検索に用いた検索クエリとは異なる検索クエリを用いて検索を行うか、または最初の検索に用いた検索アルゴリズムとは異なる検索アルゴリズムを用いるなどすればよい。最初の検索に用いた検索クエリとは異なる検索クエリとしては、たとえば、最初の検索に用いた検索クエリとは、あいまい度が異なる検索クエリを用いることができる。より具体的には、たとえばOCRの読取対象の文字列が「アシタ」であり、最初の検索に用いた検索クエリが、「アシ AND シタ」である場合、追加検索の検索クエリは、「アシ ORシタ」とすればよい。なお、あいまい度が異なる検索クエリの生成方法としては、これに限らず、その他の公知な手法を用いることができる。

0039

また、最初に行った検索に用いた検索アルゴリズムとは異なる検索アルゴリズムとして、は、たとえば検索履歴を参照するものを用いることができる。

0040

なお、追加検索の要否の判定方法については、後述する。

0041

追加検索要否判定部13における判定結果は検索部11に出力され、検索部11は、追加検索を行う必要があるとの判定結果である場合には上述した追加検索を行い、追加検索を行う必要がないとの判定結果である場合には、上述した追加検索を行うことなく、最初の検索の検索結果を記憶部15に出力して記憶させる。

0042

検索結果統合部14は、検索部11における最初の検索の検索結果と、上述した追加検索の検索結果とを合併統合するものである。上述した追加検索を行うのは、評価部12において最初の検索の検索結果が充分でないと評価された場合であるが、追加検索の検索結果が最初の検索結果よりも良い結果であるとは限らないため、本実施形態においては、最初の検索の検索結果と追加検索の検索結果とを合併統合することによって、最初の検索結果も破棄することなく有効利用する。なお、この合併統合においては、最初の検索の検索結果と追加検索の検索結果とで重複する場合には、その重複は除外する。

0043

記憶部15は、半導体メモリおよびハードディスクなどのストレージデバイスから構成されるものであり、検索部11における最初の検索の検索結果、検索結果統合部14において合併統合された検索結果および評価部12における評価結果などが記憶されるものである。

0044

出力部16は、記憶部15に記憶された最初の検索の検索結果、合併統合された検索結果および評価結果などを読み出してディスプレイ4に出力して表示させるものである。

0045

制御部17は、上述したようにCPUを有するものであり、本実施形態の文字列検索プログラムに基づいて文字列検索装置1全体を制御するものである。

0046

データベース装置3は、検索対象の文字列に関連するデータが記憶されたものである。具体的には、たとえば種々の薬剤名が記憶されている。そして、薬剤名が印字された薬剤の包装を光電的に読み取ってOCR装置2により認識された文字列が検索対象の文字列として用いられ、データベース装置3に記憶された種々の薬剤名との照合および検索が行われる。なお、データベース装置3に記憶されるデータは薬剤名に限らず、用途に応じて種々のデータが記憶される。

0047

次に、本実施形態の検索システムの作用について、図2に示すフローチャートを参照しながら説明する。

0048

まず、文字認識処理によって認識された文字列が検索対象の文字列としてOCR装置2から出力され、文字列受付部10によって受け付けられる(S10)。

0049

文字列受付部10によって受け付けられた検索対象の文字列は検索部11に出力され、検索部11は、入力された検索対象の文字列から検索クエリを生成し、その検索クエリを用いてデータベース装置3に記憶されているデータを参照することによって最初の検索を行う(S12)。

0050

そして、検索部11における最初の検索結果は評価部12に出力され、評価部12は、入力された検索結果の評価を行う。このように検索結果の評価を行うのは、OCRの結果はノイズを含むため、最初の検索で用いた検索クエリも適切でない場合があり、すなわち最初の検索結果も適切でない可能性があるからである。以下、最初の検索結果の評価方法について、図3に示すフローチャートを参照しながら詳細に説明する。また、図4は、最初の検索結果の評価における検索対象の文字列と検索結果の文字列との照合を説明するための図である。

0051

まず、評価部12は、文字列受付部10によって受け付けられた検索対象の文字列、すなわちノイズを含んだ状態のOCRの結果を取得し、かつj=0に設定する(S30)。jは0≦j<Mであり、Mは最初の検索結果の件数である。

0052

次に、評価部12は、最初の検索結果の1つであるS[j](0≦j<M)を取り出し、そのS[j]に対し、正規化処理とN-Gramによる文字列の分割処理を施し、部分文字列を生成する(S32)。この際に生成された部分文字列の数をN、各部分文字列をP[i](0≦i<N)とし、i=0に設定する。また、カウンタrをr=0に設定し、カウンタfをf=0に設定する。

0053

なお、正規化処理は、検索対象の文字列または検索クエリを予め設定された統一形式に揃える処理であり、上述したように、語尾変化を統一された形式に変換したり、表記揺れを修正したり、大文字または小文字への統一化処理、半角または全角への統一化処理などである。

0054

そして、評価部12は、部分文字列P[i]を取り出し(S34)、S30で取得された検索対象の文字列の中にP[i]と一致する部分があるか否かを判定し、一致する部分がある場合には、カウンタrをr=r+1とする(S36)。なお、この判定の際、P[i]に一致する部分だけなく、P[i]に類似する部分文字列群と一致する部分があるか否かを判定するようにしてもよい。具体的には、たとえばOCR装置2において、「シ」と「ツ」の誤認識が生じやすい場合には、「アシ」という部分文字列だけでなく、「アシ」および「アツ」を部分文字列群とし、これらの部分文字列と一致する部分があるか否かを判定するようにすればよい。なお、以下、このような部分文字列群の生成を文字列展開という。

0055

次いで、評価部12は、検索対象の文字列の中にP[i]と一致する部分が何箇所あるかを計測する(S38)。そして、P[i]と一致する部分の数がcである場合には、f=f+cとする。なお、この際、S36と同様に、文字列展開を行ってもよい。

0056

そして、i=i+1に設定し、i<Nであるか否かを判定し、i<Nである場合には、S34〜S40までの処理を繰り返す(S42,YES)。すなわち、全ての部分文字列P[i]について、検索対象の文字列の中に含まれているか否かを判定してrをカウントし、さらに検索対象の文字列の中にP[i]と一致する部分が何箇所あるかを計測してfをカウントする。

0057

S42においてi<Nでないと判定された場合にはS44に進み、評価部12は、検索対象の文字列に含まれていた部分文字列の割合を算出する。具体的には、S[j]に関する指標として、R[j]=r/Nを算出し、これを記憶部15に記憶する。

0058

さらに、評価部12は、検索対象の文字列に含まれていた部分文字列の出現頻度を算出する(S46)。具体的には、S[j]に関する指標として、F[j]=f/Nを算出し、これを記憶部15に記憶する。

0059

そして、評価部12は、j=j+1に設定し、j<Mであるか否かを判定し、j<Mである場合には、S32〜S48までの処理を繰り返す(S50,YES)。すなわち、最初の検索結果S[j]の全てについて、評価の指標であるR[j]およびF[j]を算出し、これらを記憶部15に記憶する。なお、本実施形態においては、このR[j]およびF[j]が、本発明における信頼度に相当するものである。

0060

一方、S50においてj<Mでない場合にはS52に進み、評価部12は、最初の検索結果であるS[k](0≦k<M)をF[k]の降順に並べる。すなわち、評価部12は、出現頻度の指標であるF[k]の高い順にS[k]を並べる。そして、評価部12は、たとえば最初の検索結果の数Mが、予め設定された閾値よりも大きい場合には、F[k]の値が相対的に小さい下位の検索結果を検索結果から除外することによって最初の検索結果の絞り込みを行う。なお、除外対象となる検索結果の数は、予めユーザによって設定される。評価部12は、絞り込まれた検索結果を記憶部15に記憶する。

0061

以上が、評価部12における最初の検索の検索結果の評価方法の説明である。

0062

次に、図2戻り、S14において、上述したように評価部12における最初の検索結果の評価が終了した後、追加検索要否判定部13において、上述した追加検索が必要か否かが判定される(S16)。具体的には、追加検索要否判定部13は、図3に示すS52において、F[k]の高い順に並べられたS[k]のうち、最も高い順位の検索結果の文字列であるS[m]に関するR[m]を記憶部15から読み出し、そのR[m]を予め設定された閾値と比較し、R[m]が閾値よりも大きい場合には、追加検索不要と判定する(S16,NO)。この場合、上述したように最初の検索結果を絞り込んだ検索結果を記憶部15から読み出して出力部16に出力する。なお、このように出現頻度の指標であるF[k]のみによって追加検索の要否を判定するのではなく、部分文字列が存在する割合の指標であるR[m]も考慮して追加検索の要否を判定するには、F[k]のみで判定したのでは、一部の部分文字列の出現頻度だけが高い場合があり得るからである。R[m]も考慮することによって、部分文字列の多くが検索対象の文字列に含まれているかを確認することができる。

0063

一方、追加検索要否判定部13は、R[m]が閾値以下である場合には、追加検索が必要であると判定する(S16,YES)。そして、追加検索要否判定部13において追加検索が必要であると判定された場合には、その旨が検索部11に出力され、検索部11は、上述したような追加検索を行い、その検索結果は記憶部15に記憶される(S18)。

0064

このように2段階で検索を行うことによって、最初の検索では、冗長な検索結果の発生を抑制することができ、追加検索では、より広い検索結果を得ることができる。

0065

そして、追加検索の後、検索結果統合部14は、追加検索の検索結果と絞り込まれた最初の検索結果とを記憶部15から読み出してこれらを合併統合し、その合併統合した検索結果を記憶部15に記憶する(S20)。

0066

次いで、合併統合された検索結果が評価部12によって読み出され、評価部12は、合併統合された検索結果について、上述した最初の検索結果の評価と同様にして、部分文字列を検索対象の文字列とを照合することによって評価を行う。

0067

そして、合併統合された検索結果の各文字列について、たとえばF[j]を算出し、これに基づいて各文字列のスコアリングを行う。

0068

そして、各文字列とそのスコアは記憶部15に記憶された後、出力部16によって読み出され、たとえばスコアが高い順に並べられてディスプレイ4に表示される。この際、合併統合された検索結果の全ての文字列を並べて表示するようにしてもよいし、スコアが最も高い文字列だけを表示させるようにしてもよいし、予め設定された数の上位のスコアの文字列だけを表示させるようにしてもよい。

0069

次に、上記した検索システムを薬剤検査システムに適用した例について説明する。薬剤検査システムは、患者に処方された薬剤が、医師処方箋にしたがった正しいものであるか否かを検査するシステムである。

0070

具体的には、この薬剤検査システムにおいては、患者に渡される薬剤の包装に印字された薬剤名、製薬会社名および薬剤の量などを含む文字列が光電的に読み取られ、その読み取られた画像データが検索システムのOCR装置2に入力される。薬剤の包装としては、たとえばPTP(Press Through Package)などがある。図5は、光電的に読み取られるPTPの一例を示すものである。図5においては、薬剤名のみが複数個所に印字されているが、実際は、上述したように製薬会社名、薬剤の量またはマークなどが印字されている場合もある。

0071

そして、OCR装置2において、画像データに対して文字認識処理が施され、画像データ内に含まれる文字列が取得される。なお、図5に示すように画像データ内の複数箇所に薬剤名が印字されている場合には、これらの文字列を繋げて1つの文字列として検索を行ってもよいし、個別の文字列として検索を行ってもよい。

0072

そして、その取得された文字列が、文字列検索装置1に入力され、文字列検索装置1は、入力された文字列を用いて上述した検索、評価および追加検索などを行う。この際、データベース装置3には多数の薬剤名のデータが記憶されており、文字列検索装置1は、入力された文字列とデータベース装置3に記憶された多数の薬剤名とを照合することによって検索および追加検索を行う。

0073

そして、文字列検索装置1による検索結果について、上述したようにそれぞれスコアが算出され、たとえば図6に示すようにスコアが高い順に薬剤名が上から表示される。薬剤検査システムに対して医師の処方箋に従った薬剤名を予め設定入力しておき、薬剤検査システムにおいて、設定入力された薬剤名と検索結果の最も高いスコアの薬剤名とを比較することによって患者に渡された薬剤が正しいものか否かを判定する。そして、正しい薬剤である場合には、検査OKの表示が行われ、正しい薬剤でない場合や検索された薬剤がない場合には、目視による確認を促す等の表示が行われる。なお、検索結果の薬剤名の表示と処方箋の薬剤名の表示のみを行い、判定については、ユーザが行うようにしてもよい。

0074

なお、上述したように薬剤検査システムに上記実施形態の検索システムを適用する場合、たとえば追加検索に用いるデータベース装置を、最初の検索に用いたデータベース装置とは異なるデータベース装置としてもよい。具体的には、予め記憶されている薬剤の種類数が異なるデータベース装置を用いてもよい。

0075

また、上記実施形態の検索システムにおいては、文字列受付部10がOCR装置2から出力された文字列を受け付けるようにしたが、OCR装置に限らず、たとえば音声認識処理によって取得された文字列を取得するようにしてもよい。すなわち、OCRや音声認識によって取得された文字列のようにノイズを含むような文字列であれば如何なる文字列でもよく、このような文字列の場合に、本発明の効果が顕著に表れる。もちろん、文字列受付部10によってノイズを含まない文字列を受け付けてもよい。

0076

また、上記実施形態の検索システムの説明では、追加検索を一回行うようにしたが、合併統合した検索結果の評価結果に基づいて、追加検索を2回以上行うようにしてもよい。

0077

1文字列検索装置
2OCR装置
3データベース装置
4ディスプレイ
10文字列受付部
11検索部
12 評価部
13追加検索要否判定部
14 検索結果統合部
15 記憶部
16 出力部
17 制御部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 三菱電機株式会社の「 情報処理装置および情報処理方法」が 公開されました。( 2019/08/08)

    【課題・解決手段】情報処理装置(10)は、時系列データである入力データを取得するデータ取得部(101)と、時系列データである学習データから抽出した部分列である複数の学習部分列の中で類似する学習部分列を... 詳細

  • オムロン株式会社の「 センシングデバイス管理装置」が 公開されました。( 2019/08/08)

    【課題・解決手段】センサ側メタデータに相当するデータカタログの生成が簡単且つ適正に行えるセンシングデバイス管理装置を提供する。デバイス情報取得機能部11dが、測定対象をセンシングするセンシングデバイス... 詳細

  • オムロン株式会社の「 マッチング処理装置」が 公開されました。( 2019/08/08)

    【課題・解決手段】利活用対象のセンシングデータによる容易なセンサマッチングを行うマッチング処理部50が提供される。マッチング処理部50は、提供側端末11により入力された提供側センシングデータを取得する... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ