図面 (/)
課題
解決手段
概要
背景
キーワード検索の結果を一覧表示する方法として、Yahoo 、Google等の検索エンジンによる検索結果の表示方法がよく知られている。つまり、各検索結果には、キーワードが含まれる周辺の語句が予め決められた量(行数、表示範囲)だけ表示されるようになっている。
特許文献1には、キーワード検索の結果として、検索キーワードを含む文書とその文書の論理構造等を付与して表示することが開示されている。特許文献2には、検索結果をマトリクス表示することが開示されている。
これらの特許文献1,2では、検索結果に関連情報を付与することにより、あるいは検索結果の関連性を示すことにより、検索結果の見易さを向上させることはできるが、限られた検索結果表示領域での情報量の最大化を図ることは困難である。
特開2003−30241号公報
特開2006−113733号公報
概要
本願発明の目的は、検索結果一覧の1ページ当たりの情報量が最大となるように、1検索結果当たりの周辺語句の行数を決定することができる検索結果一覧表示システムを提供することにある。算出手段は、1検索結果当たりの周辺語句の複数種類の行数候補と検索対象のデータベースの文長分布とに基づいて、複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、得られた複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を利用して、複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出する。
目的
本願発明の目的は、検索結果一覧の1ページ当たりの情報量が最大となるように、1検索結果当たりの周辺語句の行数を決定することができる検索結果一覧表示システムおよび検索結果一覧表示プログラムを提供することにある。
効果
実績
- 技術文献被引用数
- 1件
- 牽制数
- 0件
この技術が所属する分野
(分野番号表示ON)※整理標準化データをもとに当社作成
請求項1
検索対象のデータベースに対して行なわれたキーワード検索の結果を、検索キーワードが含まれる周辺語句を付与して一覧表示する検索結果一覧表示システムにおいて、1検索結果当たりの周辺語句の複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出する算出手段、および前記算出手段の算出結果に基づいて、検索結果一覧の1ページ当たりの情報量が最大となるような1検索結果当たりの周辺語句の行数候補を、1検索結果当たりの最適な周辺語句の行数として決定する決定手段を備えており、前記算出手段は、1検索結果当たりの周辺語句の前記複数種類の行数候補と前記データベースの文長分布とに基づいて、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、得られた前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を利用して、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出するものであることを特徴とする検索結果一覧表示システム。
請求項2
前記算出手段は、検索結果一覧内の1検索結果の表示領域における1行内の文字数と、1検索結果当たりの周辺語句の前記複数種類の行数候補と、前記データベースの文長分布とから、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、検索結果一覧の1ページの行数と、1検索結果当たりの周辺語句の前記複数種類の行数候補とを少なくとも考慮して、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページに表示される検索結果数を算出し、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量および検索結果一覧の1ページに表示される検索結果数とに基づいて、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出するものであることを特徴とする請求項1に記載の検索結果一覧表示システム。
請求項3
請求項4
前記確率分布がポアソン分布であることを特徴とする請求項3に記載の検索結果一覧表示システム。
請求項5
検索結果一覧の1ページの行数および検索結果一覧内の1検索結果の表示領域における1行内の文字数のうちの少なくも1方が変化したときには、前記算出手段により、1検索結果当たりの周辺語句の前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出させるとともに、前記決定手段により、前記算出手段の算出結果に基づいて、1検索結果当たりの最適な周辺語句の行数を決定させる手段を備えていることを特徴とする請求項1〜4に記載の検索結果一覧表示システム。
請求項6
検索対象のデータベースに対して行なわれたキーワード検索の結果を、検索キーワードが含まれる周辺語句を付与して一覧表示する検索結果一覧表示プログラムであって、コンピュータを、1検索結果当たりの周辺語句の複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出する算出手段、および前記算出手段の算出結果に基づいて、検索結果一覧の1ページ当たりの情報量が最大となるような1検索結果当たりの周辺語句の行数候補を、1検索結果当たりの最適な周辺語句の行数として決定する決定手段、として機能させるためのプログラムを含んでおり、前記算出手段は、1検索結果当たりの周辺語句の前記複数種類の行数候補と前記データベースの文長分布とに基づいて、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、得られた前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を利用して、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出するものであることを特徴とする検索結果一覧表示プログラム。
技術分野
0001
この発明は、検索対象のデータベースに対して行なわれたキーワード検索の結果を、検索キーワードが含まれる周辺語句を付与して一覧表示する検索結果一覧表示システムおよび検索結果一覧表示プログラムに関する。
背景技術
0002
キーワード検索の結果を一覧表示する方法として、Yahoo 、Google等の検索エンジンによる検索結果の表示方法がよく知られている。つまり、各検索結果には、キーワードが含まれる周辺の語句が予め決められた量(行数、表示範囲)だけ表示されるようになっている。
0003
特許文献1には、キーワード検索の結果として、検索キーワードを含む文書とその文書の論理構造等を付与して表示することが開示されている。特許文献2には、検索結果をマトリクス表示することが開示されている。
0004
これらの特許文献1,2では、検索結果に関連情報を付与することにより、あるいは検索結果の関連性を示すことにより、検索結果の見易さを向上させることはできるが、限られた検索結果表示領域での情報量の最大化を図ることは困難である。
特開2003−30241号公報
特開2006−113733号公報
発明が解決しようとする課題
0005
キーワード検索の結果を一覧表示する際には、抽出されたキーワードの出所、属性、性質等を把握したい。そこで、キーワードが含まれる周辺の語句を添えて、検索結果が一覧表示されることがよくある。上述したYahoo 、Google等の検索エンジンによる検索結果の表示方法が典型的な例である。
0006
ところで、キーワード検索にて、検索キーワードのヒント(出所、属性、性質)となる周辺語句を表示するシステムにおいて、1検索結果に対する周辺語句の分量が多いと、検索キーワードのヒントとしての情報量は一般的に多くなるが、1ページ当たりに表示できる検索結果数は少なくなる。反対に1検索結果に対する周辺語句の分量を少なくすると、1ページ当たりに表示できる検索結果数は多くなるが、一つの検索結果に対するヒントの情報量は一般的に少なくなる。なお、1検索結果に対する周辺語句の情報量とは、検索キーワードのヒントとなる周辺語句の情報的価値を考慮した評価指標をいい、1検索結果に対する周辺語句の物理的な分量とは異なる。
0007
本願発明の目的は、検索結果一覧の1ページ当たりの情報量が最大となるように、1検索結果当たりの周辺語句の行数を決定することができる検索結果一覧表示システムおよび検索結果一覧表示プログラムを提供することにある。
課題を解決するための手段
0008
この発明による検索結果一覧表示システムは、検索対象のデータベースに対して行なわれたキーワード検索の結果を、検索キーワードが含まれる周辺語句を付与して一覧表示する検索結果一覧表示システムにおいて、1検索結果当たりの周辺語句の複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出する算出手段、および前記算出手段の算出結果に基づいて、検索結果一覧の1ページ当たりの情報量が最大となるような1検索結果当たりの周辺語句の行数候補を、1検索結果当たりの最適な周辺語句の行数として決定する決定手段を備えており、前記算出手段は、1検索結果当たりの周辺語句の前記複数種類の行数候補と前記データベースの文長分布とに基づいて、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、得られた前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を利用して、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出するものであることを特徴とする。
0009
「1検索結果当たり」における「1検索結果」とは、検索された複数の検索結果のうちの1単位をいう。「1ページ当たり」における「1ページ」とは、1画面内に表示される検索結果一覧画面(検索結果の一覧を表示するための画面)の領域をいう。1画面内に検索結果一覧画面が1列に表示される場合の他、複数列に表示される場合も、1画面内に含まれる検索結果一覧画面の領域は、「1ページ」として取り扱われる。「文長分布」における「文長」とは、1文の長さをいう。「データベースの文長分布」とは、データベースに含まれている各文の長さに関する度数分布または確率分布をいう。「1検索結果当たりの周辺語句の情報量」とは、検索キーワードのヒントとなる周辺語句の情報的価値を考慮した評価指標をいう。
この検索結果一覧表示システムによれば、検索結果一覧の1ページ当たりの情報量が最大となるように、1検索結果当たりの周辺語句の行数を決定することができる。
0010
前記算出手段としては、例えば、検索結果一覧内の1検索結果の表示領域における1行内の文字数と、1検索結果当たりの周辺語句の前記複数種類の行数候補と、前記データベースの文長分布とから、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、検索結果一覧の1ページの行数と、1検索結果当たりの周辺語句の前記複数種類の行数候補とを少なくとも考慮して、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページに表示される検索結果数を算出し、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量および検索結果一覧の1ページに表示される検索結果数とに基づいて、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出するものが用いられる。
0011
前記データベースの文長分布としては、例えば、データベースから実際に求めた文長分布が用いられる。前記データベースの文長分布を、例えば、確率密度関数または確率質量関数が既知の確率分布で近似してもよい。確率密度関数が既知の確率分布(連続型確率分布)には、正規分布、対数正規分布等がある。確率質量関数が既知の確率分布(離散型確率分布)には、ポアソン分布、負の二項分布、Sichelの混合ポアソン分布等がある。前記データベースの文長分布を確率分布で近似する場合には、ポアソン分布で近似することが好ましい。
0012
このように、検索対象のデータベースの文長分布を確率密度関数または確率質量関数が既知の確率分布で近似することによって求めると、検索対象のデータベースの文長分布の作成が容易となる。
0013
検索結果一覧の1ページの行数および検索結果一覧内の1検索結果の表示領域における1行内の文字数のうちの少なくも1方が変化したときには、前記算出手段により、1検索結果当たりの周辺語句の前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出させるとともに、前記決定手段により、前記算出手段の算出結果に基づいて、1検索結果当たりの最適な周辺語句の行数を決定させる手段を備えていることが好ましい。
0014
このようにすると、検索結果一覧の1ページの行数および1行内文字数のうちの少なくも1方が変化した場合に、1検索結果当たりの周辺語句の行数を最適化することができる。
0015
この発明による検索結果一覧表示プログラムは、検索対象のデータベースに対して行なわれたキーワード検索の結果を、検索キーワードが含まれる周辺語句を付与して一覧表示する検索結果一覧表示プログラムであって、コンピュータを、1検索結果当たりの周辺語句の複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出する算出手段、および前記算出手段の算出結果に基づいて、検索結果一覧の1ページ当たりの情報量が最大となるような1検索結果当たりの周辺語句の行数候補を、1検索結果当たりの最適な周辺語句の行数として決定する決定手段として機能させるためのプログラムを含んでおり、前記算出手段は、1検索結果当たりの周辺語句の前記複数種類の行数候補と前記データベースの文長分布とに基づいて、前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を算出し、得られた前記複数種類の行数候補それぞれに対する、1検索結果当たりの周辺語句の情報量を利用して、前記複数種類の行数候補それぞれに対する、検索結果一覧の1ページ当たりの情報量を算出するものであることを特徴とする。
0016
この検索結果一覧表示プログラムによれば、検索結果一覧の1ページ当たりの情報量が最大となるように、1検索結果当たりの周辺語句の行数を決定することができる。
発明の効果
0017
この発明によれば、検索結果一覧の1ページ当たりの情報量が最大となるように、1検索結果当たりの周辺語句の行数を決定することができるようになる。
発明を実施するための最良の形態
0019
〔1〕電子カルテの検索システムの構成および動作
0020
図1は、電子カルテの検索システムの構成を示している。
0022
データベース4には、患者の基本情報等が格納されている患者データベース、電子カルテデータが格納されているカルテデータベース等が含まれている。患者情報データベースには、患者の識別データである患者ID毎に、氏名、氏名のカナ、生年月日、性別、住所、特記事項等が記憶されている。カルテデータベースには、電子カルテの識別データであるカルテID毎に、患者ID、受診日、初診/再診の識別子、診断内容(経過、処方等)等が受診日の順に記憶されている。
0023
検索部3は、キーワード検索部11、周辺語句獲得部12、検索結果表示部13および周辺語句行数決定部14を備えている。検索部3は、例えば、PC等の情報機器にインストールされるカルテ作成プログラム内に含まれているカルテ検索プログラムによって実現される。
0024
キーワード検索部11には、キーワード・クエリ受付部2から、キーワードまたはその組合せであるクエリが入力される。キーワード検索部11は、入力されたキーワードまたはクエリに従って、データベース4内のカルテデータベースに対して検索を行ない、その検索結果の位置を出力する。ただし、この実施例では、後述するように、検索結果として、検索されたカルテデータの一部(周辺語句)の他、検索されたカルテデータに対応する患者の基本情報も表示されるようになっているため、キーワード検索部11は、検索結果の位置とその位置のカルテデータに対応する患者IDを出力する。
0025
クエリとして、例えば、”腹痛*呼吸困難”(*は論理積を表す)が与えられていれば、”腹痛”と”呼吸困難”の両方を含む文章を探し、存在すれば、その位置とその位置のカルテデータに対応する患者IDとを出力する。キーワード検索部11に用いられる検索エンジンとしては、既存のものが用いられる。
0026
周辺語句獲得部12には、キーワード検索部11から出力される各検索結果の位置およびそれに対応する患者IDが入力する。周辺語句獲得部12は、入力された各検索結果の位置に基づいて、各検索結果位置の周辺の文章から周辺語句を切り出して、出力する。
0027
クエリとして、例えば、1つのキーワードが与えられた場合には、当該1つのキーワードを周辺語句切出用の注目キーワードとし、注目キーワードを中心として、所定行数分(所定文字数分)の周辺語句を切り出す。周辺語句として切り出す行数(文字数)は、周辺語句行数決定部14から取得する。ここでいう行数は、モニタ5に表示される検索結果一覧画面を基準とした行数である。したがって、周辺語句として切り出す行数に対応する文字数は、モニタ5に表示される検索結果一覧画面の1行内の文字数を、周辺語句として切り出す行数に乗算した値となる。
なお、クエリとして、複数のキーワードを含んでいる場合には、周辺語句切出用の注目キーワードを決定するためのルールが予め定められている。例えば、クエリに含まれている複数のキーワードのうち、最初のキーワードが周辺語句切出用の注目キーワードとして決定される。
0028
検索結果表示部13には、周辺語句獲得部12から出力される各検索結果とそれに対応する患者IDが入力される。検索結果表示部13は、各検索結果毎に、それに対応する患者IDに基づいて、データベース4内の患者データベースから当該患者IDに対応する患者基本情報を取得する。そして、検索結果表示部13は、各検索結果とそれに対応する患者基本情報とに基づいて、複数の検索結果コラムを並べた1ページ分の検索結果一覧画面を作成してモニタ5に表示させる。ここで、「検索結果コラム」とは、1検索結果が表示される領域をいう。検索結果一覧が複数ページにわたるときには、検索結果表示部13は、ユーザによる改ページ操作に基づいて、対応するページの1ページ分の検索結果一覧画面を作成してモニタ5に表示させる。
0029
検索結果一覧画面の具体例を図2に示す。クエリとして、例えば、”腹痛*呼吸困難”が与えられた場合の例を示している。検索結果一覧画面には、複数の検索結果コラム100が上下方向に並んで配置されている。各検索結果コラム100は、行数が固定されている固定領域101と、キーワードを含む周辺語句情報が表示される周辺語句表示領域102とからなる。この実施例では、固定領域101には、患者の基本情報が表示される。また、この例では、固定領域101の行数は1行となっている。周辺語句表示領域102の行数は周辺語句行数決定部14によって決定される。この例では、検索結果一覧画面の1行内の文字数は20字で、周辺語句表示領域102の行数は3行となっている。
0030
周辺語句行数決定部14には、検索結果一覧画面の縦横文字数(検索結果一覧の1ページの行数および1行内の文字数)、検索結果コラム100の固定領域101の行数、カルテデータベースの文長分布および周辺語句行数として許容されうる最大値が設定されている。文長分布とは、カルテデータベースに含まれている各文の長さに関する度数分布または確率分布をいう。
0031
周辺語句行数決定部14は、検索結果一覧画面の縦横文字数(検索結果一覧の1ページの行数および1行内の文字数)、検索結果コラム100の固定領域101の行数、カルテデータベース4のデータの文長分布および周辺語句行数として許容されうる最大値に基づいて、検索結果一覧の1ページ当たり情報量が最大となる周辺語句表示領域102の行数を決定する。
0032
図3は、電子カルテの検索システムの動作を示している。
まず、周辺語句行数決定部14による周辺語句行数決定処理を行なう(ステップS1)。これにより、1検索結果コラム当たりの最適な周辺語句の行数が決定される。周辺語句行数決定処理の詳細については、後述する。
0033
この後、検索開始操作が行なわれることにより(ステップS2)、キーワード検索部11にキーワードまたはクエリが与えられると、キーワード検索部11によるキーワード検索処理が行なわれる(ステップS3)。つまり、キーワード検索部11は、入力されたキーワードまたはクエリに従って、カルテデータベースに対して検索を行ない、その検索結果の位置およびその位置のカルテデータに対応する患者IDを出力する。
0034
キーワード検索処理が終了すると、周辺語句獲得部12による周辺語句獲得処理が行なわれる(ステップS4)。つまり、周辺語句獲得部12は、キーワード検索部11から入力された各検索結果の位置および周辺語句行数決定部14によって与えられる、1検索結果コラム当たりの最適な周辺語句の行数に基づいて、各検索結果位置の周辺の文章から、注目キーワードを中心とした所定量の周辺語句を切り出して出力する。
0035
周辺語句行数決定部14によって決定されている周辺語句の行数が、例えば、3行である場合には、図2に示すように、注目キーワード(この例では”腹痛”)を中心として、3行分の周辺語句が切り出される。
0036
周辺語句獲得処理が終了すると、検索結果表示部13による検索結果表示処理が行なわれる(ステップS5)。つまり、検索結果表示部13は、各検索結果毎に、それに対応する患者IDに基づいて、データベース4内の患者データベースから当該患者IDに対応する患者基本情報を取得する。そして、検索結果表示部13は、各検索結果とそれに対応する患者基本情報とに基づいて、複数の検索結果コラムを並べた1ページ分の検索結果一覧画面を作成してモニタ5に表示させる。そして、ステップS2に戻る。
0037
〔2〕周辺語句行数決定部14による周辺語句の行数の決定方法
〔2−1〕基本的な考え方
一般に、キーワードを含む周辺語句の分量が多いほど、そのキーワードの出所、属性、性質等がよく説明されると考えられる。単に確率的な情報量で判断すれば、周辺語句の分量が多くなるほどリニアに情報量は増すと考えられるが、検索キーワードのヒントとなる周辺語句の情報的価値を考慮した情報量はリニアには増加しなくなると考えられる。つまり、検索キーワードから遠く離れた語句は、検索キーワードのヒントとしての情報的価値は低い。
0038
ここでは、検索結果のキーワードのヒント(出所、属性、性質)となる周辺語句の情報的価値を考慮した情報量(以下、単に、周辺語句の情報量という)は、周辺語句の分量がキーワードを含む1文に相当する場合に大きな価値をもつとする。周辺語句の分量がキーワードを含む1文より少ない場合には周辺語句の情報量は極端に少なくなり、周辺語句の分量がキーワードを含む1文より多くても周辺語句の情報量は1文相当の場合と同じであると考える。
0039
この理由は、1文の末尾の単語が欠落しても意味をなさない場合があること。また、注目するキーワードを含む1文後の2文目は、注目するキーワードからすれば関係性は非常に薄まるので、キーワードのヒントとしての情報的価値はほとんど増加しないと考えられるからである。
0040
しかしながら、1文を正確に機械的に切り出すことは容易ではない。そこで、この実施例では、カルテデータベースの文長分布(度数分布、確率分布)を考慮して、検索結果一覧の1ページ当たりの情報量が最大となるような周辺語句の長さ(行数)を決定する。つまり、この実施例では、カルテデータベースのように、個人のデータベースの検索に対しては、その人の個人的なクセが現れる文長分布を考慮して、検索結果一覧の1ページ当たりの情報量が最大となるような周辺語句の長さ(行数)を決定することに特徴がある。
0042
図4において、折線Aはカルテデータベースの文長分布を表している。文長分布としては、カルテデータベースに含まれている各文の長さに関する度数分布または確率分布が用いられる。図4の例では、確率分布を表している。なお、この確率分布は度数分布の度数の代わりに相対度数を用いた分布である。相対度数は、度数をカルテデータベースに含まれている文の総数で除算することにより得られる。折線Bは、文長分布の累積値を示している。この例では、文長平均が30字である場合の例を示している。
0043
図4の横軸は、折線A、Bに対応する1文の長さ(ただし単位は行数)および1コラム当たりの周辺語句の行数を表している。ただし、この例では、検索結果一覧の1ページの行数は30行であり、1行内の文字数は30字としている。したがって、図4の横軸における1単位は30字に相当する。図4の左側の縦軸は、文長分布の相対度数およびその累積値を表している。
0044
図4の折線Cは、検索結果一覧の1ページに表示される検索結果数(コラム数)を表している。ただし、固定領域101の行数を3行としている。折線Dは、検索結果一覧の1ページ当たりの情報量を示している。図3の右側の縦軸は、折線Cに対するコラム数および折線Dに対する情報量を表している。ただし、1コラムの情報量(1検索結果当たりの周辺語句の情報量)を、1コラム内の周辺語句の行数に対応する文長分布累積値の値に等しいものとして評価している。
0045
図4の例では、1コラム当たりの周辺語句の行数が1(周辺語句の文字数が30字)の場合には、折線Bで示されるように文長分布累積値は0.67となる。つまり、1コラム当たりの情報量は、0.67となる。また、固定領域101の行数は3行であるので、この場合には、1コラムの行数は4(周辺語句の行数+固定領域の行数)となるため、1ページ当たりのコラム数は、折線Cで示すように、7(30÷4の整数部分)となる。したがって、この場合、1ページ当たりの情報量は、折線Dで示すように、約5(1ページ当たりのコラム数×1コラム当たりの情報量)となる。
0046
1コラム当たりの周辺語句の行数が2(周辺語句の文字数が60字)の場合には、折線Bで示されるように文長分布累積値は0.98となる。つまり、1コラム当たりの情報量は、0.98となる。また、この場合には、1コラムの行数は5(周辺語句の行数+患者情報領域の行数)となるため、1ページ当たりのコラム数は、折線Cで示すように、6(30÷5の整数部分)となる。したがって、この場合、1ページ当たりの情報量は、折線Dで示すように、約6(1ページ当たりのコラム数×1コラム当たりの情報量)となる。
0047
一方、1コラム当たりの周辺語句の行数が3(周辺語句の文字数が90字)の場合には、同様にして、1ページ当たりの情報量は、折線Dで示すように、約5となる。したがって、1コラム当たりの周辺語句の行数が2のときに、1ページ当たりの情報量が最大となる。そこで、1コラム当たりの周辺語句の行数を2と決定する。
0049
カルテデータベースの文長分布が設定されているものとする。この例では、文長分布としては、度数分布の度数の代わりに相対度数が用いられた確率分布が用いられているものとする。また、検索結果一覧の1ページの行数Mおよび1行内の文字数mが設定されているものとする。また、1コラム内の固定領域の行数pが与えられているものとする。また、nは、1コラム当たり周辺語句の行数を表す変数である。さらに、1コラム当たりの周辺語句の行数として許容される最大値Nが設定されているものとする。最大値Nとしては、例えば、検索結果一覧の1ページの行数Mが用いられる。
0050
まず、n=1とする(ステップS11)。つまり、1コラム当たり周辺語句の行数nとして1を設定する。次に、1文の長さが0字から(n×m)字までの範囲内における、文長分布の累積値(相対度数の累積値)を、1コラム当たりの情報量f(n)として算出する(ステップS12)。
0051
次に、検索結果一覧の1ページ当たりの情報量F(n)を算出して保存する(ステップS13)。つまり、次式(1)に基づいて、1ページ当たりの情報量F(n)を算出する。
0052
F(n)=(1ページ当たりのコラム数)×(1コラム当たりの情報量)
=〔{M÷(p+n)}の整数部分〕×f(n) …(1)
0053
1ページ当たりのコラム数は、検索結果一覧の1ページに表示される検索結果数と等しい。したがって、1コラム当たり周辺語句の行数(行数候補)がnである場合における検索結果一覧の1ページに表示される検索結果数は、上記式(1)からわかるように、検索結果一覧の1ページの行数Mと、1検索結果当たりの周辺語句の行数nと、固定領域の行数pとを考慮して、算出される。
0054
次に、nが予め定められた最大値Nに達したか否かを判別する(ステップS14)。nが予め定められた最大値Nに達していない場合には、nを1だけインクリメントした後(ステップS15)、ステップS12に戻る。このようにして、nがNに達するまで、ステップS12、S13の処理が繰り返される。
0055
上記ステップS14において、nが予め定められた最大値Nに達していると判別した場合には、今回の処理において算出されて保存されている1ページ当たりの情報量F(n)のうちの最大のものに対応するnを、1コラム当たりの最適な周辺語句の行数として決定する(ステップS16)。そして、図3のステップS2に戻る。
0056
ところで、上述した図5の処理は、図1の周辺語句行数決定部14によって行なわれる。図1の周辺語句行数決定部14は、上記ステップS11〜S15の処理を行なうことにより、複数種類のn(1コラム当たり周辺語句の行数)それぞれに対する、検索結果一覧の1ページ当たりの情報量F(n)を算出するための算出手段と、上記ステップS16の処理を行なうことにより、1コラム当たりの最適な周辺語句の行数を決定するための決定手段とを備えている。
0057
なお、文長分布は、対象となるデータベース内の実際のデータに基づいて求めることが好ましい。
0058
ところで、文献aには、文長分布を、対数正規分布、ポアソン分布、負の二項分布、Sichelの混合ポアソン分布で近似することが検討されている。
0059
文献a:”http://jasp.ism.ac.jp/meetings/R2007/ishida07.pdf" 石田 基広:言語と確率分布−Rによる自然言語研究,統計数理研究所講演会−2007年12月共同研究会報告集,2007年12月.
0060
そこで、文長分布を、対数正規分布、ポアソン分布、負の二項分布、Sichelの混合ポアソン分布等の確率分布で近似してもよい。つまり、文長分布を、確率密度関数または確率質量関数が既知の確率分布で近似してもよい。
0061
例えば、文長分布をλ=2のポアソン分布で近似することにより求めてもよい。ポアソン分布の確率質量関数はよく知られているように、次式(2)で表される。
0062
0063
上記式(2)のf(x)は、単位時間中に平均でλ回発生する事象がx回(xは0を含む自然数)発生する確率を表している。上記式(2)において、eはネイピア数である。x!は、xの階乗である。λは正の実数で、所与の区間内で発生すめ事象の期待発生回数に等しい。ポアソン分布は、事象が「x回起こる確率」を、横軸に回数x、縦軸にx回起きる確率f(x)でグラフにした分布である。図6は、λ=2のポアソン分布を示している。
0064
文長分布をλ=2のポアソン分布で近似することにより求める場合、対象となるデータベースの文長の代表値(平均値あるいは最頻値)Dをポアソン分布の平均値λに、文長の0をポアソン分布の0に、それぞれ対応させて、ポアソンの横軸を文長分布の横軸に対応させる。カルテデータベースの文長の代表値をDとすると、ポアソン分布の横軸上のxと文長Lとの間には、x=L*(λ/D)の関係が成り立つので、この関係を利用してポアソン分布の横軸上のxを文長Lに変換する。例えば、カルテデータベースの文長の代表値Dが30文字である場合には、x=L*(2/30)の関係式に基づいて、ポアソン分布の横軸上のxを文長Lに変換する。
0065
なお、文長分布を、正規分布、対数正規分布で近似する場合には、文長分布の平均値、分散を指定することになる。
0066
〔3〕周辺語句行数決定部14の動作タイミング
図3では、検索システムが稼働された際に、現在設定されているカルテデータベースの文長分布、検索結果一覧の1ページの行数Mおよび1行内の文字数m、1コラム内の固定領域の行数p、1コラム当たりの周辺語句の行数として許容される最大値Nに基づいて、周辺語句行数決定部14が最適な行数を決定している。
0067
検索システムの使用に先立って、予め周辺語句行数決定部14によって最適な行数を予め決定しておき、検索システム稼働時には、周辺語句行数決定部14によって予め決定されている最適な行数を使用するようにしてもよい。
0068
また、定期的に、ユーザが対象となるデータベースの文長分布を評価しなおし、その都度、ユーザが文長分布を設定することにより、周辺語句行数決定部14に最適な周辺語句の行数を決定させるようにしてもよい。また、データベースを常にモニタし、データベースの文長を自然言語処理により分析し、ダイナミックに文長分布の変化を反映させるようにしてもよい。
0069
さらに、検索シテスムが起動されている場合において、検索結果一覧の1ページの行数M、検索結果一覧の1行内の文字数m、文長分布の変化を監視し、変化があれば最適な周辺語句行数を更新するようにしてもよい。
0070
図7は、検索シテスムが起動されている場合において、検索結果一覧の1ページの行数M、検索結果一覧の1行内の文字数m、文長分布の変化を監視し、変化があれば最適な周辺語句行数を更新する場合の手順を示している。
0071
まず、周辺語句行数決定部14による周辺語句行数決定処理を行なう(ステップS21)。この処理は、図5で説明した手順にしたがって行なわれる。
0072
次に、検索開始操作が行なわれたか否か(ステップS22)、検索結果一覧の1ページの行数M、検索結果一覧の1行内の文字数mおよび文長分布のうちの少なくとも1つに変化が合ったか否か(ステップS23)を監視する。
0073
検索開始操作が行なわれることにより(ステップ22でYES)、キーワード検索部11にキーワードまたはクエリが与えられると、キーワード検索部11によるキーワード検索処理が行なわれる(ステップS24)。キーワード検索処理が終了すると、周辺語句獲得部12による周辺語句獲得処理が行なわれる(ステップS25)。この際、周辺語句獲得部12は、周辺語句行数決定部14によって最新に決定された周辺語句の行数に基づいて、周辺語句の切り出し量を制御する。周辺語句獲得処理が終了すると、検索結果表示部13による検索結果表示処理が行なわれる(ステップS26)。そして、ステップS22に戻る。
0074
ステップS22およびS23の監視が行なわれている場合において、検索結果一覧の1ページの行数M、検索結果一覧の1行内の文字数mおよび文長分布のうちの少なくとも1つに変化があった場合には(ステップS23でYES)、ステップS21に戻り、変化後の値を用いて、周辺語句行数決定部14による周辺語句行数決定処理が実行される。つまり、最適な周辺語句の行数が改めて決定される。周辺語句行数決定処理が終了すると、ステップS22に移行する。
図面の簡単な説明
0075
電子カルテの検索システムの構成を示すブロック図である。
検索結果一覧の具体例を示す模式図である。
電子カルテの検索システムの動作を示すフローチャートである。
好適な周辺語句の長さ(行数)の決定方法を説明するためのグラフである。
周辺語句行数決定処理の手順を示すフローチャートである。
λ=2のポアソン分布を示すグラフである。
検索シテスムが起動されている場合において、検索結果一覧の1ページの行数M、検索結果一覧の1行内の文字数m、文長分布の変化を監視し、変化があれば最適な周辺語句の行数を更新する場合の手順を示している。
符号の説明
0076
1キー入力部
2キーワードクエリ受付部
3検索部
4データベース
5モニタ
11キーワード検索部
12周辺語句獲得部
13検索結果表示部
14 周辺語句行数決定部