図面 (/)

技術 文書検索方法、文書検索プログラムおよび文書検索装置

出願人 富士通株式会社
発明者 福田貴三郎
出願日 2015年12月25日 (5年1ヶ月経過) 出願番号 2015-253797
公開日 2017年6月29日 (3年7ヶ月経過) 公開番号 2017-117311
状態 特許登録済
技術分野 検索装置 機械翻訳
主要キーワード 相対順位 ベクトル距離 評価プロセス 判別プログラム 文章構成 重み算出 一致度合い 文候補
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年6月29日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

正しい分類結果に基づいた検索を行うこと。

解決手段

文書検索装置100は、評価部120を有する。評価部120は、文書データに含まれる文章の位置および前記文章のサイズに基づき、文書データに含まれる各文章について、文章の見出し文らしさを評価し、文章の見出し文らしさの評価結果を基にして、文書データに含まれる文章が見出し文であるか、内容文であるかを判別する。

概要

背景

文書DB(Data Base)に格納された複数の文書から、検索対象の文書に類似する文書を検索する従来技術がある。図15は、従来技術を説明するための図である。図15において文書10Aを検索対象の文書とし、文書10Bを文書DBに格納されたある文書とする。従来技術では、文書10Aおよび文書10Bに含まれる単語と、単語の出現頻度等を基にして、文章10Aおよび文章10Bを単語ベクトル化する。図15に示す例では、文書10Aは、ベクトル15aに単語ベクトル化される。文書10Bは、ベクトル15bに単語ベクトル化される。

従来技術は、ベクトル15aとベクトル15bとのベクトル距離を比較して、文書10Aと文書10Bとの類似度を算出する。従来技術は、文書DBに格納された他の文書についても同様に単語ベクトル化を行い、文書10Aとの類似度を算出する。従来技術は、類似度が閾値以上となる文書を、検索対象の文書10Aに類似する文書として検索する。

概要

正しい分類結果に基づいた検索を行うこと。文書検索装置100は、評価部120を有する。評価部120は、文書データに含まれる文章の位置および前記文章のサイズに基づき、文書データに含まれる各文章について、文章の見出し文らしさを評価し、文章の見出し文らしさの評価結果を基にして、文書データに含まれる文章が見出し文であるか、内容文であるかを判別する。

目的

本発明は、正しい分類結果に基づいた検索を行うことができる文書検索方法文書検索プログラムおよび文書検索装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

コンピュータが実行する文書検索方法であって、文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する処理を実行することを特徴とする文書検索方法。

請求項2

前記判別する処理は、第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別することを特徴とする請求項1に記載の文書検索方法。

請求項3

前記評価する処理は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする請求項1または2に記載の文書検索方法。

請求項4

前記評価する処理は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする請求項1、2または3に記載の文書検索方法。

請求項5

第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する処理を更に実行することを特徴とする請求項1〜4のいずれか一つに記載の文書検索方法。

請求項6

コンピュータに、文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する処理を実行させることを特徴とする文書検索プログラム

請求項7

文書データに含まれる文章の位置および前記文章のサイズに基づいて、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する評価部を有することを特徴とする文書検索装置

技術分野

0001

本発明は、文書検索方法等に関する。

背景技術

0002

文書DB(Data Base)に格納された複数の文書から、検索対象の文書に類似する文書を検索する従来技術がある。図15は、従来技術を説明するための図である。図15において文書10Aを検索対象の文書とし、文書10Bを文書DBに格納されたある文書とする。従来技術では、文書10Aおよび文書10Bに含まれる単語と、単語の出現頻度等を基にして、文章10Aおよび文章10Bを単語ベクトル化する。図15に示す例では、文書10Aは、ベクトル15aに単語ベクトル化される。文書10Bは、ベクトル15bに単語ベクトル化される。

0003

従来技術は、ベクトル15aとベクトル15bとのベクトル距離を比較して、文書10Aと文書10Bとの類似度を算出する。従来技術は、文書DBに格納された他の文書についても同様に単語ベクトル化を行い、文書10Aとの類似度を算出する。従来技術は、類似度が閾値以上となる文書を、検索対象の文書10Aに類似する文書として検索する。

先行技術

0004

特開2008−129894号公報
特開2009−145963号公報
特開2001−14326号公報
特開平11−250070号公報
特開2014−222542号公報

発明が解決しようとする課題

0005

しかしながら、上述した従来技術では、正しい分類結果に基づいた検索を行うことができないという問題がある。

0006

図16は、従来技術の問題点を説明するための図である。例えば、図16において、文書10Aと文書10Bとは、表題目次が類似しており、文書の形式が類似していると言える。一方、文書10Aと文書10Cとは、内容記述が類似しており、文書の内容が類似しているといえる。

0007

以下の説明では、表題、目次の他に、サマリページなど、文書のフォーマットが類似することを「形式的に類似する」と表記する。一方、記述内容トピックが同じ文書など、文書の内容が類似することを「内容的に類似する」と表記する。

0008

従来技術のように、単純に文書全体で類似度の計算を行うと、形式的に類似する文書と、内容的に類似する文書とを判別して検索することができない。例えば、図16に示す例では、文書10Aおよび文書10Bの類似度と、文書10Aおよび文書10Cの類似度は、どちらも高スコアになりやすい。

0009

このため、例えば、「内容的に類似している文書を検索したい」という利用者の要求に対し、内容的に類似する文書だけでなく、形式的に類似した文書も合わせて出力されてしまい、適切に文書検索を行うことができない。

0010

1つの側面では、本発明は、正しい分類結果に基づいた検索を行うことができる文書検索方法、文書検索プログラムおよび文書検索装置を提供することを目的とする。

課題を解決するための手段

0011

第1の案では、コンピュータは、下記の処理を実行する。コンピュータは、文書データに含まれる文章の位置および前記文章のサイズに基づき、文書データに含まれる各文章について、文章の見出し文らしさを評価する。コンピュータは、文章の見出し文らしさの評価結果を基にして、文書データに含まれる文章が見出し文であるか、内容文であるかを判別する。

発明の効果

0012

正しい分類結果に基づいた検索を行うことができる。

図面の簡単な説明

0013

図1は、本実施例1に係る文書検索装置の構成を示す機能ブロック図である。
図2は、文書DBのデータ構造の一例を示す図である。
図3は、文書データの一例を示す図である。
図4は、モデル構築用文書DBのデータ構造の一例を示す図である。
図5は、文章構造DBのデータ構造の一例を示す図である。
図6は、見出し文らしさDBのデータ構造の一例を示す図である。
図7は、評価部の処理を説明するための図である。
図8は、判定部の処理を説明するための図である。
図9は、本実施例1に係る文書検索装置の処理手順を示すフローチャートである。
図10は、本実施例2に係る文書検索装置の構成を示す機能ブロック図である。
図11は、本実施例2に係る文章構造DBのデータ構造の一例を示す図である。
図12は、本実施例2に係る文書検索装置の処理手順を示すフローチャートである。
図13は、実験結果を説明するための図である。
図14は、文書検索プログラムを実行するコンピュータの一例を示す図である。
図15は、従来技術を説明するための図である。
図16は、従来技術の問題点を説明するための図である。

0014

以下に、本願の開示する文書検索方法、文書検索プログラムおよび文書検索装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

0015

図1は、本実施例1に係る文書検索装置の構成を示す機能ブロック図である。図1に示すように、この文書検索装置100は、文書DB101と、モデル構築用文書DB102と、文章構造DB103と、見出し文らしさDB104と、文章構造抽出部110と、評価部120とを有する。また、文書検索装置100は、重み算出部130と、検索文書入力部140と、比較文書入力部150と、判別部160と、類似度算出部170とを有する。

0016

文書DB101は、比較対象となる複数の文書の情報を格納する記憶部である。図2は、文書DBのデータ構造の一例を示す図である。図2に示すように、この文書DB101は、文書IDと、文書データとを対応付ける。文書IDは、文書を一意識別する情報である。文書データは、文書のデータである。

0017

図3は、文書データの一例を示す図である。図3に示す文書データは、文書ID「1」の文書データである。例えば、この文書データには、文章「目的」、文章「文書間の類似度を計算する」、文章「・・・」が含まれる。

0018

モデル構築用文書DB102は、予め準備された文書について、文書に含まれる文章が、見出し文であるのか、内容文であるのかを予め定義した情報を格納する記憶部である。例えば、見出し文は、表題、目次等に対応する文章を示す。内容文は、見出し文に該当しない文章であり、例えば、記述内容の文章に対応する。

0019

図4は、モデル構築用文書DBのデータ構造の一例を示す図である。図4に示すように、このモデル構築用文書DB102は、文章とラベルとを対応付ける。文章は、文書に含まれる文章に対応する。ラベルは、文章が見出し文であるか、内容文であるかを識別する情報である。例えば、ラベルが「1」である場合には、文章が見出し文であることを示す。ラベルが「0」である場合には、文章が内容文であることを示す。図4に示す例では、文章「目的」が見出し文であり、文章「文書間の類似度を計算する」が内容文であることが示される。

0020

文章構造DB103は、文書に含まれる各文章の構造の情報を格納する記憶部である。図5は、文章構造DBのデータ構造の一例を示す図である。図5に示すように、この文章構造DB103は、文書IDと、文章構造とを対応付ける。文書IDは、文書を一意に識別する情報である。文章構造は、文章の構造に関する情報である。文章の構造に関する情報は、例えば、文書上の文章の位置やフォントサイズの情報が含まれる。

0021

例えば、図5の1行目レコードについて説明する。文書ID「1」に含まれる文章「目的」の先頭の位置は、基準位置から「1」つ後ろの位置である。文章「目的」のフォントサイズは「24」である。

0022

図5の2行目のレコードについて説明する。文書ID「1」に含まれる文章「文書間の類似度を計算」の先頭の位置は、基準位置から「2」つ後ろの位置である。文章「文書間の類似度を計算」のフォントサイズは「20」である。

0023

見出し文らしさDB104は、文章の見出し文らしさの情報を格納する記憶部である。図6は、見出し文らしさDBのデータ構造の一例を示す図である。図6に示すように、この見出し文らしさDB104は、文書IDと文書構造と見出し文らしさとを対応付ける。文書IDは、文書を一意に識別する情報である。文章構造は、文章の構造に関する情報である。見出し文らしさは、見出し文らしさを数値化したものであり、数値が大きいほど、より見出し文らしいことを意味する。見出し文らしさを算出する処理は後述する。

0024

図1の説明に戻る。文章構造抽出部110は、文書DB101に格納された文書データを取得し、取得した文書データに含まれる各文章に対して構造解析を実行することで、文章の構造に関する情報を抽出する処理部である。文章の構造に関する情報には、文書上の文章の位置や、文章のフォントサイズが含まれる。

0025

文章構造抽出部110は、文章を含む文書の文書IDと、文章構造の情報を、文書構造DB103に格納する。また、文章構造抽出部110は、文書IDと、文章構造の情報とを、評価部120に出力する。文章構造抽出部110は、文書DB101に格納された各文書データについて、上記処理を繰り返し実行する。

0026

評価部120は、文書データに含まれる文章の位置、文章のフォントサイズ、文字数記号の有無に基づいて、文章の見出し文らしさを評価する処理部である。評価部120は、評価結果を、見出し文らしさDB104に格納する。

0027

例えば、評価部120は、式(1)に基づいて、文章の見出し文らしさyを算出する。式(1)において、x1は、文章の位置の相対値を示す。x2は、文章のフォントサイズの相対値を示す。x3は、文章の文字数の逆数により求められる値である。x4は、文章の先頭に記号が含まれるか否かにより決定される値である。a、b、c、dは、後述する重み算出部130により通知される重みである。

0028

y=ax1+bx2+cx3+dx4・・・(1)

0029

x1について説明する。評価部120は、式(2)に基づいて、x1の値を算出する。

0030

x1=(種別数+1−相対順位)/種別数・・・(2)

0031

図7は、評価部の処理を説明するための図である。図7に示す例では、文書データ16に文章16a、16b、16c、16dが含まれる。ここでは一例として、評価部120が、文章16aのx1の値を算出する場合について説明する。

0032

式(2)の「種別数」は、文書データ16に、文章の開始位置が、何種類あるかを示す数である。図7に示す例では、文章16aの開始位置と、文章16bの開始位置が含まれ、文章16b〜16dの開始位置は同じである。このため、種別数は「2」となる。

0033

式(2)の「相対順位」は、見出し文らしさを算出する文章16aの位置と、他の文章16b〜16dの相対位置に基づき決定される順位である。例えば、文章16aの先頭位置を「1」とし、文章16b〜16dの先頭位置を「2」とする。この場合には、文章16aの位置が他の文章16b〜16dと比較して最も先頭に位置しているため、文章16aの相対順位は「1」となる。

0034

x2について説明する。評価部120は、式(3)に基づいて、x2の値を算出する。

0035

x2=(種別数+1−相対順位)/種別数・・・(3)

0036

式(3)の「種別数」は、文書データ16で用いられるフォントサイズの種別数を示すものである。図7において、例えば、文章16aのフォントサイズが「24」であり、文章16b〜16dのフォントサイズが「20」である場合には、種別数は「2」となる。

0037

式(3)の「相対順位」は、見出し文らしさを算出する文章16aのフォントサイズが、他の文章16b〜16dのフォントサイズと比較して、何番目に大きいフォントサイズであるかを示す順位である。例えば、文章16aのフォントサイズが、他の文章16b〜16dのフォントサイズと比較して一番大きい場合には、文書16aの相対順位は「1」となる。

0038

x3について説明する。評価部120は、式(4)に基づいて、x3の値を算出する。式(4)に含まれる文字数は、見出し文らしさを算出する文章16aの文字数「3」となる。

0039

x3=(文字数)1/4・・・(4)

0040

x4について説明する。評価部120は、下記の条件に基づいて、x4の値を特定する。評価部120は、文章16aに所定の記号が含まれている場合には、x4の値を「1」とする。評価部120は、文章16aに所定の記号が含まれていない場合には、x4の値を「0」に設定する。所定の記号は「・」等であり、利用者に予め設定される。

0041

上記に示す例では、評価部120は、文章16aに対する見出し文らしさを算出する例を説明したが、文章16b〜16d、その他の文章についても、同様に見出し文らしさを算出する。

0042

重み算出部130は、上述した評価部120が利用する重みa、b、c、dを算出する処理部である。重み算出部130は、下記の第1制約条件および第2制約条件に近づくように、重みa、b、c、dの値を変更しつつ、重回帰分析を行い、重みa、b、c、dの最適値を探索する。重み算出部130は、算出した重みa、b、c、dの情報を、評価部120に出力する。

0043

第1制約条件:モデル構築用文書DB102に含まれる、見出し文の文章に対して、式(1)による値が、1に近づく。
第2制約条件:モデル構築用文書DB102に含まれる、内容文の文章に対して、式(1)による値が、0に近づく。

0044

検索文書入力部140は、検索対象となる文書データの入力を受け付ける処理部である。また、検索文書入力部140は、検索対象となる文書データの入力を受け付けた場合に、上述した文章構造抽出110および評価部120と同様の処理を実行し、文書データに含まれる各文章の見出し文らしさを算出する。

0045

検索文書入力部140は、検索対象となる文書データに関する情報を、判別部160に出力する。例えば、検索対象となる文書データに関する情報は、検索対象となる文書データに含まれる各文章と、各文章の見出し文らしさとを含む。以下の説明では適宜、検索対象となる文書データを、検索文書データと表記する。

0046

比較文書入力部150は、比較対象になる文書データに関する情報を、判別部160に出力する処理部である。例えば、比較文書入力部150は、文章構造DB103から、未選択の文書IDを選択し、選択した文書IDに紐付く文章構造のデータを、判別部160に出力する。以下の説明では適宜、比較対象となる文書データを、比較文書データと表記する。

0047

判別部160は、検索文書データに関する情報と、比較文書データに関する情報とを基にして、検索文書データおよび比較文書データの文章について、見出し文であるか、内容文で有るかを判別する処理部である。以下において、判別部160の処理を具体的に説明する。

0048

判別部160は、検索文書データに含まれる文章のうち、見出し文らしさが閾値以上となる文章を、見出し文候補文章として選択する。また、判別部160は、比較文書データに含まれる文章のうち、見出し文らしさが閾値以上となる文章を、見出し文候補文章として選択する。

0049

判別部160は、検索文書データに含まれる各見出し文候補文章と、比較文書データに含まれる各見出し文候補文章とを比較し、編集距離が閾値未満となる見出し文候補文章のペアが存在するか否かを判定する。判別部160は、編集距離が閾値未満となる見出し文候補文章のペアが存在する場合には、ペアとなる見出し文候補文章を、見出し文であると特定する。判別部160は、見出し文であると特定した文章以外を、内容文として特定する。

0050

ここで、編集距離は、文章同士がどの程度一致するかを示す距離であり、一文字異なる毎に、編集距離に1が加算される。文章同士が完全一致する場合には、編集距離は「0」となる。理想的には、判別部160は、編集距離が「0」となる見出し文候補文章を、見出し文であると特定しても良い。編集距離は、一致度合いの一例である。

0051

図8は、判定部の処理を説明するための図である。図8に示す例では、検索文書データ20に、見出し文候補文章21,22,23,24,25,26,27が含まれるものとする。また、比較文書データ40に、見出し文候補文章41,42,43,44,45,46,47が含まれるものとする。

0052

判別部160は、見出し文候補文章21と見出し文候補文章41とを比較すると、各見出し文候補文章21,41のペアの編集距離が「0」となる。このため、判別部160は、見出し文候補文章21と見出し文候補文章41とを、見出し文であると特定する。判別部160は、他の見出し文候補文章22〜27、42〜47についても同様に、見出し文であると特定する。

0053

判別部160は、見出し文と特定しなかった他の文章は、内容文であると判定する。例えば、判別部160は、検索文書データ20の文章28,29,30,31を内容文と判定する。判別部160は、比較文書データ40の文章48、49を内容文と判定する。

0054

判別部160は、判別結果の情報を類似度算出部170に出力する。判別結果の情報には、検索文書データに含まれる各文章と、各文章が見出し文であるか、内容文であるかを示す情報が含まれる。また、判別結果の情報には、比較文書データに含まれる各文章と、各文章が見出し文であるか、内容文であるかを示す情報が含まれる。

0055

判別部160は、比較文書入力部150から、新たな比較文書データに関する情報を取得する度に、既に取得している検索文書データと、新たな比較文書データとを基にして、比較文書データの文章が見出し文であるか内容文であるかを判別する。

0056

類似度算出部170は、判別部160の判別結果の情報を基にして、形式的な類似度と、内容的な類似度とをそれぞれ算出する処理部である。

0057

類似度算出部170が、形式的な類似度を算出する処理について説明する。類似度算出部170は、検索文書データの各見出し文と、比較文書データの各見出し文とを比較し、一致する見出し文の数を、形式的な類似度として算出する。

0058

類似度算出部170が、内容的な類似度を算出する処理について説明する。類似度算出部170は、検索文書データに含まれる内容文について、単語と単語の出現回数とを基にして、検索文書データのベクトルを求める。また、類似度算出部170は、比較文書データに含まれる内容文について、単語と単語の出現回数とを基にして、比較文書データのベクトルを求める。類似度算出部170は、検索文書データのベクトルと、比較文書データのベクトルとを比較して、ベクトル間のコサイン距離を求め、求めたコサイン距離を、内容的な類似度として算出する。

0059

類似度算出部170は、内容的な類似度が第1閾値以上である場合には、検索文書データと、比較文書データとが、内容的に類似すると判定する。一方、類似度算出部170は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値以上である場合には、検索文書データと、比較文書データとが、形式的に類似すると判定する。類似度算出部170は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値未満である場合には、検索文書データと、比較文書データとが、類似していないと判定する。

0060

類似度算出部170は、各比較文書データについて、上記処理を繰り返し実行し、各比較文書データが、内容的に類似しているのか、形式的に類似しているのか、類似していないのかを判定し、各比較文書データを分類する。例えば、類似度算出部170は、形式的に類似する比較文書データの組と、内容的に類似する比較文書データの組とを区別して、表示装置等に出力してもよい。

0061

次に、本実施例1に係る文書検索装置100の処理手順について説明する。図9は、本実施例1に係る文書検索装置の処理手順を示すフローチャートである。図9に示すように、この文書検索装置100の比較文書入力部150は、未選択の比較文書データが存在するか否かを判定する(ステップS101)。未選択の比較文書データが存在しない場合には(ステップS101,No)、文書検索装置100は処理を終了する。

0062

一方、比較文書入力部150は、未選択の比較文書データが存在する場合には(ステップS101,Yes)、未選択の比較文書データを選択する(ステップS102)。文書検索装置100の判別部160は、見出し文らしさが閾値以上となる文章間の編集距離を計算する(ステップS103)。判別部160は、編集距離が閾値未満の文章を見出し文と判定し、見出し文以外の文章を内容文として判別する(ステップS104)。

0063

文書検索装置100の類似度算出部170は、検索文書データと、比較文書データとの間で、形式的な類似度と、内容的な類似度を計算する(ステップS105)。類似度算出部170は、内容的な類似度が第1閾値以上である場合には(ステップS106,Yes)、検索文書データと、比較文書データとが内容的に類似していると判定し(ステップS107)、ステップS101に移行する。

0064

一方、類似度算出部170は、内容的な類似度が第1閾値未満である場合には(ステップS106,No)、ステップS108に移行する。類似度算出部170は、形式的な類似度が第2閾値以上である場合には(ステップS108,Yes)、検索文書データと、比較文書データとが形式的に類似していると判定し(ステップS109)、ステップS101に移行する。

0065

一方、類似度算出部170は、形式的な類似度が第2閾値未満である場合には(ステップS108,No)、検索文書データと、比較文書データとが類似していないと判定し(ステップS110)、ステップS101に移行する。

0066

次に、本実施例1に係る文書検索装置100の効果について説明する。文書検索装置100は、文書データに含まれる文字の位置およびフォントサイズに基づき、文書データに含まれる文章について、見出し文らしさを評価し、評価結果を基にして、文章が見出し文であるか内容文であるかを判別する。このため、正しい分類結果に基づいた検索を行うことができる。例えば、検索対象となる文書データに内容的に類似する文書データと、形式的に類似する文書データとを区別して、利用者に通知することができる。

0067

文書検索装置100によれば、検索文書データに含まれる見出し文らしい文章と、比較文書データに含まれる見出し文らしい文章とを比較し、比較した文章の編集距離に基づいて、検索文書データおよび比較文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別する。これにより、検索文書データおよび比較文書データに含まれる文章が、見出し文であるのか内容文であるのかを正確に判定することができる。

0068

文書検索装置100によれば、例えば、文書データに含まれる文章が前方に位置するほど、文章はより見出し文らしいと評価する。また、文書検索装置100によれば、文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価する。このため、より正確に見出し文となる文章を特定することができる。

0069

文書検索装置100によれば、検索文書データの見出し文と比較文書データの見出し文との形式的な類似度を算出し、検索文書データの内容文と比較文書データの内容文との内容的な類似度を算出し、類似度の情報を出力する。このため、検索文書データに類似する比較文書データが、内容的に類似するものなのか、形式的に類似するものなのかを、利用者が把握することができる。

0070

ところで、上述した実施例1では、文書検索装置100の類似度算出部170は、検索文書データと、比較文書データとが、内容的に類似しているのか、形式的に類似しているのか、類似していないのかを判定していたが、これに限定されるものではない。例えば、類似度算出部170は、内容的な類似度が、第1閾値以上であり、かつ、形式的な類似度が、第2閾値以上である場合には、検索文書データと、比較文書データとが、形式的にも内容的にも類似していると判定し、出力しても良い。

0071

次に、本実施例2に係る文書検索装置の構成について説明する。図10は、本実施例2に係る文書検索装置の構成を示す機能ブロック図である。図10に示すように、この文書検索装置200は、文書DB201と、モデル構築用文章DB202と、文章構造DB203と、文章構造抽出部210と、評価部220と、重み算出部230とを有する。また、文書検索装置200は、検索文書入力部240と、比較文書入力部250と、類似度算出部260とを有する。

0072

文書DB201は、比較対象となる複数の文書の情報を格納する記憶部である。例えば、文書DB201のデータ構造は、図2で説明した文書DB101のデータ構造と同様であるため、説明を省略する。

0073

モデル構築用文章DB202は、予め準備された文書について、文書に含まれる文章が、見出し文であるのか、内容文であるのかを予め定義した情報を格納する記憶部である。モデル構築用文章DB202のデータ構造は、図4で説明したモデル構築用文章DB102のデータ構造と同様であるため、説明を省略する。

0074

文章構造DB203は、文書に含まれる各文章と、文章が見出し文であるか、内容文であるかの情報を格納する記憶部である。図11は、本実施例2に係る文章構造DBのデータ構造の一例を示す図である。図11に示すように、この文章構造DB203は、文書IDと、文章と、ラベルとを対応付ける。文書IDは、文書を一意に識別する情報である。文章は、文書に含まれる文章に対応する。ラベルは、文章が見出し文であるか、内容文であるかを識別する情報である。例えば、ラベルが「1」である場合には、文章が見出し文であることを示す。ラベルが「0」である場合には、文章が内容文であることを示す。図11に示す例では、文章「目的」が見出し文であり、文章「文書間の類似度を計算する」が内容文であることが示される。

0075

文章構造抽出部210は、文書DB201に格納された文書データを取得し、取得した文書データに含まれる各文章に対して構造解析を実行することで、文章の構造に関する情報を抽出する処理部である。文章の構造に関する情報は、文書上の文章の位置や、文章のフォントサイズが含まれる。

0076

文章構成抽出部210は、文書IDと、文章構造の情報とを、評価部220に出力する。

0077

評価部220は、文書データに含まれる文章の位置、文章のフォントサイズ、文字数、記号の有無に基づいて、文章の見出し文らしさを評価する処理部である。評価部220が、文章の見出し文らしさを評価する処理は、実施例1で説明した評価部120と同様である。

0078

評価部220は、文章の見出し文らしさを評価する処理を実行した後に、見出し文らしさと閾値との比較により、文章が見出し文であるのか、内容文であるのかを判別する。評価部220は、見出し文らしさが閾値以上である文章を、見出し文であると判定する。評価部220は、見出し文らしさが閾値未満である文章を、内容文であると判定する。評価部220は、文書に含まれる各文章について上記の処理を繰り返し実行し、処理結果を、文章構造DB203に格納する。

0079

重み算出部230は、評価部220が利用する重みa、b、c、dを算出する処理部である。重み算出部230の処理は、実施例1で説明した重み算出部130の処理と同様である。

0080

検索文書入力部240は、検索対象となる文書データの入力を受け付ける処理部である。また、検索文書入力部240は、検索対象となる文書データの入力を受け付けた場合に、上述した文章構造抽出210および評価部220と同様の処理を実行し、文書データに含まれる各文章が、見出し文であるか、内容文であるかを判別する。

0081

検索文書入力部240は、検索対象となる文書データに関する情報を、類似度算出部260に出力する。例えば、検索対象となる文書データに関する情報は、検索対象となる文書データに含まれる各文章と、各文章が見出し文であるのか、内容文であるかの情報を含む。以下の説明では適宜、検索対象となる文書データを、検索文書データと表記する。

0082

比較文書入力部250は、比較対象になる文書データに関する情報を、類似度算出部260に出力する処理部である。例えば、比較文書入力部250は、文章構造DB203から、未選択の文書IDを選択し、選択した文書IDに紐付く各文章および文章が見出し文であるのか、内容文であるのかの情報を、類似度算出部260に出力する。以下の説明では適宜、比較対象となる文書データを、比較文書データと表記する。

0083

類似度算出部260は、検索文書データと、比較文書データとを基にして、形式的な類似度と、内容的な類似度とをそれぞれ算出する処理部である。

0084

類似度算出部260が、形式的な類似度を算出する処理について説明する。類似度算出部260は、検索文書データの各見出し文と、比較文書データの各見出し文とを比較し、一致する見出し文の数を、形式的な類似度として算出する。

0085

類似度算出部260が、内容的な類似度を算出する処理について説明する。類似度算出部260は、検索文書データに含まれる内容文について、単語と単語の出現回数とを基にして、検索文書データのベクトルを求める。また、類似度算出部260は、比較文書データに含まれる内容文について、単語と単語の出現回数とを基にして、比較文書データのベクトルを求める。類似度算出部260は、検索文書データのベクトルと、比較文書データのベクトルとを比較して、ベクトル間のコサイン距離を求め、求めたコサイン距離を、内容的な類似度として算出する。

0086

類似度算出部260は、内容的な類似度が第1閾値以上である場合には、検索文書データと、比較文書データとが、内容的に類似すると判定する。一方、類似度算出部260は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値以上である場合には、検索文書データと、比較文書データとが、形式的に類似すると判定する。類似度算出部260は、内容的な類似度が第1閾値未満であり、かつ、形式的な類似度が第2閾値未満である場合には、検索文書データと、比較文書データとが、類似していないと判定する。

0087

類似度算出部260は、各比較文書データについて、上記処理を繰り返し実行し、各比較文書データが、内容的に類似しているのか、形式的に類似しているのか、類似していないのかを判定し、各比較文書データを分類する。例えば、類似度算出部260は、形式的に類似する比較文書データの組と、内容的に類似する比較文書データの組とを区別して、表示装置等に出力してもよい。

0088

次に、本実施例2に係る文書検索装置200の処理手順について説明する。図12は、本実施例2に係る文書検索装置の処理手順を示すフローチャートである。図12に示すように、この文書検索装置200の比較文書入力部250は、未選択の比較文書データが存在するか否かを判定する(ステップS201)。未選択の比較文書データが存在しない場合には(ステップS201,No)、文書検索装置200は処理を終了する。

0089

一方、比較文書入力部250は、未選択の比較文書データが存在する場合には(ステップS201,Yes)、未選択の比較文書データを選択する(ステップS202)。

0090

文書検索装置200の類似度算出部260は、検索文書データと、比較文書データとの間で、形式的な類似度と、内容的な類似度とを計算する(ステップS203)。類似度算出部260は、内容的な類似度が第1閾値以上である場合には(ステップS204,Yes)、検索文書データと、比較文書データとが内容的に類似していると判定し(ステップS205)、ステップS201に移行する。

0091

一方、類似度算出部260は、内容的な類似度が第1閾値未満である場合には(ステップS204,No)、ステップS206に移行する。類似度算出部260は、形式的な類似度が第2閾値以上である場合には(ステップS206,Yes)、検索文書データと、比較文書データとが形式的に類似していると判定し(ステップS207)、ステップS201に移行する。

0092

一方、類似度算出部260は、形式的な類似度が第2閾値未満である場合には(ステップS206,No)、検索文書データと、比較文書データとが類似していないと判定し(ステップS208)、ステップS201に移行する。

0093

次に、本実施例2に係る文書検索装置200の効果について説明する。文書検索装置200は、文章の見出し文らしさと閾値との比較により、文章が見出し文であるか、内容文であるかを判別しておき、判別結果を基にして、形式的な類似度と内容的な類似度を算出する。実施例1の場合と比較して、見出し文らしい文章同士を比較して、見出し文であるか否かを判別する処理を省略するため、計算コストを抑止しつつ、正しい分類結果に基づいた検索を行うことができる。

0094

続いて、発明者の実験結果について説明する。発明者は、下記の条件1〜3のそれぞれについて、類似する文書データを検索する実験を行った。
条件1:従来技術により、検索文書データに類似する比較文書データを検索。
条件2:実施例2の文書検索装置200を用いて検索文書データと「内容的に類似する」比較文書データを検索。
条件3:実施例1の文書検索装置100を用いて検索文書データと「内容的に類似する」比較文書データを検索。

0095

図13は、実験結果を説明するための図である。図13では、一例として、検索された比較文書データのうち、類似度が上位50件に入る比較文書データについて、実際に、内容的に類似するものの件数と、形式的に類似するものの件数と、類似しないものの件数との関係を示す。

0096

条件1では、31件が内容的に類似する比較文書データであり、11件が形式的に類似する比較文書データであり、8件が非類似の比較文書データであった。このため、適切に内容的に類似する文書データを検出できた割合は「31/50=62%」となる。

0097

条件2では、39件が内容的に類似する比較文書データであり、1件が形式的に類似する比較文書データであり、10件が非類似の比較文書データであった。このため、適切に内容的に類似する文書データを検出できた割合は「39/50=78%」となる。

0098

条件3では、44件が内容的に類似する比較文書データであり、2件が形式的に類似する比較文書データであり、4件が非類似の比較文書データであった。このため、適切に内容的に類似する文書データを検出できた割合は「44/50=88%」となる。

0099

図13の実験結果に示すように、従来技術と比較して、文書検索装置100,200は、適切に文書データを検出可能であることがわかる。

0100

次に、上記実施例に示した文書検索装置100,200と同様の機能を実現する文書検索プログラムを実行するコンピュータの一例について説明する。図14は、文書検索プログラムを実行するコンピュータの一例を示す図である。

0101

図14に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置305とを有する。また、コンピュータ300は、各種情報一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301〜307は、バス308に接続される。

0102

ハードディスク装置307は、評価プログラム307a、判別プログラム307b、類似度算出プログラム307cを有する。CPU301は、評価プログラム307a、判別プログラム307b、類似度算出プログラム307cを読み出してRAM306に展開する。

0103

評価プログラム307aは、評価プロセス306aとして機能する。判別プログラム307bは、判別プロセス306bとして機能する。類似度算出プログラム307cは、類似度算出プロセス306cとして機能する。

0104

評価プロセス306aの処理は、評価部120,220の処理に対応する。判別プロセス306bの処理は、判別部160の処理に対応する。類似度算出プロセス306cの処理は、類似度算出部170,260の処理に対応する。

0105

なお、評価プログラム307a、判別プログラム307b、類似度算出プログラム307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスクFD)、CD−ROMDVDディスク光磁気ディスクICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a〜307cを読み出して実行するようにしてもよい。

0106

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

0107

(付記1)コンピュータが実行する文書検索方法であって、
文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、
前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する
処理を実行することを特徴とする文書検索方法。

0108

(付記2)前記判別する処理は、第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別することを特徴とする付記1に記載の文書検索方法。

0109

(付記3)前記評価する処理は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする付記1または2に記載の文書検索方法。

0110

(付記4)前記評価する処理は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする付記1、2または3に記載の文書検索方法。

0111

(付記5)第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する処理を更に実行することを特徴とする付記1〜4のいずれか一つに記載の文書検索方法。

0112

(付記6)コンピュータに、
文書データに含まれる文章の位置および前記文章のサイズに基づき、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、
前記文章の見出し文らしさの評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する
処理を実行させることを特徴とする文書検索プログラム。

0113

(付記7)前記判別する処理は、第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別することを特徴とする付記6に記載の文書検索プログラム。

0114

(付記8)前記評価する処理は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする付記6または7に記載の文書検索プログラム。

0115

(付記9)前記評価する処理は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする付記6、7または8に記載の文書検索プログラム。

0116

(付記10)第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する処理を更に実行することを特徴とする付記6〜9のいずれか一つに記載の文書検索プログラム。

0117

(付記11)文書データに含まれる文章の位置および前記文章のサイズに基づいて、前記文書データに含まれる各文章について、前記文章の見出し文らしさを評価し、評価結果を基にして、前記文書データに含まれる文章が見出し文であるか、内容文であるかを判別する評価部
を有することを特徴とする文書検索装置。

0118

(付記12)第1文書データに含まれる見出し文らしい文章と、第2文書データに含まれる見出し文らしい文章とを比較し、比較した文章の一致度合いに基づいて、前記第1文書データおよび前記第2文書データに含まれる見出し文らしい文章が、見出し文であるか否かを判別する判別部を更に有することを特徴とする付記11に記載の文書検索装置。

0119

(付記13)前記評価部は、前記文書データに含まれる文章が前方に位置するほど、前記文章はより見出し文らしいと評価することを特徴とする付記11または12に記載の文書検索装置。

0120

(付記14)前記評価部は、前記文書データに含まれる文章のサイズが大きいほど、前記文章はより見出し文らしいと評価することを特徴とする付記11、12または13に記載の文書検索装置。

実施例

0121

(付記15)第1文書データに含まれる見出し文と第2文書データに含まれる見出し文との第1類似度を算出し、前記第1文書データに含まれる内容文と前記第2文書データに含まれる内容文との第2類似度を算出し、算出した前記第1類似度および前記第2類似度の情報を出力する類似度算出部を更に有することを特徴とする付記11〜14のいずれか一つに記載の文書検索装置。

0122

100,200文書検索装置
110,210文章構造抽出部
120,220 評価部
130,230重み算出部
160判別部
170,260類似度算出部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ