図面 (/)

技術 類似性判定装置、類似性判定方法および類似性判定プログラム

出願人 富士通株式会社
発明者 小櫻文彦伊藤孝一
出願日 2015年1月15日 (5年10ヶ月経過) 出願番号 2015-005875
公開日 2016年7月25日 (4年4ヶ月経過) 公開番号 2016-133817
状態 特許登録済
技術分野 検索装置
主要キーワード 一致範囲 分割ポイント 平均類似度 検索コスト 特徴抽出プログラム テキストテーブル 削減率 類似性判定
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年7月25日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

判定精度を落とさずにデータ量を削減すること。

解決手段

判定装置100は、特徴抽出部150bと、類似性判定部150cを有する。特徴抽出部150bは、テキストキーワード出現回数計数し、出現回数が少ないキーワードLのペアとなる特徴L−Lを特定する。特徴抽出部150bは、テキストの一定範囲内に含まれる特徴の数が一定数以上となる条件のもと、特徴L−Lを削除する処理を、各テキストについて実行する。類似性判定部150cは、検索対象のテキストの特徴と、特徴L−Lを除いた各テキストの特徴とを比較して、類似性を判定する。

概要

背景

現在、企業では情報漏洩対策のために様々なログ収集し情報漏洩の原因を調査している。例えば、情報漏洩した情報に類似するファイルを選び出し、情報漏洩の原因を調査するアプローチがある。この調査を行うためには、文書閲覧や保存等のファイル操作時に取得するログについて、捜査されたファイルを原文ではなく原文の特徴を表すフィンガープリント(Finger Print)としてファイルの特徴を取得する。以下、フィンガープリントをFP表記する。

例えば、社外秘の機密情報を含むファイルを見つけた場合に、係るファイルのFPと、社内の閲覧ログファイルに登録されたFPとを比較することで、漏洩したファイルに類似しているログ中のファイルを検索することが可能になる。また、漏洩した情報に類似しているログ中のファイルの操作履歴を追うことで、情報漏洩の原因を特定することもできる。

FPについて具体的に説明する。FPは、ファイルの特徴を抽出する技術である。図27は、FPを説明するための図である。例えば、ファイル中のテキストからキーワードとその並びを抽出し、特定範囲内のキーワードの向きつきの並びを特徴とする。例えば、ある第1テキストとして「キーワード1はキーワード2とキーワード3とキーワード4である」が存在した場合に、かかる第1テキストの特徴は、図27の特徴10aに示すように、6つのキーワードの組となる。

FPでは、特徴の一致数を基にして、テキスト間類似性を判定する。例えば、第2テキストの特徴が、図27の特徴10bであるものとする。第1テキストの特徴10aと、第2テキストの特徴10bとを比較すると、特徴10bに含まれる5つのキーワードの組のうち、4つのキーワードの組が、特徴10aのキーワードの組と一致する。具体的には「キーワード1→キーワード2、キーワード1→キーワード3、キーワード1→キーワード4、キーワード3→キーワード4」が一致する。この一致数が多いほどお互いに類似したテキストであるといえる。

特徴をデータとして扱う際には、キーワードのままでは扱いにくい。このため、キーワードをハッシュ化し、定数nによる余剰演算(mod)を実行し範囲を狭めたハッシュ値にすることで、テキストの特徴をn×nの有効グラフ表現する。以下において、ハッシュ値を定数nでmodした値と定義する。modする前のハッシュ値を、中間ハッシュ値と定義する。

例えば、nの値を10000程度にした上でキーワードをハッシュ化する場合には、異なるキーワード間で同一のハッシュ値になる可能性があり、精度が低下する場合がある。しかし、特徴をキーワードの組としているため、異なるキーワード間で多少同一のハッシュ値になったとしても、特徴に含まれるキーワードの組の両方の値が、異なるテキスト間で同一のハッシュ値に変換される確率は低い。

図28は、n×nの有効フラグで類似性を判定する処理の一例を示す図である。図28のFP11aは、テキストAのFPをn×nの有効グラフで表したものである。FP11bは、テキストBのFPをn×nの有効グラフで表したものである。例えば、テキストAについて、キーワードの組「キーワード1→キーワード2」が含まれ、キーワード1のハッシュ値が「0」、キーワード2のハッシュ値が「2」であるものとする。この場合には、FP11aについて、「0」の行と「2」の列とが交差する部分の値が「1」に設定される。

FP11aとFP11bとの間のandを取ることで、比較結果11cが得られる。比較結果11cに含まれる「1」の数が、テキストAとテキストBとの類似性を示す値となる。図28に示す例では、テキストAとテキストBとの類似性は「4」となる。

概要

判定精度を落とさずにデータ量を削減すること。判定装置100は、特徴抽出部150bと、類似性判定部150cを有する。特徴抽出部150bは、テキストのキーワードの出現回数計数し、出現回数が少ないキーワードLのペアとなる特徴L−Lを特定する。特徴抽出部150bは、テキストの一定範囲内に含まれる特徴の数が一定数以上となる条件のもと、特徴L−Lを削除する処理を、各テキストについて実行する。類似性判定部150cは、検索対象のテキストの特徴と、特徴L−Lを除いた各テキストの特徴とを比較して、類似性を判定する。

目的

本発明は、判定精度を落とさずデータ量を削減することができる類似性判定装置、類似性判定方法および類似性判定プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文書情報に含まれる各キーワード出現回数計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する特徴抽出部と、互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する類似性判定部とを有することを特徴とする類似性判定装置。

請求項2

前記特徴抽出部は、前記出現回数が閾値未満となるキーワードの配列を削除する場合に、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする請求項1に記載の類似性判定装置。

請求項3

前記類似性判定部は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、前記類似性判定部の判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報検索する検索部を更に有することを特徴とする請求項1または2に記載の類似性判定装置。

請求項4

コンピュータが実行する類似性判定方法であって、文書情報に含まれる各キーワードの出現回数を計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する処理を実行することを特徴とする類似性判定方法。

請求項5

コンピュータに、文書情報に含まれる各キーワードの出現回数を計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を前記特徴として抽出する処理実行し、互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する処理を実行させることを特徴とする類似性判定プログラム

技術分野

0001

本発明は、類似性判定装置等に関する。

背景技術

0002

現在、企業では情報漏洩対策のために様々なログ収集し情報漏洩の原因を調査している。例えば、情報漏洩した情報に類似するファイルを選び出し、情報漏洩の原因を調査するアプローチがある。この調査を行うためには、文書閲覧や保存等のファイル操作時に取得するログについて、捜査されたファイルを原文ではなく原文の特徴を表すフィンガープリント(Finger Print)としてファイルの特徴を取得する。以下、フィンガープリントをFP表記する。

0003

例えば、社外秘の機密情報を含むファイルを見つけた場合に、係るファイルのFPと、社内の閲覧ログファイルに登録されたFPとを比較することで、漏洩したファイルに類似しているログ中のファイルを検索することが可能になる。また、漏洩した情報に類似しているログ中のファイルの操作履歴を追うことで、情報漏洩の原因を特定することもできる。

0004

FPについて具体的に説明する。FPは、ファイルの特徴を抽出する技術である。図27は、FPを説明するための図である。例えば、ファイル中のテキストからキーワードとその並びを抽出し、特定範囲内のキーワードの向きつきの並びを特徴とする。例えば、ある第1テキストとして「キーワード1はキーワード2とキーワード3とキーワード4である」が存在した場合に、かかる第1テキストの特徴は、図27の特徴10aに示すように、6つのキーワードの組となる。

0005

FPでは、特徴の一致数を基にして、テキスト間類似性を判定する。例えば、第2テキストの特徴が、図27の特徴10bであるものとする。第1テキストの特徴10aと、第2テキストの特徴10bとを比較すると、特徴10bに含まれる5つのキーワードの組のうち、4つのキーワードの組が、特徴10aのキーワードの組と一致する。具体的には「キーワード1→キーワード2、キーワード1→キーワード3、キーワード1→キーワード4、キーワード3→キーワード4」が一致する。この一致数が多いほどお互いに類似したテキストであるといえる。

0006

特徴をデータとして扱う際には、キーワードのままでは扱いにくい。このため、キーワードをハッシュ化し、定数nによる余剰演算(mod)を実行し範囲を狭めたハッシュ値にすることで、テキストの特徴をn×nの有効グラフ表現する。以下において、ハッシュ値を定数nでmodした値と定義する。modする前のハッシュ値を、中間ハッシュ値と定義する。

0007

例えば、nの値を10000程度にした上でキーワードをハッシュ化する場合には、異なるキーワード間で同一のハッシュ値になる可能性があり、精度が低下する場合がある。しかし、特徴をキーワードの組としているため、異なるキーワード間で多少同一のハッシュ値になったとしても、特徴に含まれるキーワードの組の両方の値が、異なるテキスト間で同一のハッシュ値に変換される確率は低い。

0008

図28は、n×nの有効フラグで類似性を判定する処理の一例を示す図である。図28のFP11aは、テキストAのFPをn×nの有効グラフで表したものである。FP11bは、テキストBのFPをn×nの有効グラフで表したものである。例えば、テキストAについて、キーワードの組「キーワード1→キーワード2」が含まれ、キーワード1のハッシュ値が「0」、キーワード2のハッシュ値が「2」であるものとする。この場合には、FP11aについて、「0」の行と「2」の列とが交差する部分の値が「1」に設定される。

0009

FP11aとFP11bとの間のandを取ることで、比較結果11cが得られる。比較結果11cに含まれる「1」の数が、テキストAとテキストBとの類似性を示す値となる。図28に示す例では、テキストAとテキストBとの類似性は「4」となる。

先行技術

0010

特開2010−231766号公報
特開2014−115719号公報
国際公開第2006/048998号

発明が解決しようとする課題

0011

上述した従来技術では、例えば、1対1のテキストの比較であれば、図28で説明したように、FP同士をandすることで、類似性を判定することができる。これに対して、漏洩した情報に類似したテキストをログ中の複数のファイルから検索する場合には、1対多のテキストの比較を行うことになる。この場合には、一般的に1対1の比較を繰り返すのではなく、転置インデックスを用いて、各テキストの比較を行う。

0012

図29は、転置インデックスを用いた比較を説明するための図である。図29について、FP12は、検索テキストのFPを示すものである。FP12に含まれる各特徴は、検索テキストに含まれるキーワードの組から算出されるハッシュ値である。転置インデックス13は、ログ中に含まれる複数のテキストの転置インデックスであり、特徴と文書識別子とを対応付ける。転置インデックス13の特徴は、テキストに含まれるキーワードの組から算出されるハッシュ値である。文書識別子は、テキストを一意識別する情報である。例えば、転置インデックス13の1行目を参照すると、文書識別子「001、003、007、・・・」により識別される各ファイルが、特徴「484893」を有していることを示す。

0013

FP12と転置インデックス13とを比較すると、比較結果14が得られる。例えば、比較結果14は、文書識別子と特徴量とを対応付ける。このうち、特徴量は、該当テキストに含まれる特徴のうち、検索テキストFP12と一致する特徴の数を示すものであり、特徴量が多いほど、類似性が高いことを示す。

0014

ここで、転置インデックスで扱うデータ量が主記憶のデータ量を超えてしまうと、データ量の増加に伴い検索コストがかかるようになる。なお、転置インデックスのデータを単純に削除すると、テキストの特徴部分が失われる場合があり、検索精度が低下してしまう。このため、判定精度を落とさずにデータ量を削減することが求められる。

0015

1つの側面では、本発明は、判定精度を落とさずデータ量を削減することができる類似性判定装置、類似性判定方法および類似性判定プログラムを提供することを目的とする。

課題を解決するための手段

0016

第1の案では、類似性判定装置は、特徴抽出部と、類似性判定部とを有する。特徴抽出部は、文書情報に含まれる各キーワードの出現回数計数する。特徴抽出部は、文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件で下記の処理を実行する。特徴抽出部は、出現回数が閾値未満となるキーワードを含む配列を削除した後に、文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する。類似性判定部は、互いに異なる文書情報から抽出された特徴を比較して、異なる文書情報間の類似性を判定する。

発明の効果

0017

判定精度を落とさずにデータ量を削減することができる。

図面の簡単な説明

0018

図1は、FPの特性を説明するための図(1)である。
図2は、FPの特性を説明するための図(2)である。
図3は、FPの特性を説明するための図(3)である。
図4は、FPの特性を説明するための図(4)である。
図5は、本実施例に係る判定装置の処理を説明するための図(1)である。
図6は、キーワードと出現回数との関係を示す図である。
図7は、特徴を構成するキーワードのペア比率を示す図(1)である。
図8は、特徴を構成するキーワードのペアの比率を示す図(2)である。
図9は、比率および削減率の関係の一例を示す図である。
図10は、テキストに含まれるキーワードHとキーワードLとの分布の一例を示す図である。
図11は、本実施例に係る判定装置の処理を説明するための図(2)である。
図12は、残す対象とする特徴L−Lを説明するための図である。
図13は、本実施例に係るシステムの構成を示す図である。
図14は、検索入力画面の一例を示す図である。
図15は、本実施例に係る判定装置の構成を示す機能ブロック図である。
図16は、ファイル操作ログデータ構造の一例を示す図である。
図17は、テキストテーブルのデータ構造の一例を示す図である。
図18は、リストテーブルのデータ構造の一例を示す図である。
図19は、転置インデックスのデータ構造の一例を示す図である。
図20は、類似性判定部の処理の一例を説明するための図である。
図21は、検索結果の一例を示す図である。
図22は、本実施例に係るシステムの処理手順を示すフローチャートである。
図23は、本実施例に係る判定装置の処理手順を示すフローチャートである。
図24は、S207およびS208の処理手順を具体的に示すフローチャートである。
図25は、ステップS303の処理手順を具体的に示すフローチャートである。
図26は、判定プログラムを実行するコンピュータの一例を示す図である。
図27は、FPを説明するための図である。
図28は、n×nの有効フラグで類似性を判定する処理の一例を示す図である。
図29は、転置インデックスを用いた比較を説明するための図である。

0019

以下に、本願の開示する類似性判定装置、類似性判定方法および類似性判定プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

0020

フィンガープリントの特定について説明する。以下の説明では、フィンガープリントをFPと表記する。図1図4は、FPの特性を説明するための図である。例えば、図1に示すように、キーワードk1とキーワードk2との特徴t1が複数個出現した場合には、1つにまとめられる。このため、各キーワードの配列を示す特徴は出現回数を持っているがFPのデータ上では、図2に示すような情報に丸められ、出現回数の情報は削除される。

0021

図2において、各キーワード横の括弧内の数字は、テキストに含まれるキーワードの出現回数を示す。例えば、キーワードk1(50)は、テキストに含まれるキーワードk1の出現回数が、50回であることを示す。

0022

図2に示す特徴の出現回数は、テキストに含まれるキーワードの配列が出現する回数を示す。例えば、特徴t1に対応するキーワードk1とキーワードk2との配列がテキスト上に30回出現することが示される。なお、FPのデータ上では、係る出現回数の情報は削除され、出現回数については、各特徴の間で区別されない。なお、図2に示す例では、各特徴が、特徴の出現回数の昇順で並べられている。

0023

ここで、図2に示す状態からFPの情報を削減するための一番単純な方法としては、FPからランダムに削除する方法が考えられる。図3では、FPからランダムに特徴を削除する場合を示す。例えば、図3に示す例では、特徴t1、t2、t98、t99がランダムに選択され、削除されている。しかしながら、特徴をランダムに選択して削除すると、出現回数の多い特徴が削除されてしまう可能性があり、これにより多くの特徴が失われる可能性が高い。例えば、図3の特徴t1は、特徴の出現回数が、他の特徴よりも多いため、かかる特徴t1は、テキストの主要な特徴であるといえる。しかしながら、特徴t1が選択され、削除されてしまうと、FPからテキストの主要な特徴が失われる。

0024

図3で説明した問題を解消するべく、図4に示す方法が考えられる。例えば、出現回数の多い特徴よりも、出現回数の少ない特徴を削除する方法がある。この場合には、出現回数の多い特徴を残すことができるが出現回数の少ないキーワードを含む特徴が削除されるが、この出現回数の少ない特徴は、他のテキストとの違いを表す特徴であることが多い。このため、単純に出現回数の少ない特徴を削除すると、各テキスト間の類似性が高くなり、類似性を判定するための精度が低下する。

0025

次に、本実施例に係る判定装置の処理の一例について説明する。判定装置は、類似性判定装置の一例である。判定装置は、出現回数の低いキーワードを含む特徴を残しつつ、出現回数の低いキーワードを含む特徴を削除することで、類似性判定の精度を落とさずに、FPのデータ量を削減する。

0026

図5は、本実施例に係る判定装置の処理を説明するための図である。図5に示すように、判定装置は、特徴の出現回数に基づいて、特徴の出現回数が閾値以下となる特徴t98,t99,t100を削除対象候補として選択する。判定装置は、削除対象候補の特徴のうち、特徴を削除しても特徴の有するキーワードが他の特徴で補完できる特徴を削除する。

0027

例えば、図5に示す例では、特徴t100のキーワードkBは、特徴t99に存在する。特徴t100のキーワードkAは、特徴t98に存在する。特徴t100の有するキーワードは他の特徴t98,t99で補完することができるため、判定装置は特徴t100を削除する。

0028

ここで、図5に示した判定装置の処理では、出現回数が閾値以下となる特徴を削除対象候補とし、削除対象候補の特徴のうち、他の特徴で補完可能な特徴を削除する処理を行う例を示した。この処理は、データ量を削除する点においては、よい処理であるが、削除対象を細かく確認するため、処理負荷が大きくなる場合がある。以下においては、図5で説明した処理と同じ考え方で削除対象を細かく確認する処理を省いた、判定装置の処理の一例について説明する。

0029

図5で説明した処理では、特徴の出現回数を基に削除する特徴を絞り込んだが、キーワードの出現回数に着目して処理を行ってもよい。判定装置は、テキスト内に出現するキーワードの出現回数をキーワード毎に計数し、出現回数を基にしてキーワードをグループHまたはグループLに分類する。

0030

図6は、キーワードと出現回数との関係を示す図である。図6縦軸は出現回数を示し、横軸はキーワードに対応する。例えば、キーワードは、出現回数の多いものから順に左側から右側に並ぶ。図6分割ポイント20よりも左側のキーワードは、グループHに属する。分割ポイント20よりも右側のキーワードは、グループLに属する。判定装置は、出現回数が均等になるように、分割ポイント20を設定する。例えば、判定装置は、グループHに属する各キーワードの出現回数の合計数と、グループLの属する各キーワードの出現回数の合計数とが同じ数になるように分割ポイント20を設定する。以下の説明において、グループHに属するキーワードをキーワードH、グループLに属するキーワードをキーワードLと適宜表記する。

0031

図6に示すように、キーワードを分類すると、FPの特徴は図7に示すように、均等に4グループに分けることができる。図7及び図8は、特徴を構成するキーワードのペアの比率を示す図である。例えば、キーワードHとキーワードHとの配列を示す特徴を、特徴H−Hと表記する。キーワードHとキーワードLとの配列を示す特徴を、特徴H−Lと表記する。キーワードLとキーワードHとの配列を示す特徴を、特徴L−Hと表記する。キーワードLとキーワードLとの配列を示す特徴を、特徴L−Lと表記する。

0032

図7に示すように、全特徴のうち、特徴H−Hが占める比率は、25%となる。全特徴のうち、特徴H−Lが占める比率は、25%となる。全特徴のうち、特徴L−Hが占める比率は、25%となる。全特徴のうち、特徴L−Lが占める比率は、25%となる。

0033

例えば、判定装置が特徴L−Lを削除することで、FPの情報を25%削除することになる。また、特徴L−Lに含まれるキーワードLが、特徴H−Lまた特徴L−Hに含まれていると解釈すれば、特徴L−Lを削除しても、テキストの特徴が保持される。例えば、図4で説明したように、単純に出現回数に基づいて特徴を削除していないので、テキスト固有のキーワードを残すことができ、類似性判定の精度低下を抑止できる。

0034

ところで、実際には、キーワードHとキーワードLとでは、ユニーク数の差を表す係数が異なる。係数をKとすると各特徴H−H、H−L、L−H、L−Lの比率は、図8に示すものとなる。例えば、L−Lの特徴を削除した場合にはK×2/(1+K)×2%の削減となる。例えば、Kの値が「3」である場合には、56%の削除が期待できる。Kの値が「4」である場合には、65%の削除が期待できる。

0035

キーワードHの数とキーワードLの数との比率および削減率の関係について説明する。図9は、比率および削減率の関係の一例を示す図である。発明者は、削減率を求めるにあたり、実際にサイズ3〜4KBのテキストを1000テキスト用意して、1000テキストでFPを作成した。発明者は、作成したFPについて、比率を変えることで削減率を求めた。また、1000テキストに対応する各FPを比較して類似度を求め、類似度が高い2〜5位の平均類似度を求めた。なお、類似度が1位となるものは、自分自身のテキストとの比較による類似度であるため、除外する。

0036

図9に示すように、キーワードHの数とキーワードLの数との比率が「100:0」では、削減率は0%となり、平均類似度は「8.8%」となる。キーワードHの数とキーワードLの数との比率が「50:50」では、削減率は42%となり、平均類似度は「7.3%」となる。キーワードHの数とキーワードLの数との比率が「30:70」では、削減率は62%となり、平均類似度は「7.2%」となる。キーワードHの数とキーワードLの数との比率が「10:90」では、削減率は88%となり、平均類似度は「9.5%」となる。

0037

図9に示す例では、比率を変更して削除率を高くし、特徴をより削除するようにしてもテキストの特徴は均等に削除される傾向が見られることが確認できた。しかし、本アルゴリズムを使用して特徴を削除した場合には、部分一致の評価を行うことは難しい。この理由は、テキスト全体として削除する特徴を決めているが、テキストの局所的な範囲では、削除する特徴が多い部分と少ない部分とが発生するためである。

0038

図10は、テキストに含まれるキーワードHとキーワードLとの分布の一例を示す図である。図10に示す例では、テキスト30を、ページ毎に分割した例を示す。例えば、1ページ目の領域を領域30aとする。2ページ目の領域を領域30bとする。3ページ目の領域を領域30cとする。領域30aは、キーワードHを多く含み、キーワードLが含まれない。領域30bは、キーワードHおよびキーワードLがバランスよく含まれる。領域30cは、キーワードLを多く含み、キーワードHを含まない。

0039

例えば、特徴L−Lを削除すると、領域30cにおいて、多くのキーワードLが削除されることになり、領域30cについては特徴が残らなくなる。このため、部分一致の評価を行うことは難しくなる。この点を解消するべく、本実施例に係る判定装置は、テキスト全域渡り、一定範囲内で一定数の特徴が残るよう特徴L−Lを削除する処理を制御する。例えば、判定装置は、全ての特徴L−Lを削除した場合に、特徴の数が一定数に満たない一定範囲が存在する場合には、係る一定範囲について、削除予定の特徴L−Lの一部を削除しないようにする。

0040

図11は、本実施例に係る判定装置の処理を説明するための図(2)である。判定装置は、テキスト35上に一定範囲35aを設定し、特徴L−Lをした場合の残りの特徴の数を計数する。判定装置は、計数した特徴の数が所定数未満である場合には、削除予定となる特徴L−Lのうち、一部を残すようにする。判定装置は、一定範囲35をずらしつつ、上記処理を繰り返し実行する。

0041

判定装置は、残す対象となる特徴L−Lを、特徴L−Lを構成するキーワードLの出現回数に基づいて特定する。図12は、残す対象とする特徴L−Lを説明するための図である。図12の横軸は、特徴L−Lを構成するキーワードLのペアうち、一方のキーワードLの出現回数を示し、縦軸は、他方のキーワードLの出現回数を示す。例えば、縦軸は、出現回数はキーワードLのペアのうち、出現回数の多いキーワードLの出現回数とする。

0042

例えば、判定装置は、全ての特徴L−Lのうち、キーワードLのペアの出現回数が多い特徴L−Lを残す。図12に示す例では、判定装置は、領域36に含まれるキーワードLのペアを有する特徴L−Lを残し、それ以外の特徴L−Lを削除する。判定装置がこのような処理を実行することにより、テキストの全体的な特徴を残しながら最低限の部分的な特徴を残すことができ、類似判定の精度が落ちることを抑止することができる。

0043

次に、本実施例に係るシステムの構成について説明する。図13は、本実施例に係るシステムの構成を示す図である。図13に示すように、このシステムは、クライアント端末60と、判定装置100とを有する。クライアント端末60および判定装置100は、ネットワーク50を介して相互に接続される。

0044

クライアント端末60は、情報漏洩の原因を調査する調査者が操作する情報機器である。例えば、クライアント端末60は、調査者に検索ファイルを指定された場合に、かかる検索ファイルに含まれるテキストのFPを生成し、生成したFPの情報を判定装置100に通知する。

0045

例えば、クライアント端末60は、検索入力画面を表示して、検索ファイルの指定を受け付ける。図14は、検索入力画面の一例を示す図である。調査者は、クライアント端末60を操作して、検索入力画面61の入力領域62に検索ファイルの名称を入力する。クライアント端末60は、検索ファイルの指定を受け付けると、自装置のデータベースまたは、ネットワーク上から、検索ファイルを取得し、取得した検索ファイルを基にして、FPを生成する。

0046

クライアント端末60が検索ファイルのテキストからFPを生成する処理の一例について説明する。クライアント端末60は、テキストを走査して、テキストに含まれるキーワードを抽出する。クライアント端末60は、各キーワードの配列を特徴として特定する。図1で説明したように、クライアント端末60は、同一のキーワードの配列となる特徴を一つの特徴にまとめる。

0047

クライアント端末60は、特徴に含まれる一方のキーワードをハッシュ化し、定数nでmodした値と、特徴に含まれる他方のキーワードをハッシュ化し、定数nでmodした値を組み合わせることで、特徴の値を算出する。クライアント端末60は、テキストから抽出した各特徴について、上記処理を繰り返し実行し、各特徴の値をまとめたリストを生成する。このリストが、検索ファイルに含まれるテキストのFPとなる。

0048

判定装置100は、クライアント端末60から検索ファイルのFPの情報を受信した場合に、検索ファイルのFPを基にして、社内のデータベース等から、検索ファイルに類似するテキストを検索する装置である。判定装置100は、検索結果をクライアント端末60に通知する。

0049

図15は、本実施例に係る判定装置の構成を示す機能ブロック図である。図15に示すように、この判定装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。

0050

通信部110は、ネットワーク50を介して、クライアント端末60や他の端末装置データ通信を実行する処理部である。通信部110は、通信装置の一例である。後述する制御部150は、通信部110を介して、クライアント端末60や他の端末装置とデータをやり取りする。

0051

入力部120は、判定装置100に各種の情報を入力する入力装置である。例えば、入力部120は、キーボードマウスタッチパネル等に対応する。

0052

表示部130は、制御部150から出力される情報を表示する表示装置である。例えば、表示部130は、液晶ディスプレイやタッチパネル等に対応する。

0053

記憶部140は、ファイル操作ログ140a、テキストテーブル140b、リストテーブル140c、閾値データ140d、転置インデックス140eを有する。記憶部140は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子などの記憶装置に対応する。

0054

ファイル操作ログ140aは、ファイル操作の履歴を示す情報である。図16は、ファイル操作ログのデータ構造の一例を示す図である。図16に示すように、このファイル操作ログ140aは、日時と、種別と、ホストと、アカウントと、第1ファイル名と、第2ファイル名と、ログIDとを対応付ける。

0055

日時は、利用者がファイルを操作した日時を示す。種別は、ファイル操作の種別を示す。ホストは、ファイルを操作した利用者の端末装置を識別する情報である。アカウントは、利用者の名称である。第1ファイル名および第2ファイル名は、ファイルの名称を示す。利用者に操作されることにより、同一のファイルであっても、異なるファイル名が設定される場合がある。ログIDは、ファイル操作を一意に識別する情報であり、また、ファイル操作の対象となったテキストを一意に識別する情報である。

0056

テキストテーブル140bは、ファイル操作により更新、作成されたテキストを保持するテーブルである。図17は、テキストテーブルのデータ構造の一例を示す図である。図17に示すように、このテキストテーブル140bは、ログIDと、テキストのデータとを対応付ける。テキストテーブル140bのログIDは、ファイル操作ログ140aのログIDに対応するものである。例えば、図16のファイル操作ログ140aの1行目を参照すると、ファイル操作の種別が「更新」となっており、ログIDが「L101」となっている。この更新されたテキストのデータが、テキストテーブル140bのログID「L101」に対応付けられたテキストのデータとなる。

0057

リストテーブル140cは、テキストテーブル140bに含まれる各テキストのFPを保持するテーブルである。図18は、リストテーブルのデータ構造の一例を示す図である。図18に示すように、このリストテーブル140cは、ログIDと、リスト(FP)とを対応付ける。ログIDは、テキストテーブル140bのログIDに対応するものである。リストは、FPに対応する情報であり、複数のハッシュ値を有する。各ハッシュ値は、テキストから抽出された特徴のハッシュ値である。図18に示す例では、8桁のハッシュ値が、1つの特徴に対応する。特徴は、上述したように、テキストに含まれるキーワードの配列を示すものである。テキストテーブル140bのログID「L101」に対応するリストは、リストテーブル140cのログID「L101」に対応するリストとなる。

0058

リストテーブル140cのリストに含まれる特徴は、図11等で説明したように、全特徴のうち、特徴L−Lが削除されたものとなる。すなわち、後述する制御部150は、テキスト全域に渡り、一定範囲内で一定数の特徴が残るよう特徴L−Lを削除する。例えば、判定装置100は、全ての特徴L−Lを削除した場合に、特徴の数が一定数に満たない一定範囲が存在する場合には、係る一定範囲について、削除予定の特徴L−Lの一部を削除しないようにする。

0059

閾値データ140dは、キーワードHの数と、キーワードLの数との比率の情報を含む。また、閾値データ140dは、一定範囲内に残す特徴の数の情報を含む。以下の説明では、一定範囲内に残す特徴の数を、特徴数閾値と表記する。

0060

転置インデックス140eは、特徴と、この特徴を有するテキストとの関係を示す情報である。図19は、転置インデックスのデータ構造の一例を示す図である。図19に示すように、この転置インデックス140eは、有効グラフと、ログIDとを対応付ける。有効グラフの各値は、特徴のハッシュ値に対応する。ログIDは、リストテーブル140cのログIDに対応するものである。例えば、図19の1行目では、特徴「48742842」を有するテキストのログIDが、「L101、L103」である旨が示される。

0061

制御部150は、受付部150aと、特徴抽出部150bと、類似性判定部150cと、検索結果通知部150dとを有する。検索結果通知部150dは、検索部の一例である。制御部150は、例えば、ASIC(Application Specific IntegratedCircuit)や、FPGA(Field Programmable Gate Array)などの集積装置に対応する。また、制御部150は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等の電子回路に対応する。

0062

受付部150aは、クライアント端末60または社内の情報機器等から各種の情報を受け付ける処理部である。例えば、受付部150aは、クライアント端末60から、検索ファイルのFPの情報を受信した場合に、受信した検索ファイルのFPの情報を、類似性判定部150cに出力する。受付部150aは、ファイル操作ログ140a、テキストテーブル140b、閾値データ140dを社内の情報機器から受け付けた場合には、受け付けた各情報140a、140b、140dを、記憶部140に格納する。

0063

特徴抽出部150bは、テキストテーブル140bの各テキストについて特徴を抽出し、抽出した特徴をハッシュ化することで、リストテーブル140cを生成する処理部である。また、特徴抽出部150bは、リストテーブル140cを基にして、転置インデックス140eを生成する。

0064

ここで、特徴抽出部150bは、リストテーブル140cを生成する場合に、テキスト全域に渡り、一定範囲内で特徴数閾値以上の特徴が残るよう特徴L−Lを削除することで、リストテーブル140cのデータ量を削減する。

0065

以下において、特徴抽出部150bの処理の一例について説明する。特徴抽出部150bは、テキストテーブル140bからあるテキストを取得し、取得したテキストを走査してキーワードを抽出する。特徴抽出部150bは、各キーワードの配列をテキストの特徴として抽出する。特徴抽出部150bは、特徴を構成する各キーワードをハッシュ化することで、特徴をハッシュ化する。特徴抽出部150bは、各特徴のハッシュ値をリスト化することで、あるテキストのリストを生成する。

0066

更に、特徴抽出部150bは、あるテキストに含まれるキーワードの出現回数を計数する。特徴抽出部150bは、各キーワードの出現回数と、閾値データ140dの比率とを基にして、各キーワードをキーワードHまたはキーワードLに分類する。例えば、特徴抽出部150bは、比率が「X:Y」である場合には、キーワードHの数と、キーワードLの数との比率が「X:Y」となるように、各キーワードを分類する。

0067

特徴抽出部150bは、キーワードの分類結果と、特徴を構成するキーワードのペアとを基にして、複数の特徴のうち、特徴L−Lとなる特徴を特定する。例えば、特徴抽出部150bは、特徴を構成するキーワードの双方がキーワードLに分類される特徴を、特徴L−Lとして特定する。

0068

特徴抽出部150bは、あるテキストに一定範囲を設定し、一定範囲に含まれる特徴から、特徴L−Lを削除した場合に、一定範囲内の特徴の数が、特徴数閾値以上であるか否かを判定する。以下において、一定範囲内の特徴の数が、特徴数閾値以上である場合と、特徴数閾値未満である場合とに分けて、特徴抽出部150bの処理を説明する。

0069

一定範囲内の特徴の数が、特徴数閾値以上である場合について説明する。この場合には、特徴抽出部150bは、テキストのリストから、一定範囲内に含まれる全ての特徴L−Lに対応する値を削除する処理を実行する。

0070

一定範囲内の特徴の数が、特徴数閾値未満である場合について説明する。この場合には、特徴抽出部150bは、特徴L−Lのうち、削除しない特徴L−Lを特定する。特徴抽出部150bは、テキストのリストから、一定範囲内に含まれる特徴L−Lのうち、削除しない特徴L−Lを除いた、残りの特徴L−Lを削除する。

0071

ここで、特徴抽出部150bが、削除しない特徴L−Lを特定する処理の一例について説明する。例えば、図12で説明したように、特徴抽出部150bは、全ての特徴L−Lのうち、キーワードLのペアの出現回数が多い特徴L−Lを、削除しない特徴L−Lとして特定する。例えば、特徴抽出部150bは、特徴L−Lを構成する各キーワードLの出現回数を合計した値を基にして、各特徴L−Lを、出現回数を合計した値の降順に並べ、並べた各特徴L−Lの上位所定数の特徴L−Lを、削除しない特徴L−Lとする。

0072

特徴抽出部150bは、あるテキストについて、一定範囲の位置をずらし、上記処理を繰り返し実行する。また、特徴抽出部150bは、他のテキストについても同様の処理を実行することで、残りのテキストのリストから、特徴L−Lを削除する。特徴抽出部150bは、特徴L−Lを削除したリストを、リストテーブル140cに登録する。

0073

特徴抽出部150bは、リストテーブル140cに含まれるリストの値を、転置インデックス140eの有効グラフに設定し、リストの値を特徴に有するログIDを、転置インデックス140eのログIDに設定することで、転置インデックス140eを生成する。

0074

類似性判定部150cは、検索ファイルのFPの情報と、転置インデックス140eとを比較して、検索ファイルのFPに類似するログIDを判定する処理部である。図20は、類似性判定部の処理の一例を説明するための図である。図20において、70は、検索ファイルのFPを示すものである。FP70に含まれる各特徴は、検索ファイルのテキストに含まれるキーワードの配列から算出されるハッシュ値である。転置インデックス140eは、図19で説明した転置インデックス140eに対応する。

0075

FP70と転置インデックス140eとを比較すると、比較結果80が得られる。例えば、比較結果80は、ログIDと特徴量とを対応付ける。ログIDは、ファイル操作ログ140a、テキストテーブル140bのログIDに対応する。特徴量は、ログIDに対応するテキストに含まれる特徴のうち、検索ファイルのFP70と一致する特徴の数を示すものであり、特徴量が多いほど、類似性が高いことを示す。類似性判定部150cは、特等量が閾値以上となるログIDを、検索結果通知部150dに出力する。

0076

検索結果通知部150dは、類似性判定部150cから出力されるログIDに対応するログ情報を特定し、特定したログ情報を検索結果として、クライアント端末60に通知する処理部である。例えば、検索結果通知部150dは、ログIDと、ファイル操作ログ140aとを比較して、ログIDに対応するレコードを抽出し、抽出したレコードを、検索結果とする。

0077

図21は、検索結果の一例を示す図である。図21に示すように、この検索結果は、アカウントと、ファイル名と、類似度と、種別と、日時とを対応付ける。アカウント、ファイル名、種別、日時に関する説明は、図16で説明した、アカウント、第1、2ファイル名、種別、日時に関する説明と同様である。類似度は、検索ファイルのFPと、ログIDに対応するテキストのFPとの類似度を示すものである。例えば、検索結果通知部150dは、類似度を、式(1)に基づき算出する。

0078

類似度=(検索ファイルのFPの特徴と、ログIDに対応するテキストのFPの特徴とで一致する特徴の数)/検索ファイルのFPの特徴の数・・・(1)

0079

なお、検索結果通知部150dは、式(1)を用いない方法で、類似度を算出してもよい。例えば、図20に示した特徴量が多いほど、ログIDに対応する類似度を大きくする算出式を用いて、類似度を算出してもよい。

0080

次に、本実施例に係るシステムの処理手順の一例について説明する。図22は、本実施例に係るシステムの処理手順を示すフローチャートである。図22に示すように、クライアント端末60は、検索ファイルを受け付け(ステップS101)、検索ファイルに含まれるテキストからFPを生成する(ステップS102)。クライアント端末60は、検索ファイルのFPを判定装置100に送信する(ステップS103)。

0081

判定装置100は、検索ファイルのFPをクライアント端末60から受信する(ステップS104)。判定装置100は、検索ファイルのFPと、転置インデックス140eとを比較して、特徴量が閾値以上となるログIDを判定する(ステップS105)。

0082

判定装置100は、判定したログIDおよびファイル操作ログ140aを基にして、検索結果を生成し、検索結果をクライアント端末60に送信する(ステップS106)。クライアント端末60は、検索結果を受信し、検索結果を表示する(ステップS107)。

0083

次に、本実施例に係る判定装置の処理手順の一例について説明する。図23は、本実施例に係る判定装置の処理手順を示すフローチャートである。図23に示すように、判定装置100の受付部150aは、ファイル操作ログ140a、テキストテーブル140b、閾値データ140dを受け付ける(ステップS201)。

0084

判定装置100の特徴抽出部150bは、テキストテーブル140bのテキストに含まれる各キーワード間の関係を抽出し、特徴を抽出する(ステップS202)。特徴抽出部150bは、特徴を構成するキーワードをハッシュ値に変換する(ステップS203)。特徴抽出部150bは、各キーワードの出現回数を計数し、各キーワードをキーワードHまたはキーワードLに分類する(ステップS204)。

0085

特徴抽出部150bは、テキスト毎に特徴をリスト化する(ステップS205)。特徴抽出部150bは、リストから特徴L−Lを削除する(ステップS206)。特徴抽出部150bは、テキストの一定範囲内に、特徴数閾値以上の特徴が存在するか否かを判定する(ステップS207)。ステップS207において、例えば、特徴抽出部150bは、特徴L−Lを、テキストから削除した場合に、テキストの一定範囲内に、特徴数閾値以上の特徴が存在するか否かを判定する。なお、リスト上の特徴と、テキスト上の特徴とはそれぞれ対応付けられているものとする。例えば、リストの特徴が削除されると、係る特徴に対応するテキスト上の特徴が削除される。

0086

特徴抽出部150bは、テキストの一定範囲内に、特徴数閾値以上の特徴が存在する場合には(ステップS207,Yes)、ステップS209に移行する。一方、特徴抽出部150bは、テキストの一定範囲内に、特徴数閾値以上の特徴が存在しない場合には(ステップS207,No)、特徴L−Lの一部をリストに追加する(ステップS208)。

0087

特徴抽出部150bは、リストの重複を除去したリストテーブル140cを生成する(ステップS209)。判定装置100の類似性判定部150cは、転置インデックス140eと、検索ファイルのFPとを比較して類似性を判定する(ステップS210)。判定装置100の検索結果通知部150dは、類似性の判定結果を基にして、検索結果を生成する(ステップS211)。

0088

次に、図23のステップS207およびS208の処理を具体的に説明する。図24は、S207およびS208の処理手順を具体的に示すフローチャートである。図24に示すように、特徴抽出部150bは、テキスト上の未処理の一定範囲を選択する(ステップS301)。特徴抽出部150bは、一定範囲内に特徴数閾値以上の特徴が存在するか否かを判定する(ステップS302)。特徴抽出部150bは、一定範囲内に特徴数閾値以上の特徴が存在する場合には(ステップS302,Yes)、ステップS304に移行する。

0089

一方、特徴抽出部150bは、一定範囲内に特徴数閾値以上の特徴が存在しない場合には(ステップS302,No)、一定範囲内の特徴が特徴数閾値以上となるように、特徴L−Lを追加する(ステップS303)。特徴抽出部150bは、全ての一致範囲を選択したか否かを判定する(ステップS304)。

0090

特徴抽出部150bは、全ての一定範囲を選択していない場合には(ステップS304,No)、ステップS301に移行する。一方、特徴抽出部150bは、全ての一定範囲を選択した場合には(ステップS304,Yes)、図24に示す処理を終了する。

0091

次に、図24のステップS303の処理を具体的に説明する。図25は、ステップS303の処理手順を具体的に示すフローチャートである。図25に示すように、特徴抽出部150bは、一定範囲内の削除予定の全ての特徴L−Lから、2つのキーワードの合計出現回数を算出する(ステップS401)。

0092

特徴抽出部150bは、一定範囲内に削除予定の特徴L−Lが存在するか否かを判定する(ステップS402)。特徴抽出部150bは、一定範囲内に削除予定の特徴L−Lが存在しない場合には(ステップS402,No)、図25に示す処理を終了する。

0093

一方、特徴抽出部150bは、一定範囲内に削除予定の特徴L−Lが存在する場合には(ステップS402,Yes)、削除予定の特徴L−Lからキーワードの合計出現回数が一番多い特徴L−Lを一つ取り出し、取り出した特徴L−Lを削除対象から外す(ステップS403)。特徴抽出部150bは、一定範囲内に特徴数閾値以上の特徴が存在するか否かを判定する(ステップS404)。

0094

特徴抽出部150bは、一定範囲内に特徴数閾値以上の特徴が存在する場合には(ステップS404,Yes)、図25に示す処理を終了する。一方、特徴抽出部150bは、一定範囲内に特徴数閾値以上の特徴が存在しない場合には(ステップS404,No)、ステップS402に移行する。

0095

次に、本実施例に係る判定装置100の効果について説明する。判定装置100は、テキストの一定範囲内に含まれる特徴の数が一定数以上となる条件のもと、特徴L−Lを削除する処理を、各テキストについて実行する。また、判定装置100は、検索ファイルの特徴と、各テキストの特徴とを比較して類似性を判定する。テキストの一定範囲内には、一定数以上の特徴が含まれているため、各テキスト固有の特徴を残しつつ、類似判定を行うことができる。従って、類似判定の精度を落とさずにデータ量を削減することができる。

0096

また、判定装置100は、テキストから特徴L−Lを削除する場合に、特徴L−Lのうち、特徴L−Lを構成するキーワードLの出現回数が多いものを優先して削除対象から除去する。この処理を行うことで、テキストの全体的な特徴を残しながら、最低限の部分的な特徴を保存することが可能になる。

0097

また、判定装置100の検索結果通知部150dは、類似性判定部150cから出力されるログIDに対応するログ情報を特定し、特定したログ情報を検索結果として、クライアント端末60に通知する。これにより、検索ファイルに類似するテキストの操作履歴を通知することができ、情報漏洩に至った経緯を把握することができる。

0098

ところで、本実施例では、判定装置100が、特徴抽出部150bおよび類似性判定部150cを有する場合について説明したがこれに限定されるものではない。例えば、特徴抽出部150bに対応する機能を社内のクライアントに持たせ、類似性判定部150cに対応する機能をサーバに持たせることで、機能を分割させてもよい。

0099

次に、上記実施例に示した判定装置100と同様の機能を実現する判定プログラムを実行するコンピュータの一例について説明する。図26は、判定プログラムを実行するコンピュータの一例を示す図である。

0100

図26に示すように、コンピュータ200は、各種演算処理を実行するCPU201と、ユーザからのデータの入力を受け付ける入力装置202と、ディスプレイ203とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読取る読み取り装置204と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置205とを有する。また、コンピュータ200は、各種情報一時記憶するRAM206と、ハードディスク装置207とを有する。そして、各装置201〜207は、バス208に接続される。

0101

ハードディスク装置207は、特徴抽出プログラム207a、類似性判定プログラム207bを読み出してRAM206に展開する。特徴抽出プログラム207aは、特徴抽出プロセス206aとして機能する。類似性判定プログラム207bは、類似性判定プロセス206bとして機能する。例えば、特徴抽出プロセス206aは、特徴抽出部150bに対応する。

0102

なお、特徴抽出プログラム207a、類似性判定プログラム207bについては、必ずしも最初からハードディスク装置207に記憶させておかなくても良い。例えば、コンピュータ200に挿入されるフレキシブルディスクFD)、CD−ROMDVDディスク光磁気ディスクICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ200が特徴抽出プログラム207a、類似性判定プログラム207bを読み出して実行するようにしてもよい。

0103

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

0104

(付記1)文書情報に含まれる各キーワードの出現回数を計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する特徴抽出部と、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する類似性判定部と
を有することを特徴とする類似性判定装置。

0105

(付記2)前記特徴抽出部は、前記出現回数が閾値未満となるキーワードの配列を削除する場合に、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする付記1に記載の類似性判定装置。

0106

(付記3)前記類似性判定部は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、前記類似性判定部の判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する検索部を更に有することを特徴とする付記1または2に記載の類似性判定装置。

0107

(付記4)コンピュータが実行する判定方法であって、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行することを特徴とする類似性判定方法。

0108

(付記5)前記出現回数が閾値未満となるキーワードの配列を削除する処理は、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする付記4に記載の類似性判定方法。

0109

(付記6)前記類似性を判定する処理は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する処理を更に実行することを特徴とする付記4または5に記載の類似性判定方法。

0110

(付記7)コンピュータに、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行させることを特徴とする類似性判定プログラム。

0111

(付記8)前記出現回数が閾値未満となるキーワードの配列を削除する処理は、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする付記7に記載の類似性判定プログラム。

実施例

0112

(付記9)前記類似性を判定する処理は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する処理を更に実行することを特徴とする付記7または8に記載の類似性判定プログラム。

0113

60クライアント端末
100判定装置
140 記憶部
150 制御部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • 株式会社ウフルの「 デバイス管理システム、デバイス管理方法、情報処理装置、及びプログラム」が 公開されました。( 2020/09/24)

    【課題】デバイスの信頼性を向上可能なデバイス管理システム、デバイス管理方法、情報処理装置、デバイス及びプログラムを提供する。【解決手段】デバイス管理システム1は、複数の情報処理装置2をネットワーク3で... 詳細

  • 本田技研工業株式会社の「 サーバ」が 公開されました。( 2020/09/24)

    【課題】車両の利用者が、該利用者の生活圏外の人であって前記利用者の属性に類似した属性を持つ地域人(地元民)が利用したPOI情報をリコメンドとして受けることができるサーバを提供する。【解決手段】サーバ1... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ