図面 (/)

技術 文書分類装置及びプログラム

出願人 富士ゼロックス株式会社
発明者 服部圭悟増市博
出願日 2012年12月21日 (7年8ヶ月経過) 出願番号 2012-279624
公開日 2014年7月3日 (6年2ヶ月経過) 公開番号 2014-123286
状態 特許登録済
技術分野 検索装置
主要キーワード 設定コスト 再ランキング 主成分ベクトル 学習用データ means法 同一クラスタ クラスタ分析 出現割合
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年7月3日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

予め文書データに付与されたカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与する。

解決手段

特徴抽出部16は、予め特定のカテゴリに分類された文書データから特徴情報を抽出する。クラスタリング部18は、特徴情報に基づいて文書データをクラスタ分けする。カテゴリ更新部24は、同一クラスタに分類された文書データに、同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与する。

概要

背景

文書データを特定のカテゴリ分類する技術が知られている。

例えば、特許文献1には、予め特定のカテゴリに分類された学習用データがある場合、カテゴリの特徴と未分類のデータとを比較することで、未分類のデータのカテゴリを決定する方法が開示されている。

また、特許文献2には、各文書を文書の特徴量に基づいてクラスタ分けし、各クラスタ特徴語を当該クラスタに属する文書のカテゴリとして用いる方法が開示されている。

概要

予め文書データに付与されたカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与する。特徴抽出部16は、予め特定のカテゴリに分類された文書データから特徴情報を抽出する。クラスタリング部18は、特徴情報に基づいて文書データをクラスタ分けする。カテゴリ更新部24は、同一クラスタに分類された文書データに、同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与する。

目的

本発明の目的は、予め文書データに付与されたカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与することが可能な文書分類装置及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

予め特定のカテゴリ分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報の出現頻度が類似する文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、を有することを特徴とする文書分類装置

請求項2

請求項1に記載の文書分類装置であって、前記特徴抽出手段は、前記特定のカテゴリに関連する情報を特徴情報として前記複数の文書データのそれぞれから抽出する、ことを特徴とする文書分類装置。

請求項3

請求項1又は請求項2に記載の文書分類装置であって、前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、ことを特徴とする文書分類装置。

請求項4

請求項1から請求項3のいずれか一項に記載の文書分類装置であって、検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段を更に有する、ことを特徴とする文書分類装置。

請求項5

請求項4に記載の文書分類装置であって、前記検索手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じた検索結果を出力する、ことを特徴とする文書分類装置。

請求項6

請求項4又は請求項5に記載の文書分類装置であって、前記検索クエリによって検索された文書データのカテゴリと前記検索クエリに含まれるカテゴリに関する情報とが一致しない場合、前記検索された文書データのカテゴリを、前記検索クエリに含まれるカテゴリに変更する更新手段を更に有する、ことを特徴とする文書分類装置。

請求項7

請求項1から請求項6のいずれか一項に記載の文書分類装置であって、前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段を更に有する、ことを特徴とする文書分類装置。

請求項8

請求項7に記載の文書分類装置であって、前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、ことを特徴とする文書分類装置。

請求項9

請求項7又は請求項8に記載の文書分類装置であって、前記カテゴリ分類手段によって処理された前記未分類の文書データを、前記特徴抽出手段、前記クラスタリング手段及び前記カテゴリ更新手段の処理対象の文書データに追加する手段を更に有する、ことを特徴とする文書分類装置。

請求項10

請求項1から請求項9のいずれか一項に記載の文書分類装置であって、前記特徴抽出手段は、文書データにおける特徴情報の出現頻度に応じて、前記クラスタリング手段によるクラスタ分けに用いられる特徴情報を選択する、ことを特徴とする文書分類装置。

請求項11

請求項1から請求項10のいずれか一項に記載の文書分類装置であって、前記カテゴリ更新手段は、前記同一カテゴリにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、ことを特徴とする文書分類装置。

請求項12

コンピュータに、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、前記特徴情報の出現頻度が類似する文書データを同一クラスタに分類するステップと、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するステップと、を実行させることを特徴とするプログラム

技術分野

0001

本発明は、文書データ分類する文書分類装置及びプログラムに関する。

背景技術

0002

文書データを特定のカテゴリに分類する技術が知られている。

0003

例えば、特許文献1には、予め特定のカテゴリに分類された学習用データがある場合、カテゴリの特徴と未分類のデータとを比較することで、未分類のデータのカテゴリを決定する方法が開示されている。

0004

また、特許文献2には、各文書を文書の特徴量に基づいてクラスタ分けし、各クラスタ特徴語を当該クラスタに属する文書のカテゴリとして用いる方法が開示されている。

先行技術

0005

特開平11−167581号公報
特開2005−182611号公報

発明が解決しようとする課題

0006

ところで、カテゴリ間境界が曖昧で、文書データを特定のカテゴリに明確に分類できない場合がある。例えば、文書データのカテゴリが「概要」であるとともに「経歴」でもある場合や、「概要」であるとともに「構成」でもある場合がある。また、人が文書データを分類する場合、その人によって分類の仕方が異なるため、文書データに付与されるカテゴリが人によって異なる場合がある。以上のように、カテゴリの独立性保障が困難であり、また、人に依存してカテゴリ分類ゆらぎが生じるため、予め特定のカテゴリに分類された学習用データにおいては、学習用データとカテゴリとの組み合わせが正確でない場合がある。カテゴリ分類のゆらぎが生じないようにカテゴリを細かく定義することも考えられるが、カテゴリを細かく定義するほどカテゴリの設定コストが増大し、カテゴリを付与する人に依存してカテゴリ分類にゆらぎが生じるおそれがある。また、自動でカテゴリを決定する場合、例えば特定のデータ集合に「概要」という用語が出現しない場合、そのデータ集合が「概要」について表している場合でも、「概要」というカテゴリに分類することはできない。また、自動でカテゴリを決定する場合、分類されたカテゴリの意味を人が解釈できない場合がある。

0007

本発明の目的は、予め文書データに付与されたカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与することが可能な文書分類装置及びプログラムを提供することである。

課題を解決するための手段

0008

請求項1に記載の発明は、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出する特徴抽出手段と、前記特徴情報の出現頻度が類似する文書データを同一クラスタに分類するクラスタリング手段と、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するカテゴリ更新手段と、を有することを特徴とする文書分類装置である。

0009

請求項2に記載の発明は、請求項1に記載の文書分類装置であって、前記特徴抽出手段は、前記特定のカテゴリに関連する情報を特徴情報として前記複数の文書データのそれぞれから抽出する、ことを特徴とする。

0010

請求項3に記載の発明は、請求項1又は請求項2に記載の文書分類装置であって、前記カテゴリ更新手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合を、前記同一クラスタに分類された文書データに付与する、ことを特徴とする。

0011

請求項4に記載の発明は、請求項1から請求項3のいずれか一項に記載の文書分類装置であって、検索クエリを受け、前記検索クエリにカテゴリに関する情報が含まれている場合、文書データに予め付与されたカテゴリ及び前記カテゴリ更新手段によって付与されたカテゴリも検索対象とし、前記検索クエリを用いて検索し、検索結果を出力する検索手段を更に有する、ことを特徴とする。

0012

請求項5に記載の発明は、請求項4に記載の文書分類装置であって、前記検索手段は、前記同一クラスタにおける各文書データのカテゴリの出現割合に応じた検索結果を出力する、ことを特徴とする。

0013

請求項6に記載の発明は、請求項4又は請求項5に記載の文書分類装置であって、前記検索クエリによって検索された文書データのカテゴリと前記検索クエリに含まれるカテゴリに関する情報とが一致しない場合、前記検索された文書データのカテゴリを、前記検索クエリに含まれるカテゴリに変更する更新手段を更に有する、ことを特徴とする。

0014

請求項7に記載の発明は、請求項1から請求項6のいずれか一項に記載の文書分類装置であって、前記カテゴリ更新手段によってカテゴリが付与された文書データに基づいて作成された識別器を用いて未分類の文書データにカテゴリを付与するカテゴリ分類手段を更に有する、ことを特徴とする。

0015

請求項8に記載の発明は、請求項7に記載の文書分類装置であって、前記カテゴリ分類手段は、出現割合が最大のカテゴリを前記未分類の文書データに付与する、ことを特徴とする。

0016

請求項9に記載の発明は、請求項7又は請求項8に記載の文書分類装置であって、前記カテゴリ分類手段によって処理された前記未分類の文書データを、前記特徴抽出手段、前記クラスタリング手段及び前記カテゴリ更新手段の処理対象の文書データに追加する手段を更に有する、ことを特徴とする。

0017

請求項10に記載の発明は、請求項1から請求項9のいずれか一項に記載の文書分類装置であって、前記特徴抽出手段は、文書データにおける特徴情報の出現頻度に応じて、前記クラスタリング手段によるクラスタ分けに用いられる特徴情報を選択する、ことを特徴とする。

0018

請求項11に記載の発明は、請求項1から請求項10のいずれか一項に記載の文書分類装置であって、前記カテゴリ更新手段は、前記同一カテゴリにおける各文書データのカテゴリの出現割合に応じてカテゴリを選択して文書データに付与する、ことを特徴とする。

0019

請求項12に記載の発明は、コンピュータに、予め特定のカテゴリに分類された複数の文書データのそれぞれから特徴情報を抽出するステップと、前記特徴情報の出現頻度が類似する文書データを同一クラスタに分類するステップと、同一クラスタに分類された文書データに、前記同一クラスタに分類された他の文書データのカテゴリも自己のカテゴリとして付与するステップと、を実行させることを特徴とするプログラムである。

発明の効果

0020

請求項1,12に記載の発明によると、カテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したカテゴリを文書データに付与することが可能となる。

0021

請求項2に記載の発明によると、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。

0022

請求項3に記載の発明によると、カテゴリの特徴の割合を文書データに付与することが可能となる。

0023

請求項4に記載の発明によると、カテゴリを考慮した検索結果が得られる。

0024

請求項5に記載の発明によると、カテゴリの割合を考慮した検索結果が得られる。

0025

請求項6に記載の発明によると、本発明の構成を備えていない場合と比べて、文書データのカテゴリをより正確に修正することが可能となる。

0026

請求項7に記載の発明によると、カテゴリの曖昧性を表現したカテゴリを未分類の文書データに付与することが可能となる。

0027

請求項8に記載の発明によると、本発明の構成を備えていない場合と比べて、より正確なカテゴリを未分類の文書データに付与することが可能となる。

0028

請求項9に記載の発明によると、未分類であった文書データを含めて処理を行うことで、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。

0029

請求項10に記載の発明によると、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。

0030

請求項11に記載の発明によると、本発明の構成を備えていない場合と比べて、文書分類の精度が向上する。

図面の簡単な説明

0031

本発明の実施形態に係る文書分類装置の一例を示すブロック図である。
動作例1を示すフローチャートである。
動作例2を示すフローチャートである。
予め特定のカテゴリに分類された学習用データの一例を示す表である。
学習用データのベクトル表現の一例を示す表である。
クラスタリングの結果を示す表である。
クラスタの分析結果を示す表である。
クラスタカテゴリが付与された学習用データの一例を示す表である。
変形例に係る文書分類装置の一例を示すブロック図である。
動作例3を示すフローチャートである。
動作例4を示すフローチャートである。

実施例

0032

図1に、本発明の実施形態に係る文書分類装置の一例を示す。文書分類装置1は、記憶部10、特徴抽出部16、クラスタリング部18、クラスタ分析部20、クラスタカテゴリ記憶部22及びカテゴリ更新部24を備え、予め特定のカテゴリに分類された学習用データに、カテゴリの定義の曖昧性を考慮した新たなカテゴリを付与する。

0033

記憶部10は、データ記憶部12とカテゴリ記憶部14とを含む。データ記憶部12には、予め特定のカテゴリに分類された学習用データが記憶されている。学習用データは、例えば、単一又は複数の文で構成された文書データである。学習用データは、予め特定のカテゴリに分類されていれば、カテゴリの種類や学習データの質にかかわらず、どのようなデータであってもよい。例えば、文書の章や段落のタイトルをカテゴリとし、章や段落内部の文書を学習用データとし、文書の構造を利用して自動で収集されるデータであってもよい。学習用データには、当該学習用データを識別するための学習用データ識別情報(例えばID番号等)が付与されており、また、当該学習用データのカテゴリを示すカテゴリ情報が関連付けられている。カテゴリ記憶部14は、学習用データに関連付けられたカテゴリ情報を記憶する。

0034

特徴抽出部16は、複数の学習用データのそれぞれから特徴情報を抽出し、抽出した特徴情報を用いて各学習用データベクトル化する。特徴抽出部16は、形態素情報品詞情報構文意味情報文字・単語N−gram、任意の単語、句読点の数、及び、過去形の単語の数等のうちの1又は複数を特徴情報として抽出する。これらの情報はベクトル素性となる。各素性のスコア二値(0又は1)でもよいし、出現数やTf−idf(Term Frequency−Inverse Document Frequency)値等でもよい。また、特徴抽出部16は、辞書等を利用することで同義語を同一素性として扱ってもよいし、Tf−idf値に閾値を設けてノイズとなり得る素性を除去し、ベクトルの次元圧縮してもよい。ノイズとなり得る素性を除去することで、文書分類の精度が向上する。例えば、idf値が下限閾値以下となる単語は一般的な単語であると判断され得るため、ベクトルの素性として使用しなくてもよい。また、idf値が上限閾値以上となる単語は、素性に識別器が大きく依存する可能性があるため、素性として使用しなくてもよい。以上のようにして、特徴抽出部16は、素性のスコアに応じて、クラスタリング部18によるクラスタ分けに用いられる特徴情報を選択してもよい。

0035

クラスタリング部18は、特徴抽出部16によって抽出された特徴情報に基づき、類似した特徴情報を有する学習用データを同一のクラスタに分類する。具体的には、クラスタリング部18は、Repeated Bisection法、K−means法又はLDA(Latent Dirichlet Allocation)法等の手法を用いることで、ベクトル表現された学習用データをクラスタ分けする。例えば、クラスタリング部18は、特徴情報の出現頻度が類似する学習用データを同一のクラスタに分類する。クラスタリング部18は、クラスタを識別するためのクラスタ識別情報(例えばID番号等)を各クラスタに付与する。

0036

クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、当該クラスタ内のカテゴリの構成を分析し、分析結果をクラスタカテゴリ記憶部22に出力する。具体的には、クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、同一クラスタに属する各学習用データのカテゴリの当該クラスタ内での出現数と、当該クラスタ内における出現割合とを求める。各カテゴリの出現割合は、同一クラスタ内に属する全カテゴリの出現数に対する各カテゴリの出現数である。また、クラスタを構成するデータ数が、全体又は他のクラスタのデータ数よりも少なく、その数の差が予め決定された閾値以上となるクラスタはノイズとなり得るため、クラスタ分析部20は、そのクラスタに属する学習用データを除去してもよい。また、同一クラスタに属するカテゴリのうち、数が他のカテゴリよりも少なく、その数の差が予め決定された閾値以上となるカテゴリはノイズとなり得るため、クラスタ分析部20は、そのカテゴリを除去してもよい。ノイズとなり得るクラスタや学習用データを除去することで、文書分類の精度が向上する。例えば、出現割合が予め決定された閾値以下となるカテゴリを、クラスタから除去してもよい。また、クラスタ分析部20は、1つのクラスタに含まれるカテゴリの数を制限してもよい。例えば、クラスタ分析部20は、出現割合が大きいカテゴリから予め決定された数のカテゴリをクラスタに含ませ、それ以外のカテゴリをクラスタに含ませなくてもよい。以上のようにして、クラスタ分析部20は、カテゴリの出現割合に応じて、クラスタカテゴリに用いるカテゴリを選択してもよい。

0037

クラスタカテゴリ記憶部22は、クラスタ分析部20の分析結果としてのクラスタカテゴリ情報を記憶する。

0038

カテゴリ更新部24は、同一クラスタに属する各カテゴリと各カテゴリの出現割合とをクラスタカテゴリとして新たに定義し、このクラスタカテゴリを示すクラスタカテゴリ情報を用いることで、各学習用データのカテゴリを更新する。すなわち、カテゴリ更新部24は、同一クラスタに属する学習用データに、当該同一クラスタに属する別の学習用データのカテゴリも自己のカテゴリとして付与する。例えば、カテゴリ更新部24は、同一クラスタに属する各学習用データに、当該クラスタのクラスタ識別情報を付与し、当該クラスタのクラスタカテゴリ情報を関連付ける。このようにして、各学習用データをクラスタカテゴリに分類する。なお、各クラスタカテゴリには、クラスタ識別情報が付与される。カテゴリ記憶部14は、学習用データに関連付けられたクラスタカテゴリ情報を記憶する。このように、各学習用データにクラスタカテゴリが付与されることになるため、各学習用データは、元々のカテゴリに分類されているとともに、クラスタカテゴリに分類されてもいる。すなわち、各学習用データには、元々のカテゴリを示すカテゴリ情報とクラスタカテゴリを示すクラスタカテゴリ情報とが関連付けられていることになる。

0039

なお、記憶部10及びクラスタカテゴリ記憶部22を文書分類装置1に設けずに、文書分類装置1の外部に設けてもよい。

0040

(動作例1)
次に、図2に示すフローチャートを参照して、文書分類装置1の動作例1を説明する。まず、特徴抽出部16は、複数の学習用データをデータ記憶部12から読み出し、複数の学習用データを解析することで複数の学習用データのそれぞれから特徴情報を抽出し、学各学習用データをベクトル化する(S01)。次に、クラスタリング部18は、ベクトル表現された複数の学習用データをクラスタに分類する(S02)。そして、クラスタ分析部20は、クラスタに属する学習用データに関連付けられたカテゴリ情報に基づき、当該クラスタ内のカテゴリの構成を分析する(S03)。カテゴリ更新部24は、同一クラスタに属する各カテゴリと各カテゴリの出現割合とをクラスタカテゴリとして定義し、同一クラスタに属する各学習用データに当該クラスタのクラスタカテゴリ情報を関連付けることで、各学習用データのカテゴリを更新する(S04)。

0041

(動作例2)
次に、図3に示すフローチャートを参照して、文書分類装置1の動作例2を説明する。まず、特徴抽出部16は、複数の学習用データを解析することで複数の学習用データのそれぞれから特徴情報を抽出する(S10)。次に、特徴抽出部16は、抽出した特徴情報のうちノイズとなり得る特徴情報を除去し、ノイズとなり得ない特徴情報を選択して各学習用データをベクトル化する(S11)。例えば、特徴抽出部16は、抽出した特徴情報のうち同義語を同一素性として扱い、又は、Tf−idf値に基づいて不要な素性を除去し、各学習用データをベクトル化する。そして、クラスタリング部18は、ベクトル表現された複数の学習用データをクラスタに分類し(S12)、クラスタ分析部20は、クラスタ内のカテゴリの構成を分析する(S13)。また、クラスタ分析部20は、ノイズとなり得るクラスタの学習データを除去する(S14)。クラスタ分析部20は、数が他のカテゴリよりも少なく、その数の差が閾値以上となるカテゴリを除去してもよい。そして、カテゴリ更新部24は、同一クラスタに属する各学習用データにクラスタカテゴリ情報を関連付けることで、各学習用データのカテゴリを更新する(S15)。

0042

(具体例)
次に、文書分類装置1の動作について具体例を挙げて説明する。図4に、予め特定のカテゴリに分類された学習用データの一例を示す。例えば、学習用データ識別情報(ID=1,2)が付された学習用データは「概要」というカテゴリに予め分類されており、ID=3の学習用データは「経歴」というカテゴリに予め分類されており、ID=4の学習用データは「構成」というカテゴリに予め分類されている。各学習用データは記憶部10に記憶されており、各学習用データのカテゴリを示すカテゴリ情報は、カテゴリ記憶部14に記憶されている。

0043

特徴抽出部16は、各学習用データ(ID=1,2,3,・・・)から特徴情報を抽出し、各学習用データをベクトル化する。図5に、ID=1の学習用データのベクトル表現の一例を示す。説明を簡略にするために、内容語(単語)をベクトルの素性として用い、出現数をスコアとして用いている。図5中のWIDは、特徴抽出部16によって各単語に付けられた識別情報である。なお、WIDはベクトルのインデクス番号を表し、出現数はインデクス番号におけるスコアを表す。特徴抽出部16は、辞書等を利用することで、同義語に同一のWIDを付与してもよい。また、スコア(出現数、出現頻度)に対して閾値を設定し、スコアが閾値以下となる素性を除去してもよい。すなわち、スコアに応じて、クラスタリング部18によるクラスタ分けに用いられる特徴情報を選択してもよい。

0044

クラスタリング部18は、ベクトル表現された学習用データを、予め決定された手法によってクラスタに分類する。図6にクラスタリングの結果を示す。図6中のCIDは、クラスタを識別するためのクラスタ識別情報である。図6に示す例では、CID=1のクラスタには、ID=1,3,10,・・・の学習用データが分類されている。ID=1の学習用データは予め「概要」カテゴリに分類され、ID=3の学習用データは予め「経歴」カテゴリに分類されているため、「概要」カテゴリ及び「経歴」カテゴリがCID=1のクラスタに属することになる。また、CID=2のクラスタには、ID=2の学習用データが分類されている。ID=2の学習用データは予め「概要」カテゴリに分類されているため、「概要」カテゴリがCID=2のクラスタに属することになる。他のCIDのクラスタについても同様に、各クラスタに分類された学習用データのカテゴリが、対応するクラスタに属することになる。以下では、説明の便宜上、CID=1のクラスタを「クラスタ1」と称し、CID=2のクラスタを「クラスタ2」と称する。他のCIDのクラスタについても同様である。

0045

クラスタ分析部20は、クラスタ1に属する各学習用データ(ID=1,3,10,・・・)のカテゴリのクラスタ1内での出現数と、クラスタ1内における各カテゴリの出現割合とを求める。他のクラスタ2,3,・・・についても同様に、カテゴリの出現数と出現割合とを求める。クラスタ内のカテゴリの出現数は、当該カテゴリに予め分類され、クラスタリング部18によって当該クラスタに分類された学習用データの数を意味する。なお、クラスタ分析部20は、ノイズとなり得るクラスタや学習用データを除去してもよい。図7にクラスタの分析結果を示す。図7に示す例では、クラスタ1には516個の学習用データ(カテゴリ)が分類されている(要素数=516)。具体的には、クラスタ1には、120個の「経歴」カテゴリが含まれ、101個の「概要」カテゴリが含まれている。これは、「経歴」カテゴリに予め分類された120個の学習用データが、クラスタリング部18によってクラスタ1に分類され、「概要」カテゴリに予め分類された101個の学習用データが、クラスタリング部18によってクラスタ1に分類されたことを意味する。また、クラスタ1においては、「経歴」カテゴリの出現割合は0.23(23%)であり、「概要」カテゴリの出現割合は0.20(20%)である。すなわち、クラスタ1に分類された全カテゴリのうち23%のカテゴリが「経歴」カテゴリであり、20%のカテゴリが「概要」カテゴリであることを意味する。

0046

クラスタ2には1個の学習用データ(カテゴリ)が分類されている(要素数=1)。具体的には、1個の「概要」カテゴリがクラスタ2に分類されている。これは、「概要」カテゴリに予め分類された1個の学習用データが、クラスタリング部18によってクラスタ2に分類されたことを意味する。従って、クラスタ2においては、「概要」カテゴリの出現割合は1.00(100%)である。

0047

クラスタ3には333個の学習用データ(カテゴリ)が分類されている(要素数=333)。具体的には、クラスタ3には、91個の「構成」カテゴリが含まれ、52個の「概要」カテゴリが含まれている。これは、「構成」カテゴリに予め分類された91個の学習用データが、クラスタリング部18によってクラスタ3に分類され、「概要」カテゴリに予め分類された52個の学習用データが、クラスタリング部18によってカテゴリ3に分類されたことを意味する。また、クラスタ3においては、「構成」カテゴリの出現割合は0.27(27%)であり、「概要」カテゴリの出現割合は0.16(16%)である。

0048

カテゴリ更新部24は、クラスタ1に属する各カテゴリ(経歴、概要、・・・)と各カテゴリの出現割合(0.23、0.20、・・・)とを、CID=1のクラスタカテゴリとして新たに定義する。同様に、カテゴリ更新部24は、クラスタ2に属する「概要」カテゴリと出現割合(1.00)とを、CID=2のクラスタカテゴリとして新たに定義し、クラスタ3に属する各カテゴリ(構成、概要、・・・)と各カテゴリの出現割合(0.27、0.16、・・・)とを、CID=3のクラスタカテゴリとして新たに定義する。他のクラスタについても同様である。

0049

カテゴリ更新部24は、クラスタ1に属する学習用データに、クラスタ1のクラスタ識別情報(CID=1)を付与し、CID=1のクラスタカテゴリを示すクラスタカテゴリ情報を関連付ける。他のクラスタに属する学習用データについても同様に、クラスタカテゴリ情報を関連付ける。以下では、説明の便宜上、CID=1のクラスタカテゴリを「クラスタカテゴリ1」と称し、CID=2のクラスタカテゴリを「クラスタカテゴリ2」と称する。他のCIDのクラスタカテゴリについても同様である。

0050

図8に、クラスタカテゴリが付与された学習用データの一例を示す。ID=1,3の学習用データはクラスタ1に属しているため、クラスタカテゴリ1を示すクラスタカテゴリ情報が関連付けられている。すなわち、「経歴」カテゴリ、「経歴」カテゴリの出現割合、「概要」カテゴリ及び「概要」カテゴリの出現割合を含むクラスタカテゴリ情報が、ID=1,3の学習用データに関連付けられている。また、ID=2の学習用データはクラスタ2に属しているため、クラスタカテゴリ2を示すクラスタカテゴリ情報が関連付けられている。すなわち、「概要」カテゴリ及び「概要」カテゴリの出現割合を示すクラスカテゴリ情報が、ID=2の学習用データに関連付けられている。

0051

ID=1の学習用データを例にして説明すると、ID=1の学習用データに付与されたクラスタカテゴリは、例えば、以下のように解釈され得る。
(1)ID=1の学習用データは、23%の確率で「経歴」カテゴリ、20%の確率で「概要」カテゴリに分類されるデータである。
(2)ID=1の学習用データは、23%の「経歴」カテゴリの特徴と20%の「概要」カテゴリの特徴とを有するデータである。
(3)ID=1の学習用データは、「経歴」カテゴリの特徴と「概要」カテゴリの特徴とを有するデータである。
ID=1の学習用データは「概要」カテゴリに予め分類されていたが、「経歴」カテゴリの出現割合(23%)が「概要」カテゴリの出現割合(20%)よりも大きいため、「概要」カテゴリよりも「経歴」カテゴリの特徴が強いと分析されている。他のクラスカテゴリについても同様に解釈され得る。

0052

以上のように、予め特定のカテゴリに分類された学習用データの特徴情報に基づいて学習用データをクラスタに分類し、クラスタに属するカテゴリと当該カテゴリの出現割合とをクラスタカテゴリとして新たに定義して学習用データに関連付けることで、カテゴリ間の境界が曖昧でカテゴリの定義に曖昧性がある場合であっても、その曖昧性を表現したクラスタカテゴリが学習用データに付与されることになる。言葉は様々な意味や概念を持つため、各カテゴリが互いに独立していないことがあり、学習用データに予め付与されたカテゴリは、当該学習用データの特徴を正確に表していないことがある。本実施形態によると、カテゴリの曖昧性を表現したクラスタカテゴリが学習用データに付与されるため、当該学習用データの特徴をより正確に表したカテゴリが学習用データに付与されることになる。

0053

例えば、上述したID=1の学習用データのように、元々は「概要」カテゴリが付与されていたが、「経歴」の要素が「概要」よりも強い可能性がある。この場合に、「概要」カテゴリ又は「経歴」カテゴリのいずれか一方のみをID=1の学習用データに付与するのではなく、出現割合も含めて両カテゴリをクラスタカテゴリとしてID=1の学習用データに付与することで、クラスタカテゴリを付与しない場合と比べて、ID=1の学習用データの特徴がより正確に表現されることになる。例えば、「概念」カテゴリだけがID=1の学習用データに付与されている場合、ID=1の学習用データが「経歴」カテゴリの特徴を有しているにもかかわらず、その特徴が表されない。これに対して、クラスタカテゴリを学習用データに付与することで、ID=1の学習用データが「概要」及び「経歴」カテゴリの特徴を有していることが表されるため、ID=1の学習用データの特徴がより正確に表現されることになる。

0054

以上のように、予め特定のカテゴリに分類された学習用データを対象にして分類処理を行い、学習用データを新たなクラスタカテゴリに分類することで、学習用データを用いた文書分類の精度が向上し得る。

0055

なお、図示しない表示装置によって、カテゴリ、クラスタカテゴリ及び学習用データの対応関係を表示してもよい。例えば図8に示す表形式で、その対応関係を表示してもよい。これにより、ユーザが学習用データの概念や意味を把握するための情報や、ユーザがカテゴリを付与し直すための情報が、ユーザに提供されることになる。

0056

(変形例)
次に、図9を参照して、変形例に係る文書分類装置について説明する。変形例に係る文書分類装置1Aは、上記の文書分類装置1の構成に加えて、処理部30、入力部42及び出力部44を備えている。処理部30は、識別器作成部32、カテゴリ分類部34、検索部36及び学習用データ更新部38を備えている。未分類データ記憶部46には、特定のカテゴリに分類されていない文書データ(「未分類データ」と称する)が記憶されている。

0057

入力部42は例えばユーザインターフェースであり、ユーザによる情報の入力を受け付ける。出力部44は、例えば表示装置、ネットワークインターフェース又は印刷装置等であり、処理部30の処理結果を出力する。

0058

識別器作成部32は、特定のカテゴリに分類された学習用データから識別器(「カテゴリ識別器」)を作成する。例えば、学習用データの主成分ベクトルを識別器として用いる。また、識別器作成部32は、クラスタカテゴリに分類された学習用データから識別器(「クラスタカテゴリ識別器」)を作成してもよい。

0059

カテゴリ分類部34は、識別器を用いて未分類データのカテゴリを求め、未分類データをカテゴリに分類する。また、カテゴリ分類部34は、識別器を用いて未分類データのクラスタカテゴリを求め、未分類データをクラスタカテゴリに分類してもよい。

0060

検索部36は、クラスタカテゴリが付与された学習用データを検索対象とし、入力部42が受け付けた検索クエリを用いてデータを検索する。検索部36は、学習用データと検索クエリとの一致度によってスコアを算出し、スコア降順で検索結果(より高いスコアのデータをより上位とする結果)を出力する。さらに、検索クエリにカテゴリの用語が含まれている場合、検索部36は、クラスタカテゴリも検索対象とし、クラスタカテゴリに属するカテゴリの構成に応じて、検索クエリと検索対象データとの一致度を表すスコアを調整する。例えば、検索クエリに含まれる用語と一致するカテゴリの出現割合に応じた重みをスコアに付けることで、スコアを調整する。これにより、検索クエリに含まれる用語と一致するカテゴリの出現割合が大きいほど、当該カテゴリに分類された学習用データのスコアは高くなる。

0061

学習用データ更新部38は、未分類データにカテゴリ又はクラスタカテゴリが付与された場合、各種データを更新する。例えば、学習用データ更新部38は、カテゴリやクラスタカテゴリが付与された未分類データを学習用データとしてデータ記憶部12に記憶させる。また、学習用データ更新部38は、カテゴリ記憶部14やクラスタカテゴリ記憶部22に記憶されているデータを更新してもよい。また、学習用データ更新部38は、検索部36の検索結果に基づいて学習用データのカテゴリを更新してもよい。

0062

(動作例3)
次に、図10を参照して、変形例に係る文書分類装置1Aの動作例(動作例3)を説明する。動作例3では、未分類データにカテゴリやクラスタカテゴリを付与して学習用データを更新する。

0063

まず、カテゴリ分類部34は、識別器作成部32によって作成されたクラスタカテゴリ識別器を用いて未分類データのクラスタカテゴリを求め、未分類データをクラスタカテゴリに分類する(S20)。そして、クラスタカテゴリに属するカテゴリからカテゴリを選択する(S21)。例えば、カテゴリ分類部34は、クラスタカテゴリに属するカテゴリのうち、出現割合が最大のカテゴリを、未分類データに付与してもよい。出現割合が最大のカテゴリは、当該未分類データの特徴をより正確に表している可能性があるため、出現割合が最大のカテゴリを未分類データに付与することで、未分類データの特徴をより正確に表すカテゴリが未分類データに付与されることになる。または、出力部44がクラスタカテゴリに属するカテゴリの一覧を表示し、ユーザが入力部42を用いてカテゴリを選択してもよい。この場合、カテゴリ分類部34は、ユーザによって選択されたカテゴリを未分類データに付与する。なお、クラスタカテゴリのみを未分類データに付与してもよい。

0064

そして、学習用データ更新部38は、各種データを更新する(S22)。例えば、学習用データ更新部38は、カテゴリやクラスタカテゴリが付与された未分類データを学習用データとしてデータ記憶部12に記憶させる。また、学習用データ更新部38は、選択されたカテゴリの出現数を1つインクリメントし、クラスタの要素数及びカテゴリの出現割合を更新する。これにより、カテゴリ記憶部14及びクラスタカテゴリ記憶部22に記憶されているデータが更新される。図7を参照して説明すると、ステップS21にて、クラスタカテゴリ1(CID=1)に属する「経歴」カテゴリが選択された場合、学習用データ更新部38は、クラスタカテゴリ1における「経歴」カテゴリの出現数を1つインクリメントし、クラスタカテゴリ1の要素数を1つインクリメントし、クラスタカテゴリ1における「経歴」カテゴリの出現割合を更新する。なお、未分類データにカテゴリが付与された場合、識別器作成部32は識別器を更新してもよい。

0065

以上のように、未分類のデータにカテゴリやクラスタカテゴリを付与して学習用データを更新することで、クラスタカテゴリの作成の基礎となる情報が更新されるため、クラスタカテゴリの分類の精度が向上する。

0066

また、別の例として、カテゴリや段落の見出し等が付与されていない文書データに、カテゴリや見出しを付与したい場合、動作例3を適用してもよい。例えば、カテゴリ分類部34は、識別器を用いて対象データをクラスタカテゴリに分類し、クラスタカテゴリ、クラスタカテゴリに属するカテゴリのうち出現割合が最大のカテゴリ、又は、クラスタカテゴリに属するカテゴリのうちユーザによって選択されたカテゴリを、対象データに付与する。この場合も、学習用データ更新部38は、各種データを更新する。

0067

なお、動作例3によって文書分類装置1Aが動作する場合、処理部30は検索部36を備えていなくてもよい。

0068

(動作例4)
次に、図11を参照して、変形例に係る文書分類装置1Aの別の動作例(動作例4)を説明する。動作例4では、クラスタカテゴリが付与された学習用データを検索対象として検索を行い、その検索結果に基づいて学習用データを更新する。

0069

まず、入力部42を介して検索クエリが入力されると、検索部36は、クラスタカテゴリが付与された学習用データを検索対象とし、検索対象の学習用データと検索クエリとの一致度によってスコアを算出する(S30)。

0070

検索クエリにカテゴリの用語(例えば、「概要」や「経歴」等)が含まれていない場合(S31,No)、検索部36は、ステップS30での検索結果を出力し、検索処理は終了する。例えば、出力部44はスコア降順で検索結果を表示する。

0071

一方、検索クエリにカテゴリの用語が含まれている場合(S31,Yes)、検索部36は、クラスタカテゴリも検索対象として検索する(S32)。図8を参照して説明すると、例えば検索クエリが「経歴」というカテゴリの用語を含む場合、検索部36は、クラスタカテゴリを検索対象として検索を行い、検索クエリの用語「経歴」を含むクラスタカテゴリを特定し、当該クラスタカテゴリが付与されている学習用データを抽出する。図8に示す例では、クラスタカテゴリ1が付与されているID=1,3の学習用データが抽出される。仮にID=1,3の学習用データのテキストに「経歴」という用語が含まれていなくても、ID=1,3の学習用データに付与されたクラスタカテゴリ1には「経歴」カテゴリが含まれているため、ID=1,3の学習用データが検索によって抽出されることになる。

0072

そして、検索部36は、検索クエリの用語と一致するカテゴリの出現割合が大きいほど、当該カテゴリに分類された学習用データのスコアを高くし、ステップS30での検索結果を再ランキングする(S33)。例えば、出力部44は、再ランキングされた検索結果を表示する。

0073

ユーザは再ランキングされた検索結果を参照し、入力部42を用いて任意の学習用データを選択する(S34)。

0074

ユーザによって学習用データが選択されると、学習用データ更新部38は各種データを更新する(S35)。この更新処理について、図8を参照して説明する。例えば、検索クエリに「経歴」というカテゴリの用語が含まれ、検索結果の中から「概要」カテゴリに分類されたID=1の学習用データがユーザによって選択された場合、学習用データ更新部38は、ID=1の学習用データのカテゴリを「概要」カテゴリから「経歴」カテゴリに変更する。このようにカテゴリを変更することで、ID=1の学習用データのカテゴリが修正され、ID=1の学習用データの特徴をより正確に表すカテゴリがID=1の学習用データに付与されることになる。また、動作例3と同様に、学習用データ更新部38は、カテゴリの選択に応じて、クラスタの要素数、カテゴリの出現数及び出現割合を更新する。

0075

以上のようにクラスタカテゴリも検索対象とすることで、検索クエリが学習用データのテキストに存在せず、学習用データのみを検索対象とした場合には抽出されることのない学習用データも抽出される。これにより、検索クエリと関係があり得る学習用データが抽出される。例えば、学習用データのテキストに検索クエリが含まれておらず、検索クエリが学習用データの概念や意味を示す場合、学習用データのみを検索対象とすると、検索クエリと概念や意味が一致する学習用データは抽出されないが、クラスタカテゴリも検索対象とすることで、検索クエリと概念や意味が一致する学習用データが抽出されることになる。従って、単に学習用データのテキストを対象として検索する場合と異なり、概念や意味をも含めて学習用データを検索しているともいえる。

0076

上記の文書分類装置1,1Aは、一例としてハードウェア資源ソフトウェアとの協働により実現される。具体的には、文書分類装置1,1Aは、図示しないCPU等のプロセッサを備えている。プロセッサは、図示しない記憶装置に記憶されたプログラムを読み出して実行することにより、上述した特徴抽出部16、クラスタリング部18、クラスタ分析部20、カテゴリ更新部24及び処理部30のそれぞれの機能を実行する。上記プログラムは、CDやDVD等の記録媒体を経由して、又は、ネットワーク等の通信手段を経由して、ハードディスクドライブ(HDD)等の記憶装置に記憶される。なお、上記プログラムは、ハードディスクドライブ等の記憶装置に予め記憶されていてもよい。ハードディスクドライブ等の記憶装置に記憶されたプログラムが、RAM等のメモリに読み出されてプロセッサによって実行されることにより、上述した各部の機能が実現される。

0077

1,1A文書分類装置、10 記憶部、12データ記憶部、14カテゴリ記憶部、16特徴抽出部、18クラスタリング部、20クラスタ分析部、22クラスタカテゴリ記憶部、24 カテゴリ更新部、30 処理部、32識別器作成部、34カテゴリ分類部、36検索部、38学習用データ更新部、42 入力部、44 出力部、46未分類データ記憶部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ