図面 (/)

技術 文書分類装置およびプログラム

出願人 日本電信電話株式会社
発明者 内山俊郎阿部直人別所克人内山匡
出願日 2007年9月18日 (13年2ヶ月経過) 出願番号 2007-241532
公開日 2009年4月9日 (11年7ヶ月経過) 公開番号 2009-075671
状態 特許登録済
技術分野 検索装置
主要キーワード 事後確率最大 拡張方式 確率分布関数 対数正規分布 最尤法 ピッチャー 条件付確率 ジャンル分類
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2009年4月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (4)

課題

文書付随して得られる状況を反映したジャンル分類を行う際に、一般に用いられている確率モデルや比較的容易に計測できる情報を用いて、ジャンル分類することができる文書分類装置およびプログラムを提供することを目的とする。

解決手段

所定の状況skと、この状況に対応するジャンルgjとを検出し、検出された所定の状況skとこの検出された状況skに対応するジャンルgjとを蓄積し、検出された所定の状況においてジャンルが生起する確率である条件付確率P(gj|sk)を算出し、任意のジャンルgjに対し、文書diが起こる確率P(di|gj)に、条件付確率P(gj|sk)を掛けることによって、積P(di|gj)P(gj|sk)を算出し、算出されたP(di|gj)P(gj|sk)に基づいて、文書diが状況skにおいて生起したときに、文書diが属するジャンルgjを選択する。

概要

背景

文書分類する場合、従来、文書の概念ベクトルと各ジャンルの概念ベクトルのユークリッド距離とを算出し、着目している文書から最も近い距離にあるジャンルを、上記着目している文書のジャンルであると判断する(たとえば、非特許文献1参照)。

この識別方法は、ジャンルgjにおいて、文書diが生起する条件付確率を、
P(di|gj)=C1exp(−C2‖xi−yi‖2) …… 式(1)
のような多次元正規分布であると仮定し、この確率が最大であるジャンルgjを選択する方法(すなわち最尤法)であるとみなすことができる。ここで、xiは、文書diの概念ベクトルであり、yjは、ジャンルgjの概念ベクトルであり、C1とC2とは、正の定数である。
別所克人、内山俊郎、片岡良治著「単語・意味属性共起に基づく概念ベース拡張方式」社団法人情報処理学会研究報告、Vol. SIG−ICS 144、pp.29−34、2006年

概要

文書に付随して得られる状況を反映したジャンル分類を行う際に、一般に用いられている確率モデルや比較的容易に計測できる情報を用いて、ジャンル分類することができる文書分類装置およびプログラムを提供することを目的とする。所定の状況skと、この状況に対応するジャンルgjとを検出し、検出された所定の状況skとこの検出された状況skに対応するジャンルgjとを蓄積し、検出された所定の状況においてジャンルが生起する確率である条件付確率P(gj|sk)を算出し、任意のジャンルgjに対し、文書diが起こる確率P(di|gj)に、条件付確率P(gj|sk)を掛けることによって、積P(di|gj)P(gj|sk)を算出し、算出されたP(di|gj)P(gj|sk)に基づいて、文書diが状況skにおいて生起したときに、文書diが属するジャンルgjを選択する。

目的

本発明は、文書に付随して得られる状況を反映したジャンル分類を行う際に、一般に用いられている確率モデルや比較的容易に計測できる情報を用いて、ジャンル分類することができる文書分類装置およびプログラムを提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

所定の文書を、所定のジャンル集合のいずれかに分類する文書分類装置において、所定の状況skと、この状況に対応するジャンルgjとを検出する検出手段と;上記検出された所定の状況skと、この検出された状況skに対応するジャンルgjとを蓄積する蓄積手段と;上記検出された所定の状況において上記ジャンルが生起する確率である条件付確率P(gj|sk)を算出する条件付確率P(gj|sk)算出手段と;任意のジャンルgjに対し、文書diが起こる確率P(di|gj)を算出する確率P(di|gj)算出手段と;上記確率P(di|gj)に、上記条件付確率P(gj|sk)を掛けることによって、積P(di|gj)P(gj|sk)を算出する積P(di|gj)P(gj|sk)算出手段と;上記算出されたP(di|gj)P(gj|sk)に基づいて、文書diが状況skにおいて生起したときに、上記文書diが属するジャンルgjを選択するジャンル選択手段と;を有することを特徴とする文書分類装置である。

請求項2

請求項1において、上記条件付確率算出手段は、多次元正規分布ポアソン分布対数多次元正規分布を含む確率分布関数であることを特徴とする文書分類装置。

請求項3

請求項1において、上記条件付確率算出手段は、概念ベクトル単語頻度重み付け単語頻度ベクトルであることを特徴とする文書分類装置。

請求項4

請求項1〜請求項3のいずれか1項記載の文書分類装置をコンピュータに実現させるプログラム

技術分野

0001

本発明は、文書ジャンル等へ分類する際に、文書に付随して得られる状況を反映させる方式に関する。

背景技術

0002

文書を分類する場合、従来、文書の概念ベクトルと各ジャンルの概念ベクトルのユークリッド距離とを算出し、着目している文書から最も近い距離にあるジャンルを、上記着目している文書のジャンルであると判断する(たとえば、非特許文献1参照)。

0003

この識別方法は、ジャンルgjにおいて、文書diが生起する条件付確率を、
P(di|gj)=C1exp(−C2‖xi−yi‖2) …… 式(1)
のような多次元正規分布であると仮定し、この確率が最大であるジャンルgjを選択する方法(すなわち最尤法)であるとみなすことができる。ここで、xiは、文書diの概念ベクトルであり、yjは、ジャンルgjの概念ベクトルであり、C1とC2とは、正の定数である。
別所克人、内山俊郎、片岡良治著「単語・意味属性共起に基づく概念ベース拡張方式」社団法人情報処理学会研究報告、Vol. SIG−ICS 144、pp.29−34、2006年

発明が解決しようとする課題

0004

文書を分類する場合、文書に付随して得られる状況を的確に反映することが重要である。たとえば、野球興味のある人が、「バッテリー調子がおかしい」と聞けば、ピッチャーキャッチャーの調子が悪いことを想像する可能性が高いが、車に興味のある人は車の電池を考えるであろう。

0005

ここで、人や、その人が存在している位置を、状況skであると表現し、この状況skを考慮して、上記状況が記述されている文書が属すべきジャンルを分類する。

0006

適切な分類方法として、事後確率最大基準に基づく方法がある。この事後確率最大基準に基づく分類方法は、文書diと状況skとが与えられた条件で、上記文書diが属するジャンルとして生起する確率がもっとも高いジャンルを選択することによって、ジャンルを分類することができ、確率P(gj|di,sk)(文書diと状況skとが同時に生起する条件でジャンルgjが生起する確率)を最大化するジャンルgjを選択する分類方法である。

0007

しかし、従来技術の考え方に基づいて、文書diと状況skとを変数とするモデル構築し、この条件付確率を求めることは、モデル化自体が困難である。また、文書diと状況skとの組み合わせは膨大であるので、各組み合わせ毎にジャンルの生起する確率を計測等によって求めることも困難である。

0008

本発明は、文書に付随して得られる状況を反映したジャンル分類を行う際に、一般に用いられている確率モデルや比較的容易に計測できる情報を用いて、ジャンル分類することができる文書分類装置およびプログラムを提供することを目的とする。

課題を解決するための手段

0009

本発明は、所定の文書を、所定のジャンル集合のいずれかに分類する文書分類装置において、所定の状況skと、この状況に対応するジャンルgjとを検出する検出手段と、上記検出された所定の状況skと、この検出された状況skに対応するジャンルgjとを蓄積する蓄積手段と、上記検出された所定の状況において上記ジャンルが生起する確率である条件付確率P(gj|sk)を算出する条件付確率算出手段と、任意のジャンルgjに対し、文書diが起こる確率P(di|gj)に、上記条件付確率P(gj|sk)を掛けることによって、積P(di|gj)P(gj|sk)を算出する積P(di|gj)P(gj|sk)算出手段と、上記算出されたP(di|gj)P(gj|sk)に基づいて、文書diが状況skにおいて生起したときに、上記文書diが属するジャンルgjを選択するジャンル選択手段とを有する文書分類装置である。

発明の効果

0010

本発明によれば、文書に付随して得られる状況を反映したジャンル分類を行う際に、一般に用いられている確率モデルや比較的容易に計測できる情報を用いて、ジャンル分類することができるという効果を奏する。

発明を実施するための最良の形態

0011

発明を実施するための最良の形態は、以下の実施例である。

0012

図1は、本発明の実施例1である文書分類装置100を示すブロック図である。

0013

文書分類装置100は、ジャンル分類手段10と、条件付確率算出手段20と、尤度算出手段30と、状況別のジャンル生起情報蓄積手段40とを有する。

0014

ジャンル分類手段10は、ジャンルgj毎に文書dが生起する確率(尤度)P(d|gj)(j=1,……,N9)と、条件付確率P(gj|s)(j=1,……,N9)とを入力し、その積P(d|gj)P(gj|s)(j=1,……,N9)を算出し、この積が最大であるジャンルgjを出力する手段である。

0015

図2は、状況別のジャンル生起情報蓄積手段40が蓄積しているジャンル生起情報の例を示す図である。

0016

条件付確率算出手段20は、状況sを入力とし、図2に示す蓄積情報のうちで、状況の欄に状況sがあるジャンル生起事象カウントすることによって、状況s下において各ジャンルgjが生起する条件付確率P(gj|s)(j=1,……,N9)を出力する手段である。

0017

尤度算出手段30は、図1に示す文書dを入力し、ジャンルgj毎に、文書dが生起する確率(尤度)P(d|gj)(j=1,……,N9)を出力する手段である。

0018

状況別のジャンル生起情報蓄積手段40は、文書のジャンルと、それに付随して得られる人、時刻、場所等の状況を関連付けて蓄積する手段である。なお、複数の状況を、1つの文書のジャンルに関連付けてもよい。

0019

次に、実施例1の動作について説明する。

0020

まず、ジャンルを分類する前に行う処理について説明する。

0021

図3は、実施例1において、状況別のジャンルの生起情報蓄積手段40に蓄積されているジャンル生起情報の例を示す図である。

0022

説明を簡単にするために、ジャンル集合は、{野球,車,旅行読書ゴルフ,株,食べ歩き}であるとする。また、{野球、…、食べ歩き}が、それぞれ{g1、…、g7}に対応するとし、以下、これらのジャンルとして、g1〜g7の記号を使用する。

0023

このデータから、加さんが「野球」というジャンルに属する文書を、たとえばインターネットを介して、見たという条件付確率P(野球|加藤)を、
P(野球|加藤)=5/9 …… 式(5)
のように計算する。つまり、
P(野球|加藤)=(「野球」というジャンルに属する文書を加藤さんが見た数)/(ジャンルに係らずに加藤さんが見た文書の数)=5/9 …… 式(5)
のように計算する。

0024

図3に示すジャンル生起情報の例において、上記と同様に計算すると、P(車|加藤)=0、P(野球|鈴木)=0、P(車|鈴木)=2/5になる。残りの計算についても、上記と同様に計算し、条件付確率Pの結果を蓄える。

0025

また、ジャンル{野球,車,旅行,読書,ゴルフ,株,食べ歩き}について、ジャンルの概念ベクトルy1,……,y7が算出されているとする。ジャンルの概念ベクトルy1,……,y7の詳細な算出方法は、非特許文献1に記載されている。そして、ジャンルgj{j=1,……,7}のそれぞれにおいて、ある文書dが生起する確率(記述されている複数の文書のうちで、ある文書dが記述されている確率)P(d|gj)は、次の式(6)によって計算することができるとする。

0026

P(d|gj)=C1exp(−C2‖x−yj‖2) …… 式(6)
ここで、xは、文書dの概念ベクトルであり、C1とC2は、定数である。上記式(6)は、一例である。上記式(6)の代わりに、確率分布として対数正規分布ポアソン分布等を用いるようにしてもよく、また、ジャンルに属する文書群の概念ベクトル(複数)の関数として表される複雑な式を使用するようにしてもよい。

0027

図1に示すように、文書d(たとえば、「バッテリーを変えるべきだ。」との記載が含まれている文書)と、状況s(行動主体である「加藤」)とが把握されたとする。つまり、状況sとしての「加藤」が、「バッテリーを変えるべきだ。」が含まれている文書dを、インターネットを介して見たことが把握されたとする。

0028

まず、状況s(「加藤」)を、条件付確率算出手段20に入力し、「加藤」が生起した(条件付確率算出手段20に、状況sとして、「加藤」が入力された)ときに、各ジャンルが生起する(対応するジャンルが出力される)確率
P(g1|加藤)=5/9
P(g2|加藤)=0/9
P(g3|加藤)=0/9
P(g4|加藤)=2/9
P(g5|加藤)=0/9
P(g6|加藤)=1/9
P(g7|加藤)=1/9 …… 式(7)
を出力する。

0029

次に、文書dを、尤度算出手段30に送る。尤度算出手段30は、文書dの概念ベクトルxを計算し、式(6)に基づいて、各ジャンルにおいて文書dが起こる確率
P(d|g1)=0.02
P(d|g2)=0.03
P(d|g3)=0.01
P(d|g4)=0.00
P(d|g5)=0.00
P(d|g6)=0.00
P(d|g7)=0.00 …… 式(8)
を出力する。これらの値は例である。

0030

「車」、「野球」および「旅行」というジャンルにおいて、文書dが起こり得ることがわかる。

0031

次に、得られたP(d|gj)とP(gj|s=加藤)とから、その積である
P(d|g1)P(g1|s)=0.1/9
P(d|g2)P(g2|s)=0.00
P(d|g3)P(g3|s)=0.00
P(d|g4)P(g4|s)=0.00
P(d|g5)P(g5|s)=0.00
P(d|g6)P(g6|s)=0.00
P(d|g7)P(g7|s)=0.00 …… 式(9)
を算出する。

0032

野球はg1、車はg2、旅行はg3、読書はg4、ゴルフはg5、株はg6、食べ歩きはg7であるとすれば、積P(d|g1)P(g1|s)が最大値であるジャンルg1、すなわち「野球」を出力する。なお、上記において、状況として「加藤」ではなく「鈴木」が入力されれば、ジャンルとして、「車」が出力される。このように、状況に応じて、文書のジャンルを変えて出力することが可能である。

0033

尤度算出手段30において、P(d|gj)(j=1,……,N9)を算出する場合、上記式(1)を使用すればよい。また、積P(d|gj)P(gj|s)同士を比較することは、両者の対数をとったものを足し合わせた結果同士を比較することと等価である。積P(d|gj)P(gj|s)同士を比較する場合、計算効率のよい方法を選択すればよい。

0034

上記実施例は、文書diと、これに付随した状況skが検出されたときに、ジャンルgjが生起する確率P(gj|di,sk)の大小関係を判断する場合、従来からモデル化されている「ジャンルgjであるときに文書diが生起する条件付確率P(di|gj)」と、比較的容易に計測/蓄積ができる「状況skが検出されたときに、ジャンルgjが生起する条件付確率P(gj|sk)」とに基づいて判断する実施例である。

0035

この判断方法について、次に示す。

0036

まず、条件付確率P(gj|di,sk)を、
P(gj|di,sk)=P(di,sk|gj)P(gj)/P(di,sk) …… 式(2)
で示すことができる。

0037

ここで、事象diと事象skが独立であることを仮定し、さらに事象gjが起こる条件の下でも事象diと事象skが独立であることを仮定すると、
P(di,sk)=P(di)P(sk)
P(di,sk|gj)=P(di|gj)P(sk|gj)
が成り立つので、
P(gj|di,sk)=P(di|gj)P(sk|gj)P(gj)/P(di)P(sk) …… 式(3)
と変形することができ、P(sk|gj)P(gj)/P(sk)=P(gj|sk)であるので、
P(gj|di,sk)=P(di|gj)P(gj|sk)/P(di) …… 式(4)
が得られる。なお、確率P(di,sk)は、文書diと状況skとが同時に発生する確率である。また、条件付確率の定義によって、上記式(3)、式(4)が導かれる。

0038

上記式(4)において、確率P(di)は、ジャンルgjに無関係であり、また、確率P(d)は、ジャンルgjを変数として持っていないので、確率P(gj|di,sk)の大小関係は、積P(di|gj)P(gj|sk)に基づいて判断することができる。

0039

つまり、上記実施例は、所定の文書を、所定のジャンル集合のいずれかに分類する文書分類装置において、所定の状況skと、この状況に対応するジャンルgjとを検出する検出手段と、上記検出された所定の状況skと、この検出された状況skに対応するジャンルgjとを蓄積する蓄積手段と、上記検出された所定の状況において上記ジャンルが生起する確率である条件付確率P(gj|sk)を算出する条件付確率P(gj|sk)算出手段と、任意のジャンルgjに対し、文書diが起こる確率P(di|gj)を算出する確率P(di|gj)算出手段と、上記確率P(di|gj)に、上記条件付確率P(gj|sk)を掛けることによって、積P(di|gj)P(gj|sk)を算出する積P(di|gj)P(gj|sk)算出手段と、上記算出されたP(di|gj)P(gj|sk)に基づいて、文書diが状況skにおいて生起したときに、上記文書diが属するジャンルgjを選択するジャンル選択手段とを有する文書分類装置の例である。

0040

また、上記実施例をプログラムの発明として把握することができる。すなわち、上記実施例は、文書分類装置をコンピュータに実現させるプログラムの例である。

図面の簡単な説明

0041

本発明の実施例1である文書分類装置100を示すブロック図である。
状況別のジャンル生起情報蓄積手段40が蓄積しているジャンル生起情報の例を示す図である。
実施例1において、状況別のジャンルの生起情報蓄積手段40に蓄積されているジャンル生起情報の例を示す図である。

符号の説明

0042

100…文書分類装置、
10…ジャンル分類手段、
20…条件付確率算出手段、
30…尤度算出手段、
40…状況別のジャンルの生起情報蓄積手段。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • 株式会社ウフルの「 デバイス管理システム、デバイス管理方法、情報処理装置、及びプログラム」が 公開されました。( 2020/09/24)

    【課題】デバイスの信頼性を向上可能なデバイス管理システム、デバイス管理方法、情報処理装置、デバイス及びプログラムを提供する。【解決手段】デバイス管理システム1は、複数の情報処理装置2をネットワーク3で... 詳細

  • 本田技研工業株式会社の「 サーバ」が 公開されました。( 2020/09/24)

    【課題】車両の利用者が、該利用者の生活圏外の人であって前記利用者の属性に類似した属性を持つ地域人(地元民)が利用したPOI情報をリコメンドとして受けることができるサーバを提供する。【解決手段】サーバ1... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ