図面 (/)

技術 文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体

出願人 日本電信電話株式会社
発明者 岩田具治斉藤和巳
出願日 2005年5月31日 (13年4ヶ月経過) 出願番号 2005-159777
公開日 2006年12月14日 (11年10ヶ月経過) 公開番号 2006-338157
状態 未査定
技術分野 検索装置
主要キーワード 群処理 スムージングパラメータ 人文科学 ディレクトリ型検索 研究プロジェクト パターン識別 構築ステップ ページ集合
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2006年12月14日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

既存文書群に付された既存トピック群を用いて、文書群適合するトピック群を抽出することが可能な方法を提供することを課題とする。また、文書群に適合するトピック毎に文書群を分類する方法を提供することを課題とする。

解決手段

文書群処理方法は、既存トピック群の確率モデル構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、適合トピック群抽出ステップによって抽出された適合トピック群毎に、文書群を分類する文書群分類ステップとを含む方法とした。

概要

背景

文書群トピック毎クラスタリングすることは、ユーザが容易に目的の文書を探し出すことを可能にする。ここで、クラスタリングとは、似ているもの同士をまとめることによって、分類対象グループ化する手法のことである。クラスタリングの多くは人手で行われているが、近年、膨大な数の電子文書蓄積されつつあり、機械的にクラスタリングする技術が極めて重要となってきており、これまでに多くのクラスタリング手法が提案されている(例えば、非特許文献1参照)。
R.Duda, P.Hart, and D.Stork著,押上守夫監訳,「パターン識別」,第2版,(米国), 新技術コミュニケーションズ,2001年,P.519−601

概要

既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能な方法を提供することを課題とする。また、文書群に適合するトピック毎に文書群を分類する方法を提供することを課題とする。文書群処理方法は、既存トピック群の確率モデル構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、適合トピック群抽出ステップによって抽出された適合トピック群毎に、文書群を分類する文書群分類ステップとを含む方法とした。

目的

そこで本発明は、以上のような問題点に鑑みてなされたものであり、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能な文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。また、抽出した適合トピック群毎に文書群をクラスタリングすることをさらに可能とする文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。

効果

実績

技術文献被引用数
2件
牽制数
1件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

既存文書群に付された既存トピック群を用いて、文書群適合するトピック群を抽出する文書群処理装置であって、前記文群処理装置は、前記既存トピック群の確率モデル構築する既存トピック群確率モデル構築部と、前記既存トピック群確率モデル構築部において構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出部とを備えることを特徴とする文書群処理装置。

請求項2

既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出する文書群処理装置による文書群処理方法であって、前記文書群処理方法は、前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、前記既存トピック群確率モデル構築ステップによって構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出ステップとを含むことを特徴とする文書群処理方法。

請求項3

既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出し、抽出した適合トピック群毎に前記文書群を分類する文書群処理装置による文書群処理方法であって、前記文書群処理方法は、前記既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、前記既存トピック群確率モデル構築ステップによって構築された前記確率モデルを用いて、前記文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、前記適合トピック群抽出ステップによって抽出された適合トピック群毎に、前記文書群を分類する文書群分類ステップとを含むことを特徴とする文書群処理方法。

請求項4

前記既存トピック群確率モデル構築ステップは、前記既存文書群の単語出現頻度を用いて、単語生起確率推定する単語生起確率推定ステップを含むことを特徴とする請求項2または3に記載の文書群処理方法。

請求項5

前記適合トピック群抽出ステップは、単語生起確率を用いて、トピック群の尤度を算出する尤度算出ステップと、前記尤度算出ステップによって算出された前記トピック群の尤度を用いて、トピック群を抽出するトピック群抽出ステップとを含むことを特徴とする請求項2乃至4に記載の文書群処理方法。

請求項6

前記文書群分類ステップは、尤度を用いた計算に基づいて、前記文書群を分類する分類ステップを含むことを特徴とする請求項3に記載の文書群処理方法。

請求項7

請求項2乃至6に記載の文書群処理方法をコンピュータに実行させるための文書群処理プログラム

請求項8

請求項7に記載の文書群処理プログラムを格納した記録媒体

技術分野

0001

本発明は、文書群が与えられたとき、それらをトピック毎クラスタリングするための文書群処理装置文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体に関する。

背景技術

0002

文書群をトピック毎にクラスタリングすることは、ユーザが容易に目的の文書を探し出すことを可能にする。ここで、クラスタリングとは、似ているもの同士をまとめることによって、分類対象グループ化する手法のことである。クラスタリングの多くは人手で行われているが、近年、膨大な数の電子文書蓄積されつつあり、機械的にクラスタリングする技術が極めて重要となってきており、これまでに多くのクラスタリング手法が提案されている(例えば、非特許文献1参照)。
R.Duda, P.Hart, and D.Stork著,押上守夫監訳,「パターン識別」,第2版,(米国), 新技術コミュニケーションズ,2001年,P.519−601

発明が解決しようとする課題

0003

しかしながら、例えば、非特許文献1で開示されている技術では、文書群を適切にクラスタリングすることができない。また、クラスタリングを行った結果生じた各クラスに適切なトピックを付与することはできない。

0004

例えば、Webページの場合、検索サイトgoo(登録商標)(http://www.goo.ne.jp)のカテゴリ検索などのディレクトリ型検索エンジンにおいて、大量のページがトピック毎にラベル付けされている。しかし、goo(登録商標)のカテゴリ検索の第2レベルでも240以上のトピックが存在し、文書群を全てのトピックを用いてクラスタリングしたとしても、有用なクラスタリング結果は得られない。ユーザが容易に目的の文書を探し出すことを可能とするためには、トピック数が5から20程度であることが望ましいと考えられる。したがって、適度な数のトピック群を得る必要があるため、これらの多数のトピックの中から文書群に適合するトピックを選び出す必要がある。

0005

そこで本発明は、以上のような問題点に鑑みてなされたものであり、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能な文書群処理装置、文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。また、抽出した適合トピック群毎に文書群をクラスタリングすることをさらに可能とする文書群処理方法、文書群処理プログラム及び文書群処理プログラムを格納した記録媒体を提供することを課題とする。

課題を解決するための手段

0006

本発明は、前記課題を解決するために創案されたものであり、本発明の文書群処理装置は、既存トピック群の確率モデル構築する既存トピック群確率モデル構築部と、既存トピック群確率モデル構築部において構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出部とを備える構成とした。

0007

このような構成によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。ここで、文書群に適合するトピック群とは、文書群を説明するトピック群として好ましいトピックの集まりであり、適度な数の集まりを意味する。

0008

また、本発明の文書群処理方法は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップとを含む方法とした。

0009

このような方法によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。

0010

また、本発明の文書群処理方法は、既存トピック群の確率モデルを構築する既存トピック群確率モデル構築ステップと、既存トピック群確率モデル構築ステップによって構築された確率モデルを用いて、文書群に適合するトピック群を抽出する適合トピック群抽出ステップと、適合トピック群抽出ステップによって抽出された適合トピック群毎に、文書群を分類する文書群分類ステップとを含む方法とした。

0011

このような構成によれば、文書群処理装置は、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。さらに、抽出した適合トピック群毎に文書群をクラスタリングすることが可能となる。

0012

また、本発明の文書群処理方法における既存トピック群確率モデル構築ステップは、既存文書群の単語出現頻度を用いて、単語生起確率推定する単語生起確率推定ステップを含む方法とした。単語出現頻度及び単語生起確率については、発明を実施するための最良の形態において詳細に説明する。

0013

このような方法によれば、文書群処理装置は、既存文書群の単語出現頻度を用いて、単語生起確率を推定することが可能となる。また、推定した得られた単語生起確率を用いて、文書群に適合するトピック群を抽出することが可能となる。

0014

また、本発明の文書群処理方法における適合トピック群抽出ステップは、単語生起確率を用いて、トピック群の尤度を算出する尤度算出ステップと、尤度算出ステップによって算出されたトピック群の尤度を用いて、トピック群を抽出するトピック群抽出ステップとを含む方法とした。

0015

このような方法によれば、文書群処理装置は、単語生起確率を用いて、トピック群の尤度を算出することが可能となる。また、算出によって得られたトピック群の尤度を用いて、文書群に適合するトピック群を抽出することが可能となる。

0016

また、本発明の文書群処理方法における文書群分類ステップは、尤度を用いた計算に基づいて、文書群を分類する分類ステップを含む方法とした。

0017

このような方法によれば、文書群処理装置は、尤度を用いた計算に基づいて、文書群を分類することが可能となる。

0018

また、このような文書群処理方法をコンピュータに実行させる文書群処理プログラムによれば、コンピュータに文書群処理装置と同様の機能を実行させることが可能である。さらに、このような文書群処理方法をコンピュータに実行させるプログラムを格納した記録媒体によれば、コンピュータに文書群処理装置と同様の機能を実行させるプログラムを記録媒体内に記憶させることが可能である。

発明の効果

0019

本発明によれば、既存文書群に付された既存トピック群を用いて、文書群に適合するトピック群を抽出することが可能となる。また、抽出した適合トピック群毎に文書群をクラスタリングすることが可能となる。

発明を実施するための最良の形態

0020

次に、本発明を実施するための最良の形態(以下、「実施形態」という)について図面を参照して説明する。

0021

図1は、本発明の実施形態に係る文書群処理装置のブロック図である。図1に示すように、文書群処理装置1は、演算手段2と、入力手段3と、記憶手段4と、出力手段5とを備えている。各手段はバスライン11に接続されている。

0022

演算手段2は、既存トピック群確率モデル構築部21と、適合トピック群抽出部22と、メモリ23とを含んで構成される。演算手段2は、記憶手段4から既存トピック群確率モデル構築プログラム41及び適合トピック群抽出プログラム42を読み込み、メモリ23に格納し、実行することで、既存トピック群確率モデル構築部21及び適合トピック群抽出部22を実現する。既存トピック群確率モデル構築部21及び適合トピック群抽出部22の構成についての詳細は、後記する。演算手段2は、例えば、演算処理を行うCPU(Central Processing Unit)と、情報を記憶するRAM(Random Access Memory)とを含んで構成される。

0023

入力手段3は、キーボードディスクドライブ装置などから構成される。前記した既存文書群及びクラスタリングする文書群は、入力手段3を介して入力され、記憶手段4に記憶される構成とすることが可能である。

0024

記憶手段4は、ハードディスク装置などから構成される。記憶手段4は、既存トピック群確率モデル構築部21及び適合トピック群抽出部22のもとになる既存トピック群確率モデル構築プログラム41及び適合トピック群抽出プログラム42を記憶させておくことが可能である。また、記憶手段4は、既存文書群テーブル43と、単語生起確率テーブル44と、文書群テーブル45とを含んで構成される。

0025

ここで、既存文書群テーブル43は、トピックのラベルの付いたページ集合を格納するためのテーブルであり、ディレクトリ型検索エンジンなどに登録されているページ集合を格納するためのテーブルである。

0026

また、単語生起確率テーブル44は、既存トピック群確率モデル構築部21によって算出された単語生起確率を格納するためのテーブルである。

0027

さらに、文書群テーブル45は、クラスタリングを行うページ集合を格納するためのテーブルであり、ディレクトリ型検索エンジンなどで検索して得られたページ集合を格納するためのテーブルである。

0028

出力手段5は、例えば、グラフィックボード及びそれに接続されたモニタであり、文書群のクラスタリングを行った結果などを表示するものである。

0029

以下、図2及び図3を参照しながら、既存トピック群確率モデル構築部21と、適合トピック群抽出部22との構成について説明する。ここで、既存トピック群確率モデル構築部21は、演算手段2によって呼び出され、既存トピック群確率モデル構築部21の処理が終了すると、適合トピック群抽出部22が、演算手段2によって呼び出される。

0030

(既存トピック群確率モデル構築部21の説明)
図2は、本発明の実施形態に係る既存トピック群確率モデル構築部のブロック図である。図2に示すように、既存トピック群確率モデル構築部21は、既存文書群読込部211と、単語生起確率推定部212と、単語生起確率書込部213とを備えている。

0031

(既存文書群読込部211の説明)
既存文書群読込部211は、既存文書群テーブル43(図1参照)から、既存文書群X’を読み込み、メモリ23に格納するものである。既存文書群テーブル43(図1参照)は、前記した通り、ラベルの付いたページ集合である。X’は、X’k(k=1,…,K’)で定義される。ここで、K’は既存文書群全体のトピック数である。また、X’kはトピックkに属している文書集合であり、以下の式(1)によって定義される。

0032

0033

ここでN’kは、トピックkに属するページ数を表す。各要素x’knは、トピックkに属するページx’nにおけるV次元単語出現頻度ベクトルであり、Vは総単語数を表す。総単語数とは、既存文書群X’全体の単語の総数を意味する。単語出現頻度ベクトルx’knは、以下の式(2)によって定義される。

0034

0035

ここでx’knjは、トピックkに属するページx’nにおける単語wjの出現頻度を表す。出現頻度とは、あるページ範囲内に特定の単語が出現する回数を表したものである。

0036

(単語生起確率推定部212の説明)
単語生起確率推定部212は、既存文書群読込部211によってメモリ23に格納された既存文書群X’k(k=1,…,K’)に基づいて、単語生起確率θkjを算出し、メモリ23に格納するものである。ここで単語生起確率θkjは、トピックkに属するページにおける単語wjの出現確率を意味するものである。単語生起確率θkjは、各トピックの確率モデルとして、例えば、NB(Naive Bayes)モデルを採用し、以下の式(3)によって推定することが可能である。

0037

0038

なお、NBモデルについては、例えば、「McCallum,A., Nigam, K.(1998) A comparison of event models for naive Bayes text classification. In:AAAI-98 Workshop on Learning for Text Categorization」に記載されている。λkはスムージングパラメータであり、クロスバリデーション法を用いて算出することが可能である。クロスバリデーション法については、例えば、前記した非特許文献1に記載されている。

0039

(単語生起確率書込部213の説明)
単語生起確率書込部213は、単語生起確率推定部212によって推定され、メモリ23に格納された単語生起確率θkjを、単語生起確率テーブル44(図1参照)に格納するものである。単語生起確率テーブル44(図1参照)に格納された単語生起確率θkjは、適合トピック群抽出部22で利用される。

0040

(適合トピック群抽出部22の説明)
図3は、本発明の実施形態に係る適合トピック群抽出部のブロック図である。図3に示すように、適合トピック群抽出部22は、単語生起確率読込部221と、文書群読込部222と、既存トピック群取得部223と、対数尤度計算部224と、トピック群ソート部225と、トピック削除部226とを備えている。

0041

(単語生起確率読込部221の説明)
単語生起確率読込部221は、単語生起確率テーブル44(図1参照)から、単語生起確率θkjを読み込み、メモリ23に格納するものである。

0042

(文書群読込部222の説明)
文書群読込部222は、文書群テーブル45(図1参照)から、文書群Xを読み込み、メモリ23に格納するものである。文書群テーブル45(図1参照)は、前記した通り、クラスタリングを行うページ集合である。Xは、xn(n=1,…,N)で定義される。ここで、Nは文書群全体のページ数である。また、xnはページXnにおけるV次元の単語出現頻度ベクトルであり、Vは総単語数を表す。総単語数とは、前記した通り、既存文書群X’全体の単語の総数を意味する。単語出現頻度ベクトルxnは、単語出現頻度xnjを用いて、以下の式(4)によって定義される。

0043

ここで、単語出現頻度xnjは、ページXnにおける単語wjの出現頻度を意味する。

0044

(既存トピック群取得部223の説明)
既存トピック群取得部223は、単語生起確率読込部221によってメモリ23に格納された単語生起確率θkjから既存トピック群G’を取得し、メモリ23に格納するものである。ここで、既存トピック群取得部223が取得した既存トピック群G’は、G’={1,…,K’}によって定義される。単語生起確率θkjは、トピックkと単語wjとを指定すると得られる値であるので、既存トピック群G’{1,…,K’}の情報を有している。また、適合トピック群Gに、既存トピック群G’を代入することによって、適合トピック群Gに初期値を設定する。適合トピック群Gは、文書群Xに適合するトピックを抽出するために使用され、G⊂{1,…,K’}を満たすものである。

0045

(対数尤度計算部224の説明)
対数尤度計算部224は、単語生起確率読込部221によってメモリ23に読み込まれた単語生起確率θkjと、文書群読込部222によってメモリ23に読み込まれた文書群Xとを利用して、対数尤度logp(xn|k)を計算し、メモリ23に格納するものである。対数尤度logp(xn|k)は、文書群XのページXn(n=1,…,N)と、既存文書群X’のトピックk(k=1,…,K’)との全ての組み合わせについて算出される。対数尤度logp(xn|k)は、以下の式(5)によって計算される。

0046

0047

(トピック群ソート部225の説明)
トピック群ソート部225は、対数尤度計算部224によって算出されてメモリ23に格納された対数尤度logp(xn|k)を利用して、推定トピックcn(G)を計算し、メモリ23に格納するものである。推定トピックcn(G)は、以下の式(6)によって計算される。

0048

0049

また、トピック群ソート部225は、メモリ23に格納された推定トピックcn(G)を利用して、推定トピックkに対応するページ数Nk(k=1,…,K’)を計算し、メモリ23に格納するものである。

0050

また、トピック群ソート部225は、推定トピックkに対応するページが存在しない場合、すなわち推定トピックkに対応するページ数Nkが正ではない場合に、推定トピックkをメモリ23内の適合トピック群Gから削除する処理を、推定トピックk(k=1,…,K’)について行うものである。ここで、K’は、既存トピック群G’の要素数である。この処理によって、トピック群ソート部225は、対応するページが存在する適合トピック群G={1,…,K}を抽出することが可能である。

0051

さらに、トピック群ソート部225は、メモリ23内の推定トピックkのページ数Nkの昇順に適合トピック群GをソートしたリストL={L1,…,LK}を作成し、メモリ23に格納するものである。

0052

(トピック削除部226の説明)
トピック削除部226は、AIC(Akaike's Information Criterion)の値が最小になる適合トピック群Gを選択することによって、最適な適合トピック群Gを抽出するために、適合トピックに該当しないトピックを削除するものである。なお、AICについては、例えば、「Akaike,H.(1973).Information theory and extension of the maximum likelihood principle」に記載されている。

0053

AICの値が最小になるモデルを選択する方法としては、例えば、AIC(G)とAIC(G−m)とを比較し、AIC(G)>AIC(G−m)を満たす場合に、適合トピック群GからLmを削除する処理を、m=1,…,Kについて順番に、すなわちページ数Nkの少ないトピックから順番に行うというものが考えられる。ここで、G−mは、適合トピック群GからLmを取り除いたものである。AIC(G)の値は、メモリ23内の適合トピック群G、対数尤度logp(xn|k)及び推定トピックcn(G)を利用して、以下の式(7)を用いて計算される。

0054

ここで、|G|は適合トピック群Gの要素数を表すものである。AIC(G−m)の値も同様の方法で計算することが可能である。

0055

なお、適合トピック群Gが変更された場合には、推定トピックcn(G)及びAIC(G)の値も変更されるので、適合トピック群GからLmを削除した後に、推定トピックcn(G)及びAIC(G)の値を再度利用する場合などには、メモリ23内の推定トピックcn(G)及びAIC(G)の値を正しい値に更新してから利用する必要がある。トピック群G−mについても同様である。

0056

また、トピック削除部226は、対応するページが存在しないトピックkを、適合トピック群Gから予め削除しておくことにより、対応するページが存在しないトピックkを含んだ適合トピック群Gに対するソート処理及びAIC(G)の計算処理を省略することが可能となる。

0057

さらに、適合トピック群抽出部22によって抽出された適合トピック群Gと、文書群Xとを、式(7)に適用すれば、適合トピック群G毎に文書群Xをクラスタリングすることが可能となる。

0058

次に、図4を参照(適宜図1参照)しながら、演算手段2(図1参照)が行う処理について説明する。図4は、本発明の実施形態に係る演算手段の処理を表すフローチャートである。

0059

図4に示すように、演算手段2は、まず、既存トピック群確率モデル構築部21による既存トピック群確率モデル構築処理を行う(S10)。続いて、適合トピック群抽出部22による適合トピック群抽出処理を行い(S20)、処理を終了する。以下、S10の処理の詳細について、図5を用いて説明する。また、S20の処理の詳細について、図6、7及び8を用いて説明する。

0060

図5を参照(適宜図1及び2参照)しながら、既存トピック群確率モデル構築部21(図1参照)が行う処理について説明する。図5は、本発明の実施形態に係る既存トピック群確率モデル構築部の処理を表すフローチャートである。

0061

図5に示すように、既存文書群読込部211は、既存文書群X’を既存文書群テーブル43から読み込み、メモリ23に格納する(S11)。続いて、単語生起確率推定部212は、メモリ23に格納された既存文書群に基づいて、単語生起確率θkjを推定し、メモリ23に格納する(S12)。単語生起確率θkjは、前記した式(3)によって計算することが可能である。そして、単語生起確率書込部213は、メモリ23に格納された単語生起確率θkjを単語生起確率テーブル44に書き込み(S13)、処理を終了する。

0062

図6、7及び8を参照(適宜図1及び3参照)しながら、適合トピック群抽出部22(図1参照)が行う処理について説明する。図6、7及び8は、本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。

0063

図6に示すように、単語生起確率読込部221は、単語生起確率θkjを単語生起確率テーブル44から読み込み、メモリ23に格納する(S201)。続いて、文書群読込部222は、文書群Xを文書群テーブル45から読み込み、メモリ23に格納する(S202)。

0064

既存トピック群取得部223は、メモリ23内の単語生起確率θkjから既存トピック群G’を取得し、メモリ23に格納する(S203)。また、メモリ23内に適合トピック群Gを確保し、既存トピック群G’を代入して初期値を設定する(S204)。

0065

対数尤度計算部224は、メモリ23内の単語生起確率θkj及び文書群Xを用いて、対数尤度logp(xn|k)を計算し、メモリ23に格納する(S205)。対数尤度logp(xn|k)は、前記した式(5)によって計算することが可能である。

0066

次に、図7に示すように、トピック群ソート部225は、メモリ23内の対数尤度logp(xn|k)を用いて、推定トピックcn(G)を計算し、メモリ23に格納する(S206)。推定トピックcn(G)は、前記した式(6)によって計算することが可能である。続いて、メモリ23内の推定トピックcn(G)を用いて、推定トピックkのページ数Nkを計算し、メモリ23に格納する(S207)。

0067

トピック群ソート部225は、メモリ23内にカウンタtを確保し、tに1を設定する(S208)。続いて、ページ数Ntが正であるかを判定する(S209)。ページ数Ntが正ではない場合(S209でNoの場合)、メモリ23内の適合トピック群Gからトピックtを削除して(S210)、S211に進む。ページ数Ntが正の場合(S209でYesの場合)、何もせず、S211に進む。S211に進んだ場合、カウンタtに1を加算し(S211)、カウンタtが既存トピック群G’の要素数K’を超えたか否かを判定する(S212)。tが既存トピック群G’の要素数K’を超えていない場合(S212でNoの場合)、S209に戻る。tが既存トピック群G’の要素数K’を超えた場合(S212でYesの場合)、S213に進む。

0068

S213に進んだ場合、トピック群ソート部225は、メモリ23内の推定トピックkのページ数Nkの昇順に適合トピック群GをソートしたリストL=[L1,…,LK]を作成し、メモリ23に格納する(S213)。

0069

次に、図8に示すように、S214に進んだ場合、トピック削除部226は、メモリ23内の適合トピック群G、対数尤度logp(xn|k)及び推定トピックcn(G)を用いて、AIC(G)を計算し、メモリ23に格納する(S214)。AIC(G)は、前記した式(7)によって計算することが可能である。続いて、メモリ23内にカウンタmを確保し、mに1を設定する(S215)。

0070

トピック削除部226は、Lmを適合トピック群Gから削除したトピック群G−mとし、メモリ23内の対数尤度logp(xn|k)を用いて、推定トピックcn(G−m)を計算して、メモリ23に格納する(S216)。続いて、G−m、対数尤度logp(xn|k)及び推定トピックcn(G−m)を用いて、AIC(G−m)を計算し、メモリ23に格納する(S217)。そして、AIC(G)と、AIC(G−m)との値を比較し、AIC(G−m)がAIC(G)より小さくない場合(S218でNoの場合)、S222に進む。AIC(G−m)がAIC(G)より小さい場合(S218でYesの場合)、適合トピック群GからLmを削除し(S219)、cn(G)の値をcn(G−m)で更新し(S220)、AIC(G)の値をAIC(G−m)で更新し(S221)、S222に進む。

0071

S222に進んだ場合、カウンタmに1を加算し(S222)、カウンタmがリストLの要素数Kを超えたか否かを判定する(S223)。mがリストLの要素数Kを超えていない場合(S223でNoの場合)、S216に戻る。mがリストLの要素数Kを超えた場合(S223でYesの場合)、メモリ23内の対数尤度logp(xn|k)及び抽出された適合トピック群Gを用いて、推定トピックcn(G)を計算し、メモリ23に格納して(S224)、処理を終了する。

0072

以上のステップにより、文書群処理装置1は、適合トピック群Gを抽出することが可能である。また、抽出された適合トピック群Gと、文書群Xとを、式(7)に適用することで、適合トピック群G毎に文書群Xをクラスタリングすることが可能となる。

0073

なお、本実施形態における文書群処理装置1は、抽出された適合トピック群Gと、文書群Xとを、式(7)に適用することで、適合トピック群G毎に文書群Xをクラスタリングする機能も備えることとしたが、単に、文書群Xに適合する適合トピック群Gを抽出する機能を有する装置として、文書群処理装置を実現することも可能である。

0074

また、本実施形態においては、適合トピック群Gを選択する方法として、AICを用いることとしたが、適合トピック群Gの選択方法はこれに限定されるものではない。例えば、AICの代わりにMDL(Minimum Description Length)などのモデル選択基準を用いることも可能である。なお、MDLについては、例えば、「Rissanen,J.,(1983).A universal prior for integers and estimation by minimum description length,The annals of Statistics,Vol.11,NO.2,pp.416-431」に記載されている。

0075

また、本実施形態では、適合トピック数に制限を設けないこととしたが、適合トピック数に制限を設け、適合トピック数が制限した値以下になったら、適合トピックを選択する処理を終了することも可能である。適合トピック数に制限を設けることで、適度なトピック数の適合トピックを抽出することが可能となる。

0076

(文書群処理装置の評価)
本発明の実施形態における文書群処理装置の有効性を評価するため、Webの検索結果で得られたページ群のクラスタリングを行った。用いた既存トピック群は、goo(登録商標)のカテゴリ検索の第2レベルの242トピックであり、この中に含まれる74233ページを用いて各トピックの確率モデルを構築した。ここでの総単語数Vは50129であった。

0077

「ハブ」を検索語にしたときの検索結果約1000ページを本発明の実施形態における文書群処理装置でクラスタリングした結果、「生物学」、「ペット」、「料理グルメ」、「オークション」、「専門店」、「パソコンショップ」、「ハードウェア」、「ネットワーク関連」、「ビジネスニュース」、「人文科学」、「辞書辞典」、「ブロードバンドの知識」の計12のトピックが抽出された。

0078

従来のクラスタリング手法を用いた場合に、各トピックラベル(生物学やペットなど)を付けることは困難であるが、本発明の実施形態におけるクラスタリングには、人手で付けられた分かりやすいラベルが付けられる。

0079

各トピックラベルに対応するページとして、「生物学」、「ペット」にはヘビのハブに関するページ、「料理、グルメ」にはハブに関するページ、「オークション」、「専門店」、「パソコンショップ」、「ハードウェア」、「ネットワーク関連」にはネットワークのハブに関するページ、「人文科学」には史資料ハブ地域文化研究拠点という研究プロジェクトに関するページが見付かった。

0080

「ハブ」には様々な意味があるが、このようにトピック毎に分類されることにより、検索の効率化が期待できる。また、検索の効率化だけではなく、検索語がWeb上でどのような意味で使われているのかを知ることも可能である。この例の場合、例えば、史資料ハブ地域文化研究拠点という研究プロジェクトに関するページが見付かり、「人文科学」においても使われていることが発見できる。

図面の簡単な説明

0081

本発明の実施形態に係る文書群処理装置のブロック図である。
本発明の実施形態に係る既存トピック群確率モデル構築部のブロック図である。
本発明の実施形態に係る適合トピック群抽出部のブロック図である。
本発明の実施形態に係る演算手段の処理を表すフローチャートである。
本発明の実施形態に係る既存トピック群確率モデル構築部の処理を表すフローチャートである。
本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。
本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。
本発明の実施形態に係る適合トピック群抽出部の処理を表すフローチャートである。

符号の説明

0082

1文書群処理装置
2演算手段
3入力手段
4 記憶手段
5 出力手段
11バスライン
21既存トピック群確率モデル構築部
22適合トピック群抽出部
23メモリ
41 既存トピック群確率モデル構築プログラム
42 適合トピック群抽出プログラム
43既存文書群テーブル
44単語生起確率テーブル
45文書群テーブル
211 既存文書群読込部
212単語生起確率推定部
213 単語生起確率書込部
221 単語生起確率読込部
222 文書群読込部
223 既存トピック群取得部
224対数尤度計算部
225トピック群ソート部
226トピック削除部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

この 技術と関連性が強い 技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ