図面 (/)

技術 共起シソーラス間類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体

出願人 日本電信電話株式会社
発明者 吉田仙湯川高志
出願日 2003年2月3日 (17年9ヶ月経過) 出願番号 2003-026273
公開日 2004年8月26日 (16年3ヶ月経過) 公開番号 2004-240505
状態 特許登録済
技術分野 機械翻訳 検索装置
主要キーワード 概念構造 類似度尺度 概念集合 関心分野 類似度測定 フリーソフトウェア 代表ページ 類似度算出ステップ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2004年8月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

利用者個人プライバシーに関わる個人情報を用いなくても、複数の利用者間関心分野類似度を精度高く測定することができる共起シソーラス類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体を提供する。

解決手段

共起シソーラス間類似度測定装置1は、インターネット上で公開されている利用者ホームページ3a〜3nからインターネット網2を介して利用者に関するウェブページダウンロードし、該ウェブページ情報から利用者間の関心分野の類似度を測定するものである。ここで、共起シソーラス間類似度測定装置1は、個人的コーパス構築部11、共起シソーラス構築部12、類似度尺度計算部13、個人的コーパス記憶部14、及び共起シソーラス記憶部15を備えている。

概要

背景

WWW(World Wide Web)サーバから情報発信されているWebコンテンツを用いて複数の利用者の間の興味分野や得意分野の類似度を測定する従来の方法としては、WWWブラウザソフトにおけるブックマークに関する情報の類似度を尺度として用いる方法がある(例えば、非特許文献1参照)。

概要

利用者個人プライバシーに関わる個人情報を用いなくても、複数の利用者間関心分野の類似度を精度高く測定することができる共起シソーラス類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体を提供する。共起シソーラス間類似度測定装置1は、インターネット上で公開されている利用者のホームページ3a〜3nからインターネット網2を介して利用者に関するウェブページダウンロードし、該ウェブページ情報から利用者間の関心分野の類似度を測定するものである。ここで、共起シソーラス間類似度測定装置1は、個人的コーパス構築部11、共起シソーラス構築部12、類似度尺度計算部13、個人的コーパス記憶部14、及び共起シソーラス記憶部15を備えている。

目的

本発明は、上記の課題を解決するためになされたものであり、利用者個人のプライバシーに関わる個人情報を用いなくても、複数の利用者間の関心分野の類似度を精度高く測定することができる共起シソーラス間類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体を提供する

効果

実績

技術文献被引用数
1件
牽制数
2件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

公開されている複数の利用者に関する情報から作成されたそれぞれの前記利用者の共起シソーラスに基づいて、前記複数の利用者間における関心ある分野の類似度を測定する共起シソーラス間類似度測定方法であって、コンピュータが、前記それぞれの前記利用者の共起シソーラスを記憶している共起シソーラス記憶手段から、少なくとも2人以上の前記共起シソーラスを取得する共起シソーラス取得ステップと、取得したそれぞれの前記共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、前記単語の対の類似度を算出する類似度算出ステップと、前記取得したそれぞれの前記共起シソーラス間における、前記単語の対すべての類似度の差を算出する類似度差算出ステップと、前記単語の対すべての前記類似度の差の二乗平均平方根を算出して、前記取得したそれぞれの前記共起シソーラス間の類似度尺度とする類似度尺度算出ステップと、を実行することを特徴とする共起シソーラス間類似度測定方法。

請求項2

前記コンピュータが、WWWサーバ上に公開されている前記利用者のウェブページ及び、前記ウェブページから所定のリンク数をたどったウェブページをダウンロードして、該ダウンロード情報を前記利用者に関する大量の単語データを記憶する個人的コーパス記憶手段に前記利用者の個人的コーパスとして登録する個人的コーパス登録ステップと、前記個人的コーパス記憶手段に記憶された前記利用者の個人的コーパスに含まれている単語の共起頻度行列を作成する共起頻度行列作成ステップと、前記共起頻度行列を特異値分解により低次圧縮して、前記共起シソーラスを作成し、前記共起シソーラス記憶手段に登録する共起シソーラス作成ステップと、を実行することを特徴とする請求項1記載の共起シソーラス間類似度測定方法。

請求項3

公開されている複数の利用者に関する情報から作成されたそれぞれの前記利用者の共起シソーラスに基づいて、前記複数の利用者間における関心ある分野の類似度を測定する共起シソーラス間類似度測定装置であって、前記それぞれの前記利用者の共起シソーラスを記憶している共起シソーラス記憶手段と、前記共起シソーラス記憶手段から少なくとも2人以上の前記共起シソーラスを取得して、取得したそれぞれの前記共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、前記単語の対の類似度を算出する類似度算出手段と、前記取得したそれぞれの前記共起シソーラス間における、前記単語の対すべての類似度の差を算出する類似度差算出手段と、前記単語の対すべての前記類似度の差の二乗平均平方根を算出して、前記取得したそれぞれの前記共起シソーラス間の類似度尺度とする類似度尺度算出手段と、を有することを特徴とする共起シソーラス間類似度測定装置。

請求項4

前記利用者に関する大量の単語データを記憶する個人的コーパス記憶手段と、WWWサーバ上に公開されている前記利用者のウェブページ及び、前記ウェブページから所定のリンク数をたどったウェブページをダウンロードして、該ダウンロード情報を前記個人的コーパス記憶手段に前記利用者の個人的コーパスとして登録する個人的コーパス登録手段と、前記個人コーパス記憶手段に記憶された前記利用者の個人的コーパスに含まれている単語の共起頻度行列を作成する共起頻度行列作成手段と、前記共起頻度行列を特異値分解により低次元圧縮して、前記共起シソーラスを作成し、前記共起シソーラス記憶手段に登録する共起シソーラス作成手段と、を有することを特徴とする請求項3記載の共起シソーラス間類似度測定装置。

請求項5

公開されている複数の利用者に関する情報から作成されたそれぞれの前記利用者の共起シソーラスに基づいて、前記複数の利用者間における関心ある分野の類似度を測定するための共起シソーラス間類似度測定プログラムであって、コンピュータに、前記それぞれの前記利用者の共起シソーラスを記憶している共起シソーラス記憶手段から、少なくとも2人以上の前記共起シソーラスを取得する共起シソーラス取得ステップと、取得したそれぞれの前記共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、前記単語の対の類似度を算出する類似度算出ステップと、前記取得したそれぞれの前記共起シソーラス間における、前記単語の対すべての類似度の差を算出する類似度差算出ステップと、前記単語の対すべての前記類似度の差の二乗平均平方根を算出して、前記取得したそれぞれの前記共起シソーラス間の類似度尺度とする類似度尺度算出ステップと、を実行させることを特徴とする共起シソーラス間類似度測定プログラム。

請求項6

前記コンピュータに、WWWサーバ上に公開されている前記利用者のウェブページ及び、前記ウェブページから所定のリンク数をたどったウェブページをダウンロードして、該ダウンロード情報を前記利用者に関する大量の単語データを記憶する個人的コーパス記憶手段に前記利用者の個人的コーパスとして登録する個人的コーパス登録ステップと、前記個人的コーパス記憶手段に記憶された前記利用者の個人的コーパスに含まれている単語の共起頻度行列を作成する共起頻度行列作成ステップと、前記共起頻度行列を特異値分解により低次元圧縮して、前記共起シソーラスを作成し、前記共起シソーラス記憶手段に登録する共起シソーラス作成ステップと、を実行させることを特徴とする請求項5記載の共起シソーラス間類似度測定プログラム。

請求項7

請求項5又は6記載の共起シソーラス間類似度測定プログラムがコンピュータ読み取り可能な記録媒体に記録されていることを特徴とする共起シソーラス間類似度測定プログラム記録媒体

技術分野

0001

本発明は、複数の利用者の間の関心分野類似度を測定する類似度測定技術に関する。

0002

WWW(World Wide Web)サーバから情報発信されているWebコンテンツを用いて複数の利用者の間の興味分野や得意分野の類似度を測定する従来の方法としては、WWWブラウザソフトにおけるブックマークに関する情報の類似度を尺度として用いる方法がある(例えば、非特許文献1参照)。

0003

この方式における類似度の計算手順は次の通りである。

0004

・ブックマークされたあるページpとあるページqの、両方に一定回数以上出現するキーワードについて、その出現回数をページpとページq間のページ関連度と定義する。

0005

・また、ブックマークされたあるフォルダfに含まれるすべてのページと、ブックマークされた別のフォルダqに含まれるすべてのページの間で、ページ関連度を求め、その値が一定以上のページ対の数をフォルダfとフォルダqの間のフォルダ関連度と定義する。

0006

・同様にして、ある利用者のブックマークaに含まれるすべてのページと、別の利用者のブックマークbに含まれるすべてのページの間で、ページ関連度を求め、その値が一定以上のページ対の数をブックマークaとブックマークbの間の推薦ページ数と定義する。

0007

・さらに、ある利用者のブックマークaに含まれるすべてのフォルダと、別の利用者のブックマークbに含まれるすべてのフォルダの間で、フォルダ関連度を求め、その値が一定以上のフォルダ対の数をブックマークaとブックマークbの間の推薦フォルダ数と定義する。

0008

このとき、ブックマークaとブックマークbの間の類似度尺度は、以下の5通りが存在する。

0009

・推薦ページ数Npab
・平均ページ関連度Rpab
・推薦フォルダ数Nfab
・平均フォルダ関連度Rfab
カテゴライズ近似度Nfab×Rfab/Npab

背景技術

0010

【非特許文献1】
濱崎雅弘,武田英明,塚建,谷口雄一郎,河野恭之,木戸出正継,Bookmarkからの共通話題ネットワーク発見手法の提案とその評価、人工知能学会論文誌,Vol.17, No.3, pp.276−284, 2002.

0011

しかしながら、上記のような類似度を測定する方法には、次のような問題がある。

0012

・利用者のブックマークが公開されていないと類似度を測定できない。ブックマークは個人的なデータであり、これを他者に公開するのは望ましくない。

0013

・利用者があるウェブサイトをブックマークに登録する場合には、そのウェブサイトの代表的なページひとつを登録する。しかし、利用者が関心を持っているのはその登録された代表ページだけではなく、代表ページからリンクをたどった先にあるページ群も含まれる。にもかかわらず、上記の類似度測定方法では登録されたページからしかキーワードを抽出しないので、抽出されたキーワードは十分に利用者の興味分野や得意分野を反映していない可能性がある。

0014

単語間概念構造類似性が類似度尺度に反映されていない。例えば情報処理機器について、携帯性という観点から見ると「ノートパソコン」と「PDA(Personal Digital Assistance)」はどちらも持ち運べるので概念的に近いが、「デスクトップパソコン」は持ち運べないので「ノートパソコン」とは概念的に遠い。一方、機能という観点から見ると「ノートパソコン」も「デスクトップパソコン」もどちらもパソコンであることには変わらないので概念的に近いが、「PDA」はスケジュール帳などの限定的な機能しか持たないので「ノートパソコン」とは概念的に遠い。このように、携帯性に興味を持つ利用者は携帯性の観点から情報処理機器を捉え、機能に興味を持つ利用者は機能の観点から情報処理機器を捉えるというように、概念構造は利用者の興味分野や得意分野に応じて変化するものであるが、上記の類似度測定方法では概念構造の類似性が類似度尺度に反映されていないので、結果として精度の高い類似度測定は行えない。

発明が解決しようとする課題

0015

本発明は、上記の課題を解決するためになされたものであり、利用者個人プライバシーに関わる個人情報を用いなくても、複数の利用者間の関心分野の類似度を精度高く測定することができる共起シソーラス間類似度測定方法、共起シソーラス間類似度測定装置、共起シソーラス間類似度測定プログラム及び共起シソーラス間類似度測定プログラム記録媒体を提供することを目的とする。

0016

上記目的を達成するため、請求項1記載の本発明は、公開されている複数の利用者に関する情報から作成されたそれぞれの前記利用者の共起シソーラスに基づいて、前記複数の利用者間における関心ある分野の類似度を測定する共起シソーラス間類似度測定方法であって、コンピュータが、前記それぞれの前記利用者の共起シソーラスを記憶している共起シソーラス記憶手段から、少なくとも2人以上の前記共起シソーラスを取得する共起シソーラス取得ステップと、取得したそれぞれの前記共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、前記単語の対の類似度を算出する類似度算出ステップと、前記取得したそれぞれの前記共起シソーラス間における、前記単語の対すべての類似度の差を算出する類似度差算出ステップと、前記単語の対すべての前記類似度の差の二乗平均平方根を算出して、前記取得したそれぞれの前記共起シソーラス間の類似度尺度とする類似度尺度算出ステップと、を実行することを要旨とする。

0017

請求項1記載の発明にあっては、公開されている複数の利用者に関する情報から作成されたそれぞれの利用者の共起シソーラスを記憶している共起シソーラス記憶手段から、少なくとも2人以上の共起シソーラスを取得して、取得したそれぞれの共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、単語の対の類似度を算出し、取得したそれぞれの共起シソーラス間における単語の対すべての類似度の差を算出して、これの二乗平均平方根を共起シソーラス間の類似度尺度として求める。これにより、複数の共起シソーラス間の類似度尺度から、複数の利用者間において関心ある分野の類似度を精度高く測定することができる。

0018

請求項2記載の本発明は、請求項1記載の発明において、前記コンピュータが、WWWサーバ上に公開されている前記利用者のウェブページ及び、前記ウェブページから所定のリンク数をたどったウェブページをダウンロードして、該ダウンロード情報を前記利用者に関する大量の単語データを記憶する個人的コーパス記憶手段に前記利用者の個人的コーパスとして登録する個人的コーパス登録ステップと、前記個人的コーパス記憶手段に記憶された前記利用者の個人的コーパスに含まれている単語の共起頻度行列を作成する共起頻度行列作成ステップと、前記共起頻度行列を特異値分解により低次圧縮して、前記共起シソーラスを作成し、前記共起シソーラス記憶手段に登録する共起シソーラス作成ステップと、を実行することを要旨とする。

0019

請求項2記載の発明にあっては、WWWサーバ上に公開されている利用者のウェブページ及び、ウェブページから所定のリンク数をたどったウェブページをダウンロードして、利用者の個人的コーパスとして収集し、この個人的コーパスに含まれている単語から共起頻度行列を作成し、この共起頻度行列を特異値分解により低次元圧縮して、共起シソーラスを作成する。これによれば、公開されているWWWサーバ上のウェブページ及び該ウェブページのリンク先のウェブページをベースに共起シソーラスを作成するので、利用者の関心分野を十分に反映した共起シソーラスとなり、以て、類似度測定の精度を高めることができる。

0020

請求項3記載の本発明は、公開されている複数の利用者に関する情報から作成されたそれぞれの前記利用者の共起シソーラスに基づいて、前記複数の利用者間における関心ある分野の類似度を測定する共起シソーラス間類似度測定装置であって、前記それぞれの前記利用者の共起シソーラスを記憶している共起シソーラス記憶手段と、前記共起シソーラス記憶手段から少なくとも2人以上の前記共起シソーラスを取得して、取得したそれぞれの前記共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、前記単語の対の類似度を算出する類似度算出手段と、前記取得したそれぞれの前記共起シソーラス間における、前記単語の対すべての類似度の差を算出する類似度差算出手段と、前記単語の対すべての前記類似度の差の二乗平均平方根を算出して、前記取得したそれぞれの前記共起シソーラス間の類似度尺度とする類似度尺度算出手段と、を有することを要旨とする。

0021

請求項4記載の本発明は、請求項3記載の発明において、前記利用者に関する大量の単語データを記憶する個人的コーパス記憶手段と、WWWサーバ上に公開されている前記利用者のウェブページ及び、前記ウェブページから所定のリンク数をたどったウェブページをダウンロードして、該ダウンロード情報を前記個人的コーパス記憶手段に前記利用者の個人的コーパスとして登録する個人的コーパス登録手段と、前記個人コーパス記憶手段に記憶された前記利用者の個人的コーパスに含まれている単語の共起頻度行列を作成する共起頻度行列作成手段と、前記共起頻度行列を特異値分解により低次元圧縮して、前記共起シソーラスを作成し、前記共起シソーラス記憶手段に登録する共起シソーラス作成手段と、を有することを要旨とする。

0022

請求項5記載の本発明は、公開されている複数の利用者に関する情報から作成されたそれぞれの前記利用者の共起シソーラスに基づいて、前記複数の利用者間における関心ある分野の類似度を測定するための共起シソーラス間類似度測定プログラムであって、コンピュータに、前記それぞれの前記利用者の共起シソーラスを記憶している共起シソーラス記憶手段から、少なくとも2人以上の前記共起シソーラスを取得する共起シソーラス取得ステップと、取得したそれぞれの前記共起シソーラスに含まれるすべての単語の中から二つを取り出してできる単語の対すべてについて、前記単語の対の類似度を算出する類似度算出ステップと、前記取得したそれぞれの前記共起シソーラス間における、前記単語の対すべての類似度の差を算出する類似度差算出ステップと、前記単語の対すべての前記類似度の差の二乗平均平方根を算出して、前記取得したそれぞれの前記共起シソーラス間の類似度尺度とする類似度尺度算出ステップと、を実行させることを要旨とする。

0023

請求項6記載の本発明は、請求項5記載の発明において、前記コンピュータに、WWWサーバ上に公開されている前記利用者のウェブページ及び、前記ウェブページから所定のリンク数をたどったウェブページをダウンロードして、該ダウンロード情報を前記利用者に関する大量の単語データを記憶する個人的コーパス記憶手段に前記利用者の個人的コーパスとして登録する個人的コーパス登録ステップと、前記個人的コーパス記憶手段に記憶された前記利用者の個人的コーパスに含まれている単語の共起頻度行列を作成する共起頻度行列作成ステップと、前記共起頻度行列を特異値分解により低次元圧縮して、前記共起シソーラスを作成し、前記共起シソーラス記憶手段に登録する共起シソーラス作成ステップと、を実行させることを要旨とする。

課題を解決するための手段

0024

請求項7記載の本発明は、請求項5又は6記載の共起シソーラス間類似度測定プログラムがコンピュータ読み取り可能な記録媒体に記録されていることを要旨とする。

0025

以下、本発明の実施の形態を図面を用いて説明する。

0026

図1は本発明の実施の形態を示すシステム概要図である。共起シソーラス間類似度測定装置1は、インターネット上で公開されている利用者のホームページ3a〜3nからインターネット網2を介して利用者に関するウェブページをダウンロードし、該ウェブページ情報から利用者間の関心分野の類似度を測定するものである。ここで、共起シソーラス間類似度測定装置1は、個人的コーパス構築部11、共起シソーラス構築部12、類似度尺度計算部13、個人的コーパス記憶部14、及び共起シソーラス記憶部15を備えている。

0027

個人的コーパス構築部11は、利用者のホームページ3a〜3nから、ホームページ自身およびリンクを一定回数たどった先までのすべてのウェブページをダウンロードし、該ダウンロードデータを利用者に関する大量の単語データを収集した個人的コーパスとして個人的コーパス記憶部14に格納するものである。

0028

共起シソーラス構築部12は、個人的コーパス記憶部14に記憶された利用者の個人的コーパスから共起シソーラス(coocurrence−based thesaurus,もしくは概念ベースconcept base)を作成し、共起シソーラス記憶部15に格納するものである。ここで、共起シソーラスとは、概念をその他の概念集合で表した知識ベースをいい、利用者の個人的コーパスに含まれている単語データについて単語間の概念構造が反映されているものであり、具体的には、個人的コーパスについて共起頻度行列を作りそれを特異値分解で次元圧縮して得られる行列のことを意味する。この行列の各行は、それぞれ一つの単語に与えられたベクトル概念ベクトル)を示しており、それらのベクトルの間の余弦が単語間の類似度を表すようになっている。図3に、例として、単語数3、次元数2の共起シソーラスを示す。これによれば、「」と「椅子」の間の類似度は、ベクトル間の余弦から
【数1】
となる。ここでは、簡単のため単語数3、次元数2としたが、実際の共起シソーラスは単語数が数百〜数十万、次元数が数十〜数百となっている。

0029

類似度尺度計算部13は、共起シソーラス記憶部15に記憶された、複数の利用者の共起シソーラスから、それぞれの利用者の共起シソーラス間の類似度を求めるもので、本発明における類似度尺度dを計算するものである。これは、以下の通りの方法によるものである。

0030

ある利用者の共起シソーラスS及び別のある利用者の共起シソーラスTに含まれる単語の数は同じであるとし、共起シソーラスSにおける単語υと単語ωの類似度の値をsimSυωとすると、共起シソーラスSにおける単語υと単語ωの類似度の値と、共起シソーラスTにおける単語υと単語ωの類似度の値の差は、
dυω=|simSυω−simTυω| (1)
と表される。

0031

mを共起シソーラスS及びTに含まれる単語の数とすると、それら単語の集合上の単語のペアは全部でm2個あるので、それらのすべてについて式(1)を計算する。そして、式(2)のように、それらm2個の値の二乗平均平方根(root mean square)をとって、類似度尺度dとする。

0032

【数2】
ここで、類似度の差dυωは、単語υと単語ωの両方が、共起シソーラスSにも共起シソーラスTにも含まれている場合にしか計算できないので、このことを考慮し、dυωの定義を次のように拡張する。

0033

・単語υと単語ωがともに共起シソーラスS及びTに含まれている場合
【数3】
・単語υと単語ωがともに共起シソーラスSには含まれているが、単語υと単語ωの少なくとも一方が共起シソーラスTには含まれていない場合
【数4】
・単語υと単語ωがともに共起シソーラスTには含まれているが、単語υと単語ωの少なくとも一方が共起シソーラスSには含まれていない場合
【数5】
・単語υと単語ωがともに共起シソーラスS及びTに含まれていない場合
【数6】
そして、この定義を上記の式(2)にあてはめて得られるものが、本発明における類似度尺度dとなる。

0034

次に、本発明の実施の形態に係る共起シソーラス間類似度測定装置1の動作を図2を用いて説明するが、これは、具体的には、3名の利用者のホームページからそれぞれ共起シソーラスを作成し、該共起シソーラス間の類似度を測定した例に基づくものである。

0035

まず、個人的コーパス構築部11は、3人の利用者x、y及びzの個人的コーパスを作成する(ステップS1)。これは、例えば、フリーソフトウェアであるwgetを用いて、それぞれのホームページ及びそのリンク先のホームページからwebページのデータを一括に取得して、個人的コーパス記憶部14に格納するものである。これにより、得られた個人的コーパスの概要は図4に示すようになっている。ここで、ホップ数が3とは、リンクをホームページから三つ先までたどったすべてのwebページをあつめるという意味である。

0036

次に、共起シソーラス構築部12は、3つの個人的コーパスそれぞれに対して、個人的コーパス中の全文書の中に出現する全単語のうち、出現頻度が高い上位500個の単語を選択し、それら500単語と、出現頻度が高い上位300個の間で、同じ文中に共起する頻度を記録した共起頻度行列を作成する(ステップS2)。ここで、共起については、ある文書中において、ある単語ωの前後20単語以内にある単語は、ωと共起している、と定める。

0037

そして、このようにして作成した500行300列の共起頻度行列を特異値分解により500行100列に次元圧縮して、3人の共起シソーラスを作成し、共起シソーラス記憶部15に格納する(ステップS3)。

0038

次に、類似度尺度計算部13は、このようにして得られたそれぞれの共起シソーラスにおいて単語間の類似度を計算する(ステップS4)。この結果、例えば、利用者xの共起シソーラス及び利用者yの共起シソーラスに関しては、Web、applications、及びSearchという単語間には、図5に示すような類似度が得られる。

0039

同図によれば、利用者xにとっては、Webという単語とapplicationsという単語は比較的近い概念であるが、利用者yにとっては遠い概念であることが読み取れる。また、利用者xにとってWebという単語とSearchという単語はそれほど近い概念ではないのに対し、利用者yにとっては近い概念であることが読み取れる。

0040

次に、類似度尺度計算部13は、上記類似度から、異なる共起シソーラス間の類似度の差dυωを求め、さらに、類似度の差dυωの二乗平均平方根を計算して、本発明における類似度尺度dとする(ステップS5,S6)。類似度尺度dの具体例は、図6に示しているが、これによれば、この3人利用者の間で興味分野や得意分野が最も似ているのはxとzであり、次いでxとy、そして最も似ていないのがyとzということになる。

0041

従って、本実施の形態によれば、利用者のホームページという公開された情報を用いて、共起シソーラスを作成し、該共起シソーラスから類似度尺度を算出するので、利用者個人のプライバシーに関わる個人情報を用いなくても、概念構造の類似性を反映した類似度を得ることができ、以て、複数の利用者間の関心分野の類似度を精度高く測定することができる。

0042

また、個人的コーパスとしては、利用者のホームページ及び該ホームページのリンク先のページ群を収集するので、より利用者の関心ある分野に関する情報を反映した共起シソーラスを構築することができる。

発明を実施するための最良の形態

0043

以上、本発明の実施の形態について説明してきたが、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変形や変更を施すことができる。例えば、図1で示した共起シソーラス間類似度測定装置1における各部の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実行できることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体、例えば、フレキシブルディスク、MO(magneto−optic)、ROM(Read Only Memory)、メモリーカード、CD(Compact Disc)、DVD(Digital Versatile Disk)、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通じてそのプログラムを配布したりすることが可能である。

図面の簡単な説明

0044

以上説明したように、本発明によれば、利用者個人のプライバシーに関わる個人情報を用いなくても、公開された利用者情報から作成した共起シソーラスに基づいて共起シソーラス間の類似度を算出できるので、複数の利用者間の関心分野の類似度を精度高く測定することができる。

図1
本発明の実施の形態に係る共起シソーラス間類似度測定装置の概略構成図である。
図2
本発明の実施の形態に係る共起シソーラス間類似度測定装置の動作を説明するフローチャートである。
図3
本発明の実施の形態における共起シソーラスの例を説明する図である。
図4
本発明の実施の形態における個人的コーパスの例を説明する図である。
図5
本発明の実施の形態における類似度の例を説明する図である。
図6
本発明の実施の形態における類似度尺度の例を説明する図である。
【符号の説明】
1 共起シソーラス間類似度測定装置
2インターネット網
3a〜3nホームページ
11 個人的コーパス構築部
12 共起シソーラス構築部
13 類似度尺度計算部
14 個人的コーパス記憶部
15 共起シソーラス記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • 株式会社ウフルの「 デバイス管理システム、デバイス管理方法、情報処理装置、及びプログラム」が 公開されました。( 2020/09/24)

    【課題】デバイスの信頼性を向上可能なデバイス管理システム、デバイス管理方法、情報処理装置、デバイス及びプログラムを提供する。【解決手段】デバイス管理システム1は、複数の情報処理装置2をネットワーク3で... 詳細

  • 本田技研工業株式会社の「 サーバ」が 公開されました。( 2020/09/24)

    【課題】車両の利用者が、該利用者の生活圏外の人であって前記利用者の属性に類似した属性を持つ地域人(地元民)が利用したPOI情報をリコメンドとして受けることができるサーバを提供する。【解決手段】サーバ1... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ