図面 (/)

技術 データ解析装置、方法、及びプログラム

出願人 日本電信電話株式会社
発明者 幸島匡宏松林達史澤田宏
出願日 2015年3月23日 (5年0ヶ月経過) 出願番号 2015-059912
公開日 2016年10月13日 (3年5ヶ月経過) 公開番号 2016-181040
状態 特許登録済
技術分野 複合演算
主要キーワード 最大変化幅 レーティング値 特徴行列 補助変数 非負値行列 分布傾向 特徴テーブル クラスタ抽出
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年10月13日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

より正確な欠損値予測クラスタ抽出が可能となる。

解決手段

スコアとなる要素を持つユーザ映画行列Xの推定値とのユークリッド距離、並びに計数データとなる要素を持つタグ映画行列Yの推定値との一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cを推定することにより、より正確な欠損値予測やクラスタ抽出が可能となる。

概要

背景

POS(Point of Sales)データに代表される購買履歴などの構造化されたデータのみならず、テキストデータや画像データなどの構造化されていないデータの多くも前処理によって行列形式により表現できることが知られている。これら行列表現されたデータ中に存在するクラスタ発見するための手法として、非負値行列分解(Non-negative Matrix Factorization, NMF)と呼ばれる手法の有用性がこれまで示されている(例えば非特許文献1を参照)。

NMFの適用により入力となる行列データはそれより低次ランクの行列の積に分解される。この各低次行列がそれぞれ各行、各列に対応する事物のクラスタへの寄与度を表しており, クラスタ発見が可能となる。したがって例えば映画レーティング履歴の適用によっておすすめ映画リストを作成したり、ニュース記事文書集合に対する適用から記事自動分類を行うなどが可能となる。上記のようなNMFの適用例を図12に示す。ユーザ映画行列X={xij}は行列中の第i行目に対応するユーザの第j列目に対応する映画に対するレーティング(評価値)がxijの値となるI行J列の行列である。ここでレーティング(評価値)の取りえる値は有限の範囲の正の値であり、例えば0以上5以下の値などである。レーティングの値が大きいほどその映画が高い評価をされたことを表す。したがって, ユーザ映画行列Xは行と列がそれぞれ特定のユーザと映画に対応していることになる。このユーザ映画行列にNMFを適用することで、

となるI行R列のユーザ特徴行列A={air}とJ行R列の映画特徴行列B={bjr}が求まる。ただし記号

で両者が類似していることを表し、記号の上付きの記号Tは行列の転置を表す。記号

の意味については後述する。NMFの結果から、ユーザ特徴行列Aのクラスタ1に対応する列に着目すると、ユーザ1とユーザ2、ユーザ3に対応する1行目と2行目、3行目の値が0より大きい値となっていることが分かる。これはユーザ1とユーザ2、ユーザ3がクラスタ1に所属することを示している。また映画特徴行列Bのクラスタ1に対応する行に着目すると、1列目の映画1と2列目の映画2、3列目の映画3という映画に該当する列の値が2列目のそれより大きい値となっていることが分かる。これは映画1と映画2、映画3が同じユーザに良い評価をされやすいというクラスタ1のもつ特徴を表しているといえる。したがって、この映画1と映画2、映画3という映画をまとめてクラスタ1の映画特徴と呼ぶ。同様に、ユーザ特徴行列Aのクラスタ1に所属するユーザのことをクラスタ1のユーザ特徴と呼ぶ。クラスタ1の映画特徴とユーザ特徴をまとめてクラスタ1の特徴と呼ぶこととする。このようにNMFの適用によって得られたユーザ特徴行列Aと映画特徴行列Bをもとに図13のようなクラスタ抽出が可能となる。

なお、クラスタの総数に相当する映画特徴行列のランク数は、解析する前に予め決定しておくものとする。一般的にランク数は、ユーザ数、総映画数よりは十分小さな値を用いる。

また、NMFはクラスタ抽出だけでなく欠損値補完にも利用できることが知られている。その例を図14に示す。図14のユーザ映画行列X={xij}の定義は図12と同じである。ただし、図12のユーザ映画行列との違いはユーザ1の映画3のレーティングを表す要素が欠損(×印で表示した要素で、データが存在しない要素)していることにある。このような場合であってもNMFは他の観測されている値をもとにユーザ特徴行列Aと映画特徴行列Bを求めることができる。ここで求めたユーザ特徴行列Aと映画特徴行列Bを利用することで元のユーザ映画行列X={xij}の欠損成分を補完したユーザ映画行列の推定値

が求まり、欠損していた要素の値も求めることができる。

ここで、記号

で表現した類似の尺度の意味について補足する。非特許文献1にも記述されているように、行列の類似の尺度には、ユークリッド距離DEUに基づくものや一般化カルバックライブラーダイバージェンス(KL距離)DKLにより定義される距離尺度などが用いられ、採用した尺度のもとで値が小さいほど両者が類似していることを表す。したがってNMFは採用した尺度を最小化する行列A, Bを求める手法として定式化される。

なお、行列Xと^Xのユークリッド距離DEUとKL距離DKLはそれぞれ次の(1)式、(2)式で定義される。

どの距離を利用するかは、データが持つ性質を考慮して決定される。例えばこのようなNMFを適用して分析を行う事象の要素として、前述した映画のレーティングのような実数値スコア)を持つ行列の場合には、ユークリッド距離が利用されている。また、行列の要素が文書中に含まれる単語の出現数やユーザの購入した商品の購入数のような離散値をもつ場合には、KL距離が利用されている。この使い分けは次のような知見に基づく。ユークリッド距離が採用される時は行列の各要素xijは平均

の正規分布

に従っていると仮定していることに相当し、KL距離が採用される時は行列の各要素xijはパラメタ

ポアソン分布PO(xij|λ)(平均^xij、分散^xij)に従っていると仮定していることに相当する。実数値の従う確率分布として正規分布頻度を表す離散値の従う確率分布としてポアソン分布が有用であることは広く認識された事実である。

概要

より正確な欠損値予測やクラスタ抽出が可能となる。スコアとなる要素を持つユーザ映画行列Xの推定値とのユークリッド距離、並びに計数データとなる要素を持つタグ映画行列Yの推定値との一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cを推定することにより、より正確な欠損値予測やクラスタ抽出が可能となる。

目的

本発明は、上記の点に鑑みなされたもので、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能なデータ解析装置、方法及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置であって、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する特徴行列推定部と、予め定められた反復終了条件満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を含むデータ解析装置。

請求項2

前記オブジェクトスコア情報行列Xの要素xijは非負値であり、前記オブジェクト計数情報行列Yの要素ykjは非負値であり、前記第1のオブジェクト特徴行列Aの要素airは非負値であり、前記第2のオブジェクト特徴行列Bの要素bjrは非負値であり、前記第3のオブジェクト特徴行列Cの要素ckrは非負値であり、前記特徴行列推定部は、前記目的関数を最小化するように、非負値分解により、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する請求項1記載のデータ解析装置。

請求項3

特徴行列推定部及び反復判定部を含み、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置におけるデータ解析方法であって、前記特徴行列推定部が、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定し、前記反復判定部が、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返すデータ解析方法。

請求項4

前記オブジェクトスコア情報行列Xの要素xijは非負値であり、前記オブジェクト計数情報行列Yの要素ykjは非負値であり、前記第1のオブジェクト特徴行列Aの要素airは非負値であり、前記第2のオブジェクト特徴行列Bの要素bjrは非負値であり、前記第3のオブジェクト特徴行列Cの要素ckrは非負値であり、前記特徴行列推定部によって推定することは、前記目的関数を最小化するように、非負値分解により、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する請求項3記載のデータ解析方法。

請求項5

ユーザi(1≦i≦I,Iは1以上の整数)による映画j(1≦j≦J,Jは1以上の整数)のレーティングを表すスコアとなる要素xijを持つI×Jのユーザ映画行列X、及びタグ情報k(1≦k≦K,Kは1以上の整数)が前記映画jに付与された数を表す計数データとなる要素ykjを持つK×Jのタグ映画行列Yを、前記ユーザiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rのユーザ特徴行列Aと、前記映画jが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの映画特徴行列Bと、前記タグ情報kが、前記クラスタrに所属することを表す要素ckrを持つK×Rのタグ特徴行列Cと、に分解するデータ解析装置であって、前記ユーザ映画行列X、前記タグ映画行列Y、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記ユーザ映画行列Xと、前記ユーザ特徴行列A及び前記映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びに前記タグ映画行列Yと、前記映画特徴行列B及び前記タグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cを推定する特徴行列推定部と、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を含むデータ解析装置。

請求項6

コンピュータを、請求項1、請求項2、又は請求項5項記載のデータ解析装置を構成する各部として機能させるためのプログラム

技術分野

0001

本発明は、データ解析装置、方法、及びプログラムに関する。

背景技術

0002

POS(Point of Sales)データに代表される購買履歴などの構造化されたデータのみならず、テキストデータや画像データなどの構造化されていないデータの多くも前処理によって行列形式により表現できることが知られている。これら行列表現されたデータ中に存在するクラスタ発見するための手法として、非負値行列分解(Non-negative Matrix Factorization, NMF)と呼ばれる手法の有用性がこれまで示されている(例えば非特許文献1を参照)。

0003

NMFの適用により入力となる行列データはそれより低次ランクの行列の積に分解される。この各低次行列がそれぞれ各行、各列に対応する事物のクラスタへの寄与度を表しており, クラスタ発見が可能となる。したがって例えば映画レーティング履歴の適用によっておすすめ映画リストを作成したり、ニュース記事文書集合に対する適用から記事自動分類を行うなどが可能となる。上記のようなNMFの適用例を図12に示す。ユーザ映画行列X={xij}は行列中の第i行目に対応するユーザの第j列目に対応する映画に対するレーティング(評価値)がxijの値となるI行J列の行列である。ここでレーティング(評価値)の取りえる値は有限の範囲の正の値であり、例えば0以上5以下の値などである。レーティングの値が大きいほどその映画が高い評価をされたことを表す。したがって, ユーザ映画行列Xは行と列がそれぞれ特定のユーザと映画に対応していることになる。このユーザ映画行列にNMFを適用することで、

0004

0005

となるI行R列のユーザ特徴行列A={air}とJ行R列の映画特徴行列B={bjr}が求まる。ただし記号

0006

0007

で両者が類似していることを表し、記号の上付きの記号Tは行列の転置を表す。記号

0008

0009

の意味については後述する。NMFの結果から、ユーザ特徴行列Aのクラスタ1に対応する列に着目すると、ユーザ1とユーザ2、ユーザ3に対応する1行目と2行目、3行目の値が0より大きい値となっていることが分かる。これはユーザ1とユーザ2、ユーザ3がクラスタ1に所属することを示している。また映画特徴行列Bのクラスタ1に対応する行に着目すると、1列目の映画1と2列目の映画2、3列目の映画3という映画に該当する列の値が2列目のそれより大きい値となっていることが分かる。これは映画1と映画2、映画3が同じユーザに良い評価をされやすいというクラスタ1のもつ特徴を表しているといえる。したがって、この映画1と映画2、映画3という映画をまとめてクラスタ1の映画特徴と呼ぶ。同様に、ユーザ特徴行列Aのクラスタ1に所属するユーザのことをクラスタ1のユーザ特徴と呼ぶ。クラスタ1の映画特徴とユーザ特徴をまとめてクラスタ1の特徴と呼ぶこととする。このようにNMFの適用によって得られたユーザ特徴行列Aと映画特徴行列Bをもとに図13のようなクラスタ抽出が可能となる。

0010

なお、クラスタの総数に相当する映画特徴行列のランク数は、解析する前に予め決定しておくものとする。一般的にランク数は、ユーザ数、総映画数よりは十分小さな値を用いる。

0011

また、NMFはクラスタ抽出だけでなく欠損値補完にも利用できることが知られている。その例を図14に示す。図14のユーザ映画行列X={xij}の定義は図12と同じである。ただし、図12のユーザ映画行列との違いはユーザ1の映画3のレーティングを表す要素が欠損(×印で表示した要素で、データが存在しない要素)していることにある。このような場合であってもNMFは他の観測されている値をもとにユーザ特徴行列Aと映画特徴行列Bを求めることができる。ここで求めたユーザ特徴行列Aと映画特徴行列Bを利用することで元のユーザ映画行列X={xij}の欠損成分を補完したユーザ映画行列の推定値

0012

0013

が求まり、欠損していた要素の値も求めることができる。

0014

ここで、記号

0015

0016

で表現した類似の尺度の意味について補足する。非特許文献1にも記述されているように、行列の類似の尺度には、ユークリッド距離DEUに基づくものや一般化カルバックライブラーダイバージェンス(KL距離)DKLにより定義される距離尺度などが用いられ、採用した尺度のもとで値が小さいほど両者が類似していることを表す。したがってNMFは採用した尺度を最小化する行列A, Bを求める手法として定式化される。

0017

なお、行列Xと^Xのユークリッド距離DEUとKL距離DKLはそれぞれ次の(1)式、(2)式で定義される。

0018

0019

どの距離を利用するかは、データが持つ性質を考慮して決定される。例えばこのようなNMFを適用して分析を行う事象の要素として、前述した映画のレーティングのような実数値スコア)を持つ行列の場合には、ユークリッド距離が利用されている。また、行列の要素が文書中に含まれる単語の出現数やユーザの購入した商品の購入数のような離散値をもつ場合には、KL距離が利用されている。この使い分けは次のような知見に基づく。ユークリッド距離が採用される時は行列の各要素xijは平均

0020

0021

の正規分布

0022

0023

に従っていると仮定していることに相当し、KL距離が採用される時は行列の各要素xijはパラメタ

0024

0025

ポアソン分布PO(xij|λ)(平均^xij、分散^xij)に従っていると仮定していることに相当する。実数値の従う確率分布として正規分布頻度を表す離散値の従う確率分布としてポアソン分布が有用であることは広く認識された事実である。

先行技術

0026

澤田宏、「非負値行列因子分解NMFの基礎とデータ/信号解析への応用」、電子情報通信学会誌、2012、Vol. 95, No. 9, p.829-833
K.Takeuchi、K.Ishiguro、A.Kimura、and H.Sawada、「Non-negative Multiple Matrix Factorization」、Proceedings of 23rd International Joint Conference on Artificial Intelligence (IJCAI2013)、2013、p.1713-1720

発明が解決しようとする課題

0027

本発明で考える問題は、単一の行列を解析する非特許文献1の技術では行うことができない、複数の行列を解析する、という問題である。先ほどと同じくユーザ映画行列をXと書き、さらにタグ映画行列をYという2つの行列からクラスタ抽出を行うという問題である。なお、タグ映画行列Yは要素ykjが映画jに付与されたタグkの数を表す行列である。各タグはその映画の情報(監督出演者)や、その映画に関する感想を表す単語などであり、同一タグでも複数回付与されうるものである。

0028

複数の行列を解析する技術としては、上記の非特許文献2の方法があげられる。類似の尺度としてKL距離を利用し、要素が離散の頻度の値をとる行列Xと行列Yを図1に示すように

0029

0030

という行列分解と、

0031

0032

という行列分解を行うことで図2に示すようにクラスタ抽出結果を得ることが可能である(C={ckr}はK行R列のカテゴリ特徴行列を表す)。しかしながら、この非特許文献2は行列X、Yの双方が離散の頻度の値であることから、X、Yの両方の行列分解を行う際の類似の尺度にKL距離を利用している。すなわち、

0033

0034

を最小化する行列A, B, Cを求めている(ただし、行列Yの推定値

0035

0036

と書いた)。本発明ではXはスコアの一例であるレーティングを表すユーザ映画行列、Yは離散値のタグ付与数を表すタグ映画行列であるから、Xの類似の尺度にKL距離を利用することは望ましくない。なお、スコアは、「レーティングやテスト点数のような範囲の定まった値」や「同難易度のテストを複数回受験した際の平均点など、一般に正規分布に従っていると仮定される値」である。

0037

望ましくない理由をさらに詳しく説明する。図3にそれぞれパラメタλ=1,3,5の時のポアソン分布の確率密度関数と平均μ=2,4標準偏差σ=0.5の正規分布の確率密度関数を示す。ポアソン分布はその性質から平均の値と分散の値が等しくなり、λ=5のように平均の値が大きい場合、ポアソン分布から得られる乱数のとりうる値の範囲は広く、2や3の値をとる確率も比較的大きい値となっている。これはつまりレーティングの値である行列xijのとる値をポアソン分布によってモデリングすると、同じく図3中の平均μ=4の正規分布のように安定して平均周辺の値をとるようにモデリングはできず、平均λの値が大きいほど実際に観測されるレーティングの値はばらつきやすいという直観に反したモデリングを行っていることになる。したがってXの類似の尺度にポアソン分布でモデリングしていることに相当するKL距離を利用することは望ましくない。

0038

本発明は、上記の点に鑑みなされたもので、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能なデータ解析装置、方法及びプログラムを提供することを目的とする。

課題を解決するための手段

0039

上記の目的を達成するために第1の発明に係るデータ解析装置は、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置であって、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定する特徴行列推定部と、予め定められた反復終了条件満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を含んで構成されている。

0040

第2の発明に係るデータ解析方法は、特徴行列推定部及び反復判定部を含み、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するデータ解析装置におけるデータ解析方法であって、前記特徴行列推定部が、前記オブジェクトスコア情報行列X、前記オブジェクト計数情報行列Y、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cに基づいて、前記オブジェクトスコア情報行列Xと、前記第1のオブジェクト特徴行列A及び前記第2のオブジェクト特徴行列Bに基づいて推定されるオブジェクトスコア情報行列^Xとのユークリッド距離、並びに前記オブジェクト計数情報行列Yと、前記第2のオブジェクト特徴行列B及び前記第3のオブジェクト特徴行列Cに基づいて推定されるオブジェクト計数情報行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記第1のオブジェクト特徴行列A、前記第2のオブジェクト特徴行列B、及び前記第3のオブジェクト特徴行列Cを推定し、前記反復判定部が、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す。

0041

第1の発明及び第2の発明によれば、オブジェクトスコア情報行列Xの推定値とのユークリッド距離、並びにオブジェクト計数情報行列Yの推定値との一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、第1のオブジェクト特徴行列A、第2のオブジェクト特徴行列B、及び第3のオブジェクト特徴行列Cを推定することにより、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。

0042

第3の発明に係るデータ解析装置は、ユーザi(1≦i≦I,Iは1以上の整数)による映画j(1≦j≦J,Jは1以上の整数)のレーティングを表すスコアとなる要素xijを持つI×Jのユーザ映画行列X、及びタグ情報k(1≦k≦K,Kは1以上の整数)が前記映画jに付与された数を表す計数データとなる要素ykjを持つK×Jのタグ映画行列Yを、前記ユーザiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rのユーザ特徴行列Aと、前記映画jが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの映画特徴行列Bと、前記タグ情報kが、前記クラスタrに所属することを表す要素ckrを持つK×Rのタグ特徴行列Cと、に分解するデータ解析装置であって、前記ユーザ映画行列X、前記タグ映画行列Y、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cに基づいて、前記ユーザ映画行列Xと、前記ユーザ特徴行列A及び前記映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びに前記タグ映画行列Yと、前記映画特徴行列B及び前記タグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、前記ユーザ特徴行列A、前記映画特徴行列B、及び前記タグ特徴行列Cを推定する特徴行列推定部と、予め定められた反復終了条件を満足するまで、前記特徴行列推定部による推定を繰り返す反復判定部と、を含んで構成されている。

0043

第3の発明によれば、スコアとなる要素を持つユーザ映画行列Xの推定値とのユークリッド距離、並びに計数データとなる要素を持つタグ映画行列Yの推定値との一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化するように、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cを推定することにより、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。

0044

第4の発明に係るプログラムは、コンピュータを、上記のデータ解析装置を構成する各部として機能させるためのプログラムである。

発明の効果

0045

以上説明したように、本発明のデータ解析装置、方法、及びプログラムによれば、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる、という効果が得られる。

図面の簡単な説明

0046

行列分解の例を示す概略図である。
行列分解を適用して得られるクラスタリング結果の例を示す図である。
ポアソン分布と正規分布の確率密度関数である。
本発明の一実施の形態におけるプログラムの概要動作のフローチャートである。
本発明の一実施の形態におけるプログラムの構成例である。
本発明の一実施の形態におけるユーザ映画情報テーブルの例である。
本発明の一実施の形態におけるタグ映画情報テーブルの例である。
本発明の一実施の形態におけるユーザ特徴テーブルの例である。
本発明の一実施の形態における映画特徴テーブルの例である。
本発明の一実施の形態におけるタグ特徴テーブルの例である。
本発明の一実施の形態におけるユーザ特徴テーブル、映画特徴テーブル、タグ特徴テーブル更新時のフローチャートである。
非負値行列分解(NMF)の適用例である。
非負値行列分解(NMF)を適用して得られるクラスタリング結果の例である。
非負値行列分解(NMF)を適用することによる欠損値補完の例である。

実施例

0047

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、非負値行列分解において、ユーザ映画行列及びタグ映画行列から各特徴行列を得ることができるデータ解析装置に、本発明を適用した場合を例に説明する。

0048

<本発明の実施の形態の概要>

0049

本発明の実施の形態では、上記の非特許文献2の方法と同じく

0050

0051

という行列分解形を考える。

0052

ただし、本発明の実施の形態ではそれぞれの類似の尺度にユークリッド距離とKL距離という異なる尺度を利用し、

0053

0054

を最小化する行列A, B, Cを求める。これによって、より正確な欠損値予測やクラスタ抽出を行うことが可能となり、図2に示すようなクラスタ結果を得ることが可能となる。

0055

まず、本発明の概要動作を説明する。

0056

図4は、本発明の一実施の形態におけるデータ解析装置の概要動作のフローチャートである。

0057

テップ1) ユーザ映画行列、タグ映画行列を入力する
ステップ2) 各特徴行列を推定する
ステップ3) 各特徴行列を出力する

0058

<データ解析装置100の構成>
図5に示すように、本発明の実施の形態に係るデータ解析装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述するデータ解析処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。データ解析装置100は、ユーザ映画情報処理部10、タグ映画情報処理部20、特徴行列推定部30、反復判定部32、特徴行列処理部40、記憶部50と、入出力部60と、を備えている。

0059

入出力部60は、外部装置200から出力されたユーザ映画行列及びタグ映画行列を受け付ける。また、入出力部60は、特徴行列処理部40による特徴行列の推定結果を、外部装置200へ出力する。

0060

記憶部50は、ユーザ映画情報テーブル51、タグ映画情報テーブル52、ユーザ特徴テーブル53、映画特徴テーブル54、タグ特徴テーブル55を有する。

0061

以下に各テーブルについて説明する。なお、テーブル形式のデータは行列形式にて表現できることから、以下では、各テーブルと各特徴行列を同一視し、区別せずに用いる。

0062

<ユーザ映画情報テーブル51>
ユーザ映画情報テーブル51は、図6に示すように、ユーザIDフィールド、映画IDフィールド、レーティングフィールドを有する。ユーザIDフィールドは、ユーザ映画情報処理部10により追加されたユーザを特定する識別子が設定される。映画IDフィールドは、ユーザ映画情報処理部10により追加された映画を特定する識別子が設定される。レーティングフィールドは、ユーザ映画情報処理部10により当該映画の当該ユーザのつけたレーティングを表すスコアである値が設定される。なお、レーティングの値には0または有限の範囲の正の値を設定できるが、負の数を設定することはできない。

0063

<タグ映画情報テーブル52>
タグ映画情報テーブル52は、図7に示すように、タグIDフィールド、映画IDフィールド、付与数数フィールドを有する。タグIDフィールドは、タグ映画情報処理部20により追加されたタグを特定する識別子が設定される。映画IDフィールドは、タグ映画情報処理部20により追加された映画を特定する識別子が設定される。付与数フィールドは、タグ映画情報処理部20により当該タグの当該映画における付与数が設定される。なお、付与数の値には離散値として0または正の整数値を設定できるが、負の数を設定することはできない。

0064

<ユーザ特徴テーブル53>
ユーザ特徴テーブル53は、図8に示すように、ユーザIDフィールドと、クラスタIDフィールドと、ユーザ特徴値フィールドを有する。ユーザIDフィールドには特徴行列推定部30によりユーザを特定する識別子が設定される。クラスタIDフィールドには、特徴行列推定部30によりクラスタを特定する識別子が設定される。ユーザ特徴値フィールドには、特徴行列推定部30により算出された当該ユーザの当該クラスタに所属することを表す特徴値が設定される。

0065

<映画特徴テーブル54>
映画特徴テーブル54は、図9に示すように、映画IDフィールドと、クラスタIDフィールドと、映画特徴値フィールドを有する。映画IDフィールドには特徴行列推定部30により商品を特定する識別子が設定される。クラスタIDフィールドには、特徴行列推定部30によりクラスタを特定する識別子が設定される。映画特徴値フィールドには、特徴行列推定部30により算出された当該映画の当該クラスタに所属することを表す特徴値が設定される。

0066

<タグ特徴テーブル55>
タグ特徴テーブル55は、図10に示すように、タグIDフィールドと、クラスタIDフィールドと、タグ特徴値フィールドを有する。タグIDフィールドには特徴行列推定部30によりタグを特定する識別子が設定される。クラスタIDフィールドには、特徴行列推定部30によりクラスタを特定する識別子が設定される。タグ特徴値フィールドには、特徴行列推定部30により算出された当該タグの当該クラスタに所属することを表す特徴値が設定される。

0067

上記の構成における動作を説明する。

0068

本実施の形態では、ユーザ映画行列、タグ映画行列を入力として特徴行列を推定し、特徴行列を出力することを考える。以下に具体的な動作を説明する。

0069

<ユーザ映画情報処理部10>
ユーザ映画情報処理部10は、入力されたユーザ映画行列に基づき、ユーザID毎および映画ID毎のレーティングをユーザ映画情報テーブル51に格納する。

0070

また、ユーザ映画情報テーブル51の更新時の処理を説明する。

0071

ユーザ映画情報処理部10によるユーザ映画情報更新のタイミングは、例えば、システム管理者が外部装置200から供給されるデータをもとに手動で管理できるようにしてもよいし、新たなレーティングが発生した場合に外部装置200が自動的に処理を起動するようにしてもよい。

0072

ユーザ映画情報テーブル51の更新時に、ユーザ映画情報処理部10は、ユーザ映画情報テーブル51に、追加されたユーザ映画、レーティングに応じて、ユーザIDフィールド、映画IDフィールド、レーティングフィールドの値を設定した行を挿入する。

0073

<タグ映画情報処理部20>
タグ映画情報処理部20は、入力されたタグ映画行列に基づき、ユーザID毎およびカテゴリID毎のタグ付与数をタグ映画情報テーブル52に格納する。

0074

また、タグ映画情報処理部20によるタグ情報更新時の処理について説明する。

0075

タグ映画情報処理部20によるタグ映画情報更新のタイミングは、例えば外部装置200から供給されるPOSデータをもとにシステム管理者が手動で管理できるようにしてもよいし、新たなレーティングが発生した場合に外部装置200から自動的に処理を起動するようにしてもよい。

0076

タグ情報更新時に、タグ映画情報処理部20は、タグ映画情報テーブル52に、追加されたタグ、映画、付与数に応じて、ユーザIDフィールド、タグIDフィールド、付与数フィールドの値を設定した行を挿入する。

0077

<特徴行列推定部30、反復判定部32>
特徴行列推定部30は、後述する方法で特徴行列を推定し、記憶部50のユーザ特徴テーブル53、映画特徴テーブル54、タグ特徴テーブル55に格納する。

0078

反復判定部32は、予め定められた反復終了条件を満足するまで、特徴行列推定部30による更新処理を繰り返す。

0079

図11に、特徴行列推定部30及び反復判定部32による特徴行列推定時の更新フローチャートを示す。

0080

ここで、ユーザ映画情報テーブル51中に存在する全データを

0081

0082

と書き、ユーザ映画行列Xを表す。タグ映画情報テーブル52中に存在する全データを

0083

0084

と書き、タグ映画行列Yを表す。ユーザ特徴テーブル53に格納されているユーザ特徴行列A、映画特徴テーブル54に格納されている映画特徴行列B、タグ特徴テーブル55に格納されているタグ特徴行列Cをそれぞれ

0085

0086

と書く。Iが全ユーザ数、Jが全商品数、Kが全タグ数を表す。iがユーザを特定する識別子、jが商品を特定する識別子、kがタグを特定する識別子、rがクラスタを特定する識別子に対応する。

0087

まず、ステップS410において、ユーザ特徴テーブル53に格納されているユーザ特徴行列A、映画特徴テーブル54に格納されている映画特徴行列B、及びタグ特徴テーブル55に格納されているタグ特徴行列Cをそれぞれ初期化する。同様に終了条件閾値ε、最大繰り返し回数を設定する。

0088

そして、ステップS420において、反復終了条件に用いる変数として特徴更新の最大変化幅を示す変数δを初期化する。

0089

ステップS430において、特徴行列推定部30は、ユーザ映画情報テーブル51に格納されたユーザ映画行列X、ユーザ特徴テーブル53に格納されたユーザ特徴行列A、及び映画特徴テーブル54に格納された映画特徴行列Bに基づいて、以下の(3)式に従いユーザ特徴行列Aの各要素airを更新し、ユーザ特徴テーブル53に格納する。

0090

0091

^xijはユーザ特徴行列A、映画特徴行列Bによるxijの推定値と見なせる。

0092

その後、ユーザ特徴テーブル53に格納されていた更新前のユーザ特徴行列Aの要素の値と更新後のユーザ特徴行列Aの要素の値の差の絶対値の最大値

0093

0094

がδより大きければ、

0095

0096

と更新する。なお記号「←」は右辺計算結果左辺の変数に代入する処理を意味する。なお、代入処理前のユーザ特徴行列Aの要素の値を

0097

0098

、代入処理後の値を

0099

0100

として記述した。

0101

ステップS440では、特徴行列推定部30は、ユーザ映画情報テーブル51に格納されたユーザ映画行列X、タグ映画情報テーブル52に格納されたタグ映画行列Y、ユーザ特徴テーブル53に格納されたユーザ特徴行列A、映画特徴テーブル54に格納された映画特徴行列B、及びタグ特徴テーブル55に格納されたタグ特徴行列Cに基づいて、以下の(4)式〜(6)式に従い、映画特徴行列Bの要素bjrを更新し、映画特徴テーブル54に格納する。

0102

0103

^ykjは映画特徴行列B、タグ特徴行列Cによるykjの推定値であると見なせる。

0104

その後、映画特徴テーブル54に格納されていた更新前の映画特徴行列Bの要素の値と更新後の映画特徴行列Bの要素の値の差の絶対値の最大値

0105

0106

がδより大きければ、

0107

0108

と更新する。代入処理前の映画特徴行列Bの要素の値を

0109

0110

、代入処理後の値を

0111

0112

として記述した。

0113

ステップS450において、特徴行列推定部30は、タグ映画情報テーブル52に格納されたタグ映画行列Y、映画特徴テーブル54に格納された映画特徴行列B、及びタグ特徴テーブル55に格納されたタグ特徴行列Cに基づいて、以下の(7)式に従い、タグ特徴行列Cの要素ckrを更新し、タグ特徴テーブル55に格納する。

0114

0115

その後、タグ特徴テーブル55に格納されていた更新前のタグ特徴行列Cの要素の値と更新後のタグ特徴行列Cの要素の値の差の絶対値の最大値

0116

0117

がδより大きければ、

0118

0119

と更新する。代入処理前のタグ特徴行列Cの要素の値を

0120

0121

、代入処理後の値を

0122

0123

として記述した。

0124

ステップS460において、反復判定部32は、計算繰り返し回数を更新する。

0125

ステップS470において、反復判定部32は、反復終了条件を満足するか否かを判定する。本実施の形態では、計算繰り返し回数があらかじめ定めた最大繰り返し数を超えるか、特徴更新による最大変化幅を表すδがあらかじめ定めた閾値εより小さければ、反復終了条件を満たすと判断し、処理ルーチンを終了する。そうでなければδ←0と更新した後ステップS420に戻る。

0126

ここで、上記(1)式〜(4)式の各更新式は全てのユーザi、商品j, タグkについて^xij=xij、^ykj=ykjが成立する時、左辺と右辺が一致し、更新の最大変化幅を示す変数δの値が閾値ε以下となるため、更新が停止することが分かる。

0127

また、あるユーザiについて、全てのi,jについて^xij<xijであるときに上記(3)式による更新を行うと、右辺の分子が右辺の分母より大きくなるために、aijを現在の値よりも大きくなるように更新することとなり、^xijの値が大きくなるように特徴aijを更新することになる。

0128

なお、上記(3)式〜(7)式の更新式は次に記すとおりに導出されている。

0129

本実施の形態における目的関数を(8)式に示す。

0130

0131

上記(8)式に示す、ユーザ映画行列Xと、ユーザ特徴行列A及び映画特徴行列Bに基づいて推定されるユーザ映画行列^Xとのユークリッド距離、並びにタグ映画行列Yと、映画特徴行列B及びタグ特徴行列Cに基づいて推定されるタグ映画行列^Yとの一般化カルバックライブラーダイバージェンス距離の和で表わされる目的関数を最小化する、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cの推定を目指して、上記(3)式〜(7)式の更新式は導出されている。

0132

導出には補助関数法と呼ばれる、新たに導入する補助変数を利用して定義できる上記(8)式の目的関数の上界を、最小化するパラメタ更新則を導くアプローチをとる。

0133

目的関数の第一項、第二項から推定する行列に依存しない項を除くと、第一項目は以下の(9)式、第二項目は(10)式を用いて表現される。

0134

0135

次に補助変数

0136

0137

を導入する。ただし、補助変数は全てのi, j, r についてsijr>0、全てのi, jについて

0138

0139

全てのk, j, r についてtkjr>0、全てのk, jについて

0140

0141

を満たす。

0142

この補助変数を用いて上記(9)式、(10)式の上界をそれぞれ導出すると(例えば非特許文献1を参照)、それぞれ以下の(11)式、(12)式のように表現される。

0143

0144

上記(11)式が上界であるのは明らかである。上記(12)式の導出にはJensenの不等式を用いている。

0145

これらの和を

0146

0147

と定義し、Lの最小化を各行列ごとに交互に行うことで更新則が求まる。明らかにユーザ特徴行列Aの最適化を行う際には

0148

0149

の最適化だけを考えればよく、またタグ特徴行列Cの最適化を行う際には

0150

0151

の最適化だけを考えればよいことが分かる。したがって、ユーザ特徴行列Aとタグ特徴行列Cの更新則はそれぞれユークリッド距離を用いたNMFとKL距離を用いたNMFによるパラメタ更新則と同じとなる。それゆえ本技術の既存技術との本質的な違いは映画特徴行列Bの更新則にある。Lを最小化する映画特徴行列Bを求めるために微分して0とおくと、(13)式が求まる。

0152

0153

これはbjrに関する2次方程式であるから、2次方程式の解の公式を用いて上記(13)式を満たすbjrの値が求まる(bjr≧0であるから解が一意に定まる)。この結果より、上記(4)式、(5)式に示す更新則が求まる。

0154

<特徴行列処理部40>
特徴行列処理部40は、以下に説明するように、ユーザ特徴テーブル54、映画特徴テーブル54、タグ特徴テーブル55を参照し、外部装置200からのリクエスト引数に対応する特徴を出力する。

0155

出力処理は、例えば、外部装置200から特徴出力のリクエストが入力された場合に実行すればよい。出力は全特徴を出力する場合には、ユーザ特徴テーブル53、映画特徴テーブル54、タグ特徴テーブル55の全ての行を出力すればよいし、クラスタの映画特徴のみを利用する場合には、例えばリクエストの引数をクラスタIDとして、映画特徴テーブル54から、該クラスタIDを持つ行の映画IDフィールド、映画特徴値フィールドを出力した後、映画特徴値フィールドの値の大きい順に映画ID10件を特定することでクラスタの映画特徴を求めることができる。

0156

以上説明したように、本発明の実施の形態に係るデータ解析装置によれば、スコアとなる要素を持つユーザ映画行列Xの推定値とのユークリッド距離、並びに計数データとなる要素を持つタグ映画行列Yの推定値との一般化KL距離の和で表わされる目的関数を最小化するように、ユーザ特徴行列A、映画特徴行列B、及びタグ特徴行列Cを推定することにより、より正確な欠損値予測やクラスタ抽出が可能となる。

0157

また、非負値行列分解において、ユーザ映画行列Xの行列分解における尺度にはユークリッド距離、タグ映画行列Yの行列分解における尺度にはKL距離を用いて、それぞれの行列X, Yの分解に共通の映画特徴行列Bを用いて行列分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。すなわち、非負値行列分解において、複数の行列データのそれぞれの行列において各要素の性質(離散値/連続値の違い、分布傾向の違い等)が異なることを認めたうえで、それぞれの行列のデータに適した距離尺度を利用して複数の行列の同時分解を行うことで、より正確な欠損値予測やクラスタ抽出が可能となる。

0158

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0159

例えば、上記の実施の形態では、ユーザ映画行列とタグ映画行列を表現した行列からクラスタを抽出する例を示しているが、この例に限定されることはない。第1のオブジェクトをユーザ以外のものとし、第2のオブジェクトを映画以外のものとし、第3のオブジェクトをタグ以外のものとし、第1のオブジェクトi(1≦i≦I,Iは1以上の整数)と第2のオブジェクトj(1≦j≦J,Jは1以上の整数)との関係の特徴量を表すスコアとなる要素xijを持つI×Jのオブジェクトスコア情報行列X、及び第3のオブジェクトk(1≦k≦K,Kは1以上の整数)と前記第2のオブジェクトjとの関係の特徴量を表す計数データとなる要素ykjを持つK×Jのオブジェクト計数情報行列Yを、前記第1のオブジェクトiが、クラスタr(1≦r≦R,Rは1以上の整数)に所属することを表す要素airを持つI×Rの第1のオブジェクト特徴行列Aと、前記第2のオブジェクトjが、前記クラスタrに所属することを表す要素bjrを持つJ×Rの第2のオブジェクト特徴行列Bと、前記第3のオブジェクトkが、前記クラスタrに所属することを表す要素ckrを持つK×Rの第3のオブジェクト特徴行列Cと、に分解するようにしてもよい。

0160

例えば、店舗と店舗の紹介文書中の単語を出現数を表現する行列、店舗のユーザによるレーティングを表現する行列の組など、ユーザ、店舗、タグのように1つ1つにID番号を付与して識別可能な項目ごとに、レーティング値のように項目間の関連性をスコアの要素で表す事物と、付与回数のように項目間の関連性を計数データで表す事物とが同時に存在し、それぞれの事物を行列形式としてデータで表現することが可能であるならば、あらゆるものが本装置を適用することによって共通の因子を抽出するクラスタ抽出が可能となる。

0161

また、入力となる行列が3つ以上存在する場合にも本発明による方法は適用可能である。

0162

また、上記の実施の形態で説明したデータ解析装置の各構成要素の動作をプログラムとして構築し、データ解析装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

0163

10 ユーザ映画情報処理部
20 タグ映画情報処理部
30特徴行列推定部
32 反復判定部
40 特徴行列処理部
50 記憶部
51 ユーザ映画情報テーブル
52 タグ映画情報テーブル
53ユーザ特徴テーブル
54 ユーザ特徴テーブル
54映画特徴テーブル
55 タグ特徴テーブル
60入出力部
100データ解析装置
200 外部装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ