図面 (/)

技術 未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラム

出願人 富士通株式会社
発明者 丸橋弘治湯上伸弘
出願日 2014年3月7日 (6年0ヶ月経過) 出願番号 2014-045193
公開日 2015年9月28日 (4年5ヶ月経過) 公開番号 2015-170184
状態 特許登録済
技術分野 特定用途計算機 検索装置
主要キーワード 要因項目 可視化手法 読み出し専用半導体メモリ 各説明変数 代表サンプル 事前評価 アニメ映画 インターネット通信販売
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年9月28日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (18)

課題

複数のサンプルの説明変数を用いて、各サンプルに対して目的変数予測する予測問題において、新たに説明変数を加えることが好ましい場合に、新たに加える説明変数の示唆を与える。

解決手段

観測因子推定支援装置は、複数の説明変数のうちの一つを除いた事前評価値を用いて目的変数の値を予測して得られる第1の予測値を用いて効果スコアを算出し、目的変数の予測誤差を効果スコアの線形和として表すような第1の説明変数を選択し、追加候補説明変数に対する効果スコアに基づいてサンプルの一部を代表サンプルとして抽出し、代表サンプルに対する事前評価値に基づいて説明変数の一つを第2の説明変数を選択し、第2の説明変数に対する事前評価値と、第1の説明変数のサンプルに対する効果スコアの値を出力する。

概要

背景

近年、情報技術(IT)の発展によって、顧客データ蓄積とそれを用いた顧客の購買行動予測が可能となりつつある。たとえば、インターネット経由による顧客の購買情報を蓄積するなどして集められた購買履歴と、買った商品の評価等から、顧客ごと推奨する商品を提示するなどの技術が開発されている。

たとえば、特定の顧客に対して推奨する商品を決定する際には、サンプル、たとえば顧客ごとに、説明変数を用いて目的変数を予測することが広く行われている。つまり、目的変数とは、値を予測したい変数である。たとえば、インターネット通信販売イトにおいて、あるユーザの過去の購買した商品に対する評価を説明変数として、そのユーザが未だ購入していない商品に対する評価を予測することが考えられる。このとき、各ユーザがサンプルに対応する。このような予測を多くのユーザを対象に行うことによって、ある商品の売れ筋の予測をすることができる。

また、半導体製造工程において、歩留まりを向上させるため、製造段階でのできあがり値や素子の特性データ等の各種測定データに基づいて、歩留まりを低下させている要因項目をできるだけ速やかに見つけ出す技術が知られている(たとえば、特許文献1)。このような技術では、目的変数に関連付けられた複数の連続量の説明変数の中から目的変数に影響度の高い説明変数を選び出している。

また、データ分析では、例えば、各種商品を販売した場合のアンケートにより、どのような年齢性別職業等の人が購入したかといったデータをデータベースに蓄積して、それらのデータを分析平均値を取ったり、度数分布を求める等)をすることがある。そのような分析は一般的に、ある期間毎(たとえば、1ヶ月毎、6ヶ月毎、1年毎等)にそれまでの期間に蓄積されたデータについて行う。このようなデータ分析において、蓄積されたデータに対し新たなデータが追加されたとき、その内容を自動的に反映した分析、予測を行う技術が知られている(たとえば、特許文献2)。たとえば、予め複数の各事例についてそれぞれを構成する属性データ(氏名、年齢、性別、職業等のデータ)と結果を表す事例データ(ある商品について購入したか否かを表すデータ)とが組み合わされ、そのような組が多数、蓄積されているとする。そして、類似の事例データの分布を求め、その分布に基づく推論アルゴリズムを用いて、未知データの予測属性の予測を行う。さらに、真の値が通知された未知データを追加する場合は、その時点での事例データの一部の事例について、その一部の事例を除いた事例データから正確に予測できる事例を、その一部の事例を取り替えながら繰り返し調べることにより求め、蓄積された事例データから削除する。

また一般に、予測誤差の分布は、多数の説明変数からなる高次元空間上の分布である。この場合、予測誤差の特性を評価することは、高次元空間に分布する予測誤差の周辺分布を評価することである。

高次元空間において、周辺分布を算出するためには、高次元空間に分布するサンプルから、任意の条件に合致するサンプルを抽出することが望ましい。さらに、予測誤差の評価においては、ヒトが対話的に扱うこと扱うことが望ましい。このような機能を実現するものとして、OnLine Analytical Processing(OLAP)と呼ばれる機能が知られている(たとえば、非特許文献1)。

概要

複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、新たに説明変数を加えることが好ましい場合に、新たに加える説明変数の示唆を与える。未観測因子推定支援装置は、複数の説明変数のうちの一つを除いた事前評価値を用いて目的変数の値を予測して得られる第1の予測値を用いて効果スコアを算出し、目的変数の予測誤差を効果スコアの線形和として表すような第1の説明変数を選択し、追加候補説明変数に対する効果スコアに基づいてサンプルの一部を代表サンプルとして抽出し、代表サンプルに対する事前評価値に基づいて説明変数の一つを第2の説明変数を選択し、第2の説明変数に対する事前評価値と、第1の説明変数のサンプルに対する効果スコアの値を出力する。

目的

この場合、予測誤差の特性を評価することは、高次元空間に分布する予測誤差の周辺分布を評価することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置であって、前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択する第1の説明変数選択部と、前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択する第2の説明変数選択部と、前記第2の説明変数に対する前記評価値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、を含む未観測因子推定支援装置。

請求項2

前記第2の説明変数選択部は、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記1に記載の未観測因子推定支援装置。

請求項3

前記第2の説明変数選択部は、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、請求項2に記載の未観測因子推定支援装置。

請求項4

前記第2の説明変数選択部は、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、請求項1乃至3のいずれか一項に記載の未観測因子推定支援装置。

請求項5

前記第2の説明変数選択部は、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数に対し、前記分散が第2の値以下の前記説明変数の一つを前記第2の説明変数として選択する請求項4に記載の未観測因子推定支援装置。

請求項6

前記第1の説明変数選択部は、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、請求項1乃至5のいずれか一項に記載の未観測因子推定支援装置。

請求項7

前記第2の説明変数選択部は、前記誤差に対する、前記効果スコアによる重回帰分析情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、請求項1乃至6のいずれか一項に記載の未観測因子推定支援装置。

請求項8

前記第2の説明変数選択部が、所定の条件を満たす前記説明変数を見出せない場合、前記第1の説明変数選択部が、前記第1の説明変数を選択しなおす、請求項1乃至8のいずれか一項に記載の未観測因子推定支援装置。

請求項9

コンピュータによって実行される、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援方法であって、前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出することと、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択することと、前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択することと、前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力することと、を含む未観測因子推定支援方法。

請求項10

コンピュータに、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する処理を行わせる未観測因子推定支援プログラムであって、前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択し、前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択し、前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力すると、処理をコンピュータに実行させることを特徴とする未観測因子推定支援プログラム。

技術分野

0001

本発明は、未観測因子推定支援装置、未観測因子推定支援方法および未観測因子推定支援プログラムに関するものである。

背景技術

0002

近年、情報技術(IT)の発展によって、顧客データ蓄積とそれを用いた顧客の購買行動予測が可能となりつつある。たとえば、インターネット経由による顧客の購買情報を蓄積するなどして集められた購買履歴と、買った商品の評価等から、顧客ごと推奨する商品を提示するなどの技術が開発されている。

0003

たとえば、特定の顧客に対して推奨する商品を決定する際には、サンプル、たとえば顧客ごとに、説明変数を用いて目的変数を予測することが広く行われている。つまり、目的変数とは、値を予測したい変数である。たとえば、インターネット通信販売イトにおいて、あるユーザの過去の購買した商品に対する評価を説明変数として、そのユーザが未だ購入していない商品に対する評価を予測することが考えられる。このとき、各ユーザがサンプルに対応する。このような予測を多くのユーザを対象に行うことによって、ある商品の売れ筋の予測をすることができる。

0004

また、半導体製造工程において、歩留まりを向上させるため、製造段階でのできあがり値や素子の特性データ等の各種測定データに基づいて、歩留まりを低下させている要因項目をできるだけ速やかに見つけ出す技術が知られている(たとえば、特許文献1)。このような技術では、目的変数に関連付けられた複数の連続量の説明変数の中から目的変数に影響度の高い説明変数を選び出している。

0005

また、データ分析では、例えば、各種商品を販売した場合のアンケートにより、どのような年齢性別職業等の人が購入したかといったデータをデータベースに蓄積して、それらのデータを分析平均値を取ったり、度数分布を求める等)をすることがある。そのような分析は一般的に、ある期間毎(たとえば、1ヶ月毎、6ヶ月毎、1年毎等)にそれまでの期間に蓄積されたデータについて行う。このようなデータ分析において、蓄積されたデータに対し新たなデータが追加されたとき、その内容を自動的に反映した分析、予測を行う技術が知られている(たとえば、特許文献2)。たとえば、予め複数の各事例についてそれぞれを構成する属性データ(氏名、年齢、性別、職業等のデータ)と結果を表す事例データ(ある商品について購入したか否かを表すデータ)とが組み合わされ、そのような組が多数、蓄積されているとする。そして、類似の事例データの分布を求め、その分布に基づく推論アルゴリズムを用いて、未知データの予測属性の予測を行う。さらに、真の値が通知された未知データを追加する場合は、その時点での事例データの一部の事例について、その一部の事例を除いた事例データから正確に予測できる事例を、その一部の事例を取り替えながら繰り返し調べることにより求め、蓄積された事例データから削除する。

0006

また一般に、予測誤差の分布は、多数の説明変数からなる高次元空間上の分布である。この場合、予測誤差の特性を評価することは、高次元空間に分布する予測誤差の周辺分布を評価することである。

0007

高次元空間において、周辺分布を算出するためには、高次元空間に分布するサンプルから、任意の条件に合致するサンプルを抽出することが望ましい。さらに、予測誤差の評価においては、ヒトが対話的に扱うこと扱うことが望ましい。このような機能を実現するものとして、OnLine Analytical Processing(OLAP)と呼ばれる機能が知られている(たとえば、非特許文献1)。

0008

特開2007−329415号公報
特開2002−14814公報

先行技術

0009

平田他「高次元のモデルにおける誤差可視化手法について」DEIフォーラム2010 D10−4

発明が解決しようとする課題

0010

各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、説明変数の種類の数が不足しているために、目的変数の予測の精度が悪いと考えられる場合がある。つまり、予測の精度を向上させるために、新たに説明変数を加えることが好ましい場合がある。その場合、どのような説明変数を加えるかを自動的に決める手法がないという問題がある。

0011

よって、一つの側面として、本発明は、新たに説明変数を加えることが好ましい場合に、加えるに適切な説明変数を示唆し、予測の精度を向上させることを目的とする。

課題を解決するための手段

0012

複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置が提供される。未観測因子推定支援装置は、前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値の差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第3の予測値と、前記第1の予測値の差を前記複数の説明変数のうちの一つに対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択する第1の説明変数選択部と、前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択する第2の説明変数選択部と、前記第2の説明変数に対する前記評価値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、を含むことを特徴とする。

発明の効果

0013

各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、新たに説明変数を加えることが好ましい場合に、どのような説明変数を加えるかの示唆を与えることができ、予測精度を向上させることができる。

図面の簡単な説明

0014

映画評価の予測の例を示す図である。
映画評価の予測における予測誤差の例を示す図である。
映画評価の予測における比較例を説明するための図である。
映画評価の予測における比較例を説明するための図である。
実施形態における、追加する説明変数の選択を説明するための図である。
実施形態における、追加する説明変数の選択を説明するための図である。
実施形態における、追加する説明変数の選択を説明するための図である。
実施形態の未観測因子推定支援装置の機能ブロック図の例を示す図である。
効果スコアの算出について説明するための図である。
効果スコアの算出について説明するための図である。
効果スコアの算出について説明するための図である。
効果スコアの算出について説明するための図である。
効果スコアの算出について説明するための図である。
実施形態の未観測因子推定支援装置の構成の例を示す図である。
実施形態の未観測因子推定支援方法における処理の流れの例を示す図である。
図15追加候補説明変数選択処理の流れの例を示す図である。
図15の俯瞰用説明変数選択処理の流れの例を示す図である。

実施例

0015

以下、図面を参照して、まず、概略について説明し、その後、実施形態の未観測因子推定支援装置、方法およびプログラムについて説明する。
<概略>
以下では、映画評価の予測の例を用いて説明するが、もちろん、以下の実施形態は、映画評価の予測への適用のみに限定されない。各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題であれば、あらゆる問題に適用することが可能である。適用可能な分野には、商品の販売予測から、たとえば災害対策のための自然現象解析製品の製造工程の評価など、あらゆる分野が含まれ得る。

0016

まず、用語を定義する。
「予測問題」とは、各サンプルには目的変数と説明変数が付与されている場合、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する問題を指すことがある。

0017

「目的変数」とは、予測問題において、値を予測したい変数を指すことがある。
「説明変数」とは、予測問題において、目的変数の予測に用いることのできる変数を指すことがある。

0018

図1は、映画評価の予測の例を示す図である。
図1では、S1からS12までの12人のサンプル(評価者)の各々が、映画A(ドキュメンタリ映画)と映画B(有名アイドル主演映画)と映画C(アニメ映画)の3つの映画について既に評価をして評価値が決められているものとする。評価値は1から10の10段階で、評価の数字が大きくなるほど、そのサンプルの評価は高いものとする。

0019

ここで、映画Xに対する各サンプルの評価を予測したいとする。すなわち、説明変数として、映画A、B、Cの評価値を用いて、目的変数である映画Xの評価値を予測する。

0020

図2は、映画評価の予測における予測誤差の例を示す図である。
図2には、図1のような状況において、各サンプルの映画Xに対する実際の評価値が目的変数の欄に記載されている。また、図2の予測値の欄には、各サンプルの映画Xに対する評価値の予測値が記載されている。予測値は、説明変数の値から、所定の処理を行うことで得られるものとする。この所定の処理のアルゴリズムは、説明変数の値から予測値が算出されるものであれば良い。図2の予測誤差の欄には、各サンプルの映画Xに対する実際の評価値と各サンプルの映画Xに対する評価値の予測値の差である予測誤差の値が記載されている。

0021

予測誤差は、説明変数の値から予測値を得るためのアルゴリズムを改善することによって、減少する場合がある。しかしながら、説明変数が不足しているために、予測誤差を減少させることが難しいことも少なくない。たとえば、所定のサンプルに対する予測誤差を減らそうと試みると、別のサンプルに対する予測誤差が大きくなってしまい、全体として予測誤差の大きさが小さくならないというような状況である。

0022

以下では、説明変数が不足しているために、予測精度が悪いと考えられる場合がある場合に、不足している説明変数を推定することを考える。

0023

このとき、もっと予測精度を上げるためには、どのような説明変数を追加すればいいのかを予測する必要がある。

0024

さらに、追加する説明変数の候補として、充分な数の説明変数の候補を得ることが難しい場合がある。たとえば、映画評価に関して、追加すべき説明変数を探るために、まだ評価していない多くの映画の評価を評価者に依頼することも考えられる。しかし、それには、コストが掛かるなどの問題がある。そのような場合には、追加する説明変数の候補を絞り込んだ上で、候補を取得する必要がある。

0025

たとえば、アンケートに基づく顧客行動の予測では、映画館が、ある種の映画のキャンペーン対象として、その映画を好みそうな人に絞りこむために、リピート客へのアンケート(「以下の映画を5段階評価してください」など)を行いたい場合がある。この場合、顧客の負担を減らすため、できるだけ少ないアンケート項目に絞ることが好ましい。しかし、予測精度を上げる可能性のあるアンケート項目を網羅的に設定すると、顧客の負担が大きくなってしまう。このように、アンケートに基づく顧客行動の予測では、追加する説明変数の候補を絞り込む必要がある。

0026

また、医療関係の予測では次のような場合があり得る。ある会社の各従業員の1年後の血糖値を、それぞれの血液検査の各項目の値から予測するモデルを構築してみたが、予測精度が悪かったとする。予測精度を上げるために、抗体検査など、より高度な測定による他の数値を探したいが、そのために多くの検査幅広く実施することが好ましい。しかし、予測精度を上げる可能性のある生体内指標を網羅的に測定するには、コストがかかりすぎる。多くの検査を幅広く実施するにはコストが大きすぎるので、追加する説明変数の候補を絞り込む必要がある。

0027

図3は、映画評価の予測における比較例を説明するための図である。
図3は、OnLine Analytical Processing(OLAP)手法などを用いて、既存の説明変数に沿った形で予測誤差の分布を可視化することにより、予測誤差の特性を把握する例を概念的に示している。

0028

図3では、サンプルの映画C(アニメ映画)の評価値と、予測誤差の相関関係を可視化するために、横軸を映画Cの評価(評価値)、縦軸を目的変数の予測誤差の値として度数分布を作成している。このような度数分布を用いて、予測誤差の大きいサンプルの分布を既存の説明変数に沿って把握することができる。そして、それらのサンプルにおいて予測誤差を改善できると思われる説明変数を、追加する説明変数の候補を選択することできる。

0029

たとえば、アニメ映画の評価値が高い人において映画Xの予測誤差が大きいのなら、アニメ映画を高く評価する人の間における評価が映画Xの評価値と相関する映画が、追加する説明変数の候補とすることが好ましい。

0030

しかし、通常は2つ以上の説明変数の不足の影響が混在した予測誤差として観測されることを考慮すると、何個のどのような説明変数が不足しているか推定することができない。

0031

たとえば、アニメ映画の評価値が高い人と低い人の両方で、映画Xの予測誤差が大きい場合がある。アニメ映画の評価に関係ない映画を説明変数として追加すべきなのか、アニメ映画の評価が高い人と低い人のそれぞれで評価の別れる2つの映画を説明変数として追加すべきなのか、アニメ映画の評価値が高い人、中程度の人・低い人のそれぞれで評価の別れる3つの映画評価を追加すべきなのかなど、様々な選択肢が考えられてしまう。

0032

追加する説明変数の組み合わせのパタン無数に考えられるため、追加候補の説明変数を取得するコストが大きくなってしまう。

0033

図4は、映画評価の予測における比較例を説明するための図である。図4では、既に得ている説明変数に、1つまたは複数の説明変数を加える場合が示されている。

0034

たとえば、映画Dの評価値を説明変数として加えるパタン1、映画Eと映画Fの評価値を説明変数として加えるパタン2、映画Gと映画Hと映画Iの評価値を説明変数として加えるパタン3が示されている。

0035

ある映画に対する評価値のサンプル間のばらつきが大きい場合、ある映画では同一または類似の評価値であるサンプルに対し、それらサンプルの間で評価値が異なるような映画を説明変数として加えることにより、それらのサンプルの予測誤差の改善効果が期待できる。

0036

図4の例においける追加パタン1では、映画C(アニメ映画)の評価に関わらず予測誤差を改善する映画Dを追加する。

0037

追加パタン2では、映画C(アニメ映画)の評価値が1から2のサンプルの予測誤差を改善する映画Eと、映画C(アニメ映画)の評価値が9から10の人のサンプルの予測誤差を改善する映画Fを追加する。

0038

追加パタン3では、映画C(アニメ映画)の評価値が1のサンプルの予測誤差を改善する映画Gと、映画C(アニメ映画)の評価値が2のサンプルの予測誤差を改善する映画Hと、映画C(アニメ映画)の評価値が9から10 のサンプルの予測誤差を改善する映画Iを説明変数に追加する。

0039

このように、予測誤差の分布を把握できても、考えうる追加パタンは無数に存在するため、追加候補として多くの説明変数が必要となり、多大なコストを要することがある。
よって、追加候補として妥当な説明変数の個数と種類を、少なく絞り込む必要がある。

0040

以下で説明する実施形態は、次のような技術的特徴を有している。
(C1)既存の各説明変数の有無による予測誤差の絶対値の差を各説明変数の予測効果とし、予測効果の高いサンプル群が予測誤差の大きいサンプルの大部分をカバーできるような、少数の追加候補説明変数群を選ぶ。
(C2)追加候補説明変数群に対し、それらの予測効果が高いサンプル群が偏って存在する俯瞰用説明変数を選ぶ。
(C3)(C1)で選ばれた追加候補説明変数群を、俯瞰用説明変数が存在する説明変数の組み合わせの中から選ぶ。すなわち、予測効果の高いサンプル群の分布の特徴が、既存の説明変数で把握しやすいように説明変数を選ぶ。

0041

図5は、実施形態における、追加する説明変数の選択を説明するための図である。図5では、上記技術的特徴(C1)のように、予測効果が高いサンプル集合を併せたサンプル集合が、予測誤差が大きいサンプル集合とよく一致するように、追加候補説明変数群を選ぶ様子が示されている。

0042

図5に示されている表では、映画Aがない時の予測誤差と、映画Bがない時の予測誤差と、映画Cがない時の予測誤差が示されている。

0043

枠A1、枠A2で囲まれている部分は、予測誤差の絶対値が比較的大きな部分である。つまり、枠A1で囲まれている部分に対応するサンプルでは、映画Aに対する評価値を無視すると、映画Xに対する評価値の予測誤差が大きくなる。同様に、枠A2で囲まれている部分に対応するサンプルでは、映画Bに対する評価値を無視すると、映画Xに対する評価値の予測誤差が大きくなる。

0044

図5に示されている例では、枠A1で囲まれている部分と、枠A2で囲まれている部分を併せて得られる分布と、予測誤差の値の分布と類似する。

0045

図6は、実施形態における、追加する説明変数の選択を説明するための図であり、上記技術的特徴(C2)のように、選ばれた追加候補説明変数群(映画Aと映画B)の、予測効果が高いサンプルが、偏って分布する俯瞰用説明変数を選ぶ様子が示されている。

0046

図6では、映画Aの予測誤差が大きいサンプルS1、S4、S8、S2、S5、S10は、枠B1で囲まれている部分のように、映画Cの評価値が1から2に偏っている。また、映画Bの予測誤差が大きいサンプルS7、S9、S11、S3、S6、S12は、枠B2で囲まれている部分のように、映画Cの評価値が9から10に偏っている。

0047

図7は、実施形態における、追加する説明変数の選択を説明するための図であり、上記技術的特徴(C3)のように、技術的特徴(C1)に従って選ばれた追加候補説明変数群を、俯瞰用説明変数が存在する説明変数の組み合わせの中から選ぶ様子が示されている。図7では、枠A1で囲まれている部分と、枠A2で囲まれている部分を併せて得られる分布は、枠B3で囲まれているように、映画Cの評価値の分布をカバーする。よって、映画Cに類似する映画を説明変数に加えることが好ましいとの結論を得る。

0048

もし、技術的特徴(C1)に従って選んだ追加候補説明変数群に対して、俯瞰用説明変数が存在しなければ、技術的特徴(C1)の処理をやり直して、他の説明変数群を選んでも良い。

0049

<未観測因子推定支援装置>
図8は、実施形態の未観測因子推定支援装置の機能ブロック図の例を示す図である。

0050

図8に示されているように、未観測因子推定支援装置10は、入力部102、追加候補説明変数選択部104、俯瞰用説明変数選択部106、および出力部108を含む。

0051

入力部102は、外部からデータの入力を受ける。
追加候補説明変数選択部104は、入力部102で受けたデータに基づいて、追加候補説明変数群を選択する。

0052

より具体的には、追加候補説明変数選択部104は、各サンプルに対する既存の各説明変数の効果スコアを、その説明変数が無いときとあるときの予測誤差の絶対値の差により計算する。効果スコアは、たとえば、予測誤差の分布が正規分布仮定して、予測誤差の2乗の差であっても良い。

0053

図9は、効果スコアの算出について説明するための図である。
図9の表α1には、S1からS12までの12人のサンプル(評価者)の各々が、映画A(ドキュメンタリ映画)と映画B(有名アイドル主演映画)と映画C(アニメ映画)の3つの映画について既に評価をして評価値と、目的変数である映画Xの評価値、目的変数である映画Xの予測値、目的変数である映画Xの予測値と評価値の差である予測誤差、予測誤差の2乗誤差が記入されている。図9の表α2には、S1からS12までの12人のサンプル(評価者)の各々が、映画B(有名アイドル主演映画)と映画C(アニメ映画)の3つの映画について既に評価をして評価値と、目的変数である映画Xの評価値、目的変数である映画Xの予測値、目的変数である映画Xの予測値と評価値の差である予測誤差、予測誤差の2乗誤差が記入されている。つまり、表α2は、表α1から説明変数の一つ、映画A(ドキュメンタリ映画)を消去して得られる表である。予測値は、説明変数として、映画A、B、Cの評価値を用いて計算された、目的変数である映画Xの評価値の予測値である。

0054

表α1と表α2から、各サンプルに対する効果スコアを計算する。たとえば、映画Aの効果スコアとは、各サンプルに対して、映画Aの評価値の有無間の2乗誤差の差分であり、表α2に記載されている2乗誤差と、表α1に記載されている2乗誤差の差である。映画B、Cに対しても、同様に、効果スコアを計算する。

0055

また追加候補説明変数選択部104は、全ての既存の説明変数を用いたときの予測誤差の絶対値を、効果スコアの線形和で近似できるような、できるだけ少数の追加候補説明変数を選択する。例えば、あらゆる説明変数の組み合わせの中から、予測誤差の2乗を効果スコアによって近似したときのベイズ情報量基準が最も小さくなるような、説明変数の組み合わせを選んでも良い。

0056

図10は、全ての既存の説明変数を用いたときの予測誤差の絶対値を、効果スコアの線形和で近似できるような、できるだけ少数の追加候補説明変数を選択する様子を示している。

0057

図10において、表β1は、映画A、映画B、映画Cに対する効果スコアと、表α1の2乗誤差が記載されている。追加候補説明変数選択部104は、この2乗誤差を、できる限り近似するような、効果スコアの線形和を見つける。この場合、映画Aと映画Bの効果スコアの線形和として、効果スコアを表現する。図10の場合、2乗誤差(表β2)は、映画Aの効果スコア(表β3)の0.15倍と、映画Bの効果スコア(表β4)の0.85倍の和として表現される。追加候補説明変数選択部104は、2乗誤差に対する効果スコアによる重回帰分析の、ベイズ情報量基準が最小になる説明変数の組み合わせを選んでも良い。

0058

俯瞰用説明変数選択部106は、俯瞰用説明変数を選択する。
具体的には俯瞰用説明変数選択部106は、追加候補説明変数ごとに効果スコアが高い代表サンプルを選び、それらのサンプルの値(映画の評価)が偏っている説明変数の中から、全ての追加候補説明変数の代表サンプルの値が偏っている説明変数を、俯瞰用説明変数として選んでも良い。つまり俯瞰用説明変数選択部106は、追加候補説明変数ごとに、その効果スコアが高い代表サンプル同士を選び、それらのサンプルの値の分散が所定値以下となる説明変数を抽出した後に、全ての追加候補説明変数の前記の分散が所定値以下となる説明変数を、俯瞰用説明変数として選択しても良い。

0059

また、俯瞰用説明変数選択部106は、追加候補説明変数選択部104における追加候補説明変数群として、俯瞰用説明変数が選べる組み合わせに限定して選択する。俯瞰用説明変数選択部106は、俯瞰用の説明変数が選べなければ、この効果スコアの組み合わせを選ばなくても良い。この場合、俯瞰用説明変数選択部106は、追加候補説明変数の選択から再度実施するように、追加候補説明変数選択部104に指示しても良い。

0060

図11は、俯瞰用説明変数の選択について説明するための図である。
俯瞰用説明変数選択部106は、全ての追加候補説明変数の代表サンプルに対して分散が小さい説明変数を、俯瞰用説明変数として選択する。

0061

たとえば、各サンプルに対する映画Aの効果スコアが示されている表γ1では、枠D1で囲まれている、サンプルS1、S4、S8、S2、S5、S10が、効果スコアが大きな代表サンプルである。代表サンプルは、評価値の分布から求めても良いし、閾値との比較によって求めても良い。そして、俯瞰用説明変数選択部106は、映画A、B、Cのそれぞれに対して、代表サンプルサンプルS1、S4、S8、S2、S5、S10の評価値の分散を計算する。また、各サンプルに対する映画Bの効果スコアが示されている表γ2では、枠D2で囲まれている、サンプルS7、S9、S11、S3、S6、S12が、効果スコアが大きな代表サンプルである。そして、俯瞰用説明変数選択部106は、映画A、B、Cのそれぞれに対して、代表サンプルサンプルS7、S9、S11、S3、S6、S12の評価値の分散を計算する。

0062

そして俯瞰用説明変数選択部106は、全ての追加候補説明変数の代表サンプルに対して分散が小さい説明変数を、俯瞰用説明変数として選択する。たとえば、枠D1で囲まれている、サンプルS1、S4、S8、S2、S5、S10に対しては、映画Aに対する分散は14.3、映画Bに対する分散は0.3、映画Cに対する分散は0.3である。図11で枠E1、E2で囲ったように、映画B、Cに対する分散が小さい。よって、映画B、Cが俯瞰用説明変数として選択される。枠D2で囲まれている、サンプルS7、S9、S11、S3、S6、S12に対しては、映画Aに対する分散は0.3、映画Bに対する分散は10.7、映画Cに対する分散は0.3である。図11で枠E3、E4で囲ったように、映画A、Cに対する分散が小さい。よって、映画A、Cが俯瞰用説明変数として選択される。よって、映画Cは全てのサンプルに対して、分散が小さい。したがって俯瞰用説明変数選択部106は、映画Cを俯瞰用説明変数として選択する。

0063

図12は、俯瞰用説明変数が選択できなかった場合について説明する図である。たとえば、図12において、枠Fで囲った映画Cに対する効果スコアがないとする。すると、枠D1で囲まれている、サンプルS1、S4、S8、S2、S5、S10に対しては、分散が小さな映画の組を選択できない。また、枠D2で囲まれている、サンプルS7、S9、S11、S3、S6、S12に対しても、分散が小さな映画の組を選択できない。このような場合、俯瞰用説明変数選択部106は、追加候補説明変数の選択から再度実施するように、追加候補説明変数選択部104に指示しても良い。

0064

出力部108は、俯瞰用説明変数選択部106で得られた結果を出力する。
図13は、出力部108の出力の例を示す図である。図13では、追加候補説明変数の効果スコアと俯瞰用説明変数の値の関係の例が示されている。図13に示されている表の中で、三角印のプロットは、映画Aに対する評価の効果スコアを示している。また、図13に示されている表の中で、丸印のプロットは、映画Bに対する評価の効果スコアを示している。

0065

図13の枠G1で囲まれた部分から、映画Cの評価値が低いサンプルは、映画Aの効果スコアが高いことが分かる。よって、ユーザは映画Aに似た映画を加えれば、映画Cの評価が低い人の予測効果が向上するだろうことを予想することができる。

0066

また、図13の枠G2で囲まれた部分から、映画Cの評価値が高いサンプルは、映画Bの効果スコアが高いことが分かる。よって、ユーザは映画Bに似た映画を加えれば、映画Cの評価が高い人の予測効果が向上するだろうことを予想することができる。つまり、ユーザは、アニメ映画(映画C)の評価が低い人の予測改善が期待できるドキュメンタリ映画(映画A)のような映画と、アニメ映画(映画C)の評価が高い人の予測改善が期待できる有名アイドル主演映画(映画B)のような映画の予測を加えればよいことが分かる。

0067

上記のように、未観測因子推定支援装置10は、複数のサンプルと複数の説明変数に対して与えられる事前評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援することができる。

0068

追加候補説明変数選択部(第1の説明変数選択部)104は、評価値を用いて目的変数の値を予測して得られる第1の予測値と、目的変数の値との差を誤差として算出し、複数の説明変数のうちの一つを除いて目的変数の値を予測して得られる第2の予測値と、第1の予測値との差を除かれた一つの説明変数に対する効果スコアとして算出し、誤差を、効果スコアの線形和として表すような複数の説明変数の少なくとも一つを第1の説明変数として選択しても良い。ここで、目的変数の値は、サンプルによって事前に与えられた値であっても良い。

0069

俯瞰用説明変数選択部(第2の説明変数選択部)106は、第1の説明変数に対する効果スコアに基づいて複数のサンプルの一部を代表サンプルとして抽出し、代表サンプルの複数の説明変数の各々に対する評価値に基づいて複数の説明変数の一つを第2の説明変数として選択しても良い。

0070

出力部108は、俯瞰用説明変数(第2の説明変数)に対する評価値と、追加候補説明変数(第1の説明変数)のサンプルに対する効果スコアの値を出力しても良い。

0071

また、俯瞰用説明変数選択部(第2の説明変数選択部)106は、効果スコアの分布に基づいて、複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出しても良い。このとき俯瞰用説明変数選択部(第2の説明変数選択部)106は、所定の第1の値以上の効果スコアを与える複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出しても良い。所定の第1の値は、予め定められていても良いし、効果スコアの分布から求めても良い。

0072

また、俯瞰用説明変数選択部(第2の説明変数選択部)106は、代表サンプルに対する評価値の分布に基づいて、説明変数の一つを俯瞰用説明変数(第2の説明変数)として選択し得る。このとき俯瞰用説明変数選択部(第2の説明変数選択部)106は、前記代表サンプルに対する前記複数の説明変数の各々に対する評価値の分散を算出し、追加候補説明変数(第1の説明変数)の全てに対し、分散が所定の第2の値以下の前記説明変数の一つを俯瞰用説明変数(第2の説明変数)として選択しても良い。

0073

追加候補説明変数選択部(第1の説明変数選択部)104は、複数の説明変数の各々に対して、複数のサンプルの一部を複数の説明変数の一つに対する代表サンプルとして抽出し、複数の説明変数の一部に対する代表サンプルを併せて得られる集合の分布が、誤差の分布に類似するような前記複数の説明変数の一部を追加候補説明変数(第1の説明変数)として選択しても良い。

0074

また、俯瞰用説明変数選択部(第2の説明変数選択部)106は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる説明変数の組み合わせを追加候補説明変数(第1の説明変数)としても良い。また、前記分散が所定の値より小さい前記説明変数の一つを俯瞰用説明変数(第2の説明変数)としてしても良い。

0075

俯瞰用説明変数選択部(第2の説明変数選択部)106は、所定の条件を満たす説明変数を見出せない場合、追加候補説明変数選択部(第1の説明変数選択部)104が、前記第1の説明変数を選択しなおしても良い。

0076

このように、各サンプルに説明変数と目的変数が付与されており、複数のサンプルの説明変数を用いて、各サンプルに対して目的変数を予測する予測問題において、予測の精度を向上させるために、新たに説明変数を加えることが好ましい場合に、どのような説明変数を加えるかを自動的に決めることができる。

0077

図14は実施形態の未観測因子推定支援装置10の構成の例を示す図である。
このコンピュータ200は、Central Processing Unit(CPU)202、Read Only Memory(ROM)204、及びRandom Access Memory(RAM)206を備えている。コンピュータ500は、さらに、ハードディスク装置208、入力装置210、表示装置212、インターフェース装置214、及び記録媒体駆動装置216を備えている。なお、これらの構成要素はバスライン220を介して接続されており、CPU202の管理の下で各種のデータを相互に授受することができる。

0078

Central Processing Unit(CPU)202は、このコンピュータ200全体の動作を制御する演算処理装置であり、コンピュータ200の制御処理部として機能する。

0079

Read Only Memory(ROM)204は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。CPU202は、この基本制御プログラムをコンピュータ100の起動時に読み出して実行することにより、このコンピュータ200の各構成要素の動作制御が可能になる。

0080

Random Access Memory(RAM)206は、CPU202が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

0081

ハードディスク装置208は、CPU202によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。CPU202は、ハードディスク装置208に記憶されている所定の制御プログラムを読み出して実行することにより、後述する各種の制御処理を行えるようになる。

0082

入力装置210は、例えばマウス装置キーボード装置であり、情報処理装置のユーザにより操作されると、その操作内容対応付けられている各種情報の入力を取得し、取得した入力情報をCPU202に送付する。

0083

表示装置212は例えば液晶ディスプレイであり、CPU202から送付される表示データに応じて各種のテキストや画像を表示する。

0084

インターフェース装置214は、このコンピュータ200に接続される各種機器との間での各種情報の授受の管理を行う。

0085

記録媒体駆動装置216は、可搬型記録媒体218に記録されている各種の制御プログラムやデータの読み出しを行う装置である。CPU202は、可搬型記録媒体218に記録されている所定の制御プログラムを、記録媒体駆動装置216を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体218としては、例えばUSB(Universal Serial Bus)規格コネクタが備えられているフラッシュメモリCD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)などがある。

0086

このようなコンピュータ200を用いて未観測因子推定支援装置10を構成するには、例えば、上述の各処理部における処理をCPU202に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置208若しくは可搬型記録媒体218に予め格納しておく。そして、CPU202に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、情報処理装置が備えている機能がCPU202により提供される。

0087

<未観測因子推定支援処理
図15は、未観測因子推定支援処理の流れを示す図である。

0088

また、未観測因子推定支援装置10が図14に示されているような汎用コンピュータ200である場合には、下記の説明は、そのような処理を行う制御プログラムを定義する。すなわち、以下では、下記に説明する処理を汎用コンピュータに行わせる制御プログラムの説明でもある。

0089

処理が開始されるとS100で追加候補説明変数選択部104は、除外リスト空集合初期化する。

0090

次のS102で追加候補説明変数選択部104は、追加候補説明変数選択処理を行う。
追加候補説明変数選択処理について、図16を参照して説明する。

0091

追加候補説明変数選択処理が開始されると、S200で追加候補説明変数選択部104は、図9を参照して説明したように、各説明変数を除外した場合の予測誤差の2乗と、全ての説明変数を使った場合の予測誤差の2乗との差分を効果スコアとして計算する。

0092

次のS202で追加候補説明変数選択部104は、説明変数の組み合わせを1組選択する。このとき、除外リストが空集合ではない場合、除外リストにある組み合わせは除く。

0093

S202の次のS204で追加候補説明変数選択部104は、図10を参照して説明したように、全ての説明変数を使った場合の予測誤差の2乗を、選択した説明変数の組み合わせで重回帰分析し、そのベイズ情報量基準を算出する。本ステップの処理が終わると、処理はS206に進む。

0094

S206で追加候補説明変数選択部104は、全ての組み合わせを選んだかどうかを判定する。もし本判定の結果が“Yes”、すなわち全ての組み合わせを選んだ場合には、処理はS208に進む。また、もし本判定の結果が“No”、すなわち全ての組み合わせを選んでいない場合には、処理はS202に戻る。

0095

S208で追加候補説明変数選択部104は、ベイズ情報量基準が最小の説明変数の組み合わせを追加候補説明変数として選択する。本ステップの処理が終了すると、処理は図15に戻る。

0096

次のS104で俯瞰用説明変数選択部106は、俯瞰用説明変数選択処理を行う。
俯瞰用説明変数選択処理について、図17を参照して説明する。

0097

俯瞰用説明変数選択処理が開始されると、S300で俯瞰用説明変数選択部106は、俯瞰用説明変数集合を空集合に初期化する。

0098

次のS302で俯瞰用説明変数選択部106は、説明変数を1つ取得する。本ステップの処理が終了すると、処理はS304に進む。

0099

S304で俯瞰用説明変数選択部106は、追加候補説明変数を1つ取得する。本ステップの処理が終了すると、処理はS306に進む。

0100

S306で俯瞰用説明変数選択部106は、図11を参照して説明したように、取得した追加候補説明変数の効果スコアが所定値以上のサンプルの、取得した説明変数の値の分散を計算する。本ステップの処理が終了すると、処理はS308に進む。

0101

S308で俯瞰用説明変数選択部106は、全ての追加候補説明変数を採取したかを判定する。もし本判定の結果が“Yes”、すなわち全ての追加候補説明変数を採取した場合には、処理はS310に進む。また、もし本判定の結果が“No”、すなわち全ての追加候補説明変数を採取していない場合には、処理はS304に戻る。

0102

S310で俯瞰用説明変数選択部106は、全ての分散が所定値以下かどうかを判定する。もし本判定の結果が“Yes”、すなわち全ての分散が所定値以下である場合には、処理はS312に進む。また、もし本判定の結果が“No”、すなわち全ての分散が所定値以下ではない場合には、処理はS314に進む。

0103

S312で俯瞰用説明変数選択部106は、現在処理している追加候補説明変数を俯瞰用説明変数集合に追加する。本ステップの処理が終了すると、処理はS314に進む。

0104

S314で俯瞰用説明変数選択部106は、全ての説明変数を取得したかを判定する。もし本判定の結果が“Yes”、すなわち全ての説明変数を取得した場合には、処理は図15に戻る。また、もし本判定の結果が“No”、すなわち全ての追加候補説明変数を取得していない場合には、処理はS302に戻る。

0105

図15のS106で俯瞰用説明変数選択部106は、俯瞰用説明変数が選べたかを判定する。もし本判定の結果が“Yes”、すなわち俯瞰用説明変数が選べた場合には、処理はS110に進む。また、もし本判定の結果が“No”、すなわち俯瞰用説明変数が選べなかった場合には、処理はS108に進む。

0106

S108で俯瞰用説明変数選択部106は、追加候補説明変数選択部104に選択されている追加候補説明変数の組み合わせを除外リストに追加させる。本ステップの処理が終了すると、処理はS102に戻る。

0107

S110で出力部108は、結果を出力する。たとえば、出力部108は図13に示されているような追加候補説明変数の効果スコアと俯瞰用説明変数の値の関係を示す図をディスプレイに表示し得る。図13に示されている図は、プリンタからプリントアウトされても良い。

0108

上記のような未観測因子推定支援装置10、未観測因子推定支援処理を行うことによって、追加する説明変数として、予測効果の高いサンプルの分布が既存の説明変数に類似したものを想定することにより、追加すべき説明変数の種類と個数を利用者に提示することができる。

0109

たとえば、ユーザは、映画Xの評価の予測として、有名アイドル主演映画の評価が、特にアニメ映画の評価が高い人の予測に効くのであれば、他の有名アイドル主演映画の評価が、やはり同じ人々の予測に効くのであろうことを知ることができる。これにより、ユーザは、より少ない追加説明変数の候補に絞り込み、追加する説明変数候補を取得するコストを削減することができる。

0110

以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援装置であって、
前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択する第1の説明変数選択部と、
前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択する第2の説明変数選択部と、
前記第2の説明変数に対する前記評価値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力する出力部と、
を含む未観測因子推定支援装置。
(付記2)
前記第2の説明変数選択部は、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記1に記載の未観測因子推定支援装置。
(付記3)
前記第2の説明変数選択部は、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記2に記載の未観測因子推定支援装置。
(付記4)
前記第2の説明変数選択部は、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、付記1乃至3のいずれか一項に記載の未観測因子推定支援装置。
(付記5)
前記第2の説明変数選択部は、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数に対し、前記分散が第2の値以下の前記説明変数の一つを前記第2の説明変数として選択する付記4に記載の未観測因子推定支援装置。
(付記6)
前記第1の説明変数選択部は、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、付記1乃至5のいずれか一項に記載の未観測因子推定支援装置。
(付記7)
前記第2の説明変数選択部は、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、付記1乃至6のいずれか一項に記載の未観測因子推定支援装置。
(付記8)
前記第2の説明変数選択部が、所定の条件を満たす前記説明変数を見出せない場合、前記第1の説明変数選択部が、前記第1の説明変数を選択しなおす、付記1乃至8のいずれか一項に記載の未観測因子推定支援装置。
(付記9)
コンピュータによって実行される、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する未観測因子推定支援方法であって、
前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出することと、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択することと、
前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択することと、
前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力することと、
を含む未観測因子推定支援方法。
(付記10)
前記代表サンプルを抽出することは、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記9に記載の未観測因子推定支援方法。
(付記11)
前記代表サンプルを抽出することは、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記10に記載の未観測因子推定支援方法。
(付記12)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、付記9乃至11のいずれか一項に記載の未観測因子推定支援方法。
(付記13)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数の全てに対し、前記分散が所定の第2の値以下の前記説明変数の一つを第2の説明変数として選択する付記12に記載の未観測因子推定支援方法。
(付記14)
前記第1の説明変数を選択することは、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、付記10乃至14のいずれか一項に記載の未観測因子推定支援方法。
(付記15)
前記第2の説明変数を選択することは、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、付記9乃至14のいずれか一項に記載の未観測因子推定支援方法。
(付記16)
前記第2の説明変数を選択することが、所定の条件を満たす前記説明変数を見出せない場合、前記前記第1の説明変数を選択することで、前記第1の説明変数を選択しなおす、付記9乃至15のいずれか一項に記載の未観測因子推定支援方法。
(付記17)
コンピュータに、複数のサンプルと複数の説明変数に対して与えられる評価値を用いて、目的変数の値を予測するために、前記複数の説明変数に加える新たな説明変数の予測を支援する処理を行わせる未観測因子推定支援プログラムであって、
前記評価値を用いて前記目的変数の値を予測して得られる第1の予測値と、前記目的変数の値との差を誤差として算出し、
前記複数の説明変数のうちの一つを除いて前記目的変数の値を予測して得られる第2の予測値と、前記第1の予測値との差を前記除かれた一つの説明変数に対する効果スコアとして算出し、前記誤差を、前記効果スコアの線形和として表すような前記複数の説明変数の少なくとも一つを第1の説明変数として選択し、
前記第1の説明変数に対する前記効果スコアに基づいて前記複数のサンプルの一部を代表サンプルとして抽出し、前記代表サンプルの前記複数の説明変数の各々に対する前記評価値に基づいて前記複数の説明変数の一つを第2の説明変数として選択し、
前記第2の説明変数に対する前記第2の予測値と、前記第1の説明変数の前記サンプルに対する前記効果スコアの値を出力すると、
処理をコンピュータに実行させることを特徴とする未観測因子推定支援プログラム。
(付記18)
前記代表サンプルを抽出することは、前記効果スコアの分布に基づいて、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記17に記載の未観測因子推定支援プログラム。
(付記19)
前記代表サンプルを抽出することは、所定の第1の値以上の前記効果スコアを与える前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出する、付記18に記載の未観測因子推定支援プログラム。
(付記20)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記評価値の分布に基づいて、前記説明変数の一つを第2の説明変数として選択する、付記17乃至19のいずれか一項に記載の未観測因子推定支援プログラム。
(付記21)
前記第2の説明変数を選択することは、前記代表サンプルに対する前記複数の説明変数の各々に対する前記評価値の分散を算出し、前記第1の説明変数の全てに対し、前記分散が所定の第2の値以下の前記説明変数の一つを俯瞰用説明変数として選択する、付記20に記載の未観測因子推定支援プログラム。
(付記22)
前記第1の説明変数を選択することは、前記複数の説明変数の各々に対して、前記複数のサンプルの一部を前記複数の説明変数の一つに対する代表サンプルとして抽出し、前記複数の説明変数の一部に対する前記代表サンプルを併せて得られる集合の分布が、前記誤差の分布に類似するような前記複数の説明変数の一部を前記第1の説明変数として選択する、付記17乃至21のいずれか一項に記載の未観測因子推定支援プログラム。
(付記23)
前記第2の説明変数を選択することは、前記誤差に対する、前記効果スコアによる重回帰分析の情報量基準が最小になる前記説明変数の組み合わせを前記第1の説明変数として選択する、付記17乃至22のいずれか一項に記載の未観測因子推定支援プログラム。
(付記24)
前記第2の説明変数を選択することが、所定の条件を満たす前記説明変数を見出せない場合、前記前記第1の説明変数を選択することで、前記第1の説明変数を選択しなおす、付記17乃至23のいずれか一項に記載の未観測因子推定支援プログラム。

0111

10 未観測因子推定支援装置
102 入力部
104追加候補説明変数選択部
106 俯瞰用説明変数選択部
108 出力部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ