図面 (/)

技術 有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体

出願人 株式会社ジェー・ジー・エス
発明者 臺場昭人伊藤哲
出願日 2003年7月16日 (17年5ヶ月経過) 出願番号 2003-275628
公開日 2005年2月10日 (15年10ヶ月経過) 公開番号 2005-038256
状態 未査定
技術分野 複合演算 特定用途計算機 検索装置
主要キーワード 各組間 各行列成分 棄却検定 判定用データベース 直行表 基本統計量 標本番号 気象学
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2005年2月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

複数の因子を含む標本を用いる多変量解析パターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置等を提供することを課題とする。

解決手段

本発明にかかる有効因子情報選択装置、有効因子情報選択方法プログラム、および、記録媒体は、標本識別情報標本属性情報、および、複数の因子情報を含む標本情報集合を取得し、取得された標本情報の集合から、任意に選択された2つの標本属性情報のうちの1つを持つ第1標本情報群、および、他の1つを持つ第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群の各因子情報平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群の各因子情報の平均情報および標準偏差情報に基づいて、判定式1から判定式4のうち少なくとも一つを適用し、判定条件を満たす有効な因子情報を選択する。

概要

背景

近年の技術の発達に伴い、様々な分野において、取得できるデータ量が飛躍的に増加している。そのため、どのようなデータを得るかはもちろんのこと、得た膨大なデータをどのように処理してどのような情報を引き出すかが各分野において大きな課題となっている。例えば、DNAマイクロアレイ等では、これまで生物学者が経験したことのない膨大な量のデータがもたらされており、これらの膨大な量のデータの保存と解析について、DNAマイクロアレイを用いる研究者は悩んでいる(例えば、非特許文献1参照。)。

ここで、特に問題となるのは因子の数が多い場合である。例えば、因子が2個の場合、両因子の相関があるかないか、そして、相関があるとすればどのような相関であるかを見ることはさほど困難ではない。具体的には両因子をxとyのグラフに置くだけで、相関の強弱等が直感的に見える場合も珍しくはない。一方、因子の数が多い場合、どの因子とどの因子が関連して動いているのか、そして、その関連はどのようなものであるか、また、関連のない因子はどれであるか等の問題を解決するためには、複数の因子に関するデータを基に各因子間相互関連分析する統計的手法である多変量解析が必要である。

従来の多変量解析について、以下に簡単に説明する。多変量解析はすでに確立された統計的手法であり、例えば、経済学気象学医学マーケティング等の分野で広く用いられている。また、多変量解析では、目的因子(「結果」;例えば広告費と売上の関係における売上)の有無、および、データ形態カテゴリーデータか、数値データか)によって、主成分分析重回帰分析クラスター分析等の手法が選択される(例えば、非特許文献2参照。)。

しかしながら、多変量解析を用いることによって、因子の数が多い場合の上述した問題がすべて解決されるわけではない。例えば、多変量解析では上述のように主成分分析、重回帰分析、クラスター分析等の手法が選択されるが、これらの従来の解析手法は全ての因子を一括して計算させるため、因子の数が100を超えるとデータ量や計算時間も膨大になり、データ処理が実質不可能である。

具体的には、マーケットリサーチにおける多変量解析などにおいて膨大な計算時間を要するという問題が挙げられる。マーケットリサーチでは主成分分析や重回帰分析などを用いた多変量解析が主に行われており、因子の数は数百〜数万に及ぶ。そして、因子全体から導出された主成分や個々の因子に割り当てた重みなどによって予測値が計算される。

しかし、ノイズとなる因子が含まれていると、導出された結果の誤差が大きくなり、目的機能を達成しないことが多くなる。また、予測値の計算は最小二乗法により連立方程式の解を導きだす方式で計算されるため、因子数が増加すると大規模行列計算を繰り返すことになり、計算量が累乗的に増加する。この結果、計算時間も膨大となり、例えば数日を要する場合が多い。

また、膨大な計算時間を要するという問題は、例えば、パターン認識においても同様である。パターン認識とは、観測したパターンを予め学習によって獲得された概念の一つに対応させることである。そして、パターン認識には、例えば、閾値による認識、ファジー推論ニューラルネットワークMTマハラノビスタグチ)システム等の従来技術が挙げられ、パターン認識は多変量解析と同様に多くの因子を取扱う

しかし、パターン認識においては、ノイズとなる因子が含まれている場合、または、標本の数が因子の数よりも少ない場合には、認識率が著しく低下することが問題となる。また、多くの因子を扱うことにより多変量解析と同様に計算時間が膨大となる。

また、多変量解析やパターン認識では、一般に因子数の2〜3倍の標本が必要とされており、これだけの標本が用意できない場合、「行列計算のノルムが算出できない」などの原因から、解析結果が安定しなかったり、解析結果を得ることができなかったりすることがある。したがって、因子数が増えると必要とされる標本数も増えるが、現実的には必要とされる標本数を揃えることが困難であることが多い。

具体的には、DNAマイクロアレイ解析において、DNAマイクロアレイやDNAチップから採取できる発現データは数百から数万種の発現情報に及ぶが、それに見合った標本数の収集は現実的ではない。

従来、DNAマイクロアレイにおける遺伝子発現データ解析方法は、DNAマイクロアレイの発達に伴った遺伝子の発現パターンの解析として開発されてきた。つまり、当初最も開発された酵母などのcDNA(complementary DNA:相補的DNA)のマイクロアレイデータを用いて、それぞれの遺伝子の発現パターンの特徴から、DNAマイクロアレイ上のすべての遺伝子を網羅的に分類することを目的とした遺伝子発現解析である(例えば、非特許文献3参照。)。

しかし、DNAマイクロアレイは一度に数百から数千、数万の遺伝子の発現を同時に測定できる技術であるが、一方で測定数の膨大さゆえに、必要な標本数を揃えたとしても、数万からなる因子について分析するには高速コンピュータを利用しても数日もの計算時間が必要となる。具体的には、このような網羅的発現解析においては、DNAマイクロアレイで得られたデータすべてをクラス分けし、即ちすべての遺伝子を有効な因子として扱い、その中に含まれる未知の遺伝子をクラスから機能推定するため、計算が煩雑になり、また、計算に必要な時間が膨大であった。

このように、多変量解析やパターン認識などにおいては、計算時間の膨大さなどを改善するために、複数の因子から有効な因子を選択して用いることが重要な課題となっている。

ここで、従来の有効な因子を選択する手法について説明する。

例えば、非特許文献2の「変数選択の方法」と題するセクションにおいて、「1.変数(因子)相互で高い相関のものの一方を落とす。」や、「2.将来設計のできない変数(因子)を落とす。」により、変数(因子)の数を10未満にするよう指示している。また、非特許文献2では変数(因子)の選択をクラスター分析により行う例が示されている。

また、パターン認識における有効な因子を選択する周知の手法としては、例えば、人間が重要と思われる因子の組合せを推定する手法、ランダムもしくは直行表などにより因子の組合せを数組作成し各組間の認識率を比較し有効と思われる因子セットを決定する手法、などが挙げられる。

また、多変量解析における有効な因子を選択する周知の手法として、「特徴化」という手法が使われることがある。「特徴化」とは、測定した値だけではノイズの影響などでデータの持つ特異性を検出できない場合に、それらの測定値になんらかの数値処理を行い、より特異性の高いパラメータを導出することである。そして、特徴化によって得られた特徴化パラメータは様々な解析や判別に利用される。

従来、特徴化において、全ての因子を同一のルールで加工する試みが多く行われている。例えば、非特許文献4の第3章「倍率変化」において、測定値が倍率比率)であるため、1より大きい比率の場合1〜∞の間の値をとり、1より小さい比率の場合0〜1の間の値をとるが、数列としてみれば非対称な関係であるため、これを補正する方法が紹介されている。また、例えば、測定誤差(ノイズの影響)を低減する試みとして、log値を採用した事例が、例えば非特許文献5などに紹介されている。さらに、例えば、同じ目的で測定データをカテゴリデータに変換する事例が非特許文献6などで紹介されている。

また、最近ではDNAマイクロアレイ解析の利用形態のひとつとして、臨床データと結びついた解析手法(癌の分類や薬剤感受性の分類)が報告されはじめてきており(例えば、非特許文献7参照。)、このなかで有効な遺伝子の選択が行われている。

非特許文献7では、まず、遺伝子についてグループ発見を、次元を削減しながら行い、ついで、患者について分類を行っている。具体的には、まず、有効な遺伝子の選択を主成分分析(PCA;Principal component analysis)とニューラルネットワークを用いて行いつつ、遺伝子のグルーピング並行して行って、DNAマイクロアレイ上の6567種類の遺伝子から96種類の遺伝子に絞り込んでいる。ついで、各患者の96種類の遺伝子のデータを定量化し、患者ごとの階層クラスタリングによるグルーピングを行っている。その結果、臨床的に分類の難しい癌を遺伝子発現に基づいて正確に分類することが可能となったことが、非特許文献7では報告されている。なお、一般にDNAマイクロアレイによる臨床データ解析では、上述した非特許文献7のように解析の目的のためにどの遺伝子を用いるかを予め決めず、まず数百あるいは数千の遺伝子の発現パターンを解析してどの遺伝子データを使うかの絞込みを行い、そのうえで個々の患者の遺伝子発現データを解析するということが通常行われる。

Nature Genetics Supplement, 481−489, vol. 32 Dec., 2002
菅民郎著、「多変量解析の実践」、現代数学
Eisen,et.al., Proc. Natl. Acd. Sci., 1998, 95, p.14863−14868
DNAマイクロアレイデータ解析入門」、土社
「A Gene−Expression signature as a predictor of survival in breast cancer」, The New England Journal of Medicine, Vol.347, No.25 − December 19,2002
「特徴的ルール生成を用いた遺伝子発現解析」、情報処理学会第65回全国大会−3T5B−5
J.Khan,et.al., Nature Medicine, 2001, Vol.7, Num.6, p.673−679

概要

複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置等を提供することを課題とする。 本発明にかかる有効因子情報選択装置、有効因子情報選択方法プログラム、および、記録媒体は、標本識別情報標本属性情報、および、複数の因子情報を含む標本情報集合を取得し、取得された標本情報の集合から、任意に選択された2つの標本属性情報のうちの1つを持つ第1標本情報群、および、他の1つを持つ第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群の各因子情報平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群の各因子情報の平均情報および標準偏差情報に基づいて、判定式1から判定式4のうち少なくとも一つを適用し、判定条件を満たす有効な因子情報を選択する。

目的

また、上述した「特徴化」という手法は、全測定値に同種の処理(ノイズの除去等)を施して、測定誤差の影響を低減する効果を目的としたものにすぎず、特定因子間にある微弱な情報から特徴化パラメータを導出し、それらによる解析や判別、すなわち有効な因子の導出と選択を可能とするものではない。

効果

実績

技術文献被引用数
3件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

標本一意識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段と、上記平均情報・標準偏差情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段と、「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」<「第1標本情報群における因子情報の平均情報」・・・(判定式1)「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」>「第1標本情報群における因子情報の平均情報」・・・(判定式2)「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」<「第2標本情報群における因子情報の平均情報」・・・(判定式3)「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」>「第2標本情報群における因子情報の平均情報」・・・(判定式4)を備えたことを特徴とする有効因子情報選択装置。

請求項2

上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段と、上記特徴化パラメータ情報算出手段にて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段と、をさらに備えたことを特徴とする請求項1に記載の有効因子情報選択装置。

請求項3

上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、を特徴とする請求項1または2に記載の有効因子情報選択装置。

請求項4

標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップと、「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」<「第1標本情報群における因子情報の平均情報」・・・(判定式1)「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」>「第1標本情報群における因子情報の平均情報」・・・(判定式2)「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」<「第2標本情報群における因子情報の平均情報」・・・(判定式3)「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」>「第2標本情報群における因子情報の平均情報」・・・(判定式4)を含むことを特徴とする有効因子情報選択方法。

請求項5

上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップと、をさらに含むことを特徴とする請求項4に記載の有効因子情報選択方法。

請求項6

上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、を特徴とする請求項4または5に記載の有効因子情報選択方法。

請求項7

標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップと、「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」<「第1標本情報群における因子情報の平均情報」・・・(判定式1)「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」>「第1標本情報群における因子情報の平均情報」・・・(判定式2)「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」<「第2標本情報群における因子情報の平均情報」・・・(判定式3)「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」>「第2標本情報群における因子情報の平均情報」・・・(判定式4)を含む有効因子情報選択方法をコンピュータに実行させることを特徴とするプログラム。

請求項8

上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップと、をさらに含むことを特徴とする請求項7に記載のプログラム。

請求項9

上記因子情報は遺伝子の発現に関する遺伝子発現情報であること、を特徴とする請求項7または8に記載のプログラム。

請求項10

上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体

技術分野

0001

本発明は、有効因子情報選択装置、有効因子情報選択方法プログラム、および、記録媒体に関し、特に、複数の因子を含む標本を用いる多変量解析パターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体に関するものである。

背景技術

0002

近年の技術の発達に伴い、様々な分野において、取得できるデータ量が飛躍的に増加している。そのため、どのようなデータを得るかはもちろんのこと、得た膨大なデータをどのように処理してどのような情報を引き出すかが各分野において大きな課題となっている。例えば、DNAマイクロアレイ等では、これまで生物学者が経験したことのない膨大な量のデータがもたらされており、これらの膨大な量のデータの保存と解析について、DNAマイクロアレイを用いる研究者は悩んでいる(例えば、非特許文献1参照。)。

0003

ここで、特に問題となるのは因子の数が多い場合である。例えば、因子が2個の場合、両因子の相関があるかないか、そして、相関があるとすればどのような相関であるかを見ることはさほど困難ではない。具体的には両因子をxとyのグラフに置くだけで、相関の強弱等が直感的に見える場合も珍しくはない。一方、因子の数が多い場合、どの因子とどの因子が関連して動いているのか、そして、その関連はどのようなものであるか、また、関連のない因子はどれであるか等の問題を解決するためには、複数の因子に関するデータを基に各因子間相互関連分析する統計的手法である多変量解析が必要である。

0004

従来の多変量解析について、以下に簡単に説明する。多変量解析はすでに確立された統計的手法であり、例えば、経済学気象学医学マーケティング等の分野で広く用いられている。また、多変量解析では、目的因子(「結果」;例えば広告費と売上の関係における売上)の有無、および、データ形態カテゴリーデータか、数値データか)によって、主成分分析重回帰分析クラスター分析等の手法が選択される(例えば、非特許文献2参照。)。

0005

しかしながら、多変量解析を用いることによって、因子の数が多い場合の上述した問題がすべて解決されるわけではない。例えば、多変量解析では上述のように主成分分析、重回帰分析、クラスター分析等の手法が選択されるが、これらの従来の解析手法は全ての因子を一括して計算させるため、因子の数が100を超えるとデータ量や計算時間も膨大になり、データ処理が実質不可能である。

0006

具体的には、マーケットリサーチにおける多変量解析などにおいて膨大な計算時間を要するという問題が挙げられる。マーケットリサーチでは主成分分析や重回帰分析などを用いた多変量解析が主に行われており、因子の数は数百〜数万に及ぶ。そして、因子全体から導出された主成分や個々の因子に割り当てた重みなどによって予測値が計算される。

0007

しかし、ノイズとなる因子が含まれていると、導出された結果の誤差が大きくなり、目的機能を達成しないことが多くなる。また、予測値の計算は最小二乗法により連立方程式の解を導きだす方式で計算されるため、因子数が増加すると大規模行列計算を繰り返すことになり、計算量が累乗的に増加する。この結果、計算時間も膨大となり、例えば数日を要する場合が多い。

0008

また、膨大な計算時間を要するという問題は、例えば、パターン認識においても同様である。パターン認識とは、観測したパターンを予め学習によって獲得された概念の一つに対応させることである。そして、パターン認識には、例えば、閾値による認識、ファジー推論ニューラルネットワークMTマハラノビスタグチ)システム等の従来技術が挙げられ、パターン認識は多変量解析と同様に多くの因子を取扱う

0009

しかし、パターン認識においては、ノイズとなる因子が含まれている場合、または、標本の数が因子の数よりも少ない場合には、認識率が著しく低下することが問題となる。また、多くの因子を扱うことにより多変量解析と同様に計算時間が膨大となる。

0010

また、多変量解析やパターン認識では、一般に因子数の2〜3倍の標本が必要とされており、これだけの標本が用意できない場合、「行列計算のノルムが算出できない」などの原因から、解析結果が安定しなかったり、解析結果を得ることができなかったりすることがある。したがって、因子数が増えると必要とされる標本数も増えるが、現実的には必要とされる標本数を揃えることが困難であることが多い。

0011

具体的には、DNAマイクロアレイ解析において、DNAマイクロアレイやDNAチップから採取できる発現データは数百から数万種の発現情報に及ぶが、それに見合った標本数の収集は現実的ではない。

0012

従来、DNAマイクロアレイにおける遺伝子発現データ解析方法は、DNAマイクロアレイの発達に伴った遺伝子の発現パターンの解析として開発されてきた。つまり、当初最も開発された酵母などのcDNA(complementary DNA:相補的DNA)のマイクロアレイデータを用いて、それぞれの遺伝子の発現パターンの特徴から、DNAマイクロアレイ上のすべての遺伝子を網羅的に分類することを目的とした遺伝子発現解析である(例えば、非特許文献3参照。)。

0013

しかし、DNAマイクロアレイは一度に数百から数千、数万の遺伝子の発現を同時に測定できる技術であるが、一方で測定数の膨大さゆえに、必要な標本数を揃えたとしても、数万からなる因子について分析するには高速コンピュータを利用しても数日もの計算時間が必要となる。具体的には、このような網羅的発現解析においては、DNAマイクロアレイで得られたデータすべてをクラス分けし、即ちすべての遺伝子を有効な因子として扱い、その中に含まれる未知の遺伝子をクラスから機能推定するため、計算が煩雑になり、また、計算に必要な時間が膨大であった。

0014

このように、多変量解析やパターン認識などにおいては、計算時間の膨大さなどを改善するために、複数の因子から有効な因子を選択して用いることが重要な課題となっている。

0015

ここで、従来の有効な因子を選択する手法について説明する。

0016

例えば、非特許文献2の「変数選択の方法」と題するセクションにおいて、「1.変数(因子)相互で高い相関のものの一方を落とす。」や、「2.将来設計のできない変数(因子)を落とす。」により、変数(因子)の数を10未満にするよう指示している。また、非特許文献2では変数(因子)の選択をクラスター分析により行う例が示されている。

0017

また、パターン認識における有効な因子を選択する周知の手法としては、例えば、人間が重要と思われる因子の組合せを推定する手法、ランダムもしくは直行表などにより因子の組合せを数組作成し各組間の認識率を比較し有効と思われる因子セットを決定する手法、などが挙げられる。

0018

また、多変量解析における有効な因子を選択する周知の手法として、「特徴化」という手法が使われることがある。「特徴化」とは、測定した値だけではノイズの影響などでデータの持つ特異性を検出できない場合に、それらの測定値になんらかの数値処理を行い、より特異性の高いパラメータを導出することである。そして、特徴化によって得られた特徴化パラメータは様々な解析や判別に利用される。

0019

従来、特徴化において、全ての因子を同一のルールで加工する試みが多く行われている。例えば、非特許文献4の第3章「倍率変化」において、測定値が倍率比率)であるため、1より大きい比率の場合1〜∞の間の値をとり、1より小さい比率の場合0〜1の間の値をとるが、数列としてみれば非対称な関係であるため、これを補正する方法が紹介されている。また、例えば、測定誤差(ノイズの影響)を低減する試みとして、log値を採用した事例が、例えば非特許文献5などに紹介されている。さらに、例えば、同じ目的で測定データをカテゴリデータに変換する事例が非特許文献6などで紹介されている。

0020

また、最近ではDNAマイクロアレイ解析の利用形態のひとつとして、臨床データと結びついた解析手法(癌の分類や薬剤感受性の分類)が報告されはじめてきており(例えば、非特許文献7参照。)、このなかで有効な遺伝子の選択が行われている。

0021

非特許文献7では、まず、遺伝子についてグループ発見を、次元を削減しながら行い、ついで、患者について分類を行っている。具体的には、まず、有効な遺伝子の選択を主成分分析(PCA;Principal component analysis)とニューラルネットワークを用いて行いつつ、遺伝子のグルーピング並行して行って、DNAマイクロアレイ上の6567種類の遺伝子から96種類の遺伝子に絞り込んでいる。ついで、各患者の96種類の遺伝子のデータを定量化し、患者ごとの階層クラスタリングによるグルーピングを行っている。その結果、臨床的に分類の難しい癌を遺伝子発現に基づいて正確に分類することが可能となったことが、非特許文献7では報告されている。なお、一般にDNAマイクロアレイによる臨床データ解析では、上述した非特許文献7のように解析の目的のためにどの遺伝子を用いるかを予め決めず、まず数百あるいは数千の遺伝子の発現パターンを解析してどの遺伝子データを使うかの絞込みを行い、そのうえで個々の患者の遺伝子発現データを解析するということが通常行われる。

0022

Nature Genetics Supplement, 481−489, vol. 32 Dec., 2002
菅民郎著、「多変量解析の実践」、現代数学
Eisen,et.al., Proc. Natl. Acd. Sci., 1998, 95, p.14863−14868
DNAマイクロアレイデータ解析入門」、土社
「A Gene−Expression signature as a predictor of survival in breast cancer」, The New England Journal of Medicine, Vol.347, No.25 − December 19,2002
「特徴的ルール生成を用いた遺伝子発現解析」、情報処理学会第65回全国大会−3T5B−5
J.Khan,et.al., Nature Medicine, 2001, Vol.7, Num.6, p.673−679

発明が解決しようとする課題

0023

しかしながら、多変量解析やパターン認識において、計算機上で自動的に有効な因子を選択する効果的な方法は確立しておらず、最終的には人間の経験やカンによる因子選択が行われている、という問題点がある。以下、本問題点について具体的に説明する。

0024

従来技術による人間の経験やカンによる因子選択では、選択の根拠を示すことが難しいうえ、重要な因子を取りこぼす可能性も高い。また、有意義因子群を有効に決定できないために、解析結果の安定性や作業の効率を犠牲にしつつ、すべての因子を使って判別分析やパターン認識を行っているケースが多くある。

0025

また、パターン認識における従来の有効な因子を選択する手法では有効な因子を取りこぼす事も多く、また、因子をセットとして扱うため各因子の重要度も判明しない。さらに、これら手法においても、因子数が100を超えると、認識率の高い因子セットを決定するのが困難であり、現状の一般的な計算機資源では実質的に不可能である。

0026

また、非特許文献2に示されているクラスター分析で有効な因子を選択する手法は、例えばDNAマイクロアレイのように変数(因子)が数千にも及ぶような解析では非現実的なものである。また、非特許文献4の第5章「クラスター解析」では「階層型クラスター化法がうまくいかないのは、遺伝子の数が非常に多い(数千以上に及ぶ)場合である。この問題を軽減する一つの方法はどの実験条件によっても有意な変化を示さない遺伝子を解析対象から除くことである。」と述べており、そもそも変数(因子)の選択のためにクラスター分析を行っているはずのものが、いつのまにか問題が出発地点にまで戻ってしまっている。

0027

また、上述した「特徴化」という手法は、全測定値に同種の処理(ノイズの除去等)を施して、測定誤差の影響を低減する効果を目的としたものにすぎず、特定因子間にある微弱な情報から特徴化パラメータを導出し、それらによる解析や判別、すなわち有効な因子の導出と選択を可能とするものではない。

0028

また、非特許文献7における手法は遺伝子の絞込み(選択)に膨大な計算時間を要する。また、一般的に、遺伝子の絞りこみは、絞り込んだ遺伝子項目を用いた患者のグルーピングの結果によって検証することになるのだが、実際にその検証と並行して絞込みを行うことは、一般の解析方法では膨大な時間を要するため現実的ではない。

0029

このように、従来のシステム等は数々の問題点を有しており、その結果、多変量解析システムおよびパターン認識システム利用者および管理者のいずれにとっても、利便性が悪く、また、利用効率が悪いものであった。

0030

本発明は上記問題点に鑑みてなされたもので、複数の因子を含む標本を用いる多変量解析やパターン認識などに有効な因子を選択し、因子の数を効果的に絞り込むことができ、特に、疾病に関連する遺伝子群薬効に関連する因子(遺伝子群)を容易に抽出することができる、有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することを目的としている。

課題を解決するための手段

0031

このような目的を達成するために、請求項1に記載の有効因子情報選択装置は、標本を一意識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段と、上記平均情報・標準偏差情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段とを備えたことを特徴とする。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

0032

この装置によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間乖離を判定する判定式1から判定式4(判定式において、nは分布バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

0033

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。

0034

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数集団から特定の群を判別させるために有効な因子情報を選択することができる。

0035

また、本発明に記載の有効因子情報選択装置は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択装置において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得手段と、上記標本情報集合取得手段にて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択手段と、上記標本情報群選択手段にて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出手段と、上記分散共分散行列情報・相関行列情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群の上記分散共分散行列情報または上記相行列情報各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択手段とを備えたことを特徴とする。

0036

この装置によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

0037

すなわち、分散分析マハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。

0038

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。

0039

また、この装置によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。

0040

また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出手段と、上記変動係数情報算出手段にて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択手段とをさらに備えたことを特徴とする。

0041

この装置によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。

0042

すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この装置はこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この装置によるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

0043

また、この装置によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。

0044

また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行手段と、上記棄却検定実行手段にて実行された上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択手段とをさらに備えたことを特徴とする。

0045

この装置によれば、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。

0046

また、請求項2に記載の有効因子情報選択装置は、請求項1に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段と、上記特徴化パラメータ情報算出手段にて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段とをさらに備えたことを特徴とする。

0047

この装置によれば、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる。

0048

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この装置では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

0049

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この装置は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

0050

つまり、この装置によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。

0051

また、本発明に記載の有効因子情報選択装置は、上記に記載の有効因子情報選択装置において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第1標本情報群および上記第2標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出手段をさらに備えたことを特徴とする。

0052

この装置によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。

0053

また、請求項3に記載の有効因子情報選択装置は、請求項1または2に記載の有効因子情報選択装置において、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。

0054

この装置によれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。

0055

また、この装置によれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。

0056

また、この装置によれば、同定された遺伝子を使って、例えば、治療方法薬剤などの選択を容易に行うことができる。

0057

また、本発明は有効因子情報選択方法に関するものであり、請求項4に記載の有効因子情報選択方法は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップとを含むことを特徴とする。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

0058

この方法によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

0059

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。

0060

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。

0061

また、本発明に記載の有効因子情報選択方法は、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法において、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出ステップと、上記分散共分散行列情報・相関行列情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択ステップとを含むことを特徴とする。

0062

この方法によれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

0063

すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。

0064

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。

0065

また、この方法によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。

0066

また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出ステップと、上記変動係数情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

0067

この方法によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。

0068

すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この方法はこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この方法によるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

0069

また、この方法によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。

0070

また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行ステップと、上記棄却検定実行ステップにて実行された上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択ステップとをさらに含むことを特徴とする。

0071

この方法によれば、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。

0072

また、請求項5に記載の有効因子情報選択方法は、請求項4に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

0073

この方法によれば、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる。

0074

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この方法では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

0075

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この方法は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

0076

つまり、この方法によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。

0077

また、本発明に記載の有効因子情報選択方法は、上記に記載の有効因子情報選択方法において、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第1標本情報群および上記第2標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出ステップをさらに含むことを特徴とする。

0078

この方法によれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。

0079

また、請求項6に記載の有効因子情報選択方法は、請求項4または5に記載の有効因子情報選択方法において、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。

0080

この方法によれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。

0081

また、この方法によれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。

0082

また、この方法によれば、同定された遺伝子を使って、例えば、治療方法や薬剤などの選択を容易に行うことができる。

0083

また、本発明はプログラムに関するものであり、請求項7に記載の有効因子情報選択方法をコンピュータに実行させることを特徴とするプログラムは、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出ステップと、上記平均情報・標準偏差情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報に基づいて、下記に示す判定式1から判定式4(判定式において、nは正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす上記因子情報を抽出することにより、上記任意に選択された2つの上記標本属性情報について多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択ステップとを含むことを特徴とする。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

0084

このプログラムによれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択するので、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

0085

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる。

0086

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる。

0087

また、本発明に記載のプログラムは、標本を一意に識別するための標本識別情報、上記標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報を用いて多変量解析またはパターン認識を行う際に有効な上記因子情報を選択する有効因子情報選択方法をコンピュータに実行させるプログラムにおいて、上記標本情報の集合である標本情報集合を取得する標本情報集合取得ステップと、上記標本情報集合取得ステップにて取得された上記標本情報集合から、任意に選択された2つの上記標本属性情報のうちの1つの上記標本属性情報を持つ上記標本情報の群である第1標本情報群、および、他の1つの上記標本属性情報を持つ上記標本情報の群である第2標本情報群を選択する標本情報群選択ステップと、上記標本情報群選択ステップにて選択された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出ステップと、上記分散共分散行列情報・相関行列情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群の上記分散共分散行列情報または上記相関行列情報の各行列成分情報の差に基づいて、上記有効な上記因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択ステップとを含むことを特徴とする。

0088

このプログラムによれば、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得し、取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択するので、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる。

0089

すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。

0090

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる。

0091

また、このプログラムによれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる。

0092

また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報について、変動係数情報を算出する変動係数情報算出ステップと、上記変動係数情報算出ステップにて算出された上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記変動係数情報に基づいて、上記有効な上記因子情報を選択する変動係数情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

0093

このプログラムによれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択するので、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる。

0094

すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。このプログラムはこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、このプログラムによるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

0095

また、このプログラムによれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる。

0096

また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対して棄却検定を実行する棄却検定実行ステップと、上記棄却検定実行ステップにて実行された上記第1標本情報群および上記第2標本情報群に含まれる各上記因子情報に対する上記棄却検定の検定値に基づいて、上記有効な上記因子情報を選択する棄却検定値基準有効因子情報選択ステップとをさらに含むことを特徴とする。

0097

このプログラムによれば、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択するので、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる。

0098

また、請求項8に記載のプログラムは、請求項7に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群の上記標本情報ごとに、任意に選択された2つの上記有効な上記因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出ステップと、上記特徴化パラメータ情報算出ステップにて算出された上記特徴化パラメータ情報に基づいて、上記有効な上記因子情報を選択する特徴化パラメータ情報基準有効因子情報選択ステップとをさらに含むことを特徴とする。

0099

このプログラムによれば、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて、有効な因子情報を選択するので、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる。

0100

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、このプログラムでは、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

0101

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、このプログラムは、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

0102

つまり、このプログラムによれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる。

0103

また、本発明に記載のプログラムは、上記に記載のプログラムにおいて、上記第1標本情報群および上記第2標本情報群のそれぞれに含まれる各上記因子情報の上記平均情報および上記標準偏差情報、ならびに、上記第1標本情報群および上記第2標本情報群のそれぞれにおける上記分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出ステップをさらに含むことを特徴とする。

0104

このプログラムによれば、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するので、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる。

0105

また、請求項9に記載のプログラムは、請求項7または8に記載のプログラムにおいて、上記因子情報は遺伝子の発現に関する遺伝子発現情報であることを特徴とする。

0106

このプログラムによれば、因子情報は遺伝子の発現に関する遺伝子発現情報であるので、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる。

0107

また、このプログラムによれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる。

0108

また、このプログラムによれば、同定された遺伝子を使って、例えば、治療プログラムや薬剤などの選択を容易に行うことができる。

0109

また、本発明は記録媒体に関するものであり、請求項10に記載の記録媒体は、上記請求項7から9のいずれか一つに記載されたプログラムを記録したことを特徴とする。

0110

この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項7から9のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。

発明の効果

0111

本発明によれば、基本統計量(平均、標準偏差など)を用いて、因子情報の分布が群間で明確に異なる因子情報を、多変量解析やパターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0112

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間において因子情報の分布の明らかな違いを示す有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0113

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間において因子情報の分布の明らかな違いを示す、不特定多数の集団から特定の群を判別させるために有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0114

また、本発明によれば、群間で因子情報間の分散、共分散、相関等の性質が明らかに異なる因子情報を、多変量解析、および、パターン認識において解析精度や認識率の高い有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0115

すなわち、分散分析やマハラノビス距離などを用いた分析においてはデータ間の相関関係を用いて計算を行い判定式に入力するため、因子間の相関関係の大小が判別の結果に大きく影響している。従って、本発明においては、同一因子数からなる群間のそれぞれで分散・共分散行列、もしくは、相関行列を求め、群間における各因子間の差を求め、その差の比較することによって、有効な因子情報を効果的に選択する。また、これを前提として、各群の分散・共分散もしくは分散・共分散行列を標準偏差で割った相関行列などを求め、その群間における各要素間の差を求め、その差が大きなものについて有効な因子とする。

0116

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が2つある場合(例えば、薬剤投与効果の有るグループと、無いグループの2つの標本情報群がある場合など)には、対象となる機能をもつ標本情報群(例えば、薬剤投与効果が有るグループ)とそれ以外の標本情報群(例えば、薬剤投与効果が無いグループ)を選択して、2つの標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大きさを数値化することにより、有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0117

また、本発明によれば、標本情報において同一の属性を持つ標本情報群が複数ある場合には、複数の標本情報群から任意に2つの標本情報群を選択して、任意の2つの標本情報群間の違いを示す有効な因子情報を選択することにより、各標本情報群間の因子情報間の分散、共分散、相関等の性質の違いの大小に基づいて、有効な因子情報を選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0118

また、本発明によれば、変動係数情報に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、各因子情報の変動係数情報に基づいてより詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0119

すなわち、データの分析において最も重要なことの1つは分析の元となる因子の測定精度である。この測定精度が悪い場合、つまり、当該因子のバラツキが大きい場合は、正確な分析ができなくなる。この発明はこの点に着目し、各群の因子毎にCV値(変動係数)を算出し、変動の少ない、つまり、変動係数の小さい因子情報を有効な因子情報として選択する。また、この発明によるCV値による探索や、棄却検定など他の手法を適宜組み合わせることにより、より効果的な因子選択を行うことが可能となる。

0120

また、本発明によれば、因子情報の取りうる値の幅が狭い、つまり、測定精度の高い因子情報を、各因子情報の変動係数情報に基づいてより有効な因子情報として短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0121

また、本発明によれば、棄却検定の検定値に基づく有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、群間の有意差を検定する周知手法である棄却検定の検定値に基づいてより詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0122

また、本発明によれば、特徴化パラメータ情報による有効な因子情報の選択をさらに行うことにより、複数の因子情報を含む標本情報から短時間かつ効果的に有効な因子情報を、特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)より詳細に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0123

すなわち、一般に多変量解析やパターン認識に用いる因子が取る値の分布が明確に異なる場合は良好な解析結果を得やすいが、逆に、群間において因子が取る値の分布が似ている場合は当該因子から有意差を検出することができず、良好な解析結果を得ることができない場合がある。そこで、この発明では、有意差を検出することのできない因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択する。

0124

また、相関関係の強い因子同士であっても因子が取る値の変動幅が大きい場合、分散も大きくなり、揺らぎの大きい因子となってしまうため、解析や判別において良い結果を得られない場合がある。そこで、この発明は、当該揺らぎの大きい因子である場合には、当該因子に基づいて算出された特徴化パラメータ情報に基づいて、複数の因子間の差や比を求めることにより、群間の違いを明確化し、有効な因子情報を選択することができる。

0125

つまり、本発明によれば、因子情報が取りうる値の分布が似ている因子情報同士の場合、または、因子情報が取りうる値の変動幅が大きく、相関関係の強い因子情報同士の場合には、特徴化パラメータ情報を算出しその複数の因子間の差や比を求めることにより、有効な因子情報を短時間かつ効果的に選択することができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0126

また、本発明によれば、当該マハラノビス距離算出用パラメータ情報を用いて、例えば、パターン認識や、多変量解析の一つである判別分析などを効率よく行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0127

また、本発明によれば、DNA発現解析を行うための有効な遺伝子情報の選択を短時間かつ効果的に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0128

また、本発明によれば、DNAマイクロアレイで得られた遺伝子発現情報に基づいて、例えば、特定の疾病に関連する遺伝子群や、薬効に関連する遺伝子群などの同定を容易に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

0129

さらに、本発明によれば、同定された遺伝子を使って、例えば、治療プログラムや薬剤などの選択を容易に行うことができる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体を提供することができる。

発明を実施するための最良の形態

0130

以下に、本発明にかかる有効因子情報選択装置、有効因子情報選択方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

0131

[本発明の概要
以下、本発明の概要について図1および図2を用いて説明し、その後、本発明の構成および処理等について詳細に説明する。図1は本発明の第1の基本原理を示す原理構成図である。

0132

まず、標本を一意に識別するための標本識別情報(例えば、標本番号や標本名など)、標本の属性を示す標本属性情報(例えば、疾患の名称、疾患の治療効果(例えば、インターフェロン投与効果の有無など)など)、および、複数の因子情報(例えば、各遺伝子の発現量に関する情報など)を含む標本情報の集合である標本情報集合(例えば、DNAマイクロアレイにより取得された発現情報データ集合など)を取得する(ステップS1−1)。

0133

ついで、ステップS1−1にて取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群および他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択する(ステップS1−2)。なお、図1に示す例においては、標本属性情報が、インターフェロン投与効果に関して“無効”の属性を持つ標本情報の群を第1標本情報群として選択し、また、標本属性情報が“著効”の属性を持つ標本情報の群を第2標本情報群として選択している。

0134

ここで、選択された第1標本情報群および第2標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、当該定性的な情報である因子情報を既存の数量化手法(例えば、数量化I類、数量化II類、数量化III類、数量
化IV類など)に基づいて数値化してもよい。

0135

ついで、ステップS1−2にて選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出する(ステップS1−3)。

0136

さらに、ステップS1−3にて算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択する(ステップS1−4)。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

0137

これにより、図1に示す例においては、任意に選択された2つの標本属性情報(”無効”と”著効”)について、多変量解析またはパターン認識を行う際に有効な因子情報(遺伝子1の発現量、遺伝子3の発現量など)を選択することができる。

0138

つぎに、本発明の第2の基本原理について、図2を参照して説明する。図2は本発明の第2の基本原理を示す原理構成図である。

0139

まず、標本を一意に識別するための標本識別情報(例えば、標本番号や標本名など)、標本の属性を示す標本属性情報(例えば、疾患の名称、疾患の治療効果(例えば、インターフェロン投与効果の有無など)など)、および、複数の因子情報(例えば、各遺伝子の発現量に関する情報など)を含む標本情報の集合である標本情報集合(例えば、DNAマイクロアレイにより取得された発現情報データ集合など)を取得する(ステップS2−1)。

0140

ついで、ステップS2−1にて取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群および他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択する(ステップS2−2)。なお、図2に示す例においては、標本属性情報が、インターフェロン投与効果に関して“無効”の属性を持つ標本情報の群を第1標本情報群として選択し、また、標本属性情報が“著効”の属性を持つ標本情報の群を第2標本情報群として選択している。

0141

ここで、選択された第1標本情報群および第2標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、当該定性的な情報である因子情報を既存の数量化手法(例えば、数量化I類、数量化II類、数量化III類、数量
化IV類など)に基づいて数値化してもよい。

0142

ついで、ステップS2−2にて第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出する(ステップS2−3)。なお、図2に示す例においては、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、相関行列情報を算出した結果を示している。

0143

さらに、ステップS2−3にて算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択する(例えば、当該差を2で割った値が設定された値(例えば、±0.5など)以上である因子情報を有効な因子情報として選択する)(ステップS2−4)。

0144

これにより、図2に示す例においては、任意に選択された2つの標本属性情報(”無効”と”著効”)について、多変量解析またはパターン認識を行う際に有効な因子情報(遺伝子1の発現量、遺伝子3の発現量など)を選択することができる。

0145

ここで、上述したステップS1−3およびステップS1−4に示す有効な因子情報を選択する手法、ならびに、ステップS2−3およびステップS2−4に示す有効な因子情報を選択する手法と、以下の(1)〜(3)に示す各有効な因子情報を選択する手法とを任意に組み合わせて、有効な因子情報を選択してもよい。

0146

(1)第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する(例えば、両群の変動係数情報が設定された値(例えば、0.1など)未満である因子情報を有効な因子情報として選択する)。

0147

(2)第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定(例えば、F検定、T検定などの群間の差を検定する手法)を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する(例えば、棄却検定の検定値が設定された有意水準(例えば0.05など)未満である因子情報を有効な因子情報として選択する)。

0148

(3)第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)、有効な因子情報を選択する。

0149

また、上述した本発明の第1の基本原理および第2の基本原理において、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出してもよい。

0150

ここで、上述した本発明の第1の基本原理および第2の基本原理においては、因子情報を遺伝子の発現に関する情報(遺伝子発現情報)とした場合を一例として説明した。これにより、本発明は、DNAマイクロアレイなどにより取得した複数の遺伝子発現情報からDNA発現解析に有効な遺伝子情報を選択することができる。また、因子情報はこの場合に限定されるものではなく、本発明はあらゆる分野の因子の選択に適用することができる。

0151

また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、MTシステムなどの既存のパターン認識を行うことにより、精度の高い認識を実現させることができる。

0152

また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、DNAマイクロアレイで得られた遺伝子発現情報をもとに特定の疾病に関連する因子(遺伝子)群を同定したり、薬効に関連する因子(遺伝子)群を同定したりすることが容易に行うことができる。

0153

また、同定された遺伝子群を使って、例えば、治療方法の選択、薬剤の選択などを行うことができる。

0154

また、本発明により、目的とする群が2つの場合(例えば、薬剤投与効果がある群とない群)は、対象となる機能(例えば、薬剤投与効果あり)を持つ群とそれ以外の群に分けることができ、群間において有効な因子情報(遺伝子発現情報)を選択することができる。

0155

また、本発明により、標本情報集合を複数の群に分割して、各群間において、違いを示す因子情報(遺伝子発現情報)を抽出することができる。

0156

システム構成
まず、本システムの構成について説明する。図24は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、有効因子情報選択装置100と、配列情報や発現情報等に関する外部データベースホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。

0157

図24においてネットワーク300は、有効因子情報選択装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。

0158

図24において外部システム200は、ネットワーク300を介して、有効因子情報選択装置100と相互に接続され、利用者に対して配列情報や発現情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。

0159

ここで、外部システム200は、WEBサーバASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーションパーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置メモリ装置入力装置出力装置通信制御装置等およびそれらを制御するプログラム等により実現される。

0160

図24において有効因子情報選択装置100は、概略的に、有効因子情報選択装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この有効因子情報選択装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。

0161

記憶部106に格納される各種のデータベースやテーブル(標本情報集合ファイル106a〜マハラノビス距離算出用パラメータ情報ファイル106i)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。

0162

これら記憶部106の各構成要素のうち、標本情報集合ファイル106aは、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を格納する標本情報集合格納手段である。ここで、標本情報集合ファイル106aに格納される情報について図25を参照して説明する。図25は、本実施形態における標本情報集合ファイル106aに格納される情報の一例を示す図である。

0163

図25に示すように、この標本情報集合ファイル106aに格納される情報は、標本識別情報と、複数の因子情報(図25に示す、因子情報1、因子情報2、因子情報3など)と、標本属性情報とを相互に関連付けて構成されている。

0164

また、標本情報群ファイル106bは、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を格納する標本情報群格納手段である。ここで、標本情報群ファイル106bに格納される情報について図26を参照して説明する。図26は、本実施形態における標本情報群ファイル106bに格納される情報の一例を示す図である。

0165

図26に示すように、この標本情報群ファイル106bに格納される情報は、第1標本情報群および第2標本情報群について、標本識別情報と、複数の因子情報(図26に示す、因子情報1、因子情報2、因子情報3など)と、標本属性情報とを相互に関連付けて構成されている。

0166

また、平均情報・標準偏差情報ファイル106cは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報を格納する平均情報・標準偏差情報格納手段である。ここで、平均情報・標準偏差情報ファイル106cに格納される情報について図27を参照して説明する。図27は、本実施形態における平均情報・標準偏差情報ファイル106cに格納される情報の一例を示す図である。

0167

図27に示すように、この平均情報・標準偏差情報ファイル106cに格納される情報は、第1標本情報群および第2標本情報群について、複数の因子情報(図27に示す、因子情報1、因子情報2、因子情報3など)の平均情報と標準偏差情報とを相互に関連付けて構成されている。

0168

また、分散共分散行列情報・相関行列情報ファイル106dは、第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報を格納する分散共分散行列情報・相関行列情報格納手段である。ここで、分散共分散行列情報・相関行列情報ファイル106dに格納される情報について図28を参照して説明する。図28は、本実施形態における分散共分散行列情報・相関行列情報ファイル106dに格納される情報の一例を示す図である。

0169

図28に示すように、この分散共分散行列情報・相関行列情報ファイル106dに格納される情報は、第1標本情報群および第2標本情報群について、複数の因子情報(図28に示す、因子情報1、因子情報2、因子情報3など)間の分散・共分散または相関係数を相互に関連付けて構成されている。

0170

また、変動係数情報ファイル106eは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報を格納する変動係数情報格納手段である。ここで、変動係数情報ファイル106eに格納される情報について図29を参照して説明する。図29は、本実施形態における変動係数情報ファイル106eに格納される情報の一例を示す図である。

0171

図29に示すように、この変動係数情報ファイル106eに格納される情報は、第1標本情報群および第2標本情報群について、複数の因子情報(図29に示す、因子情報1、因子情報2、因子情報3など)の変動係数情報を相互に関連付けて構成されている。

0172

また、棄却検定値ファイル106fは、第1標本情報群および第2標本情報群に含まれる各因子情報に対する、後述する棄却検定実行手段にて実行された棄却検定の検定値を格納する棄却検定値格納手段である。ここで、棄却検定値ファイル106fに格納される情報について図30を参照して説明する。図30は、本実施形態における棄却検定値ファイル106fに格納される情報の一例を示す図である。

0173

図30に示すように、この棄却検定値ファイル106fに格納される情報は、複数の因子情報(図30に示す、因子情報1、因子情報2、因子情報3など)の棄却検定の検定値を相互に関連付けて構成されている。

0174

また、特徴化パラメータ情報ファイル106gは、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を格納する特徴化パラメータ情報格納手段である。ここで、特徴化パラメータ情報ファイル106gに格納される情報について図31を参照して説明する。図31は、本実施形態における特徴化パラメータ情報ファイル106gに格納される情報の一例を示す図である。

0175

図31に示すように、この特徴化パラメータ情報ファイル106gに格納される情報は、第1標本情報群および第2標本情報群について、標本識別情報と、特徴化パラメータ情報と、当該特徴化パラメータ情報が各因子情報間の差または比のいずれかであるかを示す計算式とを相互に関連付けて構成されている。

0176

また、有効因子情報ファイル106hは、後述する平均情報・標準偏差情報基準有効因子情報選択手段、分散共分散行列情報・相関行列情報基準有効因子情報選択手段、変動係数情報基準有効因子情報選択手段、棄却検定値基準有効因子情報選択手段、特徴化パラメータ情報基準有効因子情報選択手段のうち少なくとも一つにて選択された有効な因子情報を格納する有効因子情報格納手段である。ここで、有効因子情報ファイル106hに格納される情報について図32を参照して説明する。図32は、本実施形態における有効因子情報ファイル106hに格納される情報の一例を示す図である。

0177

図32に示すように、この有効因子情報ファイル106hに格納される情報は、有効因子情報として選択された各因子情報(図32に示す、因子情報1、因子情報3など)で構成されている。

0178

また、マハラノビス距離算出用パラメータ情報ファイル106iは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて算出されたマハラノビス距離算出用パラメータ情報を格納するマハラノビス距離算出用パラメータ情報格納手段である。ここで、マハラノビス距離算出用パラメータ情報ファイル106iに格納される情報について図33を参照して説明する。図33は、本実施形態におけるマハラノビス距離算出用パラメータ情報ファイル106iに格納される情報の一例を示す図である。

0179

図33に示すように、このマハラノビス距離算出用パラメータ情報ファイル106iに格納される情報は、第1標本情報群および第2標本情報群について、因子情報(図32に示す、因子情報1、因子情報2など)間の分散・共分散と各因子情報の平均情報・標準偏差情報とを相互に関連付けて構成されている。

0180

また、図24において、通信制御インターフェース部104は、有効因子情報選択装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。

0181

また、図24において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。ここで、出力装置114としては、モニタ家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。また、入力装置112としては、キーボードマウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。

0182

また、図24において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部102は、機能概念的に、標本情報集合取得部102a、標本情報群選択部102b、平均情報・標準偏差情報算出部102c、平均情報・標準偏差情報基準有効因子情報選択部102d、分散共分散行列情報・相関行列情報算出部102e、分散共分散行列情報・相関行列情報基準有効因子情報選択部102f、変動係数情報算出部102g、変動係数情報基準有効因子情報選択部102h、棄却検定実行部102i、棄却検定値基準有効因子情報選択部102j、特徴化パラメータ情報算出部102k、特徴化パラメータ情報基準有効因子情報選択部102m、および、マハラノビス距離算出用パラメータ情報算出部102nを備えて構成されている。

0183

このうち、標本情報集合取得部102aは、標本を一意に識別するための標本識別情報、標本の属性を示す標本属性情報、および、複数の因子情報を含む標本情報の集合である標本情報集合を取得する標本情報集合取得手段である。

0184

また、標本情報群選択部102bは、標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群、および、他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択する標本情報群選択手段である。

0185

また、平均情報・標準偏差情報算出部102cは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出する平均情報・標準偏差情報算出手段である。

0186

また、平均情報・標準偏差情報基準有効因子情報選択部102dは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択する平均情報・標準偏差情報基準有効因子情報選択手段である。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

0187

また、分散共分散行列情報・相関行列情報算出部102eは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出する分散共分散行列情報・相関行列情報算出手段である。

0188

また、分散共分散行列情報・相関行列情報基準有効因子情報選択部102fは、第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択する分散共分散行列情報・相関行列情報基準有効因子情報選択手段である。

0189

また、変動係数情報算出部102gは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出する変動係数情報算出手段である。

0190

また、変動係数情報基準有効因子情報選択部102hは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する変動係数情報基準有効因子情報選択手段である。

0191

また、棄却検定実行部102iは、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定を実行する棄却検定実行手段である。

0192

また、棄却検定値基準有効因子情報選択部102jは、第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する棄却検定値基準有効因子情報選択手段である。

0193

また、特徴化パラメータ情報算出部102kは、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出する特徴化パラメータ情報算出手段である。

0194

また、特徴化パラメータ情報基準有効因子情報選択部102mは、特徴化パラメータ情報に基づいて、有効な因子情報を選択する特徴化パラメータ情報基準有効因子情報選択手段である。

0195

また、マハラノビス距離算出用パラメータ情報算出部102nは、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出するマハラノビス距離算出用パラメータ情報算出手段である。

0196

なお、これら各部によって行なわれる処理の詳細については、後述する。

0197

[システムの処理]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に図3から図7等を参照して詳細に説明する。

0198

まず、メイン処理の詳細について、図3等を参照して説明する。図3は、本実施形態における本システムのメイン処理の一例を示すフローチャートである。

0199

まず、有効因子情報選択装置100は、標本情報集合取得部102aの処理により、標本を一意に識別するための標本識別情報(例えば、標本番号や標本名など)、標本の属性を示す標本属性情報(例えば、疾患の名称、疾患の治療効果(例えば、インターフェロン投与効果の有無など)など)、および、複数の因子情報(例えば、各遺伝子の発現量に関する情報など)を含む標本情報の集合である標本情報集合(例えば、DNAマイクロアレイにより取得された発現情報データ集合など)を取得し、標本情報集合ファイル106aの所定の記憶領域に格納する(ステップSA−1)。

0200

ついで、有効因子情報選択装置100は、標本情報群選択部102bの処理により、ステップSA−1にて取得された標本情報集合から、任意に選択された2つの標本属性情報のうちの1つの標本属性情報を持つ標本情報の群である第1標本情報群および他の1つの標本属性情報を持つ標本情報の群である第2標本情報群を選択し、標本情報群ファイル106bの所定の記憶領域に格納する(ステップSA−2)。

0201

ここで、選択された第1標本情報群および第2標本情報群に含まれる因子情報の中に、数値情報でない、定性的な情報である因子情報が含まれている場合、有効因子情報選択装置100は、制御部102の処理により、当該定性的な情報である因子情報を既存の数量化手法(例えば、数量化I類、数量化II類、数量化III類、数量化IV類など)に基づいて数
値化してもよい。

0202

ついで、有効因子情報選択装置100は、平均情報・標準偏差情報算出部102cの処理により、ステップSA−2にて選択された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、平均情報および標準偏差情報を算出し、平均情報・標準偏差情報ファイル106cの所定の記憶領域に格納する(ステップSA−3)。

0203

さらに、有効因子情報選択装置100は、平均情報・標準偏差情報基準有効因子情報選択部102dの処理により、ステップSA−3にて算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報に基づいて、下記に示す、群間の乖離を判定する判定式1から判定式4(判定式において、nは分布(バラツキ)の幅を表す数値であり、正の実数である。)のうち少なくとも一つを適用し、判定条件を満たす因子情報を抽出することにより、任意に選択された2つの標本属性情報について多変量解析またはパターン認識を行う際に有効な因子情報を選択し、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSA−4)。

「第2標本情報群における因子情報の平均情報」+n×「第2標本情報群における因子情報の標準偏差情報」 < 「第1標本情報群における因子情報の平均情報」 ・・・(判定式1)

「第2標本情報群における因子情報の平均情報」−n×「第2標本情報群における因子情報の標準偏差情報」 > 「第1標本情報群における因子情報の平均情報」 ・・・(判定式2)

「第1標本情報群における因子情報の平均情報」+n×「第1標本情報群における因子情報の標準偏差情報」 < 「第2標本情報群における因子情報の平均情報」 ・・・(判定式3)

「第1標本情報群における因子情報の平均情報」−n×「第1標本情報群における因子情報の標準偏差情報」 > 「第2標本情報群における因子情報の平均情報」 ・・・(判定式4)

0204

ここで、上述したステップSA−3およびステップSA−4に示す有効な因子情報を選択する手法の代わりに、以下に示す有効な因子情報を選択する手法を用いて有効な因子情報を選択してもよい。

0205

具体的には、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択してもよい(例えば、当該差を2で割った値が設定された値(例えば±0.5など)以上である因子情報を有効な因子情報として選択してもよい)(分散共分散行列情報・相関行列情報基準有効因子情報選択処理)。

0206

ここで、分散共分散行列情報・相関行列情報算出部102eおよび分散共分散行列情報・相関行列情報基準有効因子情報選択部102fにて行われる分散共分散行列情報・相関行列情報基準有効因子情報選択処理について、図4を参照して詳細に説明する。図4は、本実施形態における本システムの分散共分散行列情報・相関行列情報基準有効因子情報選択処理の一例を示すフローチャートである。

0207

まず、有効因子情報選択装置100は、分散共分散行列情報・相関行列情報算出部102eの処理により、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、分散共分散行列情報または相関行列情報を算出し、分散共分散行列情報・相関行列情報ファイル106dの所定の記憶領域に格納する(ステップSB−1)。

0208

ついで、有効因子情報選択装置100は、分散共分散行列情報・相関行列情報基準有効因子情報選択部102fの処理により、ステップSB−1にて算出された第1標本情報群および第2標本情報群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて、有効な因子情報を選択し(例えば、当該差を2で割った値が設定された値(例えば±0.5など)以上である因子情報を有効な因子情報として選択し)、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSB−2)。これにて、分散共分散行列情報・相関行列情報基準有効因子情報選択処理が終了する。

0209

ここで、上述したステップSA−3およびステップSA−4に示す有効な因子情報を選択する手法、ならびに、ステップSB−1およびステップSB−2に示す有効な因子情報を選択する手法と、以下の(1)〜(3)に示す各有効な因子情報を選択する手法とを任意に組み合わせて、有効な因子情報を選択してもよい。

0210

(1)第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択する(例えば、両群の変動係数情報が設定された値(例えば0.1など)未満である因子情報を有効な因子情報として選択する)(変動係数情報基準有効因子情報選択処理)。

0211

ここで、変動係数情報算出部102gおよび変動係数情報基準有効因子情報選択部102hにて行われる変動係数情報基準有効因子情報選択処理について、図5を参照して詳細に説明する。図5は、本実施形態における本システムの変動係数情報基準有効因子情報選択処理の一例を示すフローチャートである。

0212

まず、有効因子情報選択装置100は、変動係数情報算出部102gの処理により、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報について、変動係数情報を算出し、変動係数情報ファイル106eの所定の記憶領域に格納する(ステップSC−1)。

0213

ついで、有効因子情報選択装置100は、変動係数情報基準有効因子情報選択部102hの処理により、ステップSC−1にて算出された第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の変動係数情報に基づいて、有効な因子情報を選択し(例えば、両群の変動係数情報が設定された値(例えば0.1など)未満である因子情報を有効な因子情報として選択し)、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSC−2)。これにて、変動係数情報基準有効因子情報選択処理が終了する。

0214

(2)第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定(例えば、F検定、T検定などの群間の差を検定する手法)を実行し、実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択する(例えば、棄却検定の検定値が設定された有意水準(例えば0.05など)未満である因子情報を有効な因子情報として選択する)(棄却検定値基準有効因子情報選択処理)。

0215

ここで、棄却検定実行部102iおよび棄却検定値基準有効因子情報選択部102jにて行われる棄却検定値基準有効因子情報選択処理について、図6を参照して詳細に説明する。図6は、本実施形態における本システムの棄却検定値基準有効因子情報選択処理の一例を示すフローチャートである。

0216

まず、有効因子情報選択装置100は、棄却検定実行部102iの処理により、第1標本情報群および第2標本情報群に含まれる各因子情報に対して棄却検定(例えば、F検定、T検定などの群間の差を検定する手法)を実行し、実行された第1標本情報群および第2標本情報群における各因子情報に対する棄却検定の検定値を棄却検定値ファイル106fの所定の記憶領域に格納する(ステップSD−1)。

0217

ついで、有効因子情報選択装置100は、棄却検定値基準有効因子情報選択部102jの処理により、ステップSD−1にて実行された第1標本情報群および第2標本情報群に含まれる各因子情報に対する棄却検定の検定値に基づいて、有効な因子情報を選択し(例えば、棄却検定の検定値が設定された有意水準(例えば0.05など)未満である因子情報を有効な因子情報として選択し)、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSD−2)。これにて、棄却検定値基準有効因子情報選択処理が終了する。

0218

(3)第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、算出された特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)、有効な因子情報を選択する(特徴化パラメータ情報基準有効因子情報選択処理)。

0219

ここで、特徴化パラメータ情報算出部102kおよび特徴化パラメータ情報基準有効因子情報選択部102mにて行われる特徴化パラメータ情報基準有効因子情報選択処理について、図7を参照して詳細に説明する。図7は、本実施形態における本システムの特徴化パラメータ情報基準有効因子情報選択処理の一例を示すフローチャートである。

0220

まず、有効因子情報選択装置100は、特徴化パラメータ情報算出部102kの処理により、第1標本情報群および第2標本情報群の標本情報ごとに、任意に選択された2つの有効な因子情報の差または比である特徴化パラメータ情報を算出し、特徴化パラメータ情報ファイル106gの所定の記憶領域に格納する(ステップSE−1)。

0221

ついで、有効因子情報選択装置100は、特徴化パラメータ情報基準有効因子情報選択部102mの処理により、ステップSE−1にて算出された特徴化パラメータ情報に基づいて(例えば、特徴化パラメータ情報と他の有効な因子情報との組み合わせに基づいて)、有効な因子情報を選択し、有効因子情報ファイル106hの所定の記憶領域に格納する(ステップSE−2)。これにて、特徴化パラメータ情報基準有効因子情報選択処理が終了する。

0222

また、上述した各有効な因子情報を選択する手法により有効な因子情報を選択した後に、マハラノビス距離算出用パラメータ情報算出部102nの処理により、第1標本情報群および第2標本情報群のそれぞれに含まれる各因子情報の平均情報および標準偏差情報、ならびに、第1標本情報群および第2標本情報群のそれぞれにおける分散共分散行列情報の逆行列情報に基づいて、マハラノビス距離算出用パラメータ情報を算出し、マハラノビス距離算出用パラメータ情報ファイル106iの所定の記憶領域に格納してもよい。

0223

ここで、上述した本実施形態においては、因子情報を遺伝子の発現に関する情報(遺伝子発現情報)とした場合を一例として説明した。これにより、本発明は、DNAマイクロアレイなどにより取得した複数の遺伝子発現情報からDNA発現解析に有効な遺伝子情報を選択することができる。また、因子情報はこの場合に限定されるものではなく、本発明はあらゆる分野の因子の選択に適用することができる。

0224

また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、閾値による認識、ファジー推論、ニューラルネットワーク、MTシステムなどの既存のパターン認識を行うことにより、精度の高い認識を実現させることができる。

0225

また、本発明により選択された有効な因子情報を含む標本情報に基づいて、例えば、DNAマイクロアレイで得られた遺伝子発現情報をもとに特定の疾病に関連する因子(遺伝子)群を同定したり、薬効に関連する因子(遺伝子)群を同定したりすることが容易に行うことができる。

0226

また、同定された遺伝子群を使って、例えば、治療方法の選択、薬剤の選択などを行うことができる。

0227

また、本発明により、目的とする群が2つの場合(例えば、薬剤投与効果がある群とない群)は、対象となる機能(例えば、薬剤投与効果あり)を持つ群とそれ以外の群に分けることができ、群間において有効な因子情報(遺伝子発現情報)を選択することができる。

0228

また、本発明により、標本情報集合を複数の群に分割して、各群間において、違いを示す因子情報(遺伝子発現情報)を抽出することができる。

0229

これにて、メイン処理が終了する。

0230

[他の実施の形態]
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。

0231

例えば、有効因子情報選択装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、有効因子情報選択装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。

0232

また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

0233

この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。

0234

また、有効因子情報選択装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。

0235

例えば、有効因子情報選択装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて有効因子情報選択装置100に機械的に読み取られる。

0236

すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。また、このコンピュータプログラムは、有効因子情報選択装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。

0237

また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。

0238

また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後インストール手順等については、周知の構成や手順を用いることができる。

0239

記憶部106に格納される各種のデータベース等(標本情報集合ファイル106a〜マハラノビス距離算出用パラメータ情報ファイル106i)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。

0240

また、有効因子情報選択装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。

0241

さらに、有効因子情報選択装置100等の分散・統合の具体的形態は明細書および図面に示すものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる(例えば、グリッドコンピューティングなど)。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。

0242

また、ネットワーク300は、有効因子情報選択装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網アナログデジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。

0243

(実施例1:統計量の差による探索)
まず、インターフェロン投与前C型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子の群毎の平均情報および標準偏差情報に基づいて遺伝子を選択した場合の一例である実施例1の詳細について、図8図24等を参照して説明する。

0244

ここで、実施例1および後述する実施例2〜実施例6において用いる遺伝子発現情報は、C型肝炎患者のインターフェロン治療前の肝臓バイオプシーサンプルから得られたRNAについてDNAマイクロアレイを用いた解析を行って得たものである。なお、組織からのRNAの抽出、標識工程、ハイブリダイゼーション、および、スキャニングによる遺伝子発現情報の数値化は常法により行った(例えば、「「DNAマイクロアレイ実践マニュアル」、羊土社、2002」参照。)。また、当該DNAマイクロアレイは、インターフェロン関連遺伝子、サイトカイン関連遺伝子免疫応答関連遺伝子、肝臓特異的発現遺伝子細胞周期関連遺伝子、アポトーシス関連遺伝子等の計718個の遺伝子を搭載している。

0245

本実施例1および後述する実施例2〜実施例6において、当該DNAマイクロアレイはC型肝炎患者のインターフェロン治療におけるインターフェロン感受性予測することを目的としている。しかし、当該DNAマイクロアレイに搭載されている718個の遺伝子の結果をすべて用いて解析を行うと、ノイズが高く、明確な結果が得られない。

0246

そこで、本実施例1では、まず、上述した本実施形態における有効因子情報選択装置100(図24)が、標本情報集合取得部102aの処理により、718個の遺伝子発現情報とインターフェロン投与後効果に関する標本属性情報と標本識別情報とを含む標本情報の集合を取得した。

0247

ここで、標本属性情報のうち、「無効」はインターフェロン投与中にもかかわらずGPT値の正常化を認めず、異常値持続する場合である。また、上述の「無効以外」は「著効(インターフェロン投与中からGPT値の改善を認め、投与終了後24週間以上正常値を維持する場合)」または「再燃(インターフェロン投与中からGPT値の改善を認めるが、投与終了後24週間以内に再上昇し、異常値が持続する場合)」である。

0248

ついで、有効因子情報選択装置100は、上述した標本情報群選択部102bの処理により、取得した標本情報集合からインターフェロン投与後効果(C型肝炎ウイルス消滅)が現れた(無効以外の)グループである第1標本情報群(10因子(遺伝子)、22標本)およびインターフェロン投与後効果が現れなかった(無効の)グループである第2標本情報群(10因子(遺伝子)、13標本)を選択した。

0249

ついで、有効因子情報選択装置100は、上述した平均情報・標準偏差情報算出部102cの処理により、平均情報および標準偏差情報を算出し、さらに上述した平均情報・標準偏差情報基準有効因子情報選択部102dの処理により、718個の遺伝子から有効な遺伝子の選択を行った。本実施例1では、実際に行った718個の遺伝子のうち10個の遺伝子に関する分析結果を図8に示す。

0250

なお、本実施例1においては、対象としている2群間のデータの差が少ないため、判定式1〜4に含まれる「n」を「1」を超える値に設定すると選択される因子情報の数が減少する。一方、「n」を「1」未満の値(例えば0.5など)に設定すると選択される因子情報の数が多くなり、別の有効な因子情報の選択の手法を更に行わなければならない。そこで、適量の遺伝子を選択するために、上述した平均情報・標準偏差情報基準有効因子情報選択部102dの判定式1〜判定式4に含まれる「n」には、「1」を設定した。

0251

通常、群間の有意差を検討する場合、判定式1〜4に含まれる「n」には、例えば、「1」〜「3」の値を設定してもよい。しかし、上述した平均情報・標準偏差情報基準有効因子情報選択部102dにて行われる有効な因子情報を選択する手法は、群間の因子情報の度数分布の中心が近い位置にあり、有意差の検討が困難である場合に用いることを想定している。そのため、実際では、「n」には「0.5」〜「1.5」の値を設定することが好ましい。ただし、最終的には、対象により解決しようとする問題の重要性やデータ量などを踏まえて、解析者が任意に決定してもよい。

0252

図8は、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各因子における各群の平均情報および標準偏差情報に基づく分析結果の一例を示す図である。なお、図8には、因子情報ごとに、第1標本情報群および第2標本情報群の平均情報(図8における「mean」の欄)・標準偏差情報(図8における「σ」の欄)・平均情報+標準偏差情報(図8における「+1σ」の欄)・平均情報−標準偏差情報(図8における「−1σ」の欄)、および、判定式の判断結果(判定式1または2の判定条件を満たしたか否かの結果、判定式3または4の判定条件を満たしたか否かの結果)が示されている。

0253

図8に示すように、第1標本情報群および第2標本情報群において、本実施形態における判定式1または判定式2、および、判定式3または判定式4を満たした因子(遺伝子)は、因子情報が「3」、「7」、「8」の計3因子である。

0254

(実施例2:分散・共分散もしくは相関係数の差による探索)
次に、インターフェロン投与前のC型肝炎患者から採取した肝細胞より得た遺伝子発現情報に基づいて算出された、各群の分散共分散行列情報または相関行列情報の各行列成分情報の差に基づいて遺伝子を選択した場合の一例である実施例2の詳細について、図9から図11図24等を参照して説明する。

0255

一般に、分散分析やマハラノビス距離などは因子間の相関関係を用いて計算を行い判定式に入力するので、因子間の相関関係の大小が判別の結果に大きく影響する。

0256

そこで、本実施例2では、まず各群の分散共分散行列情報または相関行列情報を求め、ついで分散共分散行列情報または相関行列情報の各行列成分情報の群間の差に基づいて有効な因子を選択した。

0257

具体的には、本実施例2では、まず、上述した本実施形態における有効因子情報選択装置100(図24)は、分散共分散行列情報・相関行列情報算出部102eの処理により、同一因子数からなる群(インターフェロン投与後効果が現れた(無効以外の)グループである第1標本情報群(10因子(遺伝子)、22標本)およびインターフェロン投与後効果が現れなかった(無効の)グループである第2標本情報群(10因子(遺伝子)、13標本))ごとに相関行列情報を求めた。

0258

ついで、有効因子情報選択装置100は、上述した分散共分散行列情報・相関行列情報基準有効因子情報選択部102fにて相関行列情報の各行列成分情報の群間の差を求め、当該差を2で割った値が設定された値である±0.5以上である因子情報を有効な因子情報として選択した。本実施例2では、実際に行った718個の遺伝子のうち10個の遺伝子に関する分析結果を図9図11に示す。

0259

なお、本実施例2においては、相関の性質が明らかに異なる因子情報を選択するため、相関行列情報の各行列成分情報の群間の差が「±0.5以上」である因子情報を有効な因子情報として選択したが、かかる場合に限定されることなく、解析者により任意に設定してもよい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ