図面 (/)

技術 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム

出願人 国立研究開発法人産業技術総合研究所
発明者 堀本勝久福井一彦
出願日 2014年8月28日 (6年2ヶ月経過) 出願番号 2014-173382
公開日 2016年4月7日 (4年7ヶ月経過) 公開番号 2016-048485
状態 特許登録済
技術分野 微生物・酵素関連装置 突然変異または遺伝子工学 特定用途計算機 酵素、微生物を含む測定、試験
主要キーワード 偏相関 繋がり具合 適合性判定 偏相関係数 適合判定 means法 固有遺伝子 パスウェイ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年4月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

ノイズの影響を受けにくいシグネチャ遺伝子及びパスウェイの探索技術を提供する。

解決手段

既知のパスウェイの情報を記憶したパスウェイDB10と、複数のサンプルの網羅発現情報を入力する入力部11と、サンプルの網羅的発現情報から既知のパスウェイを構成する遺伝子の発現情報を抽出し、複数のサンプルのパスウェイ固有の発現情報を生成するパスウェイ固有遺伝子発現情報生成部14と、パスウェイ固有の遺伝子発現情報に基づいて複数のサンプルを2つの群にクラスタリングするクラスタリング部15と、複数のサンプルが表現型に関する情報に応じて所定の閾値以上の精度で2つの群に分類されたか否かを判定して表現型に特異的なパスウェイを抽出するパスウェイ適合性判定部16と、求めたパスウェイに含まれる遺伝子の中からシグネチャ遺伝子を抽出するシグネチャ遺伝子抽出部17とを備える。

概要

背景

従来、シグネチャ遺伝子及びそのパスウェイを探索する方法としては、コントロールサンプルの網羅発現情報を比較し、発現量の相違が大きいシグネチャ遺伝子を探索し、その後で、既知のパスウェイのデータベースの中から、当該シグネチャ遺伝子を多く含むパスウェイを探すのが一般的であった(非特許文献1)。

概要

ノイズの影響を受けにくいシグネチャ遺伝子及びパスウェイの探索技術を提供する。既知のパスウェイの情報を記憶したパスウェイDB10と、複数のサンプルの網羅的発現情報を入力する入力部11と、サンプルの網羅的発現情報から既知のパスウェイを構成する遺伝子の発現情報を抽出し、複数のサンプルのパスウェイ固有の発現情報を生成するパスウェイ固有遺伝子発現情報生成部14と、パスウェイ固有の遺伝子発現情報に基づいて複数のサンプルを2つの群にクラスタリングするクラスタリング部15と、複数のサンプルが表現型に関する情報に応じて所定の閾値以上の精度で2つの群に分類されたか否かを判定して表現型に特異的なパスウェイを抽出するパスウェイ適合性判定部16と、求めたパスウェイに含まれる遺伝子の中からシグネチャ遺伝子を抽出するシグネチャ遺伝子抽出部17とを備える。

目的

本発明は、上記背景に鑑み、ノイズの影響を受けにくいシグネチャ遺伝子及びパスウェイの探索技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

既知パスウェイの情報を記憶したデータベースと、複数のサンプルの表現型に関する情報および網羅発現情報を入力する入力部と、前記データベースから一のパスウェイを読み出し、前記複数のサンプルについて、前記網羅的発現情報から前記パスウェイを構成する遺伝子の発現情報を抽出し、前記サンプルの前記パスウェイ固有の発現情報を生成するパスウェイ固有遺伝子発現情報生成部と、前記パスウェイ固有の発現情報に基づいて前記複数のサンプルを複数の群にクラスタリングするクラスタリング部と、前記複数のサンプルが前記表現型に関する情報に応じて所定の閾値以上の精度で前記複数の群に分類された否かを判定し、所定の閾値以上の精度で分類されたと判定された場合には、当該パスウェイを前記表現型に特異的なパスウェイとして抽出するパスウェイ適合性判定部と、前記パスウェイ適合性判定部にて抽出されたパスウェイの情報を出力する出力部と、を備える遺伝子発現情報解析装置

請求項2

前記複数のサンプルは複数の表現型に関する情報を有しており、前記パスウェイ適合判定部は、それぞれの表現型について、前記複数のサンプルが所定の閾値以上の精度で前記複数の群に分けられたか否かを判定し、前記出力部は、前記パスウェイ適合性判定部にて抽出されたパスウェイと、そのパスウェイを抽出した表現型を出力する請求項1に記載の遺伝子発現情報解析装置。

請求項3

前記表現型に関する情報は、疾患の有無の情報である請求項1または2に記載の遺伝子発現情報解析装置。

請求項4

前記パスウェイ適合性判定部にて抽出された表現型特異的パスウェイに含まれる遺伝子の中から、前記表現型の値の違いによって発現量の変動が大きいシグネチャ遺伝子を抽出するシグネチャ遺伝子抽出部を備える、請求項1ないし3のいずれかに記載の遺伝子発現情報解析装置。

請求項5

前記網羅的発現情報は、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報であり、前記パスウェイ適合性判定部は、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた表現型特異的パスウェイと、当該パスウェイを抽出したときの分類の精度の情報を出力し、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた表現型特異的パスウェイの情報と前記分類の精度の情報とに基づいて総合的な表現型特異的パスウェイを求める請求項1ないし3のいずれかに記載の遺伝子発現情報解析装置。

請求項6

前記パスウェイ適合性判定部にて抽出された遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた表現型特異的パスウェイについて、当該表現型特異的パスウェイに含まれる遺伝子の中から、前記表現型の値の違いによって発現量の変動が大きいシグネチャ遺伝子を抽出するシグネチャ遺伝子抽出部を備える、請求項5に記載の遺伝子発現情報解析装置。

請求項7

前記シグネチャ遺伝子抽出部にて抽出したシグネチャ遺伝子の発現量を要素とするサンプルの発現量のベクトルを生成し、前記ベクトルに基づいて前記サンプルどうしの偏相関係数を求め、求めた偏相関係数に基づいて前記複数のサンプルをクラスタリングする請求項4に記載の遺伝子発現情報解析装置。

請求項8

前記シグネチャ遺伝子抽出部にて抽出した遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めたシグネチャ遺伝子の発現量を要素とするサンプルの発現量のベクトルを生成し、前記ベクトルに基づいて前記サンプルどうしの偏相関係数を求め、求めた偏相関係数に基づいて前記複数のサンプルをクラスタリングする請求項6に記載の遺伝子発現情報解析装置。

請求項9

前記シグネチャ遺伝子抽出部にて抽出した遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた前記シグネチャ遺伝子のベクトルを、当該シグネチャ遺伝子の前記複数のサンプルにおける発現量を要素として生成し、前記ベクトルに基づいて、メチル化レベル情報から求めたシグネチャ遺伝子とmRNAの発現情報から求めたシグネチャ遺伝子との偏相関係数、及び、mRNAの発現情報から求めたシグネチャ遺伝子とタンパク質の発現情報から求めたシグネチャ遺伝子との偏相関係数を求め、求めた偏相関係数に基づいて、遺伝子のメチル化レベル情報とmRNAの発現情報とタンパク質の発現情報の連鎖モデルを生成する請求項6に記載の遺伝子発現情報解析装置。

請求項10

遺伝子発現情報解析装置が、複数のサンプルの表現型に関する情報および網羅的発現情報を入力するステップと、前記遺伝子発現情報解析装置が、前記複数のサンプルの表現型に関する情報および網羅的発現情報に基づいて、表現型特異的なパスウェイを探索するステップと、前記遺伝子発現情報解析装置が、抽出されたパスウェイを出力するステップと、を備え、前記表現型特異的なパスウェイを探索するステップは、前記遺伝子発現情報解析装置が、前記複数のサンプルについて、前記網羅的発現情報から、前記パスウェイを構成する遺伝子の発現情報を抽出し、前記サンプルの前記パスウェイ固有の発現情報を生成するステップと、前記遺伝子発現情報解析装置が、前記パスウェイ固有の発現情報に基づいて前記複数のサンプルを複数の群にクラスタリングするステップと、前記遺伝子発現情報解析装置が、前記複数のサンプルが前記表現型に関する情報に応じて所定の閾値以上の精度で前記複数の群に分類されたか否かを判定し、所定の閾値以上の精度で分類されたと判定された場合には、当該パスウェイを前記表現型に特異的なパスウェイとして抽出するステップと、を繰り返し行う遺伝子発現情報解析方法

請求項11

遺伝子発現情報の解析を行うためのプログラムであって、コンピュータに、複数のサンプルの表現型に関する情報および網羅的発現情報を入力するステップと、前記複数のサンプルの表現型に関する情報および網羅的発現情報に基づいて、表現型特異的なパスウェイを探索するステップと、抽出されたパスウェイを出力するステップと、を実行させ、前記表現型特異的なパスウェイを探索するステップは、前記複数のサンプルについて、前記網羅的発現情報から、前記パスウェイを構成する遺伝子の発現情報を抽出し、前記サンプルの前記パスウェイ固有の発現情報を生成するステップと、前記パスウェイ固有の発現情報に基づいて前記サンプルを複数の群にクラスタリングするステップと、前記複数のサンプルが前記表現型に関する情報に応じて所定の閾値以上の精度で前記複数の群に分類されたか否かを判定し、所定の閾値以上の精度で分類されたと判定された場合には、当該パスウェイを前記表現型に特異的なパスウェイとして抽出するステップと、を繰り返し行うプログラム。

技術分野

0001

本発明は、コントロールに比べて発現量の変動が大きい遺伝子(これを「シグネチャ遺伝子」という)及びシグネチャ遺伝子を含むパスウェイを探索する技術に関する。

背景技術

0002

従来、シグネチャ遺伝子及びそのパスウェイを探索する方法としては、コントロールとサンプルの網羅発現情報を比較し、発現量の相違が大きいシグネチャ遺伝子を探索し、その後で、既知のパスウェイのデータベースの中から、当該シグネチャ遺伝子を多く含むパスウェイを探すのが一般的であった(非特許文献1)。

先行技術

発明が解決しようとする課題

0004

シグネチャ遺伝子を探索する対象の遺伝子は数万〜数十万個にも及ぶ場合があるが、これらの大量の遺伝子に対してマイクロアレイ解析等を行うと、それらの中にノイズが含まれてしまうことがあった。その結果、ノイズによって異常値を有する遺伝子をシグネチャ遺伝子として誤って探索してしまうという不都合が生じる場合があった。

0005

本発明は、上記背景に鑑み、ノイズの影響を受けにくいシグネチャ遺伝子及びパスウェイの探索技術を提供することを目的とする。

課題を解決するための手段

0006

本発明の遺伝子発現情報解析装置は、既知のパスウェイの情報を記憶したデータベースと、複数のサンプルの表現型に関する情報および網羅的発現情報を入力する入力部と、前記データベースから一のパスウェイを読み出し、前記複数のサンプルについて、前記網羅的発現情報から前記パスウェイを構成する遺伝子の発現情報を抽出し、前記サンプルの前記パスウェイ固有の発現情報を生成するパスウェイ固有遺伝子発現情報生成部と、前記パスウェイ固有の発現情報に基づいて前記複数のサンプルを複数の群にクラスタリングするクラスタリング部と、前記複数のサンプルが前記表現型に関する情報に応じて所定の閾値以上の精度で前記複数の群に分類された否かを判定し、所定の閾値以上の精度で分類されたと判定された場合には、当該パスウェイを前記表現型に特異的なパスウェイとして抽出するパスウェイ適合性判定部と、前記パスウェイ適合性判定部にて抽出されたパスウェイの情報を出力する出力部とを備える。

0007

このようにパスウェイに含まれる少数の遺伝子の発現情報だけを比較して、パスウェイが表現型特異的かどうかによってパスウェイ適合性を判定しているので、表現型特異的なパスウェイの抽出に際してノイズの影響を抑制できる。

0008

本発明の遺伝子発現情報解析装置は、前記複数のサンプルは複数の表現型に関する情報を有しており、前記パスウェイ適合判定部は、それぞれの表現型について、前記複数のサンプルが所定の閾値以上の精度で前記複数の群に分けられたか否かを判定し、前記出力部は、前記パスウェイ適合性判定部にて抽出されたパスウェイと、そのパスウェイを抽出した表現型を出力してもよい。表現型に関する情報としては、例えば、疾患の有無、疾患のステージ薬剤応答性、予後の状態等の情報を用いることができる。

0009

このようにサンプルが複数の表現型に関する情報を有している場合には、それぞれのパスウェイについて、どの表現型情報に特異的であるかを求めることができ、効率良く、表現型特異的なパスウェイを求めることができる。従来は、表現型に応じたパスウェイを探索することは困難であったが、本発明の構成によれば、表現型に特異的なパスウェイを容易に求めることができる。

0010

本発明の遺伝子発現情報解析装置は、前記パスウェイ適合性判定部にて抽出された表現型特異的パスウェイに含まれる遺伝子の中から、前記表現型の値の違いによって発現量の変動が大きいシグネチャ遺伝子を抽出するシグネチャ遺伝子抽出部を備えてもよい。

0011

この構成により、ノイズの影響を抑制して求めたパスウェイに含まれる遺伝子の中からシグネチャ遺伝子を抽出しているので、シグネチャ遺伝子を抽出する際にもノイズの影響を抑制できる。

0012

本発明の遺伝子発現情報解析装置において、前記網羅的発現情報は、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報であり、前記パスウェイ適合性判定部は、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた表現型特異的パスウェイと、当該パスウェイを抽出したときの分類の精度の情報を出力し、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた表現型特異的パスウェイの情報と前記分類の精度の情報とに基づいて総合的な表現型特異的パスウェイを求めてもよい。

0013

この構成により、多角的な網羅的発現情報に基づいて、表現型特異的なパスウェイを適切に求めることができる。

0014

本発明の遺伝子発現情報解析装置は、前記パスウェイ適合性判定部にて抽出された遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた表現型特異的パスウェイについて、当該表現型特異的パスウェイに含まれる遺伝子の中から、前記表現型の値の違いによって発現量の変動が大きいシグネチャ遺伝子を抽出するシグネチャ遺伝子抽出部を備えてもよい。

0015

遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれの観点からシグネチャ遺伝子を求めることができる。

0016

本発明の遺伝子発現情報解析装置は、前記シグネチャ遺伝子抽出部にて抽出したシグネチャ遺伝子の発現量を要素とするサンプルの発現量のベクトルを求め、前記ベクトルに基づいて前記サンプルどうしの偏相関係数を求め、求めた偏相関係数に基づいて前記複数のサンプルをクラスタリングしてもよい。

0017

この構成により、ノイズを抑制して抽出されたシグネチャ遺伝子の発現量を要素とするベクトルを用いて、複数のサンプルを適切にクラスタリングすることができる。また、偏相関係数を用いることにより、対象としている2変数以外の他の変数の影響を除いた真の相関を求めることができる。これにより、分子レベルで病系分類を行うことができる。

0018

本発明の遺伝子発現情報解析装置は、前記シグネチャ遺伝子抽出部にて抽出した遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めたシグネチャ遺伝子の発現量を要素とするサンプルの発現量のベクトルを求め、前記ベクトルに基づいて前記サンプルどうしの偏相関係数を求め、求めた偏相関係数に基づいて前記複数のサンプルをクラスタリングしてもよい。

0019

この構成により、ノイズを抑制して抽出されたシグネチャ遺伝子の発現量を要素とするベクトルを用いて、複数のサンプルを適切にクラスタリングすることができる。また、偏相関係数を用いることにより、対象としている2変数以外の他の変数の影響を除いた真の相関を求めることができる。さらに、遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報を用いて求めたシグネチャ遺伝子の発現量を要素とするサンプルの発現量のベクトルを用いることにより、分子レベルで適切な病系分類を行うことができる可能性を高めることができる。病気が、遺伝子のメチル化レベル、mRNAの発現、タンパク質の発現のいずれに影響を与えるのかということは予め分かってはいないので、どの網羅的発現情報を用いればよいかは不明である。例えば、ある病気が遺伝子のメチル化レベルに影響を与えているにもかかわらず、mRNAの発現量を用いて求めたシグネチャ遺伝子だけを用いてクラスタリングを行ってしまうと正しく病系分類を行えないことになる。本発明では、遺伝子のメチル化レベル、mRNAの発現、タンパク質の発現の情報を用いて抽出したシグネチャ遺伝子を用いているので、病系分類の成功率を高めることができる。

0020

本発明の遺伝子発現情報解析装置は、前記シグネチャ遺伝子抽出部にて抽出した遺伝子のメチル化レベル情報、mRNAの発現情報、及びタンパク質の発現情報のそれぞれを用いて求めた前記シグネチャ遺伝子のベクトルを、当該シグネチャ遺伝子の前記複数のサンプルにおける発現量を要素として生成し、前記ベクトルに基づいて、メチル化レベル情報から求めたシグネチャ遺伝子とmRNAの発現情報から求めたシグネチャ遺伝子との偏相関係数、及び、mRNAの発現情報から求めたシグネチャ遺伝子とタンパク質の発現情報から求めたシグネチャ遺伝子との偏相関係数を求め、求めた偏相関係数に基づいて、遺伝子のメチル化レベル情報とmRNAの発現情報とタンパク質の発現情報の連鎖モデルを生成してもよい。

0021

この構成により、ノイズを抑制して抽出されたシグネチャ遺伝子のベクトルに基づいて、適切なネットワーク連鎖モデルを生成することができる。また、偏相関係数を用いることにより、対象としている2変数以外の他の変数の影響を除いた真の相関を求め、ひいては真のネットワーク連鎖モデルを生成することができる。ネットワーク連鎖モデルを生成することにより、どの遺伝子がどの遺伝子に対して影響を与えているかを知ることができる。

0022

本発明の遺伝子発現情報解析方法は、遺伝子発現情報解析装置が、複数のサンプルの表現型に関する情報および網羅的発現情報を入力するステップと、前記遺伝子発現情報解析装置が、前記複数のサンプルの表現型に関する情報および網羅的発現情報に基づいて、表現型特異的なパスウェイを探索するステップと、前記遺伝子発現情報解析装置が、抽出されたパスウェイを出力するステップとを備え、前記表現型特異的なパスウェイを探索するステップは、前記遺伝子発現情報解析装置が、前記複数のサンプルについて、前記網羅的発現情報から、前記パスウェイを構成する遺伝子の発現情報を抽出し、前記サンプルの前記パスウェイ固有の発現情報を生成するステップと、前記遺伝子発現情報解析装置が、前記パスウェイ固有の発現情報に基づいて前記複数のサンプルを複数の群にクラスタリングするステップと、前記遺伝子発現情報解析装置が、前記複数のサンプルが前記表現型に関する情報に応じて所定の閾値以上の精度で前記複数の群に分類されたか否かを判定し、所定の閾値以上の精度で分類されたと判定された場合には、当該パスウェイを前記表現型に特異的なパスウェイとして抽出するステップとを繰り返し行う。

0023

本発明のプログラムは、遺伝子発現情報の解析を行うためのプログラムであって、コンピュータに、複数のサンプルの表現型に関する情報および網羅的発現情報を入力するステップと、前記複数のサンプルの表現型に関する情報および網羅的発現情報に基づいて、表現型特異的なパスウェイを探索するステップと、抽出されたパスウェイを出力するステップとを実行させ、前記表現型特異的なパスウェイを探索するステップは、前記複数のサンプルについて、前記網羅的発現情報から、前記パスウェイを構成する遺伝子の発現情報を抽出し、前記サンプルの前記パスウェイ固有の発現情報を生成するステップと、前記パスウェイ固有の発現情報に基づいて前記サンプルを複数の群にクラスタリングするステップと、前記複数のサンプルが前記表現型に関する情報に応じて所定の閾値以上の精度で前記複数の群に分類されたか否かを判定し、所定の閾値以上の精度で分類されたと判定された場合には、当該パスウェイを前記表現型に特異的なパスウェイとして抽出するステップとを繰り返し行う。

発明の効果

0024

本発明によれば、パスウェイに含まれる少数の遺伝子の発現情報だけを比較して、パスウェイが表現型特異的かどうかによってパスウェイ適合性を判定しているので、表現型特異的なパスウェイの抽出に際してノイズの影響を抑制できる。

図面の簡単な説明

0025

第1の実施の形態の遺伝子発現情報解析装置の構成を示す図である。
パスウェイデータベースに記憶されたデータを模式的に示す図である。
遺伝子発現情報解析装置に入力されるサンプルの情報の例を示す図である。
パスウェイ固有遺伝子発現情報生成部の処理を模式的に示す図である。
(a)クラスタリング部によって、サンプルを2つの群にクラスタリングした例を示す。(b)クラスタリング結果に表現型を当てはめた例を示す図である。(c)クラスタリング結果に表現型を当てはめた例を示す図である。
第1の実施の形態の遺伝子発現情報解析装置の動作を示す図である。
第2の実施の形態の遺伝子発現情報解析装置の原理を示す図である。
複数のサンプルS1〜SNについて、シグネチャ遺伝子Sgm,Sgt,Sgpの発現量のデータを記載した図である。
偏相関係数に基づいてサンプルS1〜SNをクラスタリングした例を示す図である。
複数のサンプルS1〜SNについて、シグネチャ遺伝子Sgm,Sgt,Sgpの発現量のデータを記載した図である。
連鎖モデルを示す図である。

実施例

0026

以下、本発明の実施の形態の遺伝子発現情報解析装置について、図面を参照して説明する。
(第1の実施の形態)
図1は、第1の実施の形態の遺伝子発現情報解析装置1の構成を示す図である。第1の実施の形態の遺伝子発現情報解析装置1は、既知のパスウェイの情報を記憶したパスウェイデータベース(以下、「パスウェイDB」という)10と、解析の対象となるサンプルの網羅的遺伝子発現情報を入力する入力部11と、入力された情報を解析する制御部12と、解析結果を出力する出力部18とを有している。

0027

遺伝子発現情報解析装置1は、CPU、RAM、ROM、ディスプレイキーボードマウス通信インターフェース等を備えるコンピュータによって構成される。遺伝子発現情報解析のためのプログラムをROMに記憶しておき、CPUがROMからプログラムを読み出して実行することにより、コンピュータが遺伝子発現情報解析を行う。

0028

図2は、パスウェイDB10に記憶されたデータの例を模式的に示す図である。図2に示すようにパスウェイDB10には、既知のパスウェイのデータとそのパスウェイを構成する遺伝子のデータが関連付けて記憶されている。図2に示す例では、例えば、パスウェイ:P001は、遺伝子a,b,c,d,・・・を含んでいる。パスウェイDB10としては、MSigDB(Molecular Signatures Database)、INOH Pathway Database(Integrating Network Objects with Hierarchies Pathway Database)、KEGG PATHWAYなどの既知のデータベースを用いることができる。

0029

図3は、入力部11より入力されるサンプルの情報の例を示す図である。サンプルの情報は、サンプルを特定するIDと、サンプルの表現型のデータと、遺伝子データを有している。例えば、ID:00001の被験者の表現型は、疾患なし、ステージなし、薬剤応答性なしであり、その被験者のデータ(たとえばマイクロアレイデータ)はData00001である。ID:00002の被験者の表現型は、d-HCM肥大心筋症)の疾患あり、ステージ2、薬剤応答性5である。ここで、薬剤応答性は、薬剤に対する応答の大きさを5段階で評価した数値であり、数値が大きいほど、薬剤に対する応答性が大きい。

0030

本実施の形態において、遺伝子データは、mRNA発現量である。本実施の形態では、mRNA発現量のデータを用いているが、遺伝子のメチル化の情報や、タンパク質の発現量の情報を用いてもよい。mRNA発現量のデータは、例えば、マイクロアレイ解析によって取得され、数万〜数十万のmRNAの発現量の情報を有している。

0031

制御部12は、入力されたサンプルの網羅的遺伝子発現情報に基づいて、ある表現型に着目したときのシグネチャ遺伝子及びパスウェイを求める機能を有している。例えば、表現型がd-HCMの疾患の有無であるとすると、制御部12は、d-HCMの患者(サンプル)とd-HCMではない被験者(コントロール)とのmRNA発現量を比較したときに、発現量の変動の大きいシグネチャ遺伝子及びパスウェイを発見する機能を有している。このシグネチャ遺伝子は、d-HCMに関係の深い遺伝子であると理解される。シグネチャ遺伝子の知見は創薬等に利用することができる有益な情報である。

0032

制御部12は、パスウェイ読出部13と、パスウェイ固有遺伝子発現情報生成部14と、クラスタリング部15と、パスウェイ適合性判定部16と、シグネチャ遺伝子抽出部17とを有している。パスウェイ読出部13は、パスウェイDB10から、パスウェイの情報を読み出す機能を有している。

0033

パスウェイ固有遺伝子発現情報生成部14は、パスウェイ読出部13にて読み出したパスウェイに含まれる遺伝子を特定する。例えば、パスウェイP001の場合には、パスウェイを構成する遺伝子として、a,b,c,e,・・・が特定される。パスウェイ固有遺伝子発現情報生成部14は、入力部11より入力された網羅的遺伝子発現情報の中から、特定された遺伝子の発現情報を抽出する機能を有する。

0034

図4は、パスウェイ固有遺伝子発現情報生成部14の処理を模式的に示す図である。図4の上に示すマトリックスは、入力部11より入力された網羅的遺伝子発現情報を示す。マトリックスの一つ一つが遺伝子の発現情報を有している。この網羅的遺伝子発現情報において、パスウェイAに含まれる遺伝子を特定し、特定された遺伝子発現情報を抽出して、パスウェイAに含まれる遺伝子の発現情報を生成する。パスウェイ固有遺伝子発現情報生成部14は、入力部11より入力された全てのサンプルの情報に対してこの処理を行って、サンプルのパスウェイ固有の遺伝子発現情報を生成する。

0035

クラスタリング部15は、パスウェイ固有の遺伝子発現情報をクラスタリングして2つの群に分ける。クラスタリングには、k-means法などの既知の統計的手法を用いることができる。図5(a)は、クラスタリング部15によって、パスウェイAに固有の遺伝子について複数のサンプルを2つの群(図5において点線で囲って示す)にクラスタリングした例を示す。

0036

パスウェイ適合性判定部16は、パスウェイが表現型に特異的なものであるか否かを判定する機能を有する。本実施の形態のように、サンプルが複数の表現型に関する情報を有している場合には、各表現型についてパスウェイが特異的であるか否かを判定する。具体的には、パスウェイ適合性判定部16は、表現型の値が異なるサンプル(例えば、疾患ありのサンプルと、疾患なしのサンプル)が、クラスタリング部15にて分けられた2つの群に所定の精度で分類されたか否かを判定する。そして、ある表現型の値が異なるサンプルが所定の精度で2つの群に分類された場合には、その表現型に特異的なパスウェイであると判定する。

0037

図5(b)は、図5(a)に示すパスウェイAに固有の遺伝子発現情報に基づくクラスタリングの結果に対して、「疾患の有無」という表現型を当てはめた例を示す図である。図5(b)において、「N」は疾患なしを示し、「D」は疾患ありを示す。疾患の有無のデータは、サンプルの情報に含まれる表現型に関する情報である。

0038

図5(b)においては、左側の群には、疾患なしのサンプルが分類され、右側の群には疾患ありのサンプルが分類された。「疾患あり」「疾患なし」という表現型の違いによって、きれいに2つの群に分類されているので、このクラスタリングに用いたパスウェイ固有遺伝子を抽出したパスウェイAは、「疾患の有無」という表現型に特異的なパスウェイであると判定する。

0039

図5(c)は、図5(a)に示すクラスタリングの結果に対して、「薬剤応答性」という表現型を当てはめた例を示す図である。図5(c)において、「Y」は薬剤応答性あり(つまり薬剤が効くこと)を示し、「N」は薬剤応答性なしを示す。図5(c)においては、左側の群にも、右側の群にも、薬剤応答性ありと薬剤応答性なしの両方のサンプルが含まれており、このパスウェイAによって分類することができていない。したがって、このパスウェイAは、「薬剤応答性」の表現型に対しては特異的でないと判定する。

0040

図5(b)では、「疾患あり」のサンプルと「疾患なし」のサンプルとが完全に分類された例を示しているが、分類の精度は100%でなくてもよく、例えば、90%以上の精度で分類できた表現型については、その表現型に特異的なパスウェイであると判定してもよい。

0041

シグネチャ遺伝子抽出部17は、表現型に特異的なパスウェイに含まれる遺伝子の中からシグネチャ遺伝子を抽出する機能を有する。シグネチャ遺伝子抽出部17は、特異的なパスウェイであるとの判断の元となった表現型の値の違いによって、発現量の変動の大きい遺伝子を求める。例えば、図5(b)に示す例では、「疾患あり」に含まれる遺伝子発現情報と、「疾患なし」に含まれる遺伝子発現情報とを比較して、発現量の変動の大きい遺伝子を特定する。なお、シグネチャ遺伝子抽出部17は、表現型の値が違うこと(例えば、疾患の有無)によって発現量の変動が大きい遺伝子を求めるのであって、クラスタリング部15にて分類された2つの群の遺伝子発現情報を比較するのではない。以上、制御部12の構成について説明した。

0042

出力部18は、制御部12にて求めた表現型に特異的なパスウェイとシグネチャ遺伝子を出力する機能を有している。

0043

図6は、第1の実施の形態の遺伝子発現情報解析装置1の動作を示す図である。本実施の形態の遺伝子発現情報解析装置1は、まず、入力部11より、複数のサンプルの情報を入力する(S10)。上述したとおり、サンプルの情報には、表現型に関する情報と網羅的遺伝子発現情報とが含まれている。

0044

次に、遺伝子発現情報解析装置1は、パスウェイDB10から一のパスウェイの情報を読み出し(S12)、当該パスウェイを構成する遺伝子の発現情報を入力されたサンプルの網羅的遺伝子発現情報から抽出して、パスウェイ固有の遺伝子発現情報を生成する(S14)。続いて、遺伝子発現情報解析装置1は、パスウェイ固有の遺伝子発現情報に基づいて複数のサンプルを2つの群にクラスタリングする(S16)。

0045

次に、遺伝子発現情報解析装置1は、各表現型について、表現型の値が異なるサンプルが2つの群に所定の閾値以上の精度で分類されたか否かを判定する。所定の閾値以上の精度で分類された場合には、遺伝子発現情報解析装置1は、現在処理中のパスウェイがその表現型に特異的なパスウェイであると決定する(S18)。

0046

遺伝子発現情報解析装置1は、以上の処理を、パスウェイDB10に記憶された全パスウェイについて行ったか否かを判定し(S20)、全パスウェイについて行っていないと判定した場合には(S20でNO)、パスウェイDB10から処理を行っていない別のパスウェイの情報を読み出して(S12)、上記の処理を繰り返す。全パスウェイについて処理を行ったと判定された場合には(S20でYES)、遺伝子発現情報解析装置1は、表現型に特異的なパスウェイに含まれる遺伝子の中からその表現型のシグネチャ遺伝子を抽出する(S22)。その後、遺伝子発現情報解析装置1は、表現型別に、表現型特異的なパスウェイとシグネチャ遺伝子の情報を出力する(S24)。以上、第1の実施の形態の遺伝子発現情報解析装置1の構成及び動作について説明した。

0047

第1の実施の形態の遺伝子発現情報解析装置1は、入力されたサンプルの網羅的遺伝子発現情報からパスウェイ固有の遺伝子発現情報を生成し、パスウェイ固有の遺伝子発現情報に基づいてサンプルをクラスタリングして得られた2つの群に、表現型の値の違うサンプルが精度良く分類されているか否かを判定することで、表現型に特異的なパスウェイを探索する。これにより、サンプルの網羅的遺伝子発現情報に含まれるノイズの影響を受けにくくでき、表現型特異的なパスウェイを適切に求めることができる。

0048

従来の方法と比較して、本実施の形態の効果について説明する。ここで、マイクロアレイ解析によって求めたサンプルの遺伝子発現情報に0.1%の確率でノイズが含まれると仮定する。例えば、d-HCMのシグネチャ遺伝子を探索する従来法は、d-HCMの患者から取得したmRNA発現情報と、健常者のmRNA発現情報とを比較し、変動の大きい遺伝子を抽出していた。サンプルに2万個の遺伝子のデータを含まれていたとすると、2万個×0.1%=20個のmRNAの発現情報にはノイズが含まれ、異常値となる。異常値をとる20個のmRNAは、実際にはd-HCMに特異的な遺伝子ではないとしても、d-HCMに特異的なmRNAと判定されてしまう可能性が高い。そして、この20個のmRNAを含むシグネチャ遺伝子に基づいてパスウェイを求めると、誤ったパスウェイが求められてしまう。

0049

これに対し、本実施の形態の方法では、最初にパスウェイ固有の発現遺伝子情報を生成している。パスウェイを構成する遺伝子数はせいぜい30〜40個程度であるので、0.1%の確率でノイズが含まれたとしても、パスウェイ固有の発現遺伝子情報の中に異常値が含まれる可能性は極めて低く、仮に含まれても1個か2個である。したがって、パスウェイ固有の発現遺伝子情報に基づくサンプルのクラスタリングに、ノイズの影響はほとんどなく、適切にクラスタリングを行うことができる。このクラスタリング結果を使って表現型に特異的なパスウェイを探索するので、適切なパスウェイを求めることができる。

0050

(第2の実施の形態)
次に、第2の実施の形態の遺伝子発現情報解析装置について説明する。第2の実施の形態の遺伝子発現情報解析装置の基本的な構成は、第1の実施の形態と同じである。

0051

図7は、第2の実施の形態の遺伝子発現情報解析装置の原理を示す図である。第2の実施の形態で用いられるサンプルには、遺伝子データとして、遺伝子のメチル化レベル情報、mRNA発現情報、及びタンパク質の発現情報が含まれている。遺伝子発現情報解析装置は、遺伝子のメチル化レベル情報、mRNA発現情報、及びタンパク質の発現情報のそれぞれに基づいて、表現型特異的なパスウェイを求め、それらの結果を統合して、表現型特異的なパスウェイとシグネチャ遺伝子を求める。

0052

遺伝子のメチル化レベル情報、mRNA発現情報、及び、タンパク質の発現情報から表現型特異的なパスウェイを求める方法は、第1の実施の形態で説明した方法と同じである。すなわち、シグネチャ遺伝子の抽出に先立ってパスウェイ固有の遺伝子発現情報を生成しておき、パスウェイ固有の遺伝子発現情報に基づいてサンプルのクラスタリングを行い、クラスタリングされた2つの群が表現型の値が違うサンプルを精度良く分類しているか否かを判定することで、表現型に特異的なパスウェイを求める。これにより、遺伝子のメチル化レベル情報を用いて求めた表現型特異的パスウェイ、mRNA発現情報を用いて求めた表現型特異的パスウェイ、及び、タンパク質の発現情報を用いて求めた表現型特異的パスウェイが得られる。

0053

第2の実施の形態では、この際に、表現型の値が違うサンプルを分類できた精度に基づいて、それぞれのパスウェイが表現型特異的なパスウェイである確率値を求める。分類の精度が高いほど、表現型特異的なパスウェイである確率値が高いものとして扱う。そして、それぞれの確率値にフィッシャーの式(Fisher's C)を適用して統合確率を求め、求めた統合確率に基づいて、表現型特異的パスウェイの決定を行う。第2の実施の形態の遺伝子発現情報解析装置は、3つの発現情報を用いて求めた表現型特異的パスウェイに含まれる遺伝子の中から、表現型がとる値の違いによって発現量の違いが大きいシグネチャ遺伝子を求める。

0054

第2の実施の形態では、遺伝子のメチル化レベル情報、mRNA発現情報、及び、タンパク質の発現情報の3つの発現情報を用いて、マルチミックス解析によって表現型特異的なパスウェイを求めるので、多角的な観点から表現特異的なパスウェイを求めることができる。

0055

(第3の実施の形態)
次に、第3の実施の形態の遺伝子発現情報解析装置について説明する。第3の実施の形態の遺伝子発現情報解析装置は、シグネチャ遺伝子のデータを用いてサンプルの病系分類を行う。

0056

第3の実施の形態の遺伝子発現情報解析装置の基本的な構成は、第2の実施の形態と同じである。第3の実施の形態の遺伝子発現情報解析装置は、遺伝子のメチル化レベル情報を用いて求めた表現型特異的パスウェイ、mRNA発現情報を用いて求めた表現型特異的パスウェイ、及び、タンパク質の発現情報を用いて求めた表現型特異的パスウェイのそれぞれから、シグネチャ遺伝子を求める。すなわち、(1)遺伝子のメチル化レベル情報を用いて求めた表現型特異的パスウェイの遺伝子の中からシグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmkを求め、(2)mRNA発現情報を用いて求めた表現型特異的パスウェイの遺伝子の中からシグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtlを求め、(3)タンパク質の発現情報を用いて求めた表現型特異的パスウェイの遺伝子の中からシグネチャ遺伝子Sgp1,Sgp2,Sgp3,・・・Sgpmを求める。

0057

図8は、複数のサンプルS1〜SNについて、シグネチャ遺伝子Sgm,Sgt,Sgpの発現量のデータを記載した図である。図8では省略しているが、サンプルとシグネチャ遺伝子の交点には、当該サンプルのシグネチャ遺伝子の発現量のデータが入っている。サンプルS1〜SNは、シグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmk,Sgt1,Sgt2,Sgt3,・・・Sgtl,Sgp1,Sgp2,Sgp3,・・・Sgpmの発現量を要素とするベクトルとして表現することができる。

0058

第3の実施の形態の遺伝子発現情報解析装置は、上述したベクトルに基づいて、複数のサンプルの相互間の偏相関係数を求める。偏相関係数は、対象としている2変数以外の他の変数の影響を除いた真の相関を示す係数であり、公知の方法によって計算することができる。第3の実施の形態の遺伝子発現情報解析装置は、偏相関係数に基づいてサンプルS1〜SNをクラスタリングする。具体的には、サンプルS1〜SN間に偏相関係数の大きさに応じたエッジ張り、エッジの繋がり具合によってクラスタリングを行う。

0059

図9は、偏相関係数に基づいてサンプルS1〜SNをクラスタリングした例を示す図である。図9に示す例では、サンプルS1,S4,S5,S8が一つの群にクラスタリングされ、サンプルS2,S3,S7が一つの群にクラスタリングされている。例えば、サンプルS1,S4,S5,S8がいずれも疾患Aがあるサンプルであり、サンプルS2,S3,S7がいずれも疾患Aがないサンプルであるとした場合、疾患Aの有無を分子レベルで病系分類ができたことになる。したがって、第3の実施の形態の遺伝子発現情報解析装置を用いて、新しいサンプルの病系分類を分子レベルで客観的に行うことが可能となるので、経験が浅い医師であっても適切な診断を行うことが可能となる。なお、従来は、病系分類には、階層型クラスタリングが用いられることがあったが、病系分類をうまく行えない場合があった。例えば、腎がんは、分子レベルの病系分類を行うことができなかったが、本発明者らのこの方法により初めて分子レベルの病系分類を行えるようになった。

0060

本実施の形態では、(1)遺伝子のメチル化レベル情報を用いて求めたシグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmk、(2)mRNA発現情報を用いて求めたシグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtl、(3)タンパク質の発現情報を用いて求めたシグネチャ遺伝子Sgp1,Sgp2,Sgp3,・・・Sgpmを用いているので、病気が遺伝子のメチル化レベル、mRNA発現、タンパク質の発現のいずれに影響を与える場合であっても、適切なクラスタリングを行える可能性が高い。

0061

本実施の形態では、(1)シグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmk、(2)シグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtl、(3)シグネチャ遺伝子Sgp1,Sgp2,Sgp3,・・・Sgpmを用いて、サンプルのクラスタリングを行ったが、必ずしもすべての発現情報を用いなくてもよく、上記(1)〜(3)のうちの1つを用いたり、2つを組み合わせて用いてもよい。

0062

(第4の実施の形態)
次に、第4の実施の形態の遺伝子発現情報解析装置について説明する。遺伝情報は、遺伝子のメチル化、mRNA発現、タンパク質の発現の順に伝達されるが、第4の実施の形態の遺伝子発現情報解析装置は、遺伝子のメチル化、mRNA発現、タンパク質の発現のそれぞれの段階において、遺伝子がどのように影響し合っているかを解析する。

0063

第4の実施の形態の遺伝子発現情報解析装置の基本的な構成は、第3の実施の形態と同じである。第4の実施の形態の遺伝子発現情報解析装置は、遺伝子のメチル化レベル情報を用いて求めた表現型特異的パスウェイ、mRNA発現情報を用いて求めた表現型特異的パスウェイ、及び、タンパク質の発現情報を用いて求めた表現型特異的パスウェイのそれぞれから、シグネチャ遺伝子を求める。すなわち、(1)遺伝子のメチル化レベル情報を用いて求めた表現型特異的パスウェイの遺伝子の中からシグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmkを求め、(2)mRNA発現情報を用いて求めた表現型特異的パスウェイの遺伝子の中からシグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtlを求め、(3)タンパク質の発現情報を用いて求めた表現型特異的パスウェイの遺伝子の中からシグネチャ遺伝子Sgp1,Sgp2,Sgp3,・・・Sgpmを求める。

0064

図10は、複数のサンプルS1〜SNについて、シグネチャ遺伝子Sgm,Sgt,Sgpの発現量のデータを記載した図である。図10では省略しているが、サンプルとシグネチャ遺伝子の交点には、当該サンプルのシグネチャ遺伝子の発現量のデータが入っている。シグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmk,Sgt1,Sgt2,Sgt3,・・・Sgtl,Sgp1,Sgp2,Sgp3,・・・Sgpmは、サンプルS1〜SNの当該シグネチャ遺伝子の発現量を要素とするベクトルとして表現することができる。

0065

第4の実施の形態の遺伝子発現情報解析装置は、上述したベクトルに基づいて、(1)遺伝子のメチル化レベル情報を用いて求めたシグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmkと(2)mRNA発現情報を用いて求めたシグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtlの偏相関係数を求めると共に、(2)mRNA発現情報を用いて求めたシグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtlと(3)タンパク質の発現情報を用いて求めたシグネチャ遺伝子Sgp1,Sgp2,Sgp3,・・・Sgpmの偏相関係数を求める。

0066

第3の実施の形態の遺伝子発現情報解析装置は、偏相関係数に基づいて(1)シグネチャ遺伝子Sgm1,Sgm2,Sgm3,・・・Sgmkと、(2)シグネチャ遺伝子Sgt1,Sgt2,Sgt3,・・・Sgtlと、(3)シグネチャ遺伝子Sgp1,Sgp2,Sgp3,・・・Sgpmとの偏相関を表す連鎖モデルを生成する。

0067

図11は、連鎖モデルを示す図である。シグネチャ遺伝子のベクトルの偏相関が高いということは、シグネチャ遺伝子の各段階での発現の原因と結果の関係になっている可能性がある。例えば、シグネチャ遺伝子Sgm1とシグネチャ遺伝子Sgt1,Sgt2の偏相関が高いが、これはシグネチャ遺伝子Sgm1のメチル化がシグネチャ遺伝子Sgt1,Sgt2のmRNAの発現の原因になっている可能性があると判断することができる。このようにメチル化レベルとmRNAの発現とタンパク質の発現の各段階でのシグネチャ遺伝子どうしの関係が明らかになることにより、どのシグネチャ遺伝子に働きかければ有効であるかの手がかりを得ることができる。例えば、上述の例では、シグネチャ遺伝子Sgm1のメチル化がシグネチャ遺伝子Sgt1,Sgt2のmRNAの発現に関係していることが分かるから、シグネチャ遺伝子Sgm1のメチル化をブロックすれば、シグネチャ遺伝子Sgt1,Sgt2のmRNAの発現量を増やすことができること(あるいはその逆)が分かる。

0068

以上、本発明の遺伝子発現情報解析装置について実施の形態を挙げて詳細に説明したが、本発明は上述した実施の形態に限定されない。
上述した第1の実施の形態では、クラスタリング部15は、サンプルを2つの群にクラスタリングする例を挙げているが、クラスタリング部15は、3つ以上の群にクラスタリングをしてもよい。例えば、表現型が取りうる値が3つある場合には、3つの群にクラスタリングし、表現型が取りうる値に応じてサンプルが3つの群に精度良く分類されたか否かによって、パスウェイ適合性を判断してもよい。

0069

上述した第3の実施の形態及び第4の実施の形態では、第2の実施の形態の遺伝子発現情報解析装置で求めたシグネチャ遺伝子及びその発現量のデータを用いる例について説明したが、第3の実施の形態で説明したサンプルのクラスタリング、第4の実施の形態の遺伝子の連鎖モデルの生成は、第2の実施の形態の遺伝子発現情報解析方法によって求めた以外のシグネチャ遺伝子にも適用することができる。

0070

本発明は、表現型特異的なパスウェイの抽出に際してノイズの影響を抑制できるという効果を有し、遺伝子発現情報の中からシグネチャ遺伝子を抽出する技術に有用である。

0071

1遺伝子発現情報解析装置
10パスウェイDB
11 入力部
12 制御部
13 パスウェイ読出部
14 パスウェイ固有遺伝子発現情報生成部
15クラスタリング部
16 パスウェイ適合性判定部
17シグネチャ遺伝子抽出部
18 出力部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ