図面 (/)

この項目の情報は公開日時点(2020年3月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

生物学的経路の調節相互作用の学習および同定用のシステムならびに方法を提供する。

解決手段

経路モデルが、複数の経路要素を含み、少なくとも2つの経路要素が進路を介して互いに結合し、調節ノードが複数の調節型パラメータ関数として、前記進路に沿って活性を調節し、オミック入力インターフェースを介して、DNA配列情報、RNA発現情報タンパク質情報およびタンパク質活性情報を含むオミックスデータセットの少なくとも1つを取得することと、オミックス処理システムを介して経路モデルにアクセスすることと、前記オミックス処理システムを介して、前記オミックスデータセットの少なくとも1つおよび前記経路モデルに基づいて、前記複数の調節型パラメータの少なくとも1つの相互作用の相関を推測することと、前記相互作用の相関を使用して前記複数の調節型パラメータの少なくとも1つの影響を定量化すること、とを含む方法。

概要

背景

高スループットゲノムスクリーニング到来により、ますます増大する細胞分子状態捕捉するデータの集合が取得されており、これらの進歩により、癌で変質する細胞機構の同定および理解を高めることが可能になっている。たとえば、特定の腫瘍内で頻繁に変質する鍵となる標的の同定により、過去20年にわたり40超の標的療法の開発がもたらされた。残念なことに、大抵の場合、多くのこれら薬剤反応率(奏効率)は50%未満であり、これら薬剤により影響を受ける経路の理解の不完全性が強調されている。耐性機構の典型例として、EGFR変質型結腸癌の腫瘍におけるRAS経路の活性化があり、ここで変異したKRASは、EGFR経路から独立した増殖シグナルをもたらすRASカスケード恒常的に活性化し、セツキシマブ療法などのEGFR阻害療法の大部分を無効な状態にする。したがって、セツキシマブに干渉する経路の知識は、発癌性シグナルが細胞シグナリングネットワーク内を移動する鍵となる経路に関して不完全であることが明らかとなっている。

このような明らかに不完全な知識は、統合用の多くのコンピュータツールとしてさらにより悩ましいものである。ある経路でのオミックスデータのレベル現在利用可能である。多様な他のツールのうち、いくつかのアルゴリズム(たとえば、GSEA、SPIA、およびPathOlogist)は、文献から精選した経路を使用して、対象となる変質した経路をうまく同定することができる。未だに、さらなるツールが、文献中の精選した相互作用から因果関係のあるグラフ構築しており、発現プロファイルを説明するためにこれらのグラフを使用している。ARACNE、MINDy、およびCONEXICなどのアルゴリズムは、遺伝子転写情報(およびCONEXICの場合はコピー数)を取り入れることにより、癌の試料の組み合わせを通して可能性のある転写ドライバを同定する。しかしながら、これらツールは、異なるドライバを、対象となるシグナル標的を同定する機能的なネットワークへと分類するよう試みられてはいない。NetBoxおよびMEMo(Mutual Exclusivity Modules in Cancer)などの一部のより新規の経路アルゴリズムは、癌のデータ統合の問題を解決し、それにより、発癌の可能性のある試料にとって鍵となる複数のデータの種類にわたるネットワークを同定するよう試みている。このようなツールは、ネットワークを発見するため、経路にわたる少なくとも一部が限定された統合を可能にしているが、これらは概して、調節情報および、関連する経路または経路のネットワークの1つ以上の作用とこのような情報との関連性を提供するものではない。このように、GIENAは、単一の生物学的経路内にある調節不全遺伝子相互作用を探索するが、経路のトポロジー、または相互作用の方向性もしくは性質についての事前知識を考慮するものではない。

ゲノム解析とは別に、確率グラフカルモデルが、ベイジアンネットワークおよびマーコブラダムフィールド(Markov Random Fields)の形式で、ランドマークを使用するネットワーク解析で広く使用されてきた。いくつかの方法では、関連ネットワークを含む、多くの異なる手段を介してデータからうまく相互作用を学習してきた。近年、PARADGM(ゲノムモデルのデータ統合を使用した経路認識アルゴリズム)は、国際公開第2011/139345号および国際公開第2013/062505号に記載のゲノム解析ツールであり、精選した経路データベース上で複数の種類のゲノムデータを統合する確率グラフィカルモデルを使用する。このようなモデルシステムは、対象となるコホートのみで個々の試料を評価するか、またはコホート内の個々の試料を評価できる点で有利である。しかしながら、このツール内で学習するEM期待値最大化パラメータは、入手可能な限定されたサイズのデータセット相互作用パラメータロバスト推定を防ぐため、観測データパラメータに関して、デフォルトでのみ実施されていた。結果として、このツールは、特定の経路部分の活性に影響し得る複数の因子の相互作用および相互関係解析を可能とするものではなく、それ自体が細胞シグナリングネットワークを介したシグナルの流れの解決策の改善を提供するものではなかった。

したがって、生物学的経路における、調節型相互作用の学習および同定についての多くのシステムおよび方法が当業者に知られているにも関わらず、それらのすべてまたはほとんどが、1つ以上の欠点を有している。たとえば、現在知られている解析ツールは、経路の進路の活性化を調節するパラメータの相互作用の強度および方向性を同定せず、経路の活性のシグナルの流れ、および/または干渉の予測ができないだけでなく、パラメータまたは経路要素差異のある可能性のある用途を同定するものではない。異なる観点から見ると、現在知られているツールは、概して、個々の遺伝子活性のみを考慮しているが、調節リンクに関する統計を調査するものではなく、したがって、動的モデルではなく静的モデルのみを提供している。結果として、知られているモデルはまた、どのように、ネットワーク内の異なる調節因子が本発明の目的を達成するため、全体的に異なる経路を使用するにも関わらず、類似した細胞表現型を産生するかに関しての試験を可能にするものではない。したがって、未だ、生物学的経路の調節型相互作用を学習かつ同定するシステムおよび方法を改善する必要がある。

概要

生物学的経路の調節相互作用の学習および同定用のシステムならびに方法を提供する。経路モデルが、複数の経路要素を含み、少なくとも2つの経路要素が進路を介して互いに結合し、調節ノードが複数の調節型パラメータの関数として、前記進路に沿って活性を調節し、オミックス入力インターフェースを介して、DNA配列情報、RNA発現情報タンパク質情報およびタンパク質活性情報を含むオミックスデータセットの少なくとも1つを取得することと、オミックス処理システムを介して経路モデルにアクセスすることと、前記オミックス処理システムを介して、前記オミックスデータセットの少なくとも1つおよび前記経路モデルに基づいて、前記複数の調節型パラメータの少なくとも1つの相互作用の相関を推測することと、前記相互作用の相関を使用して前記複数の調節型パラメータの少なくとも1つの影響を定量化すること、とを含む方法。

目的

このようなツールは、ネットワークを発見するため、経路にわたる少なくとも一部が限定された統合を可能にしているが、これらは概して、調節情報および、関連する経路または経路のネットワークの1つ以上の作用とこのような情報との関連性を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

経路モデル中の調節パラメータの影響を判定する方法であって、前記経路モデルが、複数の経路要素を含み、少なくとも2つの経路要素が進路を介して互いに結合し、前記調節ノードが複数の調節型パラメータ関数として、前記進路に沿って活性を調節し、オミック入力インターフェースを介して、DNA配列情報、RNA発現情報タンパク質情報およびタンパク質活性情報を含むオミックスデータセットの少なくとも1つを取得することと、オミックス処理ステムを介して経路モデルにアクセスすることと、前記オミックス処理システムを介して、前記オミックスデータセットの少なくとも1つおよび前記経路モデルに基づいて、前記複数の調節型パラメータの少なくとも1つの相互作用相関を推測することと、前記相互作用の相関を使用して前記複数の調節型パラメータの少なくとも1つの影響を定量化することと、を含む方法。

請求項2

前記オミックスデータセットが、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象を含み、前記オミックスデータセットがゲノムデータベース、BAMサーバ、またはシークエンシング装置から取得される、請求項1に記載の方法。

請求項3

前記推測することが、確率モデルに基づく、請求項1に記載の方法。

請求項4

前記確率モデルが、共依存性調節モデルまたは独立性調節モデルを使用する、請求項3に記載の方法。

請求項5

前記確率モデルが、変数の状態をすべての調節因子の状態に関連させる、因数F(Y|X1,X2,...,XN)を使用し、X1〜XNは、Yを調節する変数である、請求項3に記載の方法。

請求項6

X1〜XNから得られるYの完全な条件付き確率テーブルが学習され、前記確率モデルが共依存性モデルである、請求項5に記載の方法。

請求項7

個々のリンクの条件付き確率が学習され、単純ベイズ推定がX1〜XNから得られるYの計算に使用され、前記確率モデルが独立性モデルである、請求項5に記載の方法。

請求項8

前記複数の調節型パラメータと前記進路の前記活性との間の依存性の重要度を判定すること、または前記進路の活性から得られる前記調節型パラメータ間条件付き依存性の重要度を判定することをさらに含む、請求項3に記載の方法。

請求項9

前記調節型パラメータの相互作用の兆候を判定することをさらに含む、請求項8に記載の方法。

請求項10

前記オミックスデータセットの少なくとも1つがサブタイプを有する罹患組織由来であり、前記相互作用の相関が、サブタイプの相互作用の相関である、請求項1に記載の方法。

請求項11

前記サブタイプが薬剤耐性組織転移性組織、または罹患組織のクローン変異体である、請求項10に記載の方法。

請求項12

前記調節型パラメータの前記定量化された影響を評価することをさらに含む、請求項1に記載の方法。

請求項13

前記評価することが、生体外または生体内で実施される、請求項12に記載の方法。

請求項14

経路モデル中の経路要素の活性を予想する方法であって、前記経路モデルが、複数の経路要素を含み、少なくとも2つの経路要素が進路を介して互いに結合し、前記調節ノードが複数の調節型パラメータの関数として、前記進路に沿って活性を調節し、オミックス処理システムを介してDNA配列情報、RNA発現情報、タンパク質情報およびタンパク質活性情報を含む経路モデルの少なくとも1つにアクセスすることと、前記オミックス処理システムを介して前記経路モデル中の複数の調節型パラメータの少なくとも1つをコンピュータ内で修正することと、前記少なくとも1つの修正した調節型パラメータを用いて前記オミックス処理システムを介して前記経路要素の活性を計算することと、を含み、前記進路中の前記経路要素が、前記進路が前記少なくとも1つの修正した調節型パラメータの関数として、前記進路に沿って活性を調節する調節ノードを有する、方法。

請求項15

前記経路モデルがPARADGMモデルである、請求項14に記載の方法。

請求項16

前記コンピュータ内で修正することが、薬剤の調節型パラメータとの相互作用をシミュレートする、請求項14に記載の方法。

請求項17

前記調節型パラメータが、経路モデル中の新薬開発につながる標的である、請求項16に記載の方法。

請求項18

薬剤の処置作用をコンピュータ内で評価する方法であって、複数の経路要素を有する経路モデルを取得することであって、前記経路要素の少なくとも2つが、複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合する、取得することと、前記複数の調節型パラメータの少なくとも1つに影響を与えることが知られている薬剤を同定することと、オミックス処理システムを介し、かつ前記薬剤の知られている作用に基づき、DNA配列情報、RNA発現情報、タンパク質情報およびタンパク質活性情報を含む前記調節型パラメータの少なくとも1つをコンピュータ内で修正することであって、前記修正することが、前記調節型パラメータの少なくとも1つに対する薬剤の生物学的影響をシミュレートする、修正することと、前記オミックス処理システムを介し、かつ前記少なくとも1つの修正された調節型パタメータを用いて、前記調節ノードの下流の進路の活性を計算することと、を含む方法。

請求項19

前記調節ノードが、転写翻訳、およびタンパク質翻訳後修飾のうちの少なくとも1つに影響を与える、請求項18に記載の方法。

請求項20

前記薬剤が、商業的に入手可能な薬剤であり、知られている作用モードを有する、請求項18に記載の方法。

請求項21

経路モデル中の調節パラメータの影響を判定するためのコンピュータシステムであって、前記経路モデルが、複数の経路要素を含み、少なくとも2つの経路要素が進路を介して互いに結合し、前記調節ノードが複数の調節型パラメータの関数として、前記進路に沿って活性を調節し、オミックス入力インターフェースを介して、DNA配列情報、RNA発現情報、タンパク質情報およびタンパク質活性情報を含むオミックスデータセットの少なくとも1つを取得することと、オミックス処理システムを介して経路モデルにアクセスすることと、前記オミックス処理システムを介して、前記オミックスデータセットの少なくとも1つおよび前記経路モデルに基づいて、前記複数の調節型パラメータの少なくとも1つの相互作用の相関を推測することと、前記相互作用の相関を使用して前記複数の調節型パラメータの少なくとも1つの影響を定量化することと、を含むコンピュータシステム。

請求項22

前記オミックスデータセットが、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象を含み、前記オミックスデータセットがゲノムデータベース、BAMサーバ、またはシークエンシング装置から取得される、請求項21に記載のコンピュータシステム。

請求項23

前記推測することが、確率モデルに基づく、請求項21に記載のコンピュータシステム。

請求項24

前記確率モデルが、共依存性調節モデルまたは独立性調節モデルを使用する、請求項23に記載のコンピュータシステム。

請求項25

前記確率モデルが、変数の状態をすべての調節因子の状態に関連させる、因数F(Y|X1,X2,...,XN)を使用し、X1〜XNは、Yを調節する変数である、請求項23に記載のコンピュータシステム。

請求項26

X1〜XNから得られるYの完全な条件付き確率テーブルが学習され、前記確率モデルが共依存性モデルである、請求項25に記載のコンピュータシステム。

請求項27

個々のリンクの条件付き確率が学習され、単純ベイズ推定がX1〜XNから得られるYの計算に使用され、前記確率モデルが独立性モデルである、請求項25に記載のコンピュータシステム。

請求項28

プロセッサに経路モデル中の調節パラメータの影響を判定する方法を実行させる、ソフトウェア命令を格納する非一時的なコンピュータ可読媒体であって、前記経路モデルが、複数の経路要素を含み、少なくとも2つの経路要素が進路を介して互いに結合し、前記調節ノードが複数の調節型パラメータの関数として、前記進路に沿って活性を調節し、オミックス入力インターフェースを介して、DNA配列情報、RNA発現情報、タンパク質情報およびタンパク質活性情報を含むオミックスデータセットの少なくとも1つを取得することと、オミックス処理システムを介して経路モデルにアクセスすることと、前記オミックス処理システムを介して、前記オミックスデータセットの少なくとも1つおよび前記経路モデルに基づいて、前記複数の調節型パラメータの少なくとも1つの相互作用の相関を推測することと、前記相互作用の相関を使用して前記複数の調節型パラメータの少なくとも1つの影響を定量化することと、を含むコンピュータ可読媒体。

請求項29

前記オミックスデータセットが、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象を含み、前記オミックスデータセットがゲノムデータベース、BAMサーバ、またはシークエンシング装置から取得される、請求項28に記載のコンピュータ可読媒体。

請求項30

前記推測することが、確率モデルに基づく、請求項28に記載のコンピュータ可読媒体。

請求項31

前記確率モデルが、共依存性調節モデルまたは独立性調節モデルを使用する、請求項30に記載のコンピュータ可読媒体。

請求項32

前記確率モデルが、変数の状態をすべての調節因子の状態に関連させる、因数F(Y|X1,X2,...,XN)を使用し、X1〜XNは、Yを調節する変数である、請求項30に記載のコンピュータ可読媒体。

請求項33

X1〜XNから得られるYの完全な条件付き確率テーブルが学習され、前記確率モデルが共依存性モデルである、請求項32に記載のコンピュータ可読媒体。

請求項34

個々のリンクの条件付き確率が学習され、単純ベイズ推定がX1〜XNから得られるYの計算に使用され、前記確率モデルが独立性モデルである、請求項32に記載のコンピュータ可読媒体。

技術分野

0001

本願は、係属中である2012年10月9日出願の米国特許仮出願番号第61/711,491号、2012年11月26日出願の米国特許仮出願番号第61/729,958号、および2013年1月18日出願の米国特許仮出願番号第61/754,175号の優先権を主張するものである。

0002

本発明の分野は、オミックスデータのコンピュータ解析、特に、経路解析学習アルゴリズムおよび経路解析の使用に関する。

背景技術

0003

高スループットゲノムスクリーニング到来により、ますます増大する細胞分子状態捕捉するデータの集合が取得されており、これらの進歩により、癌で変質する細胞機構の同定および理解を高めることが可能になっている。たとえば、特定の腫瘍内で頻繁に変質する鍵となる標的の同定により、過去20年にわたり40超の標的療法の開発がもたらされた。残念なことに、大抵の場合、多くのこれら薬剤反応率(奏効率)は50%未満であり、これら薬剤により影響を受ける経路の理解の不完全性が強調されている。耐性機構の典型例として、EGFR変質型結腸癌の腫瘍におけるRAS経路の活性化があり、ここで変異したKRASは、EGFR経路から独立した増殖シグナルをもたらすRASカスケード恒常的に活性化し、セツキシマブ療法などのEGFR阻害療法の大部分を無効な状態にする。したがって、セツキシマブに干渉する経路の知識は、発癌性シグナルが細胞シグナリングネットワーク内を移動する鍵となる経路に関して不完全であることが明らかとなっている。

0004

このような明らかに不完全な知識は、統合用の多くのコンピュータツールとしてさらにより悩ましいものである。ある経路でのオミックスデータのレベル現在利用可能である。多様な他のツールのうち、いくつかのアルゴリズム(たとえば、GSEA、SPIA、およびPathOlogist)は、文献から精選した経路を使用して、対象となる変質した経路をうまく同定することができる。未だに、さらなるツールが、文献中の精選した相互作用から因果関係のあるグラフ構築しており、発現プロファイルを説明するためにこれらのグラフを使用している。ARACNE、MINDy、およびCONEXICなどのアルゴリズムは、遺伝子転写情報(およびCONEXICの場合はコピー数)を取り入れることにより、癌の試料の組み合わせを通して可能性のある転写ドライバを同定する。しかしながら、これらツールは、異なるドライバを、対象となるシグナル標的を同定する機能的なネットワークへと分類するよう試みられてはいない。NetBoxおよびMEMo(Mutual Exclusivity Modules in Cancer)などの一部のより新規の経路アルゴリズムは、癌のデータ統合の問題を解決し、それにより、発癌の可能性のある試料にとって鍵となる複数のデータの種類にわたるネットワークを同定するよう試みている。このようなツールは、ネットワークを発見するため、経路にわたる少なくとも一部が限定された統合を可能にしているが、これらは概して、調節情報および、関連する経路または経路のネットワークの1つ以上の作用とこのような情報との関連性を提供するものではない。このように、GIENAは、単一の生物学的経路内にある調節不全遺伝子相互作用を探索するが、経路のトポロジー、または相互作用の方向性もしくは性質についての事前知識を考慮するものではない。

0005

ゲノム解析とは別に、確率グラフカルモデルが、ベイジアンネットワークおよびマーコブラダムフィールド(Markov Random Fields)の形式で、ランドマークを使用するネットワーク解析で広く使用されてきた。いくつかの方法では、関連ネットワークを含む、多くの異なる手段を介してデータからうまく相互作用を学習してきた。近年、PARADGM(ゲノムモデルのデータ統合を使用した経路認識アルゴリズム)は、国際公開第2011/139345号および国際公開第2013/062505号に記載のゲノム解析ツールであり、精選した経路データベース上で複数の種類のゲノムデータを統合する確率グラフィカルモデルを使用する。このようなモデルシステムは、対象となるコホートのみで個々の試料を評価するか、またはコホート内の個々の試料を評価できる点で有利である。しかしながら、このツール内で学習するEM期待値最大化パラメータは、入手可能な限定されたサイズのデータセット相互作用パラメータロバスト推定を防ぐため、観測データパラメータに関して、デフォルトでのみ実施されていた。結果として、このツールは、特定の経路部分の活性に影響し得る複数の因子の相互作用および相互関係の解析を可能とするものではなく、それ自体が細胞シグナリングネットワークを介したシグナルの流れの解決策の改善を提供するものではなかった。

0006

したがって、生物学的経路における、調節型相互作用の学習および同定についての多くのシステムおよび方法が当業者に知られているにも関わらず、それらのすべてまたはほとんどが、1つ以上の欠点を有している。たとえば、現在知られている解析ツールは、経路の進路の活性化を調節するパラメータの相互作用の強度および方向性を同定せず、経路の活性のシグナルの流れ、および/または干渉の予測ができないだけでなく、パラメータまたは経路要素差異のある可能性のある用途を同定するものではない。異なる観点から見ると、現在知られているツールは、概して、個々の遺伝子活性のみを考慮しているが、調節リンクに関する統計を調査するものではなく、したがって、動的モデルではなく静的モデルのみを提供している。結果として、知られているモデルはまた、どのように、ネットワーク内の異なる調節因子が本発明の目的を達成するため、全体的に異なる経路を使用するにも関わらず、類似した細胞表現型を産生するかに関しての試験を可能にするものではない。したがって、未だ、生物学的経路の調節型相互作用を学習かつ同定するシステムおよび方法を改善する必要がある。

0007

本発明は、経路モデルがそれぞれの進路を介して互いに結合した複数の経路要素を有する確率グラフィカルモデルを使用して、生物学的経路の調節型相互作用を学習かつ同定する多様なシステムおよび方法を目的とする。考案されたシステムおよびモデルの進路は、相互に関連する複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有するものとして表される。

0008

調節型パラメータのうち、相互作用の相関は、オミックスのデータセットおよび/または経路モデルに基づき推測される。したがって、現在、同定した相互作用の相関により、経路の進路の活性を調節するパラメータの相互作用の強度および方向性の同定が可能となった。結果として、考案されたシステムおよび方法は、差異がある可能性のあるパラメータまたはパラメータ要素の使用、ならびに経路活性のシグナルフローおよび/または干渉の予測を可能にする。異なる観点から見ると、考案されたシステムおよび方法は、1つ以上の経路を介した(さらに差異的な)シグナルフローの同定、および多様な(実際または模擬的な)シナリオ下のシグナルフローの予測のために使用できる動的経路モデルを提供する。

0009

本発明の対象の1つの態様では、学習エンジンは、1つ以上のオミックスデータセット(たとえば、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象)を受信するオミックス入力インターフェースを含む。オミックス処理モジュールは、インターフェースと結合され、ならびに、(a)複数の経路要素であって、このうち2つ以上の要素が、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合する、複数の経路要素(たとえばDNA配列RNA配列タンパク質の機能)を有する、経路モデルにアクセスし、(b)オミックス入力インターフェースを介して、少なくとも1つのオミックスデータセットを取得し、(c)複数の調節型パラメータの中で相互作用の相関の組み合わせを、少なくとも1つのオミックスデータセットおよび経路モデルに基づき推測し、かつ、(d)相互作用の相関に基づき経路モデルを更新するように構成される。最も典型的には、本学習エンジンは、ゲノムデータベース、BAMサーバ、またはシークエンシング装置をさらに含むか、またはそれらに接続される。

0010

一部の実施形態では、経路要素は、DNA配列を含み、調節型パラメータは、転写因子転写アクチベータRNAポリメラーゼサブユニットシス調節エレメントトランス調節エレメントアセチル化ヒストンメチル化ヒストン、および/またはリプレッサーである。他の実施形態では、経路要素は、RNA配列を含み、調節型パラメータは、開始因子翻訳因子RNA結合タンパク質、リボソームタンパク質、siRNA、および/またはポリ結合タンパク質であり、さらなる実施形態では、経路要素は、タンパク質を含み、調節型パラメータは、リン酸化アシル化タンパク質分解性切断、および少なくとも第2のタンパク質との関連を含む。

0011

特に好ましい態様では、オミックス処理モジュールは、確率モデルを使用した相互作用の相関を推測するように構成され、確率モデルは、共依存性および/または独立性調節モデルを使用する。さらには、確率モデルが複数の調節型パラメータと進路の活性との間の依存性の重要度、および/または進路の活性から得られる調節型パラメータ間条件付き依存性の重要度をさらに判定することが一般的に好ましい。さらに、本確率モデルが調節型パラメータの相互作用の兆候(sign)をさらに判定することが考慮される。

0012

したがって、異なる観点からみると、本発明者らは、オミックス入力インターフェースを介して、少なくとも1つのオミックスデータセット(たとえば、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象)を取得するステップを含む、経路モデルを作製する方法をも考案した。考案された方法はまた、オミックス処理モジュールを介して、複数の経路要素であって、この要素のうちの少なくとも2つが、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合される、複数の経路要素を有する経路モデルを評価する別のステップと、オミックス処理モジュールを介して、少なくとも1つのオミックスデータセットおよび経路モデルに基づき、複数の調節型パラメータの中で相互作用の相関の組み合わせを推測するさらなるステップとを含む。さらなる別のステップでは、経路モデルは、相互作用の相関に基づき更新される。最も典型的には、オミックスデータセットは、ゲノムデータベース、BAMサーバ、またはシークエンシング装置から取得される。

0013

本発明の対象のさらなる態様では、推測するステップは確率モデルに基づいており、最も好ましくは、確率モデルは、共依存性および/または独立性調節モデルを使用する。さらに、考案された方法は、複数の調節型パラメータと進路の活性との間の依存性の重要度、および/または、進路の活性から得られる調節型パラメータ間の条件付き依存性の重要度を判定するステップを含む。また、このような方法は、調節型パラメータの相互作用の兆候を判定するステップを含むことを考慮することがさらに好ましい。

0014

本発明の対象のさらなる態様では、ある経路モデルの調節ノードの調節型パラメータのサブタイプに特異的な相互作用の相関を同定する方法は、オミックス入力インターフェースを介して、サブタイプの組織を表す少なくとも1つのオミックスデータセットを取得するステップと、オミックス処理モジュールを介して、複数の経路要素であって、このうち少なくとも2つの要素が、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合される、複数の経路要素を有する経路モデルを評価するさらなるステップとを含む。考案された方法は、オミックス処理モジュールを介して、複数の調節型パラメータのうち相互作用の確率評価によりサブタイプの組織を表す少なくとも1つのオミックスデータセットから、サブタイプの相互作用の相関を導出するステップをさらに含む。特に好ましい態様では、サブタイプの組織は、薬剤耐性組織、転移性組織、薬剤処置済組織、または組織のクローン変異体である。

0015

望ましい場合、考案された方法は、生体外(in vitro)、コンピュータ内(in silico)、および生体内(in vivo)での実験のうちの少なくとも1つを使用して、導出したサブタイプの相互作用の相関を検証するステップをさらに含んでもよい。

0016

本発明の対象のさらなる態様では、本発明者らは、ある組織を表すオミックスデータセットをサブタイプに特異的な組織に属するとして分類する方法を考案した。このような方法は、概して、オミックス入力インターフェースを介して、組織を表すオミックスデータセットを取得するステップと、オミックスデータセットに対して、経路モデルにおける調節ノードの複数の調節型パラメータの中で相互作用の相関の組み合わせを導出する別のステップとを含む。さらなる別のステップでは、導出した相互作用の相関の組み合わせは、知られているサブタイプに特異的な組織と関連する、従来知られている相互作用の相関の組み合わせと一致しており、この一致は、組織を表すオミックスデータセットが、知られているサブタイプに特異的な組織に属するものであると分類するために使用される。

0017

最も好ましくは、取得するステップは、知られていない調節特性を有する組織の組織試料(たとえば腫瘍の試料)から、組織を表すオミックスデータセットを作製することを含み、知られているサブタイプに特異的な組織は、薬剤耐性組織、転移性組織、薬剤処置済組織、または組織のクローン変異体である。

0018

本発明の対象のさらなる別の態様では、本発明者らは、複数の経路要素であって、このうち少なくとも2つが、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する経路を介して互いに結合されている、複数の経路要素を有する経路モデル中で、新薬開発につながる(druggable)標的を同定する方法を考案した。このような方法は、(a)オミックス入力インターフェースを介して、組織を表すオミックスデータセットを取得するステップと、(b)オミックスデータセットに対して、経路モデル中の調節ノードの複数の調節型パラメータの中で相互作用の相関の組み合わせを導出するステップと、(c)薬剤を、進路の活性に影響を与える薬剤と同定するステップであって、この薬剤が、相互作用の相関に干渉すると予測されるステップとを含む。最も典型的には、調節ノードは、転写、翻訳、およびタンパク質の翻訳後修飾のうちの少なくとも1つに影響を与え、薬剤は商業的に入手可能な薬剤であり、知られている作用モードを有する。

0019

本発明の対象のさらに別の態様では、本発明者らは、複数の経路要素であって、このうち少なくとも2つが、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して、互いに結合されている、複数の経路要素を有する経路モデル中で、標的経路を同定する方法を考案した。このような方法は、好ましくは、オミックス入力インターフェースを介して、ある組織を表すオミックスデータセットを取得するステップと、オミックスデータセットに対して、経路モデル中の調節ノードの複数の調節型パラメータの中で相互作用の相関の組み合わせを導出するさらなるステップと、相互作用の相関における薬剤の知られている作用に基づき、経路を標的経路と同定するさらなるステップとを含む。

0020

最も好ましくは、この知られている作用は、キナーゼ阻害性作用、受容体の阻害性作用、転写の阻害性作用のうちの少なくとも1つである。他の適切な標的経路の内、特に考慮される標的経路は、カルシウムカルモジュリン調節経路サイトカイン経路、ケモカイン経路、増殖因子調節経路、ホルモン調節経路、MAPキナーゼ調節経路、ホスファターゼ調節経路、およびRas調節経路である。このような方法は、同定した経路に基づく処置勧告を提供するステップをさらに含んでもよい。

0021

したがって、考案された方法はまた、複数の経路要素であって、このうちの少なくとも2つが、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合される、複数の経路要素を有する経路モデルを取得するステップを含む、薬剤の処置作用をコンピュータ内でシュミレーションする方法を含む。考案された方法は、少なくとも1つの調節型パラメータに影響を与えることが知られている薬剤を同定するステップと、オミックス処理モジュールを介し、かつ薬剤の知られている作用に基づき。調節ノード、活性、および少なくとも経路モデル中の調節型パラメータの内の少なくとも1つをコンピュータ内で変質させる別のステップと、経路モデル中の変質の二次的な作用を判定するさらに別のステップとをさらに含む。最も典型的には、二次的な作用は、別の調節ノード、別の活性、および経路モデル中の別の調節型パラメータにおけるものである。

0022

本発明の様々な目的、特徴、態様、および利点は、以下の、数値が構成要素を表す添付図面と共に、詳細な説明にある好ましい実施形態からより明らかとなるであろう。

図面の簡単な説明

0023

本発明の対象に係る学習エンジンの例示的概略図である。
図2Aは、本発明の対象に係る因子のグラフ構造の例示的概略図である。図2Bは、転写、翻訳、および活性ノード代替的な調節モデルを表す。
図3Aは、TCGAコホート全体を通して学習された各相互作用のWPMIベクター主成分分析法PCA)の例示的なグラフである。図3Bは、本経路の活性および阻害としてラベル化した重要なリンククラスターメンバーシップを例示する。図3Cは、クラスター質量中心のWPMI値のヒートマップであり、強力な阻害から強力な活性までの範囲を示す。
図4Aおよび4Bは、有益(informative)(4A)および平坦な(4B)初期化の下、重要なリンクのWPMI値のクラスターメンバーシップのバーのプロットを示す。
図5Aは、完全な条件付き確率を学習する各EMステップの実行時に以下の試験を失敗する固有子ノードパーセンテージを表す例示的なグラフである。図5Bは、コヒーレントインコヒーレントの三つの組の例示的な概略例である。
図6A〜6Cは、異なる解析方法を使用した経路解析のカプラン・マイヤーの生存曲線を表す例示的なグラフである。
図7は、G−スコアランクのヒートマップの例示的に表す。
図8A〜8Bは、PPARA−RXRAおよびTAp73aからの活性化リンクの組織により分類されるWPMIシグナルを表す例示的な箱ひげ図である。
図8A〜8Bは、PPARA−RXRAおよびTAp73aからの活性化リンクの組織により分類されるWPMIシグナルを表す例示的な箱ひげ図である。

実施例

0024

本発明者らは、調節型パラメータの相互関係を戦略的に決定する確率グラフィカル経路モデルを実施できることを新たに発見した。結果として、考案されたシステムおよび方法の解析およびシミュレーションは、非常に改善した正確性を提供し、かつ異なる経路および/またはサブ組織の中での調節要素の異なる使用の同定を可能にする。

0025

したがって、コホートにおける対象の表現型内で顕著に異なる使用の分布で調節リンクを同定することにより、どのように、ネットワーク内の異なる調節因子がそれらを達成するため、全体的に異なる経路を使用するにも関わらず類似した細胞表現型を産生できるかを試験する可能性がある。さらに、コホートの個々の試料またはサブセットが、以前学習した各調節ノードのパラメータのパターンの分布をどのくらい良好に順守するかを確立する統計試験に基づき、学習したパラメータを使用できる。

0026

以下の論述にわたり、参照符号は、サーバ、サービス、インターフェース、ポータルプラットフォーム、またはコンピュータ装置から形成された他のシステムに関してなされるものである。このような用語の使用は、コンピュータ可読有形固定媒体に格納されるソフトウェア命令を実行するよう構成した少なくとも1つのプロセッサを有する1つ以上のコンピュータ装置を表すとされることが明らかである。たとえば、サーバは、ウェブサーバデータベースサーバ、または記述した役割責任、または機能を果たす方法での他の種類のサーバを含むことができる。

0027

たとえば、図1は、学習エンジン110を含む例示的なエコシステム100を表す。学習エンジン110は、1つ以上の経路モデル150の観点から1つ以上のオミックスデータセット135を処理するよう構成される。学習エンジン110は、2つの主な構成要素である、対象となるデータセットを学習エンジン110が取得するオミックスインターフェース120、およびデータセットを解析するよう構成したオミックス処理モジュール170を含む。示される例では、ネットワーク115(たとえば、インターネットWAN、LAN、VPN、National Lamba Rail(National Lambda Rail)(URL www.nlr.net参照)など)を介してアクセス可能なコンピュータ装置として、可能な場合にはHTTPサーバの形態として例示される。一部の実施形態では、学習エンジン110は、ネットワーク115のサービスを有料で提供する。たとえば、学習エンジン110は、クラウド系PaaS(Platform as a Service)、IaaS(Infrastructure−as−a−Service)、SaaS(Software−as−a−Service)、または他の種類のサービスを介して、1つ以上のオミックス入力インターフェース120をアナリスト170または他のユーザに公開できる。他の実施形態では、学習エンジン110は、アナリスト170に対するローカルコンピューティング装置であり、以下に論述する学習エンジン110の役割および責任を果たす1つ以上のソフトウェア指示パッケージを実行するよう構成できる。

0028

オミックス入力インターフェース120は、1つ以上のオミックスデータセット135を受信するよう構成したコンピューティングインターフェースを表す。インターフェース120の一例として、ネットワーク115にわたりデータセット135を受信できるHTTPサーバを含むことができる。たとえば、データセット135は、直列化したフォーマット(たとえばXML)、BAMBAMフォーマット、または、たとえばHTTPサーバを介して伝達できる他の適切なデジタルフォーマットでのファイルを含むことができる。他の実施形態では、インターフェース120は、リモートプロシージャコールとして、またはさらにローカルライブラリファンクションコールを介して、ネットワーク115にわたり学習エンジン110に、データ構造またはそれらのリファレンスを渡すことのできるアプリケーションプログラムインターフェースAPI)の形態をとることができる。オミックス入力インターフェース120は、1つ以上のオミックスデータセット源130と結合するよう構成でき、可能な場合はデータベースとして作動できる。一部の実施形態では、学習エンジン110は、オミックス入力インターフェース120に結合したゲノムデータベースまたはシークエンシング装置を含む。

0029

オミックスデータセット135は、幅広い範囲のオミックスデータを含むことができる。より好ましい実施形態では、オミックスデータセット135は、ゲノムデータ、可能な場合は、全ゲノムデータ、部分的ゲノムデータ、異なる配列対象、または他のゲノムデータを表す。さらにまた、オミックスデータセット135は、プロテオミクスメタボロミクスリピドミクスキノミクス、または他のオミックスデータの様式を含む、他の種類のデータをも表すことができる。

0030

処理モジュール170は、オミックス入力インターフェース120と結合し、経路モデル150に関するデータセット135を解析するよう構成したコンピューティング装置の少なくとも一部を表す。処理モジュール170の1つの態様は、経路モデル150、可能な場合は、経路モデルデータベース140または他のモデル源からの経路モデル150のうちの1つ以上にアクセスする性質を含む。一部の実施形態では、オミックス処理モジュール170はまた、経路モデルデータベース140にアクセスするオミックス入力インターフェース120を活用することもできる。

0031

経路モデル150は、可能な場合には因子グラフの形態でモデル化する標的オミックスシステムの活性のデジタルモデルを表す。各経路モデル150は、複数の経路要素151A〜151Nを含む。これらは集合的に経路要素151を指す。経路要素151は、活性が起こる進路に沿った段階を表す。少なくとも2つの経路要素151の間で、たとえば例として示される経路要素151Aおよび151Bは、調節ノード153Aにより表される調節ノードであり、これは一般的には調節ノード153として表される。例示されてはないが、各組の経路要素151の間に追加的な調節ノード153があってもよい。したがって、少なくとも2つの経路要素151、たとえば経路要素151Aおよび151Bは、示されるように、調節ノード153A、調節ノード153を有する経路を介して互いに結合される。経路モデル150の調節ノード153は、1つ以上の調節型パラメータ155A(概して調節型パラメータ155と表される)の関数として要素の間の進路に沿った活性を調節する。経路モデル150は、任意の実数(practical number)の経路要素151、調節ノード153、および調節型パラメータ155を含むことができることが明らかである。例として、経路要素151がDNA配列、RNA配列、タンパク質、タンパク質の機能、または他の活性要素を含むシナリオが考えられる。

0032

経路要素151の1つがDNA配列を含むシナリオでは、調節型パラメータ155は、転写因子、転写アクチベータ、RNAポリメラーゼサブユニット、シス調節エレメント、トランス調節エレメント、アセチル化ヒストン、メチル化ヒストン、リプレッサー、または他の活性パラメータを含むことができる。さらに、経路要素151の1つがRNA配列を含むシナリオでは、調節型パラメータ155は、開始因子、翻訳因子、RNA結合タンパク質、リボソームタンパク質、siRNA、ポリA結合タンパク質、または他のRNA活性パラメータを含むことができる。またさらに、経路要素151の1つがタンパク質を含むシナリオでは、調節型パラメータ155は、リン酸化、アシル化、タンパク質分解性切断、または少なくとも第2のタンパク質との関連を含むことができる。

0033

オミックス処理モジュール170は、複数の調節型パラメータの中で相互作用の相関の組み合わせを推測するために、データセット135に加えて経路モデル150を活用する。相互作用の相関160を推測するために活用できる1例としての種類のモデルは、確率モデルであって、モデルが、複数の生のデータセット135を通して対となる調節因子パラメータを比較するために、オミックス処理モデル170を構成する、確率モデルを含む。一部の実施形態では、調節因子ノード153は、親から得られる子供の完全な条件付き確率テーブルを、学習エンジン110が学習する共依存性調節モデルに基づき作動する。他の場合では、調節ノード153は、学習エンジン110が、親から得られる子ノードの確率を計算する単純ベイズ推定を使用した条件付き確率を学習する独立性調節モデルに基づき作動できる。

0034

考慮される確率モデルは、複数の調節因子パラメータ155と対応する進路の活性との間の依存性の重要度、または、経路の活性から得られる調節型パラメータ間の条件付き依存性の重要度を判定するようさらに構成される。たとえば、条件付き確率が計算されるか、または確立されると、オミックス処理モジュール150は、重要度を判定するG検定を利用できる。さらに、確率モデルは、調節型パラメータの相互作用の兆候を判定するようさらに構成できる。相互作用の相関160が確立されると、経路モデル150は、学習した相互作用の関係を反映するよう更新できる。結果として、学習エンジンは概して、1つ以上のオミックスデータセットを受信するオミックス入力インターフェースを含むことが明らかである。このようなオミックス入力インターフェースは、多くの場合オミックス処理モジュールにオミックス情報を提供する、様々な装置またはシステムに結合されてもよい。たとえば、オミックス情報は、公開データ、ゲノム、RNomic、および/またはプロテオミックのデータベースから、オミックス情報データベース(たとえばTCGA)、ならびにDNA、RNA、および/またはタンパク質の配列データベースを含むオミックスデータを提供する他の装置、サービスおよびネットワーク、シークエンシング装置、BAMサーバなどの出力ファイルから導出されてもよい。結果として、データのフォーマットは、かなり変化してもよく、かつ全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象として表されてもよい。

0035

最も典型的には、オミックス処理モジュールは、インターフェースと情報的(informationally)に結合され、かつ、(a)複数の経路要素(たとえばDNA配列、RNA配列、タンパク質、タンパク質機能)であって、このうちの2つ以上が、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合される、複数の経路を有する経路モデルにアクセスし、(b)オミックス入力インターフェースを介して、少なくとも1つのオミックスデータセットを取得し、(c)少なくとも1つのオミックスデータセットおよび経路モデルに基づき、複数の調節型パラメータの中で相互作用の相関の組み合わせを推測し、(d)相互作用の相関に基づき経路モデルを更新するよう構成される。

0036

(a)経路モデルが、オミックスデータの組み合わせから作製され得るか、または以前の判定から取得し得ることが明らかである。したがって、考慮されるシステムおよび方法は、オミックス処理モジュールに結合し、1つ以上の以前に判定した経路モデルを記憶する記憶モジュールを含む。また、記憶した経路モデルは、「正常な」組織または罹患した組織に対応し得ることが明らかである。経路モデルが罹患組織由来である場合、罹患組織は、サブ特質(sub−trait)(たとえば、特定の薬剤に処置抵抗性のあるサブタイプ、転移性組織由来であるサブタイプなど)により特徴付けられる特定のサブタイプであり得ることが明らかである。また、多くの方法によりインターフェースを介してオミックスデータが提供され得ることも考慮される。たとえば、このデータは、単一のファイル、または別々のファイルの集合で提供されてもよく、これにより、以前に記憶したライブラリから、またはシークエンシング装置もしくは配列解析システムから、サービスプロバイダにより提供されてもよい。したがって、学習エンジンは、ゲノムデータベース、BAMサーバ、またはシークエンシング装置をさらに含んでもよく、またはそれらに結合されてもよい。

0037

特定の進路に応じて、経路要素の性質がかなり変化する場合があり、ここでは調節型パラメータの性質が変化することに留意されたい。しかしながら、一般的に、調節型パラメータは、経路要素から下流の要素までの進路を介してシグナルの流れを判定することに留意されたい。たとえば、経路要素がDNA配列であるか、またはDNA配列を含む場合、考慮される調節型パラメータは、DNA配列の転写(または他の役割)に影響を与える、それらの細胞エンティティである。したがって、DNA配列用に考慮される調節型パラメータは、1つ以上の転写因子、転写アクチベータ、RNAポリメラーゼサブユニット、シス調節エレメント、トランス調節エレメント、(脱)アセチル化ヒストン、(脱)メチル化ヒストン、および/またはリプレッサーを含む。同様に、経路要素がRNAで配列であるか、またはRNA配列を含む場合、適切な調節型パラメータは、RNAの翻訳(または他の活性)に影響を与える因子を含む。結果として、このような調節型パラメータは、開始因子、翻訳因子、RNA結合タンパク質、リボソームRNAおよび/もしくはタンパク質、siRNA、ならびに/またはポリA結合タンパク質を含む。同一の方法で、ここでの経路要素がタンパク質であるか、またはタンパク質を含む場合、タンパク質の活性に影響を与える全ての因子が適切な調節型パラメータであるとされ、それゆえ、他のタンパク質(たとえば、活性化複合体または異なる活性を伴う複合体を形成するためのタンパク質との相互作用)、化学的修飾(たとえばリン酸化、アシル化、タンパク質分解性切断など)を含んでもよい。

0038

調節型パラメータの中での相互作用の相関の組み合わせの推測に関して、一般的に、このような推測が、オミックスデータセットおよび/または経路モデルに基づいていることが考慮され、また、この推測が、以下にさらに詳細に記載される設定としての確率モデル(たとえば共依存性調節モデルおよび/または独立性調節モデル)を使用して実施されることも考慮される。潜在的に相互作用の相関が非常に大きい可能性があるため、さらに、オミックス処理モジュールが、(単一のノードの)調節型パラメータと進路の活性との間の依存性の重要度のレベル、および/または進路の活性から得られる(単一のノードの)調節型パラメータ間の条件付き依存性の重要度のレベルを判定することが考慮される。この方法では、解析の焦点は、以下にさらに詳細に論述されるように、統計的に最も高い重要度を伴う相互作用の相関に対して得られる。

0039

本発明の対象に限定されるものではないが、本発明者らは、相互作用の相関の解析およびこれらの重要度を、調節型パラメータの相互作用の兆候(陽性/活性、または陰性/阻害)を判定する、統計操作によりさらに精密化できることを発見した。このように判定した相互作用の相関および進路に関するこれらの影響の使用により、現在、経路のネットワークおよびこのような経路を介したシグナルの流れについての高く改善された理解が提供されている。

0040

したがって、異なる観点から見ると、経路モデルは、オミックス入力インターフェースを介して、少なくとも1つのオミックスデータセット(たとえば全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象)を取得することにより作製できることが理解される。その後、オミックス処理モジュールは、複数の経路要素であって、そのうちの少なくとも2つが、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合される、複数の経路要素を有する経路モデル(たとえば以前判定した経路モデル)にアクセスする。その後、オミックス処理モジュールは、オミックスデータセットおよび/または経路モデルに基づき、複数の調節型パラメータの中で相互作用の相関の組み合わせを推測し、この経路モデルはその後、相互作用の相関に基づき更新される。

0041

同様に、考案されたシステムおよび方法を使用して、経路モデルにおける調節ノードの調節型パラメータのサブタイプに特異的な相互作用の相関を同定できることが明らかである。以前のように、サブタイプ組織を表す少なくとも1つのオミックスデータセットは、オミックス入力インターフェースを介して取得され、オミックス処理モジュールは、以前に判定した経路モデルにアクセスする。サブタイプの相互作用の相関は、以下でさらに詳細に説明されるように、オミックス処理モジュールを介して、複数の調節型パラメータのうちの相互作用の確率評価により、サブタイプ組織を表すオミックスデータセットから導出しており、この導出したサブタイプの相互作用の相関は、経路モデルで表される(または組み込まれる)。組織の全ての種類のサブタイプは、本明細書での使用に適するとされ、特に考慮されるサブタイプは、薬剤耐性組織、転移性組織、薬剤処置済組織、および/または組織のクローン変異体を含む。実験に基づく実験なおよび/または理論上の実験(たとえば、生体外で、コンピュータ内で、生体内で)を、導出したサブタイプの相互作用の相関を検証するために実施してもよい。当然、このような方法の構成要素および方法に関しては、上記および以下で提供されるものと同一のことが考慮される。

0042

具体的には、本明細書に提示される確率グラフィカルモデルで、試料(たとえば腫瘍生検)由来の生物学的分子(たとえばタンパク質、mRNA、複合体、および微小生物分子)の状態は変数として表される。たとえば。各遺伝子では、変数は、遺伝子、遺伝子から転写されたmRNA、その遺伝子由来のタンパク質に関するゲノムのコピー数に使用され、多くの場合、遺伝子の生物学的活性(経路で注釈が付けられる)に対応する非物理的なさらなる変数に使用される。これら変数は、タンパク質の翻訳後修飾により調節されてもよい。また変数は、一般的に経路に注釈されるアポトーシスなどのより抽象的な状態を表すものを含むこともできる。

0043

分子の状態(たとえば遺伝子の転写、調節、タンパク質のリン酸化、複合体の形成)を変化させる因果関係のある相互作用は、調節中の変数から調節済の変数までの有向辺として表される。したがって、モデルの確率グラフ中の各変数Yでは、因数は、変数の状態をすべての調節因子:F(Y|X1,X2,...,XN)の状態に関連させる結合確率モデルに導入させ、このうち、X1〜XNは、Yを調節する変数である。この因数は、条件付き確率テーブルである。各Parents(Y)の設定では、Σyε F(Y=y|Parents(Y))=1である。ゲノムのコピー数または遺伝子発現などの個々の変数の観察は、別々の変数としてモデル化され、因数F(Y|X)により潜在変数、および同様の条件付き確率テーブルにも結び付けられる。完全な結合確率状態は、



であり、
式中、Zは、経路中の調節型サイクルにより必要とされる規格化定数である。

0044

試料を観察する場合、確率空間対数空間と反対)で実施した推測、10−9の収束許容誤差、およびSEGFIX更新スケジュールでのlibDAIにおけるループ確率伝搬法の実施(loopy belief propagation implementation)を使用して、各観察されていない変数の周辺分布解くことができる。すべてのF関数のパラメータは、libDAIの期待値最大化を介した機械学習プロセスにおいて学習され、連続した対数尤度比率が10−10未満である場合に停止される。

0045

典型的な因子のグラフ構造を表す図2Aに示されるように、本発明者らが各遺伝子の転写状態、翻訳状態、およびタンパク質調節状態に対応する各遺伝子のセントラルドグマに新規変数を新たに導入したことが理解される。このセントラルドグマは、各タンパク質コード遺伝子が同一のセントラルドグマ構造を有しており、それゆえ、すべての遺伝子間でパラメータを共有することが可能であることを意味する。その後、調節プログラムは、各遺伝子に対する転写、翻訳、およびタンパク質の調節の変数にモデル化される。

0046

調節モデル
以前に開発されたアルゴリズム(本明細書に参照として援用される国際公開第2013/062505号および国際公開第2011/139345号)を、調節ノードがどのようにアルゴリズムにより扱われるかを変更することにより拡張した。因子グラフを構築し、多くの種類のデータ間での比較を可能にするために、以前に開発されたアルゴリズムは、入力データを、いくつかの調節に対して、下方に(down)、上方に(up)、または標準に(normal)に離散化する。調節ノードは、DNAから活性タンパク質までの進路に沿ったいくつかの時点での所定の遺伝子の調節に関与した遺伝子の全ての活性シグナルを収集する。これらのシグナルは、因子を介した遺伝子のセントラルドグマの構造と結び付けるシグナルの変数に収集される。以前に開発されたアルゴリズムの下、調節ノードは、活性シグナルまたは阻害シグナルが伝達されたかどうかを決定するために、入力シグナル票決を単純に取る。

0047

対照的に、本発明の対象に係るシステムおよび方法では、親ノードX1,…,XNの設定から伝達して得られた子ノードの変数Yの各設定の尤度は、機械学習プロセスを使用して学習される。以下で、共依存性および独立性の調節モデルが比較され、図2Bに例示的に示され、転写、翻訳、および活性化のノード用の代替的調節モデルが表される。共依存性調節モデルでは、親から得た子の完全な条件付き確率テーブルが学習され、独立性調節モデルでは、個々のリンクの条件付き確率が学習され、単純ベイズ推定を使用して、親から得た子ノードの確率を計算する。

0048

具体的には、共依存性調節モデルを用いて、親および子の全ての考えられる設定の条件付き確率テーブルのパラメータとして確率を直接記憶させる。対照的に、独立性調節モデルを用いて、P(Y)およびP(Xi/Y)をパラメータとして使用し、パラメータの積を計算して以下の確率を発見する。



式中、Zは、P(X1,…,XN)に対応する規格化定数である。独立性調節モデル用のパラメータを初期化するために、P(Y)は、下方、上方、または標準の等しい確率が得られ、P(Xi|Y)用の初期の確率は、経路のリンクの注釈に基づいて設定される。リンクは、アクチベータとしての注釈P(down|down)=P(normal|normal)=P(up|up)=0.8でラベル化され、阻害因子(inhibitors)は、P(down|up)=P(normal|normal)=P(up|down)=0.8でラベル化され、すべての他の設定の確率は、すべて0.1に設定される。経路からのこの事前知識を使用する重要度を評価するために、全ての設定にわたる一様分布を使用して検定を実施している。同一の単純な票決手順を、共依存性調節モデルにおけるEM学習用初期パラメータとして、以前に開発されたアルゴリズムを当初の通り使用している。ε=0.001の場合、99.9%の確率が、確率の高い(win the vote)子の状態におかれ、0.05%が、初期の尤度として他の状態におかれる。

0049

さらにまた、本発明者らは、タンパク質および活性状態の間の複合体および遺伝子ファミリーの「活性化」の調節を可能にしている。特に、各ファミリーおよび複合体は、ファミリー/複合体、調節および活性、単一因子F(活性/調節、ファミリー/複合体)との結び付き、といった、3つの変数により新たにモデル化されている。ファミリーまたは複合体の調節因子は、共依存性または独立性調節モデルのいずれかを用いて、活性変数に結び付けられる。ファミリーまたは複合体の構成要素は、最小ノイズ(noisy−min)因子または最大ノイズ(noisy−max)因子のいずれかを使用し、ε=0.001でファミリー/複合体の変数と結び付けられる。対照的に、最小ノイズ因子または最大ノイズ因子のみを、以前に開発したアルゴリズムで使用している。

0050

調節の統計
本発明者らは子分布(第2の等式)から得た親の間の条件付き依存性の統計学的重要度と同様に、調節リンク(第1の等式)の親と子との間の依存性の統計的重要度を判定する、G検定を使用している。

0051

G検定はX2分布に従うものであり、したがって、それぞれ、親−子検定および親−親検定の4〜12の自由度でのX2分布を使用して、P値を発見できる。P値は、FDR(false discovery rate)に対して調整され、調整したP<0.05でのリンクは重要であると考えられる。G検定(相互情報量に比例する)は、相互作用がどれくらい強力であるかについて有益であるにも関わらず、相互作用の兆候についての詳細を提供するものではない(活性は陽性相互作用であり、阻害は陰性相互作用である)。

0052

このような情報を取得するために、本発明者らは、考えられるすべての親および子の設定での、親および子の間のピアソン相関、ならびに重み付け点別相互情報量(weighted pointwise mutual information)またはWPMI(以下の式を参照)の両方を計算している。同時分布P(Xi,Y)=P(Xi|Y)P(Y)を使用して相関を計算し、Fisher変換を使用して重要度を計算している。また、子を得た2つの親の間の相関を、コヒーレントまたはインコヒーレントを形成した3つのノードが、前ループ(forward loop)を供給するかどうかを判定するために計算している。グループ間のG検定の結果を比較するために、各グループのG統計量ランクの差異を取得した。この統計の重量度を、グループのメンバーシップの500のランダム置換での置換検定を実施し、次いでFDRを調節することにより計算した。この置換で観察したいずれかの値よりも大きな差異で、最小の考えられるP値を上限として使用した。

0053

したがって、WPMIは、単にG−スコアの合計のそれぞれの個々の要素であり、9つのWPMI値のベクターは、ヒートマップを解釈しやすいように配置できる。このデータは、HOPACHクラスタリングアルゴリズムバイオコンダクタ(Bioconductor)由来)を使用して解析でき、データと最も一致するクラスター番号を発見するよう試みられている。これにより、クラスタリングされたIPLの各組のクラスターの数が異なるようになる。全てのデータセット間の一定数のクラスターでのクラスタリングを発見するために、本発明者らは、小さなクラスターメンバーを最も近似した大きなクラスターに再配置することにより、最も小さなクラスターを崩壊させ、すべてのクラスタリングにわたり、一定の数のクラスターを取得するため、この方法で小さなクラスターを崩壊させた。また、この方法は、それらの比較にわたってクラスターサイズを一定に保つためにも提供される。

0054

実施例
経路モデルを作成する多くの方法が存在し、代表的なモデルは、Reactome、PID、およびBioCartaのNCI PIDパースから作成され、2012年2月27日のBioPAXのレベル3のフォーマットでダウンロードされる。この経路モデルは、7111のタンパク質、52のRNA遺伝子、15のmiRNA遺伝子、7813の複合体、1574の遺伝子ファミリー、および586の抽象的な生物学的工程を含むものであった。分子の活性状態(3266の阻害性)、2120の転写活性リンク、および397の転写抑制リンクを変化させる8603の相互作用が存在し、7813の複合体に対する24129の構成成分、および1574の遺伝子ファミリーの7170のメンバーが存在した。

0055

本発明者らは、本発明のシステムおよび方法により学習した相互作用に関与する遺伝子に関するGSEA(gene set enrichment)を実施するためDAVIDを使用した。DAVIDにより認識される遺伝子の数を最大にするために、遺伝子の複合体およびファミリーを、それらのコンポーネント遺伝子(component gene)に分割した。リンクに関与した遺伝子のエンリッチメント(enrichment)を、精選した経路の遺伝子の全てのバックグラウンドと比較した。

0056

N個の親を有する完全な条件付き確率テーブルは、親および子の全ての3N+1の考えられる設定での確率を記憶する。精選した経路の一部の中心的な遺伝子は、30超の調整因子を有するため、子ノードに付属する親ノードの数は、これらテーブルのサイズが禁止となることを防ぐために5に限定している。5超のタンパク質により調節した遺伝子では、この限定を維持するために中間ノードをグラフに加えた。したがって、10の調節因子を有する遺伝子は、各中間ノードに付属する5つの調節因子を有する2つの中間ノードを有する。

0057

11種類の組織から遺伝子発現およびコピーの数のデータを伴う1936のTCGAの腫瘍試料のデータセットを使用して、相互作用および調節型相互作用を学習し、相互作用の重要度をG検定により判定した。相互作用の兆候を、上述のように相関値を用いて判定した。タンパク質を調節する経路モデルでの9139の相互作用のうち、7631(83.5%)が、0.05のFDRで重要であることが見出された。TCGAコホート全体にわたり学習した各相互作用のWPMIベクターの主成分分析(PCA)は、強力な阻害から強力な活性までの勾配を明らかにした。例示的な主成分分析を図3A〜3Cに示す。ここでは、パネル(A)は、各点が上位2つの主成分上でのリンクに対する9のWPMIスコアで突出している、TCGAコホートでの調節リンクの主成分回析をグラフで示す。この凸包は、(突出しない)WPMIスコアで実施したk平均クラスタリングのメンバーシップを示し、クラスター番号は、各クラスターの中心に配置される。パネル(B)は、経路の活性および阻害としてラベル化した重要なリンクのクラスターメンバーシップを例示しており、パネル(C)は、強力な阻害(1)から強力な活性(5)までの範囲を示す、クラスターの中心のWPMI値のヒートマップを示す。WPMIベクターのk平均クラスタリングは、強力な活性から強力な阻害までの範囲の基準となる相互作用の種類を表すこの勾配に沿って、クラスターを発見した。7631の重要なリンクのうち、78(1%)が、どのようにリンクが経路で注釈付けされるかの反対の方向に、中心が向かっているクラスターに配置された。様々なWPMIベクターが、EMが、より複合的な調節型パターンと同様に、アクチベータおよび阻害因子に類似する新規の相互作用の体制を学習できることが示される。

0058

統計相関測定を使用して(上記参照)、本発明者らは、活性または阻害として各相互作用を評価し、経路モデルで注釈した相互作用の種類で比較した。重要な相関およびG−スコアの両方を有する7357のリンクが存在し、このうち219のリンク(3%)の相関が、経路の調節の方向と一致しなかった。このことは、両方の検定により重要であり、精選したリンクと一致する7138(78%)のリンクを残している。また、本発明者らは、一部のリンクが高い相関値を有するが、G検定からの重要度は低いことを発見し、これにより、親または子のいずれかの分布が単一の状態であることが非常に好ましい場合に通常観察された。

0059

本発明の方法により学習したリンクのうち、1197が有意な相関およびG−スコアを有しており、複合体またはファミリーを含むものではなかった。これらリンクのうち51(4.3%)では、相関係数の兆候は、文献と一致しなかった。他方で、遺伝子発現プロファイルのみを見ると、1058の非複合体非ファミリーのリンクが、重要な相関を伴うことが発見されたが、470(44%)が、経路のエントリの兆候と一致しなかった。第2の比較では、ファミリーおよび複合体の構成要素であるすべての遺伝子を、それらのファミリーおよび複合体により調節したいずれかの遺伝子に対して直接的に結び付けることにより、経路において複合体およびファミリーを除去した。この平坦化手順は、200921のリンクをもたらした。これらリンクのうち165258が、顕著に相関した遺伝子発現プロファイルを有し、かつリンクのうち81558(49.4%)が、経路のリンクの方向と一致しない相関を有していることが発見されている。これらの結果より、本発明の方法により学習したリンクが、遺伝子発現プロファイルの相関よりも、文献でのリンクの方向と非常に良好に一致することが示される。

0060

TCGAの卵巣癌(OV)の患者(N=416)から、複合体およびファミリーの活性調節を用いずに学習したWPMIスコアのみに関するPCAの作動およびクラスタリング解析は、図3Aおよび3Cに示されるPCAおよびクラスターの中心と非常に類似した結果をもたらしているが、重要なリンクは少なく、アクチベータとして注釈され、かつ阻害因子として学習され、またはその逆でもあるリンクの比率は高いことが発見されている(図4A)。P(Xi|Y)=1/3の平坦な初期化(図4B)を使用した際に、本発明者らは、クラスターの中心が、活性から阻害までの勾配に再びマッピングされ、方向情報を含む初期設定でのリンクよりも重要なリンクが少なく、リンク方向の不一致の比率が高いことを発見した。

0061

図2に提示した単純ベイズの独立仮定を試験するために、本発明の概念に係るシステムおよび方法を、TCGAの卵巣癌の試料に関する独立性および共依存性の調節モデルの両方で作動させた。本発明者らは、各作動のEMステップで計算した期待値に関する条件付き独立仮定を試験した(図5A参照)。図5Aは、完全な条件付き確率を学習する各作動のEMステップで、以下の検定を失敗する固有の子ノードのパーセンテージを例示する。(凡例:i.子から得られる任意の2つの親の条件付き独立性の重要度の検定。ii.検定i、および失敗した親のうちの少なくとも1つが子に顕著にリンクしている。iii.検定i、および失敗している3つ組は、インコヒーレントである。iv.検定i、ii、およびiii。学習の各ステップでは、少数共調節因子が、互いに依存していることを発見している。自身の転写を調節する転写因子などの、経路の小さなフィードバックループを理由に、独立仮定が場合によっては失敗することが予測される。さらに、1つの分子のみが異なる2つの非常に類似する複合体では、コンフリクトがほとんどないにも関わらず、条件付き独立性検定が失敗することが予想される場合、同一の子ノードを共調節することが非常に共通している。結果として、本発明者らは、2つの共調節因子が独立性検定に失敗する場合を、図5Bに示すように模式的に「コヒーレント」クラスおよび「インコヒーレント」クラスに分ける。図5Bは、コヒーレント対インコヒーレントの3つ組の例を模式的に例示する。矢印は、陽性相関(活性)の尖頭(pointed head)および陰性相関(阻害)の皿頭(flat head)との相関に対応する。親の間の相互作用は文献に見出されておらず、したがって、その相互作用の方向が知られていないため、両方向の矢印を使用した。

0062

さらに、2つの共調節因子は、他の調節因子の強度に起因して、共調節因子のうちの1つが重要ではない調節因子である場合でさえ、独立性検定に失敗する場合がある。したがって、本発明者らは、両方の共調節因子が自身に重要である場合のサブセットをも考慮しており、この検定は、重み付けした票決方法により作成した初期パラメータが、おおよそ50%の子ノードの条件付き独立性検定の失敗を引き起こすが、EMアルゴリズムは、パラメータの設定をより学習しやすくなるため、徐々に検定に失敗するノードが減少することを示す。それらの検定のすべての組み合わせは、子ノードの5%未満のみが意味のある方法で共依存性の調節因子を有しやすいことを示す。

0063

卵巣癌の試料を使用して、本発明者らは、以前に開発したアルゴリズム(国際公開第2013/062505号および国際公開第2011/139345号)により作製したタンパク質活性予測、ならびに共依存性の調節モデルおよび独立性の調節モデルの両方からの予測をさらにクラスタリングした。次いで、顕著に異なる生存プロファイルを有しているかどうかを見るために、これらクラスター上でカプラン・マイヤー解析を実施した(図6)。ここで、統合経路活性によりクラスタリングしたTCGA卵巣のコホート中の416の患者のカプラン・マイヤー生存曲線を、以前に開発したアルゴリズム(図6A)、調節ノードの完全な条件付き確率テーブルを学習する本発明のアルゴリズム(図6B)、および単一のリンクの条件付き学率を学習し、かつ単純ベイズ推定を使用する本発明のアルゴリズム(図6C)を使用して示す。本発明者らは、独立性の調節モデル活性予測を使用して作成したクラスターは、これらの生存(ログランクP=2.0×10−4)により最も分離可能であることを発見した。また、本発明者らは、P(Xi|Y)パラメータについての平坦な初期設定を有する独立性調節モデルを使用したこの検定を実施し、かつ、以前に開発したアルゴリズムよりも劣った状態で実施されたことを発見した。繰り返すが、このことは、本学習方法が、平坦な初期の相互作用の設定を使用する際に失われる相互作用の種類についての事前知識が必要であることを示している。

0064

図7は、組織の相関スコアおよびその重要度に比例する飽和度の設定により、各相互作用の色付けにより最も高い重要度における組織の異なるリンクの使用を示す。最も強力な異なるg—スコアは、TP53、MYC/MAX、HIF1A/ARNT、TAp73a、E2F1、およびPPARA−RXRAを含む、鍵となる癌遺伝子および複合体により調節したリンクで見られた。特定の対象は、GBM[脳およびKIRC(腎臓)]内で主に異なるPPARA−RXRAにより調節されるリンク、ならびにOV(卵巣)およびUCEC(類子宮内膜)での少ない度合いに対するTAp73a調節型リンクである。図8Aおよび8Bは、PPARA−RXRAおよびTAp73aからの活性リンクに関して組織によりグループ分けしたWPMIシグナルのプロットを示しており、ここで、顕著に増加した重みは活性対角線上で見られ、これら組織中のアクチベータとしてこれらのリンク使用が増大したことを示す。親ノードとしてPPARA:RXRAを有するリンクに対するWPMI値を示すことが図8Aから分かるため、GBMおよびKIRCにおいてより強力な活性シグナルが存在し、図8Bは、親ノードとしてTAp73aを有するリンクに対するWPMI値を示し、これはOVの活性を示す。

0065

TAp73の活性の重要度は、p73発現に関連する病因である女性生殖系またはホルモンパターンを潜在的に示す。TAp73は、アポトーシスの細胞周期阻害因子および誘導因子の発現を促進し、このうちの1つが腫瘍の抑制因子BAXであり、癌遺伝子BCL2の活性の阻害因子として作用する。BCL2は、漿液性卵巣癌で大いに発現することが知られており、この結果から、TAp73が大いに発現され、BAX発現(およびBCL2阻害)の強力な促進因子であるにも関わらず、腫瘍形成遅延に有効ではなく、BCL2の小分子の阻害も同様に有効でない可能性が示唆される。驚くことではないが、BCL2の小分子阻害因子での卵巣癌の単剤処置は、漿液性卵巣癌の高いBCL2発現にも関わらず、今まで成功していない。このことは、この種の癌のTAp73媒介型活性のダウンストリームの抑制または減弱を示唆している。本明細書での漿液性卵巣試料のほぼ全てが、p53に変異を有し、TAp73の過剰発現または増大した活性に打ち勝つように、腫瘍形成のアップストリーム短絡を示唆する場合があることに留意することが重要である。他のグループは、さらに、GMBおよびKIRCの両方におけるPPARA−RXRAの活性およびフェノフィブラート、PPARAアゴニストに対する感受性の重要度を示した。この解析を介して同定した組織に特異的な兆候は、現在のTCGAデータセットの状況で試験する際に固有であることが分かった最近の生物学的発見を反復することが明らかである

0066

TCGAコホート(表1参照)全体にわたり学習される最も重要なリンクは、フォークヘッドボックス転写因子A1、p53、およびエストロゲン受容体αを含むいくつかの既知の癌遺伝子である。最も高いG−スコアを有する50の相互作用に関与する遺伝子におけるDAVIDでのGSEA(gene set enrichment analysis)を実施するために、本発明者らは、コンポーネント遺伝子を用いてファミリーおよび複合体を置き換えた。これにより、上位50のリンクからDAVIDにより認識した112の固有の遺伝子を作製した。これらの遺伝子は、「癌の経路」、「アポトーシス」、「Jak−STATシグナリング経路」、および「MAPKシグナリング経路」、ならびに異なる種類の癌の種類に特異的ないくつかの用語を含む、いくつかの関連するKEGGの用語に対して顕著に改良される(P<1e−7)ことが発見されたことを示した。次いで、本発明者らは、経路にリンクされた遺伝子の遺伝子発現相関を見ることのみにより見出せたものを用いて、この結果を比較した。本発明者らは、本発明のアルゴリズムにより作成した設定に対して比較可能なサイズである固有の遺伝子の組み合わせ(N=119)を得るために、平坦化した経路からのピアソン相関により上位200の遺伝子発現対を取得することを必要とした。両方の遺伝子の組が、生物学的プロセスGOTERM_BP_FAT)の遺伝子オントロジー用語に対して同様のエンリッチメントをもたらすにも関わらず、学習したリンク(FDR<0.05での20対46)およびFDRの使用よりも遺伝子発現相関を使用することによるKEGG用語が非常に少ないことを発見した。2つの組の間で重複したKEGG用語は、判定した組において少数のFDRを有している。経路のファミリーおよび複合体の平坦化がこれら結果を偏向していなかったことを確かめるために、本発明者らは、経路のみでの非ファミリー、非複合体のリンクについてのこの解析を反復し、同様の結果を得た(20のKEGG用語がFDR<0.05での発現相関に関する3つに対して学習リンク見出された)。

0067

本発明者らはまた、サブタイプ間の調節の差異への一部の見通しを得るために、乳癌のサブタイプの間のリンクの強度を比較した(表2参照)。組織間の他の比較と同様のこの比較は、活性から阻害までの方向を完全に切り替えるリンクを見出さなかった。代わりに、本発明者らは、リンクがオフまたはオンになる(強力なアクチベータから中性に変化する)ことを観察した。この方向はほとんど変化しないため、本発明者らは、これがリンクのG−スコアの重要度の間の差異を単純に見ることが有益であることを発見した。本発明者らは、G−スコアのランクの差異を使用して、試料のサイズに関するG−スコアの依存性を調整するために、グループ間で比較した。最も高いランクの差異を有するリンクの多くは、同一の親を有した。この理由のため、表2は、親の基準あたり最も高いランクの差異を備えるリンクを示す。基底の腫瘍中でより強い上位10のリンクのうち9では、HIF1Aが親であり、管腔A腫瘍中での上位4つの強いリンクは、親としてのCEBPBを有した。

0068

臨床的に関連する活性およびリンク強度を同定するために、本発明者らは、エストロゲン受容体−陽性(ER+)乳癌患者を試験し、リンクG−スコアおよびLPLの両方に関するTCGA生存データの公式化されたCox比例ハザードモデルを実施して、コホートを最良に分割する特徴の最適な数を同定した。最小値ラムダでは、coxnetモデルは、ER+乳癌の患者を最良に分割する9つの特徴を含んだ(表3参照)。9つの特徴のうち4つは、リンクG−スコアであり、潜在的な予後マーカーとしてのこれらスコアの独立した有用性が例示される。

0069

CEBPBおよびHIF1A/ARNTを、表2および3に表す。CEBPBは、腫瘍の進行、予後不良、およびER陰性状態に関連した転写因子である。さらに、HSP90B1の過剰発現、CEBPBにより調節され、表2により見出される熱ショックタンパク質は、遠隔転移に関連し、他の良好な予後を伴う乳癌の患者における全生存が減少した。HSP90B1は、ビテスペンという名称メラノーマ免疫療法としての臨床試験を経ている。HIF1A/ARNT過剰発現は、ER−およびPR−の乳癌に臨床的に関連しており、スプライスバリアントは、無転移生存の低減に関連した。基底の腫瘍は、一般的にERであり、管腔A腫瘍は一般的にER+であるため、異なるリンクの強度は、基底の腫瘍のスプライスバリアントの発生の増大によるものである場合がある。基底および管腔の間のG−スコアのランク差異による上位2つのリンクは、HK1およびHK2(ヘキソキナーゼ)を活性化するHIF1A/ARNTであり、HK2は、グルコース代謝およびアポトーシスに関与しており、開頭術後の生存不良ならびに乳癌からの脳の転移に関連する。これらの知見は、腫瘍のサブタイプ間で対比し、かつ臨床変数を予想するサブタイプ内のリンクを探索することにより、関連のあるリンクを発見するための実行可能性を示す。

0070

上記に基づき、考案されたシステムおよび方法は、文献から精選した調節型相互作用の強度および兆候を学習するための複数のオミックスデータの組合せを可能にすることが理解される。この条件付き独立性の推定は、モデルの複雑さを低減でき、現存するデータセットを使用して調節型パラメータの十分な評価を可能にする。さらに、本発明者らは、独立性推定が、細胞の調節プログラムの大部分に有効であることも例証した。さらに、独立性推定が保持されていない場合、独立因子が、共依存性調節プログラムを適切にモデル化するさらなる複合化因子と置換できることが考慮される。これらの学習パラメータを適用する場合、試料のコホートを通して、または対象の表現型の間で相互作用がどのように変化するかを見ることにより、最も強いリンクを単純に見ることから生物学的知見を得ることができる。

0071

また、癌のサブタイプが異なる相互作用を使用するにも関わらず、相互作用は概して特定の腫瘍に使用する際はいつでも、一定した兆候を有することが明らかである。さらに、学習した相互作用の兆候およびデータベース中の相互作用の兆候の一致は、経路データベースにわたるBioPAX言語において相互作用の兆候が注釈される多様な方法があるにも関わらず、経路データベースがすでに、成功裏にかつ忠実カタログ化された文献中の数千のウェットラボ(wetlab)の実験を有することを示唆している。

0072

さらに、共調節因子の独立性は、モデル推論およびパラメータ学習に有益なコンピュータ上の利点を提供し、かつモデル解釈をも支援することが明らかである。調節モデルの因数分解可能性は、対数線形に対応する。しかしながら、本モデル中の多数の調節因子は複合体であり、複合体形成因子は非線形の最大ノイズ関数である。したがって、調節非線形性は、物理的複合体を表すことにより因子グラフ中にコードできる。これは、本経路の大部分の調節されたリンクの物理的解釈に対する妥当性をもたらす:独立性調節因子の競合的結合は、真に独立した物理的エンティティが複合体として捕捉される限り、直線的に組み合わされる。この物理的解釈が真である場合、測定した物理的結合定数の相対強度および判定した相互作用のスコアの間で対応性が存在するはずである。独立性推定が保持されていない場合、潜在型の共因子が存在する可能性があり、P(Y|X1,X2)などの因子でP(Y|X1)P(Y|X2)を置き換えることによりモデル化できる。

0073

考案された方法およびシステムが、組織のサブタイプ間での相互作用の相関を区別できるため、本発明者らは、組織(たとえば腫瘍生検から取得)を表すオミックスデータセットを、サブタイプに特異的な組織に属する(たとえば、特定の薬剤に関して処置抵抗性のある腫瘍に属する)と分類する方法をも考慮する。上述の方法と同様に、考案された方法は、まず組織を表すオミックスデータセットを、オミックス入力インターフェースを介して取得し、次いで、オミックスデータセットに対して、経路モデル中の調節ノードの複数の調節型パラメータの中で相互作用の相関の組み合わせを導出する。したがって、導出した相互作用の相関の組み合わせを、知られているサブタイプに特異的な組織に関連すると予め知られている相互作用の相関の組み合わせと一致させ、望ましい場合、この一致を、オミックスデータセットの分類に使用する(たとえば、知られているサブタイプに特異的な組織を表し、それによって、組織をサブタイプに属すると分類するために)。したがって、考案されたシステムおよび方法は、1つ以上の相互作用の相関の性質(signatures)に基づき、単にサブタイプの観点から組織を特徴付けることが可能である。他の考慮される組織のサブタイプの中で、特に有益なサブタイプとして、薬剤耐性組織、転移性組織、薬剤処置済組織、または組織のクローン変異体が挙げられる。

0074

さらに、考案されたシステムおよび方法は、シグナリング経路および/または経路ネットワークを介したシグナルフローの同定を可能にするため、考案されたシステムおよび方法が、経路モデル中の新薬開発につながる標的を同定するために有益であることも明らかである。このような同定は、概して、(a)オミックス入力インターフェースを介して、組織を表すオミックスデータセットを取得するステップと、(b)オミックスデータセットに対して、経路モデル中の調節ノードの複数の調節型パラメータの中で相互作用の相関の組み合わせを導出するステップと、(c)薬剤が相互作用の相関を妨害すると予測される薬剤を、進路の活性に影響を与えるものと同定するステップとを含む。最も典型的には、調節ノードは、転写、翻訳、およびタンパク質の翻訳語修飾のうちの少なくとも1つに影響を与え、この薬剤は商業的に入手可能であり、知られている作用モデルを有する。

0075

したがって、経路の調節型パラメータの中で特定の相互作用の相関が知られているため、経路モデルにおける標的経路は、組織を表すオミックスデータセット、およびオミックスデータセットに対して、経路モデルの調節ノードの調節型パラメータの中での相互作用の相関の組み合わせの導出を使用して容易に同定できる。薬剤が、相互作用の相関に既知の作用を有する場合、この薬剤は標的経路を標的化するために使用できる。たとえば、薬剤の既知の作用は、キナーゼ対する阻害作用、受容体に対する阻害作用、および転写に対する阻害作用であってもよい。したがって、他の適切な標的経路の中で、特に考慮される標的経路として、カルシウム/カルモジュリン調節経路、サイトカイン経路、ケモカイン経路、増殖因子調節経路、ホルモン調節経路、MAPキナーゼ調節経路、ホスファターゼ調節経路、およびRas調節経路を含むことができる。経路解析の結果に応じて、処置の勧告が、同定した経路に基づくものであってもよい。

0076

さらに、患者に処置を実際に行う必要はないが、経路の調節型パラメータのうちの1つ以上の特定の相互作用の相関が知られていると、この処置がシミュレートされてもよいことが明らかである。このようなシミュレーションを使用して、複数の薬剤の処置結果または同定が、経路を介した兆候が効率的に低いことを予測してもよい。したがって、考案された方法はまた、複数の経路要素であって、このうちの少なくとも2つが、複数の調節型パラメータの関数として、進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合されている複数の経路要素を有する経路モデルを取得するステップを含む薬剤の処置の作用を、コンピュータ内でシミュレートする方法をも含む。考案された方法は、少なくとも1つの調節型パラメータに影響を与えることが知られている薬剤を同定するステップと、オミックス処理モジュールを介して、薬剤の知られている作用に基づき、調節ノード、活性、および経路モデル中の少なくとも1つの調節型パラメータのうちの少なくとも1つをコンピュータ内で変質させる別のステップと、経路モデル中の変質の二次的な作用を判定するさらなる別のステップとをさらに含む。最も典型的には、二次的な作用は、別の調節ノード、別の活性、および経路モデル中の別の調節型パラメータである。

0077

すでに記述した修正に加え多くの修正が、本明細書中の本発明の概念から逸脱することなく行うことができることが当業者に明らかである。したがって、本発明の対象は、添付した特許請求の範囲の趣旨を除いて限定されるものではない。さらに、明細書および特許請求の範囲の両方を解釈する際に、全ての用語は、文脈と一致する最も広い範囲の方法で解釈されるべきである。特に、用語「含む(comprise)」および「含んでいる(comprising)」は、非排他的な方法での要素、構成要素、またはステップを指すと解釈されるべきであり、この参照される要素、構成要素、またはステップは、明白に示されていない他の要素、構成要素、またはステップを表しても良く、または利用してもよく、または組み合わせても良いことが示唆される。明細書中の特許請求の範囲が、A、B、C...およびNからなる群から選択された、いくつかのうちの少なくとも1つを指す場合、この文章は、群から選択された1つの要素のみを必要とすると解釈されるものであり、A+NまたはB+Nなどが必要であると解釈されるものではない。

0078

本出願は以下の発明を含み得る。
(1)
学習エンジンであって、
複数のオミックスデータセットを受信するよう構成したオミックス入力インターフェースと、
前記インターフェースと結合したオミックス処理モジュールであって、
複数の経路要素を有する経路モデルにアクセスすることであって、前記複数の経路要素のうち少なくとも2つの要素が、複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合し、
前記オミックス入力インターフェースを介して、前記オミックスデータセットの少なくとも1つを取得し、
前記少なくとも1つのオミックスデータセットおよび前記経路モデルに基づき、前記複数の調節型パラメータの中で相互作用の相関の組み合わせを推測する、
よう構成される、オミックス処理モジュールと
を含み、
前記オミックス処理モジュールが、共依存性調節モデルまたは独立性調節モデルを使用して前記相互作用の相関を推測するよう構成される、
学習エンジン。
(2)
前記オミックスデータセットが、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象を含む、(1)に記載の学習エンジン。
(3)
前記オミックス処理モジュールが前記相互作用の相関に基づき前記経路モデルを更新する、(1)または(2)に記載の学習エンジン。
(4)
前記経路要素が、DNA配列、RNA配列、タンパク質、およびタンパク質機能のうちの少なくとも1つを含む、(1)〜(3)のいずれか1項に記載の学習エンジン。
(5)
前記経路要素がDNA配列を含み、かつ前記複数の調節型パラメータのうちの少なくとも1つが、転写因子、転写アクチベータ、RNAポリメラーゼサブユニット、シス調節エレメント、トランス調節エレメント、アセチル化ヒストン、メチル化ヒストン、およびリプレッサーからなる群から選択される、(1)〜(4)のいずれか1項に記載の学習エンジン。
(6)
前記経路要素がRNA配列を含み、かつ前記複数の調節型パラメータのうちの少なくとも1つが、開始因子、翻訳因子、RNA結合タンパク質、リボソームタンパク質、siRNA、およびポリA結合タンパク質からなる群から選択される、(1)〜(5)のいずれか1項に記載の学習エンジン。
(7)
前記経路要素がタンパク質を含み、かつ前記複数の調節型パラメータのうちの少なくとも1つが、リン酸化、アシル化、タンパク質分解性切断、および少なくとも第2のタンパク質との関連である、(1)〜(6)のいずれか1項に記載の学習エンジン。
(8)
前記オミックス処理モジュールが、共依存性調節モデルを使用して前記相互作用の相関を推測するよう構成される、(1)〜(7)のいずれか1項に記載の学習エンジン。
(9)
前記オミックス処理モジュールが、独立性調節モデルを使用して前記相互作用の相関を推測するよう構成される、(1)〜(8)のいずれか1項に記載の学習エンジン。
(10)
前記オミックス処理モジュールが、前記複数の調節型パラメータと前記進路の前記活性との間の依存性の重要度、および/または前記進路の活性から得られる前記調節型パラメータ間の条件付き依存性の重要度をさらに判定する、(1)〜(9)のいずれか1項に記載の学習エンジン。
(11)
前記オミックス処理モジュールが、前記調節型パラメータの前記相互作用の兆候をさらに判定する、(1)〜(10)のいずれか1項に記載の学習エンジン。
(12)
修正経路モデルの作成方法であって、
オミックス入力インターフェースを介して、少なくとも1つのオミックスデータセットを取得することと、
オミックス処理モジュールを介して、複数の経路要素を有する経路モデルにアクセスすることであって、前記複数の経路要素のうちの少なくとも2つが、複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合されている、ことと、
前記オミックス処理モジュールを介して、前記少なくとも1つのオミックスデータセットおよび前記経路モデルに基づき、前記複数の調節型パラメータの中で相互作用の相関の組み合わせを推測することと、
前記相互作用の相関に基づき前記経路モデルを更新し、これによって修正経路も出るに到達することと
を含み、
前記推測するステップが共依存性調節モデルまたは独立性調節モデルに基づく、
方法。
(13)
前記オミックスデータセットが、全ゲノムデータ、部分的ゲノムデータ、または異なる配列対象を含み、かつ前記オミックスデータセットが、ゲノムデータベース、BAMサーバ、またはシークエンシング装置から取得される、(12)に記載の方法。
(14)
前記推測するステップが、共依存性調節モデルを使用する、(12)または(13)に記載の方法。
(15)
前記推測するステップが、独立性調節モデルを使用する、(12)または(13)に記載の方法。
(16)
前記複数の調節型パラメータと前記進路の前記活性と間の依存性の重要度、および/または前記進路の活性から得られる前記調節型パラメータ間の条件付き依存性の重要度を判定するステップをさらに含む、(12)〜(15)のいずれか1項に記載の方法。
(17)
前記調節型パラメータの相互作用の兆候を判定するステップをさらに含む、(12)〜(16)のいずれか1項に記載の方法。
(18)
前記調節型パラメータの前記相互作用の兆候が、主成分分析(PCA)を用いて判定される、(17)に記載の方法。
(19)
経路モデルの調節ノードの調節型パラメータのサブタイプに特異的な相互作用の相関を同定する方法であって、
オミックス入力インターフェースを介して、組織サブタイプを表す少なくとも1つのオミックスデータセットを取得することと、
オミックス処理モジュールを介して、複数の経路要素を有する経路モデルにアクセスすることであって、前記複数の経路要素の少なくとも2つが、前記複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合される、ことと、
前記オミックス処理モジュールを介して、前記複数の調節型パラメータの中での相互作用の共依存性調節解析または独立性調節解析により前記組織サブタイプを表す前記少なくとも1つのオミックスデータセットから、サブタイプの相互作用の相関を導出することと、
前記経路モデルに、前記導出したサブタイプの相互作用の相関を提示することと
を含む、方法。
(20)
前記組織サブタイプが、薬剤耐性組織、転移性組織、薬剤処置済組織、または組織のクローン変異体である、(19)に記載の方法。
(21)
生体外で、コンピュータ内で、および生体内での実験の内の少なくとも1つを使用して、前記導出したサブタイプの相互作用の相関を検証するステップをさらに含む、(19)に記載の方法。
(22)
組織に特異的なサブタイプに属する組織を表すオミックスデータセットを分類する方法であって、
オミックス入力インターフェースを介して、前記組織を表す前記オミックスデータセットを取得することと、
経路モデル中の調節ノードの複数の調節型パラメータの中で相互作用の相関の組み合わせを、共依存性調節モデルまたは独立性調節モデルを使用して前記オミックスデータセットに対して導出することと、
知られている組織に特異的なサブタイプに関連すると予め知られている相互作用の相関組み合わせに、前記導出した相互作用の相関の組み合わせを一致させることと、
前記一致を使用して、前記知られている組織に特異的なサブタイプに属する組織を表す前記オミックスデータセットを分類することと
を含む、方法。
(23)
前記取得するステップが、知られていない調節特性を有する組織の組織試料から、前記組織を表す前記オミックスデータセットを作成することを含む、(22)に記載の方法。
(24)
前記組織の試料が、腫瘍組織試料である、(22)または(23)に記載の方法。
(25)
前記知られている組織に特異的なサブタイプが、薬剤耐性組織、転移性組織、薬剤処置済組織、または組織のクローン変異体である、(22)〜(24)のいずれか1項に記載の方法。
(26)
複数の経路要素を有する経路モデル中の新薬開発につながる標的を同定する方法であって、前記複数の経路要素のうち少なくとも2つが、複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合され、前記方法が、
オミックス入力インターフェースを介して、組織を表すオミックスデータセットを取得することと、
前記経路モデルの前記調節ノードの前記複数の調節型パラメータの中で相互作用の相関の組み合わせを、共依存性調節モデルまたは独立性調節モデルを使用して前記オミックスデータセットに対して導出することと、
薬剤が前記進路の前記活性に影響すると同定することであって、前記薬剤が、前記相互作用の相関に干渉すると予測されることと
を含む、方法。
(27)
前記調節ノードが、転写、翻訳、およびタンパク質の翻訳後修飾のうちの少なくとも1つに影響を与える、(26)に記載の方法。
(28)
前記薬剤が、商業的に入手可能な薬剤であり、知られている作用モードを有する、(26)に記載の方法。
(29)
複数の経路要素を有する経路モデルにおける標的経路を同定する方法であって、前記要素の少なくとも2つが、複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する前記進路を介して互いに結合され、前記方法が、
オミックス入力インターフェースを介して、組織を表すオミックスデータセットを取得することと、
前記経路モデルの前記調節ノードの前記複数の調節型パラメータの中で相互作用の相関の組み合わせを、共依存性調節モデルまたは独立性調節モデルを使用して前記オミックスデータに対して導出することと、
前記相互作用の相関に関する薬剤の知られている作用に基づき、経路を前記標的経路として同定することと
を含む、方法。
(30)
前記知られている作用が、キナーゼの阻害性作用、受容体の阻害性作用、および転写の阻害性作用のうちの少なくとも1つである、(29)に記載の方法。
(31)
前記標的経路が、カルシウム/カルモジュリン調節経路、サイトカイン経路、ケモカイン経路、増殖因子調節経路、ホルモン調節経路、MAPキナーゼ調節経路、ホスファターゼ調節経路、またはRas調節経路である、(29)に記載の方法。
(32)
前記同定した経路に基づき処置の勧告を提供するステップをさらに含む、(29)に記載の方法。
(33)
薬剤の処置作用をコンピュータ内でシミュレートする方法であって、
複数の経路要素を有する経路モデルを取得することであって、前記複数の経路要素の少なくとも2つが、複数の調節型パラメータの関数として、進路であって、前記進路に沿って活性を調節する調節ノードを有する進路を介して互いに結合され、少なくとも1つの調節型パラメータの中の相互作用の相関が共依存性調節モデルまたは独立性調節モデルを使用して推測される、ことと、
少なくとも1つの調節型パラメータに影響を与えることが知られている薬剤を同定することと、
オミックス処理モジュールを介し、かつ前記薬剤の知られている作用に基づき、前記調節ノード、前記活性、および少なくとも前記経路モデルの前記調節型パラメータの内の、少なくとも1つを、コンピュータ内で変質させることと、
前記経路モデルの前記変質の二次的な作用を判定することと
を含む、方法。
(34)
前記二次的な作用が、別の調節ノード、別の活性、または前記経路モデルの別の調節型パラメータにおけるものである、(33)に記載の方法。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ