図面 (/)

技術 予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法

出願人 ナテラ,インコーポレイテッド
発明者 マシューラビノビッツミレナバンジェビックザカリーポールデムコデイビッドスコットジョンソン
出願日 2016年6月13日 (4年5ヶ月経過) 出願番号 2016-117074
公開日 2016年10月20日 (4年1ヶ月経過) 公開番号 2016-184429
状態 特許登録済
技術分野 特定用途計算機 突然変異または遺伝子工学 酵素、微生物を含む測定、試験
主要キーワード 対収縮 テストシグナル 測定方程式 交差データ 実質的可 対応確率 バイアスオフセット 論理的組合せ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年10月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

予測を行うための、遺伝子データ清浄化し、そして、そのデータを使用するためのシステムおよび方法の提供。

解決手段

限定された量の遺伝子データが入手可能な、1つのまたは小さな組の細胞についての、または断片DNAからの、および数学的モデルを用いてありそう表現型結果を予測するための遺伝子データ、および個体の所与の遺伝子、表現型および/または臨床的データ、および密接に関連する患者亜集団からの遺伝子型、表現型および/または臨床的データよりなる関連集合医療的データを判断するためのシステムおよび方法。標的個体についての遺伝子データを公知の方法を用いて獲得し、増幅し、貧弱に測定された塩基対、失われた対立遺伝子、および失われた領域を、標的ゲノムおよび遺伝的に関連する対象のゲノムの間の予測された同様性を用いて復元する。

概要

背景

(関連技術の背景
出生前および着床遺伝子診断
出生前診断現行の方法は医師および親に対して成長する胎児における異常を警告することができる。出生前診断がなければ、50人の赤ん坊の内1人は深刻な身体または精神的ハンディキャップを備えたまま誕生し、30人の内1人のように多くの者は先天的奇形のいくつかの形態を有するであろう。あいにくと、標準的な方法は侵襲性テストを必要とし、流産の大まか1%の危険性を有している。これらの方法は羊水穿刺絨毛膜絨毛バイオプシーおよび胎児血液サンプリングを含む。これらの内、羊水穿刺は最も普通の手法であり;2003年において、それは全ての妊娠のほぼ3%で行われていたが、その使用頻度は過去15年にわたって減少してきた。出生前診断の主な欠点は、限定された活動のコース仮定すれば、一旦異常が検出されれば、それは非常に深刻な欠陥についてテストするには価値がありかつ倫理的であるに過ぎない。結果として、出生前診断は、典型的には、高い危険性の妊娠の場合に試みられるに過ぎず、そこでは、潜在的異常の深刻性と組合わされた上昇した欠陥の確率が危険性を凌ぐ。これらの危険性を緩和する出生前診断の方法に対する要望が存在する。

最近、無細胞胎児DNAおよび無傷胎児細胞母体血循環に入ることができるのが発見された。結果として、これらの細胞分析は、早期の非侵襲性出生前遺伝子診断(NIPGD)を可能とすることができる。NIPGDを用いることにおける鍵となる挑戦は、母体血液から胎児の細胞または核酸を同定し、それを抽出する仕事である。母体血液における胎児細胞の濃度は胎児の妊娠の段階および状態に依存するが、見積もりは母体血液1ミリリットル毎に1ないし40の胎児細胞、または100,000母体有核細胞当たり1未満の胎児細胞の範囲である。現在の技術は母親の血液から少量の胎児細胞を単離することができるが、胎児細胞をいずれかの量の純度まで豊富化するのは非常に困難である。この関係での最も効果的な技術はモノクローナル抗体の使用を含むが、胎児細胞を単離するのに用いられる他の技術は密度遠心成人赤血球選択的溶解、およびFACSを含む。胎児DNA単離は、胎児−特異的DNA配列と共にプライマーを用いるPCR増幅を用いて示されてきた。各SNPの分子の10がこれらの技術を通じて利用可能なのに過ぎないので、高い忠実度での胎児組織の下のタイピングは現在可能ではない。

正常なヒトはジプロイド細胞毎に23染色体の2つの組を有し、1つのコピーは各親に由来する。異数性、余分なまたは失われた染色体を持つ細胞、および片親ニ染色体、一方の親に由来する2つの所与の染色体を持つ細胞は、着床の失敗、流産および遺伝病の大きなパーセンテージの原因であると考えられる。個体におけるある種の細胞のみが異数性である場合、該個体はモザイク現象を呈するといわれる。染色体異常の検出は成功した妊娠の確率の増大に加えて、とりわけ、ダウン症候群クラインフェルター症候群およびターナー症候群のような疾患を持つ個体または胚を同定することができる。染色体異常についてのテストは母親の年齢のように特に重要であり;35および40歳の間では胚の40%および50%の間が異常であり、40歳を超えると、胚の半分を超えて異常であると見積もられる。

異数性およびモザイク現象の予測で用いられる伝統的な方法である核型分析は、他のより高いスループットのよりコスト的に有利な方法に対する途を開く。最近多大な注目を集めてきた1つの方法はフローサイトメトリー(FC)および蛍光イン・サイチュハイブリダイゼーション(FISH)であり、これを用いて、いずれかの相の細胞周期において異数性を検出できる。この方法の1つの利点は、それが核型分析よりも安価であるが、コストは、一般に、少し選択された染色体をテストするのでかなり十分である点である(通常、染色体13、18、21、X、Y;時々は8、9、15、16、17、22);加えて、FISHは低いレベル特異性を有する。15細胞を分析するのにFISHを用い、95%信頼性を持って19%のモザイク現象を検出することができる。テストの信頼性はモザイク現象のレベルが低くなるにつれ、および分析する細胞の数が減少するにつれかなり低くなる。テストが、対立の細胞を分析する場合、15%と高い擬陽性率を有すると見積もられている。より高いスループット、より低いコスト、およびより大きな精度を有する方法に対する多大な要望が存在する。

遺伝病の古典的な出生前診断に対する代替法としての着床前遺伝子診断(PGD)の使用に向けて多くの研究がなされてきた。ほとんどのPGDは、今日、異数性のような高レベルの染色体異常、および成功した着床およびテイクホームベイビーである主な結果を伴うバランスしたトランスロケーション焦点を当てている。着床前段階における胚のより広範なゲノタイピングのための方法に対する要望が存在する。既知病気に関連する対立遺伝子の数は、現在、OMIMによると389であり、常に上昇している。その結果、病気表現型に関連する多数の胚SNPを分析するのは益々重要となりつつある。出生前診断よりも優れた着床前遺伝子診断の明瞭な進歩は、それが、一旦望ましくない表現型が検出されたならば、作用の可能な選択に関して倫理的論争のいくつかを回避する点にある。

ゲノタイピング
単一の細胞を単離するための多くの技術が存在する。FACSマシーンは種々の適用を有し;1つの重要な適用は、サイズ、形状および総じてのDNA含有量に基づいて細胞間を区別することである。FACSマシーンは、単一細胞をいずれかの所望の容器分類するように設定することができる。多くの異なるグループが、出生前遺伝子診断、組換え実験、および染色体不均衡の分析を含めた、多数の適用のために単一細胞DNA分析を用いてきた。単一−精子ゲノタイピングは、従前、精子試料法医学分析で用いて(混合試料から生起する問題を減少させ)、および単一−細胞組換え実験のために用いられてきた。

ヒト胚からの単一細胞の単離は、高度に技術的であるが、今日、体外受精クリニックにおいてルーチン的である。今日まで、出生前診断のほとんど大部分は、蛍光イン・サイチュハイブリダイゼーション(FISH)を用いており、これは、(ダウン症候群、またはトリソミー21のような)大きな染色体異常を決定することができ、およびPCR電気泳動を用いてきており、これは少量のSNPまたは他の対立遺伝子の要求を決定することができる。極体および胚盤胞は共に成功して単離されてきた。胚の一体性を危うくすることなく単一の胚盤胞を単離するのは非常に重要である。最も普通の技術は、3日胚(6または8細胞段階)から単一の胚盤胞を取り出すことである。胚を特殊な細胞培養基カルシウムおよびマグネシウム欠如する標準培養基)に移し、酸性溶液レーザー、または機械的なドリリングを用いて穴を透明帯に導入する。技術者は、次いで、バイオプシーピペットを用いて、単一の目に見える核を取り出す。臨床的実験は、この目的は着床の成功を減少させないことを示している。というのは、この段階において、胚細胞未分化だからである。

ゲノム増幅(WGA)に対して利用できる3つの主な方法がある:連結−媒介PCR(LM−PCR)、縮重オリゴヌクレオチドプライマーPCR(DOP−PCR)、および多数置換増幅(MDA)。LM−PCRにおいては、アダプターと呼ばれる短いDNA配列をDNAの平滑末端に連結する。これらのアダプターは普遍的増幅配列を含有し、これはPCRによってDNAを増幅するのに用いられる。DOP−PCRにおいては、普遍的増幅配列をやはり含有するランダムプライマーを第一ラウンドアニーリングおよびPCRで用いる。次いで、第二ラウンドのPCRを用いて、普遍的プライマー配列をさらに持つ配列を増幅する。最後に、MDAはphi−29ポリメラーゼを用い、これは、DNAを複製する高度にプロセッシング可能な非特異的酵素であり、単一−細胞分析で用いられてきた。これらの方法のうち、DOP−PCRは、単一コピーの染色体を含めた、少量のDNAから多量のDNAを信頼性よく生産する。他方、MDAは最も速い方法であり、数時間以内にDNAの100折り畳み増幅を生産する。単一細胞からの増幅材料に対する主な制限は(1)極端に薄いDNA濃度または極端に小さな容量の反応混合物を用いる必要性、および(2)全ゲノムを横切って蛋白質からDNAを信頼性よく解離させる困難性である。それにもかかわらず、単一−細胞全ゲノム増幅は、何年もの間種々の適用に対して成功して用いられてきた。

これらの関連でDNA増幅を用いるのに多数の困難がある。PCRによる単一−細胞DNA(または少数の細胞からの、またはより少量のDNAからのDNA)の増幅は、該ケースの5ないし10%において報告されているように完全に失敗しかねない。これは、しばしば、DNAの汚染、細胞の喪失、そのDNA、またはPCR反応の間におけるDNAの接近性である。増幅およびマイクロアレイ分析による胚DNAの測定で生じ得る誤差の他の源は、特定のヌクレオチドがPCRの間に誤ってコピーされるDNAポリメラーゼによって導入される転写誤差、およびアレイ上での不完全なハイブリダイゼーションによるマイクロアレイのリーディング誤差を含む。しかしながら、最大の問題は、ヘテロ接合性細胞における2つの対立遺伝子のうちの一方を増幅できないことと定義される対立遺伝子ドロップアウト(ADO)のままである。ADOは増幅の40%を超えるまで影響しかねず、既に引き起こされたPGD誤診断を引き起こしてきた。ADOは特に優性病の症例において健康の論争となり、ここで、増幅できないことは侵された胚の着床に導きかねない。(ヘテロ接合体における)各マーカー当たり1を超えるプライマーの組に対する必要性はPCRプロセスを複雑とする。従って、より信頼性があるPCRアッセイがADO起源の理解に基づいて開発されつつある。単一−細胞増幅のための反応容器は実験中である。アンプリコンのサイズ、DNA分解の量、凍結および解凍およびPCRプログラムおよび条件は、各々、ADOの速度に影響する。

しかしながら、全てのそれらの技術は、単一細胞における増幅で利用可能なDNAの微量に依存する。このプロセスにはしばしば汚染が伴う。適当な滅菌条件およびマイクロサテライトサイジングは、汚染DNAの確率を排除することができる。というのは、出生前対立遺伝子においてのみ検出されるマイクロサテライト分析は汚染を排除するからである。対立−細胞レベルまで分子診断プロトコルを信頼性よく導入する研究は、最近、マイクロサテライトマーカーの第一ラウンド多重PCR、続いての、リアルタイムPCRおよびマイクロサテライトサイジングを用いて追求されて、汚染の機会を排除してきた。多重PCRは単一−細胞DNA分析における非常に重要な用件である単一反応における多数断片の増幅を可能とする。慣用的なPCRはPGDで用いられた最初の方法であるが、蛍光イン・サイチュハイブリダイゼーション(FISH)は今日普通である。乱れていない細胞および組織構築物内での拡散の検出を可能とするのはデリケートなビジュアルアッセイである。それは、先ず、分析すべき細胞の固定に依拠する。その結果、試料の固定および貯蔵条件の最適化が、特に、単一−細胞懸濁液で求められる。

単一−細胞レベルでの多数の病気の診断を可能とする最新の技術は相間染色体変換、比較ゲノムハイブリダイゼーションCGH)、蛍光PCR、および全ゲノム増幅を含む。これらの技術の全てによって得られたデータの信頼性は、DNA調製の質に依拠する。PGDは高価でもあり、その結果、ミニ配列決定のような安価なアプローチに対する要望が存在する。ほとんどの突然変異−検出技術とは異なり、ミニ−配列決定は低いADO率での非常に小さなDNA断片の分析を可能とする。増幅およびPGDについての単一−細胞DNAを調製する良好な方法が従って求められており、研究されている。より新規なマイクロアレイおよび比較ゲノムハイブリダイゼーション技術は、依然として結局は、分析されるDNAの質に依拠する。

いくつかの技術が、少数の細胞、単一細胞(例えば、胚盤胞)、少数の染色体のDNAについての、またはDNAの断片からの多数SNPを測定するために開発されている。ポリメラーゼ鎖反応(PCR)、続いてのマイクロアレイゲノタイピング分析を用いる技術がある。いくつかのPCR−ベースの技術は、多数置換増幅(MDA)、および単一対のプライマーでのPCRを用いて増幅することができる多数のタグドオリゴヌクレオチドを用いてゲノタイピングを行う分子逆転プローブMIPS)のような全ゲノム増幅(WGA)技術を含む。非PCRベースの技術の例は蛍光イン・サイチュハイブリダイゼーション(FISH)である。該技術は、対立遺伝子ドロップアウト、不完全なハイブリダイゼーション、および汚染のような効果のインパクト亢進するであろう限定された量の遺伝物質によりひどく誤差の傾向があることが明らかである。

ゲノタイピングデータを供する多くの技術が存在する。TaqmanはApblied
Biosystemsによって生産され、分配されるユニークなゲノタイピング技術である。Taqmanはポリメラーゼ鎖反応(PCR)を用いて、注目する配列を増幅する。PCRサイクリングの間に、対立遺伝子特異的な従たる溝バインダー(MGB)は増幅された配列にハイブリダイズする。ポリメラーゼ酵素によるストランド合成はMGBプローブに連結されたレポーター色素を放出し、次いで、Taqman光学リーダー色素を検出する。このように、Taqmanは定量的対立遺伝子区別を達成する。アレイベースのゲノタイピング技術と比較して、Taqmanは反応当たりかなり高価であり、(〜$0.40/反応)、およびスループットは比較的低い(実行当たり384遺伝子型)。反応当たり1ngのDNAが必要とされるに過ぎないが、Taqmanによる数千の遺伝子型はマイクログラム量のDNAを必要とし、従って、Taqmanは必ずしもマイクロアレイよりも少ないDNAを用いない。しかしながら、IVF遺伝子型ワークフローに関しては、Taqmanは最も容易に適用できる技術である。これはアッセイの高い信頼性および、最も重要なことには、アッセイのスピードおよび容易性のためである(実行当たりほぼ3時間、および最小の分子生物学工程)。また、(500k Affymetrixアレイのような)多くのアレイ技術とは異なり、Taqmanは高度に慣用化でき、これは、IVF市場で重要である。さらに、Taqmanは高度に定量的であり、従って、異数性はこの技術単独で検出できよう。

Illuminaは、最近、高−スループットゲノタイピングにおけるリーダーとして出現した。Affymetrixとは異なり、Illuminaゲノタイピングアレイはハイブリダイゼーションに専ら依拠しない。その代わり、Illumina技術が対立遺伝子−特異的DNA延長工程を用い、これは、元の配列の決定について、ハイブリダイゼーション単独よりもかなり感受性であって、特異的である。従って、これらの対立遺伝子の全てはPCRによって多重的に増幅され、次いで、これらの産物はビーズアレイにハイブリダイズされる。これらのアレイでのビーズはユニークな「アドレス」タグを含有し、天然配列を含有せず、従って、このハイブリダイゼーションは高度に特異的であって、感受性である。次いで、対立遺伝子がヘッドアレイの定量的スキャンニングによって呼ばれる。Illlumina Golden Gateアッセイシステムは1536までの遺伝子座を同時に遺伝子型分けし、従って、スループットはAaqmanよりも良好であるが、Affymetrix 500kアレイほどは高くない。Illumina遺伝子型のコストはTaqmanよりも低いが、Affymetrixアレイよりも高い。また、Illuminaプラットフォームは500k Affymetrixアレイと同程度完全となるまでには長くを必要とし(72時間まで)、これはIVFゲノタイピングでは問題である。従って、Illuminaはかなり良好なコールレートを有し、アッセイが定量的であり、従って、異数性がこの技術で検出可能である。Illumina技術が500k AffymetrixアレイよりもSNPの選択においてかなりフレキシブルである。

一定時間において250,000SNPまでの測定を可能とする最高スループット技術の内の1つはAffymetrix GeneChip 500Kゲノタイピングアレイである。この技術はPCRをやはり用い、続いて、ハイブリダイゼーションによる分析、および水晶表面における異なる位置で化学的に合成されたDNAプローブに対する増幅されたDNA配列の検出を用いる。これらのアレイの不利は低いフレキシビリティおよびより低い感度である。「完全なマッチ」および「ミスマッチプローブ」のような選択性を増加させることができる修飾されたアプローチがあるか、これらはアレイ当たりのSNPコールの数を犠牲にしてそれを行う。

パイロ配列決定、または合成による配列決定もまたゲノタイピングおよびSNP分析で用いることもできる。パイロ配列決定に対する主な利点は、極端に速いターンアラウンドおよび曖昧でないSNPコールを含むが、アッセイは、現在、高−スループット平行分析に導かれている。PCR、続いての、ゲル電気泳動は、着床前診断においてほとんどの成功に適合したかなり単純な技術である。この技術において、研究者ネステッドPCRを用いて、注目する短い配列を増幅する。次いで、彼らは特殊なゲル上でこれらのDNA試料を実行して、PCR産物可視化する。異なる塩基は異なる分子量を有し、従って、どれぐらい速く産物がゲル中を泳動するかに基づいて塩基含有量を決定することができる。この技術は低−スループットであり、現行技術を用いる科学者による主題の分析を必要とするが、スピードの利点を有する(1ないし2時間のPCR、1時間のゲル電気泳動)。この理由で、それは、セラセミア、神経線維腫症2型白血球接着欠乏症I型アロポー−シーメンス病、鎌状細胞貧血網膜芽細胞腫ペリツェーウスメルツバッヒャー病、ドゥシェーヌ筋ジストロフィー、およびクラリノ症候群を含めた、膨大な病気についての出生前ゲノタイピングで従前用いられてきた。

非常に高い忠実度でもって少量の遺伝物質を遺伝子型分けするために開発されたもう1つの有望な技術は、Affymetrix’s Genflexアレイのような分子逆転プローブ(MIP)である。この技術は、平行して多数のSNPを測定する能力を有し;平行して測定された10,000を超えるSNPSが証明されている。少量の遺伝物質については、この技術についてのコールレートは概略95%において確立されており、なされたコールの精度は99%を超えることが確立されている。これまで、該技術は所与のSNPについて150分子と小さなゲノムデータの量について実行されてきた。しかしながら、該技術は、着床前遺伝子診断について要求されるように、単一細胞、またはDNAの単一ストランドからのゲノムデータで証明されてきた。

MIP技術は、その2つの端部が、それらがDNAの直ちに隣接する標的配列にハイブリダイズする場合に連結によって接合できる線状オリゴヌクレオチドであるパドロックプローブを用いる。プローブがゲノムDNAにハイブリダイズされた後に、ギャップを満たす酵素をアッセイに加え、これは4つのヌクレオチドの内1つをギャップに加えることができる。もし加えられたヌクレオチド(A,C,T,G)が測定下でSNPに対して相補的であるならば、それはDNAにハイブリダイズし、連結によってパドロックプローブの端部を接合するであろう。次いで、管状産物、または閉じたパドロックプローブをエキソヌクレオリシスによって線状プローブから区別される。エキソヌクレアーゼは、線状プローブを分解し、環状プローブを残すことによって、千倍以上だけ、閉じた−vs−閉じていないプローブの相対的濃度を変化させるであろう。次いで、残ったプローブをもう1つの酵素によって切断部位において開き、DNAから取り出し、PCRによって増幅する。各プローブは20塩基タグよりなる異なるタグ配列が付され(16,000が作り出されている)、例えば、Affynetrix GenFlexタグアレイによって検出することができる。特定のギャップを満たす酵素が加えられた反応からのタグドプローブからの存在は、関連SNP上での相補的アミノ酸の存在を示す。

MIPSの分子生物学利点は:(1)単一反応における多重ゲノタイピング、(2)遺伝子型「コール」はギャップを満たし連結することによって起こるが、ハイブリダイゼーションによっては起こらない、および(3)ユニバーサルタグのアレイへのハイブリダイゼーションは、ほとんどのアレイハイブリダイゼーションに固有偽陽性を減少させることを含む。伝統的な500k、TaqManおよび他のゲノタイピングアレイにおいて、全ゲノタイプ試料はアレイにハイブリダイズされ、これは種々の完全なマッチおよびミスマッチプローブを含有し、アルゴリズムはミスマッチおよび完全なマッチプローブの強度に基づく遺伝子型を要求するようである。しかしながら、DNA試料の複雑性、およびアレイ上での膨大な数のプローブのため、ハイブリダイゼーションは固有にノイズがある。他方、MIPは、より長く、従って、より特異的であり、従って、プローブを環状化するのに頑強な連結工程を用いる多重プローブを用いる(すなわち、アレイ上にはない)。対立遺伝子ドロップアウトは(貧弱な実行プローブのため)高いであろうが、バックグラウンドは(特異性のため)このアッセイにおいてはかなり低い。

この技術を単一細胞(または少数の細胞)からのゲノムデータで用いる場合、それは、PCRベースのアプローチのように、一体性の争いに悩んでいる。例えば、パドロックプローブがゲノムDNAにハイブリダイズできないことは、対立遺伝子ドロップアウトを引き起こすであろう。これは体外受精の関係で悪くなるであろう。というのは、ハイブリダイゼーション反応の効率は低く、かつそれは相対的に速く進行して、限定された時間内に胚を遺伝子型分けする必要があるからである。ハイブリダイゼーション反応は販売業者推奨するレベルよりも十分低く減少でき、ミクロ流動技術を用いて、ハイブリダイゼーション反応を加速することもできる。ハイブリダイゼーション反応のための時間を減少させることに対するこのアプローチは減少したデータの質を引き起こすであろう。

予測ゲノミクス
一旦遺伝子データが測定されれば、次の工程が予測目的でデータを用いることである。多くの研究が予測ゲノミックスにおいてなされ、これは、表現型予測を遺伝子型に基づいてなすことができるように、蛋白質、RNAおよびDNAの正確な機能を理解することを試みるカノニカル技術は単一−ヌクレオチド多形(SNP)の機能に焦点を当てるが、より進歩した方法は多因子表現型特徴を担うようにされつつある。これらの方法は、遺伝子および表現型予測の組、および測定された結果の組の間の数学的関係を決定するように試みる、直線回帰および非直線神経ネットワークのような技術を含む。また、遺伝子データに典型的なように、結果の数に対して多くの潜在的プレディクターが存在し、データが過少決定される場合でさえパラメーターの重要な組を解決することができるように、さらなる制限を回帰パラメーターに適応するまばらなデータ組を収容するように設計されたRidge回帰、log回帰および段階的選択のような回帰分析技術の組もある。他の技術は、未決定データ組から情報を抽出するために主な成分分析を適用する。決定ツリーおよび偶発性の表のような他の技術は、それらの独立した変数に基づいて主題を細分化して、主題を、表現型結果が同様であるカテゴリーまたはビンに入れるための戦略を用いる。論理的回帰といわれる最近の技術は、カテゴリー的に独立した変数の間の異なる論理的相互関係についてサーチして、遺伝子データに関連する多数の独立変数の間の相互作用に依存する変数をモデル化する方法を記載している。用いる方法に拘わらず、予測の質は、予測をなすのに用いる遺伝子データの質に自然に高度に依存する。

DNA配列決定のコストは迅速に低下しており、近い将来において、個人の利益のための個々のゲノム配列決定はより普通になるであろう。個人的遺伝子データの知識は、広範な表現型予測が個人に対してなされるのを可能とするであろう。正確な表現型予測をなすためには、関係を問わず、高い質の遺伝子データが非常に重要である。出生前または着床前遺伝子診断の場合には、複雑化因子入手可能な遺伝物質の相対的少量である。限定された遺伝物質をゲノタイピングで用いる場合に、測定された遺伝子データの性質に固有にノイズがあると仮定すれば、一次データの忠実度を増大させ、それをクリーンとできる方法に対する多大な要望が存在する。

臨床的決定がなされる現行の方法は、存在する情報の最良な可能な使用を行わない。医療的生化学的および情報技術の進歩としては、増大した量のデータが作り出され、アカミックおよび臨床的実験の関係においての個々の患者について双方を貯蔵する。分析で利用可能な遺伝子、表現型および臨床的情報の量における最近の急増に従い、臨床的に関連する相関関係を見出して、人々がより長く、より健康でかつよりエンジョイできる人生を送るのを助けるのに多大の努力が払われてきた。従前には臨床家および研究者は彼らの分析を少量の明らかな潜在的因子に焦点を当て、データの局所的貯蔵を用いるが、他の剤のスコアによって測定されたデータを活用することができ、および所与の遺伝子型または表現型に相関する従前に疑われていない因子を同定することができるより複雑なモデルを用いる潜在的利点がより明瞭になりつつある。この状況は、一旦個人的な遺伝子データが病気の原因および治療、および対象の他の素因を理解するにおいてより抽象的役割を占めれば、かなりより複雑になるであろう。次の10年内に、臨床試験のために、または個人化された治療およびまたは薬物割当ての目的のために、患者の全ゲノムをスキャンし、ならびに膨大な表現型データ点を収集するのが可能であろう。

利用可能なデータの量が膨大となり、それが依然として迅速に増大するにつれ、問題の最も重要な点は、最も適当な関係が発見し、かつそれを用いて人々に役に立つのを可能とする設計および実行する良好な方法となった。分析するのに利用可能な変数の数が増大するにつれ、天文学的数の潜在的関係を会得でき、先見的にそれらのいずれかを除外しない方法を開発するのがより重要となった。同時に、それらの研究を同一プロトコルで実行しなかった場合でさえ、多数の研究の知見を総合し、それを利用することができる方法を開発するのが重要である。また、所与の分析において用いるために最適な方法を正しく同定することができるシステムを開発するために、研究されてきた非常に多数の予測モデルを仮定すれば、それは益々重要になりつつある。

HIVの関係におけるバイオインフォマティックス
HIVは三千万を超える人々が現在HIVに罹って生きているヒトにおいてHIVは広域病と考えられ、毎年二百万を超える死亡がHIVに帰せられている。HIVの主な特徴の1つはその速い複製サイクル、および逆転写酵素の高い誤差率および組換え原性の結果としてのその高い遺伝子可変性である。その結果、HIVウイルスの種々の株は異なるレベルの異なる薬物に対する耐性を示し、最適な治療養生法感染性株の同一性およびその特別な罹患性を考慮することができる。

今日まで認可されたART薬物は11のRTI:7のヌクレオシド、1つのヌクレオチド、および3つの非ヌクレオシド;7つのPI;および1つの融合/エントリー阻害剤リストよりなる。世界中でのART薬物が現在広く行きわたっていることを仮定すれば、ウイルスの耐性株の出現は、耐性に対する低い遺伝子バリア、および貧弱な薬物固執双方のため不可避的である。その結果、どのようにして突然変異したウイルスが抗−レトロウイルス療法に応答するかを予測する技術は益々重要となっている。というのは、それらはサルベージ療法についての結果に影響するだろうからである。ウイルス遺伝子配列決定の迅速に現象しているコスト−予備的に調製された配列については5ドルと低い容量価格−は、よりコストがかかりかつ関連するイン−ビトロ表現型測定よりはむしろ、ウイルス遺伝子配列データに基づく薬物の選択を魅力的オプションとする。しかしながら、配列データの使用はウイルス遺伝子突然変異の出現に基づく、ウイルス薬物応答の正確な予測を必要とする。ウイルス突然変異の多くの異なる組合せは、全ての遺伝子補因子およびそれらの相互作用を含むモデルを設計し、限定されたデータでもってモデルを訓練するのを困難とする。後者の問題は、薬物養生法の多くの異なる組合せが、変数、すなわち、ベースライン臨床状態処置履歴臨床的結果および遺伝子配列を含有するいずれかの特定の養生法について十分に大きなデータ組を収集するのを困難とする場合に、イン−ビボ薬物応答をモデル化する関係が悪化した。

抗ウイルス薬物に対する耐性は、RTまたはプロテアーゼ配列内の1つの突然変異、または複数の突然変異の組合せの結果であり得る。RT酵素は560コドンの鍵となる組によってコードされ;プロテアーゼ酵素は99のコドンによってコードされる。アミノ酸を改変する突然変異のみをコードすることによって各アミノ酸遺伝子座は19の可能な突然変異を有し;従って、RT酵素について野生型とは異なる合計10,640の可能な突然変異、およびプロテアーゼ酵素についての1,981の可能な突然変異がある。単純な直線モデルを用い、データで総合した各突然変異(全ての突然変異が起こるのではない)が特定の重み付け、または直線回帰パラメーターと関連させる場合、数千のパラメーターが存在し得る。もし数百人の患者の試料のみが各薬物で利用できるならば、問題は過剰決定的であるか、またはHadamardの意味において不適切である。というのは、独立した方程式よりも評価するより多くのパラメーターがあるからである。不適切な問題のためにモデル構築する問題に適用することができる多くの技術が存在する。これらが先見的専門知識を観察と組み合わせて、専門家ルールに基づくシステム、ならびにi)リッジ回帰、ii)主要成分分析、iii)決定ツリー、iv)段系的選択技術、v)神経ネットワーク、vi)最小絶対収縮および選択オペレーター(LASSO)およびvii)Support Vector Machines(SVM)を含めた統計的方法を作り出すことを含む。

3つの主な産業−標準専門家システムを典型的に用いて、ART薬物へのHIVウイルスの罹患性:ANRS−AC11システム、Regaシステム、およびStanford
HIVdbシステムを予測する。新しいアルゴリズムがこれらの専門家システムに対して評価されるのは文献において通常である。しかしながら、これらの専門家システムのいずれも、表現型応答の直接的予測を行うように設計されていないが、むしろ、異なる薬物をそれにより比較することができる数値スコアを供し、または感受性、中程度および耐性のような区別されるグループに薬物を分類するように設計されている。加えて、段階的選択でもって訓練された直線回帰モデルのような統計学的アルゴリズムは、表現型結果の予測において専門家システムを実質的に凌ぐことが明瞭に確立されている。結果として、統計学的技術の組のみが、文献に最近開示された方法を最良に実行することを含む詳細な記載中の新規な方法と比較される。

サルベージARTの臨床的結果の予測に対する現在のアプローチは、薬物養生法および遺伝子突然変異の多くの異なる順列と組み合せた、ほとんどは、統計学的に有意な結果のデータの欠如のため、良好な予測パワーを示さない。この分野は多数の不均一なデータ組の一体化、および薬物応答予測の増強の双方のための緊急の要望を有する。

癌の関係でのバイオインフォマティックス
見積って80,000の年次臨床試験のうち、2,100は癌薬物のためである。癌療法のための危険性および利点をバランスさせることは、表現型および遺伝子型情報の組合せ使用についての臨床的先駆者を表す。過去数十年において化学療法大きな進歩があったにもかかわらず、腫瘍学者は彼らの癌患者を、癌細胞について正常な細胞に対してしばしば毒性である原始的全身薬物で依然として治療している。かくして、化学の最大毒性用量および治療用量の間に微妙な線がある。さらに、用量−制限毒性は、他の患者ではなくある患者においてよりひどく、治療運動をより高くまたはより低くシフトさせ得る。例えば、乳癌治療で用いられるアントラサイクリンは有害な心血管事象を引き起こしかねない。現在、もし患者が心臓病に対して低い危険性であると決定できても、治療ウィンドウをより大きな用量のアントラサイクリン療法を可能とするようにシフトできたとしても、全ての患者はあたかも心血管毒性の危険性があるように治療される。

各患者についての化学療法の利点および危険性をバランスさせるために、副作用プロフィール、および医薬介入の治療的有効性を予測することができる。癌療法は、しばしば、ユニークな宿主および腫瘍遺伝子型についての不適切な調整のため失敗する。単一の多形は、稀には、薬物応答において有意な変動を引き起こし;むしろ、マニフォールド多形の結果ユニークな生体分子組成物をもたらし、臨床的結果の予測を困難とする。「ファルマコゲティックス」は、広く、遺伝子変異が薬物に対する患者の応答に影響する方法と定義される。例えば、肝臓酵素における天然の変異は薬物代謝に影響する。癌化学療法の将来は標的化医薬であり、これは、癌を、多数の遺伝子的、分子的、細胞的、および生化学的異常を含む病気プロセスとして理解する必要がある。酵素−特異的薬物の出現に伴い、腫瘍が特異的にまたは正常な組織よりも高いレベルで分子標的発現することを確実とするために注意することができる。腫瘍細胞および健康な細胞の間の相互作用を考慮することができる。というのは、患者の正常な細胞および酵素は腫瘍薬物曝露を制限でき、または有害な事象をよりありそうにしかねないからである。

バイオインフォマティックスは癌治療に大変を起こさせ、仕立てられた治療が利点を最大化し、有害な事象を最小化するのを可能とする。応答を予測するのに用いられる機能的マーカーはコンピュータアルゴリズムによって分析することができる。乳癌結腸癌肺癌および前立腺癌は4つの最も普通の癌である。これらの癌に対する2つの治療の例は乳癌を治療するのに用いられるタモキシフェン、および結腸癌患者において用いられるイリノテカンである。タモキシフェンまたはイリノテカンも、各々、乳癌または結腸癌を治療するのに必要でなく、または十分でない。癌および癌の治療は、患者の副作用のプロフィールおよび腫瘍応答に従って、療法の改正および、しばしば、組合せ療法を必要とする動的なプロセスである。もし癌治療を決定的なツリーイメージして、他の療法の前、後またはそれと共にいずれかの1つの治療を与え、またはそれを差し控えるならば、このツリーは決定決断点のサブセットを含み、そこではツリーの多く(すなわち、他の治療)はブラックボックスと考えることができる。それにも拘わらず、医師を最も効果的な治療に部分的にガイドするためのデータを有することは有益であり、より多くのデータを集めるに従い、このデータに基づいて治療の決定を行うための効果的な方法は数千人の癌患者において平均余命および生活の質を有意に改善することができよう。

結腸または大腸胃腸GI)管の最後の6−フットセクションである。合衆国癌協会は、結直腸癌の145,000の症例が2005年において診断され、56,000人が結果として死亡するであろうと見積もっている。結直腸癌はグレード、または細胞の異常、および段階について評価され、これは腫瘍のサイズ、リンパ節関与、および遠い転移の存在または不存在に細分化される。結直腸癌の95%は、結腸のルーメンライニングする遺伝子的突然変異体上皮細胞から発生する腺癌である。症例の80ないし90%において、外科的処置単独が看護の標準であるが、転移の存在は化学療法を必要とする。転移性結直腸癌に対する多くの一次療法の1つは5−フルオロウラシルロイコボリン、およびイリノテカンの養生法である。

イリノテカンは、スーパーコイルドDNAの絡みを解いて、DNA複製分裂細胞において進行するようにし、細胞をアポトーシスに対して感受性とするトポイソメラーゼ阻害するカンプトテシンアナログである。イリノテカンは生物学的経路において明確な役割を有さず、従って、臨床的結果は予測するのが困難である。用量−限定的毒性はひどい(グレードIIIないしIV)下痢および骨髄抑制を含む、その双方は直ちに医療的注意を必要とする。イリノテカンはウリジン二リン酸グルコロノシルトランスフェラーゼイソ形態1a1(UGT1A1)によって活性代謝産物であるSN−38に代謝される。UGT1A1における多形はGIのひどさ、および骨髄副作用と相関する。

先行技術
明細書中において、本発明の分野に関連する先行技術の組をリストする。この先行技術はいずれも、本発明の新規なエレメントを含まず、または断じてそれに言及しない。特許文献1において、Hartleyらは、作製された組換え部位および組換え蛋白質を用いてDNA分子セグメントを移動させ、または交換する組換えクローニング方法を記載する。特許文献2において、Parrottらは、生体活性脂質のレベルについて体外受精培養の培地検体を分析して、当該特徴を決定することによって、総じての胚の健康、着床性、および出産予定日まで成功して発生する増大した尤度を含めた体外受精胚の種々の生物学的特徴を決定する方法を提供する。特許文献3において、Threadgillらは、複数の単離された親細胞における部位−特異的有糸分裂組換えに関連するイン・ビトロフェノタイピングおよび遺伝子マッピングで言うようなホモ接合性細胞ライブラリーを調製する方法を記載する。特許文献4において、Stewartらは、血清において直接的に、またはIVF/ET手法の一部として患者から抽出された顆粒膜黄体細胞を培養することによって間接的にレラキシンを測定することによって成功する体外受精(IVF)の確率を決定する方法を記載する。特許文献5において、Cookeらは、女性患者からの生物学的試料中の11□−ヒドロキシステロイドデヒドロゲナーゼのレベルを測定することによってIVFの結果を予測する方法を提供する。特許文献6において、Larderらは、神経ネットワークを用いて、療法剤に対する病気の抵抗性を予測する方法を記載する。特許文献7において、Vingerhoetsらは、所与のHIV株のインテグラーゼ遺伝子型を、関連表現型と共にHIVインテグラーゼ遺伝子型の公知のデータベースと単純に比較して、マッチング遺伝子型を見出す方法を記載する。特許文献8において、Dentonらは、個人のハプロタイプを一般的集団におけるハプロタイプの公知のデータベースと比較して、治療に対する臨床的応答を予測する方法を記載する。特許文献9において、Schadtらは、遺伝子マーカーマップ構築し、個人の遺伝子および特性を分析して遺伝子−特性遺伝子座データを与え、次いで、これを遺伝子的に相互作用する経路を同定するための方法としてクラスター化し、これを多変数分析を用いて確証する方法を記載する。特許文献10において、Veltriらは、パラメーターとしてバイオマーカーコレクションを利用して、前立腺癌の再発の危険性を評価する神経ネットワークの使用を含む方法を記載する。特許文献11において、Mascarenhasは、患者についての生化学的プロフィールを確立し、テストコフォルトのメンバーにおいて応答性を測定し、次いで、患者の生化学的プロフィールのパラメーターを個々にテストして、薬物応答性の尺度との相関性を見出すことによって薬物応答性を予測する方法を記載する。
米国特許第6,720,140号明細書
米国特許第6,489,135号明細書
米国特許出願公開第2004/0033596号明細書
米国特許第5,994,148号明細書
米国特許第5,635,366号明細書
米国特許第7,058,616号明細書
米国特許第6,958,211号明細書
米国特許第7,058,517号明細書
米国特許第7,035,739号明細書
米国特許第6,025,128号明細書
米国特許第5,824,467号明細書

概要

予測を行うための、遺伝子データを清浄化し、そして、そのデータを使用するためのシステムおよび方法の提供。限定された量の遺伝子データが入手可能な、1つのまたは小さな組の細胞についての、または断片DNAからの、および数学的モデルを用いてありそうな表現型結果を予測するための遺伝子データ、および個体の所与の遺伝子、表現型および/または臨床的データ、および密接に関連する患者亜集団からの遺伝子型、表現型および/または臨床的データよりなる関連集合医療的データを判断するためのシステムおよび方法。標的個体についての遺伝子データを公知の方法を用いて獲得し、増幅し、貧弱に測定された塩基対、失われた対立遺伝子、および失われた領域を、標的ゲノムおよび遺伝的に関連する対象のゲノムの間の予測された同様性を用いて復元する。

目的

FACSマシーンは種々の適用を有し;1つの重要な適用は、サイズ、形状および総じてのDNA含有量に基づいて細胞間を区別することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

明細書に記載された発明。

技術分野

0001

(関連出願への相互参照
本願は、米国特許法の下で、以下の米国仮特許出願の利益を主張する:2005年11月26日出願の第60/739,882号;2005年12月6日出願の第60/742,305号;2005年12月9日出願の第60/754,396号;2006年2月21日出願の第60/774,976号;2006年4月4日出願の第60/789,506号;2006年6月30日出願の第60/817,741号;2006年7月31日出願の第11/496,982号;および2006年9月22日出願の第60/846,610号;これらの開示は、その全体が本明細書中に参考として援用される。

0002

(技術分野)
本発明は、一般には、医療的予測される目的のための遺伝子データを獲得し、操作し、および用いる分野、具体的には、不完全に測定された遺伝子データを遺伝的に関連する個体の公知の遺伝子データを用いることによってより正確とし、それにより、種々の表現型結果をもたらす遺伝子不規則性のより効果的な同定を可能とするシステムに関する。また、本発明は、一般に、遺伝子、表現型および臨床的情報を分析し、管理し、それに作用させ、およびその情報を用いて、医療的決定の表現型結果を予測する分野に関する。さらに詳しくは、本発明は、対象の群からの一体化され、確証された遺伝子および表現型データを用いて、特定の対象に関して良好な決定を行う方法およびシステムに関する。

背景技術

0003

(関連技術の背景
出生前および着床遺伝子診断
出生前診断現行の方法は医師および親に対して成長する胎児における異常を警告することができる。出生前診断がなければ、50人の赤ん坊の内1人は深刻な身体または精神的ハンディキャップを備えたまま誕生し、30人の内1人のように多くの者は先天的奇形のいくつかの形態を有するであろう。あいにくと、標準的な方法は侵襲性テストを必要とし、流産の大まか1%の危険性を有している。これらの方法は羊水穿刺絨毛膜絨毛バイオプシーおよび胎児血液サンプリングを含む。これらの内、羊水穿刺は最も普通の手法であり;2003年において、それは全ての妊娠のほぼ3%で行われていたが、その使用頻度は過去15年にわたって減少してきた。出生前診断の主な欠点は、限定された活動のコース仮定すれば、一旦異常が検出されれば、それは非常に深刻な欠陥についてテストするには価値がありかつ倫理的であるに過ぎない。結果として、出生前診断は、典型的には、高い危険性の妊娠の場合に試みられるに過ぎず、そこでは、潜在的異常の深刻性と組合わされた上昇した欠陥の確率が危険性を凌ぐ。これらの危険性を緩和する出生前診断の方法に対する要望が存在する。

0004

最近、無細胞胎児DNAおよび無傷胎児細胞母体血循環に入ることができるのが発見された。結果として、これらの細胞の分析は、早期の非侵襲性出生前遺伝子診断(NIPGD)を可能とすることができる。NIPGDを用いることにおける鍵となる挑戦は、母体血液から胎児の細胞または核酸を同定し、それを抽出する仕事である。母体血液における胎児細胞の濃度は胎児の妊娠の段階および状態に依存するが、見積もりは母体血液1ミリリットル毎に1ないし40の胎児細胞、または100,000母体有核細胞当たり1未満の胎児細胞の範囲である。現在の技術は母親の血液から少量の胎児細胞を単離することができるが、胎児細胞をいずれかの量の純度まで豊富化するのは非常に困難である。この関係での最も効果的な技術はモノクローナル抗体の使用を含むが、胎児細胞を単離するのに用いられる他の技術は密度遠心成人赤血球選択的溶解、およびFACSを含む。胎児DNA単離は、胎児−特異的DNA配列と共にプライマーを用いるPCR増幅を用いて示されてきた。各SNPの分子の10がこれらの技術を通じて利用可能なのに過ぎないので、高い忠実度での胎児組織の下のタイピングは現在可能ではない。

0005

正常なヒトはジプロイド細胞毎に23染色体の2つの組を有し、1つのコピーは各親に由来する。異数性、余分なまたは失われた染色体を持つ細胞、および片親ニ染色体、一方の親に由来する2つの所与の染色体を持つ細胞は、着床の失敗、流産および遺伝病の大きなパーセンテージの原因であると考えられる。個体におけるある種の細胞のみが異数性である場合、該個体はモザイク現象を呈するといわれる。染色体異常の検出は成功した妊娠の確率の増大に加えて、とりわけ、ダウン症候群クラインフェルター症候群およびターナー症候群のような疾患を持つ個体または胚を同定することができる。染色体異常についてのテストは母親の年齢のように特に重要であり;35および40歳の間では胚の40%および50%の間が異常であり、40歳を超えると、胚の半分を超えて異常であると見積もられる。

0006

異数性およびモザイク現象の予測で用いられる伝統的な方法である核型分析は、他のより高いスループットのよりコスト的に有利な方法に対する途を開く。最近多大な注目を集めてきた1つの方法はフローサイトメトリー(FC)および蛍光イン・サイチュハイブリダイゼーション(FISH)であり、これを用いて、いずれかの相の細胞周期において異数性を検出できる。この方法の1つの利点は、それが核型分析よりも安価であるが、コストは、一般に、少し選択された染色体をテストするのでかなり十分である点である(通常、染色体13、18、21、X、Y;時々は8、9、15、16、17、22);加えて、FISHは低いレベル特異性を有する。15細胞を分析するのにFISHを用い、95%信頼性を持って19%のモザイク現象を検出することができる。テストの信頼性はモザイク現象のレベルが低くなるにつれ、および分析する細胞の数が減少するにつれかなり低くなる。テストが、対立の細胞を分析する場合、15%と高い擬陽性率を有すると見積もられている。より高いスループット、より低いコスト、およびより大きな精度を有する方法に対する多大な要望が存在する。

0007

遺伝病の古典的な出生前診断に対する代替法としての着床前遺伝子診断(PGD)の使用に向けて多くの研究がなされてきた。ほとんどのPGDは、今日、異数性のような高レベルの染色体異常、および成功した着床およびテイクホームベイビーである主な結果を伴うバランスしたトランスロケーション焦点を当てている。着床前段階における胚のより広範なゲノタイピングのための方法に対する要望が存在する。既知病気に関連する対立遺伝子の数は、現在、OMIMによると389であり、常に上昇している。その結果、病気表現型に関連する多数の胚SNPを分析するのは益々重要となりつつある。出生前診断よりも優れた着床前遺伝子診断の明瞭な進歩は、それが、一旦望ましくない表現型が検出されたならば、作用の可能な選択に関して倫理的論争のいくつかを回避する点にある。

0008

ゲノタイピング
単一の細胞を単離するための多くの技術が存在する。FACSマシーンは種々の適用を有し;1つの重要な適用は、サイズ、形状および総じてのDNA含有量に基づいて細胞間を区別することである。FACSマシーンは、単一細胞をいずれかの所望の容器分類するように設定することができる。多くの異なるグループが、出生前遺伝子診断、組換え実験、および染色体不均衡の分析を含めた、多数の適用のために単一細胞DNA分析を用いてきた。単一−精子ゲノタイピングは、従前、精子試料法医学分析で用いて(混合試料から生起する問題を減少させ)、および単一−細胞組換え実験のために用いられてきた。

0009

ヒト胚からの単一細胞の単離は、高度に技術的であるが、今日、体外受精クリニックにおいてルーチン的である。今日まで、出生前診断のほとんど大部分は、蛍光イン・サイチュハイブリダイゼーション(FISH)を用いており、これは、(ダウン症候群、またはトリソミー21のような)大きな染色体異常を決定することができ、およびPCR電気泳動を用いてきており、これは少量のSNPまたは他の対立遺伝子の要求を決定することができる。極体および胚盤胞は共に成功して単離されてきた。胚の一体性を危うくすることなく単一の胚盤胞を単離するのは非常に重要である。最も普通の技術は、3日胚(6または8細胞段階)から単一の胚盤胞を取り出すことである。胚を特殊な細胞培養基カルシウムおよびマグネシウム欠如する標準培養基)に移し、酸性溶液レーザー、または機械的なドリリングを用いて穴を透明帯に導入する。技術者は、次いで、バイオプシーピペットを用いて、単一の目に見える核を取り出す。臨床的実験は、この目的は着床の成功を減少させないことを示している。というのは、この段階において、胚細胞未分化だからである。

0010

ゲノム増幅(WGA)に対して利用できる3つの主な方法がある:連結−媒介PCR(LM−PCR)、縮重オリゴヌクレオチドプライマーPCR(DOP−PCR)、および多数置換増幅(MDA)。LM−PCRにおいては、アダプターと呼ばれる短いDNA配列をDNAの平滑末端に連結する。これらのアダプターは普遍的増幅配列を含有し、これはPCRによってDNAを増幅するのに用いられる。DOP−PCRにおいては、普遍的増幅配列をやはり含有するランダムプライマーを第一ラウンドアニーリングおよびPCRで用いる。次いで、第二ラウンドのPCRを用いて、普遍的プライマー配列をさらに持つ配列を増幅する。最後に、MDAはphi−29ポリメラーゼを用い、これは、DNAを複製する高度にプロセッシング可能な非特異的酵素であり、単一−細胞分析で用いられてきた。これらの方法のうち、DOP−PCRは、単一コピーの染色体を含めた、少量のDNAから多量のDNAを信頼性よく生産する。他方、MDAは最も速い方法であり、数時間以内にDNAの100折り畳み増幅を生産する。単一細胞からの増幅材料に対する主な制限は(1)極端に薄いDNA濃度または極端に小さな容量の反応混合物を用いる必要性、および(2)全ゲノムを横切って蛋白質からDNAを信頼性よく解離させる困難性である。それにもかかわらず、単一−細胞全ゲノム増幅は、何年もの間種々の適用に対して成功して用いられてきた。

0011

これらの関連でDNA増幅を用いるのに多数の困難がある。PCRによる単一−細胞DNA(または少数の細胞からの、またはより少量のDNAからのDNA)の増幅は、該ケースの5ないし10%において報告されているように完全に失敗しかねない。これは、しばしば、DNAの汚染、細胞の喪失、そのDNA、またはPCR反応の間におけるDNAの接近性である。増幅およびマイクロアレイ分析による胚DNAの測定で生じ得る誤差の他の源は、特定のヌクレオチドがPCRの間に誤ってコピーされるDNAポリメラーゼによって導入される転写誤差、およびアレイ上での不完全なハイブリダイゼーションによるマイクロアレイのリーディング誤差を含む。しかしながら、最大の問題は、ヘテロ接合性細胞における2つの対立遺伝子のうちの一方を増幅できないことと定義される対立遺伝子ドロップアウト(ADO)のままである。ADOは増幅の40%を超えるまで影響しかねず、既に引き起こされたPGD誤診断を引き起こしてきた。ADOは特に優性病の症例において健康の論争となり、ここで、増幅できないことは侵された胚の着床に導きかねない。(ヘテロ接合体における)各マーカー当たり1を超えるプライマーの組に対する必要性はPCRプロセスを複雑とする。従って、より信頼性があるPCRアッセイがADO起源の理解に基づいて開発されつつある。単一−細胞増幅のための反応容器は実験中である。アンプリコンのサイズ、DNA分解の量、凍結および解凍およびPCRプログラムおよび条件は、各々、ADOの速度に影響する。

0012

しかしながら、全てのそれらの技術は、単一細胞における増幅で利用可能なDNAの微量に依存する。このプロセスにはしばしば汚染が伴う。適当な滅菌条件およびマイクロサテライトサイジングは、汚染DNAの確率を排除することができる。というのは、出生前対立遺伝子においてのみ検出されるマイクロサテライト分析は汚染を排除するからである。対立−細胞レベルまで分子診断プロトコルを信頼性よく導入する研究は、最近、マイクロサテライトマーカーの第一ラウンド多重PCR、続いての、リアルタイムPCRおよびマイクロサテライトサイジングを用いて追求されて、汚染の機会を排除してきた。多重PCRは単一−細胞DNA分析における非常に重要な用件である単一反応における多数断片の増幅を可能とする。慣用的なPCRはPGDで用いられた最初の方法であるが、蛍光イン・サイチュハイブリダイゼーション(FISH)は今日普通である。乱れていない細胞および組織構築物内での拡散の検出を可能とするのはデリケートなビジュアルアッセイである。それは、先ず、分析すべき細胞の固定に依拠する。その結果、試料の固定および貯蔵条件の最適化が、特に、単一−細胞懸濁液で求められる。

0013

単一−細胞レベルでの多数の病気の診断を可能とする最新の技術は相間染色体変換、比較ゲノムハイブリダイゼーションCGH)、蛍光PCR、および全ゲノム増幅を含む。これらの技術の全てによって得られたデータの信頼性は、DNA調製の質に依拠する。PGDは高価でもあり、その結果、ミニ配列決定のような安価なアプローチに対する要望が存在する。ほとんどの突然変異−検出技術とは異なり、ミニ−配列決定は低いADO率での非常に小さなDNA断片の分析を可能とする。増幅およびPGDについての単一−細胞DNAを調製する良好な方法が従って求められており、研究されている。より新規なマイクロアレイおよび比較ゲノムハイブリダイゼーション技術は、依然として結局は、分析されるDNAの質に依拠する。

0014

いくつかの技術が、少数の細胞、単一細胞(例えば、胚盤胞)、少数の染色体のDNAについての、またはDNAの断片からの多数SNPを測定するために開発されている。ポリメラーゼ鎖反応(PCR)、続いてのマイクロアレイゲノタイピング分析を用いる技術がある。いくつかのPCR−ベースの技術は、多数置換増幅(MDA)、および単一対のプライマーでのPCRを用いて増幅することができる多数のタグドオリゴヌクレオチドを用いてゲノタイピングを行う分子逆転プローブMIPS)のような全ゲノム増幅(WGA)技術を含む。非PCRベースの技術の例は蛍光イン・サイチュハイブリダイゼーション(FISH)である。該技術は、対立遺伝子ドロップアウト、不完全なハイブリダイゼーション、および汚染のような効果のインパクト亢進するであろう限定された量の遺伝物質によりひどく誤差の傾向があることが明らかである。

0015

ゲノタイピングデータを供する多くの技術が存在する。TaqmanはApblied
Biosystemsによって生産され、分配されるユニークなゲノタイピング技術である。Taqmanはポリメラーゼ鎖反応(PCR)を用いて、注目する配列を増幅する。PCRサイクリングの間に、対立遺伝子特異的な従たる溝バインダー(MGB)は増幅された配列にハイブリダイズする。ポリメラーゼ酵素によるストランド合成はMGBプローブに連結されたレポーター色素を放出し、次いで、Taqman光学リーダー色素を検出する。このように、Taqmanは定量的対立遺伝子区別を達成する。アレイベースのゲノタイピング技術と比較して、Taqmanは反応当たりかなり高価であり、(〜$0.40/反応)、およびスループットは比較的低い(実行当たり384遺伝子型)。反応当たり1ngのDNAが必要とされるに過ぎないが、Taqmanによる数千の遺伝子型はマイクログラム量のDNAを必要とし、従って、Taqmanは必ずしもマイクロアレイよりも少ないDNAを用いない。しかしながら、IVF遺伝子型ワークフローに関しては、Taqmanは最も容易に適用できる技術である。これはアッセイの高い信頼性および、最も重要なことには、アッセイのスピードおよび容易性のためである(実行当たりほぼ3時間、および最小の分子生物学工程)。また、(500k Affymetrixアレイのような)多くのアレイ技術とは異なり、Taqmanは高度に慣用化でき、これは、IVF市場で重要である。さらに、Taqmanは高度に定量的であり、従って、異数性はこの技術単独で検出できよう。

0016

Illuminaは、最近、高−スループットゲノタイピングにおけるリーダーとして出現した。Affymetrixとは異なり、Illuminaゲノタイピングアレイはハイブリダイゼーションに専ら依拠しない。その代わり、Illumina技術が対立遺伝子−特異的DNA延長工程を用い、これは、元の配列の決定について、ハイブリダイゼーション単独よりもかなり感受性であって、特異的である。従って、これらの対立遺伝子の全てはPCRによって多重的に増幅され、次いで、これらの産物はビーズアレイにハイブリダイズされる。これらのアレイでのビーズはユニークな「アドレス」タグを含有し、天然配列を含有せず、従って、このハイブリダイゼーションは高度に特異的であって、感受性である。次いで、対立遺伝子がヘッドアレイの定量的スキャンニングによって呼ばれる。Illlumina Golden Gateアッセイシステムは1536までの遺伝子座を同時に遺伝子型分けし、従って、スループットはAaqmanよりも良好であるが、Affymetrix 500kアレイほどは高くない。Illumina遺伝子型のコストはTaqmanよりも低いが、Affymetrixアレイよりも高い。また、Illuminaプラットフォームは500k Affymetrixアレイと同程度完全となるまでには長くを必要とし(72時間まで)、これはIVFゲノタイピングでは問題である。従って、Illuminaはかなり良好なコールレートを有し、アッセイが定量的であり、従って、異数性がこの技術で検出可能である。Illumina技術が500k AffymetrixアレイよりもSNPの選択においてかなりフレキシブルである。

0017

一定時間において250,000SNPまでの測定を可能とする最高スループット技術の内の1つはAffymetrix GeneChip 500Kゲノタイピングアレイである。この技術はPCRをやはり用い、続いて、ハイブリダイゼーションによる分析、および水晶表面における異なる位置で化学的に合成されたDNAプローブに対する増幅されたDNA配列の検出を用いる。これらのアレイの不利は低いフレキシビリティおよびより低い感度である。「完全なマッチ」および「ミスマッチプローブ」のような選択性を増加させることができる修飾されたアプローチがあるか、これらはアレイ当たりのSNPコールの数を犠牲にしてそれを行う。

0018

パイロ配列決定、または合成による配列決定もまたゲノタイピングおよびSNP分析で用いることもできる。パイロ配列決定に対する主な利点は、極端に速いターンアラウンドおよび曖昧でないSNPコールを含むが、アッセイは、現在、高−スループット平行分析に導かれている。PCR、続いての、ゲル電気泳動は、着床前診断においてほとんどの成功に適合したかなり単純な技術である。この技術において、研究者ネステッドPCRを用いて、注目する短い配列を増幅する。次いで、彼らは特殊なゲル上でこれらのDNA試料を実行して、PCR産物可視化する。異なる塩基は異なる分子量を有し、従って、どれぐらい速く産物がゲル中を泳動するかに基づいて塩基含有量を決定することができる。この技術は低−スループットであり、現行技術を用いる科学者による主題の分析を必要とするが、スピードの利点を有する(1ないし2時間のPCR、1時間のゲル電気泳動)。この理由で、それは、セラセミア、神経線維腫症2型白血球接着欠乏症I型アロポー−シーメンス病、鎌状細胞貧血網膜芽細胞腫ペリツェーウスメルツバッヒャー病、ドゥシェーヌ筋ジストロフィー、およびクラリノ症候群を含めた、膨大な病気についての出生前ゲノタイピングで従前用いられてきた。

0019

非常に高い忠実度でもって少量の遺伝物質を遺伝子型分けするために開発されたもう1つの有望な技術は、Affymetrix’s Genflexアレイのような分子逆転プローブ(MIP)である。この技術は、平行して多数のSNPを測定する能力を有し;平行して測定された10,000を超えるSNPSが証明されている。少量の遺伝物質については、この技術についてのコールレートは概略95%において確立されており、なされたコールの精度は99%を超えることが確立されている。これまで、該技術は所与のSNPについて150分子と小さなゲノムデータの量について実行されてきた。しかしながら、該技術は、着床前遺伝子診断について要求されるように、単一細胞、またはDNAの単一ストランドからのゲノムデータで証明されてきた。

0020

MIP技術は、その2つの端部が、それらがDNAの直ちに隣接する標的配列にハイブリダイズする場合に連結によって接合できる線状オリゴヌクレオチドであるパドロックプローブを用いる。プローブがゲノムDNAにハイブリダイズされた後に、ギャップを満たす酵素をアッセイに加え、これは4つのヌクレオチドの内1つをギャップに加えることができる。もし加えられたヌクレオチド(A,C,T,G)が測定下でSNPに対して相補的であるならば、それはDNAにハイブリダイズし、連結によってパドロックプローブの端部を接合するであろう。次いで、管状産物、または閉じたパドロックプローブをエキソヌクレオリシスによって線状プローブから区別される。エキソヌクレアーゼは、線状プローブを分解し、環状プローブを残すことによって、千倍以上だけ、閉じた−vs−閉じていないプローブの相対的濃度を変化させるであろう。次いで、残ったプローブをもう1つの酵素によって切断部位において開き、DNAから取り出し、PCRによって増幅する。各プローブは20塩基タグよりなる異なるタグ配列が付され(16,000が作り出されている)、例えば、Affynetrix GenFlexタグアレイによって検出することができる。特定のギャップを満たす酵素が加えられた反応からのタグドプローブからの存在は、関連SNP上での相補的アミノ酸の存在を示す。

0021

MIPSの分子生物学利点は:(1)単一反応における多重ゲノタイピング、(2)遺伝子型「コール」はギャップを満たし連結することによって起こるが、ハイブリダイゼーションによっては起こらない、および(3)ユニバーサルタグのアレイへのハイブリダイゼーションは、ほとんどのアレイハイブリダイゼーションに固有偽陽性を減少させることを含む。伝統的な500k、TaqManおよび他のゲノタイピングアレイにおいて、全ゲノタイプ試料はアレイにハイブリダイズされ、これは種々の完全なマッチおよびミスマッチプローブを含有し、アルゴリズムはミスマッチおよび完全なマッチプローブの強度に基づく遺伝子型を要求するようである。しかしながら、DNA試料の複雑性、およびアレイ上での膨大な数のプローブのため、ハイブリダイゼーションは固有にノイズがある。他方、MIPは、より長く、従って、より特異的であり、従って、プローブを環状化するのに頑強な連結工程を用いる多重プローブを用いる(すなわち、アレイ上にはない)。対立遺伝子ドロップアウトは(貧弱な実行プローブのため)高いであろうが、バックグラウンドは(特異性のため)このアッセイにおいてはかなり低い。

0022

この技術を単一細胞(または少数の細胞)からのゲノムデータで用いる場合、それは、PCRベースのアプローチのように、一体性の争いに悩んでいる。例えば、パドロックプローブがゲノムDNAにハイブリダイズできないことは、対立遺伝子ドロップアウトを引き起こすであろう。これは体外受精の関係で悪くなるであろう。というのは、ハイブリダイゼーション反応の効率は低く、かつそれは相対的に速く進行して、限定された時間内に胚を遺伝子型分けする必要があるからである。ハイブリダイゼーション反応は販売業者推奨するレベルよりも十分低く減少でき、ミクロ流動技術を用いて、ハイブリダイゼーション反応を加速することもできる。ハイブリダイゼーション反応のための時間を減少させることに対するこのアプローチは減少したデータの質を引き起こすであろう。

0023

予測ゲノミクス
一旦遺伝子データが測定されれば、次の工程が予測目的でデータを用いることである。多くの研究が予測ゲノミックスにおいてなされ、これは、表現型予測を遺伝子型に基づいてなすことができるように、蛋白質、RNAおよびDNAの正確な機能を理解することを試みるカノニカル技術は単一−ヌクレオチド多形(SNP)の機能に焦点を当てるが、より進歩した方法は多因子表現型特徴を担うようにされつつある。これらの方法は、遺伝子および表現型予測の組、および測定された結果の組の間の数学的関係を決定するように試みる、直線回帰および非直線神経ネットワークのような技術を含む。また、遺伝子データに典型的なように、結果の数に対して多くの潜在的プレディクターが存在し、データが過少決定される場合でさえパラメーターの重要な組を解決することができるように、さらなる制限を回帰パラメーターに適応するまばらなデータ組を収容するように設計されたRidge回帰、log回帰および段階的選択のような回帰分析技術の組もある。他の技術は、未決定データ組から情報を抽出するために主な成分分析を適用する。決定ツリーおよび偶発性の表のような他の技術は、それらの独立した変数に基づいて主題を細分化して、主題を、表現型結果が同様であるカテゴリーまたはビンに入れるための戦略を用いる。論理的回帰といわれる最近の技術は、カテゴリー的に独立した変数の間の異なる論理的相互関係についてサーチして、遺伝子データに関連する多数の独立変数の間の相互作用に依存する変数をモデル化する方法を記載している。用いる方法に拘わらず、予測の質は、予測をなすのに用いる遺伝子データの質に自然に高度に依存する。

0024

DNA配列決定のコストは迅速に低下しており、近い将来において、個人の利益のための個々のゲノム配列決定はより普通になるであろう。個人的遺伝子データの知識は、広範な表現型予測が個人に対してなされるのを可能とするであろう。正確な表現型予測をなすためには、関係を問わず、高い質の遺伝子データが非常に重要である。出生前または着床前遺伝子診断の場合には、複雑化因子入手可能な遺伝物質の相対的少量である。限定された遺伝物質をゲノタイピングで用いる場合に、測定された遺伝子データの性質に固有にノイズがあると仮定すれば、一次データの忠実度を増大させ、それをクリーンとできる方法に対する多大な要望が存在する。

0025

臨床的決定がなされる現行の方法は、存在する情報の最良な可能な使用を行わない。医療的、生化学的および情報技術の進歩としては、増大した量のデータが作り出され、アカミックおよび臨床的実験の関係においての個々の患者について双方を貯蔵する。分析で利用可能な遺伝子、表現型および臨床的情報の量における最近の急増に従い、臨床的に関連する相関関係を見出して、人々がより長く、より健康でかつよりエンジョイできる人生を送るのを助けるのに多大の努力が払われてきた。従前には臨床家および研究者は彼らの分析を少量の明らかな潜在的因子に焦点を当て、データの局所的貯蔵を用いるが、他の剤のスコアによって測定されたデータを活用することができ、および所与の遺伝子型または表現型に相関する従前に疑われていない因子を同定することができるより複雑なモデルを用いる潜在的利点がより明瞭になりつつある。この状況は、一旦個人的な遺伝子データが病気の原因および治療、および対象の他の素因を理解するにおいてより抽象的役割を占めれば、かなりより複雑になるであろう。次の10年内に、臨床試験のために、または個人化された治療およびまたは薬物割当ての目的のために、患者の全ゲノムをスキャンし、ならびに膨大な表現型データ点を収集するのが可能であろう。

0026

利用可能なデータの量が膨大となり、それが依然として迅速に増大するにつれ、問題の最も重要な点は、最も適当な関係が発見し、かつそれを用いて人々に役に立つのを可能とする設計および実行する良好な方法となった。分析するのに利用可能な変数の数が増大するにつれ、天文学的数の潜在的関係を会得でき、先見的にそれらのいずれかを除外しない方法を開発するのがより重要となった。同時に、それらの研究を同一プロトコルで実行しなかった場合でさえ、多数の研究の知見を総合し、それを利用することができる方法を開発するのが重要である。また、所与の分析において用いるために最適な方法を正しく同定することができるシステムを開発するために、研究されてきた非常に多数の予測モデルを仮定すれば、それは益々重要になりつつある。

0027

HIVの関係におけるバイオインフォマティックス
HIVは三千万を超える人々が現在HIVに罹って生きているヒトにおいてHIVは広域病と考えられ、毎年二百万を超える死亡がHIVに帰せられている。HIVの主な特徴の1つはその速い複製サイクル、および逆転写酵素の高い誤差率および組換え原性の結果としてのその高い遺伝子可変性である。その結果、HIVウイルスの種々の株は異なるレベルの異なる薬物に対する耐性を示し、最適な治療養生法感染性株の同一性およびその特別な罹患性を考慮することができる。

0028

今日まで認可されたART薬物は11のRTI:7のヌクレオシド、1つのヌクレオチド、および3つの非ヌクレオシド;7つのPI;および1つの融合/エントリー阻害剤リストよりなる。世界中でのART薬物が現在広く行きわたっていることを仮定すれば、ウイルスの耐性株の出現は、耐性に対する低い遺伝子バリア、および貧弱な薬物固執双方のため不可避的である。その結果、どのようにして突然変異したウイルスが抗−レトロウイルス療法に応答するかを予測する技術は益々重要となっている。というのは、それらはサルベージ療法についての結果に影響するだろうからである。ウイルス遺伝子配列決定の迅速に現象しているコスト−予備的に調製された配列については5ドルと低い容量価格−は、よりコストがかかりかつ関連するイン−ビトロ表現型測定よりはむしろ、ウイルス遺伝子配列データに基づく薬物の選択を魅力的オプションとする。しかしながら、配列データの使用はウイルス遺伝子突然変異の出現に基づく、ウイルス薬物応答の正確な予測を必要とする。ウイルス突然変異の多くの異なる組合せは、全ての遺伝子補因子およびそれらの相互作用を含むモデルを設計し、限定されたデータでもってモデルを訓練するのを困難とする。後者の問題は、薬物養生法の多くの異なる組合せが、変数、すなわち、ベースライン臨床状態処置履歴臨床的結果および遺伝子配列を含有するいずれかの特定の養生法について十分に大きなデータ組を収集するのを困難とする場合に、イン−ビボ薬物応答をモデル化する関係が悪化した。

0029

抗ウイルス薬物に対する耐性は、RTまたはプロテアーゼ配列内の1つの突然変異、または複数の突然変異の組合せの結果であり得る。RT酵素は560コドンの鍵となる組によってコードされ;プロテアーゼ酵素は99のコドンによってコードされる。アミノ酸を改変する突然変異のみをコードすることによって各アミノ酸遺伝子座は19の可能な突然変異を有し;従って、RT酵素について野生型とは異なる合計10,640の可能な突然変異、およびプロテアーゼ酵素についての1,981の可能な突然変異がある。単純な直線モデルを用い、データで総合した各突然変異(全ての突然変異が起こるのではない)が特定の重み付け、または直線回帰パラメーターと関連させる場合、数千のパラメーターが存在し得る。もし数百人の患者の試料のみが各薬物で利用できるならば、問題は過剰決定的であるか、またはHadamardの意味において不適切である。というのは、独立した方程式よりも評価するより多くのパラメーターがあるからである。不適切な問題のためにモデル構築する問題に適用することができる多くの技術が存在する。これらが先見的専門知識を観察と組み合わせて、専門家ルールに基づくシステム、ならびにi)リッジ回帰、ii)主要成分分析、iii)決定ツリー、iv)段系的選択技術、v)神経ネットワーク、vi)最小絶対収縮および選択オペレーター(LASSO)およびvii)Support Vector Machines(SVM)を含めた統計的方法を作り出すことを含む。

0030

3つの主な産業−標準専門家システムを典型的に用いて、ART薬物へのHIVウイルスの罹患性:ANRS−AC11システム、Regaシステム、およびStanford
HIVdbシステムを予測する。新しいアルゴリズムがこれらの専門家システムに対して評価されるのは文献において通常である。しかしながら、これらの専門家システムのいずれも、表現型応答の直接的予測を行うように設計されていないが、むしろ、異なる薬物をそれにより比較することができる数値スコアを供し、または感受性、中程度および耐性のような区別されるグループに薬物を分類するように設計されている。加えて、段階的選択でもって訓練された直線回帰モデルのような統計学的アルゴリズムは、表現型結果の予測において専門家システムを実質的に凌ぐことが明瞭に確立されている。結果として、統計学的技術の組のみが、文献に最近開示された方法を最良に実行することを含む詳細な記載中の新規な方法と比較される。

0031

サルベージARTの臨床的結果の予測に対する現在のアプローチは、薬物養生法および遺伝子突然変異の多くの異なる順列と組み合せた、ほとんどは、統計学的に有意な結果のデータの欠如のため、良好な予測パワーを示さない。この分野は多数の不均一なデータ組の一体化、および薬物応答予測の増強の双方のための緊急の要望を有する。

0032

癌の関係でのバイオインフォマティックス
見積って80,000の年次臨床試験のうち、2,100は癌薬物のためである。癌療法のための危険性および利点をバランスさせることは、表現型および遺伝子型情報の組合せ使用についての臨床的先駆者を表す。過去数十年において化学療法大きな進歩があったにもかかわらず、腫瘍学者は彼らの癌患者を、癌細胞について正常な細胞に対してしばしば毒性である原始的全身薬物で依然として治療している。かくして、化学の最大毒性用量および治療用量の間に微妙な線がある。さらに、用量−制限毒性は、他の患者ではなくある患者においてよりひどく、治療運動をより高くまたはより低くシフトさせ得る。例えば、乳癌治療で用いられるアントラサイクリンは有害な心血管事象を引き起こしかねない。現在、もし患者が心臓病に対して低い危険性であると決定できても、治療ウィンドウをより大きな用量のアントラサイクリン療法を可能とするようにシフトできたとしても、全ての患者はあたかも心血管毒性の危険性があるように治療される。

0033

各患者についての化学療法の利点および危険性をバランスさせるために、副作用プロフィール、および医薬介入の治療的有効性を予測することができる。癌療法は、しばしば、ユニークな宿主および腫瘍遺伝子型についての不適切な調整のため失敗する。単一の多形は、稀には、薬物応答において有意な変動を引き起こし;むしろ、マニフォールド多形の結果ユニークな生体分子組成物をもたらし、臨床的結果の予測を困難とする。「ファルマコゲティックス」は、広く、遺伝子変異が薬物に対する患者の応答に影響する方法と定義される。例えば、肝臓酵素における天然の変異は薬物代謝に影響する。癌化学療法の将来は標的化医薬であり、これは、癌を、多数の遺伝子的、分子的、細胞的、および生化学的異常を含む病気プロセスとして理解する必要がある。酵素−特異的薬物の出現に伴い、腫瘍が特異的にまたは正常な組織よりも高いレベルで分子標的発現することを確実とするために注意することができる。腫瘍細胞および健康な細胞の間の相互作用を考慮することができる。というのは、患者の正常な細胞および酵素は腫瘍薬物曝露を制限でき、または有害な事象をよりありそうにしかねないからである。

0034

バイオインフォマティックスは癌治療に大変を起こさせ、仕立てられた治療が利点を最大化し、有害な事象を最小化するのを可能とする。応答を予測するのに用いられる機能的マーカーはコンピュータアルゴリズムによって分析することができる。乳癌結腸癌肺癌および前立腺癌は4つの最も普通の癌である。これらの癌に対する2つの治療の例は乳癌を治療するのに用いられるタモキシフェン、および結腸癌患者において用いられるイリノテカンである。タモキシフェンまたはイリノテカンも、各々、乳癌または結腸癌を治療するのに必要でなく、または十分でない。癌および癌の治療は、患者の副作用のプロフィールおよび腫瘍応答に従って、療法の改正および、しばしば、組合せ療法を必要とする動的なプロセスである。もし癌治療を決定的なツリーイメージして、他の療法の前、後またはそれと共にいずれかの1つの治療を与え、またはそれを差し控えるならば、このツリーは決定決断点のサブセットを含み、そこではツリーの多く(すなわち、他の治療)はブラックボックスと考えることができる。それにも拘わらず、医師を最も効果的な治療に部分的にガイドするためのデータを有することは有益であり、より多くのデータを集めるに従い、このデータに基づいて治療の決定を行うための効果的な方法は数千人の癌患者において平均余命および生活の質を有意に改善することができよう。

0035

結腸または大腸胃腸GI)管の最後の6−フットセクションである。合衆国癌協会は、結直腸癌の145,000の症例が2005年において診断され、56,000人が結果として死亡するであろうと見積もっている。結直腸癌はグレード、または細胞の異常、および段階について評価され、これは腫瘍のサイズ、リンパ節関与、および遠い転移の存在または不存在に細分化される。結直腸癌の95%は、結腸のルーメンライニングする遺伝子的突然変異体上皮細胞から発生する腺癌である。症例の80ないし90%において、外科的処置単独が看護の標準であるが、転移の存在は化学療法を必要とする。転移性結直腸癌に対する多くの一次療法の1つは5−フルオロウラシルロイコボリン、およびイリノテカンの養生法である。

0036

イリノテカンは、スーパーコイルドDNAの絡みを解いて、DNA複製分裂細胞において進行するようにし、細胞をアポトーシスに対して感受性とするトポイソメラーゼ阻害するカンプトテシンアナログである。イリノテカンは生物学的経路において明確な役割を有さず、従って、臨床的結果は予測するのが困難である。用量−限定的毒性はひどい(グレードIIIないしIV)下痢および骨髄抑制を含む、その双方は直ちに医療的注意を必要とする。イリノテカンはウリジン二リン酸グルコロノシルトランスフェラーゼイソ形態1a1(UGT1A1)によって活性代謝産物であるSN−38に代謝される。UGT1A1における多形はGIのひどさ、および骨髄副作用と相関する。

0037

先行技術
本明細書中において、本発明の分野に関連する先行技術の組をリストする。この先行技術はいずれも、本発明の新規なエレメントを含まず、または断じてそれに言及しない。特許文献1において、Hartleyらは、作製された組換え部位および組換え蛋白質を用いてDNA分子セグメントを移動させ、または交換する組換えクローニング方法を記載する。特許文献2において、Parrottらは、生体活性脂質のレベルについて体外受精培養の培地検体を分析して、当該特徴を決定することによって、総じての胚の健康、着床性、および出産予定日まで成功して発生する増大した尤度を含めた体外受精胚の種々の生物学的特徴を決定する方法を提供する。特許文献3において、Threadgillらは、複数の単離された親細胞における部位−特異的有糸分裂組換えに関連するイン・ビトロフェノタイピングおよび遺伝子マッピングで言うようなホモ接合性細胞ライブラリーを調製する方法を記載する。特許文献4において、Stewartらは、血清において直接的に、またはIVF/ET手法の一部として患者から抽出された顆粒膜黄体細胞を培養することによって間接的にレラキシンを測定することによって成功する体外受精(IVF)の確率を決定する方法を記載する。特許文献5において、Cookeらは、女性患者からの生物学的試料中の11□−ヒドロキシステロイドデヒドロゲナーゼのレベルを測定することによってIVFの結果を予測する方法を提供する。特許文献6において、Larderらは、神経ネットワークを用いて、療法剤に対する病気の抵抗性を予測する方法を記載する。特許文献7において、Vingerhoetsらは、所与のHIV株のインテグラーゼ遺伝子型を、関連表現型と共にHIVインテグラーゼ遺伝子型の公知のデータベースと単純に比較して、マッチング遺伝子型を見出す方法を記載する。特許文献8において、Dentonらは、個人のハプロタイプを一般的集団におけるハプロタイプの公知のデータベースと比較して、治療に対する臨床的応答を予測する方法を記載する。特許文献9において、Schadtらは、遺伝子マーカーマップ構築し、個人の遺伝子および特性を分析して遺伝子−特性遺伝子座データを与え、次いで、これを遺伝子的に相互作用する経路を同定するための方法としてクラスター化し、これを多変数分析を用いて確証する方法を記載する。特許文献10において、Veltriらは、パラメーターとしてバイオマーカーコレクションを利用して、前立腺癌の再発の危険性を評価する神経ネットワークの使用を含む方法を記載する。特許文献11において、Mascarenhasは、患者についての生化学的プロフィールを確立し、テストコフォルトのメンバーにおいて応答性を測定し、次いで、患者の生化学的プロフィールのパラメーターを個々にテストして、薬物応答性の尺度との相関性を見出すことによって薬物応答性を予測する方法を記載する。
米国特許第6,720,140号明細書
米国特許第6,489,135号明細書
米国特許出願公開第2004/0033596号明細書
米国特許第5,994,148号明細書
米国特許第5,635,366号明細書
米国特許第7,058,616号明細書
米国特許第6,958,211号明細書
米国特許第7,058,517号明細書
米国特許第7,035,739号明細書
米国特許第6,025,128号明細書
米国特許第5,824,467号明細書

課題を解決するための手段

0038

(発明の要旨)
開示するシステムは、情報の源として二次的遺伝子データを用い、またその遺伝子データを用いて、表現型および臨床的予測をする、不完全またはノイズがある遺伝子データの清浄化を可能とする。開示はヒト対象からの遺伝子データに焦点を当てているが、開示する方法は関連する範囲において生物の範囲の遺伝子データに適用されることは注意すべきである。遺伝子データを清浄化するために記載する技術は、体外受精の間の着床前診断、羊水穿刺と組み合わせた出生前診断、絨毛膜バイオプシー、および胎児血液サンプリング、および非侵襲性出生前診断との関係で最も関連し、ここで、少量の胎児遺伝物質は母体血液から単離される。診断は遺伝病、欠点または異常の増大した尤度、ならびに臨床的およびライフスタイルの決定を促進するための個体についての表現型予測を行うことに焦点をあてることができる。本発明は、先に議論された先行技術の欠点に取り組む。表現型および臨床的予測を行うための本明細書中に記載された技術は、着床前診断、出生前診断との関係、または医療的疾患、または罹患性を持つ個人の関係を含めた、多数の関係で関連する。本明細書中に開示される技術のある実施形態は、個体についての遺伝子、表現型および/または臨床的情報の組を仮定し、個体についての表現型結果または表現型罹患性の性格な予測を行うためのシステムを記載する。1つの態様において、遺伝子データに典型的なように、測定された結果の数と比較して多くの潜在的予測が存在する場合に表現型を正確に予測することができる線形および非線形回帰モデルを形成するための技術が開示され;本発明のもう1つの態様において、該モデルは分割表に基づき、パブリックドメインで入手可能な情報から形成される。なおもう1つの発明において、システムが記載され、ここで、多数のモデルが関連データセットで訓練され、関連予測を行うのに最も正確なそのモデルを用いる。

0039

本発明の1つの態様において、方法は、減数分裂メカニズムの知識、および胚DNAの不完全な測定と共に、母親および親の遺伝子データの不完全な知識を用いて、高度な信頼性でもって鍵となるSNPの位置において胚DNAをイン・シリコにて再構築する。親データは、貧弱に測定されたSNPのみならず、挿入、欠失、およびSNP、または全く測定されなかったDNAの全領域の再構築を可能とすることに注意するのは重要である。

0040

開示された方法は体外受精との関係で適応でき、ここで、着床についてコードされる各胚からのゲノタイピングで利用できる。開示された方法は、少数の胎児細胞、または胎児DNAの断片のみが母親の血液から単離されている非侵襲性出生前診断(NIPD)の関係に等しく適応できる。開示された方法は、羊水穿刺の場合、および胎児の血液が直接的にサンプリングされる他の方法において等しく適応可能である。開示された方法は、限定された量の遺伝子データが標的個人から入手でき、およびさらなる遺伝子データが標的に遺伝的に関連する個体から入手できるいずれの場合においてもより一般的に適用可能である。

0041

本発明の1つの態様において、再構築された胎児または胚ゲノムデータを用いて、細胞が異数性であるか、すなわち、少数の、または2を超える特定の染色体か細胞に存在するかを検出することができる。この疾患の普通の例はトリソリン−21であり、これはダウン症候群を生起させる。再構築されたデータを用いて、所与の染色体の2つが存在し、その双方が1つの親に由来する疾患である片親二染色体についても検出することができる。これは、DNAの潜在的状態についての仮説の組を創製し、いずれの1つが測定されたデータを仮定して真実である最高の確率を有するかを見るためにテストすることによってなされる。異数性をスクリーニングするための高スループットゲノタイピングデータの使用は、各胚からの単一の胚盤胞が多数病気−関連遺伝子座を測定し、ならびに染色体異常についてスクリーニングする双方で用いられるのを可能とするのに注意されたし。

0042

本発明のもう1つの態様において、複数の遺伝子座に存在する増幅されたまたは増幅されていない遺伝物質の量の直接的測定を用いて、異数性、または片親二染色体について検出することができる。この方法の背後にある考えは、単に、増幅の間に存在する遺伝物質の量は初期試料における遺伝子情報の量に比例し、多数の遺伝子座においてこれらのレベルを測定することは統計学的に有意な結果を与えることである。染色体異常についてスクリーニングするこの方法は、遺伝子データを清浄化するための本明細書中に記載された関連方法と組合せて用いることができる。

0043

本発明のもう1つの態様において、開示された方法は、外来性遺伝物質によって生じたデータを同定することにより外来性DNAまたはRNAに汚染されている個体の遺伝物質を清浄化できる。汚染DNAによって生じたシグナルは、異数性によって生じた染色体−幅特異的シグナルを検出できる方法と同様に認識することができる。

0044

本発明のもう1つの態様において、標的細胞が単離され、これらの細胞に含有される遺伝子データが増幅され、以下の技術:PCR−ベースの増幅技術、PCR−ベースの測定技術、または分子逆転プローブに基づく検出技術、またはGeneChipまたはTaqManシステムのようなマイクロアレイのうちの1以上の組合せを用いて多数SNPの測定を行う。次いで、この遺伝子データを本明細書中に記載されたシステムで用いる。

0045

本発明のもう1つの態様において、双方の親からのジプロイドおよびハプロイドデータを用いて、個体の遺伝子データを清浄化できる。別法として、親からのハプロイドデータは、もし親のジプロイドおよびハプロイドデータを測定することができれば、シミュレートすることができる。もう1つの態様において、個体に対する公知の遺伝子関連のいずれかの個人からの遺伝子データを用いて、親、兄弟姉妹、祖父母、子孫、従兄弟、叔父、叔母などを含めた、個体のデータを清浄化することができる。

0046

本発明のもう1つの態様において、標的および/または関連個体の遺伝子データはイン・シリコにて部分的にまたは全体的に知ることができ、いくつかの直接的測定の必要性を軽減する。遺伝子データの部分は、隠れたMarkovモデルを利用するインフォーマティックスアプローチによってイン・シリコにて作り出すことができる。

0047

本発明の1つの態様において、SNPの決定における信頼性を見積もることが可能である。

0048

本明細書中に記載された技術は、1つの、または少数の細胞における遺伝物質の測定、ならびに非侵襲性出生前診断(NIPD)との関係で母親の血液から単離することができるもののようなより少量のDNAについての測定の双方に関連することに注意されたし。また、この方法はイン・シリコでの、すなわち、遺伝物質から直接的に測定されないゲノムデータに等しく適応することができる。

0049

本発明の1つの態様において、OMIM(男性におけるオンラインメンデル遺伝)データを介するように刊行物を介して、およびHapMapプロジェクトおよびヒトゲノムプロジェクトの他の態様から入手可能なデータを用いて入手可能なデータから構築することができる分割表に基づいてモデルを作り出すための技術が提供される。この技術のある実施形態は、モデルの予測的精度を改良するために、遺伝子の間の関連についての、および遺伝子および病気の間の関連についての出現する公のデータを用いる。

0050

なおもう1つの態様において、最良のモデルを、特定の患者で利用できるデータで見出すことができる技術を開示する。この態様において、多くの異なるモデリング技術と共に、変数の多くの異なる組合せを調べることができ、他の対象からのテストデータと共に交差−確証に基づいて個々の対象についての最良の予測を生じるであろうその組合せを選択することができる。

0051

いくつかの場合において、個体についての表現型の結果または表現型の感受性の正確な予測を行うにおいて最良のものを生じさせることができるモデルを、凸最適化技術を用いて訓練して、データの特定の組についての全体的に最適なパラメーターを見出すのが保証されるように、プレディクターの連続的サブセット選択を行う。この特徴は、モデルが複雑であり得、遺伝子突然変異または遺伝子発現レベルのような多くの潜在的プレディクターを含有することができる場合に特に有利である。さらに、いくつかの例においては、それらが単純な方法でデータを説明するように、凸最適化技術を用いて、モデルを希薄とすることができる。この特徴は、モデルにおける潜在的プレディクターの数が、訓練データにおける測定された結果の数と比較して大きい場合でさえ、訓練されたモデルが正確に一般化されるのを可能とする。同様な技術は学問的雑誌公表されている(Rabinowitz,M.ら,2006,“Accurate Prediction ofHIV−1 drug response from the reverse transcriptase and protease amino acid sequences using sparse models created by convex optimization.”Bioinformatics 22(5):541−9)。この論文からの情報は背景および文脈のために本書類に含めてあることに注意されたし。

0052

本明細書中に開示されたある説明的実施形態はヒト対象からの遺伝子データに焦点を当て、癌またはHIVにかかった人々についての、またはアルツハイマー病または心筋梗塞のような病気に対する彼らの罹患性を理解したい人々についての特別な実施形態を提供するが、開示された方法は多数の異なる関係の範囲において生物の範囲の遺伝子データに適用されるのに注意すべきである。表現型予測および薬物応答予測について本明細書中に記載された技術は、種々の癌、遺伝子病、細菌、真菌またはウイルス感染の治療との関係で、並びに臨床的およびライフスタイルの決定を促進するために個体について表現型予測を行うにおいて関連し得る。さらに、該システムを用いて、遺伝子データ、具体的にはIVFとの関係で胚(着床前)の、または羊水穿刺を含めた非侵襲性または侵襲性出生前診断との関係で胎児のSNP(単一ヌクレオチド多形)データを仮定し、特定の表現型結果の尤度を決定することができる。

0053

1つの実施形態において、予測的モデルを、標準化された計算可能なフォーマットで貯蔵されている特定の個人についての遺伝子データに適用することができる。個人は、彼らに関連する特定の論点を記載することができ、あるいはシステムは、いずれの表現型罹患性がその個体が関連するかを自動的に決定することができる。新しい研究データが病気−遺伝子関連、治療、またはライフスタイルの嗜好性について入手できるようになるので、個体には、集合されたゲノムおよび臨床データから開発された予測的モデルに基づいて、彼らの決定および嗜好性についてのこの情報のインパクトを知らせることができる。別法として、該システムは新しい研究データを用いて、個体についての疑われていない危険性をここに検出することができ、その個体にはこの情報のインパクトを知らせることができる。

0054

もう1つの実施形態において、遺伝子データ、表現型データおよび関連診断テストを含めた臨床記録のデータベースから一体化されたデータについて訓練された結果予測モデルを用いて臨床家のために増強された報告を作成することができる。このシステムは、限定されるものではないが、HIV、癌、アルツハイマー病および心臓病を含めた、病気および/または病気素因を持つ個体についての増強された報告の創生を提供できる。この増強された報告は治療する医師に、いずれの病気−管理または予防的処置が与えられた個体についてより適当であるか、またはあまり適当でないであろうことを示すであろう。報告は、集合された対象データについて訓練されたモデルを用いるその個体についての鍵となる結果についての予測および信頼性限界を含むであろう。

0055

もう1つの実施形態によると、特定の個体についてのデータを用いて、分割表に基づき、パブリックドメインで入手可能な情報から形成されたモデルを用いて該個体についての予測を行い、該データは該固体の遺伝子データ、該個体の表現型データ、および個体の臨床データ、およびその組合せよりなる群から取られ、ここで、該予測は該個体の表現型、表現型罹患性および可能な臨床的結果を含む群から取られたトピックスに関し、およびここで、該情報は、遺伝子型−表現型関連についての情報、ある遺伝子対立遺伝子の頻度についての情報、遺伝子対立遺伝子内のある関連の頻度についての情報、遺伝子対立遺伝子のある実施形態を仮定したある表現型の1以上の状態の確率についての情報、ある表現型の状態を仮定した遺伝子対立遺伝子のある組合せの確率についての情報、およびその組合せを含む群から取られるシステムおよび方法が開示される。

0056

なおもう1つの実施形態によると、それにより、特定の個体についてのデータを用いて、最良の精度を示すモデルを利用できるように集合データについて訓練された種々の数学的モデルを用い該個体についての予測を行うことができ、ここで、該個体のデータは該個体の遺伝子データ、該個体の表現型データ、および該個体の臨床的データよりなる群から取られ、およびここで、該予測は該個体の表現型、表現型罹患性、可能な臨床的結果、およびその組合せから取られるトピックスに関連するシステムおよび方法が提供される。ある実施形態において、該方法は、多数のモデルおよび多数のチューニングパラメーターを用いて、データの所与の組において異なる独立した変数および従属した変数の組合せの多くまたはすべてを調べることができ、次いで、最良の表現型予測を行う目的でテストデータにて最高の相関係数を達成した独立した変数および従属した変数およびその組合せ、そのモデルおよびそれらのチューニングパラメーターを選択する。

0057

もう1つの実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、該個体に関連する1以上のトピックスに関連する特定の個体についての報告を作成することができ、ここで、該トピックスはライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体に対する可能な治療養生法、薬物介入、およびその組合せを含む群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴およびその組合せに関連するデータに基づく。

0058

他の実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、医師または臨床家のような特定の個人の代理人のための報告を作成することができ、ここで、該予測は該個体に関連する情報を供することによって該代理人を助けることができ、およびここで、該情報の主題はライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体についての可能な治療養生法、薬物介入、他の治療的介入、およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴およびその組合せに関するデータに基づく。

0059

もう1つの実施形態によると、本明細書中に開示された方法のいずれも予測を用いて、癌にかかった特定の個体に利益を与えることができ、およびここに該予測は、その個体および該個体の特定の癌に関連する情報を供することによって臨床家を助けることができ、およびここで、該情報の主題は治療養生法、ライフスタイルの決定、およびダイエットの嗜好性、薬物介入、他の治療的介入およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。

0060

1つの実施形態によると、本明細書中に開示された方法のいずれも、病原体に罹った特定の個体に利益を与えるために用いることができ、およびここで、該予測は、その個体、および該個体を感染する特定の病原体に関連する情報を供することによって臨床家を助けることができ、ここで、該病原体は細菌、ウイルス、微生物アメーバー、真菌および他の寄生虫よりなる群から選択されるクラスのものであり、およびここで、該情報の主題は治療養生法、ライフスタイルの決定、およびダイエットの嗜好性、薬物介入、他の治療的介入、およびその組合せを含むトピックスの群から取られ、およびここで、該予測は該個体の遺伝子メイキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。

0061

もう1つの実施形態によると、本明細書中に開示された方法のいずれも、具体的な個体についての予測、新しい知識、およびデータを用いることができる。というのは、その知識およびデータは入手可能となるからであり、これを用いて、該個体に関連するトピックスについての、情報報告を自動的にまたは要求に応じて作成することができ、ここで、トピックスはライフスタイルの決定、ダイエットの嗜好性、ホルモンサプリメント、病気についての可能な治療養生法、病原体についての可能な治療養生法、薬物の介入、他の治療的介入、およびその組合せを含む群から取られ、およびここで、新しい知識およびデータは性質において医療的であり、およびここで、該予測は、該個体の遺伝子のベーキャップ、該個体の表現型特徴、該個体の臨床的履歴、およびその組合せに関するデータに基づく。

0062

もう1つの実施形態によると、本明細書中に開示された方法のいずれも、特定の胚からの遺伝子データを用いる予測を用いることができ、該予測を用いて、該胚のある表現型に対する予測された感受性に基づくIVFの関係で胚の選択を助けることができる。

0063

1つの実施形態によると、本明細書中に開示された方法のいずれも、特定の胎児からの遺伝子データを用いる予測を用いることができ、該予測を用いて、余命乾癬の確率、または数学的能力の特定のレベルの確立のような、潜在的子孫についての特別な表現型の結果を見積もることができる。

0064

この開示の利点を仮定すれば、他の態様、特徴および実施形態は本明細書中に開示された方法およびシステムの1以上を実施することができるのは当業者によって認識されるであろう。
例えば、本願発明は以下の項目を提供する。
(項目1)
(i)関連個体からのいずれの染色体のいずれのセグメントが標的個体ゲノムで見出されるセグメントに対応するかに関する1以上の仮説のセットを創製し、
(ii)該標的個体遺伝子データの測定、および該関連個体遺伝子データの測定を仮定して該仮説の各々の確率を決定し、次いで、
(iii)各仮説に関連する確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する:
ことを含む、該標的個体の遺伝子データの不完全な知識、および該標的に遺伝的に関連する1以上の個体の遺伝子データの知識に基づいて該標的個体の遺伝子データを決定する方法。
(項目2)
前記方法が、前記標的の遺伝子データの測定、および親の遺伝子データを仮定した特定の測定の尤度の決定に基づいて、親染色体のいずれの領域が、標的個体に寄与した配偶子の形成に寄与した最大尤度を有するかを、決定することを含む、項目1記載の方法。
(項目3)
親の少なくとも1つのハプロタイプが、親のジプロイド試料から測定された遺伝子データ、およびジプロイド試料から測定されたいずれの対立遺伝子がいずれのハプロタイプに属するかを決定するのに用いられる親からのハプロイド試料から測定された遺伝子データを用いることによって決定されている、項目1記載の方法。
(項目4)
前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性試料、ハプロイド母性試料、ジプロイド父性試料およびハプロイド父性試料からの遺伝子データを含む群から選択される、項目1記載の方法。
(項目5)
清浄化された胚遺伝子データにおける個々のSNP要求の各々について信頼性が計算される、項目1記載の方法。
(項目6)
前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性細胞、ジプロイド父性細胞、ハプロイド父性細胞、母性祖父からのジプロイド細胞、および母性祖父からのハプロイド細胞からの遺伝子データを含む群から選択される、項目1記載の方法。
(項目7)
前記前記遺伝的に関連する個体からの遺伝子データが、ジプロイド母性細胞、ジプロイド父性細胞、および問題となる表現型のキャリアーであることが知られた関連個体からのジプロイド細胞からの遺伝子データを含む群から選択される、項目1記載の方法。
(項目8)
遺伝的に関連する個体が、父親、母親、息子、、兄弟、姉妹、祖父、祖母、叔父、叔母、甥、姪、孫息子、孫娘、従兄弟、クローン、前記標的に対する公知の遺伝的関係を持つ他の個体、およびその組合せよりなる群から選択される、項目1記載の方法。
(項目9)
前記標的個体が、成人ヒト、若年ヒト、ヒト胎児、ヒト胚、非ヒト成体、非ヒト若年体、非ヒト胎児、および非ヒト胚よりなる群から選択される、項目1記載の方法。
(項目10)
前記個体の遺伝子データの1以上が、ポリメラーゼ鎖反応(PCR)、リガンド媒介PCR、縮重オリゴヌクレオチドプライマーPCR、多重置換増幅、対立遺伝子−特異的増幅技術、およびその組合せよりなる群から選択されるツールおよび/または技術を用いて増幅される、項目1記載の方法。
(項目11)
前記個体の遺伝子データの1以上が、分子逆転プローブ(MIP)、ゲノタイピングマイクロアレイ、Taqman SNPゲノタイピングアッセイ、Illuminaゲノタイピングシステム、他のゲノタイピングアッセイ、蛍光イン−サイチュハイブリダイゼーション(FISH)、およびその組合せを含む群から選択されるツールおよび/または技術を用いて測定される、項目1記載の方法。
(項目12)
前記個体の遺伝子データの1以上が、該個体のバルクジプロイド組織、該個体から取られた1以上のジプロイド細胞、該個体から取られた1以上の胚盤胞、該個体の精液、該個体の、該個体で見出される細胞外遺伝物質、母性血液で見出される該個体からの細胞外遺伝物質、母性血漿で見出される該個体からの細胞外遺伝物質、母性血液で見出される該個体からの細胞、該個体に由来することが知られている遺伝物質、およびその組合せを含む群から選択される物質を分析することによって測定される、項目1記載の方法。
(項目13)
前記関連個体遺伝子データの1以上が、イン・シリコにて部分的にまたは全体的に知られているか、あるいは前記標的個体の遺伝子データを決定する以外の個人によって提供される、項目1記載の方法。
(項目14)
前記個体の1以上のハプロイド遺伝子データが、ジプロイドデータからハプロイドデータをシミュレートするコンピュータアルゴリズムによってイン・シリコにて部分的にまたは全体的に創製される、項目1記載の方法。
(項目15)
前記コンピュータアルゴリズムが隠れMarkovモデルを含む項目14記載の方法。
(項目16)
前記標的遺伝子データの決定が、体外受精の関係で胚選択を目的として用いられる、項目1記載の方法。
(項目17)
前記標的遺伝子データの決定が、出生前遺伝子診断の目的で用いられる、項目1記載の方法。
(項目18)
前記標的遺伝子データの決定が、統計学的モデルおよび/または専門家則を用いて表現型罹患性の予測を行う目的で用いられる、項目1記載の方法。
(項目19)
前記標的遺伝子データの決定が表現型予測を行う目的で用いられ、ここで、該表現型のいくつかまたは全てを提示する尤度は、他の従前に知られた表現型情報によって影響される、項目1記載の方法。
(項目20)
前記標的遺伝子データの決定が表現型予測を行う目的で用いられ、ここで、該予測は、該標的遺伝子データを、パブリックドメインで見出される公知の遺伝子マーカーと比較することによってなされる、項目1記載の方法。
(項目21)
標的遺伝子データの決定が、臨床的決定を行う目的で用いられる、項目1記載の方法。
(項目22)
標的遺伝子データの決定が、臨床的決定を行う目的で表現型マーカーと組合せて用いられる、項目1記載の方法。
(項目23)
前記標的遺伝子データの決定が、1以上の病気に対する罹患性についてスクリーニングする目的で用いられ、ここで、家族の病歴が存在しない、項目1記載の方法。
(項目24)
前記標的遺伝子データの決定が、1以上の表現型に対する罹患性についてスクリーニングする目的で用いられ、ここで、該表現型のいくつかまたは全てが多重遺伝子的である、項目1記載の方法。
(項目25)
前記標的遺伝子データの知識が、汚染DNAまたはRNAからの偽データを含有することが知られた、または含有することが疑われる、項目1記載の方法。
(項目26)
前記個体の1以上の遺伝子データが、複数のSNPについての対立遺伝子要求、および各SNPが知られている信頼性を含む、項目1記載の方法。
(項目27)
前記標的個体のSNP要求における信頼性が、該SNPが正しくvs正しくなく要求される確率のオッズ比を計算することによって決定される、項目1記載の方法。
(項目28)
項目1記載の方法を達成するように構成されたシステム。
(項目29)
項目1記載の方法を達成するように構成されたコンピュータ実施システム。
(項目30)
(i)標的個体のゲノムに存在する所与のセグメントの存在の数についての1以上の仮説のセットを創製し、
(ii)該所与のセグメント上の複数の遺伝子座における可能な対立遺伝子のいくつかまたは全てについての遺伝子データの量を測定し、
(iii)該標的個体の遺伝子データおよび、恐らくはまた、関連個体の遺伝子データの測定を仮定して該仮説の各々の相対的確率を決定し、次いで、
(iv)各仮説に関連する相対的確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する;
ことを含む、該標的個体の所与の染色体の所与のセグメント上の多数遺伝子座の測定を用いて、該標的個体のゲノム中の所与のセグメントの存在の数を決定する方法。
(項目31)
該標的ゲノムに存在する染色体のセグメントの存在の数の決定が、染色体異常についてスクリーニングする関係で行われ、この異常は、モノソミー、片親ジソミー、トリソミー、他の異数性、アンバランスなトランスロケーション、およびその組合せを含むリストから選択される、項目30記載の方法。
(項目32)
各仮説の相対的確率の決定が、マッチドフィルタリング概念を用いて行われる、項目30記載の方法。
(項目33)
各仮説の相対的確率の測定が、対立遺伝子要求を行わない定量的技術を用いてなされ、ここで、各遺伝子座の測定についての平均および標準偏差が既知、未知、または均一のいずれかである、項目30記載の方法。
(項目34)
各仮説の相対的確率の決定が、対立遺伝子要求を用いる定性的技術を用いてなされる、項目30記載の方法。
(項目35)
各仮説の相対的確率の決定が、参照配列の公知の対立遺伝子、および定量的対立遺伝子測定を用いることによってなされる、項目30記載の方法。
(項目36)
前記標的個体が、成人ヒト、若年ヒト、ヒト胎児、ヒト胚、非ヒト成体、非ヒト若年体、非ヒト胎児、および非ヒト胚よりなる群から選択される、項目30記載の方法。
(項目37)
前記標的個体の遺伝子データが、ポリメラーゼ鎖反応(PCR)、リガーゼ媒介PCR、縮重オリゴヌクレオチドプライマーPCR、多重置換増幅、対立遺伝子−特異的増幅およびその組合せを含む群から取られるツールおよび/または技術を用いて増幅される、項目30記載の方法。
(項目38)
前記標的個体の遺伝子データが、分子逆転プローブ(MIP)、ゲノタイピングマイクロアレイ、Taqman SNPゲノタイピングアッセイ、Illuminaゲノタイピングシステム、他のゲノタイピングアッセイ、蛍光イン−サイチュハイブリダイゼーション(FISH)、およびその組合せを含む群から選択されるツールおよび/または技術を用いて測定される、項目30記載の方法。
(項目39)
前記標的個体の遺伝子データが、該標的個体のバルクジプロイド組織、該標的個体から取られる1以上のジプロイド細胞、該標的個体から取られる1以上の胚盤胞、該標的個体上で見出された細胞外遺伝物質、母性血液で見出された該標的個体からの細胞外遺伝物質、母性血液で見出される該標的個体からの細胞、該標的個体に由来することが知られた遺伝物質、およびその組合せを含む群から取られる物質を分析することによって測定される、項目30記載の方法。
(項目40)
前記標的における染色体または染色体セグメントの数の決定が、体外受精の関係で胚選択を目的として用いられる、項目30記載の方法。
(項目41)
前記標的の染色体または染色体セグメントの数の決定が、出生前遺伝子診断の目的で用いられる、項目30記載の方法。
(項目42)
項目30記載の方法を達成するように構成されたシステム。
(項目43)
項目30記載の方法を達成するように構成されたコンピュータ実施システム。
(項目44)
(i)関連個体からのいずれの染色体のいずれのセグメントが標的個体のゲノムで見出されるセグメントに対応するかについての1以上の仮説のセットを創製し、
(ii)該標的のゲノムに存在する所与の染色体セグメントの数についての1以上の仮説のセットを創製し、
(iii)該所与のセグメント上の複数の遺伝子座における可能な対立遺伝子の各々についてゲノムデータの量を測定し、
(iv)該標的個体の遺伝子データの測定、および該関連個体の遺伝子データの測定を仮定して仮説の各々の相対的確率を決定し、次いで、
(v)各仮説に関連する相対的確率を用いて、該標的個体の現実の遺伝物質の最もありそうな状態を決定する;
ことを含む、該標的個体の遺伝子データの不完全な知識、および該標的に遺伝的に関連する1以上の個体の遺伝子データの知識に基づいて、該標的個体の遺伝子データ、および該標的ゲノムに存在する染色体、または染色体のセグメントの存在の数を決定する方法。
(項目45)
(i)遺伝子−病気関連についての公に入手可能な情報から形成された偶発事象表に基づいてモデルを構築し;次いで、
(ii)該モデルを適用して、個体に関連するデータに対して操作することによって予測を行う;
ことを含む、該個体に関連する予測を行う方法。
(項目46)
多数の独立変数を使用する前記偶発事象表の精度が、結果データを用いて洗練することができ、ここで、独立変数のサブセットのみが測定される、項目45記載の方法。
(項目47)
多数の独立変数を使用する前記偶発事象表の精度が、前記独立変数の関連についてのデータを用いて洗練することができる、項目45記載の方法。
(項目48)
多数の独立変数を使用する前記偶発事象表の制度が、前記独立変数のある値の出現の頻度についてのデータを用いて洗練することができる、項目45記載の方法。
(項目49)
(i)予測すべき結果が知られている個体の第二のセットからの集合データを用いて複数のモデルを創製し、それをテストし;
(ii)第一の個体で利用可能なデータを仮定した予測を行うための種々のモデルの相対的精度を計算し;次いで、
(iii)最も正確なものとして同定されるモデルを用いて、該第一の個体について予測を行う;
ことを含む、第一の個体に関する予測を行う方法。
(項目50)
前記個体に関連するデータのタイプは、該個体の遺伝子型データ、該個体の表現型データ、該個体の臨床データ、および該個体の実験室データよりなる群から選択されるデータを含む、項目45記載の方法。
(項目51)
前記個体に関連するデータのタイプが、該個体の遺伝子型データ、該個体の表現型データ、および該個体の臨床データ、ならびに該個体の実験室データよりなる群から選択されるデータを含む、項目49記載の方法。
(項目52)
前記データのタイプが、また、前記個体を感染させる病原体のデータよりなる、項目45記載の方法。
(項目53)
前記データのタイプが、また、前記個体を感染させる病原体のデータよりなる、項目49記載の方法。
(項目54)
前記予測が、前記個体の表現型、表現型罹患性、可能な臨床的結果、ライフスタイルの決定、身体の運動、ダイエットの嗜好性、ホルモンサプリメント、栄養サプリメント、病気のための治療、病原体のための処理、望まない疾患についての治療、医薬での治療、およびその組合せよりなる群から選択されるトピックに関する、項目45記載の方法。
(項目55)
前記予測が、前記個体の表現型、表現型罹患性、可能な臨床的結果、ライフスタイルの決定、身体の運動、精神的運動、ダイエット嗜好性、ホルモンサプリメント、栄養サプリメント、病気についての治療、病原体についての処理、望ましくない疾患についての治療、医薬での治療、およびその組合せよりなる群から選択されるトピックスに関する、項目49記載の方法。
(項目56)
前記予測を用いて、前記個体のための、または該個体の代理人のための報告を作成する、項目45記載の方法。
(項目57)
前記予測を用いて、前記個体のための、または該個体の代理人のための報告を作成する、項目49記載の方法。
(項目58)
前記操作の行為が、新しいデータについて操作して、前記個体の予測を更新することを含み、ここで、該データは新しい研究データ、または他の対象についての新しい集合データを含む群から選択される、項目45記載の方法。
(項目59)
前記操作の行為が、新しいデータについて操作して、前記個体の予測を更新することを含み、ここで、該データは新しい研究データまたは他の対象についての新しい集合データを含む群から選択される、項目49記載の方法。
(項目60)
項目45記載の方法を達成するように構成されたシステム。
(項目61)
項目49記載の方法を達成するように構成されたシステム。

図面の簡単な説明

0065

配偶子形成についての減数分裂における組換えの概念の説明図。
ヒト染色体1の1つの領域に沿っての組換えの可変速度の説明図。
異なる仮定に対する偽陰性および偽陽性の確率の決定。
混合された女性試料、全てのヘテロ遺伝子座からの結果。
混合された男性試料、全てのヘテロ遺伝子座からの結果。
女性試料についてのCt測定とは異なる男性試料についてのCt測定。
混合された女性試料からの結果;Taqman単一色素。
混合された男性試料からの結果;Taqman単一色素。
混合された男性試料についての反復測定分布
混合された女性試料からの結果;qPCR尺度。
混合された男性試料からの結果;qPCR尺度。
女性試料についてのCt測定とは異なる男性試料についてのCt測定。
第三の似ていない染色体での異数性の検出。
定常対立遺伝子ドロップアウト速度での2つの増幅分布の説明図。
アルファガウス確率密度関数グラフ
入力データ、データベースデータ、アルゴリズムおよび出力の一般的な関係のダイヤグラム
P(H|M)をどのように駆動するかの視覚概観
シミュレートされたデータについての清浄化アルゴリズムの有効性を示すのに用いられるアルゴリズムを記載するフローチャート視覚的表示
IVFの間における胚の表現型予測の関係での、本明細書中に開示された方法を達成するように構成されたシステムの説明図。
疎な解を生じるLASSO傾向の説明図。Ridge回帰解は2つの円の接合に存在し、LASSO解は円および四角形の接合に存在する。
訓練およびテストデータの10の異なる9:1スプリットにわたって平均し、次いで、各々、7つのPIまたは10のRTIにわたって平均した、測定したおよび予測した応答の相関係数(%で表したR)の表。
PI応答を予測するためのプロテアーゼ酵素における突然変異に関連するLASSOモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ40のパラメーターのみを示す。
NRTI薬物応答を予測するためのRT酵素における突然変異に関連するLASSOモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ40のパラメーターのみを示す。
NNRTI薬物応答を予測するためのRT酵素における突然変異に関連するLASSOモデルパラメーターの値のグラフ表示。最大の絶対的大きさを持つ40のパラメーターのみを示す。
記載なし。
記載なし。
記載なし。
記載なし。

0066

表1:OMIM/NCBIに見出される病気遺伝子のまとめ。
表2:異なる異数性検出技術のまとめ。
表3:低度な共分離を持つSNPを用いて記載された方法についての入力データの例。
表4:高度な共分離を持つSNPを用いて記載された方法についての入力データの例。
表5:表2に示された入力データに代えての出力データの例。
表6:表4に示された入力データに代えての出力データの例。
表7:予備的シミュレーションの結果。
表8:方法の全シミュレーションの結果。
表9:アルツハイマー病の開始への影響におけるAPOEおよびACEにおける突然変異の役割を理解するためのFarrer(2005)、Labert(1998)、およびAlvarez(1999)の結果を表す3つの分割表。
表10:表7の実験のメタ−分析から生じた結果。
表11:訓練およびテストデータの10の異なる9:1スプリットにわたって平均した、種々の方法についてのプロテアーゼ阻害剤(PI)薬物に対する測定されたおよび予測された応答の相関係数(%で表したR)の表。結果の標準偏差(Std.tev.)は灰色で示す;測定された薬物応答の数は最後の列に示す。
法12:訓練およびテストデータ10の異なる9:1スプリットにわたって平均された、種々の方法についての逆転写酵素阻害剤(RTI)薬物に対する測定されたおよび予測された応答の相関係数(%で表したR)の表。結果の標準偏差(Std.dev.)は灰色で示す;測定された薬物応答の数は最後の列に示す。
表13:プロテアーゼ阻害剤(PI)薬物応答についてのプレディクターとしての最小絶対選択および収縮オペレーター(LASSO)によって選択された非ゼロ重みを持つ突然変異の数と共に、種々の回帰方法についての訓練で用いられる試料の数、および突然変異の合計数
表14:逆転写酵素阻害剤(RTI)応答についてのプレディクターとしてのLASSOによって選択された非ゼロ重みを持つ突然変異の数と共に、種々の方法での訓練で用いられる試料の数、および突然変異の合計数。
表15:イリノテカン実験についての表現型データ。

実施例

0067

(好ましい実施形態の詳細な説明)
システムの概念的概観
開示されたシステムの1つの目標は、遺伝子診断の目的の高度に正確なゲノムデータを提供することである。個体の遺伝子データが有意な量のノイズ、またはエラーを含有する場合、開示されたシステムは、関連個体の遺伝子データ、およびその第二の遺伝子データに含まれる情報の間の同様性を用いて、標的ゲノムにおけるノイズを清浄化する。これは、染色体のいずれのセグメントが配偶子形成に関与し、およびどこで減数分裂の間に交差が起こったか、従って、第二のゲノムのいずれのセグメントが標的ゲノムのセクションに対してほとんど同一であると予測されるかを決定することによってなされる。ある状況においては、この方法を用いてノイジー塩基対測定を清浄化することができるが、それを用いて、測定されなかったDNAの個々の塩基対または全領域の同一性を推定することもできる。加えて、なされた各再構成要求について信頼性を計算することができる。高度に単純化された説明を最初に示し、非現実的な仮定をなして、本発明の概念を説明する。今日の技術に適用することができる詳細な統計学的アプローチを以後示す。

0068

システムのもう1つの目標は、染色体の異常な数、染色体のセクション、および染色体
の起源を検出することにある。異数性であり、アンバランスなトランスロケーション、片親二染色体、または他の正味の染色体異常を有する一般的試料において、複数の遺伝子座に存在する遺伝物質の量を用いて、試料の染色体状態を決定することができる。この方法に対して多数のアプローチが存在し、それらのうちいくつかをここに記載する。いくつかのアプローチにおいて、試料に存在する遺伝物質の量は、異数性を直接的に検出するのに十分である。他のアプローチにおいて、遺伝物質を清浄化する方法を用いて、染色体不均衡の検出の効率を増強させることができる。なされた各染色体要求に対して信頼性を計算することができる。

0069

該システムのもう1つの目標は、遺伝子データに関連する変数の効果をモデル化するように設計された項目の広いアレイを開発することによって、遺伝子データから最も単純かつ触知可能な統計学的モデルを抽出する有効かつ効果的手段を提供することにある。より具体的には、遺伝子データに基づいて表現型または表現型感受性をモデル化するための現在利用可能な方法のほとんどまたは全ては以下の欠点を有する:(i)それらは凸最適化技術を用いず、かくして、所与の訓練データセットに対するモデルパラメーターについての局所的最小解を見出すことは保証されない;(ii)それらはモデルの複雑性を最小化する技術を用いず、かくして、それらは、独立した変数の数に対して少数の結果が存在する場合に十分に一般化されるモデルを形成しない;(iii)それらは、正規分布したデータの単純化仮定をなすことなく、論理的回帰の関係でデータからの最も単純な触知のルールの抽出を可能とせず;(iv)それらは遺伝子−遺伝子関連、遺伝子−表現型関連および遺伝子−病気関連についての先見的情報を活用して、表現型または表現型感受性の最良の可能な予測をしない;(v)それらは1を超えるモデルを提供せず、かくして、訓練データに対する種々のモデルの交差−確証に基づいて最良の可能なデータを選択するための一般的アプローチを提供しない。これらの欠点は、遺伝子および表現型情報に関連する多量のデータクラスの分析に基づいて結果を予測する関係で臨界的である。まとめると、現在利用可能な方法は個体が遺伝子型が所与の特定の表現型特徴の尤度についての、または親の遺伝子型特徴を仮定した子孫における特定の表現型特徴の尤度についての質問答えるのに効果的に力を与えない。

0070

以下に掲げる説明のいくつかは、本書類の著者によって従前に公表された仕事を含むことに注意されたし。それは背景情報として提供されて、本明細書中に開示された材料の理解を容易とし、および該材料に対するより大きな関係を与える。

0071

3つのカテゴリーにおいて遺伝子型−表現型予測モデルを考慮することができる:i)遺伝子欠陥または対立遺伝子は100%の確実性でもって病気表現型を引き起こすことが知られている;ii)病気表現型の確率を増加させる遺伝子欠陥および対立遺伝子、ここで、プレディクターの数は表現型確率を分割表でモデル化できるのに十分に小さい;およびiii)多次元線形または非線形回帰モデルを用いて表現型を予測するのに用いることができる遺伝子マーカーの複雑な組合せ。オンラインメンデル遺伝データベース(Online Mendelian Inheritance Database(OMIM))における現在知られている配列および病気表現型を持つ359の遺伝子(表1、列2参照)のうち、大部分はカテゴリー(i)に入り;残りは圧倒的にカテゴリー(ii)に入る。しかしながら、経時的に、多数の遺伝子型−表現型モデルがカテゴリー(iii)において生起していると予測され、ここで、多数の対立遺伝子または突然変異の相互作用は、特定の表現型の確率を見積もるためにモデル化される必要があろう。例えば、シナリオ(iii)は、確実に、今日、HIVウイルスの遺伝子データに基づいて抗−レトロウイルス療法に対するHIVウイルスの応答を予測する関係で当てはまる

0072

シナリオ(i)については、経験則に基づいて表現型の発生を予測するのは通常直接的である。1つの態様において、シナリオ(ii)について表現型の正確な予測をなすのに用いることができる統計的技術が記載されている。もう1つの態様において、シナリオ(iii)について正確な予測を行うのに用いることができる統計学的技術が記載されている。もう1つの態様において、特定の表現型、集合データの特定の組、および特定の個々のデータについて最良のモデルを選択することができる方法が記載されている。

0073

本明細書中に開示された方法のある実施形態は、分割表を実行して、シナリオ(ii)において正確に予測を行う。これらの技術は遺伝子−遺伝子関連および遺伝子−病気関連についての先見的情報を活用して、表現型または表現型感受性の予測を改良する。これらの技術は、関連した独立変数の全てがサンプリングされるのではない従前の実験からのデータを活用するのを可能とする。それらが失われたデータを有するという理由でこれらの従前の結果を捨てる代わりに、概技術はHapMapプロジェクトおよびその他からのデータを活用して、関連する独立変数のサブセットのみが測定された従前の実験を用いる。このように、全ての関連する独立した変数が測定された対象からのデータを単純に集合させるよりはむしろ、予測モデルを全ての集合データに基づいて訓練することができる。

0074

本明細書中に記載されたある方法は凸最適化を用いて、シナリオ(iii)において正確な予測をなすのに用いることができる疎なモデルを創製する。遺伝子型−表現型モデリングの問題はしばしば過剰決定系であるか、または不適切である。というのは、潜在的プレディクター−遺伝子、蛋白質、突然変異およびそれらの相互作用−の数は、測定された結果の数に対して大きいからである。そのようなデータのセットは、依然として、Occam’s Razorと同様な原理を発見することによって正確に一般化される疎なパラメーターモデルを訓練するのに用いることができる。多くの可能な理論が観察を説明することができる場合、最も単純なのは最も正しいらしいものである。この哲学は、先に議論したシナリオ(iii)において遺伝子型−表現型モデルの形成に関連する1つの態様において具体化される。遺伝子データへの適用について本明細書中に記載された技術は、過少判断されたまたは誤って条件付けされた遺伝子型−表現型データセットについて疎なパラメーターモデルを創製することを含む。疎なパラメーターセットの選択はOccam’s Razorと同様な原理を発揮し、結果として、潜在的プレディクターの数が測定された結果の数に対して大きい場合でさえ、正確なモデルが開発されるのを可能とする。加えて、シナリオ(iii)において遺伝子型−表現型モデルを形成するための本明細書中に記載された技術のある実施形態は、所与の訓練データセットについてのモデルパラメーターに対する全体的最小解を見出すことが保証された凸最適化技術を用いる。

0075

集合データのセット、および個体についての入手可能なデータのセットを仮定すれば、その個体についての最良な表現型予測を行うために、いずれの予測アプローチが最も適当であるかは稀にしか明瞭でない。正確な表現型予測を行う傾向があるモデルのセットを記載することに加えて、本明細書中に開示された実施形態は、多数の方法をテストし、所与の表現型予測についての最適方法、集合データの所与のセット、および予測がなされるべき個体についての入手可能なデータの所与の組を選択するシステムを代表する。開示された方法およびシステムは、多重モデルおよび多重訓練パラメーターを用いるデータの所与のセットにおける全ての異なる独立した変数および従属する変数の組合せを調べ、次いで、独立した変数、従属した変数、およびテストデータで測定された最良のモデリング精度を達成するチューニングパラメーターの組を選択する。シナリオ(i)に対応する場合には、専門家則を立案することができ;カテゴリー(ii)におけるような少数の独立した変数での他の場合には、分割表は最良の表現型予測を提供し;およびシナリオ(iii)のような他の場合には、線形または非線形回帰技術を用いて、予測の最適な方法を提供することができる。本開示を読んだ後には、個体について予測をなすための最良のモデルを選択するアプローチをどのようにして用いて、本明細書中に開示されたものを超えて多くのモデリング技術から選択することができるかは当業者に明瞭であろうことを注記する。

0076

技術のある実施形態はいくつかの関係で示されている。まず、それは、分割表、および遺伝子マーカーに基づいて、アルツハイマー病の予測に焦点を当てる多くの臨床的実験から一体化されたデータの不完全な組を用いてアルツハイマー病を発生する尤度を予測する関係で示されている。次に、該システムは、回帰分析、およびウイルスゲノムにおける遺伝子マーカーの知識を用いて1型ヒト免疫不全ウイルス(HIV−1)の薬物応答をモデル化する関係で示されている。最後に、該システムは、各々、回帰分析、および個体についての双方の遺伝子マーカーの不完全なデータ、および癌に関連する実験質的および臨床的対象情報を用いる、乳癌および結腸癌の種々の症例の治療におけるタモキシフェンおよびイリノテカンの用法によって引き起こされる副作用の予測の点で示されている。

0077

遺伝子型テストの減少する費用のため、信頼性よくウイルス薬物応答、癌薬物応答、および他の表現型応答または遺伝子データからの結果を予測する統計学的モデルは、それらが病気治療、ライフスタイルまたは嗜好性決定、または他の活動であるか否かを問わず適当な作用のコースの選択において重要なツールである。記載された最適化技術は、臨床的決定を増強させる目的で多くの遺伝子型−表現型モデリングの問題に応用を有するであろう。

0078

システムの技術的記載
データの清浄化:単純化された例
図1は、親における配偶子の形成について減数分裂の間に起こる組換えのプロセスを説明する。個体の母親からの染色体101はオレンジ色(または灰色)で示す。個体の父親からの染色体102は白色で示す。減数分裂の前相Iの間の複糸期として知られたこの間隔の間に、4つの染色分体103のテトラドが目に見える。相同対の非姉妹染色分体の間の交差は組換え小節104として知られた地点で起こる。説明の目的で該例は単一の染色体、および3つの遺伝子の対立遺伝子を特徴付けると推定される3つの単一ヌクレオチド多形(SNP)に焦点を当てる。この議論では、SNPは母性および父性染色体上で別々に測定することができると仮定する。この概念は多くのSNP、多数のSNPによって特徴付けられる多くの対立遺伝子、多くの染色体、および母性および父性染色体をゲノタイピング前には個々に単離することができない現行のゲノタイピング技術に適用することができる。

0079

注目するSNPの間における潜在的交差の地点に注意を払わなければならない。3つの母性遺伝子の対立遺伝子のセットは、SNP(SNP1,SNP2,SNP3)に対応する(am1,am2,am3)として記載することができる。3つの父性遺伝子の対立遺伝子のセットは(ap1,ap2,ap3)として記載することができる。図1において形成された組換え小節をコードし、組換え染色分体の各対についてちょうど1つの組換えがあると仮定する。このプロセスで形成された配偶子のセットは遺伝子対立遺伝子:(am1,am2,ap3)、(am1,ap2,ap3)、(ap1,am2,ap3)、(ap1,ap2,am3)を有するであろう。染色分体の交差がない場合において、配偶子は対立遺伝子(am1,am2,am3)、(ap1,ap2,ap3)を有するであろう。関連領域において交差の2つの地点がある場合において、配偶子は対立遺伝子(am1,ap2,am3)、(ap1,am2,ap3)を有するであろう。対立遺伝子のこれらの8つの異なる組合せを、その特定の親について、対立遺伝子の仮説セットという。

0080

胚DNAからの対立遺伝子の測定はノイジーであろう。この議論の目的では、胚DNAからの単一染色体を取り、それが、その減数分裂を図1で説明する親に由来すると仮定する。この染色体上の対立遺伝子の測定は、もし胚染色体における測定された対立遺伝子がam1であればA1=1であり、もし胚染色体における測定された対立遺伝子がap1であればA1=−1であって、もし測定された対立遺伝子am1またはap1でなければA1=0であるインジケーター変数のベクトルの項:A=[A1A2A3]Tで記載することができる。推定親についての対立遺伝子の仮説セットに基づき、前記したすべての可能な配偶子に対応する8つのベクトルのセットを作り出すことができる。前記した対立遺伝子については、これらのベクトルはa1=[1 1 1]T、a2=[1 1 −1]T、a3=[1 −1 1]T、a4=[1 −1 −1]T、a5=[−1 1 1]T、a6=[−1 1 −1]T、a7=[−1 −1 1]T、a8=[−1 −1 −1]Tとなろう。システムのこの高度に単純化された適用において、胚のありそうな対立遺伝子は、仮説セットおよび測定されたベクトルの間の単純な相関分析を行うことによって決定することができる:
i*=arg maxiATai, i=1...8 (1)
一旦i*が見出されれば、仮説

0081

が胚DNAにおける対立遺伝子の最もありそうなセットとして選択される。次いで、2つの異なる仮定、すなわち、胚染色体は母親または父親に由来するという仮定を立て、このプロセスを2回反復する。最大の相関

0082

を生じるその過程は正しいと仮定されるであろう。各場合において、母親または父親の各DNAの測定に基づき、対立遺伝子の仮説セットを用いる。開示された方法の典型的な実施形態においては、特定の病気表現型とのその関連のため重要であるSNPの間の多数のSNPを測定し−これらは表現型−関連SNPまたはPSNPといわれるであろうことに注意されたし。PSNPの間の非表現型−関連SNP(NSNP)は、個体の間で実質的に異なる傾向があるRefSNPをNCBI dbSNPデータベースから選択することによって、(例えば、特殊化されたゲノタイピングアレイを開発するための)先見的に選択することができる。別法として、PSNPの間のNSNPは親の特定の対について選択することができる。なぜならばそれらは親の間で異なるからである。PSNPの間のさらなるSNPの使用は、交差がPSNPの間で起こるか否かをより高いレベルの信頼性でもって決定することを可能とする。異なる「対立遺伝子」をこの注記において言及するが、これは単に便宜的なものであり;SNPは蛋白質をコードする遺伝子には関連しないであろうことに注意するのは重要である。

0083

現行の技術との関連でのシステム
もう1つのより複雑な実施形態において、特定の交差の確率を考慮して、対立遺伝子の事後確率を特定の測定を仮定して計算する。加えて、マイクロアレイに典型的なシナリオおよび他のゲノタイピング技術をアドレスし、ここで、ある時点で単一の染色体についてよりはむしろ染色体の対についてSNPを測定する。胚、父性および母性染色体についての遺伝子座iにおける遺伝子型の測定は、各々、SNP測定の対を表すランダム変数(e1,i,e2,i)、(p1,i,p2,i)および(m1,i,m2,i)によって特徴付けることができる。もしすべての測定が対としてなされるならば、母性および父性染色体における交差の存在を決定することができないので、該方法は修飾される:受精胚および父性および母性ジプロイド組織を遺伝子型分けするに加えて、各親からの1つのハプロイド細胞、すなわち、精子細胞および卵細胞も遺伝子型分けする。精子細胞の測定された対立遺伝子はp1,i,i=1...Nによって表され、父性ジプロイド組織から測定された相補的対立遺伝子はp2,iによって表される。動揺に、卵細胞の測定された対立遺伝子はm1,iによって表され、母親のジプロイド細胞におけるそれらの相補体はm2,iによって表される。これらの測定は、どこで親染色体が測定された精子および卵細胞を生じるかにおいて交差したかについての情報を提供しない。しかしながら、卵または精子上のN個の対立遺伝子の配列は少数の交差によって、または交差なしによって、親染色体から作り出されたと仮定することができる。これは開示されたアルゴリズムを適用するための十分な情報である。あるエラーの確率は、父性および母性SNPの要求に関連する。このエラーの確率の見積もりは、なされた測定(p1,i,p2,i)および(m1,i,m2,i)、および用いる技術についてのシグナル−対−ノイズ比率に基づいて変化するであろう。これらのエラーの確率は、開示された方法に影響することなく各遺伝子座についてユニークに計算することができるが、父性および母性SNPを正しく要求する確立は、各々、ppおよびpmにおいて一定であると仮定することによってここでは代数は単純化される。

0084

測定は、測定Mという胚DNAで行われると仮定する。加えて、Aが今やセットであって、ベクトルではないように、表記法をわずかに修飾する:Aとは、各親に由来する対立遺伝子の組合せ(またはセット)についての特定の仮説をいう。双方の親からの対立遺伝子Aのすべての可能な実施形態のセットをSAとして示す。目標は、測定Mを与えて、最大の事後確率でもって、対立遺伝子の組合せ(またはその仮説)A∈SAを決定することである:
A*=arg maxAP(A|M),∀A∈SA (2)
条件付き確率法則を用い、P(A|M)=P(M|A)P(A)/P(M)である。P(M)はすべての異なるAについて共通するので、最適化サーチを:
A*=arg maxAP(M|A)P(A),∀A∈SA (3)
として書き換えることができる。

0085

今や、P(M/A)の計算を考える。単一の遺伝子座iで開始し、胚上のこの遺伝子座は親SNP pt,1,iおよびmt,1,iに由来すると仮定し、ここで、下付文字tは、正しくても正しくなくてもよい行われた測定p1,iおよびm1,iとは反対に、これらの親SNPの真の値を示すのに用いられる。胚SNPの真の値は(et,1,i,et,2,i)として示される。もし仮説Aが真であれば、(et,1,i,et,2,i)=(pt,1,i,mt,1,i)または(mt,1,i,pt,1,i)である。測定(e1,i,e2,i)のいずれが、いずれの親に由来するかを区別できないので、双方の順番を考慮しなければならず、従って、仮説セットA=[(pt,1,i,mt,1,i),(mt,1,i,pt,1,i)]となる。特定の測定Mの確率は、親SNPの真の値または基礎となる状態、すなわち、(pt,1,i,pt,2,i)および(mt,1,i,mt,2,i)に依存する。4つのSNP、pt,1,i、pt,2,i、mt,1,i、mt,2,iが存在し、かつこれらの各々は4つのヌクレオチド塩基A、C、T、Gの値を取ることができるので、44または256の可能な状態が存在する。pt,1,i≠pt,2,i≠mt,1,i≠mt,2,iであると仮定される1つの状態s1についてアルゴリズムを説明する。この説明から、すべての256の可能な状態、sk、k=1...256にどのようにして該方法を適用するかは明瞭であろう。胚SNP(e1,i,e2,i)の測定Mを行い、結果e1,i=p1,i、e2,i=m1,Iが得られると仮定する。その仮説Aおよび状態s1が真実であるとしたこの測定についての事前確率を計算する:

0086

第一項および第二項における最初の表現:P(e1,i=p1,i,e2,i=m1,i|A,s1)=P(e1,i=m1,i,e2,i=p1,i|A,s1)=0.5を考える。というのは、仮説A=[(pt,1,i,mt,1,i),(mt,1,i,pt,1,i)]は胚SNPについての2つの順序付けを等しくありそうとするからである。さて、第一項の第二の表現P(e1,i=p1,i|et,1,i=pt,1,i)を考え、これは、胚SNP et,1,iは現実には父性SNP pt,1,i.に由来すると仮定してe1,i=p1,iを測定する確率である。父性SNP、母性SNPおよび胚SNPを正しく測定する確率はpp,pm,およびpeである。仮定(et,1,i=pt,1,i)を与えれば、測定(e1,i=p1,i)は、胚および父性SNPの双方が正しく測定されるか、あるいは双方は正しくなく測定され、それらは偶然に同一ヌクレオチド(A,C,T,またはG)として正しくなく測定される、のいずれかを要求する。従って、P(e1,i=p1,i|et,1,i=pt,1,i)=pepp+(1−pe)(1−pp)/3であり、ここで、単純性のために、4つのヌクレオチドのすべてを正しくなく要求する確立は同等にありそうであると仮定される−該アルゴリズムは、もう1つの特定のヌクレオチドについての測定を与えて特定のヌクレオチド(A,C,T,G)を要求する異なる確率を適合させるように容易に修飾することができる。同一アプローチを第一項中の3番目の表現に適用して、P(e2,i=m1,i|et,2,i=mt,1,i)=pepm+(1−pe)(1−pm)/3を得ることができる。さて、第二項の2番目の表現を考える。P(e1,i=p1,i|et,1,i=mt,1,i,mt,1,i≠pt,1,i)は、e1,iまたはp1,iが正しくない測定であるか、または双方が正しくない測定であるかのいずれかを要求し、従って、測定された値は偶然に等しい:P(e1,i=p1,i|et,1,i=mt,1,I,mt,1,i≠pt,1,i)=pe(1−pp)/3+(1−pe)pp/3+(1−pe)(1−pp)2/9。同一の議論を第二項の最後の表現に適用して、P(e2,i=m1,i|et,2,i=pt,2,i,mt,1,i≠pt,2,i)=pe(1−pm)/3+(1−pe)pm/3+(1−pe)(1−pm)2/9を得ることができる。さて、これらの項のすべてを組合せ、単に代数を単純化するために、pe=pp=pm=pと仮定して、

0087

を計算することができる。計算は変化するが、本明細書中に記載されたものに対して同様な概念的アプローチをすべての256の可能な状態、sk、k=1...256で用いる。すべての256の状態siについてP(e1,i=p1,I,e2,i=m1,I|A,si)を計算し、各siの確率を合計し、P(e1,i=p1,I,e2,i=m1,i|A)を得る。言い換えれば:

0088

である。各状態siの確率P(si)を計算するために、別々の事象としての状態をなすすべての別々の対立遺伝子を処理しなければならない。というのは、それらは別々の染色体上にあるからである、言い換えれば:P(si)=P(pt,1,i,pt,2,i,mt,1,i,mt,2,i)=P(pt,1,i)P(pt,2,i)P(mt,1,i)P(mt,2,i)である。ベイズ技術を適用して、個々の測定についての確率分布を見積もることができる。遺伝子座iにおける母性または父性染色体上の対立遺伝子の各測定をコイン投げ実験として処理して、特定の値(A,C,T,またはG)であるこの対立遺伝子の確率を測定することができる。これらの測定を成人組織試料でなし、全く信頼性があるとして処理することができるが、対立遺伝子の対は各SNPについて測定し、いずれの対立遺伝子がいずれの染色体に由来かを決定するのは可能でない。wp,1,i=P(pt,1,i)とし、これは、父親の染色体上のSNP iの確率が値pt,1,iであることに対応する。以下の説明において、wp,1,iの代わりにwを用いる。父親の染色体のSNP iで行った測定は収集データとして特徴付けられるものとする。wについての確率分布p(w)を作り出し、データがベイズ理論:p(w|D)=p(w)p(D|w)/p(D)に従って測定した後これを更新することができる。SNP iのn個の対立遺伝子が観察され、wに対応する特定の対立遺伝子がh回出現する、言い換えれば、ヘッドはh回観察されると仮定する。この観察の確率は二項分布によって特徴づけることができる。

0089

データを収集する前に、0および1の間では均一である事前分布p(w)があると仮定する。ベイズ理論を適用することによって、直接的に、p(w|D)についての得られた分布は形式

0090

データ分布であることを示し、cは正規化定数である。しかしながら、次いで、ベイズ理論および新しい測定を適用することによって、p(w|D)を何回も更新し、それを、前記したデータ分布を有するように継続する。p(w)の見積もりは、新しい測定が収集されるごとに更新される。特定のSNPにおける異なる対立遺伝子の確立は人種および性別グループ分けに依存するので、Hapmapプロジェクトで用いたのと同一のグループ分けを用いて、異なる人種および異なる性別について異なる関数p(w)があることに注意されたし。P(si)の計算では、各染色体上の各対立遺伝子は見積もられた確率分布、すなわち、pp,1,i(wp,1,i)、pp,2,i(wp,2,i)、pm,1,i(wm,1,i)およびpm,2,i(wm,2,i)と関連するであろう。次いで、個々の分布の各々についてのMAP見積もりに従ってP(si)についての最大事後(MAP)見積もりを計算することができる。例えば、wp,1,i*は、pp,1,i(wp,1,i)を最大化する議論であるとする。P(si)のMAP見積もりは:
P(si)MAP=wp,1,i*wp,2,i*wm,1,i*wm,2,i* (9)
に従って見出すことができる。各wについて確率分布が存在するので、MAP見積もりを単に用いるよりはむしろ、確率分布に渡って積分することによって、いずれかの特定の信頼性レベルまで値P(si)の保存的見積もりを計算することもできる。例えば、これを行って、ある信頼性レベル内まで保存的にP(M|A)を見積もることが可能である。保存的見積もりまたはMAP見積もりを用いるかに拘わらず、P(si)の見積もりはP(M|A)の計算のために継続的に洗練される。以下において、仮定された状態への言及をなくして、表記法を単純化し、状態s1は詳細な計算のすべての説明のために仮定される。現実には、これらの計算は256の状態の各々について行われ、各々の確率に渡って合計することを記されたし。

0091

P(M|A)を計算する方法は、今や、Mが胚上のSNPのN個の対の測定のセット、M=[M1,...,MN]を表すと仮定し、多数のSNP遺伝子座まで拡大される。また、Aは、いずれの親染色体がそのSNPに貢献したかについての各SNPに対する仮説のセットを表すと仮定する、A=[A1,...,AN]。SA’が、Aとは異なる、またはセットA’に存在するというすべての他の可能な仮説のセットを表すものとする。P(M|A)およびP(M|A’)を計算することができる:

0092

P(A)の計算を考える。本質的には、これは、胚を形成する配偶子の形成において起こる特定の交差の尤度に基づく。特定の対立遺伝子セットの確率は2つの因子、すなわち、胚染色体が母親または父親に由来する確率、および交差の特定の組合せの確率に依存する。異数性をこうむらない胚染色体の清浄なセットについては、胚染色体が母親または父親に由来する事前確率は〜50%であり、その結果、すべてのAについて共通する。さて、組換え節の特定のセットの確率を考える。関連組換え部位Rの数は測定されたSNPS:R=N−1の数に依存する。注目するPSNPの回りのN個のNSNPを構成するDNAセグメントは比較的短いので、交差干渉は、同一染色体上の2つの交差が1つの領域で起こり得ることをかなりありそうもなくする。計算の効率の理由で、この方法は、唯一の交差が各関連染色体についての各領域で起こると仮定し、これはR個の可能な部位で起こり得る。どのようにしてこの方法を拡大して、所与の領域に多数の交差がある確率を含めることができるかは当業者に明らかであろう。

0093

SNPの間の各領域における交差をPr,r=1...N−1で示すものとする。一次的には、2つのSNPの間の領域rにおける組換え節の確率は、(cモルガンで測定された)それらのSNPの間の遺伝子距離に比例する。しかしながら、多数の最近の研究は、2つのSNP遺伝子座の間の組換えの確率の正確なモデリングを可能とした。精子の実験からの観察、および遺伝子変異のパターンは、組換えの率はキロベーススケールに渡って広く変化し、および多数の組換えは組換えホットスポットで起こり、連鎖非平衡を引き起こして、ブロック−様構造を呈することを示す。ヒトゲノム上での組換え率についてのNCBIデータは、UCSC Genome Annotation Databaseを通じて公に入手可能である。

0094

種々のデータセットを単独で、または組合せて用いることができる。最も普通のデータセットの内の2つはHapmapプロジェクトおよびPerlegenヒトハプロタイププロジェクトからのものである。後者はより高い密度であり;前者はより高い質である。HapMap相Iデータ、リリース16aに基づく、染色体1の位置1,038,423ないし4,467,775からの領域的組換え率については図2参照。これらの率は、パッケージLDHatで入手可能な可逆的ジャンプMarkov Chain Monte
Carlo(MCMC)方法を用いて見積もられた。考えられる状態−空間は、ピース様定常組換え率マップの分布である。Markov鎖は、各セグメント201についての率に加えて、率変更点の数および位置の分布を探索する。これらの結果を用いて、SNPSの間の各定常セグメントの長さの組換え率倍に渡って積分することによってPrの見積りを得ることができる。ヌクレオチド202に渡っての累積組換え率を赤色で図2に示す。

0095

もし領域rおよびそうでなければ0で交差が起こったならばcr=1であるように、Cをインジケーター変数crのセットとする。もし交差が起こらないか、そうでなければ0であれば、c0=1である。ただ1つの交差がN個のSNPの領域で起こり得ると仮定するので、セットCのただ1つのエレメントは非0である。よって、セットCによって表される交差の確率は:

0096

であることが判明する。SNP 1...Nについての仮説Aにおいて、関連する4つの潜在的交差がある。すなわち、i)(インジケーター変数のセットCpeによって示される)胚を形成した父性染色体、ii)配列決定された精子を形成した父性染色体(セットCps)、iii)胚を形成した母性染色体(セットCme)、およびi)配列決定された卵を形成した母性染色体(セットCee)。2つのさらなる仮定はv)第一の父性胚SNPがpt,1,1またはpt,2,1に由来するか、およびvi)第一の母性胚SNPがmt,1,1またはmt,2,1に由来するかである。SNPの間の交差の確率は人種および性別の間で異なることが見出されるので、異なる交差確率は父性染色体についてはpp,rとして、および母性染色体についてはpm,rとして示されるであろう。従って、セットCpe、Cps、Cme、Ceeを包含する特定の仮説Aの確率は;

0097

として表される。

0098

さて、P(A)およびP(M/A)を決定するための方程式に関しては、前記方程式3についてのA*を計算するのに必要な全ての要素は定義されている。よって、交差が起こった胚SNPの高度にエラー−傾向の測定から決定し、および高度な信頼性でもって胚測定を結果的に清浄化することが可能である。最良の仮説A*における信頼性の低度を決定することが残っている。これを決定するためには、オッズ比P(A*|M)/P(A*’|M)を見出す必要がある。ツールは全てこの計算のために前記されている:

0099

次いで、A*における信頼性はP(A*|M)=ORA*/(1+ORA*)として与えられる。この計算は特定の仮説A*における信頼性を示すが、SNPの特定の決定における信頼性を示さない。胚PSNP nの決定における信頼性を計算するためには、このSNPの値を変化させない全ての仮説Aのセットを作り出す必要がある。このセットはSA*,nとして示され、これは、仮説A*によって予測されるように、同一の値を有する胚にPSNP nをもたらす全ての仮説に対応する。同様に、仮説A*によって予測される異なる値を有するPSNPをもたらす全ての仮説に対応するセットSA*”,nを作り出す。さて、SNPが正しく要求される確率−対−SNPが正しくなく要求される確率のオッズ比を計算することが可能である:

0100

オッズ比ORA’,nに基づく胚SNPの特定の要求における信頼性は:

0101

として計算することができる。

0102

この技術を用いて、同一染色体の2つが同一の親からのものであり、他方、他の親からのその染色体のいずれも存在しない片親二染色体(UPD)のような欠陥を検出することもできよう。親染色体における交差を推定しようと試みる際に、高い信頼性でもってデータを適切に説明する仮説はなく、もし複数のUPDを含む別の仮説が許容されるならば、それらはよりありそうであることが判明するであろう。

0103

組換えラットにおける確実性の効果、およびSNP測定の信頼性のバウンディング
開示された方法は:特定のSNPの間の組換えの確立についての仮定;胚、精子、卵、父性および母性染色体についての各SNPの正しい測定の確率についての仮定;および異なる集団群内のある対立遺伝子の尤度についての仮定に依存する。これらの仮定の各々を考慮し:組換えのメカニズムは完全には理解され、モデル化されておらず、交差確率は、個人の遺伝子型に基づいて変化することが確立されている。さらに、組換え率が測定される技術は実質的可変性を示す。例えば、可逆的−ジャンプMarkov Chain Monte Carlo(MCMC)方法を実行するパッケージLDAatは、仮定のセットを作成し、組換えのメカニズムおよび特徴付けについてのユーザーの入力のセットを必要とする。これらの仮定は、種々の実験によって得られた異なる結果によって証明されているように、SNPの間の予測された組換え率に影響し得る。

0104

前記リストの全ての仮定のうち、組換え率についての仮定は方程式15に対して最もインパクトを有するであろうと予測される。前記した計算は、SNPS、Prの間の交差に対する確率の最良の見積もりに基づくべきである。その後、(正しくはSNP nと呼ばれる)信頼性尺度Pを低下させる方向において、例えば、組換え率についての95%信頼性範囲における値を用いてPrで用いることができる。95%信頼性範囲は、組換え率の種々の実験によって生じた信頼性データに由来することができ、これは、異なる方法を用いて異なる群からの公表されたデータの間の不一致のレベルを見ることによって確証することができる。

0105

同様に、95%信頼性範囲を、各SNPが正しく要求される確率の見積もりで用いることができる:pp、pm、pe。これらの数は、測定技術の信頼性についての経験的なデータと組み合わせた、ゲノタイピングアッセイ出力ファイルに含まれた現実の測定されたアレイ強度に基づいて計算することができる。これらのパラメーターpp、pmおよびpeが確立されないNSMPは無視することができることを注記する。例えば、ジプロイド親データは信頼性よく測定されるので、親のハクロイド細胞、および親のジプロイド組織の関連SNPについての対立遺伝子のいずれにも対応しない胚についてのNSNP測定を無視することができる。

0106

最後に、計算P(si)を生起する異なる集団群内のある対立遺伝子の尤度についての仮定を考える。これらの仮定もまた開示された方法に対して大きなインパクトを有しないであろう。というのは、親ジプロイドデータの測定は信頼性があり、すなわち、親試料からの状態siの直接的測定は、典型的には、高い信頼性を持つデータをもたらすからである。それにも拘わらず、方程式8に記載された各wについての確率分布を用いて、各状態P(si)の確率についての信頼性範囲を計算することが可能である。前記したように、(正しくはSNP nと呼ばれる)信頼性尺度Pを低下させる保存的方向における各P(si)についての95%信頼性範囲を計算することができる。

0107

(正しくはSNP nと呼ばれる)Pの決定は、どのようにして多くのNSNPが各PSNPについて測定される必要があるかについての決定を知らせて、所望のレベルの信頼性を達成するであろう。

0108

開示された方法の概念を実施する、すなわち、親のDNAの測定、1以上の胚のDNAの測定、および減数分裂のプロセスの事前知識を組合せて、胚SNPの良好な見積もりを得る異なるアプローチがあることを注記する。事前知識の異なるサブセットが知られており、または知られておらず、または大きなまたは小さな低度の確実性でもって知られている場合に、どのようにして同様な方法を適用することができるかは当業者に明らかであろう。例えば、多数の胚の測定を用いて、特定の胚のSNPを要求する確実性を改良し、または親からの失われたデータを供給することができる。注目するPSNPを測定技術によって測定する必要がないことを注記する。たとえ測定システムによってPSNPが決定されなくても、それは、依然として、開示された方法によって高度な信頼性でもって再構築できる。

0109

一旦減数分裂の間に起こった交差の点が決定され、標的ゲノムの領域が親DNAの関連領域にマッピングされれば、注目する個体のSNPの同一性のみならず、測定における対立遺伝子ドロップアウトまたは他のエラーによる測定された標的ゲノムで失われているであろうDNAの全領域を推定することが可能である。または、親DNAにおける挿入および欠失を測定し、開示された方法を用いて、それらが標的DNAに存在すると推定することも可能である。

0110

種々の技術を用いて前記して開示アルゴリズムの計算の複雑性を改善することができる。例えば、母親および父親の間で異なるNSNPを選択することができるにすぎないか、または圧倒的に選択することができる。もう1つの考慮は、PSNPの近くに間隔が設けられたNSNPを用いて、注目するNSNPおよびPSNPの間で起こる交差のチャンスを最小化することであろう。また、多数のPSNPの適用範囲を最大化するために染色体に沿って間隔を設けたNSNPを用いることもできる。もう1つの考慮は、最初に少数のNSNPのみを用いて、大まかにどこで交差が起こったかを、限定された程度の確率のみでもって決定することであろう。次いで、さらなるNSNPを用いて、交差モデルを洗練し、正しくPSNPを要求する確率を増加させることができる。考慮する交差組合せの数は、NがSNPの数であって、Cが最大数の交差であるNCとして概略評価する。結果として、C=4については、Pentium(登録商標)−IVプロセッサーに対して計算可能に御しやすくしつつ、各PSNPについて概略N=100を供給することが可能である。前記したアプローチ、および増大した計算効率についての他のアプローチを用い、N>100、C>4を容易に供給することができる。1つのそのようなアプローチを以下に記載する。

0111

基本となる概念を変化させることなく、胚データ、親データ、および用いるアルゴリズムの特定のセットに基づいて、PSNPについての要求を行い、PSNPが正しく決定された確率の見積もりを生じる多くの他のアプローチがあることを注記する。この確率は個人の決定をなすのに、およびIVFまたはNIPGDの関係で信頼性のよいサービスを実行するのに用いることができる。

0112

遺伝子データ清浄化アルゴリズムに対する帰納的
直線的に範囲を定めるアルゴリズムに関連する本発明のもう1つの実施形態をここに記載する。計算パワーの限定された性質を仮定すると、計算の長さは開示された方法の使用において重要な因子であり得る。計算を実行する場合、必要とされる計算の数がSNPの数と共に指数関数的に上昇するある値を計算しなければならないいずれのアルゴリズムも扱いにくくなり得る。SNPの数と共に直線的に増加する多数の計算を含む解は、常に、SNPの数が大きくなるにつれて時間の観点から好ましいであろう。以下に、このアプローチを記載する。

0113

全ての可能な仮説を考慮する単純なアプローチは、SNPの数が指数関数である実行時間と戦わなければならない。前記したように、k個のSNPについての測定された胚、父親および母親染色体の測定のコレクションであると仮定する。すなわち、M={M1,...,Mk}であり、ここで、Mi=(e1i,e2i,p1i,p2i,m1i,m2i,)である。前記したように、仮説空間はSH={H1,...,Hq}={全ての仮説のセット}であり、ここで、各仮説はフォーマットHJ={Hj1,...Hjk}のものであり、ここで、HJIはフォーマットHji=(pi*,mi*)のスニップiについての「ミニ」仮説であり、ここで、pi*∈{p1i,p2i}およびmi*∈{m1i,m2i}である。4つの異なる「ミニ」仮説Hji、特に:
Hji1:(e1i,e2i)={(p1i,m1i)または(m1i,p1i)}
Hji2:(e1i,e2i)={(p1i,m2i)または(m2i,p1i)}
Hji3:(e1i,e2i)={(p2i,m1i)または(m1i,p2i)}
Hji4:(e1i,e2i)={(p2i,m2i)または(m2i,p2i)}
がある。目標は、最もありそうな仮説H*を:

0114

として選択することであり、ここで、関数F(M,H)=P(H|M)である。

0115

空間SHにおいて4kの異なる仮設がある。全空間SHを専ら調べることによって最良の仮説を見出す試みによって、必要なアルゴリズムはk O(exp(k))における指数関数オーダーのものであり、ここで、kは関連するSNPの数である。大きなk、k>5さえについても、これはかなり遅く、非現実的である。従って、一定時間内にサイズ(k−1)の問題の関数としてサイズkの問題を解く帰納的解に頼るのがより現実的である。本明細書中に示された解はk,O(k)における直線オーダーのものである。

0116

SNPの数において直線的な帰納的解
F(M,H)=P(H|M)=P(M|H)*P(H)/P(M)で始める。次いで、argmaxHF(M,H)=argmaxHP(M|H)*P(H)であり、目標は直線的時間内にP(M|H)*P(H)を解くことである。M(s,k)=SNP sないしkでの測定、H(s,k)=SNP sないしkについての仮説とし、表現方法M(k,k)=Mk,H(k,k)=Hk=SNP kについての測定および仮説を単純化する。先に示したように:

0117

である。また、

0118

であり、ここで、

0119

であり、PC(Hi−1,Hj)=Hi−1,Hiの間の交差の確率である。

0120

最後に、k個のSNPについては:
F(M,H)=P(M|H)*P(H)=P(M(1,k)|H(1,k))*P(H(1,k))
=P(M(1,k−1)|H(1,k−1))*P(H(1,k−1))*P(Mk|Hk)*PF(Hk−1|Hk)
であり、従って、短くすると、
F(M,H)=F(M(1,k),H(1,k)))=F(M(1,k−1),H(1,k−1))*P(Mk|Hk)*PF(Hk−1,Hk)
であり、すなわち、k個のSNPについてのFの計算をk−1個のSNPについてのFの計算に変えることができる。

0121

H=(H1,...Hk)については、k個のSNPについての仮説:

0122

であり、ここで、

0123

である。

0124

これをまとめると:

0125

であり、ここで、Gが帰納的に見出すことができ:n=2,..,kについては、

0126

およびG(M(1,1),H1)=0.25*P(M1|H1)である。

0127

該アルゴリズムは以下の通りである:
n=1については:4つの仮説H1iを作り出し、i=1,...,4についてG(M1|H1i)を計算する。
n=2については:H2iについて4つの仮説を作り出し、式:

0128

を用い、一定時間内に、G(M(1,2)|H2i),i=1,...,4を計算する。n=kについては:Hkiについて4つの仮説を作り出し、

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ