図面 (/)

技術 染色体異常を検出する方法

出願人 プレマイサリミテッド
発明者 チャールズエドワードセルキルクロバーツロバートオールドフランセスコクレア
出願日 2013年8月29日 (5年11ヶ月経過) 出願番号 2015-529121
公開日 2015年9月10日 (3年11ヶ月経過) 公開番号 2015-526101
状態 拒絶査定
技術分野 酵素、微生物を含む測定、試験
主要キーワード ミスマッチエラー ソフトクリップ 自社開発 統計的信頼性 パラメーター化 誤処理 サンプル抽出 配列リード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年9月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (3)

課題・解決手段

本発明は、染色体異常を検出する方法に関する。特に、本発明は、胎児妊娠中母体血液から得られる血漿サンプルにおけるセルフリーDNA分子配列分析を含む、21トリソミー(ダウン症候群)などの胎児の染色体異常の診断に関する。

概要

背景

(発明の背景)
ダウン症候群は、800出生数あたり約1人が発症する、比較的よくある遺伝性障害である。この症候群は、過剰な染色体21全体(21トリソミー、T21)、又は頻度は低いがこの染色体の過剰な実質的部分の存在によって引き起こされる。他の常染色体関与するトリソミー(すなわちT13又はT18)も、出生児において存在するが、T21を超えることはまずない。

一般に、過剰な染色体又は染色体の欠損に起因する胎児異数性が存在する状態は、検出可能な母体セルフリー血漿DNAにおける胎児DNA分子集団不均衡をもたらす。

胎児の染色体異常出生前診断のための信頼できる方法を開発することは、生殖医療における長期目標であった(Puszykらの文献、2008年、PrenatDiagn 28,1-6)。羊水穿刺又は絨毛検査によって胎児性材料を得ることに基づく方法は、観血的であり、熟練臨床医の手によってでさえ、妊娠に対する無視できないリスクを伴う。現在の医療では、こうした観血的診断法は、母体年齢という理由による、又は生化学的検査又は超音波検査を使用する事前スクリーニングを介した、ダウン症候群妊娠の可能性の増大の徴候が存在する場合に通常用いられる。信頼性が高く、最初の三半期に適用可能であり、結果の返却が早く、費用のかからない非観血的出生前診断(NIPD)の方法の必要性が存在する。

この目標の達成に向けた進展は、妊婦の血漿中のセルフリーDNAに、胎児起源の成分が含まれる(Loらの文献、1997年、Lancet 350,485-487)という結果を利用することによって成し遂げられてきた。セルフリー血漿DNA(以下では「血漿DNA」と呼ぶ)は、主として、その通常5%〜20%が胎児起源であり、残りが母体起源である短いDNA分子(80〜200bp)からなる。(Birchらの文献、2005年、Clin Chem 51,312-320; Fanらの文献、2010年、Clin Chem 56,1279-1286)。血漿DNA分子の細胞起源、並びに血漿DNA分子が血液に入り、続いて血液循環から除去される機構は、十分に分かっていない。しかし、胎児性成分が、主に、胎盤内のアポトーシス細胞死の結果であることが広く信じられている(Bianchiの文献、2004年、Placenta 25,S93-S101)。胎児起源である血漿DNA分子の割合は、かなりの個人差に伴って、場合によって異なる。この個人差に、妊娠期間が増すにつれて増大する胎児性成分に関する一般的傾向が重ね合わされる(Birchらの文献、2005年、上記; Galbiatiらの文献、Hum Genet 117,243-248)。胎児性成分は、妊娠初期に、一般的に早ければ第8週で、容易に検出可能である。

原理上は、血漿中のセルフリー胎児DNAが、母体成分によって薄められなければ、T21を特徴付ける過剰な染色体は、正常妊娠に比べて50%過剰の、該染色体に由来するDNA分子をもたらすと予測されるであろう。しかし、胎児起源であるセルフリー血漿DNAの成分の10%という典型的な値を考慮すると、生じる不均衡は、わずか5%、すなわち染色体21由来の断片の数の、正常妊娠の1.00に対する1.05という値までの相対的増大に過ぎないと予測される。血漿DNAの胎児性成分が、10%の値よりも小さい又は大きい状況では、母体血漿中分子の集団における染色体21由来の分子の数の不均衡は、それに対応して小さく又は大きくなる。

したがって、T21に対する診断検査の基本は、母体血漿由来のDNA分子に関するヌクレオチド配列データを得ること(「DNAシークエンシング」)である。いったん、個々のDNA分子から、部分的又は完全なヌクレオチド配列情報が得られれば、最も簡単にはリファレンスヒトゲノム又はゲノムとの比較によって、個々の分子をそれらが由来する染色体に割り当てるために、バイオインフォマテクス技術が適用されなければならない。T21を有する胎児を懐胎している妊娠の場合、分子の集団のわずかな不均衡が、正常妊娠から予測される数に対する染色体21由来の分子の数の過剰として検出可能である。

染色体21が、ヒトゲノムのほんの少しの部分(2%未満)を構成するに過ぎないという事実を考慮すると、信頼できる診断のために十分な数を染色体から収集するために、母体血漿由来の多数のDNA分子が、ランダム採取され、シークエンシングされ、バイオインフォマティクスによって、特定の染色体に割り当てられなければならない。(1)そこから得られるヌクレオチド配列情報を特徴付ける、かつ、次いで(2)染色体上の位置に高信頼性で割り当てるために必要とされる血漿DNA分子の総数は、胎児のゲノムのすべて又はほとんどを採取するのに必要とされる数よりも少ないが、少なくとも数十万分子である。必要とされる最小数は、母体のセルフリー血漿DNA分子の集団の胎児性成分を構成する血漿DNAの割合の関数である。一般的に、この数は、百万から数百万分子である。

この方法を適用する問題は、小さくはない。何故なら、特定の染色体上の位置由来のDNA分子を数える際に、高い定量的精度が必要とされるからである。さらに、母体血漿由来のDNAは、その内部の胎児性成分がごく一部であるゲノムの混合物である。この定量的な技術的問題は、DNAサンプル内の特定の場所の変異を特定することとは本質的に異なる。

十分に大きい数の血漿DNAに対していくらかのヌクレオチド配列データを得ることができると仮定すれば、かつ、バイオインフォマティクス的方法が、十分に大きい数をその染色体起源に割り当てるために高信頼性で適用できると仮定すれば、統計的方法を適用して、血漿DNA分子の集団における、統計的信頼性を伴う染色体の不均衡の存在又は非存在を決定することができる。

母体血漿由来のDNA断片のランダムなサンプルをシークエンシングするというこの考えは、該サンプルが、完全なゲノムのほんの一部分のみを構成するに過ぎないものの、Fanらの文献、2008年、Proc Natl Acad Sci U S A 105,16266-16271及びChiuらの文献、2008年、Proc Natl Acad Sci U S A 105,20458-20463に記載されているNIPD手法の基礎である。

この分野における先行する診断手法は、その染色体起源に割り当てるのに十分な長さの配列を得るために、比較的にエラーのない質の高い配列データをもたらす大量並列(massively parallel)DNAシークエンシング技術を利用していた。この目的のために大量並列シークエンシング(次世代シークエンシング又は第二世代シークエンシングとしても公知である)を利用する、今日までに公知であるこれらの方法の重大な欠点は、実施されるシークエンシングが、時間と費用がかかるバイオインフォマティクスを必要とする非常に膨大なデータを生じるフルサビスゲノムシークエンサー-主にIllumina HiSeq-に対して高品質であることである。実行時間及び分析プロセスには、合わせて数週間を要する可能性がある。さらなる欠点は、これらの装置の設備投資が重大であり(現時点で50万ドルを大幅に上回り)、これらに対する幅広利用可能性を制限することである。さらに、多重試験の可能性が制限され、これらの費用のかかる機械運転停止され、さらに、多数の患者のための高速処理量の診断法への利用可能性が制限される。しかし、こうしたものは、これらの程度の欠点であっても、大量並列シークエンシングの設置の開始を妨げないほどに、非観血的出生前診断のために臨床的に必要である。

しかし、ある種の自動シークエンシング装置は、一般的に、従来のゲノムシークエンシングに必要とされるよりも実質的に良くない品質の配列データを生じる。このようにして生じる配列データは、頻繁なエラーを特徴とする。これらのエラーは、様々な種類のものであるが、最も一般的には、非常に高頻度の「インデル」であり、これは、シークエンシング装置が出力する誤った過剰な塩基(挿入)又は欠失した塩基によって引き起こされるエラーである。さらに、短いホモポリマー連続(すなわち、いくつかの同一塩基連続)を有効にシークエンシングすることができないという固有の特性が存在する。さらに、シークエンシングエラーとしては、塩基が誤って割り当てられる「ミスマッチ」も含まれ得る。

この「エコノミーグレード」シークエンシングは、Ion Torrentシークエンシングプラットフォームなどのある種の卓上型ハイスループットシークエンサーによって安価にかつ迅速にもたらされる種類のものである。このシークエンシングプラットフォームは、半導体シークエンシング技術に基づいている(Rothbergらの文献、2011年、Nature 475,348-352)。ポリメラーゼ触媒反応において、成長するDNA鎖ヌクレオチドが取り込まれる時、陽子が放出される。この技術は、それに伴うpHの変化を検出することによって、ヌクレオチドが付加されたかどうかを検出する。半導体チップは、逐次、4つのDNAヌクレオチド前駆体(dATP、dCTP、dGTP、又はdTTP)うちの1つでいっぱいになる。成長する鎖にヌクレオチドが取り込まれなければ、電圧は発生せず;2つのヌクレオチドが付加されれば、電圧変化は約2倍となる。塩基のホモポリマー連続のシークエンシングは、ホモポリマー長が増大するにつれて、問題となる。インデルエラー(誤った塩基挿入又は欠失)は、特にホモポリマー連続に関して頻度が高い。

ワークフローは、特定のアダプター配列を付着させることと、エマルジョンPCRとを含み、その後、DNAサンプルをシークエンシングすることができる。調製時間は、一般的に、6時間未満であり、シークエンシング実行自体は、3時間未満である。Ion Torrentシークエンシングプラットフォームの性能は、最近、他のハイスループット卓上型シークエンサーと共に概説されている(Lomanらの文献、2012年、Nature Biotechnology 30(5),434-439;Liuらの文献、2012年、Journal of Biomedicine and Biotechnology 2012,1-11; Quailらの文献、2012年、BMCGenomics,13(341))。Ion Torrent装置によって生じる配列データの質は、高頻度のインデルエラーが特徴であると認識されている。

胎児異常の分野での正確な診断は、臨床的に重要である。したがって、ある種の自動シークエンシング装置の特徴を一般的に有する、非常に高い頻度の挿入又は欠失(インデル)エラー及び短いホモポリマー連続の誤処理に強い診断手法の大きな必要性が存在する。

概要

本発明は、染色体異常を検出する方法に関する。特に、本発明は、胎児の妊娠中母体血液から得られる血漿サンプルにおけるセルフリーDNA分子の配列分析を含む、21トリソミー(ダウン症候群)などの胎児の染色体異常の診断に関する。2

目的

さらなる欠点は、これらの装置の設備投資が重大であり(現時点で50万ドルを大幅に上回り)、これらに対する幅広い利用可能性を制限することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

女性被験者から得られる生体サンプルにおける胎児染色体異常を検出する方法であって、以下のステップを含む前記方法:(a)該生体サンプル内核酸分子に関する配列データを得るステップ;(b)該配列データ内の各核酸配列と、リファレンスゲノム特有の部分に対応する配列とのマッチング分析を実施して、それぞれのマッチした核酸を、リファレンスゲノム内の特定の染色体又は前記染色体の一部に割り当て(ここでは、前記マッチング分析によって、リファレンスゲノム内の塩基に対応する各核酸内の各塩基に対する正確性スコア、並びに、いずれかの挿入、欠失アンビギュイティ、及び/又は置換に対するペナルティスコアがもたらされる)、各核酸に対する合計スコアが、あらかじめ決定したスコア基準に到達した場合には、マッチを割り当てるステップ;及び(c)それぞれの1以上のリファレンス染色体に割り当てられたマッチした核酸の総数に対する、標的染色体に割り当てられたマッチした核酸の総数の比率を測定するステップ(ここでは、正常妊娠における比率に対する、測定された比率の統計的に有意な差が、標的染色体における胎児の異常を示す)。

請求項2

前記標的染色体が、染色体13、染色体18、染色体21、X染色体、又はY染色体である、請求項1記載の方法。

請求項3

前記胎児の染色体異常が、胎児の染色体異数性である、請求項1又は請求項2記載の方法。

請求項4

前記胎児の染色体異数性が、13トリソミー、18トリソミー、又は21トリソミーである、請求項3記載の方法。

請求項5

前記胎児の染色体異数性が、21トリソミー(ダウン症候群)である、請求項4記載の方法。

請求項6

妊娠中の女性被験者内の胎児の性別予測する方法であって、以下のステップを含む前記方法:(a)妊娠中の女性被験者から生体サンプルを得るステップ;(b)生体サンプル内の核酸分子に関する配列データを得るステップ;(c)該配列データ内の各核酸配列と、リファレンスゲノムの特有の部分に対応する配列とのマッチング分析を実施して、それぞれのマッチした核酸を、リファレンスゲノム内の特定の染色体又は前記染色体の一部に割り当て(ここでは、前記マッチング分析によって、リファレンスゲノム内の塩基に対応する各核酸内の各塩基に対する正確性スコア、並びに、いずれかの挿入、欠失、アンビギュイティ、及び/又は置換に対するペナルティスコアがもたらされる)、各核酸に対する合計スコアが、あらかじめ決定したスコア基準に到達した場合には、マッチを割り当てるステップ;及び(d)それぞれの1以上のリファレンス染色体に割り当てられたマッチした核酸の総数に対する、Y染色体に割り当てられたマッチした核酸の総数の比率を測定するステップ(ここでは、あらかじめ決定した比率を超えるマッチしたY染色体配列の存在が、男性胎児の存在を示し、あらかじめ決定した比率未満のマッチしたY染色体配列の存在が、女性胎児の存在を示す)。

請求項7

前記マッチング分析が、Bowtie2又はBWA-SWソフトウェア、又は最大完全マッチング技術を用いるソフトウェア、例えばBWA-MEM又はCUSHAW2ソフトウェアなどを使用して実施される、請求項1から6のいずれか1項記載の方法。

請求項8

前記マッチング分析が、核酸を、リファレンスゲノム内の前記染色体のあらかじめ決定した部分とマッチさせるステップを含む、請求項1から7のいずれか1項記載の方法。

請求項9

前記正確性スコアが、正のスコアである、請求項1から8のいずれか1項記載の方法。

請求項10

前記正のスコアが、リファレンスゲノム内の塩基に対応する核酸内の各塩基に対して+2である、請求項9記載の方法。

請求項11

前記いずれかの挿入、欠失、アンビギュイティ、及び/又は置換に対するペナルティスコアが、負のスコアなどの減点スコアである、請求項1から10のいずれか1項記載の方法。

請求項12

置換に対する負のスコアが-6であり、アンビギュイティに対する負のスコアが-1であり、挿入又は欠失に対する負のスコアが-5、かつ、挿入又は欠失内の各残基に対して-3である、請求項11記載の方法。

請求項13

最小スコア基準が、以下の式によって定義される、請求項1から12のいずれか1項記載の方法:a + b *ln (L) (式中、a及びbは、マッチング精度を最適化するために決定されるスコアリングパラメータを指し、lnは、リード長(L)の自然対数を指す)。

請求項14

aが20を表し、bが8.0を表す、請求項13記載の方法。

請求項15

前記分析される核酸配列が、約25bpから約250bpを含む、請求項1から14のいずれか1項記載の方法:

請求項16

前記生体サンプルが、母体の血液、血漿血清、尿、又は唾液である、請求項1から15のいずれか1項記載の方法。

請求項17

前記生体サンプルが、母体血漿である、請求項16記載の方法。

請求項18

マッチング分析ステップの前に、得られた配列データからの重複リードを分解するステップをさらに含む、請求項1から17のいずれか1項記載の方法。

請求項19

サンプル内の胎児DNAの量に基づいて、マッチしたヒットの数を標準化又は調整するステップをさらに含む、請求項1から18のいずれか1項記載の方法。

請求項20

前記配列データが、次世代シークエンシングプラットフォームによって得られる、請求項1から19のいずれか1項記載の方法。

請求項21

前記配列データが、ポリメラーゼ連鎖反応の使用を含むシークエンシングプラットフォームによって得られる、請求項1から20のいずれか1項記載の方法。

請求項22

前記配列データが、合成によるシークエンシングの使用を含むシークエンシングプラットフォームによって得られる、請求項1から20のいずれか1項記載の方法。

請求項23

前記配列データが、水素イオンなどのイオンの放出の使用を含むシークエンシングプラットフォームによって得られる、請求項1から20のいずれか1項記載の方法。

請求項24

前記配列データが、半導体に基づくシークエンシング手法の使用を含むシークエンシングプラットフォームから得られる、請求項1から20のいずれか1項記載の方法。

請求項25

前記配列データが、ナノポアに基づくシークエンシング手法の使用を含むシークエンシングプラットフォームから得られる、請求項1から20のいずれか1項記載の方法。

請求項26

前記ナノポアに基づく手法が、有機タイプのナノポアの使用を含む、請求項25記載の方法。

請求項27

前記ナノポアに基づく手法が、金属、ポリマー、又はプラスチック材料から構成されるナノポアの使用を含む、請求項25又は請求項26記載の方法。

請求項28

前記次世代シークエンシングプラットフォームが、Roche 454(すなわちRoche 454 GSFLX)、Applied Biosystems社のSOLiDシステム(すなわちSOLiDv4)、Illumina社のGAIIx、HiSeq 2000、及びMiSeqシークエンサー、Life Technologies社のIon Torrent半導体シークエンシングプラットフォーム、Pacific Biosciences社のPacBio RS、及びSanger社の3730xlから選択される、請求項27記載の方法。

請求項29

前記配列データが、Life Technologies社のIon Torrentプラットフォーム又はIllumina社のMiSeqによって得られる、請求項1から20のいずれか1項記載の方法。

請求項30

前記配列データが、Life Technologies社のIon Torrent Personal Genome Machine(Ion TorrentPGM)によって得られる、請求項29記載の方法。

請求項31

前記配列データが、例えばPI又はPII Chipを備えるIon Protonなどの、Life Technologies社のIon Torrentプラットフォーム、及びそのさらなる派生的な装置及び成分に基づく、多重の可能な反復によって得られる、請求項30記載の方法。

技術分野

0001

(発明の分野)
本発明は、染色体異常を検出する方法に関し、本発明は特に、胎児妊娠中母体血液から得られる血漿サンプル中のセルフリーDNA分子配列分析を含む、21トリソミー(ダウン症候群)などの胎児の染色体異常の診断に関する。

背景技術

0002

(発明の背景)
ダウン症候群は、800出生数あたり約1人が発症する、比較的よくある遺伝性障害である。この症候群は、過剰な染色体21全体(21トリソミー、T21)、又は頻度は低いがこの染色体の過剰な実質的部分の存在によって引き起こされる。他の常染色体関与するトリソミー(すなわちT13又はT18)も、出生児において存在するが、T21を超えることはまずない。

0003

一般に、過剰な染色体又は染色体の欠損に起因する胎児の異数性が存在する状態は、検出可能な母体のセルフリー血漿DNAにおける胎児DNA分子の集団不均衡をもたらす。

0004

胎児の染色体異常の出生前診断のための信頼できる方法を開発することは、生殖医療における長期目標であった(Puszykらの文献、2008年、PrenatDiagn 28,1-6)。羊水穿刺又は絨毛検査によって胎児性材料を得ることに基づく方法は、観血的であり、熟練臨床医の手によってでさえ、妊娠に対する無視できないリスクを伴う。現在の医療では、こうした観血的診断法は、母体年齢という理由による、又は生化学的検査又は超音波検査を使用する事前スクリーニングを介した、ダウン症候群妊娠の可能性の増大の徴候が存在する場合に通常用いられる。信頼性が高く、最初の三半期に適用可能であり、結果の返却が早く、費用のかからない非観血的出生前診断(NIPD)の方法の必要性が存在する。

0005

この目標の達成に向けた進展は、妊婦の血漿中のセルフリーDNAに、胎児起源の成分が含まれる(Loらの文献、1997年、Lancet 350,485-487)という結果を利用することによって成し遂げられてきた。セルフリー血漿DNA(以下では「血漿DNA」と呼ぶ)は、主として、その通常5%〜20%が胎児起源であり、残りが母体起源である短いDNA分子(80〜200bp)からなる。(Birchらの文献、2005年、Clin Chem 51,312-320; Fanらの文献、2010年、Clin Chem 56,1279-1286)。血漿DNA分子の細胞起源、並びに血漿DNA分子が血液に入り、続いて血液循環から除去される機構は、十分に分かっていない。しかし、胎児性成分が、主に、胎盤内のアポトーシス細胞死の結果であることが広く信じられている(Bianchiの文献、2004年、Placenta 25,S93-S101)。胎児起源である血漿DNA分子の割合は、かなりの個人差に伴って、場合によって異なる。この個人差に、妊娠期間が増すにつれて増大する胎児性成分に関する一般的傾向が重ね合わされる(Birchらの文献、2005年、上記; Galbiatiらの文献、Hum Genet 117,243-248)。胎児性成分は、妊娠初期に、一般的に早ければ第8週で、容易に検出可能である。

0006

原理上は、血漿中のセルフリー胎児DNAが、母体成分によって薄められなければ、T21を特徴付ける過剰な染色体は、正常妊娠に比べて50%過剰の、該染色体に由来するDNA分子をもたらすと予測されるであろう。しかし、胎児起源であるセルフリー血漿DNAの成分の10%という典型的な値を考慮すると、生じる不均衡は、わずか5%、すなわち染色体21由来の断片の数の、正常妊娠の1.00に対する1.05という値までの相対的増大に過ぎないと予測される。血漿DNAの胎児性成分が、10%の値よりも小さい又は大きい状況では、母体血漿中分子の集団における染色体21由来の分子の数の不均衡は、それに対応して小さく又は大きくなる。

0007

したがって、T21に対する診断検査の基本は、母体血漿由来のDNA分子に関するヌクレオチド配列データを得ること(「DNAシークエンシング」)である。いったん、個々のDNA分子から、部分的又は完全なヌクレオチド配列情報が得られれば、最も簡単にはリファレンスヒトゲノム又はゲノムとの比較によって、個々の分子をそれらが由来する染色体に割り当てるために、バイオインフォマテクス技術が適用されなければならない。T21を有する胎児を懐胎している妊娠の場合、分子の集団のわずかな不均衡が、正常妊娠から予測される数に対する染色体21由来の分子の数の過剰として検出可能である。

0008

染色体21が、ヒトゲノムのほんの少しの部分(2%未満)を構成するに過ぎないという事実を考慮すると、信頼できる診断のために十分な数を染色体から収集するために、母体血漿由来の多数のDNA分子が、ランダム採取され、シークエンシングされ、バイオインフォマティクスによって、特定の染色体に割り当てられなければならない。(1)そこから得られるヌクレオチド配列情報を特徴付ける、かつ、次いで(2)染色体上の位置に高信頼性で割り当てるために必要とされる血漿DNA分子の総数は、胎児のゲノムのすべて又はほとんどを採取するのに必要とされる数よりも少ないが、少なくとも数十万分子である。必要とされる最小数は、母体のセルフリー血漿DNA分子の集団の胎児性成分を構成する血漿DNAの割合の関数である。一般的に、この数は、百万から数百万分子である。

0009

この方法を適用する問題は、小さくはない。何故なら、特定の染色体上の位置由来のDNA分子を数える際に、高い定量的精度が必要とされるからである。さらに、母体血漿由来のDNAは、その内部の胎児性成分がごく一部であるゲノムの混合物である。この定量的な技術的問題は、DNAサンプル内の特定の場所の変異を特定することとは本質的に異なる。

0010

十分に大きい数の血漿DNAに対していくらかのヌクレオチド配列データを得ることができると仮定すれば、かつ、バイオインフォマティクス的方法が、十分に大きい数をその染色体起源に割り当てるために高信頼性で適用できると仮定すれば、統計的方法を適用して、血漿DNA分子の集団における、統計的信頼性を伴う染色体の不均衡の存在又は非存在を決定することができる。

0011

母体血漿由来のDNA断片のランダムなサンプルをシークエンシングするというこの考えは、該サンプルが、完全なゲノムのほんの一部分のみを構成するに過ぎないものの、Fanらの文献、2008年、Proc Natl Acad Sci U S A 105,16266-16271及びChiuらの文献、2008年、Proc Natl Acad Sci U S A 105,20458-20463に記載されているNIPD手法の基礎である。

0012

この分野における先行する診断手法は、その染色体起源に割り当てるのに十分な長さの配列を得るために、比較的にエラーのない質の高い配列データをもたらす大量並列(massively parallel)DNAシークエンシング技術を利用していた。この目的のために大量並列シークエンシング(次世代シークエンシング又は第二世代シークエンシングとしても公知である)を利用する、今日までに公知であるこれらの方法の重大な欠点は、実施されるシークエンシングが、時間と費用がかかるバイオインフォマティクスを必要とする非常に膨大なデータを生じるフルサビスゲノムシークエンサー-主にIllumina HiSeq-に対して高品質であることである。実行時間及び分析プロセスには、合わせて数週間を要する可能性がある。さらなる欠点は、これらの装置の設備投資が重大であり(現時点で50万ドルを大幅に上回り)、これらに対する幅広利用可能性を制限することである。さらに、多重試験の可能性が制限され、これらの費用のかかる機械運転停止され、さらに、多数の患者のための高速処理量の診断法への利用可能性が制限される。しかし、こうしたものは、これらの程度の欠点であっても、大量並列シークエンシングの設置の開始を妨げないほどに、非観血的出生前診断のために臨床的に必要である。

0013

しかし、ある種の自動シークエンシング装置は、一般的に、従来のゲノムシークエンシングに必要とされるよりも実質的に良くない品質の配列データを生じる。このようにして生じる配列データは、頻繁なエラーを特徴とする。これらのエラーは、様々な種類のものであるが、最も一般的には、非常に高頻度の「インデル」であり、これは、シークエンシング装置が出力する誤った過剰な塩基(挿入)又は欠失した塩基によって引き起こされるエラーである。さらに、短いホモポリマー連続(すなわち、いくつかの同一塩基連続)を有効にシークエンシングすることができないという固有の特性が存在する。さらに、シークエンシングエラーとしては、塩基が誤って割り当てられる「ミスマッチ」も含まれ得る。

0014

この「エコノミーグレード」シークエンシングは、Ion Torrentシークエンシングプラットフォームなどのある種の卓上型ハイスループットシークエンサーによって安価にかつ迅速にもたらされる種類のものである。このシークエンシングプラットフォームは、半導体シークエンシング技術に基づいている(Rothbergらの文献、2011年、Nature 475,348-352)。ポリメラーゼ触媒反応において、成長するDNA鎖ヌクレオチドが取り込まれる時、陽子が放出される。この技術は、それに伴うpHの変化を検出することによって、ヌクレオチドが付加されたかどうかを検出する。半導体チップは、逐次、4つのDNAヌクレオチド前駆体(dATP、dCTP、dGTP、又はdTTP)うちの1つでいっぱいになる。成長する鎖にヌクレオチドが取り込まれなければ、電圧は発生せず;2つのヌクレオチドが付加されれば、電圧変化は約2倍となる。塩基のホモポリマー連続のシークエンシングは、ホモポリマー長が増大するにつれて、問題となる。インデルエラー(誤った塩基挿入又は欠失)は、特にホモポリマー連続に関して頻度が高い。

0015

ワークフローは、特定のアダプター配列を付着させることと、エマルジョンPCRとを含み、その後、DNAサンプルをシークエンシングすることができる。調製時間は、一般的に、6時間未満であり、シークエンシング実行自体は、3時間未満である。Ion Torrentシークエンシングプラットフォームの性能は、最近、他のハイスループット卓上型シークエンサーと共に概説されている(Lomanらの文献、2012年、Nature Biotechnology 30(5),434-439;Liuらの文献、2012年、Journal of Biomedicine and Biotechnology 2012,1-11; Quailらの文献、2012年、BMCGenomics,13(341))。Ion Torrent装置によって生じる配列データの質は、高頻度のインデルエラーが特徴であると認識されている。

0016

胎児異常の分野での正確な診断は、臨床的に重要である。したがって、ある種の自動シークエンシング装置の特徴を一般的に有する、非常に高い頻度の挿入又は欠失(インデル)エラー及び短いホモポリマー連続の誤処理に強い診断手法の大きな必要性が存在する。

0017

(発明の概要)
本発明の第1の態様によれば、女性被験者から得られる生体サンプルにおける胎児の染色体異常を検出する方法であって、以下のステップを含む前記方法が提供される:
(a)生体サンプル内核酸分子に関する配列データを得るステップ;
(b)該配列データ内の各核酸配列と、リファレンスゲノムの特有の部分に対応する配列とのマッチング分析を実施して、それぞれのマッチした核酸を、リファレンスゲノム内の特定の染色体又は前記染色体の一部に割り当て(ここでは、前記マッチング分析によって、リファレンスゲノム内の塩基に対応する各核酸内の各塩基に対する正確性スコア、並びに、いずれかの挿入、欠失、アンビギュイティ(ambiguity)、及び/又は置換に対するペナルティ(penalisation)スコアがもたらされる)、各核酸に対する合計スコアが、あらかじめ決定したスコア基準に到達した場合には、マッチを割り当てるステップ;及び
(c)それぞれの1以上のリファレンス染色体に割り当てられたマッチした核酸の総数に対する、標的染色体に割り当てられたマッチした核酸の総数の比率を測定するステップ(ここでは、正常妊娠における比率に対する、測定された比率の統計的に有意な差が、標的染色体における胎児の異常を示す)。

0018

本発明の第2の態様によれば、妊娠中の女性被験者内の胎児の性別を予測する方法であって、以下のステップを含む前記方法が提供される:
(a)妊娠中の女性被験者から生体サンプルを得るステップ;
(b)生体サンプル内の核酸分子に関する配列データを得るステップ;
(c)該配列データ内の各核酸配列と、リファレンスゲノムの特有の部分に対応する配列とのマッチング分析を実施して、それぞれのマッチした核酸を、リファレンスゲノム内の特定の染色体又は前記染色体の一部に割り当て(ここでは、前記マッチング分析によって、リファレンスゲノム内の塩基に対応する各核酸内の各塩基に対する正確性スコア、並びに、いずれかの挿入、欠失、アンビギュイティ、及び/又は置換に対するペナルティスコアがもたらされる)、各核酸に対する合計スコアが、あらかじめ決定したスコア基準に到達した場合には、マッチを割り当てるステップ;及び
(d)それぞれの1以上のリファレンス染色体に割り当てられたマッチした核酸の総数に対する、Y染色体に割り当てられたマッチした核酸の総数の比率を測定するステップ(ここでは、あらかじめ決定した比率を超えるマッチしたY染色体配列の存在が、男性胎児の存在を示し、あらかじめ決定した比率未満のマッチしたY染色体配列の存在が、女性胎児の存在を示す)。

図面の簡単な説明

0019

Prinseq配列重複簡易統計。簡潔な簡易統計を作成すること、また、重要なことには、サンプル内で優勢である重複配列の数を出すことにおけるPrinseqの使用の例示。その生データを下の表に示す:



本発明の方法に従う27血漿サンプルの分析。図2は、正常妊娠(サンプル1〜15)由来の血漿サンプル及び21トリソミー妊娠(サンプル16〜27)由来の血漿サンプルに対するZスコアを示す。

0020

(発明の詳細な説明)
本発明の第1の態様によれば、女性被験者から得られる生体サンプルにおける胎児の染色体異常を検出する方法であって、以下のステップを含む前記方法が提供される:
(a)生体サンプル内の核酸分子に関する配列データを得るステップ;
(b)該配列データ内の各核酸配列と、リファレンスゲノムの特有の部分に対応する配列とのマッチング分析を実施して、それぞれのマッチした核酸を、リファレンスゲノム内の特定の染色体又は前記染色体の一部に割り当て(ここでは、前記マッチング分析によって、リファレンスゲノム内の塩基に対応する各核酸内の各塩基に対する正確性スコア、並びに、いずれかの挿入、欠失、アンビギュイティ、及び/又は置換に対するペナルティスコアがもたらされる)、各核酸に対する合計スコアが、あらかじめ決定したスコア基準に到達した場合には、マッチを割り当てるステップ;及び
(c)それぞれの1以上のリファレンス染色体に割り当てられたマッチした核酸の総数に対する、標的染色体に割り当てられたマッチした核酸の総数の比率を測定するステップ(ここでは、正常妊娠における比率に対する、測定された比率の統計的に有意な差が、標的染色体における胎児の異常を示す)。

0021

本発明は、非常に高い頻度の置換及びインデルエラー並びに短いホモポリマー連続の誤処理に特に強い、適切なバイオインフォマティクス処理を特定するものである。このバイオインフォマティクス処理は、適切に効率的な方式で、配列の、染色体への信頼できる割り当てを可能にする。すなわち、いずれの染色体にもマッチしない実質的に非稼働の配列データの大きな部分を排除しない又は誤った染色体上の位置への配列の誤った割り当てを行わない信頼性を合わせ持つ。

0022

(染色体異常)
本発明が検出における有用性を見いだした、適した染色体異常の例としては、以下が挙げられる:ダウン症候群(21トリソミー)、エドワーズ症候群(18トリソミー)、パトー症候群(13トリソミー)、9トリソミー、Warkany症候群(8トリソミー)、ネコ眼症候群(染色体22の4コピー)、22トリソミー、及び16トリソミー。

0023

さらに又は或いは、遺伝子、染色体又は染色体の一部、コピー数の異常の検出は、ウォルフヒルシュホーン症候群(4p-)、ネコなき症候群(5p-)、ウィリアムス-ボイレン症候群(7-)、ヤコブセン症候群(11-)、ミラーディッカー症候群(17-)、スミス・マゲニス症候群(17-)、22q11.2欠失症候群(口蓋心臓顔面症候群、ディジョージ症候群円錐動脈幹異常顔貌症候群、先天性胸腺無形成症、及びストロング症候群(Strong Syndrome)としても公知である)、アンジェルマン症候群(15-)、及びプラダーウィリー症候群(15-)を含む群から選択される状態の検出及び/又は診断を含むことができる。

0024

さらに又は或いは、染色体コピー数の異常の検出は、ターナー症候群(ウルリッヒ-ターナー症候群又はXモノソミー)、クラインフェルター症候群、47,XXY又はXXY症候群、48,XXYY症候群、49,XXXXY症候群、トリプルX症候群、XXXX症候群(テトラソミーX、四重X、又は48,XXXXとも呼ばれる)、XXXXX症候群(ペンタソミーX又は49,XXXXXとも呼ばれる)、及びXYY症候群を含む群から選択される状態の検出及び/又は診断を含むことができる。

0025

一実施態様では、標的染色体は、染色体13、染色体18、染色体21、X染色体、又はY染色体である。

0026

一実施態様では、胎児の染色体異常は、胎児の染色体異数性である。さらなる実施態様では、胎児の染色体異数性は、13トリソミー、18トリソミー、又は21トリソミーである。一層さらなる実施態様では、胎児の染色体異数性は、21トリソミー(ダウン症候群)である。この実施態様では、当業者は、本発明の手法が、胎児が21番染色体の染色体全体ではなく実質的部分を有する症例の診断に適用可能であることを容易に理解することとなる。

0027

(サンプル抽出)
サンプルは、慣例的な手順に従って、妊娠中の女性被験者から得ることができるということを理解されたい。一実施態様では、生体サンプルは、母体の血液、血漿、血清、尿、又は唾液である。さらなる実施態様では、生体サンプルは、母体血漿である。

0028

母体血漿を得るステップは、一般的に、妊娠中の女性被験者から(一般的に静脈穿刺によって)抜き取られる5〜20mlの血液サンプル(一般的に末梢血液サンプル)を含むこととなる。したがって、こうしたサンプルを得ることは、胎児の空間に非侵襲性であるとみなされ、母体にとっても侵襲性が最小限である。血漿は、遠心分離による細胞性材料の除去後に、従来の手段によって調製される(Maronらの文献、2007年、MethodsMol Med 132,51-63)。

0029

DNAは、血漿DNAのヌクレオチド配列に関して偏りのない従来の手法によって、母体血漿から抽出される(Maronらの文献、2007年、上記)。血漿DNA分子の集団は、一般的に、胎児起源である部分と、母体起源である部分とを含むこととなる。

0030

(配列データの入手)
バイオインフォマティクス分析のために、十分な数の血漿DNA分子(少なくとも500,000、一般的に数百万分子)(Fan及びQuakeの文献、2010年、PLoS One 5))に対するDNA配列データが、一般に、入手及び調製される。十分な数は、検出されるべき異常の種類に対して、統計的に決定されることとなる。バイオインフォマティクス分析は、特定の染色体の特有の配列に対する信頼できるマッチの形で、必要とされる情報を効率的に抽出しつつ、インデル及びミスマッチエラーに強くなるように、特別に設計される。

0031

当業者には、本発明が、配列データを得るための、いかなる特定の技術にも限定されないことが理解されよう。しかし、配列データの質が、従来のゲノムシークエンシングに対して一般的に見られるものほど最適ではない場合に、本発明の方法が、より大きな有用性を見いだすことが理解される。例えば、一実施態様では、配列データは、ポリメラーゼ連鎖反応の使用を含むシークエンシングプラットフォームによって得られる。さらなる実施態様では、配列データは、次世代シークエンシングプラットフォームを使用して得られる。こうしたシークエンシングプラットフォームは、以下に広範に考察及び概説されている:Lomanらの文献(2012年) Nature Biotechnology 30(5),434-439; Quailらの文献(2012年)BMCGenomics 13,341; Liuらの文献(2012年) Journal of Biomedicine and Biotechnology 2012,1-11; 及びMeldrumらの文献(2011年) Clin Biochem Rev. 32(4): 177-195;(これらの中のシークエンシング及びプラットフォームを参照によって本明細書に組み込む)。

0032

適切な次世代シークエンシングプラットフォームの例としては、以下が挙げられる:Roche 454(すなわちRoche 454 GSFLX)、Applied Biosystems社のSOLiDシステム(すなわちSOLiDv4)、Illumina社のGAIIx、HiSeq 2000、及びMiSeqシークエンサー、Life Technologies社のIon Torrent半導体に基づくシークエンシング機器、Pacific Biosciences社のPacBio RS、及びSanger社の3730xl。

0033

Roche社の454プラットフォームはそれぞれ、化学発光シグナルが、塩基取り込みを示し、かつ、シグナルの強度が、ホモポリマーリードを通して取り込まれた塩基の数と相関する、パイロシークエンシングを用いる。

0034

一実施態様では、配列データは、半導体に基づくシークエンシング手法の使用を含むシークエンシングプラットフォームから得られる。半導体に基づくシークエンシング手法の長所は、その機械、チップ、及び試薬が、非常に安く製造でき、シークエンシングプロセスが、(emPCRによって差し引かれるものの)高速であり、そのシステムが拡張可能であることであるが、これは、emPCRのために使用されるビーズサイズによっていくらか制限される可能性がある。

0035

一実施態様では、配列データは、合成によるシークエンシングの使用を含むシークエンシングプラットフォームによって得られる。Illumina社の合成によるシークエンシング(SBS)技術は、現在、世界的に見て、成功し、かつ広く採用されている次世代シークエンシングプラットフォームである。TruSeq技術は、成長するDNA鎖に取り込まれる単一の塩基の検出を可能にする自社開発の可逆ターミネーターに基づく方法を使用する、大量並列シークエンシングを補助する。蛍光標識されたターミネーターは、各dNTPが添加され、次いで切断されて次の塩基の取り込みが可能になる時に画像化される。各シークエンシングサイクル中に、4つすべての可逆ターミネーター結合dNTPが存在するので、自然な競争によって、取り込みの偏りが最小限になる。

0036

一実施態様では、配列データは、ナノポアに基づくシークエンシング手法の使用を含むシークエンシングプラットフォームから得られる。さらなる実施態様では、ナノポアに基づく手法は、例えばOxford Nanopore Technologies社によって使用される技術における、生きている細胞における細胞膜及びタンパク質チャネルの状況を模倣する有機タイプのナノポアの使用を含む(例えばBranton D、Bayley Hらの文献(2008年) Nature Biotechnology 26 (10),1146-1153)。一層さらなる実施態様では、ナノポアに基づく手法は、金属、ポリマー、又はプラスチック材料から構成されるナノポアの使用を含む。

0037

一実施態様では、次世代シークエンシングプラットフォームは、Life Technologies社のIon Torrentプラットフォーム又はIllumina社のMiSeqから選択される。この実施態様のこれらの次世代シークエンシングプラットフォームは、どちらもサイズが小さく、速い回転率を特徴とするが、データ処理量が限られる。

0038

さらなる実施態様では、次世代シークエンシングプラットフォームは、Life Technologies社のIon Torrent Personal Genome Machine(Ion TorrentPGM)であるパーソナルゲノムマシン(PGM)である。Ion Torrent装置は、合成によるシークエンシング(SBS)と同様の戦略を使用するが、ヌクレオチド取り込み中のDNAポリメラーゼ活性に起因する水素イオンの放出によるシグナルを検出する。本質的に、Ion Torrentチップは、非常に高感度pHメーターである。各イオンチップは、多数のシークエンシング反応の並行な検出を可能にする、何百万ものイオン選択性電界効果トランジスタ(ISFET)センサーを含有する。ISFET装置の使用は、当業者に周知であり、かつ、十分に、本発明の方法によって必要とされる配列データを得るために使用することができる技術の範囲内である(Prodromakisらの文献(2010年)IEEE Electron Device Letters 31(9),1053-1055; Purushothamanらの文献(2006年) Sensors and Actuators B 114,964-968; Toumazou及びCassらの文献(2007年) Phil. Trans. R. Soc. B,362,1321-1328; WO 2008/107014(DNA Electronics Ltd社); WO 2003/073088(Toumazou); US 2010/0159461(DNA Electronics Ltd社); それぞれのシークエンシング手法を、参照によって本明細書に組み込む)。

0039

454とIon Torrentとの両方によって使用されるSBS化学はまた、より長いリードの助けとなる。Ion Torrentは、現在、Roche 454よりもかなり短い断片に限定されているが、これは、将来のバージョンで改善されるであろう。Roche 454とIon Torrentプラットフォームはどちらも、誤った挿入又は欠失(インデル)として現れるホモポリマー配列エラーという共通の問題を有する。Rocheは、DNA Electronics社のライセンスを受けて、Ion Torrentと同様の検出方法を採用することとなり、それによって454とIon Torrentプラットフォームとが本質的に同一になるであろうと考えられている。

0040

一実施態様では、配列データは、水素イオンなどのイオンの放出の使用を含むシークエンシングプラットフォームによって得られる。この実施態様は、いくつかの重要な利点を提供する。Ion TorrentPGMは、市販品のうち最も安価な(すなわち約$80,000)パーソナルゲノムマシンとして、Quailらの文献(2012年;上記)に記載されている。さらに、Lomanらの文献(2012年;上記)は、最速処理量(80〜100Mb/h)及び最短の実行時間(〜3h)をもたらすものとして、Ion Torrent PGMを記載している。しかし、Ion Torrent PGMが、高頻度のインデルエラーを特徴とすることが、十分に実証されている。例えば、Lomanらの文献(2012年;上記)は、Ion Torrent PGMが、最も短いリード及び最も悪いホモポリマー関連インデルエラー率をもたらしたことを記載している。高いエラー率という問題は、Illumina MiSeqとIon Torrent PGMとの比較で、さらに裏付けられている(http://www.illumina.com/documents/analysis_of_inaccuracies_in_ion_torrent_long_read_application.pdf(これは、MiSeq総エラー率が、PGM総エラー率よりも実質的に低いことを主張している))。Ion Torrent PGMのエラー率に関するこうした不都合な特性は、個別のブログサイト、例えばhttp://omicsomics.blogspot.co.uk/及びhttp://pathogenomics.bham.ac.uk/blog/author/nick/などに論述されている。

0041

後世代のIon Torrent装置も、本発明における有用性を見いだす可能性がある、例えば、一実施態様では、配列データは、例えばPI又はPII Chipを備えるIon Protonなどの、Life Technologies社のIon Torrentプラットフォーム、及びそのさらなる派生的な装置及び成分に基づく、多重の可能な反復によって得られることを理解されたい。

0042

さらに、本発明の発明者らは、Ion TorrentPGMを用いて本発明に従って配列データを得るステップを実施した場合に存在するインデルの数を分析した。その結果を表1にまとめる:

0043

表1は、4つの母体血漿DNAサンプルからのデータを示し、また、これは、本発明に従って、入手し、シークエンシングし、染色体上の位置とマッチさせた、一連の母体血漿DNA分子からの、1以上又は2以上のインデルを有する分子の頻度をまとめたものである。マッピングされた配列リード大多数は、少なくとも1つのインデルを示す。これらのデータは、本発明の手法に従って得られたマッチした配列リード(「良好なヒット」)を指す。

0044

したがって、Ion Torrentプラットフォーム、すなわち実際には他のパーソナルゲノムマシンが、染色体異常を診断するための-特にその結果によって胎児を中絶するかどうか最終決定される可能性がある場合、重要技術には適していないであろうことが、当業者には確実に明らかであろう。それに対して、Illumina Genome Analyser及びより最近ではHiSeq 2000は、ハイスループット大量並列シークエンシングに対する基準を設定しつつあるが(Quailらの文献、2012年、BMCGenomics,13(341))、こうした装置は、より費用が高く、時間もかかる。

0045

しかし、本発明の方法は、Ion Torrent装置などのエラー傾向の装置の好都合性質(すなわち費用、速度、及び処理量)と、高いエラー率に関する欠点を驚くべきことに克服する厳密性の低いマッチング分析とを併せ持っている。

0046

(重複の分解)
Ion TorrentPGMシークエンシングデータの質及び特性をモニタリングするためのメタゲノムツールとして、Prinseqを用いた(Schmieder及びEdwardsの文献、2011年、Bioinformatics 27,863-864)。Prinseqは、塩基組成、長さ分布、塩基クオリティコール(base quality call)、ジヌクレオチド頻度、及び重複配列に関する、生の配列データに対する簡易統計を提供する。

0047

診断には、染色体のマッチの割合が含まれるので、ある重要な統計値は、データにおける完全重複の数であり;さらに、母体血漿中に天然出現する完全重複配列の確率は低く;その発生は、予想外人為的結果である。したがって、完全重複配列の分解のステップを実施することによる重複配列の除去が、重要な前処理ステップであると考えられる。

0048

したがって、一実施態様では、本発明の方法は、マッチング分析ステップの前に、得られた配列データからの重複リードを分解するステップをさらに含む。

0049

当業者には、どのようにして重複配列の分解を実施するのかが明らかであろう。例えば、FASTX-Toolkit内のFASTQ/A Collapserソフトウェアは、リードカウントの正確な数を保ちながら、同一配列を単一の配列に分解する能力を提供する。

0050

図1は、配列重複分布の例を示し、また、重複であった総リードの割合(この特定の例では10%)を示す。FASTX-Toolkitを使用して、完全重複配列(完全長にわたって同じ配列)を分解した。

0051

(マッチング分析)
非観血的異数性の先行する出願(Chiuらの文献、2008年、Proc Natl Acad Sci U S A 105,20458-20463)は、Solexa/Illuminaショートリードシークエンシング技術を使用していた。これらのリードの長さは、すべて36bpであり、この技術は、ゲノム反復及びコピー数多型を明らかにするために試みられるゲノムマッピング手順に対する厳密なリードを用いていた。この技術は、反復がマスキングされたゲノムにリードをマッピングし、リード全長にわたって100%の同一性でゲノム内のある位置にマッピングされたリードのみをカウントするものであった。

0052

それに対して、本発明の方法にIon TorrentPGMを適用する場合、約20から260bpの、変動する長さの配列がもたらされた。

0053

次いで、先に記載した通りの完全重複リードの分解に従って、本発明の方法によって、マッチング分析が実施された。こうしたマッチング分析は、一般的に、適切なソフトウェアを使用して非マスキングリファレンスゲノムに対して実施されるバイオインフォマティクス分析を含む。

0054

一実施態様では、マッチング分析は、Bowtie2又はBWA-SW(Li及びDurbinらの文献(2010年)Bioinformatics,Epub)アラインメントソフトウェア、或いは、最大完全マッチング(Maximal Exact Matching)技術を用いるアラインメントソフトウェア、例えばBWA-MEM(lh3lh3.users.sourceforge.net/download/mem-poster.pdf)又はCUSHAW2(http://cushaw2.sourceforge.net/)ソフトウェアなどを使用して実施される。さらなる実施態様では、マッチング分析は、Bowtie2ソフトウェアを使用して実施される。一層さらなる実施態様では、Bowtie2ソフトウェアは、Bowtie2 2.0.0-beta7である。

0055

代替実施態様では、マッチング分析は、最大完全マッチング(Maximal Exact Matching)(MEM)技術を用いるアラインメントソフトウェア、例えばBWA-MEM(lh3lh3.users.sourceforge.net/download/mem-poster.pdf)又はCUSHAW2(http://cushaw2.sourceforge.net/)ソフトウェアを使用して実施される。MEMアルゴリズムは、より高い正確性を提供するという利点を有すると考えられている。

0056

Solexa/Illuminaデータのために使用されるよりも長いリード長を使用する利点は、リードをソフトクリップすることができることであり、マッピングの前に反復マスキングが必要ないことが判明している。

0057

配列の、特有の染色体上の位置へのマッピングのために、この分析では、インデル/ミスマッチコストの重みを、低くなるようにパラメーター化しなければならない。これらの前提条件を用いて、厳密ではない断片長マッチを決定する。このバイオインフォマティクス的手法を使用すると、一般的に約95%のサンプルリードがゲノムにマッピングされる。リードは、ゲノム内の特有の位置とマッチする場合にのみ、染色体上の位置に割り当てられるものとしてカウントし、一般的に、特異的にマッチしたサンプルリードの割合を出し、続いて、染色体割り当てについて、約50%までカウントする。

0058

マッチングプロセスは、最も簡単には、1以上のリファレンスゲノムを使用するということを理解されたい。しかし、リファレンス無しの手法(この手法では、多くの正常妊娠及び罹患した妊娠からの蓄積された配列データが分析されて、どの配列が、21トリソミーなどの特定の染色体異常について潜在的に不均衡である一連の配列を形成するかが決定される)などの代替手法も用いることができることが想定される。

0059

一実施態様では、マッチング分析は、染色体全体について実施され、したがって、例えば、マッチング分析は、過剰量の所与の染色体を検出することを含むであろう。代替実施態様では、マッチング分析は、前記染色体の一部について実施され、例えば、マッチは、ある染色体のあらかじめ決定した特定の領域に関してのみ分析されることとなる。本発明のこの実施態様は、染色体の特定の領域を標的にするおかげで、より感度の高いマッチング技術を提供すると考えられている。

0060

本発明の厳密ではないマッチング分析は、一般的に、マッチング塩基に対して正確性スコアが割り当てられ、置換又はミスマッチ、リード又はリファレンス内のアンビギュイティの存在(すなわちN)、及びリード又はリファレンスギャップの存在(すなわち挿入又は欠失)に対してペナルティが適用される、アラインメントスコアリングシステムを含む。各ヒットに対してスコアが算出されたら、スコアを、最小アラインメントスコア基準と比較する。本発明において一般的に使用するスコアリングシステムは、Bowtie2ソフトウェアによるローカルアラインメントスコアリング例を使用する。

0061

一実施態様では、リファレンスゲノム内の塩基に対応する核酸内の各塩基に割り当てられる正確性スコアは、正のスコアである。さらなる実施態様では、リファレンスゲノム内の塩基に対応する核酸内の各塩基に対して、+2の正のスコアが割り当てられる(すなわちマッチスコアは+2である)。例えば、Bowtie2ソフトウェアは、リード文字がリファレンス文字とアラインメントされかつ文字がマッチする各位置に対して+2のマッチスコアを設定する。マッチスコアは、Bowtie2ソフトウェアでは、「--ma」(又はマッチボーナス)と呼ばれる。

0062

一実施態様では、いずれかの挿入、欠失、アンビギュイティ、及び/又は置換に対するペナルティスコアは、負のスコアなどの減点スコアである。

0063

さらなる実施態様では、置換又はミスマッチに対して、-6の負のスコアが割り当てられる(すなわちミスマッチ又は置換ペナルティは-6である)。例えば、リード文字がリファレンス文字とアラインメントされかつ文字がマッチしない(どちらもNではない)各位置に対して、6という値をアラインメントスコアから減じる。ミスマッチ又は置換ペナルティは、Bowtie2ソフトウェアでは、「--mp」と呼ばれる。

0064

一実施態様では、アンビギュイティ(Nペナルティ)に対する負のスコアは、-1である。例えば、リード、リファレンス、又はこれらの両方が、Nなどのアンビギュイティな文字を含有する位置に対して、1という値をアラインメントスコアから減じる。アンビギュイティ又はNペナルティは、Bowtie2ソフトウェアでは、「--np」と呼ばれる。

0065

一実施態様では、挿入又は欠失に対する負のスコアは-5、それに加えて挿入又は欠失内の各残基に対して-3である。さらなる実施態様では、リード断片におけるギャップペナルティは、ギャップに対して-5、ギャップ内の各伸長に対して-3である。例えば、「長さ-2」のリードギャップは、合計で-11のペナルティ(すなわち、ギャップに対して-5、ギャップ内の第1の伸長に対して-3、及びギャップ内の第2の伸長に対して-3)を与えられる。リード断片におけるギャップペナルティは、Bowtie2ソフトウェアでは、「--rdg」と呼ばれる。

0066

さらなる実施態様では、リファレンス断片内のギャップペナルティは、ギャップに対して-5、及びギャップ内の各伸長に対して-3である。リファレンス断片におけるギャップペナルティは、Bowtie2ソフトウェアでは、「--rfg」と呼ばれる。

0067

一実施態様では、最小アラインメントスコアは、以下の式に従って算出される:
a + b *ln (L)
式中、a及びbは、マッチング精度を最適化するために決定されるスコアリングパラメータを指し、lnは、リード長(L)の自然対数を指す。

0068

さらなる実施態様では、最小アラインメントスコアは、以下の式に従って算出される:
20 + 8.0 *ln (L)
式中、lnは、リード長(L)の自然対数を指す。

0069

例えば、20塩基のリード長については、最小スコア基準は、20+8*ln20=20+8*2.995=20+23.97=43.97である。したがって、20塩基リード長に対するパーフェクトマッチは、スコア40となり、これは、43.97という最小スコア基準に決して届かないので、20塩基のリード長は、一般的に、マッチであるとみなすには短すぎることとなる。

0070

それに対して、50塩基のリード長については、最小スコア基準は、20+8*ln50=20+8*3.91=20+31.3=51.3である。したがって、50塩基リード長に対するパーフェクトマッチは、スコア100となり、したがって、50塩基のリード長は、少しのミスマッチ及びインデルを許容し、それでもマッチングヒットであるとみなされるであろう。

0071

最小アラインメントスコアの概念は、より短いリード長が、それほど多くのインデル及びミスマッチを有しないことを必要とし、かつ、より長いリード長が、より多くのインデル及びミスマッチを有することを可能にするということを理解されたい。したがって、一実施態様では、核酸断片リードは、約25bpから約250bpを含む。

0072

他の例のアラインメントソフトウェア(すなわち、BWA-SW、BWA-MEM、及びCUSHAW2)が、Bowtie2について先に記載したスコアリングシステムと類似の方式で動作することも理解されたい。

0073

したがって、本明細書に記載するアラインメント分析ソフトウェア(Bowtie2、BWA-SW、BWA-MEM、及びCUSHAW2など)は、以下の問題を解決するという理由で、特に好都合である:(1)完全重複配列;(2)ホモポリマー連続;(3)高頻度のインデルエラー;(4)ゲノム内の反復配列;及び(5)かなりの程度までのコピー数多型。

0074

(比率の算出)
本明細書に定義したマッチング分析に従って、ヒットの総数が、所与の染色体に割り当てられたら、一般的に、ヒットを共通の数(適切には100万ヒットあたり)に標準化する。次いで、簡単な計算によって、他の染色体に対するヒットと比較した場合の標的染色体に対する各ヒットの比率を算出する-その例を、本明細書では実施例1に記載する。

0075

先に言及した通りの共通の数への標準化に加えて、胎児起源である母体血漿DNAの割合を推定できることが有用である。これによって、母体血漿DNAのサンプル中に、胎児の染色体異常を検出するのに十分な胎児DNAが存在することが確認されることとなる。例えば、一実施態様では、本発明の方法は、サンプル内の胎児DNAの量に基づいて、マッチしたヒットの数を標準化又は調整するステップをさらに含む。

0076

(統計的有意性)
本発明の診断検査を統計基準に準拠させるために、本発明の方法は、他の染色体に対するヒットと比較した場合の標的染色体に対する各ヒットの比率の統計的有意性を算出するステップをさらに含む。一実施態様では、統計的有意性の試験は、換算した計数データの従来の統計的分析によるz-スコアの算出を含む。しかし、他の統計的方法も、当業者によって適用することができるということを理解されたい。

0077

カウント比率「標的染色体/他の染色体」におけるエラーの分布が、ほぼ正常であると考えられる場合、z-スコアは、エレメントの平均からの標準偏差がいくつであるかを示す。

0078

z-スコアは、以下の式から算出することができる:
z = (X - μ) / σ
式中、zはz-スコアであり、Xはエレメントの値であり、μは集団平均であり、σは、集団値の標準偏差である。本発明に従って21トリソミーの存在について試験する場合、カウント比率に対する2.0以上のz-スコア値は、カウント比率値が21トリソミー妊娠を示す約98%の確率を示す。

0079

(性別を予測する方法)
染色体Y DNAの存在は、胎児の親から遺伝する、男性胎児の診断マーカーである。本発明のさらなる態様は、染色体Y配列の存在によって示される、胎児の性別の検出である。

0080

胎児が児である場合、Y染色体成分の使用は除外されるが、父親から遺伝したY染色体の代わりに、父親由来である遺伝子アレルを検出することが可能である。これらのうちの一つは、母体血漿DNAにおけるDNA配列の微量成分として存在するアレルとして明白である胎児SNP(一塩基多型)である(Dhallanらの文献、Lancet 369,474-481)。本発明がそうであるように、胎児ゲノムの部分のみがシークエンシングされる場合、胎児の父親から遺伝する、かつ比較的に豊富な母体アレルとは異なるバリアントとして検出される、こうしたアレルの数は、胎児性である血漿DNAの割合の関数である。これによって、胎児起源である母体血漿DNAの割合を推定するための、性別に依存しない代替方法が提供される。

0081

本発明の第2の態様によれば、妊娠中の女性被験者内の胎児の性別を予測する方法であって、以下のステップを含む前記方法が提供される:
(a)妊娠中の女性被験者から生体サンプルを得るステップ;
(b)生体サンプル内の核酸分子に関する配列データを得るステップ;
(c)該配列データ内の各核酸配列と、リファレンスゲノムの特有の部分に対応する配列とのマッチング分析を実施して、それぞれのマッチした核酸を、リファレンスゲノム内の特定の染色体又は前記染色体の一部に割り当て(ここでは、前記マッチング分析によって、リファレンスゲノム内の塩基に対応する各核酸内の各塩基に対する正確性スコア、並びに、いずれかの挿入、欠失、アンビギュイティ、及び/又は置換に対するペナルティスコアがもたらされる)、各核酸に対する合計スコアが、あらかじめ決定したスコア基準に到達した場合には、マッチを割り当てるステップ;及び
(d)それぞれの1以上のリファレンス染色体に割り当てられたマッチした核酸の総数に対する、Y染色体に割り当てられたマッチした核酸の総数の比率を測定するステップ(ここでは、あらかじめ決定した比率を超えるマッチしたY染色体配列の存在が、男性胎児の存在を示し、あらかじめ決定した比率未満のマッチしたY染色体配列の存在が、女性胎児の存在を示す)こと。

0082

児妊娠では、Y染色体材料の量は、胎児起源である血漿DNAの割合の尺度である。胎児が女児である場合、この尺度は適用できず、胎児性である血漿DNAの割合を決定するために、他の手段が採用される。当業者には、縦列型反復配列(short tandem repeat)などの高度に多型である代替の父親由来の対立遺伝子バリアントを分析して、血漿中の胎児DNAの割合を定量化することが可能であることが明らかであろう。

0083

本発明の第1の態様の検出方法に関する実施態様のすべてを、本発明の第2の態様の性別予測方法に等しく適用するということを理解されたい。

0084

以下の研究は、本発明を例示する:

0085

(実施例1:血漿サンプルにおける21トリソミーの検出)
21トリソミーの診断における本発明の方法の有効性を評価するために、正常妊娠及び21トリソミー妊娠から、慣例的な手順に従って、血漿サンプルを別々に入手した(例えば、5〜20mlの血液サンプルを、被験者から抜き取り、血漿を分離し、続いて血漿DNAの抽出を行った)。

0086

次いで、この血漿DNAを、Ion TorrentPGM装置を使用する配列分析にかけた。例えば、アダプターを取り付け、ライブラリを調製し、エマルジョンPCRを実施した後に配列分析を行った。

0087

次いで、多数の個々の分子、一般的に100万〜1000万リードに対する約25bp〜250bpに関する配列データを入手した。

0088

このデータを、先に記載した通りのバイオインフォマティクス分析にかけた。例えば、重複リードを、FASTX-Toolkitを使用して分解した。次いで、リファレンスゲノムに対する断片長の厳密ではない特異的なマッチを調製するために、このデータを、まさに先に記載した通りのBowtie2ソフトウェアを使用するマッチング分析にかけた。コピー数多型はまた、排除された。

0089

4つの母体血漿DNAサンプル、すなわち2つの正常(N1及びN2)サンプルと2つの21トリソミー妊娠(T21/1及びT21/2)サンプルについてのマッピングされたリードの数及びその染色体上の位置を、表2に示す:

0090

次いで、表2中のデータを、「良好なヒット100万あたり」の基準に標準化し、これを、4つの母体血漿DNAサンプル、すなわち2つの正常(N1及びN2)サンプルと2つの21トリソミー妊娠(T21/1及びT21/2)サンプルについて、表3に示す:

0091

表2及び3に示された4つの母体サンプルは、これらのデータが血漿サンプルから得られた後に胎児が男児であると確認された妊娠由来であったことに留意されたい。この結果は、本発明の第2の態様に従って、表2及び表3のデータから容易に予測されるであろう。

0092

本発明に従って21トリソミーを検出するために、他の常染色体上のヒット総数に対する染色体21ヒットの比率を、各サンプルについて算出した。

0093

N1、N2、T21/1、及びT21/2についての値は、表4に示した通りであった:

0094

2つの21トリソミー例についての不均衡は、それぞれ1.0846及び1.0462であり、したがって、胎児DNAの割合が5%から15%である場合の21トリソミーサンプルと一致している。

0095

標準偏差の値を決定するための拡張データセットを使用すると、試験された4つのサンプルに対するz-スコアは、2つの正常例についてはそれぞれ-0.16及び-0.29、2つの21トリソミー例については5.50及び2.55であり、これは、2つの21トリソミー例が、約99%又はそれ以上の確率で検出されたことを示す。

0096

正常妊娠(サンプル1〜15)及び21トリソミー妊娠(サンプル16〜27)からの27の血漿サンプルに対して、類似の手順を実施した。z-スコアの結果を表5に、及び図2に図で示す。ここでは、21トリソミー12例に対するz-スコアが、4.59から17.86の範囲であり、正常15例に対するz-スコアが2.09から-1.31の範囲であることがわかる。表5はまた、他の染色体に対する染色体21の割合の差を示す。ここでは、21トリソミー12例について、より高い割合が見られる。

実施例

0097

本明細書で実施例1、表5、及び図2に示したデータは、本発明の方法が、明らかに、血漿DNAサンプルにおける21トリソミーを正確かつ非観血的に診断するために使用できることを実証する。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ