図面 (/)

技術 性染色体におけるコピー数変異を判定するための方法

出願人 ベリナタヘルスインコーポレイテッド
発明者 アブドゥエヴァダイアナ
出願日 2019年4月23日 (1年0ヶ月経過) 出願番号 2019-081704
公開日 2019年9月12日 (7ヶ月経過) 公開番号 2019-153332
状態 未査定
技術分野
  • -
主要キーワード 既定閾値 超薄フィルム 指標付き 概観的 増幅機器 微小ピーク 試験解析 品質監査
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年9月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

母体および胎児無細胞DNAを含む母体サンプルを用いた、Y染色体異数性またはY染色体のコピー数を判定するための方法を提供する。

解決手段

雌性個体核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する。次に、トレーニングセットのゲノム読み取りをY染色体の参照配列アラインメントする。続いて、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する。参照配列を特定のサイズのビンに分割し、各ビンに位置するトレーニング配列タグの計数を決定する。そして、マスキング閾値を超えるビンをマスキングし、それによってY染色体のマスキングされた参照配列を提供する。上記により、検査サンプルにおけるY染色体のコピー数を解析することができる。

概要

背景

背景
ヒト医学研究における重大な試みの1つは、有害な健康上の影響をもたらす遺伝子異常の発見である。多くの場合、特定の遺伝子および/または重大な診断マーカーは、異常なコピー数で存在している、ゲノムの一部分において同定されている。例えば、出生前診断において、染色体全体の余分なまたは欠損したコピーは、高頻度で起こる遺伝子病変である。癌において、染色体全体または染色体セグメント欠失または増倍、およびゲノムの特定の領域のより高レベル増幅はよく見られることである。

コピー数変異(CNV)についてのほとんどの情報は、構造異常の認識を可能にしている細胞遺伝学的分析によって提供されている。遺伝学スクリーニングおよび生物学的量測定の従来的手順は、核型解析のための細胞を得るために、侵襲的手順、例えば羊水穿刺臍帯穿刺、または絨毛膜絨毛サンプリングCVS)を利用している。細胞培養を要しないより迅速な検査方法の必要性を認識して、蛍光インサイチューハイブリダイゼーション(FISH)、定量的蛍光PCR(QF-PCR)、およびアレイ比較ゲノムハイブリダイゼーション(アレイ-CGH)が、コピー数変異の解析のための分子細胞遺伝学的方法として開発されている。

全ゲノムを比較的短時間でシーケンシングすることを可能にする技術の到来、および循環無細胞DNA(cfDNA)の発見により、侵襲的サンプリング法に関連したリスクを伴うことなく、もう一つのものと比較される一つの染色体に起因する遺伝物質を比較する機会が提供されており、それは、関心対象遺伝子配列のコピー数変異の様々な種類を診断するツールを提供する。

Y染色体のコピー数変異についての診断は、Y染色体の網羅率常染色体のものよりも低く、かつY染色体上の反復配列が、読み取りのそれらの正しい位置へのマッピングを複雑にするため、常染色体と比較して高度の技術的課題を伴う。現在のNGS技術によって入手可能な約10Mbの一意的なY配列が存在するが、母体サンプルにおける胎児cfDNAの量が、母体DNAのものよりも少なくとも1桁低い胎児診断の世界において、性別検出は依然として困難な仕事であり、非特異的マッピングの問題を際立たせている。加えて、いくつかの現在のシーケンシングプロトコールは、25merの読み取りおよびタグなどの超短読み取りを利用しており、25merのタグはほとんどの普遍的反復可能エレメントの典型的サイズよりも短いため、さらに別のアラインメント課題を提示している。本明細書において開示されるいくつかの態様は、雌性サンプルの代表的トレーニングセットを用いた、Y染色体上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを記載する。いくつかの態様において、このフィルタリングストラテジーは、常染色体上の配列のコピー数変異についての評価のために、常染色体をフィルタリングすることにも適用可能である。

多様な臨床設定においてコピー数変化を確実に診断する、特異性感度、および適用性のいずれかまたはすべてを提供するであろう非侵襲的方法の継続的必要性の根底には、限られたレベルのcfDNAが原因で生じる不十分な感度、およびゲノム情報固有性質が原因で生じる技術のシーケンシングバイアスを含めた、非侵襲的出生前診断における既存の方法の限界がある。本明細書において開示される態様は、上記の必要性の一部を満たし、かつ特に、非侵襲的出生前診断の履行に適用可能である確実な方法を提供することにおいて利点を与える。

概要

母体および胎児の無細胞DNAを含む母体サンプルを用いた、Y染色体異数性またはY染色体のコピー数を判定するための方法を提供する。雌性個体核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する。次に、トレーニングセットのゲノム読み取りをY染色体の参照配列にアラインメントする。続いて、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する。参照配列を特定のサイズのビンに分割し、各ビンに位置するトレーニング配列タグの計数を決定する。そして、マスキング閾値を超えるビンをマスキングし、それによってY染色体のマスキングされた参照配列を提供する。上記により、検査サンプルにおけるY染色体のコピー数を解析することができる。A

目的

全ゲノムを比較的短時間でシーケンシングすることを可能にする技術の到来、および循環無細胞DNA(cfDNA)の発見により、侵襲的サンプリング法に関連したリスクを伴うことなく、もう一つのものと比較される一つの染色体に起因する遺伝物質を比較する機会が提供されており、それは、関心対象の遺伝子配列のコピー数変異の様々な種類を診断するツールを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

検査サンプルにおけるY染色体コピー数の評価のための、1つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステム実践される方法であって、コンピューターシステム上で、第1の複数の雌性個体核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する工程;コンピューターシステムによって、該トレーニングセットの1個体あたり少なくとも約100,000個のゲノム読み取りを、Y染色体の参照配列を含む参照ゲノムアラインメントし、それによって、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する工程;コンピューターシステムによって、Y染色体の参照配列を複数のビンに分割する工程;コンピューターシステムによって、各ビンに位置するトレーニング配列タグの計数を決定する工程;コンピューターシステムによって、各ビンにおけるトレーニング配列タグの計数に基づくマスキング閾値を超えるビンをマスキングする工程であって、それによって、検査サンプルにおけるY染色体のコピー数の評価のための、Y染色体のマスキングされた参照配列を提供する、工程を含む、方法。

請求項2

検査サンプルは胎児および母体無細胞核酸を含む、請求項1記載の方法。

請求項3

シーケンサーを用いて、胎児および母体の無細胞核酸を含む検査サンプル由来の無細胞核酸をシーケンシングし、それによって検査サンプルのゲノム読み取りを生成する工程;ならびにコンピューターシステムによって、検査サンプルのゲノム読み取りを参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含む検査配列タグおよびそれらの位置を提供する工程をさらに含む、請求項2記載の方法。

請求項4

コンピューターシステムによって、Y染色体のマスキングされた参照配列上の検査配列タグの計数を測定する工程;コンピューターシステムによって、Y染色体のマスキングされた参照配列上の検査配列タグの計数に基づき、検査サンプルにおけるY染色体のコピー数を評価する工程をさらに含む、請求項3記載の方法。

請求項5

検査サンプルにおけるY染色体のコピー数を評価する工程は、Y染色体のマスキングされた参照配列上の検査配列タグの計数から染色体量を算出する工程;ならびに該染色体量および対照サンプルからのデータに基づき、検査サンプルにおけるY染色体のコピー数を評価する工程を含む、請求項4記載の方法。

請求項6

染色体量は、(a)Y染色体のマスキングされた参照配列上での検査配列タグの網羅率と、(b)1種または複数種正規化配列の網羅率との間の比として算出される、請求項5記載の方法。

請求項7

染色体量および対照サンプルからのデータから、正規化された染色体値を算出する工程;ならびに該正規化された染色体値に基づき、検査サンプルにおけるY染色体のコピー数を評価する工程をさらに含む、請求項5記載の方法。

請求項8

検査サンプルにおけるY染色体のコピー数を評価する工程は、胎児無細胞核酸のゲノムにおけるY染色体の有無を判定する工程を含む、請求項4記載の方法。

請求項9

検査サンプルにおけるY染色体のコピー数を評価する工程は、少なくとも1種の胎児異数性の有無を判定する工程を含む、請求項4記載の方法。

請求項10

マスキング閾値は、コンピューターシステム上で、2つまたはそれ以上のマスキング閾値候補を提供する工程;コンピューターシステムによって、該マスキング閾値候補を超えるビンをマスキングし、それによって2つまたはそれ以上のマスキングされた参照配列を提供する工程;コンピューターシステムによって、該2つまたはそれ以上のマスキングされた参照配列のそれぞれに基づき、関心対象遺伝子配列のコピー数の評価のための閾値評価指標を算出する工程;およびコンピューターシステム上で、最高の閾値評価指標を有する候補をマスキング閾値として選択する工程によって決定される、請求項1記載の方法。

請求項11

閾値評価指標を算出する工程は、(a)トレーニングセットの雌性個体とは異なる雌性個体、および(b)Y染色体を有することが知られる雄性個体、の核酸サンプルに対してY染色体のコピー数を評価する工程を含む、請求項10記載の方法。

請求項12

閾値評価指標は、(a)の標準偏差で割った、(a)および(b)の平均間の差として算出される、請求項11記載の方法。

請求項13

複数のビンのそれぞれのサイズは、コンピューターシステムによって、Y染色体の参照配列を候補ビンサイズのビンに分割する工程;コンピューターシステムによって、該候補ビンサイズに基づき、ビン評価指標を算出する工程;コンピューターシステム上で、種々の候補ビンサイズを用いて、本請求項の先行工程を繰り返し反復し、それによって2つまたはそれ以上の異なる評価指標を産出する工程;およびコンピューターシステム上で、最高のビン評価指標を産出する候補ビンサイズをビンのサイズとして選択する工程によって決定される、請求項1記載の方法。

請求項14

トレーニングセットの雌性個体は、Y染色体の参照配列上でのゲノム読み取りの異なる分布を特徴とする多様なアラインメントプロファイルを有する、請求項1記載の方法。

請求項15

トレーニングセットを提供する工程は、第2の複数の雌性個体を2つまたはそれ以上のクラスターに分割する工程、および第1の複数の雌性個体を形成するために該2つまたはそれ以上のクラスターのそれぞれにおいていくつかの個体を選択する工程を含む、請求項14記載の方法。

請求項16

2つまたはそれ以上のクラスターのそれぞれにおいていくつかの個体を選択する工程は、該2つまたはそれ以上のクラスターのそれぞれにおいて、等しい数の個体を選択する工程を含む、請求項15記載の方法。

請求項17

第2の複数の雌性個体を2つまたはそれ以上のクラスターに分割する工程は、階層型順序付き分割および縮小ハイブリッド(hierarchical ordered partitioning and collapsing hybrid)(HOPACH)クラスタリングを含む、請求項15記載の方法。

請求項18

ゲノム読み取りは、個体の全ゲノムにおけるいずれかの箇所由来の約20〜50bpの配列を含む、請求項1記載の方法。

請求項19

ビンサイズは約2000bpよりも小さい、請求項1記載の方法。

請求項20

マスキング閾値は、配列タグ計数の少なくとも約90パーセンタイルである、請求項1記載の方法。

請求項21

コンピューターシステムによって、トレーニングセットの1個体あたり少なくとも約10,000個のゲノム読み取りを、Y染色体の参照配列にアラインメントする工程を含む、請求項1記載の方法。

請求項22

検査サンプルにおける関心対象の遺伝子配列のコピー数の評価のためのシステムであって、サンプルからの核酸配列情報を提供する、検査サンプル由来の核酸を受け取るためのシーケンサー;プロセッサー;および請求項1記載の方法によって得られたマスキングされた参照配列を用いて、検査サンプルにおけるコピー数を評価する、該プロセッサーでの実行のための命令をそこに保存している1つまたは複数のコンピューター可読記憶媒体を含む、システム。

請求項23

検査サンプルにおける関心対象の遺伝子配列のコピー数の評価のためのシステムであって、該システムは、サンプルからの核酸配列情報を提供する、検査サンプル由来の核酸を受け取るためのシーケンサー;プロセッサー;およびマスクによってフィルタリングされたY染色体の参照配列を用いて、検査サンプルにおけるY染色体のコピー数を評価する、該プロセッサーでの実行のための命令をそこに保存している1つまたは複数のコンピューター可読記憶媒体を含み、該マスクは、Y染色体の参照配列上に特定のサイズのビンを含み、該ビンは、そこにアラインメントされた、閾値を上回る数のトレーニング配列タグを有し、かつ該トレーニング配列タグは、Y染色体の参照配列にアラインメントされた、第1の複数の雌性個体からのゲノム読み取りを含む、システム。

請求項24

第1の複数の雌性個体は、Y染色体の参照配列にアラインメントされたゲノム読み取りの異なる分布を特徴とする多様なアラインメントプロファイルを有する、請求項23記載のシステム。

請求項25

第2の複数の雌性個体を2つまたはそれ以上のクラスターに分割し、かつ該2つまたはそれ以上のクラスターのそれぞれにおいて、等しい数の個体を第1の複数の雌性個体のメンバーとして選択することによって、第1の複数の雌性個体が選択された、請求項24記載のシステム。

請求項26

コンピューターシステムの1つまたは複数のプロセッサーによって実行される場合、胎児および母体の無細胞核酸を含む検査サンプルにおけるY染色体のコピー数の評価のための方法を該コンピューターシステムに実践させる、コンピューター実行可能な命令をそこに保存している1つまたは複数の非一時的なコンピューター可読記憶媒体を含むコンピュータープログラム製品であって、該方法は、コンピューターシステム上で、第1の複数の雌性個体の核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する工程;コンピューターシステムによって、該トレーニングセットの1個体あたり少なくとも約100,000個のゲノム読み取りを、Y染色体の参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する工程;コンピューターシステムによって、Y染色体の参照配列を特定のサイズのビンに分割する工程;コンピューターシステムによって、各ビンに位置するトレーニング配列タグの計数を決定する工程;コンピューターシステムによって、各ビンにおけるトレーニング配列タグの計数に基づくマスキング閾値を超えるビンをマスキングし、それによって、胎児および母体の無細胞核酸を含む検査サンプルにおけるY染色体のコピー数の評価のための、Y染色体のマスキングされた参照配列を提供する工程を含む、コンピュータープログラム製品。

技術分野

0001

関連出願の相互参照
本出願は、米国特許法第119条(e)の下で、「METHODFOR DETERMININGCOPY NUMBERVARIATIONS IN SEX CHROMOSOMES」と題しかつ2013年6月17日に提出された米国仮特許出願第61/836,057号(代理人整理番号ARTEP008P)に対する優先権の恩典を主張するものであり、それは参照によりその全体として本明細書によって組み入れられる。

背景技術

0002

背景
ヒト医学研究における重大な試みの1つは、有害な健康上の影響をもたらす遺伝子異常の発見である。多くの場合、特定の遺伝子および/または重大な診断マーカーは、異常なコピー数で存在している、ゲノムの一部分において同定されている。例えば、出生前診断において、染色体全体の余分なまたは欠損したコピーは、高頻度で起こる遺伝子病変である。癌において、染色体全体または染色体セグメント欠失または増倍、およびゲノムの特定の領域のより高レベル増幅はよく見られることである。

0003

コピー数変異(CNV)についてのほとんどの情報は、構造異常の認識を可能にしている細胞遺伝学的分析によって提供されている。遺伝学スクリーニングおよび生物学的量測定の従来的手順は、核型解析のための細胞を得るために、侵襲的手順、例えば羊水穿刺臍帯穿刺、または絨毛膜絨毛サンプリングCVS)を利用している。細胞培養を要しないより迅速な検査方法の必要性を認識して、蛍光インサイチューハイブリダイゼーション(FISH)、定量的蛍光PCR(QF-PCR)、およびアレイ比較ゲノムハイブリダイゼーション(アレイ-CGH)が、コピー数変異の解析のための分子細胞遺伝学的方法として開発されている。

0004

全ゲノムを比較的短時間でシーケンシングすることを可能にする技術の到来、および循環無細胞DNA(cfDNA)の発見により、侵襲的サンプリング法に関連したリスクを伴うことなく、もう一つのものと比較される一つの染色体に起因する遺伝物質を比較する機会が提供されており、それは、関心対象遺伝子配列のコピー数変異の様々な種類を診断するツールを提供する。

0005

Y染色体のコピー数変異についての診断は、Y染色体の網羅率常染色体のものよりも低く、かつY染色体上の反復配列が、読み取りのそれらの正しい位置へのマッピングを複雑にするため、常染色体と比較して高度の技術的課題を伴う。現在のNGS技術によって入手可能な約10Mbの一意的なY配列が存在するが、母体サンプルにおける胎児cfDNAの量が、母体DNAのものよりも少なくとも1桁低い胎児診断の世界において、性別検出は依然として困難な仕事であり、非特異的マッピングの問題を際立たせている。加えて、いくつかの現在のシーケンシングプロトコールは、25merの読み取りおよびタグなどの超短読み取りを利用しており、25merのタグはほとんどの普遍的反復可能エレメントの典型的サイズよりも短いため、さらに別のアラインメント課題を提示している。本明細書において開示されるいくつかの態様は、雌性サンプルの代表的トレーニングセットを用いた、Y染色体上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを記載する。いくつかの態様において、このフィルタリングストラテジーは、常染色体上の配列のコピー数変異についての評価のために、常染色体をフィルタリングすることにも適用可能である。

0006

多様な臨床設定においてコピー数変化を確実に診断する、特異性感度、および適用性のいずれかまたはすべてを提供するであろう非侵襲的方法の継続的必要性の根底には、限られたレベルのcfDNAが原因で生じる不十分な感度、およびゲノム情報固有性質が原因で生じる技術のシーケンシングバイアスを含めた、非侵襲的出生前診断における既存の方法の限界がある。本明細書において開示される態様は、上記の必要性の一部を満たし、かつ特に、非侵襲的出生前診断の履行に適用可能である確実な方法を提供することにおいて利点を与える。

0007

概要
いくつかの態様において、母体および胎児の無細胞DNAを含む母体サンプルを用いた、胎児の性別判定またはY染色体異数性のための方法を含むがそれらに限定されない、Y染色体のコピー数を判定するための方法が提供される。

0008

いくつかの態様において、任意の胎児異数性のコピー数変異(CNV)、および多様な医学的状態と関連することが知られるまたは疑われるCNVを判定するための方法が提供される。本方法に従って判定され得るCNVには、検査サンプル核酸を1回だけシーケンシングすることによって検出され得る、第1〜22、X、およびY染色体のうちのいずれか1種または複数種トリソミーおよびモノソミー、他の染色体ポリソミー、ならびに該染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。任意の異数性は、検査サンプルの核酸を1回だけシーケンシングすることによって得られるシーケンシング情報から判定され得る。

0009

一態様において、方法は、(a)コンピューターシステム上で、第1の複数の雌性個体核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する工程;(b)コンピューターシステムによって、該トレーニングセットの1個体あたり少なくとも約100,000個のゲノム読み取りを、Y染色体の参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する工程;(c)コンピューターシステムによって、Y染色体の参照配列を複数のビンに分割する工程;(d)コンピューターシステムによって、各ビンに位置するトレーニング配列タグの計数を決定する工程;(e)コンピューターシステムによって、各ビンにおけるトレーニング配列タグの計数に基づくマスキング閾値を超えるビンをマスキングし、それによって検査サンプルにおけるY染色体のコピー数についての評価のための、Y染色体のマスキングされた参照配列が提供される工程、を含む。いくつかの態様において、検査サンプルは、胎児および母体の無細胞核酸を含む。

0010

いくつかの態様において、検査サンプルにおけるY染色体のコピー数についての評価のための方法は、(f)シーケンサーを用いて、胎児および母体の無細胞核酸を含む検査サンプル由来の無細胞核酸をシーケンシングし、それによって検査サンプルのゲノム読み取りを生成する工程;ならびに(g)コンピューターシステムによって、検査サンプルのゲノム読み取りを参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含む検査配列タグおよびそれらの位置を提供する工程、をさらに含む。

0011

いくつかの態様において、検査サンプルにおけるY染色体のコピー数についての評価のための方法は、(h)コンピューターシステムによって、Y染色体のマスキングされた参照配列上の検査配列タグの計数を測定する工程;および(i)コンピューターシステムによって、Y染色体のマスキングされた参照配列上の検査配列タグの計数に基づき、検査サンプルにおけるY染色体のコピー数を評価する工程、をさらに含む。

0012

上記で記載される態様のいずれか1つにおいて、検査サンプルは、血液、血漿血清、尿、および唾液サンプルより選択される母体サンプルであり得る。態様のいずれか1つにおいて、検査サンプルは血漿サンプルであり得る。母体サンプルの核酸分子は、胎児および母体の無細胞DNA分子の混合物である。核酸のシーケンシングは、次世代シーケンシング(NGS)を用いて実施され得る。いくつかの態様において、シーケンシングは、可逆的ダイターミネーターを伴う合成によるシーケンシングを用いた超並列(massively parallel)シーケンシングである。他の態様において、シーケンシングは、ライゲーションによるシーケンシングである。さらに他の態様において、シーケンシングは単分子シーケンシングである。任意で、シーケンシングの前に、増幅工程が実施される。

0013

別の態様は、検査サンプルにおける関心対象の配列、例えば臨床的に関連する配列のコピー数変異(CNV)を同定するための方法を提供する。該方法は、完全染色体または染色体のセグメントの代わりに、関心対象の配列のコピー数変異を査定する。

0014

コンピューターシステムで具体化されるある特定の態様において、関心対象の1種もしくは複数種の染色体、または関心対象の染色体セグメントのそれぞれに対して同定される配列タグの数は、少なくとも約10,000個または少なくとも約100,000個である。開示される態様は、列挙される作業および本明細書において記載される他の計算作業を実施するためのプログラム命令が提供されている非一時的なコンピューター可読媒体を含むコンピュータープログラム製品も提供する。

0015

いくつかの態様において、方法は、母体検査サンプルの核酸分子の少なくとも一部分をシーケンシングして、該検査サンプルの胎児および母体の核酸分子についての配列情報を獲得する工程を付加的に含む。シーケンシングは、母体検査サンプル由来の母体および胎児の核酸に対する超並列シーケンシングを伴って、配列読み取りを産生し得る。

0016

いくつかの態様において、2つまたはそれを上回る数のマスキング閾値候補を提供し;該マスキング閾値候補を超えるビンをマスキングし、それによって2つまたはそれを上回る数のマスキングされた参照配列を提供し;該2つまたはそれを上回る数のマスキングされた参照配列のそれぞれに基づき、関心対象の遺伝子配列のコピー数についての評価のための閾値評価指標を算出し;かつ最高の閾値評価指標を有する候補をマスキング閾値として選択する、コンピューターシステムによってまたはコンピューターシステム上で実施される作業によって、マスキング閾値は決定される。

0017

いくつかの態様において、閾値評価指標を算出する工程は、(a)トレーニングセットの雌性個体とは異なる雌性個体、および(b)Y染色体を有することが知られる雄性個体、の核酸サンプルに対してY染色体のコピー数を評価する工程を含む。いくつかの態様において、閾値評価指標は、標準偏差で割った、(a)および(b)の平均間の差として算出される。

0018

いくつかの態様において、Y染色体の参照配列を候補ビンサイズのビンに分割し;該候補ビンサイズに基づき、ビン評価指標を算出し;コンピューターシステム上で、種々の候補ビンサイズを用いて、本請求項の先行工程を繰り返し反復し、それによって2つまたはそれを上回る数の異なる評価指標を産出し;かつ最高のビン評価指標を産出する候補ビンサイズをビンのサイズとして選出する、コンピューターシステムの作業によって、各ビンのサイズは決定される。

0019

いくつかの態様において、トレーニングセットの雌性個体は、Y染色体の参照配列上でのゲノム読み取りの異なる分布を特徴とする多様なアラインメントプロファイルを有する。いくつかの態様において、トレーニングセットを提供する工程は、第2の複数の雌性個体を2つまたはそれを上回る数のクラスターに分割する工程、および該2つまたはそれを上回る数のクラスターのそれぞれにおいていくつかの個体を選択して、トレーニングセットのメンバーとして第1の複数の雌性個体を形成する工程を伴う。いくつかの態様において、2つまたはそれを上回る数のクラスターのそれぞれにおいて、等しい数の個体が選択される。いくつかの態様において、複数の雌性個体を2つまたはそれを上回る数のクラスターに分割する工程は、階層型順序付き分割および縮小ハイブリッド(hierarchical ordered partitioning and collapsing hybrid)(HOPACH)クラスタリングを伴う。

0020

いくつかの態様において、方法は、母体検査サンプルを提供するヒト対象についての患者医療記録に、上記で記載されるように判定された胎児染色体異数性の有無をプロセッサーを用いて自動的に記録する工程をさらに含む。記録は、コンピューター可読媒体に、染色体量および/または該染色体量に基づく診断を記録する工程を含み得る。ある場合には、患者医療記録は、実験室診療所(physician's office)、病院健康維持機構保険会社、または個人医療記録ウェブサイトによって維持される。方法は、母体検査サンプルを採取したヒト対象の治療を処方する、開始する、および/または変更する工程をさらに含み得る。付加的または代替的に、方法は、1つまたは複数の付加的検査指令するおよび/または実施する工程を含み得る。

0021

いくつかの態様において、検査サンプルにおける関心対象の遺伝子配列のコピー数についての評価のための方法を実施する、システムおよびコンピュータープログラム製品が提供される。

0022

本明細書における例はヒトに関し、かつ言葉は主にヒト関係事項に向けられているが、本明細書において記載される概念は、任意の植物または動物由来のゲノムに適用可能である。
[本発明1001]
検査サンプルにおけるY染色体のコピー数の評価のための、1つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムで実践される方法であって、
コンピューターシステム上で、第1の複数の雌性個体の核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する工程;
コンピューターシステムによって、該トレーニングセットの1個体あたり少なくとも約100,000個のゲノム読み取りを、Y染色体の参照配列を含む参照ゲノムにアラインメントし、それによって、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する工程;
コンピューターシステムによって、Y染色体の参照配列を複数のビンに分割する工程;
コンピューターシステムによって、各ビンに位置するトレーニング配列タグの計数を決定する工程;
コンピューターシステムによって、各ビンにおけるトレーニング配列タグの計数に基づくマスキング閾値を超えるビンをマスキングする工程であって、それによって、検査サンプルにおけるY染色体のコピー数の評価のための、Y染色体のマスキングされた参照配列を提供する、工程
を含む、方法。
[本発明1002]
検査サンプルは胎児および母体の無細胞核酸を含む、本発明1001の方法。
[本発明1003]
シーケンサーを用いて、胎児および母体の無細胞核酸を含む検査サンプル由来の無細胞核酸をシーケンシングし、それによって検査サンプルのゲノム読み取りを生成する工程;ならびに
コンピューターシステムによって、検査サンプルのゲノム読み取りを参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含む検査配列タグおよびそれらの位置を提供する工程
をさらに含む、本発明1002の方法。
[本発明1004]
コンピューターシステムによって、Y染色体のマスキングされた参照配列上の検査配列タグの計数を測定する工程;
コンピューターシステムによって、Y染色体のマスキングされた参照配列上の検査配列タグの計数に基づき、検査サンプルにおけるY染色体のコピー数を評価する工程
をさらに含む、本発明1003の方法。
[本発明1005]
検査サンプルにおけるY染色体のコピー数を評価する工程は、
Y染色体のマスキングされた参照配列上の検査配列タグの計数から染色体量を算出する工程;ならびに
該染色体量および対照サンプルからのデータに基づき、検査サンプルにおけるY染色体のコピー数を評価する工程
を含む、本発明1004の方法。
[本発明1006]
染色体量は、(a)Y染色体のマスキングされた参照配列上での検査配列タグの網羅率と、(b)1種または複数種の正規化配列の網羅率との間の比として算出される、本発明1005の方法。
[本発明1007]
染色体量および対照サンプルからのデータから、正規化された染色体値を算出する工程;ならびに
該正規化された染色体値に基づき、検査サンプルにおけるY染色体のコピー数を評価する工程
をさらに含む、本発明1005の方法。
[本発明1008]
検査サンプルにおけるY染色体のコピー数を評価する工程は、胎児無細胞核酸のゲノムにおけるY染色体の有無を判定する工程を含む、本発明1004の方法。
[本発明1009]
検査サンプルにおけるY染色体のコピー数を評価する工程は、少なくとも1種の胎児異数性の有無を判定する工程を含む、本発明1004の方法。
[本発明1010]
マスキング閾値は、
コンピューターシステム上で、2つまたはそれ以上のマスキング閾値候補を提供する工程;
コンピューターシステムによって、該マスキング閾値候補を超えるビンをマスキングし、それによって2つまたはそれ以上のマスキングされた参照配列を提供する工程;
コンピューターシステムによって、該2つまたはそれ以上のマスキングされた参照配列のそれぞれに基づき、関心対象の遺伝子配列のコピー数の評価のための閾値評価指標を算出する工程;および
コンピューターシステム上で、最高の閾値評価指標を有する候補をマスキング閾値として選択する工程
によって決定される、本発明1001の方法。
[本発明1011]
閾値評価指標を算出する工程は、(a)トレーニングセットの雌性個体とは異なる雌性個体、および(b)Y染色体を有することが知られる雄性個体、の核酸サンプルに対してY染色体のコピー数を評価する工程を含む、本発明1010の方法。
[本発明1012]
閾値評価指標は、(a)の標準偏差で割った、(a)および(b)の平均間の差として算出される、本発明1011の方法。
[本発明1013]
複数のビンのそれぞれのサイズは、
コンピューターシステムによって、Y染色体の参照配列を候補ビンサイズのビンに分割する工程;
コンピューターシステムによって、該候補ビンサイズに基づき、ビン評価指標を算出する工程;
コンピューターシステム上で、種々の候補ビンサイズを用いて、本発明の先行工程を繰り返し反復し、それによって2つまたはそれ以上の異なる評価指標を産出する工程;および
コンピューターシステム上で、最高のビン評価指標を産出する候補ビンサイズをビンのサイズとして選択する工程
によって決定される、本発明1001の方法。
[本発明1014]
トレーニングセットの雌性個体は、Y染色体の参照配列上でのゲノム読み取りの異なる分布を特徴とする多様なアラインメントプロファイルを有する、本発明1001の方法。
[本発明1015]
トレーニングセットを提供する工程は、第2の複数の雌性個体を2つまたはそれ以上のクラスターに分割する工程、および第1の複数の雌性個体を形成するために該2つまたはそれ以上のクラスターのそれぞれにおいていくつかの個体を選択する工程を含む、本発明1014の方法。
[本発明1016]
2つまたはそれ以上のクラスターのそれぞれにおいていくつかの個体を選択する工程は、該2つまたはそれ以上のクラスターのそれぞれにおいて、等しい数の個体を選択する工程を含む、本発明1015の方法。
[本発明1017]
第2の複数の雌性個体を2つまたはそれ以上のクラスターに分割する工程は、階層型順序付き分割および縮小のハイブリッド(hierarchical ordered partitioning and collapsing hybrid)(HOPACH)クラスタリングを含む、本発明1015の方法。
[本発明1018]
ゲノム読み取りは、個体の全ゲノムにおけるいずれかの箇所由来の約20〜50bpの配列を含む、本発明1001の方法。
[本発明1019]
ビンサイズは約2000bpよりも小さい、本発明1001の方法。
[本発明1020]
マスキング閾値は、配列タグ計数の少なくとも約90パーセンタイルである、本発明1001の方法。
[本発明1021]
コンピューターシステムによって、トレーニングセットの1個体あたり少なくとも約10,000個のゲノム読み取りを、Y染色体の参照配列にアラインメントする工程を含む、本発明1001の方法。
[本発明1022]
検査サンプルにおける関心対象の遺伝子配列のコピー数の評価のためのシステムであって、
サンプルからの核酸配列情報を提供する、検査サンプル由来の核酸を受け取るためのシーケンサー;
プロセッサー;および
本発明1001の方法によって得られたマスキングされた参照配列を用いて、検査サンプルにおけるコピー数を評価する、該プロセッサーでの実行のための命令をそこに保存している1つまたは複数のコンピューター可読記憶媒体
を含む、システム。
[本発明1023]
検査サンプルにおける関心対象の遺伝子配列のコピー数の評価のためのシステムであって、該システムは、
サンプルからの核酸配列情報を提供する、検査サンプル由来の核酸を受け取るためのシーケンサー;
プロセッサー;および
マスクによってフィルタリングされたY染色体の参照配列を用いて、検査サンプルにおけるY染色体のコピー数を評価する、該プロセッサーでの実行のための命令をそこに保存している1つまたは複数のコンピューター可読記憶媒体
を含み、
該マスクは、Y染色体の参照配列上に特定のサイズのビンを含み、
該ビンは、そこにアラインメントされた、閾値を上回る数のトレーニング配列タグを有し、かつ
該トレーニング配列タグは、Y染色体の参照配列にアラインメントされた、第1の複数の雌性個体からのゲノム読み取りを含む、システム。
[本発明1024]
第1の複数の雌性個体は、Y染色体の参照配列にアラインメントされたゲノム読み取りの異なる分布を特徴とする多様なアラインメントプロファイルを有する、本発明1023のシステム。
[本発明1025]
第2の複数の雌性個体を2つまたはそれ以上のクラスターに分割し、かつ該2つまたはそれ以上のクラスターのそれぞれにおいて、等しい数の個体を第1の複数の雌性個体のメンバーとして選択することによって、第1の複数の雌性個体が選択された、本発明1024のシステム。
[本発明1026]
コンピューターシステムの1つまたは複数のプロセッサーによって実行される場合、胎児および母体の無細胞核酸を含む検査サンプルにおけるY染色体のコピー数の評価のための方法を該コンピューターシステムに実践させる、コンピューター実行可能な命令をそこに保存している1つまたは複数の非一時的なコンピューター可読記憶媒体を含むコンピュータープログラム製品であって、該方法は、
コンピューターシステム上で、第1の複数の雌性個体の核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する工程;
コンピューターシステムによって、該トレーニングセットの1個体あたり少なくとも約100,000個のゲノム読み取りを、Y染色体の参照配列にアラインメントし、それによって、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する工程;
コンピューターシステムによって、Y染色体の参照配列を特定のサイズのビンに分割する工程;
コンピューターシステムによって、各ビンに位置するトレーニング配列タグの計数を決定する工程;
コンピューターシステムによって、各ビンにおけるトレーニング配列タグの計数に基づくマスキング閾値を超えるビンをマスキングし、それによって、胎児および母体の無細胞核酸を含む検査サンプルにおけるY染色体のコピー数の評価のための、Y染色体のマスキングされた参照配列を提供する工程
を含む、コンピュータープログラム製品。

0023

参照による組み入れ
本明細書において言及される、これらの参考文献内に開示されるすべての配列を含む、すべての特許、特許出願、および他の刊行物は、あたかもそれぞれ個々の刊行物、特許、または特許出願が、参照により組み入れられることを具体的かつ個々に示されているのと同程度に、参照により本明細書に明示的に組み入れられる。関連部分において引用されるすべての文書は、本明細書におけるそれらの引用の文脈によって示される目的のために、参照によりそれらの全体として本明細書に組み入れられる。しかしながら、いかなる文書の引用も、それが本開示に対する先行技術であるという承認として解釈されるべきではない。

図面の簡単な説明

0024

図1は、ヒトY染色体上の配列クラス、遺伝子、およびパリンドロームを示している。(a)表示される雄特異的領域(MSY)と合わせた、ヒトY染色体全体の概略的表現。(b)Yq上の真正染色質MSYに焦点絞り、かつ主要な異質染色質ブロックを除外する、より詳細な表現。
図2は、一態様における、Y染色体上でマスキングされる領域の例を示している。マスキングされたY染色体は、Y染色体のコピー数についての評価のための参照配列として用いられ得る。
胎児および母体の無細胞核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法の態様についてのブロック図を示している。いくつかの態様において、方法は、1つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムで実践される。
胎児および母体の無細胞核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法の態様についてのブロック図を示している。いくつかの態様において、方法は、1つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムで実践される。
図4は、核酸の混合物を含む検査サンプルにおけるコピー数変異の有無を判定するための、方法100のフローチャートである。
図5は、検査サンプルを加工し、かつ最終的に診断を出すための分散型システムのブロック図である。
図6は、検査サンプルを加工することにおける種々の作業がどのようにグループ化されて、システムの種々の要素によって扱われ得るかを概略的に図解している。
図7Aおよび7Bは、実施例1aに記載される簡略プロトコール(図7A)および実施例1bに記載されるプロトコール(図7B)に従って調製された、cfDNAシーケンシングライブラリーエレクトロフェログラムを示している。
図8は、HOPACH結果を用いて選別された、475人の雌にわたるchrYの1kb網羅率のペアワイズ相関についてのヒートマップを図解している。
図9は、雌(2)および雄(3)に対する、1Mb対1kbのビンサイズにおけるChrY比(すなわち、chrY計数/chr4計数)を示している。
図10は、マスキングされたビンの部分の関数として、雄/雌判別のシグナル対ノイズ比を示している。
図11は、雌性(薄い灰色)対雄性(濃い灰色)胎児cfDNAを含むサンプルに対する、Y染色体にマッピングされた配列タグの頻度分布を示している。左のパネルは、マスキングされていないY染色体にマッピングされた配列タグの分布を示している。右のパネルは、本明細書において記載される方法に従った、マスキングされたY染色体にマッピングされた分布を示している。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、第21染色体に関する染色体量の分布を図解している。第21染色体に対して適格な、すなわち正常な検査サンプル(○)、およびトリソミー21検査サンプル(△)に関する第21染色体量が、第1〜12およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、第21染色体に関する染色体量の分布を図解している。第21染色体に対して適格な、すなわち正常な検査サンプル(○)、およびトリソミー21検査サンプル(△)に関する第21染色体量が、第1〜22およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、第18染色体に関する染色体量の分布を図解している。第18染色体に対して適格な、すなわち正常な検査サンプル(○)、およびトリソミー18検査サンプル(△)に関する第18染色体量が、第1〜12およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、第18染色体に関する染色体量の分布を図解している。第18染色体に対して適格な、すなわち正常な検査サンプル(○)、およびトリソミー18検査サンプル(△)に関する第18染色体量が、第1〜22およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、第13染色体に関する染色体量の分布を図解している。第13染色体に対して適格な、すなわち正常な検査サンプル(○)、およびトリソミー13検査サンプル(△)に関する第13染色体量が、第1〜12およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、第13染色体に関する染色体量の分布を図解している。第13染色体に対して適格な、すなわち正常な検査サンプル(○)、およびトリソミー13検査サンプル(△)に関する第13染色体量が、第1〜22およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の検査血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、X染色体に関する染色体量の分布を図解している。雄性(46,XY;(○))、雌性(46,XX;(△))、モノソミーX(45,X;(+))、および複雑核型(Cplx(X))サンプルに関するX染色体量が、第1〜12およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の検査血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、X染色体に関する染色体量の分布を図解している。雄性(46,XY;(○))、雌性(46,XX;(△))、モノソミーX(45,X;(+))、および複合核型(Cplx(X))サンプルに関するX染色体量が、第1〜22およびX染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の検査血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、Y染色体に関する染色体量の分布を図解している。雄性(46,XY;(△))、雌性(46,XX;(○))、モノソミーX(45,X;(+))、および複雑核型(Cplx(X))サンプルに関するY染色体量が、第1〜12染色体に対して示されている。
それぞれが雄性または雌性胎児を妊娠しているヒト対象から得られた48個の検査血液サンプルのセットから抽出されたcfDNAをシーケンシングすることにより決定された、Y染色体に関する染色体量の分布を図解している。雄性(46,XY;(△))、雌性(46,XX;(○))、モノソミーX(45,X;(+))、および複雑核型(Cplx(X))サンプルに関するY染色体量が、第1〜22染色体に対して示されている。
図17は、それぞれ図12Aおよび12B、13Aおよび13B、ならびに14Aおよび14Bにおいて示される量から決定された、第21(■)、第18(●)、および第13(▲)染色体に対する変動係数(CV)を示している。
図18は、それぞれ図15Aおよび15B、ならびに16Aおよび16Bにおいて示される量から決定された、X(■)およびY(●)染色体に対する変動係数(CV)を示している。
影響なしのサンプルにおける、対応する染色体の平均の標準偏差(Y軸)に対する、第21染色体に関する、正規化された染色体量の分布を図解している。
影響なしのサンプルにおける、対応する染色体の平均の標準偏差(Y軸)に対する、第18染色体に関する、正規化された染色体量の分布を図解している。
影響なしのサンプルにおける、対応する染色体の平均の標準偏差(Y軸)に対する、第13染色体に関する、正規化された染色体量の分布を図解している。
影響なしのサンプルにおける、対応する染色体の平均の標準偏差(Y軸)に対する、X染色体に関する、正規化された染色体量の分布を図解している。
影響なしのサンプルにおける、対応する染色体の平均の標準偏差(Y軸)に対する、Y染色体に関する、正規化された染色体量の分布を図解している。
図20Aおよび20Bは、実施例7において記載される試験のための設計およびサンプリング計画についての2つの流れ図を示している。図20Aは設計計画の流れ図を示しており、そして図20Bは無作為サンプリング計画を示している。
第21染色体に対する解析に関する流れ図を示している。楕円形は、実験室からのシーケンシング情報から得られた結果を含有し、長方形は核型結果を含有し、そして丸い角を有する長方形は、検査性能を判定するために用いられた比較結果(感度および特異性)を示している。図における点線は、それぞれ第21染色体の解析からは打ち切られたが、実施例7において記載されるように正しく判定された、T21(n=3)およびT18(n=1)に対するモザイクサンプル間の関係性を表している。
第18染色体に対する解析に関する流れ図を示している。楕円形は、実験室からのシーケンシング情報から得られた結果を含有し、長方形は核型結果を含有し、そして丸い角を有する長方形は、検査性能を判定するために用いられた比較結果(感度および特異性)を示している。図における点線は、それぞれ第18染色体の解析からは打ち切られたが、実施例7において記載されるように正しく判定された、T21(n=3)およびT18(n=1)に対するモザイクサンプル間の関係性を表している。
第13染色体に対する解析に関する流れ図を示している。楕円形は、実験室からのシーケンシング情報から得られた結果を含有し、長方形は核型結果を含有し、そして丸い角を有する長方形は、検査性能を判定するために用いられた比較結果(感度および特異性)を示している。
雌に対する性別解析に関する流れ図を示している。楕円形は、実験室からのシーケンシング情報から得られた結果を含有し、長方形は核型結果を含有し、そして丸い角を有する長方形は、検査性能を判定するために用いられた比較結果(感度および特異性)を示している。
雄に対する性別解析に関する流れ図を示している。楕円形は、実験室からのシーケンシング情報から得られた結果を含有し、長方形は核型結果を含有し、そして丸い角を有する長方形は、検査性能を判定するために用いられた比較結果(感度および特異性)を示している。
モノソミーXに対する性別解析に関する流れ図を示している。楕円形は、実験室からのシーケンシング情報から得られた結果を含有し、長方形は核型結果を含有し、そして丸い角を有する長方形は、検査性能を判定するために用いられた比較結果(感度および特異性)を示している。
図22は、実施例7において記載される試験の検査サンプルに関する、第21(●)、第18(■)、および第13(▲)染色体に対する核型分類に対しての、正規化された染色体値(NCV)を示している。円で囲まれたサンプルは、トリソミー核型を有する未分類サンプルを表している。
図23は、実施例7において記載される試験の検査サンプルについての、性別分類に対する核型分類に対しての、X染色体に対する正規化された染色体値(NCV)を示している。雌性核型を有するサンプル(○)、雄性核型を有するサンプル(●)、45,Xを有するサンプル(□)、ならびにその他の核型、すなわちXXX、XXY、およびXYYを有するサンプル(■)が示されている。
図24は、実施例7において記載される臨床試験の検査サンプルに関する、X染色体に対する正規化された染色体値に対しての、Y染色体に対する正規化された染色体値のプロットを示している。正倍数性の雄性および雌性サンプル(○)、XXXサンプル(●)、45,Xサンプル(X)、XYYサンプル(■)、ならびにXXYサンプル(▲)が示されている。点線は、実施例7において記載されるようにサンプルを分類するために用いられた閾値の値を示している。

0025

詳細な説明
開示される態様は、胎児および母体の無細胞核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法、機器、およびシステムに関する。いくつかの態様において、関心対象の配列には、遺伝的状態または疾患状態と関連することが知られるまたは疑われる、例えばキロベース(kb)〜メガベース(Mb)から染色体全体に及ぶゲノムセグメント配列が含まれる。いくつかの態様において、Y染色体のコピー数を用いて、胎児の性別を判定する。いくつかの態様において、本方法に従って判定され得るCNVには、Y性染色体のモノソミーおよびトリソミー(例えば、47,XXYおよび47,XYY)、テトラソミーおよびペンタソミーなど、性染色体の他のポリソミー(例えば、XXXXYおよびXYYYY)、ならびに性染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。関心対象の配列の他の例には、周知の異数性、例えばトリソミーXXX、トリソミー21と関連した染色体、および癌などの疾患において増倍している染色体のセグメント、例えば急性骨髄性白血病における部分的トリソミー8が含まれる。

0026

別様に示されない限り、本明細書において開示される方法およびシステムの履行は、当技術分野技能の範囲内である、分子生物学微生物学タンパク質精製、タンパク質工学、タンパク質およびDNAシーケンシング、ならびに組換えDNAの分野において一般に用いられる従来的な技法および機器を伴う。そのような技法および機器は当業者に公知であり、かつ無数教材および参考図書において記載されている(例えば、Sambrook et al.,「Molecular Cloning: A Laboratory Manual」, Third Edition (Cold Spring Harbor), [2001];およびAusubel et al.,「Current Protocols in Molecular Biology」[1987]を参照されたい)。

0027

数値範囲は、範囲を規定する数を含む。本明細書を通して与えられるあらゆる最大数値限定は、あらゆるより低い数値限定を、あたかもそのようなより低い数値限定が本明細書において明示的に記されているかのように含むことが意図される。本明細書を通して与えられるあらゆる最小数値限定は、あらゆるより高い数値限定を、あたかもそのようなより高い数値限定が本明細書において明示的に記されているかのように含む。本明細書を通して与えられるあらゆる数値範囲は、そのようなより広い数値範囲内に入るあらゆるより狭い数値範囲を、あたかもそのようなより狭い数値範囲がすべて本明細書において明示的に記されているかのように含む。

0028

本明細書において提供される見出しは、本開示を限定することを意図されるわけではない。本明細書において別様に定義されない限り、本明細書において用いられるすべての技術的および科学的な用語は、当業者によって一般に理解されるものと同じ意味を有する。本明細書において含まれる用語を含む様々な科学辞書は、当業者に周知でありかつ利用可能である。本明細書において記載されるものと同様または同等の任意の方法および材料は、本明細書において開示される態様の履行または検査における用途を見出すものの、一部の方法および材料を記載する。

0029

すぐ下に定義される用語は、本明細書を全体として参照することによってより十分に記載される。本開示は、記載される特定の方法論、プロトコール、および試薬に限定されるわけではないことが理解されるべきである、というのもこれらは、それらが当業者によって用いられる状況に依存して変動し得るためである。

0030

定義
本明細書において使用するとき、「a」、「an」、および「the」という単数形の用語は、文脈上はっきりと別様に示されない限り、複数形の指示対象(reference)を含む。

0031

別様に示されない限り、それぞれ、核酸は5'から3'方向に左から右へ記され、かつアミノ酸配列アミノからカルボキシ方向に左から右へ記される。

0032

「査定する」という用語は、本明細書においてCNVについて核酸サンプルを解析する文脈で用いられる場合、「正常」すなわち「影響なし」、「影響あり」、および「コールなし」という3つのタイプのコールのうちの1つによって、染色体またはセグメントの異数性の状況を特徴付けすることを指す。正常および影響ありとコールするための閾値は、典型的に設定される。異数性または他のコピー数変異に関係したパラメーターをサンプルにおいて測定し、かつ測定された値を閾値と比較する。重複型異数性に関しては、染色体またはセグメントの量(または配列含有量の他の測定値)が、影響ありのサンプルに対して設定された既定閾値を上回る場合に、影響ありというコールがなされる。そのような異数性に関しては、染色体またはセグメントの量が正常なサンプルに対して設定された閾値を下回る場合に、正常というコールがなされる。対照的に、欠失型異数性に関しては、染色体またはセグメントの量が、影響ありのサンプルに対する既定閾値を下回る場合に、影響ありというコールがなされ、かつ染色体またはセグメントの量が、正常なサンプルに対して設定された閾値を上回る場合に、正常というコールがなされる。例えば、トリソミーの存在下において、「正常」というコールは、信頼性についてのユーザーにより規定された閾値を下回るパラメーターの値、例えば検査染色体量によって決定され、かつ「影響あり」というコールは、信頼性についてのユーザーにより規定された閾値を上回るパラメーター、例えば検査染色体量によって決定される。「コールなし」という結果は、「正常」または「影響あり」というコールを付けるための閾値間にあるパラメーター、例えば検査染色体量によって決定される。「コールなし」という用語は、「未分類」と互換可能に用いられる。

0033

本明細書における「コピー数変異」という用語は、参照サンプル中に存在している核酸配列のコピー数と比較した、検査サンプル中に存在している核酸配列のコピーの数の変動を指す。ある特定の態様において、核酸配列は1kbまたはそれよりも大きい。ある場合には、核酸配列は、染色体全体またはその相当部分である。「コピー数変種」とは、検査サンプルにおける関心対象の配列と該関心対象の配列の予想されるレベルとの比較によって、コピー数の差異が見出される核酸の配列を指す。例えば、検査サンプルにおける関心対象の配列のレベルを、適格サンプル中に存在しているものと比較する。コピー数変種/変異には、微小欠失を含めた欠失、微小挿入、重複、増倍を含めた挿入、逆位転座、および複合多重部位変種が含まれる。CNVは、染色体異数性および部分的異数性を包含する。

0034

本明細書における「異数性」という用語は、染色体全体または染色体の一部の損失または増大によって引き起こされる遺伝物質の不均衡を指す。

0035

本明細書における「染色体異数性」および「完全染色体異数性」という用語は、染色体全体の損失または増大によって引き起こされる遺伝物質の不均衡を指し、生殖細胞異数性およびモザイク異数性を含む。

0036

本明細書における「部分的異数性」および「部分的染色体異数性」という用語は、染色体の一部の損失または増大、例えば部分的モノソミーおよび部分的トリソミーによって引き起こされる遺伝物質の不均衡を指し、転座、欠失、および挿入により生じる不均衡を包含する。

0037

「複数」という用語は、1つを上回る要素を指す。例えば、該用語は、本明細書において開示される方法を用いて、検査サンプルおよび適格サンプルにおけるコピー数変異の有意な差異を同定するのに十分である、多数の核酸分子または配列タグに対して本明細書において用いられる。いくつかの態様において、各検査サンプルに対して、約20〜40bpの少なくとも約3×106個の配列タグを獲得する。いくつかの態様において、各検査サンプルは、少なくとも約5×106、8×106、10×106、15×106、20×106、30×106、40×106、または50×106個の配列タグについてのデータを提供し、各配列タグは約20〜40bpを含む。

0038

ポリヌクレオチド」、「核酸」、および「核酸分子」という用語は互換可能に用いられ、1個のヌクレオチドペントースの3'箇所が、次のもののペントースの5'箇所にホスホジエステル基によって接合している、共有結合で連結したヌクレオチドの配列(すなわち、RNAに対するリボヌクレオチド、およびDNAに対するデオキシリボヌクレオチド)を指す。ヌクレオチドは、cfDNA分子などのRNAおよびDNA分子を含むがそれらに限定されない、任意の形態の核酸の配列を含む。「ポリヌクレオチド」という用語は、一本鎖および二本鎖ポリヌクレオチドを含むが、それらに限定されるわけではない。

0039

「一部分」という用語は、生物学的サンプルにおける胎児および母体の核酸分子についての配列情報の量、要するに1つのヒトゲノムについての配列情報に満たない量に対して本明細書において用いられる。

0040

本明細書における「検査サンプル」という用語は、典型的に、コピー数変異についてスクリーニングされる対象となる少なくとも1種の核酸配列を含む核酸または核酸の混合物を含む、生物学的流体、細胞、組織臓器、または生物に由来するサンプルを指す。ある特定の態様において、サンプルは、そのコピー数が変異を受けていることが疑われる少なくとも1種の核酸配列を含む。そのようなサンプルには、/口腔液羊水、血液、血液画分、または細針生検サンプル(例えば、外科生検、細針生検など)、尿、腹水胸水などが含まれるが、それらに限定されるわけではない。サンプルは、しばしばヒト対象(例えば、患者)から採取されるものの、イヌネコウマヤギヒツジウシブタなどを含むがそれらに限定されない、任意の哺乳類由来のサンプルにおけるコピー数変異(CNV)に対してアッセイを用いることができる。サンプルは、生物学的供給源から得られたものとして直接的に、またはサンプルの特徴を改変する前処理の後に用いられ得る。例えば、そのような前処理には、血液から血漿を調製する工程、粘性流体希釈する工程などが含まれ得る。前処理方法は、濾過沈殿、希釈、蒸留、混合、遠心分離凍結凍結乾燥濃縮、増幅、核酸フラグメント化、干渉成分不活性化、試薬の添加、溶解なども伴うが、それらに限定されるわけではない。そのような前処理の方法がサンプルに対して採用される場合、そのような前処理方法は、典型的に、ときには、未処理の検査サンプル(例えば、つまり、任意のそのような前処理方法に供されていないサンプル)中のものに比例した濃度で、関心対象の核酸が検査サンプル中に留まっているそのようなものである。そのような「処理された」または「加工された」サンプルは、本明細書において記載される方法に関して、なおも生物学的「検査」サンプルであると見なされる。

0041

本明細書における「適格サンプル」という用語は、検査サンプル中の核酸を比較する対象となる、公知のコピー数で存在している核酸の混合物を含むサンプルを指し、それは、関心対象の配列に対して正常である、すなわち異数性でないサンプルである。ある特定の態様において、適格サンプルは、検討中の染色体に対する1種または複数種の正規化染色体またはセグメントを同定するために用いられる。例えば、適格サンプルは、第21染色体に対する正規化染色体を同定するために用いられ得る。そのような場合、適格サンプルは、トリソミー21サンプルではないサンプルである。適格サンプルは、影響ありのサンプルとコールするための閾値を決定することにおいても採用され得る。

0042

本明細書における「トレーニングセット」という用語は、影響ありおよび/または影響なしのサンプルを含み得、かつ検査サンプルを解析するためのモデルを開発するために用いられるサンプルのセットを指す。いくつかの態様において、トレーニングセットは、影響なしのサンプルを含む。これらの態様において、CNVを判定するための閾値は、関心対象のコピー数変異に対して影響を受けていないサンプルのトレーニングセットを用いて確立される。トレーニングセット中の影響なしのサンプルを適格サンプルとして用いて、正規化配列、例えば正規化染色体を同定し得、かつ影響なしのサンプルの染色体量を用いて、関心対象の配列、例えば染色体のそれぞれに対する閾値を設定する。いくつかの態様において、トレーニングセットは、影響ありのサンプルを含む。トレーニングセット中の影響ありのサンプルを用いて、影響ありの検査サンプルは影響なしのサンプルと容易に識別され得ることを立証することができる。

0043

「トレーニングセット」は、本明細書において、関心対象の集団統計サンプルの個体のセットに対しても用いられ、その個体についてのデータを用いて、該集団に一般化可能な関心対象の1つまたは複数の定量値を決定する。統計サンプルとは、関心対象の集団における個体の部分集合である。個体は、人間、動物、組織、細胞、他の生物学的サンプル(すなわち、統計サンプルは複数の生物学的サンプルを含み得る)、および統計解析のためのデータ点を提供する他の個々の実体であり得る。

0044

通常、トレーニングセットは検証セットと合わせて用いられる。「検証セット」という用語は、本明細書において、統計サンプルにおける個体のセットに対して用いられ、その個体についてのデータは、トレーニングセットを用いて決定された関心対象の定量値を検証するまたは評価するために用いられる。いくつかの態様において、例えば、トレーニングセットは、参照配列に対するマスクを算出するためのデータを提供し、検証セットは、該マスクを検証するまたは評価するデータを提供する。

0045

「コピー数の評価」は、本明細書において、配列のコピー数に関係した遺伝子配列の状況についての統計的評価に対して用いられる。例えば、いくつかの態様において、評価は、遺伝子配列の有無についての判定を含む。いくつかの態様において、評価は、遺伝子配列の部分的または完全な異数性についての判定を含む。他の態様において、評価は、遺伝子配列のコピー数に基づく、2個またはそれを上回る数のサンプル間の判別を含む。いくつかの態様において、評価は、遺伝子配列のコピー数に基づく統計解析、例えば正規化および比較を含む。

0046

「適格核酸」という用語は、それに対して検査配列または検査核酸の量が比較される配列である「適格配列」と互換可能に用いられる。適格配列とは、好ましくは公知の構成で生物学的サンプル中に存在しているものであり、すなわち適格配列の量は公知である。一般的に、適格配列は、「適格サンプル」中に存在している配列である。「関心対象の適格配列」とは、適格サンプル中での量が公知である適格配列であり、かつ医学的状態を有する個体における配列表現の差異と関連する配列である。

0047

本明細書における「関心対象の配列」という用語は、健常個体罹患個体における配列表現の差異と関連する核酸配列を指す。関心対象の配列は、疾患状態または遺伝的状態において誤って構成されている、すわなち過剰にまたは過少に構成されている、染色体上の配列であり得る。関心対象の配列は、染色体の一部分、すなわち染色体セグメント、または染色体であり得る。例えば、関心対象の配列は、異数性状態において過剰に構成されている染色体、または癌において過少に構成されている、腫瘍抑制因子をコードする遺伝子であり得る。関心対象の配列には、対象の細胞の集団全体または部分集団において過剰にまたは過少に構成されている配列が含まれる。「関心対象の適格配列」は、適格サンプル中の関心対象の配列である。「関心対象の検査配列」は、検査サンプル中の関心対象の配列である。

0048

本明細書における「正規化配列」という用語は、正規化配列と関連した関心対象の配列にマッピングされた配列タグの数を正規化するために用いられる配列を指す。いくつかの態様において、正規化配列は、それが正規化パラメーターとして用いられる関心対象の配列の可変性近似する、サンプル間およびシーケンシングラン間での、それにマッピングされる配列タグの数の可変性を呈する。正規化配列は、影響ありのサンプルと1つまたは複数の影響なしのサンプルとを識別し得る。いくつかの実践において、正規化配列は、他の染色体などの他の潜在的正規化配列と比較した場合に、影響ありのサンプルと1つまたは複数の影響なしのサンプルとを最良にまたは有効に識別する。「正規化染色体」または「正規化染色体配列」は、「正規化配列」の一例である。「正規化染色体配列」は、単一染色体または染色体の群から構成され得る。「正規化セグメント」は、「正規化配列」の別の例である。「正規化セグメント配列」は、染色体の単一セグメントから構成され得、またはそれは、同じもしくは異なる染色体の2つもしくはそれを上回る数のセグメントから構成され得る。ある特定の態様において、正規化配列は、過程に関係した、染色体間(ラン内)およびシーケンシング間(ラン間)の可変性などの可変性に対して正規化することを意図される。

0049

本明細書における「識別能」という用語は、1個または複数個の影響なしのサンプル、すなわち正常なサンプルと、1個または複数個の影響ありのサンプル、すなわち異数性サンプルとを区別するのを可能にする、正規化染色体の特徴を指す。最大の「識別能」を呈する正規化染色体は、適格サンプルのセットにおける関心対象の染色体に関する染色体量、および1個または複数個の影響ありのサンプルにおける対応する染色体における関心対象の同じ染色体に関する染色体量の分布間で、最大の統計的差異を提供する染色体または染色体の群である。

0050

本明細書における「可変性」という用語は、1個または複数個の影響なしのサンプル、すなわち正常なサンプルと、1個または複数個の影響ありのサンプル、すなわち異数性サンプルとを区別するのを可能にする、正規化染色体の別の特徴を指す。適格サンプルのセットにおいて測定される、正規化染色体の可変性とは、それが正規化パラメーターとして働く、関心対象の染色体にマッピングされる配列タグの数の可変性を近似する、それにマッピングされる配列タグの数の可変性を指す。

0051

本明細書における「配列量」という用語は、関心対象の配列に対して同定された配列タグの数と、正規化配列に対して同定された配列タグの数とを関連付けするパラメーターを指す。ある場合には、配列量は、正規化配列に対して同定された配列タグの数に対する、関心対象の配列に対して同定された配列タグの数の比である。ある場合には、配列量は、関心対象の配列の配列タグ密度を、正規化配列のタグ密度に関連付けするパラメーターを指す。「検査配列量」とは、検査サンプルにおいて決定される、関心対象の配列、例えば第21染色体の配列タグ密度を、正規化配列、例えば第9染色体のものに関連付けするパラメーターである。同様に、「適格配列量」とは、適格サンプルにおいて決定される、関心対象の配列の配列タグ密度を、正規化配列のものに関連付けするパラメーターである。

0052

本明細書における「配列タグ密度」という用語は、参照ゲノム配列にマッピングされる配列読み取りの数を指し、例えば第21染色体に対する配列タグ密度は、参照ゲノムの第21染色体にマッピングされる、シーケンシング法によって生成された配列読み取りの数である。本明細書における「配列タグ密度比」という用語は、参照ゲノム染色体の長さに対する、参照ゲノムの染色体、例えば第21染色体にマッピングされる配列タグの数の割合を指す。

0053

本明細書における「次世代シーケンシング(NGS)」という用語は、クローン的に増幅された分子および単一核酸分子の超並列シーケンシングを可能にするシーケンシング法を指す。NGSの非限定的な例には、可逆的ダイターミネーターを用いた合成によるシーケンシング、およびライゲーションによるシーケンシングが含まれる。

0054

本明細書における「パラメーター」という用語は、物理的特性を特徴付けする数値を指す。しばしば、パラメーターは、定量的データセット、および/または定量的データセット間の数的関係を数的に特徴付けする。例えば、染色体にマッピングされた配列タグの数と、タグがマッピングされる染色体の長さとの間の割合(または割合の関数)はパラメーターである。

0055

本明細書における「閾値の値」および「適格閾値の値」という用語は、医学的状態を有することが疑われる生物由来の核酸を含有する検査サンプルなどのサンプルを特徴付けするカットオフとして用いられる任意の数を指す。閾値をパラメーター値と比較して、そのようなパラメーター値を生じさせるサンプルは、生物が医学的状態を有することを示唆するかどうかを判定し得る。ある特定の態様において、適格閾値の値は、適格化データセットを用いて算出され、かつ生物におけるコピー数変異、例えば異数性の診断の境界として働く。本明細書において開示される方法から得られる結果が閾値を超えた場合、対象は、コピー数変異、例えばトリソミー21を有すると診断され得る。本明細書において記載される方法に対する適当な閾値の値は、サンプルのトレーニングセットに対して算出される正規化値(例えば、染色体量、NCV、またはNSV)を解析することによって同定され得る。閾値の値は、適格(すなわち、影響なしの)サンプルおよび影響ありのサンプルの両方を含むトレーニングセットにおいて、適格(すなわち、影響なしの)サンプルを用いて同定され得る。染色体異数性を有することが知られる、トレーニングセット中のサンプル(すなわち、影響ありのサンプル)を用いて、検査セットにおいて、選定された閾値は、影響ありのサンプルと影響なしのサンプルとを識別するのに有用であることを確認することができる(本明細書における実施例を参照されたい)。閾値の選定は、分類をする必要があるとユーザーが望む信頼性のレベルに依存する。いくつかの態様において、適当な閾値の値を同定するために用いられるトレーニングセットは、少なくとも10個、少なくとも20個、少なくとも30個、少なくとも40個、少なくとも50個、少なくとも60個、少なくとも70個、少なくとも80個、少なくとも90個、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも600個、少なくとも700個、少なくとも800個、少なくとも900個、少なくとも1000個、少なくとも2000個、少なくとも3000個、少なくとも4000個、またはそれを上回る数の適格サンプルを含む。閾値の値の診断的実用性を向上させるために、適格サンプルのより大きなセットを用いることが有利であり得る。

0056

「マスキング閾値」という用語は、本明細書において、それに対して配列ビンにおける配列タグの数に基づく値が比較される分量を指すために用いられ、マスキング閾値を超える値を有するビンはマスキングされる。いくつかの態様において、マスキング閾値は、パーセンタイル順位、絶対数、または他の適切な値であり得る。マスキング閾値の値は、上述される医学的状態を有することが疑われる生物由来の核酸を含有するサンプルを特徴付けするカットオフとしての閾値の値とは異なる。

0057

本明細書における「正規化値」という用語は、関心対象の配列(例えば、染色体または染色体セグメント)に対して同定された配列タグの数を、正規化配列(例えば、正規化染色体または正規化染色体セグメント)に対して同定された配列タグの数に関連付けする数値を指す。例えば、「正規化値」は、本明細書における他の箇所で記載される染色体量であり得、またはそれは、本明細書における他の箇所で記載されるNCV(正規化された染色体値)であり得、またはそれは、本明細書における他の箇所で記載されるNSV(正規化されたセグメント値)であり得る。

0058

「読み取り」という用語は、核酸サンプルの一部分からの配列読み取りを指す。必ずではないものの、典型的に、読み取りは、サンプルにおける連続塩基対の短い配列を表す。読み取りは、サンプル一部分の塩基対配列による記号で(ATCGで)表され得る。それをメモリー装置に保存しかつ必要に応じて加工して、それが参照配列に一致するかどうかまたは他の基準を満たすかどうかを判定し得る。読み取りは、シーケンシング機器から直接的に、またはサンプルに関する保存された配列情報から間接的に獲得され得る。ある場合には、読み取りは、より大きな配列または領域を同定するために用いられ得る、例えば染色体またはゲノム領域または遺伝子にアラインメントされ得かつ特異的に割り当てられ得る、十分な長さ(例えば、少なくとも約30bp)のDNA配列である。「ゲノム読み取り」という用語は、個体の全ゲノムにおける任意のセグメントの読み取りに対して用いられる。

0059

「配列タグ」という用語は、本明細書において、「マッピングされた配列タグ」という用語と互換可能に用いられて、アラインメントによってより大きな配列、例えば参照ゲノムに特異的に割り当てられている、すなわちマッピングされている配列読み取りを指す。マッピングされた配列タグは、参照ゲノムに一意的にマッピングされる、すなわちそれらは、参照ゲノムに対して単一位置に割り当てられる。別様に指定されない限り、参照配列上の同じ配列にマッピングするタグは1回計数される。タグは、データ構造またはデータの他の集合体として提供され得る。ある特定の態様において、タグは、読み取り配列、およびゲノムにおける配列の位置、例えば染色体上の箇所など、その読み取りについての関連情報を含有する。ある特定の態様において、位置は、プラス鎖方向に対して指定される。タグは、参照ゲノムにアラインメントする際にミスマッチ限界量を提供するように規定され得る。いくつかの態様において、参照ゲノム上の複数の位置にマッピングされ得るタグ、すなわち一意的にマッピングしないタグは、解析に含まれ得ない。

0060

本明細書において使用するとき、「アラインメントされた」、「アラインメント」、または「アラインメントする」という用語は、読み取りまたはタグと参照配列とを比較し、かつそれによって該参照配列が該読み取り配列を含有するかどうかを判定する過程を指す。参照配列が読み取りを含有する場合、該読み取りは該参照配列にマッピングされ得、またはある特定の態様において、該参照配列における特定の位置にマッピングされ得る。ある場合には、アラインメントは、読み取りが特定の参照配列のメンバーであるか否か(すなわち、読み取りが参照配列中に存在しているまたは存在していないかどうか)を単に伝える。例えば、ヒト第13染色体に対する参照配列への読み取りのアラインメントは、該読み取りが第13染色体に対する参照配列中に存在しているかどうかを伝える。この情報を提供するツールは、セットメンバシップテスターと称され得る。ある場合には、アラインメントは、読み取りまたはタグがマッピングする、参照配列における位置を付加的に示す。例えば、参照配列がヒトゲノム配列全体である場合、アラインメントは、読み取りが第13染色体上に存在していることを示し得、かつ該読み取りが第13染色体の特定の鎖および/または部位にあることをさらに示し得る。

0061

アラインメントされる読み取りまたはタグは、参照ゲノム由来の公知の配列に、それらの核酸分子の順序という点で一致するものとして同定される1つまたは複数の配列である。アラインメントは手動でなされ得るが、本明細書において開示される方法を実践するための妥当な期間で読み取りをアラインメントすることは不可能であろうため、それは典型的にはコンピューターアルゴリズムによって実践される。配列をアラインメントすることによるアルゴリズムの一例は、Illuminaのゲノム解析パイプラインの一部として配布される、ヌクレオチドデータの効率的局所的アラインメント(Efficient Local Alignment of Nucleotide Data)(ELAND)コンピュータープログラムである。代替的には、ブルームフィルタまたは同様のセットメンバーシップテスターを採用して、読み取りを参照ゲノムにアラインメントし得る。参照によりその全体として本明細書に組み入れられる、2011年10月27日に提出された米国特許出願第61/552,374号を参照されたい。アラインメントする際の配列読み取りの一致は、100%の配列一致または100%未満(不完全一致)であり得る。

0062

「アラインメントプロファイル」という用語は、関心対象の参照配列における塩基対ビンとして同定され得る位置にアラインメントされた配列タグの分布に対して用いられる。

0063

本明細書において用いられる「マッピング」という用語は、アラインメントによってより大きな配列、例えば参照ゲノムに配列読み取りを特異的に割り当てることを指す。

0064

本明細書において使用するとき、「参照ゲノム」または「参照配列」という用語は、対象由来の同定された配列を参照するために用いられ得る、任意の生物またはウイルスの、部分的または完全であるかどうかにかかわらない、任意の特定の公知のゲノム配列を指す。例えば、ヒト対象ならびに他の多くの生物に用いられる参照ゲノムは、国立生物工学情報センター(National Center for Biotechnology Information)でncbi.nlm.nih.gov.にて見出される。「ゲノム」とは、核酸配列で構成される、生物またはウイルスの完全な遺伝情報を指す。

0065

様々な態様において、参照配列は、それに対してアラインメントされる読み取りよりも有意に大きい。例えば、それは少なくとも約100倍大きく、または少なくとも約1000倍大きく、または少なくとも約10,000倍大きく、または少なくとも約105倍大きく、または少なくとも約106倍大きく、または少なくとも約107倍大きくあり得る。

0066

一例において、参照配列は、全長ヒトゲノムのものである。そのような配列は、ゲノム参照配列と呼ばれ得る。別の例において、参照配列は、第13染色体などの特定のヒト染色体に限定される。いくつかの態様において、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。そのような配列は、染色体参照配列と呼ばれ得る。参照配列の他の例には、他の種のゲノム、ならびに任意の種の染色体、染色体部分(sub-chromosomal)領域(鎖など)等が含まれる。

0067

様々な態様において、参照配列は、複数の個体に由来するコンセンサス配列または他の組み合わせである。しかしながら、ある特定の適用において、参照配列は、特定の個体から選ばれ得る。

0068

本明細書における「臨床的に関連する配列」という用語は、遺伝的状態または疾患状態と関連するまたは関与することが知られるまたは疑われる核酸配列を指す。臨床的に関連する配列の有無を判定することは、診断を決定するもしくは医学的状態の診断を裏付けすることにおいて、または疾患の発症の予後を提供することにおいて有用であり得る。

0069

「由来する」という用語は、本明細書において、核酸または核酸の混合物の文脈で用いられる場合、核酸が、それらが起因する供給源から獲得される手段を指す。例えば、一態様において、2種の異なるゲノムに由来する核酸の混合物は、該核酸、例えばcfDNAが、ネクローシスまたはアポトーシスなどの天然に存在する過程を通じて、細胞によって天然に放出されたことを意味する。別の態様において、2種の異なるゲノムに由来する核酸の混合物は、該核酸が、対象由来の2種の異なるタイプの細胞から抽出されたことを意味する。

0070

「に基づく」という用語は、本明細書において、特定の定量値を得る文脈で用いられる場合、別の分量をインプットとして用いて、特定の定量値をアウトプットとして算出することを指す。

0071

本明細書における「患者サンプル」という用語は、患者、すなわち医学的な配慮、ケア、または治療のレシピエントから得られた生物学的サンプルを指す。患者サンプルは、本明細書において記載されるサンプルのいずれかであり得る。ある特定の態様において、患者サンプル、例えば末梢血サンプルまたは排泄物サンプルは、非侵襲的手順によって得られる。本明細書において記載される方法は、ヒトに限定される必要はない。ゆえに、様々な獣医学的適用が企図され、その場合には、患者サンプルは、非ヒト哺乳類(例えば、など)由来のサンプルであり得る。

0072

本明細書における「混合サンプル」という用語は、異なるゲノムに由来する核酸の混合物を含有するサンプルを指す。

0073

本明細書における「母体サンプル」という用語は、妊娠した対象、例えば女性から得られた生物学的サンプルを指す。

0074

本明細書における「生物学的流体」という用語は、生物学的供給源から採取された液体を指し、例えば血液、血清、血漿、痰、洗浄液脳脊髄液、尿、精液唾液などを含む。本明細書において使用するとき、「血液」、「血漿」、および「血清」という用語は、画分またはその加工された一部分を明示的に包含する。同様に、サンプルが、生検、スワブスメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する加工された画分または一部分を明示的に包含する。

0075

本明細書における「母体核酸」および「胎児核酸」という用語は、それぞれ、妊娠した雌性対象の核酸および妊娠した雌によって宿されている胎児の核酸を指す。

0076

本明細書において使用するとき、「に対応する」という用語は、異なる対象のゲノムに存在しており、かつすべてのゲノムにおいて必ずしも同じ配列を有するわけではないが、関心対象の配列、例えば遺伝子または染色体の遺伝情報よりも、素性を提供するのに役立つ核酸配列、例えば遺伝子または染色体を指すこともある。

0077

本明細書において使用するとき、所望のサンプルに関連して用いられる「実質的に無細胞」という用語は、サンプルに通常付随している細胞成分が除去されている、所望のサンプルの調製物を包含する。例えば、血漿サンプルは、それに通常付随している血液細胞、例えば赤血球を除去することによって実質的に無細胞の状態になる。いくつかの態様において、実質的に無細胞のサンプルは、そうでなければ、CNVについて検査される対象となる所望の遺伝物質に寄与すると考えられる細胞を除去するように加工される。

0078

本明細書において使用するとき、「胎児画分」という用語は、胎児および母体の核酸を含むサンプル中に存在している胎児核酸の画分を指す。胎児画分は、しばしば、母親の血中におけるcfDNAを特徴付けするために用いられる。

0079

本明細書において使用するとき、「染色体」という用語は、DNAおよびタンパク質成分(とりわけ、ヒストン)を含むクロマチン鎖に由来する、生細胞遺伝性を担う遺伝子キャリアを指す。本明細書においては、国際的に認められた従来的な個々のヒトゲノム染色体付番システムが採用される。

0080

本明細書において使用するとき、「ポリヌクレオチド長」という用語は、配列におけるまたは参照ゲノムの領域における、核酸分子(ヌクレオチド)の絶対数を指す。「染色体長」という用語は、塩基対で与えられる、例えばワールドワイドウェブでgenome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=にて見出されるヒト染色体についてのNCBI36/hg18アセンブリで提供される、染色体の公知の長さを指す。

0081

本明細書における「対象」という用語は、哺乳動物無脊椎動物脊椎動物真菌酵母、細菌、およびウイルスなど、ヒト対象ならびに非ヒト対象を指す。本明細書における例はヒトに関し、かつ言葉は主にヒト関係事項に向けられているが、本明細書において記載される概念は、任意の植物または動物由来のゲノムに適用可能であり、かつ獣医学、動物科学、研究用実験室などの分野において有用である。

0082

本明細書における「状態」という用語は、人間の健康に影響を及ぼし得、医学的支援からの恩恵を受け得、または医学的治療に関わりがあり得る、すべての疾患および障害を含むが、[負傷]および妊娠など正常な健康の状況を含み得る広義の用語としての「医学的状態」を指す。

0083

「完全な」という用語は、本明細書において染色体異数性に対して用いられる場合、染色体全体の増大または損失を指す。

0084

「部分的」という用語は、本明細書において染色体異数性に対して用いられる場合、染色体の一部分、すなわちセグメントの増大または損失を指す。

0085

本明細書における「モザイク」という用語は、単一受精卵から発生した1つの個体において、異なる核型を有する細胞の2つの集団の存在を示すことを指す。モザイクは、発生の間の突然変異により生じ得、それは成体細胞の部分集団のみに伝わる。

0086

本明細書における「非モザイク」という用語は、1種の核型の細胞から構成される生物、例えばヒト胎児を指す。

0087

「染色体を用いる」という用語は、本明細書において、染色体量を決定することに対して用いられる場合、染色体に関して得られた配列情報、すなわち染色体に関して得られた配列タグの数を用いることを指す。

0088

本明細書において用いられる「感度」という用語は、真陽性および偽陰性の合計で割った、真陽性の数に相当する。

0089

本明細書において用いられる「特異性」という用語は、真陰性および偽陽性の合計で割った、真陰性の数に相当する。

0090

本明細書における「富化する」という用語は、母体サンプルの一部分に含有される多型標的核酸を増幅し、かつ増幅産物と、該一部分が取り出された母体サンプルの残りとを組み合わせる過程を指す。例えば、母体サンプルの残りは、元の母体サンプルであり得る。

0091

本明細書における「元の母体サンプル」という用語は、そこから一部分が取り出されて多型標的核酸を増幅する供給源として働く、妊娠している対象、例えば女性から得られた、富化されていない生物学的サンプルを指す。「元のサンプル」は、妊娠している対象から得られた任意のサンプル、およびその加工された画分、例えば母体血漿サンプルから抽出された精製cfDNAサンプルであり得る。

0092

本明細書において用いられる「プライマー」という用語は、伸長産物の合成にとって誘導的な条件下に置かれた場合に、合成の開始点として作用し得る単離オリゴヌクレオチドを指す(例えば、条件には、ヌクレオチド、DNAポリメラーゼなどの誘導剤、ならびに適切な温度およびpHが含まれる)。プライマーは、増幅の最大効率のために好ましくは一本鎖であるが、代替的に二本鎖であり得る。二本鎖の場合、プライマーは、伸長産物を調製するために用いられる前に、その鎖を分離するようにまず処理される。好ましくは、プライマーはオリゴデオキシリボヌクレオチドである。プライマーは、誘導剤の存在下で伸長産物の合成を点火するのに十分に長くなければならない。プライマーの正確な長さは、温度、プライマーの供給源、方法の使用法、およびプライマー設計に用いられるパラメーターを含めた多くの因子に依存する。

0093

投与させる(cause to be administered)」という語句は、問題の剤/化合物の対象への投与を制御しかつ/または許可する医学専門家(例えば、医師)、つまり対象の医学的ケアを制御するまたは指揮する人間によって取られる行動を指す。投与させることは、診断、および/または適当な治療的もしくは予防的レジメンの決定、ならびに/あるいは対象に対して特定の剤/化合物を処方することを伴い得る。そのような処方には、例えば処方箋書式を書くこと、医療記録に注釈付けすることなどが含まれ得る。同様に、例えば診断手順に関する「実施させる(cause to be performed)」とは、対象へのまたは対象に対する1つまたは複数の診断プロトコールの実施を制御しかつ/または許可する医学専門家(例えば、医師)、つまり対象の医学的ケアを制御するまたは指揮する人間によって取られる行動を指す。

0094

序論
2種の異なるゲノムに由来する核酸の混合物を含み、かつ関心対象の1種または複数種の配列の量が異なることが知られるまたは疑われる検査サンプルにおける、関心対象の種々の配列のコピー数およびコピー数変異(CNV)を判定するための、方法、機器、およびシステムが本明細書において開示される。本明細書において開示される方法および機器によって判定されるコピー数変異には、染色体全体の増大または損失、顕微鏡見える非常に大きな染色体セグメントを伴う変更、およびサイズが単一ヌクレオチドからキロベース(kb)に、メガベース(Mb)に及ぶDNAセグメントの多数の超顕微鏡的(sub-microscopic)コピー数変異が含まれる。

0095

方法は、任意の胎児異数性についてのCNV、および多様な医学的状態と関連することが知られるまたは疑われるCNVを判定することに適用可能である。ヒト対象を伴ういくつかの態様において、本方法に従って判定され得るCNVには、検査サンプルの核酸を1回だけシーケンシングすることによって検出され得る、第1〜22、X、およびY染色体のうちのいずれか1種または複数種のトリソミーおよびモノソミー、他の染色体ポリソミー、ならびに該染色体のうちのいずれか1つまたは複数のセグメントの欠失および/または重複が含まれる。任意の異数性は、検査サンプルの核酸を1回だけシーケンシングすることによって得られるシーケンシング情報から判定され得る。

0096

ヒトゲノムにおけるCNVは、ヒト多様性および疾患にかかりやすい傾向に重大に影響する(Redon et al., Nature 23:444-454 [2006]、Shaikh et al. Genome Res 19:1682-1690 [2009])。CNVは、種々のメカニズムを通じて遺伝的疾患に寄与することが知られており、ほとんどの場合において遺伝子量の不均衡または遺伝子破壊のいずれかをもたらす。遺伝的障害とのそれらの直接的な相関に加えて、CNVは、有害であり得る表現型変化仲介することが知られる。近年、いくつかの調査により、正常対照と比較して、自閉症ADHD、および統合失調症などの複雑な障害における、希少なまたは新たなCNVの負荷の増加が報告されており、希少なまたは特有のCNVの潜在的病原性浮き彫りにしている(Sebat et al., 316:445-449 [2007];Walsh et al., Science 320:539-543 [2008])。CNVは主に欠失、重複、挿入、および不平衡転座事象による、ゲノム再編成により生じる。

0097

本明細書において記載される方法および機器は、超並列シーケンシングである次世代シーケンシング技術(NGS)を採用し得る。ある特定の態様において、クローン的に増幅されたDNA鋳型または単一DNA分子を、フローセル内にて超並列形式でシーケンシングする(例えば、Volkerding et al. Clin Chem 55:641-658 [2009];Metzker M Nature Rev 11:31-46 [2010]に記載されている)。ハイスループットな配列情報に加えて、NGSは、各配列読み取りが、個々のクローン的DNA鋳型または単一DNA分子を表す計数可能な「配列タグ」であるという点において、定量的な情報を提供する。NGSのシーケンシング技術には、パイロシーケンシング、可逆的ダイターミネーターを伴う合成によるシーケンシング、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングが含まれる。個々のサンプル由来のDNAを個々にシーケンシングして(すなわち、シングルプレクスシーケンシング)、または複数のサンプル由来のDNAをプールしかつ単一シーケンシングランで指標付きゲノム分子としてシーケンシングして(すなわち、マルチプレックスシーケンシング)、最高数億個のDNA配列の読み取りを生成することができる。本方法に従って配列情報を獲得するために用いられ得るシーケンシング技術の例は、本明細書において後に記載される。

0098

DNAサンプルを用いた様々なCNV解析は、シーケンサーからの配列読み取りを参照配列にアラインメントするまたはマッピングする工程を伴う。参照配列は、ゲノム全体の配列、染色体の配列、染色体部分領域などであり得る。参照配列の特徴により、Y染色体のCNVについての診断は、Y染色体の網羅率が常染色体のものよりも低く、かつY染色体上の反復配列が、読み取りのそれらの正しい位置へのマッピングを複雑にするため、常染色体と比較して高度の技術的課題を伴う。現在のNGS技術によって入手可能な約10Mbの一意的なY配列が存在するが、母体サンプルにおける胎児cfDNAの量が、母体DNAのものよりも少なくとも1桁低い胎児診断の世界において、性別検出は依然として困難な仕事であり、非特異的マッピングの問題を際立たせている。

0099

加えて、いくつかの現在のシーケンシングプロトコールは、25merの読み取りおよびタグなどの超短読み取りを利用する。ヒトゲノムのほぼ半分は反復によって網羅されているため、シーケンシングプロトコールの過程において利用される超短シーケンシングは、配列アラインメントに関する技術的課題を提示した短い読み取り長をもたらし、その多くについては数十年にわたって知られている。コンピューターによる見通しから、反復は、アラインメントにおいて曖昧性を創出し、それが今度は、染色体全体の計数レベルでさえバイアスおよびエラーを産生し得る。雌性胎児を有する妊娠している女性由来のサンプルにおける、15種の最もよく見られるY染色体(chrY)25merについての症例調査により、それらはすべて、ヒトゲノムにおける最も豊富な反復配列から1編集距離以内に入ることが示された。このことは、読み取りを参照ゲノムにアラインメントする過程において固有である問題:供給源DNAは参照と事実上決して同一ではなく、かつY染色体上の正しくない箇所への読み取りの体系的アラインメントは、誤った性別推論に必然的につながることを例証している。ヒトゲノムは、NGS技術、とりわけ現在利用されている超短読み取りシーケンシングによって産生される読み取りよりも長い、200〜500bpの範囲の数百万コピーの反復を有し、それゆえY染色体上の一意的なかつ非冗長の読み取りについての標的化ポストフィルタリングの必要性がある。

0100

ヒトY染色体は、異質染色質、常染色体(pseudoautosomal)、X転位(X-transposed)、X縮退(X-degenerate)、およびアンプリコンから構成される不均一性であり、図1を参照されたい。具体的には、
1. Y染色体の雄性特異的領域の相当部分は、長腕上の単一〜40Mb質量の異質染色質を含めた、異質染色質配列のいくつかの離散ブロックを含む。
2. 偽常染色体領域(PAR)は、YおよびX染色体の最末端に位置し、かつY染色体配列全体の小部分をなす。
3. 3.4Mbに渡るXからYへの転位事象に起因する、X転位領域
4. X縮退配列は、X染色体の劣化したバージョンである。それらは、16種の単一コピー遺伝子がまばらに投入されている。
5.アンプリコン配列は、重複配列の長い伸長から専ら構成される。

0101

読み取りを参照配列に正確にマッピングすることは、次世代シーケンシングにとって最も重大な仕事の1つであり、それは商業的なNGSシステム適用において、とりわけ、Y染色体読み取りの正確なマッピングに依存する性別コール(calling)において、依然として最も困難な領域の1つである。Duke 25merマッピング能(mapability)トラック(UCSCのGenome Browser内で利用可能)は、全25塩基配列一意性を反映し、かつchrYの11Mbのみが完全に一意的であることを示唆している。とはいえ、chrYのマッピングされた読み取り計数を一意的配列に限定することは、chrY総計数を、雄性網羅域(coverage estate)の大部分および雌性網羅域のすべてに対応する性別非判別ヒットから保護するわけではない。いくつかの従来的フィルタリング法は、マッピングされた読み取りの非一意性に対処しており:配列読み取りの配列タグへの変換は、複数のゲノム箇所にマッピングするすべての読み取りを除去する工程を伴い;かつタグの部位への変換は、同じゲノム箇所にマッピングする重複25merを除去する過程である。しかしながら、より良好な診断結果を達成するために、より効率的なフィルタリング法が望ましい。

0102

非特定の商業的雌性サンプルのコホート内に存在している共通chrYタグの多くについての調査により、性別非判別タグは、高度に重複したゲノム領域内で起きたシーケンシングエラーを表すことが示唆されている。例えば、1種の特異的25merは、ゲノムにわたり10,000+個のヒットおよびY染色体上でゼロ個のヒットを与え、それにもかかわらず単一ミスマッチを有する類似25merは、Y染色体を除くゲノムにわたりゼロ個のヒットおよびY染色体上で単一ヒットを産生する。それゆえ、性別非判別タグは、最も高頻度なゲノム重複/反復を有する25merから短い編集距離内にある25merのコホートに対応する。

0103

本明細書において開示されるいくつかの態様は、雌性サンプルの代表的トレーニングセットを用いた、Y染色体上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを記載する。いくつかの態様において、このフィルタリングストラテジーは、常染色体上の配列のコピー数変異についての評価のために、常染色体をフィルタリングすることにも適用可能である。

0104

いくつかの態様において、参照配列は、何個の読み取りが参照配列にマッピングされるかを判定する場合に考慮されない、マスキングされたまたは除外された領域を含有する。そのような領域は、他の位置における配列に同一であるまたはほぼ同一である配列を有し得る。したがって、そのようなマッピングのいずれかは問題であり得る。Y染色体にマッピングされた読み取りは、ゲノムにおける、例えばX染色体における別の位置に実際には起因し得る。そのような場合、偽陽性が起こり得る。いくつかの態様において、参照配列に同一にマッピングされた読み取りは、配列タグを計数してマスクを決定する前に、読み取りからタグへの変換中に除外される。そのような態様において、Y染色体にほぼ同一にマッピングされた読み取りは、上述の問題をなおも提示する。本明細書において開示されるいくつかの態様は、Y染色体上で除外されるまたはマスキングされる対象となる領域を決定するための技法に関する。いくつかの態様において、参照配列をマスキングするための技法は、Y染色体以外の染色体に適用可能である。

0105

いくつかの実践において、参照配列上の除外された領域は、マッピングに依然として利用可能である。そのような場合、まず、読み取りは、除外された領域にアラインメントされて配列タグをもたらすが、その後、マスキングされた領域上に収まった配列タグは、後続の算出および分類において考慮されない。代替的な実践において、除外された領域は、参照配列から単に除去され、そのため読み取りは除外された領域にマッピングし得ない。しかしながら、この後者の手法は、ゲノム上の他の箇所に出現する偶発ヒットつながり得る。例えば、胎児のY染色体からの雄性胎児の読み取りの一部は、非Y参照染色体にマッピングされると考えられる。この手法において、そのような偶発ヒットは、それに応じて対処される必要がある。

0106

本明細書において開示される、Y染色体をフィルタリングする経験的方法は、性別非判別領域についての事前に規定された/事前に算出された考えに依存しない。しかしながら、種々のバージョンのアッセイ間で保存され、かつY染色体の根本反復構造を反映する、かなり顕著な「マスキング」構造が存在する。図2は、一態様において、マスキングされるY染色体のセグメントの一例を示している。マスキングされたセグメントは、プロットのY軸上に示されたY染色体塩基対数によって指標付けされた濃いバンドに相当する。いくつかの態様において、マスキングされたY染色体は、事前に算出され得、かつY染色体のコピー数についての評価のための参照配列として用いられ得る。見て分かるように、マスクビンの大部分は2 e7箇所を下回る。いくつかの態様において、マスクビンの少なくとも約80%は3 e7箇所を下回る。いくつかの態様において、マスクビンの少なくとも約90%は3 e7箇所を下回り、かつビンの残りのほとんどまたはすべては、5.5 e7〜6.2 e7箇所の領域に収まる。

0107

参照配列をマスキングする
本明細書において開示されるいくつかの態様は、雌性サンプルの代表的トレーニングセットを用いた、Y染色体上の非判別配列読み取りをフィルター除去する(またはマスキングする)ためのストラテジーを採用する。いくつかの態様において、該フィルタリングストラテジーは、常染色体上の配列のコピー数変異についての評価のために、常染色体をフィルタリングすることにも適用可能である。いくつかの態様において、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。本明細書において記載される方法によって生成されるマスキングされた参照配列を用いると、性別を確実に判定することができ、かつ/または従来的方法と比べて向上した感度、選択性、および/もしくは効率で、コピー数およびCNVに関係した様々な遺伝的状態を判定することができる。

0108

いくつかの態様において、臨床的雌性サンプルの代表的コホートにおけるそれらの経験的頻度発生率に基づき、一意的にマッピングされた非冗長の読み取り(例えば、25mer)のY染色体フィルタリングのための過程が提供される。図3A〜3Bは、胎児および母体の無細胞核酸を含む検査サンプルにおける、Y染色体のコピー数についての評価のための方法の態様についてのブロック図を示している。いくつかの態様において、方法は、1つまたは複数のプロセッサーおよびシステムメモリーを含むコンピューターシステムで実践される。

0109

図3Aは、ブロック200の方法の態様についてのブロック図を示している。これらの態様に従って、方法は、まず、第1の複数の雌性個体の核酸サンプルから測定されたゲノム読み取りを含むトレーニングセットを提供する、ブロック210。以降に記載されるいくつかの態様において、トレーニングセットは、検査される対象となる集団と比べて、該トレーニングセットの代表性を最大限に高める方法によって選択される。いくつかの態様において、ゲノム読み取りは、超短配列(例えば、25bpの配列)を含む。いくつかの態様において、Y染色体のコピー数についての評価を用いて、胎児の性別を判定する。

0110

いくつかの態様において、方法は、トレーニングセットのゲノム読み取りをY染色体の参照配列にアラインメントする工程をさらに伴う(ブロック220)。典型的には、トレーニングセットのサンプルのゲノム由来の配列のゲノム読み取りを、完全なまたはほぼ完全なY染色体を含む参照ゲノムにアラインメントする。アラインメントは、アラインメントされたゲノム読み取りを含むトレーニング配列タグ、およびY染色体の参照配列上でのそれらの位置を提供する(ブロック230を参照されたい)。

0111

さらに、方法は、参照配列を特定のサイズのビンに分割する工程を伴う(ブロック240を参照されたい)。この分割は、ゲノム読み取りをアラインメントする前に実施され得る。次いで、方法は、各ビンに位置するトレーニング配列タグの計数を決定する(ブロック250を参照されたい)。方法は、マスキング閾値を超えるビンをマスキングし、それによってY染色体のマスキングされた参照配列を提供する工程をさらに伴う(ブロック260を参照されたい)。いくつかの態様において、方法は、マスキング閾値を決定する工程も伴う。下記でさらに記載されるように、Y染色体のマスキングされた参照配列を用いて、検査サンプルにおけるY染色体のコピー数を解析することができる。

0112

トレーニングセットを選択する
典型的には、Y染色体のコピー数評価のトレーニング目的のために、雌性サンプルの無作為サンプルセットが用いられる。理想的なシナリオにおいて、トレーニングセットは、検査サンプルと同様のY染色体アラインメントプロファイルを有する雌由来のゲノム読み取りの大きなセットである。そのため、トレーニングセット選択の目標は、それを可能な限り代表的なものにすることであり得、以下の特性のうちの1つまたは複数を維持する。(1)トレーニングセットは、元のデータセットと比較してサイズが有意に小さい。(2)それは、同じサイズの任意の部分集団と比較して、元のデータセットからの情報のほとんどを捉えている。(3)それは、それが含有する代表的なものの間で低い冗長性を有する。(4)適正データは、依然として検証結果を実証しなければならない。

0113

雌性集団は、Y染色体に対する「アラインメントプロファイル」において相当な不均一性を有する。この文脈におけるアラインメントプロファイルとは、雌性サンプル由来の配列タグのY染色体内での分布である。一部の雌性サンプルは、Y染色体の特定の領域にアラインメントする読み取りを有するが、一方で他の雌性サンプルはそうではない。Y染色体の有効なマスクは、広範な雌性遺伝子型にわたって適用可能であるべきである。この目的のために、Y染色体上でのマスクの位置は、多数の雌性サンプルから同定される異なるアラインメントプロファイルを意図的に考慮することによって選択される。

0114

いくつかの態様は、トレーニングセットを選択して、集団における多くの異なるタイプの雌性サンプルにわたって偽陽性(雄の性別同定)の出現率を低減させる、Y染色体に対するマスクを生成するための方法を提供する。雌性サンプルは、参照Y染色体へのサンプルマピングからの読み取りの分布によって特徴付けされ得る。各雌性サンプルは、Y染色体におけるアラインメントプロファイルと呼ばれ得る、それ独自の分布を有すると考えられる。

0115

Y染色体の有効なマスキングされた参照配列を提供するために、トレーニングセットのための雌性サンプルは、集団全般において表される広範なアラインメントプロファイルを網羅するように選択される。

0116

トレーニングセットにおいて用いられる対象となるサンプルを選択するために、様々な技法を採用することができる。用いられ得る1つの技法は、サンプルのクラスタリングおよび各クラスターからサンプルを選択する工程を要する。他の技法を適用して、検査される対象となる集団を代表するトレーニングセットを選択し得、したがって参照配列の有用なマスクを導き出す適正な情報が提供される。実践され得る、トレーニングセット選択のための他の方法には、供給業者、試薬、計器作業者、および特定の臨床サンプルパラメーター、例えばcfDNA収量などに関する意図的なサンプル多様化が含まれるが、それらに限定されるわけではない。

0117

いくつかの態様において、トレーニングセット選択技法により、雌性サンプルは、アラインメントプロファイルの類似性に基づくクラスターに分割される。クラスタリング技法を実践して、妥当な数のクラスター(例えば、約10〜30個)を提供する。一態様において、雌性DNAサンプルを20個のクラスターに分ける。その後、各クラスターからいくつかのサンプルを選択して、トレーニングセットに投入する。ある特定の態様において、サンプルは各クラスターから無作為に選択される。

0118

ある特定の態様において、各クラスターから同じ数のサンプルが選択される(例えば、各クラスターから15個のサンプルが選択される)。クラスターが、選択のために要求される数に満たないサンプルを有する場合、該クラスターのすべてのメンバーが選択される。他の態様において、各クラスターから選択されるメンバーの数は、該クラスターの相対的サイズによって決定される。例えば、相対的に多くの数のメンバーを有するクラスターは、トレーニングセットに対して、相対的に多くの数のメンバーを寄与する。逆に、相対的に少ない数のサンプルを有するクラスターは、トレーニングセットに対して、相対的に少ない数のメンバーを寄与する。いくつかの実践において、各クラスターの寄与は、そのサンプル数の割合である。

0119

いくつかの態様において、トレーニングサンプルのクラスタリングは、クラスターの階層ツリーである、階層型順序付き分割および縮小のハイブリッド(HOPACH)というハイブリッドクラスタリング法によって実施される。M. van der Laan and K. Pollard. A new algorithm for hybrid hierarchical clustering with visualization and the bootstrap. Journal of Statistical Planning and Inference, 117:275-303, 2003を参照されたい。HOPACH方法論は、分配クラスタリング法および凝集クラスタリング法の両方の強みを組み合わせ、かつ研究者が、増加したレベルの詳細でクラスターを再検討することを可能にする。態様についてのさらなる詳細は、実施例2に例証されている。

0120

Y染色体に対するマスクを規定する
Y染色体のCNV解析を伴ういくつかの態様において、Y染色体のマスクは、複数のマスクセグメントから構成される。各セグメントは1つまたは複数のビンを含み、該セグメントは長さおよび開始点を有する。いくつかの態様において、開始点は、Y染色体配列上の規定された位置からのずれとして規定され得る。マスクセグメントを決定する過程において、特定のビンサイズを想定し得る。一例において、長さは1Mbであり、別の例において、長さは1kbである。原理上、ビンサイズは、単一読み取りの長さ、例えば長さが約20〜50塩基対まで下方に伸長し得る。いくつかの態様において、1kbのビンサイズを用いた方法は、1Mbのビンサイズよりも良好に機能することが示されている。

0121

いくつかの態様において、ビンのサイズを、判別解析または他の技法によって調整することができる。いくつかの態様において、シーケンサー読み取りのサイズまで下げた任意に小さなビンサイズが適当であると考えられる。他方で、シーケンシングプロトコールおよび計算効率は、より大きなサイズを要求し得る。いくつかの態様において、ビンサイズの選択は、ヒトゲノムにおいて見られる反復の最も頻度が高いサイズによって推進される。いくつかの実践において、500〜1000bpの範囲にあるビンは、初回ビン化(binning)に上手く機能し、それを後にビンのマージ(bin merging)で連結させて、最終的なマスキングセグメントのセットを作り出すことができる。Treangen TJ, Salzberg SL. Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nat Rev Genet. 2011 Nov 29;13(1):36-46. doi: 10.1038/nrg3117。しかしながら、他の技術的制約が、ビンサイズ、例えばマスキングセグメントの総計数の上限の増加などにおそらく寄与し得る。

0122

いくつかの態様において、トレーニングセットの各メンバーの配列を用いて、考え得るすべての読み取りを生成する。それらの読み取りのそれぞれを、参照Y染色体との一致またはアラインメントについてチェックする。いくつかの態様において、アラインメントは、読み取りにおける最高2個の塩基ミスマッチ許す。いくつかの態様において、アラインメントアルゴリズムは、読み取りが参照染色体の一部分と正確に一致する場合だけでなく、該読み取りの1個または2個の塩基変異が該参照染色体の一部分と一致する場合にも、一致を提供する。サンプルのクラスタリングおよび配列タグの算出は、正確な一致を要求するまたはミスマッチを許すアラインメントに限定されるわけではない。

0123

トレーニングセットにおける各雌性サンプルを解析して、雌性サンプルからの読み取りがどのように参照Y染色体にアラインメントされるかに基づき、配列タグのアラインメントプロファイルを作り出す。参照Y染色体を、典型的には、等しいサイズのビンに分割する。アラインメントプロファイルは、参照Y染色体の各ビンにおける配列タグの数を提供する。参照Y染色体のビンのそれぞれは、トレーニングセットのメンバーに対する読み取りの計数によって選別される;すなわち、最も大きな比率を占めるビンが、マスキングの最上位候補である。

0124

いくつかの態様において、少なくとも1つの計数を有するすべてのビンを、マスキングに考慮する。いくつかの態様において、実際に除去されるそのようなビンの数、またはより厳密には、実際に除去されるそのようなビンの部分は、経験的に選択され得る。トレーニングセットからの最大の数の計数を有するビンである最高位のビンは、除去される対象となる最初のビンである。2番目に最大の数の計数を有するビンは、除去される対象となる2番目のものである、など。ゆえに、マスキングのための閾値割合が非常に低い場合でさえ、典型的に、最上位順位付けされるビンは、それにもかかわらず除去されると考えられる。閾値が50%に設定される場合、ビンの2分の1がマスキングされる。それらは、50パーセンタイルおよびそれを上回る割合で計数値を有するビンである。いくつかの態様において、マスキング閾値は、90パーセンタイルまたはそれを上回る割合に設定される。

0125

上記の態様において、マスキングされる対象となるビンの閾値数は、雄/雌または異数性の判別測定基準などの判別測定基準を用いて経験的に決定される。いくつかの態様において、シグナル対ノイズ比が、上記で記載されるような測定基準として用いられ得る。当技術分野において公知の他の判別測定基準も採用され得る。

0126

Y染色体のコピー数を判定する
いくつかの態様において、上記で記載されるY染色体フィルタリング技法を用いて、Y染色体のコピー数を判定する。図2Bは、Y染色体のコピー数についての評価のための方法の態様についてのブロック図を示している(ブロック200)。方法は、上記で記載される様々な態様に従って決定される、Y染色体のマスキングされた参照配列を提供する(ブロック260を参照されたい)。方法は、シーケンサーを用いて検査サンプル由来の無細胞核酸をシーケンシングし、それによって検査サンプルのゲノム読み取りを生成する工程をさらに伴う(ブロック262)。サンプルおよびサンプル加工方法は、以降にさらに詳細に記載されている。サンプルは、以降に記載される方法によってシーケンシングされ得る。方法は、検査サンプルのゲノム読み取りを参照配列にアラインメントする工程264、アラインメントされたゲノム読み取りを含む検査配列タグ、および参照配列上での位置を提供する工程266をさらに伴う。典型的には、検査サンプル読み取りを、マスキングされていない参照配列にアラインメントするが、とはいえ読み取りを、マスキングされた参照配列にアラインメントすることも可能である。いくつかの態様において、マスキングされていない参照配列にアラインメントすることは、より良好な結果をもたらし得る。これは、アラインメントがある程度のミスマッチを許す場合にとりわけ当てはまり得る。

0127

いくつかの態様において、方法は、Y染色体のマスキングされた参照配列上の検査配列タグの計数を測定する工程をさらに伴う(ブロック268)。次いで、方法は、マスキングされた参照配列上の検査配列タグの計数に基づき、検査サンプルにおけるY染色体のコピー数を評価し得る。ブロック270を参照されたい。

0128

Y染色体以外の染色体をマスキングする
いくつかの態様において、上記で記載されるY染色体フィルタリング技法は、CNVについての評価または他の目的のために他の染色体に拡大され得る。そのような態様において、フィルタリング法は、まず、全ゲノムフィルタリングに対するトレーニングセットを選択して、関心対象の公知の異常な遺伝的状態または異数性を有しない正常サンプルの個別のクラスターを表現する工程を伴う。トレーニングセットは、例えば、Y染色体に対する上記で記載された手法にあるようにクラスター表現を最大限に高めることによって選択される。検証のために、確認された異数性を有する公知の影響ありのサンプルを、トレーニングセットにはない正常サンプルのセットとともに用いる。

0129

いくつかの態様において、方法は、トレーニングセットにおけるすべてのサンプルにわたる、事前に規定されたサイズの、重なり合わないあらゆるゲノムビンに対する(例えばchrYに限定されない)、非重複配列タグの総計数を決定する工程を伴う。いくつかの態様において、方法は、ビンにわたる網羅率中央値(例えば全ゲノム規模、常染色体規模、または染色体内で算出される中央値)によって近似され得る予想される計数を、ビン配列タグ計数から差し引くことによる標準化を伴う。代替的には、中央値の代わりに、平均またはトレーニングセットを代表する他の値が用いられ得る。

0130

次いで、中央値/平均からの偏差の値をマスキング閾値と比較する。該閾値を超えるビンを、参照配列からマスキングする。これらのビンは、異常でないトレーニングセット内に存在する、配列タグ計数の比較的大きなゆらぎを含有する。したがって、これらのビンにおける配列タグ計数は、影響なし対影響ありのコホートを判別するための判別測定基準を導き出すために用いられる場合、ノイズになる傾向がある。参照配列からこれらのビンをマスキングするまたはフィルター除去することによって、2つのコホート間の判別は、いくつかの態様において向上する。いくつかの態様において、中央値からの正の偏差のみをマスキングに考慮し、非参照配列からの読み取りのミスアラインメントによる、配列タグの過剰出現を有するビンは除去される。

0131

次いで、SNR算出において、方法は、影響ありの検証コホート対独立した影響なしのコホートの間の判別を考慮し、かつ関心対象のすべての染色体(例えば、第13、第18、および/または第21染色体)にわたるコンセンサスにより、最適なマスキング閾値の値を見出し、該最適なマスキング閾値の値とは、影響あり対影響なしのコホートを識別するための判別測定基準についての最高のSNRをもたらす値である。

0132

最後に、方法は、最適なマスキング閾値の値を超える配列タグ計数を有するビンを含むマスクを提供する。該マスクを、CNVについての評価に用いられる参照配列に適用する。

0133

いくつかの態様において、過程は、以下の一連の作業によって特徴付けされ得る。
1.関心対象のゲノム領域において、CNVによる影響を受けていない複数のサンプルのそれぞれに対して、読み取りのトレーニングセットを受け取る。
2. 読み取りを参照ゲノム(または他の大きなゲノム参照配列)にアラインメントする。
3. 参照ゲノムにおける複数の等しいサイズのビンのそれぞれにおけるタグの数を決定する。
4. 参照配列の多くまたはすべてにわたって算出されたタグ計数中央値(または平均)を差し引くことによって、サンプルのビンにおけるタグ計数を標準化する。標準化は、トレーニングセットの各メンバーに対して行われ得る。標準化は任意の工程である。
5. ビンを、それらの標準化計数に基づき順位付けする。負の標準化計数を有するビンを切り捨てる。より大きな値を有するビンを、まずマスキングする。
6. 順位付けされたビンの部分における種々の閾値を評価して、影響ありおよび影響なしのサンプルを判別し得る閾値の能力に対してマスキングする。マスクは、検査のための関心対象の1種または複数種の染色体に対して(またはゲノムの別の領域に対して)規定され得る。
7.判別力に基づき閾値を決定し、かつ閾値を上回る高位に順位付けされたすべてのビンを含めることによってマスクを規定する。

0134

このストラテジーは、ベースラインと比較して網羅率を増加させる偶発ヒットをもたらす、ゲノムの反復部分とのクロストークにより過剰に出現しているビンを標的とし得る。代替的な態様において、標準化されたビンの絶対値が、フィルタリングストラテジーにおいて用いられる。

0135

CNVについての判定
CNVについての判定のための方法
上記で記載される方法によって生成されるマスキングされた参照配列を用いると、従来的方法と比べて向上した感度、選択性、および/または効率で、Y染色体および他の染色体のコピー数およびCNVに関係した様々な遺伝的状態を判定することができる。

0136

例えば、いくつかの態様において、マスキングされた参照配列は、胎児および母体の核酸分子を含む母体検査サンプルにおける、任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定するために用いられる。下記で提供される例示的な方法は、読み取りを参照配列(参照ゲノムを含む)にアラインメントする。アラインメントは、マスキングされていないまたはマスキングされた参照配列に対して実施され得、それによって、参照配列にマッピングされた配列タグがもたらされる。後続の算出において、参照配列のマスキングされていないセグメントに収まる配列タグのみを、コピー数変異を判定する考慮に入れる。

0137

いくつかの態様において、母体検査サンプルにおける任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定するための方法は、(a)母体検査サンプルにおける胎児および母体の核酸についての配列情報を得る工程;(b)上記で記載されるように得られた配列情報およびマスキングされた参照配列を用いて、第1〜22、X、およびY染色体より選択される関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについての配列タグの数を同定し、かつ関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについての正規化染色体配列について配列タグの数を同定する工程;(c)関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについて同定された配列タグの数、および各正規化染色体について同定された配列タグの数を用いて、関心対象の任意の2種またはそれを上回る種類の染色体についての単一染色体量を算出する工程;ならびに(d)関心対象の任意の2種またはそれを上回る種類の染色体のそれぞれについての単一染色体量と、関心対象の2種またはそれを上回る種類の染色体のそれぞれについての閾値の値とを比較し、かつそれによって、母体検査サンプルにおける任意の2種またはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定する工程を含む。

0138

いくつかの態様において、上記で記載される工程(a)は、検査サンプルの核酸分子の少なくとも一部分をシーケンシングして、該検査サンプルの胎児および母体の核酸分子についての配列情報を獲得する工程を含み得る。いくつかの態様において、工程(c)は、関心対象の染色体のそれぞれについて同定された配列タグの数と、関心対象の染色体のそれぞれについての正規化染色体配列について同定された配列タグの数との比として、関心対象の染色体のそれぞれについての単一染色体量を算出する工程を含む。いくつかの他の態様において、染色体量は、配列タグの数の代わりに、配列タグ密度比に基づく。配列タグ密度比とは、配列の長さによって標準化された配列タグの数である。そのような態様において、関心対象の染色体のそれぞれについての配列タグ密度比と、関心対象の染色体のそれぞれについての正規化染色体配列についての配列タグ密度比との比として、染色体量を算出する。

0139

上記の態様のいずれか1つにおいて、異なる完全染色体異数性は、完全染色体トリソミー、完全染色体モノソミー、および完全染色体ポリソミーより選択される。異なる完全染色体異数性は、第1〜22、X、およびY染色体のうちのいずれか1つの完全異数性より選択される。例えば、異なる完全胎児染色体異数性は、トリソミー2、トリソミー8、トリソミー9、トリソミー20、トリソミー21、トリソミー13、トリソミー16、トリソミー18、トリソミー22、47,XXX、47,XYY、およびモノソミーXより選択される。

0140

上記の態様のいずれか1つにおいて、工程(a)〜(d)は、種々の母体対象由来の検査サンプルに対して反復され、かつ方法は、検査サンプルのそれぞれにおける任意の2つまたはそれを上回る種類の異なる完全胎児染色体異数性の有無を判定する工程を含む。

0141

上記の態様のいずれか1つにおいて、方法は、正規化された染色体値(NCV)を算出する工程をさらに含み得、該NCVは、

式中、

および

は、適格サンプルのセットにおける第j染色体量に対する、それぞれ、推定される平均および標準偏差であり、かつxijは、検査サンプルiに対する観察される第j染色体量である、
として、染色体量を適格サンプルのセットにおける対応する染色体量の平均に関連付けする。

0142

別の態様において、胎児および母体の核酸を含む母体検査サンプルにおける異なる部分的胎児染色体異数性の有無を判定するための方法が提供される。方法は、上記で概説される完全異数性を検出するための方法に類似した手順を伴う。しかしながら、完全染色体を解析する代わりに、染色体のセグメントを解析する。米国特許出願公報第20130029852号を参照されたく、それは参照により組み入れられる。

0143

図4は、いくつかの態様に従った、コピー数変異の存在を判定するための方法を示している。概観的視点から、方法は、検査サンプルのCNVについての判定において、適格サンプルの正規化配列を使用する。正規化配列は、ラン内およびラン間の可変性についての測定結果を正規化するメカニズムを提供する。正規化配列は、関心対象の任意の1種の配列、例えば染色体またはそのセグメントに対して正常なコピー数を有する細胞を含むことが知られる対象から得られた適格サンプルのセットからの配列情報を用いて同定される。正規化配列の決定は、図4に描かれる方法の態様の工程110、120、130、140、および145において概説されている。いくつかの態様において、正規化配列を用いて、検査配列に対する配列量を算出する。工程150を参照されたい。いくつかの態様において、正規化配列を用いて、それに対して検査配列の配列量を比較する閾値も算出する。工程150を参照されたい。正規化配列および検査配列から得られた配列情報を、検査サンプルにおける染色体異数性の統計的に意味のある同定を判定するために用いる(工程165)。

0144

いくつかの態様に従った、コピー数変異の存在を判定するための方法の詳細に目を向けると、図4は、生物学的サンプルにおける関心対象の配列、例えば染色体またはそのセグメントのCNVを判定するための態様の流れ図100を提供している。いくつかの態様において、生物学的サンプルは対象から得られ、異なるゲノムによって寄与される核酸の混合物を含む。異なるゲノムは2つの個体によってサンプルに寄与され得、例えば、異なるゲノムは、胎児および胎児を保持する母親によって寄与される。代替的に、ゲノムは、同じ対象由来の異数性癌性細胞および正常な正倍数性細胞によってサンプルに寄与される、例えば癌患者由来の血漿サンプル。

0145

患者の検査サンプルを解析することは別として、関心対象の考え得る各染色体に対して、1種もしくは複数種の正規化染色体、または1種もしくは複数種の正規化染色体セグメントを選択する。正規化染色体またはセグメントは、臨床設定において起こり得る、患者サンプルの通常の検査から非同期的に同定される。言い換えれば、正規化染色体またはセグメントは、患者サンプルを検査する前に同定される。正規化染色体またはセグメントと関心対象の染色体またはセグメントとの間の関連性は、検査の間、使用のために保存される。下記で説明されるように、そのような関連性は、典型的に、多くのサンプルの検査に渡る期間にわたって維持される。以下の考察は、関心対象の個々の染色体またはセグメントに対して、正規化染色体または染色体セグメントを選択するための態様に関する。

0146

適格サンプルのセットを獲得して、適格正規化配列を同定し、かつ検査サンプルにおけるCNVの統計的に意味のある同定を判定することにおける使用のための分散値を提供する。工程110において、複数の生物学的適格サンプルを、関心対象の任意の1種の配列に対して正常なコピー数を有する細胞を含むことが知られる複数の対象から獲得する。一態様において、適格サンプルを、正常なコピー数の染色体を有することが細胞遺伝学的手段を用いて確認されている胎児を妊娠している母親から獲得する。生物学的適格サンプルは、生物学的流体、例えば血漿、または下記で記載される任意の適切なサンプルであり得る。いくつかの態様において、適格サンプルは、核酸分子、例えばcfDNA分子の混合物を含有する。いくつかの態様において、適格サンプルは、胎児および母体のcfDNA分子の混合物を含有する母体血漿サンプルである。正規化染色体および/またはそのセグメントについての配列情報を、任意の公知のシーケンシング法を用いて、核酸、例えば胎児および母体の核酸の少なくとも一部分をシーケンシングすることによって得る。好ましくは、本明細書における他の箇所で記載される次世代シーケンシング(NGS)法のいずれか1つを用いて、単分子またはクローン的に増幅された分子として、胎児および母体の核酸をシーケンシングする。様々な態様において、シーケンシング前およびシーケンシングの間に、適格サンプルを下記で開示されるように加工する。それらは、本明細書において開示される機器、システム、およびキットを用いて加工され得る。

0147

工程120において、適格サンプルに含有されるすべての適格核酸のそれぞれの少なくとも一部分をシーケンシングして、数百万個の配列読み取り、例えば36bpの読み取りを生成し、それを参照ゲノム、例えばhg18にアラインメントする。いくつかの態様において、配列読み取りは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpを含む。技術的進歩により、500bpよりも大きな単一末端の読み取りが可能となり、対合末端の読み取りが生成される場合には、約1000bpよりも大きな読み取りが可能となることが予想される。一態様において、マッピングされた配列読み取りは36bpを含む。別の態様において、マッピングされた配列読み取りは25bpを含む。

0148

配列読み取りを参照ゲノムにアラインメントし、参照ゲノムに一意的にマッピングされる読み取りは、配列タグとして知られる。マスキングされた参照配列のマスクセグメントに収まる配列タグを、CNVの解析のために計数する。

0149

一態様において、20〜40bpの読み取りを含む、少なくとも約3×106個の適格配列タグ、少なくとも約5×106個の適格配列タグ、少なくとも約8×106個の適格配列タグ、少なくとも約10×106個の適格配列タグ、少なくとも約15×106個の適格配列タグ、少なくとも約20×106個の適格配列タグ、少なくとも約30×106個の適格配列タグ、少なくとも約40×106個の適格配列タグ、または少なくとも約50×106個の適格配列タグが、参照ゲノムに一意的にマッピングする読み取りから獲得される。

0150

工程130において、適格サンプルにおける核酸をシーケンシングすることにより得られたすべてのタグを計数して、適格配列タグ密度を決定する。一態様において、配列タグ密度は、参照ゲノム上の関心対象の配列にマッピングされた適格配列タグの数として決定される。別の態様において、適格配列タグ密度は、それらがマッピングされる関心対象の適格配列の長さに対して正規化された、関心対象の配列にマッピングされた適格配列タグの数として決定される。関心対象の配列の長さに対するタグ密度の比として決定される配列タグ密度は、本明細書においてタグ密度比と呼ばれる。関心対象の配列の長さに対する正規化は必要とされるわけではなく、ヒト解釈のためにそれを単純化する数の桁数を低減させる工程として含まれ得る。すべての適格配列タグが適格サンプルのそれぞれにおいてマッピングされかつ計数されるため、正規化配列が後に同定される由来の付加的配列に対する配列タグ密度がそうであるように、適格サンプルにおける関心対象の配列、例えば臨床的に関連する配列に対する配列タグ密度は決定される。

0151

いくつかの態様において、関心対象の配列は、完全染色体異数性と関連する染色体、例えば第21染色体であり、かつ適格正規化配列は、染色体異数性と関連せずかつその配列タグ密度の変動が、関心対象の配列(すなわち、染色体)、例えば第21染色体のものを近似する完全染色体である。選択される正規化染色体は、関心対象の配列の配列タグ密度の変動を最良に近似する1つまたは群であり得る。第1〜22、X、およびY染色体のうちのいずれか1つまたは複数は、関心対象の配列であり得、かつ1種または複数種の染色体は、適格サンプルにおけるいずれか1つの第1〜22、X、およびY染色体のそれぞれに対する正規化配列として同定され得る。正規化染色体は個々の染色体であり得、またはそれは、本明細書における他の箇所で記載される染色体の群であり得る。

0152

別の態様において、関心対象の配列は、部分的異数性と関連した染色体のセグメント、例えば染色体の欠失もしくは挿入、または不平衡な染色体転座であり、かつ正規化配列は、部分的異数性と関連せずかつその配列タグ密度の変動が、部分的異数性と関連した染色体セグメントのものを近似する染色体セグメント(またはセグメントの群)である。選択される正規化染色体セグメントは、関心対象の配列の配列タグ密度の変動を最良に近似する1つまたは複数のものであり得る。いずれか1つまたは複数の第1〜22、X、およびY染色体のいずれか1つまたは複数のセグメントは、関心対象の配列であり得る。

0153

他の態様において、関心対象の配列は、部分的異数性と関連した染色体のセグメントであり、かつ正規化配列は、1種または複数種の染色体全体である。さらに他の態様において、関心対象の配列は、異数性と関連した染色体全体であり、かつ正規化配列は、異数性と関連しない1種または複数種の染色体セグメントである。

0154

単一配列または配列の群が、適格サンプルにおいて、関心対象のいずれか1種または複数種の配列に対する正規化配列として同定されるかどうかにかかわらず、適格正規化配列は、適格サンプルにおいて決定される、関心対象の配列のものを最良にまたは有効に近似する配列タグ密度の変動を有するように選定され得る。例えば、適格正規化配列は、関心対象の配列を正規化するために用いられる場合、適格サンプルにわたって最小の可変性をもたらす配列である、すなわち正規化配列の可変性は、適格サンプルにおいて判定される、関心対象の配列のものに最も近い。別の言い方をすれば、適格正規化配列は、適格サンプルにわたって、(関心対象の配列に対する)配列量の最少の変動をもたらすように選択された配列である。ゆえに、過程は、正規化染色体として用いられる場合に、関心対象の配列に対するランからランへの染色体量の最小の可変性をもたらすことが予想される配列を選択する。

0155

シーケンシングライブラリーを生成するために必要とされる手順、およびサンプルをシーケンシングする工程が経時的に本質的に変更されないという条件で、関心対象のいずれか1種または複数種の配列に対する、適格サンプルにおいて同定される正規化配列は、数日間、数週間、数ヶ月間、およびおそらく数年間にわたって、検査サンプルにおける異数性の有無を判定するための選定の正規化配列のままである。上記で記載されるように、異数性の存在を判定するための正規化配列は、(おそらく同様の他の理由の中でも、)それが正規化パラメーターとして用いられる関心対象の配列の可変性を最良に近似する、サンプル間、例えば異なるサンプル間、およびシーケンシングラン間、例えば同じ日および/または異なる日に生じるシーケンシングラン間での、それにマッピングされる配列タグの数の可変性で選定される。これらの手順の実質的な変更は、すべての配列にマッピングされるタグの数に影響を及ぼし、それが今度は、配列のうちのどの1つまたは群が、関心対象の配列のものを最も厳密に近似する、同じ日または異なる日の、同じおよび/または異なるシーケンシングランにおけるサンプルにわたる可変性を有するかを決定すると考えられ、それは、正規化配列のセットが再決定されることを要すると考えられる。手順の実質的な変更には、シングルプレックスシーケンシングの代わりにマルチプレックスシーケンシングのためのサンプルを調製する工程に関係した変化を含めた、シーケンシングライブラリーを調製するために用いられる実験室プロトコールの変化、およびシーケンシングに用いられる化学反応の変化を含めた、シーケンシングプラットフォームの変化が含まれる。

0156

いくつかの態様において、関心対象の特定の配列を正規化するために選定される正規化配列は、1つまたは複数の適格サンプルを1つまたは複数の影響ありのサンプルから最良に区別する配列であり、それは、正規化配列が最大の識別能を有する配列であることを暗示する、すなわち正規化配列の識別能は、それが、影響ありの検査サンプルにおける関心対象の配列に対して最適な識別を提供して、影響ありの検査サンプルを他の影響なしのサンプルから容易に区別するそのようなものである。他の態様において、正規化配列は、最小の可変性と最大の識別能との組み合わせを有する配列である。

0157

識別能のレベルは、下記で記載されかつ実施例において示されるように、適格サンプルの集団における配列量、例えば染色体量またはセグメント量と、1つまたは複数の検査サンプルにおける染色体量との間の統計的差異として判定され得る。例えば、識別能は、適格サンプルの集団における染色体量と、1つまたは複数の検査サンプルにおける染色体量との間の統計的差異を表すt検定値として数的に表され得る。同様に、識別能は、染色体量の代わりにセグメント量に基づき得る。代替的に、識別能は、NCVに対する分布が正常である限り、染色体量に対するzスコアである正規化された染色体値(NCV)として数的に表され得る。同様に、染色体セグメントが関心対象の配列である場合、セグメント量の識別能は、NSVに対する分布が正常である限り、染色体セグメント量に対するzスコアである正規化されたセグメント値(NSV)として数的に表され得る。zスコアの決定において、適格サンプルのセットにおける染色体量またはセグメント量の平均および標準偏差が用いられ得る。代替的に、適格サンプルおよび影響ありのサンプルを含むトレーニングセットにおける染色体量またはセグメント量の平均および標準偏差が用いられ得る。他の態様において、最小の可変性および最大の識別能、または小さな可変性と大きな識別能との最適な組み合わせを有する配列である。

0158

方法は、同様の特徴を本質的に有し、かつサンプル間およびシーケンシングラン間で同様の変動の傾向があり、かつ検査サンプルにおける配列量を決定するのに有用である配列を同定する。

0159

配列量の決定
いくつかの態様において、関心対象の1種または複数種の染色体またはセグメントについての染色体量またはセグメント量を、図4に示される工程140に記載されるように、すべての適格サンプルにおいて決定し、かつ正規化染色体またはセグメントの配列を工程145で同定する。工程145は工程140の下流として示されているが、一部の正規化配列は、配列量が算出される前に提供されることに留意されたい。次いで、1種または複数種の正規化配列を、下記でさらに記載される様々な基準に従って同定する(工程145を参照されたい)。いくつかの態様において、例えば、同定された正規化配列は、すべての適格サンプルにわたって、関心対象の配列にについての配列量の最小の可変性をもたらす。

0160

工程140において、算出された適格タグ密度に基づき、関心対象の配列についての適格配列量、すなわち染色体量またはセグメント量を、関心対象の配列についての配列タグ密度と付加的配列についての適格タグ密度との比として決定し、それにより工程145において、正規化配列がその後同定される。同定された正規化配列をその後用いて、検査サンプルにおける配列量を決定する。

0161

一態様において、適格サンプルにおける配列量は、関心対象の染色体についての配列タグの数と、適格サンプルにおける正規化染色体配列についての配列タグの数との比として算出される染色体量である。正規化染色体配列は、単一染色体、染色体の群、1種の染色体のセグメント、または異なる染色体由来のセグメントの群であり得る。したがって、関心対象の染色体についての染色体量は、適格サンプルにおいて、関心対象の染色体についてのタグの数と、(i)単一染色体から構成される正規化染色体配列、(ii)2種もしくはそれを上回る種類の染色体から構成される正規化染色体配列、(iii)染色体の単一セグメントから構成される正規化セグメント配列、(iv)1種の染色体由来の2つもしくはそれを上回る数のセグメントから構成される正規化セグメント配列、または(v)2種もしくはそれを上回る種類の染色体の2つもしくはそれを上回る数のセグメントから構成される正規化セグメント配列、についてのタグの数との比として決定される。(i)〜(v)に従った、関心対象の第21染色体についての染色体量を決定するための例は、下記のとおりである:関心対象の染色体、例えば第21染色体についての染色体量を、第21染色体の配列タグ密度と、以下の配列タグ密度:(i)残りすべての染色体、すなわち第1〜20染色体、第22染色体、X染色体、およびY染色体のそれぞれ;(ii)2種またはそれを上回る種類の残りの染色体の考え得るすべての組み合わせ;(iii)別の染色体、例えば第9染色体のセグメント;(iv)他の1種の染色体の2つのセグメント、例えば第9染色体の2つのセグメント;(v)2種の異なる染色体の2つのセグメント、例えば第9染色体のセグメントおよび第14染色体のセグメント、のうちの1つとの比として決定する。

0162

別の態様において、適格サンプルにおける配列量は、染色体量とは対照的なセグメント量であり、セグメント量は、染色体全体ではない関心対象のセグメントについての配列タグの数と、適格サンプルにおける正規化セグメント配列についての配列タグの数との比として算出される。正規化セグメント配列は、上述される正規化染色体またはセグメント配列のいずれかであり得る。

0163

正規化配列の同定
工程145において、正規化配列を、関心対象の配列について同定する。いくつかの態様において、例えば正規化配列は、例えばすべての適格サンプルにわたって関心対象の配列についての配列量の最小の可変性をもたらす、算出された配列量に基づく配列である。方法は、同様の特徴を本質的に有しかつサンプル間およびシーケンシングラン間で同様の変動の傾向があり、かつ検査サンプルにおける配列量を決定するのに有用である配列を同定する。

0164

関心対象の1種または複数種の配列についての正規化配列は、適格サンプルのセットにおいて同定され得、かつ適格サンプルにおいて同定される配列をその後用いて、検査サンプルのそれぞれにおける関心対象の1種または複数種の配列についての配列量を算出して(工程150)、検査サンプルのそれぞれにおける異数性の有無を判定する。関心対象の染色体またはセグメントについて同定される正規化配列は、異なるシーケンシングプラットフォームが用いられる場合に、ならびに/またはシーケンシングされる対象となる核酸の精製および/もしくはシーケンシングライブラリーの調製に差異が存在する場合に異なり得る。本明細書において記載される方法に従った正規化配列の使用により、サンプル調製および/または用いられるシーケンシングプラットフォームにかかわりなく、染色体またはそのセグメントのコピー数の変動についての特異的かつ高感度な測定が提供される。

0165

いくつかの態様において、1種を上回る種類の正規化配列が同定される、すなわち関心対象の1種の配列について、種々の正規化配列が決定され得、かつ関心対象の1種の配列について、複数の配列量が決定され得る。例えば、関心対象の第21染色体についての染色体量の変動、例えば変動係数(CV=標準偏差/平均)は、第14染色体の配列タグ密度が用いられる場合に最少である。しかしながら、検査サンプルにおける関心対象の配列についての配列量の決定における使用のために、2、3、4、5、6、7、8種、またはそれを上回る種類の正規化配列を同定することができる。例として、任意の1つの検査サンプルにおける第21染色体についての第2の量は、第7染色体、第9染色体、第11染色体、または第12染色体を正規化染色体配列として用いて決定され得る、というのもこれらの染色体はすべて、第14染色体についてのものに近いCVを有するためである(実施例4、表2を参照されたい)。

0166

いくつかの態様において、単一染色体が、関心対象の染色体についての正規化染色体配列として選定される場合、正規化染色体配列は、検査されるすべてのサンプル、例えば適格サンプルにわたって最小の可変性を有する、関心対象の染色体についての染色体量をもたらす染色体であると考えられる。ある場合には、最良の正規化染色体は、最少の変動を有し得ないが、1つまたは複数の検査サンプルを適格サンプルから最良に区別する適格量の分布を有し得る、すなわち最良の正規化染色体は、最低の変動を有さないこともあるが、最大の識別能を有し得る。

0167

検査サンプルにおける異数性についての判定
適格サンプルにおける正規化配列の同定に基づき、関心対象の1種または複数種の配列の点で異なるゲノムに由来する核酸の混合物を含む検査サンプルにおいて、関心対象の配列について、配列量を決定する。

0168

工程115において、関心対象の配列の臨床的に関連するCNVを保持することが疑われるまたは知られる対象から検査サンプルを獲得する。検査サンプルは、生物学的流体、例えば血漿、または下記で記載される任意の適切なサンプルであり得る。説明されるように、サンプルは、単純な採血などの非侵襲的手順を用いて獲得され得る。いくつかの態様において、検査サンプルは、核酸分子、例えばcfDNA分子の混合物を含有する。いくつかの態様において、検査サンプルは、胎児および母体のcfDNA分子の混合物を含有する母体血漿サンプルである。

0169

工程125において、検査サンプルにおける検査核酸の少なくとも一部分を、適格サンプルに関して記載されているようにシーケンシングして、数百万個の配列読み取り、例えば36bpの読み取りを生成する。工程120にあるように、検査サンプルにおける核酸をシーケンシングすることから生成される読み取りを、参照ゲノムに一意的にマッピングしまたはアラインメントして、タグを産生する。工程120に記載されるように、20〜40bpの読み取りを含む、少なくとも約3×106個の適格配列タグ、少なくとも約5×106個の適格配列タグ、少なくとも約8×106個の適格配列タグ、少なくとも約10×106個の適格配列タグ、少なくとも約15×106個の適格配列タグ、少なくとも約20×106個の適格配列タグ、少なくとも約30×106個の適格配列タグ、少なくとも約40×106個の適格配列タグ、または少なくとも約50×106個の適格配列タグが、参照ゲノムに一意的にマッピングする読み取りから獲得される。ある特定の態様において、シーケンシング機器によって産生された読み取りは、電子形式で提供される。アラインメントは、下記で記述される計算機器を用いて達成される。しばしば膨大(数百万個の塩基対)である、個々の読み取りを参照ゲノムに対して比較して、読み取りが参照ゲノムと一意的に対応する部位を同定する。いくつかの態様において、アラインメント手順は、読み取りと参照ゲノムとの間の限られたミスマッチを容認する。ある場合には、読み取りにおける1、2、または3個の塩基対は、参照ゲノムにおける対応する塩基対とミスマッチすることが容認され、なおかつマッピングはなおもなされる。

0170

工程135において、下記で記載されるように、計算機器を用いて、検査サンプルにおける核酸をシーケンシングすることから得られたタグのすべてまたはほとんどを計数して、検査配列タグ密度を決定する。いくつかの態様において、各読み取りを参照ゲノム(ほとんどの場合、染色体またはセグメント)の特定の領域にアラインメントし、かつ部位情報を読み取りに添えることによって、読み取りをタグに変換する。この過程により明らかとなるように、計算機器は、参照ゲノム(ほとんどの場合、染色体またはセグメント)の各領域にマッピングするタグ/読み取りの数の累計を保ち得る。計数は、関心対象の各染色体またはセグメント、および対応する各正規化染色体またはセグメントに対して保存される。

0171

ある特定の態様において、参照ゲノムは、真の生物学的ゲノムの一部であるが参照ゲノムには含まれない、1つまたは複数の除外された領域を有する。これらの除外された領域に潜在的にアラインメントする読み取りは、計数されない。除外される領域の例には、長い反復配列の領域、XおよびY染色体間での類似性の領域などが含まれる。上記で記載されるマスキング技法によって得られるマスキングされた参照配列を用いて、参照配列のマスキングされていないセグメント上のタグのみを、CNVについての解析の考慮に入れる。

0172

いくつかの態様において、方法は、多数の読み取りが参照ゲノムまたは参照配列上の同じ部位にアラインメントする場合に、タグを1回よりも多く計数するかどうかを判定する。2つのタグが同じ配列を有し、したがって参照配列上の同一部位にアラインメントする場合が存在し得る。タグを計数するために採用される方法は、ある特定の状況下で、同じシーケンスを有するサンプルに由来する同一タグを計数から除外する。所与のサンプルにおいて不均衡な数のタグが同一である場合、手順における強いバイアスまたは他の欠陥が存在することが示唆される。したがって、ある特定の態様に従って、計数法は、以前に計数されたサンプル由来のタグと同一である、所与のサンプル由来のタグを計数しない。

0173

一サンプル由来の同一タグをいつ無視するかを選定するために、様々な基準を設定し得る。ある特定の態様において、計数されるタグについての規定されるパーセンテージは、一意的でなければならない。この閾値よりも多くのタグが一意的でない場合、それらは無視される。例えば、規定パーセンテージが、少なくとも50%が一意的であることを要する場合、一意的なタグのパーセンテージがサンプルに対して50%を超えるまで、同一タグは計数されない。他の態様において、一意的なタグの閾値数は少なくとも約60%である。他の態様において、一意的なタグの閾値パーセンテージは、少なくとも約75%、または少なくとも約90%、または少なくとも約95%、または少なくとも約98%、または少なくとも約99%である。第21染色体に対して、閾値は90%に設定され得る。30Mのタグが第21染色体にアラインメントされる場合には、それらの少なくとも27Mは一意的でなければならない。3Mの計数されたタグが一意的でなく、かつ3000万1番目のタグが一意的でない場合、それは計数されない。さらなる同一タグをいつ計数しないかを判定するために用いられる特定の閾値または他の基準の選定は、適当な統計解析を用いて選択され得る。この閾値または他の基準に影響する1つの因子は、タグがアラインメントし得るゲノムのサイズに対する、シーケンシングされたサンプルの相対量である。他の因子には、読み取りのサイズおよび同様の検討事項が含まれる。

0174

一態様において、関心対象の配列にマッピングされた検査配列タグの数を、それらがマッピングする関心対象の配列の公知の長さに対して正規化して、検査配列タグ密度比を提供する。適格サンプルに関して記載されているように、関心対象の配列の公知の長さに対する正規化は必要とされるわけではなく、ヒト解釈のためにそれを単純化する数の桁数を低減させる工程として含まれ得る。すべてのマッピングされた検査配列タグが検査サンプルにおいて計数されるため、適格サンプルにおいて同定された少なくとも1種の正規化配列に対応する付加的配列に対する配列タグ密度がそうであるように、検査サンプルにおける関心対象の配列、例えば臨床的に関連する配列に対する配列タグ密度は決定される。

0175

工程150において、適格サンプルにおける少なくとも1種の正規化配列の同一性に基づき、検査サンプルにおける関心対象の配列について、検査配列量を決定する。様々な態様において、本明細書において記載されるように、検査配列量は、関心対象の配列の配列タグ密度および対応する正規化配列を用いてコンピューターにより決定される。この取り組みに関わる計算機器は、関心対象の配列とその関連する正規化配列との間の関連性に電子的にアクセスし、それは、データベース、表、グラフで保存され得、またはプログラム命令にコードとして含まれ得る。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

この 技術と関連性が強い技術

該当するデータがありません

この 技術と関連性が強い法人

該当するデータがありません

この 技術と関連性が強い人物

該当するデータがありません

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ