図面 (/)

技術 RNA転写産物バリアントを定量するための方法及び製品

出願人 レクソジェン・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング
発明者 ルーカスパウルペトラクバラトルステンレダ
出願日 2015年7月9日 (6年4ヶ月経過) 出願番号 2017-501008
公開日 2017年9月7日 (4年2ヶ月経過) 公開番号 2017-525341
状態 特許登録済
技術分野 突然変異または遺伝子工学 酵素、微生物を含む測定、試験
主要キーワード リード比 相対濃度比 サイズ選定 RSS値 最低入力 相対測定値 相対偏差 同定要素
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年9月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題・解決手段

本発明は、トランスクリプトミクスの分野に関連し、そして、サンプル中の転写産物バリアントの管理された同定及び/又は定量のための方法であって、転写産物バリアントをシミュレートする人工ポリ核酸分子から成る標準セットを提供し、及び転写産物バリアントを含んでいるサンプルに外部対照として前記標準セットを加えることを含む方法を提供する。本発明は、斯かる標準セット、並びに斯かる標準セットを作製する方法を提供する。

概要

背景

背景
次世代シークエンシング技術は、核酸サンプル配列決定するときに大量のショートリードを作り出す。次世代シークエンシングに不可欠なステップは、ライブラリ調製(又は略してlibrary prep)である。このプロセスは、入力としてmRNA又はcDNAを取り、各々がmRNA分子区分に対応する短いcDNA断片のライブラリを作り出す。これらの断片は、次にNGSシーケンサーによって、通常はそれらの全体ではなくそれらの開始及び/又はそれらの終結部において部分的に配列決定される。これは、ヌクレオチドの短い配列を生じ、この短い配列は、リードと称され、遺伝コード核酸塩基を表すA、C、G、T又は0、1、2、3のような4つのASCII文字一群の配列として、最も一般にはNGSシーケンサーによって記憶される。元のサンプル中にどのmRNA分子が存在したかを推測するために、リードを標準ゲノム又はトランスクリプトーム上へマッピング又は重ね合わせるか、或いは配列オーバラップに基づいて新規アセンブリされる。

次世代シークエンシングは、様々なゲノム・マッピング手順(US2013/110410A1)又は例えば、配列リードをある生物バリアントへ関連付けるためにマッピングされたゲノムを用いることによるDNA同定方法(WO2009/085412A1)において利用されてきた。

WO2009/091798A1は、生物のトランスクリプトームのプロファイルを得るための方法を記載し、この方法は、シークエンシングリードを得るために1若しくは複数のcDNA分子を配列決定するステップと、各シークエンシングリードを標準配列と重ね合わせるステップとを備える。

しかしながら、短い配列リードを用いたトランスクリプトーム解析の根底にある主要な問題は、以下の段落に記載のように転写産物バリアントの場合における重ね合わせステップである。通常、短い配列リードを1つの転写産物バリアントへ正しく重ね合わせることは困難である。
EP2 333 104A1は、潜在的に多様なRNA分子プール由来する核酸分子断片配列順序づけるRNA分析方法に関する。遺伝子は、1つの転写産物バリアントで発現されるだけではなく、それらのエクソンイントロン組成及び転写の開始(TSS)や終結部位(TES)におけるバリエーションを有する多くの転写産物アイソフォームで所定のゲノム領域(例えば、Nilsen and Graveley, 2010; Wang et al., 2009; Koscielny et al., 2009を参照のこと)から転写された。転写産物アイソフォームはまた、それらの存在量が最大6桁異なるので、更に複雑性のレベルを高めている(Aird et al., 2013)。Zhangらは総合的な選択的スプライシングデータベースに関する。

RNA−Seqによってその複雑性の中でトランスクリプトームを分析することは、アノテーション付き標準ゲノムに対してショートリードを重ね合わせ、そして、コンティグ適用範囲や有効なエクソン−エクソンジャンクションなどの独特の特徴から転写産物の類推及び仮説を得ることを必要とする(例えば、Wang et al., 2009を参照のこと)。これらのアルゴリズムは正確であるには程遠く、不十分な且つ異なってキュレートされたアノテーション、並びに同様の特徴を共有し且つ同じ水準で発現される転写産物バリアントの判別に関する固有の問題に脅かされている。ゲノム配列とアノテーションの使用を伴わないトランスクリプトームデノボアッセンブリは、より一層難しく且つ効率が悪く、十分に特徴づけされていない生物に適用されることがほとんどである。
サンプルの転写産物バリアントのより正確な評価(すなわち、同定及び定量)を可能にする方法及び製品を提供することが本発明の目標である。

概要

本発明は、トランスクリプトミクスの分野に関連し、そして、サンプル中の転写産物バリアントの管理された同定及び/又は定量のための方法であって、転写産物バリアントをシミュレートする人工ポリ核酸分子から成る標準セットを提供し、及び転写産物バリアントを含んでいるサンプルに外部対照として前記標準セットを加えることを含む方法を提供する。本発明は、斯かる標準セット、並びに斯かる標準セットを作製する方法を提供する。

目的

サンプルの転写産物バリアントのより正確な評価(すなわち、同定及び定量)を可能にする方法及び製品を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

1若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び/又は定量のための方法であって、以下のステップ:a)各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの異なったNA分子ファミリーを含む、転写産物バリアントをシミュレートする人工核酸(NA)分子の標準セットを提供し、ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子標準転写産物バリアントであり、且つここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ヌクレオチド(nt)の長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80ntの長さの別の配列と異なり、且つここで、前記NA分子の少なくとも2つ、好ましくは各々があらかじめ設定されたモル量で存在し;及びb)転写産物バリアントを含む1若しくは複数のサンプルに外部対照として前記標準セットを加え;及びc1)標準リード割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが1若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成及び割り当てに基づくNAシークエンシングをおこなうこと;又はc2)1若しくは複数のサンプルに対して、NA検出若しくは定量方法、好ましくはマイクロアレイ分析又はqPCRをおこなうこと、ここで、少なくとも1つのプローブが標準セットの少なくとも1つのNA分子に結合し、標準セットの少なくとも1つのNA分子に結合する少なくとも1つのプローブから得られたのシグナルに基づく測定結果が、前記NA検出法又は定量法においてプローブに結合する1若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される、を含む方法。

請求項2

NAシークエンシング方法を評価するか又はNA検出法又は定量法を評価するために方法であって、以下のステップ:a)各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの異なったNA分子ファミリーを含む、転写産物バリアントをシミュレートする人工NA分子の標準セットを提供し、ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、且つここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80ntの長さの別の配列と異なり、且つここで、前記NA分子の少なくとも2つ、好ましくは各々があらかじめ設定されたモル量で存在し;及びb1)NAシークエンシング方法を評価するために、標準リードの割り当てが標準セットのリードを用いて作り出される、リード生成及び割り当てに基づくNAシークエンシングをおこなうか;又はb2)NA検出法又は定量法を評価するために、標準セットに対して前記NA検出法又は定量法をおこない、ここで、少なくとも1つのプローブが標準セットの少なくとも1つのNA分子に結合し;及びc)前記あらかじめ設定したモル量に対して、及び/又はNAシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに/或いはそれらから計算又は予想された比及び/又は出力に対して、任意のステップb)の出力結果、特に、標準セットの少なくとも1つのNA分子の出力モル量、出力濃度、及び/又はNAシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに/或いは標準セットの少なくとも2つのNA分子に関する少なくとも1つのそれらの比を比較すること、を含む方法。

請求項3

前記NAが、RNA又はDNA、特にRNAである、請求項1又は2に記載の方法。

請求項4

転写産物バリアントをシミュレートする人工NA分子、好ましくはRNA又はDNA分子の標準セットを作り出すための方法であって、以下のステップ:A)天然に存在する真核生物の遺伝子、好ましくは動物又は植物遺伝子、より好ましくは脊椎動物の遺伝子、より一層好ましくは哺乳動物遺伝子、特にヒト遺伝子の群から少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの遺伝子を選択し;B)各選択遺伝子あたり少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの天然に存在するmRNA転写産物バリアントを選択し、ここで、各転写産物バリアントは、少なくとも100ntの長さを有し、且つ、少なくとも1つのエクソンを含み;C)少なくとも1つのエクソンを含む前記選択される天然に存在するmRNA転写産物バリアントのそれぞれの配列を提供し、適宜ここで、配列はDNA配列などの別のNA型に変換され;D)ステップC)の各配列を以下のステップによって改変し:ほぼ同じ長さの配列によって各配列の各エクソンの配列を置換し、ここで、ほぼ同じ長さの配列が、以下の群:ウイルス配列バクテリオファージ配列、その逆位配列、その他の逆位天然配列、非天然配列、及びその組み合わせ、から選択され、好ましくはほぼ同じ長さの配列は以下の群:ウイルス配列、バクテリオファージ配列、その逆位配列、非天然配列、及びその組み合わせ、から選択され、より好ましくはほぼ同じ長さの配列は以下の群:ウイルス配列、バクテリオファージ配列、その逆位配列、及びその組み合わせ、から選択され、好ましくはここで、ほぼ同じ長さの配列が、多くても10つ、好ましくは多くても5つ、特に多くても2又は1つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはGTGC、又はATで及び/又は多くても10つ、好ましくは多くても5つ、特に多くても2又は1つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはAG、AC又はATで置換することによって改変され、それによって、1セットの人工転写産物配列を得、但し、同じ選択遺伝子の選択される天然mRNA転写産物バリアントの配列から得られた人工転写産物配列は、好ましくは単一のエクソン配列内に含まれる少なくとも80ntの長さの配列を共有するものとし、及び、好ましくは、但し、ステップC)の配列のエクソン配列がステップC)の配列の別のエクソン配列と同一であるとき、エクソン配列と別のエクソン配列はほぼ同じ長さの同じ前記配列で置換されるものとし;E)適宜、ステップD)のセットの少なくとも1つの人工転写産物を複製し、そして、前記複製した配列をセットに加え、それによって、ステップF)〜J)の1以上における選択的修飾のコピーを含むセットを得;F)適宜、セットの少なくとも1つの人工転写産物配列に少なくとも1つの配列を挿入し、ここで、少なくとも1つの挿入された配列の各々は、ステップD)の任意の人工転写産物配列と同じ長さを有するセンス又はアンチセンス配列と同一であり;G)適宜、セットの人工転写産物配列の少なくとも1つから1nt〜10000ntに及ぶ長さを有する少なくとも1つの配列を取り除き、ここで、1以上の人工転写産物配列の各々が、少なくとも100ntのサイズで残り、且つ、少なくとも1つのエクソン配列を含んだ状態を維持し;H)適宜、5’末端グアノシンになるまで配列の5’末端を切断することによって、第1塩基をグアノシンに変更することによって、又は5’末端にグアノシンを付加することによって、好ましくは5’末端がグアノシンになるまで配列の5’末端を切断することによって又は第1塩基をグアノシンに変更することによって、特に5’末端がグアノシンになるまで配列の5’末端を切断することによって、各人工転写産物配列の第1のヌクレオチドとしてのグアノシンを確立し;I)適宜、人工転写産物配列のセットが、GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的にランダム分布して出現するように、セットの人工転写産物配列の少なくとも1つを修飾し;J)好ましくは、セットの人工転写産物配列の1以上、好ましくはそのすべてに、好ましくは少なくとも10、特に少なくとも20のアデノシンから成るポリテール配列を付加し;K)又は好ましくは、ステップE)〜J)の少なくとも2つの任意の組み合わせ、好ましくはここで、各方法ステップを一度だけおこない;L)セットの各人工転写産物配列について:人工転写産物配列全体を含むNA分子を物理的に合成し;及びM)好ましくは、ステップL)のNA分子がRNA分子であれば、該RNA分子に5’キャップ構造を物理的に付加し、それによって、人工NA分子、好ましくはRNA又はDNA分子の標準セットを物理的に得、そして、転写産物バリアントをシミュレートすること、を含む方法。

請求項5

前記ステップD)〜G)、好ましくはすべてのステップがおこなわれるが、但し、人工NA分子の標準セットは、真核生物の遺伝子について、好ましくは動物又は植物の遺伝子について、より好ましくは脊椎動物の遺伝子について、より一層好ましくは哺乳動物の遺伝子について、そして特にヒトの遺伝子について自然に起こる選択的転写事象をシミュレートするものとし、且つ、前記事象は以下の群:選択的転写産物開始部位TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の:スキップカセットエクソン(CE)、イントロン残存(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランススプライシングの群から選択される選択的スプライシング事象、から好ましくは選択され;及び/又は前記人工NA分子の標準セットが、以下の:選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の:スキップカセットエクソン(CE)、イントロン保持(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象の群から選択される選択的転写事象の少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5、特にそのすべてをシミュレートし;及び/又は、ここで、前記人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がGTであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工NA分子に存在していない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し、及び/又は、ここで、前記人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がATであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工NA分子に存在しない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し;及び/又は、ここで、前記人工NA分子の標準セットが、500nt〜2000nt、好ましくは750nt〜1500nt、特に1000nt〜1400ntの平均である配列長有し;好ましくは、300nt〜1200nt、好ましくは600nt〜900nt、特に700nt〜800ntの標準偏差を有し;少なくとも100ntの最小サイズを有し;そして、好ましくは10000ntの最大サイズを有し;及び/又は、ここで、前記標準セットの人工NA分子が、25%〜55%の平均GC含量を有し;前記人工NA分子の標準セットには、GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的にランダムに分布して出現し;及び/又は、ここで、前記標準セットの各人工NA分子は、5’開始ヌクレオチドとしてグアノシンを有し;及び/又は、ここで、前記標準セットの人工NA分子の少なくとも1つ、好ましくはその各々は、それがRNA分子であれば、5’キャップ構造を有し、及び/又は少なくとも10個、好ましくは少なくとも20個のアデノシンから成るポリAテールを有する、請求項4に記載の方法。

請求項6

人工NA分子の標準セットを提供することを更に含み、ここで、該標準セットのNA分子のうちの少なくとも2つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在し;且つ、好ましくは、ここで、少なくとも2つのNA分子の各モル量が、少なくとも2桁、好ましくは少なくとも3桁、より好ましくは少なくとも5桁、特に少なくとも6桁異なり、特にここで、少なくとも2つのNA分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は0.01アトモル/μl〜100フェムトモル/μl又は100ゼプトモル/μl〜1フェムトモル/μlの範囲に及ぶ、請求項4又は5に記載の方法。

請求項7

前記人工NA分子の標準セットの配列が、10−1未満、好ましくは1未満、特に10未満の統計的有意性閾値期待値)で、NCBIGenBankデータベース受入番号が表3で列挙されている配列に対して類似性を有しない、好ましくは表3及び表4のいずれか一方、特に好ましくは、2014年6月15日のNCBI GenBankデータベースリリース202のすべての配列に対して類似性を有さず、ここで、前記類似性が以下のパラメーター:低複雑性領域フィルタリングを伴った、28のワードサイズ、1、−2の直鎖ギャップコスト及びマッチミスマッチスコア、を用いてBLASTプログラムによって測定される、請求項4〜6のいずれか1項に記載の方法。

請求項8

請求項4〜7のいずれか1項に記載の方法によって得ることができる、転写産物バリアントをシミュレートする人工NA分子の標準セット。

請求項9

転写産物バリアント、好ましくはRNA分子又はDNA分子、特にRNA分子をシミュレートする人工NA分子の標準セットであって、A)以下の:各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つのNA分子のファミリーを含み、ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、及びここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が、少なくとも80ntの長さの少なくとも別の配列と異なり;そしてB)ここで、標準セットが:−以下の:選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、及び以下の:スキップカセットエクソン(CE)、イントロン残存(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象、の群から選択される少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5つ、特にそのすべての選択的転写事象をシミュレートし;及び/又は−500nt〜2000nt、好ましくは750nt〜1500nt、特に1000nt〜1400ntの平均である配列長有し;好ましくは、300nt〜1200nt、好ましくは600nt〜900nt、特に700nt〜800ntの標準偏差を有し;少なくとも100ntの最小サイズを有し;そして、好ましくは10000ntの最大サイズを有し;及び/又は−25%〜55%の平均GC含量を有し;及び/又は−GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的にランダムに分布して出現し;及び/又はここで、標準セットの各人工NA分子が、5’開始ヌクレオチドとしてグアノシンを有し;及び/又はここで、人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がGTであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工NA分子に存在していない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し;及び/又はここで、人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がATであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工NA分子に存在しない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し;及び/又はここで、標準セットの人工NA分子の少なくとも1つ、好ましくはその各々は、それがRNA分子であれば、5’キャップ構造を有し、及び/又は少なくとも10、好ましくは少なくとも20個のアデノシンから成るポリ(A)テールを有し;そしてC)ここで、前記標準セットの配列が、10−1未満、好ましくは1未満、特に10未満の統計的有意性の閾値(期待値)で、NCBIGenBankデータベース受入番号が表3で列挙されている配列に対して類似性を有しない、好ましくは表3及び表4のいずれか一方、特に好ましくは2014年6月15日のNCBI GenBankデータベースリリース202のすべての配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター:低複雑性領域フィルタリングを伴った、28のワードサイズ、1、−2の直鎖ギャップコスト及びマッチ/ミスマッチスコア、を用いてBLASTnプログラムによって測定される、標準セット。

請求項10

以下の:A)配列番号1〜148の群から選択される配列全体に対して少なくとも80%、好ましくは少なくとも90%、より好ましくは少なくとも95%、より一層好ましくは少なくとも98%、特に100%同一の配列;又はB)配列番号156〜334の群から選択される配列全体に対して少なくとも80%、好ましくは少なくとも90%、より好ましくは少なくとも95%、より一層好ましくは少なくとも98%、特に100%同一の配列を有する少なくとも1つのエクソンを有する配列、を含むNA分子、好ましくはDNA分子又はRNA分子。

請求項11

少なくとも80個、好ましくは少なくとも150個の連続したヌクレオチドから成る配列を含み、その配列が、配列番号1〜148から選択される配列の、80ntの最小サイズを有する配列断片に対して少なくとも80%、好ましくは少なくとも90%、より好ましくは少なくとも95%、より一層好ましくはへの少なくとも98%である、NA分子、好ましくはDNA分子又はRNA分子。

請求項12

各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの、請求項10又は11に記載の異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つのNA分子ファミリーを含み、ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、且つここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80ntの長さの別の配列と異なる、転写産物バリアントをシミュレートする人工NA分子の標準セット。

請求項13

前記標準セットが:−以下の:選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、及び以下の:スキップカセットエクソン(CE)、イントロン残存(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象、の群から選択される少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5つ、特にそのすべての選択的転写事象をシミュレートし;及び/又は−500nt〜2000nt、好ましくは750nt〜1500nt、特に1000nt〜1400ntの平均である配列長有し;好ましくは、300nt〜1200nt、好ましくは600nt〜900nt、特に700nt〜800ntの標準偏差を有し;少なくとも100ntの最小サイズを有し;そして、好ましくは10000ntの最大サイズを有し;及び/又は−25%〜55%の平均GC含量を有し;及び/又は−GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的に均一に分布して出現し;及び/又はここで、標準セットの各人工NA分子が、5’開始ヌクレオチドとしてグアノシンを有し;及び/又はここで、人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がGTであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工NA分子に存在していない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し;及び/又はここで、人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がATであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工NA分子に存在しない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し;及び/又はここで、標準セットの人工NA分子の少なくとも1つ、好ましくはその各々は、それがRNA分子であれば、5’キャップ構造を有し、及び/又は少なくとも10、好ましくは少なくとも20個のアデノシンから成るポリ(A)テールを有し;そして好ましくは、ここで、前記標準セットの配列が、10−1未満、好ましくは1未満、特に10未満の統計的有意性の閾値(期待値)で、NCBIGenBankデータベース受入番号が表3で列挙されている配列に対して類似性を有しない、好ましくは表3及び表4のいずれか一方、特に好ましくは2014年6月15日のNCBI GenBankデータベースリリース202のすべての配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター:低複雑性領域フィルタリングを伴った、28のワードサイズ、1、−2の直鎖ギャップコスト及びマッチ/ミスマッチスコア、を用いてBLASTnプログラムによって測定される、請求項12に記載の標準セット。

請求項14

前記標準セットのNA分子のうちの少なくとも2つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在し;且つ、好ましくは、ここで、少なくとも2つのNA分子の各モル量が、少なくとも2桁、好ましくは少なくとも3桁、より好ましくは少なくとも5桁、特に少なくとも6桁異なり、特にここで、少なくとも2つのNA分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は0.01アトモル/μl〜100フェムトモル/μl又は100ゼプトモル/μl〜1フェムトモル/μlの範囲に及ぶ、請求項9、12又は13のいずれか1項に記載のセット。

請求項15

前記標準セットが、請求項8、9、12又は13、好ましくは請求項12又は13、特に請求項13に記載の標準セットであって、且つ、前記NA分子のうちの少なくとも2つ、好ましくはそれぞれがあらかじめ設定したモル量で存在する、請求項1〜3のいずれか1項に記載の方法。

請求項16

前記人工NA分子の標準セットが、安定化剤一緒に、コンテナ内に乾燥状況で、好ましくは凍結乾燥状態で提供される、請求項1〜3のいずれか1項に記載の方法。

請求項17

1若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び/又は定量のための方法が実施され、ここで、ステップb)が、コンテナにサンプルを加えることによって実施され、それによって、該サンプル中に乾燥状態の標準セットが溶解する、請求項16に記載の方法。

請求項18

物理的に得られた標準セットを乾燥させるステップ、好ましくは凍結乾燥させるステップ、好ましくはコンテナ内で乾燥させるステップ、好ましくは安定化剤と一緒に乾燥させるステップを更に含む、請求項4〜7のいずれか1項に記載の方法。

請求項19

前記人工NA分子の標準セットを、安定化剤と一緒に、コンテナ内に、乾燥させて、好ましくは凍結乾燥させて提供する、請求項8、9、又は12〜14のいずれか1項に記載の方法。

技術分野

0001

発明の分野
本発明はトランスクリプトミクス、特にトランスクリプトーム全体のショットガンシークエンシング(「RNA−seq」)の分野に関する。より詳しく述べると、それはRNA−seq、マイクロアレイ分析又は定量的PCR(qPCR)によって分析されたサンプル中のRNA転写産物バリアントの同定及び定量に好適な方法及び製品に関する。

背景技術

0002

背景
次世代シークエンシング技術は、核酸サンプル配列決定するときに大量のショートリードを作り出す。次世代シークエンシングに不可欠なステップは、ライブラリ調製(又は略してlibrary prep)である。このプロセスは、入力としてmRNA又はcDNAを取り、各々がmRNA分子区分に対応する短いcDNA断片のライブラリを作り出す。これらの断片は、次にNGSシーケンサーによって、通常はそれらの全体ではなくそれらの開始及び/又はそれらの終結部において部分的に配列決定される。これは、ヌクレオチドの短い配列を生じ、この短い配列は、リードと称され、遺伝コード核酸塩基を表すA、C、G、T又は0、1、2、3のような4つのASCII文字一群の配列として、最も一般にはNGSシーケンサーによって記憶される。元のサンプル中にどのmRNA分子が存在したかを推測するために、リードを標準ゲノム又はトランスクリプトーム上へマッピング又は重ね合わせるか、或いは配列オーバラップに基づいて新規アセンブリされる。

0003

次世代シークエンシングは、様々なゲノム・マッピング手順(US2013/110410A1)又は例えば、配列リードをある生物バリアントへ関連付けるためにマッピングされたゲノムを用いることによるDNA同定方法(WO2009/085412A1)において利用されてきた。

0004

WO2009/091798A1は、生物のトランスクリプトームのプロファイルを得るための方法を記載し、この方法は、シークエンシングリードを得るために1若しくは複数のcDNA分子を配列決定するステップと、各シークエンシングリードを標準配列と重ね合わせるステップとを備える。

0005

しかしながら、短い配列リードを用いたトランスクリプトーム解析の根底にある主要な問題は、以下の段落に記載のように転写産物バリアントの場合における重ね合わせステップである。通常、短い配列リードを1つの転写産物バリアントへ正しく重ね合わせることは困難である。
EP2 333 104A1は、潜在的に多様なRNA分子プール由来する核酸分子断片配列順序づけるRNA分析方法に関する。遺伝子は、1つの転写産物バリアントで発現されるだけではなく、それらのエクソンイントロン組成及び転写の開始(TSS)や終結部位(TES)におけるバリエーションを有する多くの転写産物アイソフォームで所定のゲノム領域(例えば、Nilsen and Graveley, 2010; Wang et al., 2009; Koscielny et al., 2009を参照のこと)から転写された。転写産物アイソフォームはまた、それらの存在量が最大6桁異なるので、更に複雑性のレベルを高めている(Aird et al., 2013)。Zhangらは総合的な選択的スプライシングデータベースに関する。

0006

RNA−Seqによってその複雑性の中でトランスクリプトームを分析することは、アノテーション付き標準ゲノムに対してショートリードを重ね合わせ、そして、コンティグ適用範囲や有効なエクソン−エクソンジャンクションなどの独特の特徴から転写産物の類推及び仮説を得ることを必要とする(例えば、Wang et al., 2009を参照のこと)。これらのアルゴリズムは正確であるには程遠く、不十分な且つ異なってキュレートされたアノテーション、並びに同様の特徴を共有し且つ同じ水準で発現される転写産物バリアントの判別に関する固有の問題に脅かされている。ゲノム配列とアノテーションの使用を伴わないトランスクリプトームデノボアッセンブリは、より一層難しく且つ効率が悪く、十分に特徴づけされていない生物に適用されることがほとんどである。
サンプルの転写産物バリアントのより正確な評価(すなわち、同定及び定量)を可能にする方法及び製品を提供することが本発明の目標である。

0007

発明の概要
本発明は、1若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び/又は定量のための方法であって、以下のステップ:
a)各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの異なったNA分子ファミリーを含む、転写産物バリアントをシミュレートする人工核酸(NA)分子の標準セットを提供し、

0008

ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ヌクレオチド(nt)、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300ntの長さの別の配列と異なり、且つ
ここで、前記NA分子の少なくとも2つ、好ましくは各々があらかじめ設定されたモル量で存在し;及び
b)転写産物バリアントを含む1若しくは複数のサンプルに外部対照として前記標準セットを加え;及び
c1)標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが1若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成及び割り当てに基づくNAシークエンシングをおこなうこと;又は
c2)1若しくは複数のサンプルに対して、NA検出若しくは定量方法、好ましくはマイクロアレイ分析又はqPCRをおこなうこと、

0009

ここで、少なくとも1つのプローブが標準セットの少なくとも1つのNA分子に結合し、標準セットの少なくとも1つのNA分子に結合する少なくとも1つのプローブから得られたシグナルに基づく測定結果が、前記NA検出法又は定量法においてプローブに結合する1若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される、
を含む方法を提供する。
本発明は、上記の方法で使用されるのに非常に適している人工NA分子の標準セット、並びに斯かる標準セットを作り出す方法、並びに斯かる標準セットに含まれるのに好適なNA分子を更に提供する。

0010

以下の詳細な説明及び好ましい実施形態は、本発明のすべての態様に適用され、明示的に示された場合を除いて、制限なしに互いに組み合わせることができる。好ましい実施形態及び態様は、特許請求の範囲において更に定義される。

0011

本発明を以下の図面及び実施例によってさらに説明するが、本発明のこれらの実施形態に限定されることはなく、各要素を本発明の任意の他の実施形態と組み合わせることができる。

図面の簡単な説明

0012

IRV設計原理図式概観
DNA合成後の選択したSIRVのプラスミド線形化の代表的な結果。SIRVが正しいサイズを有していたので、T7ポリメラーゼによるRNA転写に使用できる。
選択したSIRV及び条件でのT7ポリメラーゼによる転写の収量の代表的な結果。転写は、選択した条件の大部分で成功した。o/nは、一晩である。
KLK5とSIRV1ファミリーとの重ね合わせ。例示はSIRV1と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV1−100がマスター転写産物であることに注意する。SIRV1−101〜105は(KLK5転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV1−106〜109は人工転写産物であり、それによって、後者の3つがオーバーラップしている(アンチセンス)転写産物である。MT=マスター転写産物である。
LDHDとSIRV2ファミリーとの重ね合わせ。例示はSIRV2と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV2−100がマスター転写産物であることに注意する。SIRV2−201〜204は(LDHD転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV2−205及び206は人工モノエクソンアンチセンスである。MT=マスター転写産物である。
LGALS17AとSIRV3ファミリーとの重ね合わせ。例示はSIRV3と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV3−100がマスター転写産物であることに注意する。SIRV3−301〜306は(LGALS17A転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV3−307〜311は人工転写産物であり、それによって、後者のものがモノエクソンアンチセンス転写産物である。転写産物SIRV3−308〜310はオーバーラップしているアンチセンス転写産物である。MT=マスター転写産物である。
APK3とSIRV4ファミリーとの重ね合わせ。例示はSIRV4と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV4−100がマスター転写産物であることに注意する。SIRV4−401〜407は(DAPK3転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV4−408〜410は人工転写産物であり、それによって、後者の2つがオーバーラップしているアンチセンス転写産物である。MT=マスター転写産物である。
HAUS5とSIRV5ファミリーとの重ね合わせ。例示はSIRV5と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV5−100がマスター転写産物であることに注意する。SIRV5−501〜510は(HAUS5 HAUS転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV5−511及び512は人工転写産物であり、それによって、後者のものがモノエクソンアンチセンス転写産物である。MT=マスター転写産物である。
SF2とSIRV6ファミリーとの重ね合わせ。例示はSIRV6と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV6−100がマスター転写産物であることに注意する。SIRV6−601〜615は(USF2転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV6−616〜618は人工転写産物であり、それによって、後者の2つがモノエクソンアンチセンス転写産物である。MT=マスター転写産物である。
TESK2とSIRV7ファミリーとの重ね合わせ。例示はSIRV7と対応する標準遺伝子との転写産物重ね合わせを示す。SIRV7−100がマスター転写産物であることに注意する。SIRV7−701〜707は(TESK2転写産物に対する類似性の点で)基準転写産物である。転写産物SIRV7−708は人工転写産物である。MT=マスター転写産物である。
SIRVのレイアウト。すべてのSIRVカセットが、XhoI制限部位から始まり、それにT7プロモーターグアノシン、及びSIRVmRNA本体が続く。どのSIRVも、3’末端に30個のアデノシンから成るポリ(A)テール、並びにランオフ転写を可能にするためのNsiI制限部位を有する。
FPKM相関プロット。サンプル1及びサンプル2のFPKM値が互いに対してプロットされている。
人工遺伝子SIRV1の適用範囲を示すゲノムブラウザスクリーンショット。SIRV1標識転写産物を有するすべてが所定のアノテーションに対応している。CufflinksはCuff.8及び.9と呼ばれる5つの転写産物バリアントを更に誘導し、そしてそれはエラーを導入した。
Mix E0、E1、及びE2を得るためのSIRV混合スキーム。A).8つのPreMixには、SIRVがBioanalyzerトレースにより明確に同定できるように長さが異なる6〜11個のSIRVが入っている。2つのPreMixの各々が、等しい割合で組み合わせられて、合計で4つのSubMixをもたらした。これらを規定した比で順番に組み合わせて、最終的なMix E0、E1、及びE2を得た。評価されたトレースは赤で示され、そして、SubMix及び最終的なMixをバリデートするためにPreMixトレースから計算されたトレースは、青で示す。
対照を含むRNA。SIRV Mixはまた、すぐに試験できる標準RNAサンプルRC−0、RC−1、及びRC−2として利用可能である。第1サンプル、Universal Human Reference RNA(UHRR、10種類のプール癌細胞株由来、Agilent Technologies, Inc.)はERCC ExFold Mix1でスパイクされた。第2サンプル、Human Brain Reference RNA(HBRR、23人のドナーの複数の脳領域由来、Life Technologies, Inc.,)はERCC ExFold Mix2でスパイクされ、そして第3サンプルに関しては、両方を2:1の比で組み合わせた。次に、3つのサンプルがSIRV Mix E0、E1、及びE2でスパイクされて、全RNAの2%のmRNA含有量と比較した相対測定値として概算されている図面中に示されているような質量比を得た。
A).E1の入ったサンプルRC−1及びE2の入ったRC−2における、正しいアノテーションSIRV_Cに対するSIRV NGSリードの割り当て、並びにB).E2とE1との間の示差的出現比の結果としてのSIRVの入出力相関。個々のデータポイントは小さい灰色の印によって示され、そして平均値は大きい黒色の印によって強調した。各線は標準偏差を示す。灰色の直線は対角線強調表示する。

0013

発明の詳細な開示
真核細胞からのほとんどすべての転写産物サンプルに適用する)転写産物バリアントを含むサンプルの質的計量の違いを決定すること及びそうした複雑な転写産物サンプルを分析することを試みる方法には、内部標準外部標準、相対標準、及び、絶対標準が不可欠である。定量的データ相対的関係又は絶対的関係のいずれかで表される。それぞれ異なった方法(例えば、マイクロアレイ、qPCR又はNGS)には、測定結果を標準化するのにデータ分析における多くの特殊性がある。
マイクロアレイ及びqPCRによる相対定量に関して、RNAレベルは内部対照又は外部対照を使用することによりサンプル間で比較して、サンプル濃度添加量の違いを標準化する。NGS実験は、リード数と同定された転写産物の長さに対して異なった標準化手順を用いる。結果は、遺伝子アノテーションの特質及び状態、又は重ね合わせ及びアッセンブリアルゴリズムを用いたライブラリ調製とシークエンシングの偏りの間の取り決めのような多くの変数に依存する。例えば、対照は、ライブラリー調製効率の違いを補完する必要がある。

0014

対照は、サンプル集合にわたって一定のレベルで発現される遺伝子(内部標準)又はスパイク−インされたRNA(外部標準)である。定量のために、実験的な遺伝子、エクソン、又はタグの発現レベルを表すシグナル強度蛍光ユニット又はリード数)は、既知の数又は比が含まれる標準に関係づけられ、絶対標準又は相対標準と定義される。
US2004/009512A1は、内部標準プローブを使用することでmRNAスプライス産物を分析する方法を開示する(文献の請求項7、段落[0097]及び[0106])。本発明が関連する分子の長さを有するバリアントに相当する内部標準の開示はない。
多くの混成RNA標準サンプル、例えば、普遍的なヒト標準RNAや普遍的なヒト脳標準RNA(Ambion, Life Technologies)が市販されている。それらの標準は、複数のドナー及びいくつかの組織/脳領域からプールされており、そのため、遺伝子発現幅広不偏性及び再現性の適用範囲を目指している。斯かる標準サンプルの実験は、標準データを提供し、且つ、実験法をバリデート及び評価するのに使用される。互いに、そして前記標準サンプルに対して未知サンプル測定値連動させるために、内部又は外部標準が必要である。

0015

内部RNA標準は、分析されるサンプルのすべてにわたって相対的一定なレベルで発現される遺伝子である。内部標準は、生物の異なった組織の間で、すべての生育ステージにおいて、及び対照と実験的に処理された細胞型との両方で等しく発現されなければならないので、「ハウスキーピング」遺伝子と呼ばれることも多い。残念ながら、これらの状況のすべてにおいて一定な発現レベルを有する単独のRNAは存在しないが、18SrRNA実験条件の最も広範囲にわたって理想的な内部標準であると思われる。しかしながら、rRNAの相対高い存在量は、空のシークエンシングスペースに対してrRNAを特異的に枯渇させるライブラリ作成法につながる。
そのため、特定の実験事項のために、適当な対照RNAを同定することが必要となり、そしてそれは、たぶんmRNAである。次に、これは標準の適合性に対するmRNAアイソフォームの効果の考慮事項を必要とする。いくつかの内部標準は見つけられるが(β−アクチングリセルアルデヒド−3−リン酸脱水素酵素(GAPDH)、又はシクロフィリンmRNA)、外部標準だけが管理され信頼できる標準値を提供する。他の種のRNAサンプルからの定常的な供給源は、例えば、哺乳類サンプルに加えられるバクテリアのトランスクリプトームが外部標準として使用される場合がある。
しかしながら、原核生物のような単純な生物でさえ、そうした多数の転写産物を既に有しているので、動態(濃度)範囲全体にわたる均整の取れた表示には非常に多くのシークエンシングスペースを浪費するであろう。そのため、低い複雑性にもかかわらず、共通点のある動態範囲の外部標準、ERCCが以前に開発された。

0016

米国標準技術局(NIST、USA)によって主導され、37の研究所から成るERCCコンソーシアムは、合成DNA配列又はバチルスズブチリス(Bacillus subtilis)若しくは深海通気微生物メタカルドコカス・ヤンナスキイ(Methanocaldococcus jannaschii)ゲノム由来のDNAのインビトロ転写による対照RNAを共に合成した。これらの転写産物は、モノエクソンであり且つアイソフォームを持たないことを意図している、すなわち、それらはスプライス又は他の転写産物バリアントを表すことはない。コンソーシアムは、19〜25個のアデニン(23個のアデノシンが中央値)のポリ(A)テール長、250〜2000ntの長さ、及び〜30〜55%のGC含量と決定した。これらのさまざまの配列は、GC含量や長さの多様性などの内在性転写産物の少なくともいくつかの特性を示す。ERCC RNAは、配列決定された真核生物からの内在性転写産物と最小限の配列相同性を示す(External RNA Controls Consortium, 2005a)。ERCCミックス開発は、スペシャルリポート(External RNA Controls Consortium, 2005)に記録されている。
Blomquistらは、NGSによるDNA配列決定について述べ、合成内部標準を用いる方法を使用する(文献の要約及び図1)。RNAプロセシング中、ERCCスパイク−イン対照内部標準が使用されている(文献の4頁、左欄)。DevonshireらもERCCについて述べている。
Ambion(Life Technologiesの一部)は、(6桁わたる濃度の)スタンドアロンミックス又は別個の遺伝子発現について比較される必要がある2つのサンプルにスパイク−インされるように設計された2つのミックス(倍量変化判定の精度計測;使用者ガイド:ERCC RNA Spike-In Control Mixes, Ambion)で92のERCC転写産物を商業的に提供している。

0017

初めはqPCR及びマイクロアレイシステムで使用されるために発想されたが、それらは現在、RNA−Seq NGS実験で広く用いられている。この異なった意図的目的が、現在のERCC使用を疑わしくしている。
ERCCの制限は、それらがi)それらのサイズ範囲が限られていること、ii)短いポリ(A)テールしか含んでいないこと、及びiii)キャップ構造を含んでいないことである。しかしながら、ERCCの主たる難点は、それらがどんな種類の転写産物バリアントも含まないということである。そのため、それらは、転写産物バリアントの管理された同定及び/又は定量に好適ではなく、並びにこの点に関してシークエンシング方法(又は他の解析法)の評価に好適でない。別の不都合は、それらが既知の配列(バチルス及びメタノコッカス)に類似性を有する点である。

0018

Sunらは、選択的にスプラインシングされた転写産物の定量について述べている。ヒトテロメラーゼ逆転写酵素スプライスバリアントが対照として使用されている。約20種のスプライスバリアントが知られていて、そのうちの4種が腫瘍において一般的である(文献の319頁、中欄)。一般的な4種が文献中で調査された(文献の320頁中欄及び図1;321頁左欄;表1)。しかしながら、文献では、人工転写産物バリアントについて述べておらず、文献の対照は単一のヒト遺伝子に限られていて、天然の配列に頼る必要なしに選択的スプライシング事象の代表的で正確なシミュレーションを可能にする本発明と異なっていた(天然の配列への依存が実際には実験を妨げる可能性がある)。
本発明は、特にこれらの不都合を克服する。本発明に際して、転写産物バリアントの同定及び定量に関する該問題を解決するのに特別に好適な方法及び産物を思いつくように、多くの異なった方法及び標準セットが開発及び特徴づけされた。

0019

そのため、本発明の態様では、1若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び/又は定量のための方法であって、以下のステップ:
a)各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの異なったNA分子ファミリーを含む、転写産物バリアントをシミュレートする人工核酸(NA)分子の標準セットを提供し、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ヌクレオチド(nt)、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300ntの長さの別の配列と異なり、且つ
ここで、前記NA分子の少なくとも2つ、好ましくは各々が(例えば、標準(すなわち、対照)リードの割り当てに対してサンプルリードの割り当ての標準化を可能にするとき、標準セットを該方法にとって特に好適にする)あらかじめ設定されたモル量で存在し;及び

0020

b)転写産物バリアントを含む1若しくは複数のサンプルに外部対照として前記標準セットを加え(該標準セットは分析のための(単数若しくは複数の)同じサンプルコンテナ及び/又は別々のコンテナ内に物理的に加えられる。加えて又は或いは、それはコンピューター実装された方法ステップに:同じ分析装置、分析装置の同じモデル又は他の分析装置モデルから、標準セットの測定前に使用することによって、非物理的に加えられてもよい);及び
c1)標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが1若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成(リードはどんな長さも有していてもよい)及び割り当て(すなわち、標準配列上へのリードのマッピング)に基づくNAシークエンシングをおこなうこと;又は
c2)1若しくは複数のサンプルに対して、NA検出若しくは定量方法、好ましくはマイクロアレイ分析又はqPCRをおこなうこと、

0021

ここで、少なくとも1つのプローブが標準セットの少なくとも1つのNA分子に結合し、標準セットの少なくとも1つのNA分子に結合する少なくとも1つのプローブから得られたシグナルに基づく測定結果が、前記NA検出法又は定量法においてプローブに結合する1若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される、
を含む方法を提供する。qPCRでは、プローブは、PCR反応伸長されるプライマーであっても、又は標識されたDNAプローブであってもよい;マイクロアレイ分析では、プローブは、DNAチップ上に固定されたDNAプローブであってもよい。

0022

NAは、DNAであっても又はRNAであってもよい。好ましくは、それはRNAである。当業者が標準セットを適用する場合に、DNAを選ぶか又はRNAを選ぶかは自由である。当業者はまた、NAシークエンシング、NA検出法又は定量法のためにサンプルを準備する方法を知っている。有益なことには、標準セットは、該標準セットがすべて又はほとんどのサンプル調製ステップ中に存在するように、NAシークエンシング、NA検出法又は定量法を適用する前のサンプル調製中の初期に加えられる。このために、転写産物バリアント(着目の分子)が通常mRNA分子である場合には、サンプル調製中の初期に、それがRNAとして加えられるのが好ましい。

0023

「人工NA分子」、「人工遺伝子」又は「人工配列」の中での「人工」という用語は、文中で使用される場合、天然の生物有機体(微生物、動物又は植物など)に生じることはないが、ヒトによって故意に考え出される及び作り出される人工的と呼ばれる実体を意味する。しかしながら、人工NA分子又は人工遺伝子などの人工実体は、その人工的であることの特質を失わずに、遺伝子組み換え生物により産生されることさえできる(例えば、天然のE.コリ(E.coli)細胞に導入され、そして、発現される)。
人工NA分子は、特にそれらが既知のNA配列に対して配列相同性がないか又はわずかしか有していないとき、本発明の方法に非常によく適合する。これは、次世代シークエンシングに典型的な短配列(例えば、40〜80nt又は20〜200ntであっても)についてでさえ「標準リード」としてリードの明白な割り当てを可能にする(すなわち、標準リードの割り当てを作り出す)。

0024

一般に、転写産物は、転写開始部位から転写終結部位に至るRNA配列から成る(例えば、DNA鋳型からの)1つの遺伝子からの(例えば、RNAポリメラーゼによって合成された)転写産物である。本発明の目的のために、転写産物は、少なくとも1つのエクソンを含むNA分子である。転写産物という単語は、単一分子又は同一配列を有するすべての分子の群のいずれかを説明する。周知であるとおり、真核生物では、mRNA(転写産物)は、プレ−mRNA(ヘテロリボ核酸とも呼ばれる)から加工されて(特にスプライシングによって)成熟転写産物をもたらす。定義上、転写産物からスプラインシングで外された配列領域はイントロンと呼ばれ、成熟転写産物で維持されている配列領域はエクソンと呼ばれる。ある成熟転写産物バリアントのエクソンは、(前記バリアント中に存在しないことによって)別の成熟転写産物バリアントのイントロンであってもよい。すべての転写産物バリアントの配列が既知であるとき、エクソン及びイントロンとして遺伝子配列領域にどのようにアノテーションするか当業者には明らかである。本明細書中に使用される場合、エクソンはいずれかのバリアントのエクソンになり得る配列領域である。通常、それは、むしろ保存配列よりも、組み込まれたイントロン領域の両端によって特徴づけられ、そして、隣接しているエクソンによるいわゆるエクソン−エクソンジャンクションを形成している、表2も参照のこと。天然のエクソンはコード領域の一部であるが(逆もまた同様である)、しかしながら、本発明の人工NA分子の場合には、エクソンが、本発明の人工配列が現実に存在する生物に存在する既知の転写産物に対する類似性を欠くように設計され、開始及び停止コドンを有するリーディングフレーム又は開始コドンを有するオープンリーディングフレーム(ORF)を含まないため、人工タンパク質又は天然タンパク質の一部のコード領域でないことが好ましい(逆もまた同様である)。本発明の人工NA分子に含まれたエクソンは、人工配列を含むので人工エクソンである。「転写産物」という単語は、別段の記述がない限り、「成熟転写産物」を意味すると本明細書中で解釈されるものとする。

0025

最も幅広い用語では、転写産物「バリアント」は遺伝子の転写産物であり、ここで、前記遺伝子の少なくとも2つの転写産物が存在し、ここで、転写産物は少なくとも2つの転写産物のうちの別のものと(「選択的転写事象」によって作り出される)少なくとも1つのヌクレオチドが異なる。しかしながら、本方法との関連において、各(転写産物)ファミリーの人工NA分子は、各ファミリーで独立に、少なくとも80ヌクレオチド(好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200nt)の長さの配列を共有し、且つ、各ファミリーで独立に、各ファミリーの少なくとも2つのNA分子が、少なくとも80ヌクレオチド(好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300nt)の長さの少なくとも別の配列と異なる。ファミリーの他のメンバーは、1つのヌクレオチドだけで更なるメンバーと異なってもよいが、バリアント間のより大きい違いが好ましい−例えば、ファミリーのすべてのメンバー間ちょうど80nt、100nt、150nt又は200ntの範囲に至るまでの配列同一性

0026

本明細書中では、(人工遺伝子の)「転写産物バリアントをシミュレートすること」は、天然に存在する真核生物(好ましくは動物又は植物、より好ましくは脊椎動物、そして、より一層好ましくは哺乳類、特にヒト)の遺伝子の天然に存在する真核生物(好ましくは動物又は植物、より好ましくは脊椎動物、そして、より一層好ましくは哺乳類、特にヒト)の転写産物を表す特徴を有することを意味する。当業者は、転写産物バリアントのこれらの典型的な特徴に詳しい。これらの特徴は、以下の:1若しくは複数の選択的スプラインシング事象の結果であり(以下及び表1を参照のこと)、特定のイントロンスプライシング部位ジヌクレオチドを有し(以下及び表2を参照のこと)、選択的転写産物開始及び終結部位を有し(以下を参照のこと)、アンチセンス転写産物であり、他の遺伝子/転写産物とオーバーラップし、ポリアデニル化される(Wang et al., 2008も参照のこと)のうちの1以上を含む。更に又は或いは、Wang et al., 2008、特に図2に定義された特徴を使用できる。有益なことには、標準セットのNA(RNA又はDNA)分子は、別個の例の少なくとも1つ、少なくとも2つ、少なくとも3つ又は少なくとも4つにおいて、各NA分子が、互いに独立に、先の文の1、2、3、4、5、又は6つを有しながら、先の2つの文中で列挙された特徴の少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも4つ、特に少なくとも5つを有する。本発明のNA分子に関して、転写産物バリアントをシミュレートするために、RNA分子であることが必要ではない。転写産物バリアントのシミュレーションもDNA又は他のNA分子で可能である。

0027

本発明の目的のために、当業者は(コンピューターにより概念的に、配列を並び替えることによって)人工遺伝子を含む人工ゲノムを作製し得る。この人工ゲノムの配列もまた、リードの割り当てに使用されてもよい。人工遺伝子は、プロモーターや、転写開始部位や、転写領域及び(ターミネーターとも呼ばれる)転写終結部位などの天然に存在する遺伝子から知られている特徴を有する。本発明が(人工遺伝子又は前記人工遺伝子自体から対応するタンパク質の物理的な合成でなく)人工遺伝子の転写産物バリアントのシミュレートに関係するとき、プロモーター領域は本発明の目的に無関係である。同じ人工遺伝子の標準転写産物バリアントである人工NA分子(すなわち、人工NA分子ファミリーのメンバー)は、同じ天然に存在する遺伝子の天然に存在する転写産物が互いに及び前記天然に存在する遺伝子に関連するのと同じように、(サイズなどのパラメーター、及び配列により)互いに及び前記人工遺伝子に関連する。それらの共通点は、転写産物バリアントが同じ仮説遺伝子から転写されるそれらの間でエクソン(又はその一部)を共有する点であり得る。本発明の目的のために、人工遺伝子とは、人工NA分子を定義する単なる概念であるので、定義されることが必ずしも必要でないことは人工NA分子の定義に必須でないのと同じである(例えば、先に言及されるとおり、遺伝子のプロモーター領域が定義される必要がない)ことは、当業者にとって明らかである。

0028

有益なことには、転写産物バリアントをシミュレートする人工ポリ核酸NA(RNA又はDNA)分子の標準セットは、少なくとも1つ、少なくとも2つ、少なくとも3つ又は少なくとも4つの別個の例において、標準セット中に存在する典型的な転写産物特徴の少なくとも1つと、好ましくは少なくとも2つ、少なくとも3つ、特に少なくとも4つ、特に、そのすべてで、真核生物(好ましくは動物又は植物、より好ましくは脊椎動物、より一層好ましくは哺乳類、特にヒト)のトランスクリプトームにおける(例えば、以下の段落で特定されるような)典型的な転写産物の対応する平均頻度と同様の先の段落で述べた典型的な転写産物特徴の頻度(少なくとも+/−50%、好ましくは少なくとも25%、特に少なくとも+/−10%)を有する。

0029

選択的スプライシング事象(AS):
選択的スプライシングという用語は、一次転写産物(プレ−mRNA)が2つ以上パターンでスプラインシングされて複数の、異なった成熟mRNAを作り出し得るいずれかの場合を説明するために生物学において使用される。選択的スプライシング事象の最も一般的なタイプが表1に示されている。ヒトでは、エクソンスキッピングが33%で、分かっているものの中で最も一般的なスプライシング事象である。選択的5’及び3’スプライシング部位が各々25%で続く。また、選択的スプライシング部位一緒に起こることが多い(Barbazuk et al., 2008; Roy et al., 2013)。脳組織睾丸の組織は、多数のAS事象を起こすことがわかった(Roy et al., 2013)。有益なことには、標準セットのNA分子全体は、少なくとも1つ、少なくとも2つ、少なくとも3又は少なくとも4つの別個の例において、先の文に列挙した特徴の0、1、2、3、4、5、6又は7つを、互いに独立に有する各NA分子と共に、表1で列挙した少なくとも1つであり、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも4つ、特に少なくとも5つの特徴を有する。

0030

表1.選択的スプライシング事象
リストは、Ensembl遺伝子アノテーションから得られた数個の選択的スプライシング事象を示す。Ensembl遺伝子セットは、実験的証拠に基づくすべての転写産物の自動アノテーション手動アノテーションの両方を含む(Wang et al., 2008も参照のこと)。

0031

0032

アンチセンス転写産物及びオーバーラッピング遺伝子:モノエクソンアンチセンス転写産物並びにオーバーラッピングバリアントは、後者が遺伝子のサブセットのすべての転写産物のかなりの部分を構成するように設計された(ヒトで9%、マウスで7.4%;Sanna et al., 2008)。オーバーラップバリアントは、モノエクソンであっても、又はスプライス(例えば、末端エクソンだけがオーバーラップしている3’エクソン)されていても、そして、センス方向であっても又はアンチセンス方向であってもよい。アンチセンス方向の遺伝子は、同じ方向のオーバーラッピング遺伝子に比べ10倍超の頻度になり得る。有益なことには、標準セットのNA分子全体は、センス及び/又はアンチセンス方向で、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5つのオーバーラップ転写産物を備える。好ましくは、斯かる転写産物の頻度は、標準セット中に存在するすべての転写産物の約10%である。2つの人工転写産物バリアント間のアンチセンスオーバラップは、例えば、10nt〜500ntの長さであり得る。

0033

選択的転写産物開始部位及び終結部位(TSS及びTES):第1及び/又は選択的最終エクソン(AFE及びALE)をもたらす選択的スプライシング事象に加えて、アノテーション付エクソン内又はエクソン中の転写産物の実際の開始又は終結部位におけるバリエーションもまた可能である。マイクロバリエーションのために、アノテーション付部位からの正確な偏差には論争の余地があるが、通常、<20ntである。そのうえ、それらは機能的に類似している、すなわち、同じプロモーター又は同じポリアデニル化シグナルに依存しており、そのためそれらの調整により共変する。マクロバリエーションのために、これらの選択的TSS及びTESは、一般的に選択的プロモータ又はポリアデニル化シグナルに依存しているので、同じ第1又は最終エクソン内又はそれに隣接して配置される。それらは更に離れて配置される、すなわち、500ntはプロモーターの標準距離として見なされ(Xin et al., 2008)、そして、40ntはポリ(A)部位調査において規定距離と考えられた(Yoon et al., 2012)。そのため、有益なことには、標準セットのNA分子全体は、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5つのTSS及び/又はTESを備える。好ましくは、ファミリー内の少なくとも2つの転写産物バリアントは、好ましくは20nt、10nt、長い5’又は3’末端領域において、少なくとも1nt、好ましくは2nt、3nt、4nt、5nt又はそれ以上で異なる。異なったntが5’又は3’末端自体に存在することが特に好ましい。

0034

本明細書中、選択的スプライシング事象、選択的転写産物開始及び終結部位、並びにアンチセンス転写産物及びオーバーラッピング遺伝子は、「選択的転写事象」という用語で包括される。
イントロンスプライシング部位ジヌクレオチド:ほとんどのイントロンが、スプライセオソーム成分によって認識され、且つ、スプライソソーム形成に必要である、それらの5’及び3’末端付近の一般的なコンセンサス配列を有する(図1)。主要なクラスにおいて、スプライスジャンクション対は、高度に保存されていて、且つ、イントロンドナー及び頻繁にGC−AG及びAT−ACが後に続く、アクセプター配列GT−AG(アノテーション付ジャンクションの98.70%)を典型的には備える(表2)。より一般的な観点で、最も一般的なエクソン−イントロン配列は:エクソン...AT(略)GT...イントロン...AG(略)G...次のエクソン、と描写され得る。表2では、ドナー−アクセプター対の頻度が示されている。保存及び適度な変異性となるように、すべてのジャンクションの97%がGT−AGであり、2%がGC−AG、1%がAT−ACとなることを目指した。この模倣は、(TopHatなどの)アライナーの使用をして、それらの既存のジャンクション表を評価することを可能にしなければならない。エクソン境界は、それらがより重要なイントロン結合ジヌクレオチドを妨げない5’AG及び3’ATでなければならない。有益なことには、標準セットのNA分子全体が、
例えば、好ましくは、すべてのイントロンドナー−アクセプタージヌクレオチドの存在のそれぞれ約97%、2%、及び1%の頻度を有するGU−AG、GC−AG、AU−ACから選択される、エクソンのイントロンドナー−アクセプタージヌクレオチドの1つ、好ましくは2つ、特にそのすべてを備える。

0035

表2.正規及び非正規のドナー−アクセプター対
スプライシング部位ジヌクレオチドは、10,803種のヒト遺伝子のゲノムスプライシング部位(SSs)から成るCoordinates of Exon(ICE)データベースの情報から得られた。256組の理論的に可能なドナーとアクセプタージヌクレオチドとの対から、最も典型的であった具体的な3組(GT−AG、GC−AG、及びAT−AC)は全例の99.56%(91,846件のうちの91,022件)に該当した(Chong et al., 2004)。

0036

0037

ポリアデニル化:成熟真核生物転写産物はポリ(A)テールを有することが知られている。有益なことには、本発明の又は本発明の方法で使用するための人工NA分子は、少なくとも10、好ましくは少なくとも20、特に少なくとも30個のアデノシンから成るポリ(A)テールを有し、そしてそれは、実際の転写産物の厳密なシミュレーションを助ける。加えて、それは、(特に少なくとも30個のアデノシンを用いた)適切なオリゴ(dT)ビーズ精製を確実にし、更に、すべての構築物例外なく増幅するための、T7プロモーター及びポリ(A)結合プライマーを用いたPCR増幅反応において5’/3’プライマー融解温度(Tm)のバランス調整も助ける。

0038

本発明の上記方法は、標準リードの割り当てが標準セットリードを用いて作り出され、及び前記標準リードの割り当てが、1若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成(該リードは任意の長さであってよい)及び割り当て(すなわち、標準配列上への該リードのマッピング)に基づくNAシークエンシングをおこなうことを好ましくは含む。リードの割り当てを管理するか、照合するか、又は改変するのにどのように外部対照を使用するかは当該技術分野で知られている(例えば、Jiang et al., 2011)。例えばサンプル自体によって溶解されるように、コンテナ内に乾燥状態の人工NA分子の標準セットを準備しておくことで、取り扱いエラーが低減することが、本発明に際してわかった(実施例8も参照のこと)。加えて、NA分子(特にRNA分子)は一般的に乾燥時により安定している。そのため、特に好ましい実施形態において、人工NA分子の標準セットは、コンテナ内に乾燥させて、好ましくは凍結乾燥させて提供される。一般的に、標準セットと別のコンテナが各サンプルのために提供される。好ましくは、(NA、特にRNAの分解を低減する)安定化剤が、乾燥前、乾燥中、又は乾燥後、特に乾燥前に標準セットに加えられる。斯かる安定化剤には、抗酸化剤EDTADDT、他のヌクレアーゼ又はRNAse阻害剤(Promega製のRNAsin(登録商標)、Biomatrica製のるRNAstable(登録商標)、GenTegra製のGenTegra(登録商標)−RNAなど)が含まれる。一般的に、追加の安定化剤はDNA分子よりRNA分子に重要である。

0039

前の段落によると、別の非常に好ましい実施形態において、外部対照としての標準セットの添加が、前記コンテナにサンプルを加えることによっておこなわれ、それによって、サンプル中に乾燥させた標準セットが溶解する。

0040

以下に1若しくは複数のサンプルの転写産物バリアントのリードの割り当てをどのように管理するか、照合するか、又は改変するかに関する例を記載する:この設定では、遺伝子1(G1)は一方がイントロン配列だけを保有していることで互いに異なっている2つの転写産物バリアント、G1T1及びG1T2を有する。アライナーが開始部位分布、配列の偏り、長さの偏り、及び上記スプライシング部位ジヌクレオチドアノテーション(表2)のようなあらかじめ設定した又は引き出した情報を加重した様々なモデルを用いるプログラムされた確率アルゴリズムを使用してG1遺伝子座内に生成されたリードを分配するとき、最終的に割り当てられたリードは、カウントされ、例えばFragments Per Kilobase Of Exon Per Million Fragments Mapped(FPKM)に対して標準化されて、相対転写産物濃度及びG1T1対G1T2の比に関する計測値を得る。実験設定によって、FPKM値は全く同じ実験内の技術的な繰り返しから計算されるか、又は以前の標準実験から推測される信頼区間を含む。重ね合わせアルゴリズムが誤った偏りを課して、誤った発現値を生じた場合、G1T1とG1T2の結果は悪いままであり、そのうえ、サンプル自体又は実験条件を変更している場合には、完全に個人の判断に任されることもある。標準セットに関する知識がグラウンド実態(ground truth)だけで、同様の複雑性を有するRef1T1及びRef1T2(例えば、同様の長さ、近接したイントロン残存)は、リードの割り当てまでのシークエンシングによるライブラリ作成から特定の実験の成果を評価できるようになり、及び同様の複雑性の遺伝子及び転写産物バリアント分布に関する信頼区間について計算できるようになる。これにより、標準リードの割り当ては、好ましくはFPKM値に対する標準化に基づくなどの、サンプルリードの統計的なリードの割り当てを調整又はシフトするのに使用され得る。標準セットのリードの割り当てのエラーは、標準セットの既知の組成及び量(プリセット値、所定のプラットフォームに好適なレジャー(leisure)で選択される)により補正されることができ、前記補正はサンプルリードの割り当てを改変するために適用され得る。

0041

或いは、本発明の上記方法は、1若しくは複数のサンプルに対してNA検出又は定量方法、好ましくはマイクロアレイ分析又はqPCRをおこなうことを好ましくは含み、ここで、少なくとも1つのプローブが、標準セットの少なくとも1つのNA分子に結合して、そして、該標準セットの少なくとも1つのNA分子に結合している少なくとも1つのプローブから得られたシグナルに基づく測定結果が、前記NA検出法又は定量法においてプローブに結合している1若しくは複数のサンプルの転写産物バリアントから生じるシグナルに基づく測定結果を管理するか、照合するか、又は改変するのに使用される。当該技術分野では、測定結果を管理するか、照合するか、又は改変するためにどのように外部対照を使用するか知られている。例えば、Devonshire et al., 2010を参照のこと。

0042

本発明に際して、上記方法の適応がNAシークエンシング方法を評価するのに特に好適であることを驚いたことに見出した。それはまた、NAシークエンシング方法を評価するか又はNA検出法又は定量法を評価するのに非常に好適である。したがって、本発明の別の態様において、NAシークエンシング方法を評価するか又はNA検出法又は定量法を評価するために方法であって、以下のステップ:
a)各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの異なったNA分子ファミリーを含む、(以前説明したような)転写産物バリアントをシミュレートする人工NA分子の標準セットを提供し、

0043

ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300ntの長さの別の配列と異なり、且つ
ここで、前記NA分子の少なくとも2つ、好ましくは各々があらかじめ設定されたモル量で存在し;及び

0044

b1)NAシークエンシング方法を評価するために、標準リードの割り当てが標準セットのリードを用いて作り出される、リード生成及び割り当てに基づくNAシークエンシングをおこなうか;又は
b2)NA検出法又は定量法を評価するために、標準セットに対して前記NA検出法又は定量法をおこない、
ここで、少なくとも1つのプローブが標準セットの少なくとも1つのNA分子に結合し;及び

0045

c)前記あらかじめ設定したモル量に対して、及び/又はNAシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに/或いはそれらから計算又は予想された比及び/又は出力に対して、任意のステップb)の出力結果、特に、標準セットの少なくとも1つのNA分子の出力モル量、出力濃度、及び/又はNAシークエンシング方法を評価する場合には、多くの割り当てられたリード、並びに/或いは標準セットの少なくとも2つのNA分子に関する少なくとも1つのそれらの比を比較すること、
を含む方法を提供する。

0046

本質的に、本発明は様々なNA解析法を「ベンチマーク」(又は比較若しくは評価)する方法を提供し、それによって、研究者(又はNA分析法及び/又はNA分析施設プロデューサー)が、特に(複雑な生物のトランスクリプトームに典型的である)転写産物バリアントを信頼性良く同定する及び/又は定量できることに関して、それらの方法を最適化するのを可能にする。
標準セットについての既知のパラメーター(例えば、濃度、存在する配列など−すなわち、標準セットはこの場合既知の対照に相当する)から、当業者は、予想される結果(例えば、リード数、推定される濃度など)を計算又は推測できる。(実際の)出力結果を予想された結果と比較することによって、当業者は、実際の結果と予想された結果との間の相違を判断することができ、それにより、核酸シークエンシング方法を評価する。
注目すべきは、核酸シークエンシング方法の演算的態様はまた、(繰り返して)標準セットのこれまでのシークエンシング計測値を使用し、そして、異なった演算的方法部分(例えば、アルゴリズム)を評価するために、又は該方法部分(例えば、(単数若しくは複数の)アルゴリズム)を改善するために、シークエンシング方法の演算的部分を(反復して)変更することによって評価され得る。

0047

有益なことには、本発明のあらゆる標準セット(以下を参照のこと)が、特に前記標準セットのNA分子の少なくとも2つ、好ましくはその各々があらかじめ設定されたモル量で存在しているとき、本発明の上記方法に好適である。
本発明に際して、多くの異なった標準セット(及びそのための製造法)が特徴づけされ、そして最終的に、以前に言及された方法にとって例外的に非常に好適な標準セット(及びそのための製造法)を見つけた(しかしながら、以前に言及された方法は本発明の標準セットを使用することに制限されない;他の標準セットも(本発明の標準セットほどではないが)好適であり得る)。

0048

そのため、本発明の別の態様において、転写産物バリアントをシミュレートする人工NA分子、好ましくはRNA又はDNA分子の標準セットを作り出すための方法を提供するが、該方法は、以下のステップを含む:
A)天然に存在する真核生物の遺伝子、好ましくは動物又は植物遺伝子、より好ましくは脊椎動物の遺伝子、より一層好ましくは哺乳動物遺伝子、特にヒト遺伝子の群から少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つの遺伝子を選択すること。それは斯かる遺伝子を見つけるための技術分野で知られている。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。例えば、当業者は、Ensembl、National Center for Bio−technology Information(NCBI)、GenBank又は他のNCBIデータベースなどの公的にアクセス可能なデータベースからそれら(又はそれらのアノテーション付配列若しくは他の公的データベースで使用するためのそれらの名称)を入手し得る。一例として、ヒト遺伝子に関して、当業者は以下のNCBI検索クエリー
http://www.ncbi.nlm.nih.gov/gene/?term=Homo+sapiens[Orgn]
から遺伝子を選択し得る。更に又は或いは、当業者はEnsemblデータベース(http://www.ensembl.org)でゲノムをブラウズできる。好ましくは、遺伝子は、その転写産物バリアント(転写産物表)に関してよくアノテーションされていて、そして、イントロン/エクソンはアノテーションされている。

0049

B)各選択遺伝子あたり少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの天然に存在するmRNA転写産物バリアントを選択すること、ここで、各転写産物バリアントは、少なくとも100ntの長さを有し、且つ、少なくとも1つのエクソンを含む。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。例えば、Ensemblデータベースは、遺伝子(例えば、ヒト遺伝子)の十分なアノテーション付転写産物バリアント(転写産物表とも呼ばれる)を含んでいる。例えば、http://www.ensembl.org/Homo_sapiens/Gene/Summary?g= ENSG00000139618;r=13:32889611-32973805は、遺伝子BRCA2の転写産物表を示す。Ensemblにはまた、アノテーション付スプラインシング事象(ASE)も含まれている(Wang et al., 2008; Koscielny et al., 2009)。配列アノテーション、テキストベース形式FASTAファイルは、純粋なヌクレオチド配列を表していて、以下のようなすべての関連情報を含むGTFファイル(General Transfer Format)で一般的に保持された転写産物バリアントアノテーションと一緒に使用されるのが一般的である:

0050

seqname−染色体又は足場の名称;染色体名は「chr」という接頭語と共に与えられることも又はそうでないこともある;起源−この特徴を作り出したプログラムの名称又はデータソース(データベース又はプロジェクト名);特徴−特徴タイプ名、例えば、Gene、Variation、Similarity;開始−1から始まる配列番号付けを伴う特徴の開始位置;終結−1から始まる配列番号付けを伴う特徴の終結位置スコア浮動点の値;鎖−+(フォワード)又は−(リバース)として定義される;フレーム−「0」、「1」又は「2」の1つ。「0」は、特徴の第1塩基コドンの第1塩基であることを示し、「1」は第二塩基がコドンの第1塩基であることを示す、など;属性−各特徴に関して追加情報を提供し、タグ−値対セミコロンで区切られた一覧;GTFファイルから、目視検査のためにズーム機能を有するプログラムによって異なった転写産物が表示され得る。

0051

C)少なくとも1つのエクソンを含む前記選択される天然に存在するmRNA転写産物バリアントのそれぞれの配列を提供すること、適宜ここで、配列はDNA配列などの別のNA型に変換される。RNAをDNA配列に変換することは些細なことである。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。有益なことには、mRNA転写産物バリアントは成熟転写産物である。

0052

D)ステップC)の各配列を以下のステップによって改変すること:
各エクソンとは独立に、(エクソン配列として)ほぼ同じ長さの配列によって各配列の各エクソンの配列を置換し、ここで、ほぼ同じ長さの配列が以下の群:ウイルス配列バクテリオファージ配列、その逆位配列、その他の逆位天然配列(逆位にすることで、重ね合わせソフトウェアがそれらの本来の相補配列に対して配列を重ね合わせること、そしてまた、それらの本来の遺伝子座とのハイブリダイゼーションも妨げる)、非天然ランダム配列、及びその組み合わせ、から選択され、好ましくはほぼ同じ長さの配列は以下の群:ウイルス配列、バクテリオファージ配列、その逆位配列、非天然ランダム配列、及びその組み合わせ、から選択され、より好ましくはほぼ同じ長さの配列は以下の群:ウイルス配列、バクテリオファージ配列、その逆位配列、及びその組み合わせ、から選択され、

0053

好ましくはここで、ほぼ同じ長さの配列が、多くても3つ、好ましくは多くても2つ、特に多くても1つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはGT、GC、又はATで及び/又は多くても3つ、好ましくは多くても2つ、特に多くても1つのジヌクレオチドで、互いに独立に、その他のジヌクレオチドで、好ましくはAG、AC又はATで置換することによって改変され、好ましくは、但し、例えば、Information for the Coordinates of Exons(ICE)データベース(Chong et al., 2004)に示される天然に存在する頻度を反映するように、このジヌクレオチド交換はエクソンをコードするイントロン結合ジヌクレオチドの存在量が90〜100%(GT−AG)、0〜10%(GC−AC)及び0〜2%(AT−AT)になるようにおこなわれるものとする(ある配列におけるエクソンが、前記他の転写産物において存在しないことによって、別の転写産物のイントロンであり得ること)。

0054

それによって、(少なくとも1つの人工エクソンを含む)1セットの人工転写産物配列を得ること、
但し、同じ選択遺伝子の選択される天然mRNA転写産物バリアントの配列から得られた人工転写産物配列は、好ましくは単一のエクソン配列内に含まれる少なくとも80ntの長さの配列を共有するものとし、及び、

0055

好ましくは、但し、ステップC)の配列のエクソン配列がステップC)の配列の別のエクソン配列と同一であるとき、エクソン配列と別のエクソン配列はほぼ同じ長さの同じ前記配列で置換されるものとする。
好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。このステップ(及びすべてのその後の、好ましくはコンピュータによるステップ)は、例えば、広く使用されているソフトウェアCLC Main Workbench(QIAGEN)、Bioconductorパッケージ、UCSC Genome Browser、又は他のものを用いておこなわれてもよい。

0056

配列はまた、特にウイルス配列、バクテリオファージ配列、その逆位配列、その他の逆位天然配列、又は非天然ランダム配列がエクソン全体を満たすには短すぎる場合、ほぼ同じ長さの配列を形成するために組み合わせられてもよい。有益なことには、ウイルス配列、バクテリオファージ配列、その逆位配列、その他の逆位天然配列、又は非天然ランダム配列の長さは、特にあまりに短かすぎる配列構造を調製するのを避けるために、少なくとも10nt、好ましくは少なくとも20nt、より好ましくは少なくとも50nt、特に少なくとも100ntであり、それによって、真核生物配列に対して非常に相同である配列が作り出される。好ましくは、組み合わせが配列の連結によっておこなわれる。

0057

有益なことには、クローニングにおける良好な取り扱いを可能にするように、単一点変異を導入すること(例えば、XhoI及びNsiIの制限部位を取り除くこと)によって、特定の制限部位が人工転写産物配列から取り除かれる。

0058

E)適宜、ステップD)のセットの少なくとも1つの人工転写産物を複製し、そして、前記複製した配列をセットに加え、それによって、ステップF)〜K)の1以上における選択的修飾のコピーを含むセットを得ること。
この複製は、標準セットに存在すべきであるが(標準セットがより好適である場合、選択的転写事象に関してより包括的なものが得られる)、選択される遺伝子と共に起こらない転写産物バリエーション事象のシミュレーションを可能にする。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

0059

F)適宜、セットの少なくとも1つの人工転写産物配列に少なくとも1つの配列を挿入すること、
ここで、少なくとも1つの挿入された配列の各々は、互いに独立に、ステップD)の任意の人工転写産物配列と同じ長さ、好ましくは5nt〜10000nt、特に10nt〜1000ntの長さを有するセンス又はアンチセンス配列(すなわち、逆相補配列)と同一である。
有益なことには、多くても5つ、好ましくは多くても4つ、より好ましくは多くても3つ、そして特に多くても2つの挿入が人工転写産物配列ごとにおこなわれる。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

0060

G)適宜、セットの人工転写産物配列の少なくとも1つから1nt〜10000ntに及ぶ長さを有する少なくとも1つの配列を取り除くこと、
ここで、1以上の人工転写産物配列の各々が、少なくとも100ntのサイズで残り、且つ、少なくとも1つのエクソン配列を含んだ状態を維持する。
有益なことには、多くても5つ、好ましくは多くても4つ、より好ましくは多くても3つ、そして特に多くても2つの除去が人工転写産物配列ごとにおこなわれる。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。
ステップE〜Gの組み合わせによって、選択される天然mRNA転写産物に存在しなかった追加の選択的転写事象を含むことが可能である。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

0061

H)適宜、5’末端がグアノシンになるまで配列の5’末端を切断することによって、第1塩基をグアノシンに変更することによって、又は5’末端にグアノシンを付加することによって、好ましくは5’末端がグアノシンになるまで配列の5’末端を切断することによって又は第1塩基をグアノシンに変更することによって、特に5’末端がグアノシンになるまで配列の5’末端を切断することによって、各人工転写産物配列の第1のヌクレオチドとしてのグアノシンを確立すること。第1塩基としてグアノシンを有することで、T7ポリメラーゼによる効果的な転写が可能になる。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

0062

I)適宜、人工転写産物配列のセットが、GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的にランダムに分布して出現するように、セットの人工転写産物配列の少なくとも1つを修飾すること。
好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。これで、生成した標準セットをWO2011/095501A1に記載の複雑性の低減方法に適合でき、そして特に好適になる。

0063

本明細書、並びに本発明全体との関連において、(本発明の目的のための)「実質的にランダムに分布して出現」は、「実質的に均一に分布して出現」であってもよく、−広く使用されるカイ二乗検定ピアソンによって開発された)を出現に対して適用して、適した分布のように不連続で均一な分布を有する(すなわち、あらゆる事象が一様に存在しそうな)とき−得られたp値(一般的にカイ二乗値にまとめられる)は0.1より高く、好ましくは0.2より高く、より好ましくは0.3より高く、より一層好ましくは0.5より高く、特に0.8より高いことを意味する。カイ二乗検定をどのように適用するかは当該技術分野で周知のことである。カイ二乗検定をどのように適用するかについては実施例4も参照のこと。

0064

J)好ましくは、セットの人工転写産物配列の1以上、好ましくはそのすべてに、好ましくは少なくとも10、特に少なくとも20のアデノシンから成るポリ(A)テール配列を付加すること。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。適宜、ポリ(A)テールの後に、インデックス配列DNAバーコード又は配列標識)がセットの人工転写産物配列の1以上、好ましくはそのすべてに付加される。インデックス配列は、標準セットの調製中の選択的定量及びバリデーション方法を可能にするが、標準セットとして適用される間は見えないようにする必要がある。見えなくするのは、続きの特定のワークフロー(ポリ(A)プライミングを含むRNAシークエンシングプロトコール)によって見られないポリテールの向こう側にインデックス配列を配置することによって達成されるか、又はインデックス配列はいずれかの潜在的リード内及び標準アノテーション内でマスクされなければならない。好ましくは、この方法ステップがソフトウェアを実装したコンピューターによっておこなわれる。

0065

K)又は好ましくは、ステップE)〜J)の少なくとも2つの任意の組み合わせ、好ましくはここで、各方法ステップが一度だけおこなわれる;及び
L)セットの各人工転写産物配列について:
人工転写産物配列全体を含むNA分子を物理的に合成すること。どのようにNA、特にDNA及びRNA、分子を合成するかは当該技術分野で知られている。DNA及びRNAは、インビボ組換え細胞、例えば、E.コリで発現される)又はインビトロにおける生化学的方法(例えば、DNA/RNAポリメラーゼ、例えば、ポリメラーゼ連鎖反応−PCRによる合成/増幅)、並びに化学的合成によって製造され得る。人工NAがDNAであれば、それはデノボDNA合成によって好ましくは合成され、PCRによって増幅される。プラスミド内へのクローニング、微生物内への形質転換、配列検定、及び形質転換微生物の培養によりインビボでの増幅も可能である。DNA鋳型から、T7RNAポリメラーゼを用いた転写によってRNAを合成することが可能である。好ましくは、NAがRNAであれば、それは特にT7RNAポリメラーゼによってDNAから転写される。

0066

M)好ましくは、ステップL)のNA分子がRNA分子であれば、該RNA分子に5’キャップ構造を物理的に付加すること。これは実際の真核生物の転写産物の厳密なシミュレーションでも達成される。mRNAのキャッピングは、例えば、Vaccinia CappingSystem(New England BioLabs, Inc.)によって酵素的におこなわれ得る。例えばもWO2009/058911A2も参照のこと。
それによって、好ましくはRNA又はDNA分子の標準セットである、転写産物バリアントをシミュレートする人工NA分子の標準セットを物理的に得る。

0067

好ましい実施形態において、ステップD)〜G)、好ましくはすべてのステップがおこなわれるが、但し、人工NA分子の標準セットは、真核生物の遺伝子について、好ましくは動物又は植物の遺伝子について、より好ましくは脊椎動物の遺伝子について、より一層好ましくは哺乳動物の遺伝子について、そして特にヒトの遺伝子について自然に起こる選択的転写事象をシミュレートするものとし、且つ、前記事象は以下の群:

0068

選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の:スキップカセットエクソン(CE)、イントロン残存(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象、
から好ましくは選択される。

0069

別の好ましい実施形態において、人工NA分子の標準セットは、以下の:選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の:スキップカセットエクソン(CE)、イントロン保持(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象の群から選択される選択的転写事象の少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5、特にそのすべてをシミュレートする。

0070

別の好ましい実施形態において、人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がGTであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工NA分子に存在していない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し、及び/又は(好ましくは「及び」)人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がATであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工NA分子に存在しない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示す。

0071

別の好ましい実施形態において、人工NA分子の標準セットが、500nt〜2000nt、好ましくは750nt〜1500nt、特に1000nt〜1400ntの平均である配列長有し;好ましくは、300nt〜1200nt、好ましくは600nt〜900nt、特に700nt〜800ntの標準偏差を有し;少なくとも100ntの最小サイズを有し;そして、好ましくは10000ntの最大サイズを有する。
別の好ましい実施形態において、人工NA分子の標準セットには、GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的にランダムに分布して出現する。これで、生成した標準セットがWO2011/095501A1に記載の複雑性還元法に特に好適になる。

0072

別の好ましい実施形態において、標準セットの人工NA分子の少なくとも50%、好ましくはそのすべてが、25%〜55%の平均GC含量を有する。好ましくは、平均GC含量は、天然に存在するの遺伝子が選択された種(又は系統発生学的群)の転写産物の平均GC含量と同じくなるように選択される。
別の好ましい実施形態において、標準セットの各人工NA分子は、5’開始ヌクレオチドとしてグアノシンを有する。
別の好ましい実施形態において、標準セットの人工NA分子の少なくとも1つ、好ましくはその各々は、それがRNA分子であれば、5’キャップ構造を有する。

0073

別の好ましい実施形態において、前記方法は、人工NA分子の標準セットを提供することを更に含み、ここで、該標準セットのNA分子のうちの少なくとも2つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在する。有益なことには、それはすぐに使用できるキットの形態で提供される。好ましくは、少なくとも2つのNA分子の各モル量が、少なくとも2桁、好ましくは少なくとも3桁、より好ましくは少なくとも5桁、特に少なくとも6桁異なり、特にここで、少なくとも2つのNA分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は0.01アトモル/μl〜100フェムトモル/μl又は100ゼプトモル/μl〜1フェムトモル/μlの範囲に及ぶ。
先に述べたように、安定化及び取り扱いエラーの低減は重要である。そのため、非常に好ましい実施形態において、本発明の方法は、好ましくはコンテナ内で、好ましくは安定化剤と一緒に、物理的に得られた標準セットを乾燥、好ましくは凍結乾燥するステップを含む。

0074

別の好ましい実施形態において、人工NA分子の標準セットの配列は、10−1未満、好ましくは1未満、特に10未満の統計的有意性閾値期待値)で、NCBIGenBankデータベース受入番号が表3で列挙されている配列に対して類似性を有しない(すなわち、最もよく知られている真核生物の配列に対して類似性を有しない)、好ましくは表3及び表4のいずれか一方(すなわち、最もよく知られている真核生物及び最もよく知られている原核生物/ウイルス配列の両方に対して類似性を有しない)、特に2014年6月15日のNCBI GenBankデータベースリリース202のすべての配列に対して類似性を有しない。類似性は以下のパラメーター:低複雑性領域フィルタリングを伴った、28のワードサイズ、1、−2の直鎖ギャップコスト及びマッチミスマッチスコア、を用いてBLASTnプログラムによって測定される。統計的有意性の閾値の解説については、Karlin & Altschul, 1990、そして、GenBankの序論についてはBenson et al., 2013を参照のこと。

0075

この実施形態は、それが混成サンプルに加えられるときでさえ、標準セットの配列(但し、それらは、例えば30ntの最小限の長さを有し、例えばRNA−seqによって容易に獲得可能である)の明確な同定を可能にするので、本発明の問題を解決するのに例外的にうまく合っている。現在のGenBankバージョンは:ftp://ftp.ncbi.nlm.nih.gov/genbank/のダウンロード無料で利用可能であり、BLASTソフトウェアは:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/のダウンロードが無料で利用可能である。GenBankの簡易版BLAST検索もhttp://blast.ncbi.nlm.nih.gov/Blast.cgi(ヌクレオチドblast、選択データベースヌクレオチドコレクション(nr/nt)、高類似配列(megablast))において可能である。

0076

本発明はまた、本発明の上記方法のいずれかの実施形態によって(特に本明細書中に明らかに言及された実施形態によって)入手可能な、転写産物バリアントをシミュレートする人工NA分子の標準セットを提供する。

0077

表3.公表されている動物又は植物染色体配列のGenBank受入番号(登録バージョン番号「.N」を含む;GenBankデータベースリリース202、2014年6月15日)

0078

0079

表4、公表されている原核生物染色体及びプラスミド配列、並びにウイルス配列のGenBank受入番号(登録バージョン番号「.N」を含む;GenBankデータベースリリース202、2014年6月15日)

0080

0081

本発明の別の態様において、転写産物バリアント、好ましくはRNA分子又はDNA分子、特にRNA分子をシミュレートする、各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの異なったNA分子から成る、少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つのNA分子のファミリーを含んでいる、人工NA分子の標準セットが提供され、

0082

ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり;及び
ここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が、少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300ntの長さの少なくとも別の配列と異なる。

0083

本発明に際して、本発明の目的にとって例外的に好適である人工NA分子の標準セットが見出された。これらの分子はSIRV(Rスパイク−インNAバリアント)と呼ばれ、配列番号1〜148で本発明について開示されている(実施例1を参照のこと)。そのため、別の態様において、本発明は、配列番号1〜148の群から選択される配列全体に対して少なくとも50%、好ましくは少なくとも60%、より好ましくは少なくとも70%、より一層好ましくは少なくとも80%、更により一層好ましくは少なくとも90%又は少なくとも95%、特に100%同一の配列を含むNA分子、好ましくはDNA分子又はRNA分子を提供する。配列がNA分析法における標準配列として使用するためだけのものであることを考えるとどの生物学的機能も保存される必要がないので、これらの配列の大きな変更が可能である。好ましくは、これらの配列番号に対するバリアントは、先で言われているように、表3の配列に対して類似性を有しない。これらのバリアントは、先に記載した方法によって得られる場合がある。

0084

SIRVのエクソンはそれら自体の理由により本発明の目的にとって十分に好適であるので、それらが別の配列に含まれているときでさえ、本発明はまた、配列番号156〜334の群から選択される配列全体に対して少なくとも50%、好ましくは少なくとも60%、より好ましくは少なくとも70%、より一層好ましくは少なくとも80%、更に一層好ましくは少なくとも90%又は少なくとも95%、特に100%同一な配列を有する少なくとも1つのエクソンを有する配列を含むNA分子、好ましくはDNA分子又はRNA分子も提供する。

0085

加えて、SIRVの断片もまた、それらが別のNA分子に含まれているとき、本発明の目的に有用である。したがって、本発明はまた、少なくとも80、好ましくは少なくとも150、好ましくは少なくとも200、より好ましくは少なくとも300、特に少なくとも400の連続したヌクレオチドの配列を含むNA分子、好ましくはDNA分子又はRNA分子も提供し、そしてその配列は、少なくとも80nt、好ましくは少なくとも150nt、好ましくは少なくとも200nt、より好ましくは少なくとも300nt、特に少なくとも400ntの最小サイズを有し、配列番号1〜148から選択される配列の配列断片に対して少なくとも50%、好ましくは少なくとも60%、より好ましくは少なくとも70%、より一層好ましくは少なくとも80%、更により一層好ましくは少なくとも90%又は少なくとも95%、特に100%同一である。

0086

好ましい実施形態において、本発明のNA分子は、各ファミリーが少なくとも2つ、好ましくは少なくとも3つ、より好ましくは少なくとも4つ、特に少なくとも5つの本発明の異なったNA分子から成る少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、特に少なくとも5つのNA分子ファミリーを含む、転写産物バリアントをシミュレートする人工NA分子の標準セットとして提供され、ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり;及びここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が、少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300ntの長さの少なくとも別の配列と異なる。

0087

好ましくは、本発明の任意の標準セットは、以下の:選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、及び以下の:スキップカセットエクソン(CE)、イントロン残存(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象、の群から選択される少なくとも1つ、好ましくは少なくとも2つ、より好ましくは少なくとも3つ、より一層好ましくは少なくとも5つ、特にそのすべての選択的転写事象をシミュレートする。

0088

本発明の任意の標準セットの別の好ましい実施形態において、人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン開始ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がGTであり、ここで、前記イントロン開始ジヌクレオチドの各々が標準セットの別の人工NA分子に存在していない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示し、及び/又は(好ましくは「及び」)人工NA分子の標準セットのすべてのエクソン配列の中のすべてのイントロン終結ジヌクレオチドのうちの少なくとも50%、好ましくは少なくとも75%、特に少なくとも95%がATであり、ここで、前記イントロン終結ジヌクレオチドの各々が、標準セットの別の人工NA分子に存在しない配列の5’終結ジヌクレオチドであるため、それによって、前記別の人工NA分子のイントロンを示す。

0089

別の好ましい実施形態において、本発明の任意の標準セットが、500nt〜2000nt、好ましくは750nt〜1500nt、特に1000nt〜1400ntの平均である配列長有し;好ましくは、300nt〜1200nt、好ましくは600nt〜900nt、特に700nt〜800ntの標準偏差を有し;少なくとも100ntの最小サイズを有し;そして、好ましくは10000ntの最大サイズを有する。
別の好ましい実施形態において、本発明の任意の標準セットは25%〜55%の平均GC含量を有する。

0090

別の好ましい実施形態において、本発明の任意の標準セットには、GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチド又はAA、AC、AG、AT、CA、CC、CG、CT、GA、GC、GG、GT、TA、TC、TG、TTから選択される5’開始ジヌクレオチド及び/又はAC、AG、AT、CC、CG、CT、GC、GG、GT、TC、TG、TTから選択される3’終結ジヌクレオチドの実質的にランダムに分布して出現する。

0091

別の好ましい実施形態において、本発明の任意の標準セットの各人工NA分子は、5’開始ヌクレオチドとしてグアノシンを有する。
別の好ましい実施形態において、標準セットの人工NA分子の少なくとも1つ、好ましくはその各々は、それがRNA分子であれば、5’キャップ構造を有し、及び/又は少なくとも10、好ましくは少なくとも20、特に少なくとも30個のアデノシンから成るポリ(A)テールを有する。好ましくは、本発明の任意の標準セットの配列は、10−1未満、好ましくは1未満、特に10未満の統計的有意性の閾値(期待値)で、NCBIGenBankデータベース受入番号が表3で列挙されている配列に対して類似性を有しない、好ましくは表3及び表4のいずれか一方、特に2014年6月15日のNCBI GenBankデータベースリリース202のすべての配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター:低複雑性領域フィルタリングを伴った、28のワードサイズ、1、−2の直鎖ギャップコスト及びマッチ/ミスマッチスコア、を用いてBLASTnプログラムによって測定される。

0092

特に好ましい実施形態において、本発明の任意の人工NA分子の標準セットが提供され、ここで、NA分子のうちの少なくとも2つ、好ましくはその各々は、あらかじめ設定されたモル量で、好ましくは同じコンテナ内に存在し;そして、好ましくはここで、少なくとも2つのNA分子の各モル量が、少なくとも2桁、好ましくは少なくとも3桁、より好ましくは少なくとも5桁、特に少なくとも6桁異なり、特にここで、少なくとも2つのNA分子は、液体中に溶解された、又は液体中にすぐに溶解又は希釈できる状態で提供され、ここで、それらの各濃度又は終濃度は0.01アトモル/μl〜100フェムトモル/μl又は100ゼプトモル/μl〜1フェムトモル/μlの範囲に及ぶ。広範囲な濃度を有することは、検出に関して高度な動態範囲を有する装置及び方法を開発するための更なる挑戦なので、例えば(例えば、RNA−seqにおける)装置及び方法をよりよく評価することを可能にする。

0093

先に述べたように、安定化及び取り扱いエラーの低減は重要である。従って、別の、特に好ましい実施形態において、本発明の人工NA分子の標準セットは、コンテナ内に、好ましくは安定化剤と一緒に、乾燥させて、好ましくは凍結乾燥させて提供される。
DNA配列をRNA配列に変換することが可能であり(ヌクレオチドの交換:T−>U)、逆もまた同様である(ヌクレオチドの交換:U−>T)。そのため、配列がDNA配列として(配列表を含む)本明細書中に与えられるときはいつも、それはまた、その各RNA配列と読むものとし、逆もまた同様である。本明細書中に使用される場合、RNAは一般的に一本鎖であり、DNA分子は一般的に二本鎖である。しかしながら、二本鎖又は一本鎖の形態の各RNA/DNAもまた本発明について請求されるものとし、請求した配列に対して相補的な配列(例えば、cDNA)も同様である。

0094

少なくとも1つ以上、例えばすべてのNA分子の長さが、例えば、100〜1000000ヌクレオチド、好ましくは130〜100000ヌクレオチド又は150〜10000ヌクレオチドであってもよい。
好ましい実施形態において、天然に存在する又は人工遺伝子は、タンパク質(例えば、mRNA)をコードするが、定義されているものでもあるタンパク質をコードしない転写産物、例えば、microRNA、snoRNA若しくはrRNA、並びにそれらの前駆体、特にpre−microRNA又はpre−rRNAを含む、調節又は触媒RNAもコードする。

0095

本明細書中で使用される場合、「遺伝子」は、1若しくは複数の転写産物を形成するために転写される配列を有する遺伝子ヌクレオチドに関する。
本明細書中で使用される場合、「アイソフォーム」又は「転写産物バリアント」は、転写産物の特定のバリアントに関係して使用される。
本明細書中で使用される場合、「約」とは、所定の値と同じ値又は所定の値と+/−10%異なる値を指し得る。
「備える」は、本明細書では、含むのように更なるメンバーを許容する開いた定義として理解するものとする。他方、「成る」は、成るの定義の特徴のさらなる要素を伴わない閉じた定義と見なされる。よって、「備える」はより広い定義であり、「成る」の定義を包含する。「備える」という語を用いた本明細書における任意の定義は、本発明の特別の実施形態では成るの制限を伴って読まれてもよい。

0096

核酸シークエンシングステップは、当該技術分野で知られた任意の方法、例えば、PCRシークエンシングによって行うことができる。かかる方法は、マクサムギルバートシークエンシング、チェーンターミネーション法、ショットガンシークエンシング、ブリッジPCR、大規模並列処理特徴シークエンシング(MPSS)、ポロニーシークエンシング、ピロシークエンシング、イルミナ(Solexa)シークエンシング、SOLiDシークエンシング、イオン半導体シークエンシング、DNAナノボールシークエンシング、ヘリスコープ一分子シークエンシング、一分子リアルタイムSMRT)シークエンシング、ナノポアDNAシークエンシング、ハイブリダイゼーションによるシークエンシング、質量分光法を用いたシークエンシング、マイクロ流体サンガーシークエンシング、顕微鏡法ベース技術、RNAPシークエンシング、インビトロウイルス高スループットシークエンシングを含む。

0097

本明細書中に使用される場合、「桁」とは「10進法等級での水準」を意味し、例えば「6桁」(本明細書中では「order of six magnitudes」とも呼ばれる)に及ぶとは、例えば1〜1×106又は2×10−7〜0.2に及ぶ値ことを意味する。
本発明に関する任意の方法又はステップをコンピュータに実装した方法として行うことができる。NA分子をシークエンシング及び合成する通常は湿式化学的なステップでさえも、例えば、自動化または半自動化配列リーダを管理してそこからデータを得るためにコンピュータによって補助されてもよい。コンピュータプログラム製品又はメモリ装置にはサンプルからショートリードを得るリード生成コンポーネント、例えば、シーケンサー、好ましくは、コンピュータコンポーネントを備えるシーケンサーがさらに設けられてもよい。例えば、コンピュータ可読媒体は、磁気記憶装置(例えば、ハードディスクフロッピディスク磁気ストリップ、...)、光学ディスク(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)...)、スマートカードならびにフラッシュメモリ装置(例えば、カードスティックキーデバイス、...)を含み得るが、これだけに限定されるものではない。

0098

標準ヌクレオチド配列に関して「パーセント(%)配列同一性」は、必要であれば、最大パーセント配列同一性を達成するように、配列を重ね合わせ、そしてギャップを導入し、そして、いずれの保存的置換も配列同一性の一部であると見なさなかった結果としての、標準配列のヌクレオチドと同一である候補配列のヌクレオチドのパーセンテージと定義される。ギャップは同一性欠如を引き起こす。パーセントヌクレオチド配列同一性を決定する目的のための重ね合わせは、例えばBLAST、BLAST−2、ALIGN、ALIGN−2、Megalign(DNASTAR)又はEMBOSSソフトウェアパッケージの「needle」対合配列重ね合わせアプリケーションなどの公的に入手可能なコンピュータソフトウェアを使用することで、当該技術分野の技能の範囲内にある様々な方法で達成され得る。当業者は、比較される配列の完全長にわたって最大重ね合わせを達成するのに必要とされる任意のアルゴリズムも含めて、配列を重ね合わせるために適当なパラメータを決定できる。しかしながら、本明細書の目的のために、%ヌクレオチド配列同一性値は、EMBOSSソフトウェアパッケージのコンピュータープログラム「needle」(European Molecular Biology Laboratory; Rice et al., EMBOSS: the European Molecular Biology Open Software Suite, TrendsGenet. 2000 Jun;16(6):276-7,PMID: 10827456から公的に入手可能)の配列アラインメントを使用することで計算される。

0099

needleプログラムは、ウェブサイトhttp://www.ebi.ac.uk/Tools/psa/emboss_ needle/nucleotide.htmlでアクセスしても又はEMBOSSパッケージの一部としてhttp://emboss.sourceforge.net/からローカルの装置にダウンロードしてもよい。それは、Linuxなどの幅広く使用されている多くのUNIXオペレーティングシステム稼働する。
2つのヌクレオチド配列を重ね合わせるために、needleプログラムは以下のパラメーターで好ましくは実行される:
コマンドライン:needle -auto -stdout -asequence SEQUENCE_FILE_A -bsequence SEQUENCE_FILE_B -datafile EDNAFULL-gapopen 10.0 -gapextend 0.5 -endopen 10.0 -endextend 0.5 -aformat3 pair -snucleotide1 -snucleotide2 (Align_format: pair Report_file: stdout)。

0100

所定のヌクレオチド配列Bへの、との、又はに対する所定のヌクレオチド配列Aの%ヌクレオチド配列同一性(所定のヌクレオチド配列Bへ、と、又はに対して特定の%ヌクレオチド配列同一性を有する又は備える所定のヌクレオチド配列Aと代替的に表現することもできる)は次のように計算される:
100×割合X/Y
この場合、Xは配列アラインメントプログラムneedle、すなわち、AとBのプログラムによる重ね合わせによって完全一致としてスコア化されたヌクレオチドの数であり、及びこの場合、YはBのヌクレオチドの総数である。ヌクレオチド配列Aの長さがヌクレオチド配列Bの長さと等しくない場合、Bに対するAの%ヌクレオチド配列同一性がAに対するBの%ヌクレオチド配列同一性と等しくなたないことは理解される。「Aの配列がBの配列全体と少なくともN%同一である」場合、YはBの全長である。別段の記述がない限り、本明細書中に使用されるすべての%ヌクレオチド配列同一性値が、needleコンピュータプログラムを使用して直前の段落に記載のように得られる。

0101

「配列類似性」、「配列同一性」、「配列の共有」及び同類の用語はまた、配列の逆相補配列にも当てはまるものとする、すなわち、「配列Aは配列Bと80%同一である」という表現はまた、「配列Aは配列Bの逆相補配列(又はアンチセンス配列)と80%同一である」の場合にも正しいものとする。
本明細書中では、NA配列と関連した「挿入」という用語は、5’又は3’末端における直接的な挿入(すなわち、5’ 又は3’末端における付加)も意味する。

0102

代表的な実施形態
本発明の方法の特に好ましい実施形態は、以下のとおりである:
1若しくは複数のサンプルにおける転写産物バリアントの管理された同定及び/又は定量のための方法であって、以下のステップ:

0103

a)各ファミリーが少なくとも3つの異なったNA分子から成る、少なくとも3つの異なったNA分子ファミリーを含む、転写産物バリアントをシミュレートするNA分子の標準セットを提供し、
ここで、各ファミリーで独立に、前記各ファミリーのすべてのNA分子が同じ人工遺伝子の標準転写産物バリアントであり、且つ
ここで、各ファミリーで独立に、前記各ファミリーのNA分子が、少なくとも80ヌクレオチド(nt)、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、特に少なくとも200ntの長さの配列を共有し、且つ、前記各ファミリーの少なくとも2つのNA分子が少なくとも80nt、好ましくは少なくとも100nt、より好ましくは少なくとも150nt、より一層好ましくは少なくとも200nt、特に少なくとも300ntの長さの別の配列と異なり、且つ
ここで、各々人工NA分子があらかじめ設定されたモル量で提供され;そして更に
ここで、各々人工NA分子は:

0104

−少なくとも100ntの長さを有し、且つ、少なくとも1つの人工エクソンを含み;ここで、前記共有された配列は単一の人工エクソン配列内に含まれ、及び
ここで、前記NA分子の標準セットは:
−25%〜55%の平均GC含量を有し、及び

0105

−以下の群:
選択的転写産物開始部位(TSS)、選択的転写産物終結部位(TES)、アンチセンス転写産物、オーバーラップ転写産物、並びに以下の:スキップカセットエクソン(CE)、イントロン残存(IR)、相互除外エクソン(MXE)、選択的3’スプライス部位(A3SS)、選択的5’スプライス部位(A5SS)、選択的第1エクソン(AFE)、選択的最終エクソン(ALE)、及びトランス−スプライシングの群から選択される選択的スプライシング事象、から選択される少なくとも5つの選択的転写事象をシミュレートし、及び
ここで、人工NA分子の標準セットのエクソン配列のすべての5’開始ジヌクレオチドの少なくとも75%がGTであり、且つ、人工NA分子の標準セットのエクソン配列のすべての3’終結ジヌクレオチドの少なくとも75%がATであり、及び
ここで、任意の標準セットの配列は、10未満の統計的有意性の閾値(期待値)で、NCBIGenBankデータベース受入番号が表3及び表4のいずれか一方で列挙されている配列に対して類似性を有しない、ここで、該類似性は以下のパラメーター:低複雑性領域フィルタリングを伴った、28のワードサイズ、1、−2の直鎖ギャップコスト及びマッチ/ミスマッチスコア、を用いてBLASTnプログラムによって測定され;及び

0106

b)転写産物バリアントを含む1若しくは複数のサンプルに外部対照として前記標準セットを加え;及び
c)標準リードの割り当てが標準セットリードを用いて作り出され、前記標準リードの割り当てが1若しくは複数のサンプルの転写産物バリアントのリードの割り当てを管理するか、照合するか、又は改変するのに使用される、リード生成及び割り当てに基づくNAシークエンシングをおこなうこと、
を含む方法。

0107

参考文献:
Aird SD, et al., (2013) Quantitative high-throughput profiling of snake venom gland transcriptomes and proteomes (Ovophis okinavensis and Protobothrops flavoviridis).BMCGenomics 14:790.
Benson DA, et al., "GenBank." Nucleic acidsresearch (2012). doi: 10.1093/nar/gks1195.
Blomquist, Thomas M., et al. "Targeted RNA-sequencing with competitive multiplex-PCRamplicon libraries." (2013): e79120.
Brennecke P, et al., (2013) Accounting for technical noise in single-cell RNA-seq experiments. Nature Methods 10(11): 1093.
Chaitanya RS, et al. (2008) Overlappinggenes in the human and mouse genomes. BMC Genomics 2008, 9:169.
Cronin M, et al., (2004) Universal RNA Reference Materials for Gene Expression. Clinical Chemistry 50(8): 1464 -1471.
Devonshire AS, et al., (2010) "Evaluation of external RNA controls for the standardisation of gene expression biomarker measurements." BMC genomics 11.1: 662.
External RNA Controls Consortium, (2005) Proposed methods for testing and selecting theERCC external RNA controls. BMC Genomics 6:150. Available at www.biomedcentral.com//1471-2164/6/150.
External RNA Controls Consortium, (2005a) The External RNA Controls Consortium: a progress report. Nature Methods 2:731-734.
ERCC User Guide: ERCC RNA Spike-In Control Mixes (English). Life Technologies (2012). Publication Number 4455352, Revision D.
Hu Y, et al., (2014) PennSeq: accurate isoform-specific gene expression quantification in RNA-Seq by modeling non-uniform read distribution. Nucleic Acids Research 42:3 e20.
James HB, et al., (2010) Evaluation of statistical
methods for normalization and differential expression in mrna-seq experiments. BMC Bioinformatics, 11:94.
Jiang L, et al., (2011) Synthetic spike-in standards for RNA-seq experiments. Genome Research 21:1543-1551.
Lin CY, et al., (2012) Transcriptional Amplification in Tumor Cells with Elevated c-Myc. Cell 151:56-67.
Karlin S, and AltschulSF, (1990) "Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes." Proceedings of the National Academy of Sciences 87(6): 2264-2268.
Koscielny G, et al., (2009)ASTD: The Alternative Splicing and Transcript Diversity database. Genomics. 93(3):213-20.
Loven J, et al., (2012) Revisiting Global Gene Expression Analysis. Cell 151:476-482.
MAQCConsortium,( 2006) The MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements. Nature Biotechnology, 24(9):1151-1161. .
Nilsen TW, and Graveley BR, (2010) Expansion of the eukaryotic proteome by alternative splicing. Nature 463.7280: 457-463.
Rapaport F, et al., (2013) Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data. Genome Biology, 14:R95.
Reid L (ERCC), (2005) Proposed methods for testing and selecting the ERCC external RNA controls. BMC Genomics 2005, 6:150.
Rice P, et al., (2000)EMBOSS: the European Molecular Biology Open Software Suite, Trends Genet, 16(6):276-7.
Roberts A, et al., (2011) Improving RNA-Seq expres-
sion estimates by correcting for fragment bias. Genome Biol, 12(3):R22.
Shippy R, et al., (2006) Using RNA sample titrations to assess microarray platform performance and normalization techniques. Nat Biotechnol. 24(9): 1123-1131.
Sun, Bing, Lian Tao, and Yun-Ling Zheng. "Simultaneous quantification of alternatively spliced transcripts in a single droplet digital PCR reaction." BioTechniques 56.6 (2014): 319.
Trapnell C, et al., (2010) Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nature Biotechnology 28, 511-515.
Wang ET, et al., (2008) Alternative Isoform Regulation in Human Tissue Transcriptomes. Nature 456, 470-476.
Wang Z, et al., (2009) "RNA-Seq: a revolutionary tool for transcriptomics." Nature Reviews Genetics 10(1): 57-63.
Xin D, et al., (2008) Alternative Promoters Influence Alternative Splicing at the Genomic Level,PLOS One,DOI: 10.1371/journal.pone.0002377.
Yoon OK, et al., (2012) Genetics and Regulatory Impact of Alternative Polyadenylation in Human B-Lymphoblastoid Cells. PLoS Genet. e1002882, doi: 10.1371/journal.pgen.1002882.
Zhang, Fan, and Renee Drabier. "SASD: the Synthetic Alternative Splicing Database for identifying novel isoform from proteomics." BMC bioinformatics 14.Suppl 14 (2013): S13.

0108

本発明を以下の図面及び実施例によってさらに説明するが、本発明のこれらの実施形態に限定されることはなく、各要素を本発明の任意の他の実施形態と組み合わせることができる。

0109

実施例1:SIRVの特徴
表5:SIRV(本発明の人工NA分子、転写産物バリアントをシミュレートする)の特徴づけ。配列番号75〜148は、30個のアデノシンから成るポリ(A)テールがなければ、それぞれ配列番号1〜74と同一である。「鋳型なし」は、SIRVには直接的なヒト転写産物モデル鋳型はないが、代わりにステップE)〜G)を用いた本発明の製造方法によって入手可能であることを意味する。SIRVファミリーは、同じ人工遺伝子の転写産物バリアントを提供し、ヒトモデル遺伝子の条件をシミュレートする。

0110

0111

表6:SIRV(×は、特質が存在した回数を示す)の選択された特質

0112

図1、及び4〜10も参照のこと。
例示目的のために、SIRV転写産物ファミリー1〜7をもたらす7つの人工SIRV遺伝子(SIRV1〜SIRV7)を、配列番号149〜156に列挙する。SIRV遺伝子はそれらのエクソン配列によって定義され(すなわち、少なくとも1つの転写産物のエクソンである配列、それらはイントロンであってもよい、すなわち、他の転写産物になるために存在しない)、それらが転写産物として定義される場合、それらは該エクソン配列からもたらされる。本明細書中で言及する場合、それらが単に概念として存在する場合でも、それで十分である。

0113

SIRVのエクソンを配列番号156〜334で列挙する。
SIRVは、ヌクレオチド及びタンパク質レベルにおけるblast検索によって明らかになるように、NCBIデータベースにおける登録事項との同一性が不足している。人工SIRVトランスクリプトームからコンピュータ内実験で作り出す50ntの長さのNGSリード、SIRVomeはまた、モデル生物、ヒト、マウス、シロイヌナズナ、C.エレガンス(C.elegans)、D.メラガスター(D.Melanogaster)、E.コリ(CGA1.20)、S.セレビシエ(S.Cerevisiae)、及びX.トロピカリス(X. tropicalis)からのアノテーション付トランスクリプトームに顕著に重ね合わなかったが、SIRVomeに対して非常にうまくマッピングされた。加えて、あらゆる的外れの重ね合わせが、リードスパイクとして容易に同定され得る。そのため、SIRV転写産物は試験されるモデル生物の転写産物と大きく異なっているので、これらのゲノムにおいてスパイク−イン対照として使用したとき、SIRV転写産物は、転写産物の発見及び定量を妨げることがありそうにないと結論づけられる。推定によると、更に多くの異なった物理的クラスからのゲノムがnt−blastに加えて試験されるので、人工SIRV配列はいずれの既知のゲノムシステムも妨げないであろうことが合理的に想定され得る。

0114

SIRVはまた、ERCCスパイク−イン転写産物に対する的外れなマッピングはほとんど存在しないので、ERCCに関連して使用されることもできる。
74種類のSIRV転写産物は、
・NGS RNA−Seq実験、及びマイクロアレイ分析又はqPCRなどの他のNA分析法でスパイク−イン転写産物として使用されることができ、
・的外れの重ね合わせの非常に少ない、SIRVomeへの一意的なマッピングを可能にする人工配列であり、
・長さ、GC含量、イントロンスプライシング部位ジヌクレオチド、及びエクソン−イントロン構造に関して天然型のmRNAを模倣し、
・ERCCに関連して使用されることができ、
・T7RNAポリメラーゼ転写産物として費用効率よく作製されることができる。

0115

SIRVは、次の、
・ポリ(A)ベースの選択及び増幅、
・アイソフォーム検出、
・アノテーションベースのアイソフォームマッピング及び仮説の構築
・アイソフォーム存在量の概算、
・(異なったSIRV濃度を有する2つの混合物を使用することによる)ログ倍数変化のバリデーション、
・アイソフォーム存在量概算アルゴリズムの訓練及びバリデーション、
・アイソフォームのデノボアッセンブリ、
・SQUAREシステム(WO2011/095501A1に記載の複雑性低減法)におけるアイソフォーム偏析
を可能にする。

0116

実施例2:SIRV作製
SIRVを作製するために、インビトロ転写鋳型を外部DNA合成プロバイダーに合成させた。これらの構築物は、5’から3’へと(a)一意的な制限部位(XhoI)と、そのすぐ上流の(b)T7RNAポリメラーゼプロモーターを備え、その3’Gが(c)SIRV配列の第1のヌクレオチドであって、シームレスに(d)A(30)テールが続き、それには(e)排他的なNsiI制限部位が融合されている(図11)。
T7プロモーターの融合並びにA(30)テール内へのNsiI部位の組み込みは、5’G(SIRV配列の一部、且つ、T7プロモーター)から始まり、そして追加の3’ヌクレオチドなしにポリ(A)テールで終わる配列の正確なRNAをもたらす転写を許す

0117

DNA合成プロバイダーは、ベクター内にクローニングした遺伝子カセット、固有T7プロモーターを含まないプラスミドpUC57を供給した。プラスミドpUC57(長さ2710bp)は、pUC19の誘導体であり、E.コリにおけるクローニングベクターとして一般的に使用される。該ベクターには、アンピシリン耐性のためのbla遺伝子及び白/青セレクションのためのlacZ遺伝子が入っている。GenBank受入番号Y14837.1、Bio Basic, Inc.によってマップが提供されている。
制限及び転写アッセイに十分である8〜10μgの各ベクターを得た。XhoIとNsiIを用いた二重消化は適切なインサートサイズと制限処理の完了を示す。しかしながら、大規模調製用転写のために、SIRVプラスミドを50μgバッチスケールで作製した。

0118

プラスミドの線形化:多量のRNAを作製するための最初のデフォルト方法は、SIRV発現カセットを含んでいるNsiI制限処理されたベクターのランオフ転写である。これに関しては、数μgのプラスミドを消化して、正確な3’末端を得た。Bio Basicによってすべての構築物に関して完全なPstI/NsiI制限が示されていたが、転写の開始がインビトロ転写反応制限ステップの1つであり、且つ、鋳型整備物中の少量の環状プラスミドでさえ大きい割合の転写産物を作り出すので、我々はNsiIのみによる効率的開裂を調べた(図2を参照のこと)。
NsiI制限処理は3’突出末端を作り出す。これは第2鎖転写を開始するかもしれず、その場合我々は付着末端平滑化を用いる。このために、T4DNAポリメラーゼの3’−5’エキソヌクレアーゼ活性を使用した。

0119

Epicentre AmpliScribe Kits High Yield and Flashを使用したT7転写:線形化転写産物を、Epicenterの市販のT7転写産物キット、AmpliScribe T7 High Yield Transcription Kit(Art.No150408)及びAmpliScribe T7Flash Transcription Kit(Art.No150405)で鋳型として使用した。
T7転写を制御する重要な要素は、高いdNTP濃度を許容する転写条件を用いるキットの使用である。これは高収量を可能にする、すなわち、1μgのプラスミドが最大160〜180μgのRNAを生じ得る(例えば、Epicentreの高収量キット)。

0120

更に、絶対制限までは、より多くの鋳型がより多くのRNAを作り出す。異なった長さの鋳型に関して、モル濃度を考慮に入れられなければならず、転写開始速度制限段階であり、且つ、T7ポリメラーゼ伸長の1つの相が最大600ntをこなすので(Epicentreのウェブサイトからの情報)、短い鋳型はより長い鋳型と同じ質量のRNAを生み出すことはない。
より長いインキュベーション時間は、開始機会を増やし、短い鋳型の収量に対してよりすばらしい効果を有する。したがって、標準的な2時間のインキュベートではなく、4〜6時間、或いは一晩のインキュベートが推奨されることもある。しかしながら、より長期間のインキュベーションは、T7転写バッファーがMg2+陽イオンを含んでいるので、RNA分解をもたらし得る。
37℃から42℃にT7転写酵素反応温度を上げることは、収量の多大な増大をもたらし得る。これは、更に複雑な(GCリッチ構造化)鋳型をより顕著にするであろう(図3を参照のこと)。

0121

GuSCN、フェノール、SDS、RNA又は金属イオン痕跡量は、T7が転写酵素活性阻害し得る。例えば、ワットマン精製による、線形化プラスミドの厳密な精製が推奨される。或いは、反応容量が増量され得るか、又はプラスミド入力体積が低減され得る。
鋳型DNAはDNアーゼによって取り除かれる必要がある。Epicentre(AmpliScribeマニュアル)によると、含まれているDNアーゼ1単位を転写に直接加え、37℃で15分間更なるインキュベーションを加える。DNアーゼ処置をRNA完全性に影響しないか試験する、すなわち、それがRNAを分解する場合には、残留RNアーゼに起因する。或いは、DNAを、SPLITプロトコール変法による酸フェノール抽出によって取り除くこともできる。しかしながら、GuSCNはその後のシリカカラム結合に不必要であろう。

0122

残留プラスミドDNAを、Bioanalyzerの利用(RNA特異的色素を用いても)により、又はプライマーGCTAATACGACTCACTATA*G(配列番号337)及びTTTTTTTTTTTTTTTTTTTTTTTTT*V(配列番号338)((*)はホスホチオアート結合を有するヌクレオチドである)を使用するqPCRアッセイにより−定量的に−検出する。
推奨されるSIRV精製方法を次に記載する。PAGE:NGSスパイク−イン転写産物に必要とされる高い品質を有する転写RNAをインビトロで精製するための標準プロトコールがPAGE溶出であるが、厄介なことに、あまり正確ではなく、UV架橋を誘発する可能性もあるので、それは>1kbの転写産物には好適でない。
シリカベースの精製:最初、精製は、核酸からdNTPs、添加物、及びタンパク質を取り除く技術分野の当業者に知られているワットマンプロトコールによってのみおこなわれる。しかしながら、この手順は損失傾向があり;試験マーカーの最大60%が標準的手順において溶出されなかった。加えて、DNA鋳型は一緒に溶出する。溶出バッファーEB又は保存バッファーSBが効果的な溶出に使用しうるかどうかを試験しなければならない。

0123

転写産物の磁性オリゴ(dT)ビーズ精製:転写反応が完全長のRNAを生じない場合(NsiI制限部位まで)、このRNAはA(30)テールを含まない。したがって、オリゴ(dT)ビーズ精製は、完全長の転写産物を選択的に精製するのに使用できる。しかしながら、この方法はランスルー転写又は第2鎖転写によって生じる異常RNAを識別しない。なぜなら、これらのRNAも最低1コピーのA(30)構造を含んでいるからである。DNA鋳型の一方の鎖もまたポリ(A)鎖を含むことに注意する。(転写産物がその鋳型から放出されるので)DNAがそのdsDNA形態で存在し、且つ、オリゴ(dT)ハイブリダイゼーションに参加できないかどうか判定する必要がある。この方法の1つのバリエーションでは、オリゴはRNAであり、そして、結合ステップの後にRNアーゼH消化が続く場合があり、そのコードA(30)鎖を介してビーズに結合したすべてのプラスミドDNAを取り除く。或いは、DNアーゼ処置によってDNAを取り除く。

0124

Pippin prep:Sage Scientific Pippin prepは自動化されたゲル溶出システムであり、そしてそれは、1.5%又は2%の天然アガロースカセットからのdsDNA(例えば、NGSライブラリ)の溶出用に設計されている。RNAは、Pippin prep外部又は内部DNA標準に従って泳動されないので、長さの概算が不可能である。それにもかかわらず、十分な純度のSIRVは単一の、主要なピークで泳動され、そしてそれは、しきい塩基対値を設定後に次のピークを自動的に回収するサイズ選定プロトコール「Peak」により検出され得る。
品質管理及び定量は、SIRV混合物を作製するのに重要である。Nanodrop定量:吸光光度測定は、A260/A230及びA260/A280比の形態で濃度(これにより、収量)及び純度をもたらす。重要なことには、Nanodrop装置(Nanodrop Instruments)において吸光度測定は、260nmに過剰比例する吸収度を有するdNTPsの痕跡量もまた計測するので、不十分な精製には問題が多い。Qubit測定値(LifeTechnologies)を第三の標準と見なす場合がある。
Agilent Bioanalyzer RNAナノチップ:SIRV転写産物は、適切な長さ、量、、RNA完全性(すなわち、分離又は分解生成物)及び異常な(より長い)生成物についてAgilent Bioanalyzer RNAチップ上で評価され得る。

0125

変性ゲル電気泳動:Bioanalyzerを補足して、RNAを、それらのサイズに依存する変性PAA又はアガロースゲルでも分析し得る。これは、転写産物の長さに関してより正確な評価を可能にするが、Bioanalyzerによって提供される定量及び範囲を伴わない。
qPCR:スパイク−イン転写産物の完全性を評価し、且つ、相補的な定量を得るために、完全長cDNA合成に続いて、転写産物の5’、中央、及び3’領域に配置した複数の単位複製配列のqPCRを実施した。外部標準として、PCR転写鋳型を同じ設定で増幅し得る。これらの設定もSIRVミックスの相対濃度を決定するのに適切であり得る。
これらのSIRV特異的プライマーは、例えば、所定の遺伝子のすべてのSIRVに共通のエクソンではなく、特定のSIRVの各々1つだけを標的とするように注意して設計される必要がある。

0126

実施例3:RNA−seqの外部対照としてのSIRVの使用
実験手順が以下のステップ、i)サンプル収集、ii)RNA精製、iii)NGSライブラリ作成、iv)NGSシークエンシング、v)標準アノテーションに対するリードの重ね合わせ、及びvi)その後の正確に相対転写産物量を計算する生物情報科学的処理、から成ることは広く認識されている。しかしながら、異なった方法、例えば、異なったサンプル調製であるが、同様の以下の実施例に我々が示す同じ実験データセットの生物情報科学的処理ルーチンも可能である。
部分的にバリデートされた転写産物量を含んでいるほんのわずかなデータセットのみ利用可能である。これらのうちの1つは、Microarray Quality Control(MAQC)サンプル(MAQC Consortium, 2006)由来であり、普遍的なヒト標準RNA(UHRR)及びヒト脳標準RNA(HBRR)を含んでいる。両RNAサンプルについて、1044個のTaqmanプローブを用いてqPCR測定値を得た。これらの測定値は、Gene Expression Omnibusから受入番号GSE5350で入手可能である。

0127

加えて、UHR及び脳RNAサンプルをIllumina GenomeAnalyzerの7つのレーンにより配列決定して、35bpのシングルエンドリードを得た(James et al., 2010)。NCBI Read Archiveから受入番号SRA010153で入手可能であるこれらのリードを、EnsemblアノテーションGRCh37バージョン75に対してTopHat2を用いてマッピングした。1044個のTaqmanプローブから906個のプローブを残し、それをGSE5350に従って、単一のRefseqアノテーションに対してマッピングした。Ensemblアノテーションを実験に使用したので、Ensemblにおいて同等に一意的であることをTaqmanプローブのRefseqアノテーションに求めることによって、このセットのTaqmanプローブを更に削減した。最終的に、これらから、894個のTaqmanプローブのみのものを使用して、そのEnsembl転写産物アノテーションを複数の転写産物を有する遺伝子内に入れた。これは798個のTaqmanプローブの最終セットをもたらした。Pennseq(Hu et al., 2014)、方法1、並びにバイアス補正を含む及び含まないCufflinks(Roberts et al., 2011; Trapnell et al., 2010)、方法2及び3を使用して、798個の転写産物に対するFPKM値の形で濃度の概算を得た。

0128

異なった方法によって得られたFPKM値とqPCR値との間の相関を表7に示す。相関はログスペース内のR2値及びスピアマン相関ρを用いて評価する。ゼロに近い値がログスペース内の統計データを顕著に歪曲し得るので、1e−3未満のFPKM値をすべての方法について1e−3に設定する。或いは、1e−3未満のFPKMを有する転写産物は検出されなかったものと見なしてもよい。

0129

表7.FPKMとqPCRとの相関及び検出されなかった(ND)転写産物、すなわち、UHR RNAレーンSRR037445においてFPKM<1e−3の転写産物の特性

0130

表7に示されているように、R2値は、一方ではPennseqについて0.418、バイアス補正のないCufflinksについて0.3317及びバイアス補正のあるCufflinksについて0.3943である。その一方、スピアマン相関は、Pennseqについて0.7129、バイアス補正のないCufflinksについて0.6541及びバイアス補正のあるCufflinksについて0.7312である。印象的なことに、バイアス補正のある及びないCufflinksはそれぞれ、qPCRによって存在することが示された転写産物の14.61%及び15.48%を検出しておらず、これに対して、Pennseqは2.79%を検出していない。重要なことには、3つの計算法で検出されなかった転写産物は、qPCRバリデーション実験において−1.65〜−1.76の高い平均log10存在量を有していた。
実施例は、2以上のEnsembl転写産物アノテーションを含む798個のTaqman qPCRバリデート遺伝子座の選択を通じて、2つの異なった生物情報科学的アルゴリズム(更に一方が2つの異なったバイアス補正を有する(Cufflinks))が3つの著しく異なった結果を生じることを証明した。重ね合わせは、間違った転写産物に対して多数の遺伝子内にリードを振り分ける。グラウンド最低値(ground trough)を我々は知らないので絶対相関は不可能である。天然に存在する遺伝子における転写産物と類似した複雑な状況で存在する、既知の存在量の人工転写産物バリアントだけで、個々のステップ及び全体的なワークフローで実施される測量法の精度の定量的な評価が可能である。

0131

実施例4:ランダム分布を試験するためのカイ二乗検定
一例として、「GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTTから選択される5’開始トリヌクレオチドの実質的にランダムに分布した出現がある人工転写産物配列のセット」に対してどのようにカイ二乗検定を適用するかについて説明するものである。

0132

異なる場合又は細胞(n)の数:16(GAA、GAC、GAG、GAT、GCA、GCC、GCG、GCT、GGA、GGC、GGG、GGT、GTA、GTC、GTG、GTT)
人工転写産物配列の数(N):74
5’開始ヌクレオチド(O1、O2、O3、...、On)の出現(カウント):
GAA 5 GAC 5 GAG 4 GAG 6 GAT 3 GCA 2 GCC 4 GCG 5 GCT 6 GGA7 GGC 4 GGG 3 GTA 4 GTC 5 GTG 6 GTT 5

0133

自由度(df):n−p=15(離散一様分布についてp=1)
(離散一様分布の帰無仮説下での)任意の細胞に関する予想される出現:Ei=N/n=4.625。これは、5’開始トリヌクレオチドと言及されたトリヌクレオチドのそれぞれが4.625を、って、有するトリヌクレオチドの(完全)一様分布の状況を意味する。
カイ二乗(ピアソンの累積検定統計)は以下のとおり定義される:

0134

0135

Oi、Ei、及びnに関する上記値が、直前の式に適用して得た:カイ二乗=5.57。
特定のカイ二乗値(この実施例では5.57)及び特定の自由度(この実施例では15)に関する確率値(「p値」)は周知の表(いわゆるカイ二乗表)に要約されている。p値はまた、Microsoft Excel、LibreOffice又はOpenOffice(それらのうちの後者2つは無料で利用可能である)などの広く使用されているオフィス用ソフトウェア、又は無料で利用可能なRソフトウェアパッケージによって計算されてもよい。英語版のMicrosoft Excel2003では、この機能はCHIDISTと呼ばれている。
カイ二乗値=5.57及びdf=15に対応するp値は0.9861である。そのため、この実施例における開始ヌクレオチドの出現は、本明細書中に定義した「実質的にランダムに分布」している条件を満たす。

0136

実施例5:SIRVの評価
配列番号1〜74によって与えられる上記セットからの74個のSIRVのうちの60個を、合成し、クローニングし、発現し、精製し、品質管理し、そして、電気泳動測定によりそれらの濃度を決定し(Bioanalyzer、AgilentによるRNAナノ及びピコチップ及びアッセイ)、その後、2つのマスターミックスに組み合わせ、そして、更なるサンプル調製のために10ng/μl超の濃度に濃縮した。SIRV Mix1は等しい質量で60個のSIRVすべてを含んだ。SIRV Mix2を、1:10:100の比でランダム化して最大2桁、SIRV遺伝子中の個々のSIRVの量が変動する混合スキームに従って調製した。このSIRV Mix2では、すべての副次的なSIRVの合計としての各SIRV遺伝子を等しい質量で提供した。

0137

3種類のRNAサンプルを調製した。サンプル1は、包括的なSIRV転写産物混合物SIRV Mix1(100ng)だけを含んだ。サンプル2は、500ngの普遍的なヒト標準RNA(Agilent)を、0.3ngのERCC(Ambion)及び3ngのSIRV Mix1と組み合わせた。サンプル3は、0.3ngのERCC(Ambion)及び3ngのSIRV Mix2と共に500ngの普遍的なヒト標準RNA(Agilent)から成った。
3種類のmRNAサンプルをサービスプロバイダ(Fasteris, Suisse)に出荷し、該サービスプロバイダがサンプルを調製し、シークエンシングをおこなった。NGSライブラリを、ポリA選択なしでカスタムライブラリー調製によってサンプル1から準備し、そして一方、サンプル2及び3をポリA選択を伴ってIllumina鎖mRNAライブラリー調製に供した。3種類のライブラリすべてを、バーコードを付し、試みた等比で混合した。シークエンシングを、v3化学薬品を用いたIllumina MiSeqにより実施し、150bpのインデックス付きリードを結果的に得た。

0138

合計で、26.7Mioのリードを作り出し、所定のバーコードに割り当てられた。リードの品質をFastQC(v0.11.1)で評価した。何らかのアダプター夾雑を検出し、そして、以下のパラメーター:./bbduk.sh...ktrim=r k=28 mink=12 hdist=1 minlength=20、を用いてbbmap一式(バージョン32.32)からbbdukを使用することによって削除できた。得られたリードを、EnsemblのGRCh37.75、AmbionのERCC92、及びSIRVomeの組み合わせられた転写産物及びゲノム標準アノテーションに対してtophat(v.2.0.8)を用いてマッピングした。マッピング精度(mappingstatistics)を表8に示す。

0139

表8.マッピング精度

0140

様々なアノテーションに渡る一意マッピングリードの分布を表9に示す。サンプル2及びサンプル3において、次のリード比UHRR:ERCC:SIRVの70.3:2.7:27を、入力重量に従って予想し、そして、全RNA中の2%のmRNAと仮定する。

0141

表9.一意マッピングリードの分布。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ