図面 (/)

技術 分子標識カウントの調節方法

出願人 セルラーリサーチ,インコーポレイテッド
発明者 ファン,ジェエツァイ,ジェニファーシャム,エリーンデン,リシャフー,グレンケー.
出願日 2017年5月25日 (3年9ヶ月経過) 出願番号 2018-561218
公開日 2019年8月8日 (1年6ヶ月経過) 公開番号 2019-522268
状態 不明
技術分野
  • -
主要キーワード 参照語 サンプルデバイス コンピュータ読取り媒体 相対入力 プログラマブルハードウェア 大域的最小値 局所的最大値 サンプル指標
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年8月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

本明細書には、標的の数を決定する方法およびシステムが開示される。いくつかの実施形態では、本方法は、確率バーコードを使用して標的に確率バーコードを付ける工程と;シーケンシングデータを取得する工程と、を含み、標的の1つ以上について、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;同定された前記標的の分子標識の前記クラスターを用いて、シーケンシングデータを折りたたむ工程と;標的の数を推定する工程と、を含む。

概要

背景

本開示は、概して、核酸バーコーディング、より具体的には、分子標識を用いたPCRおよびシーケンシングエラー訂正の分野に関する。

関連分野の説明
確率バーコーディングなどの方法および技術は、細胞分析において、特に、たとえば、逆転写ポリメラーゼ連鎖反応(PCR)増幅、および次世代シーケンシング(NGS)を用いて細胞の状態を判定するために、遺伝子発現プロフィール解読する上で有用である。しかし、これらの方法および技術は、置換エラー(1つ以上の塩基を含む)および非置換エラーなどのエラーを導入する恐れがあり、未訂正のままだと、過大評価された分子カウントが生じうる。従って、確率バーコーディングを用いて推定される正確な分子カウントを取得するために、さまざまなエラーを訂正することができる方法および技術が求められる。

概要

本明細書には、標的の数を決定する方法およびシステムが開示される。いくつかの実施形態では、本方法は、確率バーコードを使用して標的に確率バーコードを付ける工程と;シーケンシングデータを取得する工程と、を含み、標的の1つ以上について、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;同定された前記標的の分子標識の前記クラスターを用いて、シーケンシングデータを折りたたむ工程と;標的の数を推定する工程と、を含む。

目的

標的核酸に結合した1つ以上のユニバーサルプライマーは、ユニバーサルプライマーのハイブリダイゼーションのための部位を提供する

効果

実績

技術文献被引用数
- 件
牽制数
- 件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

標的の数を決定する方法であって、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と;(b)前記確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)前記複数の標的の1つ以上について:(i)前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、前記標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された前記標的の分子標識の前記クラスターを用いて、(b)で得られた前記シーケンシングデータを折りたたむ工程と;(iv)前記標的の数を推定する工程であって、推定された前記標的の数が、(ii)の前記シーケンシングデータの折りたたみ後に、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む、方法。

請求項2

前記複数の標的が、細胞の全トランスクリプトームの標的を含む、請求項1に記載の方法。

請求項3

クラスター内の前記標的の分子標識が、互いの所定の方向近接性閾値内にある、請求項1〜2のいずれか一項に記載の方法。

請求項4

前記方向近接性閾値が、1のハミング距離である、請求項3に記載の方法。

請求項5

前記クラスター内の前記標的の前記分子標識が、1つ以上の親分子標識と、前記1つ以上の親分子標識の子供分子標識とを含み、前記親分子標識の発生率が、所定の方向近接性発生率閾値以上である、請求項1〜4のいずれか一項に記載の方法。

請求項6

前記所定の方向近接性発生率閾値が、1未満の子供分子標識の発生率の2倍である、請求項5に記載の方法。

請求項7

(ii)で同定された前記標的の分子標識の前記クラスターを用いて、(b)で得られた前記シーケンシングデータを折りたたむ工程が、前記子供分子標識の発生率を前記親分子標識に帰属させる工程を含む、請求項1〜6のいずれか一項に記載の方法。

請求項8

前記標的のシーケンシング深度を決定する工程をさらに含む、請求項1〜7のいずれか一項に記載の方法。

請求項9

前記標的の前記シーケンシング深度が所定のシーケンシング深度閾値を超える場合、前記標的の数を推定する工程が、(i)でカウントされた前記シーケンシングデータを調節する工程を含む、請求項8に記載の方法。

請求項10

前記所定のシーケンシング深度閾値が、15〜20である、請求項9に記載の方法。

請求項11

(i)でカウントされた前記シーケンシングデータを調節する工程が、前記標的の分子標識を閾値化して、(b)で得られた前記シーケンシングデータ中の前記標的に関連付けられた真の分子標識およびの分子標識を決定する工程を含む、請求項9〜10のいずれか一項に記載の方法。

請求項12

前記標的の前記分子標識を閾値化する工程が、前記標的の前記分子標識について統計解析を実施する工程を含む、請求項11に記載の方法。

請求項13

前記統計解析を実施する工程が、前記標的の前記分子標識の分布およびそれらの発生率を2つのネガティブ二項分布に当てはめる工程と;前記2つのネガティブ二項分布を用いて真の分子標識の数nを決定する工程と;(b)で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、を含み、前記偽の分子標識が、n番目豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、前記真の分子標識が、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む、請求項12に記載の方法。

請求項14

前記ネガティブ二項分布が、前記真の分子標識に対応する第1のネガティブ二項分布と、前記偽の分子標識に対応する第2のネガティブ二項分布を含む、請求項13に記載の方法。

請求項15

標的の数を決定する方法であって、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と;(b)前記確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)前記複数の標的の1つ以上について:(i)前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と;(iii)前記標的の数を推定する工程と、を含み、推定された前記標的の数が、(ii)で決定された前記ノイズ分子標識の数に応じて調節された、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた前記識別可能な配列を有する分子標識の数と相関する、方法。

請求項16

前記シーケンシングデータ中の前記標的のシーケンシングステータスを決定する工程をさらに含む、請求項15に記載の方法。

請求項17

前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである、請求項16に記載の方法。

請求項18

前記飽和シーケンシングステータスが、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記標的によって決定される、請求項17に記載の方法。

請求項19

前記確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、前記所定の飽和閾値が、約6557である、請求項18に記載の方法。

請求項20

前記確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、前記所定の飽和閾値が、約65532である、請求項18〜19のいずれか一項に記載の方法。

請求項21

前記シーケンシングデータ中の前記標的の前記シーケンシグステータスが、前記飽和シーケンシングステータスである場合、(ii)で決定された前記ノイズ分子標識の数が、ゼロである、請求項17〜20のいずれか一項に記載の方法。

請求項22

前記過少シーケンシングステータスが、所定の過少シーケンシング閾値より小さい深度を有する前記標的によって決定され、前記対象の前記深度が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の、平均、最小、または最大深度を含む、請求項17〜21のいずれか一項に記載の方法。

請求項23

前記過少シーケンシング閾値が約4である、請求項22に記載の方法。

請求項24

前記過少シーケンシング閾値は、識別可能な配列を有する前記分子標識の数とは無関係である、請求項23に記載の方法。

請求項25

前記シーケンシングデータ中の前記標的の前記シーケンシグステータスが、前記過少シーケンシングステータスである場合、(ii)で決定された前記ノイズ分子標識の数が、ゼロである、請求項17〜24のいずれか一項に記載の方法。

請求項26

前記過剰シーケンシングステータスが、所定の過剰シーケンシング閾値より大きい深度を有する前記標的によって決定され、前記対象の前記深度が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の、平均、最小、または最大深度を含む、請求項17〜25のいずれか一項に記載の方法。

請求項27

前記確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、前記過剰シーケンシング閾値が、約250である、請求項26に記載の方法。

請求項28

前記シーケンシングデータ中の前記標的の前記シーケンシングテータスが、前記過剰シーケンシングステータスである場合、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数を、前記所定の過剰シーケンシング閾値にサブサンプリングする工程をさらに含む、請求項26〜27のいずれか一項に記載の方法。

請求項29

前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、ネガティブ二項分布当てはめ条件が満たされる場合、(iv)シグナルネガティブ二項分布を、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数に当てはめる工程であって、前記シグナルネガティブ二項分布が、シグナル分子標識である、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数に対応するステップと;(v)ノイズネガティブ二項分布を、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数に当てはめる工程であって、前記ノイズネガティブ二項分布が、ノイズ分子標識である、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数に対応する工程と;(vi)(v)で当てはめた前記シグナルネガティブ二項分布および(vi)で当てはめた前記ノイズネガティブ二項分布を用いて、前記ノイズ分子標識の数を決定する工程と、を含む、請求項17〜28のいずれか一項に記載の方法。

請求項30

前記ネガティブ二項分布当てはめ条件が、前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではないことを含む、請求項29に記載の方法。

請求項31

(v)で当てはめた前記シグナルネガティブ二項分布および(vi)で当てはめた前記ノイズネガティブ二項分布を用いて、前記ノイズ分子標識の数を決定する工程が、前記シーケンシングデータ中の前記標的に関連付けられた前記識別可能な配列の各々について、前記識別可能な配列のシグナル確率が、前記シグナルネガティブ二項分布であることを決定する工程と;前記識別可能な配列のノイズ確率が、前記ノイズネガティブ二項分布であることを決定する工程と;前記シグナル確率が前記ノイズ確率より小さければ、前記識別可能な配列がノイズ分子標識であることを決定する工程と、を含む、請求項29〜30のいずれか一項に記載の方法。

請求項32

前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではなく、かつ、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、擬似点閾値より少ない場合、(ii)で前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する前に、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数に擬似点を加える工程を含む、請求項17〜31のいずれか一項に記載の方法。

請求項33

前記擬似点閾値が10である、請求項32に記載の方法。

請求項34

前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する工程が、前記シーケンシングデータ中の前記標的の前記シーケンシングステータスが、前記過少シーケンシングステータスまたは前記過剰シーケンシングステータスではなく、かつ、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、擬似点閾値以上である場合、(ii)で前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む、請求項17〜33のいずれか一項に記載の方法。

請求項35

前記非ユニーク分子標識を除去する工程が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、所定の再使用分子標識閾値より大きい場合、(ii)で前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記ノイズ分子標識の数を決定する際に、前記非ユニーク分子標識を除去する工程を含む、請求項34に記載の方法。

請求項36

前記確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、前記再使用分子標識閾値が、約650である、請求項35に記載の方法。

請求項37

前記非ユニーク分子標識を除去する工程が、前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数について非ユニーク分子標識の理論上の数を決定する工程と;前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有するn番目に豊富な前記分子標識よりも大きい発生率を有する分子標識を除去する工程と、を含み、nが、非ユニーク分子標識の理論数である、請求項34〜36のいずれか一項に記載の方法。

請求項38

ハードウェアプロセッサーと、前記ハードウェアプロセッサーによって実行される場合、前記プロセッサーに請求項1〜37のいずれか一項に記載の方法を実行させる命令を記憶した非一過性メモリーと、を含む、ターゲットの数を決定するためのコンピュータシステム

請求項39

請求項1〜37のいずれか一項に記載の方法を実行するためのコードを含むソフトウェアプログラムを含む、コンピュータ読取り媒体

請求項40

標的の数を決定する方法であって、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と;(b)前記確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)前記複数の標的の1つ以上について:(i)前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)(b)で得られた前記シーケンシングデータ中の前記標的のクオリティステータスを決定する工程と;(iii)(b)で得られた前記シーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程であって、前記シーケンシングデータ中の前記1つ以上のシーケンシングデータエラーを決定する工程が、以下:前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数、前記シーケンシングデータ中の前記標的の前記クオリティステータス、および前記複数の確率バーコード中の識別可能な配列を有する前記分子標識の数のうち1つ以上を決定することを含む工程と;(iv)前記標的の数を推定する工程であって、推定された前記標的の数が、(iii)で決定された前記1つ以上のシーケンシングデータエラーに応じて調節された、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数と相関する工程と、を含む、方法。

請求項41

前記1つ以上のシーケンシングデータエラーを決定する前に、(b)で得られた前記シーケンシングデータを折りたたむ工程をさらに含む、請求項40に記載の方法。

請求項42

(b)で得られた前記シーケンシングデータを折りたたむ工程が、類似した分子標識を有し、かつ、所定の折りたたみ発生率閾値よりも少ない発生率を有する標的のコピーを、前記複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、前記標的の2つのコピーは、前記標的の前記2つのコピーの分子標識の配列が少なくとも1塩基相違する場合、類似の分子標識を有する、請求項41に記載の方法。

請求項43

前記確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、前記所定の折りたたみ発生率閾値が7である、請求項42に記載の方法。

請求項44

前記確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、前記所定の折りたたみ発生率閾値が17である、請求項42に記載の方法。

請求項45

前記標的の2つのコピーが、前記標的の前記2つのコピーの分子標識の配列が少なくとも1塩基相違する場合、類似の分子標識を有する、請求項42〜44のいずれか一項に記載の方法。

請求項46

前記分子標識が、5〜20個のヌクレオチドを含む、請求項40〜45のいずれか一項に記載の方法。

請求項47

異なる確率バーコードの前記分子標識が、互いに異なっている、請求項40〜46のいずれか一項に記載の方法。

請求項48

前記複数の確率バーコードが、識別可能な配列を有する約6561の分子標識を含む、請求項40〜47のいずれか一項に記載の方法。

請求項49

前記複数の確率バーコードが、識別可能な配列を有する約65536の分子標識を含む、請求項40〜47のいずれか一項に記載の方法。

請求項50

前記シーケンシングデータが、50ヌクレオチド以上のリード長を有する前記複数の標的の配列を含む、請求項40〜49のいずれか一項に記載の方法。

請求項51

前記シーケンシングデータが、75ヌクレオチド以上のリード長を有する前記複数の標的の配列を含む、請求項40〜49のいずれか一項に記載の方法。

請求項52

前記シーケンシングデータが、100ヌクレオチド以上のリード長を有する前記複数の標的の配列を含む、請求項40〜49のいずれか一項に記載の方法。

請求項53

(b)で得られた前記シーケンシングデータが、前記複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応PCR増幅を実施することによって生成することができる、請求項40〜52のいずれか一項に記載の方法。

請求項54

前記1つ以上のシーケンシングデータエラーが、PCR導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せである、請求項40〜53のいずれか一項に記載の方法。

請求項55

前記PCR導入エラーが、PCR増幅エラー、PCR増幅バイアス、不十分なPCR増幅、またはそれらの任意の組合せの結果である、請求項54に記載の方法。

請求項56

前記シーケンシング導入エラーが、不正確ベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果である、請求項54〜55のいずれか一項に記載の方法。

請求項57

工程(i)、(ii)、(iii)、および(iv)が、前記複数の標的の各々について実施される、請求項40〜56のいずれか一項に記載の方法。

請求項58

前記シーケンシングデータ中の前記標的の前記クオリティステータスが、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングである、請求項40〜57のいずれか一項に記載の方法。

請求項59

前記シーケンシングデータ中の標的のクオリティステータスが、前記複数の確率バーコード中に識別可能な配列を有する前記分子標識の数と、カウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数とによって決定される、請求項58に記載の方法。

請求項60

前記完全シーケンシングクオリティステータスが、所定の完全シーケンシング散布閾値以上の前記ポアソン分布と比較した散布指数によって決定され、前記所定の完全シーケンシング散布閾値が、0.9である、請求項58〜59のいずれか一項に記載の方法。

請求項61

前記所定の完全シーケンシング散布閾値が、1である、請求項60に記載の方法。

請求項62

前記所定の完全シーケンシング散布閾値が、4である、請求項60に記載の方法。

請求項63

前記完全シーケンシングクオリティステータスが、(b)で得られた前記シーケンシングデータ中の所定の完全シーケンシング発生率閾値以上の発生率を有する分子標識によってさらに決定され、前記所定の完全シーケンシング発生率閾値が、10である、請求項60〜62のいずれか一項に記載の方法。

請求項64

前記所定の完全シーケンシング発生率閾値が、18である、請求項63に記載の方法。

請求項65

前記飽和シーケンシングクオリティステータスが、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記標的によって決定される、請求項58〜64のいずれか一項に記載の方法。

請求項66

前記飽和シーケンシングクオリティステータスが、前記所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する前記複数の標的のうちの1つの他の標的によって、さらに決定される、請求項65に記載の方法。

請求項67

前記確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、前記所定の飽和閾値が、6557である、請求項65に記載の方法。

請求項68

前記確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、前記所定の飽和閾値が、65532である、請求項65に記載の方法。

請求項69

前記シーケンシングデータ中の前記標的の前記クオリティステータスは、(b)で得られた前記シーケンシングデータ中の前記標的の前記クオリティステータスが、完全シーケンシングではなく、かつ、飽和シーケンシングではない場合に、不完全シーケンシングとして分類される、請求項40〜68のいずれか一項に記載の方法。

請求項70

(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、(iv)において、前記標的が前記完全シーケンシングクオリティステータスを有している場合、1つ以上の親分子標識についてすべての子供分子標識を決定する工程と;少なくとも1つの子供分子標識および前記親分子標識について第1の統計解析を実施する工程と;前記第1の統計解析の帰無仮説容認される場合、前記子供分子標識の前記発生率を前記親分子標識に帰属させる工程と、によって調節される、請求項50〜69のいずれか一項に記載の方法。

請求項71

前記1つ以上の親分子標識が、所定の完全シーケンシング親閾値以上の発生率を有する分子標識を含み、前記所定の完全シーケンシング親閾値が、前記所定の完全シーケンシング発生率閾値と等しい、請求項70に記載の方法。

請求項72

前記子供分子標識が、前記親分子標識と1塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生率を有する分子標識を含み、前記所定の完全シーケンシング子供閾値が、3である、請求項70〜71のいずれか一項に記載の方法。

請求項73

前記所定の完全シーケンシング子供閾値が、5である、請求項72に記載の方法。

請求項74

前記帰無仮説が真である確率が偽発見率を下回る場合、前記第1の統計解析の前記帰無仮説が容認され、前記偽発見率が、5%である、請求項70〜73のいずれか一項に記載の方法。

請求項75

前記偽発見率が10%である、請求項74に記載の方法。

請求項76

前記第1の統計解析が、多重二項検定である、請求項70〜75のいずれか一項に記載の方法。

請求項77

(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数は、(iv)において、前記標的が前記完全シーケンシングクオリティステータスを有する場合、前記標的の分子標識を閾値化して、(b)で得られた前記シーケンシングデータ中の前記標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節される、請求項50〜76のいずれか一項に記載の方法。

請求項78

前記標的の前記分子標識を閾値化する工程が、前記標的の前記分子標識について第2の統計解析を実施する工程を含む、請求項77に記載の方法。

請求項79

前記第2の統計解析を実施する工程が、前記標的の前記分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;前記2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、を含み、前記偽の分子標識が、n番目に豊富な分子標識の前記発生率よりも低い発生率を有する分子標識を含み、前記真の分子標識が、n番目に豊富な分子標識の前記発生率以上の発生率を有する分子標識を含む、請求項78に記載の方法。

請求項80

前記2つのポアソン分布が、前記真の分子標識に対応する第1のポアソン分布と、前記偽の分子標識に対応する第2のポアソン分布を含む、請求項79に記載の方法。

請求項81

(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、(iv)において、(b)で得られた前記シーケンシングデータ中の前記標的の前記クオリティステータスが、前記不完全シーケンシングクオリティステータスである場合、前記標的が、(b)で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と;(b)で得られた前記シーケンシングデータから前記ノイジー標的を除去する工程と、によって調節される、請求項58〜80のいずれか一項に記載の方法。

請求項82

前記ノイジー標的の前記分子標識の前記発生率が、不完全シーケンシングクノイジー標的閾値以下であれば、前記標的はノイジーであり、前記不完全シーケンシングノイジー遺伝子閾値が、5である、請求項81に記載の方法。

請求項83

前記不完全シーケンシングノイジー標的閾値が、完全シーケンシングのクオリティステータスを有する前記複数の標的の前記分子標識の前記中央発生率と等しい、請求項82に記載の方法。

請求項84

前記不完全シーケンシングノイジー標的閾値が、完全シーケンシングのクオリティステータスを有する前記複数の標的の前記分子標識の前記平均発生率と等しい、請求項82に記載の方法。

請求項85

(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する前記分子標識の数が、(iv)において、(b)で得られた前記シーケンシングデータ中の前記標的の前記クオリティステータスが前記不完全シーケンシングクオリティステータスである場合、前記標的の前記分子標識を閾値化して、(b)で得られた前記シーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節される、請求項50〜84のいずれか一項に記載の方法。

請求項86

前記標的の前記分子標識を閾値化する工程が、前記分子標識について第3の統計解析を実施する工程を含む、請求項85に記載の方法。

請求項87

前記分子標識について前記第3の統計解析を実施する工程が、ゼロ切断ポアソンモデルを用いて、真の分子標識の数nを決定する工程と;(b)で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、を含み、前記偽の分子標識が、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、前記真の分子標識が、n番目に豊富な分子標識の前記発生率以上の発生率を有する分子標識を含む、請求項86に記載の方法。

請求項88

(i)でカウントされた前記シーケンシングデータが、(iii)で決定された前記1つ以上のシーケンシングデータエラーに応じて調節された後、(b)で得られた前記シーケンシングデータ中の前記分子標識の少なくとも50%が保持される、請求項40〜87のいずれか一項に記載の方法。

請求項89

(i)でカウントされた前記シーケンシングデータが、(iii)で決定された前記1つ以上のシーケンシングデータエラーに応じて調節された後、(b)b)で得られた前記シーケンシングデータ中の前記分子標識の少なくとも80%が保持される、請求項40〜87のいずれか一項に記載の方法。

請求項90

前記複数の標的に確率バーコードを付ける工程が、前記複数の確率バーコードを前記複数の標的とハイブリダイズさせて、前記確率バーコード付き標的を生成する工程を含む、請求項40〜87のいずれか一項に記載の方法。

請求項91

前記複数の標的に確率バーコードを付ける工程が、前記確率バーコード付き標的のインデックス付きライブラリーを作製する工程を含む、請求項89に記載の方法。

請求項92

前記確率バーコード付き標的のインデックス付きライブラリーを作製する工程が、前記複数の確率バーコードを含む固体担体を用いて実施される、請求項89〜91のいずれか一項に記載の方法。

請求項93

前記固体担体が、前記複数の確率バーコードと結合した複数の合成粒子を含む、請求項92に記載の方法。

請求項94

前記複数の確率バーコードの各々が、サンプル標識、ユニバーサル標識および細胞標識の1つ以上を含み、前記サンプル標識が、前記固体担体上の前記複数の確率バーコードに対するものと同じであり、ユニバーサル標識が、前記固体担体上の前記複数の確率バーコードに対するものと同じであり、細胞標識が、前記固体担体上の前記複数の確率バーコードに対するものと同じである、請求項92〜93のいずれか一項に記載の方法。

請求項95

前記サンプル標識が、5〜20ヌクレオチドを含む、請求項94に記載の方法。

請求項96

前記ユニバーサル標識が、5〜20ヌクレオチドを含む、請求項94〜95のいずれか一項に記載の方法。

請求項97

前記細胞標識が、5〜20ヌクレオチドを含む、請求項94〜96のいずれか一項に記載の方法。

請求項98

前記固体担体が、2次元または3次元の前記複数の確率バーコードを含む、請求項92〜95のいずれか一項に記載の方法。

請求項99

前記合成粒子がビーズである、請求項93〜98のいずれか一項に記載の方法。

請求項100

前記ビーズが、シリカゲルビーズ、調節多孔性ガラスビーズ、磁気ビーズダイナビーズ、セファデックスセファロースビーズセルロースビーズポリスチレンビーズ、またはそれらの任意の組合せである、請求項99に記載の方法。

請求項101

前記固体担体が、ポリマーマトリックスヒドロゲルニードルアレイデバイス、抗体、またはそれらの任意の組合せを含む、請求項40〜100に記載の方法。

請求項102

前記複数の標的がサンプル中に含まれる、請求項40〜101のいずれか一項に記載の方法。

請求項103

前記サンプルが、1つ以上の細胞を含む、請求項102に記載の方法。

請求項104

前記サンプルが単一細胞である、請求項102に記載の方法。

請求項105

前記1つ以上の細胞を溶解する工程をさらに含む、請求項102に記載の方法。

請求項106

前記1つ以上の細胞を溶解する工程が、前記サンプルを加熱する工程、前記サンプルを洗剤と接触させる工程、前記サンプルのpHを変える工程、またはそれらの任意の組合せを含む、請求項105に記載の方法。

請求項107

前記1つ以上の細胞が、1つ以上の細胞型を含む、請求項102に記載の方法。

請求項108

前記1つ以上の細胞型の少なくとも1つが、脳細胞、心細胞、癌細胞循環腫瘍細胞臓器細胞上皮細胞転移細胞良性細胞、一次細胞循環細胞、またはそれらの任意の組合せである、請求項107に記載の方法。

請求項109

前記複数の標的が、リボ核酸(RNA)、メッセンジャーRNAmRNA)、microRNA、低分子干渉RNA(siRNA)、RNA分解産物ポリ(A)テールを各々含むRNA、またはそれらの任意の組合せを含む、請求項40〜108のいずれか一項に記載の方法。

請求項110

前記方法が多重化される、請求項40〜109のいずれか一項に記載の方法。

請求項111

標的の数を決定する方法であって、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、前記複数の確率バーコードの各々が分子標識を含む工程と;(b)前記確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)前記複数の標的の1つ以上について:(i)前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、前記標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された前記標的の分子標識の前記クラスターを用いて、(b)で得られた前記シーケンシングデータを折りたたむ工程と;(iv)前記標的の数を推定する工程であって、推定された前記標的の数が、(ii)の前記シーケンシングデータの折りたたみ後に、(i)でカウントされた前記シーケンシングデータ中の前記標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む、方法。

請求項112

前記複数の標的が、細胞の全トランスクリプトームの標的を含む、請求項111に記載の方法。

請求項113

クラスター内の前記標的の分子標識が、互いの所定の方向近接性閾値内にある、請求項111〜112のいずれか一項に記載の方法。

請求項114

前記方向近接性閾値が、1のハミング距離である、請求項113に記載の方法。

請求項115

前記クラスター内の前記標的の前記分子標識が、1つ以上の親分子標識と、前記1つ以上の親分子標識の子供分子標識とを含み、前記親分子標識の発生率が、所定の方向近接性発生率閾値以上である、請求項112〜114のいずれか一項に記載の方法。

請求項116

前記所定の方向近接性発生率閾値が、1未満の子供分子標識の発生率の2倍である、請求項115に記載の方法。

請求項117

(ii)で同定された前記標的の分子標識の前記クラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程が、前記子供分子標識の前記発生率を前記親分子標識に帰属させる工程を含む、請求項111〜116のいずれか一項に記載の方法。

請求項118

前記標的のシーケンシング深度を決定する工程をさらに含む、請求項111〜117のいずれか一項に記載の方法。

請求項119

前記標的の前記シーケンシング深度が所定のシーケンシング深度閾値を超える場合、前記標的の数を推定する工程が、(i)でカウントされた前記シーケンシングデータを調節する工程を含む、請求項118に記載の方法。

請求項120

前記所定のシーケンシング深度閾値が、15〜20である、請求項119に記載の方法。

請求項121

(i)でカウントされた前記シーケンシングデータを調節する工程が、前記標的の分子標識を閾値化して、(b)で得られた前記シーケンシングデータ中の前記標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む、請求項119〜120のいずれか一項に記載の方法。

請求項122

前記標的の前記分子標識を閾値化する工程が、前記標的の前記分子標識について統計解析を実施する工程を含む、請求項121に記載の方法。

請求項123

前記統計解析を実施する工程が、前記標的の前記分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;前記2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られた前記シーケンシングデータから前記偽の分子標識を除去する工程と、を含み、前記偽の分子標識が、n番目に豊富な分子標識の前記発生率よりも低い発生率を有する分子標識を含み、前記真の分子標識が、n番目に豊富な分子標識の前記発生率以上の発生率を有する分子標識を含む、請求項122に記載の方法。

請求項124

前記2つのポアソン分布が、前記真の分子標識に対応する第1のポアソン分布と、前記偽の分子標識に対応する第2のポアソン分布を含む、請求項123に記載の方法。

請求項125

ハードウェアプロセッサーと、前記ハードウェアプロセッサーによって実行される場合、前記プロセッサーに請求項40〜124のいずれか一項に記載の方法を実行させる命令を記憶した非一過性メモリーと、を含む、ターゲットの数を決定するためのコンピュータシステム。

請求項126

請求項40〜124のいずれか一項に記載の方法を実行するためのコードを含むソフトウェアプログラムを含む、コンピュータ読取り媒体。

技術分野

0001

関連出願
本出願は、35U.S.C.§119(e)に従い、2016年5月26日出願の米国仮特許出願第62/342137号明細書;2016年8月31日出願の米国仮特許出願第62/381945号明細書;および2016年9月29日出願の米国仮特許出願第62/401720号明細書に基づく優先権を主張する。これらの出願各々の内容は、本出願をもってその全体が参照により明示的に組み込まれる。

背景技術

0002

本開示は、概して、核酸バーコーディング、より具体的には、分子標識を用いたPCRおよびシーケンシングエラー訂正の分野に関する。

0003

関連分野の説明
確率バーコーディングなどの方法および技術は、細胞分析において、特に、たとえば、逆転写ポリメラーゼ連鎖反応(PCR)増幅、および次世代シーケンシング(NGS)を用いて細胞の状態を判定するために、遺伝子発現プロフィール解読する上で有用である。しかし、これらの方法および技術は、置換エラー(1つ以上の塩基を含む)および非置換エラーなどのエラーを導入する恐れがあり、未訂正のままだと、過大評価された分子カウントが生じうる。従って、確率バーコーディングを用いて推定される正確な分子カウントを取得するために、さまざまなエラーを訂正することができる方法および技術が求められる。

課題を解決するための手段

0004

本明細書には、標的の数を決定する方法が開示される。いくつかの実施形態では、本方法は、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)(b)で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と;(iii)(b)で得られたシーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程が、以下:シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコード中の識別可能な配列を有する分子標識の数のうち1つ以上を決定することを含む工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。工程(i)、(ii)、(iii)、および(iv)は、複数の標的の各々について実施することができる。本方法は、多重化することができる。

0005

いくつかの実施形態では、本方法は、1つ以上のシーケンシングデータエラーを決定する前に、(b)で得られたシーケンシングデータを折りたたむ工程をさらに含む。(b)で得られたシーケンシングデータを折りたたむ工程は、類似した分子標識を有し、かつ、所定の折りたたみ発生率閾値よりも少ない発生率を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の2つのコピーは、標的の2つのコピーの分子標識の配列が少なくとも1塩基相違する場合、類似の分子標識を有する。

0006

いくつかの実施形態では、所定の折りたたみ発生率閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、7となりうる。確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、所定の折りたたみ発生率閾値は17となりうる。標的の2つのコピーは、標的の2つのコピーの分子標識の配列が少なくとも1塩基相違する場合、類似の分子標識を有する。いくつかの実施形態では、分子標識は、5〜20個のヌクレオチドを含む。さまざまな確率バーコードの分子標識は、互いに異なっていてよい。複数の確率バーコードは、識別可能な配列を有する約6561の分子標識を含む。複数の確率バーコードは、識別可能な配列を有する約65536の分子標識を含む。

0007

いくつかの実施形態では、50ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、75ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、100ヌクレオチド以上のリード長を有する複数の標的の配列を含む。(b)で得られたシーケンシングデータは、複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応(PCR)増幅を実施することによって生成することができる。

0008

いくつかの実施形態では、1つ以上のシーケンシングデータエラーは、PCR導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せでありうる。PCR導入エラーは、PCR増幅エラー、PCR増幅バイアス、不十分なPCR増幅、またはそれらの任意の組合せの結果でありうる。シーケンシング導入エラーは、不正確ベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果でありうる。

0009

いくつかの実施形態では、シーケンシングデータ中の標的のクオリティステータスは、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングでありうる。シーケンシングデータ中の標的のクオリティステータスは、複数の確率バーコード中に識別可能な配列を有する分子標識の数と、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数によって決定することができる。シーケンシングデータ中の標的のクオリティステータスは、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングではなく、かつ、飽和シーケンシングではない場合に、不完全シーケンシングとして分類することができる。

0010

いくつかの実施形態では、完全シーケンシングクオリティステータスは、所定の完全シーケンシング散布閾値以上のポアソン分布と比較した散布指数によって決定され、ここで、所定の完全シーケンシング散布閾値は、0.9、1、または4でありうる。完全シーケンシングクオリティステータスは、さらに、(b)で得られたシーケンシングデータ中の所定の完全シーケンシング発生率閾値以上の発生率を有する分子標識によって決定することもでき、ここで、所定の完全シーケンシング発生率閾値は、10または18でありうる。

0011

いくつかの実施形態では、飽和シーケンシングクオリティステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって、決定することができる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する複数の標的のうちの1つの他の標的によって、決定することもできる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、6557でありうる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、65532でありうる。

0012

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、標的が完全シーケンシングクオリティステータスを有していれば、1つ以上の親分子標識についてすべての子供分子標識を決定する工程と;少なくとも1つの子供分子標識および親分子標識について第1の統計解析を実施する工程と;第1の統計解析の帰無仮説容認されれば、子供分子標識の発生率を親分子標識に帰属させる工程と、によって調節される。

0013

いくつかの実施形態では、1つ以上の親分子標識は、所定の完全シーケンシング親閾値以上の発生率を有する分子標識を含み、ここで、所定の完全シーケンシング親閾値は、所定の完全シーケンシング発生率閾値と等しい。子供分子標識は、親分子標識と1塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生率を有する分子標識を含み、ここで、所定の完全シーケンシング子供閾値は、3または5でありうる。第1の統計解析の帰無仮説は、真であるという帰無仮説の確率が発見率を下回れば、容認することができ、ここで、偽発見率は、5%または10%である。第1の統計解析は、多重二項検定であってよい。

0014

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、標的が完全シーケンシングクオリティステータスを有していれば、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節される。標的の分子標識を閾値化する工程は、標的の分子標識について第2の統計解析を実施する工程を含む。

0015

いくつかの実施形態では、第2の統計解析を実施する工程は、以下:標的の分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。2つのポアソン分布は、真の分子標識に対応する第1のポアソン分布と、偽の分子標識に対応する第2のポアソン分布を含む。

0016

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、(b)で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と;(b)で得られたシーケンシングデータからノイジー標的を除去する工程とによって調節されうる。ノイジー標的の分子標識の発生率が、不完全シーケンシングクノイジー標的閾値以下であれば、標的はノイジーである可能性があり、ここで、不完全シーケンシングノイジー遺伝子閾値は、5である。不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生率と等しくてもよい。

0017

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが不完全シーケンシングクオリティステータスであれば、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節することができる。

0018

いくつかの実施形態では、標的の分子標識を閾値化する工程は、分子標識について第3の統計解析を実施する工程を含む。分子標識について第3の統計解析を実施する工程は、ゼロ切断ポアソンモデルを用いて、真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0019

いくつかの実施形態では、(i)でカウントされたシーケンシングデータが、(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された後、(b)で得られたシーケンシングデータ中の分子標識の少なくとも50%または80%を保持することができる。

0020

いくつかの実施形態では、複数の標的に確率バーコードを付ける工程は、複数の確率バーコードを複数の標的とハイブリダイズさせて、確率バーコード付き標的を生成する工程を含む。複数の標的に確率バーコードを付ける工程は、確率バーコード付き標的のインデックス付きライブラリーを作製する工程を含む。確率バーコード付き標的のインデックス付きライブラリーを作製する工程は、複数の確率バーコードを含む固体担体を用いて実施することができる。固体担体は、複数の確率バーコードと関連した複数の合成粒子を含む。固体担体は、2次元または3次元の複数の確率バーコードを含む。固体担体は、ポリマーマトリックスヒドロゲルニードルアレイデバイス、抗体、またはそれらの任意の組合せを含む。

0021

いくつかの実施形態では、複数の確率バーコードの各々は、サンプル標識、ユニバーサル標識および細胞標識の1つ以上を含み、ここで、サンプル標識は、固体担体上の複数の確率バーコードに対するものと同じであってよく、ユニバーサル標識は、固体担体上の複数の確率バーコードに対するものと同じであってよく、細胞標識は、固体担体上の複数の確率バーコードに対するものと同じであってよい。サンプル標識は、5〜20ヌクレオチドを含む。ユニバーサル標識は、5〜20ヌクレオチドを含む。細胞標識は、5〜20ヌクレオチドを含む。

0022

いくつかの実施形態では、合成粒子はビーズであってよい。ビーズは、シリカゲルビーズ多孔性ガラスビーズ、磁気ビーズダイナビーズ、セファデックスセファロースビーズセルロースビーズポリスチレンビーズ、またはそれらの任意の組合せであってよい。

0023

いくつかの実施形態では、複数の標的をサンプル中に含有させることができる。サンプルは、1つ以上の細胞を含む。サンプルは、単一細胞であってもよい。1つ以上の細胞は、1つ以上の細胞型を含む。1つ以上の細胞型の少なくとも1つは、脳細胞、心細胞、癌細胞循環腫瘍細胞臓器細胞上皮細胞転移細胞良性細胞、一次細胞循環細胞、またはそれらの任意の組合せである。

0024

いくつかの実施形態では、複数の標的は、リボ核酸(RNA)、メッセンジャーRNAmRNA)、microRNA、低分子干渉RNA(siRNA)、RNA分解産物ポリ(A)テールを各々含むRNA、またはそれらの任意の組合せを含む。

0025

いくつかの実施形態では、本方法は、さらに、1つ以上の細胞を溶解する工程を含みうる。1つ以上の細胞を溶解する工程は、サンプルを加熱する工程、サンプルを洗剤と接触させる工程、サンプルのpHを変える工程、またはそれらの任意の組合せを含む。

0026

本明細書には、標的の数を決定する方法が開示される。いくつかの実施形態では、本方法は、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(ii)のシーケンシングデータの折りたたみ後に、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。複数の標的は、細胞の全トランスクリプトームの標的を含む。

0027

いくつかの実施形態では、クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内にある。方向近接性閾値は、1のハミング距離である。クラスター内の標的の分子標識は、1つ以上の親分子標識と、1つ以上の親分子標識の子供分子標識を含み、ここで、親分子標識の発生率は、所定の方向近接性発生率閾値以上である。所定の方向近接性発生率閾値は、1未満の子供分子標識の発生率の2倍であってよい。

0028

いくつかの実施形態では、(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程は、子供分子標識の発生率を親分子標識に帰属させる工程を含む。

0029

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程も含みうる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、(i)でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、15〜20であってよい。(i)でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下:標的の分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0030

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を保存するコンピュータが可読メモリーと;コンピュータ可読メモリーと連絡する1つ以上のコンピュータプロセッサーを含み、ここで、1つ以上のコンピュータプロセッサーは、実行可能命令によりプログラムされて、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)(b)で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と;(iii)(b)で得られたシーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の1つ以上のシーケンシングエラーを決定する工程が、以下:シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコード中の識別可能な配列を有する分子標識の数のうち1つ以上を決定することを含む工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。工程(i)、(ii)、(iii)、および(iv)は、複数の標的の各々について実施することができる。工程(a)、(b)、(c)、(i)、(ii)、(iii)、および(iv)は、多重化することができる。

0031

いくつかの実施形態では、実行可能命令は、さらに、1つ以上のシーケンシングデータエラーを決定する前に、(b)で得られたシーケンシングデータを折りたたむ工程を実施するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。(b)で得られたシーケンシングデータを折りたたむ工程は、類似分子標識を有し、かつ、所定の折りたたみ発生率閾値よりも少ない発生率を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の2つのコピーは、標的の2つのコピーの分子標識の配列が、少なくとも1塩基相違する場合、類似の分子標識を有する。

0032

いくつかの実施形態では、所定の折りたたみ発生率閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、7となりうる。確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、所定の折りたたみ発生率閾値は17となりうる。標的の2つのコピーは、標的の2つのコピーの分子標識の配列が、少なくとも1塩基相違する場合、類似の分子標識を有する。いくつかの実施形態では、分子標識は、5〜20ヌクレオチドを含む。さまざまな確率バーコードの分子標識は、互いに異なっていてよい。複数の確率バーコードは、識別可能な配列を有する約6561の分子標識を含む。複数の確率バーコードは、識別可能な配列を有する約65536の分子標識を含む。

0033

いくつかの実施形態では、50ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、75ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、100ヌクレオチド以上のリード長を有する複数の標的の配列を含む。(b)で得られたシーケンシングデータは、複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応(PCR)増幅を実施することによって生成することができる。

0034

いくつかの実施形態では、1つ以上のシーケンシングデータエラーは、PCR導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せでありうる。PCR導入エラーは、PCR増幅エラー、PCR増幅バイアス、不十分なPCR増幅、またはそれらの任意の組合せの結果でありうる。シーケンシング導入エラーは、不正確なベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果でありうる。

0035

いくつかの実施形態では、実行可能命令は、さらに、シーケンシングデータ中の標的のクオリティステータスが、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングであることを決定するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。シーケンシングデータ中の標的のクオリティステータスは、複数の確率バーコード中に識別可能な配列を有する分子標識の数と、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数によって決定することができる。シーケンシングデータ中の標的のクオリティステータスは、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングではなく、飽和シーケンシングでもない場合、不完全シーケンシングとして分類することができる。

0036

いくつかの実施形態では、実行可能命令は、さらに、所定の完全シーケンシング散布閾値以上のポアソン分布と比較した散布指数によって、完全シーケンシングクオリティステータスを決定するように、1つ以上のコンピュータプロセッサーをプログラムすることもでき、ここで、所定の完全シーケンシング散布閾値は、0.9、1、または4でありうる。完全シーケンシングクオリティステータスは、さらに、(b)で得られたシーケンシングデータ中の所定の完全シーケンシング発生率閾値以上の発生率を有する分子標識によって決定することもでき、ここで、所定の完全シーケンシング発生率閾値は、10または18でありうる。

0037

いくつかの実施形態では、実行可能命令は、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む特定の数の分子標識を有する標的によって、飽和シーケンシングクオリティステータスを決定するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む特定の数の分子標識を有する複数の標的のうちの1つの他の標的によって決定することもできる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、6557でありうる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、65532でありうる。

0038

いくつかの実施形態では、実行可能命令は、さらに、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、(iv)において、標的が完全シーケンシングクオリティステータスを有していれば、1つ以上の親分子標識についてすべての子供分子標識を決定する工程と;少なくとも1つの子供分子標識および親分子標識について第1の統計解析を実施する工程と;第1の統計解析の帰無仮説が容認されれば、子供分子標識の発生率を親分子標識に帰属させる工程と、によって調節するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。

0039

いくつかの実施形態では、1つ以上の親分子標識は、所定の完全シーケンシング親閾値以上の発生率を有する分子標識を含み、ここで、所定の完全シーケンシング親閾値は、所定の完全シーケンシング発生率閾値と等しい。子供分子標識は、親分子標識と1塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生率を有する分子標識を含み、ここで、所定の完全シーケンシング子供閾値は、3または5でありうる。第1の統計解析の帰無仮説は、真であるという帰無仮説の確率が偽発見率を下回れば、容認することができ、ここで、偽発見率は、5%または10%である。第1の統計解析は、多重二項検定であってよい。

0040

いくつかの実施形態では、実行可能命令は、さらに、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、(iv)において、標的が完全シーケンシングクオリティステータスを有していれば、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。標的の分子標識を閾値化する工程は、標的の分子標識について第2の統計解析を実施する工程を含む。

0041

いくつかの実施形態では、実行可能命令は、さらに、標的の分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、によって、第2の統計解析を実施する工程を実施するように、1つ以上のコンピュータプロセッサーをプログラムすることもでき、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。2つのポアソン分布は、真の分子標識に対応する第1ポアソン分布と、偽の分子標識に対応する第2ポアソン分布を含む。

0042

いくつかの実施形態では、実行可能命令は、さらに、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、(iv)において、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、(b)で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と;(b)で得られたシーケンシングデータからノイジー標的を除去する工程と、によって調節するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。ノイジー標的の分子標識の発生率が、不完全シーケンシングクノイジー標的閾値以下であれば、標的はノイジーである可能性があり、ここで、不完全シーケンシングノイジー遺伝子閾値は5である。不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生率と等しくてもよい。

0043

いくつかの実施形態では、実行可能命令は、さらに、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、(iv)において、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが不完全シーケンシングクオリティステータであれば、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。

0044

いくつかの実施形態では、実行可能命令は、さらに、分子標識について第3の統計解析を実施する工程によって、標的の分子標識を閾値化するように、1つ以上のコンピュータプロセッサーをプログラムすることもできる。分子標識について第3の統計解析を実施する工程は、ゼロ切断ポアソンモデルを用いて、真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0045

いくつかの実施形態では、(i)でカウントされたシーケンシングデータが(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された後、(b)で得られたシーケンシングデータ中の分子標識の少なくとも50%または80%が保持されうる。

0046

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を記憶するコンピュータ可読メモリーと;コンピュータ可読メモリーと連絡する1つ以上のコンピュータプロセッサーを含み、ここで、1つ以上のコンピュータプロセッサーは、以下:(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(ii)でシーケンシングデータを折りたたんだ後、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を実施するように、実行可能命令によりプログラムされる。複数の標的は、細胞の全トランスクリプトームの標的を含む。

0047

いくつかの実施形態では、クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内にある。方向近接性閾値は、1のハミング距離である。クラスター内の標的の分子標識は、1つ以上の親分子標識と、1つ以上の親分子標識の子供分子標識を含み、ここで、親分子標識の発生率は、所定の方向近接性発生率閾値以上である。所定の方向近接性発生率閾値は、1未満の子供分子標識の発生率の2倍であってよい。

0048

いくつかの実施形態では、(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程は、子供分子標識の発生率を親分子標識に帰属させる工程を含む。

0049

いくつかの実施形態では、実行可能命令は、さらに、標的のシーケンシング深度を決定するように、1つ以上のコンピュータプロセッサーをプログラムすることができる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、(i)でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、15〜20であってよい。(i)でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下:標的の分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0050

本明細書には、実行可能コードを含む1つ以上の非一過性コンピュータ読取り媒体が開示され、これは、実行されると、1つ以上のコンピュータデバイスに標的の数を決定させる。いくつかの実施形態では、実行可能コードは、実行されると、1つ以上のコンピュータデバイスに、以下:(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)(b)で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と;(iii)(b)で得られたシーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の1つ以上のシーケンシングエラーを決定する工程が、以下:シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコードに識別可能な配列を有する分子標識の数のうち1つ以上を決定することを含む工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含むプロセスを実施させる。工程(i)、(ii)、(iii)、および(iv)は、複数の標的の各々について実施することができる。本方法は、多重化することができる。

0051

いくつかの実施形態では、本プロセスは、1つ以上のシーケンシングデータエラーを決定する前に、(b)で得られたシーケンシングデータを折りたたむ工程をさらに含む。(b)で得られたシーケンシングデータを折りたたむ工程は、類似分子標識を有し、かつ、所定の折りたたみ発生率閾値よりも少ない発生率を有する標的のコピーを、複数の標的について同じ分子標識を有するものとして帰属させる工程を含み、ここで、標的の2つのコピーは、標的の2つのコピーの分子標識の配列が、少なくとも1塩基相違する場合、類似の分子標識を有する。

0052

いくつかの実施形態では、所定の折りたたみ発生率閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、7となりうる。確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、所定の折りたたみ発生率閾値は17となりうる。標的の2つのコピーは、標的の2つのコピーの分子標識の配列が、少なくとも1塩基相違する場合、類似の分子標識を有する。いくつかの実施形態では、分子標識は、5〜20ヌクレオチドを含む。さまざまな確率バーコードの分子標識は、互いに異なっていてよい。複数の確率バーコードは、識別可能な配列を有する約6561の分子標識を含む。複数の確率バーコードは、識別可能な配列を有する約65536の分子標識を含む。

0053

いくつかの実施形態では、シーケンシングデータは、50ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、75ヌクレオチド以上のリード長を有する複数の標的の配列を含む。シーケンシングデータは、100ヌクレオチド以上のリード長を有する複数の標的の配列を含む。(b)で得られたシーケンシングデータは、複数の確率バーコード付き標的に対してポリメラーゼ連鎖反応(PCR)増幅を実施することによって生成することができる。

0054

いくつかの実施形態では、1つ以上のシーケンシングデータエラーは、PCR導入エラー、シーケンシング導入エラー、バーコード混入に起因するエラー、ライブラリー作製エラー、またはそれらの任意の組合せでありうる。PCR導入エラーは、PCR増幅エラー、PCR増幅バイアス、不十分なPCR増幅、またはそれらの任意の組合せの結果でありうる。シーケンシング導入エラーは、不正確なベースコーリング、不十分なシーケンシング、またはそれらの任意の組合せの結果でありうる。

0055

いくつかの実施形態では、シーケンシングデータ中の標的のクオリティステータスは、完全シーケンシング、不完全シーケンシング、または飽和シーケンシングでありうる。シーケンシングデータ中の標的のクオリティステータスは、複数の確率バーコード中に識別可能な配列を有する分子標識の数と、カウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数によって決定することができる。シーケンシングデータ中の標的のクオリティステータスは、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが、完全シーケンシングではなく、かつ、飽和シーケンシングではない場合に、不完全シーケンシングとして分類することができる。

0056

いくつかの実施形態では、完全シーケンシングクオリティステータスは、所定の完全シーケンシング散布閾値以上のポアソン分布に対する散布指数によって決定され、ここで、所定の完全シーケンシング散布閾値は、0.9、1、または4でありうる。完全シーケンシングクオリティステータスは、さらに、(b)で得られたシーケンシングデータ中の所定の完全シーケンシング発生率閾値以上の発生率を有する分子標識によって決定することもでき、ここで、所定の完全シーケンシング発生率閾値は、10または18でありうる。

0057

いくつかの実施形態では、飽和シーケンシングクオリティステータスは、所定の飽和閾値よりも大きい,識別可能な配列を含む分子標識の数を有する標的によって、決定することができる。飽和シーケンシングクオリティステータスは、さらに、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する複数の標的のうちの1つの他の標的によって決定することもできる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、6557でありうる。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、65532でありうる。

0058

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、標的が完全シーケンシングクオリティステータスを有していれば、1つ以上の親分子標識についてすべての子供分子標識を決定する工程と;少なくとも1つの子供分子標識および親分子標識について第1の統計解析を実施する工程と;第1の統計解析の帰無仮説が容認されれば、子供分子標識の発生率を親分子標識に帰属させる工程と、によって調節される。

0059

いくつかの実施形態では、1つ以上の親分子標識は、所定の完全シーケンシング親閾値以上の発生率を有する分子標識を含み、ここで、所定の完全シーケンシング親閾値は、所定の完全シーケンシング発生率閾値と等しい。子供分子標識は、親分子標識と1塩基相違し、かつ、所定の完全シーケンシング子供閾値以下の発生率を有する分子標識を含み、ここで、所定の完全シーケンシング子供閾値は、3または5でありうる。第1の統計解析の帰無仮説は、真であるという帰無仮説の確率が偽発見率を下回れば、容認することができ、ここで、偽発見率は、5%または10%である。第1の統計解析は、多重二項検定であってよい。

0060

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、標的が完全シーケンシングクオリティステータスを有していれば、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程によって調節される。標的の分子標識を閾値化する工程は、標的の分子標識について第2の統計解析を実施する工程を含む。

0061

いくつかの実施形態では、第2の統計解析を実施する工程は、標的の分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。2つのポアソン分布は、真の分子標識に対応する第1ポアソン分布と、偽の分子標識に対応する第2ポアソン分布を含む。

0062

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが、不完全シーケンシングクオリティステータスである場合、標的が、(b)で得られたシーケンシングデータにおいてノイジーであるか否かを決定する工程と;(b)で得られたシーケンシングデータからノイジー標的を除去する工程と、によって調節することができる。ノイジー標的の分子標識の発生率が、不完全シーケンシングクノイジー標的閾値以下であれば、標的はノイジーである可能性があり、ここで、不完全シーケンシングノイジー遺伝子閾値は5である。不完全シーケンシングノイジー標的閾値は、完全シーケンシングのクオリティステータスを有する複数の標的の分子標識の中央または平均発生率と等しくてもよい。

0063

いくつかの実施形態では、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数は、(iv)において、(b)で得られたシーケンシングデータ中の標的のクオリティステータスが不完全シーケンシングクオリティステータである場合、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の真の分子標識および偽の分子標識を決定する工程によって調節することができる。

0064

いくつかの実施形態では、標的の分子標識を閾値化する工程は、分子標識について第3の統計解析を実施する工程を含む。分子標識について第3の統計解析を実施する工程は、ゼロ切断ポアソンモデルを用いて、真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0065

いくつかの実施形態では、(i)でカウントされたシーケンシングデータが、(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された後、(b)で得られたシーケンシングデータ中の分子標識の少なくとも50%または80%を保持することができる。

0066

本明細書には、実行可能コードを含む1つ以上の非一過性コンピュータ読取り媒体が開示され、これは、実行されると、1つ以上のコンピュータデバイスに標的の数を決定させる。いくつかの実施形態では、実行可能コードは、実行されると、1つ以上のコンピュータデバイスに、以下:(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(ii)でシーケンシングデータを折りたたんだ後、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含むプロセスを実施させる。複数の標的は、細胞の全トランスクリプトームの標的を含む。

0067

いくつかの実施形態では、クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内にある。方向近接性閾値は、1のハミング距離である。クラスター内の標的の分子標識は、1つ以上の親分子標識と、1つ以上の親分子標識の子供分子標識を含み、ここで、親分子標識の発生率は、所定の方向近接性発生率閾値以上である。所定の方向近接性発生率閾値は、1未満の子供分子標識の発生率の2倍であってよい。

0068

いくつかの実施形態では、(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程は、子供分子標識の発生率を親分子標識に帰属させる工程を含む。

0069

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程を含みうる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、(i)でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、15〜20であってよい。(i)でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下:標的の分子標識の分布およびそれらの発生率を2つのポアソン分布に当てはめる工程と;2つのポアソン分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0070

本明細書には、PCRまたはシーケンシングエラーを訂正する方法が開示される。いくつかの実施形態では、本方法は、(a)確率バーコード付き標的のシーケンシングデータを取得する工程と;(b)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された標的の分子標識のクラスターを用いて、(a)で得られたシーケンシングデータを折りたたむ工程と;(iv)標的の数を推定する工程と、を含むことができ、ここで、推定された標的の数は、(ii)のシーケンシングデータの折りたたみ後に、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。複数の標的は、細胞の全トランスクリプトームの標的を含む。いくつかの実施形態では、本方法を用いて、標的の数を決定することができる。本方法は、さらに、(c)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程と;(d)確率バーコード付き標的をシーケンシングして、受け取った確率バーコード付き標的のシーケンシングデータを生成する工程と、を含みうる。

0071

いくつかの実施形態では、クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内にある。方向近接性閾値は、1のハミング距離である。クラスター内の標的の分子標識は、1つ以上の親分子標識と、1つ以上の親分子標識の子供分子標識を含み、ここで、親分子標識の発生率は、所定の方向近接性発生率閾値以上である。所定の方向近接性発生率閾値は、1未満の子供分子標識の発生率の2倍であってよい。

0072

いくつかの実施形態では、(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程は、子供分子標識の発生率を親分子標識に帰属させる工程を含む。

0073

いくつかの実施形態では、本方法は、さらに、標的のシーケンシング深度を決定する工程を含む。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、(i)でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、15〜20であってよい。(i)でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、標的の分子標識の分布およびそれらの発生率を2つのネガティブ二項分布に当てはめる工程と;2つのネガティブ二項分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0074

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を記憶するコンピュータ可読メモリーと;コンピュータ可読メモリーと連絡する1つ以上のコンピュータプロセッサーを含み、ここで、1つ以上のコンピュータプロセッサーは、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(ii)でシーケンシングデータを折りたたんだ後、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を実施するように、実行可能命令によりプログラムされる。複数の標的は、細胞の全トランスクリプトームの標的を含む。

0075

いくつかの実施形態では、クラスター内の標的の分子標識は、互いの所定の方向近接性閾値内にある。方向近接性閾値は、1のハミング距離である。クラスター内の標的の分子標識は、1つ以上の親分子標識と、1つ以上の親分子標識の子供分子標識を含み、ここで、親分子標識の発生率は、所定の方向近接性発生率閾値以上である。所定の方向近接性発生率閾値は、1未満の子供分子標識の発生率の2倍であってよい。

0076

いくつかの実施形態では、(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程は、子供分子標識の発生率を親分子標識に帰属させる工程を含む。

0077

いくつかの実施形態では、実行可能命令は、さらに、標的のシーケンシング深度を決定するように、1つ以上のコンピュータプロセッサーをプログラムすることができる。標的の数を推定する工程は、標的のシーケンシング深度が所定のシーケンシング深度閾値を超える場合、(i)でカウントされたシーケンシングデータを調節する工程を含む。所定のシーケンシング深度閾値は、15〜20であってよい。(i)でカウントされたシーケンシングデータを調節する工程は、標的の分子標識を閾値化して、(b)で得られたシーケンシングデータ中の標的に関連付けられた真の分子標識および偽の分子標識を決定する工程を含む。標的の分子標識を閾値化する工程は、標的の分子標識について統計解析を実施する工程を含む。統計解析を実施する工程は、以下:標的の分子標識の分布およびそれらの発生率を2つのネガティブ二項分布に当てはめる工程と;2つのネガティブ二項分布を用いて真の分子標識の数nを決定する工程と;(b)で得られたシーケンシングデータから偽の分子標識を除去する工程と、を含み、ここで、偽の分子標識は、n番目に豊富な分子標識の発生率よりも低い発生率を有する分子標識を含み、また、真の分子標識は、n番目に豊富な分子標識の発生率以上の発生率を有する分子標識を含む。

0078

本明細書には、PCRまたはシーケンシングエラーを訂正する方法が開示される。いくつかの実施形態では、本方法は、以下:(a)確率バーコード付き標的のシーケンシングデータを取得する工程と;(b)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と;(iii)標的の数を推定する工程と、を含み、ここで、推定された標的の数が、(ii)で決定されたノイズ分子標識の数に応じて調節された、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。いくつかの実施形態では、本方法は、シーケンシングデータ中の標的のシーケンシングステータスを決定する工程もさらに含む。シーケンシングデータ中の標的のシーケンシングステータスは、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである。いくつかの実施形態では、本方法を用いて、標的の数を決定することができる。本方法は、さらに、(c)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程と;(d)確率バーコード付き標的をシーケンシングして、受け取った確率バーコード付き標的のシーケンシングデータを生成する工程と、を含みうる。

0079

いくつかの実施形態では、飽和シーケンシングステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって決定される。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、約6557である。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、約65532である。シーケンシングデータ中の標的のシーケンシグステータスが、飽和シーケンシングステータスである場合、(ii)で決定されたノイズ分子標識の数は、ゼロである。

0080

いくつかの実施形態では、過少シーケンシングステータスは、所定の過少シーケンシング閾値より小さい深度(たとえば、平均、最小、または最大深度)を有する標的によって決定することができる。過少シーケンシング閾値は約4である。過少シーケンシング閾値は、識別可能な配列を有する分子標識の数とは無関係でありうる。シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、(ii)で決定されたノイズ分子標識の数は、ゼロである。

0081

いくつかの実施形態では、過剰シーケンシングステータスは、所定の過剰シーケンシング閾値より大きい、識別可能な配列を有する分子標識の数を含む標的によって決定される。たとえば、過剰シーケンシング閾値は、確率バーコードが、識別可能な配列を有する約6561分子標識を含む場合、約250でありうる。本方法は、シーケンシングデータ中の標的のシーケンシングテータスが、過剰シーケンシングステータスである場合、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、所定の過剰シーケンシング閾値にサブサンプリングする工程を含む。

0082

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、ネガティブ二項分布当てはめ条件が満たされれば、(iv)シグナルネガティブ二項分布を、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程であって、シグナルネガティブ二項分布が、シグナル分子標識である、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応するステップと;(v)ノイズネガティブ二項分布を、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程であって、ノイズネガティブ二項分布が、ノイズ分子標識である、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する工程と;(vi)(v)で当てはめたシグナルネガティブ二項分布および(vi)で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程と、を含む。

0083

いくつかの実施形態では、ネガティブ二項分布当てはめ条件は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではないことを含む。(v)で当てはめたシグナルネガティブ二項分布および(vi)で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の各々について、識別可能な配列のシグナル確率が、シグナルネガティブ二項分布であることを決定する工程と;識別可能な配列のノイズ確率が、ノイズネガティブ二項分布であることを決定する工程と;シグナル確率がノイズ確率より小さければ、識別可能な配列がノイズ分子標識であることを決定する工程と、を含む。

0084

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、(ii)でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を加える工程を含む。擬似点閾値は、10である。

0085

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、以下:シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、(ii)でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。

0086

いくつかの実施形態では、非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、所定の再使用分子標識閾値より大きい場合、(ii)でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。たとえば、再使用分子標識閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、約650でありうる。

0087

いくつかの実施形態では、非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数について非ユニーク分子標識の理論上の数を決定する工程と;シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するn番目に豊富な分子標識よりも大きい発生率を有する分子標識を除去する工程と、を含み、ここで、nは、非ユニーク分子標識の理論数である。

0088

本明細書には、標的の数を決定するためのコンピュータシステムが開示される。いくつかの実施形態では、コンピュータシステムは、実行可能命令を記憶するコンピュータ可読メモリーと;コンピュータ可読メモリーと連絡する1つ以上のコンピュータプロセッサーを含み、ここで、1つ以上のコンピュータプロセッサーは、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程と;(iii)標的の数を推定する工程と、を実施するように、実行可能命令によりプログラムされ、ここで、推定された標的の数は、(ii)で決定されたノイズ分子標識の数に応じて調節された、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する。いくつかの実施形態では、本方法は、シーケンシングデータ中の標的のシーケンシングステータスを決定する工程をさらに含む。シーケンシングデータ中の標的のシーケンシングステータスは、飽和シーケンシング、過少シーケンシング、または過剰シーケンシングである。

0089

いくつかの実施形態では、飽和シーケンシングステータスは、所定の飽和閾値よりも大きい、識別可能な配列を含む分子標識の数を有する標的によって決定される。たとえば、所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、約6557である。所定の飽和閾値は、確率バーコードが、識別可能な配列を有する約65536の分子標識を含む場合、約65532でありうる。シーケンシングデータ中の標的のシーケンシグステータスが、飽和シーケンシングステータスである場合、(ii)で決定されたノイズ分子標識の数は、ゼロである。

0090

いくつかの実施形態では、過少シーケンシングステータスは、所定の過少シーケンシング閾値より小さい深度(たとえば、平均、最小、または最大深度)を有する標的によって決定することができる。過少シーケンシング閾値は約4である。過少シーケンシング閾値は、識別可能な配列を有する分子標識の数とは無関係でありうる。シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスである場合、(ii)で決定されたノイズ分子標識の数は、ゼロである。

0091

いくつかの実施形態では、過剰シーケンシングステータスは、所定の過剰シーケンシング閾値より大きい、識別可能な配列を有する分子標識の数を有する標的によって決定される。たとえば、過剰シーケンシング閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、約250でありうる。本方法は、シーケンシングデータ中の標的のシーケンシングステータスが、過剰シーケンシングステータスである場合、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数を、所定の過剰シーケンシング閾値にサブサンプリングする工程を含む。

0092

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、ネガティブ二項分布当てはめ条件が満たされれば、(iv)シグナルネガティブ二項分布を、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程であって、シグナルネガティブ二項分布が、シグナル分子標識である、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応するステップと;(v)ノイズネガティブ二項分布を、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に当てはめる工程であって、ノイズネガティブ二項分布が、ノイズ分子標識である、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に対応する工程と;(vi)(v)で当てはめたシグナルネガティブ二項分布および(vi)で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程と、を含む。

0093

いくつかの実施形態では、ネガティブ二項分布当てはめ条件は、以下:シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではないことを含む。(v)で当てはめたシグナルネガティブ二項分布および(vi)で当てはめたノイズネガティブ二項分布を用いて、ノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の各々について、識別可能な配列のシグナル確率が、シグナルネガティブ二項分布であることを決定する工程と;識別可能な配列のノイズ確率が、ノイズネガティブ二項分布であることを決定する工程と;シグナル確率がノイズ確率より小さければ、識別可能な配列がノイズ分子標識であることを決定する工程と、を含む。

0094

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値より少ない場合、(ii)でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する前に、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数に擬似点を加える工程を含む。擬似点閾値は、10である。

0095

いくつかの実施形態では、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する工程は、シーケンシングデータ中の標的のシーケンシングステータスが、過少シーケンシングステータスまたは過剰シーケンシングステータスではなく、かつ、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、擬似点閾値以上である場合、(ii)でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。

0096

いくつかの実施形態では、非ユニーク分子標識を除去する工程は、シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数が、所定の再使用分子標識閾値より大きい場合、(ii)でシーケンシングデータ中の標的に関連付けられた識別可能な配列を有するノイズ分子標識の数を決定する際に、非ユニーク分子標識を除去する工程を含む。たとえば、再使用分子標識閾値は、確率バーコードが、識別可能な配列を有する約6561の分子標識を含む場合、約650でありうる。

0097

本明細書に、実行されると、本明細書に開示した方法のいずれかを実施する実行可能コードを含む1つ以上の非一過性コンピュータ読取り媒体が開示される。

図面の簡単な説明

0098

非限定的な例示的確率バーコードを示す。
非限定的な例示的確率バーコーディングおよびディジタルカウンティングを示す。
複数の標的からの確率バーコード標的のインデックス付きライブラリーを作製するための非限定的な例示的プロセスを示す概略図である。
分子標識エラー、サンプル標識エラー、および真の分子標識シグナルの非限定的な例示的分布を示す概略図である。
分子標識を用いて、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
完全シーケンシングおよび不完全シーケンシングによって得られるシーケンシングデータを示す概略図である。
方向近接性に基づく分子標識を用いて、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
再帰的置換エラー訂正および分子標識深度変化二次導関数に基づいて、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
2つのネガティブ二項分布を用いたエラー訂正の非限定的な例示的実施形態を示すフローチャートである。
マイクロウェルプレートのサブサンプリングおよび分子標識のマッピングにより、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
遺伝子のサブサンプリングおよび分子標識のマッピングにより、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
再帰により、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
初期パラメータ推定値について2番目に高い分子標識を用いることにより、再帰的置換エラー訂正および分布ベースのエラー訂正に基づき、PCRおよびシーケンシングエラーを訂正する非限定的な例示的実施形態を示すフローチャートである。
本開示の方法に使用するのに好適な非限定的な例示的機器を示す。
本開示の実施形態に関連して使用することができるコンピュータシステムの非限定的な例示的構造を示す。
本開示の方法に使用するのに好適な複数のコンピュータシステムを含むネットワークを示す非限定的な例示的構造を図示する。
本開示の方法に従う共有仮想アドレスメモリー空間を用いるマルチプロセッサーコンピュータシステムの非限定的な例示的構造を示す。
完全および不完全シーケンシング遺伝子の非限定的な例を示す。
1塩基シーケンシングエラーならびに真およびエラーバーコードを分離するための閾値についての訂正後のシーケンシングリードとその等級の非限定的な例示的プロットである。
ゼロ切断ポアソンモデルの非限定的な例示的図である。
ウェル当たりの総シーケンシングリードの棒グラフを示す。
完全シーケンシング遺伝子(%)、真のバーコードとして保持された分子標識(ML)(%)および各ウェルについて保持されたそれらのMLにマッピングされた保持リード(%)の棒グラフを示す。
各ウェルの遺伝子により変動する保持リード(%)の箱ひげ図を示す。
2つのプレートからのアルゴリズム適用後の未補正ML対訂正MIを使用する主成分分析PCA)を示す。
入力分子の増加と共に使用されるユニーク分子標識の理論計算の例示的プロットである。
高発現遺伝子ATCBについてのマイクロウェルプレート全体の各分子標識の分子標識カバー率を示す例示的プロットであり、ここで、エラー分子標識とリアル分子標識との間に明瞭な分布が観察される。
高発現遺伝子−ATCBについてのマイクロウェルプレート全体の各分子標識の分子標識カバー率に、2つのネガティブ二項分布を当てはめる工程を示す例示的プロットである。2つのネガティブ二項分布の当てはめによって、より低い分子標識深度を有する分子標識エラーと、より高い分子標識深度を有する真の分子標識を統計的に識別することができることが実証される。x軸は、分子深度である。
分子標識訂正を示し、ここで、1のペアワイズハミング距離が大きな比率を占めた。分子標識訂正後、1のハミング距離相違する分子標識がクラスター化して、同じ親分子標識へ折りたたまれた。
訂正された分子標識の数対訂正されたリード数カバー率の曲線を示す。
再帰的置換エラー訂正の一例の概略図を示す。
パネル(a)〜(e)は、分子標識深度変化の二次導関数に基づいて、PCRおよびシーケンシングエラーを訂正した例示的な結果を示す。
パネル(a)〜(c)は、CD69について2つのネガティブ二項分布に基づいて、PCRおよびシーケンシングエラーを訂正した例示的な結果を示す。
同上。
パネル(a)〜(c)は、CD3Eについて2つのネガティブ二項分布に基づき、PCRおよびシーケンシングエラーを訂正した例示的な結果を示す。
同上。
パネル(a)〜(c)は、高発現遺伝子について2つのネガティブ二項分布に基づき、PCRおよびシーケンシングエラーを訂正した例示的な結果を示す。
同上。
高発現遺伝子のGリッチ分子標識の再使用の例示的な結果を示す。
パネル(a)〜(b)は、2つのネガティブ二項分布を当てはめる前に、高発現遺伝子について入力データを調節した例示的な結果を示す。
パネル(a)〜(j)は、2つのネガティブ二項分布を用いて訂正されたデータセットの非限定的な例示的検証を示す。
同上。
同上。
同上。
同上。
パネル(a)〜(d)は、混合Jurkatおよび乳癌(BrCa)単一細胞(86の被検遺伝子)の96ウェルからのPrecise(商標)標的アッセイの例示的なt−確率的近傍埋込み(t−SNE)視覚化を示す。
同上。
パネル(a)〜(b)は、DBScanにより計算され、かつ各クラスター中の遺伝子マーカーベルにより決定された、両方の選択クラスターにおいて、>0MLの遺伝子に関する細胞クラスター間の差異発現分析を示す非限定的な例示的プロットである。
同上。
パネル(a)〜(d)は、86の被検遺伝子を含む混合Jurkatおよび乳癌(T47D)単一細胞の96ウェルプレートからのBD Precise(商標)標的アッセイのt−確率的近傍埋込み(t−SNE)視覚化を示す、非限定的な例示的プロットである。
同上。
いずれかのエラー訂正工程前(図42、パネル(a)に示す未補正ML)、ならびにRSECおよびDBEC訂正後(図42、パネル(b)に示す調節ML)に、図41で同定されたさまざまな細胞クラスター間の分子標識カウントによる差異遺伝子発現を表示する非限定的な例示的ヒートマップである。
同上。

0099

以下の詳細な説明では、その一部を成す添付の図面を参照にする。これら図面において、類似する符号は、文脈から他の解釈が要求されない限り、一般に、類似の構成要素を同一のものとみなす。詳細な説明、図面、および特許請求の範囲に記載される例示的な実施形態は、限定的であることを意味しない。本明細書に提示される主題の精神または範囲から逸脱することなく、他の実施形態を使用してもよく、また他の変更を実施してもよい。本明細書に概略的に記載され、図面に図示されるように、本開示の態様は、非常に多様な異なる構成で配置、代替、組合せ、分離、および設計することができ、それらのすべては、本明細書において明示的に考慮され、本開示の一部を成すものとすることを理解されたい。

0100

本明細書で参照にされるすべての特許、公開特許出願、他の刊行物、ならびにGenBankおよび他のデータベースからの配列は、関連技術に関してその全体を参照により組み込むものとする。

0101

少数の核酸、たとえば、メッセンジャーリボ核酸(mRNA)分子などの定量は、たとえば、さまざまな発生段階またはさまざまな環境条件下で発現される遺伝子を決定するために、臨床上重要である。しかし、特に、分子数が非常に小さい場合、核酸分子(たとえば、mRNA分子)の絶対数を決定するのは極めて困難となりうる。サンプル中の分子の絶対数を決定する一方法は、ディジタルポリメラーゼ連鎖反応(PCR)である。理想的には、PCRは、各サイクルで分子の同一コピーを産生する。しかしながら、PCRは、各分子は、推計学的確率で複製し、この確率は、PCRサイクルおよび遺伝子配列によって変動するため、増幅バイアスおよび不正確な遺伝子発現測定値が生じるといった問題を有しうる。ユニーク分子標識(分子指標(MI)とも呼ばれる)を有する確率バーコードを用いて、分子数をカウントし、増幅バイアスを補正することができる。Precise(商標)アッセイ(Cellular Research,Inc.(Palo Alto,CA))などの確率バーコーディングは、分子標識(ML)を用いて、逆転写(RT)中にmRNAに標識することによって、PCRおよびライブラリー作製工程により誘導されるバイアスを補正することができる。

0102

Precise(商標)アッセイは、RT工程中に、サンプル中のすべてのポリ(A)−mRNAとハイブリダイズさせるために、ポリ(T)オリゴヌクレオチド上に多数(たとえば、6561〜65536)のユニーク分子標識を有する確率バーコードの非枯渇プールを使用することができる。分子標識に加えて、確率バーコードのサンプル標識(サンプル指標(SI)とも呼ばれる)を用いて、Precise(商標)プレートの各ウェルを識別することができる。確率バーコードは、ユニバーサルPCRプライミング部位を含んでもよい。RTの最中に、標的遺伝子分子は、確率バーコードとランダムに反応する。各標的分子は、得られた確率バーコードとハイブリダイズして、確率バーコード付きの相補的リボヌクレオチド酸(cDNA)分子を生成しうる)。標識した後、マイクロウェルプレートのマイクロウェルからの確率バーコード付きcDNA分子を、PCR増幅およびシーケンシングのために単一チューブ中にプールすることができる。未補正のシーケンシングデータを分析して、ポアソン補正または2つのネガティブ二項分布に基づく補正方法に従い、リードの数、ユニーク分子標識を有する確率バーコードの数、mRNA分子の数を取得しうる。

0103

バイアス補正以外に、分子標識は、観察されるシーケンシングリードに存在する出発cDNA分子数を明らかにすることによって、結果の統計的品質のよりよい理解をもたらすことができる。たとえば、多数のリードは、統計的に正確な回答を示しうるが、リードが、わずか少数の出発mRNA分子から得られる場合、測定精度は損なわれうる。

0104

PCRおよびライブラリー作製工程により誘導された増幅バイアスは、たとえば、分子標識によって修正することはできるが、分子の絶対数の定量は、いくつかの他の因子のために依然として困難となりうる。第1に、mRNA分子の数の推定は、分子標識の全体的多様性によって制限されうる。確率バーコーディングの最中に、mRNA分子は、利用可能な確率バーコードとランダムに反応することができる。従って、各mRNA分子は、確率バーコードとハイブリダイズすることができるが;その分子標識は、いずれか所与の遺伝子について必ずしもユニークではない場合もある。mRNA分子の数が、確率バーコードの数に比べて小さいとき、各々のmRNA分子は、ユニーク分子標識を有する確率バーコードとハイブリダイズする傾向があり、分子数のカウントは、分子標識数のカウントと同等となりうる。

0105

mRNA分子の数が増加するにつれて、多数のmRNA分子は、同じ分子標識を有する確率バーコードとハイブリダイズする傾向が高くなる。故に、ユニーク分子標識のカウントを使用すると、分子数を過少評価する可能性がある。いくつかの事例では、mRNA分子の数は、ポアソン補正または観察されるユニーク分子標識の総数の2つのネガティブ二項分布に基づく補正に従って推定することができる。しかしながら、6561の確率バーコードの全コレクションが観察される極端な事例では、ポアソン補正または2つのネガティブ二項分布に基づく補正はもはや不可能となりうる。たとえば、65000または100000の出発mRNA分子のいずれにかかわらず、いずれの場合でも、6561飽和確率バーコードの最大値予想される。

0106

第2に、PCRエラー(すなわち、PCR増幅の最中に発生したエラー)は、人工的確率バーコードを誘導して、分子標識カウントを任意で増大させうる。第3に、PCR増幅バイアスおよび非効率的PCRは、エラーと識別不可能なバーコード付き分子の少数コピーを生成しうる。第4に、シーケンシングエラー、確率バーコード配列の不正確なコーリングは、人工的確率バーコードを誘導して、分子標識カウントを増大させうる。さらに、シーケンシング深度は、特に、シーケンシングが、浅すぎて、サンプルライブラリー中に存在する確率バーコード付きmRNAのすべてを検出することができない場合に重要となりうる。

0107

1つ以上のPCRを有する標的の数、または訂正若しくは調節されたシーケンシングエラーを決定する方法およびシステムが本明細書に開示される。いくつかの実施形態では、本方法は、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)(b)で得られたシーケンシングデータ中の標的のクオリティステータスを決定する工程と;(iii)(b)で得られたシーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程であって、シーケンシングデータ中の1つ以上のシーケンシングデータエラーを決定する工程が、以下:シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数、シーケンシングデータ中の標的のクオリティステータス、および複数の確率バーコードに識別可能な配列を有する分子標識の数のうち1つ以上を決定することを含む工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(iii)で決定された1つ以上のシーケンシングデータエラーに応じて調節された、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。

0108

方向近接性に基づいて訂正若しくは調節された1つ以上のPCRまたはシーケンシングエラーを有する標的の数を決定する方法が開示される。いくつかの実施形態では、本方法は、(a)複数の確率バーコードを用いて、複数の標的に確率バーコードを付けて、複数の確率バーコード付き標的を生成する工程であって、複数の確率バーコードの各々が分子標識を含む工程と;(b)確率バーコード付き標的のシーケンシングデータを取得する工程と;(c)複数の標的の1つ以上について:(i)シーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数をカウントする工程と;(ii)方向近接性を用いて、標的の分子標識のクラスターを同定する工程と;(iii)(ii)で同定された標的の分子標識のクラスターを用いて、(b)で得られたシーケンシングデータを折りたたむ工程と;(iv)標的の数を推定する工程であって、推定された標的の数が、(ii)のシーケンシングデータの折りたたみ後に、(i)でカウントされたシーケンシングデータ中の標的に関連付けられた識別可能な配列を有する分子標識の数と相関する工程と、を含む。

0109

訂正若しくは調節された1つ以上のPCRまたはシーケンシングエラーを有する標的の数を決定するためのコンピュータシステムが開示される。実行されると、1つ以上のコンピュータデバイスに、訂正若しくは調節された1つ以上のPCRまたはシーケンシングエラーを有する標的の数を決定させる、実行可能コードを含む非一過性コンピュータ読取り媒体が開示される。

0110

定義
特に定義がない限り、本明細書で用いられる技術用語はすべて、本開示が属する分野の当業者により一般に理解されているものと同一の意味を有する。たとえば、Singleton et al.,Dictionary of Microbiology and Molecular Biology 2nd ed.,J. Wiley & Sons(New York,NY 1994);Sambrook et al.,Molecular Cloning,A Laboratory Manual,Cold Springs Harbor Press(Cold Springs Harbor,NY 1989)を参照されたい。本開示の目的のために、下記の用語を以下に定義する。

0111

本明細書で用いられる場合、「アダプター」という用語は、関連核酸の増幅またはシーケンシングを促進するための配列を意味しうる。関連核酸は、標的核酸を含みうる。関連核酸は、空間標識、標的標識、サンプル標識、指標標識、バーコード、確率バーコード、または分子標識の1つ以上を含みうる。アダプターは、線状であってよい。アダプターは、事前アデニル化されたアダプターであってよい。アダプターは、二本鎖または一本鎖であってよい。1つ以上のアダプターは、核酸の5’または3’末端に配置することができる。アダプターが5’および3’末端に既知の配列を含む場合、既知の配列は、同じ配列でも、異なる配列でもよい。ポリヌクレオチドの5’および/または3’末端に位置するアダプターは、表面上に固定された1つ以上のオリゴヌクレオチドにハイブリダイズする能力を有しうる。アダプターは、いくつかの実施形態では、ユニバーサル配列を含む。ユニバーサル配列は、2つ以上の核酸分子と共通のヌクレオチド配列の1領域であってよい。2つ以上の核酸分子は、異なる配列の領域を有しうる。従って、たとえば、5’アダプターは、同一配列および/またはユニバーサル核酸配列を含み、3’アダプターは、同一配列および/またはユニバーサル配列を含みうる。複数の核酸分子の異なるメンバー中に存在しうるユニバーサル配列は、ユニバーサル配列と相補的な単一ユニバーサルプライマーを用いて、複数の異なる配列の複製または増幅を可能にしうる。同様に、核酸分子のコレクションの異なるメンバー中に存在しうる少なくとも1つ、2つ(たとえば、ペア)若しくはそれ以上のユニバーサル配列は、ユニバーサル配列と相補的な少なくとも1つ、2つ(たとえば、一対)若しくはそれ以上の単一ユニバーサルプライマーを用いて、複数の異なる配列の複製または増幅を可能にしうる。従って、ユニバーサルプライマーは、こうしたユニバーサル配列とハイブリダイズすることができる配列を含む。標的核酸配列担持分子を修飾して、ユニバーサルアダプター(たとえば、非標的核酸配列)を異なる標的核酸配列の一端または両端に結合させることができる。標的核酸に結合した1つ以上のユニバーサルプライマーは、ユニバーサルプライマーのハイブリダイゼーションのための部位を提供することができる。標的核酸に結合した1つ以上のユニバーサルプライマーは、同じでも、互いに異なってもよい。

0112

本明細書で用いられる場合、「関連付けられる」または「〜に関連付けられる」という用語は、ある時点で2つ以上の種が共配置されているとして同定可能であることを意味しうる。関連付けは、2つ以上の種が類似の容器内にあることを意味しうる。関連付けは、インフォマテクス的関連付けでありうる。この場合、たとえば、2つ以上の種に関するディジタル情報が記憶され、かつその情報を用いてこれらの種の1つ以上が共配置されたことを決定可能である。関連付けはまた、物理的関連付けでありうる。いくつかの実施形態では、2つ以上の関連付けられる種は、互いにまたは共通の固体もしくは半固体の表面に「テザー連結」、「結合」、または「固定」される。関連付けは、ビーズなどの固体または半固体の支持体に標識を結合するための共有結合手段または非共有結合手段を意味しうる。関連付けは、標的と標識との共有結合でありうる。

0113

本明細書で用いられる場合、「相補的」という用語は、2つのヌクレオチド間の精密なペアリングの能力を意味しうる。たとえば、核酸の所与の位置のヌクレオチドが他の核酸のヌクレオチドと水素結合可能である場合、2つの核酸はその位置で互いに相補的であるとみなされる。2つの一本鎖核酸分子間の相補性は、ヌクレオチドの一部のみが結合する場合には「部分的」でありうるし、一本鎖分子間のすべてに相補性が存在する場合には完全でありうる。第1のヌクレオチド配列が第2のヌクレオチド配列に相補的である場合、第1のヌクレオチド配列は第2の配列の「相補体」であるといえる。第1のヌクレオチド配列が第2の配列の逆(すなわち、ヌクレオチドの順序が逆)の配列に相補的である場合、第1のヌクレオチド配列は第2の配列の「逆相補体」であるといえる。本明細書で用いられる場合、「相補体」、「相補的」、および「逆相補体」という用語は、同義的に用いることが可能である。ある分子が他の分子にハイブリダイズしうる場合、それはハイブリダイズしている分子の相補体でありうることが、本開示から理解される。

0114

本明細書で用いられる場合、「ディジタルカウンティング」という用語は、サンプル中の標的分子の数を推定する方法を意味しうる。ディジタルカウンティングは、サンプル中の標的に関連付けられたユニーク標識の数を決定する工程を含みうる。この確率的方法は、分子をカウントする問題を、同一の分子の位置決定および同定の問題から、所定の標識のセットの検出に関する一連のあり/なしのディジタル問題に変換する。

0115

本明細書で用いられる場合、「標識」という用語は、サンプル内の標的に関連付けられる核酸コードを意味しうる。標識は、たとえば、核酸標識でありうる。標識は、全体または一部が増幅可能な標識でありうる。標識は、全体または一部がシーケンス可能標識でありうる。標識は、個別に同定可能な天然核酸の一部でありうる。標識は、既知の配列でありうる。標識は、核酸配列の接合(たとえば、天然配列と非天然配列との接合)を含みうる。本明細書で用いられる場合、「標識」という用語は、「インデックス」、「タグ」、または「標識タグ」という用語と同義的に用いうる。標識は、情報を伝達可能である。たとえば、種々の実施形態では、標識は、サンプル同一性サンプル源、細胞同一性、および/または標的を決定するために使用可能である。

0116

本明細書で用いられる場合、「非枯渇リザーバー」という用語は、多種多様な標識から構成された確率バーコードのプールを意味しうる。非枯渇リザーバーは、非枯渇リザーバーが標的のプールに関連付けられる場合、各標的がユニーク確率バーコードに関連付けられる可能性が高くなるように、多数の異なる確率バーコードを含みうる。各標識標的分子のユニーク性は、ランダム選択の統計により決定可能であり、標識の多様性と比較してコレクション中の同一の標的分子のコピー数に依存する。得られる標識標的分子のセットのサイズは、バーコーディングプロセスの確率的性質により決定可能であり、次いで、検出された確率バーコードの数の解析は、元のコレクションまたはサンプル中に存在する標的分子の数の計算を可能にする。存在する標的分子のコピー数とユニーク確率バーコードの数との比が低い場合、標識標的分子はきわめてユニークである(すなわち、2つ以上の標的分子が1つの所与の標識で標識される確率は非常に低い)。

0117

本明細書で用いられる場合、「核酸」という用語は、ポリヌクレオチド配列またはその断片を意味する。核酸はヌクレオチドを含みうる。核酸は細胞に対して外因性または内因性でありうる。核酸は細胞フリー環境中に存在しうる。核酸は遺伝子またはその断片でありうる。核酸はDNAでありうる。核酸はRNAでありうる。核酸は1つ以上のアナログ(たとえば、修飾された骨格、糖または核酸塩基)を含みうる。アナログのいくつかの例としては、限定されるものではないが、5−ブロモウラシルペプチド核酸、ゼノ核酸、モルホリノ体、ロックド核酸、グリコール核酸、トレオース核酸、ジデオキシヌクレオチドコルジセピン、7−デアザGTPフルオロフォア(たとえば、糖に結合されたローダミンまたはフルオレセイン)、チオール含有ヌクレオチド、ビオチン結合ヌクレオチド、蛍光塩基アナログ、CpGアイランドメチル−7−グアノシンメチル化ヌクレオチドイノシンチオウリジンプソイドウリジンジヒドロウリジンキューシン、およびワイオシンが挙げられる。「核酸」、「ポリヌクレオチド、「標的ポリヌクレオチド」、および「標的核酸」は、同義的に用いうる。

0118

核酸は、新しいまたは向上した特徴(たとえば、向上した安定性)を有する核酸を提供するために1つ以上の修飾(たとえば、塩基修飾、骨格修飾)を含みうる。核酸は核酸アフィニティータグを含みうる。ヌクレオシドは塩基−糖の組合せでありうる。ヌクレオシドの塩基部分はヘテロ環塩基でありうる。かかるヘテロ環塩基の2つの最も一般的なクラスはプリンおよびピリミジンである。ヌクレオチドは、ヌクレオシドの糖部分に共有結合されたリン酸基をさらに含むヌクレオシドでありうる。ペントフラノシル糖を含むヌクレオシドでは、リン酸基は、糖の2’、3’、または5’ヒドロキシル部分に結合可能である。核酸を形成する際、リン酸基は、隣接ヌクレオシドを互いに共有結合して線状高分子化合物を形成可能である。ひいては、この線状高分子化合物のそれぞれの末端をさらに連結して環状化合物を形成可能である。しかしながら、線状化合物が一般に好適である。そのほかに、線状化合物は、内部ヌクレオチド塩基相補性を有しうるので、完全二本鎖または部分二本鎖の化合物を生成するようにフォールディングしうる。核酸内では、リン酸基は、通常、核酸のヌクレオシド間骨格を形成するものとして参照可能である。結合または骨格は、3’→5’ホスホジエステル結合でありうる。

0119

核酸は、修飾骨格および/または修飾ヌクレオシド間結合を含みうる。修飾骨格は、骨格中リン原子を保持するものおよび骨格中にリン原子を有していないものを含みうる。リン原子を中に含有する好適な修飾核酸骨格は、たとえば、ホスホロチオエートキラルホスホロチオエート、ホスホジチオエート、ホスホトリエステルアミノアルキルホスホトリエステル、3’−アルキレンホスホネートや5’−アルキレンホスホネートなどのメチルや他のアルキルのホスホネート、キラルホスホネート、ホスフィネート、3’−アミノホスホルアミデートやアミノアルキルホスホルアミデートなどのホスホルアミデート、ホスホロジアミデートチオノホスホルアミデート、チオノアキルホスホネート、チオノアルキルホスホトリエステル、セレノホスフェート、および通常3’−5’結合、2’−5’結合アナログを有するボラノホスフェート、ならびに1つ以上のヌクレオチド間結合が3’→3’、5’→5’、または2’→2’結合である逆極性を有するものを含みうる。

0120

核酸は、短鎖アルキルもしくはシクロアルキルヌクレオシド間結合、混合ヘテロ原子およびアルキルもしくはシクロアルキルのヌクレオシド間結合、または1つ以上の短鎖ヘテロ原子もしくはヘテロ環のヌクレオシド間結合により形成されるポリヌクレオチド骨格を含みうる。これらは、モルホリノ結合(ヌクレオシドの糖部分から部分的に形成される)、シロキサン骨格スルフィドスルホキシド、およびスルホン骨格、ホルムアセチルおよびチオホルムアセチル骨格、メチレンホルムアセチルおよびチオホルムアセチル骨格、リボアセチル骨格、アルケン含有骨格、スルファメート骨格、メチレンイミノおよびメチレンヒドラジノ骨格、スルホネートおよびスルホンアミド骨格、アミド骨格を有するもの、ならびに混合N、O、S、およびCH2構成部分を有する他のものを含みうる。

0121

核酸は核酸ミメティックを含みうる。「ミメティック」という用語は、フラノース環のみまたはフラノース環とヌクレオチド間結合の両方が非フラノース基で置き換えられているポリヌクレオチドを含むことを意図し得、フラノース環のみの置換えは、糖サロゲートであるとして参照可能である。ヘテロ環塩基部分または修飾ヘテロ環塩基部分は、適切な標的核酸とのハイブリダイゼーションのために保持可能である。かかる核酸の1つはペプチド核酸(PNA)でありうる。PNAでは、ポリヌクレオチドの糖骨格は、アミド含有骨格特にアミノエチルグリシン骨格で置換え可能である。ヌクレオチドは保持可能であり、かつ骨格のアミド部分のアザ窒素原子に直接的または間接的に結合される。PNA化合物中の骨格は、PNAにアミド含有骨格を与える2つ以上の結合されたアミノエチルグリシン単位を含みうる。ヘテロ環塩基部分は、骨格のアミド部分のアザ窒素原子に直接的または間接的に結合可能である。

0122

核酸はモルホリノ骨格構造を含みうる。たとえば、核酸は、リボース環の代わりに6員モルホリノ環を含みうる。これらの実施形態のいくつかでは、ホスホロジアミデートまたは他の非ホスホジエステルのヌクレオシド間結合によりホスホジエステル結合を置換え可能である。

0123

核酸は、モルホリノ環に結合されたヘテロ環塩基を有する結合されたモルホリノ単位(すなわちモルホリノ核酸)を含みうる。結合基は、モルホリノ核酸中のモルホリノモノマー単位を結合可能である。非イオン性モルホリノ系オリゴマー化合物は、細胞タンパク質とのより少ない望ましくない相互作用を有しうる。モルホリノ系ポリヌクレオチドは、核酸の非イオン性ミミックでありうる。モルホリノクラス内のさまざまな化合物は、異なる結合基を用いて連結可能である。ポリヌクレオチドミメティックのさらなるクラスは、シクロヘキセニル核酸(CeNA)として参照可能である。核酸分子中に通常存在するフラノース環は、シクロヘキセニル環で置換え可能である。CeNADMT保護ホスホロアミダイトモノマーは、ホスホロアミダイト化学を用いたオリゴマー化合物合成のために調製および使用が可能である。核酸鎖中へのCeNAモノマーの取込みは、DNA/RNAハイブリッドの安定性を増加可能である。CeNAオリゴアデニレートは、天然複合体に類似した安定性を有する核酸相補体との複合体を形成可能である。さらなる修飾は、2’−ヒドロキシル基が糖環の4’炭素原子に結合されて2’−C,4’−C−オキシメチレン結合を形成することにより二環式糖部分を形成するロックド核酸(LNA)を含みうる。結合は、2’酸素原子と4’炭素原子とを架橋するメチレン(−CH2),基(式中、nは1または2である)でありうる。LNAおよびLNAアナログは、相補的核酸との非常に高い二本鎖熱安定性(Tm=+3〜+10℃)、3’−エキソヌクレアーゼ分解に対する安定性、および良好な溶解性を示しうる。

0124

核酸はまた、核酸塩基(単に「塩基」ということが多い)の修飾または置換を含みうる。本明細書で用いられる場合、「非修飾」または「天然」の核酸塩基は、プリン塩基(たとえば、アデニン(A)およびグアニン(G))、ならびにピリミジン塩基(たとえば、チミン(T)、シトシン(C)およびウラシル(U))を含みうる。修飾核酸塩基は、他の合成および天然の核酸塩基、たとえば、5−メチルシトシン(5−me−C)、5−ヒドロキシメチルシトシンキサンチンヒポキサンチン、2−アミノアデニン、アデニンおよびグアニンの6−メチルおよび他のアルキル誘導体、アデニンおよびグアニンの2−プロピルおよび他のアルキル誘導体、2−チオウラシル、2−チオチミンおよび2−チオシトシン、5−ハロウラシルおよびシトシン、5−プロピニル(−C=C−CH3)ウラシルおよびシトシン、ならびにピリミジン塩基の他のアルキニル誘導体、6−アゾウシル、シトシンおよびチミン、5−ウラシル(プソイドウラシル)、4−チオウラシル、8−ハロ、8−アミノ、8−チオール、8−チオアルキル、8−ヒドロキシル、ならびに他の8−置換アデニンおよびグアニン、5−ハロ特に5−ブロモ、5−トリフルオロメチルおよび他の5−置換ウラシルおよびシトシン、7−メチルグアニンおよび7−メチルアデニン、2−F−アデニン、2−アミノアデニン、8−アザグアニンおよび8−アザアデニン、7−デアザグアニンおよび7−デアザアデニン、ならびに3−デアザグアニンおよび3−デアアデニンを含みうる。修飾核酸塩基は、三環式ピリミジン、たとえば、フェノキサジンシチジン(1H−ピリミド(5,4−b)(1,4)ベンゾオキサジン−2(3H)−オン)、フェノチアジンシチジン(1H−ピリミド(5,4−b)(1,4)ベンゾチアジン−2(3H)−オン)、置換フェノキサジンシチジン(たとえば、9−(2−アミノエトキシ)−H−ピリミド(5,4−(b)(1,4)ベンゾオキサジン−2(3H)−オン)などのG−クランプ、フェノチアジンシチジン(1H−ピリミド(5,4−b)(1,4)ベンゾチアジン−2(3H)−オン)、置換フェノキサジンシチジン(たとえば、9−(2−アミノエトキシ)−H−ピリミド(5,4−(b)(1,4)ベンゾオキサジン−2(3H)−オン)などのG−クランプ、カルバゾールシチジン(2H−ピリミド(4,5−b)インドール−2−オン)、ピリドインドールシチジン(H−ピリド(3’,’:4,5)ピロロ[2,3−d]ピリミジン−2−オン)を含みうる。

0125

本明細書で用いられる場合、「サンプル」という用語は、標的を含む組成物を意味しうる。本開示の方法、デバイス、およびシステムによる分析に好適なサンプルとしては、細胞、組織器官、または生物が挙げられる。

0126

本明細書で用いられる場合、「サンプリングデバイス」または「デバイス」という用語は、サンプルのセクション採取および/または基材上へのセクションの配置を行いうるデバイスを意味しうる。サンプルデバイスとは、たとえば、蛍光活性細胞選別FACS)機、セルソーター機、生検針生検デバイス組織切片化デバイス、マイクロ流体デバイスブレードグリッド、および/またはミクロトームを意味しうる。

0127

本明細書で用いられる場合、「固体担体」という用語は、複数の確率バーコードを結合しうる離散した固体または半固体の表面を意味しうる。固体担体は、核酸を(たとえば共有結合または非共有結合で)固定しうるプラスチックセラミック、金属、または高分子材料(たとえばヒドロゲル)で構成された任意のタイプの中実多孔性、または中空スフェアボールベアリングシリンダー、または他の類似の構成体包含しうる。固体担体は、球状(たとえばマイクロスフェア)でありうるかまたは非球状もしくは不規則形状、たとえば、立方体形直方体形角錐形円柱形円錐形、扁球形、ディスク形などを有しうる離散粒子を含みうる。アレイ状に離間して配置された複数の固体担体は、基材を含まないこともありうる。固体担体は、「ビーズ」という用語と同義的に用いうる。

0128

固体担体は「基材」を意味しうる。基材は固体担体の1種でありうる。基材は、本開示の方法を行いうる連続した固体または半固体の表面を意味しうる。基材は、たとえば、アレイカートリッジチップ、デバイス、およびスライドを意味しうる。

0129

本明細書で用いられる場合、「空間標識」という用語は、空間内の位置と関連させることができる標識を意味しうる。

0130

本明細書で用いられる場合、「確率バーコード」という用語は、標識を含むポリヌクレオチド配列を意味しうる。確率バーコードは、確率バーコーディングに使用可能なポリヌクレオチド配列でありうる。確率バーコードは、サンプル中の標的を定量可能である。確率バーコードは、標識を標的に関連付けた後に起こりうるエラーの制御に使用可能である。たとえば、確率バーコードは、増幅またはシーケンシングのエラーを評価可能である。標的に関連付けられた確率バーコードは、確率バーコード標的または確率バーコードタグ標的と呼ぶことが可能である。

0131

本明細書で用いられる場合、「遺伝子特異的確率バーコード」という用語は、標識と、遺伝子特異的である標的結合領域とを含むポリヌクレオチド配列を意味しうる。確率バーコードは、確率バーコーディングに使用することができるポリヌクレオチド配列でありうる。確率バーコードは、サンプル中の標的を定量するために使用することができる。確率バーコードは、標識を標的に関連付けた後に起こりうるエラーの制御に使用することができる。たとえば、確率バーコードは、増幅またはシーケンシングのエラーを評価することができる。標的に関連付けられた確率バーコードは、確率バーコード標的または確率バーコードタグ標的と呼ぶことができる。

0132

本明細書で用いられる場合、「確率バーコーディング」という用語は、核酸のランダム標識化(たとえばバーコーディング)を意味しうる。確率バーコーディングは、標識を標的に関連付けて、標識に関連付けられた標識を定量するために再帰的ポアソンストラテジーを利用することができる。本明細書で用いられる場合、「確率バーコーディング」という用語は、「遺伝子特異的確率バーコーディング」と置き換え可能に用いられうる。

0133

本明細書で用いられる場合、「標的」という用語は、確率バーコードに関連付け可能な組成物を意味しうる。本開示の方法、デバイス、およびシステムによる分析に好適な例示的な標的としては、オリゴヌクレオチド、DNA、RNA、mRNA、マイクロRNA、tRNAなどが挙げられる。標的は一本鎖または二本鎖でありうる。いくつかの実施形態では、標的はタンパク質でありうる。いくつかの実施形態では、標的は脂質である。

0134

本明細書で用いられる場合、「逆転写酵素」という用語は、逆転写酵素活性を有する(すなわち、RNA鋳型からのDNAの合成を触媒する)酵素グループを意味しうる。一般的には、かかる酵素としては、限定されるものではないが、レトロウイルス逆転写酵素、レトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、細菌逆転写酵素、グループIIイントロン由来逆転写酵素、およびそれらの突然変異体変異体、または誘導体が挙げられる。非レトロウイルス逆転写酵素としては、非LTRレトロトランスポゾン逆転写酵素、レトロプラスミド逆転写酵素、レトロン逆転写酵素、およびグループIIイントロン逆転写酵素が挙げられる。グループIIイントロン逆転写酵素の例としては、ラクトコッカスラクティス(Lactococcus lactis)Ll.LtrBイントロン逆転写酵素、サーモシネココッカス(Thermosynechococcus)は、TeI4cイントロン逆転写酵素、またはジオバチルスステアロサーモフィラス(Geobacillus stearothermophilus)GsI−IICイントロン逆転写酵素を伸長する。他のクラスの逆転写酵素としては、多くのクラスの非レトロウイルス逆転写酵素(すなわち、レトロン、グループIIイントロン、および特に多様性生成レトロエレメント)が挙げられうる。

0135

「ユニバーサルアダプタープライマー」、「ユニバーサルプライマーアダプター」または「ユニバーサルアダプター配列」という用語は、置き換え可能に用いられて、確率バーコードをハイブリダイズして、遺伝子特異的確率バーコードを作製するために使用することができるヌクレオチド配列を指す。ユニバーサルアダプター配列は、たとえば、本開示の方法に用いられるすべての確率バーコードに対してユニバーサルである既知の配列であってよい。たとえば、本明細書に開示する方法を用いて複数の標的が標識される場合、標的特異的配列の各々を同じユニバーサルアダプター配列に連結させてもよい。いくつかの実施形態では、本明細書に開示する方法に、2つ以上のユニバーサルアダプター配列を使用することができる。たとえば、本明細書に開示する方法を用いて複数の標的が標識される場合、標的特異的配列の少なくとも2つを異なるユニバーサルアダプター配列と連結させる。ユニバーサルアダプタープライマーおよびその補体は、2つのオリゴヌクレオチドに含有させてもよく、そのうちの1つは、標的特異的配列を含み、他方は、確率バーコードを含む。たとえば、ユニバーサルアダプター配列は、標的核酸と相補的なヌクレオチド配列を生成するための標的特異的配列を含むオリゴヌクレオチドの一部であってもよい。確率バーコードと、ユニバーサルアダプター配列の相補的配列を含む第2のオリゴヌクレオチドは、ヌクレオチド配列とハイブリダイズして、標的特異的確率バーコードを生成しうる。いくつかの実施形態では、ユニバーサルアダプタープライマーは、本開示の方法で使用されるユニバーサルPCRプライマーとは異なる配列を有する。

0136

本明細書には、PCRおよび/またはシーケンシングの最中に発生したエラーを検出し、および/または訂正する方法およびシステムが開示される。エラーのタイプとしては、限定するものではないが、たとえば、置換エラー(1つ以上の塩基)および非置換エラーがある。置換エラーのうち、1塩基置換エラーは、2塩基以上相違するエラーよりもはるかに頻繁に起こりうる。本方法およびシステムは、たとえば、確率バーコーディングにより分子標的の正確なカウンティングを達成するために使用することができる。

0137

確率バーコード
確率バーコーディングは、たとえば、米国特許出願公開第20150299784号明細書、国際公開第2015031691号パンフレット、およびFu et al,Proc Natl Acad Sci U.S.A.2011 May 31;108(22):9026−31に記載されており、これらの刊行物の内容は、その全体を参照により本明細書に組み込む。手短には、確率バーコードは、標的に確率標識(例えば、バーコード、タグ)を付けるために使用することができるポリヌクレオチド配列であってよい。確率バーコードは、1つ以上の標識を含みうる。例示的な標識としては、ユニバーサル標識、細胞標識、分子標識、サンプル標識、プレート標識、空間標識、および/またはプレ空間標識を挙げることができる。図1は、空間標識を有する例示的な確率バーコード104を示す。確率バーコード104は、確率バーコードを固体担体105に連結しうる5’アミンを含んでよい。確率バーコードは、ユニバーサル標識、次元標識、空間標識、細胞標識、および/または分子標識を含みうる。確率バーコード中のさまざまな標識(限定するものではないが、ユニバーサル標識、次元標識、空間標識、細胞標識、および分子標識など)の順序は変動しうる。たとえば、図1に示すように、ユニバーサル標識は、最も5’側の標識であってよく、分子標識は、最も3’側の標識であってもよい。空間標識、次元標識、および細胞標識は、任意の順序であってよい。いくつかの実施形態では、ユニバーサル標識、空間標識、次元標識、細胞標識、および分子標識は、任意の順序であってよい。

0138

標識、たとえば、細胞標識は、規定長さ、たとえば、各々7ヌクレオチド(いくつかのハミングエラー訂正コードに使用されるビット数に相当する)の核酸部分配列固有のセットを含んでもよく、これらは、エラー訂正能力を賦与するように設計することができる。エラー訂正部分配列のセットは、7つのヌクレオチド配列を含み、これらは、セット内の配列の任意のペア組合せが、規定の「遺伝子距離」(またはミスマッチ塩基の数)を呈示するように、設計することができ、たとえば、3ヌクレオチドの遺伝子距離を呈示するように、1セットのエラー訂正部分配列を設計することができる。この場合、標識化標的核酸分子についてのシーケンシングデータのセット内のエラー訂正配列の見直しによって、増幅若しくはシーケンシングエラーを検出または訂正することが可能になる。いくつかの実施形態では、エラー訂正コードを作製するために用いられる核酸部分配列の長さは、たとえば、約1、2、3、4、5、6、7、8、9、10、15、20、30、31、40、50ヌクレオチド長、またはこれらの値のいずれか2つの間の数もしくは範囲であってよい。いくつかの実施形態では、エラー訂正コードを作製するために、他の長さの核酸部分配列を使用することも可能である。

0139

確率バーコードは、標的結合領域を含みうる。標的結合領域は、サンプル中の標的と相互作用することができる。標的は、リボ核酸(RNA)、メッセンジャーRNA(mRNA)、microRNA、低分子干渉RNA(siRNA)、RNA分解産物、各々がポリ(A)テールを含有するRNA、またはそれらの任意の組合せであってもよいし、これらを含んでもよい。いくつかの実施形態では、複数の標的は、デオキシリボ核酸(DNA)を含みうる。

0140

いくつかの実施形態では、標的結合領域は、mRNAのポリ(A)テールと相互作用することができるオリゴ(dT)配列を含みうる。確率バーコードの標識(たとえば、ユニバーサル標識、次元標識、空間標識、細胞標識、および分子標識)の1つ以上は、確率バーコードの残りの標識の別の1つまたは2つからスペーサによって隔てることができる。スペーサは、たとえば、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、もしくは20ヌクレオチドまたはそれ以上であってよい。いくつかの実施形態では、確率バーコードの標識のいずれもスペーサによって隔てられない。

0141

ユニバーサル標識
確率バーコードは1つ以上のユニバーサル標識を含みうる。いくつかの実施形態では、1つ以上のユニバーサル標識は、所与の固体担体に結合される確率バーコードのセット中のすべての確率バーコードで同一でありうる。いくつかの実施形態では、1つ以上のユニバーサル標識は、複数のビーズに結合されるすべての確率バーコードで同一でありうる。いくつかの実施形態では、ユニバーサル標識は、シーケンシングプライマーにハイブリダイズ可能な核酸配列を含みうる。シークエンシングプライマーは、ユニバーサル標識を含む確率バーコードをシーケンスするために使用可能である。シークエンシングプライマー(たとえば、ユニバーサルシークエンシングプライマー)は、高スループットシークエンシングプラットフォームに関連付けられるシークエンシングプライマーを含みうる。いくつかの実施形態では、ユニバーサル標識は、PCRプライマーにハイブリダイズ可能な核酸配列を含みうる。いくつかの実施形態では、ユニバーサル標識は、シークエンシングプライマーおよびPCRプライマーにハイブリダイズ可能な核酸配列を含みうる。シーケンシングプライマーまたはPCRプライマーにハイブリダイズ可能なユニバーサル標識の核酸配列は、プライマー結合部位として参照しうる。ユニバーサル標識は、確率バーコードの転写を開始するために使用しうる配列を含みうる。ユニバーサル標識は、確率バーコードまたは確率バーコード内の領域の伸長のために、使用しうる配列を含みうる。ユニバーサル標識は、約1、2、3、4、5、10、15、20、25、30、35、40、45、50ヌクレオチド長、またはこれらの値のいずれか2つの間の数もしくは範囲であってよい。たとえば、ユニバーサル標識は、少なくとも約10ヌクレオチドを含みうる。ユニバーサル標識は、少なくとも、または多くとも、1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、もしくは300ヌクレオチド長でありうる。いくつかの実施形態では、切断可能なリンカーまたは修飾ヌクレオチドは、担体から確率バーコードを切断して除去することを可能にするユニバーサル標識配列の一部であってよい。

0142

次元標識
確率バーコードは1つ以上の次元標識を含みうる。いくつかの実施形態では、次元標識は、確率標識化が行われた次元に関する情報を提供する核酸配列を含みうる。たとえば、次元標識は、標的に確率バーコードが付された時点に関する情報を提供可能である。次元標識は、サンプルの確率バーコーディングの時点に関連付け可能である。次元標識は、確率標識化の時点で活性化可能である。異なる時点で異なる次元標識を活性化可能である。次元標識は、標的、標的のグループ、および/またはサンプルに確率バーコードを付けた順序に関する情報を提供する。たとえば、細胞集団は、細胞周期G0期に確率バーコードを付けることが可能である。細胞は、細胞周期のG1期に確率バーコードで再びパルスすることが可能である。細胞は、細胞周期のS期に確率バーコードで再びパルスすることが可能であり、他の時期も同様である。各パルス時(たとえば、細胞周期の各期)の確率バーコードは、異なる次元標識を含みうる。こうして、次元標識は、細胞周期のどの期に標的に標識したかに関する情報を提供する。次元標識は、多種多様な生物時間を精査することが可能である。例示的な生物時間としては、限定されるものではないが、細胞周期、転写(たとえば転写開始)、および転写物分解が挙げられうる。他の例として、薬剤治療および/または療法の前および/または後にサンプル(たとえば、細胞、細胞集団)に確率標識を付けることが可能である。識別可能な標的のコピー数の変化は、薬剤および/または療法に対するサンプルの反応の指標でありうる。

0143

次元標識は、活性化可能であってよい。活性化可能な次元標識は、特定の時点で活性化可能でありうる。活性化可能な標識は、たとえば、構成的に活性化することができる(たとえば、オフ切り替わらない)。活性化可能な次元標識は、たとえば、可逆的に活性化可能である(たとえば、活性化可能な次元標識は、オン・オフの切替えが可能である)。たとえば、次元標識は、少なくとも1、2、3、4、5、6、7、8、9、もしくは10回またはそれ以上可逆的に活性化可能でありうる。次元標識は、たとえば、少なくとも1、2、3、4、5、6、7、8、9、もしくは10回またはそれ以上可逆的に活性化可能でありうる。いくつかの実施形態では、次元標識は、蛍光、光、化学的イベント(たとえば、切断、他の分子のライゲーション、修飾(たとえば、ペグ化、SUMO化、アセチル化メチル化脱アセチル化脱メチル化)の付加、光化学的イベント(たとえば、光ケージング)、および非天然ヌクレオチドの導入により活性化可能である。

0144

次元標識は、いくつかの実施形態では、所与の固体担体(たとえばビーズ)に結合されるすべての確率バーコードで同一でありうるが、異なる固体担体(たとえばビーズ)では異なりうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも60%、70%、80%、85%、90%、95%、97%、99%、または100%は、同一の次元標識を含みうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも60%は、同一の次元標識を含みうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも95%は、同一の次元標識を含みうる。

0145

複数の固体担体(たとえばビーズ)には、106程度またはそれ以上のユニーク次元標識配列が存在可能である。次元標識は、1、2、3、4、5、10、15、20、25、30、35、40、45、50、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。次元標識は、少なくとも、または多くとも、1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、もしくは300ヌクレオチド長でありうる。次元標識は、約5〜約200ヌクレオチドを含みうる。次元標識は、約10〜約150ヌクレオチドを含みうる。次元標識は、約20〜約125ヌクレオチドを含みうる。

0146

空間標識
確率バーコードは1つ以上の空間標識を含みうる。いくつかの実施形態では、空間標識は、確率バーコードに関連付けられる標的分子の空間配向に関する情報を提供する核酸配列を含みうる。空間標識は、サンプル中の座標に関連付け可能である。座標は固定座標でありうる。たとえば、座標は基材を基準にして固定可能である。空間標識は二次元または三次元のグリッドを基準にしうる。座標はランドマークを基準にして固定可能である。ランドマークは空間内で同定可能である。ランドマークはイメージング可能な構造体でありうる。ランドマークは生物学的構造体たとえば解剖学的ランドマークでありうる。ランドマークは細胞ランドマーク(たとえばオルガネラ)でありうる。ランドマークは、非天然ランドマーク、たとえば、色コード、バーコード、磁性、蛍光、放射能、またはユニークなサイズもしくは形状のような同定可能な識別子を有する構造体でありうる。空間標識は、物理的パーティション(たとえば、ウェル、容器、またはドロップレット)に関連付け可能である。いくつかの実施形態では、空間内の1つ以上の位置にコードを付けるために複数の空間標識が一緒に使用される。

0147

空間標識は、所与の固体担体(たとえばビーズ)に結合されるすべての確率バーコードで同一であってよいが、異なる固体担体(たとえばビーズ)については異なっていてもよい。いくつかの実施形態では、同一の空間標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、60%、70%、80%、85%、90%、95%、97%、99%、100%、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値でありうる。いくつかの実施形態では、同一の空間標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、少なくとも、または多くとも、60%、70%、80%、85%、90%、95%、97%、99%、もしくは100%でありうる。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも60%が、同一の空間標識を含んでよい。いくつかの実施形態では、同一の固体担体上の確率バーコードの少なくとも95%が、同一の空間標識を含んでよい。

0148

複数の固体担体(たとえばビーズ)には、106程度またはそれ以上のユニーク空間標識配列が存在可能である。空間標識は、1、2、3、4、5、10、15、20、25、30、35、40、45、50、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。空間標識は、少なくとも、または多くとも1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、もしくは300ヌクレオチド長でありうる。空間標識は、約5〜約200ヌクレオチドを含みうる。空間標識は、約10〜約150ヌクレオチドを含みうる。空間標識は、約20〜約125ヌクレオチドを含みうる。

0149

細胞標識
確率バーコードは、1つ以上の細胞標識を含みうる。いくつかの実施形態では、細胞標識は、どの標的核酸がどの細胞に由来するかを決定するための情報を提供する核酸配列を含みうる。いくつかの実施形態では、細胞標識は、所与の固体担体(たとえばビーズ)に結合されるすべての確率バーコードで同一であるが、異なる固体担体(たとえばビーズ)については異なっている。いくつかの実施形態では、同一の細胞標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、60%、70%、80%、85%、90%、95%、97%、99%、100%、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値でありうる。いくつかの実施形態では、同一の細胞標識を含む、同一の固体担体上の確率バーコードのパーセンテージは、60%、70%、80%、85%、90%、95%、97%、99%、もしくは100%、またはそうした近似値であってよい。たとえば、同一の固体担体上の確率バーコードの少なくとも60%が、同一の細胞標識を含みうる。別の例として、同一の固体担体上の確率バーコードの少なくとも95%が、同一の細胞標識を含んでもよい。

0150

複数の固体担体(たとえばビーズ)には、106程度またはそれ以上のユニーク細胞標識配列が存在可能である。細胞標識は、1、2、3、4、5、10、15、20、25、30、35、40、45、50、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。細胞標識は、少なくとも、または多くとも、1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、もしくは300ヌクレオチド長でありうる。たとえば、細胞標識は、約5〜約200ヌクレオチドを含みうる。別の例として、細胞標識は、約10〜約150ヌクレオチドを含みうる。さらに別の例として、細胞標識は、約20〜約125ヌクレオチドを含みうる。

0151

分子標識
確率バーコードは、1つ以上の分子標識を含みうる。いくつかの実施形態では、分子標識は、確率バーコードにハイブリダイズされた標的核酸種の特定のタイプを同定するための情報を提供する核酸配列を含みうる。分子標識は、確率バーコード(たとえば標的結合領域)にハイブリダイズされた標的核酸種の特定の存在に対するカウンターを提供する核酸配列を含みうる。

0152

いくつかの実施形態では、分子標識の多様なセットが所与の固体担体(たとえばビーズ)に結合される。いくつかの実施形態では、102、103、104、105、106、107、108、109、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のユニーク分子標識配列が存在しうる。たとえば、複数の確率バーコードは、識別可能な配列を有する約6561の分子標識を含みうる。別の例として、複数の確率バーコードは、識別可能な配列を有する約65536の分子標識を含みうる。いくつかの実施形態では、少なくとも、または多くとも、102、103、104、105、106、107、108、もしくは109のユニーク分子標識配列が存在しうる。ユニーク分子標識配列は、所与の固体担体(たとえばビーズ)に結合されている。

0153

分子標識は、1、2、3、4、5、10、15、20、25、30、35、40、45、50ヌクレオチド長、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。分子標識は、少なくとも、または多くとも、1、2、3、4、5、10、15、20、25、30、35、40、45、50、100、200、もしくは300ヌクレオチド長でありうる。

0154

標的結合領域
確率バーコードは、1つ以上の標的結合領域を含みうる。いくつかの実施形態では、標的結合領域は、対象の標的とハイブリダイズすることができる。いくつかの実施形態では、標的結合領域は、標的(たとえば、標的核酸、標的分子、たとえば、分析される細胞核酸)、たとえば、特定の遺伝子配列に特異的にハイブリダイズする核酸配列を含みうる。いくつかの実施形態では、標的結合領域は、特定の標的核酸の特定の位置に結合(たとえばハイブリダイズ)しうる核酸配列を含みうる。いくつかの実施形態では、標的結合領域は、制限酵素部位オーバーハング(たとえば、EcoRI付着末端オーバーハング)への特異的なハイブリダイゼーションが可能な核酸配列を含みうる。次いで、確率バーコードは、制限部位オーバーハングに相補的な配列を含む任意の核酸分子にライゲートしうる。

0155

いくつかの実施形態では、標的結合領域は非特異的標的核酸配列を含みうる。非特異的標的核酸配列は、標的核酸の特定の配列に依存せずに複数の標的核酸に結合しうる配列を意味しうる。たとえば、標的結合領域は、ランダムマルチマー配列を含みうるかまたはmRNA分子のポリ(A)テールにハイブリダイズするオリゴ(dT)配列を含みうる。ランダムマルチマー配列は、たとえば、ランダムダイマー、ランダムトリマー、ランダムクアトラマー、ランダムペンタマー、ランダムヘキサマー、ランダムセプタマー、ランダムオクタマー、ランダムノナマー、ランダムデカマー、または任意の長さのより高次のランダムマルチマーの配列でありうる。いくつかの実施形態では、標的結合領域は、所与のビーズに結合されたすべての確率バーコードで同一である。いくつかの実施形態では、所与のビーズに結合された複数の確率バーコードの標的結合領域は、2つ以上の異なる標的結合配列を含む。標的結合領域は、5、10、15、20、25、30、35、40、45、50、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。もしくはそれ以上または概略で少なくともそうしたヌクレオチド長でありうる。標的結合領域は、多くとも約5、10、15、20、25、30、35、40、45、50ヌクレオチド長またはそれ以上でありうる。

0156

いくつかの実施形態では、標的結合領域は、ポリアデニル化末端を含むmRNAにハイブリダイズすることができるオリゴ(dT)を含みうる。標的結合領域は、遺伝子特異的でありうる。たとえば、標的結合領域は、標的の特定の領域にハイブリダイズするように構成することができる。標的結合領域は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。標的結合領域は、少なくとも、または多くとも、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、もしくは30ヌクレオチド長でありうる。標的結合領域は、約5〜30ヌクレオチド長であってもよい。確率バーコードが、遺伝子特異的標的結合領域を含む場合、この確率バーコードは、遺伝子特異的確率バーコードと呼ぶことができる。

0157

配向性
確率バーコードは、確率バーコードの配向(たとえばアライメント)のために使用することができる1つ以上の配向性を含みうる。確率バーコードは、等電点電気泳動用の部分を含みうる。異なる確率バーコードは、異なる等電点電気泳動点を含みうる。こうした確率バーコードをサンプルに導入した場合、サンプルは、確率バーコードを既知の形態にオリエントするために等電点電気泳動を行うことが可能である。こうして、オリエント性は、サンプルで確率バーコードの既知のマップを作成するために使用可能である。例示的なオリエント性としては、電気泳動移動度(たとえば、確率バーコードのサイズに基づく)、等電点スピン伝導率、および/またはセルフアセンブリーが挙げられうる。たとえば、セルフアセンブリーのオリエント性を含む確率バーコードは、活性化時に特定のオリエンテーションセルフアセンブル可能である(たとえば、核酸ナノ構造)。

0158

親和性
確率バーコードは、1つ以上の親和性を含みうる。たとえば、空間標識は、親和性を含みうる。親和性は、他のエンティティー(たとえば細胞レセプター)との確率バーコードの結合を促進することができる化学的および/または生物学的部分を含みうる。たとえば、親和性は、抗体、たとえば、サンプル上の特定の部分(たとえばレセプター)に特異的な抗体を含みうる。いくつかの実施形態では、抗体は、確率バーコードを特定の細胞型または分子に誘導することができる。特定の細胞型もしくは分子および/またはその近傍にある標的を確率標識化することができる。抗体は確率バーコードを特定の位置に誘導することができるので、いくつかの実施形態において、親和性は、空間標識のヌクレオチド配列に加え、空間情報も提供することができる。抗体は、治療用抗体、たとえば、モノクローナル抗体またはポリクローナル抗体であってもよい。抗体は、ヒト化されていても、またはキメラであってもよい。抗体は、ネイキッド抗体または融合抗体であってもよい。

0159

抗体は、全長(すなわち、天然に存在するかもしくは通常の免疫グロブリン遺伝子断片組換えプロセスにより形成される)免疫グロブリン分子(たとえばIgG抗体)または免疫グロブリン分子の免疫活性(すなわち特異的結合)部分たとえば抗体フラグメントでありうる。

0160

抗体フラグメントは、たとえば、F(ab’)2、Fab’、Fab、Fv、sFvなどの抗体の一部でありうる。いくつかの実施形態において、抗体フラグメントは、全長抗体により認識される同一の抗原に結合可能である。抗体フラグメントは、抗体の可変領域からなる単離された断片、たとえば、重鎖および軽鎖の可変領域からなる「Fv」フラグメントならびに軽鎖および重鎖の可変領域がペプチドリンカーにより接続された組換え一本鎖ポリペプチド分子(「scFvタンパク質」)を含みうる。例示的な抗体としては、限定されるものではないが、癌細胞に対する抗体、ウイルスに対する抗体、細胞表面レセプター(CD8、CD34、CD45)に結合する抗体、および治療用抗体が挙げられうる。

0161

ユニバーサルアダプタープライマー
確率バーコードは、1つ以上のユニバーサルアダプタープライマーを含みうる。たとえば、遺伝子特異的確率バーコードは、ユニバーサルアダプタープライマーを含みうる。ユニバーサルアダプタープライマーは、すべての確率バーコードに対してユニバーサルであるヌクレオチド配列を意味しうる。ユニバーサルアダプタープライマーは、遺伝子特異的確率バーコードを構築するために使用することができる。ユニバーサルアダプタープライマーは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値のヌクレオチド長でありうる。ユニバーサルアダプタープライマーは、少なくとも、または多くとも、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、もしくは30ヌクレオチド長でありうる。ユニバーサルアダプタープライマーは、約5〜30ヌクレオチド長であってもよい。

0162

固体担体
本明細書に開示される確率バーコードは、いくつかの実施形態において、固体担体と結合することができる。固体担体は、たとえば、合成粒子であってよい。いくつかの実施形態では、固体担体上の複数の確率バーコード(たとえば、第1の複数の確率バーコード)の分子標識(たとえば、第1の分子標識)の一部または全部が、少なくとも1ヌクレオチド異なる。同じ固体担体上の確率バーコードの細胞標識は、同じであってもよい。異なる固体担体上の確率バーコードの細胞標識は、少なくとも1ヌクレオチド異なりうる。たとえば、第1の固体担体上の第1の複数の確率バーコードの第1の細胞標識は、同じ配列を有してよく、第2の固体担体上の第2の複数の確率バーコードの第2の細胞標識は、同じ配列を有してよい。第1の固体担体上の第1の複数の確率バーコードの第1の細胞標識と、第2の固体担体上の第2の複数の確率バーコードの第2の細胞標識とは、少なくとも1ヌクレオチド異なりうる。細胞標識は、たとえば、約5〜20ヌクレオチド長でありうる。分子標識は、たとえば、約5〜20ヌクレオチド長でありうる。合成粒子は、たとえば、ビーズであってよい。

0163

ビーズは、たとえば、シリカゲルビーズ、調節多孔性ガラスビーズ、磁気ビーズ、ダイナビーズ、セファデックス/セファロースビーズ、セルロースビーズ、ポリスチレンビーズ、またはそれらの任意の組合せであってよい。ビーズは、ポリジメチルシロキサン(PDMS)、ポリスチレンガラスポリプロピレンアガロースゼラチン、ヒドロゲル、常磁性材料、セラミック、プラスチック、ガラス、メチルスチレンアクリルポリマーチタンラテックスセファロースセルロースナイロンシリコン、またはそれらの任意の組合せなどの材料を含みうる。

0164

いくつかの実施形態では、ビーズは、ポリマービーズ、たとえば、変形性ビーズまたはゲルビーズであってよく、これらは、確率バーコードで官能化されている(たとえば、10X Genomics(San Francisco,CA)からのゲルビーズなど)。いくつかの実施形態では、ゲルビーズは、ポリマーベースゲルを含みうる。ゲルビーズは、たとえば、1つ以上のポリマー前駆体液滴中封入することによって作製することができる。促進剤(たとえば、テトラメチルエチレンジアミンTEMED))にポリマー前駆体を曝露すると、ゲルビーズが作製されうる。

0165

いくつかの実施形態では、ポリマービーズは、たとえば、所望の条件下で、溶解、溶融、または分解しうる。所望の条件は、環境条件を含みうる。所望の条件は、制御された様式で、ポリマービーズの溶解、溶融、または分解を引き起こしうる。ゲルビーズは、化学的刺激物理的刺激生物学的刺激熱刺激磁気刺激電気刺激光刺激、またはそれらの任意の組合せによって、溶解、溶融、または分解しうる。

0166

たとえば、オリゴヌクレオチドバーコードなどの被検物質および/もしくは試薬を、ゲルビーズの内側表面(たとえば、オリゴヌクレオチドバーコードおよび/もしくはオリゴヌクレオチドバーコードを作製するために用いられる材料の拡散を介して進入可能な内部)ならびに/またはゲルビーズの外側表面、あるいは本明細書に記載されるいずれか他のマイクロカプセルカップリング/固定してもよい。カップリング/固定は、化学結合(たとえば、共有結合、イオン結合)または物理的現象(たとえば、ファンデルワールス力双極子−双極子相互作用など)の任意の形態を介するものであってよい。いくつかの実施形態では、ゲルビーズまたは本明細書に記載する任意の他のマイクロカプセルに対する試薬のカップリング/固定は、たとえば、不安定部分(たとえば、本明細書に記載の化学架橋剤をはじめとする、化学架橋剤)を介するなど、可逆性であってもよい。刺激を適用すると、不安定部分は、切断されて、固定された試薬が遊離されうる。いくつかの事例では、不安定部分は、ジスルフィド結合である。たとえば、オリゴヌクレオチドバーコードが、ジスルフィド結合を介してゲルビーズに固定されている場合、ジスルフィド結合を還元剤に曝露することにより、ジスルフィド結合を切断して、オリゴヌクレオチドバーコードをビーズから遊離させることができる。不安定部分は、ゲルビーズもしくはマイクロカプセルの一部として、試薬もしくは被検物質をゲルビーズもしくはマイクロカプセルに連結する化学リンカーの一部として、および/または試薬もしくは被検物質の一部として含有させてもよい。

0167

いくつかの実施形態では、ゲルビーズは、限定するものではないが、以下のものをはじめとする、極めて多様なポリマーを含みうる:ポリマー、熱感受性ポリマー感光性ポリマー磁気ポリマー、pH感受性ポリマー塩感受性ポリマー、化学的感受性ポリマー、高分子電解質多糖ペプチド、タンパク質、および/またはプラスチック。ポリマーとしては、限定するものではないが、ポリ(N−イソプロピルアクリルアミド)(PNIPAAm)、ポリ(スルホン酸スチレン)(PSS)、ポリ(アリルアミン)(PAAm)、ポリ(アクリル酸)(PAA)、ポリ(エチレンイミン)(PEI)、ポリ(ジアリルジメチル塩化アンモニウム)(PDADMAC)、ポリ(ピロール)(PPy)、ポリ(ビニルピロリドン)(PVPON)、ポリ(ビニルピリジン)(PVP)、ポリ(メタクリル酸)(PMAA)、ポリ(メチルメタクリレート)(PMMA)、ポリスチレン(PS)、ポリ(テトラヒドロフラン)(PTHF)、ポリ(フタルアルデヒド)(PTHF)、ポリ(ヘキシルビオロゲン)(PHV)、ポリ(L−リシン)(PLL)、ポリ(L−アルギニン)(PARG)、乳酸グリコール酸共重合体(PLGA)などの材料が挙げられる。

0168

多数の化学的刺激を用いて、ビーズの破壊または分解をトリガーすることができる。これらの化学的変化の例として、限定するものではないが、ビーズ壁に対するpH媒介による変化、架橋の化学的切断を介したビーズ壁の崩壊、ビーズ壁の解重合トリガー、およびビーズ壁スイッチング反応が挙げられる。また、バルク変化を用いて、ビーズの破壊をトリガーしてもよい。

0169

また、さまざまな刺激を介したマイクロカプセルに対するバルクまたは物理的変化も、試薬を放出するようにカプセルを設計する上で多くの利点をもたらす。バルクまたは物理的変化は、巨視規模で起こり、その際、ビーズ破断は、刺激により誘導された機械物理的力の結果による。こうしたプロセスとしては、限定するものではないが、圧力誘導破断、ビーズ壁溶融、またはビーズ壁の多孔性変化が挙げられる。

0170

生物学的刺激を用いて、ビーズの破壊または分解をトリガーすることもできる。概して、生物学的トリガーは、化学的トリガーと類似しているが、多くの例では、生体分子、または酵素、ペプチド、糖類、核酸などの生存系に一般的に存在する分子が使用される。たとえば、ビーズは、特定のプロテアーゼによる切断に感受性のペプチド架橋を有するポリマーを含んでもよい。さらに具体的には、一例は、GFLGKペプチド架橋を含むマイクロカプセルを含んでもよい。プロテアーゼカテプシンBなどの生物学的トリガーを加えると、シェルウェルのペプチド架橋が切断されて、ビーズの内容物が放出される。他の事例では、プロテアーゼを熱活性化してもよい。別の例では、ビーズは、セルロースを含有するシェル壁を含む。加水分解性酵素キトサンの添加は、セルロース結合の切断、シェル壁の解重合、およびその内部内容物の放出のための生物学的トリガーとして役立つ。

0171

さらに、ビーズは、熱刺激の適用時にその内容物を放出するように誘導することもできる。温度の変化は、ビーズにさまざまな変化を引き起こし得る。熱の変化は、ビーズ壁が崩壊するように、ビーズの溶融を引き起こし得る。別の事例では、熱は、ビーズが破断または破裂するように、ビーズの内部成分内圧を高めうる。また別の事例では、熱は、ビーズを収縮した脱水状態に変形させうる。さらに、熱は、ビーズの壁内の熱感受性ポリマーに作用して、ビーズの破壊を引き起こしうる。

0172

マイクロカプセルのビーズ壁に磁気ナノ粒子を含有させると、ビーズの破断トリガー、ならびに多数のビーズの誘導を可能にしうる。本開示のデバイスは、いずれの目的で磁気ビーズを含んでもよい。一例では、高分子電解質含有ビーズにFe3O4ナノ粒子を組み込むと、振動磁界刺激の存在下で破断がトリガーされる。

0173

ビーズはまた、電気刺激の結果として破壊または分解することもできる。前のセクションに記載した磁気粒子と同様に、電気感受性ビーズも、ビーズの破断トリガー、ならびに電界下でのアラインメント導電性またはレドックス反応などの他の機能を可能にする。一例では、電気感受性材料を含有するビーズは、内部試薬の放出を制御することができるように、電界下でアラインメントされる。他の例では、電界は、ビーズ壁自体の内部でレドックス反応を誘導することもでき、これにより、多孔性が増加しうる。

0174

また、光刺激を用いて、ビーズを破壊することもできる。多数の光トリガーが考えられ、特定の範囲の波長光子を吸収することができるナノ粒子および発色団などのさまざまな分子を用いるシステムが挙げられる。たとえば、金属酸化物コーティングをカプセルトリガーとして用いることができる。SiO2でコーティングされた高分子電解質カプセルのUV照射は、ビーズ壁の崩壊を引き起こしうる。また別の例では、アゾベンゼン基などのフォトスイッチ材料をビーズ壁に組み込んでもよい。UVまたは可視光線を適用すると、こうした化学物質は、光子の吸収時に、可逆的シス−トランス異性化を被る。この態様では、光子スイッチの組込みによって、光トリガー適用の際に、崩壊するか、またはより多孔性になりうるビーズ壁が得られる。

0175

たとえば、図2に示す確率バーコードの非限定的な例において、ブロック208でのマイクロウェルアレイの複数のマイクロウェルに、単一細胞などの細胞を導入した後、ビーズをブロック212のマイクロウェルアレイの複数のマイクロウェルに導入することができる。各マイクロウェルは、1つのビーズを含みうる。ビーズは、複数の確率バーコードを含みうる。確率バーコードは、ビーズに結合した5’アミン領域を含みうる。確率バーコードは、ユニバーサル標識、分子標識、標的結合領域、またはそれらの任意の組合せを含んでもよい。

0176

本明細書に開示する確率バーコードは、固体担体(たとえば、ビーズ)に関連(たとえば、結合)させることができる。固体担体と結合した確率バーコードは、各々、ユニーク配列を有する少なくとも100または1000の分子標識を含む群から選択される分子標識を含みうる。いくつかの実施形態では、固体担体と結合した異なる確率バーコードは、異なる配列の分子標識を含んでもよい。いくつかの実施形態では、固体担体と結合した、特定のパーセンテージの確率バーコードが、同じ細胞標識を含む。たとえば、そのパーセンテージは、60%、70%、80%、85%、90%、95%、97%、99%、100%、またはこれらの値のいずれか2つの間の数もしくは範囲、あるいはそうした近似値でありうる。別の例として、パーセンテージは、少なくとも、または多くとも60%、70%、80%、85%、90%、95%、97%、99%、もしくは100%でありうる。いくつかの実施形態では、固体担体と結合した確率バーコードは、同じ細胞標識を含みうる。異なる固体担体と結合した確率バーコードは、ユニーク配列を有する少なくとも100または1000の細胞標識を含む群から選択される、異なる細胞標識を含んでもよい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

この 技術と関連性が強い技術

該当するデータがありません

この 技術と関連性が強い法人

該当するデータがありません

この 技術と関連性が強い人物

該当するデータがありません

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ