図面 (/)

技術 データ発見ノード

出願人 フロージョーエルエルシー
発明者 マチェイシムジェイアルマロードマイケルディ.スタドニスキー
出願日 2016年5月9日 (4年9ヶ月経過) 出願番号 2018-510702
公開日 2018年9月20日 (2年5ヶ月経過) 公開番号 2018-527674
状態 特許登録済
技術分野 医療・福祉事務 検索装置 生物学的材料の調査,分析
主要キーワード プラグインシステム データ取得機器 範囲変数 適用動作 動作関数 イベントレベル 特徴変数 解析オプション
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年9月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題・解決手段

セッション内リアルタイムに、外部アルゴリズムを呼び出して取り入れ、上記アルゴリズムと対話するためのフレームワーク及びインタフェースが、本明細書で説明される。実施形態の例は、また、データ自体が、解析ワークフローにおける反復及び最適化に至るアルゴリズムの選択、変数、及び提示を指示することができるデータ駆動型解析に活用され得る、再現可能で更新可能なノードを含む。実施形態の例では、発見または診断プロセス全体が、特定のデータセットに対して実行されてもよく、それによって、同一の発見または診断プロセス、表現型同定、及び視覚化が、将来の実験においても繰り返され、発行され、検証され、または別の研究者共有され得るように、発見または診断プロセスを特定データセットから分離する。

概要

背景

序論
技術の進歩により、単一細胞実験機器は、以前の世代の機器よりもはるかに多くの情報を生成することが可能である。例えば、フローサイトメータは、各細胞毎に多数のパラメータ(例えば、10以上のパラメータ)を有する、何千もの個々の細胞を表すデータを生成し得る。その結果、同定され得る可能性のある表現型の数が、指数関数的に増加する。言い換えると、本出願の出願前には、単一細胞アッセイによってもたらされる情報コンテンツは、実質的に増加している。さらに、単一細胞の審査が、細胞及びDNA修飾毎に何千もの転写産物(RNA)分子照会を含むように拡大されている。例えば、トランスクリプトーム解析全体は、1万個の遺伝子を一度に検査することになる。

より多くのデータを生成するほど、細胞表現型が相互に作用し、または疾患に影響を及ぼす方法、及び他の疾患関連タンパク質発現する可能性により多くの見通しがもたらされるが、取得機器によって生成されるデータの膨大な量は驚異的であり、最前線専門家さえも圧倒し得る。概して、生命科学者は、自身の専門的技術を細胞機能または細胞表現型のセットまたはサブセットに集中させる。例えば、免疫学者は、疾患または免疫細胞機能を理解するために、自身の経験を一握りの細胞表現型に集中させる。一方、システム生物学者は、細胞相互作用及び遺伝子とタンパク質を互いにリンクする経路における豊富な知識を有し得る。細胞の相互作用、同定、及び機能性は、多様かつ複雑な特性の範囲を含むため、一個人が全ての細胞集団の専門家であることを期待するのは、非現実的である。生命科学者の専門的技術は、概して、全てではなくいくらかの細胞表現型(通常、現在知られる全ての細胞表現型の50%より少ない)に限定されるため、各細胞表現型が疾患または細胞相互作用とどのように相関するかを専門家が詳細に知らないことから、発見及び診断解析において知識の不一致が生じる。この知識の不一致の結果として、専門家は、取得機器によって取得されたデータの研究を、専門家により強く知られる細胞表現型に集中させることがある。表現型のサブセットへの実験及び研究を限定する際に、解析者は、疾患または細胞機能に非常に大きな影響を有し得る重要な表現型を無視または見落とすことがある。さらに、既知の表現型に集中することによって、取得機器によって収集された大量のデータが、休眠状態及び未使用状態に置かれ得る。

細胞表現型のサブセットに基づいてデータのサブセットを解析することが、実験中の興味深い発見を導き出すことがある。しかしながら、細胞応答は、細胞が複数機能パターンを発現することを含む場合があり、細胞表現型のサブセットのみを解析することによって、科学者は、他の細胞集団が、細胞の応答または疾患にどのように影響を与えるかを認識し損なう可能性がある。例えば、研究者は、特定の免疫応答において重要である、T細胞のサブセットを探す実験を行っている場合がある。この例では、T細胞のサブセットは、4つのパラメータ(マーカーとしても知られる)の組み合わせによって定義され得る。当然ながら、実験の発端では、研究者は、関心のあるT細胞のサブセットを同定するのに必要なマーカーの数を意識していない。したがって、より多くの細胞に対してより多くのマーカーを検査することによって、研究者は、罹患率または治療効果と相関する細胞サブセットを発見し得る。また、より多くのデータ解析技術を用いて、研究者は、自分自身の知識の不一致を克服して、疾患または細胞機能において重要である新たな予想外のサブセットを見つけることがある。よって、多くの研究者及び科学者によって表される知識ギャップ補償する技術に対する当該技術分野における必要性が存在する。

従来の技術解決策は、科学者の知識の欠如と実際の細胞応答との間のギャップを十分に埋めていないと、発明者は考えている。例えば、従来技術は、有益な解析ツールを提供することによって研究者の実験を支援し得るが、それらのツールは、データと知識の不一致を埋めるのに依然として十分ではない。従来の発見解決策では、解析者は、依然としてサンプル群に対して手動クラスタリングを実行し解析を適用しなければならない。一方、細胞表現型を検査するための9個のマーカー、メモリ状態を検査する8個のマーカー、及び細胞信号伝達を検査する8個のマーカーを有する実験の例では、可能性のあるクラスタの数は、225、即ち33,554,432個のクラスタであり、それは、手動での解析にはあまりに多すぎるクラスタである。言い換えると、潜在的な表現型の数及び可能性のある2次元表示は、手動の解析ではうまくスケールされない。当然ながら、いくつかの表現型を枝刈りすることが、表現型空間をより管理可能な数に制限するために発生し得る。例えば、生命科学者は、ナイーブエフェクタセントラルメモリ、及びエフェクタメモリ細胞にさらに分割されるCD3+CD45+/−/HLA−DR−/CD16+、CD4+、及びCD8+細胞を検査するためにさらなる表現型枝刈りで単一細胞及び生きた無傷細胞に対してプレ処理ゲーティングを実行し得る。しかしながら、この表現型枝刈りされた例でさえ、発見のためにサンプル毎に16のファイルを手動で操作する必要がある。したがって、狭い焦点を越えて発見に焦点を置いた研究において単一細胞技術を活用しようとする科学者は、困難で、非決定的かつ再現不可能な道に直面する。それゆえに、高度な技術のある専門家の介入なしに高次元データを解析し、生物学的に関連のあるデータを見つけることが可能な、データ解析ツールを提供する必要性が当該技術分野において存在する。

発明の概要
上記問題を考慮して、本発明が開発された。発明者は、セッション内リアルタイムに、任意の外部アルゴリズムを呼び出して取り入れ、上記アルゴリズムと対話するためのフレームワーク及びインタフェースを開示する。発明者は、また、再現可能で更新可能なノード及びデータ駆動型解析にこれらのノードを活用することを開示する。データ駆動型解析によって、データ自体が、解析ワークフローにおける反復及び最適化に至るアルゴリズムの選択、変数、及び提示を指示することができる。実施形態の例のこれらの2つの態様を通じて、発見または診断プロセス全体が、特定のデータセットに対して実行されてもよく、それによって、同一の発見または診断プロセス、表現型同定、及び視覚化が、将来の実験においても繰り返され、発行され、検証され、または別の研究者と共有され得るように、発見または診断プロセスを特定データセットから分離する。

本発明のさらなる特徴及び利点、ならびに本発明の多様な実施形態の構造及び動作は、添付図面を参照して以下で詳細に説明される。

本明細書に組み込まれ、かつ本明細書の一部を形成する添付図面は、本発明の実施形態を説明し、説明と共に本発明の原理を説明する役割を果たす。

概要

セッション内でリアルタイムに、外部アルゴリズムを呼び出して取り入れ、上記アルゴリズムと対話するためのフレームワーク及びインタフェースが、本明細書で説明される。実施形態の例は、また、データ自体が、解析ワークフローにおける反復及び最適化に至るアルゴリズムの選択、変数、及び提示を指示することができるデータ駆動型解析に活用され得る、再現可能で更新可能なノードを含む。実施形態の例では、発見または診断プロセス全体が、特定のデータセットに対して実行されてもよく、それによって、同一の発見または診断プロセス、表現型同定、及び視覚化が、将来の実験においても繰り返され、発行され、検証され、または別の研究者と共有され得るように、発見または診断プロセスを特定データセットから分離する。

目的

それゆえに、高度な技術のある専門家の介入なしに高次元データを解析し、生物学的に関連のあるデータを見つけることが可能な、データ解析ツールを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

任意の特定データセットから独立したモデルに従って科学データを処理するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、非一時的コンピュータ可読記憶媒体上に存在するデータ発見ノードデータ構造と、非一時的コンピュータ可読記憶媒体上に存在する複数のプロセッサ実行可能命令と、を備え、前記データ発見ノードデータ構造は、(1)反復型科学データ解析を受けるべき科学データの仕様、(2)前記反復型科学データ解析のための出力フォーマットの仕様、及び(3)前記反復型科学データ解析を制御するための複数の動作変数の仕様を含み、指定された前記動作変数は、(i)前記反復型科学データ解析の一部として、指定された前記科学データに対して実行されるべきアルゴリズムの仕様、(ii)メタデータの仕様であって、指定された前記メタデータが、指定された前記アルゴリズムが指定された前記科学データに適用される条件を定義するように構成される、前記メタデータの仕様、及び(iii)充足変数の仕様であって、指定された前記充足変数が、前記反復型科学データ解析の一部として実行される反復の回数を制御するように構成される、前記充足変数の仕様を含み、前記命令は、コンピュータのプロセッサによる実行時に、前記コンピュータに、前記データ発見ノードデータ構造を読み出し及び呼び出して、指定された前記動作変数に従って指定された前記科学データに対応する特定データセットに対し前記反復型科学データ解析を実行させ、指定された前記出力フォーマットで結果を生成させるように構成される、コンピュータプログラム製品。

請求項2

前記命令が、前記プロセッサによる実行時に、前記読み出し及び呼び出し動作の一部として前記コンピュータに、指定された前記動作変数をメモリにロードさせ、ロードされた前記メタデータを前記特定データセットに対してテストさせ、前記メタデータテスト動作に基づいて、前記特定データセットに対して実行されるべき指定されたアルゴリズムを決定させ、決定された前記アルゴリズムを指定された前記データセットに適用してデータ解析結果を生成させ、前記結果及び前記反復型科学データ解析についての状態を記憶するメモリ内一時データオブジェクトを作成させ、ロードされた前記充足変数に基づいて前記反復型科学データ解析の別の反復が必要かどうかを判断させ、前記反復型科学データ解析の別の反復が必要であるという判断に応答して、(1)ロードされた前記充足変数が充足したという判断が行われるまで、前記メタデータテスト動作、前記指定されたアルゴリズム決定、前記アルゴリズム適用動作、及び前記別の反復判断動作を繰り返させ、(2)繰り返される前記アルゴリズム適用動作に基づいて前記一時データオブジェクトを更新させ、前記科学データ解析の別の反復が必要でないという判断に応答して、指定された前記出力フォーマットに従って前記反復型科学データ解析の結果をワークスペースに書き込ませる、ようにさらに構成される、請求項1に記載のコンピュータプログラム製品。

請求項3

前記非一時的コンピュータ可読記憶媒体上に存在する複数の前記データ発見ノードデータ構造をさらに備え、複数の前記データ発見ノードデータ構造が、互いに対して異なる仕様を含み、前記命令が、前記プロセッサによる実行時に、前記コンピュータに、ユーザ入力に応答して、前記複数のデータ発見ノードデータ構造の中からデータ発見ノードデータ構造を選択させ、選択された前記データ発見ノードデータ構造に対して前記読み出し及び呼び出し動作を実行させるようにさらに構成される、請求項1または2に記載のコンピュータプログラム製品。

請求項4

前記命令が、前記プロセッサによる実行時に、前記コンピュータに、ユーザ入力に応答して、選択された前記データ発見ノードデータ構造についての指定された前記動作変数のうちの少なくとも1つを定義させるようにさらに構成される、請求項3に記載のコンピュータプログラム製品。

請求項5

指定された前記アルゴリズムが、外部アルゴリズムを含み、前記命令が、前記プロセッサによる実行時に、前記コンピュータに、外部アルゴリズムプラグインインタフェースフレームワークを介して前記外部アルゴリズムを呼び出させるようにさらに構成される、請求項1〜4のいずれか1項に記載のコンピュータプログラム製品。

請求項6

指定された前記アルゴリズムが、リモートコンピュータによって実行され、前記命令が、前記プロセッサによる実行時に、前記コンピュータに、リモートコンピュータプラグインインタフェースフレームワークを介して指定された前記アルゴリズムを呼び出させるようにさらに構成される、請求項1〜5のいずれか1項に記載のコンピュータプログラム製品。

請求項7

前記科学データが、実験からの細胞データを含む、請求項1〜6のいずれか1項に記載のコンピュータプログラム製品。

請求項8

前記細胞データが、フローサイトメータによって取得される単一細胞データを含む、請求項7に記載のコンピュータプログラム製品。

請求項9

指定された前記アルゴリズムが、集団同定アルゴリズムを含む、請求項7または8に記載のコンピュータプログラム製品。

請求項10

指定された前記アルゴリズムが、幾何学的ゲーティングアルゴリズムを含む、請求項7〜9のいずれか1項に記載のコンピュータプログラム製品。

請求項11

科学データを解析するための方法であって、データ発見ノードデータ構造をデータファイルに適用するステップであって、前記データファイルが、取得機器によって収集される科学データを含み、前記データファイルが、関連付けられるメタデータを有するステップを含み、前記適用するステップが、前記データ発見ノードに関連付けられる複数の動作変数及び前記データファイルに関連付けられる前記メタデータをメモリにロードするステップと、前記メタデータが前記複数の動作変数のうちの1つによって指定されるメタデータルール基準を満たすかどうかを判断するステップと、前記メタデータが前記メタデータルール基準を満たすという判断に応答して、前記データファイルに関連付けられる前記科学データをメモリにロードするステップと、前記データファイルに関連付けられる前記科学データに対して第1の解析アルゴリズムを実行するステップであって、前記複数の動作変数のうちの1つが前記第1の解析アルゴリズムを指定するステップと、充足変数を定義する一時データオブジェクトを作成するステップと、前記一時データオブジェクトの充足変数が、前記複数の動作変数のうちの1つによって指定される充足閾値を充足するかどうかを判断するステップと、前記一時データオブジェクトの充足変数が前記充足閾値を充足しないという判断に応答して、(1)前記データファイルに関連付けられる前記科学データのフルセットまたはサブセットに対して前記第1の解析アルゴリズムまたは第2の解析アルゴリズムのいずれかを実行するステップであって、前記複数の動作変数のうちの1つが、前記第1の解析アルゴリズムまたは前記第2の解析アルゴリズムを生データの前記フルセットまたは前記サブセットに適用するかどうかを定義するステップと、(2)前記第1の解析アルゴリズムまたは前記第2の解析アルゴリズムの前記実行に基づいて前記一時データオブジェクトを更新するステップと、(1)前記一時データオブジェクトの充足変数が前記充足閾値を充足するかどうかを判断するステップと、(2)前記第1の解析アルゴリズムまたは前記第2の解析アルゴリズムのいずれかを実行するステップと、(3)更新済みの前記一時データオブジェクトの充足変数が前記充足閾値を充足するまで、前記一時データオブジェクトを更新するステップと、を繰り返し実行するステップと、を含み、前記方法のステップが、プロセッサによって実行される、方法。

請求項12

前記データ発見ノードが、データベースに保存された予め定義されたデータ構造である、請求項11に記載の方法。

請求項13

前記データ発見ノードが、ユーザによって作成される、新たに定義されたデータ構造である、請求項11に記載の方法。

請求項14

新たに定義された前記データ発見ノードを将来の使用のためにデータベースに記憶するステップをさらに含む、請求項13に記載の方法。

請求項15

前記プロセッサが前記データベース内の類似のデータ発見ノードを探索するステップと、前記類似のデータ発見ノードのパラメータを解析するステップと、前記類似のデータ発見ノードの前記パラメータを前記データ発見ノードの前記パラメータと比較するステップと、をさらに含む、請求項14に記載の方法。

請求項16

前記動作変数が、複数の取得機器のパラメータ、特徴変数、反復変数、及び範囲変数を含む、請求項11〜15のいずれか1項に記載の方法。

請求項17

前記メタデータがメタデータルール基準を満たすかどうかを判断する前記ステップが、緩やかなモード、中程度モード、及び厳密モードからなる群から選択されるモードに従って、前記プロセッサが前記メタデータルール基準に対して前記メタデータをテストするステップを含む、請求項11〜16のいずれか1項に記載の方法。

請求項18

非一時的コンピュータ可読記憶媒体上に存在する複数のプロセッサ実行可能命令であって、前記命令が、前記コンピュータにノードデータ構造をデータファイルに適用させることによって科学データを解析するように、前記プロセッサによる実行のために構成され、前記データファイルが、取得機器によって収集される科学データを含み、前記データファイルが、関連付けられるメタデータを有し、前記適用動作が、前記データ発見ノードに関連付けられる複数の動作変数及び前記データファイルに関連付けられる前記メタデータをメモリにロードし、前記メタデータが前記複数の動作変数のうちの1つによって指定されるメタデータルール基準を満たすかどうかを判断し、前記メタデータが前記メタデータルール基準を満たすという判断に応答して、前記データファイルに関連付けられる前記科学データをメモリにロードし、前記データファイルに関連付けられる前記科学データに対して第1の解析アルゴリズムを実行し、前記複数の動作変数のうちの1つが前記第1の解析アルゴリズムを指定し、充足変数を定義する一時データオブジェクトを作成し、前記一時データオブジェクトの充足変数が、前記複数の動作変数のうちの1つによって指定される充足閾値を充足するかどうかを判断し、前記一時データオブジェクトの充足変数が前記充足閾値を充足しないという判断に応答して、(1)前記データファイルに関連付けられる前記科学データのフルセットまたはサブセットに対して前記第1の解析アルゴリズムまたは第2の解析アルゴリズムのいずれかを実行し、前記複数の動作変数のうちの1つが、前記第1の解析アルゴリズムまたは前記第2の解析アルゴリズムを生データの前記フルセットまたは前記サブセットに適用するかどうかを定義し、(2)前記第1の解析アルゴリズムまたは前記第2の解析アルゴリズムの前記実行に基づいて前記一時データオブジェクトを更新し、(1)前記一時データオブジェクトの充足変数が前記充足閾値を充足するかどうかとの判断動作と、(2)前記第1の解析アルゴリズムまたは前記第2の解析アルゴリズム実行動作と、(3)更新済みの前記一時データオブジェクトの充足変数が前記充足閾値を充足するまで、前記更新動作を繰り返し実行する、ように構成される、コンピュータプログラム製品。

請求項19

科学データを解析するための方法であって、複数の動作変数の仕様を受信するステップであって、前記仕様が、(1)充足基準の仕様、(2)第1の解析アルゴリズムの仕様、(3)第2の解析アルゴリズムの仕様、ならびに(4)前記第1の及び第2の解析アルゴリズムが前記科学データに適用されるべき条件の仕様を含むステップと、前記第1の解析アルゴリズムを指定する前記動作変数、及び前記第1の解析アルゴリズムが前記科学データに適用されるべき条件を指定する前記動作変数に基づいて、前記科学データの少なくとも一部に対して前記第1の解析アルゴリズムを実行するステップと、前記充足基準が満たされるまで、前記実行ステップの前記結果及び前記動作変数に基づいて前記科学データの少なくとも一部に対し前記第1の解析アルゴリズムまたは第2の解析アルゴリズムを繰り返し実行するステップと、を含み、前記方法のステップが、プロセッサによって実行される、方法。

請求項20

前記複数の動作変数のうちの1つが、前記科学データまたは前記科学データのサブセットを解析するかどうかを指定する、請求項19に記載の方法。

請求項21

充足値を含む一時オブジェクトを前記プロセッサが作成するステップであって、前記プロセッサがデータに対して解析アルゴリズムを実行した後、前記プロセッサが前記充足値を更新するステップと、前記プロセッサが、前記充足値の値を前記充足基準と比較して前記充足基準が満たされるかどうかを判断するステップと、をさらに含む、請求項19または20に記載の方法。

請求項22

前記プロセッサが前記科学データに対して前記第1の解析アルゴリズムを実行することによって生成される結果に基づいて、前記プロセッサが、前記第1の、または前記第2の解析アルゴリズムを実行するかどうかを判断する、請求項19〜21のいずれか1項に記載の方法。

請求項23

前記プロセッサが前記科学データに対して前記第1の解析アルゴリズムを実行することによって生成される結果に基づいて、前記プロセッサが、前記科学データまたは前記科学データのサブセットを解析するかどうかを判断する、請求項19〜22のいずれか1項に記載の方法。

請求項24

指定された前記解析アルゴリズムのうちの少なくとも1つが、外部解析アルゴリズムを含む、請求項19〜23のいずれか1項に記載の方法。

請求項25

メモリ内のデータ発見ノードデータ構造にアクセスするステップであって、前記データ発見ノードデータ構造が、複数のデータセットのうちのいずれかに対して実行されるべき複数の処理動作を定義するように構成され、前記データ発見ノードデータ構造が、任意の特定データセットから独立した処理のためのモデルとして構成されるステップと、データセットを選択するステップと、プロセッサによって、選択された前記データセットについての処理結果を生成するために、アクセスされた前記データ発見ノードデータ構造を選択された前記データセット内のデータに適用するステップと、を含む方法。

請求項26

前記データ発見ノードデータ構造が、(1)充足基準の仕様、(2)第1の解析アルゴリズムの仕様、(3)第2の解析アルゴリズムの仕様、ならびに(4)前記第1の及び第2の解析アルゴリズムがデータセットに適用されるべき条件の仕様を含み、前記適用するステップは、前記プロセッサが、(1)指定された前記条件に基づいて、指定された前記解析アルゴリズムのうちのどれを実行するかを決定するステップと、(2)選択された前記データセット内のデータに関して、決定された前記解析アルゴリズムを実行するステップと、(3)決定された前記解析アルゴリズムの前記実行が、指定された前記充足基準の充足をもたらしたかどうかを判断するステップと、(4)指定された前記充足基準が充足したという判断が行われるまで、(i)指定された前記条件に基づいて、指定された前記解析アルゴリズムのうちのどれを実行するかを決定するステップと、(ii)選択された前記データセット内のデータに関して、決定された前記解析アルゴリズムを実行するステップと、(iii)決定された前記解析アルゴリズムの前記実行が、指定された前記充足基準の充足をもたらしたかどうかを判断するステップと、を繰り返すステップと、を含む、請求項25に記載の方法。

請求項27

非一時的コンピュータ可読記憶媒体上に存在する複数のプロセッサ実行可能な命令を含み、前記命令が、前記コンピュータに、複数の動作変数の仕様を受信させ、前記仕様が、(1)充足基準の仕様、(2)第1の解析アルゴリズムの仕様、(3)第2の解析アルゴリズムの仕様、ならびに(4)前記第1の及び第2の解析アルゴリズムが科学データに適用されるべき条件の仕様を含み、前記第1の解析アルゴリズムを指定する前記動作変数、及び前記第1の解析アルゴリズムが前記科学データに適用されるべき条件を指定する前記動作変数に基づいて、前記科学データの少なくとも一部に対して前記第1の解析アルゴリズムを実行させ、前記充足基準が満たされるまで、前記実行ステップの前記結果及び前記動作変数に基づいて前記科学データの少なくとも一部に対し前記第1の解析アルゴリズムまたは第2の解析アルゴリズムを繰り返し実行させることによって前記科学データを解析するように、前記プロセッサによる実行のために構成される、コンピュータプログラム製品。

請求項28

非一時的コンピュータ可読記憶媒体上に存在する複数のプロセッサ実行可能な命令を含み、前記命令が、前記コンピュータに、メモリ内のデータ発見ノードデータ構造にアクセスさせ、前記データ発見ノードデータ構造が、複数のデータセットのうちのいずれかに対して実行されるべき複数の処理動作を定義するように構成され、前記データ発見ノードデータ構造が、任意の特定データセットから独立した処理のためのモデルとして構成され、データセットを選択させ、プロセッサによって、選択された前記データセットについての処理結果を生成するために、アクセスされた前記データ発見ノードデータ構造を選択された前記データセット内のデータに適用させることによって科学データを解析するように、前記プロセッサによる実行のために構成される、コンピュータプログラム製品。

請求項29

前記データ発見ノードオブジェクトが、ライブラリとして記憶されたデータ発見オブジェクトのデータベース内の複数のデータ発見ノードオブジェクトのうちの1つを含み、各データ発見オブジェクトが、選択された前記データに基づいて解析アルゴリズムを指定するように構成されるメタデータに関連付けられる、請求項28に記載のコンピュータプログラム製品。

請求項30

前記データセットが、フローサイトメータによって取得される単一細胞データを含む、請求項28または29に記載のコンピュータプログラム製品。

請求項31

コンピュータによって実行されるデータ解析ソフトウェアと前記データ解析ソフトウェアの外部アルゴリズムとの間で、プラグインインタフェースフレームワークを提供するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、非一時的コンピュータ可読記憶媒体上に存在し、前記プラグインインタフェースフレームワークを定義する複数のプロセッサ実行可能な命令を含み、前記命令が、前記コンピュータのプロセッサによる実行時に、前記コンピュータに、前記データ解析ソフトウェアの実行セッション中にサンプルデータの解析に関するワークスペースを開かせ、前記外部アルゴリズムへの前記インタフェースのためのラッパーを作成させ、前記外部アルゴリズムの呼び出しのための要求を構成させ、前記要求が、前記外部アルゴリズムの識別及び前記外部アルゴリズムのためのデータ入力の仕様を含み、サンプルデータ、前記サンプルデータについてのメタデータ、及び前記外部アルゴリズムが、前記要求に従って前記外部アルゴリズムを呼び出すために結果を前記外部アルゴリズムに保存すべき出力先を提供させ、前記出力先において、前記外部アルゴリズムから結果を受信させ、受信された前記結果を前記ワークスペース内に保存させ、前記外部アルゴリズムからの前記結果を前記データ解析ソフトウェアワークスペースに統合するために、前記ワークスペースを前記データ解析ソフトウェアに復元させるように構成される、前記コンピュータプログラム製品。

請求項32

前記サンプルデータが、実験からの細胞データを含む、請求項31に記載のコンピュータプログラム製品。

請求項33

前記細胞データが、フローサイトメータによって取得される単一細胞データを含む、請求項32に記載のコンピュータプログラム製品。

請求項34

前記プラグインインタフェースフレームワークが、(1)前記サンプルデータの入力ファイル、(2)前記出力先、及び(3)前記サンプルデータのデータ記述を含む、請求項32または33に記載のコンピュータプログラム製品。

請求項35

前記データ記述が、(1)前記サンプルデータについてのメタデータ、(2)前記サンプルデータに到達するために使用される1つまたは複数の以前の計算の識別、及び(3)前記サンプルデータを処理及び視覚化するために使用される1つまたは複数の変換の識別を含む、請求項34に記載のコンピュータプログラム製品。

請求項36

前記命令が、前記プロセッサによる実行時に、前記コンピュータに、前記外部アルゴリズムによって生成される中間生成物を管理させるようにさらに構成される、請求項32〜35のいずれか1項に記載のコンピュータプログラム製品。

請求項37

前記命令が、第1の言語で書かれており、前記第1の言語が、第2の言語でのプログラムへの呼び出しをサポートするように構成され、前記外部アルゴリズムが、前記第2の言語で書かれている、請求項32〜36のいずれか1項に記載のコンピュータプログラム製品。

請求項38

前記第1の言語が、Javaである、請求項36に記載のコンピュータプログラム製品。

請求項39

前記第2の言語が、Cである、請求項38に記載のコンピュータプログラム製品。

請求項40

前記第2の言語が、Rである、請求項38に記載のコンピュータプログラム製品。

請求項41

前記第2の言語が、ウェブベース計算エンジン言語である、請求項38に記載のコンピュータプログラム製品。

請求項42

前記ラッパーが、外部集団ノードを含む、請求項32〜41のいずれか1項に記載のコンピュータプログラム製品。

請求項43

前記命令が、前記プロセッサによる実行時に、前記コンピュータに、前記サンプルデータについての導出パラメータを作成させるようにさらに構成され、前記導出パラメータが、前記サンプルデータ内の亜集団を作成するために前記データ解析ソフトウェアにより使用するためである、請求項42に記載のコンピュータプログラム製品。

請求項44

前記データ入力の仕様が、(1)前記サンプルデータのためのファイルパス、(2)前記サンプルデータのためのパラメータの数、(3)前記サンプルデータのためのクラスタの数、(4)前記サンプルデータに関する次元削減のための変数、(5)色選択、(6)視覚化タイプ、及び(7)画像タイプからなる群の少なくとも1つの要素を含む、請求項32〜43のいずれか1項に記載のコンピュータプログラム製品。

請求項45

前記外部アルゴリズムが、集団同定アルゴリズムを含む、請求項32〜44のいずれか1項に記載のコンピュータプログラム製品。

請求項46

指定された前記アルゴリズムが、幾何学的ゲーティングアルゴリズムを含む、請求項32〜45のいずれか1項に記載のコンピュータプログラム製品。

請求項47

指定された前記アルゴリズムが、レポート生成アルゴリズムを含む、請求項32〜46のいずれか1項に記載のコンピュータプログラム製品。

請求項48

指定された前記アルゴリズムが、解析視覚化アルゴリズムを含む、請求項32〜47のいずれか1項に記載のコンピュータプログラム製品。

請求項49

指定された前記アルゴリズムが、高スループットノミクス解析アルゴリズム及び高スループットフェノミクスデータ解析アルゴリズムからなる群の要素を含む、請求項32〜48のいずれか1項に記載のコンピュータプログラム製品。

請求項50

前記命令が、前記データ解析ソフトウェアの一部である、請求項32〜49のいずれか1項に記載のコンピュータプログラム製品。

請求項51

前記命令が、前記データ解析ソフトウェアのユーザによる介入なしに前記コンピュータの前記プロセッサによる実行のために構成される、請求項32〜50のいずれか1項に記載のコンピュータプログラム製品。

請求項52

科学データを解析するための方法であって、外部集団ノードを作成するステップであって、前記外部集団ノードが、(1)取得機器により収集されるデータを表すデータセット、(2)出力フォルダ先、及び(3)前記データセットのマークアップ言語記述を含み、前記マークアップ言語記述が、(i)前記データセットについてのメタ情報、及び(ii)前記データセットに到達するために使用される以前の計算の仕様を含むステップと、前記外部集団ノードに基づいて外部アルゴリズムを呼び出すステップであって、前記外部アルゴリズムが、前記データセットに対する処理を実行するように構成され、前記出力フォルダ先が、前記外部アルゴリズムがその処理からの結果を保存するべき場所を定義するステップと、前記データセットに対して前記外部アルゴリズムにより実行される前記処理の結果として、前記外部アルゴリズムから結果を受信するステップと、前記外部アルゴリズムからの前記結果を解析ワークスペースファイルに統合するステップと、を含み、前記方法のステップが、プロセッサによって実行される、方法。

請求項53

前記外部アルゴリズムが、細胞集団同定アルゴリズムを含む、請求項52に記載の方法。

請求項54

前記外部アルゴリズムが、高スループットゲノミクスデータ解析アルゴリズムを含む、請求項52または53に記載の方法。

請求項55

前記外部アルゴリズムが、解析結果のレポート及び視覚化を生成する、請求項52〜54のいずれか1項に記載の方法。

請求項56

前記作成するステップが、前記外部アルゴリズムにより使用されるべき動作変数を設定するように前記プロセッサが前記ユーザに促すステップを含む、請求項52〜55のいずれか1項に記載の方法。

請求項57

前記外部アルゴリズムの結果が、(1)CSVファイル、(2)CLRファイル、(3)ゲーティングMLファイル、及び(4)FCSファイルからなる群の要素を含む、請求項52〜56のいずれか1項に記載の方法。

請求項58

前記データセットが変化したときに、前記プロセッサが前記外部アルゴリズムを再呼び出しするステップをさらに含む、請求項52〜57のいずれか1項に記載の方法。

請求項59

科学データを解析するための方法であって、(1)取得機器によって収集される科学データに関連付けられるメタデータ、及び(2)リモートコンピュータシステムに接続するためのインタフェースに関連付けられるメタデータを読み出すステップと、前記科学データに関連付けられる前記メタデータ、及び前記インタフェースに関連付けられる前記メタデータに基づいて、生データ解析の方法を指示するステップと、前記ワークスペース及び前記インタフェースの状態を保存するステップと、前記リモートコンピュータシステムについてのネットワークアドレスを参照すること及び前記リモートコンピュータシステムとの接続を生成することによって、前記インタフェースを通して前記リモートコンピュータシステムと通信するステップと、前記ワークスペースに関連付けられるワークスペースデータを前記リモートコンピュータシステムに送信するステップと、前記リモートコンピュータシステムからデータを受信するステップと、前記リモートコンピュータシステムとの前記接続を終了するステップと、を含み、前記方法のステップが、プロセッサによって実行される、方法。

請求項60

前記リモートコンピュータシステムから受信される前記データが、(1)オープンソースデータベースからの実験データ、(2)外部データベースからの注釈付き実験データ、及び(3)臨床試験のための追跡識別番号からなる群の要素を含む、請求項59に記載の方法。

請求項61

前記終了するステップが、データベース接続または他のコンピュータリソースを前記プロセッサが解放するステップを含む、請求項59または60に記載の方法。

請求項62

前記リモートコンピュータシステムから承認を受けるために、前記リモートコンピュータシステムと資格証明書交換するステップをさらに含む、請求項59〜61のいずれか1項に記載の方法。

請求項63

前記リモートコンピュータシステムによって実行されるプレ処理ステップ及びポスト処理ステップからなる群の要素を反映するために、前記ワークスペースに関連付けられる前記メタデータを前記プロセッサが増強するステップをさらに含む、請求項59〜62のいずれか1項に記載の方法。

請求項64

第1のコンピュータによって実行されるデータ解析ソフトウェアが第2のコンピュータによって実行される動作関数を呼び出すことを可能にするために、前記第1のコンピュータと前記第2のコンピュータとの間でプラグインインタフェースフレームワークを提供するためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、非一時的コンピュータ可読記憶媒体上に存在し、前記プラグインインタフェースフレームワークを定義する複数のプロセッサ実行可能命令を含み、前記命令が、前記第1のコンピュータのプロセッサによる実行時に、前記第1のコンピュータに、前記データ解析ソフトウェアの実行セッション中にサンプルデータの解析に関するワークスペースを開かせ、前記ワークスペースのデータ記述を読み出させ、前記ワークスペースデータ記述が、前記サンプルデータについてのメタデータを含み、前記プラグインインタフェースフレームワークのデータ記述を読み出させ、前記インタフェースデータ記述が、前記第2のコンピュータについてのアドレスを識別するメタデータを含み、前記アドレスに基づいて前記第2のコンピュータへの接続を確立させ、前記サンプルデータに関して前記第2のコンピュータの動作関数を呼び出すために、前記接続を通して前記第2のコンピュータと通信させ、前記呼び出しに応答して前記接続を通して前記第2のコンピュータからデータを受信させ、受信された前記データに基づいて前記ワークスペースを修正させ、修正された前記ワークスペースに基づいて前記ワークスペースメタデータを修正させ、前記データ解析ソフトウェアセッション内で、修正された前記ワークスペースをメモリに保存させ、修正された前記ワークスペースメタデータをメモリに保存させ、前記セッションを終了させるように構成される、コンピュータプログラム製品。

請求項65

前記サンプルデータが、実験からの細胞データを含む、請求項64に記載のコンピュータプログラム製品。

請求項66

前記細胞データが、フローサイトメータによって取得される単一細胞データを含む、請求項65に記載のコンピュータプログラム製品。

請求項67

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、前記細胞データに関するゲートの追加によって、受信された前記データに基づいて前記ワークスペースを修正させるようにさらに構成される、請求項65または66に記載のコンピュータプログラム製品。

請求項68

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、前記細胞データについての統計値の追加によって、受信された前記データに基づいて前記ワークスペースを修正させるようにさらに構成される、請求項65〜67のいずれか1項に記載のコンピュータプログラム製品。

請求項69

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、前記細胞データについてのサンプル名の追加によって、受信された前記データに基づいて前記ワークスペースを修正させるようにさらに構成される、請求項65〜68のいずれか1項に記載のコンピュータプログラム製品。

請求項70

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、修正された前記ワークスペースが定義されたスキーマ遵守するように、受信された前記データに基づいて前記ワークスペースを修正させるようにさらに構成される、請求項65〜69のいずれか1項に記載のコンピュータプログラム製品。

請求項71

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、修正された前記ワークスペースに基づいて、前記データ解析ソフトウェアによって計算を呼び出しさせるようにさらに構成される、請求項65〜70のいずれか1項に記載のコンピュータプログラム製品。

請求項72

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、修正された前記ワークスペースメタデータが、前記セッションに関する前記プラグインインタフェースフレームワークについての保持状態を表すデータを含むように、修正された前記ワークスペースに基づいて前記ワークスペースメタデータを修正させるようにさらに構成される、請求項65〜71のいずれか1項に記載のコンピュータプログラム製品。

請求項73

前記命令が、前記第1のコンピュータの前記プロセッサによる実行時に、前記第1のコンピュータに、コンピュータリソースを解放するように前記接続の終了を通して前記セッションを終了させるようにさらに構成される、請求項65〜72のいずれか1項に記載のコンピュータプログラム製品。

請求項74

前記サンプルデータが、複数のパラメータについてのデータ値を含み、前記サンプルデータメタデータが、前記サンプルデータについてのパラメータ名を含む、請求項65〜73のいずれか1項に記載のコンピュータプログラム製品。

請求項75

前記第2のコンピュータのアドレスが、データベースまたはサーバについてのURIを含む、請求項65〜74のいずれか1項に記載のコンピュータプログラム製品。

請求項76

前記命令が、前記データ解析ソフトウェアの一部である、請求項65〜75のいずれか1項に記載のコンピュータプログラム製品。

請求項77

前記命令が、前記データ解析ソフトウェアのユーザによる介入なしに前記第1のコンピュータの前記プロセッサによる実行のために構成される、請求項65〜76のいずれか1項に記載のコンピュータプログラム製品。

請求項78

前記ワークスペースが、XMLデータを含む、請求項65〜77のいずれか1項に記載のコンピュータプログラム製品。

請求項79

前記ワークスペースデータ記述が、XMLデータを含む、請求項65〜78のいずれか1項に記載のコンピュータプログラム製品。

技術分野

0001

関連特許出願の相互参照及び優先権主張
本特許出願は、2015年5月8日に出願された「Data Discovery Nodes」と題する米国仮特許出願第62/158,903号の優先権を主張し、その開示全体が参照により本明細書に組み込まれる。

背景技術

0002

序論
技術の進歩により、単一細胞実験機器は、以前の世代の機器よりもはるかに多くの情報を生成することが可能である。例えば、フローサイトメータは、各細胞毎に多数のパラメータ(例えば、10以上のパラメータ)を有する、何千もの個々の細胞を表すデータを生成し得る。その結果、同定され得る可能性のある表現型の数が、指数関数的に増加する。言い換えると、本出願の出願前には、単一細胞アッセイによってもたらされる情報コンテンツは、実質的に増加している。さらに、単一細胞の審査が、細胞及びDNA修飾毎に何千もの転写産物(RNA)分子照会を含むように拡大されている。例えば、トランスクリプトーム解析全体は、1万個の遺伝子を一度に検査することになる。

0003

より多くのデータを生成するほど、細胞表現型が相互に作用し、または疾患に影響を及ぼす方法、及び他の疾患関連タンパク質発現する可能性により多くの見通しがもたらされるが、取得機器によって生成されるデータの膨大な量は驚異的であり、最前線専門家さえも圧倒し得る。概して、生命科学者は、自身の専門的技術を細胞機能または細胞表現型のセットまたはサブセットに集中させる。例えば、免疫学者は、疾患または免疫細胞機能を理解するために、自身の経験を一握りの細胞表現型に集中させる。一方、システム生物学者は、細胞相互作用及び遺伝子とタンパク質を互いにリンクする経路における豊富な知識を有し得る。細胞の相互作用、同定、及び機能性は、多様かつ複雑な特性の範囲を含むため、一個人が全ての細胞集団の専門家であることを期待するのは、非現実的である。生命科学者の専門的技術は、概して、全てではなくいくらかの細胞表現型(通常、現在知られる全ての細胞表現型の50%より少ない)に限定されるため、各細胞表現型が疾患または細胞相互作用とどのように相関するかを専門家が詳細に知らないことから、発見及び診断解析において知識の不一致が生じる。この知識の不一致の結果として、専門家は、取得機器によって取得されたデータの研究を、専門家により強く知られる細胞表現型に集中させることがある。表現型のサブセットへの実験及び研究を限定する際に、解析者は、疾患または細胞機能に非常に大きな影響を有し得る重要な表現型を無視または見落とすことがある。さらに、既知の表現型に集中することによって、取得機器によって収集された大量のデータが、休眠状態及び未使用状態に置かれ得る。

0004

細胞表現型のサブセットに基づいてデータのサブセットを解析することが、実験中の興味深い発見を導き出すことがある。しかしながら、細胞応答は、細胞が複数機能パターンを発現することを含む場合があり、細胞表現型のサブセットのみを解析することによって、科学者は、他の細胞集団が、細胞の応答または疾患にどのように影響を与えるかを認識し損なう可能性がある。例えば、研究者は、特定の免疫応答において重要である、T細胞のサブセットを探す実験を行っている場合がある。この例では、T細胞のサブセットは、4つのパラメータ(マーカーとしても知られる)の組み合わせによって定義され得る。当然ながら、実験の発端では、研究者は、関心のあるT細胞のサブセットを同定するのに必要なマーカーの数を意識していない。したがって、より多くの細胞に対してより多くのマーカーを検査することによって、研究者は、罹患率または治療効果と相関する細胞サブセットを発見し得る。また、より多くのデータ解析技術を用いて、研究者は、自分自身の知識の不一致を克服して、疾患または細胞機能において重要である新たな予想外のサブセットを見つけることがある。よって、多くの研究者及び科学者によって表される知識ギャップ補償する技術に対する当該技術分野における必要性が存在する。

0005

従来の技術解決策は、科学者の知識の欠如と実際の細胞応答との間のギャップを十分に埋めていないと、発明者は考えている。例えば、従来技術は、有益な解析ツールを提供することによって研究者の実験を支援し得るが、それらのツールは、データと知識の不一致を埋めるのに依然として十分ではない。従来の発見解決策では、解析者は、依然としてサンプル群に対して手動クラスタリングを実行し解析を適用しなければならない。一方、細胞表現型を検査するための9個のマーカー、メモリ状態を検査する8個のマーカー、及び細胞信号伝達を検査する8個のマーカーを有する実験の例では、可能性のあるクラスタの数は、225、即ち33,554,432個のクラスタであり、それは、手動での解析にはあまりに多すぎるクラスタである。言い換えると、潜在的な表現型の数及び可能性のある2次元表示は、手動の解析ではうまくスケールされない。当然ながら、いくつかの表現型を枝刈りすることが、表現型空間をより管理可能な数に制限するために発生し得る。例えば、生命科学者は、ナイーブエフェクタセントラルメモリ、及びエフェクタメモリ細胞にさらに分割されるCD3+CD45+/−/HLA−DR−/CD16+、CD4+、及びCD8+細胞を検査するためにさらなる表現型枝刈りで単一細胞及び生きた無傷細胞に対してプレ処理ゲーティングを実行し得る。しかしながら、この表現型枝刈りされた例でさえ、発見のためにサンプル毎に16のファイルを手動で操作する必要がある。したがって、狭い焦点を越えて発見に焦点を置いた研究において単一細胞技術を活用しようとする科学者は、困難で、非決定的かつ再現不可能な道に直面する。それゆえに、高度な技術のある専門家の介入なしに高次元データを解析し、生物学的に関連のあるデータを見つけることが可能な、データ解析ツールを提供する必要性が当該技術分野において存在する。

0006

発明の概要
上記問題を考慮して、本発明が開発された。発明者は、セッション内リアルタイムに、任意の外部アルゴリズムを呼び出して取り入れ、上記アルゴリズムと対話するためのフレームワーク及びインタフェースを開示する。発明者は、また、再現可能で更新可能なノード及びデータ駆動型解析にこれらのノードを活用することを開示する。データ駆動型解析によって、データ自体が、解析ワークフローにおける反復及び最適化に至るアルゴリズムの選択、変数、及び提示を指示することができる。実施形態の例のこれらの2つの態様を通じて、発見または診断プロセス全体が、特定のデータセットに対して実行されてもよく、それによって、同一の発見または診断プロセス、表現型同定、及び視覚化が、将来の実験においても繰り返され、発行され、検証され、または別の研究者と共有され得るように、発見または診断プロセスを特定データセットから分離する。

0007

本発明のさらなる特徴及び利点、ならびに本発明の多様な実施形態の構造及び動作は、添付図面を参照して以下で詳細に説明される。

0008

本明細書に組み込まれ、かつ本明細書の一部を形成する添付図面は、本発明の実施形態を説明し、説明と共に本発明の原理を説明する役割を果たす。

図面の簡単な説明

0009

実施形態の例についてのシステム図を示す。
実施形態の例によるプラグインフレームワーク及びアーキテクチャを示す。
ワークスペースのXML記述の例を示す。
プラグインのXML記述の例を示す。
プラグインフレームワーク及びアーキテクチャを用いてリモートコンピュータとインタフェースするための実施態様を示す。
プラグインフレームワーク及びアーキテクチャを用いて外部アルゴリズムとインタフェースするための実施態様を示す。
例示的な実施形態による結果のフィードバックを有するデータ発見ノードプロセスの高レベル表現を示す。
データ発見ノードがどのようにナレッジベース拡張するために使用され得るかの例を示す。
データ発見ノードによって実行されるデータ解析フローについてのライフサイクル全体を示す。
データ発見ノードを作成し、動作変数を設定及び定義するために使用されるユーザインタフェースを示す。
データ発見ノードを訓練する専門家及び専門的に訓練されたデータ発見ノードを呼び出す解析者を示す。
データ発見ノードの専門家訓練の例を示す。
データ発見ノードの専門家訓練の例を示す。
データ発見ノードによって表される決定木を示す。

実施例

0010

図1は、システム図を示し、同様の参照番号が同様の要素を示す添付図面を参照する。図1に示されるように、データ取得機器は、取得コンピュータに接続されている。実施形態の例では、取得機器は、フローサイトメータである。ただし、フローサイトメータ以外の機器が、取得機器として使用されてもよいと理解されるべきである。しかしながら、発明者は、本明細書で説明される技術がフローサイトメトリを含む単一細胞技術に関して特に革新的かつ有用であると考えるため、説明のために、本明細書における実施形態の例としてフローサイトメトリが使用されるものとする。

0011

解析コンピュータは、インターネットを介して、サブネットを介して、イントラネットを介してなど、ネットワーク接続を通してサーバに接続され、またはインターネットを通してクラウドに接続される。いくつかの実施形態では、取得機器は、取得コンピュータに接続されてもよく、取得機器によって取得されたデータは、データを解析コンピュータに転送後、解析コンピュータ上で解析される。

0012

解析コンピュータは、解析ソフトウェアを実行し、解析ソフトウェアは、テストされているサンプルのために取得機器の1つまたは複数のパラメータ(例えば、電圧、流量など)を調整することが可能である。このような解析ソフトウェアは、また、サンプルデータを取得する間初期サンプル情報を表示して、パラメータが正しく設定されているかどうかを評価するためにフィードバックをユーザに提供してもよい。解析ソフトウェアは、取得機器の製造業者に応じて変化してもよい。いくつかの実施形態では、取得コンピュータは、ほとんどのユーザインタフェース項目を含む解析ソフトウェアの簡易バージョンを実行してもよく、サーバもまた、解析ソフトウェアのあるバージョンを含む。この実施形態では、サーバが、取得コンピュータよりも多くの計算リソースを有し得るため、サーバは、重いデータ解析などの処理集約型機能を実行してもよい。

0013

解析ソフトウェアは、取得機器によって解析されているサンプルの結果を示すデータ信号を取得機器から受信してもよく、または、解析ソフトウェアは、取得機器によって収集されるデータを表すデータファイルを受信してもよい。いくつかの実施形態では(例えば、取得機器がフローサイトメータであるとき)、解析ソフトウェアによって生成されるデータは、サンプル内の細胞の数、末梢血単核球細胞(PBMC)の数及び頻度、CD4+T細胞の数、CD14細胞の数、CD7+細部の数などのうちのいずれかまたは全てを示してもよい。サンプル解析の結果は、1つまたは複数のフローサイトメトリ標準フォーマットファイル(例えば、FCSまたはCSVファイル)内に含まれてもよい。取得コンピュータは、取得機器によって提供される信号及びデータに基づいて、FCSファイルを作成する。ただし、特に、取得機器がフローサイトメータではない場合は、他のファイルフォーマットが使用されてもよいと理解すべきである。解析ソフトウェアは、取得機器ID、患者ID、取得条件及びパラメータなどのものを示す、サンプルについてのメタデータをさらに生成してもよい。

0014

解析コンピュータは、解析コンピュータが、解析サーバまたはサードパーティサーバなどのリモートコンピュータと通信することを可能にするインタフェースも含む。取得されたデータが転送される他のコンピュータの例として、サーバは、フローサイトメトリ解析専用リモートサーバであってもよい。リモートサーバの実施形態では、解析または取得コンピュータは、ネットワークを介してサーバにアクセスしてもよい。解析または取得コンピュータは、サードパーティコンピュータシステムまたはサーバとも通信してもよい。解析または取得コンピュータは、集合を同定し、臨床のための追跡識別番号を含むように構成されるアルゴリズム、または取得コンピュータによって生成されるデータを解析し、もしくはデータを処理することが可能な任意の他の外部アルゴリズムなどの、サードパーティアルゴリズムを記憶し、実行してもよい。図1は、解析または取得コンピュータシステムがサードパーティアルゴリズムを記憶及び実行する状況を示しているが、サーバなどのリモートコンピュータは、サードパーティ、即ち「外部」アルゴリズムも実行してもよいと理解されるべきである。取得コンピュータは、必要性及び取得コンピュータによって実行される解析に応じて、複数のリモートコンピュータシステムと通信してもよい。

0015

サーバは、プロセッサ及びメモリ、ならびにデータベースなどのデータストレージを備える。非一時的コンピュータ可読記憶媒体(メモリなど)上に存在するプロセッサ実行可能命令は、プロセッサにより実行されて本明細書で説明されるタスクを実行してもよい。データベースは、本明細書で説明されるデータ発見ノードデータ構造を記憶してもよい。取得コンピュータは、同様に、プロセッサ及びメモリを備えてもよく、非一時的コンピュータ可読記憶媒体(取得コンピュータのメモリなど)上に存在するプロセッサ実行可能命令が、取得コンピュータのプロセッサにより実行されて、取得コンピュータのために本明細書で説明されるタスクを実行してもよい。

0016

続く説明では、(1)外部ソフトウェアアルゴリズムを呼び出し、取り入れるためのプラグインフレームワーク及びインタフェース、及び(2)データ発見ノードを利用するデータ駆動型発見プロセス、を含むがこれらに限定されない、本明細書で説明される進歩性を有する技術のいくつかの様々な態様について詳しく述べる。

0017

アルゴリズムプラグインフレームワーク及びインタフェース
単一細胞アッセイの研究の中で、科学者及びアルゴリズム研究者は、取得機器によって収集されるデータの解析を合理化する有用な解析アルゴリズムを生成し続けている。例えば、いくつかの外部解析アルゴリズムは、細胞集団を同定するように構成される。

0018

従来、細胞集団同定は、ゲーティングと呼ばれるプロセスを通して手動で行われる。手動ゲーティングは、概して、細胞集団を同定するために、データポイントのセット(クラスタ)の周囲に円または多角形などの形状を、ユーザが手動で描くことを伴う。しかしながら、生命科学のデータ解析における進歩によって、細胞集団を同定することが可能な自動ゲーティングプログラムが生成された。さらに、プロセッサ実行されるアルゴリズムは、人間によって行われる手動の解析よりも高速かつ客観的に、細胞集団を同定し、または他の解析を行うことができるため、細胞集団同定または任意の他のデータ解析ステップのためにコンピュータプロセッサを使用することによって、人間が作り出すいかなるボトルネックまたはバイアスも除去し得る。例として集団同定アルゴリズムが与えられるが、レポートを生成し、または解析結果を視覚化するための外部アルゴリズム、ならびにSPADE、FlowMeans、及びBioconductorプロジェクトの一部として提供されるアルゴリズムなどの高スループットノミクス及びフェノミクスデータ解析といった、取得機器によって収集されるデータを科学者が解析し解釈することを助ける、他の種類のデータ解析アルゴリズムが存在する。

0019

集団同定のための外部アルゴリズムに加えて、アルゴリズムプラグインフレームワーク及びインタフェースは、外部サーバまたはリモートコンピュータシステムと通信して、オープンソースデータベースから実験データをダウンロードし、外部データベースから注釈付き実験データをダウンロードし、外部サーバまたはリモートコンピュータシステムが統計値を求めてスキャンし得るようにワークスペースデータアップロードし、アプリケーションレベルの動作を実行し、または臨床試験のための追跡識別番号を受信してもよい。外部サーバシステムと対話するための能力は、解析ソフトウェアに解析結果の有益なプレ及びポスト処理を提供する。例えば、臨床試験を行う科学者が、試験的な識別番号を必要とする場合、アルゴリズムプラグインフレームワーク及びインタフェースは、外部サーバと通信して、確認のために臨床試験実験結果をアップロードしてもよい。

0020

さらに別の実施形態では、解析ソフトウェア内部のアルゴリズムは、特定のプラットフォームにおいて区画化されてもよく、意図するコンテキスト外ではそれらをアクセス不可能にする。これらの内部であるが、その意図するコンテキスト外ではアクセス不可能なアルゴリズムの例(解析ソフトウェアがFlowJoであるとき)は、増殖プラットフォームにおける多項式適合、FlowJoのコンペンセーションエディタにおける+/−ピーク検出、またはFlowJoの細胞周期プラットフォームにおけるガウシアンフィッティングを含んでもよい。本明細書で説明されるアルゴリズムプラグインフレームワーク及びインタフェースは、外部アルゴリズムを解析ソフトウェアに統合するだけでなく、上述した現在の制限されたコンテキスト外の区画化された内部アルゴリズムの使用も可能にする。

0021

プラグインシステムは、外部アルゴリズムが製品内で動作することを可能にしてその機能性を拡張するためのAPIを提供する機構である。外部アルゴリズムは、典型的には、結果として生じるCLR/CSVファイル(各行がサンプル内のイベントに対応する)を生成することによって集団を同定するために使用され得るが、レポートまたはテーブルなどの追加的な中間生成物も生成してもよい。実施形態の例では、外部アルゴリズムは、Java言語、またはJavaから呼び出され得る任意の他の言語で実装され得る。外部アルゴリズムに追加するために、開発者は、ワークスペース内に新たな「集団ノード」を作成するためにFlowJo製品によって使用されるJavaインタフェースを実装することとなり、それは、グラフ及び統計値を作成するためにFlowJoの幾何学的にゲーティングされた集団ノードのように操作され得る。

0022

図1に示すように、取得コンピュータは、取得機器によって取得されたデータの解析に有用な複数のソフトウェアプログラム及びアルゴリズムを記憶し、実行してもよい。例えば、解析ソフトウェアは、FlowJoなどの単一細胞解析プログラムを含んでもよい。サードパーティアルゴリズムは、自動集団同定プログラムまたは上述した外部サーバ関数などであるがこれらに限定されない、解析ソフトウェアを補完する処理を実行してもよい。取得コンピュータは、解析ソフトウェアの指示において外部アルゴリズムを実行してもよい。いくつかの実施形態では、取得コンピュータは、外部アルゴリズムを実行してもよく、別の実施形態では、図1に示すサーバなどのリモートコンピュータが、外部アルゴリズムを実行し、ネットワークを介して外部アルゴリズムの処理結果を取得コンピュータに提供してもよい。

0023

図2は、解析ソフトウェアの処理セッション内で、外部アルゴリズム、または解析結果のプレ/ポスト処理を呼び出すための例示的なフレームワーク及びインタフェースを示す。本明細書で説明されるフレームワークは、既存の科学データ解析ソフトウェアに基づき構築され得る。例えば、解析ソフトウェアが、フローサイトメトリデータを解析するために生成されたソフトウェアである場合、フレームワークは、フローサイトメータによって集められたデータ内で細胞集団を同定するように外部アルゴリズムに要求してもよい。外部サーバ及び外部アルゴリズムと対話するためのフレームワークは、データ解析ソフトウェア内に含まれてもよい。

0024

例えば、フレームワークは、Javaなどのプログラミング言語によって定義されるような、クラス及びそれらの命令シーケンス協働セットを含んでもよい。Javaは、プログラミング言語の一例として与えられているが、任意の数のプログラミング言語のうちの1つが、本明細書で説明されるプロセス及びフレームワークを実行するプログラミング言語としての役割をしてもよい。複数のプログラミング言語が、本明細書で説明されるシステム及び方法を実現し得るが、Javaは、他のプログラミング言語よりも望ましいものとなるある利点、即ち、C、R、またはウェブベース計算エンジン言語などの他のプログラミング言語に呼び出しをかけるJavaの能力を有する。科学機器によって収集されるデータの統計解析を実行する多くの外部アルゴリズムは、R言語で書かれている。よって、Rに呼び出しをかけるJavaの能力は、Rで書かれた外部アルゴリズムに解析ソフトウェアを橋渡しする。当然ながら、外部アルゴリズムがRで書かれていない場合、Javaは、外部アルゴリズムのプログラミング言語にも呼び出しをかけてもよい。

0025

フレームワークは、現在及び将来のデータ解析アルゴリズムが呼び出される機構にデータ値入力セットを、解析結果の後続の処理と同様に、イベントクラスタ値、数式、視覚的図形、または幾何学的に定義された境界定義形式で提供する。言い換えると、フレームワークは、入力データのセットを生成し、入力データを外部アルゴリズムまたは外部サーバに伝達するように2つのインタフェースのうちの1つに要求する。外部アルゴリズムの処理後、フレームワークは、解析結果を外部アルゴリズムまたはサーバから受信し、アルゴリズムの呼び出しまたはプレ/ポスト処理が表され、ファイルに保存される機構を提供する。ファイルに保存された解析結果は、ダウンストリーム統計計算、結果のグラフ化、または他のアルゴリズム(追加的な外部アルゴリズム、後続のプレ/ポスト処理、もしくは解析ソフトウェア内に含まれるアルゴリズムなど)の呼び出しのために解析ソフトウェアと統合され得る。

0026

フレームワークは、また、データ解析ソフトウェア自体の外部のアルゴリズムである、統合されたアルゴリズムの呼び出しを管理する。解析ソフトウェアは、生物学者がそれを通してこれらのアルゴリズムと対話し得るインタフェースを提供する。解析ソフトウェアは、生物学者(例えば、解析が実行されるべき特定の集団を選択する)とプラグイン開発者(例えば、入力(例えば、生物学者が選択した集団のデータ値に対応するCSVファイル)としてアルゴリズムが必要とするデータに対する要件、ならびに、解析に続き、プラグインインタフェースがユーザに提示するのに利用可能な出力の場所及びタイプを指定する)の双方によって提供される命令に基づく。インタフェースは、また、解析が常に階層的に正しく、生物学的に関連があり続けるように、解析における更新がそれを通して伝達されるエージェントとしての役割をする。より具体的には、フレームワークは、解析が最初に実行される際に統合済みアルゴリズムを呼び出すだけでなく、データ値の入力セットが変化するといつでも、フレームワークは統合済みアルゴリズムの再実行も行う。したがって、科学者は、データ入力複数セットに対して迅速に解析を実行することができ、フレームワークは、入力データ値が変化し、またはユーザが実験パラメータを変更したときにはいつでも、ユーザ対話なしに統合済みアルゴリズムを呼び出し、再実行することとなる。例えば、いくつかのデータパラメータを変更することによって、統合済みアルゴリズムによって集団がどのように同定されるかが変更されてもよい。データ入力の変化に気付くと、フレームワークは、統合済みアルゴリズムを呼び出して集団を再同定し、フレームワークは、統合済みアルゴリズムによって生成された解析結果を使用する。統合済みアルゴリズムから解析結果を受信すると、フレームワークは、解析ソフトウェアによって理解されるデータフォーマットで、結果を解析ソフトウェアに提供してもよく、解析ソフトウェアは、統計解析、グラフ化、またはレポート化などの結果に対するダウンストリーム解析を実行してもよい。

0027

ワークスペースがさらなる解析のために保存され再度開かれ得るように、フレームワークは、アルゴリズム統合がワークスペースとして保存されることを可能にする。

0028

フレームワークは、リモートコンピュータシステムと通信するためのインタフェース、及び外部アルゴリズムと通信するためのインタフェースを含む。それぞれのインタフェースは、外部サーバ上に記憶された外部アルゴリズムまたは関数が、ユーザ対話なしに呼び出され得る手段を提供する。実際には、グラフィカルユーザインタフェースを通してデータ処理を見るユーザには、統計、グラフ、または解析ソフトウェアによって生成される他のレポートなどを通して、外部アルゴリズムによって実行される解析結果のみがユーザに示され得るため、外部アルゴリズムの呼び出しは目に見えない。

0029

概して、統合されたアルゴリズムの呼び出しのためのインタフェースは、データ値の入力ファイル出力先フォルダ、1つまたは複数の実験からのデータセットのXML記述を含むが、これらに限定されない。このXML記述は、生データへのポインタ、プラグイン駆動型解析を含んで実行される全ての解析、データについてのメタ情報、及びロジクル、双指数関数、ハイパーログ、及び双極正弦などの、データを処理及び視覚化するために任意選択的に使用されるデータ変換を含んでもよい。XML記述は、解析及び関連する結果に生データを階層的にリンク付けするマークアップによってこの情報を指定するXML文書の形式をとってもよい。図2Bは、ワークスペースのXML記述の例を示し、図2Cは、プラグインのXML記述の例を示す。同一データ及び解析アーキテクチャを記憶し得る独自仕様バイナリファイルなど、XML以外の形式が使用されてもよいことを理解すべきである。さらに、XMLまたは別のフォーマットのいずれにせよ、データセットの記述は、任意のプラグインベース解析用入力パラメータに関するメタデータ及び外部アルゴリズムによって生成される任意の派生データへのポインタを含んでもよい。XMLメタ情報が外部アルゴリズムによって使用されるかどうかは、呼び出されるアルゴリズム次第である。外部アルゴリズムインタフェースは、保存され、フレームワークによって後で復元されるアルゴリズム呼び出しについてのステップも定義する。インタフェースは、グラフィック導出パラメータ、表形式データ、ゲーティングデータ(ゲーティングMLフォーマットなど)、分類結果(CLR)ファイル、XMLデータ、またはコンマ区切り値(CSVファイルの形式で統合済みアルゴリズムから解析結果を受信することも可能である。言い換えると、インタフェースは、統合済みアルゴリズムによって生成される中間生成物を管理するように構成される。

0030

インタフェースは、外部アルゴリズム及びサーバ関数が、外部アルゴリズムを解析ソフトウェアにプラグインするために遵守しなければならない取り決めを定義している。外部アルゴリズムインタフェース及びプレ/ポスト処理インタフェースのそれぞれが、外部サーバ上でのプレ/ポスト処理とインタフェースするため、または外部アルゴリズムとインタフェースするための取り決めを定義する。別のインタフェース実装ステップが、図3及び図4においてより詳細に示されている。

0031

図3を参照すると、リモートコンピュータとインタフェースするための実装ステップが示されている。方法は、インタフェースがワークスペースを開くことで開始する。ワークスペースを開くことは、プロセッサがワークスペースのXML及びプレ/ポスト処理インタフェースのXMLを読み出すことを含む。ワークスペースXMLは、各サンプルに関連付けられたメタデータ(取得されたデータ、機器タイプ、パラメータ名など)、及び取得後に追加された、任意のユーザ定義されたサンプル固有のメタデータを含み、一方、プラグインインタフェースに固有のXMLは、プラグインモジュールの実行/更新のために必要な変数、例えば、データベースまたはサーバのURIを保持する。ワークスペースを読み出し、URIを受信した結果、プロセッサは、サーバまたはそこに記憶されているデータストア(例えば、データベース)への接続を確立して、後述のように認証を開始し、クエリを実行し、データベースからのデータ及びワークスペースXMLの修正を取り出す。ワークスペースを開くステップは、プロセッサによって実行されるプレ/ポスト処理インタフェースをさらに含み、データベース(例えば、指定されたデータファイルについてのメタデータ及び解析命令を含む、サンプル追跡用実験室情報管理システム(LIMS))からの検索に基づいて、XMLワークスペース(解析ソフトウェアへの入力)を増強または修正する。さらに、XML入力は、ゲート、統計値、サンプル名、またはワークスペースXMLに含まれ得る全てのものを追加するように修正されてもよい。入力が、解析ソフトウェアによって定義される定義済みスキーマに従う限り、これらの追加は、解析ソフトウェアにおいて計算及び表示を呼び出し得る。入力の検証及び十分なエラー報告が、インタフェースを通して扱われ、テスト入力に適した検証が、展開において実行される。承認も実行されてもよく、それは、解析ソフトウェアがサーバへのアクセスを有することを確認し、外部サーバがオンラインかどうかを判断し、資格証明書交換し、または任意の他の承認ステップの形式でもたらされてもよい。XML増強は、プレ/ポスト処理ステップがリモートサーバによって実行されるべきということを反映するようにプロセッサがメタデータを生成することまたは変更することを含んでもよい。

0032

次に、方法は、解析ソフトウェア内にワークスペースを保存する。保存ステップは、プロセッサがワークスペース及びプレ/ポスト処理インタフェースの状態を保存することを含む。プラグインは、ワークスペース内のそれ自体のXML表現を更新してその「状態」を保持することとなり、及び/または、XMLをトラバースして、データを抽出し、及び、例えば、データベースを指定された統計値で更新するなどのアクションを実行してもよい。このステップの間、プレ/ポスト処理インタフェースは、とられた解析アクションのSQL出力またはログなどの、追加的な中間生成物を生成してもよく、プレ/ポスト処理インタフェースは、外部システムと通信する。この通信中に、インタフェースは、入力データを外部システムに提供し、収集されMIFlowCyt規格に従って注釈がつけられたデータをダウンロードする、臨床トラッカーから追跡識別番号を受信する、または任意の他のプレ/ポスト処理ステップなど、データを外部システムから受信する。プレ/ポスト処理インタフェースは、サーバURLを参照してこの通信を行ってもよい。

0033

外部サーバとの通信が完了した後、プロセッサは、セッションを終了し、プレ/ポスト処理インタフェースは、データベース接続などのコンピュータリソース解放する。

0034

図4を参照すると、外部アルゴリズムとインタフェースするための実装ステップが示されている。方法は、外部集団ノードを作成することによって開始し、それは、外部アルゴリズムインタフェースのためのラッパーとして定義され得る。この作成ステップ中に、プロセッサは、パラメータの設定、動作変数の設定、ファイルの命名など、外部アルゴリズムに関連するオプションでユーザにプロンプトし得るが、このユーザプロンプトステップは、任意選択であり、呼び出される外部アルゴリズムに依存してもよい。

0035

次に、プロセッサは、外部アルゴリズムによって実行される計算を呼び出すために、XML表現を生成することによってエンジン要求を構成する。XML表現は、どのアルゴリズムを実行するかまたはどの視覚化を生成するか、及び例えば、ファイルパスパラメータ数クラスタ数次元削減用の変数、色選択、視覚化の種類、保存用画像タイプなどの関連する入力及び引数を表す。

0036

要求を構成した後、プロセッサは、外部アルゴリズムを呼び出す。外部アルゴリズムを呼び出すことは、外部アルゴリズムにFCSファイル、FCSファイルと共に含まれるXML(イベントの数、サンプルファイル名、及び集団名を含む)、及び外部アルゴリズムがその結果を保存すべき出力フォルダを提供することを含む。それに応じて、外部アルゴリズムは、その処理及び計算を実行する。外部アルゴリズムが、要求された処理及び計算を実行した後、解析ソフトウェアインタフェースは、結果を受信し、それらを解析ソフトウェアに統合する。これらの結果は、CSVファイル、CLRファイル、ゲーティングMLファイル、またはFCSファイルの形式でもたらされてもよい。CSVまたはCLRファイルをインポートするとき、CSVまたはCLRの各行が、FCSファイル内のイベントに対応し、列番号が、クラスタ番号に対応する。さらに、外部アルゴリズムインタフェースは、導出パラメータを作成し、解析ソフトウェアは、導出パラメータに基づいて自動的にゲーティングして亜集団を作成する。結果を受信後、プロセッサは、アルゴリズムへの入力を修正してもよい。一実施形態では、プロセッサは、所与出力ファイルに記憶されたデータを参照することによって、外部アルゴリズムの結果を受信する。

0037

外部アルゴリズムから結果を受信した後、プロセッサは、ファイルシステムにワークスペースを保存し、解析ソフトウェアワークスペースを復元する。プロセッサは、次いで、解析ソフトウェアの指示で、追加のダウンストリーム解析を実行してもよい。

0038

このようにして、外部サーバ上に記憶された外部アルゴリズム及び関数は、解析ソフトウェアに完全に統合されなくとも、解析ソフトウェアに利用可能である。解析ソフトウェアのユーザは、主要なワークフローの改変またはコマンドラインの知識なしに、無数のより多くの解析オプション及び機能性を得る。その代わりに、ユーザは、解析ソフトウェアのグラフィカルユーザインタフェースを使用して、サーバ上に記憶された外部アルゴリズムまたは外部関数シームレスに呼び出し得る。

0039

データ発見ノードアーキテクチャ及びプロセス
解析ソフトウェア内で、「ノード」は、幾何学ベースのツールを用いて幾何学的クラスタを定義するステップ、または取得機器によって取得されるデータに統計解析を適用するステップなど、解析ステップ全体を表す。このような「ノード」は、処理ステップ、または入力、フルセットもしくはサブセットもしくはイベントレベルの生データ、及び、細胞サブセットの幾何学的定義、または数学的モデル(例えば、細胞周期における細胞のパーセンテージ)などの出力を用いた計算を表す。言い換えると、ノードは、解析ソフトウェアが、集団同定、統計計算、数学関数、幾何学的ゲーティング、結果提示、結果増強などの解析計算を実行するように解析ソフトウェアに命令することによって作成されるデータ構造である。さらに、ノードデータ構造は、解析機能に入力するデータの仕様、及びCSVファイル、ゲーティングMLファイルなど、結果を提示する方法を含む。データ構造は、さらに、データ入力のタイプ次第であってもよい。

0040

ユーザが、データ解析アプリケーション内の「データ発見ノード」(DDN)フレームワークを通してデータセットに対するデータ解析を指定し、実行することができるように、本明細書で説明される技術は、上述したノードの概念を拡張する。ここで、DDNフレームワークは、データ解析ソフトウェア自体に既に存在し得るいかなるインテリジェンスも越えて、幅広いナレッジベースへのアクセスをデータ解析に提供する。例えば、DDNは、また、上記で開示されたプラグインインタフェース及びフレームワークを用いて解析ソフトウェアにプラグインされる外部アルゴリズムから行われ得る決定をカプセル化することができる。アルゴリズムベースの決定は、主観的なバイアスを有する個々の解析者からデータ駆動型アルゴリズムに意思決定シフトすることによって、解析の主観性を除去する。本明細書で説明されるデータ発見ノードアーキテクチャ及びプロセスは、また、一方向性ノードを少なくとも以下の4つの目標を達成するアクティブノードに変換する。1)アクティブノードは、繰り返される再現可能な解析が、サンプル、グループ、及び研究間の比較を提供することを可能にする(即ち、解析者の主観的バイアスに影響されない)。2)アクティブノードは、ドラックアンドドロップ機構を通して、複雑な解析及びレポート化への障壁下げる。3)アクティブノードは、入力データ変更を更新するために生きた状態を保つ。4)ノードが、解析においてスタックされ、コマンドラインモードで実行され得るため、アクティブノードは、自動化を容易にする。

0041

図5Aは、アクティブノードアーキテクチャを表す。実施形態の例によるDDNフレームワークは、以下のコンポーネント、ソフトウェア、データ構造、アルゴリズム、及びネットワークを介してアクセス可能なデータベースを含む。上述したように、データ解析アプリケーション内のDDNフレームワークは、本来、ノードの各アプリケーションに基づき構築されたナレッジベースにユーザがアクセスする方法である。よって、ユーザは、ユーザインタフェースを介してジェスチャを行って、完了されるべき解析についてのDDNを作成し、どのタイプの解析が完了されるべきかを指示する。DDN(ワークスペース内で「ノード」として物理的に表される)のエンドユーザインスタンスは、ナレッジを含まないが、むしろ、それによってユーザは、自分が解析しているものより大きなコンテンツ(例えば、高齢者における参照CD3+パーセンテージ)にプラグインすることが可能となる。例えば、
a.ユーザは、ゲートノードとしてT細胞集団を同定するためにCD3+ゲートを作成する。
b.ノードは、2つの結論を有するユーザインタフェースにおいて、ユーザによりDDNとして割り当てられる(ローカルクライアントにおいて、即ち、「これをDDNにする」)。
i.以下の集団及びサンプル情報が、ナレッジベースの物理メモリに書き込まれる。
1.「サンプル情報」
a.FCS(生)ファイルに含まれるメタデータ、例えば、どの機器で、どの取得ソフトウェアによって
b.サンプルコテキスト細胞タイプ、種)が、DDNナレッジに送信する。
2.DDN実行パラメータ。以下にその概略を示す。
3.生物学的結果情報−解析の統計値及び数値結果
ii.DDNが、反復数n>1の場合、DDNは、「自分のデータに基づいて、このCD3+頻度は、前の観測より低い2つの標準偏差である」などの、任意のフラグをユーザに返す。
c.よって、ナレッジベースは、参照を提供し、DDNは、当面の解析者と、DDNパラメータの前述の例(図5Bを参照)によって確立された現在のパターンに合致する、全ての以前の解析者のデータとの間に双方向の対話を提供する。DDNは、この交換を「駆動する」コンポーネント、即ち、(「生」データファイルにアクセスするプロセッサとは別々の)ホストされたネットワークを有効にするユーザ対向ノードである。

0042

図5A及び5Bに示されるように、入力データが、DDNに提供され、DDNは、結果を生成する解析ステップを実行する。DDNによって生成される、結果となるデータは、DDNにフィードバックされてもよく、または結果となるデータは、入力データを枝刈りすること、入力データからノイズを除去すること、または入力データのパラメータを変更することなどによって、入力データを変更する。結果となるデータが、多少なりとも入力データに影響を及ぼすとき、DDNは、新たなデータセットで同一の解析ステップを適用してもよく、または、DDNは、新たなデータセットに基づいて異なる解析ステップを適用してもよい。このようにして、DDNは、最初の反復の後、「データ駆動型」と考えられてもよい。

0043

さらに、結果となるデータは、ダウンストリーム処理とさらなる関係を有してもよい。例えば、DDNは、集団同定アルゴリズムを表してもよく、結果となるデータは、決定的でない、または望ましくない結果を生じ得る。ノードは、結果となるデータを解析することができ、結果となるデータの解析に基づいて、DDNは、集団同定アルゴリズムのパラメータを変更して入力データ内の集団をより良好に同定することができる。別の例では、結果となるデータは、同定される表現型(例えば、CD8+)が、罹患率または治療効果とは全く相関性を有しないと判断してもよい。結果となるデータによって、罹患率または治療効果との相関性が見つからない場合、DDNまたはDDNを訓練する科学者は、今後の解析についてこの表現型を無視するようにDDNに命令してもよい。このようにして、DDNは、参照される集団同定アルゴリズムを用いて、集団を最も正確に同定するように最適化する。上記の実施例によって分かるように、データ及びアルゴリズム駆動型の決定は、DDNによって行われる。DDNが受信するデータが多くなればなるほど、かつDDNが処理するデータが多くなればなるほど、DDNはより多くを学習する。このデータ駆動型の方法は、以下でより詳細に説明される。

0044

フレームワークが攻撃にあまり影響されないように、実施者は、DDNフレームワークにセキュリティまたはキュレーションレイヤを含めるように選択してもよいことにも留意すべきである。これによって、悪い、または訓練されていない行為者がナレッジベースを汚染すること(例えば、100人の人が1%の誤ったCD3+頻度をゲーティングすること、及びその悪いデータを提出すること)を防止するのを助け得る。

0045

図6は、DDNによって実行されるデータ解析フローについてのライフサイクルを示す。図6によって示されるプロセスでは、四角で示される方法ステップは、プロセッサによって実行されるアクションステップを表し、ひし形で示される方法ステップは、プロセッサによって実行されるテストステップまたは判断ステップを表し、楕円形で表される方法ステップは、テストステップの可能性のある結果を表す。

0046

高レベルで、図6に表される方法は、3つのフェーズ、第1のDDNサイクル、次のn回DDNサイクルフェーズ、及び完了フェーズを含む。第1のDDNサイクルフェーズは、1回だけ実行されるが、次のn回DDNサイクルは、充足基準が満たされるまで反復し続けてもよい。充足基準が満たされた後にのみ、方法は、完了フェーズに入ることとなる。

0047

DDN関数を定義及び制御するデータオブジェクトの種類は、ここでは、図6で示される方法がどのように動作するかをより良く理解するために説明されるものとする。これらのデータオブジェクトは、動作変数、一時オブジェクト、ポインタ、メタデータ、及び生のリストモードデータを含む。

0048

第1に、DDNは、動作変数データオブジェクトを含む。動作変数は、ユーザまたは解析ソフトウェアのいずれかによって設定される変数であり、1)充足変数閾値、2)メタデータルール、及び3)解析ソフトウェアアルゴリズムまたは指定データについて実行される動作の仕様を含む。充足変数は、DDNサイクルが完了すると考えるために充足されるべき、使用によって設定される閾値であってもよい。メタデータルールは、入力によって充足されるべき基準を定義する。例えば、メタデータルールは、入力データが生データのメタデータ内にCD4パラメータを示すということを指定してもよい。解析ソフトウェアアルゴリズムまたは指定された動作は、外部アルゴリズム、解析ソフトウェア内に含まれる数学関数、またはFlowJoの多変量グラフ化、FlowJoのレポート生成幾何平均生成、集団同定、または解析ソフトウェアもしくはプラグインされた外部アルゴリズムによって提供される任意の他の関数などの、解析ソフトウェア内に含まれる任意の他の関数を含んでもよい。

0049

図7は、DDNを作成し、動作変数を設定及び定義するために使用されるユーザインタフェースを示す。最初に、ユーザは、ファイルを選択し、発見するためのジェスチャをする。ファイルは、取得機器から収集されたデータのセットであってもよく、取得コンピュータ内のディスクドライブに保存されていてもよい。このジェスチャは、ユーザが選択されたファイルにDDNを適用したいということを解析ソフトウェアに通知する。ジェスチャは、ユーザがファイルを右クリックすること、キーボードショートカットを使用すること、グラフィカルユーザインタフェース内のアイコンクリックすること、またはプロセッサによって理解される任意の他のジェスチャを含んでもよい。発見のためのジェスチャの後、ユーザは、新規のDDNを訓練するか、またはデータベースもしくは他のファイル記憶コンテナに保存されているDDNを適用するかのいずれかを選択し得る。ユーザが、データベースからDDNを呼び出すことを選択する場合、取得コンピュータは、DDNデータ構造を記憶しているデータベースに呼び出しをかけ、保存済みのDDNのリストを提示し、ユーザがDDNのうちの1つを解析用に選択できるようにする(図示せず)。ユーザが、新規のDDNを訓練することを選択する場合、取得コンピュータは、グラフィカルユーザインタフェースを通して、DDNを定義することとなる動作変数のリストを提示する。

0050

図7は、選択用の例示的な動作変数のセットを示しているが、本開示は、図7に示される動作変数に限定されない。動作変数は、パラメータ、特徴、反復変数、及び範囲変数などのセットにグループ化されてもよいが、より多くの動作変数のグループが定義され、ユーザインタフェース内に提示されてもよい。例えば、ユーザは、前方散乱光FSC)、側方散乱光SSC)、蛍光1(fl1)、蛍光2(fl2)、蛍光3(fl3)、蛍光nなどであるがこれらに限定されないパラメータから選択してもよい。パラメータ選択は、単一細胞解析において重要な役割を果たし、DDNは、それが適用されるデータの種類、即ち「実行パラメータ」に加えて、それ自体の動作についてのメタデータを含む。選択されるパラメータの例は、以下のものを含んでもよい。
a.細胞表現型が定義されたパラメータ。例としてフローサイトメトリを用いると、散乱パラメータは、サイズ及び粒度の相対的な測定値であり、例えば血液中の主要な細胞サブセットを同定するのに有用であり、一方、蛍光パラメータは、生体分子の測定値である。このように、パラメータは、本来、相互交換不可能であり、DDNについて選択されたレベルで使用されるパラメータ及びその階層は、解析の再現性を容易にする生物学的に関連のある情報である。
b.集団を同定するために使用される任意のアルゴリズムについての種類及び入力変数に関するパラメータ、例えば、ゲーティング及び解析情報頂点、隣接集団の位置、ゲートタイプ、集団特性(凸状、希少など)、集団名、ゲートが描かれたパラメータ、親ゲートオントロジー)、集団を同定するために使用されるアルゴリズム)。
c.一連のアルゴリズム及び計算についての階層型解析の種類の数(及び、したがって、動作の次数

0051

このようにして、研究者は、CD8+T細胞の集団を指定し、それは、CD3+の子であり、生きている、及びリンパ球の幾何学的に定義されたゲートである、CD8蛍光パラメータと対比するCD4に対して実行されるk−meansクラスタリングアルゴリズム(ここで、k=3が入力変数であった)によって同定される。DDNは、この情報をナレッジベースへ及びナレッジベースから送信することを可能にする。

0052

ユーザインタフェースは、同様にこれらのパラメータの名前を変更する能力をユーザに与える。ユーザは、また、DDNによって処理されるべきデータの量を制限するために、これらのサイトメータプリセットパラメータのうちのいずれかを除外してもよい。DDNは、解析するためのパラメータの選択、解析するための特徴(ピーク、谷、または範囲など)、反復するかどうか、及びどの範囲で解析するかを受信する。これらの、及び潜在的に他の動作変数を選択した後、コンピュータは、新規DDNを作成し、それはまた、DDNデータベースに保存されることとなる。作成されたDDNは、データを解析し、結果、または解析ソフトウェア内に含まれるか、もしくはプラグインインタフェース及びフレームワークを通して解析ソフトウェアにアクセス可能な任意の他の関数を生成する準備ができる。

0053

DDNをセットアップするために、プロセッサは、入力データの選択を受信し、それは、イベントのセット、または等価性のいくらかの暗黙感覚を有するファイルのセット(例えば、複数の時点にわたって取り込まれたCD3測定値)である。入力データは、単一のサンプルまたはサンプルのグループであってもよい。入力データの選択後、プロセッサは、入力データに応じて利用可能な解析の種類を判断してもよい。一旦DDNデータベースがセットアップされると、第1のステップは、「専門家」に、参照セットを作成するためにサンプル情報及び実行パラメータの両方でナレッジベースにシード値を与えさせることである。上記の例を続けると、高齢者の患者からのCD3+データが、専門家によって定義される。非専門家は、「新規」サンプルに対してDDNを作成し、DDNは、サンプル及び実行パラメータを比較して、それが、専門家主導の解析を再作成できるかどうかを検査する。合致が存在すると、それは、生物学的な結果情報−現在の測定値対ナレッジベースの比較を行う。ナレッジベース内に情報を構築することによってDDNの「訓練」が、使用とともに生じ、したがって、ナレッジベースのCD3+部分への各クエリが、新たな生物学的結果情報を既知の範囲のプール保管する。この2段階アプローチは、(1)解析が、適用され実行され得ること、及び(2)参照データのナレッジベースと比較され得ることを検証する。

0054

言い換えると、DDNが計算及び実行し得るものは、入力データに依存する。一例では、CD4イベントがロードされたメタデータ内に存在するかどうかを、プロセッサが判断して、プロセスが、選択されたデータに対してCD4集団同定アルゴリズムを実行し得るかどうかを判断してもよい。

0055

図7は、パラメータとして蛍光1、ピーク特徴、固定値の反復変数2、及び範囲変数として2〜98のパーセンタイルという、例示的なユーザ選択を示す。ユーザが動作変数を設定した後、ユーザインタフェースは、選択されたファイル下の作成済みデータ発見ノードを表示する。ユーザは、将来の参照用にデータ発見ノードの名前を変更してもよいが、例示のために、図7では、単に「Discovery Node」という名前の、作成済みデータ発見ノードを示す。データ発見ノードについてのこれらの例示的な選択は、ゲーティングツリーと同等であり、ゲーティングツリーもまた、図7の右下の角に示されている。したがって、図7に示される例示的な動作変数の選択は、ゲーティングツリーと同等である。
・Comp−APC−Ax700−A subset これは、通常手動で定義されるサブセットである。この例では、DDNは、上記で概説したそのパラメータによって、ナレッジベースからの情報をアルゴリズム的に使用してこの集団を同定し、ピーク検出(集団同定のための別のアルゴリズム的方法)を実行し、次いで、その順序で、子の亜集団に対して統計値の計算を呼び出す。
〇ピーク1
■幾何平均:CD3(Comp−APC−Ax700−A subset) ユーザは、解析アプリケーションツールを用いてComp−APC−Ax700−Aサブセット集団の幾何平均を計算している。図7の右下にある図は、この解析の階層及びユーザへの表示を示している。
中央値CD3(Comp−APC−Ax700−A subset) 上記幾何平均についてと同様であるが、この場合は中央値についてである。
〇ピーク2
■幾何平均:CD3(Comp−APC−Ax700−A subset)
■中央値CD3(Comp−APC−Ax700−A subset)

0056

再び図6を参照すると、動作変数に加えて、DDNは、最初の計算後に一時データオブジェクトを生成する。一時データオブジェクトは、DDN進行オブジェクトを表す。一時データオブジェクトは、計算の反復数及び充足変数を少なくとも含み得る。計算の反復数は、DDNによって実行される追加計算毎にインクリメントし、充足変数は、次のN回DDNサイクルフェーズのサイクル中の充足変数の状態を示す。例えば、充足変数は、充足変数閾値が満たされたか、または充足変数閾値を超えたかを示してもよい。充足変数閾値と各反復において作成されるDDN作成の一時データオブジェクトとの比較を通して、これらのデータオブジェクトは、DDNがステートフルに保持されることを可能にする。

0057

ポインタは、一意な識別子であり、DDNがそのシーケンスについてアクセスするワークスペース内の1つまたは複数のノードを指し示す。それについては以下でさらに説明される。ポインタは、メタデータ及び生のリストモードデータを含むファイルの位置を指し示し、それは、DDNの動作にとっても重要である。

0058

DDNにとって重要なメタデータは、2つの異なるタイプの参照ノートからもたらされる。第1に、メタデータは、データの特定のサブセットを得るために専門家によって行われる決定によってもたらされてもよく、それは、概して、専門家によって定義されるゲートの形式である。データのサブセットは、階層型ゲートによってもたらされてもよい。特定の例では、前回のゲートのXML階層は、DDNデータ構造により使用するためのメタデータにおいて表されるコンテキスト情報を提供する。専門家の決定の代わりに、メタデータは、生物学的に有意義である染色名(「CD3−FITC」)についてのパラメータを含む、親FCSファイルからのキーワードメタデータを含んでもよい。メタデータは、生データに関連付けられ、生データに関連付けられたメタデータは、解析されるべき生データのソースであるFCSファイルのヘッダ及びノード名も含んでもよい。

0059

最後に、生のリストモードデータは、イベント/細胞毎に収集されたn個のパラメータについての生のイベント/細胞レベルデータを含む。

0060

図6に示される方法は、上述された全てのデータオブジェクトを使用する。DDN法/ライフサイクルは、第1のDDNサイクルフェーズによって開始する。第1のDDNサイクルフェーズでは、プロセッサは、動作変数をメモリにロードする。続いて、プロセッサは、上述したメタデータをロードする。プロセッサがDDNフローを通して解析されるべきファイルをロードする前に、プロセッサは、メタデータ及び動作変数をロードし、動作変数は、テスト用のルール及び変数を定義する。

0061

動作変数及びメタデータのロード後、プロセッサは、メタデータルール動作変数(複数可)に対してメタデータをテストして、メタデータが、DDNの基準を満たすかどうかを判断する。例えば、メタデータルール動作変数は、ユーザによって設定されるキーワードメタデータ、FCSファイルによって設定される表現型メタデータ、染色識別メタデータ、または取得機器によって生成されるファイル内に含まれる任意の他のメタデータのいずれかを通して、CD4細胞が存在することを示すメタデータパラメータを指定する。

0062

動作値に対するメタデータのテストは、緩やかなモード、中程度モード、及び厳密モードなどの複数のモードを有してもよい。

0063

緩やかなモードは、メタデータ要件を全く有しなくてもよい。緩やかなモードでは、DDNは、メタデータの値に関わらず実行されることになる。例えば、緩やかなモードでは、DDNは、提供されるリストモード生データ中の2点間極小値を計算し、次いでDDNは、生データをメモリ内にロードさせ、計算を呼び出し、ユーザに表示されるべきワークスペースに統計値を追加することによって完了することとなる。

0064

中程度モードでは、合致するメタデータの閾値がユーザによって設定され、例えば、DDNについての6個のパラメータ中の3個が設定される場合、それがデータスペース内の細胞集団を同定するのに十分なパラメータを有しているため、DDNを実行する。

0065

厳密モードでは、DDNの実行を開始するために、全てのメタデータ要件が満たされなければならず、プロセッサは、生データをメモリ内にロードせず、DDN方法が停止し、それ以上の計算は実行されない。

0066

メタデータは、メタデータルール動作値の基準を満たすか、動作値によって設定される基準を満たさないかのいずれかである。メタデータが動作値の基準を満たさない場合、プロセッサは、生データをメモリ内にロードせず、DDN方法が停止し、それ以上の計算は実行されない。メタデータが動作値の基準を満たす場合、プロセッサは、生データをメモリ内にロードする。メモリ内にロードされる生データは、生取得データ、別のノードからのデータ、1つもしくは複数のゲートからのデータ、または解析ソフトウェアにアクセス可能な任意の他の生データの形式でもたらされてもよい。

0067

生データのロード後、プロセッサは、動作変数によって指定される計算またはアルゴリズムを実行する。例えば、プロセッサは、本明細書で説明されるプラグインアーキテクチャ及びフレームワークを用いて外部アルゴリズムを実行して、生データ内の1つまたは複数の集団を同定してもよい。さらに、プロセッサは、上述したDDN一時オブジェクトを作成する。DDN一時オブジェクトを作成することは、プロセッサが反復変数を開始番号に設定すること、及び実行された計算またはアルゴリズムの結果に基づいて充足値を定義することを伴う。DDN一時オブジェクトの作成後、第1のDDNサイクルフェーズは完了し、プロセッサは、次のn回DDNサイクルフェーズの実行を開始する。

0068

次のn回DDNサイクルフェーズにおいて、フェーズは、DDN一時オブジェクトをロードすること、及びDDN一時オブジェクトの充足値が充足閾値もしくは動作変数によって設定される充足基準を満たすか、または超えるかを判断することによって開始する。DDN一時オブジェクトを充足閾値と比較することは、プロセッサが、反復変数をDDNの充足変数と比較することを含んでもよい。例えば、充足変数が、5回反復するようにDDNに命令し、一時オブジェクトの反復変数が5より小さい場合、充足変数は満たされておらず、DDNは再び反復することとなる。別の例として、プロセッサは、DDN一時オブジェクトまたは任意の他の動作変数が次の計算のための「指示」を指定したかどうかを判断してもよい。例えば、DDN一時オブジェクトによって指定される指示は、メモリ内の生データのサブセットのみが次の反復において使用されるべきであることを示してもよい。別の例として、充足値は、カテゴリ内のイベントのパーセンテージを定義することなどによって、精度を示す値を含んでもよく、プロセッサは、精度の数値を充足基準と比較してもよい。精度の数値の例は、散乱ゲートの推定純度及び回収率の3カラーフローの解析を含んでもよい。ここでは、純度及び回収率の最良の組み合わせに到達するまで、散乱ゲートが再定義され得る。純度効果及び回収率効果の値が90%を超えるまで、最適化ループは、全てのサンプルに適用されるゲートを縮小及び拡大する。

0069

DDN一時オブジェクトの充足変数が、充足閾値もしくは充足基準を満たすか、または超える場合、プロセッサは、完了フェーズを実行する。

0070

DDN一時オブジェクトの充足変数が、充足閾値もしくは充足基準を満たさないか、または超えない場合、プロセッサは、メモリにロードされた生データのサブセット、またはメモリにロードされた生データのフルセットを、一時オブジェクトが次の反復用に必要とするかどうかを判断する。上記を振り返って、動作変数は、データのサブセットまたはデータのフルセットに対して計算またはアルゴリズムを実行するかどうかを示してもよい。例えば、動作変数は、データのセットが、外部アルゴリズムを使用してゲーティングされるべきであり、ダウンストリーム数学計算が、ゲーティングされたデータに対してのみ実行されるべきであることを示していてもよい。データまたは生のリストモードデータのメタデータを解析してどの計算またはアルゴリズムを適用するかを判断するように、メタデータがプロセッサに命令してもよいことに留意すべきである。メタデータは、指定された計算またはアルゴリズムの実行前にプロセッサによって実行されるべき分岐または決定木を呼び出してもよい。例えば、生データがCD4イベントを示唆するようにプロセッサが生データを解析する場合、プロセッサは、CD4集団同定アルゴリズムを適用してもよいが、生データがCD8イベントを示唆するようにプロセッサが生データを解析する場合、プロセッサは、CD8集団同定アルゴリズムを適用してもよい。

0071

動作変数が、データのフルセットを指定する場合、プロセッサは、指定された計算またはアルゴリズムを生データのフルセットに対して実行し、プロセッサは、反復変数をインクリメントすること、及びデータのフルセットに対して実行された計算またはアルゴリズムの結果に基づいて充足値を再定義することによって、一時オブジェクトを更新する。これらのフェーズの間、データのフルセットがメモリ内に残っていてもよい。一時オブジェクトの更新後、プロセッサは、新たな一時オブジェクト値に基づいて次のn回DDNサイクルを繰り返す。

0072

動作変数が、データのサブセットを指定する場合、プロセッサは、指定された計算またはアルゴリズムを生データの指定されたサブセットに対して実行し、プロセッサは、反復変数をインクリメントすること、及びデータのサブセットに対して実行された計算またはアルゴリズムの結果に基づいて充足値を再定義することによって一時オブジェクトを更新する。データの指定されたサブセット内に含まれないデータは、メモリから解放され、その他の場所に記憶されてもよい。一時オブジェクトの更新後、プロセッサは、新たな一時オブジェクト値に基づいて次のn回DDNサイクルを繰り返す。

0073

次のn回DDNサイクルフェーズは、充足閾値もしくは基準を満たすかまたは超えるまで続く。一旦満たすかまたはと、プロセッサは、完了フェーズへと続き、完了フェーズでは、プロセッサは、動作変数によって指定される出力タイプを判断する。反復オプションでは、ユーザは、DDN実行パラメータとして記憶される、反復数を設定してもよい。この判断に基づいて、プロセッサは、ワークスペースにおけるアクションをとり、DDNフローの結果をワークスペースファイルに書き込む。例えば、プロセッサは、結果及びとられるアクションに応じて複数の視覚化のうちの1つを提示してもよく、またはプロセッサは、ワークスペースファイル内の新たな集団もしくは統計値を定義してもよい。

0074

完了フェーズで発生する、ワークスペースでとられるアクションは、新たな入力データでDDNを再呼び出しすることを伴ってもよい。例えば、完了フェーズ中に生成される出力は、新たな入力データセットであってもよい。入力データセットが変化すると、DDNは、再度処理を呼び出し実行してもよい。したがって、入力データセットが変化したときにはいつでも、DDNは、その必要な処理を実行してもよい。

0075

図8をここで参照すると、任意の実験、臨床試験、調査研究プロジェクトなどにおいて、専門家の数は制限される。即ち、ある人が研究分野トピック、細胞表現型、科学的特性などについてより多くを知っているほど、それらの専門家の存在はより少なく、専門家の時間は制限される。一方、高度な技能と知識を有し得るが、専門家が所有する豊富な知識に欠ける解析者は、より一般的かつ豊富である。専門家の不足及び解析者の豊富さに起因して、専門家は、概して、実験の運用などのいくつかのタスクを解析者に委任し、専門家は、解析者の作業成果物監督する。一方、専門家は、自分がレビューするあらゆる実験解析から全ての解析ステップをレビューする時間が単純に不足しているため、従来の方法では、専門家が、幾何学的ゲートがどのように適用されるかなど、実験及び解析のそれぞれの個々のステップを見ることができなかった。

0076

専門家活用の従来の方法とは対照的に、図8は、解析者が、専門的に訓練された解析フローを呼び出し、取得されたデータのセットに展開し得るように、専門家によりDDNを訓練するプロセスを示している。上述のように、専門家は、DDNの動作データ構造を設定することによって、及び保存された一時オブジェクトを通してDDNにより得られるナレッジを使用することによって、訓練をDDNデータ構造にもたらし得る。階層型ゲーティングの形式でのような専門家の決定は、DDNのメタデータ内に保存され、表され得る。図8は、専門家が自分自身の専門技術及び経験を用いてデータ発見ノードを訓練することを示す。訓練プロセスは、図6に示されるステップのうちのいくつか、または全てを含んでもよい。専門的に訓練されたDDNは、解析フローの一部、または解析フロー全体を表してもよい。例えば、専門的に訓練されたDDNは、専門家の知識に基づく的確な幾何学的ゲーティング技術を適用してもよい。代替的に、DDNは、集団同定用の外部発見アルゴリズムに呼び出しをかける解析ステップを含んでもよく、専門的に訓練されたDDNは、専門家によって提供される発見プロセスのために特定のパラメータを提供してもよい。専門家がDDNを訓練し、フローステップを指定し、集団同定についての制限を指定し、任意の数学的モデルを指定しているため、DDNは、解析者が解析にもたらし得るいかなるバイアスも除去する。本明細書で論じるDDNフレームワーク及びプロセスでは、解析者のバイアスは除去され、DDNを用いて行われる全ての実験は、同じように行われることとなり、それによって均一な結果がもたらされる。

0077

図8Bは、専門家がどのようにDDNを訓練し得るかについての例を示している。この例では、専門家は、CD4ゲートが幅広いほど、良好な解析結果を生じることに気が付いていてもよい。専門家は、コンピュータ上のユーザインタフェースを用いて、自身のDDNにおいてCD4ゲートの定義を広げてもよく、それは、専門家においてCD4集団を検査すること、解析においてより多くのCD4+細胞を含むように範囲ゲートを編集することによって行われる。DDNの調整後、調整済みのDDNは、データベース内の保存されたものを取得する。解析者は、DDNが異なるCD4ゲート定義を有することを知ることなく、調整済みのDDNを呼び出してもよい。調整済みのDDNを呼び出すことによって、調整済みDDNによって定義される解析フロー全体が、解析ソフトウェアの単一セッション内で発生することとなる。調整済みDDNは、調整済みの方法に従って結果を生成してもよい。この方法の多くの利益のうち、実質的な利益は、解析者が異なるアクションを全く行わなくても、調整済み解析方法が専門家によって完全に検証されているということが分かることである。

0078

別の利益として、DDNは、グループまたは個人間で共有されてもよい。T細胞の専門家が、NK細胞の専門家によって作成され最適化されたDDNを取り出して、NK細胞についての解析を実行してもよい。このように、専門的技術が、専門家の間で共有されてもよく、実験が、多数の表現型に対して効率的に実行されてもよい。

0079

アクティブノードの主な利益のうちの1つは、ノードが、特定のデータセットから分離され、データ駆動型であるということである。データが解析フローを駆動するため、利用可能になる解析のタイプは、入力データの選択に応じて異なることとなる。言い換えると、DDNが計算及び実行し得るものは、入力データ次第である。概して、入力データは、科学データを表すイベントのセット、または等価性の暗黙の感覚を有するファイルのセットである。例えば、入力データは、複数時点にわたって取り込まれたCD3測定値であってもよい。別の例として、入力データは、取得機器によって取り込まれた生データであってもよい。さらに別の例では、入力データは、解析ソフトウェアまたは外部アルゴリズムによって生成される結果となるデータであってもよい。

0080

DDNのメタデータは、また、制約、分岐、決定木、自己最適化、またはリアルタイムでの反復を適用するかどうかを指定してもよく、それは、ユーザによって指定され、DDN実行パラメータとして記憶される。入力解析ステップは、DDNが解析ステップ後にフィードバックされる結果データを受信するときに何度も発生してもよい。分岐し、制約を適用し、決定木を適用するかどうかなどは、DDNのメタデータまたは充足変数内で設定されてもよい。

0081

DDNが制約を適用すると、DDNは、データの範囲を絞る。例えば、絞られるべき入力データが、単一のパラメータ分布であった場合、制約は、1から100の範囲に及ぶイベントなどの範囲であり得る。範囲を絞ることによって、DDNは、デブリであるか、または著しいノイズを付加し得る、極端ビン内の細胞を除外することができる。DDNのコンテキストにおける別の制約の適用は、低白血球数またはHIVT細胞の逆位などの、サブセットの頻度または2つの表現型の比率を計算するためにノイズを除去することであり、患者のT細胞型の比率が「反転」する。例えば、制約は、制約されたデータのサブセットに対してのみ計算を実行するように動作変数を設定することによって適用されてもよい。

0082

DDNが分岐を適用すると、結果が後続の実行ステップに影響を及ぼすワークフローにおいて、DDNはポイントを生成する。簡単な例として、DDNがCD3+サブセットを見つけようとしているが、DDNがCD3+イベントが存在しないと判断する場合、その情報は、プロセス内で使用され、したがって適応的にダウンストリーム解析をリダイレクトし得る。この例では、DDNは、CD3+細胞を探索するために集団同定アルゴリズムを適用してもよい。DDNは、CD3+細胞が全く見つからなかったと識別するクラスタ集団結果を受信してもよい。DDNは、図5のフィードバックループを表す集団同定アルゴリズムの結果を解析してもよく、CD3+細胞についてのレポートを生成するステップが無用であると判断してもよい。したがって、DDNは、その代わりに、新たな集団を同定するように集団同定アルゴリズムに要求してもよい。上述のHIV逆位の例では、DDNが、DDNによってロードされたメタデータを使用してHIV逆位の状況を検出する場合、DDNは、より綿密なT細胞数のレポートまたはT細胞数が正常範囲内であったとというレポートを行うように、解析ソフトウェアに命令してもよい。分岐ステートメントの使用は、セッション中の処理を変更し、それによって、適応的実行及びインメモリデータの両方を活用することが可能となる。動作変数は、完了フェーズ中でこの種の分岐を指定してもよい。代替的に、メタデータは、データのフルセットまたはサブセットのいずれかに適用される、指定された計算またはアルゴリズムを変更する固有の分岐を含んでもよい。

0083

DDNは、特定の成果を見つけるための処理フロー全体の表現である、決定木を適用してもよい。例えば、図9は、特定の集団を見つけるための決定木の例を示しており、これはイベントまたは次数削減を伴う。図9に関するいくつかのコンテキストについて、サンプルデータセット内の特定の種類の異常を検出するためのいくつかの専門的なパネルが、既に存在している。これらのパネルが表す特定表現型の組み合わせは、マーカーを含むデータから取り出され得る。DDNは、このロジックのためのコンテナとして供給され得る。この構成は、パネルが主として不必要となる場所にポイントが到達するように、パネルベースの解析からアルゴリズム型解析への飛躍を可能にする。複数のパネルをテストするよりもむしろ、1つが、1つのチューブ内への関連するマーカーの全てを含んでもよく、それは、このようなテストから生じる多数のデータパラメータを通してナビゲートするために、DDNの高度な処理能力が使用され得ることを意味する。

0084

図9を参照すると、入力データは、ゲートまたはファイルの集合であってもよい。図9から分かるように、DDNは、CD45+SSCデータが利用可能かどうかを判断してもよい。yesの場合、DDNは、データを解析して、突き出した「不鮮明な」CD45のピークがあるかどうかを判断する。順番に、DDNは、以下の比較及び解析を実行する。
a.図9における2つの分岐は、第1に解析が完了され得るかどうかを検査するために、DDNが実行する検証のプロセスを示す。(DDN実行パラメータとの比較、この場合、サンプルがSSC及びCD45パラメータを含むか?)
b.そうであれば、ナレッジベースからの専門家のゲートが、SSC及びCD45パラメータによって同定される集団に適用される。
c.ピーク検出(集団同定)アルゴリズムは、(既にゲーティングされたCD45+集団に対して)CD45の不鮮明なピークがあるかどうかを見るためだけに、CD45パラメータを検査して実行される。
i.ピークが存在する場合、この場合は急性単球白血病(AML)の芽細胞を同定するように、別の専門家の一連の階層型ゲートが適用される。
d.ともかく、CD19+細胞は、リンパ球上のCD19+頻度が異常に高い(DDN作成後に専門家によって定義されるような2つの標準偏差よりも大きい)かどうか検査するためにナレッジベースと比較されるDDN適用された集団定義によって同定される。CD19頻度が、リンパ球上で異常に高い場合、DDNは、Kappa/Lambda、CD10、CD22などのようなB細胞固有情報についての解析を適用することとなる。

0085

あらゆる場合に、DDNは、検証を実行し(実行される解析であり得る)、解析フェーズを実行する(例えば、これらの専門家が定義した幾何学的ゲートを適用する、またはピーク検出を実行する)、生物学的結果と比較し、繰り返してもよい。このようにして、DDNは、解析を指示するためにその3つの情報タイプを活用する。

0086

図9における非限定的な例から見られ得るように、DDNは、決定木内の各点おける判断結果に基づいて、処理を変更し得る。処理の変更は、ユーザ呼び出し後、例えば、検証基準が満たされないときに、DDNのメタデータ及び動作変数によって表されてもよい。さらに従来の方法とは対照的に、DDNは、解析ソフトウェアの単一セッション内で全てのこれらの決定及び結果を処理するため、図9に表される決定木は、人間による主観的なバイアスを除去する。

0087

DDNは、また、最適化技術を用いていくつかの解析「パス」にわたって結果を精密化してもよい。最適化の一例が、解析ソフトウェアが細胞分裂周期フェーズ内の細胞数の推定を計算する、細胞周期適合解析である。分裂周期における正確な細胞数は、計算において見つかった数を反復して精密化するために最も良く見つけられる。精密化及び最適化は、複数のパスを必要とし、DDNは、正確な結果を計算するのに必要な「パス」の数についての制限をユーザが設定することを可能にする。制限は、反復数であってもよく、閾値デルタを使用してもよい。それによって、計算における正確性の改善が、改善閾値を超えなければならず、さもなければプロセスは終了する。細胞周期適合解析は、同定技術がもはや改善閾値デルタを超えるまで同定アルゴリズムが反復して表現型を決定し得る、集団同定に拡大され得る。プロセッサは、最適化技術に基づいてDDNメタデータを変更してもよい。

0088

さらに、DDNは、反復を用いて、各ステップ後に次数またはパラメータ範囲を削減させながら処理を繰り返してもよい。例えば、DDNは、データ範囲最小値または最大値から始まって解析することによってデータの分布における全てのピーク(最大値)を見つけてもよい。第1のピークが見つかると、DDNが2番目以降の最大ピークなど、より多くのピークを見つけることができるように、DDNはデータセットからピークを除去する。最終的に1つのピークのみが残ることとなり、DDNが最後のピークを見つけた後、反復が停止する。反復は、充足変数内に含まれる反復変数によって定義されてもよい。

0089

最後に、DDNは、他の類似のDDNから学習される訓練及びナレッジを活用してもよい。DDNが、専門家によって作成されると、DDNは、類似のDDNデータ構造についてのデータベースに問い合わせするように構成される。DDNは、そのメタデータ内の類似の名前または類似の項目を探索することによってこの問い合わせを行ってもよい。例えば、DDNが、それをCD4同定ノードとして同定するメタ情報を有する場合、DDNは、類似のまたは同一のメタデータを有するDDNデータベースに保存されている他のDDNを探索してもよい。DDNは、任意の意味論的方法を通して類似のDDNを見つけてもよい。類似のDDNを見つけると、新たに訓練されたDDNは、以前に作成されたDDNによって得られるナレッジ及び訓練をDDNが受信することを可能にする、データベースに保存された類似のDDNから情報を得てもよい。例えば、類似のDDNが、幾何学的ゲート、即ちゲートの最小/最大範囲、ゲートについてのパーセンタイル、または臨床的に有意義な結果を生成することを助ける数学的関係を専門的に定義していることを、新たに作成されたDDNが見つけてもよい。各DDNは、データに適用された回数を他のDDNデータ構造に伝達してもよい。上述したように、取得されたデータにDDNがより多く適用されるほど、DDNが生成する結果はより良好である。したがって、より多くのデータに適用されているDDNは、範囲、パーセンタイル、ゲート、数学的関係、パラメータの枝刈り、または任意の他の重要なナレッジを、他の類似のデータ構造に伝達してもよく、その結果、類似のデータ構造は、「より古い」DDNの訓練を活用し得る。DDNは、呼び出しを通して、かつ、データベース内の他の類似のDDNデータ構造との通信をも通して学習し、したがって、最適な、例えば、集団同定をもたらすために、専門家のネットワーク及び反復型実験を活用する。さらに別の例では、DDNは、やり方を変更し、または取得機器によってデータを収集するやり方への変更を提案してもよい。

0090

DDNは、コンピュータのメモリ内で、及びメモリに記憶された入力データに対して動作する。ユーザがDDNを使用するジェスチャをすると、DDNは、必要な入力データをメモリに集め、メモリ内の入力データに対してデータ処理を実行する。DDNを反復し、制約を適用し、決定を行い、分岐または最適化を行うにつれて、データは削減され枝刈りされ得る。DDNが多くのインテリジェンスを得るにつれて、DDNは、入力データに対して最初のプレ処理を行い、その結果、メモリに記憶されるデータ量が最小化される。メタデータレベルで発生する、データのプレ処理を行うことによって、DDNが訓練され続けるにつれてコンピュータの性能が向上する。さらに、主観的にバイアスされた手動の幾何学的ゲーティングのステップを除去することによって、以前の実験方法よりも高速にユーザに結果が提示される。取得コンピュータ、解析コンピュータ、またはサーバは、追加的な処理を実行してDDNの特徴全てを実行してもよいが、DDNの使用で効率は向上する。

0091

DDNは、また、ユーザに結果を提示するための、解析ソフトウェア内に含まれるテーブルエディタまたはレイアウトエディタを活用してもよい。いくつかのコンテキストにおいて、DDNは、解析フロー全体をカプセル化してもよく、その結果、任意の他のステップが解析ソフトウェアを通して実験結果とともに提示されることなく、解析者などのユーザが、単にDDNを呼び出し得る。このようにして、DDNは、実験全体を含み得る。

0092

前述の観点から、本発明の複数の利点が実現され達成されることが分かる。

0093

実施形態は、本発明の原理、及び多様な実施形態において、かつ考えられる特定の用途に適している多様な修正を用いて、それにより当業者が本発明を最もよく利用可能にするためのその実際の適用を最もよく説明するために選択され説明された。多様な修正は、本発明の範囲から逸脱することなく本明細書で説明され例示される構築及び方法において行われ得るため、前述の説明に含まれ、または添付図面に示される全ての事項は、限定ではなく、例示として解釈されるものとすることを意図している。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ