図面 (/)

技術 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

出願人 国立大学法人九州大学
発明者 中山敬一清水秀幸
出願日 2018年8月24日 (2年4ヶ月経過) 出願番号 2018-157870
公開日 2020年2月27日 (10ヶ月経過) 公開番号 2020-028278
状態 未査定
技術分野 生物学的材料の調査,分析 酵素、微生物を含む測定、試験
主要キーワード 熟年層 ニューラルネットワーク解析 検査サービス ホールドアウト 損失関数 誤差伝播 統合スコア フリーソフト
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年2月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

検体を、被検体の体に生じるイベントに応じて層別化する方法。

解決手段

被検体に由来するバイオマーカー母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第1の亜集団として抽出する工程1と、第1の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第2の亜集団として抽出する工程2と、第2の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程3と、を含む、判別器生成方法。前記判別器は、第2の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程3で算出された各バイオマーカーの重みを用いて、第2の亜集団に属するバイオマーカーのスコアの重み付け和を算出する。

概要

背景

がん先進国における死因の主要原因であり、死亡率の高い患者抗がん治療が有効な患者を層別化する方法は、10年以上にわたって研究の対象となっている。

例えば、特許文献1には、95遺伝子の発現から手術後10年間の乳がん再発リスク予測する方法が開示されている。非特許文献1には、21遺伝子の発現から、浸潤性乳がん(ステージI,II,III[T3N1まで])であって、かつエストロゲン受容体ER陽性の乳がんにおける手術後10年間の再発リスクを予測する方法が開示されている。非特許文献1に開示されている方法は、Oncotype DXという名称で、検査サービスが提供されている。非特許文献2には、70遺伝子の発現から10年後の再発リスクを予測する方法が開示されている。非特許文献2に開示されている方法は、MammaPrintという名称で検査サービスが提供されている。非特許文献3には、PAM50遺伝子の発現に基づいて若い乳がん患者における10年後の遠隔再発リスクを予測する方法が開示されている。非特許文献3に開示されている方法は、Prosignaという名称で検査サービスが提供されている。非特許文献4には、extended endocrine therapyを適用するER陽性早期乳がん患者を選択するための方法が開示されている。非特許文献4に記載の方法は、Breast Cancer Indexという名称で検査サービスが提供されている。非特許文献5には、ER陽性及びHER2陰性早期乳がんの遠隔再発リスクを予測する方法が開示されている。非特許文献5に開示されている方法は、EndoPredictという名称で検査サービスが提供されている。

概要

検体を、被検体の体に生じるイベントに応じて層別化する方法。被検体に由来するバイオマーカー母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第1の亜集団として抽出する工程1と、第1の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第2の亜集団として抽出する工程2と、第2の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程3と、を含む、判別器生成方法。前記判別器は、第2の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程3で算出された各バイオマーカーの重みを用いて、第2の亜集団に属するバイオマーカーのスコアの重み付け和を算出する。

目的

特許文献1、及び非特許文献1〜5に開示されている方法は、再発リスクや治療効果を予測することには有用であるが、上記患者の質問答えを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

検体由来するバイオマーカー母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第1の亜集団として抽出する工程1と、第1の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第2の亜集団として抽出する工程2と、第2の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程3と、を含む、判別器生成方法であって、前記判別器は、第2の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程3で算出された各バイオマーカーの重みを用いて、第2の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、前記判別器の生成方法。

請求項2

被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第1の亜集団として抽出する工程Aと、第1の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第2の亜集団として抽出する工程Bと、第2の亜集団に属するバイオマーカーから、機械学習法により、前記体に生じるイベントとの関連性がさらに強いと統計学的に予測されるバイオマーカー群を第3の亜集団として抽出する工程Cと、第3の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程Dと、を含む、判別器の生成方法であって、前記判別器は、第3の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程Dで算出された各バイオマーカーの重みを用いて、第3の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、前記判別器の生成方法。

請求項3

前記機械学習法がランダムフォレストである、請求項1又は2に記載の判別器の生成方法。

請求項4

前記深層学習法が勾配降下法である、請求項1〜3のいずれか一項に記載の判別器の生成方法。

請求項5

前記検証がメタアナリシスである、請求項1〜4のいずれか一項に記載の判別器の生成方法。

請求項6

前記体に生じるイベントが患者における所定期間内、又は所定期間後生存率である、請求項1〜5のいずれか一項に記載の判別器の生成方法。

請求項7

前記患者が罹患している疾患ががんである、請求項6に記載の判別器の生成方法。

請求項8

前記バイオマーカーが遺伝子であり、前記バイオマーカーの測定値が、遺伝子に由来するmRNA、又はタンパク質発現量である、請求項1〜7のいずれか一項に記載の判別器の生成方法。

請求項9

処理部を備え、前記処理部が、請求項1〜8のいずれか一項に記載の判別器の生成方法を実行する、判別器生成装置

請求項10

請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を、患者の所定期間内、又は所定期間後の生存率の予測のために使用する、使用方法

請求項11

前記患者ががん患者である、請求項10に記載の使用方法。

請求項12

がんが乳がんである、請求項11に記載の使用方法。

請求項13

患者について、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値以下であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法

請求項14

患者について、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値よりも大きいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。

請求項15

患者について、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値以上であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。

請求項16

患者について、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値よりも小さいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。

請求項17

前記患者ががん患者である、請求項13〜16のいずれか一項に記載の予測方法。

請求項18

がんが乳がんである、請求項17に記載の予測方法。

請求項19

判別器を生成する際に第2の亜集団として抽出されるバイオマーカーが、下記表1−1、及び表1−2に示される遺伝子を含み、前記バイオマーカーの測定値が遺伝子に由来するmRNA、又はタンパク質の発現量である、請求項18に記載の予測方法;。

請求項20

判別器を生成する際に第3の亜集団として抽出されるバイオマーカーが、FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3を含み、前記バイオマーカーの測定値が遺伝子に由来するmRNA、又はタンパク質の発現量である、請求項18に記載の予測方法。

請求項21

処理部を備え、前記処理部が、請求項13〜20のいずれか一項に記載の予測方法を実行するための、患者の生存率予測装置

請求項22

患者について、請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を、対応する基準範囲と比較する工程と、前記患者の重み付け和が属する基準範囲の分位を決定する工程と、を含む、患者を生存率に応じて層別化することを補助する方法。

請求項23

前記患者ががん患者である、請求項22に記載の方法。

請求項24

前記基準範囲が、がんの臨床ステージクラス分類、がんの組織型、臨床ステージ毎病理組織グレード毎、又は年齢層毎のカテゴリーに応じて決定されており、前記方法が、さらに、前記カテゴリーに応じて、被検体のがんの臨床ステージクラス分類、がんの組織型、臨床ステージ、病理組織グレード、及び年齢層の情報を取得する工程を含む、請求項22又は23に記載の方法。

請求項25

下記表2−1、及び表2−2に示される遺伝子から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用; 。

請求項26

FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3よりなる遺伝子群から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用。

請求項27

下記表3−1、及び表3−2に示される遺伝子から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)に由来するmRNA、又はタンパク質の発現量を検出するためのプローブプライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬; 。

請求項28

FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3よりなる遺伝子群から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)に由来するmRNA、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬。

請求項29

請求項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器。

請求項30

請求項29に記載の判別器を記憶した記憶媒体

請求項31

コンピュータに実行させたときに、請求項1〜8のいずれか一項に記載の判別器の生成方法を実行する、判別器を生成するためのコンピュータプログラム

請求項32

コンピュータに実行させたときに、請求項13〜20のいずれか一項に記載の予測方法を実行する、患者の生存率を予測するためのコンピュータプログラム。

技術分野

0001

本開示は、被検体に生じるイベント予測するための判別器生成方法、前記判別器を用いた被検体の層別化方法、前記判別器を備えた被検体を層別化するための装置、及びがん患者生存率予測方法に関する。

背景技術

0002

がんは先進国における死因の主要原因であり、死亡率の高い患者や抗がん治療が有効な患者を層別化する方法は、10年以上にわたって研究の対象となっている。

0003

例えば、特許文献1には、95遺伝子の発現から手術後10年間の乳がん再発リスクを予測する方法が開示されている。非特許文献1には、21遺伝子の発現から、浸潤性乳がん(ステージI,II,III[T3N1まで])であって、かつエストロゲン受容体ER陽性の乳がんにおける手術後10年間の再発リスクを予測する方法が開示されている。非特許文献1に開示されている方法は、Oncotype DXという名称で、検査サービスが提供されている。非特許文献2には、70遺伝子の発現から10年後の再発リスクを予測する方法が開示されている。非特許文献2に開示されている方法は、MammaPrintという名称で検査サービスが提供されている。非特許文献3には、PAM50遺伝子の発現に基づいて若い乳がん患者における10年後の遠隔再発リスクを予測する方法が開示されている。非特許文献3に開示されている方法は、Prosignaという名称で検査サービスが提供されている。非特許文献4には、extended endocrine therapyを適用するER陽性早期乳がん患者を選択するための方法が開示されている。非特許文献4に記載の方法は、Breast Cancer Indexという名称で検査サービスが提供されている。非特許文献5には、ER陽性及びHER2陰性早期乳がんの遠隔再発リスクを予測する方法が開示されている。非特許文献5に開示されている方法は、EndoPredictという名称で検査サービスが提供されている。

0004

特許第5725274号公報

先行技術

0005

Sparano, J. A. et al. Prospective Validation of a 21-Gene Expression Assay in Breast Cancer. N. Engl. J. Med. 373, 2005-2014, doi:10.1056/NEJMoa1510764 (2015).
van 't Veer, L. J. et al. Nature 415, 530-536, doi:10.1038/415530a (2002).
Parker, J. S. et al. J. Clin. Oncol. 27, 1160-1167, doi:10.1200/jco.2008.18.1370 (2009).
Ma, X. J. et al. Cancer Cell 5, 607-616, doi:10.1016/j.ccr.2004.05.015 (2004).
Filipits, M. et al. Clin. Cancer Res. 17, 6012-6020,doi:10.1158/1078-0432.ccr-11-0926 (2011).

発明が解決しようとする課題

0006

がんを告知された者がはじめに医師ねる質問は、多くの場合、自分があと何年生きられるのかということである。

0007

特許文献1、及び非特許文献1〜5に開示されている方法は、再発リスクや治療効果を予測することには有用であるが、上記患者の質問の答えを提供するものではない。

0008

また、特許文献1、及び非特許文献1〜5に開示されている方法は、ER陽性である(すなわちホルモン療法が有効な可能性がある)乳がんであって、かつリンパ節転移が少ない乳がんに限って適用されている。

0009

つまり、現段階ではがん全体や疾患全体にわたって被検体の生死等の被検体の体に生じるイベントを予測する方法は、確立されていない。

0010

本明細書に開示される発明においては、被検体の体に生じるイベントについて、被検体を層別化する方法を提供することを一課題とする。

課題を解決するための手段

0011

本発明者は、鋭意研究を重ねたところ、後述する方法によって生成された判別器によって、被検体の体に生じるイベントについて被検体を層別化できることを見出した。
本開示は、以下の態様を含む。
項1.
被検体に由来するバイオマーカー母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第1の亜集団として抽出する工程1と、
第1の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第2の亜集団として抽出する工程2と、
第2の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程3と、
を含む、判別器の生成方法であって、
前記判別器は、第2の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程3で算出された各バイオマーカーの重みを用いて、第2の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、
前記判別器の生成方法。
項2.
被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが前記被検体の体に生じるイベントと関連して変動するか否かを統計学的手法により判定し、変動すると判定されたバイオマーカー群を第1の亜集団として抽出する工程Aと、
第1の亜集団に属する各バイオマーカーを検証し、前記体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群を第2の亜集団として抽出する工程Bと、
第2の亜集団に属するバイオマーカーから、機械学習法により、前記体に生じるイベントとの関連性がさらに強いと統計学的に予測されるバイオマーカー群を第3の亜集団として抽出する工程Cと、
第3の亜集団に属する各バイオマーカーの重みを深層学習法により算出する工程Dと、
を含む、判別器の生成方法であって、
前記判別器は、第3の亜集団に属する各バイオマーカーの測定値から得られるスコアと工程Dで算出された各バイオマーカーの重みを用いて、第3の亜集団に属するバイオマーカーのスコアの重み付け和を算出する、
前記判別器の生成方法。
項3.
前記機械学習法がランダムフォレストである、項1又は2に記載の判別器の生成方法。
項4.
前記深層学習法が勾配降下法である、項1〜3のいずれか一項に記載の判別器の生成方法。
項5.
前記検証がメタアナリシスである、項1〜4のいずれか一項に記載の判別器の生成方法。
項6.
前記体に生じるイベントが患者における所定期間内、又は所定期間後の生存率である、項1〜5のいずれか一項に記載の判別器の生成方法。
項7.
前記患者が罹患している疾患ががんである、項6に記載の判別器の生成方法。
項8.
前記バイオマーカーが遺伝子であり、前記バイオマーカーの測定値が、遺伝子に由来するmRNA、又はタンパク質の発現量である、項1〜7のいずれか一項に記載の判別器の生成方法。
項9.
処理部を備え、前記処理部が、項1〜8のいずれか一項に記載の判別器の生成方法を実行する、判別器生成装置
項10.
項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を、患者の所定期間内、又は所定期間後の生存率の予測のために使用する、使用方法
項11.
前記患者ががん患者である、項10に記載の使用方法。
項12.
がんが乳がんである、項11に記載の使用方法。
項13.
患者について、項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値以下であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。
項14.
患者について、項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど小さな値を示す場合であって、前記患者の重み付け和が基準値よりも大きいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。
項15.
患者について、項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値以上であるときに、前記患者の生存率が良好であると決定する工程を含む、患者の生存率の予測方法。
項16.
患者について、項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を取得する工程と、
項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和が、所定期間内、又は所定期間後の生存率が良好なほど大きな値を示す場合であって、前記患者の重み付け和が基準値よりも小さいときに、前記患者の生存率が不良であると決定する工程を含む、患者の生存率の予測方法。
項17.
前記患者ががん患者である、項13〜16のいずれか一項に記載の予測方法。
項18.
がんが乳がんである、項17に記載の予測方法。
項19.
判別器を生成する際に第2の亜集団として抽出されるバイオマーカーが、下記表1−1、及び表1−2に示される遺伝子を含み、前記バイオマーカーの測定値が遺伝子に由来するmRNA、又はタンパク質の発現量である、項18に記載の予測方法。
項20.
判別器を生成する際に第3の亜集団として抽出されるバイオマーカーが、FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3を含み、前記バイオマーカーの測定値が遺伝子に由来するmRNA、又はタンパク質の発現量である、項18に記載の予測方法。
項21.
処理部を備え、前記処理部が、項13〜20のいずれか一項に記載の予測方法を実行するための、患者の生存率予測装置
項22.
患者について、項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器を用いて算出した重み付け和を、対応する基準範囲と比較する工程と、
前記患者の重み付け和が属する基準範囲の分位を決定する工程と、
を含む、患者を生存率に応じて層別化することを補助する方法。
項23.
前記患者ががん患者である、項22に記載の方法。
項24.
前記基準範囲が、がんの臨床ステージクラス分類、がんの組織型、臨床ステージ毎病理組織グレード毎、又は年齢層毎のカテゴリーに応じて決定されており、
前記方法が、さらに、前記カテゴリーに応じて、被検体のがんの臨床ステージクラス分類、がんの組織型、臨床ステージ、病理組織グレード、及び年齢層の情報を取得する工程を含む、項22又は23に記載の方法。
項25.
下記表1−1、及び表1−2に示される遺伝子から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用。
項26.
FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3よりなる遺伝子群から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)の、乳がん患者の生存率を予測するためのバイオマーカーとしての使用。
項27.
下記表1−1、及び表1−2に示される遺伝子から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)に由来するmRNA、又はタンパク質の発現量を検出するためのプローブプライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬
項28.
FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3よりなる遺伝子群から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)に由来するmRNA、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬。
項29.
項1〜8のいずれか一項に記載の判別器の生成方法により生成された判別器。
項30.
項29に記載の判別器を記憶した記憶媒体
項31.
コンピュータに実行させたときに、項1〜8のいずれか一項に記載の判別器の生成方法を実行する、判別器を生成するためのコンピュータプログラム
項32.
コンピュータに実行させたときに、項13〜20のいずれか一項に記載の予測方法を実行する、患者の生存率を予測するためのコンピュータプログラム。

発明の効果

0012

被検体の体にイベントが生じるか否かを予測することができる。また、公知のデータベース情報をもとに、被検体の体にイベントが生じるか否かを予測する、汎用性の高い判別器の生成方法を提供できる。

図面の簡単な説明

0013

判別器の生成方法の流れを示すフローチャートである。
図1のステップS3の流れを示すフローチャートである。
判別器生成装置、予測装置、及び層別化装置の概念図である。
判別器生成装置、予測装置、及び層別化装置のブロック図である。
予測方法の流れを示すフローチャートである。
層別化方法の流れを示すフローチャートである。
判別器の生成方法の典型例を示す。
aはPGK1の発現が高い群と低い群のKaplan-Meier Plotである。bは、TMEM65の発現が高い群と低い群のKaplan-Meier Plotである。cはBEND5の発現が高い群と低い群のKaplan-Meier Plotである。dはENOSF1の発現が高い群と低い群のKaplan-Meier Plotである。eはメタアナリシスの結果を示す。
aは発現が高い場合に生存率が不良となる遺伝子の信頼区間を示す。bは発現が低い場合に生存率が不良となる遺伝子の信頼区間を示す。
cはTMEM65highかつDCTPP1highの群とそうでない群のKaplan-Meier Plotである。dはUBA7lowかつENOSF1lowの群とそうでない群のKaplan-Meier Plotである。
表1−1〜表1−2に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。
表1−1〜表1−2に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。
表1−1〜表1−2に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。
表1−1〜表1−2に示す遺伝子のhazard ratio (HR) とその信頼区間を示す。
aは23遺伝子のGene_ScoreとGene_Weightとを示す。
bはMETABRICコホートにおけるmPSの分布を示す。cは各ステージにおけるmPSの分布を示す。
dはMETABRICコホートのmPSの分位毎のKaplan-Meier Plotである。eはTCGAコホートのmPSの分位毎のKaplan-Meier Plotである。
本開示の生存率の予測方法の概要を示す。
aはMETABRICコホート・HER2高発現乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bはMETABRICコホート・Claudin低発現乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
cはMETABRICコホート・Normal-like乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。dはMETABRICコホート・50未満の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
eはMETABRICコホート・ILC 乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。FはMETABRICコホート・グレード2 乳がん患者(n=740)におけるmPSの分位毎のKaplan-Meier Plotである。
aはMETABRICコホート・50代及び60代の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bはMETABRICコホート・70歳以上の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。cはMETABRICコホート・50歳未満の乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
aはMETABRICコホート・IDC乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bはMETABRICコホート・MDLC乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
cはMETABRICコホート・grade 1乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。dはMETABRICコホート・grade 3乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
aは、METABRICコホート・Nottingham Prognostic Index (NPI) Excellent群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bは、METABRICコホート・Nottingham Prognostic Index (NPI) Good群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
cはMETABRICコホート・Nottingham Prognostic Index (NPI) Moderate群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。dはMETABRICコホート・Nottingham Prognostic Index (NPI) Poor群に分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
aはMETABRICコホート・Stage Iに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。bはMETABRICコホート・Stage I Iに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
cはMETABRICコホート・Stage IIIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。dはTCGAコホート・Stage IIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
eはTCGAコホート・Stage IからIIIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。fはMETABRICコホート・Moderate IIに分類される乳がん患者におけるmPSの分位毎のKaplan-Meier Plotである。
aは臨床ステージとmPSを統合したクラスの関係を示す図である。bはMETABRICコホート及びTCGAコホート全体のステージとmPSを統合したクラスの分位毎のKaplan-Meier Plotである。

0014

1.判別器の生成方法
判別器は、複数のバイオマーカーの測定値に基づいて生成される。はじめに、バイオマーカーの母集団について、バイオマーカーの測定値に基づいて、被検体の体に生じるイベントと関連して変動しうる複数のバイオマーカーを決定する。判別器は、抽出された複数のバイオマーカーについて、各バイオマーカーの測定値に基づいて決定されるスコアと統計学的手法により算出された各バイオマーカーの重みから生成される。
より具体的には、判別器は、後述する判別器の生成装置の処理部101が、例えば、図1に示す各ステップを実行することにより生成される。

0015

はじめに、ステップS1において、処理部101は、ユーザによる処理開始の指示を入力部111から受け取ることにより、バイオマーカーの母集団から被検体の体に生じるイベントと関連して変動するバイオマーカー群を第1の亜集団として抽出する。

0016

次に、ステップS2において、処理部101は、第1の亜集団に属する各バイオマーカーを検証し、体内で生じるイベントに関連性がより強いと予測される第2の亜集団を抽出する。

0017

次に、ステップS3において、処理部101は、第2の亜集団に属するバイオマーカーから機械学習法により、体に生じるイベントとの関連性がさらに強いと予測される第3の亜集団を抽出する。

0018

次に、ステップS4において、処理部101は、第3の亜集団に属する各バイオマーカーの重みを深層学習法により算出する。処理部101は、ステップS4において算出された重みと、第3の亜集団に属する各バイオマーカーの測定値に基づいて決定されたスコアとから、下記判別器を生成する;

0019

0020

[式中、mPSは、分子予後予測スコア(molecular prognostic score)を示し、wは各バイオマーカーの重みを示し、GSは各バイオマーカーのスコアを示し、iは各バイオマーカーを示し、nはバイオマーカーの総数を表す。wi*Siは各バイオマーカーの重みと対応するバイオマーカーのスコアの積を表す]。

0021

最後に、処理部101は、ステップS5において、生成した判別器の汎化性能、及び/又は適用可能性等を検証してもよい。
各ステップについてより詳細に説明する。
また、各ステップの典型例を、図7に示すが、本開示は、図7に限定して解釈されるものではない。

0022

(1)ステップ1
ステップ1は、被検体の体に生じるイベントと関連して変動しうるバイオマーカー群を決定する工程である。

0023

被検体は、哺乳類である限り制限されない。例えば、ヒト、サルイヌネコマウスラット、及びウサギ等を例示することができる。好ましくはヒトである。前記被検体は、疾患に罹患している、又は疾患に罹患していると診断された被検体であることが好ましい。被検体として好ましくは患者である。

0024

疾患は、特に制限されない。好ましくは、疾患は悪性腫瘍である。より好ましくは、疾患は悪性上皮性腫瘍(がん)である。悪性腫瘍としては、例えば、気管気管支又は等から発生する呼吸器系悪性腫瘍;上咽頭食道十二指腸空腸回腸盲腸虫垂上行結腸横行結腸S状結腸直腸又は肛門部等から発生する消化管系悪性腫瘍;肝臓がん膵臓がん膀胱尿管又は腎臓から発生する泌尿器系悪性腫瘍;卵巣卵管及び子宮等から発生する女性生殖器系悪性腫瘍;乳がん;前立腺がん皮膚がん視床下部下垂体甲状腺副甲状腺副腎等の内分泌系悪性腫瘍;中枢神経系悪性腫瘍;骨軟部組織から発生する悪性腫瘍等の固形腫瘍が挙げられる。より好ましくは、肺がん扁平上皮がん小細胞がん、大細胞がん腺がん)等の呼吸器系上皮性悪性腫瘍胃がん、十二指腸がん、大腸がん(S状結腸がん、直腸がん等)等の消化管系上皮性悪性腫瘍;肝臓がん;膵臓がん;膀胱がん甲状腺がん卵巣がん;乳がん;前立腺がんを挙げることができる。最も好ましくは、乳がんである。
疾患が悪性腫瘍である場合、被検体において悪性腫瘍の転移が認められないことが好ましい。

0025

被検体の体で生じるイベントは、制限されない。例えば、疾患の発症(例えば、初発及び再発を含む)、疾患の治療に対する生体応答、疾患の帰趨(例えば、治癒、及び寛解を含む)、及び被検体自身の帰趨(例えば、死亡及び生存を含む)等を挙げることができる。好ましくは、疾患の発症、疾患の帰趨、及び被検体自身の帰趨等である。より好ましくは、所定期間内又は所定期間後における被検体自身の帰趨であり、さらに好ましくは、所定期間後における被検体自身の生存又は死亡である。

0026

被検体の体に生じるイベントは、そのイベントが生じるか生じないか、あるいは確率で評価することができる。確率は、疾患の発症率、疾患の重症化率、疾患の治療成功率、疾患の治療不成功率、疾患の治癒率、疾患の寛解率、被検体の生存率、及び被検体の死亡率等である。イベントが起こるか起こらないか、あるいはイベントが起こる確率に応じて被検体を分類することを被検体を層別化するともいう。

0027

所定期間は、1年、2年、3年、5年、6年、7年、8年、9年、10年、15年、20年、及び30年から体に生じるイベントに応じて適宜選択することができる。
本開示において、被検体の体に生じるイベントの最も典型的な例は、10年後又は20年後の乳がん患者の生存である。

0028

バイオマーカーは、生体内物質である限り制限されない。生体内物質は、核酸(遺伝子を含む);糖質;脂質;糖タンパク質糖脂質リポタンパク質アミノ酸ペプチド;タンパク質;ポリフェノール類ケモカイン;前記物質終末代謝産物中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;又は金属イオン等であり、より好ましくは、遺伝子である。

0029

バイオマーカーの測定値は、公知の方法により測定可能であり、上記バイオマーカーの量、又は濃度を反映する値である限り、制限されない。測定値は、定量的な値として表されても、「増加」、「変化なし」及び「減少」等の半定量的に表されてもよい。例えば、バイオマーカーが遺伝子であって、遺伝子に由来するタンパク質の存在量を反映する値を測定する場合には、免疫学的測定法ELISA法ウエスタンブロッティング法等)を採用することができる。バイオマーカーが遺伝子であって、遺伝子に由来するmRNAの発現量(コピー数等)を反映する値を測定する場合には、定量的RTPCR法又はRNA−Seq法等を採用することができる。

0030

例えば、バイオマーカーとして遺伝子を用いる場合には、遺伝子に由来するタンパク質の存在量、又はmRNAの発現量(コピー数等)を反映する値を、バイオマーカーの測定値として使用することができる。図7において、バイオマーカーの母集団は、HUGO Gene Nomenclature Committee (HGNC)に登録されている全てのコーディング遺伝子である。

0031

バイオマーカーの測定値は、疾患の病変部位組織又は細胞を含む検体における測定値であり得る。また、血液試料全血血漿、及び血清等を含む)、尿、髄液腹水、及び胸水等の疾患の状態を反映する生体内物質が含まれる検体中の測定値であり得る。疾患ががんである場合、検体はがん組織又はがん細胞であることが好ましい。

0032

バイオマーカーの測定値として、公知のデータベースに登録されている情報を使用してもよい。公知のデータベースとしては、cBioPortal [Cerami, E. et al. Cancer Discov. 2, 401-404, doi:10.1158/2159-8290.cd-12-0095 (2012)]、multicenter combined breast cancer cohorts [Abdel-Fatah, T. M. A. et al. The Lancet. Oncology 17, 1004-1018, doi:10.1016/s1470-2045(16)00174-1 (2016)]、Whole METABRIC cohort [n=1904; Pereira, B. et al. Nature communications 7, 11479, doi:10.1038/ncomms11479 (2016)及びCurtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012)]等を挙げることができる。図7に示す例では、cBioPortalから、TCGA breast cancer datasetのmRNAexpression (RNA-seq) を、被検体の体に生じるイベントと関連して測定値が変動しうるバイオマーカー群を決定するための最初のコホート(「ディスカバリコホート」ともいう)として使用している。

0033

各バイオマーカーの測定値が前記被検体の体に生じるイベントと関連して変動するか否かは、統計学的な手法により判定することができる。

0034

統計学的な手法は、各バイオマーカーが目的とするイベントと関連するか否かを判定できる限り制限されない。例えば、各バイオマーカーについて、測定値が高い群と低い群に群分けし、各群に属する各バイオマーカーについて、体にイベントが生じたか否かとのと関連性を評価する。体に生じるイベントと関連性について有意差検定により検証し、有意検定により「差がある」と判定されたバイオマーカーを、体に生じるイベントと関連する候補バイオマーカーとして決定することができる。

0035

各バイオマーカーについて、測定値が高いか低いかの判定は、例えば、中央値平均値、及び四分位範囲等を基準として行うことができる。図7の典型例では、バイオマーカーの測定値が高いと判定するか低いと判定するかについて、集団におけるバイオマーカーの測定値の中央値を境界として、中央値以上の測定値を「高い」と判定し、中央値よりも低い測定値を「低い」と判定し2群に群分けする。中央値は、群分け後に各群に属するバイオマーカーの数がほぼ同数となることから、各群に属するバイオマーカーの数に偏りがないという特徴がある。このため、群分けには、中央値を使用することが好ましい。このような統計解析は、公知の統計解析ソフト(例えば、統計分析フリーソフト「R」)等を使用して行うことができる。

0036

有意差検定は、各バイオマーカーについて、標的とするイベントに応じて変動が生ずる確率を表す情報に応じて選択することができる。例えば、体に生じるイベントが生存率で表されるものであれば、各バイオマーカーについて変動が生ずる確率を表す情報は、Kaplan−Meier Plotである。

0037

ステップS1は、候補バイオマーカーを減らすことを目的としているため、有意差検定において算出された有意水準p値について、カットオフ値を設定し、p値がカットオフ値より小さいバイオマーカーを「差がある」バイオマーカーと決定することができ、p値がカットオフ値より大きいバイオマーカーを「差がない」バイオマーカーとして分けることができる。

0038

有意差検定は、例えば、バイオマーカーの測定値の分布に応じて、t検定カイ二乗検定一元配置分散分析(クラスカルウォリス検定及びマンホイットニー検定等の検定を含んでいてもよい)、フリードマン検定コクランのQ検定、及びLog−rank検定等から選択することができる。

0039

カットオフ値は、例えば0.05、0.01、0.005、及び0.001等から選択することができる。

0040

各バイオマーカーについて前記確率を表す情報がKaplan−Meier Plotである場合には、有意差検定の方法として、例えばLog−rank検定を採用することができる。図7に示す典型例では、カットオフ値は0.01とした。つまり、Log−rank検定でp値が0.01未満となる遺伝子を、体に生じるイベントと関連がある第1の亜種団に属するバイオマーカーとして抽出した。

0041

Kaplan−Meier plotsは総計分析ソフト「R (survival package)」等を使用して生成することができる。また、Log−rank検定は、Rのsurvival package、Python (lifelines package)等を使用して行うことができる。

0042

斯くして、処理部101は、有意差検定により「差がある」と決定されたバイオマーカー群を第1の亜集団と決定することができる。

0043

(2)ステップ2
ステップS2において、処理部101は、ステップS1において、有意差検定により「差がある」と決定された第1の亜集団に対して、バリデーションコホートを使用し候補バイオマーカーとしての正しさを検証する。検証は、第1の亜集団として抽出した全てのバイオマーカーに対して網羅的に行い、候補バイオマーカーとしての正しいと判定されたバイオマーカーを第2の亜集団として抽出する。

0044

バリデーションコホートは、ディスカバリコホートとは異なるコホートから選択することが好ましい。コホートが1つである場合には、このコホートを2群に分け、一方をディスカバリコホート、もう一方をバリデーションコホートとしてもよい。最終的に生成される判別器の汎化性能、及び/又は適用可能性を向上させるためには、バリデーションコホートは、ディスカバリコホートとは異なるコホートから選択されることが好ましい。

0045

検証の方法は、候補バイオマーカーとしての正しさを検証できる限り制限されない。検証の方法として、例えば、メタアナリシス(meta−analysis)、Log−rank検定等を採用することができる。好ましくは、ディスカバリコホートとは異なるバリデーションコホートを用い、meta−analysisを行う。meta−analysisは、Cox回帰分析によるハザード比と95%信頼区間から検証を行う。これらの解析は、Python(3.6.2)等のソフトウェアを使用して行うことができる。

0046

図7に示す典型例では、バリデーションコホートとして、ディスカバリコホートとは異なるmulticenter combined breast cancer cohorts [ Abdel-Fatah, T. M. A. et al. The Lancet. Oncology 17, 1004-1018, doi:10.1016/s1470-2045(16)00174-1 (2016)]を使用しメタアナリシスにより検証を行う。

0047

斯くして、処理部101は、候補バイオマーカーとしての正しさが検証されたバイオマーカーを、体に生じるイベントとより関連性の強い第2の亜集団として抽出することができる。

0048

図7に示す典型例の第2の亜集団は、表1−1及び表1−2に示す通りである。

0049

0050

(3)ステップ3
処理部101は、機械学習と検証により第2の亜集団から第3の亜集団を抽出する。
機械学習法は、特徴量を抽出できる限り制限されない。機械学習法として例えば、ランダムフォレスト、決定木サポートベクターリグレッション、サポートベクターマシーンロジスティック解析スパースロジスティック解析、深層学習等を挙げることができる。好ましくは、ランダムフォレストである。機械学習は、例えばPythonベースのscikit−learnライブラリ等を使用して行うことができる。

0051

機械学習法は、図2に示すように、図1のステップS2において抽出された第2の亜集団に属するバイオマーカーについて、例えば、訓練データから特徴量を抽出することにより、その特徴量に応じて、第2の亜集団から体に生じるイベントとの関連がより強いバイオマーカーを特徴量として抽出する(ステップS31)。特徴量は、各バイオマーカーの測定値の変動と体に生じるイベントとの関連の強さを表す値である。例えば機械学習がランダムフォレストである場合、検証で算出されるfeature importance valuesに基づいて特徴量を抽出する。つまりfeature importance valuesの高い順に複数のバイオマーカーを抽出することにより、体に生じるイベントとの関連がより強いバイオマーカーを抽出することができる。ここで複数とは、2以上である限り制限されない。例えば、複数は、3、5、10、15、20、23、25、30、40、50、100等を意図する。

0052

訓練データは、ディスカバリコホートとして使用したコホートや、ステップS2でバリデーションコホートとして使用したコホートであってもよいが、異なるコホートであってもよい。最終的に生成される判別器の汎化性能、及び/又は適用可能性を向上させるためには、ディスカバリコホートやステップS2で使用したバリデーションコホートと異なるコホートを訓練データとして使用することが好ましい。

0053

図7に示す典型例では、訓練データとしてWhole METABRIC cohort [Pereira, B. et al. Nature communications 7, 11479, doi:10.1038/ncomms11479 (2016)及びCurtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012)を使用する。

0054

検証に用いるコホートは、訓練データとは異なるコホートから選択することが好ましい。コホートが1つである場合には、このコホートを2群に分け、一方を訓練データ、もう一方を検証用のコホートとしてもよい。また異なるコホートから選択してもよい。好ましくは、検証に用いるコホートは、訓練データと異なるコホートから選択される。

0055

次に、処理部101は、ステップS32において、図2に示すように、ステップS31で抽出された特徴量について検証を行う。検証は、体に生じるイベントとの関連性が最も強い特徴量が見つかるまで繰り返される(ステップS33)。このようにして、体に生じるイベントとの関連性がさらに強い特徴量(バイオマーカー群)を第2の亜集団から抽出する(ステップS34)。

0056

検証に訓練データと同じコホートから選択されたコホートを使用する場合、検証の方法として、ホールドアウト法、1個抜き交差検証(leave−one−out cross−validation:LOOCV)等のクロスバリデーション及び混合行列等を採用することができる。好ましくは、クロスバリデーションである。クロスバリデーションは、例えば10分割交差検証等を採用することができる。これらの解析は、Python(3.6.2)等を使用して行うことができる。

0057

図7に示す典型例では、検証には10分割交差検証を使用する。

0058

斯くして、処理部101は、体に生じるイベントとさらに関連性の強い第3の亜集団を抽出することができる。
図7に示す典型例で抽出された遺伝子は、図11−1aに示す23遺伝子である。

0059

(4)ステップ4
ステップ4では、第3の亜集団に属するバイオマーカーについて、訓練データをニューラルネットワークに入力し、深層学習法により第3の亜集団に属する各バイオマーカーの重み(「Weight」又は「wi」で表すことがある。iは各バイオマーカーを示す。)を算出する。

0060

深層学習法は、各バイオマーカーの重みを算出できる限り制限されない。例えば、勾配降下法、確率的勾配法、順伝播型ニューラルネットワーク、自己符号化器、誤差伝播法、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、及びボルツマンマシン等を挙げることができる。好ましくは、勾配降下法である。深層学習は、PythonベースのTensorFlowライブラリ等を使用して行うことができる。

0061

図7に示す典型例では、各遺伝子の交差エントロピーによる損失関数を規定し、各遺伝子の重み“Gene_Weight”を勾配降下法により算出する[Kourou, K., et al. Computational and structural biotechnology journal 13, 8-17,doi:10.1016/j.csbj.2014.11.005 (2015)]。

0062

ステップ4で使用する訓練データは、ステップ3で使用した訓練データと同じであっても異なっていてもよい。また、ステップ4で使用する訓練データは、ディスカバリコホートとして使用したコホートや、ステップS2でバリデーションコホートとして使用したコホートであってもよい。

0063

判別器は、前記数1に示すように、第3の亜集団に属する各バイオマーカーのスコアに深層学習で算出した重みを乗じ、乗算値の総和を求める関数である。

0064

各バイオマーカーのスコアは、第3の亜集団に属する各バイオマーカーの測定値と、体に生じるイベントとを紐付けする値である。前記紐付けする値は、例えば「0」と「1」のような二値化データである。例えば、体に生じるイベントが生存率で表される場合、バイオマーカーの測定値が中央値より高い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より高い場合に“Gene_Score”として“1”が付与され、各バイオマーカーの測定値が中央値より低い場合に“Gene_Score”として“0”が付与される。バイオマーカーの測定値が中央値より低い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より低い場合に“Gene_Score”として“1”が付与され、各バイオマーカーの測定値が中央値より高い場合に“Gene_Score”として“0”が付与される。この態様を以下においてスコアパターン1と呼ぶ。

0065

このスコアを、判別器に入力することにより、重み付け和を算出することができる。
前記判別器を使用した重み付け和を分子予後予測スコア(molecular prognostic score:mPS)とよぶ。

0066

図7に示す典型例では、判別器は、各患者の乳がん組織における図11−1aに示す23遺伝子の“Gene_Score”の重み付け和とした。すなわち、下式で表される。

0067

0068

(式中、wは“Gene_Weight”を表し、GSは、“Gene_Score”を示し、nは23であり、iは各バイオマーカーを示し、wi*GSiは各バイオマーカーの重みとスコアの積を表す。23は、図11−1aに示す23遺伝子を示す。)

0069

スコアパターン1に基づくスコアを用いた場合、生存率が良好なほどmPS値は小さな値を示す。また、スコアパターン1に基づくスコアを用いた場合、生存率が不良なほどmPS値は大きな値を示す。

0070

また、別の態様として、例えば、体に生じるイベントが生存率で表される場合、バイオマーカーの測定値が中央値より高い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より高い場合に“Gene_Score”として“0”が付与され、各バイオマーカーの測定値が中央値より低い場合に“Gene_Score”として“1”が付与される。バイオマーカーの測定値が中央値より低い場合に予後が不良となる可能性があるバイオマーカーに関しては、各バイオマーカーの測定値が中央値より低い場合に“Gene_Score”として“0”が付与され、各バイオマーカーの測定値が中央値より高い場合に“Gene_Score”として“1”が付与される。この態様を以下においてスコアパターン2と呼ぶ。

0071

スコアパターン2に基づくスコアを用いた場合、生存率が良好なほどmPS値は大きな値を示す。また、スコアパターン2に基づくスコアを用いた場合、生存率が不良なほどmPS値は小さな値を示す。

0072

ここで判別器は、図1に記載するステップS3を経ずに、第2の亜集団のバイオマーカーの測定値に対して、ステップS4を行って生成してもよい。

0073

生成された判別器は、後述する各装置の記憶部に記憶されてもよく、各出力部から出力されてもよい。また、後述する記憶媒体に記憶されてもよく、通信I/F105を介してネットワーク送信されてもよい。

0074

(5)ステップ5
ステップ5は、任意のステップである。ステップ5では、ステップ4で生成した判別器が、コホートの種類、疾患のサブタイプ、被検体の年齢等によって群分けされたコホートを問わず適用可能であるか、検証するステップである。

0075

疾患のサブタイプは、例えば、がんの臨床ステージクラス分類(図18aに示すA、B、C、D、E、F−I、及びF−II)、臨床ステージ(がんであればTNM分類;乳がんであれば、ステージI、II、III等)、病理組織学的なグレード(低分化型、中分化型高分化型等)、組織型[乳がんであれば、浸潤性腺管がん(invasive ductal carcinoma:IDC)、浸潤性小葉がん(invasive lobular carcinoma:ILC)、及びIDCとILCが混合したMDLC等]である。

0076

また年齢等による群分けは、例えば、若年層(50歳未満)、熟年層(50歳以上、70歳未満)及び高齢層(70歳以上)のように群分けすることができる。

0077

群分けされた各コホートについて、各バイオマーカーの測定値と、体に生じるイベントとの相関を統計学的に検証することにより、判別器の汎化性能、及び/又は適用可能性等を検証することができる。相関を求める方法は、公知である。

0078

生成された判別器は、ハードディスクフラッシュメモリ等の半導体メモリ素子光ディスク等の記憶媒体に記憶されてもよい。前記記憶媒体へのプログラム記憶形式は、処理部101、処理部201、又は処理部301が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

0079

生成された判別器は、被検体の体に生じるイベントを評価するために使用することができる。

0080

2.判別器を生成するための装置
本開示は、判別器を生成するための装置10(判別器生成装置10とも呼ぶ)に関する。判別器生成装置10は、少なくとも処理部101を備え、前記処理部101は、上記1.、図1又は図2に記載のステップにしたがって、上記1.で述べた判別器を生成する。

0081

図3に、判別器生成装置10のハードウェアの構成を示す。また、図4に判別器生成装置10のブロック図を示す。判別器生成装置10は、入力部111と、出力部112と、記憶媒体113とに接続されていてもよい。

0082

判別器生成装置10において、処理部101と、主記憶部102と、ROM(read only memory)103と、補助記憶部104と、通信インタフェース(I/F)105と、入力インタフェース(I/F)106と、出力インタフェース(I/F)107と、メディアインターフェース(I/F)108は、バス109によって互いにデータ通信可能に接続されている。主記憶部102と補助記憶部104とを合わせて、単に記憶部と呼ぶこともある。記憶部は、生成された判別器、mPSの基準値又は基準範囲、各患者のバイオマーカーの測定値、及び各患者のmPSを揮発性に、又は不揮発性に記憶する。

0083

処理部101は、判別器生成装置10のCPUである。処理部101は、GPUであってもよい。処理部101が、補助記憶部104又はROM103に記憶されているコンピュータプログラムを実行し、取得されるデータの処理を行うことにより、判別器生成装置10が機能する。

0084

ROM103は、マスクROMPROMEPROM、EEPROMなどによって構成され、処理部101により実行されるコンピュータプログラム及びこれに用いるデータが記録されている。処理部101はMPU101としてもよい。ROM103は、判別器生成装置10の起動時に、処理部101によって実行されるブートプログラムや判別器生成装置10のハードウェアの動作に関連するプログラムや設定を記憶する。

0085

主記憶部102は、SRAM又はDRAMなどのRAM(Random access memory)によって構成される。主記憶部102は、ROM103及び補助記憶部104に記録されているコンピュータプログラムの読み出しに用いられる。また、主記憶部102は、処理部101がこれらのコンピュータプログラムを実行するときの作業領域として利用される。

0086

補助記憶部104は、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等によって構成される。補助記憶部104には、オペレーティングシステム及びアプリケーションプログラムなどの、処理部101に実行させるための種々のコンピュータプログラム及びコンピュータプログラムの実行に用いる各種設定データが記憶されている。具体的には、基準値等を不揮発性に記憶する。

0087

通信I/F105は、USB、IEEE1394、RS−232CなどのシリアルインタフェースSCSI、IDE、IEEE1284などのパラレルインタフェース、及びD/A変換器、A/D変換器などからなるアナログインタフェースネットワークインタフェースコントローラ(Network interface controller:NIC)等から構成される。通信I/F105は、処理部101の制御下で、測定部30又は他の外部機器からのデータを受信し、必要に応じて判別器生成装置10が保存又は生成する情報を、測定部30又は外部に送信又は表示する。通信I/F105は、ネットワークを介して測定部30又は他の外部機器と通信を行ってもよい。

0088

入力I/F106は、例えばUSB、IEEE1394、RS−232Cなどのシリアルインタフェース、SCSI、IDE、IEEE1284などのパラレルインタフェース、及びD/A変換器、A/D変換器などからなるアナログインタフェースなどから構成される。入力I/F106は、入力部111から文字入力クリック音声入力等を受け付ける。受け付けた入力内容は、主記憶部102又は補助記憶部104に記憶される。

0089

入力部111は、タッチパネルキーボード、マウス、ペンタブレットマイク等から構成され、判別器生成装置10に文字入力又は音声入力を行う。入力部111は、判別器生成装置10の外部から接続されても、判別器生成装置10と一体となっていてもよい。

0090

出力I/F107は、例えば入力I/F106と同様のインタフェースから構成される。出力I/F107は、処理部101が生成した情報を出力部112に出力する。出力I/F107は、処理部101が生成し、補助記憶部104に記憶した情報を、出力部112に出力する。

0091

出力部112は、例えばディスプレイプリンター等で構成され、測定部30から送信される測定結果及び判別器生成装置10における各種操作ウインドウ分析結果等を表示する。

0092

メディアI/F108は、記憶媒体113に記憶された例えばアプリケーションソフト等を読み出す。読み出されたアプリケーションソフト等は、主記憶部102又は補助記憶部104に記憶される。また、メディアI/F108は、処理部101が生成した情報を記憶媒体113に書き込む。メディアI/F108は、処理部101が生成し、補助記憶部104に記憶した情報を、記憶媒体113に書き込む。

0093

記憶媒体113は、フレキシブルディスクCD−ROM、又はDVD−ROM等で構成される。記憶媒体113は、フレキシブルディスクドライブ、CD−ROMドライブ、又はDVD−ROMドライブ等によってメディアI/F108と接続される。記憶媒体113には、コンピュータがオペレーションを実行するためのアプリケーションプログラム等が格納されていてもよい。

0094

処理部101は、判別器生成装置10の制御に必要なアプリケーションソフトや各種設定をROM103又は補助記憶部104からの読み出しに代えて、ネットワークを介して取得してもよい。前記アプリケーションプログラムがネットワーク上のサーバコンピュータの補助記憶部内に格納されており、このサーバコンピュータに判別器生成装置10がアクセスして、コンピュータプログラムをダウンロードし、これをROM103又は補助記憶部104に記憶することも可能である。

0095

また、ROM103又は補助記憶部104には、例えば米国マイクロソフト社が製造販売するWindows(登録商標)などのグラフィカルユーザインタフェース環境を提供するオペレーションシステムインストールされている。第2の実施形態に係るアプリケーションプログラムは、前記オペレーティングシステム上で動作するものとする。すなわち、判別器生成装置10は、パーソナルコンピュータ等であり得る。

0096

3.判別器を生成するためのコンピュータプログラム
本開示のある実施形態は、判別器を生成するためのコンピュータプログラムに関する。
前記コンピュータプログラムは、図1に記載のステップS1、ステップS2及びステップS4、好ましくはステップS1〜S5及び図2に記載のステップS31〜S34を処理部101に実行させる。

0097

さらに、本開示のある実施形態は、前記コンピュータプログラムを記憶した、記憶媒体に関する。すなわち、前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。前記記憶媒体へのプログラムの記憶形式は、処理部101が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

0098

4.患者の生存率の予測方法
本開示のある実施形態は、患者の生存率の予測方法に関する。本実施形態においては、上記1.の方法にて生成された判別器を用いて、患者の所定期間後の生存率を予測する。患者が罹患している疾患は、特に制限されないが、好ましくは、がんであり、より好ましくは、乳がんである。

0099

患者の所定期間後の生存率の予測は、患者のmPS値を基準値と比較することにより行うことができる。判別器に入力されるスコアがスコアパターン1である場合、具体的には、判別器により求められた各患者のmPSの値をその基準値と比較して、患者のmPSが基準値よりも大きい場合には、患者の所定期間後、好ましくは10年後、又は20年後の生存率が不良であると決定することができる。また、患者のmPSが基準値以下である場合には、患者の所定期間後、好ましくは10年後、又は20年後の生存率が良好であるであると決定することができる。また、判別器に入力されるスコアがスコアパターン2である場合、具体的には、判別器により求められた各患者のmPSの値をその基準値と比較して、患者のmPSが基準値よりも小さい場合には、患者の所定期間後、好ましくは10年後、又は20年後の生存率が不良であると決定することができる。また、患者のmPSが基準値以上である場合には、患者の所定期間後、好ましくは10年後、又は20年後の生存率が良好であるであると決定することができる。

0100

本実施形態は、患者における疾患の病変部位から採取された組織又は細胞を含む検体、又は、血液試料(全血、血漿、及び血清等を含む)、尿、髄液、腹水、及び胸水等の疾患の状態を反映する生体内物質が含まれる検体から、バイオマーカーの測定値を取得する工程を含んでいてもよい。バイオマーカーの測定値の取得は、公知の方法により行うことができる。バイオマーカーが遺伝子である場合、バイオマーカーの測定値は、例えば、定量的RT−PCR法又はRNA−Seq法等により取得することができる。

0101

本実施形態は、判別器を用いて各患者のmPSの値を算出する工程を含んでいていてもよい。各患者について取得した、第2の亜種団、又は第3の亜集団に含まれる遺伝子群のバイオマーカーの測定値を上記1.に記載の方法に従って二値化し各遺伝子のスコアを決定する。処理部201は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のmPSを算出する。

0102

基準値は、患者の所定期間後の生存率が良好であること、及び/又は不良であることを判定できる値である限り制限されない。例えば、基準値は、所定期間後の生存率が良好である患者のmPSや、所定期間後の生存率が不良である患者のmPSから求めることができる。また別の態様として、基準値は、所定期間後の生存率が良好である患者群のmPSの上限値、所定期間後の生存率が不良である患者群の下限値としてもよい。また別の態様として、所定期間後の生存率が良好である患者群のmPS及び所定期間後の生存率が不良である患者群を合わせた集団の複数のmPSの中央値、平均値、最頻値等とすることができる。あるいは、基準値は、ROC曲線(Receiver Operatorating Characteristic curve、受信者動作特性曲線)、判別分析法、モード法、Kittler法、3σ法、p‐tile法等により算出してもよい。基準値は、あらかじめ決定されていることが好ましい。
本実施形態において、判別器、患者、がん、生存率、所定期間、mPS等、上記1.において使用されている用語については、上記1.の説明をここに援用する。

0103

5.患者の生存率を予測するための装置
本開示は、患者の生存率を予測するための装置20(生存率予測装置20とも呼ぶ)に関する。生存率予測装置20は、少なくとも処理部201を備える。生存率予測装置20の構成は、判別器生成装置10と同じであるため、上記2.の説明、図3及び図4は、ここに援用する。

0104

図3、又は図4において、判別器生成装置10、処理部101と、主記憶部102、ROM103と、補助記憶部104、通信インタフェース(I/F)105、入力インタフェース(I/F)106、出力インタフェース(I/F)107、メディアインターフェース(I/F)108、バス109、入力部111、出力部112、記憶媒体113は、それぞれ、処理部201と、主記憶部202、ROM203と、補助記憶部204、通信インタフェース(I/F)205、入力インタフェース(I/F)206、出力インタフェース(I/F)207、メディアインターフェース(I/F)208、バス209、入力部211、出力部212、記憶媒体213と読み替える。図5を用いて、生存率予測装置20の動作について説明する。ここでは、判別器に入力されるスコアがスコアパターン1である場合を例として説明する。

0105

はじめに、ステップS41において、処理部201は、入力部211からユーザによって入力された、第2の亜種団、又は第3の亜集団に含まれるバイオマーカーの測定値を各がん患者について取得する。あるいは入力部211からユーザによって入力された、処理開始の指示により、処理部201は、通信I/F205を介して、ネットワークから第2の亜種団、又は第3の亜集団に含まれるバイオマーカーの測定値を各患者について取得する。処理部201は、取得した各バイオマーカーの測定値を上記1.に記載の方法に従って二値化し各バイオマーカーのスコアを決定する。処理部201は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のmPSを算出する。

0106

次に処理部201は、ステップS42において、記憶部に記憶されているmPSの基準値と、各がん患者のmPSを比較する。ステップS43において、各患者のmPSが基準値よりも大きいか否かを判定する。

0107

ステップS43の判定がYESの場合には、患者の所定期間後の生存率は不良であると決定する(ステップS44)。また、ステップS43の判定がNOの場合には、患者の所定期間後の生存率は良好であると決定する(ステップS45)。

0108

判別器に入力されるスコアがスコアパターン2である場合には、ステップS43の判定がYESの場合には、ステップS44において患者の所定期間内、又は所定期間後の生存率は良好であると決定する。また、ステップS43の判定がNOの場合には、ステップS45において患者の所定期間内、又は所定期間後の生存率は不良であると決定する。

0109

次に処理部201は、ステップS46において、判定結果を出力部212に出力する。また、図示しないが、判定結果を補助記憶部204に記憶してもよい。

0110

本実施形態において、上記1.、2.及び4.と共通する用語の説明は、上記1.、2.及び4.に記載をここに援用する。

0111

6.がん患者の生存率を予測するためのコンピュータプログラム
本開示のある実施形態は、がん患者の生存率を予測するためのコンピュータプログラムに関する。

0112

前記コンピュータプログラムは、図5に記載のステップS41〜S46を処理部201に実行させる。

0113

さらに、本開示のある実施形態は、前記コンピュータプログラムを記憶した、記憶媒体に関する。すなわち、前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。前記記憶媒体へのプログラムの記憶形式は、処理部201が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

0114

7.がん患者の層別化を補助する方法
本開示のある実施形態は、生存率に基づいて、がん患者の層別化を補助する方法に関する。

0115

本実施形態においては、上記1.で生成された判別器を用いて算出されたmPSを使って、がん患者の所定期間後の生存率に基づいてがん患者を層別化することを補助する。具体的には、判別器により求められた各がん患者のmPSの値をその基準範囲と比較して、各がん患者のmPSの値がどの分位に分類されるかを決定することにより、がん患者を層別化する。

0116

本実施形態は、具体的には、がん患者における疾患の病変部位から採取された組織又は細胞を含む検体、又は、血液試料(全血、血漿、及び血清等を含む)、尿、髄液、腹水、及び胸水等の疾患の状態を反映する生体内物質が含まれる検体から、バイオマーカーの測定値を取得する工程を含んでいてもよい。バイオマーカーの測定値の取得は、公知の方法により行うことができる。バイオマーカーが遺伝子である場合、バイオマーカーの測定値は、例えば、定量的RT−PCR法又はRNA−Seq法等により取得することができる。また、判別器を用いて各患者のmPSの値を算出する工程を含んでいてもよい。各患者について取得した、第2の亜種団、又は第3の亜集団に含まれるバイオマーカーの測定値を上記1.に記載の方法に従って二値化し各遺伝子のスコアを決定する。処理部301は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のmPSを算出する。

0117

基準範囲は、例えば、第1分位がmPS=0〜5、第2分位がmPS=5〜11、第3分位がmPS=11〜25、第4分位がmPS=25〜36、第5分位がmPS=36〜45、第6分位がmPS=45〜50のように設定することができる。スコアパターン1の場合、第1分位から第6分位に向かって所定期間後の生存率は不良となるため、各患者の生存率を段階的に予測することが可能である。スコアパターン2の場合、第1分位から第6分位に向かって所定期間後の生存率は良好となるため、各患者の生存率を段階的に予測することが可能である。

0118

また、基準範囲は、疾患ががんの場合、がんの組織型、臨床ステージ毎、病理組織グレード毎、又は年齢層毎等のカテゴリーに応じて決定されていてもよい。この場合、層別化を補助する方法には、さらに、前記カテゴリーに応じて、がんの組織型、臨床ステージ、病理組織グレード、及び年齢層の情報を取得することが含まれる。これらの情報は、入力部311からのユーザによる入力、電子カルテとの紐付け等により処理部301が取得することができる。基準範囲は、あらかじめ決定されていることが好ましい。

0119

本実施形態において、判別器、がん、生存率、所定期間、mPS、組織型、がんのサブタイプ、臨床ステージ、病理組織グレード、及び年齢層等、上記1.において使用されている用語については、上記1.の説明をここに援用する。

0120

8.患者を層別化するための装置
本開示は、患者を層別化するための装置30(層別化装置30とも呼ぶ)に関する。層別化装置30は、少なくとも処理部301を備える。層別化装置30の構成は、判別器生成装置10と同じであるため、上記2.の説明、図3及び図4は、ここに援用する。

0121

図3、又は図4において、判別器生成装置10、処理部101と、主記憶部102、ROM103と、補助記憶部104、通信インタフェース(I/F)105、入力インタフェース(I/F)106、出力インタフェース(I/F)107、メディアインターフェース(I/F)108、バス109、入力部111、出力部112、記憶媒体113は、それぞれ、処理部301、主記憶部302、ROM303と、補助記憶部304、通信インタフェース(I/F)305、入力インタフェース(I/F)306、出力インタフェース(I/F)307、メディアインターフェース(I/F)308、バス309、入力部311、出力部312、記憶媒体313と読み替える。
図6を用いて、層別化装置30の動作について説明する。

0122

はじめに、ステップS51において、処理部301は、入力部311からユーザによって入力された、第2の亜集団、又は第3の亜集団に含まれるバイオマーカーの測定値を各患者について取得する。あるいは入力部311からユーザによって入力された、処理開始の指示により、処理部301は、通信I/F305を介して、ネットワークから第2の亜種団、又は第3の亜集団に含まれるバイオマーカーの測定値を各患者について取得する。処理部301は、取得した各バイオマーカーの測定値を上記1.に記載の方法に従って二値化し各バイオマーカーのスコアを決定する。処理部301は、各遺伝子のスコアを記憶部に記憶されている判別器に入力し、各患者のmPSを算出する。

0123

次に処理部301は、ステップS52において、記憶部に記憶されているmPSの基準範囲と、各患者のmPSを比較する。ステップS53において、患者が、その患者のmPSが属する分位の生存率であると決定する。

0124

次に処理部301は、ステップS54において、判定結果を出力部312に出力する。また、図示しないが、判定結果を補助記憶部304に記憶してもよい。

0125

本実施形態において、上記1.、2.及び7.と共通する用語の説明は、上記1.、2.及び7.に記載をここに援用する。

0126

9.患者を層別化するためのコンピュータプログラム
本開示のある実施形態は、がん患者を層別化するためのコンピュータプログラムに関する。

0127

前記コンピュータプログラムは、図6に記載のステップS51〜S54を処理部301に実行させる。

0128

さらに、本開示のある実施形態は、前記コンピュータプログラムを記憶した、記憶媒体に関する。すなわち、前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。前記記憶媒体へのプログラムの記憶形式は、処理部301が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。

0129

10.バイオマーカー
本開示のある実施形態は、表1−1及び表1−2に記載の遺伝子から選択される少なくとも一種の遺伝子を、乳がん患者における生存率を予測するためのバイオマーカーとして使用することに関する。好ましくは、前記バイオマーカーには、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない。より好ましくは、FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3よりなる群から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)を、乳がんの生存率を予測するためのバイオマーカーとして使用する。前記遺伝子群から選択される少なくとも一種の遺伝子に由来するmRNA及び/又はタンパク質の発現量をバイオマーカーとして使用する。

0130

11.検査試薬
本開示のある実施形態は、表1−1及び表1−2に記載の遺伝子から選択される少なくとも一種の遺伝子に由来するmRNA、又はタンパク質の発現量を検出するためのプローブ、プライマー、又は抗体を含む、乳がん患者の生存率を予測するために使用される検査試薬に関する。好ましくは、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない。より好ましくは、FOXM1、CPT1A、GARS、MARS、UTP23、ANLN、HMGB3、ATP5B、APOOL、CYB561、GRHL2、ESRP1、EZR、RBBP8、CIRBP、PTGER3、LAMA3、OARD1、ANKRD29、EGR3、DIRAS3、MITD1及びLAMB3よりなる群から選択される少なくとも一種(ただし、ANLN、FOXM1、RBBP8又はこれらの遺伝子の組み合わせのみの態様は含まない)である。本検査試薬は、RT−PCR法、マイクロアレイ法、RNA−Seq法、ELISA法、ウエスタンブロッティング法等に使用できる限り制限されない。

0131

検査試薬は、検査試薬と、前記検査試薬を反応させるための酵素ハイブリダイゼーション若しくは抗原抗体反応を行うための反応液取扱説明書、又は取扱説明書の掲載されたWebページのURLあるいはQRコード(登録商標)を示した紙媒体とを含む乳がん患者の生存率を予測するために使用される検査キットを構成してもよい。

0132

以下に実施例を示して、本開示についてより詳しく説明する。しかし、本開示は実施例に限定して解釈されるものではない。

0133

I.判別器の生成
<コホート>
判別器を生成するため、複数の公知の乳がんコホートを使用した。今回の検討に使用するコホートからは転移のある患者はほとんどいなかった。

0134

ディスカバリコホートとしてTCGAコホートを使用した。TCGAコホートは、cBioPortal [Cerami, E. et al. Cancer Discov. 2, 401-404, doi:10.1158/2159-8290.cd-12-0095 (2012)]から、TCGA breast cancer datasetのGISTEC-based copy number alterrarions (CNAs) cohort [n=958; Curtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012);以下、「TCGAコホート」と呼ぶ]をダウンロードした。GISTECは、Mermel, C. H. et al. Genome Biol. 12, R41, doi:10.1186/gb-2011-12-4-r41(2011)を参照することができる。cBioPortalには、乳がん組織における各遺伝子に由来するmRNAの発現量(RNA-seqによる解析結果)が登録されている。

0135

ステップ2で使用するバリデーションコホートとして、multicenter combined breast cancer cohorts [n=5844; Abdel-Fatah, T. M. A. et al. The Lancet. Oncology 17, 1004-1018, doi:10.1016/s1470-2045(16)00174-1 (2016);以下、「multicenterコホート」と呼ぶ]を使用した。

0136

ステップ3で使用する訓練データとして、Whole METABRIC cohort [n=1904; Pereira, B. et al. Nature communications 7, 11479, doi:10.1038/ncomms11479 (2016)及びCurtis, C. et al. Nature 486, 346-352, doi:10.1038/nature10983 (2012);以下、「METABRICコホート」と呼ぶ]を使用した。METABRICコホートは、TCGAコホートからは、独立している。

0137

各コホートの内訳を表2に示す。

0138

0139

遺伝子リスト
ヒト遺伝子リストは、HUGO Gene Nomenclature Committee (HGNC)から取得した。

0140

解析方法
cBioPortalからのデータのダウンロードには、cBioPortalが提供するCGDS-R package及びWebAPIsを使用した。機械学習のランダムフォレストアプローチには、n_estimators(= 500)、max_depth(= 10)を除いて、パラメータデフォルトとしたPythonベースのscikit-learnライブラリを使用した。ニューラルネットワーク解析にも、PythonベースのTensorFlowライブラリを使用した。他の解析は、Anaconda distributionにおいて構築された、カスタムスクリプトで書かれたPython(3.6.2)を使用した。

0141

<統計解析>
Kaplan-Meier plotsはR (survival package)を使用して作成し、Python (lifelines package)を使用してバリデーションを行った。各遺伝子の低発現群と高発現群を分けるカットオフ値には中央値を使用した。本実施例において、低発現を上付文字“low”、高発現を上付文字 “high”で表すことがある。分子予測スコア[molecular prognostic score (mPS)]のバリデーションは、特に断りのない限り、10年後まででデータを打ち切った。図8eに示すmeta-analysisを除き、いずれの場合も、生存期間は、診断日から死亡日までとした。生存率の比較はLog-rank検定で行った。meta-analysis は、R survival package を使用し、Cox回帰を用いたハザード比(HR)とその95%信頼区間(CIs)を推定した。
有意差の有無は、ディスカバリコホート(図8)を除いて両側検定のp値0.05で決定され、候補遺伝子数を減らすためのカットオフは0.01とした。

0142

<判別器生成ステップ>
図7に、複数のコホートから、がんの予後を予測するための判別器を生成するまでの概要を示す。

0143

判別器の生成方法は、大きく分けて以下の5つのステップを含む。
ステップ1:候補遺伝子の抽出
ステップ2:候補遺伝子の検証
ステップ3:機械学習による特徴量抽出
ステップ4:深層学習による判別器の構築
ステップ5:判別器の検証
各ステップについて説明する。

0144

1.ステップ1
ステップ1では、TCGAコホートをダウンロードし、このRNAのリード数(発現量)に基づいて、乳がん患者における10年後の生存率と関連する遺伝子の候補の探索を行った。このディスカバリコホートの年齢の中央値は、59歳(IQR 49-68)であった。

0145

各遺伝子について、コホートをRNAのリード数の中央値で2つのグループ(低発現群および高発現群)に分けた。そして、全遺伝子について低発現群及び高発現群のKaplan-Meier Plotによる10年間の生存曲線を生成した。

0146

次に、この生存曲線について、Log-rank検定による有意差を求め、p値に基づいて生存率の不良と関連する可能性のある候補遺伝子を抽出した。その結果、286遺伝子が候補として抽出された。候補の遺伝子の例として、図8のa、b、c及びdにそれぞれPGK1、TMEM65、BEND5、及びENOSF1のKaplan-Meier Plotを示す。PGK1、及びTMEM65は、低発現群よりも高発現群において乳がんの生存率が悪かった例である。BEND5、及びENOSF1は、高発現群よりも低発現群において乳がんの生存率が悪かった例である。図8のa、b、c及びdにおいて符号Hは高発現群を、符号Lは低発現群を示す。

0147

2.ステップ2
ステップ2では、Log-rank検定によりピックアップされた286遺伝子について、バリデーションコホートとして、multicenterコホートを使用してmeta-analysisによるバリデーションを行い、184遺伝子をさらに候補遺伝子として抽出した(図8e)。抽出された遺伝子の中で、TMEM65、及びRILPL2は、multicenterコホートの中で、それぞれの発現量が最も高いHR(図9−1a)と、最も低いHR(図9−1b)を示し、乳がんの予後と最も関連性が強いと考えられる遺伝子であった。これらの遺伝子は、これまで、基礎的ながん研究でも臨床的ながん研究でも取り上げられていない遺伝子であった。

0148

次に乳がんの予後と関連性が強いと考えられる遺伝子の組み合わせは、TCGAコホートの中で244名に認められたTMEM65highかつDCTPP1highであった。この組み合わせの発現パターンを有するコホートでは、生存率が不良であった(図9−2c:HR=2.971)。

0149

また、TCGAコホートの中で272名に認められたUBA7lowかつENOSF1lowの組み合わせの発現パターンを有するコホートも、生存率が不良であった(図9−2d:HR=3.109)。 他の遺伝子のHR は、図10−1〜図10−4に示す。

0150

3.ステップ3
ステップ3では、ランダムフォレストにより、ステップ2で抽出された184遺伝子について特徴量抽出を行い、さらに乳がんの生存率と関連性の高い遺伝子を抽出した。訓練データとして、METABRICコホートからランダムに抽出したn=952のコホートを使用した。ランダムフォレストによって得られた結果をクロスバリデーションにより検証した。このようにして、乳がんの10年後の生存率を予測するための予測遺伝子として、図11−1aに示す23遺伝子を選別した。23遺伝子のうちの13遺伝子は、発現が中央値より高い場合に予後が不良となる可能性があり、10遺伝子は、発現が中央値より低い場合に予後が不良となる可能性がある。

0151

4.ステップ4
ステップ4では、ニューラルネットワークを使って、ステップ3で抽出された23遺伝子の重みを算出した。訓練データとして、ステップ3でも使用した、METABRICコホートからランダムに抽出したn=952のコホートを使用した。前記訓練データを使ったニューラルネットワークによる深層学習により、各遺伝子の交差エントロピーによる損失関数を規定し、各遺伝子の重み“Gene_Weight”を勾配降下法により算出した[図12: Kourou, K., et al.Computational and structural biotechnology journal 13, 8-17,doi:10.1016/j.csbj.2014.11.005 (2015)]。

0152

図11−1aに示す23遺伝子の発現量を予後と結びつけスコアリングするために “Gene Score”を設定した。具体的には、発現が中央値より高い場合に予後が不良となる可能性がある遺伝子に関しては、患者の乳がん組織における各遺伝子の発現が中央値より高い場合に“Gene_Score”として“1”が付与され、患者の乳がん組織における各遺伝子の発現が中央値より低い場合に“Gene_Score”として“0”が付与される。発現が中央値より低い場合に予後が不良となる可能性がある遺伝子に関しては、患者の乳がん組織における各遺伝子の発現が中央値より低い場合に“Gene_Score”として“1”が付与され、患者の乳がん組織における各遺伝子の発現が中央値より高い場合に“Gene_Score”として“0”が付与される。

0153

次に、図11−1aに示す23遺伝子の発現量に基づいて各患者の乳がんの予後をスコアリングするための判別器を構築した。本明細書において、前記判別器を使用したスコアを分子予後予測スコア(molecular prognostic score:mPS)と呼ぶ。

0154

判別器は、各患者の乳がん組織における図11-1aに示す23遺伝子の“Gene_Score”の重み付け和とした。すなわち、下式で表される。

0155

0156

(式中、wは“Gene_Weight”を表し、GSは、“Gene_Score”を示し、nは23であり、iは各遺伝子を示し、wi*GSiは各バイオマーカーの重みとスコアの積を表す。23は、図11−1aに示す23遺伝子を示す。)

0157

この重み付け和において、mPSが0〜50の範囲に入るように“Gene_Weight”を設定した(図11−1a)。図11−2bに、METABRICコホートにおけるmPSの分布を示す。mPSの平均は24.973であり、四分位範囲は15.915-34.030であり、標準偏差は、11.297であった。

0158

<判別器の検証>
図11−2cに、乳がんのステージ分類と、mPS=0〜50までの範囲を6段階で分位した各分位におけるコホートの分布を示す。分位は第1分位がmPS=0〜5(以下、図面において符号「1st」で表す)、第2分位がmPS=5〜11(以下、図面において符号「2nd」で表す)、第3分位がmPS=11〜25(以下、図面において符号 「3rd」で表す)、第4分位がmPS=25〜36(以下、図面において符号「4th」で表す)、第5分位がmPS=36〜45(以下、図面において符号「5th」で表す)、第6分位がmPS=45〜50(以下、図面において符号「6th」で表す)である。また、図11−2cにおいて、符号S1は乳がんステージIを、符号S2は乳がんステージIIを、符号S3は乳がんステージIIIを示す。
図11−2cに示すように、mPSは、臨床ステージと良好な相関を示した。

0159

図11−3dにMETABRICコホートのmPSの第1分位から第6分位の各分位に属するコホートの生存率を示す。また、図11−3eにTCGAコホートのmPSの第1分位から第6分位の各分位に属するコホートの生存率を示す。どちらのコホートにおいても、mPSは生存率を層別化することが可能であった。mPSは、臨床的な情報がなくても乳がんコホートを生存率で層別化できることが示された。また、コホート種別を問わずコホートを層別化できたことから、前記判別器は、汎化性能が高いことが示された。

0160

また、数3に示す判別器は、全て公知データベースの情報を用いて生成していることから、データベースが存在しているがんであれば今回と同様の方法により、判別器を生成できると考えられた。

0161

II.mPS適用可能性の評価
前記判別器(数3)が、どのような乳がんのサブセットに適用可能であるか検証するため、以下の検討を行った。

0162

乳がんは、PAM50内因性サブタイプに基づいてLuminal A (LumA)、Luminal B(LumB)、HER2-enriched, Claudin-low, Normal-like, and Basal-likeのサブタイプに分類される。そこで、乳がんの各サブタイプで分類されたコホートの各群において、前記判別器が生存率でコホートを層別化できるか検討した。その結果を図13-1a: METABRICコホート・HER2-enriched (n=220)、図13−1b: METABRICコホート・Claudin-low (n=199)、図13−2c: METABRICコホート・Normal-like (n=140)に示す。HER2-enriched、Claudin-low、及びNormal-like においても、mPSは生存率と良好な相関を示した。このことから、前記判別器は、様々な乳がんのサブタイプに適用できる可能性が示された。

0163

また、乳がんの治療において、閉経前の、例えば50歳未満のコホートに対する治療選択と、高齢、例えば70歳を超えるコホートに対する治療選択とが異なる場合がある。そこでコホートを年齢層で分類し、前記判別器が生存率でコホートを層別化できるかMETABRICコホートを用いて検討した。図13−2d:METABRICコホート・< 50 years old、図14a:METABRICコホート・50s and 60s、図14b : METABRICコホート・older than 70 yearsに示すように、50歳未満のコホート、50歳代及び60歳代のコホート、及び高齢(70歳以上)のコホートにおいてもmPSは生存率と相関を示した。また、さらに、50歳未満のコホートについては、20年後の生存率についても追跡し、前記判別器が生存率でコホートを層別化できるか検討した。図14c: METABRIC,younger than 50 years (n=411)に示すように、mPSが高値のコホートでは、20年後の生存率においてmPSが低値のコホートよりも予後が不良であることが示された。このことから、前記判別器は、様々な年齢層において、またフォローアップ期間を長くしても、コホートを正確に層別化できることが示された。

0164

組織学的な乳がんのサブタイプの分類において、ほとんどの乳がん組織は、浸潤性腺管がん(invasive ductal carcinoma:IDC)に分類される。図15a: METABRIC, IDC (n=1,500)に示すように浸潤性腺管がんのコホートにおいてもmPSは生存率と良好な相関を示した。2番目頻度が高い組織学的な乳がんのサブタイプは、浸潤性小葉がん(invasive lobular carcinoma:ILC)及びIDCとILCが混合したMDLCである。そして、ILC及びMDLCは、病理組織学的には、IDCと全く異なる。そこでこれらのサブタイプのコホートについても前記判別器の適用可能性を検討した。図13−3e: METABRIC, ILC (n=141)及び図15b: METABRIC, MDLC (n=87)に示すように、ILCコホート及びMDLCコホートにおいても、mPSは生存率と良好な相関を示した。このことから、前記判別器は、様々な乳がんの病理組織学的なサブタイプに適用できる可能性が示された。

0165

乳がんの組織学的なサブタイプは、組織所見から診断される悪性度によっても分類される。悪性度は、がん組織を構成する細胞の分化度に応じて、G1(Gread 1:高分化型)、G2(Gread 2:中分化型)、及びG3(Grade 3:低分化型)の3つのグレードに分類される。そこで、これらのグレードに応じてコホートを分類し、分類後の各グレードのコホートについて、mPSと生存率の相関を検討した。その結果を、図15−2c: METABRIC, Grade 1 (n=165)、 図13−3f: METABRIC, Grade 2 (n=740)及び図15−2d: METABRIC, Grade 3 (n=927)に示す。mPSは、いずれのグレードにおいても、生存率とよく相関していた。このことから、前記判別器は、様々なグレードの乳がんに適用できる可能性が示された。

0166

一般的にがんの進行度(ステージ)を示す分類には、乳がんに限らずTNM分類が適用される。しかし、TNM分類は上述した様々ながんのサブタイプに関わらずがんの進行度を組織学的所見やリンパ節への転移等の情報から分類する手法である。TNM分類は、学術的に決定された手法により、乳がん組織をステージI〜VIに分類する。例えば、TNM分類において進行度が最も軽いとされるステージIの患者であっても、上述した各サブタイプとは独立して、TNM分類の基準に基づいて進行度が判断されるため、グレードがん組織の悪性度とは異なる結果になる可能性もある。
そこで、TNM分類とmPSがどのような関係になるか検討した。

0167

METABRICコホートにおいて、ステージIに分類されたコホートはn=475であり、ステージIに属する患者において、生存率10年を超えた各患者において、mPSは、約90%にあたる患者が11未満(10年後の生存率が良好)を示した。しかし、残る患者については、TNM分類ではステージIと分類されるにもかかわらずmPSが25を超え、10年後の生存率が低いという結果となった[図17−1a: METABRIC, Stage I]。

0168

METABRICコホートにおいて、ステージIIに分類されたコホートはn=800であり、ステージIIに属する患者において、mPSが5を下回った患者は非常に良好な生存率を示した。一方で、mPSが45を上回った患者において生存率は不良となった [図17-1b: METABRIC, Stage II]。

0169

METABRICコホートにおいて、ステージIIIに分類されたコホートはn=115であり、ステージIIIに属する患者において、mPSが25を下回った患者は比較的良好な生存率を示した。一方で、mPSが25を上回った患者は、生存率は不良となった [図17−2c: METABRIC, Stage III]。

0170

TCGAコホートについても同様に検討した。TCGAコホートのステージIIに分類されたコホートはn=545であり、METABRICコホートと同様の傾向を示した[図17−2d: TCGA, Stage II]。

0171

TCGAコホートについて、ステージI-IIIを全て含むコホートをmPSで3つに分位(第1分位:mPS 0-11、第2分位:mPS 11-36、及び第3分位:mPS 36-50)し、各ステージとの関係を検討した。図17−3e: TCGA, Stage I-III に示すように、ステージが上がるに従いmPSも上がり、生存率も不良となることが示された。
したがって、mPSは、ステージとも相関を示すことが証明された。

0172

次に、乳がんの予後予測因子であるNottingham Prognostic Index(NPI)とmPSとの関係を検証した。NPIは、原発腫瘍の大きさ、関与するリンパ節の数および腫瘍のグレードに基づいて計算される。METABRICコホートをNPIの5つのグループ[Excellent (NPI <2.41)、Good (2.41-3.4)、Moderate I (3.41-4.4)、Moderate II (4.41-5.4)、Poor(NPI>5.4)]に分類し、mPSとの関係を検討した。その結果、NPIは生存率においてヘテロジーナス(不均一)な群分けであることが明らかとなった。NPIのModerate II に分類されたコホートを図17−3fに示すが、Moderate II (n=408)だけみても、mPSは様々であり、生存率も様々であった。他のグループの結果を図16−1a: METABRIC, Excellent、図16−1b: METABRIC, Good、図16−2c: METABRIC, Moderate I及び図16−2d: METABRIC, Poorに示す。

0173

最後に、mPSに基づいて、新たなintegrated score(統合スコア)による乳がんの臨床ステージクラス分類を作成した。図18aに、がんの臨床ステージI〜IVをmPSの第1分位(mPS 0−5)〜第6分位(mPS 45−50)に基づき、A、B、C、D、E、F-I、及びF-IIの7つのクラスに分けた結果を示す。mPSの第1分位〜第6分位の分布は、臨床ステージクラス分類と非常によく一致していた。また、図18bにTCGAコホートとMETABRICコホートを合わせたn=2340のコホートにおける生存率を示す。臨床ステージクラス分類は、生存率とも良好な相関を示していた。

0174

以上のことから、mPSは、がん患者の所定期間内及び所定期間後の生存率を正確に反映していると結論づけられた。

実施例

0175

さらに、mPSは、integrated scoreによるがんの臨床ステージクラス分類、臨床ステージ、病理学的グレードとも良好な相関を示したことから、汎化性能も備えていることが示された。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社堀場製作所の「 エクソソーム表面分子を特定する方法」が 公開されました。( 2020/10/29)

    【課題・解決手段】本発明はエクソソーム表面分子に対する結合性分子が固相化された担体をカゼイン溶液またはカゼイン分解物溶液でブロックおよび洗浄すること、ならびに該担体とエクソソームを含む被験試料の接触前... 詳細

  • 株式会社資生堂の「 レチノイドの副作用に対する感受性の決定方法」が 公開されました。( 2020/10/29)

    【課題・解決手段】SNP解析により遺伝要素に基づいて対象のレチノイドの副作用に対する感受性を決定する方法、レチノイドの副作用に対する感受性を決定するコンピュータ、及び当該コンピュータを制御するプログラ... 詳細

  • 公立大学法人福島県立医科大学の「 大腸がんの予後バイオマーカー」が 公開されました。( 2020/10/29)

    【課題・解決手段】大腸がん患者の予後を予測するための、及び/又は大腸がん患者に対する抗がん剤の有効性を判定するためのバイオマーカーを提供する。GALNT6タンパク質若しくはそのペプチド断片、又はGAL... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ