図面 (/)

技術 3Dバッチ正規化を伴う三次元(3D)畳み込み

出願人 セールスフォースドットコムインコーポレイティッド
発明者 ソーチャー,リチャードション,カイミングタイ,カイ,ション
出願日 2018年12月6日 (1年0ヶ月経過) 出願番号 2018-228657
公開日 2019年4月18日 (7ヶ月経過) 公開番号 2019-061710
状態 未査定
技術分野 イメージ分析 放射線診断機器 学習型計算機
主要キーワード 特徴体 出力特徴 非線形活性 後処理層 後方パス 動作構成要素 データ処理エンジン 連結ネットワーク
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年4月18日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

計算機的に効率の良い、畳み込みニューラルネットワークCNN)内における3D画像分類および物体認識方法を提供する。

解決手段

サブネットワークモジュール装備した、3Dディープ畳み込みニューラルネットワークアーキテクチャー(DCNNA)を使用する。また、サブネットワークは3Dデータを、異なる3D畳み込み層経路によって3Dデータを並列処理の対象にすることによって複数のスケールで畳み込みする。加えて、サブネットワークのパフォーマンスはサブネットワークへの3D入力を正規化し、代わりに3D DCNNAの学習率を増加させる3Dバッチ正規化(BN)を行う。一連のサブネットワークモジュールに渡る数層の3D畳み込みおよび3Dによる3Dサブサンプリングの後、垂直次元が削減された特徴マップが3D放射線体積から生成され、1つ以上の全結合層へ提供される。

概要

背景

本章で議論する対象は、本章による言及の結果のみによって先行技術であると仮定されるべきではない。同様に、本章で提示されるまたは背景として提供される対象に関連する問題は、先行技術内で認められると仮定されるべきではない。本章の対象は異なるアプローチ表現するにすぎず、特許請求する技術の実施例にも関連してもよい。

開示される技術により、限られたメモリ計算機容量の中で膨大な量のデータを処理する必要がある、医療用画像などのビッグデータシナリオにおいても、畳み込みニューラルネットワークCNN)の利用が可能になる。既存のディープ畳み込みニューラルネットワーク(CNN)の主要な技術的課題は、多大な計算資源を必要とするということである。開示する技術によれば、この問題は、3Dディープ畳み込みニューラルネットワークアーキテクチャー(DCNNA)内に、3Dデータが演算負荷の高い操作の対象になる前に3Dデータへ次元削減操作を行う、いわゆるサブネットワークを追加することで解決される。また、サブネットワークは3Dデータに対して、異なる3D畳み込み層経路(例えば1x1x1畳み込み、3x3x3畳み込み、5x5x5畳み込み、7x7x7畳み込み)によって3Dデータを並列処理の対象にすることにより、複数のスケールで畳み込みを行う。このようなマルチスケール操作は直列の畳み込みを行う従来のCNNよりも計算機的に安価である。加えて、サブネットワークのパフォーマンスはサブネットワークへの3D入力を正規化し、代わりに3D DCNNAの学習率を増加させる3Dバッチ正規化(BN)によりさらに改善される。

機械学習は、明確にプログラミングされていなくとも学習を行う能力コンピューターに提供する、人工知能AI)のエリア研究分野である。静的プログラミングに対して、機械学習は、あるデータで訓練したアルゴリズムを、該データまたは別のデータに関する予測を生成するために使用する。ディープラーニングは、データの低レベル解析の層ごとに、該データの高レベル抽象化モデリングする機械学習の一形態である。近年、CNNにより画像分類および物体認識は大きく進歩した。畳み込みフィルター複数層を訓練することにより、サポートベクトルマシンSVM)、PCA線形判別分析(LDA)、ベイズインターパーソナル分類器などの多くの機械学習ツールの一般化の能力は、訓練の量が増えるに従い、素早く飽和する傾向にある。しかし、CNNは、異なる時刻において多数の様々な画像を用いて訓練する場合、従来の機械学習アルゴリズムと比較してより良いパフォーマンスをすることが判明した。CNNは物体認識において複雑な特徴を自動的に学習でき、手作業で作成した特徴よりも優れたパフォーマンスを達成する。

しかしながら、CNNは、それがないとネットワークが学習および印象的な認識パフォーマンスを実現することに失敗する、多量の訓練データを必要とする。このような多量のデータで訓練を行うには数千ものCPUコアおよび/またはGPUのような多大な計算資源が必要であり、それによりCNNの応用例は限定的なものとなり、モバイルや組み込み計算機には拡張不可能なものとなる。従って、ビッグデータの解析時に計算資源のパフォーマンスを向上させるCNNアーキテクチャーが必要とされる。

概要

計算機的に効率の良い、畳み込みニューラルネットワーク(CNN)内における3D画像分類および物体認識方法を提供する。サブネットワークモジュール装備した、3Dディープ畳み込みニューラルネットワークアーキテクチャー(DCNNA)を使用する。また、サブネットワークは3Dデータを、異なる3D畳み込み層経路によって3Dデータを並列処理の対象にすることによって複数のスケールで畳み込みする。加えて、サブネットワークのパフォーマンスはサブネットワークへの3D入力を正規化し、代わりに3D DCNNAの学習率を増加させる3Dバッチ正規化(BN)を行う。一連のサブネットワークモジュールに渡る数層の3D畳み込みおよび3Dによる3Dサブサンプリングの後、垂直次元が削減された特徴マップが3D放射線体積から生成され、1つ以上の全結合層へ提供される。

目的

機械学習は、明確にプログラミングされていなくとも学習を行う能力をコンピューターに提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ニューラルネットワークにおいて三次元(3D)データを分類するコンピューター実行方法であって、前記方法は、入力放射線体積特徴づける三次元(3D)データを受信することと、前記入放射線体積を特徴づける前記3Dデータを、前記ニューラルネットワークを使用して処理することであって、前記ニューラルネットワークは複数のサブネットワークを含み、前記サブネットワークは最低から最高まで連続で配置され、前記ニューラルネットワークを使用した前記3Dデータを処理することは、前記連続の中における前記サブネットワークのそれぞれを通して前記データを処理することを備え、前記サブネットワークのそれぞれは、前記連続の中における前のサブネットワークにより生成された前の出力表現を受信し、様々な畳み込み体積の複数の並列3D畳み込み層経路を通して前記前の出力表現を処理し、前記前の出力表現を並列プーリング経路を通してさらに処理し、前記3D畳み込み層経路および前記並列プーリング経路の出力を連結して各前記サブネットワークからの出力表現を生成するよう構成される、ことと、前記サブネットワークを通して前記データを処理することに続いて、最高の前記サブネットワークの出力をプーリング層および少なくとも一つの次元削減層を通して処理し、前記入力放射線体積の次元より削減された次元をもつ出力を生成することと、前記受信した3Dデータを、前記削減された垂直次元をもつ前記生成された出力に基づいて分類することと、を含む、方法。

請求項2

最初の3D畳み込み層経路は、前記3Dデータからセミグローバルな特徴を抽出する3x3の畳み込みである、請求項1に記載の方法。

請求項3

2つ目の3D畳み込み層経路は、前記3Dデータからグローバルな特徴を抽出する5x5の畳み込みである、請求項1または2に記載の方法。

請求項4

3つ目の3D畳み込み層経路は、前記3Dデータからローカルな特徴を抽出する1x1の畳み込みである、請求項1ないし3のうちいずれか一項に記載の方法。

請求項5

前記3Dデータは3Dモデルデータコンピューター支援設計のモデルデータ;または3Dの点群を表す、請求項1ないし4のうちいずれか一項に記載の方法。

請求項6

前記サブネットワークの3D畳み込み層経路の前記出力表現を3Dバッチ正規化によって状態を調整することであって、前記3Dバッチ正規化は、前記ニューラルネットワークによって生成される代替的な特徴体表現の各特徴へ独立して適用され、バッチごとに適用され、あるバッチ内の前記代替的な特徴体積表現に対して、前記3Dバッチ正規化により画像データ量スケール変更およびシフトが行われ、正規化された代替的な特徴体積表現は、画像データ量のゼロ平均と単位分散とを持つ、ことをさらに含む請求項1ないし5のうちいずれか一項に記載の方法。

請求項7

前記正規化された代替的な特徴体積表現を、パラメーター化された非線形活性化を通して、前記ニューラルネットワークの訓練が前記3Dバッチ正規化を減殺できるような学習可能なスケール変更およびシフトパラメーターによって、直ちに処理すること、をさらに含む請求項6に記載の方法。

請求項8

前記並列プーリング経路がMaxプーリング経路であり、前記プーリング層がMaxプーリング層である、請求項1ないし7のうちいずれか一項に記載の方法。

請求項9

ニューラルネットワークであって、当該ニューラルネットワークは:3Dデータを受信する前処理ネットワークと、連続で配置された複数のサブネットワークであって、前記複数のサブネットワークは前記前処理ネットワークからの出力を受け取る第一のサブネットワークと、前記複数のサブネットワークにおける前のサブネットワークからの出力を受け取る第二のサブネットワークとを含み、前記第一のサブネットワークは:前記前処理ネットワークからの出力を様々な畳み込み体積に基づいて処理するための複数の第一の3D畳み込み層経路と;前記複数の第一の3D畳み込み層経路と並列に前記前処理ネットワークからの出力を処理するための第一のプーリング経路と;前記複数の第一の3D畳み込み層経路および前記第一のプーリング経路からの出力を連結するための第一の連結ネットワークとを有しており、前記第二のサブネットワークは:前記前のサブネットワークからの出力を様々な畳み込み体積に基づいて処理するための複数の第二の3D畳み込み層経路と;前記複数の第二の3D畳み込み層経路と並列に前記前のサブネットワークからの出力を処理するための第二のプーリング経路と;前記複数の第二の3D畳み込み層経路および前記第二のプーリング経路からの出力を連結するための第二の連結ネットワークとを有しており、当該ニューラルネットワークはさらに、前記第二のサブネットワークの出力を処理して、前記入力放射線体積の次元より削減された次元をもつ出力を生成するためのプーリング層および少なくとも一つの次元削減層と;前記3Dデータを、前記プーリング層の出力に基づいて分類するための分類器と、を有する、ニューラルネットワーク。

請求項10

前記第一のプーリング経路がMaxプーリング経路であり、前記プーリング層がMaxプーリング層である、請求項9に記載のニューラルネットワーク。

請求項11

前記第一の3D畳み込み層経路のうちの第一のものが、前記3Dデータからセミグローバルな特徴を抽出する3x3の畳み込みである、請求項9または10に記載のニューラルネットワーク。

請求項12

前記第一の3D畳み込み層経路のうちの第二のものが、前記3Dデータからグローバルな特徴を抽出する5x5の畳み込みである、請求項9ないし11のうちいずれか一項に記載のニューラルネットワーク。

請求項13

前記第一の3D畳み込み層経路のうちの第三のものが、前記3Dデータからローカルな特徴を抽出する1x1の畳み込みである、請求項9ないし12のうちいずれか一項に記載のニューラルネットワーク。

請求項14

前記3Dデータは医療スキャンデータ;コンピューター支援設計(CAD)のモデルデータ;または3Dの点群を表す、請求項9ないし13のうちいずれか一項に記載のニューラルネットワーク。

請求項15

前記第二のサブネットワークの出力を、前記プーリング層に提供する前に、状態を調整するためのバッチ正規化層をさらに含み、前記3Dバッチ正規化層は、当該ニューラルネットワークによって生成される代替的な特徴体積表現の各特徴へ独立して適用され、バッチごとに適用され、あるバッチ内の前記代替的な特徴体積表現に対して、前記バッチ正規化層は、正規化された代替的な特徴体積表現が画像データ値のゼロ平均および単位分散を持つよう、画像データ値のスケール変更およびシフトを行う、請求項9ないし14のうちいずれか一項に記載のニューラルネットワーク。

請求項16

前記正規化された代替的な特徴体積表現を処理するための、学習可能なスケール変更およびシフトパラメーターをもつパラメーター化された非線形活性化層であって、前記非線形活性化層の訓練により前記バッチ正規化を減殺できる、請求項15に記載のニューラルネットワーク。

請求項17

前記前処理ネットワークが、一つまたは複数の3D畳み込み層および一つまたは複数のMaxプーリング層を有する、請求項9ないし15のうちいずれか一項に記載のニューラルネットワーク。

請求項18

コンピュータープログラム命令を記録した非一時的なコンピューター可読記憶媒体であって、前記命令は、プロセッサー上で実行されたとき、請求項1ないし8のうちいずれか一項に記載の方法を実行する、非一時的なコンピューター可読記憶媒体。

技術分野

0001

優先権出願
本出願は2015年8月15日に出願された“Medical Vision System”と称する米国仮特許出願第62/205,718号(特許弁護士整理番号 SALE1165−1/2021PR)に関連しその利益を主張するものである。当該仮出願はここに引用することにより、あらゆる目的のために組み込まれているものとする。

0002

開示される技術は、一般に3Dディープ畳み込みニューラルネットワーク(DCNNA)内の三次元(3D)データの処理中の計算能力およびメモリ利用などの、計算資源の利用の向上に関し、とりわけ、計算機的に効率の良い、畳み込みニューラルネットワーク(CNN)内における3D画像分類および物体認識の実施に関する。

背景技術

0003

本章で議論する対象は、本章による言及の結果のみによって先行技術であると仮定されるべきではない。同様に、本章で提示されるまたは背景として提供される対象に関連する問題は、先行技術内で認められると仮定されるべきではない。本章の対象は異なるアプローチ表現するにすぎず、特許請求する技術の実施例にも関連してもよい。

0004

開示される技術により、限られたメモリと計算機容量の中で膨大な量のデータを処理する必要がある、医療用画像などのビッグデータシナリオにおいても、畳み込みニューラルネットワーク(CNN)の利用が可能になる。既存のディープ畳み込みニューラルネットワーク(CNN)の主要な技術的課題は、多大な計算資源を必要とするということである。開示する技術によれば、この問題は、3Dディープ畳み込みニューラルネットワークアーキテクチャー(DCNNA)内に、3Dデータが演算負荷の高い操作の対象になる前に3Dデータへ次元削減操作を行う、いわゆるサブネットワークを追加することで解決される。また、サブネットワークは3Dデータに対して、異なる3D畳み込み層経路(例えば1x1x1畳み込み、3x3x3畳み込み、5x5x5畳み込み、7x7x7畳み込み)によって3Dデータを並列処理の対象にすることにより、複数のスケールで畳み込みを行う。このようなマルチスケール操作は直列の畳み込みを行う従来のCNNよりも計算機的に安価である。加えて、サブネットワークのパフォーマンスはサブネットワークへの3D入力を正規化し、代わりに3D DCNNAの学習率を増加させる3Dバッチ正規化(BN)によりさらに改善される。

0005

機械学習は、明確にプログラミングされていなくとも学習を行う能力コンピューターに提供する、人工知能AI)のエリア研究分野である。静的プログラミングに対して、機械学習は、あるデータで訓練したアルゴリズムを、該データまたは別のデータに関する予測を生成するために使用する。ディープラーニングは、データの低レベル解析の層ごとに、該データの高レベル抽象化モデリングする機械学習の一形態である。近年、CNNにより画像分類および物体認識は大きく進歩した。畳み込みフィルター複数層を訓練することにより、サポートベクトルマシンSVM)、PCA線形判別分析(LDA)、ベイズインターパーソナル分類器などの多くの機械学習ツールの一般化の能力は、訓練の量が増えるに従い、素早く飽和する傾向にある。しかし、CNNは、異なる時刻において多数の様々な画像を用いて訓練する場合、従来の機械学習アルゴリズムと比較してより良いパフォーマンスをすることが判明した。CNNは物体認識において複雑な特徴を自動的に学習でき、手作業で作成した特徴よりも優れたパフォーマンスを達成する。

0006

しかしながら、CNNは、それがないとネットワークが学習および印象的な認識パフォーマンスを実現することに失敗する、多量の訓練データを必要とする。このような多量のデータで訓練を行うには数千ものCPUコアおよび/またはGPUのような多大な計算資源が必要であり、それによりCNNの応用例は限定的なものとなり、モバイルや組み込み計算機には拡張不可能なものとなる。従って、ビッグデータの解析時に計算資源のパフォーマンスを向上させるCNNアーキテクチャーが必要とされる。

図面の簡単な説明

0007

図面においては、異なる図においても、同様の部分には同様の参照記号割り当てる。また、図面は、必ずしも同一のスケールではあらず、代わりに、開示する技術の原理を図示するために概して強調されている。以下、本開示の様々な実施態様を、以下の図面を参照して説明する。
図1は実施例に従ったシステム構成レベルの概略を示す。
図2は本開示における技術の一実施態様における3D DCNNA内のサブネットワークのブロック図であり、マルチスケール3D畳み込み層経路および3Dプーリング操作の詳細を示す。
図3は複数のサブネットワークおよび、前および後処理層を備えた3D DCNNAの例である。
図4Aは正規化された3D入力を生成するために前のサブネットワークからの3D入力へ適用する3Dバッチ正規化(BN)操作の一実施例を示す。
図4B別途に学習された非線形活性化を正規化された3D入力へ適用する、次のサブネットワークによる処理のための、スケール変更されシフトされた3D出力への、3Dバッチ正規化(BN)操作の一実施例を示す。
図5は複数のサブネットワークおよび3Dバッチ正規化層の組み合わせを使用する3D DCNNAのブロック図を示す。
図6は3D DCNNAの一実施例を示す。
図7は人間の脳の医療用スキャンによる3D放射性体積の形態をとる、3D DCNNAによって使用されるグレースケール3D入力データの例を示す。
図8は人間の脳の医療用スキャンによる3D放射性体積の形をとる、3D DCNNAによって使用されるカラーの3D入力データの例である。
図9は人間の脳の医療用スキャンから生成された3D 放射性体積に基づいた、3D DCNNAが人間の脳内の頭蓋内出血(IH)構造の検出に使用されるユースケースの一実施例を示す。
図10は3D DCNNAの出力に基づいて、出力の計算に最も寄与した3D入力データの特徴を決定するための、図7に示された3D入力データをバックトラックする処理の一実施例である。
図11は、開示されたDCNNAを使用しない場合の3D CNNの実験結果の一実施例をデモンストレーションするPR曲線を示す。
図12は開示されたDCNNAを使用する場合の3D CNNの実験結果の一実施例をデモンストレーションするPR曲線を示す。
図13はディープニューラルネットワークにおいて3Dデータを畳み込む代表手法である。
図14はディープニューラルネットワークにおいて3Dデータを畳み込む別のプロセスである。
図15は、開示技術の1つ以上の実施例による、図1のシステムと統合することに適したマルチテナントシステムの例のブロック図である。

実施例

0008


以下、図を参照して詳細な説明を行う。開示する技術の実施例が示されるが、開示する技術の請求項によって定義される範囲を限定する目的ではない。当業者は、以下の説明には様々な等価なバリエーションがあることを認識する。

0009

議論は以下のように体系付けられる。まず、様々な実施例により問題点を指摘し導入として提示する。そして、アーキテクチャーレベルにて一実施例を議論することにより、より高レベルの説明を行う。次に、3Dデータを効果的に処理するために、ある実施例に用いられるアルゴリズムを議論する。最後に、システムを実施するためのより具体的なアーキテクチャーおよび3Dデータの例、3Dディープ畳み込みニューラルネットワークアーキテクチャー(DCNNA)を適用するユースケース例、実験結果、マルチテナント環境における処理と組み込みについて議論する。

0010

CNNで3Dを処理すると、より多いパラメーター、膨大なメモリおよび計算機的要求が伴う。従来のCNNは、入力3D画像から、スカラーまたはベクトルであるボクセル信号により、データのエンコードデコードを組み合わせて、特徴マップを抽出する。入力画像は、固定されたボクセルの近傍を隠れ層のベクトル特徴空間マップすることによりエンコードされ、出力層において、オリジナル画像空間へ再構成される。多様な入力データの特性のパターンをとらえた特徴の抽出には、オートエンコーダの訓練において再構成エラーを減らすために、誤差伝播法および特徴量空間プロパティへの制限を採用している。しかしながら、ベクトルであるボクセル信号を持つ3D画像からグローバルな特徴を抽出することは、入力(エンコード)および出力(デコード)層において評価されるパラメーターの数が急速に増えているために、演算負荷が高く、過大な訓練データセットを必要とする。

0011

3Dデータを処理する計算機負荷を克服するために、開示される技術においては、3D放射線体積が演算負荷の高い操作の対象になる前に3D放射線体積へ次元削減操作を行う、いわゆるサブネットワークモジュール装備した、3Dディープ畳み込みニューラルネットワークアーキテクチャー(DCNNA)を使用する。加えて、サブネットワークのパフォーマンスはサブネットワークへの3D入力を正規化し、代わりに3D DCNNAの学習率を増加させる3Dバッチ正規化(BN)によりさらに改善される。一連のサブネットワークモジュールに渡る、3Dカーネル(すなわち学習された隠れた重み)を用いた数層の3D畳み込みおよび3Dサブサンプリングの後、3D放射線体積から垂直次元が削減された特徴マップが生成され、1つ以上の全結合層へ提供される。該全結合層の演算の後、分類または回帰された出力が生成される。1つの実施例は、3D DCNNAは、それぞれの後に3DBN層が続く3つ以上のサブネットワークモジュール、畳み込み層、サブサンプリング層、全結合層、および出力層を備える。

0012

3D DCNNA のより深い層への重みのアップデートを行うと、結果として3D入力の分布絶えず変化し、対応する代替特徴体積表現または特徴マップが、重みの収束を妨げる。一実施例では、訓練の繰り返しにおいて、重みのアップデートは重みの分散の片寄りを起こし、代替特徴体積表現が次の繰り返しにおいて増幅される。さらに、3Dにおける特徴において問題は悪化し、任意の分散が層の数に基づいて指数関数的に増幅される。開示する技術ではこれに対抗して、結果である代替特徴体積表現をよりよく維持するため、サブネットワーク処理ステップの後に、DCNNAの隠れ層に、DCNNAの非線形活性化の正規化を可能にする3Dバッチ正規化(BN)技術を採用する。一実施例では、この正規化の幾何学的解釈は、もしも3D入力が多変数ガウス分布であれば、ある実施における変換データは、ゼロ平均のガウス分布および単位共分散である。結果、BNは、学習率を向上させることにより、また学習を正規化することにより、3D DCNNAの学習を加速させる。

0013

さらに、医療プロフェッショナルは、3D医療用画像を解釈し、および診断テストにおいて異常を発見するための、様々な医療用ワークフローを持っている。例えば、年1回のマンモグラムにおいては、患者放射線科のかかりつけ医にかかる。特許は、3D医療用画像の組が結果として提供される、例えばX線によるマンモグラムを受け、そしてことによると、現場専門家が追加の調査や代わりの画像が必要かを判断するため、X線写真に対して予備の検討を行うかもしれない。X線写真は電子システムに投入され、専門家が吟味し、かかりつけ医のための診断記入する。患者はかかりつけ医からの呼び出しを待ち、マンモグラムの結果を入手する。このプロセスにおいては、マンモグラムの実施から結果まで数週間を要し得る。必要なのは、短時間で応答でき、診断の誤りが少なく、また、専門性または経験が少ないプロフェッショナルがより高いレベルで仕事を行えるようにするための、このような3D医療用画像を取り扱う新しいプロセスである。

0014

開示された実施例に基づいたシステム、装置、および方法は、医療視覚文脈、および3Dデータにより説明される。他の事例では、開示された技術は、情報技術、不正検知、遠隔通信システム金融システム証券取引銀行業務ビジネスインテリジェンスマーケティング鉱業エネルギー等、および2D、3D、4Dまたはn次元データに適用することができる。以下の例は範囲、文脈、設定を、定義または限定するよう受け取られるべきではなく、他のサービスが可能である。他の適用も可能であり、以下の例が決定的、または範囲もしくは設定のいずれかを制限すると解釈されるべきではない。

0015

開示された技術は、ディープ畳み込みニューラルネットワークアーキテクチャー内部での三次元(3D)データの処理における計算能力およびメモリ使用のような、計算資源の使用の改善に関する。開示された技術は、オンデマンドデータベースシステム、マルチテナント環境等を含む、任意のコンピューター実行システムにて実施できる。さらに、本技術は、協力し互いに通信する2つ以上の独立し異なるコンピューター実行システムを使用して実施できる。本技術は、プロセス、方法、装置、システム、デバイス、コンピューターにより読み取り可能な命令またはコンピュータープログラムコードを記憶したコンピューター可読記憶媒体のような、または、コンピューターにより読み取り可能なプログラムコードを内部に組み込んだコンピューターにより利用可能な媒体を備えたコンピュータープログラム製品のような、コンピューター可読媒体、などを含む数々の方法で実施可能である。

0016

開示された技術は、データベースシステム、マルチテナント環境、またはOracleTM互換データベース実装IBM DB2 Enterprise ServerTM互換関係データベース実装、MySQLTM またはPostgreSQLTM互換関係データベース実装またはMicrosoft SQL ServerTM互換関係データベース実装のような関係データベース実装、またはVampireTM互換非関係データベース実装、Apache CassandraTM互換非関係データベース実装、BigTableTM互換非関係データベース実装、またはHBaseTMまたはDynamoDBTM互換非関係データベース実装、のような、NoSQL非関係データベース実装を含む、任意のコンピューターに実装されたシステムにおいて実施することができる。

0017

加えて、開示された技術はMapReduceTM、バルク同期プログラミング、MPI primitives等、またはApache StormTM、Apache SparkTM、Apace KafkaTM、TruvisoTM、IBM Info−SphereTM、BorealisTMおよびYahoo! S4TMなどの異なるストリーム管理システムを使用して実施できる。

0018

システムの概要
従来の畳み込みニューラルネットワーク(CNN)において計算機的に効果的な3D画像分類および物体認識を行うシステムおよび様々な実施例について説明する。ある実施例におけるシステムの構造レベルの概略を示す図1を参照してシステムとプロセスを説明する。図1は構造図であるので、明瞭な説明のために特定の細部は意図的に省略されている。図1の議論は以下のように整理される。まず、図の要素について説明し、それらの相互接続を説明する。次に、システム内での要素の用途をより詳細に説明する。

0019

図1はシステム100を含む。システム100は機械学習システム110、タブレット162、携帯電話164、そしてコンピューター166のような計算装置、訓練データ記憶装置176、テストデータ記憶装置186およびネットワーク160を含む。機械学習システム110はテスト部112、訓練部122、ディープラーニングネットワーク132、および3D畳み込みニューラルネットワーク(CNN)142を含む。

0020

システム100の要素の相互接続について説明する。ネットワーク160はタブレット162、携帯電話164、コンピューター166、訓練データ記憶装置176、テストデータ記憶装置186、および機械学習システム110を通信可能なように接続する(実線で示される)。実際の通信経路は、パブリックおよび/またはプライベートネットワークを通るポイントツーポイントである。テストデータなどの項目は、例えばアプリケーション記憶装置(図示せず)を介して、間接的に届けられる。通信は、例えばプライベートネットワーク、VPN、MPL回線、またはインターネットなどの様々なネットワークを介して行われ、REST、JSON、XML、SOAP、および/またはJMSなどの適切なAPIおよびデータ交換フォーマットを使用してもよい。通信は暗号化されてもよい。この通信は一般的には LAN(ローカルエリアネットワーク)、WAN広域ネットワーク)、電話回線網公衆交換電話網(PSTN)、セッション開始プロトコルSIP)、無線ネットワーク、ポイントツーポイントネットワーク、スター型ネットワークトークンリングネットワークハブネットワーク、インターネット、モバイルインターネット包含を介して、またEDGE、3G、4GLTE、Wi−FiおよびWiMAXのようなプロトコルを介して行われる。加えて、ユーザー名/パスワード、OAuth、Kerberos、SecureID、デジタル署名、その他などの認証・認可技術を、通信を安全にするために使用してもよい。

0021

3D畳み込みニューラルネットワーク(CNN)
図1の要素、およびそれらの相互接続を説明したので、図の要素をより詳細に説明する。機械学習システム110はテスト部112および訓練部122を介して様々な機能を提供する。訓練部122は、コスト関数を最小化することにより、3D畳み込みニューラルネットワーク(CNN)142を訓練する。一実施例では、コスト関数は、勾配の指定を誤差逆伝播法アルゴリズムに依拠する確率的勾配降下法(SGD)を使用して最小化される。ある実施例では、訓練部122はSGDを使用して、与えられたバッチサイズにおいてミニバッチから推定された勾配に基づいた繰り返しのアップデートを行い、ここで1つのアップデートは各ミニバッチの後に行われる。一実施例では、各勾配のアップデートはさらに、現在の勾配と、3D CNN142の前方伝播中にコスト関数によって計算されたエラー値に基づいた直前のアップデート繰り返しによる勾配の重みづけされたの組み合わせとして3D CNN142の様々なパラメーターをアップデートする、モーメントに基づいた学習ルールにより増大される。

0022

3DCNN142を訓練するためには、訓練データ記憶装置176からの3Dデータが使用される。一実施例では、訓練データ記憶装置176は、3D CNN142をサービスまたは製品として提供する第一の企業体によって整備され利用される。別の実施例では、訓練データ記憶装置176は、第一の企業体によって、第一の企業体によって開発された3D CNN142をビジネスまたは技術的課題を解決するために適用する第二の企業体(例えば仲介ベンダー)と共同して配置される。さらに別の実施例では、訓練データ記憶装置176は、エンドユーザーによって提供された、またはエンドユーザーを使用して(例えばクラウドソーシング)生成されたデータを使用して配置される。ある実施例では、3D CNN142は、最新鋭の正確さと信頼性をもってコンピューター視覚タスク遂行する医療視覚視点を持った学習システムとして働く。この医療視覚システムは医療のプロフェッショナルによりラベル付けされた例をもとに訓練され、その後画像データに基づいた特定の医療的問題の確認と診断を補助するために展開される。訓練中は、適切な医療プロフェッショナルにより健康および/または異常要素として特徴づけられた3D医療用画像および/または画像の一部分が、ディープラーニング医療視覚システムに提供される。

0023

一実施例における訓練データは、1つ以上の画像の組から成る。一実施例においては、各画像または画像の組は、1つ以上の追加情報に関連付けられる。ある実施例においては、追加情報は画像または画像の組に対するラベルを含む。一実施例においては、訓練データは、ラベル付けされた一組のコンピューター断層(CT)スキャンである。他の実施例では、超音波磁気共鳴画像MRI)画像などを含む、他の型の画像を含む。

0024

3D医療用画像は、例えば様々な健康および異常な眼を例示する眼底撮影法のような、様々な題材を含んでいてもよい。眼底の画像は様々なフォーマットであってもよい。眼の異常としては、糖尿病網膜症鬱血乳頭動脈性高血圧眼科的兆候などが、その他の異常の中でも考えられる。他の3D医療用画像は他の題材を含んでいてもよい。例えば、CTスキャンとしては、様々な健康または異常な題材を含んだ頭部のCTスキャンが考えられる。例えば、異常な頭部のCTスキャンは、頭蓋内出血、硬膜血腫硬膜下血種、実質内出血脳室内出血くも膜下出血脳室の拡大/偏位脳槽異常、腫瘤病変/腫瘤効果、浮腫の一般的エビデンス膿瘍虚血梗塞を示す凝血頭蓋骨骨折、およびhyperdense中大脳動脈(MCA)のうち1つ以上を示すことがあり得る。同一または他のエリアの、他の3D医療用画像により、例えば肺塞栓症のようなまたは心臓の異常のような、他の異常題材が示され得る。

0025

ある実施例では、訓練データは3DCNN142によって処理され得る。画像処理は、訓練データ画像内のデータへの1つ以上の操作を含む。画像処理の例は、特定のピクセルまたはボクセル数粒度レベル画像フォーマット等へと訓練データを正規化することを含む。一実施例では、画像処理は、訓練データをサイズまたはピクセルまたはボクセルの数の閾値、またはボクセルの強度または粒度レベルを満たすように特定のサイズへ縮尺変更する訓練、および、特定の内容を中心化する訓練、または特定のまたは一定の方向へ回転される訓練を含み得る。

0026

ある実施例では、画像処理は、三次元(3D)体積の二次元(2D)コラージュを作成し、訓練データの二次元(2D)処理を可能にすることを含む。一実施例では、画像処理は、三次元(3D)体積のサブセットを選択することを含む。ある実施例では、3D医療用画像は複数の関連画像をまとめたものであり得る。ある実施例では、コラージュは、1つより多い医療用画像から作成され得る。

0027

訓練データ記憶装置176からの訓練中に3DCNN142の全てのパラメーターを学習すれば、3D CNN142はテストデータからの画像分類と物体認識の準備が出来た状態になる。一実施例では、テストデータはテストデータ記憶装置186に記憶されている3Dデータである。テスト中には、テスト部112は3D CNN142を実行し、誤差逆伝搬法を行わずに3D入力データの予測を生成する。画像分類の場合はテスト時に、1つ以上のカテゴリーに属する3D入力データの事後確率を推定する特徴マップを生成するために、3D入力データは3D CNN142の様々な畳み込み層、サブネットワーク、バッチ正規化層、およびプーリング層を通される。一実施例では、テストデータ記憶装置186は、3D CNN142をサービスまたは製品として提供する第一の企業体によって整備され利用される。別の実施例では、テストデータ記憶装置186は、第一の企業体によって、第一の企業体によって開発された3D CNN142をビジネスまたは技術的課題を解決するために適用する第二の企業体(例えば仲介ベンダー)と協働して配置される。さらに別の実施例では、テストデータ記憶装置186は、エンドユーザーによって提供された、またはエンドユーザーを使用して(例えばクラウドソーシング)生成されたデータを使用して配置される。

0028

システム100に示される一実施例では、3D訓練データおよびテストデータはCassandraTMのようなNoSQLキーバリューカラムストア分散記憶システム178および188に記憶される。CassandraTMの3Dデータは多数のノードまたはコモディティサーバーC1からC3にわたって拡散され、Java(登録商標)、Scala、Ruby,ClojureまたはPythonに基づいたAPI(例えばHector、Pelops、CQL、Thrift、Phpcassa,PyCassa等)を使用して接続が行われる。他の実施例では、3D訓練およびテストデータはHadoopクラスター179および189のようなHadoop分散ファイルシステム(HDFS)に記憶される。

0029

3Dデータ/3D放射線体積
ある実施例では、3D訓練およびテストデータは各点(x、y、z)の、別個のボクセル座標(i、j、k)へマップされた、体積表現である。一実施例では、3D入力データは、固定の占有率または、表面の湾曲グリッド(例えば24x24x24、32x32x32、256x256x256、200x150x150、317x215x254、36x224x224)を設定された、DxDxDボクセルの体積を持つ。一実施例では医療視覚コンテキスト、3D訓練およびテストデータは3D放射線体積であり、医療用スキャンにより生成された人間の臓器の構造の、解剖学上における3D形状のバリエーションを示している。図7は、3D DCNNAによって使用される、人間の脳の医療用スキャン(例えばMRI、CT)による3D放射線体積の形をとるグレースケールの3D入力データ700の例である。図8は3D DCNNAによって使用される、人間の脳の医療用スキャンの、3D放射線体積の形をとる、カラーの3D入力データ800の例である。一実施例においては、3D放射線体積700および800は人間の脳の3Dモデルを示している。他の実施例では、3D放射線体積700および800は3Dの点群を示している。他の実施例では、3Dの訓練およびテストデータはコンピューター支援設計(CAD)モデルを含む。

0030

ディープラーニングネットワーク132は上以上のGPU上で動作する。ディープラーニングネットワーク132は人工ニューロン多層積み重ねて形成したフィードフォワードネットワークである。各層は、ニューロンが特徴検知器として働くデータの新しい表現をモデル化する。再帰的に、より深いニューロンは前の層で検知された特徴によって形作られた新しい特徴を学習する。結果は、より高いレベルの特徴の検出器階層構造となる。ディープラーニングネットワーク132はさらに、1つ以上のGPUで動作する3DCNN142を含む。一実施例においては、3D CNN142は、タブレット162、携帯電話164、およびコンピューター166などの、1つ以上のクライアント機器プロセッサーにおいて動作する。

0031

一実施例においては、3DCNN142は、畳み込み層、サブネットワーク、3Dバッチ正規化層、プーリング層、および全結合層を含む。3D CNN142は、3D入力データ/放射線体積に対して同一サイズパッチを利用して畳み込みの計算を行う固定サイズの3Dパッチまたは3Dカーネルである、いわゆる3D受容野を使用する。一実施例では、出力特徴マップ、を生成するために3D放射線体積の全てのボクセルおよび中間特徴マップが対象にされていることを確実にするために、ストライドが設定される。ある実施例では、畳み込み操作のあと、次元を減らし、演算の繰り返しを避けるために、中間特徴マップを使用したサブサンプリングが行われる。ある実施例では、全結合層は、多次元特徴マップを連結するため、そして該特徴マップを分類器として固定サイズカテゴリにするために使用される。3D CNN142の層は、前述したように、重みが誤差逆伝搬法を使用して訓練中に調整される、訓練可能なパラメーターを持っている。3D CNN142の各部は、Sigmoid、ランプ関数(ReLU)またはLeaky ReLUのような、ある型の非線形活性化を使用する。ある実施例では、3D CNN142の最上位層では、3D入力を[0、1]にマップするソフトマックス活性化関数を使用する。これにより出力を確率と解釈し、ボクセルの選択を最も高い確率で行うことができるようになる。

0032

ここでシステム100を特定のブロックを参照して説明したが、ブロックは説明の利便性のために定義されたのであり、構成要素の部分の物理的な配置を要求するように意図されたものではない。さらに、ブロックは物理的に別個の構成要素に対応する必要はない。物理的に別個の構成要素が使用されることとなれば、構成要素間の接続(例えばデータ通信)は、要求により、有線および/または無線であってもよい。異なる要素または構成要素は1つのソフトウエアモジュールへと結合されてもよく、複数のソフトウエアモジュールが同じハードウエア上で実行されてもよい。

0033

サブネットワークモジュール
図2は開示する技術の一実施例における3D DCNNA(3D CNN142のような)内のサブネットワーク200Aのブロック図200を示し、マルチスケール3D畳み込み層経路および3Dプーリング操作を詳細に示す。一実施例では、サブネットワーク200Aは特徴マップを入力とし、1x1x1 畳み込みから3x3x3、5x5x5、7x7x7畳み込み、および3x3x3プーリングのような3D Maxプーリング層のように、様々な、いくつかの3D畳み込み層経路を並列で適用する。さらに、3D入力データはサブネットワーク200Aにより複数スケール210および214において処理される。これはサブネットワーク200Aに入力として供給される特徴マップが、次元削減送212および3DMaxプーリング層222によって、最初に、マルチスケール210において並列に処理されることを意味する。さらに進み、次元層212の1x1x1畳み込みの結果である最適化された特徴マップは、異なる3D畳み込み層経路216(例えば1x1x1 、3x3x3、5x5x5、7x7x7の畳み込み)によりマルチスケール214で並列に処理される。サブネットワーク200Aにおける層経路の各層は、連結層234において最終出力として1つの特徴マップに連結され、異なる出力または特徴マップを生成する。

0034

次元削減層212および224は次元削減を実行するために使用される。例えば、90の特徴を持つ36x224x224ボクセルの3D入力に1x1x1の40のフィルターによる畳み込みを行った結果は40x36x224x224のサイズになる。一実施例では、次元削減層はSigmoid, ReLUまたはLeaky ReLUのような非線形活性化も備えている。図2に示されるように、サブネットワーク200A内では、1x1x1、3x3x3、5x5x5および7x7x7畳み込みのようには3D入力は直接3D畳み込み層経路に供給はされない。代わりに、入力の次元を削減するために、追加の1x1x1畳み込みが、次元削減層212として使用される。さらに、3D Maxプーリング層222の出力は、次元削減層224として働く追加の1x1x1畳み込みへ提供される。

0035

図3は、最低から最高へと連続して配置された複数のサブネットワーク200A、200Bおよび200C、3D DCNNA300(3D CNN142のような)、および前処理層310および後処理層320の例である。ある実施例では、前のサブネットワーク(例えばサブネットワーク200A)の出力は次のサブネットワークの畳み込みおよびプーリング(例えばサブネットワーク200B)への入力へ使用される。各サブネットワーク200A、200Bおよび200Cは代替特徴体積表現、または入力3D放射線体積の特徴マップを生成する。ある実施例では、3D入力データ/放射線体積は1つ以上の、3D畳み込み311、2D畳み込み312、1D畳み込み313、3Dプーリング操作314、2Dプーリング操作315、1Dプーリング操作316、などの前処理層310の処理対象になる。ある実施例では、3D入力データ/放射線体積は1つ以上の、3D畳み込み321、2D畳み込み322、1D畳み込み323、3Dプーリング操作324、2Dプーリング操作325、1Dプーリング操作326、などの後処理層320の処理対象になる。一実施例では、3以上のモジュールサブネットワーク200A、200B、および200Cによる3D入力データおよび中間代替特徴体積表現または特徴マップの処理の後、モジュールサブネットワークの最高位のものの出力(サブネットワーク200Cのような)は垂直プーリング層で処理され、3D入力放射線体積から垂直次元削減出力が生成される。

0036

バッチ正規化
3DCNN142の深い層の重みアップデートの結果は、変化し続ける3D入力の分布、および対応する代替特徴体積表現または特徴マップとなり、重みの収束を妨げる。一実施例では、訓練の繰り返しにおいて、重みアップデートは、代替特徴体積表現が次の繰り返しにおいて増幅されるように、重みの分散に偏差を起こす。さらに、任意の偏差は層の数に基づいて指数関数的に増大するため、3D特徴量F1からFnにおいて問題は悪化する。開示する技術ではこれに、結果である代替特徴体積表現をよりよく維持するため、毎サブネットワーク処理ステップの後に、隠れ層に、3D CNN142の非線形活性化に対する正規化を可能にする3Dバッチ正規化(BN)技術を採用することにより対抗する。一実施例では、この正規化の幾何学的解釈は、3D入力データが多変数ガウス分布であったとき、変換されたデータは、ある実施例では、ゼロ平均と単位共分散を持つガウス分布である。結果、BNは、学習率を向上させ、また学習を正規化し、その結果3D CNN142の学習を加速させる。

0037

図4Aは正規化された3D入力を生成するために、前のサブネットワークからの3D入力へ3Dバッチ正規化(BN)操作400Aを行う一実施例を示す。図4Aでは、前のモジュールサブネットワークからの3D入力は、複数の3D特徴F1からFnを含む。図4Aでは、特徴F1からFnが三次元であることは記号



によって示される。このステップでは、3D特徴F1からFnはゼロ平均および単位分散へ正規化され、図4Bにて線形変換される。平均および分散は、例を挙げるとF1からFnの3D特徴の各次元において計算され、訓練データセットのミニバッチ(例えばバッチ1)毎ではない。ある実施例では、平均と分散の移動平均が、テスト中、正規化に使用するために整備される。結果として得られる、正規化された特徴F1’からFn’が図4Aの右側に示される。

0038

図4Bは、学習された非線形活性化を、正規化された3D入力へ適用して、次のサブネットワークによる処理のための、スケール変更およびシフトされた3D出力を生成する、3Dバッチ正規化(BN)操作400Bの一実施例を示す。一実施例では、3DBN層は、前のサブネットワークの後、そして続く非線形活性化の直前に導入される。図4Bでは、正規化された特徴F1’からFn’が三次元であることが記号



により示される。本ステップでは、続くサブネットワークへの入力表現として使用できる、スケール変更されシフトされた3D特徴F1’’からFn’’を生成するために、学習された非線形活性化(例えばReLU非線形(y=max(0,x))を正規化された3D特徴F1’からFn’へ適用する。非線形活性化は誤差逆伝搬法の中で、スケールパラメーターおよびシフトパラメーターの2つのパラメーターを使用して訓練される。3D BNのこのステップの中で、最後の後方パスによってアップデートされた、非線形活性化におけるスケール変更されてシフトされたパラメーターは、図4Aの正規化された3D入力へ適用される。結果として得られる、スケール変更されシフトされた特徴F1’’からFn’’を図4Bの右側に示す。

0039

図5は複数のサブネットワークおよび3Dバッチ正規化層の組み合わせを使用する3D DCNNA(3D CNN142のような)のブロック図500である。図5においては、各サブネットワーク200A、200Bおよび200Cの直後に、前のサブネットワーク(例えばサブネットワーク200A)からの出力を正規化し、正規化された出力へ学習された非線形活性化を適用して次のサブネットワーク(例えばサブネットワーク200B)へのスカッシュされた入力を生成する3Dバッチ正規化層がある。

0040

ディープCNNアーキテクチャー(DCNNA)の例
図6は3D DCNNA600の例の一実施例を示す。概要としては、3D DCNNA600は、前処理層、モジュールサブネットワーク、3Dバッチ正規化(BN)層、および後処理層という、主な3つの部分を有する。他の実施例においては、畳み込み操作は、図6に示すものとは違う順序で、および/または、違うまたはより少ない、または追加のアクションにより実行される。ある実施例においては、複数の畳み込み操作が結合されてもよい。

0041

図6において、3D入力データは最初に、3D畳み込み層を備える前処理層により処理され、その後、1DのMaxプーリング層、その後には2つの3D畳み込み層、最後に1D Maxプーリング層が続く。一層目の3D畳み込み層は64個の1x1x7x7のサイズの3D畳み込みカーネルまたはフィルターを含み、これは、1つの特徴が1x7x7ボクセルで畳み込まれることを示す。続く1D のMaxプーリング層のサイズは1x3x3である。一層目の3D畳み込み層のように、二層目の3D畳み込み層は64個の3D畳み込みカーネルまたはフィルターを含むが、サイズは64x1x7x7である。三層目の3D畳み込み層は192個の、64x1x1x1のサイズの3D畳み込みカーネルまたはフィルターを備える。前処理層の中の最後の層は1Dでサイズ1x3x3のMaxプーリング層である。

0042

図2のサブネットワーク200Aを参照して前述した処理レイアウトおよびパイプラインの後に、3D DCNNA 600が続く。3D DCNNA 600の次の構成要素は、モジュールサブネットワークA、BおよびCである。処理しているデータが3D放射線体積であるため、サブネットワークA、BおよびCの全ては、3D畳み込みカーネルまたはフィルターを伴う3D畳み込み層経路を使用する3Dモジュールである。さらに、サブネットワークA,BおよびCのそれぞれは、入来する代替特徴表現または特徴マップに対して、1x1x1、3x3x3、5x5x5畳み込みである3D畳み込み層経路により処理される前に次元を削減するため、1x1x1畳み込みを使用する1つ以上の次元削減層を含む。さらに、サブネットワークA、BおよびCもまた3D Maxプーリング層を採用し、その出力は、追加の1x1x1次元削減畳み込みによりさらに次元が削減される。最後に、入来する代替特徴表現は、サブネットワークA、BおよびCにおいて、次元削減層およびMaxプーリング層が代替特徴表現に対して並行して動作できるよう、また次元削減層およびMaxプーリングの出力が異なる3D畳み込み層経路において並行して処理されるよう、複数のスケールで処理される。

0043

特に、サブネットワークAは64個の、192x1x1x1のサイズ(1x1x1畳み込み)の、次元削減層として働く3D畳み込みカーネルまたはフィルターを含む。サブネットワークAもまた、入来する特徴マップを並行してマルチスケールで処理する、128個のサイズ96x3x3x3(3x3x3畳み込み)の3D畳み込みカーネルまたはフィルター、および32個の、サイズ16x5x5x5(5x5x5畳み込み)の3D畳み込みカーネルまたはフィルターによる、2つの3D畳み込み層経路を含む。これらの2つの層経路への入力は、96個のサイズ192x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルターによる、また16個のサイズ192x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルターによる、2つの対応する次元削減層によって削減される。3D Maxプーリング層はサイズ3x3x3であり、出力を別の32個のサイズ96x1x3x3の3D畳み込みカーネルまたはフィルターによる3D畳み込み層経路へ受け渡す。64個のサイズ192x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルター、128個のサイズ96x3x3x3(3x3x3畳み込み)の3D畳み込みカーネルまたはフィルターによる2つの3D畳み込み層経路、および32個の、サイズ16x5x5x5(5x5x5畳み込み)の3D畳み込みカーネルまたはフィルター、そして32個のサイズ96x1x3x3の3D畳み込みカーネルまたはフィルターによる3D畳み込み層経路の出力は、256個の特徴へ連結される。

0044

特に、サブネットワークBは128個の、256x1x1x1のサイズ(1x1x1畳み込み)の、次元削減層として働く3D畳み込みカーネルまたはフィルターを含む。サブネットワークBはまた、入来する特徴マップを並行してマルチスケールで処理する、192個のサイズ128x3x3x3(3x3x3畳み込み)の3D畳み込みカーネルまたはフィルター、および96個の、サイズ32x5x5x5(5x5x5畳み込み)の3D畳み込みカーネルまたはフィルターによる、2つの3D畳み込み層経路を含む。これらの2つの層経路への入力は、128個のサイズ256x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルターによる、また32個のサイズ256x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルターによる、2つの対応する次元削減層によって削減される。3D Maxプーリング層は、サイズ3x3x3であり、出力を別の64個のサイズ256x1x3x3の3D畳み込みカーネルまたはフィルターによる3D畳み込み層経路へ受け渡す。128個のサイズ256x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルター、192個のサイズ128x3x3x3(3x3x3畳み込み)の3D畳み込みカーネルまたはフィルターによる2つの3D畳み込み層経路、および96個の、サイズ32x5x5x5(5x5x5畳み込み)の3D畳み込みカーネルまたはフィルター、そして64個のサイズ256x1x3x3の3D畳み込みカーネルまたはフィルターによる3D畳み込み層経路の出力は、480個の特徴を生成するよう連結される。

0045

特に、サブネットワークCは64個の、480x1x1x1のサイズ(1x1x1畳み込み)の、次元削減層として働く3D畳み込みカーネルまたはフィルターを含む。サブネットワークBはまた、入来する特徴マップを並行してマルチスケールで処理する、128個のサイズ96x3x3x3(3x3x3畳み込み)の3D畳み込みカーネルまたはフィルター、および32個の、サイズ16x5x5x5(5x5x5畳み込み)の3D畳み込みカーネルまたはフィルターによる、2つの3D畳み込み層経路を含む。これらの2つの層経路への入力は、96個のサイズ480x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルターによる、また16個のサイズ480x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルターによる、2つの対応する次元削減層によって削減される。3D Maxプーリング層はサイズ3x3x3であり、出力を別の32個のサイズ480x1x3x3の3D畳み込みカーネルまたはフィルターによる3D畳み込み層経路へ受け渡す。64個のサイズ480x1x1x1(1x1x1畳み込み)の3D畳み込みカーネルまたはフィルター、128個のサイズ96x3x3x3(3x3x3畳み込み)の3D畳み込みカーネルまたはフィルターによる2つの3D畳み込み層経路、および32個の、サイズ16x5x5x5(5x5x5畳み込み)の3D畳み込みカーネルまたはフィルター、そして32個のサイズ480x1x3x3の3D畳み込みカーネルまたはフィルターによる3D畳み込み層経路の出力は、連結される。

0046

3D DCNNA600はまた、サブネットワークA、BおよびCの各連結された出力を各次元において正規化および非線形スカッシュの処理対象とするために、各サブネットワークA、BそしてCのすぐ後に3Dバッチ正規化層とともに配置される。後処理層はサイズ1x3x3の1D Maxプーリング層、およびz軸に沿ったMaxプール畳み込みを含む。最後の代替特徴表現のサイズは12544x1であり、さらにサイズ2x1に削減される。

0047

頭蓋内出血(IH)におけるユースケース
図9は、医療用スキャンまたは撮像902から生成された3D放射線体積に基づいて、3D DCNNAが、人間の脳内の頭蓋内出血(IH)構造の検知に使用されるユースケース900の一実施例を示す。CTスキャン904のような3D放射線体積は、人間の脳のスキャン結果である。機械学習システム110は、人間の脳に関連する1つ以上の型の異常を特定するよう訓練されている。ある実施例では、機械学習システム110は1つの異常を特定するよう訓練されている。ある実施例では、機械学習システム110は1より多い異常を特定するよう訓練されていて、マルチクラスラベリングと呼ばれる。ある実施例では、1より多い異常の特定は、1より多い異常によって訓練された機械学習システム110によって行われる。たとえば、人間の脳の異常は、出血の特定、アルツハイマーにおけるや繊維化、発作証拠が含み得る。この例では、機械学習システム110の一実施例が、人間の脳の画像を健康または異常として分類し、頭蓋内出血(IH)、アルツハイマーおよび/または発作などの、どのような型の異常があるかを特定し、結果906を健康サービスプロバイダー908へ転送する。

0048

別の実施例では、機械学習システム110は人間の脳の入力された3D放射線体積を、出血の識別、アルツハイマーの可能性の証拠、または発作の兆候などを含む異常として分類する。ある実施例では、分類の信頼度もまた提供される。ある実施例では、1つより多い分類が、各分類に関連した信頼度とともに提供される。別の実施例では、機械学習システム110は、画像を出血、アルツハイマー、発作、または「正常」、として分類し、このとき「正常」とは、各可能性のある異常および各異常に関連した信頼度を検討した後に適用される診断である。ある実施例では、3D放射線体積は人間の眼についてのものであり、機械学習システム110は人間の眼に関連する1つ以上の型の異常を特定するよう訓練されている。

0049

従って、機械学習システム110は深刻な病状の診断に要する時間を減少させることができ、そのため深刻な病状の患者へよりタイムリー支援を提供することができる。一実施例では、機械学習システム110は3D放射線体積から診断を提供する。例えば、頭蓋内出血が存在する、などである。一実施例では、機械学習システム110は3D放射線体積から、実際の診断というよりは、兆候を提供する。例えば、3D放射線体積は、腔内の液体、および/または頭蓋外の血液を特定することができ、その両方は頭蓋骨骨折の兆候である。一実施例では、機械学習システム110は、頭蓋骨の骨折があるか否かの結論を導くことは行わず、画像データから兆候を特定する。別の実施例では、機械学習システム110は、頭蓋骨の骨折があるか否かの結論を、兆候に基づいて導く。一実施例では、機械学習システム110は、兆候と共に、結論の信頼区間も提供する。

0050

ある実施例では、機械学習システム110は、3D放射線体積の解析の結果に基づいた警告を提供する。ある実施例では、機械学習システム110は病状に関連した危険因子を提供する。例えば、一実施例では、機械学習システム110は信頼度評価値を、未来の異常の兆候として、3D医療用画像上に見つかった病状に添付する。

0051

図10は、図7に示された3D入力データ/放射線体積を、3D DCNNAの出力に基づいて、出力の計算に最も寄与した3D入力/放射線体積の特徴を決定するためにバックトラックする処理1000の一実施例を示す。バックトラック1000において、出力の計算に最も寄与した3D入力データの特徴は、図10の個々の青色の脳の画像内に、白色の構造としてハイライトされる。

0052

図11は、3DCNNの、開示されたDCNNAを使用しない実験結果の一実施例を実演するPR曲線1100を示す。PR曲線1100においては、適合率は90%で、再現率は47%である。図12は、3D CNNの、開示されたDCNNAを使用した場合の実験結果の一実施例を実演するPR曲線1200を示す。PR曲線1200においては、適合率は90%で、再現率は47%から50%に上昇した。

0053

プロセス
図13はディープニューラルネットワークにおける3Dデータの畳み込みの代表手法1300である。フローチャート1300は、1つ以上のプロセッサーが情報を受信または引き出し、情報を処理し、結果を記憶し、結果を送信するよう構成された、例えばコンピューターまたは他のデータ処理システムによって、少なくとも部分的には実施することができる。他の実施例においては、図13に示された動作を別の順番で、および/または異なる、またはより少ない、または追加の動作を実行してもよい。ある実施例においては、複数の動作が結合されてもよい。利便性のために、このフローチャートについては方法を実行するシステムを参照して説明する。システムは方法の一部である必要はない。

0054

開示する技術の本章および他の章にて説明する方法は、1つ以上の以下の特徴、および/または開示する追加の方法の中で説明される特徴を含み得る。簡潔性のために、本出願にて開示された特徴の組み合わせは個別に列挙はせず、それぞれ元となる特徴の組に応じて繰り返したりはしない。読者は、本方法にて特定された方法が、システムの概要、3DCNN、3Dデータ/3D放射線体積、サブネットワークモジュール、バッチ正規化、DNCCAの例、IHユースケースなどとして、実施例として特定された元となる特徴の組とどのように容易に組み合わせることができるかを理解するであろう。

0055

図13は動作1300にて開始する、入力放射線体積を特徴づける三次元(3D)データが受信されるプロセス1310を含む。ある実施例では、入力放射線体積は、各点(x、y、z)を別個のボクセル座標(i、j、k)へマップした形をとる、体積による表現である。一実施例では、3D入力データは、固定の占有率または、表面の湾曲グリッド(例えば24x24x24、32x32x32、256x256x256、200x150x150、317x215x254、36x224x224)を設定された、DxDxDボクセルの体積を持つ。3Dデータから抽出された特徴の数は、先頭に追加され、FxDxDxDの形を作る。垂直方向スライスの数は、従来より各スライス中の2Dピクセルの数よりも少ないものとされ、放射線科医が見る画像の数を管理可能にしている。医療視覚の文脈における一実施例では、3Dの訓練およびテストデータは、医療用スキャンから生成した、人間の臓器の構造の解剖学的3D形状の種類を示す、3D放射線体積である。一実施例では、入力放射線体積は、人間の脳の3Dモデルを表す。さらに別の実施例では、入力放射線体積は、3Dの点群を表す。他の実施例では、他の入力放射線体積の例は、CAD(コンピューター支援設計)モデルを含む。

0056

プロセス1300は動作1320にて継続し、そこでは入力放射線体積を特徴づける3Dデータはディープニューラルネットワークを使用して、入力放射線体積の代替特徴体積表現を生成するために処理される。一実施例では、ディープニューラルネットワークは複数のサブネットワークを備える。一実施例では、サブネットワークは最低から最高へと連続して配置され、ディープニューラルネットワークを使用して入力放射線体積を特徴づけるデータの処理には、その流れの中でデータをサブネットワークを通して処理することが含まれる。一実施例では、最初の3D畳み込み層経路は、入力放射線体積からセミグローバルな特徴を抽出する3x3x3の畳み込みである。一実施例では、2つ目の3D畳み込み層経路は、入力放射線体積からグローバルな特徴を抽出する5x5x5の畳み込みである。一実施例では、3つ目の3D畳み込み層経路は、入力放射線体積からローカルな特徴を抽出する1x1x1の畳み込みである。

0057

動作1330において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークは、上に議論されたように、連続している中での前のサブネットワークにより生成された前の出力表現を受信するよう構成される。

0058

動作1340において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークは、上に議論されたように、少なくとも3つの、変化する畳み込み体積の並列な3D畳み込み層経路を通して、前の出力表現を処理するよう構成される。

0059

動作1350において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークはさらに、上に議論されたように、並列3D Maxプーリング経路を通して前の出力表現を処理するよう構成される。

0060

動作1360において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークは、各モジュールサブネットワークからの出力表現を生成するために、3D畳み込み層経路からの出力と3D Maxプーリング経路を連結するよう構成される。

0061

動作1370において、上に議論されたように、サブネットワークの3D畳み込み層経路の出力表現は3Dバッチ正規化によって状態が調整される。一実施例においては、3Dバッチ正規化は代替特徴体積表現内の各特徴へそれぞれ独立して適用され、バッチごとに適用される。一実施例では、あるバッチ内の代替特徴量表現に対して、3Dバッチ正規化により画像データ量のスケール変更およびシフトが行われ、正規化された代替特徴体積表現は、画像データ量にゼロ平均と単位分散を持つ。

0062

動作1380にて、プロセスは、上に議論されたように、正規化された代替特徴体積表現を、ディープニューラルネットワークの訓練が3Dバッチ正規化を減殺できるような学習可能なスケール変更およびシフトパラメーターによって、パラメーター化された非線形活性化を通して直ちに処理する。

0063

動作1390において、処理は、上に議論されたように、3以上のモジュールサブネットワークを通してデータを処理することに続いて、最高のモジュールサブネットワークの出力を垂直Maxプーリング層を通して、入力放射線体積から垂直次元が削減された出力を生成するために処理する。

0064

本章において説明した方法の他の実施例は、上に説明された任意の方法を実行するための、プロセッサーにより実行可能な命令を記憶した非一時的なコンピューター可読記憶媒体を含み得る。本章において説明したさらに別の実施例は、上に説明された任意の方法を実行可能であるメモリに記憶された命令を実行可能で、メモリおよび1つ以上のプロセッサーを含むシステムを含み得る。

0065

図14はディープニューラルネットワークにて3Dデータを畳み込む代表手法1400である。フローチャート1400は、1つ以上のプロセッサーが情報を受信または引き出し、情報を処理し、結果を記憶し、結果を送信するよう構成された、例えばコンピューターまたは他のデータ処理システムによって、少なくとも部分的には実施することができる。他の実施例においては、図14に示された動作を別の順番で、および/または異なる、またはより少ない、または追加の動作を実行してもよい。ある実施例においては、複数の動作が結合されてもよい。利便性のために、このフローチャートについては方法を実行するシステムを参照して説明する。システムは方法の一部である必要はない。

0066

開示する技術の本章および他の章にて説明する方法は1つ以上の、以下の特徴、および/または開示する追加の方法の中で説明される特徴を含み得る。簡潔性のために、本出願にて開示された特徴の組み合わせは個別に列挙はせず、各元となる特徴の組に応じて繰り返したりはしない。読者は、本方法にて特定された方法が、システムの概要、3DCNN、3Dデータ/3D放射線体積、サブネットワークモジュール、バッチ正規化、DNCCAの例、IHユースケース、などとして、実施例として特定された元となる特徴の組とどのように容易に組み合わせることができるかを理解するであろう。

0067

図14は、入力放射線体積を特徴づける三次元(3D)データを受信する動作1410にて始まるプロセス1400を含む。ある実施例では、入力放射線体積は、各点(x、y、z)を別個のボクセル座標(i、j、k)へマップした形をとる、体積による表現である。一実施例では、3D入力データは、固定の占有率または、表面の湾曲グリッド(例えば24x24x24、32x32x32、256x256x256、200x150x150、317x215x254、36x224x224)を設定された、DxDxDボクセルの体積を持つ。医療視覚の文脈における一実施例では、3Dの訓練およびテストデータは、医療用スキャンから生成した、人間の臓器の構造の解剖学的3D形状の種類を示す、3D放射線体積である。一実施例では、入力放射線体積は、人間の脳の3Dモデルを表す。さらに別の実施例では、入力放射線体積は、3Dの点群を表す。他の実施例では、他の入力放射線体積の例は、CAD(コンピューター支援設計)モデルを含む。

0068

プロセス1400は動作1420にて継続し、そこでは入力放射線体積を特徴づける3Dデータはディープニューラルネットワークを使用して、入力放射線体積の代替特徴体積表現を生成するために処理される。一実施例では、ディープニューラルネットワークは複数のサブネットワークを備える。一実施例では、サブネットワークは最低から最高へと連続して配置され、ディープニューラルネットワークを使用して入力放射線体積を特徴づけるデータの処理は、その流れの中でデータをサブネットワークを通して処理することを含む。一実施例では、最初の3D畳み込み層経路は、入力放射線体積からセミグローバルな特徴を抽出する3x3x3の畳み込みである。一実施例では、2つ目の3D畳み込み層経路は、入力放射線体積からグローバルな特徴を抽出する5x5x5の畳み込みである。一実施例では、3つ目の3D畳み込み層経路は、入力放射線体積からローカルな特徴を抽出する1x1x1の畳み込みである。

0069

動作1430においては、上に議論されたように、多様な畳み込み体積のうち少なくとも3つの並列3D畳み込み層経路は、前の出力表現を、次元削減層において複数のスケールの畳み込み値によって処理する。

0070

動作1440において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークは、上に議論されたように、少なくとも3つの、変化する畳み込み体積の並列な3D畳み込み層経路を通して、前の出力表現を処理するよう構成される。

0071

動作1450において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークはさらに、上に議論されたように、並列3D Maxプーリング経路を通して前の出力表現を処理するよう構成される。

0072

動作1460において、3以上のサブネットワークはモジュールサブネットワークであり、各モジュールサブネットワークは、各モジュールサブネットワークからの出力表現を生成するために、3D畳み込み層経路からの出力と3Dプーリング経路を連結するよう構成される。3Dプーリング経路は、最大、最小、または平均のプーリング操作を含む。

0073

動作1470において、上に議論されたように、サブネットワークの3D畳み込み層経路の出力表現は3Dバッチ正規化によって状態が調整される。一実施例においては、3Dバッチ正規化は代替特徴体積表現内の各特徴へそれぞれ独立して適用され、バッチごとに適用される。一実施例では、あるバッチ内の代替特徴量表現に対して、3Dバッチ正規化により画像データ量のスケール変更およびシフトが行われ、正規化された代替特徴体積表現は、画像データ量にゼロ平均と単位分散を持つ。

0074

動作1480の処理は、上に議論されたように、正規化された代替特徴体積表現を、ディープニューラルネットワークの訓練が3Dバッチ正規化を減殺できるような学習可能なスケール変更およびシフトパラメーターによって、パラメーター化された非線形活性化を通して直ちに処理することを含む。

0075

動作1490の処理は、上に議論されたように、3以上のモジュールサブネットワークを通してデータを処理することに続いて、最高のモジュールサブネットワークの出力を垂直Maxプーリング層を通して、入力放射線体積から垂直次元が削減された出力を生成するために処理することを含む。

0076

本章において説明した方法の他の実施例は、上に説明された任意の方法を実行するための、プロセッサーにより実行可能な命令を記憶した非一時的なコンピューター可読記憶媒体を含み得る。本章において説明したさらに別の実施例は、上に説明された任意の方法を実行可能であるメモリに記憶された命令を実行可能で、メモリおよび1つ以上のプロセッサーを含むシステムを含み得る。

0077

マルチテナント統合
図15は、開示技術の1つ以上の実施例による、図1のシステムと統合することに適したマルチテナントシステムの例のブロック図である。図1のシステム100はマルチテナントシステムを使用して実施され得る。この件に関して、図15は、図1のシステム100と統合することに適したマルチテナントシステムの例の1つ以上の実施例の、概念のブロック図を提示する。

0078

一般的に、図15の図示されたマルチテナントシステム1500は、ここでは代替として「マルチテナントデータベース」と称される複数のテナント間共有される共通データベース1530からデータ1532に基づいて仮想アプリケーション1528Aおよび1528Bを動的に生成しサポートするサーバー1502を含む。仮想アプリケーション1528Aおよび1528Bによって生成されたデータおよびサービスは、ネットワーク1545を介して、任意の数のクライアント機器1540Aおよび1540Bに、要求に応じて提供される。仮想アプリケーション1528Aおよび1528Bはランタイム(またはオンデマンド)で、マルチテナントシステム1500へ加入した各様々なテナントへデータベース1530内のデータ1532へのセキュアアクセスを提供する共通アプリケーションプラットフォーム1510を使用して、適切に生成される。1つの非限定例として、マルチテナントシステム1500は、マルチテナントの、任意の数の認証されたユーザーをサポートできる、オンデマンド・マルチテナント顧客管理(CRM)システムの形で実施されている。

0079

ここで使用される「テナント」または「組織」とは、マルチテナントデータベース1530内におけるデータの共通のサブセットへのアクセスを共有する、一人以上のユーザーのグループを指す。関連して、各テナントは、それぞれのテナントに関連付けられた、またはアサインされた、さもなければ属する、一人以上のユーザーを含む。マルチテナントシステム1500内のそれぞれのユーザーは、マルチテナントシステム1500にサポートされる複数のテナントのうち特定のテナントに、関連付けられ、またはアサインされ、さもなければ属している。テナントは、ユーザー、ユーザーの部門、仕事または法律的な組織、および/または、マルチテナントシステム1500内の特定の組のユーザー用のデータを整備するためのその他の要素を表している。複数テナントがサーバー1502およびデータベース1530へのアクセスを共有するが、サーバー1502から各テナントへ提供される特定のデータおよびサービスは、他のテナントへ提供されるものから安全に孤立させることができる。従ってマルチテナントアーキテクチャーは、異なる組のユーザーが、他のテナントに属するかさもなければ関連付いているデータ1532を全く共有せずに、機能やハードウエアリソースを共有することを可能にする。

0080

マルチテナントデータベース1530は、任意の数のテナントに関連付けられたデータ1532を記憶し管理する、任意の種類のレポジトリまたは他のデータ記憶システムである。データベース1530は任意の型の従来のデータベースサーバーハードウエアを使用して実装されてもよい。様々な実施例において、データベース1530はサーバー1502と処理ハードウエアを共有する。他の実施例では、データベース1530は、本明細書において説明する様々な機能を実行するためにサーバー1502と通信する別個の物理的および/または仮想データベースサーバーハードウエアを使用して実装される。ある実施例では、データベース1530は、データベース管理システムまたはデータ1532の特定のサブセットを、仮想アプリケーション1528Aまたは1528Bにより開始されたかさもなければ提供されたクエリに応答して、仮想アプリケーション1528Aまたは1528Bのインスタンスへ引き出しまたは提供するため最適クエリプランを決定することができる他の同等のソフトウエアを含む。マルチテナントデータベース1530は、データをランタイムで、アプリケーションプラットフォーム1510によって生成されたオンデマンド仮想アプリケーション1528Aおよび1528Bに提供する(または提供することができる)ため、マルチテナントデータベース1530は本明細書において、代替としてオンデマンドデータベースとも称される。

0081

実際は、データ1532は、アプリケーションプラットフォーム1510をサポートするために任意の方法で整理され体裁を整えられる。様々な実施例において、データ1532は、セミアモルファスヒープ型フォーマットを整備するため、比較的少数大容量データテーブルへと適切に整理される。データ1532はその後特定の仮想アプリケーション1528Aまたは1528Bからの必要に応じて整理されてもよい。様々な実施例において、従来のデータの関係は、要求に応じて、従来のデータベース組織のインデックス付け一意性、要素間の関係、および/または他の局面を確立する、任意の数のピボットテーブル1534を使用して確立される。更なるデータ操作およびレポートフォーマットは、一般的には、様々なメタデータ構成を使用してランタイムで行われる。ユニバーサルデータデレクトリ(UDD)内のメタデータ1536は、例えば任意の数のフォームレポート、ワークフロー、ユーザーアクセス権、ワークロジックおよび、複数のテナントに共通する他の構成を説明するために使用され得る。テナント特有のフォーマット、機能および他の構成は、要求に応じて、テナント特有のメタデータ1538Aおよび1538Bとして整備されてもよい。データ1532を、無理にテナントやアプリケーションに共通の非柔軟なグローバルな構造をとらせるよりも、データベース1530は、比較的型にはまらないよう、要求に応じて追加の構造を提供するピボットテーブル1534およびメタデータ1538Aと1538Bと共に整理される。そのためにも、アプリケーションプラットフォーム1510は、仮想アプリケーション1528Aと1528Bの「仮想の」構成要素を生成し、またデータベース1530から比較的型にはまらないデータ1532を提示するため、ピボットテーブル1534および/またはメタデータ1538Aと1538Bを適切に使用する。

0082

サーバー1502は、仮想アプリケーション1528Aおよび1528Bを生成するための動的アプリケーションプラットフォーム1510を集合的に提供する、1つ以上の実際および/または仮想の計算システムを使用するよう実装される。例えば、サーバー1502は、典型的には、適宜、従来のネットワーク通信、クラスター管理、負荷バランスおよび他の機能と関連してお互いに併せて動作する、実際のおよび/または仮想のサーバーのクラスターを使用して実装される。サーバー1502は、プロセッサー1505、メモリ1506、入力/出力機能1507などの、任意の種類の従来の処理ハードウエアと共に動作する。入力/出力機能1507は一般的にはネットワークへのインターフェース(例えばネットワーク1545または任意の他のローカルエリア、広域、または他のネットワーク)、大容量記憶装置ディスプレイ装置データ入力装置等を表す。プロセッサー1505は、任意の数の「クラウドベースの」またはその他の仮想システムを含む、1つ以上のプロセッサー、制御器マイクロプロセッサーマイクロコントローラ処理コアおよび/または任意の数の分散または統合システム中に広がった他の計算資源などの、任意の適切な処理システムを使用して実装されてもよい。メモリ1506は、任意の種類のランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリ磁気または光学大容量記憶装置等を含む、プロセッサー1505上においてプログラム命令を記憶することができる短期または長期記憶装置または他のコンピューターにより読み取り可能な媒体を表す。コンピューターにより実行可能なプログラム命令は、サーバー1502および/またはプロセッサー1505により読み取られ実行されたとき、サーバー1502および/またはプロセッサー1505がアプリケーションプラットフォーム1510および/または仮想アプリケーション1528Aおよび1528Bを作成、生成、さもなければ促進し、本明細書にて説明される1つ以上の追加タスク、動作、機能、および/または処理を実行する。メモリ1506はコンピューターによって読み取り可能な媒体の1つの適切な実施例を示し、そして、代わりにまたは加えて、サーバー1502は、携帯用ハードドライブUSBフラッシュドライブ光学ディスクなどの、持ち運び可能な、または移動可能な構成要素またはアプリケーションプラットフォームとして実現される、外部のコンピューターにより読み取り可能な媒体により受信し協力して動作する。

0083

アプリケーションプラットフォーム1510は、クライアント機器1540Aおよび1540Bへデータおよび/またはサービスを提供する仮想アプリケーション1528Aおよび1528Bを生成する、任意の種類のソフトウエアアプリケーションまたは処理エンジンである。典型的な実施例では、アプリケーションプラットフォーム1510は、任意の種類の従来のまたは占有オペレーティングシステム1508を使用して、処理ハードウエア1502の処理リソース通信インターフェースおよび他の機能へのアクセスを獲得する。仮想アプリケーション1528Aおよび1528Bは、典型的には、クライアント機器1540Aおよび1540Bから受信した入力に応答してランタイムで生成される。図示された実施例において、アプリケーションプラットフォーム1510はバルクデータ処理エンジン1512、クエリ生成器1514、テキストインデックスおよび他の検索機能を提供する検索エンジン1516、およびランタイムアプリケーション生成器1520を含む。これらの各機能は別個のプロセスまたは他のモジュールとして実装されてもよく、また同等の実施例においては異なるおよび/または追加の機能、構成要素、または他のモジュールを要求に応じて含んでもよい。

0084

ランタイムアプリケーション生成器1520は、クライアント機器1540Aおよび1540Bからの特定の要求に応じて、仮想アプリケーション1528Aおよび1528Bを、動的にビルドし実行する。仮想アプリケーション1528Aおよび1528Bは典型的には、特定のアプリケーション1528Aおよび1528Bの特定の表、レポート、インターフェースおよび/または他の機能を説明する、テナント特有のメタデータ1538に従って構成される。様々な実施例において、各仮想アプリケーション1528Aおよび1528Bは、クライアント機器1540Aおよび1540Bと関連したブラウザーまたは他のクライアントプログラム1542Aおよび1542Bへ供給されることができる動的ウェブコンテンツを適宜生成する。

0085

ランタイムアプリケーション生成器1520はクエリ生成器1514と適切に相互作用し、クライアント機器1540Aおよび1540Bのユーザーによって開始された、さもなければ提供された入力クエリに応答して、データベース1530から必要に応じてマルチテナントデータ1532を効果的に入手する。典型的な実施例では、クエリ生成器1514は、(ユーザーに関連したテナントと共に)特定の機能を要求したユーザーのアイデンティティを考慮し、その後、ユニバーサルデータディレクトリ(UDD)内のシステムワイドなメタデータ1536、テナント特有のメタデータ1538、ピボットテーブル1534、および/または他の入手可能なリソースを使用してデータベース1530に対してクエリをビルドし実行する。従って、本例の中のクエリ生成器1514は、リクエストを開始したユーザーおよび/またはテナントのアクセス権とクエリが一貫していることを保証することで、共通データベース1530のセキュリティを維持する。このように、クエリ生成器1514は、要求を行ったユーザーおよび/またはテナントのための表、レポート、または仮想アプリケーション1528Aまたは1528Bの他の機能の内容物とするために、そのユーザーおよび/またはテナントからアクセス可能なデータ1532のサブセットをデータベース1530から安定して得る。

0086

図15をいまだに参照し、データ処理エンジン1512は、データ1532に対して、アップロードダウンロード、アップデート、オンライントランザクション処理等、などのバルク処理動作を行う。多くの実施例では、データ1532に対するより緊急でない処理は処理リソースが入手可能になった時点で起こるようにスケジュールし、その結果、クエリ生成器1514、検索エンジン1516、仮想アプリケーション1528Aおよび1528B等のようなより緊急なデータ処理優先度が割り当てられるようにしてもよい。

0087

実施例では、アプリケーションプラットフォーム1510は、サポートするテナントのためのデータ駆動仮想アプリケーション1528Aおよび1528Bを作成および/または生成することに使用される。このような仮想アプリケーション1528Aおよび1528Bは、カスタム(またはテナント特有)の画面1524、標準(またはユニバーサルな)画面1522等、のようなインターフェース機能を利用する。任意の数のカスタムおよび/または標準オブジェクト1526は、テナント上で開発された仮想アプリケーション1528Aおよび1528Bへの統合のために入手可能である。本明細書において使用される「カスタム」は各オブジェクトまたはアプリケーションがテナント特有(例えばマルチテナント中の特定のテナントに関連付けられたユーザーのみが利用可能)またはユーザー特有(例えばマルチテントシステム中の特定のユーザーのサブセットにとって利用可能)であることを意味し、一方「標準」または「ユニバーサル」アプリケーションはマルチテナントシステム中の複数のテナントにとって利用可能である。各仮想アプリケーション1528Aおよび1528Bに関連したデータ1532はデータベース1530へ適宜提供され、要求されるかまたは必要となるまで、特定の仮想アプリケーション1528Aおよび1528Bの特定の機能(例えばレポート、表、機能、オブジェクト、フィールド、数式、コード等)を説明するメタデータ1538と共に記憶される。例えば、仮想アプリケーション1528Aおよび1528Bはテナントへアクセスできる複数のオブジェクト1526を含み、テナントへアクセスできる各オブジェクト1526に対して、各オブジェクトの型に関連した様々なフィールドの値と共に、オブジェクトの型に関係のある情報がデータベース1530内のメタデータ1538として維持される。関連して、オブジェクトの型は、各オブジェクト1526の構造(例えばフォーマット、機能および他の構成)、および関連した様々なフィールドを定義する。

0088

引き続き図15を参照して、サーバー1502から提供されたデータおよびサービスは、ネットワーク1545上の、任意の種類のパーソナルコンピューター、携帯電話、タブレットおよびネットワーク接続可能なクライアント機器1540Aまたは1540Bを使用して引き出すことができる。実施例では、クライアント機器1540Aおよび1540Bは、マルチテナントデータベース1530から引き出されたデータおよび/または情報を図表によって提示可能なモニタースクリーン、または従来の電気ディスプレイなどのディスプレイ機器を含む。典型的には、ユーザーは、サーバー1502とネットワーク1545を介して、ハイパーテキスト転送プロトコルHTTP)などのネットワークプロトコルを使用して接触するために、クライアント機器1540Aおよび1540Bによって実行された従来のブラウザーアプリケーションまたは他のクライアントプログラム1542を操作する。典型的にはユーザーはサーバー1502へ彼または彼自身のアイデンティティを認証して、サーバー1502と続いて起こる通信においてユーザーを特定するセッション識別子(「セッションID」)を得る。特定されたユーザーガ仮想アプリケーション1528Aオヨビ1528Bヘノアクセスを要求すると、ランタイムアプリケーション生成器1520は、メタデータ1538に基づいてランタイムデアプリケーションを適宜、適切に作成する。上述されたように、仮想アプリケーション1528Aまたは1528BはJava、ActiveX、または他の、クライアント機器1540Aまたは1540B状で実行されている従来のクライアントソフトウエアを使用して提示され得る内容を含んでもよく、他の実施例においては単に、ユーザーによって提示され閲覧される、動的ウェブまたは他の内容を提供してもよい。

0089

上述の説明は、説明を目的としたものであり、対象または応用の実装、およびそのような実装の用途を限定することを目的とするものではない。さらに、技術分野、背景、または詳細な説明にて提示された、表現または含意された理論に制約する意図はない。本明細書中で使用されるように、「例の」という言葉は「例、実例、説明として働く」ということを意味する。本明細書中で説明されたいかなる実施例は、他の実施例よりも好ましく有利であると解釈される必要はなく、本明細書中で説明された実施例は対象または応用性をいかなる方法においても限定しようとする意図はない。

0090

簡潔さのために、データベース、ソーシャルネットワークユーザーインターフェース、およびシステムの他の機能的側面(およびシステムの各動作構成要素)に関連する従来の技術は本明細書中にて詳細には説明しない。加えて、実装は任意の数のシステムおよび/またはネットワークアーキテクチャーデータ転送プロトコル、および機器構成と共に実施されてもよく、そして本明細書において説明されたシステムは1つの適切な例に過ぎないことを、当業者は理解するであろう。さらに、本明細書において特定の用語は参照用途のみとして使用されており、従って限定する意図はない。例えば、用語「第一の」「第二の」およびこのような他の数字を含む用語は、文脈において明確に示されない限り、順序や順番を含意するものではない。

0091

本明細書中で機能および/または論理ブロック構成要素の観点から、および動作、処理タスク、および機能の記号表現を参照して説明される対象の実装は、様々な計算構成要素または装置により実行され得る。このような動作、タスク、および機能は、コンピューターにより実行される、コンピューターで処理される、ソフトウエアに実装される、またはコンピューターに実装されるものとして言及される。実際は、他の処理信号と同じように、データのビットを表現する電気信号を、1つ以上の処理システムまたは機器により、アクセス可能なメモリロケーションにて操作することにより、説明された動作、タスク、および機能を実行できる。データビットが維持されるメモリロケーションは、データビットに対応する特定の電気的、磁気的、光学的、または有機プロパティを持つ物理的ロケーションである。図に示される様々なブロック構成要素は任意の数のハードウエア、ソフトウエア、および/またはファームウエア構成要素によって実現されることが理解されるであろう。例えば、システムまたは構成要素の実装は、例えばメモリ要素デジタル信号処理要素、論理要素ルックアップテーブル等の、1つ以上のマイクロプロセッサーまたは他の制御装置により様々な機能を実行する、様々な集積回路を採用してもよい。ソフトウエアまたはファームウエア中に実装される場合は、本明細書中で説明されるシステムの様々な要素は、本質的には、様々なタスクを実行するコードセグメントまたは命令である。プログラムまたはコードセグメントはプロセッサーによって読み取り可能な媒体に記憶され、または通信媒体または通信経路上を搬送波盛り込まれたコンピューターデータ信号により送信される。「プロセッサーによって読み取り可能な媒体」または「機械によって読み取り可能な媒体」は情報を記憶または送信できる任意の媒体を含み得る。プロセッサーによって読み取り可能な媒体の例は、電子回路半導体メモリ装置、ROM、フラッシュメモリ、消去可能ROMEROM)、フロッピーディスクCD−ROM光ファイバー媒体、無線周波数(RF)リンク等を含み得る。コンピューターデータ信号は、電子ネットワークチャネル、光ファイバー、大気電磁路、またはRFリンクのような送信媒体上を伝播することができる任意の信号を含み得る。コードセグメントはインターネット、イントラネット、LAN等のコンピューターネットワークを介してダウンロードされ得る。関連して、本明細書において説明された対象は任意のコンピューターに実装されたシステムおよび/または協調し互いに通信する2つ以上の独立し異なるコンピューターに実装されたシステムにおいて実施され得る。1つ以上の実施例において、本明細書において説明された対象は仮想ユーザー関係管理(CRM)アプリケーションと併せてマルチテナント環境内で実施され得る。

0092

上に参照された任意のデータ構造およびコードは、多数の実施例によれば、コンピューターシステムが利用するためのコードおよび/またはデータを記憶可能な任意の装置または媒体であり得る、コンピューター可読記憶媒体に記憶される。これは、揮発性メモリ不揮発性メモリ特定用途向け集積回路ASIC)、フィールド・プログラマブルゲートアレイFPGA)、ディスクドライブ磁気テープ、CD(コンパクトディスク)、DVD(デジタル多目的ディスクまたはデジタルビデオディスク)のような磁気および光学記憶装置、または現在既知のまたは後に開発されたコンピューターによって読み取り可能な媒体を格納可能な他の媒体を、限定せず含む。

0093

前述の説明は、開示された技術を作成し利用する事を可能にするために提示された。開示された実施例の様々な変更が今後明らかになるが、本明細書中で定義された原則は、他の実施例そして開示された技術の精神と要旨から逸脱しない応用例へ適用されてもよい。従って、開示された技術は示された実施例に限定する意図はなく、本明細書中で開示された原理および機能と整合する最も広い範囲で認められるべきである。開示される技術の範囲は添付した特許請求の範囲により定義される。

0094

いくつかの態様を記載しておく。
〔態様1〕
ディープニューラルネットワークにおいて三次元(3D)データを畳み込む方法であって、前記方法は、
入力放射線体積を特徴づける三次元(3D)データを受信することと、
前記入力放射線体積を特徴づける前記3Dデータを、ディープニューラルネットワークを使用して処理して、前記入力放射線体積の代替特徴体積表現を生成することであって、前記ディープニューラルネットワークは複数のサブネットワークを含み、前記サブネットワークは最低から最高まで連続で配置され、前記ディープニューラルネットワークを使用した前記入力放射線体積を特徴づける前記データを処理することは、前記連続の中における前記サブネットワークのそれぞれを通して前記データを処理することを備え、
前記サブネットワークのうち3つ以上はモジュールサブネットワークであり、各前記モジュールサブネットワークは、
前記連続の中における前のサブネットワークにより生成された前の出力表現を受信し、
様々な畳み込み体積の少なくとも3つの並列3D畳み込み層経路を通して前記前の出力表現を処理し、
前記前の出力表現を並列3D Maxプーリング経路を通してさらに処理し、
前記3D畳み込み層経路および前記3D Maxプーリング経路の出力を連結して各前記モジュールサブネットワークからの出力表現を生成する
よう構成される、ことと、
前記3つ以上のモジュールサブネットワークを通して前記データを処理することに続いて、最高の前記モジュールサブネットワークの出力を垂直Maxプーリング層を通して処理し、前記入力放射線体積から削減された垂直次元の出力を生成することと、
を含む、方法。
〔態様2〕
最初の3D畳み込み層経路は、前記入力放射線体積からセミグローバルな特徴を抽出する3x3の畳み込みである、態様1に記載の方法。
〔態様3〕
2つ目の3D畳み込み層経路は、前記入力放射線体積からグローバルな特徴を抽出する5x5の畳み込みである、態様1に記載の方法。
〔態様4〕
3つ目の3D畳み込み層経路は、前記入力放射線体積からローカルな特徴を抽出する1x1の畳み込みである、態様1に記載の方法。
〔態様5〕
前記入力放射線体積は医療用スキャンから生成した、人間の内蔵の構造の、3Dの解剖学的形状のバリエーションを示す、態様1に記載の方法。
〔態様6〕
前記入力放射線体積は3Dモデルデータを表す、態様1に記載の方法。
〔態様7〕
前記入力放射線体積はCAD(コンピューター支援設計)のモデルデータを表す、態様1に記載の方法。
〔態様8〕
前記入力放射線体積は3Dの点群を表す、態様1に記載の方法。
〔態様9〕
前記サブネットワークの3D畳み込み層経路の前記出力表現を3Dバッチ正規化によって状態を調整することであって、
前記3Dバッチ正規化は、前記代替特徴体積表現内の各特徴へ独立して適用され、バッチごとに適用され、
あるバッチ内の前記代替特徴量表現に対して、前記3Dバッチ正規化により画像データ量のスケール変更およびシフトが行われ、正規化された代替特徴体積表現は、画像データ量にゼロ平均と単位分散とを持つ、こと
をさらに含む態様1に記載の方法。
〔態様10〕
前記正規化された代替特徴体積表現を、パラメーター化された非線形活性化を通して、前記ディープニューラルネットワークの訓練が前記3Dバッチ正規化を減殺できるような学習可能なスケール変更およびシフトパラメーターによって、直ちに処理すること、をさらに含む態様9に記載の方法。
〔態様11〕
ディープニューラルネットワークにおいて三次元(3D)データを畳み込む方法であって、前記方法は、
入力放射線体積を特徴づける三次元(3D)データを受信することと、
前記入力放射線体積を特徴づける前記3Dデータを、ディープニューラルネットワークを使用して処理して、前記入力放射線体積の代替特徴体積表現を生成することであって、前記ディープニューラルネットワークは複数のサブネットワークを含み、前記サブネットワークは最低から最高まで連続で配置され、前記ディープニューラルネットワークを使用した前記入力放射線体積を特徴づける前記データを処理することは、前記連続の中における前記サブネットワークのそれぞれを通して前記データを処理することを備え、
前記サブネットワークのうち3つ以上はモジュールサブネットワークであり、各前記モジュールサブネットワークは、
前記連続の中における前のサブネットワークにより生成された前の出力表現を受信し、
様々な畳み込み体積の少なくとも3つの並列3D畳み込み層経路に対して、次元削減層において複数のスケールの畳み込み値によって前記前の出力表現を処理し、
さらに前記前の出力表現を並列3Dプーリング経路によって処理し、
前記3D畳み込み層経路および前記3Dプーリング経路の出力を連結して各前記モジュールサブネットワークからの出力表現を生成する
よう構成される、ことと、
前記3以上のモジュールサブネットワークを通して前記データを処理することに続いて、最高の前記モジュールサブネットワークの出力を垂直プーリング層を通して処理し、前記入力放射線体積から削減された垂直次元の出力を生成することと、
を含む、方法。
〔態様12〕
最初の3D畳み込み層経路は、前記入力放射線体積からセミグローバルな特徴を抽出する3x3の畳み込みである、態様11に記載の方法。
〔態様13〕
2つ目の3D畳み込み層経路は、前記入力放射線体積からグローバルな特徴を抽出する5x5の畳み込みである、態様11に記載の方法。
〔態様14〕
前記次元削減層は、前記入力放射線体積からローカルな特徴を抽出する1x1の畳み込みである、態様11に記載の方法。
〔態様15〕
前記サブネットワークによる処理に先立ち、前記入力放射線体積に対して、1つ以上の予備の3Dおよび/または2D畳み込みを適用すること、をさらに含む態様11に記載の方法。
〔態様16〕
前記サブネットワークによる処理に先立ち、前記入力放射線体積に対して、1つ以上の予備の3Dおよび/または2Dプーリング操作を適用すること、をさらに含む態様11に記載の方法。
〔態様17〕
前記サブネットワークによる処理の後に、前記入力放射線体積に対して、1つ以上の後処理の3Dおよび/または2D畳み込みを適用すること、をさらに含む態様11に記載の方法。
〔態様18〕
前記サブネットワークによる処理の後に、前記入力放射線体積に対して、1つ以上の後処理の3Dおよび/または2Dプーリング操作を適用すること、をさらに含む態様11に記載の方法。
〔態様19〕
前記サブネットワークの3D畳み込み層経路の前記出力表現を3Dバッチ正規化によって状態を調整することであって、
前記3Dバッチ正規化は、前記代替特徴体積表現内の各特徴へ独立して適用され、バッチごとに適用され、
あるバッチ内の前記代替特徴量表現に対して、前記3Dバッチ正規化により画像データ量のスケール変更およびシフトが行われ、正規化された代替特徴体積表現は、画像データ量にゼロ平均と単位分散とを持つ、こと
をさらに含む態様11に記載の方法。
〔態様20〕
前記正規化された代替特徴体積表現を、パラメーター化された非線形活性化を通して、前記ディープニューラルネットワークの訓練が前記3Dバッチ正規化を減殺できるような学習可能なスケール変更およびシフトパラメーターによって、直ちに処理すること、をさらに含む態様19に記載の方法。
〔態様21〕
コンピュータープログラム命令を記録した非一時的なコンピューター可読記憶媒体であって、前記命令は、プロセッサー上で実行されたとき、態様1の方法を実行する、非一時的なコンピューター可読記憶媒体。
〔態様22〕
コンピュータープログラム命令を記録した非一時的なコンピューター可読記憶媒体であって、前記命令は、プロセッサー上で実行されたとき、態様9の方法を実行する、非一時的なコンピューター可読記憶媒体。
〔態様23〕
コンピュータープログラム命令を記録した非一時的なコンピューター可読記憶媒体であって、前記命令は、プロセッサー上で実行されたとき、態様10の方法を実行する、非一時的なコンピューター可読記憶媒体。
〔態様24〕
コンピュータープログラム命令を記録した非一時的なコンピューター可読記憶媒体であって、前記命令は、プロセッサー上で実行されたとき、態様11の方法を実行する、非一時的なコンピューター可読記憶媒体。
〔態様25〕
メモリに接続された1つ以上のプロセッサーを含むシステムであって、前記メモリにはコンピューター命令が搭載されており、前記命令は前記プロセッサー上で実行されたとき、態様1の動作を実行する、システム。
〔態様26〕
メモリに接続された1つ以上のプロセッサーを含むシステムであって、前記メモリにはコンピューター命令が搭載されており、前記命令は前記プロセッサー上で実行されたとき、態様9の動作を実行する、システム。
〔態様27〕
メモリに接続された1つ以上のプロセッサーを含むシステムであって、前記メモリにはコンピューター命令が搭載されており、前記命令は前記プロセッサー上で実行されたとき、態様10の動作を実行する、システム。
〔態様28〕
メモリに接続された1つ以上のプロセッサーを含むシステムであって、前記メモリにはコンピューター命令が搭載されており、前記命令は前記プロセッサー上で実行されたとき、態様11の動作を実行する、システム。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士通株式会社の「 最適化装置及び最適化装置の制御方法」が 公開されました。( 2019/09/19)

    【課題】評価関数がペナルティ関数項を含む最適化問題に対して計算時間を短縮する。【解決手段】第1評価関数計算部21は評価関数のうちコスト関数項Eiを、第2評価関数計算部22は評価関数のうちペナルティ関数... 詳細

  • オムロン株式会社の「 学習装置、学習方法、及びそのプログラム」が 公開されました。( 2019/09/19)

    【課題】処理対象物に対する、加工・組立等の処理において、制御対象に与える指令値を生成するための補正量を効率的に学習する技術を提供する。【解決手段】補正量に基づいて目標値を補正した指令値を出力するコント... 詳細

  • 株式会社トヨタシステムズの「 動体検出装置」が 公開されました。( 2019/09/19)

    【課題】 カメラ視野が変化している場合であってもそのカメラによって撮影された画像上の動体が映る領域を特定することが可能であり且つその動体の画像上の移動に伴う動体周辺の領域が変化している場合であっても... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ