図面 (/)

技術 データ処理装置、データ処理プログラム、それを格納したコンピュータ読み取り可能な記録媒体、およびデータ処理方法

出願人 国立大学法人京都大学
発明者 奥野恭史辻本豪三梁智允種石慶
出願日 2005年6月30日 (14年7ヶ月経過) 出願番号 2005-192675
公開日 2007年1月18日 (13年1ヶ月経過) 公開番号 2007-011752
状態 拒絶査定
技術分野 特定用途計算機 検索装置
主要キーワード 統計的法則 エネルギー最適化 関係情報テーブル 力場パラメータ 分類機 二軸座標 プロファイル表 分類ツール
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2007年1月18日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

経験的力場関数を用いたエネルギー最適化基礎とすることなく、活性未知化合物や、機能未知または立体構造が未知であるタンパク質に対しても適用可能な、タンパク質と化合物との相互作用に関するデータ処理装置を提供する。

解決手段

2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理部と、前記クラスタリング処理部による既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成部とを備えるデータ処理装置とする。

概要

背景

医薬品や生理性物質の作用は、標的となるタンパク質や遺伝子との結合によって活性発現されることから、タンパク質または遺伝子(以下、「タンパク質等」という)と化合物との相互作用予測や、メカニズム解明は、医薬品開発やバイオ産業に多大な貢献を果たしている。

タンパク質等と化合物との相互作用を予測する従来技術としては、一般に、立体構造モデルを用いた予測システムが知られている。このシステムは、生体高分子立体構造の情報に基づき、リガンドとの安定な複合体構造およびその結合の強さを推定する方法であり、このようなアプローチドッキングスタディと呼ばれている。そして、グラフィクス画面において、マニュアル操作によって安定しそうリガンド分子との複合体構造を探す対話的手法に対して、近年、結合様式配座についての自由度を自動的に考慮しながら存在可能性の高い複合体構造を探索する自動ドッキング法の開発が進んでいる(非特許文献1、非特許文献2、特許文献1参照)。さらに、自動ドッキング法で得られる各化合物の安定複合体構造がエネルギー値やその他の条件を満たすか否かによって、膨大な化合物の3次元構造データベースから少数候補化合物を選択し、実験的に活性を確認することによって新規リガンドを見出す方法の開発も進んでいる(特許文献2参照)。

しかしながら、これらのアプローチは、いずれも経験に基づいて定められる力場関数を用いたエネルギー最適化基礎としている。このため、信頼性の高い相互作用予測は、その対象が、使用する経験的力場パラメータ適用範囲内である化合物群タンパク質群に限定されてしまう。したがって、例えば、活性未知の化合物や機能未知のタンパク質に対する予測には適用が困難な状態である。また、前述のドッキング手順からわかるように、立体構造が未知のタンパク質や化合物に対しても適用が困難という問題がある。

また、このような研究を行うためには、タンパク質と化合物に関するデータベース入手が不可欠であり、代表的なデータベースとして、例えば、KEGG(京都大学)、Biochemical Pathways(Boehringer Mannheim)、WIT(Russian Academy of Sciences)、Biofrontire(呉羽化学)、Protein Pathway(AxCell)、bioSCOUT(LION)、EcoCyc(DoubleTWist)、UM−BBD(ミネソタ大学)、KeyMolnet(医薬分子設計研)、GPCRDB(CMBI)、IUPHARなどがあげられる。しかしながら、これらのデータベースは、今日までに実験的に決定された代謝経路シグナル伝達経路に関する情報をテキスト形式GI画像形式表現しているため、情報提供にすぎず、相互作用予測に使用するには限界があった。
DOCK” R. L. DesJarlais et al, J. Med. Chem. 29, p.2149, 1986
“FlexX” Protesin, 37, p.228, 1999
米国特許5,642,292 “ADAM”
国際公開第96/13785号パンフレット

概要

経験的力場関数を用いたエネルギー最適化を基礎とすることなく、活性未知な化合物や、機能未知または立体構造が未知であるタンパク質に対しても適用可能な、タンパク質と化合物との相互作用に関するデータ処理装置を提供する。 2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理部と、前記クラスタリング処理部による既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成部とを備えるデータ処理装置とする。

目的

したがって、本発明は、例えば、従来のように経験的力場関数を用いたエネルギー最適化を基礎とすることなく、活性未知な化合物や、機能未知または立体構造が未知であるタンパク質に対しても適用可能な、タンパク質と化合物との相互作用に関するデータ処理装置、データ処理プログラムデータ処理方法等の提供を目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネルおよび2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理部と、前記クラスタリング処理部による既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成部とを備えるデータ処理装置

請求項2

さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示部を備える、請求項1記載のデータ処理装置。

請求項3

さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第1の情報入力部と、前記第1の情報入力部より入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルまたはカーネル、および、前記既知化合物相互の距離を示すプロファイルまたはカーネルに変換し、前記タンパク質相互の距離を示すプロファイルまたはカーネル、および、前記既知化合物相互の距離を示すプロファイルまたはカーネルを、前記クラスタリング処理部に出力するプロファイル変換部とを備える、請求項1または2記載のデータ処理装置。

請求項4

さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第2の情報入力部を備える、請求項1または2記載のデータ処理装置。

請求項5

さらに、前記既知タンパク質のプロファイルもしくはカーネル、前記既知化合物のプロファイルもしくはカーネル、および前記分布データ作成部による前記既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則機械学習し、前記機械学習による統計的法則から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する予測部を備える、請求項1〜4のいずれか一項に記載のデータ処理装置。

請求項6

前記予測部が、機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行う、請求項5記載のデータ処理装置。

請求項7

さらに、前記分布データ作成部による前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとして前記予測部に出力するデータ選択部を備える、請求項5または6記載のデータ処理装置。

請求項8

さらに、予測部による予測結果を出力する予測結果出力部を備える、請求項5〜7のいずれか一項に記載のデータ処理装置。

請求項9

さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第1の情報入力部と、前記第1の情報入力部より入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルまたはカーネル、および、前記既知化合物相互の距離を示すプロファイルまたはカーネルに変換し、前記タンパク質相互の距離を示すプロファイルまたはカーネル、および、前記既知化合物相互の距離を示すプロファイルまたはカーネルを、前記クラスタリング処理部に出力するプロファイル変換部と、目的タンパク質の配列情報または目的化合物の情報を入力する第3の情報入力部を備え、前記プロファイル変換部が、さらに、前記第3の情報入力部より入力された目的タンパク質の配列情報を、前記第1の情報入力部より入力された既知タンパク質の配列情報に基づき、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネルに変換し、または、前記第3の情報入力部により入力された目的化合物の情報を、前記第1の情報入力部により入力された既知化合物の情報に基づき、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルに変換し、変換された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを前記予測部に出力し、前記予測部が、前記統計的法則から得られる結果と、前記プロファイル変換部による前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する、請求項5〜8のいずれか一項に記載のデータ処理装置。

請求項10

さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第2の情報入力部と、目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを入力する第4の情報入力部とを備え、前記予測部において、前記統計的法則から得られる結果と、前記第4の情報入力部より入力された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する、請求項5〜8のいずれか一項に記載のデータ処理装置。

請求項11

前記化合物相互の距離を示すプロファイルもしくはカーネルが、化合物の化学構造および物理化学特性の少なくとも一方の情報から変換されたプロファイルもしくはカーネルである、請求項1〜10のいずれか一項に記載のデータ処理装置。

請求項12

前記タンパク質相互の距離を示すプロファイルもしくはカーネルが、タンパク質の塩基配列アミノ酸配列、塩基配列ならびにアミノ酸配列の少なくとも一方から決定されたモチーフ疎水性指標および二次構造からなる群から選択された少なくとも一つの情報から変換されたプロファイルもしくはカーネルである、請求項1〜11のいずれか一項に記載のデータ処理装置。

請求項13

前記タンパク質が、立体構造不明のタンパク質である請求項1〜12のいずれか一項に記載のデータ処理装置。

請求項14

前記タンパク質が、Gタンパク質共役型受容体である請求項1〜13のいずれか一項に記載のデータ処理装置。

請求項15

2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理ステップと、前記既知タンパク質のクラスタリング結果および前記既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成ステップとを、コンピュータに実行させるデータ処理プログラム

請求項16

さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示ステップをコンピュータに実行させる、請求項15記載のデータ処理プログラム。

請求項17

さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第1の入力ステップと、入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換し、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルを、前記クラスタリング処理部に出力する第1のプロファイル変換ステップとを、コンピュータに実行させる、請求項15または16記載のデータ処理プログラム。

請求項18

さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第2の入力ステップを、コンピュータに実行させる請求項15または16記載のデータ処理プログラム。

請求項19

さらに、前記既知タンパク質のプロファイルもしくはカーネル、前記既知化合物のプロファイルもしくはカーネル、および前記分布データ作成ステップにおける前記既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を機械学習し、前記機械学習による統計的法則から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する予測ステップを、コンピュータに実行させる請求項15〜18のいずれか一項に記載のデータ処理プログラム。

請求項20

前記予測ステップが、前記機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行うステップである、請求項19記載のデータ処理プログラム。

請求項21

さらに、前記分布データ作成ステップにおける前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとして前記予測ステップに出力するデータ選択ステップを、コンピュータに実行させる請求項19または20記載のデータ処理プログラム。

請求項22

さらに、前記予測ステップにおける予測結果を出力する予測結果出力ステップを、コンピュータに実行させる請求項19〜21のいずれか一項に記載のデータ処理プログラム。

請求項23

さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第1の情報入力ステップと、入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換し、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルを、前記クラスタリング処理ステップに出力する第1のプロファイル変換ステップと、目的タンパク質の配列情報または目的化合物の情報の入力を受け付ける第3の情報入力ステップと、入力された目的タンパク質の配列情報を、入力された既知タンパク質の配列情報に基づき、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネルに変換し、または、入力された目的化合物の情報を、入力された既知化合物の情報に基づき、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルに変換し、変換された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを前記予測ステップに出力する第2のプロファイル変換ステップと、前記統計的法則から得られる結果と、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する前記予測ステップとを、コンピュータに実行させる請求項19〜21のいずれか一項に記載のデータ処理プログラム。

請求項24

さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第2の情報入力ステップと、目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを入力する第4の情報入力ステップと、前記統計的法則から得られる結果と、入力された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する前記予測ステップとを、コンピュータに実行させる、請求項19〜22のいずれか一項に記載のデータ処理プログラム。

請求項25

請求項15〜24のいずれか一項に記載のデータ処理プログラムを格納したコンピュータ読み取り可能な記録媒体

請求項26

タンパク質と化合物との相互作用に関するデータ処理方法であって、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理工程と、前記既知タンパク質のクラスタリング結果および前記既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成工程とを含むデータ処理方法。

請求項27

さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示工程を含む、請求項26記載のデータ処理方法。

請求項28

さらに、2以上の既知タンパク質の配列情報および2以上の既知化合物の情報から、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換する工程を含む請求項26または27記載のデータ処理方法。

請求項29

さらに、前記既知タンパク質のプロファイルもしくはカーネル、前記既知化合物のプロファイルもしくはカーネル、および前記分布データ作成工程における前記既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を機械学習し、前記機械学習による統計的法則から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する予測工程を含む、請求項26〜28のいずれか一項に記載のデータ処理方法。

請求項30

前記予測工程において、機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行う、請求項29記載のデータ処理方法。

請求項31

さらに、前記分布データ作成工程における前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとするデータ選択工程を含む、請求項29または30記載のデータ処理方法。

請求項32

さらに、予測工程における予測結果を出力する予測結果出力工程を含む、請求項29〜31のいずれか一項に記載のデータ処理方法。

請求項33

前記予測工程が、前記統計的法則から得られる結果と前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、前記目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する工程である、請求項29〜32のいずれか一項に記載のデータ処理方法。

請求項34

既知タンパク質と既知化合物との既知相互作用の分布データのデータ構造であって、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネルをクラスタリングして得られた既知タンパク質プロファイルもしくはカーネルと、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルをクラスタリングして得られた既知化合物プロファイルもしくはカーネルと、前記2以上の既知タンパク質のうち1の既知タンパク質に対応する既知タンパク質プロファイルもしくはカーネルと、前記2以上の既知化合物のうち1の既知化合物に対応する既知化合物プロファイルもしくはカーネルとに対応づけて、当該1の既知タンパク質と当該1の既知化合物との相互作用の情報が含まれていることを特徴とするデータ構造。

請求項35

請求項34に記載のデータ構造を有するデータを記録した記録媒体。

技術分野

0001

本発明は、タンパク質化合物との相互作用に関するデータ処理装置データ処理プログラム、それを格納したコンピュータ読み取り可能な記録媒体、およびデータ処理方法に関する。

背景技術

0002

医薬品や生理性物質の作用は、標的となるタンパク質や遺伝子との結合によって活性発現されることから、タンパク質または遺伝子(以下、「タンパク質等」という)と化合物との相互作用の予測や、メカニズム解明は、医薬品開発やバイオ産業に多大な貢献を果たしている。

0003

タンパク質等と化合物との相互作用を予測する従来技術としては、一般に、立体構造モデルを用いた予測システムが知られている。このシステムは、生体高分子立体構造の情報に基づき、リガンドとの安定な複合体構造およびその結合の強さを推定する方法であり、このようなアプローチドッキングスタディと呼ばれている。そして、グラフィクス画面において、マニュアル操作によって安定しそうリガンド分子との複合体構造を探す対話的手法に対して、近年、結合様式配座についての自由度を自動的に考慮しながら存在可能性の高い複合体構造を探索する自動ドッキング法の開発が進んでいる(非特許文献1、非特許文献2、特許文献1参照)。さらに、自動ドッキング法で得られる各化合物の安定複合体構造がエネルギー値やその他の条件を満たすか否かによって、膨大な化合物の3次元構造データベースから少数候補化合物を選択し、実験的に活性を確認することによって新規リガンドを見出す方法の開発も進んでいる(特許文献2参照)。

0004

しかしながら、これらのアプローチは、いずれも経験に基づいて定められる力場関数を用いたエネルギー最適化基礎としている。このため、信頼性の高い相互作用予測は、その対象が、使用する経験的力場パラメータ適用範囲内である化合物群タンパク質群に限定されてしまう。したがって、例えば、活性未知の化合物や機能未知のタンパク質に対する予測には適用が困難な状態である。また、前述のドッキング手順からわかるように、立体構造が未知のタンパク質や化合物に対しても適用が困難という問題がある。

0005

また、このような研究を行うためには、タンパク質と化合物に関するデータベース入手が不可欠であり、代表的なデータベースとして、例えば、KEGG(京都大学)、Biochemical Pathways(Boehringer Mannheim)、WIT(Russian Academy of Sciences)、Biofrontire(呉羽化学)、Protein Pathway(AxCell)、bioSCOUT(LION)、EcoCyc(DoubleTWist)、UM−BBD(ミネソタ大学)、KeyMolnet(医薬分子設計研)、GPCRDB(CMBI)、IUPHARなどがあげられる。しかしながら、これらのデータベースは、今日までに実験的に決定された代謝経路シグナル伝達経路に関する情報をテキスト形式GI画像形式表現しているため、情報提供にすぎず、相互作用予測に使用するには限界があった。
DOCK” R. L. DesJarlais et al, J. Med. Chem. 29, p.2149, 1986
“FlexX” Protesin, 37, p.228, 1999
米国特許5,642,292 “ADAM”
国際公開第96/13785号パンフレット

発明が解決しようとする課題

0006

したがって、本発明は、例えば、従来のように経験的力場関数を用いたエネルギー最適化を基礎とすることなく、活性未知な化合物や、機能未知または立体構造が未知であるタンパク質に対しても適用可能な、タンパク質と化合物との相互作用に関するデータ処理装置、データ処理プログラム、データ処理方法等の提供を目的とする。

課題を解決するための手段

0007

前記目的を達成するため、本発明のデータ処理装置は、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理部と、前記クラスタリング処理部による既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成部とを備えることを特徴とする。

0008

また、本発明のデータ処理プログラムは、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理ステップと、前記既知タンパク質のクラスタリング結果および前記既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成ステップとを、コンピュータに実行させることを特徴とする。また、本発明の記録媒体は、本発明のデータ処理プログラムを格納したコンピュータ読み取り可能な記録媒体である。

0009

また、本発明のデータ処理方法は、タンパク質と化合物との相互作用に関するデータ処理方法であって、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理工程と、前記既知タンパク質のクラスタリング結果および前記既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成工程とを含むことを特徴とする。

0010

また、本発明のデータ構造は、既知タンパク質と既知化合物との既知相互作用の分布データのデータ構造であって、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネルをクラスタリングして得られた既知タンパク質プロファイルもしくはカーネルと、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルをクラスタリングして得られた既知化合物プロファイルもしくはカーネルと、前記2以上の既知タンパク質のうち1の既知タンパク質に対応する既知タンパク質プロファイルもしくはカーネルと、前記2以上の既知化合物のうち1の既知化合物に対応する既知化合物プロファイルもしくはカーネルとに対応づけて、当該1の既知タンパク質と当該1の既知化合物との相互作用の情報が含まれていることを特徴とする。また、本発明の記録媒体は、本発明のデータ構造を有するデータを記録した記録媒体である。

発明の効果

0011

本発明によれば、既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知相互作用の分布データが作成される。具体的には、例えば、タンパク質側のデータと既知相互作用の情報との対比もしくは化合物側のデータと既知相互作用の情報との対比という、いずれか一方の対比のみではなく、タンパク質相互の対比、化合物相互の対比に加え、さらにタンパク質と化合物の両方に前記既知相互作用の情報を対比させている。このような分布データに基づけば、例えば、目的タンパク質に相互作用する化合物または目的化合物が相互作用するタンパク質の予測を、従来よりも優れた精度で行うことができる。また、従来の既存のデータベースは、タンパク質と化合物間の相互作用を様々な観点から把握する機能はなく、機械学習を利用した相互作用の予測への適用には適していないことからも、本発明は、タンパク質と化合物との間における相互作用に関する極めて新しい手法であるといえる。

0012

さらに、本発明で使用するタンパク質のデータは、タンパク質相互のクラスタリングを行うことができるデータ(タンパク質相互の距離を示すプロファイルもしくはカーネル)であればよく、従来のような機能や立体構造等の情報は必須ではない。また、同様に使用する化合物のデータも、化合物相互のクラスタリングを行うことができるデータ(化合物相互の距離を示すプロファイルもしくはカーネル)であればよく、従来のような活性等に関する情報は必須ではない。このため、従来法では予測できなかった機能や立体構造が未知のタンパク質、活性未知の化合物についても、本発明により既知相互作用に関する分布データを作成すれば、容易に相互作用を示す化合物やタンパク質の予測が可能となる。したがって、本発明のデータ処理装置は、例えば、前述のような医薬品開発やバイオ産業において極めて有用な装置と言える。

発明を実施するための最良の形態

0013

本発明のデータ処理装置は、さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記既知相互作用の分布データを表示するマップ表示部を備えることが好ましい。

0014

本発明のデータ処理装置は、既知タンパク質の配列情報や既知化合物の情報をそのまま使用する場合、さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第1の情報入力部と、前記第1の情報入力部より入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイル(以下、「既知タンパク質プロファイル」ともいう)もしくはカーネル、および前記既知化合物相互の距離を示すプロファイル(以下、「既知化合物プロファイル」ともいう)もしくはカーネルに変換し、前記既知タンパク質プロファイルもしくはカーネル、および、前記既知化合物プロファイルもしくはカーネルを、前記クラスタリング処理部に出力するプロファイル変換部とを備えることが好ましい。一方、前記既知タンパク質プロファイルもしくはカーネル、および、前記化合物プロファイルもしくはカーネルを使用する場合には、さらに、前記既知タンパク質プロファイルもしくはカーネル、前記既知化合物プロファイルもしくはカーネル、および、前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第2の情報入力部を備えることが好ましい。

0015

本発明のデータ処理装置は、さらに、前記既知タンパク質のプロファイルもしくはカーネル、前記既知化合物のプロファイルもしくはカーネル、および、前記分布データ作成部による前記既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を機械学習し、前記機械学習による統計的法則から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する予測部を備えることが好ましい。このようにタンパク質と化合物との相互作用に関する統計的法則を機械学習すれば、統計的法則から得られる結果により、従来よりも精度よく目的タンパク質に対して相互作用を示す化合物の予測や目的化合物に対して相互作用を示す化合物の予測を行うことができる。

0016

本発明のデータ処理装置において、前記予測部が、機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行うことが好ましい。パラメータの決定により、例えば、新規化合物や新規タンパク質との相互作用を容易に予測できるシステムを構築できる。

0017

本発明のデータ処理装置において、さらに、前記分布データ作成部による前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとして前記予測部に出力するデータ選択部を備えることが好ましい。このように分布データから適切な範囲を選択することによって、より精度良く予測を行うことができる。

0018

本発明のデータ処理装置において、さらに、予測部による予測結果を出力する予測結果出力部を備えることが好ましい。

0019

本発明のデータ処理装置において、タンパク質の配列情報や化合物の情報をそのまま使用する場合には、さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第1の情報入力部と、前記第1の情報入力部より入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換し、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルを、前記クラスタリング処理部に出力するプロファイル変換部と、目的タンパク質の配列情報または目的化合物の情報を入力する第3の情報入力部を備え、前記プロファイル変換部が、さらに、前記第3の情報入力部より入力された目的タンパク質の配列情報を、前記第1の情報入力部より入力された既知タンパク質の配列情報に基づき、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネルに変換し、または、前記第3の情報入力部により入力された目的化合物の情報を、前記第1の情報入力部により入力された既知化合物の情報に基づき、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルに変換し、変換された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを前記予測部に出力し、
前記予測部が、前記統計的法則から得られる結果と、前記プロファイル変換部による前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測することが好ましい。このように目的タンパク質を既知タンパク質と同様にプロファイルもしくはカーネルに変換することによって、目的タンパク質または目的化合物についての相互作用を容易に予測することができる。

0020

また、本発明のデータ処理装置において、タンパク質または化合物のプロファイルもしくはカーネルを使用する場合には、さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および、前記既知タンパク質と既知化合物との既知相互作用の情報を入力する第2の情報入力部と、目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを入力する第4の情報入力部とを備え、前記予測部において、前記統計的法則から得られる結果と、前記第4の情報入力部より入力された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測することが好ましい。このように目的タンパク質を既知タンパク質と同様に変換したプロファイルもしくはカーネルを使用することによって、目的タンパク質または目的化合物についての相互作用を容易に予測することができる。

0021

本発明のデータ処理プログラムは、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理ステップと、前記既知タンパク質のクラスタリング結果および前記既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成ステップとを、コンピュータに実行させることを特徴とする。

0022

本発明のデータ処理プログラムは、さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示ステップをコンピュータに実行させることが好ましい。

0023

本発明のデータ処理プログラムは、さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第1の入力ステップと、入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換するプロファイル変換し、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルを、前記クラスタリング処理部に出力する第1のプロファイル変換ステップとを、コンピュータに実行させることが好ましい。

0024

本発明のデータ処理プログラムは、さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および、前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第2の入力ステップを、コンピュータに実行させることが好ましい。

0025

本発明のデータ処理プログラムは、さらに、前記既知タンパク質のプロファイルもしくはカーネル、前記既知化合物のプロファイルもしくはカーネル、および、前記分布データ作成ステップにおける前記既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を機械学習し、前記機械学習による統計的法則から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する予測ステップを、コンピュータに実行させることが好ましい。

0026

本発明のデータ処理プログラムは、前記予測ステップが、前記機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行うステップであることが好ましい。

0027

本発明のデータ処理プログラムは、さらに、前記分布データ作成ステップにおける前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとして前記予測ステップに出力するデータ選択ステップを、コンピュータに実行させることが好ましい。

0028

本発明のデータ処理プログラムは、さらに、前記予測ステップにおける予測結果を出力する予測結果出力ステップを、コンピュータに実行させることが好ましい。

0029

本発明のデータ処理プログラムは、さらに、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第1の情報入力ステップと、
入力された前記既知タンパク質の配列情報および前記既知化合物の情報を、それぞれ前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換し、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルを、前記クラスタリング処理ステップに出力する第1のプロファイル変換ステップと、目的タンパク質の配列情報または目的化合物の情報の入力を受け付ける第3の情報入力ステップと、入力された目的タンパク質の配列情報を、入力された既知タンパク質の配列情報に基づき、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネルに変換し、または、入力された目的化合物の情報を、入力された既知化合物の情報に基づき、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルに変換し、変換された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを前記予測ステップに出力する第2のプロファイル変換ステップと、前記統計的法則から得られる結果と、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する前記予測ステップとを、コンピュータに実行させることが好ましい。

0030

本発明のデータ処理プログラムは、さらに、前記既知タンパク質相互の距離を示すプロファイルもしくはカーネル、前記既知化合物相互の距離を示すプロファイルもしくはカーネル、および、前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける第2の情報入力ステップと、目的タンパク質の前記既知タンパク質に対する距離を示す、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルを入力する第4の情報入力ステップと、前記統計的法則から得られる結果と、入力された前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する前記予測ステップとを、コンピュータに実行させることが好ましい。

0031

本発明の記録媒体は、本発明のデータ処理プログラムを格納したコンピュータ読み取り可能な記録媒体である。

0032

本発明のデータ処理方法は、タンパク質と化合物との相互作用に関するデータ処理方法であって、2以上の既知タンパク質相互の距離を示すプロファイルもしくはカーネル、および、2以上の既知化合物相互の距離を示すプロファイルもしくはカーネルを、それぞれクラスタリングするクラスタリング処理工程と、前記既知タンパク質のクラスタリング結果および前記既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する分布データ作成工程とを含むことを特徴とする。

0033

本発明のデータ処理方法は、さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示工程を含むことが好ましい。

0034

本発明のデータ処理方法は、さらに、2以上の既知タンパク質の配列情報および2以上の既知化合物の情報から、前記タンパク質相互の距離を示すプロファイルもしくはカーネル、および、前記既知化合物相互の距離を示すプロファイルもしくはカーネルに変換する工程を含むことが好ましい。

0035

本発明のデータ処理方法は、さらに、前記既知タンパク質のプロファイルもしくはカーネル、前記既知化合物のプロファイルもしくはカーネル、および、前記分布データ作成工程における前記既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を機械学習し、前記機械学習による統計的法則から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する予測工程を含むことが好ましい。

0036

本発明のデータ処理方法は、前記予測工程において、機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行うことが好ましい。

0037

本発明のデータ処理方法は、さらに、前記分布データ作成工程における前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとするデータ選択工程を含むことが好ましい。

0038

本発明のデータ処理方法は、さらに、予測工程における予測結果を出力する予測結果出力工程を含むことが好ましい。

0039

本発明のデータ処理方法は、前記予測工程が、前記統計的法則から得られる結果と前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルもしくはカーネル、または、前記目的化合物の前記既知化合物に対する距離を示すプロファイルもしくはカーネルとから、前記目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する工程であることが好ましい。

0040

(第1の実施形態)
本発明のデータ処理装置の実施形態の一例について以下に説明する。図1は、本実施形態におけるデータ処理装置の概略構成を示すブロック図である。なお、以下の実施形態において「距離を示すプロファイル」は「カーネル」であってもよく、他の実施形態においても同様である。

0041

図1に示すように、本実施形態のデータ処理装置は、情報入力部101、プロファイル変換部102、クラスタリング処理部103、分布データ作成部104およびマップ表示部105を備えている。

0042

このデータ処理装置は、コンピュータによって構築され、プロファイル変換部102、クラスタリング処理103、分布データ作成部104およびマップ表示部105は、前記コンピュータのプロセッサが所定のプログラムを実行することによって実現される機能的ブロックである。すなわち、これらの各部は、必ずしもハードウェアとして実装されなくともよい。

0043

情報入力部101は、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力を受け付ける機能を有する。この情報の入力は、例えば、キーボードテンキー等の入力デバイスによって行われてもよいし、また、情報が格納されたCD−ROM等の記録媒体や、インターネット等の外部通信網アクセスして入手してもよい。外部通信網から前述の情報を入手する場合、例えば、データベースの情報を入力部にダウンロードしてもよいし、通信回路を接続した状態で前述の情報を利用することもできる。情報元となるデータベース等の例は後述する。

0044

タンパク質の種類は特に制限されないが、前述のように、機能や立体構造等の情報は必須でないことから、本発明は、特に、機能未知のタンパク質や立体構造が未知のタンパク質のデータ処理に有効である。前記立体構造が未知のタンパク質としては、例えば、Gタンパク質共役型受容体(GPCR)があげられる。

0045

タンパク質の情報としては、後述するようにタンパク質相互の距離を示すプロファイルへの変換が可能なものであれば特に制限されないが、前述のように立体構造等の情報である必要はなく、例えば、塩基配列アミノ酸配列一次配列)等の配列情報があげられる。また、塩基配列やアミノ酸配列から決定されたモチーフ疎水性指標または二次構造等でもよく、これらの情報は、従来公知のインフォマテクス技術から得られる。情報の種類は、例えば、いずれか一種類の配列情報でもよいし、二以上の配列情報であってもよい。なお、このようなタンパク質情報を後述するようにプロファイル表現することは、これまでの多くのバイオインフォマティクス研究により、タンパク質の構造、機能、物理化学特性を十分に表現し得ることが立証されている。

0046

化合物の情報としては、後述するように化合物相互の距離を示すプロファイルへの変換が可能なものであれば特に制限されず、例えば、化学構造や物理化学特性の情報があげられる。前記化学構造の情報としては、例えば、化合物全体の情報(例えば、化学式構造式)であってもよいし、部分構造の情報であってもよい。具体的な情報としては、例えば、軌道原子の軌道状態、官能基の種類や数、各種原子(炭素窒素硫黄酸素等)の種類や数、骨格となる炭素の数、環構造の有無や種類、芳香族性の有無等があげられる。また、物理化学特性としては、例えば、疎水性指標、沸点融点分子量等があげられ、これらの情報は、実際に測定された情報であってもよいし、化合物の構造から経験的計算によって算出された情報であってもよい。化合物の情報の種類は、例えば、いずれか一種類でもよいが、二種類以上であることが好ましい。

0047

なお、化合物の化学構造を部分構造に分解して表現する手法は、分子構造計算機上で表現する際に特に有効であり、分子構造の高速構造検索に適用されていることも報告されている。また、化合物の物理化学特性についてのプロファイルも、例えば、薬物の構造活性相関(QSAR)等にも利用され、その実用性が確認されており、化合物と生体系との相互作用を数値化する有効な手法である。

0048

タンパク質の配列情報、化合物の情報、ならびにタンパク質と化合物との相互作用の情報は、各種データベース、文献、辞書等から収集でき、例えば、PubMed、Merck index、MeSH、GPCRDB、IUPHAR、KEGG、MDL、ISIS等があげられる。

0049

プロファイル変換部102は、入力された既知タンパク質の配列情報および既知化合物の情報を、既知タンパク質プロファイルおよび既知化合物プロファイルに変換し、クラスタリング処理部に出力する機能を有する。なお、既知タンパク質プロファイルへの変換は、特に制限されないが、例えば、既存のプログラムであるBLAST(http://ncbi.nlm.nih.gov/BLAST/)等により実現できる。また、既知化合物プロファイルへの変換は、例えば、分子内の原子タイプを68種類に分類する方法(Hattori et al. J.AM.CHEM.SOC, Vol.125, No. 39, 2003)に基づき、各化合物について、構造内における前記原子タイプの有無や個数を抽出し、化合物相互の類似性を示す距離計算を行うプログラムによって実現できる。

0050

クラスタリング処理部103は、既知タンパク質プロファイルおよび既知化合物プロファイルをクラスタリングする機能を持ち、例えば、R(フリーソフト)等の一般的な統計解析ツールによって実現できる。

0051

分布データ作成部104は、既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する機能を有する。分布データ作成部104の機能は、例えば、一般的な統計解析ツールであるR(フリーソフト)等によって実現できる。

0052

マップ表示部105は、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示する機能を有する。マップ表示部の機能は、例えば、一般的な統計解析ツールであるR(フリーソフト)等によって実現できる。前記既知相互作用の情報のマッピングは、二軸座標に対して相互作用の有無を、例えば、色等でプロットすることにより行える。

0053

次に、図2に、本実施形態のデータ処理装置における処理の流れをフローチャートで示す。まず、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力(S11)から開始される。そして、入力された情報のうち、既知タンパク質の配列情報と既知化合物の情報を、それぞれ前記既知タンパク質のプロファイルおよび前記既知化合物のプロファイルに変換し、得られた既知タンパク質プロファイルと既知化合物プロファイルとの出力を行い(S12)、前記既知タンパク質プロファイルおよび既知化合物プロファイルのクラスタリング処理が行われる(S13)。続いて、得られた既知タンパク質のクラスタリング結果、既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する処理(S14)を行う。さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示処理(S15)を行う。

0054

このように分布データのマップにより、既知タンパク質相互の関係、既知化合物相互の関係、既知タンパク質と既知相互作用の関係、および既知化合物と既知相互作用の関係が表示されるため、肉眼でも容易に結果を把握でき、タンパク質と化合物間との相互作用に関する統計的法則を、視覚を通じた判断により抽出することができる。従って、統計的法則の結果に基づけば、例えば、目的タンパク質に対して相互作用を示す化合物、目的化合物に対して相互作用を示すタンパク質を予測することができる。

0055

なお、既知タンパク質の配列情報や既知化合物の情報を直接入力するのではなく、予め前記各情報から既知タンパク質プロファイルと既知化合物プロファイルを算出しておき、これらのプロファイルを直接入力してもよい。この場合、情報入力部101およびプロファイル変換部102に代えて、既知タンパク質プロファイル、既知化合物プロファイルおよび既知相互作用の情報を入力する情報入力部を備えてもよい。この場合、例えば、S11およびS12を省き、前記プロファイルを入力するステップから、クラスタリング処理のステップに移ってもよい。

0056

また、マップ表示部105は必須の構成ではなく、例えば、分布データ作成部により得られた分布データを、そのまま表示してもよいし、前記分布データを外部に出力してもよい。

0057

既知タンパク質の配列情報、既知化合物の情報および前記既知相互作用の情報を入力することによって、これらの情報を格納したデータベースを、本実施形態のデータ処理装置内に構築してもよい。また、このデータベースに格納した情報は、例えば、データ処理装置が表示ユニットを備える場合、その表示画面に表示できることが好ましい。このため、これらの情報、特に化合物の構造に関する情報は、ディスプレイ用のイメージ形式ファイル(例えば、GIF、JPG等)をコンピュータが認識できるように数値化したファイル(例えば、MOL、SMILE等)として格納することが好ましい。

0058

さらに、本実施形態のデータ処理装置において、既知タンパク質の情報、既知化合物の情報および既知相互作用は、格納されてプロファイルへの変換に使用されるだけでなく、例えば、情報を検索し、その結果を表示できるように設計されていることが好ましい。このようにすれば、例えば、格納した既知タンパク質情報、既知化合物情報および既知相互作用情報を様々な方法で検索し、いわゆるケモゲノミクスに有用な結果を読み出すことができる。この場合、これらの情報が、データベースにおいてタンパク質カテゴリと化合物カテゴリの2つのカテゴリから構成され、既知相互作用の情報を、前記両カテゴリ間クロスリンクとして表示されることが好ましい。このような設定であれば、タンパク質-化合物間のクロス検索も可能となり、タンパク質側からも化合物側からもより簡単にダイナミックな検索が可能となる。また、あわせて分布データも表示できるように設計されることが好ましい。

0059

なお、化合物に関する入力する情報としては、前述のような構造や物理化学的特性等の他に、例えば、CAS登録番号タンパク質リンク情報、そのタンパク質との生物活性情報(アゴニストアンタゴニストインヒビター等)、データベースリンク情報等があげられる。また、タンパク質に関する入力情報としては、前述のような配列情報の他に、化合物リンク情報、その化合物とのID、名称、データベースリンク情報等もあわせて入力してもよい。

0060

(第2の実施形態)
本発明のデータ処理装置の実施形態のさらに他の例について以下に説明する。図3は、本実施形態のデータ処理装置の概略構成を示すブロック図であり、前記第1の実施形態における構成と同様の機能を有する構成については、前記第1の実施形態と同じ符号を付している。

0061

本実施形態のデータ処理装置は、第1の実施形態におけるデータ処理装置に加えて、さらに予測部106を備えており、既知タンパク質プロファイル、既知化合物プロファイルおよび分布データに基づき、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する装置の形態である。

0062

予測部106は、プロファイル変換部102における前記既知タンパク質プロファイルならびに前記既知化合物プロファイル、および、分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を機械学習し、前記機械学習による統計的法則から得られる結果により、目的タンパク質に対して相互作用を示す化合物または目的化合物が相互作用を示すタンパク質を予測する機能を有する。機械学習は、特に制限されないが、一般的なサポートベクタマシンアスペクトモデル等の分類機によって実現できる。

0063

また、予測部106は、機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて予測を行う機能を有してもよい。

0064

また、本実施形態のデータ処理装置は、さらに、プロファイル変換部102による既知タンパク質プロファイルならびに既知化合物プロファイルおよび分布データ作成部104による既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとして予測部601に出力するデータ選択部(図示せず)を備えてもよい。これによって、より適切な教師データが与えられるため、より信頼性が向上した機械学習による統計的法則の結果を得ることができる。また、既知タンパク質プロファイル、既知化合物プロファイルおよび分布データからの教師データの選択は、マップの結果に基づいて行ってもよい。

0065

また、本実施形態のデータ処理装置は、さらに、予測部106による予測結果を出力する予測結果出力部を備えてもよい。出力した結果は、例えば、装置が表示ユニットを備える場合には、その表示画面に表示されてもよいし、プリントアウト等により外部に表示されてもよく、また、各種記録媒体に格納されてもよい。

0066

次に、図4に、本実施形態のデータ処理装置における処理の流れをフローチャートで示す。なお、前述の実施形態と同一の処理工程については説明を省く。

0067

既知相互作用の分布データを教師データとして、タンパク質と化合物との相互作用に関する統計的法則を、教師あり機械学習処理し、機械学習から得られる結果より、目的タンパク質に対して相互作用を示す化合物または目的化合物の相互作用を示すタンパク質を予測する予測処理(S16)を行う。前記予測処理は、例えば、前記機械学習により統計的法則から得られる結果をパラメータとして算出し、前記パラメータに基づいて行ってもよい。また、得られた既知タンパク質プロファイル、既知化合物プロファイルおよび前記既知相互作用の分布データより、タンパク質と化合物との相互作用が適切な範囲を選択し、これを教師データとして予測処理してもよい。さらに、得られた予測結果を出力してもよい。

0068

(第3の実施形態)
本発明のデータ処理装置の実施形態のさらに他の例について以下に説明する。図5は、本実施形態のデータ処理装置の概略構成を示すブロック図であり、前述の実施形態における構成と同様の機能を有する構成については、同じ符号を付している。

0069

本実施形態のデータ処理装置は、第2の実施形態におけるデータ処理装置と同様の構成であるが、情報入力部101は、さらに、目的タンパク質の配列情報または目的化合物の情報の入力を受け付ける機能を有し、プロファイル変換部102は、さらに、入力された目的タンパク質の配列情報を、情報入力部101より入力された既知タンパク質の配列情報に基づき、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイル(以下、「目的タンパク質プロファイル」という)に変換し、または、情報入力部101により入力された目的化合物の情報を、情報入力部101により入力された既知化合物の情報に基づき、前記目的化合物の前記既知化合物に対する距離を示すプロファイル(以下、「目的化合物プロファイル」という)に変換し、変換された前記目的タンパク質プロファイルまたは前記目的化合物プロファイルを予測部106に出力する機能を有する。また、予測部106は、前記統計的法則から得られる結果と、前記目的タンパク質プロファイルまたは前記目的化合物プロファイルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する機能を有する。

0070

次に、図6に、本実施形態のデータ処理装置における処理の流れをフローチャートで示し、その具体例を図7〜11を用いて説明する。

0071

まず、2以上の既知タンパク質の配列情報、2以上の既知化合物の情報および前記既知タンパク質と既知化合物との既知相互作用の情報の入力(S11)から開始される。入力によって、これらの情報を保存したデータベースを、本実施形態のデータ処理装置内に構築してもよい。図7に、このデータベースの構築に関する概略を示す。同図に示すように、例えば、タンパク質情報、化合物情報、相互作用の実験情報を、それぞれ既存のデータベースや文献等から抽出し、これらの入力によってデータベース(DB)を構築する。なお、同図において「P00001、P00002、・・・」とはタンパク質の種類を示し、「L00001、L00002、・・・」とは化合物の種類を示し、タンパク質−化合物間の矢印は相互作用の関係がある組合せを示す。

0072

そして、入力された情報のうち、既知タンパク質の配列情報と既知化合物の情報を、それぞれ前記既知タンパク質のプロファイルおよび前記既知化合物のプロファイルに変換し、得られた既知タンパク質プロファイルと既知化合物プロファイルとの出力を行う(S12)。図8に、データベースの既知タンパク質情報からプロファイル変換を行うステップの概略を示す。同図に示すように、データベースのタンパク質データから、例えば、遺伝子配列データを抽出し、アミノ酸配列に置き換えてから、タンパク質相互の相同性既知プログラム(例えば、BLAST)により、プロファイルに変換する。前記BLASTを利用する場合、通常、配列の一致度が高いほど、相互の関係に高いスコアが与えられる。このようにスコアを算出することによって、同図に示すように、タンパク質間における相同性を示す距離行列が得られる。なお、得られたスコアは、例えば、距離に変換してもよい。

0073

また、図9に、データベースの化合物情報からプロファイル変換を行うステップの概略を示す。同図に示すように、データベースの化合物データから、例えば、化学構造および物理化学特性を抽出し、数値化する。化学構造や物理化学特性に関しては、例えば、MDLデータベース等のMOL形式からプロファイルへの変換を行う。この変換は、例えば、前述の方法(Hattori et al. J.AM.CHEM.SOC, Vol.125, No. 39, 2003)に基づいて行うことができる。この数値化によって、化合物は、n個の数値化された特徴(Chemical Descriptor)からなるn次ベクトルで表現できる。そして、このベクトル空間における距離を算出することによって、各化合物間の類似度を示す距離行列が算出できる。

0074

続いて、既知タンパク質プロファイルおよび既知化合物プロファイルを、それぞれクラスタリング処理する(S13)。このクラスタリング処理は、例えば、前述のような距離行列の結果に基づいて行うことができる。

0075

続いて、得られた既知タンパク質のクラスタリング結果、既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物との既知相互作用の情報に基づき、前記既知タンパク質と既知化合物に対する前記既知相互作用の分布データを作成する処理(S14)を行う。さらに、前記既知タンパク質のクラスタリング結果および既知化合物のクラスタリング結果に従って、前記既知タンパク質と既知化合物とを二軸座標に表し、前記二軸座標に、前記既知相互作用の情報をマッピングし、前記分布データを表示するマップ表示処理(S15)を行ってもよい。

0076

マッピングした分布データの概略を図10に示す。同図に示すように、既知タンパク質のプロファイル(距離行列)および既知化合物のプロファイル(距離行列)をクラスタリング処理し、それぞれの系統樹横軸(タンパク質)、縦軸(化合物)に表した二軸座標のマップを作成する。そして、このマップに、前述の既知相互作用を示す既知タンパク質と既知化合物との組合せについてプロットを行う。同図において、黒塗り部分が、相互作用が既知である座標を示す。

0077

他方、相互作用を予測する目的タンパク質もしくは目的化合物について、タンパク質の配列情報または目的化合物の情報を入力する処理を行う(S21)。これらの情報に基づいて、次のステップにおいて既知タンパク質または既知化合物に対するプロファイルへの変換を行うことから、目的タンパク質の配列情報と目的化合物の情報とは、すでに入力した既知タンパク質や既知化合物と同じ種類の情報であることが望ましい。

0078

続いて、入力された目的タンパク質の配列情報を、入力された既知タンパク質の配列情報に基づき、前記目的タンパク質の前記既知タンパク質に対する距離を示すプロファイルに変換し、または、入力された目的化合物の情報を、入力された既知化合物の情報に基づき、前記目的化合物の前記既知化合物に対する距離を示すプロファイルに変換する(S22)。

0079

そして、前記既知タンパク質プロファイル、既知化合物プロファイルおよび前述の分布データと、前記目的タンパク質プロファイルまたは目的化合物プロファイルとから、目的タンパク質に対して相互作用を示す化合物または前記目的化合物が相互作用を示すタンパク質を予測する(S16)。すなわち、目的タンパク質プロファイルまたは目的化合物プロファイルと、既知タンパク質プロファイル、既知化合物プロファイルおよび分布データを教師データとする機械学習による相互作用に関する統計的法則の結果とから、相互作用を示す化合物またはタンパク質を予測できる。

0080

図11に、マップを用いた予測処理の概略を示す。例えば、目的タンパク質「P00???」のプロファイルを前記二軸座標マップに加えると、例えば、系統樹における目的タンパク質の位置決定、目的タンパク質と相同性のある既知タンパク質群の選択、前記タンパク質群と相互作用を示す既知化合物の選択、前記相互作用を示す既知化合物と類似性を示す既知化合物群の選択等が行われる。そして、これらの結果と、統計的法則から得られる結果から、目的タンパク質「P00???」と相互作用を示す化合物が予測される。また、目的化合物の場合、目的化合物「L00???」のプロファイルを前記二軸座標マップに加えると、例えば、系統樹における目的化合物の位置決定、目的化合物と類似性を示す既知化合物群の選択、前記既知化合物群が相互作用を示す既知タンパク質の選択、前記相互作用を示す既知タンパク質と類似性を示す既知タンパク質群の選択等が行われる。そして、これらの結果と統計的法則から得られる結果から、目的化合物「P00???」が相互作用を示すタンパク質が予測される。

0081

なお、本発明は、これらの実施形態には何ら制限されず、例えば、前述のような処理をコンピュータに実行させるプログラムや、前記プログラムを格納したコンピュータ読み取り可能な記録媒体、データ構造も、本発明の対象である。

0082

1.情報の抽出
既知タンパク質として、GPCRsを選択した。GPCRのアミノ酸配列情報は、GPCRDB、IUPHAR、KEGG、Locus link等のリンク情報より収集した。一方、各種GPCRsのリガンド化合物の情報は、PubMed、Merck index、MeSH、GPCRDB、IUPHAR、KEGG等の文献、辞書、公的データベースから収集した。化合物の情報は、化学構造をGIFイメージファイルとして、また、構造の数値化をMOL形式ファイルとして格納した。これらの抽出情報について、化合物の名称、分子量、CAS登録番号、化学式(formula)を格納した化合物情報テーブルと、GPCRsの前記リンク情報を格納したGPCRs情報テーブルを作成した。そして、GPCRとリガンド化合物の相互作用の情報は、相互に関係があるGPCRと化合物とを整列した関係情報テーブルに格納した。なお、本発明におけるデータベースとして好ましい構成と機能との概略を図12に示す。

0083

2.データベースの基本構造の決定
前記3種類の情報テーブルと化合物の構造ファイルとを利用して、GPCRとリガンド化合物のデータベースの基本構造を構築した。図13は、前記データベースを構成する2つ情報テーブルが関係情報テーブルによって連結されている状態を表す。収集した各GPCRs情報と化合物情報は、それぞれ固有結果ページを持つ。GPCRの結果ページとして、GPCR情報テーブルには、ファミリーの情報や公的データベースへのリンク情報がディスプレイされ、関係情報テーブルには、そのGPCRと相互作用するリガンド化合物とその情報がディスプレイされる。この結果ページに表示されるリガンド化合物とGPCRの職別番号は、それぞれ個々の結果ページにハイパリンク(hyperlink)されているため、相互関係があるGPCRとリガンド化合物間のダイナミックな移動と検索が可能である。また、図14は、本発明により制作したテータベースの結果を示す一例であり、検索で読み出された化合物の結果ページと、この化合物と相互作用するタンパク質の一つの結果ページとのリンク関係を表している。

0084

3.化合物とGPCRsの分類テーブルの作成
このデータベースの検索は、例えば、キーワード検索とともに、GPCRの分類テーブルやリガンドの分類テーブルから行うこともできる。この分類テーブルは、プロファイルに従って、化合物またはGPCRsをグルーピングしたものである。この分類は、既存のものを利用してもよいし、既存の分類を利用して、対象として好ましい性質の単位で再度分類したものを使用することもできる。

0085

4.化合物のプロファイルによる分類テーブル
分子内の原子タイプを68種類に分類する方法(Hattori et al. J.AM.CHEM.SOC, Vol.125, No. 39, 2003)に基づき、各化合物について、構造内における前記原子タイプの有無や個数を抽出し、化合物相互の類似性を示す距離計算を行った。この距離結果に基づいて各化合物をクラスタリングし、クラスタリング結果を化合物の系統樹(tree)として画面に表示して、その末端を各化合物の結果ページにリンクした。

0086

5.GPCRsの分類テーブル
GPCRDB(http://www.gpcr.org/7tm)の分類テーブルを導入してGPCRsの分類テーブルを作成し、クラスタリング結果をGPCRの系統樹(tree)として画面に表示し、その末端を各GPCRの結果ページにリンクした。

0087

6.類似化合物リストの表示
前記化合物の結果ページに、前記距離計算による類似度が近い化合物のリストを、その情報(例えば、構造イメージ等を含む)とともに表示した。

0088

7.タンパク質と化合物の相互作用の表示
前記化合物の結果ページに、前記距離計算により距離が近い20個の化合物を横軸、これらの化合物と相互作用の関係を示す40個のGPCRsを縦軸として、二軸座標でマッピングし、グラフィクで表示した。化合物に関する横軸には、前記分類方法に基づいてクラスタリングしたtreeを、GPCRsに関する縦軸には、BLASTを用いて計算した各GPCRの配列類似性によりクラスタリングしたtreeを表示した。そして、この二軸座標を示すマップには、化合物とGPCRとの相互作用の有無を色で表示し、肉眼で容易に把握できるようにした。なお、化合物間およびGPCR間の距離計算ならびにとマッピングは、統計解析ツールの一種であるR(フリーソフト)を使用した。

0089

8.教師データの決定
タンパク質とリガンド化合物との様々な組合せについて、前記方法により相互作用の結果を分析した。特に、相互作用を示す化合物とGPCRの中で、化合物間の距離とGPCR間の距離にある傾向が存在すると思われるデータの組合せのみを選び、これを教師データとした。

0090

9.機械学習によるパラメータの決定
機械学習の分類ツールであるサポートベクタマシンを用い、前段階で選択した教師データについて、教師あり機械学習を行い、学習パラメータを決定した。

0091

このように本発明によれば、例えば、従来のように経験的力場関数を用いたエネルギー最適化を基礎とすることなく、活性未知な化合物や、機能未知または立体構造が未知であるタンパク質に対しても適用可能な、タンパク質と化合物との相互作用に関するデータ処理を行うことができる。また、既知タンパク質の情報、既知化合物の情報ならびに既知タンパク質と既知化合物との既知相互作用の情報に基づいて相関関係に関するデータを処理するため、目的タンパク質や目的化合物と相互作用を示す化合物やタンパク質の予測を精度良く行うことができる。このため、例えば、医薬品開発やバイオ産業において極めて有用な装置と言える。

図面の簡単な説明

0092

図1は、本発明の実施形態におけるデータ処理装置の概略構成を示すブロック図である。
図2は、本発明の実施形態のデータ処理装置における処理の流れを示すフローチャートである。
図3は、本発明のその他の実施形態のデータ処理装置の概略構成を示すブロック図である。
図4は、本発明のその他の実施形態のデータ処理装置における処理の流れを示すフローチャートである。
図5は、本発明のその他の実施形態のデータ処理装置の概略構成を示すブロック図である。
図6は、本発明のその他の実施形態のデータ処理装置における処理の流れを示すフローチャートである。
図7は、本発明のその他の実施形態におけるデータベースの構築を示す概略図である。
図8は、本発明のその他の実施形態における、データベースの既知タンパク質情報からプロファイル変換を行うステップの概略を示す図である。
図9は、本発明のその他の実施形態における、データベースの化合物情報からプロファイル変換を行うステップの概略を示す図である。
図10は、本発明のその他の実施形態における、マッピングした分布データの概略図である。
図11は、本発明のその他の実施形態における、マップを用いた予測処理の概略を示す図である。
図12は、本発明の実施例における、データベースの構成と機能とを示す概略図である。
図13は、本発明の実施例における、前記データベースを構成する2つの情報テーブルと関係情報テーブルとの連結状態を示す概略図である。
図14は、本発明の実施例における、テータベースの結果の一例を示す図である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ