図面 (/)

技術 遺伝子機能の予測方法及びその装置

出願人 国立研究開発法人農業生物資源研究所三菱スペース・ソフトウエア株式会社
発明者 長村吉晃松本隆渡辺博之清水裕司
出願日 2003年2月20日 (17年2ヶ月経過) 出願番号 2003-043242
公開日 2004年9月9日 (15年8ヶ月経過) 公開番号 2004-252767
状態 拒絶査定
技術分野 特定用途計算機 微生物・酵素関連装置 検索装置
主要キーワード 採用範囲 調査サンプル 試行結果 登録番号情報 アノテーションシステム データ保管装置 結果判断 解析プロセッサ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2004年9月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

遺伝子のアミノ酸配列情報を取り込み、タンパク質データベースを対象にした相同性検索及び検索結果から最も適切な遺伝子機能情報を選択するプロセスを自動的に高速で行わせる遺伝子機能予測方法とその装置を提供する。

解決手段

ゲノム情報データベースから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードする遺伝子領域データ取込部12と、ゲノム情報データベースから入手したタンパク質核酸塩基配列に関する情報を保管するデータベース部15,16,22と、該データベース部15,16,22に保管された前記アミノ酸配列情報に対してタンパク質、核酸及び塩基配列との相同性検索を行う検索実行部13,14と、該検索実行部13,14の検索結果を基準値との比較により最も有力な遺伝子機能情報を決定する検索結果判断部17a,17bとを備えた。

概要

背景

今日の分子生物学分野、遺伝子工学分野等の技術革新によって日々、膨大な量のゲノム配列情報が決定され、報告されている。そのほとんどが即座に国際的なゲノムデータベースネットワーク登録されて、多くの研究者に利用されている。

概要

遺伝子のアミノ酸配列情報を取り込み、タンパク質データベースを対象にした相同性検索及び検索結果から最も適切な遺伝子機能情報を選択するプロセスを自動的に高速で行わせる遺伝子機能予測方法とその装置を提供する。ゲノム情報データベースから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードする遺伝子領域データ取込部12と、ゲノム情報データベースから入手したタンパク質核酸塩基配列に関する情報を保管するデータベース部15,16,22と、該データベース部15,16,22に保管された前記アミノ酸配列情報に対してタンパク質、核酸及び塩基配列との相同性検索を行う検索実行部13,14と、該検索実行部13,14の検索結果を基準値との比較により最も有力な遺伝子機能情報を決定する検索結果判断部17a,17bとを備えた。

目的

この発明は、以上のような従来の技術の問題点を解決すべく考えられたものであり、遺伝子のアミノ酸配列情報を取り込み、タンパク質データベースを対象にした相同性検索及び検索結果から最も適切な遺伝子機能情報を選択するプロセスを自動的に高速で行わせる遺伝子機能の予測方法とその装置を提供することを課題としている。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

公開されている複数のゲノム情報データベースの少なくとも1つから目的とする予測遺伝子領域を示すアミノ酸配列情報ダウンロードし、該ダウンロードしたアミノ酸配列情報を問い合わせ配列として前記複数のゲノム情報データベースのアミノ酸配列情報を対象にして相同性検索を実施して、最も有力な遺伝子機能情報を決定するようにしたことを特徴とする遺伝子機能予測方法

請求項2

前記ゲノム情報データベースとして、主にタンパク質データベースを用い、補足的に核酸データベースを用いたことを特徴とする請求項1に記載の遺伝子機能の予測方法。

請求項3

前記ゲノム情報データベースからの検索結果の相同性判断を、検索結果が示す期待値(e−value)を用いて行い、かつ該期待値(e−value)が1×10−60〜1×10−10の範囲でその相同性を判断することを特徴とする請求項1又は2に記載の遺伝子機能の予測方法。

請求項4

タンパク質機能情報の相同性をタンパク質機能情報の記述先頭の2つ乃至5つの単語の共通性によって判断することを特徴とした請求項2又は3のいずれか1つに記載の遺伝子機能の予測方法。

請求項5

公開されている外部のゲノム情報データベースを参照して類似したデータを検索し、該検索したデータとの間の相同性により遺伝子機能情報を決定する遺伝子機能の予測装置であって、前記ゲノム情報データベースから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードする遺伝子領域データ取込部と、該遺伝子領域データ取込部によりダウンロードしたアミノ酸配列情報を保管するデータベース部と、該データベース部に保管された前記アミノ酸配列情報に対してタンパク質核酸及び塩基配列との相同性検索を行う検索実行部と、該検索実行部の検索結果を基準値との比較により最も有力なゲノム配列情報が示す遺伝子機能情報を決定する検索結果判断部と、を有することを特徴とする遺伝子機能の予測装置。

請求項6

前記検索結果判断部には、最も有力な遺伝子機能情報を第1番目として順次相同性の高い遺伝子機能情報を複数個抽出し、この抽出した遺伝子機能情報をもとにして、遺伝子機能に関する参考情報を自動的に作成する遺伝子機能予測結果部が組み込まれ又は接続されていることを特徴とする請求項5に記載の遺伝子機能の予測装置。

技術分野

0001

この発明は、ゲノム配列情報から遺伝子の示す機能情報を自動的かつ高速予測する遺伝子機能予測方法とその装置に関する。

0002

今日の分子生物学分野、遺伝子工学分野等の技術革新によって日々、膨大な量のゲノム配列情報が決定され、報告されている。そのほとんどが即座に国際的なゲノムデータベースネットワーク登録されて、多くの研究者に利用されている。

0003

ゲノム配列情報は、そのままでは単なるDNAの塩基配列順序に関するデータに過ぎず、その示す内容を予測し、内容を読み解く(以下、アノテーションという。)ことによって、生物学的に意味を持ち、種々の産業に利用され得る遺伝子情報となる。

0004

アノテーションには2つの段階があり、1つはゲノム配列情報から生物に利用されている遺伝子領域遺伝子構造解明する段階であり、もう1つは前段階で予測された遺伝子領域や遺伝子構造から、発現する遺伝子機能、タンパク質機能情報を予測する段階である。

0005

遺伝子領域や遺伝子構造の予測については、これまでGenScan、GRAIL、GeneMark、Glimmer、MZEF、FGENESH、SplicePredictor等、多くの予測プログラムが作られてゲノムアノテーションに利用されてきた。

背景技術

0006

ただし、遺伝子機能予測の分野では未だに有力な予測プログラムがなく、PIR、Swiss−Prot、GenBank等のタンパク質データベースを対象に、高度な専門知識を有する研究者が手動BLAST等の相同性検索を行い、そこから最も適切と判断される遺伝子機能、タンパク質機能情報を多大な時間と労力を費やして選択しているのが実状である。

発明が解決しようとする課題

0007

この発明は、以上のような従来の技術の問題点を解決すべく考えられたものであり、遺伝子のアミノ酸配列情報を取り込み、タンパク質データベースを対象にした相同性検索及び検索結果から最も適切な遺伝子機能情報を選択するプロセスを自動的に高速で行わせる遺伝子機能の予測方法とその装置を提供することを課題としている。

0008

かかる課題を解決するために、請求項1に記載の発明は、公開されている複数のゲノム情報データベースの少なくと1つから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードし、該ダウンロードしたアミノ酸配列情報を問い合わせ配列として前記複数のゲノム情報データベースのアミノ酸配列情報を対象にして相同性検索を実施して、最も有力な遺伝子機能情報を決定するようにしたことを特徴としている。

0009

請求項2に記載の発明は、請求項1の構成に加えて、前記ゲノム情報データベースとして、主にタンパク質データベースを用い、補足的に核酸データベースを用いたことを特徴としている。

0010

請求項3に記載の発明は、請求項1又は2に記載の構成に加えて、前記ゲノム情報データベースからの検索結果の相同性判断を検索結果が示す期待値(e−value)を用いて行い、かつ該期待値(e−value)が1×10−60〜1×10−10の範囲でその相同性を判断することを特徴としている。

0011

請求項4に記載の発明は、請求項1乃至3のいずれか1つの構成に加えて、タンパク質機能情報の相同性をタンパク質機能情報の記述先頭の2つ乃至5つ単語の共通性によって判断することを特徴としている。

0012

請求項5に記載の発明は、公開されている外部のゲノム情報データベースを参照して類似したデータを検索し、該検索したデータとの間の相同性により遺伝子機能情報を決定する遺伝子機能の予測装置であって、前記ゲノム情報データベースから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードする遺伝子領域データ取込部と、該遺伝子領域データ取込部によりダウンロードしたアミノ酸配列情報を保管するデータベース部と、該データベース部に保管された前記アミノ酸配列情報に対してタンパク質核酸及び塩基配列との相同性検索を行う検索実行部と、該検索実行部の検索結果を基準値との比較により最も有力なゲノム配列情報が示す遺伝子機能情報を決定する検索結果判断部と、を有することを特徴としている。

課題を解決するための手段

0013

請求項6に記載の発明は、請求項5に記載の構成に加えて、前記検索結果判断部には、最も有力な遺伝子機能情報を第1番目として順次相同性の高い遺伝子機能情報を複数個抽出し、この抽出した遺伝子機能情報をもとにして、遺伝子機能に関する参考情報を自動的に作成する遺伝子機能予測結果部が組み込まれ又は接続されていることを特徴としている。

0014

以下、この発明の遺伝子機能の予測方法及びその装置に係る実施の形態を図面に従って説明するが、この発明はこの実施の形態に限定されるものではない。

0015

図1は、この発明の遺伝子機能の予測装置に係る実施の形態の構成図である。図2は、この発明の遺伝子機能の予測装置の主要部を示した機能ブロック図である。

0016

1はこの発明に係る遺伝子機能の予測装置であって、解析結果を外部へ公開する情報公開サーバ2が接続されている。そして、情報公開サーバ2の外側にはインターネット等の通信回線3が接続されており、情報公開サーバ2の内側には遺伝子機能の予測装置1のデータ保管管理サーバ4が接続されている。また、公開されている外部のゲノム情報データベースから必要なデータを外部データ取込装置11から遺伝子機能の予測装置1へ取り込むようになっている。なお、公開されている外部のゲノム情報データベースの代表的なものとしては、欧州EBIのSwiss−Protデータベース(sp)、米国NBRFのProteinInformation Resource(pir)、米国RCSBのProtein Data Bank(pdb)、及び日本Protein Research Foundationの Protein Data Base(prf)の4つのタンパク質データベースがあげられる。

0017

データ保管・管理サーバ4には、GeneScan、FGENESH、RiceHMM等をはじめとする主要な機能予測のためのソウトウエア稼動し、それらの結果を統合し、また、解析プロセッサ5や相同性解析プロセッサ6といった他のサーバ連携させることにより、自動でゲノム配列情報の機能予測の注釈を作成するアノテーションサーバ7と、データ保管ディスク8とテープ記憶装置9が接続されたディスク制御プロセッサ10とが接続されている。

0018

図2に示したように、Webブラウザ上で予測遺伝子のアミノ酸配列情報を問い合わせ配列として手動入力すること、若しくは外部データ取込装置11を介して目的とする遺伝子領域データを外部のゲノム情報データベースから自動的にダウンロードし、遺伝子領域データ取込部12が取り込む。この取り込んだ遺伝子領域データは、タンパク質相同性検索実行部13とcDNA検索実行部14とに送られる。

0019

タンパク質相同性検索実行部13へ送られた遺伝子領域データは外部のゲノム情報データベースから入手した最新データからなるタンパク質データベース15又は核酸データベース16を対象とした相同性検索を行い、相同性の指標である期待値(e−valueと略記され、この数値が小さいほど相同性が高いとされる。)を検索結果判断部17aに送る。

0020

検索結果判断部17aでは、まず、相同性の高いデータのみに絞るため、タンパク質相同性検索の結果のe−valueが基準値を超えるものを削除し、次に、検索結果からタンパク質機能情報以外の情報を除去するノイズ情報除去部18aと同一のタンパク質機能情報毎のグループ分けを行うタンパク質機能グループ化部19を経て、データ判断部20を通過して、遺伝子機能予測結果部21でe−valueの最も小さいものから複数個が代表として選択される。遺伝子機能予測結果部21で選択された複数個の代表はデータ保管・管理サーバ4に送られ、Webブラウザに表示できる形式に変換されてディスプレイ24に表示されると同時にデータ保管装置25(図1のデータ保管ディスク8及びテープ記憶装置9に相当するもの)に結果が保存される。

0021

タンパク質相同性検索実行部13での相同性検索を行い、最初に、検索結果のe−valueが基準値を超えたとして、検索結果判断部17aで削除されたデータは、もう一度タンパク質相同性検索実行部13に戻って核酸データベース16を対象とした相同性検索を行い、その後、検索結果判断部17aで、核酸データベース16を対象とした相同性検索の結果のe−valueが基準値を超えるものを削除し、さらに、検索結果からタンパク質機能情報が予測情報であることを示す単語を含まない検索結果を選抜して、タンパク質機能情報以外の情報を削除するノイズ情報除去部18aとタンパク質機能グループ化部19を経て、データ判断部20を通過して、遺伝子機能予測結果部21でe−valueの最も小さいものから複数個が代表として選択される。遺伝子機能予測結果部21で選択された複数個の代表はデータ保管・管理サーバ4に送られ、Webブラウザに表示できる形式に変換されてディスプレイ24に表示されると同時にデータ保管装置25に結果が保存される。

0022

また、タンパク質相同性検索実行部13で核酸データベース16を対象とした相同性検索を行って、e−valueが基準値を超えたとして削除されたデータは、データ判断部20でcDNA相同性検索実行部14へ送られ、予測遺伝子領域の塩基配列情報をもとに塩基配列データベース23を対象とした相同性検索が行われる。cDNA相同性検索実行部14で相同性検索がなされたデータは、検索結果判断部17bでcDNA相同性検索の結果のe−valueが基準値を超えるものを削除し、ノイズ情報除去部18bを経て、遺伝子機能予測結果部21でe−valueの最も小さいものから複数個が代表として選択される。遺伝子機能予測結果部21で選択された複数個の代表はデータ保管・管理サーバ4に送られ、Webブラウザに表示できる形式に変換されてディスプレイ24に表示されると同時にデータ保管装置25に結果が保存される。

0023

なお、外部データ取込装置11により目的とする遺伝子領域データをダウンロードした際に取得した遺伝子機能情報以外のタンパク質データは、遺伝子機能情報以外のタンパク質データ取得部24に保存され、その後データ保管・管理サーバ4に送られ、Webブラウザに表示できる形式に変換されてディスプレイ24に表示されると同時にデータ保管装置25に結果が保存される。

0024

タンパク質機能情報についての相同性検索結果について、同じ機能を示していながら違った記述をされている検索結果については、下記の操作により同じタンパク質機能情報をグループ分けした。

0025

タンパク質データベース15又は核酸データベース16からのタンパク質機能情報の中で、先頭から2つ乃至5つの単語を選択し、順序を無視して、1つでも同一語がある場合は、同じ機能を示すタンパク質機能情報としてグループ分けする。

0026

グループの作成は3グループまでとし、各グループの中で最もe−valueが低いものを1つ選んで、オリジナルタンパク質機能情報とする。

0027

残りの2つのグループについては、オリジナルタンパク質機能情報についての参考情報として、「Similar protein data」として表示する。

0028

タンパク質相同性検索プログラム(BLASTP)の検索結果に実験等によるオリジナルなタンパク質機能情報(予測タンパク質情報であるとの説明のない検索結果)がある場合、相同性の指標であるe−valueの最も低いタンパク質機能情報を選択して予測遺伝子機能(putative protein)として出力する。

0029

e−valueが1×10−40以下の範囲で、タンパク質データベースと核酸データベースの両方にオリジナルタンパク質機能情報の検索結果がヒットした場合には、データベースの特質を考慮して、タンパク質データベースの検索結果を優先する。つまり、e−valueが1×10−40以下でタンパク質データベースに検索結果がない場合に限り、核酸データベースの検索結果から最もe−valueが低いものを選択し、遺伝子機能予測結果として表示する(putative protein)。

0030

相同性検索でオリジナルなタンパク質機能情報がヒットしない場合については、予測遺伝子の塩基配列情報にcDNA配列が含まれているかどうかを、核酸相同性検索プログラム(BLASTN)の相同性検索で判断し(相同性の有無は、e−valueが1×10−40以下かどうかを判断基準とする。)、cDNA情報が含まれる場合は、タンパク質の存在は予想されるがタンパク質機能情報が不明という考えで、「unknown protein」と判断する。

0031

その場合、検索結果にオリジナルタンパク質機能情報はヒットしなかったが、予測タンパク質機能情報がヒットした場合には、補足的なタンパク質機能情報という判断で、「unknown protein similar to ・・・」との記述に従い、「similar to」以下にヒットした予測タンパク質機能情報を表示する。

0032

予測遺伝子の塩基配列情報にcDNA情報さえない場合は、遺伝子構造予測プログラムからのみ、その配列部分に遺伝子の存在が予測され、タンパク質情報や遺伝子発現情報の裏づけが得られないという考えから、「hypothetical protein」と判断する。

0033

この場合も、検索結果にオリジナルタンパク質機能情報ではなく、予測タンパク質機能情報のみヒットした場合には、補足的なタンパク質機能情報という判断で、「hypothetical protein similar to ・・・」との記述に従い、「similar to」以下にヒットした予測タンパク質機能情報を表示する。

0034

以下に、この発明の遺伝子機能の予測装置に係る実施の形態の使用方法について、詳しく説明する。

0035

図3乃至図6は、この発明の遺伝子機能の予測装置に係る実施の形態の処理の手順を示したフローチャートである。

0036

まず、外部データ取込装置11から予測遺伝子領域のアミノ酸配列情報(データ)を取り込み(ステップS1)、この取り込んだ予測遺伝子領域のアミノ酸配列情報(データ)についてタンパク質データベース15を対象としたタンパク質相同性検索プログラム(BLASTP)による検索を実行する(ステップS2)。

0037

次に、このBLASTPの検索結果から相同性の指標であるe−valueが1×10−40を超える結果を削除する(ステップS3)。その結果、検索結果が存在するか否かを判断し(ステップS4)、検索結果が存在するe−valueが1×10−40以下のものが存在する)場合には、検索結果に「putative、hypothetical、unknown」等、タンパク質情報が予測情報であることを示す単語を含まない検索結果を選抜し(ステップS5)、検索結果の存在(e−valueが1×10−40以下のもの)がない場合には、外部の核酸データベース16を対象としたBLASTPの検索を実行する(ステップS11)。

0038

次に、ステップS5で選抜された検索結果が存在か否かを判断し(ステップS6)、検索結果が存在する場合には、BLASTPの検索結果からタンパク質機能情報以外の情報(登録番号情報、タンパク質コード情報補足説明情報等)を削除し(ステップS7)、検索結果が存在しない場合にはタンパク質データベース15と核酸データベース16を対象としたBLASTP検索を実行する(ステップS19)。

0039

ステップS7でタンパク質機能情報以外の情報を削除したものは、後述するタンパク質機能情報の同一性判断プログラムに従って、検索結果を同一のタンパク質機能情報毎にグループ分けする(ステップS8)。ステップS8でグループ分けしたタンパク質機能情報の各グループ中でe−valueが最も小さい検索結果を代表として選び、グループ同士で比較して代表の中で期待値(e−value)が小さいものから3件を選択する(ステップS9)。ステップS9で選択された期待値(e−value)が最も小さい結果を「putative protein」として出力すると共に、代表の中でe−valueが小さいものから3件の検索結果を「similar protein data」として出力する(ステップS10)。

0040

ステップS19で実行されたBLASTPの検索結果からe−valueが1×10−40を超えるものを削除する(ステップS20)。その後、検索結果に「putative、probable、possible、predicted」等、タンパク質情報が予測情報であることを示す単語を含む検索結果を選抜する(ステップS21)。ステップS21で選抜された検索結果が存在するか否かを判断し(ステップS22)、検索結果が存在する場合には、BLASTPの検索結果からタンパク質機能情報以外の情報(登録番号情報、タンパク質コード情報、補足説明情報等)を削除し(ステップS23)、検索結果が存在しない場合には、予測遺伝子領域の塩基配列情報をもとに塩基配列データベース23を対象にBLASTPの検索を実行する(ステップS14)。

0041

ステップS14で塩基配列データベースを対象にBLASTPの検索をした検索結果からe−valueが1×10−40を超えるものを削除する(ステップS15)。その結果、検索結果が存在するか否かを判断し(ステップS16)、検索結果が存在する(e−valueが1×10−40以下のものが存在する)場合には、遺伝子機能予測結果を「unknown protein」として出力すると共に、検索結果全体の中でe−valueが小さい結果3件を「similarcDNAdata」として出力する(ステップS17)。ステップS15の検索結果が存在しない場合には、遺伝子機能予測結果を「hypothetical protein」として出力する(ステップS18)。

0042

ステップS23でタンパク質機能情報以外の情報を削除されたものは、後述するタンパク質機能情報の同一性判断プログラムに従って、検索結果を同一のタンパク質機能情報毎にグループ分けされる(ステップS24)ものと、予測遺伝子領域の塩基配列情報をもとに塩基配列データベース23を対象に核酸相同性検索プログラム(BLASTN)の検索を実行する(ステップS27)ものとに分かれる。

0043

このうち、ステップS24で同一のタンパク質機能情報毎にグループ分けされたものについては、その後、各グループ中でe−valueが最も小さい検索結果を代表として選び、グループ同士で比較して代表の中でe−valueが小さいものから3件を選択する(ステップS25)。その結果、検索結果全体の中でe−valueが最も小さい結果を「unknown protein similar to」以下若しくは「hypothetical protein similar to」以下に類似タンパク質情報として出力すると共に、各グループの代表である3つの検索結果を「similar protein data」として出力する(ステップS26)。

0044

他方、ステップS27で塩基配列データベース23を対象にBLASTNの検索を実行したものは、その検索結果からe−valueが1×10−40を超えるものを削除する(ステップS28)。その結果、検索結果が存在するか否かを判断し(ステップS29)、検索結果が存在する(e−valueが1×10−40以下のものが存在する)場合には、遺伝子機能予測結果を「unknownprotein」として出力すると共に、検索結果全体の中でe−valueが小さい結果3件を「similarcDNAdata」として出力する(ステップS30)。ステップS28の検索結果が存在しない場合には、遺伝子機能予測結果を「hypothetical protein」として出力する(ステップS31)。

0045

次に、この発明の遺伝子機能の予測装置に係る実施の形態で使用するタンパク質機能情報の同一性判断プログラムについて説明する。

0046

図7は、この発明の遺伝子機能の予測装置に係る実施の形態で使用するタンパク質機能情報の同一性判断プログラムのフローチャートである。

0047

図3乃至図6に示した手順に従って、BLASTPの検索結果を取得し(ステップS40)、その検索結果のe−valueの低いものからタンパク質機能情報の同一性を判断する2つの検索結果(検索結果Aと検索結果B)を選抜する(ステップS41)。ステップS41で選抜された検索結果Aと検索結果Bとのタンパク質機能情報についてスペース区切りにして単語に分割する(ステップS42)。その後、各タンパク質機能情報の先頭から3つの単語を選び、それぞれA1、A2、A3及びB1、B2、B3に代入する(ステップS43)。ステップS43で作成されたグループA(A1、A2、A3)とBグループ(B1、B2、B3)を比較して、両グループの間に同一語があるかどうかを検索する(ステップS44)。

0048

そして、ステップS44の検索結果について同一語が存在するか否かを判断し(ステップS45)、同一語が存在する場合は、検索結果Aと検索結果Bとは同一のタンパク質機能情報であると判断し、同じタンパク質機能グループに分類し(ステップS46)、同一語が存在しない場合は、検索結果Aと検索結果Bとは異なったタンパク質機能情報であると判断し、違うタンパク質機能グループに分類する(ステップS47)。

0049

ステップS46又はステップS47によってタンパク質機能グループの分類がなされた後は、次に期待値(e−value)の低い検索結果Cを選抜し(ステップS48)、その後、検索結果Cが存在するか否かを判断し(ステップS49)、検索結果Cが存在する場合にはステップS42に進み、検索結果Cが存在しない場合にはタンパク質機能情報をグループ分けして出力する(ステップS50)。

0050

次に、この発明の遺伝子機能の予測装置に係る実施の形態で採用したBLASTを用いた相同性検索の検出感度について説明する。

0051

タンパク質データベースを対象としたタンパク質相同性検索プログラム(BLASTP)の検索、及びイネ・ゲノム配列情報を対象とした核酸相同性検索プログラム(BLASTN)の検索とも、どのレベルでの相同性をもってBLAST検索のヒット情報と考えるかは、予測の精度を吟味するうえで重要である。検索結果に必要以上に高い相同性を求めれば遺伝子機能予測に必要な情報を取りこぼす可能性が高まり、逆に相同性のレベルを下げ過ぎるといわゆるfalse−positiveな情報をもとに遺伝子の機能予測を進める可能性が増大する。

0052

BLAST検索での相同性の指標として期待値(e−value)が用いられ、相同性の有無を判断するe−valueのレベルは、検索対象や検索の目的によって異なるが、概ね1×10−100〜1×10−10程度の範囲で設定されることが多い。この発明の遺伝子機能の予測装置に係る実施の形態では、以下に示した検討結果から、タンパク質データベースへのBLASTP検索結果の採用範囲を1×10−40以下、cDNAデータベースへのBLASTN検索結果についても1×10−40以下とした。

0053

まず、予測遺伝子領域のアミノ酸配列のBLASTP検索結果のe−valueの分布調査した。

0054

イネ・ゲノムの予測遺伝子領域のアミノ酸配列を問い合わせ配列として、blastp_nrを実行した場合の検索結果のe−valueの分布を調査した。調査サンプルとしてイネ第一染色体の全PACクローンを対象とした。その結果を図8図9に示した。

0055

図8は、米国NBRFのProtein Information Resource(pir)、欧州EBIのSwiss−Protデータベース(sp)を対象としたBLASTPの検索結果のe−valueの分布図である。図9は、米国GenBank(gb)、欧州EMBL(emb)、日本DDBJ(dbj)を対象としたBLASTPの検索結果のe−valueの分布図である。

0056

その結果、どのデータベースを対象とした検索結果でも、e−valueが1×10−60を超えるあたりから検索結果数が大幅に増加していることが判明した。特に、この発明の遺伝子機能の予測装置に係る実施の形態で結果を重視しているタンパク質データベースの1つであるProtein Infomation Resouce(pir)のタンパク質データベースでの検索結果でこの傾向が顕著であった。これらの結果は、傾向としてe−valueが1×10−60を超えるあたりから、いわゆる「false−positive」の検索結果を次第に多く含みはじめることを示唆している。アミノ酸配列の相同性判断として1×10−40〜1×10−60あたりで検索結果の採用、不採用を判断することが妥当と考えられるが、この発明の遺伝子機能の予測装置に係る実施の形態では、e−valueが1×10−40以下の検索結果を採用することとした。

0057

次に、cDNA情報の相同性解析結果のe−valueの分布を調査した。

0058

PAC10クローンの塩基配列情報を問い合わせ配列としてBLASTN検索を行い、cDNAに相同性がある検索結果のe−valueの分布を調べた。その結果を図7に示した。

0059

図10は、BLASTN検索でのcDNAのヒット件数を左側の縦軸に取り、cDNA予測領域と遺伝子予測領域の染色体上での一致率を右側の縦軸に取り、横軸にはcDNA情報の相同性検索結果のe−valueを取った。

0060

cDNAに対する相同性検索結果のヒット件数は、e−valueが1×10−20上回ったあたりから、急激に増加した。また、相同性が認められたcDNA予測領域がRGPで予測した遺伝子領域と重なっているかどうかを調べたところ、e−valueの上昇にともなって徐々に低下し、1×10−20を以上では、予測cDNA領域と予測遺伝子領域の一致率は30%前後にとどまった。この結果は、e−valueが上昇するに従って、予測遺伝子領域から外れたcDNAのヒット(その多くは「false−positive」と考えられる)が増加することを示している。

0061

これらの結果からcDNAの相同性判断にはe−valueで1×10−40〜1×10−20周辺閾値を設けることが妥当であろうと予想された。今回のプログラムでは、前述のとおり、e−valueが1×10−40以下であるかどうかで相同性の判断を行った。

0062

なお、以上の実施の形態に示した遺伝子機能の予測方法及びその装置は、既存の遺伝子領域予測プログラムと組み合わせることにより、塩基配列から遺伝子機能までを、高速、大容量で予測するゲノム高度アノテーションシステムに利用することができるのは勿論である。

0063

【実施例】
以下、この発明の遺伝子機能の予測装置に係る実施例について説明する。

0064

実施例では、予測遺伝子のアミノ酸配列情報を問い合わせ配列として、欧州EBIのSwiss−Protデータベース(SP)、米国NBRFのProtein Information Resource(pir)、米国RCSBのProtein Data Bank(pdb)、及び日本Protein Research Foundationの Protein Data Base(prf)の4つのタンパク質データベース、及び米国NCBIのGenBank、欧州EBIのEMBL、日本国立遺伝学研究所のDDBJ等の核酸データベースを対象に相同性検索(米国NIH開発のBLASTPを使用)を実行した。

0065

[遺伝子機能の予測結果の評価]
実際にイネ・ゲノムの塩基配列情報を使って、この発明の遺伝子機能の予測装置に係る実施の形態の性能を評価した。

0066

予測対象ゲノム情報は、イネ(日本晴)の第1染色体の4,008遺伝子(178クローン)を用いた。

0067

方法は、2001年末時点でGenBankに登録されているイネ(日本晴)の第1染色体の予測遺伝子(4,008個)について、GenBankに登録されている遺伝子機能予測結果(研究者が手動でアノテーション)とこの発明の遺伝子機能の予測装置に係る実施の形態を用いた結果とを比較した。

0068

ステム試行結果を表1に示した。この発明の遺伝子機能の予測装置に係る実施の形態をAAC、手動によるアノテーションをRGPMAと表した。

0069

【表1】

0070

手動のアノテーションの場合は、アノテーションが行われた時期により、相同性検索で参照されるタンパク質情報が異なるため(現在と比べ、古いタンパク質データベースを用いることになるため)、同じ方法でアノテーションが行われてもその結果が異なると予想される。

0071

そこで、手動のアノテーションが行われた結果のうち、比較的データの新しい2001年1月以降に登録された149クローン(BAC28クローン、PAC121クローン、予測遺伝子数計3,406個)のアノテーション結果について、この発明の遺伝子機能の予測装置に係る実施の形態を用いた遺伝子機能の予測結果と手動のアノテーション結果とを比較した。その結果を表1の左カラムに示した。

0072

オリジナルタンパク質機能情報の抽出段階で、AACがRGPMAと同じタンパク質機能を選択した割合は、AACの選択したオリジナルタンパク質情報の約86%であった。手動のアノテーションと異なったタンパク質機能情報を選択した割合は約5%で、その多くはAACがタンパク質データベースのオリジナルタンパク質情報を選択したのに対し、RGPMAでは核酸データベースからのタンパク質情報を選択していることが原因によるものであった。

0073

オリジナルタンパク質機能情報のヒットがなかった場合は「unknown protein」又は「hypothetical protein」と判断されるが、その結果は「unknown protein」の場合で78%が、「hypothetical protein」の場合で94%が、RGPMAの結果と一致した。傾向として、AACよりもRGPMAの方がcDNA情報を多く採用する傾向が認められ(AACだけがcDNA情報を採用した件数は68件なのに対し、RGPMAだけがcDNA情報を採用したのは115件)、これが予想よりも若干低い「unknown protein」の一致率(78%)の一因となっている可能性が高い。

0074

次に、2000年12月以前に手動のアノテーションが行われた29クローン(602予測遺伝子)についても、この発明の遺伝子機能の予測装置に係る実施の形態を用いた遺伝子機能の予測結果と比較した。その結果を表1の右のカラムに示した。

0075

オリジナルタンパク質機能情報の一致率(69%)、「unknown protein」の一致率(42%)とも、2001年1月以降にアノテーションされた結果と比べて大幅に低下した。手動でのアノテーションに用いられた相同性検索のタンパク質データベースが現在のものではないこと、手動アノテーションの方法や記述方法が現在の方法と統一されていないことなどが、これらの一致率低下の原因と考えられる。

0076

参考までに、2001年以降にアノテーションされた結果(表1の左カラム)の中で、比較的アノテーションデータの新しいBACの28クローンに限って結果を比較すると、オリジナルタンパク質機能情報の一致率は91%、「unknown protein」の一致率は74%と算出された。

0077

これらの結果は、アノテーションされた時期がアノテーション結果の一致率に大きく影響していることを示しており、相同性検索の際に対象とするタンパク質データベースの内容の新しさが、アノテーションの結果に大きく影響することを示している。

0078

手動のアノテーションの場合は、一旦アノテーションされた結果を、タンパク質データベースの内容が更新されたからといって、直ちに新しいタンパク質データベースを使ってアノテーションし直すことは現実的には不可能であるが、この発明の遺伝子機能の予測装置に係る実施の形態を用いることにより、短時間で大量の遺伝子情報を最新のタンパク質データベース情報を参考にしてアノテーションすることが可能となる。

0079

さらに、今日、配列が決定された大量のゲノム情報の内容を高速で予測し、意味付けることができ、医薬開発や作物育種等、産業用に利用する上で今後、不可欠の技術となると考えられる。

0080

[遺伝子機能情報のデータベースの作成]
この発明の遺伝子機能の予測装置に係る実施の形態で得られる予測結果をGenBankのCDS Featureに記述されたタンパク質機能情報(手動アノテーションの登録情報)と共に抽出して、データベース(テキスト形式)を作成し、この情報をWebから参照可能とするプログラムを作成した。

0081

その出力の一例を図11及び図12に示した。

0082

図11は、クローン毎に遺伝子機能の予測結果の一覧を示した出力例である。

0083

左側にGenBankのCDS Featureに記述されたタンパク質機能情報(手動のアノテーションの登録情報)を示し、右側にこの発明の遺伝子機能の予測装置に係る実施の形態で自動抽出された遺伝子機能情報(Predicted Function)を示している。

0084

図12で示した遺伝子機能の予測の詳細情報では、この発明の遺伝子機能の予測装置に係る実施の形態で自動抽出された遺伝子機能情報(PredictedFunction)及びその情報が最終的に選択される前の類似参考情報(Similar protein data)、cDNA情報、モチーフ検索情報、膜タンパク質予測情報、細胞局在性予測情報等も表示し、さらに表示された情報の元データへのリンクも可能とした。

発明を実施するための最良の形態

0085

このような遺伝子機能の予測情報を表示し、関連するタンパク質機能情報、cDNA情報、タンパク質モチーフ情報等を同一画面で表示し、お互いの詳細情報をリンクさせることによって、遺伝子解析を正確かつ効率的に進め、遺伝子機能関連情報を産業に利用するために有効かつ簡便な方法で提供することが可能となる。

0086

以上説明したように、請求項1に記載の発明によれば、公開されている複数のゲノム情報データベースの少なくとも1つから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードし、該ダウンロードしたアミノ酸配列情報を問い合わせ配列として複数のゲノム情報データベースのアミノ酸配列情報を対象にして相同性検索を実施して、最も有力な遺伝子機能情報を決定するようにしたので、遺伝子領域予測プログラムが出力した遺伝子のアミノ酸配列情報を取り込み、タンパク質データベースを対象にした相同性検索及び検索結果から最も適切な遺伝子機能情報を選択するプロセスを自動的に高速で行わせることができる。

0087

請求項2に記載の発明によれば、ゲノム情報データベースとして、主にタンパク質データベースを用い、補足的に核酸データベースを用いたので、両者のデータベースの特質を考慮した操作が可能となり、遺伝子機能予測結果に相同性に関する細かな注釈を付加することができるから、請求項1の効果に加えて、遺伝子機能情報の同定にかかる研究者の負荷をより軽減することができる。

0088

請求項3に記載の発明によれば、ゲノム情報データベースからの検索結果の相同性判断を検索結果が示す期待値を用いて行い、かつ該期待値が1×10−60〜1×10−10の範囲でその相同性を判断するので、従来の手動による遺伝子機能予測結果との一致率の高い検索結果が得られ、請求項1又は2の効果に加えて、予測の精度の高い遺伝子機能情報の同定が可能となる。

0089

請求項4に記載の発明によれば、タンパク質機能情報の相同性をタンパク質機能情報の記述の先頭の2つ乃至5つ単語の共通性によって判断するので、タンパク質機能情報のネーミング法則性を利用した相同性検索が実行できるため、請求項1乃至3のいずれか1つの効果に加えて、さらに相同性検索の効率が高まる。

発明の効果

0090

請求項5に記載の発明によれば、公開されている外部のゲノム情報データベースを参照して類似したデータを検索し、該検索したデータとの間の相同性により遺伝子機能情報を決定する遺伝子機能の予測装置であって、ゲノム情報データベースから目的とする予測遺伝子領域を示すアミノ酸配列情報をダウンロードする遺伝子領域データ取込部と、該遺伝子領域データ取込部によりダウンロードしたアミノ酸配列情報を保管するデータベース部と、該データベース部に保管された前記アミノ酸配列情報に対してタンパク質、核酸及び塩基配列との相同性検索を行う検索実行部と、該検索実行部の検索結果を基準値との比較により最も有力なゲノム配列情報が示す遺伝子機能情報を決定する検索結果判断部とを有するので、遺伝子領域予測プログラムが出力した遺伝子のアミノ酸配列情報を取り込み、タンパク質データベースを対象にした相同性検索及び検索結果から最も適切な遺伝子機能情報を選択するプロセスを自動的に高速で行わせることができる。

図面の簡単な説明

0091

請求項6に記載の発明によれば、検索結果判断部には、最も有力な遺伝子機能情報を第1番目として順次相同性の高い遺伝子機能情報を複数個抽出し、この抽出した遺伝子機能情報をもとにして、遺伝子機能に関する参考情報を自動的に作成する遺伝子機能予測結果部が組み込まれ又は接続されているので、遺伝子機能予測結果に相同性に関する細かな注釈を付加することができるから、請求項5の効果に加えて、遺伝子機能情報の同定にかかる研究者の負荷をより軽減することができる。

図1
この発明の遺伝子機能の予測装置に係る実施の形態の構成図である。
図2
同実施の形態の主要部を示した機能ブロック図である。
図3
同実施の形態の処理の手順を示したフローチャートである。
図4
同実施の形態の処理の手順を示したフローチャートである。
図5
同実施の形態の処理の手順を示したフローチャートである。
図6
同実施の形態の処理の手順を示したフローチャートである。
図7
同実施の形態で使用するタンパク質機能情報の同一性判断プログラムのフローチャートである。
図8
米国NBRFのProtein Information Resource(pir)、欧州EBIのSwiss−Protデータベース(sp)を対象としたBLASTPの検索結果のe−valueの分布図である。
図9
米国GenBank(gb)、欧州EMBL(emb)、日本DDBJ(dbj)を対象としたBLASTPの検索結果のe−valueの分布図である。
図10
cDNA情報の相同性検索結果のe−valueの分布図である。
図11
この発明の遺伝子機能の予測装置に係る実施の形態のクローン毎に遺伝子機能の予測結果の一覧を示した出力例である。
図12
同実施の形態の遺伝子機能の予測の詳細情報を示した出力例である。
【符号の説明】
1 遺伝子機能の予測装置
4データ保管・管理サーバ
5解析プロセッサ
6 相同性解析プロセッサ
7アノテーションサーバ
データ保存ディスク
9テープ記憶装置
10ディスク制御プロセッサ
11 外部データ取込装置
12遺伝子領域データ取込部
13タンパク質相同性検索実行部
14 cDNA検索実行部
15タンパク質データベース(データベース部)
16核酸データベース(データベース部)
17a,17b 検索結果判断部
18ノイズ情報除去部
19 タンパク質機能グループ化部
20 データ判断部
21 遺伝子機能予測結果部
22塩基配列データベース(データベース部)

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ