図面 (/)

技術 情報処理装置及びプログラム

出願人 株式会社インテック国立大学法人東京大学
発明者 寺井悟朗浅井潔
出願日 2016年3月31日 (4年1ヶ月経過) 出願番号 2016-070976
公開日 2019年6月20日 (10ヶ月経過) 公開番号 2019-095819
状態 未査定
技術分野 特定用途計算機 突然変異または遺伝子工学 微生物・酵素関連装置
主要キーワード 交差ポイント ループ計算 個体選択 個体生成 計算機科学 個体データ 交差処理 パレート最適解
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年6月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

相同組み換えを抑制し、目的タンパク質生産量を高めることが可能な情報処理装置及びプログラムを提供する。

解決手段

アミノ酸配列遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代親個体集団データを取得し、第1世代親個体集団データに含まれる個体に対し、変異処理を実行し、変異処理が実行された個体を含む第1世代子個体集団データを取得し、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、第1世代親個体集団データ及び第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎分類し、ランク毎に分類された全個体データから、ランクの高い順に予め定められた数の前記個体データを選択する。

概要

背景

微生物等に目的タンパク質生産させる際に、目的タンパク質をコードする遺伝子を複数個導入する手法が知られている。かかる遺伝子は、同じDNA配列を有するものが利用されることが多い。しかし、同じDNA配列を有する複数個の遺伝子を導入すると、これらの遺伝子間相同組み換えが生じ、遺伝子の一部が欠損してしまう。ここで、相同組み換えとは、DNAの塩基配列がよく似た部位(相同部位)で起こる組み換えのことである。これを概念的に表したのが図1である。図1(a)は、同じDNA配列を有する5個の遺伝子を導入した例を示す。かかる5個の遺伝子のうち、2個目の遺伝子の後半部分〜5個目の遺伝子の前半部分において相同組み換えが生じると、図1(b)に示されるように、遺伝子の数が2つまで減少してしまい、目的タンパク質の生産効率が低下してしまう。

特許文献1には、合成核酸分子を取得するための方法であって、(i)ポリペプチドアミノ酸繰り返し領域由来アミノ酸配列を提供する工程;(ii)前記アミノ酸配列をそれぞれコードする複数のサンプルコドン最適化核酸配列を推測する工程;(iii)前記複数のサンプルコドン最適化核酸配列を、配列相同性により整列させ、前記複数のサンプルコドン最適化核酸配列を含む近隣結合ツリー構築する工程;(iv)前記複数のサンプルコドン最適化核酸配列の1つのみを選択する工程;ならびに、(v)前記選択されたサンプルコドン最適化核酸配列を含む核酸分子を取得する工程を含む、方法が開示されている。

概要

相同組み換えを抑制し、目的タンパク質の生産量を高めることが可能な情報処理装置及びプログラムを提供する。アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代親個体集団データを取得し、第1世代親個体集団データに含まれる個体に対し、変異処理を実行し、変異処理が実行された個体を含む第1世代子個体集団データを取得し、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、第1世代親個体集団データ及び第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎分類し、ランク毎に分類された全個体データから、ランクの高い順に予め定められた数の前記個体データを選択する。

目的

特許文献1には、合成核酸分子を取得するための方法であって、(i)ポリペプチドのアミノ酸繰り返し領域由来のアミノ酸配列を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

アミノ酸配列遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部と、前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部と、前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部と、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎分類する非優越ソート実行部と、前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部と、を有する情報処理装置

請求項2

前記個体選択部は、前記予め定められた数の前記個体データを選択するときに、前記ランクが同じ前記個体データが存在する場合には、混雑距離が大きいものから順に選択する、請求項1に記載の情報処理装置。

請求項3

前記親個体集団データ取得部は、前記個体選択部により選択された前記個体データを、第2世代の親個体集団を表す第2世代親個体集団データとし、前記変異処理部、前記非優越ソート実行部及び前記個体選択部による処理を、予め定められた世代数となるまで実行する、請求項1又は請求項2に記載の情報処理装置。

請求項4

前記コドン適合度に関する評価基準は、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックス最小値を基準とする、請求項1〜請求項3のいずれか1項に記載の情報処理装置。

請求項5

前記個体に含まれる前記コドン適合インデックスの最小値が大きいほど、前記個体の評価を高くする、請求項4に記載の情報処理装置。

請求項6

前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる2つの前記CDSのうち、互いに一致しない塩基の数を表す不一致塩基数の最小値を基準とする、請求項1〜請求項5のいずれか1項に記載の情報処理装置。

請求項7

前記不一致塩基数の最小値が大きいほど、前記個体の評価を高くする、請求項6に記載の情報処理装置。

請求項8

前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる前記CDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字列の長さを基準とする、請求項1〜請求項7のいずれか1項に記載の情報処理装置。

請求項9

前記最長共通文字列の長さが短いほど、前記個体を高く評価する、請求項8に記載の情報処理装置。

請求項10

前記変異処理部は、第g世代の親個体集団を表す第g世代親個体集団データに含まれる各個体データに対し、第1変異処理及び前記第1変異処理とは異なる第2変異処理を実行する、請求項1〜請求項9のいずれか1項に記載の情報処理装置。

請求項11

前記変異処理部は、前記各個体に含まれる全てのCDSに対し、前記CDSに含まれる前記コドンを、予め定められた確率で前記コドンより高頻度のコドンに置換する第1変異処理を実行する、請求項10に記載の情報処理装置。

請求項12

前記変異処理部は、前記各個体に含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なる前記コドンを、予め定められた確率で他のコドンに置換する第2変異処理を実行する、請求項10又は請求項11に記載の情報処理装置。

請求項13

前記第1変異処理又は前記第2変異処理は、ランダムに選択される、請求項10〜請求項12のいずれか1項に記載の情報処理装置。

請求項14

前記第1世代親個体集団データに含まれる個体に対し、交差処理を実行する交差処理部を有し、前記交差処理は、第g世代の親個体集団を表す第g世代親個体集団データから予め定められた偶数個の個体データを抽出し、前記抽出された個体データから2個の個体データを選択し、前記選択された2個の個体データに対して交差処理を実行する、請求項1〜請求項13のいずれか1項に記載の情報処理装置。

請求項15

前記交差処理部は、前記選択された2個の個体データである第1個体データ及び第2個体データに含まれる前記CDSに含まれる前記コドンの境界から交差ポイントを決定し、前記交差ポイントを境として前記第1個体データと前記第2個体データに含まれる前記コドンを入れ替える、請求項14に記載の情報処理装置。

請求項16

コンピュータを、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部、前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部、前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行部、前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部、として機能させるための情報処理プログラム

技術分野

0001

本発明は、目的タンパク質生産量を高めることができる情報処理装置及びプログラムに関する。

背景技術

0002

微生物等に目的タンパク質を生産させる際に、目的タンパク質をコードする遺伝子を複数個導入する手法が知られている。かかる遺伝子は、同じDNA配列を有するものが利用されることが多い。しかし、同じDNA配列を有する複数個の遺伝子を導入すると、これらの遺伝子間相同組み換えが生じ、遺伝子の一部が欠損してしまう。ここで、相同組み換えとは、DNAの塩基配列がよく似た部位(相同部位)で起こる組み換えのことである。これを概念的に表したのが図1である。図1(a)は、同じDNA配列を有する5個の遺伝子を導入した例を示す。かかる5個の遺伝子のうち、2個目の遺伝子の後半部分〜5個目の遺伝子の前半部分において相同組み換えが生じると、図1(b)に示されるように、遺伝子の数が2つまで減少してしまい、目的タンパク質の生産効率が低下してしまう。

0003

特許文献1には、合成核酸分子を取得するための方法であって、(i)ポリペプチドアミノ酸繰り返し領域由来アミノ酸配列を提供する工程;(ii)前記アミノ酸配列をそれぞれコードする複数のサンプルコドン最適化核酸配列を推測する工程;(iii)前記複数のサンプルコドン最適化核酸配列を、配列相同性により整列させ、前記複数のサンプルコドン最適化核酸配列を含む近隣結合ツリー構築する工程;(iv)前記複数のサンプルコドン最適化核酸配列の1つのみを選択する工程;ならびに、(v)前記選択されたサンプルコドン最適化核酸配列を含む核酸分子を取得する工程を含む、方法が開示されている。

先行技術

0004

特表2015-524658号公報

発明が解決しようとする課題

0005

本発明は、相同組み換えを抑制し、目的タンパク質の生産量を高めることが可能な情報処理装置及びプログラムを提供するものである。

課題を解決するための手段

0006

本発明によれば、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部と、前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部と、前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部と、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎分類する非優越ソート実行部と、前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部と、を有する情報処理装置が提供される。

0007

本発明によれば、異なる2つの評価基準に基づいて、相同組み換えを抑制し、目的タンパク質の生産量を高めることが可能となる。

0008

以下、本発明の種々の実施形態を例示する。以下に示す実施形態は互いに組み合わせ可能である。
好ましくは、前記個体選択部は、前記予め定められた数の前記個体データを選択するときに、前記ランクが同じ前記個体データが存在する場合には、混雑距離が大きいものから順に選択する。
好ましくは、前記親個体集団データ取得部は、前記個体選択部により選択された前記個体データを、第2世代の親個体集団を表す第2世代親個体集団データとし、前記変異処理部、前記非優越ソート実行部及び前記個体選択部による処理を、予め定められた世代数となるまで実行する。
好ましくは、前記コドン適合度に関する評価基準は、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックス最小値を基準とする。
好ましくは、前記個体に含まれる前記コドン適合インデックスの最小値が大きいほど、前記個体の評価を高くする。
好ましくは、前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる2つの前記CDSのうち、互いに一致しない塩基の数を表す不一致塩基数の最小値を基準とする。
好ましくは、前記不一致塩基数の最小値が大きいほど、前記個体の評価を高くする。
好ましくは、前記コドンの塩基配列に関する評価基準は、前記各個体に含まれる前記CDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字列の長さを基準とする。
好ましくは、前記最長共通文字列の長さが短いほど、前記個体を高く評価する。
好ましくは、前記変異処理部は、第g世代の親個体集団を表す第g世代親個体集団データに含まれる各個体データに対し、第1変異処理及び前記第1変異処理とは異なる第2変異処理を実行する。
好ましくは、前記変異処理部は、前記各個体に含まれる全てのCDSに対し、前記CDSに含まれる前記コドンを、予め定められた確率で前記コドンより高頻度のコドンに置換する第1変異処理を実行する。
好ましくは、前記変異処理部は、前記各個体に含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なる前記コドンを、予め定められた確率で他のコドンに置換する第2変異処理を実行する。
好ましくは、前記第1変異処理又は前記第2変異処理は、ランダムに選択される。
好ましくは、前記第1世代親個体集団データに含まれる個体に対し、交差処理を実行する交差処理部を有し、前記交差処理は、第g世代の親個体集団を表す第g世代親個体集団データから予め定められた偶数個の個体データを抽出し、前記抽出された個体データから2個の個体データを選択し、前記選択された2個の個体データに対して交差処理を実行する。
好ましくは、前記交差処理部は、前記選択された2個の個体データである第1個体データ及び第2個体データに含まれる前記CDSに含まれる前記コドンの境界から交差ポイントを決定し、前記交差ポイントを境として前記第1個体データと前記第2個体データに含まれる前記コドンを入れ替える。
好ましくは、コンピュータを、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得部、前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理部、前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得部、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行部、前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択部、として機能させるための情報処理プログラムが提供される。

図面の簡単な説明

0009

微生物等に目的タンパク質を生産させる際に、目的タンパク質をコードする遺伝子を複数個導入する従来の手法を表す概念図であり、(a)は同じDNA配列を有する5個の遺伝子を導入した例、(b)は5個の遺伝子のうち、2個目の遺伝子の後半部分〜5個目の遺伝子の前半部分において相同組み換えが生じ、遺伝子の数が2個まで減少した結果を表す。
本発明の一実施形態に係る遺伝子配列設計を表す概念図であり、(a)は本発明に係るアルゴリズムに入力データを入力し、出力データとして遺伝子配列を出力する様子を、(b)は導入された5個の遺伝子データに相同組み換えが生じず、全ての遺伝子から目的タンパク質が生産される様子を表す。
情報処理装置1のハードウェア構成の例を示す図である。
本発明の一実施形態に係る情報処理装置1の例示的な機能ブロック図である。
混雑距離を説明するための図であり、(a)は混雑距離の概念図、(b)は混雑距離の計算式を表す。
本発明の一実施形態に係る遺伝子配列設計を実施するためのフローチャートの一例を示す図である。かかる処理は、図8に示されるメインルーチンに先立ち実行される。
個体データの例を表す図である。本実施形態では、1つの個体を、同じアミノ酸をコードする複数のタンパクコード領域(CDS)として表現する。
本発明の一実施形態に係る遺伝子配列設計を実施するためのフローチャートの一例を示す図である。なお、S22において、交差処理は任意であり、必要に応じて省略することができる。
本発明の一実施形態に係る交差処理を実施するためのフローチャートの一例を示す図である。
本発明の一実施形態に係る交差処理を表す概念図である。
本発明の一実施形態に係る変異処理を実施するためのフローチャートの一例を示す図である。
本発明の一実施形態に係る変異処理を表す概念図であり、(a)は第1変異処理、(b)は第2変異処理を表す概念図である。
本発明の一実施形態に係るコドンの塩基配列に関する評価基準である「不一致塩基数」を説明するための図である。図13の例では、不一致塩基数は5である。
本発明の一実施形態に係るコドンの塩基配列に関する評価基準である「最長共通文字列」を説明するための図である。図14では、実線下線が付された部分が最長共通文字列、破線の下線が付された部分が共通文字列を表す。
本発明の実施例における処理結果を表す図である。図15では、コドン適合度に関する評価基準(各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックス(CAI)の最小値)を横軸、コドンの塩基配列に関する評価基準(不一致塩基数の最小値)を縦軸とし、第1世代、第10世代及び第250世代の計算結果をそれぞれプロットしたグラフである。
本発明の実施例における処理結果を表す図である。図16では、コドン適合度に関する評価基準(各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックス(CAI)の最小値)を横軸、コドンの塩基配列に関する評価基準(最長共通文字列の長さ)を縦軸とし、第1世代、第10世代及び第250世代の計算結果をそれぞれプロットしたグラフである。

実施例

0010

<実施形態>
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

0011

<本発明の一実施形態に係る遺伝子配列設計>
図2は、本発明の一実施形態に係る遺伝子配列設計を表す概念図である。一実施形態に係る遺伝子配列設計は、相同組み換えを誘発しない遺伝子配列群を設計し、微生物等に導入することで、目的タンパク質の生産量を高めるものである。図2(a)に示されるように、目的タンパク質を表すデータ及びN個の遺伝子を表すデータを入力データとし、アルゴリズム(以下、本アルゴリズムという)に基いて計算処理し、かかる計算結果である目的タンパク質をコードするN個の遺伝子配列群を表すデータを出力する。ここで、本アルゴリズムは、相競合する評価基準を持つ複数の目的関数を同時に最適化することを目的とする多目的遺伝的アルゴリズムを利用する。これにより、図2(b)に示されるように、例えば導入された遺伝子が5個である場合、かかる5個の遺伝子データに相同組み換えが生じず、全ての遺伝子から目的タンパク質が生産される。ここで、図2(b)では、1〜5までの遺伝子は、互いに塩基配列が異なる遺伝子である。

0012

<ハードウェア構成>
次に、本発明の一実施形態に係る情報処理装置1のハードウェア構成の例について、図3を用いて説明する。情報処理装置1は、処理部10、記憶部20、操作部30、表示部40及び通信部50を有する。処理部10は、種々の演算処理を実行するものであり、例えば、CPU等により構成される。記憶部20は、種々のデータやプログラムを記憶するものであり、例えば、メモリ、HDD又はSSD等により構成される。ここで、プログラムは、情報処理装置1の出荷時点においてプリインストールされていてもよく、Web上のサイトからアプリケーションとしてダウンロードしてもよく、無線通信により他の情報処理装置から転送されてもよい。操作部30は、情報処理装置1を操作するものであり、例えば、タッチパネルキーボード音声入力部、カメラ等を利用した動き認識装置等により構成される。表示部40は、種々の画像(静止画及び動画を含む)を表示するものであり、例えば、タッチパネルディスプレイ有機ELディスプレイ電子ペーパーその他のディスプレイで構成される。通信部50は、他の情報処理装置と種々のデータを送受信するものであり、任意のI/Oにより構成される。バス100はシリアルバスパラレルバス等で構成され、各部を電気的に接続し、種々のデータの送受信を可能にするものである。

0013

<機能ブロック図>
次に、情報処理装置1の機能について、図4の機能ブロック図を用いて説明する。情報処理装置1は、例えば、多機能情報端末であり、PC、サーバスマートフォンタブレット端末スマートウォッチ等である。情報処理装置1は、操作部30、表示部40及び通信部50と、処理部10と、記憶部20を備える。処理部10は、個体生成部101、親個体集団データ取得部102、子個体集団データ取得部103、交差処理部104、変異処理部105、非優越ソート実行部106、個体選択部107を備える。また、記憶部20は、アミノ酸配列データ記憶部201、遺伝子数データ記憶部202、コドン頻度表データ記憶部203、計算データ記憶部204、評価基準記憶部205を備える。

0014

操作部30、表示部40及び通信部50の各機能については、図3の説明を参照されたい。

0015

<処理部10>
次に、処理部10の機能について説明する。個体生成部101は、アミノ酸配列、遺伝子数及びコドン頻度表を表すデータをそれぞれアミノ酸配列データ記憶部201、遺伝子数データ記憶部202及びコドン頻度表データ記憶部203から取得し、同じタンパク質のアミノ酸配列をコードするという制約下でランダムに生成した個体を表す個体データをp個生成するものである。ここで、pは正の数のパラメータであり、任意の数とすることができる。

0016

親個体集団データ取得部102は、個体生成部101が生成したp個の個体データを、本アルゴリズムに利用するデータであって、第g世代の親個体集団を表す第g世代親個体集団データとして取得する。さらに、本アルゴリズムにおける計算は、後述するように所定のフローを複数回繰り返し実行するループ計算を実行するものであり、親個体集団データ取得部102は、第1世代、第2世代、・・・第g世代の親個体集団を表す第1世代親個体集団データ、第2世代親個体集団データ・・・第g世代親個体集団データを取得する。ここで、gは正の数であり、本アルゴリズムにおける計算のループ数を表す。

0017

交差処理部104は、第g世代親個体集団データからe個(予め定められた偶数個)の個体データを抽出し、抽出された個体データから2個の個体データを選択し、選択された2個の個体データに対して交差処理を実行するものである。そして、まだ交差処理が行われていない個体データの中から2個の個体データを選択し、交差処理を実行する。かかる処理を、抽出されたe個の個体データの全てに対して繰り返す。具体的には、選択された2個の個体データである第1個体データ及び第2個体データに含まれるCDSに含まれるコドンの境界から交差ポイントを決定し、交差ポイントを境として第1個体データと第2個体データに含まれるコドンを入れ替える。ここで、2個の個体データの選択は、例えば乱数表等を利用してランダムに実行される。ここで、eは「p×Pc」を超えない最大の偶数である。なお、Pcはパラメータであり、0より大きく1より小さい任意の値とすることができる。p個の個体データを含む第g世代親個体集団データからe個の個体データを抽出する手法は特に限定されないが、例えば「binary tournament selection法」を用いることができる。

0018

変異処理部105は、第g世代親個体集団データに含まれる全ての個体に対し、変異処理を実行するものである。本実施形態では、第g世代親個体集団データに含まれる各個体データに対し、第1変異処理及び前記第1変異処理とは異なる第2変異処理を実行する。具体的には、各個体データに対し、第1変異処理及び第2変異処理をランダムに決定する。そして、第1変異処理と決定された場合、各個体データに含まれる全てのCDSに対し、CDSに含まれるコドンを、予め定められた確率Pmでかかるコドンより高頻度のコドンに置換する。また、第2変異処理と決定された場合、各個体データに含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なるコドンを、予め定められた確率Pmで他のコドンに置換する。これらの処理の詳細については後述する。

0019

子個体集団データ取得部103は、変異処理部105による変異処理が実行された個体を含む第g世代の子個体集団を表す第g世代子個体集団データを取得する。ここで、第g世代子個体集団データに含まれる個体データの数は、第g世代親個体集団データに含まれる個体データの数と等しく、p個である。これは、変異処理部105による変異処理が、第g世代親個体集団データに含まれる全ての個体に実行されたためである。

0020

非優越ソート実行部106は、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、第g世代親個体集団データ及び第g子個体集団データを統合した第g世代統合データに対し、非優越ソート処理を実行するものである。第g世代統合データに含まれる個体データの数は、2p(=p+p)個である。そして、全個体をパレート最適解におけるフロント毎(ランク毎)に分類する。

0021

個体選択部107は、パレート最適解におけるフロント毎(ランク毎)に分類された第g世代統合データから、ランクの高い順に定められた数の個体データを選択するものである。例えば、予め定められた数として、pを採用することができる。そして、親個体集団データ取得部102は、個体選択部107により選択されたp個の個体データを、第g+1世代の親個体集団を表す第g+1世代親個体集団データとして取得する。

0022

ここで、個体選択部107は、定められた数の個体データを選択するときに、ランクが同じ個体データが存在する場合には、混雑距離(Crowding Distance)が大きいものから順に選択することとしてもよい。ここで、混雑距離とは、ある解の両側にある2つの解の平均距離である。これを概念的に表したのが図5(a)である。そして、図5(b)の計算式により、混雑距離が計算される。ここで、混雑距離は、図5(a)において破線で示される四角形の周囲の長さの平均に相当する。

0023

<記憶部20>
次に、記憶部20の機能について説明する。アミノ酸配列データ記憶部201は、アミノ酸配列を表すデータを記憶するものである。アミノ酸配列は、タンパク質中のアミノ酸の配列を表すものである。

0024

遺伝子数データ記憶部202は、遺伝子数を表すデータを記憶するものである。ここで、本実施形態では、遺伝子数は、個体データに含まれるCDSの数を表すものとする。

0025

コドン頻度表データ記憶部203は、コドン頻度表を表すデータを記憶するものである。コドン頻度表は、宿主細胞におけるコドンの使用頻度をまとめた表である。

0026

計算データ記憶部204は、個体生成部101、親個体集団データ取得部102、子個体集団データ取得部103、交差処理部104、変異処理部105、非優越ソート実行部106、個体選択部107等による種々の処理における計算結果を記憶するものである。

0027

評価基準記憶部205は、予め定められた評価基準であって、コドン適合度及びコドンの塩基配列に関する評価基準を記憶するものである。具体的には、コドン適合度に関する評価基準は、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックスの最小値を基準とする。以下、かかる基準を第1評価基準という。第1評価基準においては、個体に含まれるコドン適合インデックスの最小値が大きいほど、個体が高く評価される。そして、コドンの塩基配列に関する評価基準のうちの1つ目は、各個体に含まれる2つのCDSのうち、互いに一致しない塩基の数を表す不一致塩基数の最小値を基準とする。以下、かかる基準を第2評価基準という。第2評価基準においては、不一致塩基数の最小値が大きいほど、個体が高く評価される。コドンの塩基配列に関する評価基準のうちの2つ目は、各個体に含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字列の長さを基準とする。以下、かかる基準を第3評価基準という。第3評価基準においては、最長共通文字列の長さが短いほど、個体が高く評価される。

0028

次に、以上説明した種々の機能、処理及び基準の詳細について、図6図13を用いて説明する。

0029

<前処理>
図6は、本発明の一実施形態に係る遺伝子配列設計を実施するためのフローチャートの一例を示す図である。図6に示される処理は、図8に示されるメインルーチンに先立ち実行される処理である。以下、図6に示される処理を前処理という。

0030

まず、S11において、処理部10は、アミノ酸配列データ記憶部201及び遺伝子数データ記憶部202から、アミノ酸配列データ及び遺伝子数データを取得する。そして、図示しないキャッシュメモリ等の記憶部にデータを記憶する。

0031

次に、S12において、処理部10は、コドン頻度表データ記憶部203からコドン頻度表データを取得する。そして、図示しないキャッシュメモリ等の記憶部にデータを記憶する。

0032

次に、S13において、個体生成部101は、同じタンパク質のアミノ酸配列をコードするという制約下でランダムに生成した個体を表す個体データをp個生成する。例えば、ランダムな個体データを100個生成してもよい。

0033

(個体データ)
ここで、図7を用いて個体データについて説明する。図7に示されるように、本実施形態では、1つの個体を、同じアミノ酸をコードする複数のタンパクコード領域(CDS)として表現する。図7に示される個体データでは、CDSがx個である。これは、図6のS11において処理部10が遺伝子数データ記憶部202から取得した遺伝子数データが表す遺伝子の数である。各CDSはそれぞれ同じアミノ酸をコードする。ここで、図7に示されるG,I,V,E,Qは、図6のS11において処理部10がアミノ酸配列データ記憶部201から取得したアミノ酸配列データが表すアミノ酸配列である。また、各CDSは、それぞれ塩基配列が異なっている。

0034

図6戻り、前処理についてさらに説明する。S14において、親個体集団データ取得部102は、S13において個体生成部101がランダムに生成したp個の個体データを第1世代の親個体集団を表す第1世代親個体集団データとして取得する。親個体集団データは、本アルゴリズムにおける処理において保存されるアーカイブ母集団である。そして、第1世代親個体集団データを取得すると、前処理を終了する。

0035

<メインルーチン>
次に、図8を用いて、本アルゴリズムにおけるメインルーチンについて説明する。まず、S20において、処理部10は、変数gを1にセットする。ここで、gは第g世代の親個体集団を表す符号である。gは、1〜G(後述する予め定められた世代数G)までの値をとる。

0036

次に、S21において、処理部10は、親個体集団データ取得部102から第1世代親個体集団データを取得する。

0037

次に、S22において、交差処理部104及び変異処理部105は、第1世代親個体集団データに含まれる個体データに対して交差処理及び変異処理を実行する。なお、交差処理は任意であり、必要に応じて省略することができる。以下、図9図12を用いて交差処理及び変異処理について説明する。

0038

<交差処理>
まず、図9及び図10を用いて交差処理について説明する。図9は、本発明の一実施形態に係る交差処理を実施するためのフローチャートの一例を示す図である。まず、S321において、交差処理部104は、変数iを0にセットする。

0039

次に、S322において、交差処理部104は、処理部10又は親個体集団データ取得部102から、第g世代親個体集団データ(図8におけるメインルーチンでg=1の場合は第1世代親個体集団データ)を取得する。そして、第g世代親個体集団データに含まれるp個の個体データから、(e−i)個(現時点ではi=0のためにe個)の個体データをランダムに抽出する。かかる抽出に利用する手法は特に限定されないが、例えば「binary tournament selection法」を用いることができる。ここで、eは「p×Pc」を超えない最大の偶数である。なお、Pcはパラメータであり、0より大きく1より小さい任意の値とすることができる。

0040

次に、S323において、交差処理部104は、(e−i)個の個体データからランダムに2個の個体データを選択する。2個の個体データの選択は、例えば乱数表等を利用してランダムに実行される。

0041

次に、S324において、交差処理部104は、S323にて選択された2個の個体データに対して交差処理を実行する。ここで、交差処理について、図10を用いて具体的に説明する。

0042

図10に示されるように、S323にて選択された2個の個体データをそれぞれ第1個体データ及び第2個体データとする。図10の例では、第1個体データ及び第2個体データはそれぞれ3つのCDSを有し、異なる塩基配列を有する。これらの個体データから、交差ポイントを決定する。交差ポイントは、コドンとコドンの境界から1箇所選ばれる。かかる決定はランダムに行われてもよい。本実施形態では、第1個体データと第2個体データにおける交差ポイントは同じ場所とする。そして、交差ポイントを境として、第1個体データと第2個体データに含まれるコドンを入れ替える。本実施形態では、かかる処理を交差処理という。

0043

図9に戻り、交差処理についてさらに説明する。S325において、交差処理部104は、変数iを2増やす。

0044

次に、S326において、交差処理部104は、変数i=eであるか否かを判定する。そして、判定結果がNOであれば、再びS323に戻る。一方、判定結果がYESであれば、交差処理を終了し、かかる計算結果を計算データ記憶部204へ出力する。ここで、現時点ではi=2であり、eが2よりも大きいとすると、S326からS323へ戻ることになる。そして、まだ交差処理が実行されていない(e−2)個の個体データからランダムに2個の個体データを選択する。かかる処理を、S326における判定結果がYES、つまり、e個の個体データ全てに対して交差処理が実行されるまで繰り返す。なお、前述のとおり、かかる交差処理は任意であり、必要に応じて省略することができる。

0045

<変異処理>
次に、図11及び図12を用いて、変異処理について説明する。変異処理は、第g世代親個体集団データに含まれる全ての個体に対して実行される。ここで、S22において交差処理が実行されていない場合には、第g世代に含まれるp個の個体データに対して変異処理を実行する。一方、S22において交差処理が実行された場合には、交差処理が実行されたe個の個体データと、交差処理が実行されていないp−e個の個体データを合わせた計p個の個体データに対して変異処理を実行する。

0046

図11は、本発明の一実施形態に係る変異処理を実施するためのフローチャートの一例を示す図である。まず、S221において、変異処理部105は、第g世代親個体集団データに含まれる各個体データに対し、第1変異処理又は第2変異処理のいずれを実行するかをランダムに決定する。本実施形態では、第g世代親個体集団データに含まれるp個の個体データの全てに対して変異処理を実行するものとする。ここで、第2変異処理は、第1変異処理とは異なる変異処理である。

0047

次に、S222において、変異処理部105は、S221における決定結果が第1変異処理であるか否かを判定する。そして、判定結果がYESであれば、S223aに進み、第1変異処理を実行する。一方、判定結果がNOであれば、S223bに進み、第2変異処理を実行する。

0048

(第1変異処理)
次に、S223aにおいて、変異処理部105は、個体データに対して第1変異処理を実行する。具体的には、個体データに含まれる全てのCDSに対し、各コドンを予め定められた確率Pmでかかるコドンより高頻度のコドンに置換する。ここで、より高頻度のコドンは、図6の前処理におけるS12でコドン頻度表データ記憶部203から取得したコドン頻度表データより得る。ここで、図12(a)を用いて第1変異処理について説明する。

0049

図12(a)は、個体データに3つのCDSが含まれる例を示す。図12(a)に示されるように、第1変異処理では、個体データに含まれる3つのCDSについて、全てのコドン(5×3=15個のコドン)に対して確率Pmで変異処理を実行する。なお、図12(a)中の破線は、確率Pmで変異処理が実行される対象となるコドンの範囲を表すものである。一例として、3つ目のCDSであるCDS−3に含まれる最初のコドンである「GGC」を、確率PmでGGCより高頻度なコドンに置換する。ここで、より高頻度なコドンは、コドン頻度表データから得る。図12(a)の例では、「GGC」より高頻度なコドンは、「GGT」及び「GGA」が存在する。このように、より高頻度なコドンが複数ある場合には、いずれか1つのコドンをランダムに選び、「GGC」と置換する。なお、「GGC」より高頻度なコドンが存在しない場合、かかる置換はされない。このような置換を、個体データに含まれる全てのコドンに対して実行する。本実施形態では、このような処理を第1変異処理という。ここで、第1変異処理は、後述する第1評価基準に係る最小CAI値を大きくすることを意図するものである。

0050

(第2変異処理)
図11に戻り、変異処理についてさらに説明する。S223bにおいて、変異処理部105は、個体データに対して第2変異処理を実行する。具体的には、個体データに含まれるCDSのうち、それぞれのCDS間又は1つのCDS内部の異なる部位で連続して一致する塩基配列のうち最長の塩基配列である最長共通文字と重なるコドンを、予め定められた確率Pmで他のコドンに置換する。ここで、図14を用いて、最長共通文字列について説明する。

0051

「最長共通文字列」
図14に示される個体データは、一例として3つのCDSを含むものである。ここで、各CDSに含まれる5個のコドンを表す文字列(3個の塩基(=文字)×5=15文字)を、他のCDS又は1つのCDS内部の異なる部位に含まれる文字列と対比して、連続して一致する文字列の中で最も長いものを最長共通文字列という。図14の例では、「GGCACGTCGA」(実線の下線が付された部分)が最長共通文字列となり、その長さ(文字数)は11である。なお、「GTCGAGCAG」(破線の下線が付された部分)も共通文字列であるが、長さが9であり、最長ではないので最長共通文字列とならない。なお、最長共通文字列は、計算機科学における最長共通部分文字列(The longest common substring)と呼ばれている概念に相当する。

0052

図12(b)は、個体データに3つのCDSが含まれる例を示す。図12(b)に示されるように、第2変異処理では、個体データに含まれる3つのCDSについて、CDSに含まれる5個のコドンを表す文字列(3個の塩基(=文字)×5=15文字)のうち、最長共通文字列と重なるコドンに対して確率Pmで変異処理を実行する。ここで、図12(b)の例では、最長共通文字列は「GGCATCGTCGA」(実線の下線が付された部分)である。図12(b)の例では、2つ目及び3つ目のCDSであるCDS−2及びCDS−3に含まれるコドンのうち、1〜4つ目のコドンが最長共通文字列と重なるコドンである。なお、図12(b)中の破線は、確率Pmで変異処理が実行される対象となるコドンの範囲を表すものである。一例として、CDS−3に含まれる最初のコドンである「GGC」を、確率Pmで他のコドンに置換する。図12(b)の例では、「GGC」とは異なるコドンとして、「GGT」、「GGA」及び「GGG」が存在する。このように、他のコドンが複数ある場合には、いずれか1つのコドンをランダムに選び、「GGC」と置換する。なお、「GGC」以外のコドンが存在しない場合には、かかる置換はされない。例えば、特定のアミノ酸をコードするコドンが1種類しか存在しないときには、置換ができない場合があるためである。このような置換を、最長共通文字列と重なるコドンに対して実行する。本実施形態では、このような処理を第2変異処理という。ここで、第2変異処理は、後述する第2評価基準に係る不一致塩基数を大きくし、最長共通文字列を小さくすることを意図するものである。

0053

そして、第1変異処理及び第2変異処理が終了すると、かかる計算結果を計算データ記憶部204へ出力する。

0054

図8に戻り、メインルーチンについてさらに説明する。S22において、第g世代親個体集団データに対して変異処理部105による変異処理、必要に応じて、交差処理部104による交差処理が実行された後、S23に進む。

0055

次に、S23において、子個体集団データ取得部103は、第g世代子個体集団データを生成する。以下、交差処理の実行の有無毎に、第g世代子個体集団データの生成の仕方について説明する。

0056

1.S22において変異処理のみが実行された場合
子個体集団データ取得部103は、第g世代親個体集団データに含まれるp個の個体データが全て変異処理されたp個の個体データを、新たに第g世代子個体集団データとする。

0057

2.S22において変異処理及び交差処理が実行された場合
子個体集団データ取得部103は、第g世代親個体集団データに含まれるp個の個体データのうち、交差処理が実行されたe個の個体データと、交差処理が実行されていないp−e個の個体データを合わせた計p個の個体データが全て変異処理されたp個の個体データを、新たに第g世代子個体集団データとする。

0058

次に、S24において、処理部10は、第g世代親個体集団データ及び第g世代子個体集団データを統合し、第g世代統合データを生成する。これにより、第g世代統合データには2p個の個体データが含まれることとなる。

0059

次に、S25において、非優越ソート実行部106は、予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、第g世代統合データに対して非優越ソートを実行する。そして、2p個の個体データをパレート最適解におけるフロント毎(ランク毎)に分類する。

0060

次に、S26において、個体選択部107は、パレート最適解におけるフロント毎(ランク毎)に分類された第g世代統合データから、ランクの高い順に定められた数の個体データを選択する。なお、個体選択部107は、定められた数の個体データを選択するときに、ランクが同じ個体データが存在する場合には、混雑距離が大きいものから順に選択することとしてもよい。ここで、予め定められた数として、pを採用することができる。そして、親個体集団データ取得部102は、個体選択部107により選択されたp個の個体データを、第g+1世代の親個体集団を表す第g+1世代親個体集団データとして生成し、取得する。以下、図13及び図14を用いて、かかる評価基準について説明する。

0061

<評価基準>
本実施形態では、非優越ソートを実行した2p個の個体データからp個の個体データを選択するに際し、2つの観点の評価基準を利用する。かかる観点は、相同組み換えを抑制し、目的タンパク質の生産量を高めることを目的として導き出された観点である。1つ目の観点は、「コドン適合度」に関するものである。具体的には、各個体が複数有する塩基配列であって、アミノ酸翻訳の対象となる塩基配列を表すCDSのコドン適合インデックスの最小値を基準とする。これが第1評価基準である。そして、2つ目の観点は、「コドンの塩基配列」に関するものである。さらに、2つ目の観点は、「不一致塩基数」及び「最長共通文字列」に分かれる。そして、個体データに含まれる2つのCDSのうち、不一致塩基数の最小値を基準とするのが第2評価基準である。また、個体データに含まれるCDSのうち、最長共通文字列の長さを基準とするのが第3評価基準である。以下、これら3つの評価基準の意義について、それぞれ説明する。

0062

(第1評価基準:コドン適合度)
第1の観点である第1評価基準は、「コドン適合度」に関するものである。ここで、「コドン適合度」とは、個体データに含まれるCDS中に利用頻度の高いコドンが多く含まれているほど高くなるものとする。具体的には、各個体データに含まれるCDSのコドン適合インデックス(Codon Adaptation Index(以下、CAIという))の最小値(以下、最小CAI値という)を基準とする。CAIは、例えば以下の式で求めることができる。

0063

L:個体データに含まれるコドンの数
fi:i番目のコドンの頻出度
max(fj):最頻出である同義コドン(j番目のコドン)の頻出度
ここで、同義コドンとは、同じアミノ酸をコードするコドンであって、異なる配列を持ったコドンのことである。

0064

そして、上記の式で求めたCAIを用いて、以下の式で最小CAI値を求めることができる。

0065

x:個体データに含まれるCDSの数
Ci:i番目のCDS
CAI(Ci):CiのCAI

0066

ここで、あるCDSのCAIが高いほど、そのCDSには利用頻度の高いコドンが多く含まれている(逆に言うとCDSに含まれるレアコドンの数が少ない)ことを示す。そして、ある個体データが、CAIが極端に低い(換言すると、レアコドンが多く含まれた)CDSを持っていると、そのCDSは効率的に翻訳されない可能性がある。したがって、最小CAI値を第1評価基準として用い、最小CAI値が大きいほど、かかる個体データの評価を高くすることにより、CAIが極端に低いCDSを持つ個体データを最適化の過程で取り除くことが可能になる。したがって、第1変異処理により、最小CAI値を大きくすることで、より好ましいシミュレーション結果を得ることができる。

0067

(第2評価基準:不一致塩基数)
次に、図13を用いて第2評価基準について説明する。第2の観点のうちの1つ目である第2評価基準は、「不一致塩基数」に関するものである。具体的には、不一致塩基数の最小値(以下、最小不一致塩基数という)を評価基準に用いる。ここで、不一致塩基とは、個体データに含まれるx個のCDSのうち、2つのCDS(以下、CDSペアという)Ci及びCjを対比して、コドンを構成する塩基が不一致となる塩基のことである。図13の例では、Ci及びCjを構成する塩基のうち、不一致塩基の数が5個となっている。したがって、かかるCDSペア(Ci及びCj)の不一致塩基数は5となる。最小不一致塩基数は、以下の式で求めることができる。

0068

x:個体データに含まれるCDSの数
Ci:i番目のCDS
Cj:j番目のCDS
NN(Ci,Cj):CiとCjの不一致塩基数

0069

ここで、ある個体データが、不一致塩基数が極端に低い(換言すると、塩基配列がよく似た)CDSペアを持っていると、そのCDSペアの間で相同組み換えが生じる可能性が高くなる。これは、相同組み換えは、塩基配列がよく似た部位(相同部位)で生じるためである。したがって、最小不一致塩基数を第2評価基準として用い、最小不一致塩基数が大きい(換言すると、塩基配列が異なる割合が大きい)ほど、かかる個体データの評価を高くすることにより、塩基配列がよく似た個体データを最適化の過程で取り除くことが可能になる。したがって、第2変異処理により、不一致塩基数を大きくすることで、より好ましいシミュレーション結果を得ることができる。

0070

(第3評価基準:最長共通文字列)
次に、図14を用いて第3評価基準について説明する。第2の観点のうちの2つ目である第3評価基準は、「最長共通文字列」に関するものである。すでに述べたように、「最長共通文字列」とは、各CDS又は1つのCDS内部の異なる部位に含まれるコドンを表す文字列を、他のCDSに含まれる文字列と対比して、連続して一致する文字列の中で最も長いもののことである。

0071

ここで、「全く同じ塩基配列」がゲノム近傍にあると、相同組み換えが生じる可能性が高くなる。これは、前述の通り、相同組み換えは、塩基配列がよく似た部位(相同部位)で生じるためである。したがって、「最長共通文字列」の長さを第3評価基準として用い、最長共通文字列の長さが短いほど、かかる個体データの評価を高くすることにより、「全く同じ塩基配列」が高い割合で含まれる個体データを最適化の過程で取り除くことが可能になる。したがって、第2変異処理により、最長共通文字列を小さくすることで、より好ましいシミュレーション結果を得ることができる。

0072

以上説明したように、第1の観点である第1評価基準を用いることにより、利用頻度の高いコドンが多く含まれるCDSを有する個体データを選択することが可能となる。また、第2の観点である第2評価基準及び第3評価基準を用いることにより、塩基配列が異なる割合が大きい個体データを選択し、相同組み換えの発生を抑制することが可能となる。

0073

図8に戻り、メインルーチンについてさらに説明する。S26において、個体選択部107は、パレート最適解におけるフロント毎(ランク毎)に分類された(2p個の個体データを含む)第g世代統合データから、ランクの高い順にp個の個体データを選択する。そして、親個体集団データ取得部102は、選択されたp個の個体データを新たに第g+1世代の親個体集団データとし、第g+1世代親個体集団データを生成する。

0074

次に、S27において、処理部10は、変数gが予め定められた世代数Gを超えるか否かを判定する。そして、かかる判定結果がNOであれば、S28に進む。一方、S27における判定結果がYESであれば、メインルーチンを終了し、かかる計算結果を計算データ記憶部204へ出力する。

0075

S27における判定結果がNOであれば、S28に進み、変数gをインクリメントし(つまり、変数gに1を加え)、再びS21に戻る。ここで、現時点では変数g=2であるので、親個体集団データ取得部102は、S26において生成された第2世代親個体集団データを取得する。かかる処理を、変数gが予め定められた世代数Gとなるまで繰り返し実行する。換言すると、S21〜S26における処理を250回繰り返し実行する。

0076

以上説明したメインルーチンを繰り返し実行することにより、3つの評価基準に基いて選択されたp個の個体データは、繰り返し回数が増えるほど、遺伝子配列群として好ましいものとなっていく。

0077

<実施例>
以下、本アルゴリズムを用いた遺伝子配列設計につき、実施例について説明する。かかる実施例では、シミュレーションとして、ヒトのインスリンA鎖(アミノ酸配列:GIVEQCCTSICSLYQLENYCN)をコードする10個のCDSを設計した。種々のパラメータについては、以下の通りである。
予め定められた確率Pm(変異率)=0.05
Pc(交差率)=0.5
第g世の個体集団データ(親個体集団データ、子個体集団データ)に含まれる個体データの数p=100
予め定められた世代数G(最大世代数)=250

0078

以下、図15及び図16を用いて、本シミュレーションにおける計算結果について、第1評価基準を横軸に、第2評価基準を縦軸にとってプロットしたグラフと、第1評価基準を横軸に、第3評価基準を縦軸にとってプロットしたグラフについて説明する。

0079

図15は、第1評価基準を横軸に、第2評価基準を縦軸にとってプロットしたグラフである。ここで、グラフ中にて丸で表されるプロットは第1世代、四角形で表されるプロットは第10世代、三角形で表されるプロットは第250世代における計算結果を示す。なお、1つのプロットは1つの設計結果(=個体データ)に対応する。すでに述べたように、第1評価基準は最小CAI値が大きいほど評価が高いので、グラフ中では横軸の右側にプロットされた点ほど評価が良く、横軸の左側にプロットされた点ほど評価が悪いといえる。また、第2評価基準は、最小不一致塩基数が大きいほど評価が高いので、グラフ中では縦軸の上側にプロットされた点ほど評価が良く、縦軸の下側にプロットされた点ほど評価が悪いといえる。図15に示されるように、世代数が大きくなるにしたがって(換言すると、図8におけるメインルーチンの繰り返し回数が増えるにしたがって)、個体集団データ全体として好ましいものとなっていることが読み取れる。

0080

図16は、第1評価基準を横軸に、第3評価基準を縦軸にとってプロットしたグラフである。丸、四角形及び三角形で表される各プロットの意味は、図15と同様である。ここで、第3評価基準は、最長共通文字列の長さが短いほど評価が高いので、グラフ中では縦軸の下側にプロットされた点ほど評価が良く、縦軸の上側にプロットされた点ほど評価が悪いといえる。図16に示されるように、世代数が大きくなるにしたがって(換言すると、図8におけるメインルーチンの繰り返し回数が増えるにしたがって)、個体集団データ全体として好ましいものとなっていることが読み取れる。

0081

以上、種々の実施形態について説明したが、本発明はこれらに限定されない。

0082

例えば、図8におけるメインルーチンのS26における選択は、第1評価基準及び第2評価基準、又は、第1評価基準及び第3評価基準のいずれか一方を用い、図15及び図16に示されるグラフの一方を得ることとしてもよい。また、第1評価基準及び第2評価基準、及び、第1評価基準及び第3評価基準の両方を用いる場合は、世代毎図15におけるグラフと図16におけるグラフからそれぞれ評価の高い個体データを特定し、任意の基準でポイントを付与し、これら2つのグラフにおけるポイントの合計が高い個体データを選択してもよい。もしくは、図15及び図16のように2次元のグラフではなく、第1評価基準をx軸に、第2評価基準をy軸に、第3評価基準をz軸にして、3次元のグラフを作成することにより3つの評価基準のそれぞれについて高い評価を得た個体データを選択してもよい。

0083

また、記憶部20は、情報処理装置1の内部に設けずに、外部のPC又はサーバ等の情報処理装置に設けるクラウドコンピューティングの態様とすることができる。この場合、計算の度に必要なデータを外部の情報処理装置が情報処理装置1に送信する。

0084

また、情報処理装置1の機能を実装したASIC(application specific integrated circuit)、FPGA(field−programmable gate array)、DRP(Dynamic ReConfigurable Processor)として提供することもできる。また、コンピュータに、情報処理装置1の機能を実現するためのプログラムとして提供することもできる。この場合、かかるプログラムをインターネット等を介して配信することもできる。

0085

さらに、本アルゴリズムとして、多目的遺伝的アルゴリズムである「NSGA−II」を利用することもできる。これは、本アルゴリズムと同様に、p個の最適解をまとめて得ることができるためである。また、組み合わせ最適化アルゴリズム一種である「シミュレテッドアニーリング」や「(単目的の)遺伝的アルゴリズム」を利用してもよい。ただし、この場合には、p個の最適解をまとめて得ることができないので、計算を少なくともp回以上繰り返し、p個の最適解を得る必要がある。さらに、これら2つ以上のアルゴリズムの計算結果を混合してもよい。この場合、p以下の任意の整数αを設定し、あるアルゴリズムによる計算結果からα個の個体を選択し、他のアルゴリズムによる計算結果からp−α個の個体を選択し、これらを結合したp個の個体を用いることとしてもよい。

0086

さらに、本発明は、
アミノ酸配列、遺伝子数及びコドン頻度表を表すデータに基いて生成されたデータであって、予め定められた数の個体データを含む第1世代の親個体集団を表す第1世代親個体集団データを取得する親個体集団データ取得ステップと、
前記第1世代親個体集団データに含まれる個体に対し、変異処理を実行する変異処理ステップと、
前記変異処理が実行された個体を含む第1世代の子個体集団を表す第1世代子個体集団データを取得する子個体集団データ取得ステップと、
予め定められた評価基準であって、コドン適合度及び前記コドンの塩基配列に関する評価基準に基いて、前記第1世代親個体集団データ及び前記第1世代子個体集団データを統合した第1世代統合データに対して非優越ソート処理を実行し、前記第1世代統合データに含まれる全個体データをパレート最適解におけるランク毎に分類する非優越ソート実行ステップと、
前記ランク毎に分類された全個体データから、前記ランクの高い順に予め定められた数の前記個体データを選択する個体選択ステップと、
を有する遺伝子配列設計方法
として捉えることもできる。

0087

1:情報処理装置、10:処理部、20:記憶部、30:操作部、40:表示部、50:通信部、100:バス、101:個体生成部、102:親個体集団データ取得部、103:子個体集団データ取得部、104:交差処理部、105:変異処理部、106:非優越ソート実行部、107:個体選択部、201:アミノ酸配列データ記憶部、202:遺伝子数データ記憶部、203:コドン頻度表データ記憶部、204:計算データ記憶部、205:評価基準記憶部205

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ