図面 (/)

技術 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法

出願人 シーメンスアクチエンゲゼルシヤフト
発明者 フォルクマールシュテルツィングシュテフェンウードルフト
出願日 2007年12月19日 (13年0ヶ月経過) 出願番号 2009-544385
公開日 2010年5月6日 (10年7ヶ月経過) 公開番号 2010-514986
状態 特許登録済
技術分野 ガスタービン、高圧・高速燃焼室 特定用途計算機
主要キーワード オーバーシューティング 特定問題 双曲線正接 コントロールネットワーク インテリジェントコントローラ 最適化目標 バルブ調節 フィードフォワードネットワーク
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2010年5月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (4)

課題・解決手段

本発明は技術システム計算機支援による閉ループ制御および/または開ループ制御のための方法に関する。本方法では、まず技術システムのシミュレーションモデル構築され、このシミュレーションモデルに複数の学習法および/または最適化法が適用される。これらの方法の結果に基づいて、技術システムに最も適した方法が選択される。そして、選択された学習法および/または最適化法は技術システムの開ループ制御または閉ループ制御するために用いられる。したがって、本方法はシミュレーションモデルに基づいて初期コントローラ訓練するために使用することができる。この初期コントローラは、例えば、技術システムのさらなる開ループ制御または閉ループ制御のあいだ変更されないインテリジェントコントローラとして使用することができる。

概要

背景

概要

本発明は技術システム計算機支援による閉ループ制御および/または開ループ制御のための方法に関する。本方法では、まず技術システムのシミュレーションモデル構築され、このシミュレーションモデルに複数の学習法および/または最適化法が適用される。これらの方法の結果に基づいて、技術システムに最も適した方法が選択される。そして、選択された学習法および/または最適化法は技術システムの開ループ制御または閉ループ制御するために用いられる。したがって、本方法はシミュレーションモデルに基づいて初期コントローラ訓練するために使用することができる。この初期コントローラは、例えば、技術システムのさらなる開ループ制御または閉ループ制御のあいだ変更されないインテリジェントコントローラとして使用することができる。

目的

本発明の課題は、少ない測定データに基づいて技術システムの効率的で正確な閉ループ制御または開ループ制御を可能にする、技術システムの計算機支援による閉ループ制御および/またはかイループ制御の方法を提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法において、a)前記技術システムの時間的に連続する複数の既知の状態(xt)に基づいて前記技術システムのシミュレーションモデル構築し、b)前記シミュレーションモデルに複数の学習法および/または最適化法を適用し、なお、当該学習法および/または最適化法はそれぞれの学習したパラメータと、前記状態(xt)および前記状態(xt)に割り当てられた行動(at)のシーケンスを提供し、ある1つの状態(xt)に割り当てられた行動(at)は前記シーケンス中の新たな状態(at+1)をもたらし、c)前記複数の学習法および/または最適化法の結果に基づき、所定の基準に従って、前記複数の学習法および/または最適化法の中から、前記技術システムの閉ループ制御および/または開ループ制御に適した1つの学習法および/または最適化法を選択し、d)選択した学習法および/または最適化法を用いて前記技術システムを閉ループ制御または開ループ制御し、その際、前記閉ループ制御または開ループ制御が、前記技術システムの状態(xt)に依存して、後で技術システムにおいて実行されるべき行動(at)を指定する、ことを特徴とする方法。

請求項2

前記ステップd)において、前記ステップb)で学習したパラメータに基づき、選択された学習法を用いて前記技術システムが閉ループ制御ないし開ループ制御する、その際、前記学習されたパラメータは前記技術システムの閉ループ制御ないし開ループ制御の際に変更されることはない、請求項1記載の方法。

請求項3

前記ステップd)において、閉ループ制御ないし開ループ制御の初めに前記ステップb)で学習したパラメータが使用されるように、選択された学習法により前記技術システムを閉ループ制御ないし開ループ制御する、ただし、前記学習したパラメータは、閉ループ制御ないし開ループ制御の間、閉ループ制御ないし開ループ制御の間に生じた新たな状態(xt)および行動(at)によりさらに学習される、請求項1または2記載の方法。

請求項4

前記ステップd)において、選択された学習法ないし最適化法を用いてステップb)で学習したパラメータをリセットし、前記技術システムの閉ループ制御ないし開ループ制御の際に新たに学習する、請求項1から3のいずれか1項記載の方法。

請求項5

使用するシミュレーションモデルを前記ステップa)においてリカレントニューラルネットワークに基づいて構築する、請求項1から4のいずれか1項記載の方法。

請求項6

前記ステップc)における学習法および/または最適化法の選択を前記学習法および/または最適化法の各々の評価に依存して行う、ただし、前記評価は、前記シミュレーションモデルから出力される、および/または各学習法および/または最適化法の結果を介して求められる、請求項1から5のいずれか1項記載の方法。

請求項7

前記評価は前記学習法および/または最適化法の評価関数または報酬関数に関する品質尺度である、請求項6記載の方法。

請求項8

前記シミュレーションモデルに適用される複数の学習法および/または最適化法には、1つまたは複数の強化学習法、とりわけテーブルベースの強化学習法が含まれている、請求項1から7のいずれか1項記載の方法。

請求項9

前記シミュレーションモデルに適用される複数の学習法および/または最適化には、適応型発見的クリティックアルゴリズムおよび/またはQ学習アルゴリズムおよび/または優先順位付きスウィープアルゴリズムが含まれている、請求項1から8のいずれか1項記載の方法。

請求項10

前記強化学習法または前記強化学習法のうちの1つは、−前記技術システムの動特性を前記シミュレーションモデルで求めた状態(xt)および行動(at)を含む訓練データを用いてリカレントニューラルネットワークにより複数の時点(t)でモデル化し、ただし、前記リカレントニューラルネットワークは、前記複数の時点(t)における前記技術システムの状態(xt)と前記技術システム上で行われる行動(at)とを含む少なくとも1つの入力層(I)、隠れ状態(st,pt)を含む少なくとも1つの隠れリカレント層(H)、および前記複数の時点(t)における前記技術システムの状態(xt)を含む少なくとも1つの出力層(O)により形成されており、−前記リカレントニューラルネットワークを、現在および将来の時点(t)について、少なくとも1つの入力層(H)、隠れ状態(rt)を含む少なくとも1つの隠れ層(R)、少なくとも1つの出力層(O’)を含む別のニューラルネットワークと結合させて、行動選択規則を学習し、ただし、前記別のニューラルネットワークの各時点(t)の入力層(H)は前記リカレントニューラルネットワークの各時点(t)の隠れ状態(pt)の少なくとも一部を含んでおり、前記別のニューラルネットワークの各時点の出力層(O’)は前記技術システム上で各時点に実行される行動(at)を含んでおり、−前記技術システムの状態(xt)および割り当てられた行動(at)を前記別のニューラルネットワークと結合した前記リカレントニューラルネットワークにより学習した行動選択規則を用いて決定するように構成されている、請求項8または9記載の方法。

請求項11

前記技術システムの各状態(xt)を第1の次元を有する第1の状態空間内の複数の状態変数により表す、および/またはある1つの状態(xt)に割り当てられた各行動(at)を複数の行動変数により表す、請求項1から10のいずれか1項記載の方法。

請求項12

ある1つの状態(xt)に割り当てられた前記各行動(at)を前記技術システムの1つまたは複数の操作量の変化により表す、その際、有利には前記操作量の少なくとも一部は前記技術システムの状態(xt)に相当する、請求項1から11のいずれか1項記載の方法。

請求項13

前記ステップb)を実行する前に、前記複数の学習法および/または最適化法のうちの少なくとも一部について、それぞれ以下のように前記第1の状態空間の最小化を行う、すなわち、−前記第1の状態空間の状態(xt)を、入力層(I)、隠れリカレント層(H)、および出力層(O)を有するリカレントニューラルネットワークにより、前記シミュレーションモデルで求めた状態を訓練データとしてモデル化し、その際、i)前記複数の時点(t)について、前記入力層(I)と前記出力層(O)をそれぞれ前記第1の状態空間内の状態(xt)により形成し、ii)前記隠れリカレント層(H)を、第2の次元を有する第2の状態空間内の複数の隠れ状態変数をもつ隠れ状態(st)により形成し、ただし、第2の次元は第1の次元よりも低くく、−前記第2の状態空間内の前記隠れ状態(st)に対して、前記学習法および/または最適化法の少なくとも一部の各学習法および/または最適化法を前記ステップb)に従って実行することにより、前記第1の状態空間の最小化を行う、請求項11または12記載の方法。

請求項14

前記ステップb)において、前記状態(xt)および/または前記行動(xt)を所定の基準に従って離散化する、請求項1から13のいずれか1項記載の方法。

請求項15

前記技術システムの状態(xt)および/または割り当てられた行動(at)に関して、1つまたは複数の値域を定めるか、または決定する、ただし、前記状態(xt)および/または前記行動(at)の値は、前記ステップb)において学習法および/または最適化法を適用する際、前記値域内になければならない、請求項1から14のいずれか1項記載の方法。

請求項16

前記ステップb)において各学習法および/または最適化法を前記シミュレーションモデルに適用する際に、前記値域をペナルティ信号によって学習する、ただし、該ペナルティ信号は、前記学習法および/または最適化法で求められた状態(xt)および/または行動(at)が測定されたまたは許容される状態(xt)および/または行動(at)から偏差すればするほど大きい、請求項15記載の方法。

請求項17

前記方法によりガスタービンを閉ループ制御および/または開ループ制御する、その際、前記技術システムの状態および/または当該状態(xt)に割り当てられた行動(at)は、ガスタービンの総出力、ガスタービンまたはガスタービン周辺の1つまたは複数の圧力および/または温度、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメータ、とりわけ、バルブ調節および/または燃料比および/または入口案内翼の調節のうちの1つまたは複数を含む、請求項1から16のいずれか1項記載の方法。

請求項18

前記ステップb)において前記シミュレーションモデルに適用される複数の学習法および/または最適化は、学習目標および/または最適化目標として、低い燃焼室加速度を含む、請求項17記載の方法。

請求項19

計算機上で実行したときに請求項1から18のいずれか1項記載の方法を実行するプログラムコード機械可読媒体上に記憶させたコンピュータプログラム製品

技術分野

0001

本発明は、技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法、ならびに相応するコンピュータプログラム製品に関する。

0002

複雑な技術システムを制御する際、技術システムの所望の有利な動特性が得られるように、実行すべき変更を技術システムにおいて選択することが望ましいという場合がよくある。しかし、複雑な技術システムでは、動特性を簡単に予測できない場合が多い。したがって、技術システムの将来の挙動推定し、それに応じて技術システムの閉ループ制御または開ループ制御のために適切な行動を選択するために、相応の計算機支援予測方法が必要である。

0003

大抵、技術システムの状態は簡単には測定できず、システム挙動に確率的な部分があるために統計的にしか記述することができない。したがって、このような技術システムを閉ループ制御する場合、相応する閉ループ制御の理想値ないし規定値も、例えばニューラルネットワークのようなシミュレーションモデル訓練に使用できる相応する目標値も存在していないことが多い。複雑な技術システムの種々の測定量と操作量の間に存在しうる依存関係は不明であるから、このシステムの最適な自動制御を開発することは困難であるか、技術システムの動特性を非常に長期にわたって観察することによってしか可能でない。

0004

先行技術からは、技術システムの動作点の閉ループ制御もしくは開ループ制御および最適化の様々な方法が公知である。これらの方法は、技術システムを記述するために解析的なモデルを使用するか、技術システムの過去の測定データまたは技術システムに関する情報に基づいた技術システムのモデル化に依拠している。なお、モデル化は例えばベイジアンネットワークニューロファジーネットワークを用いて行われる。

0005

技術システムを閉ループ制御または開ループ制御するための公知の方法は、技術システムをモデル化するために、多数の測定データを必要とする場合が多く、また専用の技術システムに適しているか否かも予め明らかではない。

0006

それゆえ、本発明の課題は、少ない測定データに基づいて技術システムの効率的で正確な閉ループ制御または開ループ制御を可能にする、技術システムの計算機支援による閉ループ制御および/またはかイループ制御の方法を提供することである。

0007

この課題は独立請求項により解決される。本発明の展開形態従属請求項に記載されている。

0008

本発明による方法は、ステップa)において、技術システムの時間的に連続した測定された状態に基づいて技術システムのシミュレーションモデルを構築する。次に、ステップb)において、構築されたシミュレーションモデルに複数の学習法および/または最適化法を適用する。ここで、これらの学習法および/または最適化法は、結果として、それぞれの学習したパラメータと、状態および状態に割り当てられた行動のシーケンスを提供し、ある1つの状態に割り当てられた行動は状態と行動のシーケンスの中の新たな状態をもたらす。複数の学習法および/または最適化法の結果に基づき、最終的に所定の基準に従って、複数の学習法および/または最適化法の中から1つの学習法および/または最適化法が選択される。なお、選択された方法はこの所定の基準に従って技術システムの閉ループ制御および/または開ループ制御に適したものである。最後に、技術システムは、ステップd)において、選択された学習法および/または最適化法により閉ループ制御または開ループ制御される。この閉ループ制御または開ループ制御は、技術システムの状態に依存して、後に技術システム上で実行されるべき行動を指定する。

0009

本発明による方法を用いれば、少ない測定データに基づいてシミュレーションモデルを構築することができ、このシミュレーションモデルを用いて、システムの開ループ制御ないし閉ループ制御にはどの学習法ないし最適化法が特に適しているのかを求めることができる。それゆえ、学習法ないし最適化法は直に実際の技術システム上で選択および学習されるのではなく、予めシミュレーションモデル上で選択および学習される。このようにして、実際の技術システムの本来の閉ループ制御ないし開ループ制御に先立って、特に適切な学習法が抽出される。技術システムの実際の閉ループ制御ないし開ループ制御は時として非常にコストがかかるが、これにより、実際の閉ループ制御ないし開ループ制御の際のエラーが防止される。上記の方法は非常に柔軟であり、新種の学習法ないし最適化法によって非常に容易に補完することができる。なお、新種の学習法ないし最適化法は上記方法のステップb)で考慮される。発明者は、適切な実験により、上記方法がガスタービンの閉ループ制御ないし開ループ制御に特に適していることを立証することができた。

0010

本発明による方法では、ステップd)において、種々の閉ループ制御ないし開ループ制御を使用することができる。また、これら種々の閉ループ制御ないし開ループ制御を互いに組み合わせてもよい。とりわけ、あるタイプの制御から別のタイプの制御へと切り替えることができるようにしてよい。1つの実施形態では、ステップd)において、ステップb)で学習したパラメータに基づき、選択された学習法を用いて技術システムが閉ループ制御ないし開ループ制御される。なお、学習されたパラメータは技術システムの閉ループ制御ないし開ループ制御の際に変更されることはない。このようにして、実際の技術システムでの閉ループ制御ないし開ループ制御の全体を通して変更されることのない初期コントローラが得られる。つまり、これは既に学習済みのコントローラであり、閉ループ制御ないし開ループ制御の際に、計算機支援による方法に対して大量の所要メモリや高い計算能力を要求しない。

0011

本発明の1つの実施形態によれば、技術システムは、ステップd)において、閉ループ制御ないし開ループ制御の初めにステップb)で学習したパラメータが使用されるように、選択された学習法を用いて閉ループ制御ないし開ループ制御される。なお、ステップb)で学習したパラメータは、閉ループ制御ないし開ループ制御のあいだ、閉ループ制御ないし開ループ制御中に生じた新たな状態および行動によってさらに学習される。このようにして、技術システムの実際稼働時における閉ループ制御ないし開ループ制御の最中に連続的に改善される適応型コントローラが得られる。

0012

本発明の別の実施形態では、選択された学習法ないし最適化法を用いてステップb)で学習されたパラメータをリセットし(すなわち、予め決められた所定値にセットし)、技術システムの閉ループ制御ないし開ループ制御の際に新たに学習することもまた可能である。

0013

本発明による方法のステップa)では、任意の方法でシミュレーションモデルを構築してよい。このために、有利には、例えば詳細な説明で図1を参照して説明されているように、リカレントニューラルネットワークが使用される。

0014

本発明の方法のステップc)における学習法ないし最適化法の選択は、有利には、シミュレーションモデルが出力する評価、および/またはそれぞれの学習法ないし最適化法に依存する評価に依存して行われる。この評価は有利には学習法の評価関数または報酬関数に関する品質尺度である。すなわち、それぞれの学習法ないし最適化法をシミュレーションモデルに適用する際に報酬関数による報酬が高ければ高いほど、技術システムの制御に関する学習法ないし最適化法の適格性は高く格付けされる。

0015

シミュレーションモデルに適用される複数の学習法ないし最適化法には、特に1つまたは複数の強化学習法(Reinforcement-Learning、文献[2]参照、特にテーブルベースの強化学習法)が含まれている。例えば、これらの学習法および/または最適化法には、適応型発見的クリティック(Adaptive Heuristic Critic)アルゴリズムおよび/またはQ学習アルゴリズムおよび/または優先順位付きスウィープアルゴリズムが含まれていてよい。これらのアルゴリズムは先行技術から十分に公知であるから、ここではこれ以上説明しない。

0016

本発明の特に有利な別の実施形態では、上記複数の学習法ないし最適化法に新種の学習法が含まれていてよい。この学習法は次のように構成されている。
技術システムの動特性が、シミュレーションモデルで求めた状態および行動を含む訓練データを用いてリカレントニューラルネットワークにより複数の時点でモデル化される。なお、リカレントニューラルネットワークは、複数の時点における技術システムの状態と技術システムで行われる行動とを含む少なくとも1つの入力層隠れ状態を含む少なくとも1つの隠れリカレント層、および複数の時点における技術システムの状態を含む少なくとも1つの出力層により形成されている。
リカレントニューラルネットワークが、現在および将来の時点について、少なくとも1つの入力層、隠れ状態を含む少なくとも1つの隠れ層、少なくとも1つの出力層を含む別のニューラルネットワークと結合されることにより、行動選択規則が学習される。ここで、別のニューラルネットワークの各時点の入力層はリカレントニューラルネットワークの各時点の隠れ状態の少なくとも一部を含んでおり、別のニューラルネットワークの各時点の出力層は技術システムにおいて各時点に実行される行動を含んでいる。

0017

技術システムの状態および対応する行動は、別のニューラルネットワークと結合したリカレントニューラルネットワークにより、学習された行動選択規則を用いて決定される。

0018

この新種の学習法は、2つのステップ、すなわち、技術システムの動特性をリカレントニューラルネットワークに基づいて履歴データを用いて学習するステップと、続いてリカレントニューラルネットワークを別のニューラルネットワークと結合することにより最適な制御を学習するステップを特徴としている。

0019

本発明による方法では、技術システムの状態は大抵は高次元である。すなわち、技術システムの状態は第1の次元を有する第1の状態空間内の複数の状態変数によって規定される。有利には、技術システムの状態に対応する行動もそれぞれ複数の行動変数により規定される。

0020

特に有利な別の実施形態では、状態に対応する各行動は技術システムの1つまたは複数の操作量の変化によって規定される。ここで、操作量は技術システムを制御する際の調整パラメータであり、操作量は有利には技術システムの状態変数であってよい。したがって、状態の変化は場合によっては操作量の変化にも相当する。

0021

本発明の有利な実施形態では、ステップb)の実行前に、複数の学習法ないし最適化法のうちの少なくとも一部の学習法ないし最適化法に関して、状態の第1の状態空間の最小化が行われる。これには、通常は低次元の状態空間でしか機能しない学習法も使用できるという利点がある。第1の状態空間の最小化は次のようにして行われる。

0022

第1の状態空間の状態が、入力層、隠れリカレント層、および出力層を有するリカレントニューラルネットワークにより、既知の状態を訓練データとしてモデル化される。その際、
i)前記複数の時点について、入力層と出力層がそれぞれ第1の状態空間内の状態により形成される。
ii)隠れリカレント層は、第2の次元を有する第2の状態空間内の複数の隠れ状態変数をもつ隠れ状態により形成される。ただし、第2の次元は第1の次元よりも低い。

0023

この最小化の後、それぞれの学習法ないし最適化法は、隠れ状態の縮退した第2の状態空間の中で実行される。

0024

本発明による方法の別の実施形態では、ステップb)において、技術システムの状態および/または対応する行動が予め決められた基準に従って離散化される。問題に即応した適切な離散化により、技術システムの状態ないし行動がそれぞれの問題にとって有望と見なされるような値のみをとるようにすることができる。

0025

本発明の特に有利な別の実施形態では、技術システムの状態および/または対応する行動に関して、1つまたは複数の値域が定められる、または学習される。ステップb)における学習法および/または最適化法を適用する際、状態および/または行動の値はこの値域内になければならない。このようにして、禁じられたシステム状態が選択されないように、状態および行動の空間を適切に探査することができる。これはパラメータ選択を限定することで明示的に達成することもできるが、システム自体不適当なシステム状態を回避し、技術システムに固有限度の状態を見つけだすことを学習してもよい。

0026

本発明の特に有利な実施形態では、上記値域はステップb)においてそれぞれの学習法ないし最適化法をシミュレーションモデルに適用する際にペナルティ信号により学習される。ただし、ペナルティ信号は、学習法および/または最適化法で求められた状態および/または行動が、測定されたまたは許容される状態および/または行動から偏差すればするほど、大きくなる。ここで、許容される状態ないし行動は前もって定義されるものであり、技術システムの望ましい動作範囲を規定する。

0027

本発明の特に有利な適用分野はタービンの制御、それも特にガスタービンの制御である。なお、技術システムの状態および/またはこれらの状態に対応する行動は以下の量のうちの1つまたは複数を含む。
ガスタービンの総出力、ガスタービンまたはガスタービン周辺の1つまたは複数の圧力および/または温度、ガスタービン内の燃焼室加速度、ガスタービンの1つまたは複数の調整パラメータ、とりわけ、バルブ調節および/または燃料比および/または入口案内翼の調節。
例えば、ステップb)でシミュレーションモデルに適用される学習法ないし最適化法は、学習目標ないし最適化目標として、低い燃焼室加速度を含んでいてよい。

0028

本発明はさらに、上記方法の他に、コンピュータ上で走らせたときに本発明による方法を実行するプログラムコードをコンピュータ可読媒体に記憶させたコンピュータプログラム製品にも関している。

0029

以下では本発明の実施例を添付図面に基づき詳細に説明する。

図面の簡単な説明

0030

本発明の実施形態で技術システムのシミュレーションモデルを構築するために使用されるリカレントニューラルネットワークの概略図である。
本発明に従って複数の学習法および/または最適化法から選択される学習法において使用されるリカレントニューラルネットワークの概略図である。
図2のリカレントニューラルネットワークとフィードフォワードネットワーク組合せによる行動選択規則の学習を示した概略図である。

0031

本発明による方法の下記の実施形態は任意の技術システムに適用可能である。しかし、以下の実施形態はガスタービンに適用するのが特に好ましい。なお、ガスタービンは例えば以下の11個の状態変数を含む状態ベクトルによって表される。
GtLstg=ガスタービン出力
PrDFi=吸気フィルタでの圧力損失
VerdPr=コンプレッサ終圧
VerdT=コンプレッサ終温
Schaufel=入口案内翼位置
DrVBr=燃焼室内での圧力損失
PilotG=パイロットガス調整バルブ弁揚程
GasDr=ガス圧
GasT=ガス温度
AbgasT=廃ガス温度
BkB=燃焼室加速度
特に有利な実施形態では、本発明による方法は、学習ないし最適化の目標が、低い燃焼室加速度ないしはタービンの小さなうなり音と同一視しうる変数BkBのできるだけ小さな値であるように構成されている。

0032

本発明による方法では、入力量として、様々な時点における技術システムの状態変数の測定値が用いられる。本発明による方法のステップa)では、計算機支援により技術システムをシミュレートするためにこれらの測定値が使用される。なお、先行技術から公知の任意の方法を使用して、技術システムの相応のシミュレーションモデルを構築してもよい。これに関しては、ニューラルネットワークが特に適していることが判明している。

0033

以下では、図1に基づき、本発明による方法のステップa)においてシミュレーションモデルを構築するリカレントニューラルネットワークに基づいた方法を説明する。技術システムの状態はそれぞれ第1の状態空間内の状態によって規定される。なお、第1の状態空間は、技術システムの各時点tにおける状態xtの状態変数の個数により決まる次元を有している。ガスタービンに関する上の例では、11個の状態変数があるので、11次元の状態空間である。したがって、状態xtは技術システムの状態変数を成分とする状態ベクトルである。状態変数の値は測定してもよい。

0034

図1のネットワークは入力層Iを含んでいる。入力層Iは、観察時点tにおいて、相応する状態xtと過去の状態xt-1,xt-2,xt-3等から形成されている。入力層の状態は行列Bを介して隠れ層Hの隠れ状態およびバイアス閾値θと結合されている。ただし、時点tにおける状態xtは隠れ層Hの同じ時点における相応する隠れ状態stに対応付けられている。隠れ層Hはリカレント層であり、隠れ状態stは所定数の隠れ状態変数を有する状態ベクトルである。これにより、隠れ状態変数の個数に相当する第2の次元を有する状態空間が形成される。時点tにおける状態stは行列Aとバイアスθとを介して後続の時点における状態st+1と結合されている。層Hの個々の隠れ状態stは再び−入力層Iと同様に−技術システムの状態xtによって表される出力層Oと結合されている。各時点tにおける隠れ状態stは行列Cを介して次の時点t+1における状態xt+1と結合されている。

0035

図1に示されているリカレントニューラルネットワークは、技術システムの測定された状態を含む訓練データを用いて訓練される。したがって、相応する技術システムの時間的な動特性がこのネットワークによりモデル化される。図1によるリカレントネットワークは、将来の状態を考慮した動的かつ整合的な時間発展をもつネットワークであり、英語では"Network with Dynamically Consistent Overshooting"と呼ばれる。これは、ネットワーク内で時点tに過去の状態xt,xt-1,...等だけでなく、将来の状態xt+1,xt+2,...等も考慮されることを意味する。出力層におけるネットワークの固有の予測、すなわち、図1の状態xt+1,xt+2およびxt+3は再びネットワークへの入力として使用される。このリカレントニューラルネットワークは特に17個の過去の状態と8個の将来の状態とでテストしてある。図1では、隠れ層Hの相応する状態が出力層Oのどの状態と結合するかが破線で示されている。それゆえ、図1によるリカレントニューラルネットワークでは、システム自体の状態xτが予測される。このようにして、基礎となる技術システムの動特性をモデル化することができる。数学的には、図1のネットワークは以下の式により表される。

0036

これらの式は時点tにおけるリカレントニューラルネットワークに関係している。時点tには、時点τの値域が考慮される。τの値域は時点tより前の所定数mの時間ステップと時点tより後の所定数nの時点(いわゆるオーバーシュート部分)とを含んでいる。
ここで、次の式が成り立つ。
t∈{m,...,T−n}
ただし、Tは、訓練データが存続する時点の個数、すなわち、技術システムの測定された状態が存続する時点の個数を表している。

0037

上記の式によれば、ニューラルネットワークのパラメータとして、行列A,B,Cおよびバイアスθが求められる。なお、これらのパラメータは、ネットワークによって求められた状態xτと相応する測定された状態xτdとの間の平方誤差が訓練データに従って最小となるように選択されている。したがって、これらから、本発明による方法のさらなるステップb)〜d)を実行するために使用しうるシミュレートされた技術システムのモデルが得られる。

0038

本発明による方法のステップb)では、このモデルに複数の学習法および/または最適化法を適用するために、構築されたシミュレーションモデルが使用される。任意選択的に、ステップb)を実行する前に、状態ベクトルの状態変数の数を減らすいわゆる状態空間最小化の方法を使用してもよい。これには、シミュレーションモデルに適用される学習法および/または最適化法の数が明らかに多くなるという利点がある。なぜならば、公知の多くの学習法および/または最適化法は限られた次元の状態空間内でしか使用することができないからである。同様に、状態空間最小化のために、図1に示されているリカレントニューラルネットワークを使用してもよい。しかし、今や入力層の変数はもはや技術システムの測定された状態ではなく、シミュレーションモデルによってシミュレートされた状態である。次に、状態空間最小化のために、隠れ層Hにおいて、入力層Oにおける状態ベクトルの次元よりも低い次元を有する隠れ状態ベクトルstが選択される。その際、次元はできるだけ低く、しかしながら技術システムを十分良くシミュレートするように選ばれる。これは入力層Iの状態ベクトルが出力層Oの状態ベクトルからどれだけ偏差しているかによって決まる。状態空間最小化は、結果として、元の状態空間に比べて次元の縮退した隠れ状態変数の新しい状態空間をもたらす。本発明による方法のステップb)による1つまたは複数の学習法および/または最適化法はこの縮退した状態空間に適用することができる。既に述べたように、状態空間最小化のステップは任意選択的なものであり、場合によってはなくてもよい。さらに、状態空間最小化はステップb)で使用される学習法および/または最適化法の一部にしか適用できない。

0039

本発明による方法のステップb)では、どのような学習法および/または最適化法でも、特に、例えば適応型発見的クリティック(Adaptive Heuristic Critic)アルゴリズム、Q学習アルゴリズムまたは優先順位付きスウィープアルゴリズムのような先行技術から公知の学習法および/または最適化法でも使用することができる。以下では、多数の学習法の中から、先行技術からはまだ公知でない可能な学習法について説明する。この学習法はリカレントニューラルネットワークをフィードフォワードネットワークと組み合わせた学習法である。以下では、この方法を図2および図3を基に説明する。

0040

以下に説明する学習法は、シミュレーションモデルによってシミュレートされた状態xtを含む状態空間Xと状態xtに依存して実行される行動atを表す行動空間Aとに基づいた技術システムの記述に依拠している。なお、行動atは有利には複数の成分を有するベクトルであり、各成分は技術システム上での操作量の変化を表している。

0041

ここでは、技術システムは確率遷移関数Pをもつマルコフ決定過程DP(MDP=Markov Decision Process)により記述できるものと仮定する。この過程に対して、報酬関数または費用関数c:X×A→Rが存在する。ここで、Rは状態xtにおける行動atの選択に対してシステムが得る報酬の空間を表している。今や、目標は、各状態xtについて期待される累積報酬関数または平均報酬関数cを最大化する最適な規則Π:X→Aを求めることである。報酬関数cの最大化は、請求項10に規定されているように、行動選択規則の1つの可能な具体化に相当する。報酬関数は、とりわけ、技術システムの所望の特性を反映するように決められ、最適値には関数が最大となったときに到達する。単純なケースでは、費用関数は例えば技術システムの有利な所望の状態、すなわち、費用関数が最大値をとったときに最適となるような状態としてよい。以下では、技術システムは離散的な時間ステップを有する決定性マルコフ決定過程であると仮定する。ただし、状態空間XおよびAは連続である。

0042

以下に説明する実施形態では、マルコフ決定過程はリカレントニューラルネットワークRNNによってモデル化される。これにより、技術システムの動特性、すなわち、遷移関数P(・)が、高次元の非線形システム方程式によりモデル化される。なお、ここに説明する本発明の実施形態で使用されるリカレントニューラルネットワークRNNは図2に示されている。リカレントニューラルネットワークは個々の時点における状態と行動を示す入力層Iを含んでいる。例えば、図2には、状態xt-1,xtおよび行動at-1,at,at+1が示されている。入力層は相応の行列BおよびDを介して隠れ層Hと結合されている。なお、行列BおよびDについては、以下でさらに詳しく定義する。隠れ層は各時点について隠れ状態を有しており、図1には、例として、状態pt-1,st-1,pt,st,pt+1およびst+1が示されている。隠れ層Hはリカレントである。というのも、個々の隠れ状態が相互に結合されているからである。このことは図2において相応の行列I(単位行列に相当)およびAならびにバイアスθによって示されている。図2のリカレントニューラルネットワークはさらに技術システムの状態によって形成された出力層Oを有しており、図2には、状態xt,xt+1およびxt+2が示されている。これらの状態はそれぞれ行列Cにより隠れ状態st-1,stおよびst+1と結合されている。

0043

図2によるニューラルネットワークは−図1のネットワークと同様に−将来の状態を考慮した動的かつ整合的な時間発展をもつネットワーク("Neural Network with Dynamically Consistent Overshooting")である。このことは、ニューラルネットワークのモデル化の際には、過去の時点τだけでなく、将来の時点τも考慮され、ネットワークの予測された固有の状態は入力層において将来の状態のための入力として使用されるということを意味している。パラメータτは過去の展開mといわゆるオーバーシューティングの長さnとによって制限されるので、すべての観察時点t∈{m,...,T−n}について、τ∈{t−m,...,t+n}が成り立つ。ここで、Tは使用できる時点の数であり、これらの時点についてニューラルネットワークの学習のための訓練データが存在する。図2から、オーバーシューティングは、ニューラルネットワークが技術システムのモデル化の際に将来の時点τ>tも考慮することにより生じる。これら将来の時点は既知ではないため、ネットワークを介して出力層に出力された状態がまた次の時間ステップのための入力として再び使用される。図2では、このことが時点t+1に関して図示されている。ここで、出力された状態xt+1は再び隠れ層の隠れ状態pt+1に渡されている。

0044

それゆえ、ここに説明した本発明の実施形態では、リカレントニューラルネットワークの入力側で状態xτと行動aτのシーケンスが形成される。その際、ネットワークは過去と未来を考慮した所定の期間内に時間発展する。数学的には、図1のリカレントニューラルネットワークは以下の方程式により記述される。なお、方程式中には、上で述べた行列I,A,B,C,Dおよびバイアスθが含まれている。

0045

0046

状態pτは前状態と呼ばれる。前状態は直前の隠れ状態sτ-1と外部の状態xτの情報をまとめたものである。隠れ層における非線形性はここでは双曲線正接によって表現される。前状態pτは隠れ状態sτと同じ次元を有しており、単位行列Iを介して隠れ状態sτと結合されている。なお、単位行列Iはニューラルネットワークの学習中に学習されない。隠れ状態sτは入力として行動aτを有しており、技術システムの期待される次の状態xt+1の計算に使用される。行列Dは行動aτの状態sτへの影響を考慮した適切な次元を有する補助的な行列である。行動aτはまたニューラルネットワークRNNに将来の入力(τ>t)として供給される。というのも、行動aτは技術システムの動特性には直接影響を及ぼさず、したがってネットワークによって学習されるべきではないからである。技術システムの状態空間X内で多数の可能な状態をカバーするには、技術システムをモデル化するリカレントニューラルネットワークを訓練データでモデル化しなければならない。ただし、訓練データにおいて、行動aτはランダムに選択されている。あるいは、学習される動特性が所定の規則に依存していてもよい。訓練データはここではステップa)で構築されたシミュレーションモデルを用いて決定される。

0047

今や、目標は、訓練データで学習した図2のニューラルネットワークを強化学習(Reinforcement Learning)と組み合わせて、上で述べた最適な規則を学習することである。これは、図2のリカレントニューラルネットワークを別のいわゆるコントロールネットワークと組合せ、それにより上記報酬関数cをニューラルネットワーク内に実現することによって達成される。

0048

ここに説明した実施形態では、補助的なコントロールネットワークは、入力層、隠れ層および出力層を有する3層のニューラルフィードフォワードネットワークである。より複雑な別のトポロジーが可能なときでさえ、ここに説明したモデルを用いて、どのような種類のコントロール機能でもモデル化することができる。最適な行動aτを予測しなければならないため、コントロールネットワークは将来の時点(すなわち、τ>t)についてのみリカレントニューラルネットワークと結合される。過去の時間発展(すなわち、τ<t)については、以前に供給された行動がリカレントニューラルネットワーク内で使用される。

0049

図3には、別のフィードフォワードネットワークに結合されたリカレントニューラルネットワークが示されている。このリカレントニューラルネットワークは以下ではRCNN(RCNN=Recurrent Control Neural Network)とも呼ばれる。なお、ネットワークの一部で、フィードフォワードネットワークに関連している部分は、破線で示されている。コントロールネットワークは入力層として隠れ状態pt,pt+1,...を使用する。隠れ状態pt,pt+1,...は相応する状態rt,rt+1等を有する隠れ層Rと結合されている。隠れ状態rτは行列Eとバイアスbを介して状態pτに結合されている、すなわち
rt=tanh(Epτ+b)
隠れ状態rτはさらに行列Fを介してモデル化されるべき将来の行動aτと結合されている。また、将来の状態xt+1,xt+2等を状態Rt+1,Rt+2等と結合する行列Gも存在している。ただし、状態Rt+1,Rt+2等は計算規則に関連した状態である。

0050

ニューラルネットワークRCNNは2つの異なるタスク履行しなければならない。一方では、基礎となる技術システムの動特性を特定せねばならず、他方では、適切な行動選択規則ないし報酬規則によって技術システムの最適な制御を達成しなければならない。それゆえ、このネットワークは、連続する2つのステップ、すなわち、訓練データによるリカレントニューラルネットワークの学習をする第1のステップと、リカレントニューラルネットワークをフィードフォワードネットワークと結合することにより報酬規則の学習をする第2のステップとにおいて訓練される。このアプローチは、この2つのタスクの組合せ学習を1つのステップで行おうとする従来の方法とは異なっている。

0051

上記第1のステップではまず、技術システムの動的挙動に対応する基礎となるマルコフ決定過程の動特性がモデル化される。したがって、ネットワークRCNNは、将来の状態を考慮した動的かつ整合的な時間発展をもつリカレントニューラルネットワークへと還元される。この第1のステップは数学的には次の式で表される。

0052

ここで、最後の式は、リカレントニューラルネットワークRNNによって求められた状態xτをできるだけ訓練データの状態xτdと一致させるという訓練の課題を表している。これに関しては、リカレントニューラルネットワークの決定すべきパラメータを表す行列A,B,CおよびDならびにバイアスθに関する2乗誤差の最小化が行われる。

0053

技術システムの動特性をモデル化する第1のステップの後、このステップで求められた行列A,B,CおよびDならびにバイアスθは維持される、すなわち、さらなる訓練の間、その重みが変化しない。次に、図3に示されている行列EおよびFならびにバイアスbが活動化する。これらは行動選択規則を学習する第2のステップの間の唯一のパラメータである。この学習ステップでは、リカレントニューラルネットワークが外部入力として将来の行動を受け取るのではなく、むしろこれらの行動がフィードフォワードネットワークによって報酬関数を考慮しつつ学習される。さらに、過去の時間ステップτ<tについては、出力クラスタxτは省かれる。というのも、出力クラスタxτは第1のステップにおける動特性のモデル化にしか必要でないからである。ネットワークの将来の時間ステップτ>tについては、式(4)による誤差関数は、以下に式(9)で示す報酬関数ないし費用関数c(・)に取って代わられる。これは、アーキテクチャで言えば、補助的な報酬クラスタRτによって達成される。なお、報酬クラスタRτは、上記の報酬関数c(・)と出力クラスタXτ内の可能な活動化関数hとに依存する特定問題向けの固定行列Gにより出力クラスタXτと結合されている。こうして、ネットワークRCNNにより、ニューラルアーキテクチャ内で報酬関数c(・)がコード化される。このことは、報酬クラスタRτは出力クラスタXτに基づいて計算されなくてもよく、より一般的に記述しうることを意味している。これにより、より複雑なネットワークアーキテクチャが可能になる。例えば、報酬関数が明示的に学習されるようにしてもよい。これは特にc(・)が既知でない、または不完全にしか規定されていない場合に役立つ。これはRCNNの出力を入力とする別の補助的な三層ニューラルネットワークによっても達成することができる。

0054

フィードフォワードネットワークの重みは報酬クラスタRτ(τ>t)の逆伝播した報酬に従ってしか適応調整されない。このことは、行動選択規則を学習する第2のステップは動特性の特定のために使用されるのではなく、報酬を最大化する規則を学習するために使用されるという考えに相応している。ただし、システムの動特性は既に前もってモデル化されている。

0055

行動選択規則を学習する第2のステップは下記の式(5)〜(9)によって数学的に表現することができる。なお、行列EおよびFならびにバイアスbは学習される。式(5)〜(9)は次の通りである。

0056

式(1)〜(4)に従って技術システムの動特性をモデル化する場合も、式(5)〜(9)に従って行動選択規則を学習する場合も、リカレントニューラルネットワークは同じ訓練サンプルTと先行技術から十分に知られている文献[1]による逆伝播法とによって訓練される。ここで、各訓練サンプルTは、技術システムの状態という形での相応する訓練データと実行される行動とが割り当てられた時点に相当する。行動選択規則を学習するステップは報酬関数c(・)の誤差の逆伝播と見なすことができる。

0057

上に述べたリカレントニューラルコントロールネットワークRCNNの実施形態は、将来の状態を考慮した動的かつ整合的な時間発展をもつ動特性を特定するためのリカレントニューラルネットワークRNNの利点と行動選択規則を学習するための三層ニューラルコントロールネットワークの利点を理想的に組み合わせている。このようにして高い近似精度が達成され、複雑な動的システムでも非常に高いデータ効率性をもって制御することができる。また、システムを簡単に高次元へとスケーリングすることができ、部分的にしか観察可能でない環境を技術システムの状態から再構成することができる。さらに、このネットワークを用いれば、連続的な状態空間と行動空間を非常に良く処理することができる。

0058

以上に、本発明による方法のステップb)で構築されたシミュレーションモデルに適用される複数の学習法のうちの1つである学習法の実施形態を説明した。構築されたシミュレーションモデルにはさらに別の少なくとも1つの学習法が適用される。なお、この学習法は、例えばテーブルベースの強化学習法のような先行技術から公知の任意の学習法であってよい。

0059

次に本発明による方法のステップc)では、使用している学習法ないし最適化法から、所定の基準に従った適切な方法が選択される。この所定の基準は、例えば、個々の学習法における相応の報酬関数、とりわけ、式(9)で記述されている学習法に関する式(9)による費用関数の総和の極小値である。このような費用関数の総和の最小の極小値を有する学習法がステップc)において最も適した学習法として識別される。また、上記所定の基準は次のように定めてもよい。すなわち、ステップb)で学習した学習法に基づいて複数の行動が実行され、続いてどの学習法が実行されたすべての行動の最小平均報酬をもたらすかが評価されるように、上記所定の基準を定めてもよい。

0060

最も適した学習法が選択された後、最後にステップd)において、実際の技術システムの閉ループ制御ないし開ループ制御がこの選択された学習法ないし最適化法を用いて行われる。学習法ないし最適化法は、技術システムの所定の状態において、後で技術システムにおいて実行されるべき行動を提供する。この行動は新たな状態をもたらすが、この新たな状態に対しても、学習法ないし最適化法により、次に実行されるべき行動を再び決定することができる。

0061

閉ループ制御ないし開ループ制御には様々な実施形態が存在する。例えば、ステップc)で選択された学習法ないし最適化法を初期コントローラとして学習してもよい。すなわち、選択された学習法ないし最適化法によりシミュレーションモデルに基づいて学習されたパラメータが技術システムの制御時に始めから使用される。あるいは、選択された学習法ないし最適化法の学習したパラメータをリセットし、選択された学習法ないし最適化法を実際の技術システム上で最初から新たに学習し直すことも考えられる。同様に、既に学習したパラメータを基に、実際の技術システムの閉ループ制御および/または開ループ制御のあいだ学習過程を継続させ、実際の技術システムに基づいてパラメータをさらに改善してもよい。同様に、実際の技術システムの開ループ制御のあいだパラメータをもはや変更しないことも考えられる。

0062

本発明による方法の学習過程の結果は一方では既に学習されたコントローラ、つまり、それ以上変更されず、したがってまた学習過程中に比べて非常に少ないメモリ要求と計算能力しか要さないコントローラであってよい。また他方では、恒常的な学習により常に改善される、または恒常的な学習により過程もしくは目標設定の変化に適応するコントローラであってもよい。ここで、過程の変化とは、経年劣化季節影響、または、ガスタービンの場合であれば、ガス品質もしくはガス組成緩慢な変化であってよい。目標設定の変化は個々の過程のコストと収益の変化、例えばガスタービンの場合であれば、発生する電流の収益に比べて排気ガスのコストが高くなるというような変化に起因するものでありうる。

0063

本発明による方法は一連の利点を有している。技術システムの制御を、例えば強化学習法などの機械学習法によって最適化することにより、技術システムを手動で制御する必要がなくなる。このため、本発明による方法は、人間の理解力ではある程度しか理解できない非常に複雑な高次元の、とりわけ確率的な、過程を解くことができるという利点を有する。さらには、適切な学習法ないし最適化法の選択がシミュレーションモデルにおいて自律的に行われるので、実際の技術システムにおいての学習に比べてコストが格段に低い。有利な実施形態では、学習法ないし最適化法による学習中にとられる状態ないし行動に関して、許される値域が設定ないし学習される。値域外の状態ないし行動は禁止されたシステム状態を表す。これについては、例えば、学習時に相応のペナルティ信号により考慮するようにしてよい。このようにして、状態空間の局限的な探索が保証される。このことは、制御法を予め学習するためのデータベースを解決すべき課題に合わせて最適化するのに役立つ。既に学習したパラメータを技術システムの閉ループ制御ないし開ループ制御の際に使用することにより、本発明による方法はすぐに使うことができ、また高い信頼性をもって動作する。上に述べた状態空間の最小化または上記ニューラルネットワークRCNNによる直接的なニューラルモデリングのような特殊な方法を使用することにより、例えばガスタービン制御のような、複雑な技術システムの閉ループ制御ないし開ループ制御も可能になる。
文献一覧
[l] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, "Learn-ing internal representations by error propagation", in Parallel Diskributed Processing: Exploratlons In The Microstructure of Cognikion, D.E. Rumelhart and J.L.M. et al., Eds. Cambridge:MIT Press, 1986, vol. l, pp. 318-362
[2] Leslie Pack Kaelbling; Michael L. Littman; Andrew W.
Moore, Reinforcement Learning: A Survey, Journal of Ar-tificial Intelligence Research 4 (1996) pp. 237-285

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ