図面 (/)

技術 ニューラルネットワークを用いたコントローラ

出願人 株式会社リコー
発明者 デートリッヒフォーゲル別府智彦
出願日 1993年8月30日 (27年3ヶ月経過) 出願番号 1993-214401
公開日 1995年3月10日 (25年9ヶ月経過) 公開番号 1995-064949
状態 未査定
技術分野 フィードバック制御一般 学習型計算機
主要キーワード 中心目 コントローラ出力信号 学習ユニット スイッチコントロール 独立空間 制御コマ コントロール命令 高速学習
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1995年3月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

目的

滅多には生じないが重要なシステムの状態に対する望ましい命令が通常の状態に対する命令に埋もれ、学習によって忘却されてしまうような不都合をなくし、適応的なコントローラとすること。

構成

制御対象への制御信号ターゲット信号とし前記制御対象からの出力信号入力信号として複数のニューロンからなり自己学習手段を備えたニューラルネットワークを用いたコントローラにおいて、前記自己学習手段中に少なくとも1組のターゲット信号と入力信号とを格納するレジスタ14を設け、滅多には生じないが重要なシステムの状態に対する望ましいターゲット信号を入力信号とともにこのレジスタ14に保存し得るようにした。

概要

背景

従来、各種制御において、学習機能を用いた適応的な信号処理と制御を実現するために、ニューラルネットワークの学習機能を用いたコントローラが知られている。このようなニューラルネットワークを用いたコントローラの典型例として、誤差伝播バックプロパゲーション)型のニューラルネットワークを用いたものがある。しかし、このようなコントローラは、システムを最適に運用するためには操作者(人間)が教師として存在し、ニューラルネットワークがその操作を学習することを前提とするものとなっている。

一方、このような欠点を持たず(操作者=人間を必要としない)、自己学習が可能なコントローラも提案されている。このような提案例として、例えば、“adaptive critics system”(IEEE Trans.System,Man and Cyperetics,SMC-13:834-846) がある。この方式のコントローラでは、測定されたシステムのデータは量子化され、データ空間は幾つかの領域に分割される。実際のシステムの状態は、1つの“0”を持つベクトルコード化される。1つの値“1”は、そのシステムが存在するデータ空間領域を示す。データベクトルの各々の要素にシナプスで結合された1つのニューロンは非強制的な学習方法によって必要とされる制御コマンドを学習する。即ち、もし、コントローラが制御を間違えると、失敗信号がニューロンのシナプス荷重反転させる。よって、この方式によれば、学習能力は高くなる。

概要

滅多には生じないが重要なシステムの状態に対する望ましい命令が通常の状態に対する命令に埋もれ、学習によって忘却されてしまうような不都合をなくし、適応的なコントローラとすること。

制御対象への制御信号ターゲット信号とし前記制御対象からの出力信号入力信号として複数のニューロンからなり自己学習手段を備えたニューラルネットワークを用いたコントローラにおいて、前記自己学習手段中に少なくとも1組のターゲット信号と入力信号とを格納するレジスタ14を設け、滅多には生じないが重要なシステムの状態に対する望ましいターゲット信号を入力信号とともにこのレジスタ14に保存し得るようにした。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

制御対象への制御信号ターゲット信号とし前記制御対象からの出力信号入力信号として複数のニューロンからなり自己学習手段を備えたニューラルネットワークを用いたコントローラにおいて、前記自己学習手段中に少なくとも1組のターゲット信号と入力信号とを格納するレジスタを設けたことを特徴とするニューラルネットワークを用いたコントローラ。

請求項2

少なくとも1つ以上のターゲット信号に対してこれらのターゲット信号を平均化する平均化手段を自己学習手段中に設けたことを特徴とする請求項1記載のニューラルネットワークを用いたコントローラ。

請求項3

制御能力を評価する評価手段を自己学習手段中に設けたことを特徴とする請求項1記載のニユールネットワークを用いたコントローラ。

請求項4

ターゲット信号を自成、試験、評価し、変更する処理手段を自己学習手段中に設けたことを特徴とする請求項1又は3記載のニューラルネットワークを用いたコントローラ。

請求項5

複数の学習方法を選択自在に切換える切換え手段を自己学習手段中に設けたことを特徴とする請求項4記載のニューラルネットワークを用いたコントローラ。

技術分野

0001

本発明は、運動制御温度制御等の各種分野の制御に適用可能なニューラルネットワークを用いたコントローラに関する。

背景技術

0002

従来、各種制御において、学習機能を用いた適応的な信号処理と制御を実現するために、ニューラルネットワークの学習機能を用いたコントローラが知られている。このようなニューラルネットワークを用いたコントローラの典型例として、誤差伝播バックプロパゲーション)型のニューラルネットワークを用いたものがある。しかし、このようなコントローラは、システムを最適に運用するためには操作者(人間)が教師として存在し、ニューラルネットワークがその操作を学習することを前提とするものとなっている。

0003

一方、このような欠点を持たず(操作者=人間を必要としない)、自己学習が可能なコントローラも提案されている。このような提案例として、例えば、“adaptive critics system”(IEEE Trans.System,Man and Cyperetics,SMC-13:834-846) がある。この方式のコントローラでは、測定されたシステムのデータは量子化され、データ空間は幾つかの領域に分割される。実際のシステムの状態は、1つの“0”を持つベクトルコード化される。1つの値“1”は、そのシステムが存在するデータ空間領域を示す。データベクトルの各々の要素にシナプスで結合された1つのニューロンは非強制的な学習方法によって必要とされる制御コマンドを学習する。即ち、もし、コントローラが制御を間違えると、失敗信号がニューロンのシナプス荷重反転させる。よって、この方式によれば、学習能力は高くなる。

発明が解決しようとする課題

0004

ところが、この提案例方式の場合、もし、操作者(人間)が教育することが可能であっても、コントローラの学習に非常に有用な人間による教育を用いることができないので、学習速度は非常に遅くなってしまうものである。また、このシステムでは、ニューロンが1つしかないので、汎化能力非線形関係の能力が低いものである。従って、このような提案例方式では、全ての少ない教師データを用いて大雑把に学習し、学習していない状態に対して汎化能力を用いて対応する、といったことはできず、全ての状態について正しい学習を行う必要がある。

0005

このようなことから、実時間で学習が可能なコントローラが要望されているとともに、学習に関しては、人間が教えることもでき、機械自身が自ら行うことも可能なことが要望されている。即ち、人間が操作することができる制御課題を人間の教師によってオンラインで学習する能力を持つとともに、それ自身でも学習することができる適応的なニューラルネットワークを用いたコントローラが要望されている。

課題を解決するための手段

0006

請求項1記載の発明では、制御対象への制御信号ターゲット信号とし前記制御対象からの出力を入力信号として複数のニューロンからなり自己学習手段を備えたニューラルネットワークを用いたコントローラにおいて、前記自己学習手段中に少なくとも1組のターゲット信号と入力信号とを格納するレジスタを設けた。

0007

また、請求項2記載の発明では、少なくとも1つ以上のターゲット信号に対してこれらのターゲット信号を平均化する平均化手段を自己学習手段中に設けた。

0008

また、請求項3記載の発明では、制御能力を評価する評価手段を自己学習手段中に設けた。

0009

さらに、請求項4記載の発明では、請求項1又は3記載の発明に関し、ターゲット信号を自成、試験、評価し、変更する処理手段を自己学習手段中に設けた。

0010

この際、請求項5記載の発明では、複数の学習方法を選択自在に切換える切換え手段を自己学習手段中に設けた。

0011

請求項1記載の発明においては、レジスタ内に滅多には生じないが重要なシステムの状態に対する望ましいターゲット信号を保存することができ、適応的なコントローラとなる。ちなみに、こうした状態に対する命令は、一般に、通常の状態に対する命令に埋もれてしまい、学習によって忘却されてしまうが、レジスタに保存し得ることにより、より適正な学習が可能となる。

0012

請求項2記載の発明においては、ターゲット信号を平均化手段で平均化し得るので、ターゲット信号中に含まれ得る間違いを容易に減少させることができ、効率的な学習が実現される。

0013

請求項3記載の発明においては、コントローラ自身の制御能力を評価する評価手段を有するので、その能力が減少したり、目標とする能力に到達しない場合、その行動監視に基づき、ターゲット信号を試験することで、最適化を図ることができる。

0014

請求項4記載の発明においては、コントローラ自身のターゲット信号を生成することができ、人間の教師なしに学習し得るものとなる。

0015

請求項5記載の発明においては、例えば、多段階の学習方法を選択することにより、システムの学習速度を向上させつつ、システムの適応性を向上させ得るものとなる。

0016

本発明の一実施例を図面に基づいて説明する。本実施例は、例えば左右に回転することができる1次元平面上の不安定な物体(制御対象)を、モータを用いて1次元平面上を左右に回転させることで、前記物体を任意の位置に保持することを目的としたニューラルネットワークを用いたコントローラを想定したものである。よって、入力信号としては物体から得られる出力信号、即ち、平面上の物体の位置情報速度情報とし、ターゲット信号(目標信号)としてはモータへの制御信号、即ち、モータの回転方向を用いるようにした。

0017

もっとも、上記目的以外の目的とする一般例を考えた場合、入力信号をシステムから得られる情報、ターゲット信号をシステムに与える命令(制御信号)であるとすれば、広く本発明を適用し得るものである。例えば、室温制御装置であれば、入力信号、ターゲット信号を各々室内の現在の温度情報温度変更命令等に変更すればよいものである。

0018

図2はこのようなニューラルネットワークを用いたコントローラの概略構成を示すもので、計測された入力信号、例えば、1次元平面上の不安定な物体の位置情報を入力とする前処理ユニット1が設けられている。この前処理ユニット1は、1次元平面上の物体の現在の位置情報と直前の位置情報との差から速度を測定し、その位置情報と速度情報とを量子化する処理を行うものである。また、この量子化は、領域の数が少なくなるように行われる。例えば、本実施例では、位置情報を量子化する際には、目標とする位置の両側の遠い位置、近い位置の4種類、速度情報を量子化する際には、左又は右の2種類とする、といった対応が考えられる。

0019

前処理ユニット1の後段にはコード化ユニット2が接続されている。このコード化ユニット2は前記前処理ユニット1から得られる量子化されたデータをコード化するものである。例えば、量子化された状態空間として、N個の領域を持つ状態空間があれば、それに対応したN次元のシステム状態ベクトル3に変換することがある。本実施例の場合であれば、物体の位置情報は4つの領域、速度情報は2つの領域に量子化されており、状態空間は4×2=8の領域によって構成されていることになる。このコード化方法によれば、例えば、状態ベクトル3の全ての要素が“0”にセットされ、その内の1つだけが“1”に変化し、現在のシステムの状態を示すことになる。従って、全てのシステムの状態は線形独立空間に変換されることになる。

0020

なお、他の変換方法としては、例えば、システム変数の線形積がある。これは、例えば、位置情報と速度情報が上述のように4つと2つの空間に各々量子化されるが、この線形積のコード化によれば、状態ベクトル3の次元数Nは4+2=6となる。

0021

何れにしても、位置情報と速度情報とに対応した状態ベクトル3の2つの要素が“1”にセットされ、他の全ての要素は“0”にセットされる。なお、これらの方法によるコード化では、システムの状態は全て2レベルの状態に変換されるが、システムの状態が2レベルのベクトル要素である必然性はなく、システムの状態量がより滑らかな変数表現し得るものにも同様に適用し得るものである。例えば、現在の状態が“0”で、次の状態が“0.5”であっても構わない。

0022

コード化ユニット2からの状態ベクトル3を入力とするニューラルネットワーク(NNW)4が設けられている。このニューラルネットワーク4は複数のニューロンを例えば入力層、中間層、出力層を形成するように階層型に結合させたデジタル論理回路構成のものであり、その入力層を構成するニューロン数としては、状態ベクトル3の次元数であるN個は必要である。

0023

このニューラルネットワーク4の出力側にはデコーダユニット5が接続されている。このデコーダユニット5はニューラルネットワーク4から出力されたデータをデコードするものであり、そのデコード化は、例えば、最も高い出力を持つ出力ニューロンを検出したり、各々のニューロンの出力値を比較することにより行われる。例えば、ニューラルネットワーク4の出力層のニューロンを2個とし、各々のニューロンの出力が大きい場合に各々“1”と“0”とに変換する、といったように、単純なデコーダ出力に変換される。出力層のニューロン数がもっと多い場合でも同様である。

0024

デコーダユニット5の出力側には後処理ユニット6が接続されている。この後処理ユニツト6はデコーダユニット5から出力されるデコーダ出力に対して、デコーダ出力の“1”,“0”に応じてカウンタ値加算したり、減算する、といった処理を施すものである。後処理ユニット6におけるカウンタデジタル出力値アナログコントローラ出力信号7に変換される。このコントローラ出力信号7はモータ駆動制御等に利用される。

0025

前記ニューラルネットワーク4は自己学習機能を有するものであり、このニューラルネットワーク4と並列的に学習ユニット(自己学習手段)8が設けられている。即ち、学習ユニット8は前記コード化ユニット2からの状態ベクトル3を入力として、前記ニューラルネットワーク4に対する教師信号ベクトル9を生成するものである。

0026

ここに、この学習ユニット8は図3に示すようにシステムの操作装置10とターゲットユニット11と評価ユニット(評価手段)12とにより構成されている。操作装置10は、例えば、ジョイスティックキーボードからなり、システムを人間が操作する時に用いられる。例えば、人間の教師が、不安定な平面上の物体をモータで駆動する時に用いられ、操作装置10の出力信号13はモータを時計方向に回転させる場合であれば“+1”、反時計方向に回転させる場合であれば“−1”を出力する。

0027

しかして、学習ユニット8中のターゲットユニット11は、例えば、図1に示すように、状態ベクトル3を入力とするレジスタ14を主体として構成されている。このレジスタ14は、少なくとも1組のニューラルネットワーク4の入力パターン(入力信号=状態ベクトル3)、ターゲットパターン(ターゲット信号)を各々入力メモリ14a、ターゲットメモリ14bに蓄えるものである。このレジスタ14の出力側にはエンコーダ15が接続され、ターゲットパターンをニューラルネットワーク4用のターゲットパターン(=教師信号ベクトル9)に変換するように構成されている。

0028

よって、例えば、“+1”や“−1”のような1つの値をターゲットメモリ14bに蓄え、ターゲットエンコーダ15によって全ての出力ニューロンに与えるターゲットパターン(=教師信号ベクトル9)に変換される。本実施例構成による場合、記憶されるパターンは1つであるため、ターゲットの記憶に必要とされるメモリ容量を減らすことができる。

0029

ところで、人間の操作に伴う出力信号13を用いることができる場合、この出力信号13は加算器(平均化手段)16に入力され、ターゲットメモリ14bに蓄えられていた以前のターゲットパターンと加算され、再度、このターゲットメモリ14bに入力されて書換えられるように構成されている。例えば、2つの命令“+1”と“−1”だけが操作装置10から与えられる場合、その出力信号13とターゲットメモリ14bに蓄えられているターゲットパターンとの合成(加算)は、人間の操作にしばしば生ずる間違いに対してシステムのロバストネスを向上させることができる。ここに、ターゲットメモリ14bからの入力が“0”より大きい場合、ターゲットコマンドが“+1”であり、それ以外は“−1”となる。2つの命令を合成した後には、例えば、人間の操作が5回の“+1”であり、1回又は2回の“−1”である場合、ターゲットメモリ14bの値は“0”よりも大きく、従って、ニューラルネットワーク4への教師信号ベクトル9は人間の間違いによって妨げられないものとなる。また、仮に、人間の操作命令が連続した“−1”に変化すれば、ターゲットメモリ14bの合計は“0”より小さくなり、ニューラルネットワーク4は“−1”を正しく学習する。

0030

一方、学習形態として、前記ターゲットメモリ14bに記憶されているターゲットパターンを反転させて再びこのターゲットメモリ14bに蓄えるインバータ17も設けられ、前記加算器16側からの信号と選択自在とするための切換えスイッチ(切換え手段)18が介在されている。即ち、インバータ17を通すことにより、例えば、“−1”から“+1”に変化させることができる。このようなインバータ17を用いたターゲットメモリ14bの出力反転機能は自己学習モードにおいて利用される。

0031

なお、前記切換えスイッチ18の切換え制御は、人間の教師なしにスイッチコントロール信号19によって行われる。

0032

一方、本実施例のシステムでは、コントローラの制御能力を評価するための評価ユニット12が学習ユニット8中に設けられており、例えば、図4に示すように、評価レジスタ20とシーケンサ(処理手段)21とにより構成されている。まず、評価レジスタ20は状態ベクトル3を入力としており、コントローラの機能を記録する。ここに、コントローラの機能とは、システムの現在の状態と目標とする状態との差であり、例えば、平面上の実際の物体の場所と目標の場所との差が該当する。ここに、本実施例の場合であれば、コントローラの能力は物体の動きの幅、或いは、物体の動きの中心目標位置とのずれにより表現される。

0033

また、シーケンサ21はニューラルネットワーク4における自己学習シーケンスを管理する。このシーケンスは学習戦略によって決められ、シーケンサ21によって実行される。例えば、本実施例において用いられている学習戦略は、学習を2つの段階に分け、最初の段階では大雑把な制御として全体の挙動を制御し、次の段階では最適に制御するために細かな制御を行うように設定されている。不安定な平面上の物体の位置を制御する場合を考えると、最初の段階では、物体が平面から落下することを防ぎ、これが成功すると、次の段階の学習を行い、この段階では物体を目標位置へと正確に制御する。このように学習動作を幾つかの段階に分けることにより、学習時間を短くすることができる。即ち、非常に短時間で終了する初期段階学習後には、既に、コントローラは次善のコントローラとして働くためである。例えば、短時間で終了する初期段階の学習後には、コントローラは平面から物体を落すことなく制御することができる。

0034

ここに、自己学習の間には、シーケンサ21は評価レジスタ20、ターゲットユニット11中の切換えスイッチ18と相互作用する。例えば、もし、不安定な平面がコントローラで制御され、物体が平面から落下すれば、平面の境界付近でのコントロール命令は間違ったものであるので、シーケンサ21から出力されるスイッチコントロール信号19は、切換えスイッチ18を平面の境界付近でのターゲットとなる命令を反転させるように操作する(即ち、インバータ17側に切換えられる)。よって、ニューラルネットワーク4はこの新しい命令を学習し、物体が落下することを避けることができる。

0035

次の学習段階は、コントローラの最適化である。例えば、初期の学習が終了し、不安定な平面上での物体の制御をしばらく観察した後、シーケンサ21はターゲットユニット11中の切換えスイッチ18を1つの入力パターンに対する実際のターゲットパターンを反転させるように機能する。ここに、システムは新しい命令が正しくても間違っていても、再び制御され、以前の制御と比較して、よりよくなったか否かを評価レジスタ20によって評価する。ニューラルネットワーク4はこの評価レジスタ20の評価に従い、互いに反転した2つの命令の内、よりよい命令を学習する。全ての入力パターンに対してターゲット命令の生成と試験が終わり、よりよいターゲットがニューラルネットワーク4によって学習されると、コントローラは目的とする仕事に適応したことになる。

0036

このように、本実施例のニューラルネットワーク4を用いたコントローラ構成によれば、その自己学習の実現手段は単純なものであり、高速学習が可能であり、ハードウエアによって構成する場合であっても汎用部品を用いて容易に構成し得るものとなる。また、このモジュールは人間の操作者による機械のオンライン学習補助することも有効となる。即ち、加算器16を利用した平均アルゴリズムを持つこのコントローラは、人間の操作者がしばしば行う操作の間違いを削除して学習させることができ、このため、ニューラルネットワーク4は正しい教師データのみによって容易に学習することができる。さらに、このモジュールをハードウエア構成のニューラルネットワークに応用することによって、高速で学習可能なコントローラとなり、これは、人間の操作者によっても、また、コントローラ自身によっても学習することが可能となる。

発明の効果

0037

請求項1記載の発明によれば、制御対象への制御信号をターゲット信号とし前記制御対象からの出力を入力信号として複数のニューロンからなり自己学習手段を備えたニューラルネットワークを用いたコントローラにおいて、前記自己学習手段中に少なくとも1組のターゲット信号と入力信号とを格納するレジスタを設けたので、滅多には生じないが重要なシステムの状態に対する望ましいターゲット信号を入力信号と対でレジスタに保存しておくことができるので、より適正な学習が可能となり、適応的なコントローラを提供できる。

0038

また、請求項2記載の発明によれば、少なくとも1つ以上のターゲット信号に対してこれらのターゲット信号を平均化する平均化手段を自己学習手段中に設けたので、ターゲット信号中に含まれ得る間違いを容易に減少させることができ、効率的な学習を実現できる。

0039

また、請求項3記載の発明によれば、コントローラ自身の制御能力を評価する評価手段を設けたので、その能力が減少したり、目標とする能力に到達しない場合、その行動の監視に基づき、ターゲット信号を試験することで、最適化を図ることができる。

0040

さらに、請求項4記載の発明によれば、請求項1又は3記載の発明に関し、ターゲット信号を自成、試験、評価し、変更する処理手段を設けたので、コントローラ自身のターゲット信号を生成することができ、人間の教師なしに学習することができる。

0041

この際、請求項5記載の発明によれば、複数の学習方法を選択自在に切換える切換え手段を設けたので、例えば、多段階の学習方法を選択することにより、システムの学習速度を向上させつつ、システムの適応性を向上させることができる。

図面の簡単な説明

0042

図1本発明の一実施例におけるターゲットユニットの構成を示すブロック図である。
図2コントローラ全体の構成を示すブロック図である。
図3学習ユニットの構成を示すブロック図である。
図4評価ユニットの構成を示すブロック図である。

--

0043

4ニューラルネットワーク
8自己学習手段
12 評価手段
14レジスタ
16 平均化手段
18切換え手段
21 処理手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ