図面 (/)

技術 並列学習装置、並列学習方法及び並列学習プログラム

出願人 株式会社国際電気通信基礎技術研究所
発明者 内部英治銅谷賢治
出願日 2003年9月2日 (17年4ヶ月経過) 出願番号 2003-310383
公開日 2005年3月24日 (15年9ヶ月経過) 公開番号 2005-078516
状態 特許登録済
技術分野 学習型計算機 フィードバック制御一般
主要キーワード 学習特性 制御方策 状態表現 価値関数 学習性能 人間社会 ボルツマン分布 マルコフ決定過程
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2005年3月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置を提供する。

解決手段

状態取得部11は、センサ部1により検出された外界の状態を取得し、各学習器21〜2nは、取得された外界の状態に基づいて同時に学習した学習結果から行動方策を決定し、確率的選択器12は、決定された複数の行動方策の中から各学習器21〜2nの学習性能に基づいて一の行動方策を切り替え器13を用いて選択し、アクチュエータ部3は、選択された行動方策に従う行動を実行する。

概要

背景

ミンスキーは、人間社会と同様に人間の心も、様々なエージェント協調したり競合したりして動かしており、知能を単純なエージェントの集まりとして捉え、エージェント間相互作用の結果、全体としての振る舞いを生成していると提唱している。この考え方は計算論的神経科学の分野でも注目を集めており、運動手続きの学習の研究でも、複数の学習モジュールがそれぞれ同時に並行して異なる座標系で学習し、それぞれ系列の学習に貢献していることが示唆されている。

また、強化学習を使って、複雑な行動を学習する課題に対しても、複数の学習器を準備し、それを切り替える方法が既にいくつか提案されている。例えば、複数の学習器をTD誤差に応じて切り替える方法(非特許文献1参照)や、制御対象予測モデル強化学習器とを組にしたモジュール並列に用い、それらを予測モデルの予測誤差に基づいて切り替えて組み合わせる方法(非特許文献2参照)が提案されている。
エスピーシン(S. P. Singh)、「エレメンタルシーケンシャルタスク解法の組み立てによる学習転送」(Transfer of learning by composing solutions of elemental sequential tasks)、マシンラーニング(Machine Learning)、1992年、vol.3、p.9−p.44
ケイドウヤ(K. Doya)他、「複数モデルに基づく強化学習」(Multiple Model-Based Reinforcement Learning)、ニューラルコンピューテーション(Neural Computation)、2002年、vol.14、p.1347−p.1369

概要

複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置を提供する。状態取得部11は、センサ部1により検出された外界の状態を取得し、各学習器21〜2nは、取得された外界の状態に基づいて同時に学習した学習結果から行動方策を決定し、確率的選択器12は、決定された複数の行動方策の中から各学習器21〜2nの学習性能に基づいて一の行動方策を切り替え器13を用いて選択し、アクチュエータ部3は、選択された行動方策に従う行動を実行する。

目的

本発明の目的は、複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置、並列学習方法及び並列学習プログラムを提供することである。

効果

実績

技術文献被引用数
2件
牽制数
6件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

与えられたタスクを達成するための行動方策を学習する並列学習装置であって、外界の状態を取得する取得手段と、前記取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備えることを特徴とする並列学習装置。

請求項2

前記複数の学習手段の各々は、当該学習手段が決定した行動方策と前記選択手段により選択された行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータ補正することを特徴とする請求項1記載の並列学習装置。

請求項3

前記複数の学習手段の各々は、重点サンプリング法を用いて前記重み付けを行うことを特徴とする請求項2記載の並列学習装置。

請求項4

前記選択手段は、前記複数の学習手段が決定した複数の行動方策の中から学習性能に基づいて一の行動方策を確率的に選択することを特徴とする請求項1〜3のいずれかに記載の並列学習装置。

請求項5

前記複数の学習手段の各々は、状態表現及び学習方法の少なくとも一方が他の学習手段と異なることを特徴とする請求項1〜4のいずれかに記載の並列学習装置。

請求項6

前記複数の学習手段の各々は、前記取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、前記取得手段により取得された外界の状態及び前記算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、前記取得手段により取得された外界の状態、前記決定手段により決定された行動方策及び前記選択手段により選択された行動方策に基づいて前記算出手段のパラメータを補正する補正手段とを備えることを特徴とする請求項1〜5のいずれかに記載の並列学習装置。

請求項7

前記複数の学習手段のうちの少なくとも一の学習手段は、前記決定手段により決定された行動方策を記憶する記憶手段をさらに備えることを特徴とする請求項6記載の並列学習装置。

請求項8

取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、前記取得手段が、外界の状態を取得する取得ステップと、前記複数の学習手段が、前記取得ステップにおいて取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する学習ステップと、前記選択手段が、前記学習ステップにおいて決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択ステップとを含むことを特徴とする並列学習方法。

請求項9

与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、外界の状態を取得する取得手段と、前記取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、前記複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させることを特徴とする並列学習プログラム。

技術分野

0001

本発明は、与えられたタスクを達成するための行動方策を学習する並列学習装置並列学習方法及び並列学習プログラムに関するものである。

背景技術

0002

ミンスキーは、人間社会と同様に人間の心も、様々なエージェント協調したり競合したりして動かしており、知能を単純なエージェントの集まりとして捉え、エージェント間相互作用の結果、全体としての振る舞いを生成していると提唱している。この考え方は計算論的神経科学の分野でも注目を集めており、運動手続きの学習の研究でも、複数の学習モジュールがそれぞれ同時に並行して異なる座標系で学習し、それぞれ系列の学習に貢献していることが示唆されている。

0003

また、強化学習を使って、複雑な行動を学習する課題に対しても、複数の学習器を準備し、それを切り替える方法が既にいくつか提案されている。例えば、複数の学習器をTD誤差に応じて切り替える方法(非特許文献1参照)や、制御対象予測モデル強化学習器とを組にしたモジュールを並列に用い、それらを予測モデルの予測誤差に基づいて切り替えて組み合わせる方法(非特許文献2参照)が提案されている。
エスピーシン(S. P. Singh)、「エレメンタルシーケンシャルタスク解法の組み立てによる学習転送」(Transfer of learning by composing solutions of elemental sequential tasks)、マシンラーニング(Machine Learning)、1992年、vol.3、p.9−p.44
ケイドウヤ(K. Doya)他、「複数モデルに基づく強化学習」(Multiple Model-Based Reinforcement Learning)、ニューラルコンピューテーション(Neural Computation)、2002年、vol.14、p.1347−p.1369

発明が解決しようとする課題

0004

しかしながら、上記の従来手法では、各学習器が同じ構造を有し、同じ学習法を使用しているため、学習器全体の学習効率は1個の学習器により学習する場合と何ら変わらず、複数の学習器を効率的に学習させることはできない。

0005

本発明の目的は、複数の学習手段を効率的に学習させることにより、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる並列学習装置、並列学習方法及び並列学習プログラムを提供することである。

課題を解決するための手段

0006

本発明に係る並列学習装置は、与えられたタスクを達成するための行動方策を学習する並列学習装置であって、外界の状態を取得する取得手段と、取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段とを備えるものである。

0007

本発明に係る並列学習装置では、外界の状態が取得され、取得された外界の状態に基づいて複数の学習手段が同時に学習し、学習した結果から行動方策が決定され、決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策が選択され、選択された行動方策に従う行動が実行される。

0008

上記の処理が繰り返されることにより、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習し、タスクを達成するための行動方策を複数の学習手段が同時に学習することができるので、複数の学習器を効率的に学習させることができ、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。

0009

複数の学習手段の各々は、当該学習手段が決定した行動方策と前記選択手段により選択された行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータ補正することが好ましい。この場合、複数の学習器を効率的に学習させることができる。

0010

複数の学習手段の各々は、重点サンプリング法を用いて重み付けを行うことが好ましい。この場合、複数の学習器をより効率的に学習させることができる。

0011

選択手段は、複数の学習手段が決定した複数の行動方策の中から学習性能に基づいて確率的に一の行動方策を確率的に選択することが好ましい。この場合、学習性能が所定範囲内にある学習手段の中から一の行動方策を確率的に選択することができるので、複数の学習手段を効率的に学習させることができる。

0012

複数の学習手段の各々は、状態表現及び学習方法の少なくとも一方が他の学習手段と異なることが好ましい。この場合、学習特性の異なる複数の学習手段を用いて学習することができるので、例えば、単純な構成の学習手段が迅速に収集したデータを複雑な構成の学習手段に利用することができるので、学習速度を向上することができるとともに、学習性能を向上することができる。

0013

複数の学習手段の各々は、取得手段により取得された外界の状態に基づいて、所定のパラメータを用いて学習性能を評価するための価値関数を算出する算出手段と、取得手段により取得された外界の状態及び算出手段により算出された価値関数に基づいて行動方策を決定する決定手段と、取得手段により取得された外界の状態、決定手段により決定された行動方策及び選択手段により選択された行動方策に基づいて算出手段のパラメータを補正する補正手段とを備えることが好ましい。

0014

この場合、取得された外界の状態と、外界の状態及び価値関数に基づいて決定された行動方策と、選択された行動方策とに基づいて、価値関数を算出するために使用するパラメータを補正しているので、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習することができる。

0015

複数の学習手段のうちの少なくとも一の学習手段は、決定手段により決定された行動方策を記憶する記憶手段をさらに備えることが好ましい。この場合、学習手段が記憶手段を備えているので、部分観測マルコフ決定問題を取り扱うことができる。

0016

本発明に係る並列学習方法は、取得手段、複数の学習手段及び選択手段を備える並列学習装置を用いて、与えられたタスクを達成するための行動方策を学習する並列学習方法であって、取得手段が、外界の状態を取得する取得ステップと、複数の学習手段が、取得ステップにおいて取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する学習ステップと、選択手段が、学習ステップにおいて決定された複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択ステップとを含むものである。

0017

本発明に係る並列学習プログラムは、与えられたタスクを達成するための行動方策を学習するための並列学習プログラムであって、外界の状態を取得する取得手段と、取得手段により取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定する複数の学習手段と、複数の学習手段が決定した複数の行動方策の中から各学習手段の学習性能に基づいて一の行動方策を選択する選択手段としてコンピュータを機能させるものである。

発明の効果

0018

本発明によれば、選択された学習手段が決定した行動方策により得られた経験から、選択されていない他の学習手段も学習し、タスクを達成するための行動方策を複数の学習手段が同時に学習することができるので、複数の学習器を効率的に学習させることができ、タスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。

発明を実施するための最良の形態

0019

以下、本発明の一実施の形態による並列学習装置について図面を参照しながら説明する。図1は、本発明の一実施の形態による並列学習装置を用いた学習システムの構成を示すブロック図である。

0020

図1に示す学習システムは、センサ部1、並列学習装置2及びアクチュエータ部3を備える。並列学習装置2は、ROM(リードオンリメモリ)、CPU(中央演算処理装置)、RAM(ランダムアクセスメモリ)等を備える通常のマイクロコンピュータ、A/D(アナログデジタル変換器、D/A(デジタル/アナログ)変換器等から構成され、ROMに記憶された並列学習プログラムをCPUにおいて実行することにより、状態取得部11、確率的選択器12、切り替え器13及びn個の学習器21〜2nとして機能し、与えられたタスクを達成するための行動方策を学習する。

0021

センサ部1は、外界の状態を検出する種々のセンサ等から構成され、アクチュエータ部3は、与えられたタスクを達成するための行動方策に従う所定の行動を実行する種々のアクチュエータ等から構成される。例えば、学習システムが自律走行ロボットとして構成された場合、センサ部1として、外界の画像を撮影するカメラ移動距離を検出する距離センサ車輪の回転量を積算して初期位置からの移動量を計算するオドメトリ等を用いることができ、アクチュエータ部3として、任意の方向に移動するための車輪及びモータ等を用いることができる。

0022

センサ部1は、外界の状態を検出して状態取得部11へ出力する。状態取得部11は、センサ部1により検出された外界の状態を取得してn個の学習器21〜2nへ出力する。各学習器21〜2nは、補正器31、価値関数部32及び制御器33を備える。但し、価値関数部32及び制御器33の具体的構成は互いに異なり、状態表現及び学習方法の少なくとも一方が他の学習器と異なる。各学習器21〜2nは、取得された外界の状態に基づいて同時に学習し、学習した結果から行動方策を決定して切り替え器13へ出力する。

0023

また、各学習器21〜2nは、自身が決定した行動方策と切り替え器13から出力される行動方策との類似度に応じて重み付けを行い、学習に用いるパラメータを補正する。ここで、各学習器21〜2nは、後述する重点サンプリング(importance sampling)法を用いて重み付けを行うことが好ましい。

0024

価値関数部32は、状態取得部11からの外界の状態に基づいて学習性能を評価するための価値関数を所定のパラメータを用いて算出し、算出した価値関数を制御器33及び確率的選択器12へ出力する。制御器33は、状態取得部11からの外界の状態及び価値関数部32により算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。補正器31は、価値関数部32から現在設定されているパラメータを読み出し、状態取得部11からの外界の状態、制御器33により決定された行動方策並びに確率的選択器12及び切り替え器13により選択された学習器の行動方策に基づいて価値関数部32のパラメータを補正してパラメータを更新する。

0025

確率的選択器12は、各学習器21〜2nの価値関数部32から価値関数を取得し、取得した価値関数を基に複数の学習器21〜2nの中から最適な行動方策を決定した一の学習器を選択するように切り替え器13の動作を制御する。例えば、確率的選択器12は、学習性能が最も高い学習器が一つある場合はこの学習器の行動方策を選択し、学習性能が高い学習器が複数あり且つこれらの学習器の学習性能が所定範囲内にある場合はこれらの学習器の行動方策の中から一の行動方策を略等確率で選択するように切り替え器13の動作を制御する。

0026

切り替え器13は、複数の行動方策の中から確率的選択器12に指示された学習器の行動方策を選択し、選択した行動方策を各学習器21〜2nへ出力するとともに、選択した行動方策に従う行動をアクチュエータ部3に実行させる。アクチュエータ部3は、選択した行動方策に従う行動を実行する。この行動により外界の状態が変化し、この変化をセンサ部1によって検出して上記の処理を繰り返すことにより、複数の学習器21〜2nが同時に学習することとなる。

0027

例えば、複数の学習器Mi(i=1,…,n)は、価値関数法又は方策勾配法を用いて与えられたタスクを達成するための制御方策πiを学習し、各学習器Miの状態価値関数をViとすると、並列学習装置2は、各エピソードごとに初期観測x0を基に、下記の確率に従って学習器Miを選択する。

0028

0029

ここで、TSelは、選択確率ランダムさを制御するパラメータであり、大きければランダムに学習器を選択する傾向がある。選ばれた学習器の行動方策を挙動方策(behavior policy)といい、πBehと表記する。並列学習装置2は、πBehを用いて得られたエピソードで個々の学習器Miの目的方策(target policy)を評価する。

0030

なお、学習器の構成は、上記の例に特に限定されず、種々の変更が可能であり、例えば、下記の外部メモリを付加してもよい。この場合、部分観測マルコフ決定問題(POMDP:Partially Observable Markov Decision Process)を取り扱うことができる。

0031

図2は、学習器の他の構成を示すブロック図である。図2に示す学習器21aと図1に示す学習器21〜2nとで異なる点は、外部メモリ34が付加され、補正器31、価値関数部32及び制御器33が補正器31a、価値関数部32a及び制御器33aに変更された点であり、以下異なる点について詳細に説明する。

0032

外部メモリ34は、lビットの記憶容量を有し、制御器33aが決定した行動方策を記憶し、記憶している行動方策を補正器31a、価値関数部32a及び制御器33aへ出力する。また、外部メモリ34には状態取得部11からの外界の状態が入力され、外界の状態を記録することもできる。価値関数部32aは、状態取得部11からの外界の状態及び外部メモリ34からの行動方策に基づいて学習性能を評価するための価値関数を所定のパラメータを用いて算出し、算出した価値関数を制御器33a及び確率的選択器12へ出力する。制御器33aは、状態取得部11からの外界の状態、外部メモリ34からの行動方策及び価値関数部32aにより算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。補正器31aは、価値関数部32aから現在設定されているパラメータを読み出し、状態取得部11からの外界の状態、外部メモリ34からの行動方策、制御器33aにより決定された行動方策及び切り替え器13から出力される学習器の行動方策に基づいて価値関数部32aのパラメータを補正してパラメータを更新する。

0033

上記の構成により、学習器21aは、時刻tにおいてセンサ部1によって得られる環境の状態ot以外に、外部メモリ34の情報mtを利用でき、制御器33aの行動方策atは、実際に状態遷移を引き起こすアクチュエータ部3による環境への行動出力aetと、メモリビットを操作する行動方策amtから構成される。

0034

この場合、学習器21aで利用される観測量xtは、環境の状態otと外部メモリ34の情報mtとの組み合わせで表現され、xt=(ot,mt)となる。外部メモリ34の各ビットは1又は0をとるため、情報mtは全部で2l個となる。また、行動方策amtは外部メモリ34の各ビットを1にする行動と0にする行動とを有するため、全部で2l個となる。なお、aetとamtとの組み合わせで学習器21aの行動方策at とすることもできるが、複雑さを抑えるためにamt をaet と同様のプリミティブな行動の一つとして付加するようにしてもよい。

0035

本実施の形態では、状態取得部11が取得手段の一例に相当し、学習器21〜2n,21aが学習手段の一例に相当し、確率的選択器12及び切り替え器13が選択手段の一例に相当し、価値関数部32,32aが算出手段の一例に相当し、制御器33,33aが決定手段の一例に相当し、補正器31,31aが補正手段の一例に相当する。また、外部メモリ34が記憶手段の一例に相当する。

0036

次に、上記のように構成された学習システムの並列学習処理について説明する。図3は、図1に示す並列学習装置の並列学習処理を説明するためのフローチャートである。

0037

まず、ステップS1において、確率的選択器12は、各学習器21〜2nの学習性能を基に一の学習器を確率的に選択する。具体的には、確率的選択器12は、学習性能が最も高い学習器が一つある場合はこの学習器の行動方策を選択し、学習性能が高い学習器が複数あり且つこれらの学習器の学習性能が所定範囲内にある場合はこれらの学習器から一の学習器を等確率になるように選択する。

0038

学習器が選択された後、ステップS2において、状態取得部11は、センサ部1が検出した外界の状態を取得し、各学習器21〜2nの価値関数部32に与える。

0039

次に、ステップS3において、各学習器21〜2nの価値関数部32は、状態取得部11からの外界の状態に基づいて価値関数を算出し、算出した価値関数を制御器33へ出力し、制御器33は、状態取得部11からの外界の状態及び価値関数部32により算出された価値関数に基づいて行動方策を決定し、決定した行動方策を切り替え器13へ出力する。このとき、確率的選択器12は、ステップS1で選択した学習器の行動方策をアクチュエータ部3へ出力するように切り替え器13を制御して行動方策を決定する。

0040

次に、ステップS4において、切り替え器13は、アクチュエータ部3を駆動し、確率的選択器12により選択されている学習器の行動方策に従う行動をアクチュエータ部3に実行させ、アクチュエータ部3は、選択した行動方策に従う行動を実行する。

0041

次に、ステップS5において、各学習器21〜2nの補正器31は、価値関数部32から現在の各パラメータを読み出し、状態取得部11からの外界の状態、制御器33により決定された行動方策及び切り替え器13により選択された学習器の行動方策に基づいて各パラメータを補正して価値関数部32の各パラメータを更新し、重点サンプリング法による分配処理を実行する。

0042

ここで、上記の重点サンプリング法による分配処理について詳細に説明する。なお、以下の説明では、学習器21〜2nとして図2に示す外部メモリ34を有する学習器21aを用いた場合を例に説明する。

0043

時刻t における環境の状態がstのとき、並列学習装置2はセンサ部1によってその一部をotとして受け取り、そのときの外部メモリ34の情報をmtとすると、各学習器21〜2nが取得する観測量xtは、xt=(ot,mt)となる。このとき、行動方策πに従ってアクチュエータ部3により行動atを出力すると、結果として環境はst+1に状態遷移し、その評価値であるスカラー報酬rtを得る。行動方策πの下での状態sの価値Vπ(s)は、下式で与えられる。

0044

0045

ここで、R(s) は状態sから観測される収益であり、γは減衰率(0≦γ≦1)であり、Eπ{}は並列学習装置2が行動方策πに従うとしたときの期待値を表す。同様に行動方策πの下で状態sにおいて行動aを実行することの価値は、下式で与えられる。

0046

0047

上記のVπを状態価値関数といい、Qπを行動価値関数といい、両者をまとめて価値関数という。Vπ及びQπを推定するために、本来の行動方策πとは異なる別の行動方策π’を用いる場合を考え、ここで、重点サンプリング法を用いることにより、目的方策πと挙動方策π’の違いに対処する。いま、挙動方策π’によって得られたm番目のエピソードをhmとし、Tmをエピソードhmが終了するまでの時間ステップとし、Prπ(hm)とPrπ’(hm)とを方策πとπ’とに従ったときにエピソードhmが発生する確率とする。

0048

このとき,M個の収益を観測した後で要求されるモンテカルロ推定は、下式で与えられる。

0049

0050

ここで、Rmは実際に得られた収益Rm(s)=rtm(s)+γrtm(s)+1+…+γTm-tm(s)−1rTm−1であり、tm(s)はm番目のエピソードhmではじめて状態sが得られたときの時間ステップである。エピソードhmが発生する確率は、下式で与えられる。

0051

0052

ここで、ρtは行動方策の違いを補正する係数であり、Prπ(hm)/Prπ’(hm)を計算するために環境のダイナミクスに関する知識は必要とせず、行動方策の比率だけが必要とされる。なお、π(s,a)>0ならばπ’(s,a)>0であることが要求される。

0053

次に、学習器21〜2nが強化学習に価値関数法を用いている場合において、上記の重点サンプリング法を価値関数法に適用する方法について具体的に説明する。価値関数法は、状態と行動の組に対して定義される価値QVFを、Bellman方程式を用いて推定する方法であり、代表的な方法としてQ学習やSARSAがある。SARSAは方策オン型の強化学習であり、Q 学習は方策オフ型の強化学習であり、挙動方策と推定方策を個別に持つことができる。

0054

まず、観測値を状態とみなして定式化すると、観測値xtで行動atを実行し、報酬rtと次の観測値xt+1を受け取ったとき、Q学習及びSARSAでは、TD誤差がそれぞれ下式で与えられる。

0055

0056

ここで、QQ及びQSARSAは、Q学習及びSARSAを使用したときの行動価値関数である。

0057

価値関数法に重点サンプリング法を利用する方法としては、公知の手法を用いることができ、本実施の形態では、価値関数をルックアップテーブル形式すなわちwk=Q(x,a)のように重みを割り当てており、重点サンプリングを用いた場合の行動価値関数は下式で与えられる。

0058

0059

ここで、SARSAと同様に環境のマルコフ性を利用すると、更新式は下式で与えられる。

0060

0061

ここで、tmはm回目のエピソードで最初に(xt,at)=(x,a)となった時刻であり、TVFは適合度トレースであり、λ は適合度の減衰率であり、αVFは学習率である。なお、挙動方策と目標方策とが一致する場合、ρt=1となり、通常のSARSAの更新式となる。

0062

また、確率的行動方策は、例えば、ボルツマン分布を用いて下式で表される。

0063

0064

ここで、TVFは温度パラメータであり、学習の初期段階では大きな値をとるが、学習が進むにつれて小さな値をとるように制御される。価値関数法は、環境がマルコフ決定過程(MDP:Markov Decision Process)である場合、すなわちxt=st の場合には最適方策への収束性が示されている。また、POMDPな環境でも、内部変数を持たない範囲ではλを適切に設定することにより最適な確率的方策を獲得することができる。

0065

次に、学習器21〜2nが強化学習に方策勾配法を用いている場合において、上記の重点サンプリング法を方策勾配法に適用する方法について具体的に説明する。従来、報酬に遅れのある問題において報酬の期待値の勾配方向へパラメータを更新する手法が提案されており、これをきっかけとして、種々の方策勾配法が提案されている。

0066

まず、パラメータwkにより表現された行動方策πPGをxで期待値をとった価値関数VPGの勾配を利用して下式により改善する。

0067

0068

ここで、αPGはステップサイズパラメータであり、wはwkをまとめたパラメータベクトルである。このとき、重点サンプリング法を用いると、状態価値関数は下式で与えられる。

0069

0070

ここで、Pr(hm|w)はベクトルwでパラメータ化された行動方策を用いてエピソードhmを得る確率であり、下式で表される。

0071

0072

ここで、φ(hm)及びΨ(w,hm)は下式で与えられる。

0073

0074

上記のφ(hm)は環境からサンプリングしなければならないが、Ψ(w,hm)は並列学習装置2の行動方策から計算できるので、一つのエピソードが得られたとき、行動方策を改善する方向はV(w)をwkで微分して下式のようになる。

0075

0076

上記のPr(h|w)=Pr(h|w’)は制御方策の比率の掛け算により計算でき、方策勾配法を用いる場合の更新式は下式で与えられる。

0077

0078

ここで、Tt(k)は方策勾配法の場合の適合度トレースであり、挙動方策と目標方策とが一致する場合、ρt=1となる。

0079

次に、方策勾配法では行動方策をパラメータ表現する必要があるが、wk=P(x,a)のように状態及び行動の組に対して重みを割り当て、式(13)のようにボルツマン分布を用いて下式で表される。

0080

0081

ここで、PPG(xt,at)は行動価値ではなく、TPGは温度パラメータであるが、式(13)と異なり、一定の値をとる。このとき、式(23)の微分は下式で与えられる。

0082

0083

上記の方策勾配法では、価値関数を明示的には推定せず、オンラインで方策を更新するが、本発明ではエピソードの最初に学習器を選択するために価値関数を用いる必要があり、式(4)によって価値VPGをエピソードごとに更新する。

0084

再び、図3を参照して、上記の重点サンプリング法による分配処理が実行された後に、ステップS6において、各学習器21〜2nは、現在実行しているタスクが終了したか否かを判断し、タスクが終了していない場合はステップS2以降の処理を繰り返し、タスクが終了した場合にステップS7へ処理を移行する。

0085

タスクが終了した場合にステップS7において、確率的選択器12は、与えられたタスクに対して学習が終了したか否か、すなわち、与えられたタスクに対して必要とされる学習性能を獲得できたか否かを判断し、学習が終了していない場合はステップS1以降の処理を繰り返し、学習が終了した場合に処理を終了する。

0086

上記の処理により、本実施の形態では、状態取得部11により外界の状態が取得され、取得された外界の状態に基づいて各学習器21〜2nが同時に学習し、学習した結果から行動方策を決定し、決定された複数の行動方策の中から確率的選択器12及び切り替え器13により各学習器21〜2nの学習性能に基づいて一の行動方策が選択され、選択された行動方策に従う行動がアクチュエータ部3により実行され、これらの処理が繰り返される。この結果、選択された学習器が決定した行動方策により得られた経験から、選択されていない他の学習器も学習し、複数の学習器21〜2nが与えられたタスクを達成するための行動方策を同時に学習することができるので、複数の学習器21〜2nを効率的に学習させることができ、学習器21〜2nがタスクに適した構造を獲得するまでの学習時間を大幅に短縮することができる。

0087

次に、上記の並列学習装置の学習効果について具体例を挙げて説明する。図4は、図1に示す並列学習装置を倒立振子の制御に使用した場合の学習性能を表す特性図である。図4に示す例は、台車の上に設けられたポール直立するように台車を移動制御するものであり、状態変数の一部である台車の位置x及びポールの角度θのみが観測可能なPOMDPの場合の例である。ここで、図4縦軸は学習性能を表すエピソード単位の総報酬を示し、横軸はエピソード数を示している。

0088

図4に示す曲線Aは、図1に示す並列学習装置を用いた場合の学習性能を表し、学習器21〜2nとして、価値関数法を用い且つ外部メモリ34を持たない学習器、価値関数法を用い且つ外部メモリ34を有する学習器、方策勾配法を用い且つ外部メモリ34を持たない学習器、及び方策勾配法を用い且つ外部メモリ34を有する学習器を用い、重点サンプリング法を用いて4個の学習器を同時に学習させた場合の学習性能を表している。

0089

一方、曲線B〜Fは比較例であり、曲線Bは、価値関数法を用い且つ外部メモリ34を持たない学習器のみを用いた場合の学習性能を表し、曲線Cは、価値関数法を用い且つ外部メモリ34を有する学習器のみを用いた場合の学習性能を表し、曲線Dは、方策勾配法を用い且つ外部メモリ34を持たない学習器のみを用いた場合の学習性能を表し、曲線Eは、方策勾配法を用い且つ外部メモリ34を有する学習器のみを用いた場合の学習性能を表し、曲線Fは、重点サンプリング法を用いることなく4個の学習器を同時に学習させた場合の学習性能を表している。

0090

図4から、環境がPOMDPの場合でも、図1に示す並列学習装置を用いた場合(曲線A)、他の学習方法(曲線B〜F)に比較して学習効率が最も高く、学習時間を最も短縮することができるとともに、到達可能な学習性能が最も高いことがわかった。

0091

図5は、図1に示す並列学習装置を自律走行ロボットの走行制御に使用した場合の学習性能を表す特性図である。図5に示す例は、自律走行ロボットが障害物を避けながら目的位置に到達するものであり、図5の縦軸は学習性能を表す平均報酬を示し、横軸はエピソード数を示している。

0092

図5に示す曲線Aは、図1に示す並列学習装置を用いた場合の学習性能を表し、学習器21〜2nとして、価値関数法を用いて粗い移動制御を行う学習器、価値関数法を用いて精密な移動制御を行う学習器、方策勾配法を用いて粗い移動制御を行う学習器、及び方策勾配法を用いて精密な移動制御を行う学習器を用い、重点サンプリング法を用いて4個の学習器を同時に学習させた場合の学習性能を表している。

0093

一方、曲線B,Cは比較例であり、曲線Bは、価値関数法を用いて粗い移動制御を行う学習器のみを用いた場合の学習性能を表し、曲線Cは、価値関数法を用いて精密な移動制御を行う学習器のみを用いた場合の学習性能を表している。

0094

図5から、図1に示す並列学習装置を自律走行ロボットに用いた場合(曲線A)、他の学習方法(曲線B,C)に比較して、エピソード数の増加に伴い学習効率が急激に向上し、学習時間を最も短縮することができるとともに、到達可能な学習性能が最も高いことがわかった。

0095

上記の実施形態では、自律走行ロボット等を対象に説明したが、本発明の適用対象は上記の例に特に限定されず、種々のものに適用可能である。例えば、ペットロボット等に本発明の並列学習装置を適用し、複数の学習器の一つとして人間の教示を導入するようにしてもよい。この場合、人間が教示した通りにペットロボットが行動しつつ、ペットロボット自体の学習も同時に実現することができ、例えば、飼い主がペットロボットに芸を教えつつ、自律学習によってより知的な行動を獲得させることができる。

0096

また、本発明の並列学習装置を最適制御分野等に適用して従来型の制御と機械学習とを融合し、工場等においてマニピュレータの制御等に利用されてきたものを学習器の制御器として利用するようにしてもよい。この場合、これまでに使用してきたものをそのまま利用できるので、従来と同じ性能を保証しながら、他の学習器が獲得したより良い性能を自動的に利用することができる。

0097

さらに、本発明の並列学習装置を進化ロボティクス等の多数の学習器を評価する部分に適用してもよい。この分野では、複数の制御器を順番に一つずつ評価していたため、膨大な時間を必要としていたが、本発明の並列学習装置を用いることにより、複数の学習器を並列に評価することができるため、評価時間を大幅に短縮できる。

図面の簡単な説明

0098

本発明の一実施の形態による並列学習装置を用いた学習システムの構成を示すブロック図である。
学習器の他の構成を示すブロック図である。
図1に示す並列学習装置の並列学習処理を説明するためのフローチャートである。
図1に示す並列学習装置を倒立振子の制御に使用した場合の学習性能を表す特性図である。
図1に示す並列学習装置を自律走行ロボットの走行制御に使用した場合の学習性能を表す特性図である。

符号の説明

0099

1センサ部
2並列学習装置
3アクチュエータ部
11状態取得部
12 確率的選択器
13切り替え器
21〜2n,21a学習器
31,31a補正器
32,32a価値関数部
33,33a制御器
34 外部メモリ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ