図面 (/)

技術 機械学習器、ロボットシステム、及び機械学習方法

出願人 セイコーエプソン株式会社
発明者 小澤欣也
出願日 2019年2月20日 (1年10ヶ月経過) 出願番号 2019-028170
公開日 2020年8月31日 (4ヶ月経過) 公開番号 2020-131362
状態 未査定
技術分野 学習型計算機 マニプレータ
主要キーワード 光電式センサー 基台部分 縮小撮影 価値関数 PCクラスタ 協働作業 触覚センサー 接触センサー
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年8月31日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

ロボット報酬を与える場合、プラス報酬とマイナス報酬とを取り違え誤判断を防ぐことができる機械学習器ロボットシステム、及び機械学習方法を提供する。

解決手段

機械学習器2は、人1とロボット3とが協働して作業を行うロボットの動作を学習する機械学習器であって、人1とロボット3が協働して作業を行うとき、ロボット3の状態を示す状態変数観測する状態観測部21と、ロボット3を制御する制御データ及び状態変数、人1の行動、並びに人1の脈拍数に基づいて報酬を計算する報酬計算部22と、報酬及び状態変数に基づいて、ロボット3の動作を制御する行動価値関数更新する価値関数更新部23と、を有する。

概要

背景

従来、ロボットシステムでは、ロボットが動作している期間中、人の安全を確保するために、人がロボットの作業領域に入れないように安全対策が講じられていた。例えば、ロボットの周りには安全が設置され、ロボットの動作期間中には安全柵の内部に人が入ることが禁じられていた。

近年では、人とロボットとが協働して作業を行うロボットあるいは協働ロボットが研究・開発され、実用化されている。このようなロボットあるいはロボットシステムでは、例えば、ロボットの周りに安全柵を設けない状態で、ロボットと人としての作業者とが1つの作業を協働して行うようになっている。

また、人とロボットとが協働して作業を行うロボット動作をさらに改善することができるロボットシステムが開示されている(例えば、特許文献1参照)。

概要

ロボットへ報酬を与える場合、プラス報酬とマイナス報酬とを取り違え誤判断を防ぐことができる機械学習器、ロボットシステム、及び機械学習方法を提供する。機械学習器2は、人1とロボット3とが協働して作業を行うロボットの動作を学習する機械学習器であって、人1とロボット3が協働して作業を行うとき、ロボット3の状態を示す状態変数観測する状態観測部21と、ロボット3を制御する制御データ及び状態変数、人1の行動、並びに人1の脈拍数に基づいて報酬を計算する報酬計算部22と、報酬及び状態変数に基づいて、ロボット3の動作を制御する行動価値関数更新する価値関数更新部23と、を有する。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

人とロボットとが協働して作業を行う前記ロボットの動作を学習する機械学習器であって、前記人と前記ロボットとが協働して前記作業を行うとき、前記ロボットの状態を示す状態変数観測する状態観測部と、前記ロボットを制御する制御データ及び前記状態変数、前記人の行動、並びに前記人の脈拍数に基づいて報酬を計算する報酬計算部と、前記報酬及び前記状態変数に基づいて、前記ロボットの動作を制御する行動価値関数更新する価値関数更新部と、を有することを特徴とする機械学習器。

請求項2

前記状態変数は、脈波センサーカメラ力センサーマイク、及び触覚センサーの出力を含むことを特徴とする請求項1に記載の機械学習器。

請求項3

前記報酬計算部は、前記制御データ及び前記状態変数に基づく第1報酬に対して、前記人の行動に基づく第2報酬及び前記人の脈拍数に基づく第3報酬を加えて前記報酬を計算することを特徴とする請求項2に記載の機械学習器。

請求項4

前記第2報酬は、前記ロボットに設けられた前記触覚センサーを介して、前記ロボットを撫でたときにプラス報酬が設定され、前記ロボットを叩いたときにマイナス報酬が設定されることを特徴とする請求項3に記載の機械学習器。

請求項5

前記第2報酬は、前記ロボットの一部又は前記ロボットの近傍に設けられ、あるいは、前記人に装着された前記マイクを介して、前記ロボットを褒めたときにプラス報酬が設定され、前記ロボットを叱ったときにマイナス報酬が設定されることを特徴とする請求項3に記載の機械学習器。

請求項6

前記第3報酬は、前記人に装着された前記脈波センサーを介して、前記人の脈拍数を認識し、前記人の脈拍数に対し、変化が少ないときにプラス報酬が設定され、前記人の脈拍数に対し、上昇したときにマイナス報酬が設定されることを特徴とする請求項3〜5のいずれか1項に記載の機械学習器。

請求項7

さらに、前記価値関数更新部の出力に基づいて、前記ロボットの動作を規定する指令データを決定する意思決定部を有することを特徴とする請求項1〜6のいずれか1項に記載の機械学習器。

請求項8

前記脈波センサーは、前記人に装着され、前記カメラは、前記ロボットに直接又は前記ロボットの上方の周囲に設けられ、前記力センサーは、前記ロボットの基台部分又はハンド部分又は周辺設備に設けられ、あるいは、前記触覚センサーは、前記ロボットの一部又は周辺設備に設けられていることを特徴とする請求項2に記載の機械学習器。

請求項9

請求項1〜8のいずれか1項に記載の機械学習器と、前記人と協働して作業を行う前記ロボットと、前記ロボットの動作を制御するロボット制御部と、を有するロボットシステムであって、前記機械学習器は、前記人と前記ロボットとが協働して作業を行った後の特徴点又はワークの分布解析して前記ロボットの動作を学習することを特徴とするロボットシステム。

請求項10

さらに、脈波センサー、カメラ、力センサー、触覚センサー、マイク、及び入力装置と、前記脈波センサー、前記カメラ、前記力センサー、前記触覚センサー、前記マイク、及び前記入力装置の出力を受け取って、作業の意図を認識する作業意図認識部と、を有することを特徴とする請求項9に記載のロボットシステム。

請求項11

さらに、前記マイクから入力された前記人の音声を認識する音声認識部を有し、前記作業意図認識部は、前記音声認識部に基づいて前記ロボットの動作を補正することを特徴とする請求項10に記載のロボットシステム。

請求項12

さらに、前記作業意図認識部による作業意図の認識に基づいて、前記人に対する質問を生成する質問生成部と、前記質問生成部により生成された前記質問を前記人に伝えるスピーカーと、を有することを特徴とする請求項11に記載のロボットシステム。

請求項13

前記マイクは、前記スピーカーからの前記質問に対する前記人の返答受け取り、前記音声認識部は、前記マイクを介して入力された前記人の返答を認識して、前記作業意図認識部に出力することを特徴とする請求項12に記載のロボットシステム。

請求項14

前記機械学習器の前記状態観測部に入力される前記状態変数は、前記作業意図認識部の出力であり、前記作業意図認識部は、前記人の行動に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の行動に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して前記状態観測部に出力することを特徴とする請求項10〜13のいずれか1項に記載のロボットシステム。

請求項15

前記機械学習器は、所定の時点までに学習した動作を、それ以上学習しないように設定することができることを特徴とする請求項9〜14のいずれか1項に記載のロボットシステム。

請求項16

前記ロボット制御部は、前記触覚センサーにより軽微衝突感知したとき、前記ロボットを停止することを特徴とする請求項10〜15のいずれか1項に記載のロボットシステム。

請求項17

人とロボットとが協働して作業を行う前記ロボットの動作を学習する機械学習方法であって、前記人と前記ロボットとが協働して作業を行うとき、前記ロボットの状態を示す状態変数を観測し、前記ロボットを制御する制御データ及び前記状態変数、前記人の行動、並びに前記人の脈拍数に基づいて報酬を計算し、前記報酬及び前記状態変数に基づいて、前記ロボットの動作を制御する行動価値関数を更新することを特徴とする機械学習方法。

技術分野

0001

本発明は、機械学習器ロボットシステム、及び機械学習方法に関するものである。

背景技術

0002

従来、ロボットシステムでは、ロボットが動作している期間中、人の安全を確保するために、人がロボットの作業領域に入れないように安全対策が講じられていた。例えば、ロボットの周りには安全が設置され、ロボットの動作期間中には安全柵の内部に人が入ることが禁じられていた。

0003

近年では、人とロボットとが協働して作業を行うロボットあるいは協働ロボットが研究・開発され、実用化されている。このようなロボットあるいはロボットシステムでは、例えば、ロボットの周りに安全柵を設けない状態で、ロボットと人としての作業者とが1つの作業を協働して行うようになっている。

0004

また、人とロボットとが協働して作業を行うロボット動作をさらに改善することができるロボットシステムが開示されている(例えば、特許文献1参照)。

先行技術

0005

特開2018−30185号公報

発明が解決しようとする課題

0006

しかしながら、特許文献1のロボットでは、人がロボットの接触センサーを介して人の行動を判断するが、接触センサーの誤動作や人の誤操作によってロボットが人の行動を間違って判断する恐れがある。

課題を解決するための手段

0007

本願の機械学習器は、人とロボットとが協働して作業を行う前記ロボットの動作を学習する機械学習器であって、前記人と前記ロボットとが協働して前記作業を行うとき、前記ロボットの状態を示す状態変数観測する状態観測部と、前記ロボットを制御する制御データ及び前記状態変数、前記人の行動、並びに前記人の脈拍数に基づいて報酬を計算する報酬計算部と、前記報酬及び前記状態変数に基づいて、前記ロボットの動作を制御する行動価値関数更新する価値関数更新部と、を有することを特徴とする。

0008

上記の機械学習器では、前記状態変数は、脈波センサーカメラ力センサーマイク、及び触覚センサーの出力を含むことが好ましい。

0009

上記の機械学習器では、前記報酬計算部は、前記制御データ及び前記状態変数に基づく第1報酬に対して、前記人の行動に基づく第2報酬及び前記人の脈拍数に基づく第3報酬を加えて前記報酬を計算することが好ましい。

0010

上記の機械学習器では、前記第2報酬は、前記ロボットに設けられた前記触覚センサーを介して、前記ロボットを撫でたときにプラス報酬が設定され、前記ロボットを叩いたときにマイナス報酬が設定されることが好ましい。

0011

上記の機械学習器では、前記第2報酬は、前記ロボットの一部又は前記ロボットの近傍に設けられ、あるいは、前記人に装着された前記マイクを介して、前記ロボットを褒めたときにプラス報酬が設定され、前記ロボットを叱ったときにマイナス報酬が設定されることが好ましい。

0012

上記の機械学習器では、前記第3報酬は、前記人に装着された前記脈波センサーを介して、前記人の脈拍数を認識し、前記人の脈拍数に対し、変化が少ないときにプラス報酬が設定され、前記人の脈拍数に対し、上昇したときにマイナス報酬が設定されることが好ましい。

0013

上記の機械学習器では、さらに、前記価値関数更新部の出力に基づいて、前記ロボットの動作を規定する指令データを決定する意思決定部を有することが好ましい。

0014

上記の機械学習器では、前記脈波センサーは、前記人に装着され、前記カメラは、前記ロボットに直接又は前記ロボットの上方の周囲に設けられ、前記力センサーは、前記ロボットの基台部分又はハンド部分又は周辺設備に設けられ、あるいは、前記触覚センサーは、前記ロボットの一部又は周辺設備に設けられていることが好ましい。

0015

本願のロボットシステムは、上記に記載の機械学習器と、前記人と協働して作業を行う前記ロボットと、前記ロボットの動作を制御するロボット制御部と、を有するロボットシステムであって、前記機械学習器は、前記人と前記ロボットとが協働して作業を行った後の特徴点又はワークの分布解析して前記ロボットの動作を学習することを特徴とする。

0016

上記のロボットシステムでは、さらに、脈波センサー、カメラ、力センサー、触覚センサー、マイク、及び入力装置と、前記脈波センサー、前記カメラ、前記力センサー、前記触覚センサー、前記マイク、及び前記入力装置の出力を受け取って、作業の意図を認識する作業意図認識部と、を有することが好ましい。

0017

上記のロボットシステムでは、さらに、前記マイクから入力された前記人の音声を認識する音声認識部を有し、前記作業意図認識部は、前記音声認識部に基づいて前記ロボットの動作を補正することが好ましい。

0018

上記のロボットシステムでは、さらに、前記作業意図認識部による作業意図の認識に基づいて、前記人に対する質問を生成する質問生成部と、前記質問生成部により生成された前記質問を前記人に伝えるスピーカーと、を有することが好ましい。

0019

上記のロボットシステムでは、前記マイクは、前記スピーカーからの前記質問に対する前記人の返答受け取り、前記音声認識部は、前記マイクを介して入力された前記人の返答を認識して、前記作業意図認識部に出力することが好ましい。

0020

上記のロボットシステムでは、前記機械学習器の前記状態観測部に入力される前記状態変数は、前記作業意図認識部の出力であり、前記作業意図認識部は、前記人の行動に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の行動に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して前記状態観測部に出力することが好ましい。

0021

上記のロボットシステムでは、前記機械学習器は、所定の時点までに学習した動作を、それ以上学習しないように設定することができることが好ましい。

0022

上記のロボットシステムでは、前記ロボット制御部は、前記触覚センサーにより軽微衝突感知したとき、前記ロボットを停止することが好ましい。

0023

本願の機械学習方法は、人とロボットとが協働して作業を行う前記ロボットの動作を学習する機械学習方法であって、前記人と前記ロボットとが協働して作業を行うとき、前記ロボットの状態を示す状態変数を観測し、前記ロボットを制御する制御データ及び前記状態変数、前記人の行動、並びに前記人の脈拍数に基づいて報酬を計算し、前記報酬及び前記状態変数に基づいて、前記ロボットの動作を制御する行動価値関数を更新することを特徴とする。

図面の簡単な説明

0024

本実施形態に係るロボットシステムを示すブロック図。
ニューロンモデルを模式的に示す図。
図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図。
本実施形態に係るロボットシステムの一例を模式的に示す図。
図4に示すロボットシステムの変形例を模式的に示す図。
本実施形態に係るロボットシステムの一例を説明するためのブロック図。
図6に示すロボットシステムによる動作の一例を説明するための図。
図7に示すロボットシステムによる動作を、ニューラルネットワークを適用した深層学習により実現する場合の処理の一例を説明するための図。

実施例

0025

以下、本発明を具体化した実施形態について図面に従って説明する。なお、使用する図面は、説明する部分が認識可能な状態となるように、適宜拡大又は縮小して表示している。

0026

以下、本発明に係る機械学習器、ロボットシステム、及び機械学習方法の実施形態を、添付図面を参照して詳述する。
図1は、本実施形態に係るロボットシステムを示すブロック図である。

0027

本実施形態のロボットシステムは、図1に示すように、人としての作業者1とロボット3とが協働して作業を行う協働ロボットとしてのロボット3の動作を学習するためのものであり、ロボット3、ロボット制御部30、及び機械学習器2を備える。ここで、機械学習器2は、ロボット制御部30と一体化することができるが、それぞれ別々に設けてもよい。

0028

機械学習器2は、図1に示すように、例えば、ロボット制御部30に設定されるロボット3の動作指令を学習するものであり、状態観測部21、報酬計算部22、価値関数更新部23、及び意思決定部24を含む。状態観測部21は、ロボット3の状態を観測し、報酬計算部22は、状態観測部21の出力及び作業者1の行動及び作業者1の脈拍数に基づいて報酬を計算する。

0029

すなわち、報酬計算部22には、例えば、ロボット制御部30からのロボット3の制御データ、状態観測部21の出力である状態観測部21により観測された状態変数、作業者1の行動に基づく第2報酬、及び作業者1の脈拍数に基づく第3報酬が入力されて報酬の計算が行われる。具体的に、例えば、ロボット3の一部に設けられた図4に示す触覚センサー41を介して、ロボット3を撫でたときにプラス報酬を設定し、ロボット3を叩いたときにマイナス報酬を設定し、この作業者1の行動に基づく第2報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行うことができる。

0030

また、作業者1に装着され図4に示す脈波センサー12を介して、作業者1の脈拍数を認識し、作業者1の脈拍数に対し、変化が少ないときにプラス報酬を設定し、作業者1の脈拍数に対し、上昇したときにマイナス報酬を設定し、作業者1の脈拍数に基づく第3報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行うことができる。
ロボット3へ報酬を与える場合、作業者1に装着された脈波センサー12で脈拍数を測定し、触覚センサー41の「撫でた」の結果と撫でた前後で脈拍数の変化が少ない場合、プラス報酬を与え、触覚センサー41の「叩いた」の結果と叩いた前後で脈拍数が上昇した場合、マイナス報酬を与える。

0031

若しくは、例えば、ロボット3の一部又は近傍に設けられ、あるいはロボット3の近傍又は作業者1に装着された図4に示すマイク42を介して、ロボット3を褒めたときにプラス報酬を設定し、ロボット3を叱ったときにマイナス報酬を設定し、この作業者1の行動に基づく第2報酬及びこの作業者1の脈拍数に基づく第3報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行ってもよい。

0032

なお、第2報酬と第3報酬とでプラス/マイナスの報酬が異なる場合は、第3報酬を優先し報酬を決めてもよい。例えば、第2報酬でマイナス報酬を与える設定であっても、第3報酬でプラス報酬になった場合は、第3報酬のプラス報酬を優先する。
また第3報酬のプラス報酬とマイナス報酬とを決める学習を実施してもよい。

0033

脈波センサー12は、ロボット3と協働して作業を行う作業者1の脈拍数を計測する。脈波センサー12は、作業者1に装着された例えば、光電式センサーである。脈波センサー12として圧脈波センサーが用いられてもよい。

0034

価値関数更新部23は、報酬計算部22により計算された報酬に基づいて、現在の状態変数から求めたロボット3の動作指令に関連する行動価値関数を更新する。ここで、状態観測部21が観測する状態変数としては、例えば、後に詳述するように、脈波センサー12、マイク42、カメラ44、力センサー45、及び触覚センサー41の出力を含む。脈波センサー12、マイク42、カメラ44、力センサー45、あるいは触覚センサー41の出力を含む。脈波センサー12、マイク42、カメラ44、力センサー45、及び触覚センサー41の出力の少なくともひとつを含む。また、意思決定部24は、価値関数更新部23の出力に基づいて、ロボット3の動作を規定する指令データを決定する。これによれば、価値関数更新部23の出力に基づいて、ロボット3の動作を規定する指令データを決定することができる。

0035

次に、機械学習及び機械学習装置としての機械学習器2を説明する。
機械学習器2は、装置に入力されるデータの集合から、その中にある有用な規則知識表現判断基準等を解析により抽出し、その判断結果を出力すると共に、知識の学習としての機械学習を行う機能を有する。機械学習の手法は様々であるが、大別すれば、例えば、「教師あり学習」、「教師なし学習」、及び「強化学習」に分けられる。さらに、これらの手法を実現するうえで、特徴量そのものの抽出を学習する、「深層学習(ディープラーニング:Deep Learning)」と呼ばれる手法がある。

0036

図1を参照して説明した本実施形態の機械学習器2は、「強化学習」を適用したものであり、この機械学習器2は、汎用計算機若しくはプロセッサーを用いることもできるが、例えば、GPGPU(General Purpose computing on Graphics Processing Units)や大規模PCクラスター等を適用すると、より高速処理が可能になる。

0037

ここで、機械学習は、「強化学習」の他に「教師あり学習」等の様々なものがあるが、その概略を説明する。
まず、「教師あり学習」とは、教師データ、すなわち、ある入力と結果のデータとの組を大量に機械学習器2に与えることで、それらのデータセットにある特徴を学習し、入力から結果を推定するモデル、すなわち、その関係性帰納的に獲得するものである。

0038

また、「教師なし学習」とは、入力データのみを大量に機械学習器2に与えることで、入力データがどのような分布をしているか学習し、対応する教師出力データを与えなくても、入力データに対して圧縮分類・整形等を行う装置で学習する手法である。例えば、それらのデータセットにある特徴を、似た者どうしにクラスタリングすること等ができる。この結果を使って、何らかの基準を設けてそれを最適化するような出力の割当てを行うことにより、出力の予測を実現することができる。なお、「教師なし学習」と「教師あり学習」との中間的な問題設定として、「半教師あり学習」と呼ばれるものもあり、これは、例えば、一部のみ入力と出力とのデータの組が存在し、それ以外は入力のみのデータである場合に対応する。

0039

次に、「強化学習」について、詳述する。
まず、強化学習の問題設定として、次のように考える。
・ロボット3は、環境の状態を観測し、行動を決定する。ロボット3は、作業者1とロボット3とが協働して作業を行う協働ロボットである。
・環境は、何らかの規則に従って変化し、さらに、自分の行動が、環境に変化を与えることもある。
・行動するたびに、報酬信号が帰ってくる。
最大化したいのは、将来にわたっての割引の報酬の合計である。
・行動が引き起こす結果を全く知らない、又は、不完全にしか知らない状態から学習はスタートする。すなわち、ロボット3は、実際に行動して初めて、その結果をデータとして得ることができる。つまり、試行錯誤しながら最適な行動を探索する必要がある。
・作業者1の動作を真似るように、事前学習した状態を初期状態として、良いスタート地点から学習をスタートさせることもできる。事前学習は例えば、「教師あり学習」や「逆強化学習」といった手法である。

0040

ここで、「強化学習」とは、判定や分類だけではなく、行動を学習することにより、環境に行動が与える相互作用踏まえて適切な行動を学習、すなわち、将来的に得られる報酬を最大にするための学習方法を学ぶものである。以下に、例として、Q学習の場合で説明を続けるが、Q学習に限定されるものではない。

0041

Q学習は、ある環境状態sの下で、行動aを選択する価値Q(s,a)を学習する方法である。つまり、ある状態sのとき、価値Q(s,a)の最も高い行動aを最適な行動として選択すればよい。しかし、最初は、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、行動主体としてのエージェントは、ある状態sの下で様々な行動aを選択し、その時の行動aに対して、報酬が与えられる。それにより、エージェントは、より良い行動の選択、すなわち、正しい価値Q(s,a)を学習していく。

0042

さらに、行動の結果、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γt)rt]となるようにすることを目指す。ここで、期待値は、最適な行動に従って状態変化したときにとるものとし、それは、分かっていないので、探索しながら学習することになる。このような価値Q(s,a)の更新式は、例えば、次の式1により表すことができる。

0043

上記の式1において、stは、時刻tにおける環境の状態を表し、atは、時刻tにおける行動を表す。行動atにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメーターで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。

0044

上述した式1は、行動atの結果、帰ってきた報酬rt+1を元に、状態stにおける行動atの価値Q(st,at)を更新する方法を表している。すなわち、状態sにおける行動aの価値Q(st,at)よりも、報酬rt+1+行動aによる次の状態における最良の行動max aの価値Q(st+1,max at+1)の方が大きければ、価値Q(st,at)を大きくし、反対に小さければ、価値Q(st,at)を小さくすることを示している。つまり、ある状態におけるある行動の価値を、結果として即時帰ってくる報酬と、その行動による次の状態における最良の行動の価値に近付けるようにしている。

0045

ここで、価値Q(s,a)の計算機上での表現方法は、すべての状態行動ペア(s,a)に対して、その値をテーブルとして保持しておく方法と、価値Q(s,a)を近似するような関数を用意する方法がある。後者の方法では、前述の式1は、確率勾配降下法等の手法で近似関数のパラメーターを調整していくことにより、実現することができる。なお、近似関数としては、後述のニューラルネットワークを用いることができる。

0046

ここで、「強化学習」での価値関数の近似アルゴリズムとして、ニューラルネットワークを用いることができる。
図2は、ニューロンのモデルを模式的に示す図であり、図3は、図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを模式的に示す図である。すなわち、ニューラルネットワークは、例えば、図2に示すようなニューロンのモデルを模した演算装置及びメモリー等で構成される。

0047

ニューロンは、図2に示すように、複数の入力x(図2では、一例として入力x1〜x3)に対する結果yを出力するものである。各入力x(x1,x2,x3)には、この入力xに対応する重みw(w1,w2,w3)が乗算される。これにより、ニューロンは、次の式2により表現される結果yを出力する。なお、入力x、結果y、及び重みwは、すべてベクトルである。また、下記の式2において、θは、バイアスであり、fkは、活性化関数である。

0048

図3を参照して、図2に示すニューロンを組み合わせて構成した三層のニューラルネットワークを説明する。図3に示すように、ニューラルネットワークの左側から複数の入力x、ここでは、一例として、入力x1〜入力x3が入力され、右側から結果y、ここでは、一例として、結果y1〜結果y3が出力される。具体的に、ニューラルネットワークの一層目D1において、入力x1,x2,x3は、3つのニューロンN11〜N13の各々に対して、対応する重みが掛けられて入力される。これらの入力に掛けられる重みは、まとめてW1と標記されている。

0049

ニューロンN11〜N13は、それぞれ、z11〜z13を出力する。図3において、これらz11〜z13は、まとめて特徴ベクトルZ1と標記され、入力ベクトルの特徴量を抽出したベクトルとみなすことができる。この特徴ベクトルZ1は、重みW1と重みW2との間の特徴ベクトルである。ニューラルネットワークの二層目D2において、z11〜z13は、2つのニューロンN21及びニューロンN22の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてW2と標記されている。

0050

ニューロンN21,N22は、それぞれz21、z22を出力する。図3において、これらz21、z22は、まとめて特徴ベクトルZ2と標記されている。この特徴ベクトルZ2は、重みW2と重みW3との間の特徴ベクトルである。ニューラルネットワークの三層目D3において、z21、z22は、3つのニューロンN31〜N33の各々に対して、対応する重みが掛けられて入力される。これらの特徴ベクトルに掛けられる重みは、まとめてW3と標記されている。

0051

最後に、ニューロンN31〜N33は、それぞれ、結果y1〜結果y3を出力する。ニューラルネットワークの動作には、学習モードと価値予測モードとがある。例えば、学習モードにおいて、学習データセットを用いて重みWを学習し、そのパラメーターを用いて予測モードにおいて、ロボットの行動判断を行う。なお、便宜上、予測と書いたが、検出・分類・推論等多様なタスクが可能なのはいうまでもない。

0052

ここで、予測モードで実際にロボットを動かして得られたデータを即時学習し、オンライン学習として次の行動に反映させることも、バッチ学習として予め収集しておいたデータ群を用いてまとめた学習を行い、以降はずっとそのパラメーターで検知モードを行うこともできる。あるいはその中間的な、ある程度データが溜まるたびに学習モードを挟むということも可能である。

0053

また、重みw1〜w3は、誤差逆伝搬法(誤差逆転伝播法:バックプロパゲーション:Backpropagation)により学習可能なものである。なお、誤差の情報は、右側から入り左側に流れる。誤差逆伝搬法は、各ニューロンについて、入力xが入力されたときの結果yと教師データとしての真の結果yとの差分を小さくするように、それぞれの重みを学習して調整する手法である。このようなニューラルネットワークは、三層以上に、さらに層を増やすことも可能である。これを深層学習と言う。また、入力の特徴抽出を段階的に行い、結果を回帰する演算装置を、教師データのみから自動的に獲得することも可能である。

0054

前述したように、本実施形態の機械学習器2は、例えば、「強化学習あるいはQ学習」を実施すべく、状態観測部21、報酬計算部22、価値関数更新部23、及び意思決定部24を備えている。ただし、本発明に適用される機械学習方法は、Q学習に限定されず、作業者1の行動に基づく第2報酬及び作業者1の脈拍数に基づく第3報酬を加えて報酬の計算を行うものであれば、他の機械学習方法を適用することもできる。なお、機械学習器2の機械学習は、例えば、GPGPUや大規模PCクラスター等を適用することで実現可能なのは、前述した通りである。

0055

図4は、本実施形態に係るロボットシステムの一例を模式的に示す図であり、作業者1とロボット3とが協働してワークAを搬送する例を示すものである。図4において、参照符号1は作業者、3はロボット、30はロボット制御部、31はロボット3の基台部分、そして、32はロボット3のハンド部分を示す。また、参照符号12は脈波センサー、41は触覚センサー、42はマイク、43は入力装置、44はカメラ、45a、45bは力センサー、46はスピーカー、そして、Aはワークを示す。ここで、図1を参照して説明した機械学習器2は、例えば、ロボット制御部30に設けられている。また、入力装置43は、例えば、腕時計状のものとして、作業者1が装着可能としてもよい。入力装置43は、ティーチペンダントであってもよい。

0056

ロボットシステムは、脈波センサー12、カメラ44、力センサー45a,45b、触覚センサー41、マイク42、及び入力装置43を含む。ロボットシステムは、脈波センサー12、カメラ44、力センサー45a,45b、触覚センサー41、マイク42、あるいは入力装置43を含む。ロボットシステムは、脈波センサー12、カメラ44、力センサー45a,45b、触覚センサー41、マイク42、及び入力装置43の少なくともひとつを含む。
脈波センサー12は、作業者1に装着されている。カメラ44は、ロボットに直接又はロボットの上方の周囲に設けられている。力センサー45a,45bは、ロボット3の基台部分31又はハンド部分32又は周辺設備に設けられている。触覚センサー41は、ロボット3の一部又は周辺設備に設けられている。
ロボットシステムの一例において、脈波センサー12、マイク42、カメラ44、及びスピーカー46は、図4に示すように、ロボット3におけるハンド部分32の近傍に設けられ、力センサー45aは、ロボット3の基台部分31に設けられ、力センサー45bは、ロボット3のハンド部分32に設けられている。脈波センサー12、マイク42、カメラ44、力センサー45a,45b、及び触覚センサー41の出力は、図1を参照して説明した機械学習器2の状態観測部21に入力される状態変数あるいは状態量となる。力センサー45a,45bは、ロボット3の動作による力を検知する。

0057

触覚センサー41は、ロボット3のハンド部分32の近傍に設けられ、この触覚センサー41を介して、作業者1の行動に基づく第2報酬が機械学習器2の報酬計算部22に与えられる。具体的に、第2報酬は、作業者1が触覚センサー41を介してロボット3を撫でたときにプラス報酬が設定され、ロボット3を叩いたときにマイナス報酬が設定され、この第2報酬が、例えば、制御データ及び状態変数に基づく第1報酬に加えられる。なお、触覚センサー41は、例えば、ロボット3の全体を覆うように設けることもでき、また、安全性を確保するために、例えば、触覚センサー41により軽微な衝突を感知したときにロボット3を停止することもできる。

0058

若しくは、例えば、ロボット3のハンド部分32に設けられたマイク42を介して、作業者1がロボット3を褒めたときにプラス報酬が設定され、ロボット3を叱ったときにマイナス報酬が設定され、この第2報酬が、制御データ及び状態変数に基づく第1報酬に加えられる。なお、作業者1の行動に基づく第2報酬は、触覚センサー41を介して撫でる/叩く、あるいはマイク42を介して褒める/叱るに限定されるものではなく、様々なセンサー等を介して作業者1の行動に基づく第2報酬を、上述した第1報酬に加えることが可能である。

0059

脈波センサー12は、作業者1に装着されている。脈波センサー12は、作業者1の腕に装着され、この脈波センサー12を介して、作業者1の脈拍数に基づく第3報酬が機械学習器2の報酬計算部22に与えられる。具体的に、第3報酬は、第2報酬に対し、作業者1の顔表情を認識し、作業者1の顔表情に対し、笑顔あるいは喜びのときにプラス報酬が設定され、作業者1の顔表情に対し、ゆがみあるいは泣くのときにマイナス報酬が設定され、この第3報酬が、制御データ及び状態変数に基づく第1報酬に加えられる。

0060

図5は、図4に示すロボットシステムの変形例を模式的に示す図である。図5と、図4の比較から明らかなように、図5に示す変形例において、脈波センサー12は、作業者1の脈拍数を計測し易い作業者1の一部に設けられている。触覚センサー41は、作業者1が撫でる/叩くといった動作を行い易いロボット3の一部に設けられ、カメラ44は、ロボット3に直接又はロボット3の上方の周囲に設けられている。カメラ44は、ロボット3の周辺に設けられている。ここで、カメラ44は、例えば、ズーム機能を有し、拡大/縮小撮影が可能となっている。

0061

また、力センサー45は、ロボット3の基台部分31にのみ設けられ、マイク42は、作業者1が装着するようになっている。さらに、入力装置43は、固定の装置とされ、この入力装置43には、スピーカー46が設けられている。このように、脈波センサー12、触覚センサー41、マイク42、入力装置43、カメラ44、力センサー45、スピーカー46は、様々な個所に設けることができる。例えば、周辺設備に設けることができる。

0062

図6は、本実施形態に係るロボットシステムの一例を説明するためのブロック図である。ロボットシステムは、図6に示すように、ロボット3、ロボット制御部30、機械学習器2、作業意図認識部51、音声認識部52、及び質問生成部53を含む。さらに、ロボットシステムは、脈波センサー12、触覚センサー41、マイク42、入力装置43、カメラ44、力センサー45、及びスピーカー46も含む。ここで、機械学習器2は、例えば、作業者1とロボット3とが協働して作業を行った後の特徴点又はワークAの分布を解析してロボット3の動作を学習することができる。

0063

作業意図認識部51は、例えば、脈波センサー12、カメラ44、力センサー45、触覚センサー41、マイク42、及び入力装置43の出力を受け取って、作業の意図を認識する。音声認識部52は、マイク42から入力された作業者1の音声を認識し、作業意図認識部51は、音声認識部52に基づいてロボット3の動作を補正する。

0064

質問生成部53は、例えば、作業意図認識部51による作業意図の認識に基づいて、作業者1に対する質問を生成し、スピーカー46を介して生成された質問を作業者1に伝える。なお、マイク42は、スピーカー46からの質問に対する作業者1の返答を受け取り、音声認識部52は、マイク42を介して入力された作業者1の返答を認識して作業意図認識部51に出力する。

0065

図6に示すロボットシステムの例では、例えば、図1を参照して説明した機械学習器2の状態観測部21に入力される状態変数は、作業意図認識部51の出力として与えられている。ここで、作業意図認識部51は、作業者1の行動に基づく第2報酬を、その報酬に相当する状態変数に変換して状態観測部21に出力し、作業者1の脈拍数に基づく第3報酬を、その報酬に相当する状態変数に変換して状態観測部21に出力する。すなわち、作業意図認識部51は、作業者1の行動に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して状態観測部21に出力し、また、作業者1の行動に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して状態観測部21に出力することができる。作業意図認識部51は、作業者1の脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して状態観測部21に出力し、また、作業者1の脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して状態観測部21に出力することができる。

0066

なお、本ロボットシステムにおいて、機械学習器2は、所定の時点までに学習した動作を、それ以上学習しないように設定することができる。これは、例えば、ロボットの動作の学習が十分に行われ、それ以上様々なことを試さないあるいは学習しない方が作業を安定して行うことができるような場合等である。また、ロボット制御部30は、触覚センサー41により軽微な衝突を感知したとき、安全を考慮してロボット3を停止することができるのは、前述した通りである。なお、軽微な衝突とは、例えば、作業者1による撫でる/叩くとは異なる衝突である。また軽微な衝突とは、衝突荷重所定値を超えない衝突である。

0067

ここで、図6に基づいて、本実施形態に係るロボットシステムにおける処理の一例を説明する。例えば、作業者1が発言した音声は、マイク42を介して音声認識部52に入力され、内容の認識が行われる。音声認識部52により認識あるいは解析された音声の内容は、作業意図認識部51に入力される。また、作業意図認識部51には、脈波センサー12、触覚センサー41、マイク42、入力装置43、カメラ44、及び力センサー45からの信号も入力され、作業者1の発言した内容と合わせて作業者1の行っている作業意図が解析される。なお、作業意図認識部51に入力される信号は、上述したものに限定されず、様々なセンサー等の出力であってもよい。

0068

作業意図認識部51は、マイク42の出力の音声とカメラ44の出力のカメラ映像を結びつけることが可能であり、例えば、「ワーク」と言えば、映像内のどれがワークかを識別することができるようになっている。これは、例えば、Google(登録商標)による画像の説明文章自動生成する技術、並びに、既存の音声認識技術を組み合わせることによって実現可能である。

0069

また、作業意図認識部51は、簡単な語彙を備えており、例えば、「ワークを少し右へ」と言えば、ワークを少し右方向へ移動するといった動作をロボット3に行わせることが可能である。これは、例えば、Windows(登録商標)の音声認識によるパソコンの操作や音声認識による携帯電話等のモバイル機器の操作によって既に実現されている。

0070

さらに、本実施形態のロボットシステムにおいて、マイク42の出力の音声と力センサー45の力センサー情報を結びつけることも可能であり、例えば、「もう少し弱く」と言えば、力センサー45への入力が弱くなるようにロボット3を制御することも可能である。具体的に、x方向に対する力が入力されている状態で「もう少し弱く」と言った場合には、x方向に対する力が弱まるように、例えば、x方向への速度・加速度・力の入力を低下させるようにロボット3を制御することになる。

0071

作業意図認識部51では、カメラ映像内の作業前後の特徴点分布を記憶しており、特徴点分布が作業後の状態になるようにロボット3を制御することができる。カメラ映像内の作業前後は、例えば、「作業開始」及び「作業終了」と発言した時である。ここで、特徴点としては、例えば、オートエンコーダーを適用することによって、作業を適切に表現することができる点であり、この特徴点は、例えば、以下の手順により選ぶことができる。オートエンコーダーは自己符号化器である。

0072

図7は、図6に示すロボットシステムによる動作の一例を説明するための図であり、特徴点の選択手順を説明するためのものである。すなわち、図7の(a)に示すように、離れて置かれたL字型ワークA0及び星形ねじS0に対して、ロボット3の動作により、図7の(b)に示されるような、L字型ワークA0の端部に星形ねじS0を載置した場合を示すものである。

0073

まず、適当な特徴点(CP1〜CP7)を選び、作業前後の分布と位置関係を記録する。ここで、特徴点は、作業者1が設定してもよいが、ロボット3により自動設定できると便利である。なお、自動設定される特徴点は、L字型ワークA0内の特徴的な部分CP1〜CP6や星形ねじS0と思われる部分CP7、あるいは作業前後で変化のある点等に対して設定される。また、作業後の分布に法則のある点は、その作業をよく表す特徴点となる。逆に、作業後の分布に規則性のない点は、その作業を表さない特徴点ということで破棄される。この処理を協働作業ごとに行うことで、正しい特徴点とその特徴点の作業後の分布を機械学習に適用することができる。ここで、特徴点の分布に多少の揺らぎ許容される場合もあるが、それは、例えば、ニューラルネットワークを用いた深層学習を適用することで柔軟性を持って学習することも可能である。

0074

例えば、図7に示されるような、L字型ワークA0の端部に星形ねじS0を載置する作業の場合、例えば、破線の枠の特徴点CP1〜CP7が選ばれ、それぞれの特徴点の作業終了時の分布が記憶される。そして、作業終了時の特徴点分布になるように物体(A0,S0)を移動し、作業完了とする。

0075

図8は、図7に示すロボットシステムによる動作を、ニューラルネットワークを適用した深層学習により実現する場合の処理の一例を説明するための図である。図8において、まず、SN1に示されるように、例えば、作業終了時の画像内の画素がそれぞれのニューロンに入力し、SN2に示されるように、ニューロンによって、画像内の特徴点(CP1〜CP7)や物体(A0,S0)が認識される。さらに、SN3に示すように、ニューロンによって、画像内の特徴点や物体の分布規則が学習され、作業意図を認識することができる。なお、ニューラルネットワークの階層は、入力層、中間層、及び出力層の3階層に限定されるものではなく、例えば、中間層を複数の階層によって形成してもよいのはいうまでもない。

0076

次に、作業時において、上述したSN1〜SN3と同様に、作業前の画像をニューロンに通すことにより、SN4に示されるように、画像内の特徴点や物体の認識としての特徴点の取り出しを行い、そして、SN5に示されるように、SN2及びSN3のニューロンの処理により、作業終了時の特徴点や物体の分布を算出する。そして、ロボット3を制御して、算出された特徴点や物体分布となるように物体(A0,S0)を移動させて、作業が完了する。

0077

さらに、前述した図6を参照して、説明を続ける。例えば、図6に示すように、作業意図認識部51での認識時に分からない点や確認したい点があれば、質問生成部53に回され、質問生成部53からの質問内容がスピーカー46を介して作業者1に伝えられる。具体的に、作業者1が「ワークをもっと右へ」と発言した場合、例えば、ロボット3あるいはロボットシステムがワークを少し右へ移動させて、「この位置ですか?」と作業者1に質問することができる。

0078

作業者1は、スピーカー46を介して受け取ったその質問に対して返答するが、その返答は、マイク42及び音声認識部52を介して作業者1の返答の内容が認識され、作業意図認識部51にフィードバックされて、再度、作業意図が認識される。作業意図認識部51の認識結果を、機械学習器2に出力する。作業意図認識部51の認識結果は、例えば、前述した作業者1の行動に基づく第2報酬及び作業者1の脈拍数に基づく第3報酬を、その報酬に相当する状態変数に変換した出力も含む。なお、機械学習器2の処理は、前に詳述したので省略するが、機械学習器2の出力は、ロボット制御部30に入力され、ロボット3を制御すると共に、例えば、得られた作業意図に基づいて今後のロボット3の制御に活用される。

0079

本ロボットは、協働作業時にも少しずつ動き方や動作速度を変えながら作業を改善しようとする。前述したように、作業者1の行動に基づく第2報酬は、触覚センサー41を介して撫でる/叩く、あるいはマイク42を介して褒める/叱るにより、作業の改善に対してプラス報酬/マイナス報酬を設定することができるが、例えば、作業者1が触覚センサー41を介してロボット3を叩いたことにより、マイナス報酬が設定され懲を与えたとき、ロボット3は、例えば、その懲罰が与えられる直前の動作で変更した方向の修正を今後行わないようにするといった動作の改善を行うこともできる。

0080

また、例えば、ロボット3が、ある区間を少し早く動くように変更したところ、叩かれて懲罰が与えられた場合、その区間では、早く動かすような修正を今後行わないようにするといった動作の改善を行うこともできる。なお、例えば、動作回数が少ない場合等において、ロボットシステムあるいはロボット3が、なぜ懲罰が与えられたのか分からない場合、ロボットシステムの質問生成部53が作業者1に対して質問を行うことができ、その際に、例えば、もっとゆっくり動くようにと言われれば、ロボット3は、次回からもっとゆっくり動くように制御されることになる。

0081

また、前述したように、作業者1の脈拍数に基づく第3報酬は、脈波センサー12を介して、作業者1の脈拍数を認識し、作業者1の脈拍数に対し、変化が少ないときにプラス報酬を設定し、作業者1の脈拍数に対し、上昇したときにマイナス報酬を設定することができるが、例えば、作業者1が脈波センサー12を介して、作業者1の脈拍数に対し、変化が少ないとき、ロボット3は、例えば、そのマイナス報酬が与えられる直前の動作で変更した方向の修正を今後行わないようにするといった動作の改善を行うこともできる。

0082

このように、本実施形態のロボットシステムあるいはロボット3は、状態変数に基づく動作の機械学習だけでなく、作業者1の行動及び作業者1の脈拍数に基づいてロボット3の動作を補正あるいは改善することができ、さらに、作業意図認識部51、音声認識部52、及び質問生成部53が作業者1と会話することで、より一層、ロボット3の動作を改善することが可能になる。このロボット3と作業者1の会話において、質問生成部53が生成する質問としては、例えば、複数のワークが発見された際に、「どのワークを取ればよいのか?」又は「ワークをどこにおけばよいのか?」といった作業者1との協働作業に基づく質問だけでなく、例えば、学習量が足りなくて確信度が低い場合には、作業者1に対して、「このワークでよいですか?」又は「ここでよいですか?」といった自らの質問であってもよい。

0083

本実施形態によれば、ロボット3へ報酬を与える場合、状態変数に基づく動作の機械学習だけでなく、作業者1の行動及び作業者1の脈拍数に基づいて、作業者1の行動を間違って判断したロボット3の動作を補正あるいは改善することができる。これにより、機械学習器2において、ロボット3との協働作業において作業者1がロボット3へ報酬を与える場合の誤操作を防ぐことができる。

0084

以上、詳述したように、本発明に係る機械学習器、ロボットシステム、及び機械学習方法の実施形態によれば、協働作業中に学習データを収集することが可能となり、人とロボットとが協働して作業を行うロボットの動作をさらに改善することができる。さらに、本発明に係る機械学習器、ロボットシステム、及び機械学習方法の実施形態によれば、人とロボットとが協働して作業を行う際に、各種センサー情報や人との会話等により協働動作を改善することができる。場合によっては、人と協働する必要がなくなり、ロボット単体でタスクをこなすことができるようになる。

0085

以上、実施形態を説明したが、ここに記載したすべての例や条件は、発明及び技術に適用する発明の概念の理解を助ける目的で記載されたものであり、特に記載された例や条件は発明の範囲を制限することを意図するものではない。また、明細書のそのような記載は、発明の利点及び欠点を示すものでもない。発明の実施形態を詳細に記載したが、各種の変更、置き換え、変形が発明の精神及び範囲を逸脱することなく行えることが理解されるべきである。

0086

以下に、実施形態から導き出される内容を記載する。

0087

機械学習器は、人とロボットとが協働して作業を行う前記ロボットの動作を学習する機械学習器であって、前記人と前記ロボットとが協働して前記作業を行うとき、前記ロボットの状態を示す状態変数を観測する状態観測部と、前記ロボットを制御する制御データ及び前記状態変数、前記人の行動、並びに前記人の脈拍数に基づいて報酬を計算する報酬計算部と、前記報酬及び前記状態変数に基づいて、前記ロボットの動作を制御する行動価値関数を更新する価値関数更新部と、を有することを特徴とする。
これによれば、ロボットへ報酬を与える場合、状態変数に基づく動作の機械学習だけでなく、人の行動及び人の脈拍数に基づいて、人の行動を間違って判断したロボットの動作を補正あるいは改善することができる。これにより、機械学習器において、ロボットとの協働作業において人がロボットへ報酬を与える場合の誤操作を防ぐことができる。

0088

上記の機械学習器では、前記状態変数は、脈波センサー、カメラ、力センサー、マイク、及び触覚センサーの出力を含むことが好ましい。
これによれば、脈波センサー、マイク、カメラ、力センサー、及び触覚センサーの出力は、機械学習器の状態観測部に入力される状態変数あるいは状態量とすることができる。

0089

上記の機械学習器では、前記報酬計算部は、前記制御データ及び前記状態変数に基づく第1報酬に対して、前記人の行動に基づく第2報酬及び前記人の脈拍数に基づく第3報酬を加えて前記報酬を計算することが好ましい。
これによれば、人の行動に基づく第2報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行うことができる。

0090

上記の機械学習器では、前記第2報酬は、前記ロボットに設けられた前記触覚センサーを介して、前記ロボットを撫でたときにプラス報酬が設定され、前記ロボットを叩いたときにマイナス報酬が設定されることが好ましい。
これによれば、ロボットの一部に設けられた触覚センサーを介して、ロボットを撫でたときにプラス報酬を設定し、ロボットを叩いたときにマイナス報酬を設定し、この人の行動に基づく第2報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行うことができる。

0091

上記の機械学習器では、前記第2報酬は、前記ロボットの一部又は前記ロボットの近傍に設けられ、あるいは、前記人に装着された前記マイクを介して、前記ロボットを褒めたときにプラス報酬が設定され、前記ロボットを叱ったときにマイナス報酬が設定されることが好ましい。
これによれば、ロボットに設けられたマイクを介して、ロボットを褒めたときにプラス報酬を設定し、ロボットを叱ったときにマイナス報酬を設定し、この人の行動に基づく第2報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行うことができる。

0092

上記の機械学習器では、前記第3報酬は、前記人に装着された前記脈波センサーを介して、前記人の脈拍数を認識し、前記人の脈拍数に対し、変化が少ないときにプラス報酬が設定され、前記人の脈拍数に対し、上昇したときにマイナス報酬が設定されることが好ましい。
これによれば、人に装着された脈波センサーを介して、人の脈拍数を認識し、人の脈拍数に対し、変化が少ないときにプラス報酬が設定され、人の脈拍数に対し、上昇したときにマイナス報酬が設定され、この人の脈拍数に基づく第3報酬を、制御データ及び状態変数に基づく第1報酬に加えて報酬の計算を行うことができる。

0093

上記の機械学習器では、さらに、前記価値関数更新部の出力に基づいて、前記ロボットの動作を規定する指令データを決定する意思決定部を有することが好ましい。
これによれば、価値関数更新部の出力に基づいて、ロボットの動作を規定する指令データを決定することができる。

0094

上記の機械学習器では、前記脈波センサーは、前記人に装着され、前記カメラは、前記ロボットに直接又は前記ロボットの上方の周囲に設けられ、前記力センサーは、前記ロボットの基台部分又はハンド部分又は周辺設備に設けられ、あるいは、前記触覚センサーは、前記ロボットの一部又は周辺設備に設けられていることが好ましい。
これによれば、脈波センサー、触覚センサー、カメラ、力センサーは、様々な個所に設けることができる。様々な個所とは例えば、周辺設備である。

0095

ロボットシステムは、上記に記載の機械学習器と、前記人と協働して作業を行う前記ロボットと、前記ロボットの動作を制御するロボット制御部と、を有するロボットシステムであって、前記機械学習器は、前記人と前記ロボットとが協働して作業を行った後の特徴点又はワークの分布を解析して前記ロボットの動作を学習することを特徴とする。
これによれば、ロボットへ報酬を与える場合、状態変数に基づく動作の機械学習だけでなく、人の行動及び人の脈拍数に基づいてロボットの動作を補正あるいは改善することができる。これにより、人共存のロボットシステムにおいて、ロボットとの協働作業において人がロボットへ報酬を与える場合の誤操作を防ぐことができる。

0096

上記のロボットシステムでは、さらに、脈波センサー、カメラ、力センサー、触覚センサー、マイク、及び入力装置と、前記脈波センサー、前記カメラ、前記力センサー、前記触覚センサー、前記マイク、及び前記入力装置の出力を受け取って、作業の意図を認識する作業意図認識部と、を有することが好ましい。
これによれば、人の行動に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して状態観測部に出力し、また、人の行動に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して状態観測部に出力することができる。

0097

上記のロボットシステムでは、さらに、前記マイクから入力された前記人の音声を認識する音声認識部を有し、前記作業意図認識部は、前記音声認識部に基づいて前記ロボットの動作を補正することが好ましい。
これによれば、人の行動及び脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して状態観測部に出力し、また、人の行動及び脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して状態観測部に出力することができる。

0098

上記のロボットシステムでは、さらに、前記作業意図認識部による作業意図の認識に基づいて、前記人に対する質問を生成する質問生成部と、前記質問生成部により生成された前記質問を前記人に伝えるスピーカーと、を有することが好ましい。
これによれば、人の行動及び脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して状態観測部に出力し、また、人の行動及び脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して状態観測部に出力することができる。

0099

上記のロボットシステムでは、前記マイクは、前記スピーカーからの前記質問に対する前記人の返答を受け取り、前記音声認識部は、前記マイクを介して入力された前記人の返答を認識して、前記作業意図認識部に出力することが好ましい。
これによれば、人の行動及び脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して状態観測部に出力し、また、人の行動及び脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して状態観測部に出力することができる。

0100

上記のロボットシステムでは、前記機械学習器の前記状態観測部に入力される前記状態変数は、前記作業意図認識部の出力であり、前記作業意図認識部は、前記人の行動に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の行動に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の脈拍数に基づくプラス報酬を、プラス報酬に設定される状態変数に変換して前記状態観測部に出力し、前記人の脈拍数に基づくマイナス報酬を、マイナス報酬に設定される状態変数に変換して前記状態観測部に出力することが好ましい。
これによれば、状態変数に基づく動作の機械学習だけでなく、人の行動及び人の脈拍数に基づいてロボットの動作を補正あるいは改善することができ、さらに、作業意図認識部が人と会話することで、より一層、ロボットの動作を改善することが可能になる。

0101

上記のロボットシステムでは、前記機械学習器は、所定の時点までに学習した動作を、それ以上学習しないように設定することができることが好ましい。
これによれば、例えば、ロボットの動作の学習が十分に行われ、それ以上様々なことを試さないあるいは学習しない方が作業を安定して行うことができる。

0102

上記のロボットシステムでは、前記ロボット制御部は、前記触覚センサーにより軽微な衝突を感知したとき、前記ロボットを停止することが好ましい。
これによれば、安全性を確保するために、例えば、触覚センサーにより軽微な衝突を感知したときにロボットを停止することができる。

0103

機械学習方法は、人とロボットとが協働して作業を行う前記ロボットの動作を学習する機械学習方法であって、前記人と前記ロボットとが協働して作業を行うとき、前記ロボットの状態を示す状態変数を観測し、前記ロボットを制御する制御データ及び前記状態変数、前記人の行動、並びに前記人の脈拍数に基づいて報酬を計算し、前記報酬及び前記状態変数に基づいて、前記ロボットの動作を制御する行動価値関数を更新することを特徴とする。
これによれば、ロボットへ報酬を与える場合、状態変数に基づく動作の機械学習だけでなく、人の行動及び人の脈拍数に基づいてロボットの動作を補正あるいは改善することができる。これにより、機械学習方法において、ロボットとの協働作業において人がロボットへ報酬を与える場合の誤操作を防ぐことができる。

0104

1…作業者(人) 2…機械学習器3…ロボット(協働ロボット) 12…脈波センサー21…状態観測部 22…報酬計算部 23…価値関数更新部 24…意思決定部 30…ロボット制御部 31…基台部分32…ハンド部分41…触覚センサー42…マイク 43…入力装置44…カメラ45,45a,45b…力センサー46…スピーカー51…作業意図認識部 52…音声認識部 53…質問生成部 A…ワーク。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ