図面 (/)
課題
解決手段
クラスタリング装置10において、特徴抽出部11は、転移学習を導入した機械学習に用いられる複数の転移候補データ41の各々から特徴を抽出して複数の転移候補特徴データ42を生成する。分類部12は、複数の転移候補特徴データ42の各々が有する特徴量に基づいて、転移候補特徴データ42を、第1グループを含む複数のグループに分類する。事前ドメイン決定部14は、第1グループに分類された転移候補特徴データ42の数が所定の分類継続基準値以下である場合、第1グループを事前ドメインに決定し、転移候補特徴データ42の数が分類継続基準値よりも大きい場合、第1グループに分類された転移候補特徴データ42をさらに分類することを決定する。
概要
背景
画像データから人物を検出する処理や、センサによる計測データの解析処理などに機械学習が用いられている。
例えば、監視カメラにより撮影された画像から人物を検出する場合、人物の特徴を学習することにより生成された識別用特徴データが用いられる。具体的には、機械学習装置は、人物が撮影された複数の画像(複数の学習サンプル)を用いて人物の特徴を学習し、学習結果を反映した識別用特徴データを生成する。人物検出装置は、機械学習装置により生成された識別用特徴データを用いて、監視カメラにより撮影された画像から人物を検出する。
監視カメラの設置環境が学習サンプルを収集する環境と異なる場合、監視カメラにより撮影される人物の見え方は、学習サンプルにおける人物の見え方と異なる。つまり、監視カメラにより撮影される人物の特徴が、学習サンプルに含まれる人物の特徴と異なる。従って、監視カメラにより生成された画像から人物を検出するにあたって学習サンプルから生成された識別用特徴データを用いた場合、人物の検出精度が低下する。人物の検出精度を向上させる場合、カメラの設置環境に合わせて、膨大な数の学習サンプルを準備しなければならず、コストが増大する。
そこで、転移学習を導入した機械学習の手法が提案されている。転移学習は、学習サンプルの収集環境と異なる環境から得られたサンプルを事前に学習し、事前学習により得られた検出対象の特徴を、学習サンプルの学習結果に適用(転移)させる手法である。転移学習は、学習サンプルの数を抑制することができるため、識別用特徴データを生成するためのコストを低減することができる。
転移学習において、事前に学習されるサンプルの集合は、事前ドメインと呼ばれる。事前ドメインの学習結果が転移される対象は、目標ドメインと呼ばれる。監視カメラにより撮影された画像から人物を検出する場合は、目標ドメインは、監視カメラの設置環境に合わせて生成された学習サンプルの集合である。事前ドメインは、監視カメラの設置環境と異なる環境で生成された学習サンプルの集合である。
概要
事前ドメインを作成するために収集された複数のデータから、複数の事前ドメインを効率的に作成する技術を提供することを課題とする。クラスタリング装置10において、特徴抽出部11は、転移学習を導入した機械学習に用いられる複数の転移候補データ41の各々から特徴を抽出して複数の転移候補特徴データ42を生成する。分類部12は、複数の転移候補特徴データ42の各々が有する特徴量に基づいて、転移候補特徴データ42を、第1グループを含む複数のグループに分類する。事前ドメイン決定部14は、第1グループに分類された転移候補特徴データ42の数が所定の分類継続基準値以下である場合、第1グループを事前ドメインに決定し、転移候補特徴データ42の数が分類継続基準値よりも大きい場合、第1グループに分類された転移候補特徴データ42をさらに分類することを決定する。
目的
本発明は、上記問題点に鑑み、事前ドメインを作成するために収集された複数のデータから、複数の事前ドメインを効率的に作成する技術を提供する
効果
実績
- 技術文献被引用数
- 0件
- 牽制数
- 0件
この技術が所属する分野
請求項1
転移学習を導入した機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するクラスタリング用特徴抽出部と、前記クラスタリング用特徴抽出部により生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類する分類部と、前記分類部により前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定し、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定する事前ドメイン決定部と、を備えるクラスタリング装置。
請求項2
請求項1に記載のクラスタリング装置であって、事前ドメイン決定部は、前記第1グループに分類された転移候補特徴データの数が所定の破棄基準値よりも小さい場合、前記第1グループを事前ドメインから除外するクラスタリング装置。
請求項3
請求項1又は2に記載のクラスタリング装置であって、さらに、前記第1グループに分類された転移候補特徴データの各々が有する特徴量に基づいて、前記第1グループに分類された転移候補特徴データの分散を計算する分散計算部、を備え、前記事前ドメイン決定部は、前記第1グループに分類された転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記分散計算部により計算された分散を所定の分散基準値と比較し、前記分散計算部により計算された分散が前記分散基準値以下である場合、前記第1グループを事前ドメインに決定するクラスタリング装置。
請求項4
請求項1ないし3のいずれかに記載のクラスタリング装置であって、前記分類部は、前記第1グループに分類された転移候補特徴データの数が所定の変更基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データを第1の数の下位グループにさらに分類し、前記分類部は、前記第1グループに分類された転移候補特徴データの数が前記変更基準値以下である場合、前記第1グループに分類された転移候補特徴データを前記第1の数よりも小さい第2の数の下位グループに分類するクラスタリング装置。
請求項5
請求項1ないし4のいずれかに記載のクラスタリング装置であって、前記分類継続基準値が、前記クラスタリング用特徴抽出部により抽出される転移候補特徴データの次元数に基づいて決定されるクラスタリング装置。
請求項6
転移学習を導入した機械学習を実行して検出対象を学習する機械学習装置であって、前記機械学習に用いられる複数の転移候補データを分類して前記機械学習に用いられる事前ドメインを生成するクラスタリング装置と、前記クラスタリング装置により生成された事前ドメインが前記機械学習に有効であるか否かを評価する事前ドメイン評価装置と、を備え、前記クラスタリング装置は、前記複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するクラスタリング用特徴抽出部と、前記クラスタリング用特徴抽出部により生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類する分類部と、前記分類部により前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定し、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定する事前ドメイン決定部と、を備え、前記事前ドメイン評価装置は、前記事前ドメイン決定部により前記第1グループが前記事前ドメインに決定された場合、前記第1グループに含まれる転移候補特徴データと、各々が所定の条件下における検出対象の特徴を有する学習用データを含む目標ドメインとを用いて前記機械学習を実行して、前記事前ドメインを評価するための評価用識別器を生成する試行転移学習部と、前記試行転移学習部により生成された試行転移識別部に基づいて、前記第1グループが前記機械学習に有効であるか否かを判断する判断部と、を備える機械学習装置。
請求項7
請求項6に記載の機械学習装置であって、前記事前ドメイン評価装置は、さらに、前記目標ドメインに含まれる学習用データの各々が有する特徴を抽出して、学習用特徴データを生成する学習用特徴抽出部、を備え、前記試行転移学習部は、前記学習用特徴データを用いて前記機械学習を実行し、前記学習用特徴抽出部が学習用データから特徴を抽出する条件は、前記クラスタリング用特徴抽出部が前記複数の転移候補データの各々から特徴を抽出する条件と同じである機械学習装置。
請求項8
請求項7に記載の機械学習装置であって、さらに、前記目標ドメインと、前記事前ドメイン評価装置により前記機械学習に有効であると判断された全ての事前ドメインとを用いて前記機械学習を実行して転移識別部を生成する選択学習装置、を備える機械学習装置。
請求項9
転移学習を導入した機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するステップと、生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類するステップと、前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定するステップと、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定するステップと、を備えるクラスタリング方法。
請求項10
転移学習を導入した機械学習に用いられる複数の転移候補データの各々を分類するクラスタリング方法をコンピュータに実行させるためのプログラムであって、前記機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するステップと、生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類するステップと、前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定するステップと、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定するステップと、を備えるクラスタリング方法をコンピュータに実行させるためのプログラム。
技術分野
背景技術
0003
例えば、監視カメラにより撮影された画像から人物を検出する場合、人物の特徴を学習することにより生成された識別用特徴データが用いられる。具体的には、機械学習装置は、人物が撮影された複数の画像(複数の学習サンプル)を用いて人物の特徴を学習し、学習結果を反映した識別用特徴データを生成する。人物検出装置は、機械学習装置により生成された識別用特徴データを用いて、監視カメラにより撮影された画像から人物を検出する。
0004
監視カメラの設置環境が学習サンプルを収集する環境と異なる場合、監視カメラにより撮影される人物の見え方は、学習サンプルにおける人物の見え方と異なる。つまり、監視カメラにより撮影される人物の特徴が、学習サンプルに含まれる人物の特徴と異なる。従って、監視カメラにより生成された画像から人物を検出するにあたって学習サンプルから生成された識別用特徴データを用いた場合、人物の検出精度が低下する。人物の検出精度を向上させる場合、カメラの設置環境に合わせて、膨大な数の学習サンプルを準備しなければならず、コストが増大する。
0005
そこで、転移学習を導入した機械学習の手法が提案されている。転移学習は、学習サンプルの収集環境と異なる環境から得られたサンプルを事前に学習し、事前学習により得られた検出対象の特徴を、学習サンプルの学習結果に適用(転移)させる手法である。転移学習は、学習サンプルの数を抑制することができるため、識別用特徴データを生成するためのコストを低減することができる。
0006
転移学習において、事前に学習されるサンプルの集合は、事前ドメインと呼ばれる。事前ドメインの学習結果が転移される対象は、目標ドメインと呼ばれる。監視カメラにより撮影された画像から人物を検出する場合は、目標ドメインは、監視カメラの設置環境に合わせて生成された学習サンプルの集合である。事前ドメインは、監視カメラの設置環境と異なる環境で生成された学習サンプルの集合である。
先行技術
0007
Xiaoxiao Shi, Wei Fan, Jiangtao Ren, ”Actively Transfer Domain Knowledge”, [online], [平成27年3月1日検索],インターネットPAPERS/ecml08transfer.pdf>
発明が解決しようとする課題
0008
転移学習を用いた場合、負の転移と呼ばれる現象が起こることが知られている。負の転移とは、転移学習のために事前に学習する事前ドメインが目標ドメインに含まれるデータと大きく異なるデータを含んでいた場合に、学習の精度が低下する現象である。このため、転移学習を導入した機械学習を実行する前に、転移学習に有効な事前ドメインを特定し、特定した事前ドメインのみを機械学習に用いることが望ましい。
0009
非特許文献1には、事前ドメインが転移学習に有効であるか否かを判断する方法が開示されている。具体的には、非特許文献1に係る方法は、事前ドメインのみを用いて学習した識別器(事前識別器)と、事前ドメインと目標ドメインとを用いた転移学習を行った識別器(転移識別器)とにサンプルデータをそれぞれ入力する。サンプルデータに対する事前識別器による識別結果が転移識別器による識別結果と同じである場合、この事前ドメインは、転移学習に有効であると判断される。
0010
この結果、非特許文献1に開示されている方法において、転移学習に有効でないと判断された事前ドメインは、転移学習を導入した機械学習に用いられない。転移学習に導入される予定の事前ドメインの数が1つであり、この事前ドメインが転移学習に有効でないと判断された場合、転移学習を導入した機械学習を実行することができない。
0011
従って、事前ドメインが転移学習に有効か否かを判断する場合、複数の事前ドメインを予め準備しておくことが望ましい。しかし、収集されたサンプルを人間が1つずつ確認して、複数の事前ドメインを分類する方法は、現実的でない。また、収集されたデータから複数の事前ドメインを効率的に作成する技術は開発されていない。
0012
本発明は、上記問題点に鑑み、事前ドメインを作成するために収集された複数のデータから、複数の事前ドメインを効率的に作成する技術を提供することを課題とする。
課題を解決するための手段
0013
上記課題を解決するため、請求項1に係る発明は、クラスタリング装置であって、転移学習を導入した機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するクラスタリング用特徴抽出部と、前記クラスタリング用特徴抽出部により生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類する分類部と、前記分類部により前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定し、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定する事前ドメイン決定部と、を備える。
0014
請求項2記載の発明は、請求項1に記載のクラスタリング装置であって、事前ドメイン決定部は、前記第1グループに分類された転移候補特徴データの数が所定の破棄基準値よりも小さい場合、前記第1グループを事前ドメインから除外する。
0015
請求項3記載の発明は、請求項1又は2に記載のクラスタリング装置であって、さらに、前記第1グループに分類された転移候補特徴データの各々が有する特徴量に基づいて、前記第1グループに分類された転移候補特徴データの分散を計算する分散計算部、を備え、前記事前ドメイン決定部は、前記第1グループに分類された転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記分散計算部により計算された分散を所定の分散基準値と比較し、前記分散計算部により計算された分散が前記分散基準値以下である場合、前記第1グループを事前ドメインに決定する。
0016
請求項4記載の発明は、請求項1ないし3のいずれかに記載のクラスタリング装置であって、前記分類部は、前記第1グループに分類された転移候補特徴データの数が所定の変更基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データを第1の数の下位グループにさらに分類し、前記分類部は、前記第1グループに分類された転移候補特徴データの数が前記変更基準値以下である場合、前記第1グループに分類された転移候補特徴データを前記第1の数よりも小さい第2の数の下位グループに分類する。
0017
請求項5記載の発明は、請求項1ないし5のいずれかに記載のクラスタリング装置であって、前記分類継続基準値が、前記クラスタリング用特徴抽出部により抽出される転移候補特徴データの次元数に基づいて決定される。
0018
請求項6記載の発明は、転移学習を導入した機械学習を実行して検出対象を学習する機械学習装置であって、前記機械学習に用いられる複数の転移候補データを分類して前記機械学習に用いられる事前ドメインを生成するクラスタリング装置と、前記クラスタリング装置により生成された事前ドメインが前記機械学習に有効であるか否かを評価する事前ドメイン評価装置と、を備え、前記クラスタリング装置は、前記複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するクラスタリング用特徴抽出部と、前記クラスタリング用特徴抽出部により生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類する分類部と、前記分類部により前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定し、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定する事前ドメイン決定部と、を備え、前記事前ドメイン評価装置は、前記事前ドメイン決定部により前記第1グループが前記事前ドメインに決定された場合、前記第1グループに含まれる転移候補特徴データと、各々が所定の条件下における検出対象の特徴を有する学習用データを含む目標ドメインとを用いて前記機械学習を実行して、前記事前ドメインを評価するための評価用識別器を生成する試行転移学習部と、前記試行転移学習部により生成された試行転移識別部に基づいて、前記第1グループが前記機械学習に有効であるか否かを判断する判断部と、を備える。
0019
請求項7記載の発明は、請求項6に記載の機械学習装置であって、前記事前ドメイン評価装置は、さらに、前記目標ドメインに含まれる学習用データの各々が有する特徴を抽出して、学習用特徴データを生成する学習用特徴抽出部、を備え、前記試行転移学習部は、前記学習用特徴データを用いて前記機械学習を実行し、前記学習用特徴抽出部が学習用データから特徴を抽出する条件は、前記クラスタリング用特徴抽出部が前記複数の転移候補データの各々から特徴を抽出する条件と同じである。
請求項8記載の発明は、請求項7に記載の機械学習装置であって、さらに、前記目標ドメインと、前記事前ドメイン評価装置により前記機械学習に有効であると判断された全ての事前ドメインとを用いて前記機械学習を実行して転移識別部を生成する選択学習装置、
を備える。
請求項9記載の発明は、クラスタリング方法であって、転移学習を導入した機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するステップと、生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類するステップと、前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定するステップと、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定するステップと、を備える。
0020
請求項10記載の発明は、転移学習を導入した機械学習に用いられる複数の転移候補データの各々を分類するクラスタリング方法をコンピュータに実行させるためのプログラムであって、前記機械学習に用いられる複数の転移候補データの各々から特徴を抽出して複数の転移候補特徴データを生成するステップと、生成された複数の転移候補特徴データの各々が有する特徴に基づいて、各転移候補特徴データを第1グループ及び第2グループを含む複数のグループに分類するステップと、前記第1グループに分類された転移候補特徴データの数が所定の分類継続基準値以下である場合、前記第1グループを前記機械学習に用いられる事前ドメインに決定するステップと、前記転移候補特徴データの数が前記分類継続基準値よりも大きい場合、前記第1グループに分類された転移候補特徴データをさらに分類することを決定するステップと、を備えるクラスタリング方法をコンピュータに実行させるためのプログラムである。
発明の効果
0021
本発明の機械学習装置において、複数の転移候補データから生成された複数の転移候補特徴データは、各々の特徴に基づいて、第1グループ及び第2グループを含む複数のグループに分類される。第1グループに分類された転移候補特徴データの数が分類継続基準値以下である場合、第1グループは、事前ドメインに決定され、転移候補特徴データの数が分類継続基準値よりも大きい場合、第1グループに分類された転移候補特徴データはさらに分類される。これにより、転移学習を導入した機械学習に用いられる事前ドメインを効率的に作成することができる。
図面の簡単な説明
0022
本発明の実施の形態に係る機械学習装置の構成を示す機能ブロック図である。
図1に示すクラスタリング装置の構成を示す機能ブロック図である。
図1に示す事前ドメイン評価装置の構成を示す機能ブロック図である。
図1に示す選択学習装置の構成を示す機能ブロック図である。
図1に示す機械学習装置の動作を示すフローチャートである。
図1に示す転移候補データから生成される転移候補特徴データ及び学習用データから生成される学習用特徴データの分布の一例を示す図である。
図6に示す転移候補特徴データを分類することにより生成される事前ドメインの範囲を示す図である。
図5に示す事前ドメイン生成処理のフローチャートである。
図5に示す事前ドメイン生成処理において作成される分類木の初期構造を示す図である。
図9に示す分類木にノードが追加された場合の構造の一例を示す図である。
図5に示す事前ドメイン生成処理が終了したときにおける分類木の構造の一例を示す図である。
図5に示す事前ドメイン評価処理のフローチャートである。
図11に示す分類木の変形例を示す図である。
実施例
0023
以下、図面を参照しつつ、本発明の実施の形態を詳しく説明する。
0024
[1.機械学習装置100の構成]
[1.1.全体構成]
図1は、本発明の実施の形態に係る機械学習装置100の構成を示す機能ブロック図である。図1に示す機械学習装置100は、記憶装置400に記憶された複数の転移候補データ41と、記憶装置500に記憶された目標ドメイン50Aとを用いて、転移学習を導入した機械学習を実行する。機械学習装置100は、上記の機械学習の結果として検出対象を識別するための転移識別データ80を生成する。
0025
本実施の形態において、検出対象は、人物である。機械学習装置100により生成される転移識別データ80は、人物検出装置(図示省略)がカメラにより撮影された画像から人物を検出するために用いられる。機械学習装置100は、転移識別データ80を生成するための学習アルゴリズムとして、転移学習を導入したランダムフォレストを用いる。従って、転移識別データ80は、複数の決定木により構成されるデータ群である。
0026
記憶装置500は、目標ドメイン50Aを記憶する。目標ドメイン50Aは、所定の条件下における検出対象(人物)の特徴を有する複数の画像のグループである。目標ドメイン50Aは、学習用データ51,51,・・・を含む。学習用データ51は、例えば、俯角0°で人物を撮影した画像である。目標ドメイン50Aは、選択学習装置30が転移学習を導入した機械学習を実行して転移識別データ80を生成する際に用いられる。
0027
記憶装置400は、転移候補データ41,41,・・・を記憶する。複数の転移候補データ41は、人物が撮影された画像であり、人物を撮影した画像をインターネット上で検索することにより収集される。転移候補データ41,41,・・・の各々の特徴に基づいて転移候補データ41,41,・・・を分類することにより、事前ドメイン45,45,・・・が生成される。事前ドメイン45,45,・・・のうち、転移学習に有効と判断された事前ドメイン45が、転移識別データ80の生成に用いられる。
0028
機械学習装置100は、クラスタリング装置10と、事前ドメイン評価装置20と、選択学習装置30とを備える。
0029
クラスタリング装置10は、転移候補データ41の各々の特徴に基づいて転移候補データ41を分類して、事前ドメイン45を生成する。
0030
事前ドメイン評価装置20は、クラスタリング装置10により生成された事前ドメイン45の各々が転移学習に有効であるか否かを評価する。事前ドメイン評価装置20は、各事前ドメイン45の評価結果を示す評価結果データ253Aを選択学習装置30に出力する。
0031
選択学習装置30は、評価結果データ253Aに基づいて、事前ドメイン45のうち、事前ドメイン評価装置20により転移学習に有効と判断された事前ドメイン45を選択する。選択学習装置30は、選択した事前ドメイン45と、記憶装置500に記憶された目標ドメイン50Aとを用いて、転移学習を導入した機械学習を実行する。その結果、転移識別データ80が生成される。
0032
[1.2.クラスタリング装置10の構成]
図2は、図1に示すクラスタリング装置10の構成を示す機能ブロック図である。図2に示すように、クラスタリング装置10は、特徴抽出部11と、分類部12と、分散計算部13と、事前ドメイン決定部14とを備える。
0033
クラスタリング装置10は、記憶装置400から複数の転移候補データ41を入力する。特徴抽出部11は、クラスタリング装置10に入力された複数の転移候補データ41の各々からHOG(Histograms of Oriented Gradients)特徴量を抽出して、転移候補データ41の各々に対応する複数の転移候補特徴データ42を生成する。以下、特に説明のない限り、HOG特徴量を単に「特徴量」と記載する。
0034
分類部12は、特徴抽出部11から複数の転移候補特徴データ42を入力する。分類部12は、入力した複数の転移候補特徴データ42の各々に含まれる特徴量に基づいて、転移候補特徴データ42を複数のグループに分類する。転移候補特徴データ42の分類には、デンシティフォレスト(Density Forest)と呼ばれるアルゴリズムが用いられる。分類部12は、1本の分類木を作成しながら、複数の転移候補特徴データ42を分類する。分類木を構成するノードの各々が、各グループに対応する。
0035
分散計算部13は、各ノードの共分散を計算する。各ノードの共分散は、各ノードに属する転移候補特徴データ42が有する特徴量から計算される。各ノードの共分散は、各ノードに属する転移候補特徴データ42を分類する際に用いられる。また、共分散は、分類木を構成するノードを事前ドメインに決定するか否かを判断するために用いられる。
0036
事前ドメイン決定部14は、分類木を構成するノードが事前ドメインとしての条件を満たしているか否かを判断する。判断対象のノードに属する転移候補特徴データ42の数が、予め設定された分類継続基準値以下である場合、事前ドメイン決定部14は、判断対象のノードを事前ドメインに決定する。
0037
判断対象のノードに属する転移候補特徴データ42の数が、分類継続基準値より大きい場合、事前ドメイン決定部14は、判断対象のノードの共分散を予め設定された分散基準値と比較する。判断対象のノードの共分散が分散基準値以下である場合、事前ドメイン決定部14は、判断対象のノードを事前ドメインに決定する。一方、判断対象のノードの分散が分散基準値より大きい場合、事前ドメイン決定部14は、判断対象のノードに属する転移候補特徴データ42をさらに分類することを決定する。
0038
[1.3.事前ドメイン評価装置20の構成]
図3は、図1に示す事前ドメイン評価装置20の構成を示す機能ブロック図である。図3に示すように、事前ドメイン評価装置20は、一時記憶部21と、特徴抽出部22と、試行転移学習部23と、比較学習部24と、評価部25とを備える。
0039
事前ドメイン評価装置20は、記憶装置400に記憶された目標ドメイン50Aを入力し、クラスタリング装置10により生成された事前ドメイン45を入力する。
0040
一時記憶部21は、クラスタリング装置10から入力した事前ドメイン45を一時的に記憶する。
0041
特徴抽出部22は、事前ドメイン評価装置20に入力された目標ドメイン50Aに含まれる学習用データ51,51,・・・の各々から特徴量を抽出して、各学習用データ51に対応する複数の学習用特徴データ52を生成する。特徴抽出部22により生成された学習用特徴データ52は、目標ドメイン50Bを構成する。
0042
試行転移学習部23は、目標ドメイン50Bを特徴抽出部22から取得する。試行転移学習部23は、事前ドメイン45のうちいずれか1つの事前ドメイン(注目事前ドメイン)を評価対象として一時記憶部21から取得する。試行転移学習部23は、取得した目標ドメイン50A及び注目事前ドメインを用いて、注目事前ドメインの転移学習の有効性を評価するための機械学習(試行転移学習)を実行する。転移学習を導入したランダムフォレストが、試行転移学習のアルゴリズムとして用いられる。試行転移学習の結果、注目事前ドメインに対応する試行転移識別部63が生成される。試行転移識別部63の実体は、複数の決定木により構成されるデータ群である。試行転移識別部63は、事前ドメイン45ごとに生成される。
0043
比較学習部24は、注目事前ドメインのみを利用して、比較用の機械学習(比較学習)を実行する。転移学習が導入されないランダムフォレストが、比較学習のアルゴリズムとして用いられる。比較学習の結果、注目事前ドメインに対応する比較識別部64を生成する。比較識別部64の実体は、複数の決定木を構成するデータ群である。比較識別部64は、事前ドメイン45ごとに生成される。
0044
評価部25は、試行転移識別部63及び比較識別部64による各々の識別結果を用いて、注目事前ドメインが転移学習に有効であるか否かを判断する。評価部25は、競合値計算部251と、信頼度計算部252と、転移評価部253とを備える。
0045
競合値計算部251は、比較識別部64によるサンプルデータの識別結果を試行転移識別部63によるサンプルデータの識別結果と比較する。サンプルデータは、目標ドメイン50Bに含まれる学習用特徴データ52及び注目事前ドメインに含まれる転移候補特徴データ42のうちいずれかである。競合値計算部251は、比較結果に基づいて、競合値251Aを計算する。競合値251Aは、比較識別部64による識別結果と、試行転移識別部63による識別結果とが一致しない度合いを示す。
0047
転移評価部253は、競合値251A及び信頼度252Aに基づいて、注目事前ドメインが転移学習に有効であるか否かを評価する。転移評価部253は、事前ドメイン45の各々の評価を示す評価結果データ253Aを選択学習装置30へ出力する。
0048
[1.4.選択学習装置30の構成]
図4は、図1に示す選択学習装置30の構成を示す機能ブロック図である。図4に示すように、選択学習装置30は、事前ドメイン選択部31と、特徴抽出部32と、転移学習部33とを備える。
0049
事前ドメイン選択部31は、クラスタリング装置10から事前ドメイン45を入力し、評価結果データ253Aを事前ドメイン評価装置20から入力する。事前ドメイン選択部31は、入力した評価結果データ253Aに基づいて、クラスタリング装置10により生成された事前ドメイン45のうち、転移学習に有効と評価された事前ドメイン45を選択する。
0050
特徴抽出部32は、記憶装置500に記憶された目標ドメイン50Aを取得する。特徴抽出部32は、特徴抽出部22と同様に、取得した目標ドメイン50Aに含まれる学習用データ51,51,・・・の各々から特徴量を抽出して目標ドメイン50Bを生成する。
0051
転移学習部33は、目標ドメイン50Bと、事前ドメイン選択部31により選択された事前ドメイン45とを用いて、転移学習を導入した機械学習を実行する。転移学習部33が用いる学習アルゴリズムは、試行転移学習部23が用いる学習アルゴリズムと同じである。転移学習部33は、転移学習を導入した機械学習の結果として、転移識別データ80を生成する。
0052
[2.動作概略]
図5は、機械学習装置100の動作の概略を示すフローチャートである。図5に示すように、機械学習装置100において、クラスタリング装置10は、記憶装置400に記憶された転移候補データ41,41,・・・から事前ドメイン45を生成する事前ドメイン生成処理を実行する(ステップS1)。
0053
クラスタリング装置10により生成される事前ドメイン45の数は、特に限定されない。事前ドメイン45の各々は、転移候補データ41から特徴量を抽出することにより生成された転移候補特徴データ42を有する。
0054
事前ドメイン評価装置20は、クラスタリング装置10により生成された事前ドメイン45の各々が転移学習に有効であるか否かを判断する事前ドメイン評価処理を実行する(ステップS2)。事前ドメイン評価装置20は、ステップS2の結果として、評価結果データ253Aを生成する。評価結果データ253Aは、クラスタリング装置10により生成された事前ドメイン45のうち、転移学習に有効と判断された事前ドメイン45を特定したデータである。
0055
選択学習装置30において、事前ドメイン選択部31は、評価結果データ253Aに基づいて、クラスタリング装置10により生成された事前ドメイン45の中から、転移学習に有効と判断された事前ドメイン45を選択する(ステップS3)。
0056
特徴抽出部32(図4参照)は、記憶装置500から目標ドメイン50Aを取得する。特徴抽出部32は、取得した目標ドメイン50Aに含まれる学習用データ51の各々から特徴量を抽出して、複数の学習用特徴データ52を生成する(ステップS4)。特徴抽出部32により実行される処理は、図3に示す特徴抽出部22により実行される処理と同じである。つまり、特徴抽出部32は、複数の学習用特徴データ52により構成される目標ドメイン50Bを生成する。
0057
転移学習部33は、事前ドメイン選択部31により選択された事前ドメイン45と、特徴抽出部32により生成された目標ドメイン50Bとを用いて、転移学習を導入した機械学習を実行する(ステップS5)。転移学習部33は、試行転移学習部23が用いる学習アルゴリズムと同じ学習アルゴリズム(転移学習を導入したランダムフォレスト)を用いる。これにより、複数の決定木を示すデータ群である転移識別データ80が生成される。
0058
以下、事前ドメイン生成処理(ステップS1)及び事前ドメイン評価処理(ステップS2)が実行される理由を説明する。
0059
図6は、目標ドメイン50B及び転移候補特徴データ42の分布の一例を示す図である。図6は、転移候補特徴データ42及び学習用特徴データ52の特徴量の次元数が2である場合を例にして、転移候補特徴データ42の分布と、目標ドメイン50Bを構成する学習用特徴データ52の分布とを示している。
0060
目標ドメイン50Bは、学習用データ51から特徴量を抽出することにより生成された学習用特徴データ52を含む。複数の学習用データ51は、上述のように、俯角0°で撮影した人物を含む画像であるため、互いに類似する特徴を有する。従って、図6に示す2次元空間において、学習用特徴データ52のばらつきは小さく、目標ドメイン50Bは、比較的狭い領域に限定される。
0061
一方、転移候補特徴データ42の分布は、学習用特徴データ52に比べてばらつきが大きい。転移候補データ41は、インターネット上で検出対象(人物)を検索することにより収集されるため、転移候補データ41の人物の撮影条件は、様々である。転移候補特徴データ42は、転移候補データ41から特徴量を抽出することにより生成される。従って、転移候補特徴データ42は、図6に示す2次元空間全体に広がり、その位置はランダムである。
0062
ここで、転移学習を導入した機械学習について、画像から人物を検出する場合を例に説明する。転移学習を導入した機械学習では、目標ドメインと、事前ドメインとが予め準備される。目標ドメインは、所定の条件下における検出対象の特徴を有する画像のグループである。本実施の形態において、検出対象は人物であり、所定の条件は、検出対象(人物)が俯角0°で撮影された画像に含まれていることである。
0063
事前ドメインは、上記の所定の条件と異なる条件下における検出対象の特徴を有する画像のグループである。事前ドメインは、収集された画像を所定の規則により分類することにより生成される。例えば、収集された各画像の撮影条件がわかっている場合、収集された画像を撮影条件に応じて分類することができる。これにより、事前ドメインは、互いに共通する、又は類似する特徴を有する画像の集合となる。
0064
機械学習装置が転移学習を導入した機械学習を実行する場合、最初に事前ドメインの学習が行われ、次に目標ドメインの学習が行われる。そして、機械学習装置は、俯角0°で撮影された人物の特徴と共通又は類似する特徴を有する画像を特定し、特定した画像が有する特徴を、目標ドメイン50Bに含まれる画像の学習結果に転移させる。これにより、目標ドメインを構成する画像の数を削減することができるとともに、人物の識別精度を向上させることができる。
0065
しかし、ある事前ドメインにおける画像の特徴が、目標ドメインにおける画像の特徴と大きく異なる場合、負の転移が発生する。この理由は、この事前ドメインにおける画像の特徴が、転移学習により、目標ドメインにおける画像の学習結果に反映されるためである。この結果、転移学習を導入した機械学習の結果として生成される識別器の精度が低下する。
0066
図6に示すように、2次元空間全体に広がる全ての転移候補特徴データ42を1つの事前ドメインとした場合、目標ドメイン50Bの領域から離れた転移候補特徴データ42が、転移学習に用いられることになる。この場合、負の転移が発生する可能性が非常に高い。負の転移の発生を防ぐためには、互いに共通する、又は類似する特徴を有する転移候補特徴データ42同士をまとめることにより、事前ドメイン45を生成し、生成した事前ドメイン45が、転移学習を導入した機械学習に有効であるか否かを判断すればよい。事前ドメイン生成処理(ステップS1)は、互いに共通する、又は類似する特徴を有する転移候補特徴データ42の集合である事前ドメイン45を生成するために実行される。
0068
事前ドメイン45A〜45Gの中で、事前ドメイン45A及び45Fは、目標ドメイン50Bと重複していない。従って、事前ドメイン45A及び45Fは、転移学習を導入した機械学習に有効でない。また、事前ドメイン45Dは、目標ドメイン50Bと重複しているが、重複している範囲が他の事前ドメインに比べて少ない。従って、事前ドメイン45Dは、負の転移を発生させる可能性があり、転移学習に有効でない。
0069
このように、事前ドメイン生成処理(ステップS1)により、負の転移を発生させる可能性がある(転移学習に有効でない)事前ドメインが生成される可能性がある。転移学習を導入した機械学習の結果として生成される転移識別器の精度を向上させるためには、転移学習に有効でない事前ドメインを予め除外しておくことが望ましい。このため、事前ドメイン評価処理(ステップS2)は、事前ドメイン生成処理(ステップS1)により生成された事前ドメイン45A〜45Gの中で、転移学習に有効な事前ドメインを特定するために行われる。
0070
[3.事前ドメイン生成処理(ステップS1)]
図8は、事前ドメイン生成処理(ステップS1)のフローチャートである。図8を参照しながら、記憶装置400に記憶された転移候補データ41,41,・・・から事前ドメイン45を生成するクラスタリング装置10の動作を詳しく説明する。
0071
[3.1.HOG特徴量の抽出]
クラスタリング装置10は、記憶装置400に記憶された全ての転移候補データ41を取得する。クラスタリング装置10において、特徴抽出部11(図2参照)は、取得した全ての転移候補データ41の各々からHOG特徴量を抽出する(ステップS101)。これにより、全ての転移候補データ41の各々に対応する複数の転移候補特徴データ42が生成される。
0072
特徴抽出部11は、転移候補データ41からHOG特徴量を抽出する条件を、例えば、以下のように設定する。転移候補データ41の色チャンネルは、グレースケールに設定される。転移候補データ41のサイズは、縦60ピクセル、横30ピクセルに設定される。
0073
HOG特徴量の抽出時のパラメータとして、セル、ブロック、勾配方向数が設定される。セルは、輝度の勾配方向を計算する単位領域である。ブロックは、輝度の勾配方向のヒストグラムを作成する単位領域である。勾配方向数は、0°以上180°以下の範囲における分割数である。
0074
例えば、1セルの大きさは、縦5ピクセル、横5ピクセルに設定される。1ブロックの大きさは、縦3ピクセル、横3ピクセルに設定される。勾配方向数は、9に設定される。勾配方向数が9である場合、各セルの勾配方向は、20°おきに9方向に分割され、9方向のうちいずれかの方向に設定される。この場合、転移候補特徴データ42の次元数は、3240となる。
0075
[3.2.ルートノード35Rにおける分類可否の判断]
図9は、分類部12により生成される分類木35の初期構造を示す図である。分類部12は、転移候補特徴データ42を分類するためのアルゴリズムとしてデンシティフォレストを用いる。デンシティフォレストを用いる場合、通常であれば、複数の分類木が生成されるが、分類部12は、1本の分類木のみを生成する。
0076
分類木35は、転移候補特徴データ42が分類部12により分類される過程で形成される。分類木35を構成するノードのうち、所定の条件を満たすノードが、事前ドメインに決定される。
0077
分類部12は、分類木35のルートノード35Rを作成する(ステップS102)。図9に示すノード35A及び35Bは、ステップS102が実行される時点では生成されない。分類部12は、特徴抽出部11により生成された全ての転移候補特徴データ42を、ルートノード35Rに入力する(ステップS103)。ルートノード35Rに入力される転移候補特徴データ42の数は、30000である。
0078
次に、事前ドメイン決定部14は、分類木35において、全てのノードを分類対象ノードとして選択したか否かを判断する(ステップS104)。ルートノード35Rが分類対象として選択されていないため(ステップS104においてNo)、事前ドメイン決定部14は、ルートノード35Rを分類対象に選択する(ステップS105)。
0079
事前ドメイン決定部14は、ステップS106を実行して、ルートノード35Rが事前ドメインとしての条件を満たしているか否かを判断する。具体的には、事前ドメイン決定部14は、ルートノード35Rに属する転移候補特徴データ42の数を取得する。事前ドメイン決定部14は、取得した転移候補特徴データ42の数が予め設定された分類継続基準値より大きいか否かを判断する(ステップS106)。分類継続基準値は、例えば、9270に設定される。
0080
ルートノード35Rに属する転移候補特徴データ42の数(30000)は、分類継続基準値(9270)より大きい(ステップS106においてYes)。この場合、ルートノード35Rに属する転移候補特徴データ42の数が多すぎるため、ルートノード35Rを事前ドメイン45として用いることができない。
0081
上述のように、1つの事前ドメインが全ての転移候補特徴データ42を含む場合、転移学習を導入した機械学習により生成される転移識別データ80の精度が低下する。ルートノード35Rは、分類継続基準値よりも多い転移候補特徴データ42を含むため、上記1つの事前ドメインと同様に、目標ドメイン50Bの領域から大きく離れた転移候補特徴データ42を数多く含む。この場合、事前ドメイン決定部14は、ルートノード35Rに属する転移候補特徴データ42を分類する条件の1つが満たされていると判断する。
0082
分類継続基準値は、特徴抽出部11により抽出される特徴量の次元数より大きい。例えば、本実施の形態では、分類継続基準値は、転移候補特徴データ42の次元数(3240)の3倍である9720に設定される。
0083
次に、クラスタリング装置10は、ステップS107及びS108を実行して、ルートノード35Rの共分散に基づいて、ルートノード35Rに属する転移候補特徴データ42を分類する条件が満たされているか否かを判断する。
0084
事前ドメイン決定部14は、分類対象のノード(ルートノード35R)の共分散44(図3参照)の計算を分類部12に指示する。分類部12は、事前ドメイン決定部14の指示に応じて、分類対象のノード(ルートノード35R)に属する転移候補特徴データ42を分散計算部13に出力する。分散計算部13は、分類部12から出力された転移候補特徴データ42を用いて、分類対象のノードに属する転移候補特徴データ42の特徴量の共分散13Aを計算する。分散計算部13は、計算した共分散13Aを事前ドメイン決定部14に出力する。
0085
事前ドメイン決定部14は、分散計算部13により計算された共分散13A(ルートノード35Rの共分散)が予め設定された分散基準値よりも大きいか否かを判断する(ステップS108)。共分散13Aは、分散基準値よりも大きいと仮定する(ステップS108においてYes)。
0086
上述のように、ルートノード35Rは全ての転移候補特徴データ42を含んでおり、全ての転移候補特徴データ42のばらつきは非常に大きい。この場合、共分散44は非常に大きいため、事前ドメイン決定部14は、ルートノード35Rに属する転移候補特徴データ42をさらに分類することができると判断する。事前ドメイン決定部14は、ルートノード35Rに属する転移候補特徴データ42の分類を分類部12に指示する。
0087
[3.3.転移候補特徴データ42の分類]
分類部12は、事前ドメイン決定部14の指示に応じて、ルートノード35Rに属する転移候補特徴データ42を分類するために、ルートノード35Rの子ノードとして、ノード35A及び35Bを生成する(ステップS109)。
0088
分類部12は、ルートノード35Rに属する転移候補特徴データ42を、ステップS109で生成したノード35A及び35Bのいずれかに分類する(ステップS110)。具体的には、下記式(1)に示す目的関数Iに基づいて、転移候補特徴データ42の分類先のノードが決定される。
0089
0090
式(1)において、Sは、親ノード(ルートノード35R)である。SLは、2つの子ノードのうち左側のノード(ノード35A)であり、SRは、2つの子ノードのうち右側のノード(ノード35B)である。Λ(S)は、親ノードの共分散であり、Λ(SL)は、左側の子ノードの共分散であり、Λ(SR)は、右側の子ノードの共分散である。
0091
分類部12は、式(1)に示す目的関数Iを計算するために、ルートノード35Rに属する転移候補特徴データ42を暫定的に分類する。具体的には、分類部12は、以下のようにして、転移候補特徴データ42の暫定的な分岐条件を設定する。
0092
転移候補特徴データ42の次元数は、3240である。つまり、転移候補特徴データ42は、3240個の特徴量を有する。分類部12は、3240個の特徴量のうち、k番目(0≦k≦3239)の特徴量をランダムに選択し、k番目の特徴量のしきい値をランダムに設定する。これにより、暫定的な分岐条件が設定される。
0093
分類部12は、設定した分岐条件に基づいて、ルートノード35Rに属する転移候補特徴データ42を、ノード35A又は35Bに暫定的に分類する。分散計算部13は、ノード35Aに分類された転移候補特徴データ42の共分散と、ノード35Bに暫定的に分類された転移候補特徴データ42の共分散とを計算する。ルートノード35Rの共分散は、ステップS105において既に計算されている。分類部12は、これら3つの共分散を用いて、ルートノード35Rの目的関数Iを計算する。
0094
分類部12は、ルートノード35Rにおいて複数の分岐条件を設定する。分類部12は、各分岐条件に対応する目的関数Iを計算するために、各分岐条件に基づいて転移候補特徴データ42を暫定的に分類する。暫定的に分類された転移候補特徴データ42に基づいて、各分岐条件における目的関数Iを計算する。分類部12は、計算した複数の目的関数Iの中で最大の目的関数Iを特定する。分類部12は、最大の目的関数Iに対応する分岐条件で、ルートノード35Rに属する転移候補特徴データ42を分類することを決定する。これにより、ルートノード35Rに属する転移候補特徴データ42は、ノード35A及び35Bのいずれかに分類される。
0095
図10は、ルートノード35Rに属する転移候補特徴データ42が分類された後における分類木35を示す図である。なお、転移候補特徴データ42のノード35A及び35Bへの分類が終了した時点では、ノード35Bの子ノード(ノード35C及び35D)は、生成されていない。
0096
ルートノード35Rに属する30000個の転移候補特徴データ42を分類した結果、7000個の転移候補特徴データ42が、ノード35Aに分類される。23000個の転移候補特徴データ42が、ノード35Bに分類される。これにより、ルートノード35Rに属する転移候補特徴データ42を2つの子ノードに分類するステップS110が終了する。
0097
[3.4.ノード35Aにおける判断]
ルートノード35Rに属する転移候補特徴データ42の分類が終了した後に、事前ドメイン決定部14は、分類対象として全てのノードが選択されたか否かを判断する(ステップS104)。事前ドメイン決定部14は、選択されていないノード35A及び35Bが存在するため(ステップS104において、No)、次の判断対象となるノードを前順で選択する(ステップS105)。具体的には、分類部12は、ノード35Aを選択する。
0098
図10に示すように、ノード35Aに属する転移候補特徴データ42の数は、7000である。ノード35Aに属する転移候補特徴データ42の数が、分類継続基準値(9270)以下であるため(ステップS106においてNo)、事前ドメイン決定部14は、ノード35Aを事前ドメイン45に決定する(ステップS111)。つまり、事前ドメイン決定部14は、ノード35Aに属する転移候補特徴データ42をさらに分類しないことを決定し、ノード35Aをリーフノードに設定する。
0099
[3.5.ノード35Bにおける判断]
次に、事前ドメイン決定部14は、ノード35Bを判断対象として選択する(ステップS105)。ノード35Bに属する転移候補特徴データ42の数は、23000であり、分類継続基準値(9270)よりも大きい(ステップS106においてYes)。また、ノード35Bの共分散は、分散基準値よりも大きいと仮定する(ステップS108においてYes)。この場合、事前ドメイン決定部14は、ノード35Bに属する転移候補特徴データ42をさらに分類することを決定する。
0100
分類部12は、ノード35Bに対する事前ドメイン決定部14の決定に応じて、ノード35Bの子ノード(ノード35C及び35D)を生成する(ステップS109)。分類部12は、ルートノード35Rにおける転移候補特徴データ42の分類と同様に、ノード35Bに属する転移候補特徴データ42を、ノード35C及び35Dのいずれかに分類する(ステップS110)。
0101
図11は、事前ドメイン生成処理(ステップS1)が終了した後の分類木35を示す図である。図11に示すように、ノード35Bに属する転移候補特徴データ42を、ノード35C及び35Dに分類した結果、15000個の転移候補特徴データ42が、ノード35Cに分類され、8000個の転移候補特徴データ42が、ノード35Dに分類される。
0102
ノード35Cに属する転移候補特徴データ42の数は、分類継続基準値(9270)よりも大きい(ステップS106においてYes)。また、ノード35Cの共分散が分散基準値よりも大きいと仮定する(ステップS108においてYes)。この場合、事前ドメイン決定部14は、ノード35Cに属する転移候補特徴データ42をさらに分類することを決定する。ノード35Cに属する転移候補特徴データ42の分類については、後述する。
0103
一方、ノード35Dに属する転移候補特徴データ42の数が分類継続基準値以下であるため(ステップS106においてNo)、事前ドメイン決定部14は、ノード35Dを事前ドメインに決定する。
0104
[3.6.転移候補特徴データ42の分類の終了]
分類部12は、ノード35Cの子ノードとしてノード35E及び35Fを生成し(ステップS109)、ノード35Cに属する転移候補特徴データ42をノード35E及び35Fに分類する(ステップS110)。
0105
ノード35Eに属する転移候補特徴データ42の数は、500であり、分類継続基準値以下である(ステップS106においてNo)。このため、事前ドメイン決定部14は、ノード35Eを事前ドメインに決定する(ステップS111)。
0106
ノード35Fに属する転移候補特徴データ42の数は、14500であり、分類継続基準値よりも大きい(ステップS106においてYes)。一方、ノード35Fの共分散が、分散基準値よりも小さいと仮定する(ステップS108においてNo)。この場合、事前ドメイン決定部14は、ノード35Fに属する転移候補特徴データ42の特徴量の分布のばらつきが非常に小さいと判断する。例えば、ノード35Fに属する転移候補特徴データ42の大半が、同一の画像から生成される場合が考えられる。この場合、事前ドメイン決定部14は、ノード35Fに含まれる転移候補特徴データ42をさらに分類することができないと判断し、ノード35Fを事前ドメインに決定する(ステップS111)。これにより、分類木35を構成する全てのノードを判断対象として選択したため(ステップS104においてYes)、クラスタリング装置10は、ステップS112に進む。
0107
[3.7.事前ドメインの除外]
事前ドメイン決定部14は、事前ドメインに決定された各ノードが有する転移候補特徴データ42の数を確認する。事前ドメイン決定部14は、予め設定された破棄基準値以下の数の転移候補特徴データ42を有するノードがある場合、このノードを事前ドメインから除外する(ステップS112)。破棄基準値は、例えば、転移候補特徴データ42の次元数(3240)に設定される。具体的には、事前ドメインに決定されたノード35Eは、転移候補特徴データ42の数が500であるため、事前ドメインから除外される。
0108
上述のように、学習に用いられる数のデータが次元数よりも少ない場合、生成される識別装置の精度が低下する可能性がある。
0109
分類継続基準値は、特徴抽出部11により抽出される特徴量の次元数より大きい。機械学習において、学習に用いられるデータの数が学習に用いられるデータの次元数よりも少ない場合、学習に用いられるデータの特徴の学習結果が過大に評価され、転移識別データ80の精度が低下する。このため、本実施の形態では、破棄基準値が、転移候補特徴データ42の次元数である3240に設定される。これにより、事前ドメイン45に属する転移候補特徴データ42の数が、転移候補特徴データ42の次元数より少なくなることを防ぐことができる。
0110
また、ある事前ドメインに含まれる転移候補特徴データ42の数が、破棄基準値よりも少ない場合、この事前ドメインに含まれる転移候補特徴データ42は、検出対象の特徴を有していない可能性が高い。
0111
例えば、インターネット上で人物の画像を収集する際に、人物以外の物が撮影された画像が転移候補データ41として誤って取得される場合がある。誤って収集された転移候補データ41から生成された転移候補特徴データ42は、人物の特徴を有する転移候補特徴データ42と異なる特徴を有し、転移学習に有効でない。また、検索条件が人物を撮影した画像であるため、人物以外の物が撮影された画像が転移候補データ41の集合において占める割合は、非常に小さいと想定される。
0112
従って、あるノードに属する転移候補特徴データ42の数が破棄基準値よりも少ない場合、このノードは、誤って収集された転移候補データ41から生成された転移候補特徴データ42により構成されると考えられる。事前ドメイン決定部14は、破棄基準値以下の数の転移候補特徴データ42を有するノードを、事前ドメインから除外する。
0113
この結果、図11に示す分類木35において、ノード35A、35D及び35Fが事前ドメイン45に決定される。クラスタリング装置10は、決定された3つの事前ドメイン45を事前ドメイン評価装置20及び選択学習装置30に出力する。
0114
以上説明したように、クラスタリング装置10は、転移候補データ41の各々から特徴を抽出して複数の転移候補特徴データ42を生成し、分類木35を作成する過程で、複数の転移候補特徴データ42を分類木35のノードに分類する。クラスタリング装置10は、ノードに属する転移候補特徴データ42の数が分類継続基準値以下であるか、ノードに属する転移候補特徴データ42の共分散が分散基準値以下である場合、このノードを事前ドメインに決定する。これにより、互いに類似する、又は共通する特徴を有する転移候補特徴データ42により構成される事前ドメインを生成することができる。
0115
[4.事前ドメイン評価処理(ステップS2)]
図12は、図5に示す事前ドメイン評価処理(ステップS2)のフローチャートである。事前ドメイン評価装置20が、ステップS2に示す処理を開始する際に、試行転移識別部63が試行転移学習部23内に生成されておらず、比較識別部64が比較学習部24内に生成されていない。
0116
[4.1.目標ドメイン50Bの生成]
事前ドメイン評価装置20は、クラスタリング装置10により生成された事前ドメイン45を取得する。具体的には、事前ドメイン評価装置20は、図11に示す分類木35を作成する過程で生成された3つの事前ドメイン45(図11に示すノード35A、35D、35F)を取得する。事前ドメイン評価装置20は、取得した事前ドメイン45を一時記憶部21に記憶する(ステップS201)。
0117
以下、ノード35A、35D及び35Fを、それぞれ「事前ドメイン35A」、「事前ドメイン35D」、「事前ドメイン35F」と記載する。
0118
特徴抽出部22(図3参照)が、記憶装置500に記憶された目標ドメイン50Aを取得する。特徴抽出部22は、取得した目標ドメイン50Aに含まれる学習用データ51の各々から特徴量を抽出することにより、学習用データ51の各々に対応する複数の学習用特徴データ52を生成する(ステップS202)。これにより、複数の学習用特徴データ52により構成される目標ドメイン50Bが生成される。特徴抽出部22は、生成した目標ドメイン50Bを試行転移学習部23に出力する。
0119
特徴抽出部22は、特徴抽出部11(図2参照)が転移候補データ41から転移候補特徴データ42を生成する時と同じ条件で、特徴量の抽出を行う。従って、学習用特徴データ52の次元数は、転移候補特徴データ42の次元数と同じ3240である。この理由については後述する。
0120
事前ドメイン評価装置20は、一時記憶部21に記憶された事前ドメイン45のうち、転移学習に有効か否かを評価する対象となる事前ドメインを1つ選択する(ステップS203)。具体的には、一時記憶部21に記憶されている事前ドメイン35A、35D及び35Fのうち、最初に事前ドメイン35Aが選択される。
0121
[4.2.比較学習及び試行転移学習]
比較学習部24は、ステップS203において選択された事前ドメイン35Aを入力する。比較学習部24は、入力した事前ドメイン35Aを学習する(ステップS204)。比較学習部24の学習アルゴリズムは、転移学習が導入されていないランダムフォレストである。比較学習部24は、ステップS204を実行することにより、事前ドメイン35Aの学習結果を反映した比較識別部64を生成する。比較識別部64は、複数の決定木の構造を示すデータ群である。
0122
試行転移学習部23は、特徴抽出部22から目標ドメイン50Bを取得し、一時記憶部21から事前ドメイン35Aを取得する。試行転移学習部23は、入力した目標ドメイン50B及び事前ドメイン35Aを用いて、転移学習を導入した機械学習を行う(ステップS205)。試行転移学習部23の学習アルゴリズムは、転移学習を導入したランダムフォレストである。試行転移学習部23は、ステップS205を実行することにより、目標ドメイン50A及び事前ドメイン35Aの学習結果を反映した試行転移識別部63を生成する。試行転移識別部63は、複数の決定木の構成を示すデータ群である。試行転移学習部23において用いられる学習アルゴリズム及びドメインが比較学習部24のものと異なるため、試行転移識別部63の構造は、比較識別部64の構造と異なる。
0123
[4.3.事前ドメインの評価(ステップS206)]
評価部25は、試行転移学習部23により生成された試行転移識別部63と比較学習部24により生成された比較識別部64とを用いて、評価対象の事前ドメイン35Aが転移学習に有効であるか否かを判断する(ステップS206)。
0124
評価部25は、転移学習の有効性を判断するために、競合値251A及び信頼度252Aの2種類のパラメータを計算する。評価部25は、信頼度252Aを計算する場合、サンプルグループに含まれるデータの試行転移識別部63による識別結果を利用する。ここで、サンプルグループとは、目標ドメイン50Bに含まれる学習用特徴データ52と、評価対象である事前ドメイン35Aに含まれる転移候補特徴データ42とを合わせた集合である。以下、サンプルグループに含まれるデータを、「サンプルデータ」と記載する。評価部25は、競合値251Aを計算する場合、試行転移識別部63による識別結果に加えて、比較識別部64による識別結果を利用する。
0125
[4.3.1.競合値251Aの計算]
競合値計算部251は、試行転移識別部63により生成される各画像のラベルと、比較識別部64により生成される各画像のラベルとの比較結果に基づいて、競合値251Aを計算する。
0126
試行転移識別部63は、サンプルグループに含まれるサンプルデータのうち、いずれか1つを入力する。試行転移識別部63は、サンプルデータに対して人物の識別処理を行い、識別結果を示すラベル73を生成する。ラベル73の値は、例えば、0又は1である。ラベル73が0である場合、ラベル73は、サンプルデータが人物の特徴を含まないことを示す。ラベル73が1である場合、ラベル73は、サンプルデータが人物の特徴を含むことを示す。試行転移識別部63は、生成したラベル73を競合値計算部251に出力する。
0127
なお、試行転移識別部63は、サンプルデータの識別結果として、ラベル73だけでなく、ラベル73の確からしさを示す確度83を計算する。確度83は、後述する信頼度252Aの計算に用いられる。
0128
比較識別部64は、試行転移識別部63に入力されたサンプルデータと同じデータを入力する。比較識別部64は、サンプルデータに対して人物の識別処理を行い、識別結果を示すラベル74を生成する。ラベル74の値は、ラベル73と同様に、0又は1である。ラベル74が0である場合、ラベル74は、サンプルデータが人物の特徴を含まないことを示す。ラベル74が1である場合、ラベル74は、サンプルデータが人物の特徴を含むことを示す。比較識別部64は、生成したラベル74を競合値計算部251に出力する。
0129
競合値計算部251は、サンプルデータから生成されるラベル73及び74を用いて、競合値251Aを計算する。競合値251Aは、下記式(2)により計算される。
0130
0131
式(2)において、Ec1は、競合値251Aを示す。Xは、サンプルグループを示す。xは、サンプルグループを構成する要素(サンプルデータ)を示す。M(x)は、要素xから生成されたラベル74を示す。T(x)は、要素xから生成されたラベル73を示す。[M(x)≠T(x)]は、ラベル74とラベル73とが一致しなかったサンプルデータの数を示す。|X|は、サンプルグループXを構成する要素の数である。
0132
式(2)により計算される競合値251Aは、同一のサンプルデータから生成されるラベル73及びラベル74が一致しない確率を示す。競合値251Aは、0以上1以下の数値である。競合値251Aが0に近づくほど、競合値251Aは、転移学習における事前ドメイン35Aの有効性が高いことを示す。一方、競合値251Aが1に近づくほど。転移学習における事前ドメイン35Aの有効性が低いことを示す。
0133
目標ドメイン50Bに含まれる学習用特徴データ52と、評価対象の事前ドメイン35Aに含まれる転移候補特徴データ42との相違点が多い場合、事前ドメイン35Aは、転移学習に有効ではない。この場合、競合値251Aは、1に近づく。以下、その理由を説明する。
0134
上述のように、比較学習部24は、事前ドメイン35Aのみを学習する。このため、事前ドメイン35Aの学習結果のみが、比較識別部64に反映される。
0135
一方、試行転移識別部63が、目標ドメイン50A及び事前ドメイン35Aとを用いて転移学習を導入した機械学習を実行している。しかし、目標ドメイン50Bに含まれる学習用特徴データ52と、評価対象の事前ドメイン35Aに含まれる転移候補特徴データ42との相違点が多い場合、事前ドメイン35Aに含まれる転移候補特徴データ42の学習結果が、学習用特徴データ52の学習結果に反映されない。つまり、試行転移識別部63と、比較識別部64とは、互いに異なるドメインを学習することにより生成されたと考えることができる。この場合、試行転移識別部63と、比較識別部64との識別結果が一致しない場合が増加し、競合値251Aが増加する。従って、競合値251Aに基づいて、事前ドメイン35Aが転移学習に有効であるか否かを判断することが可能となる。
0136
[4.3.2.信頼度の計算]
信頼度計算部252は、試行転移識別部63により生成される各画像のラベル73及び確度83に基づいて、信頼度252Aを計算する。信頼度252Aの計算に当たり、比較識別部64によるサンプルデータの識別結果は使用されない。
0137
試行転移識別部63は、上述のように、サンプルデータに対する人物の識別結果を示すラベル73と、ラベル73の確からしさを示す確度83を生成する。確度83は、0以上1以下の値であり、確度83が1に近づくほど、ラベル73が誤りである可能性が小さくなる。
0138
信頼度計算部252は、試行転移識別部63から各サンプルデータのラベル73及び確度83を入力する。信頼度計算部252は、入力した各サンプルデータのラベル73及び確度83を用いて、下記式(3)を計算することにより信頼度252Aを計算する。
0139
0140
上記式(3)において、Ec2は、信頼度252Aを示す。xは、上記式(2)と同様に、サンプルグループXを構成する要素(サンプルデータ)を示す。|X|は、サンプルグループXの要素数である。PT(x)は、要素xの確度83を示す。PT(x)は、サンプルデータが試行転移識別部63を構成する各決定木に入力された場合において、サンプルデータが各決定木において到達したリーフノードに設定されたクラスの確率の平均である。T(x)は、要素xのラベル73を示す。yは、人物の存在を示すラベル(y=1)である。つまり、信頼度252Aは、ラベル73がラベルyと一致する場合に算出された確度83の合計値を、サンプルグループXの要素数で除算した値である。信頼度252Aは、0以上1以下の値であり、1に近いほど、転移学習における事前ドメイン35Aの有効性が高いことを示す。
0141
事前ドメイン35Aの転移候補特徴データ42が、学習用特徴データ52の特徴量と類似する特徴量を有している場合、試行転移学習部23は、試行転移学習により、転移候補特徴データ42の学習結果を学習用特徴データ52の学習結果に転移させる。試行転移識別部63には、学習用特徴データ52と、事前ドメイン35Aの転移候補特徴データ42との学習結果が反映されている。試行転移識別部63は、試行転移学習に用られたサンプルグループの各データに対して識別処理を行った場合、ラベル73は1となり、その確度83も1に近づくと考えられる。従って、学習用特徴データ52と事前ドメイン35Aの転移候補特徴データ42とが類似している場合(事前ドメイン35Aが転移学習において有効である場合)、信頼度252Aは、1に近づく。
0142
[4.3.3.転移評価部253による事前ドメインの評価}
転移評価部253は、競合値251A及び信頼度252Aを入力する。転移評価部253は、入力した競合値251A及び信頼度252Aに基づいて、転移学習における事前ドメイン35Aの有効性を評価する。
0143
転移評価部253は、下記の式(4)を用いて、総合評価値を計算する。
0144
0145
式(4)において、Eは、競合値251A及び信頼度252Aから得られる総合評価値である。事前ドメイン35Aの転移学習における有効性が低下するにつれて、競合値251Aは増加する。一方、信頼度252Aは、逆に低下する。信頼度252Aの傾向を競合値251Aの傾向に合わせるために、1から信頼度252Aを減算した値を、総合評価値の計算に使用している。
0146
上記式(4)により計算された総合評価値は、0以上1以下の値であり、転移学習の有効性が高くなるにつれて0に近づく。転移評価部253は、計算された総合評価値が予め設定されたしきい値よりも小さい場合、事前ドメイン35Aが転移学習において有効であると判断する。
0147
[4.4.次の事前ドメインの指定]
事前ドメイン35Aの転移学習における有効性の評価(ステップS206)が終了した後に、事前ドメイン35Aの有効性の評価に用いられた試行転移識別部63及び比較識別部64が削除される(ステップS207)。事前ドメイン35Aに対応する試行転移識別部63及び比較識別部64は、転移学習における他の事前ドメインの有効性の評価で使用されないためである。
0148
事前ドメイン評価装置20は、一時記憶部21に記憶されている全ての事前ドメインを選択したか否かを判断する(ステップS208)。全ての事前ドメインを選択していない場合(ステップS208においてNo)、事前ドメイン評価装置20は、選択されていない事前ドメインの転移学習における有効性を評価するために、ステップS203に戻る。これにより、転移学習における事前ドメイン35D及び35Fの有効性が評価される。
0149
[4.5.評価結果データ253Aの生成]
全ての事前ドメインが選択された場合(ステップS208においてYes)、転移評価部253は、事前ドメイン35A、35D及び35Fの各々の評価結果を示す評価結果データ253Aを作成する。転移学習に有効と判断される事前ドメインの数は、特に限定されない。転移評価部253は、作成した評価結果データ253Aを選択学習装置30に出力する。
0150
再び、図5を参照する。選択学習装置30において、事前ドメイン選択部31は、評価結果データ253Aに基づいて、クラスタリング装置10により生成された事前ドメイン45の中から、転移学習に有効と判断された事前ドメイン35A、35D及び35Fを選択する(ステップS3)。特徴抽出部32(図4参照)は、記憶装置500から目標ドメイン50Aを取得し、取得した目標ドメイン50Aに含まれる学習用データ51の各々から特徴量を抽出する(ステップS4)。これにより、学習用特徴データ52を含む目標ドメイン50Bが生成される。特徴抽出部32は、特徴抽出部22(図2参照)が学習用データ51から特徴量を抽出する時と同じ条件で、特徴量の抽出を行う。
0151
転移学習部33は、選択された事前ドメイン35A、35D及び35Fと、特徴抽出部32により生成された目標ドメイン50Bとを用いて、転移学習を導入した機械学習を実行する(ステップS5)。これにより、複数の決定木を示すデータ群である転移識別データ80が生成される。
0152
以上説明したように、機械学習装置100は、記憶装置400に記憶された転移候補データ41,41,・・・から特徴を抽出して転移候補特徴データ42,42,・・・を生成する。機械学習装置100は、抽出した特徴量に基づいて転移候補特徴データ42,42,・・・を複数のグループに分類する。機械学習装置100は、分類されたグループにおける転移候補特徴データ42の数又は共分散に基づいて、分類されたグループを事前ドメインに決定するか否かを判断する。これにより、転移学習に用いられる事前ドメインを、転移候補データ41から効率的に生成することができる。
0153
[変形例]
上記実施の形態において、クラスタリング装置10が、転移候補特徴データ42を分類する際に、デンシティフォレストを用いて分類木35として2分木を生成する場合を例に説明したが、これに限られない。クラスタリング装置10は、k−means法などの他の分類アルゴリズムを用いて、転移候補特徴データ42を分類してもよい。この場合、ステップS109(図8参照)において作成される子ノードの数は、3つ以上であってもよい。
0154
また、クラスタリング装置10は、2つ以上の分類アルゴリズムを用いて、転移候補特徴データ42を分類してもよい。例えば、クラスタリング装置10は、分類対象のノードに属する転移候補特徴データ42の数が、分類アルゴリズムの変更を判断するための基準値(アルゴリズム変更基準値)より大きいか否かに基づいて、分類アルゴリズムを決定する。
0155
図13は、k−means法と、デンシティフォレストとを用いて生成された分類木35の一例を示す図である。例えば、アルゴリズム変更基準値が、25000に設定されていると仮定する。
0156
ルートノード35Rに属する転移候補特徴データ42の数は、30000であり、アルゴリズム変更基準値よりも大きい。この場合、クラスタリング装置10は、ルートノード35Rの子ノードとして、ノード36A、36B及び36Cを生成する。そして、クラスタリング装置10は、k−means法を用いて、ルートノード35Rに属する転移候補特徴データ42を、ノード36A、36B及び36Cを生成する。
0157
そして、ノード36A及び36Cに属する転移候補特徴データ42の数は、5000及び8000であり、分類継続基準値(9270)以下である。クラスタリング装置10は、ノード36A及び36Cをそれぞれ事前ドメインに決定する。一方、ノード36Bに属する転移候補特徴データ42の数は、17000であり、分類継続基準値よりも大きい。この場合、クラスタリング装置10は、ノード36Bに属する転移候補特徴データ42をさらに分類する。
0158
ノード36Bに属する転移候補特徴データ42の数(17000)は、アルゴリズム変更基準値(25000)以下であるため、クラスタリング装置10は、ノード36Bに属する転移候補特徴データ42の分類にデンシティフォレストを用いることを決定する。クラスタリング装置10は、ノード36Bの子ノードとして、ノード36D及び36Eを生成し、ノード36Bに属する転移候補特徴データ42を分類する。
0160
また、上記実施の形態において、選択学習装置30(図4参照)が、特徴抽出部32を備える例を説明したが、これに限られない。選択学習装置30は、事前ドメイン評価装置20(図3参照)が備える特徴抽出部22により生成された目標ドメイン50Bを用いて、転移識別データ80を生成してもよい。また、事前ドメイン評価装置20が、各事前ドメイン45に対応する転移候補データ41から特徴量を抽出して転移候補特徴データ42を生成してもよい。あるいは、選択学習装置30が、転移学習に有効と判断された事前ドメインに対応する転移候補データ41から特徴量を抽出して転移候補特徴データ42を生成してもよい。
0161
いずれの場合においても、クラスタリング装置10、事前ドメイン評価装置20、選択学習装置30の各々において用いられる転移候補特徴データ42は、全て同じ条件で転移候補データ41から特徴量を抽出することにより生成されることが望ましい。同様に、学習用特徴データ52は、全て同じ条件で学習用データ51から特徴量を抽出することにより生成されることが望ましい。以下、その理由について説明する。
0162
例えば、クラスタリング装置10と事前ドメイン評価装置20とで特徴量の抽出条件が異なる場合、クラスタリング装置10において生成される転移候補特徴データ42は、事前ドメイン評価装置20において転移候補特徴データ42における分布と異なる分布を有する。目標ドメインと事前ドメインとの位置関係が、クラスタリング装置10において生成される転移候補特徴データ42と、事前ドメイン評価装置20において転移候補特徴データ42とで異なる。この結果、事前ドメイン評価装置20において、クラスタリング装置10で生成された事前ドメインが転移学習で有効であるか否かを判定する精度が低下する。
0163
事前ドメイン評価装置20と、選択学習装置30とで特徴量の抽出条件が異なる場合も同様に、事前ドメイン評価装置20で有効と判断された事前ドメイン45における転移候補特徴データ42の分布が変化する。この結果、選択学習装置30における転移学習を導入した機械学習の学習精度が低下し、転移識別データ80を用いた人物の識別精度が低下する可能性がある。
0164
これに対して、クラスタリング装置10、事前ドメイン評価装置20、及び選択学習装置30における特徴量の抽出条件を揃えることにより、事前ドメインの有効性を評価するときの精度、転移識別データ80を生成するときの学習の精度が低下することを防ぐことができる。
0165
上記実施の形態において、試行転移学習部23、比較学習部24及び転移学習部33が、学習アルゴリズムとしてランダムフォレストを用いる場合を例に説明したが、これに限られない。例えば、試行転移学習部23、比較学習部24及び転移学習部33は、ID3(Iterative Dichotomiser 3)や、ブースティング、ニューラルネットワークなどの各種アルゴリズムを用いてもよい。いずれの学習アルゴズムを用いる場合であっても、試行転移学習部23及び転移学習部33は、転移学習を導入した機械学習を実行し、比較学習部24は、転移学習を導入しない機械学習を実行すればよい。
0166
上記実施の形態において、転移評価部253は、競合値251A及び信頼度252Aを乗算することにより、総合評価値を計算する例を説明したが、これに限られない。たとえば、転移評価部253は、競合値251A及び信頼度252Aの合計を総合評価値として計算してもよい。つまり、転移評価部253は、競合値251A及び信頼度252Aを用いて、総合評価値を計算すればよい。
0167
上記実施の形態において、機械学習装置100が、転移候補データ41及び学習用データ51の各々からHOG特徴量を抽出する場合を例にして説明したが、これに限られない。例えば、機械学習装置100は、人物の顔を学習する場合、Haar−like特徴量を抽出してもよい。機械学習装置100は、学習対象に応じて、転移候補データ41及び学習用データ51から抽出する特徴量を適宜変更すればよい。
0168
上記実施の形態において、機械学習装置100が、人物を検出するための転移識別データ80を生成する例を説明したが、これに限られない。学習の対象は、センサにより計測された測定データであってもよい。センサの種類は、特に限定されず、加速度センサ、光センサなどの様々な測定データを使用することができる。例えば、自動車の自動運転を行うために、これらのセンサの測定データを用いるために機械学習を実行してもよい。
0170
上記実施の形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして、上記実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。
0171
また、上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは、所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらに、ソフトウェアおよびハードウェアの混在処理により実現しても良い。なお、上記実施の形態に係る機械学習装置100をハードウェアにより実現する場合、各処理を行うためのタイミング調整を行う必要があるのは言うまでもない。上記実施形態においては、説明便宜のため、実際のハードウェア設計で生じる各種信号のタイミング調整の詳細については省略している。
0173
前述した方法をコンピュータに実行させるコンピュータプログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここで、コンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、大容量DVD、次世代DVD、半導体メモリを挙げることができる。
0175
100機械学習装置
10クラスタリング装置
11、22、32特徴抽出部
12分類部
13分散計算部
14事前ドメイン決定部
20 事前ドメイン評価装置
21一時記憶部
23試行転移学習部
24比較学習部
25 評価部
251競合値計算部
252信頼度計算部
253 転移評価部
30選択学習装置
31 事前ドメイン選択部
33 転移学習部