図面 (/)

技術 分類装置、分類方法およびプログラム

出願人 株式会社東芝
発明者 中田康太
出願日 2018年9月18日 (2年3ヶ月経過) 出願番号 2018-174251
公開日 2020年3月26日 (9ヶ月経過) 公開番号 2020-046883
状態 未査定
技術分野 検索装置 学習型計算機
主要キーワード 疑似データ 擬似データ ニューラルネットワークモデル ミニバッチ 生成モデル 教師ラベル 分類クラス 数字画像
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

分類の困難なデータをより高精度に出力する。

解決手段

分類装置は、生成部と、学習部と、分類部と、出力制御部と、を備える。生成部は、学習データと特徴量が類似する擬似データを生成する。学習部は、擬似データを分類するための擬似クラスおよび擬似クラス以外の複数の分類クラスのいずれかにデータを分類する、ニューラルネットワークにより構築される分類モデルを、学習データと擬似データを用いて学習する。分類部は、分類の対象となる入力データを、分類モデルを用いて擬似クラスおよび複数の分類クラスのいずれかに分類する。出力制御部は、擬似クラスに分類された入力データが、複数の分類クラスのいずれにも属さないデータであることを示す情報を出力する。

概要

背景

機械学習を用いた分類システムでは、分類の結果を目視で確認したいケースが存在する。例えば、病気の有無の判定するための医療画像の分類システムでは、機械学習により病気の有無の分類が困難な画像を、医療エキスパート提示して判断させるアプリケーションが考えられる。機械学習による分類が困難なデータをユーザに提示する方法としては、例えば、分類のクラスに属する確率値または信頼度などが低いデータをユーザに提示する方法が挙げられる。機械学習では、クラスの確率値および信頼度は、ユーザが作成した教師データから学習した分類モデルによる算出される。

概要

分類の困難なデータをより高精度に出力する。分類装置は、生成部と、学習部と、分類部と、出力制御部と、を備える。生成部は、学習データと特徴量が類似する擬似データを生成する。学習部は、擬似データを分類するための擬似クラスおよび擬似クラス以外の複数の分類クラスのいずれかにデータを分類する、ニューラルネットワークにより構築される分類モデルを、学習データと擬似データを用いて学習する。分類部は、分類の対象となる入力データを、分類モデルを用いて擬似クラスおよび複数の分類クラスのいずれかに分類する。出力制御部は、擬似クラスに分類された入力データが、複数の分類クラスのいずれにも属さないデータであることを示す情報を出力する。

目的

さらに、第1または第2の実施形態にかかる分類装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

学習データと特徴量が類似する擬似データを生成する生成部と、前記擬似データを分類するための擬似クラスおよび前記擬似クラス以外の複数の分類クラスのいずれかにデータを分類する、ニューラルネットワークにより構築される分類モデルを、前記学習データと前記擬似データを用いて学習する学習部と、分類の対象となる入力データを、前記分類モデルを用いて前記擬似クラスおよび複数の前記分類クラスのいずれかに分類する分類部と、前記擬似クラスに分類された前記入力データが、複数の前記分類クラスのいずれにも属さないデータであることを示す情報を出力する出力制御部と、を備える分類装置

請求項2

前記学習部は、前記学習データを前記分類クラスのいずれかに分類し、前記擬似データを前記擬似クラスに分類する誤差を表す第1損失基準と、前記学習データを教師ラベルと同じ前記分類クラスに分類する誤差を表す第2損失基準と、に基づいて前記分類モデルを学習する、請求項1に記載の分類装置。

請求項3

前記生成部は、ニューラルネットワークにより構築される、前記擬似データを生成する生成モデルを、前記擬似データと前記学習データの違いを表す第3損失基準に基づいて学習し、学習した前記生成モデルを用いて前記擬似データを生成する、請求項1に記載の分類装置。

請求項4

前記第3損失基準は、前記学習データの特徴量の平均値と、前記擬似データの特徴量の平均値と、の差が小さいほど値が小さくなる基準を示す、請求項3に記載の分類装置。

請求項5

前記生成部は、さらに、前記学習データおよび生成した前記擬似データの少なくとも一方を変換した加工擬似データを生成し、前記学習部は、前記擬似データと前記加工擬似データとを前記擬似クラスに分類するように前記分類モデルを学習する、請求項1に記載の分類装置。

請求項6

前記生成部は、学習の回数に応じて前記加工擬似データの生成量を変化させる、請求項5に記載の分類装置。

請求項7

学習データと特徴量が類似する擬似データを生成する生成ステップと、前記擬似データを分類するための擬似クラスおよび前記擬似クラス以外の複数の分類クラスのいずれかにデータを分類する、ニューラルネットワークにより構築される分類モデルを、前記学習データと前記擬似データを用いて学習する学習ステップと、分類の対象となる入力データを、前記分類モデルを用いて前記擬似クラスおよび複数の前記分類クラスのいずれかに分類する分類ステップと、前記擬似クラスに分類された前記入力データが、複数の前記分類クラスのいずれにも属さないデータであることを示す情報を出力する出力制御ステップと、を含む分類方法

請求項8

コンピュータを、学習データと特徴量が類似する擬似データを生成する生成部と、前記擬似データを分類するための擬似クラスおよび前記擬似クラス以外の複数の分類クラスのいずれかにデータを分類する、ニューラルネットワークにより構築される分類モデルを、前記学習データと前記擬似データを用いて学習する学習部と、分類の対象となる入力データを、前記分類モデルを用いて前記擬似クラスおよび複数の前記分類クラスのいずれかに分類する分類部と、前記擬似クラスに分類された前記入力データが、複数の前記分類クラスのいずれにも属さないデータであることを示す情報を出力する出力制御部と、として機能させるためのプログラム

技術分野

0001

本発明の実施形態は、分類装置分類方法およびプログラムに関する。

背景技術

0002

機械学習を用いた分類システムでは、分類の結果を目視で確認したいケースが存在する。例えば、病気の有無の判定するための医療画像の分類システムでは、機械学習により病気の有無の分類が困難な画像を、医療エキスパート提示して判断させるアプリケーションが考えられる。機械学習による分類が困難なデータをユーザに提示する方法としては、例えば、分類のクラスに属する確率値または信頼度などが低いデータをユーザに提示する方法が挙げられる。機械学習では、クラスの確率値および信頼度は、ユーザが作成した教師データから学習した分類モデルによる算出される。

先行技術

0003

SALIMANS, Tim, et al. “Improved techniques for training gans.” In: Advances in Neural Information Processing Systems. 2016. p. 2234-2242.

発明が解決しようとする課題

0004

しかしながら、例えばディープラーニングのような高性能の学習では、学習データから複雑な分類モデルが作成されるため、クラスの確率値または信頼度が必ずしも分類の難易度を表していない場合がある。この結果、分類の困難なデータが入力された場合でも高い確率値または信頼度でこのデータがいずれかのクラスに分類される可能性がある。このような場合、分類の困難なデータとしてユーザに提示されることが望ましいデータが提示できなくなるおそれがある。

課題を解決するための手段

0005

実施形態の分類装置は、生成部と、学習部と、分類部と、出力制御部と、を備える。生成部は、学習データと特徴量が類似する擬似データを生成する。学習部は、擬似データを分類するための擬似クラスおよび擬似クラス以外の複数の分類クラスのいずれかにデータを分類する、ニューラルネットワークにより構築される分類モデルを、学習データと擬似データを用いて学習する。分類部は、分類の対象となる入力データを、分類モデルを用いて擬似クラスおよび複数の分類クラスのいずれかに分類する。出力制御部は、擬似クラスに分類された入力データが、複数の分類クラスのいずれにも属さないデータであることを示す情報を出力する。

図面の簡単な説明

0006

第1の実施形態にかかる分類装置のブロック図。
第1の実施形態における分類処理フローチャート
潜在空間における学習データと擬似データの分布の様子を示す概念図。
第2の実施形態にかかる分類装置のブロック図。
第2の実施形態における分類処理のフローチャート。
加工擬似データの例を示す図。
第1または第2の実施形態にかかる分類装置のハードウェア構成図。

実施例

0007

以下に添付図面を参照して、この発明にかかる分類装置の好適な実施形態を詳細に説明する。

0008

上記のように、分類の困難なデータとしてユーザに提示されることが望ましい場合であっても、高い確率値または信頼度であるクラスに分類されることにより、該当データが提示されなくなることがある。すなわち、分類の困難なデータを提示する精度が低くなる場合がある。

0009

以下の実施形態は、ディープラーニングの手法の1つである敵対的生成ネットワーク(GAN:Generative Adversarial Network)を適用する。ここで、GANを改良したIGAN(Improved GAN)と呼ばれる技術について説明する。IGANでは、データ分類の精度を向上するために、以下のような処理が繰り返し実行され、最終的な分類モデルが求められる。
(S1)学習データと類似したデータを生成する生成モデルにより擬似データを生成する。
(S2)学習データと擬似データを実在クラスと擬似クラスに正確に分類するように分類モデルを学習する。
(S3)学習データを各教師ラベルのクラスに正確に分類するように分類モデルを学習する。
(S4)擬似データが学習データと類似するように生成モデルを学習する。

0010

ここでは、アプリケーションで分類するクラスがK個(Kは2以上の整数)あるとする。本実施形態ではこのK個のクラスを分類クラスと呼ぶ。実在クラスは、各分類クラスが属するクラスである。IGANでは擬似クラスを加えた(K+1)個のクラスへの分類を学習し、新たな入力データを分類するときには擬似クラスを除いたK個の分類クラスへ新たな入力データが分類される。

0011

以下の実施形態では、IGANと同様に、分類の困難なデータに類似したデータとなるような擬似データを生成し、擬似データを擬似クラスに分類するように学習する。一方、IGANと異なり、擬似クラスを含む(K+1)個のクラスへの分類モデルを用いて新たな入力データを分類する。そして、入力データが擬似クラスに分類された場合、入力データがいずれの分類クラスにも属さないこと、すなわち、入力データが分類の困難なデータであることを示す情報を出力する。

0012

以下の実施形態では、擬似クラスを含めた(K+1)個のクラスへの分類モデルを用いることで、IGANなどのようにK個のクラスに分類して確率値または信頼度が低いデータを提示する技術に比べて、分類クラスへの分類を高精度に保ったまま、分類が困難なデータをより高い精度で提示することが可能になる。

0013

(第1の実施形態)
図1は、第1の実施形態にかかる分類装置100の構成の一例を示すブロック図である。図1に示すように、分類装置100は、生成部101と、学習部102と、分類部103と、出力制御部104と、記憶部121と、を備えている。

0014

記憶部121は、分類装置100による各種処理で用いられる各種データを記憶する。例えば記憶部121は、学習データ、擬似データ、生成モデルのパラメータ、および、分類モデルのパラメータなどを記憶する。学習データは、例えば、データが分類されるべきクラスを表す教師ラベルyi、および、データの特徴を表す特徴量xiを含む。例えば記憶部121は、N個(Nは2以上の整数)の学習データ(yi,xi)(iは1≦i≦Nを満たす整数)を記憶する。yiはデータの分類クラスのいずれかを表す教師ラベルである。xiは例えばd次元の特徴量である。

0015

記憶部121は、フラッシュメモリメモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

0016

生成部101は、分類モデルの学習に用いる擬似データを生成する。生成部101は、例えばIGANと同じ手法により、学習データと特徴量が類似する擬似データを生成する。より具体的には、生成部101は、ニューラルネットワークにより構築される擬似データを生成する生成モデルを、擬似データと学習データの違いを表す損失基準(第3損失基準)に基づいて学習し、学習した生成モデルを用いて擬似データを生成する。第3損失基準は、例えば、学習データの特徴量の平均値と、擬似データの特徴量の平均値と、の差が小さいほど値が小さくなる基準である。

0017

学習部102は、分類モデルを、学習データ、および、生成部101により生成された疑似データを用いて学習する。分類モデルは、例えばニューラルネットワークにより構築されるモデルであり、擬似クラスおよび複数の分類クラスのいずれかに入力データを分類するモデルである。

0018

学習部102は、例えば、学習データを分類クラスのいずれかに分類し、擬似データを擬似クラスに分類する誤差を表す損失基準(第1損失基準)と、学習データを教師ラベルと同じ分類クラスに分類する誤差を表す損失基準(第2損失基準)と、に基づいて分類モデルを学習する。

0019

分類部103は、分類の対象として入力される入力データを、分類モデルを用いて擬似クラスおよび複数の分類クラスのいずれかに分類する。このように、分類部103は、例えばIGANとは異なり、擬似クラスを含む(K+1)個のクラスへの分類モデルを用いて入力データを分類する。

0020

出力制御部104は、分類装置100の各種処理による各種情報の出力を制御する。例えば出力制御部104は、擬似クラスに分類された入力データが、複数の分類クラスのいずれにも属さないデータであることを示す情報を出力する。出力制御部104による出力方法はどのような方法であってもよい。例えば出力制御部104は、情報をディスプレイなどの表示装置に表示してもよいし、インターネットなどのネットワークを介して指定した宛先(サーバ装置パーソナルコンピュータなど)に情報を送信してもよい。

0021

上記各部(生成部101、学習部102、分類部103、および、出力制御部104)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(IntegratedCircuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。

0022

上記各部は、複数の物理的に異なる装置に分散して備えられてもよい。例えば上記各部の少なくとも一部は、クラウド上で処理を実行するクラウドサーバに搭載されていてもよい。

0023

次に、このように構成された第1の実施形態にかかる分類装置100による分類処理について説明する。図2は、第1の実施形態における分類処理の一例を示すフローチャートである。

0024

生成部101は、擬似データを生成する生成モデルを初期化する(ステップS101)。生成モデルは、例えば3層のニューラルネットワークモデルである。このような多層のニューラルネットワークモデルは、ニューラルネットワークを用いた機械学習(例えばディープラーニング)と同様の技術で構築することができる。生成部101は、例えば、入力層ノード数は100、出力層ノードは学習データの次元数dと同じ数に設定した生成モデルを生成する。初期化では、生成モデルの各ノードの重みは例えばランダムに設定される。

0025

生成部101は、生成モデルを用いて擬似データを生成する(ステップS102)。生成部101は、例えば100次元のランダムな入力をn個生成し、その入力を生成モデルで変換してd次元の擬似データを生成する。

0026

学習部102は、学習データと擬似データとを用いて、分類モデルのパラメータを更新する(ステップS103)。分類モデルは、例えば3層のニューラルネットである。生成モデルと同様に、分類モデルは、ニューラルネットワークを用いた機械学習と同様の技術で構築することができる。分類モデルは、K個の分類クラスと1つの擬似クラス、すなわち(K+1)個のクラスのいずれかに入力データを分類する。従って、分類クラスの入力層のノード数は学習データの次元数dとなり、出力層のノード数はK+1となる。

0027

学習部102は、分類モデルのパラメータを更新するために2つの損失基準を用いる。第1損失基準は、学習データと擬似データとをそれぞれ実在クラスと擬似クラスの2値に分類するときの誤差を表す。以下の(1)式は、第1損失基準の例を表す。

0028

ここで、Rは学習データ、Gは擬似データの集合を表す。Eは平均値を表す。本実施形態では(K+1)番目のクラスが擬似クラスであり、P(y=K+1|x)は分類モデルにより学習データ(特徴量x)が擬似クラスに分類される確率を表す。(1)式の損失基準では、学習データが擬似クラス以外のいずれかの分類クラスに分類され、擬似データが擬似クラスに分類されるほど損失の値が低くなる。

0029

第2損失基準は、学習データを分類クラスに分類するときの誤差を表す。以下の(2)式は、第2損失基準の例を表す。

0030

y<K+1は擬似クラス以外のクラスを表し、P(y|x、y<K+1)は学習データの特徴量xが教師ラベルyと同じクラスに分類される確率を表す。(2)式の損失基準では、学習データの特徴量xが教師ラベルyと同じクラスに分類されるほど損失の値が低くなる。

0031

学習部102は、例えば確率勾配降下法等を利用して第1損失基準と第2損失基準の和が小さくなるように分類モデルのパラメータを更新する。第1損失基準および第2損失基準の算出時には、学習部102は、学習データをサンプルしてミニバッチと呼ばれる少量のサブセットを生成し、ミニバッチに対して(1)式および(2)式により損失値を算出する。ここでは、ミニバッチのデータ数は、生成部101が生成する擬似データ数と同じn個であるとする。

0032

生成部101は、分類モデル、学習データ、および、擬似データを用いて生成モデルのパラメータを更新する(ステップS104)。生成部101は、例えば、分類モデルで射影される潜在空間Zにおける学習データと擬似データの平均値の差が小さいほど値が小さくなる第3損失基準により、擬似データ生成モデルのパラメータを更新する。以下の(3)式は、第3損失基準の例を表す。

0033

ここで、Rは学習データ、Gは擬似データの集合を表し、f(x)は潜在空間Zにおける学習データの特徴量を表す。潜在空間Zは、例えば分類モデルのニューラルネットワークの出力層の1つ前の層により写像される空間であるとする。(3)式では、潜在空間Zにおける学習データの特徴量f(x)の平均値Ef(x)と、擬似データx’の特徴量f(x’)の平均値Ef(x’)と、の差が小さくなるほど、損失値が小さくなる。

0034

生成部101は、例えば確率勾配降下法等を利用して第3損失基準が小さくなるように生成モデルのパラメータを更新する。生成部101は、第1損失基準および第2損失基準の算出時と同様に、ミニバッチのデータを用いて生成モデルのパラメータを更新することができる。

0035

学習部102は、パラメータの更新が終了したかを判定する(ステップS105)。学習部102は、例えば、学習の回数が上限値に達したか否か、または、各損失基準の改善の大きさが閾値より小さくなったか、などにより、更新終了を判定する。更新が終了していない場合(ステップS105:No)、ステップS102に戻り学習が繰り返される。

0036

更新が終了した場合(ステップS105:Yes)、分類部103は、分類モデルを用いて新たな入力データを分類する。IGANでは、学習された分類モデルから擬似クラスを除いたK個の分類クラスへの分類を行うことで、分類精度が向上する。本実施形態では、分類部103は擬似クラスを含む(K+1)個のクラスへの分類を行う。

0037

分類部103は、入力データの分類結果が擬似クラスであるか否かを判定する(ステップS107)。本実施形態では、y=K+1の場合、入力データは擬似クラスであり、y<K+1の場合、入力データは擬似クラス以外のいずれかの分類クラスである。

0038

入力データが擬似クラスに分類された場合(ステップS107:Yes)、出力制御部104は、擬似クラスに分類された入力データを、分類の困難なデータとしてユーザに提示する(ステップS108)。分類の困難なデータであることを示す情報を出力するクラスである提示クラスを定め、入力データが擬似クラスに分類された場合に入力データに提示クラスを付与するように構成してもよい。擬似クラスに分類された入力データを分類の困難なデータと判定する理由は後述する。

0039

入力データが擬似クラス以外の分類クラスに分類された場合(ステップS107:No)、出力制御部104は、分類結果を示す情報を出力する(ステップS109)。

0040

なお、生成モデルおよび分類モデルの学習(ステップS101〜ステップS106)と、学習した分類モデルを用いた分類(ステップS107〜ステップS109)は、連続して実行する必要はなく、相互に独立に実行することができる。

0041

次に、擬似クラスに分類されたデータが分類の困難なデータと判定できる理由を示す。本実施形態では、生成部101は、(3)式のような損失基準を小さくするように生成モデルを学習する。(3)式に従えば、潜在空間Zで擬似データの平均値が学習データの平均値と同じになるように擬似データが生成される。

0042

図3は、潜在空間Zにおける学習データと擬似データの分布の様子を示す概念図である。図3では、クラスAとクラスBの2クラスの学習データが存在する。各クラスの学習データは、潜在空間Zでそれぞれ集団になって分布する。なお、実空間では複雑な分布をしたデータであっても、ディープラーニングの学習による潜在空間Zでは、図3のような分布が得られることが期待される。

0043

このような状況で、生成部101が(3)式により擬似データGを生成した場合、擬似データGは、クラスAとクラスBの間に生成される。すなわち、擬似データは、クラスAの学習データと、クラスBの学習データの境界付近に分布する。学習データの境界付近は学習データが少なく、分類が困難なデータが存在する領域であると考えられる。なお(3)式の損失基準は一例であり、これに限られるものではない。例えば、複数の分類クラスの境界付近に分布する擬似データを生成できるような他の損失基準を用いてもよい。

0044

学習部102は、第1損失基準により擬似データを擬似クラスに分類するように分類モデルを学習するため、新たな入力データが学習データの境界付近のデータと類似する場合、そのデータを擬似クラスに分類する。そのため、擬似クラスに分類されたデータは学習データの境界付近の分類が困難なデータである可能性が高い。また、IGANと同様の分類手法を適用しているため、K個の分類クラスに分類する処理に対しても高い精度が得られる。

0045

IGANでは、分類の対象とする入力データをクラスAまたはクラスBに分類する精度を高めるために、擬似データが生成され、生成された擬似データは分類モデルの学習に用いられる。すなわち、入力データを擬似クラスに分類することは想定していない。これに対して本実施形態は、図3に示すように、複数のクラスの境界付近に擬似データが分布するという点に着目し、このように分布する擬似データに対応する擬似クラスに、入力データを分類する。そして、擬似クラスに分類された入力データは、分類が困難であるデータとして出力する。このような構成により、分類の精度を損なわずに、分類が困難なデータを高精度に提示することが可能になる。

0046

(第2の実施形態)
第2の実施形態の分類装置は、既知の分類クラスから新たなクラスが派生する可能性がある場合に、新たなクラスを想定した擬似データを生成することで、新しく派生したクラスを高精度で提示する。

0047

図4は、第2の実施形態にかかる分類装置100−2の構成の一例を示すブロック図である。図4に示すように、分類装置100−2は、生成部101−2と、学習部102と、分類部103と、出力制御部104と、記憶部121と、を備えている。

0048

第2の実施形態では、生成部101−2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる分類装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。

0049

生成部101−2は、学習データおよび生成した擬似データの少なくとも一方を変換した加工擬似データを生成する機能をさらに備える点が、第1の実施形態の生成部101と異なっている。生成部101−2は、例えばアフィン変換による平行移動、拡大、縮小、および、回転などにより、学習データおよび擬似データを変換する。

0050

加工擬似データは、擬似データと同様に擬似クラスに分類するデータとして扱われる。従って、学習部102は、擬似データと加工擬似データとを擬似クラスに分類するように分類モデルを学習する。

0051

次に、このように構成された第2の実施形態にかかる分類装置100−2による分類処理について図5を用いて説明する。図5は、第2の実施形態における分類処理の一例を示すフローチャートである。

0052

ステップS201〜ステップS202は、第1の実施形態にかかる分類装置100におけるステップS101〜ステップS102と同様の処理なので、その説明を省略する。

0053

本実施形態では、生成部101−2は、学習データおよび擬似データの少なくとも一方を変換することにより、加工擬似データを生成する(ステップS203)。生成部101−2は、学習データおよび擬似データのうち全部に対して変換を行ってもよいし、一部に対して変換を行ってもよい。

0054

学習部102は、加工擬似データも擬似データとして用いて、分類モデルのパラメータを更新する(ステップS204)。生成部101−2は、加工擬似データも擬似データとして用いて生成モデルのパラメータを更新する(ステップS205)。

0055

ステップS206〜ステップS210は、第1の実施形態にかかる分類装置100におけるステップS105〜ステップS109と同様の処理なので、その説明を省略する。

0056

このような処理により、加工擬似データに類似した新しいクラスのデータが入力された場合、そのデータを擬似クラスに分類することができる。すなわち、新しく派生したクラスのデータを高精度で提示することが可能となる。

0057

生成部101−2は、学習の回数に応じて加工擬似データの生成量を変化させてもよい。例えば生成部101−2は、加工擬似データの割合rを学習の回数tにより制御してもよい。以下の(4)式は、加工擬似データの割合を求める式の例を示す。

0058

(4)式は、100回目の学習までは加工擬似データの割合rを小さくし(r=0.01)、101回目以降の学習では加工擬似データの割合rを大きくする(r=0.5)ことを示す。なお回数の閾値は100に限られるものではなく、どのような値であってもよい。また、変化させる割合の個数は2つに限られるものではなく、3個以上の割合に変化させてもよい。

0059

(4)式のように割合rを変化させることで、例えば、学習の初期では、第1の実施形態に近似した手法で分類モデルおよび生成モデルを高精度に学習し、各モデルが安定してきた学習後期で加工擬似データを擬似データに混入し、派生する可能性のあるクラスを擬似クラスに分類する学習を行うことができる。

0060

次に、加工擬似データの例について説明する。図6は、加工擬似データの例を示す図である。例えば、手書き数字画像の「6」(クラス6)と「8」(クラス8)を分類する問題を考える。本実施形態によれば、例えば「6」(クラス6)を回転した「9」(クラス9)を擬似データとして生成できる(ステップS203)。従って、クラス9に属するような入力データが入力された場合であっても、高い精度で擬似クラスに分類され、ユーザに提示することができる。クラス9のデータを擬似データとして生成していない場合、クラス9に属するような入力データは、例えばクラス8に分類され、ユーザに提示されない可能性がある。

0061

平行移動、拡大、縮小、および、回転により新たなクラスが派生するケースは、例えば半導体ウェハ上に発生する不良のパターンの分類などが考えられる。第2の実施形態によれば、半導体のウェハの不良のパターンを分類するときに、既存の不良のパターンが回転したような新たな不良パターンのクラスが派生した場合でも、新たな不良パターンを早期に発見することが可能となる。

0062

以上説明したとおり、第1から第2の実施形態によれば、分類の困難なデータをより高精度に出力(提示)することが可能となる。

0063

次に、第1または第2の実施形態にかかる分類装置のハードウェア構成について図7を用いて説明する。図7は、第1または第2の実施形態にかかる分類装置のハードウェア構成例を示す説明図である。

0064

第1または第2の実施形態にかかる分類装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。

0065

第1または第2の実施形態にかかる分類装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。

0066

第1または第2の実施形態にかかる分類装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスクFD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータ読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

0067

さらに、第1または第2の実施形態にかかる分類装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施形態にかかる分類装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

0068

第1または第2の実施形態にかかる分類装置で実行されるプログラムは、コンピュータを上述した分類装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

0069

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

0070

100、100−2分類装置
101、101−2 生成部
102 学習部
103分類部
104出力制御部
121 記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ