図面 (/)

カテゴリー:日本 - 物理学 ( 世界での技術分布を見る )

世界でのこの技術分類の技術分布

技術 マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム

出願人 発明者
出願日 2006年3月13日 (8年7ヶ月経過) 出願番号 2008-505320
公開日 2008年12月18日 (5年10ヶ月経過) 公開番号 2008-546046
登録日 - 登録番号 -
特許期限 2026年3月13日 (残11年4ヶ月) 状態 未査定
技術分野
関連キーワード

この技術の活用可能性のある市場・分野

有望な関連市場
重要な関連分野

図面 (6)

課題・解決手段

所望変数部分集合を提供するためのコンピュータ処理方法。この方法は、複数変数に対応する1組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズム初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビス距離計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。

背景

図面をまとめてご覧になりたい場合はPDFをダウンロードしてください。

実験シミュレーション、又は物理測定又は他の技術を通じて収集されたデータレコードを使用して変数間の関係を構築するのに、数学的モデリングの技術がしばしば使用されている。数学的モデル作成するためには、データレコードが得られた後に、潜在変数識別する必要があることがある。次いで、データレコードは、識別された変数間の関係を構築するよう分析されることがある。ある状況においては、データレコードの数は、そのデータレコードを生成するのに使用され得るシステムの数によって制限されることがある。このような状況においては、変数の数が利用可能なデータレコードの数を超えることがあり、これにより、いわゆるスパースデータシナリオ(sparse data scenarios)が作成される。

実験計画法DOE)などの従来の解決方法が、変数及びそれらの相互作用を識別するために開発されてきた。実験計画法はまた、Genichiらによる(非特許文献1)に記述されているような、マハラノビス距離概念を使用することがある。Genichiらは、データ分析的であり、かつ測定されるシステムの特性分布に依存しない、手段及び手順を使用する多寸法測定尺度(multidimensional measurement scales)を開発する方法であるマハラノビス田口法について例示している。しかし、このような従来の解決方法は、しばしば、スパースデータシナリオに関連する課題に効果的に対処していない。

「マハラノビス田口法、パターン技術方式」(ジョン・ワイリー&サンズ社(John Wiley & Sons、Inc.)、2002年)

概要

所望変数部分集合を提供するためのコンピュータ処理方法。この方法は、複数の変数に対応する1組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズム初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。

目的

開示されているシステムのある機能合致している方法及びシステムの目的は、上記に記載した課題の1つ以上を解決することである。

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

( 分野番号表示ON )※整理標準化データをもとに当社作成

ページトップへ

請求項

請求項1

所望変数部分集合識別するためのコンピュータ処理方法であって、複数変数に対応する1組のデータレコードを得ることと、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義することと、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズム初期設定することと、部分集合の変数に基づいて、普通データ及び異常データのマハラノビス距離計算することと、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することとを含むコンピュータ処理方法。

請求項2

データレコードの総数が、複数の変数の総数未満である請求項1に記載のコンピュータ処理方法。

請求項3

定義することが、データレコードに対して遂行されるクラスタ化アルゴリズムからの1つ以上の結果に基づいて、データレコードを普通データ又は異常データとして定義することを含む請求項1に記載のコンピュータ処理方法。

請求項4

マハラノビスの距離を計算することが、部分集合の変数に基づいて、普通データの第1のマハラノビスの距離を計算することと、部分集合の変数に基づいて、異常データの第2のマハラノビスの距離を計算することと、第1のマハラノビスの距離と第2のマハラノビスの距離との間のマハラノビスの距離偏差判断することとを含む請求項1に記載のコンピュータ処理方法。

請求項5

識別することが、マハラノビスの距離偏差を最大限にするために、遺伝的アルゴリズムの目標関数設定することと、遺伝的アルゴリズムを開始することと、遺伝的アルゴリズムが収束するかどうかを判断することと、遺伝的アルゴリズムが収束する場合、部分集合の変数を複数の変数の所望の部分集合変数として識別することとを含む請求項4に記載のコンピュータ処理方法。

請求項6

識別することが、遺伝的アルゴリズムが収束しない場合、部分集合の変数に基づいて及び遺伝的アルゴリズムに従って、異なる部分集合の変数を選ぶことと、異なる部分集合の変数に基づいて、異なるマハラノビスの距離偏差を計算することと、異なる部分集合の変数に基づいて所望の部分集合の変数を識別するよう、遺伝的アルゴリズムを遂行することとをさらに含む請求項5に記載のコンピュータ処理方法。

請求項7

コンソール(208)と、少なくとも1つの入力デバイス(210)と、中央演算処理装置(CPU)(202)とを備えコンピュータシステム(200)であって、中央演算処理装置(CPU)が、複数の変数に対応する1組のデータレコードを得るよう構成され、ここでデータレコードの総数が、複数の変数の総数未満であり、さらに、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義するよう、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定するよう、部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算するよう、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別するよう構成されたコンピュータシステム(200)。

請求項8

マハラノビスの距離を計算するために、CPU(202)が、部分集合の変数に基づいて、普通データの第1のマハラノビスの距離を計算するよう、部分集合の変数に基づいて、異常データの第2のマハラノビスの距離を計算するよう、第1のマハラノビスの距離と第2のマハラノビスの距離との間のマハラノビスの距離偏差を判断するよう構成された請求項7に記載のコンピュータシステム(200)。

請求項9

所望の部分集合を識別するために、CPU(202)が、マハラノビスの距離偏差を最大限にするために、遺伝的アルゴリズムの目標関数を設定するよう、遺伝的アルゴリズムを開始するよう、遺伝的アルゴリズムが収束するかどうかを判断するよう、遺伝的アルゴリズムが収束した場合、部分集合の変数を複数の変数の所望の部分集合変数として識別するよう構成された請求項8に記載のコンピュータシステム(200)。

請求項10

1つ以上のデータベース(214−1、214−2)と、1つ以上のネットワークインターフェース(212)とをさらに含む請求項に7記載のコンピュータシステム(200)。

詳細

技術分野

0001

本発明は、一般に、コンピュータベース数学的モデリングの技術、より詳細には、所望変数部分集合識別するための数学的モデリングの方法及びシステムに関する。


背景技術

0002

実験シミュレーション、又は物理測定又は他の技術を通じて収集されたデータレコードを使用して変数間の関係を構築するのに、数学的モデリングの技術がしばしば使用されている。数学的モデル作成するためには、データレコードが得られた後に、潜在変数を識別する必要があることがある。次いで、データレコードは、識別された変数間の関係を構築するよう分析されることがある。ある状況においては、データレコードの数は、そのデータレコードを生成するのに使用され得るシステムの数によって制限されることがある。このような状況においては、変数の数が利用可能なデータレコードの数を超えることがあり、これにより、いわゆるスパースデータシナリオ(sparse data scenarios)が作成される。

0003

実験計画法DOE)などの従来の解決方法が、変数及びそれらの相互作用を識別するために開発されてきた。実験計画法はまた、Genichiらによる(非特許文献1)に記述されているような、マハラノビス距離概念を使用することがある。Genichiらは、データ分析的であり、かつ測定されるシステムの特性分布に依存しない、手段及び手順を使用する多寸法測定尺度(multidimensional measurement scales)を開発する方法であるマハラノビス田口法について例示している。しかし、このような従来の解決方法は、しばしば、スパースデータシナリオに関連する課題に効果的に対処していない。

0004

「マハラノビス田口法、パターン技術方式」(ジョン・ワイリー&サンズ社(John Wiley & Sons、Inc.)、2002年)


発明が解決しようとする課題

0005

開示されているシステムのある機能合致している方法及びシステムの目的は、上記に記載した課題の1つ以上を解決することである。


課題を解決するための手段

0006

本発明の一態様には、所望の変数部分集合を提供するためのコンピュータ処理方法が含まれる。この方法は、複数の変数に対応する1組のデータレコードを得ることと、所定の基準に基づいて、そのデータレコードを普通データ又は異常データとして定義することとを含むことがある。この方法はまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズム初期設定することと、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することとを含むことがある。さらに、この方法は、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することを含むことがある。

0007

本発明の別の態様には、データセットから普通データ及び異常データを定義するためのコンピュータ処理方法が含まれる。この方法は、クラスタ化アルゴリズムをデータセットに適用することにより、2つ以上のクラスタを得ることと、正規化平均値(normalized means)の最大差を有する第1のクラスタ及び第2のクラスタを判断することと、第1のクラスタを普通データとして及び第2のクラスタを異常データとして定義することとを含むことがある。

0008

本発明の別の態様には、コンピュータシステムが含まれる。コンピュータシステムは、コンソールと、少なくとも1つの入力デバイスとを含むことがある。コンピュータシステムはまた、中央演算処理装置(CPU)を含むことがある。CPUは、複数の変数に対応する1組のデータレコードを得るよう構成されることがあり、データレコードの総数は、複数の変数の総数未満であり得る。CPUは、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義するよう構成されることがある。CPUはまた、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムをさらに初期設定するよう、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算するよう、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別するよう構成されることがある。

0009

本発明の別の態様には、変数減少手順を遂行するよう構成されたコンピュータシステムで使用するためのコンピュータ読取可能媒体が含まれる。コンピュータ読取可能媒体は、方法を遂行するためのコンピュータ実行可能命令を含むことがある。この方法は、複数の変数に対応する1組のデータレコードを得ることを含むことがある。データレコードの総数は、複数の変数の総数未満であり得る。この方法はまた、所定の基準に基づいて、データレコードを普通データ又は異常データとして定義することと、複数の変数からの1つの部分集合の変数を用いて遺伝的アルゴリズムを初期設定することとを含むことがある。この方法は、さらに、その部分集合の変数に基づいて、普通データ及び異常データのマハラノビスの距離を計算することと、マハラノビスの距離に基づいて遺伝的アルゴリズムを遂行することにより、複数の変数の所望の部分集合を識別することとを含むことがある。


発明を実施するための最良の形態

0010

次に、添付図面に例示されている例示的実施形態について詳細に言及する。図面全体を通じて、同じ又は同様の部品については、可能なかぎり同じ参照符号を使用する。

0011

図1は、マハラノビスの距離を使用する、かつある開示された実施形態組み込んでいる、例示的データ分析及び処理流れ100を例示する流れ図である。マハラノビスの距離とは、データセット内の変数間の相関関係に基づいて、学習曲線系列位置効果、及びグループプロファイルなどの、データプロファイルを測定するのに使用される数学的表示であり得る。次いで、異なるパターンが、識別され、分析され得る。マハラノビスの距離ではデータセットの相関関係を考慮するという点において、マハラノビスの距離はユークリッドの距離とは異なる。データセットXのマハラノビスの距離(たとえば、多変量ベクトル)は、 MDi=(Xi−μx)Σ−1(Xi−μx)’ (1) と表されることがある。 ここで、μxとは、Xの平均値であり、Σ−1とは、Xの逆分散共分散行列である。MDiは、その平均値μxからのデータポイントXiの距離を重み付けして、同じ多変量正規密度輪郭(multivariate normal density contour)についての観測値が同じ距離を有するようにする。このような観測値は、異なる分散を有する別個データ群から、相関関係を有する変数を識別し、選択するのに使用されることがある。

0012

図1に示されているように、データレコード又はデータセットは、最初に収集されて、関連する可能性のある変数を識別することがある(プロセス102)。データレコードは、適切な種類の方法によって収集されることがある。たとえば、データレコードは、実際の製品標本サービス、及び/又は他の物理的エンティティからとられることがある。ある実施形態においては、スパースデータシナリオが生じることがある。つまり、データレコードの数が、関連する可能性のある変数の数より少ないことがある。次いで、データレコードは、明らかに誤った又は一貫性のないデータレコードを取り除くよう予め処理されることがある(プロセス104)。

0013

予め処理されたデータは、多数の潜在変数を所望の部分集合の変数に減少させるよう、マハラノビスの距離の遺伝的アルゴリズム(MDGA)などの、あるアルゴリズムに提供されることがある(プロセス106)。次いで、その減少された部分集合の変数は、正確なデータモデルを作成するのに使用されることがある。その部分集合の変数は、さらに、後に検索するためにデータ記憶装置出力されることがある(プロセス108)。その部分集合の変数はまた、そのデータセットをさらに分析する及び/又はモデル化するために、他のアプリケーションソフトウェアプログラム直接出力されることがある(プロセス110)。アプリケーションソフトウェアプログラムには、適切な種類のデータ処理ソフトウェアプログラムが含まれることがある。上記に説明したプロセスは、1つ以上のコンピュータシステムによって遂行されることがある。

0014

図2は、これらのプロセスを遂行する例示的コンピュータシステムを示す機能ブロック図である。図2に示されているように、コンピュータシステム200には、中央演算処理装置(CPU)202と、ランダムアクセスメモリ(RAM)204と、読取専用メモリ(ROM)206と、コンソール208と、入力デバイス210と、ネットワークインターフェース212と、データベース214−1及び214−2と、記憶装置216とが含まれることがある。列挙したデバイスの種類及び数は単なる例示であり、制限的なものではないことを理解されたい。列挙したデバイスの数は可変であり、他のデバイスが追加されることもある。

0015

CPU202は、上記に説明した様々なプロセス遂行するために、コンピュータプログラム命令シーケンス実行することがある。コンピュータプログラム命令は、CPU202が読取専用メモリ(ROM)から実行するために、RAM204にロードされることがある。記憶装置216は、CPU202がプロセスを遂行するのに必要とする任意の種類の情報格納するよう設けられた、適切な種類の大容量記憶装置であり得る。たとえば、記憶装置216には、記憶空間を設けるよう、1つ以上のハードディスクデバイス光学ディスクデバイス、又は他の記憶装置が含まれることがある。

0016

コンソール208には、情報をコンピュータシステム200のユーザ表示するために、グラフィックユーザインターフェースGUI)が設けられることがある。コンソール208は、適切な種類のコンピュータ表示デバイス又はコンピュータモニターであり得る。ユーザが情報をコンピュータシステム200に入力するよう、入力デバイス210が設けられることがある。入力デバイス210には、キーボードマウス、又は他の光学又はワイヤレスコンピュータ入力デバイスが含まれることがある。さらに、ネットワークインターフェース212には、コンピュータネットワークを通じてコンピュータシステム200に遠隔アクセスするよう、通信接続が設けられることがある。

0017

データベース214−1及び214−2には、モデルデータと、訓練及び試験データなどの、分析されるデータレコードに関係する任意の情報とが含まれることがある。データベース214−1及び214−2はまた、データベース内の情報を分析するための分析ツールを含むことがある。CPU202は、データベース214−1及び214−2を使用して、変数間の相関関係を判断することがある。

0018

上記に説明したように、コンピュータシステム200は、データセット機能を選択し、変数を減少させるために、プロセス106を遂行することがある。ある実施形態においては、コンピュータシステム200は、MDGAを使用して、プロセス106を遂行することがある。図3は、コンピュータシステム200により、より具体的にはコンピュータシステム200のCPU202により遂行されるプロセス106に含まれる変数減少プロセスを示す例示的流れ図である。

0019

図3に示されているように、変数減少プロセスの開始時に、CPU202は、1組の変数に対応するデータセットを得ることがある(ステップ302)。データセットは、他のソフトウェアプログラムによって予め処理されたデータレコードを含むことがある。代替形態として、CPU202は、他のソフトウェアプログラムから直接、データセットを得ることがある。データセットを得た後、CPU202は、そのデータレコードを普通データ及び異常データとして定義することがある(ステップ304)。普通データは、ある所定の標準満足させるデータであり得る。たとえば、普通データには、許容差内で製造された製品に関連する寸法又は機能特性データ、許容差内で遂行されたサービスプロセス性能特性データ、及び/又は他の任意の製品及びプロセスの他の任意の特性データが含まれることがある。普通データにはまた、設計プロセスに関連する特性データが含まれることがある。他方、異常データは、許容差外であり、回避する又は調査する必要がある、任意の特性データであり得る。CPU202は、目標値からの偏差事象離散付値許容しうる具合、及び/又はデータが分布裾内にあるかどうかに基づいて、普通データ及び異常データを定義することがある。ある実施形態においては、普通データ及び異常データは、対応する技術分野の専門家意見又は経験的なデータに基づいて定義されることがある。

0020

普通データ及び異常データは、マハラノビスの距離によって分離されることがある。普通データ、異常データ、及びこれに対応するマハラノビスの距離との間の例示的関係が、図4に示されている。図4に示されているように、普通データセット402及び異常データセット404は、マハラノビスの距離によって分離されることがある。マハラノビスの距離MDnormalは、普通データセット402について計算され、マハラノビスの距離MDabnormalは、異常データセット404について計算されることがある。普通データセット402と異常データセット404との間のマハラノビスの距離の偏差又は差MDxは、MDx=MDx、normal−MDx、abnormalによって判断されることがある。ここで、xとは、データレコードの特定の組の変数である。平均マハラノビスの距離偏差

0021

0022

は、普通データセット402と異常データセット404との間のマハラノビスの距離の偏差全体を評価するために、普通データセット402の平均マハラノビスの距離と異常データセット404の平均マハラノビスの距離とを使用して計算されることがある。他方、マハラノビスの距離MDminは、普通データセット402と異常データセット404との間の、最も近いマハラノビスの距離を示すために計算されることがある。

0023

図3に戻って、普通データセット及び異常データセットを定義した後、CPU202は、マハラノビスの距離の計算と合わせて使用される遺伝的アルゴリズムをセットアップすることがある(ステップ306)。遺伝的アルゴリズムは、進化生物学をコンピュータサイエンス取り入れ原理に基づいて、最適化された解決方法を発見するのに使用される、適切な種類の遺伝的アルゴリズムであり得る。潜在変数の所望の部分集合を探索するよう遺伝的アルゴリズムを適用した場合には、変数は、遺伝的アルゴリズムの評価手順を進めるのに使用されるパラメータリストによって表されることがある。パラメータリストは、選択される場合も又は選択されない場合もある、すべての変数の符号化を表す、染色体又はゲノムと呼ばれることがある。たとえば、変数の「0」符号化は、その変数が選択されないことを示し、変数の「1」符号化は、その変数が選択されたことを示すことがある。染色体にはまた遺伝子が含まれることがあり、それぞれが、個々の変数の符号化であり得る。染色体又はゲノムは、数列のデータ及び/又は命令として実施されることがある。

0024

まず、いくつかのこのようなパラメータリスト又は染色体が生成されて、母集団が作成される。母集団は、ある数の染色体の集合であり得る。母集団内の染色体は、適応度関数又は目標関数に基づいて評価され、適合度又は適応度の値が、適応度関数又は目標関数によって戻されることがある。次いで、母集団はソートされ、より良い適応度を有するものが、最高位ランクされる。

0025

遺伝的アルゴリズムは、選択、交錯(又は複製)、及び突然変異などの、任意の又はすべての遺伝的操作を使用して、ソートされた最初の母集団から第2の母集団を生成することがある。選択中に、所定の閾値未満の適応度値を有する母集団内の染色体が、削除されることがある。ルーレットホイール選択及び/又はトーナメント選択などの選択方法も使用されることがある。選択後、複製オペレーションが、選択された染色体に遂行されることがある。2つの選択された染色体が、無作為に選択された交錯点に沿って交錯されることがある。次いで、2つの新しい子供の染色体が作られ、母集団に追加されることがある。母集団の大きさ復元されるまで、複製オペレーションが続行されることがある。母集団の大きさが復元されると、突然変異が、母集団に選択的に遂行されることがある。突然変異は、たとえば、染色体データ構造内のビットを無作為に変更することにより、無作為に選択された染色体に遂行されることがある。

0026

選択、複製、及び突然変異により、最初世代とは異なる染色体を有する第2世代の母集団が生じることがある。第1世代からのより適合された染色体が選択されるので、第2世代のためのこの手順により、平均的な適応度が増加することがある。このプロセス全体は、遺伝的アルゴリズムが収束するまで、任意の適切な数の世代について繰り返されることがある。それぞれの世代中の遺伝的アルゴリズムの結果が向上し、かつ向上率が所定の率未満に達すると、収束と判断されることがある。この率は、特定のアプリケーションによって選ばれることがある。たとえば、率は、一般的なアプリケーションについては約1%に設定され、またより複雑なアプリケーションについては約0.1%に設定されることがある。

0027

CPU202は、遺伝的アルゴリズムをセットアップした(ステップ306)場合には、所望の部分集合の最大数の変数を識別することがある。上記に説明したように、データセットは、データセット内の総データレコードより多い潜在変数を含むスパースデータセットであり得る。一実施形態においては、最大数は、データセット内の総データレコードの数以下であり得る。CPU202は、この最大数を遺伝的アルゴリズムの染色体符号化に対する制約条件として設定することがある。

0028

CPU202はまた、染色体の適合度又は適応度を評価するために、遺伝的アルゴリズムのための目標関数を設定することがある。ある実施形態においては、目標関数は、普通データセット402と異常データセット404との間のマハラノビスの距離を最大限にすることを含むことがある。マハラノビスの距離の最大偏差は、上述したように、

0029

0030

、MDmin、又はその両方に基づいて判断されることがある。オペレーション中、普通データセット402と異常データセット404との間のマハラノビスの距離偏差が所定の閾値を超えると、目標関数は満足される。マハラノビスの距離偏差の1つ以上の値はまた、収束を判断するなどの、さらなる評価のために目標関数によって戻されることがある。

0031

遺伝的アルゴリズムをセットアップした後(ステップ306)、CPU202は、遺伝的アルゴリズムを開始することがある(ステップ308)。CPU202は、遺伝的アルゴリズムのために、変数の最初の部分集合又は複数の部分集合又はパラメータリストを選ぶことがある。CPU202は、ユーザ入力に基づいて、最初の部分集合を選ぶことがある。代替形態として、CPU202は、潜在変数の間の相関関係及び変数とアプリケーション110の結果との間の相関関係に基づいて、最初の部分集合を選ぶことがある。相関関係は、製造、サービス、財務、及び/又は調査研究アプリケーションなどの、特定のアプリケーションに依存することがある。たとえば、ユニット変数、価格変数、及び天候変数を含む、財務アプリケーションにおいては、ユニット変数及び価格変数は、相関関係を有する可能性があり得る。冗長性を回避するために、ユニット変数及び価格変数の1つのみが選ばれることがあり、天候変数は他の2つと余り相関関係を有する可能性がなく、これも選択されることもある。しかし、ユニット変数及び価格変数の両方が財務アプリケーションの結果、たとえば総費用と相関関係を有する場合、ユニット変数及び価格変数の両方が選択されることがある。

0032

さらに、代替形態として、CPU202により、遺伝的アルゴリズムが、変数の1つ又は複数の部分集合を最初の染色体として無作為に選択することがある。部分集合を無作為に選択するのに使用される乱数の根が、所定の形態に基づいて、ユーザによって又は遺伝的アルゴリズムによって設定されることがある。次いで、CPU202は、選択された変数部分集合に基づいて、普通データ及び異常データの両方についてマハラノビスの距離を計算することがある(ステップ310)。この計算は、等式1に関係する一連のステップに従って、CPU202によって遂行されることがある。たとえば、CPU202は、記述統計を計算する、Z値を計算する、相関行列を構築する、相関行列を逆転させる、Z転置を計算する、マハラノビスの距離を計算することがある。

0033

マハラノビスの距離(たとえば、MDnormal、MDabnormal、

0034

0035

及び/又はMDmin)が計算された後、目標関数が評価されることがある。CPU202は、さらに、遺伝的アルゴリズムが選択された部分集合の変数について収束するかどうかを判断することがある(ステップ312)。アプリケーションの種類によっては、所定の基準が使用されることがある。たとえば、遺伝的アルゴリズムが収束するかどうかを判断するのに、約0.1%の向上率が使用されることがある。遺伝的アルゴリズムが特定の部分集合について収束しない場合(ステップ312;いいえ)、上記に説明したように、遺伝的アルゴリズムは、次世代の染色体を作成するよう続行されることがある。変数減少プロセスは、ステップ310に進み新しく作成された部分集合の変数又は染色体に基づいてマハラノビスの距離を再計算する。他方、遺伝的アルゴリズムが特定の部分集合で収束した場合(ステップ312;はい)、CPU202は、所望の又は最適化された変数部分集合が発見されたと判断することがある。

0036

CPU202は、さらに、変数減少プロセスにより遺伝的アルゴリズムが収束する、最適化された部分集合の変数を保存することがある(ステップ314)。CPU202はまた、後に検索するために記憶装置216内に、或いはデータベース214−1及び/又はデータベース214−2内に、その部分集合を保存することがある。CPU202はまた、さらに処理又は分析するために、その部分集合の変数を他のアプリケーションソフトウェアプログラムに出力することがある(ステップ316)。

0037

ある実施形態においては、CPU202はまた、ステップ304に関して記述したように、クラスタ化アルゴリズムを使用して、普通データセット及び異常データセットを定義することがある。クラスタ化アルゴリズムは、k−平均、ファジィk−平均、最隣接、kohonenネットワーク、及び/又はART(adaptive resonance theory)ネットワークなどの、適切な種類のクラスタ化アルゴリズムを含むことがある。一実施形態においては、「v−fold」交差検証法を用いたk−平均クラスタ化アルゴリズムが使用されることがある。普通データセット及び異常データセットの定義の開始時に、CPU202は、データセットの固有データクラスタ(たとえば、同様のデータ又は相関関係を有するデータ)を識別することがある。2つのクラスタのみが識別された場合、CPU202は、1つのクラスタを普通データセットとして使用し、他のクラスタを異常データセットとして使用することがある。ある状況においては、2つを超えるクラスタが識別されることがある。たとえば、CPU202は、データセットの、3つの、4つの、又はさらにより多くのクラスタを判断することがある。図5は、3つのクラスタが識別された、例示的データセットを例示している。

0038

図5に示されているように、クラスタ502、504、及び506は、クラスタ化アルゴリズムを遂行した後、CPU202によって判断されることがある。CPU202は、正規化平均値の最大差を有する2つのクラスタを普通データセット及び異常データセットとして識別することを決定することがある(たとえば、クラスタ502は普通データセットを表し、クラスタ504は異常データセットを表すことがある)。CPU202は、さらに、クラスタ502とクラスタ506との間の正規化平均値の差、及びクラスタ504とクラスタ506との間の正規化平均値の差を判断することがある。これらの差を比較することにより、CPU202は、クラスタ506が普通データセット又は異常データセットのいずれに含まれるべきであるかどうかを決定することがある。たとえば、クラスタ502とクラスタ506との間の正規化平均値の差が、クラスタ504とクラスタ506との間の正規化平均値の差より大きい場合、CPU202は、クラスタ506を異常データとして定義することがある。他方、クラスタ502とクラスタ506との間の正規化平均値の差が、クラスタ504とクラスタ506との間の正規化平均値の差未満である場合、CPU202は、クラスタ506を普通データとして定義することがある。

0039

代替形態として、CPU202は、クラスタ506及びクラスタ502及びクラスタ504のそれぞれの要素の間の差を判断することがある。次いで、CPU202は、その差に基づいて、クラスタ506の特定の要素が普通データとして定義されるべきであるか又は異常データとして定義されるべきであるかを決定することがある。図5には3つのクラスタが示されているが、任意の数のクラスタが使用されることもある。

0040

さらに、変数間の関係はまた、クラスタ化アルゴリズムのオペレーション中に、特に、2つを超えるクラスタが判断され、データセットの1つの中に個々の要素が含まれることが決定された場合に、識別されることがある。このような関係は、さらに、CPU202により、部分集合の変数の最初の選択を判断するよう、遺伝的アルゴリズムに提供されることがある。たとえば、いくつかの変数がクラスタの判断にかなり寄与する場合、これらの変数は、所望の部分集合の変数内に含まれている可能性があり、したがって、遺伝的アルゴリズムの母集団の種となる(seed)よう提供されることがある。

0041

開示されているマハラノビスの距離の遺伝的アルゴリズム(MDGA)の方法及びシステムは、他の従来の方法及びシステムでは達成するのが困難である又は実際的でない、スパースデータシナリオにおいて変数を効果的に減少させるための所望の解決方法を提供することがある。開示されている方法及びシステムは、より正確なモデルを作成するのに使用され得る、所望の部分集合の変数を識別するのに使用されることがある。開示されている方法及びシステムが組み込まれた場合には、他の統計的又は人工知能モデリングツールの性能が著しく向上することがある。

0042

開示されている方法及びシステムはまた、寸法又は変数の数がそれぞれの変数がサポートする可能な動作数より大きい、データセットの寸法を効果的に減少させるのに使用されることがある。開示されている方法及びシステムは、スパースデータシナリオ又はデータが逆のシナリオなどの、様々なシナリオにおけるデータセットの寸法を減少させることがある。

0043

開示されている方法及びシステムはまた、クラスタ化アルゴリズムを使用してデータ特性を定義する選択肢を提供することがある。開示されているクラスタ化アルゴリズムは、クラスタ数についての事前知識なしで、普通データセット及び異常データセットを分類するための所望のデータレコードを効果的に発見することがある。組み合わせられたクラスタ化されたMDGAは、異なるデータレコード間定量的に区別し得る、最も経済的な解決方法のための、変数の候補部分集合を探索する能力などの、追加機能を提供することがある。このようなデータ特性は、さらに、モデリングツールの演算速度を増加するよう、知識ベースのモデリングツールに提供されることがある。

0044

開示されている例示的システムの、他の実施形態、特徴、態様、及び原理は、当業者には自明であり、また作業現場環境に制限されない様々な環境において実施されるものである。


図面の簡単な説明

0045

ある開示された実施形態に合致している、例示的データ分析及び処理の流れを例示する流れ図である。 ある開示された実施形態に合致しているコンピュータシステムを例示するブロック図である。 コンピュータシステムによって遂行される例示的変数減少プロセスを例示する流れ図である。 普通データと異常データとこれに対応するマハラノビスの距離との間の例示的関係を例示する図である。 開示された実施形態に合致している、データセットの例示的クラスタを例示する図である。


ページトップへ

Do you need an accurate translation of this document?

Request for estimate

技術視点だけで見ていませんか?

この技術の活用可能性がある課題・分野

将来の市場規模・変化の兆しを知りたい方- 課題視点で見る -

分野別動向を把握したい方- 事業化視点で見る -

( 分野番号表示ON )※整理標準化データをもとに当社作成

ページトップへ

Do you need an accurate translation of this document?

Request for estimate

新着 最近公開された関連が強い技術

この技術と関連性が強い人物

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)、及び、法人情報を提供している企業からの情報を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ

法人情報…有価証券報告書、財務諸表(XBRL)、企業データ提供会社情報(ヒアリング、企業コーポレートサイト等)

「SNS上の友人」や「同僚・知人」に、このページをお勧めできそうな方はいませんか?