図面 (/)

技術 データ処理方法、データ処理装置およびそのプログラム

出願人 国立大学法人奈良先端科学技術大学院大学ソニー株式会社国立研究開発法人情報通信研究機構
発明者 土井晃一三森智裕福田安志実井仁村田真樹
出願日 2005年3月11日 (15年9ヶ月経過) 出願番号 2005-069921
公開日 2006年9月21日 (14年3ヶ月経過) 公開番号 2006-252333
状態 拒絶査定
技術分野 学習型計算機
主要キーワード データ生成機 課題設定 類似度計算式 超空間 売り上げ個数 TD内 処理単位データ 被処理データ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2006年9月21日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

複数の学習データを用いて機械学習を行う場合に、機械学習の信頼性を高めることができるデータ処理方法を提供する。

解決手段

類似学習データ生成部4において、n個の学習データSDqのうち、被処理データとの間の類似度が高い類似学習データSSDqを選択する。機械学習機5は、類似学習データSSDqを用いて機械学習を行う。

概要

背景

例えば、遺伝子解析システムは、遺伝子間に生じる作用を、遺伝子(分子)名をノードとし、作用をノード間のリンクとして表現したデータベースを用いる。
このようなデータベースを構築するには、例えば、公開された論文のなかから、遺伝子名を抽出してノードとしてデータベースに登録する。
ここで、公開された論文数は膨大であるため、人間が論文を見て遺伝子名を抽出するのでは負担があまりに大きい。
そのため、コンピュータなどを用いて、論文データから機械的に遺伝子名を抽出することが考えられる。しかしながら、新規の遺伝子名を機械的に抽出するのは困難である。
同様の問題は、遺伝子名の他、人名、地名、組織名などの固有表現文字データから抽出する場合に生じる。
このような問題を解決するために、例えば、SVMなどのように、予め被学習データトレーニングデータ)について、所定の解析単位トークン)で所望の固有表現が出現するパターンを特定し、そのパターンを学習データとして用いて、被処理データから上記固有表現を抽出する機械学習装置ある。
従来の機械学習装置は、例えば、当該機械学習装置が保持する複数の学習データの全てを用いて、被処理データから所望の固有表現を抽出している。
「Gene/protain recognition using Support Vector Machine after dictionary matching」, Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi and Hirohumi Doi BioCreative Workshop: Critical Assessment for Information Extraction in Biology (BioCreative 2004), Granada, Spain, March, 2004
中野、平井、日本語固有表現抽出における文節情報の利用、情報処理学会論文誌、Vol.45 No.3、p934−941、Mar.2004
平、野、Support Vector Machineによるテキスト分類における属性選択、情報処理学会論文誌、Vol.45 No.4、p1113−1123、Apr.2004

概要

複数の学習データを用いて機械学習を行う場合に、機械学習の信頼性を高めることができるデータ処理方法を提供する。 類似学習データ生成部4において、n個の学習データSDqのうち、被処理データとの間の類似度が高い類似学習データSSDqを選択する。機械学習機5は、類似学習データSSDqを用いて機械学習を行う。

目的

本発明は上述した従来技術の問題点を解決するために、複数の学習データを用いて被処理データに処理を施す場合に、その処理の信頼性を高めることができるデータ処理方法、データ処理装置およびそのプログラムを提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

被学習データを基に生成した学習データを用いて、被処理データ機械学習処理するデータ処理方法であって、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する第1の工程と、前記第1の工程で生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する第2の工程と、前記第2の工程で選択した前記学習データを用いて、前記被処理データを機械学習処理する第3の工程とを有するデータ処理方法。

請求項2

前記学習データは、前記被学習データを構成する複数の処理単位データの各々と、その属性を示す属性データとの対応関係を規定し、前記第3の工程は、前記第2の工程で選択した前記学習データが規定する前記対応関係を基に、前記被処理データを構成する複数の処理単位データと、その前記属性データとの対応関係を規定する処理を行う請求項1に記載のデータ処理方法。

請求項3

前記第1の工程は、複数の前記被学習データの各々について、当該学習データの前記被学習データを構成する前記処理単位データと、前記被処理データを構成する前記処理単位データとの類似度を示す前記類似度データを生成し、前記第3の工程は、前記第2の工程で選択した前記学習データを用いて、前記被処理データを構成する前記処理単位データに前記属性データを付加する処理を行う請求項2に記載のデータ処理方法。

請求項4

前記第1の工程は、前記被学習データおよび前記被処理データの各々について、各データを構成する前記処理単位データを基に各データの特徴を、予め決められ特徴評価座標系内で規定したベクトルデータを生成し、当該ベクトルデータを基に、前記類似度データを生成する請求項1に記載のデータ処理方法。

請求項5

前記被学習データおよび前記被処理データは文書データであり、前記処理単位データが語データである場合に、前記第1の工程は、前記各データに出現する前記語データの種類を前記ベクトルデータの要素とし、当該種類の語データの出現頻度を前記要素の値とする前記ベクトルデータを生成する請求項4に記載のデータ処理方法。

請求項6

前記第1の工程は、(X,Y,Z)で示される前記ベクトルデータを生成し、A1: d(x,y)≧0A2: d(x,y)=d(y,x)A3: d(x,y)=0 となる必要十分条件は x=y であるA3': d(x,x)=0A4: d(x,z)≦ d(x,y) + d(y,z)とし、B1: A1,A2,A3,A4B2: A1,A2,A3',A4B3: A1,A2,A3B4: A1,A2,A3'B5: A1,A2とした場合に、上記B1,B2,B3,B4,B5のいずれかを満たす測度を示す関数d() を用いる、もしくは、類似度が増加することに対して、距離が単調に減少する類似度計算式によって距離を計算し、当該距離を示す前記類似度データを生成する請求項4に記載のデータ処理方法。

請求項7

被学習データを構成する複数の処理単位データの各々に属性データを付した学習データを用いて、被処理データに前記属性データを機械学習により付加するデータ処理装置が実行するデータ処理方法であって、複数の前記学習データの各々について、当該学習データの前記被学習データを構成する前記処理単位データと、前記被処理データを構成する前記処理単位データとの類似度を示す類似度データを生成する第1の工程と、前記第1の工程で生成した前記類似度データを基に、前記複数の学習データの前記被学習データのうち、前記被処理データとの間の類似度が所定の基準を満たす前記被学習データを特定し、当該特定した前記被学習データに対応する前記学習データを選択する第2の工程と、前記第2の工程で選択した前記学習データを用いて、前記被処理データを構成する前記処理単位データに前記属性データを機械学習により付加する第3の工程とを有するデータ処理方法。

請求項8

前記第1の工程は、前記被処理データおよび前記被学習データに含まれる異なる種類の前記処理単位データを特定し、前記被処理データおよび被学習データの各々について、前記異なる種類の前記処理単位データの各々が含まれる数を特定し、当該特定した数を、前記被処理データおよび被学習データの各々を構成する前記処理単位データの総数除算して指標データを生成し、前記被処理データおよび前記被学習データの各々について得られた前記異なる種類の前記処理単位データの前記指標データの組み合わせパターンを基に前記類似度データを生成する請求項7に記載のデータ処理方法。

請求項9

前記第1の工程は、前記被処理データおよび前記学習データの各々について得られた前記異なる種類の前記処理単位データの前記指標データを要素とするベクトルデータを生成し、前記被処理データの前記ベクトルデータと、前記複数の被学習データの前記ベクトルデータとの関係を基に前記類似度データを生成する請求項8に記載のデータ処理方法。

請求項10

前記第1の工程は、前記特定した種類の前記処理単位データを含む前記被処理データおよび被学習データの数が多くなるに従って当該種類の前記処理単位データの前記指標データの値を小さくする処理を前記指標データに施し、当該処理が施された後の前記指標データの前記組み合わせパターンを基に前記類似度データを生成する請求項9に記載のデータ処理方法。

請求項11

前記学習データの数をn、前記被処理データの数を1とし、n個の前記学習データにそれぞれ対応したn個の前記被学習データと、前記被処理データとに含まれる前記処理単位データの種類の数をkとし、iを1〜kの整数、jをN個の被学習データと1個の被処理データとに付した識別子とし、前記指標データを「TF(i,j)=(処理単位データiが被学習データj(被処理データj)に出現する回数)/(被学習データj(被処理データj)に含まれる処理単位データの総数)」とし、「DF(i)=(n個の前記被学習データと前記被処理データとのうち、処理単位データiが出現するものの数)」とした場合に、前記第1の工程は、「IDF(i)=log[(N+1)/DF(i)]」を計算し、「w(i,j)=TF(i,j)*IDF(i)」を計算し、前記n個の被学習データq(qは1〜Nの整数)のベクトルD(q)をD(q)=(w(1、q),w(2,q),....,w(k,q))とし、前記被処理データのベクトルD(M)をDM=(w(1、M),w(2,M),....,w(k,M))とし、1〜nの全てのqについて、前記類似度データBA(q)を下記式(1)により計算する請求項10に記載のデータ処理方法。

請求項12

前記第1の工程は、メモリから読み出した前記複数の学習データの前記被学習データと、前記データ処理装置の外部から入力した前記被処理データとを用いて前記類似度データを生成し、前記第2の工程は、前記メモリから読み出した前記学習データのなかから、前記特定した被学習データに対応する前記学習データを選択する請求項7に記載のデータ処理方法。

請求項13

前記データ処理装置は、類似データ生成手段、選択手段および属性データ付加手段を有し、前記類似データ生成手段が前記第1の工程を行い、前記選択手段が前記第2の工程を行い、前記属性データ付加手段が前記第3の工程を行う請求項7に記載のデータ処理方法。

請求項14

被学習データを基に生成した学習データを用いて、被処理データを機械学習処理するデータ処理装置であって、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する類似度データ生成手段と、前記類似度データ生成手段が生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する選択手段と、前記選択手段が選択した前記学習データを用いて、前記被処理データを機械学習処理する処理手段とを有するデータ処理装置。

請求項15

被学習データを基に生成した学習データを用いて、被処理データを機械学習処理するデータ処理装置が実行するプログラムであって、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する第1の手順と、前記第1の手順で生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する第2の手順と、前記第2の手順で選択した前記学習データを用いて、前記被処理データを機械学習処理する第3の手順とを有するプログラム。

技術分野

0001

本発明は、学習データを用いて、被処理データを処理するデータ処理方法データ処理装置およびそのプログラムに関する。

背景技術

0002

例えば、遺伝子解析システムは、遺伝子間に生じる作用を、遺伝子(分子)名をノードとし、作用をノード間のリンクとして表現したデータベースを用いる。
このようなデータベースを構築するには、例えば、公開された論文のなかから、遺伝子名を抽出してノードとしてデータベースに登録する。
ここで、公開された論文数は膨大であるため、人間が論文を見て遺伝子名を抽出するのでは負担があまりに大きい。
そのため、コンピュータなどを用いて、論文データから機械的に遺伝子名を抽出することが考えられる。しかしながら、新規の遺伝子名を機械的に抽出するのは困難である。
同様の問題は、遺伝子名の他、人名、地名、組織名などの固有表現文字データから抽出する場合に生じる。
このような問題を解決するために、例えば、SVMなどのように、予め被学習データトレーニングデータ)について、所定の解析単位トークン)で所望の固有表現が出現するパターンを特定し、そのパターンを学習データとして用いて、被処理データから上記固有表現を抽出する機械学習装置ある。
従来の機械学習装置は、例えば、当該機械学習装置が保持する複数の学習データの全てを用いて、被処理データから所望の固有表現を抽出している。
「Gene/protain recognition using Support Vector Machine after dictionary matching」, Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi and Hirohumi Doi BioCreative Workshop: Critical Assessment for Information Extraction in Biology (BioCreative 2004), Granada, Spain, March, 2004
中野、平井、日本語固有表現抽出における文節情報の利用、情報処理学会論文誌、Vol.45 No.3、p934−941、Mar.2004
平、野、Support Vector Machineによるテキスト分類における属性選択、情報処理学会論文誌、Vol.45 No.4、p1113−1123、Apr.2004

発明が解決しようとする課題

0003

しかしながら、上述した従来の機械学習装置は、被処理データの属性とは無関係に、当該機械学習装置が保持する全ての学習データを用いて当該被処理データから固有表現を抽出するため、被処理データの属性と類似度が低い学習データが用いられることにより、固有表現抽出信頼性が低くなるという問題がある。
同様の問題は、上述した遺伝子解析システム以外の機械学習装置にもある。

0004

本発明は上述した従来技術の問題点を解決するために、複数の学習データを用いて被処理データに処理を施す場合に、その処理の信頼性を高めることができるデータ処理方法、データ処理装置およびそのプログラムを提供することを目的とする。

課題を解決するための手段

0005

上述した従来技術の問題点を解決し、上述した目的を達成するため、第1の観点の発明のデータ処理方法は、被学習データを基に生成した学習データを用いて、被処理データを機械学習処理するデータ処理方法であって、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する第1の工程と、前記第1の工程で生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する第2の工程と、前記第2の工程で選択した前記学習データを用いて、前記被処理データを機械学習処理する第3の工程とを有する。

0006

第2の観点の発明のデータ処理方法は、被学習データを構成する複数の処理単位データの各々に属性データを付した学習データを用いて、被処理データに前記属性データを機械学習により付加するデータ処理装置が実行するデータ処理方法であって、複数の前記学習データの各々について、当該学習データの前記被学習データを構成する前記処理単位データと、前記被処理データを構成する前記処理単位データとの類似度を示す類似度データを生成する第1の工程と、前記第1の工程で生成した前記類似度データを基に、前記複数の学習データの前記被学習データのうち、前記被処理データとの間の類似度が所定の基準を満たす前記被学習データを特定し、当該特定した前記被学習データに対応する前記学習データを選択する第2の工程と、前記第2の工程で選択した前記学習データを用いて、前記被処理データを構成する前記処理単位データに前記属性データを機械学習により付加する第3の工程とを有する。

0007

第3の観点の発明のデータ処理装置は、被学習データを基に生成した学習データを用いて、被処理データを機械学習処理するデータ処理装置であって、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する類似度データ生成手段と、前記類似度データ生成手段が生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する選択手段と、前記選択手段が選択した前記学習データを用いて、前記被処理データを機械学習処理する処理手段とを有する。

0008

第3の観点の発明のデータ処理装置の作用は以下のようになる。
類似度データ生成手段が、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する。
次に、選択手段が、前記類似度データ生成手段が生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する。
次に、処理手段が、前記選択手段が選択した前記学習データを用いて、前記被処理データを機械学習処理する。

0009

第4の観点の発明のプログラムは、被学習データを基に生成した学習データを用いて、被処理データを機械学習処理するデータ処理装置が実行するプログラムであって、複数の前記学習データの各々について、当該学習データを生成するために用いた前記被学習データと、前記被処理データとの類似度を示す類似度データを生成する第1の手順と、前記第1の手順で生成した前記類似度データを基に、前記複数の学習データのうち一部の学習データを選択する第2の手順と、前記第2の手順で選択した前記学習データを用いて、前記被処理データを機械学習処理する第3の手順とを有する。

発明の効果

0010

本発明のデータ処理方法、データ処理装置およびそのプログラムによれば、複数の学習データを用いて被処理データに処理を施す場合に、その処理の信頼性を高めることができるデータ処理方法、データ処理装置およびそのプログラムを提供することができる。

発明を実施するための最良の形態

0011

以下、本発明の実施形態に係わる機械学習装置について説明する。
なお、以下の実施形態において、第2実施形態は、第1実施形態の機械学習システムを、論文等の学習処理を行う機械学習システムに適用した本発明の一例としての実施形態である。
また、第3実施形態は、第1実施形態の機械学習システムを、インターネット上のコンテンツへのアクセス制御を行う機械学習システムに適用した本発明の一例としての実施形態である。

0012

<第1実施形態>
図1は、本発明の第1実施形態の機械学習システムの構成図である。
図1に示すように、本実施形態の機械学習システムは、例えば、類似学習データ生成機2と、機械学習機3とを有する。
類似学習データ生成機2は、例えば、類似度計算部3および類似学習データ生成部4を有する。
本実施形態の機械学習システムは、正答例集合(学習データSDq)の中から、解きたい問題(問題データTD)との類似度が所定の条件を満たす部分集合(類似学習データSSDq)を選択し、学習機に対する学習データとすることによって、学習速度と精度の向上を図るものである。
先ず、本実施形態の構成要素と、本発明の構成要素との対応関係を説明する。
図1等に示す問題データTDが本発明の被処理データに対応し、学習データSDqが本発明の学習データに対応している。
また、に示す被学習データRqが本発明の被学習データに対応している。
また、本実施形態の語が、本発明の処理単位データに対応している。
また、本実施形態の類似度データBA(q)が本発明の類似度データに対応している。
図1に示す類似度計算部3が第3の観点の発明の類似データ生成手段に対応し、類似学習データ生成部4が第3の観点の発明の選択手段に対応し、機械学習機5が第3の観点の発明の処理手段に対応している。
また、図1に示す類似度計算部3、類似学習データ生成部4および機械学習機5の機能をプログラムとして記述し、処理回路で実行することが可能であり、その場合に当該プログラムが第4の観点の発明のプログラムに対応する。

0013

[類似度計算部3]
類似度計算部3は、n個の学習データSqの被学習データRqの各々について、当該被学習データRqと、問題データTDとの類似度を計算する。
本実施形態において、被学習データRqおよび問題データTDは、POS(Point Of Sale)データ、テキストデータおよびマルチメディアデータなどである。
これらのデータは、複数の処理単位データを組み合わせて構成されている。
類似度計算部3は、複数の被学習データRqの各々について、当該被学習データRqを構成する処理単位データと、問題データTDを構成する処理単位データとの類似度を示す類似度データを生成し、これを類似学習データ生成部4に出力する。
具体的には、類似度計算部3は、被学習データRqおよび問題データTDの各々について、各データを構成する処理単位データを基に各データの特徴を、予め決められ特徴評価座標系内で規定したベクトルデータを生成する。
そして、類似度計算部3は、上記生成したベクトルデータを基に、類似度データを生成する。

0014

類似度計算部3は、例えば、(X,Y,Z)で示される上記ベクトルデータを生成し、
A1: d(x,y)≧0
A2: d(x,y)=d(y,x)
A3: d(x,y)=0 となる必要十分条件は x=y である
A3': d(x,x)=0
A4: d(x,z)≦ d(x,y) + d(y,z)
とし、
B1: A1,A2,A3,A4
B2: A1,A2,A3',A4
B3: A1,A2,A3
B4: A1,A2,A3'
B5: A1,A2
とした場合に、
上記B1,B2,B3,B4,B5のいずれかを満たす測度(測定した値)を示す関数d() を用いる、もしくは、類似度が増加することに対して、距離が単調に減少する類似度計算式によって距離を計算し、当該距離を示す前記類似度データを生成する。
ここで、上記B1が、いわゆる「距離」に相当する。例えば、3次元空間であればユークリッド距離であり、「d(x,y)={(x1-y1)^2+(x2-y2)^2+(x3-y3)^2}^(1/2)」となる。

0015

また、類似度計算部3は、数の被学習データRqの各々について、当該被学習データRqを構成する処理単位データと、問題データTDを構成する処理単位データとの距離を所定の座標系で示す類似度データを生成してもよい。
この場合、類似度計算部3は、距離計算方法として、ユークリッド距離やユークリッド平方距離、標準化ユークリッド距離、ミンコフスキー距離、もしくはカーネル法による距離計算による評価手法を用いる。

0016

また、類似度計算部3は、一つの被学習データRqあるいは問題データTDに対して問題とする処理単位データ群に対して求まる複数の距離、ないしは類似度に対して、距離に関しては別途与えられた類似度への変換式を用いて変換を行った後、類似度ベクトルとして表現し、別途定義する選択関数によってスカラー値に変換し、これを類似度データとしてもよい。
また、類似度計算部3は、複数の類似度を要素として持つ類似度ベクトルに対して、各要素の和、二乗和最大値の選択、最小値の選択等によってスカラーに変換する計算を行ってもよい。また、類似度計算部3は、上記生成した距離データにゼロでない正数を加え、逆数を取ったものを類似度データとしてもよい。

0017

[類似学習データ生成部4]
類似学習データ生成部4は、n個の被学習データRqのうち、類似度計算部3で生成した類似度データが示す類似度が所定のしきい値を超える被学習データRqの学習データSDqを選択し、これを類似学習データSSDqとして機械学習機5に出力する。
ここで、学習データSDqは、図1に示すように、被学習データRqと、その属性データPDとを含んでいる。
ここで、属性データPDは、被学習データRqを構成する処理単位データの各々について、その属性を示している。
当該属性は、例えば、被学習データRqおよび問題データTDが電子メールである場合には、迷惑メールであるか否かを示す情報であり、被学習データRqおよび問題データTDが文書データである場合には、語の品詞を示す情報である。

0018

[機械学習機5]
機械学習機5は、類似学習データ生成部4から入力した類似学習データSSDqを用いて、問題データTDの処理を行う。
具体的には、機械学習機5は、類似学習データSSDqを用いて、問題データTDを構成する処理単位データに属性データPDを付加する。
機械学習機5は、例えば、SVM(Support Vector Machine)、Artificial Neural Network、遺伝的アルゴリズムなど、教師有り学習処理を行う。
機械学習機5の学習で用いる学習ルールは、Support Vector Machine においてはデータ分離を行う超平面を記述するパラメータ群となり、Artificial Neural Network では、各ニューロンに対する重みベクトルになる。
機械学習機5は、機械学習法として、上記SMVなどの他に、決定リスト、類似度に基づく方法、シンプルベイズ法最大エントロピー法決定木ニューラルネット判別分析等の手法を用いてもよい。

0019

以下、機械学習機5が一例として採用するSVMについて説明する。
SVMは、例えば、前述した非特許文献3等に開示されている。
機械学習機5は、問題データTDを超空間上で正例集合へと分離する際、マージンを最大にすることによって最適な分離超平面を得るSVMに基づく学習処理を行う。
SVMは、最小の汎化誤差保証する仮説を見つける構造的リスク最小化に基づく手法である。
SVMは、例えば、入力ベクトル(問題データTD)をxとした場合に、下記式(2)の関数が仮説hを示すとする。

0020

0021

上記式(2)において、w、bは、パラメータである。入力ベクトルxの次元nとVC次元λの関係については以下の補助定理が知られている。

0022

補助定理:
仮説h(x)として超平面h(x)=sign{w・x+b}を仮定する。l個の訓練データ(本実施形態では、類似学習データSSDq)x=xi(iは1〜lまでの整数)全てを含む半径Rの球が存在し、各xiに対して下記式(3)が成り立つならば、||w||をwのノルムとした場合、VC次元λについて下記式(4)が成り立つ。

0023

0024

0025

上記式(4)から、VC次元は、||w||に依存する場合がある。
SVMは、上記訓練データを正例と負例とにわけ、正負例間のマージンが最大、すなわち、||w||が最小になる超平面を特定する。
機械学習機5は、上記超平面の特定を、例えば、ラグランジェ乗数を用いて2次最適化問題として処理する。

0026

以上説明したように、本実施形態の機械学習システムによれば、n個の学習データSDqのうち問題データTDとの間の類似度が高いもののみを選択して用いて、機械学習機5において問題データTDの学習処理を行う。
そのため、問題データTDの学習に、問題データTDとの間の類似度が低い学習データSDqは用いられなくなり、処理済データTRの信頼性が高まる。
その結果、処理済データTRの信頼性を高めることができる。

0027

また、本実施形態の機械学習システムによれば、処理の信頼性向上の他に、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの低減という効果が得られる。

0028

本実施形態において、問題データTDとしてテキストデータを入力し、個々の単語に対して、品詞情報、単語尾スペル、語の種類を属性データとして、テキストデータ内から所望の単語を抽出する課題を設定して、システム提示を行う。ここで、入力や課題設定はこれに限られたものではなく、いろいろな応用ができることは明白である。例えば、図4に示すように、問題データTDとして、Point Of Sale データや、音楽音声テレビ番組ビデオ映像などのマルチメディアデータ等を指定することができ、また、課題設定として、売り上げパターンの解析や、迷惑メールやニュース番組等のフィルタリングや、ユーザが所望する映像クリップを抽出することなどができる。
本実施形態は、POSデータからの顧客動向抽出や、テキストデータやマルチメディアデータの分類、及び情報抽出を行うシステムに適用可能である。
また、本実施形態の処理単位データは、商品種とその売り上げ個数入荷日、売上日、年齢性別家族構成等の購買顧客情報などを含む Point Of Sales 情報や、メール文章、論文、特許、HP文書番組表歌詞等の文書、ないしは文章や単語へ分解したもの、楽譜データ、音楽等の時系列データ、ガスクロマトグラフィーによる出力結果や等のスペクトルデータ、ニュース番組やドラマビデオ画像などの映像情報など、ある構成単位を定義し、これの組み合わせや重ね合わせ、合成、シーケンスとして構成する、ないしは構成されているものとして解析を行ったデータ、および、データを何らかの付加手続きを用いて加工したデータを付加して用いることもできる。

0029

<第2実施形態>
第2実施形態は、第1実施形態の機械学習システムを、論文等の学習処理を行う機械学習システムに適用した実施形態である。

0030

先ず、本実施形態の構成要素と、本発明の構成要素との対応関係を説明する。
図3等に示す問題データTDが本発明の被処理データに対応し、学習データSDqが本発明の学習データに対応している。
また、図4等に示す被学習データRqが本発明の被学習データに対応している。
また、本実施形態の語が、本発明の処理単位データに対応している。
また、本実施形態の類似度データBA(q)が本発明の類似度データに対応している。
また、式(6)に示す、指標データTF(i,j)が本発明の指標データに対応している。
図13に示すステップST2が第1の観点の発明の第1の工程に対応し、ステップST3が第2の工程に対応し、ステップST5が第3の工程に対応している。
また、図5に示す類似学習データ選択部11の類似度計算部33が第3の観点の発明の類似データ生成手段に対応し、学習データ選択部34が第3の観点の発明の選択手段に対応し、図12に示すIOB付加部22のIOB判定部72が第3の観点の発明の処理手段に対応している。

0031

図3は、本発明の実施形態に係わる機械学習装置1の全体構成図である。
図3に示すように、機械学習装置1は、例えば、メモリ9、類似学習データ選択部11、タグ付加部13、IOB判定データ生成部15、タグ付加部21、並びにIOB付加部22を有する。
機械学習装置1の各構成要素は、例えば、電子回路などのハードウェアにより構成される。
また、後述する当該各構成要素を構成する要素も、それぞれ電子回路などのハードウェアを用いて構成される。
なお、本発明は、図3に示す機械学習装置1の各構成要素、並びにその要素の一部あるいは全部をCPU(Central Processing Unit)がプログラムを実行することで実現してもよい。

0032

先ず、図3に示すメモリ9に記憶され、類似学習データ選択部11に入力される学習データSDq(SD1〜SDn)を説明する。
図4は、学習データSDq(SD1〜SDn)を説明するための図である。
図4に示すように、学習データSDqは、予め被学習データRq内の全ての語の各々について、その属性タグデータIOBを対応付けたデータである。
ここで、属性タグデータIOBは、所定の用語(例えば、蛋白質名称)を構成する先頭の語に対して“B”を示している。
また、属性タグデータIOBは、先頭の語に続く語であって、上記所定の語を構成する語に対して”I“を示している。
また、属性タグデータIOBは、上記所定の語を構成しない語に対して“O”を示している。
なお、本実施形態において、被学習データRqおよび問題データTDは、例えば、蛋白質の名称を含むような英語の論文データであり、例えば、スペース区切り文字とし、文末ピリオドとその直前の語は分割することを当該英文を語に分割するルールとする。
また、本実施形態では、機械学習装置1は、n個の学習データSDqが利用可能である。

0033

以下、図3に示す各構成要素を説明する。
[類似学習データ選択部11]
図5は、図3に示す類似学習データ選択部11の構成図である。
図5に示すように、類似学習データ選択部11は、入力部31、入力部32、類似度計算部33、学習データ選択部34、並びに出力部35を有する。
入力部31は、例えば、機械学習装置1が備えるメモリ(図示せず)あるいは機械学習装置1の外部から、図4に示すn個の学習データSDqを入力する。
また、入力部32は、機械学習装置1の外部から図6に示す問題データTDを入力する。

0034

類似度計算部33は、入力部31が入力した図4に示すn個の学習データSDq内の被学習データRqの各々につて、当該被学習データRqと、問題データTDとの類似度を計算する。
以下、当該類似度の計算方法について説明する。
ここで、n個の学習データSDqにそれぞれ対応したn個の被学習データRqと、問題データTDとに含まれる語の種類の数をkとする。
また、“i”は1〜kの整数、“j”はn個の被学習データRqと1個の問題データTDとに付した識別子とする。

0035

類似度計算部33は、下記式(5)により、指標データTF(i,j)を計算する。

0036

[数5]
TF(i,j)=(語iが被学習データRj(問題データTD)に出現する回数)/(被学習データRj(問題データTD)に含まれる語の総数
…(5)

0037

また、類似度計算部33は、下記式(6)により、DF(i)を特定する。

0038

[数6]
DF(i)=(n個の被学習データRqと、問題データTDとのうち、語iが出現するものの数)
…(6)

0039

また、類似度計算部33は、被学習データRqと問題データTDとの各々について、全ての語iとの間のw(i,j)を下記式(7),(8)により計算する。

0040

[数7]
IDF(i)=log[(N+1)/DF(i)]
…(7)

0041

[数8]
w(i,j)=TF(i,j)*IDF(i)
…(8)

0042

上記IDF(i)は、問題データTDおよび被学習データRqのうち、語iを含むものの数が多くなるに従って指数関数的にその値を小さくする。
このようなIDF(i)をTF(i,j)に乗じてw(i,j)を生成することで、「a」,「the」,「this」,「that」などの抽出すべき固有表現ではない、当該データの属性とは無関係の語が類似度に与える影響を殆どなくすことができる。

0043

そして、類似度計算部33は、被学習データRqと問題データTDとの各々について、下記(9),(10)によりベクトルD(q),D(M)を規定する。

0044

[数9]
D(q)=(w(1,q),w(2,q),....,w(k,q)
…(9)

0045

[数10]
DM=(w(1,M),w(2,M),....,w(k,M))
…(10)

0046

そして、類似度計算部33は、全ての被学習データRqについて、下記(11)に示す類似度データBA(q)を計算する。

0047

0048

類似度計算部33は、類似度データBA(q)を学習データ選択部34に出力する。

0049

学習データ選択部34は、入力部31が入力したn個の学習データSDqのうち、類似度計算部33から入力した類似度データBA(q)が所定の基準値を超えるもののみを選択して類似学習データSSDqとして出力部35に出力する。
なお、学習データ選択部34は、入力部31から入力したn個の学習データSDqのうち、類似度データBA(q)が示す類似度が高いものから所定数分だけ選択して出力部35に出力してもよい。
図5に示す例では、学習データ選択部34は、学習データSD1,3,10を類似学習データSSDqとして出力部35に出力する。

0050

出力部35は、学習データ選択部34から入力した類似学習データSSDqを、図3に示すタグ付加部13に出力する。

0051

[タグ付加部13]
図3に示すタグ付加部13は、図7に示すように、類似学習データ選択部11から入力した類似学習データSSDqの被学習データRqを構成する各語について、その品詞データと、suffixデータとを付加して新たな類似学習データSSDAqを生成する。

0052

図8は、図3にタグ付加部13の構成図である。
図8に示すように、タグ付加部13は、例えば、入力部41、品詞タガー部42、Suffixタガー部43、並びに出力部44を有する。
入力部41は、図3に示す類似学習データ選択部11から類似学習データSSDqを入力し、これを品詞タガー部42に出力する。
品詞タガー部42は、入力部41から入力した図7に示す類似学習データSSDq内の各語に、その品詞を示す品詞データを付加し、これをSuffixタガー部43に出力する。
Suffixタガー部43は、図7に示すように、品詞タガー部42から入力した品詞データが付加された類似学習データの各語に、そのsuffix(接尾辞)データをさらに付加して類似学習データSSDAqを生成し、これを出力部44に出力する。
本実施形態では、Suffixタガー部43は、3gramのsuffixを付加する。
出力部44は、Suffixタガー部43から入力した類似学習データSSDAqを図3に示すIOB判定データ生成部15に出力する。

0053

[IOB判定データ生成部15]
IOB判定データ生成部15は、タグ付加部13から入力した図7に示す類似学習データSSDAqを用いて、IOB付加部22における解析に用いるIOB判定データ(素性データ)SPを生成し、これをIOB付加部22に出力する。

0054

図9は、図3に示すIOB判定データ生成部15の構成図である。
図9に示すように、IOB判定データ生成部15は、例えば、入力部51、SVM学習部52および出力部53を有する。
入力部51は、タグ付加部13から類似学習データSSDAqを入力し、これをSVM学習部52に出力する。
SVM学習部52は、入力部51から入力した図7に示す類似学習データSSDAqを基に、各語の属性タグデータIOBが、I,O,Bの何れであるかを判断するために、例えば、各語の前後2語ずつの品詞データおよびsuffixデータを用いてSVM(Support Vector Machines)方式で図10に示すIOB判定データSPを生成する。
SVM学習部52は、当該SVM方式による学習処理において、例えば、カーネル関数として多項式カーネルを用い、多値分類拡張手法としてベアワイズを用い、解析方向を文の先頭から後ろとする。
SVM学習部52による学習処理としては、例えば、第1実施形態で説明したSVMが用いられる。
SVM学習部52は、IOB判定データSPを出力部53に出力する。
出力部53は、SVM学習部52から入力したIOB判定データSPをIOB付加部22に出力する。

0055

なお、IOB判定データ生成部15は、SVM方式以外の学習方式、例えば、決定リスト方式、類似度に基づく方式、シンプルベイズ方式、最大エントリピー方式、決定木方式、ニューラルネット方式、判別分析方式等を用いてもよい。

0056

[タグ付加部21]
図3に示すタグ付加部21は、図6に示すように、機械学習装置1の外部から入力した問題データTDを構成する各語について、その品詞データと、suffixデータとを付加して新たな問題データTDaを生成する。

0057

図11は、図3にタグ付加部21の構成図である。
図11に示すように、タグ付加部21は、例えば、入力部61、品詞タガー部62、Suffixタガー部63、並びに出力部64を有する。
入力部61は、図3に示す機械学習装置1の外部から問題データTDを入力し、これを品詞タガー部62に出力する。
品詞タガー部62は、入力部61から入力した図6に示す問題データTD内の各語に、その品詞を示す品詞データを付加し、これをSuffixタガー部63に出力する。
Suffixタガー部63は、図6に示すように、品詞タガー部62から入力した品詞データが付加された被処理データの各語に、そのsuffix(接尾辞)データをさらに付加して問題データTDaを生成し、これを出力部64に出力する。
出力部64は、Suffixタガー部63から入力した問題データTDaを図3に示すIOB付加部22に出力する。

0058

[IOB付加部22]
図12は、図3に示すIOB付加部22の構成図である。
図12に示すように、IOB付加部22は、例えば、入力部71、IOB判定部72および出力部73を有する。
入力部71は、IOB判定データ生成部15から入力したIOB判定データSPをIOB判定部62に出力する。
IOB判定部72は、入力部61から入力したIOB判定データSPを基に、タグ付加部21から入力した図6に示す問題データTDaの各語に、属性タグデータIOBを付加して図6に示す処理済データTRを生成する。
ここで、問題データTDを解くべき問題とすると、処理済データTRが解くべき問題の解となる。
IOB判定部72は、テスト結果データTDaを出力部63に出力する。
出力部73は、IOB判定部72から入力した処理済データTRを機械学習装置1の外部に出力する。

0059

以下、図3に示す機械学習装置1の動作例を説明する。
図13は、当該動作例を説明するためのフローチャートである。
以下、図13に示す各ステップを説明する。
ステップST1:
図3に示すタグ付加部21は、図6に示すように、機械学習装置1の外部から入力した問題データTDを構成する各語について、その品詞データと、suffixデータとを付加して新たな問題データTDaを生成し、これをIOB付加部22に出力する。

0060

ステップST2:
図5に示す類似学習データ選択部11の類似度計算部33は、入力部31が入力した図4に示すn個の学習データSDq内の被学習データRqの各々につて、当該被学習データRqと、問題データTDとの類似度を計算して類似度デ.ータBA(q)を生成し、これを学習データ選択部34に出力する。
ステップST3:
図5に示す学習データ選択部34は、入力したn個の学習データSDqのうち、類似度計算部33から入力した類似度データBA(q)が所定の基準値を超えるもののみを選択して類似学習データSSDqとして図3に示すタグ付加部13に出力する。

0061

ステップST4:
図3に示すタグ付加部13は、図7に示すように、類似学習データ選択部11から入力した類似学習データSSDqの被学習データRqを構成する各語について、その品詞データと、suffixデータとを付加して新たな類似学習データSSDAqを生成し、これをIOB判定データ生成部15に出力する。
ステップST5:
図3に示すIOB判定データ生成部15は、タグ付加部13から入力した図7に示す類似学習データSSDAqを用いて、IOB付加部22における解析に用いるIOB判定データ(素性データ)SPを生成し、これをIOB付加部22に出力する。
ステップST16:
図3に示すIOB付加部22は、ステップST5で入力したIOB判定データSPを基に、タグ付加部21から入力した図6に示す問題データTDaの各語に、属性タグデータIOBを付加して図6に示す処理済データTRを生成する。
なお、機械学習装置1は、処理済データTRに付された属性タグデータIOBを基に、問題データTD内の固有表現(遺伝子名)を抽出する。

0062

以上説明したように、機械学習装置1によれば、メモリ9に記憶されたn個の学習データSDqのうち問題データTDとの間の類似度が高いもののみを選択して用いて、IOB付加部22における問題データTDaへの属性タグデータIOBの付加を行う。
そのため、問題データTDaへの属性タグデータIOBの付加において、問題データTDとの間の類似度が低い学習データSDqは用いられなくなり、処理済データTRの信頼性が高まる。
その結果、処理済データTRから、所望の固有表現(遺伝子名)を高い信頼性で抽出することが可能になる。
また、本実施形態の機械学習1によれば、処理の信頼性向上の他に、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの低減という効果が得られる。

0063

<第3実施形態>
第3実施形態は、第1実施形態の機械学習システムを、インターネット上のコンテンツへのアクセス制御を行う機械学習システムに適用した実施形態である。
図14は、本発明の第3実施形態の機械学習システム101を説明するための図である。
機械学習システム101では、インターネット111上のサーバ(図示せず)が記憶する複数のWebページデータW1を学習データ生成部112がダウンロードする。
学習データ生成部112は、予め決められたルールに従って、上記ダウンロードしたWebページデータW1に、コンテンツの分類(属性)を示すタグデータTGを付加して学習データ(教師データ)SDqを生成し、これを類似学習データ選択部115に出力する。
タグデータTGとしては、例えば、視聴制限の有無、制限年齢以下の禁止暴力的表現有りなどの情報を示している。

0064

類似学習データ選択部115は、インターネット111を介してダウンロードされた被処理データであるWebページデータW2と、学習データSDqのWebページデータW1との類似関係を基に、類似度が所定の基準を満たした学習データSDqを類似学習データSSDqとして選択して機械学習機116に出力する。
当該類似関係は、第1実施形態で説明した手法等を用いて生成した類似度データに基づいて判断する。

0065

機械学習機116は、類似学習データ選択部115から入力した類似学習データSSDqを用いてWebページデータW2の学習処理を行い、タグデータTGが付された処理済WebページデータW3をキャッシュメモリ118および/またはフィルタ125に出力する。
機械学習機116による学習処理としては、例えば、第1実施形態で説明したSVMが用いられる。

0066

キャッシュメモリ118は、処理済WebページデータW3を記憶する。
キャッシュ探索部123は、コンピュータ上で動作するユーザ・インタフェース121などを用いてユーザが出した閲覧要求を入力すると、その閲覧要求に応じた処理済WebページデータW3をキャッシュメモリ118から読み出してフィルタ125に出力する。
キャッシュ探索部123は、上記閲覧要求に応じた処理済WebページデータW3がキャッシュメモリ118に記憶されていない場合に、コンテンツローダ131に対してその処理済WebページデータW3に対応したWebページデータを要求するダウンロード要求を出力する。
コンテンツローダ131は、インターネット111を介して、上記ダウンロード要求をサーバに送信する。
これにより、上記閲覧要求に係わるWebページデータW1が学習データ生成部112にダウンロードされる。

0067

フィルタ125は、所定のサーバあるいはユーザが使用するコンピュータ内に機能として組み込まれ、予め保持したフィルタルールに従って、入力した処理済WebページデータW3のタグデータTGを検証し、所定の条件を満たす処理済WebページデータW3を、そのタグデータTGを除去してユーザ・インタフェース121に出力する。
なお、図14の例において、キャッシュ探索部123は、特に必須ではない。

0068

以上説明したように、機械学習システム101によれば、類似学習データ選択部115において、被処理データのWebページデータW2と属性が類似した学習データSDqのみを類似学習データSSDqとして類似学習データ選択部115に出力する。
これにより、類似学習データ選択部115において、WebページデータW2に高い信頼性のタグデータTGを付けることができ、フィルタ125におけるフィルタ処理を適切に行うことができる。
また、本実施形態の機械学習システム101によれば、処理の信頼性向上の他に、学習に用いるデータ量を削減し、学習に要する時間の短縮、並びにマシンリソースの低減という効果が得られる。

0069

本発明は上述した実施形態には限定されない。
上述した実施形態では、本発明の被処理データおよび被学習データRqとして、遺伝子分野の論文(文献)データを例示したが、それ以外のデータであってもよい。
例えば、本発明は、蛋白質表現の抽出、固有表現抽出(人名,地名など)、モダリティ表現翻訳、格解析,格変換、並びに多義性解消等の機械学習処理にも適用可能である。

0070

本発明は、学習データを用いて、所定の用語を抽出すための属性データを被処理データを構成する処理単位データに付加するデータ処理システムに適用可能である。

図面の簡単な説明

0071

図1は、本発明の第1実施形態の機械学習システムの構成図である。
図2は、本発明の第1の実施形態の機械学習システムを説明するための図である。
図3は、本発明の第2実施形態に係わる機械学習装置の構成図である。
図4は、本発明の第2実施形態の被学習データRqおよび学習データSDqを説明するための図である。
図5は、図3に示す類似学習データ選択部の構成図である。
図6は、本発明の第2実施形態の被処理データ等を説明するための図である。
図7は、本発明の第2実施形態の類似学習データを説明するための図である。
図8は、本発明の第2実施形態のタグ付加部の構成図である。
図9は、本発明の第2実施形態のIOB判定データ生成部の構成図である。
図10は、本発明の第2実施形態のIOB判定データを説明するための図である。
図11は、本発明の第2実施形態のタグ付加部を説明するための図である。
図12は、本発明の第2実施形態のIOB付加部を説明するための図である。
図13は、図3に示す機械学習装置の動作例を説明するための図である。
本発明の第3実施形態を説明するための図である。

符号の説明

0072

1…機械学習装置、2…類似学習データ生成機、3…類似度計算部、4…類似学習データ生成部、11…類似学習データ選択部、13…タグ付加部、15…IOB判定データ生成部、21…タグ付加部、22…IOB付加部、31…入力部、32…入力部、33…加算回路、34…学習データ選択部、35…出力部、41…入力部、42…品詞タガー部、43…Suffixタガー部、44…出力部、51…入力部、52…SVM学習部、53…出力部、61…入力部、62…品詞タガー部、63…Suffixタガー部、64…出力部、71…入力部、72…IOB判定部、73…出力部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ