図面 (/)

技術 学習装置、学習方法及び学習プログラム

出願人 富士通株式会社
発明者 岩倉友哉
出願日 2015年2月19日 (5年10ヶ月経過) 出願番号 2015-030243
公開日 2016年8月22日 (4年4ヶ月経過) 公開番号 2016-151981
状態 特許登録済
技術分野 機械翻訳
主要キーワード 適用データ 手掛り メイン処理フロー 辞書サイト すい面 結合荷重 規則データ 片仮名文字
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年8月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

複数の語義を有する単語をより正しくタイプ分類する規則を得る学習装置、方法及び学習プログラムを提供する。

解決手段

学習装置301は、対象単語の語義を判別する第1規則を、対象単語と、語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、かつ、対象単語と、タイプを特定する第2データとを含む第2例文における語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と、タイプを特定する第3データとを含む第3例文における語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。

概要

背景

ある特許文献には、例文に含まれる単語が固有表現に該当することを示す正解リストを用いて、固有表現を抽出する規則を生成する装置が開示されている。

但し、ある例文において固有表現に該当する単語が、他の文においても固有表現として用いられるとは限らない。

このように、使われ方が多様な単語を自動的に分類することは、容易ではない。

概要

複数の語義を有する単語をより正しくタイプ分類する規則を得る学習装置、方法及び学習プログラムを提供する。学習装置301は、対象単語の語義を判別する第1規則を、対象単語と、語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、かつ、対象単語と、タイプを特定する第2データとを含む第2例文における語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と、タイプを特定する第3データとを含む第3例文における語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習装置であって、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別する第1判別部と、前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習する第2学習部と、対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別する第2判別部と、前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する第3学習部とを有する学習装置。

請求項2

更に、対象単語を含む適用対象の文における当該対象単語の語義を、前記第1規則に従って判別する第3判別部と、判別した前記語義と前記適用対象の文とに基づいて、前記第3規則に従って前記適用対象の文における前記タイプを判別する第4判別部とを有する請求項1記載の学習装置。

請求項3

前記第3学習部は、前記第2判別部における判別の基準となった前記語義の評価値を、学習における当該語義の重要度として用いる請求項1又は2記載の学習装置。

請求項4

複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法であって、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する処理を含み、コンピュータにより実行される学習方法。

請求項5

複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法を、コンピュータに実行させるための学習プログラムであって、前記学習方法は、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する処理を含む、学習プログラム。

技術分野

0001

本発明は、単語のタイプを判別する技術に関する。

背景技術

0002

ある特許文献には、例文に含まれる単語が固有表現に該当することを示す正解リストを用いて、固有表現を抽出する規則を生成する装置が開示されている。

0003

但し、ある例文において固有表現に該当する単語が、他の文においても固有表現として用いられるとは限らない。

0004

このように、使われ方が多様な単語を自動的に分類することは、容易ではない。

先行技術

0005

特開2001−318792号公報
特開2007−323475号公報

発明が解決しようとする課題

0006

本発明の目的は、一側面では、複数の語義を有する単語をより正しくタイプ分類する規則を得ることである。

課題を解決するための手段

0007

一態様に係る学習装置は、複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する。また、上記学習装置は、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と当該対象単語のタイプを特定する第3データとを含む第3例文における当該対象単語の語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。

発明の効果

0008

一側面としては、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。

図面の簡単な説明

0009

図1は、固有表現のタイプを判別する例を示す図である。
図2は、固有表現に該当しない例を示す図である。
図3は、学習装置のモジュール構成例を示す図である。
図4は、学習装置の処理フローを示す図である。
図5は、定義テーブルの例を示す図である。
図6は、第1前処理部のモジュール構成例を示す図である。
図7は、第1前処理フローの例を示す図である。
図8は、第1例文データの例を示す図である。
図9は、第1例文の例を示す図である。
図10は、第1例文の例を示す図である。
図11は、第1例文の例を示す図である。
図12は、第1抽出データの例を示す図である。
図13は、第1規則データの例を示す図である。
図14は、第2前処理部のモジュール構成例を示す図である。
図15は、第2前処理フローの例を示す図である。
図16は、第2例文データの例を示す図である。
図17は、第2抽出データの例を示す図である。
図18は、学習データの例を示す図である。
図19は、第2規則データの例を示す図である。
図20は、第2規則データの例を示す図である。
図21は、メイン処理部のモジュール構成例を示す図である。
図22は、メイン処理フローの例を示す図である。
図23は、第3例文データの例を示す図である。
図24は、第3例文の例を示す図である。
図25は、第3例文の例を示す図である。
図26は、第3例文の例を示す図である。
図27は、メイン処理フローの例を示す図である。
図28は、教師データの例を示す図である。
図29は、第3抽出データの例を示す図である。
図30は、第3規則データの例を示す図である。
図31は、第3例文データの例を示す図である。
図32は、第3例文の例を示す図である。
図33は、教師データの例を示す図である。
図34は、判別装置のモジュール構成例を示す図である。
図35は、適用処理フローの例を示す図である。
図36は、対象文データの例を示す図である。
図37は、適用データの例を示す図である。
図38は、第4抽出データの例を示す図である。
図39は、結果データの例を示す図である。
図40は、出力データの例を示す図である。
図41は、実施の形態2に係る学習装置のモジュール構成例を示す図である。
図42は、コンピュータ機能ブロック図である。

実施例

0010

[実施の形態1]
本来「稲の実」を意味する1つの漢字で表される単語「米」は、日本語において「アメリカ合衆国」の略語として用いられることがある。以下では、この単語が「稲の実」の意味の他に、「アメリカ合衆国の政府」という意味でも用いられる状況における例について説明する。この単語が「アメリカ合衆国の政府」の意味で用いられる場合に、この単語は固有表現のタイプ「組織」に該当する。一方、この単語が「稲の実」の意味で用いられる場合に、この単語は固有表現のいずれのタイプにも該当しない。

0011

以下では、「稲の実」を意味する1つの漢字で表される単語「米」が、固有表現のタイプ「組織」に該当するか否かを自動的に判別する例について説明する。尚、判別の対象となる単語を、対象単語という。

0012

対象単語が固有表現のタイプに該当する場合には、固有表現のタイプを示すタグを付した出力文が生成される。他方、対象単語が固有表現のタイプに該当しない場合には、タグは付加されない。

0013

図1に、固有表現のタイプを判別する例を示す。この例における適用対象の文は、上段に示した「米は、日本人交流する大統領写真公開した。」である。本実施の形態では、文に含まれる名詞に着目して処理を行う。

0014

まず、文に含まれる単語のうち名詞について説明する。この適用対象の文は、第1名詞101、第2名詞103、第3名詞105及び第4名詞107の4つの名詞を含んでいる。これらのうち、第1名詞101は、対象単語に該当する。この例における第1名詞101は、「アメリカ合衆国の政府」の意味で用いられている。この第1名詞101は、図示するように1つの漢字で表される。

0015

図1下段は、上段に示した文に対する判別を行って得られた出力文を示している。図1の下段における第1名詞151には、第1名詞101が組織タイプの固有表現に相当することを示すタグ<組織>及び</組織>が付されている。固有表現のタイプを判別する対象に該当しない単語は変更されない。従って、第2名詞103、第3名詞105及び第4名詞107は、上段と同様である。

0016

尚、第2名詞103は、図示するように3つの漢字で表される「日本人」である。第3名詞105は、図示するように3つの漢字で表される「大統領」である。第4名詞107は、図示するように2つの漢字で表される「写真」である。

0017

次に、図2を用いて、対象単語が固有表現に該当しない場合について説明する。この例における適用対象の文は、上段に示した「米は、日本の主食であって、酒の製造に使われる。」である。この適用対象の文は、第1名詞201、第2名詞203、第3名詞205、第4名詞207及び第5名詞209の5つの名詞を含んでいる。そのうち、第1名詞201は、図1に示した第1名詞101と同様に、対象単語である。この例における第1名詞201は、「稲の実」の意味で用いられている。つまり、この例における第1名詞201は、本来の意味として用いられており、固有表現には該当しない。

0018

図2の下段は、上段に示した文に対する判別を行って得られた出力文を示している。判別対象の単語が、固有表現に該当しない場合には、タグが付されない。従って、第1名詞201は、上段と同様である。固有表現のタイプを判別する対象に該当しない第2名詞203、第3名詞205、第4名詞207及び第5名詞209も、上段と同様である。但し、対象単語が固有表現のタイプに該当しない場合に、固有表現のタイプに該当しない旨を示すタグ<O>と</O>を付すようにしてもよい。

0019

尚、第2名詞203は、図示するように2つの漢字で表される「日本」である。第3名詞205は、図示するように2つの漢字で表される「主食」である。第4名詞207は、図示するように1つの漢字で表される「酒」である。第5名詞209は、図示するように2つの漢字で表される「製造」である。

0020

次に、機械学習を行う学習装置について説明する。図3に、学習装置301のモジュール構成例を示す。学習装置301は、設定部303、定義記憶部305、第1前処理部307、第1文記憶部309、第1規則記憶部311、第2前処理部313、第2規則記憶部315、メイン処理部317及び第3規則記憶部319を有する。

0021

学習装置301は、機械学習によってラベル判別器を生成するコンピュータである。設定部303は、定義データの内容を設定する。定義記憶部305は、定義データを記憶する。第1前処理部307は、第1文記憶部309に記憶される第1例文に基づいて、第1規則データを含む語義判別器を生成する。第1前処理部307により実行される処理を、第1前処理という。第1文記憶部309は、複数の第1例文を含む第1例文データを記憶する。第1規則記憶部311は、第1規則データを記憶する。第2前処理部313は、第1例文から生成される第2例文と、第1規則データとに基づいて、第2規則データを含むラベル判別器を生成するための1回目の機械学習を行う。第2前処理部313により実行される処理を、第2前処理という。第2規則記憶部315は、第2規則データを記憶する。メイン処理部317は、第3例文と、第1規則データと、第2規則データとに基づいて、第2規則データを規則データの初期値として用いて、第3規則データを含むラベル判別器を生成するための2回目の機械学習を行う。メイン処理部317により実行される処理を、メイン処理という。第3規則記憶部319は、第3規則データを記憶する。上述したデータ及び処理の内容については、以下で詳述する。

0022

上述した設定部303、第1前処理部307、第2前処理部313及びメイン処理部317は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

0023

上述した定義記憶部305、第1文記憶部309、第1規則記憶部311、第2規則記憶部315及び第3規則記憶部319は、ハードウエア資源(例えば、図42)を用いて実現される。

0024

図4に、学習装置301の処理フローを示す。設定部303は、定義記憶部305に記憶される定義データに、対象単語に関する定義内容を設定する(S401)。設定部303は、例えばユーザインターフェース記録媒体あるいは通信媒体を介して、定義内容を受け付ける。

0025

図5に、定義テーブルの例を示す。定義テーブルは、対象単語の語義に対応するレコードを有する。定義テーブルのレコードは、対象単語を設定するフィールド、語義を設定するフィールド、リンクデータを設定するフィールド及びラベルを設定するフィールドを有している。リンクデータは、例えば辞書サイトのような既存のデータベースにおいて用語のリンク先を明示するためのデータである。この例は、辞書サイトの記事中において、上述した対象単語を「稲の実」の意味で用いているか、あるいは「アメリカ合衆国の政府」の意味で用いているかによってリンクデータが異なることを前提とする。

0026

図5の例における第1レコードは、辞書サイトにおいて対象単語が「稲の実」の意味として用いられる場合には、「植物」で識別される語義について説明する記事へのリンクデータが、当該対象単語に付加されることを示している。更に、図5の例における第1レコードは、「植物」で識別される語義は、ラベル「O」に対応することを示している。尚、ラベル「O」は、「その他」を意味し、この例では固有表現のタイプ「組織」に該当しないことを意味する。尚、ラベルは、単語を分類するタイプの例である。

0027

図5の例における第2レコードは、辞書サイトにおいて対象単語が「アメリカ合衆国の政府」の意味として用いられる場合には、「政府」で識別される語義について説明する記事へのリンクデータが、当該対象単語に付加されることを示している。更に、図5の例における第2レコードは、「政府」で識別される語義は、ラベル「組織」に対応することを示している。

0028

図4の説明に戻る。第1前処理部307は、第1前処理を実行する(S403)。第1前処理部307は、第1前処理で、第1文記憶部309に記憶される第1例文に基づいて、語義判別器を生成する。具体的には、語義判別器で用いられる第1規則データが求められる。

0029

図6に、第1前処理部307のモジュール構成例を示す。第1前処理部307は、取得部601、第1抽出部603、第1抽出データ記憶部605、特定部607及び第1学習部609を有する。

0030

取得部601は、上述したリンクデータが付加された対象単語を含む第1例文を複数取得する。第1抽出部603は、複数の第1例文の各々から、語義判定手掛りとなる単語を抽出する。第1抽出データ記憶部605は、語義判定の手掛りとなる単語をまとめた第1抽出データを記憶する。特定部607は、複数の第1例文の各々に含まれるリンクデータに基づいて、夫々の対象単語の語義を特定する。第1学習部609は、複数の第1例文の各々における対象単語の語義と手掛りの単語との対応付けに基づいて、対象単語の語義を判別するための第1規則を学習する。上述したデータ及び処理の内容については、以下で詳述する。

0031

上述した取得部601、第1抽出部603、特定部607及び第1学習部609は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

0032

上述した第1抽出データ記憶部605は、ハードウエア資源(例えば、図42)を用いて実現される。

0033

図7に、第1前処理フローの例を示す。取得部601は、第1例文を取得し、第1文記憶部309に記憶する(S701)。取得部601は、Webサイト(例えば、辞書サイト)のデータベースから第1例文を取得するようにしてもよい。あるいは、取得部601は、記録媒体に収められた辞書データベースから第1例文を取得するようにしてもよい。このように、一般的かつ広い範囲の知識を体系化したデータベースから第1例文を取得すれば、適応性が高い語義判別器が生成されることが期待される。但し、取得部601は、他の方法によって第1例文を取得するようにしてもよい。

0034

図8に、第1例文データの例を示す。第1例文データは、第1例文毎にレコードを設けている。レコードには、文IDに対応付けられた第1例文が格納される。

0035

まず、図8に示した第1例文データにおける文ID:D001の第1例文について、図9を用いて説明する。

0036

文ID:D001の第1例文は、第1名詞901、第2名詞903、第3名詞905及び第4名詞907の4つの名詞を含んでいる。そのうち、第1名詞901は、対象単語である。この例における第1名詞901は、「アメリカ合衆国の政府」の意味で用いられている。従って、1つの漢字に、「政府」で識別される語義について説明する記事へのリンクデータ(以下では、「政府」のリンクデータという。)が付加されている。尚、リンクデータの書式は、この例に限定されない。

0037

図9の下段は、リンクデータが除去された第1例文を示している。第1名詞951は、上段に示した第1名詞901からリンクデータが除去され、通常の表記となっている。第2名詞903、第3名詞905及び第4名詞907は、上段の場合と同様である。

0038

この例では、対象単語に相当する第1名詞951を除く、第2名詞903、第3名詞905及び第4名詞907が、語義判定の手掛りとなる単語として抽出される。

0039

尚、第2名詞903は、図示するように3つの漢字で表される「大統領」である。第3名詞905は、図示するように3つの漢字で表される「現職者」である。第4名詞907は、図示するように3つの片仮名文字で表される「オバマ」である。

0040

次に、図8に示した第1例文データにおける文ID:D002の第1例文について、図10を用いて説明する。

0041

文ID:D002の第1例文は、第1名詞1001、第2名詞1003、第3名詞1005、第4名詞1007、第5名詞1009、第6名詞1011及び第7名詞1013の7つの名詞を含んでいる。そのうち、第1名詞1001は、対象単語である。この例における第1名詞1001は、「稲の実」の意味で用いられている。従って、1つの漢字に、「植物」で識別される語義について説明する記事へのリンクデータ(以下では、「植物」のリンクデータという。)が付加されている。

0042

図10の下段は、リンクデータが除去された第1例文を示している。第1名詞1051は、上段に示した第1名詞1001からリンクデータが除去され、通常の表記となっている。第2名詞1003、第3名詞1005、第4名詞1007、第5名詞1009、第6名詞1011及び第7名詞1013は、上段の場合と同様である。

0043

この例では、対象単語に相当する第1名詞1051を除く、第2名詞1003、第3名詞1005、第4名詞1007、第5名詞1009、第6名詞1011及び第7名詞1013が、語義判定の手掛りとなる単語として抽出される。

0044

尚、第2名詞1003は、図示するように1つの漢字で表される「酒」である。第3名詞1005は、図示するように4つの平仮名文字で表される「せんべい」である。第4名詞1007は、図示するように2つの漢字で表される「原料」である。第5名詞1009は、図示するように2つの漢字で表される「主食」である。第6名詞1011は、図示するように2つの漢字で表される「以外」である。第7名詞1013は、図示するように2つの漢字で表される「用途」である。

0045

最後に、図8に示した第1例文データにおける文ID:D003の第1例文について、図11を用いて説明する。

0046

文ID:D003の第1例文は、第1名詞1101及び第2名詞1103の2つの名詞を含んでいる。そのうち、第1名詞1101は、対象単語である。この例における第1名詞1101は、「稲の実」の意味で用いられている。従って、1つの漢字に、「植物」で識別される語義について説明する記事へのリンクデータが付加されている。

0047

図11の下段は、リンクデータが除去された第1例文を示している。第1名詞1151は、上段に示した第1名詞1101からリンクデータが除去され、通常の表記となっている。第2名詞1103は、上段の場合と同様である。

0048

この例では、対象単語に相当する第1名詞1151を除く、第2名詞1103が、語義判定の手掛りとなる単語として抽出される。

0049

尚、第2名詞1103は、図示するように2つの漢字で表される「焼酎」である。以上で、第1例文データについての説明を終える。

0050

図7の説明に戻る。第1抽出部603は、第1文記憶部309に記憶されている第1例文を1つ特定する(S703)。第1抽出部603は、第1例文からリンクデータを除去する(S705)。そして、第1抽出部603は、リンクデータが除去された第1例文に対して形態素解析を行う(S707)。第1抽出部603は、形態素解析の結果から、語義判別の手掛りとなる単語を抽出する(S709)。以下では、語義判別の手掛りとなる単語を、単に手掛かりということもある。

0051

図12に、第1抽出データの例を示す。第1抽出データは、第1例文に対応するレコードを有している。第1抽出データのレコードは、第1例文に含まれる対象単語の語義を設定するためのフィールドと、第1例文に含まれる手掛かりの単語を一又は複数設定するためのフィールドとを有している。この例における手掛かりの単語は、対象単語以外の名詞である。但し、名詞以外の品詞の単語を手掛かりの単語として用いるようにしてもよい。

0052

図12の例における第1レコードは、文ID:D001の第1例文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられていることを示している。更に、図12の例における第1レコードは、語義「アメリカ合衆国の政府」を判別する手掛かりとして、文ID:D001の第1例文から「大統領」「現職者」及び「オバマ」の各名詞が抽出されたことを示している。

0053

図12の例における第2レコードは、文ID:D002の第1例文に含まれる対象単語は、「稲の実」の意味で用いられていることを示している。更に、図12の例における第2レコードは、語義「稲の実」を判別する手掛かりとして、文ID:D002の第1例文から「酒」「せんべい」「原料」「主食」「以外」及び「用途」の各名詞が抽出されたことを示している。

0054

図12の例における第3レコードは、文ID:D003の第1例文に含まれる対象単語は、「稲の実」の意味で用いられていることを示している。更に、図12の例における第3レコードは、語義「稲の実」を判別する手掛かりとして、文ID:D003の第1例文から「焼酎」の名詞が抽出されたことを示している。

0055

図7の説明に戻る。特定部607は、定義記憶部305に記憶されている定義データに基づいて、S703で特定した第1例文に含まれる対象単語の語義を特定する(S711)。つまり、特定部607は、対象単語に付加されているリンクデータに対応する語義を特定する。そして、特定部607は、特定した語義を第1抽出データ記憶部605に設定する。

0056

そして、第1抽出部603は、未処理の第1例文があるか否かを判定する(S713)。未処理の第1例文があると判定した場合には、S703の処理に戻って、上述した処理を繰り返す。

0057

一方、未処理の第1例文がないと判定した場合には、第1学習部609は、語義判別器を生成する(S715)。第1学習部609は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、S715において機械学習を行う処理を第1学習処理という。

0058

語義判別器の入力は、第1抽出データにおける手掛りに対応する。そして、語義判別器の出力に、第1抽出データにおける語義を与えれば、手掛りと語義との関連を示す第1スコアが求められる。第1学習処理によって得られた第1規則データは、第1規則記憶部311に記憶される。この例における語義判別器は、第1規則データを有する。

0059

図13に、第1規則データの例を示す。第1規則データは、語義判定の手掛りとなる単語毎のレコードを有している。第1規則データのレコードは、語義判定の手掛りとなる単語を設定するためのフィールドと、当該単語と各語義との組み合わせに付与された第1スコアを設定するためのフィールドとを有している。

0060

尚、第1スコアは、上記組み合わせに係る手掛りと語義とが関連する度合いを示している。第1スコアが正であれば、上記組み合わせに係る手掛りと語義とが同一文出現する場合が比較的多いことを示している。つまり、第1スコアが正であれば、上記組み合わせに係る手掛りに基づいて、上記組み合わせに係る語義を選択することについて、肯定的であることを意味する。他方、第1スコアが負であれば、上記組み合わせに係る手掛りと語義とが同一文に出現しない場合が比較的多いことを示している。つまり、第1スコアが負であれば、上記組み合わせに係る手掛りに基づいて、上記組み合わせに係る語義を選択することについて、否定的であることを意味する。

0061

図13の例における第1レコードは、手掛り「大統領」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「1」が付与されたことを示している。更に、図13の例における第1レコードは、手掛り「大統領」と語義「稲の実」との組み合わせについて第1スコア「−1」が付与されたことを示している。つまり、手掛り「大統領」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が高く、逆に「稲の実」の意味で用いられている可能性が低いことを示している。

0062

図13の例における第2レコードは、手掛り「オバマ」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「1」が付与されたことを示している。更に、図13の例における第2レコードは、手掛り「オバマ」と語義「稲の実」との組み合わせについて第1スコア「−1」が付与されたことを示している。つまり、手掛り「オバマ」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が高く、逆に「稲の実」の意味で用いられている可能性が低いことを示している。

0063

図13の例における第3レコードは、手掛り「酒」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「−1」が付与されたことを示している。更に、図13の例における第3レコードは、手掛り「酒」と語義「稲の実」との組み合わせについて第1スコア「1」が付与されたことを示している。つまり、手掛り「酒」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が低く、逆に「稲の実」の意味で用いられている可能性が高いことを示している。

0064

図13の例における第4レコードは、手掛り「焼酎」と語義「アメリカ合衆国の政府」との組み合わせについて第1スコア「−1」が付与されたことを示している。更に、図13の例における第4レコードは、手掛り「焼酎」と語義「稲の実」との組み合わせについて第1スコア「1」が付与されたことを示している。つまり、手掛り「焼酎」が出現する文に含まれる対象単語は、「アメリカ合衆国の政府」の意味で用いられている可能性が低く、逆に「稲の実」の意味で用いられている可能性が高いことを示している。

0065

図7に示したS715における第1学習処理を終えると、図4に示したS405の処理に移る。

0066

図4の説明に戻る。第2前処理部313は、第2前処理を実行する(S405)。第2前処理部313は、第2前処理で、第1文記憶部309に記憶されている第1例文から生成される第2例文と、第1規則記憶部311に記憶されている第1規則データとに基づいて、ラベル判別器を生成するための1回目の機械学習を行う。1回目の機械学習によって求められた第2規則データは、第2規則記憶部315に記憶される。

0067

図14に、第2前処理部313のモジュール構成例を示す。第2前処理部313は、第1生成部1401、第2文記憶部1403、第2抽出部1405、第2抽出データ記憶部1407、第1判別部1409、学習データ記憶部1411及び第2学習部1413を有する。

0068

第1生成部1401は、複数の第1例文の各々に含まれるリンクデータを、対象単語を分類するラベルに変換し、対象単語を分類するラベルを含む第2例文を生成する。第2文記憶部1403は、複数の第2例文を含む第2例文データを記憶する。第2抽出部1405は、複数の第2例文の各々から、語義判定の手掛りとなる単語を抽出する。第2抽出データ記憶部1407は、語義判定の手掛りとなる単語をまとめた第2抽出データを記憶する。第1判別部1409は、第1規則データに従って、第2例文の各々から抽出した手掛りの単語に基づいて、当該第2例文に含まれる対象単語の語義を判別する。学習データ記憶部1411は、学習データを記憶する。第2学習部1413は、第2例文における対象単語の語義を定める第1素性と対象単語のラベルとの対応付けに基づいて、ラベルを判別する第2規則を学習する。上述したデータ及び処理の内容については、以下で詳述する。

0069

上述した第1生成部1401、第2抽出部1405、第1判別部1409及び第2学習部1413は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

0070

上述した第2文記憶部1403、第2抽出データ記憶部1407及び学習データ記憶部1411は、ハードウエア資源(例えば、図42)を用いて実現される。

0071

図15に、第2前処理フローの例を示す。第1生成部1401は、第1文記憶部309に記憶されている第1例文から、第2例文を生成する(S1501)。生成された第2例文は、第2文記憶部1403に記憶される。具体的には、定義記憶部305に基づいて、第1例文に含まれるリンクデータを、ラベルを示すタグに変換する。

0072

図16に、第2例文データの例を示す。第2例文データは、第2例文毎にレコードを設けている。レコードには、文IDに対応付けられた第2例文が格納される。

0073

図16の例における第1レコードには、図8に示した第1例文データにおける文ID:D001の第1例文から生成された第2例文が設定されている。この例で、「政府」のリンクデータが付加された対象単語が、ラベル「組織」を示すタグが付加された対象単語に変換されている。

0074

図16の例における第2レコードには、図8に示した第1例文データにおける文ID:D002の第1例文から生成された第2例文が設定されている。この例で、「植物」のリンクデータが付加された対象単語が、ラベル「O」を示すタグが付加された対象単語に変換されている。

0075

図16の例における第3レコードには、図8に示した第1例文データにおける文ID:D003の第1例文から生成された第2例文が設定されている。この例で、「植物」のリンクデータが付加された対象単語が、ラベル「O」を示すタグが付加された対象単語に変換されている。

0076

尚、第1生成部1401は、第1例文データに含まれる第1例文のうち、一部の第1例文について第2例文を生成するようにしてもよい。また、第1生成部1401は、第1例文から生成した第2例文以外の第2例文を、第2例文データに加えるようにしてもよい。

0077

第2抽出部1405は、第2文記憶部1403に記憶されている第2例文を1つ特定する(S1503)。第2抽出部1405は、特定した第2例文から、タグで示されているラベルを抽出する(S1505)。抽出されたラベルは、第2抽出データ記憶部1407に記憶される第2抽出データのレコードに設定される。

0078

図17に、第2抽出データの例を示す。第2抽出データは、第2例文に対応するレコードを有している。第2抽出データのレコードは、第2例文に含まれる対象単語に付加されているタグが示すラベルを設定するためのフィールドと、第2例文に含まれる手掛かりの単語を設定するためのフィールドとを有している。第2例文に含まれる手掛かりの単語は、第2例文に含まれる対象単語以外の名詞である。

0079

図17の例における第1レコードでは、文ID:D001の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「組織」に、文ID:D001の第2例文から抽出された手掛かりの単語「大統領」「現職者」及び「オバマ」が対応付けられている。

0080

図17の例における第2レコードでは、文ID:D002の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、文ID:D002の第2例文から抽出された手掛かりの単語「酒」「せんべい」「原料」「主食」「以外」及び「用途」が対応付けられている。

0081

図17の例における第3レコードでは、文ID:D003の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、文ID:D003の第2例文から抽出された手掛かりの単語「焼酎」が対応付けられている。

0082

図15の説明に戻る。第2抽出部1405は、S1503で特定した第2例文からラベルを示すタグを除去する(S1507)。第2抽出部1405は、タグが除去された第2例文に対して、形態素解析を行う(S1509)。第2抽出部1405は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する(S1511)。抽出された手掛りとなる単語は、上述した通り第2抽出データのレコードに設定される。

0083

第1判別部1409は、第1前処理で生成された語義判別器に第2抽出データを適用することによって、第2例文に含まれる対象単語の語義を判別する(S1513)。本実施の形態では、S1513における語義判別処理を第1判別処理という。

0084

語義判別器の入力は、第2抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第1判別部1409は、第1規則データに従って、各語義に対する第2スコアを算出する。そして、第1判別部1409は、第2スコアの値が大きい方の語義を選択する。選択された語義と当該語義の第2スコアは、学習データ記憶部1411に記憶される学習データのレコードに設定される。

0085

図18に、学習データの例を示す。学習データは、第2例文に対応するレコードを有している。第2例文に対応する1つのレコードは、1つの学習サンプルに相当する。学習データのレコードは、上述した第2抽出データの場合と同様に、第2例文に含まれる対象単語に付加されているタグが示すラベルを設定するためのフィールドを有している。更に、学習データのレコードは、語義判別器によって判別された語義を設定するためのフィールドと、当該語義の判別において得られた第2スコアを設定するためのフィールドとを有している。第2スコアは、当該語義の判別に対する重み(評価の確かさ)を示している。

0086

図18の例における第1レコードでは、文ID:D001の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「組織」に、当該第2例文の手掛かりに基づいて判別された語義「アメリカ合衆国の政府」と、その判別において得られた第2スコア「2」とが対応付けられている。

0087

図18の例における第2レコードでは、文ID:D002の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、当該第2例文の手掛かりに基づいて判別された語義「稲の実」と、その判別において得られた第2スコア「3」とが対応付けられている。

0088

図18の例における第3レコードでは、文ID:D003の第2例文に含まれる対象単語に付加されているタグから抽出されたラベル「O」に、当該第2例文の手掛かりに基づいて判別された語義「稲の実」と、その判別において得られた第2スコア「2」とが対応付けられている。

0089

図15の説明に戻る。S1513における第1判別処理を終えると、第2抽出部1405は、未処理の第2例文があるか否かを判定する(S1515)。未処理の第2例文があると判定した場合には、S1503の処理に戻って、上述した処理を繰り返す。

0090

一方、未処理の第2例文がないと判定した場合には、第2学習部1413は、学習データ記憶部1411に記憶されている学習データに基づいて、ラベル判別器を生成する(S1517)。但し、この時点で生成されるラベル判別器は、未完成である。第2学習部1413は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、S1517において機械学習を行う処理を第2学習処理という。

0091

ラベル判別器の入力は、学習データにおける語義に対応し、同じく出力は、学習データにおけるラベルに対応する。そして、学習データをサンプルデータとして第2ネットワークに与え、誤差伝播法によって、語義とラベルとの結合の強さ(結合荷重ということもある。)を示す第3スコアを求める。第3スコアを含む第2規則データは、第2規則記憶部315に記憶される。この時点におけるラベル判別器は、第2規則データを有する。尚、第2学習部1413は、第2スコアを学習サンプルの重要度として用いて学習するようにしてもよい。

0092

図19に、第2規則データの例を示す。第2規則データは、対象単語の語義を定める第1素性毎のレコードを有している。尚、第1素性は、対象単語のラベルを判別するための規則に相当する。第2規則データのレコードは、第1素性を設定するためのフィールドと、各ラベルに対する第3スコアを設定するためのフィールドとを有している。

0093

尚、第3スコアは、第1素性とラベルとの関連を示している。第1素性とラベルとの組み合わせに対する第3スコアが正であれば、ある文に含まれる対象単語の語義が第1素性に適合する場合に、当該対象単語に対して当該ラベルを選択することについて、肯定的であることを意味する。他方、第1素性とラベルとの組み合わせに対する第3スコアが負であれば、ある文に含まれる対象単語の語義が第1素性に適合する場合に、当該対象単語に対して当該ラベルを選択することについて、否定的であることを意味する。また、第3スコアの絶対値は、第1素性(つまり、語義)とラベルとの関連の強さを示している。

0094

図19の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという第1素性とラベル「組織」との組み合わせについて、第3スコア「3」が付与されたことを示している。更に、図19の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという第1素性とラベル「O」との組み合わせについて、第3スコア「−3」が付与されたことを示している。つまり、図19の例における第1レコードは、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。

0095

図19の例における第2レコードは、対象単語の語義が「稲の実」であるという第1素性とラベル「組織」との組み合わせについて、第3スコア「−3」が付与されたことを示している。更に、図19の例における第2レコードは、対象単語の語義が「稲の実」であるという第1素性とラベル「O」との組み合わせについて、第3スコア「3」が付与されたことを示している。つまり、図19の例における第2レコードは、「稲の実」の意味で対象単語を用いている文において、対象単語にラベル「O」を付与すべきであって、ラベル「組織」を付与すべきでないという傾向を示している。

0096

図20に、別の第2規則データの例を示す。図20の例における第2規則データは、図19の場合とは反対に、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「O」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。更に、図20の例における第2規則データは、「稲の実」の意味で対象単語を用いている文において、対象単語にラベル「組織」を付与すべきであって、ラベル「O」を付与すべきでないという傾向を示している。このような第2規則データは、正しくラベルを判別するためには、適当でない。第2例文における文脈が、第1例文における文脈に反する場合には、このような第2規則データが生成される場合がある。しかし、本実施の形態のように、第1例文から第2例文を生成すれば、第2例文における文脈が、第1例文における文脈と一致するので、図20のような不適切な第2規則データは生成され難い。

0097

図15に示したS1517における第2学習処理を終えると、図4に示したS407の処理に移る。

0098

図4の説明に戻る。メイン処理部317は、メイン処理を実行する(S407)。メイン処理部317は、メイン処理で、第3文記憶部2103に記憶される第3例文と、第1規則記憶部311に記憶されている第1規則データと、第2規則記憶部315に記憶されている第2規則データとに基づいて、ラベル判別器を生成するための2回目の機械学習を行う。2回目の機械学習によって求められた第3規則データは、第3規則記憶部319に記憶される。

0099

図21に、メイン処理部317のモジュール構成例を示す。メイン処理部317は、第1受付部2101、第3文記憶部2103、第2生成部2105、教師データ記憶部2107、第3抽出部2109、第3抽出データ記憶部2111、第2判別部2113及び第3学習部2115を有する。

0100

第1受付部2101は、ラベルを示すタグが付加された対象単語を含む第3例文を受け付ける。第3文記憶部2103は、第3例文データを記憶する。第2生成部2105は、第3例文に含まれる対象単語及び対象単語に連なる単語に関する第2素性を生成する。教師データ記憶部2107は、教師データを記憶する。第3抽出部2109は、複数の第3例文の各々から、語義判定の手掛りとなる単語を抽出する。第3抽出データ記憶部2111は、語義判定の手掛りとなる単語をまとめた第3抽出データを記憶する。第2判別部2113は、第1規則データに従い、第3抽出データに基づいて、当該第3例文に含まれる対象単語の語義を判別する。第3学習部2115は、第3例文に基づく第2素性と、第3例文における語義に関する第3素性と、第3例文におけるラベルと、第2規則データとに基づいて、ラベルを判別する第3規則データを学習する。尚、第3規則データは、第2規則データを基礎として生成される。上述したデータ及び処理の内容については、以下で詳述する。

0101

上述した第1受付部2101、第2生成部2105、第3抽出部2109、第2判別部2113及び第3学習部2115は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

0102

上述した第3文記憶部2103、教師データ記憶部2107及び第3抽出データ記憶部2111は、ハードウエア資源(例えば、図42)を用いて実現される。

0103

図22に、メイン処理フローの例を示す。第1受付部2101は、例えば記憶媒体あるいは通信媒体を介して、第3例文を受け付ける(S2201)。受け付けた第3例文は、第3文記憶部2103に記憶される。第3例文として、自動的にラベルを判別したい文(以下、適用対象の文という。)と文脈が近似すると想定される文を用いることによって、ラベル判別の精度が高まると期待される。例えば、適用対象の文と同じ分野の文を第3例文として用い、あるいは適用対象の文と同じ筆者の文を第3例文として用いると、好適な学習結果が得られると考えられる。

0104

図23に、第3例文データの例を示す。第3例文データは、第3例文毎にレコードを設けている。レコードには、文IDに対応付けられた第3例文が格納される。

0105

まず、図23に示した第3例文データにおける文ID:D101の第3例文「米は、日本人の主食であって、酒あるいは焼酎の原料として用いられる。」について、図24を用いて説明する。

0106

文ID:D101の第3例文は、第1名詞2401、第2名詞2403、第3名詞2405、第4名詞2407、第5名詞2409及び第6名詞2411の6つの名詞を含んでいる。そのうち、第1名詞2401は、対象単語である。この例における第1名詞2401は、「稲の実」の意味で用いられている。つまり、第1名詞2401は、固有表現に該当しない。この例において、固有表現に該当しない場合には、ラベルを示すタグは付されない。但し、固有表現に該当しない場合に、固有表現のタイプに該当しない旨を示すタグ<O>と</O>が付されるようにしてもよい。

0107

尚、第2名詞2403は、図示するように3つの漢字で表される「日本人」である。第3名詞2405は、図示するように2つの漢字で表される「主食」である。第4名詞2407は、図示するように1つの漢字で表される「酒」である。第5名詞2409は、図示するように2つの漢字で表される「焼酎」である。第6名詞2411は、図示するように2つの漢字で表される「原料」である。

0108

次に、図23に示した第3例文データにおける文ID:D102の第3例文「<組織>米</組織>は、日本に大統領の親書を送った。」について、図25を用いて説明する。

0109

文ID:D102の第3例文は、第1名詞2531、第2名詞2533、第3名詞2535及び第4名詞2537の4つの名詞を含んでいる。そのうち、第1名詞2531は、対象単語である。この例における第1名詞2531は、「アメリカ合衆国の政府」の意味で用いられている。つまり、第1名詞2531は、固有表現に該当する。固有表現に該当する場合には、ラベル(この例では、固有表現のタイプ)を示すタグが付加される。この例では、第1名詞2531の1つの漢字に、固有表現のタイプ「組織」を示すタグが付加されている。但し、ラベルを示すデータの形式は、この例に示したタグに限定されない。また、第3例文においてラベルを示すデータは、第2例文においてラベルを示すデータと異なる形式であっても構わない。

0110

図25の下段は、タグが除去された第3例文を示している。第1名詞2551は、上段に示した第1名詞2531からタグが除去され、通常の表記となっている。第2名詞2533、第3名詞2535及び第4名詞2537は、上段の場合と同様である。

0111

この例では、対象単語に相当する第1名詞2551を除く、第2名詞2533、第3名詞2535及び第4名詞2537が、語義判定の手掛りとなる単語として抽出される。

0112

尚、第2名詞2533は、図示するように2つの漢字で表される「日本」である。第3名詞2535は、図示するように3つの漢字で表される「大統領」である。第4名詞2537は、図示するように2つの漢字で表される「親書」である。

0113

最後に、図23に示した第3例文データにおける文ID:D103の第3例文「<組織>米</組織>は、日本にオバマ氏の親書を送った。」について、図26を用いて説明する。

0114

文ID:D103の第3例文は、第1名詞2601、第2名詞2603、第3名詞2605及び第4名詞2607の4つの名詞を含んでいる。そのうち、第1名詞2601は、対象単語である。この例における第1名詞2601は、「アメリカ合衆国の政府」の意味で用いられている。つまり、第1名詞2601は、固有表現に該当する。この例では、図25の場合と同様に、第1名詞2601の1つの漢字に、固有表現のタイプ「組織」を示すタグが付加されている。

0115

図26の下段は、タグが除去された第3例文を示している。第1名詞2651は、上段に示した第1名詞2601からタグが除去され、通常の表記となっている。第2名詞2603、第3名詞2605及び第4名詞2607は、上段の場合と同様である。

0116

この例では、対象単語に相当する第1名詞2651を除く、第2名詞2603、第3名詞2605及び第4名詞2607が、語義判定の手掛りとなる単語として抽出される。

0117

尚、第2名詞2603は、図示するように2つの漢字で表される「日本」である。第3名詞2605は、図示するように3つの片仮名文字で表される「オバマ」である。第4名詞2607は、図示するように2つの漢字で表される「親書」である。以上で、第3例文についての説明を終える。

0118

図22の説明に戻る。第2生成部2105は、第3文記憶部2103に記憶されている第3例文を1つ特定する(S2203)。第2生成部2105は、特定した第3例文からラベルを示すタグを除去する(S2205)。第2生成部2105は、タグが除去された第3例文に対して、形態素解析を行う(S2207)。形態素解析を終えると、端子Aを介して、図27に示したS2701の処理に移る。

0119

第2生成部2105は、形態素解析の結果から、単語を1つ特定する(S2701)。例えば、第2生成部2105は、出現順に単語を1つ特定する。第2生成部2105は、特定した単語に対するラベルを特定する(S2703)。具体的には、タグが付加されている単語の場合は、当該タグが示すラベルが特定される。タグが付加されていない単語の場合は、ラベル「O」が割り当てられる。特定されたラベルは、教師データ記憶部2107に記憶される教師データのレコードに設定される。

0120

図28に、教師データの例を示す。教師データは、第3例文の各単語に対応するレコードを有している。この例で、教師データのレコードは、着目する単語のラベルを設定するためのフィールドと、3つの第2素性を設定するためのフィールドと、第3素性を設定するためのフィールドと、第4スコアを設定するためのフィールドとを有している。

0121

第2素性は、着目する単語及び着目する単語に連なる単語を特定する素性である。図28の例で、W(0)は、着目する単語を意味する。同様に、W(1)は、着目する単語の次の単語を意味する。同様に、W(2)は、着目する単語の2つ後の単語を意味する。尚、3つ以上後の単語を特定する第2素性を用いるようにしてもよい。また、着目する単語の1つ前の単語W(−1)を特定する第2素性、着目する単語の2つ前の単語W(−2)を特定する第2素性、あるいは着目する単語の3つ以上前の単語を特定する第2素性を用いるようにしてもよい。また、着目する単語W(0)を特定する第2素性を省くようにしてもよい。

0122

第3素性は、着目する単語W(0)の語義を特定する素性である。但し、着目する単語W(0)が対象単語ではない場合には、第3素性は設定されない。

0123

このように、図28の例では、3つの第2素性と第3素性からなる素性集合が設定される。

0124

第4スコアは、着目する単語の語義の判別において付与されたスコアである。第4スコアは、当該語義の判別に対する重み(評価の確かさ)を示している。つまり、第4スコアは、上述した第2スコアと同種の値である。

0125

図28の例における第1レコードは、文ID:D101の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D101の第3例文における1番目の単語に着目している。図28の例における第1レコードに設定されているラベルは、「O」であるので、文ID:D101の第3例文における1番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図28の例における第1レコードには、着目する単語W(0)が、文ID:D101の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D101の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D101の第3例文における3番目の単語と一致するという第2素性とが設定されている。更に、図28の例における第1レコードには、着目する単語W(0)の語義が「稲の実」であるという第3素性と、着目する単語W(0)の語義「稲の実」を判定した際に得られた第4スコア「1」が設定されている。

0126

図28の例における第2レコードは、文ID:D101の第3例文における2番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D101の第3例文における2番目の単語に着目している。図28の例における第2レコードに設定されているラベルは、「O」であるので、文ID:D101の第3例文における2番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図28の例における第2レコードには、着目する単語W(0)が、文ID:D101の第3例文における2番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D101の第3例文における3番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D101の第3例文における4番目の単語と一致するという第2素性とが設定されている。文ID:D101の第3例文における2番目の単語は、対象単語ではないので、第3素性と第4スコアとは、設定されていない。

0127

文ID:D101の第3例文における3番目以降の単語に対応するレコードについては、説明を省略する。

0128

図28の例における第3レコードは、文ID:D102の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D102の第3例文における1番目の単語に着目している。図28の例における第3レコードは、文ID:D102の第3例文における1番目の単語に固有名詞のタイプ「組織」を示すラベルが付与されていることを示している。また、図28の例における第3レコードには、着目する単語W(0)が、文ID:D102の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D102の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D102の第3例文における3番目の単語と一致するという第2素性とが設定されている。更に、図28の例における第3レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第3素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第4スコア「1」が設定されている。

0129

文ID:D102の第3例文における2番目以降の単語に対応するレコードについては、説明を省略する。

0130

図28の例における第4レコードは、文ID:D103の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D103の第3例文における1番目の単語に着目している。図28の例における第4レコードは、文ID:D103の第3例文における1番目の単語に固有名詞のタイプ「組織」を示すラベルが付与されていることを示している。また、図28の例における第4レコードには、着目する単語W(0)が、文ID:D103の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D103の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D103の第3例文における3番目の単語と一致するという第2素性とが設定されている。更に、図28の例における第4レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第3素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第4スコア「2」が設定されている。

0131

文ID:D103の第3例文における2番目以降の単語に対応するレコードについては、説明を省略する。

0132

図27の説明に戻る。第2生成部2105は、特定した単語及び連なる単語を特定する第2素性を生成する(S2705)。上述したように、第2素性は、着目する単語に対する位置関係と、その位置における単語自体との対応付けによって定められる。

0133

第3抽出部2109は、S2701において特定した単語が、対象単語であるか否かを判定する(S2707)。S2701において特定した単語が、対象単語ではないと判定した場合には、語義判定を行わないので、そのままS2713の処理に移る。

0134

S2701において特定した単語が、対象単語であると判定した場合には、第3抽出部2109は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する(S2709)。第3例文に含まれる手掛かりの単語は、第3例文に含まれる対象単語以外の名詞である。手掛りとなる単語は、第3抽出データ記憶部2111に記憶される第3抽出データのレコードに設定される。

0135

図29に、第3抽出データの例を示す。第3抽出データは、第3例文に対応するレコードを有している。第3抽出データのレコードは、第3例文に含まれる手掛かりの単語を設定するためのフィールドを有している。

0136

図29の例における第1レコードには、文ID:D101の第3例文から抽出された手掛かりの単語「日本人」「主食」「酒」「焼酎」及び「原料」が設定されている。

0137

図29の例における第2レコードには、文ID:D102の第3例文から抽出された手掛かりの単語「日本」「大統領」及び「親書」が設定されている。

0138

図29の例における第3レコードには、文ID:D103の第3例文から抽出された手掛かりの単語「日本」「オバマ」及び「親書」が設定されている。

0139

図27の説明に戻る。第2判別部2113は、第1前処理で生成された語義判別器に第3抽出データを適用することによって、S2203で特定した第3例文に含まれる対象単語の語義を判別する(S2711)。本実施の形態では、S2711における語義判別処理を第2判別処理という。

0140

語義判別器の入力は、第3抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第2判別部2113は、第1規則データに従って、各語義に対する第4スコアを算出する。第4スコアは、語義に対する評価値に相当する。そして、第2判別部2113は、第4スコアの値が大きい方の語義を選択する。選択された語義は、第3素性として教師データ記憶部2107に記憶される教師データのレコードに設定される。また、選択された語義の第4スコアも、教師データ記憶部2107に記憶される教師データのレコードに設定される。

0141

図27の説明に戻る。第2生成部2105は、未処理の単語があるか否かを判定する(S2713)。未処理の単語があると判定した場合には、S2701に戻って、上述した処理を繰り返す。

0142

一方、未処理の単語がないと判定した場合には、第2生成部2105は、未処理の第3例文があるか否かを判定する(S2715)。未処理の第3例文があると判定した場合には、端子Bを介して、図22に示したS2203の処理に戻って、上述した処理を繰り返す。

0143

一方、未処理の第3例文がないと判定した場合には、第3学習部2115は、図15のS1517の第2学習処理で生成されたラベル判別器を更新する(S2717)。このとき、第3学習部2115は、例えばパーセプトロンを用いた機械学習を行う。本実施の形態では、S2717において機械学習を行う処理を第3学習処理という。

0144

ラベル判別器の入力は、教師データにおける素性集合(この例では、3つの第2素性と第3素性)に対応し、同じく出力は、教師データにおけるラベルに対応する。また、第2学習処理で得られた第2規則データが、初期値として用いられる。具体的には、第3学習部2115は、第2規則データにおける第1素性とラベルとの組み合わせに係る第3スコアを、第3素性とラベルとの結合の強さに設定する。そして、教師データをサンプルデータとして、素性集合に含まれる各素性とラベルとの結合の強さを示す第5スコアを求める。第5スコアを含む第3規則データは、第3規則記憶部319に記憶される。この例で、完成したラベル判別器は、第3規則データを有する。尚、第3学習部2115は、第4スコアを第3素性に関する教師サンプルの重要度として用いて学習するようにしてもよい。

0145

図30に、第3規則データの例を示す。第3規則データは、対象単語のラベルを判別するための規則毎のレコードを有している。対象単語のラベルを判別するための規則は、図28に示した教師データの素性集合に含まれる素性、つまり第2素性又は第3素性に相当する。第3規則データのレコードは、対象単語のラベルを判別するための規則を設定するためのフィールドと、対象単語の各ラベルに対する第5スコアを設定するためのフィールドとを有している。

0146

尚、第5スコアは、規則とラベルとの関連を示している。規則とラベルとの組み合わせに対する第5スコアが正であれば、ある文に含まれる対象単語に着目したときに当該規則に適合した場合に、当該文における対象単語に対して当該ラベルを選択することについて、肯定的であることを意味する。他方、規則とラベルとの組み合わせに対する第5スコアが負であれば、ある文に含まれる対象単語に着目したときに当該規則に適合した場合に、当該文における対象単語に対して当該ラベルを選択することについて、否定的であることを意味する。また、第5スコアの絶対値は、規則とラベルとの関連の強さを示している。

0147

図30の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという規則とラベル「組織」との組み合わせについて、第5スコア「3」が付与されたことを示している。更に、図30の例における第1レコードは、対象単語の語義が「アメリカ合衆国の政府」であるという規則とラベル「O」との組み合わせについて、第5スコア「−3」が付与されたことを示している。つまり、図30の例における第1レコードは、「アメリカ合衆国の政府」の意味で対象単語を用いている文において、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。

0148

図30の例における第2レコードは、対象単語の語義が「稲の実」であるという規則とラベル「組織」との組み合わせについて、第5スコア「−3」が付与されたことを示している。更に、図30の例における第2レコードは、対象単語の語義が「稲の実」であるという規則とラベル「O」との組み合わせについて、第5スコア「3」が付与されたことを示している。つまり、図30の例における第2レコードは、「稲の実」の意味で対象単語を用いている文において、対象単語に対してラベル「O」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。

0149

図30の例における第3レコードの規則は、例えば図28に示した第1レコードにおける1番目の第2素性に相当する。図30の例における第3レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「2」が付与されたことを示している。更に、図30の例における第3レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「−2」が付与されたことを示している。つまり、図30の例における第3レコードは、着目する単語W(0)が、例えば図24の第1名詞2401に示した漢字1つの名詞「米」と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。

0150

図30の例における第4レコードの規則は、例えば図28に示した第1レコードにおける2番目の第2素性に相当する。図30の例における第4レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「2」が付与されたことを示している。更に、図30の例における第4レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「−2」が付与されたことを示している。つまり、図30の例における第4レコードは、着目する単語の次の単語W(1)が、例えば図24で2番目に示した平仮名文字1つの助詞と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。

0151

図30の例における第5レコードの規則は、例えば図28に示した第3レコードにおける3番目の第2素性に相当する。図30の例における第5レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「1」が付与されたことを示している。更に、図30の例における第5レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「−1」が付与されたことを示している。つまり、図30の例における第5レコードは、着目する単語の2つ後の単語W(2)が、例えば図25の第2名詞2533に示した漢字2つの名詞「日本」と一致する場合には、対象単語に対してラベル「組織」を選択すべきであって、ラベル「O」を選択すべきでないという傾向を示している。

0152

図30の例における第6レコードの規則は、例えば図28に示した第1レコードにおける3番目の第2素性に相当する。図30の例における第6レコードは、当該規則とラベル「組織」との組み合わせについて、第5スコア「−4」が付与されたことを示している。更に、図30の例における第6レコードは、当該規則とラベル「O」との組み合わせについて、第5スコア「4」が付与されたことを示している。つまり、図30の例における第6レコードは、着目する単語の2つ後の単語W(2)が、例えば図24の第2名詞2403に示した漢字3つの名詞「日本人」と一致する場合には、対象単語に対してラベル「O」を選択すべきであって、ラベル「組織」を選択すべきでないという傾向を示している。

0153

ここで、図31に、第3例文データの別の例を示す。図31に示した第3例文データにおける文ID:D201の第3例文「米が、大統領に贈られる。」について、図32を用いて説明する。

0154

文ID:D201の第3例文は、第1名詞3201及び第2名詞3203の2つの名詞を含んでいる。そのうち、第1名詞3201は、対象単語である。この例における第1名詞3201は、「稲の実」の意味で用いられている。つまり、第1名詞3201は、固有表現に該当しない。従って、ラベルを示すタグは付加されない。

0155

尚、第2名詞3203は、図示するように3つの漢字で表される「大統領」である。

0156

図33に、図31に示した文ID:D201の第3例文に基づいて生成される教師データの例を示す。図33の例における第1レコードは、文ID:D201の第3例文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D201の第3例文における1番目の単語に着目している。図33の例における第1レコードに設定されているラベルは、「O」であるので、文ID:D201の第3例文における1番目の単語には、固有名詞のタイプを示すラベルが付与されていないことを示している。また、図33の例における第1レコードには、着目する単語W(0)が、文ID:D201の第3例文における1番目の単語と一致するという第2素性と、着目する単語の次の単語W(1)が、文ID:D201の第3例文における2番目の単語と一致するという第2素性と、着目する単語の2つ後の単語W(2)が、文ID:D201の第3例文における3番目の単語と一致するという第2素性とが設定されている。

0157

更に、図33の例における第1レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第3素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第4スコア「1」が設定されている。

0158

図33の例における第1レコードでは、ラベル(「O」)と第3素性(語義=「アメリカ合衆国の政府」)とが内容的に整合していない。第3例文における文脈が、語義判別器を生成する際の基礎となった第1例文における文脈に反する場合には、図31乃至図33を用いて上述した例のように、誤った語義判別結果を含む教師データが生成されることがある。そして、教師データの量自体が足りなければ、誤った語義判別結果の影響を受けやすい。従って、誤った語義判別結果が与えられても正しく判別する理想的な規則データを学習することは難しい。しかし、本実施の形態では、自動的に生成された多くの学習データから得られた第2規則データ(図19)を基礎として教師データによる学習を行うので、誤った語義判別結果の影響を受け難い。

0159

尚、図33の例における第2レコードは、文ID:D201の第3例文における2番目の単語に対応するレコードであるが、その説明は省略する。

0160

図4に示したように、S407におけるメイン処理を終えると、学習装置301の処理も終える。以上で学習装置301についての説明を終える。

0161

次に、判別装置について説明する。判別装置は、適用対象の文に含まれる対象単語のラベルを自動的に判別するコンピュータである。図34に、判別装置3401のモジュール構成例を示す。判別装置3401は、第1規則記憶部311、第3規則記憶部319及び適用部3403を有する。

0162

第1規則記憶部311は、学習装置301において生成された第1規則データを記憶している。第3規則記憶部319は、学習装置301において生成された第3規則データを記憶している。

0163

また、適用部3403は、第2受付部3405、第4文記憶部3407、第3生成部3409、第4抽出部3411、第4抽出データ記憶部3413、第3判別部3415、適用データ記憶部3417、第4判別部3419、結果データ記憶部3421、第4生成部3423、第5文記憶部3425及び出力部3427を有する。

0164

適用部3403は、適用対象の文にラベル判別器を適用する。第2受付部3405は、対象単語を含む適用対象の文を受け付ける。第4文記憶部3407は、適用対象の文を記憶する。第3生成部3409は、適用対象の文に含まれる対象単語又は対象単語に連なる単語に関する第4素性を生成する。第4抽出部3411は、適用対象の文から、語義判定の手掛りとなる単語を抽出する。第4抽出データ記憶部3413は、語義判定の手掛りとなる単語をまとめた第4抽出データを記憶する。第3判別部3415は、第1規則データに従い、第4抽出データに基づいて、適用対象の文に含まれる対象単語の語義を判別する。適用データ記憶部3417は、適用対象の文に基づく適用データを記憶する。第4判別部3419は、第3規則データに従って、適用データに基づいて、適用対象の文に含まれる対象単語のラベルを判別する。結果データ記憶部3421は、判別したラベルを含む結果データを記憶する。第4生成部3423は、適用対象の文にラベルを付加して、出力文を生成する。第5文記憶部3425は、出力文を記憶する。出力部3427は、出力文を出力する。上述したデータ及び処理の内容については、以下で詳述する。

0165

上述した判別装置3401、適用部3403、第2受付部3405、第3生成部3409、第4抽出部3411、第3判別部3415、第4判別部3419、第4生成部3423及び出力部3427は、ハードウエア資源(例えば、図42)と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

0166

上述した第1規則記憶部311、第3規則記憶部319、第4文記憶部3407、第4抽出データ記憶部3413、適用データ記憶部3417、結果データ記憶部3421及び第5文記憶部3425は、ハードウエア資源(例えば、図42)を用いて実現される。

0167

図35に、適用処理フローの例を示す。第2受付部3405は、例えば記憶媒体、通信媒体あるいは入力装置を介して、適用対象の文を受け付ける(S3501)。受け付けた適用対象の文は、第4文記憶部3407に記憶される。1つの適用対象の文は、1つの適用事例に相当する。

0168

図36に、対象文データの例を示す。対象文データは、適用対象の文毎にレコードを設けている。レコードには、文IDに対応付けて適用対象の文が格納される。

0169

図36の例における第1レコードに格納されている適用対象の文「米は、日本の主食であって、酒の製造に使われる。」(文ID:D301)は、図2の上段に示した文と同じである。

0170

図36の例における第2レコードに格納されている適用対象の文「米は、日本人と交流する大統領の写真を公開した。」(文ID:D302)は、図1の上段に示した文と同じである。

0171

図35の説明に戻る。第3生成部3409は、第4文記憶部3407に記憶されている適用対象の文を1つ特定する(S3502)。第3生成部3409は、特定した適用対象の文に対して、形態素解析を行う(S3503)。

0172

第3生成部3409は、形態素解析の結果から、対象単語又は対象単語に連なる単語を特定する第4素性を生成する(S3505)。第4素性は、教師データにおける第2素性に対応する。この例で、第3生成部3409は、対象単語に着目して、対象単語W(O)を特定する第4素性と、対象単語の次の単語W(1)を特定する第4素性と、対象単語の2つ後の単語W(2)を特定する第4素性とを生成する。第3生成部3409は、生成した第4素性を、適用データ記憶部3417に記憶される適用データのレコードに設定する。

0173

図37に、適用データの例を示す。適用データは、適用対象の文の各単語に対応するレコードを有している。但し、この例では、対象単語に着目し、対象単語以外の単語に対応するレコードは省略する。この例で、適用データのレコードは、適用対象の文のIDを設定するためのフィールドと、着目する単語を設定するためのフィールドと、3つの第4素性を設定するためのフィールドと、第5素性を設定するためのフィールドと、第6スコアを設定するためのフィールドとを有している。

0174

第4素性は、上述したように、着目する単語又は着目する単語に連なる単語を特定する素性である。また、3つの第4素性は、図28に示した教師データにおける3つの第2素性に対応する。

0175

第5素性は、着目する単語の語義を特定する素性である。但し、着目する単語が対象単語ではない場合には、第5素性は設定されない。つまり、第5素性は、図28に示した教師データにおける第3素性に対応する。

0176

このように、図37の例では、3つの第4素性と第5素性からなる素性集合が設定される。

0177

第6スコアは、着目する単語の語義を判別する際に付与されたスコアである。第6スコアは、当該語義の判別に対する重み(評価の確かさ)を示している。つまり、第6スコアは、図28に示した教師データにおける第4スコアに対応する。

0178

図37の例における第1レコードは、文ID:D301の適用対象の文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D301の適用対象の文における1番目の単語に着目している。図37の例における第1レコードには、着目する単語W(0)が、文ID:D301の適用対象の文における1番目の単語と一致するという第4素性と、着目する単語の次の単語W(1)が、文ID:D301の適用対象の文における2番目の単語と一致するという第4素性と、着目する単語の2つ後の単語W(2)が、文ID:D301の適用対象の文における3番目の単語と一致するという第4素性とが設定されている。更に、図37の例における第1レコードには、着目する単語W(0)の語義が「稲の実」であるという第5素性と、着目する単語W(0)の語義「稲の実」を判定した際に得られた第6スコア「2」が設定されている。

0179

図37の例における第2レコードは、文ID:D302の適用対象の文における1番目の単語に対応するレコードである。つまり、このレコードでは、文ID:D302の適用対象の文における1番目の単語に着目している。図37の例における第2レコードには、着目する単語W(0)が、文ID:D302の適用対象の文における1番目の単語と一致するという第4素性と、着目する単語の次の単語W(1)が、文ID:D302の適用対象の文における2番目の単語と一致するという第4素性と、着目する単語の2つ後の単語W(2)が、文ID:D302の適用対象の文における3番目の単語と一致するという第4素性とが設定されている。更に、図37の例における第2レコードには、着目する単語W(0)の語義が「アメリカ合衆国の政府」であるという第5素性と、着目する単語W(0)の語義「アメリカ合衆国の政府」を判定した際に得られた第6スコア「1」が設定されている。

0180

図35の説明に戻る。第4抽出部3411は、形態素解析の結果から、語義判定の手掛りとなる単語を抽出する(S3507)。適用対象の文に含まれる手掛かりの単語は、適用対象の文に含まれる対象単語以外の名詞である。手掛りとなる単語は、第4抽出データ記憶部3413に記憶される第4抽出データのレコードに設定される。

0181

図38に、第4抽出データの例を示す。第4抽出データは、適用対象の文に対応するレコードを有している。第4抽出データのレコードは、適用対象の文に含まれる手掛かりの単語を設定するためのフィールドを有している。適用対象の文に含まれる手掛かりの単語は、適用対象の文に含まれる対象単語以外の名詞である。

0182

図38の例における第1レコードには、文ID:D301の適用対象の文から抽出された手掛かりの単語「日本」「主食」「酒」及び「製造」が設定されている。

0183

図38の例における第2レコードには、文ID:D302の適用対象の文から抽出された手掛かりの単語「日本人」「大統領」及び「写真」が設定されている。

0184

図35の説明に戻る。第3判別部3415は、学習装置301によって生成された語義判別器に第4抽出データを適用することによって、S3502で特定した適用対象の文に含まれる対象単語の語義を判別する(S3509)。本実施の形態では、S3509における語義判別処理を第3判別処理という。

0185

語義判別器の入力は、第4抽出データにおける手掛りに対応し、同じく出力は、語義に対応する。第3判別部3415は、第1規則データに従って、各語義に対する第6スコアを算出する。そして、第3判別部3415は、第6スコアの値が大きい方の語義を選択する。選択された語義は、第5素性として適用データ記憶部3417に記憶される適用データのレコードに設定される。選択された語義の第6スコアも、適用データ記憶部3417に記憶される適用データのレコードに設定される。

0186

第4判別部3419は、学習装置301によって生成されたラベル判別器に適用データを適用することによって、S3502で特定した適用対象の文に含まれる対象単語のラベルを判別する(S3511)。本実施の形態では、S3511におけるラベル判別処理を第4判別処理という。

0187

ラベル判別器の入力は、適用データにおける素性集合(この例では、3つの第4素性と第5素性)に対応し、同じく出力は、ラベルに対応する。第4判別部3419は、第3規則データに従って、各ラベルに対する第7スコアを算出する。単純には、適用データのレコード毎に、第4素性及び第5素性のうち、該当した素性に割り当てられている第5スコア(図30の第3規則データ参照)を合計することによって、第7スコアが算出される。また、第5素性に該当する場合には、第4判別部3419は、第5素性に対応する第6スコアを第5スコアに乗じて、得られた積を加算するようにしてもよい。つまり、第4判別部3419は、第6スコアを各適用事例における第5素性の重要度として用いるようにしてもよい。

0188

算出された各ラベルに対する第7スコアは、結果データ記憶部3421に記憶される結果データのレコードに設定される。そして、第4判別部3419は、第7スコアの値が大きい方のラベルを選択する。選択されたラベルも、結果データ記憶部3421に記憶される結果データのレコードに設定される。

0189

図39に、結果データの例を示す。結果データは、適用対象の文の各単語に対応するレコードを有している。但し、この例では、対象単語に着目し、対象単語以外の単語に対応するレコードは省略する。この例で、結果データのレコードは、文IDを設定するためのフィールドと、着目する単語を設定するためのフィールドと、各ラベルに対して付与された第7スコアを設定するためのフィールドと、選択されたラベルを設定するためのフィールドとを有している。

0190

図39の例における第1レコードは、文ID:D301の適用対象の文に含まれる対象単語に着目した場合に、ラベル「組織」に対して第7スコア「−1」が付与され、ラベル「O」に対して第7スコア「1」が付与されたことを示している。そして、第7スコアの値が大きい方のラベル「O」が選択されたことを示している。

0191

図39の例における第2レコードは、文ID:D302の適用対象の文に含まれる対象単語に着目した場合に、ラベル「組織」に対して第7スコア「3」が付与され、ラベル「O」に対して第7スコア「−3」が付与されたことを示している。そして、第7スコアの値が大きい方のラベル「組織」が選択されたことを示している。

0192

図35の説明に戻る。第4生成部3423は、出力文を生成する(S3513)。具体的には、S3502において特定した適用対象の文に含まれる対象単語のラベルが、「組織」であれば、対象単語に固有表現のタイプ「組織」を示すタグが付加される。一方、S3502において特定した適用対象の文に含まれる対象単語のラベルが、「O」であれば、タグは付加されない。但し、固有表現のタイプに該当しない旨を示すタグ<O>と</O>が付加されるようにしてもよい。

0193

図40に、出力データの例を示す。出力データは、出力文毎にレコードを有している。図40の例における第1レコードには、文ID:D301の適用対象の文に対応する出力文が格納されている。文ID:D301の適用対象の文に対応する出力文は、図2の下段に示した文と同じである。

0194

図40の例における第2レコードには、文ID:D302の適用対象の文に対応する出力文が格納されている。文ID:D302の適用対象の文に対応する出力文は、図1の下段に示した文と同じである。

0195

図35の説明に戻る。第3生成部3409は、未処理の適用対象の文があるか否かを判定する(S3514)。未処理の適用対象の文があると判定した場合には、S3502の処理に戻って、上述した処理を繰り返す。

0196

一方、未処理の適用対象の文がないと判定した場合には、出力部3427は、出力文を出力する(S3515)。出力の形態は、例えば記録媒体への書込み、表示あるいは送信などである。

0197

本実施の形態によれば、自ら判別する対象単語の語義に基づき、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。第2規則データの基礎となる第2例文は、第1規則データの基礎となる第1例文と文脈が共通するので、第2規則データにおいて矛盾が生じにくい面がある。更に、第2規則データを規則データ(結合荷重)の初期値として用いるので、語義に基づくラベル判別の規則が正しく維持されやすい面がある。

0198

更に、第2判別処理(図27:S2711)において判別の基準となった語義の評価値を、第3学習処理(図27:S2717)において、学習における当該語義の重要度として用いるので、語義判別の確からしさを、ラベルの判別に反映できる。

0199

更に、Webサイトから第1例文を取得するので、標準的な第1規則データを得やすい。

0200

更に、固有表現におけるタイプを判別するので、固有表現に係る単語を特定することに役立つ。

0201

[実施の形態2]
上述した実施の形態では、学習装置301とは別に判別装置3401を設ける例を示したが、学習装置301が判別装置3401を兼ねるようにしてもよい。

0202

図41は、実施の形態2に係る学習装置301のモジュール構成例を示す図である。この例では、実施の形態1に係る判別装置3401に設けられていた適用部3403が、学習装置301に設けられている。

0203

適用部3403の構成及び処理は、実施の形態1の場合と同様である。

0204

本実施の形態によれば、適用部3403を有するので、学習装置301において複数の語義を有する単語をより正しくタイプに分類できる。

0205

以上、固有表現のタイプ「組織」を例として説明したが、「人名」や「地名」など他のタイプについても、「組織」の場合と同様である。また、固有表現のタイプは、ラベルによって区別される単語のタイプについての一例である。

0206

単語のタイプは、品詞であってもよい。つまり、ラベルによって品詞を区別するようにしてもよい。

0207

単語のタイプは、読み方(例えば、音読みと訓読み)であってもよい。つまり、ラベルによって読み方を区別するようにしてもよい。

0208

更に、単語のタイプは、単語のイントネーション発音あるいはアクセントであってもよい。つまり、ラベルによってイントネーション、発音あるいはアクセントを区別するようにしてもよい。

0209

以上、日本語による適用例を示したが、本実施の形態を他の言語に適用してもよい。例えば、中国語スペイン語英語アラビア語あるいはヒンディー語などに適用してもよい。

0210

以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。

0211

また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番入れ替えることや複数の処理を並列に実行させるようにしても良い。

0212

なお、上で述べた学習装置301及び判別装置3401は、コンピュータ装置であって、図42に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスクドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブルディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

0213

以上述べた本発明の実施の形態をまとめると、以下のようになる。

0214

本実施の形態に係る学習装置は、複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する。また、上記学習装置は、対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、第1規則に従って判別する第1判別部と、タイプを判別する第2規則を、第2例文における語義と、第2データにより特定されるタイプとの対応に基づいて学習する第2学習部と、対象単語と当該対象単語のタイプを特定する第3データとを含む第3例文における当該対象単語の語義を、第1規則に従って判別する第2判別部と、タイプを判別する第3規則を、第2規則を初期値として用い、第3例文における語義と第3例文とに基づいて学習する第3学習部とを有する。

0215

このようにすれば、自ら判別する対象単語の語義に基づき、複数の語義を有する単語をより正しくタイプ分類する規則が得られる。第2規則の基礎となる第2例文は、第1規則の基礎となる第1例文と文脈が共通するので、第2規則において矛盾が生じにくい面がある。更に、第2規則を初期値として用いるので、語義に基づくタイプ判別の規則が正しく維持されやすい面がある。

0216

上記学習装置は、対象単語を含む適用対象の文における当該対象単語の語義を、第1規則に従って判別する第3判別部を有するようにしてもよい。更に、上記学習装置は、判別した語義と適用対象の文とに基づいて、第3規則に従って適用対象の文における上記タイプを判別する第4判別部を有するようにしてもよい。

0217

このようにすれば、学習装置において、複数の語義を有する単語をより正しくタイプに分類できる。

0218

上記第3学習部は、上記第2判別部における判別の基準となった語義の評価値を、学習における当該語義の重要度として用いるようにしてもよい。

0219

このようにすれば、語義判別の確からしさを、タイプの判別に反映できる。

0220

上記学習装置は、Webサイトから、第1例文を取得する取得部を有するようにしてもよい。

0221

このようにすれば、標準的な第1規則を得やすい。

0222

上記複数のタイプは、固有表現における1つのタイプを含んでもよい。

0223

このようにすれば、固有表現に係る単語を特定することに役立つ。

0224

なお、上で述べた学習装置における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスクCD−ROM光磁気ディスク半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。

0225

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

0226

(付記1)
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習装置であって、
対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習する第1学習部と、
前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別する第1判別部と、
前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習する第2学習部と、
対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別する第2判別部と、
前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する第3学習部と
を有する学習装置。

0227

(付記2)
更に、
対象単語を含む適用対象の文における当該対象単語の語義を、前記第1規則に従って判別する第3判別部と、
判別した前記語義と前記適用対象の文とに基づいて、前記第3規則に従って前記適用対象の文における前記タイプを判別する第4判別部と
を有する付記1記載の学習装置。

0228

(付記3)
前記第3学習部は、前記第2判別部における判別の基準となった前記語義の評価値を、学習における当該語義の重要度として用いる
付記1又は2記載の学習装置。

0229

(付記4)
更に、
Webサイトから、第1例文を取得する取得部
を有する付記1乃至3のいずれか1つ記載の学習装置。

0230

(付記5)
前記複数のタイプは、固有表現における1つのタイプを含む
付記1乃至4のいずれか1つ記載の学習装置。

0231

(付記6)
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法であって、
対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、
前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する
処理を含み、コンピュータにより実行される学習方法。

0232

(付記7)
複数の語義を有し且つ複数のタイプに分類される対象単語について、当該タイプを判別する規則を学習する学習方法を、コンピュータに実行させるための学習プログラムであって、
前記学習方法は、
対象単語の語義を判別する第1規則を、対象単語と当該対象単語の語義を特定する第1データとを含む第1例文に基づいて学習し、
前記第1例文と文脈が共通し、且つ対象単語と当該対象単語のタイプを特定する第2データとを含む第2例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第2規則を、前記第2例文における前記語義と、前記第2データにより特定される前記タイプとの対応に基づいて学習し、
対象単語と当該対象単語の前記タイプを特定する第3データとを含む第3例文における当該対象単語の語義を、前記第1規則に従って判別し、
前記タイプを判別する第3規則を、前記第2規則を初期値として用い、前記第3例文における前記語義と前記第3例文とに基づいて学習する
処理を含む、学習プログラム。

0233

301学習装置303 設定部
305 定義記憶部 307 第1前処理部
309 第1文記憶部 311 第1規則記憶部
313 第2前処理部 315 第2規則記憶部
317メイン処理部 319 第3規則記憶部
601 取得部 603 第1抽出部
605 第1抽出データ記憶部 607 特定部
609 第1学習部 1401 第1生成部
1403 第2文記憶部 1405 第2抽出部
1407 第2抽出データ記憶部 1409 第1判別部
1411 学習データ記憶部 1413 第2学習部
2101 第1受付部 2103 第3文記憶部
2105 第2生成部 2107教師データ記憶部
2109 第3抽出部 2111 第3抽出データ記憶部
2113 第2判別部 2115 第3学習部
3401判別装置3403 適用部
3405 第2受付部 3407 第4文記憶部
3409 第3生成部 3411 第4抽出部
3413 第4抽出データ記憶部 3415 第3判別部
3417適用データ記憶部 3419 第4判別部
3421結果データ記憶部 3423 第4生成部
3425 第5文記憶部 3427 出力部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ