図面 (/)

技術 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム

出願人 日本電信電話株式会社
発明者 別所克人平野徹牧野俊朗松尾義博
出願日 2016年7月13日 (3年6ヶ月経過) 出願番号 2016-138880
公開日 2018年1月18日 (1年11ヶ月経過) 公開番号 2018-010481
状態 特許登録済
技術分野 機械翻訳
主要キーワード 素性値 格フレーム ソフトウェア科学 機械学習手法 対象格 経験者 頑健性 構築コスト
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年1月18日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

頑健に深層格推定することができるようにする。

解決手段

正解素性ベクトル集合生成部220が、係り受け関係にある体言文節用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。分類モデル生成部222が、正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する。素性ベクトル生成部260が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成する。分類部262が、素性ベクトルBと分類モデルとから、該データAが各深層格に相当するスコアを算出する。

概要

背景

従来の深層格解析技術としては、非特許文献1に記載されているような格フレームに基づくルールベースの手法がある。動詞ごとに、取りうる名詞意味カテゴリ格助詞の対と、該対に対応する深層格の情報(格フレーム情報という)を、あらかじめ定めておく。例えば、動詞「食べる」に対しては、(名詞意味カテゴリ,格助詞,深層格)として、(動物,が,主格),(食物,を,対象格)といった情報を定めておく。入力となる(名詞,格助詞,動詞)が与えられると、該動詞の格フレーム情報から、該名詞の意味カテゴリと格助詞の対に対応する深層格を取得する。例えば、(ケーキ,を,食べる)が入力されると、「ケーキ」の意味カテゴリが食物であることから、「食べる」の格フレーム情報から、(食物,を)に対応する深層格である対象格を取得する。

概要

頑健に深層格を推定することができるようにする。正解素性ベクトル集合生成部220が、係り受け関係にある体言文節用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。分類モデル生成部222が、正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する。素性ベクトル生成部260が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成する。分類部262が、素性ベクトルBと分類モデルとから、該データAが各深層格に相当するスコアを算出する。

目的

本発明の目的は、上記課題を解決するためのものであり、頑健に深層格を推定するための深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

係り受け関係にある体言文節用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置であって、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成する素性ベクトル生成部と、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出する分類部と、を含むことを特徴とする深層格解析装置。

請求項2

係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、を含むことを特徴とする深層格学習装置

請求項3

係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成する素性ベクトル生成部と、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、を含むことを特徴とする深層格推定装置

請求項4

正解付素性ベクトル集合生成部、分類モデル生成部、素性ベクトル生成部、及び分類部を含み、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置における深層格解析方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成するステップと、前記分類部が、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出するステップと、を含むことを特徴とする深層格解析方法。

請求項5

正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、を含むことを特徴とする深層格学習方法。

請求項6

素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成するステップと、前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出するステップと、を含むことを特徴とする深層格推定方法。

請求項7

コンピュータを、請求項1記載の深層格解析装置、請求項2記載の深層格学習装置、若しくは請求項3記載の深層格推定装置の各部として機能させるための、又はコンピュータに、請求項4記載の深層格解析方法、請求項5記載の深層格学習方法、若しくは請求項6記載の深層格推定方法の各ステップを実行させるためのプログラム

技術分野

0001

本発明は、深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムに関する。

背景技術

0002

従来の深層格解析技術としては、非特許文献1に記載されているような格フレームに基づくルールベースの手法がある。動詞ごとに、取りうる名詞意味カテゴリ格助詞の対と、該対に対応する深層格の情報(格フレーム情報という)を、あらかじめ定めておく。例えば、動詞「食べる」に対しては、(名詞意味カテゴリ,格助詞,深層格)として、(動物,が,主格),(食物,を,対象格)といった情報を定めておく。入力となる(名詞,格助詞,動詞)が与えられると、該動詞の格フレーム情報から、該名詞の意味カテゴリと格助詞の対に対応する深層格を取得する。例えば、(ケーキ,を,食べる)が入力されると、「ケーキ」の意味カテゴリが食物であることから、「食べる」の格フレーム情報から、(食物,を)に対応する深層格である対象格を取得する。

先行技術

0003

長尾真編,“自然言語処理”,岩波書店,岩波講座ソフトウェア科学15,1996.

発明が解決しようとする課題

0004

格フレームに基づくルールベースの手法では、格フレーム情報の構築新語に意味カテゴリを割り振ることなどにおいて、構築コストが大きくかかるという課題がある。また、一旦定めた意味カテゴリの体系や格フレーム情報と整合が取れない(名詞,格助詞,動詞)と深層格の組が出現し、的確な深層格を推定できず、深層格推定に必要な頑健性がないという課題がある。例えば、ある(名詞意味カテゴリX,格助詞,深層格)の組は、格フレーム情報にないが、名詞意味カテゴリがXである特定の名詞に対しては、該組を格フレーム情報に含ませる必要が出てきたり、逆に、ある(名詞意味カテゴリX,格助詞,深層格)の組が、格フレーム情報にあるが、名詞意味カテゴリがXである特定の名詞に対しては、該組の深層格は該当しないといったことが出てきたりする。また、特定の名詞に対しては、既存の意味カテゴリに当てはまらない意味カテゴリXを創設した上で、(名詞意味カテゴリX,格助詞,深層格)の組を格フレーム情報に含ませる必要が出てくることもある。

0005

本発明の目的は、上記課題を解決するためのものであり、頑健に深層格を推定するための深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラムを提供することにある。

課題を解決するための手段

0006

上記課題を解決するため、第1の発明に係る深層格解析装置は、係り受け関係にある体言文節用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置であって、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成する素性ベクトル生成部と、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。

0007

第2の発明に係る深層格学習装置は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する正解付素性ベクトル集合生成部と、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する分類モデル生成部と、を含んで構成されている。

0008

第3の発明に係る深層格推定装置は、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成する素性ベクトル生成部と、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出する分類部と、を含んで構成されている。

0009

また、第4の発明に係る深層格解析方法は、正解付素性ベクトル集合生成部、分類モデル生成部、素性ベクトル生成部、及び分類部を含み、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置における深層格解析方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性ベクトルBを生成するステップと、前記分類部が、前記素性ベクトルBと前記分類モデルとから、該データAが各深層格に相当するスコアを算出するステップと、を含んで構成されている。

0010

また、第5の発明に係る深層格学習方法は、正解付素性ベクトル集合生成部、及び分類モデル生成部を含む深層格学習装置における深層格学習方法であって、前記正解付素性ベクトル集合生成部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とし、各正解付データに対し、該データから素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成するステップと、前記分類モデル生成部が、前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成するステップと、を含んで構成されている。

0011

また、第6の発明に係る深層格推定方法は、素性ベクトル生成部、及び分類部を含む深層格推定装置における深層格推定方法であって、前記素性ベクトル生成部が、係り受け関係にある体言文節と用言文節のデータAを入力とし、該データAから素性及び素性値の組の集合である素性ベクトルBを生成するステップと、前記分類部が、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合に含まれる各正解付データに対して生成される素性ベクトルの集合である、正解付素性ベクトル集合から予め生成された、深層格を分類するための分類モデルと、前記素性ベクトルBとから、該データAが各深層格に相当するスコアを算出するステップと、を含んで構成されている。

0012

また、本発明のプログラムは、コンピュータを、上記の深層格解析装置、上記の深層格学習装置、若しくは上記の深層格推定装置の各部として機能させるための、又はコンピュータに、上記の深層格解析方法、上記の深層格学習方法、若しくは上記の深層格推定方法の各ステップを実行させるためのプログラムである。

0013

また、本発明の素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとるようにしてもよい。

0014

また、本発明の素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含む係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合をとるか、または、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとるようにしてもよい。

0015

また、本発明の素性及び素性値の組の集合として、データ中の各形態素概念ベクトルをとるようにしてもよい。

0016

本発明では、大量の学習データから統計的手法により、データの大勢を反映した分類モデルを導出する。このため学習データの中に、素性値に不備がある等の多少のノイズがあったとしても、分類モデルは的確なものとなるため、頑健に深層格を推定できる。また、あらかじめ単語ごとに付与する意味カテゴリ以外にも、意味カテゴリのような単語の意味に相当し、かつ、自動的に獲得できる素性を始め、他の素性がある。このため、意味カテゴリ付与が完全でなくとも、他の素性の情報により、的確に深層格を推定でき、構築コストを従来手法よりも低減できる。

発明の効果

0017

本発明によれば、頑健に深層格を推定することができる。

図面の簡単な説明

0018

本発明の実施の形態に係る深層格解析装置の機能的構成を示すブロック図である。
正解付データの集合の一例を示す図である。
正解付素性ベクトル集合の一例を示す図である。
深層格の推定対象であるデータAの一例を示す図である。
データAから生成される素性ベクトルBの一例を示す図である。
体言文節付属部を「で」に固定した場合の正解付データ集合の一例を示す図である。
体言文節付属部を「で」に固定した場合のデータAの一例を示す図である。
体言「鉛筆」と係り受け関係にある(体言文節付属部,用言(終止形))とその頻度の組の集合の一例を示す図である。
用言「書く」と係り受け関係にある(体言,体言文節付属部)とその頻度の組の集合の一例を示す図である。
意味カテゴリを用いて生成した共起ベクトルの一例を示す図である。
本発明の実施の形態に係る深層格解析装置の学習部における学習処理ルーチンを示すフローチャート図である。
本発明の実施の形態に係る深層格解析装置の推定部における推定処理ルーチンを示すフローチャート図である。

実施例

0019

以下、図面とともに本発明の実施の形態を説明する。

0020

<本発明の実施の形態の概要
本発明の実施の形態は、係り受け関係にある体言文節と用言文節に対し、該体言文節の体言が該用言文節の用言にとってどの深層格にあたるのかを推定する深層格解析装置、方法、及びプログラムに関する。

0021

本発明の実施の形態でいう深層格とは、動詞を始めとする用言に対する名詞の意味役割を表している。例えば「部屋でで食べる」において、体言文節「部屋で」と「箸で」は、それぞれ用言文節「食べる」と係り受け関係にあり、体言文節における体言「部屋」や「箸」の表層格はデ格であるが、用言文節「食べる」の用言「食べる」にとっての深層格はそれぞれ、場所格、道具格となる。一般に深層格の種類としては、様々なものが提唱されており、例として、主格、対象格、道具格、源泉格、目標格、場所格、時間格、経験者格などがある。本発明の実施の形態は、深層格の種類を有限個、あらかじめ定めた上で、係り受け関係にある体言文節と用言文節に対し、対応する深層格を推定する深層格解析技術に関するものである。なお、本発明の実施の形態における用言文節には、「学生だ」のような「体言+だ」も含むものとする。

0022

<深層格解析装置の構成>
本発明の実施の形態に係る深層格解析装置の構成について説明する。図1は、本発明の請求項1記載の深層格解析装置の構成例である。図1に示すように、本発明の実施の形態に係る深層格解析装置100は、CPUと、RAMと、後述する各処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この深層格解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部30とを備えている。

0023

入力部10は、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力として受け付ける。また、入力部10は、係り受け関係にある体言文節と用言文節のデータAを入力として受け付ける。正解付データの集合とデータAとについては後述する。

0024

演算部20は、学習部22と、分類モデル記憶部24と、推定部26とを含んで構成されている。学習部22は、学習データである正解付データの集合を入力とし、深層格を分類するための分類モデルを生成する。学習部22の処理が終わった後、推定部26にて、係り受け関係にある体言文節と用言文節のデータAが入力部10により入力されると、分類モデルを参照して、該データAに対応する深層格を推定する。

0025

学習部22は、正解付素性ベクトル集合生成部220と分類モデル生成部222とを備えている。

0026

正解付素性ベクトル集合生成部220は、入力部10により受け付けた、係り受け関係にある体言文節と用言文節のデータと、該データに対応する正解の深層格との組である正解付データの集合を入力とする。図2は、正解付データの集合の例を示すものである。各正解付データは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部、及び深層格から成っている。体言は、最後の構成形態素のみをとるようにしてもよい。図2では用言は、終止形で示している。用言文節が「体言+だ」の場合は、該体言を用言とする。6番目のデータは、「ねずみが食べられる」からとったものであり、用言としては、用言文節「食べられる」の自立部「食べ」の終止形「食べる」をとっている。用言「食べる」にとって、体言「ねずみ」は対象格に相当する。

0027

この正解付データは、例えば、テキストコーパスを係り受け解析して抽出した係り受け関係にある体言文節と用言文節に対し、対応する正解の深層格を付与することにより作成する。

0028

正解付素性ベクトル集合生成部220は、各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。図3は、正解付素性ベクトル集合の例を示すものである。素性ベクトルの次元数はNであり、各素性値は実数値をとる。

0029

分類モデル生成部222は、正解付素性ベクトル集合生成部220によって生成された前記正解付素性ベクトル集合から、深層格を分類するための分類モデルを生成する。具体的には、深層格ごとに、正解付素性ベクトル集合を、該深層格の素性ベクトル群と、該深層格でない素性ベクトル群とに分け、該深層格か否かの2値分類を解くための分類モデルをサポートベクタマシン等の機械学習手法により生成する。このようにして、各深層格に対し、対応する分類モデルが生成される。

0030

分類モデル記憶部24には、分類モデル生成部222によって各深層格に対して生成された分類モデルが格納される。

0031

推定部26は、素性ベクトル生成部260と分類部262とを備えている。

0032

素性ベクトル生成部260は、入力部10により受け付けた、係り受け関係にある体言文節と用言文節のデータAを入力とする。データAの内容は、正解付素性ベクトル集合生成部220の入力である正解付データ集合のデータと同様である。図4は、データAの例を示すものであり、データAは、体言文節における自立部である体言、体言文節付属部、用言文節における自立部である用言、用言文節付属部から成っている。

0033

素性ベクトル生成部260は、正解付素性ベクトル集合生成部220の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、該データAから素性ベクトルBを生成する。素性ベクトルBの内容は、正解付素性ベクトル集合生成部220の出力である正解付素性ベクトル集合の素性ベクトルと同様となる。図5は、素性ベクトルBの例を示すものであり、素性ベクトルの次元数はNであり、各素性値は実数値をとる。

0034

分類部262は、素性ベクトル生成部260によって生成された前記素性ベクトルBと分類モデル記憶部24に格納された各深層格の分類モデルとから、該データAが各深層格に相当するスコアを算出する。具体的には、深層格ごとに、素性ベクトルBと該深層格に対応する分類モデルとから、素性ベクトルBが該深層格に相当するスコアを算出する。ある閾値以上のスコアをもつ深層格を、推定深層格として出力する。図4のデータAは、素性ベクトル生成部260により図5の素性ベクトルBとなり、分類部262にて深層格が道具格であると推定される。

0035

以上、本発明の請求項1記載の深層格解析装置の構成例を述べたが、体言文節付属部を一つに固定した上で、学習と推定を行ってもよい。即ち正解付データ集合を、固定した体言文節付属部をもつデータのみに限定した上で、学習を行う。推定も、該体言文節付属部をもつデータAを入力として行う。体言文節付属部に関する素性は、全データで共通であり、分類素性として意味をなさないため、正解付素性ベクトル集合生成部220及び素性ベクトル生成部260において、体言文節付属部に関する素性は抽出しない。

0036

例えば、体言文節付属部を「で」に固定すると、図2の正解付データ集合は、体言文節付属部が「で」のデータのみに限定した図6となる。推定は、図7のような体言文節付属部が「で」のデータAを入力として行う。体言文節付属部に関する素性は抽出しないため、図6図7では、体言文節付属部を記載していない。

0037

次に、正解付素性ベクトル集合生成部220と素性ベクトル生成部260において、データから抽出する、深層格の分類に有効な素性及び素性値について、以下、詳細に述べる。

0038

深層格が用言に対する名詞の意味役割であることから、各形態素の意味的な情報が分類に有効な素性となりうる。また、深層格決定が体言文節付属部や用言文節付属部に依存することから、これらの表記が分類に有効な素性となりうる。

0039

そのため、素性として、データ中に存在する表記文字列または品詞または意味カテゴリをとることができる。これらの素性は、同一文字列であっても、抽出元種別(体言、体言文節付属部、用言、用言文節付属部)が異なれば、別の素性として取り扱う。

0040

表記としては、体言、体言文節付属部、用言(終止形)、用言文節付属部の文字列が挙げられる。また、それぞれの各構成形態素の表記も挙げられる。この場合、体言に関しては、最後の構成形態素の表記のみを素性としてとるというようにしてもよい。図2の6番目のデータの場合、体言文節付属部が「が」で、用言文節付属部が「られる」であるが、このような素性から、データが受動態や可能表現であることが識別でき、そのことを反映した深層格の学習及び推定ができる。

0041

品詞としては、体言の最後の構成形態素の品詞、用言の品詞などが挙げられる。形態素解析器によっては、品詞が、複数の細品詞から構成されていることがあり、そのような場合、品詞全体を素性としてとることもできるし、各細品詞を素性としてとることもできる。細品詞には、人名や地名等に相当することを表すものもあり、そのような情報も、深層格の分類に有効な素性となる。

0042

意味カテゴリとは、類義する単語を一つのカテゴリとしてまとめ上げたものを意味している。形態素解析用の単語辞書中の各単語に意味カテゴリを付与しておくことにより、体言の最後の構成形態素の意味カテゴリや、用言の意味カテゴリを素性としてとることができる。

0043

学習データ中に存在する単語表記や品詞、意味カテゴリの異なりの全てが素性となり、対象データが該素性を含むとき該素性の素性値は1となり、含まないとき該素性の素性値は0となる。

0044

また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の体言に対し、コーパスにおいて該体言を含み、かつ、係り受け関係にある体言文節と用言文節からとった該体言文節付属部と用言文節または用言との対とその頻度の組の集合を含むことができる。ここで体言は、最後の構成形態素とするというようにしてもよい。図8は、体言「鉛筆」に対し、コーパスにおいて、「鉛筆」を含み、かつ、係り受け関係にある体言文節と用言文節からとった(体言文節付属部,用言(終止形))とその頻度の組の集合をとったものである。これを、体言「鉛筆」から抽出した素性及び素性値の組の集合とする。

0045

また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の用言に対し、コーパスにおいて該用言を含む用言文節と係り受け関係にある体言文節とその頻度の組の集合をとるか、または、データ中の用言文節に対し、コーパスにおいて該用言文節と係り受け関係にある体言文節とその頻度の組の集合をとることができる。体言文節中の体言は、最後の構成形態素とするというようにしてもよい。図9は、用言「書く」に対し、コーパスにおいて、「書く」を含む用言文節と係り受け関係にある体言文節からとった(体言,体言文節付属部)とその頻度の組の集合である。これを、用言「書く」から抽出した素性及び素性値の組の集合とする。

0046

上記で挙げた素性及び素性値の組の集合を共起ベクトルと呼ぶ。共起ベクトルが近い語句は、意味的に近いという性質に基づき、共起ベクトルを採用している。

0047

また、素性ベクトルが表す素性及び素性値の組の集合として、前記いずれかの組の集合において、用言文節中の用言や体言文節中の体言の意味カテゴリが同一で、かつ、他の表記情報が同一のものは同一視して頻度は加算したものをとることができる。体言の意味カテゴリは、最後の構成形態素の意味カテゴリをとるというようにしてもよい。図10は、図9の共起ベクトルにおいて、(学生,が)と(先生,が)に対し、「学生」と「先生」の意味カテゴリは[人]で同一であり、他の表記情報は「が」で同一であるため、素性を同一視して([人],が)とし、頻度は加算した100としている。また、図9の共起ベクトルにおいて、(本,を)と(小説,を)に対し、「本」と「小説」の意味カテゴリは[書物]で同一であり、他の表記情報は「を」で同一であるため、素性を同一視して([書物],を)とし、頻度は加算した374としている。また、図9の共起ベクトルにおいて、(横,で)に対し、「横浜」の意味カテゴリは[地名]であるため、([地名],で)とその頻度27をとっている。

0048

また、素性ベクトルが表す素性及び素性値の組の集合として、データ中の各形態素の概念ベクトルをとることができる。非特許文献2の手法によって生成する単語概念ベクトルが概念ベクトルの一例であり、意味的に近い単語対の各概念ベクトルは近いという性質がある。

0049

[非特許文献2]別所克人, 内山俊郎, 内山匡, 片岡良治, 奥雅博,“単語・意味属性共起に基づくコーパス概念ベース生成方式,”情報処理学会論文誌, Dec. 2008, Vol.49, No.12, pp.3997-4006.

0050

例えば、素性ベクトルが表す素性及び素性値の組の集合として、体言の最後の構成形態素の概念ベクトルや、用言の概念ベクトルをとる。また、体言の各構成形態素の概念ベクトルを加算して長さ1に正規化した概念ベクトルをとってもよい。

0051

図11は、学習部22の処理フローの一例である。入力部10が、正解付データの集合を受け付けると、図11に示す学習処理ルーチンが実行される。

0052

まず、ステップS100において、正解付素性ベクトル集合生成部220は、入力部10によって受け付けた、正解付データの集合を取得する。

0053

そして、ステップS102において、正解付素性ベクトル集合生成部220は、上記ステップS100で受け付けた正解付データの集合の各正解付データに対し、該データである体言文節と用言文節から素性及び素性値の組の集合である素性ベクトルを生成することにより、正解付素性ベクトル集合を生成する。

0054

ステップS104において、分類モデル生成部222は、正解付素性ベクトル集合生成部220によって生成された前記正解付素性ベクトル集合から、各深層格について、該深層格であるか否かを分類するための分類モデルを生成する。そして、分類モデル生成部222は、分類モデルを分類モデル記憶部24に格納し、学習処理ルーチンを終了する。

0055

図12は、推定部26の処理フローの一例である。入力部10が、深層格の推定対象であるデータAを受け付けると、図12に示す推定処理ルーチンが実行される。

0056

まず、ステップS200において、素性ベクトル生成部260は、入力部10によって受け付けたデータAを取得する。

0057

次に、ステップS202において、素性ベクトル生成部260は、正解付素性ベクトル集合生成部220の、データから素性ベクトルを生成するアルゴリズムと同じアルゴリズムで、上記ステップS200で取得したデータAから素性ベクトルBを生成する。

0058

次に、ステップS204において、分類部262は、上記ステップS202で生成された前記素性ベクトルBと分類モデル記憶部24に格納された各深層格の分類モデルとから、上記ステップS200で取得したデータAが各深層格に相当するスコアを算出する。そして、ある閾値以上のスコアをもつ深層格を推定深層格とする。

0059

そして、ステップS206において、分類部262は、推定結果として、上記ステップS204で得られた推定深層格を出力し、推定処理ルーチンを終了する。

0060

以上説明したように、本実施の形態の深層格解析装置によれば、的確な深層格を推定することにより、テキスト意味構造に変換した上で、テキスト間の意味構造レベルでの照合(検索等)や変換(生成、要約、翻訳等)を行う処理の精度を向上させることができるという効果を奏する。

0061

本実施の形態の深層格解析装置は、構築コストを従来手法よりも低減でき、的確な深層格を推定するのに必要な頑健性をもつ。

0062

これまで述べた処理をプログラムとして構築し、当該プログラムを通信回線または記録媒体からインストールし、CPU等の手段で実施することが可能である。

0063

なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

0064

例えば、本実施の形態では、分類モデルの学習処理と深層格の推定処理とを1つの装置として構成する場合を例に説明したが、これに限定されるものではない。例えば、分類モデルの学習処理と深層格の推定処理とを別々の装置として構成してもよい。この場合には、学習部22を備えた深層格学習装置と、推定部26を備えた深層格推定装置として構成してもよい。

0065

本発明は、テキストを意味構造に変換した上で、テキスト間の意味構造レベルでの照合(検索等)や変換(生成、要約、翻訳等)を行う言語処理技術に適用可能である。

0066

10 入力部
20演算部
22 学習部
24分類モデル記憶部
26推定部
30 出力部
100深層格解析装置
220正解付素性ベクトル集合生成部
222 分類モデル生成部
260 素性ベクトル生成部
262分類部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ