図面 (/)

技術 フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム

出願人 日本電信電話株式会社
発明者 斉藤いつみ西田京介浅野久子富田準二
出願日 2018年3月2日 (2年2ヶ月経過) 出願番号 2018-038055
公開日 2019年9月12日 (7ヶ月経過) 公開番号 2019-153093
状態 未査定
技術分野 機械翻訳 検索装置
主要キーワード 生成関係 バイナリ変数 項構造 基本解 ラベル候補 損失計算 比較手法 関係知識
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年9月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

フレーズ間の関係性を精度良く推定することができる関係性推定モデルと、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルとを同時に学習することができる。

解決手段

3つ組を学習データとして用いて、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、接続表現又は関係ラベルとに基づいて、フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、接続表現又は関係ラベルを表すベクトルから、関係スコアを出力する関係性推定モデルを学習する。

概要

背景

2つのテキストとその間の関係性を表す関係ラベル(以降、単にラベルともいう)からなる3つ組{フレーズ1、フレーズ2、ラベル }が入力として与えられた際に、3つの組み合わせの信頼度スコア(以下関係スコア)を出力する、関係性推定技術がある。関係スコアとは、入力として与えた3つ組{フレーズ1、フレーズ2、ラベル}の組み合わせが正しいか否かを数値化したものである。
非特許文献1は、コーパスを入力とし、述語項構造共起情報節間関係の分布を用いて、前記3つ組を事態関係知識として獲得するものである。

非特許文献2は、人手により作成された大量の3つ組データを使って、ニューラルネットワークの学習を行い、関係スコアを推定するものである。

概要

フレーズ間の関係性を精度良く推定することができる関係性推定モデルと、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルとを同時に学習することができる。3つ組を学習データとして用いて、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、接続表現又は関係ラベルとに基づいて、フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、接続表現又は関係ラベルを表すベクトルから、関係スコアを出力する関係性推定モデルを学習する。

目的

本発明は、上記課題を解決するために成されたものであり、フレーズ間の関係性を精度良く推定することができる関係性推定モデルと、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルとを同時に学習することができるフレーズ生成関係性推定モデル学習装置、方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとに基づいて、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する関係性推定モデルを学習する学習部を含むフレーズ生成関係性推定モデル学習装置

請求項2

入力テキストに対するテキスト解析結果に基づいて、フレーズ間の関係性を表わす予め定められた接続表現が含まれる文節と所定の関係にあるフレーズの組み合わせを抽出し、前記抽出されたフレーズの組み合わせと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を作成する学習データ生成部を更に含み、前記学習部は、前記学習データ生成部によって作成された前記3つ組を学習データとして用いて、前記フレーズ生成モデル及び前記関係性推定モデルを学習する請求項1記載のフレーズ生成関係性推定モデル学習装置。

請求項3

入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を受け付ける入力部と、フレーズをベクトルに変換する予め学習されたエンコーダを用いて、前記入力フレーズをベクトルに変換し、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成する予め学習されたデコーダを用いて、前記変換されたベクトルと、入力された前記接続表現又は前記関係ラベルとから、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するフレーズ生成部と、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する予め学習された関係性推定モデルを用いて、前記2つ組と前記生成されたフレーズとからなる3つ組から、前記関係スコアを出力する推定部と、を含むフレーズ生成装置

請求項4

学習部が、フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとに基づいて、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する関係性推定モデルを学習するフレーズ生成関係性推定モデル学習方法。

請求項5

入力部が、入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を受け付け、フレーズ生成部が、フレーズをベクトルに変換する予め学習されたエンコーダを用いて、前記入力フレーズをベクトルに変換し、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成する予め学習されたデコーダを用いて、前記変換されたベクトルと、入力された前記接続表現又は前記関係ラベルとから、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成し、推定部が、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する予め学習された関係性推定モデルを用いて、前記2つ組と前記生成されたフレーズとからなる3つ組から、前記関係スコアを出力するフレーズ生成方法

請求項6

コンピュータを、請求項1又は2記載のフレーズ生成関係性推定モデル学習装置又は請求項3記載のフレーズ生成装置を構成する各部として機能させるためのプログラム

技術分野

0001

本発明は、フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラムに関する。

背景技術

0002

2つのテキストとその間の関係性を表す関係ラベル(以降、単にラベルともいう)からなる3つ組{フレーズ1、フレーズ2、ラベル }が入力として与えられた際に、3つの組み合わせの信頼度スコア(以下関係スコア)を出力する、関係性推定技術がある。関係スコアとは、入力として与えた3つ組{フレーズ1、フレーズ2、ラベル}の組み合わせが正しいか否かを数値化したものである。
非特許文献1は、コーパスを入力とし、述語項構造共起情報節間関係の分布を用いて、前記3つ組を事態関係知識として獲得するものである。

0003

非特許文献2は、人手により作成された大量の3つ組データを使って、ニューラルネットワークの学習を行い、関係スコアを推定するものである。

先行技術

0004

大友謙一、柴田知秀、黒橋禎夫、「述語項構造の共起情報と節間関係の分布を用いた事態間関係知識の獲得」、言語処理学会 第17 回年次大会発表論文集(2011 年3 月)
Xiang Li, Aynaz Taheri, Lifu Tu, Kevin Gimpel," Commonsense Knowledge Base Completion ", Proc. of ACL, 2016.

発明が解決しようとする課題

0005

従来技術では、関係性推定において3つ組{フレーズ1、フレーズ2、ラベル}を入力とし、関係スコアを出力するためのモデルを学習している。そのため{フレーズ1、ラベル}を入力としてフレーズ2を予測したいような場合には、フレーズ2を用意し{フレーズ1、フレーズ2、ラベル}という組み合わせを作成してから関係スコアを計算する必要があり、{フレーズ1、ラベル}を入力として、フレーズ1と、ラベルにより定義される関係性を持つ、任意のフレーズ2を生成することはできないという課題がある。

0006

本発明は、上記課題を解決するために成されたものであり、フレーズ間の関係性を精度良く推定することができる関係性推定モデルと、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルとを同時に学習することができるフレーズ生成関係性推定モデル学習装置、方法、及びプログラムを提供することを目的とする。

0007

また、入力フレーズに対して関係性を有するフレーズを生成すると共に、関係スコアを推定することができるフレーズ生成装置、方法、及びプログラムを提供することを目的とする。

課題を解決するための手段

0008

上記目的を達成するために、本発明に係るフレーズ生成関係性推定モデル学習装置は、フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとに基づいて、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する関係性推定モデルを学習する学習部を含んで構成されている。

0009

本発明に係るフレーズ生成関係性推定モデル学習方法は、学習部が、フレーズの組み合わせと、フレーズ間の関係性を表わす接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる3つ組を学習データとして用いて、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとに基づいて、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する関係性推定モデルを学習する。

0010

また、本発明に係るフレーズ生成装置は、入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を受け付ける入力部と、フレーズをベクトルに変換する予め学習されたエンコーダを用いて、前記入力フレーズをベクトルに変換し、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成する予め学習されたデコーダを用いて、前記変換されたベクトルと、入力された前記接続表現又は前記関係ラベルとから、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するフレーズ生成部と、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する予め学習された関係性推定モデルを用いて、前記2つ組と前記生成されたフレーズとからなる3つ組から、前記関係スコアを出力する推定部と、を含んで構成されている。

0011

本発明に係るフレーズ生成方法は、入力部が、入力フレーズと、フレーズ間の関係性を表わす接続表現又は関係ラベルとの少なくとも一方とからなる2つ組を受け付け、フレーズ生成部が、フレーズをベクトルに変換する予め学習されたエンコーダを用いて、前記入力フレーズをベクトルに変換し、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成する予め学習されたデコーダを用いて、前記変換されたベクトルと、入力された前記接続表現又は前記関係ラベルとから、前記入力フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成し、推定部が、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルから、関係スコアを出力する予め学習された関係性推定モデルを用いて、前記2つ組と前記生成されたフレーズとからなる3つ組から、前記関係スコアを出力する。

0012

本発明に係るプログラムは、コンピュータを、上記発明に係るフレーズ生成関係性推定モデル学習装置又はフレーズ生成装置の各部として機能させるためのプログラムである。

発明の効果

0013

本発明のフレーズ生成関係性推定モデル学習装置、方法、及びプログラムによれば、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習することにより、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルを学習することができる、という効果が得られる。

0014

本発明のフレーズ生成装置、方法、及びプログラムによれば、フレーズと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルの少なくとも一方とからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び前記変換されたベクトルと、前記接続表現又は前記接続表現が表す関係性を示す関係ラベルとから、前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを用いることにより、入力フレーズに対して関係性を有するフレーズを生成することができる、という効果が得られる。

図面の簡単な説明

0015

本発明の第1の実施の形態に係る関係性推定装置の構成を示すブロック図である。
関係スコアの計算方法を説明するための図である。
関係スコアの計算方法を説明するための図である。
本発明の第1の実施の形態に係る関係性推定モデル学習装置の構成を示すブロック図である。
本発明の第1の実施の形態に係る関係性推定モデル学習装置の学習データ生成部の構成を示すブロック図である。
入力テキストの一例を示す図である。
係り受け解析結果の一例を示す図である。
接続表現データベースの一例を示す図である。
本発明の第1の実施の形態に係る関係性推定モデル学習装置における関係性推定モデル学習処理ルーチンを示すフローチャートである。
本発明の第1の実施の形態に係る関係性推定装置における関係性推定処理ルーチンを示すフローチャートである。
フレーズ生成モデルの一例を示す図である。
本発明の第2の実施の形態に係るフレーズ生成装置の構成を示すブロック図である。
本発明の第2の実施の形態に係るフレーズ生成装置におけるフレーズ生成処理ルーチンを示すフローチャートである。
関係性推定モデル及びフレーズ生成モデルの一例を示す図である。
本発明の第3の実施の形態に係るフレーズ生成装置の構成を示すブロック図である。
本発明の第3の実施の形態に係るフレーズ生成装置におけるフレーズ生成処理ルーチンを示すフローチャートである。

実施例

0016

以下、図面を参照して本発明の実施の形態を詳細に説明する。

0017

[第1の実施の形態]
<本発明の第1の実施の形態の概要
関係性推定では、2つのテキストとその間の関係性を表す接続表現又は関係ラベルであるラベルからなる3つ組{フレーズ1、フレーズ2、ラベル}が入力として与えられた際に、3つの組み合わせの信頼度スコア(以下関係スコア)を出力する。
ここで、接続表現とは、「ので」など、文中における、関係を表す表現そのものであり、関係ラベルとは、「理由」「結果」など、関係を表すラベルであり、接続表現の持つ意味を抽象化したものである。ラベルとは、接続表現や、関係ラベルを含む上位概念であり、「ので」「理由」などのラベルデータのことである。

0018

例えば、入力となる3つ組が、{テキスト1:雨が降る,テキスト2:地面が濡れる,ラベル:結果}であり、出力が関係スコアとなる。

0019

本実施の形態では、2つのテキストの関係として、ラベルが正しいか否かを推定する方法について説明する。

0020

また、本発明の実施の形態では接続表現を起点として、係り受け構造を用いてフレーズとその間をつなぐ接続表現の3つ組を抽出する。そして、抽出した3つ組を用いて、関係性を推定するニューラルネットワークモデルである関係性推定モデルを学習する。

0021

<本発明の第1の実施の形態に係る関係性推定装置の構成>

0022

次に、本発明の第1の実施の形態に係る関係性推定装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る関係性推定装置100は、CPUと、RAMと、後述する関係性推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この関係性推定装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部40とを備えている。

0023

入力部10は、2つのフレーズ(テキスト)と、その間の関係性を表す接続表現であるラベルからなる3つ組{フレーズ1、フレーズ2、ラベル}を受け付ける。
なお、本実施の形態では、3つ組に含まれる、2つのテキスト間の関係性を表すラベルとして、接続表現そのものを用いる場合を例に説明する。

0024

演算部20は、推定部21と、記憶部22とを備える。

0025

記憶部22には、後述する関係性推定モデル学習装置150により学習された、関係性推定モデルが記憶される。

0026

関係性推定モデルにはニューラルネットワークを用いることとし、学習方法については関係性推定モデル学習装置150において説明する。ニューラルネットワークであればどのようなものでもよい。また、別の機械学習でもよいが、ニューラルネットワークの方が効果は高い。

0027

推定部21は、記憶部22に記憶されている関係性推定モデルを用いて、入力された3つ組に対する関係スコアを推定し、出力部40により出力する。

0028

関係スコアとは、入力として与えた3つ組の2つのフレーズ間にラベルが示す関係性があるか否かを数値化したものである。例えば、0〜1の値を取り、1に近い程、関係があることを示すものとする。

0029

推定部21の処理について以下に説明する。

0030

まず入力{フレーズ1、フレーズ2、ラベル}の3つをそれぞれベクトルに変換する。

0031

変換したフレーズ1のベクトルをh、フレーズ2のベクトルをt、接続表現のベクトルをrとする。変換方法は、フレーズや単語をベクトル化する手法であれば何でもよい。本実施の形態では非特許文献3の手法を利用する。

0032

[非特許文献3]Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Wordsand Phrases and their Compositionality. In Proceedings of NIPS, 2013.

0033

関係スコア計算方法には、以下の2つの方法が考えられる。

0034

スコア計算方法1)
図2に示すように、h、t、rを連結し、多層パーセプトロンなどを用いて、1次元出力値である関係スコアscore(h,t,r)を出力する。

0035

(スコア計算方法2)
図3に示すように、hとrを連結し、多層パーセプトロンなどを用いて、r次元のベクトルE_hrを出力し、tから、多層パーセプトロンなどを用いて、r次元のベクトルE_tを出力し、E_hrとE_tの近さで関係スコアを計算する。両ベクトルの近さは、例えばコサイン類似度等を用いればよい。

0036

例えば、推定部21は、3つ組{フレーズ1:雨が降る,フレーズ2:地面が濡れる,ラベル:ので}に対して、関係スコア0.87を出力する。

0037

また、推定部21は、出力された関係スコアを所定の閾値で判定し、フレーズ1とフレーズ2には「ので」が示す「結果」という関係性があるか否かを推定する。例えば、関係スコアの値が0.6、閾値が0.4 の場合は、0.6>0.4なので関係性がある、と推定する。ただし、閾値判定知識獲得や0/1にスコアを落とし込む必要がある場合なので、用途によっては閾値判定を行わずに、関係スコアの値をそのまま出力してもよい。

0038

<本発明の第1の実施の形態に係る関係性推定モデル学習装置の構成>
次に、本発明の第1の実施の形態に係る関係性推定モデル学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る関係性推定モデル学習装置150は、CPUと、RAMと、後述する関係性推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この関係性推定モデル学習装置150は、機能的には図4に示すように入力部50と、演算部60と、出力部90とを備えている。

0039

入力部50は、入力テキストを受け付ける。

0040

演算部60は、学習データ生成部62と、学習部63とを備えている。

0041

学習データ生成部62は、図5に示すように、基本解析部71と、フレーズ抽出部72と、接続表現データベース73とを備えている。

0042

基本解析部71は、入力テキストに対して係り受け解析を行う。

0043

図6に、入力テキストの例を示し、図7に、係り受け解析結果の例を示す。係り受け解析は任意のものを用いればよく、例えば、既知形態素解析器であるCaboChaを利用する。

0044

フレーズ抽出部72は、係り受け解析結果からフレーズを抽出する。本実施の形態では、フレーズとは、係り受け関係にある主語と述語を最小単位として,その他形容詞節を最大n個(nは任意の自然数)まで考慮するものとする。

0045

上記図7を係り受け解析結果の例とすると、下記のようなフレーズが抽出される。フレーズを抽出する際には、解析結果の原型(ただし、必ずしも原型にしなくてもよい)を利用し、「壊れたので」→「壊れる」、「買い換えました」→「買い換える」のように変換したものを抽出する。

0046

携帯電話が壊れる
買い換える
xxx7に買い換える
xxx5を換える

0047

なお、フレーズを抽出する際には、基本的に主語+動詞の組み合わせを基本単位とするが、サ変名詞動詞は単独でもよいものとする。

0048

また、係り受け関係を考慮せずに、接続表現の前後の文字列それぞれを、フレーズとして抽出してもよい。例えば、「aaaa[接続表現]bbbb」という文が存在する場合に、「aaaa」と「bbbb」とをそれぞれフレーズとして抽出してもよい。この場合、[接続表現]が接続表現を含む文節を表し、「aaaa」と「bbbb」が接続表現を含む前記文節を挟んで、前及び後の位置関係にあるフレーズを表している。

0049

そして、フレーズ抽出部72は、上記フレーズの組み合わせのうち、接続表現が含まれる文節と係り受け関係にあるフレーズを抽出し、{フレーズ1、フレーズ2、接続表現}からなる3つ組を作成する。

0050

本実施の形態においてラベルとして用いる接続表現とは、フレーズ間の関係性を表す表現であらかじめ定められたものとする。例えば、「なので」「ので」「ために」「と」「たら」「場合」「とき」「時」「ば」「から」「が」などの接続詞は接続表現として用いることが可能である。本実施の形態では、図8(A)に示すように、接続表現データベース73に接続表現が予め登録されているものとする。

0051

上記図7の係り受け解析結果の例では、以下の3つ組が作成される。

0052

{携帯電話が壊れる、買い換える、ので}
{携帯電話が壊れる、xxx7に買い換える、ので}
{携帯電話が壊れる、xxx5を買い換える、ので}

0053

接続表現の種類をN通りとすると、最終的な3つ組に含まれるラベルの種類はN通りとなる。

0054

また、フレーズ抽出部72の別の実施例として、上記のように3つ組を抽出してそのまま出力する方法(抽出方法1とする)以外に、抽出後に次の3通りの処理を行う方法がある。

0055

(抽出方法2)
図8(B)に示すように、接続表現データベース73に、接続表現と接続表現が表す関係性を示す関係ラベルが予め登録されているものとする。

0056

接続表現データベース73を用いて、接続表現を関係ラベルに変換して{フレーズ1、フレーズ2、関係ラベル}を出力する。

0057

上記図7の係り受け解析結果の例では、以下の3つ組が作成される。

0058

{携帯電話が壊れる、買い換える、原因}
{携帯電話が壊れる、xxx7に買い換える、原因}
{携帯電話が壊れる、xxx5を買い換える、原因}

0059

関係ラベルの種類をM通りとすると、最終的に出力されるラベルの種類はM通りとなる。

0060

上記抽出方法2を用いる場合には、関係性推定装置100の入力となる3つ組は、{フレーズ1、フレーズ2、関係ラベル}となる。

0061

(抽出方法3)
人手により、接続表現を関係ラベルに変換したもの{フレーズ1、フレーズ2、関係ラベル}、抽出方法2の{フレーズ1、フレーズ2、関係ラベル}を合わせて出力する。最終的に出力されるラベルの種類はM通りとなる。

0062

上記抽出方法3を用いる場合には、関係性推定装置100の入力となる3つ組は、{フレーズ1、フレーズ2、関係ラベル}となる。

0063

(抽出方法4)
人手により、接続表現を関係ラベルに変換したもの{フレーズ1、フレーズ2、関係ラベル}と、抽出方法1の{フレーズ1、フレーズ2、接続表現}を合わせて出力する。最終的に出力されるラベルの種類はN+M通りとなる。

0064

上記抽出方法4を用いる場合には、関係性推定装置100の入力となる3つ組は、{フレーズ1、フレーズ2、接続表現}又は{フレーズ1、フレーズ2、関係ラベル}となる。

0065

学習部63は、学習データ生成部62で抽出した3つ組{フレーズ1、フレーズ2、ラベル}を学習における正解データとして用い、関係性推定モデルの学習を行う。

0066

関係性推定モデルは前述したように、多層パーセプトロン等のニューラルネットワーク(以下NN)を用い、下記の方法で損失計算を行い、NNのパラメータ更新を行うこととする。

0067

なお、学習に用いるデータは、負例を足して用いる事とし、正例の3つ組の一つの要素をランダムに置き換えたものを負例とする。

0068

(損失計算方法1)
上記の関係スコア計算方法1に対応して、以下の式で損失計算を行う。

0069

0070

ただし、score(h',t',r')は、負例のスコアを表す。Lossの計算は,hinge loss, sigmoid loss, softmax lossなどが利用可能である。

0071

(損失計算方法2)
上記の関係スコア計算方法2に対応して、以下の式で損失計算を行う。

0072

0073

ただし、E_h'r'−E_t'は、負例のスコアを表す。Lossの計算は,hinge loss, sigmoid loss, softmax lossなどが利用可能である。

0074

<本発明の第1の実施の形態に係る関係性推定モデル学習装置の作用>
次に、本発明の第1の実施の形態に係る関係性推定モデル学習装置150の作用について説明する。入力部50において入力テキストを受け付けると、関係性推定モデル学習装置150は、図9に示す関係性推定モデル学習処理ルーチンを実行する。

0075

まず、ステップS100で、入力テキストに対して係り受け解析を行う。

0076

そして、ステップS102で、入力テキストに対する係り受け解析結果に基づいて、フレーズを抽出する。

0077

ステップS104では、上記ステップS102で抽出されたフレーズの組み合わせのうち、接続表現が含まれる文節と係り受け関係にあるフレーズを抽出し、{フレーズ1、フレーズ2、ラベル}からなる3つ組を作成する

0078

ステップS106では、上記ステップS104で作成された3つ組に含まれるフレーズ1、フレーズ2、及びラベルの各々をベクトルに変換する。

0079

そして、ステップS108では、3つ組{フレーズ1、フレーズ2、ラベル}をベクトルに変換した結果を、学習における正解データとして用い、関係性推定モデルの学習を行い、関係性推定モデル学習処理ルーチンを終了する。

0080

<本発明の第1の実施の形態に係る関係性推定装置の作用>
次に、本発明の第1の実施の形態に係る関係性推定装置100の作用について説明する。関係性推定モデル学習装置150によって予め学習された関係性推定モデルが関係性推定装置100に入力されると、関係性推定装置100は、関係性推定モデルを記憶部22へ格納する。そして、入力部10が、推定対象の3つ組{フレーズ1、フレーズ2、ラベル}を受け付けると、関係性推定装置100は、図10に示す関係性推定処理ルーチンを実行する。

0081

ステップS120で、入力部10により受け付けた3つ組に含まれるフレーズ1、フレーズ2、及びラベルの各々をベクトルに変換する。

0082

ステップS122では、上記ステップS120で3つ組{フレーズ1、フレーズ2、ラベル}をベクトルに変換した結果と、関係性推定モデルとに基づいて、関係スコアを算出する。

0083

ステップS124では、上記ステップS122で算出された関係スコアが所定の閾値以上であるか否かを判定することにより、フレーズ1とフレーズ2にはラベルが示す関係性があるか否かを判定し、判定結果を出力部40により出力して、関係性推定処理ルーチンを終了する。

0084

以上説明したように、本発明の第1の実施の形態に係る関係性推定モデル学習装置によれば、入力テキストに対する係り受け解析結果に基づいて、フレーズ間の関係性を表わす接続表現が含まれる文節と係り受け関係にあるフレーズの組み合わせを抽出し、フレーズの組み合わせと接続表現又は関係ラベルとからなる3つ組を作成することにより、学習データの作成コストをかけることなく、フレーズ間の関係性を精度良く推定することができる関係性推定モデルを学習することができる。

0085

また、上記抽出方法1または2を用いる場合には、入力テキストから接続表現を用いて抽出した3つ組のデータを学習データとして、フレーズのニューラル関係知識推定モデルを構築することにより、人手データなしに、接続表現に基づくニューラル関係性のモデル化が可能となる。また、人手の正解なしで,あらかじめ定めた関係ラベルと任意のフレーズの3つ組みに対する関係スコアを求めるモデルを構築することができる。

0086

上記抽出方法2を用いる場合には、「ので」のような接続表現そのものではなく、「原因」のように抽象化した関係性の推定ができる。

0087

また、上記抽出方法3を用いる場合には、接続表現と関係ラベルが一対一に対応しない場合(例えば、接続表現「ため」と関係ラベル「原因」「目的」)でも、人手で与えられたデータを元に間違いを訂正して学習できる。

0088

また、上記抽出方法4を用いる場合には、「ので」のような接続表現そのものと、「原因」のように抽象化した関係の両方が推定ができる。また、抽出方法3の効果も得られる。人手対応づけラベルと、接続表現を混ぜるパタンでは、人手変換きる確実なラベルとそうでない場合を同時に考慮するモデルを作ることができる。

0089

また、本発明の第1の実施の形態に係る関係性推定装置によれば、フレーズ間の関係性を精度良く推定することができる。

0090

[第2の実施の形態]
<本発明の第2の実施の形態の原理
まず、入力フレーズに対して関係性を有するフレーズを生成するモデルについて説明する。本実施の形態では、フレーズを生成するためにニューラルネットワークにおけるアテンションベースのEncoder-decoderモデルを、フレーズ生成モデルとして用いる(図11参照)。さらに、従来のアテンションベースのEncoder-decoderモデルに加えて関係ラベルの情報を考慮する点が従来のモデルと異なる。Encoder-decoderモデルは、テキストに対応する情報を中間状態(ベクトルの系列。以降、中間出力ともいう。)に変換する機能を担うニューラルネットワーク(これを「エンコーダ」という)と、中間出力をテキストに変換する機能を担うニューラルネットワーク(これを「デコーダ」という)とから構成されるニューラルネットワークである。デコーダでは、ラベルr を各時刻の入力として用いている。

0091

本実施の形態ではフレーズの単語列に加えて、ラベルrの情報が存在するため、関係ラベルを考慮したEncoder-decoderモデルを構築する。ここで、入力フレーズの単語ベクトル系列を


、出力フレーズの単語ベクトル系列を


とすると、Yの出力確率は下記のように定式化できる。

0092

(1)


(2)


(3)

0093

ここで、xj,ytは入力/出力フレーズに含まれる単語を所定次元のベクトルに変換したものである。単語の所定次元のベクトルへの変換方法は、ニューラルネットワークに単語を入力する際の、一般的な変換方法を用いればよい。入力/出力フレーズは、単語ベクトル系列となる。
vrはラベルに対応する所定次元のベクトルである。ラベルは、例えば以下のようにベクトルに変換する。
1.ラベルの種類をMとし、各ラベルに1からMまでの番号を割り当てる。
2. ベクトルvrは、当該ラベルに割り当てられた番号の要素が1で、それ以外の要素が0となるM次元のone-hotベクトルrに対し、ニューラルネットワークのパラメータ行列を用いて重みづけを行ったものとなる。
上記のように、単語やラベルをニューラルネットワーク内で用いるベクトル表現に変換する際のニューラルネットワークのパラメータを、以降embeddingと呼ぶ。
ctはattention で重みづけられた入力側のコンテキストベクトル、st はLSTM隠れ層の中間出力を表す。上記に示すように、デコーダの入力としてvr を結合して用いている。このような方法でデコーダ側に追加情報としてラベルを入力する方法については非特許文献4などでも類似の手法が提案されているが、フレーズを生成するために本構成のようなモデルを提案している既存手法は存在しない。パラメータθはニューラルネットワークの学習可能なパラメータの集合を表し、学習によって求められる。

0094

[非特許文献4] Jiwei Li, Michel Galley, Chris Brockett, Georgios Spithourakis, Jianfeng Gao, and Bill Dolan. A persona-based neural conversation model. In Proceedings of the 54th Annual Meeting of the ACL, pp. 994-1003, 2016.

0095

本実施の形態では、フレーズ生成装置200のEncoder-decoderモデルのパラメータは、予め学習しておく必要がある。その際の学習データとして3つ組データを用いる。3つ組データの場合、どちらのフレーズを入力としても問題ないため、1組の{フレーズ1、フレーズ2、ラベル}を用いて、{フレーズ1、ラベル:r}を入力として{フレーズ2}を推定する場合と、{フレーズ2、ラベル:r′}を入力として{フレーズ1}を推定する場合のように、入力と出力を入れ替えたデータについても学習を行う。この際、ラベルが表す関係性には方向があるため、新たに逆向きのラベルr′を導入する。従って、Encoder-decoderモデルにおいては、関係ラベルの語彙数は元のラベルの語彙数の2倍になる。

0096

また、Encoder-decoder の損失関数Lencdecについては、通常のEncoder-decoderモデルと同様にcross entropy関数を用いて次のように表す。

0097

(4)

0098

ここで、N はデータ数、L は出力側のフレーズY の単語数、ctは入力側のコンテキストベクトル、r はラベルを表す。

0099

<本発明の第2の実施の形態に係るフレーズ生成装置の構成>
次に、本発明の第2の実施の形態に係るフレーズ生成装置の構成について説明する。図12に示すように、本発明の第2の実施の形態に係るフレーズ生成装置200は、CPUと、RAMと、後述するフレーズ生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このフレーズ生成装置200は、機能的には図12に示すように入力部210と、演算部220と、出力部240とを備えている。

0100

入力部210は、入力フレーズ(テキスト)と、フレーズ間の関係性を表すラベルとからなる2つ組を受け付ける。

0101

演算部220は、フレーズ生成部221と、記憶部222とを備える。

0102

記憶部222には、後述するフレーズ生成モデル学習装置により学習された、フレーズ生成モデルが記憶される。

0103

フレーズ生成モデルには上述したようにアテンションベースのEncoder-decoderモデル(上記図11参照)を用いることとし、学習方法についてはフレーズ生成モデル学習装置において説明する。

0104

フレーズ生成部221は、記憶部222に記憶されているフレーズ生成モデルを用いて、入力された2つ組の入力フレーズに対してラベルが表す関係性を有するフレーズを生成し、出力部240により出力する。

0105

具体的には、まず、エンコーダのLSTMにより、入力フレーズをベクトルに変換し、アテンションベースのデコーダを用いて、変換されたベクトルと、入力されたラベルを表すベクトルとから、フレーズを生成し、入力フレーズに対してラベルが表す関係性を有するフレーズとして出力する。

0106

<本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の構成>
次に、本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の構成について説明する。なお、フレーズ生成モデル学習装置の構成は、第1の実施の形態に係る関係性推定モデル学習装置150と同様の構成であるため、同一符号を付して説明を省略する。

0107

本発明の第2の実施の形態に係るフレーズ生成モデル学習装置は、入力部50と、演算部60と、出力部90とを備えている。

0108

演算部60の学習部63は、学習データ生成部62で抽出した3つ組{フレーズ1、フレーズ2、ラベル}を学習データとして用いて、フレーズ生成モデルの学習を行う。

0109

フレーズ生成モデルは前述したように、アテンションベースのEncoder-decoderモデルを用い、上記(4)式に示す損失関数の計算を行い、エンコーダ及びデコーダのパラメータの更新を行うこととする。

0110

また、3つ組{フレーズ1、フレーズ2、ラベル}があるとき、2つ組{フレーズ1、ラベル}からフレーズ2の生成、2つ組{フレーズ2、ラベル}からフレーズ1の生成を一つのフレーズ生成モデルで学習する。

0111

両方向の関係を1つのフレーズ生成モデルで扱うため、逆方向のラベルを定義し、ラベルの空間を2倍にしてモデル学習を行う。

0112

元の3つ組の接続表現のラベルr=rkのとき、逆向きのラベルを新しいラベルrk’として扱う。

0113

例えば、3つ組(フレーズ1=テストを受ける、フレーズ2=勉強する、ラベル=ために)があるとき、下記のように2つ生成し、学習データとして用いる。

0114

2つ組{テストを受ける、ために}→勉強する
2つ組{勉強する、ために’}→テストを受ける

0115

<本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の作用>
次に、本発明の第2の実施の形態に係るフレーズ生成モデル学習装置の作用について説明する。入力部50において入力テキストを受け付けると、フレーズ生成モデル学習装置は、上記図9に示す関係性推定モデル学習処理ルーチンと同様の処理ルーチンを実行し、生成された3つ組{フレーズ1、フレーズ2、ラベル}から得られる、2つ組{フレーズ1、ラベル}→フレーズ2、2つ組{フレーズ2、ラベル’}→フレーズ1を、学習における正解データとして用い、フレーズ生成モデルの学習を行う。

0116

<本発明の第2の実施の形態に係るフレーズ生成装置の作用>
次に、本発明の第2の実施の形態に係るフレーズ生成装置200の作用について説明する。フレーズ生成モデル学習装置によって予め学習されたフレーズ生成モデルがフレーズ生成装置200に入力されると、フレーズ生成装置200は、フレーズ生成モデルを記憶部222へ格納する。そして、入力部210が、推定対象の2つ組{フレーズ1、ラベル}を受け付けると、フレーズ生成装置200は、図13に示すフレーズ生成処理ルーチンを実行する。

0117

ステップS220で、入力部210により受け付けた2つ組に含まれるフレーズ1を、フレーズ生成モデルのエンコーダのLSTMによりベクトルに変換する。

0118

ステップS222では、フレーズ生成モデルのアテンションベースのデコーダを用いて、上記ステップS220で変換されたベクトルと、2つ組に含まれるラベルを表すベクトルとから、フレーズを生成し、フレーズ1に対してラベルが表す関係性を有するフレーズ2として出力部240により出力して、フレーズ生成処理ルーチンを終了する。

0119

以上説明したように、本発明の第2の実施の形態に係るフレーズ生成モデル学習装置によれば、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、接続表現又は関係ラベルとから、フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを学習することにより、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルを学習することができる。

0120

また、これまでは関係性を有するフレーズ候補をあらかじめ用意する必要があったが、事前に候補を用意することなく関係性を有するフレーズが生成可能となるフレーズ生成モデルを学習することができる。

0121

また、本発明の第2の実施の形態に係るフレーズ生成装置によれば、フレーズと、接続表現又は関係ラベルとからなる2つ組から、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、接続表現又は関係ラベルとから、フレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを用いることにより、入力フレーズに対して関係性を有するフレーズを生成することができる。

0122

また、ラベルを、Encoder-decoderモデルの追加入力として扱うことにより、ラベルによって異なるフレーズ生成が可能となる。

0123

[第3の実施の形態]
<本発明の第3の実施の形態の原理>
本発明の第3の実施の形態では、図14に示すような関係性推定モデルとフレーズ生成モデルを同時に学習する。具体的には、入力フレーズを単語ベクトル系列に、ラベルをベクトルに変換するためのembeddingと、単語ベクトル系列からフレーズのベクトルに変換するためのLSTMとを、関係性推定モデルとフレーズ生成モデルとで共有する。それぞれの具体的な構成を下記に示す。

0124

<関係性推定モデル>
まず、第3の実施の形態における関係性推定モデルについて説明する。

0125

モデルの基本的な構造は上記非特許文献2と類似したモデルを使用するが、入力となるベクトルの生成方法が異なっている。以下具体的に説明するため、まず上記非特許文献2で提案したモデルについて説明する。

0126

上記非特許文献2では、任意の3つ組{t1,t2,r}が与えられた時、3つ組の関係スコアscore(t1,r,t2) を推定するモデルを、ニューラルネットワークを用いて次のように定義している。

0127

(5)

0128

ここで、


はt1、t2 を結合した単語列のベクトル表現、


はラベルrのベクトル表現を表す。g は非線形関数を表し、上記非特許文献2ではReLU を用いる。最終層のスコアは1次元の出力とする。これらは、任意の3つ組が与えられた時その3つ組が正しい組み合わせか否かを判別するモデルと考えることができる。

0129

本実施の形態の関係性推定モデルも上記と同様の定式化を用いて関係性推定モデルを定義するが、vin のモデル化が上記非特許文献2と異なる。上記非特許文献2では、フレーズのベクトル表現として、単語ベクトルの平均、LSTMのmaxpooling の二種類とシンプルなモデル化を行っている。一方、本実施の形態の関係性推定モデルでは各フレーズのベクトルをLSTM のattention pooling を用いて下記のように定義する。ここで、xij,hijはそれぞれフレーズtiのj番目単語のembedding とLSTM の隠れ層ベクトルを表す。

0130

(6)


(7)


(8)


(9)


(10)

0131

vinは、batch normalizationとdropoutを行った上で上位の層に受け渡す。各フレーズをベクトル化するためのLSTM、単語・ラベルのembedding は、上記第2の実施の形態で説明したフレーズ生成モデルと共有する。

0132

<学習>
<損失関数>
本実施の形態では、関係性推定モデル及びフレーズ生成モデルの損失関数を同時に考慮しながら学習を行う。具体的には、下記の式に示す損失関数を用いて学習を行う。

0133

(11)

0134

ここで、θはモデルパラメータであり、Ltriple は関係性推定モデルに関する損失関数、Lencdec はフレーズ生成モデルに関する損失関数を表す。関係性推定モデルの損失関数Ltriple についてはLi ら上記非特許文献2の結果から最も精度が良かったbinary cross entropy を用いて下記の式で表す。

0135

(12)

0136

ここで、τ三つ組を表す変数、l は正例に対して1、負例に対して0 となるバイナリ変数、σはシグモイド関数である。上記の定式化は、任意の3つ組τ={t1,t2,r}に対して正例のスコアが1、負例のスコアが0に近くなるように学習を行う。

0137

フレーズ生成モデルのエンコーダ及びデコーダの損失関数については、上記第2の実施の形態と同様である。

0138

<負例サンプリング
Binary cross entropy を用いて2値分類モデルの学習を行う場合、負例を用意する必要がある。本実施の形態では、上記非特許文献2の研究で最も精度が良かったランダムサンプリングを用いて負例の生成を行う。具体的には、それぞれの正例3つ組データτ={t1,t2,r}に対して、t1、t2、r を1つずつランダムに置き換えたデータτneg1{t1’,t2,r}、τneg2 ={t1,t2,r’}、τneg3 ={t1,t2’,r}を生成する。ランダムにサンプリングされるt’,t2’ はそれぞれ学習時に出現した候補からサンプリングされ、r’は全ラベル候補の中からサンプリングされる。従って、学習中は、正例1つにつき3個の負例をサンプリングしながら学習を行う。ただし、負例は関係性推定モデルのみに用いる。フレーズ生成モデルは正しい3つ組から学習を行いたいため、正例の3つ組のみから学習を行う。

0139

<本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の構成>
次に、本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の構成について説明する。なお、フレーズ生成関係性推定モデル学習装置の構成は、第1の実施の形態に係る関係性推定モデル学習装置と同様の構成であるため、同一符号を付して説明を省略する。

0140

本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置は、入力部50と、演算部60と、出力部90とを備えている。

0141

演算部60の学習部63は、学習データ生成部62で抽出した3つ組{フレーズ1、フレーズ2、ラベル}と、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる、2つ組{フレーズ1、ラベル}→フレーズ2、2つ組{フレーズ2、ラベル’}→フレーズ1とを、学習における正解データとして用い、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる負例を更に用いて、フレーズをベクトルに変換するエンコーダ、及び変換されたベクトルと、ラベルとに基づいて、フレーズに対して当該ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、共通するエンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、ラベルを表すベクトルとから、関係スコアを出力するニューラルネットワークである関係性推定モデルを同時に学習する。

0142

具体的には、上記(11)式の損失関数を最小化するように、フレーズ生成モデル及び関係性推定モデルのパラメータの更新を行う。

0143

<本発明の第3の実施の形態に係るフレーズ生成装置の構成>
次に、本発明の第3の実施の形態に係るフレーズ生成装置の構成について説明する。なお、第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

0144

図15に示すように、本発明の第3の実施の形態に係るフレーズ生成装置300は、CPUと、RAMと、後述するフレーズ生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このフレーズ生成装置300は、機能的には図15に示すように入力部310と、演算部320と、出力部340とを備えている。

0145

入力部310は、入力フレーズ(テキスト)と、フレーズ間の関係性を表すラベルとからなる2つ組を受け付ける。

0146

演算部320は、フレーズ生成部221と、記憶部322と、推定部323とを備える。

0147

記憶部322には、フレーズ生成関係性推定モデル学習装置により学習された、関係性推定モデル及びフレーズ生成モデルが記憶される。

0148

上記図14に示すように、フレーズ生成モデルには上述したようにアテンションベースのEncoder-decoderモデルを用いることとし、関係性推定モデルについては、上述したように各フレーズのベクトルをLSTMのattention pooling を用いて変換するニューラルネットワークモデルを用いることとする。

0149

フレーズ生成部221は、記憶部322に記憶されているフレーズ生成モデルを用いて、入力された2つ組の入力フレーズに対してラベルが表す関係性を有するフレーズを生成し、推定部323に出力する。

0150

推定部323は、記憶部322に記憶されている関係性推定モデルを用いて、入力された2つ組と、フレーズ生成部221により生成されたフレーズとからなる3つ組に対する関係スコアを推定し、出力部340により出力する。

0151

このとき、関係性推定モデルにおいて、フレーズ生成モデルのエンコーダと共通のニューラルネットワークを用いて、各フレーズをベクトルに変換し、各フレーズを表すベクトルと、ラベルを表すベクトルから、関係スコアを推定する。

0152

<本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の作用>
次に、本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置の作用について説明する。入力部310において入力テキストを受け付けると、フレーズ生成関係性推定モデル学習装置は、上記図9に示す関係性推定モデル学習処理ルーチンと同様の処理ルーチンを実行し、生成した3つ組{フレーズ1、フレーズ2、ラベル}と、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる、2つ組{フレーズ1、ラベル}→フレーズ2、2つ組{フレーズ2、ラベル’}→フレーズ1とを、学習における正解データとして用い、当該3つ組{フレーズ1、フレーズ2、ラベル}から得られる負例を更に用いて、関係性推定モデルとフレーズ生成モデルとの同時学習を行う。

0153

<本発明の第3の実施の形態に係るフレーズ生成装置の作用>
次に、本発明の第3の実施の形態に係るフレーズ生成装置300の作用について説明する。フレーズ生成関係性推定モデル学習装置によって予め学習された関係性推定モデル及びフレーズ生成モデルがフレーズ生成装置300に入力されると、フレーズ生成装置300は、関係性推定モデル及びフレーズ生成モデルを記憶部322へ格納する。そして、入力部310が、推定対象の2つ組{フレーズ1、ラベル}を受け付けると、フレーズ生成装置300は、図16に示すフレーズ生成処理ルーチンを実行する。

0154

ステップS320で、入力部310により受け付けた2つ組に含まれるフレーズ1を、フレーズ生成モデルのエンコーダのLSTMによりベクトルに変換する。

0155

ステップS322では、フレーズ生成モデルのアテンションベースのデコーダを用いて、上記ステップS320で変換されたベクトルと、2つ組に含まれるラベルを表すベクトルとから、フレーズを生成し、フレーズ1に対してラベルが表す関係性を有するフレーズ2とする。

0156

ステップS324では、入力部310により受け付けた2つ組と、上記ステップS322で生成されたフレーズとからなる3つ組と、関係性推定モデルとに基づいて、関係スコアを算出し、算出した関係スコアと共に、当該3つ組を出力部340により出力して、フレーズ生成処理ルーチンを終了する。

0157

以上説明したように、本発明の第3の実施の形態に係るフレーズ生成関係性推定モデル学習装置によれば、フレーズをベクトルに変換するエンコーダ、及び前記フレーズに対して前記接続表現又は前記関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデル、並びに、前記エンコーダを用いて変換される、フレーズの組み合わせに含まれる各フレーズを表すベクトルと、前記接続表現又は前記関係ラベルを表すベクトルを入力として、関係スコアを出力する関係性推定モデルを学習することにより、フレーズ間の関係性を精度良く推定することができる関係性推定モデルと、入力フレーズに対して関係性を有するフレーズを生成することができるフレーズ生成モデルとを同時に学習することができる。また、一部のニューラルネットワークを共通としたフレーズ生成モデルと関係性推定モデルとの同時学習を用いることで,3つ組の関係性推定モデルの精度が向上する。

0158

また、本発明の第3の実施の形態に係るフレーズ生成装置によれば、フレーズをベクトルに変換するエンコーダ、及びフレーズに対して接続表現又は関係ラベルが表す関係性を有するフレーズを生成するデコーダを含むフレーズ生成モデルを用いて、入力フレーズに対して関係性を有するフレーズを生成し、関係スコアを出力する関係性推定モデルを用いて、関係スコアを推定することにより、関係スコア付きで、入力フレーズに対して関係性を有するフレーズを生成することができる。

0159

実験
<実験データ>
実験データは、上記非特許文献2が公開しているConceptNet(英語)のデータと、発明者らが独自にアノテーションした日本語オープンドメインデータを用いる。表1にそれぞれのデータの概要を示す。

0160

0161

ConceptNet の方がラベル数が多い。語彙数はいずれも2 万程度だが、フレーズの平均単語長は日本語データがConceptNet の倍程度と長くなっている。日本語データに関しては、クラウドソーシングを用いてweb上からクロールした頻出単語に関連する3つ組{t1,t2,r}を作成した。ノイズとなるデータを除去するため、ある作成者が作成した3つ組{t1,t2,r}について、rを隠した状態で別の3 名のワーカーに適切なr を選択するタスクを行ってもらい、2 人以上が同じラベルを選択したデータのみを使用した。また、test データとvalidation データに関しては、全員の選択したr が一致したデータからランダムに選択し、それ以外を学習データとした。日本語のtest, validation データは、ConceptNet データと同様に正例と負例が1:1 となるようにデータを作成した。

0162

具体的には、まず正例をサンプリングした後、各正例の3 つ組の要素1つをランダムに選択しテストデータ中の別の要素と置換して作成した。

0163

評価方法比較手法
関係性推定モデルのベースラインとして、上記非特許文献2の手法(DNNAVG, DNN LSTM) を用いる。これらは、入力ベクトルvinがそれぞれ単語ベクトルの平均、LSTM のmaxpooling をとったものである。ただし、LSTM のモデルでは、t1とt2 を別々にベクトル化して連結した。

0164

本実施の形態の提案手法に関しては、関係性推定モデルを単独で用いた場合(proposed w/o EncDec)と双方を同時に学習した場合(proposed w/ EncDec)の精度評価を行った。評価指標は2値判別の正解率を用いた。また、ConceptNetの実験に関しては上記非特許文献2と同様に、train データで学習を行い、validation 1 データでハイパーパラメータの調整、評価をvalidation 2, test データで行った。日本語データも同様にtrain, validation1、2でパラメータを決定しtest で評価をした。

0165

フレーズ生成モデルのベースラインとして、関係ラベルを用いないEncoder-decoder 単独モデル(EncDec w/o relation single)を用いた。また、関係ラベルを考慮した単独モデル(EncDec w/relation single)と、関係性推定モデルとの同時学習(EncDec w/relation Multi)を比較した。評価は、単語レベルの正解率で評価を行った。

0166

<実験設定>
本実験例で用いたパラメータについて説明する。LSTMの隠れ層、単語・ラベルのembedding は200次元、関係性推定モデルの中間層の次元を1000l、学習時のバッチサイズは128、ドロップアウトは0.2、weight decayは0.00001 に設定した。また、フレーズ生成モデルのエンコーダには1 層の双方向LSTM、デコーダには1 層のLSTM を用いた。最適化法はSGDを用い,初期学習率は1.0 に設定し減衰率を0.5 としてスケジューリングを行った。

0167

損失関数のl は1.0 に固定した。単語、ラベルのembedding初期値は、3つ組の学習データとWikipedia(R)を結合したテキストファイルを基にfastText(非特許文献6参照)を用いて事前に計算したベクトルを用いた。

0168

[非特許文献6] Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606, 2016.

0169

<実験結果>
<関係性の推定>
表2 に関係性の推定(2 値分類)の評価結果を示す。

0170

0171

下層の行には、上記非特許文献2が論文中で報告している中で最も良い精度を示している。ここで+data という行は、学習データを100k から300k に増やした場合の評価である。表2 の結果より、本発明の実施の形態の提案手法は既存手法に比べて精度が向上しており、ConceptNet のデータでは従来研究の最高値を超える結果が得られた。特に、データを増やした条件では2%以上の精度向上が見られ、人間による上限(〜0.95) にも近づいている。単独モデル(proposed w/o EncDec) と同時学習モデル(proposed w/EncDec) の比較により、ConceptNet、 Japanese データともに、同時学習によって単独モデルよりも良い精度が得られていることがわかる。これは、関係性推定問題にとってはフレーズ生成問題の損失関数が制約として働き、より良いフレーズベクトルが得られたためと考えられる。

0172

<フレーズ生成>
表3 に、フレーズ生成モデルの精度を示す。

0173

0174

結果から、ベースラインと関係を考慮したEncoder-decoderモデルで大きな精度差が見られ、関係ラベルを考慮することにより生成の精度が大幅に向上していることがわかる。マルチタスク学習にしたことによるフレーズ生成モデル側の精度向上はあまり見られないが、教師なしデータを追加することによりフレーズ生成モデルの精度も向上させることができる。

0175

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0176

例えば、上述した実施の形態では、関係性推定装置100と関係性推定モデル学習装置150とを別々の装置として構成する場合を例に説明したが、関係性推定装置100と関係性推定モデル学習装置150とを1つの装置として構成してもよい。また、フレーズ生成装置200、300とフレーズ生成モデル学習装置、フレーズ生成関係性推定モデル学習装置とを別々の装置として構成する場合を例に説明したが、フレーズ生成装置200、300とフレーズ生成モデル学習装置とを1つの装置として構成してもよい。

0177

上述の関係性推定モデル学習装置、関係性推定装置、フレーズ生成装置、フレーズ生成モデル学習装置、フレーズ生成関係性推定モデル学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。

0178

10、50、210、310 入力部
20、60、220、320演算部
21、323推定部
22、222、322 記憶部
40、90、240、340 出力部
62 学習データ生成部
63 学習部
71基本解析部
72フレーズ抽出部
73接続表現データベース
100関係性推定装置
150 関係性推定モデル学習装置
200、300フレーズ生成装置
221 フレーズ生成部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ