図面 (/)

技術 二言語単語分散表現データ取得装置、二言語単語分散表現データ取得方法、および、プログラム

出願人 国立研究開発法人情報通信研究機構
発明者 マリバンジャマン藤田篤
出願日 2018年4月25日 (2年4ヶ月経過) 出願番号 2018-083822
公開日 2019年10月31日 (10ヶ月経過) 公開番号 2019-191917
状態 未査定
技術分野 機械翻訳
主要キーワード 分散表現 訓練用データ 評価結果データ 実数ベクトル フレーズテーブル ヒューリスティクス 訳語データ 文レベル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年10月31日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

低頻度語についても高性能の二言語単語分散表現を取得することができる二言語単語分散表現データ取得装置を実現する。

解決手段

二言語単語分散表現データ取得装置100では、訳語データ抽出部1が、対訳辞書データ記憶部DB1に記憶されている起点言語および目標言語についての対訳辞書データにより、起点言語の語を目標言語の語に直接マッピングする処理を行うので、起点言語の分散表現を目標言語の分散表現に適切に変換する(対応付ける)ことができる。したがって、二言語単語分散表現データ取得装置100では、低頻度語に対しても精度の高い分散表現を取得することができる。

概要

背景

単語の分散表現は、深層学習に基づく自然言語処理技術の根幹をなす技術である。特に近年では、多言語処理タスク向けに、二言語単語分散表現に関する研究が活発に行われている。二言語単語分散表現の学習に関する既存の手法は、コーパス中の各語の頻度に応じて分散表現を学習し、高頻度語に関する対訳辞書を用いて二言語間写像関数を学習するため、特に低頻度語に対する性能が悪い。このため、対訳辞書の自動構築対訳コーパスの自動獲得などの応用タスクの性能向上が容易ではない。

単語の分散表現(あるいは単語埋め込み)とは、各語を有限固定次元実数ベクトル(v∈Rn)で表したものである。コーパス中の各語に近接する語の情報などを用いて、教師信号なしで単語の分散表現を学習する手法(例えば、非特許文献1を参照)が開発されて以来、単語の分散表現は、深層学習に基づく自然言語処理技術の基盤技術として様々なタスクに用いられている。

二つの言語の異なる語彙を共通のベクトル空間上で表現するものを二言語単語分散表現という。二言語単語分散表現は、例えば、言語Aの単語分散表現と言語Bの単語分散表現とが与えられたとき、これらの2つのベクトル空間の間の写像関数を用いて、次のように表すことができる。
embb(ws)=W・embs(ws)
embb(wt)=embt(wt)
ここで、wsは起点言語の語を表しており、wtは目標言語の語を表している。embs()は、起点言語の分散表現を返す関数である。embt()は、目標言語の分散表現を返す関数である。embb()は、二言語(起点言語および目標言語)に共通の単語分散表現を返す関数である。Wは、起点言語のベクトル空間から目標言語のベクトル空間への写像関数であり、学習データに対する最適化によって得られる(例えば、非特許文献2を参照)。

上記の写像関数を取得するための学習において、教師データとして、比較的小規模な対訳辞書のデータを用いる手法(例えば、非特許文献2、3を参照)や、大規模文レベル対訳データ(対訳コーパス)を用いる手法(例えば、非特許文献5、6を参照)がある。

また、多言語処理タスクのための二言語単語分散表現の学習についての手法として、例えば、非特許文献7に開示されている手法がある。

しかしながら、既存の手法は、特に低頻度語に対する性能が悪い。その理由としては、各言語の分散表現の学習時に、各語の頻度に応じた最適化がなされることや、二言語間の写像関数を学習する際に用いられる対訳辞書が一般には高頻度語のみを収録していることなどが挙げられる。このため、対訳辞書の自動構築や対訳文対の自動獲得などの応用タスクの性能向上に限界があった。

二言語単語分散表現の外的な評価方法として、対訳辞書を自動構築するタスクがよく用いられる(例えば、非特許文献2、3、4、5、6を参照)。これは、所与の起点言語の語に対して、目標言語の各語との類似度を二言語単語分散表現に基づいて計算し、類似度が上位の語、あるいは十分に類似度が高い語を対訳として出力するものである。

二言語単語分散表現のみに基づいて類似度を計算する手法が、他の情報も参照する最先端の対訳辞書自動構築手法(例えば、非特許文献8、9を参照)よりも優れているとは限らないが、複数の二言語単語分散表現と他の情報と組み合わせて用いることの有用性は確認されている(例えば、非特許文献10を参照)。

概要

低頻度語についても高性能の二言語単語分散表現を取得することができる二言語単語分散表現データ取得装置を実現する。二言語単語分散表現データ取得装置100では、訳語データ抽出部1が、対訳辞書データ記憶部DB1に記憶されている起点言語および目標言語についての対訳辞書データにより、起点言語の語を目標言語の語に直接マッピングする処理を行うので、起点言語の分散表現を目標言語の分散表現に適切に変換する(対応付ける)ことができる。したがって、二言語単語分散表現データ取得装置100では、低頻度語に対しても精度の高い分散表現を取得することができる。

目的

本発明は、上記課題に鑑み、低頻度語についても高性能の二言語単語分散表現を取得することができる二言語単語分散表現データ取得装置、二言語単語分散表現データ取得方法、および、プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

起点言語の語と、当該起点言語の語に対応する目標言語の語とを対応付け対訳辞書データを用いて二言語単語分散表現データを取得する二言語単語分散表現データ取得装置であって、前記対訳辞書データを参照して、起点言語の語に対応する目標言語の語である訳語データを抽出する訳語データ抽出部と、前記目標言語の語から目標言語分散表現データを取得するともに、前記訳語データ抽出部により抽出された前記起点言語の語の前記訳語データに対応する目標言語分散表現データを取得する目標言語分散表現データ取得部と、を備える二言語単語分散表現データ取得装置。

請求項2

前記目標言語の語と、前記目標言語分散表現データ取得部により取得された当該目標言語の語の目標言語分散表現データとを対応付けたデータを第1データとして取得するとともに、前記起点言語の語と、当該起点言語の語の前記訳語データに対応する目標言語分散表現データとを対応付けたデータを第2データとして取得し、前記第1データおよび前記第2データを二言語単語分散表現データとして出力する二言語単語分散データ取得部をさらに備える、請求項1に記載の二言語単語分散表現データ取得装置。

請求項3

起点言語の語と、当該起点言語の語に対応する目標言語の語とを対応付ける対訳辞書データを用いて二言語単語分散表現データを取得する二言語単語分散表現データ取得方法であって、前記対訳辞書データを参照して、起点言語の語に対応する目標言語の語である訳語データを抽出する訳語データ抽出ステップと、前記目標言語の語から目標言語分散表現データを取得するともに、前記訳語データ抽出ステップにより抽出された前記起点言語の語の前記訳語データに対応する目標言語分散表現データを取得する目標言語分散表現データ取得ステップと、を備える二言語単語分散表現データ取得方法。

請求項4

請求項3に記載の二言語単語分散表現データ取得方法をコンピュータで実行させるためのプログラム

技術分野

0001

本発明は、二言語単語分散表現についての技術に関する。

背景技術

0002

単語の分散表現は、深層学習に基づく自然言語処理技術の根幹をなす技術である。特に近年では、多言語処理タスク向けに、二言語単語分散表現に関する研究が活発に行われている。二言語単語分散表現の学習に関する既存の手法は、コーパス中の各語の頻度に応じて分散表現を学習し、高頻度語に関する対訳辞書を用いて二言語間写像関数を学習するため、特に低頻度語に対する性能が悪い。このため、対訳辞書の自動構築対訳コーパスの自動獲得などの応用タスクの性能向上が容易ではない。

0003

単語の分散表現(あるいは単語埋め込み)とは、各語を有限固定次元実数ベクトル(v∈Rn)で表したものである。コーパス中の各語に近接する語の情報などを用いて、教師信号なしで単語の分散表現を学習する手法(例えば、非特許文献1を参照)が開発されて以来、単語の分散表現は、深層学習に基づく自然言語処理技術の基盤技術として様々なタスクに用いられている。

0004

二つの言語の異なる語彙を共通のベクトル空間上で表現するものを二言語単語分散表現という。二言語単語分散表現は、例えば、言語Aの単語分散表現と言語Bの単語分散表現とが与えられたとき、これらの2つのベクトル空間の間の写像関数を用いて、次のように表すことができる。
embb(ws)=W・embs(ws)
embb(wt)=embt(wt)
ここで、wsは起点言語の語を表しており、wtは目標言語の語を表している。embs()は、起点言語の分散表現を返す関数である。embt()は、目標言語の分散表現を返す関数である。embb()は、二言語(起点言語および目標言語)に共通の単語分散表現を返す関数である。Wは、起点言語のベクトル空間から目標言語のベクトル空間への写像関数であり、学習データに対する最適化によって得られる(例えば、非特許文献2を参照)。

0005

上記の写像関数を取得するための学習において、教師データとして、比較的小規模な対訳辞書のデータを用いる手法(例えば、非特許文献2、3を参照)や、大規模文レベル対訳データ(対訳コーパス)を用いる手法(例えば、非特許文献5、6を参照)がある。

0006

また、多言語処理タスクのための二言語単語分散表現の学習についての手法として、例えば、非特許文献7に開示されている手法がある。

0007

しかしながら、既存の手法は、特に低頻度語に対する性能が悪い。その理由としては、各言語の分散表現の学習時に、各語の頻度に応じた最適化がなされることや、二言語間の写像関数を学習する際に用いられる対訳辞書が一般には高頻度語のみを収録していることなどが挙げられる。このため、対訳辞書の自動構築や対訳文対の自動獲得などの応用タスクの性能向上に限界があった。

0008

二言語単語分散表現の外的な評価方法として、対訳辞書を自動構築するタスクがよく用いられる(例えば、非特許文献2、3、4、5、6を参照)。これは、所与の起点言語の語に対して、目標言語の各語との類似度を二言語単語分散表現に基づいて計算し、類似度が上位の語、あるいは十分に類似度が高い語を対訳として出力するものである。

0009

二言語単語分散表現のみに基づいて類似度を計算する手法が、他の情報も参照する最先端の対訳辞書自動構築手法(例えば、非特許文献8、9を参照)よりも優れているとは限らないが、複数の二言語単語分散表現と他の情報と組み合わせて用いることの有用性は確認されている(例えば、非特許文献10を参照)。

先行技術

0010

Thomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffery Dean (2013). Distributed Representations of Wordsand Phrases and their Compositionality. In Proceedings of Neural Information Processing Systems (NIPS).
Thomas Mikolov, Quoc V. Le, and Ilya Sutskever (2013). Exploiting Similarities among Languages for Machine Translation. arXiv:1309.4168.
Mikel Artetxe, Gorka Labaka, and Eneko Agirre (2016). Learning Principled Bilingual Mappings of Word Embeddings while Preserving Monolingual Invariance. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 2289-2294.
Ivan Vulic and Anna Korhonen (2016). On the Role of Seed Lexicons in Learning Bilingual Word Embeddings. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL), Vol. 1, pp. 247-257.
Stephan Gouws, Yoshua Bengio, and Greg Corrado (2015). BilBOWA: Fast Bilingual Distributed Representations without Word Alignment. In Proceedings of the 32nd International Conference on Machine Learning (ICML), pp. 748-756.
Jocelyn Coulmance, Jean-Marc Marty, Guillaume Wenzek, and Amine Benhalloum (2015). Trans-gram, Fast Cross-lingual Word-embeddings. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1109-1113.
Sebastian Ruder, Ivan Vulic, Anders Sogaard (2017). A Survey of Cross-lingual Word Embedding Models. arXiv:1706.04902.
Ann Irvine and Chris Callison-Burch (2013). Supervised Bilingual Lexicon Induction with Multiple Monolingual Signals. In Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 518-523.
Ann Irvine and Chris Callison-Burch (2017). A Comprehensive Analysis of Bilingual Lexicon Induction. Computational Linguistics, Vol. 43, No. 2, pp. 273-310.
Laurent Jakubina and Phillippe Langlais (2017). Reranking Translation Candidates Produced by Several Bilingual Word Similarity Sources. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (EACL), Vol. 2, pp. 605-611.

発明が解決しようとする課題

0011

上記で説明したように、二言語単語分散表現の学習に関する既存の手法では、高頻度語に対しては精度が高いものの、低頻度語に対しては性能が低い。このため、対訳辞書の自動構築や対訳文対の自動獲得などの応用タスクの性能向上に限界がある。

0012

そこで、本発明は、上記課題に鑑み、低頻度語についても高性能の二言語単語分散表現を取得することができる二言語単語分散表現データ取得装置、二言語単語分散表現データ取得方法、および、プログラムを提供することを目的とする。

課題を解決するための手段

0013

上記課題を解決するための第1の発明は、起点言語の語と、当該起点言語の語に対応する目標言語の語とを対応付け対訳辞書データを用いて二言語単語分散表現データを取得する二言語単語分散表現データ取得装置であって、訳語データ抽出部と、目標言語分散表現データ取得部と、を備える。

0014

訳語データ抽出部は、対訳辞書データを参照して、起点言語の語に対応する目標言語の語である訳語データを抽出する。

0015

目標言語分散表現データ取得部は、目標言語の語から目標言語分散表現データを取得するともに、訳語データ抽出部により抽出された起点言語の語の訳語データに対応する目標言語分散表現データを取得する。

0016

この二言語単語分散表現データ取得装置では、起点言語および目標言語についての対訳辞書データにより、直接マッピングする処理を行うので、起点言語の分散表現を目標言語の分散表現に適切に変換する(対応付ける)ことができる。

0017

したがって、この二言語単語分散表現データ取得装置では、低頻度語に対しても精度の高い分散表現を取得することができる。すなわち、この二言語単語分散表現データ取得装置では、低頻度語についても高性能の二言語単語分散表現を取得することができる。

0018

第2の発明は、第1の発明であって、目標言語の語と、目標言語分散表現データ取得部により取得された当該目標言語の語の目標言語分散表現データとを対応付けたデータを第1データとして取得するとともに、起点言語の語と、当該起点言語の語の訳語データに対応する目標言語分散表現データとを対応付けたデータを第2データとして取得し、第1データおよび第2データを二言語単語分散表現データとして出力する二言語単語分散データ取得部をさらに備える。

0019

これにより、この二言語単語分散表現データ取得装置では、第1データ(目標言語の語と、当該語の目標言語のベクトル空間の分散表現データ(目標言語分散表現データ))とを対応付けたデータ)、および、第2データ(起点言語の語と、当該語に対応する目標言語の語(訳語)の目標言語のベクトル空間の分散表現データ(目標言語分散表現データ))を二言語単語分散表現データとして取得(出力)することができる。この二言語単語分散表現データ取得装置で取得された二言語単語分散表現データを利用することで、例えば、低頻度語に対して高精度であることが要求されるタスクに対して高精度な処理を実行することができる。

0020

第3の発明は、起点言語の語と、当該起点言語の語に対応する目標言語の語とを対応付ける対訳辞書データを用いて二言語単語分散表現データを取得する二言語単語分散表現データ取得方法であって、訳語データ抽出ステップと、目標言語分散表現データ取得ステップと、を備える。

0021

訳語データ抽出ステップは、対訳辞書データを参照して、起点言語の語に対応する目標言語の語である訳語データを抽出する。

0022

目標言語分散表現データ取得ステップは、目標言語の語から目標言語分散表現データを取得するともに、訳語データ抽出ステップにより抽出された起点言語の語の訳語データに対応する目標言語分散表現データを取得する。

0023

これにより、第1の発明と同様の効果を奏する二言語単語分散表現データ取得方法を実現することができる。

0024

第4の発明は、第3の発明である二言語単語分散表現データ取得方法をコンピュータで実行させるためのプログラムである。

0025

これにより、第1の発明と同様の効果を奏する二言語単語分散表現データ取得方法をコンピュータに実行させるためのプログラムを実現することができる。

発明の効果

0026

本発明によれば、低頻度語についても高性能の二言語単語分散表現を取得することができる二言語単語分散表現データ取得装置、二言語単語分散表現データ取得方法、および、プログラムを実現することができる。

図面の簡単な説明

0027

第1実施形態に係る二言語単語分散表現データ取得装置100の概略構成図。
線形写像を用いて、起点言語の分散表現のベクトル空間の分散表現(ベクトル)を、目標言語の分散表現のベクトル空間の分散表現(ベクトル)に変換する処理、および写像結果に最も近い目標言語の語を対訳として探索する処理を模式化に示した図。
対訳辞書によるマッピングにより、起点言語の語を、目標言語の分散表現のベクトル空間の分散表現(ベクトル)に変換する(対応付ける)処理を模式化に示した図。
実施例1の設定1の評価結果データの表を示す図。
実施例1の設定2の評価結果データの表を示す図。
第1実施形態を実現するコンピュータの内部構成を示すブロック図。

実施例

0028

[第1実施形態]
第1実施形態について、図面を参照しながら、以下説明する。

0029

<1.1:二言語単語分散表現データ取得装置の構成>
図1は、第1実施形態に係る二言語単語分散表現データ取得装置100の概略構成図である。

0030

図2は、線形写像を用いて、起点言語の分散表現のベクトル空間の分散表現(ベクトル)を、目標言語の分散表現のベクトル空間の分散表現(ベクトル)に変換する処理、および写像結果に最も近い目標言語の語を対訳として探索する処理を模式化に示した図である。

0031

図3は、対訳辞書によるマッピングにより、起点言語の語を、目標言語の分散表現のベクトル空間の分散表現(ベクトル)に変換する(対応付ける)処理を模式化に示した図である。

0032

二言語単語分散表現データ取得装置100は、図1に示すように、対訳辞書データ記憶部DB1と、訳語データ抽出部1と、目標言語分散表現データ記憶部DBtと、目標言語分散表現データ取得部2と、二言語単語分散表現データ取得部3と、二言語単語分散表現データ記憶部DB2とを備える。

0033

対訳辞書データ記憶部DB1は、起点言語(例えば、翻訳元言語)の語と、当該起点言語の語に対応する目標言語(例えば、翻訳先言語)の語とを対応付けた対訳辞書データd1を記憶する。対訳辞書データ記憶部DB1は、訳語データ抽出部1からのデータ読み出し要求に従い、記憶している対訳辞書データd1から訳語データを抽出し、抽出したデータを訳語データ抽出部1に出力する。

0034

訳語データ抽出部1は、起点言語の語wsを入力し、起点言語の語wsに対応する目標言語の語を読み出すためのデータ読み出し要求を対訳辞書データ記憶部DB1に出力する。そして、訳語データ抽出部1は、対訳辞書データ記憶部DB1の対訳辞書データd1から読み出した起点言語の語wsに対応する目標言語の語を訳語データtr(ws,d1)として取得する。そして、訳語データ抽出部1は、取得した訳語データtr(ws,d1)を目標言語分散表現データ取得部2に出力する。なお、tr(ws,d1)は、起点言語の語wsに対応する目標言語の語を、対訳辞書データd1から取り出す関数を表している。

0035

目標言語分散表現データ記憶部DBtは、目標言語の語と、当該目標言語の語の分散表現データとを対応付けたデータ(<t,embt(t)>)を記憶している。目標言語分散表現データ記憶部DBtには、目標言語の語wtから、目標言語のベクトル空間(例えば、Nt次元(Nt:自然数)のベクトル空間)において最適な分散表現データembt(wt)(Nt次元ベクトル)を取得する学習済みモデル(例えば、非特許文献1を参照)を用いて取得されたデータ(目標言語の語と、当該目標言語の語の分散表現データとを対応付けたデータ(<t,embt(t)>))が記憶される。

0036

なお、<x,embt(x)>は、語xと、当該語xについての目標言語単語分散表現データembt(x)とを対応付けたデータであることを表している。

0037

目標言語分散表現データ取得部2は、目標言語の語wtを入力し、目標言語の語wtの分散表現データembt(wt)を取得する。つまり、目標言語分散表現データ取得部2は、目標言語のベクトル空間(例えば、Nt次元(Nt:自然数)のベクトル空間)において、目標言語の語wtに対応するベクトル(Nt次元ベクトル)である分散表現データembt(wt)を取得する。目標言語分散表現データ取得部2は、例えば、目標言語の語wtが入力された場合、目標言語分散表現データ記憶部DBtから、目標言語の語wtの分散表現データembt(wt)を読み出すことで、目標言語の語wtに対応する分散表現データembt(wt)を取得する。そして、目標言語分散表現データ取得部2は、取得した分散表現データembt(wt)を二言語単語分散表現データ取得部3に出力する。

0038

また、目標言語分散表現データ取得部2は、訳語データ抽出部1から出力される、起点言語の語wsに対応する訳語データtr(ws,d1)を入力する。目標言語分散表現データ取得部2は、訳語データtr(ws,d1)の分散表現データembt(tr(ws,d1))を取得する。つまり、目標言語分散表現データ取得部2は、目標言語のベクトル空間において、起点言語の語wsに対応する訳語データtr(ws,d1)に対応するベクトル(Nt次元ベクトル)である分散表現データembt(tr(ws,d1))を取得する。目標言語分散表現データ取得部2は、例えば、訳語データtr(ws,d1)が入力された場合、目標言語分散表現データ記憶部DBtから、当該訳語データtr(ws,d1)の分散表現データembt(tr(ws,d1))を読み出すことで、起点言語の語wsに対応する訳語データtr(ws,d1)の分散表現データembt(tr(ws,d1))を取得する。そして、目標言語分散表現データ取得部2は、取得した分散表現データembt(tr(ws,d1))を二言語単語分散表現データ取得部3に出力する。

0039

二言語単語分散表現データ取得部3は、(1)起点言語の語ws、および、目標言語分散表現データ取得部2から出力される訳語データtr(ws,d1)の目標言語のベクトル空間における分散表現データembt(tr(ws,d1))(図1のデータD_wsに対応)、または、(2)目標言語の語wt、および、目標言語の語wtの目標言語のベクトル空間における分散表現データembt(wt)(図1のデータD_wtに対応)を入力する。二言語単語分散表現データ取得部3は、起点言語の語wsと、訳語データtr(ws,d1)の目標言語のベクトル空間における分散表現データembt(tr(ws,d1))とを対応付けることで、起点言語の語wsの二言語単語分散表現データ<ws,embb(ws)>(embb(ws)=embt(tr(ws,d1)))を取得する。

0040

また、二言語単語分散表現データ取得部3は、目標言語の語wtと、目標言語の語wtの目標言語のベクトル空間における分散表現データembt(wt)とを対応付けることで、目標言語の語wtの二言語単語分散表現データ<wt,embb(wt)>(embb(wt)=embt(wt))を取得する。

0041

なお、<x,embb(x)>は、語xと、当該語xについての二言語単語分散表現データembb(x)とを対応付けたデータであることを表している。

0042

二言語単語分散表現データ取得部3は、取得した、(1)起点言語の語wsの二言語単語分散表現データ<ws,embb(ws)>、および/または、(2)目標言語の語wtの二言語単語分散表現データ<wt,embb(wt)>を二言語単語分散表現データ記憶部DB2に出力する。

0043

二言語単語分散表現データ記憶部DB2は、二言語単語分散表現データ取得部3から出力される(1)起点言語の語wsの二言語単語分散表現データ<ws,embb(ws)>、および/または、(2)目標言語の語wtの二言語単語分散表現データ<wt,embb(wt)>を記憶する。

0044

<1.2:二言語単語分散表現データ取得装置の動作>
以上のように構成された二言語単語分散表現データ取得装置100の動作について説明する。

0045

まず、起点言語の語wsが訳語データ抽出部1に入力される。

0046

訳語データ抽出部1は、入力された起点言語の語wsに対応する目標言語の語を読み出すためのデータ読み出し要求を対訳辞書データ記憶部DB1に出力し、対訳辞書データ記憶部DB1の対訳辞書データd1から起点言語の語wsに対応する目標言語の語を訳語データtr(ws,d1)として取得する。

0047

そして、訳語データ抽出部1は、取得した訳語データtr(ws,d1)を目標言語分散表現データ取得部2に出力する。

0048

目標言語分散表現データ取得部2は、入力された目標言語の語wtに基づいて、目標言語の語wtの分散表現データembt(wt)を取得する。具体的には、目標言語分散表現データ取得部2は、目標言語の語wtが入力された場合、目標言語分散表現データ記憶部DBtから、目標言語の語wtの分散表現データembt(wt)を読み出すことで、目標言語の語wtに対応する分散表現データembt(wt)を取得する。

0049

そして、目標言語分散表現データ取得部2は、取得した分散表現データembt(wt)を二言語単語分散表現データ取得部3に出力する。

0050

また、目標言語分散表現データ取得部2は、訳語データ抽出部1から入力される、起点言語の語wsに対応する訳語データtr(ws,d1)に基づいて、目標言語のベクトル空間(例えば、Nt次元(Nt:自然数)のベクトル空間)において、起点言語の語wsに対応する訳語データtr(ws,d1)に対応するベクトル(Nt次元ベクトル)である分散表現データembt(tr(ws,d1))を取得する。具体的には、目標言語分散表現データ取得部2は、訳語データtr(ws,d1)が入力された場合、目標言語分散表現データ記憶部DBtから、当該訳語データtr(ws,d1)の分散表現データembt(tr(ws,d1))を読み出すことで、起点言語の語wsに対応する訳語データtr(ws,d1)の分散表現データembt(tr(ws,d1))を取得する。

0051

そして、目標言語分散表現データ取得部2は、取得した分散表現データembt(tr(ws,d1))を二言語単語分散表現データ取得部3に出力する。

0052

二言語単語分散表現データ取得部3は、以下のデータを入力する。
(1A)起点言語の語ws
(1B)目標言語分散表現データ取得部2から出力される訳語データtr(ws,d1)の目標言語のベクトル空間における分散表現データembt(tr(ws,d1))
(2A)目標言語の語wt
(2B)目標言語の語wtの目標言語のベクトル空間における分散表現データembt(wt)
二言語単語分散表現データ取得部3は、起点言語の語wsと、訳語データtr(ws,d1)の目標言語のベクトル空間における分散表現データembt(tr(ws,d1))とを対応付けることで、起点言語の語wsの二言語単語分散表現データ<ws,embb(ws)>(embb(ws)=embt(tr(ws,d1)))を取得する。

0053

また、二言語単語分散表現データ取得部3は、目標言語の語wtと、目標言語の語wtの目標言語のベクトル空間における分散表現データembt(wt)とを対応付けることで、目標言語の語wtの二言語単語分散表現データ<wt,embb(wt)>(embb(wt)=embt(wt))を取得する。

0054

二言語単語分散表現データ取得部3は、取得した、
(1)起点言語の語wsの二言語単語分散表現データ<ws,embb(ws)>、および、
(2)目標言語の語wtの二言語単語分散表現データ<wt,embb(wt)>
を二言語単語分散表現データ記憶部DB2に出力する。

0055

二言語単語分散表現データ記憶部DB2では、二言語単語分散表現データ取得部3から出力される(1)起点言語の語wsの二言語単語分散表現データ<ws,embb(ws)>、および、(2)目標言語の語wtの二言語単語分散表現データ<wt,embb(wt)>が記憶される。

0056

以上のように、二言語単語分散表現データ取得装置100では、起点言語の語(語ws)を、起点言語および目標言語についての対訳辞書データd1により、直接マッピングすることで、起点言語の語(語ws)に対応する目標言語の語(語tr(ws,d1))を取得する。そして、二言語単語分散表現データ取得装置100では、取得した目標言語の語(語tr(ws,d1))について、目標言語のベクトル空間における分散表現データembt(tr(ws,d1))を取得する。また、二言語単語分散表現データ取得装置100では、目標言語の語(語wt)について、目標言語のベクトル空間における分散表現データembt(wt)を取得する。

0057

そして、二言語単語分散表現データ取得装置100では、上記のようにして取得した、(1)起点言語の語wsとその目標言語のベクトル空間における分散表現データembt(tr(ws,d1))とを対応付けることで、二言語単語分散表現データ<ws,embb(ws)>(embb(ws)=embt(tr(ws,d1)))を取得し、(2)目標言語の語wtのその目標言語のベクトル空間における分散表現データembt(wt)とを対応付けることで、二言語単語分散表現データ<wt,embb(wt)>(embb(wt)=embt(wt))を取得する。

0058

これにより、二言語単語分散表現データ取得装置100では、起点言語および目標言語の二言語単語分散表現データを取得する。

0059

二言語単語分散表現データ取得装置100では、上記のように、起点言語の語(語ws)の二言語単語分散表現データを取得する場合、起点言語および目標言語についての対訳辞書データd1により、直接マッピングして取得した起点言語の語wsに対応する目標言語の語tr(ws,d1)に基づいて、二言語単語分散表現データembb(ws)(=embt(tr(ws,d1)))を取得する。したがって、二言語単語分散表現データ取得装置100では、起点言語の語wsが低頻度語であっても、適切な二言語単語分散表現データembb(ws)(=embt(tr(ws,d1)))を取得することができる。

0060

例えば、図2に示すように、起点言語が英語であり、目標言語が日本語であり、図2に示す語の分散表現(ベクトル)が図2に示す黒丸および黒の三角に対応する場合、線形写像による処理では、起点言語の分散表現を目標言語の分散表現に適切に変換することができない場合がある。特に、これは、低頻度語において顕著である。

0061

また、図2に示すように、起点言語の分散表現を目標言語の分散表現へ線形写像し、当該写像結果に最も近い目標言語の語を対訳として探索する処理を行う場合、適切な対訳を取得することができないことがある。つまり、起点言語の分散表現の目標言語の分散表現へ線形写像結果と、当該起点言語に対応する正しい目標言語の語の分散表現とが近接していない場合、起点言語の語に対応する目標言語の語を対訳として適切に探索することができないことがある。特に、これは、低頻度語において顕著である。

0062

それに対して、二言語単語分散表現データ取得装置100では、図3に示すように、起点言語および目標言語についての対訳辞書データd1により、直接マッピングする処理を行うので、起点言語の分散表現を目標言語の分散表現に適切に変換する(対応付ける)ことができる。

0063

したがって、二言語単語分散表現データ取得装置100では、低頻度語についても高性能の二言語単語分散表現を取得することができる。

0064

≪実施例1≫
次に、本発明の実施例1について説明する。

0065

第1実施形態に係る二言語単語分散表現データ取得装置100により取得した二言語単語分散表現データを用いて、対訳文を自動獲得した。具体的には、次のデータを用いて対訳文を自動獲得した。
A)英伊実験用
1.対訳コーパス:
a.調整用: 欧州議会文書(Europarl, v7)からサンプルした2000文
b.評価用: 同様にして別途サンプルした2000文
2.単言語コーパス:対訳の探索対象
a.設定1: 欧州議会文書(Europarl, v7)から上記A)-1-aおよびA)-1-bを除外した残りの約200万文の各言語側をランダムシャッフルしたもの
b.設定2:英語単言語コーパス(ニュース記事データ(WMT15)の約1.2億文)およびイタリア語単言語コーパス(Webから収集されたデータ(PAISA)の約1300万文)から各々ランダムに抽出した200万文
3.言語モデル: 上記A)-2-aのイタリア語部分のみから構築した4-gramモデル
B)英日実験用
1.対訳コーパス:
a.調整用: 特許翻訳データ(NTCIR-9)の調整用2000文
b.評価用: 特許翻訳データ(NTCIR-9)の評価用2000文
2.単言語コーパス: 対訳の探索対象。
a.設定1: 特許翻訳データ(NTCIR-9)の訓練用データ約320万文の各言語側をランダムにシャッフルしたもの
b.設定2: 英語単言語コーパス(特許データ(NTCIR)の約4.2億文)および日本語単言語コーパス(特許データ(NTCIR)の約5.8億文)から各々ランダムに抽出した200万文
3.言語モデル: B)-2-bの日本語単言語コーパスとB)-2-aの日本語部分を連結したものから構築した4-gramモデル
獲得した対訳文の質を、対訳文の探索精度で評価した。

0066

また、対訳文からに基づく統計的機械翻訳システム(grow-diag-final-andヒューリスティクスに基づくフレーズテーブル)(下記非特許文献Aを参照)を構築し、翻訳精度(BLEUスコア)を評価した。
非特許文献A:
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst (2007). Moses: Open Source Toolkit for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics (ACL), Demo and Poster Sessions, pp. 177-180.
これらの結果を図4(設定1の評価結果)、図5(設定2の評価結果)に示す。

0067

図4図5の「対訳コーパス」と示した欄のデータは、正解の対訳を含むコーパスを用いたときのデータである。

0068

図4図5の「線形写像による手法M」と示した欄のデータは、非特許文献2の技術を用いて、線形写像により二言語単語分散表現データを取得し、当該二言語単語分散表現データを用いて、上記の評価をしたときのデータである。

0069

図4図5の「線形写像による手法V」と示した欄のデータは、非特許文献3の技術を用いて、線形写像により二言語単語分散表現データを取得し、当該二言語単語分散表現データを用いて、上記の評価をしたときのデータである。

0070

図4図5の「対訳辞書によるマッピング手法MAP」と示した欄のデータは、本発明の手法(対訳辞書を用いたマッピング手法)により二言語単語分散表現データを取得し、当該二言語単語分散表現データを用いて、上記の評価をしたときのデータである。なお、対訳辞書は、非特許文献2の技術を用いて取得したデータ(対訳辞書データ)である。

0071

図4図5の「対訳辞書によるマッピング手法VMAP」と示した欄のデータは、本発明の手法(対訳辞書を用いたマッピング手法)により二言語単語分散表現データを取得し、当該二言語単語分散表現データを用いて、上記の評価をしたときのデータである。なお、対訳辞書は、非特許文献3の技術を用いて取得したデータ(対訳辞書データ)である。

0072

図4図5に示す評価結果から、本発明の手法(対訳辞書を用いたマッピング手法)による評価データは、従来の線形写像による手法に比べて、圧倒的に精度が高いことが分かる。

0073

[他の実施形態]
また上記実施形態の二言語単語分散表現データ取得装置100は、複数の装置により実現されるものであってもよい。例えば、対訳辞書データ記憶部DB1、二言語単語分散表現データ記憶部DB2は、外部に設置されるものであってもよい。

0074

また上記実施形態で説明した二言語単語分散表現データ取得装置100において、各ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部または全部を含むように1チップ化されても良い。

0075

なおここではLSIとしたが、集積度の違いにより、IC、システムLSIスーパーLSI、ウルトラLSIと呼称されることもある。

0076

また集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブルプロセッサを利用しても良い。

0077

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。

0078

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

0079

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図6に示したハードウェア構成(例えばCPU、ROM、RAM、入力部、出力部、通信部、記憶部(例えば、HDDSSD等により実現される記憶部)、外部メディアドライブ等をバスにより接続したハードウェア構成)を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

0080

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図6に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

0081

また上記実施形態における処理方法実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

0082

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、大容量DVD、次世代DVD、半導体メモリを挙げることができる。

0083

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線無線または有線通信回線インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

0084

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

0085

本発明によれば、低頻度語についても高性能の二言語単語分散表現を取得する二言語単語分散表現データ取得装置、二言語単語分散表現データ取得方法、および、プログラムを実現することができる。このため本発明は、自然言語処理関連産業分野において有用であり、当該分野において実施することができる。

0086

100 二言語単語分散表現データ取得装置
1訳語データ抽出部
DB1対訳辞書データ記憶部
2目標言語分散表現データ取得部
3 二言語単語分散表現データ取得部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ