図面 (/)

技術 機械翻訳システムの学習方法、学習プログラムおよび学習済モデル

出願人 国立研究開発法人情報通信研究機構
発明者 マリバンジャマン藤田篤
出願日 2019年3月29日 (2年2ヶ月経過) 出願番号 2019-067571
公開日 2020年10月8日 (8ヶ月経過) 公開番号 2020-166664
状態 未査定
技術分野 機械翻訳
主要キーワード パラメタ調整 インドネシア語 改善幅 分散表現 重み調整 翻訳性能 学習ツール フレーズテーブル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年10月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

十分に規模の大きな対訳データが存在していない場合であっても翻訳性能を高めることができる学習手法を提供する。

解決手段

学習方法は、単言語データからフレーズテーブルを生成するステップと、第1の疑似対訳データを用いて新たな世代の統計的機械翻訳モデルを生成するステップと、新たな世代の統計的機械翻訳モデルを用いて第1の疑似対訳データを更新するとともに、当該更新された第1の疑似対訳データを用いてさらに新たな世代の統計的機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、ニューラル機械翻訳モデルを用いて第2の疑似対訳データを更新するとともに、当該更新された第2の疑似対訳データを用いて新たな世代のニューラル機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、第3の疑似対訳データを生成するステップと、統計的機械翻訳モデルを生成するステップを含む。

概要

背景

現在の機械翻訳技術は、統計的機械翻訳(Statistical Machine Translation;以下「SMT」とも略称する。)とニューラル機械翻訳(NMT:Neural Machine Translation;以下「NMT」とも略称する。)との2種類に大別される。

SMTでは、対訳データから対訳関係にある語およびの対を事前に抽出するとともに、各対に対して翻訳確率語句並び替えに関する確率が計算される。翻訳時には、語および句の対を組み合わせて表現できる目標言語の語の系列中から最も尤度の高いものが訳文として決定される(例えば、非特許文献1など参照)。

一方、NMTでは、起点言語の語および文全体をベクトルまたはテンソルに変換するニューラルネットワークエンコーダ)と、変換により得られたベクトルまたはテンソルから目標言語の語の系列を生成するニューラルネットワーク(デコーダ)とからなるモデルが用いられる。エンコーダおよびデコーダからなるモデルは、起点言語と目標言語との対訳データに基づいて学習される(パラメタが最適化される)(例えば、非特許文献2および3参照)。

目的の起点言語、目標言語、対象分野について、大規模な対訳データが存在している場合には、NMTはSMTよりも高い翻訳性能を達成し得る。しかしながら、小規模な対訳データしか存在していない場合には、翻訳関係にある表現の対を直接操作するSMTの方が、入力の情報を捨象して数値計算のみに頼るNMTよりも翻訳性能が高い(例えば、非特許文献4参照)ことが多い。

対訳データとは異なり、単言語データは安価かつ大量に入手可能である。そのため、SMTおよびNMTの性能を改良するために単言語データを活用する技術が提案されている(例えば、非特許文献5および6参照)。しかしながら、ベースとなるSMTおよびNMTからなる機械翻訳システムの精度が低い場合は、そのような改良も実現不可能となる。そのような場合に対して、起点言語と目標言語とを仲介する第3の言語(ピボット言語とも称され、多くの場合には英語が採用される)を用いるピボット翻訳が提案されている(例えば、非特許文献7参照)。

ピボット翻訳は、起点言語をピボット言語に翻訳する機械翻訳システムと、ピボット言語を目標言語に翻訳する機械翻訳システムとを組み合わせて利用する技術である。但し、起点言語とピボット言語との言語対、および、ピボット言語と目標言語と言語対の両方について、十分に規模の大きな対訳データが存在していない場合は、ピボット翻訳も適用できない。

近年、単言語データのみから機械翻訳システムを構築する技術が提案されている。これらの技術は、教師なし機械翻訳(UMT:Unsupervised Machine Translation)と呼ばれている。但し、提案されている技術では、ハイパーパラメタの調整に対訳データを利用する必要があるため、対訳データを全く不要とするわけではない。教師なし機械翻訳としては、教師なしSMT(以下、「USMT」とも略称する。)(例えば、非特許文献8および9参照)、および、教師なしNMT(以下、「UNMT」とも略称する。)(例えば、非特許文献9および10参照)が提案されている。

USMTは、従来手法に従うSMTを概ねそのまま利用しつつ、対訳関係にある語および句の対を二言語分散表現などに基づいて取得して利用する(例えば、非特許文献11および12参照)。USMTは、UNMTよりも高い翻訳性能を達成している。さらに、USMTを単体で用いるのではなく、USMTを用いて生成した疑似対訳データと従来手法に従うNMTとを組み合わせることにより、USMTよりも高い翻訳性能を達成し得る(例えば、非特許文献13および14参照)。なお、このような組み合わせの機械翻訳システムにおいて、NMTには、正規の対訳データではなく疑似対訳データが用いられるので、UNMTの一種と考えることもできる。逆に、UNMTを用いて生成した疑似対訳データと従来手法に従うSMTとを組み合わせることにより、USMTを構築することもできる。さらに、USMTおよびUNMTに対する訓練を交互に繰り返すことによって、USMTおよびUNMTの両システムを改良することもできる(例えば、非特許文献14参照)。

概要

十分に規模の大きな対訳データが存在していない場合であっても翻訳性能を高めることができる学習手法を提供する。学習方法は、単言語データからフレーズテーブルを生成するステップと、第1の疑似対訳データを用いて新たな世代の統計的機械翻訳モデルを生成するステップと、新たな世代の統計的機械翻訳モデルを用いて第1の疑似対訳データを更新するとともに、当該更新された第1の疑似対訳データを用いてさらに新たな世代の統計的機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、ニューラル機械翻訳モデルを用いて第2の疑似対訳データを更新するとともに、当該更新された第2の疑似対訳データを用いて新たな世代のニューラル機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、第3の疑似対訳データを生成するステップと、統計的機械翻訳モデルを生成するステップを含む。

目的

本発明は、十分に規模の大きな対訳データが存在していない場合であっても翻訳性能を高めることができる学習手法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

統計的機械翻訳モデルニューラル機械翻訳モデルとを含む機械翻訳システム学習方法であって、単言語データからフレーズテーブルを生成するステップと、前記フレーズテーブルおよび第1の言語モデルに基づいて、最初の統計的機械翻訳モデルを生成するステップと、前記生成された最初の統計的機械翻訳モデルを用いて第1の疑似対訳データを生成するステップと、前記生成された第1の疑似対訳データを用いて新たな世代の統計的機械翻訳モデルを生成するステップと、前記生成された新たな世代の統計的機械翻訳モデルを用いて前記第1の疑似対訳データを更新するとともに、当該更新された第1の疑似対訳データを用いてさらに新たな世代の統計的機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、前記所定回数の繰り返し後に生成された統計的機械翻訳モデルを用いて第2の疑似対訳データを生成するステップと、前記生成された第2の疑似対訳データを用いてニューラル機械翻訳モデルを生成するステップと、前記生成されたニューラル機械翻訳モデルを用いて前記第2の疑似対訳データを更新するとともに、当該更新された第2の疑似対訳データを用いて新たな世代のニューラル機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、前記所定回数の繰り返し後に生成されたニューラル機械翻訳モデルを用いて第3の疑似対訳データを生成するステップと、前記生成された第3の疑似対訳データから前記統計的機械翻訳モデルを生成するステップとを備える、機械翻訳システムの学習方法。

請求項2

前記統計的機械翻訳モデルは、第1の言語から第2の言語への機械翻訳を行う第1の統計的機械翻訳モデルと、前記第2の言語から前記第1の言語への機械翻訳を行う第2の統計的機械翻訳モデルとを含み、前記第1の疑似対訳データは、前記第1の統計的機械翻訳モデルを用いて生成された疑似対訳データと、前記第2の統計的機械翻訳モデルを用いて生成された疑似対訳データとを含む、請求項1に記載の機械翻訳システムの学習方法。

請求項3

前記新たな世代の統計的機械翻訳モデルは、先に生成されていた統計的機械翻訳モデルとは独立して生成され、前記新たな世代のニューラル機械翻訳モデルは、先に生成されていたニューラル機械翻訳モデルとは独立して生成される、請求項1または2に記載の機械翻訳システムの学習方法。

請求項4

第2の言語モデルを用いて前記第2の疑似対訳データのうちスコアが相対的に高い疑似対訳を抽出するステップをさらに備える、請求項1〜3のいずれか1項に記載の機械翻訳システムの学習方法。

請求項5

請求項1〜4のいずれか1項に記載の機械翻訳システムの学習方法をコンピュータに実行させるための学習プログラム

請求項6

機械翻訳システムに用いられる統計的機械翻訳モデルおよびニューラル機械翻訳モデルのうち少なくとも一方を備える学習済モデルであって、前記学習済モデルは所定の学習方法により生成され、前記所定の学習方法は、単言語データからフレーズテーブルを生成するステップと、前記フレーズテーブルおよび第1の言語モデルに基づいて、最初の統計的機械翻訳モデルを生成するステップと、前記生成された最初の統計的機械翻訳モデルを用いて第1の疑似対訳データを生成するステップと、前記生成された第1の疑似対訳データを用いて新たな世代の統計的機械翻訳モデルを生成するステップと、前記生成された新たな世代の統計的機械翻訳モデルを用いて前記第1の疑似対訳データを更新するとともに、当該更新された第1の疑似対訳データを用いてさらに新たな世代の統計的機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、前記所定回数の繰り返し後に生成された統計的機械翻訳モデルを用いて第2の疑似対訳データを生成するステップと、前記生成された第2の疑似対訳データを用いてニューラル機械翻訳モデルを生成するステップと、前記生成されたニューラル機械翻訳モデルを用いて前記第2の疑似対訳データを更新するとともに、当該更新された第2の疑似対訳データを用いて新たな世代のニューラル機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、前記所定回数の繰り返し後に生成されたニューラル機械翻訳モデルを用いて第3の疑似対訳データを生成するステップと、前記生成された第3の疑似対訳データから前記統計的機械翻訳モデルを生成するステップとを備える、学習済モデル。

技術分野

0001

本発明は、機械翻訳システム学習方法学習プログラムおよび学習済モデルに関する。

背景技術

0002

現在の機械翻訳技術は、統計的機械翻訳(Statistical Machine Translation;以下「SMT」とも略称する。)とニューラル機械翻訳(NMT:Neural Machine Translation;以下「NMT」とも略称する。)との2種類に大別される。

0003

SMTでは、対訳データから対訳関係にある語およびの対を事前に抽出するとともに、各対に対して翻訳確率語句並び替えに関する確率が計算される。翻訳時には、語および句の対を組み合わせて表現できる目標言語の語の系列中から最も尤度の高いものが訳文として決定される(例えば、非特許文献1など参照)。

0004

一方、NMTでは、起点言語の語および文全体をベクトルまたはテンソルに変換するニューラルネットワークエンコーダ)と、変換により得られたベクトルまたはテンソルから目標言語の語の系列を生成するニューラルネットワーク(デコーダ)とからなるモデルが用いられる。エンコーダおよびデコーダからなるモデルは、起点言語と目標言語との対訳データに基づいて学習される(パラメタが最適化される)(例えば、非特許文献2および3参照)。

0005

目的の起点言語、目標言語、対象分野について、大規模な対訳データが存在している場合には、NMTはSMTよりも高い翻訳性能を達成し得る。しかしながら、小規模な対訳データしか存在していない場合には、翻訳関係にある表現の対を直接操作するSMTの方が、入力の情報を捨象して数値計算のみに頼るNMTよりも翻訳性能が高い(例えば、非特許文献4参照)ことが多い。

0006

対訳データとは異なり、単言語データは安価かつ大量に入手可能である。そのため、SMTおよびNMTの性能を改良するために単言語データを活用する技術が提案されている(例えば、非特許文献5および6参照)。しかしながら、ベースとなるSMTおよびNMTからなる機械翻訳システムの精度が低い場合は、そのような改良も実現不可能となる。そのような場合に対して、起点言語と目標言語とを仲介する第3の言語(ピボット言語とも称され、多くの場合には英語が採用される)を用いるピボット翻訳が提案されている(例えば、非特許文献7参照)。

0007

ピボット翻訳は、起点言語をピボット言語に翻訳する機械翻訳システムと、ピボット言語を目標言語に翻訳する機械翻訳システムとを組み合わせて利用する技術である。但し、起点言語とピボット言語との言語対、および、ピボット言語と目標言語と言語対の両方について、十分に規模の大きな対訳データが存在していない場合は、ピボット翻訳も適用できない。

0008

近年、単言語データのみから機械翻訳システムを構築する技術が提案されている。これらの技術は、教師なし機械翻訳(UMT:Unsupervised Machine Translation)と呼ばれている。但し、提案されている技術では、ハイパーパラメタの調整に対訳データを利用する必要があるため、対訳データを全く不要とするわけではない。教師なし機械翻訳としては、教師なしSMT(以下、「USMT」とも略称する。)(例えば、非特許文献8および9参照)、および、教師なしNMT(以下、「UNMT」とも略称する。)(例えば、非特許文献9および10参照)が提案されている。

0009

USMTは、従来手法に従うSMTを概ねそのまま利用しつつ、対訳関係にある語および句の対を二言語分散表現などに基づいて取得して利用する(例えば、非特許文献11および12参照)。USMTは、UNMTよりも高い翻訳性能を達成している。さらに、USMTを単体で用いるのではなく、USMTを用いて生成した疑似対訳データと従来手法に従うNMTとを組み合わせることにより、USMTよりも高い翻訳性能を達成し得る(例えば、非特許文献13および14参照)。なお、このような組み合わせの機械翻訳システムにおいて、NMTには、正規の対訳データではなく疑似対訳データが用いられるので、UNMTの一種と考えることもできる。逆に、UNMTを用いて生成した疑似対訳データと従来手法に従うSMTとを組み合わせることにより、USMTを構築することもできる。さらに、USMTおよびUNMTに対する訓練を交互に繰り返すことによって、USMTおよびUNMTの両システムを改良することもできる(例えば、非特許文献14参照)。

先行技術

0010

Philipp Kohen (2009). Statistical Machine Translation. Cambridge University Press.
Ilya Sutskever, Oriol Vinyals, and Quoc V. Le (2014). Sequence to Sequence Learning with Neural Networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems, pp. 3105-3112.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin (2017). Attention is All You Need. In Proceedings of the 30th Neural Information Processing Systems Conference (NIPS), pp. 5998-6008.
Philipp Koehn and Rebecca Knowles (2017). Six Challenges for Neural Machine Translation. In Proceedings of the 1st Workshop on Neural Machine Translation, pp. 28-39.
Nicola Ueffing, Gholamreza Haffari, and Anoop Sarkar (2007). Transductive Learning for Statistical Machine Translation. In Proceedings of the 45th Annual Meeting of the Association for Computational
Rico Sennrich, Barry Haddow, and Alexandra Birch (2016). Improving Neural Machine Translation with Monolingual Data. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 86-96.
Masao Utiyama and Hitoshi Isahara (2007). A Comparison of Pivot Methodsfor Phrase-Based Statistical Machine Translation. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics (HLT-NAACL), pp. 484-491.
Mikel Artetxe, Gorka Labaka, and Eneko Agirre (2018). Unsupervised Statistical Machine Translation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 3632-3642.
Guillaume Lample, Myle Ott, Alexis Conneau, Ludovic Denoyer, and Marc’ Aurelio Ranzato (2018). Phrase-based & Neural Unsupervised Machine Translation. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 5039-5049.
Mikel Artetxe, Gorka Labaka, Eneko Agirre, and Kyunghyun Cho (2018). Unsupervised Neural Machine Translation. In Proceedings of the 6th International Conference on Learning Representations (ICLR).
Benjamin Marie and Atsushi Fujita (2018). Phrase Table Induction Using Monolingual Data for Low-Resource Statistical Machine Translation.ACMTransactions on Asian and Low-Resource Language Information Processing, Vol. 17, No. 3, Article 16, 25 pages.
Mikel Artetxe, Gorka Labaka, and Eneko Agirre (2018). A Robust Self-learning Method for Fully Unsupervised Cross-lingual Mappings of Word Embeddings. In Proceedings of the 56thth Annual Meeting of the Association for Computational Linguistics, pp. 789-798.
Benjamin Marie and Atsushi Fujita (2018). Unsupervised Neural Machine Translation Initialized by Unsupervised Statistical Machine Translation. arXiv:1810.12703.
Shuo Ren, Zhirui Zhang, Shujie Liu, Ming Zhou, and Shuai Ma. Unsupervised Neural Machine Translation withSMT as Posterior Regularization. arXiv:1901.04112.
Kenneth Heafield, Ivan Pouzyrevsky, Jonathan H. Clark, and Philipp Koehn (2013). Scalable Modified Kneser-Ney Language Model Estimation. In Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), pp. 690-696.
Colin Cherry and George Foster (2012). Batch Tuning Strategies for Statistical Machine Translation. In Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT), pp. 427-436.
Rico Sennrich, Barry Haddow, and Alexandra Birch (2016). Neural Machine Translation of Rare Words with Subword Units. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 1715-1725.
Kishor Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002).BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 311-318.
Matt Post (2018). A Call for Clarity in Reporting BLEU Scores. In Proceedings of the 3rd Conference on Machine Translation (WMT), pp. 186-191.

発明が解決しようとする課題

0011

さまざまな言語間の機械翻訳システムを実現しようとすると、特定の言語間については大規模な対訳データが存在しているが、それ以外の言語間については十分に規模の大きな対訳データが存在していないことも多い。

0012

本発明は、十分に規模の大きな対訳データが存在していない場合であっても翻訳性能を高めることができる学習手法を提供することを目的としている。

課題を解決するための手段

0013

本発明のある局面に従えば、統計的機械翻訳モデルとニューラル機械翻訳モデルとを含む機械翻訳システムの学習方法が提供される。学習方法は、単言語データからフレーズテーブルを生成するステップと、フレーズテーブルおよび第1の言語モデルに基づいて、最初の統計的機械翻訳モデルを生成するステップと、生成された最初の統計的機械翻訳モデルを用いて第1の疑似対訳データを生成するステップと、生成された第1の疑似対訳データを用いて新たな世代の統計的機械翻訳モデルを生成するステップと、生成された新たな世代の統計的機械翻訳モデルを用いて第1の疑似対訳データを更新するとともに、当該更新された第1の疑似対訳データを用いてさらに新たな世代の統計的機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、所定回数の繰り返し後に生成された統計的機械翻訳モデルを用いて第2の疑似対訳データを生成するステップと、生成された第2の疑似対訳データを用いてニューラル機械翻訳モデルを生成するステップと、生成されたニューラル機械翻訳モデルを用いて第2の疑似対訳データを更新するとともに、当該更新された第2の疑似対訳データを用いて新たな世代のニューラル機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、所定回数の繰り返し後に生成されたニューラル機械翻訳モデルを用いて第3の疑似対訳データを生成するステップと、生成された第3の疑似対訳データから統計的機械翻訳モデルを生成するステップとを含む。

0014

学習方法は、第3の疑似対訳データを用いて統計的機械翻訳モデルを生成する処理を再実行するステップをさらに含むようにしてもよい。

0015

統計的機械翻訳モデルは、第1の言語から第2の言語への機械翻訳を行う第1の統計的機械翻訳モデルと、第2の言語から第1の言語への機械翻訳を行う第2の統計的機械翻訳モデルとを含んでいてもよい。ニューラル機械翻訳モデルは、第1の言語から第2の言語への機械翻訳を行う第1のニューラル機械翻訳モデルと、第2の言語から第1の言語への機械翻訳を行う第2のニューラル機械翻訳モデルとを含んでいてもよい。

0016

第2の統計的機械翻訳モデルを用いて生成された第2の疑似対訳データが第1のニューラル機械翻訳モデルの生成に用いられてもよい。第1の統計的機械翻訳モデルを用いて生成された第2の疑似対訳データが第2のニューラル機械翻訳モデルの生成に用いられてもよい。

0017

第2のニューラル機械翻訳モデルを用いて生成された第2の疑似対訳データが新たな世代の第1のニューラル機械翻訳モデルの生成に用いられてもよい。第1のニューラル機械翻訳モデルを用いて生成された第2の疑似対訳データが新たな世代の第2のニューラル機械翻訳モデルの生成に用いられてもよい。

0018

第1の疑似対訳データは、第1の統計的機械翻訳モデルを用いて生成された疑似対訳データと、第2の統計的機械翻訳モデルを用いて生成された疑似対訳データとを含むようにしてもよい。

0019

新たな世代の統計的機械翻訳モデルは、先に生成されていた統計的機械翻訳モデルとは独立して生成されてもよい。新たな世代のニューラル機械翻訳モデルは、先に生成されていたニューラル機械翻訳モデルとは独立して生成されてもよい。

0020

学習方法は、第2の疑似対訳データを更新するごとに生成される対訳データの規模を漸増させるステップを含んでいてもよい。

0021

学習方法は、第2の言語モデルを用いて第2の疑似対訳データのうちスコアが相対的に高い疑似対訳を抽出するステップをさらに含んでいてもよい。

0022

本発明の別の局面に従えば、上記の機械翻訳システムの学習方法をコンピュータに実行させるための学習プログラムが提供される。

0023

本発明の別の局面に従えば、機械翻訳システムに用いられる統計的機械翻訳モデルおよびニューラル機械翻訳モデルのうち少なくとも一方を含む学習済モデルが提供される。学習済モデルは所定の学習方法により生成される。所定の学習方法は、単言語データからフレーズテーブルを生成するステップと、フレーズテーブルおよび第1の言語モデルに基づいて、最初の統計的機械翻訳モデルを生成するステップと、生成された最初の統計的機械翻訳モデルを用いて第1の疑似対訳データを生成するステップと、生成された第1の疑似対訳データを用いて新たな世代の統計的機械翻訳モデルを生成するステップと、生成された新たな世代の統計的機械翻訳モデルを用いて第1の疑似対訳データを更新するとともに、当該更新された第1の疑似対訳データを用いてさらに新たな世代の統計的機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、所定回数の繰り返し後に生成された統計的機械翻訳モデルを用いて第2の疑似対訳データを生成するステップと、生成された第2の疑似対訳データを用いてニューラル機械翻訳モデルを生成するステップと、生成されたニューラル機械翻訳モデルを用いて第2の疑似対訳データを更新するとともに、当該更新された第2の疑似対訳データを用いて新たな世代のニューラル機械翻訳モデルを生成する処理を、所定回数に亘って繰り返すステップと、所定回数の繰り返し後に生成されたニューラル機械翻訳モデルを用いて第3の疑似対訳データを生成するステップと、生成された第3の疑似対訳データから統計的機械翻訳モデルを生成するステップとを含む。

発明の効果

0024

本発明によれば、十分に規模の大きな対訳データが存在していない場合であっても翻訳性能を高めることができる。

図面の簡単な説明

0025

本実施の形態に従う機械翻訳システムの概要を説明するための模式図である。
本実施の形態に従う機械翻訳システムのUSMTにおける学習の手続きを説明するための図である。
本実施の形態に従う機械翻訳システムのUSMTにおける学習の手続きを説明するための図である。
本実施の形態に従う機械翻訳システムのUNMTにおける学習の手続きを説明するための図である。
本実施の形態に従う機械翻訳システムの共訓練の概要を説明するための模式図である。
本実施の形態に従う学習処理および推論処理を実現するハードウェア構成の一例を示す模式図である。
本実施の形態に従う機械翻訳システムにおける学習処理の処理手順を示すフローチャートである。
本実施の形態に従う機械翻訳システムにおける学習処理の処理手順を示すフローチャートである。
本実施の形態に従う機械翻訳システムの翻訳性能の評価結果の一例を示す図である。

実施例

0026

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

0027

[A.機械翻訳システムの概要]
図1は、本実施の形態に従う機械翻訳システム1の概要を説明するための模式図である。本実施の形態に従う機械翻訳システム1は、言語L1と言語L2との間の双方向の翻訳タスクを実行可能になっている。

0028

図1を参照して、機械翻訳システム1は、教師なし統計的機械翻訳(USMT)を実現する機械翻訳システムであるUSMT100と、教師なしニューラル機械翻訳(UNMT)を実現する機械翻訳システムであるUNMT200とを含む。すなわち、機械翻訳システム1は、学習済モデルである統計的機械翻訳モデルとニューラル機械翻訳モデルとを有している。以下、機械翻訳システム1を構成する学習済モデルの学習方法を主として説明する。

0029

図1において、USMT100は、USMTに係る処理を実現するための機械翻訳システムを示し、UNMT200は、UNMTに係る処理を実現するための機械翻訳システムを示す。USMT100およびUNMT200は、任意のコンピューティングリソースによって実現されてもよい。

0030

より具体的には、USMT100は、言語L1から言語L2への機械翻訳を行うモデルであるUSMT100−1と、言語L2から言語L1への機械翻訳を行うモデルであるUSMT100−2とを含む。同様に、UNMT200は、言語L1から言語L2への機械翻訳を行うモデルであるUNMT200−1と、言語L2から言語L1への機械翻訳を行うモデルであるUNMT200−2とを含む。

0031

以下の説明において、特段の説明がない限り、USMT100およびUNMT200は、機械翻訳を行うためのモデルを含むシステムを意味し、USMT100−1,100−2およびUNMT200−1,200−2は、機械翻訳を行うためのモデルを意味する。

0032

このように、機械翻訳システム1は、4種類の教師なし機械翻訳システム(言語L1から言語L2と言語L2から言語L1との双方向について、教師なし統計的機械翻訳(USMT)システムおよび教師なしニューラル機械翻訳(UNMT)システム)を有している。機械翻訳システム1では、これらの教師なし機械翻訳システムを用いて、他方を強化する共訓練を実行することで、十分に規模の大きな対訳データが存在していない場合であっても、翻訳性能を高める。

0033

(a1:USMT100)
まず、機械翻訳システム1に用いられるUSMT100の学習の手続きおよび特徴について説明する。従来手法に従うUSMT(例えば、非特許文献11および13など参照)と同様に、本実施の形態に従う機械翻訳システム1に用いられるUSMT100においては、起点言語の単言語データと目標言語の単言語データとから、対訳関係にある語および句の対を抽出してフレーズテーブルを構築する。

0034

機械翻訳システム1において、USMT100は、最初のUSMTとして用いられる。
図1に示すように、単言語データ150は、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2を含む。言語L1および言語L2のそれぞれが起点言語および目標言語として設定され得る。

0035

(a2.UNMT200)
次に、本実施の形態に従う機械翻訳システム1に用いられるUNMT200の学習の手続きおよび特徴について説明する。従来手法に従うUNMT(例えば、非特許文献9、13および14など参照)と同様に、本実施の形態に従う機械翻訳システム1に用いられるUNMT200は、USMT100によって生成された疑似対訳データ202と公知のNMTの技術とを用いて構築される。このようなアプローチを採用することにより、UNMT200を最先端のNMTの技術を用いて実現できる。

0036

(a3.USMT100とUNMT200との共訓練)
本実施の形態に従う機械翻訳システム1は、UNMT200によって生成された疑似対訳データ122を用いたUSMT100の訓練と、USMT100によって生成された疑似対訳データ202を用いたUNMT200の訓練とを交互に実行する。

0037

[B.学習の手続き]
次に、本実施の形態に従う機械翻訳システム1における学習の手続きについて説明する。

0038

(b1:USMT100)
図2および図3は、本実施の形態に従う機械翻訳システム1のUSMT100における学習の手続きを説明するための図である。図2には、言語L1から言語L2への翻訳を行うUSMT100−1における学習の手続きが示され、図3には、言語L2から言語L1への翻訳を行うUSMT100−2における学習の手続きが示される。

0039

図2および図3に示されるように、本実施の形態に従う機械翻訳システム1においては、洗練が繰り返されるごとに、USMT100−1およびUSMT100−2が新たに生成される。

0040

図2を参照して、まず、言語L1から言語L2へのフレーズテーブル102−1が生成される(ステップS11)。

0041

より具体的には、フレーズテーブル102−1は、二言語単語分散表現および語句のセットから生成される。二言語単語分散表現は、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2を統計処理して生成される。語句のセットは、単語およびフレーズからなるものであり、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2からそれぞれ抽出される。二言語の語句のセットの要素の組み合わせの各々を二言語単語分散表現に基づいて評価し、スコアの高いものが選択されて、フレーズテーブル102−1として出力される。なお、フレーズテーブル102−1の生成についてのさらに詳細な内容については、非特許文献11を参照されたい。

0042

次に、フレーズテーブル102−1および言語L2の任意の言語モデル120−2に基づいて、最初のUSMT100−1が生成される(ステップS12)。

0043

続いて、疑似対訳データ104−1が生成される(ステップS13)。疑似対訳データ104−1には、言語L1についての単言語データ150−1をUSMT100−1に入力することで生成される疑似対訳データ、および、言語L2についての単言語データ150−2をUSMT100−2に入力することで生成される疑似対訳データの両方が組み入れられる。USMT100−1から生成される疑似対訳データは、現実的な言語L1の語句をUSMT100−1に入力して出力される言語L2の語句を含む。USMT100−2から生成される疑似対訳データは、現実的な言語L2の語句をUSMT100−2に入力して出力される言語L1の語句を含む。

0044

なお、USMT100−1およびUSMT100−2は並列的に学習されるので、USMT100−2は、USMT100−1と並列的に順次洗練される。

0045

続いて、生成された疑似対訳データ104−1から、フレーズテーブル106−1が生成される(ステップS14)とともに、語句の語彙化並び替えモデル(lexicalized reordering model)110−1が生成される(ステップS15)。

0046

最終的に、フレーズテーブル106−1、語句の語彙化並び替えモデル110−1および言語L2の任意の言語モデル120−2に基づいて、次世代のUSMT100−1が生成される(ステップS16)。

0047

上述したステップS11〜S16の処理によって、最初のUSMT100−1の生成および次世代のUSMT100−1の生成が完了する。

0048

以下、ステップS13〜S16の処理が所定回数に亘って繰り返される(ステップS17)。

0049

なお、フレーズテーブル106−1は、スコアに基づいてプルーニングされてもよい。同様に、語句の語彙化並び替えモデル110−1についても、スコアに基づいてプルーニングされてもよい。

0050

言語L2から言語L1への翻訳を行うUSMT100−2についての同様の学習の手続きが実行される。

0051

図3を参照して、まず、言語L2から言語L1へのフレーズテーブル102−2が生成される(ステップS21)。フレーズテーブル102−2は、二言語単語分散表現および語句のセットから生成される。二言語単語分散表現は、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2を統計処理して生成される。語句のセットは、単語およびフレーズからなるものであり、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2からそれぞれ抽出される。二言語の語句のセットの要素の組み合わせの各々を二言語単語分散表現に基づいて評価し、スコアの高いものが選択されて、フレーズテーブル102−2として出力される。

0052

次に、フレーズテーブル102−2および言語L1の任意の言語モデル120−1に基づいて、最初のUSMT100−2が生成される(ステップS22)。

0053

続いて、疑似対訳データ104−2が生成される(ステップS23)。疑似対訳データ104−2には、言語L2についての単言語データ150−2をUSMT100−2に入力することで生成される疑似対訳データ、および、言語L1についての単言語データ150−1をUSMT100−1に入力することで生成される疑似対訳データの両方が組み入れられる。USMT100−2から生成される疑似対訳データは、現実的な言語L2の語句をUSMT100−2に入力して出力される言語L1の語句を含む。USMT100−1から生成される疑似対訳データは、現実的な言語L1の語句をUSMT100−1に入力して出力される言語L2の語句を含む。上述したように、USMT100−1およびUSMT100−2は並列的に学習されるので、USMT100−1についてもUSMT100−2と並列的に順次洗練される。

0054

続いて、生成された疑似対訳データ104−2から、フレーズテーブル106−2が生成される(ステップS24)とともに、語句の語彙化並び替えモデル(lexicalized reordering model)110−2が生成される(ステップS25)。

0055

最終的に、フレーズテーブル106−2、語句の語彙化並び替えモデル110−2および言語L1の任意の言語モデル120−1に基づいて、次世代のUSMT100−2が生成される(ステップS26)。

0056

上述したステップS21〜S26の処理によって、最初のUSMT100−2の生成および次世代のUSMT100−2の生成が完了する。

0057

以下、ステップS23〜S26の処理が所定回数に亘って繰り返される(ステップS27)。

0058

なお、フレーズテーブル106−2は、スコアに基づいてプルーニングされてもよい。同様に、語句の語彙化並び替えモデル110−2についても、スコアに基づいてプルーニングされてもよい。

0059

本実施の形態に従う機械翻訳システム1におけるUSMT100においては、洗練が繰り返されるごとに、機械翻訳を行うモデルであるUSMT100−1およびUSMT100−2が新たに生成される。直前のモデルのパラメタを利用して、次世代のUSMT100−1およびUSMT100−2を規定するパラメタを最適化してもよいが、本実施の形態に従う学習方法においては、モデルを規定するパラメタを一旦リセットする。その上で、疑似対訳データから生成したフレーズテーブルおよび語句の語彙化並び替えモデルを用いて、次世代のUSMT100−1およびUSMT100−2を生成する。このような世代間でパラメタの情報を引き継がないことで、過学習やバイアスの影響を抑制できる。

0060

上述したように、本実施の形態においては、言語L1から言語L2への機械翻訳により得られる疑似対訳データ、および、言語L2から言語L1への機械翻訳により得られる疑似対訳データの両方を用いる(すなわち、両方向の疑似対訳を用いる)。このような手法を採用することで、同量の疑似対訳データを取得しようとする場合、従来手法に比較して翻訳に要するコストを約半分にできる。

0061

また、USMTに対して任意の語句や文を入力して疑似対訳データを生成できるので、言語L1から言語L2への方向、および、言語L2から言語L1への方向の両方において、自然な語句を含む疑似対訳データを生成できる。また、USMTに対して文を入力して疑似対訳データを生成することで、文単位で翻訳した場合に、自然な語句が含まれるようになる。

0062

さらに、USMT100−1およびUSMT100−2に対する洗練を並列的に実行できる。

0063

(b2.UNMT200)
図4は、本実施の形態に従う機械翻訳システム1のUNMT200における学習の手続きを説明するための図である。図4に示すように、UNMT200の学習には、USMT100が生成する疑似対訳データが用いられる。より具体的には、言語L1から言語L2への機械翻訳を行うUNMT200−1の学習には、言語L2から言語L1への機械翻訳を行うUSMT100−2が生成する疑似対訳データ202−1が用いられる。また、言語L2から言語L1への機械翻訳を行うUNMT200−2の学習には、言語L1から言語L2への機械翻訳を行うUSMT100−1が生成する疑似対訳データ202−2が用いられる。

0064

図4を参照して、UNMT200−1の学習に関して、USMT100−2に対して言語L2の任意の語句や文を入力して、疑似対訳データ202−1を生成する(ステップS31)。疑似対訳データ202−1は、言語L2から言語L1への方向の疑似対訳のみを含むことになる。

0065

続いて、言語L1の任意の言語モデル204−1を参照して、疑似対訳データ202−1のうち、スコアの高い疑似対訳を抽出する(ステップS32)。すなわち、疑似対訳データ202−1は、言語L2から言語L1への方向の疑似対訳のみを含むので、文法的におかしな訳文を含み得るが、言語L1の言語モデル204−1を参照してフィルタリングすることで、このような低品質な疑似対訳を排除できる。

0066

疑似対訳データ202−1からスコアの高い疑似対訳が抽出された結果である疑似対訳データ206−1を用いた学習により、UNMT200−1を生成する(ステップS33)。

0067

同様に、UNMT200−2の学習に関して、USMT100−1に対して言語L1の任意の語句を入力して、疑似対訳データ202−2を生成する(ステップS34)。疑似対訳データ202−2は、言語L1から言語L2への方向の疑似対訳のみを含むことになる。

0068

続いて、言語L2の任意の言語モデル204−2を参照して、疑似対訳データ202−2のうち、スコアの高い疑似対訳を抽出する(ステップS35)。すなわち、疑似対訳データ202−2は、言語L1から言語L2への方向の疑似対訳のみを含むので、文法的におかしな訳文を含み得るが、言語L2の言語モデル204−2を参照してフィルタリングすることで、このような低品質な疑似対訳を排除できる。

0069

疑似対訳データ202−2からスコアの高い疑似対訳が抽出された結果である疑似対訳データ206−2を用いた学習により、UNMT200−2を生成する(ステップS36)。

0070

以下、ステップS32およびS33ならびにステップS35およびS36の処理が所定回数に亘って繰り返される(ステップS37)。この繰り返し処理(学習)において、ステップS33において生成されたUNMT200−1に対して、言語L1についての単言語データ150−1を入力することで疑似対訳データ202−2を生成する。そして、生成された疑似対訳データ202−2を用いて、新たな世代のUNMT200−2が生成される。同様に、ステップS36において生成されたUNMT200−2に対して、言語L2についての単言語データ150−2を入力することで疑似対訳データ202−1を生成する。そして、生成された疑似対訳データ202−1を用いて、新たな世代のUNMT200−1が生成される。

0071

このように、生成されたUNMT200−1を用いて、次世代のUNMT200−2が生成されるとともに、生成されたUNMT200−2を用いて、次世代のUNMT200−1が生成される。

0072

ここで、UNMT200−1およびUNMT200−2に入力する単言語データ150の規模を漸増させて、疑似対訳データ202−1および疑似対訳データ202−2の規模を漸増させるようにしてもよい。すなわち、疑似対訳データ202−1および疑似対訳データ202−2を更新するごとに生成される対訳データの規模を漸増させるようにしてもよい。

0073

上述したように、本実施の形態においては、USMT100−2またはUNMT200−2により生成された疑似対訳データ202−1、および、USMT100−1またはUNMT200−1により生成された疑似対訳データ202−2に対して、言語モデル204−1,204−2を用いて、各文の品質を推定し、最も品質のよいα%のみを用いるようにフィルタリングする。任意のフィルタリング処理を採用することで、生成されるUNMT200の翻訳性能を高めることができる。

0074

また、UNMT200−1およびUNMT200−2に入力する単言語データ150の規模を漸増させたとしても、上述のような疑似対訳データに対するフィルタリングを順次適用することで、翻訳性能を向上させることができるとともに、処理負荷の増大を防止できる。

0075

本実施の形態に従う機械翻訳システム1におけるUNMT200においては、洗練が繰り返されるごとに、機械翻訳を行うモデルであるUNMT200−1およびUNMT200−2が新たに生成される。直前のモデルのパラメタを利用して、次世代のUNMT200−1およびUNMT200−1を規定するパラメタを最適化してもよいが、本実施の形態に従う学習方法においては、モデルを規定するパラメタを一旦リセットする。その上で、疑似対訳データを用いて、次世代のUNMT200−1およびUNMT200−2を生成する。このように世代間でパラメタの情報を引き継がないことで、過学習やバイアスの影響を抑制できる。

0076

(b3.USMT100とUNMT200との共訓練)
本実施の形態に従う機械翻訳システム1においては、互いに性質の異なるUSMTおよびUSMTのモデルをそれぞれ独立に学習した上で、他方のモデルへの教示に用いる(共訓練)。

0077

図5は、本実施の形態に従う機械翻訳システム1の共訓練の概要を説明するための模式図である。図5には、典型例として、言語L1から言語L2への機械翻訳を行うモデルと、言語L2から言語L1への方向への機械翻訳を行うモデルとを並列的に学習する例を示す。

0078

まず、単言語データ150を利用して最初のUSMT100−1が生成され、最初のUSMT100−1に言語L1についての単言語データ150−1を入力することで疑似対訳データが生成される(ステップS1)。並列的に、単言語データ150を利用して最初のUSMT100−2が生成され、最初のUSMT100−2に言語L2についての単言語データ150−2を入力することで疑似対訳データが生成される(ステップS2)。

0079

そして、ステップ1において生成された言語L1から言語L2への疑似対訳データおよびステップS2において生成された言語L2から言語L1への疑似対訳データを用いて、言語L1から言語L2への機械翻訳を行うUSMT100−1の学習処理(ステップS3)、および、言語L2から言語L1への機械翻訳を行うUSMT100−2の学習処理(ステップS4)が並列的に実行される。ステップS3およびS4においては、所定回数に亘って、USMT100−1およびUSMT100−2の洗練が繰り返される。

0080

一連の洗練が完了すると、USMT100−1に言語L1についての単言語データ150−1を入力することで疑似対訳データが生成され(ステップS5)、USMT100−2に言語L2についての単言語データ150−2を入力することで疑似対訳データが生成される(ステップS6)。

0081

そして、ステップS6において生成された疑似対訳データを用いて、言語L1から言語L2への機械翻訳を行うUNMT200−1の学習処理(ステップS7)が実行される。並列的に、ステップS5において生成された疑似対訳データを用いて、言語L2から言語L1への機械翻訳を行うUNMT200−2の学習処理(ステップS8)が実行される。

0082

一連の洗練が完了すると、言語L1についての単言語データ150−1をUNMT200−1に入力することで疑似対訳データが生成され(ステップS9)、言語L2についての単言語データ150−2をUNMT200−2に入力することで疑似対訳データが生成される(ステップS10)。

0083

ステップS9において生成された言語L1から言語L2への疑似対訳データおよびステップS10において生成された言語L2から言語L1への疑似対訳データに対してステップS3の処理が再度実行され、言語L1から言語L2への機械翻訳を行うUSMT100−1が生成される。並列的に、ステップS9において生成された言語L1から言語L2への疑似対訳データおよびステップS10において生成された言語L2から言語L1への疑似対訳データに対してステップS4の処理が再度実行され、言語L2から言語L1への機械翻訳を行うUSMT100−2が生成される。

0084

以下同様にして、ステップS3〜S10の処理が所定回数に亘って繰り返される。このステップS3〜S10の繰り返しが共訓練に相当する。

0085

本実施の形態に従う機械翻訳システム1においては、性質の異なるUSMT100−1およびUSMT100−2と、UNMT200−1およびUNMT200−2とをそれぞれ独立に最適化した上で、他方のモデルへの教示に用いる。これにより、モデルの独立性担保して過学習を回避できる。その結果、疑似対訳データの品質を高めつつ、より高精度なモデルを反復的に得ることができ、USMT単独またはUNMT単独の機械翻訳システムに比較して、高品質な機械翻訳を実現できる。

0086

(b4.機械翻訳タスクの実行)
本実施の形態に従う機械翻訳システム1においては、学習によりUSMTのモデルおよびUNMTのモデルをそれぞれ生成できる。機械翻訳タスクの実行(すなわち、推論処理)においては、USMTのモデルおよびUNMTのモデルのいずれか一方のみを用いるようにしてもよいし、両方のモデルからの推論結果を公知の方法により統合して、推論結果として出力するようにしてもよい。

0087

[C.ハードウェア構成]
次に、本実施の形態に従う学習処理および推論処理を実現するためのハードウェア構成の一例について説明する。

0088

図6は、本実施の形態に従う学習処理および推論処理を実現するハードウェア構成の一例を示す模式図である。本実施の形態に従う学習処理および推論処理は、典型的には、コンピュータの一例である情報処理装置500を用いて実現される。

0089

図6を参照して、情報処理装置500は、主要なハードウェアコンポーネントとして、CPU(central processing unit)502と、GPU(graphics processing unit)504と、主メモリ506と、ディスプレイ508と、ネットワークインターフェイス(I/F:interface)510と、二次記憶装置512と、入力デバイス522と、光学ドライブ524とを含む。これらのコンポーネントは、内部バス528を介して互いに接続される。

0090

CPU502および/またはGPU504は、後述するような各種プログラムを実行することで、本実施の形態に従う学習処理および推論処理を実現するプロセッサである。CPU502およびGPU504は、複数個配置されてもよいし、複数のコアを有していてもよい。

0091

主メモリ506は、プロセッサ(CPU502および/またはGPU504)が処理を実行するにあたって、プログラムコードやワークデータなどを一時的に格納(あるいは、キャッシュ)する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。

0092

ディスプレイ508は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。

0093

ネットワークインターフェイス510は、インターネット上またはイントラネット上の任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス510としては、例えば、イーサネット登録商標)、無線LAN(local area network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。

0094

入力デバイス522は、ユーザからの指示や操作などを受け付けデバイスであり、例えば、キーボードマウスタッチパネルペンなどで構成される。また、入力デバイス522は、学習およびデコーディングに必要な音声信号収集するための集音デバイスを含んでいてもよいし、集音デバイスにより収集された音声信号の入力を受け付けるためのインターフェイスを含んでいてもよい。

0095

光学ドライブ524は、CD−ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク526に格納されている情報を読出して、内部バス528を介して他のコンポーネントへ出力する。光学ディスク526は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ524が光学ディスク526からプログラムを読み出して、二次記憶装置512などにインストールすることで、コンピュータが情報処理装置500として機能するようになる。したがって、本発明の主題は、二次記憶装置512などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク526などの記録媒体でもあり得る。

0096

図6には、非一過的な記録媒体の一例として、光学ディスク526などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。

0097

二次記憶装置512は、コンピュータを情報処理装置500として機能させるために必要なプログラムおよびデータを格納する。例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。

0098

より具体的には、二次記憶装置512は、図示しないOS(operating system)の他、典型的には、学習処理を実現するための学習プログラム514と、推論処理を実現するための推論プログラム516と、USMTおよびUNMTのモデルを規定するパラメタ518と、単言語データ520とを格納している。

0099

学習プログラム514は、プロセッサ(CPU502および/またはGPU504)によって実行されることで、図7および図8に示すような機械翻訳システム1の学習処理を実行させる。また、推論プログラム516は、プロセッサ(CPU502および/またはGPU504)によって実行されることで、翻訳タスクを実現する。

0100

プロセッサ(CPU502および/またはGPU504)がプログラムを実行する際に必要となるライブラリ機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールにより代替してもよい。この場合には、プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、目的の処理を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。

0101

また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。

0102

図6には、単一のコンピュータを用いて情報処理装置500を構成する例を示すが、これに限らず、コンピュータネットワークを介して接続された複数のコンピュータが明示的または黙示的連携して、情報処理装置500および情報処理装置500を含むシステムを実現するようにしてもよい。

0103

プロセッサ(CPU502および/またはGPU504)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。

0104

業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う情報処理装置500を実現できるであろう。

0105

説明の便宜上、同一の情報処理装置500を用いて、学習処理および推論処理を実行する例を示したが、学習処理および推論処理を異なるハードウェアを用いて実現してもよい。

0106

[D.処理手順]
図7および図8は、本実施の形態に従う機械翻訳システム1における学習処理の処理手順を示すフローチャートである。図7および図8に示される機械翻訳システム1の学習方法に含まれる各ステップは、典型的には、情報処理装置500のプロセッサ(CPU502および/またはGPU504)が学習プログラム514(図6参照)を実行することで実現される。

0107

図7および図8を参照して、情報処理装置500は、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2に基づいて、言語L1から言語L2へのフレーズテーブル102−1を生成する(ステップS101)。次に、情報処理装置500は、フレーズテーブル102−1および言語L2の言語モデル120−2に基づいて、最初のUSMT100−1を生成する(ステップS102)。そして、情報処理装置500は、言語L1についての単言語データ150−1をUSMT100−1に入力することで疑似対訳データを生成する(ステップS103)。

0108

並列的に、情報処理装置500は、言語L1についての単言語データ150−1および言語L2についての単言語データ150−2に基づいて、言語L2から言語L1へのフレーズテーブル102−2を生成する(ステップS201)。次に、情報処理装置500は、フレーズテーブル102−2および言語L1の言語モデル120−1に基づいて、最初のUSMT100−2を生成する(ステップS202)。そして、情報処理装置500は、言語L2についての単言語データ150−2をUSMT100−2に入力することで疑似対訳データを生成する(ステップS203)。

0109

ステップS103およびステップS203の実行後、互いに処理が同期される。そして、情報処理装置500は、新たな世代のUSMT100−1およびUSMT100−2を生成する。

0110

情報処理装置500は、言語L1から言語L2への疑似対訳データ、および、言語L2から言語L1への疑似対訳データに基づいて、言語L1から言語L2へのフレーズテーブル106−1を生成する(ステップS301)。なお、UNMTの洗練後にUSMTを再度学習し始める場合には、UNMTにより生成された疑似対訳データ122が用いられる。

0111

また、情報処理装置500は、言語L1から言語L2への疑似対訳データ、および、言語L2から言語L1への疑似対訳データに基づいて、言語L1から言語L2への語句の語彙化並び替えモデル110−1を生成する(ステップS302)。

0112

さらに、情報処理装置500は、言語L1から言語L2へのフレーズテーブル106−1、言語L1から言語L2への語句の語彙化並び替えモデル110−1、および言語L2の言語モデル120−2に基づいて、次世代のUSMT100−1を生成する(ステップS303)。このとき、生成される新たな世代のUSMT100−1は、先に生成されていたUSMT100−1とは独立して(すなわち、一旦パラメタをリセットした上で)生成されるようにしてもよい。

0113

並列的に、情報処理装置500は、言語L2から言語L1への疑似対訳データ、および、言語L1から言語L2への疑似対訳データに基づいて、言語L2から言語L1へのフレーズテーブル106−2を生成する(ステップS401)。なお、UNMTの洗練後にUSMTを再度学習し始める場合には、UNMTにより生成された疑似対訳データ122が用いられる。

0114

また、情報処理装置500は、言語L2から言語L1への疑似対訳データ、および、言語L1から言語L2への疑似対訳データに基づいて、言語L2から言語L1への語句の語彙化並び替えモデル110−2を生成する(ステップS402)。

0115

さらに、情報処理装置500は、言語L2から言語L1へのフレーズテーブル106−2、言語L2から言語L1への語句の語彙化並び替えモデル110−2、および言語L1の言語モデル120−1に基づいて、次世代のUSMT100−2を生成する(ステップS403)。このとき、生成される新たな世代のUSMT100−2は、先に生成されていたUSMT100−2とは独立して(すなわち、一旦パラメタをリセットした上で)生成されるようにしてもよい。

0116

ステップS303およびステップS403の実行後、互いに処理が同期される。そして、情報処理装置500は、次世代のUSMT100−1およびUSMT100−2の生成回数が予め指定された回数に到達しているか否かを判断する(ステップS304)。

0117

次世代のUSMT100−1およびUSMT100−2の生成回数が予め指定された回数に到達していなければ(ステップS304においてNO)、情報処理装置500は、言語L1についての単言語データ150−1をUSMT100−1に入力することで言語L1から言語L2への疑似対訳データを生成する(ステップS305)。並列的に、言語L2についての単言語データ150−2をUSMT100−2に入力することで言語L2から言語L1への疑似対訳データを生成する(ステップS405)。そして、ステップS301以下の処理およびステップS401以下の処理を繰り返す。すなわち、情報処理装置500は、生成された新たな世代のUSMT100を用いて疑似対訳データを更新するとともに、当該更新された疑似対訳データを用いてさらに新たな世代のUSMT100を生成する処理を、所定回数に亘って繰り返す。

0118

一方、次世代のUSMT100−1およびUSMT100−2の生成回数が予め指定された回数に到達していれば(ステップS304においてYES)、ステップS501以下の処理およびステップS601以下の処理が実行される。

0119

ステップS501において、情報処理装置500は、言語L1についての単言語データ150−1をUSMT100−1に入力することで言語L1から言語L2への疑似対訳データを生成する(ステップS501)。並列的に、ステップS601において、情報処理装置500は、言語L2についての単言語データ150−2をUSMT100−2に入力することで言語L2から言語L1への疑似対訳データを生成する(ステップS601)。

0120

ステップS501およびステップS601の実行後、互いに処理が同期される。そして、ステップS701以下の処理およびステップS801以下の処理が実行される。

0121

ステップS701において、情報処理装置500は、言語L2から言語L1への疑似対訳データ202−1のうちスコアの高い疑似対訳を抽出して、言語L2から言語L1への疑似対訳データ206−1を生成する(ステップS701)。このように、情報処理装置500は、言語L1の任意の言語モデル204−1を用いて疑似対訳データ202−1のうちスコアが相対的に高い疑似対訳を抽出するようにしてもよい。

0122

続いて、情報処理装置500は、生成された言語L2から言語L1への疑似対訳データ206−1を用いた学習により、UNMT200−1を生成する(ステップS702)。このとき、生成される新たな世代のUNMT200−1は、先に生成されていたUNMT200−1とは独立して(すなわち、一旦パラメタをリセットした上で)生成されるようにしてもよい。

0123

並列的に、ステップS801において、情報処理装置500は、言語L1から言語L2への疑似対訳データ202−2のうちスコアの高い疑似対訳を抽出して、言語L1から言語L2への疑似対訳データ206−2を生成する(ステップS801)。このように、情報処理装置500は、言語L2の任意の言語モデル204−2を用いて疑似対訳データ202−2のうちスコアが相対的に高い疑似対訳を抽出するようにしてもよい。

0124

続いて、情報処理装置500は、生成された言語L1から言語L2への疑似対訳データ206−2を用いた学習により、UNMT200−2を生成する(ステップS802)。このとき、生成される新たな世代のUNMT200−2は、先に生成されていたUNMT200−2とは独立して(すなわち、一旦パラメタをリセットした上で)生成されるようにしてもよい。

0125

ステップS702およびステップS802の実行後、互いに処理が同期される。そして、情報処理装置500は、UNMT200−1およびUNMT200−2の生成回数が予め指定された回数に到達しているか否かを判断する(ステップS703)。

0126

UNMT200−1およびUNMT200−2の生成回数が予め指定された回数に到達していなければ(ステップS703においてNO)、情報処理装置500は、言語L1についての単言語データ150−1をUNMT200−1に入力することで言語L1から言語L2への疑似対訳データ202−1を生成する(ステップS704)とともに、言語L2についての単言語データ150−2をUNMT200−2に入力することで言語L2から言語L1への疑似対訳データ202−2を生成する(ステップS804)。なお、ステップS704およびステップS708において、既に生成済みの疑似対訳データに対して、新たに生成した疑似対訳データを追加してもよいし、生成済みの疑似対訳データを破棄して新たに生成した疑似対訳データのみを残すようにしてもよい。

0127

ステップS704およびステップS804の実行後、互いに処理が同期される。そして、ステップS701以下の処理およびステップS801以下の処理が繰り返される。

0128

一方、UNMT200−1およびUNMT200−2の生成回数が予め指定された回数に到達していれば(ステップS703においてYES)、情報処理装置500は、共訓練の実行回数が予め指定された回数に到達しているか否かを判断する(ステップS1101)。

0129

共訓練の実行回数が予め指定された回数に到達していなければ(ステップS1101においてNO)、情報処理装置500は、言語L1についての単言語データ150−1をUNMT200−1に入力することで言語L1から言語L2への疑似対訳データ202−1を生成する(ステップS901)とともに、言語L2についての単言語データ150−2をUNMT200−2に入力することで言語L2から言語L1への疑似対訳データ202−2を生成する(ステップS1001)。

0130

ステップS901およびステップS1001の実行後、互いに処理が同期される。そして、ステップS301以下の処理およびステップS401以下の処理が繰り返される。

0131

共訓練の実行回数が予め指定された回数に到達していれば(ステップS1101においてYES)、情報処理装置500は、その時点で生成されている、USMT100−1、USMT100−2、UNMT200−1、UNMT200−2を学習結果として出力する(ステップS1102)。そして、処理は終了する。

0132

[E.翻訳性能の評価]
上述したように、本実施の形態に従う機械翻訳システムは、単言語データが存在する任意の2言語間に対して適用可能である。以下では、のべ6言語対(12言語方向)の翻訳タスクにおける翻訳性能の評価結果の一例を示す。以下の性能評価では、教師ありSMTのフレームワークとしてMoses(取得先:https://github.com/moses-smt/mosesdecoder)を用いるとともに、教師ありNMTのフレームワークとしてMarian(取得先:https://marian-nmt.github.io)を用いた。

0133

(e1:タスクならびに性能評価用データおよびパラメタ調整用データ)
以下に、性能評価の対象としたタスク1〜6の内容、ならびに、各タスクで用いた性能評価用データ(単に「評価」と記す)およびパラメタ調整用データ(単に「調整」と記す)を示す。各タスクにおいては、Moses内のツール(日本語以外)およびMeCab(日本語のみ、取得先:http://taku910.github.io/mecab/)による分かち書きを適用した。

0134

(1)タスク1:英語(En)とドイツ語(De)との間のニュース翻訳タスク(双方向)
・評価:WMT17 Newstest2016(2999文対)
・調整:WMT17 Newstest2015(2169文対)
(2)タスク2:英語(En)とフランス語(Fr)との間のニュース翻訳タスク(双方向)
・評価:WMT15 Newstest2014(3003文対)
・調整:WMT15 Newstest2013(3000文対)
(3)タスク3:英語(En)と日本語(Ja)との間の特許翻訳タスク(双方向)
・評価:NTCIR-10 PatentMT2 test(2300文対)
・調整:NTCIR-10 PatentMT2 dev(2000文対)
(4)タスク4:英語(En)とインドネシア語(Id)との間のニュース翻訳タスク(双方向)
・評価:Asian Language Treebank test(1018文対)
・調整:Asian Language Treebank dev(1000文対)
(5)タスク5:英語(En)と日本語(Ja)との間のニュース翻訳タスク(双方向)
・評価:Asian Language Treebank test(1018文対)
・調整:Asian Language Treebank dev(1000文対)
(6)タスク6:インドネシア語(Id)と日本語(Ja)との間のニュース翻訳タスク(双方向)
・評価:Asian Language Treebank test(1018文対)
・調整:Asian Language Treebank dev(1000文対)
各タスクおよびデータは、以下のサイトから取得可能である。

0135

・タスク1:[WMT17]http://statmt.org/wmt17/translation-task.html
・タスク2:[WMT15]http://statmt.org/wmt15/translation-task.html
・タスク3:[NTCIR]http://ntcir.nii.ac.jp/PatentMT-2/
・タスク4,5,6:[ALT]http://www2.nict.go.jp/astrec-att/member/mutiyama/ALT/
(e2:単言語データ)
以下に、各タスクにおいて用いた単言語データを示す。各タスクにおいては、Moses内のツール(日本語以外)およびMeCab(日本語のみ)による分かち書きを適用した。

0136

(1)タスク1:英語(En)とドイツ語(De)との間のニュース翻訳タスク(双方向)
・ニュース分野の英語単言語データ:News Crawl 2007-2017(約53億語)
・ニュース分野のドイツ語単言語データ:News Crawl 2007-2017(約43億語)
(2)タスク2:英語(En)とフランス語(Fr)との間のニュース翻訳タスク(双方向)
・ニュース分野の英語単言語データ:News Crawl 2007-2017(約53億語)
・ニュース分野のフランス語単言語データ:News Crawl 2007-2014(約9億語)
(3)タスク3:英語(En)と日本語(Ja)との間の特許翻訳タスク(双方向)
・特許分野の英語単言語データ:NTCIR 1993-2005から1億文をサンプル(約30億語)
・特許分野の日本語単言語データ:NTCIR 1993-2005から1億文をサンプル(約39億語)
(4)タスク4:英語(En)とインドネシア語(Id)との間のニュース翻訳タスク(双方向)
・Webから収集された英語単言語データ:Common Crawl(約18億語)
・Webから収集されたインドネシア語単言語データ:Common Crawl(約22億語)
(5)タスク5:英語(En)と日本語(Ja)との間のニュース翻訳タスク(双方向)
・Webから収集された英語単言語データ:Common Crawl(約18億語)
・Webから収集された日本語単言語データ:Common Crawl(約19億語)
(6)タスク6:インドネシア語(Id)と日本語(Ja)との間のニュース翻訳タスク(双方向)
・Webから収集された日本語単言語データ:Common Crawl(約19億語)
・Webから収集されたインドネシア語単言語データ:Common Crawl(約22億語)
各タスクで用いたデータは、以下のサイトから取得可能である。

0137

・タスク1,2(英語単言語データ):[WMT18]http://statmt.org/wmt18/translation-task.html
・タスク2(フランス語単言語データ):[WMT15]http://statmt.org/wmt15/translation-task.html
・タスク3:[NTCIR]http://ntcir.nii.ac.jp/PatentMT-2/
・タスク4,5,6:[Common Crawl]http://commoncrawl.org/
(e3:ハイパーパラメタ)
以下に示すすべての評価において、モデルのハイパーパラメタは次のように設定した。

0138

(1)最初のUSMT
(1−1)単言語分散表現
学習ツール:fasttext(取得先:https://fasttext.cc/)
・分散表現の次元数:512
・語彙の制限:分散表現の学習後頻度の上位30万語のみを保持
(1−2)二言語分散表現
・学習ツール:vecmap(取得先:https://github.com/artetxem/vecmap)
・学習のタイプ:教師なし学習
(1−3)語句の抽出
・ツール:word2phrase(取得先:https://code.google.com/archive/p/word2vec)
・句の最大長:6語
・語句の制限:上記の30万語のみで構成される語句の中で頻度の上位30万語句
・各語句に対する翻訳候補語句の数:300
(2)USMT
・言語モデル:単語4グラム修正Kneser-Ney(非特許文献15参照)
重み調整手法:KB-MIRA(非特許文献16参照)
・疑似対訳データを用いた洗練回数:初回のみ4回、以降は2回
・疑似対訳データの生成に用いる単言語データからのサンプル:150万文
・疑似対訳データからの対訳語句対の抽出ツール:fast_align(取得先:https://github.com/clab/fast_align)
(3)UNMT
モデルタイプ:Transformer(非特許文献3参照)
・ニューラルネットワークの層数:4層
・語彙サイズ:各タスクの各言語の単言語データの1000万文に対して8000回のバイト対符号化(BPE)を行って決定(非特許文献17参照)
・その他のハイパーパラメタ:Marianのデフォルト
・疑似対訳データを用いた洗練回数:2回
・疑似対訳データの生成に用いる単言語データからのサンプル:300万文
・疑似対訳データの選択基準:語彙サイズを10万とし、Marianを用いて学習したRNN言語モデルによるパープレキシティの上位50%
(e4:比較対象の機械翻訳システム)
各翻訳タスクについては、次のように構築された各機械翻訳システムをベースラインとして翻訳性能を比較した。より具体的には、公開されているツールUnsupervisedMT(取得先:https://github.com/facebookresearch/UnsupervisedMT)を用いて、下記の設定に従って構築することで、従来手法(非特許文献9参照)に従うUSMTおよびUNMTを実現した。

0139

サブワードの分散表現の学習:単言語データからサンプルした1000万文
・疑似対訳データを用いた洗練:単言語データからサンプルした300万文
・その他のパラメタは当該ツールのデフォルト設定の通り
(e5:翻訳性能の評価結果)
翻訳性能はBLEUスコア(非特許文献18参照)で評価した。より具体的には、目標言語が日本語以外の場合には、detokenized and detruecased BLEUを用いるとともに、目標言語が日本語の場合には、tokenized BLEUを用いた(非特許文献19参照)。

0140

図9は、本実施の形態に従う機械翻訳システムの翻訳性能の評価結果の一例を示す図である。図9には、タスク別に算出されたBLEUスコアの一覧を示す。図9において、USMT−1およびUNMT−1は、1回目の共訓練が完了した状態で得られたシステムを意味し、USMT−2およびUNMT−2は、2回目の共訓練が完了した状態で得られたシステムを意味する。

0141

図9を参照して、すべてのタスクにおいて、従来手法に従うUSMTは、従来手法に従うUNMTに比較して高い翻訳性能を示している。また、タスク6のインドネシア語から日本語(Id→Ja)以外のすべてのタスクにおいて、USMT−1およびUNMT−1は、従来手法に従うUNMTおよびUSMTを上回る翻訳性能を達成している。この結果は、本願発明者らによる従来手法(非特許文献13参照)と同様の結果である。このような結果が得られた理由としては、非特許文献11に開示されるようなより合理的な句の定義を用いたこと、および、USMTの洗練の際に順翻訳および逆翻訳の両方を疑似対訳データとして用いたことなどが推定される。

0142

さらに、タスク1〜4については、次の2点も確認できた。
・USMT−2は、USMT−1よりも高い翻訳性能を示す。

0143

・UNMT−2は、UNMT−1よりも高い翻訳性能を示す。
すなわち、USMTとUNMTとの共訓練という本実施の形態により得られる効果を確認できた。本実施の形態がより高い翻訳性能を発揮できる理由としては、共訓練そのもの、および、UNMTの洗練の際に疑似対訳データを選択的に使用し、あるいは疑似対訳データを漸増させることなどが想定される。

0144

タスク1〜3は、性能評価用データと学習に用いた単言語データとの間で分野が一致しており、比較的容易なタスクであると言える。また、タスク4は、性能評価用データの分野(ニュース記事)と学習に用いた単言語データの分野(Web上のテキスト)とが異なるが、2言語が書記体系共有しており、また評価用データが比較的直訳調であったため、高いスコアを達成しやすかったと考えられる。

0145

一方タスク5および6については、本実施の形態による性能の改善幅は大きくはないが、USMT−1〜UNMT−2のモデルの中で、従来手法よりも劣るモデルはなかった。

0146

[F.まとめ]
本実施の形態に従う機械翻訳システムの学習方法によれば、十分に規模の大きな対訳データが存在していない場合であっても翻訳性能を高めることができる。

0147

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

0148

1機械翻訳システム、100 USMT、102,106フレーズテーブル、104,122,202,206疑似対訳データ、110語句の語彙化並び替えモデル、120,204言語モデル、150,520 単言語データ、200 UNMT、500情報処理装置、502 CPU、504 GPU、506主メモリ、508ディスプレイ、510ネットワークインターフェイス、512二次記憶装置、514学習プログラム、516推論プログラム、518パラメタ、522入力デバイス、524光学ドライブ、526光学ディスク、528内部バス、L1,L2 言語。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ