図面 (/)

技術 ニューラル機械翻訳モデルを訓練する方法及びコンピュータプログラム

出願人 国立研究開発法人情報通信研究機構
発明者 ダブレラジ藤田篤
出願日 2019年3月27日 (2年6ヶ月経過) 出願番号 2019-061021
公開日 2020年10月1日 (1年0ヶ月経過) 公開番号 2020-160917
状態 未査定
技術分野 機械翻訳 学習型計算機
主要キーワード 組合せ部分 インドネシア語 改善幅 ファインチューニング 学習ユニット 多層ニューラルネットワーク 翻訳性能 計算要素
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年10月1日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (14)

課題

目標言語小規模対訳データしか存在しない場合、又は目標言語同士の類似性が低い場合でも従来よりも高い精度で翻訳できるようなNMTモデル及びその訓練方法を提供する。

解決手段

NMTモデルを訓練する方法は、コンピュータが、第1の言語の文と第2の言語の文との対訳を含む第1の対訳コーパス210を訓練データとしてNMTモデル220を訓練するステップ218と、コンピュータが、第1の言語の文と、当該第1の言語と異なる言語の文との対訳を含む第2の対訳コーパス212、214、…、216から均衡データである統合後の対訳データ224を生成し、これを訓練データとして、NMTモデル220をさらに訓練してNMTモデル228とするステップ226とを含む。

概要

背景

ニューラル機械翻訳(NMT)とは、多層ニューラルネットワークを用いた機械翻訳技術である。NMTは、起点言語の語及び文全体をベクトル又はテンソルに変換するニューラルネットワークエンコーダ)と、得られたベクトル又はテンソルから目標言語の語の系列を生成するニューラルネットワーク(デコーダ)で構成され、対訳データに基づいてニューラルネットワークのモデルを学習する(パラメタを最適化する)ものである。

図1に、所与の起点言語(翻訳元の言語)L1と目標言語(翻訳先の言語)L2との間の翻訳のためのNMTモデルの訓練の概略を示す。図1を参照して、NMTモデルの訓練システム50は、起点言語L1の文及び目標言語L2の文からなる対訳を多数含む対訳データ60と、対訳データ60に含まれる多数の対訳を訓練データとしてNMTモデル64の訓練を行う訓練ユニット62とを含む。訓練ユニット62によるNMTモデル64の訓練手法はよく知られている。このNMTモデル64をコンピュータインストールすることで、起点言語L1の原文68を目標言語L2の翻訳文70に翻訳する機械翻訳装置66が得られる。

NMTで達成できる翻訳性能は、起点言語L1、目標言語L2、及び翻訳の対象分野についての対訳データの規模に強く依存することもよく知られている。NMTシステム構築には大規模な対訳データ(言語対及び分野によるが少なくとも数十万文対)が必要である。ある2つの言語の組合せに対して小規模な対訳データしか存在しない場合は、その2つの言語の間でのNMTによる高品質な翻訳の生成は困難である(非特許文献1を参照)。

しかし、多くの言語対又は分野において、そのような大規模な対訳データは存在しない。大規模な対訳データを新たに作成するためには、多大な人的・金銭的コストを要する。そのため、多くの言語対及び分野において高性能なNMTを実現するのは困難であった。

こうした問題に対して、複数の言語対の対訳データを混合して用いて単一の多言語機械翻訳システムを構築するアプローチが考えられる。

このアプローチに関連して、複数の起点言語から単一の目標言語への翻訳(many−to−one)を1つのNMTで実現することにより、個々の言語対の翻訳(one−to−one)を扱うNMTよりも高い翻訳性能を実現できることが知られている(非特許文献2を参照)。一方、単一の起点言語から複数の目標言語への翻訳(one−to−many)を1つのNMTで実現する試みもある(非特許文献2及び非特許文献3)。例えば、英語と複数の欧州言語の対の間の20万文規模の対訳データを用いた場合に、わずかに翻訳性能を改善した例が存在する(非特許文献3を参照)。しかし、より小規模な対訳データしか存在しない言語の場合、又は目標言語同士の類似性が低い場合は性能が劣化する場合がある(非特許文献2及び4を参照)。これは主に、目標言語側で複数の言語を制御しながら訳文を生成することの困難さに起因する。なお、many−to−oneとone−to−manyをさらに一般化した形式のmany−to−manyのNMTを構築することも試みられている(非特許文献2及び4)。

図2に、非特許文献2に記載のNMTモデルを訓練するためのものとして想定される訓練システム100の概略構成を示す。図2を参照して、訓練システム100は、複数の言語対の対訳データ112、114、…、116と、これら対訳データ112、114、…、116の各々について、そのデータに含まれる各対訳の一方の言語の文に、その対訳の言語を示す疑似トークンを付しながら、対訳データ112、114、…、116を結合するためのデータ結合・疑似トークン付与ユニット118とを含む。

ここでは、N種類の言語L1、…、LNを使用するものとする。例えば対訳データ112は言語L1−L2の対訳である。この例では、これら言語の全ての対(L1−L2、L1−L3、…、L1−LN、L2−L3、L2−L4、…、LN−1−LNと、それらを逆にしたL2−L1、L3−L1、…、LN−L1、L3−L2、L4−L2、…、LN−LN−1)を用いるものとする。

ユニット118は、例えば言語L1−L2の対訳の言語L1の文の先頭に、“<2L2>”、言語L2−L1の対訳の場合には言語L2の文の先頭に“<2L1>”のような疑似トークンを付しながら、対訳データ112、114、…、116を結合して統合対訳データ120を出力するためのものである。

訓練システム100はさらに、統合対訳データ120に記憶されている対訳を訓練データとして、NMTモデル124の訓練を行うための訓練ユニット122を含む。ユニット122による訓練は、図1に示すものと全く同じように行われる。このように訓練された訓練ユニット122をコンピュータにインストールすることにより、機械翻訳装置126が得られる。

上記したように訓練した機械翻訳装置126は、言語L1、L2、…、LNの原文128、130、…、132のいずれが入力されても、言語L1、L2、…、LNの翻訳文134、136、…、138のいずれにも翻訳できる。

図2では全ての言語の対を用いているが、図2を参照して説明したような学習をすることにより、学習時に対訳データを用いていない言語対であっても、その起点言語と目標言語との双方が学習時に用いられた言語のいずれかであれば、翻訳が可能になることが報告されている(非特許文献2及び4)。例えば図2の例で、言語L1−LKという組合せの対訳が訓練に使用されなかったとしても、言語L1から言語LKへの翻訳が可能になるということである。

しかしこの場合、その言語対(例えば上記した言語L1−LKという組合せ)の対訳データを用いて訓練したNMTモデルを使用する場合と同等の性能を達成することはできないことが報告されている(非特許文献5)。

概要

目標言語に小規模な対訳データしか存在しない場合、又は目標言語同士の類似性が低い場合でも従来よりも高い精度で翻訳できるようなNMTモデル及びその訓練方法を提供する。NMTモデルを訓練する方法は、コンピュータが、第1の言語の文と第2の言語の文との対訳を含む第1の対訳コーパス210を訓練データとしてNMTモデル220を訓練するステップ218と、コンピュータが、第1の言語の文と、当該第1の言語と異なる言語の文との対訳を含む第2の対訳コーパス212、214、…、216から均衡データである統合後の対訳データ224を生成し、これを訓練データとして、NMTモデル220をさらに訓練してNMTモデル228とするステップ226とを含む。

目的

この発明は、小規模な対訳データしか存在しない場合、又は目標言語同士の類似性が低い場合でも従来よりも高い精度で翻訳できるようなNMTモデルの訓練方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ニューラル機械翻訳モデル訓練する方法であって、コンピュータが、第1の言語の文と第2の言語の文との対訳を含む第1の対訳コーパス訓練データとしてニューラル機械翻訳モデルを訓練するステップと、コンピュータが、前記第1の言語の文と、当該第1の言語と異なる言語の文との対訳を含む第2の対訳コーパスを訓練データとして、前記訓練するステップで訓練された前記ニューラル機械翻訳モデルをさらに訓練するステップとを含む、ニューラル機械翻訳モデルを訓練する方法。

請求項2

前記第1の言語と異なる言語は複数種類の言語を含み、前記方法はさらに、前記複数種類の言語の各々について、コンピュータが、前記第2の対訳コーパスのうち、当該言語が目標言語である対訳コーパスに含まれる対訳数が、前記複数種類の言語中の他言語が目標言語である対訳コーパスに含まれる対訳数と実質的に等しくなるように、当該言語が目標言語である前記対訳コーパスに含まれる対訳数を調整するステップを含む、請求項1に記載の方法。

請求項3

前記調整するステップは、前記複数種類の言語の各々について、コンピュータが、前記第2の対訳コーパスのうち、当該言語が目標言語である対訳コーパスに含まれる対訳数が、前記第1の対訳コーパスに含まれる対訳数と実質的に等しくなるように、当該言語が目標言語である前記対訳コーパスに含まれる対訳数を調整するステップを含む、請求項2に記載の方法。

請求項4

コンピュータが、前記第1の対訳コーパス及び前記第2の対訳コーパスに含まれる各対訳の前記第1の言語の文の先頭に、当該第1の言語の文と対になっている文の言語を示す疑似トークンを付すステップをさらに含む、請求項1から請求項3のいずれか1項に記載の方法。

請求項5

コンピュータに、第1の言語の文と第2の言語の文との対訳を含む第1の対訳コーパスを訓練データとしてニューラル機械翻訳モデルを訓練するステップと、前記第1の言語の文と、当該第1の言語と異なる言語の文との対訳を含む第2の対訳コーパスを訓練データとして、前記訓練するステップで訓練された前記ニューラル機械翻訳モデルをさらに訓練するステップとを実行させるためのコンピュータプログラム

技術分野

0001

この発明はニューラル機械翻訳に関し、特に、1対多言語翻訳を行うニューラル機械翻訳モデル訓練方法の改善に関する。

背景技術

0002

ニューラル機械翻訳(NMT)とは、多層ニューラルネットワークを用いた機械翻訳技術である。NMTは、起点言語の語及び文全体をベクトル又はテンソルに変換するニューラルネットワークエンコーダ)と、得られたベクトル又はテンソルから目標言語の語の系列を生成するニューラルネットワーク(デコーダ)で構成され、対訳データに基づいてニューラルネットワークのモデルを学習する(パラメタを最適化する)ものである。

0003

図1に、所与の起点言語(翻訳元の言語)L1と目標言語(翻訳先の言語)L2との間の翻訳のためのNMTモデルの訓練の概略を示す。図1を参照して、NMTモデルの訓練システム50は、起点言語L1の文及び目標言語L2の文からなる対訳を多数含む対訳データ60と、対訳データ60に含まれる多数の対訳を訓練データとしてNMTモデル64の訓練を行う訓練ユニット62とを含む。訓練ユニット62によるNMTモデル64の訓練手法はよく知られている。このNMTモデル64をコンピュータインストールすることで、起点言語L1の原文68を目標言語L2の翻訳文70に翻訳する機械翻訳装置66が得られる。

0004

NMTで達成できる翻訳性能は、起点言語L1、目標言語L2、及び翻訳の対象分野についての対訳データの規模に強く依存することもよく知られている。NMTシステム構築には大規模な対訳データ(言語対及び分野によるが少なくとも数十万文対)が必要である。ある2つの言語の組合せに対して小規模な対訳データしか存在しない場合は、その2つの言語の間でのNMTによる高品質な翻訳の生成は困難である(非特許文献1を参照)。

0005

しかし、多くの言語対又は分野において、そのような大規模な対訳データは存在しない。大規模な対訳データを新たに作成するためには、多大な人的・金銭的コストを要する。そのため、多くの言語対及び分野において高性能なNMTを実現するのは困難であった。

0006

こうした問題に対して、複数の言語対の対訳データを混合して用いて単一の多言語機械翻訳システムを構築するアプローチが考えられる。

0007

このアプローチに関連して、複数の起点言語から単一の目標言語への翻訳(many−to−one)を1つのNMTで実現することにより、個々の言語対の翻訳(one−to−one)を扱うNMTよりも高い翻訳性能を実現できることが知られている(非特許文献2を参照)。一方、単一の起点言語から複数の目標言語への翻訳(one−to−many)を1つのNMTで実現する試みもある(非特許文献2及び非特許文献3)。例えば、英語と複数の欧州言語の対の間の20万文規模の対訳データを用いた場合に、わずかに翻訳性能を改善した例が存在する(非特許文献3を参照)。しかし、より小規模な対訳データしか存在しない言語の場合、又は目標言語同士の類似性が低い場合は性能が劣化する場合がある(非特許文献2及び4を参照)。これは主に、目標言語側で複数の言語を制御しながら訳文を生成することの困難さに起因する。なお、many−to−oneとone−to−manyをさらに一般化した形式のmany−to−manyのNMTを構築することも試みられている(非特許文献2及び4)。

0008

図2に、非特許文献2に記載のNMTモデルを訓練するためのものとして想定される訓練システム100の概略構成を示す。図2を参照して、訓練システム100は、複数の言語対の対訳データ112、114、…、116と、これら対訳データ112、114、…、116の各々について、そのデータに含まれる各対訳の一方の言語の文に、その対訳の言語を示す疑似トークンを付しながら、対訳データ112、114、…、116を結合するためのデータ結合・疑似トークン付与ユニット118とを含む。

0009

ここでは、N種類の言語L1、…、LNを使用するものとする。例えば対訳データ112は言語L1−L2の対訳である。この例では、これら言語の全ての対(L1−L2、L1−L3、…、L1−LN、L2−L3、L2−L4、…、LN−1−LNと、それらを逆にしたL2−L1、L3−L1、…、LN−L1、L3−L2、L4−L2、…、LN−LN−1)を用いるものとする。

0010

ユニット118は、例えば言語L1−L2の対訳の言語L1の文の先頭に、“<2L2>”、言語L2−L1の対訳の場合には言語L2の文の先頭に“<2L1>”のような疑似トークンを付しながら、対訳データ112、114、…、116を結合して統合対訳データ120を出力するためのものである。

0011

訓練システム100はさらに、統合対訳データ120に記憶されている対訳を訓練データとして、NMTモデル124の訓練を行うための訓練ユニット122を含む。ユニット122による訓練は、図1に示すものと全く同じように行われる。このように訓練された訓練ユニット122をコンピュータにインストールすることにより、機械翻訳装置126が得られる。

0012

上記したように訓練した機械翻訳装置126は、言語L1、L2、…、LNの原文128、130、…、132のいずれが入力されても、言語L1、L2、…、LNの翻訳文134、136、…、138のいずれにも翻訳できる。

0013

図2では全ての言語の対を用いているが、図2を参照して説明したような学習をすることにより、学習時に対訳データを用いていない言語対であっても、その起点言語と目標言語との双方が学習時に用いられた言語のいずれかであれば、翻訳が可能になることが報告されている(非特許文献2及び4)。例えば図2の例で、言語L1−LKという組合せの対訳が訓練に使用されなかったとしても、言語L1から言語LKへの翻訳が可能になるということである。

0014

しかしこの場合、その言語対(例えば上記した言語L1−LKという組合せ)の対訳データを用いて訓練したNMTモデルを使用する場合と同等の性能を達成することはできないことが報告されている(非特許文献5)。

先行技術

0015

Philipp Koehn and Rebecca Knowles(2017). Six Challenges for Neural Machine Translation. In Proceedings of the1st Workshop on Neural Machine Translation, pp. 28-39.
Melvin Johnson, Mike Schuster, Quoc V.Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda B. Viegas,Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean (2017). Google’s Multilingual NeuralMachine Translation System: Enabling Zero-shot Translation. Transactions of theAssociation for Computational Linguistics, Vol. 5, pp. 339-351.
Daxiang Dong, Hua Wu, Wei He, Dianhai Yu, and Haifeng Wang (2015). Multi-taskLearning for Multiple Language Translation. In Proceedings of the 53rd AnnualMeeting of the Association for Computational Linguistics and the 7thInternational Joint Conference on Natural Language Processing (ACL-IJCNLP), pp.1723-1732.
Orhan Firat, Kyunghyun Cho, and Yoshua Bengio (2016). Multi-way,Multilingual Neural Machine Translation with a Shared Attention Mechanism.InProceedings of the 2016 Conference of the North American Chapter of theAssociation for Computational Linguistics: Human Language Technologies, pp.866-875.
Kenji Imamura and Eiichiro Sumita (2018). Multilingual ParallelCorpus for Global Communication Plan. In Proceedings of the 11th InternationalConference on Language Resources and Evaluation (LREC), pp. 3453-3458.

発明が解決しようとする課題

0016

図2に示すような複数の起点言語から複数の目標言語への翻訳(many−to−many)はもちろん、単一の起点言語から複数の目標言語への翻訳(one−to−many)を、1つのNMTで実現するアプローチで翻訳性能を改善することは難しい。特に目標言語の中に小規模な対訳データしか存在しない言語がある場合、及び目標言語同士の類似性が低い場合は性能が劣化する場合がある。

0017

それゆえにこの発明は、小規模な対訳データしか存在しない場合、又は目標言語同士の類似性が低い場合でも従来よりも高い精度で翻訳できるようなNMTモデルの訓練方法を提供することを目的とする。

課題を解決するための手段

0018

この発明の第1の局面に係るNMTモデルを訓練する方法は、コンピュータが、第1の言語の文と第2の言語の文との対訳を含む第1の対訳コーパスを訓練データとしてNMTモデルを訓練するステップと、コンピュータが、第1の言語の文と、当該第1の言語と異なる言語の文との対訳を含む第2の対訳コーパスを訓練データとして、訓練するステップで訓練されたNMTモデルをさらに訓練するステップとを含む。

0019

好ましくは、第1の言語と異なる言語は複数種類の言語を含み、この方法はさらに、複数種類の言語の各々について、コンピュータが、第2の対訳コーパスのうち、当該言語が目標言語である対訳コーパスに含まれる対訳数が、複数種類の言語中の他言語が目標言語である対訳コーパスに含まれる対訳数と実質的に等しくなるように、当該言語が目標言語である対訳コーパスに含まれる対訳数を調整するステップを含む。

0020

より好ましくは、調整するステップは、複数種類の言語の各々について、コンピュータが、第2の対訳コーパスのうち、当該言語が目標言語である対訳コーパスに含まれる対訳数が、第1の対訳コーパスに含まれる対訳数と実質的に等しくなるように、当該言語が目標言語である対訳コーパスに含まれる対訳数を調整するステップを含む。

0021

さらに好ましくは、方法は、コンピュータが、第1の対訳コーパス及び第2の対訳コーパスに含まれる各対訳の第1の言語の文の先頭に、当該第1の言語の文と対になっている文の言語を示す疑似トークンを付すステップをさらに含む。

0022

好ましくは、第2の言語は、第1の言語と異なる言語の1つである。

0023

より好ましくは、第2の言語は、第1の言語と異なる言語のいずれとも異なる。

0024

この発明の第2の局面に係るNMTモデルは、上記したいずれかに記載の方法で訓練されたものである。

0025

この発明の第3の局面に係るコンピュータプログラムは、コンピュータに、第1の言語の文と第2の言語の文との対訳を含む第1の対訳コーパスを訓練データとしてNMTモデルを訓練するステップと、第1の言語の文と、当該第1の言語と異なる言語の文との対訳を含む第2の対訳コーパスを訓練データとして、訓練するステップで訓練されたNMTモデルをさらに訓練するステップとを実行させる。

図面の簡単な説明

0026

図1は、1対1のNMTモデルの訓練方法を模式的に示すブロック図である。
図2は、多対多のNMTモデルの訓練方法として従来考えられてきた方法を模式的に示すブロック図である。
図3は、この発明の実施の形態に係るNMTモデルの訓練方法を模式的に示すブロック図である。
図4は、図3に示す訓練方法で用いられる多言語の対訳データを準備するためのコンピュータプログラムの概略の制御構造を示すフローチャートである。
図5は、この発明の実施の形態において、コンピュータを、NMTモデルの訓練を実行するよう機能させるためのコンピュータプログラムの概略の制御構造を示すフローチャートである。
図6は、この発明の実施の形態の効果を示す、各モデルの評価結果の全体を表形式で示す図である。
図7は、異なる外部対訳データに対する、従来技術の1−to−2及びこの発明の実施の形態の結果を各言語について対照して示す図である。
図8は、全目標データと外部対訳データとを組合せたときの各モデルの評価結果を示す図である。
図9は、外部対訳データの分野の影響を検証するための図である。
図10は、外部対訳データの目標側言語の影響を検証するための図である。
図11は、外部対訳データのサイズによる、NMTの性能の変化を表形式で示す図である。
図12は、実施の形態を実現するコンピュータシステム外観図である。
図13は、図12に示すコンピュータシステムのハードウェアブロック図である。

実施例

0027

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、後述する実験では、NMTとしてTransformer(末尾の参考文献hを参照)と呼ばれるものを用いているが、この実施の形態はNMTの種類を問わず適用できる。

0028

また、以下に説明する実施の形態及び各モデルの評価では、起点言語及び目標言語としていわゆる「言語」を対象としている。しかし、例えば同じ言語でも法律分野、技術分野等、文書の分野により異なる語彙及び異なる表現が使用される。したがってこれら分野で使用される言語も互いに異なると考えることができる。そのように区別される「言語」をサブ言語と呼ぶ。サブ言語としては、上記した分野だけではなく、言語の地域的相違年齢的相違、対話の際の相手による相違、文書で使用される言語と会話で使用される言語の相違等、多種多少なサブ言語が考えられる。そうしたサブ言語を起点言語又は目標言語若しくはその双方としても以下に説明する実施の形態が適用できる。後述する初期モデルの訓練をするための大規模対訳データとしても、特定のサブ言語を使用できることはいうまでもない。すなわち、以下の説明における「言語」とは、そうしたサブ言語も含む概念である。

0029

[構成]
以下に説明する実施の形態は、ある起点言語の、ある対象分野又はある目標言語の大規模対訳データと、同じ起点言語で、対象分野及び目標言語が異なる小規模対訳データとを用いた転移学習によって、one−to−manyのNMTを学習する技術、及びそのプログラムからなる。具体的には、図3に示すように、次の3ステップの手順でone−to−manyのNMTモデル228を学習する。なお、以下では、小規模対訳データとしては、大規模対訳データの目標言語とは目標言語が異なるものを使用する実施の形態、及び小規模対訳データが起点言語を共有し、目標言語が互いに異なる場合について説明する。

0030

—ステップ1
次の2種類の対訳データを、規模(文対の数)が同等になるように調節した上で連結し、統合対訳データを作成する。

0031

(ア) ある起点言語SLを持つ、目標言語が互いに異なる対訳データ212、214、…、216(それぞれ言語の組合せSL−YY1、SL−YY2、…、SL−YYNに関するもの)
(イ) 上記起点言語SLを共有する大規模な対訳データ(図中SL−XX)
また、これら各対訳データ内において、各文対の起点言語文の先頭に、対応する目標言語を表す、“<2YY1>”等の疑似トークン(「タグ」とも呼ばれる。)を付与する(非特許文献2)。このようにして得た統合対訳データをSL−ALLと呼ぶ。SL−ALLは、SL−ALL内の各対訳データの規模が同等であることから均衡データと呼ぶ。この統合対訳データから、以降のNMTモデルの学習に用いる語彙を決定する。語彙を決定する理由については後述する。

0032

—ステップ2
SL−XXの対訳データのみを訓練データとして用いてNMTモデルを訓練する(これをここでは「事前学習」という。)。

0033

—ステップ3
上に述べたステップ2で得たNMTモデルを初期値として、対訳データSL−ALLを用いてNMTモデルを洗練する。この処理はいわゆる「転移学習」と呼ばれるものである。

0034

図2に示す従来手法は、上記したステップ1とステップ3のみから構成される。これに対してこの発明の実施の形態では、ステップ2において、ステップ1で得られる均衡データよりも多様な起点言語の文を含むSL−XXの対訳データを用いて、エンコーダの事前学習を実現する。そして、ステップ3では、その結果を初期値として活用し、複数の目標言語を生成するデコーダの学習に焦点を当てた学習を可能にする。

0035

なお、ここでいう「語彙」とは、処理対象を単語の系列とする場合には単語、サブワードの系列とする場合にはサブワードを単位とする語彙のことをいう。処理対象を単語の系列とするかサブワードの系列とするかは予め決めておく。このような処理対象の単語又はサブワードを抽象化して「トークン」と呼ぶが、以下の説明ではサブワード単位での処理を行うものとし、語彙もサブワード単位でのものとする。

0036

このように語彙を決定する理由は以下のとおりである。訓練データ中で出現する頻度が低いトークン(これを「低頻度トークン」という。)に対してNMTモデルのパラメタを最適化することは困難である。そこで、一般的には、訓練データ中で出現頻度が高いトークンから優先的に語彙に含めるようにする。相対的に低頻度のトークンは、予め定めておいた、未知トークンを表す“<unk>”のような疑似トークン(「タグ」とも呼ばれる。)に含める。ただし、出現頻度だけではなくトークンの重要性を考慮する場合もあるので、実際にどのような基準で語彙を選択するかは使用するツールによって異なっている。

0037

なお、NMTのデコーダでは、各時刻において目的言語の語彙から要素を1つ選択する処理(すなわち、1トークンずつ出力する処理)を行う。語彙は、出力として可能な選択肢を表す。語彙サイズが大きい場合には、選択肢が多いため出力トークンの決定に長時間を要する上、出力されたトークンの系列が正しいものである可能性が相対的に低くなる。一方、語彙サイズが小さい場合には、選択肢が少ないため、処理は速いが出力できる表現が制限される。したがって、どのようなサイズの語彙を用いるかが重要ではあるが、それは設計事項の1つと考えられる。ただし、one−to−manyの翻訳を行う場合には、出力側の複数の言語の語彙をカバーできるように語彙を定めることが必要である。

0038

図3は、上に説明した、この発明の実施の形態に係るNMTモデルの訓練方法を実現する訓練システム200の構成を模式的に示すブロック図である。

0039

図3を参照して、訓練システム200は、対訳データ212、214、…、216の各々について、起点言語の先頭に、対訳の相手となる文の言語を示すトークンを付加し、さらにいずれの対訳データの規模も訓練ユニット218の規模と実質的に同等となるように、各対訳データのサイズを調整した上で対訳データ212、214、…、216を連結し統合後の対訳データである、図3において「SL−ALLの対訳データ」というラベルが付された統合対訳データ224を出力するためのデータ結合・疑似トークン付与ユニット222と、SL−XXの対訳データ210を訓練データとしてNMTモデル220の事前学習を行うための訓練ユニット218と、統合対訳データ224を訓練データとして、訓練ユニット218を用いて事前学習済のNMTモデル220のパラメタを洗練する学習(転移学習)を行って、図3において「SL−ALL NMTモデル」というラベルが付されたNMTモデル228を得るための転移学習ユニット226とを含む。

0040

このNMTモデル228を構成するパラメタ及びNMTの出力算出のアルゴリズムを規定するプログラムをコンピュータにインストールすることで、1対多言語翻訳を行う機械翻訳装置230が得られる。機械翻訳装置230は、言語SLの原文232の入力を受け、言語YY1、YY2、…、YYNの中の任意の言語への翻訳をし、それぞれ翻訳文234、236、…、238を出力できる。

0041

図4は、図3に示す訓練方法で用いられる、上記したステップ2で多言語の対訳データを準備するデータ結合・疑似トークン付与ユニット222としてコンピュータを機能させるコンピュータプログラムの概略の制御構造を示すフローチャートである。図4を参照して、このプログラムは、対訳データファイルオープン、必要なオブジェクトインスタンスの生成等を行う初期設定ステップ300と、図3に示す対訳データ212、214、…、216の各々に対して、以下の処理304を実行するステップ302と、ステップ302の完了後に、全データを連結するステップ306と、全対訳データ及び出力対訳データファイルクローズ、オブジェクトのインスタンスの解放等、プログラムの終了に必要な処理を行ってこのプログラムの実行を終了するステップ308とを含む。

0042

処理304は、対訳データ中の全対訳について、ステップ322を繰返し実行するステップ320と、ステップ320の終了後に、各対訳データの中の対訳文数が対訳データ210に含まれる対訳文の数と等しくなるように、オーバサンプリング等によりその対訳内の対訳数を調節して処理304を終了するステップ324とを含む。

0043

図5は、上記したステップ3の処理を実行する、図3の転移学習ユニット226をコンピュータにより実現するためのプログラムの制御構造を示すフローチャートである。この処理はNMTモデルの一般的な処理の一例であり、同様の制御構造を持つプログラムにより上記したステップ1を実行する訓練ユニット218を実現できる。

0044

図5を参照して、このプログラムは、対訳データファイルをオープンする処理、様々なオブジェクトのインスタンスを生成する処理、必要なメモリ領域を確保しそれぞれ初期値で初期化する処理等の初期設定を行うステップ400と、以下の処理404を所定の終了条件成立するまで繰返すことにより、NMTモデル228の転移学習を実行するステップ402と、NMTモデル228の転移学習が終了した時点でNMTモデル228のパラメタを所定の記憶装置に保存するステップ406と、ファイルクローズ、オブジェクトのインスタンスの解放等の終了処理を行って、このプログラムの実行を終了するステップ408とを含む。

0045

処理404は、対訳データの全データをシャッフルするステップ430と、シャッフルされた対訳データを用いて、所定のエポック終了条件が成立するまで、全対訳データを用いたミニバッチによってNMTモデル228の更新を行う1エポックの訓練処理434を繰返し行うステップ432と、ステップ432の終了後、処理404の終了条件が成立しているか否かに関するテストを行うステップ436とを含む。

0046

処理404でテストされる終了条件としては、例えば処理404が所定回数繰返されたこと、処理404の終了時のNMTモデル228を用いた機械翻訳の、前回の精度からの向上値がしきい値以下となったこと、NMTモデル228を用いた機械翻訳の精度がしきい値を超えたこと、等を採用できる。

0047

訓練処理434は、対訳データから所定数サンプルをミニバッチとして選択するステップ450と、選択されたミニバッチを用いてNMTモデル228の訓練を行ってそのパラメタを更新するステップ452と、ステップ452の処理の完了後、エポックの終了条件が成立しているか否かをテストするステップ454とを含む。

0048

エポックの終了条件としては、全対訳を1回ずつ使用した訓練が終了したことを採用できるが、他の終了条件を採用することも考えられる。

0049

[動作]
上に構成を説明した訓練システム200は以下のように動作する。最初に、訓練ユニット218、対訳データ212、214、…、216をコンピュータ読取り可能な形で所定の記憶装置に準備する。

0050

〈統合対訳データ224の作成〉
ユニット222が、対訳データ212、214、…、216の各々に対し、起点言語の先頭に対訳の相手の文の言語を示す疑似トークンを付し(図4のステップ322)、さらに対訳のオーバサンプリングにより対訳データ210と同規模になるように拡張する。ユニット222は、こうして各々が対訳データ210と同規模に拡張された対訳データ212、214、…、216と、起点言語の文に対訳文の言語の疑似トークンが付された対訳データ210とを結合し、統合対訳データ224として出力する。このとき、この統合対訳データ224から、以降のNMTモデルの学習に用いる語彙を決定する。

0051

〈事前学習〉
事前学習では、対訳データ210を訓練データとして訓練ユニット218がNMTモデル220の訓練を行う。この訓練では、最初に訓練ユニット218が対訳データ210の中の各対訳の起点言語の文に、その対訳文の言語を表す疑似トークンを付した後、図5に示したものと同様の処理でNMTモデル220を訓練する。この結果、NMTモデル228の初期値であるNMTモデル220が得られる。なお、この実施の形態ではこのような訓練方法を用いたが、これ以外の方法でNMTモデル220を得ることもできる。

0052

〈転移学習〉
転移学習ユニット226が、図5を参照して説明した訓練方法により、NMTモデル220をさらに訓練してNMTモデル220のパラメタの調整を行う。その結果、NMTモデル220をさらに洗練したNMTモデル228が得られる。

0053

[実験]
上記した実施の形態により訓練したNMTモデル228の性能を調べるために、以下のような比較実験を行った。NMTとしてはどのようなものを用いてもよいが、ここでは6層のTransformerを用いている。

0054

この実験は、Asian Language Treebank (ALT)(後掲の参考文献a)のニュース翻訳データに関する多言語の人間訳(訓練データ18k文、評価データ1,106文)を用いて実施した。具体的には、英語(En)からベンガル語(Bg)、フィリピン語(Ph)、インドネシア語(Id)、日本語(Ja)、クメール語(Kh)、マレー語(Ms)、ベトナム語(Vi)の7言語への翻訳を対象とした。これらの詳細については下記表1に示す。

0055

実験での大規模対訳データとしては、IWSLT2015(参考文献b)の英語−中国語の対訳データ(209k文)、京都フリー翻訳タスク(KFTT)(参考文献c及びd)の英語−日本語の対訳データ(440k文)、及びGCP(非特許文献5)の生活会話の対訳データ(440k文/209k文)を独立に用いた。これら大規模対訳データを「外部対訳データ」又は「外部大規模対訳データ」と呼ぶ。

0056

これらデータの中で、英語のデータはMoses(参考文献e)に同されている分かち書きツールを、中国語(Zh)のデータはKyotoMorph(参考文献f)を、日本語のデータはJUMAN(参考文献g)を、それぞれ用いて分かち書きした。クメール語のデータはALTから配布されている分かち書き済のものを用いた。その他の言語(ベンガル語、フィリピン語、インドネシア語、マレー語、ベトナム語)のデータは、分かち書きを行わずに用いた。各対訳データの記述統計を以下の表1に示す。

0057

0058

[実験1]
実験1は以下の手順で行った。

0059

英語から各目標言語への翻訳を行うモデルを独立に学習・評価した。6層のTransformerモデルを用いて、次の3種類のNMTモデルを構築した。以下に構築したモデルの種別を示す。

0060

・#1 En−YY:ALTのみを使用した、図1に示す従来手法によるもの(one−to−one)。パラメタを12万回更新。

0061

・#2 En−XX+En−YY:#1に対して、外部の大規模対訳データを従来手法によって追加使用した、図2に示す従来手法によるもの(many−to−many)。パラメタを20万回更新。

0062

・#3 En−XX(En−XX+En−YY):#2に対して上記した実施の形態に係る方法を適用したもの。パラメタ更新は、最初の10万回をステップ2の事前学習に充て、#2と同じパラメタ更新回数になるよう、ステップ3においてさらに10万回(合計20万回)パラメタを更新。

0063

[実験2]
実験2は以下の手順で行った。

0064

実験2では、英語から全目標言語(7言語)への翻訳を行うモデルを学習し評価した。学習では6層のTransformerモデルを用いて、次の3種類のNMTモデルを構築した。また、実験1で構築した#1とも性能を比較した。以下に実験の種別を示す。

0065

・#4 En−AllYY:ALTのみを訓練に使用した、図2に示す従来手法によるもの。パラメタを30万回更新。

0066

・#5 En−XX+En−AllYY(En−All):#4に対して、外部の大規模対訳データを図2に示す従来手法によって追加使用したもの。パラメタを40万回更新。

0067

・#6 En−XX(En−XX+En−AllYY(=En−All)):#5に対して上記実施の形態を適用したもの。パラメタ更新は、最初の10万回をステップ2の事前学習に充て、#5と同じパラメタ更新回数になるよう、ステップ3においてさらに30万回(合計40万回)パラメタを更新。

0068

図6は、従来の例とこの発明によるものとの翻訳精度を比較するための実験結果の全体を表形式で示す図である。以下の図7図11に示す表は、いずれもこの図6から一部を抽出したものである。この図及び以下の図では、太枠で囲まれた部分が上記実施の形態に係る実験結果を、それ以外は従来のものによる実験結果を、それぞれ示す。

0069

図6における記号等について説明する。

0070

・使用した大規模対訳データの起点側言語はいずれも英語(En)である。

0071

・左端の列「CP#」は比較のためのグループ名である。このグループ名は各図で共通である。

0072

・「分野」は使用した大規模対訳データの分野を示す。各データは上に説明したとおりその扱っている分野が異なっている。

0073

・「言語」は使用した大規模データにおける、対訳側の文(XX)を示し、上に説明した略号を用いている。

0074

・「分量」は、使用した大規模対訳データの文対数である。

0075

・「#」の列の意味は実験1及び実験2の手順の説明に記載したとおりである。この数字図6図11で共通である。

0076

・「YY」は、大規模対訳データと組合せて使用された、対訳データ212等の言語の数を示す。

0077

・「1種」は、組合された言語が1言語であることを示し、「7種」は7言語であることを示す。この7言語については図6の「翻訳の目標言語」の各列に示してある。

0078

図6見方の例として、例えば「分野」にIWSLT、「言語」にZh(中国語)、「分量」に209kと記載された行の中の右半分は、さらに4行に分かれている。この4行の中の1行目及び3行目は従来の手法(図2に示すもの)での結果を示し、2行目及び4行目はこの発明の上記実施の形態による結果を示す。

0079

1行目及び2行目は、大規模対訳データと組合された言語が1言語の場合を示し、その右側にはその1言語がそれぞれベンガル語(Bg)、フィリピン語(Ph)、インドネシア語(Id)、日本語(Ja)、クメール語(Kh)、マレー語(Ms)、及びベトナム語(Vi)であったときの、翻訳結果の品質をBLEUスコア(参考文献i)で評価した結果を示す。評価は値が大きい程よい。

0080

3行目及び4行目は、大規模対訳データと組合された目標言語が7言語の場合を示す。右側の言語別の結果及び評価方法は1行目及び2行目の場合と同様である。

0081

図6において、各目標言語についてのもっとも高いBLEUスコアを破線楕円で囲ってある。

0082

この図6から得られる全体的な評価として、one−to−many NMTに関する従来手法をALTに適用した場合(#2)、元々比較的性能が低かったベンガル語、日本語及びクメール語の性能を向上できたが、比較的性能が高かった他の4言語については性能が劣化してしまったことが分かる。ALTは多言語対訳データであるが、従来の手法ではその特徴を活用することができていないということである。

0083

#5は、いずれの外部データを用いた場合でも、全ての目標言語について、本手法を用いない範囲で最も高い性能を達成した。

0084

#6は、いずれの外部データを用いた場合でも、全ての目標言語について、#1から#5の全ての手法よりも高い翻訳性能を達成した。#1に対するBLEUスコアの改善幅は、IWSLTのデータを用いた場合で2.64〜8.32ポイント、KFTTのデータを用いた場合で3.76から10.90ポイントであった。また、#5に対するBLEUスコアの改善幅は、IWSLTのデータを用いた場合で0.44〜2.02ポイント、KFTTのデータを用いた場合で0.68〜1.40ポイントであった。

0085

以下、この図6の評価結果を様々な観点から検証するために図7図11を参照する。

0086

図7は、外部対訳データに対し、#2(従来技術の1−to−2)及び#3(上記実施の形態の1−to−2)の結果を各言語について対照して示す図である。各言語の#2と#3とにおいて、高い方のBLEUスコアであって、かつ#1よりも高いものを破線の楕円で囲んである。

0087

図7を参照して、#2のモデルでは、ベンガル語、フィリピン語、インドネシア語及びマレー語においては、常に#1よりも性能が劣化していることが分かる。一方、#3のモデルでは、グループAからグループCにおいて、全目標言語で#1及び#2を上回る性能が得られた。グループAからグループGでは、ベンガル語、日本語、クメール語、及びベトナム語では常に#1、#2より性能が向上した。唯一例外はフィリピン語であって、グループAからグループFで#3が#2を上回ったが、実線の楕円で示したように、グループGでは#2>#3であり、かつ#1>#3であった。

0088

図8は、全目標データと外部対訳データとを組合せたときのモデルの評価結果を示す。図8において、実線の楕円で囲んだ部分は、BLEUスコアが#1のBLEUスコアを下回った部分である。破線の楕円で囲んだ部分は、#6が#5よりも高いBLEUスコアを達成した部分である。実線の長方形で囲んだ部分は、#5のBLEUスコアが#6のBLEUスコアを上回った部分である。

0089

図8を参照して、#4ではフィリピン語、インドネシア語、マレー語及びベトナム語で#1よりも性能が劣化した。一方、#5では、全目標言語で#1、#2及び#4を上回る性能が得られた。ただし、グループFのマレー語は例外で、実線の楕円で示すように#1を下回った。#6では、全目標言語で#1から#5を上回る性能を示した。ただし、実線の長方形で示すように、グループCのベンガル語は例外で、#5の性能をやや下回っている。

0090

図9は、外部対訳データの分野の影響を検証するための図である。この図から、IWSLT及びKFTTを使用した場合にはGCPを使用した場合よりも性能がよいことが分かる。例外は、実線の楕円で示す1箇所、すなわちフィリピン語のIWSLTとGCPの組合せのみである。

0091

また、この発明の実施の形態による結果では、BLEU評価値は常にグループA>グループGであり、グループB>グループDであることが分かる。

0092

GCPによる場合に性能が劣るのは、GCPが生活会話の対訳であり、実質的に複数分野テキストを含んでいることが原因である可能性がある。

0093

図10は、外部対訳データが目標側言語の品質に与える影響を検証するための図である。図10において、実線で区切られたように4種類のモデルの評価結果が示されている。これら各モデルの評価において、各目標言語について最高の結果が得られた組合せ部分を破線の楕円形で囲ってある。図10を参照して、外部対訳データの英語の相手側言語としてインドネシア語が選択された場合に、BLEUスコアが他言語の場合と比較して全般的に高いことが分かる。

0094

また、この発明の実施の形態(#3及び#6)では、目標言語がフィリピン語、インドネシア語、クメール語、マレー語、及びベトナム語であるときに最大の効果が得られていることが分かる。その理由については現在のところ不明である。

0095

なお、図10から、外部対訳データの目標側言語(XX)と、翻訳の目標言語(YY)とが一致している場合には必ず性能が向上していることが分かる。例えばXX及びYYとしてともにベトナム語を選択した場合、#2、#4、#5及び#6のいずれにおいても、1−to−1の結果(図6の1行目右端の「27.39」)より性能が向上していることがわかる。これはXXとYYとが一致していることによる分野適応の結果であると考えられる。

0096

図11は、外部対訳データのサイズによる、NMTの性能の変化を表形式で示す図である。図11から明らかなように、従来技術及びこの発明に係る実施の形態のいずれにおいても、外部対訳データの規模が大きい程、最終的な翻訳性能が向上する傾向にあることが分かる。従来の技術の場合には、図11において破線の楕円形で示すように一部例外が存在する(グループG>グループF)が、この発明の実施の形態では例外なくBLEUスコアが向上している(グループF>グループG)。

0097

以上のモデルの評価結果からはさらに、以下の知見が得られた。すなわち、同じ起点言語を参照する#2と#5では#5の方が、#3と#6では#6の方が、それぞれ翻訳性能が高かった。したがって、少なくともALTのような小規模な対訳データしか存在しない状況では、多言語の対訳データが有用であることが明らかになった。

0098

これらの結果に鑑みると、例えば、上記実施の形態によって転移学習を行ったNMTモデル228(図3参照)に対して、さらに各目標言語に絞った転移学習を行って各目標言語別にファインチューニングすることが考えられる。そうした転移学習により、それぞれの目標言語に関してより精度が向上したNMTモデルが得られる可能性が高い。

0099

図12は、実施の形態を実現するコンピュータシステムの外観図である。図13は、図12に示すコンピュータシステムのハードウェアブロック図である。

0100

図12を参照して、このコンピュータシステム500は、DVD(Digital Versatile Disc)ドライブ552を有するコンピュータ520と、いずれもコンピュータ520に接続された、ユーザと対話するためのキーボード524、マウス526、及びモニタ522とを含む。もちろんこれはユーザ対話のための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア(例えばタッチパネル音声入力ポインティングデバイス一般)であればどのようなものも利用できる。

0101

図13を参照して、コンピュータ520は、DVDドライブ552に加えて、CPU540と、GPU(Graphic Processing Unit)542と、CPU540、GPU542、DVDドライブ552に接続されたバス560と、バス560に接続され、コンピュータ520のブートアッププログラム等を記憶するROM546と、バス560に接続され、プログラム命令システムプログラム、及び作業データ等を記憶するRAM548と、バス560に接続された不揮発性メモリであるハードディスクドライブ(HDD)550とを含む。ハードディスク550は、CPU540及びGPU542が実行するプログラム、CPU540及びGPU542が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ520はさらに、他端末との通信を可能とするネットワーク536への接続を提供するネットワークI/F558と、USBメモリ534が着脱可能で、USBメモリ534とコンピュータ520内の各部との通信を提供するUSBポート556とを含む。

0102

コンピュータ520はさらに、マイク532及びスピーカ530とバス560とに接続され、CPU540により生成されRAM548又はHDD550に保存された音声信号をCPU540の指示にしたがって読出しアナログ変換及び増幅処理をしてスピーカ530を駆動したり、マイク532からのアナログの音声信号をデジタル化し、RAM548又はHDD550の、CPU540により指定される任意のアドレスに保存したりするための音声I/F554を含む。

0103

上記実施の形態では、図3に示す対訳データ210、対訳データ212、214、…、216、及び統合対訳データ224、NMTモデル220及びNMTモデル228のパラメタ等は、いずれも例えば図13に示すHDD550、RAM548、DVD528、又はUSBメモリ534、若しくはネットワークI/F558及びネットワーク536を介して接続された外部装置記憶媒体等に格納される。典型的には、対訳データ210、対訳データ212、214、…、216等は、例えば外部からHDD550に書込まれコンピュータ520の実行時にはRAM548にロードされる。

0104

このコンピュータシステムを訓練システム200及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、DVDドライブ552に装着されるDVD528に記憶され、DVDドライブ552からHDD550に転送される。又は、このプログラムはUSBメモリ534に記憶され、USBメモリ534をUSBポート556に装着し、プログラムをハードディスク550に転送する。又は、このプログラムはネットワーク536を通じてコンピュータ520に送信されHDD550に記憶されてもよい。プログラムは実行のときにRAM548にロードされる。もちろん、キーボード524、ディスプレイ522及びマウス526を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをHDD550に格納してもよい。スクリプト言語の場合には、キーボード524などを用いて入力したスクリプトをHDD550に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ520にインストールしておく必要がある。

0105

CPU540は、その内部のプログラムカウンタと呼ばれるレジスタ(図示せず)により示されるアドレスにしたがってRAM548からプログラムを読出して命令解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってRAM548、ハードディスク550又はそれ以外の機器から読出して命令により指定される処理を実行する。CPU540は、実行結果のデータを、RAM548、ハードディスク550、CPU540内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、DVD528から、USBメモリ534から、又はネットワークを介して、直接RAM548にロードしてもよい。なお、CPU540が実行するプログラムの中で、一部のタスク(主として数値計算)については、プログラム内の命令により、又はCPU540による命令実行時の解析結果にしたがって、GPU542にディスパッチされる。

0106

コンピュータ520により訓練システム200の各機能を実現するプログラムは、それら各機能を実現するようコンピュータ520を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ520上で動作するオペレーティングシステム(OS)若しくはサードパーティのプログラム、又はコンピュータ520にインストールされる各種ツールキットモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ520の動作方法は周知であるので、ここでは繰返さない。なお、GPU542は並列処理を行うことが可能であり、NMTの訓練処理に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列計算要素、又はプログラムの実行時発見された並列的計算要素は、随時CPU540からGPU542にディスパッチされ、実行され、その結果が直接に、又はRAM548の所定アドレスを介してCPU540に返され、プログラム中の所定の変数代入される。

0107

[参考文献一覧]
参考文献aALT:
http://www2.nict.go.jp/astrec-att/member/mutiyama/ALT/
参考文献b Mauro Cettolo, Jan Niehues,
Sebastian Stueker, Luisa Bentivogli, Roldano Cattoni, and Marcello Federico
(2015). The IWSLT2015 Evaluation Campaign. In Proceedings of the 12th
International Workshop on Spoken Language Translation (IWSLT), pp.2-14.
参考文献c Wikipedia日英京都関連文書対訳データ: https://alaginrc.nict.go.jp/WikiCorpus/
参考文献d Kyoto Free Translation Task: http://www.phontron.com/kftt/
参考文献e Moses: https://github.com/moses-smt/mosesdecoder
参考文献f KyotoMorph: https://bitbucket.org/msmoshen/kyotomorph-beta
参考文献g JUMAN: http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
参考文献h Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion
Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin (2017). Attention is
All You Need. In Proceedings of the 30th Neural Information Processing Systems
Conference (NIPS), pp. 5998-6008.
参考文献i Kishor Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002).
BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings
of the 40th Annual Meeting of the Association for Computational Linguistics (ACL),
pp. 311-318.

0108

今回開示された実施の形態は単に例示であって、この発明が上記した実施の形態のみに制限されるわけではない。この発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

0109

50、100、200訓練システム
60、112、114、116、210、212、214、216対訳データ
62、122、218訓練ユニット
64、124、220、228 NMTモデル
66、126、230機械翻訳装置
68、128、130、132、232原文
70、134、136、138、234、236、238翻訳文
118、222データ結合・疑似トークン付与ユニット
120、224統合対訳データ
226転移学習ユニット
300、302、306、308、320、322、324、400、402、406、408、430、432、436、450、452、454 ステップ
304、404、434 処理

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 華為技術有限公司の「 モデル更新方法および装置、ならびにシステム」が 公開されました。( 2021/08/19)

    【課題・解決手段】本出願は、従来技術におけるモデルパフォーマンスの低下によるネットワークパフォーマンスの低下の問題を解決するための、モデル更新方法および装置、ならびにシステムを開示する。本方法は、第1... 詳細

  • 新妻弘崇の「 遅延メモリ行列を用いたotsu-gram」が 公開されました。( 2021/08/19)

    【課題】自然言語処理などで時系列データの特徴量として良く利用されるn-gramにおいてnを職人芸で調節しないといけない問題を解決し、自動的に適切な特徴が選択されるotsu-gramを提供する。【解決手... 詳細

  • 株式会社野村総合研究所の「 文章構造描画装置」が 公開されました。( 2021/08/19)

    【課題】特許出願書類などの比較的難読性の高い文章を分かりやすくするためのユーザインタフェース技術を提供する。【解決手段】文章構造描画装置は、文章を取得する手段と、取得された文章を構文解析する手段と、構... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ