図面 (/)

技術 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法

出願人 国立研究開発法人情報通信研究機構
発明者 リュウレモ藤田篤
出願日 2016年9月6日 (3年11ヶ月経過) 出願番号 2016-173329
公開日 2018年3月15日 (2年5ヶ月経過) 公開番号 2018-041184
状態 未査定
技術分野 学習型計算機 機械翻訳
主要キーワード 記憶制限 最大マージン 系列取得 訓練用データ 同時最適化 構造学習 引用記号 パラメータ最適化
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年3月15日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができ、精度の高いタグ系列を取得する語レベル信頼度推定システムを実現する。

解決手段

語レベル信頼度推定システム1000は、訓練用データ生成装置1と、語レベル信頼度推定装置2とを備える。訓練用データ生成装置1は、原文データおよび当該原文データに対応する対訳データから、訓練用データを生成する。語レベル信頼度推定装置2は、訓練用データ生成装置1により生成された訓練用データを用いて機械翻訳システムと語レベルの信頼度推定システムを最適化することにより、精度の高いタグ系列データを推定するシステムを実現させる。

概要

背景

MT訳に対して信頼度を付与する技術は、MT訳をそのまま使用するかどうかの意思決定、ユーザに対する品質申告等の観点で有用である。特にMT訳中の各語の適否推定する技術(MT訳における誤り箇所を自動的に特定する技術)は、システム・人間が協働で高品質な翻訳を実現する場合に、後編集が必要な箇所を示す用途や、MT訳をユーザがそのまま用いる場合に適切な箇所とそうでない箇所を判別する用途などで有用である。このため、MT訳に対して信頼度を付与する技術が種々開発されている。

MT訳における語レベルの信頼度推定(Word−level Quality Estimation(WQE))では、数万〜数十万種類に及ぶ語を評価する必要がある。このため、誤り箇所を検出する方法としては、ルールを人間が作成して用いるのではなく、研究の初期の段階から、もっぱら統計的機械学習に基づく方法が用いられてきた。Ueffingら(非特許文献1)は、機械翻訳システムMTシステム)が出力する上位N個の訳候補を、語をノードとするグラフによって表し、そこから訳候補中の個々の語が生起する条件付き確率を求め、事前に定めた閾値を超える語を「正」、それ以外の語を「否」に2値分類する方法を提案した。Gandraburら(非特許文献2)は、そのような条件付き確率をニューラルネットワークを用いて精緻化する方法を提案した。Blatsら(非特許文献3)は、原文の文長、MT訳中の語と原文中の語との対応付けスコア括弧引用記号の対応の是非などの新たな特徴量を導入した。その後も目的言語における単語の品詞情報(非特許文献4)やMT訳を原言語に翻訳し直したもの(非特許文献5)、原文中の対応する語の文脈情報(非特許文献6)など、統計的機械学習に用いる種々の特徴量(素性)が提案されてきた(非特許文献7)。統計的機械学習のフレームワークとしても個々の語を独立に捉えるだけでなく、MT訳を語の系列と捉えて過去の文脈における信頼度推定結果をふまえ系列ラベリング問題としての定式化(非特許文献6)や条件付き確率場(Conditional Random FieldsCRFs))による出力系列全体の最適化(構造学習)(非特許文献7、8)などが提案されている。

MT訳における語レベルの信頼度推定システムWQE(Word−level Quality Estimation)システムのモデルの学習に必要な訓練用データ正解データ)は、次の例のような(原文x,MT訳y,語の正否(タグ)の系列t)の3つ組を集積したものである。
原文x:あなた/は/22/時/まで/に/チェックイン/する/必要/が/あり/ます/。
MT訳y:You/should/check/in/by/twenty/two/o’clock/.
語の正否(タグ)の系列t:OK/BAD/OK/OK/OK/BAD/BAD/BAD/OK
なお、上記の各例における「/」は語の境界を表す。このような訓練用データは、MT訳yの個々の語に対して「OK」または「BAD」を人手で付与する方法(非特許文献9)、あるいはMT訳yを人手で編集して正しい訳(修正訳p)を作成した後に、編集された語を自動的に特定してそれらを「BAD」、それ以外の語を「OK」とする方法(非特許文献10)によって得られる。

このような技術を用いて、例えば図8に示す訓練用データ取得システム9000を構築することが考えられる。

図8に示す訓練用データ取得システム9000は、機械翻訳部91と、MT用データ格納部DB91と、タグ系列取得部92と、訓練用データ取得部93とを備える。

訓練用データ取得システム9000では、原文データxが機械翻訳部91により機械翻訳され機械翻訳文データyが取得される。そして機械翻訳文データyから人手により修正訳pを作成する処理Pro1が実行される。処理Pro1により取得された修正訳pと機械翻訳文データyとがタグ系列取得部92に入力される。タグ系列取得部92は、機械翻訳文データyと修正訳pとを比較し修正された語を特定し、修正された語に「BAD」というタグを付し、それ以外の語には「OK」というタグを付すことでタグ系列データtを取得する。

そして、訓練用データ取得部93は、原文データxと、機械翻訳文データyと、タグ系列データtとを組み合わせたデータDoutを訓練用データ格納部DB92に格納する。

訓練用データ取得システム9000において上記のように処理を行うことで、MT訳における語レベルの信頼度推定システム(WQEシステム)のモデルの学習に必要な訓練用データ(正解データ)(原文データxと、機械翻訳文データyと、タグ系列データtとを組み合わせたデータDout)を取得することができる。

概要

人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができ、精度の高いタグ系列を取得する語レベル信頼度推定システムを実現する。語レベル信頼度推定システム1000は、訓練用データ生成装置1と、語レベル信頼度推定装置2とを備える。訓練用データ生成装置1は、原文データおよび当該原文データに対応する対訳データから、訓練用データを生成する。語レベル信頼度推定装置2は、訓練用データ生成装置1により生成された訓練用データを用いて機械翻訳システムと語レベルの信頼度推定システムを最適化することにより、精度の高いタグ系列データを推定するシステムを実現させる。

目的

本発明は上記課題に鑑み、人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができる訓練用データ生成装置、訓練用データ生成方法を実現し、さらに、処理対象であるMT訳の性質、ひいてはそのような訳を生成するMTシステムの振る舞い)の不確定性をふまえた上で、人手による処理を介さず全自動で生成された訓練用データを用いて高精度な語レベル信頼度推定を可能とする語レベル信頼度推定装置、およびそれに用いられる最適パラメータ取得装置、最適パラメータ取得方法を実現することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

原文データおよび当該原文データに対応する対訳データを入力するためのデータ入力部と、前記原文データに対して機械翻訳処理を行い、機械翻訳文データを取得する機械翻訳部と、前記対訳データと前記機械翻訳文データとに基づいて前記機械翻訳文データの語レベル適否を示すタグ系列データを取得するタグ系列取得部と、前記原文データと前記対訳データと前記タグ系列データとを含む訓練用データを取得する訓練用データ取得部と、を備える訓練用データ生成装置

請求項2

原文データxと、前記原文データxに対して機械翻訳処理することで取得された機械翻訳文データyと、前記原文データxに対応する対訳データrと前記機械翻訳文データyとに基づいて取得された前記機械翻訳文データyの語レベルの適否を示すタグ系列データtとに基づいて、(1)前記原文データxから前記機械翻訳文データyを生成するMTステムであってMTシステム用パラメータθ1により特性が決定される前記MTシステムを最適化するとともに、(2)前記原文データxと前記機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定される前記WQEシステムを最適化する最適パラメータ取得装置であって、前記原文データxと、前記機械翻訳文データyと、前記タグ系列データtとを組み合わせたデータを収納するコーパスをコーパスD1とし、前記原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を<x,y,t>∈D1<x,r>∈D2とすると、前記目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する最適パラメータ取得部を備える最適パラメータ取得装置。

請求項3

前記最適パラメータ取得部は、正規化項Ω(θ1)を取得する正規化項取得部と、前記正規化項Ω(θ1)を最適化するMTシステム用パラメータθ1を最適第1パラメータθ1_optとして取得する第1目的関数算出部と、を備える請求項2に記載の最適パラメータ取得装置。

請求項4

前記最適パラメータ取得部は、目的関数f1(D1,θ1_opt,n)をΔθ1_opt,n(xk):MTシステムのパラメータをθ1_optとしたときの原文データxkに対する翻訳文データyのうち最適解からn番目に良い解までのn個(n:自然数)の翻訳文データの集合に設定し、前記目的関数f1(D1,θ1_opt,n)の値を最適値とするWQEシステム用パラメータθ2を最適第2パラメータθ2_optとして取得する第2目的関数算出部をさらに備える、請求項2に記載の最適パラメータ取得装置。

請求項5

原文データおよび当該原文データに対応する対訳データを入力するためのデータ入力ステップと、前記原文データに対して機械翻訳処理を行い、機械翻訳文データを取得する機械翻訳ステップと、前記対訳データと前記機械翻訳文データとに基づいて前記機械翻訳文データの語レベルの適否を示すタグ系列データを取得するタグ系列取得ステップと、前記原文データと前記対訳データと前記タグ系列データとを含む訓練用データを取得する訓練用データ取得ステップと、を備える訓練用データ生成方法

請求項6

原文データxと、前記原文データxに対して機械翻訳処理することで取得された機械翻訳文データyと、前記原文データxに対応する対訳データrと前記機械翻訳文データyとに基づいて取得された前記機械翻訳文データyの語レベルの適否を示すタグ系列データtとに基づいて、(1)前記原文データxから前記機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定される前記MTシステムを最適化するとともに、(2)前記原文データxと前記機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定される前記WQEシステムを最適化する最適パラメータ取得方法であって、前記原文データxと、前記機械翻訳文データyと、前記タグ系列データtとを組み合わせたデータを収納するコーパスをコーパスD1とし、前記原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を<x,y,t>∈D1<x,r>∈D2とすると、前記目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する最適パラメータ取得ステップを備える最適パラメータ取得方法。

技術分野

0001

本発明は、第1言語をその第1言語とは異なる第2言語に翻訳するための機械翻訳技術に関し、特に機械翻訳結果MT訳)に対して信頼度を付与する技術に関する。

背景技術

0002

MT訳に対して信頼度を付与する技術は、MT訳をそのまま使用するかどうかの意思決定、ユーザに対する品質申告等の観点で有用である。特にMT訳中の各語の適否推定する技術(MT訳における誤り箇所を自動的に特定する技術)は、システム・人間が協働で高品質な翻訳を実現する場合に、後編集が必要な箇所を示す用途や、MT訳をユーザがそのまま用いる場合に適切な箇所とそうでない箇所を判別する用途などで有用である。このため、MT訳に対して信頼度を付与する技術が種々開発されている。

0003

MT訳における語レベルの信頼度推定(Word−level Quality Estimation(WQE))では、数万〜数十万種類に及ぶ語を評価する必要がある。このため、誤り箇所を検出する方法としては、ルールを人間が作成して用いるのではなく、研究の初期の段階から、もっぱら統計的機械学習に基づく方法が用いられてきた。Ueffingら(非特許文献1)は、機械翻訳システムMTシステム)が出力する上位N個の訳候補を、語をノードとするグラフによって表し、そこから訳候補中の個々の語が生起する条件付き確率を求め、事前に定めた閾値を超える語を「正」、それ以外の語を「否」に2値分類する方法を提案した。Gandraburら(非特許文献2)は、そのような条件付き確率をニューラルネットワークを用いて精緻化する方法を提案した。Blatsら(非特許文献3)は、原文の文長、MT訳中の語と原文中の語との対応付けスコア括弧引用記号の対応の是非などの新たな特徴量を導入した。その後も目的言語における単語の品詞情報(非特許文献4)やMT訳を原言語に翻訳し直したもの(非特許文献5)、原文中の対応する語の文脈情報(非特許文献6)など、統計的機械学習に用いる種々の特徴量(素性)が提案されてきた(非特許文献7)。統計的機械学習のフレームワークとしても個々の語を独立に捉えるだけでなく、MT訳を語の系列と捉えて過去の文脈における信頼度推定結果をふまえ系列ラベリング問題としての定式化(非特許文献6)や条件付き確率場(Conditional Random FieldsCRFs))による出力系列全体の最適化(構造学習)(非特許文献7、8)などが提案されている。

0004

MT訳における語レベルの信頼度推定システムWQE(Word−level Quality Estimation)システムのモデルの学習に必要な訓練用データ正解データ)は、次の例のような(原文x,MT訳y,語の正否(タグ)の系列t)の3つ組を集積したものである。
原文x:あなた/は/22/時/まで/に/チェックイン/する/必要/が/あり/ます/。
MT訳y:You/should/check/in/by/twenty/two/o’clock/.
語の正否(タグ)の系列t:OK/BAD/OK/OK/OK/BAD/BAD/BAD/OK
なお、上記の各例における「/」は語の境界を表す。このような訓練用データは、MT訳yの個々の語に対して「OK」または「BAD」を人手で付与する方法(非特許文献9)、あるいはMT訳yを人手で編集して正しい訳(修正訳p)を作成した後に、編集された語を自動的に特定してそれらを「BAD」、それ以外の語を「OK」とする方法(非特許文献10)によって得られる。

0005

このような技術を用いて、例えば図8に示す訓練用データ取得システム9000を構築することが考えられる。

0006

図8に示す訓練用データ取得システム9000は、機械翻訳部91と、MT用データ格納部DB91と、タグ系列取得部92と、訓練用データ取得部93とを備える。

0007

訓練用データ取得システム9000では、原文データxが機械翻訳部91により機械翻訳され機械翻訳文データyが取得される。そして機械翻訳文データyから人手により修正訳pを作成する処理Pro1が実行される。処理Pro1により取得された修正訳pと機械翻訳文データyとがタグ系列取得部92に入力される。タグ系列取得部92は、機械翻訳文データyと修正訳pとを比較し修正された語を特定し、修正された語に「BAD」というタグを付し、それ以外の語には「OK」というタグを付すことでタグ系列データtを取得する。

0008

そして、訓練用データ取得部93は、原文データxと、機械翻訳文データyと、タグ系列データtとを組み合わせたデータDoutを訓練用データ格納部DB92に格納する。

0009

訓練用データ取得システム9000において上記のように処理を行うことで、MT訳における語レベルの信頼度推定システム(WQEシステム)のモデルの学習に必要な訓練用データ(正解データ)(原文データxと、機械翻訳文データyと、タグ系列データtとを組み合わせたデータDout)を取得することができる。

先行技術

0010

Nicola Ueffing, Klaus Macherey, and Hermann Ney (2003). Confidence Measures for Statistical Machine Translation. In Proceedings of Machine Translation Summit IX, pp. 394-401.
Simona Gandrabur and George Foster (2003). Confidence Estimation for Translation Prediction. In Proceedings of the Seventh Conference on Natural Language Learning (CoNLL), pp. 95-102.
John Blats, Erin Fitzgerald, George Foster, Simona Grandrabur, Cyril Goutte, Alex Kulesza, Alberto Sanchis, and Nicola Ueffing (2004). Confidence Estimation for Machine Translation. In Proceedings of the 20th International Conference on Computational Linguistics (COLING), pp. 315-321.
Deyi Xiong, Min Zhang, and Haizhou Li (2010). Error Detection for Statistical Machine Translation Using Linguistic Features. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 604-611.
Nguyen Bach, Matthias Eck, Paisarn Charoenpornsawat, Thilo Khler, Sebastian Stker, ThuyLinh Nguyen, Roger Hsiao, Alex Waibel, Stephan Vogel, Tanja Schultz, and Alan Black (2007). The CMU TransTac 2007 Eyes-free and Hands-free Two-way Speech-to-Speech Translation System. In Proceedings of the International Workshop on Spoken Language Translation, 8 pages.
Nguyen Bach, Fei Huang and Yaser Al-Onaizan (2011). Goodness: A Method for Measuring Machine Translation Confidence. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 211-219.
Ngoc Quang Luong, Laurent Besacier, and Benjamin Lecouteux (2014). LIG System for Word Level QE task at WMT14. In Proceedings of the 9th Workshop on Statistical Machine Translation (WMT), pp.335-341.
Lucia Specia, Gustavo Paetzold, and Carolina Scarton (2015). Multi-level Translation Quality Prediction with QuEst++. In Proceedings of ACL-IJCNLP 2015 System Demonstrations, pp. 115-120.
Ondrej Bojar, Christian Buck, Christian Federmann, Barry Haddow, Philipp Koehn, Johannes Leveling, Christof Monz, Pavel Pecina, Matt Post, Herve Saint-Amand; Radu Soricut, Lucia Specia, and Ales Tamchyna (2014). Findings of the 2014 Workshop on Statistical Machine Translation. In Proceedings of the 9th Workshop on Statistical Machine Translation (WMT), pp. 12-58.
Ondrej Bojar, Rajen Chatterjee, Christian Federmann, Barry Haddow, Matthias Huck, Chris Hokamp, Philipp Koehn, Varvara Logacheva, Christof Monz, Matteo Negri, Matt Post, Carolina Scarton, Lucia Specia, and Marco Turchi (2015). Findings of the 2015 Workshop on Statistical Machine Translation. In Proceedings of the 2015 Workshop on Statistical Machine Translation (WMT), pp. 1-46.

発明が解決しようとする課題

0011

一般的に統計的機械学習に基づく方法は訓練用データが大きいほど性能が高い。しかしながら統計的機械学習に基づくWQE用の訓練用データの作成には人手が不可欠であるため、訓練用データの大規模化が困難である。例えば上記のような従来技術を用いた訓練用データ取得システム9000においても、機械翻訳文データyから人手により修正訳pを作成する処理Pro1を行う必要があり、多量の訓練用データを取得するには時間と費用がかかる課題がある。

0012

また、既存のWQEシステムの構築手法においては、訓練用データを取得するために使用されたMTシステム(原文データxから機械翻訳文データyを生成するMTシステム)の性質既知であることを前提として訓練用データに対する最適化が行われている。しかしながら実際にWQEシステムを構築する場面においては、処理対象であるMT訳を生成するのに用いられたMTシステムの性質が既知とは限らないため、より頑健な学習手法が必要である。

0013

本発明は上記課題に鑑み、人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができる訓練用データ生成装置、訓練用データ生成方法を実現し、さらに、処理対象であるMT訳の性質、ひいてはそのような訳を生成するMTシステムの振る舞い)の不確定性をふまえた上で、人手による処理を介さず全自動で生成された訓練用データを用いて高精度な語レベル信頼度推定を可能とする語レベル信頼度推定装置、およびそれに用いられる最適パラメータ取得装置、最適パラメータ取得方法を実現することを目的とする。

0014

また本発明は、訓練用データ生成装置と語レベル信頼度推定装置とを備える語レベル信頼度推定システムや最適パラメータ取得装置を実現することを目的とする。

課題を解決するための手段

0015

上記課題を解決するために第1の発明は、データ入力部と、機械翻訳部と、タグ系列取得部と、訓練用データ取得部と、を備える訓練用データ生成装置である。

0016

データ入力部は、原文データおよび当該原文データに対応する対訳データを入力するための機能部である。

0017

機械翻訳部は、原文データに対して機械翻訳処理を行い、機械翻訳文データを取得する。
タグ系列取得部は、対訳データと機械翻訳文データとに基づいて機械翻訳文データの語レベルの適否を示すタグ系列データを取得する。

0018

訓練用データ取得部は、原文データと対訳データとタグ系列データとを含む訓練用データを取得する。

0019

この訓練用データ生成装置では、人手による処理を行うことなく全自動で訓練用データを取得することができる。この訓練用データ生成装置に入力するデータは、原文データとその対訳データを含むものであればよいので、既存の対訳コーパスデータを活用することができる。既存の対訳コーパスデータは大量に存在するため、このような対訳コーパスデータをこの訓練用データ生成装置に入力することで、この訓練用データ生成装置1において大量の訓練用データを効率良く取得することができる。

0020

第2の発明は、原文データxと、原文データxに対して機械翻訳処理することで取得された機械翻訳文データyと、原文データxに対応する対訳データrと機械翻訳文データyとに基づいて取得された機械翻訳文データyの語レベルの適否を示すタグ系列データtとに基づいて、
(1)原文データxから機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定されるMTシステムを最適化するとともに、(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定されるWQEシステムを最適化する最適パラメータ取得装置である。最適パラメータ取得装置は、最適パラメータ取得部を備える。

0021

最適パラメータ取得部は、原文データxと、機械翻訳文データyと、タグ系列データtとを組み合わせたデータを収納するコーパスをコーパスD1とし、
原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を

<x,y,t>∈D1
<x,r>∈D2
とすると、目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する。

0022

この最適パラメータ取得装置では、機械翻訳文データy自体を不確定な要素(隠れ変数)とみなし、
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム、
の2つを最適化する処理を行うことができる。したがってこの最適パラメータ取得装置により取得したパラメータにより構築されたWQEシステムを用いて、入力データ(<原文データx、機械翻訳文データy>)を処理することで、精度の高いタグ系列データtを取得することができる。

0023

第3の発明は、第2の発明であって、最適パラメータ取得部は、正規化項Ω(θ1)を取得する正規化項取得部と、正規化項Ω(θ1)を最適化するMTシステム用パラメータθ1を最適第1パラメータθ1_optとして取得する第1目的関数算出部と、を備える。

0024

この最適パラメータ取得装置では、正規化項Ω(θ1)を算出することで、正規化項Ω(θ1)を最適化する最適第1パラメータθ1_optを取得することができる。したがって、この最適パラメータ取得装置では、少ない演算量で(小さい計算コストで)最適第1パラメータθ1_optを取得することができる。

0025

第4の発明は、第2の発明であって、第2目的関数算出部をさらに備える。

0026

第2目的関数算出部は、目的関数f1(D1,θ1_opt,n)を

Δθ1_opt,n(xk):MTシステムのパラメータをθ1_optとしたときの原文データxkに対する翻訳文データyのうち最適解からn番目に良い解までのn個(n:自然数)の翻訳文データの集合
に設定し、目的関数f1(D1,θ1_opt,n)の値を最適値とするWQEシステム用パラメータθ2を最適第2パラメータθ2_optとして取得する。

0027

この最適パラメータ取得装置では、機械翻訳文データy自体を不確定な要素(隠れ変数)とみなし、
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム、
の2つを最適化する処理を行うことができる。したがって、この最適パラメータ取得装置により取得したパラメータにより構築されたWQEシステムを用いて、入力データ(<原文データx、機械翻訳文データy>)を処理することで、精度の高いタグ系列データtを取得することができる。

0028

さらに、この最適パラメータ取得装置では、目的関数f1(D1,θ1_opt,n)の最適化処理をnベスト解のみを用いて処理を行うため、パラメータ最適化処理の演算量をさらに低減することができる。

0029

第5の発明は、データ入力ステップと、機械翻訳ステップと、タグ系列取得ステップと、訓練用データ取得ステップと、を備える訓練用データ生成方法である。

0030

データ入力ステップは、原文データおよび当該原文データに対応する対訳データを入力する。

0031

機械翻訳ステップは、原文データに対して機械翻訳処理を行い、機械翻訳文データを取得する。

0032

タグ系列取得ステップは、対訳データと機械翻訳文データとに基づいて機械翻訳文データの語レベルの適否を示すタグ系列データを取得する。

0033

訓練用データ取得ステップは、原文データと対訳データとタグ系列データとを含む訓練用データを取得する。

0034

これにより、第1の発明と同様の効果を奏する訓練用データ生成方法を実現することができる。

0035

第6の発明は、原文データxと、原文データxに対して機械翻訳処理することで取得された機械翻訳文データyと、原文データxに対応する対訳データrと機械翻訳文データyとに基づいて取得された機械翻訳文データyの語レベルの適否を示すタグ系列データtとに基づいて、
(1)原文データxから機械翻訳文データyを生成するMTシステムであってMTシステム用パラメータθ1により特性が決定されるMTシステムを最適化するとともに、(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステムであってWQEシステム用パラメータθ2により特性が決定されるWQEシステムを最適化する最適パラメータ取得方法である。最適パラメータ取得方法は、最適パラメータ取得ステップを備える。

0036

最適パラメータ取得ステップは、原文データxと、機械翻訳文データyと、タグ系列データtとを組み合わせたデータを収納するコーパスをコーパスD1とし、
原文データxに対応する対訳データrとを組み合わせたデータを収納するコーパスをコーパスD2とし、目的関数f0(D1,D2)を

<x,y,t>∈D1
<x,r>∈D2
とすると、目的関数f0(D1,D2)が最適化されるときのパラメータθ1、θ2の組データ<θ1_o,θ2_o>を取得する。

0037

これにより、第2の発明と同様の効果を奏する最適パラメータ取得方法を実現することができる。

発明の効果

0038

本発明によれば、人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができる訓練用データ生成装置、訓練用データ生成方法を実現させ、さらに、処理対象であるMT訳の性質の不確定性をふまえた上で、人手による処理を介さず全自動で生成された訓練用データを用いて高精度な語レベル信頼度推定を可能とする語レベル信頼度推定装置、およびそれに用いられる最適パラメータ取得装置、最適パラメータ取得方法を実現することができる。

0039

また、本発明によれば、訓練用データ生成装置と語レベル信頼度推定装置とを備える語レベル信頼度推定システムや最適パラメータ取得装置を実現することができる。

図面の簡単な説明

0040

第1実施形態に係る語レベル信頼度推定システム1000の概略構成図。
第1実施形態に係る訓練用データ生成装置1の概略構成図。
第1実施形態に係る語レベル信頼度推定装置2の概略構成図。
タグ系列取得部13で実行される処理を説明するための図。
第2実施形態に係る語レベル信頼度推定システム2000の概略構成図。
第2実施形態に係る語レベル信頼度推定装置2Aの概略構成図。
CPUバス構成を示す図。
従来技術による訓練用データ取得システム9000の概略構成図。

実施例

0041

[第1実施形態]
第1実施形態について、図面を参照しながら、以下説明する。

0042

<1.1:語レベル信頼度推定システムの構成>
図1は、第1実施形態に係る語レベル信頼度推定システム1000の概略構成図である。

0043

図2は、第1実施形態に係る訓練用データ生成装置1の概略構成図である。

0044

図3は、第1実施形態に係る語レベル信頼度推定装置2の概略構成図である。

0045

語レベル信頼度推定システム1000は図1に示すように、訓練用データ生成装置1と、語レベル信頼度推定装置2と、訓練用データ格納部DB1と、を備える。

0046

訓練用データ生成装置1は図2に示すように、データ入力部11と、機械翻訳部12と、MT用データ格納部DB12と、タグ系列取得部13と、訓練用データ取得部14と、を備える。

0047

データ入力部11は図2に示すように、入力IF(インターフェース)111と、原文データ取得部112と、対訳データ取得部113と、を備える。

0048

入力IF111は、入力データDinを入力するためのインターフェースである。入力データDinは、(1)原文データxと、(2)原文データxの対訳データ(翻訳データ)rとを含む。入力IF111は、例えば入力IF111を制御する制御部(不図示)により生成される入出力制御信号に基づいて入力データDinの一部または全部を、原文データ取得部112、および/または、対訳データ取得部113に出力する。

0049

原文データ取得部112は、入力IF111から出力されるデータを入力とし、当該データから原文データxを取得し、機械翻訳部12および訓練用データ取得部14に出力する。

0050

対訳データ取得部113は、入力IF111から出力されるデータを入力とし、当該データから対訳データrを取得し、取得した対訳データrをタグ系列取得部13に出力する。

0051

機械翻訳部12は、原文データ取得部112から出力される原文データxを入力する。また機械翻訳部12は、MT用データ格納部DB12にアクセスできるように接続されており、所定のタイミングでMT用データ格納部DB12のデータの読み出しを行うことができる。機械翻訳部12は、原文データxに対して機械翻訳処理を行い、機械翻訳文データyを取得し、タグ系列取得部13および訓練用データ取得部14に出力する。

0052

なお「機械翻訳処理」とは、第1言語のデータである原文データxを第1言語とは異なる言語である第2言語のデータyに翻訳(変換)する処理のことをいう。

0053

MT用データ格納部DB12は、機械翻訳処理に使用するデータを格納するためのデータ記憶部であり、機械翻訳部12と接続されている。MT用データ格納部DB12では、機械翻訳部12からの指示に従って格納されているデータの読み出しの処理が実行される。

0054

タグ系列取得部13は、機械翻訳部12から出力される機械翻訳文データyと、対訳データ取得部113から出力される対訳データrとを入力する。タグ系列取得部13は、機械翻訳文データyと対訳データrとを比較し異なる語を特定し、例えば異なる語に「BAD」というタグを付し、それ以外の語には「OK」というタグを付すことでタグ系列データtを取得する。なおタグ系列データは、数値化したデータ列としてもよい。タグ系列取得部13は、例えば、「BAD」というタグを付したことを「1」で示し、「OK」というタグを付したことを「0」で示すことで数値化し、タグ系列データを数値化したデータ列として取得するようにしてもよい。

0055

タグ系列取得部13は、取得したタグ系列データtを訓練用データ取得部14に出力する。

0056

訓練用データ取得部14は、原文データ取得部112から出力される原文データxと、機械翻訳部12から出力される機械翻訳文データyと、タグ系列取得部13から出力されるタグ系列データtとを入力する。訓練用データ取得部14は、原文データxと、機械翻訳文データyと、タグ系列データtとを1組の訓練用データData1として出力し訓練用データ格納部DB1に格納する。

0057

訓練用データ格納部DB1は、訓練用データを格納するためのデータ記憶部である。訓練用データ格納部DB1には、訓練用データ生成装置1により生成された訓練用データData1を格納することができる。また、訓練用データ格納部DB1に格納されている訓練用データは、語レベル信頼度推定装置2から取り出すことができる。

0058

語レベル信頼度推定装置2は図3に示すように、最適パラメータ取得部21(最適パラメータ取得装置)と、タグ系列推定部22と、対訳コーパスデータ格納部DB21と、を備える。

0059

最適パラメータ取得部21は、第1パラメータ調整部211と、正規化項取得部212と、第2パラメータ調整部213と、目的関数算出部214とを備える。

0060

第1パラメータ調整部211は、原文データxを入力したとき機械翻訳文データyを出力するMTシステムのパラメータである第1パラメータθ1を目的関数算出部214および正規化項取得部212に出力する。

0061

正規化項取得部212は、対訳コーパスデータ格納部DB21とアクセスできるように接続されている。また、正規化項取得部212は、第1パラメータ調整部211から出力される第1パラメータθ1を入力する。正規化項取得部212は、対訳コーパスデータ格納部DB21に格納されている対訳コーパスデータに基づいて、第1パラメータθ1の正規化項データΩ(θ1)を取得する。そして、正規化項取得部212は、取得した正規化項データΩ(θ1)を目的関数算出部214に出力する。

0062

第2パラメータ調整部213は、原文データxと、それに対応する機械翻訳文データyとを入力したときにタグ系列データtを出力するWQEシステムのパラメータである第2パラメータθ2を目的関数算出部214に出力する。

0063

目的関数算出部214は、訓練用データ格納部DB1から訓練用データを訓練用データData2(=<x,y,t>)として取得する。また、目的関数算出部214は、第1パラメータ調整部211から出力される第1パラメータθ1と、正規化項取得部212から出力される正規化項データΩ(θ1)と、第2パラメータ調整部213から出力される第2パラメータθ2とを入力する。目的関数算出部214は、第1パラメータθ1と、第2パラメータθ2と、正規化項データΩ(θ1)とにより目的関数の値を算出し、目的関数の値が最適化されるときの第1パラメータθ1および第2パラメータθ2の組データ<θ1_o,θ2_o>を取得する。そして、目的関数算出部214は、取得した第2パラメータθ2_oを最適第2パラメータθ2_optとしてタグ系列推定部22に出力する。

0064

タグ系列推定部22では、目的関数算出部214から出力される最適第2パラメータθ2_optに基づいて、タグ系列推定部22のタグ系列の推定処理を行うためのシステムモデルが構築される。タグ系列推定部22は、原文データx’と機械翻訳文データy’とを含むデータData_inを入力する。そして、タグ系列推定部22は、入力されたデータData_inの原文データx’と機械翻訳文データy’とから、最適第2パラメータθ2_optに基づいて構築されたモデルにより、タグ系列の推定処理を実行する。そして、タグ系列推定部22は、上記推定処理により取得されたタグ系列データt’を出力データData_outとして出力する。

0065

<1.2:語レベル信頼度推定システムの動作>
以上のように構成された語レベル信頼度推定システム1000の動作について、図面を参照しながら以下説明する。以下では語レベル信頼度推定システム1000の動作について、訓練用データ生成装置1の動作と語レベル信頼度推定装置2の動作に分けて説明する。

0066

(1.2.1:訓練用データ生成装置1の動作)
まず、訓練用データ生成装置1の動作について説明する。

0067

データ入力部11の入力IFに(1)原文データxと、(2)原文データxの対訳データ(翻訳データ)rとを含む入力データDinが入力される。

0068

原文データ取得部112は、入力データDinから原文データxを取得し、機械翻訳部12および訓練用データ取得部14に出力する。

0069

対訳データ取得部113は、入力データDinから対訳データrを取得し、取得した対訳データrをタグ系列取得部13に出力する。

0070

機械翻訳部12は、MT用データ格納部DB12に格納されているMT用データを参照しながら原文データxに対して機械翻訳処理を行い、原文データxの機械翻訳文データyを取得する。そして、機械翻訳部12は、取得した機械翻訳文データyをタグ系列取得部13および訓練用データ取得部14に出力する。

0071

タグ系列取得部13は、機械翻訳部12から出力される機械翻訳文データyと、対訳データ取得部113から出力される対訳データrとを比較し異なる語を特定し、例えば異なる語に「BAD」というタグを付し、それ以外の語には「OK」というタグを付すことでタグ系列データtを取得する。一例について、図4を用いて説明する。

0072

図4は、タグ系列取得部13で実行される処理を説明するための図である。

0073

図4の場合、機械翻訳部12が原文データxである「あなたは22時までにチェックインする必要があります。」というデータを機械翻訳し、機械翻訳文データyとして「You should check in by twenty two o'clock.」というデータを取得する。そして機械翻訳文データyがタグ系列取得部13に入力される。また、対訳データr「You have to check in by 22:00.」がデータ入力部11の対訳データ取得部113からタグ系列取得部13に入力される。

0074

タグ系列取得部13は、図4に示すように、機械翻訳文データyと対訳データrとを比較し、比較結果Rcmpを取得する。図4において、比較結果Rcmpの「=」、「Sub」、「Del」および「Ins」の意味は以下の通りである。

0075

「=」は、機械翻訳文データyと対訳データrとにおいて対応する語が一致していることを示している。

0076

「Sub」は、機械翻訳文データyと対訳データrとにおいて対応する語が相違していることを示している。

0077

「Del」は、機械翻訳文データyと対訳データrとにおいて語の対応関係が相違しており、かつ、対訳データrに存在する語に対応する語が機械翻訳文データyに存在しないことを示している。

0078

「Ins」は、機械翻訳文データyと対訳データrとにおいて語の対応関係が相違しており、かつ、機械翻訳文データyに存在する語に対応する語が対訳データrに存在しないことを示している。

0079

タグ系列取得部13は、取得した比較結果Rcmpに基づいて、比較結果Rcmpが「=」である機械翻訳文データyの語のラベルを「OK」に設定し、比較結果Rcmpが「=」ではない(比較結果Rcmpが「Sub」、「Del」または「Ins」である)機械翻訳文データyの語のラベルを「BAD」に設定する。

0080

このようにして、タグ系列取得部13は、タグ系列データtを取得する。そしてタグ系列取得部13により取得されたタグ系列データtは、タグ系列取得部13から訓練用データ取得部14に出力される。

0081

訓練用データ取得部14は、原文データxと、それに対応する機械翻訳文データyおよびタグ系列データtとを1組の訓練用データData1として訓練用データ格納部DB1に格納する。

0082

以上のように、訓練用データ生成装置1では、人手による処理を行うことなく全自動で訓練用データData1を取得することができる。訓練用データ生成装置1に入力するデータは、原文データxとその対訳データrを含むものであればよいので、既存の対訳コーパスデータを活用することができる。既存の対訳コーパスデータは大量に存在するため、このような対訳コーパスデータを訓練用データ生成装置1に入力することで、訓練用データ生成装置1では、大量の訓練用データを効率良く取得することができる。

0083

(1.2.2:語レベル信頼度推定装置2の動作)
次に、語レベル信頼度推定装置2の動作について説明する。

0084

≪語レベル信頼度推定方法
語レベル信頼度推定装置2で実行される語レベル信頼度推定方法について説明する。

0085

語レベル信頼度推定装置2では、機械翻訳文データy自体を不確定な要素(隠れ変数)とみなし、
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム
の2つを、最大マージン尤度推定(Maximum Marginal Likelihood Estimation(M2LE))によって最適化する処理を行う。

0086

最適化の目的関数は次式のように表される。



P()は確率密度関数を表している。

0087

ここで、Δ(xk)は対訳コーパスD中のk番目の原文xkに対するあらゆるMT訳(機械翻訳データ)の集合、tk,jはxkに対する模範訳rkおよびj番目のMT訳yk,jから訓練用データ生成装置1で実行される処理(手法)で得られるタグ系列を表す。θはパラメータである。パラメータθは、スカラーベクトル、またはテンソルである。まず、(数式1)中の同時確率を次式のように分解する。



この式の第1因子は原文のモデル、第2因子はMTシステムのモデル(以下「MTモデル」という)、第3因子はWQEシステムのモデル(以下「WQEモデル」という)を表す。パラメータもθ=(θorg,θ1,θ2)に分解されている。パラメータθorg,θ1,θ2は、それぞれ、スカラー、ベクトル、またはテンソルである。原文モデルは所与の訓練用データから次式で推定する。



なお、δ(x,xk)はデルタ関数であり、x=xkのとき値1をとり、それ以外のときは値0をとる。

0088

(数式2)および(数式3)を(数式1)に代入して変形すると次式を得る。



上式において、Cは定数である。定数CはN個の原文x(原文データx)に重複がない場合、「NlogN」となる。なお上式において、第2項は定数であるので以下では省略する。

0089

さて、最適化の対象であるMTモデルのパラメータθ1およびWQEモデルのパラメータθ2を同時に最適化することを考える場合、パラメータθ1の最適化が不適切だった場合に、全体としての最適化に失敗する。例えば、MTモデルの性能が著しく低く、任意の入力に対して正しい訳を1語も含まない出力しかしない場合、タグ系列tも「BAD」のみで構成されることになり、WQE用の訓練用データとしては全く意味をなさない。

0090

そこで、語レベル信頼度推定装置2では、MTシステムの訳yは隠れ変数としており、明示的な情報は与えられない。その代わり、対訳コーパスを用い、その中の(原文x,参照訳r)の組の再現性を考慮する。言い換えれば、人間による対訳をできる限り忠実に再現するようにMTシステムのモデルを学習する。ただし、過学習を避けるために、(数式2)の第2因子の学習に参照していない別の対訳コーパスD2を用いることが好ましい。MTシステムのモデルの対訳コーパスD2に対する適合度合いΩ(θ1)を、正規化項として導入すると、最適化の目的関数は次式のようになる。



(数式5)にはlogΣが含まれるため、最適化の過程における勾配計算が困難である。

0091

そこで、語レベル信頼度推定装置2では、次式で表される、目的関数の下限を最適化する処理を行う。



つまり、(数式6)が、語レベル信頼度推定装置2において実行される最適化処理の目的関数の最終形である。Jensenの不等式より、(数式5)の値は常に(数式6)以上となる。

0092

(数式6)におけるパラメータθ1、θ2の同時最適化は、例えば、MTモデルのパラメータθ1の最適化とWQEモデルのパラメータθ2の最適化を、EMアルゴリズムによって交互に行うことで実現できる。

0093

なお、上記で説明した表記法は以下でも同様に用いる。

0094

≪語レベル信頼度推定装置2の具体的動作≫
上記に基づく語レベル信頼度推定装置2の具体的動作について、以下説明する。

0095

最適パラメータ取得部21の目的関数算出部214は、訓練用データ格納部DB1から訓練用データを訓練用データData2(=(x,y,t))として取得する。

0096

なお、目的関数算出部214が訓練用データ格納部DB1から取得するデータにおいて、k番目(k:自然数)の原文データをxkと表記し、訓練用データ格納部DB1に格納されている原文データxkに対する機械翻訳文データの集合をΔ(xk)と表記する。

0097

また、原文データxkに対する対訳データをrkと表記する。

0098

また、原文データxkに対するj番目(j:自然数)の機械翻訳文データをyk,jと表記する。なお、原文データxkに対する機械翻訳文データの数をnum(xk)とすると、j≦num(xk)である。

0099

また、原文データxkに対する対訳データ(模範訳)rkと、原文データxkに対するj番目の機械翻訳文データをyk,jとから取得され、訓練用データ格納部DB1に格納されているタグ系列データをtk、jと表記する。

0100

また、訓練用データ格納部DB1が格納している原文データx、機械翻訳文データy、タグ系列データtの組データ<x,y,t>の集合データ(コーパス)をコーパスD1とし、コーパスD1に含まれる任意の原文データx、機械翻訳文データy、タグ系列データtの組データ<x,y,t>を、
<x,y,t>∈D1
と表記する。

0101

また対訳コーパスデータ格納部DB2が格納している原文データx、対訳データrの組データ<x,r>の集合データ(コーパス)をコーパスD2とし、コーパスD2に含まれる任意の原文データx、対訳データrの組データ<x,r>を、
<x,r>∈D2
と表記する。

0102

以下では説明便宜のために、原文データxがN個(N:自然数)のデータからなり、原文データxk(k:自然数)についての対訳データr、タグ系列データtが、それぞれMk個(Mk:自然数)存在する場合を例に説明する。つまり語レベル信頼度推定装置2において、以下のようなデータ(コーパスD1に含まれるデータ<x,y,t>およびコーパスD2に含まれるデータ<x,r>)を処理する場合について説明する。

0103

(A)データ<x,y,t>(∈D1)
≪x1に対するM1個の翻訳文データyおよびタグ系列データt≫
<x1,y1,1,t1,1>
<x1,y1,2,t1,2>
<x1,y1,3,t1,3>
・・・
<x1,y1,M1,t1,M1>
≪x2に対するM2個の翻訳文データyおよびタグ系列データt≫
<x2,y2,1,t2,1>
<x2,y2,2,t2,2>
<x2,y2,3,t2,3>
・・・
<x2,y2,M2,t2,M2>
≪xkに対するMk個の翻訳文データyおよびタグ系列データt≫
<xk,yk,1,tk,1>
<xk,yk,2,tk,2>
<xk,yk,3,tk,3>
・・・
<xk,yk,Mk,tk,Mk>
≪xNに対するMN個の翻訳文データyおよびタグ系列データt≫
<xN,yN,1,tN,1>
<xN,yN,2,tN,2>
<xN,yN,3,tN,3>
・・・
<xN,yN,MN,tN,MN>
(M1、M2、Mk、MN:自然数)
(B)データ<x,r>(∈D2)
≪x1に対するP1個の対訳データr≫
<x1,r1,1>
<x1,r1,2>
<x1,r1,3>
・・・
<x1,r1,P1>
≪x2に対するP2個の翻訳文データyおよびタグ系列データt≫
<x2,r2,1>
<x2,r2,2>
<x2,r2,3>
・・・
<x2,r2,P2>
≪xkに対するPk個の翻訳文データyおよびタグ系列データt≫
<xk,rk,1>
<xk,rk,2>
<xk,rk,3>
・・・
<xk,rk,Pk>
≪xNに対するPN個の翻訳文データyおよびタグ系列データt≫
<xN,rN,1>
<xN,rN,2>
<xN,rN,3>
・・・
<xN,rN,PN>
(P1、P2、Pk、PN:自然数)
目的関数算出部214は、以下の数式で表される関数f0(D1,D2)(<x,y,t>∈D1、<x,r>∈D2)を最適化の目的関数に設定する。



正規化項取得部212は、対訳コーパスデータ格納部DB21に格納されている対訳コーパスデータ<原文データx、対訳データr>(対訳コーパスデータD2)に基づいて、第1パラメータθ1の正規化項データΩ(θ1)を以下の数式に相当する処理により取得する。



つまり正規化項取得部212は、対訳コーパスデータD2に含まれる全ての<原文データx、対訳データr>についての対数確率密度関数logP(r|x:θ1)を加算することで、正規化項データΩ(θ1)を取得する。なお第1パラメータθ1は、MTモデルのパラメータである。

0104

正規化項取得部212は、上記のようにして取得した正規化項データΩ(θ1)を目的関数算出部214に出力する。

0105

目的関数算出部214は、正規化項データΩ(θ1)を用いて目的関数f0の値を算出する。

0106

目的関数f0におけるにおけるパラメータθ1、θ2の同時最適化は、例えば、MTモデルのパラメータθ1(第1パラメータθ1)の最適化とWQEモデルのパラメータθ2(第2パラメータθ2)の最適化を、例えば、EMアルゴリズムによって交互に行うことで実現できる。

0107

目的関数算出部214は、EMアルゴリズムにより順次調整される、第1パラメータ調整部211から出力されるパラメータθ1と第2パラメータ調整部213から出力されるパラメータθ2とを用いて目的関数f0の値を算出し、目的関数f0の値が最適な値となったときのMTモデルのパラメータθ1(第1パラメータθ1)とWQEモデルのパラメータθ2(第2パラメータθ2)との組データ<θ1_o,θ2_o>を取得する。そして、目的関数算出部214は、取得した第2パラメータθ2_oを最適第2パラメータθ2_optとしてタグ系列推定部22に出力する。

0108

タグ系列推定部22では、最適パラメータ取得部21の目的関数算出部214から出力された最適第2パラメータθ2_opt(WQEモデルの最適パラメータθ2)に基づくWQEモデルが構築される。つまり、タグ系列推定部22は、最適第2パラメータθ2_optにより特定される特性を有するWQEモデルが構築されている状態となる。

0109

タグ系列推定部22では、入力データData_in(<原文データx’、機械翻訳文データy’>)に対して、上記第2パラメータθ2_optにより設定されたWQEモデルを用いた処理が実行され、タグ系列データt’が取得される。そして、タグ系列推定部22は、取得したタグ系列データt’を出力データData_outとして出力する。

0110

以上のように語レベル信頼度推定装置2では、機械翻訳文データy自体を不確定な要素(隠れ変数)とみなし、
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム
の2つを最適化する処理を行う。

0111

そして語レベル信頼度推定装置2では、MTシステムとWQEシステムを最適化したときのパラメータを用いて構築したWQEシステムに基づく処理を行うタグ系列推定部22により、入力データData_in(<原文データx’、機械翻訳文データy’>)を処理することで、精度の高いタグ系列データtを取得することができる。つまり、語レベル信頼度推定装置2では、入力データData_in(<原文データx’、機械翻訳文データy’>)から、それに対応する精度の高いタグ系列データtを取得することができるので、高精度な語レベル信頼度推定が可能となる。

0112

以上の通り、語レベル信頼度推定システム1000では、訓練用データ生成装置1により、人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができ、さらに、語レベル信頼度推定装置2により、処理対象であるMT訳の性質(ひいてはそのような訳を生成するMTシステムの振る舞い)の不確定性をふまえた上で、人手による処理を介さず全自動で生成された訓練用データを用いて高精度な語レベル信頼度推定が可能となる。

0113

[第2実施形態]
次に第2実施形態について説明する。

0114

なお第1実施形態と同様の部分については、同一符号を付し詳細な説明を省略する。

0115

<2.1:語レベル信頼度推定システムの構成>
図5は、第2実施形態に係る語レベル信頼度推定システム2000の概略構成図である。

0116

図6は、第2実施形態に係る語レベル信頼度推定装置2Aの概略構成図である。

0117

第2実施形態の語レベル信頼度推定システム2000は、図5に示すように、第1実施形態の語レベル信頼度推定システム1000において、語レベル信頼度推定装置2を語レベル信頼度推定装置2Aに置換した構成を有している。

0118

語レベル信頼度推定装置2Aは、図6に示すように、第1実施形態の最適パラメータ取得部21を最適パラメータ取得部21Aに置換した構成を有している。

0119

最適パラメータ取得部21Aは、図6に示すように、第1パラメータ調整部211と、正規化項取得部212と、第1目的関数算出部215と、第2パラメータ調整部213と、第2目的関数算出部216と、を備える。

0120

第1目的関数算出部215は、訓練用データ格納部DB1から訓練用データを訓練用データData2(=<x,y,t>)として取得する。また第1目的関数算出部215は、第1パラメータ調整部211から出力される第1パラメータθ1と、正規化項取得部212から出力される正規化項データΩ(θ1)とを入力する。第1目的関数算出部215は、第1パラメータθ1と、正規化項データΩ(θ1)とにより第1目的関数の値を算出し、第1目的関数の値が最適化されるときの第1パラメータθ1を最適第1パラメータθ1_optとして取得する。そして、第1目的関数算出部215は、取得した最適第1パラメータθ1_optを第2目的関数算出部216に出力する。

0121

第2目的関数算出部216は、訓練用データ格納部DB1から訓練用データData2(=<x,y,t>)を入力する。また第2目的関数算出部216は、第1目的関数算出部215から出力される最適第1パラメータθ1_optと、第2パラメータ調整部213から出力される第2パラメータθ2とを入力する。第2目的関数算出部216は、最適第1パラメータθ1_optと、第2パラメータθ2とを用いて第2目的関数の値を最適化する第2パラメータθ2を最適第2パラメータθ2_optとして取得する。そして第2目的関数算出部216は、取得した最適第2パラメータθ2_optをタグ系列推定部22に出力する。

0122

タグ系列推定部22では、第2目的関数算出部216から出力される最適第2パラメータθ2_optに基づいて、タグ系列推定部22のタグ系列の推定処理を行うためのシステムモデルが構築される。タグ系列推定部22は、原文データx’と機械翻訳文データy’とを含むデータData_inを入力する。そしてタグ系列推定部22は、入力されたデータData_inの原文データx’と機械翻訳文データy’とから、最適第2パラメータθ2_optに基づいて構築されたモデルにより、タグ系列の推定処理を実行する。そしてタグ系列推定部22は、上記推定処理により取得されたタグ系列データt’を出力データData_outとして出力する。

0123

<2.2:語レベル信頼度推定システムの動作>
以上のように構成された語レベル信頼度推定システム2000の動作について、図面を参照しながら以下説明する。語レベル信頼度推定システム2000において、訓練用データ生成装置1の動作は、第1実施形態と同じであるので、詳細な説明を省略する。以下では、語レベル信頼度推定装置2Aの動作について説明する。

0124

≪語レベル信頼度推定方法≫
語レベル信頼度推定装置2Aで実行される語レベル信頼度推定方法について説明する。

0125

本実施形態の語レベル信頼度推定装置2Aでは、第1実施形態の「語レベル信頼度推定方法」で説明した(数式6)(これを「一般形」という)の特殊形提示し、その特殊形を用いてパラメータ最適化処理を行う。

0126

(数式6)の一般形において、Ω(θ1)は不適切な翻訳ばかりが対象にならないように導入した正規化項であり、WQE用の訓練データに用いるのとは別の対訳コーパスデータD2を用いて次の式で計算される。



以下、パラメータ最適化処理を現実的な時間で解くための特殊形について説明する。

0127

まずMTモデルのパラメータθ1とWQEモデルのパラメータθ2の両方の同時最適化は、例えば、EMアルゴリズムを用いて両者を交互に最適化することで実現できるが、計算コストが大きい。そこで、EMアルゴリズムを1回だけ実行することを考える。つまり、まずはMTモデルのパラメータθ1を最適化し、それからWQEモデルのパラメータθ2の最適化する。MTモデルのパラメータθ1を最適化する際の目的関数は(数式6)である。

0128

ただし目的関数を(数式6)としてパラメータ最適化処理を行う場合、WQEモデルのパラメータθ2をランダムに指定すると、誤った方向に学習が進んでしまいかねない。そこで、(数式9)のみを用いて、(数式9)の値を最適にするMTモデルのパラメータθ1を求める。

0129

また目的関数を(数式6)としてパラメータ最適化処理を行う場合、ありとあらゆる翻訳候補Δ(xk)を考えると計算コストが大きくなりすぎる。そこでΔ(xk)のうちのn個(n:自然数)を対象として、(数式6)の目的関数の値を最適値とするMTモデルのパラメータθ1を求める。

0130

上記のようにして取得したMTモデルの最適化パラメータを最適パラメータθ1_optとする。

0131

MTモデルの最適パラメータθ1_optを取得した後に、WQEモデルのパラメータθ2を最適化する際の目的関数は、(数式6)の第2項が定数となるため除去し、次のように表される。



ここで、ありとあらゆる翻訳候補Δ(xk)を考えるのは計算コストが大きいので、MTシステムが生成するnベストの翻訳文データのみを対象とすると、上式は次のように表される。



Δθ1_opt,n(xk):MTシステムのパラメータをθ1_optとしたときの原文データxkに対する翻訳文データyのうち最適解からn番目に良い解までのn個(n:自然数)の翻訳文データの集合
さらにnベストの翻訳文データの扱い方として、上式のように翻訳の尤度P(yk,j|xk;θ1_opt)を直接参照する方法の他に、nベスト(n個)のykをサンプリングし、nベスト(n個)のykについての対数確率密度関数logP(tk,j|xk,yk,j;θ2)の総和をとることも考えられる。この場合、n個のサンプルの出現比率がP(yk,j|xk;θ1_opt)を近似するので、目的関数は、上式をさらに単純化して次式のように表される。



≪語レベル信頼度推定装置2の具体的動作≫
上記に基づく語レベル信頼度推定装置2Aの具体的動作について、以下説明する。

0132

正規化項取得部212は、対訳コーパスデータ格納部DB21に格納されている対訳コーパスデータ<原文データx、対訳データr>(対訳コーパスデータD2)に基づいて、第1パラメータθ1の正規化項データΩ(θ1)を以下の数式に相当する処理により取得する。



最適パラメータ取得部21Aの第1目的関数算出部215は、訓練用データ格納部DB1から訓練用データを訓練用データData2(=<x,y,t>)として取得する。

0133

第1目的関数算出部215は、正規化項取得部212から入力したΩ(θ1)を入力し、以下の数式で表される関数f1(D1,D2)(<x,y,t>∈D1、<x,r>∈D2)を最適化の目的関数(第1目的関数)に設定する。



第1目的関数算出部215は、以下の(1)または(2)の方法により、MTシステムの最適パラメータθ1_optを取得する。
(1)第1目的関数算出部215は、Ω(θ1)のみを用いて、Ω(θ1)の値を最適にするMTモデルのパラメータθ1を求め、MTシステムの最適パラメータθ1_optとして取得する。
(2)(数式14)において、Δ(xk)のうちのn個(n:自然数)を対象として、(数式14)の目的関数の値を最適値とするMTモデルのパラメータθ1を求め、MTシステムの最適パラメータθ1_optとして取得する。

0134

以上のようにして取得されたMTシステムの最適パラメータθ1_optは、第1目的関数算出部215から第2目的関数算出部216に出力される。

0135

第2目的関数算出部216は、最適第1パラメータθ1_optと、第2パラメータ調整部213から入力される第2パラメータθ2とを用いて第2目的関数の値を最適化する第2パラメータθ2を求める。具体的には、以下の(1)または(2)の方法により、WQEシステムの最適パラメータθ2_optを取得する。
(1)第2目的関数算出部216は、次の数式を目的関数(第2目的関数)に設定する。



Δθ1_opt,n(xk):MTシステムのパラメータをθ1_optとしたときの原文データxkに対する翻訳文データyのうち最適解からn番目に良い解までのn個(n:自然数)の翻訳文データの集合
第2目的関数算出部216は、上式が最適値となるときのWQEシステムのパラメータθ2を最適第2パラメータθ2_optとして取得する。
(2)第2目的関数算出部216は、次の数式を目的関数(第2目的関数)に設定する。



Δθ1_opt,n1(xk):MTシステムのパラメータをθ1_optとしたときの原文データxkに対する翻訳文データyのうち最適解からn番目に良い解までのn個(n:自然数)の翻訳文データの集合
第2目的関数算出部216は、上式が最適値となるときのWQEシステムのパラメータθ2を最適第2パラメータθ2_optとして取得する。

0136

つまり第2目的関数算出部216は、MTモデルの出力におけるnベスト解のみを用いて、第2目的関数の値を算出し、第2目的関数の値が最大となるときのWQEモデルのパラメータθ2(第2パラメータθ2)を取得する処理を行う。このとき第2パラメータθ2は、第2パラメータ調整部213により調整される。なお、上記処理は、所定の最適化アルゴリズム手法を用いて実行される。例えば、logP(t|x,y;θ2)のモデル化がCRF(Conditional random field)である場合、最適化アルゴリズム手法として、記憶制限ニュートン法(L-BFGS)、確率的勾配降下法(Stochastic Gradient Descent; SDG)、平均化パーセプトロンなどが用いられる。また、logP(t|x,y;θ2)のモデル化が順伝播型ニューラルネットワーク(Feed-forward Neural Network;FNN)や回帰型ニューラルネットワーク(Recurrent Neural Network; RNN)である場合、最適化アルゴリズム手法として、AdaGradやAdaDeltaなどの手法が用いられる。

0137

上記処理により取得された最適第2パラメータθ2_opt(WQEモデルの最適パラメータθ2)は、第2目的関数算出部216からタグ系列推定部22に出力される。

0138

タグ系列推定部22では、最適パラメータ取得部21の第2目的関数算出部216から出力された最適第2パラメータθ2_opt(WQEモデルの最適パラメータθ2)に基づくWQEモデルが構築されている。つまり、タグ系列推定部22には、最適第2パラメータθ2_optにより特定される特性を有するWQEモデルが構築されている。

0139

タグ系列推定部22では、入力データData_in(<原文データx’、機械翻訳文データy’>)に対して、上記第2パラメータθ2_optにより設定されたWQEモデルを用いた処理が実行され、タグ系列データt’が取得される。そして、タグ系列推定部22は、取得したタグ系列データt’を出力データData_outとして出力する。

0140

以上のように語レベル信頼度推定装置2では、機械翻訳文データy自体を不確定な要素(隠れ変数)とみなし、
(1)原文データxから機械翻訳文データyを生成するMTシステム、および
(2)原文データxと機械翻訳文データyの組に対してタグ系列データtを推定するWQEシステム
の2つを最適化する処理を行う。

0141

そして語レベル信頼度推定装置2Aでは、MTシステムとWQEシステムを最適化したときのパラメータを用いて構築したWQEシステムに基づく処理を行うタグ系列推定部22により、入力データData_in(<原文データx’、機械翻訳文データy’>)を処理することで、精度の高いタグ系列データtを取得することができる。つまり、語レベル信頼度推定装置2では、入力データData_in(<原文データx’、機械翻訳文データy’>)から、それに対応する精度の高いタグ系列データtを取得することができるので、高精度な語レベル信頼度推定が可能となる。

0142

以上の通り語レベル信頼度推定システム2000では、訓練用データ生成装置1により、人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができ、さらに語レベル信頼度推定装置2Aにより、処理対象であるMT訳の性質(ひいてはそのような訳を生成するMTシステムの振る舞い)の不確定性をふまえた上で、人手による処理を介さず全自動で生成された訓練用データを用いて高精度な語レベル信頼度推定が可能となる。

0143

[他の実施形態]
上記実施形態の語レベル信頼度推定システム1000、2000、訓練用データ生成装置1、語レベル信頼度推定装置2、2Aを構成する各機能部は、例えばネットワークを介して接続されるものであってもよい。

0144

また上記実施形態の語レベル信頼度推定システム1000、2000、訓練用データ生成装置1、語レベル信頼度推定装置2、2Aは、複数の装置により実現されるものであってもよい。

0145

また語レベル信頼度推定装置2、2Aの対訳コーパスデータ格納部DB2は、外部に備えられるものであってもよい。

0146

また訓練用データ格納部DB1、対訳コーパスデータ格納部DB2は、外部サーバ内に、あるいは、外部サーバにインターフェースを介して接続されるものであってもよい。

0147

また、本明細書内の記載、特許請求の範囲の記載において、「最適化」とは、最も良い状態にすることをいい、システムを「最適化」するパラメータとは、当該システムの目的関数の値が最適値となるときのパラメータのことをいう。「最適値」は、システムの目的関数の値が大きくなるほど、システムが良い状態となる場合は、最大値であり、システムの目的関数の値が小さくなるほど、システムが良い状態となる場合は、最小値である。また、「最適値」は、極値であってもよい。また、「最適値」は、所定の誤差測定誤差量子化誤差等)を許容するものであってもよく、所定の範囲(十分収束したとみなすことができる範囲)に含まれる値であってもよい。

0148

また上記実施形態で説明した語レベル信頼度推定システム1000において、各ブロックは、LSIなどの半導体装置により個別に1チップ化されても良いし、一部または全部を含むように1チップ化されても良い。

0149

なおここではLSIとしたが、集積度の違いにより、IC、システムLSIスーパーLSI、ウルトラLSIと呼称されることもある。

0150

また集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブルプロセッサーを利用しても良い。

0151

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置(CPU)により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ROMなどの記憶装置に格納されており、ROMにおいて、あるいはRAMに読み出されて実行される。

0152

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア(OS(オペレーティングシステム)、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。)により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

0153

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図7に示したハードウェア構成(例えばCPU、ROM、RAM、入力部、出力部、通信部、記憶部(例えば、HDDSSD等により実現される記憶部)、外部メディアドライブ等をバスBusにより接続したハードウェア構成)を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

0154

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図7に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

0155

また上記実施形態における処理方法実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

0156

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、大容量DVD、次世代DVD、半導体メモリを挙げることができる。

0157

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線無線または有線通信回線インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

0158

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

0159

本発明によれば、人手による処理を行うことなく効率良くWQE用の訓練用データの作成を行うことができる訓練用データ生成装置を実現し、さらに処理対象であるMT訳の性質の不確定性をふまえた上で、全自動で生成された訓練用データを用いて高精度な語レベル信頼度推定を可能とする語レベル信頼度推定装置を実現することができる。このため本発明は、自動翻訳関連産業分野において有用であり、当該分野において実施することができる。

0160

1000 語レベル信頼度推定システム
1訓練用データ生成装置
2 語レベル信頼度推定装置
DB1 訓練用データ格納部
11データ入力部
12機械翻訳部
13 タグ系列取得部
14 訓練用データ取得部
21最適パラメータ取得部(最適パラメータ取得装置)
212正規化項取得部
213 第1目的関数算出部
215 第2目的関数算出部
22 タグ系列推定部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ