図面 (/)

技術 機械翻訳装置及び機械翻訳プログラム

出願人 株式会社東芝東芝デジタルソリューションズ株式会社
発明者 伊藤悦雄吉村裕美子
出願日 2007年9月27日 (11年9ヶ月経過) 出願番号 2007-251441
公開日 2009年4月16日 (10年3ヶ月経過) 公開番号 2009-080777
状態 特許登録済
技術分野 検索装置 機械翻訳
主要キーワード 結果レベル 基本用語 リニアサーチ 活用法 適用可否 訳語データ コーパスデータ 言語データベース
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2009年4月16日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (4)

課題

翻訳編集作業中の文書中で検索キーワードを含む文を検索して、着目した語句の的確な用法を検索できるようにすることである。

解決手段

言語データ登録するコーパス記録部27と、少なくとも言語データを編集する編集部23と、コーパス記録部27に登録された言語データより指定した単独あるいは複数の語句を含む文を検索するキーワード検索部25と、キーワード検索部25で検索された文と編集部23で編集中の文との類似度を比較しキーワード検索部25により検索された文のうち編集中の文と類似度が高いものから表示する類似文検索部26とを備える。

概要

背景

翻訳専門家は、翻訳時にある語句(単一の語句だけでなく、フレーズを含む。以下同じ)が訳文中にどのように使われるのが適当かという判断を重視する。このため、翻訳にあっては、注目している語句について言語データベースインターネット上での実例にあたることが多い。また、この際、訳文の言語のデータだけでなく、日英など対訳データベースを使用し、原文中の着目している語句の訳語を訳文中に見出し、どのような訳がどのような形で出現するかを検討することが多い。

この際、着目する語句が訳文側の言語(以下、第2言語と言う)である場合には、検索対象は第2言語の単言語コーパスで十分であるが、着目する語句が原文側の言語(以下、第1言語と言う)である場合は、対訳コーパスである必要があった。また、それらのコーパスを対象に得られた結果はKWIC(Key Word In Context:検索結果の表示の際に、検索キーワードだけでなく、文中での検索キーワードの使用状況を併せて表示する方法)で表示するとわかりやすい(例えば、特許文献1参照)。
特開2006−268621号公報

概要

翻訳編集作業中の文書中で検索キーワードを含む文を検索して、着目した語句の的確な用法を検索できるようにすることである。言語データ登録するコーパス記録部27と、少なくとも言語データを編集する編集部23と、コーパス記録部27に登録された言語データより指定した単独あるいは複数の語句を含む文を検索するキーワード検索部25と、キーワード検索部25で検索された文と編集部23で編集中の文との類似度を比較しキーワード検索部25により検索された文のうち編集中の文と類似度が高いものから表示する類似文検索部26とを備える。

目的

本発明の目的は、翻訳編集作業中の文書中で検索キーワードを含む文を検索して、着目した語句の的確な用法を検索できる機械翻訳装置及び機械翻訳プログラムを提供することである。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

言語データ登録するコーパス記録部と、少なくとも前記言語データを編集する編集部と、前記コーパス記録部に登録された言語データより指定した単独あるいは複数の語句を含む文を検索するキーワード検索部と、前記キーワード検索部で検索された文と前記編集部で編集中の文との類似度を比較し前記キーワード検索部により検索された文のうち編集中の文と類似度が高いものから表示する類似文検索部とを備えたことを特徴とする機械翻訳装置

請求項2

言語データを登録するコーパス記録部と、少なくとも前記言語データを編集する編集部と、前記コーパス記録部に登録された言語データより指定した単独あるいは複数の語句を含む文を検索するキーワード検索部と、前記キーワード検索部で検索された文と前記編集部で編集中の文章中の前記指定した語句を含む文との類似度を比較し前記キーワード検索部により検索された文のうち編集中の文と類似度が高いものから表示する類似文検索部とを備えたことを特徴とする機械翻訳装置。

請求項3

コーパス記録部と表示部を持つ機械翻訳装置において、コンピュータに、前記コーパス記録部に言語データを登録する手順、前記コーパス記録部に記録された言語データを編集する手順、前記コーパス記録部に記録された言語データから指定した語句を含む文を検索する手順、前記検索された文と前記編集部で編集中の文との類似度を比較し前記検索された文のうち編集中の文と類似度が高いものから前記表示部に表示する手順を実行させるための機械翻訳プログラム

技術分野

0001

本発明は、自然言語を別の自然言語に翻訳する機械翻訳装置及び機械翻訳プログラムに関する。

背景技術

0002

翻訳の専門家は、翻訳時にある語句(単一の語句だけでなく、フレーズを含む。以下同じ)が訳文中にどのように使われるのが適当かという判断を重視する。このため、翻訳にあっては、注目している語句について言語データベースインターネット上での実例にあたることが多い。また、この際、訳文の言語のデータだけでなく、日英など対訳データベースを使用し、原文中の着目している語句の訳語を訳文中に見出し、どのような訳がどのような形で出現するかを検討することが多い。

0003

この際、着目する語句が訳文側の言語(以下、第2言語と言う)である場合には、検索対象は第2言語の単言語コーパスで十分であるが、着目する語句が原文側の言語(以下、第1言語と言う)である場合は、対訳コーパスである必要があった。また、それらのコーパスを対象に得られた結果はKWIC(Key Word In Context:検索結果の表示の際に、検索キーワードだけでなく、文中での検索キーワードの使用状況を併せて表示する方法)で表示するとわかりやすい(例えば、特許文献1参照)。
特開2006−268621号公報

発明が解決しようとする課題

0004

しかし、この場合、あくまでもコーパスを語句で検索するため、注目している語句は含まれるが、注目している用途とは異なる用法で使用されている例が検出されることも多く適用可否の判断に時間を要する。

0005

また、語句ではなく文全体に着目し、着目している文とコーパスに登録されている文との間の距離を測定し、距離の近いものを検索結果として提示することも行われている。距離は、例えば表層文字や単語の一致率などで判定する。この方法では、文の距離が近い(文が似ている)ため文全体の訳としては流用できる可能性が高いが、ある語句の訳文中の用法を参照するには適さない場合がある。

0006

例えば、20語からなる文に着目した場合、コーパスより95%一致する文が発見されたとすると、通常の類似文の検索では非常に高い一致度であるため、訳文を参考にすることができるが、食い違った1語が着目している語句の場合には、この検索結果は全く適さないことが分かる。

0007

表1に、従来のバイリンガルコーパスに対するキーワード検索の結果提示の一例を示す。ビジネス関係の英日バイリンガルコーパスを用いて、「Brief」という単語を検索し、この単語が訳文中でどのように使用されているかを調べた場合の原文と訳文の検索結果である。

0008

この一例では「brief」を含む英文が5種類検索されているが、表示の順位はデータベース中で発見された順である。また、「Brief」に相当する訳語としては「簡単な」が2件、「短時間」が2件、「要約」が1件出現しているため、単純に考えると「brief」は「簡単な」あるいは「短時間」として訳出することが普通であり、「要約」と訳することは少ないと思え、オペレータは「簡単な」あるいは「短時間」という訳語を与えてしまう可能性があった。

0009

このように、従来のコーパスの活用法においては、語句に着目した場合には目的と異なった用法を用いた例が発見されたり、文全体に着目した場合には、着目している語句が検索されないケースがある。

0010

本発明の目的は、翻訳編集作業中の文書中で検索キーワードを含む文を検索して、着目した語句の的確な用法を検索できる機械翻訳装置及び機械翻訳プログラムを提供することである。

課題を解決するための手段

0011

本発明の機械翻訳装置は、言語データを登録するコーパス記録部と、少なくとも前記言語データを編集する編集部と、前記コーパス記録部に登録された言語データより指定した単独あるいは複数の語句を含む文を検索するキーワード検索部と、前記キーワード検索部で検索された文と前記編集部で編集中の文との類似度を比較し前記キーワード検索部により検索された文のうち編集中の文と類似度が高いものから表示する類似文検索部とを備えたことを特徴とする。

発明の効果

0012

本発明によれば、翻訳編集作業中の文書中で検索キーワードを含む文を検索するので、着目した語句の的確な用法を検索できる。

発明を実施するための最良の形態

0013

図1は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置11は、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムインストールされ、そのソフトウェアプログラムがマイクロプロセッサ12において実行されることにより実現される。機械翻訳装置11は、マイクロプロセッサ12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力部16、表示部17、ネットワークインターフェース18及び磁気ディスク装置19が接続されている。

0014

磁気ディスク装置19には、機械翻訳プログラム20が記憶されるとともに、翻訳辞書部21が記憶される。機械翻訳プログラム20は、制御部22、編集部23、翻訳部24、キーワード検索部25、類似文検索部26を有し、翻訳辞書部21は、コーパス記録部27及び編集文書記録部28を有している。なお、翻訳辞書部21は基本用語辞書専門用語辞書などを有しているが図示を省略している。

0015

マイクロプロセッサ12は、図示を省略したオペレーティングシステムの制御の下に磁気ディスク装置19に記憶された機械翻訳プログラム20を実行することにより機械翻訳装置11の機能を実現している。

0016

入力部16は、翻訳する文章や各種コマンド、あるいはデータベースとして記録されるコーパスを入力するためのものであり、キーボードマウスタッチパネルなどの入力装置音声認識装置文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置を含む。

0017

表示部17は、入力部16から入力されたデータや、翻訳処理に関する処理結果、コマンド入力ガイドなどを表示するためのものであり、通常、CRT表示装置液晶モニタで実現される。

0018

翻訳辞書部21のコーパス記録部27は、入力部16から入力されたデータや、処理されたデータをコーパスとして記録するためのものである。

0019

キーワード検索部25は、入力部16により指定されたキーワード(単語、フレーズ)をコーパス記録部27に記録されているコーパス中から検索するためのものであり、本発明の実施の形態では、検索対象が単言語コーパスの場合は指定されたフレーズを含む文を取得し、バイリンガルコーパスの場合は指定されたフレーズを含む文とその文に対応する他方の言語の文とを合わせて取得するものである。キーワード検索部25の詳細に関しては後述する。

0020

類似文検索部26は、編集文書記録部28中から指定された文と類似する文を、キーワード検索部25で検索された文の中から検索するものである。類似文検索部26の詳細に関しては後述する。

0021

編集文書記録部28は、編集(翻訳)作業を行っている文章を記録するものであり、この文書は、通常、入力部16を経由して入力され、原文・訳文が対にして記録されているほか、オペレータが現在編集中の文が文章中のどの文であるかも合わせて記録する。

0022

編集部23は、編集文書記録部28に記録されている文章を編集するためのものであり、コンピュータプログラムで実現される。また、翻訳部24は、編集文書記録部28に記録されている文章や入力部16から入力された文章を翻訳するためのものであり、コンピュータプログラムで実現される。

0023

制御部22は、機械翻訳装置11全体を制御するためのものであり、一般的な機械翻訳装置11の制御部に加え、入力部16から入力されたキーワードをキーワード検索部25に送り、キーワードを含む複数のコーパスデータを取得し、そのコーパスデータそれぞれを類似文検索部26へ送り、編集文書記録部28中のオペレータが編集中の文と類似する文をその類似度合いを取得し、類似度合いが近い順に表示するデータを作成し、表示部17へ送るという機能を有するものであり、コンピュータプログラムで実現される。

0024

次に本発明の実施の形態に係わる機械翻訳装置の動作の一例を説明する。図2は本発明に実施の形態に係わるコーパス記録部27におけるコーパスの記録に関するフローチャートである。コーパス記録は制御部22により行われる。まず、入力部16などから第1言語と第2言語との対のデータを読み込むことにより動作を開始する(S201)。以下、第1言語のデータをA、第2言語のデータをBと呼ぶことにする。また、以下の説明では、対訳データを例に説明するが、第1言語だけのデータ、第2言語だけのデータを対象にしてもよい。

0025

この取り込んだデータAが含まれる複数の文に対して順次インデックスiを付与する(S202)。この取り込んだデータAより、順次、第i文データAi(i=1〜n)を取り出し、そのデータに対応する第2言語のデータBiを検索する(S203)。すなわち、まず、この取り込んだデータAより第1文A1を取り出し、そのデータに対応する第2言語のデータB1を検索する(S202,S203)。そして、対応する第2言語の文がある場合には、データAi、Biをセットでコーパス記録部27に登録する(S204)。この実施の形態ではバイリンガルコーパスを扱っているが、必ずしも全ての文に対応する訳語データ付属しているとは限らないため、対応するBiが発見できない可能性もある。このため、対応している訳文がない場合には原文Aiのみをコーパス記録部へ登録する(S205)。また、対応する第2言語の文がない場合にはエラーとして登録しないとことも可能である。

0026

次に、データAiが最後の文かどうかを判定し(S206)、最後の文でないときはインデックスiに1を加算してステップS203に戻り(S207)、データAiが最後の文になるまでステップS203〜S207を繰り返す。

0027

なお、図2における説明では、第1言語を中心に行っているが、これを第2言語を中心に考えてもよい。すなわち、まず第2言語のデータBiを取り出し、それに対応する原文Aiが有るかどうかを検索し、有る場合はデータBi、Aiのセットで登録し、ない場合はBiのみ登録あるいは、エラーとして登録しないということである。第1言語を中心として考える場合には、第2言語にのみ文がある場合は登録できないが、第2言語を中心として考える場合には、第2言語にのみ文がある場合でもその文を活用することができる。

0028

翻訳作業中には、この登録されたコーパスを使用する場合、ターゲット言語(訳文側の言語)だけが有る方が、ソース言語(原文側の言語)だけにあるより活用範囲が広いため、想定される言語方向に応じて中心として据える言語を決定するとよい。また、文の記録時に検索を高速化するために、インデックスを付けたりハッシュしたりする方法が考えられる。

0029

図3は、本発明の実施の形態に係わるコーパス記録部27におけるアクティブ文を考慮したキーワード検索における動作の一例を示すフローチャートである。キーワード検索はキーワード検索部25により行われる。本発明の実施の形態では、キーワード検索は文書の翻訳/編集作業中に行われることを前提としているので、図3に示すように、翻訳あるいは編集する文書Cが読み込まれることにより、キーワード検索の動作が開始される(S301)。

0030

オペレータより入力部16などから検索コマンドが発生した場合、入力部16などから入力された検索すべき文字列を取得し第1言語の語句Dとする(S302)。次に、文書C中のカーソルがある文Lを取得する(S303)。これをアクティブ文と呼ぶことにする。

0031

ここで、オペレータの操作の状況によっては、検索すべき文字列である第1言語の語句Dが文書C中のカーソルがある文中に存在しない場合もあり得る。しかし、この場合に置いても、オペレータは編集作業中の文書の翻訳に供するために、コーパスからの検索を行うことが予想されるため、文書C中の語句Dを含む他の文をアクティブな文として設定してもよい。

0032

この語句Dをキーとして検索を行うわけであるが、図3ではリニアサーチを行う例で説明する。なお、上述の様にその他の検索方法を用いてもよい。また、第1言語のキーワードで検索する例で説明するが、第2言語側のキーワードで検索してもよい。

0033

図3においては、この取り込んだキーワードDが含まれるコーパス記録部27に記録されている第1言語データの複数の文に対して順次インデックスjを付与する(S304)。この取り込んだキーワードDより、順次、第j文データEj(i=1〜m)を取り出し(S305)、第j文データEjにキーワードDは含まれているかどうかを判断する(S306)。すなわち、まず、コーパス記録部27に記録されている第1言語データの1番目E1を取り出し(S304、S305)、その中にキーワードが含まれるかどうかを調べる(S306)。この場合、完全に表層で一致しなくとも、活用形で一致している、あるいは、複数の語句からなるキーワードDの場合の一部が一致しているなどを「含まれている」と判断してもよい。

0034

キーワードDが含まれている場合は、この文Ejとアクティブ文Lとの距離(類似度)を測定し、文Ejと共に記録する(S307)。距離の測定方法は、例えば、文全体に占める表層上の同一の単語や文字の割合、形態素解析構文解析意味解析など解析結果レベルでの一致度合いや、あるいは、これらに対し、品詞別に重みを付ける、同義語は一致とみなす、活用形は同一とみなすなどのオプションを付ける方法がある。

0035

次に、データEjが最後の文かどうかを判定し(S308)、最後の文でないときはインデックスjに1を加算してステップS305に戻り(S309)、データEjが最後の文になるまでステップS305〜S309を繰り返す。

0036

このようにして、得られたキーワードDを含んだ文Ejを類似度が高い(距離が近い)順に1つ取り出し(S310)、取り出した文Ejに対応する第2言語のデータを含むかどうかを判断し(S311)、第2言語のデータを含む場合には、原文、訳文をセットで取り出して表示し(S312)、対応する第2言語のデータがない場合には第1言語のデータだけを取り出して表示する(S313)。

0037

これを、キーワードDが含まれたと判定され、記録されたすべてのデータEjに対して行う(S314)。なお、オペレータに対し提示するのは、ステップS307で記録されたすべてのデータを必ずしも行う必要はなく、一定の数に達した時点、あるいは、距離が一定値以上に達した時点で終了してもよい。

0038

表2は、本発明の実施の形態におけるバイリンガルコーパスの検索の中間の検索状況を示す表である。表2では、図3のステップS303で得られたアクティブな文が、「Enclosed is a brief of the material we expect to be covering during my lecture on June 1.」であり、この文中の「brief」を検索文字列とした場合に、図3のステップS309まで終了したときに記録される「brief」を含んだデータとアクティブ文との距離を示している。

0039

ここでは、(「アクティブ文中の単語のうち、コーパスから発見された文中に含まれる単語数」/「アクティブ文中の単語数」)×100を距離として設定している。表3は、この表2より距離が近い(数値が大きい)ものから順にオペレータに対して提示したデータを示したものである。

0040

表3に示すように、オペレータは最初にアクティブ文に近い文を得られるため、この文では「要約」という言葉が適切であることを容易に判断することができる。従来例との対比のために、従来例で得られる検索結果を表4に示す。

0041

ここで、用いている従来例では文の距離だけを利用する類似文検索を用いてコーパスに登録されたデータを検索している。ここで、文全体としては非常に類似度が高い(距離が近い)データが検出されているが、それらにおいては着目している「Brief」が含まれていない。このため、表3に示す本発明の方が従来例に比べ優位であることが容易に分かる。以上の説明では、英日翻訳を例に取って説明したが、英独翻訳など他の言語の翻訳にも使用することができる。

0042

このように、本発明の実施の形態では、コーパスを用いた語句の検索は翻訳作業中に行われることに着目し、コーパスを用いた語句の検索は翻訳中に行われることを前提にする。そして、その場合、カーソルは翻訳中の文にあるはずであり、ユーザはこの文で指定した単語がどのように使われたかを知りたい筈である。つまり、参考にしたい単語を含む文は、カーソルが置かれている文、つまりアクティブな文であることに着目し、本発明の実施の形態では、着目した語句でコーパス中を検索した結果、発見された文とアクティブな文との距離(類似度)を測定し近いものから先に提示するようにしている。従って、指定した語句の使い方をコーパスより参照する際に、翻訳・編集中の文と近い文を表示出力する。これにより、より参照したい用法に近いものからコーパス中のデータを得ることができる。

0043

また、着目した語句(検索キーワード)がアクティブな文中にない場合もあり得る。この場合も、編集中の文書の翻訳のために検索していることが予想されるため、翻訳編集作業中の文書中で検索キーワードを含む文を検索するようにしている。そして、発見された文をアクティブな文として、着目した語句でコーパス中を検索した結果、発見された文とアクティブな文との距離(類似度)を測定し、近いものから先に表示出力する。従って、指定した語句の使い方をコーパスより参照する際に、翻訳・編集中の文章に含まれる文と近い文を出力する。これにより、より参照したい用法に近いものからコーパス中のデータを得ることができる。

図面の簡単な説明

0044

本発明の実施の形態に係わる機械翻訳装置の構成図。
本発明に実施の形態に係わるコーパス記録部におけるコーパスの記録に関するフローチャート。
本発明の実施の形態に係わるコーパス記録部におけるアクティブ文を考慮したキーワード検索における動作の一例を示すフローチャート。

符号の説明

0045

11…機械翻訳装置、12…マイクロプロセッサ、13…ROM、14…RAM、15…バス、16…入力部、17…表示部、18…ネットワークインターフェース、19…磁気ディスク装置、20…機械翻訳プログラム、21…翻訳辞書部、22…制御部、23…編集部、24…翻訳部、25…キーワード検索部、26…類似文検索部、27…コーパス記録部、28…編集文書記録部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ