図面 (/)

技術 機械翻訳装置

出願人 シャープ株式会社
発明者 九津見毅
出願日 1999年12月3日 (21年0ヶ月経過) 出願番号 1999-344390
公開日 2001年6月12日 (19年6ヶ月経過) 公開番号 2001-160049
状態 特許登録済
技術分野 機械翻訳
主要キーワード 特徴判定処理 見出しリスト 引用箇所 フラグバッファ 割合値 位置変数 特徴判定 トウキョウ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2001年6月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

単語単位辞書引きモードを設定して訳出されるべき単語がソース言語のまま翻訳文中出現することを防止する。

解決手段

形態素解析手段4aは辞書引き・形態素解析処理を行う。文字判定手段4e及び割合算出手段4fは、先頭文字大文字である単語の割合を算出する。辞書引きモード設定手段4gは、上記割合に基づいて入力文全体の辞書引きモードを設定して辞書引きモードフラグバッファ6fに格納する。形態素特徴判定手段4hは、先頭が大文字の単語の特徴が特定条件を満たすか否かの判定を行い満たす場合には大文字フラグバッファ6gに「1」を格納する。こうすることによって、当該単語は、入力文全体の辞書引きモードに拘わらず、大文字フラグバッファ6gの内容に応じた辞書引きモードで辞書引きが行われ、訳出されるべき単語がソース言語のまま翻訳文中に出現することが無くなる。

概要

背景

従来、機械翻訳装置として、キーボード等の入力手段から入力されたソース言語を制御手段の制御によって翻訳モジュールに入力し、この翻訳モジュールによって、記憶手段に記憶されている辞書,文法規則および木構造変換規則を用いて上記ソース言語をターゲット言語翻訳するものがある。

上述のような機械翻訳装置の上記翻訳モジュールにおいては、例えば英語日本語へ翻訳する場合には、先ず、入力英文が単語に分割され、各単語に対する訳語および訳語の品詞等の文法情報が得られる。このような処理は記憶手段に記憶された辞書を引くことによって行われる。

上記辞書には、英語単語の見出し,英語単語の品詞,英語単語の文法情報,英語単語の訳語,訳語の品詞および訳語の文法情報等が登録されている。その際に、英語単語の見出しは、通常総て小文字によって登録される。ところが、入力英文においては、通常、文頭に位置する文頭単語の先頭文字大文字記述されている。そのために、そのまま辞書引きを行ったのでは文頭単語は辞書に登録されていないと判断されてしまう。そこで、文頭単語に関して辞書を引く場合には、先頭文字が大文字の場合には小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを標準モードと言う。

一方、論文表題のように文中における大半の単語の先頭文字が大文字である場合や、テレックス文のように大文字ばかりで印字された特殊文の場合には、先頭単語以外の単語にも大文字が存在するので上述のような標準モードでは対処できない。そこで、先頭単語以外の大文字を含む単語を有する文章の場合には、すべての大文字を小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを大文字モードと言う。

但し、例えば、固有名詞扱いされる普通名詞等は、文頭単語以外でも大文字を用いて記載されることが多い。このような場合には、上記辞書引きモードが標準モードの状態であると、文頭以外に現れた大文字を含む単語は辞書に未登録の単語であると見なされて、アルファベットのまま翻訳文中に記述されてしまう。一方、上記辞書引きモードが大文字モードの状態であると、人名や固有名詞における先頭大文字が小文字に変換される。そして、先頭大文字が小文字に変換された人名や固有名詞に相当する単語がたまたま上記辞書に登録されている場合には、その登録単語に基づいて誤った日本語に翻訳されてしまう。

このような問題を解決するために、従来より、以下のような機械翻訳装置が提案されている。例えば、特開平03‐216760号公報に開示されている機械翻訳装置では、入力文に応じて辞書引きモードを自動的に設定する機能を備えている。すなわち、この機械翻訳装置においては、形態素解析手段の中に、原文中における総ての単語の文字列中に大文字が存在するか否かを判定する文字判定手段と、上記文字判定手段によって総ての単語の文字列中に大文字が存在することはないと判定された場合に大文字がある単語の割合を算出する割合算出手段と、上記文字判定手段による判定結果および上記割合算出手段による割合値に応じて自動的に辞書引きモードを標準モードと大文字モードとに切り替え設定する辞書引きモード設定手段を有している。

そして、翻訳の際に、上記形態素解析部によって辞書引きを行う際に、上記割合算出手段と上記辞書引きモード設定手段の働きによって、上記割合値が所定値(例えば50%)以上の場合には、自動的に辞書引きモードを大文字モードに設定して辞書引きを行うのである。その結果、論文の表題のように入力テキストにおける過半数の単語の先頭文字が大文字である場合には、大文字モードで辞書引きが行われる。したがって、文頭以外の箇所に現れる大文字を有する単語であっても、その大文字を小文字に変えた単語が辞書に登録されていれば形態素解析が行われることになる。一方、入力テキストにおける過半数の単語の先頭文字が小文字である場合には標準モードで辞書引きが行われる。したがって、文中の一部に現れる先頭文字が大文字の人名や固有名詞が、誤って普通名詞のように翻訳されてしまうことを防止できるのである。

概要

単語単位で辞書引きモードを設定して訳出されるべき単語がソース言語のまま翻訳文中に出現することを防止する。

形態素解析手段4aは辞書引き・形態素解析処理を行う。文字判定手段4e及び割合算出手段4fは、先頭文字が大文字である単語の割合を算出する。辞書引きモード設定手段4gは、上記割合に基づいて入力文全体の辞書引きモードを設定して辞書引きモードフラグバッファ6fに格納する。形態素特徴判定手段4hは、先頭が大文字の単語の特徴が特定条件を満たすか否かの判定を行い満たす場合には大文字フラグバッファ6gに「1」を格納する。こうすることによって、当該単語は、入力文全体の辞書引きモードに拘わらず、大文字フラグバッファ6gの内容に応じた辞書引きモードで辞書引きが行われ、訳出されるべき単語がソース言語のまま翻訳文中に出現することが無くなる。

目的

そこで、この発明の目的は、単語単位で辞書引きモードを設定することによって、訳出されるべき単語がソース言語のまま翻訳文中に出現することを防止できる機械翻訳装置を提供することにある。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

辞書を引いてソース言語による原文形態素に分割し、得られた形態素の解析を行う形態素解析手段を有する機械翻訳装置において、上記形態素解析手段は、上記原文の態様に応じて、文全体の辞書引きモードを、文頭形態素の先頭文字小文字に変換して辞書引きを行う標準モードあるいは総ての大文字を小文字に変換して辞書引きを行う大文字モードの何れかに自動的に切り替え設定する辞書引きモード設定手段と、辞書引きすべき形態素の特徴が特定条件を満たすか否かを判定する形態素特徴判定手段と、上記形態素特徴判定手段の判定結果に基づいて、上記辞書引きすべき形態素独自の局所的辞書引きモードを上記標準モードあるいは大文字モードの何れかに設定する局所辞書引きモード設定手段を備えて、上記局所的辞書引きモードが設定された場合には、文全体の辞書引きモードに拘わらず、当該辞書引きすべき形態素の辞書引きを上記局所的辞書引きモードで行うことを特徴とする機械翻訳装置。

請求項2

請求項1に記載の機械翻訳装置において、上記形態素特徴判定手段は、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するようになっていることを特徴とする機械翻訳装置。

請求項3

請求項2に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、先頭文字は大文字であって、且つ、総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致することであり、上記隣接した形態素に関する上記特定条件は、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致することであることを特徴とする機械翻訳装置。

請求項4

請求項2に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、先頭文字は大文字であって、且つ、総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致することであり、上記隣接した形態素に関する上記特定条件は、当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致することであることを特徴とする機械翻訳装置。

請求項5

請求項2に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、先頭文字が大文字であることであり、上記隣接した形態素に関する上記特定条件は、当該辞書引きすべき形態素の直前の形態素は引用符号であることを特徴とする機械翻訳装置。

請求項6

請求項2に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、先頭文字は大文字であって、且つ、総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致することであり、上記隣接した形態素に関する上記特定条件は、当該辞書引きすべき形態素の直前の形態素は引用符号であることを特徴とする機械翻訳装置。

請求項7

請求項2に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、先頭文字は大文字であって、且つ、総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致することであり、上記隣接した形態素に関する上記特定条件は、当該辞書引きすべき形態素の直前の形態素は引用符号であることを特徴とする機械翻訳装置。

請求項8

請求項1に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、総ての文字は大文字であって、且つ、総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致することであることを特徴とする機械翻訳装置。

請求項9

請求項1に記載の機械翻訳装置において、当該辞書引きすべき形態素に関する上記特定条件は、総ての文字は大文字であって、且つ、総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致することであることを特徴とする機械翻訳装置。

技術分野

・総ての文字小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致するとすれば、例えば特殊処理品詞として品詞「副詞」を登録しておけば、強調のために総て大文字記述された単語「NOT」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

背景技術

0001

この発明は、自動的に辞書引きモードを切り換えることが可能な機械翻訳装置に関する。

0002

従来、機械翻訳装置として、キーボード等の入力手段から入力されたソース言語を制御手段の制御によって翻訳モジュールに入力し、この翻訳モジュールによって、記憶手段に記憶されている辞書,文法規則および木構造変換規則を用いて上記ソース言語をターゲット言語翻訳するものがある。

0003

上述のような機械翻訳装置の上記翻訳モジュールにおいては、例えば英語日本語へ翻訳する場合には、先ず、入力英文が単語に分割され、各単語に対する訳語および訳語の品詞等の文法情報が得られる。このような処理は記憶手段に記憶された辞書を引くことによって行われる。

0004

上記辞書には、英語単語の見出し,英語単語の品詞,英語単語の文法情報,英語単語の訳語,訳語の品詞および訳語の文法情報等が登録されている。その際に、英語単語の見出しは、通常総て小文字によって登録される。ところが、入力英文においては、通常、文頭に位置する文頭単語の先頭文字は大文字で記述されている。そのために、そのまま辞書引きを行ったのでは文頭単語は辞書に登録されていないと判断されてしまう。そこで、文頭単語に関して辞書を引く場合には、先頭文字が大文字の場合には小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを標準モードと言う。

0005

一方、論文表題のように文中における大半の単語の先頭文字が大文字である場合や、テレックス文のように大文字ばかりで印字された特殊文の場合には、先頭単語以外の単語にも大文字が存在するので上述のような標準モードでは対処できない。そこで、先頭単語以外の大文字を含む単語を有する文章の場合には、すべての大文字を小文字に変換した後に辞書を引くようにしている。以下、このような辞書引きのモードを大文字モードと言う。

0006

但し、例えば、固有名詞扱いされる普通名詞等は、文頭単語以外でも大文字を用いて記載されることが多い。このような場合には、上記辞書引きモードが標準モードの状態であると、文頭以外に現れた大文字を含む単語は辞書に未登録の単語であると見なされて、アルファベットのまま翻訳文中に記述されてしまう。一方、上記辞書引きモードが大文字モードの状態であると、人名や固有名詞における先頭大文字が小文字に変換される。そして、先頭大文字が小文字に変換された人名や固有名詞に相当する単語がたまたま上記辞書に登録されている場合には、その登録単語に基づいて誤った日本語に翻訳されてしまう。

0007

このような問題を解決するために、従来より、以下のような機械翻訳装置が提案されている。例えば、特開平03‐216760号公報に開示されている機械翻訳装置では、入力文に応じて辞書引きモードを自動的に設定する機能を備えている。すなわち、この機械翻訳装置においては、形態素解析手段の中に、原文中における総ての単語の文字列中に大文字が存在するか否かを判定する文字判定手段と、上記文字判定手段によって総ての単語の文字列中に大文字が存在することはないと判定された場合に大文字がある単語の割合を算出する割合算出手段と、上記文字判定手段による判定結果および上記割合算出手段による割合値に応じて自動的に辞書引きモードを標準モードと大文字モードとに切り替え設定する辞書引きモード設定手段を有している。

発明が解決しようとする課題

0008

そして、翻訳の際に、上記形態素解析部によって辞書引きを行う際に、上記割合算出手段と上記辞書引きモード設定手段の働きによって、上記割合値が所定値(例えば50%)以上の場合には、自動的に辞書引きモードを大文字モードに設定して辞書引きを行うのである。その結果、論文の表題のように入力テキストにおける過半数の単語の先頭文字が大文字である場合には、大文字モードで辞書引きが行われる。したがって、文頭以外の箇所に現れる大文字を有する単語であっても、その大文字を小文字に変えた単語が辞書に登録されていれば形態素解析が行われることになる。一方、入力テキストにおける過半数の単語の先頭文字が小文字である場合には標準モードで辞書引きが行われる。したがって、文中の一部に現れる先頭文字が大文字の人名や固有名詞が、誤って普通名詞のように翻訳されてしまうことを防止できるのである。

0009

しかしながら、上記特開平03‐216760号公報に開示されている従来の機械翻訳装置においては、以下のような問題がある。すなわち、実際の英語の文章には、過半数の単語の先頭文字が小文字であるような文であっても、文頭以外の単語の先頭文字が大文字であり、且つ、その単語が必ずしも人名や固有名詞でないような文が存在する。そのために、上記機械翻訳装置を用いて、以下に示すような幾つかの英語文の翻訳を実行すると、必ずしも所望通り翻訳結果が得られずに、翻訳文中にアルファベットのまま記述されるべきではない単語がアルファベットのまま訳出される場合がある。

0010

(例1)
入力文:She answered an advertisement in The Tokyo Times.
翻訳結果:彼は、Theトウキョウタイムズの広告応募した。

0011

この例においては、「Tokyo Times」という固有名詞が存在するとして、この固有名詞が実際の英語文中において「Tokyo Times」,「the Tokyo Times」,「The TokyoTimes」等の幾通りかの表記が存在する場合を考える。そして、それらの表記のうち「Tokyo Times」のみが辞書に登録されている場合には、入力文の辞書引きモードは標準モードとなるから、入力文中の「The」の先頭文字は大文字のまま辞書引きが行われて辞書に登録されていないと見なされる。そして、翻訳結果に示すように、人名でも固有名詞でもない「The」が翻訳文中にアルファベットのまま出力されてしまうことなる。

0012

もし、辞書登録によって上述の問題を解決する場合には、「Tokyo Times」,「theTokyo Times」,「The Tokyo Times」等の見出しを総て辞書に登録しなければならず、辞書作成作業の負担が増してしまうと言う問題がある。

0013

(例2)
入力文:He says,“The computers will be able to be linked tonetworks."
翻訳結果:彼は、「Theコンピュータは、ネットワークと連結されることができるであろう」と言った。

0014

この例においては、入力文中に引用箇所があり、引用箇所の内部がひとつの文となっているため、引用箇所における最初の単語の先頭文字が大文字になっている。しかしながら、この単語「The」は入力文全体の先頭単語とは見なされず、先頭以外の単語と見なされることになる。入力文の辞書引きモードは標準モードとなるから、入力文中の「The」は辞書に登録されていないと見なされて、人名でも固有名詞でもない「The」が翻訳文中にアルファベットのまま出力されてしまうことなる。

0015

(例3)
入力文:We do NOT see anything about it.
この例においては、入力文中の単語「NOT」は、強調のために総て大文字で記述されている。英語文においてこのような表現は実際によく用いられるが、この入力文の場合の辞書引きモードは標準モードとなるから、入力文中の「NOT」は辞書に登録されていないと見なされる。その結果、当該入力文は英語として正しくないと見なされて、構文解析が不能になる場合もある。

課題を解決するための手段

0016

そこで、この発明の目的は、単語単位で辞書引きモードを設定することによって、訳出されるべき単語がソース言語のまま翻訳文中に出現することを防止できる機械翻訳装置を提供することにある。

0017

上記目的を達成するため、この発明は、辞書を引いてソース言語による原文を形態素に分割し,得られた形態素の解析を行う形態素解析手段を有する機械翻訳装置において、上記形態素解析手段は、上記原文の態様に応じて,文全体の辞書引きモードを,文頭形態素の先頭文字を小文字に変換して辞書引きを行う標準モードあるいは総ての大文字を小文字に変換して辞書引きを行う大文字モードの何れかに自動的に切り替え設定する辞書引きモード設定手段と、辞書引きすべき形態素の特徴が特定条件を満たすか否かを判定する形態素特徴判定手段と、上記形態素特徴判定手段の判定結果に基づいて,上記辞書引きすべき形態素独自の局所的辞書引きモードを上記標準モードあるいは大文字モードの何れかに設定する局所辞書引きモード設定手段を備えて、上記局所的辞書引きモードが設定された場合には、文全体の辞書引きモードに拘わらず、当該辞書引きすべき形態素の辞書引きを上記局所的辞書引きモードで行うことを特徴としている。

0018

上記構成によれば、形態素特徴判定手段によって辞書引きすべき当該形態素の特徴が特定条件を満たすと判定された場合には、局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードが設定される。そして、形態素解析手段によって、当該形態素の辞書引きが、辞書引きモード設定手段で設定された文全体の辞書引きモードに拘わらず上記局所的辞書引きモードで行われる。

0019

その結果、文全体の辞書引きモードが標準モードであるにも拘わらず、固有名詞の直前引用個所の先頭に付けられた先頭文字が大文字の「The」あるいは強調のために総て大文字で記述された「NOT」を、大文字モードで辞書引きすることが可能になる。したがって、これらの大文字を含む単語が辞書にないために原語のまま訳出されることがなくなる。

0020

また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成すことが望ましい。

0021

上記構成によれば、辞書引きすべき当該形態素に隣接した形態素の特徴が特定条件を満たすかをも含めて、当該形態素を上記局所辞書引きモードで辞書引きすべきか否かが判定される。こうして、固有名詞の直前や引用個所の先頭に付けられた先頭文字が大文字の「The」あるいは強調するための大文字の「NOT」がより正確に検索される。

0022

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を,先頭文字は大文字であって,且つ,総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致することとし、上記隣接した形態素に関する上記特定条件を,当該辞書引きすべき形態素に続く形態素は大文字を含むと共に,少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致することとすることが望ましい。

0023

上記構成によれば、特殊処理見出しとして、固有名詞の前に付けられることが多い単語「The」の総ての文字を小文字に変換した文字列「the」を登録しておけば、原文中において辞書引きすべき当該形態素に続く連接形態素列「Tokyo Times」が辞書見出しに合致し、当該形態素の総ての文字を小文字に変換して成る文字列が特殊処理見出し「the」に合致すれば、当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。

0024

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を,先頭文字は大文字であって,且つ,総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致することとし、上記隣接した形態素に関する上記特定条件を,当該辞書引きすべき形態素に続く形態素は大文字を含むと共に,少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致することであることとすることが望ましい。

0025

上記構成によれば、特殊処理品詞として、固有名詞の直前に付けられることが多い単語「The」の品詞「詞」を登録しておけば、原文中において辞書引きすべき当該形態素に続く連接形態素列「Tokyo Times」が辞書見出しに合致し、当該形態の素における総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞「冠詞」に合致すれば、当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。

0026

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を,先頭文字が大文字であることとし、上記隣接した形態素に関する上記特定条件を、当該辞書引きすべき形態素の直前の形態素は引用符号であることとすることが望ましい。

0027

上記構成によれば、原文中において辞書引きすべき当該形態素の先頭文字が大文字であり、直前の形態素が引用符号である場合には、上記引用符号の次に位置する当該形態素である先頭文字が大文字である単語「The」の局所的辞書引きが「大文字モード」で行われる。

0028

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を,先頭文字は大文字であって,且つ,総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致することとし、上記隣接した形態素に関する上記特定条件を,当該辞書引きすべき形態素の直前の形態素は引用符号であることとすることが望ましい。

0029

上記構成によれば、特殊処理見出しとして、引用個所の先頭に付けられることが多い単語「The」の総ての文字を小文字に変換して成る文字列「the」を登録しておけば、原文中において辞書引きすべき当該形態素の直前の形態素が引用符号であって、当該形態素の総ての文字を小文字に変換して成る文字列が特殊処理見出し「the」に合致すれば、上記引用符号の次の当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。

0030

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を,先頭文字は大文字であって,且つ,総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致することとし、上記隣接した形態素に関する上記特定条件を,当該辞書引きすべき形態素の直前の形態素は引用符号であることとすることが望ましい。

0031

上記構成によれば、特殊処理品詞として、引用個所の先頭に付けられることが多い単語「The」の品詞「冠詞」を登録しておけば、原文中において辞書引きすべき当該形態素の直前の形態素が引用符号であり、当該形態素の総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞「冠詞」に合致すれば、上記引用符号の次の当該形態素である単語「The」の局所的辞書引きが「大文字モード」で行われる。

0032

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を,総ての文字は大文字であって、且つ、総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致することであることとすることが望ましい。

0033

上記構成によれば、特殊処理見出しとして、強調のために総て大文字で記述されることが多い単語「NOT」の総ての文字を小文字に変換した文字列「not」を登録しておけば、原文中において辞書引きすべき当該形態素は総て大文字であって、当該形態素の総ての文字を小文字に変換して成る文字列が特殊処理見出し「not」に合致すれば、当該形態素である単語「NOT」の局所的辞書引きが「大文字モード」で行われる。

0034

また、この発明の機械翻訳装置は、当該辞書引きすべき形態素に関する上記特定条件を、総ての文字は大文字であり、且つ、総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致することとすることが望ましい。

発明を実施するための最良の形態

0035

上記構成によれば、特殊処理品詞として、強調のために総て大文字で記述されることが多い単語「NOT」の品詞「副詞」を登録しておけば、原文中において辞書引きすべき当該形態素は総て大文字であって、当該形態素の総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞「副詞」に合致すれば、当該形態素である単語「NOT」の局所的辞書引きが「大文字モード」で行われる。

0036

以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の機械翻訳装置におけるブロック図である。尚、本機械翻訳装置は、ソース言語は英語であり、ターゲット言語は日本語である。

0037

図1において、動作制御手段1は、実際の機器構成においては主としてCPU(中央演算処理装置)で実現される。入力手段2は、実際の機器構成においてはキーボード,マウス,ペン,タブレット,スキャナ,文字認識装置等の入力装置や、通信回線と接続されている通信装置で実現される。出力手段3は、実際の機器構成においてはCRT(陰極線管),LCD(液晶表示装置)等の表示装置や、プリンタ等の印字装置や、通信回線と接続されている通信装置で実現される。

0038

翻訳プログラムモジュール4は、実際の機器構成においてはROM(リードオンリ・メモリ)に格納される。記憶手段5は、翻訳用の辞書,文法規則,その他の翻訳規則等のデータおよび特殊処理見出しリスト,特殊処理品詞リストを格納しており、実際の機器構成においては上記ROMやRAM(ランダムアクセス・メモリ)で実現される。動作用メインメモリ6は、実際の機器構成においては上記RAMで実現される。7はバスラインである。

0039

機械翻訳処理方式の1つとして、構文トランスファー方式がある。これは、入力されたソース言語の文に対して、辞書引き,形態素解析,構文解析…と、解析を進めてソース言語の構文構造を得、次に、この構文構造をターゲット言語の構文構造に変換し、ターゲット言語を生成する方式である。図2は、構文トランスファー方式による機械翻訳処理のフローチャートである。以下、図2におけるステップS1で行われる辞書引き・形態素解析と、ステップS2において行われる構文解析について説明する。

0040

(1)辞書引き・形態素解析
図1に示す記憶手段5の辞書を引き、入力された文章を各形態素列(単語列)に分割する。そして、この各単語に対する品詞等の文法情報および訳語を得、さらに、時制,人称,数等を解析する。
(2)構文解析
単語間係り受け等の文章の構造(構造解析木)を決定する。

0041

上述のような構文トランスファー方式による機械翻訳処理を実現するために、翻訳プログラムモジュール4は、図1に示すように、形態素解析手段4a,構文解析手段4b,構文変換手段4cおよびターゲット言語生成手段4dを有している。ここで、形態素解析手段4aによって、図2におけるステップS1の辞書引き・形態素解析が実行される。また、構文解析手段4bによって、図2におけるステップS2の構文解析が実行される。また、構文変換手段4cおよびターゲット言語生成手段4dによって、図2におけるステップS3の木変換,ステップS4の格解析・訳語選択,ステップS5の日本語生成が実行されるのである。

0042

さらに、上記形態素解析手段4aは、文字列中に大文字があるか否かを判定する文字判定手段4e、大文字がある単語の割合を判定する割合算出手段4f、辞書引きモード設定手段4g、形態素特徴判定手段4hを有している。

0043

また、上記動作用メインメモリ6の一部は、翻訳動作の進行に応じて、原文バッファ6a,辞書引きバッファ6b,変換前の構文バッファ6c,変換後の構文バッファ6d,訳文バッファ6e,辞書引きモードフラグバッファ6fおよび大文字フラグバッファ6gに割り当てられる。

0044

上記構成を有する機械翻訳装置は次のように動作する。図3は、動作制御手段1の制御の下に、形態素解析手段4aによって実行される辞書引き・形態素解析処理動作のフローチャートである。以下、図3に従って、辞書引き・形態素解析処理動作の全般について説明する。

0045

記入力手段2によって入力された原文が原文バッファ6aに格納され、原文が各単語に分割されて全文の単語数が求められると、辞書引き・形態素解析処理がスタートする。

0046

ステップS11で、上記文字判定手段4e,割合算出手段4fおよび辞書引きモード設定手段4gによって、辞書引きモード判定が行われる。そして、判定された辞書引きモードを表わす値(フラグ)が辞書引きモードフラグバッファ6fに格納される。ステップS12で、単語位置変数nに初期値「1」がセットされる。ステップS13で、2番目以降におけるn番目の単語の先頭文字が、大文字であるか否かが判別される。その結果、大文字であればステップS14に進み、大文字でなければステップS18に進む。

0047

ステップS14で、上記形態素特徴判定手段4hによって、n番目の単語に関して特徴判定が行われる。ステップS15で、上記ステップS14における判定結果に基づいて、n番目の単語を大文字モードで辞書引きするか否かが判別される。その結果、大文字モードで辞書引きする場合はステップS16に進み、そうでなければステップS17に進む。ステップS16で、n番日の単語が大文字モードで辞書引きされて、得られた辞書データが辞書引きバッファ6bに格納される。そうした後に、ステップS19に進む。ステップS17で、n番目の単語が標準モードで辞書引きされて、得られた辞書データが辞書引きバッファ6bに格納される。そうした後、ステップS19に進む。ステップS18で、n番目の単語が、辞書引きモードフラグバッファ6fの内容に応じた辞書引きモードで辞書引きされる。そして、得られた辞書データが辞書引きバッファ6bに格納される。

0048

ステップS19で、上記単語位置変数nが全文単語数よりも小さいか否かが判別される。その結果、小さい場合にはステップS20に進み、そうでなければ辞書引き・形態素解析処理を終了する。ステップS20で、単語位置変数nの内容がインクリメントされる。そうした後に、上記ステップS13に戻って次の単語の処理に移行する。そして、上記ステップS19において、n≧全文単語数であると判別されると辞書引き・形態素解析処理を終了する。こうして、辞書引き・形態素解析処理が終了すると、以後は、上記構文解析処理に移行する。

0049

このように、本実施の形態においては、上記ステップS11において入力文全体の辞書引きモードを判定することに加えて、ステップS14において行った先頭文字が大文字である単語の特徴判定結果に基づいて、ステップS16,ステップS17において当該単語独自の辞書引きモードで辞書引きを行うようにしている。したがって、入力文中に、先頭単語以外に、固有名詞の前にある「The」や引用箇所の最初の単語「The」や強調の単語「NOT」のような大文字を含む単語が存在しても、その単語独自の辞書引きモードに基づいて当該単語の辞書引きが行われる。こうして、先頭単語以外に大文字を含む単語が存在する場合に、その単語が訳出されずに英語のまま出力されるのを防止するのである。

0050

次に、上記辞書引き・形態素解析処理動作の上記ステップS11において実行される辞書引きモード判定処理について、図4のフローチャートに基づいて詳細に説明する。尚、大文字が存在する単語の割合が50%以上である場合に大文字モードであると判定するように判定の閾値が定められているものとする。

0051

英語による入力文
She answered an advertisement in The Tokyo Times.
が各単語に分割されて全文の単語数が求められると、辞書引きモード判定処理動作がスタートする。

0052

ステップS21で、上記文字判定手段4eによって、各単語の先頭文字が大文字であるか否かが判別される。尚、上記例文の場合の判別結果は、1,6,7,8番目の単語の先頭文字が「大文字」であると判定される。ステップS22で、上記ステップS21による判定結果に基づいて、総ての単語の先頭文字が大文字であるか否かが判定される。その結果、大文字である場合にはステップS25に進み、そうでなければステップS23に進む。上記例文の場合には先頭文字が小文字である単語も存在するのでステップS23に進むことになる。

0053

ステップS23で、上記割合算出手段4fによって、2番目以降の各単語の先頭文字が大文字である割合が算出される。上記例文の場合には、2番目以降の7個の単語のうち先頭文字が大文字である単語が3個であるので、先頭文字が大文字である割合は約42.9%(3/7)となる。ステップS24で、上記ステップS23による算出結果に基づいて、先頭文字が大文字である割合は50%以上であるか否かが判別される。その結果、50%以上であればステップS25に進み、そうでなければステップS26に進む。上記例文の場合には約42.9%であるからステップS26に進むことになる。

0054

ステップS25で、上記辞書引きモード設定手段4gによって、辞書引きモードフラグバッファ6fに「大文字モード」を表わす情報(フラグ)が格納される。こうして、入力文全体としての辞書引きモードが大文字モードと設定された後、辞書引きモード判定処理動作を終了する。そして、上記辞書引き・形態素解析処理動作におけるステップS12にリターンする。ステップS26で、辞書引きモード設定手段4gによって、辞書引きモードフラグバッファ6fに、「標準モード」を表わす情報(フラグ)が格納される。こうして、入力文全体としての辞書引きモードが標準モードと設定された後に、辞書引きモード判定処理動作を終了する。そして、上記辞書引き・形態素解析処理動作におけるステップS12にリターンする。

0055

以下、上記辞書引き・形態素解析処理動作のステップS14において実行される「n番目の単語に関する特徴判定処理」について、各実施例に従って説明する。

0056

<第1実施例>本実施例においては、英語による入力文She answered an advertisement in The Tokyo Times.が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。

0057

上記例文は、先頭単語を除いた単語数は7個であり、そのうち先頭文字が大文字の単語は3個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は3/7(約42.9%)であり、50%より低いので入力文全体としての辞書引きモードが標準モードに設定されている。

0058

図5は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中6番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作の上記ステップS13において、6番目の単語「The」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。

0059

ステップS31で、n番目にある単語がそのままの形で辞書見出しに合致するか否かが判別される。その結果、合致する場合にはステップS35に進み、合致しない場合にはステップS32に進む。本例の場合には、「The」はそのままの形では辞書見出しに合致しないのでステップS32に進むことになる。ステップS32で、当該単語の先頭文字以外に大文字があるか否かが判別される。その結果、あればステップS35に進み、なければステップS33に進む。本例の場合には、上記文字列「The」における先頭文字以外に大文字は存在しないのでステップS33に進むことになる。

0060

ステップS33で、当該単語の単語位置変数nが「全文単語数−2」以下であり、且つ、(n+1)番目の単語の先頭文字が大文字であり、且つ、(n+1)番目の単語以降にある合計2個以上の連接単語列がそのまま辞書見出しに合致するという判定条件を満たすか否かが判別される。その結果、満たす場合にはステップS34に進み、満たさない場合にはステップS35に進む。本例の場合には、単語「The」の単語位置(n=6)は全文単語数(8)より2以上少なく、次の単語「Tokyo」の先頭文字は大文字である。また、次の単語以降の単語列「Tokyo Times」がそのまま熟語として辞書見出しに存在するとする。そうすると、上記判定条件を満たすのでステップS34に進むことになる。

0061

ステップS34で、当該単語の先頭文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS36に進み、存在しない場合にはステップS35に進む。この場合、記憶手段5には、図6に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「The」の先頭文字を小文字に変換した文字列「the」が特殊処理見出しリストに存在するので、ステップS36に進むことになる。

0062

ステップS35で、上記大文字フラグバッファ6gに「0」が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。ステップS36で、大文字フラグバッファ6gに「1」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。

0063

本例の場合には、上記ステップS36において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上記辞書引き・形態素解析処理動作の上記ステップS15において「大文字モードで辞書引きするか否か」の判別を行う場合には、大文字フラグバッファ6gの内容に基づいて、「大文字モード」で辞書引きを行うと判別されるのである。こうすることによって、上述したように入力文全体としての辞書引きモードが辞書引きモードフラグバッファ6fに「標準モード」と設定されているにも拘わらず、6番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図7に示すように、6番目の単語「The」の「局所的大文字モード」フィールドフラグ値が格納され、「the」として辞書引きされた結果がその他のフィールドに格納される。

0064

その結果、最終的に出力される翻訳結果は、彼女は、トウキョウ・タイムズの広告に応募した。となり、良好な翻訳結果を得ることができるのである。

0065

このように、本実施例においては、上記記憶手段5の特殊処理見出しリストとして、固有名詞の前に付けられることが多い「The」の先頭文字を小文字に変更した文字列「the」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語に続く単語の先頭文字が大文字であり、当該単語に続く単語以降にそのまま単語見出しに合致する2個以上の連接単語列(固有名詞)が存在する場合には、当該単語の先頭文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は固有名詞の前に付けられた「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0066

したがって、本実施例によれば、固有名詞「Tokyo Times」の前に付けられた単語「The」が辞書にないために原語のまま訳出されることを、「the Tokyo Times」および「The Tokyo Times」の見出しを上記辞書に登録することなく、簡単に防止することができるのである。

0067

<第2実施例>本実施例においては、第1実施例と同じ英語による入力文She answered an advertisement in The Tokyo Times.が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。

0068

図8は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中6番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。

0069

ステップS41〜ステップS43で、第1実施例における特徴判定処理動作のフローチャート(図5)のステップS31〜ステップS33と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、上記判定条件を満たすか否かの判別が行われる。その結果、上記6番目の単語「The」の場合はステップS44に進むことになる。

0070

ステップS44で、当該単語の先頭文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が、記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS46に進み、存在しない場合にはステップS45に進む。この場合、記憶手段5には、図9に示すような特殊処理品詞リストが格納されているものとする。本例の場合においては、単語「The」の先頭文字を小文字に変換した文字列「the」を辞書引きして得られる品詞は「冠詞」であり、特殊処理品詞リストに存在するのでステップS46に進むことになる。

0071

ステップS45,ステップS46で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS44での判別結果にしたがって「0」(ステップS45)あるいは「1」(ステップS46)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。

0072

本例の場合は、上記ステップS46において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、6番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図7に示すようなる。

0073

その結果、最終的に出力される翻訳結果は、彼女は、トウキョウ・タイムズの広告に応募した。となり、良好な翻訳結果を得ることができるのである。

0074

このように、本実施例においては、上記記憶手段5の特殊処理品詞リストとして、固有名詞の前に付けられることが多い品詞「冠詞」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語に続く単語の先頭文字が大文字であり、当該単語に続く単語以降にそのまま単語見出しに合致する2個以上の連接単語列(固有名詞)が存在する場合には、当該単語の先頭文字を小文字に変更した文字列の品詞が特殊処理品詞リストにあるか否かを調べる。そして、ある場合には、当該単語は固有名詞の前に付けられた「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0075

したがって、本実施例によれば、固有名詞「Tokyo Times」の前に付けられた単語「The」が辞書にないために原語のまま訳出されることを、「the Tokyo Times」および「The Tokyo Times」の見出しを上記辞書に登録することなく、簡単に防止することができるのである。

0076

<第3実施例>本実施例においては、英語による入力文He says,“The computers will be able to be linked to networks."が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。

0077

上記例文は、先頭単語を除いた単語数は13個(引用符を含む)であり、そのうち先頭文字が大文字の単語は1個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は1/13(約7.7%)であり、50%より低いので入力文全体としての辞書引きモードが標準モードに設定されている。

0078

図10は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中5番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作のステップS13において、5番目の単語「The」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。

0079

ステップS51,ステップS52で、第1実施例における特徴判定処理動作のフローチャート(図5)のステップS31,ステップS32と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別が行われる。その結果、上記5番目の単語「The」の場合はステップS53に進むことになる。

0080

ステップS53で、当該単語の単語位置変数nが1より大きく、且つ、(n−1)番目の単語は引用符号であるという判定条件を満たすか否かが判別される。その結果、満たす場合にはステップS55に進み、満たさない場合にはステップS54に進む。本例の場合には、単語「The」の単語位置(n=5)は1より大きく、直前の単語は「引用符号」であるから上記判定条件を満たし、ステップS55に進むことになる。

0081

ステップS54,ステップS55で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS53での判別結果にしたがって「0」(ステップS54)あるいは「1」(ステップS55)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。

0082

本例の場合は、上記ステップS55において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、5番目の単語「The」は大文字モードで辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図11に示すように、5番目の単語「The」の「局所的大文字モード」フィールドにフラグ値が格納され、「the」として辞書引きされた結果がその他のフィールドに格納される。

0083

その結果、最終的に出力される翻訳結果は、彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。となり、良好な翻訳結果を得ることができるのである。

0084

このように、本実施例においては、上記特徴判定処理時に、先頭文字が大文字である当該単語は2番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語は引用個所における最初の「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0085

したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。

0086

<第4実施例>本実施例においては、第3実施例と同じ英語による入力文He says,“The computers will be able to be linked to networks."が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。

0087

図12は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中5番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。

0088

ステップS61〜ステップS63で、第3実施例における特徴判定処理動作のフローチャート(図10)のステップS51〜ステップS53と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、n>1且つ直前の単語は引用符号か否かの判別が行われる。その結果、上記5番目の単語「The」の場合はステップS64に進むことになる。

0089

ステップS64で、当該単語の先頭文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS66に進み、存在しない場合にはステップS65に進む。この場合、記憶手段5には、図6に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「The」の先頭文字を小文字に変換した文字列「the」が特殊処理見出しリストに存在するので、ステップS66に進むことになる。

0090

ステップS65,ステップS66で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS64での判別結果にしたがって「0」(ステップS65)あるいは「1」(ステップS66)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。

0091

本例の場合は、上記ステップS66において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、5番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図11に示すようなる。

0092

その結果、最終的に出力される翻訳結果は、彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。となり、良好な翻訳結果を得ることができるのである。

0093

このように、本実施例においては、上記記憶手段5の特殊処理見出しリストとして、引用個所の最初にあることが多い「The」の先頭文字を小文字に変更した文字列「the」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語は2番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語の先頭文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は引用個所の最初にある「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0094

したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。

0095

<第5実施例>本実施例においては、第3実施例および第4実施例と同じ英語による入力文He says,“The computers will be able to be linked to networks."が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。

0096

図13は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中5番目の単語「The」に関する特徴判定処理を例に特徴判定処理動作について説明する。

0097

ステップS71〜ステップS73で、第3実施例における特徴判定処理動作のフローチャート(図10)のステップS51〜ステップS53と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、先頭文字以外に大文字が存在するか否かの判別、n>1且つ直前の単語は引用符号か否かの判別が行われる。その結果、上記5番目の単語「The」の場合はステップS74に進むことになる。

0098

ステップS74で、当該単語の先頭文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が、記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS76に進み、存在しない場合にはステップS75に進む。この場合、記憶手段5には、図9に示すような特殊処理品詞リストが格納されているものとする。本例の場合は、当該単語「The」の先頭文字を小文字に変換した文字列「the」を辞書引きして得られる品詞は「冠詞」であり、特殊処理品詞リストに存在するのでステップS76に進むことになる。

0099

ステップS75,ステップS76で、第1実施例における特徴判定処理動作のフローチャートのステップS35,ステップS36と同様にして、大文字フラグバッファ6gに上記ステップS74での判別結果にしたがって「0」(ステップS75)あるいは「1」(ステップS76)が格納される。そうした後に、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作のステップS15にリターンする。

0100

本例の場合は、上記ステップS76において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、5番目の単語「The」は大文字モードとして辞書引きされることになる。その結果、当該単語「The」は「the」として辞書引きされ、辞書引きバッファ6bの内容は、図11に示すようなる。

0101

その結果、最終的に出力される翻訳結果は、彼は、「コンピュータは、ネットワークと連結されることができるであろう」と言った。となり、良好な翻訳結果を得ることができるのである。

0102

このように、本実施例においては、上記記憶手段5の特殊処理品詞リストとして、引用個所の最初にあることが多い品詞「冠詞」を登録しておく。そして、特徴判定処理時には、先頭文字が大文字である当該単語は2番目以降の単語であり、当該単語の直前の単語が引用符号である場合には、当該単語の先頭文字を小文字に変更した文字列の品詞が特殊処理品詞リストにあるか否かを調べる。そして、ある場合には当該単語は引用個所の最初にある「The」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0103

したがって、本実施例によれば、入力文中の引用個所における最初にある単語「The」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。

0104

<第6実施例>本実施例においては、英語による入力文We do NOT see anything about it.が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。

0105

上記例文は、先頭単語を除いた単語数は6個であり、そのうち先頭文字が大文字の単語は1個である。したがって、上記辞書引きモード判定処理によって、先頭文字が大文字である割合は1/6(約16.7%)であり、50%より低いので入力文全体としての辞書引きモードが標準モードに設定されている。

0106

図14は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。以下、上記例文中3番目の単語「NOT」に関する特徴判定処理を例に特徴判定処理動作について説明する。上記辞書引き・形態素解析処理動作のステップS13において、3番目の単語「NOT」の先頭文字が大文字であると判定されると、特徴判定処理動作がスタートする。

0107

ステップS81で、n番目にある単語がそのままの形で辞書見出しに合致するか否かが判別される。その結果、合致する場合にはステップS85に進み、合致しない場合にはステップS82に進む。本例の場合は、「NOT」はそのままの形では辞書見出しに合致しないのでステップS82に進むことになる。ステップS82で、当該単語の文字は総て大文字であるか否かが判別される。その結果、総て大文字であればステップS83に進み、そうでなければステップS85に進む。本例の場合は、上記文字列「NOT」は総て大文字であるからステップS83に進むことになる。

0108

ステップS83で、当該単語の総ての文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS84に進み、存在しない場合にはステップS85に進む。この場合、記憶手段5には、図6に示すような特殊処理見出しリストが格納されているものとする。本例の場合には、単語「NOT」の総ての文字を小文字に変換した文字列「not」が特殊処理見出しリストに存在するので、ステップS84に進むことになる。

0109

ステップS84で、当該単語の先頭文字以外の総ての文字を小文字に変換した文字列が、記憶手段5の特殊処理見出しリスト中に存在するか否かが判別される。その結果、存在する場合にはステップS85に進み、存在しない場合にはステップS86に進む。本例の場合においては、単語「NOT」の2文字以降の総ての文字を小文字に変換した文字列「Not」は特殊処理見出しリストに存在しないのでステップS86に進むことになる。

0110

ステップS85で、上記大文字フラグバッファ6gに「0」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。ステップS86で、大文字フラグバッファ6gに「1」が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。

0111

本例の場合には、上記ステップS86において大文字フラグバッファ6gに「1」が格納される。したがって、上述したように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、3番目の単語「NOT」は大文字モードとして辞書引きされることになる。その結果、当該単語「NOT」は「not」として辞書引きされ、辞書引きバッファ6bの内容は、図15に示すように、3番目の単語「NOT」の「局所的大文字モード」フィールドにフラグ値が格納され、「not」として辞書引きされた結果がその他のフィールドに格納される。

0112

その結果、最終的に出力される翻訳結果は、彼は、それについて何も見ない。となり、良好な翻訳結果を得ることができるのである。

0113

このように、本実施例においては、上記記憶手段5の特殊処理見出しリストとして、強調のために総て大文字で記述されることが多い「NOT」の総ての文字を小文字に変更した文字列「not」を登録しておく。そして、特徴判定処理時には、当該単語は総て大文字である場合には、当該単語の総ての文字を小文字に変更した文字列が特殊処理見出しリストにあるか否かを調べる。そして、ある場合には当該単語は単語「not」を強調するための「NOT」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0114

したがって、本実施例によれば、強調するために総て大文字で記述された単語「NOT」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。

0115

<第7実施例>本実施例においては、第6実施例と同じ英語による入力文We do NOT see anything about it.が入力された場合を例に挙げて、n番目の単語に関する特徴判定処理について説明する。尚、本実施例の場合にも、入力文全体としての辞書引きモードとして標準モードが設定される。

0116

図16は、上記辞書引き・形態素解析処理動作の上記ステップS14において実行される特徴判定処理動作のフローチャートである。本実施例においても上記例文中3番目の単語「NOT」に関する特徴判定処理を例に特徴判定処理動作について説明する。

0117

ステップS91,ステップS92で、第6実施例における特徴判定処理動作のフローチャート(図14)のステップS81,ステップS82と同様にして、n番目にある単語は、そのままの形では辞書見出しに合致するか否かの判別、総て大文字か否かの判別が行われる。その結果、上記3番目の単語「NOT」の場合はステップS93に進むことになる。

0118

ステップS93で、当該単語の全文字を小文字に変換した文字列の辞書引きを行う。そして、得られた当該単語の品詞が記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS94に進み、存在しない場合にはステップS95に進む。この場合、記憶手段5には、図9に示すような特殊処理品詞リストが格納されているものとする。本例の場合は、単語「NOT」の総ての文字を小文字に変換した文字列「not」を辞書引きして得られる品詞は「副詞」であり、特殊処理品詞リストに存在するのでステップS94に進むことになる。

0119

ステップS94で、当該単語における先頭文字以外の総ての文字を小文字に変換した文字列の辞書引きを行う。その結果得られた当該単語の品詞が、記憶手段5の特殊処理品詞リスト中に存在するか否かが判別される。その結果、存在する場合にはステップS95に進み、存在しない場合にはステップS96に進む。本例の場合には、単語「NOT」の先頭文字以外の総ての文字を小文字に変換した文字列「Not」を辞書引きした結果見出しに無いので、ステップS96に進むことになる。

0120

ステップS95,ステップS96で、第6実施例における特徴判定処理動作のフローチャート(図14)のステップS85,ステップS86と同様にして、大文字フラグバッファ6gに上記ステップS94での判別結果にしたがって「0」(ステップS95)あるいは「1」(ステップS96)が格納される。そうした後、特徴判定処理動作を終了して、上記辞書引き・形態素解析処理動作における上記ステップS15にリターンする。

0121

本例の場合は、上記ステップS96において大文字フラグバッファ6gに「1」が格納されることになる。したがって、上述のように入力文全体としての辞書引きモードが標準モードと設定されているにも拘わらず、3番目の単語「NOT」は大文字モードとして辞書引きされることになる。その結果、当該単語「NOT」は「not」として辞書引きされ、辞書引きバッファ6bの内容は、図15に示すようなる。

0122

その結果、最終的に出力される翻訳結果は、彼は、それについて何も見ない。となり、良好な翻訳結果を得ることができるのである。

0123

このように、本実施例においては、上記記憶手段5の特殊処理品詞リストとして、強調のために総て大文字で記述されることが多い単語「NOT」の品詞「副詞」を登録しておく。そして、特徴判定処理時には、当該単語は総て大文字である場合には、当該単語の総ての文字を小文字に変更した文字列の品詞が特殊処理冠詞リストにあるか否かを調べる。そして、ある場合には当該単語は強調のために総て大文字で記述された単語「NOT」であるとして、入力文全体としての辞書引きモードに拘わらず「大文字モード」で辞書引きを行うのである。

0124

したがって、本実施例によれば、強調するために総て大文字で記述された単語「NOT」が辞書にないために原語のまま訳出されることを、簡単に防止することができるのである。

0125

上より明らかなように、この発明の機械翻訳装置は、辞書引き・形態素解析を行うに際して、形態素特徴判定手段による辞書引きすべき当該形態素の特徴が特定条件を満たすか否かの判定結果に基づいて、局所辞書引きモード設定手段によって当該形態素独自の局所的辞書引きモードを設定し、当該形態素の辞書引きは、辞書引きモード設定手段によって設定された文全体の辞書引きモードに拘わらず、上記局所的辞書引きモードで行うので、従来のごとく文全体の辞書引きモードのみで辞書引きを行う場合に比して、よりきめ細かな辞書引きモードの切り換えを行うことができる。

0126

したがって、ソース言語の文章中において幾通りかの表記法が存在しうる連語や強調語等に関して、その何れの表記法が用いられた場合であっても適切に辞書引きを行うことができ、より適切な訳文を得ることができる。その結果、上記幾通りかの表示方法の総てを辞書に登録しておく必要がなく、辞書データの作成手間を削減することができるのである。

0127

また、この発明の機械翻訳装置は、上記形態素特徴判定手段を、当該辞書引きすべき形態素に隣接した形態素の特徴が特定条件を満たすか否かをも判定するように成せば、辞書引きすべき当該形態素の特徴と当該形態素に隣接した形態素の特徴とに基づいて、当該形態素を上記局所辞書引きモードで辞書引きすべきか否かを判定できる。したがって、ソース言語の文章中において幾通りかの表記法が存在しうる連語や強調語等を、原文中からより正確に検出することができる。

0128

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・先頭文字は大文字
・総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致する
(b)上記隣接した形態素に関する上記特定条件
・当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するとすれば、例えば特殊処理見出しとして文字列「the」を登録しておけば、固有名詞の前に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

0129

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・先頭文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致する
(b)上記隣接した形態素に関する上記特定条件
・当該辞書引きすべき形態素に続く形態素は大文字を含むと共に、少なくとも更に後に続く形態素と連接した状態で辞書見出しに合致するとすれば、例えば、特殊処理品詞として品詞「冠詞」を登録しておけば、固有名詞の直前に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

0130

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・先頭文字は大文字
(b)上記隣接した形態素に関する上記特定条件
・当該辞書引きすべき形態素の直前の形態素は引用符号である
とすれば、例えば引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

0131

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・先頭文字は大文字
・総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致する
(b)上記隣接した形態素に関する上記特定条件
・当該辞書引きすべき形態素の直前の形態素は引用符号であるとすれば、例えば特殊処理見出しとして文字列「the」を登録しておけば、引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

0132

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・先頭文字は大文字
・総ての文字を小文字に変換して辞書引きして得られた品詞が特殊処理品詞に合致する
(b)上記隣接した形態素に関する上記特定条件
・当該辞書引きすべき形態素の直前の形態素は引用符号であるとすれば、例えば、特殊処理品詞として品詞「冠詞」を登録しておけば、引用個所の先頭に付けられた単語「The」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

0133

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・総ての文字は大文字
・総ての文字を小文字に変換して成る文字列が特殊処理見出しに合致するとすれば、例えば、特殊処理見出しとして文字列「not」を登録しておけば、強調のために総て大文字で記述された単語「NOT」の辞書引きを、局所的辞書引きモード「大文字モード」で行うことができる。

図面の簡単な説明

0134

また、この発明の機械翻訳装置は、
(a)当該辞書引きすべき形態素に関する上記特定条件
・総ての文字は大文字

--

0135

図1この発明の機械翻訳装置におけるブロック図である。
図2構文トランスファー方式による機械翻訳処理のフローチャートである。
図3図1における形態素解析手段によって実行される辞書引き・形態素解析処理動作のフローチャートである。
図4図3に示す辞書引き・形態素解析処理において実行される辞書引きモード判定処理動作のフローチャートである。
図5図3に示す辞書引き・形態素解析処理において実行される特徴判定処理動作のフローチャートである。
図6図1における記憶手段に格納された特殊処理見出しリストの一例を示す図である。
図7図5に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
図8図5とは異なる特徴判定処理動作のフローチャートである。
図9図1における記憶手段に格納された特殊処理品詞リストの一例を示す図である。
図10図5および図8とは異なる特徴判定処理動作のフローチャートである。
図11図10に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
図12図5,図8および図10とは異なる特徴判定処理動作のフローチャートである。
図13図5,図8,図10および図12とは異なる特徴判定処理動作のフローチャートである。
図14図5,図8,図10,図12および図13とは異なる特徴判定処理動作のフローチャートである。
図15図14に示す特徴判定処理に基づく辞書引きの結果を示す辞書引きバッファの内容図である。
図16図5,図8,図10,図12,図13および図14とは異なる特徴判定処理動作のフローチャートである。

0136

1…動作制御手段、2…入力手段、 3…出力手段、4…翻訳プログラムモジュール、 4a…形態素解析手段、4b…構文解析手段、 4c…構文変換手段、4d…ターゲット言語生成手段、 4e…文字判定手段、4f…割合算出手段、 4g…辞書引きモード設定手段、4h…形態素特徴判定手段、 5…記憶手段、6…動作用メインメモリ、 6a…原文バッファ、6b…辞書引きバッファ、 6c…変換前の構文バッファ、6d…変換後の構文バッファ、 6e…訳文バッファ、6f…辞書引きモードフラグバッファ、6g…大文字フラグバッファ。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ