図面 (/)
目的
構成
概要
背景
((日中)(中日)語間の機械翻訳の技術用語の定義及び説明、中国語の文法等の説明等)
本願発明は機械翻訳用の中国語生成装置に関するが、今日の我国では中国語について馴染みが薄い上に、機械翻訳そのものも技術的に特殊な分野である。このため、本願発明そのものについての従来の技術、実施例等を説明するに先立ち、必要最少限において間接的に関係する分野も含めて、関連文献、本発明の趣旨をふまえての日中(中日)語間の機械翻訳の説明、同じく用語の意味や定義等について記載する。(従って、厳密には、本発明の趣旨に関係する記載もあり、純粋の「従来の技術」のみの記載ではない。
(関連文献)
1.中国語について
相浦 呆著 「中国語入門」 日本放送出版協会刊等。
2.機械翻訳について
牧野武則著 「機械翻訳」オーム社刊
長尾 真編集代表 「機械翻訳サミット」 オーム社刊
3.日中(中日)語間の機械翻訳について
(1)特開平3−102568号「日本語から中国語への機械翻訳」
(2)特開平3−202954号「機械翻訳装置」
その他、特開昭61−077639号等。
4.用語の意味や定義等
構文解析、言語構造等における木構造、各種のノード:木構造において、単位毎に、即ち1つの単位が、1つのノードとなる。また、あるノードがその下にある別のノードとつながっているとき、上のノードは親ノードと呼ばれ、下のノードは子ノードと呼ばれる。
以下、本発明で使用する「各種のノード」について説明する。動詞ノードとは、動詞属性を持つノードのことである。形容詞ノードとは、形容詞属性を持つノードのことである。葉ノードとは、子ノードを持たないノードのことである。主語属性ヌルノードとは、主語属性を持つヌルノードのことである。
ヌルノードとは、処理の便利のため加えられたノードのことである。なお、処理中のノードの格の属性が主語であれば、主語属性ノードと呼ぶ。次に、木構造では、その性質上「下から上へ」、「左から右へ」処理がなされる。例えば、図16に示す木構造では、d,e,b,f,c,aの順に処理がなされる。
なお、本発明では中国語の文法、構文解析では、動詞と形容詞が重要な役を担うのに着目している。そしてこの際、木構造を解析に利用する。
依存構造:文を構成する要素(形態素)間での主要素(argument)と修飾語(modifier)の関係をいう。依存構造の図では、通常主要素の下に修飾語を配置し、修飾語の主格、目的格、場所格等の格標識等により、両者の関係を表す。例として、「彼が風邪をひく」の文構造を図17の(a)に、依存構造を(b)に示す。
本図を参照すればわかるように、必要なノードだけが依存構造に表示されるためその構造が簡単となり、中間転換を処理する際に、依存構造を入力すれば、その処理に必要な規則数が少なく、また編集等も容易となる。このため、転換的な機械翻訳システムでは、その入力、出力構造は「依存構造」が一般的である(後述の(本来の従来の技術)及び図11参照。)
表層記号。特に、本発明における原始言語表層記号、文頭表層記号、文末表層記号の取扱い:日本語の助詞は機能語の一つである。言い換えれば、一見同じ助詞と見なされるけれども、文に応じてその機能が違う。例えば、「で」は、「手でつかむ」等の道具格とも「大阪で会う」等の場所格とも見なされている。このため、「で」は表層記号と呼ばれ、文中における「で」の意味は深層記号と呼ばれる。言い換えれば、一つの表層記号は違う意味を持つことができる。従って、日本語等の自然言語の処理を行うときには、「で」等の表層記号の本当な意味を決める必要がある。
「文頭表層記号」 本発明では、中国語の前置詞を指す。ふつう、前置詞句の句頭に置かれる。従って、文頭表層記号という。「文末表層記号」 中国語では、ある名詞が場所格である場合、その場所格は例えば、「裡」、「上」、「下」、「左」、「右」等によって各種場所格の種類を表すことができる。そして、これらの字は普通前置詞句の句尾に置かれる。このため、本発明では、これらの字を文末表層記号という。
中国文生成における自由要素の位置、スロットとスロット位置:スロットとは、穴という意味である。中国語の文(センテンス)を解析すれば、基本要素と自由要素に分けられる。主語、動詞等の基本要素の位置が決定されてから、基本要素と基本要素の間に、スロットと呼ばれる穴が設けられる。そして、これらのスロットが即ち、自由要素が置かれる位置である。主語と動詞と目的語からなるSVO文型を例として示すならば、以下に示す(1)〜(4)の4つのスロット位置がある。
(1)S(2)V(3)O(4)
本発明では、このスロット位置についての規則にも着目する。
連語修飾語及び連語:日本語の助詞に相当する。複数の単語が別の一の単語をつくる、例えば「日本晴れ」、「藤の間」等の日本語の文法用語の連語とは異なる。既述の「特開平3−102568号」或いは「特開昭61−077639号」参照。
形態素:意味を持つ最小の単位である。中国語では、「他(彼)」等の字や「老師(先生)」等の単語である。
時間副詞:時間性をもつ副詞または名詞である。例えば、今天(今日)、昨天(昨日)等である。
中国語の助動詞:例えば、「能」、「可以」、「要」等である。その文法的な機能は英語の助動詞と同様である。本発明では、日本語の文(センテンス)における助動詞とその意味を検索キーとして「日中助動詞対照表」を参照して対応する中国語の助動詞を検出する。例えば、日本語の助動詞「たい」の意味は「希望」である。従って、「たい」に対応する中国語の助動詞は「想」である。また、「想」の文における位置はスロット2である。
接続語:中国語では、「和」、「或」、「及」等であり、各々「と、and」、「しかし、but」、「と、and」に相当する。
動詞と形容詞:活用等細部は異なるも、日本語と中国語でほぼ同義である。指示代名詞、助数詞も同様である。
主題語(TOPIC):中国語では、特別な強調をする場合、ある字、単語は文の始めにおかれる。この字或いは単語が「主題語」と呼ばれる。
中国語における特殊文型の属性値:中国語には、特殊文型がある。これらの特殊文型は、文を構成する要素から決まる。例えば、「把」句、「被」句、「使」句などである。「把」句について説明するならば、中国語に、二項他動詞の目的語が2つ(直接目的語、間接目的語)ある場合、「把」句を生成するほうが自然となる。例えば、「把書放在車子裡」は「放書在車子裡」より自然である。(後述の実施例では、動詞の属性SENATTRによって、上記のどの型を生成するのかを記憶する。)
中国語における被(be)句、把(ba)句:中国語では、「被」句は普通、受動文を指す。これは、日本語の「受身文」或いは「利害受身文」である。中国語では、「把」句は普通、その動詞が二項他動詞であり、そして直接目的語、間接目的語がある。一般に、直接目的語の前に「把」という字が置かれるうえに、動詞の前に移動する。
本発明は、これら特殊文型の規則にも着目したものである。
二項他動詞:中国語における双(外1)動詞であり、英語のdi-transitive verb(2つの目的語を持つことのできる他動詞、He gave me a car.(SVOO)の「gave」、に類似したものに類似(相当)する。
{なおここに(外1)とは、図18に示す(外1)の漢字を指す。(外2)、(外3)等も同様である。(工業所有権に関する手続等の特例法の施行規則は、本願のごとき中国語が多数でてくる明細書を想定していないと判断されるため、読み易さを考えて、かかる記載方式を採用する。)}
使役文:他人にその動作を行わせる内容の文。なお、中国語では、「給」という字で、使役文を生成することができる。
例、老師「給」他吃飯。(先生は彼に食べさせる)
受動文:日本語の「受身文」のことである。普通、中国語では、「被」字の形で表現される。
中国語の述語:日本語の目的語に相当する。
(本来の従来の技術)以下、本来の言葉をかえていうならば純粋の、従来の技術について記載する。
技術等の進歩の著しい今日、時代に遅れないために、絶えず知識、情報を吸収する必要がある。ところで、交通、通信の発達のもと、吸収すべき知識、情報は国内のみならず外国からも入ってくる。さてこの場合、多くの人は外国語にはそう堪能でない上に、情報源となる外国語は多種であるため、翻訳が重要となってくる。そして、この翻訳の質及び迅速性をも含めた効率の向上を図るため、人手にかえて機械が行うこと、つまり機械翻訳システムを考えねばならない時代になってきている。ところで、機械翻訳の方式であるが、これは翻訳言語の特性に従って直接方式、中間転換方式、核心言語(PIVOT)方式等がある。その中では、既に説明したごとく、転換規則が少なくてすむ等のため「中間転換方式」が一般的に採用されている。
この中間転換方式を採用する機械翻訳装置は、図13に示すように、大きく、
(1)原始言語(入力され、外国語へ翻訳される言語)解析部
(2)中間構造転換部
(3)目的言語(翻訳され出力される言語)生成部
(4)参照用字典、辞書
という四つの部分から構成され、原始言語のデータ構造を簡単化して、全ての情報を処理できる簡単な中間構造、例えば依存構造(dependency structure)にし、更に目的言語を得るものが一般的である。
ただし、この内容は例えば別途本願出願人が、既述の特開平3−202954号で開示しているいわゆる周知技術であるため、これ以上の説明は省略する。この場合、機械翻訳の質は、一部を既に説明したごとく、原始言語解析部で入力された語句をいかに正確に解析したか、中間構造転換部で原始言語(本明細書では日本語)と目的言語(本明細書では中国語)との差異をいかに解消したか(例えば、構文、意味の差異を解消する、或いは、訳語を適切に選択する等)、目的言語生成部で目的言語の生成文法規則に基づいていかに正確に目的言語を生成したか、ということにかかってくる。
さて、中国語においては、文中に占める語の位置について、翻訳装置がすんなりとは理解しえない特性があり、これが上記各処理の善し悪しに関係する。すなわち、ある単語は、文に占める位置が相違すれば、文そのものの意味も相違する。例えば、“在(外2)子上”という句の文中の位置の相違のため、『他*在(外2)子上*跳(彼は机の上に跳んでいる。)』と『他跳*在(外2)子上*(彼は跳んで机の上にいる。)』は意味が異なる。
また、ある字(中国語ならば、原則として漢字)、単語は必ず一定の順序で配置(配列)され、またそうされなければ、間違った文となる。例えば、以下に示すように、時間語(時間を表す単語。以下“場所語”“道具語”等も同様の意味で使用する。ただし、「主語」等文法用語は勿論このかぎりではない。)は必ず場所を表す場所語の前に置かれる。
正確な中国語文:他*昨日**在學校*吃飯。(彼は、昨日学校で御飯を食べた。)
誤った中国語文:他*在學校**昨日*吃飯。
しかし、これとは逆に、ある特定の若しくは決まった字、単語の配列、順序は自由である。例えば、以下に示すように、時間語は主語の前にも後にも置かれる。
時間語が主語の前に置かれる:昨日他去學校。(彼は、昨日学校を去った。)
時間語が主語の後に置かれる:他昨日去學校。
道具語+場所語:他*藉着公司的力量**在社会*打(外3)。(彼は、会社の力によって社会で頑張っている。)
場所語+道具語:他*在社会**藉着公司的力量*打(外3)。
以上の例でわかるように、目的言語が中国語である機械翻訳においては、文中における字、語の配列、順序を正確に決めることは極めて重要な課題である。
さて、従来の中国語を生成する機械翻訳装置としては、例えば特開平3−102568号公報に示されたようなものがある。この装置の構成を図14に示す。本図において、10は日本語入力手段であり、日本語ワードプロセッサより“ひらがな”、“カタカナ”又は“ローマ字”等の読み記号で日本語文を入力されると後に説明する日本語文字パターンファイル11と日本語用語ファイル18とアルファベット/数字/記号文字パターンファイル15とを参照しながら、入力された読み記号をかな漢字混り文に変換する。11は、日本語文字パターンファイルであり、検索キーである文字コードとそれに対応する日本語文字(漢字、かな(仮字))をあらかじめ登録してある。15は、アルファベット/数字/記号文字パターンファイルであり、検索キーである文字コードとそれに対応するアルファベット、数字、記号をあらかじめ登録してある。18は、日本語用語ファイルであり、検索キーである漢字の文字コード、かな文字コードとそれに対応する日本語の字、語をあらかじめ登録してある。20は、訳語選択学習手段であり、入力された日本語文字に対して音節を切り出してから連語修飾語を削除する。35は、日本語辞書ファイルであり、日本語における字、語の品詞をあらかじめ登録してある。30は、日本語品詞付与手段であり、連語が削除された後の日本語文に対して各語毎に日本語辞書ファイルを参照して品詞を付与する。40は、品詞並べ変え手段であり、自己が記憶している中国語文法により、品詞付与された日本語文に対して品詞並べ換えを行う。55は、中国語知識データベースであり、検索キーである日本語文字コード、日本語字、単語とそれに対応する中国語文字コード、読み記号コード、中国語字、単語をあらかじめ登録してある。50は、日本語から中国語への翻訳手段であり、上記中国語知識データベース55を参照して入力された日本語文から中国語文への翻訳を行う。60は、中国語文法調査手段であり、日本語から中国語への翻訳手段から送られた翻訳された中国語文につき、図15に示した中国語構文規則に従って構文解析をする。そして、構文規則に合うものには、中国語文法要素を付与する。例えば、主語、状況語等である。また、解析不能の中国語文は、あらかじめ慣用構文として記憶している。70は、中国語文法への変換手段であり、構文解析された中国語文を文法変換し、又は慣用構文を出力する。85は、中国語文字パターンファイルであり、検索キーである文字コード、読み記号とそれに対応する中国語の字、単語をあらかじめ登録している。80は、中国語出力手段であり、日本語ワードプロセッサを流用しており、中国語文字パターンファイル85とアルファベット/数字/記号文字パターンファイル15を参照して中国語漢字を出力する。
以下、この従来例の動作を説明する。日本語ワードプロセッサから「ひらがな」で、『わたしはしゃんはいからぺきんまでひこうきにのった』と入力されると、日本語文字パターンファイル11と日本語用語ファイル18、アルファベット/数字/記号文字パターン15を使用して日本語入力手段10によって以下のように日本語文字の文書に変換される。
私は上海から北京まで飛行機に乗った。それから訳語選択学習手段20の処理に入る。訳語選択学習手段20は、上記日本語文字に対して音節の切り出しを行ってから、連語修飾語の「は」と「に」を削除する。その結果、私 上海から 北京まで 飛行機 乗った。となる。そして、日本語品詞付与手段30がこの各単語毎に日本語辞書ファイル35を使用して品詞を付与する。その結果
名詞名詞格助詞名詞 副助詞名詞動詞
私 上海 から 北京 まで 飛行機 乗った。
となる。
次に、品詞並べ変え手段40によって、自己が記憶している文法を参照して、中国語文法の品詞並びに合わせる。例えば、日本語が「名詞+助詞」である場合には、対応する中国語として「助詞+名詞」に並べ変える。その処理の結果を以下に示す。
名詞格助詞名詞 副助詞 名詞 名詞動詞
私 から 上海 まで北京飛行機乗った。
次に、中国語へ翻訳する翻訳手段50によって、日本語の形態素を検索キーとして中国語知識データベース55を参照しながら、各形態素毎に、中国語の訳語を検出し、上記日本語の形態素を検出された訳語に置き換える。その結果、以下のようになる。
我 從 上海 到 北京 飛機 坐了
しかる後、中国語文法調査手段60は、図14に示した中国語の構文規則に従って、入力文における中国語の各形態素毎に文法機能名称(例えば、主語、状況語等)を付与する。以上の処理の結果を以下に示す。
ID=000003HE=010 WI=077 LX=1115 LY=1450
次に、中国語文法への変換手段70は、記憶している日本語と中国語の文法の差異についての規則を参照して変換する。
例えば、日本語が“述語(既述のごとく、日本語の目的語)+動詞”である場合、中国語では“動詞+述語”というふうに調整しなければならない。この規則に従って変換すると、結果は、
ID=000004HE=010 WI=077 LX=1115 LY=1900
となる。
最後に、中国語出力手段80の処理となる。日本語のワードプロセッサに中国語文字を表示させるために、中国語文字コードを検索キーとして中国語文字パターンファイル85を参照し、対応する中国語文字を出力する。この中国語文字コードを中国語文字で出力すると、
“我從上海到北京坐了飛機”
となる。
概要
自然な中国語文を生成する機械翻訳用中国語生成装置を提供する。
意味と構文情報を利用する。具体的には、前処理部は、中国語の依存構造の動詞、形容詞を基に、文構造に主語属性ヌルノードを与える。基本文型部は、動詞細分類コードと対応する基本文型構造を記憶している。基本要素展開部は、依存構造主要素の動詞細分類コードから基本文構造を生成する。文要素情報部は、修飾語の格標識等とそれらに対応する文頭表層記号等を記憶している。自由要素展開部は、格標識等を基にスロット位置を参照し自由要素を生成する。特殊文型生成部は、主要素の属性値を基に特殊文型を生成する。要素位置調整部は、構文要素順序部を参照して要素配置順序を検査し、調整する。後処理部は、補助要素と句読点を生成する。
目的
効果
実績
- 技術文献被引用数
- 1件
- 牽制数
- 0件
この技術が所属する分野
(分野番号表示ON)※整理標準化データをもとに当社作成
請求項1
原始言語である文に対して言語解析、中間転換を行って得られた中国語の依存構造を中国語文に転換する機械翻訳用の中国語生成装置であって、中国語の各動詞の細分類コードとそれに対応する基本文型構造をあらかじめ登録している基本文型部と、修飾語の格標識、原始言語表層記号、意味支配コード、意味コードとそれらに対応する中国語の文頭表層記号、文末表層記号、スロット位置をあらかじめ登録している文要素情報部と、スロット位置とそれに対応する構文要素の順序制限をあらかじめ登録している構文要素順序部と、入力された中国語の依存構造に対して、主語を省略した動詞、形容詞を検出し、当該文構造に主語属性ヌルノードを付与してから依存構造における動詞または形容詞からなる主要素について、動詞は動詞細分類コード、形容詞は擬制した動詞分類コードによって前記基本文型部を参照して対応する基本文型を取り出し、中国語の文構造を生成する文構造生成部と、上記依存構造に対して基本要素以外の他の要素についても、前記文要素情報部を参照して、各要素毎に、格標識、原始言語表層記号、意味支配コード、意味コードによって対応する中国語の文頭表層記号、文末表層記号、スロット位置を取り出し、更にこの取り出したスロット位置を参照して文構造における対応する位置に自由要素を生成した後、各動詞、形容詞の特殊文型の属性値を参照して文構造毎に特殊文型を生成する自由要素生成部と、前記構文要素順序部から順に各スロットにおける構文要素順序制限を取り出して上記文構造に対応するスロットの要素配置順序を検査し、調整した後、文構造を線形化して中国語文を生成する文生成部とを有していることを特徴とする機械翻訳用の中国語生成装置。
請求項2
上記文構造生成部は、入力された中国語の依存構造に対して主語を省略した動詞、形容詞を検出し、当該文構造に主語属性ヌルノードを付与する前処理手段と、上記依存構造における主要素の動詞細分類コードによって前記基本文型部を参照して対応する基本文型を取り出し、中国語の基本文構造を生成する基本要素展開手段を有し、前記自由要素生成部は、上記依存構造に対して基本要素の他の要素についても、各要素毎に、格標識、原始言語表層記号、意味支配コード、意味コードによって上記文要素情報部から対応する中国語の文頭表層記号、文末表層記号、スロット位置を取り出し、この取り出したスロット位置を参照して文構造における対応位置に自由要素を生成する自由要素展開手段と、前記自由要素展開手段により生成された文構造に対して、各動詞、形容詞の特殊文型の属性値を参照して文構造毎に特殊文型を生成する特殊文型生成手段を有し、前記文生成部は、構文要素順序部から順に各構文要素順序制限を取り出して上記文構造に対応するスロットの要素配置順序を検査し、調整する要素位置調整手段と、文構造を線形化して中国語文を得る後処理手段を有していることを特徴とする請求項1記載の機械翻訳用の中国語生成装置。
技術分野
背景技術
0002
((日中)(中日)語間の機械翻訳の技術用語の定義及び説明、中国語の文法等の説明等)
本願発明は機械翻訳用の中国語生成装置に関するが、今日の我国では中国語について馴染みが薄い上に、機械翻訳そのものも技術的に特殊な分野である。このため、本願発明そのものについての従来の技術、実施例等を説明するに先立ち、必要最少限において間接的に関係する分野も含めて、関連文献、本発明の趣旨をふまえての日中(中日)語間の機械翻訳の説明、同じく用語の意味や定義等について記載する。(従って、厳密には、本発明の趣旨に関係する記載もあり、純粋の「従来の技術」のみの記載ではない。
(関連文献)
1.中国語について
相浦 呆著 「中国語入門」 日本放送出版協会刊等。
2.機械翻訳について
牧野武則著 「機械翻訳」オーム社刊
長尾 真編集代表 「機械翻訳サミット」 オーム社刊
3.日中(中日)語間の機械翻訳について
(1)特開平3−102568号「日本語から中国語への機械翻訳」
(2)特開平3−202954号「機械翻訳装置」
その他、特開昭61−077639号等。
4.用語の意味や定義等
構文解析、言語構造等における木構造、各種のノード:木構造において、単位毎に、即ち1つの単位が、1つのノードとなる。また、あるノードがその下にある別のノードとつながっているとき、上のノードは親ノードと呼ばれ、下のノードは子ノードと呼ばれる。
0003
以下、本発明で使用する「各種のノード」について説明する。動詞ノードとは、動詞属性を持つノードのことである。形容詞ノードとは、形容詞属性を持つノードのことである。葉ノードとは、子ノードを持たないノードのことである。主語属性ヌルノードとは、主語属性を持つヌルノードのことである。
0004
ヌルノードとは、処理の便利のため加えられたノードのことである。なお、処理中のノードの格の属性が主語であれば、主語属性ノードと呼ぶ。次に、木構造では、その性質上「下から上へ」、「左から右へ」処理がなされる。例えば、図16に示す木構造では、d,e,b,f,c,aの順に処理がなされる。
0005
なお、本発明では中国語の文法、構文解析では、動詞と形容詞が重要な役を担うのに着目している。そしてこの際、木構造を解析に利用する。
依存構造:文を構成する要素(形態素)間での主要素(argument)と修飾語(modifier)の関係をいう。依存構造の図では、通常主要素の下に修飾語を配置し、修飾語の主格、目的格、場所格等の格標識等により、両者の関係を表す。例として、「彼が風邪をひく」の文構造を図17の(a)に、依存構造を(b)に示す。
0006
本図を参照すればわかるように、必要なノードだけが依存構造に表示されるためその構造が簡単となり、中間転換を処理する際に、依存構造を入力すれば、その処理に必要な規則数が少なく、また編集等も容易となる。このため、転換的な機械翻訳システムでは、その入力、出力構造は「依存構造」が一般的である(後述の(本来の従来の技術)及び図11参照。)
表層記号。特に、本発明における原始言語表層記号、文頭表層記号、文末表層記号の取扱い:日本語の助詞は機能語の一つである。言い換えれば、一見同じ助詞と見なされるけれども、文に応じてその機能が違う。例えば、「で」は、「手でつかむ」等の道具格とも「大阪で会う」等の場所格とも見なされている。このため、「で」は表層記号と呼ばれ、文中における「で」の意味は深層記号と呼ばれる。言い換えれば、一つの表層記号は違う意味を持つことができる。従って、日本語等の自然言語の処理を行うときには、「で」等の表層記号の本当な意味を決める必要がある。
0007
「文頭表層記号」 本発明では、中国語の前置詞を指す。ふつう、前置詞句の句頭に置かれる。従って、文頭表層記号という。「文末表層記号」 中国語では、ある名詞が場所格である場合、その場所格は例えば、「裡」、「上」、「下」、「左」、「右」等によって各種場所格の種類を表すことができる。そして、これらの字は普通前置詞句の句尾に置かれる。このため、本発明では、これらの字を文末表層記号という。
0008
中国文生成における自由要素の位置、スロットとスロット位置:スロットとは、穴という意味である。中国語の文(センテンス)を解析すれば、基本要素と自由要素に分けられる。主語、動詞等の基本要素の位置が決定されてから、基本要素と基本要素の間に、スロットと呼ばれる穴が設けられる。そして、これらのスロットが即ち、自由要素が置かれる位置である。主語と動詞と目的語からなるSVO文型を例として示すならば、以下に示す(1)〜(4)の4つのスロット位置がある。
0009
(1)S(2)V(3)O(4)
本発明では、このスロット位置についての規則にも着目する。
連語修飾語及び連語:日本語の助詞に相当する。複数の単語が別の一の単語をつくる、例えば「日本晴れ」、「藤の間」等の日本語の文法用語の連語とは異なる。既述の「特開平3−102568号」或いは「特開昭61−077639号」参照。
0010
形態素:意味を持つ最小の単位である。中国語では、「他(彼)」等の字や「老師(先生)」等の単語である。
時間副詞:時間性をもつ副詞または名詞である。例えば、今天(今日)、昨天(昨日)等である。
0011
中国語の助動詞:例えば、「能」、「可以」、「要」等である。その文法的な機能は英語の助動詞と同様である。本発明では、日本語の文(センテンス)における助動詞とその意味を検索キーとして「日中助動詞対照表」を参照して対応する中国語の助動詞を検出する。例えば、日本語の助動詞「たい」の意味は「希望」である。従って、「たい」に対応する中国語の助動詞は「想」である。また、「想」の文における位置はスロット2である。
0012
接続語:中国語では、「和」、「或」、「及」等であり、各々「と、and」、「しかし、but」、「と、and」に相当する。
動詞と形容詞:活用等細部は異なるも、日本語と中国語でほぼ同義である。指示代名詞、助数詞も同様である。
0013
主題語(TOPIC):中国語では、特別な強調をする場合、ある字、単語は文の始めにおかれる。この字或いは単語が「主題語」と呼ばれる。
中国語における特殊文型の属性値:中国語には、特殊文型がある。これらの特殊文型は、文を構成する要素から決まる。例えば、「把」句、「被」句、「使」句などである。「把」句について説明するならば、中国語に、二項他動詞の目的語が2つ(直接目的語、間接目的語)ある場合、「把」句を生成するほうが自然となる。例えば、「把書放在車子裡」は「放書在車子裡」より自然である。(後述の実施例では、動詞の属性SENATTRによって、上記のどの型を生成するのかを記憶する。)
中国語における被(be)句、把(ba)句:中国語では、「被」句は普通、受動文を指す。これは、日本語の「受身文」或いは「利害受身文」である。中国語では、「把」句は普通、その動詞が二項他動詞であり、そして直接目的語、間接目的語がある。一般に、直接目的語の前に「把」という字が置かれるうえに、動詞の前に移動する。
0014
本発明は、これら特殊文型の規則にも着目したものである。
二項他動詞:中国語における双(外1)動詞であり、英語のdi-transitive verb(2つの目的語を持つことのできる他動詞、He gave me a car.(SVOO)の「gave」、に類似したものに類似(相当)する。
0015
{なおここに(外1)とは、図18に示す(外1)の漢字を指す。(外2)、(外3)等も同様である。(工業所有権に関する手続等の特例法の施行規則は、本願のごとき中国語が多数でてくる明細書を想定していないと判断されるため、読み易さを考えて、かかる記載方式を採用する。)}
使役文:他人にその動作を行わせる内容の文。なお、中国語では、「給」という字で、使役文を生成することができる。
0016
例、老師「給」他吃飯。(先生は彼に食べさせる)
受動文:日本語の「受身文」のことである。普通、中国語では、「被」字の形で表現される。
中国語の述語:日本語の目的語に相当する。
(本来の従来の技術)以下、本来の言葉をかえていうならば純粋の、従来の技術について記載する。
0017
技術等の進歩の著しい今日、時代に遅れないために、絶えず知識、情報を吸収する必要がある。ところで、交通、通信の発達のもと、吸収すべき知識、情報は国内のみならず外国からも入ってくる。さてこの場合、多くの人は外国語にはそう堪能でない上に、情報源となる外国語は多種であるため、翻訳が重要となってくる。そして、この翻訳の質及び迅速性をも含めた効率の向上を図るため、人手にかえて機械が行うこと、つまり機械翻訳システムを考えねばならない時代になってきている。ところで、機械翻訳の方式であるが、これは翻訳言語の特性に従って直接方式、中間転換方式、核心言語(PIVOT)方式等がある。その中では、既に説明したごとく、転換規則が少なくてすむ等のため「中間転換方式」が一般的に採用されている。
0018
この中間転換方式を採用する機械翻訳装置は、図13に示すように、大きく、
(1)原始言語(入力され、外国語へ翻訳される言語)解析部
(2)中間構造転換部
(3)目的言語(翻訳され出力される言語)生成部
(4)参照用字典、辞書
という四つの部分から構成され、原始言語のデータ構造を簡単化して、全ての情報を処理できる簡単な中間構造、例えば依存構造(dependency structure)にし、更に目的言語を得るものが一般的である。
0019
ただし、この内容は例えば別途本願出願人が、既述の特開平3−202954号で開示しているいわゆる周知技術であるため、これ以上の説明は省略する。この場合、機械翻訳の質は、一部を既に説明したごとく、原始言語解析部で入力された語句をいかに正確に解析したか、中間構造転換部で原始言語(本明細書では日本語)と目的言語(本明細書では中国語)との差異をいかに解消したか(例えば、構文、意味の差異を解消する、或いは、訳語を適切に選択する等)、目的言語生成部で目的言語の生成文法規則に基づいていかに正確に目的言語を生成したか、ということにかかってくる。
0020
さて、中国語においては、文中に占める語の位置について、翻訳装置がすんなりとは理解しえない特性があり、これが上記各処理の善し悪しに関係する。すなわち、ある単語は、文に占める位置が相違すれば、文そのものの意味も相違する。例えば、“在(外2)子上”という句の文中の位置の相違のため、『他*在(外2)子上*跳(彼は机の上に跳んでいる。)』と『他跳*在(外2)子上*(彼は跳んで机の上にいる。)』は意味が異なる。
0021
また、ある字(中国語ならば、原則として漢字)、単語は必ず一定の順序で配置(配列)され、またそうされなければ、間違った文となる。例えば、以下に示すように、時間語(時間を表す単語。以下“場所語”“道具語”等も同様の意味で使用する。ただし、「主語」等文法用語は勿論このかぎりではない。)は必ず場所を表す場所語の前に置かれる。
正確な中国語文:他*昨日**在學校*吃飯。(彼は、昨日学校で御飯を食べた。)
誤った中国語文:他*在學校**昨日*吃飯。
しかし、これとは逆に、ある特定の若しくは決まった字、単語の配列、順序は自由である。例えば、以下に示すように、時間語は主語の前にも後にも置かれる。
時間語が主語の前に置かれる:昨日他去學校。(彼は、昨日学校を去った。)
時間語が主語の後に置かれる:他昨日去學校。
0022
道具語+場所語:他*藉着公司的力量**在社会*打(外3)。(彼は、会社の力によって社会で頑張っている。)
場所語+道具語:他*在社会**藉着公司的力量*打(外3)。
以上の例でわかるように、目的言語が中国語である機械翻訳においては、文中における字、語の配列、順序を正確に決めることは極めて重要な課題である。
0023
さて、従来の中国語を生成する機械翻訳装置としては、例えば特開平3−102568号公報に示されたようなものがある。この装置の構成を図14に示す。本図において、10は日本語入力手段であり、日本語ワードプロセッサより“ひらがな”、“カタカナ”又は“ローマ字”等の読み記号で日本語文を入力されると後に説明する日本語文字パターンファイル11と日本語用語ファイル18とアルファベット/数字/記号文字パターンファイル15とを参照しながら、入力された読み記号をかな漢字混り文に変換する。11は、日本語文字パターンファイルであり、検索キーである文字コードとそれに対応する日本語文字(漢字、かな(仮字))をあらかじめ登録してある。15は、アルファベット/数字/記号文字パターンファイルであり、検索キーである文字コードとそれに対応するアルファベット、数字、記号をあらかじめ登録してある。18は、日本語用語ファイルであり、検索キーである漢字の文字コード、かな文字コードとそれに対応する日本語の字、語をあらかじめ登録してある。20は、訳語選択学習手段であり、入力された日本語文字に対して音節を切り出してから連語修飾語を削除する。35は、日本語辞書ファイルであり、日本語における字、語の品詞をあらかじめ登録してある。30は、日本語品詞付与手段であり、連語が削除された後の日本語文に対して各語毎に日本語辞書ファイルを参照して品詞を付与する。40は、品詞並べ変え手段であり、自己が記憶している中国語文法により、品詞付与された日本語文に対して品詞並べ換えを行う。55は、中国語知識データベースであり、検索キーである日本語文字コード、日本語字、単語とそれに対応する中国語文字コード、読み記号コード、中国語字、単語をあらかじめ登録してある。50は、日本語から中国語への翻訳手段であり、上記中国語知識データベース55を参照して入力された日本語文から中国語文への翻訳を行う。60は、中国語文法調査手段であり、日本語から中国語への翻訳手段から送られた翻訳された中国語文につき、図15に示した中国語構文規則に従って構文解析をする。そして、構文規則に合うものには、中国語文法要素を付与する。例えば、主語、状況語等である。また、解析不能の中国語文は、あらかじめ慣用構文として記憶している。70は、中国語文法への変換手段であり、構文解析された中国語文を文法変換し、又は慣用構文を出力する。85は、中国語文字パターンファイルであり、検索キーである文字コード、読み記号とそれに対応する中国語の字、単語をあらかじめ登録している。80は、中国語出力手段であり、日本語ワードプロセッサを流用しており、中国語文字パターンファイル85とアルファベット/数字/記号文字パターンファイル15を参照して中国語漢字を出力する。
0024
以下、この従来例の動作を説明する。日本語ワードプロセッサから「ひらがな」で、『わたしはしゃんはいからぺきんまでひこうきにのった』と入力されると、日本語文字パターンファイル11と日本語用語ファイル18、アルファベット/数字/記号文字パターン15を使用して日本語入力手段10によって以下のように日本語文字の文書に変換される。
0025
私は上海から北京まで飛行機に乗った。それから訳語選択学習手段20の処理に入る。訳語選択学習手段20は、上記日本語文字に対して音節の切り出しを行ってから、連語修飾語の「は」と「に」を削除する。その結果、私 上海から 北京まで 飛行機 乗った。となる。そして、日本語品詞付与手段30がこの各単語毎に日本語辞書ファイル35を使用して品詞を付与する。その結果
名詞名詞格助詞名詞 副助詞名詞動詞
私 上海 から 北京 まで 飛行機 乗った。
となる。
0026
次に、品詞並べ変え手段40によって、自己が記憶している文法を参照して、中国語文法の品詞並びに合わせる。例えば、日本語が「名詞+助詞」である場合には、対応する中国語として「助詞+名詞」に並べ変える。その処理の結果を以下に示す。
名詞格助詞名詞 副助詞 名詞 名詞動詞
私 から 上海 まで北京飛行機乗った。
次に、中国語へ翻訳する翻訳手段50によって、日本語の形態素を検索キーとして中国語知識データベース55を参照しながら、各形態素毎に、中国語の訳語を検出し、上記日本語の形態素を検出された訳語に置き換える。その結果、以下のようになる。
我 從 上海 到 北京 飛機 坐了
しかる後、中国語文法調査手段60は、図14に示した中国語の構文規則に従って、入力文における中国語の各形態素毎に文法機能名称(例えば、主語、状況語等)を付与する。以上の処理の結果を以下に示す。
ID=000003HE=010 WI=077 LX=1115 LY=1450
次に、中国語文法への変換手段70は、記憶している日本語と中国語の文法の差異についての規則を参照して変換する。
0027
例えば、日本語が“述語(既述のごとく、日本語の目的語)+動詞”である場合、中国語では“動詞+述語”というふうに調整しなければならない。この規則に従って変換すると、結果は、
ID=000004HE=010 WI=077 LX=1115 LY=1900
となる。
0028
最後に、中国語出力手段80の処理となる。日本語のワードプロセッサに中国語文字を表示させるために、中国語文字コードを検索キーとして中国語文字パターンファイル85を参照し、対応する中国語文字を出力する。この中国語文字コードを中国語文字で出力すると、
“我從上海到北京坐了飛機”
となる。
発明が解決しようとする課題
0029
しかしながら、この従来技術に係る装置においては、次のような問題点がある。第1に、この装置は、中国語文法の構文規則に従って中国語文における各形態素の位置を決めるものである。従って、もしある構文規則が定義されていないと、当該構文の中国語文章(文型)を生成できない。ひいては、形態素の位置が決まらないこととなる。例えば、図15の1に示した一般構文では、状況語(地点修飾語)が主語と動詞の間に置かれているので、上記例文の場合には、「我從上海坐了飛機到北京」というような高品質な中国語文書は生成できない。このため、完全(完備)といえるような構文規則を集めるためには、膨大な開発費と工数(マンパワー)を投入しなければならない。
0030
第2に、中国語を生成するときは、構文情報を利用するだけである。このため、複数の構文規則に適合する場合には、最も適切なものを選択するのは難しい。従って、かかる場合には、高品質の中国語文を生成するのは困難になる。例えば、状況語は動詞の意味の分類に従って動詞の前におかれたり(例えば動詞「讀」、「教」等)、後におかれたり(例えば同じく「放」、「(外4)存」等)する。このため、動詞の意味分類についてのデータがないと、正確な中国語文を生成できない。具体的には、以下のような括弧内の場合である。
*書被放[在車子裡]。(本は車の中に置かれている。)
(誤り:書[在車子裡]被放)
*他[在車子裡]読書。(彼は、車の中で本を読んでいる。)
(誤り:他読書[在車子裡])
第3に、中国語の構文規則数の増加に従って中国語文の生成に要する時間が長くなるので、翻訳システムの効率が低下する。
0031
このため、かかる問題点のないの機械翻訳用の中国生成装置の実現が望まれている。本発明は、かかる課題を充たす目的でなされたものである。
課題を解決するための手段
0032
上記課題を解決するために、請求項1の発明においては、日本語等の原始言語の文に対して言語解析、中間転換を行って得られた中国語の依存構造を中国語文に転換する機械翻訳用の中国語生成装置であって、中国語動詞の各細分類コードとそれに対応する中国語基本文型構造をあらかじめ登録している(利用、参照可能な態様で記憶している)基本文型部と、修飾語の格標識、原始言語表層記号、意味支配コード、意味コードとそれらに対応する中国語の文頭表層記号、文末表層記号、スロット位置をあらかじめ登録している文要素情報部と、自由要素のおかれる位置たるスロット位置とそれに対応する構文要素の順序制限をあらかじめ登録している構文要素順序部と、入力された中国語の依存構造に対して、主語を省略した動詞、形容詞を検出し、当該文構造に主語属性ヌルノードを付与してから依存構造における主要素たる動詞または形容詞の動詞細分類コード(形容詞にも適用される)によって上記基本文型部を参照して対応する基本文型を取り出して中国語の文構造を生成する文構造生成部と、上記中国語の依存構造に対して基本要素のほかに、その他の各文要素毎に、格標識、原始言語表層記号、意味支配コード、意味コードによって上記文要素情報部から対応する中国語の文頭表層記号、文末表層記号、スロット位置を取り出し、更にこの取り出したスロット位置を参照して文構造における対応する位置に自由要素を生成した後、各動詞、形容詞の特殊文型の属性値を参照して文構造毎に特殊文型を生成する自由要素生成部と、前記構文要素順序部から順に各スロットにおける構文要素順序制限を取り出して上記文構造に対応するスロットの要素配置順序を適切か否かを所定の手順で検査し、不適切ならば調整した後、文構造を一本の文章として線形化して中国語文を生成する文生成部とを有していることを特徴としている。
0033
請求項2の発明においては、上記文構造生成部は、入力された中国語の依存構造に対して主語を省略した動詞、形容詞を検出し、当該文構造に主語属性ヌルノードを付与する前処理手段と、上記依存構造における主要素の動詞細分類コードによって基本文型部を参照して対応する基本文型を取り出し、中国語の基本文構造を生成する基本要素展開手段を有し、前記自由要素生成部は、上記依存構造に対して基本要素のほかに、他の要素についても各要素毎に、格標識、原始言語表層記号、意味支配コード、意味コードによって上記文要素情報部から対応する中国語の文頭表層記号、文末表層記号、スロット位置を取り出し、この取り出したスロット位置を参照して文構造における対応位置に自由要素を生成する自由要素展開手段と、前記自由要素展開手段により生成された文構造に対して、各動詞、形容詞の特殊文型の属性値を参照して文構造毎に特殊文型を生成する特殊文型生成手段を有し、前記文生成部は、構文要素順序部から順に各構文要素順序制限を取り出して上記文構造に対応するスロットの要素配置順序を検査し、調整する要素位置調整手段と、文構造を線形化してスマートな中国語文を得る後処理手段を有していることを特徴とする。
0034
上記構成により、請求項1の発明においては、基本文型部に、本装置の製造者の手で、辞書等を参照にして、中国語動詞の各細分類コードとそれに対応する中国語基本文型構造があらかじめ登録されている。文要素情報部に、同じく、修飾語の格標識、原始言語表層記号、意味支配コード、意味コードとそれらに対応する中国語の文頭表層記号、文末表層記号、スロット位置があらかじめ登録されている。構文要素順序部には、同じく、あらかじめスロット位置と対応する構文要素の順序制限が登録されている。文構造生成部が、入力された中国語の依存構造に対して、内蔵の辞書等を参照して主語を省略した動詞、形容詞を検出し、当該文構造に主語属性ヌルノードを付与してから依存構造における主要素の動詞細分類コードによって前記基本文型部を参照し、対応する基本文型を取り出し、中国語の文構造を生成する。自由要素生成部が、上記依存構造に対して基本要素のほかに、他の文要素についても各要素毎に、格標識、原始言語表層記号、意味支配コード、意味コードによって前記文要素情報部から対応する中国語の文頭表層記号、文末表層記号、スロット位置を取り出し、更に取り出したスロット位置を参照して文構造における対応する位置に自由要素を生成した後、各動詞、形容詞の特殊文型の属性値を参照して文構造毎に特殊文型を生成する。文生成部が、前記構文要素順序部から順に各スロットにおける構文要素順序制限を取り出して上記文構造に対応するスロットの要素配置順序を検査し、必要ならば置換等して調整した後、文構造を線形化して、すなわち人が読む態様の、各単語が直線状に正しく並列された中国語文を得る。
0035
請求項2の発明においては、前記文構造生成部は、前処理手段と基本要素展開手段を有している。前処理手段が、入力された中国語の依存構造に対して主語を省略した動詞、形容詞を検出し、当該文構造に主語属性ヌルノードを付与する。基本要素展開手段が、依存構造における主要素(動詞または形容詞)の動詞細分類コードに従って前記基本文型部を参照し、対応する基本文型を取り出して中国語の基本文構造を生成する。前記自由要素生成部は、自由要素展開手段と特殊文型生成手段を有している。自由要素展開手段が上記中国語の依存構造に対して基本要素のほかに、要素毎に、格標識、原始言語表層記号、意味支配コード、意味コードによって上記文要素情報記憶部から対応する中国語の文頭表層記号、文末表層記号、スロット位置を取り出し、更にこの取り出したスロット位置を参照して文構造における対応位置に自由要素を生成する。特殊文型生成手段が、前記自由要素展開手段により生成された文構造に対して、各動詞、形容詞の特殊文型の属性値を参照して文構造毎に特殊文型を生成する。前記文生成部は、要素位置調整手段と後処理手段からなる。要素位置調整手段が、構文要素順序部から順に各構文要素順序制限を取り出して上記文構造に対応するスロットの要素配置順序を検査し、調整する。後処理手段が、文構造を線形化して人が読む最終的な中国語文を得る。
0036
以下、本発明を実施例に基づいて説明する。機械翻訳にて、中国語の生成を行う場合には、必要な構文規則数を最少にするるために、まず、中国語の以下の特性に注目する。
(1)既述のごとく動詞により文型(そして文構造も)が定まる、あるいは影響されるため、動詞の細分類に従って、当該動詞を含む基本文型を決める。この方面については、例えば「Longman英文辞典(Longman Dictionary of Contemporary English (現代英語のロングマン辞書)、Longman Group Limited (ロングマングループ有限会社)、1978年)」等の辞書の動詞分類コード(例えばt1、di等)や下記論文「K.J.Chen and etc.,"A Classification of Chineseverbs for Language Parsing"、Proceeding of International Conference ofChinese and Oriental Language",(P414─417),(Toronto)1988) 」等が参考になる。
0037
本実施例が使用している動詞の細分類コード、対応基本文型とその例文を図8に示す。中国語文の主要素は動詞と形容詞である。そして、すべての形容詞は、動詞細分類コード(VC,verb categorization )として“I1”が与えられている。動詞については、例えば、中国語において、“説”の細分類コードは“I3”と“T1”である。それにより、図8を参照して基本文型“S+V+CN”と“S+V+O”が得られる。例えば、『我説老師來了(私は、先生がいらっしゃいと言う)』と『我説故事(私は、故事を話す)』は“説”の基本文型である。そして、文要素であるS(主語、前述の中国語例文ならば「我」)、V(動詞、同じく「説」)、CN(叙述形容詞−同じく「老師來了」)とO(間接目的語、同じく「故事」)は即ち動詞“説”の基本要素である。つまり、上記各要素は、どうしても存在しなければならない必要不可欠のものである。もし、上記いずれかの要素がなくなると、この文の意味は不完全(不明瞭)になってしまう。例えば、「我説」(S+V)は完全な中国語文とはいえない。
0038
なお、図8の例文において、I1の第2例文は「彼は美しい」(注、「漂亮」は形容詞)、T2の例文は「。彼は敵人を一刀の下に切り捨てた。」、D2の例文は「彼は弟に玩具の車を贈る。」という意味である。
(2)基本文型の要素のほかに、その他の要素の文における生成位置は、自身の格(文中の動詞に対して単語はどんな役割をもつか)標識、自身の意味と意味支配コード(依存構造において、当該主要素(argument)の動詞または形容詞の意味)により、上記必須要素の間の一つ或いは複数の位置に生成される。ここで、これらの要素を自由要素と呼ぶ。そして、既述のごとくこれの置かれる位置をスロット位置という。例えば、時間副詞は、1番目または2番目のスロットに置かれてもよい。本実施例において、自由要素の可能生成位置を以下に示す四つのスロットに分ける。
0039
(1)+SUBJECT+(2)+VERB+(3)+OBJECT(O,Oi,Od,C,CN)+(4)
ここに、上式の括弧で囲まれた数字はスロットの位置を表し、数字はスロット位置番号を示し、OBJECTの後の括弧内の記号はOBJECTになされることを表し、「O」は、一般的な目的語、「Oi」は間接目的語、「Od」は直接目的語、「C」は補語、「CN」は叙述補語を示す。
0040
自由要素の生成位置の例を図9に示す。
(3)スロット毎にある時間要素が限定されているほかは、各自由要素が配置される位置は基本的には制限がない。なお、時間要素の制限であるが、例えば、2番目のスロットの時間格は必ず場所格の前に位置されなければならない。本実施例における各スロットの要素の順序の制限を図10に示す。
0041
次に、「意味」であるが、これは形態素自身の意味(或いは意味コードという)である。以下に示す実施例では、我国の角川書店から出版された類語字典(1985年)に示されている意味分類方法を採用した。この意味分類方法では、大分類(一桁目)、中分類(二桁目)、小分類(三桁目)、細分類(四桁目)の4階層を、16進数からなる4桁の数で分類し、一つの形態素のすべての情報を示す。この類語字典はすべての形態素を「自然」、「性状」、「変動」、「行動」、「心情」、「人物」、「性向」、「社会」、「学芸」、「品物」の十個の大分類に分けて、また各大分類を十個の中分類に分けている。本実施例ではこの四桁数字の前にsを加えて、以下のように表現する。
0042
s0 (“自然”類に属する)
s02 (“自然”類の“気象”に属する)
s028 (“気象”類の“風”に属する)
s028a (“風”類の“強弱”に属する)
このような階層的な分類コードでは、上位の意味コードの意味範囲は下位より広くなる。つまり、下位になるほど、その意味コードの意味範囲は狭い。従って、実際の必要に応じて下位の意味コードを利用すればよいこととなり、あらかじめ必要もないのに下位の意味コードを一々登録する必要性がなく、メモリを節約することができる。また、この意味コードは数字で表わすので、数学の演算、例えば論理積演算、ストリング(文字列)の照合(2つの文字列に対するマッチング演算)等が可能であり、意味分類コードをもとに訳語を選択、転換する等に際して計算機で簡単に処理できる(前掲の特願開平3−202954号参照)上に、意味コードから生じるもっと値打ちのある情報を獲得することが可能となる。なお、意味コードに関する詳しい説明は、同じく特開平3−202954号に掲載されているため、省略する。
0043
図1は、本実施例の機械翻訳用の中国文生成装置の構成図である。本図において、100は、入力部である。200は、前処理部である。300は、基本要素展開部である。350は、基本文型部である。400は、自由要素展開部である。450は、文要素情報部である。500は、特殊文型生成部である。600は、要素位置調整部である。650は、構文要素順序部である。700は、後処理部である。800は、出力部である。以上の他、日本語、中国語の意味コード付きの参照用辞書、訳語転換部、各種の論理演算部、表示部、印字部等を有する機械翻訳装置の本体部がいわば一体的に接続されたりしているが、これは自明のことであり、また本願発明の要旨に直接の関係はないため図示等は省略する。
0044
以下、これら各部の作用、構成等について説明する。入力部100は、中国語の依存構造を入力する。処理したい日本語文に対して日本語の各種解析と中間構造転換(日本語→中国語)を行ってから、例えば、図11(a)に示されている中国語の依存構造が得られ、これが入力されることとなる。本図において、例えば、文の主語たる「我」の左に付された「LEX」は、この「我」が形態素であることを表し、その下部の小さい「S501」は既述の意味コードである。また、「放」の下部に付された「VC:T1」は、細分類コードとしてのVCがT1であることを意味する。更に、「DETERMINATIVE」は指示代名詞を意味する。さて、図11(a)における“放”は即ち、主要素であり、右四角内の「N」は名詞を意味する。前処理部200は、主語を省略した中国語依存構造に対して、主語属性を持つヌルノードを付与する。その処理の手順については、後に図2を基に詳しく説明する。基本文型部350には、検索キーである動詞の細分類コードとそれに対応する中国語の基本文型があらかじめ登録されており、中国文生成に利用可能となっている。その構造を図8に示す。本図より、例えば「笑」という動詞は、動詞分類コード「I2」に属し、基本文型“S+V”であり、例文としては『他笑(彼が笑う)』ということが判明する。基本要素展開部300は、中国語の依存構造における主要素(動詞、形容詞)の動詞細分類コードを検索キーとして基本文型記憶部350を参照し、基本文構造を生成する。その処理流れについては、後に図3を基に詳しく説明する。文要素情報部450には、検索キーである修飾語の格標識、原始言語表層記号、意味コード、意味支配コード(当該動詞の意味コード)とそれらに対応する文頭表層記号、文末表層記号、スロット位置があらかじめ登録されており、勿論中国文生成に利用可能な態様で記憶されている。その構造を図9に示す。本図により、例えば前掲の例文『他*昨日**在學校*吃飯』の「在」は格標識が「LOCATION」であるのがわかる。また、同じく『我從上海到北京飛機坐了』の「從」と「到」は各々「STATE_FROM」と「LOC_TO」であるのがわかる。更に、意味コードが意味支配コードに使用されているのもわかる。自由要素展開部400は、基本要素以外の文要素について、その格標識、意味コード、意味支配コード、原始言語表層記号を検索キーとして上記文要素情報部450を参照して、上記基本文構造に自由要素を展開する。その動作流れについても、後に図4を基に詳しく説明する。特殊文型生成部500は、動詞、形容詞の特殊文型の属性を参照して文構造毎に特殊文型を生成する。例えば、“被”(be)句、“把”(ba)句等の特殊文が生成される。その動作流れについても、後に図5を基に詳しく説明する。構文要素順序部650は、構文要素の順序制限についての規則があらかじめ登録されている。その構造を図10に示す。要素位置調整部600は、上記構文要素順序部650にあらかじめ登録されている制限によって構文構造における自由要素の配置順序を調整する。後処理部700は、文構造に対していくつかの補助要素(例えば、接続語)と句読点を付与してから、当該文構造を線型化して出力部800へ出力する。その動作流れについても後に図7を基に詳しく説明する。出力部800は、モニタ等を有している。 以上、上記各部の動作流れについて説明する。
0045
まず、前処理部200の動作の流れを図2に従って説明する。
(S210)入力部100より、中国語の依存構造を入力する。
(S220)既に説明した下から上へ、左から右の順で未処理の動詞ノード、形容詞ノードを取り出す。
0046
(S230)取り出しが成功か否かを判断する。もし、不成功ならば、処理を終了する。成功ならば、(S240)へ行く。
(S240)当該ノードの修飾子(modifier)の中に主語が存在するか否かを判断する。もし、存在するならば、(S220)へ戻る。存在しないならば、(S250)へ行く。
0047
(S250)当該修飾子の中に主語属性を持つヌルノードを付与する。
次に、基本要素展開部300の動作流れを図3に従って説明する。
(S310)前処理部200より中国語の依存構造を受け取り、当該受け取った依存構造をバッファに記憶する。
(S320)下から上へ、左から右の順で依存構造から未処理の動詞ノード、形容詞ノードを取り出す。
0048
(S330)取り出しが成功か否かを判断する。もし、不成功ならば、処理を終了する。成功ならば、(S340)へ行く。
(S340)当該ノードの動詞の細分類コードを取り出す。
(S350)この分類コードを検索キーとして基本文型部350から基本文型を検出し、該検出された基本文型をバッファに記憶する。それから、(S360)へ行く。
0049
(S360)バッファに記憶されている基本文型を参照して基本文構造を生成し、併せて関連ノードの属性を記憶する。それから、(S320)へ戻る。
次に、自由要素展開部400の動作流れを図4に従って説明する。
(S410)基本要素展開部300より構文構造を送る。
(S420)下から上へ、左から右の順で構文構造から未処理の文構造を取り出す。
0050
(S430)取り出しが成功か否かを判断する。もし、不成功ならば、処理を終了する。成功ならば、(S440)へ行く。
(S440)当該文構造における動詞、または形容詞を検索キーとしてバッファに記憶されている依存構造を参照し、当該動詞、形容詞に対応する依存構造を検出する。そして、この検出された依存構造をバッファに記憶する。
0051
(S450)上記バッファに記憶されている依存構造を参照して未処理の自由要素を取り出す。
(S460)取り出しが成功か否かを判断する。もし、不成功ならば、(S465)へ行く。成功ならば、(S470)へ行く。
(S465)原処理中の文構造を処理終了の文構造に置き換える。その後、(S420)へ行く。
0052
(S470)自由要素の格標識と日本語表層記号、意味コード、意味支配コードを検索キーとして文要素情報部450を参照し、中国語の文頭表層記号、文末表層記号と生成されたスロット位置を検出する。
(S480)文頭表層記号、文末表層記号と場所後置詞を参照してPP句(prepositionphrase,前置詞句)を生成する。それから、(S490)に行く。
0053
(S490)スロット位置を参照して上記PP句を文構造の中に生成する。それから、上記(S450)へ戻る。
次に、特殊文型生成部500の動作流れを図5に基づいて説明する。
(S510)自由要素展開部400より構文構造を入力する。
(S520)下から上へ、左から右へ順に未処理の文構造を取り出してから(S530)へ行く。
0054
(S530)取り出しが成功か否かを判断する。もし、不成功ならば、処理を終了する。成功ならば、(S540)へ行く。
(S540)中国語の構文規則(即ち、目的語の後に現われたのは前置詞句か、或いは例えば副詞等の他の要素か。)により、“把”(ba)句か否かを判断する。もし、“把”(ba)句ならば、(S545)へ行く。“把”(ba)句ではないならば、(S550)へ行く。
0055
(S545)スロット2に“把”(ba)句を生成する。
(S550)使役文、受動文か否かを判断する。もし、使役文、受動文ならば、S555へ行く。使役文、受動文のいずれでもないならば、S560へ行く。
(S555)スロット2に“使役文”或は“受動文”を生成する。それから、(S560)に入る。
0056
(S560)否定文か否かを判断する。もし、否定文ならば、(S565)へ行く。肯定文ならば、(S570)へ行く。
(S565)スロット2に、例えば“不”、“没有”(「ない」という意味)等の否定助詞ノードを生成する。
(S570)未処理の他の要素(例えば、助動詞等)の有無を判断する。もし、有るならば、(S575)へ行く。無いならば、(S520)へ戻る。
0057
(S575)対応するスロットに他の要素ノードを生成してから(S520)へ戻る。
次に、要素位置調整部600の動作の流れを図6に基づいて説明する。
(S610)特殊文型生成部500より構文構造を受け取る。
(S620)下から上へ、左から右の順へ未処理の文構造を取り出してから(S630)へ行く。
0058
(S630)取り出しが成功か否かを判断する。もし、不成功ならば、処理を終了する。成功ならば、(S640)へ行く。
(S640)未処理の文構造をバッファに記憶する。
(S650)変数iを1とする。その後、(S660)に入る。
(S660)バッファに記憶されている文構造を参照してi番目のスロットから全部の要素を取り出してES(1のバッファの名前。なお、この英語は特に意味はない。)集合とする。
0059
(S665)ES集合における要素数が0又は1であるか否かを判断する。0又は1ならば、(S690)へ行く。いずれでもなければ、(S670)へ行く。
(S670)iを検索キーとして構文要素順序部650を参照して構文順序制限を検出し、それをSSLS(構文要素順序記憶部。なお、この英語は特に意味はない。)集合とする。
0060
(S680)図10に示すSSLSの制限条件を参照して、生成される文におけるスロット毎に、その要素の順序とスロットの要素順序制限に対して、マッチング演算を行う。もし、同じ格である要素が存在する場合には、制限条件の配置順序により、処理中のスロットの要素順序と置換する。{ここのところ、理解し難い面もあるので他の例文をあげて説明する。「他『在学校*昨天』玩」にとって、スロット2の要素配置順序は、「LOC(場所)+TIME(時間)」である。上記マッチング演算を行って「TIME,LOC」となる。このため、第1条件「TIME+LOC」を使い、生成文のスロット2の要素順序を置換する。その結果「TIME+LOC」となる。このとき、生成文は「他昨天在学校玩」になった。}
(S685)バッファに記憶されている文構造のi番目のスロットにおける要素集合をESに置き換える。それから、(S690)に入る。
0061
(S690)変数iに1を加える。
(S950)i>4が成立するか否かを判断する。i>4が成立しないならば、上記(S660)へ戻る。成立するならば、上記(S620)へ戻る。
次に、後処理部700の動作流れを図7に示す。
(S710)要素位置調整部600より生成された文構造を入力する。
0062
(S720)他の補助要素(例えば疑問助詞、複文接続語等)を生成する。
(S730)句読点を生成する。
(S740)中国語文構造を線形化する。即ち、左から右へ葉ノードである中国語の要素を取り出す。しかる後、(S750)に進む。
(S750)生成された中国語文を出力部800へ送った後、処理を終了する。
0063
以下、日中翻訳を例にとって、本実施例における中国語生成の動作を具体的に説明する。図11(a)に示す「私は車の中にこの本を置いている。」という日本語に相当する中国語の依存構造は、入力部100により入力されて、前処理部200に送られる。そして、前処理部200により、図2にて説明した手順で処理される。なお、本図11(a)においては、主要素(argument)「放」の修飾語は「我」、「書」、「車子」である。その格標識はそれぞれ「主格」、「目的格」、「場所格」である。主要素(argument)「書」の修飾格は「這」であり、その格標識は指示格である。そして、この依存構造中の主語は省略されず、このため直接基本要素展開部300に送られる。基本要素展開部300により、図3にて説明した手順で処理される。図3のステップ340に示した処理として、主要素の動詞ノード「放」の属性から動詞の細分類コードとしてVCを取り出す。ここで、取り出されたVCはTIである。この細分類コードを検索キーとして基本文型部350を参照して基本の中国語文型「S+V+O」が得られる。次に、得られた基本文型を参照して中国語の基本文構造を生成する。この中国語の基本文構造を図11(b)に示す。なお、ここに図中の「NP」は名詞句を、「VP」は動詞句を意味する。
0064
続いて、図4に示す自由要素展開部400の処理に入る。自由要素展開部400により、依存構造から自由要素である「車子」をみつける。さて、このみつけられたノードの格標識(LOCATION)は、図9に示すように2つの候補を有している。そこで、自由要素の格標識と日本語表層記号、意味コード(s9970)と意味支配コード(s3830)を検索キーとして図9の文要素情報部450を参照して格標識に対してマッチング演算を行い、可能候補を検出する。図9の「LOCATION」の場合、日本語表層記号欄は空白であるため、これとの演算の必要はない。このため、意味支配コード、意味コードで論理積演算を行うこととなる。その結果をもとに、最適な候補を見出す。もし、これが複数あれば、第1候補の文頭表層記号、文末表層記号、スロット位置を選択する。その結果、図9の最上欄の文頭表層記号「在」とスロット位置「4」を獲得する。以上で、図11(b)に示す文構造を参照してスロット4の位置で当該自由要素を展開した後、図12(c)に示す文構造になる。
0065
次に、図5の特殊文生成部500の処理に入る。文構造における目的語の後にはPP句があるので、“把”(ba)句を生成しなければならない。特殊文型処理部500による処理結果を図12(d)に示す。その後、図6に示すような位置調整部600の処理に入る。構文要素順序部650を参照してスロット毎に、要素順序制限を取り出す。そして、スロット毎に、マッチングと比較を利用して要素の配置順序を調整する。本例において、図12(d)に示すように、主語「我」の前に要素はなく、同じく動詞「放」と目的語の間に要素もない(本当の目的語は動詞の前に移動され、動詞の後に目的語のヌルノードが存在している)ため、スロット1とスロット3における要素数は各々0であり、主語と動詞の間に要素PPがあり、ヌル目的語の後にも要素PPがあるため、スロット2とスロット4における要素数はそれぞれ1であるので、調整する必要はない。
0066
続いて、図7に示す後処理部700の処理に入る。ステップ720の処理として、指示代名詞「這」と助数詞「本」を生成する。その文構造を図12(e)に示す。それから、句読点「。」を生成し、文構造を線形化する。即ち、左から右まで終端ノードである中国語の形態素を捜し出す。その結果、適切な訳文「我把這本書放在車子裡。」が得られる。「我在車子裡放這本書。」というような不自然の中国語の文生成は絶対にしないこととなる。最後に、翻訳結果をモニタ、印刷機等の出力部800により出力する。
0067
以上、本発明を実施例にもとづき説明してきたが、本発明は何も上記実施例に限定されないのは勿論である。即ち、その要旨を変更しない範囲内で適当に変形して実施してもよい。例えば、
(1)製造等の都合で、本発明の必要不可欠の一の構成要素を、物理的、機械的に複数のものとしたり、逆に複数のものを一としたり、適宜これらを組み合わせたりしている。
0068
(2)既存の装置に必要なハード、ソフトを付加して、本発明の機能を持たせる。
(3)原始言語は、英語等日本語以外である。
(4)入力された言語構造は依存構造でなく、他の構文構造であり、これを基に直接、中国語文を生成する。
発明の効果
0069
以上説明してきたように、本発明の機械翻訳用の中国語生成装置は、既述の従来の問題点を完全に解決する。具体的には、以下のような効果が得られる。
(1)中国語の動詞細分類コードにより、中国語の基本文型を決めることができる。更に、基本要素、自由要素、スロット位置等の方式を導入することにより、中国語文の生成構文規則数の減少を図ることも可能である。このため、中国語の構成規則を容易に保守、管理しえる。
0070
(2)システム規則数をより少なくするため、例えば、同時に適用可能な複数の規則数等の競合問題も生じ難くなる。このため、中国語生成システムを実行する際の効率もよくなる。
(3)中国語の意味と構文の情報をも同時に使用するために、実際に近く、自然そして、高品質の中国語が生成される。
0071
以上のため、本発明の実用的効果は非常に大きい
図面の簡単な説明
0072
図1本発明の一実施例の構成図である。
図2上記実施例における前処理部の動作流れ図である。
図3上記実施例における基本要素展開部の動作流れ図である。
図4上記実施例における自由要素展開部の動作流れ図である。
図5上記実施例における特殊文型生成部の動作流れ図である。
図6上記実施例における要素位置調整部の動作流れ図である。
図7上記実施例における後処理部の構造を示す図である。
図8上記実施例における基本文型部の記憶しているデータ構造を示す図である。
図9上記実施例における文要素情報部の記憶しているデータ構造を示す図である。
図10上記実施例における構文要素順序部の記憶しているデータ構造を示す図である。
図11上記実施例における処理の内容を具体例を基に示した本来は1枚の図の前半である。(注、入力の都合で分割した。)
図12上記実施例における処理対象の文の内容を具体例を基に示した本来は1枚の図の後半である。
図13一般の中間構造方式における機械翻訳装置の翻訳処理過程を示すシステムブロック図である。
図14従来例のシステムブロック図である。
図15従来例の中国語構文規則を示す図である。
図16「下から上へ」、「左から右へ」という木構造の処理の順を説明するための図である。
図17日本語文を例にとっての文構造と依存構造を説明するための図である。
図18外字の一覧である。
--
0073
100 入力部
200 前処理部
300基本要素展開部
350基本文型部
400 自由要素展開部
450文要素情報部
500 特殊文型部
600要素位置調整部
650構文要素順序部
700 後処理部
800 出力部