図面 (/)

技術 言語解析方法及びシステム

出願人 株式会社EduLab
発明者 永田亮
出願日 2014年2月27日 (6年8ヶ月経過) 出願番号 2014-036496
公開日 2014年11月6日 (6年0ヶ月経過) 公開番号 2014-209317
状態 特許登録済
技術分野 機械翻訳 文書処理装置
主要キーワード 付属システム 正誤判断 中括弧 格フレーム 依存構造 訂正候補 印字機 ヒューリスティクス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年11月6日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

英語文章における前置詞正誤コンピュータ自動解析する方法の提供。

解決手段

参照英語コーパスからの格フレームに存在しない特定英語コーパスからの格フレームについて、特定言語母語話者において確率的に誤りやすい前置詞に対応させて前置詞格標識を変化させる。これが参照英語コーパスからの格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した参照英語コーパスからの格フレームの前置詞格要素和集合として加える。その上で、該特定言語者の作成した英語文章における前置詞の正誤を誤り格フレームにより正誤判定する。

概要

背景

教育支援などの目的で、自由作文された英語文章の正誤コンピュータ自動解析するような場合にあっては、英語文章が表現しようとする意味を把握する必要があり、構文解析処理意味解析が用いられる。まず、文章を単語(形態素)に分解し、辞書を参照して各単語にその構文情報意味情報を付加し(形態素解析処理)、これらから所定の規則に従って文章の句構造依存構造機械的に解析する。得られる構文木動詞に対する格フレームの情報から動詞と名詞意味的整合性を与えることで文章が表現しようとする意味を解析できる。

例えば、特許文献1では、形態素解析処理のなされた英語文章の単語列を入力すると、該単語列の文頭側の語句から順次着目してその構文意味関係を判定し、英語文章の句構造若しくは依存構造を決定する構文解析処理をコンピュータで自動解析する方法を開示している。ここでは、接続し得る単語が複数ある前置詞を含む英語文章において、構文解析処理によりその正当接続先を決定する方法について特に述べている。これによれば、文章が表現しようとする意味の正確な把握を与え得る。

ところで、英語の単語(形態素)である前置詞の用法は複雑であり、文脈に応じた適切な前置詞を選択することは難しい。例えば、“He will go back Japan.”は、“He will go back to Japan.”の前置詞が抜けた誤りであるが、慣用的であるため比較的容易に誤りであることを判断できるであろう。一方、例えば、“I walked with my dog in the morning. ”では、前置詞「with」が不要であるが、誤りの理由を説明することは難しい。つまり、“walk with a dog”では,一緒になって犬のように歩く様子を想起させるので、犬を散歩させるという意味の場合は、“walk a dog”が自然である」というような説明を与えることになる。ここでは、文章が表現しようとする意味によって前置詞の有無の正誤の判断が異なり得るのである。

このような英語文章における前置詞の正誤をコンピュータで自動解析する場合にあっても、構文解析処理と意味解析が用いられ得る。ここで、近年、各種のコーパス整備されているが、非特許文献1では前置詞の誤りがランダムに起こるのではなく母語に応じた誤りの傾向があることを述べており、英語以外の特定言語を母語とする者により作成された英語文章のコーパスには、該特定言語に特有の前置詞の誤りの傾向が反映されているはずである。更に、例えば、非特許文献2に述べられているようなコーパスから格フレームをコンピュータで自動生成する方法を用いることで、英語文章における前置詞の正誤をコンピュータで自動解析できるであろう。

概要

英語文章における前置詞の正誤をコンピュータで自動解析する方法の提供。 参照英語コーパスからの格フレームに存在しない特定英語コーパスからの格フレームについて、特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前置詞格標識を変化させる。これが参照英語コーパスからの格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した参照英語コーパスからの格フレームの前置詞格要素和集合として加える。その上で、該特定言語者の作成した英語文章における前置詞の正誤を誤り格フレームにより正誤判定する。

目的

本発明は、上記したような状況に鑑みてなされたものであって、その目的とするところは、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法を提供することにある。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

英語文章における前置詞正誤自動解析するためのコンピュータによる言語解析方法であって、(1)英語母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得るステップと、(2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合するステップと、(3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加えるステップと、(4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定するステップと、を含むことを特徴とする言語解析方法。

請求項2

(3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴とする請求項1記載の言語解析方法。

請求項3

英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析システムであって、(1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得る手段と、(2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合する手段と、(3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加える手段と、を含むことを特徴とする言語解析システム。

請求項4

(4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定する手段と、を含むことを特徴とする請求項3記載の言語解析システム。

請求項5

(3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴とする請求項3又は4に記載の言語解析システム。

技術分野

0001

本発明は、英語文章の正誤自動解析するための言語解析方法に関し、特に、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法及びシステムに関する。

背景技術

0002

教育支援などの目的で、自由作文された英語文章の正誤をコンピュータで自動解析するような場合にあっては、英語文章が表現しようとする意味を把握する必要があり、構文解析処理意味解析が用いられる。まず、文章を単語(形態素)に分解し、辞書を参照して各単語にその構文情報意味情報を付加し(形態素解析処理)、これらから所定の規則に従って文章の句構造依存構造機械的に解析する。得られる構文木動詞に対する格フレームの情報から動詞と名詞意味的整合性を与えることで文章が表現しようとする意味を解析できる。

0003

例えば、特許文献1では、形態素解析処理のなされた英語文章の単語列を入力すると、該単語列の文頭側の語句から順次着目してその構文意味関係を判定し、英語文章の句構造若しくは依存構造を決定する構文解析処理をコンピュータで自動解析する方法を開示している。ここでは、接続し得る単語が複数ある前置詞を含む英語文章において、構文解析処理によりその正当接続先を決定する方法について特に述べている。これによれば、文章が表現しようとする意味の正確な把握を与え得る。

0004

ところで、英語の単語(形態素)である前置詞の用法は複雑であり、文脈に応じた適切な前置詞を選択することは難しい。例えば、“He will go back Japan.”は、“He will go back to Japan.”の前置詞が抜けた誤りであるが、慣用的であるため比較的容易に誤りであることを判断できるであろう。一方、例えば、“I walked with my dog in the morning. ”では、前置詞「with」が不要であるが、誤りの理由を説明することは難しい。つまり、“walk with a dog”では,一緒になって犬のように歩く様子を想起させるので、犬を散歩させるという意味の場合は、“walk a dog”が自然である」というような説明を与えることになる。ここでは、文章が表現しようとする意味によって前置詞の有無の正誤の判断が異なり得るのである。

0005

このような英語文章における前置詞の正誤をコンピュータで自動解析する場合にあっても、構文解析処理と意味解析が用いられ得る。ここで、近年、各種のコーパス整備されているが、非特許文献1では前置詞の誤りがランダムに起こるのではなく母語に応じた誤りの傾向があることを述べており、英語以外の特定言語を母語とする者により作成された英語文章のコーパスには、該特定言語に特有の前置詞の誤りの傾向が反映されているはずである。更に、例えば、非特許文献2に述べられているようなコーパスから格フレームをコンピュータで自動生成する方法を用いることで、英語文章における前置詞の正誤をコンピュータで自動解析できるであろう。

0006

特開2005−134691号公報

先行技術

0007

Alla Rozovskaya and Dan Roth, "Algorithm Selection and Model Adaptation forESL Correction Tasks", Proc. of the 49th Annual Meeting of the Association for Computational Linguistics, pp 924-933, Portland, Oregon, June 19-24, 2011
D. Kawahara and S. Kurohashi, "Acquiring reliable predicate-argument structures from raw corpora for case frame compilation", Proc. of LREC, pp.1389-1393, 2010.

発明が解決しようとする課題

0008

上記したように、母語に応じた前置詞の誤りの傾向があるなら、英語以外の言語を母語とする者により作成された英語文章のコーパスから得られた格フレームと、英語を母語とする者により作成された英語文章のコーパスから得られた格フレームとを比較することで、英語以外の特定言語を母語者とする者により作成された英語文章の正誤を自動解析できるはずである。

0009

本発明は、上記したような状況に鑑みてなされたものであって、その目的とするところは、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法を提供することにある。

課題を解決するための手段

0010

本発明による言語解析方法は、英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析方法であって、(1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスのそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得るステップと、(2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合するステップと、(3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加えるステップと、(4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定するステップと、を含むことを特徴とする。

0011

かかる発明によれば、英語の母語話者による英語文章からなる参照英語コーパス及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスを用いて誤り格フレームを作成できて、該特定言語の母語話者による英語文章における前置詞の正誤をコンピュータにて自動解析できるのである。

0012

上記した発明において、(3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をより高い精度でコンピュータにて自動解析できるのである。

0013

本発明による言語解析システムは、英語文章における前置詞の正誤を自動解析するためのコンピュータによる言語解析システムであって、(1)英語の母語話者による英語文章からなる参照英語コーパス、及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパス、のそれぞれにおいて、動詞と、前記動詞の取る表層格について、格の種類に対応する基本格標識、及び、前記格の要素である語に対応する基本格要素、を含む基本格と、前置詞に対応する前置詞格標識、及び、前記前置詞の与えられる要素である語に対応する前置詞格要素、を含む前置詞格と、のセットからなる格フレームを得る手段と、(2)前記参照英語コーパスからの前記格フレームについて、前記動詞、前記基本格及び前記前置詞格の前記前置詞格標識の共通するものを前記前置詞格要素を和集合として1つの格フレームに統合する手段と、(3)前記参照英語コーパスからの前記格フレームに存在しない前記特定英語コーパスからの前記格フレームについて、前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞に対応させて前記前置詞格標識を変化させてこれが前記参照英語コーパスからの前記格フレームのいずれかと一致する場合、これを誤り格フレームとして、一致した前記参照英語コーパスからの前記格フレームの前置詞格要素を和集合として加える手段と、を含むことを特徴とする。

0014

かかる発明によれば、英語の母語話者による英語文章からなる参照英語コーパス及び、英語以外の特定言語の母語話者による英語文章からなる特定英語コーパスを用いて誤り格フレームを作成できて、該特定言語の母語話者による英語文章における前置詞の正誤をコンピュータで自動解析させ得るのである。

0015

上記した発明において、(4)前記特定言語の母語話者により作成された英語文章における前置詞の正誤を前記誤り格フレームにより正誤判定する手段と、を含むことを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をコンピュータで自動解析できるのである。

0016

上記した発明において、(3)前記前置詞格標識に対応する前記前置詞とで前記特定言語の母語話者において確率的に誤りやすい前置詞は、前記前置詞格標識に対応する前記前置詞に対応する前記特定言語の語に更に対応する英語の前置詞のうちの1つであることを特徴としてもよい。かかる発明によれば、上記したような英語文章における前置詞の正誤をより高い精度でコンピュータによって自動解析できるのである。

図面の簡単な説明

0017

本発明のシステム構成を示す図である。
誤り格フレームを示す図である。
本発明の方法の要部である誤り格フレーム生成のフロー図である。
格フレームを示す図である。
格フレームの統合の説明図である。
確率的に誤りやすい前置詞の説明図である。
格フレームの訂正情報の決定についての図である。
格フレームの訂正情報の決定についての図である。
格フレームの訂正情報の決定についての図である。

実施例

0018

図1乃至図7を用いて、本発明の1つの実施例による、英語文章における前置詞の正誤をコンピュータで自動解析するための言語解析方法及びそのためのシステムの詳細を説明する。

0019

図1に示すように、言語解析システム1は、主として、解析処理中枢を担う中央制御部30と、中央制御部30とともに各種処理を行う処理プログラムとしての誤り格フレーム作成部32及び正誤判断部34とを含む。また、中央制御部30は、適宜、コーパス部100の英語の母語話者による英語文章からなる母語話者コーパス(参照英語コーパス)102及び英語以外の特定言語の母語話者による英語文章からなる非母語話者コーパス(特定英語コーパス)104の情報を参照可能に接続されている。なお、コーパス部100は、言語解析システム1の外部にあって、ネット回線などを経由して参照可能になっていてもよい。更に、前置詞の正誤判断の対象となる英語文章のテキストデータを入力するためのキーボードスキャナなどの入力装置51、解析結果を出力するための印字機プリンタ)52や映像装置モニタ)53などが入出力インターフェース部50を介して接続されている。

0020

まず、誤り格フレーム作成部32により作成される誤り格フレーム10の構成について説明する。

0021

図2に示すように、誤り格フレーム10は、文章の中心となる動詞17を必ず含み、動詞17を記載するスロットとしての動詞欄11以外に、基本格を記載するスロットとしての基本格欄12、前置詞格を記載するスロットとしての前置詞格欄14、前置詞の誤りに関する説明を記述する部分であるフィードバックメッセージ欄16からなる。つまり、基本格欄12及び前置詞格欄14は、英語文章中の動詞17がどのような表層格を取るかを記載する欄となる。

0022

基本格欄12及び前置詞格欄14の”Subj:”、“Prt:”、“Prep_do:”、”Prep_with:”などの格標識18は、主格などの格の種類を表すためのラベルである。また、これら格標識18の横に並ぶ“PERSON”、”back”、”tokyo”、”japan”の格要素19は、格標識18の付与される語を表している。なお、人を表す“PERSON”や中カッコ{}については後述する。更に、以下において、特に断らない限り、「格」とは、格標識18と格要素19とを合わせたものを指称するものとする。

0023

ここで、基本格欄12は少なくとも1つ以上の格からなるものとし、基本格欄12に入り得る格標識18は、例えば、少なくとも、“Subj:”(Subject:主格)、“Prt”(Particle:小詞)、“Com”(Complement:補語)の3種類を考慮する。なお、“Subj:”は必須である。

0024

前置詞格欄14も少なくとも1つ以上の格からなるものとし、動詞が取りうる前置詞を記述する。具体的には、前置詞格欄14の格標識18は、“Prep_x”のように記述する。但し、xの部分には前置詞が入る。例えば、前置詞が”to”であれば、”Prep_to”のように記述する。なお、動詞の直接目的語を表すための”Prep_do”や、間接目的語を表すための”Prep_io”も便宜的に前置詞格に含める。これは、前置詞の抜け落ちや、前置詞の不要な場合に対応するためである。

0025

さらに、前置詞格欄14において、誤りがある格に“*”を付与することで誤り情報であることを示す。例えば、図2では、“*Prep_do:{tokyo, japan}”の部分が誤りとなる格であり、”Prep_do”、すなわち、直接目的語として、“tokyo”や“japan”を取ることは誤りであって、何らかの前置詞が必要なことを意味している。これに対して、誤りである格の後ろに、訂正情報を“→”を用いて記述する。つまり、“*Prep_do:{tokyo, japan}”は、“Prep_to:”が前置詞格として正しいことを意味している。

0026

基本格欄12と前置詞格欄14において、共通して使用される記述方式を2種類定義する。1つは、括弧“()”を用いて表す任意格であり、例えば、“(Prt:back)”の如きである。もう1つは、格要素19が複数ある場合に、複数の格要素をカンマで区切って、中括弧囲うこととし、例えば、”*Prep_do:{tokyo, japan}”の如きである。なお、例えば、特定の動詞に依存しないような誤り格フレーム10を定義する場合、動詞欄11に“ALL”を入れるようにもできる。つまり、どのような動詞17であっても、かかる誤り各フレーム10が該当するのである。これにより、同じ格を有し、且つ、同じ誤りを有する異なる動詞に対する誤り格フレーム10をまとめて記述できるのである。同様に、格標識18や格要素19においても、特定のものに依存しない表記を与えて、誤り格フレーム10をまとめて記述できるようにもできる。

0027

フィードバックメッセージ欄16は、前置詞の誤りに関する説明を記述する部分であって、後述する誤り格フレーム10を解釈し、主に作業者によって記述される。かかる説明は、誤り検出訂正の際に、学習者へのフィードバックなどに使用できる。

0028

次に、誤り格フレーム作成部32により誤り格フレーム10を作成する方法について図3に沿って説明する。

0029

ところで、誤り格フレーム10を生成するための基本アイデアは、非母語話者コーパス104に存在し、母語話者コーパス102には存在しない格フレームを誤り格フレーム10とするものである。但し、これだけでは、正しい格フレームが誤り格フレーム10として抽出されてしまう。そこで、以下のような方法を採用する。

0030

(1)コーパスからの格フレームの生成
まず、母語話者コーパス102及び非母語話者コーパス104のそれぞれについて、各文を構文解析する下処理を行っておく(図3、S1)。ここで、本解析においては、後述する誤り格フレーム10の作成に不適切な文を予め除外しておくことが好ましい。これは、例えば、所定以上のトークンの長さの文や、所定個数以上のカンマを含む文を除く処理である。また、適宜、この処理を非母語話者コーパス(特定英語コーパス)104よりも大規模となる母語話者コーパス(参照英語コーパス)102のみに与えても良い。

0031

次に、図4に示すように、構文解析の結果から、格フレーム10aの動詞欄11、基本格欄12及び前置詞格欄14の各スロットを埋めて格フレームを生成する(図3、S2)。例えば、図4(a)に示す”He will go back Japan with his son.”なる英語文章に対しては、図4(b)に示すように、動詞”go”を動詞欄17に、その他の格を対応する箇所に配置していく。

0032

ここで、格要素19には、対応する名詞相当句の主辞(head)を小文字且つ原形にしたものを用いる。例えば、”Japan”は、”japan”とする。但し、接尾辞“-ing”は前置詞の決定に影響を与えることがあるため、語尾が“-ing”である語については原形にしない。また、一部の語については、対応する意味を表す特別な語に置換する。この意味を表す特別な語は大文字のみを用いて表記する。例えば、“he”や”his son”は、人であることを表す“PERSON”に置換する。かかる置換は、単純な辞書引きに基づいて自動的に行うことができる。また、非母語話者コーパス(特定英語コーパス)104からの処理には、スペルチェッカにより綴り誤りを訂正しておくことが好ましい。

0033

以下において、母語話者コーパス102及び非母語話者コーパス104からそれぞれ抽出された格フレーム10aの集合を母語話者格フレーム10b及び非母語話者格フレーム10cとする。

0034

ところで、以下の3つの条件のいずれかに当てはまる場合には、例外として上記した格フレーム10aの生成を行わないことも場合に応じて考慮できる。1つ目は、動詞が接続詞により並列されている場合であり、例えば、”go and get it”のようなものである。これは、並列により前置詞の用法が変更されることがあるためである。2つ目は、“be”、“do”、“have”は、助動詞としても使われる特殊な動詞であり、例外とし得る。3つ目は、格要素が、“it”、“this”、“that”、“one”及び通常名詞の働きをしない単語、例えば、”the”である場合も例外とすることも考慮できる。“it”、“this”、“that”、“one”は、具体的に指すものにより格の用法が異なると考えられるためである。その他については、構文解析の誤りの可能性が高いためである。

0035

ここで、上記した格フレーム中の任意格となる前置詞格の同定は、(i)目的語は常に必須格とする(目的語も便宜的に前置詞格として扱う)、(ii)動詞より左に出現する前置詞格は常に任意格とする、(iii)動詞より右に出現する前置詞格は動詞に一番近いものを除いて全て任意格とする、ことによる。例えば、(ii)について、“In the morning, he went shopping.”では、“In the morning”の前置詞格が動詞よりも左に出現しているため任意格とされる。また、(iii)について、“He went to the market with his family.”では、動詞からより遠い“with his family”が任意格とされるのである。

0036

任意格の同定について、上記したヒューリスティクス以外に、2つの格フレームを比較してもよい。例えば、“He went shopping” と“He went shopping at the market.”とを比較すると、“at the market”がなくとも文として成立し得て、これを任意格と同定出来得るのである。

0037

(2)格フレームの統合
母語話者コーパス102から抽出された母語話者格フレーム10bについて統合処理を行う(図3、S3)。統合処理は、母語話者格フレーム10bの2つの格フレーム10aについて、(i)動詞が同一であり、(ii)基本格が同一であり、且つ、(iii)前置詞格の格標識が同一である場合に、前置詞格欄14の格要素19を格標識18ごとに統合する。

0038

図5に示すように、例えば、格フレーム10b−1の[Prep_to:tokyo]と格フレーム10b−2の[Prep_to:japan]とは、”Prep_to:”の格要素19である”tokyo”及び”japan”以外を共通にするため、この格要素19について中カッコ{}を用いた和集合の型式にして、格フレーム10bのように[Prep_to:{tokyo, japan}]と統合する。

0039

なお、上記したように、統合処理は母語話者コーパス102から抽出された母語話者格フレーム10bについてのみ行う。これは、非母語話者コーパス104から抽出された非母語話者格フレーム10cには、正しい格フレームと誤り格フレームの両方が含まれるため、両者が統合されてしまうと1つの格フレームに正誤の格要素19が含まれてしまうからである。なお、非母語話者格フレーム10cについては、動詞、基本格、前置詞格が同一である場合にのみ統合を行ってもよい。また、統合の際に、各格要素19の頻度を記録し、頻度情報を誤り格フレーム10の生成に利用しても良い。

0040

(3)誤り格フレーム候補の取得
母語話者格フレーム10bと非母語話者格フレーム10cとを比較し、誤り格フレーム10の候補を取得する(図3、S4)。ここでは、非母語話者コーパス104から抽出された非母語話者格フレーム10cにのみ存在する格フレームを誤り格フレーム10の候補とする。

0041

(4)訂正情報の決定
誤り格フレーム10の候補に対して訂正情報を決定する(図3、S5)。これには母語の影響を考慮した後述する誤りセット(confusion set)を用いて、前置詞格欄14内の格標識18を変更しつつ決定する。なお、格標識18が複数あるときは、1つのみ変更しつつ決定する。

0042

ところで、母語の影響を考慮するには、当該母語話者の書いた英語文章からなる非母語話者コーパス104を用いればよい。例えば、フランス語を母語とするフランス語話者を対象とする場合には、フランス語話者が書いた英語文章を非母語話者コーパス104に使用することで、自然に母語の影響を考慮できる。

0043

ここで、上記した非特許文献1に述べられているように、前置詞の誤りはランダムに起こるのではなく、母語に応じた誤りの傾向がある。例えば、図6に示すように、フランス語の前置詞“`a”は、英語の前置詞“at”、“in”、“to”などに対応するため、フランス語話者は、これらの前置詞を互いに混同する傾向にあると予想できる。そこで、例えば[“at”、“in”]を“to”に対する誤りセットとする。このような母語に応じた英語の各前置詞の誤りセットを用意し、訂正情報の決定(図3、S5)に用いるのである。

0044

本実施例では、統計的機械翻訳確率テーブルを利用して自動的に誤りセットを作成する。つまり、直観的には、確率の値に基づいて、混同されやすい前置詞を特定していることになる。

0045

再び、図6を参照すると、具体的には、左の列がフランス語(仏語)の単語、右の列が英語の単語である。なお、この例では、左右全ての単語が前置詞であるが、必ずしも前置詞である必要はなく、対応する単語であればよい。図中の矢印は、フランス語の各単語が翻訳されやすい英単語を表す。すなわち、”e”が英単語、”f”がフランス語の単語をそれぞれ表すとき、確率Pr(e|f)がある一定の値以上の単語の組に矢印が付与されている。例えば、英語の“to”は、フランス語の“`a”から翻訳される確率が高いことを示す。一方で、フランス語の“`a”は、“to”以外にも“at”と“in”にも翻訳されやすい。つまり、“to”は“at”や“in”と混同されやすい。このように、矢印を2回たどることで誤りセットを作成する。

0046

最終的に、前置詞の抜け落ちや、前置詞の不要な場合に対応するために、それぞれ“Prep_do”と“Prep_io”も誤りセットに加える。例えば、“to”に対する誤りセットとして、{Prep_at, Prep_in, Prep_do, Prep_io}が得られる。

0047

なお、図6において、“in”のように、1回目にたどる矢印が複数ある場合は、それぞれの矢印をたどり、得られた前置詞の和集合を誤りセットとする。つまり、“in”に対する誤りセットは、{Prep_to, Prep_at, Prep_of, Prep_do, Prep_io}となる。

0048

図7(a)に示した[Prep_do:Tokyo Prep_with:PERSON]の訂正情報の決定について説明する。”Prep_do:”について、これを含む誤りセットを選択しこの中から他の前置詞を含む格標識18、例えば、誤りセット{Prep_at, Prep_in, Prep_do, Prep_io}のうちの”Prep_at”や“Prep_to:”に変更する。例えば、“Prep_to:”に変更するなら、[Prep_to:Tokyo Prep_with:PERSON]を得る。かかる格フレームが母語話者格フレーム10bに存在すれば、その格標識18は正しいものと判定し、訂正情報として決定する(図7(b)参照)。更に、図8に示すように、訂正情報を示す”*”を与えて、誤り格フレーム10の候補に記述したものを誤り格フレーム10として確定する。

0049

(5)格要素の拡張
次に、誤り格フレーム10のカバー率を向上させるために、前置詞格欄14内の格要素19を拡張する(図3、S6)。上記した訂正情報により、誤り格フレーム10に対応する正しい格フレームが母語話者格フレーム10bにおいて特定できる。図7(b)に示すように、例えば、誤り格フレーム10の[*Prep_do:tokyo→Prep_to](図8参照)に対して、母語話者格フレーム10bでは[Prep_to:{tokyo, japan}]が対応する。統合処理(図3、S3)により母語話者格フレーム10bでは、格要素19が統合されて和集合で記載されている。図9に示すように、この格要素19の情報を誤り格フレーム10の対応する格に追加して、誤り格フレーム10の格要素19を拡張できる。つまり、図2に示すように、[*Prep do:{tokyo, japan}→Prep_to]として格要素19に“japan”が追加される。なお、この拡張が真に誤りを表しているかを確認するために、新しく得られた誤り格フレーム10が母語話者格フレーム10bに存在しない場合にのみ拡張を許すこととする。

0050

(6)誤り格フレームの出力
得られた誤り格フレーム10を出力、所定のデータベース構築する(図3、S7)。上記した誤り各フレーム10についての情報を、例えば、XML形式で出力し、データベースに構築し、後述する正誤判定に使用できる。

0051

以上において、誤り格フレーム10は、母語話者コーパス102と非母語話者コーパス104さえあれば自動生成でき、時間と労力を要する誤り情報の付与という作業を必要としない。かかる方法では、誤り情報の付与を必要としない代わりに、2つのコーパスを2度比較することで誤り格フレーム10の正当性チェックしている(図3、S4及びS5)。

0052

なお、誤り情報が付与された非母語話者コーパス104を用いて誤り格フレーム10を生成することも可能である。その場合には、誤り情報により誤り格フレーム10の選択と訂正情報の決定を行う。

0053

次に、上記した誤り格フレーム10を用いて、非母語話者コーパス104に関する英語以外の特定言語の母語話者による英語文章を正誤判定部34により正誤判定する方法について説明する。

0054

まず、正誤判定部34は、正誤判定を行う英語文章について構文解析を行った上で格フレームを生成する。格フレームの生成方法については上記したコーパスからの格フレームの生成と同様である。次に、かかる格フレームを上記した所定のデータベース中の誤り格フレーム10と照合して動詞欄17、格標識18、格要素19のいずれも合致する誤り格フレーム10があれば、かかる英語文章の前置詞に誤りがあると判定するのである。なお、正誤判定において合致した誤り格フレーム10の訂正情報を用いると、かかる前置詞の誤りを訂正することも可能である。

0055

正誤判定においては、上記したように、正誤判定を行う英語文章の作成者の母語に応じた非母語話者コーパス104を使用して得た誤り格フレーム10のデータベースを用いることで、正誤判定の精度を向上させることができる。例えば、日本語を母語とする日本語話者による英語文章は、日本語話者の書いた英語文章による非母語話者コーパス104を用いて得た誤り格フレーム10のデータベースを用いるのである。この場合、日本語において前置詞は無いが、助詞が対応し、誤りセットを同様に作成出来て、上記したフランス語話者の例と同様に、日本語話者に混同されやすい前置詞の誤りセットを用いて誤り格フレーム10を生成できる。その上で、正誤判定及び誤り訂正が可能である。

0056

なお、正誤判定部34について誤り格フレーム作成部32を含む言語解析システム1とは別の付属システムに設けても良い。格フレーム作成部32で抽出した誤り格フレーム10をデータベース、XML形式等として、正誤判定部34を含む付属システムからアクセスし、特定言語の母語話者による英語文章を正誤判定できるのである。

0057

上記した実施例によれば、誤りに関する説明を適宜、目的に応じてフィードバックメッセージとして与えることができる。例えば、なぜその訂正候補が選択されたのかを人間が直感的に解釈できる形で提供できる。

0058

以上、本発明による実施例及びこれに基づく変形例を説明したが、本発明は必ずしもこれに限定されるものではなく、当業者であれば、本発明の主旨又は添付した特許請求の範囲を逸脱することなく、様々な代替実施例及び改変例を見出すことができるであろう。

0059

10誤り格フレーム
10a 格フレーム
10b母語話者格フレーム
10c 非母語話者格フレーム
18 格標識
19 格要素

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ