図面 (/)

技術 単語の使用を訂正または改善させる方法および装置

出願人 シャープ株式会社
発明者 ピータージョンワイトロックフィリップグレニーエドモンズ
出願日 2003年5月9日 (17年5ヶ月経過) 出願番号 2003-132395
公開日 2004年1月8日 (16年9ヶ月経過) 公開番号 2004-005641
状態 特許登録済
技術分野 文書処理装置 機械翻訳 文書処理装置
主要キーワード おかす 入力表現 もっともらしさ 綴り間違い 機械学習技術 ネイティブスピーカー 尤度データ 統語論
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2004年1月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

ユーザが書いたものにおける誤りおよび不自然表現を検出し、言語の使用を改善し得る方法を示唆する。

解決手段

連結と関連付けられた尤度値とともに、単語間の連結を含むデータベースが、提供され、このような連結が正確であるか、または、慣用語法にかなっているかについての尤度尺度を提供する。尤度の値は、例えば、その言語のネイティブスピーカーによって生成されたテキストの大部分を解析することによって得られる、連結が現れる頻度に基づく。誤りを訂正する実施形態において、もっともらしさ閾値より低くなる単語について、混乱しやすい単語が試され、もっともらしさを改善する混乱しやすい単語がユーザに報告される。コンテキストに対して高感度類語辞典の実施形態において、混乱しやすい単語が、全ての単語について試され、もっともらしさの値が第2の閾値を超える混乱しやすい単語が報告され得る。

概要

背景

ある言語で書くことまたは話すことの中心には、どの単語を用いるかを選択することがある。この選択に役立てるため、母国語で書いている人は、類語辞典を用い、言語の学習者は、典型的には、2カ国語辞書を用いる。しかし、母国語で書いている人は、類語辞典には、類義語が適切である文脈についての詳細な情報がないことに気付き、学習者は、2カ国語の辞書から誤った翻訳を選択することがあり、両者は、集中力または知識が欠けている場合には他の単語に綴り間違いをすることがある。

概要

ユーザが書いたものにおける誤りおよび不自然表現を検出し、言語の使用を改善し得る方法を示唆する。連結と関連付けられた尤度値とともに、単語間の連結を含むデータベースが、提供され、このような連結が正確であるか、または、慣用語法にかなっているかについての尤度尺度を提供する。尤度の値は、例えば、その言語のネイティブスピーカーによって生成されたテキストの大部分を解析することによって得られる、連結が現れる頻度に基づく。誤りを訂正する実施形態において、もっともらしさ閾値より低くなる単語について、混乱しやすい単語が試され、もっともらしさを改善する混乱しやすい単語がユーザに報告される。コンテキストに対して高感度な類語辞典の実施形態において、混乱しやすい単語が、全ての単語について試され、もっともらしさの値が第2の閾値を超える混乱しやすい単語が報告され得る。 

目的

本発明は、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置を提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語またはの選択を訂正または改善させる方法であって、(a)該第1の言語の単語または句の間の連結に関する第1のデータベースを提供する工程であって、各連結は、該第1の言語のテキストの本文において該連結が現れる頻度に基づいて、少なくとも1つの関連付けられた尤度の値を有する、工程と、(b)テキストのセクションの該第1の単語または句と、第2の単語または句との間に第1の連結を確立するように、テキストのセクションを解析する工程であって、該連結の少なくとも1つの第1の尤度の値、および該第1の単語または句の第1のもっともらしさの値は、該少なくとも1つの尤度の値に基づく、工程と、(c)少なくとも1つの単語または句の各々が、混乱されることがある単語または句のセットと関連付けられている、第2のデータベースを提供する工程と、(d)該第2のデータベースから、混乱しやすい単語または句を、該テキストのセクションにおける該第1の単語または句との置換候補として選択または計算する工程と、(e)該第1のデータベースにおける第2の連結の尤度の値に基づいて、該混乱しやすい単語または句の第2のもっともらしさの値を導出する工程であって、該第2の連結は、該混乱しやすい単語または句と、該テキストのセクションにおける他の単語または句とを含む、工程と、(f)該計算されたもっともらしさの値に基づいて、該混乱しやすい単語または句の表示を選択的に提供する工程とを包含する、方法。

請求項2

前記第1のデータベースにおける前記連結の各々の尤度の値が、同じ依存性関係を有する単語または句のうちの1つを含む他のリンクの各々が現れる頻度にも基づく、請求項1に記載の方法。

請求項3

前記第1のデータベースにおける前記連結の各々の尤度の値が、同じ依存性関係を有する他の連結の全てが現れる頻度にも基づく、請求項1に記載の方法。

請求項4

前記第1のデータベースにおける前記連結の各々の尤度の値が、相互情報T得点、YuleのQ係数、および対数尤度のうちの少なくとも1つを含む、請求項1に記載の方法。

請求項5

前記工程(e)において、前記他の単語または句が、前記第2の単語または句であり、前記第2の連結の依存性関係は、前記第1の連結の依存性関係と同じである、請求項1に記載の方法。

請求項6

前記工程(b)は、前記テキストのセクションにおいて、複数の第1の単語または句の複数の第1の連結を確立する工程を含み、前記工程(d)、(e)および(f)は、該第1の連結の各々について行われる、請求項1に記載の方法。

請求項7

前記工程(b)が、前記テキストのセクションにおいて隣接していない単語または句の間に連結を確立する工程を含む、請求項1に記載の方法。

請求項8

前記工程(d)が、単語または句のセットの混乱しやすい単語または句の各々を選択する工程を含み、前記工程(e)および(f)が、該混乱しやすい単語または句の各々について行われる、請求項1に記載の方法。

請求項9

前記工程(f)が、値の降順で、第2のもっともらしさの値を示す工程を含む、請求項8に記載の方法。

請求項10

前記第1のもっともらしさの値が第1の閾値よりも低い場合、前記工程(d)、(e)、および(f)が行われる、請求項1に記載の方法。

請求項11

前記工程(f)が、前記第2のもっともらしさの値の各々または該第2のもっともらしさの値が、第2の閾値を越える場合に、表示を提供する工程を含む、請求項1に記載の方法。

請求項12

前記工程(f)が、前記第2のもっともらしさの値が前記第1のもっともらしさの値よりも大きい場合、表示を提供する工程を含む、請求項1に記載の方法。

請求項13

前記工程(b)が前記第1のもっともらしさの値を、注釈付き学習者誤りコーパスおよび関連付けられた尤度の値から機械学習技術によって学習した関数によって計算する工程を含む、請求項1に記載の方法。

請求項14

前記テキストのセクションにおける第1の単語を、前記混乱しやすい単語と置換する工程をさらに含む、請求項1に記載の方法。

請求項15

第2の言語から、翻訳によってテキストのセクションを生成する工程をさらに含む、請求項1に記載の方法。

請求項16

印刷された文献から、光学文字認識によって、テキストのセクションを生成する工程をさらに含む、請求項1に記載の方法。

請求項17

請求項1に記載の方法をコンピュータに実行させるための、コンピュータプログラム

請求項18

請求項17に記載のプログラムを含む、格納媒体

請求項19

コンピュータ読取り可能媒体を含む、請求項18に記載の媒体。

請求項20

請求項17に記載のプログラムを含む、コンピュータ。

請求項21

第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語または句の選択を訂正または改善させる装置であって、該第1の言語の単語または句の間の連結に関する第1のデータベースであって、各連結は、該第1の言語のテキストの本文において該連結が現れる頻度に基づいて、少なくとも1つの関連付けられた尤度の値を有する、第1のデータベースと、テキストのセクションの該第1の単語または句と、第2の単語または句との間に第1の連結を確立するように、テキストのセクションを解析する制御部であって、該連結の少なくとも1つの第1の尤度の値、および該第1の単語または句の第1のもっともらしさの値は、該少なくとも1つの尤度の値に基づく、制御部と、少なくとも1つの単語または句の各々が、混乱されることがある単語または句のセットと関連付けられている、第2のデータベースと、を備え、該制御部は、該第2のデータベースから、混乱しやすい単語または句を、該テキストのセクションにおける該第1の単語または句との置換候補として選択または計算し、該制御部は、該第1のデータベースにおける第2の連結の尤度の値に基づいて、該混乱しやすい単語または句の第2のもっともらしさの値を導出し、該第2の連結は、該混乱しやすい単語または句と、該テキストのセクションにおける他の単語または句とを含んでおり、該制御部は、該計算されたもっともらしさの値に基づいて、該混乱しやすい単語または句の表示を選択的に提供する、装置。

技術分野

0001

本発明は、自然な言語テキストにおいて、単語の選択および使用を、訂正し、改善させる方法および装置に関する。また、本発明は、このような方法を行うようにコンピュータプログラムするコンピュータプログラム、このようなプログラムを含む格納媒体、およびこのようなプログラムによってプログラムされるコンピュータに関する。

0002

ある言語で書くことまたは話すことの中心には、どの単語を用いるかを選択することがある。この選択に役立てるため、母国語で書いている人は、類語辞典を用い、言語の学習者は、典型的には、2カ国語辞書を用いる。しかし、母国語で書いている人は、類語辞典には、類義語が適切である文脈についての詳細な情報がないことに気付き、学習者は、2カ国語の辞書から誤った翻訳を選択することがあり、両者は、集中力または知識が欠けている場合には他の単語に綴り間違いをすることがある。

0003

学習者の英語注釈付きコーパス非特許文献1参照)によると、誤った動詞または前置詞の使用が、最も一般的なタイプの誤りであり、綴りおよび句読点の誤りがその後に続く。例えば、書き手は、「associate with」ではなく「associate to」、「lose one’s temper」ではなく「loose one’s temeper」、「beats me at tennis」ではなく「wins me at tennis」と書くことがある。

0004

従来、このようなタイプの誤りおよび他のタイプの誤りを検出し、これらに対する訂正を示唆することが出来なかった。

0005

特許文献1、2、3は、構文解析および翻訳における、共起の情報の作成および使用を開示する。

0006

特許文献4、5、6、7、8、9、10の各々が開示する技術は、一般的に混乱しやすい単語のセット、例えば、「hear」と「here」、または、「to」と「too」などのリストを用いる。テキストにおける、このような単語の存在は、潜在的な誤りを示す。これらの特許は、誤りの訂正に対して異なる方法を記載する。

0007

特許文献11は、混乱しやすい単語の使用を区別する、異なる文脈を記載する規則のシステムを用いる技術を開示する。

0008

特許文献12、13、14は、確率を品詞の連続に割り当てるシステムを開示する。混乱しやすい単語を含む品詞の連続である確率は、その単語と混乱される単語を含む品詞の連続である確率と比較され得る。後者の方が前者よりも高い場合、起こり得る誤りが報告される。

0009

特許文献15は、単語の連続に確率を割り当て、ある単語を他の単語と誤って綴ることに確率を割り当て、これらの確率を組み合わせて、単語が他の単語と誤って綴られているか否かを判定するシステムを開示する。

0010

特許文献16、17は、単語を、その文脈を表す特徴と関連付け、機械学習アルゴリズムを用いて、混乱しやすい単語のセットの特定の要素に対して、特徴の値から、関数を計算するシステムを開示する。混乱しやすい単語のセットの要素がテキストに現れる場合、この関数が用いられて、正確であるか、または誤っているかが、分類される。

0011

非特許文献2は、連続的な単語のnグラムモデルを用いて、誤りを検出するシステムを開示する。このシステムは、以前には見られなかった、カテゴリー変更およびカテゴリー保存の誤りを検出し得るが、連続的なモデルに起因して、非常に限定された長さにわたってのみ検出し得る。誤りの訂正は、記載されていない。

0012

特許文献18に開示されるシステムは、パーサーの失敗による、単語の使用における潜在的な誤りを識別し、これらの誤りを、続く構文解析の成功につながるように、混乱しやすい単語を見つけることによって解決する。

0013

連結に関する強度または尤度の多くの尺度は、例えば、非特許文献3、4に開示され、非特許文献3、4は特定のタスクにおいていくつかの尺度の比較評価を提供する。

0014

任意の適切なパーサーを用いたテキストの解析の一例が、非特許文献5に開示されている。

0015

統計学的尺度による尤度の値の計算に用いられるパラメータ公式は、非特許文献6に開示されている。

背景技術

0016

【特許文献1】
米国特許第4,916,614号
【特許文献2】
米国特許第4,942,526号
【特許文献3】
米国特許第5,406,480号
【特許文献4】
米国特許第4,674,065号
【特許文献5】
米国特許第4,868,750号
【特許文献6】
米国特許第5,258,909号
【特許文献7】
米国特許第5,537,317号
【特許文献8】
米国特許第5,659,771号
【特許文献9】
米国特許第5,799,269号
【特許文献10】
米国特許第5,907,839号
【特許文献11】
米国特許第4,674,065号
【特許文献12】
米国特許第4,868,750号
【特許文献13】
米国特許第5,537,317号
【特許文献14】
米国特許第5,799,269号
【特許文献15】
米国特許第5,258,909号
【特許文献16】
米国特許第5,659,771号
【特許文献17】
米国特許第5,907,839号
【特許文献18】
米国特許第5,999,896号
【非特許文献1】
Nicholls、1999「The Cambridge Learner Corpus−Error Coding and Analysis for Writing Dictionaries and otherbooks for English Learners」、Summer Workshop on Learner Corpora、Cambridge University Press
【非特許文献2】
ChodorowおよびLeacockのAn unsupervised method for detecting grammaticalerrors」(Proceedings of the 1stAnnual Meeting of the North American Chapter of the Association for Computational Linguistics、140〜147ページ、2000年
【非特許文献3】
K.Kageura、1999、「Bigram Statistics Revisited: a Comparative Examination of some Statistical Measures in Morphological Analysis of Japanese Kanji Sequences」、Journal of Quantitative Linguistics、1999、vol 6、no.2、144〜166ページ
【非特許文献4】
Evertら、「Methods for the Qualitative Evaluation of Lexical Association Measures」、Proceeding of the 30thAnnual Meeting of the Association for Computational Linguistics,Toulouse,2001、188〜195ページ
【非特許文献5】
M.Collinsの「Three Generative Lexicalised Models for Statistical Parsing」(Proceedings of the 35th annual meeting of the ACL/8thconference ofthe EACL、Madrid、1997)、SleatorおよびTemperleyの「Parsing English with a Link Grammar」(CMU−CS−91−196、Carnegie−Mellon University Dept. of Computer Science、1991)
【非特許文献6】
D.Linの「Automatic Retrieval and Clustering of Similar Words」(COLING−ACL 98、Montreal、Canada、1998年8月)

発明が解決しようとする課題

0017

本発明は、ユーザが書いたものにおける誤りおよび不自然表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置を提供することを目的とする。

0018

本発明は、上記のようなタイプの誤りおよび他のタイプの誤りを検出し、これらに対する訂正を示唆することが可能である。本発明は、事実上の単語の綴りの誤り(例えば、lose/loose)、および様々な他のタイプの誤りを処理することができる。

0019

例えば、「make」のような単語を類語辞典で引くと、書き手は多数の類義語を見出す。これらは、中心的な意味を共有するグループに分類され得る。あるグループには、「create」、「construct」、および「establish」などの類義語が含まれ得るが、書き手が、「creates a diversion」、「constructs a model」、または「establishes a relationship」を見出すことはない。

0020

本発明は、これらを、「make a diversion」、「make a model」、または「make a relationship」などの入力に応答して提供することを可能にする。

0021

本発明は、書き言葉であるか話し言葉であるかに関わらず、以下ではテキストと呼ぶ、一続きの言語において共起し得る(必ずしも、隣接しない)、2つの単語またはの間の関係を含む、依存性または連結性を利用する。連結性は、テキストの大部分において現れる頻度に基づいて、強度または尤度の尺度と関連付けられ得る。テキストにおける単語は、それが現れている連結における尤度の値に基づいて、もっともらしさの値と関連付けられ得る。テキスト内においてもっともらしくない単語は、文脈において、誤っているか、または、不自然であり得る。

0022

本発明の第1の局面によると、第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける第1の単語または句の選択を訂正または改善させる方法であって、(a)該第1の言語の単語または句の間の連結に関する第1のデータベースを提供する工程であって、各連結は、該第1の言語のテキストの本文において該連結が現れる頻度(frequency)に基づいて、少なくとも1つの関連付けられた尤度の値を有する、工程と、(b)テキストのセクションの該第1の単語または句と、第2の単語または句との間に第1の連結を確立するように、テキストのセクションを解析する工程であって、該連結の少なくとも1つの第1の尤度の値、および該第1の単語または句の第1のもっともらしさの値は、該少なくとも1つの尤度の値に基づく、工程と、(c)少なくとも1つの単語または句の各々が、混乱されることがある単語または句のセットと関連付けられている、第2のデータベースを提供する工程と、(d)該第2のデータベースから、混乱しやすい単語または句を、該テキストのセクションにおける該第1の単語または句との置換候補として選択または計算する工程と、(e)該第1のデータベースにおける第2の連結の尤度の値に基づいて、該混乱しやすい単語または句の第2のもっともらしさの値を導出する工程であって、該第2の連結は、該混乱しやすい単語または句と、該テキストのセクションにおける他の単語または句とを含む、工程と、(f)該計算されたもっともらしさの値(plausibility values)に基づいて、該混乱しやすい単語または句の表示を選択的に提供する工程とを包含する、方法が提供される。

0023

前記第1のデータベースにおける前記連結の各々の尤度の値が、同じ依存性関係を有する単語または句のうちの1つを含む他のリンクの各々が現れる頻度にも基づいてもよい。

0024

前記第1のデータベースにおける前記連結の各々の尤度の値が、同じ依存性関係を有する他の連結の全てが現れる頻度にも基づいてもよい。

0025

前記第1のデータベースにおける前記連結の各々の尤度の値が、相互情報(Mutual Information)、T得点(T−score)、YuleのQ係数(Yule’s Q coefficient)、および対数尤度(log−likelihood)のうちの少なくとも1つを含んでもよい。

0026

前記工程(e)において、前記他の単語または句が、前記第2の単語または句であってもよく、前記第2の連結の前記依存性関係は、前記第1の連結の依存性関係と同じであってもよい。

0027

前記工程(b)は、前記テキストのセクションにおいて、複数の第1の単語または句の複数の第1の連結を確立する工程を含んでもよく、前記工程(d)、(e)および(f)は、該第1の単語または句の各々について行われてもよい。

0028

前記工程(b)が、前記テキストのセクションにおいて隣接していない単語または句の間に連結を確立する工程を含んでもよい。

0029

前記工程(d)が、第1の単語または句とこんらんしやすい単語または句のセットの混乱しやすい単語または句の各々を選択する工程を含んでもよく、前記工程(e)および(f)が、該混乱しやすい単語または句の各々について行われてもよい。

0030

前記工程(f)が、値の降順で、第2のもっともらしさの値を示す工程を含んでもよい。

0031

前記第1のもっともらしさの値が第1の閾値よりも低い場合、前記工程(d)、(e)、および(f)が行われてもよい。

0032

前記工程(f)が、第2のもっともらしさの値の各々または前記第2のもっともらしさの値が、第2の閾値を越える場合に、表示を提供する工程を含んでもよい。

0033

前記工程(f)が、前記第2のもっともらしさの値が前記第1のもっともらしさの値よりも大きい場合、表示を提供する工程を含んでもよい。

0034

前記工程(b)が前記第1のもっともらしさの値を、注釈付きの学習者の誤りのコーパスおよび関連付けられた尤度の値から機械学習技術によって学習した関数によって計算する工程を含んでもよい。

0035

この方法は、前記テキストのセクションにおける第1の単語を、前記混乱しやすい単語と置換する工程をさらに含んでもよい。

0036

この方法は、第2の言語から、翻訳によってテキストのセクションを生成する工程をさらに含んでもよい。

0037

この方法は、印刷された文献から、光学文字認識によって、テキストのセクションを生成する工程をさらに含んでもよい。

0038

本発明の第2の局面によると、本発明の第1の局面による方法をコンピュータに実行させるための、コンピュータプログラムが提供される。

0039

本発明の第3の局面によると、本発明の第2の局面によるプログラムを含む、格納媒体が提供される。

0040

この媒体は、コンピュータ読取り可能媒体を含んでもよい。

0041

本発明の第4の局面によると、本発明の第3の局面によるプログラムを含む、コンピュータが提供される。

0042

本発明の第5の局面によると、第1の言語の複数の単語を含む書かれたテキストまたは話されたテキストのセクションにおける単語または句の選択を訂正または改善させる装置であって、該第1の言語の単語または句の間の連結に関する第1のデータベースであって、各連結は、該第1の言語のテキストの本文において該連結が現れる頻度に基づいて、少なくとも1つの関連付けられた尤度の値を有する、第1のデータベースと、テキストのセクションの該第1の単語または句と、第2の単語または句との間に第1の連結を確立するように、テキストのセクションを解析する制御部であって、該連結の少なくとも1つの第1の尤度の値、および該第1の単語または句の第1のもっともらしさの値は、該少なくとも1つの尤度の値に基づく、制御部と、少なくとも1つの単語または句の各々が、混乱されることがある単語または句のセットと関連付けられている、第2のデータベースとを備え、該制御部は、該第2のデータベースから、混乱しやすい単語または句を、該テキストのセクションにおける該第1の単語または句との置換候補として選択または計算し、該制御部は、該第1のデータベースにおける第2の連結の尤度の値に基づいて、該混乱しやすい単語または句の第2のもっともらしさの値を導出し、該第2の連結は、該混乱しやすい単語または句と、該テキストのセクションにおける他の単語または句とを含んでおり、該制御部は、該計算されたもっともらしさの値に基づいて、該混乱しやすい単語または句の表示を選択的に提供する、装置が提供される。

0043

単語間の連結の尤度を用いることによって、品詞の連続の確率を殆ど用いない、公知のシステムよりも改善している技術を提供することが可能である。なぜなら、このような公知のシステムは、非常に一般的であるカテゴリーを維持する誤りを検出して訂正することができないからである。

0044

改善は、依存性文法は、隣接していないが、それでも、互いの選択に直接影響を与える、単語間の依存性を捕らえることができるので、連続的なnグラムワードまたは品詞のいずれか)を用いることによって達成される。nグラムは、原則として、このような依存性をも含むように、拡大され得るが、実際には、これは、データが疎であることにおいて深刻な問題につながり得る。連結を用いることによって、統計学的な尤度の値の計算について利用可能なデータが、言語学的に大きな単位に集められる。殆どの場合において、常に、3つの要素の依存性の断片が、有用な統計を得るために充分であるが、4つの要素の連続的なnグラムでさえ、ありそうな単語の組合せおよびありそうもない単語の組合せの多くの場合について誤りをおかす

0045

言語学的に意味のあるエンティティに対する、この統計の制限の重要な結果として、確率の値が、誤りを見つけるために必要な様態解釈することが、より容易になることである。これを理解するため、連続的な単語の二重字モデルにおいて、隣接する単語間の遷移の確率の重要性を考慮する。構成要素内で、例えば、「a big dog」における「big」と「dog」との間で、遷移の確率は、類似の形容詞および名詞の連続と、直接比較され得る。しかし、「givethe dog a bone」における「dog」と「a」との間の遷移の確率は、「dog」で終わる構成要素に、「a」で始まる構成要素が続くので、どちらかというと、対象とならない(ありそうもない)確率である。「give」が先頭である構成要素が、「bone」が先頭である第2の目的語を有するという対象になる確率は表されず、可能な代替例、例えば、「give the dog a clone」と比較されることはできない。

0046

すなわち、連続的なnグラムモデルにおいて、低い遷移確率は、言語学的に興味深い尤度の低さと、そうではない尤度の低さとの両方を表し得る。これは、潜在的な誤りの直接的な指示として用いられることはできない。連続的なnグラムに基づくシステムが、誤りを処理するトリガとして、全ての低い確率を処理する場合、多数の潜在的な「誤り」を検出し、そのうちの多くが実際の「誤り」ではない。これらの処理はコストが高く、また、このようなの誤りが、本当の誤りとして分類されるという危険を引き起こす。

0047

これが、低い遷移確率を用いる公知の技術のいずれも誤り処理のトリガとして用いられず、むしろ、混乱しやすいことが公知である特定の単語のテキストにおける存在を用いて、元の連続の相対的な尤度および単語を置き換えることによって得られる尤度を考慮する理由である。

0048

対照的に、本発明の技術においては、「低い尤度」が、よりロバストな誤りのインジケータである。任意のありそうもない連結は、誤り処理の開始に寄与し得、ありそうもない連結のみが寄与する。当然、ありそうにもないことが、常に誤りであるという結果にはならないが、本発明の技術においては、これらの偽のトリガは、ずっと少ない。

0049

さらに、いくつかの混乱しやすい単語のセットにおける要素のテキストにおける存在が、多くの公知の技術と同様に、誤り処理のトリガに過ぎない場合、混乱しやすい単語のセットに要素を追加することは、誤り処理がトリガされる回数と、各要素を考慮する計算コストとの両方を増加させる。

0050

連結の尤度、および得られる単語のもっともらしさが、本発明と同様に、誤り処理のトリガである場合、ずっと広い範囲の誤りが、特徴付けられ得る。混乱しやすさの概念は、綴りおよび発音の高い頻度での混乱に限定されない。

0051

学習アルゴリズムを用い、また、誤り処理のトリガとして、混乱しやすいことが公知である単語の存在を用いる公知の技術において、学習アルゴリズムを単語の分類に適用すること以外に、単語を潜在的な誤りとして検出する方法はない。さらに、公知のnグラムに基づく技術と同様に、学習システムは、データを言語学的に大きな単位に集めることによる利益を完全には得ない。

課題を解決するための手段

0052

本発明の技術は、構文解析の失敗に基づく公知の技術の改善を表す。なぜなら、構文解析の失敗は、語彙の誤り、特に、同じ品詞の単語との置換に関わる語彙の誤りの、非常に粗い検出機構であるからである。対照的に、本発明の技術は、非常に短い文の断片の尤度でさえ、非常にきめ細かい定量的な判定を提供し、アタッチメントがないことによって示されるように、特定の、極端に尤度が低い場合として、構文解析の失敗を含む。さらに、構文解析の成功(誤りが訂正されたという粗い状態)は、得られた改善のきめ細かい定量的な判定と置換され得る。

0053

本発明は、添付の図面を参照しながら、例示のために、さらに説明される。

0054

本発明においては、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語のこのような使用を改善し得る方法を示唆する方法および装置が提供される。これらの技術は、その文脈において、所与入力表現と意味が類似する表現を示唆する、文脈に対して高感度な類語辞典として用いられてもよい。単語の組合せの統計的に依存性のモデルは、誤り検出および置換のチェック基礎として用いられる。これによって、連続的なnグラムモデルまたは解析されていない特徴のセットのいずれかを用いる、公知の方式で、いくつかの問題が解決される。また、これらの技術は、置換の候補の範囲をずっと広くすることが可能である。誤りの検出は、用いることによって誤りが起きやすい特定の単語の検出に依存しないので、以前に出てきたことがない誤りも検出および訂正され得る。

0055

本発明は、2つのタイプの単語間の関係を用いる。一方のタイプの関係は、1つの文において異なる位置にある2つの単語の間で保持される。これらは、「〜の主語」、「〜の目的語」および「〜の修飾語」ような依存の関係であり、その例を図2に示す。図2は、「Love is the most important condition for marriage」という文を解析した結果を示す。単語は、屈折していない形および品詞によって、すなわち、見出し語として表される。従って、「is」は、「be_V」と表される。この動詞の主語は、「love_N」であると識別され、その目的語は、「condition_N」であると識別される。後者は、「the_DET」によって特定され、「important_ADJ」によって修飾される。「Most_ADV」は、「important_ADJ」を修飾する副詞として識別される。「For_PREP」は、「condition_N」を修飾する前置詞として識別され、「marraiage_N」は、前置詞「for_PREP」の目的語として識別される。2つの見出し語およびこれらを連結する依存性の関係からなる3つの形態は、連結と呼ばれる。

0056

他方のタイプの関係は、「〜の可能な置換」として定義される関係、すなわち、文の所与の位置での代替的な単語の選択肢の間の関係を含む。置換の関係のいくつかの例は、以下の通りである。

0057

・類義語、反意語、下位語、および上位語のような類語関係
・「lose」が「loose」になるように、その言語の他の単語になってしまうような綴りの誤り(特殊な場合として、「pane」および「pain」のように、発音が同じであるが綴りが異なる単語に関連する、同音がある)
・1つの語源から異なる様式で形成された単語に関連する、派生語(例えば、「interested」および「interesting」、あるいは、「safe」および「safety」)
・他の言語における、1つの単語に対する代替的な翻訳である単語に関連する、複数の言語間での混乱しやすさ(例えば、フランス語には、両方とも、「marquer」と翻訳され得る「mark」および「brand」)
・ある単語が、同語源の他の言語の単語の翻訳として不適切である、偽のフレンド(例えば、フランス語の「actual」の、それぞれ、正しい翻訳および誤った翻訳である、「possible」および「actual」)
無意味な単語を置換すること、または、無意味な単語と置換することとしても考えられ得る、挿入および消去の誤り(例えば、「he rang (at)the doorbell」「we paid (for) our meals」)
文中で単語wを用いることが、誤っているか、または、そうでなくても、慣用語法にかなっておらず、ぎこちないと思われる場合、wの混乱しやすい単語のセットC(w)と呼ばれる、単語のセットの各要素が、可能な置換として考えられる。wの混乱しやすい単語のセットは、wに関連する単語から得られる。ただし、実際の全要素は、ユーザの母国語、書いている言語における言語能力のレベル、および他の要因によって異なり得る。

0058

依存性の関係は、文の構造を表す、幅広く用いられる手段である。多くの変形例が見出されるが、本発明の技術のコンテキストからは、主として、些細なものである。依存性の関係は、従属部分およびヘッドと呼ばれる、2つの単語を結合する。典型的な公式において、従属部分は、1つより多いヘッドに関連し得ないが、ヘッドは、例えば、任意の数の従属部分と、循環禁止などの他の制約とを含み得、1つの文における関係が樹形図を形成することを確実にする。本明細書においては、文中の2つの単語の間の連結(連結とも呼ばれる)は、3つの形態によって表される。
<first lemma,relation,second lemma>
ただし、lemma(見出し)は、動詞「to chase」の全ての形態、すなわち、chase、chases、chased、chasingを表す、「chase_V」のような用語である。

0059

連結は、強度または尤度の多くの尺度と関連付けられ得る。連結の頻度、すなわち、構文解析されたコーパスにおいて何回見受けられたかは、強度を評価する粗い方法に過ぎない。より正確な尺度は、連結の頻度が、その成分の部分の頻度から予期され得るものから外れる範囲まで計算する。このような尺度のいくつかは、上記非特許文献3、4から公知である。このような尺度のいくつかは、単語の分割、構文解析、翻訳、情報の取り出し、および辞書編集法における用途を有する。これらの例において、典型的には、予期されるよりも、ずっとありそうな連結のみが、対象となる。しかし、本発明の技術は、予期されるようもずっとありそうもない連結についても関係する。テキストにおいて、このような連結が検出されることは、文法的に正しくないか、または言語の慣用的な用法とは異なっていることを示す。

0060

1つ以上のありそうもない連結において現れる単語は、順に、混乱しやすい単語のセットの各要素によって置換され得、このような置換のそれぞれを行うことによる結果は、もっともらしさについて評価され得る。混乱しやすい単語のセットのうちの1つ以上の要素によって、充分にもっともらしくなる場合、これらの要素は、置換用のものとして示唆され得る。

0061

予備的な工程として、単語の組合せについての尤度の値のデータベースが、依存性文法に従って、ネイティブスピーカーのテキストを大量に解析することによって、構築される。任意の適切なパーサーが用いられ得、適切な例が、上記非特許文献5に開示されている。アナライザーは、一般的に考えられるようにパーサーでなくてもよいが、有限状態、または、依存性を記録する機構補強された、類似の技術を用い得る。

0062

各タイプの連結の頻度が数えられ、例えば、相互情報、T得点、対数尤度(log−likelihood)のような1つ以上の統計学的尺度による、それぞれについての尤度の値が、計算され、結果が表に格納される。図3に、このようなデータベースにおけるいくつかの項目を示す。

0063

図3において、最初の列は、連結自体を示す。「頻度」が上についている列は、この連結が構文解析されたコーパス(ここでは、British National Corpusの約8000万の単語)において現れる回数を示す。残りの列は、それぞれ、相互情報、T得点、YuleのQ係数、および対数尤度である。これらの各々は、以下の4つの項目から計算される、異なる測定基準である。
<first lemma,relation,second lemma>
<first lemma,relation,*>
<*,relation,first lemma>
<*,relation,*>
ただし、「*」は、任意の見出しを表す。このパラメータの公式は、上記非特許文献6に開示されている。異なる測定基準は、異なる範囲を有し、異なる様式の4つのパラメータの精密な値を感知する。しかし、各々の場合において、値が、関係の尤度と相関する。正の値は、組合せが、偶然よりもありそうな組合せであることを示し、負の値は、ありそうにもない組合せであることを示す。

0064

例えば、<associate_V padv to_PREP>のt得点は、以下のように計算される。

0065

【数1】
ただし、f(associate_V padv to_PREP)=F
ネイティブスピーカーのコーパスの構文解析は、高品質な、単語の組合せの尤度の評価を得るためには、正確、かつ、可能な限り広い範囲である必要がある。しかし、正確な構文解析は、高品質な、単語の組合せの尤度の評価へのアクセスを必要とし、これによって、矛盾が生じる。この矛盾は、反復的またはブートストラッピングアプローチによって解決され得る。これは、構文解析アルゴリズムのある特定の性質に基づく。

0066

文中の各個別の連結は、優先度の値と関連付けられている。優先度の値は、このような連結が文中の2つの単語の間に存在しているという信頼度の尺度である。このような優先度の値は、品詞の確率および単語の孤立などの文特有の要因と、これらの単語の間の連局の強度などの言語全体にわたる要因との両方の関数である。

0067

構文解析アルゴリズムは、集合的に依存性構造の公理を満たす(すなわち、連結は交差しない、各単語は1つより多いノードに依存しないなど)、1セットの連結を返す。しかし、このセットは、1つの接続された樹形図を形成するためには必要とされない。

0068

文特有の要因および言語全体にわたる要因の優先度の値に対する相対的な寄与は、適切なパラメータ設定によって変動し得る。

0069

閾値は、優先度の値がその閾値を越える連結のみが返されるように設定され得る。

0070

構文解析アルゴリズムの反復的な性質は、非常に簡略的な句「world title fight」の構文解析を考慮することによって、説明される。

0071

統語論的には、「title」が「fight」を修飾するはずであるが、「world」が、「title」を修飾するのか、「fight」を修飾するのかが不明である。英語の統語論において、名詞の連続では、最後の名詞以外の各名詞が、その右側にあるいずれの名詞を修飾してもよい。この場合、特定の単語の結合の強度の知識から、「world」が「title」を修飾しているという結論が得られる。他の場合、例えば、「plastic baby pants」の場合、第1の名詞は、直後に続く名詞ではなく、最後の名詞を修飾する。

0072

完全な構文解析から以下の連結が得られる。
1.<title_N,mod_of,fight_N>
2.<world_N,mod_of,title_N>
ネイティブスピーカーのコーパスの構文解析の第1の反復において、特有の単語の間の連結についての尤度の値は利用可能でないので、言語全体にわたる要因は、優先度の値に何も寄与しない。優先度の閾値は高く設定されるので、例えば、品詞が曖昧な単語、または、広く分類される単語は、連結されず、連結の正確性についての信頼度は、高い。この例においては、連結1のみが返される。連続する名詞中終わりから2番目の名詞は、言語全体の要因に関わらず、最後の名詞を修飾しているはずである。しかし、言語全体にわたる情報がないので、連結2、および不正確な<world_N,mod_of,fight_N>のいずれも、この場合において、返されるような充分に高い優先度を有していない。しかし、コーパスにおける、他の名詞が後に続かない「world title」(および「world fight」)の他の例の連結が返される。

0073

その後、尤度の値は、これらの高い確実な連結を用いて、計算される。後続の反復は、優先度の決定において、これらの言語全体にわたる要因を使用し始め得るので、優先度の閾値は下げられ得る。これによって、返される連結の数(構文解析の範囲)が増大し、尤度のより正確な統計が計算されることが可能になる。この例において、<world,mod_of,title>および<world,mod_of,fight>の相対的な頻度および/または尤度は、前者が後者よりも、選ばれることにつながる。その後、さらなる反復は、言語にわたる要因の優先度に対する寄与を増大させ続け、優先度の閾値を低減させる。このようにして、尤度データの範囲および信頼度が徐々に改善され得る。

0074

ネイティブスピーカーのコーパスの構文解析の各反復の後、各タイプの尤度の値が、データベースにおいて決定され、入力される。

0075

充分に正確なデータベースが準備されるか、何らかの手段で入手される場合、そのデータベースは、本発明において用いられ得る。問題についてチェックされるテキストは、このような構文解析手順の1回の反復にさらされる。言語全体にわたる要因の構文解析に対する寄与は、これらの要因、すなわち、連結の尤度の値が、次の段階で考慮されるので、低減され得る。

0076

その後、テキストにおける各リンクの尤度の値は、ネイティブスピーカーのデータベースを調べることによって判定される。元のネイティブスピーカーのコーパスに見受けられない連結は、かなり頻度が低いと仮定することによって、尤度の値を割り当てられ得る。典型的な実施形態において、ネイティブスピーカーのコーパスにおいて、1の頻度で見受けられる連結は全て放棄され、データのサイズが大幅に低減される。データベースにおいて見受けられない連結は、0〜2の範囲内の頻度であると仮定され、最適な値は、実験によって決定され、尤度の値は、それに従って計算される。

0077

尤度の値が低い(すなわち、負である)連結は、起こり得る誤りのインジケータである。単語が現れる連結の尤度の値は、単語のもっともらしさの値に組み合わせられる。もっともらしくない単語は、もっともらしさにおいて、改善が見られるか否かを調べるため、混乱しやすい単語のセットの要素によって置き換えられる。

0078

図4Aおよび図4Bは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。入力テキストは、工程10で供給され、例えば、構文解析することによって、工程11で解析される。工程12において、入力テキストにおける連結の尤度が、解析される。工程13において、テキスト内の最初の単語が選択され、工程14において、この単語のもっともらしさが計算される。工程15において、全ての単語が用いられたか否かを確立するように入力テキストが調べられて、用いられていない場合、工程16において次の単語が選ばれ、工程14が繰り返される。

0079

テキスト内の全ての単語のもっともらしさが計算される場合、単語は、工程17において、もっともらしさを増大させることによって分類される。一番もっともらしくない単語が工程18において選択され、工程19において、もっともらしさが第1の閾値よりも小さくない場合、この方法は、工程20で終了する。そうでない場合、この単語と混乱しやすい単語のセットは、工程21において入手され、第1の混乱しやすい単語が工程22において選択される。工程23において、テキスト内で、対象の単語が、混乱しやすい単語と置換され、文脈における、混乱しやすい単語のもっともらしさは、工程24において計算される。もっともらしさにおける改善が、工程25において検出される(もっともらしさにおける変化が第2の閾値よりも大きい)場合、混乱しやすい単語は、工程26において、ユーザに報告される。

0080

工程27において、混乱しやすい単語の全てが試されたか否かを調べ、そうでない場合、工程28において、次に混乱しやすい単語が選択され、操作は、工程23に戻る。そうでない場合、工程29において、テキスト内の全ての単語が処理された否かを決定し、処理されていない場合、工程30において、次の単語を入手し、操作は、工程19に戻る。そうでない場合、この方法は、工程31で終了する。

0081

この実施形態において、各単語wi(1≦i≦n、文の長さ)について、単語wiが現れる連結D(wi)のセットを判定する。その後、各D(wi)に、単語λ(wi)の「もっともらしさ」と呼ばれる、その連結のセットの尤度の値を単一の値にマッピングする関数を割り当てる。単語は、もっともらしさに従って並べられる。一番もっともらしくない単語wλminのもっともらしさが閾値より下になる場合、訂正を見出そうと試みる。wλminを、順に、各ワードcj(wλmin)(1≦j≦m、(Cwλmin)における混乱しやすい単語の数)と置換し、λ(cj(wλmin))を計算する。置換によって、単語のもっともらしさに改善が見られる、混乱しやすい単語が、ユーザに対して示唆される。混乱しやすい単語は、置換されることによって生み出す改善に従って、降順に提示され得る。

0082

混乱しやすい単語のセットの要素は、混乱の尤度を表す、混乱しやすい値と関連付けられ得る。例えば、注釈付きの学習者のコーパスから、各単語が他の単語と誤って用いられる頻度の回数を入手することができ、実際の単語の綴り間違いが、音および/または綴りにおける、編集の長さに基づいて、値と関連付けられ得る。意味論上の関連性に基づく、混乱しやすい単語は、階層ネットワークにおけるパスの長さに基づいて、値と関連付けられ得る。

0083

このような情報に対するアクセスがある場合、示唆は、混乱しやすさと、もっともらしさにおける改善とを単一得点、すなわち、置換可能性得点σ(wi→cj(wi))に組み合わせることによって、さらに助けになる順序で提示され得る。

0084

ユーザとのインタラクションセッション中、示唆は、初期的に、wλminを改善させるために、混乱しやすい単語のセットの要素と置換することによって、提供される。ユーザがこれらのうちの1つを受け入れる場合、置換の効果は、その単語に連結されている他の単語にまで伝播し得、wλminの新たな値の計算から手順が繰り返される。伝播の手順は、置換された単語を元の単語とは異なる単語に再び取り付けることを含み得る。

0085

孤立している状態で、ありそうもない連結は、より大きな構造の一部である可能性があり、逆もあり得る。例えば、「by accident」は、非常に強い連語であり、「by the accident」は、ありそうになく、潜在的な誤りであると考えられ得る。後者を含む、より多くの、恐らくは正しい構造、例えば、「horrified by the accident」がある。

0086

反対に、孤立した「a knowledge」は、典型的な学習者の誤りであり、「a knowledge of」は、合理的な表現である。しかし、「learn a knowledge of」は、誤りであり得る。

0087

これらの場合は、2つ以上の連結によって結合される、3以上の要素を含む依存性部分グラフの尤度の値を計算することによって処理され得る。実験的な観察は、多くの場合において、3つの要素を越えていくことが不必要であることを示す。上記の場合において、4つの要素の句の尤度は、より小さい単位の尤度まで追跡され得る。例えば、「horrified by」は強い連語なので、「horrified by the accident」は、ありそうであるが、「knowledge」は、「learn」の目的語である可能性は低いので、他の要素に関わらず、「learn a knowledge of」はありそうにもない。

0088

3つの要素のサブグラフの尤度の値は、各種の方法で計算され得る。1つの方法は、要素のうちの2つと、その間の連結を句の単位として処理し、この句の単位と第3の要素との間の尤度の測定基準を、2つの要素の場合において計算された方法と全く同じ方法で計算することである。

0089

2つまたは3つの要素の連結の尤度の値を、もっともらしさの値へと組合せることは、各種の方式に従って実行され得る。3つの要素の句の寄与を、2つの要素の句の寄与よりも高く重み付けしてもよいし(平滑化方式)、または、2つの要素の句を含む3つの要素の句が頻度におけるある程度の制約および/または尤度を満たさない場合、2つの要素の句のみを考慮してもよい(バックオフ方式)。このような方式に対するパラメータは、経験的に、または、学習手順によって、判定され得るが、学習する特徴は、特定単語が文脈にあるかないかではなく、組合せの強度と頻度である。

0090

基本的な方法が、検出されて訂正され得る誤りの範囲を増大させるため、いくつかの改善させる処理にかけられる。

0091

単語のもっともらしさの計算は、その単語が任意の他の単語に付かないことを示す用語を含み得る。依存性の樹形図の根元になり得る定動詞(または、リストおよびタイトルにおける何らかの他の品詞)の場合を除き、付けられない単語は、常に、誤り(または誤った文法)を示す。従って、非常に低い尤度の値を、無意味な取り付けに割り当てることは、適切であり、これによって、誤り処理がトリガされる。

0092

その後、この方法は、訂正を決定するため、以下に示すように、適用される必要がある。

0093

上述したように、訂正されるテキストの構文解析は、言語全体にわたる優先度要素によって強く影響されない場合、単語は、品詞が適切であれば、概して、結び付けられる。反対に、単語が結び付けられない場合、誤りは、典型的には、同じ品詞の単語の置換によって、訂正可能でない。

0094

誤りは、置換のうちの1つではなく、削除であり得る。例えば、名詞は、自動的な動詞の目的語として結び付けられない。多くの場合において、誤りは、前置詞の挿入によって訂正され得る。名詞が、弱い連結で動詞に結び付けられる場合でも、挿入が適切であり得る。いずれの場合においても、挿入は、誤りが訂正されたか否かをその尤度が判定する、新たな連結の作成を伴う必要がある。

0095

結び付けられることがないことは、カテゴリー変更置換の誤りによっても引き起こされ得る。あるカテゴリーの単語の混乱しやすい単語のセットが、他のカテゴリーの単語を含む場合、置換は、入力の局所的な再構文解析を伴うことを必要とし得る。例えば、学習者が、「get out of the building safety」と書く場合、「building safety」というつながりが、(ありそうにもない)名詞句として構文解析され得る。名詞「safety」についての混乱しやすい単語のセットが、副詞「safely」を含む場合、再構文解析は、後者が、動詞「get out」の修飾語句であり、その目的語が、「safety」ではなく、「building」であることを確立する必要がある。

0096

本発明の方法は、例えば、各単語のもっともらしさの値について、閾値を設定しないことによって、文脈に対して高感度な類義語辞典としても用いられ得る。この場合においては、全ての単語が、もっともらしさに関わらず、置換の候補である。また、置換が、もっともらしさを改善する必要はない。例えば、もっともらしさの値が閾値を越える場合、潜在的な置換が示唆され得る。

0097

本発明の方法は、任意の適切な装置によって行われ得るが、実際には、この方法を行うようにコンピュータを制御するプログラムによってプログラムされたコンピュータによって行われる可能性が高い。図1に、制御部として中央演算処理装置(CPU)1を用いる、適切なコンピュータシステム100を示す。CPU1には、例えば、ディスクドライブの形のプログラムメモリ2が接続され、プログラムメモリ2は、磁気ディスクまたは光ディスクの形の格納媒体を含み、また、格納媒体は、CPU1を制御するプログラムを含む。プログラムメモリ2が、第1のデータベース3および第2のデータベース4を含んでもよい。

0098

例えば磁気ディスクに格納される第1のデータベース3は、連結および関連付けられる尤度の値を含む。例えば、他の磁気ディスク、または、同じ磁気ディスクに、同様に格納される、第2のデータベース4は、混乱しやすい単語のセットを含む。ランダムアクセスメモリ(RAM)5の読み出し/書き込みは、パラメータの一時的な値を保持する、通常の方法で提供される。

0099

CPU1には、誤り、不自然な表現などについて調べられるテキストの入力を可能にする入力インターフェース6が接続される。例えば、テキストは、キーボードを介して手動で入力されてもよいし、(例えば、磁気ディスクまたは光ディスクで)既に機械読取り可能な形であってもよい。CPU1には、出力インターフェース7も接続され、ユーザがこの方法の出力をモニタすることが可能になる。また、この方法を用いてインタラクトすることを可能にするため、インターフェース6および7が、ユーザに、データ、コマンドなどを入力し、この方法の動作をモニタする設備を提供する。例えば、もっともらしさが改善した混乱しやすい単語の選択が提供される場合、これらは、出力インターフェース7の一部または全てを形成するディスプレイ上に表示され、ユーザは、入力インターフェース6の全てまたは一部を形成する、キーボードおよび/またはマウスを適切に操作することによって、混乱しやすい単語のうちの1つを選択し得る。

0100

本発明は、連結と関連付けられた尤度値とともに、単語間の連結を含むデータベースを提供し、このような連結が正確であるか、または、慣用語法にかなっているかについての尤度の尺度を提供する。尤度の値は、例えば、その言語のネイティブスピーカーによって生成されたテキストの大部分を解析することによって得られる、連結が現れる頻度に基づく。テキストのセクションを、セクション内の1つ以上の単語の起こり得る誤りまたは不自然な使用について調べるため、テキストが、まず解析されて単語間の連結が確立される。解析されたテキストにおける連結の尤度は、データベースから判定される。もっともらしさの値は、その単語が現れる連結の尤度の値を組み合わせることによって、解析されたテキスト内の各単語について計算される。単語は、見出しの単語と混乱しやすい単語のセットを含む他のデータベースに見出しを付けるために用いられる。混乱しやすい単語の各々は、順に選択され、見出しの単語の連結において置換される。これらの新たな連結についての尤度の値が判定され、混乱しやすい単語についてのもっともらしさの値が計算される。誤りを訂正する実施形態において、もっともらしさが閾値より低くなる単語について、混乱しやすい単語が試され、もっともらしさを改善する混乱しやすい単語がユーザに報告される。コンテキストに対して高感度な類語辞典の実施形態において、混乱しやすい単語が、全ての単語について試され、もっともらしさの値が第2の閾値を超える混乱しやすい単語が報告され得る。

0101

本発明を英文に適用した実施形態を説明してきたが、本発明は英語に限定されず、その他の原語にも適用される。

0102

なお、英語以外の言語(例えば日本語)から、翻訳によって英語テキストのセクションを生成してもよい。

発明を実施するための最良の形態

0103

また、印刷された文献に記載されるテキストを光学文字認識システムを用いて読取って、テキストのセクションを生成してもよい。

発明の効果

0104

本発明によれば、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、言語の使用を改善し得る方法を示唆する方法および装置が提供される。

図面の簡単な説明

0105

本発明によれば、ユーザが書いたものにおける誤りおよび不自然な表現を検出し、これらに対する訂正を示唆することが可能である。本発明は、事実上の単語の綴りの誤りおよび様々な他のタイプの誤りを処理することができる。

図1
図1は、本発明の実施形態における装置の模式図である。
図2
図2は、「Love is the most important condition for marriage」という文の依存性構造を示す図である。
図3
図3は、尤度の値を連結と関連付ける、第1のデータベースの一部分を示す図である。
図4A
図4Aは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。
図4B
図4Bは、誤り検出器および訂正器としての本発明の実施形態の動作を示すフローチャートである。
【符号の説明】
1 CPU
2 プログラムメモリ
3 第1のデータベース
4 第2のデータベース
5 RAM
6 入力インターフェース
7 出力インターフェース

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ