図面 (/)

技術 対訳辞書データ抽出方法及び記録媒体

出願人 株式会社東芝
発明者 熊野明平川秀樹
出願日 1997年9月12日 (23年3ヶ月経過) 出願番号 1997-248158
公開日 1999年3月30日 (21年8ヶ月経過) 公開番号 1999-085760
状態 拒絶査定
技術分野 検索装置 機械翻訳
主要キーワード 照合単位 日本語テキストデータ 用語候補 英語文字 英語テキスト カタカナ表記 語彙辞書 日本語用
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1999年3月30日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (4)

課題

本発明の目的は、既存の辞書に存在していないデータも利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することである。

解決手段

第一言語の文書から一定の種類の用語を抽出する第一言語用語抽出方法と、第二言語の文書から一定の種類の用語を抽出する第二言語用語抽出方法と、上記第一言語の用語と上記第二言語の用語を発音類似性を基に照合する用語照合方法と、上記照合した用語の対を、出力する対訳出力方法を備えることで実現する。

概要

背景

英語文書と、それに対応する日本語の文書から、用語の対応関係を抽出して、新たな用語辞書知識として利用する技術は、最近盛んになってきた。しかし、これらの多くは、英語と日本語の文単位の対応が明確な場合に限定されるものであった。ところが、実際に存在する文書(インターネット上のニュース記事など)では直訳とは限らず、文単位の対応が付く場合はまれてある。また、対応関係の根拠となるデータとしては、既存の辞書知識に存在するものを利用していたが、新しい文書では既存の辞書に存在しない新語が多く含まれており、対応の根拠として利用できなかった。

概要

本発明の目的は、既存の辞書に存在していないデータも利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することである。

第一言語の文書から一定の種類の用語を抽出する第一言語用語抽出方法と、第二言語の文書から一定の種類の用語を抽出する第二言語用語抽出方法と、上記第一言語の用語と上記第二言語の用語を発音類似性を基に照合する用語照合方法と、上記照合した用語の対を、出力する対訳出力方法を備えることで実現する。

目的

このように、従来の技術では、実際の多くの文書に対して十分な処理ができなかった。本発明はこのような課題を解決するためになされたもので、その目的は、既存の辞書に存在していないデータも利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することである。

効果

実績

技術文献被引用数
1件
牽制数
3件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第一言語および第二言語各々の文書から所定の種類の用語を抽出し、前記第一言語および第二言語の用語を発音類似性を基に照合し、照合した用語の対を出力することを特徴とする対訳辞書データ抽出方法

請求項2

第一言語および第二言語各々の文書から所定の種類の用語を抽出し、前記第一言語および第二言語の用語を発音の類似性を基に照合し、照合した用語の対を関連付けて記憶することを特徴とする対訳辞書データ抽出方法。

請求項3

第一言語および第二言語各々の文書から所定の種類の用語を抽出し、前記第一言語の表記を第二言語に合わせて変換し、変換された用語と第二言語の用語とを所定の類似性を基に照合し、照合した用語の対を出力することを特徴とする対訳辞書データ抽出方法。

請求項4

第一言語が日本語で、第二言語が英語の場合、前記第一言語の表記をローマ字の表記に変換するか、あるいは前記第二言語の表記をローマ字読みのカタカナ表記に変換することを特徴とする請求項3記載の対訳辞書データ抽出方法。

請求項5

類似性に基づく用語の照合は、第一言語及び第二言語の用語の部分的な照合に基づくことを特徴とする請求項1乃至請求項3記載の対訳辞書データ抽出方法。

請求項6

入力される第一言語および第二言語各々の文書から所定の種類の用語を抽出する機能と、抽出された前記第一言語および第二言語の用語を発音の類似性を基に照合する機能とを記録することを特徴とする記録媒体

請求項7

入力される第一言語および第二言語各々の文書から所定の種類の用語を抽出する機能と、抽出した前記第一言語の表記を第二言語に合わせて変換する機能と、変換された前記第一言語の用語と第二言語の用語を発音の類似性を基に照合する機能とを記録することを特徴とする記録媒体。

--

ア =「a 」, ar, e, er, o, or, u, ur; -> 一致 (J-unit[6]:E-unit[6])

背景技術

0001

本発明は、英語ニュース記事と、日本語のニュース記事から、新たな用語の対応関係を抽出して、新たな辞書登録を促すための、対訳辞書データ抽出方法に関する。

発明が解決しようとする課題

0002

英語の文書と、それに対応する日本語の文書から、用語の対応関係を抽出して、新たな用語辞書知識として利用する技術は、最近盛んになってきた。しかし、これらの多くは、英語と日本語の文単位の対応が明確な場合に限定されるものであった。ところが、実際に存在する文書(インターネット上のニュース記事など)では直訳とは限らず、文単位の対応が付く場合はまれてある。また、対応関係の根拠となるデータとしては、既存の辞書知識に存在するものを利用していたが、新しい文書では既存の辞書に存在しない新語が多く含まれており、対応の根拠として利用できなかった。

課題を解決するための手段

0003

このように、従来の技術では、実際の多くの文書に対して十分な処理ができなかった。本発明はこのような課題を解決するためになされたもので、その目的は、既存の辞書に存在していないデータも利用し、かつ、第一言語の用語と第二言語の用語の部分的な照合であっても対訳辞書データとして抽出することのできる環境をユーザに提供することである。

0004

上記目的を達成するため、本発明は、第一言語及び第二言語の文書から一定の種類の用語を抽出し、抽出された第一言語の用語と第二言語の用語を発音類似性を基に照合し、照合した用語の対を出力することを特徴とする対訳辞書データ抽出方法である。

0005

以下、本発明の一実施例を図面に基づいて説明する。
(第1の実施例)図1は、本願第1の発明の実施例に係る対訳辞書データ抽出方法の構成を示すブロック図である。ここでは、第一言語として日本語、第二言語として英語を例として説明する。入力された日本語テキストデータは、一旦、日本語テキストデータ(記憶部)101に記憶される。日本語用語抽出手段102では、日本語テキストデータ101中の所定の種類、例えば専門用語固有名詞、新語などの候補を抽出する。抽出に際して、特定のものである必要はなく、例えば、既存の語彙辞書に入っていない語、カタカナ語表記)などを従来の形態素解析処理で抽出してもよい。また、専門用語、固有名詞、新語などの種類、表記等を特定する際に、ユーザに選択させ、設定させる構成を採っても良い。

0006

103は日本語用語抽出データ(記憶部)である。日本語用語抽出データ103は、日本語用語抽出手段102において日本語テキストデータ101中から抽出された、専門用語、固有名詞、新語などの候補を記憶する。日本語文字変換手段104は、日本語用語抽出データ103の各語を、英語の表現と比較しやすい表記に変換する。例えば、日本語のカタカナ読みをローマ字に変換する。あるいは、英語との発音の類似性を考慮した独自の表記に変換する。

0007

201は英語テキストデータ(記憶部)である。英語用語抽出手段202では、英語テキストデータ201中から、専門用語、固有名詞、新語などの候補を抽出する。その方法は、特定のものである必要はなく、例えば、既存の語彙辞書に入っていない語、大文字で始まる語などを従来の形態素解析処理で抽出してもよい。203は英語用語抽出データ(記憶部)である。英語文字変換手段204は、英語用語抽出データ203の各語を、日本語の表現と比較しやすい表記に変換する。例えば、英語のスペルをローマ字読みのカタカナに変換する。あるいは、日本語語との発音類似性を考慮した独自の表記に変換する。

0008

表記照合手段121には、日本語用語抽出データ103に記憶された専門用語、固有名詞、新語などの候補のデータと、日本語文字変換手段104からの変換後のデータと、英語用語抽出手段202に記憶された専門用語、固有名詞、新語などの候補のデータ、英語文字変換手段204からの変換後のデータが、各々入力される。この表記照合手段121では、各日本語用語候補と各英語用語候補の表記を、発音上の類似性から照合を行うものである。入力データの違いにより、3種類の方法がある。

0009

第1の方法は、日本語文字変換手段104の出力である変換後の日本語用語候補と、英語文字変換手段204で変換する前の英語用語候補を照合する方法である。

0010

第2の方法は、日本語文字変換手段104で変換する前の日本語用語候補と、英語文字変換手段204の出力である変換後の英語用語候補を照合する方法である。

0011

第3の方法は、日本語文字変換手段104の出力である変換後の日本語用語候補と、英語文字変換手段204の出力である変換後の英語用語候補を照合する方法である。

図面の簡単な説明

0012

抽出用語出力手段122では、表記照合手段121において照合することが判断された、日本語用語と英語用語の対を出力するものである。なお、ここで言う「照合」とは、例えば、「Indonesian」に対する「インドシア」のように、英語の用語候補と日本語の用語候補の間で、発音の類似性が十分に高く、訳語として関係があると推測する処理のことです。日本語用語候補「インドネシア」と英語用語候補「Indonesian」の照合を例に上記3 種類の方法で詳しく説明する。
第1 の方法
照合対象= (変換後の日本語用語候補) vs (英語用語候補)
(1) 「インドネシア」を英語の表現と比較しやすい表記(ローマ字) に変換する
J-unit[1] : イ = e, i;
J-unit[2] : ン = m, mm, n, nn;
J-unit[3] : ド = d, do;
J-unit[4] : ネ = ne;
J-unit[5] : シ = ci, shi, si, sy;
J-unit[6] : ア = a, ar, e, er, o, or, u, ur;
(2) 「Indonesian」を照合単位に分割する
E-unit[1] : i;
E-unit[2] : n;
E-unit[3] : do;
E-unit[4] : ne;
E-unit[5] : si;
E-unit[6] : a;
E-unit[7] : n;
(3) (1) と(2) の対応を調べる (「 」内は一致したもの)
イ = e, 「i 」; -> 一致 (J-unit[1]:E-unit[1])
ン = m, mm, 「n 」, nn; -> 一致 (J-unit[2]:E-unit[2])
ド = d, 「do」; -> 一致 (J-unit[3]:E-unit[3])
ネ = 「ne」; -> 一致 (J-unit[4]:E-unit[4])
シ = ci, shi, 「si」, sy; -> 一致 (J-unit[5]:E-unit[5])

--

0013

図1本発明の実施例の構成を示すブロック図
図2表記照合手段の処理を示す流れ図
図3対訳辞書データの出力例

0014

101…日本語テキストデータ
102…日本語用語抽出手段
103…日本語用語抽出データ
104…日本語文字変換手段
201…英語テキストデータ
202…英語用語抽出手段
203…英語用語抽出データ
204…英語文字変換手段
121…表記照合手段
122…抽出用語出力手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ