図面 (/)

技術 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

出願人 富士ゼロックス株式会社
発明者 大熊智子増市博吉村宏樹杉原大悟
出願日 2003年9月18日 (16年1ヶ月経過) 出願番号 2003-326399
公開日 2005年4月7日 (14年6ヶ月経過) 公開番号 2005-092618
状態 特許登録済
技術分野 機械翻訳
主要キーワード 各処理フェーズ 引用箇所 認定結果 人間社会 出現場所 依存木 自動化処理 依存構造
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2005年4月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (14)

課題

文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文意味解析結果を出力する。

解決手段

構文・意味解析辞書に、引用符に関する情報として、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加し、文中での引用符の出現場所の情報を表す。解析結果の候補が複数ある場合、開き括弧に続く形態素と閉じ括弧が続く形態素間係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択する。

概要

背景

日本語英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類民族社会歴史とともに進化してきた。勿論、人は身振り手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。

他方、情報技術の発展に伴い、コンピュータ人間社会定着し、各種産業日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。

例えば、日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳対話システム検索システム質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーションサービスが実現される。

かかる自然言語処理は一般に、形態素解析構文解析意味解析文脈解析という各処理フェーズ区分される。

形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。

とりわけ、構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。

構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制様相、話法などを判定する処理を意味解析が含む場合もある。

ところで、文中で、他からの引用であることを示す符号として引用符が用いられることがしばしばある。また、引用符は、引用箇所を示す以外に、会話文、強調や解釈、また「いわゆる」などの意を表すのに用いられる。和文では「」や『』、欧文では“ ”、‘ ’などが引用符に相当し、語句を囲む。

ここで、引用符の使われ方は各自まちまちで、あまり規則性がない。このため、引用符を含む文の構文解析や意味解析は一般に困難とされている。

引用符を含む文の取り扱いとして、引用符を扱うための対応表ルールを用いて解析を試みている。例えば、文に含まれるカッコ部のカッコ外での役割を解析することができる翻訳装置について提案がなされている(例えば、特許文献1を参照のこと)。この場合、入力文のカッコ部を検出しカッコ内部及びカッコ外部を別々に翻訳し、カッコ外部処理に関してカッコ部の役割をカッコの種類により複数の種類に区別する。

しかしながら、引用符の使い方には個人差があるため、引用符のためのルールを個別に用意したとしても、うまく解析できない構文が存在する。

また、引用符で囲まれた部分を抜き出し、別の処理系で処理をした後、他の解析結果と統合する、という手法を提案しているが、これも上記と同じ理由から、解析のカバー率を低下させる恐れがある。

引用符は文の曖昧性解消の手がかりとして重要な情報である。例えば、下記の例文(1)に対して構文・意味解析を行うと、図12と図13にそれぞれ示されるような2つの解析結果の候補が出力され、曖昧性が生じる。

(1)その画家は赤い屋根を描いた。

これに対し、引用符を含む例文(2)に対しては図12の解釈を採用することができる。また、引用符を含む例文(3)に対しては図13の解釈を決定できる。

(2)その画家は「赤い塔」の屋根を描いた。
(3)その画家は赤い「塔の屋根」を描いた。

すなわち、引用符を無視してしまっては、このような曖昧性を解消することができない。

特開平7−200588号公報

概要

文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力する。 構文・意味解析辞書に、引用符に関する情報として、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加し、文中での引用符の出現場所の情報を表す。解析結果の候補が複数ある場合、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択する。

目的

本発明の目的は、自然言語文の構文・意味解析を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

引用符を含んだ自然言語文を解析する自然言語処理ステムであって、入力された自然言語文について形態素毎品詞認定結果を含んだ形態素解析結果を取得する手段と、前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加手段と、前記引用符情報を利用して入力された自然言語文の構文意味解析を行う構文・意味解析手段と、を具備することを特徴とする自然言語処理システム。

請求項2

前記引用符情報付加手段は、入力文各形態素を見出し語として文法カテゴリ記述されている構文・意味解析用辞書中に、引用符に隣接する見出し語に引用符に関する情報を付加する、ことを特徴とする請求項1に記載の自然言語処理システム。

請求項3

前記引用符情報付加手段は、前記構文・意味解析用辞書中に、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加する、ことを特徴とする請求項2に記載の自然言語処理システム。

請求項4

前記構文・意味解析手段は、入力文についての構文・意味解析結果の候補が複数ある場合には、開き括弧に続く形態素と閉じ括弧が続く形態素間係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択する、ことを特徴とする請求項3に記載の自然言語処理システム。

請求項5

前記構文・意味解析手段は、文中の単語やの構造を表した依存木上で、形態素間の係り受け関係の距離として形態素間のリンク数計数する、ことを特徴とする請求項4に記載の自然言語処理システム。

請求項6

前記構文・意味解析手段は、文中の単語や句の構造を表した依存木上で、形態素についての被修飾要素の数としてノード数を計数する、ことを特徴とする請求項4に記載の自然言語処理システム。

請求項7

前記構文・意味解析手段は、構文・意味解析の候補が複数存在する場合には、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を比較し、距離のより少ない方を選択する、ことを特徴とする請求項4に記載の自然言語処理システム。

請求項8

前記構文・意味解析手段は、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに各候補について開き括弧に続く形態素についての被修飾要素の数を比較し、該要素数のより少ない方の候補を選択する、ことを特徴とする請求項7に記載の自然言語処理システム。

請求項9

引用符を含んだ自然言語文を解析する自然言語処理方法であって、入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得するステップと、前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加ステップと、前記引用符情報を利用して入力された自然言語文の構文・意味解析を行う構文・意味解析ステップと、を具備することを特徴とする自然言語処理方法。

請求項10

前記引用符情報付加ステップでは、入力文の各形態素を見出し語として文法カテゴリが記述されている構文・意味解析用辞書中に、引用符に隣接する見出し語に引用符に関する情報を付加する、ことを特徴とする請求項9に記載の自然言語処理方法。

請求項11

前記引用符情報付加ステップでは、前記構文・意味解析用辞書中に、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加する、ことを特徴とする請求項10に記載の自然言語処理方法。

請求項12

前記構文・意味解析ステップでは、入力文についての構文・意味解析結果の候補が複数ある場合には、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択する、ことを特徴とする請求項11に記載の自然言語処理方法。

請求項13

前記構文・意味解析ステップでは、文中の単語や句の構造を表した依存木上で、形態素間の係り受け関係の距離として形態素間のリンク数を計数する、ことを特徴とする請求項12に記載の自然言語処理方法。

請求項14

前記構文・意味解析ステップでは、文中の単語や句の構造を表した依存木上で、形態素についての被修飾要素の数としてノード数を計数する、ことを特徴とする請求項12に記載の自然言語処理方法。

請求項15

前記構文・意味解析ステップでは、構文・意味解析の候補が複数存在する場合には、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を比較し、距離のより少ない方を選択する、ことを特徴とする請求項12に記載の自然言語処理方法。

請求項16

前記構文・意味解析ステップでは、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに各候補について開き括弧に続く形態素についての被修飾要素の数を比較し、該要素数のより少ない方の候補を選択する、ことを特徴とする請求項15に記載の自然言語処理方法。

請求項17

引用符を含んだ自然言語文を解析するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得するステップと、前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加ステップと、前記引用符情報を利用して入力された自然言語文の構文・意味解析を行う構文・意味解析ステップと、を具備することを特徴とするコンピュータ・プログラム。

技術分野

0001

本発明は、人間が日常的なコミュニケーションに使用する自然言語数学的に取り扱うための自然言語処理ステム及び自然言語処理方法、並びにコンピュータプログラム係り、特に、自然言語文の構文意味解析を行なう自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。

0002

さらに詳しくは、本発明は、引用符を含む自然言語文についての構文・意味解析結果を出力する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに係り、特に、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力する自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムに関する。

背景技術

0003

日本語英語など、人間が日常的なコミュニケーションに使用する言葉のことを「自然言語」と呼ぶ。多くの自然言語は、自然発生的な起源を持ち、人類民族社会歴史とともに進化してきた。勿論、人は身振り手振りなどによっても意思疎通を行なうことが可能であるが、自然言語により最も自然で且つ高度なコミュニケーションを実現することができる。

0004

他方、情報技術の発展に伴い、コンピュータが人間社会定着し、各種産業日常生活の中に深く浸透している。いまやコンピュータ・データだけでなく、画像や音響などほとんどすべての情報コンテンツがコンピュータ上で取り扱われ、情報の編集・加工、蓄積、管理、伝達、共有など高度な処理を行なうことが可能となっている。

0005

例えば、日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的で曖昧性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳対話システム検索システム質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーションサービスが実現される。

0006

かかる自然言語処理は一般に、形態素解析構文解析、意味解析、文脈解析という各処理フェーズ区分される。

0007

形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。

0008

とりわけ、構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。

0009

構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制様相、話法などを判定する処理を意味解析が含む場合もある。

0010

ところで、文中で、他からの引用であることを示す符号として引用符が用いられることがしばしばある。また、引用符は、引用箇所を示す以外に、会話文、強調や解釈、また「いわゆる」などの意を表すのに用いられる。和文では「」や『』、欧文では“ ”、‘ ’などが引用符に相当し、語句を囲む。

0011

ここで、引用符の使われ方は各自まちまちで、あまり規則性がない。このため、引用符を含む文の構文解析や意味解析は一般に困難とされている。

0012

引用符を含む文の取り扱いとして、引用符を扱うための対応表ルールを用いて解析を試みている。例えば、文に含まれるカッコ部のカッコ外での役割を解析することができる翻訳装置について提案がなされている(例えば、特許文献1を参照のこと)。この場合、入力文のカッコ部を検出しカッコ内部及びカッコ外部を別々に翻訳し、カッコ外部処理に関してカッコ部の役割をカッコの種類により複数の種類に区別する。

0013

しかしながら、引用符の使い方には個人差があるため、引用符のためのルールを個別に用意したとしても、うまく解析できない構文が存在する。

0014

また、引用符で囲まれた部分を抜き出し、別の処理系で処理をした後、他の解析結果と統合する、という手法を提案しているが、これも上記と同じ理由から、解析のカバー率を低下させる恐れがある。

0015

引用符は文の曖昧性解消の手がかりとして重要な情報である。例えば、下記の例文(1)に対して構文・意味解析を行うと、図12図13にそれぞれ示されるような2つの解析結果の候補が出力され、曖昧性が生じる。

0016

(1)その画家は赤い屋根を描いた。

0017

これに対し、引用符を含む例文(2)に対しては図12の解釈を採用することができる。また、引用符を含む例文(3)に対しては図13の解釈を決定できる。

0018

(2)その画家は「赤い塔」の屋根を描いた。
(3)その画家は赤い「塔の屋根」を描いた。

0019

すなわち、引用符を無視してしまっては、このような曖昧性を解消することができない。

0020

特開平7−200588号公報

発明が解決しようとする課題

0021

本発明の目的は、自然言語文の構文・意味解析を好適に行なうことができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

0022

本発明のさらなる目的は、引用符を含む自然言語文を好適に構文・意味解析することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

0023

本発明のさらなる目的は、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することにある。

課題を解決するための手段

0024

本発明は、上記課題を参酌してなされたものであり、その第1の側面は、特定の品詞からなる複数の語が連なって構成される複合語出現する自然言語文を解析する自然言語処理システムであって、
入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得する手段と、
前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加手段と、
前記引用符情報を利用して入力された自然言語文の構文・意味解析を行う構文・意味解析手段と、
具備することを特徴とする自然言語処理システムである。

0025

一般に、形態素解析結果に基づいて、入力文の各形態素を見出し語として文法カテゴリを記述した構文・意味解析用の辞書が一時的に生成される。本発明では、この構文・意味解析辞書中で、引用符に関する情報として、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加し、文中での引用符の出現場所の情報を表すようにしている。

0026

そして、入力文についての構文・意味解析結果の候補が複数ある場合には、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択するようにする。

0027

ここで、構文・意味解析結果として、文中の単語やの構造を表した依存木が出力される。形態素間の距離は、この依存木上では、形態素間のリンク数として計数することができる。また、被修飾要素の数は、依存木上でノード数として計数することができる。

0028

構文・意味解析結果が複数存在する場合には、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。

0029

そして、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに開き括弧に続く形態素についての被修飾要素の数すなわちノード数を参照し、ノード数のより少ない方の候補を選択する。

0030

したがって、本発明に係る自然言語処理システムによれば、引用符の前後に現れた形態素に引用符の存在を示す属性を付加することにより、既存の構文解析ルールにまったく影響を与えることなく、入力文に引用符の情報を含めることができる。また、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。

0031

また、本発明の第2の側面は、引用符を含んだ自然言語文を解析するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
入力された自然言語文について形態素毎の品詞の認定結果を含んだ形態素解析結果を取得するステップと、
前記形態素解析結果に基づいて、引用符に係る形態素を検出し、引用符に隣接する見出し語に引用符に関する情報を付加して、文中での引用符の出現場所の情報を表す引用符情報付加ステップと、
前記引用符情報を利用して入力された自然言語文の構文・意味解析を行う構文・意味解析ステップと、
を具備することを特徴とするコンピュータ・プログラムである。

0032

本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る自然言語処理システムと同様の作用効果を得ることができる。

発明の効果

0033

本発明によれば、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力することができる、優れた自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラムを提供することができる。

0034

本発明によれば、引用符の前後に現れた形態素に引用符の存在を示す属性を付加することにより、既存の構文解析ルールにまったく影響を与えることなく、入力文に引用符の情報を含めることができる。したがって、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。

0035

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

発明を実施するための最良の形態

0036

以下、図面を参照しながら本発明の実施形態について詳解する。

0037

本発明に係る自然言語処理システムは、文中の引用符を文の曖昧性解消の重要な手がかりとして利用してより高精度の構文・意味解析結果を出力することができる。

0038

ここで、構文・意味解析を行うための文法理論の代表的な例として、Lexical Functional Grammar(LFG)を挙げることができる。本発明は、例えばLFG文法理論に基づく統語・意味解析処理に組み込んで実装することができる。LFGでは、ネイティブスピーカ言語知識すなわち文法を、コンピュータ処理や、コンピュータの処理動作に影響を及ぼすその他の非文法的な処理パラメータとは切り離したコンポーネントとして構成している。

0039

まず、自然言語処理システムの全体像について簡単に説明する。図1には、LFGに基づく自然言語処理システム1の構成を模式的に示している。図示の自然言語処理システム1は、例えばパーソナル・コンピュータ(PC)などの一般的な計算機システム上で所定の自然言語処理アプリケーションを実行するという形態で実現される。

0040

形態素解析部2は、日本語など特定の言語に関する形態素ルール2Aと形態素辞書2Bを持ち、入力文を意味的最小単位である形態素に分節して品詞の認定処理を行なう。例えば、「私のは英語を話します。」という文が入力された場合、形態素解析結果として、「私{Noun}の{up}娘{Noun}は{up}英語{Noun}を{up}話す{Verb1}{tr}ます{jp}。{pt}」が出力される。

0041

このような形態素解析結果は、次いで、統語・意味解析部3に入力される。統語・意味解析部3は、文法ルール3Aや結合価辞書3Bなどの辞書を持ち、文法ルールなどに基づく句構造の解析や、文中の語の語義や語と語の間の意味関係などに基づいて文が伝える意味を表現する意味構造の解析を行なう(結合価辞書は動詞と主語などの文中の他の構成要素との関係を記述したものであり、述部とそれに係る語の意味関係を抽出することができる)。そして、構文解析した結果として、単語や形態素などからなる文章の句構造を木構造として表した“c−structure(constituent structure)”と、主語、目的語などの格構造に基づいて入力文を疑問文、過去形、丁寧文など意味的・機能的に解析した結果として“f−structure(functional structure)”を出力する。

0042

図2及び図3には、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structure及びf−structureをそれぞれ示している。

0043

c−structureは、文中の単語や句の構造を木構造形式で表したものであり、構文カテゴリによって定義される。例えば音素列を生成するための音韻学的な解釈を、c−structureを基に行なうことができる。一方、f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。f−structureは、c−structureの各節点付随する素性集合であり、図3に示すように属性−属性値マトリックスの形で表現される。すなわち、[]で囲まれた中の左側は素性(属性)の名前であり、右側は素性の値(属性値)である。

0044

なお、LFGの詳細に関しては、例えばR.M.Kaplan及びJ.Bresnan共著の論文“Lexical−Functional Grammar: A Formal System for Grammatical Representation”(TheMIT Press,Cambridge (1982). Reprinted in Formal Issues in Lexical−Functional Grammar,pp.29−130.CSLI publications,Stanford University(1995).)などに記述されている。

0045

次いで、本発明に係る自然言語処理において、引用符が出現したときの処理について詳解する。

0046

本発明では、引用符の前後に現れた形態素に引用符の存在を示す属性を付加することにより、既存の構文解析ルールにまったく影響を与えることなく、入力文に引用符の情報を含めることができる。したがって、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。

0047

一般に、形態素解析結果に基づいて、構文・意味解析(LFG)用の辞書が一時的に生成される。この構文・意味解析用辞書は、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されて、文法カテゴリが記述されている。本発明の一実施形態では、構文・意味解析辞書に、引用符に隣接する見出し語に引用符に関する情報を付加することで、文中での引用符の出現場所の情報を表すようにしている。引用符に関する情報として、開き括弧に続く形態素と、閉じ括弧が続く形態素に対して、それぞれ開き括弧並びに閉じ括弧に関する情報を付加する。

0048

そして、入力文についての構文・意味解析結果の候補が複数ある場合には、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離と、開き括弧に続く形態素についての被修飾要素の数に基づいて最適な候補を選択するようにする。

0049

LFGの構文・意味解析結果(f−structure)から構文の統語意味構造を表す依存木を得ることができる。形態素間の距離は、この依存木上では、形態素間のリンク数として計数することができる。また、被修飾要素の数は、依存木上でノード数として計数することができる。

0050

構文・意味解析結果が複数存在する場合には、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。

0051

係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに開き括弧に続く形態素についての被修飾要素の数すなわちノード数を参照し、ノード数のより少ない方の候補を選択する。

0052

このようにして、構文・意味解析結果の候補を制限することにより、引用符のための特別なルールや処理手段を加えるためのコストを増加させることなく、カバー率を維持することができる。さらに、この引用符の情報を利用して文の曖昧性を解消することができる。

0053

図4には、例文(2)を構文・意味解析するための入力情報を示している。この入力情報は、構文・意味解析用辞書に相当し、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されて、文法カテゴリが記述されている。同図に示すように、開き括弧の右側の形態素「赤い」には、開き括弧に続く形態素であることを示す属性OPEN−P=+を与えておく。また、閉じ括弧の左側の形態素「塔」には、閉じ括弧が続く形態素であることを示す属性CLOSE−P=+を与えておく。

0054

図5並びに図6には、図4に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果を依存木の形式で示している。ここでは、各図に示すように2個の候補が出力されたとする。

0055

構文・意味解析結果が複数存在する場合には、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。すなわち、図5並びに図6に示す各依存木上で、属性OPEN−P=+とCLOSE−P=+の間の距離lを計算する。図5における距離はリンク数が1なのでl=1、図6における距離はリンク数が2なので、l=2になる。したがって、図5に示す候補が解析結果として採用される。

0056

一方、複数の候補について係り受け関係の距離が同等な場合には、さらに、開き括弧に続く形態素についての被修飾要素の数、すなわち属性OPEN−Pを持つノードにぶらさがるノードの数で判断する。

0057

図7には、例文(3)を構文・意味解析するための入力情報を示している。この入力情報は、構文・意味解析用辞書に相当し、入力文の各形態素を見出し語とし、これら見出し語が文中の出現順に配列されて、文法カテゴリが記述されている。同図に示すように、開き括弧の右側の形態素「塔」には、開き括弧に続く形態素であることを示す属性OPEN−P=+を与えておく。また、閉じ括弧の左側の形態素「屋根」には、閉じ括弧が続く形態素であることを示す属性CLOSE−P=+を与えておく。

0058

図8並びに図9には、図7に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析結果を行った結果を依存木の形式で示している。ここでは、各図に示すように2個の候補が出力されたとする。

0059

この場合も構文・意味解析結果が複数存在するので、まず、開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。すなわち、図5並びに図6に示す各依存木上で、属性OPEN−P=+とCLOSE−P=+の間の距離を計算する。図8における距離はリンク数が1なのでl=1、図9における距離はリンク数が1なので、l=1になる。したがって、図8図9の距離は等しいので、この時点で候補を絞ることはできない。

0060

このように係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には、さらに開き括弧に続く形態素についての被修飾要素の数すなわちOPEN−Pを持つノードにぶらさがるノードの数を計数し、各候補で比較し、ノード数のより少ない方の候補を選択する。図8において、「塔」にぶらさがるノードの数は1である。これに対し、図8において「塔」にぶらさがるノードの数は0である。したがって、図9に示す候補が解析結果として採用される。

0061

このように、本発明によれば、引用符の位置情報を形態素に属性として持たせることによって、文法ルールに影響を与えることなく構文意味解析ができる。また、その位置情報を用いて、曖昧性を解消することができる。

0062

図10には、形態素解析結果に基づいて構文・意味解析用辞書に引用符の制約を付与するための処理手順フローチャートの形式で示している。

0063

まず、元の日本語原文を入力するとともに、別途行なわれる形態素解析処理から得られる形態素解析結果を取得する(ステップS1)。形態素解析では、入力文を意味的最小単位である形態素に分節して品詞の認定が行われる。

0064

次いで、変数iに1を代入し(ステップS2)、入力文中から、i番目エントリされている形態素を取り出す。そして、iが入力文に含まれる形態素数に到達するまでの間、ループ内では、入力文中で開き括弧に続く形態素並びに閉じ括弧が続く形態素を探索するための処理が行われる。

0065

ここで、i番目の形態素が開き括弧である場合には(ステップS3)、構文・意味解析用辞書で(i+1)番目の形態素に該当するエントリに、開き括弧に続く形態素であることを示す制約OPEN_P=+1を付与する(ステップS4)。

0066

一方、i番目の形態素が閉じ括弧である場合には(ステップS7)、構文・意味解析用辞書で(i−1)番目の形態素に該当するエントリに、閉じ括弧が続く形態素であることを示す制約CLOSE_P=+1を付与する(ステップS8)。

0067

次いで、処理済みのi番目の形態素を削除するとともに、iを1だけ増分して、入力文中の次の形態素を取り出して、上記と同様の処理を繰り返し実行する。

0068

また、図11には、引用符の制約に関する情報が付与された構文・意味解析用辞書を用いて、複数の構文・意味解析結果の候補から最適な候補を選択するための処理手順をフローチャートの形式で示している。

0069

形態素解析結果を基に入力文の構文・意味解析を行った結果(ステップS10)、複数の候補が存在する場合には(ステップS11)、まず、各候補について開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離を求め、距離の比較を行う(ステップS12)。形態素間の距離は、構文・意味解析により得られる依存木上で、形態素間のリンク数として計数することができる。

0070

開き括弧に続く形態素と閉じ括弧が続く形態素間の係り受け関係の距離すなわち当該形態素間のリンク数を参照し、リンク数のより少ない方を選択する。ここで、係り受け関係の距離に基づいて候補を限定しても、なお複数の候補が残っている場合には(ステップS13)、さらに、同じく最小距離となる各候補について開き括弧に続く形態素についての被修飾要素の数を求め、当該要素数を比較する(ステップS14)。被修飾要素の数は、依存木上でノード数として計数することができる。そして、ノード数のより少ない方の候補を選択する。

0071

追補
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正代用を成し得ることは自明である。

0072

本実施形態ではLFG文法理論に基づいて説明したが、勿論、他の文法ルールを備えた解析システムにおいても本発明を同様に適用することができる。

0073

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。

図面の簡単な説明

0074

図1は、LFGに基づく自然言語処理システム1の構成を模式的に示した図である。
図2は、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるc−structureを示した図である。
図3は、入力文「私の娘は英語を話します。」を統語・意味解析部1により処理した結果として得られるf−structureを示した図である。
図4は、例文(2)を構文・意味解析するための入力情報を示した図である。
図5は、図4に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。
図6は、図4に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。
図7は、例文(3)を構文・意味解析するための入力情報を示した図である。
図8は、図7に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。
図9は、図7に示したような引用符の出現情報を示す属性を含んだ構文・意味解析用辞書を用いて構文・意味解析を行った結果の例を示した図である。
図10は、形態素解析結果に基づいて構文・意味解析用辞書に引用符の制約を付与するための処理手順を示したフローチャートである。
図11は、引用符の制約に関する情報が付与された構文・意味解析用辞書を用いて、複数の構文・意味解析結果の候補から最適な候補を選択するための処理手順を示したフローチャートである。
図12は、例文(1)についての構文・意味解析結果の例を示した図である。
図13は、例文(1)についての構文・意味解析結果の他の例を示した図である。

符号の説明

0075

1…自然言語処理システム
2…形態素解析部
2A…形態素ルール,2B…形態素辞書
3…統語・意味解析部
3A…文法ルール,3B…結合価辞書

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ