図面 (/)

技術 単語関係判定装置及びプログラム

出願人 富士ゼロックス株式会社
発明者 増市博
出願日 2008年12月1日 (8年6ヶ月経過) 出願番号 2008-305972
公開日 2010年6月10日 (7年0ヶ月経過) 公開番号 2010-129025
状態 特許登録済
技術分野 機械翻訳 検索装置
主要キーワード 共通度 類否判定 出現比率 名詞群 上位下位 ベクトル間距離 名詞間 内積値

この技術の活用可能性のある市場・分野

関連する未来課題
重要な関連分野

この技術に関連する成長市場

関連メディア astavision

  • 人工知能

    米国Google社が2015年6月23日に発表した“A Neural Conversational …

  • 太陽光発電・太陽電池・人工光合成

    2015年4月30日、米国の電気自動車ベンチャーTesla Motors社や宇宙開発ベンチャーSpa…

  • 画像診断・生体イメージング

    医療の診断において、非侵襲的あるいは低侵襲的な検査方法として、生体組織を可視化するin vivoイメ…

後で読みたい技術情報を見つけたら、ブックマークしておきましょう!

ページの右上にあるブックマークボタンからこのページをブックマークできます。
あなたがブックマークした技術情報は、いつでもマイページのリストから閲覧することが出来ます。

以下の情報は公開日時点(2010年6月10日)のものです。

課題

動詞について上位下位関係性精度良く判定する。

解決手段

単語関係判定装置10は、第1の動詞と第2の動詞を判定対象として設定し、複数の文から第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得し、複数の文から第2の動詞に関して所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得し、複数の名詞を各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける第1の名詞群のばらつきと第2の名詞群のばらつきとの比較に基づいて、第1の動詞と第2の動詞とが上位下位の関係にあるか否かを判定する。

この項目の情報は公開日時点(2010年6月10日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

背景

図面をまとめてご覧になりたい場合はPDFをダウンロードしてください。

単語間概念意味)に基づく階層関係記述したシソーラスは、テキスト検索の際の入力キーワードの補充、拡張や、文書分類を行う際のキーワード正規化等で重要な役割を果たしており貴重言語情報である。

シソーラスは人的に作成されることが一般的であるが、シソーラスの構築には高い一貫性整合性要求され人的作業では処理負荷が大きく、シソーラスを機械的に構築するための技術が必要とされてきている。

そこで、下記の特許文献1に記載されているように、2つの単語のそれぞれの近傍に出現する単語の頻度に基づいて両単語の距離算出し、算出した距離に基づくクラスタリングを行って、シソーラスを機械的に構築する技術を提案しているものがある。
特開2000—231572号公報

概要

動詞について上位下位の関係性を精度良く判定する。単語関係判定装置10は、第1の動詞と第2の動詞を判定対象として設定し、複数の文から第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得し、複数の文から第2の動詞に関して所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得し、複数の名詞を各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける第1の名詞群のばらつきと第2の名詞群のばらつきとの比較に基づいて、第1の動詞と第2の動詞とが上位下位の関係にあるか否かを判定する。

目的

本発明の目的の一つは、動詞について上位下位の関係性を精度良く判定できる単語関係判定装置及びプログラムを提供することにある。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

ページトップへ

請求項

以下の情報は公開日時点(2010年6月10日)のものです。

請求項1

第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に関して所与条件合致する1又は複数の名詞を含む第1の名詞群取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする単語関係判定装置。

請求項2

前記判定手段は、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の概念にあると判定することを特徴とする請求項1に記載の単語関係判定装置。

請求項3

前記所与の条件は、複数の条件を含み、前記判定手段は、前記複数の条件のいずれかに基づいて取得された第1の名詞群のばらつきと第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の関係にあると判定することを特徴とする請求項2に記載の単語関係判定装置。

請求項4

前記所与の条件は、前記設定手段により対象に設定された動詞と係り受けの関係にある名詞という条件、前記対象に設定された動詞の近傍に出現する名詞という条件、前記対象に設定された動詞に因果関係を表す表現を介して係る文節に含まれる名詞という条件のうち少なくとも1つを含むことを特徴とする請求項1乃至3のいずれかに記載の単語関係判定装置。

請求項5

前記名詞シソーラスにおける名詞群のばらつきは、当該名詞群に含まれる名詞の各組の前記名詞シソーラスにおけるホップ数に基づいて算出されることを特徴とする請求項1乃至4のいずれかに記載の単語関係判定装置。

請求項6

前記第1及び第2の名詞群に基づいて前記第1の動詞と前記第2の動詞の類否を判定する類否判定手段をさらに含み、前記類否判定手段により類似と判定された場合に、前記判定手段により前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定することを特徴とする請求項1乃至5のいずれかに単語関係判定装置。

請求項7

前記類否判定手段は、前記第1及び第2の名詞群に含まれる各名詞を前記名詞シソーラスにおける予め定められた基準の概念に変換するとともに、当該変換した第1及び第2の名詞群に含まれる基準の概念の頻度に基づいて、前記第1の動詞と第2の動詞の類否を判定することを特徴とする請求項6に記載の単語関係判定装置。

請求項8

前記類否判定手段により類似と判定され、かつ、前記判定手段により上位下位の関係にないと判定された前記第1の動詞と前記第2の動詞は、同義語の関係にあると判定することを特徴とする請求項6又は7に記載の単語関係判定装置。

請求項9

第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする単語関係判定装置。

請求項10

第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とするプログラム。

請求項11

第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とするプログラム。

詳細

以下の情報は 公開日時点 (2010年6月10日)のものです。

技術分野

0001

本発明は、単語関係判定装置及びプログラムに関する。


背景技術

0002

単語間の概念(意味)に基づく階層関係を記述したシソーラスは、テキスト検索の際の入力キーワードの補充、拡張や、文書分類を行う際のキーワードの正規化等で重要な役割を果たしており貴重な言語情報である。

0003

シソーラスは人的に作成されることが一般的であるが、シソーラスの構築には高い一貫性、整合性が要求され人的作業では処理負荷が大きく、シソーラスを機械的に構築するための技術が必要とされてきている。

0004

そこで、下記の特許文献1に記載されているように、2つの単語のそれぞれの近傍に出現する単語の頻度に基づいて両単語の距離を算出し、算出した距離に基づくクラスタリングを行って、シソーラスを機械的に構築する技術を提案しているものがある。
特開2000—231572号公報


発明が解決しようとする課題

0005

動詞についてのシソーラスを構築する場合には、上位下位の関係にある動詞の近傍に出現する単語は極めて近い頻度分布を持つことが多く、動詞についての上位下位の判定を動詞の近傍に出現する単語の頻度分布に基づいて行うと精度良く判定できないことがある。

0006

本発明の目的の一つは、動詞について上位下位の関係性を精度良く判定できる単語関係判定装置及びプログラムを提供することにある。


課題を解決するための手段

0007

上記目的を達成するために、請求項1に記載の単語関係判定装置の発明は、第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする。

0008

また、請求項2に記載の発明は、請求項1に記載の単語関係判定装置において、前記判定手段は、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の概念にあると判定することを特徴とする。

0009

また、請求項3に記載の発明は、請求項2に記載の単語関係判定装置において、前記所与の条件は、複数の条件を含み、前記判定手段は、前記複数の条件のいずれかに基づいて取得された第1の名詞群のばらつきと第2の名詞群のばらつきとに予め定められた以上の差がある場合に、ばらつきの大きい方に関する動詞を上位、他方に関する動詞を下位の関係にあると判定することを特徴とする。

0010

また、請求項4に記載の発明は、請求項1乃至3のいずれかに記載の単語関係判定装置において、前記所与の条件は、前記設定手段により対象に設定された動詞と係り受けの関係にある名詞という条件、前記対象に設定された動詞の近傍に出現する名詞という条件、前記対象に設定された動詞に因果関係を表す表現を介して係る文節に含まれる名詞という条件のうち少なくとも1つを含むことを特徴とする。

0011

また、請求項5に記載の発明は、請求項1乃至4のいずれかに記載の単語関係判定装置において、前記名詞シソーラスにおける名詞群のばらつきは、当該名詞群に含まれる名詞の各組の前記名詞シソーラスにおけるホップ数に基づいて算出されることを特徴とする。

0012

また、請求項6に記載の発明は、請求項1乃至5のいずれかに単語関係判定装置において、前記第1及び第2の名詞群に基づいて前記第1の動詞と前記第2の動詞の類否を判定する類否判定手段をさらに含み、前記類否判定手段により類似と判定された場合に、前記判定手段により前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定することを特徴とする。

0013

また、請求項7に記載の発明は、請求項6に記載の単語関係判定装置において、前記類否判定手段は、前記第1及び第2の名詞群に含まれる各名詞を前記名詞シソーラスにおける予め定められた基準の概念に変換するとともに、当該変換した第1及び第2の名詞群に含まれる基準の概念の頻度に基づいて、前記第1の動詞と第2の動詞の類否を判定することを特徴とする。

0014

また、請求項8に記載の発明は、請求項6又は7に記載の単語関係判定装置において、前記類否判定手段により類似と判定され、かつ、前記判定手段により上位下位の関係にないと判定された前記第1の動詞と前記第2の動詞は、同義語の関係にあると判定することを特徴とする。

0015

また、請求項9に記載の単語関係判定装置の発明は、第1の動詞と第2の動詞を判定対象として設定する設定手段と、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得手段と、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得手段と、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定手段と、を含むことを特徴とする。

0016

また、請求項10に記載のプログラムの発明は、第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に関して所与の条件に合致する1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に関して前記所与の条件に合致する1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、複数の名詞を当該各名詞が有する概念の上位下位の関係に基づいて木構造に表した名詞シソーラスにおける前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とする。

0017

また、請求項11に記載のプログラムの発明は、第1の動詞と第2の動詞を判定対象として設定する設定ステップと、複数の文から前記第1の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第1の名詞群を取得する第1名詞群取得ステップと、前記複数の文から前記第2の動詞に因果関係を表す表現を介して係る文節に含まれる1又は複数の名詞を含む第2の名詞群を取得する第2名詞群取得ステップと、前記第1の名詞群のばらつきと前記第2の名詞群のばらつきとの比較に基づいて、前記第1の動詞と前記第2の動詞とが上位下位の関係にあるか否かを判定する判定ステップと、をコンピュータに実行させることを特徴とする。


発明の効果

0018

請求項1及び10に記載の発明によれば、第1の動詞と第2の動詞のそれぞれについて取得された名詞群の概念上での分布を用いて、各動詞の上位下位の判定を精度良く行える。

0019

請求項2に記載の発明によれば、概念上での分布が広い方を上位、他方を下位として判定できる。

0020

請求項3に記載の発明によれば、1つの条件では上位下位の判定ができない場合でも、他の条件により動詞間の上位下位の関係が判定できる。

0021

請求項4に記載の発明によれば、動詞と関連性の高い名詞群を取得できる。

0022

請求項5に記載の発明によれば、名詞間のばらつきを名詞シソーラスにおける客観的な距離に換算して算出できる。

0023

請求項6に記載の発明によれば、類似かつ抽出された名詞群の概念上の分布が異なる動詞を上位下位の関係にあると判定できる。

0024

請求項7に記載の発明によれば、動詞に関して得られた名詞群についての頻度分析を名詞の概念毎に行うことができる。

0025

請求項8に記載の発明によれば、同義語を判定できる。

0026

請求項9及び11に記載の発明によれば、動詞と因果関係性のある名詞群に基づいて、動詞間の上位下位の判定が行える。


発明を実施するための最良の形態

0027

以下、本発明を実施するための好適な実施の形態(以下、実施形態という)を、図面に従って説明する。

0028

図1には、本実施形態に係る単語関係判定装置10の機能ブロック図を示した。図1に示されるように、単語関係判定装置10は、テキストデータ格納部12、名詞シソーラス格納部14、判定対象動詞設定部16、係り受け名詞抽出部18、類否判定部20、第1判定部22、因果関係名詞抽出部24、及び第2判定部26を含む。上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは情報記憶媒体によってコンピュータたる単語関係判定装置10に供給されることとしてもよいし、インターネット等のデータ通信ネットワークを介して供給されることとしてもよい。

0029

テキストデータ格納部12は、磁気ディスク等の記憶装置を含み構成され、1又は複数の文を含む文書情報を1又は複数格納している。文書情報は、文字列データを含むデータファイルとして構成されることとしてよい。

0030

名詞シソーラス格納部14は、名詞を対象として構築された名詞シソーラスを格納するものであり、名詞シソーラスとは、名詞を上位下位の関係により階層化した木構造により表される情報である。図2には名詞シソーラスの一例を示す。

0031

図2に示されるように、名詞シソーラスは、ルートから順次、上位概念、その上位概念に対する下位概念という関係により接続された木構造であり、本実施形態においては、名詞シソーラスの一部の階層を基準概念として選択している。この基準概念は概念毎に個別に選択されてもよいし、ルートからの階層の深さにより選択されてもよい。基準概念を用いた処理の詳細については後述する。

0032

判定対象動詞設定部16は、互いの関係性を判定する対象となる1組の動詞を設定する。以下、判定対象動詞設定部16により設定される組の対を動詞A及び動詞Bとする。判定対象動詞設定部16は、利用者からの入力受け付けて判定対象の動詞を設定してもよいし、予め用意された動詞のリストの中から動詞の組を選択し、当該選択した動詞を判定対象に設定することとしてもよい。

0033

係り受け名詞抽出部18は、判定対象動詞設定部16により設定された組の動詞のそれぞれに対して係り受けの関係にある名詞を抽出する。係り受け名詞抽出部18は、判定対象動詞設定部16により設定された動詞(動詞A、動詞B)を含む文を、テキストデータ格納部12に格納されたテキストデータから検索し、検索された文に対して形態素解析構文解析を行った後に、上記設定された動詞に係る文節を特定する。そして、係り受け名詞抽出部18は、当該特定した文節のうち、文節の終わりが「が」、「を」、「で」、「に」のいずれかの格助詞である場合に、その格助詞の前の名詞を抽出する。係り受け名詞抽出部18は、上記抽出した名詞を格助詞の語毎に、当該名詞の出現頻度とともに記録する。係り受け名詞抽出部18は、動詞Aと動詞Bのそれぞれについて上記処理を行う。

0034

類否判定部20は、動詞Aと動詞Bとが類似であるか否かを判定する。ここでの類似とは、動詞Aと動詞Bとが類義語の関係にあることとする。本実施形態においては、類否判定部20は、判定対象の動詞(動詞A又は動詞B)について係り受け名詞抽出部18により抽出された名詞群に含まれる全ての名詞を、名詞シソーラス格納部14に格納された名詞シソーラスに基づいて、上位にある基準概念の語に変換する。例えば、図2に示された名詞シソーラスによれば、「ブルドック」という語は、上位に基準概念の「動物」があるので、「動物」に変換される。類否判定部20は、動詞Aと動詞Bのそれぞれについて得られた名詞群について上記基準概念のへの変換処理を行う。

0035

類否判定部20は、上記処理により基準概念の語に変換された名詞群(基準概念名詞群とする)に基づいて、動詞A、動詞Bのそれぞれについて、特徴ベクトル生成する。以下、本実施形態における特徴ベクトルの生成処理について説明する。

0036

まず、動詞Aにつき格助詞「が」、「を」、「で」、「に」についてそれぞれ抽出された基準概念名詞群をそれぞれGA1、GA2、GA3、GA4とする。ここで、GA1={wi|i=1〜n}、nはGA1に含まれる異なる単語の数とし、wiの出現頻度がNA1wiとすれば、出現比率RA1wiは、GA1の要素数をNA1とした場合に、RA1wi=NA1wi/NA1として算出される。そして、GA1について、特徴ベクトルGA1=(RA1w1,RA1w2,・・・,RA1wn)となる。また、GA2,GA3,GA4についても同様の処理に基づいて特徴ベクトルを生成する。そして、特徴ベクトルGA1,GA2,GA3,GA4を連結して動詞Aの特徴ベクトルRAをRA=(RA1w1,RA1w2,・・・,RA1wn,RA2w1,RA2w2,・・・,RA2wn,RA3w1,RA3w2,・・・,RA3wn,RA4w1,RA4w2,・・・,RA4wn)として生成する。動詞Bについても同様にして特徴ベクトルRBを生成する。RAとRBはそれぞれベクトルの長さを1に正規化し、以下特徴ベクトルRA,RBとは正規化後のベクトルであるとする。

0037

類否判定部20は、上記生成した動詞Aと動詞Bのそれぞれの特徴ベクトルRAと特徴ベクトルRBとの内積を算出し、算出された内積の大きさに基づいて動詞Aと動詞Bとの類否を判定する。具体的には、類否判定部20は、特徴ベクトルRAと特徴ベクトルRBの内積RA・RBが閾値T1(0<T1<1)よりも大きい場合には、動詞Aと動詞Bとが類似であると判定することとする。閾値T1は予め定めておくこととしてよい。

0038

第1判定部22は、判定対象に設定された動詞Aと動詞Bとが上位下位概念の関係にあるか否かを判定する。第1判定部22は、類否判定部20により判定対象とする動詞Aと動詞Bが類似と判定された場合に、上記の上位下位概念の判定をすることとする。そして、第1判定部22は、まず動詞A及び動詞Bについて係り受け名詞抽出部18により抽出されたそれぞれの名詞群の名詞シソーラス格納部14に格納された名詞シソーラス上での分布距離を算出し、当該算出された分布距離に基づいて動詞A及び動詞Bの上位下位の関係性を判定する。以下、本実施形態における第1判定部22の具体的な処理を説明する。

0039

まず、第1判定部22は、格助詞の「が」について抽出された集合GA1から1組の名詞を抽出し、その抽出された組の名詞の名詞シソーラス上での距離を取得する。本実施形態における名詞シソーラス上での距離とは、名詞シソーラス上で一方の名詞から他方の名詞に到達するまでのホップ数であるとする。ホップ数は、例えば1の名詞が他の名詞と直接のリンクで繋がっているとすると1、他の名詞を介して接続されていると2とする。具体的に図2に示した名詞シソーラスにおいては、「ブルドック」と「」はホップ数1、「ブルドック」と「」はホップ数が3となる。第1判定部22は、GA1に含まれる名詞の全ての組についてホップ数を取得し、そのホップ数の平均値をGA1に関する名詞シソーラス上での距離MA1とする。第1判定部22は、同様に他の集合GA2〜GA4についても名詞シソーラス上での距離MA2〜MA4を算出し、動詞Aの名詞シソーラス上での分布を示すベクトルMA=(MA1,MA2,MA3,MA4)を得る。第1判定部22は、動詞Bについても同様の処理を行い動詞Bの名詞シソーラス上での分布を示すベクトルMBを得る。

0040

次に、第1判定部22は、ベクトルMAとベクトルMBとのベクトル間距離‖MA−MB‖を算出し、この値が予め定められた閾値T2(T2>0)よりも大きい場合には、動詞Aと動詞Bとには上位下位の関係性があると判定し、そうでなかった場合には上位下位の関係性が不明であると判定する。上記基準により上位下位の関係性があると判定された場合には、ベクトルのノルムが大きい方が上位概念、小さい方が下位概念にあると判定する。これは、上位概念の語の方が下位概念の語に比べて広範に用いられ、分布に広がりがあると考えられるためである。

0041

因果関係名詞抽出部24は、第1判定部22により動詞Aと動詞Bとの上位下位の関係性が不明であると判定された場合に、動詞A又は動詞Bを含む文をテキストデータ格納部12から抽出すると共に、当該抽出された文のうち「〜ので」、「〜ために」、「〜という理由で」等の因果関係を表す表現が、動詞A又動詞Bよりも前にある文を検索する。そして、因果関係名詞抽出部24は、上記検索された文において、上記因果関係を表す表現よりも前に出現する文節に含まれる名詞を抽出して名詞群(因果関係名詞群)を得る。因果関係名詞抽出部24は、動詞Aそして動詞Bのそれぞれについて因果関係名詞群を抽出することとし、動詞Aについて抽出された因果関係名詞群の集合をHA、動詞Bについて抽出された因果関係名詞群の集合をHBとする。

0042

第2判定部26は、因果関係名詞抽出部24により各動詞について抽出される因果関係名詞群に基づいて、再度動詞Aと動詞Bとの上位下位の関係性を判定する。以下、第2判定部26により行われる判定の具体的な処理を説明する。

0043

第2判定部26は、動詞Aについて抽出された因果関係名詞群の集合HAの名詞シソーラス上での分布距離を算出する。第2判定部26は、HAに含まれる名詞の全ての組に対して名詞シソーラス上でのホップ数を取得し、当該取得したホップ数の平均値をHAの名詞シソーラス上での分布距離LAとして算出する。第2判定部26は、動詞Bについて抽出された因果関係名詞群の集合HBについても同様にしてHBの名詞シソーラス上での分布距離LBを算出する。そして、第2判定部26は、LAとLBとの差を求め、求められた差が予め定められた閾値T3(T3>0)よりも大きい場合には、動詞Aと動詞Bとに上位下位の関係性があると判定し、そうでなければ動詞Aと動詞Bとが同義語であると判定する。上記基準により上位下位の関係性があると判定された場合には、分布距離が大きい方が上位概念、小さい方が下位概念にあると判定する。

0044

単語関係判定装置10は、以上説明した類否判定部20、第1判定部22、第2判定部26の3つの判定結果に基づいて、判定対象の1組の動詞についての上位下位の関係性を判定する。単語関係判定装置10は、さらに他の動詞の組についても順次同様の判定処理を実行することにより、複数の動詞の上位下位の概念を得て動詞シソーラスが構築される。

0045

次に、図3に示したフローチャートを参照しながら、単語関係判定装置10による動詞の上位下位概念の判定処理の流れを説明する。

0046

図3に示されるように、単語関係判定装置10は、判定の対象とする動詞の組の入力を受け(S101)、格納されたテキストデータから受け付けた動詞の組の各々について係り受けの関係にある名詞群を抽出する(S102)。次に、単語関係判定装置10は、抽出した名詞群の各名詞を名詞シソーラスの基準概念に変換し(S103)、変換した基準概念の語に基づいて各動詞の特徴ベクトルを生成して判定の対象とする動詞の組の類似性を判定する(S104)。

0047

単語関係判定装置10は、動詞が類似すると判定する場合には(S104:Y)、さらに各動詞について抽出された名詞群の名詞シソーラスにおける分布距離を算出する(S105)。単語関係判定装置10は、算出した分布距離が閾値以上か否かを判定し(S106)、閾値以上と判定する場合には(S106:Y)、分布距離の広がりが大きい方を上位、他方を下位と判定する(S107)。また、単語関係判定装置10は、閾値未満と判定する場合には(S106:N)、判定対象の各動詞について因果関係を表す表現により関連する名詞からなる因果関係名詞群を抽出すると共に(S108)、抽出した因果関係名詞群の名詞シソーラスにおける分布距離が閾値以上か否かを判定する(S109)。ここで、閾値以上と判定される場合には(S109:Y)、分布距離の大きい方を上位、他方を下位と判定する(S107)。一方で、閾値未満と判定される場合には(S109:N)、動詞は同義語であると判定する(S110)。なお、S104において、類似でないと判定された場合には(S104:N)、動詞の組は上位下位の関係性にないと判定し(S111)、処理を終了する。

0048

次に、具体例として、(1)「許可する」と「読む」、(2)「許可する」と「認可する」、(3)「読む」と「熟読する」の3例についての単語関係判定装置10による判定例を示す。

0049

図4A乃至Dには、テキストデータから抽出された、各動詞について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した。図4A図4B図4C図4Dはそれぞれ「許可する」、「読む」、「認可する」、「熟読する」について抽出された名詞及び出現頻度を示している。

0050

また、図5A乃至Dには、各動詞について抽出された名詞を基準概念に変換した場合の各基準概念の語の頻度を、格助詞毎に表したテーブルを示す。図5A図5B図5C図5Dはそれぞれ「許可する」、「読む」、「認可する」、「熟読する」についてのテーブルを示している。

0051

まず、(1)「許可する」と「読む」の関係の判定について説明する。図5A図5Bに示されるように、「許可する」と「読む」とでは、「許可する」につき格助詞「が」に関して得られた基準概念の語句は「地域」、「集団」、「役割」等の出現頻度が高く、格助詞「を」については「操作」、「生産」等の出現頻度が高い。一方で、「読む」につき格助詞「が」に関して得られた基準概念の語句は、「人称」に出現頻度が集中し、また、格助詞「を」については「文具」に出現頻度が集中しており、「許可する」と「読む」とでは基準概念の語句についての頻度分布が大きくなる。従って、「許可する」と「読む」についての基準概念の語句の頻度分布に基づく特徴ベクトルの内積値は小さくなり、類似性無しと判定される。従って、「許可する」と「読む」については上位下位の判定は行われない。

0052

次に、(2)「許可する」と「認可する」の関係の判定について説明する。図5A図5Cに示されるように、両動詞ともに格助詞「が」に関して得られた基準語句は「地域」、「集団」、「役割」等の出現頻度が高く、また、格助詞「を」に関しては「操作」、「生産」等の出現頻度が高いという共通した傾向が見られる。従って、「許可する」と「認可する」についての基準概念の語句の頻度分布に基づく特徴ベクトルの内積値は大きくなり、類似性有りと判定される。

0053

そこで、第1判定部22は、「許可する」と「認可する」についての図4A図4Cに示される各名詞についての名詞シソーラスにおける平均距離を算出し、両者の上位下位の関係性を判定する。具体的には、「許可する」と「認可する」とでは、「認可する」が行政等に関して用いられる傾向があるのに対して、「許可する」はより広範に用いられており、両者の名詞シソーラスにおける平均距離は、「許可する」の方が「認可する」よりも大きくなる。従って、「許可する」と「認可する」とには上位下位の関係があり、「許可する」が上位、「認可する」が下位の関係があると判定される。

0054

次に、(3)「読む」と「熟読する」の関係の判定について説明する。図5B図5Dに示されるように、両者とも格助詞については同様の頻度分布を有しており、類否判定部20では両者に類似性があると判定される。そして、第1判定部22では、両者について抽出された名詞群の名詞シソーラスにおける平均距離についても両名詞群には分布に大きな差異がないため、算出される平均距離にも差が出ず、両者の上位下位の関係性については不明と判定される。

0055

そこで、因果関係名詞抽出部24では、「読む」と「熟読する」を含む文のうち「〜ので」、「〜ために」、「〜という理由で」等の因果関係表現を含む文を抽出し、抽出された文のうち因果関係表現よりも前に出現する名詞をさらに抽出する。例えば、「読む」については、「試験のために、参考書を読んだ」、「知識を得るために、本を読んだ」、「暇という理由で本を読んだ」という文が抽出されたとすると、こうして抽出された文から「試験」、「知識」、「暇」という因果関係名詞群が得られる。一方で、「熟読する」については、例えば「試験のために、参考書を熟読した」、「テストのために、教科書を熟読した」、「暗記が必要なので、本を熟読した」という文が抽出されたとすると、こうして抽出された文から「試験」、「テスト」、「暗記」という因果関係名詞群が得られる。第2判定部26は、各動詞についてそれぞれ得られた因果関係名詞群の名詞シソーラスにおける平均距離を算出し、上記の例では「熟読する」という行為の原因は「試験」、「テスト」等の一部の意味範疇の名詞に集中し、一方の「読む」については行為の原因は多岐に渡っているから、両因果関係名詞群の名詞シソーラスにおける平均距離は、「読む」の方が「熟読する」よりも大きくなる。従って、「読む」と「熟読する」は第2判定部26により「読む」が上位、「熟読する」が下位にあると判定される。

0056

本発明は、上記の実施形態に限定されるものではなく、例えば、類否判定部20により類似と判定された動詞の組に対して、第2判定部26による判定のみを行って上位下位の判定を行うこととしても構わない。また、類否判定部20、第1判定部22では、係り受け名詞抽出部18により抽出された判定対象の動詞と係り受けの関係にある名詞を用いて判定しているが、上記判定に用いる名詞は判定対象の動詞と文中で共起関係にある名詞を用いることとしても構わない。さらに、第1判定部22と第2判定部26においては、それぞれ係り受け名詞抽出部18と因果関係名詞抽出部24により抽出された名詞群について、要素共通度に基づいて上位下位の判定を行うとともに、両名詞群の包含関係に基づいてどちらが上位かを判定することとしてもよい。その他にも、動詞シソーラス中に存在しない動詞をテキストデータから検索するとともに、当該検索した動詞について動詞シソーラス中の各動詞との判定を行い、上位下位、同義語の判定が行われた場合に、当該検索した動詞を動詞シソーラスに追加することとしてもよい。


図面の簡単な説明

0057

本実施形態に係る単語関係判定装置の機能ブロック図である。
名詞シソーラスの一例を示す図である。
動詞の上位下位概念の判定処理のフローチャートである。
「許可する」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。
「読む」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。
「認可する」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。
「熟読する」について係り受け関係にある名詞及びその名詞の出現頻度の一例を示した図である。
「許可する」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。
「読む」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。
「認可する」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。
「熟読する」について各基準概念の語の頻度を、格助詞毎に表したテーブルを示す図である。


符号の説明

0058

10単語関係判定装置、12テキストデータ格納部、14名詞シソーラス格納部、16判定対象動詞設定部、18係り受け名詞抽出部、20類否判定部、22 第1判定部、24因果関係名詞抽出部、26 第2判定部。


ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する未来の課題

ページトップへ

おすすめの成長市場

関連メディア astavision

  • ロコモーティブ症候群・関節疾患

    加齢や過負荷のほか、スポーツ損傷や肥満によっても引き起こされる変形性関節症(OA:osteoarth…

  • IoT/M2M (InternetOfThings / MachinetoMachine)

    「Software-Defined Car(ソフトウェアで定義されるクルマ)」。そう呼ばれる米国Te…

  • 地下大空間・地下構造物

    周口店洞窟の北京原人、ラスコーやアルタミラの壁画洞窟に象徴されるように、人類は太古から地下空間を生活…

ページトップへ

新着 最近公開された関連が強い技術

この技術と関連性が強い技術

この技術と関連性が強い人物

関連性が強い人物一覧

この技術と関連する未来の課題

関連性が強い未来の課題一覧

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ