図面 (/)

技術 単語判定装置

出願人 株式会社NTTドコモ
発明者 落合桂一深澤佑介
出願日 2016年4月11日 (4年7ヶ月経過) 出願番号 2016-078722
公開日 2017年10月19日 (3年1ヶ月経過) 公開番号 2017-191357
状態 特許登録済
技術分野 検索装置
主要キーワード 拡張特徴 ジオタグ 近傍範囲 テキスト表記 集計対象期間 半径距離 代表位置 一テキスト
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年10月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供する。

解決手段

一実施形態の単語判定装置1は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得部11と、判定対象の単語を取得する単語取得部13と、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する類似度算出部14と、特定の場所に対応するエリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得部15と、類似度と投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを決定する判定部16と、を備える。

概要

背景

従来、twitter(登録商標)等のSNS(Social Networking Service)等に投稿される投稿テキストに含まれる地名表記と予め地名表記が記憶された地名辞書とのマッチングを行うことで、投稿テキスト内に記載されている場所を特定する技術が知られている。ところで、地名表記は、曖昧性を有する場合がある。例えば、同じ地名表記が複数の異なる場所の名称として使用される場合(同一名称の場所が複数存在する場合)がある。このような地名表記の例としては、京都市及び大阪市のそれぞれに存在する「清水」等が挙げられる。また、地名表記が、地名以外の意味で使用される場合もある。このような地名表記の例としては、地名だけでなく人名としても使用される「大山」、「島」等が挙げられる。

このような曖昧性を有する地名表記を含むテキストの曖昧性を解消する手法として、場所に関連付けられる特徴語を用いる手法が知られている(下記特許文献1参照)。この手法では、同一テキスト内に場所を示す地名表記と当該場所に関連付けられる特徴語とが両方含まれる場合に地名表記が当該場所を意味すると判定することにより、テキストの曖昧性を解消することができる。

概要

特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供する。一実施形態の単語判定装置1は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得部11と、判定対象の単語を取得する単語取得部13と、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する類似度算出部14と、特定の場所に対応するエリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得部15と、類似度と投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを決定する判定部16と、を備える。

目的

本発明は、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、判定対象の単語を取得する単語取得手段と、前記判定対象の単語が含まれるテキスト及び前記特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、前記学習の結果に基づいて前記判定対象の単語と前記特徴語との類似度を算出する類似度算出手段と、前記特定の場所に対応するエリアから投稿され、且つ、前記判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、前記類似度算出手段により算出された類似度と前記投稿数取得手段により取得された投稿数とに基づいて、前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する判定手段と、を備える単語判定装置

請求項2

前記類似度算出手段は、前記判定対象の単語及び前記特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を前記類似度として算出する、請求項1に記載の単語判定装置。

請求項3

前記判定手段は、前記類似度と予め定められた第1閾値とを比較し、前記投稿数と予め定められた第2閾値とを比較し、これらの比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、請求項1又は2に記載の単語判定装置。

請求項4

前記判定手段は、前記類似度及び前記投稿数から1つの評価値を生成し、前記評価値と予め定められた第3閾値とを比較し、その比較結果に基づいて前記判定対象の単語を前記特定の場所に関連付けるか否かを判定する、請求項1又は2に記載の単語判定装置。

請求項5

前記特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、前記テキストに前記特徴語又は前記判定手段により前記特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、前記テキストに前記特徴語又は前記拡張特徴語が含まれていると判定された場合に、前記地名表記が前記テキスト中で前記特定の場所を意味すると判定するテキスト判定手段を更に備える、請求項1〜4のいずれか一項に記載の単語判定装置。

技術分野

0001

本発明は、単語判定装置に関する。

背景技術

0002

従来、twitter(登録商標)等のSNS(Social Networking Service)等に投稿される投稿テキストに含まれる地名表記と予め地名表記が記憶された地名辞書とのマッチングを行うことで、投稿テキスト内に記載されている場所を特定する技術が知られている。ところで、地名表記は、曖昧性を有する場合がある。例えば、同じ地名表記が複数の異なる場所の名称として使用される場合(同一名称の場所が複数存在する場合)がある。このような地名表記の例としては、京都市及び大阪市のそれぞれに存在する「清水」等が挙げられる。また、地名表記が、地名以外の意味で使用される場合もある。このような地名表記の例としては、地名だけでなく人名としても使用される「大山」、「島」等が挙げられる。

0003

このような曖昧性を有する地名表記を含むテキストの曖昧性を解消する手法として、場所に関連付けられる特徴語を用いる手法が知られている(下記特許文献1参照)。この手法では、同一テキスト内に場所を示す地名表記と当該場所に関連付けられる特徴語とが両方含まれる場合に地名表記が当該場所を意味すると判定することにより、テキストの曖昧性を解消することができる。

先行技術

0004

特開2002−132791号公報

発明が解決しようとする課題

0005

ところで、上記の特徴語を用いた手法によって曖昧性を解消可能なテキスト数を増やすためには、曖昧性を有する地名表記が示す場所に関連付けられる特徴語の数をなるべく多くすることが効果的である。特徴語を追加する方法としては、地名表記がテキスト中で特定の場所を意味するものとして用いられている複数のテキストを収集し、収集された複数のテキストにおいて出現頻度が高い単語(いわゆる共起語等)を当該特定の場所に関連付けられる特徴語として追加する方法がある。

0006

しかしながら、この方法によって追加される特徴語は、実際に収集された複数のテキストにおいて地名表記と共に出現した単語に限定される。このため、特徴語の登録数を十分に確保できない場合がある。一方で、特定の場所との関連性があまり高くない単語を当該特定の場所に関連付けられる特徴語として追加してしまうと、上記の特徴語を用いた手法の判定精度が低下する虞がある。すなわち、地名表記が特定の場所を意味するものとして用いられていないテキストについて、地名表記が特定の場所を意味すると誤って判定してしまう虞がある。

0007

そこで、本発明は、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供することを目的とする。

課題を解決するための手段

0008

本発明の一形態に係る単語判定装置は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する特徴語取得手段と、判定対象の単語を取得する単語取得手段と、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する類似度算出手段と、特定の場所に対応するエリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を取得する投稿数取得手段と、類似度算出手段により算出された類似度と投稿数取得手段により取得された投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを判定する判定手段と、を備える。

0009

特定の場所に関連付けられる特徴語と類似する単語(例えば特徴語の類義語等)は、特徴語と同様に特定の場所に関連する単語である可能性が高いと考えられる。このため、上記単語判定装置によれば、判定対象の単語と特徴語との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。また、特定の場所に対応するエリア(例えば特定の場所の近傍のエリア)でよく使用される単語は、当該特定の場所の特徴を表している可能性が高いと考えられる。このため、上記単語判定装置によれば、特定の場所に対応するエリアから投稿された判定対象の単語が含まれる投稿テキストの数(投稿数)に基づいて、判定対象の単語が特定の場所の特徴を表している可能性を判断することができる。従って、上記単語判定装置では、類似度及び投稿数の両方に基づいて判定対象の単語を特定の場所に関連付けるか否かを決定することにより、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる。

0010

類似度算出手段は、判定対象の単語及び特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を上記類似度として算出してもよい。

0011

この構成によれば、判定対象の単語及び特徴語の各々をベクトルに変換することで、ベクトルを扱う公知の計算手法によって判定対象の単語と特徴語との類似度を簡易且つ確実に算出することができる。

0012

判定手段は、類似度と予め定められた第1閾値とを比較し、投稿数と予め定められた第2閾値とを比較し、これらの比較結果に基づいて判定対象の単語を特定の場所に関連付けるか否かを判定してもよい。

0013

この構成によれば、類似度及び投稿数と閾値(第1閾値及び第2閾値)との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、判定対象の単語が特定の場所に関連付けられるための要件を、類似度及び投稿数のそれぞれについて個別に設定することができる。

0014

判定手段は、類似度及び投稿数から1つの評価値を生成し、評価値と予め定められた第3閾値とを比較し、その比較結果に基づいて判定対象の単語を特定の場所に関連付けるか否かを判定してもよい。

0015

この構成によれば、類似度及び投稿数から生成された1つの評価値と閾値(第3閾値)との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、評価値を生成する際に、類似度及び投稿数のいずれを重視して判定するかを決定する重み付け等を行うことができる。

0016

上記単語判定装置は、特定の場所を意味する可能性がある地名表記が含まれるテキストを取得し、テキストに特徴語又は判定手段により特定の場所に関連付けると決定された単語である拡張特徴語が含まれているか否かを判定し、テキストに特徴語又は拡張特徴語が含まれていると判定された場合に、地名表記がテキスト中で特定の場所を意味すると判定するテキスト判定手段を更に備えてもよい。

0017

この構成では、予め用意されている特徴語が地名表記と共に含まれるテキストだけでなく、判定手段によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することが可能となる。これにより、曖昧性を解消可能なテキスト数を増加させることができる。

発明の効果

0018

本発明によれば、特定の場所に関連付けられる単語を、精度を担保しつつ増加させることができる単語判定装置を提供することができる。

図面の簡単な説明

0019

一実施形態に係る単語判定装置の機能構成を示すブロック図である。
単語判定装置のハードウェア構成を示すブロック図である。
特徴語記憶部に記憶される特徴語辞書データの一例を示す図である。
単語判定装置における単語の判定に関する動作手順の一例を示すフローチャートである。
単語判定装置におけるテキスト判定部の動作手順の一例を示すフローチャートである。

実施例

0020

以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。また、本明細書において、カギ括弧(「」)で囲まれた内容は、テキスト表記文字列)を表し、二重引用符(“”)で囲まれた内容は、概念としての場所を表している。

0021

図1は、本発明の一実施形態に係る単語判定装置1の機能構成を示すブロック図である。単語判定装置1は、特定の場所に関連付けられる特徴語を拡張する処理(すなわち、後述する拡張特徴語を追加する処理)を実行する機能を備える装置である。また、単語判定装置1は、特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための処理を実行する機能も備えている。

0022

特定の場所とは、地理的に特定される場所である。特定の場所の例としては、観光地繁華街施設(例えば、学校、寺社等)、山岳湖沼店舗等が挙げられる。ただし、特定の場所は、これらの例に限定されるものではなく、その場所を示す地名表記が存在し、且つ、特定の位置(例えば緯度及び経度)に関連付けられるものであればよい。

0023

特徴語とは、特定の場所に関連付けられる単語である。ここで、特定の場所に関連付けられる単語とは、例えば、特定の場所に関する何らかの情報を示す単語や、特定の場所を意味する地名表記と共によく用いられるといった性質を有する単語等である。特徴語は、曖昧性(多義性)を有する地名表記がテキスト中で地名(場所)を意味するか否かを判定するための手がかりとして用いられる。具体的には、同一テキスト内に地名表記と特定の場所に関連付けられる特徴語とが両方含まれる場合に、当該地名表記がテキスト中で当該特定の場所を意味すると判定される。

0024

地名表記とは、場所の名称を文字列で表現したものである。地名表記の中には、曖昧性を有する地名表記が存在する。曖昧性を有する地名表記の例としては、複数の異なる場所の名称として使用される地名表記がある。このような地名表記の具体例としては、京都市及び大阪市のそれぞれに存在する「清水寺」等が挙げられる。また、曖昧性を有する地名表記の他の例としては、地名以外の意味を有する地名表記(多義語)がある。このような地名表記の具体例としては、地名だけでなく人名としても使用される「大山」、「松島」等が挙げられる。

0025

上述した特徴語は、例えば以下の手順によって用意される。まず、地名表記(ここでは「松島」)がテキスト中で特定の場所(ここでは“松島”)を意味するものとして用いられている複数のテキストが収集される。その後、収集された複数のテキストにおいて出現頻度が予め定められた閾値以上の単語が、“松島”に関連付けられる特徴語として抽出される。このような手順により、例えば日本の県の観光地である“松島”に関連付けられる特徴語として、「花見」、「日本三景」及び「牡蠣」等の上記場所に関連する特徴を示す単語が抽出される。

0026

ここで、曖昧性を有する地名表記「松島」を含む3つのテキストa〜cを具体例に挙げて、特徴語を用いた判定手法について説明する。ここでは、上述した「花見」、「日本三景」及び「牡蠣」が“松島”に関連付けられる特徴語として予め用意されているものとする。
テキストa:「日本三景の一つである松島を観光した。」
テキストb:「松島で花見をした。」
テキストc:「松島の満開だ。」

0027

テキストaには、地名表記「松島」と共に“松島”に関連付けられる特徴語「日本三景」が含まれている。同様に、テキストbには、地名表記「松島」と共に“松島”に関連付けられる特徴語「花見」が含まれている。このため、上述した特徴語に基づく判定手法により、テキストa,bについては、地名表記「松島」が各テキスト中で特定の場所“松島”を意味すると判定される。これにより、テキストa,bに含まれる地名表記「松島」が“松島”を意味するか否かに関して、テキストa,bの曖昧性は解消される。

0028

一方、テキストcには、“松島”に関連付けられる特徴語が1つも含まれていない。このため、上述した特徴語に基づく判定手法では、テキストcに含まれる地名表記「松島」が“松島”を意味すると判定することができない。その結果、テキストcに含まれる地名表記「松島」が“松島”を意味するか否かに関して、テキストcの曖昧性は解消されない。

0029

上述した特徴語に基づく判定によって曖昧性を解消可能なテキスト数をなるべく多くするためには、なるべく多くの特徴語を予め用意しておくことが好ましい。単語判定装置1は、このような課題を踏まえて、例えば上述した手順によって用意される特徴語を基にして、新たな特徴語(以下「拡張特徴語」)を増加させる。以下、単語判定装置1の各機能について詳述する。

0030

図1に示すように、単語判定装置1は、特徴語取得部11(特徴語取得手段)と、特徴語記憶部12と、単語取得部13(単語取得手段)と、類似度算出部14(類似度算出手段)と、投稿数取得部15(投稿数取得手段)と、判定部16(判定手段)と、テキスト判定部17(テキスト判定手段)と、を備えている。

0031

また、図2に示すように、単語判定装置1は、物理的には、1又は複数のCPU101と、主記憶装置であるRAM102及びROM103と、入力デバイスであるキーボード及びマウス等の入力装置104と、ディスプレイ等の出力装置105と、ネットワークカード等のデータ送受信デバイスである通信モジュール106と、HDDSSD、及び半導体メモリ等の補助記憶装置107と、を含むコンピュータとして構成されている。なお、単語判定装置1は、単一の装置として構成されてもよいし、2以上の装置によって機能を分散した構成とされてもよい。

0032

図1に示す単語判定装置1の各機能は、図2に示すCPU101及びRAM102等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、及び通信モジュール106を動作させると共に、RAM102及び補助記憶装置107等におけるデータの読み出し及び書き込みを行うことで実現される。

0033

特徴語取得部11は、予め定められた特定の場所に関連付けられる単語である特徴語を取得する手段である。本実施形態では一例として、特定の場所は上述した“松島”であり、特徴語取得部11は、“松島”に関連付けられる特徴語を取得するものとする。なお、処理対象となる特定の場所は、例えばオペレータ等によって入力されてもよい。

0034

特徴語取得部11は、例えば、特徴語記憶部12を参照することにより、特徴語を取得する。ここで、特徴語記憶部12は、特定の場所毎に特徴語及び拡張特徴語を関連付けて記憶する手段である。具体的には、特徴語取得部11は、特徴語記憶部12において“松島”に関連付けて記憶されている特徴語を取得する。

0035

図3は、特徴語記憶部12に記憶されている情報(特徴語辞書データ)の一例を示す。図3の(a)は初期状態における特徴語辞書データを示しており、図3の(b)は後述する判定部16によって拡張特徴語として決定された「桜」が追加された後の特徴語辞書データを示している。図3の例では、特徴語辞書データは、場所、特徴語、及び拡張特徴語が互いに関連付けられた情報として構成されている。この例では、場所を特定するためのデータとして、場所の名称を示す「松島」と共に当該場所の緯度x1及び経度y1が記憶されている。なお、図3の例では特徴語と後述する判定部16によって決定される拡張特徴語とが同一の場所(特徴語記憶部12)に記憶されるが、特徴語及び拡張特徴語は別々の記憶手段(例えば異なるファイル及びデータベース等)に分離されて記憶されてもよい。また、特徴語と拡張特徴語とは、互いに区別されずに記憶されてもよい。

0036

特徴語記憶部12に記憶されている特徴語は、例えば、予め上述した手順を実行することによって得られた特徴語である。すなわち、地名表記「松島」がテキスト中で特定の場所“松島”を意味するものとして用いられている複数のテキストが収集され、当該複数のテキストにおいて出現頻度が予め定められた閾値以上の単語が、“松島”に関連付けられる特徴語(ここでは一例として、「花見」、「日本三景」、及び「牡蠣」)として記憶されている。この例では、特徴語取得部11は、“松島”に関連付けられる3つの特徴語「花見」、「日本三景」、及び「牡蠣」を特徴語記憶部12から取得することになる。

0037

単語取得部13は、判定対象の単語を取得する手段である。単語取得部13によって取得された単語について、後述する類似度算出部14、投稿数取得部15、及び判定部16の処理が実行されることにより、当該単語を“松島”に関連付けるか否か(すなわち、当該単語を“松島”の拡張特徴語とするか否か)が決定される。

0038

本実施形態では一例として、単語取得部13は、予め定められた期間(例えば現時点から1週間以内の期間等)に上述したSNSにおいて不特定多数のユーザによって投稿された複数の投稿テキストに含まれる各単語(例えば形態素解析により得られる各単語)を、判定対象の単語として取得する。ただし、単語取得部13が判定対象の単語を取得する方法はこれに限定されず、例えば、単語取得部13は、有償又は無償で公開されている辞書データベース等に登録されている単語を判定対象の単語として取得してもよい。

0039

類似度算出部14は、単語取得部13により取得された判定対象の単語と特徴語取得部11により取得された特徴語との類似度を算出する手段である。具体的には、類似度算出部14は、判定対象の単語が含まれるテキスト及び特徴語が含まれるテキストを少なくとも含む複数のテキストを学習データとして用いた学習を実行し、当該学習の結果に基づいて判定対象の単語と特徴語との類似度を算出する。類似度算出部14は、例えば、上述した単語取得部13によって取得された投稿テキストを学習データとして用いることができる。これにより、類似度算出部14は、判定対象の各単語を含むテキストが含まれる学習データを容易に取得できる。

0040

類似度算出部14は、例えば、参考文献(Tomas Mikolov, Wen-tau Yih, and Geoffrey Zweig. LinguisticRegularities in Continuous Space Word Representations. In Proceedings of NAACLHLT, 2013.)に示されるWord2Vec等による学習を実行することで、単語取得部13により取得された判定対象の各単語及び特徴語をベクトルに変換する。なお、Word2Vecは、単語をベクトル化して表現する自然言語処理の手法の一つである。Word2Vecでは、単語の共起関係に基づいて、互いに意味が近い単語同士が似たベクトルになるような計算が実行される。具体的には、ある単語の前後に出現する単語が似ていればベクトルの数値が近くなるような計算が実行される。このようにして変換されるベクトルは、例えば200次元程度のベクトルであり、変換されたベクトル同士の類似度(後述するコサイン類似度)は、元の単語が持つ意味(似た文脈で用いられる程度等)同士が近い程大きくなるという性質を有する。

0041

ここで、一の判定対象の単語をベクトル化することで得られたベクトルをqとし、特徴語をベクトル化することで得られたベクトルをdとすると、類似度算出部14は、下記式(1)により、当該ベクトル同士のコサイン類似度を算出することができる。下記式(1)において、|V|はベクトルd,qの次元数であり、di,qiはそれぞれベクトルd,qのi番目の要素を示している。

0042

上記式(1)で算出されるコサイン類似度は、−1から1の範囲をとり、1に近い程互いに類似していることを示す。このように算出された類似度(コサイン類似度)が大きい(1に近い)程、判定対象の単語と特徴語とは、互いに意味的に類似する程度が大きく、互いに類義語である可能性が高いという関係が成り立つ。類似度算出部14は、上記式(1)の計算処理を判定対象の各単語と特徴語との組について実行することにより、判定対象の各単語と特徴語とのコサイン類似度を算出する。類似度算出部14により算出された各単語と特徴語とのコサイン類似度は、後述する判定部16に出力される。

0043

投稿数取得部15は、予め定められた期間(以下「特定期間」)内に特定の場所(ここでは“松島”)に対応するエリア(以下「特定エリア」)から投稿され、且つ、判定対象の単語が含まれる投稿テキストの数を示す投稿数を判定対象の単語毎に取得する手段である。

0044

ここで、特定期間は、オペレータ等によって定められる集計対象期間であり、例えば投稿数の集計処理を開始する時点から1週間以内の期間等である。特定エリアは、特定の場所に関連付けられる地理的な範囲である。特定エリアとして定義される範囲については、オペレータ等によって任意に定められてよい。例えば、特定の場所が公園動物園等の施設の場合、当該施設の敷地が特定エリアとして定められてもよいし、当該敷地だけでなく当該敷地から予め定めた距離以内の近傍範囲も含むエリアが特定エリアとして定められてもよい。また、例えば特定の場所について予め定められた代表位置(例えば緯度及び経度)から予め定められた半径距離内のエリアが、特定エリアとして定められてもよい。投稿テキストは、例えば上述したSNS等において不特定多数のユーザによって投稿されたテキストである。

0045

以下、投稿数取得部15が上述した投稿数を取得する処理の一例について説明する。投稿数取得部15は、例えばSNSが公開しているAPIを介して、当該SNSに投稿された投稿テキストを取得する。この際、投稿数取得部15は、ジオタグを含む投稿テキストを収集する。ここで、ジオタグは、投稿テキストに付加された位置情報であり、例えば当該投稿テキストが投稿された場所の緯度及び経度を示す情報である。なお、このようなSNSの投稿テキストには、通常、ユーザによって投稿された日時を示す投稿日時の情報も付加されている。そこで、投稿数取得部15は、ジオタグ及び投稿日時に関するフィルタ条件検索条件)を設定し、上述したAPIを介して当該フィルタ条件に合致する投稿テキストを抽出する。具体的には、投稿数取得部15は、ジオタグが示す位置(緯度及び経度)が特定エリアに含まれると共に投稿日時が特定期間に含まれることを上記フィルタ条件として設定して検索することで、特定期間内に特定エリアから投稿された投稿テキストを収集する。続いて、投稿数取得部15は、このようにして収集された投稿テキストのうちから、判定対象の単語が含まれる投稿テキストを抽出し、抽出された投稿テキストの数を集計する。このようにして、投稿数取得部15は、上述した投稿数を取得することができる。

0046

なお、投稿数取得部15が投稿数を取得する処理は、単語取得部13によって取得された単語の各々について実行される必要があるが、特定期間内に特定エリアから投稿された投稿テキストを収集する処理については、最初の1回だけ実行されればよい。また、例えば所定の文字列を入力して当該文字列が含まれる投稿テキストの数を出力する機能が上記APIの機能として実装されている場合等には、投稿数取得部15は、上記フィルタ条件として、判定対象の単語の文字列を更に指定することで、上述した投稿数をAPIから直接取得してもよい。

0047

判定部16は、類似度算出部14により算出された類似度と投稿数取得部15により取得された投稿数とに基づいて、判定対象の単語を特定の場所に関連付けるか否かを判定する手段である。判定部16は、判定対象の単語を特定の場所に関連付けると判定した場合、当該単語を特定の場所に新たに関連付けられる拡張特徴語として追加する。具体的には、判定部16は、拡張特徴語を特徴語記憶部12に記憶させる。

0048

以下、判定部16の判定処理の第1の例及び第2の例について説明する。ここでは一例として、判定部16は、判定対象の単語「桜」を特定の場所“松島”に関連付けるか否か、すなわち単語「桜」を“松島”に関連付けられる拡張特徴語として追加するか否かを決定するものとして説明する。なお、以下の説明において、A及びBは、単語「桜」についての類似度及び投稿数を示す。

0049

(第1の例)
判定部16は、類似度Aと予め定められた閾値d1(第1閾値)とを比較するとともに投稿数Bと予め定められた閾値d2(第2閾値)とを比較し、これらの比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。具体的には、判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上であるか否かを判定する。ここで、閾値d1,d2は、例えばオペレータによって設定される。判定部16は、類似度Aが閾値d1以上であり且つ投稿数Bが閾値d2以上である場合(「A≧d1且つB≧d2」が成立する場合)、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。

0050

第1の例では、類似度A及び投稿数Bと閾値d1,d2との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、判定対象の単語が特定の場所に関連付けられるための要件(すなわち、閾値d1,d2)を、類似度A及び投稿数Bのそれぞれについて個別に設定することができる。例えば閾値d1,d2の両方を比較的大きい値に設定することで、類似度に基づく判定及び投稿数に基づく判定の両方の判定基準を厳しくすることができる。これにより、判定部16によって追加される拡張特徴語の精度を高くすることができる。

0051

(第2の例)
判定部16は、類似度A及び投稿数Bから1つの評価値を生成し、当該評価値と予め定められた閾値d3(第3閾値)とを比較し、その比較結果に基づいて判定対象の単語「桜」を特定の場所“松島”に関連付けるか否かを判定する。一例として、判定部16は、下記式(2)の左辺を評価として生成し、当該評価値が閾値d3以上であるか否かを判定する。ここで、tは0から1までの間で任意に決定されるパラメータである。パラメータt及び閾値d3は、例えばオペレータによって設定される。判定部16は、評価値が閾値d3以上である場合、判定対象の単語「桜」を“松島”に関連付けると決定し、当該単語「桜」を“松島”の拡張特徴語として特徴語記憶部12に記憶させる。
A×t+B×(1−t)≧d3 …(2)

0052

第2の例では、類似度A及び投稿数Bから生成された1つの評価値(例えば、上記式(2)の左辺の値)と閾値d3との比較演算に基づいて、判定対象の単語を特定の場所に関連付けるか否かを簡易に判定することができる。また、この場合、評価値を生成する際に、類似度A及び投稿数Bのいずれを重視して判定するかを、パラメータtによって調整することができる。例えば、パラメータtを0.5より大きくした場合には、投稿数Bよりも類似度Aが重視されることになる。その結果、投稿数Bが比較的少なくても、類似度Aが比較的大きければ、上記式(2)が成立し易くなる。このように、第2の例によれば、類似度及び投稿数を重視するバランスをオペレータの好み等によって任意に定めることができる。また、上記例において、パラメータtを1に近付けた場合、特徴語の類義語である単語が投稿数の大小にかかわらず拡張特徴語として追加され易くなる。これにより、投稿数に基づく判定基準が緩和され、拡張特徴語として追加される単語の個数を増加させることが期待できる。

0053

以下、上述した判定部16の処理によって拡張特徴語が適切に追加される理由について説明する。特定の場所に関連付けられる特徴語と類似する単語(例えば特徴語の類義語等)は、特徴語と同様に特定の場所に関連する単語である可能性が高いと考えられる。例えば上記例でいえば、“松島”に関連付けられる特徴語「花見」と類似する(すなわち意味的な関連性のある)単語「桜」は、特徴語「花見」と同様に“松島”に関連する単語である可能性が高いと考えられる。このため、上述した判定部16の処理によれば、判定対象の単語「桜」と特徴語「花見」との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。具体的には、特徴語との類似度が大きい単語ほど、特定の場所に関連する可能性が高いと判断することができる。従って、第1の例又は第2の例のように、類似度Aが大きい単語ほど拡張特徴語として追加され易くすることにより、拡張特徴語の精度を担保することができる。

0054

また、特定エリア(例えば、特定の場所の近傍のエリア)でよく使用される単語は、当該特定の場所の特徴を表している可能性が高いと考えられる。このため、上述した判定部16の処理によれば、特定エリアから投稿された判定対象の単語が含まれる投稿テキストの数(投稿数)に基づいて、判定対象の単語が特定の場所の特徴に関連する可能性を判断することができる。具体的には、投稿数が多い単語ほど、特定の場所の特徴に関連する可能性が高いと判断することができる。従って、第1の例及び第2の例のように、投稿数Bが多い単語ほど拡張特徴語として追加され易くすることにより、拡張特徴語の精度を担保することができる。

0055

テキスト判定部17は、特徴語記憶部12に記憶された特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記(すなわち、特定の場所を意味する可能性がある地名表記)を含むテキストの曖昧性を解消するための処理を実行する手段である。ここでは、図3の(b)に示すように、判定部16の処理によって、単語「桜」が“松島”に関連付けられる拡張特徴語として特徴語記憶部12に記憶されているものとして、テキスト判定部17の処理について説明する。

0056

テキスト判定部17は、まず、特定の場所(ここでは“松島”)を示す地名表記(ここでは「松島」)が含まれるテキストを判定対象テキストとして取得する。テキスト判定部17に対する判定対象テキストの入力方法は特に限定されないが、判定対象テキストは、例えばオペレータ等によって入力される。また、例えばSNS等において不特定多数のユーザによってリアルタイムに投稿される投稿テキストが、自動的に判定対象テキストとしてテキスト判定部17に入力されてもよい。

0057

続いて、テキスト判定部17は、特徴語記憶部12において“松島”に関連付けて記憶されている特徴語(ここでは「花見」、「日本三景」、又は「牡蠣」)が判定対象テキストに含まれているか否かを判定する。例えば、テキスト判定部17は、判定対象テキストを形態素解析することで、判定対象テキストを複数の形態素に分割する。そして、テキスト判定部17は、複数の形態素のいずれかが上記特徴語のいずれかに一致するか否かを判定する。そして、テキスト判定部17は、複数の形態素のいずれかが上記特徴語のいずれかに一致した場合、判定対象テキストに特徴語が含まれていると判定する。テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定された場合、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する。なお、ここまでの処理は、従来の特徴語を用いた判定処理と同様である。

0058

一方、テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定されなかった場合、特徴語記憶部12において“松島”に関連付けて記憶されている拡張特徴語(ここでは「桜」)が判定対象テキストに含まれているか否かを判定する。この判定は、特徴語が判定対象テキストに含まれているか否かの上述の判定と同様に行うことができる。テキスト判定部17は、判定対象テキストに拡張特徴語が含まれていると判定された場合には、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する。一方、テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定されなかった場合、判定対象テキストの曖昧性を解消できなかった旨の判定結果を出力する。

0059

以上のように、テキスト判定部17は、予め用意された特徴語が地名表記と共に含まれるテキストだけでなく、判定部16によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することができる。これにより、例えば特徴語のみを用いた判定では曖昧性を解消することができなかった上述のテキストc「松島の桜が満開だ。」についても、拡張特徴語「桜」を用いた判定により、曖昧性を解消することが可能となる。このように判定部16によって追加された拡張特徴語を特徴語と同様に用いることで、曖昧性を解消可能なテキスト数を増加させることができる。

0060

図4を用いて、単語判定装置1における単語の判定に関する動作手順について説明する。図4は、判定部16が上述した第1の例の判定処理を実行する場合の動作手順の一例を示すフローチャートである。

0061

まず、特徴語取得部11は、特徴語記憶部12を参照し、特定の場所(ここでは“松島”)に関連付けられる特徴語(ここでは「花見」、「日本三景」、及び「牡蠣」)を取得する(ステップS1)。また、単語取得部13は、一例としてN個の単語k(k=1,・・・,N)を判定対象の単語として取得する(ステップS2)。続いて、単語判定装置1において、処理対象となる特徴語が決定される。ここでは一例として、特徴語として「花見」が選択されるものとする(ステップS3)。

0062

続いて、類似度算出部14は、特徴語「花見」と判定対象の各単語kとの類似度Akを算出する(ステップS4)。類似度算出部14は、例えば上述したWord2Vec等の手法を用いることにより、判定対象の各単語k及び特徴語「花見」の各々をベクトルに変換する。そして、類似度算出部14は、上記式(1)により、各単語kが変換されたベクトルと特徴語「花見」が変換されたベクトルとのコサイン類似度を類似度Akとして算出する。

0063

続いて、投稿数取得部15は、特定期間内に特定の場所“松島”に対応するエリアから投稿され、且つ、判定対象の各単語kが含まれる投稿テキストの数(投稿数Bk)を取得する(ステップS5)。続いて、判定部16は、判定対象の各単語kについて、“松島”の拡張特徴語とするか否かを判定する(ステップS6〜S9)。

0064

具体的には、判定部16は、判定対象の単語を1つ選択し(ステップS6)、選択された単語kについて、類似度Akが閾値d1以上であり且つ投稿数Bkが閾値d2以上であるという条件を満たすか否かを判定する(ステップS7)。類似度Ak及び投稿数Bkが上記条件を満たすと判定された場合(ステップS7;YES)、判定部16は、判定対象の単語kを特定の場所“松島”に関連付けると決定する。すなわち、判定部16は、判定対象の単語kを“松島”に関連付けられる拡張特徴語として決定し、特徴語記憶部12に記憶させる(ステップS8)。このように追加された拡張特徴語は、上述したテキスト判定部17の判定処理に利用される。

0065

一方、類似度Ak及び投稿数Bkが上記条件を満たすと判定されなかった場合(ステップS7:NO)、判定対象の単語kは、拡張特徴語として追加されない(すなわち、ステップS8が実行されない)。

0066

上記ステップS6〜S8の処理は、ステップS2で取得された全ての判定対象の単語kについて実行されるまで繰り返される(ステップS9:YES)。全ての判定対象の単語についてステップS6〜S8の処理が実行されて未判定の単語がなくなり(ステップS9:NO)、且つ、ステップS1で取得された特徴語のうち未判定の特徴語がある場合(ステップS10:YES)、未判定の特徴語について上記ステップS3〜S9の処理が実行される。なお、ある特徴語との組み合わせについてステップS8において拡張特徴語として決定された判定対象の単語は、他の特徴語との組み合わせについて判定される必要がない。従って、ステップS8で拡張特徴語として決定された単語は、その時点で判定対象の単語から除外されてもよい。

0067

なお、上記各ステップの処理は、可能な範囲で実行順序入れ替えられたり、並行して実行されたり、分割されたりしてもよい。例えば、ステップS7の判定は、類似度Akが閾値d1以上であるか否かの判定と、投稿数Bkが閾値d2以上であるか否かの判定とに分割されてもよい。また、この場合、ステップS5の投稿数Bkの取得の処理は、投稿数Bkに基づく判定が必要な場合(すなわち類似度Akが閾値d1以上であると判定された場合)にのみ実行されるように、処理順序が入れ替えられてもよい。なお、判定部16が第1の例の判定処理の代わりに第2の例の判定処理を実行する場合、ステップS7の判定は、上記式(2)を満たすか否かの判定に置き換えられる。

0068

図5を用いて、テキスト判定部17の動作手順の一例について説明する。テキスト判定部17は、まず、特定の場所(例えば“松島”)を示す地名表記(ここでは「松島」)が含まれるテキストを判定対象テキストとして取得する(ステップS21)。

0069

続いて、テキスト判定部17は、特徴語記憶部12において“松島”に関連付けて記憶されている特徴語(ここでは「花見」、「日本三景」、又は「牡蠣」)が判定対象テキストに含まれているか否かを判定する(ステップS22)。テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定された場合(ステップS22:YES)、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する(ステップS24)。

0070

一方、テキスト判定部17は、判定対象テキストに特徴語が含まれていると判定されなかった場合(ステップS22:NO)、特徴語記憶部12において“松島”に関連付けて記憶されている拡張特徴語(ここでは「桜」)が判定対象テキストに含まれているか否かを判定する(ステップS23)。テキスト判定部17は、判定対象テキストに拡張特徴語が含まれていると判定された場合(ステップS23:YES)、判定対象テキスト中の地名表記「松島」が特定の場所“松島”を意味すると判定する(ステップS24)。一方、テキスト判定部17は、判定対象テキストに拡張特徴語が含まれていると判定されなかった場合(ステップS23:NO)、判定対象テキストの曖昧性を解消できなかった旨の判定結果を出力する(ステップS25)。

0071

なお、図5に示すテキスト判定部17の動作手順は一例であり、テキスト判定部17は、例えば、ステップS22,S23の処理を同時に行ってもよい。すなわち、テキスト判定部17は、判定対象テキストに特徴語及び拡張特徴語のいずれかが含まれているか否かを1回の判定処理として実行してもよい。また、ステップS24において地名表記が特定の場所を意味すると判定された場合、テキスト判定部17は、特徴語に基づいて曖昧性が解消されたのか拡張特徴語に基づいて曖昧性が解消されたのかを示す情報を含む判定結果を出力してもよい。これにより、オペレータは、特徴語及び拡張特徴語のいずれに基づいて曖昧性が解消したかを把握することができる。その結果、例えば拡張特徴語に基づく判定精度が低い場合等に、オペレータは、上述した閾値d1,d2,d3及びパラメータt等の調整を必要に応じて行うことが可能となる。

0072

以上説明した単語判定装置1では、判定対象の単語と特徴語との類似度に基づいて、判定対象の単語が特定の場所に関連する可能性を判断することができる。また、特定の場所に対応するエリアから投稿された判定対象の単語が含まれる投稿テキストの数(投稿数)に基づいて、判定対象の単語が特定の場所の特徴を表している可能性を判断することができる。従って、単語判定装置1によれば、類似度及び投稿数に基づいて判定対象の単語を特定の場所に関連付けるか否かを決定することにより、特定の場所に関連付けられる単語(拡張特徴語)を、精度を担保しつつ増加させることができる。

0073

ここで、特徴語との類似度だけに基づいて拡張特徴語を追加する場合(すなわち、特徴語の類義語を直ちに拡張特徴語として追加する場合)、拡張特徴語の数を効率良く増やすことができる一方で、拡張特徴語の精度を十分に担保できない虞がある。一方、投稿数に基づいて判定対象の単語を拡張特徴語にするか否かを判定することにより、特定の場所に関連する単語を含む投稿テキストが当該特定の場所に対応する特定エリアにおいて特に投稿され易いという傾向に基づいて、拡張特徴語の精度を高めることができる。

0074

また、類似度算出部14は、判定対象の単語及び特徴語の各々をベクトルに変換し、変換されたベクトル同士のコサイン類似度を類似度として算出する。この構成によれば、判定対象の単語及び特徴語の各々をベクトルに変換することで、ベクトルを扱う公知の計算手法によって判定対象の単語と特徴語との類似度を簡易且つ確実に算出することができる。

0075

また、単語判定装置1は、特徴語記憶部12に記憶された特徴語及び拡張特徴語を用いて、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための処理を実行するテキスト判定部17を備える。これにより、予め用意されている特徴語が地名表記と共に含まれるテキストだけでなく、判定部16によって追加された拡張特徴語が地名表記と共に含まれるテキストについても、地名表記がテキスト中で特定の場所を意味すると判定することが可能となる。その結果、曖昧性を解消可能なテキスト数を増加させることができる。

0076

以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されない。

0077

例えば、上記実施形態では、特定期間内に特定エリアから投稿され、且つ、判定対象の単語が含まれる投稿テキストの数(投稿数)を判定の指標として用いたが、必ずしも投稿数を直接的な指標として用いなくともよい。例えば、特定期間内に特定エリアから投稿された全ての投稿テキストに対する上記投稿数の割合を判定の指標として用いてもよい。

0078

また、拡張特徴語を追加する機能要素(主に特徴語取得部11、単語取得部13、類似度算出部14、投稿数取得部15、及び判定部16)と、曖昧性を有する地名表記を含むテキストの曖昧性を解消するための機能要素(テキスト判定部17)とは、物理的に別の装置に分離されてもよい。この場合、各装置から特徴語記憶部12にアクセス可能とされればよい。

0079

また、判定対象の単語と特徴語との類似度としては、上述したベクトル同士のコサイン類似度以外に、ベクトル同士の距離(ユークリッド距離)を用いてもよい。なお、判定対象の単語をベクトル変換したものと特徴語をベクトル変換したものとの距離は、当該単語と特徴語とが類似する度合いが大きい程小さくなる。

0080

1…単語判定装置、11…特徴語取得部(特徴語取得手段)、12…特徴語記憶部、13…単語取得部(単語取得手段)、14…類似度算出部(類似度算出手段)、15…投稿数取得部(投稿数取得手段)、16…判定部(判定手段)、17…テキスト判定部(テキスト判定手段)、d1…閾値(第1閾値)、d2…閾値(第2閾値)、d3…閾値(第3閾値)。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • ソニー株式会社の「 情報処理装置、情報処理方法、およびプログラム」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、複数人のユーザが皆満足できる空間を提供することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。分析部は、複数人のユーザが存在する環境におけるセンシン... 詳細

  • アルテリックス インコーポレイテッドの「 並列処理を使用したハッシュ結合の実行」が 公開されました。( 2020/09/24)

    【課題・解決手段】データレコードは、コンピュータを使用して結合される。第1の複数のデータレコードおよび第2の複数のデータレコード内のデータレコードがハッシュされる。第1の複数のデータレコードおよび第2... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ