図面 (/)

技術 テキスト監視システム、テキスト監視方法、及び、プログラム

出願人 日本電気株式会社
発明者 山本康高大西貴士赤峯享
出願日 2015年3月18日 (5年9ヶ月経過) 出願番号 2017-505746
公開日 2017年12月14日 (3年0ヶ月経過) 公開番号 WO2016-147218
状態 特許登録済
技術分野 検索装置
主要キーワード 技術効果 種別表示領域 通知閾値 部分期間 参考形態 概要レベル 自動グループ 共有度
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年12月14日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

テキストを用いた監視において事象検出精度を向上できる監視システムを提供する。 監視システム(1)は、テキスト取得部(10)、判定部(60)、及び、監視部(70)を含む。監視システム(1)は、テキスト間含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストを記憶する記憶部にアクセス可能に接続される。テキスト取得部(10)は、監視対象のテキストを取得する。判定部(60)は、取得したテキストが代表テキストを含意するかを判定する。監視部(70)は、代表テキストを含意するテキストの数を監視し、監視結果を出力する。

概要

背景

収集したテキストから、製品に対する不具合報告や、クレーム等の事象の発生を監視する技術として、特定のキーワードを含むテキストの数を監視する方法が知られている。例えば、特許文献1には、収集した文書から、風評規則に従って、風評表現を抽出する技術が開示されている。特定のキーワードを含むテキストの監視では、予め、監視対象の事象のキーワードを定義する必要がある。

キーワードの定義が不要な監視技術として、例えば、テキスト間のキーワードの共有度合いをもとに、テキストをクラスタ分類し、各クラスタに分類されたテキストの数を監視する方法が考えられる。

しかしながら、一般に、監視対象のテキストには、複数の観点が混在していることがある。このため、キーワードの共有度合いをもとにテキストの分類を行っても、観点の見落とし、或いは、異なる観点のテキストの同じクラスタへの分類等により、各クラスタの観点が不明確になることがある。したがって、キーワードの共有度合いをもとに生成されたクラスタを用いてテキストの監視をした場合、事象の検出精度が低いことがある。

図25は、キーワードの共有度合いをもとにしたクラスタリング結果の例を示す図である。図25のテキストは、自動車の不具合に係るテキストである。これらのテキストは、「不具合」、「発進」、「周辺」等のキーワードを共有しているため、同じクラスタに分類される。しかしながら、このクラスタに分類されるテキストの数が増加したときにアラート通知されても、クラスタ内に含まれるテキストは同じ事象に係るテキストではないため、ユーザは、どのような事象が増加したかを正確に把握できない。

なお、関連技術として、非特許文献1には、テキスト間の含意関係を抽出し、含意関係があるテキストを同じクラスタに分類する、含意クラスタリング技術が開示されている。また、特許文献2には、テキスト間の含意関係をもとに、含意関係を表す含意グラフを生成する技術が開示されている。特許文献3には、対話テキスト集合から発話を抽出し、含意関係がある発話を発話クラスタとして抽出する技術が開示されている。

概要

テキストを用いた監視において事象の検出精度を向上できる監視システムを提供する。 監視システム(1)は、テキスト取得部(10)、判定部(60)、及び、監視部(70)を含む。監視システム(1)は、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストを記憶する記憶部にアクセス可能に接続される。テキスト取得部(10)は、監視対象のテキストを取得する。判定部(60)は、取得したテキストが代表テキストを含意するかを判定する。監視部(70)は、代表テキストを含意するテキストの数を監視し、監視結果を出力する。

目的

本発明の目的は、上述の技術課題を解決し、テキストを用いた監視において、事象の検出精度を向上できる、テキスト監視システム、テキスト監視方法、及び、記録媒体を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

テキスト間含意関係に基づいて抽出された、他のテキスト含意するテキストである代表テキストを記憶する記憶手段にアクセス可能に接続され、監視対象のテキストを取得する、テキスト取得手段と、前記取得したテキストが前記代表テキストを含意するかを判定する判定手段と、前記代表テキストを含意するテキストの数を監視し、監視結果を出力する、監視手段と、を備える、テキスト監視システム

請求項2

前記監視手段は、前記監視結果の出力として、予め定めた複数の監視期間の各々の、前記代表テキストを含意するテキストの数が所定条件を満たす場合に通知を行う、請求項1に記載のテキスト監視システム。

請求項3

前記監視手段は、前記監視結果の出力として、前記複数の監視期間の各々の、所定の種別に属する前記代表テキストを含意するテキストの数の合計が、前記所定条件を満たす場合に通知を行う、請求項2に記載のテキスト監視システム。

請求項4

前記所定条件は、前記テキストの数が所定の通知閾値以上もしくは所定の通知閾値以下、または、前記複数の監視期間の内の異なる監視期間の間の前記テキストの数の増加量もしくは減少量が所定の通知閾値以上である、請求項2または3に記載のテキスト監視システム。

請求項5

前記監視手段は、前記監視結果として、前記監視期間における前記代表テキストを含意するテキストの数の増減傾向を出力する、請求項1に記載のテキスト監視システム。

請求項6

さらに、取得した複数のテキスト間の含意関係に基づいて、他のテキストが含意するテキストである代表テキストを抽出し、当該抽出した代表テキストを前記記憶手段に記憶する、代表テキスト抽出手段を備える、請求項1乃至5のいずれかに記載のテキスト監視システム。

請求項7

前記代表テキスト抽出手段は、前記代表テキストを複数抽出し、前記判定手段は、前記取得したテキストが、前記抽出した複数の前記代表テキストの内のいずれかの代表テキストを含意するかを判定する、請求項6に記載のテキスト監視システム。

請求項8

前記代表テキスト抽出手段は、予め定めた複数の監視期間の各々において、前記代表テキストを含意しないテキストの数が所定の抽出閾値以上の場合、前記代表テキストを抽出する、請求項6または7に記載のテキスト監視システム。

請求項9

前記代表テキスト抽出手段は、予め定めた複数の監視期間の各々において、当該監視期間に取得した複数のテキスト間の含意関係から、前記代表テキストを抽出する、請求項6または7に記載のテキスト監視システム。

請求項10

前記代表テキスト抽出手段は、新たな代表テキストが抽出された場合に、当該新たな代表テキストを通知する、請求項6乃至9のいずれかに記載のテキスト監視システム。

請求項11

テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストが設定されている場合に、監視対象のテキストを取得し、前記取得したテキストが前記代表テキストを含意するかを判定し、前記代表テキストを含意するテキストの数を監視し、監視結果を出力する、テキスト監視方法

請求項12

コンピュータに、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストが設定されている場合に、監視対象のテキストを取得し、前記取得したテキストが前記代表テキストを含意するかを判定し、前記代表テキストを含意するテキストの数を監視し、監視結果を出力する、処理を実行させる、プログラムを格納する、コンピュータが読み取り可能な記録媒体

技術分野

0001

本発明は、テキスト監視ステム、テキスト監視方法、及び、記録媒体に関し、特に、テキストを用いて監視を行うテキスト監視システム、テキスト監視方法、及び、記録媒体に関する。

背景技術

0002

収集したテキストから、製品に対する不具合報告や、クレーム等の事象の発生を監視する技術として、特定のキーワードを含むテキストの数を監視する方法が知られている。例えば、特許文献1には、収集した文書から、風評規則に従って、風評表現を抽出する技術が開示されている。特定のキーワードを含むテキストの監視では、予め、監視対象の事象のキーワードを定義する必要がある。

0003

キーワードの定義が不要な監視技術として、例えば、テキスト間のキーワードの共有度合いをもとに、テキストをクラスタ分類し、各クラスタに分類されたテキストの数を監視する方法が考えられる。

0004

しかしながら、一般に、監視対象のテキストには、複数の観点が混在していることがある。このため、キーワードの共有度合いをもとにテキストの分類を行っても、観点の見落とし、或いは、異なる観点のテキストの同じクラスタへの分類等により、各クラスタの観点が不明確になることがある。したがって、キーワードの共有度合いをもとに生成されたクラスタを用いてテキストの監視をした場合、事象の検出精度が低いことがある。

0005

図25は、キーワードの共有度合いをもとにしたクラスタリング結果の例を示す図である。図25のテキストは、自動車の不具合に係るテキストである。これらのテキストは、「不具合」、「発進」、「周辺」等のキーワードを共有しているため、同じクラスタに分類される。しかしながら、このクラスタに分類されるテキストの数が増加したときにアラート通知されても、クラスタ内に含まれるテキストは同じ事象に係るテキストではないため、ユーザは、どのような事象が増加したかを正確に把握できない。

0006

なお、関連技術として、非特許文献1には、テキスト間の含意関係を抽出し、含意関係があるテキストを同じクラスタに分類する、含意クラスタリング技術が開示されている。また、特許文献2には、テキスト間の含意関係をもとに、含意関係を表す含意グラフを生成する技術が開示されている。特許文献3には、対話テキスト集合から発話を抽出し、含意関係がある発話を発話クラスタとして抽出する技術が開示されている。

0007

特開2003−271609号公報
特許第5494999号公報
特開2013−190991号公報

先行技術

0008

NEC、大量の文書データを同じ意味で自動グループ化する技術を開発」、[online]、日本電気株式会社、[平成27年2月9日検索]、インターネット

発明が解決しようとする課題

0009

上述のように、キーワードの共有度合いをもとに生成されたクラスタを用いて事象の監視を行った場合、事象の検出精度が低いという技術課題があった。

0010

本発明の目的は、上述の技術課題を解決し、テキストを用いた監視において、事象の検出精度を向上できる、テキスト監視システム、テキスト監視方法、及び、記録媒体を提供することである。

課題を解決するための手段

0011

本発明の一態様におけるテキスト監視システムは、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストを記憶する記憶手段にアクセス可能に接続され、監視対象のテキストを取得する、テキスト取得手段と、前記取得したテキストが前記代表テキストを含意するかを判定する判定手段と、前記代表テキストを含意するテキストの数を監視し、監視結果を出力する、監視手段と、を備える。

0012

本発明の一態様におけるテキスト監視方法は、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストが設定されている場合に、監視対象のテキストを取得し、前記取得したテキストが前記代表テキストを含意するかを判定し、前記代表テキストを含意するテキストの数を監視し、監視結果を出力する。

0013

本発明の一態様におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストが設定されている場合に、監視対象のテキストを取得し、前記取得したテキストが前記代表テキストを含意するかを判定し、前記代表テキストを含意するテキストの数を監視し、監視結果を出力する、処理を実行させる、プログラムを格納する。

発明の効果

0014

本発明の技術効果は、テキストを用いた監視において、事象の検出精度を向上できることである。

図面の簡単な説明

0015

本発明の第1の実施の形態の基本的な構成を示すブロック図である。
本発明の第1の実施の形態における、監視システム1の構成を示すブロック図である。
本発明の第1の実施の形態における、コンピュータにより実現された監視システム1の構成を示すブロック図である。
本発明の第1の実施の形態における、監視システム1の動作を示すフローチャートである。
本発明の第1の実施の形態における、テキストデータの例を示す図である。
本発明の第1の実施の形態における、含意関係の抽出結果の例を示す図である。
本発明の第1の実施の形態における、代表テキスト情報の例を示す図である。
本発明の第1の実施の形態における、各代表テキストを含意するテキストの数の例である。
本発明の第1の実施の形態における、通知画面90の例を示す図である。
本発明の第1の実施の形態における、監視期間毎の、各代表テキストを含意するテキストの数の他の例である。
本発明の第2の実施の形態における、監視システム1の構成を示すブロック図である。
本発明の第2の実施の形態における、テキストデータの例を示す図である。
本発明の第2の実施の形態における、含意関係の抽出結果の例を示す図である。
本発明の第2の実施の形態における、代表テキスト情報の例を示す図である。
本発明の第2の実施の形態における、対象種別情報の例を示す図である。
本発明の第2の実施の形態における、各種別の代表テキストを含意するテキストの数の合計の例である。
本発明の第2の実施の形態における、通知画面100の例を示す図である。
本発明の第3の実施の形態における、監視システム1の動作を示すフローチャートである。
本発明の第3の実施の形態における、テキストデータの例を示す図である。
本発明の第3の実施の形態における、含意関係の抽出結果の例を示す図である。
本発明の第3の実施の形態における、代表テキスト情報の例を示す図である。
本発明の第3の実施の形態における、各代表テキストを含意するテキストの数の例である。
本発明の第3の実施の形態における、比較画面110の例を示す図である。
本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。
キーワードの共有度合いをもとにしたクラスタリング結果の例を示す図である。

実施例

0016

はじめに、本発明の実施の形態で用いるテキストのクラスタリング手法である、含意クラスタリングについて説明する。含意クラスタリングでは、非特許文献1に記載されているように、テキスト間の意味の関係である、含意関係をもとにクラスタリングを行う。本発明の実施の形態では、含意関係を、特許文献2と同様に、次のように定義する。すなわち、第1のテキストの内容が真であるならば第2のテキストの内容が真である場合、第1のテキストが第2のテキストを含意(entailment)すると定義する。また、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義してもよい。含意クラスタリングを用いることにより、分析対象のテキストに含まれる観点をもれなく、かつ、クラスタ内のテキストが共通に含意し、クラスタの概要を表す代表テキストとともに抽出できる。

0017

含意関係の理解を容易にするため、具体例を用いて説明する、
<具体例1>
第1のテキスト:オバマ大統領ホワイトハウスに住んでいる。
第2のテキスト:オバマ大統領はアメリカに住んでいる。

0018

この場合、第1のテキストの内容が真であるならば第2のテキストの内容が真であるので、第1のテキストが第2のテキストを含意するといえる。

0019

<具体例2>
第1のテキスト:養毅首相は海軍将校らに暗殺された。
第2のテキスト:犬養毅首相は亡くなった
この場合、第1のテキストの内容が真であるならば第2のテキストの内容が真であるので、第1のテキストが第2のテキストを含意するといえる。

0020

ここで、「代表テキスト」と「要素テキスト」を定義する。テキストの集合に対して含意クラスタリング処理を実行すると、代表テキストと要素テキストとが決定される。代表テキストと要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である。すなわち、代表テキストと要素テキストとの関係は、要素テキストは代表テキストを含意するという関係である。

0021

図24は、本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。代表テキストと要素テキストの理解を容易にするため、図24を用いて説明する。図24は、T1からT11までの11個のテキストについて、含意クラスタリング処理を実行した様子を示す。図24における円形シンボルは一つのテキストを示す。図24における矢印は、矢印の元のテキストが矢印の先のテキストを含意することを示す。図24において、テキストT6、T7、T11が、テキストT1を含意している。同様に、テキストT2、T3、T7、T10が、テキストT5を含意しており、テキストT2、T4、T7、T8が、テキストT9を含意している。このとき、テキストT6、T7、T11は、代表テキストT1の要素テキストである。同様に、テキストT2、T3、T7、T10は、代表テキストT5の要素テキストである。同様に、テキストT2、T4、T7、T8は、代表テキストT9の要素テキストである。

0022

ここで、代表テキスト自身が要素テキストとして扱われてもよい。例えば、テキストT1、T6、T7、T11が代表テキストT1の要素テキストでもよい。

0023

(第1の実施の形態)
本発明の第1の実施の形態について説明する。

0024

はじめに、本発明の第1の実施の形態の構成を説明する。

0025

図2は、本発明の第1の実施の形態における、監視システム1の構成を示すブロック図である。

0026

図2を参照すると、本発明の第1の実施の形態における監視システム1は、テキスト取得部10、テキスト記憶部20、含意関係抽出部30、代表テキスト抽出部40、代表テキスト記憶部50、判定部60、監視部70、及び、表示制御部80を含む。監視システム1は、本発明のテキスト監視システムの一実施形態である。

0027

テキスト取得部10は、監視対象のテキストを取得する。

0028

テキスト記憶部20は、テキスト取得部10が取得したテキストを示すテキストデータを記憶する。

0029

図5は、本発明の第1の実施の形態における、テキストデータの例を示す図である。図5の例は、監視対象のテキストが、自動車の不具合報告における「現象」に係る、自然言語のテキストの場合の例である。テキストデータは、テキストの取得日時、及び、テキストを含む。なお、テキストの前の括弧内の符号は、テキストの識別子を示す。

0030

監視対象のテキストは、例えば、文書(不具合報告書等)から抽出される。この場合、テキストは、例えば、所定の形式に従って、複数のカテゴリ(不具合の現象、原因、対策等)毎に記載された文書中の、監視対象のカテゴリ(現象)に対する記載を取得することにより抽出される。また、テキストは、自由形式記述された文書から、監視対象のカテゴリに係る記載部分を特定することにより抽出されてもよい。また、テキストは、例えば、コールセンタ等における会話音声認識することにより生成した、コールログから抽出されてもよい。また、テキストは、口コミイトや、ブログ、SNS(ソーシャルネットワーキングサービス)から抽出されてもよい。

0031

含意関係抽出部30は、監視対象のテキストの内、含意関係抽出対象のテキスト(以下、抽出対象テキストとも記載する)を用いて、含意関係を抽出する。ここで、抽出対象テキストとして、例えば、複数の所定の長さの監視期間(定期的な監視期間)の内の最初の監視期間等、特定の監視期間の全テキストや、特定の監視期間の一部(所定数や所定の部分期間)のテキストが用いられる。

0032

代表テキスト抽出部40は、抽出された含意関係から代表テキストを抽出し、代表テキスト、及び、代表テキストを含意する要素テキストが設定されたクラスタを生成する。

0033

代表テキスト記憶部50は、代表テキスト抽出部40が生成したクラスタに係る情報を示す代表テキスト情報を記憶する。

0034

判定部60は、監視期間毎に、新たに取得された(テキストデータに追加された)各テキストが、各代表テキストを含意するか(各クラスタに属するか)どうかを判定する。

0035

監視部70は、監視期間毎に、各代表テキストを含意するテキストの数を監視し、監視結果を、表示制御部80を介して出力する。本発明の第1の実施の形態では、監視結果の出力として、代表テキストを含意するテキストの数が所定の通知条件を満たした場合に、通知を行う。ここで、通知条件として、例えば、テキストの数に係る下限の閾値(テキストの数が閾値以上であれば通知)が用いられる。

0036

表示制御部80は、監視結果(通知内容)を表示するための通知画面90を生成し、ユーザ等に表示する。

0037

なお、監視システム1は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。

0038

図3は、本発明の第1の実施の形態における、コンピュータにより実現された監視システム1の構成を示すブロック図である。

0039

監視システム1は、CPU2、ハードディスクメモリ等の記憶デバイス3(記憶媒体)、他の装置等と通信を行う通信デバイス4、マウスキーボード等の入力デバイス5、及び、ディスプレイ等の出力デバイス6を含む。

0040

CPU2は、テキスト取得部10、含意関係抽出部30、代表テキスト抽出部40、判定部60、監視部70、及び、表示制御部80の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス3は、テキスト記憶部20、及び、代表テキスト記憶部50のデータを記憶する。出力デバイス6は、ユーザ等へ、通知画面90を出力する。入力デバイス5は、ユーザ等から、例えば、通知条件等の指定を受け付ける。また、通信デバイス4が、他の装置等へ通知画面90を出力してもよい。

0041

また、図2に示された監視システム1の各構成要素は、独立した論理回路でもよい。

0042

また、図2に示された監視システム1の各構成要素は、有線または無線で接続された複数の物理的な装置に分散的に配置されていてもよい。

0043

次に、本発明の第1の実施の形態の動作を説明する。

0044

ここでは、テキスト取得部10が、例えば、図示しない記憶部等に定期的にアクセスすることにより、不具合報告に係る文書から監視対象のテキストを抽出し、図5のようなテキストデータを、テキスト記憶部20に保存していると仮定する。

0045

また、テキストの監視は監視期間(1ヶ月)毎に行われると仮定する。さらに、含意関係抽出対象のテキスト(抽出対象テキスト)は、最初の監視期間のテキストの内の、先頭の所定数のテキストであると仮定する。

0046

図4は、本発明の第1の実施の形態における、監視システム1の動作を示すフローチャートである。

0047

はじめに、含意関係抽出部30は、最初の監視期間において、テキスト記憶部20に保存されている、抽出対象テキスト間の含意関係を抽出する(ステップS101)。

0048

ここで、含意関係抽出部30は、例えば、特許文献2と同様の判定処理を行うことにより、テキスト間の含意関係を抽出する。この場合、含意関係抽出部30は、テキストに含まれる内容語を比較し、被覆率を算出することにより、含意関係の有無を判定する。なお、含意関係抽出部30は、テキスト間の含意関係を抽出できれば、特許文献2と異なる判定処理により、テキスト間の含意関係を判定してもよい。

0049

図6は、本発明の第1の実施の形態における、含意関係の抽出結果の例を示す図である。図6において、矢印の元のテキストは、先のテキストを含意することを示す。図6の例では、テキストT6、T7、T11、…が、テキストT1「警告灯点灯した」を含意している。同様に、テキストT2、T3、T7、T10、…が、テキストT5「異音がする」を含意しており、テキストT2、T4、T7、T8、…が、テキストT9「エンストした」を含意している。

0050

例えば、含意関係抽出部30は、図5における、取得日時が監視期間「2015/1」内の抽出対象テキストから、図6のような含意関係を抽出する。

0051

代表テキスト抽出部40は、抽出された含意関係から代表テキストを抽出し、クラスタを生成する(ステップS102)。代表テキスト抽出部40は、例えば、非特許文献1の技術と同様に、含意関係抽出部30により抽出された含意関係をもとに、クラスタを生成する。ここで、抽出対象テキストの内、他のテキストにより含意されるテキストがクラスタの代表テキスト、当該代表テキストを含意するテキストが当該クラスタの要素テキストに設定される。テキストが複数の代表テキストを含意する場合、当該テキストは、複数のクラスタの要素テキストに設定される。なお、本発明の実施の形態では、あるクラスタの代表テキストに設定されたテキスト自身も、当該クラスタの代表テキストを含意する要素テキストとして設定される。代表テキスト抽出部40は、各クラスタの代表テキストの識別子を当該クラスタの要素テキストの識別子と関連付けた代表テキスト情報を、代表テキスト記憶部50に保存する。

0052

図7は、本発明の第1の実施の形態における、代表テキスト情報の例を示す図である。図7の例では、テキストT1「警告灯が点灯した」、T5「異音がする」、及び、T9「エンストした」が、それぞれ、クラスタC1、C2、及び、C3の代表テキストに設定されている。また、テキストT1とテキストT1を含意するテキストT6、T7、T11…が、クラスタC1の要素テキストに設定されている。同様に、テキストT5とテキストT5を含意するテキストが、クラスタC2の要素テキストに設定され、テキストT9とテキストT9を含意するテキストが、クラスタC3の要素テキストに設定されている。

0053

例えば、代表テキスト抽出部40は、図6の含意関係をもとに、図7のような代表テキスト情報を生成する。

0054

なお、代表テキスト抽出部40は、さらに、異なるクラスタ間の要素テキストの重複度合いをもとに、当該異なるクラスタを一つのクラスタに統合してもよい。

0055

次に、判定部60は、各監視期間において、テキスト記憶部20に保存されている、当該監視期間に新たに取得された(テキストデータに追加された)各テキストが、各代表テキストを含意するかどうかを判定する(ステップS103)。

0056

監視部70は、各代表テキストについて、当該代表テキストを含意するテキストの数を集計する(ステップS104)。ここで、監視期間のテキストに、抽出対象テキストが含まれる場合、当該抽出対象テキストの数も、集計対象のテキストとして用いられる。また、監視部70は、どの代表テキストにも含意しないテキストの数を、「その他」のテキストの数として集計する。

0057

監視部70は、監視期間の、各代表テキストを含意するテキストの数が、所定の通知条件を満足するかどうかを判定する(ステップS105)。

0058

ステップS105で、所定の通知条件を満たす代表テキストがある場合(ステップS105/Y)、監視部70は、表示制御部80を介して通知を行う(ステップS106)。ここで、表示制御部80は、通知画面90を生成し、ユーザ等に表示する。

0059

さらに、「その他」のテキストの数が所定の抽出閾値未満の間、ステップS103からの処理が、監視期間毎に繰り返される(ステップS107/N)。

0060

図8は、本発明の第1の実施の形態における、各代表テキストを含意するテキストの数の例である。

0061

例えば、監視部70は、監視期間「2015/1」、「2015/2」、…の各々において、図8のように、各代表テキストT1、T5、T9を含意するテキストの数を集計する。

0062

ここで、例えば、通知条件が、テキストの数に係る下限の閾値「100以上」の場合、監視期間「2015/5」における、代表テキストT5「異音がする」を含意するテキストの数が通知条件を満たす。したがって、監視部70は、監視期間「2015/5」の事象「異音がする」に関して、通知を行う。

0063

図9は、本発明の第1の実施の形態における、通知画面90の例を示す図である。

0064

図9の例では、通知画面90は、通知領域91、代表テキスト表示領域92、時系列表示領域93、及び、テキスト表示領域94を含む。

0065

通知領域91には、通知対象の監視期間(通知閾値超過が検出された監視期間)や通知対象の代表テキスト(通知閾値を超過した代表テキスト)が表示される。

0066

代表テキスト表示領域92の「クラスタ」欄には、例えば、各クラスタの代表テキストが表示される。また、「件数」欄には、例えば、通知対象の監視期間における、各代表テキストを含意するテキストの数が表示される。

0067

時系列表示領域93には、例えば、監視期間毎の、各代表テキストを含意するテキストの数(時系列)を示すグラフが表示される。

0068

テキスト表示領域94の「詳細テキスト」欄には、例えば、通知対象の監視期間における、通知対象の代表テキストを含意するテキストが、取得日時の順番で表示される。

0069

表示制御部80は、図9のような通知画面90を、ユーザ等に表示する。

0070

ユーザ等は、図9の通知画面90の通知領域91を参照し、発生数が多い(または、少ない)事象を、概要レベルで把握できる。また、ユーザ等は、テキスト表示領域94を参照し、当該通知対象の事象の詳細を把握できる。

0071

また、「その他」のテキストの数が、所定の抽出閾値以上の場合(ステップS107/Y)、ステップS101からの処理が行われる。

0072

図10は、本発明の第1の実施の形態における、監視期間毎の、各代表テキストを含意するテキストの数の他の例である。

0073

ここで、例えば、抽出閾値が「10」の場合、監視期間「2016/4」における、「その他」のテキストの数が抽出閾値以上である。したがって、含意関係抽出部30は、例えば、次の監視期間「2016/5」の抽出対象テキストから、再び、含意関係を抽出する。そして、代表テキスト抽出部40は、抽出された含意関係から、再び、代表テキストを抽出し、クラスタを生成する。ここで、代表テキスト抽出部40が、代表テキストT1、T5、T9に加えて、新たな代表テキストT201「オイル漏れている」を抽出したと仮定する。

0074

監視期間「2016/8」において、代表テキストT201「オイルが漏れている」を含意するテキストの数が通知条件を満たす。したがって、監視部70は、監視期間「2016/8」の事象「オイルが漏れている」に関して通知を行う。

0075

以上により、本発明の第1の実施の形態の動作が完了する。

0076

なお、本発明の第1の実施の形態では、クラスタリング対象のテキストが、自動車の不具合報告に係るテキストである場合を例に説明した。しかしながら、これに限らず、クラスタリング対象のテキストは、様々な現象や原因、対策、意見、評価、苦情要望等、どのような内容に係るテキストでもよい。

0077

また、本発明の第1の実施の形態では、含意関係抽出対象のテキスト(抽出対象テキスト)として、特定の監視期間のテキスト(全テキストや一部のテキスト)を用いた。そして、当該監視期間のテキストから抽出された含意関係をもとに、代表テキストが抽出され、当該代表テキストが、当該監視期間以降の監視期間の監視に用いられた。また、その他の代表テキストの数が所定の抽出閾値以上の場合に、新たな監視期間のテキストから含意関係が再抽出され、当該含意関係をもとに代表テキストが再抽出された。

0078

しかしながら、これに限らず、抽出対象テキストとして、各監視期間のテキストを用いてもよい。この場合、監視期間ごとに、当該監視期間のテキストから含意関係の再抽出、代表テキストの再抽出が行われ、当該代表テキストが、当該監視期間の監視に用いられる。

0079

また、これに限らず、抽出対象テキストとして、各監視期間までに取得したテキスト(当該監視期間以前のテキスト)を用いてもよい。この場合、監視期間ごとに、当該監視期間のテキストが抽出対象テキストに追加され、含意関係の再抽出、代表テキストの再抽出が行われる。

0080

また、代表テキスト抽出部40は、代表テキストの再抽出により新たな代表テキストが抽出された場合、当該新たな代表テキストを、表示制御部80を介して通知してもよい。

0081

また、代表テキスト抽出部40は、抽出された代表テキストの内、監視対象の代表テキストの指定をユーザ等から受け付け、監視部70は、当該指定された代表テキストについて、含意するテキストの数を監視してもよい。

0082

また、本発明の第1の実施の形態では、通知条件として、テキストの数に係る下限の閾値を用いた。しかしながら、これに限らず、通知条件として、上限の閾値(テキストの数が閾値以下であれば通知)、または、増加量もしくは減少量の下限の閾値(テキストの数の増加量もしくは減少量が閾値以上であれば通知)が用いられてもよい。また、通知条件として、テキストの数や増減量の閾値以外に、テキストの数や増減量に係る、所定の統計量分布の条件が設定されていてもよい。

0083

次に、本発明の第1の実施の形態の基本的な構成を説明する。

0084

図1は、本発明の第1の実施の形態の基本的な構成を示すブロック図である。図1を参照すると、本発明の監視システム1(テキスト監視システム)は、テキスト取得部10、判定部60、及び、監視部70を含む。監視システム1は、テキスト間の含意関係に基づいて抽出された、他のテキストが含意するテキストである代表テキストを記憶する記憶部にアクセス可能に接続される。テキスト取得部10は、監視対象のテキストを取得する。判定部60は、取得したテキストが代表テキストを含意するかを判定する。監視部70は、代表テキストを含意するテキストの数を監視し、監視結果を出力する。

0085

次に、本発明の第1の実施の形態の効果を説明する。

0086

本発明の第1の実施の形態によれば、テキストを用いた監視において、事象の検出精度を向上できる。その理由は、判定部60が、取得したテキストが代表テキストを含意するかを判定し、監視部70は、代表テキストを含意するテキストの数を監視し、監視結果を出力するためである。これにより、ユーザは、明確な概要レベルの観点毎に、発生数が多い(または、少ない)事象を把握できる。

0087

また、本発明の第1の実施の形態によれば、テキストを用いた監視において、事前に監視対象を定義することなく監視を行うことができる。その理由は、代表テキスト抽出部40が、監視対象のテキスト間の含意関係から代表テキストを抽出するためである。

0088

(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。

0089

本発明の第2の実施の形態では、特定の種別の代表テキストを含意するテキストの数の合計を監視する点において、本発明の第1の実施の形態と異なる。

0090

はじめに、本発明の第2の実施の形態の構成を説明する。

0091

図11は、本発明の第2の実施の形態における、監視システム1の構成を示すブロック図である。

0092

図11を参照すると、本発明の第2の実施の形態の監視システム1は、本発明の第1の実施の形態の監視システム1の構成に加えて、対象種別記憶部65を含む。

0093

対象種別記憶部65は、監視対象の代表テキストの種別を示す、対象種別情報を記憶する。

0094

図15は、本発明の第2の実施の形態における、対象種別情報の例を示す図である。対象種別情報は、代表テキストの種別(「種別」欄)、通知条件(「通知条件」欄)、及び、当該種別に分類される代表テキスト(「クラスタ欄」)を含む。図15の例では、代表テキストの種別として、「悪い評価」、及び、「良い評価」が設定されている。また、通知条件として、各種別の代表テキストに含意するテキストの数の合計に係る下限の閾値が設定されている。

0095

代表テキスト抽出部40は、抽出した代表テキストを、対象種別情報で示される種別に分類する。ここで、代表テキスト抽出部40は、所定の分類ルールに従って、抽出した代表テキストを種別に分類する。この場合、分類ルールには、例えば、種別毎に、キーワードや表現が定義され、当該キーワードや表現を含む代表テキストが、対応する種別に分類される。また、代表テキスト抽出部40は、抽出した代表テキストをユーザ等に出力し、ユーザ等から、当該代表テキストの種別の指定を受け付けてもよい。

0096

監視部70は、対象種別情報で示される各種別について、当該種別の代表テキストを含意するテキストの数の合計が、当該種別に対して設定された通知条件を満たす場合に、通知を行う。

0097

表示制御部80は、監視結果(通知内容)を表示するための通知画面100を生成し、ユーザ等に表示する。

0098

次に、本発明の第2の実施の形態の動作を説明する。

0099

上述のステップS102で、代表テキスト抽出部40は、抽出した代表テキストを、対象種別情報で示される種別に分類する。

0100

ステップS104で、監視部70は、対象種別情報で示される各種別について、当該種別の代表テキストを含意するテキストの数の合計を集計する。

0101

ステップS105で、監視部70は、監視期間における、各種別のテキストの数の合計が、当該種別に対して設定された通知条件を満たすかどうかを判定する。通知条件を満たす場合、監視部70は、ステップS106で、通知を行う。

0102

次に、本発明の第2の実施の形態の動作の具体例を説明する。

0103

図12は、本発明の第2の実施の形態における、テキストデータの例を示す図である。図12の例は、監視対象のテキストが、テレビ製品の「評価」に係るテキストである場合の例である。ここでは、テキスト取得部10が、図12のようなテキストデータを、テキスト記憶部20に保存していると仮定する。また、対象種別情報には、図15のような種別、及び、通知条件が設定されていると仮定する。

0104

図13は、本発明の第2の実施の形態における、含意関係の抽出結果の例を示す図である。

0105

含意関係抽出部30は、例えば、図12における、取得日時が監視期間「2015/1」内の抽出対象テキストから、図13に示すように、含意関係を抽出する。

0106

図14は、本発明の第2の実施の形態における、代表テキスト情報の例を示す図である。

0107

代表テキスト抽出部40は、図13の含意関係をもとに、図14のような代表テキスト情報を生成する。そして、代表テキスト抽出部40は、代表テキストT304「価格が高い」を種別「悪い評価」に、代表テキストT305「機能性が高い」、T306「デザインがよい」を種別「良い評価」に分類し、図15のように、対象種別情報に設定する。

0108

図16は、本発明の第2の実施の形態における、各種別の代表テキストを含意するテキストの数の合計の例である。

0109

例えば、監視部70は、監視期間「2015/1」、「2015/2」、…の各々において、図16のように、種別「悪い評価」、「良い評価」の各々の代表テキストを含意するテキストの数の合計を集計する。

0110

ここで、監視期間「2015/5」における、種別「良い評価」の代表テキストを含意するテキストの数の合計が通知条件を満たす。したがって、監視部70は、監視期間「2015/5」の種別「良い評価」の事象に関して通知を行う。

0111

図17は、本発明の第2の実施の形態における、通知画面100の例を示す図である。

0112

図17の例では、通知画面100は、通知領域101、種別表示領域102、代表テキスト表示領域103、時系列表示領域104、及び、テキスト表示領域105を含む。

0113

通知領域101には、通知対象の監視期間や通知対象の種別が表示される。

0114

種別表示領域102の「種別」欄には、例えば、各種別が表示される。また、「件数」欄には、例えば、通知対象の監視期間における、各種別の代表テキストを含意するテキストの数の合計が表示される。

0115

代表テキスト表示領域103の「クラスタ」欄には、例えば、通知対象の種別の代表テキストが表示される。また、「件数」欄には、例えば、通知対象の監視期間における、各代表テキストを含意するテキストの数が表示される。

0116

時系列表示領域104には、例えば、監視期間毎の、各種別の代表テキストを含意するテキストの数の合計(時系列)を示すグラフが表示される。

0117

テキスト表示領域105の「詳細テキスト」欄には、通知対象の監視期間における、通知対象の種別の代表テキストを含意するテキストが、例えば、取得日時の順番で表示される。

0118

表示制御部80は、図17のような通知画面100を、ユーザ等に表示する。

0119

ユーザ等は、図17の通知画面100の通知領域101を参照し、発生数が多い(または、少ない)事象の種別を把握できる。特定の種別が、製品に係る「良い評価」や「悪い評価」であれば、ユーザ等は、当該製品に対してどのような評価がされているかを容易に把握できる。また、ユーザ等は、テキスト表示領域105を参照し、「良い評価」や「悪い評価」の具体的な内容を確認できる。

0120

以上により、本発明の第2の実施の形態の動作が完了する。

0121

次に、本発明の第2の実施の形態の効果を説明する。

0122

本発明の第2の実施の形態によれば、発生数が多い(または、少ない)事象の種別を容易に把握できる。その理由は、監視部70が、所定の種別に属する代表テキストを含意するテキストの数の合計を監視するためである。

0123

(第3の実施の形態)
次に、本発明の第3の実施の形態について説明する。

0124

本発明の第3の実施の形態では、監視結果として、異なる監視期間の間での、各代表テキストを含意するテキストの数の増減傾向を出力する点において、本発明の第1の実施の形態と異なる。

0125

はじめに、本発明の第3の実施の形態の構成を説明する。

0126

本発明の第3の実施の形態の構成を示すブロック図は、本発明の第1の実施の形態(図2)と同様である。

0127

監視部70は、監視結果として、異なる監視期間の間での、各代表テキストを含意するテキストの数の増減傾向(比較結果)を出力する。

0128

表示制御部80は、監視結果(増減傾向)を表示するための比較画面110を生成し、ユーザ等に表示(出力)する。

0129

次に、本発明の第3の実施の形態の動作を説明する。

0130

図18は、本発明の第3の実施の形態における、監視システム1の動作を示すフローチャートである。

0131

はじめに、含意関係抽出部30は、上述のステップS101と同様に、抽出対象テキスト間の含意関係を抽出する(ステップS201)。ここで、含意関係抽出部30は、抽出対象テキストとして、複数の監視期間の全テキストを用いて、含意関係を抽出する。

0132

代表テキスト抽出部40は、上述のステップS102と同様に、抽出された含意関係から代表テキストを抽出し、クラスタを生成する(ステップS202)。

0133

判定部60は、上述のステップS103と同様に、各監視期間に取得された各テキストが、各代表テキストを含意するかどうかを判定する(ステップS203)。

0134

監視部70は、上述のステップS104と同様に、各代表テキストについて、当該代表テキストを含意するテキストの数を集計する(ステップS204)。

0135

判定部60、及び、監視部70は、全ての監視期間について、ステップS203、S204の処理を繰り返す(ステップS205)。

0136

監視部70は、異なる監視期間の間で、各代表テキストを含意するテキストの数を比較する(ステップS206)。

0137

監視部70は表示制御部80を介して、各代表テキストを含意するテキストの数の増減傾向(比較結果)を出力する(ステップS207)。ここで、表示制御部80は、比較画面110を生成し、ユーザ等に表示する。

0138

次に、本発明の第3の実施の形態の動作の具体例を説明する。

0139

図19は、本発明の第3の実施の形態における、テキストデータの例を示す図である。ここでは、本発明の第2の実施の形態と同様に、監視対象のテキストが、テレビ製品の「評価」に係るテキストであると仮定する。また、監視部70が、テレビ製品に係るキャンペーンの前の1ヶ月の監視期間(キャンペーン前)とキャンペーンの後の1ヶ月の監視期間(キャンペーン後)との間で、代表テキストを含意するテキストの数を比較すると仮定する。そして、図19のようなテキストデータが、テキスト記憶部20に保存されていると仮定する。また、含意関係抽出対象のテキスト(抽出対象テキスト)は、キャンペーン前とキャンペーン後の両方の監視期間の全テキストであると仮定する。

0140

図20は、本発明の第3の実施の形態における、含意関係の抽出結果の例を示す図である。

0141

含意関係抽出部30は、例えば、図19の全テキストから、図20に示すように、含意関係を抽出する。

0142

図21は、本発明の第3の実施の形態における、代表テキスト情報の例を示す図である。図21の例では、テキストT501「価格が高い」、T601「デザインがよい」、及び、T604「機能性が高い」が、それぞれ、クラスタC1、C2、及び、C3の代表テキストに設定されている。

0143

代表テキスト抽出部40は、図20の含意関係をもとに、図21のような代表テキスト情報を生成する。

0144

図22は、本発明の第3の実施の形態における、各代表テキストを含意するテキストの数の例である。

0145

例えば、監視部70は、キャンペーン前の監視期間「2015/1」とキャンペーン後の監視期間「2015/2」の各々において、図22のように、各代表テキストT501、T601、T604を含意するテキストの数を集計する。

0146

また、監視部70は、監視期間「2015/1」と「2015/2」との間で、各代表テキストT501、T601、T604を含意するテキストの数を比較する。ここで、代表テキストT501を含意するテキストの数は、キャンペーン前の監視期間「2015/1」には100であったが、キャンペーン後の監視期間「2015/2」には0である。したがって、監視部70は、代表テキストT501のクラスタの「削除」を検出する。また、代表テキストT601を含意するテキストの数は、キャンペーン前には0であったが、キャンペーン後には100である。したがって、監視部70は、代表テキストT501のクラスタの「追加」を検出する。さらに、代表テキストT604を含意するテキストの数は、キャンペーン前には50であったが、キャンペーン後には200である。したがって、代表テキストT604を含意するテキストの数の「増加」を検出する。なお、同様に、監視部70は、代表テキストを含意するテキストの数の「減少」を検出してもよい。

0147

図23は、本発明の第3の実施の形態における、比較画面110の例を示す図である。

0148

図23の例では、比較画面110は、代表テキスト表示領域111、及び、時系列表示領域112を含む。

0149

代表テキスト表示領域111の「クラスタ」欄には、例えば、各代表テキストが表示される。また、「件数」欄には、例えば、監視期間毎の、各代表テキストを含意するテキストの数が表示される。「比較結果」欄には、各代表テキストを含意するテキストの数の比較結果(クラスタの「削除」や「追加」、テキストの数の「増加」や「減少」)が表示される。

0150

例えば、表示制御部80は、図23のような比較画面110を、ユーザ等に表示する。

0151

ユーザ等は、図23の比較画面110を参照し、異なる監視期間の間で追加もしくは削除されたクラスタ、または、発生数が増加もしくは減少した事象を把握できる。ここで、例えば、代表テキストT601「デザインがよい」やT604「機能性が高い」のように、良い評価に係る事象のクラスタの追加や、良い評価に係る事象が増加していた場合、キャンペーンにより、評価が改善されたことがわかる。一方、良い評価に係る事象のクラスタの削除や、良い評価に係る事象が減少していた場合、キャンペーンにより、評価が改悪されたことがわかる。同様に、例えば、代表テキストT501「価格が高い」のように、悪い評価に係る事象のクラスタの削除や、悪い評価に係る事象が減少していた場合も、キャンペーンにより、評価が改善されたことがわかる。また、悪い評価に係る事象のクラスタの追加や、悪い評価に係る事象が増加していた場合も、キャンペーンにより、評価が改悪されたことがわかる。

0152

以上により、本発明の第3の実施の形態の動作が完了する。

0153

次に、本発明の第3の実施の形態の効果を説明する。

0154

本発明の第3の実施の形態によれば、異なる監視期間の間で、追加もしくは削除されたクラスタ、または、発生数が増加もしくは減少した事象を容易に把握できる。その理由は、監視部70が、異なる監視期間の間での、各代表テキストを含意するテキストの数の増減傾向を出力するためである。

0155

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0156

以下、参考形態の例を付記する。

0157

(付記1)
テキスト間の含意関係に基づいて、含意関係があるテキストを同じグループに分類することによりクラスタリングされた情報源と、前記情報源に追加されたテキストと同一グループに属するクラスタを特定する特定手段と、前記特定したクラスタに属するテキストの数を計算して、所定のタイミングで提示する提示手段と、を備える、テキスト監視システム。

0158

本発明は、大量文書データから事象を監視するシステムに適用できる。例えば、本発明は、製品やサービスの改善、マーケティング営業活動の効率化のために、コールログや顧客の意見等を監視するシステムに適用できる。また、本発明は、製品の不具合や製品に対する評価や要望を監視するシステム、学術文献等の内容を監視するシステムにも適用できる。

0159

1監視システム
2 CPU
3記憶デバイス
4通信デバイス
5入力デバイス
6出力デバイス
10テキスト取得部
20 テキスト記憶部
30含意関係抽出部
40 代表テキスト抽出部
50 代表テキスト記憶部
60 判定部
70 監視部
80表示制御部
90通知画面
91通知領域
92 代表テキスト表示領域
93時系列表示領域
94 テキスト表示領域
100 通知画面
101 通知領域
102種別表示領域
103 代表テキスト表示領域
104 時系列表示領域
105 テキスト表示領域
110比較画面
111 代表テキスト表示領域
112 時系列表示領域

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ