図面 (/)

技術 テキスト可視化システム、テキスト可視化方法、及び、プログラム

出願人 日本電気株式会社
発明者 大西貴士山本康高赤峯享河合剛巨土田正明
出願日 2015年3月18日 (5年9ヶ月経過) 出願番号 2017-505748
公開日 2017年12月7日 (3年0ヶ月経過) 公開番号 WO2016-147220
状態 特許登録済
技術分野 検索装置
主要キーワード 技術効果 参考形態 概要レベル 自動グループ クラスタリングシステム 分析テーブル 可視化システム ネットワーク分析
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年12月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (18)

課題・解決手段

テキストクラスタリングの結果を効率よく把握できるクラスタリングシステムを提供する。 クラスタリングシステム(1)は、代表テキスト表示部(51)、受付部(55)、及び、要素テキスト表示部(52)を含む。クラスタリングシステム(1)は、複数のテキスト、及び、当該複数のテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶部にアクセス可能に接続される。代表テキスト表示部(51)は、複数の代表テキストを表示する。受付部(55)は、複数の代表テキストの内の特定の代表テキストの指定を受け付ける。要素テキスト表示部(52)は、特定の代表テキストの指定を受け付けたことに応じて、複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する。

概要

背景

人間が大量のテキストを読み込み、整理・分析することは、多くの時間と労力を必要とする。そのため、人間が分析対象テキスト群を限られた時間の中で分析できるように、人間のテキスト分析作業支援する技術が求められる。

大量のテキストであるテキスト群の概要を把握するための技術として、例えば、テキストに含まれる単語に基づいて、大量のテキストを複数のグループ分類する、クラスタリング技術が知られている。

テキストのクラスタリング技術として、例えば、非特許文献1に示す技術がある。非特許文献1に開示されている技術では、テキスト中出現した言葉キーワード)の頻度に基づいて、言葉を意味的グルーピングすることで、テキスト群を複数のグループに分類する。

一般に、クラスタリング対象の各テキストには、複数の観点が混在していることがある。このため、キーワードをベースにしたクラスタリングでは、観点の見落とし、或いは、異なる観点のテキストの同じクラスタへの分類等により、各クラスタの観点が不明確になることがある。この場合、ユーザは、観点を明確にするために、複数のクラスタのテキストを確認し、テキストの再分類を行うといった煩雑な作業が強いられる。

なお、関連技術として、非特許文献2には、テキスト間含意関係を抽出し、含意関係があるテキストを同じグループに分類する、含意クラスタリング技術が開示されている。特許文献1には、テキスト間の含意関係をもとに、含意関係を表す含意グラフを生成する技術が開示されている。特許文献2には、対話テキスト集合から発話を抽出し、含意関係がある発話を発話クラスタとして抽出する技術が開示されている。特許文献3には、文書間の寄与関係のグループを生成し、グループ間の含意関係を表すグループネットを生成する技術が開示されている。

概要

テキストのクラスタリングの結果を効率よく把握できるクラスタリングシステムを提供する。 クラスタリングシステム(1)は、代表テキスト表示部(51)、受付部(55)、及び、要素テキスト表示部(52)を含む。クラスタリングシステム(1)は、複数のテキスト、及び、当該複数のテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶部にアクセス可能に接続される。代表テキスト表示部(51)は、複数の代表テキストを表示する。受付部(55)は、複数の代表テキストの内の特定の代表テキストの指定を受け付ける。要素テキスト表示部(52)は、特定の代表テキストの指定を受け付けたことに応じて、複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する。

目的

本発明の目的は、上述の技術課題を解決し、テキストのクラスタリングの結果を効率よく把握できる、テキスト可視化システム、テキスト可視化方法、及び、記録媒体を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数のテキスト、及び、当該複数のテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶手段にアクセス可能に接続され、複数の代表テキストを表示する第1の表示手段と、前記複数の代表テキストの内の特定の代表テキストの指定を受け付ける受付手段と、前記特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する第2の表示手段と、を備え、前記代表テキストと、当該代表テキストを含意する要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である、テキスト可視化システム

請求項2

前記受付手段は、前記複数の代表テキストの内の複数の特定の代表テキストの指定を受け付け、前記第2の表示手段は、前記複数の特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された複数の特定の代表テキストの全てを含意する要素テキストを抽出して表示する、請求項1に記載のテキスト可視化システム。

請求項3

前記記憶手段は、前記複数のテキストの各々の属性値をさらに記憶し、前記受付手段は、さらに、特定の属性値の指定を受け付け、前記第2の表示手段は、前記特定の属性値の指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の属性値を有する要素テキストを抽出して表示する、請求項1または2に記載のテキスト可視化システム。

請求項4

前記記憶手段は、前記複数のテキストの各々に係る日時をさらに記憶し、前記受付手段は、さらに、特定の期間の指定を受け付け、前記第2の表示手段は、前記特定の期間の指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の期間内の日時に係る要素テキストを抽出して表示する、請求項1乃至3のいずれかに記載のテキスト可視化システム。

請求項5

前記受付手段は、さらに、特定のキーワードの指定を受け付け、前記第2の表示手段は、前記特定のキーワードの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定のキーワードを含む要素テキストを抽出して表示する、請求項1乃至4のいずれかに記載のテキスト可視化システム。

請求項6

前記記憶手段は、前記複数のテキストの各々の属性値をさらに記憶し、さらに、前記第2の表示手段により表示される要素テキストの属性値毎の数を表示する第3の表示手段を備える、請求項1乃至5のいずれかに記載のテキスト可視化システム。

請求項7

前記記憶手段は、前記複数のテキストの各々に係る日時をさらに記憶し、さらに、前記第2の表示手段により表示される要素テキストの日時毎の数を表示する第4の表示手段を備える、請求項1乃至6のいずれかに記載のテキスト可視化システム。

請求項8

前記記憶手段は、前記複数のテキストの各々の属性値をさらに記憶し、さらに、要素テキストが含意する代表テキストと当該要素テキストが有する属性値の関係性を表すテーブルを表示する第5の表示手段を備える、請求項1乃至7のいずれかに記載のテキスト可視化システム。

請求項9

複数のテキストについて、代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、複数の代表テキストを表示し、前記複数の代表テキストの内の特定の代表テキストの指定を受け付け、前記特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示し、前記代表テキストと、当該代表テキストを含意する要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である、テキスト可視化方法

請求項10

コンピュータに、複数のテキストについて、代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、複数の代表テキストを表示し、前記複数の代表テキストの内の特定の代表テキストの指定を受け付け、前記特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する、処理を実行させ、前記代表テキストと、当該代表テキストを含意する要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である、プログラムを格納する、コンピュータが読み取り可能な記録媒体

技術分野

0001

本発明は、テキスト可視化システム、テキスト可視化方法、及び、記録媒体に関し、特に、テキストのクラスタリングを行うテキスト可視化システム、テキスト可視化方法、及び、記録媒体に関する。

背景技術

0002

人間が大量のテキストを読み込み、整理・分析することは、多くの時間と労力を必要とする。そのため、人間が分析対象テキスト群を限られた時間の中で分析できるように、人間のテキスト分析作業支援する技術が求められる。

0003

大量のテキストであるテキスト群の概要を把握するための技術として、例えば、テキストに含まれる単語に基づいて、大量のテキストを複数のグループ分類する、クラスタリング技術が知られている。

0004

テキストのクラスタリング技術として、例えば、非特許文献1に示す技術がある。非特許文献1に開示されている技術では、テキスト中出現した言葉キーワード)の頻度に基づいて、言葉を意味的グルーピングすることで、テキスト群を複数のグループに分類する。

0005

一般に、クラスタリング対象の各テキストには、複数の観点が混在していることがある。このため、キーワードをベースにしたクラスタリングでは、観点の見落とし、或いは、異なる観点のテキストの同じクラスタへの分類等により、各クラスタの観点が不明確になることがある。この場合、ユーザは、観点を明確にするために、複数のクラスタのテキストを確認し、テキストの再分類を行うといった煩雑な作業が強いられる。

0006

なお、関連技術として、非特許文献2には、テキスト間含意関係を抽出し、含意関係があるテキストを同じグループに分類する、含意クラスタリング技術が開示されている。特許文献1には、テキスト間の含意関係をもとに、含意関係を表す含意グラフを生成する技術が開示されている。特許文献2には、対話テキスト集合から発話を抽出し、含意関係がある発話を発話クラスタとして抽出する技術が開示されている。特許文献3には、文書間の寄与関係のグループを生成し、グループ間の含意関係を表すグループネットを生成する技術が開示されている。

0007

特許第5494999号公報
特開2013−190991号公報
特開平09−152968号公報

先行技術

0008

特許情報可視化による技術マーケティングテキストマイニングネットワーク分析活用〜」、[online]、NRIサイバーパテント株式会社、[2015年2月17日検索]、インターネット
NEC、大量の文書データを同じ意味で自動グループ化する技術を開発」、[online]、日本電気株式会社、[2015年2月17日検索]、インターネット

発明が解決しようとする課題

0009

上述のように、キーワードをベースにしたクラスタリング技術では、観点を明確にするためのユーザの作業が必要になり、ユーザの負荷が大きいという技術課題があった。

0010

本発明の目的は、上述の技術課題を解決し、テキストのクラスタリングの結果を効率よく把握できる、テキスト可視化システム、テキスト可視化方法、及び、記録媒体を提供することである。

課題を解決するための手段

0011

本発明の一態様におけるテキスト可視化システムは、複数のテキスト、及び、当該複数のテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶手段にアクセス可能に接続され、複数の代表テキストを表示する第1の表示手段と、前記複数の代表テキストの内の特定の代表テキストの指定を受け付ける受付手段と、前記特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する第2の表示手段と、を含み、前記代表テキストと、当該代表テキストを含意する要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である。

0012

本発明の一態様におけるテキスト可視化方法は、複数のテキストについて、代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、複数の代表テキストを表示し、前記複数の代表テキストの内の特定の代表テキストの指定を受け付け、
前記特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示し、前記代表テキストと、当該代表テキストを含意する要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である。

0013

本発明の一態様におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、複数のテキストについて、代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、複数の代表テキストを表示し、前記複数の代表テキストの内の特定の代表テキストの指定を受け付け、前記特定の代表テキストの指定を受け付けたことに応じて、前記複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する、処理を実行させ、前記代表テキストと、当該代表テキストを含意する要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である、プログラムを格納する。

発明の効果

0014

本発明の技術効果は、テキストのクラスタリングの結果を効率よく把握できることである。

図面の簡単な説明

0015

本発明の第1の実施の形態の基本的な構成を示すブロック図である。
本発明の第1の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。
本発明の第1の実施の形態における、コンピュータにより実現されたクラスタリングシステム1の構成を示すブロック図である。
本発明の第1の実施の形態における、クラスタリングシステム1の動作を示すフローチャートである。
本発明の第1の実施の形態における、クラスタリング対象のテキストデータの例を示す図である。
本発明の第1の実施の形態における、含意関係の抽出結果の例を示す図である。
本発明の第1の実施の形態における、クラスタリング結果の例を示す図である。
本発明の第1の実施の形態における、クラスタリング画面80(表示条件指定前)の例を示す図である。
本発明の第1の実施の形態における、クラスタリング画面80(代表テキスト指定時)の例を示す図である。
本発明の第1の実施の形態における、クラスタリング画面80(複数の代表テキスト指定時)の例を示す図である。
本発明の第1の実施の形態における、クラスタリング画面80(属性値指定時)の例を示す図である。
本発明の第1の実施の形態における、クラスタリング画面80(属性値、及び、取得期間指定時)の例を示す図である。
本発明の第1の実施の形態における、クラスタリング画面80(属性値、取得期間、及び、代表テキスト指定時)の例を示す図である。
本発明の第2の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。
本発明の第2の実施の形態における、分析画面90(集計表表示時)の例を示す図である。
本発明の第2の実施の形態における、分析画面90(調整済み標準化残差表示時)の例を示す図である。
本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。

実施例

0016

はじめに、本発明の実施の形態で用いるテキストのクラスタリング手法である、含意クラスタリングについて説明する。含意クラスタリングでは、非特許文献2に記載されているように、テキスト間の意味の関係である、含意関係をもとにクラスタリングを行う。本発明の実施の形態では、含意関係を、特許文献1と同様に、次のように定義する。すなわち、第1のテキストの内容が真であるならば第2のテキストの内容が真である場合、第1のテキストが第2のテキストを含意(entailment)すると定義する。また、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義してもよい。含意クラスタリングを用いることにより、分析対象のテキストに含まれる観点をもれなく、かつ、クラスタ内のテキストが共通に含意し、クラスタの概要を表す代表テキストとともに抽出できる。

0017

含意関係の理解を容易にするため、具体例を用いて説明する、
<具体例1>
第1のテキスト:オバマ大統領ホワイトハウスに住んでいる。
第2のテキスト:オバマ大統領はアメリカに住んでいる。

0018

この場合、第1のテキストの内容が真であるならば第2のテキストの内容が真であるので、第1のテキストが第2のテキストを含意するといえる。

0019

<具体例2>
第1のテキスト:養毅首相は海軍将校らに暗殺された。
第2のテキスト:犬養毅首相は亡くなった
この場合、第1のテキストの内容が真であるならば第2のテキストの内容が真であるので、第1のテキストが第2のテキストを含意するといえる。

0020

ここで、「代表テキスト」と「要素テキスト」を定義する。テキストの集合に対して含意クラスタリング処理を実行すると、代表テキストと要素テキストとが決定される。代表テキストと要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である。すなわち、代表テキストと要素テキストとの関係は、要素テキストは代表テキストを含意するという関係である。

0021

図17は、本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。代表テキストと要素テキストの理解を容易にするため、図17を用いて説明する。図17は、T1からT11までの11個のテキストについて、含意クラスタリング処理を実行した様子を示す。図17における円形シンボルは一つのテキストを示す。図17における矢印は、矢印の元のテキストが矢印の先のテキストを含意することを示す。図17において、テキストT6、T7、T11が、テキストT1を含意している。同様に、テキストT2、T3、T7、T10が、テキストT5を含意しており、テキストT2、T4、T7、T8が、テキストT9を含意している。このとき、テキストT6、T7、T11は、代表テキストT1の要素テキストである。同様に、テキストT2、T3、T7、T10は、代表テキストT5の要素テキストである。同様に、テキストT2、T4、T7、T8は、代表テキストT9の要素テキストである。

0022

ここで、代表テキスト自身が要素テキストとして扱われてもよい。例えば、テキストT1、T6、T7、T11が代表テキストT1の要素テキストでもよい。

0023

(第1の実施の形態)
次に、本発明の第1の実施の形態について説明する。

0024

はじめに、本発明の第1の実施の形態の構成を説明する。

0025

図2は、本発明の第1の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。

0026

図2を参照すると、本発明の第1の実施の形態におけるクラスタリングシステム1は、記憶部10、含意関係抽出部20、クラスタリング部30、表示制御部50を含む。クラスタリングシステム1は、本発明のテキスト可視化システムの一実施形態である。

0027

記憶部10は、クラスタリング対象のテキストを示すテキストデータ、及び、テキスト間のクラスタリングの結果(クラスタリング結果)を記憶する。

0028

図5は、本発明の第1の実施の形態における、テキストデータの例を示す図である。図5の例は、クラスタリング対象のテキストが、自動車の不具合報告における「不具合の現象」に係る、自然言語のテキストである場合の例である。図5の例では、テキストデータは、テキストの取得日時、属性(メーカ)、及び、テキストを含む。なお、テキストの前の括弧内の符号は、テキストの識別子を示す。

0029

クラスタリング対象のテキストは、例えば、文書不具合報告書等)から抽出される。この場合、テキストは、例えば、所定の形式に従って、複数のカテゴリ(不具合の現象、原因、対策等)毎に記載された文書中の、指定されたカテゴリ(現象)に対する記載を取得することにより抽出される。また、テキストは、自由形式記述された文書から、クラスタリング対象のカテゴリに係る記載部分を特定することにより抽出されてもよい。また、テキストは、例えば、コールセンタ等における会話音声認識することにより生成した、コールログから抽出されてもよい。

0030

含意関係抽出部20は、クラスタリング対象のテキスト間の含意関係を抽出する。

0031

クラスタリング部30は、抽出された含意関係をもとに、クラスタリング対象のテキストに対する含意クラスタリングを行い、代表テキスト、及び、当該代表テキストを含意する要素テキストが設定されたクラスタを複数生成する。

0032

表示制御部50は、クラスタリング結果をもとに、代表テキスト、及び、表示対象の要素テキスト(以下、対象要素テキストとも記載する)を表示するためのクラスタリング画面80を生成し、ユーザ等に表示(出力)する。

0033

図8は、本発明の第1の実施の形態における、クラスタリング画面80(表示条件指定前)の例を示す図である。

0034

クラスタリング画面80は、代表テキスト表示領域81、要素テキスト表示領域82、属性情報表示領域83、及び、時系列表示領域84を含む。

0035

代表テキスト表示領域81の「クラスタ」欄には、各クラスタの代表テキストが表示される。また、「件数」欄には、対象要素テキストの内、各代表テキストを含意する(各代表テキストのクラスタに属する)要素テキストの数が表示される。代表テキスト表示領域81の代表テキストは、「件数」欄に示される要素テキストの数の大きい(または小さい)順に表示されてもよい。

0036

要素テキスト表示領域82の「詳細テキスト」欄には、対象要素テキストが、取得日時、及び、属性値に関連付けられて、例えば、時系列順で表示される。

0037

属性情報表示領域83の「件数」欄には、対象要素テキストの内、「メーカ」欄に示された各属性値を有する要素テキストの数が表示される。属性情報表示領域83の属性値は、「件数」欄に示される要素テキストの数の大きい(または小さい)順に表示されてもよい。

0038

時系列表示領域84には、対象要素テキストの取得日時毎の数(時系列)を示すグラフが表示される。

0039

表示制御部50は、代表テキスト表示部51(または、第1の表示部)、要素テキスト表示部52(または、第2の表示部)、属性情報表示部53(または、第3の表示部)、時系列表示部54(または、第4の表示部)、及び、受付部55を含む。

0040

代表テキスト表示部51は、各クラスタの代表テキストを、代表テキスト表示領域81に表示する。

0041

受付部55は、クラスタリング画面80において、ユーザ等から、対象要素テキストに係る条件(以下、表示条件とも記載する)の指定を受け付ける。本発明の実施の形態では、表示条件として、代表テキスト、属性値、及び、取得期間の内の1つ以上の組み合わせ(AND条件)が指定される。この場合、対象要素テキストは、クラスタリング対象の全テキストの内、表示条件で指定された代表テキストを含意し(代表テキストのクラスタに属し)、指定された属性値を有し、取得日時が指定された取得期間内の要素テキストである。なお、表示条件として、AND条件の代わりに、OR条件が指定されてもよい。

0042

要素テキスト表示部52は、クラスタリング対象のテキストから、表示条件に応じた対象要素テキストを抽出し(絞り込み)、要素テキスト表示領域82に表示する。

0043

属性情報表示部53は、対象要素テキストの属性値毎の数を、属性情報表示領域83に表示する。

0044

時系列表示部54は、対象要素テキストの取得日時毎の数(時系列)を示すグラフを、時系列表示領域84に表示する。

0045

なお、クラスタリングシステム1は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。

0046

図3は、本発明の第1の実施の形態における、コンピュータにより実現されたクラスタリングシステム1の構成を示すブロック図である。

0047

クラスタリングシステム1は、CPU2、ハードディスクメモリ等の記憶デバイス3(記憶媒体)、他の装置等と通信を行う通信デバイス4、マウスキーボード等の入力デバイス5、及び、ディスプレイ等の出力デバイス6を含む。

0048

CPU2は、含意関係抽出部20、クラスタリング部30、表示制御部50の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス3は、記憶部10のデータを記憶する。出力デバイス6は、ユーザ等へ、クラスタリング画面80を出力する。入力デバイス5は、ユーザ等から、表示条件の指定を受け付ける。また、通信デバイス4が、他の装置へクラスタリング画面80を出力し、他の装置から表示条件の指定を受け付けてもよい。

0049

また、図2に示されたクラスタリングシステム1の各構成要素は、独立した論理回路でもよい。また、図2に示されたクラスタリングシステム1の各構成要素は、有線または無線で接続された複数の物理的な装置に分散的に配置されていてもよい。

0050

次に、本発明の第1の実施の形態の動作を説明する。

0051

ここでは、図5のようなテキストデータが、記憶部10に記憶されていると仮定する。

0052

図4は、本発明の第1の実施の形態における、クラスタリングシステム1の動作を示すフローチャートである。

0053

はじめに、含意関係抽出部20は、記憶部10に記憶されたクラスタリング対象のテキスト間の含意関係を抽出する(ステップS101)。

0054

ここで、含意関係抽出部20は、例えば、特許文献1と同様の判定処理を行うことにより、テキスト間の含意関係を抽出する。この場合、含意関係抽出部20は、テキストに含まれる内容語を比較し、被覆率を算出することにより、含意関係の有無を判定する。なお、含意関係抽出部20は、テキスト間の含意関係を抽出できれば、特許文献1と異なる判定処理により、テキスト間の含意関係を判定してもよい。

0055

図6は、本発明の第1の実施の形態における、含意関係の抽出結果の例を示す図である。図6において、矢印の元のテキストは、先のテキストを含意することを示す。図6の例では、テキストT6、T7、T11…が、テキストT1を含意している。同様に、テキストT2、T3、T7、T10…が、テキストT5を含意しており、テキストT2、T4、T7、T8…が、テキストT9を含意している。

0056

例えば、含意関係抽出部20は、図5のテキストに対して、図6に示すように、含意関係を抽出する。

0057

クラスタリング部30は、記憶部10に記憶されたクラスタリング対象のテキストに対する含意クラスタリングを行う(ステップS102)。

0058

ここで、クラスタリング部30は、例えば、非特許文献2の技術と同様に、含意関係抽出部20により抽出された含意関係をもとに、含意クラスタリングを行う。クラスタリングの結果、テキストが複数の代表テキストを含意する場合、当該テキストは、複数のクラスタの要素テキストに設定される。なお、本発明の実施の形態では、あるクラスタの代表テキストに設定されたテキスト自身も、当該クラスタの代表テキストを含意する要素テキストとして設定される。クラスタリング部30は、各クラスタの代表テキストの識別子を当該クラスタの要素テキストの識別子と関連付けたクラスタリング結果を、記憶部10に保存する。

0059

図7は、本発明の第1の実施の形態における、クラスタリング結果の例を示す図である。図7の例では、テキストT1、T5、及び、T9が、それぞれ、クラスタC1、C2、及び、C3の代表テキストに設定されている。また、テキストT1とテキストT1を含意するテキストT6、T7、T11…が、クラスタC1の要素テキストに設定されている。同様に、テキストT5とテキストT5を含意するテキストが、クラスタC2の要素テキストに設定され、テキストT9とテキストT9を含意するテキストが、クラスタC3の要素テキストに設定されている。

0060

例えば、クラスタリング部30は、図6の含意関係をもとに、図7のようなクラスタリング結果を生成する。

0061

なお、クラスタリング部30は、さらに、異なるクラスタ間の要素テキストの重複度合いをもとに、当該異なるクラスタを一つのクラスタに統合してもよい。

0062

次に、表示制御部50の代表テキスト表示部51は、記憶部10に記憶されたクラスタリング結果をもとに、各クラスタの代表テキストを、クラスタリング画面80の代表テキスト表示領域81に表示する(ステップS103)。

0063

例えば、代表テキスト表示部51は、図7のクラスタリング結果をもとに、図8のように、代表テキスト表示領域81に、代表テキストT5、T9、T1を表示する。

0064

要素テキスト表示部52は、表示条件に応じて、クラスタリング対象のテキストから抽出した対象要素テキストを、要素テキスト表示領域82に表示する。(ステップS104)。最初の時点では、表示条件が指定されていないため、例えば、クラスタリング対象の全テキストが、対象要素テキストとして用いられる。また、同時に、代表テキスト表示部51、属性情報表示部53、及び、時系列表示部54は、代表テキスト表示領域81、属性情報表示領域83、及び、時系列表示領域84の要素テキストの数を、対象要素テキストに応じて更新する。

0065

例えば、要素テキスト表示部52は、図8のように、要素テキスト表示領域82に、クラスタリング対象の全テキストT1、T2、…を表示する。さらに、代表テキスト表示部51は、図8のように、代表テキスト表示領域81に、クラスタリング対象の全テキストの内、各代表テキストを含意する要素テキストの数を表示する。属性情報表示部53は、図8のように、属性情報表示領域83に、クラスタリング対象の全テキストの内、各属性値を有する要素テキストの数を表示する。時系列表示部54は、図8のように、時系列表示領域84に、クラスタリング対象の全テキストについて、取得日時毎の数を示すグラフを表示する。

0066

ユーザ等は、図8の代表テキスト表示領域81を参照し、概要レベルで、全体的な不具合、及び、発生数の多い不具合(「異音がする」)を把握できる。また、ユーザ等は、属性情報表示領域83を参照し、不具合の発生数が多い属性(「B社」)を把握できる。さらに、ユーザ等は、時系列表示領域84を参照し、不具合の発生数が多い期間(「2015/3−5」等)を把握できる。

0067

次に、受付部55は、クラスタリング画面80において、表示条件(代表テキスト、属性値、取得期間)の指定を受け付ける(ステップS105)。

0068

ここで、受付部55は、例えば、代表テキスト表示領域81に表示されている代表テキストの、マウスによるクリックを検出することにより、代表テキストの指定を受け付ける。また、受付部55は、属性情報表示領域83に表示されている属性値の、マウスによるクリックを検出することにより、属性値の指定を受け付ける。また、受付部55は、時系列表示部54に表示されている時系列の、特定の取得日時の範囲のマウスによるドラッグを検出することにより、取得期間の指定を受け付ける。

0069

以降、ステップS104からの処理が繰り返され、表示条件を受け付けるたびに、表示条件に応じて、クラスタリング画面80が更新される。

0070

以下、表示条件のいくつかの例を用いて、ステップS104、S105の動作を説明する。

0071

<表示条件として代表テキストが指定された場合>
ユーザ等が、図8の代表テキスト表示領域81において最も発生数が多い概要レベルの不具合「異音がする」について、詳細を確認する場合を考える。例えば、受付部55は、図8の代表テキスト表示領域81において、ユーザ等から、表示条件として、代表テキストT5「異音がする」の指定を受け付ける。

0072

図9は、本発明の第1の実施の形態における、クラスタリング画面80(代表テキスト指定時)の例を示す図である。

0073

要素テキスト表示部52は、図9のように、要素テキスト表示領域82に、対象要素テキストである、代表テキストT5を含意する(クラスタC2に属する)要素テキストT2、T3、T5、T7、T10、…を表示する。

0074

代表テキスト表示部51は、図9のように、代表テキスト表示領域81の各代表テキストを含意する要素テキストの数を、各代表テキストと代表テキストT5とを含意する要素テキストの数で更新する。属性情報表示部53は、図9のように、属性情報表示領域83を、代表テキストT5を含意する要素テキストの内の、各属性値を有する要素テキストの数で更新する。時系列表示部54は、図9のように、時系列表示領域84を、代表テキストT5を含意する要素テキストの時系列で更新する。

0075

ユーザ等は、図9の要素テキスト表示領域82を参照し、概要レベルの不具合(「異音がする」)の詳細を把握できる。

0076

<表示条件として複数の代表テキストが指定された場合>
ユーザ等が、図9の代表テキスト表示領域81における概要レベルの不具合「異音がする」と「エンストした」の両方に属する不具合について、詳細を確認する場合を考える。例えば、受付部55は、図9の代表テキスト表示領域81において、ユーザ等から、表示条件として、さらに代表テキストT9「エンストした」の指定の追加を受け付ける。

0077

図10は、本発明の第1の実施の形態における、クラスタリング画面80(複数の代表テキスト指定時)の例を示す図である。

0078

要素テキスト表示部52は、図10のように、要素テキスト表示領域82に、対象要素テキストである、代表テキストT5とT9との両方を含意する(クラスタC2とC3に属する)要素テキストT2、T7、…を表示する。

0079

ユーザ等は、図10の要素テキスト表示領域82を参照し、概要レベルの複数の不具合「異音がする」及び「エンストした」の両方に属する不具合の詳細を把握できる。

0080

なお、要素テキスト表示部52は、対象要素テキストとして、代表テキストT5とT9との両方を含意する要素テキストの代わりに、代表テキストT5とT9の内の少なくとも一方を含意する要素テキストを表示してもよい。

0081

<表示条件として属性値が指定された場合>
ユーザ等が、図8の属性情報表示領域83において、最も不具合の発生数が多いメーカ「B社」について、概要レベルの不具合を確認する場合を考える。例えば、受付部55は、図8の属性情報表示領域83において、ユーザ等から、表示条件として、属性値「B社」の指定を受け付ける。

0082

図11は、本発明の第1の実施の形態における、クラスタリング画面80(属性値指定時)の例を示す図である。

0083

要素テキスト表示部52は、図11のように、要素テキスト表示領域82に、対象要素テキストである、属性値「B社」を有する要素テキストT2、T6、T7、T9、T10、…を表示する。

0084

ユーザ等は、図11の代表テキスト表示領域81を参照し、概要レベルで、メーカ「B社」について、発生数の多い不具合(「異音がする」)を把握できる。また、ユーザ等は、時系列表示領域84を参照し、メーカ「B社」について、不具合の発生数が多い取得期間(「2015/3−5」、「2015/10−12」)を把握できる。

0085

<表示条件として属性値、及び、取得期間が指定された場合>
ユーザ等が、図11のクラスタリング画面80において、メーカ「B社」の不具合の発生数が多い取得期間「2015/10−2015/12」について、不具合の詳細を確認する場合を考える。例えば、受付部55は、図11のクラスタリング画面80の時系列表示領域84において、ユーザ等から、表示条件として、さらに、取得期間「2015/10−2015/12」の指定を受け付ける。

0086

図12は、本発明の第1の実施の形態における、クラスタリング画面80(属性値、及び、取得期間指定時)の例を示す図である。

0087

要素テキスト表示部52は、図12のように、要素テキスト表示領域82に、属性値「B社」を有し、かつ、取得日時が取得期間「2015/10−2015/12」内の要素テキストT101、T102、…を表示する。

0088

ユーザ等は、図12の代表テキスト表示領域81を参照し、概要レベルで、メーカ「B社」の取得期間(「2015/10−2015/12」)について、発生数の多い不具合(「警告灯点灯した」)を把握できる。

0089

<表示条件として属性値、取得期間、及び、代表テキストが指定された場合>
ユーザ等が、図12のクラスタリング画面80において、メーカ「B社」の取得期間(「2015/10−2015/12」)で、最も発生数が多い概要レベルの不具合「警告灯が点灯した」について、詳細を確認する場合を考える。例えば、受付部55は、図12の代表テキスト表示領域81において、ユーザ等から、表示条件として、さらに、代表テキストT1「警告灯が点灯した」の指定を受け付ける。

0090

図13は、本発明の第1の実施の形態における、クラスタリング画面80(属性値、取得期間、及び、代表テキスト指定時)の例を示す図である。

0091

要素テキスト表示部52は、図13のように、要素テキスト表示領域82に、対象要素テキストである、属性値「B社」を有し、取得日時が取得期間「2015/10−2015/12」内であり、代表テキストT1を含意する要素テキストを表示する。

0092

ユーザ等は、図13の要素テキスト表示領域82を参照し、メーカ「B社」の取得期間(「2015/10−2015/12」)について、概要レベルの不具合(「警告灯が点灯した」)の詳細を把握できる。

0093

なお、ここでは、表示条件が「代表テキスト」、「複数の代表テキスト」、「属性値」、「属性値、及び、取得期間」、「属性値、取得期間、及び、代表テキスト」の場合を例に説明した。しかしながら、これに限らず、表示条件として、「代表テキスト」、「属性値」、及び、「取得期間」の内の1以上の任意の組み合わせが指定されてもよい。

0094

以上により、本発明の第1の実施の形態の動作が完了する。

0095

なお、本発明の第1の実施の形態では、クラスタリング対象のテキストが、自動車の不具合報告に係るテキストである場合を例に説明した。しかしながら、これに限らず、クラスタリング対象のテキストは、様々な現象や原因、対策、意見、評価、苦情要望等、どのような内容に係るテキストでもよい。

0096

また、本発明の第1の実施の形態では、要素テキスト表示部52は、表示条件が指定されていない段階では、クラスタリング対象の全テキストを対象要素テキストとして、要素テキスト表示領域82に表示した。これに限らず、要素テキスト表示部52は、表示条件が指定されていない段階では、対象要素テキストの表示を省略してもよい。

0097

また、本発明の第1の実施の形態では、要素テキスト表示部52は、抽出した対象要素テキストの表示方法として、抽出した対象要素テキストのみを要素テキスト表示領域82に表示した。これに限らず、要素テキスト表示部52は、クラスタリング対象の全テキスト、或いは、特定のテキストを表示したまま、抽出した対象要素テキストのみを強調表示してもよい。

0098

また、本発明の第1の実施の形態では、クラスタリング対象の各テキストに、当該テキストに係る日時として、取得日時が付与されている場合を例に説明した。しかしながら、これに限らず、各テキストには、取得日時の代わりに、当該テキストの内容の発生日時や当該テキストの内容が電話等で通知された時の入電日時が付与されていてもよい。

0099

また、本発明の第1の実施の形態では、表示条件として、「代表テキスト」、「属性値」、及び、「取得期間」の組み合わせが指定される場合を例に説明した。しかしながら、これに限らず、表示条件が、さらに、テキストに係る任意のキーワードを含んでいてもよい。この場合、受付部55は、クラスタリング画面80において、ユーザ等から、表示条件として、キーワードの指定を受け付ける。要素テキスト表示部52は、要素テキスト表示領域82に、対象要素テキストとして、指定されたキーワードを含む要素テキストを表示する。

0100

例えば、受付部55が、図8のクラスタリング画面80において、表示条件として、キーワード「エンジン」の指定を受け付けたと仮定する。この場合、要素テキスト表示部52は、要素テキスト表示領域82に、対象要素テキストである、キーワード「エンジン」を含む要素テキストT2、T4、T7、…を表示する。

0101

次に、本発明の第1の実施の形態の基本的な構成を説明する。

0102

図1は、本発明の第1の実施の形態の基本的な構成を示すブロック図である。図1を参照すると、本発明のクラスタリングシステム1(テキスト可視化システム)は、代表テキスト表示部51(第1の表示部)、受付部55、及び、要素テキスト表示部52(第2の表示部)を含む。クラスタリングシステム1は、複数のテキスト、及び、当該複数のテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶部にアクセス可能に接続される。代表テキスト表示部51は、複数の代表テキストを表示する。受付部55は、複数の代表テキストの内の特定の代表テキストの指定を受け付ける。要素テキスト表示部52は、特定の代表テキストの指定を受け付けたことに応じて、複数のテキストから、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示する。

0103

次に、本発明の第1の実施の形態の効果を説明する。

0104

上述のキーワードをベースにしたクラスタリングでは、各クラスタの観点が不明確となるため、観点を明確にするためのユーザの作業が必要であった。例えば、上述の図5のテキストデータに対して、単なるキーワードをベースにしたクラスタリングや、キーワードとキーワードの係り受けをベースにしたクラスタリングを行っても、テキストT9、T2、及び、T4がそれぞれ別のクラスタに分類される。この場合、同じ観点のテキストが複数のクラスタに分類されるため、クラスタ内のテキストの確認が必要である。

0105

本発明の第1の実施の形態によれば、テキストのクラスタリングの結果を効率よく把握できる。その理由は、代表テキスト表示部51が、複数の代表テキストを表示し、要素テキスト表示部52が、特定の代表テキストの指定を受け付けたことに応じて、当該指定された特定の代表テキストを含意する要素テキストを抽出して表示するためである。

0106

これにより、ユーザは、最初に、代表テキストにより、概要レベルで観点を把握でき、次に、特定の観点の代表テキストを指定することで、当該観点のクラスタに分類された各テキストの詳細を把握できる。すなわち、ユーザは、クラスタリング結果を、概要から詳細のように、ドリルダウン式で分析できる。

0107

クラスタは、観点毎に生成されるため、ユーザは、上述のキーワードをベースにしたクラスタリングの場合のように、観点を明確にするために複数のクラスタのテキストを確認し、テキストの再分類を行う必要はない。例えば、本発明の第1の実施の形態では、上述のテキストT2とT4は、テキストT9の要素テキストとして、同じクラスタに分類されている。

0108

また、上述のキーワードをベースにしたクラスタリングでは、クラスタに関連するキーワードが提示されるだけであるため、クラスタの内容を理解することが難しかった。

0109

本発明の第1の実施の形態によれば、クラスタリング結果を、人間にとって理解しやすく提示できる。その理由は、代表テキスト表示部51が、各クラスタの代表テキストとして、自然文で記述されたテキストを表示するためである。

0110

また、上述のキーワードをベースにしたクラスタリングでは、各クラスタの観点が不明確となるため、複数のクラスタを指定しても、複数の観点を有するテキストを抽出することは難しかった。

0111

本発明の第1の実施の形態によれば、テキストのクラスタリングにおいて、複数の観点に係るテキストを効率よく把握できる。その理由は、要素テキスト表示部52が、複数の特定の代表テキストの指定を受け付けたことに応じて、当該指定された複数の特定の代表テキストの全てを含意する要素テキストを抽出して表示するためである。

0112

クラスタは、観点毎に生成されるため、複数のクラスタを指定することで、複数の観点に係るテキストを抽出できる。

0113

また、テキストにクラスタリングにおいて、特定の属性値や取得日時のテキストをクラスタリングしただけでは、その属性値や取得日時に対する局所的なクラスタが生成されてしまうことがあった。

0114

本発明の第1の実施の形態によれば、テキストのクラスタリングにおいて、さまざまな属性値、あるいは、取得日時を有するようなテキストに対して、網羅的なクラスタを用いて分析を行うことができる。その理由は、表示制御部50が、クラスタリング対象の全テキストについて得られた含意クラスタリングの結果に対して、属性値や取得日時毎の要素テキストの数の表示や、属性値や取得日時の条件に適合する要素テキストの抽出を行うためである。これにより、異なる属性値や取得日時の間で、共通な観点を用いて、クラスタリングの結果を比較できる。

0115

(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。

0116

本発明の第2の実施の形態では、表示制御部50が分析テーブル91を表示する点において、本発明の第1の実施の形態と異なる。

0117

はじめに、本発明の第2の実施の形態の構成を説明する。

0118

図14は、本発明の第2の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。

0119

図14を参照すると、本発明の第2の実施の形態のクラスタリングシステム1は、本発明の第1の実施の形態のクラスタリングシステム1の構成に加えて、表示制御部50に、さらに、分析結果表示部56(または、第5の表示部)を含む。

0120

分析結果表示部56は、要素テキストが含意する代表テキスト(要素テキストが属するクラスタ)と当該要素テキストが有する属性値の関係性相関)を表す分析テーブル91を生成し、表示する。

0121

次に、本発明の第2の実施の形態の動作を説明する。

0122

上述のステップS105で、表示制御部50の受付部55は、クラスタリング画面80において、分析テーブル91の作成指示を受け付ける。

0123

分析結果表示部56は、クラスタリング結果をもとに、代表テキストと属性値との各組について、要素テキストの数を集計する。分析結果表示部56は、集計結果を表す集計表を、分析テーブル91として生成する。

0124

図15は、本発明の第2の実施の形態における、分析画面90(集計表表示時)の例を示す図である。分析画面90は、分析テーブル91(集計表)を含む。図15の例では、分析テーブル91(集計表)において、代表テキストT9、T5、T1の各々と属性値「A社」、「B社」、「C社」の各々の組について、当該代表テキストを含意し、当該属性値を有する要素テキストの数が表示されている。

0125

例えば、分析結果表示部56は、図7のクラスタリング結果をもとに、図15のような分析テーブル91を生成し、分析画面90に表示する。

0126

また、分析結果表示部56は、上述の集計表に対して、さらに、調整済み標準化残差を計算したテーブルを、分析テーブル91として生成してもよい。

0127

図16は、本発明の第2の実施の形態における、分析画面90(調整済み標準化残差表示時)の例を示す図である。調整済み標準化残差テーブルでは、集計表の各セルについて、代表テキストと属性値とが独立として仮定して算出した期待値と実際の値との残差が算出され、残差が大きい場合、これらは独立していない、すなわち、相関性が高いと判断される。例えば、調整済み標準化残差の値が、+2以上/−2以下であれば、5%の水準で、集計表の各セルの値が、有意に多い/少ないと判断される。

0128

図16の例では、分析テーブル91(調整済み標準化残差テーブル)において、代表テキストT9、T5、T1の各々と属性値「A社」、「B社」、「C社」の各々の組について、調整済み標準化残差が表示されている。そして、調整済み標準化残差の値が+2以上のセルが強調して表示されている。

0129

例えば、分析結果表示部56は、図15の集計表をもとに、図16のような分析テーブル91(調整済み標準化残差テーブル)を生成し、分析画面90に表示する。

0130

ユーザ等は、図16の分析テーブル91を参照し、発生数が多い概要レベルの不具合と属性値との組(「A社」は「異音がする」が多く、「B社」は「警告灯が点灯した」が多く、「C社」は「エンストした」が多い)を把握できる。

0131

なお、分析結果表示部56は、各代表テキストと各属性値との間の関係性が算出できれば、他の方法により算出された関係性を表すテーブルを分析テーブル91として生成してもよい。例えば、分析結果表示部56は、調整済み標準化残差の代わりに、集計表の各セルについて、標準化残差や、単に残差を算出したテーブルを生成してもよい。また、分析結果表示部56は、カイ二乗値対数尤度比(log-likelihood ratio)により、各代表テキストと各属性値との間の関係性を示してもよい。

0132

次に、本発明の第2の実施の形態の効果を説明する。

0133

本発明の第2の実施の形態によれば、テキストのクラスタリングにおいて、観点と属性値との関係性を把握できる。その理由は、分析結果表示部56が、要素テキストが含意する代表テキストと当該要素テキストが有する属性値の関係性を表す分析テーブル91を生成し、表示するためである。

0134

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0135

以下、参考形態の例を付記する。

0136

(付記1)
テキスト間の含意関係を抽出し、含意関係があるテキストを同じグループに分類することによりクラスタリングされた情報源と、前記情報源から、前記含意関係があるテキストの中からクラスタの代表として選択された代表テキストを複数提示して、選択を受け付ける第1の提示手段と、前記代表テキストの選択に応じて、前記情報源から、前記代表テキストを含意する要素テキストを抽出して表示する第2の提示手段と、を備える、テキスト可視化システム。

0137

本発明は、大量文書データをクラスタリングするシステムに適用できる。例えば、本発明は、製品サービスの改善、マーケティング、営業活動の効率化のために、コールログや顧客の意見等を分析するシステムに適用できる。また、本発明は、製品の不具合や製品に対する評価や要望を分析するシステム、学術文献等を分析するシステムにも適用できる。また、本発明は、カスタマーサポートに対する質問を分析して、FAQ(Frequently Asked Questions)を生成するシステムにも適用できる。

0138

1クラスタリングシステム
2 CPU
3記憶デバイス
4通信デバイス
5入力デバイス
6出力デバイス
10 記憶部
20含意関係抽出部
30クラスタリング部
50表示制御部
51 代表テキスト表示部
52要素テキスト表示部
53属性情報表示部
54時系列表示部
55 受付部
56分析結果表示部
80 クラスタリング画面
81 代表テキスト表示領域
82 要素テキスト表示領域
83 属性情報表示領域
84時系列表示領域
90分析画面
91 分析テーブル

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ