図面 (/)

技術 情報処理システム、情報処理方法、及び、プログラム

出願人 日本電気株式会社
発明者 大西貴士山本康高
出願日 2015年1月28日 (5年11ヶ月経過) 出願番号 2015-014212
公開日 2016年8月4日 (4年4ヶ月経過) 公開番号 2016-139299
状態 特許登録済
技術分野 機械翻訳 検索装置
主要キーワード 代表候補 技術効果 自動グループ 所定数前 会話テキスト クラスタリングシステム 分割ルール 部分テキスト
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年8月4日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

会話テキストに対する含意クラスタリングの精度を向上させる。

解決手段

クラスタリングシステム1の代表候補抽出部22は、1以上の会話テキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、代表候補として抽出する。メンバ候補抽出部23は、1以上の会話テキストの各々において、所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、メンバ候補として抽出する。部分テキスト出力部24は、抽出された代表候補とメンバ候補とを、含意関係を抽出すべき部分テキストとして出力する。

概要

背景

コールセンタには、顧客から様々な製品サービスに対する不満要望等の意見が寄せられる。このような顧客の意見に基づいて、サービスを改善したり、製品開発に活かしたりすることが企業にとって重要である。顧客の意見を集計する場合、コールセンタにおいて収録された音声を聞いて集計すると、コストが高くなる。また、オペレータが顧客の意見を要約して入力すると、オペレータの業務が増える、あるいは、入力内容ぶれや抜けが生じる可能性がある。そのため、収録された音声に対して音声認識により生成した会話テキストから意見を抽出、及び、要約し、集計することが望まれる。

このような、テキストに含まれる意見の集計に利用可能な技術として、例えば、非特許文献1には、テキスト間含意関係を抽出し、含意関係があるテキストを同じグループ分類する、含意クラスタリング技術が開示されている。含意関係とは、テキスト間の意味の関係であり、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義される。含意クラスタリング技術では、グループ内のテキストが共通に含意するテキストが代表文として抽出される。このような含意クラスタリング技術を用いることにより、テキストに含まれる話題の観点をもれなく、かつ、明確に抽出できる。

概要

会話テキストに対する含意クラスタリングの精度を向上させる。クラスタリングシステム1の代表候補抽出部22は、1以上の会話テキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、代表候補として抽出する。メンバ候補抽出部23は、1以上の会話テキストの各々において、所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、メンバ候補として抽出する。部分テキスト出力部24は、抽出された代表候補とメンバ候補とを、含意関係を抽出すべき部分テキストとして出力する。

目的

本発明の目的は、上述の技術課題を解決し、会話テキストに対する含意クラスタリングの精度を向上できる、情報処理システム情報処理方法、及び、プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出する、被含意候補抽出手段と、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出する、含意候補抽出手段と、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、出力手段と、を備えた情報処理システム

請求項2

前記被含意候補抽出手段は、前記所定の内容に係る区間の内、主語述語とを含む区間を、前記被含意候補テキストとして抽出する、請求項1に記載の情報処理システム。

請求項3

前記被含意候補抽出手段は、前記所定の内容に係る区間の内、所定の文や表現を含む区間を、前記被含意候補テキストとして抽出する、請求項1に記載の情報処理システム。

請求項4

前記含意候補抽出手段は、前記所定の内容に係る区間を含む、連続する複数の区間からなる区間を、前記含意候補テキストとして抽出する、請求項1乃至3のいずれかに記載の情報処理システム。

請求項5

さらに、前記部分テキスト間の含意関係を抽出する含意関係抽出手段を備えた、請求項1乃至4のいずれかに記載の情報処理システム。

請求項6

前記含意関係抽出手段は、前記部分テキスト間の含意関係の内、前記含意候補テキスト間の含意関係と、前記被含意候補テキストが前記含意候補テキストを含意する含意関係と、を除いた含意関係の有無を判定する、請求項5に記載の情報処理システム。

請求項7

前記含意関係抽出手段は、前記含意候補テキストが前記被含意候補テキストを含意すると判定したときに、当該被含意候補テキストが他の被含意候補テキストを含意すると判定済みの場合、当該含意候補テキストが当該他の被含意候補テキストを含意すると判定する、請求項6に記載の情報処理システム。

請求項8

さらに、前記抽出された含意関係をもとに、前記部分テキストの内の一の部分テキストを含意する部分テキストをメンバとするグループを生成する、グループ生成手段を備えた、請求項1乃至7に記載の情報処理システム。

請求項9

1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、情報処理方法

請求項10

コンピュータに、1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、処理を実行させるプログラム

技術分野

0001

本発明は、情報処理システム情報処理方法、及び、プログラムに関する。

背景技術

0002

コールセンタには、顧客から様々な製品サービスに対する不満要望等の意見が寄せられる。このような顧客の意見に基づいて、サービスを改善したり、製品開発に活かしたりすることが企業にとって重要である。顧客の意見を集計する場合、コールセンタにおいて収録された音声を聞いて集計すると、コストが高くなる。また、オペレータが顧客の意見を要約して入力すると、オペレータの業務が増える、あるいは、入力内容ぶれや抜けが生じる可能性がある。そのため、収録された音声に対して音声認識により生成した会話テキストから意見を抽出、及び、要約し、集計することが望まれる。

0003

このような、テキストに含まれる意見の集計に利用可能な技術として、例えば、非特許文献1には、テキスト間含意関係を抽出し、含意関係があるテキストを同じグループ分類する、含意クラスタリング技術が開示されている。含意関係とは、テキスト間の意味の関係であり、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義される。含意クラスタリング技術では、グループ内のテキストが共通に含意するテキストが代表文として抽出される。このような含意クラスタリング技術を用いることにより、テキストに含まれる話題の観点をもれなく、かつ、明確に抽出できる。

0004

特許第5387870号公報

先行技術

0005

NEC、大量の文書データを同じ意味で自動グループ化する技術を開発」、[online]、日本電気株式会社、[平成27年1月8日検索]、インターネット

発明が解決しようとする課題

0006

会話テキストは、文書として構造化されておらず、挨拶冗長語、あるいは、クラスタリング対象の意見以外の冗長部分を含むテキストである。このため、会話テキストについては、このような冗長部分を除去しないと、含意関係の抽出が正しく行われない可能性がある。

0007

また、会話テキストは、例えば、音声認識による無音区間よって分割され、文法的な文と異なる単位で文が生成される。このため、文単位で含意クラスタリングを行うと、短すぎる文を中心にグループが形成され、意味のある意見の集計が行えない可能性がある。

0008

さらに、会話テキストでは、会話の流れの中で主語述語が離れ、意見が一つの文で的確に表現されないことがある。この場合、含意クラスタリングの対象として、例えば、複数の文の内、意見が的確に表現されている部分だけを抽出すると、集計に漏れが生じる可能性がある。逆に、含意クラスタリングの対象として、複数の文にまたがった大きな区間を抽出すると、上述の冗長部分が含まれてしまい、含意関係の抽出が行われない可能性がある。

0009

このように、会話テキストに含意クラスタリング技術を適用すると、クラスタリング精度が低下するという技術課題があった。

0010

本発明の目的は、上述の技術課題を解決し、会話テキストに対する含意クラスタリングの精度を向上できる、情報処理システム、情報処理方法、及び、プログラムを提供することである。

課題を解決するための手段

0011

上述の技術課題を解決するための技術手段として、本発明の情報処理システムは、1以上のテキストの各々から、他の部分テキストにより含意される可能性が高い部分テキストである被含意候補テキストを抽出する被含意候補抽出手段と、前記1以上のテキストの各々から、他の部分テキストを含意する可能性が高い部分テキストである含意候補テキストを抽出する含意候補抽出手段と、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき複数の部分テキストとして出力する出力手段と、を備える。

0012

本発明の情報処理方法は、1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する。

0013

本発明のプログラムは、コンピュータに、1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、処理を実行させる。

発明の効果

0014

本発明の技術効果は、会話テキストに対する含意クラスタリングの精度を向上できることである。

図面の簡単な説明

0015

本発明の第1の実施の形態の基本的な構成を示すブロック図である。
本発明の第1の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。
本発明の第1の実施の形態における、コンピュータにより実現されたクラスタリングシステム1の構成を示すブロック図である。
本発明の第1の実施の形態における、クラスタリングシステム1の動作を示すフローチャートである。
本発明の第1の実施の形態における、会話テキスト81の例を示す図である。
本発明の第1の実施の形態における、部分テキスト抽出の例を示す図である。
本発明の第1の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果を示す図である。
本発明の第1の実施の形態における、グループ84の生成結果を示す図である。
本発明の第2の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果を示す図である。
本発明の第2の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果の他の例を示す図である。

実施例

0016

(第1の実施の形態)
本発明の第1の実施の形態について説明する。

0017

本発明の第1の実施の形態では、コールセンタにおける会話テキスト81をもとに、製品について発生した不具合に係る含意クラスタリングを行う場合を例に説明する。

0018

また、本発明の第1の実施の形態では、含意関係を、特許文献1と同様に、次のように定義する。すなわち、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義する。また、第1のテキストの内容が真であるならば第2のテキストの内容が真である場合、第1のテキストが第2のテキストを含意すると定義してもよい。

0019

はじめに、本発明の第1の実施の形態の構成を説明する。

0020

図2は、本発明の第1の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。

0021

図2を参照すると、本発明の第1の実施の形態におけるクラスタリングシステム1は、会話テキスト記憶部10、部分テキスト抽出部20、部分テキスト記憶部30、含意関係抽出部40、及び、グループ生成部50を含む。クラスタリングシステム1は、本発明の情報処理システムの一実施形態である。

0022

会話テキスト記憶部10は、1以上の会話テキスト81(または、単にテキスト)を記憶する。

0023

部分テキスト抽出部20は、会話テキスト81から、クラスタリング(含意関係の抽出、及び、グループの生成)の対象である、複数の部分テキストを抽出する。部分テキスト抽出部20は、このような部分テキストとして、後述する、代表候補82(または、被含意候補テキスト)とメンバ候補83(または、含意候補テキスト)とを抽出する。

0024

部分テキスト記憶部30は、部分テキスト抽出部20により抽出された部分テキスト(代表候補82、メンバ候補83)を記憶する。

0025

含意関係抽出部40は、部分テキスト記憶部30に記憶された部分テキスト間の含意関係を抽出する。

0026

グループ生成部50は、含意関係抽出部40により抽出された部分テキスト間の含意関係をもとに、部分テキストの内のある部分テキストを代表テキスト、当該部分テキストを含意する他の部分テキストをメンバとするグループを生成する。代表テキストは、グループを代表する(グループの概観を把握できる)テキストである。

0027

上述の部分テキスト抽出部20は、発話区間抽出部21、代表候補抽出部22(または、被含意候補抽出部)、メンバ候補抽出部23(または、含意候補抽出部)、及び、部分テキスト出力部24(または、単に、出力部)を含む。

0028

発話区間抽出部21は、各会話テキスト81を、複数の発話区間91(または、単に、区間)に分割し、当該複数の発話区間91から、対象区間92を抽出する。対象区間92は、複数の発話区間91の内、クラスタリング対象の話題や内容(所定の内容)の少なくとも一部が含まれている区間(所定の内容に係る区間)である。所定の内容としては、製品に係るコールセンタの会話テキスト81をクラスタリングする場合、例えば、製品について発生した不具合等の現象や、その原因、対策、あるいは、製品についての要求、不満、評価等の意見が用いられる。

0029

代表候補抽出部22は、発話区間抽出部21により抽出された対象区間92の内、クラスタリング対象の内容が明示されている(的確、簡潔に表している)可能性が高い対象区間92を、代表候補82として抽出する。

0030

メンバ候補抽出部23は、発話区間抽出部21により抽出された対象区間92を包含する、当該対象区間92より大きな区間を、メンバ候補83として抽出する。

0031

部分テキスト出力部24は、抽出された代表候補82とメンバ候補83とを、クラスタリングを行う単位である、部分テキストとして出力する。

0032

ここで、上述のように、代表候補82は、クラスタリング対象の内容が明示されている可能性が高い対象区間92である。一方、メンバ候補83は、クラスタリング対象の内容の少なくとも一部を含む対象区間92を包含し、対象区間92より大きな区間である。したがって、代表候補82は、メンバ候補83に比べて少ない単語数で、クラスタリング対象の内容を、的確、簡潔に表している可能性が高い。また、メンバ候補83は、クラスタリング対象の内容ではない冗長部分を含むものの、クラスタリング対象の内容を表している可能性が高い。このため、代表候補82とメンバ候補83とをクラスタリングを行う単位として、含意クラスタリングを行えば、代表候補82を代表テキスト、当該代表候補82を含意するメンバ候補83をメンバに設定したグループが生成される可能性が高い。すなわち、含意クラスタリングにおいて、クラスタリング対象の内容が明示されている代表テキストと、当該代表テキストを含意するメンバとからなる、適切なグループが生成できる。

0033

なお、クラスタリングシステム1は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。

0034

図3は、本発明の第1の実施の形態における、コンピュータにより実現されたクラスタリングシステム1の構成を示すブロック図である。

0035

クラスタリングシステム1は、CPU2、ハードディスクメモリ等の記憶デバイス(記憶媒体)3、他の装置等と通信を行う通信デバイス4、マウスキーボード等の入力デバイス5、及び、ディスプレイ等の出力デバイス6を含む。

0036

CPU2は、部分テキスト抽出部20、含意関係抽出部40、及び、グループ生成部50の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス3は、会話テキスト記憶部10、及び、部分テキスト記憶部30のデータを記憶する。入力デバイス5は、利用者等から、会話テキスト81の入力を受け付ける。出力デバイス6は、利用者等へ、抽出された部分テキストや含意関係、生成されたグループを出力する。また、通信デバイス4が、他の装置から会話テキスト81を受信し、他の装置へ部分テキストや含意関係、グループを送信してもよい。

0037

また、クラスタリングシステム1は、図2に示された各構成要素が、有線または無線で接続された複数の物理的な装置に分散的に配置されることより構成されていてもよい。

0038

次に、本発明の第1の実施の形態の動作について説明する。

0039

図5は、本発明の第1の実施の形態における、会話テキスト81の例を示す図である。会話テキスト81は、例えば、コールセンタにおいて収録された音声データに対する音声認識により生成される。図5において、会話テキスト81a、b、…に付与されている「CU:」、「OP:」は、それぞれ、顧客、オペレータの発話であることを示す。

0040

ここでは、図5のような会話テキスト81が、会話テキスト記憶部10に記憶されていると仮定する。なお、会話テキスト記憶部10は、各会話の会話テキスト81を、当該会話の音声データともに関連付けて記憶していてもよい。

0041

図4は、本発明の第1の実施における、クラスタリングシステム1の動作を示すフローチャートである。

0042

はじめに、部分テキスト抽出部20の発話区間抽出部21は、会話テキスト記憶部10に記憶されている各会話テキスト81を、複数の発話区間91に分割する(ステップS101)。

0043

ここで、発話区間抽出部21は、例えば、会話テキスト81を、話者交代に応じて分割する。この場合、発話区間抽出部21は、話者毎に用意されたマイクロフォンにおける音声の検出状況をもとに、話者の交代を検出してもよい。また、発話区間抽出部21は、音声データをもとに話者を認識することにより、話者の交代を検出してもよい。

0044

また、発話区間抽出部21は、会話テキスト81を、所定の時間長以上の無音区間で分割してもよい。

0045

また、発話区間抽出部21は、会話テキスト81を、言語に応じた文法的な文単位で分割してもよい。

0046

また、発話区間抽出部21は、会話テキスト81を、予め設定された分割ルールに基づいて分割してもよい。この場合、分割ルールには、例えば、発言先頭末尾に現れる表現や単語が設定される。そして、発話区間抽出部21は、それらの表現や単語で会話テキスト81を分割する。また、この場合、分割ルールは、機械学習により学習された分割ルールでもよい。

0047

なお、発話区間抽出部21は、発話区間91の抽出結果から、挨拶や冗長語のみを含むような発話区間91を除外してもよい。

0048

図6は、本発明の第1の実施の形態における、部分テキスト抽出の処理例を示す図である。

0049

例えば、発話区間抽出部21は、図6に示すように、図5の会話テキスト81aを、話者(オペレータ、顧客)に応じて、発話区間91a1、a2、…に分割する。同様に、発話区間抽出部21は、会話テキスト81bを、発話区間91b1、b2、…に分割する。

0050

発話区間抽出部21は、発話区間91から、対象区間92を抽出する(ステップS102)。

0051

ここで、発話区間抽出部21は、例えば、予め設定された対象抽出ルールに基づいて、対象区間92を抽出してもよい。この場合、対象抽出ルールには、例えば、クラスタリング対象である所定の内容を表すときに用いられる表現や単語が設定される。そして、発話区間抽出部21は、それらの表現や単語が含まれる発話区間91を対象区間92として抽出する。また、この場合、対象抽出ルールは、機械学習により学習された対象抽出ルールでもよい。

0052

例えば、クラスタリング対象の内容が、製品についての不具合であり、不具合を表す単語として、「動かない」、「フリーズ」等が対象抽出ルールに設定されていると仮定する。この場合、発話区間抽出部21は、図6に示すように、会話テキスト81aについて、単語「動かない」を含む発話区間91a5を対象区間92a1として抽出する。同様に、発話区間抽出部21は、会話テキスト81bについて、単語「フリーズ」を含む発話区間91b4、91b6を対象区間92b1、92b2として抽出する。

0053

代表候補抽出部22は、発話区間抽出部21により抽出された対象区間92から、代表候補82を抽出する(ステップS103)。

0054

ここで、代表候補抽出部22は、クラスタリング対象である所定の内容が明示されている可能性が高い対象区間92を、代表候補82として抽出する。

0055

代表候補抽出部22は、所定の内容が明示されている可能性が高い対象区間92として、例えば、主語と述語とを含む対象区間92を、代表候補82として抽出する。この場合、代表候補抽出部22は、代表候補82の抽出結果から、主語や述語に指示語を含む代表候補82を除外してもよい。また、代表候補抽出部22は、体言用言とを所定数以上含む対象区間92を、代表候補82として抽出してもよい。

0056

また、代表候補抽出部22は、予め設定された代表候補抽出ルールに基づいて、代表候補82を抽出してもよい。この場合、代表候補抽出ルールには、例えば、クラスタリング対象である所定の内容を明確に表す文や表現が設定される。そして、代表候補抽出部22は、それらの文や表現が含まれる対象区間92を代表候補82として抽出する。また、この場合、代表候補抽出ルールは、機械学習により学習された代表候補抽出ルールでもよい。

0057

例えば、主語と述語とを含む対象区間92を代表候補82として抽出する場合、図6に示すように、会話テキスト81aの対象区間92a1には、主語が含まれない。したがって、代表候補抽出部22は、会話テキスト81aについては、代表候補82を抽出しない。一方、会話テキスト81bの対象区間92b1は、主語「PC」と述語「フリーズ」を含む。したがって、代表候補抽出部22は、対象区間92b1を代表候補82_1として抽出する。同様に、代表候補抽出部22は、対象区間92b2を代表候補82_2として抽出する。

0058

メンバ候補抽出部23は、発話区間抽出部21により抽出された発話区間91から、メンバ候補83を抽出する(ステップS104)。

0059

ここで、メンバ候補抽出部23は、例えば、対象区間92を含む複数の発話区間91を、メンバ候補83として抽出する。この場合、メンバ候補抽出部23は、対象区間92の所定数前の発話区間91から所定数後の発話区間91までを、メンバ候補83として抽出してもよい。また、メンバ候補抽出部23は、対象区間92の所定時間前の発話区間91から所定時間後の発話区間91までを、メンバ候補83として抽出してもよい。また、異なる二つのメンバ候補83が重なっている、もしくは、連続する場合、メンバ候補抽出部23は、これら二つのメンバ候補83をマージしてもよい。

0060

また、メンバ候補抽出部23は、予め設定されたメンバ候補抽出ルールに基づいて、メンバ候補83を抽出してもよい。この場合、メンバ候補抽出ルールには、会話における話題の先頭や末尾に現れる文や表現、単語が設定される。そして、メンバ候補抽出部23は、対象区間92含み、かつ、それらの文や、表現、単語で分割される一連の発話区間91を、メンバ候補83として抽出する。また、この場合、メンバ候補抽出ルールは、機械学習により学習されたメンバ候補抽出ルールでもよい。

0061

例えば、対象区間92の一つ前から一つ後の発話区間91までをメンバ候補83として抽出する場合、メンバ候補抽出部23は、図6に示すように、対象区間92a1を含む発話区間91a4から91a6までを、メンバ候補83_1として抽出する。また、メンバ候補抽出部23は、対象区間92b1、92b2を含む発話区間91b3から91b7までを、メンバ候補83_2として抽出する。

0062

部分テキスト出力部24は、抽出された代表候補82とメンバ候補83とを、クラスタリングを行う単位である部分テキストとして出力し、部分テキスト記憶部30に保存する(ステップS105)。

0063

例えば、部分テキスト出力部24は、会話テキスト81a、bから抽出された、代表候補82_1、82_2、メンバ候補83_1、83_2を、部分テキストとして部分テキスト記憶部30に保存する。

0064

次に、含意関係抽出部40は、部分テキスト記憶部30に記憶された部分テキスト間の含意関係を抽出する(ステップS106)。ここで、含意関係抽出部40は、例えば、特許文献1と同様の判定処理を行うことにより、部分テキスト間の含意関係を抽出する。すなわち、含意関係抽出部40は、部分テキストに含まれる内容語を比較し、被覆率を算出することにより、含意関係の有無を判定する。含意関係抽出部40は、部分テキスト記憶部30に記憶されている部分テキストの二つの組の全てについて、一方の部分テキストが他方の部分テキストを含意する方向、及び、他方の部分テキストが一方の部分テキストを含意する方向について、判定処理を行う。なお、含意関係抽出部40は、部分テキスト間の含意関係を抽出できれば、特許文献1と異なる判定処理により、部分テキスト間の含意関係を判定してもよい。

0065

図7は、本発明の第1の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果を示す図である。図7において、矢印(太線、及び、細線)は、判定処理が行われる部分テキストの組と方向を示す。ここで、矢印の元の部分テキストが矢印の先の部分テキストを含意する方向について、判定処理が行われる。太線は、判定処理の結果、含意関係ありと判定されたことを示す。細線は、判定処理の結果、含意関係なしと判定されたことを示す。

0066

例えば、含意関係抽出部40は、図7に示すように、代表候補82_1とメンバ候補83_1との組について、メンバ候補83_1が代表候補82_1を含意する方向、及び、代表候補82_1がメンバ候補83_1を含意する方向の判定処理を行う。そして、含意関係抽出部40は、メンバ候補83_1が代表候補82_1を含意する方向の含意関係ありと判定する。他の組(代表候補82_1とメンバ候補83_2、代表候補82_2とメンバ候補83_1、代表候補82_2とメンバ候補83_2、代表候補82_1と代表候補82_2、メンバ候補83_1とメンバ候補83_2)についても同様に、判定処理が行われる。この結果、含意関係抽出部40は、図7に示すように、含意関係を抽出する。

0067

グループ生成部50は、含意関係抽出部40により抽出された部分テキスト間の含意関係をもとに、ある部分テキストを代表テキスト、当該部分テキストを含意する他の部分テキストをメンバとするグループ84を生成する(ステップS107)。

0068

図8は、本発明の第1の実施の形態における、グループ84の生成結果を示す図である。例えば、グループ生成部50は、図7の含意関係をもとに、図8に示すように、代表候補82_1を代表テキスト、代表候補82_1を含意する代表候補82_2、メンバ候補83_1、83_2をメンバとするグループ84_1を生成する。同様に、グループ生成部50は、代表候補82_2を代表テキスト、代表候補82_2を含意するメンバ候補83_2をメンバとするグループ84_2生成する。

0069

なお、グループ生成部50は、さらに、異なる二つのグループ間のメンバの重複度合いを基に、当該二つのグループを一つのグループに統合してもよい。

0070

以上により、本発明の第1の実施の形態の動作が完了する。

0071

なお、本発明の第1の実施では、クラスタリング対象のテキストが、複数話者の会話についての音声データをもとに生成された会話テキスト81であり、クラスタリング対象の内容が、製品について発生した不具合である場合を例に説明した。

0072

しかしながら、これに限らず、クラスタリング対象のテキストとして、チャット電子メール、電子掲示板等、テキスト形式のメッセージデータをもとに生成されたテキストを用いてもよい。また、クラスタリング対象のテキストとして、一人の話者によるスピーチに対して生成されたテキストを用いてもよい。また、クラスタリング対象の内容(話題)として、不具合以外の様々な現象や事象、それらの原因、対策等を用いてもよい。また、クラスタリング対象の内容(話題)として、気象災害経済社会等、様々なカテゴリーおける現象や事象等を用いてもよい。また、クラスタリング対象の内容(話題)として、様々なカテゴリーおける話者の要求、不満、評価等、話者の意見を用いてもよい。

0073

次に、本発明の第1の実施の形態の基本的な構成を説明する。

0074

図1は、本発明の第1の実施の形態の基本的な構成を示すブロック図である。図1を参照すると、クラスタリングシステム1(情報処理システム)は、代表候補抽出部22(被含意候補抽出部)、メンバ候補抽出部23(含意候補抽出部)、及び、部分テキスト出力部24(出力部)を含む。

0075

代表候補抽出部22は、1以上の会話テキスト81(テキスト)の各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、代表候補82(被含意候補テキスト)として抽出する。メンバ候補抽出部23は、1以上の会話テキスト81の各々において、所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、メンバ候補83(含意候補テキスト)として抽出する。部分テキスト出力部24は、抽出された代表候補82とメンバ候補83とを、含意関係を抽出すべき部分テキストとして出力する。

0076

次に、本発明の第1の実施の形態の効果を説明する。

0077

本発明の第1の実施の形態によれば、会話テキストに対する含意クラスタリングの精度を向上できる。その理由は、会話テキスト81の各々において、クラスタリング対象の内容に係る区間の内、当該クラスタリング対象の内容が明示されている可能性が高い区間を代表候補82、クラスタリング対象の内容に係る区間を包含するより大きな区間をメンバ候補83として抽出するためである。

0078

(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。

0079

本発明の第1の実施の形態では、含意関係抽出部40が、部分テキストの二つの組の全てについて、一方の部分テキストが他方の部分テキストを含意する方向、及び、他方の部分テキストが一方の部分テキストを含意する方向について、判定処理を行った。しかしながら、部分テキストの数が多い場合、判定処理を行う組の数が膨大となり、含意関係抽出の処理時間が大きくなるという問題がある。

0080

ここで、部分テキストの二つの組の内で、メンバ候補83間に含意関係が存在する可能性は低いと考えられる。同様に、メンバ候補83が代表候補82を含意する方向の含意関係が存在する可能性も低いと考えられる。

0081

そこで、本発明の第2の実施の形態では、含意関係抽出部40は、部分テキストの二つの組の内で、このような存在する可能性が低い組、及び、方向の含意関係を除いた、メンバ候補83が代表候補82を含意する方向の含意関係のみについて、判定処理を行う。

0082

図9は、本発明の第2の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果を示す図である。

0083

例えば、含意関係抽出部40は、図9に示すように、代表候補82_1とメンバ候補83_1との組、及び、代表候補82_1とメンバ候補83_2との組について、メンバ候補83が代表候補82を含意する方向について判定処理を行う。また、含意関係抽出部40は、代表候補82_2とメンバ候補83_1との組、及び、代表候補82_2とメンバ候補83_2との組について、メンバ候補83が代表候補82を含意する方向について判定処理を行う。この結果、意関係抽出部40は、図9に示すように、含意関係を抽出する。

0084

さらに、含意関係抽出部40は、先に代表候補82間の判定処理を行った後に、メンバ候補83が代表候補82を含意する方向の判定処理を行ってもよい。この場合、含意関係抽出部40は、メンバ候補83が代表候補82を含意すると判定したときに、既に、当該代表候補82が他の代表候補82を含意すると判定済みの場合、当該メンバ候補83が当該他の代表候補82を含意する方向の判定処理を省略する。そして、含意関係抽出部40は、判定処理を行わずに、当該メンバ候補83が当該他の代表候補82を含意すると決定する。

0085

図10は、本発明の第2の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果の他の例を示す図である。

0086

例えば、含意関係抽出部40は、図10に示すように、代表候補82_1と代表候補82_2との組について判定処理を行い、代表候補82_2が代表候補82_1を含意すると判定する。そして、含意関係抽出部40が、メンバ候補83_2が代表候補82_2を含意すると判定したときに、メンバ候補83_2と代表候補82_1との組についての判定処理を行うことなく、メンバ候補83_2が代表候補82_1を含意すると決定する。

0087

次に、本発明の第2の実施の形態の効果を説明する。

0088

本発明の第2の実施の形態によれば、部分テキストの数が多い場合でも、含意関係抽出の処理時間の増加を抑えることできる。その理由は、含意関係抽出部40が、部分テキストの二つの組や組における含意関係の方向の内で、存在する可能性が低い組、及び、方向の含意関係を除いて、含意関係の判定処理を行うためである。

0089

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0090

本発明は、コールセンタ等における会話に係る会話テキストや、チャット、電子メール、ブログ、電子掲示板等における会話テキストに含まれる内容を概観するためのシステムに適用できる。

0091

1クラスタリングシステム
2 CPU
3記憶デバイス
4通信デバイス
5入力デバイス
6出力デバイス
10会話テキスト記憶部
20部分テキスト抽出部
21発話区間抽出部
22代表候補抽出部
23メンバ候補抽出部
24 部分テキスト出力部
30 部分テキスト記憶部
40含意関係抽出部
50グループ生成部
81 会話テキスト
82 代表候補
83 メンバ候補
84グループ
91 発話区間
92 対象区間

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ