図面 (/)

技術 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム

出願人 日本電気株式会社
発明者 土田正明石川開大西貴士山本康高
出願日 2015年7月10日 (5年5ヶ月経過) 出願番号 2016-521798
公開日 2017年4月27日 (3年8ヶ月経過) 公開番号 WO2016-013175
状態 特許登録済
技術分野 検索装置 機械翻訳
主要キーワード 初期グループ テキスト処理プログラム テキスト処理システム クロス集計 グループ生成 最小構成 処理経過 テキスト間
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年4月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題・解決手段

複数のテキストを、概観を把握可能なグループ分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システムを提供する。含意認識手段71は、与えられたテキストに対してテキスト間の含意認識を行う。グループ生成手段72は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。グループ統合手段73は、グループ間のメンバの重複度合いに基づく所定の条件を満たす場合にグループを統合する。

概要

背景

テキストに対する処理の一つとして含意認識がある。含意認識の例が非特許文献1に記載されている。

含意認識は、“A”、“B”をそれぞれテキストとした場合に、「AはBを含意する。」という関係の有無を判定する処理である。また、「AはBを含意する。」とは、Aが真であるならばBも真であることである。以下、1つのテキストが他のテキストを含意する関係を、含意関係と呼ぶ場合がある。

非特許文献1に記載された含意認識の方法は、単語の重要度を考慮し、テキストB内の単語の重要度の総和と、テキストA側で意味的出現している単語の重要度の和とを求め、前者に対する後者の割合が閾値以上であれば、AはBを含意するとみなす方法である。

非特許文献1の他に、含意認識の例は、非特許文献2,3等にも記載されている。

また、テキストをグループ化する方法として、テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法が考えられる。

概要

複数のテキストを、概観を把握可能なグループ分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システムを提供する。含意認識手段71は、与えられたテキストに対してテキスト間の含意認識を行う。グループ生成手段72は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。グループ統合手段73は、グループ間のメンバの重複度合いに基づく所定の条件を満たす場合にグループを統合する。

目的

本発明は、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システム、テキスト処理方法およびテキスト処理プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

与えられたテキストに対してテキスト間含意認識を行う含意認識手段と、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成手段と、グループ間のメンバの重複度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合手段とを備えることを特徴とするテキスト処理システム

請求項2

グループ統合手段は、異なる2つのグループを選択し、前記2つのグループ間のメンバの重複の度合いに基づいて前記2つのグループを統合するか否かを判定し、統合すると判定したことを条件に前記2つのグループを1つのグループに統合することを、統合される2つのグループが存在しなくなるまで繰り返す請求項1に記載のテキスト処理システム。

請求項3

グループ統合手段は、2つのグループを1つのグループに統合するときに、メンバ数が少ない方のグループのメンバのうち、メンバ数が多い方のグループのメンバと重複していないメンバを、前記メンバ数が多い方のグループに移行させ、前記メンバ数が少ない方のグループを削除する請求項2に記載のテキスト処理システム。

請求項4

グループ統合手段は、テキスト毎に、テキストをメンバとする各グループを検索するためのインデックス情報を作成し、1つのグループを選択し、選択したグループのメンバを含んでいる他の各グループを前記インデックス情報を参照して特定し、特定したグループと選択したグループとが定められた条件を満たせば、特定したグループと選択したグループと統合することを、統合されるグループが存在しなくなるまで繰り返す請求項1に記載のテキスト処理システム。

請求項5

グループ統合手段は、1つのグループのメンバのうち所定割合以上のメンバが他のグループのメンバである場合、前記1つのグループを削除する請求項1から請求項4のうちのいずれか1項に記載のテキスト処理システム。

請求項6

与えられたテキストから所定の条件を満たすテキストを選別するテキスト選別手段を備え、含意認識手段は、前記テキスト選別手段によって選別されたテキスト間の含意認識を行う請求項1から請求項5のうちのいずれか1項に記載のテキスト処理システム。

請求項7

個々のテキストには、予め属性情報対応付けられ、グループ統合手段によるグループの統合後に残ったグループのテキストの属性情報に基づいて、前記グループのテキストを分析する分析手段を備える請求項1から請求項6のうちのいずれか1項に記載のテキスト処理システム。

請求項8

与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合することを特徴とするテキスト処理方法。

請求項9

コンピュータに、与えられたテキストに対してテキスト間の含意認識を行う含意認識処理、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成処理、および、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合処理を実行させるためのテキスト処理プログラム

技術分野

背景技術

0002

テキストに対する処理の一つとして含意認識がある。含意認識の例が非特許文献1に記載されている。

0003

含意認識は、“A”、“B”をそれぞれテキストとした場合に、「AはBを含意する。」という関係の有無を判定する処理である。また、「AはBを含意する。」とは、Aが真であるならばBも真であることである。以下、1つのテキストが他のテキストを含意する関係を、含意関係と呼ぶ場合がある。

0004

非特許文献1に記載された含意認識の方法は、単語の重要度を考慮し、テキストB内の単語の重要度の総和と、テキストA側で意味的出現している単語の重要度の和とを求め、前者に対する後者の割合が閾値以上であれば、AはBを含意するとみなす方法である。

0005

非特許文献1の他に、含意認識の例は、非特許文献2,3等にも記載されている。

0006

また、テキストをグループ化する方法として、テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法が考えられる。

先行技術

0007

Masaaki Tsuchida, Kai Ishikawa, “IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features”, [online], [2014年7月10日検索]、インターネット
Alexander Volokh, 外2名、“Combining Deterministic Dependency Parsing and Linear Classification for RobustRTE”, [online], [2014年7月10日検索]、インターネットDFKI.proceedings.pdf>
Alexander Volokh, 外1名、“UsingMT-Based Metrics for RTE”, [online], [2014年7月10日検索]、インターネット

発明が解決しようとする課題

0008

含意認識に、言い換えルールを適用することが考えられる。例えば、図13に例示する5つのテキストを対象に含意認識を行うとする。なお、図13において、テキストの前に示す数字は、テキストのIDである。本例において、AがBを含意するか否かを判定する際に、Bに相当するテキストに言い換えルールを適用して文言を言い換え、Bに相当するテキストの全ての内容語が、Aに相当するテキストに出現していれば、AはBを含意すると判定する。また、言い換えルールとして、以下の言い換えルールが存在しているとする。

0009

[言い換えルール]
「premier」を「prime minister」に言い換える。
「“X” cabinet starts」を「“X” is premier」に言い換える。

0010

この場合、テキスト1,2,4,5がそれぞれテキスト2を含意しているという結果や、テキスト1,2,3,4,5がそれぞれテキスト3を含意しているという結果等が得られる。ここで、テキストの意味を考慮すれば、テキスト3はテキスト2を含意していると言えるが、テキスト3がテキスト2を含意しているという判定はなされない。この場合、例えば、上記の言い換えルールに、さらに以下の言い換えルールを追加すれば、テキスト3がテキスト2を含意しているという判定がなされる。

0011

[言い換えルール]
「Premier is “A”」を「“A” cabinet starts」に言い換える。

0012

このように、言い換えルールを追加することで、含意認識の精度も向上する。しかし、含意認識の精度を向上させるためには、言い換えルールを増加させなければならず、言い換えルールを準備する負担が大きくなる。

0013

また、同じ意味を含むテキストを同じグループ解釈して、そのグループを通してテキストの概観を把握できることが好ましい。

0014

ここで、含意認識の結果、含意関係を有していないと判定されたテキストの組であっても、意味的には含意関係があれば、同じグループに含めることが好ましい。

0015

グループ内の各テキストを参照しても、そのグループを解釈できなければ、グループの概観を把握できない。テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法では、概観を把握できないクラスタが生成されがちである。図14は、単語の類似性に基づいてテキストをクラスタリングした場合に得られたクラスタの一例を示す模式図である。図14に示すように、単に単語の類似性に基づいてクラスタリングした結果得られたクラスタでは、特に読み取れる知見はない。

0016

そこで、本発明は、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システム、テキスト処理方法およびテキスト処理プログラムを提供することを目的とする。

課題を解決するための手段

0017

本発明によるテキスト処理システムは、与えられたテキストに対してテキスト間の含意認識を行う含意認識手段と、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成手段と、グループ間のメンバの重複度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合手段とを備えることを特徴とする。

0018

また、本発明によるテキスト処理方法は、与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合することを特徴とする。

0019

また、本発明によるテキスト処理プログラムは、コンピュータに、与えられたテキストに対してテキスト間の含意認識を行う含意認識処理、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成処理、および、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合処理を実行させることを特徴とする。

発明の効果

0020

本発明によれば、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。

図面の簡単な説明

0021

本発明の第1の実施形態のテキスト処理システムの例を示すブロック図である。
含意認識部による含意認識の結果の例を示す模式図である。
初期グループの例を示す模式図である。
本発明の第1の実施形態の処理経過の例を示すフローチャートである。
統合の例を示す模式図である。
所定割合以上のメンバが他のグループのメンバとなっているグループを削除する例を示す模式図である。
本発明の第2の実施形態のテキスト処理システムの例を示すブロック図である。
本発明の第3の実施形態のテキスト処理システムの例を示すブロック図である。
統合後のグループの一例を示す模式図である。
分析部による分析結果の表示例を示す模式図である。
本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。
本発明のテキスト処理システムの最小構成の例を示すブロック図である。
含意認識の対象となるテキストの例を示す模式図である。
単語の類似性に基づいてテキストをクラスタリングした場合に得られたクラスタの一例を示す模式図である。

実施例

0022

以下、図面を参照して本発明の実施形態を説明する。

0023

実施形態1.
図1は、本発明の第1の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態において、テキスト処理システム1は、テキスト記憶部2と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6とを備える。

0024

テキスト記憶部2は、グループ化の対象となる複数のテキストを予め記憶する記憶装置である。

0025

テキスト記憶部2に記憶される個々のテキスト(すなわち、グループ化の対象となる個々のテキスト)にはそれぞれIDが予め割り当てられ、付加されている。文字列が一致しているテキストであっても、テキストの出処が異なっていれば、異なるIDが割り当てられる。例えば、アンケートで得られたテキストがテキスト記憶部2に記憶されるとする。そして、「The item is high price.」という全く同じ文字列のテキストが5人の人から別々に得られていたとする。この場合、5人から得られた「The item is high price.」という5つのテキストに対して別々のIDが割り当てられる。IDが異なるテキストは、文字列が共通であったとしても、別々のテキストとして扱われる。なお、本例では、アンケートで得られたテキストがテキスト記憶部2に記憶される場合を例にして説明したが、テキスト記憶部2が記憶するテキストの収集態様は特に限定されない。例えば、コールセンタに寄せられた意見を表すテキストをテキスト記憶部2に記憶させてもよい。

0026

以下、説明を簡単にするため、テキストのIDを“1”,“2”,“3”,・・・等の数字で表すが、IDの表記は数字に限定されない。また、以下の説明では、ID“n”のテキストを、テキスト“n”と記す。

0027

含意認識部3は、テキスト記憶部2に記憶される個々のテキストに対してテキスト間の含意認識を行う。

0028

具体的には、含意認識部3は、2つのテキストからなるテキストの組を全て定める。含意認識部3は、2つのテキストからなる組を定めるときに、その2つのテキストに順番を定め、その2つのテキストのどちらを先にするかによって、その2つのテキストからなる組を別々に定める。例えば、含意認識部3は、(1,2)という組と、(2,1)という組とをそれぞれ別の組として定める。なお、括弧はテキストの組を表し、括弧内の数字はテキストのIDを表しているものとする。テキストの組において、1番目のテキストを第1テキストと記し、2番目のテキストを第2テキストと記す。

0029

含意認識部3は、IDが同一のテキストを2つ重複して含む組も定める。例えば、含意認識部3は、(1,1)、(2,2)等の組もそれぞれ定める。この場合、IDが同一であるので、IDの順番を入れ替えた組を作成すると同一の組が重複して作成されることになるが、含意認識部3は、そのような重複する組は作成しない。

0030

含意認識部3は、上記のように各組を定めた上で、組毎に含意認識を行う。すなわち、含意認識部3は、組毎に、第1テキストが第2テキストを含意するという関係があるか否かを判定する。含意認識の方法は特に限定されず、含意認識は、公知の方法でもよい。例えば、含意認識部3は、非特許文献1、非特許文献2あるいは非特許文献3に記載された方法で含意認識を行ってもよい。

0031

図2は、含意認識部3による含意認識の結果の例を示す模式図である。図2では、テキストをIDによって表している。図2に示す例では、第1テキストが第2テキストを含意するという含意関係がある場合、第1テキストから第2テキストに向かう矢印によって含意関係があることを模式的に示している。含意関係がない場合には、第1テキストから第2テキストに向かう矢印を示さないことによって、含意関係がないことを表している。例えば、図2に示す例では、(1,3)という組において、「“1”は“3”を含意する。」という含意関係があることを表している。また、図2に示す例では、(2,3)という組において、「“2”は“3”を含意する。」という含意関係がないことを表している。また、(1,1)、(2,2)等のように、IDが同一のテキストを2つ重複して含む組では、第1テキストが第2テキストを含意するという含意関係があると判定される(図2参照)。

0032

グループ生成部4は、個々のテキストを一つずつ選択し、選択したテキストを含意するテキストをメンバとするテキストのグループを生成する。従って、グループ生成部4によって生成されるグループの数は、テキストの数と一致する。以下、選択されたテキストを代表テキストと記す場合がある。グループ生成部4は、個々のテキストを代表テキストとして、代表テキストを含意するテキストをメンバとするテキストのグループを生成する、ということもできる。

0033

例えば、図2に例示する含意認識結果が得られているとする。この場合、グループ生成部4は、テキスト“3”を選択したときには、そのテキストを代表テキストとして、テキスト“1”、テキスト“3”等をメンバとするグループを生成する。代表テキストも、その代表テキストに対応するグループのメンバに該当する。また、グループが異なれば、代表テキストも異なる。

0034

グループ生成部4がグループを生成するときに、あるテキストが、複数のグループのメンバとなってよい。例えば、テキスト“1”が複数のグループのメンバとなってよい。他のIDのテキストに関しても同様である。

0035

グループ生成部4によって生成されるグループは、グループ統合部5によって統合される前の初期状態のグループである。よって、グループ生成部4によって生成されるグループを初期グループと称してもよい。

0036

図3は、初期グループの例を示す模式図である。図3において、楕円はグループを表し、楕円内のテキストは、グループに属しているテキストを表している。また、楕円の上側に示したテキストは、代表テキストである。図3では、テキストのIDの図示を省略している。グループ生成部4は、個々のテキストをそれぞれ代表テキストとするため、初期グループ生成時には、グループの冗長性が高い。図3に示す例では、「The item is expensive.」というテキストを代表テキストとするグループと、「The item is high price.」というテキストを代表とするグループとは、同様のメンバを持つ類似したグループである。グループ生成部4が各初期グループを生成した時点では、このような互いに類似したグループが複数生成されている。

0037

グループ統合部5は、類似しているグループを統合することによって、グループの冗長性を排除する。

0038

グループ統合部5は、異なる2つのグループを選択し、その2つのグループのメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定し、統合すると判定したことを条件にその2つのグループを1つのグループに統合する。グループ統合部5は、この動作を、統合される2つのグループが存在しなくなるまで繰り返す。グループ統合部5のより具体的な処理については後述する。

0039

グループ記憶部6は、統合後に残ったグループの情報を記憶する記憶装置である。グループ統合部5は、例えば、統合後に残ったグループ毎に、代表テキストおよびグループのメンバとなる各テキストを、グループ記憶部6に記憶させる。

0040

含意認識部3、グループ生成部4およびグループ統合部5は、例えば、テキスト処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、例えば、コンピュータのプログラム記憶装置図1において図示略)等のプログラム記録媒体からテキスト処理プログラムを読み込み、そのテキスト処理プログラムに従って、含意認識部3、グループ生成部4およびグループ統合部5として動作すればよい。また、含意認識部3、グループ生成部4およびグループ統合部5がそれぞれ別のハードウェアによって実現されていてもよい。

0041

テキスト処理システム1は、2つ以上の物理的に分離した装置が有線または無線で接続されている構成であってもよい。この点は、後述の各実施形態においても同様である。

0042

次に、処理経過について説明する。図4は、本発明の第1の実施形態の処理経過の例を示すフローチャートである。

0043

含意認識部3は、テキスト記憶部2に記憶される各テキストを読み出し、それらのテキストに対してテキスト間の含意認識を行う(ステップS1)。含意認識部3は、既に説明したように、テキストの組を全て定め、組毎に、第1テキストが第2テキストを含意するという関係があるか否かを判定する。含意認識の方法は、特に限定されない。

0044

次に、グループ生成部4は、初期グループを生成する(ステップS2)。すなわち、グループ生成部4は、個々のテキストを一つずつ選択し、選択したテキストを含意するテキストをメンバとするテキストのグループを生成する。

0045

次に、グループ統合部5は、類似しているグループを統合する(ステップS3)。前述のように、グループ統合部5は、異なる2つのグループを選択し、その2つのグループのメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定し、統合すると判定したことを条件にその2つのグループを1つのグループに統合する。グループ統合部5は、この動作を、統合される2つのグループが存在しなくなるまで繰り返す。

0046

ステップS3の処理について、より具体的に説明する。

0047

グループ統合部5は、2つのグループのメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定する処理を、例えば、以下のように行えばよい。グループ統合部5は、2つのグループのJaccard係数を算出し、Jaccard係数が、予め定められた閾値以上であればその2つのグループを統合すると判定し、Jaccard係数が閾値未満であればその2つのグループを統合しないと判定してもよい。グループ統合部5は、以下の式(1)の計算によってJaccard係数を算出すればよい。

0048

0049

式(1)において、P,Qはそれぞれグループを表している。CはJaccard係数である。グループ統合部5は、2つのグループの積集合に属するメンバの数を、2つのグループの和集合に属するメンバの数で除算することによって、Jaccard係数を算出すればよい。

0050

Jaccard係数は、グループ同士のメンバの重複の度合いに基づくグループの類似度であるということができる。グループ統合部5は、このような類似度を、式(1)以外の計算で算出してもよい。このような類似度の他の例として、ダイス係数、シンプソン係数コサイン類似度等が挙げられる。

0051

また、グループ統合部5は、2つのグループを統合すると判定し、その2つのグループを1つのグループに統合する場合、例えば、以下のような処理を行えばよい。グループ統合部5は、その2つのグループのうち、メンバ数が少ない方のグループを削除するグループとして決定し、メンバ数が多い方のグループを統合の結果残すグループとして決定する。以下、メンバ数が少ない方のグループを少数側グループと記し、メンバ数が多い方のグループを多数側グループと記す場合がある。なお、2つのグループのメンバ数が同数である場合、グループ統合部5は、どちらを少数側グループとして決定してもよい。グループ統合部5は、少数側グループのメンバのうち、多数側グループのメンバと重複していないメンバを、多数側グループに移行させ、少数側グループを削除する。

0052

図5は、統合の例を示す模式図である。図3に示す場合と同様に、楕円はグループを表す。図5において、楕円内の数字は、グループに属するメンバ(テキスト)のIDである。また、楕円の上側に示した数字は、代表テキストのIDである。また、図5に示す例では、グループ11のメンバ数が、グループ12のメンバ数よりも多い。従って、グループ11が多数側グループであり、グループ12が少数側グループである。少数側グループ12のメンバのうち、多数側グループ11のメンバと重複していないメンバは、テキスト“6”である。従って、グループ統合部5は、少数側グループ12のテキスト“6”を多数側グループ11に移行させる。この結果、テキスト“6”は多数側グループ11のメンバとなる。なお、少数側グループ12のメンバのうち、多数側グループ11のメンバと重複していないメンバが複数存在していれば、グループ統合部5は、それらのメンバを全て多数側グループ11に移行させる。メンバを移行させた後、グループ統合部5は、少数側グループ12を削除する。この結果、テキスト“1”,“2”,“3”,“4”,“5”,“6”をメンバとする統合後のグループ13が得られる(図5参照)。

0053

統合の際、グループ統合部5は、多数側グループ11の代表テキストを変更しない。従って、統合後のグループ13の代表テキストは、多数側グループ11の代表テキストと同一である。また、上記のように統合を行うことで、グループが異なれば、代表テキストも異なるという状態は保たれる。

0054

また、ステップS3において、1つのグループ(グループXとする。)のメンバのうち、予め定められた所定割合以上のメンバが他のグループのメンバである場合、グループ統合部5は、グループXを削除してもよい。図6は、所定割合以上のメンバが他のグループのメンバとなっているグループを削除する例を示す模式図である。図5に示す場合と同様に、楕円はグループを表す。また、楕円内の数字は、グループに属するメンバ(テキスト)のIDである。楕円の上側に示した数字は、代表テキストのIDである。本例では、上記の所定割合が100%である場合を例にして説明する。

0055

図6に示すグループ16のメンバ数は5である。そして、グループ16に属する5個のメンバは、全てグループ15のメンバにも該当している。従って、グループ16の100%のメンバが他のグループ15のメンバに該当している。よって、グループ統合部5は、グループ16を削除する。

0056

なお、上記の所定割合は100%でなくてもよい。例えば、上記の所定割合が98%であるとする。この場合、あるグループXのメンバのうち、そのメンバ数の98%以上のメンバが他のグループに属している場合、グループ統合部5は、グループXを削除する。

0057

統合される2つのグループが存在しなくなったならば、グループ統合部5は、その時点で残っているグループ毎に、代表テキストおよびグループのメンバとなる各テキストを、グループ記憶部6に記憶させる。

0058

なお、以上の説明では、グループ化の対象となる複数のテキストが予めテキスト記憶部2に記憶されている場合を例にして説明した。グループ化の対象となる複数のテキストが外部から入力インタフェースを介して入力され、それらのテキストを対象として、処理を開始してもよい。この点は、後述の各実施形態においても同様である。

0059

図5に示すグループ11,12が初期グループであるとする。図5に示す例において、テキスト“6”は、テキスト“2”を代表テキストとするグループ11のメンバでない。従って、テキスト“6”はテキスト“2”を含意しないと判定されていたことになる。しかし、グループ11,12の類似度が高く、グループ統合部5がグループ11,12を統合すると判定した場合には、テキスト“6”は意味的にテキスト“2”を含意していると考えられる。本実施形態では、そのような場合、グループ統合部5がグループ11,12を統合し、テキスト“2”を代表テキストとする統合後のグループ13のメンバの中に、テキスト“6”を含めている。従って、統合後のグループ13からは、テキスト“6”はテキスト“2”を含意していると判断することができる。このように、本実施形態によれば、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる

0060

また、本実施形態によれば、各グループにおいて、グループに属するそれぞれのテキストはそのグループの代表テキストを含意している。従って、個々のグループをそれぞれ解釈し、グループの概観を把握することができる。

0061

実施形態2.
図7は、本発明の第2の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付して、説明を省略する。第2の実施形態において、テキスト処理システム1は、テキスト記憶部2と、テキスト選別部7と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6とを備える。

0062

テキスト選別部7は、テキスト記憶部2に記憶される各テキストから所定の条件を満たすテキストを選別し、選別したテキストを含意認識部3に入力する。

0063

テキストを選別する際の条件は、例えば、テキスト処理システム1の操作者によって指定される。テキスト処理システム1は、例えば、入力インタフェース(図7において図示略)を介して、テキストを選別する際の条件の入力を受け付ける。

0064

操作者は、テキストの分析目的に合わせて、テキストを選別する際の条件を定め、テキスト処理システム1に入力すればよい。

0065

例えば、アンケートで得られたテキストがテキスト記憶部2に記憶されるとする。そして、アンケートによって集められたテキストのうち、デザインに関する意見を記述したテキストについて操作者が分析したいと考えているとする。この場合、操作者は、例えば、「『design』という単語を含んでいること」という条件をテキスト処理システム1に入力すればよい。すると、テキスト選別部7は、テキスト記憶部2に記憶される各テキストの中から、『design』という単語を含んでいるテキストのみを選別し、そのテキストを含意認識部3に入力する。

0066

含意認識部3は、入力された個々のテキストに対してテキスト間の含意認識を行う。以降の動作は、第1の実施形態における動作と同様であり、説明を省略する。

0067

上記の例では「特定の単語を含んでいること」という条件が指定され場合を例示しているが、テキストを選別する際の条件は、そのような条件に限定されない。

0068

テキスト選別部7は、例えば、テキスト処理プログラムに従って動作するコンピュータのCPUによって実現される。また、テキスト選別部7を含む各要素がそれぞれ別のハードウェアで実現されていてもよい。

0069

第2の実施形態では、第1の実施形態と同様の効果が得られる。さらに、第2の実施形態では、テキスト選別部7が所定の条件を満たすテキストを選別し、含意認識部3、グループ生成部4およびグループ統合部5は、選別されたテキストを対象にして、第1の実施形態と同様の処理(ステップS1〜S3、図4参照)を実行する。従って、グループの統合の結果得られた各グループは、いずれも所定の条件を満たすテキストをメンバとしている。従って、第2の実施形態では、操作者が注目したい内容を含むテキストを絞り込んだ上で、概観を把握しやすいグループを生成することができる。その結果、生成されたグループから、分析目的に合う知見を得られる。

0070

また、第2の実施形態では、テキスト選別部7がテキストを選別してから、第1の実施形態で説明したステップS1以降の処理を行う。従って、ステップS1以降の処理における計算量を削減することができる。

0071

実施形態3.
図8は、本発明の第3の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付して、説明を省略する。第3の実施形態において、テキスト処理システム1は、テキスト記憶部2と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6と、分析部8と、表示部9とを備える。

0072

表示部9は、ディスプレイ装置である。

0073

第3の実施形態では、テキスト記憶部2に記憶されている個々のテキストには、それぞれテキストの属性を表す属性情報が対応づけられている。属性情報の例として、例えば、テキストが得られた年月日を示す情報等が挙げられる。ただし、これは例示であり、属性情報としてどのような情報を用いるかは特に限定されない。テキスト記憶部2は、テキストとその属性情報とを対応付けて記憶しておけばよい。

0074

分析部8は、グループ記憶部6に記憶されているグループ(すなわち、グループ統合部5によるグループの統合後に残ったグループ)の情報を読み出し、そのグループ内のテキストの属性情報に基づいて、そのグループ内のテキストを分析する。

0075

以下、分析部8が実行する分析の例を示す。例えば、分析部8は、グループ記憶部6から、各グループの代表テキストおよびグループのメンバとなる各テキストを読み出す。また、分析部8は、テキスト記憶部2から各テキストの属性情報を読み出す。そして、分析部8は、属性情報の属性値区分毎に、対応するテキストの数をカウントする。分析部8は、この処理をグループ毎に行う。すなわち、分析部8は、グループ別、および、属性値の区分別に、テキストのクロス集計を行う。

0076

属性値が、連続的に変化する数値で表される場合、属性値の区分は、属性値の取り得る値を所定間隔で区切ることによって定めればよい。例えば、属性情報が年月日である場合、「2014年6月1日〜2014年6月30日」、「2014年7月1日〜2014年7月31日」等ように1カ月毎に属性値を区切ることによって、区間を予め定めておけばよい。また、属性値が、連続的に変化する数値ではなく、選択的に選ばれる項目である場合、個々の項目を1つの区分として定めればよい。

0077

図9は、統合後のグループの一例を示す模式図である。図9では、「The item is high price.」というテキストを代表テキストとするグループを示している。テキストの冒頭に示す数字は、テキストのIDである。

0078

図9に示す例では、テキストには属性情報として、テキストが得られた月の情報が対応付けられている。本例では、「1月」、「2月」等の個々の月をそれぞれ1つの区分とする。分析部8は、「1月」という区分に対応しているテキストの数を、図9に示すグループ内でカウントする。分析部8は、他の区分(すなわち、他の月)に対応しているテキストの数もそれぞれ、図9に示すグループ内でカウントする。

0079

さらに、分析部8は、他の個々のグループに関しても、同様の処理を行う。そして、分析部8は、グループ別、および、月別にカウントしたテキストの数を表示部9に表示させる。

0080

図10は、分析部8による分析結果の表示例を示す模式図である。図10は、クロス集計結果の表示例を示している。図10に示す例において、1つの行は、1つのグループに対応している。代表テキストはグループ毎に異なるので、代表テキストによってグループを識別することができる。図10に示す例では、代表テキストを含意するテキストが得られた件数が、月毎にどのように変化しているかを提示することができる。また、分析部8は、図10に示すように、グループ毎に、グループに属するテキスト数を表示してもよい。

0081

以上の例では、分析部8がクロス集計を行う場合を例に説明したが、分析部8が実行する分析の態様は特に限定されない。例えば、分析部8は、相関分析を実行してもよい。

0082

分析部8は、例えば、テキスト処理プログラムに従って動作するコンピュータのCPUによって実現される。また、テキスト選別部7を含む各要素がそれぞれ別のハードウェアで実現されていてもよい。

0083

第3の実施形態において、テキスト処理システム1に、第2の実施形態で説明したテキスト選別部7が設けられていてもよい。

0084

第3の実施形態のテキスト処理システム1は、代表テキストを含意するテキストのグループと、そのテキストに対応付けられた属性情報とを利用して、グループの分析を行う。従って、グループを参照するだけでは得られなかった知見を得ることができる。

0085

上記の各実施形態におけるグループの統合は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する動作であるということもできる。

0086

上記の各実施形態において、グループ統合部5は、以下のようにグループを統合してもよい。

0087

グループ統合部5は、グループ生成後に、個々のテキストに関して、そのテキストをメンバとして含む各グループを検索するためのインデックス情報を作成する。グループ統合部5は、例えば、テキストを含むそれぞれのグループの識別情報をインデックス情報とすればよい。

0088

そして、グループ統合部5は、1つのグループを選択し、そのグループのメンバを含んでいる他の各グループをインデックス情報を参照して特定する。グループ統合部5は、特定した各グループと、選択したグループとが条件を満たせば、特定したグループと選択したグループとを統合する。グループ統合部5は、この処理を、統合されるグループが存在しなくなるまで繰り返す。上記の条件として、例えば、前述の各実施形態と同様に、グループ同士のメンバの重複の度合いに基づくグループの類似度(例えば、Jaccard係数)が閾値以上であるという条件を用いてもよい。また、グループ統合部5は、本例でグループの統合を行う場合、例えば、選択したグループのメンバを含んでいる他のグループのメンバであって、選択したグループのメンバではないメンバを、選択したグループに移行させ、当該他のグループを削除してもよい。

0089

本例のようなグループの統合も、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する動作であるといえる。

0090

図11は、本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005とを備える。

0091

上述のテキスト処理システム1は、コンピュータ1000に実装される。テキスト処理システム1の動作は、プログラム(テキスト処理プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って上記の処理を実行する。

0092

補助記憶装置1003は、一時的でない有形媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク光磁気ディスクCD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。

0093

また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。

0094

次に、本発明の最小構成について説明する。図12は、本発明のテキスト処理システムの最小構成の例を示すブロック図である。本発明のテキスト処理システムは、含意認識手段71と、グループ生成手段72と、グループ統合手段73とを備える。

0095

含意認識手段71(例えば、含意認識部3)は、与えられたテキストに対してテキスト間の含意認識を行う。

0096

グループ生成手段72(例えば、グループ生成部4)は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。

0097

グループ統合手段73(例えば、グループ統合部5)は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する。

0098

そのような構成により、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。

0099

グループ統合手段73が、異なる2つのグループを選択し、その2つのグループ間のメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定し、統合すると判定したことを条件にその2つのグループを1つのグループに統合する。グループ統合手段73は、この処理を、統合される2つのグループが存在しなくなるまで繰り返す構成であってもよい。

0100

また、グループ統合手段73が、2つのグループを1つのグループに統合するときに、メンバ数が少ない方のグループのメンバのうち、メンバ数が多い方のグループのメンバと重複していないメンバを、メンバ数が多い方のグループに移行させ、メンバ数が少ない方のグループを削除する構成であってもよい。

0101

また、グループ統合手段73が、テキスト毎に、テキストをメンバとする各グループを検索するためのインデックス情報を作成してもよい。そして、グループ統合手段73が、1つのグループを選択し、選択したグループのメンバを含んでいる他の各グループをインデックス情報を参照して特定し、特定したグループと選択したグループとが定められた条件を満たせば、特定したグループと選択したグループと統合することを、統合されるグループが存在しなくなるまで繰り返す構成であってもよい。

0102

また、グループ統合手段73が、1つのグループのメンバのうち所定割合以上のメンバが他のグループのメンバである場合、その1つのグループを削除する構成であってもよい。

0103

また、与えられたテキストから所定の条件を満たすテキストを選別するテキスト選別手段(例えば、テキスト選別部7)を備え、含意認識手段71が、テキスト選別手段によって選別されたテキスト間の含意認識を行う構成であってもよい。

0104

また、個々のテキストには、予め属性情報が対応付けられ、グループ統合手段73によるグループの統合後に残ったグループのテキストの属性情報に基づいて、そのグループのテキストを分析する分析手段(例えば、分析部8)を備える構成であってもよい。

0105

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0106

この出願は、2014年7月22日に出願された日本特許出願2014−148872を基礎とする優先権を主張し、その開示の全てをここに取り込む。

0107

本発明は、複数のテキストのグループ化に好適に適用可能である。

0108

1テキスト処理システム
2テキスト記憶部
3含意認識部
4グループ生成部
5グループ統合部
6 グループ記憶部
7 テキスト選別部
8分析部
9 表示部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ