図面 (/)

技術 抽出装置、抽出方法とそのプログラム、及び、支援装置、表示制御装置

出願人 日本電気株式会社
発明者 得地博之
出願日 2015年3月30日 (6年10ヶ月経過) 出願番号 2015-068461
公開日 2016年11月4日 (5年3ヶ月経過) 公開番号 2016-189089
状態 特許登録済
技術分野 機械翻訳 検索装置
主要キーワード 機械学習モデル ベイズ分類器 ノルム値 テキスト全文 統計的特徴 最大絶対値 教師ラベル 強調色
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年11月4日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (19)

課題

単語の語順に伴う文意を反映した要約文を抽出する抽出装置、方法及びプログラム並びに支援装置及び表示制御装置を提供する。

解決手段

抽出装置10は、複数の文を含むテキストから前記文を抽出し、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する要約文抽出部40を備える。表示制御装置は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し、要約文を評価値に基づいた順序表示制御する表示制御部を備える。

概要

背景

昨今のビッグデータ分析需要の増加により、様々な情報分析を目的とした機械学習教師ラベル付与の必要性が高まっている。教師ラベルは、機械学習装置に対して未知のデータを学習させる際に、そのデータがどの分類に属するか、又は、どの程度のスコアなのかを機械学習装置に教示するための情報である。ただし、教師ラベルは、装置によって自動的に判定されるのではなく、人がデータの内容を理解して教師ラベルを判定し付与する必要がある。

テキストデータは、数値、又は、画像/映像などのデータに比べ、テキストを書いた筆者個性、及び、意思、を表現する情報(筆者の語彙、又は、語順使用頻度の癖、および感情表現など)を豊富に含んでいるため、分析の対象として非常に有用なデータである。しかし、テキストデータは画像/映像データと違って一目眺めれば内容を理解できるものではなく、「読む」ことによって初めて理解することができるため、内容の理解に大きな時間を要する。また、「読む」という作業は、テキストの複雑さや長さによって作業コストが大きく上昇することから、テキストの内容理解を支援する技術が数多く発明されている。

特許文献1の技術は、速読したい文書に対して文書のジャンルを特定し、ジャンルに対応する決定木を選択する。一方、与えられた文書の本文中の各文について特徴を抽出する。選択された決定木と各文の特徴を照し合せ、それぞれの文について要約文か否かを決定する。要約文を強調色、非要約文を背景色で表示する。また与えられた文書の各段落の第一文目を要約文とは異なる色で表示することにより、重要箇所の抽出と表示による文書の速読支援を実現している。

概要

単語の語順に伴う文意を反映した要約文を抽出する抽出装置、方法及びプログラム並びに支援装置及び表示制御装置を提供する。抽出装置10は、複数の文を含むテキストから前記文を抽出し、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する要約文抽出部40を備える。表示制御装置は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し、要約文を評価値に基づいた順序表示制御する表示制御部を備える。

目的

昨今のビッグデータの分析需要の増加により、様々な情報分析を目的とした

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する要約文抽出部を備える抽出装置

請求項2

前記学習モデルは、複数の教師単語集合を用いて、所定の単語集合が前記教師単語集合らしいか否かを評価可能に学習されたモデルである、請求項1記載の抽出装置。

請求項3

前記要約文抽出部は、前記算出された評価値に基づいて前記文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、請求項1又は2に記載の抽出装置。

請求項4

前記寄与度の算出は、前記算出された評価値の分散値又は標準偏差値、前記算出された評価値の最大絶対値、又は、前記算出された評価値のノルム値のいずれかを用いる、請求項3に記載の抽出装置。

請求項5

複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する抽出方法

請求項6

複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出することをコンピュータに実行させる抽出プログラム

請求項7

請求項1から4のいずれか1に記載の抽出装置と、を備え、前記抽出装置から出力された前記要約文ごとにその文中で教師単語集合らしいか否かに応じて表示を変化させる支援装置

請求項8

複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序表示制御する表示制御部を備える表示制御装置

請求項9

複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する表示制御方法

請求項10

)複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出し、前記要約文を前記寄与度に基づいた順序で表示制御する表示制御方法。

技術分野

0001

本発明は、抽出装置抽出方法とそのプログラム、及び、支援装置表示制御装置に関し、テキストからの要約文の抽出に関する。

背景技術

0002

昨今のビッグデータ分析需要の増加により、様々な情報分析を目的とした機械学習教師ラベル付与の必要性が高まっている。教師ラベルは、機械学習装置に対して未知のデータを学習させる際に、そのデータがどの分類に属するか、又は、どの程度のスコアなのかを機械学習装置に教示するための情報である。ただし、教師ラベルは、装置によって自動的に判定されるのではなく、人がデータの内容を理解して教師ラベルを判定し付与する必要がある。

0003

テキストデータは、数値、又は、画像/映像などのデータに比べ、テキストを書いた筆者個性、及び、意思、を表現する情報(筆者の語彙、又は、語順使用頻度の癖、および感情表現など)を豊富に含んでいるため、分析の対象として非常に有用なデータである。しかし、テキストデータは画像/映像データと違って一目眺めれば内容を理解できるものではなく、「読む」ことによって初めて理解することができるため、内容の理解に大きな時間を要する。また、「読む」という作業は、テキストの複雑さや長さによって作業コストが大きく上昇することから、テキストの内容理解を支援する技術が数多く発明されている。

0004

特許文献1の技術は、速読したい文書に対して文書のジャンルを特定し、ジャンルに対応する決定木を選択する。一方、与えられた文書の本文中の各文について特徴を抽出する。選択された決定木と各文の特徴を照し合せ、それぞれの文について要約文か否かを決定する。要約文を強調色、非要約文を背景色で表示する。また与えられた文書の各段落の第一文目を要約文とは異なる色で表示することにより、重要箇所の抽出と表示による文書の速読支援を実現している。

先行技術

0005

特許第3652086号公報

発明が解決しようとする課題

0006

特許文献1では、単語の出現頻度による特徴を表すTF−IDF(Term Frequency−Inverse Document Frequency)、又は、文字数統計的特徴を算出し、算出した単語が持つ総合的な特徴によってテキスト内の各文が要約らしいか否かを判定している。このため、単語の語順に伴う文意を反映して要約文を抽出することができない。例えば、「重要」という単語に対し、後続の単語が「である」なのか、「でない」なのかによって、文意が大きく変わる場合があり、所望の要約文の抽出ができなくなる。

0007

本発明の目的は、単語の語順に伴う文意を反映した要約文を抽出することが可能な技術を提供することにある。

課題を解決するための手段

0008

本発明の抽出装置は、複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する要約文抽出部を備える。

0009

本発明の抽出方法は、複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出する。

0010

本発明の抽出プログラムは、コンピュータに、複数の文を含むテキストから前記文を抽出し、前記文ごとに1以上の単語を含む単語集合を生成し、前記生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、前記算出された評価値に基づいて前記文から要約文を抽出することを実行させる。

0011

本発明の支援装置は、上記の抽出装置と、を備え、
前記抽出装置から出力された前記要約文ごとにその文中で、前記教師単語集合らしいか否かに応じて表示を変化させる。

0012

本発明の表示制御装置は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序表示制御する表示制御部を備える。

0013

本発明の表示制御方法は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて前記文から要約文を抽出し、前記要約文を前記評価値に基づいた順序で表示制御する。

発明の効果

0014

本発明の抽出装置は、単語の語順に伴う文意を反映した要約文を抽出することができる。

図面の簡単な説明

0015

本発明の第1の実施形態による抽出装置の構成を示すブロック図である。
本発明の第1の実施形態による抽出装置の動作を示すフローチャートである。
図2に示す文ごとに評価値を算出するサブルーチンの動作を示すブローチャートである。
3個の単語をつなげた単語N−Gram(N=3)の例を説明する図である。
確信度の算出を説明するための図である。
図2に示す要約文抽出のサブルーチンの動作を示すブローチャートである。
確信度の総和によって寄与度を算出する際の問題を説明するための図である。
英語のテキストを単語N−Gram(N=3)で処理する例を示す図である。
本発明の第2の実施形態による支援装置および記憶装置の構成を示すブロック図である。
本発明の第2の実施形態による支援装置の動作を示すフローチャートである。
図10に示す言語処理のサブルーチンの動作を示すフローチャートである。
図10に示す言語処理のサブルーチンの動作を示すフローチャートである。
第2の実施形態による表示装置に表示する画面表示を示す図である。
図10に示す学習のサブルーチンの動作を示すフローチャートである。
第3の実施形態による支援装置および記憶装置の構成を示すブロック図である。
本発明の第4の実施形態による表示制御装置の構成を示すブロック図である。
本発明の第4の実施形態による表示制御装置の動作を示すフローチャートである。
本発明の第1の実施形態による抽出装置、第2、3の実施形態による支援装置又は第3の実施形態による表示制御装置をコンピュータ装置で実現したハードウエア構成を示すブロック図である。

実施例

0016

<第1の実施形態>
本発明の第1の実施形態である抽出装置について、図面を用いて説明する。第1の実施系形態の抽出装置10は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援する支援装置の一つの機能を提供する装置である。

0017

図1は、第1の実施形態による抽出装置10の構成を示すブロック図である。図1に示すように、抽出装置10は、要約文抽出部40を備える。要約文抽出部40は、複数の文を含むテキストから文を抽出し、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する。

0018

複数の文を含むテキストから文を抽出することの一例として、要約文抽出部40は、教師ラベルを付与するテキストである対象テキストに対し、対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する。さらに、生成された単語集合に対し学習モデルを用いて評価する評価値を算出することの一例として、要約文抽出部40は、分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成する。続いて要約文抽出部40は、生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出する。さらに、算出された評価値に基づいて文から要約文を抽出することの一例として、要約文抽出部40は、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度を算出し、教師ラベル判定寄与度に応じて要約文を抽出する。教師ラベル判定寄与度については後に説明する。

0019

次に、本発明の第1の実施形態による抽出装置の動作について、図面を用いて説明する。図2は、第1の実施形態による抽出装置10の動作を示すフローチャートである。図2に示すように、抽出装置10は、複数の文を含むテキストから文を抽出する(S101)。具体的には、抽出装置10は、教師ラベルを付与するテキストである対象テキストに対し、対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する。

0020

ここで、単語区切りのテキストとは、分かち書きで表現されたテキストを意味する。例えば、日本語のテキストが「お店は自宅から遠いですが、料理はとても美味しい。」である場合は、「お店 は 自宅 から 遠い です が 、料理 は とても 美味しい 。」のように単語ごとに区切られたテキストとなる。また、文単位に分割するとは、テキスト内に付された約物句読点等)の存在及びその位置に応じて文を分けることである。例えば、前例の「お店 は 自宅 から 遠い です が 、料理 は とても 美味しい 。」という文は、読点の位置によって「お店 は 自宅 から 遠い です が 、」と、「料理 は とても 美味しい 。」という2つの文に分かれる。なお、文単位へ分割は、約物の位置以外に、次に示す単位で処理することもできる。
・「単語N-Gramよりも単語区切りが多い単語M−Gram(M>N:M、Nは2以上の自然数)の単位」
・「K文字ごと(Kは1以上の自然数)」
・「行単位改行文字)」
・「ページ単位改ページコード)」
・「節、段落単位」
次に、抽出装置10は、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する(S102)。具体的には、教師ラベルらしさを表す確信度を算出し、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度(以下、寄与度と示す。)を算出する。なお、教師ラベル判定寄与度とは、教師ラベルの付与の際に、付与する者の判定に寄与できる程度を示す値である。

0021

図3は、文ごとに評価値を算出するサブルーチンの動作を示すフローチャートである。図3に示すように、抽出装置10は、文ごとに単語集合を生成する(S1021)。具体的には、抽出装置10は、分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成する。

0022

図4は、3個の単語をつなげた単語N−Gram(N=3)の例を説明する図である。図4に示すように、「私 が 先週予約した お店 は 大変 好評 で した 。」という単語区切りされた1つの文を、単語ごとに3個の連続する単語を含む文字列に変換したものである。図4の例では、10個の単語N-Gram(N=3)が生成されている。

0023

ここで、評価値の一例である確信度とは、生成された各単語N−Gramに対して算出される教師ラベルのスコアである。よって、単語N-Gram(N=3)の教師ラベルのスコアとは3個の連続する単語を含む文字列が、P(ポジティブ)なのか、N(ネガティブ)なのか、その程度を表すスコアである。
当該学習モデルは、以下のように構築される。まず、学習用教師データとして、P/N情報(ポジディブ/ネガティブ情報)が既知であるテキストが用いられる。続いて、学習モデルを生成する学習部(図示せず)は、教師データとなるテキストの単語N−Gramを作成した後、単語N-Gramごとに単語にづく特徴ベクトル置換し、学習モデルに特徴ベクトルとP/N情報(スコア)を教え込む。これにより、学習モデルがテキストからP/N情報(スコア)を判断する能力を得る。学習モデルは、例えば、サポートベクタマシンニューラルネットワーク、又は、ベイズ分類器のように、任意の教師あり機械学習分類器を用いて生成することができる。なお、第1の実施形態において、確信度を算出するための学習モデルは、確信度の算出前に予め準備されているものとする。学習モデルは、複数の教師単語集合を用いて、所定の単語集合が教師単語集合らしいか否かを評価可能に学習されたモデルであるとも言える。

0024

次に、抽出装置10は、生成された単語集合に対し学習モデルを用いて評価する評価値を算出する(S1022)。

0025

図5は、ニューラルネットワークを用いて生成した学習モデルと、生成された各単語N-Gramとを用いた抽出装置10による確信度の算出を説明するための図である。抽出装置10は、P/N情報が不明なテストデータ(教師ラベルを付与する対象テキスト)として、生成された各単語N-Gramに対し学習モデルを用いて確信度を算出する。教師ラベルを付与する対象テキストとして図4に示す例を用いる。

0026

図5に示すように、抽出装置10は、生成された単語N−Gram(N=3)ごとに単語に紐づく特徴ベクトルに置換する。次に、抽出装置10は、各単語N-Gram(N=3)ごとに置換された単語に紐づいた特徴ベクトルを、ニューラルネットワークを用いて生成した学習モデルに入力する。続いて、抽出装置10は、単語N-Gram(N=3)ごとのP/N(ポジティブ/ネガディブ)情報のスコアを推定する。なお、確信度のスコアの範囲は、−1から1まで(0.1単位)とする。P(ポジティブ)、N(ネガティブ)の双方で現れそうなN−Gramは、「0」付近、ポジティブな文章に現れそうなN−Gramは「1」付近、ネガティブな文章に現れそうなN-Gramは「−1」付近となるように設定されている。図5の例では、10個の単語N-Gram(N=3)ごとに、確信度(教師ラベルのスコア)が算出される。

0027

抽出装置10は、算出された評価値に基づいて文から要約文を抽出する(S103)。図6は、要約文を抽出するサブルーチンの動作を示すフローチャートである。図6に示すように、抽出装置10は、算出された評価値に基づいて文ごとに教師ラベル判定寄与度を算出する(S1031)。具体的には、抽出装置10は、単語N-Gramごとに算出された確信度に基づいて、分割された文ごとに寄与度を算出する。
抽出装置10による寄与度の算出の一例として、次に示すバリエーションが考えられる。
・各単語N-Gramにおける算出された確信度の分散値又は標準偏差値
・各単語N-Gramにおける算出された確信度の最大絶対値
・各単語N-Gramにおける算出された確信度のノルム値
・単語N-Gramにおける算出された確信度の平均値
ここで、算出された各確信度の総和によって生じる問題について説明する。図7は、確信度の総和によって算出される値の一例を示す図である。図7に示すように、上段は、算出された8個の単語N-Gram(N=3)ごとの確信度における、ポジティブ/ネガティブ(P/N)を表し、下段は、そのスコアを表す。図7に示す確信度に基づき、確信度を総和だけを用いて文ごとの寄与度を算出すると、総和の合計値は、0.00となる。すなわち、図6に示すように確信度としてポジティブ/ネガティブの値が極端に大きな数値であるにも関わらず、総和により、文ごとの寄与度が0.00となるため、後段の要約文の抽出において、その文が、重要な要約文として抽出できなくなる可能性がある。

0028

この問題に対し、第1の実施形態では、寄与度の算出に、各単語N-Gramにおける算出された確信度の分散値又は標準偏差を用いる。これにより、図7に示すように、分散値が0.9、標準偏差値が0.95となり、重要な要約文を抽出することが可能となる。

0029

なお、「確信度の最大絶対値」を寄与度として採用することで、確信度が高い(学習モデルが自信を持って推定した)単語N−Gramが1つ以上含まれている要約文抽出も考えらえる。また、これらのバリエーションの組合せによって要約文を抽出することも可能である。

0030

最後に、抽出装置10は、文ごとに算出された寄与度から要約文を抽出する(S1032)。要約文の抽出条件は、算出された寄与度が、所定の閾値以上である文、あるいは、算出された寄与度を降順整列したうちの上位数パーセントとなる文を抽出する。上記の要約文の抽出条件は一例であり、他の抽出条件でも適用可能である。

0031

また、第1の実施形態は、教師ラベルを付与するテキストとして、日本語の例を示したが、これに限られるものではなく、英語の対象テキストでも適用可能である。図8は、英語の対象テキストを単語N−Gram(N=3)で処理する例を示す図である。英語など通常、分かち書きとなっている対象テキストの場合、対象テキストを単語単位に区切る処理は不要となる。図8に示すように、抽出装置10により、文ごとに生成された単語N-Gram(N=3)ごとの確信度を算出し、算出された確信度に基づき、文ごとに教師ラベル判定寄与度を算出する。これにより、英語のテキストでも、単語の語順に伴う文意を反映した要約文を抽出することができる。

0032

第1の実施形態の抽出装置によれば、単語の語順に伴う文意を反映した要約文を抽出することが可能になる。例えば、「お店 は きれい で雰囲気は 悪く ない。」というテキストと、「雰囲気 は 悪く お店 は きれい で ない。」というテキストでは、テキストを構成する単語は、双方とも同じになる。このため、特許文献1のように単語単位で抽出し、単語の出現頻度を用いる例では、単語の組合せで文意が変わる場合に、順序による文意を考慮することができず、所望の要約文を抽出することができない。これに対し、第1の実施形態による抽出装置10によれば、「は きれい で」、「は 悪く ない」のようなN−Gramごとに算出するため、単語の組合せで文意が変わる場合でも所望の要約文の抽出が可能となる。すなわち、単語の順序による文意を反映した要約文の抽出が可能となる。

0033

また、文単位だけで抽出する例では、一文中に複数の文意がある(例えば、図7に示すように一文中にP(ポジティブ)、N(ネガティブ)が複数ある)場合に、所望の要約文を抽出することができない。これに対し、第1の実施形態による抽出装置10は、寄与度の算出で、各単語N-Gramにおける算出された確信度の分散値又は標準偏差値、算出された確信度の最大絶対値、又は、算出された確信度のノルム値と用いる。これにより、一文中に複数の文意があっても適切な要約文の抽出が可能になる。

0034

<第2の実施形態>
本発明の第2の実施形態による支援装置について、図9を用いて説明する。図9は、第2の実施形態による支援装置の構成を示すブロック図である。支援装置1は、表示装置5、及び、記憶装置6が接続されている。

0035

支援装置1は、教師ラベルを付与するテキスト(対象テキスト)、及び、機械学習モデルを用いて、教師ラベルの付与を支援するための要約文を当該テキストから要約文を抽出する機能を有する。さらに、支援装置1は、支援装置1に接続される表示装置5を介して、抽出した要約文を当該支援システム利用者提示する機能を有してもよい。具体的には、表示制御部(図示せず)により、抽出された要約文が表示制御される。また、対象テキストは、支援装置1の通信部(図示せず)を介して取得される。

0036

記憶装置6は、支援装置1が取得する、生成する、又は、算出するための各種データを記憶する機能を有する。

0037

表示装置5は、支援装置1から出力される、教師ラベルを付与するために抽出された要約文の情報を表示する機能を有する。

0038

第2の実施形態による支援装置1および記憶装置6について、図面を用いて詳細に説明する。

0039

支援装置1は、抽出装置10、言語処理部20、学習部30、及び、教師ラベル受付部50を備える。さらに、抽出装置10は、要約文抽出部40を備える。なお、第2の実施形態の支援装置の説明にあたり、第1の実施形態と同じ構成については、同じ符号を付与し、その説明を簡略化する。

0040

支援装置1の言語処理部20は、教師データを付与するテキストである対象テキストを取得し、取得した対象テキストを単語ごとに分割し、対象テキストを構成する単語、及び、単語区切りのテキストデータを生成する機能を有する。言語処理部20は、生成した単語区切りの対象テキストを、抽出装置10の要約文抽出部40へ渡す、あるいは、記憶装置6のテキスト記憶部62に記憶させる。

0041

支援装置1の学習部30は、単語区切りの対象テキストを取得し、単語記憶部61に記憶された対象テキストを構成する単語によってインデックス化する。さらに学習部30は、単語N−Gramごとの特徴ベクトルを作成後、学習モデル記憶部63に格納された学習モデルをパラメータ記憶部64から読み込んだパラメータに沿って学習させる。ここでパラメータとは、学習モデルの作成に用いる教師データ(P/N情報が既知のテキスト、及び、P/N情報(スコア)等である。なお、単語区切りの対象テキストは、言語処理部20から取得してもよく、又は、記憶装置6のテキスト記憶部62から取得してもよい。

0042

支援装置1の教師ラベル受付部50は、教師ラベルを付与するテキストに対して、支援システムの利用者によって判定された教師ラベルを受付け、テキスト記憶部62に判定された教師ラベルの結果を保存する。判定された教師ラベルの受付としては、一般的な入力装置が適用可能である。例えば、マウスキーボード、又は、タッチパネルなどを用いることができる。

0043

次に、支援装置1に接続された記憶装置6の構成について図9を用いて説明する。記憶装置6は、単語記憶部61、テキスト記憶部62、学習モデル記憶部63、及び、パラメータ記憶部64を備える。

0044

記憶装置6の単語記憶部61は、支援装置1に入力された対象テキストを構成する単語を記憶する。

0045

記憶装置6のテキスト記憶部62は、支援装置1に入力された対象テキスト又は単語区切りの対象テキストと、対象テキストと対となる教師ラベルと、を記憶する。

0046

記憶装置6の学習モデル記憶部63は、支援装置1に入力された対象テキストを学習するための学習モデルを記憶する。

0047

記憶装置6のパラメータ記憶部64は、学習モデルの作成と学習に使用するパラメータを記憶する。

0048

なお、記憶装置6が、支援装置1の外部に配置され支援装置1と接続された例を用いているが、記憶装置6が、支援装置1の内部に配置され支援装置1と接続されていてもよい。

0049

次に、本発明の第2の実施形態による支援装置1の動作について図面を用いて説明する。図10は、本発明の第2の実施形態による支援装置1の動作を示すフローチャートである。

0050

図10に示すように、支援装置1は、教師ラベルを付与するテキスト(対象テキスト)を取得する。支援装置1の言語処理部20は、取得した対象テキストに対し対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割する(S201)。
図11は、言語処理(S201)のサブルーチンの動作の示すフローチャートである。
言語処理部20は、取得した対象テキストに対して形態素解析を実施して対象テキストを単語区切りに分割する(S2011)。言語処理部20は、分割した単語、及び、単語区切りの対象テキストをそれぞれ要約文抽出部40に送る。なお、要約文抽出部40に送るのではなく、分割した単語、及び、単語区切りの対象テキストをそれぞれ記憶装置(図示せず)に一時的に保存してもよい。

0051

図12は、言語処理(S201)のサブルーチンの動作の別の例を示すフローチャートである。図12に示すサブルーチンの動作では、言語処理部20は、図11の形態素解析(S2011)の後に、形態素係り受けを分析する構文解析を実施する(S2012)。言語処理部20が、構文解析を実施することで、単語の係り受けの情報が得られ、後段の抽出装置10における単語N-Gramの確信度の算出時に付加的な情報を与えることができ、要約抽出の適切さがより向上することになる。

0052

なお、言語処理のステップ(S201)では、対象テキストの単語区切りのために形態素解析を用いる例を示したが、単語区切りの対象テキストを生成できるのであれば、形態素解析以外を用いてもよい。また、英語のテキストのように予め分かち書きとなっている対象テキストの場合、対象テキストを文単位で分割する処理をすればよい。

0053

分割した単語は、単語記憶部61に記憶され、複数の文を含むテキストから抽出された文である単語区切りにした対象テキストは、テキスト記憶部62に記憶される。もしくは、言語処理部20により、後段の抽出装置10の要約文抽出部40へ送られる。

0054

次に、支援装置1の抽出装置10は、文ごとに1以上の単語を含む単語集合を生成し、生成された単語集合に対し学習モデルを用いて評価する評価値を算出し、算出された評価値に基づいて文から要約文を抽出する(S202)。具体的には、抽出装置10は、分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出する。続いて、抽出装置10は、算出された確信度に基づいて分割された文ごとに教師ラベル判定寄与度を算出し、教師ラベル判定寄与度に応じて要約文を抽出する。また抽出装置10は、抽出された要約文を表示装置5に出力する。

0055

抽出装置10による要約文の抽出のステップは、第1の実施形態の抽出装置10の動作と同様のため、詳細な説明は省略する。なお、要約文の抽出のために、言語処理部20で生成された単語区切りの対象テキストは、記憶装置6のテキスト記憶部62から取得してもよく、言語処理部20から取得してもよい。

0056

次に、表示装置5は、支援装置1の抽出装置10から出力された要約文を表示する(S203)。図13は、第2の実施形態による支援装置1が表示装置5に出力する画面表示を示す図である。図13に示すように、表示装置5の表示画面は、「テキスト一覧」、「オプション」、「教師ラベル」、「テキスト」の4つの表示エリアで構成されている。

0057

「テキスト一覧」の表示エリアは、対象テキスト(教師ラベルを付与するテキスト)を一覧表示する。テキスト一覧で表示する対象テキストは、支援装置1に入力された順でもよく、あるいは所定の降順であってもよい。支援システムの利用者は、「テキスト一覧」の表示エリアに表示された中から対象テキストを選択する。

0058

「テキスト」の表示エリアは、「テキスト一覧」で選択されたテキストを表示するエリアである。表示制御部は、抽出装置10から出力された要約文ごとにその文中で、教師単語集合らしいか否かに応じて表示を変化させる。図13中、抽出された要約文ごとに、その文中に「ポジティブ」であると推定した箇所に下線がひかれている。

0059

「オプション」の表示エリアは、対象テキストを要約文表示モード、又は、テキスト全文表示モードを選択するエリアであり、これの選択状態によって「テキスト」の表示エリアに表示する内容を変更する。この選択肢は、機械学習が不足している支援システムの初期段階において要約文の抽出が妥当でないときの問題を回避するために用意している。つまり、支援システムの稼働初期はテキスト全文を表示し、教師ラベルが十分に揃うようになれば要約文を表示するよう選択することで、教師ラベルの付与において効率のよい支援システムの運用が可能となる。

0060

「教師ラベル」の表示エリアは、「テキスト」に表示されている対象テキストに対して、教師ラベルを設定/変更するためのエリアである。図13中、教師ラベルは、「ポジティブ」に選択されている。

0061

支援装置1は、抽出した要約文を表示装置5で表示することで、支援装置1の利用者は、短時間でテキストの内容を理解することができ、教師ラベルの判定の時間と手間を軽減することが可能となる。

0062

次に、支援装置1の教師ラベル受付部50は、支援システムの利用者によって判定された教師ラベルの結果を受付ける(S204)。教師ラベル受付部50は、支援システムの利用者が判定した教師ラベルを対象テキストに紐づけてテキスト記憶部62へ記憶させる。

0063

続いて、支援装置1の学習部30は、教師ラベル受付部で受付けた教師ラベルと、それに紐づいた対象テキストを用いて、学習モデル記憶部63に記憶された学習モデルを学習させる(S205)。

0064

図14は、図10に示す学習のサブルーチンの動作を示すフローチャートである。なお、ここで言う学習は、対象テキストを学習するための特徴ベクトル作成処理を含む(特徴ベクトル作成処理が、学習処理と一体になっているアルゴリズムが存在するため)。

0065

まず、学習部30は、学習に用いるベクトルを作成する(S2051)。一般に自然言語の特徴ベクトルは非常に大きいベクトル長のデータであり、そのままでは後段の学習および判別への適用が困難となる。そのため、特徴となる項のみを選択し、圧縮したベクトルを生成する。例えば、特徴ベクトルの生成については、下記論文で詳細に記載されている。
“Sentiment Classification with Supervised Sequence Embedding”, Bespalov, Dmitriy and Qi, Yanjun and Bai, Bing and Shokoufandeh, Ali, Machine Learning and Knowledge Discovery in Databases, Vol.7523, pp.159-174, Springer Berlin Heidelberg, 2012, ISBN: 978-3-642-33459-7
上記の論文では、特徴ベクトルの生成を自動で処理する機構を用いている。第2の実施形態では、これに限られず、例えば、主成分分析などにより、重要なベクトル項を分析し、そのベクトル項を選択して、特徴ベクトルを生成する処理をソフトウェアプログラムに組み込んで構成してもよい。

0066

続いて、学習部30は、学習モデル記憶部63から学習モデルを読み込み、ベクトル作成のステップ(S2051)によって作成されたベクトルを用いて学習モデルを補正する。学習モデル記憶部63で採用する学習モデルは、任意の教師あり機械学習分類器を適用することでき、この他に、サポートベクタマシン、ニューラルネット、ベイズ分類器などを用いてもよい。

0067

<第3の実施形態>
本発明の第3の実施形態による支援装置および記憶装置について、図15を用いて説明する。図15は、第3の実施形態による支援装置1及び記憶装置7の構成を示すブロック図である。図15に示すように、第3の実施形態の記憶装置7は、第2の実施形態の記憶装置6と比較して、付加情報記憶部65が追加されている点で相違する。

0068

第3の実施形態による記憶装置7の付加情報記憶部65は、対象テキストに関する属性情報を記憶する。これにより、第3の実施形態による支援装置1は、対象テキストの属性情報を使用した学習が可能となる。第2の実施形態の例では、単語記憶部61とテキスト記憶部62で記憶する対象テキストを構成する単語、及び、単語区切り対象テキストのデータを学習部30へ引き渡すことで学習する。それに加えて第3の実施形態の例では、対象テキストのジャンル(論文、小説等)、作者ドメイン性別年齢等)、レイアウト(テキスト全体で見た文の出現箇所、文字数)といった付加情報を学習する。これにより、要約文を抽出する精度が向上する。

0069

<第4の実施形態>
本発明の第4の実施形態である表示制御装置について、図面を用いて説明する。図16は、第4の実施形態による表示制御装置110の構成を示すブロック図である。第5の実施系形態の表示制御装置110は、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援するための表示制御装置である。

0070

図16に示すように、表示制御装置110は、表示制御部140を備える。表示制御部140は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し、要約文を評価値に基づいた順序で表示制御する。複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出する点は、第1の実施形態による抽出装置10と同様である。

0071

図17は、第4の実施形態による表示制御装置110の動作を示すフローチャートである。図17に示すように、表示制御装置110は、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文から要約文を抽出し(S111)、要約文を評価値に基づいた順序で表示制御する複数の文を含むテキストから文を抽出する(S112)。なお、複数の文を含むテキストから学習モデルを用いて算出された評価値に基づいて文ごとに教師ラベル判定寄与度を算出し、寄与度に応じて要約文を抽出した場合、要約文を寄与度に基づいた順序で表示制御してもよい。

0072

第4の実施形態によれば、単語の語順に伴う文意を反映した要約文を表示制御することができる。これにより、テキストに教師ラベルを付与する者に対して、その教師ラベルの判定を支援することが可能になる。

0073

(ハードウエア構成)
図18は、本発明の第1の実施形態による抽出装置10、第2、3の実施形態による支援装置1、又は第4の実施形態による表示制御装置110をコンピュータ装置で実現したハードウエア構成を示す図である。

0074

図18に示すコンピュータ装置は、CPU(Central Processing Unit)91、ネットワーク接続用の通信I/F(通信インターフェース)92、メモリ93、及び、プログラムを格納するハードディスク等の記憶装置94を含む。また、コンピュータ装置は、システムバス97を介して入力装置95及び、出力装置96に接続されている。

0075

CPU91は、オペレーティングシステムを動作させて、第1の実施形態による抽出装置10の要約文抽出部40、第2の実施形態による支援装置1の言語処理部20、学習部30、教師ラベル受付部50又は第4の実施形態による表示制御装置の表示制御部140を制御する。またCPU91は、例えば、ドライブ装置に装着された記録媒体からメモリ93にプログラムやデータを読み出す。また、CPU91は、例えば、各実施形態における情報信号を処理する機能を有し、プログラムに基づいて各種機能の処理を実行する。

0076

記憶装置94は、例えば、光ディスクフレキシブルディスク磁気光ディスク、外付けハードディスク、又は半導体メモリ等である。記憶装置94の一部の記憶媒体は、不揮発性記憶装置であり、そこにプログラムを記憶する。また、プログラムは、通信網に接続されている。図示しない外部コンピュータからダウンロードされてもよい。

0077

入力装置95は、例えば、マウス、キーボード、内臓キーボタンカード込口、又は、タッチパネルなどで実現され、入力操作に用いられる。

0078

出力装置96は、例えば、ディスプレイで実現され、CPU91により処理された情報等を出力して確認するために用いられる。

0079

以上のように、本発明の各実施形態は、図18に示されるハードウエア構成によって実現される。但し、抽出装置10、又は、支援装置1が備える各部の実現手段は、特に限定されない。すなわち、抽出装置10、又は、支援装置1は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置により実現してもよい。

0080

以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

0081

上記の実施形態の一部又は全部は、以下の付記のように記載されうるが、以下には限られない。

0082

(付記1)
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する要約文抽出部を備える抽出装置。

0083

(付記2)
前記要約文抽出部は、
前記単語N-Gramよりも単語区切りが多い単語M−Gram(M>N:M、Nは2以上の自然数)の単位、K文字ごと(Kは1以上の自然数)、行単位(改行文字)、ページ単位(改ページコード)、約物単位、又は、節・段落単位により、前記単語区切りの対象テキストを文単位に分割する、
付記1に記載の抽出装置。

0084

(付記3)
前記学習モデルは、
スコア情報が既知の教師データであるテキストを用いた単語N−Gramが作成され、前記作成された単語N-Gramごとに単語に紐づく特徴ベクトルに置換され、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させたモデルである、
付記1又は付記2に記載の抽出装置。

0085

(付記4)
前記学習モデルは、任意の教師あり機械学習分類器であり、サポートベクタマシン、ニューラルネットワーク、又は、ベイズ分類器のいずれかである、
付記1から3のいずれか1つに記載の抽出装置。

0086

(付記5)
前記寄与度の算出は、各単語N-Gramにおける算出された確信度の分散値又は標準偏差値、各単語N-Gramにおける算出された確信度の最大絶対値、又は、各単語N-Gramにおける算出された確信度のノルム値のいずれかを用いる、
付記1から4のいずれか1つに記載の抽出装置。

0087

(付記6)
前記要約文は、前記算出された寄与度が、所定の閾値以上である文、あるいは、前記算出された寄与度を降順に整列したうちの上位数十パーセントとなる文、を抽出する、
付記1から5のいずれか1つに記載の抽出装置。

0088

(付記7)
前記抽出装置を含む、
付記1〜付記6のいずれか1つに記載の支援装置。

0089

(付記8)
言語処理部を備え、
前記言語処理部は、前記単語区切りの対象テキストを生成する、
付記7に記載の支援装置。

0090

(付記9)
学習部を備え、
前記学習部は、スコア情報が既知の教師データであるテキストを用いた単語N−Gramを作成し、前記作成された単語N-Gramごとに単語に紐づく特徴ベクトルに置換し、前記特徴ベクトルと対応する前記スコア情報とにより任意の教師あり機械学習分類器に学習させる、
付記7又は付記8に記載の支援装置。

0091

(付記10)
教師ラベル受付部を備え、
前記教師ラベル受付部は、前記対象テキストに対して、前記支援装置の利用者によって判定された教師ラベルを受付ける、
付記7〜付記9のいずれか1つに記載の支援装置。

0092

(付記11)
前記支援装置に記憶装置が接続され、
前記記憶装置は、単語記憶部、テキスト記憶部、学習モデル記憶部、及び、パラメータ記憶部を有する、
付記7〜付記10のいずれか1つに記載の支援装置。

0093

(付記12)
前記記憶装置は、付加情報記憶部を有する、
付記11に記載の支援装置。

0094

(付記13)
前記記憶装置を備える、
付記11又は付記12に記載の支援装置。

0095

(付記14)
前記支援装置に表示装置が接続され、
前記表示装置は、
付記7〜付記13のいずれか1つに記載の支援装置。

0096

(付記15)
前記表示装置を備える、
付記7〜付記14のいずれか1つに記載の支援装置。

0097

(付記16)
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、
前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
抽出方法。

0098

(付記17)
コンピュータに、
教師ラベルを付与するテキストである対象テキストに対し前記対象テキストを構成する単語で区切った単語区切りの対象テキストを文単位に分割し、
前記分割された文ごとにN個の単語をつなげた単語N-Gram(Nは2以上の自然数)を生成し、
前記生成された単語N-Gramに対し学習モデルを用いて教師ラベルらしさを表す確信度を算出し、
前記算出された確信度に基づいて前記分割された文ごとに教師ラベル判定寄与度を算出し、前記寄与度に応じて要約文を抽出する、
ことを実行させるための抽出プログラム。

0099

1支援装置
5表示装置
6記憶装置
7 記憶装置
10抽出装置
20言語処理部
30 学習部
40要約文抽出部
50教師ラベル受付部
61 単語記憶部
62テキスト記憶部
63学習モデル記憶部
64パラメータ記憶部
65付加情報記憶部
91 CPU
92通信I/F(通信インターフェース)
93メモリ
94 記憶装置
95入力装置
96出力装置
97システムバス
110表示制御装置
140表示制御部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社日立製作所の「 検索支援システム、及び検索支援方法」が 公開されました。( 2021/09/30)

    【課題】ユーザによる情報検索を容易にする検索支援システム及び検索支援方法を提供する。【解決手段】検索支援システム1は、1又は複数の項目と、その項目の内容を示す情報とを対応づけた検索対象情報を作成するデ... 詳細

  • 富士ゼロックス株式会社の「 情報処理装置及びプログラム」が 公開されました。( 2021/09/30)

    【課題】文書上にロゴマーク類以外の文字を用いても文書の形式の同一性を判定できるようにする。【解決手段】情報処理装置1は、読み取った帳票の形式が初めての場合、帳票に対して実施したキーバリュー抽出処理によ... 詳細

  • 株式会社日立製作所の「 画像取得装置及び画像取得方法」が 公開されました。( 2021/09/30)

    【課題】パンチアウト先の運用負荷を低減しつつ、認証が必要なWebページからも画像を収集して商品と商品画像との紐づけ精度を向上させる。【解決手段】画像取得装置は、商品を特定する商品特定情報と、商品につい... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ