図面 (/)

技術 情報抽出支援装置、方法およびプログラム

出願人 株式会社東芝
発明者 岡本昌之宮村祐一
出願日 2014年11月19日 (4年8ヶ月経過) 出願番号 2014-234963
公開日 2016年5月30日 (3年1ヶ月経過) 公開番号 2016-099741
状態 特許登録済
技術分野 検索装置
主要キーワード 供給関係 質問部分 補助技術 属性候補 抽出候補 属性表現 競合関係 総出現回数
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年5月30日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

分析目的に応じた分析を容易に行うことができる。

解決手段

本実施形態に係る情報抽出支援装置は、第1取得部、判定部、選択部および抽出部を含む。第1取得部は、所望の情報の種類を示す属性分析対象として抽出可能である文書を取得する。判定部は、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る。選択部は、前記属性候補の中から分析に用いる属性を選択属性として選択する。抽出部は、前記文書から前記選択属性に属する表現属性表現として抽出する。

概要

背景

Webページ文書から、単語の属性(例えば、商品名とその商品の価格)を抽出する情報抽出を行うために、文書から属性情報を抽出する方式が提案されている。このような方式を用いることで、文書中の特定の情報を整理する(例えば、商品スペック一覧を文書から抜き出して表にまとめる)ことが容易となる。
しかし、文書毎に抽出したい情報が異なる場合は、属性を選択する手間がかかる。よって、従来技術として、指定されたカテゴリ文書集合分類し、文書の分類に応じてどの情報を抽出するかを決める技術がある。

概要

分析目的に応じた分析を容易に行うことができる。本実施形態に係る情報抽出支援装置は、第1取得部、判定部、選択部および抽出部を含む。第1取得部は、所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得する。判定部は、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る。選択部は、前記属性候補の中から分析に用いる属性を選択属性として選択する。抽出部は、前記文書から前記選択属性に属する表現属性表現として抽出する。

目的

本開示は、上述の課題を解決するためになされたものであり、分析に必要な情報抽出を支援することができる情報抽出支援装置、方法およびプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

所望の情報の種類を示す属性分析対象として抽出可能である文書を取得する第1取得部と、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る判定部と、前記属性候補の中から分析に用いる属性を選択属性として選択する選択部と、前記文書から前記選択属性に属する表現属性表現として抽出する抽出部と、を具備することを特徴とする情報抽出支援装置

請求項2

前記分析の目的に応じて、前記選択属性および前記属性表現に関する出力形式の設定を含む前記分析により分析結果を生成する生成部をさらに具備することを特徴とする請求項1に記載の情報抽出支援装置。

請求項3

前記第1取得部は、前記分析の目的をさらに取得することを特徴とする請求項1または請求項2に記載の情報抽出支援装置。

請求項4

前記判定部は、前記文書および前記属性候補の少なくともどちらか一方を参照して、前記分析の目的を推定することを特徴とする請求項1から請求項3のいずれか1項に記載の情報抽出支援装置。

請求項5

前記判定部は、前記文書に出現する第1属性に属する語の出現回数または前記文書に出現する該第1属性に属する複数の語の総出現回数が、第1閾値以上である場合、該第1属性が有効であると判定することを特徴とする請求項1から請求項4のいずれか1項に記載の情報抽出支援装置。

請求項6

前記判定部は、前記文書についてカテゴリ文書形式とを推定することを特徴とする請求項1から請求項5のいずれか1項に記載の情報抽出支援装置。

請求項7

前記属性候補および前記分析結果の少なくともどちらか一方に対するユーザからの正誤判定を取得する第2取得部と、前記正誤判定に基づいて学習を行う学習部と、をさらに具備することを特徴とする請求項2から請求項6のいずれか1項に記載の情報抽出支援装置。

請求項8

前記判定部は、新たに文書が追加された場合、追加された文書のみまたは文書全体に対して、前記属性が有効であるかどうかを判定することを特徴とする請求項1から請求項7のいずれか1項に記載の情報抽出支援装置。

請求項9

前記属性候補を提示する提示部をさらに具備することを特徴とする請求項1から請求項8のいずれか1項に記載の情報抽出支援装置。

請求項10

前記判定部は、前記分析の目的に必要な属性候補を推定し、前記提示部は、前記分析の目的に必要な属性候補を予め選択した状態で提示することを特徴とする請求項9に記載の情報抽出支援装置。

請求項11

前記提示部は、前記分析に要する処理時間の推定時間を提示することを特徴とする請求項9または請求項10に記載の情報抽出支援装置。

請求項12

前記属性表現を抽出する際に用いる特徴抽出器または前記属性間の関係に関する論理ルールを格納する格納部をさらに具備する請求項1から請求項11のいずれか1項に記載の情報抽出支援装置。

請求項13

前記選択部は、ユーザの指示に応じて前記特徴抽出器または前記論理ルールから少なくとも1つを選択することを特徴とする請求項12に記載の情報抽出支援装置。

請求項14

前記選択部は、前記特徴抽出器または前記論理ルールうちの少なくとも1つがユーザにより選択された場合に、選択された特徴抽出器または論理ルールに必要な属性を選択属性として選択することを特徴とする請求項12または請求項13に記載の情報抽出支援装置。

請求項15

前記抽出部は、前記分析の目的で必要となる第2属性のうち属性表現が抽出されていない第3属性が、他の第2属性に属する属性表現に共通する属性である場合は、該属性表現を該第3属性に属する属性表現として補完することを特徴とする請求項1から請求項14のいずれか1項に記載の情報抽出支援装置。

請求項16

所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得し、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得、前記属性候補の中から分析に用いる属性を選択属性として選択し、前記文書から前記選択属性に属する表現を属性表現として抽出することを特徴とする情報抽出支援方法

請求項17

コンピュータを、所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得する第1取得手段と、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る判定手段と、前記属性候補の中から分析に用いる属性を選択属性として選択する選択手段と、前記文書から前記選択属性に属する表現を属性表現として抽出する抽出手段として機能させるための情報抽出支援プログラム

技術分野

0001

本発明の実施形態は、情報抽出支援装置、方法およびプログラムに関する。

背景技術

0002

Webページ文書から、単語の属性(例えば、商品名とその商品の価格)を抽出する情報抽出を行うために、文書から属性情報を抽出する方式が提案されている。このような方式を用いることで、文書中の特定の情報を整理する(例えば、商品スペック一覧を文書から抜き出して表にまとめる)ことが容易となる。
しかし、文書毎に抽出したい情報が異なる場合は、属性を選択する手間がかかる。よって、従来技術として、指定されたカテゴリ文書集合分類し、文書の分類に応じてどの情報を抽出するかを決める技術がある。

先行技術

0003

特開2001−134600号公報
特開2010−205218号公報

発明が解決しようとする課題

0004

しかしながら、情報を抽出する者(分析者)が熟練者でない場合、目的に応じてどのような属性を抽出すれば良いか分からないという問題がある。特に、抽出すべき属性が文書の特徴の組み合わせによって決まる場合、文書と抽出する特徴の関係とを考慮することは、熟練者でなければ難しい。さらに、文書の数が増えると、抽出すべき情報量が増えるため、チェック負担が増大する。

0005

本開示は、上述の課題を解決するためになされたものであり、分析に必要な情報抽出を支援することができる情報抽出支援装置、方法およびプログラムを提供することを目的とする。

課題を解決するための手段

0006

本実施形態に係る情報抽出支援装置は、第1取得部、判定部、選択部および抽出部を含む。第1取得部は、所望の情報の種類を示す属性を分析対象として抽出可能である文書を取得する。判定部は、前記属性が有効であるかどうかを判定し、有効であると判定された属性を属性候補として得る。選択部は、前記属性候補の中から分析に用いる属性を選択属性として選択する。抽出部は、前記文書から前記選択属性に属する表現属性表現として抽出する。

図面の簡単な説明

0007

第1の実施形態に係る情報抽出支援装置を示すブロック図。
第1の実施形態に係る情報抽出装置情報抽出処理を示すフローチャート
対象文書から抽出される属性表現の一例を示す図。
対象文書の分析結果となるテーブルの一例を示す図。
特徴格納部に格納される論理ルールの一例を示す図。
属性候補提示部および生成部で生成される分析結果の提示例を示す図。
第2の実施形態に係る情報抽出支援装置を示すブロック図。
ユーザインタフェースの一例を示す図。
論理ルールを更新する一例を示す図。

実施例

0008

以下、図面を参照しながら本実施形態に係る情報抽出支援装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。

0009

(第1の実施形態)
第1の実施形態に係る情報抽出支援装置について図1のブロック図を参照して説明する。
第1の実施形態に係る情報抽出支援装置100は、文書取得部101、特徴格納部102、有効性判定部103、属性候補提示部104、選択部105、属性表現抽出部106および生成部107を含む。

0010

文書取得部101は、分析対象となる1以上の対象文書を取得する。対象文書は、ユーザから入力されることにより取得してもよいし、外部のサーバなどから自動で収集するようにしてもよい。本実施形態における対象文書とは、例えば、webページインターネット上にアップロードされているニュース記事といった自然文で表現されたテキストデータを想定する。しかし、これに限らず、データから属性を抽出できるものであればよい。属性は、ユーザが抽出したい所望の情報の種類を示し、例えば、商品名、価格、企業名が挙げられる。また、文書取得部101は、ユーザから入力される分析の目的(以下、部席目的ともいう)を取得してもよい。分析目的は、ユーザが所望する分析処理の目的であり、例えば、技術マップや、サプライチェーン家系図が挙げられるが、これらに限られない。

0011

特徴格納部102は、単語およびを含む語句と語句が属する属性とを対応付けたテーブルと、後述の属性表現を抽出する際に用いる属性を抽出するために使われる文書自体のメタ情報(例えば作成日時、文書のファイルフォーマット、言語、等)や文書に含まれる語句についての特徴(名詞や同士など単語の品詞、人名や地名など固有表現の分類、単語の前後に出現する語句、ngram等)、文書に含まれる図表についての特徴(写真グラフイラストなど図の分類、表の行数列数、等)などを抽出する特徴抽出器と、後述の属性表現を抽出する際に用いる属性間の関係に関する規則である1以上の論理ルールとを格納する。特徴抽出器は、抽出候補の属性と多対多の関係であり、1つの属性に対し1つ以上の特徴抽出器が、また1つの特徴抽出器が1つ以上の属性に対応する。これらの対応関係は予め格納しても良いし、抽出結果に基づき有効な組み合わせを選別できるようにしてもよい。論理ルールについては、図4を参照して後述する。さらに、特徴格納部102は、分析目的と、分析目的に応じて必要と考えられる属性とを対応付けて格納する。

0012

有効性判定部103は、文書取得部101から1以上の対象文書を受け取り、特徴格納部102を参照して、1以上の対象文書から抽出可能である属性が有効であるかどうかを判定する。有効性判定部103は、有効であると判定された1以上の属性を1以上の属性候補として得る。なお、有効性判定部103は、文書取得部において分析目的を取得していない場合、対象文書および属性候補の少なくともどちらか一方を参照して、分析目的を推定してもよい。このとき、有効性判定部103は、1以上の対象文書のカテゴリと、1以上の対象文書の文書形式とを推定してもよい。

0013

属性候補提示部104は、有効性判定部103から1以上の属性候補および1以上の対象文書を取得し、1以上の属性候補を、例えばディスプレイに提示する。

0014

選択部105は、ユーザからの指示(以下ユーザ指示という)を、属性候補提示部104から1以上の属性候補および1以上の対象文書をそれぞれ受け取る。選択部105は、属性候補提示部104に提示された属性候補の中から、ユーザ指示により選択された分析に用いる属性を選択属性として選択する。

0015

属性表現抽出部106は、選択部105から選択属性および1以上の対象文書を受け取り、選択属性ごとに、1以上の対象文書から選択属性に属する表現を属性表現として抽出する。

0016

生成部107は、属性表現抽出部106から選択属性と対応する属性表現と1以上の対象文書とを受け取り、ユーザが出力したい形式となるように、分析目的に応じて、選択属性および属性表現に関して出力形式の設定を含む分析処理を行ない、分析結果を生成する。分析結果は、例えばディスプレイに出力される。なお、生成部107が出力形式の指定情報を含むユーザ指示を受け取ることにより、出力形式が指定されてもよいし、初期設定として特定の出力形式が予め指定されてもよい。

0017

次に、情報抽出支援装置100の情報抽出処理について図2のフローチャートを参照して説明する。

0018

テップS201では、文書取得部101が、1以上の対象文書を取得する。
ステップS202では、有効性判定部103が、1以上の対象文書から、抽出可能な属性が有効であるかどうかを判定する。
判定方法は、例えば、1以上の対象文書に出現するある属性に属する単語の出現回数閾値以上であれば、その属性が有効であると判定すればよい。具体的には、固有表現抽出などの手法により、対象文書中に「A株式会社」という単語が閾値以上出現する場合、「A株式会社」の属する属性「企業名」が有効な属性であると判定できる。なお、単語と単語が属する属性とは、特徴格納部102に格納される語句と属性との対応関係を表すルックアップテーブルを参照することにより決定してもよいし、語句と属性との対応関係について外部知識を参照することにより決定してもよい。あるいは、特徴格納部102に格納される特徴抽出器を用いた結果の出現回数などにより決定してもよい。判定に使う文書としては、入力された文書全体でも良いし、一定量ランダムサンプリングするなどして判定に十分な分量の文書を用いることもできる。

0019

または、別の判定方法として、1以上の対象文書に出現するある属性に属する複数の語句の総出現回数が閾値以上であれば、その属性が有効であると判定すればよい。具体的には、対象文書中に「A株式会社」「B株式会社」「C株式会社」という企業名を表す単語の総出現回数が閾値以上であれば、それぞれの単語が属する属性「企業名」が有効な属性であると判定できる。
有効性判定部103は、抽出可能な属性のうち有効であると判定した属性を、属性候補として得る。

0020

ステップS203では、有効性判定部103が、ユーザから分析目的の入力がされているかどうかを判定する。初めに分析目的が入力されることにより、分析目的に必要とされる属性を推定する時間を減らすことができる。分析目的が入力されている場合は、ステップS205に進み、分析目的が入力されていない場合は、ステップS204に進む。

0021

ステップS204では、有効性判定部103が、対象文書および属性候補の少なくともどちらか一方を参照して、1以上の分析目的を推定する。具体的には、例えば、対象文書として「企業名」を表す単語を多く含むニュース記事を取得した場合、企業名を扱う分析目的として、企業間の関係を表すような分析、すなわち「技術マップ」「業界マップ」「サプライチェーン」および「株価比較」といった分析目的を提案すればよい。ユーザは、提案された分析目的の中から所望する分析目的を選択する。

0022

ステップS205では、属性候補提示部104が、1以上の属性候補を提示する。なお、属性候補提示部104は、特徴格納部102を参照して、分析目的に応じて必要と考えられる属性候補を予め選択済みの状態で提示する、すなわち「おすすめ」属性として提示してもよい。属性の提示方法としては、単純に属性名を辞書順で並べて一覧表示するほか、よく出現する属性の順序に応じて並べ替えてもよいし、製品名と製品分類とのように互いに関係の近い属性ごとグループ化して、まとめて表示してもよい。また、まとめた属性はリスト表示などで集約および展開できるようにしてもよい。あるいは過去に情報抽出支援装置100を用いて同じ種類の文書を分析した際に選択した属性を表示してもよい。このように表示することで、ユーザは大量に存在する属性候補を全て確認せずとも、分析に必要な属性を選択することが容易となる。

0023

ステップS206では、選択部105が、ユーザ指示に応じて、提示された属性候補の一覧から分析に用いる属性を選択し、属性候補を選択する。ユーザ指示の例としては、属性候補が表示されるディスプレイをタッチしたり、キーボードなどの入力デバイスを用いて属性候補の文字列を入力したり、ユーザが属性候補の名称を読み上げたりすることが挙げられる。

0024

ステップS207では、属性表現抽出部106が、1以上の対象文書から、特徴格納部102の特徴抽出器および論理ルールに沿って、選択属性に属する表現を属性表現として抽出する。なお、特徴抽出器および論理ルールを用いない場合は、有効性判定部103で処理した段階で属性と対象文書中の表現とが対応付けられているので、属性表現抽出部106は、属性に属する表現をそのまま属性表現として得ればよい。
ステップS208では、生成部107が、選択属性と抽出された属性表現とについて分析結果を生成して出力する。

0025

以上で情報抽出処理を終了する。なお、ここでは、文書取得部101が取得した1以上の対象文書全体について一度に処理する場合を想定するが、1つの対象文書ごとに図2に示す情報抽出処理(有効性判定部103における処理など)を実行してもよい。例えば、新たに対象文書が追加される場合、追加された対象文書のみ有効性判定部103における処理を実行し、追加された対象文書から抽出可能な属性が有効であるかどうかを判定してもよい。

0026

次に、対象文書から抽出される属性表現の一例について図3Aを参照して説明する。
例えば、企業活動に関するニュース記事を元に、分析目的として企業間の関係を調べる場合、記事内容(以下、記事の見出しも含む)から、企業活動に関連する情報を抽出することが求められる。

0027

図3Aに示す記事見出し300の場合、「2014/11/11」という日付301や「A社」「B社」といった企業名302、「提携」のような企業間の関係303、「半導体チップ開発」のような話題304が記事内容として含まれる。属性表現抽出部106は、これらの語を属性表現として抽出する。

0028

次に、図3Aに示す対象文書の分析結果となるテーブルの一例について図3Bを参照して説明する。
属性と属性表現との関係を示すテーブル350である。分析結果として出力されるテーブルのカラム名となる属性305のそれぞれに属する属性表現306が対応付けられる。

0029

なお、例えば、企業一覧を作成したい場合は、「企業」属性のみ選択すればよいし、企業間の関係を調べる場合には「企業」と「関係」との属性を抽出すればよい。

0030

例えば、「企業名」を抽出するためには、固有表現抽出のような一般的な自然言語処理の技術を用いることで抽出できるが、新しい企業のように辞書に含まれていない単語の場合は、「ABCと提携」など周囲の文脈から「ABC」が企業名であると推測することになる。このように、企業名を直接、あるいは文脈情報を用いる手掛かりライブラリとして特徴格納部102に用意し、文書に応じて使い分ければよい。

0031

対象文書の内容によっては、分析目的に必要となる複数の属性に対応する属性表現について、一度に全ての属性に対応する属性表現を埋められない場合もある。この場合、抽出できなかった属性表現は空白のままでもよいし、他の手段により補完してもよい。例えば、既に埋められている属性に属する属性表現に共通する属性がある場合は、その属性で記載されている属性表現で補完してもよい。あるいは、抽出済み属性表現を検索クエリとして外部の検索エンジンなどで検索し、検索された結果で抽出できなかった属性表現を補完してもよい。

0032

また、論理ルールを用いることで、分析処理に関する熟練者の知見を利用することもできる。特徴格納部102に格納される論理ルールの一例について図4を参照して説明する。

0033

例えば、2つの企業「企業1」「企業2」が競合関係にあることを「競合(企業1,企業2)」といった表記する場合、企業の順序を入れ替えても問題ないような関係であれば、競合(企業1,企業2)と競合(企業2,企業1)は等価であるため、「競合(企業1,企業2)⇔競合(企業2,企業1)」といったルールを用いることで、冗長な属性表現の抽出を抑制できるので、後段の分析処理や結果出力においても冗長な表現を抑制することができる。
または、裁判で係争中である企業同士は、競合しているとみなせるので、「裁判(企業1,企業2)⇒競合(企業1,企業2)」といったルールを用いることで、複数種類の属性間の関係性を与えることができる。

0034

さらに、部品Aを企業1が作り、最終製品Bを企業2が作り、企業1と企業2との間に取引関係がある場合は供給関係成立するとみなせる場合、「製造(企業1,部品A)∧製造(企業2,端末B)∧取引(企業1,企業2)⇒供給(企業1,企業2)」のといったルールを入れることで、サプライチェーンの一部を記述することができるようになる。

0035

このような論理ルールを参照することで、ユーザに意識させることなく、熟練者が検討しうるような属性間の関係の抽出および分析結果を得ることができる。

0036

なお、いくつかの論理ルールをユーザに提示し、ユーザが選択できるようにしてもよい。例えば、属性候補提示部104が、特徴格納部102から1以上の論理ルールを取得してユーザに提示し、選択部105が、ユーザ指示に応じて論理ルールを選択することで、後段の属性表現抽出部106においてユーザの意図を反映した属性表現の抽出を行うことができる。また、選択部105は、ユーザ指示に応じて選択した論理ルールについて必要な属性を選択属性として選択し、属性候補提示部104が選択属性を提示してもよい。

0037

同様に、特徴抽出器をユーザに提示し、ユーザが選択できるようにしてもよい。例えば、属性候補提示部104が、特徴格納部102から1以上の特徴抽出器を取得してユーザに提示し、選択部105が、ユーザ指示に応じて特徴抽出器を選択することで、後段の属性表現抽出部106においてユーザの意図を反映した属性表現の抽出を行うことができる。また、選択部105は、ユーザ指示に応じて選択した特徴抽出器について必要な属性を選択属性として選択し、属性候補提示部104が選択属性を提示してもよい。

0038

次に、属性候補提示部104の提示例および生成部107で生成される分析結果の出力例について図5を参照して説明する。
初めに、属性候補提示部104により、対象文書をユーザに入力させる処理と分析目的をユーザに選択させる処理とを行う画面が提示される。図5(a)の例では、分析目的として、ユーザが「サプライチェーン」を選択し、対象文書として、ユーザが半導体業界の記事を入力したと想定する。

0039

分析目的は、予め定められた項目を選択させるようにしてもよいし、上述のステップS204で示すように、文書取得部101が対象文書を取得した後、有効性判定部103が、対象文書に出現する単語に基づいて要求される分析目的を推定して提示するようにしてもよい。

0040

また、分析目的をユーザに入力させてもよい。ユーザに分析目的を入力させる場合は、ユーザの自由記述から決定される分析目的が情報抽出支援装置100内で予め設定した分析目的である必要がある。そのため、例えば、インクリメンタルサーチのような文字入力補助技術などを用いて、ユーザが数文字入力すると、予め設定した分析目的が表示されるように入力を補助してもよい。

0041

図5(b)では、属性候補提示部104により、対象文書の推定結果と属性候補とが提示される。ここでは、分析目的が予め入力されているため、[抽出項目の候補]として、分析目的に利用すべき属性として予め設定される属性を、おすすめ属性として選択済みの状態で提示する。なお、分析目的に利用すべき属性だが対象文書には存在しない属性は、提示しなくてもよいし、分析目的に必要な属性であることを示すため選択不可の状態で提示するようにしてもよい。

0042

また、ユーザが分析に必要だと考える属性をさらに選択できるようにしてもよいし、ユーザが不要だと考える属性を非選択の状態にできるようにしてもよい。また、分析結果を分かりやすくするために、対象文書を構成する内容および分野や、記事、論文など文書の種類を表す特徴を提示するようにしてもよい。図5(b)の例では、「半導体分野」「ニュース」が提示される。あるいは、他に抽出したい属性がある場合は、新たな項目として属性を追加可能としてもよい。ここで、図5(b)の画面で選択された項目が選択属性となる。

0043

図5(c)では、属性および属性表現をどのような出力形式とするかを選択するための[表現形式]と、出力するファイルの形式を示す[ファイル形式]と、分析に要する処理時間の推定時間を示す[処理時間見込]とを提示する。例えば、属性と属性表現とを表として出力するほか、属性が独立ではなく複数の属性表現に関係があるときはグラフとして出力するのが好ましい場合がある。よって、ユーザが出力形式を選択できることが好ましい。なお、生成部107が、分析目的に応じて好ましい表現形式を予め選択し、選択された表現形式がユーザに提示されるようにしてもよい。
また、電子ファイルとして結果を出力する場合はファイル形式を選択可能としてもよい。さらに、処理時間見込みを参照することで、出力までに時間がかかり過ぎるとユーザが判断した場合は、ユーザが抽出する属性を絞り込む(ユーザが不要と考える属性を非選択にする)ことで処理時間を調整することもできる。

0044

図5(d)では、生成部が実行された結果を出力する。ここでは、企業間のサプライチェーンの関係をグラフ形式で出力した例である。

0045

以上に示した第1の実施形態によれば、対象文書から抽出可能な属性が有効であるかどうかを推定し、ユーザの分析目的に応じて、どのような属性を抽出可能であるか提示する。選択された属性に基づいて属性表現を抽出し、属性表現を用いた分析結果を表やグラフで出力することにより、容易に必要な情報を含む分析を容易に行うことができる。

0046

また、熟練者が検討する内容を含む論理ルールに応じて必要な属性を予め選択させることによって、提示された属性を選択することにより、熟練者でなくとも分析目的に応じた必要な情報を含む分析を容易に行うことができる。

0047

(第2の実施形態)
第2の実施形態では、属性および出力結果に対してユーザが正誤判定を与えることにより機械学習を行う点が第1の実施形態と異なる。分析結果がそのまま活用できる場合は良いが、必要に応じて分析結果をレビューしたり、情報抽出支援装置100の抽出精度を改善するためのフィードバックを返したりする必要がある場合も存在する。よって、学習を行うことにより属性候補の提示および分析結果の精度を向上させることができる。

0048

第2の実施形態に係る情報抽出支援装置600は、文書取得部101、特徴格納部102、有効性判定部103、属性候補提示部104、選択部105、属性表現抽出部106、生成部107、正解入力部601および学習部602を含む。

0049

文書取得部101、特徴格納部102、有効性判定部103、属性候補提示部104、選択部105、属性表現抽出部106および生成部107については、第1の実施形態と同様の動作を行うのでここでの説明を省略する。

0050

正解入力部601は、選択部105から属性候補を、生成部107から出力結果をそれぞれ受け取り、属性候補および出力結果のそれぞれについての正誤判定をユーザからの指示に基づいて決定する。

0051

学習部602は、正解入力部601からユーザにより正誤の判定がなされた属性候補および分析結果を受け取り、特徴格納部102に格納される論理ルールを含むデータを更新する。

0052

次に、出力結果をレビューするためのユーザインタフェースの一例について図7を参照して説明する。
図7では、対象文書と抽出結果とをユーザに出力する一例を示す。例えば、メッセージ701「出力を確認して下さい。」を表示することで、ユーザに正誤判定を促す。属性702の例として、「日付」「企業1」「企業2」「話題」および「関係」を提示するとともに、対象文書の原文703と、原文703から抽出された各属性702に対応する属性表現704とをあわせて提示する。必要に応じて、出力に「スコア」として、抽出結果に対し情報抽出支援装置100が付与した確信度確率値といったスコアをあわせて表示してもよい。また、どのような手掛かりを元に抽出結果が得られたかを示すために、それぞれの属性表現704を抽出するために使われた特徴抽出器や論理ルール、あるいはその適用結果を表示してもよい。

0053

さらに、属性と対応する属性表現との正誤を入力する欄であるチェック欄705を提示する。ユーザは、各属性と対応する属性表現との抽出結果が正しければ「○」を入力し、誤っていれば「×」を入力する。正解入力部601は、ユーザからの各属性と属性表現との正誤判定を受け取る。学習部602は、ユーザの正誤判定に基づいて特徴格納部102へ学習させる。学習方法としては、例えば、正しいと判断された属性と属性表現との対応関係の優先度を高く設定し、誤りであると判断された属性表現は次回以降提示させないなど、一般的な学習方法を用いればよい。この時、属性表現704を抽出するために使われた特徴抽出器や論理ルールを集計することで、属性毎の抽出に寄与した特徴抽出器や論理ルールを選別したり、特徴抽出器や論理ルール毎の重みを算出することができる。次回実行時には、不要な特徴抽出器や論理ルールの実行を抑制することで処理時間を削減しつつ精度向上を図ることができる。

0054

具体的には、例えば、原文703「A社、半導体チップ開発でB社と提携(2014/11/11)」については、チェック欄705に「○」が記入されているため、ユーザがこれらの属性と属性表現との対応関係は正しいと判断している。よって、これらの関係を学習部602が特徴格納部102に学習させる。

0055

一方、原文703「C社、照明特許でD社を訴える(2014/11/12)」については、チェック欄705に「×」記入されているため、ユーザが誤りであると判断している。ここでは、属性702「関係」の属性表現704が「供給」となっており、原文の「訴える」との表現を考慮すれば、属性表現704として「裁判」であるのが正しい。よって、学習部602では、この誤りを特徴格納部102に学習させればよい。上述した処理により、属性候補および分析結果の精度を向上あるいは改善することもできる。図7では、全ての属性が正しいかどうかに応じて「○」あるいは「×」を付与しているが、個々の属性に対し「○」あるいは「×」を付与してもよい。例えば、属性表現704のみ「×」を付与することで、より詳細に判定結果を与えることもできる。

0056

また、上述の方法により抽出された知識は、結果自体を辞書や知識源として利用する他、他の応用向けに利用することも考えられる。

0057

次に、論理ルールを更新する一例について図8を参照して説明する。
図8の例は、図4のような論理ルールの形式で得られた知識を対話、特に知識を問うような質問応答を含む音声対話の中でどのように利用するかを示す。

0058

例えば、ある日起こったニュースが質問として入力された場合は、入力された日付と同じ属性「日付」の属性表現の元となるニュース記事を1つ読み上げるというルールが考えられる。具体的な処理としては、例えば、音声認識部(図示せず)がユーザからの音声を音声認識する。属性表現抽出部106が、音声認識結果に応じてある日付のニュースについて読み上げが求められている属性「日付」として抽出された属性表現の元となるニュース記事を、対象文書から1つ抽出する。その後、音声合成部(図示せず)が、属性表現抽出部106から抽出された1つのニュース記事を受け取って音声合成して読み上げればよい。
または、ある企業のライバルねる質問が入力された場合は、「企業1」または「企業2」と競合する企業を検索し、その企業名を回答することが考えられる。また、ニュース記事に限らず、コールセンターなどの質問応答記録から質問部分と回答部分とを切り出して保存することで、同様に問い合わせ対応向けの知識を構築することも考えられる。このように、質問に用いられる属性と回答に用いられる属性とを指定することで、対話向けの知識ベースとして活用することができる。

0059

以上に示した第2の実施形態によれば、提示した属性候補および分析結果に関するユーザからの正誤判定を受け取って学習することで、属性候補の提示および分析結果の精度を向上させることができる。

0060

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した情報抽出支援装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスクフレキシブルディスクハードディスクなど)、光ディスクCD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステム読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の情報抽出支援装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

0061

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコンマイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

0062

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

0063

100,600・・・情報抽出支援装置、101・・・文書取得部、102・・・特徴格納部、103・・・有効性判定部、104・・・属性候補提示部、105・・・選択部、106・・・属性表現抽出部、107・・・生成部、300・・・記事見出し、301・・・日付、302・・・企業名、303・・・関係、304・・・話題、305,702・・・属性、306・・・属性表現、350・・・テーブル、601・・・正解入力部、602・・・学習部、701・・・メッセージ、703・・・原文、704・・・属性表現、705・・・チェック欄。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • グーグルエルエルシーの「 ビデオマッチングシステムのサービス品質向上のための画像マッチングシステムの使用」が 公開されました。( 2019/05/30)

    【課題・解決手段】システムは、対象のビデオを受信する。システムは、対象のビデオ内の動的セグメントと準静的セグメントとを識別する。システムは、対象のビデオの動的セグメントと参照ビデオの参照動的セグメント... 詳細

  • 尾和剛一の「 特許文献集合の分析方法」が 公開されました。( 2019/05/23)

    【課題】特定のコア技術や、特定の出願人の特定の分野の全特許文献集合の文献件数時系列動向とは異なる動向を示す文献項目を抽出する方法を提供する。【解決手段】特定文献集合分折方法は、特定の文献集合の特許文献... 詳細

  • 株式会社大塚商会の「 画像解析システム」が 公開されました。( 2019/05/23)

    【課題】 画像解析システムを提供することを目的とする。【解決手段】 画像解析システムであって,対象物と対象物関連情報とを対応づけて記憶する対象物情報記憶部と,第1の画像情報と,少なくとも一以上の第... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ