図面 (/)

技術 文書構成解析装置、文書構成解析方法、及び文書構成解析プログラム

出願人 富士通株式会社
発明者 片江伸之
出願日 2016年6月20日 (3年4ヶ月経過) 出願番号 2016-122086
公開日 2017年12月28日 (1年9ヶ月経過) 公開番号 2017-227996
状態 未査定
技術分野 検索装置
主要キーワード 境界判定処理 構成単位毎 枠線内 一段落 文書内位置 遷移パターン スコアテーブル 境界判定
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年12月28日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

文書における各構成単位構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定する。

解決手段

文書構成解析装置は、分割部と、解析部と、を備える。分割部は、原文書を複数の構成単位に分割する。解析部は、構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出する。また、解析部は、構成単位の構成要件スコアと、予め用意された複数通りの構成要件の遷移パターンと、予め用意された一文書における構成要件の配分確率と、に基づいて、複数の構成単位の構成要件を特定する。

概要

背景

文書データから要約文を生成する方法の1つとして、原文書を複数の構成単位に分割して各構成単位構成要件を特定した後、構成要件毎に適切な重要な部分を抽出して要約文を生成する方法が知られている(例えば、非特許文献1を参照。)。構成要件は、文書における構成単位の大まかな分類である。対象となる文書が論文である場合、「目的」、「構成」、「背景」、「自身の研究」、「対比される研究」、「根拠となる研究」、「その他の研究」等が構成要件となる。

この種の生成方法では、各構成単位に対する構成要件を文書内位置キーワード動詞の態・時制等を属性とした確率に基づいてスコアリングし、スコアが最大となる構成要件を各構成単位の構成要件に特定する。

概要

文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定する。文書構成解析装置は、分割部と、解析部と、を備える。分割部は、原文書を複数の構成単位に分割する。解析部は、構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出する。また、解析部は、構成単位の構成要件スコアと、予め用意された複数通りの構成要件の遷移パターンと、予め用意された一文書における構成要件の配分確率と、に基づいて、複数の構成単位の構成要件を特定する。

目的

本発明は、文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

原文書を複数の構成単位に分割する分割部と、前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出した後、前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する解析部と、を備えることを特徴とする文書構成解析装置

請求項2

前記解析部は、前記構成要件スコアを算出する構成要件スコア算出部と、前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンとに基づいて、前記構成単位の構成要件を判定し、前記原文書における前記構成要件の境界を特定する判定部と、前記構成要件スコアと、前記判定部で特定した前記原文書における前記構成要件の境界の位置に基づく前記構成要件の配分と、前記構成要件の配分確率と、に基づいて、前記原文書における前記構成要件の境界の位置を修正する修正部と、を含むことを特徴とする請求項1に記載の文書構成解析装置。

請求項3

前記修正部は、前記境界の前方の構成単位における前記境界の前後の構成要件についての構成要件スコアの差が閾値よりも小さく、更に、前記境界の前方の構成要件の配分が前記配分確率における平均値よりも大きく、かつ、前記境界の後方の構成要件の配分が前記配分確率における平均値よりも小さい場合に、前記境界の位置を前方に移動させる、ことを特徴とする請求項2に記載の文書構成解析装置。

請求項4

前記修正部は、前記境界の後方の構成単位における前記境界の前後の構成要件についての構成要件スコアの差が閾値よりも小さく、更に、前記境界の前方の構成要件の配分が前記配分確率における平均値よりも小さく、かつ、前記境界の後方の構成要件の配分が前記配分確率における平均値よりも大きい場合に、前記境界の位置を後方に移動させる、ことを特徴とする請求項2に記載の文書構成解析装置。

請求項5

前記解析部は、前記構成要件スコアを算出する構成要件スコア算出部と、前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンと、前記構成要件の配分確率と、に基づいて、前記構成単位の境界のそれぞれを前記構成要件の境界としたときの適正度を算出した後、前記構成要件スコアと前記適正度とに基づいて前記構成単位の構成要件を判定し、前記原文書における前記構成要件の境界を特定する判定部と、を含むことを特徴とする請求項1に記載の文書構成解析装置。

請求項6

コンピュータが、原文書を複数の構成単位に分割し、前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出し、前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する、ことを特徴とする文書構成解析方法

請求項7

原文書を複数の構成単位に分割し、前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出し、前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する、処理をコンピュータに実行させる文書構成解析プログラム

技術分野

0001

本発明は、文書構成解析装置、文書構成解析方法、及び文書構成解析プログラムに関する。

背景技術

0002

文書データから要約文を生成する方法の1つとして、原文書を複数の構成単位に分割して各構成単位構成要件を特定した後、構成要件毎に適切な重要な部分を抽出して要約文を生成する方法が知られている(例えば、非特許文献1を参照。)。構成要件は、文書における構成単位の大まかな分類である。対象となる文書が論文である場合、「目的」、「構成」、「背景」、「自身の研究」、「対比される研究」、「根拠となる研究」、「その他の研究」等が構成要件となる。

0003

この種の生成方法では、各構成単位に対する構成要件を文書内位置キーワード動詞の態・時制等を属性とした確率に基づいてスコアリングし、スコアが最大となる構成要件を各構成単位の構成要件に特定する。

先行技術

0004

S.Teufel, et al., “Summarizing Scientific Articles: Experiments with Relevance and Rhetorical Status”, Computational Linguistics, Vol 28, No.4, pp 409-445(2002)

発明が解決しようとする課題

0005

しかしながら、各構成単位の構成要件を、複数の構成要件のうちのスコアが最大となる構成要件とした場合、一文書が多数の構成要件に分割されてしまい、文書全体における文脈に応じた適切な構成要件を特定することが困難な場合がある。また、各構成単位の構成要件を、複数の構成要件のうちのスコアが最大となる構成要件とした場合、文書全体における各構成要件の配分に偏りが生じ、文書全体における文脈に応じた適切な構成要件を特定することが困難な場合がある。

0006

1つの側面において、本発明は、文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定することを目的とする。

課題を解決するための手段

0007

1つの態様の文書構成解析装置は、分割部と、解析部と、を備える。分割部は、原文書を複数の構成単位に分割する。解析部は、構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出する。また、解析部は、構成単位の構成要件スコアと、予め用意された複数通りの構成要件の遷移パターンと、予め用意された一文書における構成要件の配分確率と、に基づいて、複数の構成単位の構成要件を特定する。

発明の効果

0008

上述の態様によれば、文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定することが可能となる。

図面の簡単な説明

0009

第1の実施形態に係る文書構成解析装置の機能的構成を示す図である。
第1の実施形態に係る文書構成解析装置における構成要件解析部の構成を示す図である。
遷移パターンの例を示す図である。
遷移パターンテーブルの例を示す図である。
構成要件の配分確率を説明するグラフ図である。
第1の実施形態に係る文書構成の解析処理を説明するフローチャートである。
構成要件スコア算出処理の内容を説明するフローチャート(その1)である。
構成要件スコア算出処理の内容を説明するフローチャート(その2)である。
文書内位置スコアの算出方法を説明するグラフ図である。
構成要件判定処理の内容を説明するフローチャートである。
境界修正処理の内容を説明するフローチャート(その1)である。
境界修正処理の内容を説明するフローチャート(その2)である。
構成要件スコア算出処理の結果の例を示す図である。
構成要件判定処理で生成する各構成単位の構成要件の組み合わせの例を示す図である。
構成要件判定処理の結果の例を示す図である。
境界位置の修正方法を説明するグラフ図である。
境界位置の修正方法の具体例を説明する図である。
解析結果の例を示す図である。
境界修正処理の変形例を説明するフローチャート(その1)である。
境界修正処理の変形例を説明するフローチャート(その2)である。
第2の実施形態に係る文書構成解析装置における構成要件解析部の構成を示す図である。
第2の実施形態に係る文書構成の解析処理を説明するフローチャートである。
構成要件/境界判定処理の内容を説明するフローチャート(その1)である。
構成要件/境界判定処理の内容を説明するフローチャート(その2)である。
構成要件スコアの設定方法を説明する図である。
境界適正度スコアの設定方法を説明する図である。
累計スコアの算出方法を説明する図である。
遷移パターンの最適解の例を説明する図である。
第3の実施形態に係る要約文書検索システムの構成を示す図である。
要約文書の登録処理を説明するフローチャートである。
文書検索処理を説明するシーケンス図である。
第4の実施形態に係る文書読解支援ステムの構成を示す図である。
支援情報を提供する処理を説明するシーケンス図である。
原文書と支援情報との例を示す図である。
支援情報の別の例を示す図である。
コンピュータハードウェア構成を示す図である。

実施例

0010

[第1の実施形態]
図1は、第1の実施形態に係る文書構成解析装置の機能的構成を示す図である。

0011

図1に示すように、本実施形態の文書構成解析装置1は、原文書受付部101と、原文書分割部102と、形態素解析部103と、構成要件解析部104と、出力部105と、を備える。また、文書構成解析装置1は、構成要件スコアテーブル111と、遷移パターンテーブル112と、配分確率データテーブル113とを含む各種データを記憶する記憶部を備える。

0012

原文書受付部101は、文書構成解析装置1において文書構成を解析する原文書データ(以下、単に原文書ともいう)の入力を受け付ける。

0013

原文書分割部102は、原文書を、一文又は一段落等の構成単位に分割する。
形態素解析部103は、原文書の構成単位毎に形態素解析を行う。

0014

構成要件解析部104は、構成単位毎の形態素解析の結果と、原文書における構成要件の遷移パターンとに基づいて、各構成単位の構成要件を特定する。ここで、構成要件は、背景、課題、提案、成果、及び今後等、文書内における記述内容の大まかな分類を表す。構成要件解析部104は、構成要件スコアテーブル111を参照し、構成単位毎に、各構成要件についての構成要件スコアを算出する。構成要件スコアは、構成単位の構成要件らしさ(背景らしさ、課題らしさ、提案らしさ等)を表す値である。また、構成要件解析部104は、遷移パターンテーブル112と、各構成単位の構成要件スコアとに基づいて、各構成単位の構成要件を判定し、原文書における構成要件の境界位置を決定する。遷移パターンテーブル112には、複数のサンプル文書における構成要素の遷移パターンに基づいて作成した、文脈を考慮した複数通りの遷移パターンが登録されている。更に、構成要件解析部104は、配分確率データテーブル113に登録されている各構成要件の配分に基づいて、原文書における構成要件の境界位置を修正する。配分確率データテーブル113には、複数のサンプル文書における各構成要素の配分(言い換えると、一文書における各構成要素の割合)に基づいて作成した、各構成要素の配分の確率密度分布を表すデータが登録されている。

0015

出力部105は、原文書における各構成単位の構成要件、或いは構成要件の境界位置を含む、原文書に対する文書構成の解析結果を、図示しない表示装置等に出力する。

0016

図2は、第1の実施形態に係る文書構成解析装置における構成要件解析部の構成を示す図である。

0017

図2に示すように、本実施形態に係る構成要件解析部104は、構成要件スコア算出部104Aと、構成要件判定部104Bと、境界修正部104Cと、を含む。

0018

構成要件スコア算出部104Aは、各構成単位の形態素解析の結果と、構成要件スコアテーブル111とに基づいて、構成単位毎に、各構成要件についての構成要件スコアを算出する。構成要件スコアは、例えば、一文書内における構成単位の位置、構成単位に含まれるキーワード、構成単位に含まれる動詞の態や時制等の情報と、構成要件と対応付けられた位置、キーワード等の確率分布とに基づいて算出する。

0019

構成要件判定部104Bは、各構成単位の構成要件スコアと、遷移パターンテーブル112に登録された複数種類の遷移パターンとに基づいて、原文書における各構成単位の構成要件を特定し、各構成要件の境界位置を決定する。遷移パターンテーブル112に登録された複数種類の遷移パターンは、有限オートマトン状態遷移モデルと同様のものであり、それぞれ、複数のサンプル文書における文脈を考慮した構成要件の遷移パターンである。

0020

境界修正部104Cは、構成要件判定部104Bで決定した構成要件の境界位置に基づいて算出した各構成要件の配分と、配分確率データテーブル113に登録された各構成要件の配分確率データとに基づいて、構成要件の境界位置を修正する。

0021

図3は、遷移パターンの例を示す図である。図4は、遷移パターンテーブルの例を示す図である。

0022

例えば、原文書の構成要件が「背景」、「課題」、「提案」、「成果」、及び「今後」の5種類である場合、原文書は、背景を記載した部分、課題を記載した部分、提案を記載した部分、成果を記載した部分、及び今後を記載した部分に分割される。また、原文書においては、各構成要件が順序だてて記載されている(例えば、背景、課題、提案、成果、今後の順等)。本明細書では、一文書における構成要件の記載順を構成要件の遷移パターンと呼んでいる。構成要件の遷移パターンには、原文書の作成者の好み等により、例えば、図3に示すような複数通りのパターンが存在する。図3の遷移パターンにおける「始め」のノード200及び「終わり」のノード220は、それぞれ、原文書の先頭及び末尾を表す。また、図3の遷移パターンにおける12個のノード201〜212は、それぞれ、円内に記載した構成要件を表す。また、図3の遷移パターンにおける矢印は、それぞれ、ある構成単位の構成要件が特定された場合に次の構成単位がなり得る構成要件を表す。例えば、ある構成単位の構成要件が背景である場合、次の構成単位の構成要件は、背景又は課題となり得る。このとき、例えば、次の構成単位の構成要件が背景となる確率と、課題となる確率とを設定することも可能である。

0023

図3に示した遷移パターンにおける1つの遷移パターンは、構成要件が背景(ノード201)、課題(ノード202)、提案(ノード203)、成果(ノード204)、今後(ノード205)の順に遷移するパターンである。この際、1個のノードで表される各構成要件は、1個の構成単位のみを含むものであってもよいし、連続した複数個の構成単位を含むものであってもよい。

0024

また、図3に示した遷移パターンにおける別の遷移パターンでは、構成要件が課題(ノード202)、成果(ノード207)、提案(ノード208)、今後(ノード205)、及び成果(ノード206)の順に遷移する。図3に示した遷移パターンにおける更に別の遷移パターンでは、構成要件が背景(ノード201)、課題(ノード202)、提案(ノード209)、成果(ノード210)、提案(ノード211)、成果(ノード212)、及び今後(ノード205)の順に遷移する。このように、遷移パターンには、1個の原文書中に、1種類の構成要件が他の構成要件を挟んで複数回出現するパターンもあり得る。

0025

上記のように原文書における構成要件の遷移パターンには、実際の文書における文脈を考慮した複数種類のパターンがある。そのため、図4に示すように、遷移パターンテーブル112には、これら複数種類の遷移パターンが登録されている。図4の遷移パターンテーブル112におけるパターンIDは、遷移パターンを識別する値であり、H通りのパターンのそれぞれに対し、1からHまでの整数を付与している。また、図4の遷移パターンテーブル112における構成要件の遷移パターンは、構成要件を原文書における出現順序の順に並べた配列により表している。なお、構成要件の遷移パターンとデータ形式は、図4に示した例に限らず、適宜変更可能である。

0026

遷移パターンテーブル112は、例えば、解析対象の文書と同種の分野に属する複数のサンプル文書のそれぞれにおける各構成要件の遷移パターンに基づいて予め作成しておく。

0027

図5は、構成要件の配分確率を説明するグラフ図である。
配分確率データテーブル113には、図5に示すように、1文書中における構成要件の配分(言い換えると1文書中における構成要件の割合)の確率密度分布が登録されている。なお、図5のグラフ図における横軸の値D0は、0<D0<1である。また、図5のグラフ図におけるD1〜D5は、それぞれ、構成要件毎の配分の平均値である。

0028

配分確率データテーブル113は、例えば、解析対象の文書と同種の分野に属する複数のサンプル文書のそれぞれにおける各構成要件の配分に基づいて予め作成しておく。

0029

本実施形態に係る文書構成解析装置1は、例えば、図6に示す解析処理を行う。
図6は、第1の実施形態に係る文書構成の解析処理を説明するフローチャートである。

0030

本実施形態の文書構成解析装置1は、まず、解析対象である原文書データの入力を受け付ける(ステップS1)。ステップS1の処理は、原文書受付部101が行う。原文書受付部101は、例えば、文書解析装置に接続された外部装置(例えば、他の情報処理装置スキャナ装置記憶装置等)から、解析対象の原文書データを取得する。原文書受付部101で受け付ける原文書データは、例えば、テキストデータ、所定のアプリケーションソフトを用いて作成された文書データ、或いはテキストデータが埋め込まれた画像データである。

0031

次に、文書構成解析装置1は、原文書を構成単位に分割する(ステップS2)。ステップS2の処理は、原文書分割部102が行う。原文書分割部102は、原文書を、文単位又は段落単位等の所定の構成単位に分割する。

0032

次に、文書構成解析装置1は、各構成単位の形態素解析を実施する(ステップS3)。ステップS3の処理は、形態素解析部103が行う。形態素解析部103は、文書に対する既知形態素解析方法のいずれかに従って、各構成単位の文に対する形態素解析を行う。

0033

次に、文書構成解析装置1は、構成要件スコア算出処理(ステップS4)を行う。ステップS4の処理は、構成要件解析部104の構成要件スコア算出部104Aが行う。構成要件スコア算出部104Aは、各構成単位の形態素解析の結果と、構成要件スコアテーブル111とに基づいて、構成単位毎に、各構成要件についての構成要件スコアを算出する。

0034

次に、文書構成解析装置1は、構成要件判定処理(ステップS5)を行う。ステップS5の処理は、構成要件解析部104の構成要件判定部104Bが行う。構成要件判定部104Bは、各構成単位の構成要件スコアと、遷移パターンテーブル112に登録された複数種類の遷移パターンとに基づいて、各構成単位の構成要件を特定し、構成要件の境界を特定する。

0035

次に、文書構成解析装置1は、境界修正処理(ステップS6)を行う。ステップS6の処理は、構成要件解析部104の境界修正部104Cが行う。境界修正部104Cは、各構成単位の構成要件スコアと、構成要件判定部104Bで決定した境界位置に基づいて算出される各構成要件の配分と、配分確率データテーブル113とに基づいて、構成要件の境界位置を修正する。

0036

次に、文書構成解析装置1は、ステップS4〜S6の処理により決定した各構成単位の構成要件を出力する(ステップS7)。ステップS7の処理は、出力部105が行う。出力部105は、例えば、各構成単位の構成要件を表す情報が付加された原文書データを出力する。

0037

図7Aは、構成要件スコア算出処理の内容を説明するフローチャート(その1)である。図7Bは、構成要件スコア算出処理の内容を説明するフローチャート(その2)である。

0038

構成要件解析部104の構成要件スコア算出部104Aは、ステップS4の構成要件スコア算出処理として、図7A及び図7Bに示す処理を行う。構成要件スコア算出部104Aは、図7Aに示すように、まず、見出しスコアを初期化する(ステップS401)。見出しスコアは、原文書における章や節等の見出しを表す構成単位と、構成要件とに基づいて算出するスコアである。ステップS401において、構成要件スコア算出部104Aは、例えば、見出しスコアの算出に係る構成単位と構成要件との組を表す情報を全て消去する。

0039

次に、構成要件スコア算出部104Aは、構成単位を選択する変数iを1にするとともに、構成要件を選択する変数jを1にする(ステップS402)。

0040

次に、構成要件スコア算出部104Aは、i番目の構成単位Uiに対する形態素解析の結果を取得する(ステップS403)。

0041

次に、構成要件スコア算出部104Aは、構成単位Uiが見出しであるか否かを判定する(ステップS404)。ステップS404において、構成要件スコア算出部104Aは、例えば、選択した構成単位Uiに章や節等の見出しであることを表す情報が付与されているか否かを判定する。

0042

構成単位Uiが見出しである場合(ステップS404;Yes)、構成要件スコア算出部104Aは、次に、構成単位Uiと構成要件Ajとの組の見出しスコアを算出して保持する(ステップS405)。ステップS405において、構成要件スコア算出部104Aは、例えば、下記式(1)により見出しスコアSC(Ui,Aj)を算出する。

0043

0044

式(1)において、右辺のtf-idfC,Aj(l)は単語lの構成要件Ajの章節見出しについてのtf-idf値であり、単語lは構成単位Uiが属する章又は節の見出しに含まれる内容語である。tf-idf値は、情報検索文章要約等に利用される、文書中の単語に関する重みの一種である。tf-idf値は、単語の出現頻度tf(term frequency)と、逆文書頻度idf(inverse document frequency)との2つの指標に基づいて算出した値である。

0045

一方、構成単位Uiが見出しではない場合(ステップS404;No)、構成要件スコア算出部104Aは、次に、構成単位Uiと構成要件Ajとの組の本文単語スコア及び文書内位置スコアを算出する(ステップS406)。ステップS406の後、構成要件スコア算出部104Aは、構成単位Uiと構成要件Ajとの組と対応する見出しスコアを読み出し、本文単語スコア、文書内位置スコア、及び見出しスコアに基づいて構成要件スコアを算出する(ステップS407)。

0046

ステップS406において、構成要件スコア算出部104Aは、例えば、下記式(2)により本文単語スコアSS(Ui,Aj)を算出するとともに、下記式(3)により文書内位置スコアSL(Ui,Aj)を算出する。

0047

0048

式(2)において、tf-idfS,Aj(k)は、単語kの構成要件Ajの、本文についてのtf-idf値であり、単語kはi番目の構成単位に含まれる内容語である。式(3)において、Liは、原文書内における構成単位Uiの位置である。また、式(3)において、TableL(Li,Aj)は、構成要件毎の構成単位の位置と文書内位置スコアとの対応関係を含む文書内位置スコア情報に基づいて算出される、位置Liの構成単位Uiと、構成要件Ajとの組に対する文書内位置スコアである。

0049

本文単語スコアSS(Ui,Aj)と、文書内位置スコアSL(Ui,Aj)とを算出した後、構成要件スコア算出部104Aは、本文単語スコア、文書内位置スコア、及び見出しスコアに基づいて構成要件スコアを算出する(ステップS407)。ステップS407において、構成要件スコア算出部104Aは、例えば、下記式(4)により構成要件スコアS(Ui,Aj)を算出する。

0050

0051

式(4)において、WS,WC,及びWLは、重み係数であり、それぞれ、WS>0,WC>0,WL>0とする。重み係数WS,WC,及びWLの値の組み合わせは、任意であり、WS=WC=WL=1.0であってもよい。

0052

ステップS405の処理、又はステップS407の処理を終えると、構成要件スコア算出部104Aは、図7Bに示すように、次に、構成要件Aj+1があるか否かを判定する(ステップS408)、構成要件Aj+1がある場合(ステップS408;Yes)、構成要件スコア算出部104Aは、変数jをj+1に更新し(ステップS409)、ステップS404以降の処理を繰り返す。一方、構成要件Aj+1がない場合(ステップS408;No)場合、構成要件スコア算出部104Aは、次に、構成単位Ui+1があるか否かを判定する(ステップS410)。構成単位Ui+1がある場合(ステップS410;Yes)、構成要件スコア算出部104Aは、変数iをi+1に更新し(ステップS411)ステップS403以降の処理を繰り返す。一方、構成単位Ui+1がない場合(ステップS410;No)、構成要件スコア算出部104Aは、構成要件スコア算出処理を終了する。

0053

ここで、文書内位置スコアの算出方法について、図8を参照して説明する。
図8は、文書内位置スコアの算出方法を説明するグラフ図である。

0054

ステップS406において文書内位置スコアの算出に用いる文書内位置スコア情報は、例えば、図8に示すように、構成要件毎の、構成単位Uiの文書内位置Liと、文書内位置スコアとの関係を表す情報を含む。なお、図8のグラフ図における横軸は、Li=0が文書先頭であり、Li=1が文書末尾である。

0055

図8のグラフ図における実線曲線A1(背)は、構成要件Ajが背景である場合の、構成単位Uiの文書内位置Liと文書内位置スコアSL(Ui,Aj)との関係を表す曲線である。図8のグラフ図における点線の曲線A2(課)は、構成要件Ajが課題である場合の、構成単位Uiの文書内位置Liと文書内位置スコアSL(Ui,Aj)との関係を表す曲線である。図8のグラフ図における点線の曲線A3(提)は、構成要件Ajが提案である場合の、構成単位Uiの文書内位置Liと文書内位置スコアSL(Ui,Aj)との関係を表す曲線である。図8のグラフ図における点線の曲線A4(成)は、構成要件Ajが成果である場合の、構成単位Uiの文書内位置Liと文書内位置スコアSL(Ui,Aj)との関係を表す曲線である。

0056

これら4本の曲線A1(背),A2(課),A3(提),A4(成)は、例えば、複数のサンプル文書における各構成要件の出現位置の確率を統計的に導出して設定する。

0057

文書の構成要件が背景、課題、提案、及び成果の4種類である場合、一文書内における構成要件は、背景、課題、提案、及び成果の順で遷移する場合が多い。このため、構成要件Ajとして背景が選択されている場合の文書内位置スコアは、曲線A1(背)のように、構成単位Uiの文書内位置Liが文書先頭である場合が最も大きく、文書先頭から離れるにしたがって減少する。また、構成要件Ajが課題である場合、構成要件Ajが提案である場合、及び構成要件Ajが成果である場合の文書内位置スコアは、それぞれ、曲線A2(課),A3(提),A4(成)のように、文書先頭から文書末尾に向かって課題、提案、及び成果の順で最大値となる。

0058

構成要件スコア算出部104Aが構成要件スコア算出処理を終了すると、構成要件解析部104は、次に、構成要件判定部104Bにおいて構成要件判定処理(ステップS5)を行う。構成要件判定部104Bは、構成要件判定処理として、図9に示す処理を行う。

0059

図9は、構成要件判定処理の内容を説明するフローチャートである。
構成要件判定部104Bは、まず、構成要件スコアの合計の最大値TSmaxを初期化するとともに、遷移パターンを選択する変数hを1とする(ステップS501)。構成要件スコアの合計の最大値TSmaxは、全ての遷移パターンに基づいて生成し得る各構成単位の構成要件の組み合わせから得られる複数個の構成要件スコアの合計のうちの最大値である。ステップS501において、構成要件判定部104Bは、最大値TSmaxを0.0にする。

0060

次に、構成要件判定部104Bは、h番目の遷移パターンにおいて構成要件スコアの合計TSが最大となる各構成単位の構成要件を特定する(ステップS502)。ステップS502において、構成要件判定部104Bは、h番目の遷移パターンにおける構成要件の並び順に従って各構成単位の構成要件の組み合わせを複数通り生成し、それぞれの組み合わせにおける構成要件スコアの合計TSを算出する。構成要件が背景、課題、提案、及び成果の4種類である場合、1個の構成単位Uiに対し、4個の構成要件スコアを算出している。ある組み合わせにおける構成要件Uiの構成要件が課題であった場合、構成要件スコアの合計TSの算出に用いる構成単位Uiの構成要件スコアは、構成要件を課題として算出した構成要件スコアとなる。生成した全ての組み合わせにおける構成要件スコアの合計TSを算出した後、構成要件判定部104Bは、複数通りの組み合わせの中から、構成要件スコアの合計TSが最大値となる各構成単位の構成要件の組み合わせを特定する。

0061

次に、構成要件判定部104Bは、構成要件スコアの合計TSと、現時点における最大値TSmaxとを比較し、TS>TSmaxであるか否かを判定する(ステップS503)。TS>TSmaxの場合(ステップS503;Yes)、構成要件判定部104Bは、最大値TSmaxをTSに更新し、このときの各構成単位の構成要件を保持する(ステップS504)。その後、構成要件判定部104Bは、h+1番目の遷移パターンがあるか否かを判定する(ステップS505)。また、TS≦TSmaxの場合(ステップS503;No)、構成要件判定部104Bは、ステップS504の処理をスキップして、ステップS505の判定を行う。

0062

h+1番目の遷移パターンがある場合(ステップS505;Yes)、構成要件判定部104Bは、変数hをh+1に更新し(ステップS506)、ステップS502以降の処理を繰り返す。

0063

一方、h+1番目の遷移パターンがない場合(ステップS505;No)、構成要件判定部104Bは、次に、構成要件スコアの合計が最大値TSmaxとなる各構成単位の構成要件に基づいて、原文書における構成要件の境界位置を決定する(ステップS507)。ステップS507の処理を終えると、構成要件判定部104Bは、構成要件判定処理を終了する。

0064

構成要件判定部104Bが構成要件判定処理を終了すると、構成要件解析部104は、次に、境界修正部104Cにおいて境界修正処理(ステップS6)を行う。境界修正部104Cは、境界修正処理として、図10A及び図10Bに示す処理を行う。

0065

図10Aは、境界修正処理の内容を説明するフローチャート(その1)である。図10Bは、境界修正処理の内容を説明するフローチャート(その2)である。

0066

図10Aに示すように、境界修正部104Cは、まず、原文書における構成要件の境界の識別に用いる変数iをi=1に初期化する(ステップS601)。

0067

次に、境界修正部104Cは、文書先頭からi番目の境界の前後の構成要件に基づいて、境界前方の構成単位における構成要件スコアの差を算出する(ステップS602)。境界前方の構成単位における構成要件スコアの差は、境界前方の構成単位と境界前方の構成要件との組の構成要件スコアと、境界前方の構成単位と境界後方の構成要件との組の構成要件スコアと、の差である。

0068

次に、境界修正部104Cは、境界前方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS603)。

0069

構成要件スコアの差が閾値よりも小さい場合(ステップS603;Yes)、境界修正部104Cは、次に、境界前後の構成要件の配分確率データを読み出す(ステップS604)。その後、境界修正部104Cは、境界前方の構成要件の配分が平均値よりも大きく、かつ、境界後方の構成要件の配分が平均値よりも小さいか否かを判定する(ステップS605)。ステップS605において、境界修正部104Cは、境界前方の構成要件に含まれる構成単位の量と、原文書全体の構成単位の量とに基づいて、境界前方の構成要件の配分を算出し、当該配分と配分確率データにおける平均値とを比較する。また、ステップS605において、境界修正部104Cは、境界後方の構成要件に含まれる構成単位の量と、原文書全体の構成単位の量とに基づいて、境界後方の構成要件の配分を算出し、当該配分と配分確率データにおける平均値とを比較する。境界前方の構成要件の配分が平均値よりも大きく、かつ、境界後方の構成要件の配分が平均値よりも小さい場合(ステップS605;Yes)、境界修正部104Cは、構成要件スコアの差及び配分の平均値に基づいて、i番目の境界を前方に移動させる(ステップS606)。ステップS606において、境界修正部104Cは、境界前方の構成要件の配分が平均値となる、境界後方の構成要件の配分が平均値となる、或いは境界前方の構成単位における構成要件スコアの差が閾値以上となるまで、境界を前方に移動させる。この際、境界修正部104Cは、境界を前方に移動させることにより境界前方から境界後方に変わった構成単位の構成要件を、境界前方の構成要件から境界後方の構成要件に修正する。

0070

ステップS606の処理を終えると、境界修正部104Cは、次に、図10Bに示すように、i番目の境界の前後の構成要件に基づいて、境界後方の構成単位における構成要件スコアの差を算出する(ステップS607)。境界後方の構成単位における構成要件スコアの差は、境界後方の構成単位と境界前方の構成要件との組の構成要件スコアと、境界後方の構成単位と境界後方の構成要件との組の構成要件スコアと、の差である。なお、ステップS603の判定において構成要件スコアの差が閾値以上である場合(ステップS603;No)、境界修正部104Cは、ステップS604〜S606の処理をスキップしてステップS607の処理を行う。また、ステップS605の判定において境界前方の構成要件の配分が平均値以下、又は、境界後方の構成要件の配分が平均値以上であった場合(ステップS605;No)、境界修正部104Cは、ステップS606の処理をスキップしてステップS607の処理を行う。

0071

次に、境界修正部104Cは、境界後方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS608)。

0072

構成要件スコアの差が閾値よりも小さい場合(ステップS608;Yes)、境界修正部104Cは、次に、境界前後の構成要件の配分確率データを読み出す(ステップS609)。その後、境界修正部104Cは、境界前方の構成要件の配分が平均値よりも小さく、かつ、境界後方の構成要件の配分が平均値よりも大きいか否かを判定する(ステップS610)。ステップS610において、境界修正部104Cは、境界前方の構成要件に含まれる構成単位の量と、原文書全体の構成単位の量とに基づいて、境界前方の構成要件の配分を算出し、当該配分と配分確率データにおける平均値とを比較する。また、ステップS610において、境界修正部104Cは、境界後方の構成要件に含まれる構成単位の量と、原文書全体の構成単位の量とに基づいて、境界後方の構成要件の配分を算出し、当該配分と配分確率データにおける平均値とを比較する。境界前方の構成要件の配分が平均値よりも小さく、かつ、境界後方の構成要件の配分が平均値よりも大きい場合(ステップS610;Yes)、境界修正部104Cは、構成要件スコアの差及び配分の平均値に基づいて、i番目の境界を後方に移動させる(ステップS611)。ステップS611において、境界修正部104Cは、境界前方の構成要件の配分が平均値となる、境界後方の構成要件の配分が平均値となる、或いは境界後方の構成単位における構成要件スコアの差が閾値以上となるまで、境界を後方に移動させる。この際、境界修正部104Cは、i番目の境界を後方に移動させることにより境界後方から境界前方になった構成単位の構成要件を、境界後方の構成要件から境界前方の構成要件に修正する。

0073

ステップS611の処理を終えると、境界修正部104Cは、次に、i+1番目の境界があるか否かを判定する(ステップS612)。なお、ステップS608の判定において構成要件スコアの差が閾値以上である場合(ステップS608;No)、境界修正部104Cは、ステップS609〜S611の処理をスキップしてステップS612の判定を行う。また、ステップS610の判定において境界前方の構成要件の配分が平均値以上、又は境界後方の構成要件の配分が平均値以下であった場合(ステップS610;No)、境界修正部104Cは、ステップS611の処理をスキップしてステップS612の判定を行う。

0074

i+1番目の境界がある場合(ステップS612;Yes)、境界修正部104Cは、変数iをi+1に更新し(ステップS613)、ステップS602以降の処理を繰り返す。i+1番目の境界がない場合(ステップS613;No)、境界修正部104Cは、境界修正処理を終了する。境界修正処理を終了すると、境界修正部104C(構成要件解析部104)は、各構成単位の構成要件を出力部105に出力する。その後、文書構成解析装置1では、出力部105において、各構成単位の構成要件を出力する処理(ステップS7)を行う。

0075

図11は、構成要件スコア算出処理の結果の例を示す図である。
構成要件スコア算出処理(ステップS4)では、原文書における構成単位毎に、遷移パターンに含まれる各構成要件についての構成要件スコアを算出する。ここで、遷移パターンに含まれる構成要件が、背景、課題、提案、成果、及び今後の5種類であるとすると、構成要件スコア算出部104Aは、図11上段に示すように、構成単位毎に、5個の構成要件スコアを算出する。構成要件スコアは、構成単位の構成要件らしさを表す値である。そのため、各構成単位の構成要件は、5個の構成要件のうち構成要件スコアが最大値となる構成要件であると考えられる。例えば、ある構成単位についての構成要件スコアのうち、構成要件を背景としたときの構成要件スコアが最大値であるとすると、その構成単位の構成要件は背景であると考えられる。したがって、図11の上段に示した構成要件スコアに基づいて各構成単位の構成要件を構成要件スコアが最大値である構成要件とした場合、構成要件の遷移パターンは、図11下段に示したような遷移パターンとなる。

0076

ところが、図11の下段に示した構成要件の遷移パターンでは、文脈が考慮されていない。このため、遷移パターンテーブル112に登録された、文脈を考慮した構成要件の遷移パターンと比べて、原文書が過度に分割され、構成要件が誤って特定されている可能性が高い。構成要件が誤って特定されている場合、例えば、構成要件毎に文書を要約すると、各構成要件の内容が不適切な要約となる可能性がある。よって、本実施形態に係る文書構成の解析処理では、文脈を考慮した構成要件の遷移パターンに基づいて、構成要件スコアの合計が最大となる各構成単位の構成要件を特定する構成要件判定処理(ステップS5)を行う。

0077

図12は、構成要件判定処理で生成する各構成単位の構成要件の組み合わせの例を示す図である。

0078

構成要件判定処理では、遷移パターンテーブル112から選択した遷移パターンにおける構成要件の並び順に従って各構成単位の構成要件の組み合わせを複数通り生成し、それぞれの組み合わせにおける構成要件スコアの合計TSを算出する。例えば、図4に示した遷移パターンテーブル112からパターンIDがH−1番の遷移パターンを選択した場合、構成要件は、背景、課題、提案、成果、提案、成果、及び今後の順に遷移する。そのため、構成要件判定処理を行う構成要件判定部104Bは、例えば、図12に示すようなX通りの構成要件の組み合わせを生成し、それぞれの組み合わせにおける構成要件スコアの合計TSを算出する。そして、構成要件判定部104Bは、構成要件スコアの合計TSが最大値となる各構成単位の構成要件の組み合わせを、原文書における構成要件が選択した遷移パターン(H−1番の遷移パターン)である場合の各構成単位の構成要件の組み合わせに特定する。更に、構成要件判定部104Bは、遷移パターンテーブル112に登録された複数の遷移パターンのそれぞれで、同様に構成要件パターンの合計TSが最大値となる各構成単位の構成要件の組み合わせを特定する。そして、構成要件判定部104Bは、各遷移パターンにおける構成要件パターンの合計TSが最大値となる構成要件の組み合わせのうち、最大値が最も大きい遷移パターンの構成要件の組み合わせを、原文書における構成要件の組み合わせに特定する。よって、図11の上段に示した構成要件スコアに対して構成要件判定処理を行った場合、例えば、図13に示すような結果が得られる。

0079

図13は、構成要件判定処理の結果の例を示す図である。なお、図13の上段には、図11の上段と同じ構成要件スコアの算出結果を示している。

0080

図13の下段に示したように、構成要件判定処理を行った場合の各構成要件は、各構成単位における構成要件スコアが最大値の構成要件と概ね一致している。

0081

ところが、図13の下段に示した構成要件の遷移パターンにおける各構成要件の配分を、図5に示した配分確率データにおける各構成要件の配分の平均値と比較すると、背景や課題よりも配分の平均値が大きい提案の配分が、背景や課題の配分よりも少ない。更に、提案よりも配分の平均値が小さい成果の配分が、提案の配分よりも多い。つまり、本来提案と判断されるべき構成単位が成果と判断されていると考えられる。このため、図13の下段に示した処理結果に基づいて原文書を要約した場合、提案や成果についての内容が不適切な要約となる可能性がある。したがって、本実施形態に係る文書構成の解析処理では、構成要件判定処理の後、各構成要件の配分を配分確率データにおける配分の平均値に近づけるよう、構成要件の境界を修正する境界修正処理(ステップS6)を行う。

0082

図14は、境界位置の修正方法を説明するグラフ図である。図15は、境界位置の修正方法の具体例を説明する図である。

0083

図13の下段に示した構成要件の遷移パターンにおける提案の配分及び成果の配分を配分確率データにプロットすると、それぞれ、図14に示した点PA及び点PBで表される。すなわち、提案の配分DAはサンプル文書から求めた提案の配分の平均値D3よりも小さく、成果の配分DBはサンプル文書から求めた成果の配分の平均値D4よりも大きい。このため、境界修正処理では、原文書における提案の配分及び成果の配分が、それぞれ平均値D3及びD4に近づくよう、境界の位置を修正する。例えば、構成要件が提案である部分と成果である部分とが隣接している場合、提案と成果との境界を提案の配分DCがDA<DC<D3となる位置に修正すると、成果の配分DDはD4<DD<DBとなる。ただし、提案の配分DCを平均値D3により近い値にすると、成果の配分DDは、平均値D4よりも小さくなる可能性がある。よって、境界位置を修正する場合、境界前方の構成要件の配分が平均値となる位置、又は境界後方の構成要件の配分が平均値となる位置を修正の限度とすることが好ましい。また、境界前方の構成要件に含まれる構成単位は境界前方の構成要件についての構成要件スコアが最も大きく、境界後方の構成要件に含まれる構成単位は境界後方の構成要件についての構成要件スコアが最も大きいことが好ましい。したがって、境界位置を前方に修正する場合、境界前方の構成要件の配分が平均値となる位置、境界後方の構成要件の配分が平均値となる位置、或いは境界前方における構成要件スコアの差が閾値以上となる位置を修正の限度とすることが好ましい。同様に、境界位置を後方に修正する場合、境界前方の構成要件の配分が平均値となる位置、境界後方の構成要件の配分が平均値となる位置、若しくは境界後方における構成要件スコアの差が閾値以上となる位置を修正の限度とすることが好ましい。

0084

上記のように、本実施形態に係る境界修正処理では、まず、境界前後の構成要件に基づいて算出した境界前方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS603)。図15に示した構成要件判定処理の結果における背景と課題との境界B1に対するステップS603の判定では、境界修正部104Cは、境界前方の構成単位における背景の構成要件スコアと課題の構成要件スコアとの差が閾値よりも小さいか否かを判定する。図15の上段に示した構成要件スコアでは、背景の構成要件スコアと課題の構成要件スコアとの差が非常に大きい。そのため、境界修正部104Cは、例えば、境界前方の構成単位における構成要件スコアとの差が閾値以上であると判定する(ステップS603;No)。この場合、境界修正部104Cは、境界前後の構成要件に基づいて算出した境界後方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS608)。

0085

背景と課題との境界B1に対するステップS608の判定では、境界修正部104Cは、境界後方の構成単位における背景の構成要件スコアと課題の構成要件スコアとの差が閾値よりも小さいか否かを判定する。図15の上段に示した構成要件スコアでは、境界後方の構成要件における背景の構成要件スコアと課題の構成要件スコアとの差が、境界前方の構成要件における背景の構成要件スコアと課題の構成要件スコアとの差よりも更に大きい。そのため、境界修正部104Cは、例えば、境界後方の構成単位における構成要件スコアとの差が閾値以上であると判定する(ステップS608;No)。この場合、境界修正部104Cは、背景と課題との境界B1の位置を変更しない。

0086

また、ステップS602において文書先頭から3番目である提案と成果との境界B3を選択した場合、境界修正部104Cが行うステップS603以降の処理は、以下のようになる。

0087

まず、境界修正部104Cは、ステップS603において、境界前方の構成単位における提案の構成要件スコアと成果の構成要件スコアとの差が閾値よりも小さいか否かを判定する。図15の上段に示した構成要件スコアでは、提案の構成要件スコアと成果の構成要件スコアとの差が大きい。そのため、境界修正部104Cは、例えば、境界前方の構成単位における構成要件スコアとの差が閾値以上であると判定する(ステップS603;No)。この場合、境界修正部104Cは、次に、境界前後の構成要件に基づいて算出した境界後方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS608)。

0088

提案と成果との境界B3に対するステップS608の判定では、境界修正部104Cは、境界後方の構成単位における提案の構成要件スコアと成果の構成要件スコアとの差が閾値よりも小さいか否かを判定する。図15の上段に示した構成要件スコアでは、境界後方の構成要件における提案の構成要件スコアと成果の構成要件スコアとの差が大きい。そのため、境界修正部104Cは、例えば、境界後方の構成単位における構成要件スコアとの差が閾値以上であると判定する(ステップS608;No)。この場合、境界修正部104Cは、提案と成果との境界B3の位置を変更しない。すなわち、本実施形態に係る境界修正処理では、境界前方の構成要件の配分が平均値以下であり、かつ境界後方の構成要件の配分が平均値以上であっても、境界後方の構成単位における構成要件スコアの差が大きい場合には、境界の位置を変更しない。

0089

これに対し、ステップS602において文書先頭から4番目である成果と提案との境界B4を選択した場合、境界修正部104Cが行うステップS603以降の処理は、以下のようになる。

0090

まず、境界修正部104Cは、ステップS603において、境界前方の構成単位における提案の構成要件スコアと成果の構成要件スコアとの差が閾値よりも小さいか否かを判定する。図15の上段に示した構成要件スコアでは、成果の構成要件スコアと提案の構成要件スコアとの差が小さい。そのため、境界修正部104Cは、例えば、境界前方の構成単位における構成要件スコアとの差が閾値よりも小さいと判定する(ステップS603;Yes)。この場合、境界修正部104Cは、次に、配分確率データを読み出して、境界前方の構成要件の配分が平均値よりも大きく、かつ、境界後方の構成要件の配分が平均値よりも小さいか否かを判定する(ステップS604,S605)。図15中段に示した構成要件判定処理の結果では、境界前方の成果の配分が平均値よりも大きく、境界後方の提案の配分が平均値よりも小さい(図14を参照)。したがって、境界修正部104Cは、次に、構成要件スコアの差及び配分の平均値に基づいて、4番目の境界B4を前方に移動させる(ステップS606)。ステップS606において、境界修正部104Cは、境界前方の成果の配分が平均値となる、境界後方の提案の配分が平均値となる、或いは境界前方の構成単位における構成要件スコアの差が閾値以上となるまで、境界を前方に移動させる。図15に示した例では、境界を前方に移動させると、境界前方の成果の配分又は境界後方の提案の配分が平均値となるよりも前に、文書内位置において構成要件スコアの差が閾値以上となる。よって、境界修正部104Cは、4番目の境界B4の文書内位置を位置L4から位置L4’に修正する。

0091

ステップS606において境界B4を位置L4’(境界B4’)に修正した後、境界修正部104Cは、境界前後の構成要件に基づいて算出した境界後方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS608)。このとき、境界修正部104Cは、修正後の境界B4’における境界後方の構成単位における提案の構成要件スコアと成果の構成要件スコアとの差が閾値よりも小さいか否かを判定する。図15の上段に示した構成要件スコアでは、境界後方の構成要件における提案の構成要件スコアと成果の構成要件スコアとの差が小さい。そのため、境界修正部104Cは、例えば、境界後方の構成単位における構成要件スコアとの差が閾値よりも小さいと判定する(ステップS608;No)。この場合、境界修正部104Cは、次に、配分確率データを読み出して、境界前方の構成要件の配分が平均値よりも小さく、かつ、境界後方の構成要件の配分が平均値よりも大きいか否かを判定する(ステップS609,S610)。ステップS606において境界B4の位置を前方に移動させた際には、上記のように、境界前方の成果の配分又は境界後方の提案の配分が平均値となるよりも前に、文書内位置L4’において構成要件スコアの差が閾値以上となる。そのため、4番目の境界B4が文書内位置L4’である場合、境界前方の成果の配分は平均値よりも大きく、境界後方の提案の配分は平均値よりも小さい。したがって、ステップS610において、境界修正部104Cは、Noと判定する。よって、境界修正部104Cは、ステップS611の処理(境界を後方に移動させる処理)をスキップする。これにより、修正後の4番目の境界B4の位置L4’が確定する。

0092

その後、5番目の境界B5及び6番目の境界B6に対するステップS602〜S611の処理を行うと、例えば、図15の下段に示すような境界修正処理の結果が得られる。境界修正部104Cは、この処理結果に基づいて、文書構成の解析結果を出力する。文書構成の解析結果は、例えば、原文書の構成単位毎に上記の処理で決定した構成要件を表す情報を付加した文書データとして出力する。

0093

図16は、解析結果の例を示す図である。
図16には、文書構成の解析結果の例として、構成要件判定処理において特定した構成要件の遷移パターンが背景、課題、提案、及び成果(結果)の順に遷移するパターンである場合の文書データ3を示している。図16に示した文書データ3では、構成要件を表す情報として構成単位毎にタグを付加しており、構成要件が背景である構成単位(文)は、構成要件が背景であることを表す1組のタグとととと

0094

このように、本実施形態に係る文書構成の解析処理では、原文書を複数の構成単位に分割し、構成単位毎に算出した構成要件スコアと、文脈を考慮して設定された構成要件の遷移パターンと、に基づいて各構成単位の構成要件を特定する。更に、本実施形態に係る解析処理では、特定した構成要件の遷移パターンと、文書における各構成要件の配分確率データとに基づいて、解析対象の文書における各構成要件の配分が配分確率データにおける配分の平均値に近づくよう構成要件の境界位置を修正する。このため、解析対象の文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定することが可能となる。よって、例えば、本実施形態に係る文書構成の解析処理により得られた解析結果に基づいて原文書の要約を作成したときに、各構成要件の内容が不適切な要約となることを低減することが可能となる。

0095

なお、図6のフローチャートは、本実施形態に係る文書構成の解析処理の一例に過ぎない。また、図7A及び図7Bのフローチャート、並びに図9のフローチャートは、それぞれ、構成要件スコア算出処理の一例、並びに構成要件判定処理の一例に過ぎない。更に、図10A及び図10Bのフローチャートは、境界修正処理の一例に過ぎない。本実施形態に係る上記の各処理は、それぞれ、本実施形態の要旨を逸脱しない範囲で変更可能である。例えば、境界修正処理は、図17A及び図17Bに示す処理であってもよい。

0096

図17Aは、境界修正処理の変形例を説明するフローチャート(その1)である。図17Bは、境界修正処理の変形例を説明するフローチャート(その2)である。なお、図17A及び図17Bのフローチャートにおける処理のうち、図10A及び図10Bに示した処理と同じ処理には、同じステップ番号(例えば、S601,S602等)を付している。

0097

境界修正処理の変形例では、境界修正部104Cは、図17Aに示すように、まず、構成要件判定処理の結果に基づいて、文書全体における各構成要件の配分を算出する(ステップS600)。構成要件判定処理により得られた構成要件の遷移パターンが、1つの構成要件が複数回出現する遷移パターンである場合、境界修正部104Cは、当該複数の構成要件に含まれる全ての構成単位の量に基づいて、構成要件の配分を算出する。例えば、構成要件判定処理により得られた構成要件の遷移パターンが、図13に示した遷移パターンである場合、境界修正部104Cは、1回目の提案に含まれる構成単位の量と、2回目の提案に含まれる構成単位の量を足し合わせた量に基づいて、文書全体における提案の配分を算出する。

0098

次に、境界修正部104Cは、構成要件の境界の識別に用いる変数iをi=1に初期化する(ステップS601)。

0099

次に、境界修正部104Cは、文書先頭からi番目の境界の前後の構成要件に基づいて、境界前方の構成単位における構成要件スコアの差を算出する(ステップS602)。

0100

次に、境界修正部104Cは、境界前方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS603)。

0101

構成要件スコアの差が閾値よりも小さい場合(ステップS603;Yes)、境界修正部104Cは、次に、境界前後の構成要件の配分確率データを読み出す(ステップS604)。その後、境界修正部104Cは、境界前方の構成要件についての文書全体での配分が平均値よりも大きく、かつ、境界後方の構成要件についての文書全体での配分が平均値よりも小さいか否かを判定する(ステップS615)。ステップS615において、境界修正部104Cは、まず、ステップS600で算出した文書全体における各構成要件の配分のうちの境界前方の構成要件についての配分と、配分確率データにおける平均値とを比較する。また、ステップS615において、境界修正部104Cは、ステップS600で算出した文書全体における各構成要件の配分のうちの境界後方の構成要件についての配分と、配分確率データにおける平均値とを比較する。一文書内に同一の構成要件が複数回出現する場合、図10AのステップS605では、境界前方の1個の構成要件の配分と、配分確率データの平均値とを比較している。これに対し、ステップS615では、境界前方の1個の構成要件と同一である全ての構成要件を足し合わせて算出した配分と、配分確率データの平均値とを比較している。

0102

境界前方の構成要件の配分が平均値よりも大きく、かつ、境界後方の構成要件の配分が平均値よりも小さい場合(ステップS615;Yes)、境界修正部104Cは、構成要件スコアの差及び配分の平均値に基づいて、i番目の境界を前方に移動させる(ステップS606)。ステップS606において、境界修正部104Cは、境界前方の構成要件の配分が平均値となる、境界後方の構成要件の配分が平均値となる、或いは境界前方における構成要件スコアの差が閾値以上となるまで、i番目の境界を前方に移動させる。なお、境界修正処理の変形例におけるステップS606では、構成要件の配分として、文書全体での構成要件の配分を用いる。また、ステップS616において、境界修正部104Cは、i番目の境界を前方に移動させることにより境界前方から境界後方に変わった構成単位の構成要件を、境界前方の構成要件から境界後方の構成要件に修正する。

0103

ステップS606の処理を終えると、境界修正部104Cは、次に、図17Bに示すように、i番目の境界の前後の構成要件に基づいて、境界後方の構成単位における構成要件スコアの差を算出する(ステップS607)。なお、ステップS603の判定において構成要件スコアの差が閾値以上である場合(ステップS603;No)、境界修正部104Cは、ステップS604,S615,及びS606の処理をスキップしてステップS607の処理を行う。更に、ステップS615の判定において境界前方の構成要件の配分が平均値以下、又は、境界後方の構成要件の配分が平均値以上であった場合(ステップS615;No)、境界修正部104Cは、ステップS606の処理をスキップしてステップS607の処理を行う。

0104

次に、境界修正部104Cは、境界後方の構成単位における構成要件スコアの差が閾値よりも小さいか否かを判定する(ステップS608)。

0105

構成要件スコアの差が閾値よりも小さい場合(ステップS608;Yes)、境界修正部104Cは、次に、境界前後の構成要件の配分確率データを読み出す(ステップS609)。その後、境界修正部104Cは、境界前方の構成要件についての文書全体での配分が平均値よりも小さく、かつ、境界後方の構成要件についての文書全体での配分が平均値よりも大きいか否かを判定する(ステップS616)。ステップS616において、境界修正部104Cは、まず、ステップS600で算出した文書全体における各構成要件の配分のうちの境界前方の構成要件についての配分と、配分確率データにおける平均値とを比較する。また、ステップS616において、境界修正部104Cは、ステップS600で算出した文書全体における各構成要件の配分のうちの境界後方の構成要件についての配分と、配分確率データにおける平均値とを比較する。一文書内に同一の構成要件が複数回出現する場合、図10BのステップS610では、境界前方の1個の構成要件の配分と、配分確率データの平均値とを比較している。これに対し、ステップS616では、境界前方の1個の構成要件と同一である全ての構成要件を足し合わせて算出した配分と、配分確率データの平均値とを比較している。

0106

境界前方の構成要件の配分が平均値よりも小さく、かつ、境界後方の構成要件の配分が平均値よりも大きい場合(ステップS616;Yes)、境界修正部104Cは、i番目の境界を後方に移動させる(ステップS611)。ステップS611において、境界修正部104Cは、境界後方の構成要件における構成要件スコアの差、及び配分の平均値に基づいて、i番目の境界を後方に移動させる。この際、境界修正部104Cは、境界前方の構成要件の配分が平均値となる、境界後方の構成要件の配分が平均値となる、或いは境界後方における構成要件スコアの差が閾値以上となるまで、i番目の境界を後方に移動させる。なお、境界修正処理の変形例におけるステップS611では、構成要件の配分として、文書全体での構成要件の配分を用いる。また、ステップS611において、境界修正部104Cは、i番目の境界を後方に移動させることにより境界後方から境界前方に変わった構成単位の構成要件を、境界後方の構成要件から境界前方の構成要件に修正する。

0107

ステップS611の処理を終えると、境界修正部104Cは、次に、i+1番目の境界があるか否かを判定する(ステップS612)。また、ステップS608の判定において構成要件スコアの差が閾値以上である場合(ステップS608;No)、境界修正部104Cは、ステップS609,S616,S611の処理をスキップしてステップS612の判定を行う。また、ステップS616の判定において境界前方の構成要件の配分が平均値以上、又は、境界後方の構成要件の配分が平均値以下であった場合(ステップS616;No)、境界修正部104Cは、ステップS611の処理をスキップしてステップS612の判定を行う。

0108

i+1番目の境界がある場合(ステップS612;Yes)、境界修正部104Cは、変数iをi+1に更新し(ステップS613)、ステップS602以降の処理を繰り返す。i+1番目の境界がない場合(ステップS613;No)、境界修正部104Cは、境界修正処理を終了する。境界修正処理を終了すると、境界修正部104C(構成要件解析部104)は、各構成単位の構成要件を出力部105に出力する。その後、文書構成解析装置1では、出力部105において、各構成単位の構成要件を出力する処理(ステップS7)を行う。

0109

一文書内に同一の構成要件が複数回出現する場合、例えば、境界の前後における1個の構成要件の配分と平均値との差は大きいものの、文書全体における構成要件の配分は平均値に近いことがある。このような場合、境界の前後のうち一方の構成要件の配分と平均値とに基づいて境界位置を修正すると、一方の構成要件の配分が平均値に近づく代わりに、他方の構成要件の配分と平均値との差が大きくなってしまう可能性がある。

0110

これに対し、図17A及び図17Bの境界修正処理では、文書全体における各構成要件の配分と、配分確率データにおける配分の平均値とに基づいて、境界の位置(すなわち境界の前後における1個の構成要件の配分)を修正する。このため、図17A及び図17Bの境界位置修正処理では、境界の前後のうち一方の構成要件の配分が平均値に近づく代わりに、他方の構成要件の配分と平均値との差が大きくなってしまう事態を防止することが可能となる。

0111

なお、図17A及び図17Bのフローチャートは、境界修正処理の別の例に過ぎない。本実施形態に係る境界修正処理は、図10A及び図10Bのフローチャート、並びに図17A及び図17Bのフローチャートに限らず、本実施形態の要旨を逸脱しない範囲で変更可能である。

0112

[第2の実施形態]
本実施形態に係る文書構成解析装置は、図1に示した文書構成解析装置1と同様、原文書受付部101と、原文書分割部102と、形態素解析部103と、構成要件解析部104と、出力部105と、を備える。また、文書構成解析装置1は、構成要件スコアテーブル111と、遷移パターンテーブル112と、配分確率データテーブル113とを含む各種データを記憶する記憶部を備える。ただし、本実施形態の文書構成解析装置1における構成要件解析部104は、図18に示すような構成となっている。

0113

図18は、第2の実施形態に係る文書構成解析装置における構成要件解析部の構成を示す図である。

0114

図18に示すように、本実施形態に係る構成要件解析部104は、構成要件スコア算出部104Aと、構成要件/境界判定部104Dと、を含む。

0115

構成要件スコア算出部104Aは、第1の実施形態で説明したように、各構成単位の形態素解析の結果と、構成要件スコアテーブル111とに基づいて、構成単位毎に、各構成要件についての構成要件スコアを算出する。構成要件スコアは、例えば、一文書内における構成単位の位置、構成単位に含まれるキーワード、構成単位に含まれる同士の態や時制等の情報と、構成要件と対応付けられた位置、キーワード等の確率分布とに基づいて算出する。

0116

構成要件/境界判定部104Dは、各構成単位の構成要件スコアと、遷移パターンテーブル112の構成要件の遷移パターンと、配分確率データテーブル113の各構成要件の配分確率と、に基づいて、構成要件の境界を判定し、各構成単位の構成要件を特定する。構成要件/境界判定部104Dは、各構成単位の構成要件スコアと、構成要件の遷移パターンと、各構成要件の配分確率とに基づいて、各構成単位の境界を構成要件の境界としたときの適正度を表す境界スコアを設定する。また、構成要件/境界判定部104Dは、構成要件スコアと境界スコアとの合計と、構成要件の遷移パターンとに基づくDynamic Programming(DPマッチングにより、構成要件の境界を判定する。すなわち、本実施形態に係る構成要件解析部104は、構成要件スコアと、各構成単位の境界を構成要件の境界としたときの適正度(境界スコア)と、構成要件の遷移パターンとに基づいて、最適な構成要件の境界位置を直接算出する。以下の説明では、境界スコアのことを境界適正度スコアともいう。

0117

本実施形態に係る文書構成解析装置1は、例えば、図19に示す解析処理を行う。
図19は、第2の実施形態に係る文書構成の解析処理を説明するフローチャートである。なお、図19のフローチャートにおける処理のうち、図6に示した処理と同じ処理には、同じステップ番号(例えば、S1,S2等)を付している。

0118

本実施形態の文書構成解析装置1は、まず、解析対象である原文書データの入力を受け付ける(ステップS1)。ステップS1の処理は、原文書受付部101が行う。次に、文書構成解析装置1は、原文書を構成単位に分割する(ステップS2)。ステップS2の処理は、原文書分割部102が行う。次に、文書構成解析装置1は、各構成単位の形態素解析を実施する(ステップS3)。ステップS3の処理は、形態素解析部103が行う。

0119

次に、文書構成解析装置1は、構成要件スコア算出処理(ステップS4)を行う。ステップS4の処理は、構成要件解析部104の構成要件スコア算出部104Aが行う。構成要件スコア算出部104Aは、第1の実施形態で説明したように、各構成単位の形態素解析の結果と、構成要件スコアテーブル111とに基づいて、構成単位毎に、各構成要件についての構成要件スコアを算出する。構成要件スコア算出部104Aは、構成要件スコア算出処理として、例えば、図7A及び図7Bに示した処理を行う。

0120

次に、文書構成解析装置1は、構成要件/境界判定処理(ステップS9)を行う。ステップS9の処理は、構成要件解析部104の構成要件/境界判定部104Dが行う。構成要件/境界判定部104Dは、各構成単位の構成要件スコアと、構成要件の遷移パターンと、各構成要件の配分確率と、に基づいて、各構成単位の境界を構成要件の境界としたときの適正度を表す境界スコアを設定する。更に、構成要件/境界判定部104Dは、構成要件スコアと境界スコアとの合計と、構成要件の遷移パターンとに基づくDPマッチングにより構成要件の境界を判定し、各構成単位の構成要件を特定する。

0121

次に、文書構成解析装置1は、ステップS4及びS9の処理により決定した各構成単位の構成要件を出力する(ステップS7)。ステップS7の処理は、出力部105が行う。出力部105は、例えば、各構成単位の構成要件を表す情報が付加された原文書データを出力する。

0122

図20Aは、構成要件/境界判定処理の内容を説明するフローチャート(その1)である。図20Bは、構成要件/境界判定処理の内容を説明するフローチャート(その2)である。

0123

構成要件/境界判定処理(ステップS9)において、構成要件/境界判定部104Dは、図20Aに示すように、まず、構成要件スコアと境界適正度スコアとの合計の最大値TQmaxを初期化するとともに、遷移パターンを選択する変数hを1とする(ステップS901)。スコアの合計の最大値TQmaxは、全ての遷移パターンに基づいて生成し得る各構成単位の構成要件の組み合わせから得られる、複数個のスコアの合計のうちの最大値である。ステップS901において、構成要件/境界判定部104Dは、最大値TQmaxを0.0にする。

0124

次に、構成要件/境界判定部104Dは、h番目の遷移パターンの順に構成要件を並べたスコアテーブルを生成する(ステップS902)。ステップS902において、構成要件/境界判定部104Dは、(構成単位の数)×(構成要件の数)のセルを有するスコアテーブルを生成する。

0125

次に、構成要件/境界判定部104Dは、スコアテーブルの各セルに構成要件スコアを設定する(ステップS903)。

0126

次に、構成要件/境界判定部104Dは、境界適正度スコアを設定する(ステップS904)。ステップS904において、構成要件/境界判定部104Dは、構成単位の境界の前後において構成要件が遷移する位置関係となるセルの組に対し、境界適正度スコアを設定する。

0127

次に、構成要件/境界判定部104Dは、構成要件スコアと境界適正度スコアとの合計TQが最大となる各構成単位の構成要件を特定する(ステップS905)。

0128

次に、構成要件/境界判定部104Dは、スコアの合計TQと、現時点における最大値TQmaxとを比較し、TQ>TQmaxであるか否かを判定する(ステップS906)。TQ>TQmaxの場合(ステップS906;Yes)、構成要件判定部104Bは、最大値TQmaxをTQに更新し、このときの各構成単位の構成要件を保持する(ステップS907)。その後、構成要件/境界判定部104Dは、図20Bに示すように、h+1番目の遷移パターンがあるか否かを判定する(ステップS908)。また、TQ≦TQmaxの場合(ステップS906;No)、構成要件/境界判定部104Dは、ステップS907の処理をスキップして、ステップS908の判定を行う。

0129

h+1番目の遷移パターンがある場合(ステップS908;Yes)、構成要件/境界判定部104Dは、変数hをh+1に更新し(ステップS909)、ステップS902以降の処理を繰り返す。

0130

一方、h+1番目の遷移パターンがない場合(ステップS908;No)、構成要件/境界判定部104Dは、次に、構成要件スコアの合計が最大値TQmaxとなる各構成単位の構成要件に基づいて、原文書における構成要件の境界位置を決定する(ステップS910)。ステップS910の処理を終えると、構成要件/境界判定部104Dは、構成要件/境界判定処理を終了する。

0131

構成要件/境界判定処理を終了すると、構成要件/境界判定部104D(構成要件解析部104)は、各構成単位の構成要件を出力部105に出力する。その後、文書構成解析装置1では、出力部105において、各構成単位の構成要件を出力する処理(ステップS7)を行う。

0132

図21は、構成要件スコアの設定方法を説明する図である。
構成要件/境界判定処理(ステップS9)では、上記のように、スコアテーブルを生成し、スコアテーブルの各セルに構成要件スコアを設定する(ステップS902,S903)。この際、構成要件/境界判定部104Dは、例えば、図21に示すようなスコアテーブル401を生成し、スコアテーブル401の各セルに構成要件スコアを設定する。

0133

図21には、原文書の構成単位がN個であり、h番目の遷移パターンにおける構成要件が背景、課題、提案、及び成果の順に遷移する場合のスコアテーブル401を示している。スコアテーブル401は、N×4個のセルを含み、各セルには、構成要件スコア算出処理(ステップS4)で算出した、各構成単位の構成要件スコアが設定される。

0134

図22は、境界適正度スコアの設定方法を説明する図である。
構成要件スコアを設定した後、構成要件/境界判定部104Dは、境界適正度スコアを設定する(ステップS904)。ステップS904において、構成要件/境界判定部104Dは、図22に示すように、スコアテーブル401における構成要件が遷移する位置関係となるセルの組に対し、境界適正度スコア402を設定する。

0135

図22に示したスコアテーブル401では、境界適正度スコア402として、下記式(5−1)〜(5−3)により算出した値を設定する。

0136

0137

式(5−1)により算出されるScoreBK,PB(n,n+1)は、構成単位がN個であるときのn番目の構成単位とn+1番目の構成単位との境界における、構成要件が背景から課題に遷移するセルの組に対して設定する境界適正度スコアである。式(5−2)により算出されるScorePB,PP(n,n+1)は、構成単位がN個であるときのn番目の構成単位とn+1番目の構成単位との境界における、構成要件が課題から提案に遷移するセルの組に対して設定する境界適正度スコアである。式(5−3)により算出されるScorePP,RS(n,n+1)は、構成単位がN個であるときのn番目の構成単位とn+1番目の構成単位との境界における、構成要件が提案から成果に遷移するセルの組に対して設定する境界適正度スコアである。ここで、x=(n/N)とすると、境界適正度スコアScoreBK,PB(x)、ScorePB,PP(x)、及びScorePP,RS(x)は、それぞれ、式(6−1)〜(6−3)により算出される。

0138

0139

式(6−1)〜(6−3)におけるP’BK(x)及びA’BKは、それぞれ、下記式(7−1)及び(7−2)で表される、正規化した背景の配分の確率分布及び平均値である。

0140

0141

式(6−1)〜(6−3)におけるP’PB(x)及びA’PBは、それぞれ、下記式(8−1)及び(8−2)で表される、正規化した課題の配分の確率分布及び平均値である。

0142

0143

式(6−1)〜(6−3)におけるP’PP(x)及びA’PPは、それぞれ、下記式(9−1)及び(9−2)で表される、正規化した提案の配分の確率分布及び平均値である。

0144

0145

式(6−1)〜(6−3)におけるP’RS(x)及びA’RSは、それぞれ、下記式(10−1)及び(10−2)で表される、正規化した背景の配分の確率分布及び平均値である。

0146

0147

更に、式(7−1)〜(10−2)における、PBK(x)及びABKは、それぞれ、配分確率データにおける背景の配分の確率分布及び平均値である。式(7−1)〜(10−2)における、PPB(x)及びAPBは、それぞれ、配分確率データにおける課題の配分の確率分布及び平均値である。式(7−1)〜(10−2)における、PPP(x)及びAPPは、それぞれ、配分確率データにおける提案の配分の確率分布及び平均値である。式(7−1)〜(10−2)における、PRS(x)及びARSは、それぞれ、配分確率データにおける成果の配分の確率分布及び平均値である。

0148

ステップS904で境界適正度スコアを設定した後、構成要件/境界判定部104Dは、構成要件スコアと境界適正度スコアとの合計TQが最大となる各構成単位の構成要素を特定する(ステップS905)。ステップS905において、構成要件/境界判定部104Dは、スコアテーブル401の各セルに対する累計スコアを順次算出し、最後(N番目)の構成単位に対する各セルの累計スコアを構成要件スコアと境界適正度スコアとの合計TQとする。

0149

図23は、累計スコアの算出方法を説明する図である。なお、図23において、スコアテーブルの各セルに記載した2つの数値は、上段の数値が構成要件スコアであり、下段の数値が累計スコアである。

0150

累計スコアは、構成単位の境界の前後における構成要件スコアと、境界適正度スコアとに基づいて算出する。なお、1番目の構成単位に対する各構成要件についての累計スコアは、それぞれ、構成要件スコアとする。

0151

また、2番目以降の構成単位に対する各構成要件についての累計スコアは、それぞれ、最適パス候補で算出した累計スコアを比較し、最大となる累計スコアを採用する。最適パス候補には、直前の構成単位の構成要件を継続するパスと、直前の構成単位の構成要件から次の構成要件に遷移するパスとがある。

0152

例えば、2番目の構成単位の構成要件が背景である場合、遷移パターンに従うと、直前の構成単位(1番目の構成単位)の構成要件は背景でなければならない。そのため、2番目の構成単位に対する背景についての累計スコアは、1番目の構成単位に対する背景についての累計スコア(0.342)と、2番目の構成単位に対する背景についての構成要件スコア(0.451)との和(0.793)となる。また、2番目の構成単位に対する背景についての最適パス候補には、1番目の構成単位の構成要件を継続するパスが設定される。

0153

また、2番目の構成単位の構成要件が課題である場合、遷移パターンに従うと、直前の構成単位(1番目の構成単位)の構成要件は背景又は課題となる。1番目の構成単位の構成要件が背景である場合、2番目の構成単位に対する課題の累計スコアは、1番目の構成単位に対する背景の累計スコアと、2番目の構成単位に対する課題の構成要件スコアと、これらの組みに設定した境界適正度スコア402の値との和(0.971)となる。一方、1番目の構成単位の構成要件が課題である場合、2番目の構成単位に対する課題の累計スコアは、1番目の構成単位に対する課題の累計スコアと、2番目の構成単位に対する課題の構成要件スコアとの和(0.381)となる。すなわち、2番目の構成単位に対する課題の累計スコアは、1番目の構成単位を背景としたほうが大きな値となる。よって、2番目の構成単位に対する課題には、最適パス候補として直前の構成単位に対する背景から遷移するパスが設定され、1番目の構成単位を背景とした場合の累計スコアが設定される。

0154

以下、各構成要件についての累計スコアを順次算出すると、図23に示したような最適パス候補及び累計スコアが設定される。

0155

累計スコアの算出を終えると、構成要件/境界判定部104Dは、遷移パターンの最適解(最適パス)を求め、各構成単位の構成要件を特定する。

0156

図24は、遷移パターンの最適解の例を説明する図である。
累計スコアを算出した後、構成要件/境界判定部104Dは、累計スコアと最適パス候補に基づいて、最後の構成単位(N番目の構成単位)における遷移パターンの最後の構成要件から1番目の構成単位における遷移パターンの最初の構成要件に至る最適パスを求める。この際、直前の構成単位の構成要件は、図24に示すように、最適パス候補により決まる。そして、最適パスを特定すると、構成要件/境界判定部104Dは、最適パスにおける各構成要件の累積値の和を、構成要件スコアと境界適正度スコアとの合計TQとする。また、構成要件/境界判定部104Dは、図24のスコアテーブル403のように、各構成単位の構成要件を特定する。

0157

更に、構成要件/境界判定部104Dは、遷移パターンテーブル112に登録された全ての遷移パターンについて同様の処理を行い、構成要件スコアと境界適正度スコアとの合計TQが最大値TQmaxとなる最適パスを特定する。その後、構成要件/境界判定部104Dは、構成要件スコアと境界適正度スコアとの合計が最大値TQmaxとなる最適パスを、原文書の構成要件の遷移パターンに特定し、各構成単位の構成要件を出力部105に出力する。

0158

このように、本実施形態では、構成要件スコアと、構成単位の境界を構成要件の境界としたときの適正度を表す境界適正度スコアとに基づいて各構成単位の構成要件を特定する。この際、境界適正度スコアは、構成要件スコアと、文脈を考慮して設定された構成要件の遷移パターンと、文書における各構成要件の配分確率データとに基づいて算出する。このため、第1の実施形態と同様、解析対象の文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定することが可能となる。

0159

なお、図20A及び図20Bのフローチャートは、構成要件/境界判定処理の一例に過ぎない。本実施形態に係る構成要件/境界判定処理は、本実施形態の要旨を逸脱しない範囲で変更可能である。

0160

[第3の実施形態]
本実施形態では、第1の実施形態又は第2の実施形態で説明した文書構成解析装置1を適用した要約文書検索システムについて説明する。

0161

図25は、第3の実施形態に係る要約文書検索システムの構成を示す図である。
図25に示すように、本実施形態に係る要約文書検索システムは、サーバ装置5と、クライアント6とを含む。サーバ装置5とクライアント6とは、インターネット等の通信ネットワーク7を介して通信可能に接続される。

0162

サーバ装置5は、通信部501と、検索部502と、文書構成解析部503と、重要情報抽出部504と、要約文書生成部505と、を備える。また、サーバ装置5は、原文書データベース511と、要約文書データベース512とを含む各種データを記憶する記憶部を備える。原文書データベース511は、複数の原文書データが登録されたデータベースである。要約文書データベース512は、原文書データから作成した要約文書データが登録されたデータベースである。

0163

通信部501は、サーバ装置5と通信ネットワーク7とを通信可能に接続し、クライアント6を含む各種通信端末との通信を行う。例えば、通信部501は、クライアント6からの原文書や要約文書の検索要求を受信する処理や、検索結果(原文書や要約文書)をクライアント6に送信する処理を行う。

0164

検索部502は、クライアント6からの検索要求に従い、要約文書や原文書を検索する。また、クライアント6から要求された要約文書が存在せず、原文書のみが存在する場合、検索部502は、文書構成解析部503に原文書の文書構成を解析させる。

0165

文書構成解析部503は、原文書を構成単位に分割し、各構成単位の構成要件スコアと、構成要件の遷移パターンと、各構成要件の配分確率データとに基づいて、各構成単位の構成要件を特定する。文書構成解析部503は、第1の実施形態に係る文書構成解析装置1又は第2の実施形態に係る文書構成解析装置1に相当する。すなわち、文書構成解析部503は、図1に示した原文書受付部101と、原文書分割部102と、形態素解析部103と、構成要件解析部104と、出力部105と、を含む。更に、文書構成解析部503は、構成要件スコアテーブル111と、遷移パターンテーブル112と、配分確率データテーブル113とを含む。

0166

重要情報抽出部504は、文書構成解析部503の解析結果(各構成単位の構成要件)に基づいて、構成要件毎に、構成単位から重要情報を抽出する。

0167

要約文書生成部505は、重要情報抽出部504で抽出した重要情報に基づいて、原文書の要約文書を生成し、要約文書データベース512に登録する。

0168

クライアント6は、入力部601と、通信部602と、表示部603と、を備える。
入力部601は、原文書や要約文書の検索条件を含む各種の情報を入力する。

0169

通信部602は、クライアント6と通信ネットワーク7とを通信可能に接続し、サーバ装置5を含む各種通信端末との通信を行う。例えば、通信部602は、サーバ装置5に原文書や要約文書の検索要求を送信する処理や、サーバ装置5からの検索結果(原文書や要約文書)を受信する処理を行う。

0170

表示部603は、サーバ装置5から受信した原文書や要約文書を含む、テキストデータや画像データ等を表示する。

0171

本実施形態の要約文書検索システムは、例えば、図書館における書籍や論文等の検索サービスに適用可能である。この場合、サーバ装置5は、図書館内等に設置される。また、クライアント6は、図書館内に設置されていてもよいし、図書館の利用者が持ち込んだノートブック型のコンピュータ等の通信端末でもよい。

0172

本実施形態に係る要約文書検索システムにおけるサーバ装置5は、要約文書を登録する処理と、クライアント6からの要求に応じて原文書や要約文書をクライアント6に送信する処理と、を行う。

0173

図26は、要約文書の登録処理を説明するフローチャートである。
要約文書を登録する処理を行う場合、サーバ装置5は、図26に示すように、まず、原文書データベース511から原文書データを読み出す(ステップS31)。ステップS31の処理は、文書構成解析部503が行う。文書構成解析部503は、例えば、図25には示していない入力部から入力された原文書を指定する情報に基づいて、原文書データベース511から所定の原文書データを読み出す。

0174

原文書データを読み出した文書構成解析部503は、次に、原文書を構成単位に分割し(ステップS32)、各構成単位の形態素解析を実施する(ステップS33)。ステップS32及びステップS33の処理は、それぞれ、第1の実施形態又は第2の実施形態で説明したステップS2及びS3の処理と同じでよい。

0175

次に、文書構成解析部503は、構成要件スコアと、構成要件の遷移パターンと、構成要件の配分確率とに基づいて、各構成単位の構成要件を決定する(ステップS34)。文書構成解析部503は、ステップS34の処理として、第1の実施形態で説明したステップS4〜S7の処理、又は第2の実施形態で説明したステップS4,S9,及びS7の処理を行う。文書構成解析部503は、決定した各構成単位の構成要件を重要情報抽出部504に出力する。

0176

次に、サーバ装置5は、重要情報抽出部504において、構成要件毎に重要情報を抽出する(ステップS35)。ステップS35の処理において、重要情報抽出部504は、既知の要約文書作成方法等における重要情報の抽出方法に従って、構成単位から重要情報を抽出する。重要情報抽出部504は、抽出した重要情報を要約文書生成部505に出力する。

0177

次に、サーバ装置5は、要約文書生成部505において、重要情報に基づいて要約文書を生成する(ステップS36)。ステップS36の処理において、要約文書生成部505は、既知の要約文書の生成方法に従って、重要情報に基づく要約文書を生成する。要約文書を生成した後、要約文書生成部505は、生成した要約文書を要約文書データベース512に登録する(ステップS37)。ステップS37の処理において、要約文書生成部505は、例えば、もとになった原文書データを表す情報を要約文書に付加して要約文書データベース512に登録する。ステップS37の処理を終えると、1個の原文書に対する要約文書の登録処理が終了する。

0178

サーバ装置5は、原文書データベース511に登録された複数の原文書データのそれぞれに対しステップS31〜S37の処理を行い、各原文書の要約文書を要約文書データベース512に順次登録する。

0179

図27は、文書検索処理を説明するシーケンス図である。
本実施形態の要約文書検索システムにおけるクライアント6は、サーバ装置5の原文書データベース511に格納された原文書や要約文書データベース512に格納された要約文書等の閲覧利用可能である。原文書や要約文書の検索、閲覧をする際、クライアント6とサーバ5とは、それぞれ、図27に示したような処理を行う。まず、要約文書検索システムの利用者が、例えば、クライアント6の入力部601を操作して検索キーワードを入力すると、クライアント6は、検索キーワードの入力を受け付ける(ステップS41)。検索キーワードの入力を受け付けたクライアント6は、次に、サーバ装置5に検索キーワードを含む検索要求を送信する(ステップS42)。その後、クライアント6は、サーバ装置5からの返信を待つ。

0180

クライアント6からの検索要求(検索キーワード)を受信したサーバ装置5は、検索部502において、原文書及び要約文書を検索する(ステップS43)。検索キーワードを含む要約文書が要約文書データベース512に格納されている場合、サーバ装置5は、該当する要約文書をクライアント6に送信する(ステップS44)。

0181

要約文書を受信すると、クライアント6は、受信した要約文書を表示する(ステップS45)。要約文書を表示した後、クライアント6は、原文書の表示を要求する情報が入力されたか否かを判定する(ステップS46)。原文書の表示を要求する情報が入力された場合(ステップS46;Yes)、クライアント6は、サーバ装置5に原文書送信要求を送信する(ステップS47)。

0182

クライアント6からの送信要求を受信したサーバ装置5は、要求された原文書をクライアント6に送信する(ステップS48)。

0183

原文書を受信すると、クライアント6は、受信した原文書を表示する(ステップS49)。原文書を表示した後、クライアント6は、再検索を要求する情報が入力されたか否かを判定する(ステップS50)。なお、要約文書を表示した後、所定の期間内に原文書の表示を要求する情報が入力されなかった場合(ステップS46;No)、クライアント6は、ステップS47,S49の処理をスキップしてステップS50の判定を行う。再検索を要求する情報が入力された場合(ステップS50;Yes)、クライアント6は、ステップS41の処理に戻る。一方、再検索を要求する情報が入力されなかった場合(ステップS50;No)、クライアント6は、次に、検索処理を終了する情報が入力されたか否かを判定する(ステップS51)。検索処理を終了する情報が入力された場合(ステップS51;Yes)、クライアント6は、検索処理を終了する。検索処理を終了する情報が入力されなかった場合(ステップS51;No)、クライアント6は、ステップS46の判定に戻る。

0184

このように、本実施形態に係る要約文書検索システムでは、サーバ装置5が、第1の実施形態又は第2の実施形態で説明した方法で原文書における各構成単位の構成要件を特定する。このため、解析対象の文書における各構成単位の構成要件を、文脈及び各構成要件の配分を考慮した適切な構成要件に特定することが可能となる。よって、構成要件の解析結果に基づいて原文書の要約文書を作成したときに、各構成要件の内容が不適切な要約となることを低減することが可能となる。

0185

なお、図26のフローチャートは、要約文書の登録処理の一例に過ぎない。また、図21のシーケンスは、文書検索処理の一例に過ぎない。本実施形態に係る上記の各処理は、それぞれ、本実施形態の要旨を逸脱しない範囲で変更可能である。

0186

[第4の実施形態]
本実施形態では、第1の実施形態又は第2の実施形態で説明した文書構成解析装置1を適用した文書読解支援システムについて説明する。

0187

図28は、第4の実施形態に係る文書読解支援システムの構成を示す図である。
図28に示すように、本実施形態に係る文書読解支援システムは、サーバ装置5と、クライアント6とを含む。サーバ装置5とクライアント6とは、インターネット等の通信ネットワーク7を介して通信可能に接続される。

0188

サーバ装置5は、通信部501と、文書構成解析部503と、重要情報抽出部504と、支援情報生成部506と、を備える。

0189

通信部501は、サーバ装置5と通信ネットワーク7とを通信可能に接続し、クライアント6を含む各種通信端末との通信を行う。例えば、通信部501は、クライアント6からの原文書の要約要求を受信する処理や、要求に応じた処理の結果をクライアント6に送信する処理を行う。

0190

文書構成解析部503は、原文書を構成単位に分割し、各構成単位の構成要件スコアと、構成要件の遷移パターンと、各構成要件の配分確率データとに基づいて、各構成単位の構成要件を特定する。文書構成解析部503は、第1の実施形態に係る文書構成解析装置1又は第2の実施形態に係る文書構成解析装置1に相当する。すなわち、文書構成解析部503は、図1に示した原文書受付部101と、原文書分割部102と、形態素解析部103と、構成要件解析部104と、出力部105と、を含む。更に、文書構成解析部503は、構成要件スコアテーブル111と、遷移パターンテーブル112と、配分確率データテーブル113とを含む。

0191

重要情報抽出部504は、文書構成解析部503の解析結果(各構成単位の構成要件)に基づいて、構成要件毎に、構成単位から重要情報を抽出する。

0192

要約文書生成部505は、重要情報抽出部504で抽出した重要情報に基づいて、原文書の要約文書等の支援情報を生成し、クライアント6に送信する。

0193

クライアント6は、入力部604と、通信部602と、表示部603と、を備える。
入力部604は、原文書データや要約文書の要約要求等を含む各種の情報を入力する。

0194

通信部602は、クライアント6と通信ネットワーク7とを通信可能に接続し、サーバ装置5を含む各種通信端末との通信を行う。

0195

表示部603は、サーバ装置5から受信した原文書や支援情報を含む、テキストデータや画像データ等を表示する。

0196

本実施形態の文書読解支援システムは、例えば、インターネットを利用した文書要約サービス等に適用可能である。この場合、サーバ装置5は、サービス提供者が所定の施設等に設置する。また、クライアント6は、サービス利用者所有するコンピュータ等の通信端末でもよい。

0197

図29は、支援情報を提供する処理を説明するシーケンス図である。
本実施形態の文書読解支援システムにおけるクライアント6は、例えば、スキャナ装置で読み込んだ原文書データや通信ネットワーク上の他の通信端末から取得した原文書データについての要約文書等の支援情報の提供を、サーバ装置5に要求することができる。このとき、クライアント6とサーバ5とは、それぞれ、図29に示したような処理を行う。まず、文書読解支援システムの利用者が、例えば、クライアント6の入力部601を操作して原文書データを指定すると、クライアント6は、原文書データの入力を受け付ける(ステップS61)。原文書データの入力を受け付けたクライアント6は、次に、原文書を表示する(ステップS62)とともに、サーバ装置5に原文書データと支援情報を要求する信号とを送信する(ステップS63)。その後、クライアント6は、サーバ装置5からの返信を待つ。

0198

クライアント6からの要求(原文書データ)を受信したサーバ装置5は、文書構成解析部503において、まず、原文書を構成単位に分割する(ステップS64)。次に、文書構成解析部503は、各構成単位の形態素解析を実施する(ステップS65)。次に、文書構成解析部503は、各構成単位の構成要件を特定する。文書構成解析部503が行うステップS64〜S66の処理は、第1の実施形態で説明したステップS2〜S7の処理、或いは第2の実施形態で説明したステップS2〜S5,S9,及びS7の処理と同じでよい。

0199

文書構成解析部503で各構成単位の構成要件を特定した後、サーバ装置5は、重要情報を抽出して支援情報を生成する(ステップS67)。ステップS67の処理は、重要情報抽出部504と、支援情報生成部506とが行う。そして、支援情報の生成を終えると、サーバ装置5は、生成した支援情報をクライアント6に返信する(ステップS68)。

0200

サーバ装置5からの支援情報を受信したクライアントは、受信した支援情報を表示する。

0201

図30は、原文書と支援情報との例を示す図である。
図30の(a)には、原文書801の例を示している。サーバ装置5は、原文書801のデータを受信すると、第1の実施形態又は第2の実施形態で説明した手順で原文書に含まれる各構成単位の構成要件を特定する(ステップS64〜S66)。その後、サーバ装置5は、構成要件毎に、構成単位から重要情報を抽出し、例えば、図30の(b)に示したような要約文書802を支援情報として生成する(ステップS67)。サーバ装置5で生成した要約文書802は、クライアント6の表示部603に表示される(ステップS69)。このように、支援情報として要約文書802を生成した場合、クライアント6の利用者(システム利用者)は、要約文書802を読むことで、原文書801の記載内容を把握することが可能となる。しかも、サーバ装置5の文書構成解析部503は、各構成単位の構成要件スコアと、文脈を考慮した構成要件の遷移パターンと、各構成要件の配分確率とに基づいて、各構成単位の構成要件を適切な構成要件に特定する。よって、サーバ装置5が生成した要約文書802は文脈を考慮した適切な要約となっており、利用者は、原文書801の記載内容を適切に把握することが可能となる。

0202

図31は、支援情報の別の例を示す図である。
本実施形態の文書読解支援システムのサーバ装置5は、支援情報として、例えば、図31に示すように原文書を構成要件毎に枠線803Aで囲んだ支援情報803を生成してもよい。この際、例えば、構成要件毎に枠線803Aの色や線種を変えたり、枠線内803A内の背景色を変えたりすることで、原文書のどの部分にどの構成要件の文が記載されているかを視覚により直感的に把握することが可能となる。更に、例えば、各構成単位のうちの重要情報として抽出された箇所を強調表示することで、クライアント6の表示を見た利用者は、原文書における重要箇所を容易に知ることができる。

0203

なお、図29のシーケンスは、支援情報を提供する処理の一例に過ぎない。本実施形態に係る支援情報を提供する処理は、本実施形態の要旨を逸脱しない範囲で変更可能である。

0204

第1の実施形態及び第2の実施形態に係る文書構成解析装置1は、それぞれ、コンピュータと、当該コンピュータに実行させるプログラムとを用いて実現することが可能である。以下、コンピュータとプログラムとを用いて実現される文書構成解析装置1について、図32を参照して説明する。

0205

図32は、コンピュータのハードウェア構成を示す図である。
図32に示すように、コンピュータ10は、プロセッサ1001と、主記憶装置1002と、補助記憶装置1003と、入力装置1004と、出力装置1005と、入出力インタフェース1006と、通信制御装置1007と、媒体駆動装置1008と、を備える。コンピュータ10におけるこれらの要素1001〜1008は、バス1010により相互に接続されており、要素間でのデータの受け渡しが可能になっている。

0206

プロセッサ1001は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ1001は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ10の全体の動作を制御する。また、プロセッサ1001は、例えば、図6図7A及び図7B図9、並びに図10A及び図10Bに示した処理を含む、文書構成の解析処理等を行う。

0207

主記憶装置1002は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置1002のROMには、例えば、コンピュータ10の起動時にプロセッサ1001が読み出す所定の基本制御プログラム等が予め記録されている。また、主記憶装置1002のRAMは、プロセッサ1001が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置1002のRAMは、例えば、原文書データ、各構成単位の形態素解析の結果、各構成単位の構成要件を特定する処理において算出する構成要件スコア等の演算結果の記憶に利用可能である。

0208

補助記憶装置1003は、例えば、Hard Disk Drive(HDD)や、フラッシュメモリ等の不揮発性メモリ(Solid State Drive(SSD)を含む)である。補助記憶装置1003には、プロセッサ1001によって実行される各種のプログラムや各種のデータ等を記憶させることができる。補助記憶装置1003は、例えば、図6図7A及び図7B図9、並びに図10A及び図10Bに示した処理を含む文書構成解析プログラム等の記憶に利用可能である。また、補助記憶装置1003は、例えば、原文書データ、構成要件スコアテーブル111、遷移パターンテーブル112、配分確率データテーブル113、各構成単位の構成要件を特定する処理において算出する各種演算結果等の記憶に利用可能である。

0209

入力装置1004は、例えば、キーボード装置マウス装置タッチパネル装置等である。コンピュータ10のオペレータ(利用者)が入力装置1004に対して所定の操作を行うと、入力装置1004は、その操作内容に対応付けられている入力情報をプロセッサ1001に送信する。また、入力装置1004は、例えば、原文書データの作成に用いるスキャナ装置でもよい。

0210

出力装置1005は、例えば、液晶表示装置等のディスプレイ装置プリンタである。出力装置1005は、例えば、原文書、解析結果、要約文書等の出力に利用可能である。

0211

入出力インタフェース1006は、コンピュータ10と、他の電子機器とを接続する。入出力インタフェース1006は、例えば、Universal Serial Bus(USB)規格コネクタ等を備える。

0212

通信制御装置1007は、コンピュータ10を通信ネットワークに接続し、通信ネットワークを介したコンピュータ10と他の電子機器との各種通信を制御する装置である。通信制御装置1007は、例えば、他のコンピュータ等に記憶させてある原文書データの取得に利用可能である。

0213

媒体駆動装置1008は、可搬型記憶媒体11に記録されているプログラムやデータの読み出し、補助記憶装置1003に記憶されたデータ等の可搬型記憶媒体11への書き込みを行う。媒体駆動装置1008は、例えば、1種類又は複数種類の規格に対応したメモリカードリーダライタが利用可能である。媒体駆動装置1008としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体11としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体11としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。可搬型記録媒体11は、上記の文書構成の解析処理を含むプログラム、原文書データ、構成要件スコアデータ111、遷移パターンデータ113、及び配分確率データテーブル113等の記憶に利用可能である。

0214

また、コンピュータ10が媒体駆動装置1008として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体11として利用可能である。可搬型記録媒体11として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。

0215

コンピュータ10は、図6の解析処理を開始する命令を入力すると、プロセッサ1001が補助記憶装置1003等からプログラムを読み出して実行する。この際、プロセッサ1001は、原文書分割部102、形態素解析部103、構成要件解析部104として機能する(動作する)。また、主記憶装置1002のRAMや補助記憶装置1003等は、原文書、構成要件スコアテーブル111、遷移パターンテーブル112、配分確率データテーブル113等を記憶する記憶部として機能する。

0216

なお、文書構成解析装置1として動作させるコンピュータ10は、図32に示した全ての要素1001〜1008を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ10は、通信制御装置1007や媒体駆動装置1008が省略されたものであってもよい。

0217

更に、コンピュータ10は、第3の実施形態及び第4の実施形態のサーバ装置5として動作させることも可能である。コンピュータ10をサーバ装置5として動作させる場合、例えば、図5の解析処理に加え、重要情報を抽出する処理と、要約情報或いは他の支援情報を生成する処理とを含むプログラムをコンピュータ10に実行させる。

0218

以上記載した各実施形態に関し、更に以下の付記を開示する。
(付記1)
原文書を複数の構成単位に分割する分割部と、
前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出した後、前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する解析部と、
を備えることを特徴とする文書構成解析装置。
(付記2)
前記解析部は、
前記構成要件スコアを算出する構成要件スコア算出部と、
前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンとに基づいて、前記構成単位の構成要件を判定し、前記原文書における前記構成要件の境界を特定する判定部と、
前記構成要件スコアと、前記判定部で特定した前記原文書における前記構成要件の境界の位置に基づく前記構成要件の配分と、前記構成要件の配分確率と、に基づいて、前記原文書における前記構成要件の境界の位置を修正する修正部と、
を含むことを特徴とする付記1に記載の文書構成解析装置。
(付記3)
前記修正部は、前記境界の前方の構成単位における前記境界の前後の構成要件についての構成要件スコアの差が閾値よりも小さく、更に、前記境界の前方の構成要件の配分が前記配分確率における平均値よりも大きく、かつ、前記境界の後方の構成要件の配分が前記配分確率における平均値よりも小さい場合に、前記境界の位置を前方に移動させる、
ことを特徴とする付記2に記載の文書構成解析装置。
(付記4)
前記修正部は、前記境界の前方の構成要件の配分が前記配分確率における平均値となるか、前記境界の後方の構成要件の配分が前記配分確率における平均値となるか、若しくは前記境界の前方の構成単位における前記境界の前後の構成要件についての構成要件スコアの差が閾値以上となるまで、前記境界の位置を移動させる、
ことを特徴とする付記3に記載の文書構成解析装置。
(付記5)
前記修正部は、前記境界の後方の構成単位における前記境界の前後の構成要件についての構成要件スコアの差が閾値よりも小さく、更に、前記境界の前方の構成要件の配分が前記配分確率における平均値よりも小さく、かつ、前記境界の後方の構成要件の配分が前記配分確率における平均値よりも大きい場合に、前記境界の位置を後方に移動させる、
ことを特徴とする付記2に記載の文書構成解析装置。
(付記6)
前記修正部は、前記境界の前方の構成要件の配分が前記配分確率における平均値となるか、前記境界の後方の構成要件の配分が前記配分確率における平均値となるか、若しくは前記境界の後方の構成単位における前記境界の前後の構成要件についての構成要件スコアの差が閾値以上となるまで、前記境界の位置を移動させる、
ことを特徴とする付記5に記載の文書構成解析装置。
(付記7)
前記解析部は、
前記構成要件スコアを算出する構成要件スコア算出部と、
前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンと、前記構成要件の配分確率と、に基づいて、前記構成単位の境界のそれぞれを前記構成要件の境界としたときの適正度を算出した後、前記構成要件スコアと前記適正度とに基づいて前記構成単位の構成要件を判定し、前記原文書における前記構成要件の境界を特定する判定部と、
を含むことを特徴とする付記1に記載の文書構成解析装置。
(付記8)
原文書を複数の構成単位に分割する分割部と、前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出した後、前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する解析部と、を含む文書構成解析部と、
特定した前記構成単位の構成要件に基づいて、前記構成要件毎に前記構成単位から重要情報を抽出する抽出部と、
抽出した前記重要情報に基づいて、前記原文書の要約文書を生成する生成部と、
生成した前記要約文書を記憶する記憶部と、
を備えることを特徴とする要約文書検索システム。
(付記9)
原文書を複数の構成単位に分割する分割部と、前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出した後、前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する解析部と、を含む文書構成解析部と、
特定した前記構成単位の構成要件に基づいて、前記構成要件毎に前記構成単位から重要情報を抽出する抽出部と、
抽出した前記重要情報に基づいて、前記原文書の読解を支援する支援情報を生成する生成部と、
を備えることを特徴とする文書読解支援システム。
(付記10)
コンピュータが、
原文書を複数の構成単位に分割し、
前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出し、
前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する、
ことを特徴とする文書構成解析方法。
(付記11)
前記構成単位の構成要件を特定する処理において、前記コンピュータは、
前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンとに基づいて、前記構成単位の構成要件を判定して、前記原文書における前記構成要件の境界を特定し、
前記構成要件スコアと、前記判定部で特定した前記原文書における前記構成要件の境界の位置に基づく前記構成要件の配分と、前記構成要件の配分確率と、に基づいて、前記原文書における前記構成要件の境界の位置を修正する、
ことを特徴とする付記10に記載の文書構成解析方法。
(付記12)
前記構成単位の構成要件を特定する処理において、前記コンピュータは、
前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンと、前記構成要件の配分確率と、に基づいて、前記構成単位の境界のそれぞれを前記構成要件の境界としたときの適正度を算出し、
前記構成要件スコアと前記適正度とに基づいて前記構成単位の構成要件を判定して、前記原文書における前記構成要件の境界を特定する、
ことを特徴とする付記10に記載の文書構成解析方法。
(付記13)
原文書を複数の構成単位に分割し、
前記構成単位毎に、複数の構成要件のそれぞれについての構成要件らしさを表す構成要件スコアを算出し、
前記構成単位の前記構成要件スコアと、予め用意された複数通りの前記構成要件の遷移パターンと、予め用意された一文書における前記構成要件の配分確率と、に基づいて、複数の前記構成単位の構成要件を特定する、
処理をコンピュータに実行させる文書構成解析プログラム。
(付記14)
前記構成単位の構成要件を特定する処理は、
前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンとに基づいて、前記構成単位の構成要件を判定して、前記原文書における前記構成要件の境界を特定し、
前記構成要件スコアと、前記判定部で特定した前記原文書における前記構成要件の境界の位置に基づく前記構成要件の配分と、前記構成要件の配分確率と、に基づいて、前記原文書における前記構成要件の境界の位置を修正する、
処理を含むことを特徴とする付記13に記載の文書構成解析プログラム。
(付記15)
前記構成単位の構成要件を特定する処理は、
前記構成単位の前記構成要件スコアと、前記構成要件の遷移パターンと、前記構成要件の配分確率と、に基づいて、前記構成単位の境界のそれぞれを前記構成要件の境界としたときの適正度を算出し、
前記構成要件スコアと前記適正度とに基づいて前記構成単位の構成要件を判定して、前記原文書における前記構成要件の境界を特定する、
処理を含むことを特徴とする付記13に記載の文書構成解析プログラム。

0219

1文書構成解析装置
5サーバ装置
6クライアント
7通信ネットワーク
10コンピュータ
11可搬型記録媒体
101原文書受付部
102 原文書分割部
103形態素解析部
104構成要件解析部
104A 構成要件スコア算出部
104B 構成要件判定部
104C境界修正部
104D 構成要件/境界判定部
105 出力部
111 構成要件スコアテーブル
112遷移パターンテーブル
113配分確率データテーブル
200〜212,220ノード
501通信部
502検索部
503 文書構成解析部
504 重要情報抽出部
505要約文書生成部
506支援情報生成部
511原文書データベース
512 要約文書データベース
601 入力部
602 通信部
603 表示部
1001プロセッサ
1002主記憶装置
1003補助記憶装置
1004入力装置
1005出力装置
1006入出力インタフェース
1007通信制御装置
1008媒体駆動装置
1010 バス

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • グーグルエルエルシーの「 メッセージ交換スレッドの拡張」が 公開されました。( 2019/08/29)

    【課題・解決手段】メッセージ交換スレッドを拡張するための方法、装置、システム、およびコンピュータ可読媒体が提供される。様々な実装形態では、2つ以上のメッセージ交換クライアントを操作している2人以上の参... 詳細

  • クオント株式会社の「 評価装置、評価方法及び評価プログラム」が 公開されました。( 2019/08/22)

    【課題】Webサイトを閲覧する質の高い高エンゲージメントユーザの数や割合に基づき、Webサイトを評価する評価装置、評価方法および評価プログラムを提供する。【解決手段】高エンゲージメントユーザの数や割合... 詳細

  • 株式会社エクサの「 類似度判定プログラム」が 公開されました。( 2019/08/22)

    【課題】任意のパラメータ列について、あらかじめ特徴量を設計して抽出する作業を実施することなく、類似するパラメータ列を探索する類似度判定プログラムを提供する。【解決手段】本発明の類似度判定プログラムは、... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ