図面 (/)

技術 情報処理装置、要約文編集方法、及びプログラム

出願人 富士通株式会社
発明者 片江伸之
出願日 2015年3月6日 (5年0ヶ月経過) 出願番号 2015-044280
公開日 2016年9月8日 (3年6ヶ月経過) 公開番号 2016-164700
状態 特許登録済
技術分野 検索装置 機械翻訳 文書処理装置
主要キーワード 追加範囲 判定ノード 連結ノード 削除範囲 コールセンター業務 指定箇所 語句間 起点ノード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年9月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

要約文編集を容易にすること。

解決手段

原文31と、該原文31の構文解析に基づく語句係り受け構造を該語句に対応するノード接続関係表現した構文木20とを記憶する記憶部11と、原文31と、語句を省略して原文31を要約した要約文32とを表示する表示部13と、原文31に対する指定操作受け付けた場合は指定箇所にある語句に対応する第1のノードに接続された構文木20の根へ向かう方向にある第2のノードを特定して第1及び第2のノードに対応する語句を要約文32に追加し、要約文32に対する指定操作を受け付けた場合は指定箇所にある語句に対応する第3のノードに接続された構文木20の末端へ向かう方向にある第4のノードを特定して第3及び第4のノードに対応する語句を要約文32から削除する演算部12とを備える情報処理装置10が提供される。

概要

背景

大量の情報が文書形式で提供される今日においては、文書の内容を短時間で効率良く把握し、目的の文書を探し出して活用する際に要約文は有用である。しかし、大量にある文書を要約する作業は時間と労力がかかる。そのため、コンピュータを利用して要約文の作成作業支援する文書要約技術が研究されている。この技術は、例えば、医療分野で作成されるサマリーの要約、株式・証券分野で作成されるアナリストレポートの要約、コールセンター業務で作成される通話レポートの要約などへの応用が期待される。

例えば、要約元の文書(以下、原文)を対象に形態素解析構文解析係り受け構造解析)を実施し、コンピュータが不要と判断した箇所を原文から削除して要約文を作成する技術が提案されている。また、原文から文字列を削除する割合(要約率)を予め複数設定しておき、要約率に応じて作成された複数の要約文からユーザが所望の要約文を選択できるようにする技術が提案されている。その他、ユーザが指定した語を強調表示する技術や、指定箇所に対応する事前準備された語句挿脱する技術などが提案されている。

概要

要約文の編集を容易にすること。原文31と、該原文31の構文解析に基づく語句の係り受け構造を該語句に対応するノード接続関係表現した構文木20とを記憶する記憶部11と、原文31と、語句を省略して原文31を要約した要約文32とを表示する表示部13と、原文31に対する指定操作受け付けた場合は指定箇所にある語句に対応する第1のノードに接続された構文木20の根へ向かう方向にある第2のノードを特定して第1及び第2のノードに対応する語句を要約文32に追加し、要約文32に対する指定操作を受け付けた場合は指定箇所にある語句に対応する第3のノードに接続された構文木20の末端へ向かう方向にある第4のノードを特定して第3及び第4のノードに対応する語句を要約文32から削除する演算部12とを備える情報処理装置10が提供される。

目的

本発明の目的は、要約文の編集を容易にすることが可能な情報処理装置、要約文編集方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

原文と、該原文の構文解析に基づく語句係り受け構造を、該語句に対応するノード接続関係表現した構文木とを記憶する記憶部と、前記原文と、前記語句を省略して前記原文を要約した要約文とを表示する表示部と、前記原文に対する指定操作受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、前記構文木の根へ向かう方向にある第2のノードを特定し、前記第1及び第2のノードに対応する語句を前記要約文に追加し、前記要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、前記構文木の末端へ向かう方向にある第4のノードを特定し、前記第3及び第4のノードに対応する語句を前記要約文から削除する演算部と、を備える、情報処理装置

請求項2

前記記憶部は、前記構文木上で接続するノード間の共起確率をさらに記憶し、前記演算部は、前記原文に対する指定操作を受け付けた場合、前記第1のノードに接続された、前記構文木の末端へ向かう方向にあるノードのうち、前記第1のノードとの間の前記共起確率が、設定された閾値よりも大きいノードを前記第2のノードとして特定する請求項1に記載の情報処理装置。

請求項3

前記演算部は、前記要約文に対する指定操作を受け付けた場合、前記第3のノードに接続された、前記構文木の根へ向かう方向にあるノードのうち、前記第3のノードとの間の前記共起確率が前記閾値よりも大きいノードを前記第4のノードとして特定する請求項2に記載の情報処理装置。

請求項4

前記記憶部は、前記構文木上で接続するノード間の共起確率をさらに記憶し、前記演算部は、前記原文に対する指定操作を受け付けた場合、前記第1のノードとの間の前記構文木上の距離が遠く、かつ、前記共起確率が大きくなるほど高い値をとる評価値に基づき、前記第1のノードに接続された、前記構文木の根へ向かう方向にあるノードのうち、前記評価値が最も高いノードを前記第2のノードとして特定する請求項1に記載の情報処理装置。

請求項5

コンピュータが、記憶部から、原文と、該原文の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した構文木とを取得し、表示部に、前記原文と、前記原文を要約した要約文とを表示させ、前記原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、前記構文木の根へ向かう方向にある第2のノードを特定し、前記第1及び第2のノードに対応する語句を前記要約文に追加し、前記要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、前記構文木の末端へ向かう方向にある第4のノードを特定し、前記第3及び第4のノードに対応する語句を前記要約文から削除する要約文編集方法

請求項6

コンピュータに、記憶部から、原文と、該原文の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した構文木とを取得し、表示部に、前記原文と、前記原文を要約した要約文とを表示させ、前記原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、前記構文木の根へ向かう方向にある第2のノードを特定し、前記第1及び第2のノードに対応する語句を前記要約文に追加し、前記要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、前記構文木の末端へ向かう方向にある第4のノードを特定し、前記第3及び第4のノードに対応する語句を前記要約文から削除する処理を実行させる、プログラム

技術分野

0001

本発明は、情報処理装置要約文編集方法、及びプログラムに関する。

背景技術

0002

大量の情報が文書形式で提供される今日においては、文書の内容を短時間で効率良く把握し、目的の文書を探し出して活用する際に要約文は有用である。しかし、大量にある文書を要約する作業は時間と労力がかかる。そのため、コンピュータを利用して要約文の作成作業支援する文書要約技術が研究されている。この技術は、例えば、医療分野で作成されるサマリーの要約、株式・証券分野で作成されるアナリストレポートの要約、コールセンター業務で作成される通話レポートの要約などへの応用が期待される。

0003

例えば、要約元の文書(以下、原文)を対象に形態素解析構文解析係り受け構造解析)を実施し、コンピュータが不要と判断した箇所を原文から削除して要約文を作成する技術が提案されている。また、原文から文字列を削除する割合(要約率)を予め複数設定しておき、要約率に応じて作成された複数の要約文からユーザが所望の要約文を選択できるようにする技術が提案されている。その他、ユーザが指定した語を強調表示する技術や、指定箇所に対応する事前準備された語句挿脱する技術などが提案されている。

先行技術

0004

国際公開第2010/052764号
特開平11−25091号公報
特開平11−219361号公報
特開2014−56499号公報

発明が解決しようとする課題

0005

上述した技術を適用することで要約文の作成作業が支援されるが、原文から削除された語句が適切でない場合には追加的に編集作業が生じる。例えば、ユーザが望むよりも長い語句が削除された場合、削除された語句を要約文に再び挿入する作業が生じる。他方、ユーザが削除を望む語句が削除されずに残っている場合、その語句を要約文から削除する作業が生じる。上述した技術のうち、指定操作だけで語句を挿脱できるようにする技術は、こうした事後的な編集作業の負担軽減に寄与しうる。

0006

しかし、事前準備された語句を挿脱しても依然としてユーザが望む表現とならないことがあり、この場合にはユーザが直接的に要約文を編集する作業が生じる。指定操作により挿脱できる語句の自由度を高めることができれば、指定操作だけで要約文の編集作業が完結する可能性が高まり、作業負担の低減が期待される。

0007

そこで、1つの側面によれば、本発明の目的は、要約文の編集を容易にすることが可能な情報処理装置、要約文編集方法、及びプログラムを提供することにある。

課題を解決するための手段

0008

本開示の1つの側面によれば、原文と、該原文の構文解析に基づく語句の係り受け構造を、該語句に対応するノード接続関係で表現した構文木とを記憶する記憶部と、原文と、語句を省略して原文を要約した要約文とを表示する表示部と、原文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第1のノードに接続された、構文木の根へ向かう方向にある第2のノードを特定し、第1及び第2のノードに対応する語句を要約文に追加し、要約文に対する指定操作を受け付けた場合は、指定箇所にある語句に対応する第3のノードに接続された、構文木の末端へ向かう方向にある第4のノードを特定し、第3及び第4のノードに対応する語句を要約文から削除する演算部と、を備える、情報処理装置が提供される。

発明の効果

0009

本発明によれば、要約文の編集を容易にすることが可能になる。

図面の簡単な説明

0010

第1実施形態に係る情報処理装置の一例を示した図である。
第2実施形態に係る情報処理装置の機能を実現可能なハードウェアの一例を示した図である。
第2実施形態に係る情報処理装置が有する機能の一例を示したブロック図である。
第2実施形態に係る形態素解析結果の一例を示した図である。
第2実施形態に係る構文解析(係り受け解析)結果の一例を示した図である。
第2実施形態に係る構文木及び要約文テキストの一例を示した図である。
第2実施形態に係る原文と構文解析結果対応データの一例を示した図である。
第2実施形態に係る要約文と構文解析結果の対応データの一例を示した図である。
第2実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。
第2実施形態に係る語句の削除についての指定操作及び処理の一例を示した図である。
第2実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。
第2実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。
第3実施形態に係る共起確率テーブルの一例を示した図である。
第3実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。
第3実施形態に係る語句の削除についての指定操作及び処理の一例を示した図である。
第3実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。
第3実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。
第3実施形態に係る情報処理装置の動作についての処理の流れを示した第3のフロー図である。
第3実施形態に係る情報処理装置の動作についての処理の流れを示した第4のフロー図である。
第4実施形態に係る構文解析(係り受け解析)結果の一例を示した図である。
第4実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。
第4実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。
第4実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。
第4実施形態に係る情報処理装置の動作についての処理の流れを示した第3のフロー図である。

実施例

0011

以下に添付図面を参照しながら、本発明の実施形態について説明する。なお、本明細書及び図面において実質的に同一の機能を有する要素については、同一の符号を付することにより重複説明を省略する場合がある。

0012

<1.第1実施形態>
図1を参照しながら、第1実施形態について説明する。図1は、第1実施形態に係る情報処理装置の一例を示した図である。第1実施形態は、文書を要約して要約文を自動作成する文書要約技術、及び要約文の編集を支援する編集支援技術に関する。以下、要約元の文書を原文と称する。また、説明の都合上、図1に示した原文31を要約して要約文32を作成し、要約文32を編集する場合を例に説明を行う。

0013

図1に示すように、情報処理装置10は、記憶部11、演算部12、表示部13を有する。
記憶部11は、RAM(Random Access Memory)などの揮発性記憶装置、又はHDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性記憶装置である。演算部12は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサである。但し、演算部12は、ASIC(Application Specific IntegratedCircuit)やFPGA(Field Programmable Gate Array)などの電子回路であってもよい。

0014

演算部12は、例えば、記憶部11又は他のメモリに記憶されたプログラムを実行する。表示部13は、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、又はELD(Electro-Luminescence Display)などのディスプレイ装置である。

0015

なお、表示部13は情報処理装置10と一体に形成されていなくてもよく、例えば、表示部13に表示される内容が、ネットワークを介して情報処理装置10に接続された情報端末のディスプレイ装置に表示される仕組みにしてもよい。また、情報処理装置10の機能は、演算部12の機能を分担して実現する複数のコンピュータや、記憶部11の機能を有するストレージ装置などを組み合わせたシステムにより実現することも可能である。

0016

記憶部11は、原文31と、構文木20とを記憶する。
構文木20は、原文31の構文解析に基づく語句の係り受け構造を、該語句に対応するノードの接続関係で表現した情報である。語句は、例えば、文節である。

0017

構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。句とは、2つ以上の語が集まって1つの品詞と同様の働きをする語の集合を言う。文節は、日本語を意味の分かる単位で区切ったものであり、文を読む際に自然な発音によって区切られる最小の単位である。日本語の文における任意の1つの文節は、その文節に続く少なくとも1つの文節と係り受け関係を有する。このような係り受け関係を有する文節の構造を係り受け構造と呼ぶ。

0018

なお、構文解析を行う際に前提として形態素解析が行われる。通常、意味を持つ最小の文字列の単位を形態素と呼ぶ。また、文を単語毎に分割し、各単語に品詞情報などを付け加える作業を形態素解析と呼ぶ。形態素解析を行うシステムは、自然言語文法ルール辞書情報を用いて文を形態素に分割し、各単語に対して機械的に品詞情報などを付与する。例えば、図1(B1)に示した原文31を上記の解析方法で解析すると、図1(A)に示すような構文木20が得られる。

0019

図1(A)の例では、「昨年」、「八月末の」、「暑い」、「日」、「経済で」、「重い」、「存在だった」、「一人の」、「論客が」、「志」、「半ばで」、「世を」、「去った」が構文木20の要素となる語句である。以下、構文木20の要素をノードと呼ぶ。構文木20は、語句間の係り受け関係をノード間の接続関係(図1(A)ではノード間を接続する線)で表現している。以下、ノード間の接続関係をブランチと呼ぶ場合がある。

0020

木構造を有する構文木20の根(ルート)に位置するノードをルートノード、末端に位置するノードを末端ノードと呼ぶ場合がある。図1(A)の例では、「去った」に対応するノードがルートノードであり、「昨年」、「暑い」、「経済論壇で」、「重い」、「一人の」、「世を」、「志」がそれぞれ末端ノードである。つまり、ルートノードに対応する語句の後には係り受け関係を持つ語句が続かず、末端ノードに対応する語句の前には係り受け関係を持つ語句が存在しない。記憶部11には、このような構文木20に関する情報が格納されている。

0021

表示部13は、原文31と、原文31を要約した要約文32とを表示する。要約文32は、構文木20に基づいて原文31に含まれる一部の語句を省略したものである。例えば、要約文32は、ルートノードから末端ノードまでを一連のノードとブランチとで結ぶパスを任意に選択し、選択したパスにある各ノードに対応する語句を原文31上の語句と同じ順に並べることで得られる。図1(B1)は、「一人の」、「志」、「世を」に対応する末端ノードへ至るパスが選択された場合の要約文32を例示している。

0022

表示部13は、原文31と、要約文32とを共に表示する。そして、演算部12は、原文31、及び要約文32に対するユーザの指定操作を受け付ける。演算部12は、原文31に対する指定操作を受け付けた場合に、指定箇所にある語句に対応する第1のノードに接続された、構文木20の根へ向かう方向にある第2のノードを特定し、第1及び第2のノードに対応する語句を要約文32に追加する。

0023

図1(B1)の例では、原文31の「重い」が指定されている。この場合、演算部12は、「重い」に対応するノードを第1のノードとして特定し、第1のノードからルートノードへ向かう方向にあるノードを第2のノードとして特定する。なお、指定操作は、語句を選択して指定する操作であってもよいし、文字を指定する操作であってもよい。文字を指定する操作の場合、演算部12が、指定された文字を含む語句を特定し、特定した語句が指定されたものと判断する。

0024

この例において、演算部12は、第2のノードの候補として「存在だった」、「論客が」、「去った」を検出し、要約文32に既に含まれている「論客が」、「去った」を除く「存在だった」を第2のノードとして特定する。そして、演算部12は、第1及び第2のノードを追加範囲21に決定し、追加範囲21に対応する「重い」、「存在だった」を要約文32に追加する(図1(B2)下線部参照)。

0025

一方、要約文32に対する指定操作を受け付けた場合、演算部12は、指定箇所にある語句に対応する第3のノードに接続された、構文木20の末端へ向かう方向にある第4のノードを特定し、第3及び第4のノードに対応する語句を要約文32から削除する。

0026

図1(B2)の例では、要約文32の「半ばで」が指定されている。この場合、演算部12は、「半ばで」に対応するノードを第3のノードとして特定し、第3のノードから末端ノードへ向かう方向にあるノードを第4のノードとして特定する。

0027

この例において、演算部12は、第4のノードの候補として「志」を検出し、「志」が要約文32に既に含まれていることを確認して「志」を第4のノードとして特定する。そして、演算部12は、第3及び第4のノードを削除範囲22に決定し、削除範囲22に対応する「志」、「半ばで」を要約文32から削除する(図1(B3)参照)。

0028

第1実施形態によれば、文節や句などの語句を単位とする係り受け関係に基づいて指定箇所の語句が挿脱される。原文31の一部を指定した場合には、指定箇所にある語句と係り受け関係にある語句とが要約文32に挿入され、要約文32の一部を指定した場合には指定箇所にある語句と係り受け関係にある語句とが要約文32から削除される。

0029

同じパス上にあるノードであっても、異なるノードに対応する語句が選択されれば、その語句に対応するノードを起点に挿脱される語句が決まる。そのため、指定箇所を変えながら追加又は削除する語句を調整することで、指定操作の繰り返しにより所望の要約文32が得られうる。つまり、挿脱される語句が固定されている場合に比べ、指定操作による編集の自由度が向上し、より簡易な操作で要約文を所望の表現に近づけることができる。その結果、要約文の編集が容易になる。

0030

以上、第1実施形態について説明した。
<2.第2実施形態>
次に、第2実施形態について説明する。第2実施形態では、要約文の編集支援方法に関し、要約文に対する語句の追加・削除を簡単な操作で実現できるようにする方法を提案する。以下、この方法を実現可能な情報処理装置100について説明する。情報処理装置100は、第2実施形態に係る情報処理装置の一例である。

0031

[2−1.ハードウェア]
ここで、図2を参照しながら、情報処理装置100のハードウェアについて説明する。図2は、第2実施形態に係る情報処理装置の機能を実現可能なハードウェアの一例を示した図である。つまり、後述する情報処理装置100の機能は、図2に例示したハードウェア資源を用いて実現することが可能である。また、情報処理装置100の機能は、コンピュータプログラムを用いて図2に示すハードウェアを制御することにより実現される。

0032

なお、第2実施形態に係る技術は、図2に例示したハードウェアを有する1台の情報処理装置を利用して実現することも可能であるが、複数台の情報処理装置やストレージ装置などをネットワークで接続したシステムによっても実現することが可能である。このような変形も当然に第2実施形態の技術的範囲に属する。

0033

図2に示すように、このハードウェアは、主に、CPU902と、ROM(Read Only Memory)904と、RAM906と、ホストバス908と、ブリッジ910とを有する。さらに、このハードウェアは、外部バス912と、インターフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926とを有する。

0034

CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータなどを格納する記憶装置の一例である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に変化する各種パラメータなどが一時的又は永続的に格納される。

0035

これらの要素は、例えば、高速データ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウスキーボードタッチパネルタッチパッド、ボタン、スイッチ、及びレバーなどが用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。

0036

出力部918としては、例えば、CRT、LCD、PDP、又はELDなどのディスプレイ装置が用いられる。また、出力部918として、スピーカヘッドホンなどのオーディオ出力装置、又はプリンタなどが用いられることもある。つまり、出力部918は、情報を視覚的又は聴覚的に出力することが可能な装置である。

0037

記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、HDDなどの磁気記憶デバイスが用いられる。また、記憶部920として、SSD(Solid State Drive)やRAMディスクなどの半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイスなどが用いられてもよい。

0038

ドライブ922は、着脱可能な記録媒体であるリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928としては、例えば、磁気ディスク光ディスク光磁気ディスク、又は半導体メモリなどが用いられる。

0039

接続ポート924は、例えば、USB(Universal Serial Bus)ポートIEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子など、外部接続機器930を接続するためのポートである。外部接続機器930としては、例えば、プリンタなどが用いられる。

0040

通信部926は、ネットワーク932に接続するための通信デバイスである。通信部926としては、例えば、有線又は無線LAN(Local Area Network)用の通信回路WUSB(Wireless USB)用の通信回路、光通信用の通信回路やルータ、ADSL(Asymmetric Digital Subscriber Line)用の通信回路やルータ、携帯電話ネットワーク用の通信回路などが用いられる。通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークであり、例えば、インターネット、LAN、放送網衛星通信回線などを含む。

0041

以上、情報処理装置100のハードウェアについて説明した。
[2−2.機能]
次に、図3を参照しながら、情報処理装置100の機能について説明する。図3は、第2実施形態に係る情報処理装置が有する機能の一例を示したブロック図である。

0042

図3に示すように、情報処理装置100は、記憶部101、原文入力部102、形態素解析部103、構文解析部104、要約文生成部105、文出力部106、指定受領部107、及び範囲制御部108を有する。

0043

なお、記憶部101の機能は、上述したRAM906や記憶部920などを用いて実現できる。原文入力部102、指定受領部107の機能は、上述した入力部916などの機能を用いて実現できる。形態素解析部103、構文解析部104、要約文生成部105、及び範囲制御部108の機能は、上述したCPU902などを用いて実現できる。文出力部106の機能は、上述した出力部918などを用いて実現できる。

0044

(2−2−1.構文木、要約文、対応データの生成)
記憶部101には、原文テキスト101a、及び解析結果101bなどの情報が格納される。原文テキスト101aは、要約文の元となる原文のテキストデータである。

0045

例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。また、原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、原文テキストを取得して記憶部101に格納する。

0046

形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。図4は、第2実施形態に係る形態素解析結果の一例を示した図である。原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、形態素解析部103は、図4に例示した形態素解析結果を出力する。

0047

構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。なお、本稿では、構文解析の単位となる句や文節を単に「語句」と呼ぶことにする。構文解析部104は、構文解析で得た語句毎に、語句の表記係り先、係り受け種類などの情報(図5を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。図5は、第2実施形態に係る構文解析(係り受け解析)結果の一例を示した図である。

0048

図5に示すように、各語句にはノード番号割り当てられ、ノード番号をもとに各語句を特定することができる。語句間の係り受け関係は、係り先の欄に記載されたノード番号により表現される。例えば、ノード番号1の語句「昨年」は、ノード番号2の語句「八月末の」を係り先とする係り受け関係を有する。各語句に関する係り受け関係を表す木構造の表現を構文木と呼ぶが、図5に対応する構文木は図6のようになる。

0049

図6は、第2実施形態に係る構文木及び要約文テキストの一例を示した図である。図6に例示した構文木の各ブロックはノードを表す。また、ブロック間を結ぶ線はブランチであり、各ブランチがノード間の接続関係(つまり、係り受け関係)を表す。図6の例において、構文木のルートノードは、語句「去った」に対応するノードである。また、末端ノードは、語句「昨年」、「暑い」、「経済論壇で」、「重い」、「一人の」、「世を」、「志」にそれぞれ対応するノードである。

0050

さらに、構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。図7は、第2実施形態に係る原文と構文解析結果の対応データの一例を示した図である。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字に割り当てられた番号(以下、原文文字番号)と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成し、該対応データを記憶部101に格納する。

0051

要約文生成部105は、ルートノードから、設定されたノードまでを結ぶ一連のノードをもとに要約文テキストを生成する。図6の例では、ルートノードから、語句「一人の」、「世を」、「志」に対応するノードまでを結ぶ一連のノードをもとに生成された要約文「一人の論客が志半ばで世を去った。」が示されている。このように、要約文生成部105は、設定されたノードへ至るパス上のノードに対応する語句を特定し、特定した語句を原文テキスト101a上での語句の順に並べて要約文テキストを生成する。構文解析結果から要約文テキストを自動的に生成する処理では、要約に含めるノードあるいは要約において削除するノードを設定する方法として、単語重要度、単語Nグラム、係り受けの種類などを利用する様々な方式が既知であるが、本発明ではいずれかの方式に特定しない。また、全てのノードを要約文に含め、原文テキストと同一の要約文テキストを生成してもよいし、全てのノードを削除し、文字数0の文字列を要約文テキストとしてもよい。

0052

要約文生成部105は、構文解析結果に含まれる語句のうち、要約文テキストに含めなかった語句の削除フラグをONにする(図5を参照)。削除フラグは、構文解析結果に含まれる語句にそれぞれ対応付けて管理され、要約文の編集処理に利用される。要約文生成部105は、要約文テキストを文出力部106に入力する。

0053

さらに、要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。図8は、第2実施形態に係る要約文と構文解析結果の対応データの一例を示した図である。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字に割り当てられた番号(以下、要約文文字番号)と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成し、該対応データを記憶部101に格納する。

0054

文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105から入力された要約文テキストと共に原文テキスト101aを表示する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。

0055

(2−2−2.要約文の編集)
指定受領部107は、文出力部106が表示した原文テキスト101a又は要約文テキストに対する指定操作を受け付ける。指定操作は、原文テキスト101a又は要約文テキストに含まれる文字又は語句を指定する操作である(図9(A)、図10(A)を参照)。図9は、第2実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。図10は、第2実施形態に係る語句の削除についての指定操作及び処理の一例を示した図である。ここでは文字を指定する指定操作を受け付けた場合について説明する。

0056

指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定された文字に対応するノードを特定する。他方、要約文テキストの文字に対する指定操作を受け付けると、指定受領部107は、要約文と構文解析結果の対応データ(図8を参照)を参照し、指定された文字に対応するノードを特定する。指定受領部107は、特定したノードの情報を範囲制御部108に入力する。このとき、指定受領部107は、指定操作の対象が原文テキスト101aであるか、要約文テキストであるかを範囲制御部108に通知する。

0057

指定操作の対象が原文テキスト101aである場合、範囲制御部108は、図9(B)に示すように、構文解析結果をもとに要約文テキストに追加する語句の範囲(以下、追加範囲)を決定する。このとき、範囲制御部108は、指定された文字に対応するノードからルートノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノード以外のノードを追加範囲に含める。

0058

図9(B)の例では、語句「重い」に対応するノードから、語句「去った」に対応するルートノードに至るパス上のノードのうち、語句「論客が」が要約文テキストに含まれているため、追加範囲は、語句「重い」、「存在だった」に対応するノードとなる。この場合、図9(C)に示すように、語句「重い存在だった」(下線部)が要約文テキストに追加される。

0059

一方、指定操作の対象が要約文テキストである場合、範囲制御部108は、図10(B)に示すように、構文解析結果をもとに要約文テキストから削除する語句の範囲(以下、削除範囲)を決定する。このとき、範囲制御部108は、指定された文字に対応するノードから末端ノードに至るパス上のノードを抽出し、抽出したノードのうち要約文テキストに既に含まれている語句に対応するノードを削除範囲に含める。

0060

図10(B)の例では、語句「半ばで」に対応するノードから、語句「志」に対応する末端ノードに至るパス上のノードのうち、語句「半ばで」、「志」が要約文テキストに含まれているため、削除範囲は、語句「半ばで」、「志」に対応するノードとなる。この場合、図10(C)に示すように、語句「志半ばで」が要約文テキストから削除される。

0061

上述した追加範囲の追加処理及び削除範囲の削除処理は、要約文生成部105が実行する。範囲制御部108が決定した追加範囲又は削除範囲の情報が要約文生成部105に入力され、この情報をもとに要約文生成部105が要約文テキストを編集し、編集後の要約文テキストが文出力部106により表示される。このようにして図9(C)又は図10(C)に示すような編集後の要約文テキストが表示される。

0062

以上説明したように、情報処理装置100によれば、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。

0063

以上、情報処理装置100の機能について説明した。
[2−3.処理フロー
次に、図11及び図12を参照しながら、情報処理装置100が実行する処理の流れについて説明する。図11は、第2実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。図12は、第2実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。

0064

(S101)原文入力部102は、原文テキスト101aを取得して記憶部101に格納する。例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、そこから原文テキストを取得して記憶部101に格納する。

0065

(S102)形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。例えば、原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、図4のような形態素解析結果が得られる。

0066

(S103)構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図5を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。

0067

(S104)構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字の原文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。

0068

(S105)構文解析部104は、構文解析結果(図5を参照)に含まれる各語句に対応付けた削除フラグを全てOFFにする(初期化)。削除フラグは、要約文テキストに含まれる語句についてOFF、要約文テキストに含まれない語句についてONとされる。

0069

(S106)要約文生成部105は、要約文生成時に削除するノードに対応する削除フラグをONに設定する。例えば、要約文生成部105は、ルートノードから、要約文生成のために設定されたノードへ至るパス上のノードに対応する語句を特定し、特定したノード以外のノードに対応する削除フラグをONに設定する。

0070

(S107)要約文生成部105は、削除フラグがOFFのノードに対応する語句を原文テキスト101a上の出現順に連結して要約文テキストを生成する。
(S108)要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字の要約文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。

0071

(S109)文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105が生成した要約文テキストと共に原文テキスト101aを出力する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。

0072

(S110)指定受領部107は、文出力部106が出力した要約文テキストで確定されたか否かを判定する。例えば、指定受領部107は、要約文テキストの編集終了操作が行われたか否かを判定する。要約文テキストが確定された場合、図11及び図12に示した一連の処理は終了する。一方、要約文テキストが確定されていない場合、処理はS111へと進む。

0073

(S111)指定受領部107は、原文テキスト101aの文字が指定されたか否かを判定する。原文テキスト101aの文字が指定された場合、処理はS112へと進む。一方、原文テキスト101aの文字が指定されていない場合、処理はS114へと進む。

0074

(S112)指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定された文字(指定文字)に対応するノードを特定する。

0075

(S113)範囲制御部108は、構文解析結果をもとに、指定受領部107が特定したノードからルートノードまでの各ノードに対応する削除フラグをOFFにする。つまり、範囲制御部108は、図9(B)に示すように、構文解析結果をもとに、指定文字に対応するノードからルートノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノード以外のノードを追加範囲に含める。S113の処理が完了すると、処理はS107へと進む。

0076

(S114)指定受領部107は、要約文テキストの文字が指定されたか否かを判定する。要約文テキストの文字が指定された場合、処理はS115へと進む。一方、要約文テキストの文字が指定されていない場合、処理はS110へと進む。

0077

(S115)指定受領部107は、要約文テキストの文字に対する指定操作を受け付けると、要約文と構文解析結果の対応データ(図8を参照)を参照し、指定文字に対応するノードを特定する。

0078

(S116)範囲制御部108は、構文解析結果をもとに、指定受領部107が特定したノードから末端ノードまでの各ノードに対応する削除フラグをONにする。つまり、範囲制御部108は、図10(B)に示すように、構文解析結果をもとに、指定文字に対応するノードから末端ノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノードを削除範囲に含める。S116の処理が完了すると、処理はS107へと進む。

0079

以上、情報処理装置100が実行する処理の流れについて説明した。
上記の処理方法によれば、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。

0080

以上、第2実施形態について説明した。
<3.第3実施形態>
次に、第3実施形態について説明する。但し、上述した第2実施形態の説明と重複する部分については詳細な説明を省略する。

0081

[3−1.機能]
第3実施形態に係る情報処理装置100は、同じテキストの中で複数の語句が共起する可能性の高さを示す共起確率を考慮して追加範囲及び削除範囲を決定する。この情報処理装置100は、ノードの共起確率に関する情報を示す共起確率テーブルを記憶部101に格納している点、及び範囲制御部108が共起確率を利用する点が上述した第2実施形態と異なる。以下、これらの相違点を中心に説明する。

0082

(3−1−1.共起確率)
図13を参照しながら、共起確率テーブルについて説明する。図13は、第3実施形態に係る共起確率テーブルの一例を示した図である。図13に示すように、共起確率テーブルは、係り元ノードが含む内容語と、係り先ノードが含む内容語との組み合わせ毎に共起確率を対応付けるテーブルである。共起確率テーブルは予め記憶部101に格納される。なお、内容語とは、名詞動詞形容詞など、文法的な機能をほとんど有せず、主として語彙的意味を表す語を言う。

0083

共起確率は、下記の式(1)をもとにテキストコーパスを利用して計算される。下記の式(1)において、A→Bは、ノードAがノードBに係ることを意味する。つまり、ノードAが係り元ノードであり、ノードBが係り先ノードである。P(A→B)は、A→Bの係り受け関係を有するノードA、Bの共起確率を表す。MA、MBは、それぞれノードA、Bに含まれる内容語を表す。*は、任意の内容語を表す。N(MA→MB)、N(MA→*)、N(*→MB)は、それぞれテキストコーパスにおけるMA→MB、MA→*、*→MBの出現数を表す。

0084

0085

(3−1−2.要約文の編集)
次に、図14及び図15を参照しながら、共起確率テーブルを利用した要約文の編集処理について説明する。図14は、第3実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。図15は、第3実施形態に係る語句の削除についての指定操作及び処理の一例を示した図である。

0086

指定操作の対象が原文テキスト101aである場合(図14(A)を参照)、範囲制御部108は、図14(B)に示すように、構文解析結果をもとに追加範囲を決定する。このとき、範囲制御部108は、指定文字に対応するノードを起点とし、起点からルートノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノード以外のノードを追加範囲に含める。

0087

また、範囲制御部108は、共起確率テーブルを参照し、起点から末端ノードへ向かう方向に連結するノードのうち共起確率が予め設定した閾値以上であるノードを抽出する。さらに、範囲制御部108は、抽出したノードを新たな起点とし、起点から末端ノードへ向かう方向に連結するノードのうち共起確率が予め設定した閾値以上であるノードを抽出する。そして、範囲制御部108は、この抽出処理を繰り返し、抽出したノードを追加範囲に加える。上記の閾値は、テキストコーパスから得られた共起確率の分布などをもとに統計的に妥当な値を求めてもよいし、ユーザが任意に設定してもよい。

0088

図14(B)の例では、指定文字に対応する語句「存在だった」に対応するノードから、語句「去った」に対応するルートノードに至るパス上のノードのうち、語句「論客が」が要約文テキストに含まれているため、語句「存在だった」に対応するノードが追加範囲に含められる。

0089

また、語句「存在だった」に対応するノードから末端ノードへ向かうノードとして、語句「経済論壇で」、「重い」に対応する2つのノードがある。この例では、語句「経済論壇で」と「存在だった」に対応するノード間の共起確率が閾値未満のため、このノードは追加範囲に含められない。一方、この例では、語句「重い」、「存在だった」に対応するノード間の共起確率が閾値以上のため、このノードは追加範囲に含められる。その結果、図14(C)に示すように、語句「重い存在だった」(下線部)が要約文テキストに追加される。

0090

一方、指定操作の対象が要約文テキストである場合、範囲制御部108は、図15(B)に示すように、構文解析結果をもとに削除範囲を決定する。このとき、範囲制御部108は、指定文字に対応するノードを起点とし、起点から末端ノードに至るパス上のノードを抽出し、要約文テキストに既に含まれている語句に対応するノードを削除範囲に含める。
また、範囲制御部108は、指定文字に対応するノードからルートノードに至るパス上のノードを抽出し、抽出したノードのうち要約文テキストに既に含まれている語句に対応するノードを候補とする。そして、範囲制御部108は、指定文字に対応するノードと候補との共起確率が閾値以上の場合に、その候補を削除範囲に含める。

0091

図15(B)の例では、指定文字列に対応する語句「志」に対応するノードは、それ自身が末端ノードであるため、さらに末端方向に削除範囲を抽出することはしない。一方、語句「志」に対応するノードから、語句「去った」に対応するルートノードに至るパス上のノードのうち、語句「半ばで」、「去った」が要約文テキストに含まれている。この例では、語句「志」と「半ばで」に対応するノードの共起確率が閾値以上であるため、削除範囲は、語句「志」、「半ばで」に対応するノードとなる。その結果、図15(C)に示すように、語句「志半ばで」が要約文テキストから削除される。なお、追加時に用いる閾値と削除時に用いる閾値とは、例えば、同じ値に設定される。

0092

以上説明したように、第3実施形態においても、第2実施形態の場合と同様に、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。

0093

追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、さらに、末端ノード方向に共起確率の高い一連のノードに対応する語句が追加範囲とされる。削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされ、さらに、ルートノード方向に共起確率の高い一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。さらに、共起確率を考慮するため、一度の操作で追加又は削除される可能性が特に高い語句の集合が1回の指定操作で処理され、更なる編集作業の負担軽減に寄与する。

0094

[3−2.処理フロー]
次に、図16図18を参照しながら、情報処理装置100が実行する処理の流れについて説明する。図16は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。図17は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。図18は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第3のフロー図である。

0095

(S201)原文入力部102は、原文テキスト101aを取得して記憶部101に格納する。例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、そこから原文テキストを取得して記憶部101に格納する。

0096

(S202)形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。例えば、原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、図4のような形態素解析結果が得られる。

0097

(S203)構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図5を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。

0098

(S204)構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字の原文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。

0099

(S205)構文解析部104は、構文解析結果(図5を参照)に含まれる各語句に対応付けた削除フラグを全てOFFにする(初期化)。削除フラグは、要約文テキストに含まれる語句についてOFF、要約文テキストに含まれない語句についてONとされる。

0100

(S206)要約文生成部105は、要約文生成時に削除するノードに対応する削除フラグをONに設定する。例えば、要約文生成部105は、ルートノードから、要約文生成のために設定されたノードへ至るパス上のノードに対応する語句を特定し、特定したノード以外のノードに対応する削除フラグをONに設定する。

0101

(S207)要約文生成部105は、削除フラグがOFFのノードに対応する語句を原文テキスト101a上の出現順に連結して要約文テキストを生成する。
(S208)要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字の要約文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。

0102

(S209)文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105が生成した要約文テキストと共に原文テキスト101aを出力する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。

0103

(S210)指定受領部107は、文出力部106が出力した要約文テキストで確定されたか否かを判定する。例えば、指定受領部107は、要約文テキストの編集終了操作が行われたか否かを判定する。要約文テキストが確定された場合、図16及び図17に示した一連の処理は終了する。一方、要約文テキストが確定されていない場合、処理はS211へと進む。

0104

(S211)指定受領部107は、原文テキスト101aの文字が指定されたか否かを判定する。原文テキスト101aの文字が指定された場合、処理はS212へと進む。一方、原文テキスト101aの文字が指定されていない場合、処理はS217へと進む。

0105

(S212)指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定文字に対応するノードを特定する。そして、指定受領部107は、特定したノードを検討対象ノードに設定する。

0106

(S213)範囲制御部108は、サブルーチンS(図19を参照)の処理を実行する。サブルーチンS[…]は、「…」を引数とする処理単位である。S213の処理において、範囲制御部108は、S212で設定した検討対象ノードを引数に指定してサブルーチンSの処理を実行する。なお、サブルーチンSの処理については後述する。サブルーチンSの処理において追加起点ノードが設定されるが、これについても後述する。

0107

(S214、S215、S216)S213の処理で設定された全ての追加起点ノードを対象に、各追加起点ノードについてS215の処理が実行される。S215の処理において、範囲制御部108は、構文解析結果をもとに、追加起点ノードからルートノードまでの各ノードに対応する削除フラグをOFFに設定する。全ての追加起点ノードについてS215の処理が完了した場合、処理はS207へと進む。

0108

(S217)指定受領部107は、要約文テキストの文字が指定されたか否かを判定する。要約文テキストの文字が指定された場合、処理はS218へと進む。一方、要約文テキストの文字が指定されていない場合、処理はS210へと進む。

0109

(S218)指定受領部107は、要約文テキストの文字に対する指定操作を受け付けると、要約文と構文解析結果の対応データ(図8を参照)を参照し、指定文字に対応するノードを特定する。そして、指定受領部107は、特定したノードを削除起点ノードに設定する。

0110

(S219)範囲制御部108は、削除起点ノードがルートノードであるか否かを判定する。削除起点ノードがルートノードである場合、処理はS224へと進む。一方、削除起点ノードがルートノードでない場合、処理はS220へと進む。

0111

(S220)範囲制御部108は、共起確率テーブルから、削除起点ノードからルートノードへ向かう方向へ連結するノード(連結ノード)の共起確率を取得する。
(S221)範囲制御部108は、S220で取得した共起確率が予め設定された閾値以上であるか否かを判定する。共起確率が閾値以上である場合、処理はS222へと進む。一方、共起確率が閾値未満である場合、処理はS224へと進む。

0112

(S222)範囲制御部108は、連結ノードが、末端ノードへ向かう方向に連結する削除フラグがOFFの他のノードを持つか否かを判定する。連結ノードが該他のノードを持つ場合、処理はS224へと進む。一方、連結ノードが該他のノードを持たない場合、処理はS223へと進む。

0113

(S223)範囲制御部108は、連結ノードを削除起点ノードに設定する。S223の処理が完了すると、処理はS219へと進む。
(S224)範囲制御部108は、削除起点ノードから末端ノードまでの各ノードに対応する削除フラグをONに設定する。S224の処理が完了すると、処理はS207へと進む。

0114

(サブルーチンS)
ここで、図19を参照しながら、サブルーチンSの処理について説明する。図19は、第3実施形態に係る情報処理装置の動作についての処理の流れを示した第4のフロー図である。なお、サブルーチンSの引数として指定されたノードを「入力ノード」とする。

0115

(S251)範囲制御部108は、入力ノードから末端ノードへ向かう方向に連結するノード(連結ノード)があるか否かを判定する。連結ノードがある場合、処理はS252へと進む。一方、連結ノードがない場合、図19に示した一連の処理は終了する。

0116

(S252、S256)範囲制御部108は、入力ノードから末端ノードへ向かう方向に連結する連結ノードの全てを対象に、各連結ノードについてS252からS256までの処理を実行する。つまり、範囲制御部108は、処理対象の連結ノードを変えながらS253からS255までの処理を繰り返し実行する。全ての連結ノードについて処理が完了すると、処理はS257へと進む。

0117

(S253、S254)範囲制御部108は、共起確率テーブルから、入力ノードと連結ノードとの共起確率を取得し、共起確率が予め設定された閾値以上であるか否かを判定する。共起確率が閾値以上である場合、処理はS255へと進む。一方、共起確率が閾値未満である場合、処理はS256へと進む。

0118

(S255)範囲制御部108は、連結ノードを引数としてサブルーチンSの処理を実行する。つまり、範囲制御部108は、現在処理対象の連結ノードを入力ノードとして図19に示した一連の処理を実行する。

0119

(S257)範囲制御部108は、全ての連結ノードについて共起確率が閾値より低かったか否かを判定する。つまり、範囲制御部108は、全ての連結ノードについてS255の処理が実行されなかったか否かを判定する。全ての連結ノードについて共起確率が閾値より低かった場合、処理はS258へと進む。一方、共起確率が閾値より高くなる連結ノードがあった場合、図19に示した一連の処理は終了する。

0120

(S258)範囲制御部108は、入力ノードを追加起点ノードに設定する。S258の処理が完了すると、図19に示した一連の処理は終了する。
以上、情報処理装置100が実行する処理の流れについて説明した。

0121

上記の処理方法によれば、原文テキスト101a又は要約文テキストに対する指定操作を行うことで、容易に要約文テキストの編集ができるようになる。
追加時には、構文木のルートノード方向へ連結された一連のノードに対応する語句が追加範囲とされ、さらに、末端ノード方向に共起確率の高い一連のノードに対応する語句が追加範囲とされる。削除時には、末端ノード方向へ連結された一連のノードに対応する語句が削除範囲とされ、さらに、ルートノード方向に共起確率の高い一連のノードに対応する語句が削除範囲とされる。そのため、一度に追加又は削除される可能性の高い語句の集合が1回の指定操作で纏めて処理されるため、要約文テキストの編集が更に容易になり、編集作業の負担軽減に寄与する。さらに、共起確率を考慮するため、一度の操作で追加又は削除される可能性が特に高い語句の集合が1回の指定操作で処理され、更なる編集作業の負担軽減に寄与する。

0122

以上、第3実施形態について説明した。
<4.第4実施形態>
次に、第4実施形態について説明する。但し、上述した第2又は第3実施形態の説明と重複する部分については詳細な説明を省略する。なお、第4実施形態の技術は、第2又は第3実施形態と組み合わせて利用されうる。

0123

[4−1.機能]
第4実施形態に係る情報処理装置100は、要約文テキストに語句を追加する際、指定文字に対応するノードからルートノードに至るパス上のノードのうち、特定の条件を満たすノードを選択して追加する。つまり、この情報処理装置100は、構文木上で離れた位置にあるノードの接続関係をショートカットする。

0124

以下、上記のショートカットについて、図20及び図21を参照しながら説明する。図20は、第4実施形態に係る構文解析(係り受け解析)結果の一例を示した図である。図21は、第4実施形態に係る語句の追加についての指定操作及び処理の一例を示した図である。

0125

上記のショートカットには、図20に示すように、構文解析結果に追加したショートカットの情報が利用される。図20の例では、ノード番号「1」のノードが、ノード番号「13」のノードにショートカットされる。例えば、ノード番号「1」に対応する語句「昨年」が指定されると(図21(A)を参照)、ルートノードに至るパス上のノードのうちノード番号「13」のノード(語句「去った」に対応)までのノードがスキップされ、追加対象から除外される。そのため、図21(C)に示すように「昨年」だけが要約文テキストに追加される。

0126

ショートカット先は、下記の式(2)をもとに決定される。D(i,j)は、ノードi,jの距離を表す。P(i,j)は、ノードi,jの共起確率を表す。ノードiに対するノードjのスコアScjをD(i,j)×P(i,j)と定義する。ノード間の距離は、ノード間にあるブランチの数や、ノード間にある他のノードの数に1を加えた数などで評価できる。共起確率は上述した共起確率テーブルにより与えられる。Nodes(i)は、ノードiからルートノードへ至るパス上のノードのうちスコアが最大となるノードのノード番号を表す。Lは、ノードiからルートノードに至るパス上のノード数である。

0127

0128

図21の例では、語句「昨年」が指定され、ルートノードに至るパス上の各ノードに対し、スコアSc1、Sc2、Sc3が参照されている。この例では、Sc1>Sc2、Sc3であるとき、Sc1に対応する語句「去った」のノードがショートカット先になる。そのため、範囲制御部108は、語句「八月末の」、「日」を追加対象から除外し、要約文テキストに含まれていない語句「昨年」を追加範囲に含める。その結果、図21(C)に示す要約文テキストが得られる。

0129

このように、第4実施形態に係る情報処理装置100の機能によれば、ノード間の距離及び共起確率をもとに追加対象が絞り込まれる。指定文字に対応するノードがルートノードから遠ければ、要約文テキストに追加される語句が多くなり、不要な語句が追加されるリスクが高まるが、上記機能を適用することで、このようなリスクが軽減される。また、共起確率が考慮されるため、必要な語句が残り、不要な語句が除外される可能性が高まり、適切な語句の集合が追加される可能性を高めることができる。その結果、要約文テキストの編集が更に容易になり、編集作業の更なる負担軽減に寄与する。

0130

[4−2.処理フロー]
次に、図22図24を参照しながら、情報処理装置100が実行する処理の流れについて説明する。図22は、第4実施形態に係る情報処理装置の動作についての処理の流れを示した第1のフロー図である。図23は、第4実施形態に係る情報処理装置の動作についての処理の流れを示した第2のフロー図である。図24は、第4実施形態に係る情報処理装置の動作についての処理の流れを示した第3のフロー図である。

0131

(S301)原文入力部102は、原文テキスト101aを取得して記憶部101に格納する。例えば、原文入力部102は、入力部916を利用してユーザが入力した原文テキスト101aを記憶部101に格納する。原文テキスト101aが情報処理装置100に外部接続されたストレージ装置やネットワーク上のストレージ領域にある場合、原文入力部102は、そこから原文テキストを取得して記憶部101に格納する。

0132

(S302)形態素解析部103は、原文テキスト101aに対する形態素解析を実施し、原文テキスト101aから抽出した各形態素に品詞などを付加した情報(図4を参照)を解析結果101bの一部として記憶部101に格納する。例えば、原文テキスト101aが「昨年八月末の暑い日、経済論壇で重い存在だった一人の論客が志半ばで世を去った。」という文である場合、図4のような形態素解析結果が得られる。

0133

(S303)構文解析部104は、形態素解析部103が出力した形態素解析結果をもとに原文テキスト101aの構文解析(係り受け解析)を実施する。構文解析は、文法規則に則り、句や文節を単位として文の構造を解析する方法である。構文解析部104は、構文解析で得た語句毎に、語句の表記、係り先、係り受け種類などの情報(図20を参照)を対応付けて解析結果101bの一部として記憶部101に格納する。

0134

(S304)構文解析部104は、原文テキスト101aに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図7を参照)を生成する。例えば、図7に示すように、構文解析部104は、原文テキスト101aに含まれる各文字の原文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。

0135

(S305)構文解析部104は、構文解析結果(図20を参照)に含まれる各語句に対応付けた削除フラグを全てOFFにする(初期化)。削除フラグは、要約文テキストに含まれる語句についてOFF、要約文テキストに含まれない語句についてONとされる。

0136

(S306)要約文生成部105は、要約文生成時に削除するノードに対応する削除フラグをONに設定する。例えば、要約文生成部105は、ルートノードから、要約文生成のために設定されたノードへ至るパス上のノードに対応する語句を特定し、特定したノード以外のノードに対応する削除フラグをONに設定する。

0137

(S307)要約文生成部105は、削除フラグがOFFのノードに対応する語句を原文テキスト101a上の出現順に連結して要約文テキストを生成する。
(S308)要約文生成部105は、要約文テキストに含まれる文字のそれぞれと、その文字を含む語句に対応するノードとを対応付ける対応データ(図8を参照)を生成する。例えば、図8に示すように、要約文生成部105は、要約文テキストに含まれる各文字の要約文文字番号と、文字の表記と、その文字に対応するノードのノード番号とを対応付けた対応データを解析結果101bの一部として生成する。

0138

(S309)文出力部106は、記憶部101から原文テキスト101aを取得し、要約文生成部105が生成した要約文テキストと共に原文テキスト101aを出力する。このとき、文出力部106は、原文テキスト101a上の文字、及び要約文テキスト上の文字をユーザが指定できる形式で原文テキスト101a及び要約文テキストを表示する。

0139

(S310)指定受領部107は、文出力部106が出力した要約文テキストで確定されたか否かを判定する。例えば、指定受領部107は、要約文テキストの編集終了操作が行われたか否かを判定する。要約文テキストが確定された場合、図22図24に示した一連の処理は終了する。一方、要約文テキストが確定されていない場合、処理はS311へと進む。

0140

(S311)指定受領部107は、原文テキスト101aの文字が指定されたか否かを判定する。原文テキスト101aの文字が指定された場合、処理はS312へと進む。一方、原文テキスト101aの文字が指定されていない場合、処理はS320へと進む。

0141

(S312)指定受領部107は、原文テキスト101aの文字に対する指定操作を受け付けると、原文と構文解析結果の対応データ(図7を参照)を参照し、指定文字に対応するノードを特定する。そして、指定受領部107は、特定したノードを追加起点ノードに設定する。

0142

(S313)範囲制御部108は、追加起点ノードのルートノード側に隣接するノードを近道判定ノードに設定する。S313の処理が完了すると、処理はS314へと進む。
(S314)範囲制御部108は、共起確率テーブルから、追加起点ノードと近道判定ノードとの共起確率を取得する。

0143

(S315)範囲制御部108は、追加起点ノードと近道判定ノードの距離、及びS314で取得した共起確率に基づくスコアを計算する。例えば、追加起点ノードをノードi、近道判定ノードをノードjとし、ノードi,jの距離をD(i,j)、共起確率をP(i,j)とすると、スコアScjはD(i,j)×P(i,j)で与えられる。なお、上記距離は構文木上の距離である。

0144

(S316)範囲制御部108は、近道判定ノードの削除フラグがONであるか否かを判定する。近道判定ノードの削除フラグがONである場合、処理はS317へと進む。一方、近道判定ノードの削除フラグがOFFである場合、処理はS318へと進む。

0145

(S317)範囲制御部108は、現在の近道判定ノードのルートノード側に隣接するノードを新たな近道判定ノードに設定する。S317の処理が完了すると、処理はS314へと進む。

0146

(S318)範囲制御部108は、追加起点ノードから、最大スコアのノードへのショートカットを設定する。
(S319)範囲制御部108は、ショートカットする区間に含まれるノードの削除フラグは維持したまま、追加起点ノードからルートノードまでの各ノードに対応する削除フラグをOFFに設定する。S319の処理が完了すると、処理はS307へと進む。

0147

(S320)指定受領部107は、要約文テキストの文字が指定されたか否かを判定する。要約文テキストの文字が指定された場合、処理は第2又は第3実施形態と同じ処理が実行される。一方、要約文テキストの文字が指定されていない場合、処理はS310へと進む。

0148

第2実施形態と同じ処理が実行される場合、図12のS115以降の処理が実行され、S116の処理が完了すると、処理はS307へと進む。一方、第3実施形態と同じ処理が実行される場合、図18のS218以降の処理が実行され、S224の処理が完了すると、処理はS307へと進む。このように、第4実施形態の技術は、第2又は第3実施形態の技術と組み合わせることができる。

0149

以上、情報処理装置100が実行する処理の流れについて説明した。
上記の処理方法によれば、ノード間の距離及び共起確率をもとに追加対象が絞り込まれる。指定文字に対応するノードがルートノードから遠ければ、要約文テキストに追加される語句が多くなり、不要な語句が追加されるリスクが高まるが、上記処理方法を適用することで、このようなリスクが軽減される。また、共起確率が考慮されるため、必要な語句が残り、不要な語句が除外される可能性が高まり、適切な語句の集合が追加される可能性を高めることができる。その結果、要約文テキストの編集が更に容易になり、編集作業の更なる負担軽減に寄与する。

0150

以上、第4実施形態について説明した。

0151

10情報処理装置
11 記憶部
12演算部
13 表示部
20構文木
21追加範囲
22削除範囲
31原文
32 要約文

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社ソケッツの「 検索装置および方法」が 公開されました。( 2019/09/19)

    【課題】同一の感性ワードで加重的に絞り込み検索を行えるようにする。【解決手段】同一の感性ワードで加重的に絞り込み検索を行う場合、類似・関連ワード抽出部319が、感性ワードに類似・関連する別のワードを検... 詳細

  • ヤフー株式会社の「 情報処理装置、情報処理方法、及び情報処理プログラム」が 公開されました。( 2019/09/12)

    【課題】ユーザの移動の妨害に応じた適切な対応を可能にする。【解決手段】本願に係る情報処理装置は、取得部と、決定部とを有する。取得部は、ユーザの位置情報と、ユーザが位置するエリアにおいて発生する事象のう... 詳細

  • ヤフー株式会社の「 情報処理装置、情報処理方法、及び情報処理プログラム」が 公開されました。( 2019/09/12)

    【課題】類似のコンテンツを適切に抽出する。【解決手段】本願に係る情報処理装置は、取得部と、検索部とを有する。取得部は、複数のコンテンツの各々に対応する複数のノードが、複数のコンテンツの類似性に応じて連... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ