図面 (/)

技術 情報処理装置、タイトル抽出方法及びプログラム

出願人 日本製鉄株式会社
発明者 加藤健太
出願日 2012年10月4日 (6年9ヶ月経過) 出願番号 2012-222186
公開日 2014年4月24日 (5年3ヶ月経過) 公開番号 2014-075032
状態 特許登録済
技術分野 検索装置 機械翻訳
主要キーワード テキスト候補 選定基準 テキストパターン センテンス単位 CDメディア タイトル抽出 情報処理量 タイトル候補
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年4月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出する。

解決手段

文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置が提供される。

概要

背景

近年、各種の文書電子データの形式で保存することが一般的になっている。例えば、電子データ化された文書(文書データ)を保存してデータベース(DB)を作成することにより、文書の管理、閲覧検索等を容易に行うことができる。

一方、文書を電子データの形式で保存することが一般的になるにつれて、DBに蓄えられる文書データの量は爆発的に増加している。従って、DB内の膨大な量の文書データの中から、所望の文書データを検索することが困難になりつつある。例えば、ある単語を検索ワードとしてDB内の文書データを検索したとしても、検索結果として大量の文書名が表示されてしまうと、適切な文書を探し出せない可能性があった。

このような状況を鑑みて、例えば装置マニュアル論文のような階層構造を有する文書においては、文書の階層構造(文書内の章立て)を表すタイトルと、当該文書自身とを紐付け一括的に管理する試みが行われている。ユーザは、タイトルを参照することにより、その文書の階層構造や文書の概要を把握することができるため、文書を検索する際の一助となり得る。

しかし、従来、そのような文書の階層構造を表すタイトルに関する情報は、予め文書内にデータとして定義されておく必要があった。従って、例えば過去に発行された紙媒体の文書を電子データとして保存する場合など、比較的古い文書に対しては、タイトルに関する情報を新たに作成する必要があり、不便であった。

そこで、文書内のテキストデータから、文書の階層構造を表すタイトルを自動的に抽出する技術が開発されている。例えば、特許文献1には、文書内のテキストデータから、数字文字の組み合わせに対応するテキストパターンをタイトルとみなして抽出する技術が開示されている。

概要

文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出する。文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置が提供される。

目的

本発明は、上記問題に鑑みてなされたものであり、本発明の目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文書階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置

請求項2

前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有することを特徴とする、請求項1に記載の情報処理装置。

請求項3

前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行うことを特徴とする、請求項2に記載の情報処理装置。

請求項4

前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行うことを特徴とする、請求項2又は3に記載の情報処理装置。

請求項5

前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択することを特徴とする、請求項4に記載の情報処理装置。

請求項6

前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択することを特徴とする、請求項1〜5のいずれか1項に記載の情報処理装置。

請求項7

文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、を含むことを特徴とする、タイトル抽出方法

請求項8

コンピュータに、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、を実現させるためのプログラム

技術分野

0001

本発明は、情報処理装置タイトル抽出方法及びプログラムに関する。

背景技術

0002

近年、各種の文書電子データの形式で保存することが一般的になっている。例えば、電子データ化された文書(文書データ)を保存してデータベース(DB)を作成することにより、文書の管理、閲覧検索等を容易に行うことができる。

0003

一方、文書を電子データの形式で保存することが一般的になるにつれて、DBに蓄えられる文書データの量は爆発的に増加している。従って、DB内の膨大な量の文書データの中から、所望の文書データを検索することが困難になりつつある。例えば、ある単語を検索ワードとしてDB内の文書データを検索したとしても、検索結果として大量の文書名が表示されてしまうと、適切な文書を探し出せない可能性があった。

0004

このような状況を鑑みて、例えば装置マニュアル論文のような階層構造を有する文書においては、文書の階層構造(文書内の章立て)を表すタイトルと、当該文書自身とを紐付け一括的に管理する試みが行われている。ユーザは、タイトルを参照することにより、その文書の階層構造や文書の概要を把握することができるため、文書を検索する際の一助となり得る。

0005

しかし、従来、そのような文書の階層構造を表すタイトルに関する情報は、予め文書内にデータとして定義されておく必要があった。従って、例えば過去に発行された紙媒体の文書を電子データとして保存する場合など、比較的古い文書に対しては、タイトルに関する情報を新たに作成する必要があり、不便であった。

0006

そこで、文書内のテキストデータから、文書の階層構造を表すタイトルを自動的に抽出する技術が開発されている。例えば、特許文献1には、文書内のテキストデータから、数字文字の組み合わせに対応するテキストパターンをタイトルとみなして抽出する技術が開示されている。

先行技術

0007

特開平7−129605号公報

発明が解決しようとする課題

0008

しかし、特許文献1に記載の技術では、文書のテキストデータ内に存在する数字と文字の組み合わせに対応するテキストパターンを全てタイトルとみなしてしまうため、本来はタイトルには該当しないテキストパターンも、誤ってタイトルとして抽出してしまうという問題があった。

0009

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能な、新規かつ改良された情報処理装置、タイトル抽出方法及びプログラムを提供することにある。

課題を解決するための手段

0010

上記課題を解決するために、本発明のある観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するタイトル候補抽出部と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するタイトル選択部と、を備えることを特徴とする、情報処理装置が提供される。

0011

また、前記タイトルパターンは、前記階層構造の階層ごとに、互いに異なる複数のテキストパターンを有してもよい。

0012

また、前記タイトル選択部は、前記階層構造の階層ごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。

0013

また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に対して、前記連番チェックを行ってもよい。

0014

また、前記タイトル選択部は、前記タイトルパターンごとに抽出された前記タイトル候補に基づいて、前記タイトルに対応する前記タイトルパターンを選択してもよい。

0015

また、前記タイトル選択部は、前記文書の前記階層構造の階層の区切り位置を示す情報である区切り情報を更に利用して、前記文書に対応するテキストデータ内での前記タイトル候補の記載位置と、前記区切り情報とが整合するかに基づいて、前記タイトルを選択してもよい。

0016

また、上記課題を解決するために、本発明の別の観点によれば、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出するステップと、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択するステップと、を含むことを特徴とする、タイトル抽出方法が提供される。

0017

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータに、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、前記文書に対応するテキストデータから、タイトルの候補となるテキストパターンであるタイトル候補を抽出する機能と、前記タイトル候補に含まれる、前記タイトルの順序を表す順序情報に基づいて、前記タイトル候補の順序を確認する連番チェックを行うことにより、前記タイトル候補の中から、前記タイトルを選択する機能と、を実現させるためのプログラムが提供される。

発明の効果

0018

以上説明したように本発明によれば、文書に対応するテキストデータから、文書の階層構造を表すタイトルをより正確に抽出することが可能になる。

図面の簡単な説明

0019

本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。
本実施形態に係るタイトルパターンを説明するための説明図である。
本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。
タイトル候補の抽出結果の一例を示す概略図である。
階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。
階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。
階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。
階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。
同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。
同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。
本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。
図8におけるタイトル選択処理の処理手順を示すフロー図である。
図9における第2階層についての連番チェックの処理手順を示すフロー図である。
図9における第1階層についての連番チェックの処理手順を示すフロー図である。
本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。
本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

実施例

0020

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

0021

<1.処理対象となる文書とタイトルパターン>
本発明の一実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、文書に対応するテキストデータから、文書の階層構造(文書内の章立て)を表すタイトルを抽出する処理(タイトル抽出処理)が行われる。文書からタイトルが抽出されることにより、ユーザは、当該タイトルを参照することで、当該文書の概要を把握することができる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出する処理は、文書を要約する処理に対応している。

0022

まず、図1を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいて、タイトル抽出処理の対象となる文書の構造例について説明する。図1は、本発明の一実施形態に係るタイトル抽出処理の対象となる文書の一構造例を示す概略図である。

0023

図1を参照すると、本実施形態に係るタイトル抽出処理の対象となる文書は、階層構造を有していてよい。ここで、以下の説明においては、文書内において、その文書の階層構造を表すテキストパターンのことをタイトルと呼ぶこととする。例えば、図1に示す文書のテキストデータには、階層構造における最上位の階層(第1階層)を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」のタイトルが含まれている。また、図1に示す文書のテキストデータには、第1階層の1つ下位に当たる階層(第2階層)を表すタイトルとして、例えば、「1−1ケース」、「2−1 容量」、「2−2電源」及び「3−1 過去の事例」のタイトルが含まれている。更に、図1に示す文書のテキストデータには、第2階層の1つ下位に当たる階層(第3階層)を表すタイトルとして、例えば、「I 測定時のトラブル」及び「II校正時のトラブル」のタイトルが含まれている。

0024

ここで、タイトルに対応するテキストパターンを抽象的表現すると、「数字、又は、順序を意味する記号」と「文字列」との組み合わせで表現することができる。以下の説明においては、このような、タイトルに対応するテキストパターンのことをタイトルパターンと呼ぶこととする。つまり、タイトルパターンは、例えば図2に示すように、「数字、又は、順序を意味する記号」と「文字列」との組み合わせであってよい。図2は、本実施形態に係るタイトルパターンを説明するための説明図である。

0025

図2を参照すると、「数字、又は、順序を意味する記号」の「数字」とは、例えば、アラビア数字(1、2、3、等)、丸囲み数字、ローマ数字(I、II、i、ii、等)等であってよい。なお、当該「数字」は、図2に示すものに限定されず、数の概念を表すものであれば他の数字であってもよい。

0026

また、図2を参照すると、「数字、又は、順序を意味する記号」の「順序を意味する記号」とは、例えば、アルファベット(A、B、C、等)、仮名(あ、い、う、ア、イ、ウ、等)等であってよい。なお、当該「順序を意味する記号」は、図2に示すものに限定されず、順序の概念を表すものであれば他の記号であってもよい。

0027

また、タイトルパターンにおける「文字列」は、例えば、文書内においてそのタイトルに該当するパートの内容を表す見出しであってよい。

0028

ここで、以下の説明においては、タイトルの順序を表す情報のことを順序情報と呼ぶこととする。具体的には、例えば、順序情報は、タイトルパターンにおける「数字、又は、順序を意味する記号」のことである。

0029

例えば、図1に示す文書におけるタイトル「1.対象となる機器」であれば、タイトルパターンにおける順序情報(「数字、又は、順序を意味する記号」)は「1」であり、タイトルパターンにおける「文字列」は「対象となる機器」である。また、例えば、図1に示す「1−1ケース」であれば、タイトルパターンにおける順序情報は「1−1」であり、タイトルパターンにおける「文字列」は「ケース」である。

0030

また、順序情報は、例えば、「数字、又は、順序を意味する記号」を任意の文字コードに変換した情報であってもよい。例えば、図1に示す文書例では、タイトル「I 測定時のトラブル」の順序情報は「I」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「I」を表す「2D34」であってもよい。同様に、タイトル「II校正時のトラブル」の順序情報は「II」であってもよいし、例えば規格「JIS X 0208」で定められる文字コードにおいて、当該「II」を表す「2D35」であってもよい。このように、順序情報である「数字、又は、順序を意味する記号」を文字コードに変換することで、順序情報に関する情報処理、例えば後述するタイトル選択処理をより容易に行うことができる。また、互いに異なる書式で記載されている「数字、又は、順序を意味する記号」であっても、文字コードに変換することにより、同一の文字コード情報として扱うことができるため、表現の揺らぎを抑制することができる。なお、順序情報の変換に用いられる文字コードは規格「JIS X 0208」に限定されず、公知のあらゆる文字コードが用いられてよい。

0031

なお、図2には明示していないが、本実施形態に係るタイトルパターンにおいては、「数字、又は、順序を意味する記号」と「文字列」との間に、例えばピリオドスペースのような区切りを示す記号が存在していてもよい。例えば、図1に示す「1.対象となる機器」や「1−1ケース」であれば、「1」と「対象とする機器」との間に存在する「.(ピリオド)」や、「1−1」と「ケース」との間に存在する「 (スペース)」まで含めてタイトルパターンが構成されてよい。なお、以下の説明において、タイトルパターンについて記載する際には、これらの区切りを示す記号については記載を省略することがある。

0032

また、タイトルパターンは、そのタイトルパターンが、文書の階層構造のうち、どの階層に対応するものであるかを示す階層情報を有していてもよい。なお、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。

0033

例えば、階層情報は、タイトルパターンに含まれる順序情報の種類に基づいて設定されてよい。例えば、順序情報が「第1章」であるタイトルは第1階層に属するタイトルである可能性が高く、順序情報が「第1節」であるタイトルは第2階層に属するタイトルである可能性が高い。従って、ユーザは、例えば、「「第+N+章」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第1階層」という階層情報を設定してもよく、「「第+N+節」+「文字列」」(Nは任意の自然数)というタイトルパターンには「第2階層」という階層情報を設定してもよい。

0034

また、例えば、階層情報は、タイトルパターンの順序情報に含まれる、数字や順序を表す記号の個数に基づいて設定されてもよい。具体的には、例えば、「N+「−」+M+文字列」(N、Mは任意の自然数)のように、数字や順序を表す記号が2個(NとM)含まれるタイトルパターンには、「第2階層」という階層情報が設定されてもよい。また、例えば、「N+「−」+M+「−」+L+文字列」(N、M、Lは任意の自然数)のように、数字や順序を表す記号が3個(NとMとL)含まれるタイトルパターンには、「第3階層」という階層情報が設定されてもよい。

0035

また、タイトルパターンが有する階層情報は1つには限定されず、タイトルパターンが互いに異なる複数の階層情報を有してもよい。例えば、タイトルパターンの「数字、又は、順序を意味する記号」に含まれる数字や記号が1個である場合、タイトルパターンだけでは、階層情報を一意に定められない可能性が高い。この場合、1つのタイトルパターンが、「第K階層」(Kは任意の自然数)で表現される互いに異なる複数の階層情報を有していてもよい。

0036

また、タイトルパターンが有する階層情報は、文書の種類や構造に基づいて、ユーザによって適宜設定されてもよい。例えば、学術論文のような、投稿掲載雑誌に応じて書式が決められている文書であれば、投稿規定として、タイトルと階層情報とが一意に定められている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、タイトルパターンとその階層情報とを適切に設定することができる。

0037

以上、図1及び図2を参照して、本実施形態に係るタイトル抽出処理の対象となる文書の一例、及び、タイトルパターンの構造例について説明した。なお、本実施形態に係るタイトル抽出処理の対象となる文書は、図1に示す例に限定されず、あらゆる文書が対象となってよい。また、タイトルパターンが有する順序情報は、図2に示す例に限定されず、数字や、順序を表す記号であれば、その種類は限定されず、各種の数字及び記号が順序情報として用いられてよい。

0038

<2.情報処理装置の構成>
次に、図3を参照して、本発明の一実施形態に係る情報処理装置の概略構成について説明する。図3は、本発明の一実施形態に係る情報処理装置の一構成例を示す機能ブロック図である。

0039

図3を参照すると、本実施形態に係る情報処理装置10は、情報入力部110、記憶部120、表示部130及び制御部140を備える。

0040

情報入力部110は、ユーザ(操作者)が情報処理装置10に対して、各種の情報や指示を入力するためのインターフェース役割を有する。例えば、ユーザは、情報入力部110を介して、情報処理装置10に各種の文書データを入力することができる。また、ユーザは、情報入力部110を介して、情報処理装置10に文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンを入力することができる。なお、文書データやタイトルパターンを情報処理装置10に入力する方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、文書データやタイトルパターンは、リムーバブル記憶媒体や他の外部接続機器から情報処理装置10に入力されてもよいし、任意の情報網ネットワーク)を介して配信されることにより情報処理装置10に入力されてもよい。

0041

ここで、情報処理装置10に入力される文書は、例えば図1に示す文書であってよい。また、情報処理装置10に入力されるタイトルパターンは、例えば図2に示す構造を有するテキストパターンであってよい。なお、情報処理装置10に入力されるタイトルパターンは、想定され得る限りの種類の、互いに異なる複数のタイトルパターンであってよい。情報入力部110を介して入力された文書データ及びタイトルパターンは、例えば記憶部120に保存される。

0042

記憶部120は、本実施形態に係る情報処理装置10によって処理される各種の情報や、処理された結果を記憶するための記憶媒体の一例である。記憶部120は、例えば、本実施形態に係るタイトル抽出処理の対象となる文書データを記憶する。また、記憶部120は、例えば、本実施形態に係るタイトル抽出処理において用いられるタイトルパターンを記憶する。更に、記憶部120は、後述する制御部140によって行われる、タイトル抽出処理を含む各種の処理の結果を記憶してもよい。

0043

表示部130は、各種の情報をユーザに対して視覚的に表示する機能を有する。表示部130は、記憶部120に保存されている各種の情報や、制御部140によって行われる各種処理の結果を、例えば、テキスト、表、グラフ等様々な形式で、その表示画面上に表示することができる。

0044

制御部140は、情報処理装置10の動作を統合的に制御するとともに、対象とする文書データに対してタイトル抽出処理を行う。具体的には、制御部140は、対象とする文書内に含まれるテキストデータから、文書の階層構造を表すタイトルを抽出する処理を行う。以下、制御部140の機能及び構成について、詳細に説明する。

0045

制御部140は、例えば、文書読み込み部141、タイトル候補抽出部142、タイトル選択部143及び表示制御部144を有する。

0046

文書読み込み部141は、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。ここで、文書に対応するテキストデータとは、文書から図表等のデータを除いた、文書に含まれるテキストのデータのことを意味してよい。なお、文書読み込み部141がテキストデータを読み込む際の、テキストデータの区切り位置(センテンスの単位)を決定する方法は、特に限定されるものではなく、文書の種類等に応じて、ユーザによって適宜設定されてよい。例えば、文書読み込み部141は、テキストデータに含まれる改行位置や、句点が付された位置、あるいは、形態素解析の結果等に基づいて、当該テキストデータをセンテンスに区切ってもよい。文書読み込み部141は、テキストデータから読み込んだセンテンスを、タイトル候補抽出部142に送信する。

0047

タイトル候補抽出部142は、受信したセンテンスの中から、タイトル候補を抽出する(タイトル候補抽出処理)。具体的には、タイトル候補抽出部142は、例えば、センテンス内に含まれるテキストパターンと、記憶部120に記憶されているタイトルパターンを比較する(マッチングする)ことにより、当該センテンスの中からタイトル候補を抽出する。つまり、タイトル候補抽出部142は、センテンスの中から、タイトルパターンと合致するテキストパターンを見つけ出し、タイトル候補として抽出することができる。

0048

タイトル候補抽出部142は、抽出したタイトル候補を、タイトル選択部143に送信する。また、タイトル候補抽出部142は、抽出したタイトル候補を、記憶部120に保存してもよい。

0049

タイトル選択部143は、受信したタイトル候補の中から、文書の階層構造を表すタイトルを選択する(タイトル選択処理)。具体的には、タイトル選択部143は、タイトル候補に含まれる、タイトルの順序を表す順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、当該タイトル候補がタイトルかどうかを判断し、選択することができる。

0050

ここで、文書の中からタイトル候補として抽出されたテキストパターンは、文書の階層構造を表すタイトルではない可能性がある。例えば、図1に示す文書例においては、地の文に含まれる「4.に示す・・・」や「4.5Vの・・・」といったテキストパターンが、テキスト候補として抽出される可能性がある。タイトル選択部143は、連番チェックを行うことにより、このようなノイズを除去し、テキスト候補の中から文書の階層構造を表すタイトルを選択することができる。

0051

タイトル選択部143は、選択したタイトルを、表示制御部144に送信する。また、タイトル選択部143は、選択したタイトルを、記憶部120に記憶してもよい。

0052

なお、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で詳しく説明する。

0053

表示制御部144は、タイトル選択部143によって選択されたタイトルに関する情報を、対象としている文書のタイトル抽出処理結果として、表示部130に表示する制御を行う。例えば、表示制御部144は、表示部130の表示画面に、タイトル抽出処理を行った文書名と、当該文書の階層構造を表すタイトルと、当該タイトルの階層情報とを互いに関連付けて表示させてもよい。

0054

以上、図3を参照して、本実施形態に係る情報処理装置の機能の一例、特に制御部140の機能の一例について詳細に示した。なお、情報処理装置10の各構成要素は、汎用的な部材や回路を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。また、制御部140については、各構成要素の機能を、CPU(Central Processing Unit)等が全て行ってもよい。従って、本実施形態を実施する時々技術レベルに応じて、適宜、利用する構成を変更することが可能である。

0055

なお、情報処理装置10のハードウェア構成については、<6.ハードウェア構成>で詳しく説明する。

0056

以上説明したように、本実施形態に係る情報処理装置10においては、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において抽出されたタイトル候補について、タイトルとして適切かどうかの判断がなされることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。

0057

<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>
次に、図3に示すタイトル候補抽出部142及びタイトル選択部143の機能及び構成について、より詳細に説明する。なお、以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明においては、処理対象とする文書の一例として、図1に示す文書に対してタイトル抽出処理を行う場合について説明する。

0058

[3.1.タイトル候補抽出処理]
まず、図4を参照して、タイトル候補抽出部142によって行われる、タイトル候補抽出処理について説明する。図4は、タイトル候補の抽出結果の一例を示す概略図である。

0059

上記<2.情報処理装置の構成>で説明したように、タイトル候補抽出部142は、例えばセンテンスごとに読み込まれたテキストデータと、タイトルパターンとをマッチングすることにより、タイトルパターンと合致するテキストパターンを、タイトル候補として抽出する。そして、タイトル候補抽出部142は、抽出したタイトル候補を、例えば図4に示すように、表(リスト)の形式で整理する。

0060

図4を参照すると、例えば、抽出されたタイトル候補は、記載番号、タイトルパターン、階層情報及び順序情報と関連付けられて整理される。記載番号は、対象としている文書のテキストデータ内において、抽出されたタイトル候補が記載されている順番を示している。また、タイトルパターンは、抽出されたタイトル候補と合致したタイトルパターンを示している。また、階層情報は、当該タイトルパターンに対応する階層情報を示している。更に、順序情報は、当該タイトル候補に含まれる順序情報を示している。

0061

なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンがどの階層情報を有するかは、タイトルパターンごとに一意に設定されるものではなく、タイトルパターンの内容や文書の構造、種類等に応じて、ユーザによって適宜設定されてよい。以下の[3.1.タイトル候補抽出処理]及び[3.2.タイトル選択処理]における説明では、タイトル候補抽出処理及びタイトル選択処理の一実施例として、各タイトルパターンが、図4に示す階層情報を有する場合について説明することとする。

0062

図1を参照しながら、タイトル候補抽出部142が行う処理について、より具体的に説明する。タイトル候補抽出部142は、例えば図1に示す文書のテキストデータに対して、テキストデータの先頭から順に、センテンス単位で、タイトルパターンとのマッチング処理を行っていく。すると、例えば、タイトル候補抽出部142は、「1.対象となる機器」というテキストパターンが、「N+「.」+文字列」というタイトルパターンと合致することを見い出す。ここで、Nは任意の自然数であってよい。

0063

従って、タイトル候補抽出部142は、当該「1.対象となる機器」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、抽出したタイトル候補である「1.対象となる機器」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1.対象となる機器」は、対象としている文書のテキストデータ内において、記載順において最初に抽出されたタイトル候補であるため、その記載番号は「1」となる。また、例えば、マッチングが行われた「N+「.」+文字列」というタイトルパターンの階層情報は「第1階層」であり、タイトル候補「1.対象となる機器」の順序情報は「N=1」である。

0064

「1.対象となる機器」をタイトル候補として抽出した後、タイトル候補抽出部142は、後続のテキストデータに対して、タイトルパターンとのマッチング処理を継続する。すると、例えば、タイトル候補抽出部142は、「1−1ケース」というテキストパターンが、「N+「−」+M+文字列」というタイトルパターンと合致することを見い出す。ここで、N及びMは任意の自然数であってよい。

0065

従って、タイトル候補抽出部142は、当該「1−1ケース」というテキストパターンを、タイトル候補として抽出する。また、タイトル候補抽出部142は、先ほどと同様に、抽出したタイトル候補である「1−1 ケース」を、記載番号、階層情報及び順序情報と関連付けて整理する。例えば、タイトル候補「1−1 ケース」は、対象としている文書のテキストデータ内において、記載順において2番目に抽出されたタイトル候補であるため、その記載番号は「2」となる。また、例えば、マッチングが行われた「N+「−」+M+文字列」というタイトルパターンの階層情報は「第2階層」であり、タイトル候補「1−1 ケース」の順序情報は「N=1、M=1」である。

0066

タイトル候補抽出部142は、対象としている文書のテキストデータが終了するまで、以上説明した内容と同様の処理を繰り返す。その結果、例えば図4に示すタイトル候補の抽出結果を得ることができる。

0067

なお、タイトル候補抽出処理においては、1つのタイトル候補が、互いに異なる複数のタイトルパターンと合致する、すなわち、1つのタイトル候補が重複して抽出されてもよい。例えば、図4に示すタイトル候補の例では、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、タイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」の両方と合致する。また、これらのタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」は、例えば、互いに異なる階層情報を有し、「N+「.」+文字列」の階層情報は「第1階層」であり、「N+「.」+M+文字列」の階層情報は「第2階層」である。従って、例えば図4に示すように、タイトル候補「5.0Vが・・・」及び「4.5Vの・・・」は、互いに異なるタイトルパターン「N+「.」+文字列」及び「N+「.」+M+文字列」と、互いに異なる階層情報「第1階層」及び「第2階層」と、関連付けて整理されてよい。

0068

なお、<1.処理対象となる文書とタイトルパターン>で上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有し得る場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。

0069

[3.2.タイトル選択処理]
次に、図5A、B、図6A、B及び図7A、Bを参照して、タイトル選択部143によって行われる、タイトル選択処理について説明する。

0070

本実施形態に係るタイトル選択処理においては、タイトル選択部143が、タイトル候補抽出部142によって抽出されたタイトル候補に対して連番チェックを行う。連番チェックとは、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する処理のことを言う。

0071

なお、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよい。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して行われてもよい。また、例えば、連番チェックは、タイトル候補抽出部142によって抽出されたタイトル候補を、タイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。

0072

対象とする文書から抽出された全タイトル候補に対して連番チェックが行われる場合には、互いに異なるタイトルパターンや階層情報を有するタイトル候補に対して連番チェックが行われるため、その処理手順が比較的複雑なものになる可能性がある。一方、例えば同一の階層情報を有するタイトル候補や、同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、タイトルパターンや階層情報が統一されているため、その処理手順を比較的簡便なものとすることができる。

0073

(同一の階層情報を有するタイトル候補に対する連番チェック)
まず、図5A、B及び図6A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補を階層情報ごとに再度整理し、同一の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明する。図5A、Bは、階層情報が第2階層であるタイトル候補に対する連番チェックを説明するための説明図である。また、図6A、Bは、階層情報が第1階層であるタイトル候補に対する連番チェックを説明するための説明図である。ここで、図5A、B及び図6A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4に示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。

0074

同一の階層情報を有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、階層情報ごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトル候補のみを抜き出したものを図5Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトル候補のみを抜き出したものを図6Aに示す。

0075

次に、図5Aに示す、階層情報が第2階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、具体的には、例えば図5Aに示す順序情報に基づいて、タイトル候補の順序を表すN、M(N、Mは任意の自然数)が連番になっているかどうかが判断される。具体的には、連番チェックでは、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。

0076

より具体的には、第2階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n、M=m」(n、mは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n、M=m+1」又は「N=n+1、M=1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n、M=m」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が、「N=n、M=m+1」又は「N=n+1、M=1」を満たす場合に、当該チェック対象であるタイトル候補をタイトルとして選択する。

0077

例えば、図5Aを参照すると、階層情報が第2階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1−1ケース」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=1、M=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1−1 ケース」を、タイトルとして選択する。

0078

上述したように、タイトル候補「1−1ケース」の次に記載されるタイトルの順序情報は、「N=1、M=2」(すなわち、「1−2 ・・・」等)又は「N=2、M=1」(すなわち、「2−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1−1 ケース」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=1、M=2」又は「N=2、M=1」になっているかどうかをチェックする。

0079

図5Aに示す実施例においては、タイトル候補「1−1ケース」の次に記載番号が小さいタイトル候補は、「2−1 容量」であり、そのタイトルパターンは「N+「−」+M+文字列」、その順序情報は「N=2、M=1」である。タイトル候補「2−1 容量」の順序情報「N=2、M=1」は、上記「N=1、M=2」又は「N=2、M=1」に含まれるため、タイトル選択部143は、当該タイトル候補「2−1 容量」をタイトルとして選択する。

0080

同様に、タイトル候補「2−1 容量」の次に記載されるタイトルの順序情報は、「N=2、M=2」(すなわち、「2−2 ・・・」等)又は「N=3、M=1」(すなわち、「3−1 ・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2、M=2」又は「N=3、M=1」になっているかどうかをチェックする。

0081

図5Aに示す実施例においては、タイトル候補「2−1 容量」の次に記載番号が小さいタイトル候補は、「5.0Vが・・・」であり、そのタイトルパターンは「N+「.」+M+文字列」、その順序情報は「N=3、M=5」である。タイトル候補「5.0Vが・・・」の順序情報「N=3、M=5」は、上記「N=2、M=2」又は「N=3、M=1」に含まれないため、タイトル選択部143は、当該タイトル候補「5.0Vが・・・」は、タイトルではないとみなす

0082

以下同様に、例えば図5Aに示す、階層情報が第2階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図5Bに示すように、連番チェックの結果、「1−1ケース」、「2−1 容量」、「2−2電源」及び「3−1 過去の事例」が、文書の第2階層を表すタイトルとして選択される。

0083

階層情報が第2階層であるタイトル候補についての連番チェックが終わったら、次に、例えば図6Aに示す、階層情報が第1階層であるタイトル候補に対して連番チェックが行われる。連番チェックでは、階層情報が第2階層であるタイトル候補と同様に、階層情報が第1階層であるタイトル候補に対して、タイトル候補の順序を表すN(Nはタイトルパターンに対応する、任意の自然数)が連番になっているかどうかが判断される。

0084

具体的には、第1階層を表すタイトルに関しては、あるタイトルの順序情報が「N=n」(nは任意の自然数)である場合、当該タイトルの次に記載されるタイトルの順序情報は、「N=n+1」である可能性が高い。従って、タイトル選択部143は、直前にタイトルとして選択されたタイトル候補の順序情報「N=n」に対して、連番チェックのチェック対象であるタイトル候補の順序情報が「N=n+1」を満たす場合には、当該チェック対象であるタイトル候補をタイトルとして選択することができる。

0085

例えば、図6Aを参照すると、階層情報が第1階層であるタイトル候補の中で、記載番号が最も小さいタイトル候補は、「1.対象となる機器」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=1」である。まず、タイトル選択部143は、記載番号が最も小さいタイトル候補である「1.対象となる機器」を、タイトルとして選択する。

0086

上述したように、タイトル候補「1.対象となる機器」の次に記載されるタイトルの順序情報は、「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。

0087

図6Aに示す実施例においては、タイトル候補「1.対象となる機器」の次に記載番号が小さいタイトル候補は、「4.に示す・・・」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=4」である。タイトル候補「4.に示す・・・」の順序情報「N=4」は、上記「N=2」とは異なるため、タイトル選択部143は、当該タイトル候補「4.に示す・・・」は、第1階層を表すタイトルではないとみなす。

0088

タイトル候補「4.に示す・・・」が第1階層を表すタイトルとして選択されなかったため、「4.に示す・・・」の次に記載されるタイトルの順序情報は、直前に選択されたタイトルである「1.対象となる機器」の順序番号に連続する値、すなわち「N=2」(すなわち、「2.・・・」等)である可能性が高い。従って、タイトル選択部143は、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補に対して、その順序情報が、「N=2」になっているかどうかをチェックする。

0089

図6Aに示す実施例においては、タイトル候補「4.に示す・・・」の次に記載番号が小さいタイトル候補は、「2.選定基準詳細」であり、そのタイトルパターンは「N+「.」+文字列」、その順序情報は「N=2」である。タイトル候補「2.選定基準詳細」の順序情報「N=2」は、上記「N=2」に該当するため、タイトル選択部143は、当該タイトル候補「2.選定基準詳細」をタイトルとして選択することができる。

0090

以下同様に、例えば図6Aに示す階層情報が第1階層であるタイトル候補について、記載番号の順に、直前にタイトルとして選択したタイトル候補と順序情報が連続しているかどうかが判断される。そして、例えば図6Bに示すように、連番チェックの結果、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が、タイトルとして選択される。

0091

ここで、上記の連番チェックの説明においては、連番チェックの際に順序情報のみを用いる方法について説明したが、本実施形態に係るタイトル選択処理においては、連番チェックを行う際に、文書の階層構造における階層の区切り位置を示す情報である区切り情報を更に用いて連番チェックが行われてもよい。具体的には、区切り情報とは、文書のテキストデータから抽出されたタイトル候補に対して、記載番号を基準として、どのタイトル候補とどのタイトル候補との間に階層の区切り位置が存在するかを示す情報であってよい。

0092

より具体的には、タイトル選択部143は、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行うことができる。以下、図5A、B及び図6A、Bを参照して、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明する。

0093

例えば、上述したように、図5A、Bに示す実施例においては、階層情報が第2階層であるタイトル候補に対する連番チェックの結果として、「1−1ケース」、「2−1 容量」、「2−2電源」及び「3−1 過去の事例」が、タイトルとして選択される。ここで、タイトル「1−1 ケース」の記載番号は「2」であり、タイトル「2−1 容量」の記載番号は「5」である。従って、第1階層を表すタイトル候補の中で「N=2」に相当する順序番号を有するタイトルは、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在する可能性が高い。よって、タイトル選択部143は、階層情報が第2階層であるタイトル候補についての連番チェックの結果に基づいて、区切り情報として、例えば「N=2」に相当する順序番号を有する第1階層を表すタイトルが、記載番号「2」と記載番号「5」の間、すなわち、図6Aに示す区間Aに存在するという情報を取得することができる。

0094

タイトル選択部143は、同様に、区切り情報として、例えば「N=3」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Bに存在するという情報、及び「N=4」に相当する順序番号を有する第1階層を表すタイトルが、図6Aに示す区間Cに存在するという情報を取得することができる。

0095

そして、タイトル選択部143は、階層情報が第1階層であるタイトル候補に対して連番チェックを行う際に、もしも順序情報が連番になっていても、順序情報であるNの値が区切り情報と整合していなければ、当該タイトル候補を、第1階層を表すタイトルではないとみなしてもよい。換言すれば、タイトル選択部143は、順序情報と区切り情報の両方に基づいて、連番チェックを行ってもよい。

0096

このように、順序情報と区切り情報の両方に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。なお、上記の説明では、タイトル選択部143が、階層情報が第2階層であるタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、階層情報が第1階層であるタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。区切り情報は、任意の階層情報を有するタイトル候補に対する連番チェックの際に取得されてもよく、また、区切り情報が用いられる連番チェックも、任意の階層情報を有するタイトル候補に対して行われてもよい。

0097

(同一のタイトルパターンを有するタイトル候補に対する連番チェック)
次に、図7A、Bを参照して、タイトル候補抽出部142によって抽出されたタイトル候補をタイトルパターンごとに再度整理し、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法について説明する。図7A、Bは、同一のタイトルパターンを有するタイトル候補に対する連番チェックを説明するための説明図である。ここで、図7A、Bにおいて、表の各欄の項目、すなわち、記載番号、タイトルパターン、階層情報及び順序情報は、図4図5A、B及び図6A、Bに示す表の各欄の項目と同一のものを意味するため、ここでは詳細な説明は省略する。

0098

同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、まず、図4に示す、対象とする文書から抽出された全タイトル候補を、タイトルパターンごとに再度整理する処理が行われる。例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第1階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Aに示す。同様に、例えば、図4に示す、対象とする文書から抽出された全タイトル候補から、階層情報が第2階層であるタイトルパターンを有するタイトル候補のみを抜き出し、タイトルパターンごとに整理したものを図7Bに示す。

0099

例えば、図7Aを参照すると、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補として「I 測定時のトラブル」及び「II校正時のトラブル」が抽出されている。タイトル選択部143は、これら「I 測定時のトラブル」及び「II 校正時のトラブル」に対して連番チェックを行うことができる。

0100

上述したように、順序情報「I」、「II」は、例えば規格「JIS X 0208」で定められる文字コードにおいて、それぞれ、「2D34」、「2D35」で表現される。従って、タイトル選択部143は、「I 測定時のトラブル」及び「II校正時のトラブル」に対する連番チェックとして、これら「2D34」、「2D35」が連続しているかどうかを判断してもよい。図7Aに示す実施例においては、順序情報「I」、「II」に対応する文字コード「2D34」、「2D35」は、連続しているので、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」をタイトルとして選択することができる。

0101

同じく、図7Aを参照すると、タイトルパターン「N+「.」+文字列」のタイトル候補として「1.対象となる機器」、「4.に示す・・・」、「2.選定基準」、「5.0Vが・・・」、「4.5Vの・・・」、「3.注意事項」及び「4.その他」が抽出されている。タイトル選択部143は、これらのタイトル候補の順序情報(タイトルパターン「N+「.」+文字列」のNに対応する数字)が連続しているかどうかを判断することにより、これらのタイトル候補の中から、タイトルを選択することができる。具体的には、タイトル選択部143は、連番チェックの結果から、「1.対象となる機器」、「2.選定基準」、「3.注意事項」及び「4.その他」をタイトルとして選択することができる。

0102

タイトル選択部143は、同様に、例えば図7A、Bに示す他のタイトル候補についても、タイトルパターンごとに連番チェックを行うことにより、タイトルを選択することができる。

0103

更に、同一のタイトルパターンを有するタイトル候補に対して連番チェックを行う方法においては、タイトル選択部143は、文書のテキストデータから抽出されたタイトル候補に基づいて、当該文書の階層構造を表すタイトルに対応するタイトルパターンを選択してもよい。例えば、ある文書内におけるタイトルにおいては、同一の階層を表すタイトルであれば、同一のタイトルパターンが用いられる可能性が高い。従って、タイトル選択部143は、例えば、タイトル候補がより多く抽出されているタイトルパターンが、当該階層を表すタイトルに対応するタイトルパターンであると判断してもよい。

0104

例えば、図7Bに示す実施例においては、階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「.」+M+文字列」である、「5.0Vが・・・」及び「4.5Vの・・・」が抽出されている。また、同じく階層情報が「第2階層」であるタイトル候補として、タイトルパターンが「N+「−」+M+文字列」である、「1−1ケース」、「2−1 容量」、「2−2電源」及び「3−1 過去の事例」が抽出されている。

0105

これらのタイトル候補を比較すると、タイトルパターン「N+「−」+M+文字列」の方が、より多くのタイトル候補が抽出されている。これは、つまり、対象としている文書のテキストデータ内に、「N+「−」+M+文字列」に合致するテキストパターンが、「N+「.」+M+文字列」に合致するテキストパターンよりも、より頻繁に出現していることを表している。従って、タイトル選択部143は、例えば、当該文書の第2階層を表すタイトルパターンは「N+「−」+M+文字列」であると判断することができる。同様に、タイトル選択部143は、タイトルパターン「N(ローマ数字)+文字列」のタイトル候補と、タイトルパターン「N+「.」+文字列」のタイトル候補とを比較することにより、例えば、当該文書の第1階層を表すタイトルパターンは「N+「.」+文字列」であると判断することができる。

0106

更に、タイトル選択部143は、当該文書の階層構造を表すタイトルに対応するとして選択したタイトルパターン以外のタイトルパターンによって抽出されたタイトル候補に対しては、連番チェックを行わなくてもよい。例えば、タイトル選択部143は、当該文書の第2階層を表すタイトルパターンが「N+「−」+M+文字列」であると判断した場合には、当該文書の第2階層を表すタイトル候補に対する連番チェックは、当該タイトルパターン「N+「−」+M+文字列」に合致するタイトル候補に対してのみ行えばよく、他のタイトル候補に対しては連番チェックを行わなくてもよい。つまり、タイトル選択部143は、全てのタイトル候補に対して連番チェック行わなくてもよく、連番チェックを行うタイトルパターンを選択してもよい。タイトル選択部143が、全てのタイトル候補に対して連番チェックを行わないことにより、タイトル選択処理における情報処理量を削減することができ、タイトル抽出処理の効率化を図ることができる。

0107

以上、図4図5A、B、図6A、B及び図7A、Bを参照して説明したように、本実施形態に係るタイトル候補抽出処理においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。

0108

また、本実施形態に係るタイトル選択処理においては、連番チェックを行うタイトル候補の範囲は特に限定されず、ユーザによって適宜設定されてよく、例えば、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。

0109

また、本実施形態に係るタイトル選択処理においては、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。

0110

また、本実施形態に係るタイトル選択処理においては、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックが行われるタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。

0111

なお、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。

0112

また、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。

0113

また、上記[3.2.タイトル選択処理]における連番チェックの説明においては、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係るタイトル選択処理はかかる実施例に限定されない。本実施形態に係るタイトル選択処理においては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。例えば、文書によっては、記載番号が最も小さいタイトル候補が、本来はタイトルを表すテキストパターンではない場合がある。その場合、記載番号が最も小さいタイトル候補を基準として連番チェックを行っても、適切なタイトル選択が実行されない可能性がある。連番チェックの基準となるタイトルが、ユーザによって適宜設定されることにより、タイトル選択処理の正確性をより向上させることができる。

0114

また、上記の区切り情報についての説明では、第1の階層情報を有するタイトル候補に対して連番チェックを行った結果に基づいて、区切り情報を取得し、当該区切り情報を利用して、第2の階層情報を有するタイトル候補に対して連番チェックを行う方法について説明したが、本実施形態に係る区切り情報の取得方法はかかる実施例に限定されない。例えば、対象としている文書の階層構造が事前に明らかである場合には、当該文書の階層構造、種類等に応じて、区切り情報がユーザによって予め設定され、情報処理装置に入力されていてもよい。

0115

また、本実施形態においては、連番チェックに係る一連の処理の中で、タイトル候補の階層情報が適宜変更されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。

0116

例えば、上記の(同一の階層情報を有するタイトル候補に対する連番チェック)における説明では、図6Aにおいて、タイトル候補「I 測定時のトラブル」及び「II校正時のトラブル」の階層情報が「第1階層」であると仮定して連番チェックを行う場合について説明しているが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」が第1階層を表すタイトルとして選択されなかった時点で、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」の階層情報が、「第1階層」以外の階層情報、例えば「第3階層」に変更されてもよい。タイトル候補「I 測定時のトラブル」及び「II校正時のトラブル」の階層情報が「第3階層」に変更された場合には、第3階層を表すタイトルを選択するための連番チェックが、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を含む、階層情報として「第3階層」を有するタイトル候補に対して行われてもよい。

0117

<4.タイトル抽出処理手順>
次に、図8〜11を参照して、本発明の一実施形態に係るタイトル抽出処理手順について説明する。図8は、本発明の一実施形態に係るタイトル抽出処理手順を示すフロー図である。なお、以下のタイトル抽出処理手順の説明において、文書読み込み部141、タイトル候補抽出部142及びタイトル選択部143の機能及び構成については、<2.情報処理装置の構成>で上述しているため、ここでは詳細な説明は省略する。また、タイトル抽出処理におけるタイトル候補抽出処理及びタイトル選択処理の詳細については、<3.タイトル候補抽出部及びタイトル選択部の機能及び構成>で既に説明しているため、内容が重複する部分については、その説明を省略する。

0118

図8を参照すると、本実施形態に係るタイトル抽出処理手順においては、まず、ステップS601で、文書読み込み部141が、例えば記憶部120に記憶されている文書に対応するテキストデータを、所定の単位で区切り、区切られたセンテンスごとに読み込む。

0119

次に、ステップS603で、タイトル候補抽出部142が、ステップS601で読み込まれたセンテンス内のテキストパターンと、例えば記憶部120に記憶されているタイトルパターンとを比較する(マッチングする)。そして、ステップS603でマッチングした結果に基づいて、ステップS605で、タイトル候補が抽出され、例えば記憶部120に保存される。ここで、抽出されたタイトル候補は、例えば図4に示すように、記載番号、タイトルパターン、階層情報及び順序情報と関連付けて整理され、表(リスト)の形式で保存されてもよい。なお、ステップS603及びS605における一連の処理は、上記[3.1.タイトル候補の抽出処理]で説明した、タイトル候補抽出部142が行う一連の処理に対応している。

0120

次に、ステップS607で、例えば記憶部120に記憶されている全てのタイトルパターンについて、ステップS603及びステップS605における一連の処理が終了したかどうかが判断される。ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了していないと判断された場合は、ステップS603に戻り、未処理のタイトルパターンについて、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、例えば記憶部120に記憶されている全てのタイトルパターンについて、タイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。

0121

ステップS607で、ステップS603及びステップS605における一連の処理が、全てのタイトルパターンについて終了したと判断された場合は、ステップS609に進む。ステップS609では、ステップS601で対象とする文書の全てが読み込まれたかどうかが判断される。対象とする文書が全て読み込まれていないと判断された場合には、ステップS601に戻り、文書内の次のセンテンスが読み込まれ、当該センテンスに対して、ステップS603及びステップS605における、タイトル候補のマッチング及びタイトル候補の抽出・保存処理が行われる。つまり、タイトル候補抽出部142は、対象とする文書の全てのセンテンスについて、例えば記憶部120に記憶されている全てのタイトルパターンとのタイトル候補のマッチング及びタイトル候補の抽出・保存処理を行う。従って、ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、対象とする文書の全てのテキストデータに含まれるタイトル候補が抽出され、保存された状態であると考えられる。

0122

ステップS609で、対象とする文書が全て読み込まれていると判断された場合には、ステップS611に進み、抽出されたタイトル候補に対して、タイトル選択部143によるタイトル選択処理が行われる。ステップS611でのタイトル選択処理については、図9〜11を参照して後で詳しく説明する。

0123

ステップS611でのタイトル選択処理が終了することにより、本実施形態に係る一連のタイトル抽出処理が終了する。このように、図8に示す手順に従って一連の処理が行われることにより、対象とする文書から、当該文書の階層構造を表すタイトルを抽出することができる。

0124

次に、図9を参照して、図8のステップS611におけるタイトル選択処理の処理手順について詳細に説明する。図9は、図8におけるタイトル選択処理の処理手順を示すフロー図である。なお、以下に図9〜11を用いて行うタイトル選択処理の説明では、タイトル選択処理の一例として、同一の階層情報を有するタイトル候補に対する連番チェックを行う場合について説明する。ただし、本実施形態にかかるタイトル選択処理は、かかる実施例に限定されず、他の異なる連番チェックの方法が行われてよい。なお、以下に図9〜11を用いて行うタイトル選択処理の説明は、上記[3.2.タイトル選択処理]の(同一の階層情報を有するタイトル候補に対する連番チェック)で説明したタイトル候補抽出部142が行う一連の処理に対応しているため、重複する内容については、詳細な説明は省略する。

0125

図9を参照すると、本実施形態に係るタイトル選択処理においては、まず、ステップS701で、タイトル選択部143が、タイトルパターンに含まれる階層情報に基づいて、抽出されたタイトル候補を階層ごとに整理する。次に、ステップS703で、第2階層について整理されたタイトル候補に対して連番チェックが行われ、第2階層を表すタイトルが選択される。なお、ステップS703における、第2階層についての連番チェックについては、図10を参照して後で詳しく説明する。

0126

次に、ステップS705で、ステップS703における連番チェックの結果から、第1階層のタイトル候補における区切り情報が取得される。

0127

次に、ステップS707で、第1階層について整理されたタイトル候補に対して、連番チェックが行われ、第1階層を表すタイトルが選択される。そして、一連のタイトル選択処理が終了する。なお、ステップS707における、第1階層についての連番チェックについては、図11を参照して後で詳しく説明する。

0128

次に、図10を参照して、図9のステップS703における第2階層についての連番チェックの処理手順について、詳細に説明する。図10は、図9における第2階層についての連番チェックの処理手順を示すフロー図である。

0129

図10を参照すると、本実施形態に係る第2階層についての連番チェックにおいては、まず、ステップS801で、第2階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図5Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1−1ケース」が、タイトルとして選択される。

0130

次に、ステップS803で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図5Aに示す実施例であれば、タイトル「1−1ケース」の次に記載番号が小さいタイトル候補である「2−1 容量」が連番チェック対象として選択される。

0131

そして、次に、ステップS805で、直前に選択されたタイトルの順序情報(例えば「N=n、M=m」)と、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」であった場合には、ステップS803で選択されたタイトル候補がタイトルとして選択され(ステップS807)、更にステップS809に進む。一方、ステップS803で連番チェック対象として選択されたタイトル候補の順序情報が「N=n、M=m+1」又は「N=n+1、M=1」以外であった場合には、ステップS807がスキップされ、すなわち、当該タイトル候補がタイトルとして選択されず、ステップS809に進む。

0132

ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第2階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS803に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS805及びステップS807における処理が繰り返される。一方、ステップS809で、第2階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第2階層についての連番チェックを終了する。

0133

具体的には、図5Aに示す実施例であれば、ステップS805で、「1−1ケース」の順序情報である「N=1、M=1」と、ステップS803で連番チェック対象として選択されたタイトル候補「2−1 容量」の順序情報である「N=2、M=1」とが比較される。「2−1 容量」の順序情報である「N=2、M=1」は、「N=n、M=m+1」又は「N=n+1、M=1」の関係を満たすので、ステップS807に進み、タイトル候補「2−1 容量」がタイトルとして選択される。

0134

ステップS809では、第2階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図5Aに示すように、対象としている文書には、タイトル候補「2−1 容量」以外にも第2階層を表すタイトル候補が存在するので、ステップS803に戻り、記載番号が次に小さいタイトル候補である「2−2電源」が、改めて連番チェック対象として選択され、以降、ステップS805及びステップS807における処理が繰り返される。

0135

次に、図11を参照して、図9のステップS707における第1階層についての連番チェックの処理手順について、詳細に説明する。図11は、図9における第1階層についての連番チェックの処理手順を示すフロー図である。

0136

図11を参照すると、本実施形態に係る第1階層についての連番チェックにおいては、まず、ステップS901で、第1階層を表すタイトル候補の中から、最も記載番号が小さいタイトル候補がタイトルとして選択される。例えば図6Aに示す実施例であれば、記載番号が最も小さいタイトル候補である「1.対象となる機器」が、タイトルとして選択される。

0137

次に、ステップS903で、次に記載番号の小さいタイトル候補が連番チェック対象として選択される。具体的には、例えば図6Aに示す実施例であれば、タイトル「1.対象となる機器」の次に記載番号が小さいタイトル候補である「4.に示す・・・」が連番チェック対象として選択される。

0138

そして、次に、ステップS905で、直前に選択されたタイトルの順序情報(例えば「N=n」)と、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報とが比較される。そして、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」であった場合には、ステップS907に進む。一方、ステップS903で連番チェック対象として選択されたタイトル候補の順序情報が「N=n+1」以外であった場合には、当該タイトル候補はタイトルとしては選択されず、後述するステップS911に進む。

0139

ステップS907では、図9に示すステップS705で取得された区切り情報に基づき、連番チェック対象として選択されているタイトル候補の順序情報が、当該区切り情報と整合するかどうかが判断される。連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合すると判断された場合には、当該タイトル候補がタイトルとして選択され(ステップS909)、更にステップS911に進む。一方、連番チェック対象として選択されているタイトル候補の順序情報が区切り情報と整合しないと判断された場合には、ステップS909がスキップされ、すなわち、当該タイトル候補はタイトルとしては選択されず、ステップS911に進む。

0140

ステップS911では、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。第1階層を表す全てのタイトル候補について連番チェックの処理が終了していない場合には、ステップS903に戻り、記載番号が次に小さいタイトル候補が改めて連番チェック対象として選択され、ステップS905、ステップS907及びステップS909における処理が繰り返される。一方、ステップS911で、第1階層を表す全てのタイトル候補について連番チェックの処理が終了したと判断された場合には、第1階層についての連番チェックを終了する。

0141

具体的には、図6Aに示す実施例であれば、ステップS905では、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で選択されたタイトル候補「4.に示す・・・」の順序情報である「N=4」とが比較される。「4.に示す・・・」の順序情報である「N=4」は、「N=n+1」の関係を満たさないので、ステップS803に戻り、記載番号が次に小さいタイトル候補、すなわち、図6Aに示す例であれば、タイトル候補「2.選定基準詳細」が改めて選択される。

0142

そして、再びステップS905で、「1.対象となる機器」の順序情報である「N=1」と、ステップS903で改めて選択されたタイトル候補「2.選定基準詳細」の順序情報である「N=2」とが比較される。「2.選定基準詳細」の順序情報である「N=2」は、「N=n+1」の関係を満たすので、ステップS907に進む。

0143

次に、ステップS907で、タイトル候補「2.選定基準詳細」が区切り情報と整合するかどうかが判断される。図6Aに示す例であれば、情報処理装置10は、区切り情報として、「N=2」に相当する順序番号を有する第1階層を表すタイトルは、記載番号「2」と記載番号「5」の間(図6Aに示す区間A)に存在するという情報を有している。タイトル候補「2.選定基準詳細」の記載番号は「3」であるため、タイトル候補「2.選定基準詳細」は、当該区切り情報と整合する。従って、ステップS909に進み、タイトル候補「2.選定基準詳細」がタイトルとして選択される。

0144

ステップS909でタイトルが選択されたら、次に、ステップS911で、第1階層を表す全てのタイトル候補について、連番チェックの処理が終了したかどうかが判断される。図6Aに示すように、対象としている文書には、タイトル候補「2.選定基準詳細」以外にも第1階層を表すタイトル候補が存在するので、ステップS903に戻り、記載番号が次に小さいタイトル候補である「5.0Vが・・・」が、改めて連番チェック対象として選択され、以降、ステップS905、ステップS907及びステップS909における処理が繰り返される。

0145

以上、図8〜11を参照して説明したように、本実施形態に係るタイトル抽出方法においては、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補が抽出される。また、本実施形態に係るタイトル選択処理においては、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックにより、抽出されたタイトル候補の中からタイトルが選択される。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかが判断されることにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。

0146

なお、上記では、同一の階層情報を有するタイトル候補に対して連番チェックが行われる実施例について説明したが、本実施形態に係るタイトル抽出方法は、かかる実施例に限定されない。例えば、連番チェックは、図4に示すような、対象とする文書から抽出された全タイトル候補に対して行われてもよい。

0147

また、例えば、連番チェックは、図7A、Bに示すような、同一のタイトルパターンを有するタイトル候補に対して行われてもよい。同一のタイトルパターンを有するタイトル候補に対して連番チェックが行われる場合には、例えば、タイトル候補をタイトルパターンごとに整理するステップが行われた後に、タイトルパターンごとに連番チェックが行われるステップが行われてよい。

0148

なお、図8〜11を参照して行った、上記のタイトル抽出処理についての説明においては、第1階層及び第2階層を表すタイトルを抽出する実施例について説明したが、本実施形態はかかる例に限定されない。本実施形態に係るタイトル抽出処理においては、より下位の階層を表すタイトルが抽出されてもよい。より下位の階層を表すタイトルが抽出される場合には、例えば、図9に示すフローにおいて、ステップS707の後に、第3階層又はより下位の階層についての連番チェックを行うステップが順次追加されてよい。

0149

また、図9に示すタイトル選択処理のフローでは、第2階層を表すタイトル候補に対して連番チェックを行い、その後に第1階層を表すタイトル候補に対して連番チェックを行う実施例について説明したが、本実施形態はかかる例に限定されない。同一の階層情報を有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。また、同様に、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて、連番チェックが行われる順番も、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。

0150

また、図10及び図11に示す、第1階層及び第2階層についての連番チェックのフローでは、まず、記載番号が最も小さいタイトル候補をタイトルとして選択し、その後に、記載番号の順に、直前にタイトルとして選択されたタイトル候補と順序情報が連続しているかどうかが判断される場合について説明したが、本実施形態に係る連番チェックはかかる実施例に限定されない。本実施形態に係る連番チェックにおいては、連番チェックの基準となる、すなわち、初めに選択されるタイトルは、文書の構造、種類に応じて、ユーザによって適宜設定されてよい。

0151

また、図9に示すタイトル選択処理のフローにおいては、タイトル候補の階層情報を変更するステップが適宜追加されてもよい。<1.処理対象となる文書とタイトルパターン>において上述したように、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、仮に何らかの階層情報を付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。

0152

例えば、図9に示すフローにおいて、ステップS707が終了した段階では、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」及び「4.その他」が選択されており、第2階層を表すタイトルとして、「1−1ケース」、「2−1 容量」、「2−2電源」及び「3−1 過去の事例」が選択されている。また、区切り情報として、第1階層及び第2階層の区切りが、記載番号においてどこに存在するかに関する情報が得られている。従って、例えば、タイトル選択部143は、タイトル候補として抽出はされたものの、タイトルとして選択はされなかったタイトル候補の中から、任意のタイトル候補の階層情報を「第3階層」に変更し、当該「第3階層」の階層情報を有するタイトル候補に対して、改めてタイトル選択処理を行ってよい。具体的には、例えば図6Aに示すタイトル候補の例であれば、タイトル選択部143は、タイトル候補の中から、「I 測定時のトラブル」及び「II校正時のトラブル」の階層情報を「第3階層」に変更し、当該タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」に対して、改めて連番チェックを行うことにより、タイトル選択処理を行ってよい。このように、階層情報を変更して改めて連番チェックを行うことにより、例えば、タイトル選択部143は、タイトル候補「I 測定時のトラブル」及び「II 校正時のトラブル」を、第3階層を表すタイトルとして選択することができる。

0153

実際には、タイトルパターンに階層情報を設定する適切な方法や、タイトル選択処理における連番チェックを適切に行う方法(連番チェックをどのような単位で、どのような順番で行うか)は、文書の種類や構造に応じて異なる。従って、タイトルパターンに設定する階層情報や、タイトル選択処理における連番チェックの具体的な処理手順は、文書の種類や構造に基づいて、例えば経験則に応じて、ユーザによって適宜設定されてよい。

0154

例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報、及び、適切な連番チェックの方法を設定してもよい。

0155

<5.適用例>
次に、図12を参照して、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例について説明する。図12は、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムの一適用例を示す概略図である。

0156

本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、ユーザが所望の文書を検索する場合に、好適に適用することができる。

0157

例えば、文書データのDBに対して、ある検索ワードで検索を掛けると、文書のテキストデータに当該検索ワードが含まれる文書が抽出される検索システムがあったとする。このような検索システムにおいて、検索結果の画面に、例えば文書名のみが表示されたとすると、ユーザは、文書名だけでは当該文書の内容までは把握することが難しく、所望の文書を見つけることが困難である。

0158

そこで、例えば、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いることにより、検索結果として抽出された文書に対して、当該文書の階層構造を表すタイトルを抽出することができる。そして、例えば検索結果を表示する際に、文書名とともに、抽出したタイトルについても表示することができる。また、タイトルは、当該タイトルに含まれる階層情報に基づいて、例えば階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザは、文書内容を把握することができ、文書DBの中から所望の文書を見つけやすくなる。つまり、本実施形態においては、文書に対応するテキストデータから文書の階層構造を表すタイトルを抽出することにより、文書を要約することが可能となる。

0159

具体的には、例えば、ある文書DBに対して、検索ワードとして「機器」を用いて文書の検索を行ったとする。すると、例えば、情報処理装置10の表示部130の表示画面に、図12に示す検索結果画面が表示されてよい。図12を参照すると、例えば、文書名「機器の購入に関する基準制御装置編」という文書には、そのテキストデータ内に、第1階層を表すタイトルとして、「1.対象となる機器」、「2.選定基準詳細」、「3.注意事項」、「4.その他」等が存在し、また、第2階層を表すタイトルとして、「2−1 CPU」、「2−2メモリ」、「2−3 HDD」等が存在することが、表示画面上に表示される。従って、ユーザは、検索結果画面に表示された文書名とタイトルとを同時に参照することで、文書DBの中から所望の文書を見つけることがより容易になる。

0160

<6.ハードウェア構成>
次に、図13を参照して、本発明の一実施形態に係る情報処理装置10のハードウェア構成について、詳細に説明する。図13は、本発明の一実施形態に係る情報処理装置10のハードウェア構成の一例を示すブロック図である。

0161

情報処理装置10は、主に、CPU901と、ROM903と、RAM905と、を備える。また、情報処理装置10は、更に、バス907と、入力装置909と、出力装置911と、ストレージ装置913と、通信装置915と、ドライブ917と、接続ポート919とを備える。

0162

CPU901は、演算処理装置及び制御装置として機能し、ROM903、RAM905、ストレージ装置913又はリムーバブル記憶媒体923に記録された各種プログラムに従って、情報処理装置10内の動作全般又はその一部を制御する。CPU901は、例えば、本実施形態においては、制御部140に対応する。ROM903は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM905は、CPU901が使用するプログラムや、プログラムの実行において適宜変化されるパラメータ等を一次記憶する。CPU901、ROM903及びRAM905は、CPUバス等の内部バスにより構成されるバス907により相互に接続されている。

0163

バス907は、例えばブリッジを介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バスに接続されている。

0164

入力装置909は、例えば、マウスキーボードタッチパネル、ボタン、スイッチ及びレバー等、ユーザが操作する操作手段である。また、入力装置909は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置10の操作に対応したPDA等の外部接続機器925であってもよい。さらに、入力装置909は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路等から構成されている。情報処理装置10のユーザは、この入力装置909を操作することにより、情報処理装置10に対して各種のデータを入力したり処理動作を指示したりすることができる。

0165

出力装置911は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置液晶ディスプレイ装置プラズマディスプレイ装置ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置プリンタ装置等がある。出力装置911は、例えば、情報処理装置10が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置10が行った各種処理により得られた結果を、テキスト又はイメージで表示するものであり、本実施形態においては、例えば図3に示す表示部130に対応する機能を有する。また、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号アナログ信号に変換して出力する。

0166

ストレージ装置913は、情報処理装置10の記憶部の一例として構成されたデータ格納用の装置であり、本実施形態においては、例えば図3に示す記憶部120に対応する機能を有する。ストレージ装置913は、例えば、HDD(Hard Disk Drive)等の磁気記憶デバイス半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。ストレージ装置913には、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等が格納される。例えば、本実施形態においては、ストレージ装置913は、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報、タイトル抽出処理の結果等の各種の情報を記憶することができる。

0167

また、図3では明示しなかったが、本実施形態に係る情報処理装置10は、通信装置915、ドライブ917及び接続ポート919を更に有してもよい。

0168

通信装置915は、例えば、通信網921に接続するための通信デバイス等で構成された通信インターフェースである。通信装置915は、例えば、有線又は無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード等である。また、通信装置915は、光通信用ルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用モデム等であってもよい。この通信装置915は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置915に接続される通信網921は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信ラジオ波通信又は衛星通信等であってもよい。

0169

ドライブ917は、記録媒体用リーダライタであり、情報処理装置10に内蔵、あるいは外付けされる。ドライブ917は、装着されている磁気ディスク光ディスク光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録されている情報を読み出して、RAM905に出力する。また、ドライブ917は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記憶媒体923に記録を書き込むことも可能である。リムーバブル記憶媒体923は、例えば、CDメディアDVDメディア、Blu−rayメディア等である。また、リムーバブル記憶媒体923は、コンパクトフラッシュ(登録商標)(CompactFlash:CF)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記憶媒体923は、例えば、非接触型ICチップを搭載したICカード(IntegratedCircuit card)又は電子機器等であってもよい。

0170

接続ポート919は、機器を情報処理装置10に直接接続するためのポートである。接続ポート919の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート又はRS−232Cポート等がある。この接続ポート919に外部接続機器925を接続することにより、情報処理装置10は、外部接続機器925から直接各種のデータを取得したり、外部接続機器925に各種のデータを提供したりする。

0171

なお、本実施形態では、図3に示す情報入力部110は、入力装置909、通信装置915、ドライブ917及び接続ポート919が有する情報入力機能を包括的に表現したものに対応する。つまり、<2.情報処理装置の構成>では、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターン等の各種の情報が、図3に示す情報入力部110を介して情報処理装置10に入力される実施例について説明したが、本実施形態における情報処理装置10への各種情報入力方法は特に限定されるものではなく、あらゆる方法が用いられてよい。例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンは、リムーバブル記憶媒体923からドライブ917を介して情報処理装置10に入力されてもよく、外部接続機器925から接続ポート919を介して情報処理装置10に入力されてもよい。また、例えば、タイトル抽出処理を行う対象となる文書データや、タイトル抽出処理において用いられるタイトルパターンに関する情報は、通信網921を介して配信され、通信装置915を介して情報処理装置10に入力されてもよい。

0172

以上、本発明の実施形態に係る情報処理装置10の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

0173

なお、上述のような本実施形態に係る情報処理装置10の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。

0174

<7.まとめ>
以上説明したように、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムにおいては、以下の効果が得られる。

0175

本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル候補抽出部142が、文書の階層構造を表すタイトルに対応するテキストパターンであるタイトルパターンに基づいて、対象とする文書のテキストデータから、タイトル候補を抽出する。更に、タイトル選択部143が、タイトル候補に含まれる順序情報に基づいて、タイトル候補の順序を確認する連番チェックを行うことにより、抽出されたタイトル候補の中からタイトルを選択する。従って、タイトル抽出処理において、抽出されたタイトル候補が、タイトルとして適切かどうかを判断することにより、文書に含まれるテキストデータから、文書の階層構造を示すタイトルをより正確に抽出することが可能となる。

0176

また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一の階層情報を有するタイトル候補ごとに連番チェックが行われてもよい。同一の階層情報を有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。

0177

また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、連番チェックの際に、文書のテキストデータにおける、階層構造の階層の区切り位置に関する情報である、区切り情報が用いられてもよい。区切り情報に基づいてタイトル選択処理が行われることにより、タイトル抽出処理の正確性をより向上させることができる。

0178

また、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムによれば、タイトル選択処理において、抽出されたタイトル候補のうち、同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われてもよい。同一のタイトルパターンを有するタイトル候補ごとに連番チェックが行われることにより、連番チェックの際の処理手順をより簡便なものとすることができる。また、同一のタイトルパターンを有するタイトル候補ごとに連番チェックを行う場合には、抽出されたタイトル候補に基づいて、タイトルパターンの中から、対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックが行われてもよい。対象とする文書の階層構造を表すタイトルに対応するタイトルパターンを選択し、当該タイトルパターンを有するタイトル候補についてのみ連番チェックを行うことにより、連番チェックを行うタイトル候補の数を減少させることができ、連番チェックをより効率的に行うことができる。

0179

また、上述した、同一の階層情報を有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番や、同一のタイトルパターンを有するタイトル候補に対する連番チェックにおいて連番チェックが行われる順番は、特に限定されるものではなく、文書の階層構造、種類等に応じて、ユーザによって適宜設定されてよい。

0180

ここで、タイトルパターンによっては、階層情報が一意に定められておらず、1つのタイトルパターンが、互いに異なる複数の階層情報を有している場合がある。その場合、タイトル候補抽出処理において抽出されたタイトル候補の階層情報は、ユーザによって適宜設定されてよい。例えば、学術論文のような、投稿(掲載)雑誌に応じて書式が決められている文書であれば、階層構造を表すタイトルのタイトルパターンも一意に定まっている可能性が高い。従って、ユーザは、対象とする文書の書式に応じて、予めタイトルパターンやその階層情報を適宜設定することができる。また、タイトル選択処理において、連番チェックに係る一連の処理の中で、タイトル候補の階層情報は、ユーザによって適宜変更されてもよい。例えば、タイトル選択処理においては、タイトル候補に何らかの階層情報を仮に付与した状態で連番チェックを行い、その結果に基づいて、適宜階層情報を変更する処理を行いながら、繰り返し連番チェックが行われてよい。

0181

更に、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムは、例えば、文書データが保存されたDBから、所望の文書を検索するシステムに対して好適に適用することができる。具体的には、ある文書データのDBに対する文書データの検索結果として、文書名とともに、本実施形態に係る情報処理装置、タイトル抽出方法及びプログラムを用いて当該文書から抽出されたタイトルが階層ごとに表示されてもよい。このように、文書名とともに、当該文書の階層構造を表すタイトルが表示されることによって、ユーザが文書の内容をより把握しやすくなるため、文書DBの中から所望の文書を見つけやすくなり、ユーザの利便性が向上する。

0182

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

0183

10情報処理装置
110情報入力部
120 記憶部
130 表示部
140 制御部
141文書読み込み部
142タイトル候補抽出部
143タイトル選択部
144表示制御部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ