図面 (/)

技術 情報取得プログラム、情報取得方法および情報取得装置

出願人 富士通株式会社
発明者 米田剛野呂述史田中哲
出願日 2014年11月14日 (6年0ヶ月経過) 出願番号 2016-558844
公開日 2017年8月31日 (3年2ヶ月経過) 公開番号 WO2016-075830
状態 特許登録済
技術分野 検索装置 文書処理装置
主要キーワード 切り出し手法 抽出定義 集約データ 取得数 各観光スポット 抽出数 データ取得装置 位置特定情報
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年8月31日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題・解決手段

文書に記載すべき情報を補完できる情報取得プログラム情報取得方法および情報取得装置を提供する。情報取得プログラムは、あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部(121、122)を参照して、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを取得する処理(133)をコンピュータ(100)に実行させる。また、情報取得プログラムは、記憶部(121、122)を参照して、文書中における特定のデータに関連する他のデータの位置を用いて他のデータを取得するとともに、取得した他のデータを用いて他のデータと所定の関連を有するデータを取得する処理(134)をコンピュータ(100)に実行させる。

概要

背景

インターネット上に公開されている情報を収集するためのツールとして、クローラツールが知られている。クローラツールは、インターネット上のホームページ巡回して、URL(Uniform Resource Locator)単位、すなわちページ単位で内容を保存する。また、ホームページの内容のうち、ユーザの求めるレイアウトフォーム内の項目に必要なデータを抽出して集約データを生成し、集約データをレイアウトフォームに合わせて出力することが提案されている。さらに、レイアウトフォーム上のデータ入力部に空欄が残ったときに、再度、データの抽出を行うことが提案されている。

また、構造情報を用いて構造化された構造化データから、予め指定した構造情報に対応したデータを取得して、テンプレートに配置することが提案されている。さらに、構造情報に対応するデータの少なくとも一部が存在していない場合に、データの補充に関する情報を送信することが提案されている。

概要

文書に記載すべき情報を補完できる情報取得プログラム情報取得方法および情報取得装置を提供する。情報取得プログラムは、あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部(121、122)を参照して、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを取得する処理(133)をコンピュータ(100)に実行させる。また、情報取得プログラムは、記憶部(121、122)を参照して、文書中における特定のデータに関連する他のデータの位置を用いて他のデータを取得するとともに、取得した他のデータを用いて他のデータと所定の関連を有するデータを取得する処理(134)をコンピュータ(100)に実行させる。

目的

本発明は、文書に記載すべき情報を補完できる情報取得プログラム、情報取得方法および情報取得装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

あるサイト文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得し、前記記憶部を参照して、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理をコンピュータに実行させることを特徴とする情報取得プログラム

請求項2

前記他のデータと前記所定の関連を有するデータを取得する処理は、前記他のデータを前記所定の関連に応じた検索エンジンに提供することで前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項1に記載の情報取得プログラム。

請求項3

前記他のデータと前記所定の関連を有するデータを取得する処理は、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得する処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項1に記載の情報取得プログラム。

請求項4

前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項1に記載の情報取得プログラム。

請求項5

前記所定の関連は、住所情報位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項1に記載の情報取得プログラム。

請求項6

あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記第一のデータの位置を用いて前記第一のデータを取得するとともに、取得した前記第一のデータを用いて前記第一のデータと前記第一の関連を有するデータを取得し、前記記憶部を参照して、前記第一のデータと前記第一の関連を有するデータが取得できない場合に、前記文書中における前記特定のデータに関連する前記第二のデータの位置を用いて前記第二のデータを取得するとともに、取得した前記第二のデータを用いて前記第二のデータと前記第二の関連を有するデータを取得する処理をコンピュータに実行させることを特徴とする情報取得プログラム。

請求項7

あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得し、前記記憶部を参照して、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理をコンピュータが実行することを特徴とする情報取得方法

請求項8

前記他のデータと前記所定の関連を有するデータを取得する処理は、前記他のデータを前記所定の関連に応じた検索エンジンに提供することで前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項7に記載の情報取得方法。

請求項9

前記他のデータと前記所定の関連を有するデータを取得する処理は、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得する処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項7に記載の情報取得方法。

請求項10

前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項7に記載の情報取得方法。

請求項11

前記所定の関連は、住所情報と位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項7に記載の情報取得方法。

請求項12

あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記第一のデータの位置を用いて前記第一のデータを取得するとともに、取得した前記第一のデータを用いて前記第一のデータと前記第一の関連を有するデータを取得し、前記記憶部を参照して、前記第一のデータと前記第一の関連を有するデータが取得できない場合に、前記文書中における前記特定のデータに関連する前記第二のデータの位置を用いて前記第二のデータを取得するとともに、取得した前記第二のデータを用いて前記第二のデータと前記第二の関連を有するデータを取得する処理をコンピュータが実行することを特徴とする情報取得方法。

請求項13

あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部と、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理、および、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理の双方を実行可能な制御部とを有することを特徴とする情報取得装置

請求項14

前記制御部は、前記他のデータを前記所定の関連に応じた検索エンジンに提供することで前記他のデータと前記所定の関連を有するデータを取得することを特徴とする請求項13に記載の情報取得装置。

請求項15

前記制御部は、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理を実行することを特徴とする請求項13に記載の情報取得装置。

請求項16

前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項13に記載の情報取得装置。

請求項17

前記所定の関連は、住所情報と位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項13に記載の情報取得装置。

請求項18

あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する記憶部と、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを得る処理が実行できない場合に、前記文書中における前記特定のデータに関連する前記第一のデータの位置を用いて前記第一のデータを取得するとともに、取得した前記第一のデータを用いて前記第一のデータと前記第一の関連を有するデータを取得する処理を実行し、前記第一のデータと前記第一の関連を有するデータが取得できない場合に、前記文書中における前記特定のデータに関連する前記第二のデータの位置を用いて前記第二のデータを取得するとともに、取得した前記第二のデータを用いて前記第二のデータと前記第二の関連を有するデータを取得する処理を実行可能な制御部とを有することを特徴とする情報取得装置。

技術分野

0001

本発明は、情報取得プログラム情報取得方法および情報取得装置に関する。

背景技術

0002

インターネット上に公開されている情報を収集するためのツールとして、クローラツールが知られている。クローラツールは、インターネット上のホームページ巡回して、URL(Uniform Resource Locator)単位、すなわちページ単位で内容を保存する。また、ホームページの内容のうち、ユーザの求めるレイアウトフォーム内の項目に必要なデータを抽出して集約データを生成し、集約データをレイアウトフォームに合わせて出力することが提案されている。さらに、レイアウトフォーム上のデータ入力部に空欄が残ったときに、再度、データの抽出を行うことが提案されている。

0003

また、構造情報を用いて構造化された構造化データから、予め指定した構造情報に対応したデータを取得して、テンプレートに配置することが提案されている。さらに、構造情報に対応するデータの少なくとも一部が存在していない場合に、データの補充に関する情報を送信することが提案されている。

先行技術

0004

特開2002−169836号公報
特開2008−282114号公報

発明が解決しようとする課題

0005

しかしながら、例えば、抽出条件を変更して再度データを抽出したり、データの補充に関する情報を送信しても、レイアウトフォームやテンプレートの欄に対応する所望のデータが得られない場合がある。このため、取得したデータを用いた文書を生成する場合に、データ、すなわち情報の欠落が少ない文書を生成することが困難である。

0006

一つの側面では、本発明は、文書に記載すべき情報を補完できる情報取得プログラム、情報取得方法および情報取得装置を提供することにある。

課題を解決するための手段

0007

一つの態様では、情報取得プログラムは、あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて前記特定のデータを取得する処理をコンピュータに実行させる。また、情報取得プログラムは、前記記憶部を参照して、前記文書中における前記特定のデータに関連する前記他のデータの位置を用いて前記他のデータを取得するとともに、取得した前記他のデータを用いて前記他のデータと前記所定の関連を有するデータを取得する処理をコンピュータに実行させる。

発明の効果

0008

文書に記載すべき情報を補完できる。

図面の簡単な説明

0009

図1は、データ取得装置の構成の一例を示すブロック図である。
図2は、対象記憶部の一例を示す図である。
図3は、項目記憶部の一例を示す図である。
図4は、ページ記憶部の一例を示す図である。
図5は、抽出データ記憶部の一例を示す図である。
図6は、抽出対象部分受付画面の一例を示す図である。
図7は、定義生成処理の一例を示すフローチャートである。
図8は、クロール処理の一例を示すフローチャートである。
図9は、クロール処理の他の一例を示すフローチャートである。
図10は、情報取得プログラムを実行するコンピュータの一例を示す図である。

0010

以下、図面に基づいて、本願の開示する情報取得プログラム、情報取得方法および情報取得装置の実施例を詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下の実施例は、矛盾しない範囲で適宜組み合わせてもよい。

0011

図1は、データ取得装置の構成の一例を示すブロック図である。図1に示すデータ取得装置100は、例えば、ネットワークNを介してインターネットに接続され、管理者に指定されたインターネット上のホームページ(以下、サイトともいう)を巡回し、所定のデータを取得してデータベース蓄積する。データ取得装置100は、例えば、ある地域の観光情報を取得するために、観光スポットのサイトや都道府県が設けた観光情報サイトを巡回して、各観光スポット住所電話番号、説明文等のデータを取得する。このとき、各観光スポットのサイトや観光情報サイトでは、各種データのフォーマット統一されていない場合が多い。このため、データ取得装置100は、取得するデータ項目の定義を予め生成し、定義に基づいて各サイトからデータを取得する。また、ある観光スポットの情報は、1つのサイトでは、所望のデータの全てについて取得できない場合がある。このため、データ取得装置100は、他のサイトの情報等を用いてある観光スポットの情報を補完する。

0012

すなわち、データ取得装置100は、あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶部120に記憶する。データ取得装置100は、記憶部120を参照して、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを取得する。また、データ取得装置100は、記憶部120を参照して、文書中における特定のデータに関連する他のデータの位置を用いて他のデータを取得するとともに、取得した他のデータを用いて他のデータと所定の関連を有するデータを取得する。これにより、データ取得装置100は、各種データ、つまり文書に記載すべき情報の一部が不足した文書について、文書に記載すべき情報を補完できる。

0013

ここで、文書としては、例えば、マークアップ言語記述された文書が挙げられ、例えばHTML(HyperText Markup Language)文書、XML(Extensible Markup Language)文書等が挙げられる。なお、以下の説明では、一例として、HTML文書を用いたホームページを巡回し、不足するデータを補完する場合について説明する。

0014

次に、データ取得装置100の構成について説明する。図1に示すように、データ取得装置100は、入力部101と、出力部102と、通信部110と、記憶部120と、制御部130とを有する。なお、データ取得装置100は、情報取得装置の一例である。また、データ取得装置100は、図1に示す機能部以外にも既知のコンピュータが有する各種の機能部を有することとしてもかまわない。

0015

入力部101は、例えば、キーボードマウス等の入力デバイスであり、データ取得装置100の管理者から各種情報の入力を受け付ける。例えば、入力部101は、データ取得装置100の管理者により、巡回するサイトのURL、取得するデータ項目等が入力され、入力結果を制御部130に出力する。また、入力部101は、例えば、SD(Secure Digital)メモリカード等のリーダライタであってもよい。入力部101は、例えば、SDメモリカードから読み込んだ、巡回するサイトのURL、取得するデータ項目等を制御部130に出力する。なお、入力部101は、入力デバイスとSDメモリカード等のリーダライタとの双方を有してもよい。

0016

出力部102は、例えば、各種情報を表示するための表示デバイスである。出力部102は、例えば、表示デバイスとして液晶ディスプレイ等によって実現される。また、出力部102は、SDメモリカード等のリーダライタであってもよい。出力部102は、制御部130から出力データが入力されると、出力データについて表示またはメモリカードへの書き込みを行う。なお、入力部101および出力部102は、一体化されてもよく、例えば、SDメモリカード等のリーダライタのように、双方の機能を有するデバイスであってもよい。また、出力部102は、例えば、表示デバイスとSDカードリーダライタの双方を有してもよい。

0017

通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークNを介して、例えばインターネットと有線または無線で接続され、インターネット上の各種サイトのサーバとの間で情報の通信を司る通信インタフェースである。通信部110は、インターネット上の各種サイトからページ内容、例えば、HTML文書、画像ファイルや、問合せ情報に対する応答情報等を受信する。通信部110は、受信したページ内容および応答情報を制御部130に出力する。また、通信部110は、制御部130から入力されたページ要求、問合せ情報等をインターネット上の各種サイトに送信する。

0018

記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子ハードディスク光ディスク等の記憶装置によって実現される。記憶部120は、対象記憶部121と、項目記憶部122と、ページ記憶部123と、抽出データ記憶部124とを有する。また、記憶部120は、制御部130での処理に用いる情報を記憶する。

0019

対象記憶部121は、データを取得するクロール処理の対象となるサイトのURL(以下、対象URLという)と、HTML文書における抽出対象部分の位置特定情報とを対応付けて記憶する。すなわち、対象記憶部121は、対象URLの定義を記憶する。図2は、対象記憶部の一例を示す図である。図2に示すように、対象記憶部121は、「URLID」、「対象URL」、「抽出対象部分の位置特定情報」といった項目を有する。また、「抽出対象部分の位置特定情報」は、「タイトル」、「住所」といった項目を有する。なお、抽出対象部分の位置特定情報は、図示はしないが、他にも、施設名称、電話番号、更新日位置情報、説明文といった項目を有する。対象記憶部121は、例えば、1つの対象URLごとに1レコードとして記憶する。

0020

「URLID」は、対象URLを識別する。「対象URL」は、クロール処理でアクセスする対象となるHTML文書のURLを示す。対象URLは、例えば、管理者によって入力部101の入力デバイスにより入力される。「抽出対象部分の位置特定情報」は、対象URLのHTML文書内における抽出対象部分の位置を特定するための情報を示す。「タイトル」は、対象となるHTML文書内のタイトルについて、タグの名称、タグの文書内における順番、および、タグの階層構造のうち1つ以上を組み合わせて、タグの階層構造上の位置を示す。「住所」は、対象となるHTML文書内の住所について、タグの名称、タグの文書内における順番、および、タグの階層構造のうち1つ以上を組み合わせて、タグの階層構造上の位置を示す。

0021

図2の1行目の例では、URLIDが「1」の対象URL「http://aaaa.bbb.ccc/ddd/eee/001.html」のHTML文書内における、タイトルおよび住所の位置特定情報を示す。タイトルの位置特定情報は、例えば、「 ,順番:1,/title/」と表現される。「 」は、例えば、CSS(Cascading Style Sheets)セレクタを用いて抽出したタイトルを示すタグの名称を示す。「順番:1」は、当該HTML文書内のタイトルを示すタグのうち、1番目のタグを示す。「/title/」は、当該HTML文書のタイトルを示すタグの階層構造を示す。なお、当該HTML文書からタイトルとして抜き出されるデータは、DIVタグに囲まれた部分となる。

0022

同様に、住所の位置特定情報は、例えば、「 ,順番:1,/info/address/」と表現される。「 」は、例えば、CSSセレクタを用いて抽出した住所を示すタグの名称を示す。「順番:1」は、当該HTML文書内の住所を示すタグのうち、1番目のタグを示す。「/info/address/」は、当該HTML文書の住所を示すタグの階層構造を示す。なお、当該HTML文書から住所として抜き出されるデータは、DIVタグに囲まれた部分となる。また、抽出対象部分の位置特定情報は、タグの名称、タグの順番、および、タグの階層構造のうち1つ以上を用いて特定してもよい。

0023

また、タグの名称は、正規表現を用いて表してもよい。図2の2行目の例では、住所を示すタグの名称を「/(.+)/ /住所:(.+)$/」と表現している。正規表現では、DIVタグに囲まれた箇所、または、「住所:」の後ろに続く箇所が、住所として抜き出されるデータとなる。さらに、抽出対象部分の位置特定情報は、CSSセレクタと正規表現を組み合わせてもよい。

0024

また、図2の3行目の例のように、抽出対象部分の位置特定情報は、切り出し手法を用いて表現してもよい。この場合には、タイトルの位置特定情報は、例えば、CSSセレクタを用いて「div#left h2,順番:3,/tps/table/」と表現される。また、住所の位置特定情報は、例えば、CSSセレクタと正規表現とを用いて「#infoContent @所在地\s+?(.+?)@is,順番:5,/info/address/」と表現される。

0025

図1の説明に戻って、項目記憶部122は、対象URLのページ内容から抽出するデータ項目の定義を記憶する。図3は、項目記憶部の一例を示す図である。図3に示すように、項目記憶部122は、「項目ID」、「データ名」、「データ型」、「切り出し手法」、「関連」といった項目を有する。項目記憶部122は、例えば、1つのデータ名ごとに、1レコードとして記憶する。

0026

「項目ID」は、データ項目、すなわちデータ名を識別する。「データ名」は、抽出するデータの名前を示す。データ名は、例えば、タイトル、住所(住所情報)、施設名称(施設名称情報)、電話番号、更新日、位置情報(位置座標情報)、説明文といったデータが挙げられる。「データ型」は、抽出したデータを抽出データ記憶部124に記憶する際の当該データの型を示す。データ型は、例えば、文字数字、日付、緯度経度といった型が挙げられる。「切り出し手法」は、対象URLのページ内容からデータを切り出す、つまり抜き出す手法を示す。切り出し手法は、例えば、CSSセレクタ、正規表現といった手法が挙げられる。「関連」は、データ名のうち、関連のあるデータ名を示す。関連は、例えば、住所と関連するデータ名として、施設名称、電話番号、位置情報といったデータ名が挙げられる。

0027

図1の説明に戻って、ページ記憶部123は、対象URLについて、クロール処理でアクセスして取得したページ内容、すなわち、HTML文書、画像ファイル等を記憶する。図4は、ページ記憶部の一例を示す図である。図4に示すように、ページ記憶部123は、「URLID」、「対象URL」、「記憶領域」といった項目を有する。ページ記憶部123は、例えば、1つの対象URLごとに1レコードとして記憶する。

0028

「URLID」は、対象URLを識別する。「対象URL」は、クロール処理でアクセスしたHTML文書のURLを示す。「記憶領域」は、取得したHTML文書や画像ファイル等を記憶した記憶領域を示す。記憶領域は、例えば、記憶部120のファイルシステムディレクトリを記憶し、対応するディレクトリにHTML文書や画像ファイル等を記憶する。なお、ページ記憶部123は、記憶領域に、取得したHTML文書や画像ファイルを直接記憶するようにしてもよい。

0029

図1の説明に戻って、抽出データ記憶部124は、HTML文書から抽出された、抽出対象部分のデータを記憶する。すなわち、抽出データ記憶部124は、クロール処理によって収集されたデータを格納するデータベースである。図5は、抽出データ記憶部の一例を示す図である。図5に示すように、抽出データ記憶部124は、「URLID」、「タイトル」、「住所」、「施設名称」、「電話番号」、「更新日」、「位置情報」、「説明文」といった項目を有する。抽出データ記憶部124は、例えば、1つのURLIDごとに1レコードとして記憶する。

0030

「URLID」は、対象URLを識別する。「タイトル」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書のタイトルを示す。「住所」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された住所を示す。「施設名称」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された施設の名称を示す。なお、タイトルと施設名称が同一である場合には、施設名称としてタイトルと同じデータを用いてもよい。

0031

「電話番号」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された電話番号を示す。「更新日」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、対象URLのHTML文書内に記載された更新日を示す。「位置情報」は、緯度経度を示す。緯度経度は、対象URLのHTML文書から抽出された住所に基づいて、例えば、外部のAPI(Application Programming Interface)サービスを利用することで取得される。なお、位置情報は、HTML文書内に緯度経度の記載があれば、当該緯度経度であってもよい。「説明文」は、対象URLのHTML文書から抽出されたデータ項目の1つであり、例えば、対象URLのHTML文書が観光スポットに関する文書であれば、文書内の観光スポットに関する説明文を示す。なお、住所等の各項目は、HTML文書内に記載がない場合には、例えば、タイトルに記載された観光スポット名を用いて、外部のAPIサービスを利用することで取得された住所等であってもよい。

0032

図1の説明に戻って、制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific IntegratedCircuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。制御部130は、登録部131と、クロール部132と、抽出部133と、補完部134と、出力制御部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図1に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

0033

登録部131は、対象URLの定義およびデータ項目の定義を登録する。登録部131は、例えば、管理者が入力部101を操作することにより、抽出対象部分とするデータ名、データ型、切り出し手法および関連の入力を受け付ける。登録部131は、受け付けたデータ名、データ型、切り出し手法および関連を対応付けて、データ項目の定義を生成する。登録部131は、生成したデータ項目の定義を項目記憶部122に記憶する。つまり、登録部131は、生成したデータ項目の定義を項目記憶部122に登録する。なお、関連の項目は、入力されたデータ名に基づいて、登録部131が自動で割り当てるようにしてもよい。

0034

登録部131は、対象URLに対応するHTML文書のソースを出力部102に出力して表示させる。登録部131は、例えば、管理者が入力部101を操作することにより、表示させた対象URLに対応するHTML文書のソース上で、抽出対象部分の選択を受け付ける。なお、登録部131は、対象URLのHTML文書を表示させて、HTML文書上で抽出対象部分の選択を受け付けるようにしてもよい。

0035

登録部131は、受け付けた抽出対象部分に対応するタグの階層構造上の位置を特定する。登録部131は、特定した階層構造上の位置を抽出対象部分の位置特定情報とする。また、登録部131は、抽出対象部分に対応するタグの名称、および、タグの文書内における順番を、特定した階層構造上の位置とともに抽出対象部分の位置特定情報とする。登録部131は、対象URLのHTML文書内の各データ項目について、抽出対象部分の選択を受け付けて、タグの階層構造上の位置を特定する。また、登録部131は、対象URLが複数ある場合には、それぞれの対象URLに対応するHTML文書について、同様に抽出対象部分に対応するタグの階層構造上の位置を特定する。登録部131は、対象URLと抽出対象部分の位置特定情報とを対応付けて、対象URLの定義を生成する。登録部131は、生成した対象URLの定義を対象記憶部121に記憶する。つまり、登録部131は、生成した対象URLの定義を対象記憶部121に登録する。

0036

ここで、図6を用いて、抽出対象部分の受付画面について説明する。図6は、抽出対象部分の受付画面の一例を示す図である。図6に示すように、受付画面21は、HTML文書のソースを表示する領域22と、抽出対象部分の選択を受け付ける領域23とを有する。登録部131は、例えば、抽出対象部分として住所の選択を受け付ける場合には、領域23内の抽出対象部分の選択欄で、住所が選択される。登録部131は、住所が選択されると、住所に対応するデータ項目の定義を項目記憶部122から読み出し抽出定義欄24に表示する。なお、抽出定義欄24は、編集可能なテキストとして表示されるようにしてもよい。

0037

登録部131は、抽出定義欄24のCSSセレクタおよび正規表現のうち1つ以上に対応する部分を、領域22に表示されたソース上に抽出対象部分25として、例えばバックグラウンドを着色して表示させる。登録部131は、管理者により抽出対象部分25が確認され、例えば、図示しないユーザインタフェース上の選択ボタンが押下されることで、抽出対象部分25の選択を受け付ける。また、登録部131は、例えば、管理者のマウス操作によって領域22の抽出対象部分25が選択され、選択された抽出対象部分25を受け付けるようにしてもよい。

0038

さらに、登録部131は、抽出対象部分25に対して、不要な文字を削る変換処理をしてもよい。図6の例では、登録部131は、管理者によって設定された変換処理欄26の変換定義を用いて、抽出対象部分25の文字列に対して変換処理を行う。登録部131は、例えば、変換結果27を抽出対象部分25の下に挿入して、バックグラウンドを抽出対象部分25と異なる色に着色して表示させる。登録部131は、変換処理を行った場合には、変換結果27を抽出対象部分として選択させて受け付けることができる。

0039

図1の説明に戻って、クロール部132は、対象記憶部121を参照して、対象URLを含むホームページ、例えば、ある観光情報サイトのトップページにアクセスする。すなわち、クロール部132は、ある観光情報サイトのサーバに対して通信部110を介してページ要求を送信し、当該サーバから通信部110を介してページ内容を受信する。クロール部132は、例えば、定期的または不定期に、つまり予め管理者によって指定された間隔または任意のタイミングで、対象URLを含むホームページにアクセスする。指定された間隔は、例えば、1日、1週間、1ヶ月等のように任意の間隔とすることができる。クロール部132は、対象記憶部121を参照して、ホームページ内の全リンクのうち、ページ内容を取得する対象URLを選定する。クロール部132は、例えば、観光スポットごとのページの対象URLを選定する。クロール部132は、選定した対象URLからページ内容を取得する。クロール部132は、取得したページ内容をページ記憶部123に記憶する。また、クロール部132は、ページ内容の取得が完了したことを示す取得完了情報を抽出部133に出力する。

0040

抽出部133は、クロール部132から取得完了情報が入力されると、対象記憶部121の抽出対象部分の位置特定情報を参照して、ページ記憶部123に記憶された対象URLのページ内容から、抽出対象部分のデータ項目のデータを抽出する。抽出部133は、抽出したデータをURLIDと対応付けて、項目記憶部122のデータ項目の定義に従って、抽出データ記憶部124に記憶する。

0041

抽出部133は、抽出したデータのうち、特定のデータが抽出できたか否かを判定する。抽出部133は、特定のデータが抽出できた場合には、対象記憶部121および項目記憶部122を参照して、抽出した特定のデータに関連する他のデータの位置特定情報に基づき他のデータを抽出する。抽出部133は、例えば、特定のデータが施設名称であり、施設名称が抽出できた場合に、施設名称に関連する他のデータとして、例えば、住所を抽出する。抽出部133は、抽出した他のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、補完部134に抽出完了情報を出力する。なお、抽出部133は、抽出した他のデータが既に抽出データ記憶部124に記憶されている場合には、他のデータを新たに記憶せずに補完部134に抽出完了情報を出力する。

0042

抽出部133は、特定のデータが抽出できない場合には、対象記憶部121および項目記憶部122を参照して、特定のデータに関連する他のデータの位置特定情報に基づき他のデータを抽出する。抽出部133は、例えば、特定のデータが施設名称であり、施設名称が抽出できない場合に、施設名称に関連する他のデータとして、例えば、住所を抽出する。抽出部133は、抽出した他のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、他のデータと所定の関連を有するデータの取得を要求する補完要求情報を補完部134に出力する。なお、他のデータと所定の関連を有するデータには、特定のデータが含まれ、上述の例では、施設名称が含まれる。なお、抽出部133は、抽出した他のデータが既に抽出データ記憶部124に記憶されている場合には、他のデータを新たに記憶せずに補完部134に補完要求情報を出力する。

0043

抽出部133は、抽出対象部分のデータ項目のデータを抽出する場合に、項目記憶部122の切り出し手法で指定された手法を用いて抽出する。抽出部133は、例えば、住所を示すタグの階層が「/info/address/」で定義され、例えば「.address」と記述されたCSSセレクタを用いることで住所を抽出する。この場合には、抽出部133は、例えば、タグ内に「address」を含む項目を、住所として切り出すことができる。

0044

また、抽出部133は、例えば、1行目に「.info」と記述され、2行目に「/(.+)/」と記述され、3行目に「/住所:(.+)$/」と記述された正規表現を用いることで住所を抽出する。この場合には、抽出部133は、例えば、DIVタグのクラスが「info」であるタグに含まれる階層から、「住所:」の文字列の後に続く文字列を住所として切り出すことができる。

0045

補完部134は、抽出部133から抽出完了情報が入力されると、項目記憶部122および抽出データ記憶部124を参照して、抽出した他のデータを用いて他のデータと所定の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する。補完部134は、例えば、他のデータが住所である場合には、住所を含む問合せ情報を、住所を受信することで緯度経度を示す位置情報を返信するAPIサービスを提供するサーバに、通信部110およびネットワークNを介して送信する。補完部134は、当該サーバから問合せ情報に対する応答情報を、通信部110およびネットワークNを介して受信することで、他のデータと所定の関連を有するデータとして、位置情報を取得する。補完部134は、取得した他のデータと所定の関連を有するデータ、例えば住所に対応する位置情報を、対象URLのURLIDと対応付けて抽出データ記憶部124に記憶する。

0046

補完部134は、抽出部133から補完要求情報が入力されると、項目記憶部122および抽出データ記憶部124を参照して、抽出した他のデータを用いて他のデータと所定の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する。補完部134は、例えば、他のデータが住所である場合には、住所を含む問合せ情報を、住所を受信することで施設名称を返信するAPIサービスを提供するサーバに、通信部110およびネットワークNを介して送信する。補完部134は、当該サーバから問合せ情報に対する応答情報を、通信部110およびネットワークNを介して受信することで、他のデータと所定の関連を有するデータとして、施設名称を取得する。すなわち、補完部134は、HTML文書から抽出できなかった施設名称について、補完することができる。

0047

また、補完部134は、例えば、他のデータが住所である場合には、住所を含む問合せ情報を、住所を受信することで緯度経度を示す位置情報を返信するAPIサービスを提供するサーバに、通信部110およびネットワークNを介して送信する。補完部134は、当該サーバから問合せ情報に対する応答情報を、通信部110およびネットワークNを介して受信することで、他のデータと所定の関連を有するデータとして、位置情報を取得する。補完部134は、取得した他のデータと所定の関連を有するデータ、例えば、住所に対応する施設名称および位置情報を、対象URLのURLIDと対応付けて抽出データ記憶部124に記憶する。補完部134は、他のデータと所定の関連を有するデータを、抽出データ記憶部124に記憶すると、出力情報を出力制御部135に出力する。

0048

すなわち、抽出部133は、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを取得する処理が実行できない場合に、文書中における特定のデータに関連する他のデータの位置を用いて他のデータを取得する。また、補完部134は、取得した他のデータを用いて他のデータと所定の関連を有するデータを取得する。補完部134は、取得した他のデータと所定の関連を有するデータを対象URLのURLIDと対応付けて抽出データ記憶部124に記憶する。補完部134は、取得した他のデータと所定の関連を有するデータを抽出データ記憶部124に記憶すると、出力情報を出力制御部135に出力する。

0049

補完部134は、APIサービスとして、上述した住所と位置情報との関連を返信するサービスの他に、電話番号と施設名称との関連を相互に返信するサービスを用いることができる。また、補完部134は、APIサービスとして、例えば、タイトル、施設名称、住所、電話番号、位置情報、公式サイト等を相互に関連付けたデータベースを有し、これらのうち1つ以上の情報を受信すると他の情報を返信するAPIサービスを用いてもよい。例えば、住所と緯度経度との関連情報を提供するAPIサービスとしては、住所および緯度経度について相互に関連を有する情報を提供できるGoogle Maps API等が挙げられる。また、例えば、電話番号および施設名称について相互に関連を有する情報を提供できるAPIサービスとしては、Foursquare API等が挙げられる。言い換えると、補完部134は、他のデータを所定の関連に応じた検索エンジンに提供することで、他のデータと所定の関連を有するデータを取得する。

0050

また、補完部134は、他のデータと所定の関連を有するデータとして、所定の関連を有する複数のデータを、インターネット上のAPIサービスから取得するようにしてもよい。補完部134は、例えば、HTML文書から施設名称が抽出できない場合に、施設名称に関連する住所をHTML文書から抽出し、住所に関連する位置情報についてAPIサービスを用いて取得する。また、補完部134は、例えば、施設名称に関連する電話番号を抽出し、電話番号に関連する施設名称についてAPIサービスを用いて取得する。なお、補完部134は、複数のデータについて、1つ目のデータが取得できない場合に、2つ目のデータを取得するといった処理を行ってもよいし、複数のデータをそれぞれ取得するような処理を行ってもよい。

0051

すなわち、抽出部133は、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを得る処理が実行できない場合に、文書中における特定のデータに関連する第一のデータの位置を用いて第一のデータを取得する。また、補完部134は、取得した第一のデータを用いて第一のデータと第一の関連を有するデータを取得する。さらに、抽出部133は、第一のデータと第一の関連を有するデータが取得できない場合に、文書中における特定のデータに関連する第二のデータの位置を用いて第二のデータを取得する。また、補完部134は、取得した第二のデータを用いて第二のデータと第二の関連を有するデータを取得する。補完部134は、取得した第一のデータと第一の関連を有するデータ、または、第二のデータと第二の関連を有するデータを対象URLのURLIDと対応付けて抽出データ記憶部124に記憶する。補完部134は、取得した第一のデータと第一の関連を有するデータ、または、第二のデータと第二の関連を有するデータを抽出データ記憶部124に記憶すると、出力情報を出力制御部135に出力する。

0052

出力制御部135は、補完部134から出力情報が入力されると、抽出データ記憶部124を参照して、抽出および取得したデータを出力データとして出力部102に出力して表示させる。また、出力制御部135は、抽出したデータの出力時に、過去のクロール処理または補完処理によって取得して抜き出したデータと、今回のクロール処理または補完処理によって取得して抜き出したデータとが異なる場合には、例えば表示色を変更するようにしてもよい。なお、出力制御部135は、出力部102がSDメモリカード等のリーダライタである場合には、抽出および取得したデータを出力データとして出力部102に出力して、SDメモリカード等に記憶させる。

0053

次に、実施例のデータ取得装置100の動作について説明する。まず、クロール処理の対象URLの定義と、抜き出すデータ項目の定義とを生成する定義生成処理について説明する。

0054

図7は、定義生成処理の一例を示すフローチャートである。登録部131は、例えば、管理者が入力部101を操作することにより、抽出対象部分とするデータ名、データ型、切り出し手法および関連の入力を受け付ける(ステップS1)。登録部131は、受け付けたデータ名、データ型、切り出し手法および関連を対応付けて、データ項目の定義を生成する。登録部131は、生成したデータ項目の定義を項目記憶部122に登録する(ステップS2)。

0055

登録部131は、対象URLに対応するHTML文書のソースを出力部102に出力して表示させる(ステップS3)。登録部131は、例えば、管理者が入力部101を操作することにより、表示させた対象URLに対応するHTML文書のソース上で、抽出対象部分の選択を受け付ける(ステップS4)。登録部131は、受け付けた抽出対象部分に対応するタグの階層構造上の位置を特定する(ステップS5)。登録部131は、特定した階層構造上の位置を抽出対象部分の位置特定情報とする(ステップS6)。また、登録部131は、抽出対象部分に対応するタグの名称、および、タグの文書内における順番を、特定した階層構造上の位置とともに抽出対象部分の位置特定情報とする。なお、登録部131は、対象URLのHTML文書内に複数のデータ項目がある場合には、それぞれ抽出対象部分の選択を受け付けて、タグの階層構造上の位置を特定する。

0056

登録部131は、対象URLと抽出対象部分の位置特定情報とを対応付けて、対象URLの定義を生成する。登録部131は、生成した対象URLの定義を対象記憶部121に登録する(ステップS7)。これにより、データ取得装置100は、データ項目の定義と対象URLの定義を登録することができる。

0057

続いて、クロール処理について説明する。図8は、クロール処理の一例を示すフローチャートである。クロール部132は、対象記憶部121を参照して、対象URLを含むホームページにアクセスする(ステップS11)。クロール部132は、対象記憶部121を参照して、ホームページ内の全リンクのうち、ページ内容を取得する対象URLを選定する(ステップS12)。

0058

クロール部132は、選定した対象URLからページ内容を取得する(ステップS13)。クロール部132は、取得したページ内容をページ記憶部123に記憶する。また、クロール部132は、ページ内容の取得が完了したことを示す取得完了情報を抽出部133に出力する。

0059

抽出部133は、クロール部132から取得完了情報が入力されると、対象記憶部121の抽出対象部分の位置特定情報を参照して、ページ記憶部123に記憶された対象URLのページ内容から、抽出対象部分のデータ項目のデータを抽出する(ステップS14)。

0060

抽出部133は、抽出したデータをURLIDと対応付けて、抽出データ記憶部124に記憶する(ステップS15)。抽出部133は、抽出したデータのうち、特定のデータが抽出できたか否かを判定する(ステップS16)。抽出部133は、特定のデータが抽出できた場合には(ステップS16:肯定)、対象記憶部121および項目記憶部122を参照して、抽出した特定のデータに関連する他のデータの位置特定情報に基づき他のデータを抽出する(ステップS17)。抽出部133は、抽出した他のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、補完部134に抽出完了情報を出力する。

0061

補完部134は、抽出部133から抽出完了情報が入力されると、項目記憶部122および抽出データ記憶部124を参照して、抽出した他のデータを用いて他のデータと所定の関連を有するデータを取得する(ステップS18)。補完部134は、他のデータと所定の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する。

0062

抽出部133は、特定のデータが抽出できない場合には(ステップS16:否定)、対象記憶部121および項目記憶部122を参照して、特定のデータに関連する他のデータの位置特定情報に基づき他のデータを抽出する(ステップS19)。抽出部133は、抽出した他のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、他のデータと所定の関連を有するデータの取得を要求する補完要求情報を補完部134に出力する。

0063

補完部134は、抽出部133から補完要求情報が入力されると、項目記憶部122および抽出データ記憶部124を参照して、抽出した他のデータを用いて他のデータと所定の関連を有するデータを取得する(ステップS20)。補完部134は、他のデータと所定の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する。

0064

補完部134は、取得した他のデータと所定の関連を有するデータを、URLIDと対応付けて抽出データ記憶部124に記憶する(ステップS21)。補完部134は、他のデータと所定の関連を有するデータを、抽出データ記憶部124に記憶すると、出力情報を出力制御部135に出力する。出力制御部135は、補完部134から出力情報が入力されると、抽出データ記憶部124を参照して、抽出および取得したデータを出力データとして出力部102に出力して表示させる(ステップS22)。これにより、データ取得装置100は、不足するデータ、つまり情報についてAPIサービスを用いて補完できるので、文書に記載すべき情報を補完できる。

0065

次に、クロール処理の他の一例について説明する。図9は、クロール処理の他の一例を示すフローチャートである。図9に示すクロール処理は、図8のクロール処理と比べて、特定のデータに関連する他のデータの抽出、および、他のデータと関連を有するデータの取得を複数のデータについて行う点が異なる。

0066

クロール部132は、対象記憶部121を参照して、対象URLを含むホームページにアクセスする(ステップS11)。クロール部132は、対象記憶部121を参照して、ホームページ内の全リンクのうち、ページ内容を取得する対象URLを選定する(ステップS12)。

0067

クロール部132は、選定した対象URLからページ内容を取得する(ステップS13)。クロール部132は、取得したページ内容をページ記憶部123に記憶する。また、クロール部132は、ページ内容の取得が完了したことを示す取得完了情報を抽出部133に出力する。

0068

抽出部133は、クロール部132から取得完了情報が入力されると、対象記憶部121の抽出対象部分の位置特定情報を参照して、ページ記憶部123に記憶された対象URLのページ内容から、抽出対象部分のデータ項目のデータを抽出する(ステップS14)。

0069

抽出部133は、抽出したデータをURLIDと対応付けて、抽出データ記憶部124に記憶する(ステップS15)。抽出部133は、抽出したデータのうち、特定のデータが抽出できたか否かを判定する(ステップS16)。抽出部133は、特定のデータが抽出できた場合には(ステップS16:肯定)、対象記憶部121および項目記憶部122を参照して、抽出した特定のデータに関連する第一のデータの位置特定情報に基づき第一のデータを抽出する(ステップS31)。抽出部133は、抽出した第一のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、補完部134に抽出完了情報を出力する。

0070

補完部134は、抽出部133から抽出完了情報が入力されると、抽出した第一のデータを用いて第一のデータと第一の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する(ステップS32)。

0071

抽出部133は、特定のデータが抽出できない場合には(ステップS16:否定)、対象記憶部121および項目記憶部122を参照して、特定のデータに関連する第一のデータの位置特定情報に基づき第一のデータを抽出する(ステップS33)。抽出部133は、抽出した第一のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、第一のデータと第一の関連を有するデータの取得を要求する補完要求情報を補完部134に出力する。

0072

補完部134は、抽出部133から補完要求情報が入力されると、抽出した第一のデータを用いて第一のデータと第一の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する(ステップS34)。

0073

抽出部133は、補完部134が第一のデータと第一の関連を有するデータが取得できたか否かを判定する(ステップS35)。抽出部133は、補完部134が第一のデータと第一の関連を有するデータが取得できた場合には(ステップS35:肯定)、ステップS38に進む。抽出部133は、補完部134が第一のデータと第一の関連を有するデータが取得できない場合には(ステップS35:否定)、特定のデータに関連する第二のデータの位置特定情報に基づき第二のデータを抽出する(ステップS36)。すなわち、抽出部133は、対象記憶部121および項目記憶部122を参照して、特定のデータに関連する第二のデータの位置特定情報に基づき第二のデータを抽出する。抽出部133は、抽出した第二のデータをURLIDと対応付けて、抽出データ記憶部124に記憶すると、第二のデータと第二の関連を有するデータの取得を要求する補完要求情報を補完部134に出力する。

0074

補完部134は、抽出部133から補完要求情報が入力されると、抽出した第二のデータを用いて第二のデータと第二の関連を有するデータを、例えば、インターネット上のAPIサービスから取得する(ステップS37)。

0075

補完部134は、取得した、第一のデータと第一の関連を有するデータ、または、第二のデータと第二の関連を有するデータを、URLIDと対応付けて抽出データ記憶部124に記憶する(ステップS38)。補完部134は、第一のデータと第一の関連を有するデータ、または、第二のデータと第二の関連を有するデータを、抽出データ記憶部124に記憶すると、出力情報を出力制御部135に出力する。出力制御部135は、補完部134から出力情報が入力されると、抽出データ記憶部124を参照して、抽出および取得したデータを出力データとして出力部102に出力して表示させる(ステップS39)。これにより、データ取得装置100は、1つ目の関連するデータが取得できない場合に、2つ目の関連するデータを取得することができ、より文書に記載すべき情報を補完できる。

0076

このように、データ取得装置100は、あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶部120に記憶する。データ取得装置100は、記憶部120を参照して、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを取得する。また、データ取得装置100は、記憶部120を参照して、文書中における特定のデータに関連する他のデータの位置を用いて他のデータを取得するとともに、取得した他のデータを用いて他のデータと所定の関連を有するデータを取得する。その結果、文書に記載すべき情報を補完できる。

0077

また、データ取得装置100は、他のデータを所定の関連に応じた検索エンジンに提供することで他のデータと所定の関連を有するデータを取得する。その結果、より文書に記載すべき情報を補完できる。

0078

また、データ取得装置100は、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを取得する処理が実行できない場合に、文書中における特定のデータに関連する他のデータの位置を用いて他のデータを取得する。また、データ取得装置100は、取得した他のデータを用いて他のデータと所定の関連を有するデータを取得する。その結果、文書から特定のデータを抽出できない場合であっても、他のデータを用いて特定のデータを補完することができる。

0079

また、データ取得装置100は、文書として、マークアップ言語を用いた文書を用いる。その結果、タグの階層構造上の位置を用いてデータの位置を特定できる。

0080

また、データ取得装置100は、所定の関連として、住所情報と位置座標情報、または、電話番号と施設名称情報を用いる。その結果、より文書に記載すべき情報を補完できる。

0081

また、データ取得装置100は、あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報とを記憶部120に記憶する。また、データ取得装置100は、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報を記憶部120に記憶する。データ取得装置100は、記憶部120を参照して、あるサイトの文書中における特定のデータの位置を特定する情報を用いて特定のデータを得る処理が実行できない場合に、文書中における特定のデータに関連する第一のデータの位置を用いて第一のデータを取得する。また、データ取得装置100は、記憶部120を参照して、第一のデータと第一の関連を有するデータが取得できない場合に、文書中における特定のデータに関連する第二のデータの位置を用いて第二のデータを取得する。また、データ取得装置100は、取得した第二のデータを用いて第二のデータと第二の関連を有するデータを取得する。その結果、1つ目の関連するデータが取得できない場合に、2つ目の関連するデータを取得することができ、より文書に記載すべき情報を補完できる。

0082

なお、上記実施例では、特定のデータに関連する他のデータの抽出、および、他のデータと関連を有するデータの取得を複数のデータについて行う場合に、2つのデータについて説明したが、これに限定されない。例えば、特定のデータに関連する他のデータの抽出数、および、他のデータと関連を有するデータの取得数は、任意の数のデータについて行うようにしてもよい。

0083

また、上記実施例では、住所と位置情報、電話番号と施設名称とが所定の関連を有し、相互に補完する場合を一例として説明したが、これに限定されない。例えば、観光スポットの説明文が取得できない場合には、観光スポットの名称または施設名称と、当該観光スポットまたは施設の住所とに基づいて、インターネット上のAPIサービスや観光スポットの公式サイト等から説明文を取得するようにしてもよい。

0084

また、上記実施例では、インターネット上のサイトから取得したHTML文書からデータを抽出したが、これに限定されない。例えば、SDメモリカードに格納したHTML文書を入力部101を介して取得して、取得したHTML文書からデータを抽出し、不足するデータをインターネット上のAPIサービスや観光スポットの公式サイト等から取得して補完するようにしてもよい。

0085

また、図示した各部の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各部の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、クロール部132と、抽出部133とを統合してもよい。

0086

さらに、各装置で行われる各種処理機能は、CPU(またはMPU、MCU(Micro Controller Unit)等のマイクロ・コンピュータ)上で、その全部または任意の一部を実行するようにしてもよい。また、各種処理機能は、CPU(またはMPU、MCU等のマイクロ・コンピュータ)で解析実行されるプログラム上、またはワイヤードロジックによるハードウェア上で、その全部または任意の一部を実行するようにしてもよいことは言うまでもない。

0087

ところで、上記の実施例で説明した各種の処理は、予め用意されたプログラムをコンピュータで実行することで実現できる。そこで、以下では、上記の実施例と同様の機能を有するプログラムを実行するコンピュータの一例を説明する。図10は、情報取得プログラムを実行するコンピュータの一例を示す図である。

0088

図10が示すように、コンピュータ200は、各種演算処理を実行するCPU201と、データ入力を受け付ける入力装置202と、モニタ203とを有する。また、コンピュータ200は、記憶媒体からプログラム等を読み取る媒体読取装置204と、各種装置と接続するためのインタフェース装置205と、他の情報処理装置等と有線または無線により接続するための通信装置206とを有する。また、コンピュータ200は、各種情報を一時記憶するRAM207と、ハードディスク装置208とを有する。また、各装置201〜208は、バス209に接続される。

0089

ハードディスク装置208には、図1に示した登録部131、クロール部132、抽出部133、補完部134および出力制御部135の各処理部と同様の機能を有する情報取得プログラムが記憶される。また、ハードディスク装置208には、対象記憶部121、項目記憶部122、ページ記憶部123、抽出データ記憶部124、および、情報取得プログラムを実現するための各種データが記憶される。入力装置202は、入力部101と同等の機能を有し、例えば、コンピュータ200の管理者から、対象URL、定義、管理情報等の各種情報の入力を受け付ける。モニタ203は、出力部102と同等の機能を有し、例えば、コンピュータ200の管理者に対して管理情報の画面、受付画面、データ表示画面等の各種画面を表示する。インタフェース装置205は、例えば、印刷装置等が接続される。通信装置206は、例えば、図1に示した通信部110と同様の機能を有しネットワークNと接続され、インターネット上のサイトと各種情報をやりとりする。

0090

CPU201は、ハードディスク装置208に記憶された各プログラムを読み出して、RAM207に展開して実行することで、各種の処理を行う。また、これらのプログラムは、コンピュータ200を図1に示した登録部131、クロール部132、抽出部133、補完部134および出力制御部135として機能させることができる。

実施例

0091

なお、上記の情報取得プログラムは、必ずしもハードディスク装置208に記憶されている必要はない。例えば、コンピュータ200が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ200が読み出して実行するようにしてもよい。コンピュータ200が読み取り可能な記憶媒体は、例えば、CD−ROMDVDディスク、USB(Universal Serial Bus)メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリハードディスクドライブ等が対応する。また、公衆回線、インターネット、LAN等に接続された装置にこの情報取得プログラムを記憶させておき、コンピュータ200がこれらから情報取得プログラムを読み出して実行するようにしてもよい。

0092

100データ取得装置
101 入力部
102 出力部
110通信部
120 記憶部
121 対象記憶部
122項目記憶部
123ページ記憶部
124抽出データ記憶部
130 制御部
131登録部
132クロール部
133 抽出部
134補完部
135出力制御部
N ネットワーク

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • 株式会社ウフルの「 デバイス管理システム、デバイス管理方法、情報処理装置、及びプログラム」が 公開されました。( 2020/09/24)

    【課題】デバイスの信頼性を向上可能なデバイス管理システム、デバイス管理方法、情報処理装置、デバイス及びプログラムを提供する。【解決手段】デバイス管理システム1は、複数の情報処理装置2をネットワーク3で... 詳細

  • 本田技研工業株式会社の「 サーバ」が 公開されました。( 2020/09/24)

    【課題】車両の利用者が、該利用者の生活圏外の人であって前記利用者の属性に類似した属性を持つ地域人(地元民)が利用したPOI情報をリコメンドとして受けることができるサーバを提供する。【解決手段】サーバ1... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ