図面 (/)

技術 情報処理装置、情報処理システム、情報処理方法、およびプログラム

出願人 ヤフー株式会社
発明者 川崎将平門脇拓也遠山魁永井隆広西賢太郎
出願日 2020年3月19日 (1年9ヶ月経過) 出願番号 2020-049207
公開日 2021年9月27日 (3ヶ月経過) 公開番号 2021-149560
状態 未査定
技術分野 知識ベースシステム
主要キーワード 未知情報 所定度合 タブレット型端末装置 ウエブ情報 対象事物 統合スコア ナレッジデータベース ペンギン
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2021年9月27日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

より効率的に有用な情報を取得することができる。

解決手段

情報処理装置は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、複数のエンティティと前記エンティティ間関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、前記評価部により第1所定度合以上の評価であると評価された装置から前記第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集部と、前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部とを備える。

概要

背景

従来、ウエブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。このクローラは、ウエブページ中のリンクを辿って、様々なIPアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベース蓄積される。

概要

より効率的に有用な情報を取得することができる。情報処理装置は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、複数のエンティティと前記エンティティ間関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、前記評価部により第1所定度合以上の評価であると評価された装置から前記第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集部と、前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部とを備える。

目的

本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理システム情報処理方法、およびプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、複数のエンティティと前記エンティティ間関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、前記評価部により第1所定度合以上の評価であると評価された装置から前記第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集部と、前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、を備える情報処理装置

請求項2

前記評価部は、ナレッジデータベースが有する情報と、前記第1収集部が収集した情報とに基づいて、前記ナレッジデータベースが有していない情報を第2所定度合以上有していると推定される装置の評価を、前記第1所定度合以上であると評価する、請求項1に記載の情報処理装置。

請求項3

前記評価部は、ナレッジデータベースが有する主エンティティと、前記主エンティティに従属する従属エンティティとの情報を参照し、前記第1収集部により収集されたウエブページの情報において、前記主エンティティと前記従属エンティティとが含まれる度合に基づいて、前記装置を評価する、請求項1または2に記載の情報処理装置。

請求項4

前記第2収集部により収集されたウエブページの情報から、前記ナレッジデータベースが有していない情報を抽出する抽出部を更に備え、前記提供部は、前記抽出部により抽出された抽出情報を前記ナレッジデータベースに提供する、請求項1から3のうちいずれか1項に記載の情報処理装置。

請求項5

前記抽出部は、前記第2収集部により収集されたウエブページの情報において、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識し、前記ウエブページにおいて、前記ナレッジデータベースに含まれ、関連付けられるべき前記第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ前記第1表現パターンに合致する第2表現パターンにおける前記第2主エンティティに従属する第2従属エンティティを抽出し、前記提供部は、少なくとも前記抽出部により抽出された前記第2従属エンティティを前記ナレッジデータベースに提供する、請求項4に記載の情報処理装置。

請求項6

前記第1表現パターンおよび前記第2表現パターンは、ウエブページの生成に用いられる言語の記述パターンである、請求項5に記載の情報処理装置。

請求項7

前記記述パターンは、言語の階層構造である、請求項6に情報処理装置。

請求項8

前記第1表現パターンであるウエブページの生成に用いられる言語の第1記述パターンと、前記第2表現パターンである前記言語の第2記述パターンとは類似し、前記抽出部は、前記第1記述パターンにおける前記第1主エンティティの第1位置、前記第1記述パターンにおける前記第1従属エンティティの第2位置、および前記第2記述パターンにおける前記第2主エンティティの第1位置に基づいて、前記第2記述パターンにおける第2位置を特定し、前記第2位置に記述された情報を前記第2従属エンティティとして抽出する、請求項5から7のうちいずれか1項に記載の情報処理装置。

請求項9

請求項4から8のうちいずれか1項に記載された情報処理装置と、前記情報処理装置の前記抽出部により提供された抽出情報を取得し、前記抽出情報に基づく情報を利用者端末装置に提供するナレッジデータベースと、を備える情報処理システム

請求項10

コンピュータが、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集処理と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理と、前記評価処理により第1所定度合以上の評価であると評価された装置から前記第1収集処理がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集処理と、前記第2収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、を備える情報処理方法

請求項11

コンピュータに、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集処理と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理と、前記評価処理により第1所定度合以上の評価であると評価された装置から前記第1収集処理がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集処理と、前記第2収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、を実行させるプログラム

技術分野

0001

本発明は、情報処理装置情報処理システム情報処理方法、およびプログラムに関する。

背景技術

0002

従来、ウエブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。このクローラは、ウエブページ中のリンクを辿って、様々なIPアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベース蓄積される。

先行技術

0003

特開2012−69171号公報

発明が解決しようとする課題

0004

しかしながら、上記従来の技術では、効率的に有用な情報を取得することができない場合があった。

0005

本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理システム、情報処理方法、およびプログラムを提供することを目的の一つとする。

課題を解決するための手段

0006

本発明の一態様は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、複数のエンティティと前記エンティティ間関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、前記評価部により第1所定度合以上の評価であると評価された装置から前記第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集部と、前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、を備える情報処理装置である。

発明の効果

0007

本発明の一態様によれば、より効率的に有用な情報を取得することができる。

図面の簡単な説明

0008

情報処理システム1の機能構成の一例を示す図である。
ナレッジデータベース42の一部を模式的に示す図である。
ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。
拡充処理の概要を説明するための図である。
収集装置100により実行される処理の流れの一例を示すフローチャートである。
S10で選択されたサンプリングウエブページの情報の一例を示す図である。
エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。
判定情報138の内容の一例を示す図である。
信頼度抽出情報140の内容の一例を示す図である。
既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。
決定処理の具体例(その3)について説明するための図である。
収集装置100により実行される未知情報抽出処理の流れの一例を示すフローチャートである。
抽出部110が記述パターンを認識する処理について説明するための図(その1)である。
抽出部110が記述パターンを認識する処理について説明するための図(その2)である。
処理の概要の一例を示す図である。
更新前のナレッジデータベース42の内容の一例を示す図である。
更新後のナレッジデータベース42の内容の一例を示す図である。
更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。
更新後のナレッジデータベース42に基づいて生成されたナレッジパネルNP2の一例を示す図である。

実施例

0009

以下、図面を参照し、本発明の情報処理装置、情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。

0010

[概要]
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、第1収集部と、評価部と、第2収集部と、提供部とを備える。第1収集部は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する。評価部は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第1収集部により収集されたウエブページのデータの提供元である装置を評価する。第2収集部は、評価部により第1所定度合以上の評価であると評価された装置から第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。そして、提供部は、第2収集部により収集された情報の少なくとも一部をナレッジデータベースに提供する。

0011

ナレッジデータベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とが記述されたものである。エンティティとは、対象事物実体または概念を表すものである。例えば、あるクエリが入力された場合において、そのクエリがエンティティに該当するものであれば、単なるキーワード検索よりも豊富な情報をユーザに返すことができる。

0012

ナレッジデータベースにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

0013

クラスは、エンティティの属性を示す情報である。クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

0014

例えば、くちばしを持ち、卵生脊椎動物であり、前肢になっている、という性質を持つ事物は、「」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。

0015

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

0016

<第1実施形態>
[構成]
図1は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、例えば、端末装置10、一以上のホスト20(図では20−1〜20−3)と、ナレッジデータベース装置30と、検索装置50と、収集装置100とを備える。端末装置10、ホスト20、および検索装置50は、ネットワークNWを介して互いに通信する。また、ナレッジデータベース装置30、検索装置50、および収集装置100は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えばWAN(Wide Area Network)やLAN(Local Area Network)、インターネット専用回線無線基地局プロバイダなどを含む。

0017

端末装置10は、ユーザが利用する端末装置である。端末装置10は、デスクトップ型端末装置や、ノートパソコンなどの可搬型端末装置スマートフォンタブレット型端末装置などである。ホスト20は、いわゆるウエブページを提供しているウエブサーバである。

0018

ナレッジデータベース装置30は、例えば、所定のデータ(例えば、画像やテキストデータ)に基づいてナレッジデータベース42を生成したり、後述するナレッジパネルを提供したりするサーバである。ナレッジデータベース装置30は、収集装置100により提供された情報を取得し、取得した情報に基づく情報を利用者の端末装置10に提供する。収集装置100により提供された情報とは、例えば、これまでにナレッジデータベース装置30が有していない新しい知識(情報)を含む。

0019

ナレッジデータベース装置30の記憶部40には、ナレッジデータベース42が記憶されている。図2は、ナレッジデータベース42の一部を模式的に示す図である。図2に示すように、エンティティには、エンティティ識別情報(例えば「E1〜E7」)と、エンティティ名(例えば「A水族館」など)と、クラス(例えば「CL01」)と、不図示の当該エンティティに関連する情報とが関連付けられている。また、エンティティ間の関係を示すエッジには、プロパティが関連付けられている。図2の例では、例えばプロパティとして、公式イトや、住所営業時間などが関連付けられている。

0020

なお、本実施形態では、図2のE2〜E7をエンティティとして表現しているが、これらの情報は、単にエンティティE1に関連付けられた情報であってもよい。

0021

図3は、ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。例えば、ユーザが端末装置10を操作して、ポータルサイトなどの検索窓にクエリを入力し、検索装置50にクエリに関する情報の検索依頼すると、検索装置50は、検索対象の情報を参照して、クエリに応じた情報を検索する。また、検索装置50は、ナレッジデータベース装置30に、クエリに関連するナレッジパネルの提供を依頼する。

0022

ナレッジデータベース装置30は、ナレッジデータベース42を参照して、クエリに応じた情報を取得し、取得した情報に基づいてナレッジパネルを生成し、生成したナレッジパネルを検索装置50に提供する。検索装置50は、検索結果とナレッジパネルとを含む画像の元データを生成し、生成した情報を端末装置10に提供する。例えば、クエリ「A水族館」が検索クエリである場合、図3に示すように、A水族館に関するウエブページの一覧と、A水族館のナレッジパネルNPとを含む画像が、ユーザの端末装置10の表示部に表示される。

0023

なお、以下の説明では、エンティティE1「A水族館」などのようにナレッジパネルにおいて主題となるようなエンティティを「主エンティティ」と称し、エンティティE2〜E7のように主題を補足する情報や主題に付随する情報(営業時間や住所、公式サイト等)のエンティティを「従属エンティティ」と称する場合がある。

0024

図1の説明に戻る。ナレッジデータベース装置30は、例えば、通信部32と、情報管理部34と、情報処理部36と、記憶部40を備える。通信部32は、ネットワークインターフェースカード(Network Interface Card)等の通信インターフェースを含む。情報管理部34は、ナレッジデータベース装置30で生成された情報を他装置に提供したり、他装置から提供された情報を管理したりする。情報処理部36は、検索装置50の依頼に応じてナレッジパネルを生成したり、収集装置100により提供された情報を用いてナレッジデータベース42を更新したりする。

0025

[収集装置]
収集装置100は、例えば、通信部102と、第1収集部104と、第2収集部106と、解析部108と、抽出部110と、提供部112と、記憶部130を備える。第1収集部104、第2収集部106、解析部108、抽出部110、および提供部112は、CPU(Central Processing Unit)等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置100のドライブ装置に装着されることで記憶装置にインストールされてもよい。解析部108は、「評価部」の一例である。

0026

記憶部130は、例えば、ROM(Read Only Memory)、フラッシュメモリSDカード、RAM(Random Access Memory)、HDD(Hard Disc Drive)、レジスタ等によって実現される。また、記憶部130の一部または全部は、NAS(Network Attached Storage)や外部ストレージサーバ装置等であってもよい。記憶部130には、例えば、収集情報132、エンティティ情報134、ホスト一覧情報136、判定情報138、抽出情報140、および信頼度付抽出情報142が記憶されている。これらの情報の詳細については後述する。なお、これらの情報のうち一部の情報(例えば信頼度付抽出情報142)は省略されてもよい。

0027

通信部102は、ネットワークNWを介して、ホスト20、ナレッジデータベース装置30または検索装置50と通信する。通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースを含む。

0028

第1収集部104は、所定のプロトコルに従って、ホスト20から情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。また、例えば、第1収集部104は、各ホスト20から少量のページ(以下、サンプリングウエブページ)を収集し、収集したサンプリングウエブページを収集情報132として記憶部130に記憶させる。

0029

第2収集部106は、解析部108により第1所定度合以上の評価であると評価されたホスト(例えばサーバ装置)から第1収集部104がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。

0030

解析部108は、ナレッジデータベース装置30が有する情報と、第1収集部104が収集した情報とに基づいて、ナレッジデータベース装置30が有していない情報を第2所定度合以上有していると推定される装置の評価を、第1所定度合以上であると評価する。

0031

解析部108は、ナレッジデータベース42を参照し、第1収集部104により取得されたウエブページ(例えばサンプリングウエブページ)において主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、当該ウエブページの提供元のホスト20を評価し、そのホスト20をサンプリングウエブページ以外の未収集のウエブページを優先的に収集する対象とするか否かを決定する。

0032

解析部108は、例えば、複数の対象ウエブページから同じファクトが得られた場合、複数の対象ウエブページの情報に基づいて、フォクトの信頼度を導出する。ファクトとは、ナレッジデータベース42のエンティティの組み合わせが含まれているという事実である。

0033

抽出部110は、第2収集部106により収集されたウエブページの情報から、ナレッジデータベース装置30が有していない情報を抽出する。

0034

抽出部110は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベース42を参照し、第2収集部106により取得されたウエブページにおいて、ナレッジデータベース42に含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。第1表現パターンおよび後述する第2表現パターンは、ウエブページの生成に用いられる言語の記述パターンである。記述パターンは、言語の階層構造である。

0035

抽出部110は、ナレッジデータベース42に含まれ且つ関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを、ウエブページにおいて抽出する。

0036

抽出部110は、第1表現パターンにおける第1主エンティティと第1従属エンティティとの相対関係に基づいて、抽出部110により抽出された第2表現パターンにおいて、第2従属エンティティを特定する。抽出部110の処理の詳細については後述する(図12図15参照)。

0037

提供部112は、抽出部110により抽出された情報をナレッジデータベース装置30に提供する。提供部112は、ナレッジデータベース42を拡充するために第2表現パターンに基づく情報をナレッジデータベース装置30に提供する。

0038

以下、ナレッジパネルで提供する情報を拡充するための処理(拡充処理)について説明する。図4は、拡充処理の概要を説明するための図である。以下の(1)−(6)の処理が実行されることにより、ナレッジパネルが拡充される。

0039

(1)第1収集部104が、多様なホスト(20−1、20−2・・・)が提供するコンテンツを少量ずつ収集して、記憶部130に収集情報132として記憶する。

0040

(2)解析部108は、既知の知識を使って、コンテンツを収集したホストに新しい知識(ナレッジデータベース装置30が有さない知識)がありそうか否かを評価する。図示する例では、解析部108は、ナレッジデータベース装置30に提供された情報を参照しているが、実際は、記憶部130のエンティティ情報134を参照して、この処理を行う。エンティティ情報134は、ナレッジデータベース42と同様の情報、或いは前述した図2で示したようなナレッジデータベース42の一部の情報である。この処理については、図5のフローチャートを参照して説明する。

0041

(3)解析部108は、上記の評価結果に基づいて、新しい知識の獲得が期待できるホスト一覧情報136を、第2収集部106が参照できるように生成する。

0042

(4)第2収集部106は、ホスト一覧情報136を参照して、新しい知識の獲得が期待される少数の有力なホストの全コンテンツを収集して保存する。この処理を深堀処理と称する場合がある。
(5)抽出部110は、深堀処理で収集されたコンテンツを解析して、新しい知識を獲得する。
(6)提供部112は、抽出された新しい知識を保存して、ナレッジデータベース装置30に提供する。

0043

例えば、これらの処理は、所定の周期で繰り返し実行される。この処理(上記の(3))において、解析部108は、ホスト一覧情報136を更新してもよい。例えば、前回の処理において新しい知識の獲得が期待できるホストであったが、今回の処理では新しい知識の獲得が期待できるホストでなくなった場合、解析部108は、ホスト一覧情報136から新しい知識の獲得が期待できなくなったホストを除いてもよい。また、ホスト一覧情報136には、新しい知識の獲得が期待できると期待される期待値が所定以上のホストが含まれていてもよい。この場合、解析部108は、ある処理の周期においてホストに付与される期待値が変更された場合、期待値に基づいてホスト一覧情報136のホストを更新する。第2収集部106は、更新されたホスト一覧情報136を参照して、新しい知識の獲得が期待される少数の有力なホストの全コンテンツを収集して保存する処理を行う。

0044

[フローチャート(その1)]
図5は、収集装置100により実行される処理の流れの一例を示すフローチャートである。本処理は、収集装置100が、対象のホストを深堀処理の対象とするか否かを決定する決定処理の一例である。処理の詳細については、後述する図6図8を参照して説明する。

0045

まず、抽出部110が、収集情報132のうち、同一のホストにより提供される一以上のサンプリングウエブページを選択する(S10)。次に、抽出部110は、エンティティ情報134を参照し、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択する(S12)。

0046

次に、抽出部110は、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定する(S14)。次に、抽出部110は、判定結果を判定情報138として記憶部130に記憶させる(S16)。

0047

次に、抽出部110は、すべての、エンティティとエンティティとの組み合わせを選択したか否かを判定する(S18)。すべての組み合わせを選択していない場合、ステップS12の処理に戻る。

0048

すべての組み合わせを選択した場合、抽出部110は、すべてのサンプリングウエブページの情報を選択したか否かを判定する(S20)。すべてのサンプリングウエブページの情報を選択していない場合、ステップS10の処理に戻る。

0049

すべてのサンプリングウエブページの情報を選択した場合、抽出部110は、判定結果である判定情報138に基づいて、深堀対象のホスト20を決定する(S22)。決定された深堀対象のホスト20の情報は、ホスト一覧情報136に含まれる。また、S22の処理に基づいて、ホスト一覧情報136は更新される。

0050

次に、第2収集部106が、決定された深堀対象であるホスト20において、収集していないウエブページ(サンプリングウエブページ以外のウエブページ)を収集し、収集した情報を収集情報132として記憶部130に記憶させる(S24)。すなわち、第2収集部106は、少量の収集結果から決定した有用なホスト(深堀対象のホスト)を深堀する深堀処理を行う。これにより本フローチャートの処理は終了する。

0051

なお、第2収集部106は、所定のタイミングで、深堀対象とされなかったホスト20からも、このホスト20が有し、且つ未収集の情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。

0052

[決定処理の他の一例]
また、上述したフローチャートの例では、抽出部110が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し(S12)、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
(A)抽出部110が、抽出対象のエンティティ(例えば、後述する図6、7のC美術館を列挙する。
(B)抽出部110が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
(C)抽出対象のエンティティが含まれている場合、抽出部110は、ナレッジデータベース42に含まれ、且つウエブページに含まれていたエンティティ(例えば、図6、7のAミュージアム、B博物館)と抽出対象のプロパティ(例えば、図6、7の公式サイト)で関連付けられていたエンティティ(例えば、図6、7のAミュージアム、B博物館の公式サイト)を列挙する。
(D)抽出部110が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、抽出部110は、判定結果に基づいて、当該ウエブページの提供元のホスト20を深堀対象とするか否かを決定する。

0053

[決定処理の具体例(その1)]
図6は、S10で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地名称と、観光地のURLとが含まれているものとする。例えば、サンプリングウエブページにおいて「Aミュージアム」、「URL001」、「B博物館」、「URL002」、「C美術館」、および「URL003」が含まれている。

0054

図7は、エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。例えば、「Aミュージアム」と「URL001」とがプロパティ「公式サイト」で関連付けられ、「B博物館」と「URL002」とがプロパティ「公式サイト」で関連付けられている。そして、エンティティ情報134には、エンティティ「C美術館」が含まれるが、「C美術館」には「URL003」は関連付けられていない。施設のURL(プロパティ)という関係に基づいて、施設の名称「Aミュージアム(第1主エンティティ))が「URL001(第1従属エンティティ)」に関連付けられている場合、施設のURL(プロパティ)という関係に基づいて、「URL002(第2従属エンティティ)」が関連付けられていない施設の名称「C美術館」は、「第2主エンティティ」の一例となる。

0055

図8は、判定情報138の内容の一例を示す図である。判定情報138は、ホストIDに対して、エンティティの組み合わせ、スコア、および深堀対象とするか否かの判定結果を示す情報が互いに関連付けられた情報である。前述した図5のフローチャートのS12〜S18の処理において、「Aミュージアム」と「URL001」との組み合わせ、および「B博物館」と「URL002」との組み合わせは、選択されたサンプリングウエブページの情報に含まれていると判定される。抽出部110は、例えば、上述したように2つの組み合わせがサンプリングウエブページの情報に含まれる場合、スコア「2」と決定する。例えば、抽出部110は、スコア「2」以上のサンプリングウエブページを提供したホスト20を深堀対象のホストとして決定する。スコア「2」以上のホストは、第1所定度合以上と評価されるホスト、または所定以上の期待値を有するホストの一例である。

0056

上記の例では、プロパティで関連付けられたエンティティとエンティティとの組み合わせが、第1収集部104により収集された情報に含まれる度合に基づいて、装置が評価されるものとして説明したが、これに限られず、例えば、所定のエンティティまたは所定のワードが第1収集部104により収集された情報に含まれる度合に基づいて、装置が評価されてもよい。

0057

[決定処理の具体例(その2)]
例えば、解析部108は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報140とを合わせて信頼度付抽出情報142を生成する。そして、解析部108は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置30に提供することを決定する。

0058

図9は、信頼度付抽出情報142の内容の一例を示す図である。信頼度付抽出情報142は、対象ウエブページに含まれるエンティティの組み合わせと、その組み合わせがナレッジデータベース42において既知であるか、未知であるかを示す情報と、対象ウエブページにおいてエンティティの組み合わせが既知の割合、および統合スコアが互いに関連付けられた情報である。例えば、解析部108は、対象ウエブページに含まれるエンティティの組み合わせがナレッジデータベース42において既知であるか、未知あるかを判定し、判定結果に基づいて、エンティティの組み合わせに対する既知のエンティティの組み合わせの割合を導出する。

0059

そして、解析部108は、所定のモデルに、対象ウエブページごとに導出した既知の割合を適用して、統合スコアを導出する。所定のモデルとは、例えば、式(1)である。式(1)の「x」は、ホストID「001」のホスト20から収集された第1対象ウエブページにおける既知の割合であり、「y」は、ホストID「002」のホスト20から収集された第2対象ウエブページにおける既知の割合である。「α」は、任意に設定されるパラメータ(例えば「0.1」)である。

0060

0061

図10は、既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。図10に示すように式(1)は、「x」、「y」の両方の既知の割合が高い場合、統合スコアは高い傾向に導出され、「x」、「y」の両方の既知の割合が低い場合、統合スコアは低い傾向に導出される関数である。

0062

このように、解析部108が、第1ウエブページと第2ウエブページとの既知の割合に基づいて、統合スコアを導出することにより、より精度よく統合スコアを導出することができる。そして、解析部108は、統合スコアに基づいて、深堀対象のホストを決定する。例えば、解析部108は、統合スコアが閾値以上のホスト(例えばホストの組み合わせ)を深堀対象のホストに決定する。

0063

上述したように、深堀対象のホスト20が決定され、深堀対象のホスト20に対して優先的に深堀処理が行われる。これにより、有用なホスト20が有する情報が優先的に収集される。なお、上記処理において、ホストに代えて、ウエブページごとや、ドメインごと、URLごと、URLにおける所定の階層ごとに既知の割合が求められ、ホストに対する統合スコアが求められてもよい。

0064

[決定処理の具体例(その3)]
例えば、解析部108は、ホスト20ごとや、ドメインごとに、そのホスト20またはドメインを深堀対象とするか否かを決定することに代えて、ドメインよりも下位の階層を深堀対象とするか否かを決定してもよい。

0065

図11は、決定処理の具体例(その3)について説明するための図である。図11に示すように、URLは、ドメインや、ドメインに関連付けられたドメインよりも下位の階層のディレクトリや、ファイル名などを含む。図11の例では、URLは、第1下位階層、および第1下位階層よりも下位の第2下位階層を含む。例えば、解析部108は、ドメインおよび第1下位階層ごとや、第2下位階層を含むURLごとに、深堀処理の対象とするか否かを決定してもよい。例えば、所定のドメインおよび第1下位階層が深堀対象とされる場合、第1下位階層以下の階層にアクセスすることにより取得可能な情報に対して深堀処理が行われる。

0066

また、解析部108は、所定の正規表現を含むまたは合致する表現を含むドメインまたはURLを、深堀処理の対象とするか否かを決定してもよい。例えば、解析部108は、ドメインおよび第1下位階層を有し、第2下位階層と合致する表現を含むURLを深堀処理の対象としてもよい。例えば、解析部108は、第2下位階層において「member」または「member」と「数字」とを含むURLを深堀処理の対象とする。

0067

[フローチャート(その2)]
図12は、収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ(第2従属エンティティ)が関連付けられていないエンティティ(第2主エンティティ)である。上述した例では、C美術館が特定エンティティに該当する。C美術館に対して、関連付けられるべきエンティティ「URL***」が関連付けられていないためである。処理の詳細については、後述する図13図15を参照して説明する。

0068

まず、収集装置100の抽出部110が、収集情報132に含まれるウエブページを取得する(S100)。

0069

次に、抽出部110が、取得したウエブページ(以下、対象ウエブページ)において、プロパティで関連付けられたエンティティとエンティティとの組み合わせを含む第1記述パターン(第1表現パターン)を認識する(S102)。エンティティとエンティティとの組み合わせは、例えば、特定エンティティと同一のクラスのエンティティ(例えば施設)と、特定エンティティに対して関連付けられるべきエンティティのクラスを有するエンティティ(例えば施設のURL)との組み合わせである。

0070

次に、抽出部110は、認識した第1記述パターンに基づいて、エンティティの組み合わせの相対位置を特定する(S104)。次に、抽出部110は、S100で取得した対象ウエブページから、特定エンティティを含み、且つ認識した第1記述パターンに合致する第2記述パターン(第2表現パターン)を抽出する(S106)。

0071

次に、抽出部110が、第2記述パターンにおいて、S104で特定した第1記述パターンの相対位置に対応する相対位置を特定する(S108)。次に、抽出部110が、特定した相対位置に関連付けられた情報のうち、特定エンティティが記述された位置(第1位置)とは異なる位置(第2位置)に関連付けられた情報を抽出し、抽出した情報を抽出情報140として記憶部130に記憶させる(S110)。抽出情報140は、特定エンティティと、本処理により抽出された特定エンティティに対して、所定のプロパティによって関連付けられるエンティティとが互いに関連付けられた情報である。

0072

次に、抽出部110は、すべての処理対象のウエブページの情報を選択したか否かを判定する(S112)。すべての処理対象のウエブページの情報を選択していない場合、S100の処理に戻る。すべての処理対象のウエブページ情報を選択した場合、提供部112が、抽出情報140をナレッジデータベース装置30に送信する(S114)。これにより本フローチャートの1ルーチンの処理は終了する。

0073

なお、処理対象のウエブページは、上述したように収集情報132に含まれるすべてのウエブページであってもよいし、設定されたウエブページであってもよい。また、処理対象のウエブページは、深堀対象のホスト20から取得されたウエブページであってもよい。また、抽出部110が、ナレッジデータベース42を参照し、第2収集部106により取得されたウエブページにおいて主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページ(またはホスト20)を抽出部110の処理対象とするか否かを決定してもよい。

0074

図13は、抽出部110が記述パターンを認識する処理について説明するための図(その1)である。図14は、抽出部110が記述パターンを認識する処理について説明するための図(その2)である。例えば、図13に示すように、抽出部110は、対象ウエブページのHTML(Hyper Text Markup Language)などのソースコードを認識する。そして、図14に示すように、抽出部110は、ナレッジデータベース42に含まれるエンティティの組み合わせを含むソースコードの記述パターンAを認識する。

0075

図示する例では、ソースコードは、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にエンティティ「Aミュージアム」が関連付けられ、「a」に対してエンティティ「URL」が関連付けられている。エンティティ「Aミュージアム」とエンティティ「URL001」とは、ナレッジデータベース42おいて関連付けられたエンティティの組み合わせである。また、エンティティ「B博物館」についても同様である。

0076

この場合において、抽出部110は、「span」の後にエンティティ「施設名」が関連付けられ、「a」に対してエンティティ「施設名のURL」が関連付けられていることを認識する。これにより、記述パターンにおける、エンティティの組み合わせの相対位置を特定される。「施設名」が付与されている位置は、「第1位置」の一例であり、「施設名のURL」が付与されている位置は、「第2位置」の一例である。

0077

抽出部110は、上記のような記述パターンAに合致する記述パターンを抽出する。合致する記述パターンは、ソースコードが、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にナレッジデータベース42に含まれる施設のエンティティが関連付けられているパターンである。例えば、抽出部110は、「span」の後にエンティティ「C美術館」が関連付けられた記述パターンAを認識する。そして、抽出部110が、エンティティの組み合わせの相対位置に基づいて、「a」に対してエンティティ「C美術館のURL003」が関連付けられていることを特定する。

0078

上記処理をまとめると図15に示すように表すことができる。収集装置100は、記述パターン「dt」、「span」、「dd」、「a」を認識し、「span」の後にエンティティ「施設名」が関連付けられ、「a」にエンティティ「施設名のURL」が関連付けられていることを認識する。そして、収集装置100は、ナレッジデータベース42において、エンティティ「URL」が関連付けられていないエンティティである施設名「C美術館」のURLは、記述パターンAの「a」に関連付けられていると認識する。

0079

このように、収集装置100は、エンティティの組み合わせを含む言語の階層構造である記述パターンに基づいて、未知の情報である特定エンティティに対して関連付けられる情報を特定することができる。換言すると、抽出部110は、第1表現パターンにおける所定の位置(例えば、第1主エンティティまたは「dt」)から第1従属エンティティに至るまでの階層構造における特定経路(「dt」→「span」→「dd」→「a」)を特定し、第2表現パターンにおいて、特定経路を辿って第2従属エンティティを特定することができる。

0080

図16は、更新前のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース42において、「C美術館」のURLは、エンティティ「C美術館」に対して関連付けられていない。

0081

図17は、更新後のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース装置30が、「C美術館」の「URL」を収集装置100から取得すると、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、収集装置100から送信されたURLを関連付ける。

0082

図18は、更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。ユーザが、検索クエリ「C美術館」を入力した場合、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられていないため、ナレッジパネルにおいて、URLを含めることができない。

0083

これに対して、更新後のナレッジデータベース42に基づいてナレッジパネルが生成された場合、図19に示すようにナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられているため、ナレッジパネルNP2において、URLを含めることができる。

0084

このように、ナレッジデータベース装置30が、更新されたナレッジデータベース42を用いることにより、より有益な情報をユーザに提供することができる。

0085

なお、上述した例は、ソースコードの表現パターンに基づいて、処理が行われるものとして説明したが、これに代えて(或いは加えて)、画像のパターンに基づいて、特定エンティティに対して関連付けられるべき情報が特定されてもよい。例えば、抽出部110は、画像における施設名が表示された位置とURLが表示された位置に基づいて、ナレッジデータベース42においてURLの情報が関連付けられていない施設のURLを特定してもよい。

0086

以上説明した第1実施形態によれば、収集装置100が、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第1所定度合以上の評価であると評価された装置から第1収集部104がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集し、収集した情報の少なくとも一部を前記ナレッジデータベースに提供することにより、より効率的に有用な情報を取得することができる。例えば、収集装置100が、単位時間あたりに収集できる情報には上限があるため、単純に情報を収集する場合、有用な情報を取得することができない場合がある。本実施形態の収集装置100は、第1収集部104が収集した情報を評価して、有用な情報を得られると推定される装置(ホスト)またはURL等に対して重点的に情報の収集を行う処理を行う。これにより、効率的に有用な情報を取得することができる。また、取得した情報は、ナレッジデータベース装置30に提供され、ナレッジデータベース装置30は、新たに取得した情報を利用者の端末装置10に提供することができる。これにより、利用者の利便性も向上する。

0087

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

0088

1‥情報処理システム、10‥端末装置、20‥ホスト、30‥ナレッジデータベース装置、42‥ナレッジデータベース、100‥収集装置、102‥通信部、104‥第1収集部、106‥第2収集部、108‥解析部、110‥抽出部、112‥提供部、130‥記憶部、134‥エンティティ情報、136‥ホスト一覧情報、138‥判定情報、140‥抽出情報、142‥信頼度付抽出情報

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ