図面 (/)

技術 複数のウェブサイトからデータを収集及びランク付けするためのシステム及び方法

出願人 フォルノヴァリミテッド
発明者 ルバノヴィッチ,ミハイルバビツキー,ドミトリー
出願日 2009年12月27日 (9年6ヶ月経過) 出願番号 2011-542972
公開日 2013年5月9日 (6年2ヶ月経過) 公開番号 2013-515977
状態 特許登録済
技術分野 検索装置 特定用途計算機 計算機間の情報転送
主要キーワード ランク付けシステム 演算プラットフォーム 内側構造 Y座標 幾何学的形 全自動式 フライト数 ランク付けモジュール
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年5月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題・解決手段

複数の関連サイトから情報を収集し、情報を分析し、将来の使用のためにデータベース関連情報を記憶するためのシステム及び方法。本発明の一態様によると、システムは自動的に、あるいは別個に取得した、サイト提供リストを用いて、それらを照会し、各サイトからの検索結果を分析する。情報は更に、任意かつ好適にランク付けしてもよい。

概要

背景

インターネットは情報を探索するための主要なリソースとなっている。複数の対象に関するサービス又は情報を提供するウェブサイトが非常な人気となっている。このようなウェブサイトは例えば、販売用の車を提供するサイト不動産を提供する不動産サイト、又はユーザがユーザの興味のある人々についての情報と接することが可能なソーシャルネットワークサイトである。

残念なことに、車といった特定の項目に関する情報を探索する人々は、例えば様々なサイトから情報を検索し、かつこれらの情報を手動で組み合わせなければならない。更には、情報の一部は冗長であり、例えば、同一の不動産に関する情報は2以上の不動産のサイトに掲載されうる。

一部のウェブサイトは関連ウェブサイトとの契約を定めて、これらのサイトからの情報を収集して、別のサイトにおけるこれらの情報を提示している。残念なことに、この運用は手動でなされ、契約に基づくため、情報が収集されるサイトの量は限定される。

概要

複数の関連サイトから情報を収集し、情報を分析し、将来の使用のためにデータベース関連情報を記憶するためのシステム及び方法。本発明の一態様によると、システムは自動的に、あるいは別個に取得した、サイトの提供リストを用いて、それらを照会し、各サイトからの検索結果を分析する。情報は更に、任意かつ好適にランク付けしてもよい。

目的

このようなウェブサイトは例えば、販売用の車を提供するサイト、不動産を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数のウェブサイトからデータを自動集約するための方法であって:i.複数の関連サイトからの前記データについて自動的かつ定期的に照会するステップと;ii.該照会ステップによる結果を分析するステップであって、前記結果が少なくとも1のドキュメントを含み、該分析ステップが前記ドキュメントのページレイアウト幾何学的に分析するステップを具え、該幾何学的な分析ステップが:前記ドキュメントの1以上の幾何学的特性を特定するステップと;前記ドキュメントのレイアウトを特定するために前記1以上の幾何学的特性を分析するステップと;前記レイアウト内にある複数のレコード格納部を探索するステップと;意味解析によって、及び前記1以上の幾何学的特性によって、少なくとも1のレコード格納部からレコードの関連性を特定するステップと;を具えるステップと;iii.データベースに該関連レコードのデータを記憶するステップと;iv.ユーザからの要望に応じて、前記データを前記データベースから検索するステップと;を具えることを特徴とする方法。

請求項2

請求項1に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが:各々のレコード格納部から複数のレコードを同定するステップと;前記レコードをグループに分けるステップであって、各々のグループが同一の幾何学的パターンであるステップと;を更に具え、前記方法が:前記各々のグループの代表部の意味解析を行うステップと;前記意味解析の結果によって関連データが同定される場合にデータベースに前記データと該パターンとを保存するステップと;を更に具えることを特徴とする方法。

請求項3

請求項2に記載の方法において、他のページで前記パターンが同一のグループは、当該グループからのデータが更なる意味解析を行わずに取得されるため、意味的特徴が同一であると推測されることを特徴とする方法。

請求項4

請求項1に記載の方法において、前記レイアウト内にある複数のレコード格納部を探索する前記ステップが:該格納部領域の大きさ;及び前記ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性;のランク付けを行うステップと;選択したレコード格納部を形成するために、前記関連性を特定する前記ステップが前記選択したレコード格納部で実行されるように、前記ランク付けに応じてレコード格納部を選択するステップと;を更に具えることを特徴とする方法。

請求項5

請求項4に記載の方法において、前記レコードの前記関連性を特定する前記ステップが:前記選択したレコード格納部内で複数のレコードを同定するステップと;幾何学的パターンの同一なレコードが同一のグループに属することを同定するために、前記複数のレコードをグループに前記幾何学的パターンに応じてグループ化するステップと;各々のグループの代表レコードで意味解析を行うステップと;前記代表レコードに関連性がある場合に、該レコードのグループからのデータを保存するステップと;を具えることを特徴とする方法。

請求項6

請求項5に記載の方法において、前記幾何学的パターンに応じてグループ化するステップが:前記レコード格納部内で幾何学的な矩形又は他の幾何学的な形状を同定することによって;かつ前記矩形又は他の幾何学的に規定された形状を順序づけすることによって;行われることを特徴とする方法。

請求項7

請求項6に記載の方法が:ユーザからの照会を受信し、当該照会を複数のレコードと比較するステップと;前記照会を比較する前記ステップのために、前記幾何学的パターンに応じて複数のレコードのランク付けを行うステップと;を更に具えることを特徴とする方法。

請求項8

請求項7に記載の方法が:「新しさ」、信頼度及び/又は人気による情報源のウェブサイトのランク付け、レコードの完全性、あるいは前記ウェブサイトでの前記レコードの顕著性のうちの1以上に応じて複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。

請求項9

請求項7に記載の方法が、複数の加重属性に応じて前記複数のレコードのランク付けを行うステップを更に具えることを特徴とする方法。

請求項10

請求項7に記載の方法が:前記複数のレコードのランク付けを行う前記ステップが1以上の関連レコードのグループに対してのみに行われるように、前記複数のレコードのランク付けを行う前記ステップの前に前記複数のレコードを前記1以上の関連レコードのグループと1以上の非関連レコードのグループとに分けるステップであって、前記複数のレコードを分ける前記ステップが前記照会を複数の項目に分解するために前記ユーザの照会を分析するステップを具えるステップと;前記レコードを複数の項目に分解するために各々のレコードを分析するステップと;前記項目の数値を、前記ユーザの照会及び前記レコードと比較するステップと;を更に具えることを特徴とする方法。

請求項11

請求項10に記載の方法において、前記照会を複数のレコードと比較する前記ステップが:各々のレコード及び前記照会を変数ベクトルとして表わすステップであって、前記変数の加重に差異があるステップと;その類似性を特定するように前記変数のベクトルを比較するステップと;を更に具えることを特徴とする方法。

請求項12

データベースの照会の結果を含むページレイアウトを幾何学的に分析するための方法であって、当該方法が:a.前記レイアウト内にある少なくとも1のレコード格納部を、前記レイアウトに応じて前記レコード格納部を同定することによって特定するステップと;b.複数のレコード格納部が特定された場合に、前記レイアウトのレコードの大きさを比較するか、あるいはページの最も規則的な領域を推定するかのいずれかによって、レコード格納部を選択するステップと;c.前記レコード格納部内のレコードをグループに分けるステップであって、各々のグループの幾何学的パターンが同一であるステップと;d.意味解析によって前記レコードを分析するステップと;を具え、前記意味解析が複数のキーワードに応じて分析するステップを具えることを特徴とする方法。

請求項13

請求項12に記載の方法において、前記選択したレコード格納部内の矩形部が同定されることを特徴とする方法。

請求項14

請求項13に記載の方法において、該同定が前記レコード格納部の内部の前記レコードを順序づけすることによって、かつ、境界線を用いて前記レコードを分離することによってなされることを特徴とする方法。

請求項15

複数のウェブサイトからデータを自動集約するためのシステムであって:a.関連ウェブサイトの提供されたリストからデータを取得するためのクローラの処理部と;b.前記データを分析するための幾何学的分析器の処理部であって、前記データが少なくとも1のドキュメントを含み、該分析が前記ドキュメントのページレイアウトの幾何学的な分析を含み、該幾何学的な分析が:前記ドキュメントの1以上の幾何学的特性の特定と;幾何学的パターンを検出するための前記1以上の幾何学的特性の分析と;前記レイアウト内の複数のレコード格納部の探索と;前記幾何学的パターンによる、少なくとも1のレコード格納部からのレコードの関連性の特定と;を含む、幾何学的分析器の処理部と;c.前記関連レコードをテキスト通りに分析するための意味層と;d.前記意味層によって検索される情報を記憶するためのデータベースと;を具えることを特徴とするシステム。

技術分野

0001

本出願は2008年12月31日付けの米国仮特許出願第61/193,862号の優先権を主張し、本明細書中で十分に説明されるがごとく引用によって組み込まれている。

0002

本発明は:ウェブサイトから情報検索すること、特に複数のウェブサイトからの情報の自動集約することと、任意にこのような情報をランク付けすることに関する。

背景技術

0003

インターネットは情報を探索するための主要なリソースとなっている。複数の対象に関するサービス又は情報を提供するウェブサイトが非常な人気となっている。このようなウェブサイトは例えば、販売用の車を提供するサイト不動産を提供する不動産サイト、又はユーザがユーザの興味のある人々についての情報と接することが可能なソーシャルネットワークサイトである。

0004

残念なことに、車といった特定の項目に関する情報を探索する人々は、例えば様々なサイトから情報を検索し、かつこれらの情報を手動で組み合わせなければならない。更には、情報の一部は冗長であり、例えば、同一の不動産に関する情報は2以上の不動産のサイトに掲載されうる。

0005

一部のウェブサイトは関連ウェブサイトとの契約を定めて、これらのサイトからの情報を収集して、別のサイトにおけるこれらの情報を提示している。残念なことに、この運用は手動でなされ、契約に基づくため、情報が収集されるサイトの量は限定される。

0006

背景技術は、幾何学的分析及び意味解析に基づいており、関連ウェブサイトから収集された情報に基づいており、あるサイトにおいて収集した関連情報を提供している、完全自動式のプロセスを教示又は示唆していない。

0007

本発明は、本発明の少なくともいくつかの実施形態においては、複数の関連サイトからの情報を収集し、幾何学的及び意味的の双方の情報を分析し、将来の使用のためにデータベースに関連情報を保存するシステム及び方法を提供することによって背景技術の欠陥を克服する。幾何学的分析は意味解析と組み合わせて、意味解析のみと比較してより正確かつ有効な探索を提供する。

0008

本発明の一実施形態によると、本システムは関連サイトを自動的かつ好適には定期的に照会し、各々のサイトから検索した結果を分析する。このような結果はHTML/XMLページから、あるいはその他のテキストフォーマットのページから検索できる。この実施形態によると、ブラウザHTMLドキュメントにあるレンダリングコンポーザエンジンを適用して、例えば任意に、ドキュメントオブジェクトモデルDOM)の木を形成することによって、ドキュメントの1以上の幾何学的特性を判定する。このような木の幾何学的特性は好適には、ドキュメントのレイアウトを判定するために分析される。情報は好適にはその後、ドキュメントのレイアウトに従ってドキュメントから検索される。任意には、意味解析が更に適用される。

0009

本発明の更に別の実施形態によると、このような幾何学的分析を通して取得される情報をランク付けするための方法が提供される。本方法は任意には、完全なドキュメントそのものをランク付けするのみではなく、分析したドキュメント内に含まれる1以上のレコード又は情報のユニットを個別にかつ分離してランク付けすることを特徴とする。「レコード(record)」によって、ウェブサイトの「バックオフィス(back office)」と関連づけられるか、あるいはその一部を形成するデータベース又は他の情報の記憶装置から取得又は誘導される任意の情報のユニットが示される。情報のユニットは好適には、データベースに記憶されたデータの領域に対し全体の階層を形成する。限定されない例としては、不動産のデータベースについては、レコードは任意には一覧表にある不動産の記載(例えば、建物事務所、及び集合住宅等の販売及び賃貸に関する)である。この実施形態によって、関連情報はドキュメント自体及びそのランクに拘らずランク付けできる。このようなランク付けは情報のユニットが関心の対象である場合、及び/又は情報のユニットが「深層ウェブ(deep web」に存在する場合に有用であり、情報のユニットは動的に形成されるウェブページの一部となる。

0010

前述のように、ウェブページは一般的には複数の情報を含む。関連する広告等といった情報の一部は関連情報を含まない。関連情報の検出は内容及び文脈の関連性の探索に基づく意味解析によって、例えば、キーワードを探索することによってなされうる。関連情報の検出は更に幾何学的分析によってでき、ページのレイアウト、関連情報の位置に関する推定、あるいはその組合せに基づいている。残念なことに、当該技術分野のシステム及び方法は、関連情報の位置の事前に規定された記載に基づき、かつこのような幾何学的分析の意味解析との組合せに基づく幾何学的分析を提供するものはない。本発明の多くの重要な特徴のうち、少なくともいくつかの実施形態においては、既知の技術のこれらの欠点を克服する。

0011

2008年4月24日公表の2006年10月24日付出願の米国特許出願公開第2008/0098300号は、レンダリングされたページを幾何学的に分析することによってウェブページから関連情報を取得するためのシステム及び方法を教示する。しかしながら、この出願は特に、ページの幾何学的な分析方法及び意味解析を幾何学的分析と組み合わせる方法を開示又は示唆していない。

0012

2006年7月20日公表の2005年4月25日付出願の米国特許出願公開第2006/0161569号は、文脈の関連性を探索することによって木構造における対象のノードを同定することを教示するが、しかしながら、この特許はページの幾何学的構造を分析することによるウェブページにおけるデータの関連性をチェックする方法を教示又は示唆しない。

0013

他に規定されない限り、本明細書中で用いられる総ての技術的及び科学的用語は本発明が属する当該技術分野において、当業者によって通常理解されるのと同一の意味を有する。本明細書中で提供される材料、方法及び実施例は単なる例示であり、限定することを目的としない。

0014

本発明の方法及びシステムの実装は、特定の選択したタスク又は段階を手動で、自動で、あるいはその組合せで実行又は完了させることを含む。更には、本発明の方法及びシステムの好適な実施形態の実際の装置及び設備について、いくつかの選択した段階は、ハードウェアによって、あるいは任意の基本システム上のソフトウェア若しくはファームウェア、又はその組合せによって、実装されうる。例えばハードウェアとして、本発明の選択した段階はチップ又は回路として実装できる。ソフトウェアとしては、本発明の選択した段階は、任意の好適な基本システムを用いてコンピュータによって実行されうる複数のソフトウェア命令として実装できる。任意の場合においては、本発明の方法及びシステムの選択した段階は、複数の命令を実行するための演算プラットフォームといったデータプロセッサによって実行されるように記載される。

0015

本発明は「コンピュータネットワーク(computer network)」上の「コンピュータ(computer)」について記載しているが、任意にはデータプロセッサ及び/又は1以上の命令を実行する能力を特徴とする任意のデバイスはコンピュータとして記載してもよく、限定しないがPC(パーソナルコンピュータ)、サーバミニコンピュータを含むことに留意すべきである。相互に通信するこのようなデバイスの任意の2以上、及び/又は任意の他のコンピュータと通信する任意のコンピュータは、任意に「コンピュータネットワーク」を具えてもよい。

図面の簡単な説明

0016

本発明は本明細書中では添付の図面で単なる例示によって記載されている。特に詳細な図面によると、図示した事項は実施例であり、本発明の好適な実施例の例示的な考察のみを目的とするものであり、もっとも有用であると考えられるものと、本発明の原理及び概略的な態様の容易に理解される記載とを提供するために提示される。この観点においては、本発明の基本的な理解のために必要となるものよりも詳細に本発明の構造上の詳細を示すことを企図するものではなく、図面にある記載は、どのように本発明のいくつかの形態が実際に具現化できるかを当該技術分野の当業者に明確にするものである。

0017

図1は、システムの概略図である。
図2は、特定のサイトに関するデータベースの構築について記載した概略的なフローチャートである。
図3は、ページ分析について記載した高次のフローチャートである。
図4は、レンダリングされたページを例示するダイアグラムである。
図5は、ページ内部の選択したレコード格納部を例示するダイアグラムである。
図6は、レコード格納部内部のグループを例示するダイアグラムである。
図7は、レコード格納部を同定するプロセスについて記載した例示的なダイアグラムである。
図8は、レコード格納部内部のグループを同定する例示的なプロセスについて記載したダイアグラムである。
図9は、本発明の少なくともいくつかの実施形態による、意味解析とドキュメント内部のレコードの更なる幾何学的特性との組合せによってレコードをランク付けするための例示的な実例のプロセスを示す。
図10は、本発明の少なくともいくつかの実施形態による、関連性ランク付けシステム910を実行するための例示的な実例のプロセスについて記載する。

実施例

0018

本発明は少なくともいくつかの実施形態においては、ウェブサイトからの情報検索のための、特に複数のウェブサイトからの情報の自動集約のためのシステム及び方法である。少なくとも1の実施形態によると、本システム及び方法は複数の関連サイトからの情報を収集し、幾何学的にかつ意味的に情報を分析し、将来の使用のためにデータベースに関連情報を任意に記憶する。幾何学的分析は意味解析と組合わせて、意味解析のみと比較して更に正確かつ有効な探索を提供する。

0019

本発明の一実施形態によると、本システムは自動的かつ定期的に関連サイトを照会し、各々のサイトから検索した結果を分析する。このような結果はHTML/XMLページから、あるいはその他のテキストフォーマットのページから検索できる。この実施形態によると、ブラウザはHTMLドキュメント上のレンダリングコンポーザエンジンを利用して、例えば任意にドキュメントオブジェクトモデル(DOM)の木を形成することによってドキュメントの1以上の幾何学的特性を判定する。このような木の幾何学的特性は好適には、ドキュメントのレイアウトを判定するために分析される。情報は好適には、次いでドキュメントレイアウトによるドキュメントから検索される。任意に、意味解析が更に利用される。

0020

ドキュメントオブジェクトモデルは、木構造でHTML又はXMLのドキュメントを表わす。DOMは、単純化した検索用の明確な木構造へのデータ分離及び分類を可能にするデータ構造を提供する。任意にかつ好適には、内側のブラウザフレームから左上方の囲まれた矩形領域の隅部までの距離をピクセルで測定するXY座標位置は、木のノードと関連づけられる。領域の幅、高さ、左縁、上縁部の大きさ、内側左及び上のマージンは更に任意であり、木で特徴づけられる。DOMの木のノードと関連づけられる総ての幾何学的特性はドキュメントのレイアウトと称される。

0021

ドキュメントのDOMの木が構築された時点で、システムは好適にはレイアウト内部のレコード格納部を探索する。レコード格納部は、幾何学的構造が類似のレイアウト部分を含む、DOMの木のノードと関連する任意のレイアウト部分である。ノードは更に、更なるレイアウト部分である他のレコードではない構成又は下位領域を任意に含んでもよい。更に、レコード格納部は任意に、レコードと幾何学的に類似ではない1以上のレイアウト部分を特徴としてもよい。

0022

2以上の候補のレコード格納部がある場合、単一のレコード格納部は好適には格納部の領域の大きさと、ドキュメントのレイアウトの幾何学的中心に対する格納部の幾何学的中心の近接性とをランク付けすることによって選択される。例えば、領域が最大で、中心がページの中心に最も近い格納部は高くランク付けされ、レコード格納部として選択される。

0023

2以上のレイアウトの下位領域(レコード)間の幾何学的な類似性は、レコードを含む要素(形状)の反復頻度によって、任意にかつ好適には、少なくとも部分的に判定される。幾何学的特性は好適には、長さ、幅、及び位置といったパラメータを含む。各々のレコードは関連データの単一ユニットを含むと推定されうるレイアウト部分、例えば車の広告あるいは不動産の販売又は賃貸用の建築物又はその一部の一覧表である。レコードの関連性は更に、本発明の少なくともいくつかの実施形態による意味解析器によって任意かつ好適に規定され、レコード内部に含まれる情報の意味的な関連性は、このような意味的な関連性が更にレコードの関連性を判定する際に好適に考慮されるように好適に判定される。

0024

幾何学的な類似性は好適には、走査線(Scan Line)アルゴリズム変形物を用いることによって検出される。走査線アルゴリズムは画素ベースではなく、列ベースで動作させるコンピュータグラフィックにおけるアルゴリズムである。総ての形状は最初に現れる頂点のx座標によって選別され、次いで画像の各々の列又は走査線は、走査線の幾何学的形状との交差を用いて算出される。

0025

次いでシステムは好適には、選択したレコード格納部内の幾何学的な矩形のレコードをグループに分割する。幾何学的パターンが同一のレコードは好適には同一のグループに属すると同定される。グループ及び幾何学的パターンを規定するプロセスは好適には、レコード格納部内の幾何学的な矩形、又は他の幾何学的に規定された形状を同定することによって、及び好適には走査線アルゴリズムを用いることにより矩形を順序づけることによってなされている。

0026

システムは好適には各々のグループからの代表レコード又はレコードの集合で意味解析を行う。代表レコード(レコードの集合)が関連性があると検出された場合は、総てのグループの要素からの関連データが好適には、グループのパターン(グループを同定する構造)と同時に更なるデータの検索のために記憶される。意味解析は例えばであり、任意の方法で限定することを望むものではないが、キーワード若しくはその組合せを探索することによって、又はセマンティックウェブ技術を用いることによってなされる。例えば、システムがフライトを扱うウェブページからの情報を収集する場合、システムは好適にはフライト数座席、及び到着等といったキーワードを探索する。このようなキーワードが見つかった場合、幾何学的パターンは好適には関連性があると同定され、このパターンの総ての例からのデータが好適にはデータベースに保存される。

0027

本発明の他の実施形態によると、あるページでパターンが同定された時点で、システムは次のページの同定パターンとともにレコードを同定でき、かつ好適にはこれらのパターンと同一のテキスト構造を推測することによって、更なる分析をせずに関連データが取得される。

0028

本発明の他の実施形態によると、システムはデータベースに検索したデータを保存する。ユーザがデータを照会した時点で、好適には専用のウェブサイトを用いることによって、データベースから検索される。照会結果は好適には、関連サイトから検索した情報ならびにこれらのサイトに対するリンクを含む。

0029

本発明の更に別の実施形態によると、このような幾何学的分析を通して得られた情報をランク付けするための方法が提供される。本方法は任意に、完全なドキュメントそのものをランク付けするのみではなく、分析したドキュメント内に含まれる1以上のレコード又は情報のユニットを個別にかつ分離してランク付けすることを特徴とする。この実施形態によって、関連情報はドキュメント自体及びそのランクに拘らずランク付けできる。このようなランク付けは情報のユニットが関心の対象である場合、及び/又は情報のユニットが「深層ウェブ」に存在する場合に有用であり、情報のユニットは動的に形成されるウェブページの一部となる。

0030

図面を見ると、図1は本発明による例示的な実例のシステムの概略図である。システム100はサーバ120を特徴とし、関連サイトからデータを取得するためにウェブサイトインタフェース102を通って外部データベース101と通信する。サーバ120は提供した関連ウェブサイトのリスト109からデータを取得するためのクローラの処理部105を特徴とする。このようなリスト109はファイルに任意に常駐できるか、あるいは代替的には別のクローラによって収集できる。スケジューラ106はクローラ105をスケジューリングして、関連データを検索するためにウェブサイトインタフェース102を介してデータベース101を自動的に照会する。このようなデータは例えば、大学のウェブサイトを照会することにより利用可能な大学教育プログラムにできる。クローラの処理部105は任意かつ好適に、外部データベースと通信し、ページをレンダリングするために、ブラウザ104のAPIを用いる。レンダリングは、当該技術領域で既知の、DOM(ドキュメントオブジェクトモデル)に常駐する階層及びそれに関連する幾何学的情報に基づいてページのレイアウトを形成するプロセスであり、ウェブサイト109から受信されるウェブページのデータによって検索される。階層的情報は特にDOMの木に常駐し、各々のマークアップ言語のタグ(各々のHTML又はXMLのタグといった)はDOMの木におけるノードと関連づけられる。木における各ノードについては、ブラウザ104は更に、対応するウェブページをレンダリングするための幾何学的表現を関連づける。幾何学的表現はXY開始点オフセット、幅、及び高さ等によって示される。

0031

クローラ105は、図3に更に詳細に説明されるように、DOMの木をページの幾何学的表現とともに含むレンダリングされたページを、関連層が意味解析器108によってテキストどおりに分析されることを検出する幾何学的分析器の処理部107に伝達する。意味解析器の処理部107は好適には、パターンが同一のグループを受信し、各々のグループを分析するために幾何学的分析器の処理部107と通信する。意味解析器の処理部107は更に好適には、クローラ105と通信する(クローラ105は次の結果のページに対するリンクを、好適にはそのページが関連する結果のページと同一であった場合のみに検索する)。

0032

レコード、データ、及び関連ウェブページに対するリンクを含む分析結果は好適には、結果データベース110に記憶される。ユーザが探索ウェブサイト111を用いて、例えば総ての大学教育のプログラムのリストといったユーザの領域における情報を照会する場合、情報は結果データベース110から検索される。情報は好適には、上述で行われた分析によって、データと更なるデータを検索するための関連サイトに対するリンクとを含む。

0033

図2は、特定のサイトに関するデータベースの構築について記載した概略的なフロー処理の例示的な実例の実施形態のダイアグラムである。このシステムは特定の領域に関する関連サイトのリスト、例えば不動産サイトのリストを処理する。段階1においては、システムは自動的かつ定期的に、所定のサイトのリストから各々の関連サイトを照会する。照会は、サイトのURLのリストを調査するクローラを好適に用いることによって、好適にはMicrosoft Internet Explorer及びMozilla Firefoxのようなウェブブラウザを用いることによってなされる。クローラは好適には、ブラウザによって提供され、ウェブサイトのURLによって特定されるドキュメントのDOM(ドキュメントオブジェクトモジュール)に基づいてレンダリングされたページを構築する(任意のこれらの構成は分離でき、クローラの動作用に通信できるが、ウェブブラウザは好適にはクローラに埋込まれる)。

0034

段階2においては、システムはウェブサイトのURLによって特定したドキュメントにおける関連データを、レンダリングされたページから幾何学的パターンを同定することによって、かつそのパターンからデータを抽出することによって探索する。この方法は図3で更に詳細に説明される。段階3においては、データ及びデータに対するリンクは更なる使用のためにシステムのデータベースに保存される。関連データがホームページで検出される場合、クローラは次のページを取得し、段階2及び3はの次のページの各々で反復される。段階1及び2は好適にはクローラによって検出される各々のウェブサイトで反復される。段階4において、ユーザは好適にはシステムによって提供される専用のウェブサイトを用いることによって、情報(例えば、不動産情報)を照会する。段階5においては、システムはデータベースから関連情報の総て、ならびに関連ウェブサイトに対するリンクを提供する。システムは好適には、ページにおける各々の保存されたレコードの概要の情報を提供し、レコード自体を検証するために、ユーザはレコードが検出された元のウェブページに再誘導される。

0035

図3は、ページ分析について記載した高次のフローチャートである。段階1においては幾何学的分析器は、ウェブページから検索され、好適には上述のようなDOMの木を含む、DOM(ドキュメントオブジェクトモジュール)に常駐する情報によって、埋込型のブラウザレンダリングエンジンからページのレイアウトを取得する。段階2においては、レイアウトは幾何学的分析器によって1以上のレコードを配置するように分析される。各々のレコードは情報のユニットを表わす。このようなレコードは任意に、例えば販売代理店のウェブサイトを通して販売された車の広告にできる。

0036

段階3においては、幾何学的分析器は好適には、配置されたレコードによる特定のレコード格納部を探索する。レコードはレコード格納部内部に配置した構造として幾何学的に存在する。

0037

本方法は好適には、このようなレコード格納部に常駐すると推定することによって、関連データが相互に幾何学的に類似するレコードを含むレコード格納部を探索する。2以上の候補の格納部がある場合、レコードは好適にはレコードの1以上の幾何学的特性によって選択され、例えば、幾何学的中心に近い、大きく、かつより中心的のレコードが選択される。例示的な実例のレコード格納部は図5に例示される。

0038

段階4において、幾何学的パターンが同一の矩形(レコード)のグループは、選択したレコード格納部の中で判定される。システムは好適には、その座標によってレコード格納部内の総ての矩形(レコード)を順序づける。次いで矩形は相互に分離される。幾何学的構造が同一の矩形は、固有の幾何学的パターンによって同定される同一のグループに属すると規定される。レコード格納部のグループへの分割は図6に例示される。段階5において、代表レコード又はレコードの集合は段階4に規定される各々のグループから選択され、意味解析される。段階6において、代表レコード又はレコードの集合が意味解析器によって関連性があると検出された場合、総てのグループの要素からの関連データは、グループのパターン(グループを同定する構造)と同様に、更なるデータの検索のために保存される。段階5及び6は各々のグループで反復される。

0039

例えばデータレコードが表で示されている場合、幾何学的分析器は好適には、例えば各々のレコードを表の行と関連づけることによって、この幾何学的構造によるレコードを分析する。意味解析は表のヘッダ行と、各々のヘッダ項目幾何学的位置(オフセット)を同定する。ヘッダではない行を分析する場合、各々の列は列のオフセットを用いて対応するヘッダ項目と関連づけられる。この技術は表からの正確なレコード抽出保証する。

0040

図4は、レンダリングされたページを例示するダイアグラムである。レンダリングされたページ400は好適には、レンダリングエンジン(図示せず)から形成される。レンダリングはDOMから検索された幾何学的及び構造上の情報を組合わせることによってなされる。構造上の情報は階層型の木(DOMの木402として図示される)で、DOM(ドキュメントオブジェクトモデル)によって提供されるが、幾何学的な情報は木402における各々のノードに座標を割り当てることで、DOMによって提供される。DOMの木402とレンダリングされたページ400との対応が示されている。

0041

DOMの木402のルートノードはHTML404である。HTML404はページレイアウト408に対応する本体部406を特徴とする。本体部406は複数のDIVノード410を特徴とし、その各々がレンダリングされたページ400内部の分割部412を表わす。DIVノード410のうちの1つは表のノード414であることを特徴とし、レンダリングされたページ400内部の表416に対応する。表のノード414は更に複数のTR(表の行)のノード418を特徴とし、表416の表の行418に対応する。

0042

図5は、レンダリングされたページ510内部のレコード格納部520を例示する。レコード格納部520は、レコードの下位の木(内側の矩形)が相互に類似することによって、レンダリングされたページの内部に最も組織化された内側構造を有するレコードとして同定される。

0043

図6は、レコード格納部内部のグループを例示する。各々のグループはレコード(内部の幾何学的構造が同一)を含む。図面においては、レコード格納部630内部のレコード631、632、及び635は1のグループに属するが、レコード633、634、636、及び637は別のグループに属する。

0044

図7は、レコード格納部を同定するプロセスについて記載した例示的なダイアグラムである。段階1において、ページのレイアウトはレンダリング処理によって形成される。段階2において、ドキュメントのレイアウトは、レイアウトにおいて類似する領域を検出するために、例えば走査線アルゴリズムを用いることによって幾何学的に走査される。段階3において、類似する領域を含むDOMの木のノードは候補のレコード格納部として同定される。段階4において、レコード格納部は格納部の領域の大きさと、格納部の幾何学的中心のドキュメントのレイアウトの幾何学的中心に対する近接性とをランク付けすることによって選択され、例えば、領域が大きく、中心がページの中心に最も近い格納部は高頻度でランク付けされ、レコード格納部として選択される。

0045

図8は、レコード格納部内部のグループを同定するプロセスについて記載したダイアグラムである。段階1においては、レコード格納部内の各々のレコードに対する幾何学的構造が検出される。段階2においては、レコードはその幾何学的構造に応じて、構造の同一なレコードを同一のグループに配置するようにグループ化される。段階3においては、代表レコード又はレコードの集合は好適には、各々のレコードのグループから選択される。段階4においては、代表レコード又はレコードの集合は、各々の代表レコード又はレコードの集合の内容を判定するために意味解析される。段階5においては、分析結果は好適には、後の検索用、例えば構造が同一又は類似の他のレコードの分析用システムデータベースに、構造とともに記憶される。

0046

本発明のいくつかの実施形態によると、レコードは上述のように判定される、ドキュメント内のレコードの意味解析及び更なる幾何学的特性の組合せによって任意にランク付けしてもよい。図9に示すように、プロセス900は好適には、複数のデータベース902からの複数のレコード904の分析を特徴とする。データベース902は、例えばインターネット、任意に及び更に好ましくはいわゆる「深層ウェブ」を含む、上述のようなコンピュータネットワークを通して利用可能な任意の型の情報を任意に含み、動的に形成されたウェブページから得られるレコードである。

0047

システム906は好適にはデータベース902からレコード904を抽出する。システム906は任意にかつ好適には、レコードを抽出し、更にその幾何学的特性を判定するために上述のように動作させ、より好適には更にレコードが配置されるドキュメントのうちドキュメントのレイアウトに対するレコードの幾何学的特性を含む。システム906によって判定される情報は好適には、結果データベース908に記憶される。

0048

関連性ランク付けシステム910は好適には、結果データベース908における情報を分析して、上述のように得られたレコードをランク付けする。関連性ランク付けシステム910は好適には、図10で更に詳細に述べた意味的比較と、各々のレコードの幾何学的特性に基づく更なるランク付けとを少なくとも用いて、複数のレコードの関連性のランク付けを判定する。幾何学的特性に関し、好適には元のドキュメントのレコードの顕著性は少なくとも、ドキュメントのレイアウトに関するレコードの幾何学的特性から判定され、ランク付けのために用いられる。このような顕著性はレコードの重要性についての、ウェブサイトのコンストラクタによってなされる1以上の判定に関連し、より顕著なレコードがより重要であると推測される。

0049

顕著性は好適には、前述の幾何学的パターン及び各々のレコードに対する位置情報によって判定される。所定のウェブサイト及びそのレコードについては、関連性ランク付けシステム910は、パターンの平均的深さとこのようなパターンを有するレコードの数とを組合わせることによって、各々のパターンの顕著性を評価できる。

0050

例示した限定しない例のように、ウェブサイトXは毎日走査され、1000のレコードが抽出される。レコードはこの例では2のグループ:パターンAを有するレコード;及び、パターンBを有するレコード;に分割される。990のレコードがパターンAであり、1ないし50のページから抽出される(パターンAの平均的深さは25である)一方、10のレコードのみが最初のページのみに表れるパターンBを有する(パターンBの平均的深さは1である)と仮定する。多数の式をこのデータに適用して、パターン(レコードのグループ)の顕著性を算出できる。パターンBを有するレコードが、ページのうちの最初のグループのページにのみ表れる場合、より顕著であると推定してもよい。

0051

同様の分析を任意に:ウェブページ内の位置(上及び中央、又は下、ならびに片側であり、上及び中央位置はより顕著であると任意に判定される);大きなレコードほどより顕著であると見なされるレコードの大きさ;及び、更に選択的には、レコード内に含まれる情報の型;に適用してもよい。情報の型については、顕著性は好適には、レコード内に含まれる情報の領域に対応する情報の型と関連づけられる。例えば、不動産広告及び自動車広告の領域については、任意かつ好適には、写真又は他の型の画像の含有は、ウェブページ上のスペース消費する場合、一般的にはこのような1以上の画像はより重要な項目で用いられるため、レコードの顕著性を増加させる。しかしながら「求人」広告のような他の領域では、画像の存在はレコードの重要性の増加を必ずしも示さず、この場合においては、この情報の型は好適には、レコードの顕著性を判定するのに用いられない。

0052

任意に、関連性ランク付けシステム910は、古い日付で抽出しているレコードは関連性がある可能性が少なく、更にはその推定される関連性が経時的に減少するため、レコードの「新しさ(freshness)」を用いてもよい。従って、新しい方のレコードが好適にはこの属性について高い評価を受け取る。

0053

任意に、関連性ランク付けシステム910は更に、好適には人気及び信頼度の双方によってランク付けするためにレコードのソースを用いてもよい。例えば、ウェブサイトのメインページのURLのGoogleランキングを用いるか、あるいは人気を判定するためにネットワークトラフィックを評価してもよい。この属性によって更に、多数のウェブサイトで同時に表われるレコードに対し高い優先度を与えるのを可能にし、例えばウェブサイトのGoogleランキングを組合わせることによって、高いランクに割り当てるとレコードが表われる。

0054

信頼度については、このようなランク付けを手動で、あるいは関連性ランク付けシステム910の外側にある自動分析によって任意に判定してもよく、例えば新規のウェブサイトは時にして、そこに含まれる情報の信頼度に応じて外部機関によってランク付けされる。このような外部の第三者のランク付けはレコード用のソースとして特定のウェブサイトの信頼度を判定するのに任意に含んでもよい。

0055

任意に、関連性ランク付けシステム910は更にレコードの完全性を用いてもよく、それは項目がレコードにおいて数値を提供した範囲であり、より多くの項目がレコードにおいて規定されると(レコードはほとんどφ又は変数を有さないため)、このパラメータに従ってレコードのランク付けは大きくなる。例えば、レコードが画像を含みうる形式である場合、好適には画像を特徴とするレコードは画像がないレコードよりも大きなランク付けを受ける。

0056

ユーザがユーザコンピュータ912を介して照会を呈示し、任意かつ好適に、例えばインターネットといったネットワーク914を介して関連性ランク付けシステム910と通信する場合に、照会は好適には、関連性ランク付けシステム910によってランク付けされるようにレコードと比較される。このようなランク付けは好適には、照会及びレコードの意味解析、ならびに好適には関連性ランク付けシステム910によって分析された幾何学的な情報の双方によって実行される。このプロセスは図10で更に詳細に記載されている。応答は次いで好適には、ユーザに対する表示のためにユーザコンピュータ912に戻される。

0057

図10は、本発明の少なくともいくつかの実施形態による、関連性ランク付けシステム910を実行するための例示的な実例のプロセスについて記載する。図示したように、複数のレコード904からの情報は類似性比較モジュール1002によってユーザの照会1000と比較され、任意の型のコンピュータ又は複数のコンピュータによって任意に操作されうる。類似性比較モジュール1002は好適には、以下のようにレコード904を1以上の関連しないレコード1004と1以上の関連レコード1006とに選別する。

0058

好適には、類似性比較モジュール1002(あるいは類似性比較モジュール1002の前のアップストリーム別個に、任意に、かつ好適に操作する別のモジュール)はレコード904を複数の領域に分離する。各々の領域は項目の集合<i1,i2,...,in>によって任意かつ好適に規定される。例えば、不動産のレコードについては、以下の項目を任意に規定してもよい:建物の種類、価格、住所、階、面積等。中古車の領域については、車のモデル、価格、モータ容積、及び走行距離のような項目を任意に規定してもよい。当然ながら1以上の項目が複数の領域に任意に生じうるが、領域が異なると項目は異なりうる。

0059

データベースにおける複数のレコード904のうちのあるレコードは好適には、変数のベクトルR=<r1,r2,...,rn>として表わされる。各々の変数rkは特定の項目ikに対する値を含む。レコードは、領域について記載した一部の項目の情報を含むことができない。この情報が不足しているか無い場合、欠損項目に対応する変数の値はφといった特定の零値(上述したような)で好適に割当てられる。

0060

ユーザの照会は更に好適には類似性比較モジュール1002によって、特定の領域項目について記載した変数のベクトル:

に変換される。ユーザの照会も同様に、所定の領域に対して規定される項目の一部を含むことができない。この場合は、欠損項目に対応する変数の値はφといった特定の零値(上述したような)で好適に割当てられる。例えば、価格又は特定の建物の面積に拘らずロンドンでの3寝室マンションを探索でき、価格又は特定の建物の面積の欠損値は好適には零値に変換される。

0061

類似性比較モジュール1002が照会:

を受信する場合、照会の類似の割合:

は好適には、データベースにおいて複数のレコード904の各々のレコードに対して計算される。類似の割合は、項目の変数の各々の照会及びレコードの対に対する類似の割合の積:

である。項目の類似の割合は異なる項目の型について別々に算出される。

0062

任意に、異なる重み付けを様々な項目に割り当ててもよく、この場合においては各々の項目に対して新規の因子冪乗部分):

が好適には、このような特異的な重み付けのために用いられる。

0063

一部の項目については、類似の割合は変数の厳格な比較によって規定してもよく、例えば建物の寝室の数又は車の品質といった2進数の値のみを割り当ててもよい。

0064

他の項目においては、堅牢でない比較がなされうる。数値的項目においては、数の単純な比較を用いてもよい。例えば、300K USD(米ドル)の価格で建物を探索した場合、ユーザは305K USD又は更に270K USDの価格で建物を見つけることに関心がある可能性がある。この場合においては、類似の割合は次式

を用いて算出できる。非数値的項目については、類似の割合は余弦類似度又は逆ドキュメント頻度(IDF)のようなテキスト類似度のアルゴリズムによって算出してもよい。

0065

一般的な領域の場合においては、1の項目のみであることが好ましく、フリーテキストとなる。レコード及び照会の双方が好適には、テキスト類似度のアルゴリズムによって比較される単一の変数によって規定される。

0066

照会変数qkがφである場合、sr(qk,rk)が総てのレコードについて同一であり、関連性の順序に影響を与えないため、SR(Q,R)について好適には考慮されない。レコード変数rkがφである場合、sr(qk,rk)は好適には事前に規定された値τk:

を受け取る。値0又は1が得られないことは明らかである(この項目に対する照会において同一の値を有するレコードは高くランク付けされるべきであるので、関連性がないとは見なされないが、最大のランク付けは受けられない)。

0067

SR(Q,R)の計算後、レコードは好適には、前述したように2のグループにに分割される。SR(Q,R)が低い(事前に規定された閾値、例えば−0.1より低い)レコードは関連性がない(関連しないレコード1004として図示)と見なされ、ユーザに提示されない。類似の割合が高いレコード(関連レコード1006として図示)は拡張型の関連性のランク付けモジュール1008によってランク付けされる(類似の割合に加えて、関連性をランク付ける外部パラメータを組合わせる)。

0068

拡張型の関連レコードのランク付けEXR(Q,R)は以下の式:

を介して算出される。ここで属性変数をランク付けるベクトルA =<a1,a2,...,am>は、相対重み付けベクトルW=<w1,w2,...,wm>で乗算される。属性変数aiは、特定の特性(属性)に従ったレコードのランク付けを表した実数

である。重み付け因子Wiはランク付けの計算における属性の相対的な重み付けを表わす。重み付け因子は、

といった実数:

である。特定の属性は任意には、類似性比較モジュール1002によって決定されるような、レコードの幾何学的特性、「新しさ」、信頼度及び/又は人気による情報源のウェブサイトのランク付け、レコードの完全性、ならびにウェブサイト内のレコードの顕著性等のうちの1以上での任意の重み付けを特徴としてもよい。

0069

最終的に選別及びランク付けされたレコード1010は、例えばいくつかの最小のランク付けの除外によって、ユーザに任意に提供してもよい。

0070

本発明は限定した数の実施形態について記載してきたが、本発明の多くの変形、変更、及び他の処理がなされうることは理解されよう。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ