図面 (/)

特許 ウェブページ解析装置およびウェブページ解析用プログラム

特許権者 株式会社マイニングブラウニー
発明者 得上竜一
出願日 2011年9月14日 (5年10ヶ月経過) 出願番号 2012-501042
公開日 2015年3月23日 (2年4ヶ月経過) 公開番号 -
登録日 2012年3月30日 (5年3ヶ月経過) 登録番号 4959032
状態 特許権利維持
特許期限日 2031年9月14日 (残14年3ヶ月)
技術分野 検索装置 文書処理装置
主要キーワード 経験知識 調整ルール 収集ロボット 抽出漏れ 判定ルール 資本金 タグ構造 折れ線グラフ

この特許の活用可能性のある市場・分野

関連する未来課題
重要な関連分野

この特許に関連する成長市場

関連メディア astavision

  • MEMS・マイクロマシン・組込システム

    MEMS (Micro Electro Mechanical Systems:微小電気機械システム)…

  • 燃料電池車

    水素を燃料とし、空気中から取り込んだ酸素と反応させることで生み出した電気エネルギーを駆動力に利用する…

  • 太陽光発電・太陽電池・人工光合成

    2015年4月30日、米国の電気自動車ベンチャーTesla Motors社や宇宙開発ベンチャーSpa…

図面 (7)

後で読みたい技術情報を見つけたら、ブックマークしておきましょう!

ページの右上にあるブックマークボタンからこのページをブックマークできます。
あなたがブックマークした技術情報は、いつでもマイページのリストから閲覧することが出来ます。

以下の情報は登録日時点(2012年3月30日)のものです。

課題・解決手段

ウェブページを構成している構造化文書のタグの階層構造解析し、ルートからの深さに応じた深さポイントを行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行およびその前後の数行を含む所定範囲対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報を抽出するようにすることにより、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができるようにする。

この項目の情報は登録日時点(2012年3月30日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

背景

図面をまとめてご覧になりたい場合はPDFをダウンロードしてください。

現在、インターネット上には多数のウェブページ存在し、多種多様情報が提供されている。ユーザは、これらのウェブページを閲覧することにより、所望の情報を取得することが可能である。

従来、所望の情報が掲載されたウェブページを探し出すために、検索エンジン呼ばれるプログラムが提供されている。基本的には、ユーザが所望の情報に関連するキーワード検索サイトにて入力すると、当該検索サイトに組み込まれている検索エンジンが、入力されたキーワードを含むウェブページを検索し、検索された複数のウェブページをURLのリストとして提示するようになっている。

しかし、検索エンジンでは、単純にキーワードを含むウェブページを探索して抽出するだけなので、抽出されたウェブページの中には、ユーザが希望しないノイズとなるウェブページも多く含まれている。そのため、ユーザは、検索エンジンによってリストアップされたURLに対して順にアクセスして、ウェブページの内容を1つ1つ確認していく手作業が必要であった。

例えば、各種商品の価格調査をするために、商品と価格とが掲載されたEC(電子商取引サイトのウェブページを検索エンジンで検索する場合を考える。例えば、どのECサイトにも記述されていそうな「価格」というキーワードを入力して検索すると、ECサイトのウェブページが多く抽出されるが、ECサイト以外のウェブページも抽出結果の中にノイズとして含まれてしまう。この場合ユーザは、多くのノイズも含めてウェブページを1つ1つ開いて内容を確認していく必要があるので、作業効率が悪化するという問題があった。

これに対して、ウェブページのような構造化文書の種別判定する手法が提案されている(例えば、特許文献1,2参照)。この判定手法を用いれば、例えばECサイトのウェブページだけを検索することが可能となる。
特開2000−29902号公報
特開2003−308327号公報

特許文献1では、あらかじめHTML文書すべてについて、タグとキーワードによる特徴、イメージ情報による特徴、リンク情報による特徴、タグ構造による特徴から構造的な特徴を抽出し、ルールと照合することによって、分類する種別への適合度計算する。そして、入力されたキーワードと種別を用いて、ある適合度以下の文書を削除して絞り込んだ結果を表示する。

しかしながら、この特許文献1に記載の技術では、構造的特徴ルールベースおよび調整ルール構築や調整が必須である。このために、ルールのベースとなる特徴を選び出し、各ルールに与える点数を設定するなどのチューニングが必要であるので、精度のよい判定を行うには多くの手間と時間を要するという問題があった。

また、特許文献1に記載の技術では、インターネット上のウェブページの変化に即座に対応できないという問題もあった。すなわち、ウェブページの特徴は日々変化しており、この変化に応じて、最初判定ルールベースを作成したのと同様に、経験知識積み重ねながら試行錯誤を繰り返してルールを再構築する必要がある。

このような問題の解消を目的として、特許文献2では、ネットワークを介して収集された複数の構造化文書の種別を教師データとして入力する教師データ入力手段と、構造化文書および教師データに基づいて、複数の構造化文書の種別を判定するための判定ルールを作成する判定ルール作成手段と、判定ルール作成手段により作成された判定ルールに従って構造化文書の種別を判定する判定ルール実行手段とを備える。

概要

ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報を抽出するようにすることにより、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができるようにする。

目的

本発明は、このような問題を解決するために成されたものであり、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出できるようにすることを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この特許が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

ページトップへ

請求項

以下の情報は登録日時点(2012年3月30日)のものです。

請求項1

ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを上記構造化文書の行ごとに付与する深さポイント付与部と、上記構造化文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを上記深さポイントに加算するキーワードポイント付与部と、上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出するブロック抽出部と、上記ブロック抽出部により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する情報抽出部とを備えたことを特徴とするウェブページ解析装置。

請求項2

上記ブロック抽出部は、上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行を含み、当該差分が生じている行よりも後の行で上記キーワードポイントが加算されておらず且つ上記深さポイントが極小となっている最初の行を終点とし、上記差分が生じている行よりも前の行で上記終点と同じ値で深さポイントが極小となっている行を始点とする範囲を上記対象ブロックとして抽出することを特徴とする請求項1に記載のウェブページ解析装置。

請求項3

ユーザにより入力された単語を上記キーワードとして設定するキーワード設定部を更に備えたことを特徴とする請求項1に記載のウェブページ解析装置。

請求項4

上記キーワード設定部は、上記ブロック抽出部により抽出された上記対象ブロックの中に含まれる単語を更に上記キーワードとして追加設定することを特徴とする請求項3に記載のウェブページ解析装置。

請求項5

上記キーワード設定部は、解析対象とされたウェブページから上記ブロック抽出部により抽出された上記対象ブロックの総数と、上記キーワードとして設定された単語の出現数とを用い、上記対象ブロックの総数に対する上記単語の出現数の割合に応じた値を、上記キーワードに対するキーワードポイントとして設定することを特徴とする請求項3または4に記載のウェブページ解析装置。

請求項6

上記情報抽出部により上記対象ブロック内から抽出された情報について、あらかじめ定めた1以上の種類の情報が揃っているか否かを判定し、揃っている場合にのみ上記対象ブロック内から抽出された情報を出力するフィルタリング部を更に備えたことを特徴とする請求項1に記載のウェブページ解析装置。

請求項7

ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを上記構造化文書の行ごとに付与する深さポイント付与手段、上記構造化文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを上記深さポイントに加算するキーワードポイント付与手段、上記キーワードポイントが加算されて上記深さポイントとの差分が生じている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出するブロック抽出手段、および上記ブロック抽出手段により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する情報抽出手段、としてコンピュータを機能させるためのコンピュータ読み取り可能なウェブページ解析用プログラム。

詳細

以下の情報は 登録日時点 (2012年3月30日)のものです。

技術分野

0001

本発明は、ウェブページ解析装置およびウェブページ解析用プログラムに関し、特に、HTML(HyperText Markup Language)等で記述されたウェブページの構造化文書を解析する装置およびプログラムに関するものである。


背景技術

0002

現在、インターネット上には多数のウェブページが存在し、多種多様な情報が提供されている。ユーザは、これらのウェブページを閲覧することにより、所望の情報を取得することが可能である。

0003

従来、所望の情報が掲載されたウェブページを探し出すために、検索エンジンと呼ばれるプログラムが提供されている。基本的には、ユーザが所望の情報に関連するキーワードを検索サイトにて入力すると、当該検索サイトに組み込まれている検索エンジンが、入力されたキーワードを含むウェブページを検索し、検索された複数のウェブページをURLのリストとして提示するようになっている。

0004

しかし、検索エンジンでは、単純にキーワードを含むウェブページを探索して抽出するだけなので、抽出されたウェブページの中には、ユーザが希望しないノイズとなるウェブページも多く含まれている。そのため、ユーザは、検索エンジンによってリストアップされたURLに対して順にアクセスして、ウェブページの内容を1つ1つ確認していく手作業が必要であった。

0005

例えば、各種商品の価格調査をするために、商品と価格とが掲載されたEC(電子商取引)サイトのウェブページを検索エンジンで検索する場合を考える。例えば、どのECサイトにも記述されていそうな「価格」というキーワードを入力して検索すると、ECサイトのウェブページが多く抽出されるが、ECサイト以外のウェブページも抽出結果の中にノイズとして含まれてしまう。この場合ユーザは、多くのノイズも含めてウェブページを1つ1つ開いて内容を確認していく必要があるので、作業効率が悪化するという問題があった。

0006

これに対して、ウェブページのような構造化文書の種別を判定する手法が提案されている(例えば、特許文献1,2参照)。この判定手法を用いれば、例えばECサイトのウェブページだけを検索することが可能となる。
特開2000−29902号公報
特開2003−308327号公報

0007

特許文献1では、あらかじめHTML文書すべてについて、タグとキーワードによる特徴、イメージ情報による特徴、リンク情報による特徴、タグ構造による特徴から構造的な特徴を抽出し、ルールと照合することによって、分類する種別への適合度を計算する。そして、入力されたキーワードと種別を用いて、ある適合度以下の文書を削除して絞り込んだ結果を表示する。

0008

しかしながら、この特許文献1に記載の技術では、構造的特徴ルールベースおよび調整ルールの構築や調整が必須である。このために、ルールのベースとなる特徴を選び出し、各ルールに与える点数を設定するなどのチューニングが必要であるので、精度のよい判定を行うには多くの手間と時間を要するという問題があった。

0009

また、特許文献1に記載の技術では、インターネット上のウェブページの変化に即座に対応できないという問題もあった。すなわち、ウェブページの特徴は日々変化しており、この変化に応じて、最初に判定ルールベースを作成したのと同様に、経験知識を積み重ねながら試行錯誤を繰り返してルールを再構築する必要がある。

0010

このような問題の解消を目的として、特許文献2では、ネットワークを介して収集された複数の構造化文書の種別を教師データとして入力する教師データ入力手段と、構造化文書および教師データに基づいて、複数の構造化文書の種別を判定するための判定ルールを作成する判定ルール作成手段と、判定ルール作成手段により作成された判定ルールに従って構造化文書の種別を判定する判定ルール実行手段とを備える。

0011

しかしながら、上記特許文献1,2に記載の技術では、ウェブページの種別までは判定することができるものの、ウェブページの内容までは解析することができないという問題があった。通常、1つのウェブページの中にも多くの情報が含まれている。ユーザが所望する情報というのは、ウェブページ全体にある場合よりも、ウェブページの中の一部に存在している場合の方が多い。そのため、仮にユーザが希望する種別のウェブページに絞って抽出することができたとしても、更にウェブページの内容をユーザが目視により確認していく作業が必要となる。

0012

例えば、上述のようにウェブページの情報を解析して各種商品の価格調査をしたい場合、特許文献1,2に記載の技術によれば、種別の判定によりECサイトのウェブページだけを抽出することまでは可能である。しかしながら、そのウェブページの中のどこに商品と価格が掲載されているかまでは解析することができない。そのため、ユーザは、抽出されたECサイトのウェブページを1つ1つ開いて内容を確認していく手作業が必要であり、作業効率が悪化するという問題があった。

0013

本発明は、このような問題を解決するために成されたものであり、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出できるようにすることを目的とする。

0014

この目的を達成するために、本発明では、ウェブページを構成している構造化文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを構造化文書の行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行およびその前後の数行を含む所定範囲を対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報を抽出するようにしている。

0015

このように構成した本発明によれば、ウェブページを構成している構造化文書において、キーワードが含まれている行から近い距離にある所定範囲の行の集合が対象ブロックとして抽出され、当該対象ブロックから所定の条件を満たす情報が抽出される。よって、所望の情報を抽出するために必要な条件を上記所定の条件として設定しておけば、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができる。これにより、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出することができる。


図面の簡単な説明

0016

本実施形態によるウェブページ解析装置を含むウェブページ解析システムの構成例を示す図である。
本実施形態によるウェブページ解析装置の機能構成例を示すブロック図である。
本実施形態のウェブページ解析装置により解析対象とするウェブページの一例を示す図である。
図3に示したウェブページのHTML文書の一例を示す図である。
図4に示したHTML文書の行ごとのポイントを示す図である。
図5に示したポイントをグラフ化して対象ブロックの抽出例を説明するための図である。
本実施形態によるウェブページ解析装置の動作例を示すフローチャートである。


発明を実施するための最良の形態

0017

以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態によるウェブページ解析装置を含むウェブページ解析システムの構成例を示す図である。図1に示すように、本実施形態のウェブページ解析システムは、ウェブページ収集部10、ウェブページ記憶部20、ウェブページ解析装置30、表示部40および操作部50を備えて構成されている。

0018

ウェブページ収集部10は、インターネット上にある多くのウェブサイトから多くのウェブページを収集してくるものである。このウェブページ収集部10の機能は、例えば、「クローラ」と呼ばれるページ収集ロボットのプログラムにより実現される。ウェブページ記憶部20は、ウェブページ収集部10により収集された多くのウェブページを記憶する。

0019

ウェブページ解析装置30は、ウェブページ記憶部20に記憶された多くのウェブページを解析して、ユーザが所望する情報をウェブページから抽出して出力する。本実施形態では、ウェブページ解析装置30が抽出した所望の情報をディスプレイ等の表示部40に出力する。ただし、出力先は表示部40に限定されない。例えば、プリンタ等の印刷部であってもよいし、ハードディスク半導体メモリ等の記録媒体であってもよい。

0020

操作部50は、ユーザがウェブページ解析装置30に対してキーワードを入力する際に使用するものであり、例えばキーボードマウスにより構成される。また、操作部50は、所望の情報としてどのような種類の情報を抽出したいのかを表す情報タイプをユーザが指定する際にも使用する。

0021

例えば、ユーザは、商品の価格情報を抽出したいのか、会社情報を抽出したいのか、求人情報を抽出したいのかといった情報の種類を所望の情報タイプとして指定する。また、ユーザは、指定した情報タイプとの関連性があると思われる単語をキーワードとして入力する。例えば、商品の価格情報であれば「込」、会社情報であれば「代表」、求人情報であれば「勤務」などの単語をキーワードとして入力する。

0022

なお、ここではユーザが所望の情報タイプとキーワードとの両方を操作部50の操作により入力する例について説明したが、本発明はこれに限定されない。例えば、情報タイプと所定のキーワードとをあらかじめ関連付けて記憶しておき、ユーザが操作部50を操作して所望の情報タイプを指定したら、その情報タイプに関連付けられたキーワードを自動的に入力するようにしてもよい。

0023

ウェブページ解析装置30は、解析処理部31、キーワード設定部32およびキーワード記憶部33を備えて構成されている。解析処理部31は、ウェブページ記憶部20に記憶された多くのウェブページを解析し、ユーザが所望する情報をウェブページから抽出して出力する処理を実行する。なお、この解析処理部31の詳細な機能構成については、図2を用いて後述する。

0024

キーワード設定部32は、解析処理部31がウェブページを解析する際に使用するキーワードを設定する。また、キーワード設定部32は、設定したキーワードに対して付与すべきキーワードポイント(詳細は後述する)の値も設定する。キーワード記憶部33は、キーワード設定部32により設定されたキーワードおよびそれに対応するキーワードポイントを記憶する。

0025

本実施形態において、キーワード設定部32は、操作部50の操作を通じてユーザにより入力された単語をキーワードとして設定する。また、キーワード設定部32は、解析処理部31によるウェブページの解析処理の過程において、解析対象とされたウェブページの中から抽出された単語もキーワードとして追加設定する。

0026

そして、キーワード設定部32は、このようにして設定したキーワードに対して付与すべきキーワードポイントの値を設定し、各キーワードおよびキーワードポイントを互いに関連付けてキーワード記憶部33に記憶する。

0027

なお、キーワード設定部32は、ユーザが操作部50の操作を通じて入力したキーワードについては、その入力時点においては例えば所定の値をキーワードポイントとして初期設定する。一方、解析処理の過程でウェブページから追加設定されたキーワードについては、キーワード設定部32は、所定の計算によって求められる値をキーワードポイントとして初期設定する。このようにしてキーワードポイントを初期設定した後も、キーワード設定部32は、ウェブページの解析を進めるごとに、上記所定の計算を行ってキーワードポイントを随時更新する。

0028

解析処理部31は、ウェブページ記憶部20に記憶されているウェブページのうち、キーワード記憶部33に記憶されたキーワードが含まれるウェブページを対象として解析処理を実行する。上述したように、解析処理の過程でウェブページの中から抽出された単語がキーワードとして追加設定されるので、キーワード記憶部33に記憶されるキーワードは学習効果により変化していく。また、キーワードに対して与えられらるキーワードポイントの値も学習効果により増減していく。

0029

このため、キーワードが追加されていない解析当初は、操作部50の操作を通じてユーザにより入力されたキーワード(例えば、情報タイプが商品の価格情報の場合は「税込」という単語)だけがキーワード記憶部33に記憶されており、当該キーワードを含むウェブページだけが解析処理部31による解析対象とされる。これに対して、複数のウェブページに対する解析処理が進むにつれて、ウェブページから抽出されたキーワードがキーワード記憶部33に追加して記憶され、当初の「税込」というキーワードが含まれていないウェブページも解析処理部31による解析対象に含まれることとなる。

0030

図2は、本実施形態によるウェブページ解析装置30の機能構成例を示すブロック図である。図3は、本実施形態のウェブページ解析装置により解析対象とするウェブページの一例を示す図である。図4は、図3に示したウェブページの構造化文書(HTML文書)の一例を示す図である。図5は、図4に示したHTML文書の行ごとのポイントを示す図である。図6は、図5に示したポイントをグラフ化して対象ブロックの抽出例を説明するための図である。

0031

以下、これらの図2図6を用いて、本実施形態によるウェブページ解析装置30の機能構成について説明する。なお、図3および図4は、ウェブページの一例として、ECサイトのウェブページおよびそのHTML文書を示している。また、図5および図6は、図3および図4に示すウェブページの解析例を示している。

0032

図2に示すように、本実施形態のウェブページ解析装置30は、その機能構成として、上述したキーワード設定部32およびキーワード記憶部33の他に、深さポイント付与部34、キーワードポイント付与部35、ブロック抽出部36、情報抽出部37およびフィルタリング部38を備えている。なお、深さポイント付与部34、キーワードポイント付与部35、ブロック抽出部36、情報抽出部37およびフィルタリング部38により図1の解析処理部31が構成される。

0033

本実施形態のウェブページ解析装置30は、実際には各種演算処理を実行するCPU、ウェブページ解析用プログラムを格納するROM、データ格納プログラム実行のためのワークエリアとして利用されるRAMおよびハードディスクを有し、ROMに格納されたウェブページ解析用プログラムに従ってCPUが動作することにより、各機能ブロック32〜38による処理を実行する。

0034

ウェブページ解析用プログラムを記憶する記録媒体として、ROMの代わりに、CD−ROMフレキシブルディスク、ハードディスク、磁気テープ光ディスク光磁気ディスク、DVD、不揮発性メモリカード等を用いることができる。また、ウェブページ解析用プログラムをインターネット等のネットワークを介してコンピュータにダウンロードするようにしてもよい。

0035

深さポイント付与部34は、ウェブページ記憶部20に記憶されたウェブページのうち、解析対象とされたウェブページを構成している構造化文書(HTML文書)のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを構造化文書の行ごとに付与する。

0036

通常、HTMLは、“<”および“>”の記号によって囲まれたタグと呼ばれる命令文を用いて、ウェブページ上に色々な表現をすることができるようになっている。タグには、命令の開始場所であることを示す開始タグと、命令の終了場所であることを示す終了タグとがある。原則として、開始タグは、“<”と“>”と命令文との組み合わせによって表記される。一方、終了タグは、“”と命令文との組み合わせによって表記される。

0037

また、HTML文書はタグによってツリー構造の形をとっている。通常、タグの下階層(子階層)にはタグとタグとがあり、タグの下階層においてウェブページの内容に応じたツリー構造が展開される。1つの命令文に関する開始タグおよび終了タグは必ず同じ階層になるが、当該開始タグと終了タグとの間に別の命令文のタグが挿入されると、当該別の命令文のタグについては階層が1つ下がる。

0038

例えば、図3に示すウェブページを記述した図4のHTML文書の例において、1行目の“”は開始タグ、それに対応する終了タグは最終行にある“”であり、この2つのタグは第1階層(ルート階層)に属する。また、2行目の“”は開始タグ、それに対応する終了タグは6行目にある“”であり、この2つのタグは第2階層に属する。

0039

上述したように、深さポイント付与部34は、HTML文書のルートからの階層の深さに応じた深さポイントを行ごとに付与する。なお、本実施形態において「行ごと」というのは、「開始タグごと」ということと同義である。すなわち、HTML文書の表記において見かけ上は複数の開始タグが同じ行に存在していても、開始タグごとに行が変わったとみなして深さポイントを付与する。また、HTML文書において1つの命令文に関する開始タグおよび終了タグは必ず同じ階層になるので、開始タグの行に対して深さポイントを付与すれば十分である。

0040

例えば、図4の例において、1行目のタグは第1階層であるから、深さポイントは“1”である(図5参照。以下同様)。また、2行目のタグは第2階層であるから、深さポイントは“2”である。さらに、第3行目のタグ、第4行目のタグ、第5行目のタグについては何れも深さポイントは“3”である。次の6行目にある“</head>”は終了タグであるから第2階層に上がる。そのため、7行目のタグは第2階層となり、深さポイントは“2”である。

0041

キーワードポイント付与部35は、HTML文書の中でキーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。ここで使用するキーワードおよびそれに対応するキーワードポイントは、キーワード設定部32により設定されキーワード記憶部33に記憶されたものである。

0042

上述したように、キーワード記憶部33に記憶されるキーワードは、最初は操作部50の操作を通じてユーザにより入力されたものだけであるが、繰り返しの学習によって徐々に追加されていく。また、キーワード記憶部33に記憶されるキーワードポイントの値は、複数のウェブページの解析が進むにつれて随時更新される。

0043

図4および図5の例では、24行目のタグが属する第6階層に記述された「特価」というキーワードが学習によって追加設定されており、この「特価」というキーワードに対してキーワードポイントとして“2.31”が設定されている。そのため、キーワードポイント付与部35は、「特価」というキーワードに対して設定されているキーワードポイント“2.31”をタグの深さポイント“6”に加算することによって、タグがある24行目のポイントを“8.31”としている。

0044

また、図4および図5の例では、28行目のタグが属する第7階層に記述された「カート」というキーワードも学習によって追加設定されており、この「カート」というキーワードに対してキーワードポイントとして“2.02”が設定されている。そのため、キーワードポイント付与部35は、「カート」というキーワードに対して設定されているキーワードポイント“2.02”をタグの深さポイント“7”に加算することによって、タグがある28行目のポイントを“9.02”としている。

0045

なお、キーワード設定部32が設定してキーワード記憶部33に記憶させるキーワードポイントの計算方法については後述する。

0046

ブロック抽出部36は、キーワードポイントが加算されて深さポイントとの差分が生じている行(図4の例では、「特価」のキーワードが含まれるタグの24行目および「カート」のキーワードが含まれるタグの28行目)を含む所定範囲の行の集合を、所望の情報やキーワードを抽出する対象とすべきブロック(対象ブロックという)として抽出する。対象ブロックは、所望の情報が含まれている可能性が高い範囲を規定したものである。

0047

対象ブロックを規定する所定範囲の終点は、上記差分が生じている行よりも後の行で、キーワードポイントが加算されておらず且つ深さポイントが極小となっている最初の行とする。また、所定範囲の始点は、上記差分が生じている行よりも前の行で、終点と同じ値で深さポイントが極小となっている行とする。

0048

ここで、対象ブロックの始点および終点について、図6に示すグラフを参照して説明する。なお、図6は、図4に示すHTML文書の各行に対して付与されたポイント(図5に示す深さポイントおよびこれとキーワードポイントとの加算結果)を単純に折れ線グラフにしたものであり、横軸行数縦軸はポイントの値を示している。

0049

図6において、破線の折れ線グラフ61が深さポイントをグラフ化したものであり、実線の折れ線グラフ62が深さポイントとキーワードポイントとの加算結果をグラフ化したものである。また、破線の四角で囲んだ範囲が対象ブロック63である。また、この対象ブロック63の対応箇所図3に示すウェブページ上で示すと、破線の四角で囲んだ範囲63’が該当する。

0050

図6に示すように、24行目と28行目でグラフの値に差分が生じている。そこで、ブロック抽出部36は、28行目よりも後の行で、キーワードポイントが加算されておらず(すなわち、深さポイントとの差分が生じておらず)、且つ深さポイントが極小となっている最初の行を所定範囲の終点とする。図6の例では29行目が終点となる。この終点における深さポイントの値は“3”である。一方、ブロック抽出部36は、24行目よりも前の行で、終点と同じ値“3”で深さポイントが極小となっている行を所定範囲の始点とする。図6の例では15行目が始点となる。

0051

情報抽出部37は、ブロック抽出部36により抽出された対象ブロック内から、所定の条件を満たす情報を抽出する。例えば、ユーザが操作部50の操作を通じて、ウェブページから抽出したい情報のタイプとして商品の価格情報を指定した場合、情報抽出部37は、所定の条件を満たす情報として、商品名および価格を抽出する。すなわち、情報抽出部37は、図3に示すECサイトのウェブページに設定された対象ブロック63内から商品名および価格を抽出する。

0052

具体的には、情報抽出部37は、形態素解析によって商品名を抽出する。一般的に、商品名は未知語名詞で構成されていることが多い。そこで、情報抽出部37は、商品名を含む文や単語を形態素解析して、形態素のうちの7割が未知語と名詞で占められていれば、それは商品名であると判断する。また、価格であれば、数値と,(カンマ)との羅列があり、その羅列の前または後に“¥”または“円”といった文字が含まれていることが多い。そこで、情報抽出部37は、こういった正規表現の条件を利用して価格を判別する。

0053

なお、情報タイプとして会社情報が指定されている場合、情報抽出部37は、所定の条件を満たす情報として、所在地代表者氏名、資本金電話番号、従業員数設立年月日などの情報を抽出する。例えば、情報抽出部37は、形態素解析をして地名と数値との組み合わせから成る部分を所在地であると判断する。また、数字と()または−との組み合わせから成る部分を電話番号であると判断する。また、数値と,(カンマ)との羅列があり、その羅列の近くに資本金という文字列がある場合はその数値が資本金であると判断する。他の情報についても、形態素解析や正規表現の条件、近くに存在する文字列の条件により判別する。

0054

また、情報タイプとして求人情報が指定されている場合、情報抽出部37は、所定の条件を満たす情報として、勤務時間給与手当勤務地などの情報を抽出する。これらの情報を抽出する際にも、情報抽出部37は、形態素解析や正規表現の条件、近くに存在する文字列の条件により所望の情報か否かを判別する。

0055

フィルタリング部38は、情報抽出部37により対象ブロック内から抽出された情報について、情報タイプに応じてあらかじめ定めた1以上の種類の情報が揃っているか否かを判定し、揃っている場合にのみ、対象ブロック内から抽出された情報を表示部40に出力する。例えば、ユーザの指定した情報タイプが商品の価格情報である場合、フィルタリング部38は、商品名と価格の2つが揃っているか否かを判定する。対象ブロック内から抽出された情報がどちらか一方だけの場合は、フィルタリング部38はその情報を表示部40に出力しない。

0056

なお、情報タイプとして会社情報が指定されている場合、フィルタリング部38は、例えば、所在地、代表者氏名および資本金の3つが揃っているか否かを判定する。また、情報タイプとして求人情報が指定されている場合、情報抽出部37は、例えば、給与、手当および勤務地の3つが揃っているか否かを判定する。そして、対象ブロック内から抽出された情報が3つとも揃っていない場合は、フィルタリング部38はその情報を表示部40に出力しない。

0057

ここで、キーワード設定部32によるキーワードポイントの計算方法について説明する。上述のように、キーワード設定部32は、ウェブページ記憶部20に記憶されたウェブページの解析を開始する前の最初の段階では、操作部50の操作を通じてユーザにより入力された単語をキーワードとして設定し、キーワード記憶部33に記憶する。また、キーワード設定部32は、ウェブページの解析処理の過程において、ブロック抽出部36により抽出された対象ブロックの中に含まれる単語を抽出してキーワードとして追加設定し、キーワード記憶部33に記憶する。

0058

例えば、商品の価格情報が情報タイプとして指定されている場合、キーワード設定部32は、対象ブロック内に含まれている商品名や価格以外の単語を対象ブロック内から抽出し、新しいキーワードとしてキーワード記憶部33に追加設定する。ここで、対象ブロック内に含まれている商品名および価格の情報については、その情報を抽出した情報抽出部37からキーワード設定部32が通知受ける。キーワード設定部32は、この通知を受けて把握した商品名や価格以外の単語を対象ブロック内から抽出する。

0059

また、キーワード設定部32は、既存のキーワードおよび新たに設定したキーワードを含めて、キーワード記憶部33に記憶されているキーワードに対応するキーワードポイントを計算して記憶する。例えば、キーワード設定部32は、解析対象とされたウェブページからブロック抽出部36により抽出された対象ブロックの総数と、キーワードとして設定された単語の出現数とを用い、対象ブロックの総数に対する単語の出現数の割合に応じた値を計算してキーワードポイントとして設定する。

0060

以下に、この計算方法をもう少し詳しく説明する。すなわち、ブロック抽出部36によって、1つのウェブページから0個または1個以上の対象ブロックが抽出される。複数のウェブページを解析すれば、ブロック抽出部36により複数のウェブページから総数でN個の対象ブロックが抽出され得る。そして、キーワード設定部32によって、当該N個の対象ブロック内から様々な単語がキーワードとして抽出される。このとき、同じ単語が1個または複数の対象ブロックからM回抽出され得る。この場合、キーワード設定部32は、M/Nの値を計算してキーワードポイントとして設定する。

0061

これにより、単語の出現数Mが多くなるほど、その単語に与えられるキーワードポイントは大きな値となる。また、単語の出現数Mが同じであれば、対象ブロックの総数Nが少ないほど、キーワードポイントは大きな値となる。本実施形態では、商品名や価格が含まれる可能性が高い対象ブロックをキーワードポイントと深さポイントとに基づいて特定し、その対象ブロック内から商品名や価格以外の新たな単語をキーワードとして抽出する仕組みとしている。そのため、商品名や価格と近い距離に置かれることが多い単語については出現数Mが多くなり、キーワードポイントも大きくなる傾向となる。

0062

図3に示したECサイトのウェブページの例では、商品名や価格と近い距離に置かれることが多い単語の一例として、「特価」という単語に対して2.31ポイント、「カート」という単語に対して2.02ポイントがキーワードポイントとして与えられている。

0063

ただし、これはある時点において設定されたキーワードポイントの値である。複数のウェブページの解析を進めていくと、複数のウェブページから抽出される対象ブロックの総数Nおよび対象ブロック内から抽出される単語の出現数Mは変動する。よって、キーワードポイントも絶えず変動する。そこで、キーワード設定部32は、キーワードとして抽出した単語に対して、その出現数Mと、抽出した対象ブロックの総数Nとを関連付けて記憶しておき、キーワードポイントの計算に使用する。

0064

そして、キーワード設定部32は、計算したキーワードポイントを、キーワードに関連付けてキーワード記憶部33に記憶する。ここで、新しく設定されたキーワードについては、新規に計算されたキーワードポイントをキーワード記憶部33に記憶する。既存のキーワードについては、再計算されたキーワードポイントをキーワード記憶部33に更新して記憶する。

0065

次に、上記のように構成した本実施形態によるウェブページ解析装置30の動作を説明する。図7は、本実施形態によるウェブページ解析装置30の動作例を示すフローチャートである。図7に示すフローチャートは、ユーザが操作部50を操作してウェブページ解析の指示をウェブページ解析装置30に与えたときに開始する。なお、図7に示すフローチャートの開始時点において、ウェブページ記憶部20には複数のウェブページが既に記憶されているものとする。

0066

図7において、まずユーザが操作部50の操作を通じて、所望の情報としてどのような種類の情報を抽出したいのかを表す情報タイプを指定する(ステップS1)。ここでは一例として、商品の価格情報を情報タイプとして指定したとする。また、ユーザが操作部50の操作を通じて、指定した情報タイプとの関連性があると思われる単語をキーワードとして入力する(ステップS2)。ここでは、「税込」という単語を入力したとする。キーワード設定部32は、入力された単語をキーワードとして設定し、キーワード記憶部33に記憶する。

0067

次に、深さポイント付与部34は、ウェブページ記憶部20に記憶されている複数のウェブページの中から何れか1つを取得し(ステップS3)、そのウェブページ中にキーワード(今の場合は「税込」)が含まれているか否かを判定する(ステップS4)。キーワードが含まれていなければ、処理はステップS13に進む。これにより、キーワードが全く含まれていないウェブページについては、解析対象から外されることとなる。

0068

一方、ウェブページの中にキーワードが含まれている場合は、以下に説明する解析処理を実行する。すなわち、まず深さポイント付与部34は、現在解析対象とされているウェブページを構成しているHTML文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを行ごとに付与する(ステップS5)。

0069

さらに、キーワードポイント付与部35は、キーワード記憶部33に記憶されているキーワードおよびそれに対応するキーワードポイントに基づいて、HTML文書の中でキーワードが含まれる行について、当該キーワードに応じたキーワードポイントを深さポイントに加算する(ステップS6)。1つ目のウェブページの解析では、「税込」というキーワードが含まれる行について、当該キーワードに応じたキーワードポイント(例えば、所定の値)を深さポイントに加算する。

0070

次に、ブロック抽出部36は、深さポイントおよびキーワードポイントに基づいて、現在解析対象としているウェブページ内から対象ブロックを抽出する(ステップS7)。ここで、ブロック抽出部36は、キーワードポイントが加算されて深さポイントとの差分が生じている行を含み、その行よりも前および後の行でキーワードポイントが加算されておらず且つ深さポイントが極小となっている行を始点および終点とする所定範囲を対象ブロックとして抽出する。

0071

次に、情報抽出部37は、ブロック抽出部36により抽出された対象ブロック内から、所定の条件を満たす所望の情報を抽出する(ステップS8)。ここでは、情報タイプとして商品の価格情報が指定されているので、情報抽出部37は、所定の条件を満たす所望の情報として、商品名および価格を対象ブロック内から抽出する。

0072

そして、フィルタリング部38は、情報抽出部37により対象ブロック内から抽出された所望の情報について、情報タイプに応じてあらかじめ定めた1以上の種類の情報が揃っているか否かを判定する(ステップS9)。ここでは、商品の価格情報という情報タイプに応じてあらかじめ定められた商品名と価格の2つが揃っているか否かを判定する。

0073

ここで、対象ブロック内から抽出された所望の情報として、必要な情報が揃っていない場合は、処理はステップS13に進む。一方、必要な情報が揃っている場合は、フィルタリング部38は、対象ブロック内から抽出された所望の情報(商品名と価格)を表示部40に出力する(ステップS10)。

0074

その後、キーワード設定部32は、ブロック抽出部36により抽出された対象ブロックの中に含まれる単語(商品名および価格以外の単語)を抽出してキーワードとして追加設定し、キーワード記憶部33に記憶する(ステップS11)。また、キーワード設定部32は、新たに設定したキーワードを含めて、キーワード記憶部33に記憶されているキーワードに対応するキーワードポイントを計算し、キーワード記憶部33に記憶する(ステップS12)。

0075

最後に、深さポイント付与部34は、ウェブページ記憶部20に記憶されている複数のウェブページを全て処理し終えたか否かを判定する(ステップS13)。全てのウェブページについて処理が終了した場合、図7に示すフローチャートの処理は終了する。一方、全てのウェブページについて処理がまだ終了していない場合は、ステップS3に戻り、別のウェブページを取得して以上と同様の処理を繰り返す。

0076

ステップS3に戻って別のウェブページを取得する前に、ステップS11,S12で新たなキーワードが追加設定されていた場合は、ユーザが入力した「税込」というキーワードが当該別のウェブページ中に含まれていなくても、追加設定されたキーワードが当該別のウェブページ中に含まれていれば、その別のウェブページは所望の情報の抽出処理(ステップS5〜S10)およびキーワードの学習処理(ステップS11〜S12)の対象とされる。

0077

なお、図7に示すフローチャートでは、ウェブページ記憶部20に記憶されている複数のウェブページの処理が一巡したところで処理を終了するようにしているが、本発明はこの例に限定されない。例えば、自動的に、あるいはユーザによる操作部50の操作を通じて、ウェブページ記憶部20に記憶されている複数のウェブページの処理を複数回行うようにしてもよい。

0078

上述のように、複数のウェブページの解析処理を進めていくうちに、キーワードが学習効果によって徐々に増えていく。よって、一巡目で解析処理の対象とされなかった(ステップS4でキーワードが含まれないと判断された)ウェブページも、二巡目以降では解析処理の対象とされる可能性もある。これにより、より多くのウェブページから所望の情報を抽出できる可能性が高くなるというメリットがある。なお、二巡目以降では、一度も解析処理の対象とされていないウェブページだけに絞って解析を行うようにすれば、処理効率上げることもできる。

0079

以上詳しく説明したように、本実施形態では、ウェブページを構成しているHTML文書のタグの階層構造を解析し、ルートからの深さに応じた深さポイントを行ごとに付与するとともに、キーワードが含まれる行については当該キーワードに応じたキーワードポイントを深さポイントに加算する。そして、深さポイントとキーワードポイントとに基づいて、キーワードが含まれている行を含む前後の所定範囲を対象ブロックとして抽出し、抽出した対象ブロック内から所定の条件を満たす情報(例えば、商品名および価格)を抽出するようにしている。

0080

このように構成した本実施形態によれば、ウェブページを構成しているHTML文書において、キーワードが含まれている行から近い距離にある所定範囲の行の集合が対象ブロックとして抽出され、当該対象ブロック内から所定の条件を満たす所望の情報が抽出される。例えば、形態素解析や正規表現を利用した所定の条件を満たす所望の情報として、商品名および価格が抽出される。

0081

したがって、情報タイプ(商品の価格情報、会社情報、求人情報など)に応じて所望の情報を抽出するために必要な条件を所定の条件として設定しておけば、キーワードから近い距離に掲載されることが多い所望の情報をウェブページから自動的に抽出することができる。これにより、インターネット上のウェブサイトにある多くのウェブページから所望の情報を効率的に抽出することができる。

0082

また、本実施形態では、ブロック抽出部36を設け、単に所定の条件を満たす情報をウェブページから抽出するのではなく、ウェブページの中から対象ブロックを抽出し、当該対象ブロックの中だけから所定の条件を満たす情報を抽出している。そのため、例えば商品名と価格が1つのウェブページ内に存在していても、両者が構造的に遠い位置に配置されていて互いの関連性が乏しいものについては、所望の情報には該当しないとして抽出の対象から外すことができる。

0083

ある1つの商品に関して商品名と価格を表記したものであれば、図3に示したように両者は近い距離に配置されるのが通常である。本実施形態では、このようなケースだけを対象として商品名と価格を抽出することができるので、所望の情報ではないノイズの抽出を少なくすることができる。

0084

また、本実施形態では、フィルタリング部38を設け、対象ブロック内から抽出される商品名や価格であっても、その両者が揃っていなければ所望の情報として出力しないようにしている。これにより、商品名と価格のどちらか一方だけがたまたま対象ブロック内に存在するケースについては、所望の情報には該当しないとして除外することができる。したがって、所望の情報ではないノイズの抽出をより少なくすることができる。

0085

また、本実施形態では、キーワード設定部32を設け、対象ブロックの抽出に使用するキーワードを学習によって可変設定できるようにしている。そして、可変設定するキーワードは、対象ブロック内から抽出するようにしている。つまり、本実施形態では、対象ブロック内に含まれる既存のキーワードや所望の情報から近い距離にある単語をキーワードとして追加設定できるようにしている。

0086

キーワードを固定で使用すると、所望の情報の抽出精度が殆どのそのキーワードの良し悪しに依存してしまうことになる。これに対して、本実施形態によれば、最初は所定のキーワードを設定する必要があるものの、ウェブページの解析を進めるにつれて、所望の情報を抽出するために好ましい単語(実際にインターネット上に存在する複数のウェブページにおいて所望の情報の近くで使用されている単語)が順次キーワードとして追加設定されていく。これにより、所望の情報の抽出精度を上げることができる。

0087

なお、上記実施形態では、キーワードポイントの計算方法の一例として、対象ブロックの総数に対する単語の出現数の割合に応じた値を計算してキーワードポイントとして設定する例について説明したが、本発明はこれに限定されない。例えば、所望の情報から単語までの構造上の距離の大きさを更に加味してキーワードポイントを計算してもよい。具体的には、所望の情報からの構造上の距離が近い単語ほどキーワードポイントが大きくなるように係数乗算するという方法が考えられる。ここで言う「構造上の距離」とは、例えば行数の差分としてもよいし、階層数の差分としてもよい。あるいは、階層のツリー構造を擬似的に家系図として見た場合の親等数の差分としてもよい。

0088

また、上記実施形態では、情報抽出部37により対象ブロックから抽出された情報について、情報タイプとして必要な情報が揃っている場合にのみキーワードの学習を行う例について説明したが、必要な情報が揃っていない場合にもキーワードの学習を行うようにしてもよい。ただし、必要な情報が揃っている場合にのみ所望の情報を出力するようにフィルタリング部38で制御しているので、キーワードの学習も必要な情報が揃っている場合にのみ行うのが好ましい。

0089

また、上記実施形態において、キーワード設定部32により計算されたキーワードポイントが閾値以下のときは、キーワードポイントを“0”とするようにしてもよい。キーワードとして設定された単語の出現頻度が極めて少なくてキーワードポイントが小さな値となる場合でも、それをそのまま設定しておくと、その単語が含まれる行に関しては、深さポイントとの差分が僅かではあるが存在することになる。

0090

そのため、その僅かな差分しかない行を含む所定範囲も、対象ブロックの抽出対象となってしまう。この場合、その対象ブロック内には所望の情報が含まれていない可能性が高いため、抽出した対象ブロック自体がノイズとなってしまう可能性がある。これに対して、キーワードポイントが閾値以下のときは全て値を“0”に丸めるようにすれば、ノイズとなる対象ブロックの抽出を少なくすることができ、処理効率を上げることができる。

0091

また、上記実施形態では、ブロック抽出部36による対象ブロックの抽出方法を一例として示したが、本発明はこれに限定されない。例えば、キーワードポイントが加算されて深さポイントとの差分が生じている行と、当該差分が生じている行から前の所定数の行と、当該差分が生じている行から後の所定数の行とを含む範囲を対象ブロックとして抽出するようにしてもよい。ただし、上記実施形態による抽出方法によれば、対象ブロックを過不足のない的確な範囲に絞って設定できる可能性が高くなるので、所望の情報の抽出漏れを低減しつつ処理効率を上げることができる。

0092

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。


ページトップへ

この特許を出願した法人

この特許を発明した人物

ページトップへ

関連する未来の課題

ページトップへ

おすすめの成長市場

関連メディア astavision

  • CCS(CO2の分離・回収、地下・海底貯留)

    CCS(Carbon dioxide Capture and Storage:二酸化炭素回収・貯蔵技…

  • 音声認識・音声合成・ボーカロイド

    米国Apple社は、2011年、iPhone向け知能型音声認識サービスSiriを市場に試験投入して以…

  • 人工筋肉・ソフトアクチュエータ

    人工筋肉とは、ゴムや導電性ポリマー、形状記憶合金、カーボン・ナノチューブなどで作られた伸縮性のアクチ…

ページトップへ

技術視点だけで見ていませんか?

この特許の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

新着 最近登録された関連が強い特許

この特許と関連性が強い人物

関連性が強い人物一覧

この特許と関連する未来の課題

関連性が強い未来の課題一覧

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ