図面 (/)

技術 www上のHTML文書のキーワード検索の結果の提示方法

出願人 株式会社日立製作所
発明者 小泉忍
出願日 1998年6月2日 (21年1ヶ月経過) 出願番号 1998-152486
公開日 1999年12月14日 (19年7ヶ月経過) 公開番号 1999-345238
状態 未査定
技術分野 検索装置
主要キーワード 優先順位計算 優先順位値 指定キーワード 参照カウント 参照元 集合中 有向グラフ 距離値
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1999年12月14日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

クライアント計算機2と検索サーバ計算機4がネットワーク3により接続されている環境において、WWWブラウザ5を操作して、www上のHTML文書キーワード検索を行う場合に、キーワード検索エンジン6による検索結果の件数が多く目的とする文書を見つけることが困難な場合がある。

解決手段

キーワード検索エンジン6による検索結果を、検索結果の中におけるURLの相互参照関係に基づいて優先順位を計算する優先順位計算機構7を用いてソートすることにより、検索者1の検索結果の確認の手間を軽減する。

概要

背景

www上には数多くのHTML文書公開されているが、それらの中から自分が必要とする情報を見つけ出す方法のひとつとして、キーワードによる全文検索が非常によく利用されている。このような機能をサーチエンジンと呼ぶが、その著名なものとしては、例えば米国DEC社のAltaVista(http://altavista.digital.com/)がある。

概要

クライアント計算機2と検索サーバ計算機4がネットワーク3により接続されている環境において、WWWブラウザ5を操作して、www上のHTML文書のキーワード検索を行う場合に、キーワード検索エンジン6による検索結果の件数が多く目的とする文書を見つけることが困難な場合がある。

キーワード検索エンジン6による検索結果を、検索結果の中におけるURLの相互参照関係に基づいて優先順位を計算する優先順位計算機構7を用いてソートすることにより、検索者1の検索結果の確認の手間を軽減する。

目的

効果

実績

技術文献被引用数
1件
牽制数
1件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

www上のHTML文書検索者が指定したキーワード全文検索により検索し結果を検索者に提示する方法において、指定キーワードの全文検索により得られたHTML文書の集合中でのURLによる相互参照の状態に基づいて順序付けを行うことを特徴とするwww上のHTML文書のキーワード検索の結果の提示方法

請求項2

請求項1のwww上のHTML文書のキーワード検索の結果の提示方法において、順序付けの方法が、指定キーワードの全文検索により得られたHTML文書の集合中でのURLによる相互参照の被参照カウントの値による順序であることを特徴とするwww上のHTML文書のキーワード検索の結果の提示方法。

請求項3

請求項1のwww上のHTML文書のキーワード検索の結果の提示方法において、順序付けの方法が、指定キーワードの全文検索により得られたHTML文書の集合中でのURLによる相互参照の有向グラフにおける被参照ルートノードからの距離値による順序であることを特徴とするwww上のHTML文書のキーワード検索の結果の提示方法。

技術分野

0001

本発明はwww上に公開されているHTML文書検索技術に関する。

背景技術

0002

www上には数多くのHTML文書が公開されているが、それらの中から自分が必要とする情報を見つけ出す方法のひとつとして、キーワードによる全文検索が非常によく利用されている。このような機能をサーチエンジンと呼ぶが、その著名なものとしては、例えば米国DEC社のAltaVista(http://altavista.digital.com/)がある。

発明が解決しようとする課題

0003

www上には非常に多くのHTML文書が存在するため、あるキーワードを含むHTML文書が数万〜数十万件見つかることが少なくない。また、複数のキーワードによる絞り込みでも、対象文書数を個別にチェック可能な適切な件数にすることが難しいことがよくある。

0004

例えば、ある言葉の意味の説明をwww上で探すためにその言葉をキーワードとして検索した場合、その言葉の意味を説明している文書だけでなく、その言葉を利用しているすべての文書が検索結果として提示されてしまう。その言葉の意味を全く知らなければ、その言葉を説明しているであろう別の言葉を正しく思い付くことは期待できないので、さらに別のキーワードで正しく対象を絞り込むことは非常に難しいであろう。

課題を解決するための手段

0005

ある言葉の説明を得るためにWWWを検索する場合、従来のキーワード検索の結果に対し、言葉の説明となっている可能性の高さに関連するであろう尺度を導入し、その尺度の一定値以下の切り捨てによる結果提示件数の削減や、値に基づく結果提示の順序付けにより、検索者による結果の参照を容易にさせることができる。

0006

HTML文書の特徴のひとつは、HTML文書間でリンクを張れることにある。このリンクの表現形式をURLと呼ぶが、HTML文書中に埋め込まれたURLを、WWWブラウザを利用してたどることで、リンク先のHTML文書を対話的にその場で参照することができる。

0007

HTML文書が開発された目的のひとつには学術論文の公開があるが、その「参考文献」の提示において、論文名/作者名だけでなく、HTML文書化された当該文献へのURLを埋め込むことによって、参考文献へのアクセス支援するという思想があった。

0008

このように、ある2つのHTML文書がURLによりリンクされているときには、参照先の中には、参照元記述された内容の詳細や関連事項の説明が記述されている可能性が高いと考えられる。

0009

従って、ここでは「言葉の説明となっている可能性の高さに関連するであろう尺度」として、URLによるHTML文書間のリンクに関する数値を採用し、以下の2つの数値により、検索結果の提示における順序付けおよび切り捨てを行うことを提案する。

0010

(1)キーワード検索の結果として得られるHTML文書の集合に対し、それら文書間におけるURLによる参照関係の被参照カウント数(多いほうが優先度が高い)、(2)キーワード検索の結果として得られるHTML文書の集合に対し、それら文書間におけるURLによる参照関係グラフの参照先ルートからの距離(近いほうが優先度が高い)、上記において、(1)は良い説明は引用されることが多いであろうという推測に基づき、また(2)は引用の原典を優先するという考えに基づく。

発明を実施するための最良の形態

0011

以下、図を用いて、発明の詳細な実施例を説明する。

0012

図1は、発明の対象となるシステムの全体構成の例を示す。クライアント計算機2は、ネットワーク3により、検索サーバ計算機4と接続している。検索者1はクライアント計算機2で稼動しているWWWブラウザ5を操作して、www上のHTML文書のキーワード検索を行う。サーバ計算機4では、キーワード検索エンジン6、優先順位計算機構7、wwwページ生成機構8、およびwwwサーバ9が稼動している。

0013

図2は、図1のシステム上でキーワード検索により当該キーワードを含むHTML文書の検索を行う際の全体フローを示す。以下、全体フローの各ステップを説明する。

0014

ステップ1:検索者1は、クライアント計算機2上のwwwブラウザ5で検索サーバ計算機4にアクセスし検索のためのキーワードを入力し、検索を指示する。〜10
ステップ2:wwwサーバ計算機4は、wwwサーバ9を通じて検索キーワードを取得し、当該検索キーワードをキーワード検索エンジン6に投入する。〜11
ステップ3:キーワード検索エンジン6は、与えられたキーワードを含むHTML文書の一覧表、即ち「検索結果のURLリスト」を作成する。〜12
ステップ4:優先順位計算機構7は、前ステップで作成された「検索結果のURLリスト」の各URLについて優先順位を計算し、その結果に基づき「検索結果のURLリスト」を昇順または降順ソートし「ソートされたの検索結果のURLリスト」を作成する。〜13
ステップ5:WWWページ生成8は、前ステップで作成された「ソートされた検索結果のURLリスト」を表示するための「検索結果表示HTML文書」を生成する。〜14
ステップ6:wwwブラウザ5は、wwwサーバ9を通じて前ステップで作成された「検索結果表示HTML文書」を取得し、クライアント計算機2に表示する。

0015

図3は、優先順位計算機構7の処理フローを示す。なお、優先順位計算機構以外の部分については従来技術であり、ここでは詳細に説明しない。

0016

以下、優先順位計算機構7の処理フローの各ステップを説明する。

0017

ステップ1:「検索結果のURLリスト」を用いて、「相互参照マップ」をステップ1.1〜ステップ1.2により作成する。〜20
ステップ1.1:「検索結果のURLリスト」の各URLで示されるHTML文書すべてに関し、ステップ1.1.1を実施〜21
ステップ1.1.1:当該HTML文書に含まれるすべてのURLうち、「検索結果のURLリスト」にも含まれるものを取り出し「相互参照先URLリスト」とする。〜22
ステップ1.2:「検索結果のURLリスト」のすべてURLの「相互参照先URLリスト」をまとめて「相互参照マップ」と呼ぶ。〜23
ステップ2:(「相互参照マップ」から優先順位計算)「検索結果のURLリスト」の各URLに対し、それぞれの「相互参照URLリスト」を利用して「優先順位計算」を行い、優先順位値を付与する。〜24
ステップ3:(優先順位による検索結果のURLリストのソート)「検索結果のURLリスト」の各URLに対し計算された優先順位値の大きさに従って「検索結果のURLリスト」をソートし、「ソートされた検索結果のURLリスト」を作成する。〜25
図4は、優先順位計算機構7の中で実施される「優先順位計算」の方法の一例である「被参照カウントによる優先順位付け」の処理フローである。以下、「被参照カウントによる優先順位付け」の処理フローを説明する。

0018

ステップ1:「検索結果のURLリスト」の当該URLに対し、「相互参照マップ」を構成するすべての「相互参照URLリスト」における当該URLの出現回数をKとする。〜30
ステップ2:Kを当該URLの優先順位値とする。〜31
なお、図4の方法を採用した場合には、優先順位値が大きい方を優先し、優先順位値によるソート時には降順とする。

0019

図5は、優先順位計算機構7の中で実施される「優先順位計算」の方法の他の一例である「参照先ルートからの距離による優先順位付け」の処理フローである。以下、「参照先ルートからの距離による優先順位付け」の処理フローを説明する。

0020

ステップ1:「検索結果のURLリスト」のすべてのURLに対し、それぞれのURLに対応する「距離計算フラグ」をOFFにする。〜40
ステップ2:「検索結果のURLリスト」のすべてのURLに対して、「相互参照URLリスト」を持たない(またはエントリ数が0の)ものに対し優先順位値を+∞とする。〜41
ステップ3:「検索結果のURLリスト」のすべてのURLにおいて、「相互参照URLリスト」を持つ(またはエントリ数が1以上の)ものに対し、それぞれ「参照先ルートからの距離」を計算し、結果の値を優先順位値とする。〜42
図6は、「参照先ルートからの距離による優先順位付け」の処理フローの中で用いられる「参照先ルートからの距離の計算」の処理フローである。以下、参照先ルートからの距離の計算」の処理フローを説明する。

0021

ステップ1:もし、当該URLに「相互参照URLリスト」が存在しなければステップ2を、「相互参照URLリスト」が存在するならステップ3を実行する。〜50
ステップ2:K=0とし、ステップ9を実行する。〜51
ステップ3:もし、当該URLの「距離計算中フラグ」がONならばステップ4を、OFFならばステップ5を実行する。〜52
ステップ4:K=+∞とし、ステップ8を実行する。〜53
ステップ5:当該URLの「距離計算中フラグ」をONにする。〜54
ステップ6:当該URLの「相互参照URLリスト」上の各URLについて「参照先ルートからの距離の計算」が終了していないものがあれば、それらURLの「参照先ルートからの距離の計算」を実施する。〜55
ステップ7:K=1+Max(当該URLの「相互参照リスト」上の各URLに対する「参照先ルートからの距離の計算」値)とする。〜56
ステップ8:当該URLの「距離計算中フラグ」をOFFにする。〜57
ステップ9:Kを当該URLの参照先ルートからの距離の計算値とする。〜58
なお、図5および6の方法を採用した場合には、優先順位値が小さい方を優先し、優先順位値によるソート時には昇順とする。

発明の効果

0022

本発明によれば、HTML文書のキーワード検索において、検索結果のHTML文書の集合内における相互参照関係のみから、検索者へ提示すべき優先度を決めることができ、検索者の検索結果の確認の手間を軽減する。本発明で計算される「他のHTML文書からの参照」をベースにした優先度の妥当性は、「詳細や関連事項を説明するために、URLによるリンクが使い方使われることが多い」ことに由来しており、他の目的で使われている場合を排除していないため、常に有効である保証はないが、全くランダムに表示するよりははるかに有効であると考えられる。

図面の簡単な説明

0023

図1本発明の実施例であるキーワード検索システム構成図。
図2図1の全体フロー図。
図3本発明の優先順位計算機構を示すフローチャート
図4本発明の優先順位計算(被参照カウントによる優先順位付け)を示すフローチャート。
図5本発明の優先順位計算(参照先ルートからの距離による優先順位付け)を示すフローチャート。
図6本発明の参照先ルートからの距離の計算を示すフローチャート。

--

0024

1…検索者、 2…クライアント計算機、3…ネットワーク、4…検索サーバ計算機、5…WWWブラウザ、6…キーワード検索エンジン、7…優先順位計算機構、8…wwwページ生成機構、 9…wwwサーバ、10〜15…全体フローの各処理ステップ、20〜25…優先順位計算機構の各処理ステップ、30〜31…優先順位計算(被参照カウントによる優先順位付け)の各処理ステップ、40〜42…優先順位計算(参照先ルートからの距離による優先順位付け)の各処理ステップ、50〜59…参照先ルートからの距離の計算の各処理ステップ。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • グーグルエルエルシーの「 ビデオマッチングシステムのサービス品質向上のための画像マッチングシステムの使用」が 公開されました。( 2019/05/30)

    【課題・解決手段】システムは、対象のビデオを受信する。システムは、対象のビデオ内の動的セグメントと準静的セグメントとを識別する。システムは、対象のビデオの動的セグメントと参照ビデオの参照動的セグメント... 詳細

  • 尾和剛一の「 特許文献集合の分析方法」が 公開されました。( 2019/05/23)

    【課題】特定のコア技術や、特定の出願人の特定の分野の全特許文献集合の文献件数時系列動向とは異なる動向を示す文献項目を抽出する方法を提供する。【解決手段】特定文献集合分折方法は、特定の文献集合の特許文献... 詳細

  • 株式会社大塚商会の「 画像解析システム」が 公開されました。( 2019/05/23)

    【課題】 画像解析システムを提供することを目的とする。【解決手段】 画像解析システムであって,対象物と対象物関連情報とを対応づけて記憶する対象物情報記憶部と,第1の画像情報と,少なくとも一以上の第... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ