図面 (/)

技術 関連情報登録装置、関連情報登録方法および関連情報登録プログラム

出願人 富士通株式会社
発明者 岩倉友哉岡本青史
出願日 2008年6月27日 (12年4ヶ月経過) 出願番号 2008-169415
公開日 2010年1月14日 (10年10ヶ月経過) 公開番号 2010-009414
状態 特許登録済
技術分野 文書処理装置 文書処理装置
主要キーワード BB社 登録タイミング 特定語句 辞書候補 内リンク 関連情報登録 収集タイミング 辞書作成処理
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2010年1月14日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

語句リンク先URLとを登録する際に、作成者への処理負荷を軽減することを課題とする。

解決手段

文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出し、他の文書に関連付ける関連情報を当該構成要素に対応付けて記憶する関連情報記憶部に、抽出した構成要素と関連情報とを対応付けて登録する。また、抽出する構成要素が位置する点を任意の文書内での基点として範囲内構成要素を抽出し、抽出した構成要素と関連情報との組み合わせごとに対応付けて、範囲内構成要素を登録する。

概要

背景

従来より、テキスト中語句リンクタグを設定するリンク自動生成技術(Auto Link)が知られている。具体的には、リンク自動生成技術では、コンピュータが、語句とリンク先URL(Uniform Resource Locator)とを対応づけたリンク設定辞書を予め保持する。ここで、コンピュータは、利用者によってテキストが指定されると、指定されたテキスト中に存在する語句のうち、リンク設定用辞書に登録されている語句を識別する。そして、コンピュータは、識別した語句に対して、リンク設定用辞書に登録してあるリンク先URLへのリンクタグを設定する(特許文献1や2など)。

また、例えば、リンク自動生成技術では、リンク設定用辞書に、語句とリンク先URLとを利用者が手動によって登録する登録手法が用いられている(特許文献3など)。

特開平10−334086号公報(第1−5頁、第1図)
特開2003−108425号公報(第8−9頁、第1図)
特開2006−004308号公報(第1−4頁、第1図)

概要

語句とリンク先URLとを登録する際に、作成者への処理負荷を軽減することを課題とする。文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出し、他の文書に関連付ける関連情報を当該構成要素に対応付けて記憶する関連情報記憶部に、抽出した構成要素と関連情報とを対応付けて登録する。また、抽出する構成要素が位置する点を任意の文書内での基点として範囲内構成要素を抽出し、抽出した構成要素と関連情報との組み合わせごとに対応付けて、範囲内構成要素を登録する。

目的

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、
作成者への処理負荷を軽減することが可能である関連情報登録装置関連情報登録方法および関連情報登録プログラムを提供することを目的とする。

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出ステップと他の文書に関連付ける関連情報を構成要素に対応付けて記憶する関連情報記憶部に、前記抽出ステップによって抽出された構成要素と関連情報とを対応付けて登録する登録ステップと、を含むことを特徴とする関連情報登録方法。

請求項2

前記抽出ステップによって抽出される構成要素が位置する点を前記任意の文書内での基点とし、当該基点から所定の範囲内に含まれる構成要素である範囲内構成要素を抽出する範囲内抽出ステップと、前記抽出ステップによって抽出される構成要素と関連情報との組み合わせごとに対応付けて、前記範囲内抽出ステップによって抽出される前記範囲内構成要素を前記関連情報記憶部に登録する範囲内登録ステップと、をさらに含むことを特徴とする請求項1に記載の関連情報登録方法。

請求項3

前記範囲内登録ステップによって登録される前記範囲内構成要素各々に対応付けて、前記関連情報記憶部に、前記構成要素と前記関連情報とが同一となる組み合わせに対応付けられて当該範囲内構成要素各々が抽出される回数を登録する回数登録ステップをさらに備えることを特徴とする請求項2に記載の関連情報登録方法。

請求項4

文書に含まれる構成要素を他の文書に関連付ける関連情報を、当該構成要素に対応付けて記憶する関連情報記憶手段と、他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出手段と、前記抽出手段によって抽出される関連情報と構成要素とを対応付けて前記関連情報記憶手段に登録する登録手段と、を備えることを特徴とする関連情報登録装置

請求項5

文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出手順と、他の文書に関連付ける関連情報を当該構成要素に対応付けて記憶する関連情報記憶部に、前記抽出手順によって抽出される構成要素と関連情報とを対応付けて登録する登録手順と、をコンピュータに実行させることを特徴とする関連情報登録プログラム

技術分野

0001

この発明は、関連情報登録装置関連情報登録方法および関連情報登録プログラムに関する。

背景技術

0002

従来より、テキスト中語句リンクタグを設定するリンク自動生成技術(Auto Link)が知られている。具体的には、リンク自動生成技術では、コンピュータが、語句とリンク先URL(Uniform Resource Locator)とを対応づけたリンク設定辞書を予め保持する。ここで、コンピュータは、利用者によってテキストが指定されると、指定されたテキスト中に存在する語句のうち、リンク設定用辞書に登録されている語句を識別する。そして、コンピュータは、識別した語句に対して、リンク設定用辞書に登録してあるリンク先URLへのリンクタグを設定する(特許文献1や2など)。

0003

また、例えば、リンク自動生成技術では、リンク設定用辞書に、語句とリンク先URLとを利用者が手動によって登録する登録手法が用いられている(特許文献3など)。

0004

特開平10−334086号公報(第1−5頁、第1図)
特開2003−108425号公報(第8−9頁、第1図)
特開2006−004308号公報(第1−4頁、第1図)

発明が解決しようとする課題

0005

ところで、上記した従来の登録手法では、語句とリンク先URLとをリンク設定用辞書に蓄積する処理すべてが利用者によって行われており、多大な処理負荷が利用者にかかっていたという課題があった。

0006

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、
作成者への処理負荷を軽減することが可能である関連情報登録装置、関連情報登録方法および関連情報登録プログラムを提供することを目的とする。

課題を解決するための手段

0007

上述した課題を解決し、目的を達成するため、文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出ステップを備える。また、他の文書に関連付ける関連情報を当該構成要素に対応付けて記憶する関連情報記憶部に、前記抽出ステップによって抽出された構成要素と関連情報とを対応付けて登録する登録ステップを備える。

発明の効果

0008

作成者への処理負荷を軽減することが可能である。

発明を実施するための最良の形態

0009

以下に添付図面を参照して、この発明に係る関連情報登録装置、関連情報登録方法および関連情報登録プログラムの実施例を詳細に説明する。なお、以下では、実施例1に係る関連情報登録装置の概要、関連情報登録装置の構成および処理の流れを順に説明し、その後、その他の実施例について説明する。

0010

[関連情報登録装置の概要]
まず最初に、図1を用いて、実施例1に係る関連情報登録装置300の概要を説明する。図1は、実施例1に係る関連情報登録装置の概要を説明するための図である。

0011

同図に示すように、実施例1に係る関連情報登録装置300は、語句(「構成要素」とも称する)に対応付けてリンク先URL(「関連情報」とも称する)を記憶する辞書記憶部403(「関連情報記憶部」とも称する)を有する。例えば、関連情報登録装置300では、辞書記憶部403が、語句「AAA社」に対応付けて、リンク先URL「AAA.jp」を記憶する。

0012

ここで、図1の(1)に示すように、実施例1に係る関連情報登録装置300は、リンク先URLが設定されている語句を含む任意の文書(抽出対象文書)から、リンク先URLが設定されている語句とリンク先URLとを抽出する。例えば、図1の(1)に示す例では、関連情報登録装置300は、文書から、リンク先URL「BBB.jp」が設定されている語句「BBB社」と、リンク先URL「BBB.jp」とを抽出する。

0013

そして、図1の(2)に示すように、実施例1に係る関連情報登録装置300は、リンク先URLと語句とを対応付けて辞書記憶部403に登録し、例えば、語句「BBB社」とリンク先URL「BBB.jp」とを対応付けて登録する。

0014

このようなことから、実施例1に係る関連情報登録装置300によれば、語句とリンク先URLとを辞書記憶部403に登録する際に、作成者への処理負荷を軽減することが可能である。

0015

[関連情報登録装置の構成]
次に、図2を用いて、図1に示した関連情報登録装置300の構成を説明する。なお、図2は、実施例1に係る関連情報登録装置の構成を説明するためのブロック図である。同図に示すように、関連情報登録装置300は、記憶部400と制御部500とを有し、インターネット100と接続され、また、クライアント200から接続される。

0016

クライアント200は、関連情報登録装置300に接続し、リンク先URLを設定する対象となる設定対象文書を関連情報登録装置300に入力し、また、関連情報登録装置300によって登録処理が行われた文書を関連情報登録装置300から受け取る。

0017

記憶部400は、リンク先URLを登録する登録処理やリンク先URLを設定する設定処理に必要なデータなどを記憶し、WEBページ記憶部401と辞書候補記憶部402と辞書記憶部403とを有する。

0018

WEBページ記憶部401は、WEBページ収集部501と辞書候補抽出部502とに接続され、WEBページを記憶する。なお、WEBページは、「URL」によって他のWEBページから一意に識別される。具体的には、図3に示すように、WEBページ記憶部401は、「URL」に対応付けて、「URL」によって識別されるWEBページ内容である「WEBページ内容」を記憶する。なお、図3は、実施例1におけるWEBページ記憶部に記憶されている情報の一例を説明するための図である。例えば、WEBページ記憶部401は、WEBページ内容の一例として、URL「a.jp」に対応付けて、WEBページ内容「株式会社AAAの社長」を記憶する。

0019

また、URLとWEBページ内容との対応付けは、WEBページ収集部501によってインターネット100に接続して収集されてWEBページ記憶部401に登録され、辞書候補抽出部502によって抽出され、その後、辞書候補抽出部502によってWEBページ記憶部401から削除される。

0020

なお、図3に示すAAAとは、URL「aaa.jp」によって一意に識別されるWEBページへの関連付けとなるリンクタグ(アンカータグ)であり、URL「aaa.jp」によって一意に識別されるWEBページへのハイパーリンクである。ここで、リンク先URLとは、語句に対して関連付けが設定されている際に、関連付けられた他の文書を一意に特定する情報であり、例えば、図3に示すとでは、「aaa.jp」が該当する。つまり、例えば、WEBページ内容「株式会社AAAの社長」では、リンク先URL「aaa.jp」によって一意に識別されるWEBページへのハイパーリンクが、語句「AAA」に対して設定されている。

0021

辞書候補記憶部402は、辞書候補抽出部502と辞書作成部503とに接続され、辞書記憶部403に登録される候補となる情報を記憶する。具体的には、図4に示すように、辞書候補記憶部402は、「アンカー文字列」と「リンク先URL」との対応付けごとに、「文脈情報」と「リンク元URL」とを対応付けて記憶する。なお、図4は、実施例1における辞書候補記憶部に記憶されている情報の一例を説明するための図である。

0022

ここで、アンカー文字列とは、抽出対象文書内の語句の内リンクタグが設定されている語句であり、例えば、リンク先URL「aaa.jp」へのハイパーリンクが設定されている語句「AAA」が該当する。また、リンク元URLとは、「アンカー文字列」と「リンク先URL」とが抽出されるWEBページを一意に特定する情報である。例えば、リンク元URLとは、アンカー文字列「AAA」とリンク先URL「aaa.jp」とが抽出されるWEBページを識別するURL「a.jp」(図3参照)が該当する。

0023

また、文脈情報(「範囲内構成要素」とも称する)とは、抽出対象文書内にある語句の内、アンカー文字列の位置を基点とする所定の範囲内に含まれる語句である。例えば、文脈情報とは、アンカー文字列の前後にある語句の内、所定の文字数(例えば、10文字など)内に位置する語句や、アンカー文字列を含む一つの文章に含まれる語句すべてなどが該当する。なお、所定の範囲は、利用者によって予め設定される。

0024

例えば、文脈情報とは、WEBページ内容「株式会社AAAの社長」では、アンカー文字列「AAA」を含む文書に含まれる語句である「株式会社」や「社長」が該当する。

0025

すなわち、例えば、図4に示す例では、辞書候補記憶部402は、アンカー文字列「AAA」とリンク先URL「aaa.jp」とに対応付けて、文脈情報「株式会社、社長」とリンク元URL「a.jp」とを記憶する。

0026

また、アンカー文字列とリンク先URLと文脈情報とリンク元URLとの対応付けは、辞書候補抽出部502によってWEBページ記憶部401から抽出されて辞書候補記憶部402に登録され、辞書作成部503によって辞書候補記憶部402から抽出される。また、その後、アンカー文字列とリンク先URLと文脈情報とリンク元URLとの対応付けは、辞書作成部503によって辞書候補記憶部402から削除される。

0027

辞書記憶部403(「関連情報記憶部」とも称する)は、辞書作成部503と関連情報設定部504とに接続される。また、図5に示すように、辞書記憶部403は、「辞書見出し」に対応付けて、「回数付文脈情報」と「閾値」と「リンク先URL」とを記憶する。なお、図5は、実施例1における辞書記憶部に記憶されている情報の一例を説明するための図である。

0028

ここで、「辞書見出し」とは、関連情報設定部504によってリンク先URLが設定される対象となる語句であり、例えば、図5に示す例では、「AAA」などが該当する。また、「回数付文脈情報」とは、文脈情報各々に、アンカー文字列とリンク先URLとが同一となる組み合わせに対応付けて当該文脈情報が抽出された回数を対応付けた情報であり、例えば、図5に示す例では、「株式会社:1」や「社長:2」などが該当する。なお、ここで、「株式会社:1」とは、文脈情報「株式会社」が、アンカー文字列「AAA」とリンク先URL「aaa.jp」との組み合わせに対応付けて辞書候補抽出部502によって一回抽出されたことを示す。また、「閾値」とは、リンク先URLを設定する対象となる文書に含まれる語句の内辞書見出しと同一の語句に対して、リンク先URLを設定するか否かを判別する際に関連情報設定部504によって用いられる値であり、例えば、図5に示す例では、「3」などが該当する。また、閾値は、辞書作成部503によって算出される値である。

0029

例えば、辞書記憶部403は、図5に示す例では、辞書見出し「AAA」に対応付けて、回数付文脈情報「株式会社:1、社長:2、部長:1」と閾値「3」とリンク先URL「aaa.jp」とを記憶する。

0030

また、「辞書見出し」と「回数付文脈情報」と「閾値」と「リンク先URL」との対応付けは、辞書作成部503によって辞書記憶部403に登録され、関連情報設定部504によって用いられる。

0031

制御部500は、WEBページ収集部501と辞書候補抽出部502と辞書作成部503と関連情報設定部504とを備え、登録処理や設定処理を制御する。

0032

WEBページ収集部501は、WEBページ記憶部401と辞書候補抽出部502とインターネット100とに接続され、例えば、予め設定された収集タイミングとなると、インターネット100に接続してWEBページ内容を取得し、WEBページ内容をWEBページ記憶部401に登録する。例えば、WEBページ収集部501は、URL「a.jp」に対応付けて、WEBページ内容「株式会社AAAの社長」をWEBページ記憶部401に登録する(図3参照)。

0033

また、WEBページ収集部501は、WEBページ内容をWEBページ記憶部401に登録すると、WEBページ内容を登録した旨を辞書候補抽出部502に送る。

0034

辞書候補抽出部502(「抽出ステップ」や「範囲内抽出ステップ」とも称する)は、WEBページ収集部501とWEBページ記憶部401と辞書候補記憶部402とに接続される。また、辞書候補抽出部502は、WEBページ内容を登録した旨をWEBページ収集部501から受け付けると、アンカー文字列とリンク先URLと文脈情報とをWEBページ記憶部401から抽出する。

0035

アンカー文字列とリンク先URLとを抽出する点について説明する。辞書候補抽出部502は、WEBページ記憶部401に記憶されているWEBページ内容を一つ読み出し、読み出したWEBページに含まれるリンクタグを一つ抽出する。そして、辞書候補抽出部502は、リンクタグ内に含まれるリンク先URLを抽出し、また、リンクタグが設定されている語句(アンカー文字列)を抽出する。

0036

例えば、辞書候補抽出部502は、WEBページ内容「株式会社AAAの社長」からリンクタグを抽出し、アンカー文字列「AAA」とリンク先URL「aaa.jp」とを抽出する。

0037

また、文脈情報を抽出する点について説明する。辞書候補抽出部502は、アンカー文字列を抽出すると、文脈情報として、当該アンカー文字列を抽出対象文書内での基点とする所定の範囲内に含まれる語句を抽出する。具体的には、辞書候補抽出部502は、文脈情報として、アンカー文字列の前後にある語句の内、所定の文字数(例えば、10文字など)内に位置する語句や、アンカー文字列を含む一つの文書に含まれる語句すべてを抽出する。

0038

例えば、辞書候補抽出部502は、WEBページ内容「株式会社AAAの社長」では、文脈情報として、アンカー文字列「AAA」を含む文書に含まれる語句である「株式会社」と「社長」とを抽出する。

0039

また、辞書候補抽出部502は、アンカー文字列とリンク先URLとリンク元URLと文脈情報とを辞書候補記憶部402に登録する。具体的には、辞書候補抽出部502は、WEBページ内容から抽出したアンカー文字列とリンク先URLとに対応付けて、当該WEBページ内容に対応付けられた「URL」を「リンク元URL」として辞書候補記憶部402に登録する。また、辞書候補抽出部502は、アンカー文字列とリンク先URLとに対応付けて、WEBページ内容から抽出した文脈情報を辞書候補記憶部402に登録する。

0040

例えば、辞書候補抽出部502は、アンカー文字列「AAA」とリンク先URL「aaa.jp」とに対応付けて、文脈情報「株式会社、社長」とリンク元URL「a.jp」とを辞書候補記憶部402に登録する。

0041

また、辞書候補抽出部502は、読み出したWEBページに未処理のリンクタグがあるかを判定し、ある場合には、未処理のリンクタグがなくなるまで辞書候補登録処理を続行する。また、同様に、辞書候補抽出部502は、未処理のWEBページがあるかを判定し、ある場合には、未処理のWEBページがなくなるまで辞書候補登録処理を続行する。

0042

また、辞書候補抽出部502は、WEBページ記憶部401から、アンカー文字列などを抽出したWEBページ内容とURLとの対応付けを削除する。また、辞書候補抽出部502は、アンカー文字列などを辞書候補記憶部402に登録すると、辞書候補記憶部402に登録した旨の情報を辞書作成部503に送る。

0043

辞書作成部503(「登録ステップ」や「範囲内登録ステップ」や「回数登録ステップ」とも称する)は、辞書候補記憶部402と辞書記憶部403と辞書候補抽出部502とに接続される。また、辞書作成部503は、辞書候補記憶部402に登録した旨の情報を辞書候補抽出部502から受け付けると、辞書見出しとリンク先URLと文脈情報とを辞書候補記憶部402から抽出し、辞書記憶部403に登録する。また、辞書作成部503は、回数と閾値とを算出して辞書記憶部403に登録する。

0044

具体的には、辞書作成部503は、図6に示すように、辞書候補記憶部402から、アンカー文字列とリンク先URLとが同一となる組み合わせに対応付けられた情報をすべて読み出す。なお、アンカー文字列とリンク先URLとの組み合わせを、辞書DBキーとも称する。また、図6は、実施例1における辞書作成部による登録処理を説明するための図である。例えば、図6の(1)に示すように、辞書作成部503は、アンカー文字列「AAA」とリンク先URL「aaa.jp」との組み合わせに対応付けられた情報として、文脈情報「株式会社」「社長」と、文脈情報「部長」「社長」とを辞書候補記憶部402から読み出す。

0045

また、図7に示すように、辞書作成部503は、アンカー文字列とリンク先URLとを辞書記憶部403に登録し、具体的には、アンカー文字列を「辞書見出し」として登録し、「辞書見出し」に対応付けてリンク先URLを登録する。なお、図7は、実施例1における辞書作成部による登録処理を説明するための図である。例えば、辞書作成部503は、図7の(1)に示すように、アンカー文字列「AAA」を辞書見出し「AAA」として辞書記憶部403に登録し、辞書見出し「AAA」に対応付けてリンク先URL「aaa.jp」を辞書記憶部403に登録する。

0046

また、辞書作成部503は、文脈情報各々について、語句とリンク先URLとが同一となる組み合わせに対応付けられて抽出された回数を算出し、文脈情報各々を回数に対応付けて辞書記憶部403に登録する。例えば、辞書作成部503は、文脈情報「株式会社」について回数「1」を算出し、文脈情報「社長」について回数「2」を算出し、文脈情報「部長」について回数「1」を算出する。そして、例えば、図7の(2)に示すように、辞書作成部503は、辞書見出し「AAA」に対応付けて、文脈情報「株式会社:1」「社長:2」「部長:1」を辞書記憶部403に登録する。

0047

また、図7の(3)に示すように、辞書作成部503は、辞書見出しごとに閾値を算出して辞書記憶部403に登録し、例えば、辞書見出し「AAA」に対応付けて閾値「3」を登録する。

0048

ここで、閾値を算出する手法の一例について説明する。なお、アンカー文字列とリンク先URLとが同一となる組み合わせに対応付けられた情報として、文脈情報「株式会社」「社長」と、文脈情報「部長」「社長」とを読み出した場合を例に説明する。また、文脈情報各々に対応付けられた回数は、「株式会社:1」「社長:2」「部長:1」とする。

0049

ここで、辞書作成部503は、辞書候補記憶部402から読み出した組み合わせ各々について、文脈情報に対応付けられた回数の和を算出する。例えば、文脈情報「株式会社」「社長」が対応付けられた組み合わせについて、辞書作成部503は、「株式会社:1」「社長:2」であるので、回数の和が「3」であると算出する。また、辞書作成部503は、同様に、文脈情報「部長」「社長」が対応付けられた組み合わせについて、回数の和が「3」であると算出する。

0050

また、辞書作成部503は、組み合わせ各々について算出した回数の和の内、最も小さい値を閾値として辞書記憶部403に登録する。例えば、辞書見出し「AAA」に対応付けて、閾値「3」を登録する。なお、辞書作成部503は、組み合わせ各々について算出した回数の和について、平均値を算出して閾値としてもよい。

0051

つまり、例えば、辞書作成部503は、辞書見出し「AAA」に対応付けて、リンク先URL「aaa.jp」と、回数付文脈情報「株式会社:1」「社長:2」「部長:1」と、閾値「3」とを辞書記憶部403に登録する。

0052

また、辞書作成部503は、辞書候補記憶部402から読み出したアンカー文字列とリンク先URLと文脈情報とを含む対応付けを削除する。例えば、辞書作成部503は、アンカー文字列「AAA」とリンク先URL「aaa.jp」と文脈情報「株式会社」「社長」との対応付けを辞書作成部503が読み出した場合について説明する。また、辞書作成部503は、アンカー文字列「AAA」とリンク先URL「aaa.jp」と文脈情報「部長」「社長」との対応付けを辞書作成部503が読み出したとする。ここで、辞書作成部503は、アンカー文字列「AAA」とリンク先URL「aaa.jp」と文脈情報「株式会社」「社長」とリンク元URL「aaa.jp」との対応付けを辞書候補記憶部402から削除する。また、辞書作成部503は、アンカー文字列「AAA」とリンク先URL「aaa.jp」と文脈情報「部長」「社長」とリンク元URL「aaa.jp」との対応付けを辞書候補記憶部402から削除する。

0053

関連情報設定部504は、クライアント200から受け付けた設定対象文書に対して、辞書記憶部403に記憶されたリンク先URLを用いて、リンク先URLを設定する。具体的には、関連情報設定部504は、設定対象文書に含まれる語句の内、辞書記憶部403に記憶されている辞書見出しと一致する語句に対して、辞書記憶部403に記憶されているリンク先URLへのハイパーリンクを設定する。

0054

また、関連情報設定部504は、設定対象文書に含まれる語句の内、辞書記憶部403に記憶されている辞書見出しと一致する語句について、回数付文脈情報を用いて類似度を算出し、リンク先URLを設定するか否かを類似度を用いて判定する。なお、類似度とは、リンク先URLを設定するか否かを判定する際に用いる情報である。

0055

ここで、まず、類似度の算出手法の一例について説明する。例えば、関連情報設定部504は、設定対象文書に含まれる語句の内、辞書記憶部403に記憶されている辞書見出しと一致する語句を起点とする所定の範囲内にあるその他の語句を抽出する。そして、抽出した語句の内、文脈情報と一致する語句がある場合には、当該文脈情報に対応付けられた回数の和を類似度として算出する。

0056

また、関連情報設定部504は、類似度が閾値以上の値である場合には、リンク先URLを設定すると判定し、類似度が閾値未満の値である場合には、リンク先URLを設定しないと判定する。

0057

例えば、関連情報設定部504は、「AAAの社長の山田さんと部長の田中さん」という文書をクライアント200から受け付けた場合について説明する。また、辞書記憶部403は、辞書見出し「AAA」に対応付けて、回数付文脈情報「株式会社:1」「社長:2」「部長:1」と閾値「3」とリンク先URL「aaa.jp」とを記憶するとして説明する。また、辞書記憶部403は、辞書見出し「AAA」に対応付けて、回数付文脈情報「格付け:1」「評価:1」と閾値「2」とリンク先URL「kakuduke.jp」とを記憶するとして説明する。

0058

ここで、「AAAの社長の山田さんと部長の田中さん」に含まれる語句の内、「AAA」は辞書見出し「AAA」と一致する。このため、関連情報設定部504は、「AAAの社長の山田さんと部長の田中さん」から「AAA」の周辺にある語句を抽出し、例えば、語句「社長」「部長」を抽出する。そして、関連情報設定部504は、辞書見出し「AAA」それぞれについて、類似度を算出する。すなわち、関連情報設定部504は、辞書見出し「AAA」とリンク先URL「aaa.jp」との対応付けについて、「社長:2」「部長:1」であるので、類似度が「3」であると算出する。また、関連情報設定部504は、辞書見出し「AAA」とリンク先URL「kakuduke.jp」との対応付けについて、類似度が「0」であると算出する。

0059

また、関連情報設定部504は、算出した類似度の内、閾値以上の値がある場合に、リンク先URLを設定する。例えば、関連情報設定部504は、「AAAの社長の山田さんと部長の田中さん」に含まれる語句「AAA」に対して、リンク先URL「aaa.jp」を設定し、リンク先URL「kakuduke.jp」を設定しない。

0060

また、同様に、例えば、「わが社の格付けは最高評価のAAAです」という文書をクライアント200から受け付けた場合について説明する。関連情報設定部504は、辞書見出し「AAA」とリンク先URL「aaa.jp」との対応付けについて、類似度が「0」であると判定する。また、関連情報設定部504は、辞書見出し「AAA」とリンク先URL「kakuduke.jp」との対応付けについて、類似度が「2」であると算出する。そして、関連情報設定部504は、「わが社の格付けは最高評価のAAAです」に含まれる語句「AAA」に対して、リンク先URL「aaa.jp」を設定せず、リンク先URL「kakuduke.jp」を設定する。

0061

また、同様に、例えば、「AAAとはグループ名です」という文書をクライアント200から受け付けた場合について説明する。関連情報設定部504は、辞書見出し「AAA」とリンク先URL「aaa.jp」との対応付けについて、類似度が「0」であると判定する。また、関連情報設定部504は、辞書見出し「AAA」とリンク先URL「kakuduke.jp」との対応付けについて、類似度が「0」であると算出する。そして、関連情報設定部504は、「AAAとはグループ名です」に含まれる語句「AAA」に対して、リンク先URL「aaa.jp」を設定せず、リンク先URL「kakuduke.jp」を設定しない。

0062

また、関連情報設定部504は、リンク先URLを設定した設定対象文書をクライアント200に送る。なお、関連情報設定部504によるリンク先URL設定処理の詳細な流れの一例については、後述するため、ここでは説明を省略する。

0063

なお、この関連情報登録装置300は、既知パーソナルコンピュータワークステーション携帯電話、PHS(Personal Handyphone System)、移動体通信端末またはPDA(Personal Digital Assistant)などの情報処理装置にて実現することができる。具体的には、既知のPDA等に、WEBページ記憶部401、辞書候補記憶部402、辞書記憶部403、WEBページ収集部501、辞書候補抽出部502、辞書作成部503、および関連情報設定部504の各機能を搭載することによって実現することもできる。

0064

[関連情報登録装置による処理]
次に、実施例1に係る関連情報登録装置300による処理について説明する。以下では、WEBページ登録処理の流れ、辞書候補登録処理の流れ、辞書登録処理の流れ、リンク先URL設定処理の流れについて順に説明する。

0065

[WEBページ登録処理]
図8を用いて、実施例1におけるWEBページ登録処理の流れを説明する。図8は、実施例1におけるWEBページ登録処理の流れを説明するためのフローチャートである。

0066

図8に示すように、WEBページ収集部501は、予め設定された登録タイミングとなると(ステップS101肯定)、インターネット100に接続してWEBページ内容を取得する(ステップS102)。そして、WEBページ収集部501は、WEBページ内容をWEBページ記憶部401に登録する(ステップS103)。例えば、WEBページ収集部501は、URL「a.jp」に対応付けて、WEBページ内容「株式会社AAAの社長」をWEBページ記憶部401に登録する。

0067

[辞書候補登録処理]
図9を用いて、実施例1における辞書候補登録処理の流れを説明する。図9は、実施例1における辞書候補登録処理の流れを説明するためのフローチャートである。

0068

図9に示すように、辞書候補抽出部502は、辞書候補登録タイミングとなると(ステップS201肯定)、例えば、WEBページ内容を登録した旨をWEBページ収集部501から受け付けると、WEBページ内容を一つ読み出す(ステップS202)。そして、辞書候補抽出部502は、読み出したWEBページに含まれるリンクタグを一つ選択する(ステップS203)。

0069

そして、辞書候補抽出部502は、選択したリンクタグからアンカー文字列を抽出し(ステップS204)、リンク先URLを抽出する(ステップS205)。例えば、辞書候補抽出部502は、WEBページ内容「株式会社AAAの社長」からリンクタグを抽出し、アンカー文字列「AAA」とリンク先URL「aaa.jp」とを抽出する。

0070

そして、辞書候補抽出部502は、文脈情報を抽出する(ステップS206)。つまり、辞書候補抽出部502は、アンカー文字列を抽出対象文書内での基点とする所定の範囲内に含まれる語句を抽出し、例えば、辞書候補抽出部502は、アンカー文字列「AAA」を含む文書に含まれる語句である「株式会社」と「社長」とを抽出する。そして、辞書候補抽出部502は、アンカー文字列とリンク先URLとに対応付けて、リンク元URLと文脈情報とを辞書候補記憶部402に登録する(ステップS207)。

0071

そして、辞書候補抽出部502は、未処理のリンクタグがまだあるかを判定する(ステップS208)。ここで、辞書候補抽出部502は、未処理のリンクタグがあると判定する場合には(ステップS208肯定)、上記したステップS203〜S207までの処理を繰り返す。一方、辞書候補抽出部502は、未処理のリンクタグがないと判定する場合には(ステップS208否定)、未処理のWEBページがあるかを判定する(ステップS209)。ここで、辞書候補抽出部502は、未処理のWEBページがあると判定する場合には(ステップS209肯定)、上記したステップS202〜S208までの処理を繰り返す。一方、辞書候補抽出部502は、未処理のWEBページがないと判定した場合には(ステップS209否定)、辞書候補登録処理を終了する。

0072

[辞書登録処理]
図10を用いて、実施例1における辞書登録処理の流れを説明する。図10は、実施例1における辞書登録処理の流れを説明するためのフローチャートである。

0073

図10に示すように、辞書作成部503は、辞書登録タイミングとなると(ステップS301肯定)、例えば、辞書候補記憶部402に登録した旨の情報を辞書候補抽出部502から受け付けると、同じ辞書DBキーに対応付けられたレコード(情報)すべてを辞書候補DBから読み出す(ステップS302)。すなわち、辞書作成部503は、辞書候補記憶部402から、アンカー文字列とリンク先URLとが同一となる組み合わせに対応付けられた情報をすべて読み出す。

0074

そして、辞書作成部503は、辞書DBキーに含まれるアンカー文字列を辞書見出しとして辞書記憶部403に登録する(ステップS303)。例えば、辞書作成部503は、アンカー文字列「AAA」を辞書見出し「AAA」として辞書記憶部403に登録する。そして、辞書作成部503は、辞書DBキーに含まれるリンク先URLを辞書記憶部403に登録する(ステップS304)。例えば、辞書作成部503は、辞書見出し「AAA」に対応付けてリンク先URL「aaa.jp」を辞書記憶部403に登録する。

0075

そして、辞書作成部503は、文脈情報各々の回数を算出し(ステップS305)、文脈情報各々と回数とを対応付けて辞書記憶部403に登録する(ステップS306)。つまり、辞書作成部503は、文脈情報各々について、アンカー文字列とリンク先URLとが同一となる組み合わせに対応付けられて抽出された回数を算出し、文脈情報各々を回数に対応付けて辞書記憶部403に登録する。例えば、辞書作成部503は、文脈情報「株式会社」について回数「1」を算出し、辞書見出し「AAA」に対応付けて、文脈情報「株式会社:1」を登録する。

0076

そして、辞書作成部503は、閾値を算出し(ステップS307)、閾値を辞書記憶部403に登録する(ステップS308)。例えば、辞書作成部503は、辞書見出しごとに閾値を算出し、例えば、辞書見出し「AAA」に対応付けて、閾値「3」を登録する。

0077

そして、辞書作成部503は、未処理の辞書DBキーがあるかを判定する(ステップS309)。ここで、辞書作成部503は、未処理の辞書DBキーがあると判定する場合には(ステップS309肯定)、ステップS302〜S308までの処理を繰り返す。一方、辞書作成部503は、未処理の辞書DBキーがないと判定する場合には(ステップS309否定)、辞書登録処理を終了する。

0078

[リンク先URL設定処理]
図11を用いて、実施例1におけるリンク先URL設定処理の流れを説明する。図11は、実施例1におけるリンク先URL設定処理の流れを説明するためのフローチャートである。

0079

図11に示すように、関連情報設定部504は、設定対象文書がクライアント200から入力されると(ステップS401肯定)、辞書記憶部403から辞書見出しを読み出す(ステップS402)。例えば、関連情報設定部504は、辞書記憶部403に登録されている辞書見出しすべてを読み出す。そして、関連情報設定部504は、設定対象文書に辞書見出しと同一の語句があるかを判定する(ステップS403)。ここで、関連情報設定部504は、辞書見出しと同一の語句がないと判定した場合には(ステップS403否定)、処理結果を出力し(ステップS412)、リンク先URL設定処理を終了する。一方、関連情報設定部504は、辞書見出しと同一の語句があると判定した場合には(ステップS403肯定)、辞書見出しを一つ選択する(ステップS404)。つまり、関連情報設定部504は、設定対象文書に含まれる語句と一致する辞書見出しを一つ選択する。

0080

そして、関連情報設定部504は、選択した辞書見出しについてのレコードを一つ読み出す(ステップS405)。つまり、選択した辞書見出しに対応付けられた「リンク先URL」と「回数付文脈情報」と「閾値」とを読み出す。そして、関連情報設定部504は、設定対象文書から文脈情報を取得し(ステップS406)、類似度を算出する(ステップS407)。例えば、設定対象文書が「AAAの社長の山田さんと部長の田中さん」であり、辞書見出しが「AAA」である場合には、「社長」と「部長」とを設定対象文書から抽出し、類似度が「3」であると算出する。

0081

そして、関連情報設定部504は、類似度が閾値以上かを判定する(ステップS408)。ここで、関連情報設定部504は、類似度が閾値以上であると判定する場合には(ステップS408肯定)、辞書見出しが出現した位置にリンク先URLを設定する(ステップS409)。例えば、関連情報設定部504は、設定対象文書が「AAAの社長の山田さんと部長の田中さん」の「AAA」に対して、リンク先URLを設定する。

0082

そして、関連情報設定部504は、類似度が閾値以上でないと判定する場合や(ステップS408否定)、類似度が閾値以上であると判定してリンク先URLを設定した場合には(ステップS409)、選択した辞書見出しについて、未処理のレコードがあるかを判定する(ステップS410)。ここで、関連情報設定部504は、未処理のレコードがある場合には(ステップS410肯定)、例えば、設定対象文書内に、「AAA」が二つ以上ある場合には、ステップS405〜S309までの処理を繰り返す。一方、関連情報設定部504は、未処理のレコードがない場合には(ステップS410否定)、未処理の辞書見出しがあるかを判定する(ステップS411)。ここで、関連情報設定部504は、未処理のレコードがあると判定する場合には(ステップS411肯定)、例えば、設定対象文書に含まれる語句と一致する辞書見出しに、「AAA」以外の辞書見出しがある場合には、ステップS404〜S309までの処理を繰り返す。一方、関連情報設定部504は、未処理のレコードがないと判定する場合には(ステップS411否定)、処理結果を出力し(ステップS412)、リンク先URL設定処理を終了する。

0083

[実施例1の効果]
上記したように、実施例1によれば、関連情報登録装置300は、アンカー文字列含む任意の文書から、アンカー文字列とリンク先URLとを抽出する。また、関連情報登録装置300は、他の文書に関連付けるリンク先URLを語句(辞書見出し)に対応付けて記憶する辞書記憶部403に、抽出した語句とリンク先URLとを対応付けて登録する。これにより、実施例1によれば、語句とリンク先URLとを登録する際に、作成者への処理負荷を軽減することが可能である。

0084

すなわち、実施例1によれば、テキスト内の特定語句にリンク先URLを自動付与するオートリンク用辞書をWEBページを参照しつつ自動登録するので、作成者への辞書作成処理負荷を軽減できる。

0085

また、実施例1によれば、抽出するアンカー文字列が位置する点を任意の文書内での基点とし、当該基点から所定の範囲内に含まれる語句である文脈情報を抽出し、抽出したアンカー文字列とリンク先URLとの組み合わせごとに対応付けて、文脈情報を登録するので、リンク設定用辞書に文脈情報を登録することが可能である。

0086

この結果、設定対象文書内の語句について、辞書見出しに一致するかのみを判定してリンク先URLを設定していた従来の手法に対して、さらに、文脈情報が一致するかを判定してリンク先URLを設定することが可能である。このため、リンク先URLを設定する際に、適切なリンク先URLのみを設定することが可能である。

0087

また、実施例1によれば、文脈情報各々に対応付けて、アンカー文字列とリンク先URLとが同一となる組み合わせに対応付けられて文脈情報各々が抽出される頻度を登録するので、文脈情報それぞれについて、重み付け(回数)を登録することが可能である。

0088

この結果、リンク先URLを設定する際に、それぞれの文脈情報の重要度(重み付け、回数)を考慮した上で、リンク先URLを設定するか否かを判定することができ、適切なリンク先URLのみを設定することが可能である。

0089

さて、これまで、実施例1として、リンク先URLが少しでも異なる場合には、別の組み合わせとして辞書記憶部403に登録する手法について説明したが、本発明はこれに限定されるものではない。例えば、リンク先URLが異なる場合であっても、文脈情報が同一であれば、一つの組み合わせに集約して辞書記憶部403に登録してもよい。

0090

そこで、実施例2では、辞書見出しとリンク先URLとの組み合わせにて、リンク先URLが異なる場合に、文脈情報が同一であれば、辞書見出し各々に対応付けられたそれぞれ別個の文脈情報や閾値を集約する手法について説明する。なお、以下では、実施例1に係る関連情報登録装置300と同様の点については、簡単に説明し、または、説明を省略する。

0091

すなわち、図12に示すように、実施例2では、辞書見出しと文脈情報とが同一の組み合わせが辞書記憶部403に複数登録されている場合には、辞書作成部503が、複数ある組み合わせを一つの組み合わせへと集約する。ここで、図12に示すように、辞書記憶部403が、辞書見出し「AAA」に対応付けて、回数付文脈情報「株式会社:1」「社長:2」と閾値「3」とリンク先URL「aaa.jp」とを記憶するものとして説明する。なお、図12は、実施例2における辞書記憶部を説明するための図である。また、辞書記憶部403は、辞書見出し「AAA」に対応付けて、回数付文脈情報「株式会社:3」「社長:1」と閾値「3」とリンク先URL「aaa.jp/test」とを記憶する。また、辞書記憶部403は、辞書見出し「AAA」に対応付けて、回数付文脈情報「株式会社:1」「社長:2」と閾値「3」とリンク先URL「aaa.jp/test3」とを記憶する。

0092

ここで、関連情報登録装置300では、辞書作成部503が、例えば、利用者から集約する旨の指示を受け付けると、同一となる辞書見出しのレコードを辞書記憶部403から読み出す。例えば、辞書作成部503は、辞書見出し「AAA」に対応付けられた情報をすべて読み出し、文脈情報が同一である対応付けを識別する。例えば、辞書作成部503は、リンク先URL「aaa.jp」に対応付けられる文脈情報と、リンク先URL「aaa.jp/test」に対応付けられる文脈情報と、リンク先URL「aaa.jp/test3」に対応付けられる文脈情報とが同一であると識別する。そして、図12の(1)に示すように、辞書作成部503は、識別した対応付け各々を一つの対応付けに集約する。

0093

また、例えば、辞書作成部503は、集約する文脈情報各々について、対応付けられた回数の平均値を算出して対応付ける。例えば、文脈情報「株式会社」に対応付けられた回数が「1」「3」「1」となっているため、辞書作成部503は、辞書見出し「AAA」に対応付けて、回数付文脈情報「株式会社:2(ここでは、一例として、小数点以下四捨五入している)」を辞書記憶部403に登録する。また、同様に、辞書作成部503は、辞書見出し「AAA」に対応付けて、回数付文脈情報「社長:2」を辞書記憶部403に登録する。

0094

また、例えば、辞書作成部503は、閾値について平均値を算出し、辞書記憶部403に登録する。例えば、閾値が「3」「3」「3」となっているため、辞書作成部503は、閾値「3」を辞書記憶部403に登録する。

0095

また、例えば、辞書作成部503は、集約するリンク先URL各々を、辞書見出し「AAA」に対応付けて辞書記憶部403に登録する。例えば、辞書作成部503は、辞書見出し「AAA」に対応付けて、リンク先URL「aaa.jp、aaa.jp/test、aaa.jp/test3」を辞書記憶部403に登録する。

0096

ここで、複数の組み合わせを集約した一つの組み合わせを用いて、リンク先URLを設定する際について説明する。関連情報設定部504は、リンク先URLが複数登録されている場合には、複数登録されているリンク先URLを予め設定される選択手法により選択し、リンク先URLを設定する。例えば、関連情報設定部504は、リンク先URL「aaa.jp、aaa.jp/test、aaa.jp/test3」が登録されている場合には、例えば、登録されているリンク先URLの内、ランダムひとつのリンク先URLを選択する。例えば、関連情報設定部504は、リンク先URL「aaa.jp」を選択する。そして、関連情報設定部504は、設定する対象となる語句に対してリンク先URL「aaa.jp」を設定する。

0097

なお、ここで、関連情報設定部504は、複数のリンク先URLから一つのリンク先URLを選択する手法として、ランダムに選択する手法に限定されるものではない。例えば、複数のリンク先URLを比較して、より上位にあるリンク先URLを選択してもよい。例えば、「aaa.jp、aaa.jp/test、aaa.jp/test3」の内、より上位にあるURLである「aaa.jp」を選択してもよい。

0098

集約処理
次に、図13を用いて、実施例2における集約処理の流れを説明する。なお、図13は、実施例2における集約処理の流れを説明するためのフローチャートである。

0099

図13に示すように、辞書作成部503は、集約タイミングとなると(ステップS501肯定)、例えば、利用者から集約する旨の指示を受け付けると、同一となる辞書見出しのレコードを辞書記憶部403から読み出す(ステップS502)。例えば、辞書作成部503は、辞書見出し「AAA」に対応付けられた情報をすべて読み出す。そして、辞書作成部503は、読み出したレコードの内、同一の文脈情報になっているレコードを識別する(ステップS503)。

0100

そして、辞書作成部503は、識別したレコードを集約する(ステップS504)。つまり、辞書作成部503は、識別した対応付け各々を一つの対応付けに集約し、例えば、辞書見出し「AAA」に対応付けられた情報の内、文脈情報が同一である対応付けをすべて一つの組み合わせに集約する。

0101

[実施例2の効果]
上記したように、実施例2によれば、辞書見出しとリンク先URLとの組み合わせにてリンク先URLが異なる場合に、文脈情報が同一であれば、辞書見出し各々に対応付けられたそれぞれ別個の文脈情報や閾値を集約する。これにより、辞書記憶部403に登録される辞書見出しとリンク先URLとの組み合わせの数を減少することが可能である。

0102

つまり、辞書見出しとリンク先URLとの組み合わせを集約しない手法においては、リンク先URLが少しでも異なる場合には、異なる辞書見出しとリンク先URLとの組み合わせが別の組み合わせとして登録される。ここで、リンク先URLが異なる場合であっても、一つのリンク先URLに統合しても問題が生じることが少ない場合がある。例えば、ある会社のホームページを識別するURL(例えば、「aaa.jp」)と、当該ホームページの下層ページを識別するURL(例えば、「aaa.jp/test」)があり、いずれをリンク先URLとして用いても問題が生じない場合などが該当する。このような場合に、実施例2によれば、辞書見出しとリンク先URLとの組み合わせを集約することが可能である。

0103

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、その他の実施例にて実施してもよいものである。そこで、以下では、その他の実施例について説明する。

0104

[記憶部]
例えば、実施例1では、WEBページ記憶部401や辞書候補記憶部402に登録された情報は、辞書候補抽出部502や辞書作成部503によって読み出された後に、削除されるものとして説明した。しかし、本発明はこれに限定されるものではなく、辞書候補抽出部502や辞書作成部503は、WEBページ記憶部401や辞書候補記憶部402から情報を削除しなくてもよい。

0105

[インターネット]
また、例えば、実施例1では、インターネットに接続してWEBページを収集する場合について説明したが、本発明はこれに限定されるものではなく、任意のネットワークにてWEBページを収集してもよい。例えば、イントラネットに接続してWEBページを収集してもよい。

0106

[文書]
また、例えば、実施例1では、WEBページ内容から抽出する手法について説明したが、本発明はこれに限定されるものではなく、任意の文章から抽出してもよい。例えば、リンクタグが設定されている文書(例えば、ドキュメントファイル)を利用者から入力されると、当該文書から、アンカー文字列とリンク先URLとを抽出してもよい。

0107

[回数]
また、例えば、実施例1や2では、文脈情報各々に、回数を対応付けて記憶する手法について説明したが、本発明はこれに限定されるものではなく、例えば、回数の代わりに頻度や重み付けや重要度を対応付けてもよい。例えば、辞書記憶部403は、頻度として、文脈情報各々が抽出された度合(例えば、文脈情報が抽出された回数/当該文脈情報が対応付けられる「アンカー文字列とリンク先URLとの組み合わせ」が抽出された回数)を記憶してもよい。

0108

[実施例の組み合わせについて]
また、例えば、実施例1では、アンカー文字列とリンク先URLとを自動で抽出する手法に加えて、(1)文脈情報を登録し、(2)文脈情報各々に回数を登録する手法とを併せて用いる手法について説明した。また、実施例2では、(3)辞書見出しとリンク先URLとを集約する手法について説明した。しかし、本発明は、実施例1や2にて説明した手法に限定されるものではなく、例えば、アンカー文字列とリンク先URLとを自動で抽出する手法に加えて、(1)〜(3)までの内、任意の一つまたは複数の手法を組み合わせて実施してもよい。

0109

システム構成
また、例えば、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともできる。例えば、集約処理を手動的にて行ってもよく、文脈情報各々に対応付ける回数や頻度や重要度を手動的に対応付けてもよい。また、この他、上記文書中や図面中で示した処理手順制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる(例えば、図1図13など)。

0110

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図2に示す例を用いて説明すると、WEBページ記憶部401と辞書候補記憶部402と辞書記憶部403とを統合して一つの記憶部としてもよく、また、関連情報設定部504を分散して別の装置としてもよい。

0111

[プログラム]
また、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図14を用いて、上記の実施例と同様の機能を有する関連情報登録プログラムを実行するコンピュータの一例を説明する。なお、図14は、実施例1に係る関連情報登録装置のプログラムを説明するための図である。

0112

同図に示すように、実施例1における関連情報登録装置3000は、操作部3001、マイク3002、スピーカ3003、ディスプレイ3005、通信部3006、CPU3010、ROM3011、HDD3012、RAM3013をバス3009などで接続して構成されている。

0113

ROM3011には、上記の実施例1で示したWEBページ収集部501と、辞書候補抽出部502と、辞書作成部503と、関連情報設定部504と同様の機能を発揮する制御プログラム、つまり、同図に示すように、WEBページ収集プログラム3011aと、辞書候補抽出プログラム3011bと、辞書作成プログラム3011cと、関連情報設定プログラム3011dとが予め記憶されている。なお、これらのプログラム3011a〜3011dについては、図2に示した関連情報登録装置の各構成要素と同様、適宜統合または分離してもよい。

0114

そして、CPU3010が、これらのプログラム3011a〜3011dをROM3011から読み出して実行することにより、図14に示すように、各プログラム3011a〜3011dについては、WEBページ収集プロセス3010aと、辞書候補抽出プロセス3010bと、辞書作成プロセス3010cと、関連情報設定プロセス3010dとして機能するようになる。なお、各プロセス3010a〜3010dは、図2に示した、WEBページ収集部501と、辞書候補抽出部502と、辞書作成部503と、関連情報設定部504とにそれぞれ対応する。

0115

そして、HDD3012には、WEBページテーブル3012aと、辞書候補テーブル3012bと、辞書テーブル3012cとが設けられている。なお、各テーブル3012a〜3012cは、図2に示した、WEBページ記憶部401と、辞書候補記憶部402と、辞書記憶部403とにそれぞれ対応する。

0116

そして、CPU3010は、WEBページテーブル3012aと、辞書候補テーブル3012bと、辞書テーブル3012cとを読み出してRAM3013に格納し、RAM3013に格納されたWEBページデータ3013aと、辞書候補データ3013bと、辞書データ3013cとを用いて、関連情報登録プログラムを実行する。

0117

[その他]
なお、実施例1で説明した関連情報登録装置300は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスクフレキシブルディスクFD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。

0118

以上の実施例1〜3を含む実施形態に関し、更に以下の付記を開示する。

0119

(付記1)文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出ステップと
他の文書に関連付ける関連情報を構成要素に対応付けて記憶する関連情報記憶部に、前記抽出ステップによって抽出された構成要素と関連情報とを対応付けて登録する登録ステップと、
を含むことを特徴とする関連情報登録方法。

0120

(付記2)前記抽出ステップによって抽出される構成要素が位置する点を前記任意の文書内での基点とし、当該基点から所定の範囲内に含まれる構成要素である範囲内構成要素を抽出する範囲内抽出ステップと、
前記抽出ステップによって抽出される構成要素と関連情報との組み合わせごとに対応付けて、前記範囲内抽出ステップによって抽出される前記範囲内構成要素を前記関連情報記憶部に登録する範囲内登録ステップと、
をさらに含むことを特徴とする付記1に記載の関連情報登録方法。

0121

(付記3)前記範囲内登録ステップによって登録される前記範囲内構成要素各々に対応付けて、前記関連情報記憶部に、前記構成要素と前記関連情報とが同一となる組み合わせに対応付けられて当該範囲内構成要素各々が抽出される回数を登録する回数登録ステップをさらに備えることを特徴とする付記2に記載の関連情報登録方法。

0122

(付記4)文書に含まれる構成要素を他の文書に関連付ける関連情報を、当該構成要素に対応付けて記憶する関連情報記憶手段と、
他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出手段と、
前記抽出手段によって抽出される関連情報と構成要素とを対応付けて前記関連情報記憶手段に登録する登録手段と、
を備えることを特徴とする関連情報登録装置。

0123

(付記5)文書に含まれる構成要素を他の文書に関連付ける関連情報が設定されている構成要素を含む任意の文書から、当該関連情報が設定されている構成要素と当該関連情報とを抽出する抽出手順と、
他の文書に関連付ける関連情報を当該構成要素に対応付けて記憶する関連情報記憶部に、前記抽出手順によって抽出される構成要素と関連情報とを対応付けて登録する登録手順と、
をコンピュータに実行させることを特徴とする関連情報登録プログラム。

図面の簡単な説明

0124

実施例1に係る関連情報登録装置の概要を説明するための図である。
実施例1に係る関連情報登録装置の構成を説明するためのブロック図である。
実施例1におけるWEBページ記憶部に記憶されている情報の一例を説明するための図である。
実施例1における辞書候補記憶部に記憶されている情報の一例を説明するための図である。
実施例1における辞書記憶部に記憶されている情報の一例を説明するための図である。
実施例1における辞書作成部による登録処理を説明するための図である。
実施例1における辞書作成部による登録処理を説明するための図である。
実施例1におけるWEBページ登録処理の流れを説明するためのフローチャートである。
実施例1における辞書候補登録処理の流れを説明するためのフローチャートである。
実施例1における辞書登録処理の流れを説明するためのフローチャートである。
実施例1におけるリンク先URL設定処理の流れを説明するためのフローチャートである。
実施例2における辞書記憶部を説明するための図である。
実施例2における集約処理の流れを説明するためのフローチャートである。
実施例1に係る関連情報登録装置のプログラムを説明するための図である。

符号の説明

0125

100インターネット
200クライアント
300関連情報登録装置
400 記憶部
401WEBページ記憶部
402辞書候補記憶部
403辞書記憶部
500 制御部
501 WEBページ収集部
502 辞書候補抽出部
503 辞書作成部
504関連情報設定部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ