図面 (/)

技術 特定情報抽出装置および特定情報抽出プログラム

出願人 日本電信電話株式会社
発明者 田中智博内山匡
出願日 2010年11月1日 (9年0ヶ月経過) 出願番号 2010-245040
公開日 2012年5月24日 (7年5ヶ月経過) 公開番号 2012-098855
状態 特許登録済
技術分野 計算機間の情報転送 検索装置
主要キーワード 特定情報データベース 差分検出処理 木構造情報 百科辞典 文字列マッチング ページ読み取り ライフログ 装飾情報
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2012年5月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

Webページのような他者が設計、実装したフィールドであっても特定情報を抽出することができる特定情報抽出装置を提供する。

解決手段

Webページが格納されたWebページDB110から1つのWebページを読み取り、該ページ同一構造を持つページがWebページDB110に存在するか否かを判定する同一ページ判定部101と、前記同一ページ判定部101によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出部102と、前記差分検出部102によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データDB120に格納する差分データ抽出部102と、を備えた。

概要

背景

コンピュータのCPU、メモリ等の性能向上、大容量ストレージ低価格化により、ライフログ等の個人発信する情報を活用する機会が増えてきている。ブログECサイトでの売買等のWeb上に発信されたログを活用して、より利用者嗜好に応じた商品サービスを提供していく機会も増えてきている。ログの活用に際しては、個人情報のように発信者公開したくない情報を特定し、必要に応じて除去することが必須となる。

特定情報を除去する方法としては、特許文献1に開示されているように、情報内で特定情報が記載される場所をあらかじめ登録しておき、その場所から得られた情報を特定情報とし、情報全体にあるかマッチングを行い、あった場合に除去する方法がある。

尚、本発明の実施形態例で利用する名字辞典は、例えば非特許文献1に記載されている。

概要

Webページのような他者が設計、実装したフィールドであっても特定情報を抽出することができる特定情報抽出装置を提供する。Webページが格納されたWebページDB110から1つのWebページを読み取り、該ページ同一構造を持つページがWebページDB110に存在するか否かを判定する同一ページ判定部101と、前記同一ページ判定部101によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出部102と、前記差分検出部102によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データDB120に格納する差分データ抽出部102と、を備えた。

目的

本発明の目的は、Webページのような他者が設計、実装したフィールドであっても特定情報が記載される場所を検出し、当該場所に記載された特定情報を抽出することができる特定情報抽出装置および特定情報抽出プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

Webページが格納されたWebページデータベースから1つのWebページを読み取り、該ページ同一構造を持つページがWebページデータベースに存在するか否かを判定する同一ページ判定手段と、前記同一ページ判定手段によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出手段と、前記差分検出手段によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データデータベースに格納する差分データ抽出手段と、を備えたことを特徴とする特定情報抽出装置

請求項2

前記差分データ抽出手段は、前記抽出された差分データから特定情報を判定し、該判定された特定情報を特定情報データベースに格納し、該格納された特定情報に対してマスキングを行い、該マスキングされた特定情報によって前記Webページデータベースの更新を行うことを特徴とする請求項1に記載の特定情報抽出装置。

請求項3

コンピュータを請求項1又は2に記載の各手段として機能させる特定情報抽出プログラム

技術分野

0001

本発明は、Webサイトから、例えば個人情報のような特定情報を抽出する特定情報抽出技術に関する。

背景技術

0002

コンピュータのCPU、メモリ等の性能向上、大容量ストレージ低価格化により、ライフログ等の個人発信する情報を活用する機会が増えてきている。ブログECサイトでの売買等のWeb上に発信されたログを活用して、より利用者嗜好に応じた商品サービスを提供していく機会も増えてきている。ログの活用に際しては、個人情報のように発信者公開したくない情報を特定し、必要に応じて除去することが必須となる。

0003

特定情報を除去する方法としては、特許文献1に開示されているように、情報内で特定情報が記載される場所をあらかじめ登録しておき、その場所から得られた情報を特定情報とし、情報全体にあるかマッチングを行い、あった場合に除去する方法がある。

0004

尚、本発明の実施形態例で利用する名字辞典は、例えば非特許文献1に記載されている。

0005

特開2006−4111号公報

先行技術

0006

「名字辞典−Weblio辞書百科辞典」、インターネット<URL:http://www.weblio.jp/cat/dictionary/mjkbr>、[平成22年10月28日検索]

発明が解決しようとする課題

0007

従来の方法では、あらかじめ特定情報の記載場所を抽出ルールとして登録しておく必要があり、Webページのような他者が設計、実装した場合には、記載場所を目視により確認し、特定することが必要になる。また、タグの情報を基に類推する方法においても多種多様表現全てに対応することは、困難であり、場所を特定することは困難である。

0008

本発明の目的は、Webページのような他者が設計、実装したフィールドであっても特定情報が記載される場所を検出し、当該場所に記載された特定情報を抽出することができる特定情報抽出装置および特定情報抽出プログラムを提供することにある。

課題を解決するための手段

0009

本発明では、上記の課題を解決するため、収集されたログの中から同一のフィールドをもつログを判定し、当該ログにおける差分を差分データとして検出し、当該差分データを抽出し、当該抽出データとして蓄積するように構成した。

0010

すなわち、本発明の特定情報抽出装置は、Webページが格納されたWebページデータベースから1つのWebページを読み取り、該ページ同一構造を持つページがWebページデータベースに存在するか否かを判定する同一ページ判定手段と、前記同一ページ判定手段によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する差分検出手段と、前記差分検出手段によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データデータベースに格納する差分データ抽出手段と、を備えたことを特徴としている。

発明の効果

0011

(1)請求項1〜3に記載の発明によれば、Webページのような他者が設計、実装したフィールドであっても特定情報が記載される場所を検出し、記載された特定情報を抽出することができる。
(2)請求項2に記載の発明によれば、ログ情報を活用する際に、抽出された特定情報を公開すべきでない情報として、マスキングを行うことが可能になり、データの公開前に目視等により、チェックを行う必要がなくなる。

図面の簡単な説明

0012

本発明の一実施形態例にかかる特定情報抽出装置のブロック図。
本発明の一実施形態例における特定情報抽出処理の流れを示すフローチャート
Webページの一例を示す説明図。
図3のWebページと同一構造であり、内容に差分が生じているWebページの一例を示す説明図。
本発明の他の実施形態例における特定情報抽出処理の流れを示すフローチャート。

実施例

0013

以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の一実施形態例における特定情報抽出装置100の構成を示し、図2図1の装置における特定情報抽出処理の流れを示している。

0014

図1において、特定情報抽出装置100は、同一ページ判定手段としての同一ページ判定部101、差分検出手段としての差分検出部102、差分データ抽出手段としての差分データ抽出部103、WebページDB(データベース)110および差分データDB120を備えている。

0015

前記同一ページ判定部101は、Webページが格納されたWebページDB110から1つのWebページを読み取り、該ページと同一構造を持つページがWebページDB110に存在するか否かを判定する。

0016

差分検出部102は、同一ページ判定部101によって前記同一構造を持つページが存在すると判定された場合に、当該同一構造を持つページ間で内容に差分が有るか否かを検出する。

0017

差分データ抽出部103は、前記差分検出部102によって差分が有ると検出された場合に、差分のある場所を差分領域として特定し、当該差分領域に記載された情報を差分データとして抽出し、前記差分領域および差分データを特定情報として差分データDB120に格納する。

0018

前記特定情報抽出装置100は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置出力装置通信インターフェースハードディスク記録媒体およびその駆動装置を備えている。

0019

このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、特定情報抽出装置100は、図1に示すように、同一ページ判定部101、差分検出部102、差分データ抽出部103、WebページDB110、差分データDB120を実装する。

0020

前記WebページDB110、差分データDB120は、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。

0021

まず同一ページ判定部101は、図2のステップS1においてWebページDB110から1ページ読み取り、ステップS2において読み取るページが存在するか否かの判定を行う。読み取るページが無い場合には、処理を終了する。

0022

読み取るページがある場合は、ステップS3において、当該ページと同一の構造を持つページが、WebページDB110にあるか否かの判定を行う。同一構造をもつページがない場合は、ステップS1において新たなページをWebページDB110から読み込む。

0023

同一構造をもつページがある場合は、差分検出部102が、ステップS4において、同一構造をもつページ間での差分があるか否かの検出を行う。差分が無い場合は、当該ページに対して、他の同一構造をもつページが無いかの判定をステップS3において行う。差分がある場合は、差分データ抽出部103が、差分のある場所を差分領域として特定し(ステップS5)、当該差分領域に記載された情報を差分データとして抽出し(ステップS6)、当該差分領域および差分データを差分データDB120へ書き込む(ステップS7)。

0024

次に本実施形態の具体例を説明する。

0025

図3図4は、同一構造であり、内容に差分が生じている、WebページDB110に格納されたWebページの一例である。

0026

図3に示すページを同一ページ判定部101により、WebページDB110から読み込み、そのページに対して、URL、フレーム、タグが同一の構造をもつ他のページがWebページDB110にないか判定を行い、同一の構造をもつ図4に示すページを検出する(ステップS1〜S3)。

0027

なお、同一構造の判定については、前出の特許文献1に開示されているように、動的情報及び装飾情報を除いた枠組みを表すURL、フレーム、タグからなる木構造情報を用いて判定する手法が既出であるため、ここではそれを一例として適用することとする。

0028

ここで、URL、フレーム、タグが同一である2つのファイルに対して、ファイル間でのデータの差分を機械的に取る(ステップS4)。取得方法としては、unixコマンドのdiffを使用することにより容易に実現できる。ここで抽出された差分データについて、そのデータが記載されているタグをWebページDB110内の元のWebページから抽出し、そのタグを抽出された差分データの差分領域として紐付ける。図3図4での例としては、姓、名、姓カナ、名カナ、郵便番号市町村電話番号のタグが差分領域として抽出される(ステップS5、S6)。

0029

そして前記姓、名、姓カナ、名カナ、郵便番号、市町村、電話番号の差分領域に紐付けられた差分データを、差分領域と共に、特徴情報として差分データDB120へ書き込み(ステップS7)、その後はステップS3に戻る。

0030

上記のように本実施形態例によれば、Webページのような他者が設計、実装したフィールドであっても特定情報(差分データ)が記載される場所を検出し、記載された特定情報を抽出することができる。

0031

次に、本発明の他の実施形態例を図5とともに説明する。図5は、本発明の他の実施形態例において、図1の特定情報抽出装置100が行なう処理の流れを示している。

0032

図5において、ステップS11の同一ページ判定処理では、同一ページ判定部101が前記ステップS1〜S3と同一の処理を行なって、前述した同一構造を持つページの有無を判定する。

0033

ステップS12の差分検出処理では、差分検出部102が前記ステップS4と同一の処理を行って、前述したページ間のデータの差分を検出する。

0034

ステップS13の差分データ抽出処理では、差分データ抽出部103が前記ステップS5〜S7と同一の処理を行なって、前述した差分領域および差分データを差分データDB120(図5では図示省略)に格納する。

0035

ステップS14の特定情報判定処理では、差分データ抽出部103が、前記差分データDB120に格納された差分データについて、一般的な言語処理文字列マッチング等の処理により、人名であることの検証、数字であることの検証等を行なって特定情報を判定し、該判定された特定情報を特定情報DB130に格納する。

0036

例えば、姓の欄に記載の文字列に対しては、日本人の姓としての特徴(漢数字も含めた漢字(2バイトのコード)であること、姓として登録されている最大の文字数の範囲であることなど)の条件を満たし、一般に公開されている名字辞典(例えば、非特許文献1の名字辞典など)とのマッチングを実施し、検証を行なう。

0037

また、電話番号の欄に記載の文字列に対しては、日本の電話番号としての特徴(数字列(1バイトあるいは2バイトのコード)でること、桁数既定の桁数毎にハイフォン(1バイトあるいは2バイトのコード)が入ることがあるなど)の条件を満たすことにより、検証を行なう。

0038

尚、この特定情報DB130も特定情報抽出装置100内のハードディスク或いはRAMなどの保存手段・記憶手段に構築されるものである。

0039

ステップS15の特定情報マスキング処理では、差分データ抽出部103が、前記特定情報DB130内の特定情報と、前記ステップS13において差分データDB120に格納された差分データとのマッチングを行って特定情報のマスキングを実施し、該マスキングされた特定情報によって前記WebページDB110のデータを更新する。

0040

上記のように本実施形態例によれば、ログ情報を活用する際に、抽出された特定情報を公開すべきでない情報として、マスキングを行うことが可能になり、データの公開前に目視等により、チェックを行う必要がなくなる。

0041

また、本実施形態の特定情報抽出装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の特定情報抽出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDDリムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。

0042

101…同一ページ判定部
102…差分検出部
103…差分データ抽出部
110…WebページDB
120…差分データDB
130…特定情報DB

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社ソケッツの「 検索装置および方法」が 公開されました。( 2019/09/19)

    【課題】同一の感性ワードで加重的に絞り込み検索を行えるようにする。【解決手段】同一の感性ワードで加重的に絞り込み検索を行う場合、類似・関連ワード抽出部319が、感性ワードに類似・関連する別のワードを検... 詳細

  • 横浜信用金庫の「 情報提供システム、情報提供方法、プログラム」が 公開されました。( 2019/09/19)

    【課題】精度がより高いビジネスマッチングを実現することである。【解決手段】情報提供システム1は、従業員が属する企業の企業情報及び経営者が経営する企業の企業情報の少なくとも何れかを記憶する記憶部120と... 詳細

  • 株式会社ドワンゴの「 サーバおよびプログラム」が 公開されました。( 2019/09/19)

    【課題】ゲームのリアルタイムプレイ動画の観客による当該ゲームの進行へ介入が短期間に集中することによる双方向的なゲーム体験の破綻を回避する。【解決手段】本発明の一態様に係るサーバは、算出部と、決定部と、... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ