図面 (/)

技術 ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム

出願人 日本電信電話株式会社
発明者 折原慎吾大嶋嘉人朝倉浩志
出願日 2016年6月2日 (3年1ヶ月経過) 出願番号 2017-522234
公開日 2017年11月9日 (1年8ヶ月経過) 公開番号 WO2016-194996
状態 特許登録済
技術分野 検索装置 計算機間の情報転送
主要キーワード ユーザ推定 推定モード 遷移順序 二値分類器 多クラス 所定階層 除外対象 ID部分
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年11月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題・解決手段

学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、ユーザのページ閲覧の特徴量として、ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出し、また、推定対象となる、いずれかのユーザによるウェブサイトへのリクエストを表すデータから、ユーザのページ閲覧の特徴量として、ウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する抽出部(11)と、抽出された、学習対象となる、ユーザそれぞれのページ閲覧の特徴量を学習することにより、ユーザごとのページ閲覧の特徴を示すモデルを作成する学習部(12)と、推定対象となるユーザのページ閲覧の特徴量と、モデルとを参照して、ユーザがどのユーザかを推定する推定部(14)とを備える。

概要

背景

従来、ユーザが閲覧したページを元に、閲覧したページの機能(例えば、検索商品一覧購入等)からなる遷移情報組合せを特徴量としてユーザをクラスタリング・学習し、ユーザの閲覧行動パターン予測したり、閲覧行動パターンが類似するユーザを提示したりする技術がある(特許文献1参照)。このような技術を適用することで、ユーザのサイトの閲覧行動パターンから、当該ユーザが過去に訪問したどのユーザかを推測することができる。

概要

学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、ユーザのページ閲覧の特徴量として、ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出し、また、推定対象となる、いずれかのユーザによるウェブサイトへのリクエストを表すデータから、ユーザのページ閲覧の特徴量として、ウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する抽出部(11)と、抽出された、学習対象となる、ユーザそれぞれのページ閲覧の特徴量を学習することにより、ユーザごとのページ閲覧の特徴を示すモデルを作成する学習部(12)と、推定対象となるユーザのページ閲覧の特徴量と、モデルとを参照して、ユーザがどのユーザかを推定する推定部(14)とを備える。

目的

本発明は、前記した問題を解決し、ユーザの閲覧したページの数やページに含まれるリンクが少ない場合であっても、当該ユーザが過去に訪問したどのユーザかを精度よく推定することを課題とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出し、また、推定対象となる、いずれかのユーザによるウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記ウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する抽出部と、前記抽出部により抽出された、学習対象となる、ユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習部と、前記抽出部により抽出された、推定対象となる、前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定部とを備えることを特徴とするユーザ推定装置。

請求項2

前記抽出部は、前記ユーザのページ閲覧の特徴量として、さらに、前記ウェブサイト上での閲覧の開始ページ、前記閲覧のユニークページ数、および、前記ウェブサイトの閲覧に要したセッション長の少なくともいずれか1つ以上を抽出することを特徴とする請求項1に記載のユーザ推定装置。

請求項3

前記抽出部は、前記ウェブサイトへのリクエストを表すデータに、画像、JavaScript(登録商標)、または、CSS(CascadingStyleSheets)を取得するリクエストを表す第2のデータが含まれていた場合、前記第2のデータを除外したデータから、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。

請求項4

前記抽出部は、前記リクエストを表すデータにおけるリクエスト先のURL(UniformResourceLocator)のうち、所定階層までのURLに基づき、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。

請求項5

前記抽出部は、前記リクエストを表すデータにおけるリクエスト先のURLにセッションごとに固有のIDが含まれている場合、前記ID部分以外のURLに基づき、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。

請求項6

学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第1の抽出ステップと、前記第1の抽出ステップにより抽出されたユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習ステップと、推定対象となる、いずれかのユーザによる前記ウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記ウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第2の抽出ステップと、前記第2の抽出ステップにより抽出された前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定ステップとを含んだことを特徴とするユーザ推定方法。

請求項7

学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第1の抽出ステップと、前記第1の抽出ステップにより抽出されたユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習ステップと、推定対象となる、いずれかのユーザによる前記ウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記ウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第2の抽出ステップと、前記第2の抽出ステップにより抽出された前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定ステップとをコンピュータに実行させることを特徴とするユーザ推定プログラム

技術分野

0001

本発明は、ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラムに関する。

背景技術

0002

従来、ユーザが閲覧したページを元に、閲覧したページの機能(例えば、検索商品一覧購入等)からなる遷移情報組合せを特徴量としてユーザをクラスタリング・学習し、ユーザの閲覧行動パターン予測したり、閲覧行動パターンが類似するユーザを提示したりする技術がある(特許文献1参照)。このような技術を適用することで、ユーザのサイトの閲覧行動パターンから、当該ユーザが過去に訪問したどのユーザかを推測することができる。

先行技術

0003

特開2014−106661号公報

発明が解決しようとする課題

0004

しかし、上記の技術では、ユーザが閲覧したページ数が少なかったり、閲覧したページに含まれるリンクの数が少なかったりすると、閲覧したページの遷移情報にユーザごとの差異が出にくい。その結果、実際には当該ページを閲覧したユーザが別々のユーザであっても類似するユーザとして提示してしまうことがあった。つまり、従来技術では、ユーザが閲覧したページ数が少なかったり、閲覧したページに含まれるリンクの数が少なかったりすると、ユーザのサイトの閲覧行動パターンから当該ユーザが過去に訪問したどのユーザかを推定しようとしても、推定精度が低いという問題があった。

0005

そこで、本発明は、前記した問題を解決し、ユーザの閲覧したページの数やページに含まれるリンクが少ない場合であっても、当該ユーザが過去に訪問したどのユーザかを精度よく推定することを課題とする。

課題を解決するための手段

0006

前記した課題を解決するため、本発明は、学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出し、また、推定対象となる、いずれかのユーザによるウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記ウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する抽出部と、前記抽出部により抽出された、学習対象となる、ユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習部と、前記抽出部により抽出された、推定対象となる、前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定部とを備えることを特徴とする。

発明の効果

0007

本発明によれば、ユーザの閲覧したページの数やページに含まれるリンクが少ない場合であっても、当該ユーザが過去に訪問したどのユーザかを精度よく推定することができる。

図面の簡単な説明

0008

図1は、ユーザ推定装置の機能ブロック図である。
図2は、入力部が受け付けるデータの例を示す図である。
図3は、セッション情報構築部が構築するセッション情報の例を示す図である。
図4は、特徴量抽出部が用いる変換表の例を示す図である。
図5は、特徴量抽出部が抽出するユーザのページ閲覧の特徴量の例を示す図である。
図6は、ユーザ推定装置がモデルを作成するときの処理手順を示すフローチャートである。
図7は、ユーザ推定装置がユーザを推定するときの処理手順を示すフローチャートである。
図8は、入力部における階層による打ち切りを説明するための図である。
図9は、入力部における正規表現による置換を説明するための図である。
図10は、ユーザ推定プログラムを実行するコンピュータを示す図である。

実施例

0009

以下、図面を参照しながら、本発明を実施するための形態(実施形態)を、第1の実施形態〜第4の実施形態に分けて説明する。

0010

まず、各実施形態のユーザ推定装置10の概要を説明する。各実施形態のユーザ推定装置10は、ウェブサイトへのリクエストを表すデータ(例えば、アクセスログ等)から、当該ウェブサイト上での各ユーザのページ閲覧の特徴量(例えば、ページの遷移順序および各ページへの遷移に要した時間)を抽出し、ユーザそれぞれのページ閲覧の特徴を示すプロファイル(モデル)を作成する。そして、ユーザ推定装置10は、推定対象のデータ(いずれかのユーザのウェブサイトへのリクエストを表すデータ)を受け付けると、そのデータに示される当該ユーザの振る舞いの特徴量と、上記のモデルとを参照して、当該ユーザがどのユーザであるかを推定する。

0011

(第1の実施形態)
第1の実施形態のユーザ推定装置10は、図1に示すように、抽出部11と、学習部12と、モデル記憶部13と、推定部14と、出力部15とを備える。

0012

抽出部11は、ユーザによるウェブサイトへのリクエストを表すデータを受け付けると、このデータに示されるリクエスト先のURL(Uniform Resource Locator)に基づき、当該ユーザのページ閲覧の特徴量を抽出する。具体的には、抽出部11は、当該ユーザのページ閲覧の特徴量として、当該ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移に要した時間を抽出する。なお、抽出部11は、モデルの作成のためのユーザのページ閲覧の特徴量と、ユーザの推定のためのユーザのページ閲覧の特徴量と両方の特徴量の抽出を行う。抽出部11は、モデルの作成のためのデータを受け付けた場合、抽出した特徴量を学習部12へ出力し、ユーザの推定対象のデータを受け付けた場合、抽出した特徴量を推定部14へ出力する。なお、抽出部11における出力先切り替えは、入力されるデータに、当該データがモデルの作成のためのデータ(学習対象となるデータ)か、ユーザの推定対象のデータかを示すフラグを付加し、当該フラグによって判断してもよいし、ユーザ推定装置10に学習モード推定モードの2つの状態を持たせ、手動もしくは時間帯等による自動でのモードの切り替えを行い、学習モードのときに入力されたデータはモデル作成のためのデータ、推定モードのときに入力されたデータは推定対象のデータと判断してもよい。

0013

また、抽出部11への入力データの与え方は複数行のデータをまとめて渡すバッチ処理でも、1行ずつデータを渡して都度処理を行うリアルタイム処理でも、どちらでもよい。以下ではバッチ処理を例に説明するが、リアルタイム処理で処理することも可能である。

0014

抽出部11は、入力部111と、セッション情報構築部112と、特徴量抽出部113とを備える。

0015

入力部111は、ユーザによるウェブサイトへのリクエストを表すデータを受け付ける。このリクエストを表すデータは、例えば、ユーザの端末装置(図示省略)とサーバ(上記のウェブサイトを提供するサーバ)との通信内容パケットキャプチャしたものや、サーバのアクセスログ等(図2参照)である。このリクエストを表すデータは、後記するユーザのセッション情報を構築するために必要な、時刻、リクエスト先のURLのパスセッションIDまたは発IPアドレス等の情報が含まれていれば、形式は問わない。

0016

セッション情報構築部112は、入力部111で得られたデータからセッションを構成するリクエストをピックアップしてセッション情報を構築する。ピックアップの判断基準は後記する。ここで、セッション情報はウェブサイトのセッションごとに、当該セッションにおいてアクセスしているユーザ名(ユーザID)、当該セッションに含まれるリクエスト先のURLのパスおよび時刻を時系列で並べた情報である(図3参照)。なお、セッション情報に含むURLのパスに、HTTP(HyperText Transfer Protocol)のメソッド(GETやPOST等)を含めてもよいし、URL全体(http://ドメイン/パス/)を含めてもよい。

0017

なお、セッションとはウェブサイトにおいて、ユーザ(ユーザの端末)がログインしてからログアウトするまで、同じユーザによって行われるリクエストのシーケンスである。なお、ウェブサイトへのログイン前あるいはログイン後に、同じユーザによって行われたリクエストを、上記のセッションに加えたものをセッションとしてもよい。また、ユーザのログインがない場合でも、例えば、直前のリクエストとの時間間隔がある閾値以下であり、かつ、同じ発IPアドレスからの一連のリクエストをセッションとしてもよい。

0018

図3に例示するセッション情報は、1つのセッション情報を表(テーブル)の1行として表したものである。このセッション情報の表現方式は、上記の表(テーブル)に限らず、JSON(JavaScript(登録商標) Object Notation)等でもよい。

0019

また、セッションを構成するリクエストをピックアップする判断基準であるが、ウェブアプリケーションで用いられるcookieに含まれるセッションIDが同一のものをピックアップするという基準が考えられる。また、同一の発IPアドレスから来たリクエストのうち、直前のリクエストとの時間間隔が所定の閾値以下のものをピックアップするという基準であってもよい。また、セッション情報に含まれるユーザ名の特定方法であるが、一般的なウェブプリケーションで用いられているような、ログインページでユーザが入力したパラメータから取得する方法の他、発IPアドレスとユーザが紐付けられる環境であれば、発IPアドレスをユーザ名の代わりに用いてもよい。

0020

特徴量抽出部113は、個々のセッション情報(図3参照)から、ユーザのページ閲覧の特徴量として、ウェブサイトのページの遷移順序(ページ遷移順序)および各ページへの遷移に要した時間(ページ遷移時間間隔)を抽出する。

0021

例えば、特徴量抽出部113は、以下のようにしてページ遷移順序を抽出する。まず、特徴量抽出部113は、セッション情報(図3参照)に含まれるリクエスト先のURLのパスを、変換表(図4参照)により、番号と1対1で対応させる。なお、この変換表(図4参照)は、予め用意してもよいし、処理対象のリクエスト先のURLのパスが変換表(図4参照)になければ、新たに番号を払い出して追加する等都度更新される変換表であってもよい。

0022

その後、特徴量抽出部113は、セッション情報(図3参照)に含まれるリクエスト先のURLのパスからなるシーケンスを番号の文字列に置き換える。例えば、特徴量抽出部113は、図3に示す項番1のセッション情報に対応する文字列として「#1#2#3…」を得る。また、特徴量抽出部113は、図3に示す項番2のセッション情報に対応する文字列として「#4#1#5…」を得る。なお、特徴量抽出部113は、上記のようにして得られた文字列をそのままページ遷移順序として抽出してもよいし、セッション情報において隣接するリクエストのペア(例えば、「#1#2#3…」からは「#1#2,#2#3,…」)を抽出する等、n個(nは2以上)の隣接するリクエストの組をページ遷移順序として抽出してもよい。つまり、特徴量抽出部113は、文字列処理におけるn-gramと呼ばれる特徴量の抽出方法を適用して、ページ遷移順序を抽出してもよい。

0023

また、例えば、特徴量抽出部113は、セッション情報(図3参照)におけるリクエストそれぞれの時刻から、ページ遷移時間間隔を抽出する。例えば、特徴量抽出部113は、セッション情報(図3参照)を参照して、#1と#2のリクエストの時間間隔が3秒であることが分かると、「#1#2:3」という特徴量を得る。ここでのページ遷移時間間隔は、ページ遷移順序に示される各リクエストの時間間隔をそのまま用いてもよいし、例えば、同じページ遷移が同一セッション中に複数存在した場合、これらのページ遷移の時間間隔の平均値を用いてもよい。

0024

例えば、特徴量抽出部113は、ページ遷移時間間隔として、ページ遷移順序に示される各リクエストの時間間隔をそのまま用いる場合、図5の「そのまま用いる場合」に示すように、{ユーザ:user,特徴量:#1#2:3,#2#3:4,#3#1:3,#1#2:5,…}というデータをユーザのページ閲覧の特徴量として抽出する。

0025

なお、特徴量抽出部113が、ページ遷移時間間隔として、同じページ遷移の時間間隔の平均値を用いる場合、図5の「平均値を用いる場合」に示すように、{ユーザ:user,特徴量:#1#2:4,#2#3:4,#3#1:3,…}というデータをユーザのページ閲覧の特徴量として抽出する。これは、上記の「特徴量:#1#2:3,#2#3:4,#3#1:3,#1#2:5,…」に、#1#2というページ遷移が2つあるので、1#2:3(3秒)と#1#2:5(5秒)の平均値(4秒)をとったものである。

0026

また、特徴量抽出部113は、遷移元のページからいずれかのページへ遷移した時間を特徴量として抽出してもよい。例えば、#1のリクエストと#2のリクエストの時間間隔が3秒である場合、特徴量抽出部113は、遷移先である#2は無視して、「#1:3」という特徴量を抽出する。これは「#1のページからいずれかのページへ3秒で遷移した」という特徴量を表す。例えば、特徴量抽出部113は{ユーザ:user,特徴量:#1:3,#2:4,#3:3,#1:5,…}というデータを、ユーザのページ閲覧の特徴量として抽出する。また、この場合も、特徴量として、遷移元のページからいずれかのページへ遷移した時間をそのまま用いてもよいし、同じページ遷移が同一セッション中に複数存在した場合、これらのページ遷移の時間間隔の平均値を用いてもよい。

0027

また、特徴量抽出部113は、いずれかのページから遷移先のページへ遷移した時間を特徴量として抽出してもよい。例えば、#1のリクエストと#2のリクエストの時間間隔が3秒である場合、特徴量抽出部113は、遷移元である#1は無視して、「#2:3」という特徴量を抽出する。これは「いずれかのページから#2のページへ3秒で遷移した」という特徴量を表す。例えば、特徴量抽出部113は{ユーザ:user,特徴量:#2:3,#3:4,#1:3,#2:5,…}というデータを、ユーザのページ閲覧の特徴量として抽出する。また、この場合も、特徴量として、いずれかのページから遷移先のページへ遷移した時間をそのまま用いてもよいし、同じページ遷移が同一セッション中に複数存在した場合、これらのページ遷移の時間間隔の平均値を用いてもよい。

0028

なお、入力部111で受け付けたデータが前記したモデルの作成のためのデータである場合、特徴量抽出部113は抽出したユーザのページ閲覧の特徴量を学習部12へ出力する。また、入力部111で受け付けたデータがユーザの推定対象のデータである場合、特徴量抽出部113は、抽出したユーザのページ閲覧の特徴量を推定部14へ出力する。

0029

特徴量抽出部113による、特徴量の出力およびタイミングは、ユーザのログアウト等でウェブサイトへのセッションが終了した時点で、当該セッション全体から得られた特徴量をすべて出力してもよいし、ユーザのページ遷移が発生し、ページ閲覧の特徴量が増えるたびに1つずつ出力してもよい。また、タイマーや、抽出した特徴量の個数またはデータ量等によって特徴量を出力するタイミングを決めてもよい。

0030

学習部12は、特徴量抽出部113から出力されたユーザのページ閲覧の特徴量を得ると、機械学習アルゴリズムに従い、ユーザそれぞれのページ閲覧の特徴を示すプロファイル(モデル)を作成し、モデル記憶部13に記憶する。この学習部12が使用する機械学習のアルゴリズムは、Jubatus(http://jubat.us/)やscikit-learn(http://scikit-learn.org/)のような既存の機械学習ライブラリによる実装を用いてもよく、その方式は問わない。

0031

例えば、学習部12は、ある特徴量が複数のユーザの内、どのユーザのものかをラベリングする多クラス分類器を用いてもよいし、ラベリングの際、複数のラベル許容するマルチラベル分類器を用いてもよい。また、二値分類器を複数並べて多クラス分類器やマルチラベル分類器を構成してもよい。さらに、分類器ではなく異常検知器を用いてもよい。異常検知器を用いる場合、異常と判定されなかったユーザにラベリングされたと解釈する。

0032

モデル記憶部13は、学習部12により作成されたモデルを記憶する。

0033

推定部14は、特徴量抽出部113から出力されたユーザのページ閲覧の特徴量(つまり推定対象の特徴量)を得ると、機械学習のアルゴリズムに従い、モデル記憶部13に記憶されたモデルを用いて、当該特徴量のユーザを推定する。推定部14はユーザの推定結果を出力部15へ出力する。

0034

出力部15は、推定部14から出力されたユーザの推定結果を外部装置等に出力する。

0035

このようなユーザ推定装置10によれば、ユーザの閲覧したページの数やページに含まれるリンクが少ない場合であっても、当該ユーザが過去に訪問したどのユーザかを精度よく推定することができる。

0036

次に、ユーザ推定装置10の処理手順を説明する。まず、図6を用いて、ユーザ推定装置10が、モデルを作成する手順を説明する。

0037

図6に示すように、まず、入力部111がユーザによるウェブサイトへのリクエストを表すデータの入力を受け付けると(S1)、セッション情報構築部112は、セッション情報(図3参照)を構築する(S2)。次に、特徴量抽出部113は、S2で構築されたセッション情報(図3参照)から、ユーザのページ閲覧の特徴量を抽出する(S3)。その後、学習部12は、S3で抽出されたユーザのページ閲覧の特徴量を用いて、ユーザそれぞれのページ閲覧の特徴を示すプロファイル(モデル)を作成する(S4:モデル作成)。そして、学習部12は作成したモデルをモデル記憶部13に記憶する。

0038

次に、図7を用いて、ユーザ推定装置10が、ユーザの推定をする手順を説明する。

0039

まず、入力部111が推定対象のデータ(ユーザによるウェブサイトへのリクエストを表すデータ)の入力を受け付けると(S11)、セッション情報構築部112は、セッション情報(図3参照)を構築し(S12)、特徴量抽出部113は、S12で構築されたセッション情報(図3参照)から、ユーザのページ閲覧の特徴量を抽出する(S13)。その後、推定部14は、S13で抽出したユーザのページ閲覧の特徴量と、モデル記憶部13に記憶されたモデルとを参照して、ユーザを推定する(S14)。そして、推定部14は、出力部15経由で、ユーザの推定結果を出力する(S15)。

0040

このようなユーザ推定装置10によれば、ユーザの閲覧したページの数やページに含まれるリンクが少ない場合であっても、当該ユーザが過去に訪問したどのユーザかを精度よく推定することができる。なお、ユーザ推定装置10は、ユーザのページ閲覧の特徴量として、ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔を抽出することとしたが、ユーザのウェブサイト上におけるページの遷移順序および各ページへの遷移時間間隔のいずれかを抽出することとしてもよい。

0041

(第2の実施形態)
次に、第2の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第2の実施形態のユーザ推定装置10は、モデルの作成時およびユーザの推定時に、特徴量抽出部113において、セッションの開始ページ、セッションに含まれるユニークページ数、および、セッション長の少なくともいずれか1つ以上をユーザのページ閲覧の特徴量として抽出する。

0042

なお、セッションの開始ページとは、セッション情報の最初に含まれるリクエスト先URLのパスを指す。例えば、図3に示した項番1のセッション情報の場合、特徴量抽出部113は、リクエスト1の「開始ページ:/index.html」、または変換表(図4参照)による変換後の値(開始ページ:#1)を特徴量として抽出する。

0043

また、セッションに含まれるユニークページ数とは、セッション情報に含まれるユニークリクエストURLのパスの数を指す。例えば、変換表(図4参照)により、番号の文字列に置き換えられたリクエストのシーケンスが「#1#2#1#3#2」だった場合、含まれるユニークリクエストは#1,#2,#3の3つなので、「ユニークページ数:3」を特徴量として抽出する。

0044

また、セッション長とは、セッション情報(図3参照)に含まれるリクエストの数を指す。例えば、変換表(図4参照)により、番号の文字列に置き換えられたリクエストのシーケンスが「#1#2#3#4」だった場合、リクエストは4つ含まれるので、特徴量抽出部113は「セッション長:4」を特徴量として抽出する。

0045

ユーザ推定装置10が上記のようにセッションの開始ページ、セッションに含まれるユニークページ数、セッション長等をユーザのページ閲覧の特徴量として抽出し、モデルの作成およびユーザの推定を行うことで、ユーザの推定をより精度よく行うことができる。

0046

(第3の実施形態)
次に、第3の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第3の実施形態のユーザ推定装置10は、入力部111において、入力データから有意なものを選別してセッション情報構築部112に渡すことを特徴とする。

0047

一般に、サーバのアクセスログにはページのリクエストに加え、そのページに含まれる画像やJavaScript(登録商標)の取得のためのリクエストも含まれる。これらのリクエストはブラウザが自動的に行うものであり、ユーザの行動を直接反映したものではない。そこで、第3の実施形態のユーザ推定装置10の入力部111は、入力されたウェブサイトへのリクエストを表すデータから、予め指定されたパターンに該当するリクエストを取り除き、セッション情報構築部112に渡す。

0048

パターンの指定方法は、例えば、正規表現による指定があげられるが、他の手法によってもよい。

0049

例えば、除外対象として、正規表現によって画像(JPEG,PNG,GIF)、JavaScript(登録商標)、CSS取得リクエストを指定する場合は、以下の正規表現となる。

0050

\.jpg$|\.png$|\.gif$|\.js$|\.css$

0051

これは、リクエストに含まれるURLの文字列の末尾が「.jpg」、「.png」、「.gif」、「.js」、「.css」のいずれかであるものを表している。

0052

また、入力部111はパターンによる指定に代わり、同じセッションにおいて直前のリクエストとの時間間隔が所定閾値以下であるリクエストを取り除き、セッション情報構築部112に渡してもよい。

0053

このように、入力部111が、図(JPEG,PNG,GIF)、JavaScript(登録商標)、CSSの取得リクエストや、同じセッションにおいて直前のリクエストとの時間間隔が所定閾値以下であるリクエストを除外したリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のページに含まれる画像、JavaScript(登録商標)、CSSを取得するリクエストや、同じセッションにおいて直前のリクエストとの時間間隔が所定閾値以下であるリクエストを除外したリクエストに基づき、ユーザのページ閲覧の特徴量を抽出する。

0054

このようにすることでユーザ推定装置10は、ブラウザにより自動的に行われた可能性の高いリクエストを除外したリクエスト(つまり、ユーザの直接的な振る舞いを表している可能性の高いリクエスト)に基づき、ユーザのページ閲覧の特徴量を抽出し、ユーザを推定するので、ユーザの推定精度をさらに向上させることができる。

0055

(第4の実施形態)
次に、第4の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第4の実施形態のユーザ推定装置10は、入力部111において、入力データのリクエスト先のURLのパスを抽象化してセッション情報構築部112に渡すことを特徴とする。

0056

この抽象化には、例えば、以下の(1)階層による打ち切り、(2)正規表現による置換、の2つの方法があり、これらのいずれかを用いてもよいし、両方を組み合わせて用いてもよい。

0057

(1)階層による打ち切り
入力部111は、入力データのリクエスト先のURLのパスの「/」で区切られた階層を予め定めた階層で打ち切る。例えば、入力部111は、図8に示すようにURLのパスの3階層目より後ろ図8下線部)を削除する。そして、入力部111は、入力データのリクエスト先のURLのパスの「/」で区切られた階層を、予め定めた階層で打ち切ったリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のURLのパスの「/」で区切られた階層のうち、予め定めた階層までのパスに基づき、ユーザのページ閲覧の特徴量を抽出する。

0058

このようにすることでユーザ推定装置10は、ウェブサイトのコンテンツのうち、ユーザ推定装置10の使用者の所望する階層(ディレクトリ)におけるユーザのページ閲覧の特徴量に基づき、ユーザを推定することができる。

0059

例えば、ウェブサイトがニュースサイトであり、このウェブサイトのURLのパスが「/カテゴリ/日時/記事」のように構成されている場合を考える。この場合、ユーザ推定装置10がリクエスト先のURLの1階層目の「/カテゴリ/」で打ち切ることで、カテゴリに着目したユーザのページ閲覧の特徴量に基づき、ユーザを推定することができる。

0060

(2)正規表現による置換
入力部111は、入力データのリクエスト先のURLを予め指定した正規表現のパターンで置換する。例えば、入力部111が、リクエスト先のURLに3桁以上の数字が含まれていた場合、当該数字を「%NUM」に置換する。この場合、入力部111は、「置換前:”[0-9]{3,}”置換後:”%NUM”」のように指定し、図9に示すように、リクエスト先のURLの3桁以上の数字の部分(図9の下線部)を「%NUM」に置換する。そして、入力部111は、上記のようにして置換したリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のURLにセッションごとに固有のIDが付与されている場合、このID部分を「%NUM」等の正規表現に置換したURLに基づき、ユーザのページ閲覧の特徴量を抽出する。

0061

このようにすることで、URLにセッションごとに固有のIDがURLに付与されるようなウェブサイトへのリクエストであっても、ユーザ推定装置10が、アクセス先のURLでIDのみが異なるURLを同じURLとして扱い、ユーザのページ閲覧の特徴量を抽出することができる。その結果、ユーザ推定装置10は、ユーザの推定精度をさらに向上させることができる。

0062

(プログラム)
また、上記実施形態に係るユーザ推定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成し、実行することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータに読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、システムと同様の機能を実現するユーザ推定プログラムを実行するコンピュータの一例を説明する。

0063

図10は、ユーザ推定プログラムを実行するコンピュータを示す図である。図10に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU(Central Processing Unit)1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。

0064

メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスク光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。

0065

ここで、図10に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した情報等は、例えばハードディスクドライブ1090やメモリ1010に記憶される。

0066

また、ユーザ推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ1090に記憶される。具体的には、上記実施形態で説明したシステムが実行する各処理が記述されたプログラムモジュールが、ハードディスクドライブ1090に記憶される。

0067

また、ユーザ推定プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ1090に記憶される。そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。

0068

なお、ユーザ推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、ユーザ推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。

0069

10ユーザ推定装置
11 抽出部
12 学習部
13モデル記憶部
14推定部
15 出力部
111 入力部
112セッション情報構築部
113特徴量抽出部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ