図面 (/)

技術 群形成方法、データ収集方法、及びデータ収集装置

出願人 富士通株式会社
発明者 古川忠延岡本美紀
出願日 2014年3月3日 (5年4ヶ月経過) 出願番号 2014-040884
公開日 2015年9月24日 (3年10ヶ月経過) 公開番号 2015-166916
状態 特許登録済
技術分野 検索装置 特定用途計算機
主要キーワード 参照分布 母集団分布 収集回数 ユーザ候補 出現頻度分布 出現分布 データ収集プログラム 職業分類
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年9月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

本発明の課題は調査対象母集団における属性比率を考慮した集団形成を行うことを目的とする。

解決手段

上記課題は、公開情報提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、新たな公開情報について、1又は複数のキーワードに含まれる各キーワードに基づいて、対応するキーワードを含む公開情報の提供者群を形成して、1又は複数の提供者群を形成し、1又は複数の提供者群のうち、第1の属性とは異なる属性の属性値の分布が、第1の提供者群と所定の類似関係にある提供者群を特定し、特定した提供者群の提供者のうち、第1の属性に関する属性値が所定の属性値に該当する提供者を用いて第1の提供者群に対応する新しい提供者群を形成する群形成方法により達成される。

概要

背景

近年、学生主婦、有職者等の様々な層の多くのユーザが、日常生活感じたこと、ものごとに対する考え方情報交換等でWeb(World Wide Web)を利用している。Webを利用するユーザ数の多さから、商品開発のためにWebを用いて市場動向等を調査する場合がある。

調査対象とするユーザを抽出するために、ユーザ属性及び検索ログ検索の条件を含むユーザを抽出する技術、ユーザの投稿活動に関する数値情報を用いて分析における有意性を示す度合を計算し、計算した度合に基づいてアクティブユーザを抽出する技術等が提案されている。

概要

本発明の課題は調査対象の母集団における属性比率を考慮した集団形成を行うことを目的とする。 上記課題は、公開情報提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、新たな公開情報について、1又は複数のキーワードに含まれる各キーワードに基づいて、対応するキーワードを含む公開情報の提供者群を形成して、1又は複数の提供者群を形成し、1又は複数の提供者群のうち、第1の属性とは異なる属性の属性値の分布が、第1の提供者群と所定の類似関係にある提供者群を特定し、特定した提供者群の提供者のうち、第1の属性に関する属性値が所定の属性値に該当する提供者を用いて第1の提供者群に対応する新しい提供者群を形成する群形成方法により達成される。

目的

本発明は、調査対象の母集団における属性比率を考慮した集団形成を行うことを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

公開情報提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、新たな公開情報について、前記1又は複数のキーワードに含まれる各キーワードに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、処理をコンピュータを用いて実行することを特徴とする群形成方法

請求項2

時間経過で属性が変化する調査対象公開するデータを収集するデータ収集方法であって、前記調査対象の母集団に対して不足した第1属性を有する調査対象の前記データを検索するキーワードを、該第1属性とは異なる第2属性の分布に基づいて作成し、前記キーワードを用いて収集したデータの調査対象の前記第1属性を推測し、推測した前記第1属性を参照して、前記母集団において補充する調査対象を、前記不足の第1属性を有すると推測した調査対象で補充する処理をコンピュータが実行するデータ収集方法。

請求項3

前記母集団に対して不足した第1属性を有する調査対象の前記第2属性の母集団分布を計算し、収集した前記データから前記第2属性の収集データ分布を計算し、前記収集データ分布と前記母集団分布との分布差が閾値内となるまで、前記補充する第1属性に係るキーワードの数を増やす処理を前記コンピュータが実行することを特徴とする請求項2記載のデータ収集方法。

請求項4

前記母集団からランダムに第1調査対象集合と第2調査対象集合とを生成し、前記第1調査対象集合の前記第2属性の第1分布を計算し、前記第2調査対象集合の前記第2属性の第2分布を計算し、前記第1分布と前記第2分布との差を計算することにより前記閾値を取得する処理を前記コンピュータが実行することを特徴とする請求項3記載のデータ収集方法。

請求項5

前記キーワードでOR検索した前記データの調査対象を新規調査対象候補とし、前記新規調査対象候補の第1属性を推定し、推定した前記第1属性に基づいて、前記新規調査対象候補から前記補充する第1属性の可能性の高い順に前記母集団を補充する処理を前記コンピュータが実行することを特徴とする請求項4記載のデータ収集方法。

請求項6

時間経過で属性が変化する調査対象が公開するデータを収集するデータ収集装置であって、前記調査対象の母集団に対して不足した第1属性を有する調査対象の前記データを検索するキーワードを、該第1属性とは異なる第2属性の分布に基づいて作成する作成部と、前記キーワードを用いて収集したデータの調査対象の前記第1属性を推測する推測部と、推測した前記第1属性を参照して、前記母集団において補充する調査対象を、前記不足の第1属性を有すると推測した調査対象で補充するサンプリング部とを有するデータ収集装置。

技術分野

0001

本発明は、データ収集技術に関する。

背景技術

0002

近年、学生主婦、有職者等の様々な層の多くのユーザが、日常生活感じたこと、ものごとに対する考え方情報交換等でWeb(World Wide Web)を利用している。Webを利用するユーザ数の多さから、商品開発のためにWebを用いて市場動向等を調査する場合がある。

0003

調査対象とするユーザを抽出するために、ユーザ属性及び検索ログ検索の条件を含むユーザを抽出する技術、ユーザの投稿活動に関する数値情報を用いて分析における有意性を示す度合を計算し、計算した度合に基づいてアクティブユーザを抽出する技術等が提案されている。

先行技術

0004

特開2010−108119号公報
特開2012−216168号公報

発明が解決しようとする課題

0005

Webのユーザが自発的に意見等を公開する例として、ブログ(Blog:Web log)がある。Web上のブログの内容が商品開発等の調査に利用される場合がある。商品開発の調査では、予め定めた属性毎に適切な人数をサンプリングして母集団を作成し、この母集団に属するユーザのブログを解析することで、ユーザの生活者としての実態を把握する。

0006

ユーザは、学生から有職者に変化して行くように、時間の経過によって母集団におけるユーザの属性が変化する。また、ユーザがブログの更新を停止、又は、ブログを中止することもある。

0007

一方、市場における商品の動向を調査する場合、属性の割合を一定に保たなければ過去の調査結果との比較を精度良く行えない。従って、上述したような変化に対応するため、母集団における属性の割合を一定に保つためには、属性が変化したユーザを母集団から除き、同じ属性の新たなユーザを母集団に補充することになる。

0008

しかしながら、上述した調査時にユーザの抽出を効果的に行う従来技術では、時間経過におけるユーザの属性変化に応じて、母集団における属性割合を一定に保つことは困難である。

0009

したがって、1つの側面では、本発明は、調査対象の母集団における属性比率を考慮した集団形成を行うことを目的とする。

課題を解決するための手段

0010

一態様によれば、公開情報提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を要素とする第1の提供者群に含まれる各提供者の公開情報から1又は複数のキーワードを抽出し、新たな公開情報について、前記1又は複数のキーワードに含まれる各キーワードに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、1又は複数の提供者群を形成し、前記1又は複数の提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が、前記第1の提供者群と所定の類似関係にある提供者群を特定し、特定した前記提供者群に含まれる提供者のうち、前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、処理をコンピュータを用いて実行する群形成方法が提供される。

0011

また、上記課題を解決するための手段として、上記方法を行う装置、コンピュータに上記処理を実行させるためのプログラム、及び、そのプログラムを記憶した記憶媒体とすることもできる。

発明の効果

0012

調査対象の母集団における属性比率を考慮した集団形成を行うことができる。

図面の簡単な説明

0013

本実施例に係るシステム構成例を示す図である。
データ収集装置ハードウェア構成を示す図である。
参照分布の例を示す図である。
データ収集装置の機能構成例を示す図である。
事前準備されるDB及びテーブルのデータ例を示す図(その1)である。
事前準備されるDB及びテーブルのデータ例を示す図(その2)である。
事前準備されるDB及びテーブルのデータ例を示す図(その3)である。
母集団からランダムに選択したユーザ集合のデータ例を示す図である。
新規ユーザ候補集合データ構成例を示す図である。
ユーザ毎キーワードテーブルのデータ構成例を示す図である。
ユーザ毎推定属性値テーブルのデータ構成例を示す図である。
新規ユーザリストのデータ例を示す図である。
新規ユーザ補充処理を説明するためのフローチャート図(その1)である。
新規ユーザ補充処理を説明するためのフローチャート図(その2)である。
ランダムユーザ集合の非調属性スコア分布例を示す図である。
母集団と不足職業属性値の非調整属性スコア分布例を示す図である。

実施例

0014

以下、本発明の実施の形態を図面に基づいて説明する。

0015

図1は、本実施例に係るシステム構成例を示す図である。図1において、システム1000は、データ収集装置100と、1以上のブログサーバ3と、ブロガー端末9とを有する。

0016

データ収集装置100は、ネットワークを介して1以上のブログサーバ3に接続し、ブログ3aの検索し、ブログ3aを収集する。データ収集装置100は、ブログ3aの収集において信頼性の高いデータ集合を提供する。

0017

データ収集装置100によって提供されるデータ集合は、例えば、市場におけるユーザの商品に対する嗜好等の商品開発に参考となる情報を抽出することを目的とした集合体である。

0018

各ブログサーバ3は、ブログ用の種々の管理機能を有し、ブロガー(ユーザ)にブログ用の記憶領域を提供するサーバである。

0019

ブロガー端末9は、ブロガーによって利用される端末であり、ブログサーバ3のサービスを利用してブログ3aを作成、更新、削除等を行う。

0020

図2は、データ収集装置のハードウェア構成を示す図である。図2において、データ収集装置100は、コンピュータによって制御される端末であって、CPU(Central Processing Unit)11と、主記憶装置12と、補助記憶装置13と、入力装置14と、表示装置15と、通信I/F(インターフェース)17と、ドライブ装置18とを有し、バスBに接続される。

0021

CPU11は、主記憶装置12に格納されたプログラムに従ってデータ収集装置100を制御する。主記憶装置12には、RAM(Random Access Memory)、ROM(Read Only Memory)等が用いられ、CPU11にて実行されるプログラム、CPU11での処理に必要なデータ、CPU11での処理にて得られたデータ等を記憶又は一時保存する。

0022

補助記憶装置13には、HDD(Hard Disk Drive)等が用いられ、各種処理を実行するためのプログラム等のデータを格納する。補助記憶装置13に格納されているプログラムの一部が主記憶装置12にロードされ、CPU11に実行されることによって、各種処理が実現される。記憶部130は、主記憶装置12及び/又は補助記憶装置13を有する。

0023

入力装置14は、マウスキーボード等を有し、ユーザがデータ収集装置100による処理に必要な各種情報を入力するために用いられる。表示装置15は、CPU11の制御のもとに必要な各種情報を表示する。通信I/F17は、有線又は無線などのネットワークを通じて通信を行う。通信I/F17による通信は無線又は有線に限定されるものではない。
データ収集装置100によって行われる処理を実現するプログラムは、例えば、CD−ROM(Compact Disc Read-Only Memory)等の記憶媒体19によってデータ収集装置100に提供される。

0024

ドライブ装置18は、ドライブ装置18にセットされた記憶媒体19(例えば、CD−ROM等)とデータ収集装置100とのインターフェースを行う。

0025

また、記憶媒体19に、後述される本実施の形態に係る種々の処理を実現するプログラムを格納し、この記憶媒体19に格納されたプログラムは、ドライブ装置18を介してデータ収集装置100にインストールされる。インストールされたプログラムは、データ収集装置100により実行可能となる。

0026

尚、プログラムを格納する媒体としてCD−ROMに限定するものではなく、コンピュータが読み取り可能な媒体であればよい。コンピュータ読取可能な記憶媒体として、CD−ROMの他に、DVDディスクUSBメモリ等の可搬型記録媒体フラッシュメモリ等の半導体メモリであっても良い。

0027

市場調査等にブログを利用するために、まず、ユーザをサンプリングした母集団を適切に作成する。即ち、母集団におけるユーザの属性の割合が、国内の人口分布等のデータで示される属性の割合と同様になるように、母集団を作成する。例えば、性別職業とを属性とする人口分布を参照し、各属性における割合が同じになるようなサンプル数を決定する。以下、母集団の作成時に参照されるサンプル数の分布を「参照分布」と言う。

0028

図3は、参照分布の例を示す図である。図3において、参照分布1は、性別と職業とを属性としたマトリクスでサンプル数を示したテーブルである。性別の属性値は、「男性」又は「女性」である。職業の属性値は、「中高生」、「大学生」、「有職者」、「主婦」、「シニア」、「その他」等である。例えば、参照分布1では、比率、職業の比率等が略一致するように設定されている。この参照分布1に基づいて、母集団が作成される。

0029

本実施例では、参照分布1に基づいて、同様の属性の割合で母集団を作成し、時間経過に伴い母集団から除外されるユーザが出現した場合、そのユーザと同じ属性値を持つ可能性の高いユーザを見つけて、母集団を補充する。

0030

中高生だったユーザが大学生になる等により、ユーザの属性が変化する。また、ブログ更新を停止するユーザの存在する。ユーザの属性は、ユーザの投稿記事に対してモデルを適用することで推定できる。このようなモデルは、文書分類技術の応用で作成可能である。

0031

モデルは、記事中に書かれた語句とその頻度とに基づいて、ユーザを分類するものである。このモデルを用いることで、「部活」という語句が書かれていれば中高生である確率を上昇させる。この手法では、各ユーザについて複数の記事を収集する必要がある。

0032

また、生活者の実態を継続的に観察するためにユーザの入れ替わりで、全く別の傾向がでるようになってしまうと生活者の実態が急に変わったように誤検知してしまう。生活者の実態を精度良く調査するには、補充するユーザは、母集団から除いたユーザと同じような傾向を持った投稿をするユーザを選択することが望ましい。

0033

ランダムサンプリングの一例として、以下の手順で行うことが考えられる。
1.サンプリング変更前における、各属性値のユーザ集合における語句の出現頻度分布Pallを求める。
2.ランダムに選択した新たなユーザについて、投稿を収集する。
3.ユーザの語句の出現分布Puと、推定属性値とを求める。
4.PallとPuの類似度閾値以上、且つ、推定属性値が不足セルに一致していれば、そのユーザを新規ユーザとして採用する。
5.上記2.から4.を繰り返し、不足ユーザ数分だけ新規ユーザの採用が済めば終了すうる。

0034

この例では、ランダムに選択したユーザが採用される確率が低く、収集回数が多くなるために、収集回数制限によって十分なユーザ数を獲得できない可能性がある。このようにランダムサンプリングでは補充したい属性値(例えば、中高生)のユーザだけを収集できず、非効率である。

0035

本実施例に係るデータ収集装置100では、収集対象のユーザをランダムに選択するのではなく、補充したいユーザに特徴的なキーワードを含む記事を一度以上投稿したユーザのみを補充の対象とする。

0036

キーワードをランダムに設定した場合、特定の話題の記事ばかりを投稿しているようなユーザが収集されてしまい、結果として生活者の実態を反映するような母集団にならなくなってしまう。

0037

そのため、本実施例では、収集対象ユーザ投稿内容の傾向が時間経過により偏る「バイアス」を回避するようにキーワードを設定する。キーワードは、以下の(1)及び(2)を満たすように設定する。
(1)ユーザ毎に前述した参照分布1の属性を推定する推定モデルにおいて、獲得したい属性値(例えば、中高生)に分類しやすい重要語句を上位から順にキーワードとして追加していく。

0038

上記(1)により、ユーザの推定結果が獲得したい属性値に一致する可能性が高まり、収集回数を抑えられる。
(2)投稿内容傾向のバイアスを、サンプリング数を調整しない属性、即ち、参照分布1で示した性別、職業等以外の属性(以下、「非調整属性」と言う。)の分布により定義し、サンプリング見直し前後でその差が小さくなるようにキーワードを設定する。

0039

調整属性は、性別、職業等の調査対象となる属性であり、非調整属性は調査対象としない属性である。非調整属性としては、例えば、趣味属性等がある。趣味属性は、グルメ映画等50以上存在する。その属性値が他のデモグラフィックな属性に比べて多く、数の調整が困難である。

0040

また、経験的に、趣味属性に注目することで投稿内容傾向が類似したユーザを抽出できることが予備実験により明らかになっている。

0041

また、生活者の実態を抽出するシステムにおいては趣味属性が有用であるが、対象のシステムでは、他の属性を用いて同様の解決を図ることも可能である。他の属性の例として、防災関連の調査を行う場合に、東京都、大阪府等の居住地を属性としても良い。

0042

図4は、データ収集装置の機能構成例を示す図である。図4中、実線は入力を示し、破線は出力を示す。

0043

図4において、データ収集装置100は、基本データ収集部41と、ユーザ集合作成部42と、スコア分布閾値計算部43と、キーワードリスト作成部44と、収集部45と、属性推定部46と、サンプリング部47とを有する。

0044

また、記憶部130の事前準備領域30には、ブログDB31、職業分類テーブル32、スコアテーブル33、職業推定モデル34、キーワード対ユーザテーブル35等が記憶されている。更に、記憶部130は、第1ランダムユーザ集合51、第2ランダムユーザ集合52、許容誤差閾値53、検索キーワードリスト54、新規ユーザ候補集合55、ユーザ毎キーワードテーブル56、ユーザ毎推定属性値テーブル57、新規ユーザリスト58等を記憶する。

0045

基本データ収集部41は、参照分布1に基づいて、属性の割合に応じて、ブログサーバ3からユーザを検索して母集団31を作成する。また、基本データ収集部41は、母集団1に含まれる各ユーザのブログ3aをブログサーバ3から取得して、ブログDB32に格納する。

0046

ユーザ集合作成部42は、基本データ収集部41によって取得した母集団31からランダムに2つのユーザ集合を作成する。各々のユーザ集合に含まれるユーザを識別するユーザIDが、第1ランダムユーザ集合51又は第2ランダムユーザ集合52のいずれかに記録される。

0047

スコア分布閾値計算部43は、ユーザ集合作成部42が作成した2つのユーザ集合に対して、趣味属性毎にスコア分布を計算し、2つのスコア分布の比較によって許容誤差閾値53を求める。スコア分布を計算する際には、スコアテーブル33が参照される。

0048

キーワードリスト作成部44は、各属性に属する確からしさを高める1以上のキーワードを設定して、趣味属性値のスコア分布が許容誤差閾値53以内となるキーワードのリストを作成する。

0049

ある属性に属する確からしさとは、例えば、「中高生らしさ」等を意味する。キーワードを複数にすることによって、ある属性に属する確からしさを高めることができる。確からしさは、職業推定モデル34を参照して判断する。趣味属性のスコア分布の計算では、キーワード対ユーザテーブル35が参照される。

0050

キーワードリスト作成部44によって、ブログ3aの記事内容を検索するためのキーワードを示す検索キーワードリスト54が作成される。

0051

収集部45は、検索キーワードリスト54のキーワードを用いて、不足したユーザと同様の属性を有するユーザによるブログ3aをブログサーバ3から検索して、ブログ3aを収集する。収集部45は、収集したブログ3aのユーザを新規ユーザ候補とし、そのユーザIDを示す新規ユーザ候補集合55を記憶部130に格納する。

0052

また、収集部45は、新規ユーザ候補毎に検索キーワードリスト54のキーワードの出現回数カウントする。新規ユーザ候補毎に検索に使用したキーワードの出現回数を記録したユーザ毎キーワードテーブル56が記憶部130に格納される。

0053

属性推定部46は、収集したブログ3aの記事に職業推定モデル34を適用して各ユーザの職業を推定する。ユーザ毎に、推定した属性値を対応付けたユーザ毎推定属性値テーブル57が記憶部130に格納される。

0054

次に、記憶部130に格納されるテーブル等について説明する。図5から図7は、事前準備されるDB及びテーブルのデータ例を示す図である。図5において、母集団に含まれるユーザに関するデータ構成例を示す。

0055

母集団31は、ユーザID毎に職業を対応付けたテーブルである。ユーザIDは、母集団31内でユーザを一意に特定するための識別子であり、後述されるDB及びテーブルにおいても同様である。職業は、ブログ3aの記事から推定したユーザの職業である。職業の属性値として、図3の参照分布1の職業の属性値が用いられる。

0056

ブログDB32は、ユーザID毎にブログ3aの記事データを対応付けたテーブルである。ブログ記事には、ブログサーバ3から取得したブログ3aを記憶する、或いは、ブログ3aを記憶した領域へのアドレスを示す。

0057

スコアテーブル33は、ユーザID毎に趣味スコアを対応付けたテーブルである。趣味属性値は、「グルメ」、「映画」、・・・「野球」等であり、ユーザID毎に各趣味属性値に対して趣味スコアが示されている。趣味スコアは、1に近づくほど興味があることを示し、0に近づくほど興味がないことを示す。

0058

例えば、ユーザID「00003」のユーザは、「映画」の趣味スコア「1.0」から「映画」に興味を持っていることが明らかであり、ユーザID「00002」のユーザは、「グルメ」の趣味スコア「0.0」から「グルメ」の全く興味がないことが分かる
図6は、職業推定モデルのデータ構成例を示す図である。図6において、職業推定モデル34は、キーワード毎に職業スコアを対応付けたテーブルである。職業属性値は、参照分布1の属性値に相当し、「中高生」、・・・「その他」であり、キーワード毎に各職業属性値に対して職業スコアが示されている。職業スコアは、1に近づくほど職業属性値の可能性が高いことを示し、0に近づくほど職業値と相関がない、−1に近付くほど職業値の可能性が低く他の職業値である可能性が高いことを示す。

0059

例えば、キーワード「部活」がブログ3aに出現する場合は、その職業スコアから、ブログ3aの作成者(ブロガー)であるユーザが中高生である可能性を「0.5」ポイント、その他の職業である可能性を「0.01」ポイント上昇させることを示している。

0060

図7は、キーワード対ユーザテーブルのデータ構成例を示す図である。図7において、キーワード対ユーザテーブル35は、キーワード毎に、ユーザIDのリストを対応付けたテーブルである。各キーワードは、検索時に用いた複数のキーワードである。キーワードに対応付けて、そのキーワードが出現したブログ3aのユーザのIDが示されている。例えば、キーワード「部活」の場合、ユーザID「00002」、「00383」等が対応付けられる。

0061

図8は、母集団からランダムに選択したユーザ集合のデータ例を示す図である。図8において、ユーザ集合作成部42によって作成された第1ランダムユーザ集合51及び第2ランダムユーザ集合52は、夫々、母集団31からランダムに選択したユーザIDが記録されている。

0062

第1ランダムユーザ集合51及び第2ランダムユーザ集合52と、ユーザ毎の非調整属性のスコアテーブル33とは、ユーザIDで関連付けが可能である。ユーザIDに対応する各趣味属性値の趣味スコア(スコア分布)は、スコアテーブル33から取得できる。

0063

第1ランダムユーザ集合51及び第2ランダムユーザ集合52は、許容誤差閾値53を算出するために、スコア分布閾値計算部43によって使用される。

0064

図9は、新規ユーザ候補集合のデータ構成例を示す図である。図9において、新規ユーザ候補集合55は、収集部によって収集されたブログ3aのユーザのIDを示すリストである。

0065

図10は、ユーザ毎キーワードテーブルのデータ構成例を示す図である。図10において、ユーザ毎キーワードテーブル56は、新規ユーザ候補集合55のユーザID毎に、ブログ3aに出現したキーワードと、出現回数とを対応付けたテーブルであり、ユーザID、キーワード等の項目を有する。

0066

キーワードには、ユーザの最新10記事を収集した結果が示され、出現したキーワードと出現回数とが示される。

0067

例えば、ユーザID「00002」に対して、キーワード「部活x3,友達x2, ゲームx5, ・・・」が示される。キーワード「部活」が3回出現し、キーワード「友達」が2回出現し、キーワード「ゲーム」が5回出現した等が示されている。

0068

図11は、ユーザ毎推定属性値テーブルのデータ構成例を示す図である。図11において、ユーザ毎推定属性値テーブル57は、新規ユーザ候補集合54で示されるユーザID毎に、各職業属性値の推定値と、推定属性とを対応付けたテーブルである。

0069

職業属性値は、図3の参照分布1で示される「中高生」、・・・「その他」である。各職業属性値に対して、属性推定部46が推定した推定値が示される。推定値は、高い値であるほど職業として可能性が高いことを示し、低い値であるほど職業として可能性が低いことを示す。推定属性は、各職業属性値の推定値から最も高い値を示す職業属性値を示す。

0070

図12は、新規ユーザリストのデータ例を示す図である。図12において、新規ユーザリスト58は、不足している職業属性値に対して作成されるリストであり、母集団31において、新規ユーザとして補充するユーザIDのリストを示す。

0071

例えば、職業属性値「中高生」に対して、ユーザID「00002」、「00383」、「00876」、・・・等が新規ユーザとして補充されることを示している。

0072

次に、本実施例に係る新規ユーザ補充処理について説明する。図13及び図14は、新規ユーザ補充処理を説明するためのフローチャート図である。図13及び図14において、不足属性値が職業属性値「中高生」である場合で説明する。他職業属性値でも同様の処理となる。

0073

図13において、ユーザ集合作成部42は、ユーザ毎の非調整属性のスコアテーブル33から2つのランダムユーザ集合u1及びu2を作成する。ここでは、ユーザ集合u1及びu2は、母集団31を参照して、職業が「中高生」を示すユーザIDの中からランダムに抽出されたユーザIDの集合とする。ランダムユーザ集合u1のユーザIDは、第1ランダムユーザ集合51に相当し、ランダムユーザ集合u2のユーザIDは、第2ランダムユーザ集合52に相当する。

0074

次に、スコア分布閾値計算部43は、不足属性値の非調整属性のスコア分布Dorigを計算する(ステップS12)。スコア分布Dorigは、数1及び数2で算出できる。

0075

h1〜hmは、趣味属性値「グルメ」、「映画」、・・・「野球」等に相当する。

0076

0077

また、スコア分布閾値計算部43は、非調整属性スコア分布Du1とDu2とを比較して、許容誤差閾値θ=Diff(Du1、Du2)を求める(ステップS13)。上記数1及び数2を2つのランダムユーザ集合u1及びu2の各々に適用して、非調整属性スコア分布Du1及びDu2を計算する。許容誤差閾値θは、非調整属性スコア分布Du1とDu2との差によって求められる。許容誤差閾値θは、許容誤差閾値53に相当する。

0078

スコア分布閾値計算部43は、各趣味hについて、各スコアsのユーザ数割合ru,h・sの差の2乗和(数3)により計算する。

0079

図15に、趣味属性値「グルメ」と「映画」の各々に関して、職業属性値「中高生」の場合の、ランダムユーザ集合u1とu2の非調整属性スコア分布例を示す。図15中、横軸に趣味に対する興味の度合を趣味スコアで示し、縦軸にユーザ数割合を示している。

0080

図15において、趣味属性値「グルメ」(h1とする)に関して、ランダムユーザ集合u1の非調整属性スコア分布をdu1,h1で示し、ランダムユーザ集合u2の非調整属性スコア分布をdu2,h1で示している。

0081

同様に、趣味属性値「グルメ」(h2とする)に関して、ランダムユーザ集合u1の非調整属性スコア分布をdu1,h2で示し、ランダムユーザ集合u2の非調整属性スコア分布をdu2,h2で示している。よって、数3により、趣味属性値毎の差の2乗和の合計を計算して許容誤差閾値θを得る。

0082

図13戻り、ステップS14からS20がキーワードリスト作成部44での処理に相当する。ステップS14からS20での処理により、許容誤差閾値θを用いて、母集団31の非調整属性である職業属性値の分布と同様になるようにキーワードを決定する。先ず、キーワードリスト作成部44は、変数iをゼロに初期化する(ステップS14)。

0083

キーワードリスト作成部44は、変数iを1インクリメントして(ステップS15)、変数iが語彙数以上となったか否かを判断する(ステップS16)。語彙数は、職業推定モデル34で保持するキーワードの値「部活」、「テスト」等の総数以下であれば良い。変数iが語彙数以上の場合、キーワードリスト作成部44は、図14のステップS21へと進む。

0084

変数iが語彙数未満である場合、キーワードリスト作成部44は、職業推定モデル34から、獲得したい職業属性値の分類に有用なキーワードを上位i個の集合Tiを抽出する(ステップS17)。「獲得したい職業属性値の分類に有用なキーワード」とは、例えば、「中高生らしさ」を高めるキーワードである。職業推定モデル34から職業属性値「中高生」の値が高い順に上位i個が抽出される。

0085

キーワードリスト作成部44は、集合Tiのキーワードのいずれかを含んだ記事を投稿したユーザを、ブログDB32に保持しているブログ記事から抽出して、非調整属性のスコア分布Diを求める(ステップS18)。

0086

ステップS18において、キーワードリスト作成部44は、キーワード対ユーザテーブル35を参照して、集合Tiのキーワードのいずれかを含んだ記事を投稿したユーザを抽出して、趣味属性のスコア分布Diを求める。

0087

次に、キーワードリスト作成部44は、母集団31の分布Dorigと不足の職業属性値の分布Diとの分布差Diff(Dorig,Di)を求める(ステップS19)。分布差Diff(Dorig,Di)は、分布Dorigと分布Diとに対して数3を適用すれば良い。

0088

そして、キーワードリスト作成部44は、ステップS19で求めた分布差Diff(Dorig,Di)がステップS13で求めたθ未満であるか否かを判断する(ステップS20)。分布差Diff(Dorig,Di)がθ以上である場合、キーワードリスト作成部44は、未だ母集団31の職業属性値の割合に近づいていないと判断して、ステップS15へと戻り、更にi個目のキーワードを追加して、上記同様の処理を繰り返す。一方、分布差Diff(Dorig,Di)がθ未満となった場合、キーワードリスト作成部44は、図14のステップS21へと進む。

0089

図16に、趣味属性値「グルメ」と「映画」の各々に関して、母集団31と不足の職業属性値「中高生」の非調整属性スコア分布例を示す。図16中、横軸に趣味に対する興味の度合を趣味スコアで示し、縦軸にユーザ数割合を示している。

0090

図16において、趣味属性値「グルメ」(h1とする)に関して、母集団31の非調整属性スコア分布をdorig,h1で示し、不足の職業属性値「中高生」の非調整属性スコア分布をdi,h1で示している。

0091

同様に、趣味属性値「グルメ」(h2とする)に関して、母集団31の非調整属性スコア分布をdorig,h2で示し、不足の職業属性値「中高生」の非調整属性スコア分布をdi,h2で示している。よって、数3を適用することで、趣味属性値毎の差の2乗和の合計を計算して分布差Diff(Dorig,Di)を得る。

0092

このような処理を、職業推定モデル34(図6)の職業属性値「高校生」の推定値が高い順に、キーワードを検索キーワード集合Tiに追加する毎に行う。職業推定モデル34(図6)より、1回目は、検索キーワード集合T1={部活}で行う。2回目は、検索キーワード集合T2={部活、テスト}で行う。3回目は、検索キーワード集合T3={部活、テスト、クラス}で行う。4回目は、検索キーワード集合T4={部活、テスト、クラス、学校}で行う。

0093

4回目の処理で、分布差Diff(Dorig,Di)がθ未満となったときに、キーワードリスト作成部44は、ステップS15〜S20の繰り返し処理を終了する。キーワードリスト作成部44による処理は、図14のステップS21へと続く。

0094

図14において、キーワードリスト作成部44は、検索キーワードリスト54を表示装置15に表示させ、データ収集装置100の管理者にキーワードを選定させる(ステップS21)。例えば、検索キーワード集合T4={部活、テスト、クラス、学校}が選択可能なように表示装置15に表示され、管理者によって選定されたキーワードが検索キーワードリスト54に記憶される。検索キーワードリスト54は、管理者によって選定された検索キーワード集合T4の一部又は全部を含み、管理者が新たにキーワードを追加することを許容する。

0095

例えば、集合Ti={部活、テスト、クラス、学校}において、管理者は「テスト」というキーワードは中高生以外も「投稿テスト」、「プログラムのテスト」等の投稿時に用いるため、職業属性値「中高生」の収集に不適切であると判断した場合、集合Ti={部活、クラス、学校}としても良い。

0096

収集部45は、選定された検索キーワードリスト54を用いて、ブログサーバ3からブログ記事をOR検索し、候補ユーザを決定する(ステップS22)。検索キーワードリスト54内のいずれかのキーワードを含むブログ記事が検索される。検索されたブログ記事のユーザを候補ユーザとして決定する。決定したユーザのIDを示す新規ユーザ候補リスト55が記憶部130に作成される。

0097

収集部45は、ブログサーバ3から候補ユーザについて、最新10記事を収集して、ユーザ毎にキーワードをカウントする(ステップS23)。即ち、収集部45は、ユーザID毎に、関連付けられるブログ記事内をキーワードで検索してカウントして、ユーザ毎キーワードテーブル56を記憶部130に作成する。

0098

属性推定部46は、ユーザ毎キーワードテーブル56を用いて、収集したブログ記事に職業推定モデル34を適用してユーザ毎推定属性値テーブル57を記憶部130に作成する(ステップS24)。属性推定部46は、作成したユーザ毎推定属性値テーブル57において、ユーザID毎に最も推定値の高い職業属性値を特定し、ユーザの職業であると判断して、ユーザ毎推定属性値テーブル57の推定属性に設定する。

0099

図11の例では、ユーザID「00002」に対しては、職業属性値「中高生」の推定値「0.53」が最も高い値を示すため、ユーザID「00002」に対応付けて推定属性に「中高生」が設定される。ユーザID「00014」に対しては、推定属性に「その他」が設定される。ユーザID「00383」に対しては、推定属性に「中高生」が設定される。

0100

そして、サンプリング部47は、対象の職業属性値を有すると推定されたユーザの中から、不足分をランダムにサンプリングして母集団31に追加する(ステップS25)。

0101

例えば、職業属性値「中高生」が不足している場合、サンプリング部47は、ユーザ毎推定属性値テーブル57において推定属性に職業属性値「中高生」が設定されたユーザIDを抽出して、新規ユーザリスト58(図12)を記憶部130に作成する。サンプリング部47は、新規ユーザリスト58を用いて母集団31を補充する。

0102

上述したように、本実施例に係るデータ収集装置100において、調査対象の母集団の属性割合を一定に保ちつつ、不足している職業属性値を有するユーザを補充することができる。

0103

本実施例では、収集対象のユーザをランダムに選択するのではなく、補充したいユーザに特徴的なキーワードを含むブログ記事を一度以上投稿したユーザのみとすることができる。

0104

キーワードをランダムに設定する技術では、特定の話題のブログ記事ばかりを投稿しているようなユーザが収集されてしまい、結果として生活者の実態を反映するような母集団にならなくなると言った問題がある。本実施例では、収集対象ユーザの投稿内容傾向がバイアスを回避するようにキーワードを設定するため、調査対象の母集団の属性割合を一定に保つことができる。従って、上述した課題を解決することができる。

0105

本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

0106

以上の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
公開情報の各提供者についての属性であって、時間変化に応じて属性値が変化する第1の属性に関する属性値が所定の属性値に該当すると算出された提供者を含む第1の提供者群の公開情報から複数のキーワードを抽出し、
前記複数のキーワードに含まれる各キーワードについて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、第1の提供者群セットを形成し、
新たな公開情報について、前記複数のキーワードに含まれる各キーワードに基づいて、対応するキーワードを含む公開情報の提供者群をそれぞれ形成して、第2の提供者群セットを形成し、
前記第1の提供者群セットに含まれる各提供者群と同じキーワードを用いて形成された前記第2の提供者群セットに含まれる各提供者群のうち、前記第1の属性とは異なる属性の属性値の分布が所定の類似関係を示す提供者群を特定し、
特定した前記提供者群に含まれる提供者のうち、推定される前記第1の属性に関する属性値が前記所定の属性値に該当すると算出された提供者を用いて前記第1の提供者群に対応する新しい提供者群を形成する、
処理をコンピュータを用いて実行することを特徴とする群形成方法。
(付記2)
時間経過で属性が変化する調査対象が公開するデータを収集するデータ収集方法であって、
前記調査対象の母集団に対して不足した第1属性を有する調査対象の前記データを検索するキーワードを、該第1属性とは異なる第2属性の分布に基づいて作成し、
前記キーワードを用いて収集したデータの調査対象の前記第1属性を推測し、
推測した前記第1属性を参照して、前記母集団において補充する調査対象を、前記不足の第1属性を有すると推測した調査対象で補充する
処理をコンピュータが実行するデータ収集方法。
(付記3)
前記母集団に対して不足した第1属性を有する調査対象の前記第2属性の母集団分布を計算し、
収集した前記データから前記第2属性の収集データ分布を計算し、
前記収集データ分布と前記母集団分布との分布差が閾値内となるまで、前記補充する第1属性に係るキーワードの数を増やす
処理を前記コンピュータが実行することを特徴とする付記2記載のデータ収集方法。
(付記4)
前記母集団からランダムに第1調査対象集合と第2調査対象集合とを生成し、
前記第1調査対象集合の前記第2属性の第1分布を計算し、
前記第2調査対象集合の前記第2属性の第2分布を計算し、
前記第1分布と前記第2分布との差を計算することにより前記閾値を取得する
処理を前記コンピュータが実行することを特徴とする付記3記載のデータ収集方法。
(付記5)
前記キーワードでOR検索した前記データの調査対象を新規調査対象候補とし、
前記新規調査対象候補の第1属性を推定し、
推定した前記第1属性に基づいて、前記新規調査対象候補から前記補充する第1属性の可能性の高い順に前記母集団を補充する
処理を前記コンピュータが実行することを特徴とする付記4記載のデータ収集方法。
(付記6)
前記データはブログであることを特徴とする付記2乃至5のいずれか一項記載のデータ収集方法。
(付記7)
前記第1属性は、中高生、大学生、有職者、主婦、シニアのうち少なくとも1以上を属性値とする、前記母集団において一定の比率で保たれる職業属性であることを付記2乃至5のいずれか一項記載のデータ収集方法。
(付記8)
前記第2属性は、前記調査対象の嗜好性に係る少なくとも1以上を属性値とする趣味属性であることを付記2乃至7のいずれか一項記載のデータ収集方法。
(付記9)
時間経過で属性が変化する調査対象が公開するデータを収集するデータ収集装置であって、
前記調査対象の母集団に対して不足した第1属性を有する調査対象の前記データを検索するキーワードを、該第1属性とは異なる第2属性の分布に基づいて作成する作成部と、
前記キーワードを用いて収集したデータの調査対象の前記第1属性を推測する推測部と、
推測した前記第1属性を参照して、前記母集団において補充する調査対象を、前記不足の第1属性を有すると推測した調査対象で補充するサンプリング部と
を有するデータ収集装置。
(付記10)
時間経過で属性が変化する調査対象が公開するデータを収集するデータ収集プログラムであって、
前記調査対象の母集団に対して不足した第1属性を有する調査対象の前記データを検索するキーワードを、該第1属性とは異なる第2属性の分布に基づいて作成し、
前記キーワードを用いて収集したデータの調査対象の前記第1属性を推測し、
推測した前記第1属性を参照して、前記母集団において補充する調査対象を、前記不足の第1属性を有すると推測した調査対象で補充する
処理をコンピュータに実行させるデータ収集プログラム。

0107

11 CPU
12主記憶装置
13補助記憶装置
14入力装置
15表示装置
16出力装置
17通信I/F
18ドライブ
19記憶媒体
30事前準備領域
31ブログDB
32職業分類テーブル
33スコアテーブル(ユーザ毎非調整属性)
34職業推定モデル
35キーワード対ユーザモデル
41基本データ収集部
42ユーザ集合作成部
43スコア分布閾値計算部
44キーワードリスト作成部
45 収集部
46属性推定部
47サンプリング部
51 第1ランダムユーザ集合
52 第2ランダムユーザ集合
53許容誤差閾値
54検索キーワードリスト
55新規ユーザ候補テーブル
56 ユーザ毎キーワードテーブル
57 ユーザ毎推定属性値テーブル
58 新規ユーザリスト
100データ収集装置
130 記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ