図面 (/)

技術 情報処理装置及び方法

出願人 NECパーソナルコンピュータ株式会社
発明者 白川貴久
出願日 2014年2月3日 (6年10ヶ月経過) 出願番号 2014-018937
公開日 2015年8月13日 (5年4ヶ月経過) 公開番号 2015-146134
状態 特許登録済
技術分野 検索装置
主要キーワード 最終カウント 発生頻度情報 スマートパッド ネットワークホスト 工場出荷 デスクトップ型パーソナルコンピュータ トリガイベント アシスタンス
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年8月13日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題

レコメンド基礎となる情報を忘却する処理を高速に行う。

解決手段

発生頻度辞書105には、単語と、その単語の発生頻度Cと、時刻情報Tが紐付けられている。文書から単語が抽出されたら、各単語の発生頻度を算出する。現在の時刻情報tと時刻情報Tとの差分と、に基づいて、抽出された単語の発生頻度Tを減衰させて、発生頻度cを得る。Cをcで、Tをtで置き換える。

概要

背景

従来、ユーザの嗜好情報に基づいてユーザが興味を持ちそうなコンテンツレコメンドすることが行われている(例えば、特許文献1、2)。

しかしながら、人の嗜好や興味は時間の経過とともに変わりうる。レコメンドの基礎となる嗜好情報を忘却させるなどして興味の変化に追随させる必要がある。特許文献3には、ユーザが過去に検索した情報を当該情報の発生頻度も考慮した上で、ある程度の時間が来たら忘却することが記載されている。あまり使われない古い情報を削除するものである。

概要

レコメンドの基礎となる情報を忘却する処理を高速に行う。発生頻度辞書105には、単語と、その単語の発生頻度Cと、時刻情報Tが紐付けられている。文書から単語が抽出されたら、各単語の発生頻度を算出する。現在の時刻情報tと時刻情報Tとの差分と、に基づいて、抽出された単語の発生頻度Tを減衰させて、発生頻度cを得る。Cをcで、Tをtで置き換える。

目的

本発明は、上記実情に鑑みてなされたものであって、レコメンドの基礎となる情報を忘却する処理を高速に行うことを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

単語と、単語が抽出された事象が発生した頻度である第1の発生頻度と、最後に単語が抽出された時間に係る第1の時刻情報と、が紐付けられて記憶された発生頻度辞書と、文書から単語を抽出する単語抽出手段と、単語の抽出された時間に係る第2の時刻情報と前記第1の時刻情報との差分と、に基づいて、抽出された単語の前記第1の発生頻度を減衰させて、第2の発生頻度を算出する発生頻度算出手段と、前記第2の発生頻度で前記第1の発生頻度を置き換え、前記第2の時刻情報で前記第1の時刻情報を置き換えて前記発生頻度辞書を更新する発生頻度更新手段と、を備え、更新された前記第2の発生頻度を、文書のレコメンド基礎となる情報として用いることを特徴とする、情報処理装置

請求項2

単語と、単語が抽出された事象が発生した頻度である第1の発生頻度と、最後に単語が抽出された時間に係る第1の時刻情報と、が紐付けられて発生頻度辞書に記憶するステップと、文書から単語を抽出する単語抽出ステップと、単語の抽出された時間に係る第2の時刻情報と前記第1の時刻情報との差分と、に基づいて、抽出された単語の前記第1の発生頻度を減衰させて、第2の発生頻度を算出する発生頻度算出ステップと、前記第2の発生頻度で前記第1の発生頻度を置き換え、前記第2の時刻情報で前記第1の時刻情報を置き換えて前記発生頻度辞書を更新する発生頻度更新ステップと、更新された前記第2の発生頻度を、文書のレコメンドの基礎となる情報として用いるステップと、を含むことを特徴とする、情報処理方法

技術分野

0001

本発明は、情報処理装置及び方法に関し、特に、レコメンド基礎となる情報を忘却する処理を高速に行う技術に関する。

背景技術

0002

従来、ユーザの嗜好情報に基づいてユーザが興味を持ちそうなコンテンツをレコメンドすることが行われている(例えば、特許文献1、2)。

0003

しかしながら、人の嗜好や興味は時間の経過とともに変わりうる。レコメンドの基礎となる嗜好情報を忘却させるなどして興味の変化に追随させる必要がある。特許文献3には、ユーザが過去に検索した情報を当該情報の発生頻度も考慮した上で、ある程度の時間が来たら忘却することが記載されている。あまり使われない古い情報を削除するものである。

先行技術

0004

特開平11−134345号公報
特開2013−025324号公報
特開2013−125034号公報

発明が解決しようとする課題

0005

レコメンドの基礎となる情報を忘却する処理は、従来、バッチ処理的に一斉に行われることが一般的であった。例えば、特許文献3では、工場出荷リセット以外の何らかのトリガイベントを検知したときに、記憶装置の空き容量を見て、閾値以下になっていれば忘却モジュール起動して使われていないデータの削除を行う。

0006

しかしながら、バッチ処理的に行う従来の忘却処理は、忘却させるべき嗜好情報の数が多くなるに比例して処理コストが必要になる点が問題であった。とりわけ、単語の発生頻度辞書の忘却処理においては、単語数の多さに比例して辞書の走査のための処理コストがかかり、結果的に重い処理になる可能性があった。このような重い処理をどのタイミングで行うべきかを決定することは難しく、タイミングを誤ることでユーザ操作への応答性が悪くなるなどの副作用が生じる。

0007

本発明は、上記実情に鑑みてなされたものであって、レコメンドの基礎となる情報を忘却する処理を高速に行うことを目的とする。

課題を解決するための手段

0008

上記目的を達成するための本発明は、単語と、単語が抽出された事象が発生した頻度である第1の発生頻度と、最後に単語が抽出された時間に係る第1の時刻情報と、が紐付けられて記憶された発生頻度辞書と、文書から単語を抽出する単語抽出手段と、単語の抽出された時間に係る第2の時刻情報と前記第1の時刻情報との差分と、に基づいて、抽出された単語の前記第1の発生頻度を減衰させて、第2の発生頻度を算出する発生頻度算出手段と、前記第2の発生頻度で前記第1の発生頻度を置き換え、前記第2の時刻情報で前記第1の時刻情報を置き換えて前記発生頻度辞書を更新する発生頻度更新手段と、を備え、更新された前記第2の発生頻度を、文書のレコメンドの基礎となる情報として用いることを特徴とする。

発明の効果

0009

本発明によれば、レコメンドの基礎となる情報を忘却する処理を高速に行うことが可能となる。

図面の簡単な説明

0010

本発明の一実施形態の構成を示すブロック図である。
図1の発生頻度辞書のデータ構造の一例を示す図である。
上記実施形態の処理の手順を示すフローチャートである。
上記実施形態において用いる忘却関数性格を説明するためのグラフである。

実施例

0011

図1に、実施形態の構成を示す。図示のように、本実施形態に係る情報処理装置100は、入力手段101、単語抽出手段102、発生頻度算出手段103、発生頻度更新手段104、発生頻度辞書105、出力手段106を備える。以下に各ブロックの機能を説明する。

0012

情報処理装置100の具体例としては、ノートブック型パーソナルコンピュータポータブル・データ・アシスタンス端末などのパーソナルコンピューティングデバイスが挙げられる。他の形態としては、例えば、デスクトップ型パーソナルコンピュータワークステーションスレート型端末、タブレットパーソナルコンピュータスマートフォンスマートパッドなど、本発明を適用できることが当業者にとって明らかな、あらゆる形態が考えられる。

0013

情報処理装置100は、通常の演算処理装置入出力装置一次記憶装置二次記憶装置などのハードウェア資源を備えており、ソフトウェアプログラムを実行することにより、図示の各ブロックの機能がもたらされる。

0014

入力手段101は、情報処理装置100に電子データを入力する機能を備える。電子データは、後段の各ブロックで取り扱う単語が抽出しうるものであればどのようなものでもよく、例えば、ワードプロセッサアプリケーションで作成した電子文書XML文書などが挙げられる。画像データでもOCR等の手段を用いて単語が抽出可能であれば該当する。電子データは必ず1ファイルである必要はなく、ある情報を伝える一群の電子データでもよい。以下では、このようなさまざまなケースを考慮して、入力手段101が情報処理装置100に取り込む一単位の情報を、単に「文書」と呼ぶ。

0015

なお、入力手段101が文書を入手する先は、例えば、ネットワークホストの記憶装置や、外部の記憶媒体などが挙げられる。情報処理装置100が備える二次記憶装置でもよい。

0016

単語抽出手段102は、入力手段101が入力した文書から単語を抽出する。抽出する単語は、例えば、自然言語の単語である。文書のどの範囲から単語を抽出するか、どのような単語を抽出するか、などについてには任意に決めることができる。例えば、HTML文書の所定のメタタグの中から、固有名詞のみを抽出する、と定めてもよい。単語認識の方法については、既存のあらゆる方法が適用できる。

0017

単語抽出手段102は、文書毎に単語を抽出する。発生頻度算出手段103は、主として、抽出した単語毎にその発生頻度を算出する機能を備える。発生頻度更新手段104は、主として、発生頻度算出手段103が算出した単語の発生頻度を、単語の発生した時刻情報とともに記憶して、発生頻度辞書105を更新する機能を備える。発生頻度辞書105は、単語毎に、その発生頻度と時刻情報を紐付けて記憶する(図2)。

0018

一般的な発生頻度としては、例えば、所定期間中に入力手段101が入手した全文書中に単語Wが含まれていた頻度などであると考えられる。この場合、100文書中、ある単語が35文書に含まれていたら、「C=35/100」となる。しかしながら、本実施形態において発生頻度辞書105に記憶される発生頻度は、このような一般的な頻度とは異なり、後述する算出処理を経て得られる値である。

0019

なお、図2は発生頻度辞書105のデータ構造の一例である。1単語あたりの発生頻度を複数記録するようなデータ構造としてもよい。例えば、単語Wnの発生頻度としてCn1とCn2を記録し、Cn1を、単語Wnが含まれる文書にユーザが興味を持ったという事象の発生頻度、Cn2を、単語Wnが含まれる文書にユーザが興味を持たなかったという事象の発生頻度としてもよい。

0020

出力手段106は、算出された発生頻度を後段の処理に出力する機能を備える。なお、発生頻度辞書105から更新されたデータを出力するようにしてもよい。発生頻度の情報は、例えば、新たな文書にユーザが興味を持つ事象の尤度を算出するためなどに用いる。つまり、発生頻度はレコメンドの基礎となる情報として用いる。

0021

次に、発生頻度の算出処理の詳細を含む本実施形態の処理について、図3のフローチャートを参照しながら説明する。

0022

まず、入力手段101が新たな文書を情報処理装置100に入力する(S101)と、単語抽出手段102が文書から単語を抽出する(S102)。単語は通常複数抽出されるので、個々の単語について発生頻度の算出処理を行う。全ての単語について処理が終了するまでループとなる(S103〜S106)。

0023

発生頻度算出手段103が、単語抽出手段102により抽出されたある単語の発生頻度を算出する(S104)。以下では、発生頻度辞書105に載っている単語についてだけ考える。

0024

発生頻度算出手段103は、図2の発生頻度辞書105を参照して当該単語の発生頻度Cと、時刻情報Tを取得する。また、システムクロック等から、現在の時刻情報tを取得する。なお、厳密にシステムクロックから得られる現在時刻に限定する必要はない。他には、例えば、単語が含まれる文書が入力手段101により入手されたタイミングのタイムスタンプでもよい。また、そのような文書が外部装置で作成された時刻情報(知ることが可能ならば)などでもよい。時刻情報は、情報処理装置100の用途に応じて、秒単位まで記録しても、年月日程度を記録することとしてもよい。

0025

次に、所定の忘却関数attenuation_function()により、忘却後の発生頻度cを、発生頻度Cと、時刻情報T及び時刻情報tの差分とに基づいて計算する。
c=attenuation_function(t−T,C)

0026

ここで、忘却関数は、例えば、図4に示すような、時間の経過とともに発生頻度が低減していくような関数とすることが好ましい。

0027

次に、発生頻度更新手段104が、算出された発生頻度cと時刻情報tの更新を行う(S105)。これは、忘却後の単語の発生頻度cで、忘却前の発生頻度Cを置き換えるとともに、現在の時刻情報tで、当該単語の最終カウントアップ時の時刻情報Tを置き換える処理である。

0028

以上の、発生頻度の算出処理と更新処理を全ての単語について繰り返したら、出力手段106が算出した全ての発生頻度を後段に出力する(S107)。出力される全ての発生頻度が忘却処理済みの情報となっている。

0029

以下、上述した本実施形態の効果について説明する。
文書に含まれる単語によるレコメンドを行う場合、単語の発生頻度(発生回数、発生確率など)を計数する。しかしながらユーザの嗜好の変化に追従するためには、この単語の発生頻度の忘却処理が必要である。従来技術においては、バッチ処理的に各単語の発生頻度辞書を走査して、発生頻度情報を忘却させていた。

0030

しかしながら、この従来技術では、単語の発生頻度辞書に登録されている単語数が多くなるに比例して、辞書の走査のための処理コストが必要になる。このような重い処理をどのタイミングで行うべきかを決定するかは難しく、タイミングを誤ることでユーザの操作へのレスポンスが悪くなるなどの副作用が生じる。

0031

このような重い処理となるのは、1文書に含まれる単語数に比べて、単語の発生頻度辞書に登録される単語数が非常に多く、全単語を走査するコストが大きいことに起因している。

0032

これに対して上記実施形態においては、単語の発生頻度を学習する際に、最後に単語のカウントアップを行った時点からの時間に応じて忘却を行う。全ての単語の忘却処理をする必要はなく、1文書に含まれる単語の数だけでよい。したがって、全単語を走査する処理に比べて遙かに高速に忘却処理を行うことができる。

0033

また、発生頻度が高くない単語に対しては、バッチ処理で全単語を一律に忘却させるような処理において発生する累積丸め誤差が生じない効果がもたらされる。

0034

100情報処理装置
101入力手段
102単語抽出手段
103発生頻度算出手段
104 発生頻度更新手段
105 発生頻度辞書
106 出力手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ