図面 (/)

技術 評価値に基づいて推奨するコンテンツを決定するシステム

出願人 株式会社日立製作所
発明者 グエンフォン秋山高行
出願日 2016年9月15日 (4年5ヶ月経過) 出願番号 2016-180181
公開日 2018年3月22日 (2年10ヶ月経過) 公開番号 2018-045476
状態 特許登録済
技術分野
  • -
主要キーワード 状態カラム 基準行 行動空間 行動リスト 日替わりメニュー 行動追跡 補助記憶デバイス 学習レート
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年3月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示する。

解決手段

プロセッサは、複数コンテンツ評価値を管理する評価値管理情報が示す評価値に基づいて、複数コンテンツから、提示する第1コンテンツを選択し、提示された第1コンテンツに対する視聴者の反応の情報を取得し、反応の情報と予め定められた基準とに基づいて、第1コンテンツに対する報酬値を決定し、報酬値に基づいて、評価値管理情報において、第1コンテンツの評価値を更新し、第1コンテンツの評価値に基づいて、評価値管理情報において、第1コンテンツに類似するコンテンツの評価値を更新する。

概要

背景

従来、バナーサイネージ、又は何らかの情報の推奨コンテンツ(おすすコンテンツ)は、静的な態様で示されており、視聴者嗜好に対応するように変化することはない。従来のシステムは、誰が、又はどのようなタイプの人が、コンテンツを視聴しているかについて、情報を有していない。ユーザについての情報を、クッキブラウジング履歴、又は行動追跡によって集めることができるオンライン環境と異なり、オフライン環境は、そのような情報を有していない。異なる視聴者が異なる嗜好を有することを鑑みれば、静的にコンテンツを全てのタイプの視聴者に表示する従来の方法は、非効率である。

繰り返し複数のコンテンツを表示する方法がある。しかし、これらコンテンツは、視聴者の興味に必ずしも沿ったものではなく、また、人手により適宜更新しないと、シーズンの傾向から外れたものとなってしまう。

推奨コンテンツを視聴している視聴者のタイプを認識し、最も適切なコンテンツを選択して視聴者に表示し、さらに、以前に表示されたコンテンツに対する視聴者の反応に基づいて、より良い選択をするように調整できる、自動情報レコメントシステムが望まれる。自動情報レコメンドシステムは、Q学習を使用して、この目的を達成できる。

Q学習は、モデルフリー強化学習技術であり、エージェントが、その状態及び行動空間を探索し、所与の状態において実行する最善の行動見出す。何が最善の行動であるかを判定するために、エージェントは、一般に、一つの行動を試し、取った行動から報酬又はペナルティを経験する。

Q値は、(状態、行動)ペア評価値を示すものであって、多くの繰り返しによって、所与の状態における最善の行動を見つけるために、計算及び更新される。一般のQ学習方法は、「次元の呪い」と呼ばれる問題を有している。これは、状態と行動の数が増加すると、指数的に必要な計算量が増加する問題である。

Q学習を使用した情報リコメンドシステムの設定においては、行動空間は、視聴者に提供しようとしているコンテンツプールで表わすことができる。視聴者に提供するコンテンツの可能なオプションが増加するにつれて、より多くの状態と行動の組み合わせを探索することが必要となり、結果的に、長い学習時間が必要となる。

視聴者に表示するために入手可能なコンテンツの数は膨大である。視聴者に全ての可能なオプションを示すには、実行不能な量の学習時間がかかり得る。学習時、システムは、まだ適切な行動を行わない。従って、長い学習時間により、多くの利益を失い、学習のために多くのコストがかかる。

行動空間を階層的にクラスタリングする技術が知られている。各行動は、一意のコンテンツを選択し、同一クラスタ内の全ての行動を同様に扱って、行動空間における行動の数を低減する。このような技術は、例えば、特開2007−164406号公報に開示されている。

概要

短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示する。プロセッサは、複数コンテンツの評価値を管理する評価値管理情報が示す評価値に基づいて、複数コンテンツから、提示する第1コンテンツを選択し、提示された第1コンテンツに対する視聴者の反応の情報を取得し、反応の情報と予め定められた基準とに基づいて、第1コンテンツに対する報酬値を決定し、報酬値に基づいて、評価値管理情報において、第1コンテンツの評価値を更新し、第1コンテンツの評価値に基づいて、評価値管理情報において、第1コンテンツに類似するコンテンツの評価値を更新する。

目的

情報レコメンドシステムが、視聴者の各グループに対して、より適切なコンテンツを提供する

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

評価値に基づいて推奨するコンテンツを決定するシステムであって、記憶装置と、前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、前記記憶装置は、複数コンテンツの評価値を管理する評価値管理情報を格納し、前記プロセッサは、前記評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、前記報酬値に基づいて、前記評価値管理情報において、前記第1コンテンツの評価値を更新し、前記第1コンテンツの評価値に基づいて、前記評価値管理情報において、前記第1コンテンツに類似するコンテンツの評価値を更新する、システム。

請求項2

請求項1に記載のシステムであって、前記記憶装置は、前記複数コンテンツの各コンテンツの、複数の特徴量を管理する、特徴量管理情報を格納し、前記プロセッサは、前記第1コンテンツと前記類似するコンテンツとの間において、前記特徴量管理情報に基づいて、同一の値の特徴量を特定し、前記第1コンテンツの前記同一の値の特徴量に対する評価値に基づいて、前記類似するコンテンツの評価値を更新する、システム。

請求項3

請求項2に記載のシステムであって、前記評価値管理情報は、前記複数コンテンツの各コンテンツの、前記複数の特徴量それぞれの評価値、を管理し、前記プロセッサは、前記特徴量管理情報において、前記類似するコンテンツの、前記同一の値の特徴量に対する評価値を、前記第1コンテンツの前記同一の値の特徴量に対する評価値に基づいて更新し、前記類似するコンテンツに対する評価値を前記複数の特徴量に基づき決定する、システム。

請求項4

請求項3に記載のシステムであって、前記類似するコンテンツの、前記同一の値の特徴量に対する評価値の更新は、次の式に従う、Q’feature:前記類似するコンテンツの一つの特徴量の評価値s:現在の状態s`:次の状態Qfeature :前記第1コンテンツの前記一つの特徴量の評価値a:前記第1コンテンツasimilar:前記類似するコンテンツa`:次の状態でのコンテンツα、γ:予め定められた0より大きく1以下の数値maxa`Q’featur(s`、a`):次の状態s`における、前記一つの特徴量の値が同一であるコンテンツのうちの、前記一つの特徴量の最大評価値。システム。

請求項5

請求項2に記載のシステムであって、前記プロセッサは、前記複数の特徴量において、同一の値を有する特徴量の数に基づいて、前記提示するコンテンツに類似するコンテンツを決定する、システム。

請求項6

請求項1に記載のシステムであって、前記評価値管理情報は、視聴者の特徴量の値と前記複数コンテンツそれぞれの評価値との関係を管理し、前記プロセッサは、前記提示されたコンテンツの、前記視聴者の特徴量の値に関連付けられている評価値を更新し、前記類似するコンテンツの、前記視聴者の特徴量の値に関連付けられている評価値を更新する、システム。

請求項7

請求項1に記載のシステムであって、前記プロセッサは、予め定められた確率で、提示するコンテンツを、前記評価値に基づいて選択するか、前記評価値から独立して選択するか、決定し、前記評価値から独立して前記提示するコンテンツを選択する場合に、これまでに提示されたことがないコンテンツであって、前記評価値管理情報において評価値の更新度合が最も少ないコンテンツから、前記提示するコンテンツを選択する、システム。

請求項8

計算機システムが、評価値に基づいて推奨するコンテンツを決定する方法であって、前記計算機システムが、複数コンテンツの評価値を管理する評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、前記報酬値に基づいて、前記評価値管理情報において、前記第1コンテンツの評価値を更新し、前記第1コンテンツの評価値に基づいて、前記評価値管理情報において、前記第1コンテンツに類似するコンテンツの評価値を更新する、方法。

技術分野

0001

本発明は評価値に基づいて推奨するコンテンツを決定するシステムに関する。

背景技術

0002

従来、バナーサイネージ、又は何らかの情報の推奨コンテンツ(おすすめコンテンツ)は、静的な態様で示されており、視聴者嗜好に対応するように変化することはない。従来のシステムは、誰が、又はどのようなタイプの人が、コンテンツを視聴しているかについて、情報を有していない。ユーザについての情報を、クッキブラウジング履歴、又は行動追跡によって集めることができるオンライン環境と異なり、オフライン環境は、そのような情報を有していない。異なる視聴者が異なる嗜好を有することを鑑みれば、静的にコンテンツを全てのタイプの視聴者に表示する従来の方法は、非効率である。

0003

繰り返し複数のコンテンツを表示する方法がある。しかし、これらコンテンツは、視聴者の興味に必ずしも沿ったものではなく、また、人手により適宜更新しないと、シーズンの傾向から外れたものとなってしまう。

0004

推奨コンテンツを視聴している視聴者のタイプを認識し、最も適切なコンテンツを選択して視聴者に表示し、さらに、以前に表示されたコンテンツに対する視聴者の反応に基づいて、より良い選択をするように調整できる、自動情報レコメントシステムが望まれる。自動情報レコメンドシステムは、Q学習を使用して、この目的を達成できる。

0005

Q学習は、モデルフリー強化学習技術であり、エージェントが、その状態及び行動空間を探索し、所与の状態において実行する最善の行動見出す。何が最善の行動であるかを判定するために、エージェントは、一般に、一つの行動を試し、取った行動から報酬又はペナルティを経験する。

0006

Q値は、(状態、行動)ペアの評価値を示すものであって、多くの繰り返しによって、所与の状態における最善の行動を見つけるために、計算及び更新される。一般のQ学習方法は、「次元の呪い」と呼ばれる問題を有している。これは、状態と行動の数が増加すると、指数的に必要な計算量が増加する問題である。

0007

Q学習を使用した情報リコメンドシステムの設定においては、行動空間は、視聴者に提供しようとしているコンテンツプールで表わすことができる。視聴者に提供するコンテンツの可能なオプションが増加するにつれて、より多くの状態と行動の組み合わせを探索することが必要となり、結果的に、長い学習時間が必要となる。

0008

視聴者に表示するために入手可能なコンテンツの数は膨大である。視聴者に全ての可能なオプションを示すには、実行不能な量の学習時間がかかり得る。学習時、システムは、まだ適切な行動を行わない。従って、長い学習時間により、多くの利益を失い、学習のために多くのコストがかかる。

0009

行動空間を階層的にクラスタリングする技術が知られている。各行動は、一意のコンテンツを選択し、同一クラスタ内の全ての行動を同様に扱って、行動空間における行動の数を低減する。このような技術は、例えば、特開2007−164406号公報に開示されている。

先行技術

0010

特開2007−164406号公報

発明が解決しようとする課題

0011

しかし、上記アプローチは、同一クラスタ内の行動が異なり、異なるクラスタの行動が類似している場合に、正確ではない。このように、従来の技術は、上記のような孤立した大きな行動空間の課題を解決する具体的な方法を有していない。従って、短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示できる、システムが望まれる。

課題を解決するための手段

0012

本発明の一態様は、評価値に基づいて推奨するコンテンツを決定するシステムであって、記憶装置と、前記記憶装置に格納されているプログラムに従って動作するプロセッサと、を含み、前記記憶装置は、複数コンテンツの評価値を管理する評価値管理情報を格納し、前記プロセッサは、前記評価値管理情報が示す前記評価値に基づいて、前記複数コンテンツから、提示する第1コンテンツを選択し、提示された前記第1コンテンツに対する視聴者の反応の情報を取得し、前記反応の情報と予め定められた基準とに基づいて、前記第1コンテンツに対する報酬値を決定し、前記報酬値に基づいて、前記評価値管理情報において、前記第1コンテンツの評価値を更新し、前記第1コンテンツの評価値に基づいて、前記評価値管理情報において、前記第1コンテンツに類似するコンテンツの評価値を更新する。

発明の効果

0013

本発明の一態様によれば、短い学習時間において、視聴者に対してより適切なコンテンツを選択して提示できる。

図面の簡単な説明

0014

実施例1に係る情報レコメンドシステムの構成例を示す。
実施例1に係る情報レコメントシステムの機能ブロック図を示す。
実施例1に係る行動データベースの構成例を示す。
実施例1に係る行動特徴量データベースの構成例を示す。
実施例1に係るQ値データベースの構成例を示す。
実施例1に係る行動選択部のフローチャートを示す。
実施例1に係る行動類似性計算部のフローチャートを示す。
実施例1に係るQ値更新部のフローチャートを示す。
実施例2に係る、情報レコメンドシステムの構成例を示す。
実施例2に係る情報レコメンドシステムの機能ブロック図を示す。
実施例2に係るQ値データベースの構成例を示す。
実施例3に係る情報レコメンドシステムの構成例を示す。
実施例3に係る情報レコメンドシステムの機能ブロック図を示す。
実施例3に係る行動選択部のフローチャートを示す。
実施例3に係る情報ゲイン計算部のフローチャートを示す。

0015

以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。各図において共通の構成については同一の参照符号が付されている。

0016

以下に開示される情報レコメンドシステムは、提示されたコンテンツに対する視聴者の反応に基づいて、視聴者により適切なコンテンツを提示する。以下に開示する情報レコメンドシステは、例えば、空港ショッピングモールのような、オフライン環境において動作する。提示されるコンテンツは、バナー、サイネージ、音楽映像等である。情報レコメンドシステムは、提示するコンテンツそれぞれの評価値(各コンテンツを提示する場合の評価値)を管理し、評価値に基づいて提示するコンテンツを選択する。

0017

情報レコメンドシステムは、提示されたコンテンツに対する視聴者の反応に基づいて、提示したコンテンツの評価値を更新すると共に、提示したコンテンツに類似するコンテンツの評価値を更新する(学習)。これにより、提示したコンテンツに加え、実際に提示をしていないコンテンツを提示した場合の効果を、効果的に学習することができ、短い学習時間で、より適切なコンテンツを提示することができる。

0018

一例において、情報レコメンドシステムは、コンテンツの複数の特徴量を管理し、特徴量に基づいてコンテンツ間の類似性を判定する。たとえば、情報レコメンドシステムは、値が一致する特徴量が規定数以上のコンテンツを、互いに類似するコンテンツと判定する。

0019

例えば、情報レコメンドシステムは、提示したコンテンツにおいて、類似するコンテンツと同一値の特徴量を特定し、当該特徴量に対する評価値に基づいて、類似するコンテンツの評価値を更新する。これにより、提示したコンテンツと類似するコンテンツとの間の類似度に応じて、類似するコンテンツの評価値を更新できる。

0020

図1〜8を参照して、実施例1を説明する。情報レコメンドシステムは、サーバ100、表示端末200、そして観測端末300を含む。表示端末200は、推奨コンテンツ(お勧めコンテンツ)を視聴者に表示する。観測端末300は、表示されたコンテンツに対する視聴者の反応を認識し、サーバ100にその情報を送信する。

0021

サーバ100は、その情報を使用して報酬を計算し、Q値データベース133を更新する。Q値データベース133は、行動(表示コンテンツ)と状態のペアのQ値管理する。Q値は、評価値である。行動選択プログラム121は、Q学習アルゴリズムに従って次に表示するコンテンツを決定し、そのコンテンツを表示端末200に送信する。

0022

図1は、実施例1に係る情報レコメンドシステムの構成例を示す。表示端末200を、まず説明する。表示端末200は、プロセッサ210、メモリデバイス220、表示デバイス230、通信インタフェース240を含む。各構成要素はバスによって互いに接続されている。デジタルサイネージシステムは、表示端末200の一例である。しかし、表示端末200は、デジタルサイネージシステムに限定されず、サーバ100からの要求に応じて、特定のコンテンツを視聴者に対して提示できればよい。

0023

プロセッサ210は、メモリデバイス220に格納されたプログラムに従って、様々な演算処理を実行する。メモリデバイス220は、コンテンツ表示プログラム221を格納する。コンテンツ表示プログラム221は、特定のコンテンツを表示デバイス230において表示させる。表示デバイス230は、表示パネルに加え、スピーカ及び/又はタッチパネルを含んでもよく、表示デバイス230に代えてスピーカが実装されてもよい。

0024

通信インタフェース240は表示端末200をネットワーク150に接続する。コンテンツ表示プログラム221は、メモリデバイス220に格納され、ネットワーク150及び通信インタフェース240を介して、サーバ100から、選択されたコンテンツを受信する。

0025

次に、観測端末300を説明する。観測端末300は、プロセッサ310、メモリデバイス320、カメラ330、通信インタフェース340を含む。各構成要素はバスによって互いに接続されている。観測端末300の一例は、高機能カメラシステムであり、画像処理技術を記録された視聴者の映像に適用して、観測結果から情報を抽出する。

0026

観測端末300は、高機能カメラシステムに限定されず、表示されたコンテンツに対する視聴者の反応を捉えることができればよい。例えば、観測端末300は、表示端末200に対する視聴者の入力(例えばタッチパネルでの選択)、視聴者が保持するスマートフォンから得られた情報、等の情報を使用できる。

0027

プロセッサ310は、メモリデバイス320に格納されたプログラムに従って、様々な演算処理を実行する。メモリデバイス320は記憶装置であって、反応認識プログラム321を格納する。反応認識プログラム321は、カメラ330により補足された画像データを介して、公知の画像処理技術により、視聴者の反応を抽出する。反応の情報は、サーバ100に、通信インタフェース340を介して送信される。通信インタフェース340は、観測端末300をネットワーク150に接続する。

0028

次に、サーバ100を説明する。サーバ100は、プロセッサ110、メモリデバイス120、補助記憶デバイス130、通信インタフェース140を含む。構成要素はバスで接続されている。通信インタフェース140は、サーバ100をネットワーク150に接続する。メモリデバイス120、補助記憶デバイス130又はこれらの組み合わせは、記憶装置である。

0029

プロセッサ110は、メモリデバイス120が格納するプログラムに従って、様々な演算処理を実行する。メモリデバイス120は、行動選択プログラム121、Q値更新プログラム122、行動類似性計算プログラム123、報酬計算プログラム124、を格納する。一意のコンテンツの選択は、一意の行動と考えられる。従って、コンテンツの選択は、行動の選択と言える。

0030

行動選択プログラム121は、εパラメータを有する。行動選択プログラム121は、表示端末200に送信して視聴者に表示するための行動(コンテンツ)を選択する二つのストラテジを有する。行動選択プログラム121は、εパラメータの値(0〜1)に基づいて、ストラテジを選択する。一方のストラテジは、Q値と独立に、行動データベースから行動を選択する。本実施例はランダムに行動を選択する。もう一方のストラテジは、Q値データベース133において最も高いQ値の行動を選択する。

0031

Q値更新プログラム122は、Q値データベース133の更新において、Q値計算式と、行動類似性計算プログラム123の出力と、を使用する。行動類似性計算プログラム123は、選択された行動(コンテンツ)と他の残りの行動(コンテンツ)との間の類似性を、行動特徴量DB132に基づいて比較する。報酬計算プログラム124は、観測端末300から受信した、表示されたコンテンツに対する視聴者の反応に関する情報に基づいて、報酬値を計算する。

0032

補助記憶デバイス130は、例えば不揮発性記憶媒体を含み、行動データベース131、行動特徴量データベース132、Q値データベース133を格納する。行動データベース131は、視聴者に推奨するために使用される(表示される)コンテンツを集めたものである。そのデータサイズは、通常大きなものであり、多くのコンテンツが含まれる。行動データベース131の構成例は、後に、図3を参照して詳述される。

0033

行動特徴量データベース132は、各コンテンツの特徴量情報を格納しており、特徴量の組み合わせは、一意のコンテンツを示す。行動特徴量データベース132の構成例は、後に、図4を参照して詳述される。

0034

Q値データベース133は、状態及び行動のペアと関連付けられる、総計Q値と部分Q値とを格納する。定義される状態の例は、「コンテンツ表示の開始」(0)と「コンテンツ表示の終了」(1)、である。「コンテンツ表示の開始」(0)と「コンテンツ表示の終了」(1)は、「コンテンツ表示の開始」及び「コンテンツ表示の終了」の状態が、0及び1で表わされることを示す。

0035

一つの行動は、行動データベース131からの一意のコンテンツの選択又は表示であり、一つの行動は一つのコンテンツに対応する。総計Q値は、状態と行動のペアの評価値であり、つまり、ある状態で表示するコンテンツの評価値である。総計Q値が高い程、そのコンテンツを視聴者に対して表示することがより適切であることを意味する。

0036

部分Q値は、コンテンツの特徴量に対して与えられる。部分Q値と総計Q値との関係は予め定義されている。なお、部分Q値は使用しなくてもよく、部分Q値の定義によっては、Q値データベース133に格納されていなくてもよい。部分Q値、部分Q値と総計Q値との関係の詳細は後述される。Q値データベース133の構成例は、後に、図5を参照して詳述される。

0037

図2は、実施例1に係る情報レコメントシステムの機能ブロック図を示す。例えば、観測端末300の不図示のプログラムが、画像データから、表示端末200に近づいている潜在的視聴者を検知すると、それを行動選択部1210に通知する。行動選択部1210は、状態が、「コンテンツ表示の終了」(1)から「コンテンツ表示の開始」(0)に変化したと判定する。

0038

行動選択部1210は、ランダムに、又は、Q値データベース133における最高Q値に基づいて、行動データベース131からコンテンツを選択する。行動選択部1210は、行動選択プログラム121を実行するプロセッサ110により実現される。コンテンツデータは、コンテンツ表示部2210に送信される。行動選択部1210の処理フローは、後に、図6を参照して詳述される。

0039

コンテンツ表示部2210は、行動選択部1210からコンテンツデータを受信し、画面において視聴者にコンテンツを可視化する。コンテンツ表示部2210は、コンテンツ表示プログラム221を実行するプロセッサ210により実現される。

0040

コンテンツが視聴者に表示された後、視聴者が表示されたコンテンツに対して反応する。視聴者は、推奨されているコンテンツを気に入り、推奨されているコンテンツに従って行動を起こすことを決定するかもしれない。または、視聴者は、推奨されているコンテンツを気に入らず、推奨されているコンテンツに対して何も行動を起こさないかもしれない。

0041

例えば、コメディのコンテンツが視聴者に表示された場合、視聴者が気に入れば、視聴者は微笑むであろうし、そうでばければ、微笑まないであろう。画面に表示されたポスタによって視聴者に行先が推奨される場合、視聴者が気に入れば、推奨された場所に行くであろうし、そうでないならば、推奨された場所に行かないであろう。

0042

反応認識部3110は、そのような視聴者からの反応を認識することができる。例えば、反応認識部3110は、視聴者の画像データに対して公知の画像処理を行うことで、視聴者の動作を特定し、当該動作から視聴者のコンテンツへの興味の有無を判定する。または、反応認識部3110は、視聴者のスマートフォンから取得した情報から、視聴者が訪れた場所の情報を取得する。

0043

反応認識部3110は、反応認識プログラム321を実行するプロセッサ310により実現される。反応認識部3110が取得する情報は、例えば、コンテンツを視聴している視聴者の数、そのコンテンツを気に入った視聴者の数、そのコンテンツが気に入らない視聴者の数、等である。なお、これらに限定はされない。反応認識部3110が取得する情報は、報酬計算部1240に送信される。

0044

報酬計算部1240は、反応認識部3210から、表示されたコンテンツを見た視聴者の反応についての情報データを受信する。報酬計算部1240は、受信したデータを変換して、表示されたコンテンツがどれほど有効であるかを決定するための、報酬と呼ばれる一つのメトリックを生成する。

0045

変換の一例は、視聴者の総数に対する、ポジティブな反応を示した者の比である。報酬rは、0から1の範囲の値を有する。なお、これは一例であって、報酬rの決定方法はこれに限定されるものではない。また、報酬計算部1240が、反応認識部3210からデータを受信することは、システムが視聴者から反応を得たことを示し、システムは、状態を「コンテンツ表示の開始」(0)から「コンテンツ表示の終了」(1)に変更する。

0046

行動類似性計算部1230は、表示されたコンテンツと、行動特徴量データベース132における残りのコンテンツとを、比較する。行動類似性計算部1230は、プロセッサ110が行動類似性計算プログラム123を実行することで実現される。各コンテンツにおける特徴量の値を比較することによって、行動類似性計算部1230は、表示されたコンテンツに類似するコンテンツを見出すことができる。

0047

例えば、行動類似性計算部1230は、規定数(例えば一つ)以上の特徴量の値が同一である場合に、二つのコンテンツが類似していると判定する。これにより、簡便かつ適切に類似コンテンツを見る蹴ることができる。行動類似性計算部1230は、行動特徴量データベース132を参照して、表示されたコンテンツに対して、各類似コンテンツのどの特徴量が同一であるか、特定することができる。行動類似性計算部1230の処理フローは、後に、図7を参照して詳述される。

0048

Q値更新部1220は、Q値データベース133における総計Q値及び部分Q値を更新する。Q値更新部1220は、Q値更新プログラム122を実行するプロセッサ110により実現される。視聴者に対して表示されたコンテンツの総計Q値は、次の式に従って更新できる。

0049

0050

ここで、Qtotal(s、a)は、表示されたコンテンツの総計Q値である。sは、現在の状態であり、視聴者にコンテンツが表示されている場合、その状態は、「コンテンツ表示の開始」(0)である。aは現在の行動(コンテンツ)である。αは、学習レートである。0から1の値を取り、システムが、どの程度、最新の情報から学習すべきかを示す。この値は、システム設計者によって、システムに応じて予め設定される。一般に、最初の行動において1に設定され、その後、0.5が選択される。

0051

rは表示されたコンテンツに対する視聴者の反応から計算される報酬である。γは、ディスクカウントファクタである。0から1の値を取り、より先の未来における報酬よりも、より近い未来における報酬対してより多くの重みを与える。この値は、システム設計者によって、システムに応じて予め設定される。一般に、1に設定される。

0052

s’は次の状態であり、a’は、次の状態における行動(次の行動)である。maxa’Qtotal(s’,a’)は、次の状態s’において最も高い総計Q値のコンテンツ(行動)a’を選択した場合の総計Q値である。「コンテンツ表示の開始」(0)と「コンテンツ表示の終了」(1)が定義されている例において、「コンテンツ表示の開始」(0)の次の状態は「コンテンツ表示の終了」(1)である。

0053

以下に記載する例において、状態「コンテンツ表示の終了」(1)における全ての総計Q値は0である。つまり、maxa’Qtotal(s’,a’)は0である。例えば、状態「コンテンツ表示の終了」(1)に対して、数式(1)は適用されない、又は、γが0である。状態「コンテンツ表示の終了」(1)において視聴者が存在しないため、報酬rは0である。

0054

上述のように、視聴者は、コンテンツ全体に対して反応を示し、その反応に対する報酬rに基づいて、総計Q値が更新される。表示するコンテンツは、総計Q値に基づいて選択される。コンテンツが初めて表示されるとき、表示されたコンテンツに類似するコンテンツとして、更新前の総計Q値が初期値から更新されていることがある。この場合、更新前の総計Q値が維持される、又は、初期値にリセットされてもよい。類似コンテンツとしてのQ値を維持することで、これまでの学習を利用することができる。リセットすることで、当該コンテンツに対する実際の視聴者の反応に応じたQ値を得ることができる。

0055

次に、一つの特徴に対して与えれる部分Q値は、次の式で決定される。

0056

0057

ここで、kは、各行動(コンテンツ)における特徴量の数である。視聴者は、コンテンツ全体に対して反応を示すため、総計Q値が特徴量それぞれに等分に割り当てられる。異なる特徴量に対して異なる部分Q値が割り当てられてもよい。表示されたコンテンツの総計Q値から部分Q値を決定することで、適切に部分Q値を決定できる。

0058

次に、表示されたコンテンツに類似するコンテンツの総計Q値と部分Q値の更新で使用される数式を説明する。類似コンテンツの部分Q値は、次の式に従って更新される。更新される部分Q値は、表示されたコンテンツと類似するコンテンツとの間において類似する特徴量の部分Q値である。本例においては、表示コンテンツと類似コンテンツとにおいて、同一の値を有する特徴量の部分Q値が更新される。

0059

0060

Q’feature(s,asimilar)は、類似コンテンツの一つの特徴量に対する部分Q値である。asimilarは、表示されたコンテンツに類似するコンテンツ(行動)である。表示コンテンツの部分Q値(Qfeature)の値は、視聴者の反応に応じた更新後の値である。

0061

maxa’Q’feature(s’,a’)は、次の状態s’において、当該特徴量の値が同一であるコンテンツ(類似するコンテンツ)(行動)の内、最も高い部分Q値(最も高い部分Q値のコンテンツ(行動)を選択した場合の部分Q値)である。上述のように、以下に記載する例において、この値は0である。

0062

類似コンテンツの総計Q値は、次の数式に従って更新される。

0063

0064

Qfeature_iは、特徴量iの部分Q値である。数式(4)において、各部分Q値に重み係数が与えられてもよい。数式(3)が示すように、類似するコンテンツの特徴量の部分Q値は、表示コンテンツの同一特徴量の部分Q値に基づき更新される。数式(4)が示すように、類似するコンテンツの総計Q値は、更新された部分Q値に基づき更新される。特徴量単位で類似コンテンツのQ値を更新することで、表示コンテンツと類似コンテンツとの間の類似度に応じて類似コンテンツの総計Q値を更新することができる。

0065

Q値更新部1220は、他の方法によって、類似するコンテンツの総計Q値を更新してもよい。例えば、Q値更新部1220は、類似するコンテンツにおける、表示されたコンテンツと同一の特徴量の数(割合)と、表示されたコンテンツの更新された総計Q値に基づき、類似するコンテンツの総計Q値を更新してもよい。

0066

Q値を更新した後、状態が「コンテンツ表示の開始」(1)に切り替わると、行動選択部1210が呼び出される。Q値更新部1220の処理フローは、後に、図8を参照して詳述する。

0067

図3は、実施例1に係る行動データベース131の構成例を示す。行動データベース131は、行動IDカラム301、コンテンツ名カラム302、表示コンテンツカラム303を有する。

0068

行動IDカラム301は、表示されるコンテンツを一意に同定する整数を示す。コンテンツ名カラム302は、表示されるコンテンツの名前を示す。例えば、東京タワーや、明示神と言った名称である。表示コンテンツカラム303は、例えば、視聴者に表示される実際の画像を格納する、又は、画像ファイル格納位置パス)を示す。これにより、コンテンツ表示プログラム221は、関連するコンテンツを認識し、表示できる。

0069

図4は、実施例1に係る行動特徴量データベース132の構成例を示す。行動特徴量データベース132は、行動IDカラム401、特徴量1カラム402、特徴量2カラム403、特徴量3カラム404を有する。

0070

行動IDカラム401は、行動データベース131の行動IDカラム301の値と関連付けられている、整数を示す。特徴量1カラム402は、例えば、表示されるコンテンツの画像についての特徴量であり、例えば、画像における対象の種類を示す。特徴量2カラム403は、例えば、表示されるコンテンツにおけるテキストを示す。特徴量3カラム404は、例えば、表示されるコンテンツにおける主題の時間を示す。

0071

特徴量の値は、例えば、数値コード又は文字列で示すことができる。コンテンツが同一の値を有するか比較できれば、どのようなタイプの値でもよい。コンテンツを正確に記述できれば、特徴量の数や種類は限定されない。

0072

図5は、実施例1に係るQ値データベース133の構成例を示す。Q値データベース133は、状態IDカラム501、行動IDカラム502、部分Q1カラム503、部分Q2カラム504、部分Q3カラム505、総計Qカラム506、を有する。

0073

状態IDカラム501は、システム状態を示す。「コンテンツ表示の開始」(0)と、「コンテンツ表示の終了」(1)が定義されている。状態の数及び種類は、設計や表示するコンテンツに依存する。例えば、レストラン日替わりメニューが表示コンテンツである場合、状態は曜日を示すことができる。行動IDカラム502は、行動データベース131における行動ID301と関連付けられている整数を示す。

0074

部分Q1カラム503は、行動特徴量データベース132における特徴量1と関連付けられている部分Q値を示す。部分Q2カラム504は、行動特徴量データベース132における特徴量2と関連付けられている部分Q値を示す。部分Q3カラム505は、行動特徴量データベース132における特徴量3と関連付けられている部分Q値を示す。総計Qカラム506は、関連付けられている状態及び行動の総計Q値を示す。システム動作開始時(学習開始時)、いずれの行動も選択されておらず、全ての総計Q値と全ての部分Q値は、0に初期化されている。

0075

なお、Q値データベース133は、各レコード(状態IDと行動IDのペア)が選択済み表示済み)か示す情報を保持してもよい。例えば、Q値データベース133は、各レコードが選択済みフラグを格納するカラムをさらに有してもよい。

0076

図6は、実施例1に係る行動選択部1210のフローチャートを示す。状態の変化に応じて、行動選択処理が開始される。行動選択処理は、Q学習モデルに従い、サーバ100のプロセッサ110により実行される。まず、プロセッサ110は、0から1の範囲おいてランダム数を生成する(S601)。

0077

プロセッサ110は、ランダム数をεと比較する(S602)。εは、システム設計者により、システムに応じて予め設定されたパラメータである。εは、システムが、最善行動を利用する(Exploit)よりも、いくつかの行動を探索する(Explore)割合を示す。例えば、εは0.5に設定され、50%の割合(確率)で探索がなされ、50%の割合(確率)で最善行動が利用される。

0078

テップS602の処理により、ランダム数がεより大きいと判定されると(S602:YES)、プロセッサ110は、Q値データベース133において、システムの状態と同一の状態において最も高い総計Q値を、検索する。最も高い総計Q値に関連付けられている行動IDが、選択される(S604)。複数の行動IDが最も高い総計Q値に関連付けられている場合は、例えば、その中からランダムに一つが選択される。

0079

一方、ステップS602の処理により、ランダム数がεより大きくないと判定されると(S602:NO)、プロセッサ110は、ランダムに、行動IDを行動データベース131から選択する(S603)。

0080

次に、ステップS603又はS604において行動IDを選択した後、プロセッサ110は、行動データベース131から、表示するコンテンツを、選択した行動IDに基づいて読み出す(S605)。最後に、プロセッサ110は、表示端末200に、表示するコンテンツのデータを送信して、その表示を要求する(S606)。以上により、行動選択処理が終了する。上記説明から理解されるように、「コンテンツ表示の終了」(1)の状態においては、ランダムにコンテンツが選択される。

0081

図7は、実施例1に係る行動類似性計算部1230のフローチャートを示す。行動類似性計算処理は、サーバ100のプロセッサ110により実行される。まず、行動選択部1210により選択された行動ID(そのコンテンツは表示端末200により表示されている)は、基準行動として設定される(S701)。この後のステップにおける全ての比較は、この基準行動に対して行われる。

0082

次に、プロセッサ110は、行動特徴量データベース132における各行動をチェックするループを形成する(S702)。ただし、基準行動は除かれる。行動を検査するため、プロセッサ110は、検査されている行動に属する特徴量それぞれをチェックするもう一つのループを形成する(S703)。

0083

プロセッサ110は、検査されている行動の検査されている特徴量の値が、基準行動の特徴量の値と同一であるか判定する(S704)。例えば、基準行動が行動ID「1」を有し、検査されている行動が行動ID「2」を有するとする。行動ID「1」の特徴量1の値が、行動ID「2」の特徴量1の値と比較され、それらが同一であるか判定される。例えば、双方の特徴量1が同一の「タワー」(図4の例を参照)を有する場合、それらは同一の値を有していると判定される。

0084

検査対象の行動と基準行動とが、特徴量の同一の値を有していると、ステップS704で判定されると(S704:YES)、プロセッサ110は、検査対象の行動が、基準行動に類似していると判定し(S705)、同一値の特徴量を類似行動のリストに記録する(メモリデバイス120に格納する)(S706)。

0085

検査対象行動と基準行動の特徴量が同一値を有していないと、ステップS704で判定されると(S704:NO)、プロセッサ110は、何も記録せず、検査対象行動の、全ての特徴量を検査したか判定する(S707)。検査対象行動の全ての特徴量の検査が終了していないと、ステップS707で判定されると(S707:NO)、プロセッサ110は、次の特徴量のために、ステップS703に戻る。

0086

検査対象行動の全ての特徴量の検査が終了していると、ステップS707で判定されると(S707:YES)、プロセッサ110は、全ての行動の検査を終了したか判定する(S708)ステップS708において、全ての行動の検査は終了していないと判定されると(S708:NO)、プロセッサ110は、次の行動のために、ステップS702に戻る。ステップS708において、全ての行動の検査が終了していると判定されると(S708:YES)、プロセッサ110は、行動類似性計算処理を終了する。

0087

上記処理においては、表示されているコンテンツと少なくとも一つの特徴量の値が同一であるコンテンツが、類似コンテンツと判定される。2以上の特徴量が同一値であることが類似と判定される条件でもよく、特徴量に重みがつけられており、重みの総計に基づいて類似が判定されてもよい。

0088

図8は、実施例1に係るQ値更新部1220のフローチャートを示す。Q値更新処理は、サーバ100のプロセッサ110により実行される。プロセッサ110は、まず、選択されている行動(コンテンツ)の総計Q値を、数式(1)に従って計算し、Q値データベース133を更新する(S801)。選択されている行動のコンテンツが表示端末200において表示され、観測端末300から応答が得られている。次に、プロセッサ110は、選択されている行動の部分Q値を、数式(2)に従って計算し、Q値データベース133を更新する(S802)。

0089

次に、プロセッサ110は、行動類似性計算部1230により類似する行動が検出されているか判定する(S803)。ステップS803において、行動類似性計算部1230により類似する行動が検出されていないと判定されると(S803:NO)、プロセッサ110は、Q値更新処理を終了する。

0090

ステップS803において、行動類似性計算部1230により少なくとも一つの類似する行動が検出されたと判定されると(S803:YES)、プロセッサ110は、類似行動のリストをチェックする。類似行動の内の一つの行動が、過去に選択されたことがある場合、つまり、行動選択部1210に選択され、関連するコンテンツが表示されたことがある場合、プロセッサ110は、その行動を類似行動リストから削除される(S804)。

0091

プロセッサ110は、全ての残っている類似行動の部分Q値を、数式(3)に従って計算し、Q値データベース133を更新する(S805)。最後に、プロセッサ110は、全ての残っている類似行動の総計Q値を、数式(4)に従って計算し、Q値データベース133を更新する(S806)。以上により、Q値更新処理が終了する。

0092

以上のように、本実施例は、表示されたコンテンツのQ値の更新に応じて、表示されたコンテンツの類似するコンテンツのQ値を更新する。これにより、実際に表示されていないコンテンツのQ値を更新することができ、適切なコンテンツを表示するための学習時間を短縮することができる。

0093

図9から11を参照して、実施例2を説明する。以下において、実施例1との相違点を主に説明する。実施例1において、全ての視聴者は、同一の嗜好をもっているとして見なされている。しかし、異なる視聴者のグループは、異なる背景及び異なる嗜好を有している。情報レコメンドシステムが、視聴者の各グループに対して、より適切なコンテンツを提供するために、本実施例は、状態空間を視聴者の特徴量(年齢範囲性別民族等)により表わし、視聴者認識プログラムを観測端末300に実装する。

0094

図9は、実施例2に係る、情報レコメンドシステムの構成例を示す。観測端末300における視聴者認識プログラム332を除き、他の全て構成要素は、実施例1に係るシステムと同様である。観測端末300は、例えば、年齢範囲、性別、民族等の観点から、視聴者の特徴量を認識する。視聴者の一意のグループは、これら特徴量の一意の組み合わせに関連付けられる。

0095

Q値データベース133は、状態IDカラム501において、「コンテンツ表示の開始」と「コンテンツ表示の終了」それぞれに、他の情報を追加して格納する。視聴者認識プログラム332により認識される特徴量は、ベクトルで表わすことができる。例えば、年齢範囲が10から20、男性ラテン系の視聴者のグループは、〔2、1、5〕と表わされる。一方、年齢範囲が20から30、女性ベトナム人の視聴者のグループは、〔3、2、10〕と表わされる。

0096

図10は、実施例2に係る情報レコメンドシステムの機能ブロック図を示す。視聴者認識部3220以外の構成要素は、実施例1と同様である。潜在的視聴者のグループが、表示端末200に近づいているとき、視聴者認識部3220が起動され、画像処理技術により視聴者の映像を解析する。

0097

視聴者認識部3220は、視聴者認識プログラム322を実行するプロセッサ310により実現される。視聴者認識部3220は、視聴者の例えば、年齢範囲、性別、民族を認識し、ベクトルで表わす。システムの状態は、視聴者を認識済みであって、「コンテンツ表示の開始」の状態〔2、1、5、0〕に変化する。最後の数字が、「コンテンツ表示の開始」を示す。

0098

図11は、実施例2に係るQ値データベース133の構成例を示す。状態IDカラム1101が実施例1の図5の状態IDカラム501と異なる点を除き、カラム1102からカラム1106は、図5のカラム502からカラム506と同様である。

0099

実施例1の状態カラムID501は、「コンテンツ表示の開始」又は「コンテンツ表示の終了」の状態を、0又は1で示す。本例の状態IDカラム1101は、視聴者の特徴量について情報を、さらに追加して示す。例えば、状態〔2、1、5、0〕は、「年齢範囲が10から20、男性、ラテン系の視聴者に、コンテンツ表示開始」を示し、状態〔2、1、5、1〕は、「年齢範囲が10から20、男性、ラテン系の視聴者に、コンテンツ表示終了」を示す。

0100

行動選択部1210が、最も高い総計Q値の行動を利用する場合、行動選択部1210は、認識されている視聴者の特徴量と同じベクトルを含む状態IDのみを検索する。上述のように、Q値更新部1220は、Q値データベース133において、状態IDの値が、選択された状態IDの値と同一であって、表示コンテンツと同一又は類似するコンテンツのレコードを更新する。

0101

本例において、Q値更新部1220は、認識された視聴者の特徴量(状態)と関連付けられており、実際に表示されたコンテンツの総計Q値と部分Q値を更新する。Q値更新部1220は、さらに、認識された視聴者の特徴量(状態)と関連付けられており、表示されたコンテンツと類似するコンテンツ(行動)の総計Q値と部分Q値を更新する。

0102

より具体的には、Q値更新部1220は、認識されている視聴者の特徴量を含み「コンテンツ表示の開始」である状態IDと、表示されたコンテンツ(実行された行動)と、のペアの、総計Q値及び部分Q値を更新する。Q値更新部1220は、さらに、当該状態IDと、表示されたコンテンツ(実行された行動)に類似するコンテンツ(行動)と、のペアの、総計Q値及び部分Q値を更新する。

0103

以上のように、本実施例によれば、視聴者の特徴に応じてQ値を管理することで、視聴者に嗜好により合致したコンテンツを表示することができる。

0104

図12から図15を参照して、実施例3を説明する。実施例1において、行動選択部1210が行動を探索する場合、行動データベース131においてランダムに行動が選択される。しかし、ランダムに選択される行動が、最も高いQ値の行動である(最善行動の利用と同じである)可能性がある。または、既に選択済みの行動(表示済みのコンテンツ)である可能性もある。

0105

したがって、情報ゲインに基づいて行動を探索することが学習のために効率的である。なぜなら、これまで未選択の特徴量の値を有する、これまで未選択の行動を選択することで、類似特徴量を有する他の行動についても、より多くの知見を得ることができるからである。

0106

図12は、実施例3に係る情報レコメンドシステムの構成例を示す。情報ゲイン計算プログラム125が追加されている点を除き、実施例1の情報レコメンドシステムの構成と同様である。情報ゲイン計算プログラム125は、どの行動が最も未知の情報を有しているか、計算する。

0107

コンテンツが選択され、視聴者に表示される場合、そのコンテンツの全ての部分Q値が更新され、さらに、類似コンテンツ(類似行動)の多くの部分Q値も更新される。したがって、更新されていない最も多くの部分Q値を有するコンテンツ(行動)が、最も探索すべきコンテンツ(行動)である。そのようなコンテンツ(行動)を探索することで、Q値データベース133は、ランダムに行動を選択する場合より早く、集束する。

0108

図13は、実施例3に係る情報レコメンドシステムの機能ブロック図を示す。情報ゲイン計算部1250が追加されている点を除き、実施例1の機能ブロック図と同様である。行動選択部1210は、情報ゲイン計算部1250の出力、又は、Q値データベース133における最も高いQ値に基づいて、行動データベース131からコンテンツ(行動)を選択する。

0109

情報ゲイン計算部1250は、情報ゲイン計算プログラム125を実行するプロセッサにより実現される。コンテンツデータは、コンテンツ表示部2210に送信される。実施例3に係る行動選択部1210の処理フローは、後に、図14を参照して詳述される。

0110

情報ゲイン計算部1250は、全てのこれまでに未選択の行動について情報ゲインを計算し、最も高い情報ゲインのコンテンツ(行動)を選択して、返す。情報ゲイン計算部1250の処理フローは、後に、図15を参照して詳述される。

0111

図14は、実施例3に係る行動選択部1210のフローチャートを示す。行動選択処理は、サーバ100のプロセッサ110により実行される。まず、プロセッサ110は、0から1の範囲おいてランダム数を生成する(S1401)。ランダム数は、εと比較される(S1402)。εは、システム設計者により予め設定されたパラメータである。εは、システムが、最善行動を利用するよりも、いくつかの行動を探索する割合を示す。例えば、εは0.5に設定され、50%の割合(確率)で探索がなされ、50%の割合(確率)で最善行動が利用される。

0112

ステップS1402の処理により、ランダム数がεより大きいと判定されると(S1402:YES)、プロセッサ110は、Q値データベース133において、システムの状態と同一の状態において最も高い総計Q値を、検索する。最も高い総計Q値に関連付けられている行動IDが、選択される(S1404)。

0113

一方、ステップS1402の処理により、ランダム数がεより大きくないと判定されると(S1402:NO)、プロセッサ110は、情報ゲイン計算プログラム125を呼び出し、最も情報ゲインが高い行動の行動IDを受信する(S1403)。

0114

次に、ステップS1403又はS1404において行動IDを選択した後、プロセッサ110は、行動データベース131から表示するコンテンツを、選択した行動IDに基づいて読み出す(S1405)。最後に、プロセッサ110は、表示端末200に、表示するコンテンツのデータを表示端末200に送信して、その表示を要求する(S1406)。以上により、行動選択処理が終了する。

0115

図15は、実施例3に係る情報ゲイン計算部1250のフローチャートを示す。情報ゲイン計算処理は、サーバ100のプロセッサ110により実行される。まず、プロセッサ110は、これまでに未選択のコンテンツ(行動)のそれぞれおいて、いくつの部分Q値が0と等しいかカウントする(S1501)。0の部分Q値は、その部分Q値が更新されたことがないことを示す。

0116

Q値データベース133は、例えば、各レコード(状態IDと行動IDのペア)が選択済み(表示済み)か示す、ば選択済みフラグをさらに保持する。情報ゲイン計算部1250は、選択済みフラグを参照して、未選択のコンテンツ(行動)を特定できる。フラグは、行動選択部1210により更新される。

0117

カウントが終了すると、プロセッサ110は、最もカウント数が多い行動を決定する(S1502)。最もカウント数が多い行動は、複数の場合もある。次に、プロセッサは、最も高いカウント数の行動が、複数であるか判定する(S1503)。ステップS1503において、最も高いカウント数の行動が、複数であると判定されると(S1503:YES)、プロセッサ110は、最も高いカウント数の複数の行動から、ランダムに選択した行動IDを、行動選択部1210に返す(S1504)。

0118

ステップS1503において、最も高いカウント数の行動が、一つのみであると判定されると(S1503:NO)、プロセッサ110は、最も高いカウント数の行動の行動IDを、行動選択部1210に返す(S1505)。以上により、情報ゲイン計算処理が終了する。以上のように、本実施例によれば、更新度合が最も小さい未選択のコンテンツを選択して表示することで、学習効率を向上することができる。

0119

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

0120

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスクSSD(Solid State Drive)等の記録装置、または、ICカードSDカード等の記録媒体に置くことができる。

実施例

0121

また、制御線情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

0122

100サーバ、110プロセッサ、120メモリデバイス、121行動選択プログラム、122Q値更新プログラム、123行動類似性計算プログラム、124報酬計算プログラム、130補助記憶デバイス、131行動データベース、132行動特徴量データベース、133 Q値データベース、140通信インタフェース、200表示端末、210 プロセッサ、220 メモリデバイス、221コンテンツ表示プログラム、230表示デバイス、240 通信インタフェース、300観測端末、310 プロセッサ、320 メモリデバイス、330カメラ、340 通信インタフェース、1210 行動選択部、1220 Q値更新部、1230 行動類似性計算部、1240 報酬計算部、1250 情報ゲイン計算部、2210コンテンツ表示部、3210 反応認識部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

この 技術と関連性が強い技術

該当するデータがありません

この 技術と関連性が強い法人

該当するデータがありません

この 技術と関連性が強い人物

該当するデータがありません

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ