図面 (/)

技術 コンテンツ推薦装置、及びプログラム

出願人 日本放送協会
発明者 松井淳小早川健山内結子
出願日 2015年1月5日 (5年2ヶ月経過) 出願番号 2015-000334
公開日 2016年7月11日 (3年8ヶ月経過) 公開番号 2016-126567
状態 特許登録済
技術分野 特定用途計算機 検索装置
主要キーワード セレンディピティ サンプル映像 計算機利用 クエリデータ 補助的情報 意味的距離 ハイライト映像 マッチングスコア
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2016年7月11日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

元となる検索語に、その検索語と意味的な関連が深い他の表記語句を加えてコンテンツ検索する。

解決手段

コンテンツ推薦装置の取得部は、検索語のリストを示す一次クエリデータを取得する。検索語候補抽出部は、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する。クエリ拡張部は、検索語候補の語句の中から、一次クエリデータに含まれるいずれかの検索語との類似度所定条件よりも高く、かつ、所定条件よりも高い類似度を得た検索語とは異なる検索語のいずれかとコーパスデータにおいて共起する検索語候補の語句を選択して検索語に追加する。検索部は、一次クエリデータに含まれる検索語と、クエリ拡張部が追加した検索語とを用いてコンテンツを検索する。

概要

背景

テレビ番組などのコンテンツ視聴するためのコンテンツ処理装置には、コンテンツ推薦機能を備えたものが存在する(例えば、特許文献1、特許文献2参照)。このコンテンツ推薦機能によって、ユーザは自分の視聴したいコンテンツを簡便に見つけられるという利点がある。コンテンツ推薦機能は、何らかの手段によって構築したコンテンツ再生環境において、個々のユーザの視聴履歴解析して処理することにより実現される。

例えば、特許文献2のコンテンツ処理装置は、個々のユーザのコンテンツ再生開始時間及びコンテンツ再生終了時間と、視聴したコンテンツを特定するコンテンツIDとからなる視聴ログ情報蓄積する。コンテンツ処理装置は、蓄積した視聴ログ情報の集合の中から、システム設計者があらかじめプログラミングしたヒューリスティックルールを用いて、個々のユーザの嗜好を反映した視聴ログ情報を機械的に抽出する。コンテンツ処理装置は、抽出した視聴ログ情報に対応する言語情報から、個々の視聴行動要因となった話題を表す語句クエリ)を何らかの手段によって取り出す。視聴ログ情報に対応する言語情報は、ユーザが視聴したコンテンツの字幕テキスト、または、視聴したコンテンツに付随する電子番組表EPG:Electronic Program Guide)から得られる番組概要文などのメタデータである。

一方、ツイッターなどの不特定多数のユーザによるソーシャルメディア上での膨大な発言記録を解析するソーシャルデータ・マイニングという技術がある(例えば、非特許文献1参照)。ソーシャルデータ・マイニングでは、世間一般の人々の日々の関心事や、社会生活における多種多様な話題を、具体的な言語表現をともなう形で抽出することが可能である。また、ソーシャルデータにおける発言の対象がどのコンテンツに対して発せられたものであるかを自動的に判定する技術がある(例えば、非特許文献2参照)。

概要

元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索する。コンテンツ推薦装置の取得部は、検索語のリストを示す一次クエリデータを取得する。検索語候補抽出部は、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する。クエリ拡張部は、検索語候補の語句の中から、一次クエリデータに含まれるいずれかの検索語との類似度所定条件よりも高く、かつ、所定条件よりも高い類似度を得た検索語とは異なる検索語のいずれかとコーパスデータにおいて共起する検索語候補の語句を選択して検索語に追加する。検索部は、一次クエリデータに含まれる検索語と、クエリ拡張部が追加した検索語とを用いてコンテンツを検索する。

目的

本発明は、このような事情を考慮してなされたもので、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索することができるコンテンツ推薦装置、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

検索に用いる語句である検索語リストを示す一次クエリデータを取得する取得部と、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出部と、前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張部と、前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張部が追加した前記検索語とを用いてコンテンツを検索する検索部と、を備えることを特徴とするコンテンツ推薦装置

請求項2

前記検索語候補抽出部は、所定期間内の前記コーパスデータから前記検索語候補の語句を抽出する、ことを特徴とする請求項1に記載のコンテンツ推薦装置。

請求項3

前記取得部は、ユーザが視聴したコンテンツに関するテキスト情報から抽出した語句からなる一次クエリデータを取得する、ことを特徴とする請求項1または請求項2に記載のコンテンツ推薦装置。

請求項4

前記取得部は、ユーザが再生したコンテンツの部分に関するテキスト情報から抽出した語句からなる一次クエリデータを取得する、ことを特徴とする請求項1から請求項3のいずれか1項に記載のコンテンツ推薦装置。

請求項5

前記検索語候補抽出部は、前記コーパスデータのタグまたは本文から前記検索語候補の語句を抽出する、ことを特徴とする請求項1から請求項4のいずれか1項に記載のコンテンツ推薦装置。

請求項6

コンピュータを、検索に用いる語句である検索語のリストを示す一次クエリデータを取得する取得手段と、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出手段と、前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度が所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張手段と、前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張手段が追加した前記検索語とを用いてコンテンツを検索する検索手段と、を具備するコンテンツ推薦装置として機能させるためのプログラム

技術分野

0001

本発明は、コンテンツ推薦装置、及びプログラムに関する。

背景技術

0002

テレビ番組などのコンテンツ視聴するためのコンテンツ処理装置には、コンテンツ推薦機能を備えたものが存在する(例えば、特許文献1、特許文献2参照)。このコンテンツ推薦機能によって、ユーザは自分の視聴したいコンテンツを簡便に見つけられるという利点がある。コンテンツ推薦機能は、何らかの手段によって構築したコンテンツ再生環境において、個々のユーザの視聴履歴解析して処理することにより実現される。

0003

例えば、特許文献2のコンテンツ処理装置は、個々のユーザのコンテンツ再生開始時間及びコンテンツ再生終了時間と、視聴したコンテンツを特定するコンテンツIDとからなる視聴ログ情報蓄積する。コンテンツ処理装置は、蓄積した視聴ログ情報の集合の中から、システム設計者があらかじめプログラミングしたヒューリスティックルールを用いて、個々のユーザの嗜好を反映した視聴ログ情報を機械的に抽出する。コンテンツ処理装置は、抽出した視聴ログ情報に対応する言語情報から、個々の視聴行動要因となった話題を表す語句クエリ)を何らかの手段によって取り出す。視聴ログ情報に対応する言語情報は、ユーザが視聴したコンテンツの字幕テキスト、または、視聴したコンテンツに付随する電子番組表EPG:Electronic Program Guide)から得られる番組概要文などのメタデータである。

0004

一方、ツイッターなどの不特定多数のユーザによるソーシャルメディア上での膨大な発言記録を解析するソーシャルデータ・マイニングという技術がある(例えば、非特許文献1参照)。ソーシャルデータ・マイニングでは、世間一般の人々の日々の関心事や、社会生活における多種多様な話題を、具体的な言語表現をともなう形で抽出することが可能である。また、ソーシャルデータにおける発言の対象がどのコンテンツに対して発せられたものであるかを自動的に判定する技術がある(例えば、非特許文献2参照)。

0005

特開2005-348253号公報
特開2012-065119号公報

先行技術

0006

M. A. Russell,「入門ソーシャルデータデータマイニング分析可視化テクニック」,オライリー・ジャパン,2011年
平野真理子、神戸喬輔、小早川健,「ツイート対象番組自動検出網羅的・継続的な検出のために—」,2013年映像情報メディア学会冬季大会講演予稿集,一般社団法人映像情報メディア学会,2013年,3−7

発明が解決しようとする課題

0007

コンテンツ検索の条件として用いる語句の集合であるクエリの設定においては、表記多様性を考慮する必要がある。これは、ある特定の話題を表すクエリは唯一の表記をとるとは限らないためである。例えば、「サッカー」と「フットボール」は多くの文脈において同一の球技種目指し示す。同じ話題を表す異なる表記のうち、いずれか一方の表記のみをクエリとして設定した場合には、他方の表記によって記述されたコンテンツを検索することは原理的には困難である。そこで、コンテンツの検索を行う装置において、表層的な表記(記述)は異なるものの、指し示す内容がユーザの意図するコンテンツの内容と合致していると想定される語句をクエリに用いることもある。しかし、装置が想定した語句が、ユーザの意図するコンテンツの内容と異なっていれば、その想定した語句をクエリに用いても、ユーザの意図に該当するコンテンツを正しく特定することは原理的に困難である。結果、ユーザに提示すべきコンテンツの一部あるは大部分が推薦リストから欠落する危険性が生じる。

0008

上述したように、コンテンツ推薦に用いるクエリは、表記の多様性を考慮した上で設定されなければならない。しかし、クエリの表記の多様性を、いかにしてクエリの設定の手順に組み込むかという技術的課題に対して、特許文献1、2は何ら具体的な解決方法を示していない。

0009

一方、非特許文献1の技術によれば、ソーシャルデータ・マイニングによって、世間一般の人々の日々の関心事や、社会生活における多種多様な話題を、具体的な言語表現をともなう形で抽出することが可能である。このように抽出された言語的表現は、コンテンツの検索を行う際のクエリに追加すべき検索語の候補となる。また、非特許文献2の技術では、発言の対象がどのコンテンツに対して発せられたものであるかを自動的に判定している。コンテンツ・サービスを対象としたコンテンツ推薦において、このような技術を、多様性を考慮したクエリ拡張を実現するために利用することが期待される。しかしながら、非特許文献1に記載されたソーシャルデータ・マイニングの技術、及び、非特許文献2に記載されたツイートの対象コンテンツ自動判定の技術は、クエリとなる任意の語句と意味的に関連がある他の語句を特定する具体的手段を定めていない。

0010

本発明は、このような事情を考慮してなされたもので、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索することができるコンテンツ推薦装置、及びプログラムを提供する。

課題を解決するための手段

0011

本発明の一態様は、検索に用いる語句である検索語のリストを示す一次クエリデータを取得する取得部と、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出部と、前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張部と、前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張部が追加した前記検索語とを用いてコンテンツを検索する検索部と、を備えることを特徴とするコンテンツ推薦装置である。
この発明によれば、コンテンツ推薦装置は、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補となる語句を取得する。コンテンツ推薦装置は、検索語候補の語句の中から、元の検索語との類似度が所定条件よりも高く、かつ、類似度が所定条件よりも高いと判断したときに用いた元の検索語とは異なる元の検索語とコーパスデータにおいて共起する語句を、検索語に追加する。コンテンツ推薦装置は、元の検索語と追加した検索語とを用いてコンテンツを検索する。
これにより、コンテンツ推薦装置は、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索し、推薦することができる。

0012

本発明の一態様は、上述したコンテンツ推薦装置であって、前記検索語候補抽出部は、所定期間内の前記コーパスデータから前記検索語候補の語句を抽出する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、所定期間のコーパスデータから抽出した検索語候補の語句の中から検索語として追加する語句を選択する。
これにより、コンテンツ推薦装置は、元となる検索語に、その検索語と意味的な関連が深く、時事性を反映した他の表記の語句を加えてコンテンツを検索し、推薦することができる。

0013

本発明の一態様は、上述したコンテンツ推薦装置であって、前記取得部は、ユーザが視聴したコンテンツに関するテキスト情報から抽出した語句からなる一次クエリデータを取得する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、ユーザが視聴したコンテンツの履歴に基づいて、ユーザの嗜好を表す元の検索語を取得する。
これにより、コンテンツ推薦装置は、ユーザが視聴したコンテンツの履歴から、ユーザの嗜好に合った他のコンテンツを検索し、提示することができる。

0014

本発明の一態様は、上述したコンテンツ推薦装置であって、前記取得部は、ユーザが再生したコンテンツの部分に関するテキスト情報から抽出した語句からなる一次クエリデータを取得する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、ユーザが再生したコンテンツの部分の内容を表すテキスト情報から検索語を取得する。
これにより、コンテンツ推薦装置は、ユーザの嗜好をよく表した検索語を取得することができるため、ユーザの求める内容により則したコンテンツを推薦することができる。

0015

本発明の一態様は、上述したコンテンツ推薦装置であって、前記検索語候補抽出部は、前記コーパスデータのタグまたは本文から前記検索語候補の語句を抽出する、ことを特徴とする。
この発明によれば、コンテンツ推薦装置は、コーパスデータのタグまたは本文から検索語候補となる語句を抽出する。
これにより、コンテンツ推薦装置は、コーパスデータに含まれるタグを利用することにより、処理の負荷を抑えつつ、コーパスデータの本文の内容を良く表した語句を検索語候補として抽出することができる。また、コンテンツ推薦装置は、タグが利用できない場合でも、コーパスデータの本文の内容から検索語候補の語句を抽出することができる。

0016

本発明の一態様は、コンピュータを、検索に用いる語句である検索語のリストを示す一次クエリデータを取得する取得手段と、同一の話題が異なる表記により記述され得る複数のコーパスデータから検索語候補の語句を抽出する検索語候補抽出手段と、前記検索語候補の語句の中から、前記一次クエリデータに含まれるいずれかの前記検索語との類似度が所定条件よりも高く、かつ、前記所定条件よりも高い前記類似度を得た前記検索語とは異なる前記検索語のいずれかと前記コーパスデータにおいて共起する検索語候補の語句を選択して前記検索語に追加するクエリ拡張手段と、前記一次クエリデータに含まれる前記検索語と、前記クエリ拡張手段が追加した前記検索語とを用いてコンテンツを検索する検索手段と、を具備するコンテンツ推薦装置として機能させるためのプログラムである。

発明の効果

0017

本発明によれば、元となる検索語に、その検索語と意味的な関連が深い他の表記の語句を加えてコンテンツを検索することができる。

図面の簡単な説明

0018

本発明の一実施形態によるコンテンツ推薦システムの構成を示す機能ブロック図である。
同実施形態のコンテンツ推薦装置によるコンテンツ推薦処理の処理フローを示す図である。
同実施形態の視聴履歴解析部による一次クエリ生成処理の処理フローを示す図である。
同実施形態のクエリ拡張部による二次クエリ選定処理の処理フローを示す図である。
同実施形態の推薦リスト生成部による推薦コンテンツ選択処理の処理フローを示す図である。
同実施形態の視聴履歴記録部が出力するユーザ視聴履歴情報の例を示す図である。
同実施形態の未視聴コンテンツ情報記録部が出力する未視聴コンテンツ情報の例を示す図である。
同実施形態の視聴履歴解析部が出力する一次クエリデータの例を示す図である。
同実施形態のソーシャルデータ記録部が保存するソーシャルデータの例を示す図である。
同実施形態のソーシャルデータ解析部が出力する二次クエリ候補リストデータの例を示す図である。
同実施形態のクエリ拡張部が生成する拡張クエリデータの例を示す図である。
同実施形態の拡張クエリと未視聴コンテンツ情報との関係を示す図である。
同実施形態の推薦リスト生成部が出力する推薦コンテンツリストデータの例を示す図である。
同実施形態の推薦コンテンツ提示部がコンテンツ表示装置に表示させる推薦コンテンツ提示画面の例を示す図である。

実施例

0019

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
本実施形態のコンテンツ推薦装置は、ユーザの嗜好をキーワードなどの言語的手段によって記述した検索語の集合を一次クエリとし、一次クエリと内容が関連する他の表記の語句の集合である二次クエリを新たに一次クエリに追加して拡張クエリを生成する。二次クエリは、元の検索語と意味的な関連が深い語句の集合である。すなわち、二次クエリは、ユーザの嗜好を間接的に表現した補助的な検索語の集合である。本実施形態のコンテンツ推薦装置は、生成した拡張クエリを用いて、ユーザに推薦するコンテンツ(以下、「推薦コンテンツ」とも記載する。)を検索する。
このように、本実施形態のコンテンツ推薦装置は、ユーザの嗜好を表す元の検索語と、元の検索語に意味的な関連が深い他の検索語とを併用してユーザに推薦すべきコンテンツを検索する。従って、本実施形態のコンテンツ推薦装置は、ユーザの潜在的な嗜好や話題の関連性を考慮した高度なコンテンツ推薦を可能にする。

0020

また、ユーザの嗜好を構成する個々の概念(すなわち、話題)は、しばしば時事の出来事やその他の社会的情勢に影響され、日々変化すると考えられる。従って、クエリの設定においては、コンテンツ推薦を行う時期に応じた話題の時事性を十分に考慮する必要がある。例えば、芸能の話題や、事件事故ニュースなど、ユーザの興味がごく短期間に限定した一過性の話題にあるときには、ユーザの長期的な嗜好に加えて、ユーザが新たに興味を示す可能性の高い、時事の話題を反映した検索語をクエリに反映させる必要がある。そこで、本実施形態のコンテンツ推薦装置は、推薦コンテンツの検索に用いる上述の拡張クエリを、表記の多様性に加え、時事性をさらに考慮して設定する。これにより、本実施形態のコンテンツ推薦装置は、ユーザの潜在的な嗜好に加え、日々新たに出現する時事の話題をも反映した、ユーザの求める内容により則したコンテンツ推薦を実現することができる。よって、本実施形態のコンテンツ推薦装置は、例えば、スポーツ中継などの専門性が高いコンテンツや、ニュース番組ならびにドキュメンタリー番組などの時事性が高いコンテンツを多く扱う放送サービスなどに好適である。

0021

図1は、本発明の一実施形態によるコンテンツ推薦システムの構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、コンテンツ推薦システムは、コンテンツ推薦装置1とコンテンツ表示装置3とを備えて構成される。コンテンツ推薦装置1とコンテンツ表示装置3とは、IP(Internet Protocol)ネットワークなどのネットワーク9を介して接続される。また、ネットワーク9には、ソーシャルメディアサービス提供装置5が接続される。同図においては、コンテンツ表示装置3及びソーシャルメディアサービス提供装置5をそれぞれ1台のみ示しているが、複数台ずつが存在し得る。

0022

コンテンツ推薦装置1は、例えば、1台以上のコンピュータ装置により実現される。コンテンツ推薦装置1は、視聴履歴記録部11と、未視聴コンテンツ情報記録部12と、視聴履歴解析部13(取得部)と、ソーシャルデータ記録部14と、ソーシャルデータ解析部15(検索語候補抽出部)と、クエリ拡張部16と、推薦リスト生成部17(検索部)と、推薦コンテンツ提示部18と、記憶部19とを備えて構成される。例えば、コンテンツ推薦装置1がネットワークにより接続される複数台のコンピュータ装置により実現される場合、いずれのコンピュータ装置がいずれの機能部を実現するかについては任意とすることができる。

0023

視聴履歴記録部11は、ユーザ視聴履歴情報を取得し、記録する。ユーザ視聴履歴情報は、コンテンツ推薦装置1が処理対象としているコンテンツ・サービスにおいて、ユーザが視聴したコンテンツの履歴を示す。ユーザ視聴履歴情報は、ユーザが視聴したコンテンツの識別情報と、そのコンテンツに関するテキスト情報とを含む。コンテンツは、テレビ番組、動画静止画ウェブページ文書テキスト電子書籍など任意のコンテンツデータとすることができる。例えば、視聴履歴記録部11は、記録するユーザ視聴履歴情報を、コンテンツ表示装置3から受信したコンテンツ視聴情報に基づいて取得する。

0024

未視聴コンテンツ情報記録部12は、未視聴コンテンツ情報を取得し、記録する。未視聴コンテンツ情報は、コンテンツ・サービスにおいてユーザに提供可能なコンテンツのうち、ユーザが未視聴のコンテンツに関するテキスト情報を含む。ユーザが未視聴のコンテンツを、「未視聴コンテンツ」とも記載する。未視聴コンテンツは、テレビ番組、動画、静止画、ウェブページ、文書、テキスト、電子書籍など任意のコンテンツデータとすることができる。

0025

視聴履歴解析部13は、視聴履歴記録部11に記録されているユーザ視聴履歴情報を解析し、一次的な検索語となる語句の集合を示す一次クエリデータを生成する。一次クエリデータが示す語句集合の要素となる語句(検索語)を、「一次クエリの語句」と記載する。

0026

ソーシャルデータ記録部14は、不特定多数の投稿者がソーシャルメディア上に投稿したソーシャルデータをソーシャルメディアサービス提供装置5から取得して記録する。ソーシャルメディアの一例は、ツイッター(Twitter)である。ソーシャルデータは、例えばインターネットによりアクセス可能なソーシャルメディア上で公開されているデータであり、投稿者の発言内容を示すテキスト情報と、発言内容を公開(投稿)した日時の情報とを含む。不特定多数の投稿者の発言内容を示すソーシャルデータでは、同一の話題が異なる表記の語句により記述され得る。

0027

ソーシャルデータ解析部15は、ソーシャルデータ記録部14に記録されているソーシャルデータを解析し、二次クエリ候補の語句の集合を示す二次クエリ候補リストデータを生成する。二次クエリ候補とは、二次クエリの要素とすべき語句の候補である。二次クエリは、一次クエリの語句と意味的な関連が深く、一次クエリに追加する検索語となる語句の集合である。つまり、二次クエリ候補の語句は、検索語候補の語句である。

0028

クエリ拡張部16は、一次クエリデータに含まれる一次クエリの語句と、二次クエリ候補リストデータに含まれる二次クエリ候補の語句とを比較して、二次クエリ候補の語句の中から一次クエリの語句と意味的な関係が深い語句を、二次クエリの語句として抽出する。クエリ拡張部16は、抽出した二次クエリの語句を一次クエリの語句に追加した検索語の集合である拡張クエリデータを生成する。

0029

推薦リスト生成部17は、未視聴コンテンツ情報が示す未視聴コンテンツに関するテキスト情報と、拡張クエリデータとを用いてマッチングスコアを算出する。推薦リスト生成部17は、算出したマッチングスコアに応じて各々の未視聴コンテンツに順位を付け、未視聴コンテンツの中から順位に基づいて推薦コンテンツを選択する。推薦リスト生成部17は、選択した推薦コンテンツを特定する情報を列挙した推薦コンテンツリストデータを生成する。

0030

推薦コンテンツ提示部18は、推薦コンテンツリストデータが示す各々の推薦コンテンツに関する情報を提示する。つまり、推薦コンテンツ提示部18は、推薦コンテンツに関する情報を設定した推薦コンテンツ提示情報を、ユーザのコンテンツ表示装置3に送信して表示させる。

0031

記憶部19は、各コンテンツに関するテキスト情報を記憶する。また、記憶部19は、コンテンツ・サービスにおいて各ユーザに提供可能なコンテンツの情報を記憶する。

0032

コンテンツ表示装置3は、例えば、ユーザのパーソナルコンピュータスマートフォンタブレット端末テレビジョン受信機などである。コンテンツ表示装置3は、操作部31、取得部32、出力部33、通知部34、及び受信部35を備えて構成される。操作部31は、ユーザによる操作を受ける。操作部31は、例えば、キーやボタンマウスタッチパネルに配されたタッチセンサリモートコントローラによる操作を受信する装置である。取得部32は、ユーザが利用可能なコンテンツ・サービスにおいて提供されるコンテンツの中から、操作部31が受けたユーザの操作により選択されたコンテンツを取得する。出力部33は、ディスプレイスピーカーであり、取得部32が取得したコンテンツを出力する。通知部34は、ユーザが視聴したコンテンツを示すコンテンツ視聴情報をコンテンツ推薦装置1に通知する。受信部35は、コンテンツ推薦装置1から推薦コンテンツ提示情報を受信し、出力部33に表示させる。

0033

続いて、コンテンツ推薦装置1の動作を説明する。以下では、コンテンツがテレビ番組である場合を例に説明する。
視聴履歴記録部11は、各々のユーザが過去に視聴したコンテンツの履歴を示すユーザ視聴履歴情報を、ユーザの識別情報であるユーザIDと対応付けて記録している。具体的には、視聴履歴記録部11は、コンテンツ表示装置3の通知部34からユーザが視聴したコンテンツの情報と、ユーザを特定する情報とを設定したコンテンツ視聴情報を受信する。ユーザが視聴したコンテンツは、コンテンツ表示装置3の操作部31が受けたユーザの操作に基づいて取得部32が取得し、出力部33により出力したコンテンツである。視聴履歴記録部11は、受信したコンテンツ視聴情報に基づいて、ユーザが視聴したコンテンツのコンテンツIDと、そのコンテンツの内容を記述したテキスト情報とを含むユーザ視聴履歴情報を、ユーザIDと対応付けて記録する。テキスト情報は、例えば、番組概要文などである。記憶部19は、コンテンツ推薦装置1が受信した放送波から取得した番組概要文を記憶しており、視聴履歴記録部11は、番組概要文を記憶部19から読み出す。

0034

上記のように、視聴履歴記録部11は、ユーザ視聴履歴情報によって、ユーザが視聴したコンテンツの内容を示すテキスト情報を、コンテンツ単位で記録することを基本とする。なお、視聴履歴記録部11は、特許文献2に記載のように、ユーザがコンテンツを視聴したときの細かな操作履歴を詳細に記録した情報をさらにユーザ視聴履歴情報に設定してもよい。この場合、コンテンツ表示装置3の通知部34は、ユーザがコンテンツを視聴したときの操作履歴をさらにコンテンツ推薦装置1に通知する。操作履歴は、例えば、コンテンツの再生開始点及び再生終了点などである。

0035

一方、ソーシャルデータ記録部14は、ネットワーク9を介してソーシャルメディアサービス提供装置5にアクセスする。ソーシャルメディアサービス提供装置5は、不特定多数の投稿者が投稿したソーシャルデータを公開している。ソーシャルデータは、投稿者の発言内容を示すテキスト情報と、そのテキスト情報の投稿日時を示すタイムスタンプとを含む。ソーシャルデータ記録部14は、不特定多数の投稿者が投稿したソーシャルデータをアクセス先のソーシャルメディアサービス提供装置5から取得し、記録する。

0036

なお、ソーシャルデータ記録部14は、取得可能な全てのソーシャルデータを取得することを基本とする。つまり、ソーシャルデータ記録部14は、アクセス可能なソーシャルメディア上の全ての発言記録のデータを収集する。ただし、解析対象のコンテンツを限定したコンテンツ推薦や、時事性をより重視したコンテンツ推薦を実現する用途の場合、ソーシャルデータ記録部14は、収集対象のソーシャルデータを分類し、選別する処理をさらに行ってよい。収集対象のソーシャルデータの分類や選別には、ソーシャルデータの発言対象を自動判定する既存の技術や、発言の日時を特定可能な補助的手段を利用することができる。ソーシャルデータの発言対象を自動判定する技術としては、非特許文献2の技術が利用可能である。また、発言の日時を特定可能な形態でソーシャルデータを網羅的に取得する技術としては、「橋本翔、“tw twitter client on Ruby”、[online]、インターネット<URL:http://shokai.github.io/tw/>」などが利用可能である。これにより、ソーシャルデータ記録部14は、タイムスタンプが所定期間内の投稿日時を示すソーシャルデータを収集する。例えば、最近の話題を反映した場合、ソーシャルデータ記録部14は、例えば、現在から数日、数週間、数か月、あるいは、数年前までの期間のソーシャルデータを収集し、過去の話題を反映したい場合、指定された過去の期間のソーシャルデータを収集する。

0037

図2は、コンテンツ推薦装置1によるコンテンツ推薦処理の処理フローを示す図である。上記の処理により、コンテンツ推薦処理の開始前に、視聴履歴記録部11には、各々のユーザが視聴したコンテンツのコンテンツIDと、そのコンテンツの内容を記述したテキスト情報を含んだユーザ視聴履歴情報が記録されている。コンテンツ推薦装置1は、各ユーザについて、図2に示すコンテンツ推薦処理を実行する。

0038

視聴履歴記録部11は、コンテンツを推薦するユーザのユーザIDが付与されているユーザ視聴履歴情報を未視聴コンテンツ情報記録部12及び視聴履歴解析部13に出力する(ステップS110)。

0039

未視聴コンテンツ情報記録部12は、視聴履歴記録部11から受信したユーザ視聴履歴情報に基づいて、コンテンツを推薦するユーザの未視聴コンテンツを検索する。具体的には、未視聴コンテンツ情報記録部12は、記憶部19に記憶されている各ユーザに提供可能なコンテンツの情報を参照し、ユーザ視聴履歴情報にコンテンツIDが設定されておらず、かつ、ユーザが利用可能なコンテンツを検索し、未視聴コンテンツとする。未視聴コンテンツ情報記録部12は、未視聴コンテンツの内容を記述したテキスト情報を記憶部19から読み出す。テキスト情報は、例えば、番組概要文などであり、コンテンツ推薦装置1が放送波から取得して記憶部19に蓄積しておく。未視聴コンテンツ情報記録部12は、未視聴コンテンツのテキスト情報のリストである未視聴コンテンツ情報を生成する(ステップS110)。

0040

上記により、未視聴コンテンツ情報記録部12は、コンテンツ推薦装置1が処理対象として想定したコンテンツ・サービスにおいてユーザが計算機可読な状態で入手可能な全てのコンテンツの中から、ユーザがまだ視聴していないコンテンツを検索する。入手可能なコンテンツは、例えば、一週間先までの放送予定番組などでもよく、ユーザが契約しているコンテンツ・サービスにおいて現在配信可能なコンテンツなどとしてもよい。なお、ユーザの視聴傾向に明らかな偏りがあることが予めわかっている場合、未視聴コンテンツ情報記録部12は、ジャンルなどのコンテンツの属性により、未視聴コンテンツとして選択する対象を限定する処理を行ってもよい。

0041

視聴履歴解析部13は、視聴履歴記録部11からユーザ視聴履歴情報を受信する。視聴履歴解析部13は、受信したユーザ視聴履歴情報に記述されている各々の視聴済みコンテンツの内容に関するテキスト情報を解析して、一次的な検索語の集合を示す一次クエリデータを生成する(ステップS115)。
具体的には、視聴履歴解析部13は、ユーザ視聴履歴情報に記述されている番組概要文などのテキスト情報を、公知の形態素解析技術を用いて単語単位に分割する。視聴履歴解析部13は、分割されたそれらの単語の中から、形態素解析の結果として各単語に付与された品詞などの情報に基づいて、検索語となる語句(単語)を選定する。例えば、視聴履歴解析部13は、固有名詞(例えば、人名)などの意味的に重要な語句(単語)を検索語として選択する。視聴履歴解析部13は、選択した語句をリストの形式で記述して一次クエリデータとする。

0042

なお、ユーザ視聴履歴情報に操作履歴が設定されている場合、視聴履歴解析部13は、特許文献2に記載のように、ユーザが視聴したコンテンツの再生区間に対応するテキスト情報を形態素解析の対象に限定してもよい。コンテンツの再生区間は、ユーザ視聴履歴情報に設定されている操作履歴が示すコンテンツの再生開始点及び再生終了点により示される。コンテンツの再生区間に対応するテキスト情報は、例えば、その再生区間におけるコンテンツの字幕のデータである。コンテンツ推薦装置1は、放送波から取得した各コンテンツの字幕の情報を記憶部19は蓄積しておき、視聴履歴解析部13は、再生区間におけるコンテンツの字幕のデータを記憶部19から読み出す。

0043

ソーシャルデータ記録部14は、記録したソーシャルデータをソーシャルデータ解析部15に出力する(ステップS120)。時事性を考慮する場合、ソーシャルデータ記録部14は、所定の期間のソーシャルデータをソーシャルデータ解析部15に出力する。また、ソーシャルデータ記録部14は、所定の発言対象のソーシャルデータをソーシャルデータ解析部15に出力してもよい。また、ソーシャルデータ記録部14は、事前にソーシャルデータを収集せず、ステップS115の処理の後にソーシャルデータを収集し、ソーシャルデータ解析部15に出力してもよい。この場合、ソーシャルデータ記録部14は、ステップS115の処理において得られた一次クエリデータを利用してソーシャルデータを取得し、記録してもよい。

0044

ソーシャルデータ解析部15は、ソーシャルデータ記録部14から受信したソーシャルデータを解析し、一次クエリデータに追加する検索語の候補となる二次クエリ候補の語句を抽出する。ソーシャルデータ解析部15は、抽出した二次クエリ候補の語句を設定した二次クエリ候補リストデータを生成する(ステップS125)。

0045

ソーシャルデータ解析部15は、ソーシャルメディアの一つであるツイッターにおけるハッシュタグのように、ソーシャルデータ本体に付与されたラベルが利用可能である場合には、それらラベルの文字列(語句)をそのまま二次クエリ候補の語句として用いることを基本とする。また、ソーシャルデータ解析部15は、ソーシャルデータの本体を視聴履歴解析部13と同様の処理により解析し、固有名詞などの重要な語句をそのソーシャルデータの本体から直接抽出する処理を行ってもよい。ソーシャルデータの本体とは、ソーシャルデータにおいて投稿者の発言内容を文字列で記述した本文のデータである。

0046

ソーシャルデータ解析部15は、取得した二次クエリ候補の各々の語句が、その語句が得られた元のソーシャルデータにおいて二次クエリ候補の他の語句と共起する場合、二次クエリ候補リストデータに、二次クエリ候補の語句に付加して補足情報を記録する。二次クエリ候補の語句の補足情報には、その二次クエリ候補の語句が得られた元のソーシャルデータにおいて共起する二次クエリ候補の他の語句全てが設定される。この補足情報は、次のステップS130の二次クエリ選定処理において利用される。

0047

クエリ拡張部16は、上記により一次クエリデータと二次クエリ候補リストデータの両者が生成された後、二次クエリ候補リストデータに設定されている語句の中から、一次クエリの複数の語句に内容的に何らかの関係が存在する語句を抽出する。さらに、クエリ拡張部16はそれら抽出した二次クエリ候補の語句の中から選択した語句を一次クエリデータに追加し、拡張クエリデータとする(ステップS130)。

0048

そこでまず、クエリ拡張部16は、二次クエリ候補リストデータに設定されている二次クエリ候補の各語句と一次クエリデータに設定されている一次クエリの各語句との類似度を何らかの手段により計算する。クエリ拡張部16は、二次クエリ候補の語句のうち、一次クエリの語句との類似度が所定の閾値を超えた語句に限り、二次クエリとして採用する処理を基本とする。

0049

なお、二次クエリ候補の語句にソーシャルデータにおいて共起した二次クエリ候補の他の語句を記述した補足情報を付加した場合、その補足情報に一次クエリの語句のみを残すようにしてもよい。そして、クエリ拡張部16は、二次クエリ候補の語句と一次クエリの語句の対のうち、その二次クエリ候補の語句の補足情報に対の一方となっている一次クエリの語句以外の語句が設定されていない対については、類似度計算の対象から除外してもよい。この処理を施すことにより、クエリ拡張部16は、少なくとも一次クエリのいずれかの語句と意味的な関係が深く、かつ、少なくともひとつの他の一次クエリの語句との間に何らかの意味的なつながりがあることが保証された語句を抽出することが可能となる。すなわち、単一の一次クエリの語句としか意味的なつながりを持たない語句は二次クエリの候補から除外され、複数の一次クエリの語句と意味的なつながりをもった語句のみが二次クエリの語句として抽出される。

0050

語句間の類似度を定量的に計算する技術としては、多階層神経回路網による意味的距離を反映した単語のベクトル表現の技術(例えば、参考文献1参照)がある。また、単語の文書における出現傾向もとづく特異値の大きさを特徴量の重み付けに用いた単語のクラスタリングの技術(例えば、参考文献2)も利用可能である。しかし、一次クエリデータから取得した任意の語句と、二次クエリ候補リストデータから選んだ任意の語句との対についての意味的な類似度を数値化できる技術であれば、どのような計算方法でもよく、他の技術を用いてもよい。

0051

(参考文献1)西尾泰和,「word2vecによる自然言語処理」,オライリー・ジャパン,2014年5月

0052

(参考文献2)平野真理子、神戸喬輔、小早川健,「大規模データの俯瞰とターゲットデータの抽出に対する文書—単語行列特異値分解と特異値による重み付けの有効性」,言語処理学会,自然言語処理学会論文誌,2013年,Vol.20,no.3,p.335−365

0053

クエリ拡張部16は、一次クエリの各語句と二次クエリ候補の各語句との論理的に可能な全ての対について、上述したように語句間の類似度を計算し、類似度が所定の閾値以上であるという条件を満たす二次クエリ候補の語句を二次クエリ(検索語)の語句として選択することを基本とする。このとき、クエリ拡張部16は、選択した二次クエリの各々の語句(検索語)に、類似度の計算結果の値に基づいて別途算出したスコアを付与してもよい。スコアは、例えば、同一の語句同士の類似度が1となるように、類似度を正規化した値を用いることができる。また、スコアとして類似度自体を用いてもよい。このスコアは、次のステップS135の推薦コンテンツ選択処理において利用される。

0054

推薦リスト生成部17は、未視聴コンテンツ情報記録部12から未視聴コンテンツ情報を読み出す。推薦リスト生成部17は、未視聴コンテンツ情報に記述された未視聴コンテンツのリストの中から、ユーザに提示すべき推薦コンテンツを、拡張クエリデータを用いて選定する。推薦リスト生成部17は、選定した推薦コンテンツを、拡張クエリデータとマッチする順にリストの形式でまとめる。そこで、推薦リスト生成部17は、未視聴コンテンツ情報に設定されている各未視聴コンテンツのテキスト情報と、拡張クエリデータに設定されている一次クエリと二次クエリの各語句(拡張クエリデータの各要素)とのペアについてマッチングスコアを算出する。推薦リスト生成部17は、算出したマッチングスコアに応じて各々の未視聴コンテンツに順位を付け、順位が上位N個(Nは1以上の整数)の未視聴コンテンツのコンテンツIDを列挙したリストを示す推薦コンテンツリストデータを生成する(ステップS135)。

0055

マッチングスコアは、検索語が未視聴コンテンツの内容を記述したテキスト情報に出現した回数などとすることができる。推薦リスト生成部17は、原則として、一次クエリと二次クエリのそれぞれについてのマッチングスコアを同等に扱う方法を基本とする。具体的には、一次クエリの語句(検索語)および二次クエリの語句(検索語)のそれぞれについて独立にマッチングスコアを計算し、それらのマッチングスコアを同等の重みで扱った和(単純和)をとる。なお、推薦リスト生成部17は、後者の二次クエリに対するマッチングスコアに何らかの方法により決定した重みを乗じた上で、前者の一次クエリに対するマッチングスコアに加算する重み付けの処理を別途、追加して行ってもよい。

0056

また、二次クエリのマッチングスコアに重みを乗ずる方法の場合、使用する重みは、ヒューリスティックに定めた経験値に固定する方法の他に、一次クエリと二次クエリとの間の類似度を用いる方法が考えられる。後者のクエリ間の類似度を利用する具体的な方法としては、例えば、二次クエリの各語句に付加されているスコアの平均値を重み(0から1の間の数値を持つ重み)とする。二次クエリの各語句に付加されているスコアは、上述したように、一次クエリの語句との類似度に基づいてクエリ拡張部16が算出したスコアである。推薦コンテンツ提示部18は、二次クエリの各語句のマッチングスコアを合計し、合計したマッチングスコアに類似度に基づくスコアの平均値を乗算した後、一次クエリに対するマッチングスコアと加算する。

0057

最後に、推薦コンテンツ提示部18は、推薦コンテンツリストデータに記載された推薦コンテンツの内容をユーザに提示する。つまり、推薦コンテンツ提示情報は、推薦コンテンツリストデータに記述された各々の推薦コンテンツに関する情報を記憶部19から読み出し、読み出した情報を設定した推薦コンテンツ提示情報を生成する(ステップS140)。推薦コンテンツ提示部18は、生成した推薦コンテンツ提示情報をユーザのコンテンツ表示装置に送信する(ステップS145)。コンテンツ表示装置3の受信部35は、受信した推薦コンテンツ提示情報を出力部33に出力させる。

0058

推薦コンテンツ提示情報は、推薦コンテンツリストデータに記述された各推薦コンテンツを特定するためのテキスト情報である。例えば、推薦コンテンツが放送番組である場合、推薦コンテンツ提示情報には、放送番組の放送日放送開始時刻、番組名などを記述する。また、推薦コンテンツにユーザが直接アクセスするための情報や、推薦コンテンツの映像の一部を切り出したサンプル映像を、記憶部19あるいはネットワークを介して接続されるコンピュータサーバから取得できる場合には、推薦コンテンツ提示部18は、それらの情報を補助的情報としてコンテンツ提示情報に設定してもよい。推薦コンテンツにユーザが直接アクセスするための情報には、例えば、インターネット配信コンテンツのリンク情報を利用することができる。また、サンプル映像には、サムネイル画像ハイライト映像予告動画などを利用することができる。

0059

推薦コンテンツ提示情報の表示形態は、コンピュータ装置の画面一覧表示が可能な、テキストベースの静的な表示形式を基本とする。なお、推薦コンテンツのサンプル映像が利用可能である場合には、それら補助的情報(動画像)を画面上の所定の領域に、推薦コンテンツリストデータに記載された順に提示(動作再生)するなど、視覚的な工夫を別途実装してもよい。

0060

なお、図2の処理において、コンテンツ推薦装置1は、ステップS110の処理、ステップS115の処理、ならびに、ステップS120からステップS125までの処理のうち任意の処理を並行して実行してもよい。

0061

図3は、視聴履歴解析部13による一次クエリ生成処理の処理フローを示す図であり、図2のステップS115における一次クエリ生成処理の詳細を示す。
視聴履歴解析部13は、視聴履歴記録部11からユーザ視聴履歴情報を受信する(ステップS205)。基本の方法では、視聴履歴解析部13は、ユーザ視聴履歴情報から視聴済みコンテンツの内容を表す番組概要などのテキスト情報を取り出す(ステップS210)。別の方法としては、視聴履歴解析部13は、特許文献2に記載された方法のように、ユーザ視聴履歴情報に設定されている視聴コンテンツの再生区間に対応する字幕テキストなどのテキスト情報を記憶部19から取得する。

0062

視聴履歴解析部13は、ステップS210において取り出したテキスト情報に対応した文字列に対して形態素解析の処理を施して、品詞情報が付与された語句(形態素)の列に分解する(ステップS215)。形態素解析の対象となるテキスト情報は、すなわち、視聴コンテンツ全体あるいは視聴コンテンツの再生区間に対応した文字列である。形態素解析の具体的な手段としては、オープンソースの形態素解析ソフトウェアであるMeCabなどの公知の技術が利用可能である。

0063

次に、視聴履歴解析部13は、ステップS215の形態素解析により得られた品詞情報付きの語句の列から、視聴コンテンツ全体、あるいは、視聴コンテンツの再生区間にかかる話題を特定可能な語句を選定する(ステップS220)。例えば、視聴履歴解析部13は、品詞情報に基づいて、人名や組織名、地域名、商品名などの語句のように、指し示す対象物が限定的な名詞(固有名詞)を選定する。最後に、視聴履歴解析部13は、選定した語句をリスト形式にまとめて一次クエリデータとして出力する。

0064

図4は、クエリ拡張部16による二次クエリ選定処理の処理フローを示す図であり、図2のステップS130における二次クエリ選定処理の詳細を示す。ここでは、二次クエリ候補の語句の中から補足情報を利用して二次クエリの語句を選定する処理の例を示す。
まず、クエリ拡張部16は、視聴履歴解析部13から一次クエリデータを受信し、ソーシャルデータ解析部15から二次クエリ候補リストデータを受信する(ステップS305)。次に、クエリ拡張部16は、二次クエリ候補リストデータに記述されたそれぞれの語句について、当該語句が一次クエリデータに記述されている語句であるか否かを判断する。クエリ拡張部16は、二次クエリ候補リストデータに記述されている二次クエリ候補の語句の中から、一次クエリデータに記述されているいずれかの語句と一致する語句を除外する(ステップS310)。

0065

次に、クエリ拡張部16は、ステップS305において一次クエリの語句を除いた二次クエリ候補の語句それぞれについて、補足情報に含まれる語句が、一次クエリデータに記述されている語句であるか否かを判断する。二次クエリ候補の語句に付加されている補足情報は、その二次クエリ候補の語句とソーシャルデータにおいて共起する他の語句を示す。クエリ拡張部16は、補足情報が示す語句の中から、一次クエリデータに記述されている語句のいずれとも一致しない語句を除外する(ステップS315)。これにより、二次クエリ候補の語句の共起の相手の語句から、一次クエリデータに出現しない語句が除外される。

0066

クエリ拡張部16は、ステップS315の処理によって二次クエリ候補の補足情報から一次クエリの語句以外の語句を除いた後、二次クエリ候補リストデータに含まれる各語句と、一次クエリデータに含まれる各語句とのそれぞれを、何らかの手段により単語間の意味的距離を反映したベクトル表現に変換する。クエリ拡張部16は、二次クエリ候補の語句と一次クエリの語句との可能なすべての組み合わせそれぞれについて、何らかの手段により語句間の意味的な類似度を計算する(ステップS320)。類似度を定量的に評価する具体的な方法は、例えば、上述した参考文献1や参考文献2など、任意の既存の方法を使用することができるが、この限りではない。

0067

二次クエリ候補の語句を語句A、語句Aとの類似度を算出する対象の一次クエリの語句を語句Cとする。クエリ拡張部16は、いずれか1以上の一次クエリの語句Cとの類似度が所定の閾値を超えた二次クエリ候補の全ての語句Aについて、類似度が所定の閾値を超えた相手の語句Cを二次クエリ候補リストデータに上書きして保存する。なお、閾値の設定方法は経験的な値に固定する方法が考えられるが、この限りではない。

0068

次に、クエリ拡張部16は、二次クエリ候補リストデータから、二次クエリ候補の語句Aと、その語句Aと類似度が所定の閾値を超える一次クエリの語句Cと、語句Aが共起する一次クエリの語句Bとを読み出す(ステップS325)。語句Aが共起する一次クエリの語句Bは、語句Aの補足情報から読み出される。
クエリ拡張部16は、二次クエリ候補の語句Aのそれぞれについて、語句Aが共起する一次クエリの語句Bと、語句Aとの類似度が所定の閾値を超える一次クエリの語句Cとが同一であるか否かを判断する。クエリ拡張部16は、語句Bと語句Cとが同一である二次クエリ候補の語句Aについては、二次クエリの語句として選択せず、二次クエリ候補リストデータからその語句Aに付加されている補足情報及び語句Cと共に除外する。クエリ拡張部16は、語句Bと語句Cとが異なる二次クエリ候補の語句Aについては、二次クエリ候補リストデータにそのまま残す(ステップS330)。

0069

最後に、クエリ拡張部16は、二次クエリ候補リストデータに残った語句Aを二次クエリとして採用する。すなわち、クエリ拡張部16は、類似度が所定の閾値を超える相手の語句が一次クエリデータに存在し、かつ、その相手の語句が共起相手の一次クエリの語句とは異なる二次クエリ候補の語句を、二次クエリの語句として採用する。クエリ拡張部16は、一次クエリの語句のリストを含む一次クエリデータと、採用した二次クエリの語句のリストとを連結したリストを拡張クエリデータとして出力する(ステップS335)。
拡張クエリデータには、後述する図11の拡張クエリデータの具体例に示すように、先の類似度計算で得られた値(二次クエリの語句と一次クエリの語句との間の類似度)を各々の語句に併記してもよいが、これは必須の処理ではない。

0070

図5は、推薦リスト生成部17による推薦コンテンツ選択処理の処理フローを示す図であり、図3のステップS135における推薦コンテンツ選択処理の詳細を示す。ここでは、二次クエリのマッチングスコアに重み付け処理を行う場合について示す。
まず、推薦リスト生成部17は、未視聴コンテンツ情報記録部12から未視聴コンテンツ情報を受信し、クエリ拡張部16から拡張クエリデータを受信する(ステップS405)。推薦リスト生成部17は、拡張クエリデータの部分集合である一次クエリデータを取得する。推薦リスト生成部17は、未視聴コンテンツ情報のリストに記述されている各コンテンツについて、そのコンテンツのテキスト情報と一次クエリデータに属する一次クエリの語句とのマッチングスコアを計算し、一次スコアとする(ステップS410)。一次スコアを計算する具体的な処理としては、例えば、表記レベルで一次クエリの語句と一致する語句の出現頻度を単純に足し上げ、その出現頻度の合計値をそのまま利用する方法が考えられるが、その限りではない。

0071

次に、推薦リスト生成部17は、拡張クエリデータの残りの部分集合である二次クエリの語句のリストを取得する。推薦リスト生成部17は、未視聴コンテンツ情報のリストに記述されている各コンテンツについて、そのコンテンツのテキスト情報と二次クエリの語句とのマッチングスコアを計算し、二次スコアとする(ステップS415)。二次スコアを計算する具体的な処理としては、先に示した一次スコアの計算方法と同様に、表記レベルで二次クエリの語句と一致する語句の出現頻度の累計値をそのまま用いる方法が考えられるが、その限りではない。

0072

次に、推薦リスト生成部17は、各コンテンツについて算出した一次スコアと二次スコアそれぞれに所定の重みを乗じた後に、それらの和を計算し、その値を当該コンテンツのマッチングスコアとする(ステップS420)。推薦リスト生成部17は、各々の未視聴コンテンツについてのマッチングスコアをすべて計算した後に、マッチングスコアの値に基づいてコンテンツを何らかの手段により並べ替える。未視聴コンテンツのリストの並べ替えの具体的な手段としては、たとえば公知の技術であるUNIX(登録商標コマンドのsortが利用可能であるが、この限りではない。推薦リスト生成部17は、並べ替えたマッチングスコアの上位N個の未視聴コンテンツのコンテンツIDを推薦コンテンツリストデータに格納し出力する(ステップS425)。

0073

続いて、具体的なデータ例を用いてコンテンツ推薦装置1の動作例を説明する。
図6は、視聴履歴記録部11が出力するユーザ視聴履歴情報の具体例を示す図である。ユーザ視聴履歴情報には、ユーザが視聴したコンテンツを特定する情報と、コンテンツの内容を示すテキスト情報とが、コンテンツごとに記述される。解析対象のコンテンツが放送番組である場合、同図に示すように、ユーザ視聴履歴情報には、ユーザが視聴した番組の放送チャンネル名、放送日時、番組名、及び番組概要文が、リスト形式で記述される。なお、これら放送番組に関する各種情報は、SKNET社のMonsterTVなどの商用ソフトウェアを用いることによって、放送波から計算機可読な状態で取得可能である。

0074

図7は、未視聴コンテンツ情報記録部12が出力する未視聴コンテンツ情報の具体例を示す図である。未視聴コンテンツ情報は、ユーザ視聴履歴情報に含まれず、かつ、ユーザが現在および将来において利用可能なコンテンツに関する情報を、ユーザ視聴履歴情報に準ずる形態で記載したものである。解析対象のコンテンツが放送番組である場合、未視聴コンテンツ情報には、コンテンツ推薦処理の開始から一週間先までの放送予定番組それぞれの番組ID、放送チャンネル名、放送日時、番組名、及び番組概要文が、リスト形式で記述される。なお、これら放送予定番組に関する各種情報は、上述したSKNET社のMonsterTVなどの商用ソフトウェアを用いることによって、放送波から計算機可読な状態で取得可能である。

0075

図8は、視聴履歴解析部13が出力する一次クエリデータの具体例を示す図である。一次クエリデータには、ステップS115において、視聴履歴解析部13が、ユーザ視聴履歴情報から抽出した語句である検索語がリスト形式で記載される。同図に示す一次クエリデータは、視聴履歴解析部13が図6に示すユーザ視聴履歴情報から抽出した3つの語句「建築」、「スコトランド」、「政治」からなる検索語の集合を示す。

0076

図9は、ソーシャルデータ記録部14が保存するソーシャルデータの具体例を示す図である。同図に示すソーシャルデータは、ソーシャルデータ記録部14が、ツイッターのツイートログ検索画面に、図8に示す一次クエリデータに含まれる一次クエリの語句「建築」、「スコットランド」、「政治」をそれぞれ検索語として入力して得たツイート内容を示す。各々のエントリにおける括弧内の文字列は、ツイートの発言者発言日時を表す。また、その括弧に続く文字列は、各々のツイートの発言内容を示す。エントリの最後の「#」記号ではじまる文字列は、ツイートの内容を分類するためのラベル(ハッシュタグ)である。

0077

図10は、ソーシャルデータ解析部15が出力する二次クエリ候補リストデータの具体例を示す図である。同図に示す二次クエリ候補リストデータは、ステップS125においてソーシャルデータ解析部15が図9に示したソーシャルデータからハッシュタグを利用して抽出した二次クエリ候補の語句のリストを示す。二次クエリ候補の語句「建築」、「スコットランド」、「グラスゴー」、「狭小」、「ミニマル」、「住民投票」、「政治」、「」のそれぞれの後ろには、その語句がソーシャルデータで共起した他の語句を示す補足情報が括弧書きで記述されている。

0078

クエリ拡張部16は、図4のステップS310の処理において、図10に示す二次クエリ候補リストデータに記述されたそれぞれの語句について、当該語句が一次クエリデータに記述されている語句であるか否かを判断する。クエリ拡張部16は、二次クエリ候補リストデータに記述されている語句の中から、一次クエリデータに含まれる一次クエリの語句「建築」、「スコットランド」、「政治」を除外する。これにより、二次クエリ候補リストデータには、「グラスゴー(建築,スコットランド)」、「狭小(建築,ミニマル)」、「ミニマル(建築,狭小)」、「ウィスキー(スコットランド)」、「住民投票(スコットランド)」、「軍歌(政治)」が残る。

0079

さらに、クエリ拡張部16は、ステップS315の処理において、二次クエリ候補リストデータに設定されている補足情報から一次クエリデータに出現しない語句を除外する。このとき、補足情報に一次クエリデータに出現する語句が含まれない二次クエリ候補の語句も二次クエリ候補リストデータから除外する。これにより、二次クエリ候補リストデータには、「グラスゴー(建築,スコットランド)」、「狭小(建築)」、「ミニマル(建築)」、「ウィスキー(スコットランド)」、「住民投票(スコットランド)」、「軍歌(政治)」が残る。

0080

クエリ拡張部16は、二次クエリ候補リストデータに残った二次クエリ候補の語句「グラスゴー」、「狭小」、「ミニマル」、「ウィスキー」、「住民投票」、「軍歌」のそれぞれと、一次クエリの語句「建築」、「スコットランド」、「政治」のそれぞれとの類似度を算出する。そして、ステップS320において、クエリ拡張部16は、一次クエリの語句「スコットランド」との類似度が所定以上の二次クエリの語句「グラスゴー」と、一次クエリの語句「政治」との類似度が所定以上の二次クエリの語句「住民投票」を選択する。クエリ拡張部16は、二次クエリ候補リストデータに、二次クエリ候補の語句「グラスゴー」に対応付けて類似度が所定以上の相手の一次クエリの語句「スコットランド」を書き込む。さらに、クエリ拡張部16は、二次クエリ候補の語句「住民投票」に対応付けて類似度が所定以上の相手の一次クエリの語句「政治」を書き込む。クエリ拡張部16は、二次クエリ候補リストデータから、一次クエリの語句との類似度が所定より低い二次クエリの語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」と、それらの語句の補足情報を削除する。

0081

ステップS325〜ステップS330において、クエリ拡張部16は、以下の処理を行う。すなわち、クエリ拡張部16は、二次クエリ候補リストデータから二次クエリ候補の語句「グラスゴー」と、その語句の補足情報(建築,スコットランド)と、類似度が所定以上の相手の一次クエリの語句「スコットランド」を読み出す。クエリ拡張部16は、補足情報に、類似度が所定以上の相手の一次クエリの語句「スコットランド」以外の一次クエリの語句「建築」が設定されているため、二次クエリ候補の語句「グラスゴー」を二次クエリの語句として選択する。クエリ拡張部16は、二次クエリ候補の語句「グラスゴー」を二次クエリ候補リストデータにそのまま残す。
また、クエリ拡張部16は、二次クエリ候補リストデータから二次クエリ候補の語句「住民投票」と、その語句の補足情報(スコットランド)と、類似度が所定以上の相手の一次クエリの語句「政治」を読み出す。クエリ拡張部16は、補足情報に、類似度が所定以上の相手の一次クエリの語句「政治」以外の一次クエリの語句「スコットランド」が設定されているため、二次クエリ候補の語句「住民投票」を二次クエリの語句として選択する。クエリ拡張部16は、二次クエリ候補の語句「住民投票」を二次クエリ候補リストデータにそのまま残す。

0082

図11は、クエリ拡張部16が生成する拡張クエリデータの具体例を示す図である。
同図に示す拡張クエリデータに設定されている語句のリストのうち前半の語句「建築」、「スコットランド」、「政治」は、一次クエリデータから引き継がれた語句である。拡張クエリデータに設定されている語句のリストのうち後半の語句「グラスゴー」及び「住民投票」は、ステップS335において二次クエリ候補の語句の中からクエリ拡張部16が二次クエリとして採択した語句である。

0083

同図においてそれぞれの語句と併記されている数値は、クエリ拡張部16が計算したその語句と一次クエリの各語句との類似度のうち最も高い類似度を示す。なお、同じ語句同士の類似度は1.00である。従って、一次クエリデータから引き継がれた語句は、自語句との類似度が最も高いため、1.00となる。

0084

図12は、拡張クエリの語句と未視聴コンテンツ情報との関係を説明するための図である。同図において円R1〜R3の中に記述されている語句はそれぞれ、一次クエリの語句「建築」、「スコットランド」、「政治」である。また、円R4〜R5の中に記述されている語句はそれぞれ、二次クエリ候補の語句であり、二次クエリに選択された語句「グラスゴー」、「住民投票」である。円R4〜R9の中に記述されている語句はそれぞれ、二次クエリ候補であるが二次クエリには選択されなかった語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」である。各円の中心位置は、円の中に記述された語句を、ある手段によりその語句の意味的な類似度を反映したベクトル空間射影した場合の位置を表す。すなわち、同図において近い位置に配置された円の語句同士は、意味的な類似度が大きいことを表す。

0085

各々の円に付けられた矢印は、各々の円の中に記述された語句がソーシャルデータにおいて共起する関係を表す。そして、矢印の元の語句は、その語句が一次クエリデータに存在することを表し、矢印の先の語句は、その語句が二次クエリ候補であることを表す。例えば、二次クエリ候補(二次クエリ)の語句「グラスゴー」は、一次クエリの語句「建築」ならびに「スコットランド」とソーシャルデータにおいて共起の関係にあることを表す。また、二次クエリ候補の語句「狭小」は、一次クエリの語句「建築」とソーシャルデータにおいて共起の関係にあることを表す。

0086

テキスト情報T1は、一次クエリの語句「スコットランド」及び「建築」と、二次クエリの語句「グラスゴー」にヒットした未視聴コンテンツ情報を示す。また、テキスト情報T2は、一次クエリの語句「スコットランド」及び二次クエリの語句「住民投票」にヒットした未視聴コンテンツ情報を示す。すなわち、これらは、二次クエリを用いることによって推薦リストの上位にシフトされるコンテンツの具体例である。

0087

コンテンツ推薦装置1は、一次クエリの語句と二次クエリ候補の語句間の共起の関係(矢印)、ならびに、語句間の類似度数(円同士の位置の近さ)の両方の情報を用いて、二次クエリ候補の語句の中からどの語句を二次クエリとして採用するかを決定する。そして、コンテンツ推薦装置1は、採用した二次クエリの語句を一次クエリと併用して未視聴コンテンツのテキスト情報とのマッチングスコアを計算する。これにより、コンテンツ推薦装置1は、ユーザの潜在的な嗜好、ならびに、世間一般の時事の話題をより反映したコンテンツを推薦コンテンツリストの上位に位置づけることができる。

0088

以下、二次クエリの語句の取捨選択の基準について、具体例をあげながら詳しく説明する。上述したように、二次クエリ候補の語句のうち、円R4、R5の語句「グラスゴー」、「住民投票」は二次クエリとして採択された語句であり、円R6〜R10の語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」は二次クエリとして棄却された語句である。二次クエリ候補の語句Aを二次クエリの語句として採択するか棄却するかの判断基準は、以下の2点である。

0089

(1)二次クエリ候補の語句Aが、いずれかの一次クエリの語句Cと類似度が高いこと。
(2)語句Aと共起関係にある一次クエリの語句Bが、(1)の一次クエリの語句Cと異なること。

0090

コンテンツ推薦装置1は、(1)及び(2)の二つの判断基準を満たす二次クエリ候補の語句Aを二次クエリの語句として採択し、いずれか一方の条件、あるいは、両方の条件を満たさない語句Aを二次クエリから棄却する。上記の2つの判断基準をともに満たす語句Aは、ユーザの興味を反映した一次クエリの語句Cとの類似度が高く、かつ、語句Cとは異なる一次クエリの語句Bと、ソーシャルデータ上のある文脈において何らかの関係があることと同義である。つまり、語句Aが採択されるためには、ソーシャルデータ上での語句Bとの共起関係に基づいてユーザの潜在的な興味の対象を指し示すと類推された語句であり、かつ、ユーザの明示的な興味の対象を指し示す語句Cと意味が近いことが条件となっている。上記の2つの判断基準を満たす語句Aは、時事の話題が多く扱われるソーシャルデータにおける一次クエリの語句(ユーザの明示的な興味の対象)との共起関係を利用してコンテンツ推薦装置1が類推した、ユーザの潜在的な興味の対象であり、また、社会一般における時事の話題を反映した検索語(二次クエリ)である可能性が高い。

0091

例えば、図12に示した二次クエリ候補の語句「グラスゴー」(語句Aの具体例)は、一次クエリの語句「建築」(語句Bの具体例)と共起関係にあり、かつ、「建築」とは異なる別の一次クエリの語句「スコットランド」(語句Cの具体例)と意味的に近いため、二次クエリの語句として採択される。同様に、語句「住民投票」(語句Aの具体例)は、一次クエリの語句「スコットランド」(語句Bの具体例)と共起関係にあり、かつ、一次クエリの語句「政治」(語句Cの具体例)と意味的に近い関係にあるので、二次クエリの語句として採択される。一方で、語句「狭小」、「ミニマル」、「ウィスキー」、「軍歌」(語句Aの具体例)については、それぞれの共起の相手「建築」、「スコットランド」、「政治」の他に意味的に近い一次クエリの語句をもたないため、二次クエリの語句として採択されない。仮に、二次クエリ候補の語句「ウィスキー」と意味的に近い語句「酒」が一次クエリに存在するならば、語句「ウィスキー」は二次クエリとして採択される可能性がある。二次クエリとして採択された語句「グラスゴー」、「住民投票」を利用して検索した結果得られたコンテンツは、図12に示すように、ユーザの潜在的な嗜好(グラスゴーに残る壮麗な建築)や、世間一般の時事の話題(スコットランド独立についての住民投票)を反映したコンテンツである。

0092

図13は、推薦リスト生成部17が出力する推薦コンテンツリストデータの例を示す図である。同図に示す推薦コンテンツリストデータは、各推薦コンテンツの番組名、放送日時、番組概要を設定したデータである。

0093

図14は、推薦コンテンツ提示部18がコンテンツ表示装置に表示させる推薦コンテンツ提示画面の表示例を示す図である。同図は、図13に示す推薦コンテンツリストの内容をウェブブラウザにより表示させたGUIグラフィック・ユーザ・インタフェース)画面である。なお、推薦コンテンツ提示画面の上部に表示される「今後の放送予定」、「システム設定1」、ならびに「システム設定2」のタブは、それぞれ、未視聴コンテンツの一覧、当該ユーザの拡張クエリの内容の一覧、および、推薦リスト生成部17において二次スコアに乗ずる重みの設定を表示させるためのオプションである。これらの表示は、本実施形態では必須ではない。

0094

上記実施形態においては、一次クエリの語句をユーザ視聴履歴情報から抽出していたが、一次クエリの語句は、ユーザが入力したキーワードでもよい。
また、上記実施形態においては、ソーシャルデータを利用して二次クエリ候補の語句を取得しているが、他のデータを利用して二次クエリの語句を取得してもよい。ソーシャルデータのように、同じ話題に対して多様な表記が用いられ、話題の対象をタイムスタンプなどの時刻により特定することができる計算機利用可能なコーパスデータであれば、任意のデータを利用することができる。

0095

なお、上記においては、コンテンツ推薦装置1とコンテンツ表示装置3とがネットワークを介して接続される場合について説明したが、コンテンツ表示装置3がコンテンツ推薦装置1を備えるように構成してもよい。また、コンテンツ表示装置3に、コンテンツ推薦装置1の一部の機能部を備える構成としてもよい。例えば、コンテンツ表示装置3にコンテンツ推薦装置1の視聴履歴記録部11を備えてもよく、さらに、未視聴コンテンツ情報記録部12や視聴履歴解析部13を備えてもよい。

0096

上述した実施形態によれば、コンテンツ推薦装置1は、インターネット上で提供されているソーシャルメディアを利用して、ユーザの嗜好を記述した検索語の集合である一次クエリと意味的に関係が深いその他の言語表現を二次クエリの語句として抽出する。コンテンツ推薦装置1は、ユーザの嗜好を記述した検索語の集合である一次クエリデータに、一次クエリの語句に基づいて抽出した二次クエリの語句を検索語として追加する。コンテンツ推薦装置1は、二次クエリの語句が追加された検索語の集合を用いてコンテンツを検索する。これにより、コンテンツ推薦装置1は、ユーザの求める内容により則したコンテンツを推薦することができる。また、二次クエリの語句の抽出に用いるソーシャルメディアの時期を限定することにより、コンテンツ推薦装置1は、ユーザの潜在的な嗜好に加え、日々新たに出現する時事の話題、あるいは、過去の話題を反映したコンテンツを推薦することができる。

0097

以上説明したように、本実施形態のコンテンツ推薦装置1によれば、元の検索語から、語句の多様性や話題の時事性を適切に反映したクエリ(拡張クエリ)を自動的に生成することができる。そして、コンテンツ推薦装置1は、生成したクエリを用いてコンテンツを検索することによって、従来よりもユーザの嗜好により合致したコンテンツ推薦を実現することが可能となる。
また、本実施形態のコンテンツ推薦装置1によれば、元の検索語と意味的な関係が深い語句(拡張クエリ)に基づいた多様性に富んだコンテンツ推薦が可能となる。その結果、元の検索語だけからは見つけ出すことが難しい、ユーザの新たな興味の発掘発見につながる可能性(セレンディピティ)に富んだコンテンツを推薦することができる。

0098

上述したコンテンツ推薦装置1及びコンテンツ表示装置3は、内部にコンピュータシステムを有している。そして、コンテンツ推薦装置1及びコンテンツ表示装置3の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。

0099

また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

0100

1コンテンツ推薦装置
11視聴履歴記録部
12未視聴コンテンツ情報記録部
13 視聴履歴解析部
14ソーシャルデータ記録部
15 ソーシャルデータ解析部
16クエリ拡張部
17推薦リスト生成部
18推薦コンテンツ提示部
19 記憶部
3コンテンツ表示装置
31 操作部
32 取得部
33 出力部
34通知部
35 受信部
5ソーシャルメディアサービス提供装置
9 ネットワーク

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ