図面 (/)

技術 検索システム、データ収集装置および検索プログラム

出願人 株式会社国際電気通信基礎技術研究所
発明者 宮西大樹
出願日 2015年9月14日 (5年2ヶ月経過) 出願番号 2015-180501
公開日 2017年3月23日 (3年7ヶ月経過) 公開番号 2017-058729
状態 特許登録済
技術分野 検索装置 デジタル計算機のユーザインターフェイス
主要キーワード 誤差変数 運動空間 データ収集段階 接触圧センサ 学習フレーム 味覚センサ 制御コマ ウェアラブルカメラ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年3月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

被験者知覚経験をより容易に収集するとともに、より容易に検索するシステムを提供する。

解決手段

検索システム1は、被験者2の知覚経験及び当該知覚経験のときに被験者に生じた外的または内的な時間変化を取得する取得手段である映像収集部30及び運動情報収集部34と、被験者に生じた時間変化に基づいて識別情報44.1、44.2・・・44.nを生成する生成手段である映像特徴量算出部32、運動特徴量算出部36及び関連付け部38と、生成された識別情報と対応する知覚経験とを関連付けて格納する格納手段40と、何らかの時間変化を示す情報の入力に応答して、格納手段を参照して、入力された時間変化に関連付けられた知覚経験を抽出する抽出手段である入力処理部46及び検索部48とを含む。

概要

背景

情報通信技術の進歩に伴って、各個人が生活するにあたって生じる様々なデータに対して、メタ情報(典型的には、ラベル)を付与して分類するような技術が提案されている(例えば、非特許文献1など参照)。このように収集された様々なデータの中から、付与されたメタ情報をキーワードとして目的のデータに対する検索および抽出が実行される。

概要

被験者知覚経験をより容易に収集するとともに、より容易に検索するシステムを提供する。検索システム1は、被験者2の知覚経験及び当該知覚経験のときに被験者に生じた外的または内的な時間変化を取得する取得手段である映像収集部30及び運動情報収集部34と、被験者に生じた時間変化に基づいて識別情報44.1、44.2・・・44.nを生成する生成手段である映像特徴量算出部32、運動特徴量算出部36及び関連付け部38と、生成された識別情報と対応する知覚経験とを関連付けて格納する格納手段40と、何らかの時間変化を示す情報の入力に応答して、格納手段を参照して、入力された時間変化に関連付けられた知覚経験を抽出する抽出手段である入力処理部46及び検索部48とを含む。

目的

映像収集部30および運動情報収集部34は、被験者2の知覚経験、および、被験者2の知覚経験のときに生じた外的または内的な時間変化を取得する機能を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

被験者知覚経験、および、当該知覚経験のときに前記被験者に生じた外的または内的な時間変化を取得する取得手段と、前記被験者に生じた時間変化に基づいて識別情報を生成する生成手段と、前記生成された識別情報と対応する知覚経験とを関連付けて格納する格納手段と、何らかの時間変化を示す情報の入力に応答して、前記格納手段を参照して、当該入力された時間変化に関連付けられた知覚経験を抽出する抽出手段とを備える、検索システム

請求項2

前記生成手段は、前記被験者に生じた時間変化から特徴量を生成する手段と、前記生成した特徴量に基づいて、前記被験者に生じた時間変化を他の時間変化から判別するための関数を決定する手段とを含む、請求項1に記載の検索システム。

請求項3

前記知覚経験は、前記被験者の視覚により知覚される映像を含み、前記被験者に生じた時間変化は、前記被験者の体の一部の動きを示す情報を含む、請求項2に記載の検索システム。

請求項4

前記生成手段は、前記判別するための関数を、前記被験者に生じた時間変化を示す特徴量を表現する第1の空間と、前記知覚経験を示す特徴量を表現する第2の空間とを結合した第3の空間にて決定する、請求項3に記載の検索システム。

請求項5

前記格納手段は、所定期間に亘る映像データの各々に前記識別情報を関連付ける、請求項3または4に記載の検索システム。

請求項6

被験者の知覚経験、および、当該知覚経験のときに前記被験者に生じた外的または内的な時間変化を取得する取得手段と、前記被験者に生じた時間変化から算出される特徴量に基づいて識別情報を生成する生成手段と、前記生成された識別情報と対応する知覚経験とを関連付けて格納する格納手段とを備える、データ収集装置

請求項7

コンピュータに、被験者の知覚経験、および、当該知覚経験のときに前記被験者に生じた外的または内的な時間変化を取得するステップと、前記被験者に生じた時間変化に基づいて識別情報を生成するステップと、前記生成された識別情報と対応する知覚経験とを関連付けて格納するステップと、何らかの時間変化を示す情報の入力に応答して、当該入力された時間変化に関連付けられた知覚経験を抽出するステップとを実行させる、検索プログラム

技術分野

0001

本発明は、被験者知覚経験を容易に検索する技術に関する。

背景技術

0002

情報通信技術の進歩に伴って、各個人が生活するにあたって生じる様々なデータに対して、メタ情報(典型的には、ラベル)を付与して分類するような技術が提案されている(例えば、非特許文献1など参照)。このように収集された様々なデータの中から、付与されたメタ情報をキーワードとして目的のデータに対する検索および抽出が実行される。

先行技術

0003

J. Gemmell, G. Bell, and R. Lueder, MyLifeBits: A Personal Database for Everything, Communications of theACM, 49(1):88-95, 2006.

発明が解決しようとする課題

0004

上述したような先行技術に係るシステムにおいては、各データに付与するための適切なメタ情報を抽出する必要があるが、メタ情報を正確に抽出することはそれほど容易ではない。また、メタ情報は言語的表現を用いて定義されるため、検索のキーワードとしては、予め設定されたメタ情報に含まれる表現から選択せざるを得ず、柔軟性および拡張性に乏しい。

0005

そのため、被験者の知覚経験をより容易に収集できるとともに、より容易に検索できるシステムが要望されている。

課題を解決するための手段

0006

本発明のある実施の形態に従う検索システムは、被験者の知覚経験、および、当該知覚経験のときに被験者に生じた外的または内的な時間変化を取得する取得手段と、被験者に生じた時間変化に基づいて識別情報を生成する生成手段と、生成された識別情報と対応する知覚経験とを関連付けて格納する格納手段と、何らかの時間変化を示す情報の入力に応答して、格納手段を参照して、当該入力された時間変化に関連付けられた知覚経験を抽出する抽出手段とを含む。

0007

好ましくは、生成手段は、被験者に生じた時間変化から特徴量を生成する手段と、生成した特徴量に基づいて、被験者に生じた時間変化を他の時間変化から判別するための関数を決定する手段とを含む。

0008

好ましくは、知覚経験は、被験者の視覚により知覚される映像を含み、被験者に生じた時間変化は、被験者の体の一部の動きを示す情報を含む。

0009

好ましくは、生成手段は、判別するための関数を、被験者に生じた時間変化を示す特徴量を表現する第1の空間と、知覚経験を示す特徴量を表現する第2の空間とを結合した第3の空間にて決定する。

0010

好ましくは、格納手段は、所定期間に亘る映像データの各々に識別情報を関連付ける。
本発明の別の実施の形態に従うデータ収集装置は、被験者の知覚経験、および、当該知覚経験のときに被験者に生じた外的または内的な時間変化を取得する取得手段と、被験者に生じた時間変化から算出される特徴量に基づいて識別情報を生成する生成手段と、生成された識別情報と対応する知覚経験とを関連付けて格納する格納手段とを含む。

0011

本発明の別の実施の形態に従う検索プログラムは、コンピュータに、被験者の知覚経験、および、当該知覚経験のときに被験者に生じた外的または内的な時間変化を取得するステップと、被験者に生じた時間変化に基づいて識別情報を生成するステップと、生成された識別情報と対応する知覚経験とを関連付けて格納するステップと、何らかの時間変化を示す情報の入力に応答して、当該入力された時間変化に関連付けられた知覚経験を抽出するステップとを実行させる。

発明の効果

0012

本発明のある実施の形態によれば、被験者の知覚経験をより容易に収集できるとともに、より容易に検索できる。

図面の簡単な説明

0013

本実施の形態に従う検索システムの全体構成の一例を示す模式図である。
図1に示すウェアラブルカメラの構成を示す模式図である。
図1に示すモーションセンサの構成を示す模式図である。
図1に示す情報処理装置の構成を示す模式図である。
本実施の形態に従う検索システムのモデル構築機能の概要を説明するための模式図である。
本実施の形態に従う検索システムのモデル構築機能の処理手順を示すフローチャートである。
本実施の形態に従う検索システムのモデル構築機能での処理手順を説明するための模式図である。
本実施の形態に従う検索システムの検索機能の処理手順を示すフローチャートである。
本実施の形態に従う検索システムの検索機能において提供されるユーザインターフェイスの一例を示す図である。
本実施の形態の変形例に従う検索システムの全体構成の一例を示す模式図である。

実施例

0014

本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰り返さない。

0015

[A.概要]
本実施の形態に従う検索システムは、その一局面において、1または複数の被験者の知覚経験を格納するとともに、それに対する検索を容易化する。本明細書において、被験者の「知覚経験」としては、何らかの装置を用いて取得または計測できるものであれば、どのような知覚(例えば、視覚、聴覚嗅覚味覚触覚)であってもよい。すなわち、何らかのデータとして格納しておき、事後的に再現できるものであれば、どのような知覚であってもよい。

0016

視覚であれば、カメラを用いて撮像した静止画像または動画像としてデータ化可能である。そして、テレビモニタなどでその画像を再現することができる。聴覚であれば、マイクを取得した音声としてデータ化可能である。そして、スピーカなどでその音声を再現できる。嗅覚および味覚であれば、それぞれ、臭気センサおよび味覚センサなどを用いてデータ化可能である。触覚であれば、接触圧センサなどを用いてデータ化可能である。これらの知覚についても、特定の装置を用いることで再現可能である。

0017

本実施の形態に従う検索システムは、このように記録および再現可能な被験者の知覚経験を、当該知覚経験の際に被験者に生じた外的または内的な時間変化に関連付けて格納する。そして、何らかの時間変化を示す情報が検索システムに入力されると、検索システムは、当該入力された時間変化に相対的に高い確率で関連付けられる知覚経験を検索して、その検索結果を出力する。

0018

被験者に生じた外的または内的な時間変化としては、被験者が明示的または黙示的に再現させることができるものであり、かつ、何らかの装置を用いて取得または計測できるものであれば、どのようなものであってもよい。

0019

被験者に生じた外的な時間変化としては、被験者が自発的または受動的に行なった挙動などを含む。例えば、日常生活の中で生じる手、頭、体、足などの動作を含む。また、被験者に生じた内的な時間変化としては、被験者の体内に自発的または受動的に生じた変化を含む。例えば、脳内の血流パターンの変化、体温パターンの変化、発汗パターンの変化などを含む。

0020

以下の説明では、一つの実施形態として、被験者の視覚により知覚された映像(静止画像または動画像を含む)と、被験者に生じた挙動とを関連付けて格納する処理について説明する。本明細書において、「挙動」とは、被験者の体の一部を動作させて時間的に生じる変化を含む概念である。このように、本実施の形態における知覚経験は、被験者の視覚により知覚される映像を含み、被験者に生じた時間変化は、被験者の体の一部の動きを示す情報を含む。

0021

[B.システム構成
次に、本実施の形態に従う検索システムの全体構成について例示する。

0022

図1は、本実施の形態に従う検索システム1の全体構成の一例を示す模式図である。図1を参照して、本実施の形態に従う検索システム1は、基本的には、モデル構築機能および検索機能を有している。但し、後述するように、モデル構築機能のみ、あるいは、検索機能のみを有するシステムとしても成立し得る。読者の理解を深めるため、まずは、検索システム1の基本的な全体構成について説明する。

0023

検索システム1のモデル構築機能において、被験者2の視覚、すなわち被験者2が見た映像を収集するために、被験者2は、ウェアラブルカメラ10を装着している。併せて、被験者2の挙動を収集するために、被験者2は、モーションセンサ20も装着しているとする。被験者2の挙動をより正確に計測するためには、複数のモーションセンサ20を装着するようにしてもよい。この場合には、例えば、被験者の両腕(例えば、右手首および左手首)ならびに頭部の3ヶ所に装着するようにしてもよい。

0024

ウェアラブルカメラ10は、撮像した映像データを所定周期ごとまたはイベントごとに送出する。あるいは、ウェアラブルカメラ10に内蔵されたメモリ内に撮像した映像データを格納するようにしてもよい。モーションセンサ20は、被験者2の挙動を示す情報である運動データ(例えば、加速度、角速度など)を所定周期ごとまたはイベントごとに送出する。あるいは、モーションセンサ20に内蔵されたメモリ内に取得した運動データを格納するようにしてもよい。以下の説明では、主として、3軸分の加速度および3軸分の角速度を運動データとして用いる場合について説明する。

0025

但し、ウェアラブルカメラ10から送出される映像データと、モーションセンサ20から送出される運動データとは、互いに同期させる必要があるので、例えば、同一のタイマから出力される時刻またはカウンタ値などを含むタイムスタンプが収集されるデータに付与される。

0026

検索システム1は、モデル構築機能として、映像収集部30と、映像特徴量算出部32と、運動情報収集部34と、運動特徴量算出部36と、関連付け部38と、データ格納部40とを含む。

0027

映像収集部30および運動情報収集部34は、被験者2の知覚経験、および、被験者2の知覚経験のときに生じた外的または内的な時間変化を取得する機能を提供する。すなわち、映像収集部30は、ウェアラブルカメラ10が送出する映像データを受信し、運動情報収集部34は、モーションセンサ20が送出する運動データを受信する。

0028

映像特徴量算出部32、運動特徴量算出部36、および関連付け部38は、被験者2に生じた時間変化に基づいて識別情報を生成する機能を提供する。本実施の形態においては、好ましい一形態として、被験者2に生じた時間変化から算出される特徴量に基づいて識別情報を生成する。

0029

より具体的には、映像特徴量算出部32は、映像収集部30にて受信された映像データに含まれる特徴量(運動量データに含まれる特徴量と区別するために、以下では「映像特徴量」とも称す。)を算出する。映像特徴量の算出方法および利用方法などの詳細については、後述する。運動特徴量算出部36は、運動情報収集部34にて受信した運動データに含まれる特徴量(上述の「映像特徴量」と区別するために、以下では「運動特徴量」とも称す。)を算出する。運動特徴量の算出方法および利用方法などの詳細については、後述する。

0030

関連付け部38は、映像収集部30にて受信されたそれぞれの映像データ42.1,42.2,〜42.N(以下では「映像データ42」とも総称する。)に対して、他の映像データ特別するための識別情報44.1,44.2,〜44.N(以下では「識別情報44」とも総称する。)を関連付ける。各映像データ42に関連付けられる識別情報44は、当該映像データ42が撮像されたときに被験者2が行なった挙動を特徴付ける情報に相当する。

0031

関連付け部38は、それぞれの映像データ42について算出される映像特徴量を参照して、各映像データ42に関連付ける識別情報44を決定する。すなわち、関連付け部38は、映像特徴量算出部32にて算出される映像特徴量に基づいて、映像データ42の種別推定するとともに、同一の種別に属する映像データ42を他の種別に属する映像データ42と区別するのに最適な識別情報44を決定し、当該決定した識別情報44を対応する映像データ42に関連付ける。そして、データ格納部40は、映像データ42と対応する識別情報44との組を格納する。すなわち、データ格納部40は、生成された識別情報と対応する知覚経験とを関連付けて格納する機能を提供する。

0032

検索システム1は、検索機能として、入力処理部46と、検索部48とを含む。入力処理部46および検索部48は、何らかの時間変化を示す情報の入力に応答して、データ格納部40(格納手段)を参照して、当該入力された時間変化に関連付けられた知覚経験を抽出する機能を提供する。

0033

検索システム1の検索機能において、ユーザ3(被験者2と同一人物であってもよいし、そうでなくてもよい)は、モーションセンサ20を装着している。ユーザ3は、見つけ出したい映像データが撮像されたときに被験者2が行なったであろう挙動と同様のジェスチャを行なう。すると、モーションセンサ20から入力処理部46に対して、ユーザ3が行なったジェスチャを示す運動データ(例えば、加速度、角速度など)が送出される。入力処理部46は、運動特徴量算出部36と同様に、モーションセンサ20から送出された運動データに含まれる運動特徴量を算出し、検索部48へ出力する。

0034

検索部48は、データ格納部40に格納されている識別情報44に基づいて、入力処理部46にて算出された運動特徴量に類似していると確率の高いものを検索し、検索された運動特徴量に関連付けられる映像データ42を検索結果として出力する。

0035

上述した検索システム1のモデル構築機能および検索機能は、例えば、情報処理装置50によって実現される。また、同一の装置がモデル構築機能および検索機能の両方を提供することなく、モデル構築機能を提供する装置と、検索機能を提供する装置とが別体であってもよい。この場合には、モデル構築機能を提供するデータ収集装置と、検索機能を提供する情報検索装置としてそれぞれ実装されてもよい。

0036

[C.ハードウェア構成
次に、本実施の形態に従う検索システム1に用いられるハードウェアについて説明する。
(c1:ウェアラブルカメラ10)
図2は、図1に示すウェアラブルカメラ10の構成を示す模式図である。図2を参照して、ウェアラブルカメラ10は、撮像部102と、制御部104と、通信部108と、各部に電力を供給するバッテリ110とを含む。制御部104は、撮像部102に対して制御コマンドを与えることで、目的の周期またはタイミングで映像データを取得し、通信部108を介して、取得した映像データを送出する。制御部104は、タイマ106を有しており、各映像データが取得されたタイミングを示す情報を、取得した映像データに付与する。
(c2:モーションセンサ20)
図3は、図1に示すモーションセンサ20の構成を示す模式図である。図3を参照して、モーションセンサ20は、加速度センサ202と、ジャイロセンサ204と、制御部206と、通信部210と、制御部206および通信部210に電力を供給するバッテリ212とを含む。制御部206は、加速度センサ202から出力される加速度データ、および、ジャイロセンサ204から出力される角速度データを取得し、通信部210を介して、それらのデータを送出する。制御部206は、タイマ208を有しており、各データを取得したタイミングを示す情報を、送出するデータに付与する。
(c3:情報処理装置50)
図4は、図1に示す情報処理装置50の構成を示す模式図である。情報処理装置50は、典型的には、汎用アーキテクチャに従うコンピュータが採用される。より具体的には、図4を参照して、情報処理装置50は、プロセッサ502と、主メモリ504と、ネットワークインターフェイス506と、通信インターフェイス508と、入力部510と、出力部512と、二次記憶部520とを含む。これらの各コンポーネントは、バス514を介して互いにデータ通信可能に接続される。

0037

プロセッサ502は、主メモリ504に展開されたプログラムコードを指定された順序に従って実行することで、後述するような各種処理を実現する。プロセッサ502としては、シングルコアまたはマルチコアのいずれの構成を採用してもよいし、複数のプロセッサを用いてもよい。主メモリ504は、典型的には、DRAM(Dynamic Random Access Memory)のような揮発性記憶装置が用いられる。

0038

ネットワークインターフェイス506は、LAN(Local Area Network)などを介して、他の装置との間でデータを遣り取りする。通信インターフェイス508は、図1に示すウェアラブルカメラ10およびモーションセンサ20との間でデータを遣り取りする。典型的には、通信インターフェイス508は、イーサネット登録商標)などの有線または無線によりパケットを遣り取りするデバイスが採用される。通信インターフェイス508としては、Blutooth(登録商標)などの無線デバイスが採用されることが好ましい。但し、ネットワークインターフェイス506および通信インターフェイス508を共通のデバイスで実現してもよい。

0039

入力部510は、ユーザからの操作を受付けるデバイスであり、例えば、キーボードマウスタッチパネルなどにより構成される。出力部512は、ユーザに対して各種情報提示、または、他の装置に対して各種データを出力するデバイスであり、例えば、ディスプレイ、各種インジケータプリンタなどにより構成される。

0040

二次記憶部520は、収集された映像データおよび運動データを格納するとともに、プロセッサ502にて実行されるOS(Operating System)およびアプリケーションプログラムを格納している。例えば、二次記憶部520は、モデル構築機能を実現するためのDB(Data Base)構築プログラム522、および、検索機能を実現するための検索プログラム524を格納している。なお、DB構築プログラム522および検索プログラム524は、OSが提供するライブラリなどを利用して、目的のプログラムを実行する場合もある。この場合であっても、これらのプログラムは、本願発明の範囲に含まれ得る。

0041

典型的には、DB構築プログラム522および検索プログラム524は、一体として、または、別々に、光学ディスクなどの記録媒体を介して流通する。あるいは、インターネットワークなどを介して、ダウンロードの形で、DB構築プログラム522および検索プログラム524を配布するようにしてもよい。この場合には、DB構築プログラム522および/または検索プログラム524を格納した記録媒体自体も本願発明の範囲に含まれ得る。

0042

[D.モデル構築機能]
(d1:概要)
次に、本実施の形態に従う検索システム1のモデル構築機能の概要について説明する。図5は、本実施の形態に従う検索システム1のモデル構築機能の概要を説明するための模式図である。図5を参照して、被験者2に装着されたウェアラブルカメラ10およびモーションセンサ20からそれぞれ収集された映像データおよび運動データからそれぞれ映像特徴量および運動特徴量が算出される。そして、映像特徴量および運動特徴量の間で相関分析を実行して得られる映像データの検索に用いられる映像特徴量(以下では「検索用映像特徴量」とも称す。)が算出される。概略すると、検索用映像特徴量は、運動データから算出された運動特徴量から映像データの検索により適した成分を含むものであり、元の運動特徴量に比較して、より低い次元のデータになっている。このような検索用映像特徴量を採用することで、検索に要する時間を短縮できる。

0043

但し、検索用映像特徴量を必ずしも採用する必要はなく、運動データから算出される運動特徴量をそのまま対応する映像データに関連付けるようにしてもよい。

0044

(d2:処理手順)
次に、本実施の形態に従う検索システム1のモデル構築機能の処理手順について説明する。図6は、本実施の形態に従う検索システム1のモデル構築機能の処理手順を示すフローチャートである。図6を参照して、検索システム1は、被験者2に装着されたウェアラブルカメラ10およびモーションセンサ20から、それぞれ映像データおよび運動データを収集する(ステップS100)。例えば、被験者2には日常生活をおくってもらい、その際に計測される映像データおよび運動データを収集するようにしてもよい。あるいは、被験者2に対して特定の動作をするように指示した上で、映像データおよび運動データを収集するようにしてもよい。すなわち、事後的に検索したい映像データと、その検索のクエリとすべき挙動との組み合わせを考慮して、モデルの構築に必要な映像データおよび運動データが収集される。一連データ収集処理によって、各時刻について、映像データと運動データとのペアが格納される。

0045

映像データおよび運動データが収集されると、検索システム1は、収集されたそれぞれの映像データから映像特徴量を算出するとともに、運動データから運動特徴量を算出する(ステップS102)。

0046

ここで、i回目(1≦i≦n)の計測において収集された映像データから算出された映像特徴量(特徴ベクトル)をxiとし、i回目の計測において収集された運動データから算出された運動特徴量(特徴ベクトル)をyiとすると、以下のような関係が成立する。

0047

M:={(xi,yi)|i=1,2,…,n}
ここで、xi∈Rdx,yi∈Rdyである。

0048

なお、上式に示されるM、すなわち、本実施の形態に従う検索システム1が構築するデータベースは、人間の記憶を補助させるための外部メモリとして機能し得る。本実施の形態に従う検索システム1は、入力された検索クエリx*に応答して、外部メモリMから最適な過去の映像データy*を検索する。すなわち、入力された検索クエリx*に対して検索評価関数Rが最大値をとるときの映像データy*が検索結果となるように、検索評価関数Rが決定される。すなわち、以下に示す(1)式のような関係が成立するように、モデルが構築される。

0049

0050

検索システム1は、モデルおよび検索評価関数Rを決定するために、確率的正準相関分析(PCCA:Probabilistic Canonical Correlation Analysis)による学習を実行する(ステップS104)。

0051

ステップS102およびS104に示すように、本実施の形態に従う検索システム1は、被験者に生じた時間変化(運動データ)から特徴量を生成し、生成した特徴量に基づいて、被験者に生じた時間変化を他の時間変化から判別するための関数(検索評価関数R)を決定する。

0052

図7は、本実施の形態に従う検索システム1のモデル構築機能での処理手順を説明するための模式図である。図7に示すように、確率的正準相関分析(PCCA)による学習は、運動データ60から算出された運動特徴量62を含む運動空間(Motion Space)80にて学習するのではなく、潜在空間(Latent Space)84にて学習を行なうことを意味する。潜在空間84は、同時計測された映像データと運動データとの間で、より強い相関を示す特徴量により定義される空間である。潜在空間84は、運動空間80と、映像データ70から算出される映像特徴量74により定義される映像空間(Video Space)82とから決定される。

0053

本実施の形態に従う検索システム1は、被験者に生じた時間変化を示す特徴量を表現する第1の空間(運動空間80)と、知覚経験を示す特徴量を表現する第2の空間(映像空間82)とを結合した第3の空間(潜在空間84)にて、判別するための関数である検索評価関数Rを決定する。

0054

このように、運動特徴量62を含むオリジナルの運動空間80ではなく、運動空間80と映像空間82との間でより強い相関を示す潜在空間84にて学習処理を実行することで、次元を下げることによる検索の高速化を実現できる。また、運動空間80に含まれる、映像データの検索には不要な情報量(ノイズ)を低減することで、映像データの検索精度を向上できる。

0055

最終的に、検索システム1は、収集されたそれぞれの映像データに対応する識別情報を関連付けてデータベースに格納する(ステップS106)。

0056

以上のような手順により、モデルが構築される。以下、図6に示す各ステップの詳細について説明する。

0057

(d3:運動特徴量)
次に、運動特徴量の算出方法について説明する。運動特徴量は、時間信号の集合である運動データから、各時刻または各時間間隔の挙動を示す情報であり、このような挙動を示す情報を算出できれば、どのような手法を採用してもよい。本実施の形態においては、周波数領域の成分を運動特徴量として採用する。

0058

より具体的には、収集された運動データをダウンサンプリングして、時間信号に含まれる周波数成分を予め定められた範囲に制限する。例えば、収集された加速度および角速度(50Hzサンプリング)のそれぞれの時間信号を25Hz(映像データのフレーム数同数)にダウンサンプリングする。そして、ダウンサンプリングされた時間波形に対して、移動平均処理が適用される。一例として、連続する4個のサンプルが含まれるようにウィンドウを設定するとともに、その設定したウィンドウを1サンプルずつシフトさせる。各位置に設定されたウィンドウに含まれる4サンプルについて平均を算出し、当該ウィンドウの代表値とする。

0059

このようにダウンサンプリングおよび移動平均処理によって高周波ノイズが除去された時間信号を周波数変換する。この周波数変換には、例えば、短時間フーリエ変換(STFT:、Short-Time Fourier Transform)が採用されてもよい。一例として、連続する75個のサンプルが含まれるようにウィンドウ(すなわち、3秒分の運動データ)を設定するとともに、その設定したウィンドウを1サンプルずつシフトさせる。各位置に設定されたウィンドウに含まれるサンプルに対して短時間フーリエ変換を適用し、さらに算出される短時間フーリエ変換の結果に対してダウンサンプリングが適用される。例えば、短時間フーリエ変換の結果は、25Hzから10Hzまでダウンサンプリングされる。このような手順を経て算出される運動特徴量の各々は、映像データの1フレームあたり、684次元の値をもつベクトル量となる。最終的には、算出される運動特徴量は、運動特徴量の集合体から算出される平均値および偏差に基づいて、正規化される。

0060

(d4:映像特徴量)
次に、映像特徴量の算出方法について説明する。映像特徴量は、被験者がある挙動を行なった際に収集された映像と、他の挙動を行なった際に収集された映像とを区別できるものであれば、どのような手法を採用してもよい。本実施の形態においては、深層畳み込みニューラルネットワーク(DCNN:Deep Convolutional Neural Network;以下では単に「DCNN」とも称す。)の手法を用いて、映像特徴量を算出する。

0061

深層畳み込みニューラルネットワークを提供するにあたって、Caffeと称される深層学習フレームワークが用いられてもよい。Caffeでは、予め複数の事前学習済モデルが用意されている。Caffeの詳細については、文献1(Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: convolutional architecture for fast feature embedding. InACM-MM, pages 675-678, 2014.)を参照されたい。これらの事前学習済モデルのうち、例えば、ILSVRC−2012 ImageNet学習データセットについて学習されたBVLC Reference CaffeNetのモデルを採用することができる。

0062

DCNNでは、多層解析が可能であるが、映像特徴量としては、これらの生成される層のうち、より意味的に有益な表現を生じると報告されている第6層の活性化関数を用いてもよい。

0063

以上のようなDCNNおよび前提条件下において、1フレームあたり4096次元の値をもつベクトル量が映像特徴量として算出できる。さらに、これらのベクトル量に対して、主成分分析PCA:Principal Component Analysis)を提供することで、次元を下げることができる。例えば、4096次元のベクトル量を100次元まで低減することができる。さらに、次元を下げた複数のベクトル量をサンプリングレートの順に並べた上で、時間間隔の回転平均により、ダウンサンプリングする。

0064

このようにダウンサンプリングによって算出されたフレームごとの映像特徴量を順次シフトさせて所定期間分(上述の運動データのウィンドウに合わせて、3秒分)だけ集合させて、各時刻の運動特徴量として算出する。最終的に、3秒分の映像データについての映像特徴量は、3000次元の値をもつベクトル量となる。

0065

本実施の形態に従う検索システム1は、映像特徴量が生成される所定期間(この例では、3秒分)に亘る映像データの各々に識別情報を関連付ける。すなわち、検索システム1からの検索結果は、3秒分の映像データ単位で出力される。

0066

(d5:確率的正準相関分析を用いた学習)
次に、潜在空間84および検索評価関数Rの決定方法について説明する。

0067

本実施の形態に従う検索システム1は、より好ましい形態として、確率的正準相関分析(PCCA)を用いて、運動特徴量および映像特徴量を共通に表現する潜在空間84を学習する。確率的正準相関分析(PCCA)を用いるのは、以下のような理由に基づくものである。

0068

例えば、運動データに含まれる加速度の情報を用いて厳密なマッチングを評価すると、ユーザの少しの挙動の違いで検索クエリとして用いられるジェスチャと、収集された映像データに関連付けられる動きデータとの間の相関値が低く算出されてしまう可能性がある。

0069

同様に、ユーザのジェスチャを検索キーに基づいて、他のユーザの映像データを検索するような場合、日常生活の中で生じる同じ動作であっても、各ユーザの挙動は異なっているため、ジェスチャのみに基づく検索は容易ではなく、本来は検索されるべきではない映像データがヒットしてしまう可能性もある。

0070

運動データに含まれる特徴量のすべてではなく、各動作を他の動作と区別できるような表現に変換できれば、挙動のばらつきによる相違を吸収でき、他の動作に対して誤って強い相関を生じないようにすることができる。

0071

そこで、本実施の形態に従う検索システム1では、運動データの情報だけではなく、映像データの情報も同時に用いて、運動データに含まれる情報を圧縮する。映像データの情報を用いる理由は、映像データには、同一の動作についての共通する特徴量および他の動作との区別に利用可能な特徴量の両方が含まれているからである。

0072

すなわち、人間が何らかの同一の動作を行なうときには、その挙動が多少異なっていても、見えているものはほぼ同じであり、一方で、他の動作を行なうときには、見えているものは異なるようになる。例えば、テレビを操作するときは、テレビ、リモコンおよび手が視覚に入ることになり、本を読むときには本が視覚に入る。このとき、テレビをつける動作とエアコンをつける動作とは挙動自体は類似しているが、ユーザの視覚に入る内容は異なったものとなっている。

0073

そこで、ある人間が見た映像データおよびそのときの動作を同時に潜在空間に落とし込めば、運動データをぼやかしつつ、他の動作とは区別できるような表現に変換できる。この表現は、人間と実世界との間の本質的な相関関係(典型的には、人間の挙動と被験者により知覚された映像との間の相関関係)をおおよそモデル化することになる。

0074

以下、映像データおよび運動データの両方を考慮した潜在空間84、および、潜在空間84での学習処理について説明する。このような学習の結果は、後述するような検索評価関数Rを決定することを意味する。検索評価関数Rは、ある検索クエリに対して、各映像データがどの程度強い相関関係を有しているのかを示すスコアを算出する関数である。最終的に、映像データごとに検索評価関数Rが決定されて、関連付けられる。

0075

まず先に、一般化された確率的正準相関分析のモデルについて説明し、続いて、映像データに向けられた確率的情報検索のフレームワークについて説明する。

0076

まず、映像特徴量(特徴ベクトルxi)と運動特徴量(特徴ベクトルyi)との各組は、図7に示す共通の潜在空間84での変数を示す潜在ベクトルz(∈Rm(m≦min{dx,dy}))を用いて、以下のように表すことができる。

0077

x=Bxz+εx
y=Byz+εy
潜在空間の変数ベクトルである潜在ベクトルzおよび誤差変数εは、以下のようなガウシアン分布に従うとみなすことができる。

0078

z〜Ν(0,Im)
εx〜Ν(0,Ψx)
εy〜Ν(0,Ψy)
ここで、ΨxおよびΨyは、共分散マトリックスである。所与の映像特徴量(特徴ベクトルxi)および運動特徴量(特徴ベクトルyi)についての、潜在ベクトルzの事後分布は、それぞれ以下の(2)式のようになる。

0079

z|x〜N(Wxx,Vx)
z|y〜N(Wyy,Vy) …(2)
ここで、
Vx:=(I+BxTΨx−1Bx)−1
Vy:=(I+ByTΨy−1By)−1
Wx:=(I+BxTΨx−1Bx)−1BxTΨx−1
Wy:=(I+ByTΨy−1By)−1ByTΨy−1
そして、同時計測された映像特徴量と運動特徴量との組を最も適切に表現できる、モデルおよびパラメータを定めるように、最尤推定(maximum-likelihood estimation)を用いてパラメータBxおよびByを決定する。すなわち、パラメータBxおよびByの最尤推定は、以下のように与えられる。

0080

Bx=CxxUxMx
By=CyyUyMy
ここで、Cxx(∈Rdx×dx)およびCyy(∈Rdy×dy)は、それぞれ運動特徴量および映像特徴量におけるサンプル共分散マトリックスである。また、Mx,My(∈Rm×m)は、MxMyT=Λ(最初からm番目までの正準相関を含む対角マトリックス)を満たす任意のマトリックスである。マトリックスUxおよびUyの列は、運動特徴量および映像特徴量に対する従来の正準相関分析によって取得されたそれぞれの正準ベクトルに対応する。ここで、運動特徴量および映像特徴量に対して均等に重みを与える対角マトリックスを採用する。すなわち、Mx=My=Λ1/2であるとみなす。なお、このような推定量を採用することで、上述のマトリックスVx,Vy,Wx,Wyをより簡素化することもできる。

0081

上述のPCCAモデルに基づく確率的観点から、本実施の形態に従う情報検索を実現するための検索評価関数Rを以下のように導出する。上述の(2)式に従えば、潜在ベクトルzは、任意の検索クエリxについて、事後平均z=Wxxとして算出できる。

0082

映像特徴量(特徴ベクトルxi)と運動特徴量(特徴ベクトルyi)とのすべての組み合わせ(xi,yi)に対応する潜在ベクトルziは、先に外部メモリMにおいて取得されている。そのため、新たな潜在ベクトルz’=Wxx’は、外部メモリMにある潜在ベクトルziのいずれかから確率的に生成することができる。より具体的には、事前確率πiに従って、外部メモリM内の1つのインスタンス(xi,yi)を選択するとともに、潜在ベクトルzi=Wxxiに対応する確率ノイズベクトルrを追加することで、最終的に、潜在ベクトルz’=潜在ベクトルz+確率ノイズベクトルrとして定義する。

0083

これは、本実施の形態に従う検索システム1においては、潜在ベクトルz’の生成という問題を、潜在ベクトルzの推定という問題に定式化できることを意味する。確率ノイズベクトルrが関数fによって与えられる確率密度関数に従うのであれば、i=1,2,…,|M|について、事後確率p(zi|z’)=πif(z’−zi)/Σiπif(z’−z)を最大化することが合理的なアプローチとなる。

0084

ここで、事前確率πiが一様であるとする。何らかの特定の関数fが選択された場合に、当該選択された関数fについての検索評価関数Rfを以下の(3)式のように定式化できる。

0085

0086

事前確率πiが一様であるとの条件下では、関数fを決定することは、−logf(Wxx’−Wxx)の最小値を求めることと等価であり、この最小値を求めることは、一般的な解法が存在する。

0087

さらに、上述のPCCAモデルに従う特定の関数fを設計することができる。PCCAモデルでは、対応する運動特徴量(特徴ベクトルyi)が存在しない検索クエリxiが与えられると、確率ノイズベクトルri(=z’−zi)は、N(0,Vx)に従い、一方、対応する映像特徴量(特徴ベクトルxi)が存在しない検索クエリyiが与えられると、確率ノイズベクトルri(=z’−zi)は、N(0,Vy)に従うことになる。これらの2つの観点を単純に組み合わせると、以下の(4)式を導くことができる。

0088

f(r)=N(r|0,Vx+Vy) …(4)
上述の(3)式に示唆されるように、対応する検索評価関数Rは、最終的には、以下の(5)式に従って算出できる。

0089

0090

上述の(5)式は、2つの異なる視点において事後的不確定性メトリック統合による潜在空間における距離測定を意味する。すなわち、本実施の形態に従う検索システム1においては、運動空間80および映像空間82から算出される潜在空間84において、ある検索クエリに最も距離が近い運動特徴量を特定し、その特定された運動特徴量に対応する映像データが検索結果として出力されることになる。

0091

[E.検索機能]
次に、本実施の形態に従う検索システム1の検索機能について説明する。

0092

(e1:処理手順)
図8は、本実施の形態に従う検索システム1の検索機能の処理手順を示すフローチャートである。図8を参照して、検索システム1は、検索クエリとなる運動データを受付ける(ステップS200)。典型的には、モーションセンサ20を装着しているユーザは、検索したい映像データが収集されたときに行なったであろう行動のジェスチャを再度行なう。すると、モーションセンサ20は、そのユーザのジェスチャを示す運動データを計測し、その計測した運動データを情報処理装置50へ送信する。

0093

検索システム1は、受信した運動データから運動特徴量を算出する(ステップS202)。そして、検索システム1は、算出した運動特徴量をそれぞれの映像データに関連付けられている検索評価関数Rに入力し、各映像データのスコアを算出する(ステップS204)。最終的に、検索システム1は、算出されたスコアの値の高いものから順位付けし、上位にランクされている映像データを検索結果として出力する(ステップS206)。

0094

以上のような処理により、1つの検索クエリに対する映像データの検索機能の実行が完了する。

0095

(e2:ユーザインターフェイス)
本実施の形態に従う検索システム1の検索機能においては、検索クエリを入力するため、および、検索結果を出力するための任意のユーザインターフェイスが用いられてもよい。

0096

図9は、本実施の形態に従う検索システム1の検索機能において提供されるユーザインターフェイスの一例を示す図である。図9に示すユーザインターフェイスは、情報処理装置50の出力部512(図4)などに表示される。

0097

図9(A)には、ユーザに検索クエリの入力を促すユーザインターフェイス画面の例を示す。ユーザは、図9(A)に示される画面を表示した状態で、目的の映像データが撮像されたときの行動を示すジェスチャを行なうことで、そのジェスチャを示す運動データが検索クエリとして入力される。

0098

図9(B)には、図9(A)のユーザインターフェイス画面にて入力された検索クエリに基づいて実行された検索結果を示すユーザインターフェイス画面の例を示す。図9(B)に示される検索結果の出力画面では、算出された順位が高いものから順に映像データまたはそのサムネイルと、当該映像データに関する情報(例えば、撮像された日時など)とが表示される。

0099

検索結果の表示態様については、任意の選択できるが、例えば、図9(B)に示すようなランキング形式であってもよいし、検索された映像データの全部または一部を並べた一覧形式であってもよい。

0100

さらに、入力された運動データの波形および算出されたスコア値なども併せて表示するようにしてもよい。

0101

[F.実験内容および検索精度の評価]
次に、本実施の形態に従う検索システム1の検索精度を評価するために行なった実験内容およびそれを用いて評価した検索精度の結果例について説明する。

0102

(f1:データ収集方法
可能な限り日常生活に近い環境下で、運動データおよび映像データの収集を収集した。具体的には、実環境実験施設内(実験用の住宅の中)で、複数の被験者(今回の実験例では、8名)に対して、日常生活を模擬した行動を、場所を変えつつ、各被験者が任意に決めたタイミングで、ランダムに行なってもらった。日常生活を模擬した行動としては、予め20種類を定めた。例えば、リビングにてコーヒーを飲む、洗面所で歯を磨く寝室で本を読む、キッチン食器洗う、といった行動が含まれる。

0103

ワークシートを用いて、実施すべき各行動の内容を各被験者に説明した上で、説明者がその行動の手本を見せた上で、当該被験者にその行動を練習してもらい、最終的に本番での行動を行なってもらった。

0104

1つのセッションにおいて、各被験者は、1つの行動を1回実施する。1つのセッションの継続時間は約10分である。そして、このセッションを10回繰り返した。最終的に、各被験者の実験に要した時間は4〜5時間であった。

0105

(f2:評価方法
上述のデータ収集方法に従って収集された運動データおよび映像データに基づいて、上述したような学習処理を実行し、各映像データに関連付けられる検索評価関数Rを決定した。そして、決定された検索評価関数Rに対して、上述のデータ収集において各被験者が行なった20種類の日常生活を模擬した挙動により得られる運動エータを検索クエリとした。各挙動に対応する運動データから算出される運動特徴量をそれぞれの検索評価関数Rに入力し、より高いスコアを出力した検索評価関数R(すなわち、映像データ)を対応する検索結果として出力する。

0106

本実験においては、検索クエリを「物あり課題」および「物なし課題」の2種類に分けた。「物あり課題」では、上述のデータ収集時に取得された運動データ、すなわち日常生活を模擬した実際の行動を行なったときに取得された運動データを検索クエリとする。「物あり」という意味は、例えば、「コーヒーを飲む」といった行動であれば、被験者はコーヒーカップをもっているので、そのような行動を想定している。

0107

「物なし課題」では、上述のデータ収集とは独立して、被験者が指定された行動を想定したジェスチャを行なって計測された運動データを検索クエリとする。すなわち、被験者は、物をもたずに、その行動を想定して行動を行ない、その行動によって取得された運動データが検索クエリとして用いられる。

0108

また、本実験においては、被験者内の検索および被験者間の検索の両方を行なった。被験者内の検索は、特定の被験者から計測された運動データを検索クエリとして、当該特定の被験者について予め収集されている映像データを検索するものである。一方、被験者間の検索は、特定の被験者から計測された運動データを検索クエリとして、他の被験者について予め収集されている映像データを検索するものである。

0109

本実験においては、「物あり課題」と「物なし課題」との2種類、および、「被験者内の検索」と「被験者間の検索」との2種類、の合計4パターンについて評価した。

0110

本実施の形態に従うPCCAモデルの検索精度を評価するために、他の検索手法を用いた検索結果を併せて算出した。なお、以下の評価結果を示す表において、本実施の形態に従う検索システム1を「PCCA」と示す。

0111

比較対象に用いた検索手法は、ランダム選択法(表中では、「Random」とも記す。)、ユークリッド距離選択法(表中では、「Standard」とも記す。)、および、主成分分析法(表中では、「PCA」とも記す。)の3つである。

0112

ランダム選択法は、検索クエリの入力に対して、当該入力された検索クエリを考慮せず、映像データをランダムに選択する方法である。

0113

ユークリッド距離選択法は、運動データから算出される運動特徴量のユークリッド距離に基づいて映像データを順位付けする方法である。ユークリッド距離選択法においては、ユークリッド距離が小さいものほど、上位にランキングされることになる。

0114

主成分分析法は、運動データから算出される運動特徴量に対して主成分分析(PCA)を適用して次元を下げた結果を用いて、そのユークリッド距離に基づいて映像データを順位付けする方法である。主成分分析法においては、次元を下げた運動特徴量のユークリッド距離が小さいものほど、上位にランキングされることになる。

0115

本実施の形態に従うPCCAモデルでは、潜在空間内での距離に基づいて映像データを順位付けすることになる。

0116

(f3:評価結果)
以下の評価においては、入力された検索クエリに対して、当該検索クエリに適合する映像データが検索結果の上位5件までに含まれている割合を用いた。上位5件までに適合する映像データが含まれている割合を「Precision@5」と記す。

0117

また、入力された検索クエリに対する平均適合率(Average Precision)についても評価した。すなわち、検索結果内に、入力された検索クエリに適合する映像データが現れた時点における適合率の平均値を意味する。

0118

「Precision@5」および「Average Precision」のいずれについても、20種類の行動のそれぞれについての検索クエリに対する検索結果の平均を示す。また、両指標は、いずれもその評価値が高くほど、検索精度が高いことを意味する。

0119

(1)「物あり課題」かつ「被験者内の検索」の場合
「物あり課題」かつ「被験者内の検索」の場合の評価結果を以下に示す。

0120

0121

上表の結果によれば、ユークリッド距離選択法、主成分分析法、および、PCCAモデルのいずれについても、ランダム選択法を大きく上回っており、有意に映像データを検索できていることが分かる。すなわち、予め収集された運動データおよび映像データに対して、自らの過去の映像データを適切に検索できることを意味している。

0122

(2)「物なし課題」かつ「被験者内の検索」の場合
「物なし課題」かつ「被験者内の検索」の場合の評価結果を以下に示す。

0123

0124

上表の結果によれば、ユークリッド距離選択法、主成分分析法、および、PCCAモデルのいずれについても、ランダム選択法を大きく上回っており、有意に映像データを検索できていることが分かる。すなわち、予め収集された運動データおよび映像データに対して、事後的に行なったジェスチャのみであっても、自らの過去の映像データを適切に検索できることを意味している。

0125

上述の「物あり課題」および「物なし課題」のいずれにおいて、本実施の形態に従うPCCAモデルが最も高い検索精度を実現できている。これは、運動特徴量により定義される運動空間80と、映像特徴量により定義される映像空間82とを組み合わせた潜在空間84を用いることが、検索に有用であることを示している。但し、他の手法(ユークリッド距離選択法または主成分分析法)を用いても、本実施の形態に従う検索システム1を実現できることも併せて示されている。

0126

(3)「物あり課題」かつ「被験者間の検索」の場合
「物あり課題」かつ「被験者間の検索」の場合の評価結果を以下に示す。

0127

0128

上表の結果によれば、ユークリッド距離選択法、主成分分析法、および、PCCAモデルのいずれについても、ランダム選択法を大きく上回っており、有意に映像データを検索できていることが分かる。すなわち、予め収集された運動データおよび映像データに対して、他人の過去の映像データであっても、適切に検索できることを意味している。

0129

(4)「物なし課題」かつ「被験者間の検索」の場合
「物なし課題」かつ「被験者間の検索」の場合の評価結果を以下に示す。

0130

0131

上表の結果によれば、ユークリッド距離選択法、主成分分析法、および、PCCAモデルのいずれについても、ランダム選択法を大きく上回っており、有意に映像データを検索できていることが分かる。すなわち、予め収集された運動データおよび映像データに対して、事後的に行なったジェスチャのみであっても、他人の過去の映像データを適切に検索できることを意味している。

0132

上述の「物あり課題」および「物なし課題」のいずれにおいて、本実施の形態に従うPCCAモデルが最も高い検索精度を実現できている。これは、運動特徴量により定義される運動空間80と、映像特徴量により定義される映像空間82とを組み合わせた潜在空間84を用いることでよりより汎化性の高い表現を実現でき、検索精度を向上できることを意味する。

0133

[G.応用例]
(g1:ネットワーク型検索サービス
上述の説明では、情報処理装置50を中心とする検索システム1の構成例について説明したが、検索対象の情報によっては、ネットワーク型の検索サービスの提供が好ましい場合もある。

0134

図10は、本実施の形態の変形例に従う検索システム1Aの全体構成の一例を示す模式図である。図10を参照して、インターネットなどのネットワーク90を介して、サーバ装置92と、端末装置96とが接続可能になっている。

0135

サーバ装置92は、1または複数のユーザの知覚経験と、各知覚経験を検索するための特徴量とを含む検索データベース94を有している。また、サーバ装置92は、端末装置96などから送信される検索クエリに応答して、当該検索クエリに対応する知覚経験を検索データベース94から検索し、検索結果を検索クエリの送信元へ応答する。

0136

例えば、モーションセンサ20を装着しているユーザ4が何らかのジェスチャをすると、当該ジェスチャに対応する運動データがモーションセンサ20から端末装置96へ送信される(図10中の(1)運動データ)。端末装置96は、モーションセンサ20からの運動データをサーバ装置92へ転送する(図10中の(2)運動データ)。サーバ装置92は、端末装置96からの運動データから検索クエリを生成し、検索データベース94から当該検索クエリに対応する知覚経験を探索する(図10中の(3)検索)。最終的に、サーバ装置92は、検索結果を端末装置96へ応答する(図10中の(4)検索結果)。

0137

このようなサーバ装置92と端末装置96との間の一連の遣り取りによって、ユーザ4は、検索のキーワードとなる何らかの動作を行なうことで、その動作に関連付けられた知覚経験を容易に取得することができる。また、検索データベース94に格納される知覚経験としては、ユーザ4自身による過去の知覚経験であってもよいし、他のユーザによる過去の知覚経験であってもよい。このような検索システムを利用することで、ユーザ4の記憶を補助することができ、また、ユーザ4は他人の経験を共有することもできる。

0138

(g2:記憶補助)
本実施の形態に従う検索システム1を用いることで、記憶補助に利用することができる。より具体的には、自身が過去に見た映像(一人称視点映像)を収集しておき、これを検索対象とすることで、記憶を補助することができる。例えば、食べるジェスチャを検索クエリとして入力すると、前日に食事したときの映像データが検索され、この検索された映像データを見て、食べたものを思い出すことができる。

0139

あるいは、本を読むジェスチャを検索クエリとして入力すると、過去の読書時の映像データを検索でき、これにより以前に読んだ本の内容などを思い出すことができる。また、テレビを操作するジェスチャを行なうことで、過去に見たテレビの内容を検索することもできる。

0140

また、物忘れした内容を言語で表現できない場合などに、言語の代わりにジェスチャを使って検索を行ない、その検索した内容を相手に見せることで、相手に意図を伝えることもできる。例えば、ある特定のものが欲しいとき、そのものを示す単語をど忘れしても、そのものを操作するジェスチャを検索クエリとすることで、そのものを操作している映像データを検索することがで、その映像を相手に見せることで、自身の意図を伝えることができる。

0141

(g3:他人の知覚経験の共有)
他の用途として、本実施の形態に従う検索システムは、他人の知覚経験を共有するために用いることができる。データ収集段階において、特定の動作をすることで映像データを一種メモとして記憶しておき、事後的にジェスチャを用いてその映像データを検索して再生することができる。

0142

他人の過去の知覚経験(一人称視点映像)を検索することで、その他人が有している技能の獲得を支援することもできる。例えば、複数のゴルファーゴルフスイングをしてもらい、そのときの映像データを収集しておく。そして、あるユーザがゴルフスイングをすることで、当該ユーザのスイングに似たスイングを行なうゴルファーの一人称視点映像を検索することができ、その映像を見ることで、当該ユーザのスタイルにあったスイングを学習することができる。ゴルフに限らず、他のスポーツにおいても同様である。

0143

別の例として、包丁を扱うジェスチャを検索クエリとして、同じ動作をした料理人の一人称視点映像を再生し、レシピおよび手順の正しさを確認することもできる。

0144

このように、職人の技術にまつわる動作データと映像データとを関連付けて、収集および検索できるようなシステムを構築することで、技能継承に利用することができ、あるいは、技能習得の支援に利用することができる。

0145

[H.利点]
以上のように、本実施の形態に従う検索システム1は、典型的には、日常生活において人間が行なう動作と、そのときにその人が見ている映像(一人称視点映像)とを同時計測するとともに、それらのデータに基づいてデータベースを構築する。そして、ユーザが、事後的にジェスチャを用いて、過去に行なわれた動作を表現することで、検索システム1は、その動作に類似する動きデータを検索し、当該動作に類似する動作が行なわれたときに撮像された映像データを検索結果として出力する。

0146

このように、本実施の形態に従う検索システム1を用いることで、ジェスチャを用いて、日常生活の中で生じる動作を撮像した映像データを検索することができる。このような日常生活の中で生じる動作に関する映像データを容易に検索できる環境を提供することで、人間の記憶を補助することができ、あるいは、他人の知覚経験(他人の視覚映像)を共有することができる。

0147

本願発明者は、実環境実験施設内にて、複数の被験者に20種類の日常生活の中で生じる動作を行なってもらい、それぞれの動作時において撮像された映像データと動作データとを用いてデータベースを構築するとともに、その構築したデータベースに対する検索精度を評価した。この実験結果によれば、ジェスチャを用いた映像データの検索を採用することで、自分自身の過去の映像データだけではなく、他人の映像データについても、実用上十分に高い精度で検索できることが分かった。

0148

今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

0149

1,1A検索システム、2被験者、3,4 ユーザ、10ウェアラブルカメラ、20モーションセンサ、30映像収集部、32映像特徴量算出部、34運動情報収集部、36運動特徴量算出部、38 関連付け部、40データ格納部、42,70 映像データ、44識別情報、46入力処理部、48検索部、50情報処理装置、60運動データ、62 運動特徴量、74 映像特徴量、80運動空間、82 映像空間、84潜在空間、90ネットワーク、92サーバ装置、94検索データベース、96端末装置、102撮像部、104,206 制御部、106,208タイマ、108,210通信部、110,212バッテリ、202加速度センサ、204ジャイロセンサ、502プロセッサ、504主メモリ、506ネットワークインターフェイス、508通信インターフェイス、510 入力部、512 出力部、514バス、520二次記憶部、522構築プログラム、524検索プログラム。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • ソニー株式会社の「 情報処理装置、情報処理方法、およびプログラム」が 公開されました。( 2020/09/24)

    【課題・解決手段】本技術は、複数人のユーザが皆満足できる空間を提供することができるようにする情報処理装置、情報処理方法、およびプログラムに関する。分析部は、複数人のユーザが存在する環境におけるセンシン... 詳細

  • アルテリックス インコーポレイテッドの「 並列処理を使用したハッシュ結合の実行」が 公開されました。( 2020/09/24)

    【課題・解決手段】データレコードは、コンピュータを使用して結合される。第1の複数のデータレコードおよび第2の複数のデータレコード内のデータレコードがハッシュされる。第1の複数のデータレコードおよび第2... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ