図面 (/)

技術 情報入出力制御システムおよび方法

出願人 佐藤良治
発明者 佐藤良治
出願日 2018年9月18日 (2年3ヶ月経過) 出願番号 2018-173743
公開日 2020年3月26日 (9ヶ月経過) 公開番号 2020-044026
状態 未査定
技術分野
  • -
主要キーワード マイクロフォーン 音響感知 対象マップ 反応動作 視線追跡装置 絞り込みステップ 近赤外線光源 特徴点間距離
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

視線追跡装置は、通常、最初に視線追跡に必要なユーザ固有の情報を集めるカリブレーションというステップを要する。ここで、カリブレーション前、最中、後で、ユーザインターフェイス操作方法が変わると、使いにくい。

解決手段

本発明では、視線入力以外の手段を備え、バックグラウンドでカリブレーションを実行し、ユーザの注目対象を選択する操作を利用して情報を集める。それによって、ユーザは最初から使用でき、カリブレーションのために特別な操作を要求されない。その際、本発明によるシステムは、視線の現在の精度に応じて、検出された注目動作に対するフィードバック、および次に提示する情報を決定する。それによって、ユーザは、カリブレーション前、最中、後で、新しい操作方法の習得を要求されることなく、自然と視線追跡による探索支援を受けている状態に移行することができる。

概要

背景

視線追跡装置は、その活用が期待され、長く研究開発されてきたが、まだ多くのユーザが日常的に使えるものとなっていない。普及の妨げになっている原因は、第一に、応用のユースケース未熟であること、第二に、主な従来技術が特殊ハードウェアを要するものであったこと、第三に、利用前にカリブレーションといわれるステップが必要であること、がある。

第一の視線追跡装置のユースケースに関して、従来、視線コンピュータインタラクションに使う応用には、対象のポインティングコマンドなどの操作に利用することが試されてきた(参照:非特許文献2)。例えば、マウスポインタ—の代わりにする、見たところをズームする、ソフトキーボードの見たキーを選ぶ、などである。しかし、目は本来受容器官であり、何かを探したり、アイコンタクトコミュニケーション補助したり、状況を把握して手による操作をガイドしたりする、ことが本来の機能である。従来の応用のユースケースは、目の受容器官のこれら本来の役割から遊離し、不自然な動作をユーザに強いる。そのため、普及に成功していないと考えられる。視線追跡技術は、目のそもそもの機能に即して、探索行動他者とのコミュニケーションに際する利用方法を開発すべきである。発明者はその考えに立って、先に特許文献1に、目の本来の機能を生かす方法を提案した。

第二の特殊ハードウェアの課題に関し、従来の主流技術(非特許文献3、特許文献2など)は、近赤外光源を目に照射し、角膜反射されたプルキエジュ像から角膜の曲率中心を得て、それと瞳孔中心とを結ぶ軸である眼球光軸を求めるなどの方法だった。それらには、近赤外線光源高感度カメラが必要である。また、これらは、高精度の撮像を得るため、頭部装着カメラと目が近接するか、もしくは光源・カメラと目の距離が90センチメートル程度以内に設置する、といった制約があった。また、近赤外線外光の影響を受けやすいため、利用環境にも制約があった。一方で、近赤外光源を用いずに、汎用のカメラを用いて、視線を推定する方法が提案されている(特許文献9、特許文献3など)。こちらは、精度的には不利であるが、デバイスコストや利用制約が緩いことが有利である。本発明は、その実施形態において、後者のアプローチで例示する。

第三の課題であるカリブレーションに関し、視線追跡を実現するための諸装置では、一般に、ユーザごとのパラメータを得るために、最初に、カリブレーションと呼ばれる処理を行う。これは、ユーザ個人ごとに異なる目のパラメータ(眼球の大きさ、光軸と視軸の差)などを取得するための処理である。目のパラメータを取得するステップは、通常、ユーザに特定の空間上のマーカを注視してもらう等、ユーザに特殊な操作を依頼することで行う。

しかしながら、このカリブレーションの第一の問題点は、そのユーザインターフェイスである。視線による入力を主とするシステム装置の場合は、カリブレーションがすむまでシステムを利用できない。さらに、カリブレーションは、使う前に特殊な操作をしなければいけないのでは、煩わしい。
一方、このカリブレーション・ステップを、ユーザにその存在を意識させずにバックグラウンドで実行し、視線追跡機能を容易に利用できるようにする解決策が検討されてきた。これまでの検討では、そのアルゴリズムの側面で、漸次的な繰り返し法で最適なパラメータを求める方法が発明されている(特許文献3、特許文献4、特許文献8など)。また、マウスタッチなど視線以外の入力手段も利用するシステム装置の場合、ユーザが操作する過程で、対象を見ながらマウスクリックやタッチするなどの選択操作を利用することで、視線追跡に必要な情報を収集するという方法が、いくつも発明されている(特許文献5、特許文献10、特許文献11など)。

しかしながら、カリブレーション前と最中と後で、どう操作インターフェイス移行させるは検討されなかった。特許文献7は、バックグラウンド・カリブレーション時のユーザ・インターフェイスを提案した。これは、集めたデータに基づく視線の精度に応じて、表示装置画面上の選択対象提示形態を、適応的に変更していく。そのメリットは、視線追跡を利用する装置において、カリブレーションがすむ前の荒い精度段階でも視線を利用できるという点にある。しかし、これはカリブレーションを行うための特殊なインターフェイスであって、ユーザが本来アプリケーションで達成したいことを行うためのインターフェイスではない。しかも、ユーザの意図とは無関係の、精度というシステム側の都合で選択対象の表示形態が変わるのでは、慣れの点で使いにくい。選択対象の提示形態を変えず一貫した表示方法で、ユーザに意識させずに、バックグラウンドでカリブレーションを行い、カリブレーション前後のインタラクションをスムーズに移行させることが望ましい。

発明者は、先に、特許文献1において、日常的な仕草からユーザの意図を決めるため、発話頭部動作、注目動作(視線)を必要に応じて組み合わせる方法を開示した。そこでは複数の手段(音声認識ジェスチャー認識視線認識)の情報を組み合わせてユーザの意図の解釈に利用する。本発明は、複数の手段を利用することで、表示装置画面上の対象を選択する際の表示形態は一貫していながら、バックグラウンド・カリブレーションを行うにつれて、ユーザが本来達成したいことの操作が、より自然になっていくようなインターフェイスを提供する。

また、視線追跡のためのカリブレーションは、第二の問題点として、ユーザ固有の情報のカリブレーションと視線の先の注目対象固有の情報のカリブレーションを、明確に分離してないため、設置場所に制約がある、という点がある。
視線追跡装置は、一般に、頭部装着型据え置き型とに分類される。
頭部装着型は、典型的には、目を撮影する内側のカメラと、目が注目している周囲を撮影する外向きカメラとを備える。これらの外向き・内向きカメラの位置関係頭部装着型装置の一部として固定である。カリブレーションは、通常、外界のある場所にやはりマーカを置き、ユーザにそこを注視してもらう。外界のマーカの位置は、外向きカメラの撮影イメージ内座標点を持ち、それが注目点座標である。典型的な応用は市場調査があるが、店舗のどこを見ているかは、外向きカメラの映像とともに記録できるので、後になって何を見ていたのかが分析できる。この場合、注目点とは外向きカメラのイメージ内座標点そのものであって、注目対象の座標系というのは課題の中に存在しない。一方、内向きカメラの撮像からは、ユーザ固有のパラメータを使って視線が計算される。頭部装着型の視線追跡装置のカリブレーションは、計算された視線が、注目先座標(=外向きカメラのイメージ内座標点)と一致するように、ユーザ固有のパラメータを決めることである。特許文献6では、装着ごとに目の位置がずれる、すなわち、目をとらえる内向きカメラと目の位置関係が変動するケースを解決する方法が提案された。
一方、据え置き型は、典型的には、画像表示装置とともに用いられ、画像表示装置にカメラが付着される。この場合、頭部が移動する、つまりカメラとユーザの目の位置関係は可変であることを前提とし、従来の据え置き型の視線追跡装置の技術は、目の位置にかかわらず視線を計算できる。一方、カメラと注目対象である画像表示装置の位置関係は、固定かあるいはあらかじめ測定しておく。そして、通常、表示装置上の所定の表示座標にマーカを表示し、ユーザにそこを凝視してもらう。一方、目の撮像からは、パラメータを使って視線が計算される。据え置き型の視線追跡装置のカリブレーションは、計算された視線が、注目先座標の正解に一致するように、パラメータを決めることである。このように、従来は、据え置き型の場合、カメラと注目対象の位置関係は既定で、カメラと注目対象である画像表示装置の位置が変動するケースは考慮されてこなかった。

本発明は、ユーザとカメラの位置関係(座標系対応)と、カメラと注目対象の位置関係(座標系対応)を、別個のものとしてとらえ、ユーザ固有のパラメータを求めるカリブレーションステップと、注目対象固有のパラメータを求めるカリブレーションステップとを分離する。そのことによって、カメラと注目対象の位置関係が変動する場合でも視線追跡を可能にする。

概要

視線追跡装置は、通常、最初に視線追跡に必要なユーザ固有の情報を集めるカリブレーションというステップを要する。ここで、カリブレーション前、最中、後で、ユーザインターフェイスや操作方法が変わると、使いにくい。本発明では、視線入力以外の手段を備え、バックグラウンドでカリブレーションを実行し、ユーザの注目対象を選択する操作を利用して情報を集める。それによって、ユーザは最初から使用でき、カリブレーションのために特別な操作を要求されない。その際、本発明によるシステムは、視線の現在の精度に応じて、検出された注目動作に対するフィードバック、および次に提示する情報を決定する。それによって、ユーザは、カリブレーション前、最中、後で、新しい操作方法の習得を要求されることなく、自然と視線追跡による探索支援を受けている状態に移行することができる。

目的

本発明は、複数の手段を利用することで、表示装置画面上の対象を選択する際の表示形態は一貫していながら、バックグラウンド・カリブレーションを行うにつれて、ユーザが本来達成したいことの操作が、より自然になっていくようなインターフェイスを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

視線を認識する情報入出力制御システムであって、撮像センサーと、音響センサーと、記憶装置と、処理装置と、情報提示装置と、を備え、前記記憶装置は、制御プログラムと、視線追跡のための情報と、現在の視線精度情報と、を記憶し、前記処理装置は、前記制御プログラムを実行し、前記制御プログラムは、前記撮像センサーでとらえたユーザの顔と目の映像と前記視線追跡のための情報とから視線による注目動作を認識し、前期音響センサーでとらえた情報から発話動作を認識する、動作認識テップと、前期発話動作および注目動作、または発話動作もしくは注目動作から、空間的に配置された複数の対象から特定の対象、または部分集合となる対象群を、選択する選択意図解釈ステップと、ユーザの選択に対する反応を、音声および画像、または音声もしくは画像によって、提示する情報提示ステップと、前記選択意図解釈ステップのバックグラウンドで、視線追跡のために必要な情報を集めるカリブレーション・ステップと、前記カリブレーション・ステップの進捗を管理し、また集積したデータから導出した視線の精度を検査し、その結果を管理するケーパビリティ・ステップと、とを具備する情報入出力制御システムにおいて、前記情報提示ステップにおいて、前記ケーパビリティ・ステップの結果に応じて、前記動作認識ステップのフィードバックと、および前記選択意図解釈ステップにおいて次に提示する情報と、を決定する、ことを特徴とするシステム

請求項2

請求項1の情報入出力制御システムを組み込んだ装置、または上記請求項1の情報入出力制御システムを付加した装置、または通信回線を介して、上記請求項1の情報入出力制御システムと動作する単一の装置もしくは複数の装置群

請求項3

視線を認識する情報入出力制御方法であって、撮像手段と、音響感知手段と、記憶手段と、処理手段と、情報提示手段と、を備え、前記記憶手段は、制御プログラムと、視線追跡のための情報と、現在の視線精度情報と、を記憶し、前記処理手段は、前記制御プログラムを実行し、前記制御プログラムは、前記撮像手段でとらえたユーザの顔と目の映像と前記視線追跡のための情報とから視線による注目動作を認識し、前期音響感知手段でとらえた発話動作を認識する、動作認識工程と、前期発話動作および注目動作、または発話動作若しくは注目動作から、空間的に配置された複数の対象から特定の対象、または部分集合となる対象群を、選択する選択意図解釈工程と、ユーザの選択に対する反応を、音声および画像、または音声もしくは画像によって、提示する情報提示工程と、前記選択意図処理ステップのバックグラウンドで、視線追跡のために必要な情報を集めるカリブレーション工程と、前記カリブレーション工程の進捗を管理し、また集積したデータから導出した視線の精度を検査し、その結果を管理するケーパビリティ工程と、とを具備する情報入出力制御方法において、前記情報提示工程において、前記ケーパビリティ工程の結果に応じて、前記動作認識工程のフィードバックと、および前記選択意図処理において次に提示する情報と、を決定する、ことを特徴とする方法。

請求項4

視線を認識する情報入出力制御方法であって、撮像手段と、記憶手段と、処理手段と、を備え、前記記憶手段は、制御プログラムと、視線追跡のための情報と、を記憶し、前記処理手段は、前記制御プログラムを実行し、前記制御プログラムは、前記撮像手段でとらえたユーザの顔と目の映像と前記視線追跡のための情報とから、視線による注目動作を認識する、動作認識工程と、前記視線追跡のために必要な情報を集めるカリブレーション工程と、とを具備する情報入出力制御方法において、前記記憶装置は、視線追跡に必要な情報として、ユーザに固有の情報と、注目対象に固有の情報とを、持ち、前期カリブレーション工程は、ユーザに固有の情報を集める工程と、注目対象に固有の情報を集める工程と、からなることを特徴とする方法。

技術分野

0001

本発明は、視線追跡装置カリブレーションに関するものである。

背景技術

0002

視線追跡装置は、その活用が期待され、長く研究開発されてきたが、まだ多くのユーザが日常的に使えるものとなっていない。普及の妨げになっている原因は、第一に、応用のユースケース未熟であること、第二に、主な従来技術が特殊ハードウェアを要するものであったこと、第三に、利用前にカリブレーションといわれるステップが必要であること、がある。

0003

第一の視線追跡装置のユースケースに関して、従来、視線コンピュータインタラクションに使う応用には、対象のポインティングコマンドなどの操作に利用することが試されてきた(参照:非特許文献2)。例えば、マウスポインタ—の代わりにする、見たところをズームする、ソフトキーボードの見たキーを選ぶ、などである。しかし、目は本来受容器官であり、何かを探したり、アイコンタクトコミュニケーション補助したり、状況を把握して手による操作をガイドしたりする、ことが本来の機能である。従来の応用のユースケースは、目の受容器官のこれら本来の役割から遊離し、不自然な動作をユーザに強いる。そのため、普及に成功していないと考えられる。視線追跡技術は、目のそもそもの機能に即して、探索行動他者とのコミュニケーションに際する利用方法を開発すべきである。発明者はその考えに立って、先に特許文献1に、目の本来の機能を生かす方法を提案した。

0004

第二の特殊ハードウェアの課題に関し、従来の主流技術(非特許文献3、特許文献2など)は、近赤外光源を目に照射し、角膜反射されたプルキエジュ像から角膜の曲率中心を得て、それと瞳孔中心とを結ぶ軸である眼球光軸を求めるなどの方法だった。それらには、近赤外線光源高感度カメラが必要である。また、これらは、高精度の撮像を得るため、頭部装着カメラと目が近接するか、もしくは光源・カメラと目の距離が90センチメートル程度以内に設置する、といった制約があった。また、近赤外線外光の影響を受けやすいため、利用環境にも制約があった。一方で、近赤外光源を用いずに、汎用のカメラを用いて、視線を推定する方法が提案されている(特許文献9、特許文献3など)。こちらは、精度的には不利であるが、デバイスコストや利用制約が緩いことが有利である。本発明は、その実施形態において、後者のアプローチで例示する。

0005

第三の課題であるカリブレーションに関し、視線追跡を実現するための諸装置では、一般に、ユーザごとのパラメータを得るために、最初に、カリブレーションと呼ばれる処理を行う。これは、ユーザ個人ごとに異なる目のパラメータ(眼球の大きさ、光軸と視軸の差)などを取得するための処理である。目のパラメータを取得するステップは、通常、ユーザに特定の空間上のマーカを注視してもらう等、ユーザに特殊な操作を依頼することで行う。

0006

しかしながら、このカリブレーションの第一の問題点は、そのユーザインターフェイスである。視線による入力を主とするシステム装置の場合は、カリブレーションがすむまでシステムを利用できない。さらに、カリブレーションは、使う前に特殊な操作をしなければいけないのでは、煩わしい。
一方、このカリブレーション・ステップを、ユーザにその存在を意識させずにバックグラウンドで実行し、視線追跡機能を容易に利用できるようにする解決策が検討されてきた。これまでの検討では、そのアルゴリズムの側面で、漸次的な繰り返し法で最適なパラメータを求める方法が発明されている(特許文献3、特許文献4、特許文献8など)。また、マウスタッチなど視線以外の入力手段も利用するシステム装置の場合、ユーザが操作する過程で、対象を見ながらマウスクリックやタッチするなどの選択操作を利用することで、視線追跡に必要な情報を収集するという方法が、いくつも発明されている(特許文献5、特許文献10、特許文献11など)。

0007

しかしながら、カリブレーション前と最中と後で、どう操作インターフェイス移行させるは検討されなかった。特許文献7は、バックグラウンド・カリブレーション時のユーザ・インターフェイスを提案した。これは、集めたデータに基づく視線の精度に応じて、表示装置画面上の選択対象提示形態を、適応的に変更していく。そのメリットは、視線追跡を利用する装置において、カリブレーションがすむ前の荒い精度段階でも視線を利用できるという点にある。しかし、これはカリブレーションを行うための特殊なインターフェイスであって、ユーザが本来アプリケーションで達成したいことを行うためのインターフェイスではない。しかも、ユーザの意図とは無関係の、精度というシステム側の都合で選択対象の表示形態が変わるのでは、慣れの点で使いにくい。選択対象の提示形態を変えず一貫した表示方法で、ユーザに意識させずに、バックグラウンドでカリブレーションを行い、カリブレーション前後のインタラクションをスムーズに移行させることが望ましい。

0008

発明者は、先に、特許文献1において、日常的な仕草からユーザの意図を決めるため、発話頭部動作、注目動作(視線)を必要に応じて組み合わせる方法を開示した。そこでは複数の手段(音声認識ジェスチャー認識視線認識)の情報を組み合わせてユーザの意図の解釈に利用する。本発明は、複数の手段を利用することで、表示装置画面上の対象を選択する際の表示形態は一貫していながら、バックグラウンド・カリブレーションを行うにつれて、ユーザが本来達成したいことの操作が、より自然になっていくようなインターフェイスを提供する。

0009

また、視線追跡のためのカリブレーションは、第二の問題点として、ユーザ固有の情報のカリブレーションと視線の先の注目対象固有の情報のカリブレーションを、明確に分離してないため、設置場所に制約がある、という点がある。
視線追跡装置は、一般に、頭部装着型据え置き型とに分類される。
頭部装着型は、典型的には、目を撮影する内側のカメラと、目が注目している周囲を撮影する外向きカメラとを備える。これらの外向き・内向きカメラの位置関係頭部装着型装置の一部として固定である。カリブレーションは、通常、外界のある場所にやはりマーカを置き、ユーザにそこを注視してもらう。外界のマーカの位置は、外向きカメラの撮影イメージ内座標点を持ち、それが注目点座標である。典型的な応用は市場調査があるが、店舗のどこを見ているかは、外向きカメラの映像とともに記録できるので、後になって何を見ていたのかが分析できる。この場合、注目点とは外向きカメラのイメージ内座標点そのものであって、注目対象の座標系というのは課題の中に存在しない。一方、内向きカメラの撮像からは、ユーザ固有のパラメータを使って視線が計算される。頭部装着型の視線追跡装置のカリブレーションは、計算された視線が、注目先座標(=外向きカメラのイメージ内座標点)と一致するように、ユーザ固有のパラメータを決めることである。特許文献6では、装着ごとに目の位置がずれる、すなわち、目をとらえる内向きカメラと目の位置関係が変動するケースを解決する方法が提案された。
一方、据え置き型は、典型的には、画像表示装置とともに用いられ、画像表示装置にカメラが付着される。この場合、頭部が移動する、つまりカメラとユーザの目の位置関係は可変であることを前提とし、従来の据え置き型の視線追跡装置の技術は、目の位置にかかわらず視線を計算できる。一方、カメラと注目対象である画像表示装置の位置関係は、固定かあるいはあらかじめ測定しておく。そして、通常、表示装置上の所定の表示座標にマーカを表示し、ユーザにそこを凝視してもらう。一方、目の撮像からは、パラメータを使って視線が計算される。据え置き型の視線追跡装置のカリブレーションは、計算された視線が、注目先座標の正解に一致するように、パラメータを決めることである。このように、従来は、据え置き型の場合、カメラと注目対象の位置関係は既定で、カメラと注目対象である画像表示装置の位置が変動するケースは考慮されてこなかった。

0010

本発明は、ユーザとカメラの位置関係(座標系対応)と、カメラと注目対象の位置関係(座標系対応)を、別個のものとしてとらえ、ユーザ固有のパラメータを求めるカリブレーションステップと、注目対象固有のパラメータを求めるカリブレーションステップとを分離する。そのことによって、カメラと注目対象の位置関係が変動する場合でも視線追跡を可能にする。

0011

特願2017−204737
特許第4649319号
特許第4692526号
特許第5163982号
特許第5664064号
特許第6123180号
特許第6123694号
特許第6265348号
US9864430B2
特開2015−046111
特開2015−207290

先行技術

0012

https://www.learnopencv.com/head-pose-estimation-using-opencv-and-dlib/
"A Bread-First Survey of Eye Tracking Applications", by Andrews T. Duchowski, in "Behavior Research Methods, Instruments, & Computers", November 2002, Volume 34, Issue 4
"In the Eye of the Beholder: A Survey of Models for Eyes and Gaze", by Dan Witzner Hansen and Qiang Ji, in "IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE", VOL. 32, NO. 3, MARCH 2010
"Yet AnotherGaze Detector: An Embodied Calibration Free System for the iCub Robot"、by Lars Schillingmann and Yukie Nagai, 2015, 15th IEEERASHumanoids Conference on Humanoid Robots
"Combining Head Pose and Eye Location Information for Gaze Estimation"、by Roberto Valenti, et al., IEEE Transactions on Image Processing, July 2011

0013

視線追跡装置において、視線追跡に必要な情報を集めるため、カリブレーションと呼ばれるステップが必要である。本発明では、システムは、バックグラウンドでカリブレーションを実行し、ユーザの注目対象を選択する操作を利用して情報を集める。それによって、ユーザは、視線追跡に必要な情報が集まる以前からシステムの使用を始め、カリブレーションのために特別な操作を要求されない。その際、システムは、視線の現在の精度に応じて、検出された注目動作に対するフィードバック、および次に提示する情報を決定する。そのことによって、ユーザは、カリブレーション前、最中、後で、新しい操作方法を学習することを要求されることなく、一貫したユーザインターフェイスで、自然と視線追跡による探索支援を受けている状態に移行することができる。

発明が解決しようとする課題

0014

視線追跡装置は、通常、その利用の最初に、視線追跡に必要なユーザ固有の情報を集めるカリブレーションというステップを要する。カリブレーションは、通常、ユーザに特定の空間上の点を見つめてもらうことで行う。しかし、ユーザにカリブレーション操作を強いたり、カリブレーションのためにユーザに特別な操作を要求したりせずに、前面のインタラクションのバックグラウンドで情報収集する方法が望ましい。またカリブレーション前でも、入力手段があり、システムが使えることが望ましい。ここで、カリブレーション前、最中、後で、ユーザインターフェイスや操作方法が変わると、ユーザがそれぞれを学習しなければならず、ユーザには負担となり、使いにくいものとなり、視線利用の普及が阻害されている。

0015

また、従来の据え置き型視線追跡装置は、通常、表示装置画面上の注目対象と位置関係が固定かあるいはあらかじめ位置関係が計測済みという前提がある。そのため、視線追跡装置は、注目対象を映す表示装置に付着ないし組み込んだ専用装置としての使い方に、実質的に限定されてしまう。また、目を捕捉するために、ユーザはカメラに映るある角度内の場所にいないと視線追跡できないという制約が出てくる。

0016

本発明は、視線追跡のカリブレーションのこれらの問題を解決するものである。

課題を解決するための手段

0017

本発明は、視線認識を含む情報入出力制御システムである。これは、撮像センサーでとらえたユーザの顔と目の映像と、視線追跡のための情報とから視線による注目動作を認識し、音響センサーでとらえたユーザ発話を認識する、動作認識ステップと、発話動作および注目動作、または発話動作もしくは注目動作から、空間的に配置された複数の対象から特定の、または部分集合となる対象群を、選択する選択意図解釈処理ステップと、ユーザの選択に対する反応を提示する情報提示ステップからなる。そして、選択処理ステップのバックグラウンドで、視線追跡のために必要な情報を集めるカリブレーションステップと、カリブレーションステップの進捗を管理し、また集積したデータから導出した視線の精度を検査し、その結果を管理するケーパビリティステップと、を具備する。そして、情報提示ステップにおいて、動作認識ステップのフィードバックおよび前記選択意図解釈ステップにおいて次に提示する情報を、ケーパビリティに応じて決定する。

0018

このように、本発明は、視線以外に、音声(もしくはさらに撮像センサーでとらえられた頭部ジェスチャー)という、視線とは別の入力手段を有する。

0019

そして、視線追跡に必要な情報は、ユーザの注目および対象選択動作を利用して、バックグラウンドで収集する。

0020

本発明は、カリブレーションの最中、ユーザが対象を選択したときに得る新しいデータがあるたびに、それから導かれる検出視線の精度は、逐次計算され更新される。そして、システムがユーザに提示する選択候補対象の提示形態は変えないが、視線の現在の精度によって、検出された注目動作に対するフィードバックおよび次に提示する情報(画面遷移音声ガイド)を変える。ここで、フィードバックとは、システム側が注目動作に反応できるよとユーザに伝えるための通知である。次に提示する情報とは、ユーザの注目動作と現在の視線追跡に精度に応じ、利用の流れの中で選択処理を先に進めたり、選択後の次のステップに進むために、次に提示する画面や音声ガイドなどである。

0021

また、本発明のカリブレーション処理は、視線追跡に必要な情報として、ユーザに固有の情報と、注目対象に固有の情報とを別個に持ち、ユーザに固有の情報を集めるステップと、注目対象に固有のステップと、から構成される。

0022

本発明は、情報提示時に、音声および画像、または音声もしくは画像によって行う。

発明の効果

0023

本発明は、視線以外に、音声(もしくはさらに撮像センサーでとらえられた頭部ジェスチャー)という、視線とは別の入力手段を有する。それによって、視線追跡に必要な情報がまだそろっていない段階からでも利用が可能である。

0024

本発明は、視線追跡に必要な情報は、ユーザの注目および対象選択動作を利用して、バックグラウンドで収集する。それによって、ユーザが、視線追跡に必要な情報のために、特別な操作をする必要がなく、学習する必要もない。

0025

本発明は、視線の現在の精度によって、検出された注目動作に対するフィードバックおよび次に提示する情報を決定する。そのため、ユーザは、システムが視線を利用していることに自然と気づき、いつの間にか視線を利用した探索支援を利用し始めることができる。そして、視線を使った快適なユーザインターフェイスに自然に移行していくことができる。

0026

また、本発明は、視線を計算するためのユーザに固有のパラメータのカリブレーションと、視線追跡装置内カメラと注目対象との位置関係のカリブレーションを行う。そのことによって、注目対象に対し視線追跡装置を任意の場所に変更することができる。

0027

本発明は、情報提示時に、音声および画像、または音声もしくは画像によって行う。複数の情報提示手段を使うことによって、自然なインタラクションとなる。さらに、視覚的もしくは聴覚的いずれかに問題を抱えたユーザでも利用することができる。

図面の簡単な説明

0028

本発明の処理フロー概略図
実施例のシステム全体構成図
顔座標系カメラ座標系の関係図
視線の計算原理
カメラ座標系と注目対象座標系の関係図
意図解釈処理、反応構成処理の概略フロー
視線の精度に応じて決定されるフィードバックの例
視線の精度に応じて決定される次のステップの例

0029

以下に、本発明の一実装形態を説明する。図1に、中核となる、本発明の処理フロー概略を示す。また、図2に本発明を含む実施形態の一例のシステム構成を示す。この実施形態は、居間のテレビを利用したビデオ電話システムである。

0030

本発明を実現する図2システム装置1は、テレビにデジタル通信インターフェイス・ケーブルで接続される。本装置1は、撮像センサー2と音響センサー3と、処理装置4を備え、テレビのモニター5およびスピーカ6を情報提示装置として利用する。撮像センサー2は、汎用の安価な単眼カメラでよい。音響センサー3は、汎用の安価なマイクロフォーンでよい。処理装置4は、典型的にはマイクロプロセッサであり、センサーから画像信号音響信号を得て処理し、画像から視線および頭部ジェスチャーという動作を、マイクから発話という動作を検出する。そして、ユーザの意図を推定する。図1の選択意図解釈ステップIというのは、この広義の意図推定の一部である。図2の実施例の選択意図解釈処理では、ユーザの意図の実行として、ユーザの選択を支援する以外に、ビデオ電話を実行したりなどする。そして、当システムは、ユーザの意図に応じた反応を、音声と画像のいずれかないし両方で、情報提示装置5,6に出力する。

0031

なお、信号処理動作検出部は、計算資源を多く消費するので、別途サーバー通信し、負荷の大きな処理はサーバで行う構成をとっても良い。また、本実施形態はビデオ電話アプリを例とするので、ビデオ電話を中継するサーバと接続する必要があるが、それを省略する。

0032

本装置1は、注目対象を表示するテレビのモニター5の位置に対して、ユーザの顔と目が映る範囲で任意の場所に置いてよい。

0033

ユーザは、本装置のボタンを押してシステムを起動する。まず、ユーザは、連絡先リストから、通信する相手を選ぶ必要がある。システムは、起動画面のあと、連絡先の選択候補を写真グリッド形式テレビモニター5に表示する。選択候補の表示は、グリッドでなくても、リストであっても、ユーザが見て探せる表示形態であれば何でもよい。ユーザは、表示された複数の連絡先候補から相手を探すときに、視線による注目動作を行う。本システムは、撮像センサー2と処理装置4で、この注目動作を検出し、モニター5とスピーカ6を介した提示情報処理で、探索行為を補助することで、通信相手の選択を容易にする。

0034

本発明は、視線追跡のために必要な情報を集めるカリブレーション処理を、このユーザによる注目動作と選択処理を利用して、バックグラウンドで行う。カリブレーションのために特別な提示形態はなく、選択対象の表示は例えばグリッドという固定のままである。また、カリブレーションのために、ユーザに特別な操作を要求しない。しかしながら、システムが視線を追跡でき注目対象を認識できるようになった場合、そのことをシステムの反応として、ハイライト表示名前の音声エコーで、ユーザに知らせる。そして、絞り込んだ注目対象が特定の対象ならば、次の画面で表示する。あるいは、選択対象の部分集合を次の画面で表示する。このように、視線追跡のありなしあるいは精度によって、システム側の反応が変わるため、ユーザは視線に関する操作方法を新しく学習する必要がない。

0035

ここで、図1に本発明の処理フローの概略を示す。動作認識ステップB(Behaviorの略)、選択意図解釈ステップI(Intentionの略)、情報提示ステップF(Feedbackの略)という3ステップが主ループである。そのループでユーザとインタラクトし、ユーザの意図する選択を進める。その背後では、視線追跡を可能にするために必要な情報を集めるカリブレーションステップC(Calibrationの略)と、カリブレーションで新しい情報が入ってきたときに、その時点でどの程度視線精度が可能かを検査し、選択意図解釈ステップ・情報提示ステップにその情報を提供するケーパビリティステップA(cApabilityの略)とが実行される。

0036

一方、ユーザは、相手の名前を発話して選ぶこともできる。また、相手先選択確定の確認や、通信開始など次のステップへ進むかどうかの確認は、うなずきや首を横に振るジェスチャー、および「はい」「いいえ」で行う。ここで、本発明においては、視線以外に、音声、ジェスチャーなどのほかの入力手段があるため、システムに視線追跡の能力がまだない状態でも、主ループB、I、Fによって、アプリケーションの使用が可能である。

0037

次に、各ステップについて説明する。

0038

動作認識ステップBは、主ループのほかに、音声信号から発話動作を検出する処理と、画像信号からジェスチャーおよび視線と注目動作を検出する処理との、主ループから独立した二つの非同期スレッドを持つ。そして、主ループのスレッドは最近検出された発話・ジェスチャー・注目動作の履歴を観察し、選択意図の解釈を行う。

0039

発話動作の検出に用いる音声認識は、公知の技術を用いたパブリックライブラリサービスを利用する。

0040

ジェスチャー認識は、顔の特徴点の過去数秒のフレーム群内での検出場所軌跡を追跡することで、うなずきか否定の動作かを判定する。なお、ジェスチャーは、文化に依存する表現なので、システムの設定でどういうジェスチャーがどういう意図を持つかの違いに対応する。

0041

次に、動作認識ステップBに含まれる視線追跡の方法の概略を説明する。視線追跡は、本実施例では、顔モデルベースの方法を使う。顔モデルベースの方法とは、顔モデルをもとに、眼球中心を推定し、それと虹彩瞳孔の位置との関係から視線を決める方法である。特許文献9は、顔モデルベースの視線追跡に必要な構成要素をおおよそ網羅している。

0042

図3に、顔モデルとカメラとの関係を示す。図3に示すように、以下、顔の正面方向をZとする座標系を顔座標系と呼ぶ。またカメラ正面をZ’とする座標系をカメラ座標系と呼ぶ。

0043

後述するカリブレーション・ステップCで、ユーザの顔の特徴点位置の3Dモデルと、2つの眼球中心の中点がその3Dモデル内でどこに位置するかを求めておく。顔の特徴点位置の3Dモデル(図3のP1、P2、P3)を利用して、撮像センサーで得た画像フレーム内のそれら特徴点のイメージ内位置(図3のp1、p2、p3)から、カメラ座標系と顔座標系との平行移動関係(図3のTranslation)・回転関係(図3のRotation)が得られる(非特許文献1、OpenCVのSolvePnPRANSAC関数を利用する)。これは、平行移動関係・回転関係をランダムに生成して、それぞれの場合のモデルの特徴点のイメージ平面への投射点を得て、実際にイメージ上で観察された特徴点位置と比較し、誤差が最小になるような平行移動関係・回転関係を選ぶことで行われる。

0044

一方、画像フレームから二つの虹彩中心中点位置が得られる。これにはまず虹彩を見つけ、その中心を見つける必要がある。従来、虹彩あるいは瞳孔の映像が円形であることを利用した中心推定(非特許文献5)、明暗勾配であるグラディエントに沿った直線を利用する方法(非特許文献4)などがあった。しかしこれらは、黒目全体が撮影されている場合に有効であり、東洋人に多い、瞼が厚く細目のケースでは難しい。そこで、細い目でも、白目と虹彩の境界は瞼の隙間にわずかに顕在していることを利用する。まず、画像フレームから、目周辺は瞼や瞳などのエッジが濃いことなどを手掛かりに、虹彩周辺領域を絞りこむ。次に、絞り込んだ領域の各ピクセルでグラディエント・ベクトルを求め、ある程度の大きさのグラディエントを持つピクセルに関し、そのピクセルを通りグラディエント・ベクトル方向の直線上の点のうち、負(暗くなる)方の虹彩の半径より少し短い点と少し長い点の間に線分を引き、最も線の密度の濃い点を虹彩中心とする。

0045

なお、顔モデルで利用する特徴点として、発話によって動く口周辺は使いにくい。しかし、目と周辺は発話時でも動かないので、それらを利用する。

0046

図4に視線計算の原理を示す。図4のように、顔座標系内で、顔モデルから導かれた眼球中心の中点と撮像センサーで観察された画像フレームの虹彩中心の中点を結んだ線として、視線ベクトルを得る。

0047

カメラと顔の平行移動関係・回転関係がわかっているので、顔座標系内視線ベクトルを、カメラ座標系ベクトルに変換することができる。それとカメラ座標系のZ=0平面との交点を、カメラ座標系座標点として得る。これを、カメラ座標系における注目点とする。

0048

一方、また、後述するカリブレーション処理で、注目対象を含む画像表示装置の画面座標カメラ座標との位置関係を求める。それを使って、カメラ座標系の注目点座標を画面座標に変換できる。そして、注目点の画面座標と、画面に表示された注目対象候補座標範囲を比較することで、注目対象が判定できる。

0049

なお、以上の方法はあくまで一実施例であって、本発明は視線の計算方法に依存するものではない。従来の近赤外の光源を目に照射し、角膜で反射されたプルキエジュ像から角膜の曲率中心を得て、それと瞳孔中心とを結ぶ軸である視線を求めるなどの方法をとってもよいし、目の外見と正解視線の対応の大量データを準備しニューラルネットで学習させる方法をとってもよく、どんな方法でもよい。

0050

次に、カリブレーション・ステップCの概略を説明する。本実施形態では、アプリケーションの実行の背後で、ユーザに見えないように、視線追跡に必要な情報を集めるカリブレーションを行う。視線追跡に必要な情報とは、ユーザ固有の情報と、注目対象固有の情報である。本発明は、ユーザ固有の情報と、注目対象固有の情報と、を分離してカリブレーションする。

0051

以下、まずユーザ固有の情報のカリブレーションについて説明する。

0052

ユーザ固有の情報には、ユーザの顔の特徴点位置の3Dモデル、顔モデル内での眼球の推定位置(深さを含む)、視軸と光軸のずれ分、がある。眼球の中心は、眼球回転の中心である。視軸(Visual Axis)とは、目のレンズである水晶体の中心と、視野のうち最も精度の高い部分である中心窩とを結ぶ直線で、人の目がある点を注目しているときの線である。光軸(Optical Axis)とは、水晶体中心と眼球の回転中心点を結ぶ直線である。視軸と光軸とはある角度でずれており、そのずれは個人ごとに異なる。視線計算をするときは、ずれパラメータをもとに光軸から視軸を得る。

0053

本実施例の視線追跡方法は、顔モデルベースであるために、ユーザの顔の特徴点の3Dモデルをカリブレーション・ステップで取得する。ユーザの顔の特徴点とは、鼻の頂点、左右の目頭目尻、等である。それら特徴点の3Dの位置は、鼻の頂など任意の1点を原点としてそこからのXYZ相対位置としてモデル化される。顔モデルは、顔とカメラの距離に依存しないように、イメージ内ピクセル数ではなく、ミリメートル記述する。

0054

人は正面視しているときでも静止していることはなく、微妙に顔向きを変える。顔モデルに初期値を与えて、カメラと顔の平行移動関係・回転関係を計算すると、カメラに対する顔の角度がわかる。それを使って、ある安定した角度で、ある連続した時間、正面視している、あるいは側面視している、ということが把握できる。そこで、正面視、ある角度での側面視、それぞれのフレーム群の特徴点位置の統計的な平均を記録できる。

0055

顔モデルの特徴点のXY軸上の位置は、顔認証技術で行われるように、正面視時のイメージ上での特徴点の座標の統計から得られる。

0056

顔モデルを構成する特徴点のZ軸上の位置は、高価な深度カメラを用いてもよいし、複数カメラステレオ視を利用して求めてもよい。しかし、本実施形態は、単眼カメラで得る方法をとる。モノキュラーSLAM技術のように、複数フレームにおける特徴点位置を利用する。本実施形態では、正面視時の特徴点間距離統計とその時の顔向き角度統計、側面視時の特徴点間距離統計とその時の顔向き角度統計から、計算する。ここで、Z軸の値の導出は、顔向き角度(図3のRotation)を使うため、顔モデルに依存し、逆に顔モデルはZの値を含むためZ値に依存する、と相互依存関係がある。そのため、Z軸の値の導出は、繰り返し処理漸次近似する。Z値を含む顔モデルの評価は、ある顔モデルによって特徴点位置をイメージ空間に写像し、写像点位置とイメージ上の実際の特徴点位置との誤差を見ることで行う。その誤差がある閾値より小さくなったときに、Zの導出の繰り返し計算の収束とする。あるいは、Zの値をランダムに動かしてみて、同じ評価方法最適値を求めてもよい・

0057

眼球中心の中点のX軸上の位置は、X=0としてもよいし、あるいは正面直視時の特徴点の位置統計から得られる。

0058

眼球中心の中点Y軸上の位置は、正面直視時は、虹彩中心と視軸が重なっていることを利用して、虹彩中心のY値から推定する。正面直視を認識する都度、導出し、値が安定するまで繰り替えし求めてもよい。

0059

眼球中心の中点のZ軸上の位置、すなわち眼球の回転半径は、眼球の大きさの生体的統計を使う。あるいは、異なる位置にある、異なる二つの注目対象に関し、注目動作の時の二つの対象画面座標位置と二つの虹彩中心の中点位置を記録し、それらの相違から導く。これは注目動作ごとに新しいデータが得られるので、値が収束するまで繰り返し求めてもよい。

0060

視軸と光軸のずれに関し、本実施形態では二つの眼球中心の中点と、二つの虹彩の中心の中点を利用し、個々の眼球を利用しない。左右のずれを平均化してしまうため、左右のずれは無視できる。一方、上下のずれは、生体的な統計的統計が1度であるため、無視できる。もしくは、顔モデル、眼球モデル双方が安定収束したのちに、注目動作時の画面座標と計算された注目点との差分値からずれ角度を導き、安定収束するまで導出を繰りかえしてもよい。

0061

以上、ユーザ固有の情報に関し、本実施例でのカリブレーションの処理内容を説明したが、これらは一実装にすぎない。視線追跡の方法によって、例えば、近赤外線の反射によって眼球中心の中心を得る方法では、上述の顔モデルの取得と眼球中心XYの取得は不要である。また、眼球中心の半径だけをカリブレーションしたり(特許文献5)、視軸・光軸のずれ角度だけをカリブレーションしたり(特許文献長)など、さまざまはカリブレーションの実施形態がありうる。しかし、本発明は、カリブレーションの具体的な実施方法には依存しない。視線追跡のための情報を集める処理を、ユーザに特定の動作を求めることなく、バックグラウンドで行うときに、処理は一瞬で済むわけではなく、ある一定時間データを収集して行う必要があり、視線追跡精度はその間徐々に上がっていくという点が、本発明の前提である。

0062

一方、注目対象に固有の情報とは、カメラの位置と注目対象の位置の関係である。

0063

注目対象が、画像提示装置の画面に映し出されるなど、平面上の対象である場合、この注目対象とカメラの位置関係は、画面中央を注目したときの、カメラ座標系内注目点座標統計と、画面座標系における画面中央の座標点と、の対応関係が基準のデータとなる。もしも、カメラ座標のXY平面が、注目対象の表示平面と、ほぼ平行であるもしくは固定角度で設置されることを前提にする場合は、この初期値だけで、カメラ座標と画面座標の対応はとれる。

0064

しかしながら、カメラを内蔵する視線追跡装置の設置場所を固定しない場合、またカメラの向きが可変で、カメラ座標のXY平面が注目対象画面と必ずしも並行とはならない場合、カメラ座標系と注目対象の座標系との対応関係をさらに得る必要がある。

0065

本実施例では、注目対象は、画像表示装置の画面上にある。図4に、本実施例でのカメラ座標と画面座標との関係を示す。図4のように、カメラ座標のXY(Z=0)平面と注目対象平面の対応付けは、ホモグラフィー変換行列で記述することができる。本実施例では、アプリケーションの使用中、ユーザが画面上のある相手を選択したとき、カメラ座標系内注目点統計と、相手の写真が表示されている画面内座標範囲中心との対応をデータとして蓄積する。そして、それら二つの座標系の対応点蓄積データから、OpenCVのgetHomography関数を使ってホモグラフィー変換行列を得る。

0066

なお、ユーザパラメータは個々のユーザに固有の属性であるが、注目対象とカメラの関係は注目対象の場所とカメラの場所の相対的位置関係に固有の属性であり、論理的には独立した属性情報である。そのため、異なるユーザに対してはユーザ固有のパラメータのカリブレーションのみ行えばよく、注目対象とカメラの関係は、カメラの場所を変更するつどカリブレーションを行えばよい。ただし、本実施形態では、注目動作を利用して注目対象とカメラの関係を推定するため、まず、あるユーザに関しユーザ固有の情報のカリブレーションを行い、次にカメラと対象の関係のカリブレーションを行う。注目動作を利用しないで、注目対象とカメラとの関係を得る場合は、そういう順序依存関係もない。

0067

ここで、設定場所が可変であり、さらにカメラのレンズの向きが可変である場合は、ある基準角度でのホモグラフィー行列を作っておき、その時にレンズの向き角度をカメラから取得し、これらを組み合わせれば、カメラ座標と注目対象平面座標との対応をとることができる。

0068

さらに、例えば、自走ロボットがユーザの視線を追跡することを想定する。そこでは注目対象が平面上の対象ではなく、ユーザの周囲の3D空間内の対象である。そのような場合、モノキュラーSLAMなどの手法で3D空間内対象マップを別に作っておき、かつ、カメラを持つロボットが自分の位置を3Dマップ内に定位できれば、カメラ座標で表現したユーザの視線ベクトルと、3Dマップをカメラの視点から見たものと、を直接に突き合わせて、注目対象を推定することができるであろう。

0069

本発明では、ユーザ固有の情報のカリブレーションと、注目対象固有の情報のカリブレーションを分離して、別個に実行する。注目対象が、画像提示装置画面等、平面である場合は、カメラとの対応付けはホモグラフィーが有効である。しかし、本発明の、ユーザ固有の情報のカリブレーションと注目対象固有の情報のカリブレーションを分離して実行するという点は、注目対象が平面上にない場合であっても、利用できる方法である。

0070

次にケーパビリティ・ステップAについて説明する。ケーパビリティ・ステップAは、カリブレーションで新しい情報が入ってきたときに、その時点で、どの程度視線追跡が可能かを検査する。

0071

検査の方法としては、対象選択行動の都度、現在のカリブレーション状態で導出した注目座標と実際にユーザが行った対象選択の座標を比べて正解ヒット率を計算してもよい。例えば95%以上になったら合格として、それ以降、視線追跡による注目対象をユーザへの反応に利用するようにしてもよい。

0072

本実施例では、後述の選択意図解釈ステップIにおいて、ユーザの対象選択動作の都度、カメラ座標の注目点座標から画面の対象座標への対応を記録し、ホモグラフィー変換行列を得る。そこで、得られたホモグラフィー変換行列は、逆に作用させれば、画面上の相異なる座標点に対し、相異なるカメラ座標系内注目座標点を得る。それらが離れた点として明確に分離できているかどうかを検査する。例えば、画面左側の中心と画面右側の中心の座標をホモグラフィー行列の逆行列でカメラ座標に変換し、2点がカメラ座標で十分に分離していれば、視線の左右視は識別できる。例えば、画面を横3つ縦2つに6分割しそれぞれの中心座標に対応するカメラ座標点が十部に分離できていたら、視線が上下左中右のどれを見ているかは識別できる。また、さらに分解能は何ミリメートルなどと導くこともできる。この方法では、視線の精度が非常に荒い段階からでも、ユーザにどこを見ていますねというフィードバックを返すことができ、視線を使えることを印象付けられるメリットがある。

0073

ケーパビリティ・ステップAは、また、視線追跡精度のみならず、環境光が不十分で撮像センサーが特徴点を検出できないケースも検出する。その場合は、ジェスチャー認識や視線は利用できず音声しか使えないという情報を、選択処理ステップ・反応構成ステップに伝える。ケーパビリティ・ステップAは、このように、環境要因による動作認識能力および視線の分離能力を決め、ほかのステップに現在の識別能力情報を提供する。

0074

以下、選択意図解釈ステップIと情報提示ステップFを説明する。図6に、選択意図解釈ステップIおよび情報提示ステップFと、カリブレーションステップC、ケーパビリティステップAの、より詳細なステップと相互関係を示す。

0075

選択意図解釈ステップIは、カリブレーションの進行に伴って変化するケーパビリティ情報を参照しながら、ユーザの動作に対する反応を決める。また、ユーザの選択を利用してカリブレーションのデータを取得する。

0076

まず選択意図解釈部の起動ステップI.1で、例えば、画面中央に撮像センサーに映るユーザの顔部のプレビューと使用ガイドテキストおよび音声を表出し、画面正体視を暗に促す。そして、顔モデルをはじめとして、視線追跡に必要なデータ収集を開始する。この段階で、少しもデータが得られないかもしれないし、初期値としての最初の仮説が得られるかもしれないし、あるいはデータから導出したカリブレーションパラメータが収束してしまうかもしれない。しかし、カリブレーションの進行がどうであれ、アプリケーションは次の段階に進み、バックグラウンドでカリブレーションデータの取得が続行される。あるいは、前回までのアプリケーションの利用時の記録によって、すでに十分にパラメータが収束していて、同一ユーザであって視線追跡カメラの設置位置が変更されていないということを確認できたら、最初からカリブレーションが完了している状態で処理を開始できるかもしれない。

0077

ここ、起動ステップI.1では、また、音声信号を受信し、発話動作が行われたらタイムスタンプとともにメモリ登録するということを繰り返す処理スレッドを起動する。また、画像信号を処理し、ジェスチャーを認識するための処理と視線追跡を行うための処理スレッドも起動する。

0078

次に情報提示部のステップF.1で、連絡先候補群を写真で表示し、通信相手の特定ができるまで、選択対象の絞り込みと再表示を繰り返す。

0079

ステップI.2で、ケーパビリティを参照して、カリブレーションの進捗状態及び視線追跡の精度に応じた処理を行う。カリブレーション前であれば、ステップF.3aで、発話と画面に表示した選択対象の名前がマッチすれば、連絡先を選択する動作として認識する。名前のマッチで、一意に選択対象が一意に決まるかもしれないし、例えば名字だけを呼んだ場合は複数の選択候補がマッチするかもしれない。カリブレーションが途中もしくは完了している場合は、ステップF.3bで、発話によるマッチと、現状の視線精度で推定できる表示範囲とから、対象候補部分集合ないし特定対象を決める。発話だけで特定できるかもしれないし、発話動作が不在かもしれない。視線はその精度によっては、対象を特定できるかもしれないし、例えば画面の右がわにある複数の対象に可能性があるとしかわからないかもしれない。

0080

ここで、システムが発話もしくは視線を理解して反応できるよということを示すため、ステップF.2で注目推定範囲(例えば画面右側等、あるいは特定できた場合は該当相手の写真の領域)をユーザにフィードバックする。図7に、フィードバック時の提示画面の概略例を示す。フィードバックは、写真を囲む矩形のハイライト表示および名前の音声エコーなどである。ハイライトの代わりに、ズーム表示揺れアニメーション対象写真の点滅を使うかもしれない。視覚的にほかの選択対象と区別できれば良い。またここで複数の候補が残っているときの名前の連呼は避け、一意に確定した場合にだけ音声エコーを行うかもしれない。ここで、フィードバックは、システム側がユーザに提示する情報であって、ユーザ側に何も特殊な操作を要求するものではなく、ユーザはなにも学習しなくてよい。それでもユーザは自分の視線にシステムが反応していることを理解でき、視線が操作の一部として利用されていることを暗示される。なお、ここで、画像表示装置が注目対象を表示する場合は、画像によるフィードバックが可能であるが、画像表示装置を前提としない場合は、音声エコーが利用できる。

0081

ここで、注目動作のフィードバック後に、次のステップに移るが、その注目動作は、実は、ある選択対象が自分が選択する対象でないことを確認するためだったかもしれない。そこで、次のステップに移るためには、注目動作の時間的長さがほかの注目動作よりも十分に長いとか、フィードバック後も注目動作がある一定時間続いた等、ユーザが選択したい対象に注目しているという確度を高めるための条件判定を含む。

0082

次に、ステップI.4で、一意に注目対象が絞れたかどうかで、処理を分ける。図8に、システムが反応動作を変える例である、次に遷移する画面の概略を示す。一意に絞れなかった場合は、ステップI.5で、絞り込んだ対象候補の部分集合を指定して、連絡先表示ステップF.1に戻る。一意に絞り込めた場合は、ステップF.3で、ユーザに確認を求めるため、画面を改め選択対象の写真を表示し、音声・テキストガイドで、選択の確認を求め、ジェスチャー、返答などで確認をとる。このように、ケーパビリティに依存して、システムは後続の動作を変える。

0083

一意に絞り込めた場合は、また、ステップI.6で、ユーザが注目している相手の写真の画面内座標と計算された視線の注目カメラ座標、その他、カリブレーションに必要なデータを記録し、次のステップI.7に備える。なお、ここで、画像表示装置が注目対象を表示する場合は画面遷移という反応が可能であるが、画像表示装置を前提としない場合は、確認を得るための音声ガイドが利用できる。

0084

選択の確認に対し肯定の反応があれば、それで選択対象の確定として、ステップI.8で次の処理(ビデオ電話の場合は、相手へ接続中という画面など)に移る。確認に対し、否定の反応があれば、連絡先対象のグリッド表示に戻るなどする。

0085

また選択対象が確定した上で、ステップI.7で、先のステップI.6で記録した視線と画面の対応情報等を、カリブレーションデータとして追加登録し、その結果得られる視線の精度を検査して、ケーパビリティ情報を更新する。

0086

なお、ユーザへの反応として、本実施例では再度絞り込んだ対象に対する選択画面へ戻る、あるいは確認画面へ遷移する、という二つの変化を例示したが、それらはあくまで例に過ぎない。例えば、視線で選択対象が特定できなかった場合は、同一画面にとどまって、追加指示を求めるように音声および画面内表示テキスト応答してもよい。また、3個以内まで絞れたばあいは、1対象を中央に、ほかの2つの対象を両脇に半分だけ表示し、視線の方向に応じて左右にスクロールしてもよい。このように、アプリの流れの中で様々な反応の決定および提示形態がありうる。ここで、このような反応は、システム側がユーザに提示する情報であって、ユーザ側に何も特殊な操作を要求するものではなく、ユーザはなにも学習しなくてよい。それでもユーザの意図に沿ってアプリケーションは進む。ここで、画像表示装置を前提としない場合、例えば視線によって室内の家電のどれを指示対象として選ぶようなアプリケーションの場合は、絞り込みのために音声インタラクションが利用できる。

0087

そして、ユーザ固有の情報にせよ、注目対象固有の情報にせよ、システムの次回以降のために、収集したデータと導出したカリブレーション結果は、記憶装置に記録し蓄積する。次回起動時、顔の特徴点統計を取得した時点で、同一ユーザか異なるユーザかが判定できる。異なるユーザには、ユーザ固有のカリブレーションを新規に実施する。そして、ユーザごとに記録を作り維持する。また、画面中央視したときの注目点カメラ座標から、システム装置の場所が変わったかどうかが判定できる。また、ホモグラフィーの記録と現在のホモグラフィーから、システム装置の付加されたデバイスが変わったかどうか、例えばテレビでなくパーソナルコンピュータに変わったとかいうことが判定できる。そのような場合は、注目対象固有のカリブレーションを新規に実施する。

0088

このように、視線追跡のためのカリブレーションは、完全にバックグラウンドで行われ、ユーザに対し、カリブレーションのために特殊な操作を、要求しない。また、カリブレーションの進捗がどうであれ、情報提示形態は、選択対象のグリッド表示などと一貫して変わらず、カリブレーションのために特殊な操作インターフェイスを学習する必要はない。一方、視線追跡のためのカリブレーションの状態に応じて、システムのフィードバック(ハイライトや音声エコー)や次の反応(画面遷移や音声ガイド)が変わる。そのため、ユーザは、システムが視線を利用していることに、自然と気づく。また、カリブレーションが完了する前でも、アプリケーションの利用が可能であり、さらにいつの間にか視線を利用した探索支援が開始されている状態になる。そのため、ユーザは、認知負荷なく、使うにつれてより、視線を利用した、より自然で快適なユーザインターフェイスに移行していくことができる。

0089

フィードバックや反応は、ユーザが健常者であれば、音声および画像の双方で行う。人と人との日常的なコミュニケーションは、視覚・聴覚相まって行われる。機械相手のコミュニケーションでも、視覚的・聴覚的という複数の手段を使った情報提示は、より自然で親密な印象を生む効果がある。

0090

また、ケーパビリティステップAは、ユーザ固有の身体的な個性にも対応することができる。ケーパビリティ処理には、あらかじめユーザの身体的特性を登録しておくことで、視覚障碍者の場合は、視線を使わず音声・ジェスチャーで入力し、音声ガイド出力のみでインタラクトし、聴覚障碍者の場合は、視線とジェスチャーで入力し、画面表示とテキストガイドのみでインタラクトするように、選択処理ステップIと反応構成ステップFに指示することがありうる。また、ジェスチャーが困難なユーザにも対応できる。このように、本実施例は最初から複数の手段でインタラクションする設計をしてあるため、ユーザの身体的な個性に対応できる。

0091

なお、本実施例では、複数の対象から特定の対象を選び、ビデオ通話を開始するという例を取り上げ、相手を選ぶ際の注目情報を利用するという例を示したが、複数の注目対象から特定のものを選ぶ機能があるアプリケーションであればなんでも、本発明のバックグラウンド・カリブレーションの方法を利用することができる。

0092

本実施例は、画像表示装置上に注目対象が描画される例とした。画像表示装置を前提とした機器の操作に、本発明のバックグラウンド・カリブレーション方法とホモグラフィーの方法を利用できる。例えば、現在のパーソナルコンピュータやスマートフォーンは、グラフカル・ユーザインターフェイスをとっているが、このグラフィカル・ユーザインターフェイスは、複数のアイコンメニュ項目から特定のものを選ぶインターフェイスが、主である。デバイスが手の届くところにない場合、あるいはタッチデバイス片手で持って他方の手が使えない場合などに、視線による選択が有効である。またテレビのリモコンの代わりに、モニター上に表示された番組表から特定のチャンネルを選ぶなどに利用できる。

0093

一方、本発明は、注目対象が画像表示装置の画面上の対象に限定されるものではない。例えば、室内に家電製品が配置してあり、カメラから見てそれらの配置場所のマップを何らかの手段で作ってあって、カメラ座標と室内座標の対応付けがあれば、一方でユーザの顔座標とカメラ座標の対応付けは容易なため、カメラ座標系を中継して、室内座標と顔座標の対応付けができ、それを使って、ユーザがどの家電に注目して指示を出そうとしているかが判定でき、そのカリブレーションに本発明の方法が利用できる。自動車の車内操作でも利用できる。また、自走するアシスタント・ロボットでも利用できる。ユーザに固有のカリブレーションと注目対象固有のカリブレーションを分離してあることは、自走ロボットのようにカメラの位置が可変な場合に特に重要となる。

実施例

0094

視線追跡装置は、一般に、据え置き型と頭部装着型に分類される。頭部装着型は、典型的には、目を撮影する内側のカメラと、目が注目している周囲を撮影する外向きカメラとを備える。これらの外向き・内向きカメラの位置関係は頭部装着型装置の一部として固定である。ここで、頭部装着型の場合、外向きカメラのある座標に映し出されたある対象に注目したという行動から、外向きカメラのイメージ座標と内向きカメラのとらえた目の映像から計算した視線との対応として、カリブレーションデータを収集することができる。実施例では据え置き型を例にしたが、本発明は、据え置き型に限定されるものではなく、頭部装着型でも利用できるものである。

0095

本発明は、視線追跡装置の普及を妨げている一要因のカリブレーション処理について、ユーザが自然に視線追跡のメリットを受けられるようなインタラクションを提供する。視線追跡の応用ユースケースの開発、汎用パーツによる視線追跡の実用化、と相まって、今後、コンピュータ、ロボット等の知的機械と人間の間に、人の注目対象を意識したインタラクションを普及させることに寄与する。さらに、ジェスチャー認識、音声認識とともに利用することで、人の日常的な所作によるインタラクションが可能になり、現在のグラフィカル・ユーザ・インターフェイスと比べて、直感的で認知負荷がないヒューマンマシン・インタラクションを可能にする。その結果、超高齢者も子供も容易に機械とコミュニケーションできるような社会になる。

0096

B動作認識ステップ
I 選択意図解釈ステップ
I.1起動ステップ
I.2カリブレーションの状態判定ステップ
I.3a カリブレーション前の対象絞り込みステップ
I.3b カリブレーション途中もしくは後の対象絞り込みステップ
I.4絞り込みが一意にできたかどうかを判定するステップ
I.5 絞り込みが一意でない場合に対象の部分集合を得るステップ
I.6 絞り込みが一意の場合に、カリブレーションデータを記録するステップ
I.7 一意に絞り込んだ対象に関しユーザに確認が取れたとき、I.6のデータを登録するステップ
I.8 対象を選択後の処理ステップ
F情報提示ステップ
F.1選択対象表示ステップ
F.2フィードバック提示ステップ
F.3選択確認ステップ
C カリブレーション・ステップ
C.1 カリブレーションのデータを収集するステップ
Aケーパビリティ・ステップ
A.1 カリブレーションで得たデータから視線精度を検査するステップ
A.2 視線精度が十分かどうかの判定ステップ
1テレビ付加装置
2撮像センサー
3音響センサー
4処理装置
5テレビモニター
6 テレビ内蔵スピーカ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

この 技術と関連性が強い技術

該当するデータがありません

この 技術と関連性が強い法人

該当するデータがありません

この 技術と関連性が強い人物

該当するデータがありません

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ