図面 (/)

技術 画素変更処理画像を用いて対象を追跡する装置、プログラム及び方法

出願人 KDDI株式会社
発明者 永井有希小林達也
出願日 2017年4月27日 (3年2ヶ月経過) 出願番号 2017-088267
公開日 2018年11月22日 (1年7ヶ月経過) 公開番号 2018-185724
状態 未査定
技術分野 イメージ分析
主要キーワード 物理対象 平均速度ベクトル ドリフト発生 マスク処理画像 対象追跡 各画像パッチ 基準画像領域 候補画像領域
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年11月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

複数の物体をより確実に追跡可能な装置を提供する。

解決手段

対象追跡装置は、複数の追跡対象を含み得る時系列画像群を用い、画像又は画像領域を入力した識別器からの出力に基づき、各画像における追跡対象の位置を決定して追跡対象を追跡する装置である。その装置構成の特徴として、画像群に含まれる画像又は画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するマスク処理手段と、画素変更処理を施された画像又は画像領域を、1つの追跡対象の学習及び/又は識別のために識別器へ出力する画像出力手段とを備えている。また、識別器は、複数時点の画像又は画像領域を入力する複数の畳み込みニューラルネットワークを備えていてもよい。

概要

背景

現在、監視マーケティング等の目的をもって、カメラ撮影され生成された時系列の画像データを解析し、移動する追跡対象の実空間での位置を逐次決定していく追跡技術が実用化している。追跡対象としては、人物乗り物等、撮影可能であれば様々な物体が設定可能である。また、複数の物体を逐次並行して追跡する技術も開発され、盛んに改良が進められている。この技術では、例えば、店舗内で滞留・移動する多数の店員や客等の動線を、より正確に把握することが意図されている。

このような時系列画像群を用いた対象追跡技術は、一般に、(a)刻々の画像によって追跡対象である物体の見かけオンライン学習しつつ当該物体の位置に係る情報を出力する識別器によるものと、(b)見かけのオンライン学習を行わない識別器によるものとに大別される。

例えば非特許文献1には、このうち(a)のオンライン学習タイプの追跡技術が開示されている。この技術では、新しい時刻フレームが取得されるとその都度逐次的に、検出と、追跡対象の物体に付与されたID(識別子)毎の追跡処理とを行う。具体的には、各IDに係る物体の見かけをオンライン学習し、ID毎に見かけの識別モデルを構成しておく。次いで、このようにオンライン学習された各IDについての見かけの識別モデルを用い、新しい検出結果と、ここまで追跡してきたIDに係る物体の軌跡とを結びつけている。

一方、非特許文献2には、(b)のオンライン学習を行わないタイプである、単一の物体を追跡する技術が開示されている。この技術では、深層学習(Deep Learning)を用い、前時刻の物体画像領域と、現時刻の画像における前時刻の当該領域に相当する領域の周辺から候補として切り取った候補画像領域との画像領域ペアから、現時刻で物体が存在する画像領域推定することにより追跡を行っている。

概要

複数の物体をより確実に追跡可能な装置を提供する。本対象追跡装置は、複数の追跡対象を含み得る時系列画像群を用い、画像又は画像領域を入力した識別器からの出力に基づき、各画像における追跡対象の位置を決定して追跡対象を追跡する装置である。その装置構成の特徴として、画像群に含まれる画像又は画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するマスク処理手段と、画素変更処理を施された画像又は画像領域を、1つの追跡対象の学習及び/又は識別のために識別器へ出力する画像出力手段とを備えている。また、識別器は、複数時点の画像又は画像領域を入力する複数の畳み込みニューラルネットワークを備えていてもよい。

目的

本発明は、複数の物体をより確実に追跡可能な装置、プログラム及び方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の追跡対象を含み得る時系列画像群を用い、当該画像又は該画像内の画像領域を入力した識別器からの出力に基づき、各画像における当該追跡対象の位置を決定して当該追跡対象を追跡する装置であって、当該画像群に含まれる画像又は該画像内の画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、当該他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するマスク処理手段と、当該画素変更処理を施された当該画像又は当該画像領域を、当該1つの追跡対象の学習及び/又は識別のために前記識別器へ出力する画像出力手段とを有することを特徴とする対象追跡装置

請求項2

前記マスク処理手段は、少なくとも1つの当該他の追跡対象に係る処理対象領域に対し、当該画像若しくは当該画像領域における当該追跡対象以外の画像領域に基づいて決定された画素パターン、又は所定の画素パターンへの変更を行うことを特徴とする請求項1に記載の対象追跡装置。

請求項3

前記マスク処理手段は、当該画素変更処理として、少なくとも1つの当該他の追跡対象に係る処理対象領域に対し、該他の追跡対象の見かけぼかす処理を実施することを特徴とする請求項1又は2に記載の対象追跡装置。

請求項4

前記マスク処理手段は、当該他の追跡対象に係る当該処理対象領域が、当該1つの追跡対象について決定された位置を含む追跡対象領域重畳した重畳領域を有する場合、当該重畳領域に対して当該画素変更処理を実施しないことを特徴とする請求項1から3のいずれか1項に記載の対象追跡装置。

請求項5

当該他の追跡対象に係る当該処理対象領域が、当該1つの追跡対象について決定された位置を含む追跡対象領域と重畳した重畳領域を有する場合、当該1つの追跡対象に係る当該追跡対象領域を、当該重畳領域を除いた領域に変更する追跡対象領域決定部を更に有することを特徴とする請求項1から4のいずれか1項に記載の対象追跡装置。

請求項6

前記画像出力手段は、少なくとも1つの時点における当該画素変更処理を施された当該画像又は当該画像領域を、学習済みの前記識別器へ出力し、前記対象追跡装置は、学習済みの前記識別器からの出力に基づいて、当該1つの時点での当該1つの追跡対象の位置を決定する対象位置決定手段を更に有することを特徴とする請求項1から5のいずれか1項に記載の対象追跡装置。

請求項7

前記画像出力手段は、1つの時点における当該画素変更処理を施された当該画像又は当該画像領域と、該1つの時点よりも前となる少なくとも1つの時点における当該画素変更処理を施された当該画像又は当該画像領域とを、学習済みの前記識別器へ出力することを特徴とする請求項6に記載の対象追跡装置。

請求項8

前記識別器は、各時点の当該画像又は当該画像領域を入力して該画像又は該画像領域の特徴に係る特徴情報を出力する複数の第1ニューラルネットワークと、該複数の第1ニューラルネットワークから出力された複数の当該特徴情報を入力して当該1つの追跡対象の位置に係る情報を出力する第2ニューラルネットワークとを含むことを特徴とする請求項6又は7に記載の対象追跡装置。

請求項9

前記画像出力手段は、前記第2ニューラルネットワークに対し、当該特徴情報に対応する当該画像又は当該画像領域の時点に係る情報を、該特徴情報にづけて出力することを特徴とする請求項8に記載の対象追跡装置。

請求項10

前記画像出力手段は、前記識別器を学習させる際、少なくとも当該画素変更処理を施された当該画像又は当該画像領域と、該画像又は該画像領域における正解としての追跡対象領域の位置に係る情報との組を、前記識別器へ出力することを特徴とする請求項1から9のいずれか1項に記載の対象追跡装置。

請求項11

前記マスク処理手段は、前記識別器を学習させる際、決定された当該処理対象領域から位置のずれたズレ処理対象領域に対し当該画素変更処理を実施することを特徴とする請求項1から10のいずれか1項に記載の対象追跡装置。

請求項12

前記画像出力手段は、少なくとも当該画素変更処理を施された1つの時点での当該画像又は当該画像領域を、オンラインで学習を行う前記識別器へ出力し、前記対象追跡装置は、オンラインで学習を行っている前記識別器からの出力に基づいて、当該1つの時点での当該1つの追跡対象の位置を決定する対象位置決定手段を更に有することを特徴とする請求項1から5のいずれか1項に記載の対象追跡装置。

請求項13

複数の追跡対象を含み得る時系列の画像群を用い、当該画像又は該画像内の画像領域を入力した識別器からの出力に基づき、各画像における当該追跡対象の位置を決定して当該追跡対象を追跡する装置に搭載されたコンピュータを機能させるプログラムであって、当該画像群に含まれる画像又は該画像内の画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、当該他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するマスク処理手段と、当該画素変更処理を施された当該画像又は当該画像領域を、当該1つの追跡対象の学習及び/又は識別のために前記識別器へ出力する画像出力手段ととしてコンピュータを機能させることを特徴とする対象追跡プログラム。

請求項14

複数の追跡対象を含み得る時系列の画像群を用い、当該画像又は該画像内の画像領域を入力した識別器からの出力に基づき、各画像における当該追跡対象の位置を決定して当該追跡対象を追跡する装置に搭載されたコンピュータにおける対象追跡方法であって、当該画像群に含まれる画像又は該画像内の画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、当該他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するステップと、当該画素変更処理を施された当該画像又は当該画像領域を、当該1つの追跡対象の学習及び/又は識別のために前記識別器へ出力するステップとを有することを特徴とする対象追跡方法。

技術分野

0001

本発明は、追跡対象を含み得る時系列画像群を解析して当該対象を追跡する対象追跡技術に関する。

背景技術

0002

現在、監視マーケティング等の目的をもって、カメラ撮影され生成された時系列の画像データを解析し、移動する追跡対象の実空間での位置を逐次決定していく追跡技術が実用化している。追跡対象としては、人物乗り物等、撮影可能であれば様々な物体が設定可能である。また、複数の物体を逐次並行して追跡する技術も開発され、盛んに改良が進められている。この技術では、例えば、店舗内で滞留・移動する多数の店員や客等の動線を、より正確に把握することが意図されている。

0003

このような時系列画像群を用いた対象追跡技術は、一般に、(a)刻々の画像によって追跡対象である物体の見かけオンライン学習しつつ当該物体の位置に係る情報を出力する識別器によるものと、(b)見かけのオンライン学習を行わない識別器によるものとに大別される。

0004

例えば非特許文献1には、このうち(a)のオンライン学習タイプの追跡技術が開示されている。この技術では、新しい時刻フレームが取得されるとその都度逐次的に、検出と、追跡対象の物体に付与されたID(識別子)毎の追跡処理とを行う。具体的には、各IDに係る物体の見かけをオンライン学習し、ID毎に見かけの識別モデルを構成しておく。次いで、このようにオンライン学習された各IDについての見かけの識別モデルを用い、新しい検出結果と、ここまで追跡してきたIDに係る物体の軌跡とを結びつけている。

0005

一方、非特許文献2には、(b)のオンライン学習を行わないタイプである、単一の物体を追跡する技術が開示されている。この技術では、深層学習(Deep Learning)を用い、前時刻の物体画像領域と、現時刻の画像における前時刻の当該領域に相当する領域の周辺から候補として切り取った候補画像領域との画像領域ペアから、現時刻で物体が存在する画像領域推定することにより追跡を行っている。

先行技術

0006

S.-H. Bae and K.-J. Yoon., "Robust online multi-object tracking based on tracklet confidence and online discriminative appearance learning", Published in Computer Vision and Pattern Recognition (CVPR), 2014IEEE Conference, 2014年,1218〜1225頁
D. Held, S. Thrun, and S. Savarese, "Learning to track at 100 fps with deep regression networks", Cornell University Library,Subjects: Computer Vision and Pattern Recognition (cs.CV),Cite as: arXiv: 1604.01802, 2016年

発明が解決しようとする課題

0007

しかしながら、上述したような従来技術では、特に、複数の物体を逐次並行して追跡する際、依然解決できない問題が生じてしまう。

0008

例えば、非特許文献1に記載された技術は、物体の見かけをオンライン学習するので、複数の物体が画像データ中に存在する場合にはメモリを大量に消費し、しかもその消費量を制御することが困難であるとの問題を抱えている。例えば、展示会場公道等のように、多数の人物が存在し、且つ映像に含まれる人物が刻々変化するような状況でこの技術を適用すると、メモリ消費量が膨大となり、最終的に追跡処理ができなくなる可能性も生じる。具体的には、長時間にわたり追跡のための解析を実行する中で追跡対象となる人物のIDが増大するにつれて学習すべき人物モデルも増大し続け、結果的にメモリ資源不足する事態に陥ってしまうのである。

0009

これに対し、非特許文献2に記載された技術ではたしかに、物体の見かけをオンライン学習する必要がないので、上述したようなメモリ消費の問題が発生しない。しかしながら、非特許文献2は、あくまで追跡対象として単一の物体を設定しており、複数物体の追跡を想定していない。ここで、この非特許文献2に記載された技術をそのまま、複数物体の追跡に適用したとすると、メモリ消費の問題は発生しない一方、追跡処理対象の物体の近くに見かけの類似した物体が存在する場合に、ドリフトと呼ばれる現象の生じる可能性が高まる。

0010

ここで、ドリフトとは、近くに存在するこの見かけの類似した物体に係る画像領域を正解領域とみなし、誤った物体を追跡し始めてしまう現象である。例えば、映像中で互いに重畳する複数の人物を追跡対象とする場合に、頻発する可能性がある現象である。ところが、非特許文献2は、そもそも単一物体を追跡対象としていることもあって、このドリフトに対処する方法を何ら提案していない。

0011

ちなみに、このドリフトは、複数物体を追跡する場合、オンライン学習を利用した物体追跡においても完全に解消されている訳ではなく、依然対策の望まれているのが現状である。

0012

そこで、本発明は、複数の物体をより確実に追跡可能な装置、プログラム及び方法を提供することを目的とする。

課題を解決するための手段

0013

本発明によれば、複数の追跡対象を含み得る時系列の画像群を用い、当該画像又は該画像内の画像領域を入力した識別器からの出力に基づき、各画像における当該追跡対象の位置を決定して当該追跡対象を追跡する装置であって、
当該画像群に含まれる画像又は該画像内の画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、当該他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するマスク処理手段と、
当該画素変更処理を施された当該画像又は当該画像領域を、当該1つの追跡対象の学習及び/又は識別のために識別器へ出力する画像出力手段と
を有する対象追跡装置が提供される。

0014

この本発明の対象追跡装置における画素変更処理の一実施形態として、マスク処理手段は、少なくとも1つの当該他の追跡対象に係る処理対象領域に対し、当該画像若しくは当該画像領域における当該追跡対象以外の画像領域に基づいて決定された画素パターン、又は所定の画素パターンへの変更を行うことも好ましい。

0015

また、マスク処理手段は、画素変更処理の他の実施形態として、少なくとも1つの当該他の追跡対象に係る処理対象領域に対し、該他の追跡対象の見かけをぼかす処理を実施することも好ましい。

0016

さらに、マスク処理手段は、画素変更処理の更なる他の実施形態として、当該他の追跡対象に係る当該処理対象領域が、当該1つの追跡対象について決定された位置を含む追跡対象領域と重畳した重畳領域を有する場合、当該重畳領域に対して当該画素変更処理を実施しないことも好ましい。

0017

また、本発明による対象追跡装置は、当該他の追跡対象に係る当該処理対象領域が、当該1つの追跡対象について決定された位置を含む追跡対象領域と重畳した重畳領域を有する場合、当該1つの追跡対象に係る当該追跡対象領域を、当該重畳領域を除いた領域に変更する追跡対象領域決定部を更に有することも好ましい。

0018

さらに、本発明による対象追跡装置の一実施形態として、画像出力手段は、少なくとも1つの時点における当該画素変更処理を施された当該画像又は当該画像領域を、学習済みの識別器へ出力し、本対象追跡装置は、学習済みの識別器からの出力に基づいて、当該1つの時点での当該1つの追跡対象の位置を決定する対象位置決定手段を更に有することも好ましい。

0019

また、この実施形態において、画像出力手段は、1つの時点における当該画素変更処理を施された当該画像又は当該画像領域と、この1つの時点よりも前となる少なくとも1つの時点における当該画素変更処理を施された当該画像又は当該画像領域とを、学習済みの識別器へ出力することも好ましい。

0020

さらに、本発明に係る識別器は、各時点の当該画像又は当該画像領域を入力してこの画像又は画像領域の特徴に係る特徴情報を出力する複数の第1ニューラルネットワークと、これら複数の第1ニューラルネットワークから出力された複数の当該特徴情報を入力して当該1つの追跡対象の位置に係る情報を出力する第2ニューラルネットワークとを含むことも好ましい。

0021

また、画像出力手段は、上記の第2ニューラルネットワークに対し、当該特徴情報に対応する当該画像又は当該画像領域の時点に係る情報を、この特徴情報にづけて出力することも好ましい。

0022

さらに、画像出力手段は、本発明に係る識別器を学習させる際、少なくとも当該画素変更処理を施された当該画像又は当該画像領域と、該画像又は該画像領域における正解としての追跡対象領域の位置に係る情報との組を、識別器へ出力することも好ましい。

0023

また、本発明の対象追跡装置における画素変更処理の更なる他の実施形態として、マスク処理手段は、本発明に係る識別器を学習させる際、決定された当該処理対象領域から位置のずれたズレ処理対象領域に対し画素変更処理を実施することも好ましい。

0024

さらに、識別器についての他の実施形態として、画像出力手段は、少なくとも当該画素変更処理を施された1つの時点での当該画像又は当該画像領域を、オンラインで学習を行う識別器へ出力し、本対象追跡装置は、オンラインで学習を行っている識別器からの出力に基づいて、当該1つの時点での当該1つの追跡対象の位置を決定する対象位置決定手段を更に有することも好ましい。

0025

本発明によれば、また、複数の追跡対象を含み得る時系列の画像群を用い、当該画像又は該画像内の画像領域を入力した識別器からの出力に基づき、各画像における当該追跡対象の位置を決定して当該追跡対象を追跡する装置に搭載されたコンピュータを機能させるプログラムであって、
当該画像群に含まれる画像又は該画像内の画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、当該他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するマスク処理手段と、
当該画素変更処理を施された当該画像又は当該画像領域を、当該1つの追跡対象の学習及び/又は識別のために識別器へ出力する画像出力手段と
としてコンピュータを機能させる対象追跡プログラムが提供される。

0026

本発明によれば、さらに、複数の追跡対象を含み得る時系列の画像群を用い、当該画像又は該画像内の画像領域を入力した識別器からの出力に基づき、各画像における当該追跡対象の位置を決定して当該追跡対象を追跡する装置に搭載されたコンピュータにおける対象追跡方法であって、
当該画像群に含まれる画像又は該画像内の画像領域における処理対象領域であって、1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づき決定された処理対象領域に対し、当該他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う画素変更処理を実施するステップと、
当該画素変更処理を施された当該画像又は当該画像領域を、当該1つの追跡対象の学習及び/又は識別のために識別器へ出力するステップと
を有する対象追跡方法が提供される。

発明の効果

0027

本発明の対象追跡装置、プログラム及び方法によれば、複数の物体をより確実に追跡することができる。

図面の簡単な説明

0028

本発明による対象追跡装置を含む対象追跡システムの一実施形態を示す模式図である。
本発明による対象追跡装置の一実施形態における機能構成を示す機能ブロック図である。
本発明に係る画素変更処理(マスク処理)の一実施形態を示す模式図である。
本発明に係る画素変更処理(マスク処理)の他の実施形態を示す模式図である。
本発明に係る画素変更処理(マスク処理)の更なる他の実施形態を示す模式図である。
本発明に係る識別器の一実施形態を示す模式図である。
本発明に係る識別器の他の実施形態を示す模式図である。

実施例

0029

以下、本発明の実施形態について、図面を用いて詳細に説明する。

0030

物体追跡システム
図1は、本発明による対象追跡装置を含む対象追跡システムの一実施形態を示す模式図である。

0031

図1に示した、本実施形態の対象追跡システムは、
(a)追跡対象の物体を撮影可能であり、撮影した画像の情報を、通信ネットワークを介して時系列で送信可能な1つ又は複数のカメラ2と、
(b)カメラ2から通信ネットワークを介して取得される時系列の画像群を用い、当該物体の位置情報予測して当該物体を追跡可能な対象追跡装置1と
を備えている。

0032

ここで、追跡対象となる物体には、人物、動物、乗り物や、その他移動し得る物理対象等、撮影可能であれば様々なものが該当する。また、撮影される場所も、特に限定されるものではない。例えば、観客通勤者、買い物客労働者歩行者や、ランナー等が追跡対象として映り得る屋外であってもよく、さらには会社、学校、家庭や、店舗の内部といった屋内とすることもできる。

0033

ちなみに、本実施形態では、追跡対象となる物体(人物)が複数又は多数であって、同行したり互いにすれ違ったり、画像内において重畳したりする、従来技術の苦手としてきた環境が想定されている。

0034

また、画像情報伝送路である通信ネットワークは、例えばWi−Fi(登録商標)等の無線LAN(Local Area Network)とすることができる。または、LTE(Long Term Evolution)、WiMAX(Worldwide Interoperability for Microwave Access)又は3G(3rd Generation)等の無線系アクセスネットワークを介し、インターネットを経由してカメラ2と対象追跡装置1とを通信接続させるものであってもよい。

0035

さらに、光ファイバ網若しくはADSL(Asymmetric Digital Subscriber Line)等の固定系アクセスネットワークを介しインターネットを経由して、又はプライベートネットワークを介してカメラ2と対象追跡装置1とが通信接続されてもよい。また、変更態様として、カメラ2と対象追跡装置1とは直接有線で接続されてもよい。さらに、複数のカメラ2から出力される画像情報を取りまとめて対象追跡装置1に送信可能な(図示していない)カメラ制御装置が設けられていてもよい。

0036

同じく図1に示すように、対象追跡装置1は、取得した時系列画像群の画像、又はこの画像内の画像領域(画像パッチ)、を入力した識別器11からの出力に基づき、各画像における追跡対象の位置を決定して追跡対象を追跡する装置であって、
(A)時系列画像群に含まれる画像又はこの画像内の画像領域における「処理対象領域」に対し、1つの追跡対象以外の他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行う「画素変更処理」を実施するマスク処理部111と、
(B)この「画素変更処理」を施された画像又は画像領域を、この1つの追跡対象の学習及び/又は識別のために識別器11へ出力する画像出力部113と
を有することを特徴としている。

0037

ここで、上記(A)の「処理対象領域」は、この1つの追跡対象以外の他の追跡対象について過去の時点で又は正解として決定された位置に基づいて決定される。さらに、同じく上記(A)の「画素変更処理」の具体例として、
(A1)「処理対象領域」を所定の画素パターンを有する領域に変更してもよい。例えば、黒等の単色で塗りつぶすことができる。また、
(A2)「処理対象領域」を、追跡対象以外の画像領域に基づいて決定された画素パターンを有する領域に変更してもよい。例えば、追跡対象の背景となる背景色を決定し、この背景色で塗りつぶすことができる。さらに、
(A3)「処理対象領域」に対し、他の追跡対象の見かけをぼかす処理を行ってもよい。例えば、その周囲の色から算出した色をもってぼかすことができる。

0038

なお当然に、「画素変更処理」は上記(A1)〜(A3)の形態に限定されるものではなく、他の追跡対象の特徴を消滅させた又は減じた画素パターンへの変更を行うものであれば、種々の処理が採用可能である。

0039

このように、対象追跡装置1は、追跡対象として複数の物体を追跡する場合に、追跡処理対象である1つの物体以外の他の物体に対し「画素変更処理」を行うことによって、識別器11に入力する画像又は画像領域(画像パッチ)における他の物体の特徴を消滅又は減少させている。その結果、このような処理の施された画像又は画像領域を用い、識別器11を学習させたり、及び/又は識別器11に識別処理をさせたりすることによって、この1つの物体を他の物体と混同することなく、より確実に特定し続けることが可能となる。

0040

言い換えれば、以上に説明したような本発明の「画像オブジェクトマスク手法」を用いることによって、追跡処理対象の物体の近くに見かけの類似した物体が存在する場合でも、従来問題となってきたドリフトの発生を抑制することが可能となるのである。ここで、ドリフトとは、近くに存在するこの類似した物体に係る画像領域を、正解の領域だとみなし、誤った物体を追跡し始めてしまう現象である。

0041

ちなみに、本発明の「画像オブジェクトマスク手法」は、メモリ消費量(計算コスト)の増大の問題を解決すべくオンライン学習を行わない追跡処理に対しても、一方、従来主流であったオンライン学習を行う追跡処理に対しても適用することができる。このうちオンライン学習を行わない複数物体の追跡処理に適用された場合には、メモリ消費量(計算コスト)増大の抑制と、ドリフト発生の抑制とを両立することが可能となる。一方、オンライン学習を行う追跡処理に適用された場合には、ドリフトの解消をより進めることができる。

0042

いずれにしても、本発明の「画像オブジェクトマスク手法」は、誤追跡を抑制し、複数物体の追跡をより確実にする技術であるが、特に、上記の前者のケースである非オンライン学習下でのマルチトラッキングを実現するのに非常に重要な技術となるのである。

0043

なお、装置1で取り扱われる時系列画像群は、本実施形態のようなカメラ撮影によって生成された画像データに限定されるものではない。追跡対象の実際の位置や見かけに関係するデータであれば、様々なものが該当する。例えば、デプスカメラによって生成される(対象の各画素の)デプス値情報を、画像データとして利用することも可能である。

0044

また、対象追跡装置1は、本実施形態において、刻々と取得される画像内に張られた画像座標系u-vでの位置座標(u, v)を、実空間に張られた世界座標系Gx-Gy-Gzでの位置座標(gx, gy, gz)へ変換する座標変換操作を用いて、追跡対象物体の映った画像情報から、実空間での位置に係る情報を算出している。例えば、追跡対象物体の画像内における前時刻t−1での位置(u, v)が、現時刻tでの位置(u', v')へ変化した場合、この物体は、実空間(観測対象空間)において前時刻t−1での位置(gx, gy, gz)から現時刻tでの位置(gx', gy', gz')へ移動したことが推定され、実空間での位置の前時刻t−1からの変化分を取得することができる。

0045

ここで、使用する時刻は、単位時間を1としてこの単位時間経過毎に設定される時刻であり、時刻tの1つ前となる時刻はt−1となる。また、上記のような画像座標系から世界座標系への座標変換は、予めキャリブレーションにより各カメラ2についての設置位置及び撮影向きに係る外部パラメータを設定しておくことによって決定することが可能である。なお、複数のカメラ2のそれぞれから画像が取得される場合でも、これらの画像を統合して1つの画像空間構築し、この画像空間に画像座標系を適用することができる。

0046

このように、対象追跡装置1は、本実施形態において、刻々と取得される画像情報(画像座標系u-vでの位置情報)に基づき、追跡対象物体の実空間での位置情報(世界座標系Gx-Gy-Gzでの位置情報)を推定することができるのである。

0047

装置構成、対象追跡方法]
図2は、本発明による対象追跡装置の一実施形態における機能構成を示す機能ブロック図である。

0048

図2によれば、対象追跡装置1は、1つ又は複数のカメラ2と通信接続可能な通信インタフェース101と、画像蓄積部102と、マスク処理画像蓄積部103と、識別モデル蓄積部104と、対象情報記憶部105と、プロセッサ・メモリとを有する。ここで、プロセッサ・メモリは、対象追跡装置1のコンピュータを機能させるプログラムを実行することによって、対象追跡機能を実現させる。

0049

さらに、プロセッサ・メモリは、機能構成部として、マスク処理部111と、追跡領域決定部112と、識別器11と、学習部113a及び識別部113bを含む画像出力部113と、対象位置決定部114と、追跡対象管理部115と、通信制御部121とを有する。なお、図2における対象追跡装置1の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象追跡方法の一実施形態としても理解される。

0050

同じく図2において、カメラ2は、例えば、CCDイメージセンサCMOSイメージセンサ等の固体撮像素子を備えた可視光近赤外線又は赤外線対応の撮影デバイスである。なお、上述したように、カメラ2としてデプスカメラを用いることも可能である。また、カメラ2又は(図示していない)カメラ制御装置は、カメラ2で撮影された物体の画像を含む撮影画像データを生成し、当該データを時系列に又はバッチで対象追跡装置1に送信する機能を有する。また、カメラ2は、可動であって設置位置、撮影向きや高さを変更することができ、この変更のための制御信号を受信し処理する機能を有していることも好ましい。

0051

通信インタフェース101は、時系列の画像群である撮影画像データを、カメラ2又はカメラ制御装置から通信ネットワークを介して受信する。通信インタフェース101を使用した送受信及び通信データ処理の制御は、通信制御部121によって行われ、取得された撮影画像データ(画像ファイル)は、画像蓄積部102に蓄積される。ここで、この撮影画像データは、カメラ2又はカメラ制御装置から時系列順に呼び出されて取得されたものであってもよく、リアルタイムに一定時間間隔キャプチャされた画像を順次取得したものであってもよい。

0052

マスク処理部111は、画像蓄積部102から読み出された時系列画像群に含まれる画像又はこの画像内の画像領域における処理対象領域に対し、追跡処理対象である1つの物体以外の他の物体の特徴を消滅させた又は減じた画素パターンへの変更を行うマスク処理(画素変更処理)を実施する。

0053

ここで、マスク処理を施す処理対象領域は、これらの他の物体について(a)過去の時点で、又は(b)正解として、決定された位置に基づき決定される。例えば、時刻tにおける処理対象領域を、時刻t−1における当該他の物体の正解画像領域としてもよい。ちなみに、マスク処理部111は、過去の時刻における画像(又は画像領域)で決定された追跡対象領域の情報を、後述する対象位置決定部114から取得することができる。

0054

いずれにしても、本実施形態のマスク処理は、識別器11への入力となる画像や画像領域(画像パッチ)に他物体の見かけが全く又は鮮明に写り込まないようにするための処理となっている。なお、マスク処理部111で処理を施されたマスク処理画像又は画像領域は、マスク処理画像蓄積部103に保存しておき、適宜読み出して使用されることも好ましい。

0055

ここで、マスク処理部111で実施されるマスク処理としては、すでに簡潔に説明した以下の3つ、すなわち
(A1)処理対象領域を所定の画素パターンを有する領域に変更する処理、
(A2)処理対象領域を追跡対象の背景となる画像領域に基づいて決定された画素パターンを有する領域に変更する処理、及び
(A3)処理対象領域に対し、他の追跡対象の見かけをぼかす処理
を挙げることができる。

0056

このうち、上記(A1)のマスク処理の具体例として、処理対象領域を黒等の単色で塗りつぶしてもよい。ちなみに、このようなマスク処理を施されたマスク処理画像又は画像領域を用いて(教師データとして)、識別器11を学習させる場合、(黒等の単色パターンといった)所定画素パターンの部分は追跡対象物体の領域ではない、との負の学習を積極的に行わせていると捉えることもできる。また、換言すれば、所定画素パターンの部分を除いた画像領域内に追跡対象物体の領域が存在する、との学習を行わせているとも言えるのである。

0057

また、上記(A2)のマスク処理の具体例として、公知の背景モデリング手法を用いて、画像中の背景モデルを学習し、処理対象領域を学習された背景色をもって塗りつぶしてもよい。ここで、背景モデルとして、例えば各画素(ピクセル)の色を複数時刻での平均色としたものを採用してもよく、又は各画素における背景色の分布混合ガウス分布によってモデル化したものを用いることも可能である。

0058

この混合ガウス分布を用いた背景モデリング手法は、例えば非特許文献:P. KadewTraKuPong and R. Bowden, "An improved adaptive background mixture model for real-time tracking with shadow detection", Video-Based Surveillance Systems, Computer Vision and Distributed Processing, 2002年,134〜144頁、及び非特許文献:T. Bouwmans, F. El Baf, B. Vachon, "Background Modeling using Mixture of Gaussians for Foreground Detection - A Survey", Recent Patents on Computer Science. 1, 2008年,219〜237頁に記載されている

0059

さらに、上記(A3)のマスク処理においては、他の追跡対象の周囲の色から算出した色でぼかしてもよく、画像の平滑化処理と同様の手法でマスク処理対象領域をぼかすことができる。具体的には、所定のカーネルを設定して、マスク処理対象領域に対してカーネルとの畳み込み演算を行うことによって平滑化処理を行ってもよい。

0060

図3は、本発明に係る画素変更処理(マスク処理)の一実施形態を示す模式図である。

0061

図3(A)に示すように、取得された時系列画像群から、追跡処理における現時点となる現時刻tと、1つ前の時刻t'(=t−1)との2枚の画像を用いて追跡を行う際のマスク処理について説明する。なお、このような2枚の画像を識別器11に入力して追跡を行う具体的方法については、後に、図6を用いて詳細に説明する。また同じく後に詳述するが、時刻t'よりも過去の時刻t''(t''<t')の画像を含む3枚、若しくは4枚以上の画像を用いてマスク処理を伴う追跡を実施することも可能である。

0062

本実施形態では、時刻tと時刻t'との2枚の画像から、時刻tにおける1つの追跡対象である物体iに係る矩形の画像領域である追跡対象領域(cut, cvt, wt, ht)を推定することによって追跡処理を実施する。ここで、cut及びcvtはそれぞれ、画像座標系における追跡対象領域の中心(物体iの中心)のu座標及びv座標であり、wt及びhtはそれぞれ、追跡対象領域の幅及び高さである。

0063

最初に、図3(B)に示すように、時刻t及び時刻t'(=t−1)の各画像において、時刻t'における物体i以外の物体の追跡対象領域(cut', cvt', wt', ht')に基づいて、マスク処理を行う画像領域であるマスク処理対象領域を決定する。例えば、マスク処理対象領域を、物体i以外の物体の追跡対象領域を含む領域(cut', cvt', A・wt', B・ht')とすることができる。

0064

ここで、A=B=1とすれば、マスク処理対象領域は、物体i以外の物体の追跡対象領域そのものとなる。このマスク処理対象領域をどの程度の大きさ(面積)にするかは、追跡精度に大きく影響し得る設計事項となる。例えば、物体iの追跡対象領域と重畳する確率が所定以下となる範囲で、より大きい面積に設定することも好ましい。

0065

ちなみに、上述したように3枚以上の画像を用いる実施形態でも上記と同様に、1つの時刻(例えば、現時刻tを除く最も新しい時刻、中間となる時刻、若しくは最も古い時刻)における物体i以外の物体の追跡対象領域に基づいて、マスク処理対象領域を決定することができる。いずれにしても、マスク処理部111(図2)は、以上のように決定されたマスク処理対象領域に対し、上述したようなマスク処理(画素変更処理)を実施するのである。

0066

次いで、同じく図3(B)に示すように、マスク処理を施された時刻t及び時刻t'(=t−1)の各画像に対し、基準となる画像領域を設定して、この基準画像領域から切り取り対象領域を決定する。この切り取り対象領域の画像部分が、後に各画像から切り取られて識別器11へ入力される画像領域(画像パッチ)となる。

0067

ここで、基準画像領域を時刻t'(=t−1)での追跡対象領域(cxt', cyt', wt', ht')とした場合、切り取り対象領域は、例えば(cxt', cyt', C・wt', D・ht')としてもよい。ここで、C=D=2とすれば、切り取り対象領域は、追跡対象領域を含むその4倍の面積を有する領域となる。

0068

ちなみに、上述したように3枚以上の画像を用いる実施形態でも同様に、1つの時刻(例えば、現時刻tを除く最も新しい時刻、中間となる時刻、若しくは最も古い時刻)における物体i以外の物体の追跡対象領域に基づいて、切り取り対象領域を決定することができる。いずれにしても、次いで、決定された切り取り対象領域から画像部分(画像パッチ)を切り取って、この画像パッチを識別器11に入力させ、この識別器11の出力から時刻tにおける物体iの追跡対象領域を決定したり、識別器11を学習させたりするのである。

0069

なお当然に、マスク処理対象領域及び切り取り対象領域の基準となる基準画像領域は、現時刻tより前の時刻における追跡対象領域に限定されるものではない。すなわち、基準画像領域を、以上述べたように各時刻の画像において同一の(同一座標範囲の)画像領域としてもよいが、時刻毎に異なる画像領域となるように設定することもできる。例えば、各時刻の画像において、前時刻(例えば1つ前の時刻)の追跡対象領域を基準画像領域としてもよく、物体位置軌跡情報から予測される当該時刻での画像領域を基準画像領域とすることも可能である。

0070

図4は、本発明に係る画素変更処理(マスク処理)の他の実施形態を示す模式図である。

0071

本実施形態では、図4(A)に示すように、1つの時刻のマスク処理画像において、1つの追跡対象である物体iの追跡対象領域と、他の物体のマスク処理対象領域とが重畳している場合に、識別精度を維持又は向上させるための処置を行う。実際、このように重畳している場合、物体iに係る画像情報の一部がマスク処理に係る画素情報に置き換わることになるので、識別器11は、入力したこのようなマスク処理画像(又は画像パッチ)から、識別のための又は学習のための正しい情報の一部を受け取れなかったり、逆に正しくない情報を受け入れたりしてしまう。

0072

そこで、本実施形態では、図4(B)に示すように、1つ以上存在するマスク処理対象領域のうちの1つでも、物体iの追跡対象領域と重畳した重畳領域を有する場合、この(1つ以上の)重畳領域に対してはマスク処理(画素変更処理)を実施しないでおく。これにより、追跡対象領域内の正しい情報を識別器11に全部受け取らせることができる。

0073

また、変更態様として、図4(C)に示すように、1つ以上存在するマスク処理対象領域のうちの1つでも、物体iの追跡対象領域と重畳した重畳領域を有する場合、この物体iの追跡対象領域を、この(1つ以上の)重畳領域を除いた領域に変更することも好ましい。ちなみに、このような領域変更処理は、追跡領域決定部112(図2)で実施される。

0074

ここで、識別器11に入力される画像パッチを決める切り取り対象領域は、この変更された追跡対象領域に基づいて設定されることになる。また、このような重畳領域を排除した画像パッチを識別器11に入力させた場合、この識別器11の出力に基づいて推定された領域から、物体iの追跡対象領域全体を、先の変更を戻す形で決定してもよい。

0075

図5は、本発明に係る画素変更処理(マスク処理)の更なる他の実施形態を示す模式図である。

0076

本実施形態では、特に3枚以上の画像を用いる場合等、画像の時刻が互いに所定以上離隔している場合に、マスク処理対象領域が物体i以外の物体の実際の画像位置から大きくずれないようにするための処置を行う。

0077

例えば、図5(A)に示すように、時系列画像群から、現時刻tの画像と、現時刻tから過去に遡って所定以上離隔した時刻t''(t''<t)の画像とを含む2枚以上の画像群を取り出し、マスク処理を行う場合を説明する。この場合、時刻t''の画像においては、例えば、物体i以外の他の物体の追跡対象領域をマスク処理対象領域としてマスク処理を実施してもよいが、一方、時刻tの画像においては、これら他の物体のおおよその位置範囲にマスク処理を実施することも好ましい。

0078

ここで、時刻tにおける他の物体のおおよその位置範囲としては、例えば、図5(B)に示すように、各他の物体における時刻t''周辺での平均速度ベクトルv(t'')を算出して、時刻t''から時刻tまでの推定移動ベクトルrを、次式
(1) r=v(t'')・(t''−t)
によって決定し、時刻t''における各他の物体の追跡対象領域を各他の物体の推定移動ベクトルr分だけ並行移動させた領域を、時刻tの画像における各他の物体のマスク処理対象領域としてもよい。

0079

また、変更態様として、各他の物体の位置についての時刻t''から時刻t-1までの軌跡情報に基づいて、時刻tでの位置を予測し、マスク処理対象領域を決定することも可能である。

0080

さらに、変更態様として、マスク処理部111(図2)は、識別器11を学習させる際、以上説明したように決定されたマスク処理対象領域から位置のずれたズレ処理対象領域に対し、マスク処理を実施してもよい。ここで、位置のずれは、ランダムな向きにおける所定範囲内でのランダムなずれ量だけのずれであってもよく、予め設定された所定向きの所定ずれ量だけのずれとすることもできる。識別器11は、このようなズレ処理対象領域に係るマスク処理画像(画像パッチ)を予め学習しておくことによって、実際の検出(識別)の際、マスク処理された領域が実際のマスクすべき物体の位置からある程度ずれている可能性の少なくないマスク処理画像(画像パッチ)に対し、より適切な検出(識別)を実施することが可能となるのである。

0081

図2に戻って、画像出力部113は、以上に説明したようなマスク処理(画素変更処理)を施された1つ若しくは複数の時刻の画像又は画像領域を、識別器11へ出力する。ここで、画像出力部113の学習部113aは、マスク処理画像又はマスク処理画像領域(画像パッチ)を、1つの追跡対象である物体iの学習のために識別器11へ出力する。

0082

一方、画像出力部113の識別部113bは、マスク処理画像又はマスク処理画像パッチを、物体iの識別のために識別器へ出力する。ここで、複数物体追跡(マルチトラッキング)を行うに当たっては、追跡対象である物体を1つ1つ順に物体iとして取り扱うマスク処理を行い、このマスク処理画像(画像パッチ)を用いて識別器11に対し1つ1つの物体の識別(物体の画像領域位置の決定)を順次行わせることになる。

0083

ちなみに、マスク処理画像(マスク処理画像パッチ)の入力は、識別器11による識別の際だけに行われてもよい。この場合、識別器11の学習は、マスク処理を施していない画像(画像パッチ)の入力によって行われる。また、識別器11の学習の際だけにマスク処理画像(マスク処理画像パッチ)の入力が行われてもよいが、学習及び識別の両方でマスク処理画像(マスク処理画像パッチ)の入力が行われることも好ましい。すなわち、マスク処理画像(マスク処理画像パッチ)で学習した識別器11を用いて、マスク処理済みの画像(画像パッチ)における識別を実施することも好ましいのである。

0084

次いで、識別器11(図2)における、非オンライン学習タイプ及びオンライン学習タイプの2つの実施形態をそれぞれ、図6及び図7を用いて説明する。

0085

図6は、本発明に係る識別器の一実施形態を示す模式図である。

0086

図6に示すように、識別器11は、本実施形態において、
(a)各時点の画像又は画像領域(画像パッチ)を入力してこれらの特徴に係る特徴情報を出力する複数の第1ニューラルネットワークとしての畳み込み層部(Convolutional Layers)と、
(b)これらの畳み込み層部から出力された複数の特徴情報を入力して1つの追跡対象の位置に係る情報を出力する第2ニューラルネットワークとしての全結合層部(Fully-Connected Layers)と
を含む。

0087

ここで、上記(a)の畳み込み層部は、動物の視覚野の単純細胞の働きを模した機能を有し、画像に対しカーネル(重み付け行列フィルタ)をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジ勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。

0088

例えば、畳み込み層部として、5層の畳み込み層を用いたAlexNetを用いることが可能である。このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここで、プーリング処理とは、動物の視覚野の複雑細胞の働きを模した処理であり、畳み込み層から出力される特徴マップ(一定領域内の畳み込みフィルタの反応)を最大値平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。AlexNetについては、例えば、Krizhevsky, A., Sutskever, I., and Hinton, G. E.,"Imagenet classification with deep convolutional neural networks",Advances in Neural Information Processing Systems 25,2012年,1106〜1114頁に記載されている。

0089

さらに、上記の畳み込み層部及び全結合層部として、例えば、非特許文献2に記載されたニューラルネットワークを採用してもよい。ちなみに、本実施形態において、畳み込み層部(第1ニューラルネットワーク)の数は2つでもよいが、より高い識別精度(追跡精度)を実現すべく、図6に示すように3つ以上とすることも好ましい。

0090

識別器11は、各時点での追跡対象検出(識別)処理を行う前に、予めオフラインで学習を行っている。具体的に、
(a)時間的に前後する2つ又は3つ以上の画像(又は画像パッチ)の組と、
(b)各画像(又は各画像パッチ)における正解追跡対象領域の位置及び範囲を定義する4次元ベクトル(CUC,CVC, CW, CH)と
を含むデータセットを、画像出力部113の学習部113aから大量に入力して学習を行う。

0091

ここで、CUC及びCVCはそれぞれ、正解画像領域のu軸方向の物体中心及びv軸方向の物体中心である。また、CW及びCHはそれぞれ、正解画像領域矩形の幅及び高さである。なお、入力が画像パッチの場合、CUC値及びCVC値の基づく座標系は、当該画像パッチの局所座標系となる。また、入力される画像(画像パッチ)は、上述したようなマスク処理を施されたマスク処理画像(画像パッチ)であることも好ましい。

0092

なお、このように学習を行った識別器11で生成された識別モデルは、識別モデル蓄積部104(図2)に保存されることも好ましい。例えば、保存された識別モデルが外部の識別器に移植されて利用されてもよい。

0093

次いで、追跡対象である複数の物体の検出(識別)においては、識別器11の複数の畳み込み層部は、画像出力部113の識別部113b(図2)から、時刻tのマスク処理画像(画像パッチ)を含むマスク処理画像(画像パッチ)群を入力する。ここで、各畳み込み層部は、学習の際に設定された時間間隔を有する複数時刻の各々を、学習の際と同様の時間の順番(時刻の割り当て)で入力することも好ましい。

0094

図6では、図中最上の畳み込み層部に、現時刻tのマスク処理画像(画像パッチ)が入力され、図中上から2つ目の畳み込み層部に、時刻t'(t'<t)のマスク処理画像(画像パッチ)が入力され、図中上から3つ目の畳み込み層部に、時刻t''(t''<t')のマスク処理画像(画像パッチ)が入力されている。ここで、本実施形態では、学習の際、図中最上の畳み込み層部、上から2つめの畳み込み層部、及び上から3つめの畳み込み層部はそれぞれ、ある時刻T、時刻(T−t+t')、及び時刻(T−t+t'')の画像(画像パッチ)若しくはマスク処理画像(画像パッチ)を入力して学習している。

0095

また、追跡対象である複数の物体の検出(識別)において、識別器11(複数の畳み込み層)は、複数の物体の各々を識別対象としたマスク処理を施した画像(画像パッチ)を
次入力(して識別結果を出力)することにより、マルチトラッキングを実現する。

0096

次いで、以上説明したようにマスク処理画像(画像パッチ)を入力した畳み込み層から出力された特徴量を入力した全結合層は、最終的に、4次元ベクトル(UC,VC, W, H)を出力する。ここで、UC及びVCはそれぞれ、入力されたマスク処理画像(画像パッチ)における識別対象の物体についての追跡対象領域のu軸方向の物体中心及びv軸方向の物体中心である。また、W及びHはそれぞれ、この追跡対象領域矩形の幅及び高さである。なお、入力が画像パッチの場合、UC値及びVC値の基づく座標系は、当該画像パッチの局所座標系となる。

0097

さらに、同じく図6に示すように変更態様として、画像出力部113(図2)は、識別器11の学習及び識別の際、全結合層部(第2ニューラルネットワーク)に対し、畳み込み層部から出力される特徴情報に対応する画像(画像パッチ)における時点に係る情報(図6では画像間の時間間隔Δt)を、この特徴情報に紐づけて出力してもよい。これにより、識別器11は入力される複数の画像(画像パッチ)の時刻に係る情報をも学習することができ、それに基づいてより精度の高い検出(識別)を実施することも可能となる。また、識別器11に入力される複数の画像(画像パッチ)における、時刻についてのバラティを確保することもできるのである。

0098

以上いずれにしても、識別器11は、画像出力部113から、その段階で追跡対象物体以外となる物体に対しマスク処理の施された画像(画像パッチ)を入力するので、追跡対象物体の識別精度が向上し、ドリフトの発生を抑制することが可能となるのである。

0099

図7は、本発明に係る識別器の他の実施形態を示す模式図である。

0100

図7によれば、本実施形態の識別器11'は、畳み込み層を含む畳み込みニューラルネットワーク(CNN)の出力側に、機械学習を実施可能なサポートベクタマシンSVM)を接続した構成を有する。

0101

この識別器11'は、画像出力部113から刻々に入力される(現時刻tの)マスク処理画像領域(画像パッチ)をオンラインで学習しつつ、このマスク処理画像パッチに対し、この画像パッチに映っているものが追跡対象物体か否かの2値判定を行う。具体的には、特徴空間において識別境界面を生成・更新しつつ、この識別境界面からの符号付き距離dを信頼度として算定し、信頼度が所定閾値以上であるか否かの判定を行うのである。なお、このような識別器を用いた物体追跡については、例えば、S. Hare, A. Saffari and P. H. S. Torr,"Struck: Structured Output Tracking with Kernels",Publications of International Conference on Computer Vision (ICCV), 2011年,263〜270頁に記載されている。

0102

なお、画像出力部113が刻々に出力する(現時刻tの)マスク処理画像パッチは、時刻tでの正解の追跡対象領域となり得る複数の画像パッチ候補とすることができる。この場合、識別器11'は、これらの候補のうちから正解の追跡対象領域を判別するのである。

0103

以上説明したように、識別器11'は、画像出力部113から、その段階で追跡対象物体以外となる物体に対しマスク処理の施された画像(画像パッチ)を入力するので、追跡対象物体の識別精度が向上し、ドリフトの発生を抑制することが可能となる。

0104

図2に戻って、対象位置決定部114は、学習済みの識別器11からの出力に基づいて、現時刻tでの追跡対象物体の位置を決定する。具体的には、追跡対象である複数の物体の各々について、識別器11から出力された4次元ベクトル(UC,VC, W, H)に基づいて、最終的に時刻tの画像における追跡対象領域(cut, cvt, wt, ht)を算出する。また変更態様として、対象位置決定部114は、オンラインで学習している識別器11'(図7)からの出力に基づいて、現時刻tでの追跡対象物体の位置を決定してもよい。

0105

追跡対象管理部115は、対象位置決定部114で決定された、追跡対象である複数の物体の各々における追跡対象領域(cut, cvt, wt, ht)の情報から、これら複数の物体の各々について、時刻毎に(実空間に張られた)世界座標系Gx-Gy-Gzにおける位置を対応付け追跡履歴情報動線情報)を生成し、管理する。1つの応用例として、これにより、店舗内で滞留・移動する多数の店員や客等の動線をより正確に把握することも可能となる。

0106

また、生成された追跡履歴情報(動線情報)は、生成・更新される毎に、又は適宜、対象情報記憶部105に記憶されることも好ましい。また、通信制御部121及び通信インタフェース101を介し、外部の情報処理装置3に送信されてもよい。

0107

以上詳細に説明したように、本発明は、追跡対象として複数の物体を追跡する場合に、追跡処理対象である1つの物体以外の他の物体に対し「画素変更処理」を行うことによって、識別器に入力する画像又は画像領域における他の物体の特徴を消滅又は減少させている。その結果、このような処理の施された画像又は画像領域を用い、識別器を学習させたり、及び/又は識別器に識別処理をさせたりすることによって、この1つの物体を他の物体と混同することなく、より確実に特定し続けることが可能となる。

0108

言い換えれば、以上に説明した本発明の「画像オブジェクトマスク手法」を用いることによって、追跡処理対象の物体の近くに見かけの類似した物体が存在する場合でも、従来問題となってきたドリフトの発生を抑制することが可能となるのである。

0109

ちなみに、この「画像オブジェクトマスク手法」は、特に、オンライン学習を行わないマルチトラッキング処理に適用された場合に、メモリ消費量(計算コスト)増大の抑制と、ドリフト発生の抑制との両立を可能にする非常に重要な技術となる。

0110

また、本発明の構成及び方法は、例えば、多数の人物が移動・滞留したり出入りする場を監視する監視システム、及び商店街や商業・サービス施設内での人物の入店、休憩観戦イベント参加や、移動の状況を調査するためのマーケティング調査システム等、様々な系に適用可能である。

0111

以上に述べた本発明の種々の実施形態において、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

0112

1対象追跡装置
101通信インタフェース
102画像蓄積部
103マスク処理画像蓄積部
104識別モデル蓄積部
105対象情報記憶部
11、11'識別器
111マスク処理部
112追跡領域決定部
113画像出力部
113a 学習部
113b識別部
114 対象位置決定部
115追跡対象管理部
121通信制御部
2カメラ
3 情報処理装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ