図面 (/)

技術 物体追跡装置及び物体追跡方法

出願人 KDDI株式会社
発明者 石川彰夫服部元
出願日 2018年4月4日 (2年3ヶ月経過) 出願番号 2018-072320
公開日 2019年10月24日 (8ヶ月経過) 公開番号 2019-185210
状態 未査定
技術分野 学習型計算機 イメージ分析
主要キーワード 伝搬制御 機械学習モデル 時系列フィルタ 事前確率分布 事後確率分布 RANSAC法 サンプル集合 予測サンプル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年10月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

動画像に含まれる物体を追跡する精度を向上させる物体追跡装置及び物体追跡方法を提供する。

解決手段

物体追跡装置1は、動画像を取得する動画像取得部131と、前フレーム画像及び現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる被写体の種別出力可能機械学習モデルに含まれる複数の処理層伝搬させる伝搬制御部132と、複数の処理層から選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、現フレーム出力と前フレーム出力とを抽出する抽出部133と、現フレーム特徴点と前フレーム特徴点とを検出する特徴点検出部137と、現フレーム特徴点の位置と、遷移パーティクルの位置とを比較することにより、遷移後パーティクルの尤度推定する尤度推定部139と、推定された尤度に基づいて、動画像に含まれる物体を追跡する追跡部140と、を有する。

概要

背景

従来、パーティクルフィルタを用いて動画像に含まれる物体を追跡する装置が知られている。特許文献1には、パーティクルフィルタを用いて物体の輪郭形状を追跡する技術が開示されている。

概要

動画像に含まれる物体を追跡する精度を向上させる物体追跡装置及び物体追跡方法を提供する。物体追跡装置1は、動画像を取得する動画像取得部131と、前フレーム画像及び現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる被写体の種別出力可能機械学習モデルに含まれる複数の処理層伝搬させる伝搬制御部132と、複数の処理層から選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、現フレーム出力と前フレーム出力とを抽出する抽出部133と、現フレーム特徴点と前フレーム特徴点とを検出する特徴点検出部137と、現フレーム特徴点の位置と、遷移パーティクルの位置とを比較することにより、遷移後パーティクルの尤度推定する尤度推定部139と、推定された尤度に基づいて、動画像に含まれる物体を追跡する追跡部140と、を有する。

目的

本発明はこれらの点に鑑みてなされたものであり、動画像に含まれる物体を追跡する精度を向上させることができる物体追跡装置及び物体追跡方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

撮像装置で生成された動画像を取得する動画像取得部と、前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体種別出力可能機械学習モデルに含まれる複数の処理層伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記現フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の現フレーム出力と前記前フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の前フレーム出力とを抽出する抽出部と、前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出する特徴点検出部と、前記前フレーム画像に関連付けて複数の遷移パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度推定する尤度推定部と、前記尤度推定部が推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡する追跡部と、を有する物体追跡装置

請求項2

前記抽出部は、前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する後段抽出部と、前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層から出力された複数の前段現フレーム出力、及び前記前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する前段抽出部と、を有する、請求項1に記載の物体追跡装置。

請求項3

前記前段抽出部は、前記複数の前段現フレーム出力及び前記複数の前段前フレーム出力のうち、活性化している大きさに基づいて、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を抽出する、請求項2に記載の物体追跡装置。

請求項4

前記機械学習モデルは、畳み込みニューラルネットワークを含み、前記後段処理層は、出力層、全結合層正規化層、プーリング層、及び畳み込み層のうちのいずれかの層である、請求項2又は3に記載の物体追跡装置。

請求項5

前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、請求項4に記載の物体追跡装置。

請求項6

前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の現フレーム出力及び前記一以上の前フレーム出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出する、請求項1から5のいずれか一項に記載の物体追跡装置。

請求項7

前記尤度推定部は、前記遷移後パーティクルが前記一以上の現フレーム特徴点の位置に近ければ近いほど尤度が大きくなるように推定する、請求項1から6のいずれか一項に記載の物体追跡装置。

請求項8

前記尤度推定部は、前記一以上の現フレーム特徴点の位置と、前記一以上の前フレーム特徴点をパーティクルとして用いた一以上の前記遷移前パーティクルを前記所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の前記遷移後パーティクルそれぞれの尤度を推定する、請求項1から7のいずれか一項に記載の物体追跡装置。

請求項9

前記尤度推定部は、尤度を推定する場合において、尤度を次回以降に推定する場合と異なる規則に基づいて前記前フレーム画像に配置した前記複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する、請求項1から8のいずれか一項に記載の物体追跡装置。

請求項10

前記尤度推定部は、前記一以上の前フレーム特徴点に対応する前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する、請求項1から9のいずれか一項に記載の物体追跡装置。

請求項11

前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、請求項1から10のいずれか一項に記載の物体追跡装置。

請求項12

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出する、請求項1から11のいずれか一項に記載の物体追跡装置。

請求項13

撮像装置で生成された動画像を取得するステップと、前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記現フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の現フレーム出力と前記前フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の前フレーム出力とを抽出するステップと、前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出するステップと、前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成するステップと、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定するステップと、推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡するステップと、を有する物体追跡方法

請求項14

前記抽出するステップは、前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する前段抽出ステップと、前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層から出力された複数の前段現フレーム出力、及び前記前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する後段抽出ステップと、を有する、請求項13に記載の物体追跡方法。

請求項15

前記前段抽出ステップを実行した後に、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を、前記複数の後段現フレーム出力及び前記複数の後段前フレーム出力として、前記後段抽出ステップを実行する、請求項14に記載の物体追跡方法。

請求項16

前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、請求項14又は15に記載の物体追跡方法。

技術分野

0001

本発明は、動画像に含まれる物体を追跡する物体追跡装置及び物体追跡方法に関する。

背景技術

0002

従来、パーティクルフィルタを用いて動画像に含まれる物体を追跡する装置が知られている。特許文献1には、パーティクルフィルタを用いて物体の輪郭形状を追跡する技術が開示されている。

先行技術

0003

特開2009−224924号公報

発明が解決しようとする課題

0004

ところで、パーティクルフィルタを用いて動画像に含まれる物体を追跡する場合、フレーム画像から取得した観測値に基づいて推定した、移動後の各パーティクル尤度を用いる。この場合において、例えば、大きさ又は向きが変化する物体を追跡する場合、複数のフレーム画像間における物体の差異が大きくなり、尤度を推定する精度が悪くなる。また、類似する複数の物体それぞれを追跡する場合、物体の大きさ又は向きが変化することによって複数の物体それぞれの区別ができなくなり、尤度を推定する精度が悪くなる。その結果として、物体を追跡する精度が悪くなるという問題があった。

0005

そこで、本発明はこれらの点に鑑みてなされたものであり、動画像に含まれる物体を追跡する精度を向上させることができる物体追跡装置及び物体追跡方法を提供することを目的とする。

課題を解決するための手段

0006

本発明の第1の態様に係る物体追跡装置は、撮像装置で生成された動画像を取得する動画像取得部と、前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別出力可能機械学習モデルに含まれる複数の処理層伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記現フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の現フレーム出力と前記前フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の前フレーム出力とを抽出する抽出部と、前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出する特徴点検出部と、前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定する尤度推定部と、前記尤度推定部が推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡する追跡部と、を有する。

0007

前記抽出部は、前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する後段抽出部と、前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層から出力された複数の前段現フレーム出力、及び前記前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する前段抽出部と、を有してもよい。

0008

前記前段抽出部は、前記複数の前段現フレーム出力及び前記複数の前段前フレーム出力のうち、活性化している大きさに基づいて、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を抽出してもよい。

0009

前記機械学習モデルは、畳み込みニューラルネットワークを含み、前記後段処理層は、出力層、全結合層正規化層、プーリング層、及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、全結合層、正規化層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。

0010

前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の現フレーム出力及び前記一以上の前フレーム出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出してもよい。

0011

前記尤度推定部は、前記遷移後パーティクルが前記一以上の現フレーム特徴点の位置に近ければ近いほど尤度が大きくなるように推定してもよい。

0012

前記尤度推定部は、前記一以上の現フレーム特徴点の位置と、前記一以上の前フレーム特徴点をパーティクルとして用いた一以上の前記遷移前パーティクルを前記所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の前記遷移後パーティクルそれぞれの尤度を推定してもよい。

0013

前記尤度推定部は、尤度を推定する場合において、尤度を次回以降に推定する場合と異なる規則に基づいて前記前フレーム画像に配置した前記複数の遷移前パーティクルを生成し、前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定してもよい。

0014

前記尤度推定部は、前記一以上の前フレーム特徴点に対応する前記一以上の現フレーム特徴点の位置と、前記複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定してもよい。

0015

前記物体追跡装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。

0016

前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の現フレーム出力及び前記一以上の前フレーム出力を抽出してもよい。

0017

本発明の第2の態様に係る物体追跡方法は、撮像装置で生成された動画像を取得するステップと、前記動画像に含まれるフレーム画像である前フレーム画像及び前記動画像に含まれる前記前フレーム画像の後のフレーム画像である現フレーム画像のそれぞれに、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、前記現フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の現フレーム出力と前記前フレーム画像に基づいて前記後段処理層及び前記前段処理層から出力された一以上の前フレーム出力とを抽出するステップと、前記一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ前記一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出するステップと、前記前フレーム画像に関連付けて複数の遷移前パーティクルを生成するステップと、前記一以上の現フレーム特徴点の位置と、前記複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた複数の遷移後パーティクルの位置とを比較することにより、前記複数の遷移後パーティクルそれぞれの尤度を推定するステップと、推定した前記尤度に基づいて前記複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、前記動画像に含まれる物体を追跡するステップと、を有する。

0018

前記抽出するステップは、前記現フレーム画像が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段現フレーム出力、及び前記前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する前段抽出ステップと、前記一以上の後段現フレーム出力及び前記一以上の後段前フレーム出力を活性化させる要因となった前記前段処理層から出力された複数の前段現フレーム出力、及び前記前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する後段抽出ステップと、を有してもよい。

0019

前記前段抽出ステップを実行した後に、前記一以上の前段現フレーム出力及び前記一以上の前段前フレーム出力を、前記複数の後段現フレーム出力及び前記複数の後段前フレーム出力として、前記後段抽出ステップを実行してもよい。
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。

発明の効果

0020

本発明によれば、動画像に含まれる物体を追跡する精度を向上させることができるという効果を奏する。

図面の簡単な説明

0021

物体追跡処理概要を説明するための図である。
機械学習モデルの構成の一例を示す図である。
物体追跡装置の構成を示す図である。
抽出部が行う抽出処理について説明するための図である。
抽出部が行う抽出処理について説明するための図である。
抽出部が行う抽出処理について説明するための図である。
抽出部が行う抽出処理について説明するための図である。
抽出部が行う抽出処理について説明するための図である。
抽出部が行う抽出処理について説明するための図である。
物体追跡処理の詳細について説明するための図である。
物体追跡装置が行う処理の流れを示すフローチャートである。
抽出部が行う処理の流れを示すフローチャートである。

実施例

0022

[物体追跡装置1の概要]
図1は、物体追跡処理の概要を説明するための図である。時々刻々と変化する観測対象内部状態を推定する技術として、時系列フィルタを用いた技術がある。時系列フィルタは、動画像に含まれるフレーム画像から観測した観測ベクトルに基づいて、直接観測できない物体の内部状態を推定する手法であり、例えば、パーティクルフィルタである。

0023

パーティクルフィルタでは、観測対象の内部状態の確率分布を、粒子(以下、パーティクルという)の分布表現する。パーティクルフィルタでは、現時刻における状態の事後確率分布次時刻における状態の事前確率分布として、当該事前確率分布を表すパーティクル(当該事前確率分布に従って生成されたサンプル集合)の状態から推定されたテンプレートの観測(予測サンプル)と、次時刻における実際の画像(実際の観測)とを比較することで各パーティクルの尤度を求める。

0024

そして、パーティクルフィルタでは、求めた尤度と事前確率分布とからパーティクルの事後確率分布を推定する。パーティクルフィルタでは、次時刻以降、上述の処理を繰り返すことで、動的に変化する観測対象(例えば、追跡対象)の状態が逐次的に推定される。

0025

パーティクルフィルタでは、以下の(1)から(4)の処理を行う。まず、処理(1)では、各サンプル(各パーティクル)について、1期先の時刻における予測サンプルを生成する。処理(2)では、処理(1)で生成された各予測サンプルについて、重み(尤度)を算出、すなわち、観測モデルに従って、観測ベクトルを得る確率(尤度)を推定する。

0026

処理(3)では、重み(尤度)に比例する割合で複数の粒子を復元抽出する。このようにして復元抽出された粒子の分布から、事後確率分布(観測対象の内部状態の確率分布)を取得する。処理(4)では、時刻を進めて処理(1)に戻る。このとき、処理(3)で取得した事後確率分布を、次の時刻の事前確率分布とする。

0027

このように、パーティクルフィルタでは、観測対象の状態を表すパラメータの事前確率分布の予測と、事後確率分布の計算とを繰り返し行うことで、時々刻々変化する、観測対象の状態を表すパラメータを推定する。パーティクルフィルタは、例えば、動画像上の物体(オブジェクト)の位置の追跡に利用される。この場合、パーティクルフィルタでは、物体の位置を表すパラメータから推定される観測(予測サンプル)と、実際の観測(例えば、カメラ等により撮像される画像)とを比較することによって尤度を算出し、算出した尤度に基づいて、パーティクルのリサンプリングを行うことで、観測対象の状態を表すパラメータの事後確率分布を取得することができる。追跡対象の状態を表すパラメータは、例えば、物体の位置を表すパラメータである。

0028

物体追跡装置1は、機械学習モデルMを用いて、パーティクルフィルタで用いられるパーティクルの移動先ベクトルの尤度を推定することにより、動画像に含まれる物体を追跡する装置である。物体追跡装置1は、例えばコンピュータである。物体は、フレーム画像に含まれる被写体であり、例えば人間又は車両等である。

0029

物体追跡装置1は、撮像装置で生成された動画像を取得する(図1の(1))。撮像装置は、動画像を撮像することができるカメラ又はスマートフォン等である。図1に示す動画像Aは、物体Tである人間が左側から右側に走る様子を写した動画像である。図1に示す動画像Aに含まれる1フレーム目のフレーム画像A1を前フレーム画像とし、2フレーム目のフレーム画像A2を現フレーム画像とする。前フレーム画像は、動画像に含まれる複数のフレーム画像のうちの1つのフレーム画像である。現フレーム画像は、前フレーム画像の後のフレーム画像であり、物体の追跡を行うフレーム画像である。すなわち、現フレーム画像は、直前に尤度の推定を行ったフレーム画像の次に尤度の推定を行う対象となるフレームである。

0030

物体追跡装置1は、取得した動画像Aを機械学習モデルMに入力し、当該機械学習モデルMに含まれる複数の処理層を伝搬させる(図1の(2))。機械学習モデルMは、入力された動画像に基づいて当該動画像に含まれる物体の種別を出力するように学習されたモデルである。具体的には、機械学習モデルMは、入力された動画像に基づいて、当該動画像のフレーム画像それぞれに写っている物体の種別をフレーム画像ごとに出力する。

0031

図2は、機械学習モデルMの構成の一例を示す図である。機械学習モデルMは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を含む。この場合において、機械学習モデルMは、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10を有する。本明細書においては、隣接する2つの処理層のうち、現フレーム画像及び前フレーム画像が伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。

0032

後段処理層となり得る処理層は、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、第2の全結合層M9、及び出力層M10のうちのいずれかの層である。また、前段処理層となり得る処理層は、入力層M1、第1の畳み込み層M2、第2の畳み込み層M3、第1のプーリング層M4、正規化層M5、第3の畳み込み層M6、第2のプーリング層M7、第1の全結合層M8、及び第2の全結合層M9のうちのいずれかの層である。物体追跡装置1は、取得した動画像を機械学習モデルMに入力し、入力層M1から出力層M10までの各処理層を順伝搬させる、すなわち、推論させることにより、動画像に写っている物体Tの種別を出力させる。

0033

図1戻り、物体追跡装置1は、機械学習モデルMが物体Tの種別(例えば、人間、男性又は女性等)を出力するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、現フレーム画像及び前フレーム画像に共通する特徴点を検出する(図1の(3))。ここで、物体追跡装置1は、共通する特徴点の検出を、各フレーム画像を順伝搬させた順序とは逆の順序で行う。このようにすることで、物体追跡装置1は、抽象度が高い特徴量に基づく特徴点を検出することができる。

0034

物体追跡装置1は、共通する特徴点(例えば、顔、体、手足等に含まれる特徴点)を検出することにより、現フレーム画像に写っている物体Tに含まれる特徴点及び前フレーム画像に写っている物体Tに含まれる特徴点に対応関係があることを検出する。対応関係は、特徴点が示す現フレーム画像に含まれる画素と、特徴点が示す前フレーム画像に含まれる画素とが一致又は近似した関係である。

0035

物体追跡装置1は、前フレーム画像に関連付けてパーティクルを生成する(図1の(4))。物体追跡装置1は、物体Tの動きを予測(例えば、物体Tが左側から右側に動く等)して、生成したパーティクルを遷移させる。物体追跡装置1は、検出した前フレーム画像の特徴点と対応関係にある現フレーム画像の特徴点の位置と、遷移させたパーティクルの位置とを比較することにより、各パーティクルの尤度を推定する(図1の(5))。物体追跡装置1は、例えば、前フレーム画像の特徴点と一致した関係にある現フレーム画像の物体Tの顔に関する特徴点の位置と、物体Tの顔の付近にあるパーティクルの位置とを比較することにより、物体Tの顔の付近にあるパーティクルの尤度を推定する。同様に、物体追跡装置1は、体及び手足等の付近にある複数のパーティクルそれぞれの尤度を推定する。

0036

物体追跡装置1は、推定した尤度に基づいて、現フレーム画像に含まれる物体Tの位置を推定する(図1の(6))。このように物体追跡装置1は、図1の(1)から(6)の処理を繰り返すことにより、物体Tを追跡する。これにより、物体追跡装置1は、抽象度が高い特徴量に基づいて複数のパーティクルそれぞれの尤度を推定することで、動画像に含まれる物体を追跡する精度を向上させることができる。
以下、物体追跡装置1の詳細について説明する。

0037

[物体追跡装置1の構成]
図3は、物体追跡装置1の構成を示す図である。物体追跡装置1は、操作部11、記憶部12、及び制御部13を有する。

0038

操作部11は、ユーザの操作を受け付ける入力デバイスである。
記憶部12は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部12は、制御部13が実行する各種のプログラムを記憶する。

0039

制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されているプログラムを実行することにより、物体追跡装置1に係る機能を制御する。制御部13は、プログラムを実行することにより、動画像取得部131、伝搬制御部132、抽出部133、指示受付部136、特徴点検出部137、選択部138、尤度推定部139、及び追跡部140として機能する。
動画像取得部131は、撮像装置で生成された動画像を取得する。動画像取得部131は、例えば、HDMI(High-Definition Multimedia Interface)(登録商標ケーブルにより接続された撮像装置が撮像した動画像を取得する。動画像取得部131は、記憶部12に記憶されている動画像を取得してもよい。動画像取得部131は、取得した動画像を、伝搬制御部132に入力する。

0040

伝搬制御部132は、動画像取得部131から入力された動画像に含まれる現フレーム画像及び前フレーム画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。図2に示す例において、伝搬制御部132は、まず、動画像に含まれる複数のフレーム画像それぞれに、機械学習モデルMに含まれる入力層M1から出力層M10までの各処理層を、順に伝搬させる。そして、伝搬制御部132は、機械学習モデルMから出力されたフレーム画像ごとの物体の種別に基づいて、現フレーム画像及び前フレーム画像を選択する。伝搬制御部132は、例えば、動画像に含まれる複数のフレーム画像のうち、種別が同一である物体が連続して写っているフレーム画像群を、現フレーム画像及び前フレーム画像として選択する。伝搬制御部132は、選択した現フレーム画像及び前フレーム画像を示す情報を抽出部133に入力する。

0041

抽出部133は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化している、現フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の現フレーム出力と前フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の前フレーム出力とを抽出する。抽出部133が行う抽出処理の詳細については後述するが、抽出部133は、後段処理層で共通に活性化している現フレーム出力の一部である後段現フレーム出力及び前フレーム出力の一部である後段前フレーム出力を抽出する後段抽出部134と、前段処理層で共通に活性化している現フレーム出力の一部である前段現フレーム出力及び前フレーム出力の一部である前段前フレーム出力を抽出する前段抽出部135とを有する。

0042

抽出部133が抽出する現フレーム出力及び前フレーム出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。ユニットは、フレーム画像に含まれる一以上の画素である。活性化の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。

0043

抽出部133は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している現フレーム出力及び前フレーム出力がない場合がある。そこで、抽出部133は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を抽出してもよい。

0044

例えば、抽出部133が、最後尾層である出力層M10を後段処理層として選択した場合において、出力層M10において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がないとする。この場合において、抽出部133は、出力層M10より前の各処理層に対して、共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を繰り返し探索する。抽出部133は、例えば、出力層M10の直前の処理層である第2の全結合層M9において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力があった場合、第2の全結合層M9を後段処理層として選択する。そして、抽出部133は、後段処理層として選択した第2の全結合層M9において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を抽出する。このようにすることで、抽出部133は、現フレーム画像と前フレーム画像とで一致する領域が少ない場合であっても、それぞれに写る物体を対応付けることができる。

0045

抽出部133は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部133は、指示受付部136が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部133は、図2に示す例において、ユーザが第2の全結合層M9を選択した場合に、指示受付部136が受け付けた指示が示す第2の全結合層M9を、後段処理層として使用する。抽出部133は、抽出した現フレーム出力と前フレーム出力とを特徴点検出部137に入力する。

0046

特徴点検出部137は、一以上の現フレーム出力に基づいて一以上の現フレーム特徴点を検出し、かつ一以上の前フレーム出力に基づいて一以上の前フレーム特徴点を検出する。具体的には、特徴点検出部137は、まず、一以上の現フレーム出力及び一以上の前フレーム出力に基づいて、対応する特徴点を探索する。そして、特徴点検出部137は、対応関係にある一以上の現フレーム出力に基づく一以上の現フレーム特徴点と、一以上の前フレーム出力に基づく一以上の前フレーム特徴点とを検出する。特徴点検出部137は、検出した現フレーム特徴点及び前フレーム特徴点を選択部138に入力する。

0047

選択部138は、特徴点検出部137が特定した一以上の現フレーム特徴点及び一以上の前フレーム特徴点から、相互の対応関係に基づいて一部の現フレーム特徴点及び一部の前フレーム特徴点を選択する。具体的には、選択部138は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の現フレーム特徴点及び一以上の前フレーム特徴点を選択する。対応関係の誤検出は、現フレーム特徴点及び前フレーム特徴点の対応関係に矛盾が生じている状態である。選択部138は、例えば、RANSAC(Random Sampling Consensus)法又は最小2乗メディアン(LMedS:Least Median of Square)法に基づいて絞り込みを行うことにより対応関係を除去する。

0048

尤度推定部139は、特徴点検出部137が検出した一以上の現フレーム特徴点及び一以上の前フレーム特徴点に基づいて、パーティクルフィルタに用いる尤度を推定する。尤度推定部139が行う尤度推定処理の詳細については後述するが、尤度推定部139は、まず、前フレーム画像に関連付けて複数の遷移前パーティクルを生成し、生成した複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させる。そして、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、遷移させた複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する。

0049

尤度推定部139は、選択部138が選択した一部の前フレーム特徴点に対応する一部の現フレーム特徴点の位置と、複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定してもよい。所定の物体遷移モデルは、物体の動作の特性をモデル化した運動モデルであり、例えば、等速直線運動モデル、又は自己回帰モデル等である。尤度推定部139は、推定した複数の遷移後パーティクルそれぞれの尤度を追跡部140に入力する。

0050

追跡部140は、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度に基づいて複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、動画像に含まれる物体を追跡する。具体的には、追跡部140は、まず、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度の大きさに基づいて複数の遷移後パーティクルから一部の遷移後パーティクルを選択する。追跡部140は、例えば、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度の大きい順に、所定の数量の遷移後パーティクルを選択する。所定の数量は、予め物体追跡装置1に設定されている。そして、追跡部140は、選択した一部の遷移後パーティクルを重み付き平均によって算出したパラメータに基づいて、現フレーム画像に含まれる物体の位置を推定する。パラメータは、例えば、現フレーム画像に含まれる物体の位置を示す座標値等である。

0051

追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、現フレーム画像の後のフレーム画像に含まれる物体を追跡するために用いる複数の遷移前パーティクルを選択する。具体的には、追跡部140は、尤度が大きい遷移後パーティクルを複製し、尤度が小さい遷移後パーティクルを消去する。追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、所定の数量の遷移後パーティクルを選択してもよい。

0052

[抽出処理]
続いて、抽出部133が行う抽出処理について説明する。上述のとおり、抽出部133は、後段抽出部134及び前段抽出部135を有する。後段抽出部134は、現フレーム画像が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段現フレーム出力、及び前フレーム画像が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する。

0053

前段抽出部135は、一以上の後段現フレーム出力及び一以上の後段前フレーム出力を活性化させる要因となった前段処理層から出力された複数の前段現フレーム出力、及び前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する。

0054

図4から図9は、抽出部133が行う抽出処理について説明するための図である。図4から図9は、前段処理層から後段処理層に伝搬させた状態を示している。図4から図9において、実線で示すユニットを結合する結合線は、結合するユニットから出力があったことを示し、破線で示す結合線は、結合するユニットから出力が無かったことを示す。また、結合線を示す線の太さは、結合するユニットからの出力の大きさを示す。

0055

図4の場合において、後段処理層は、最後尾層(例えば、出力層又は全結合層等)又は抽出部133が選択した最後尾層より前の処理層(全結合層又はプーリング層等)であり、前段処理層は、後段処理層の直前の処理層(例えば、全結合層又はプーリング層等)である。図4においては、後段処理層が出力層M20であり、前段処理層が全結合層M19であるとして説明する。

0056

図4(a)は、抽出前の状態であり、図4(b)は抽出後の状態である。現フレーム画像において、出力層M20は、ユニットU5、U8が活性化しており、全結合層M19は、ユニットU2、U5、U6、U7、U8が活性化している。前フレーム画像において、出力層M20は、ユニットU3、U5が活性化しており、全結合層M19は、ユニットU2、U4、U5、U8が活性化している。

0057

この場合において、後段抽出部134は、後段処理層である出力層M20から出力された後段現フレーム出力であるユニットU5、U8、及び出力層M20から出力された後段前フレーム出力であるユニットU3、U5を比較する。そして、後段抽出部134は、共通に活性化している後段現フレーム出力のユニットU5及び後段前フレーム出力のユニットU5を抽出する。

0058

続いて、前段抽出部135は、後段現フレーム出力のユニットU5を活性化させる要因となった前段処理層である全結合層M19から出力された前段現フレーム出力であるユニットU2、U5、U6、及び後段前フレーム出力のユニットU5を活性化させる要因となった全結合層M19から出力された前段前フレーム出力であるユニットU2、U5、U8を比較する。そして、前段抽出部135は、共通に活性化している前段現フレーム出力のユニットU2、U5、及び前段前フレーム出力のユニットU2、U5を抽出する。

0059

抽出部133は、出力層M20から全結合層M19までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部133は、処理層ごとに、共通に活性化している現フレーム出力及び前フレーム出力を抽出する処理を、伝搬制御部132が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部133は、複数の処理層のうち一つの層を後段処理層として選択して一以上の現フレーム出力及び一以上の前フレーム出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の現フレーム出力及び一以上の前フレーム出力を抽出する。このようにすることで、抽出部133は、現フレーム画像及び前フレーム画像に対する比較の精度を高めることができる。

0060

図5は、現フレーム画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図6は、前フレーム画像に基づいて、前段処理層から後段処理層に伝搬させた状態を示している。図5及び図6の場合において、後段処理層は、全結合層M18であり、前段処理層は、全結合層以外の処理層(例えば、プーリング層又は畳み込み層等)である。図5及び図6においては、前段処理層がプーリング層M17であるとして説明する。また、図5及び図6において、前段処理層は、3つのチャンネルを有する。上段の第1チャンネルは、ユニットU11、U12、U13、U14、及びU15を含む。中段の第2チャンネルは、ユニットU21、U22、U23、U24、及びU25を含む。下段の第3チャンネルは、ユニットU31、U32、U33、U34、及びU35を含む。

0061

現フレーム画像において、プーリング層M17は、第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるユニットU21、U24が活性化している。前フレーム画像において、全結合層M18は、第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるユニットU32、U33が活性化している。

0062

前段抽出部135は、後段現フレーム出力のユニットU5を活性化させる要因となった前段処理層であるプーリング層M17から出力された前段現フレーム出力、及び後段前フレーム出力のユニットU5を活性化させる要因となったプーリング層M17から出力された前段前フレーム出力を比較する。前段抽出部135は、活性化しているユニットの有無を調べ、活性化している前段現フレーム出力の第1チャンネルに含まれるユニットU13及び第2チャンネルに含まれるU21、U24と、前段前フレーム出力の第2チャンネルに含まれるユニットU22、U24、U25及び第3チャンネルに含まれるU32、U33とに着目する。

0063

そして、前段抽出部135は、前段現フレーム出力と前段前フレーム出力との両方において活性化しているユニットが存在しているチャンネルが第2チャンネルであることから、前段現フレーム出力の第2チャンネルに含まれるユニットU21、U24及び前段前フレーム出力の第2チャンネルに含まれるユニットU22、U24、U25を抽出する。

0064

図7の場合において、後段処理層は、プーリング層M16であり、前段処理層は、プーリング層以外の処理層(例えば、畳み込み層又は正規化層等)である。図7においては、前段処理層が畳み込み層M15であるとして説明する。また、図7において、前段処理層は、チャンネルが1つであるとして説明する。現フレーム画像において、プーリング層M16は、ユニットU5が活性化しており、畳み込み層M15は、ユニットU3、U5が活性化している。前フレーム画像において、プーリング層M16は、ユニットU3が活性化しており、畳み込み層M15は、ユニットU3、U4が活性化している。

0065

ここで、抽出部133は、画像の圧縮を行うプーリング層においては、直前の処理層からプーリング層に結合している複数のユニットのうち、チャンネルごとに活性化している程度に基づいて出力を抽出する。具体的には、前段抽出部135は、複数の前段現フレーム出力及び複数の前段前フレーム出力のうち、活性化している大きさに基づいて、一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する。前段抽出部135は、例えば、複数の前段現フレーム出力及び複数の前段前フレーム出力のうち、チャンネルごとに最も大きく活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する。

0066

この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択したプーリング層M16を選択して、プーリング層M16から出力された後段現フレーム出力のユニットU5、及びプーリング層M16から出力された後段前フレーム出力のユニットU3を抽出する。そして、前段抽出部135は、後段現フレーム出力のユニットU3、U5及び後段前フレーム出力のユニットU3、U4のうち、チャンネルごとに最も大きく活性化している前段現フレーム出力のユニットU5、及び前段前フレーム出力のユニットU4を抽出する。このようにすることで、前段抽出部135は、画像の中で特徴となる領域を特定することができる。

0067

図8の場合において、後段処理層は、畳み込み層M14であり、前段処理層は、畳み込み層を含む他の処理層(例えば、正規化層又はプーリング層等)である。図8においては、前段処理層が正規化層M13であるとして説明する。また、図8において、前段処理層は、チャンネルが1つであるとして説明する。現フレーム画像において、畳み込み層M14は、ユニットU5が活性化しており、正規化層M13は、ユニットU3、U5、U6が活性化している。前フレーム画像において、畳み込み層M14は、ユニットU3が活性化しており、正規化層M13は、ユニットU3、U4、U5が活性化している。

0068

この場合において、後段抽出部134は、直前の抽出処理において前段処理層として選択した畳み込み層M14を選択して、畳み込み層M14から出力された後段現フレーム出力のユニットU5、及び畳み込み層M14から出力された後段前フレーム出力のユニットU3を抽出する。

0069

続いて、前段抽出部135は、後段現フレーム出力のユニットU5を活性化させる要因となった前段処理層である正規化層M13から出力された前段現フレーム出力、及び後段前フレーム出力のユニットU4を活性化させる要因となった前段処理層である正規化層M13から出力された前段前フレーム出力を比較する。ここで、前段抽出部135は、後段処理層が畳み込み層である場合、後段抽出部134が後段処理層から抽出したユニットに結合する前段処理層の複数のユニットのうち、前段現フレーム出力と前段前フレーム出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットを抽出する。この場合、前段抽出部135は、前段現フレーム出力と前段前フレーム出力とにおいて位置が相対的に同じであり、かつチャンネルが共通するユニットとして、前段現フレーム出力のユニットU5、U6、及び前段前フレーム出力のユニットU3、U4を抽出する。

0070

図9の場合において、後段処理層は、正規化層M12であり、前段処理層は、正規化層以外の処理層(例えば、畳み込み層又はプーリング層等)である。図9においては、前段処理層がプーリング層M11であるとして説明する。また、図9において、前段処理層は、チャンネルが1つであるとして説明する。現フレーム画像において、正規化層M12は、ユニットU5が活性化している。前フレーム画像において、正規化層M12は、ユニットU3が活性化している。

0071

ここで、抽出部133は、画像に対して前処理を行う正規化層においては、後段処理層において活性化しているユニットに結合している前段処理層に含まれる複数のユニットのうち、中心のユニットを抽出する。この場合において、後段抽出部134は、後段処理層として選択した正規化層M12から出力された後段現フレーム出力のユニットU5、及び正規化層M12から出力された後段前フレーム出力のユニットU3を抽出する。

0072

そして、前段抽出部135は、正規化層M5から出力された後段現フレーム出力のユニットU5に結合しているプーリング層M11のユニットのうち、中心のユニットU5を抽出する。同様に、前段抽出部135は、正規化層M12から出力された後段前フレーム出力のユニットU3に結合しているプーリング層M11のユニットのうち、中心のユニットU3を抽出する。

0073

抽出部133は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部133は、抽出処理を最初の処理層まで行わずに、途中の処理層(例えば、プーリング層又は正規化層等)で終了してもよい。このように、抽出部133は、伝搬制御部132が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い出力を抽出することができる。

0074

[物体追跡処理]
続いて、物体追跡処理について説明する。図10は、物体追跡処理の詳細について説明するための図である。図10に示す白い丸は、尤度推定部139又は追跡部140が生成したパーティクルであり、黒い丸は、特徴点検出部137が検出した特徴点である。白い丸及び黒い丸それぞれの位置は、フレーム画像に位置する白い丸及び黒い丸それぞれの位置関係を示す。例えば、前フレーム特徴点F1を基準とした場合に、パーティクルP2が最も近く、パーティクルP3が最も遠い関係である。

0075

まず、尤度推定部139は、前フレーム画像に関連付けて複数の遷移前パーティクルを生成する(図10の(1))。図10に示すように、尤度推定部139は、前フレーム画像に遷移前パーティクルP1、P2、P3を生成する。具体的には、尤度推定部139は、追跡部140が選択した遷移前パーティクルP1、P2、P3が存在する場合、遷移前パーティクルP1、P2、P3を前フレーム画像に配置する。一方、尤度推定部139は、追跡部140が生成したパーティクルが存在しない場合、すなわち、尤度を最初に推定する場合、遷移前パーティクルP1、P2、P3を生成して前フレーム画像に配置する。

0076

続いて、尤度推定部139は、配置した複数の遷移前パーティクルを所定の物体遷移モデルに則って遷移させることにより、物体の動きを予測する(図10の(2))。尤度推定部139は、例えば、等速直線運動モデルに則って、遷移前パーティクルP1、P2、P3を遷移後パーティクルP4、P5、P6の位置に遷移させる。

0077

続いて、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、遷移させた後の複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する(図10の(3))。具体的には、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置に近い遷移後パーティクルに対して尤度が大きくなるように推定する。尤度推定部139は、例えば、前フレーム特徴点F1に対応する現フレーム特徴点F2に近い順として、遷移後パーティクルP4、P5、P6に対して、尤度の大きさが「P5>P4>P6」となるように推定する。

0078

尤度推定部139は、一以上の前フレーム特徴点に対応しているか否かを問わず、一以上の現フレーム特徴点の位置と、複数の遷移後パーティクルとの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定してもよい。尤度推定部139は、例えば、遷移後パーティクルと、現フレーム画像内の複数の現フレーム特徴点のうち遷移後パーティクルに最も近い現フレーム特徴点との近さを尤度として推定してもよい。この場合、尤度推定部139は、現フレーム特徴点の位置と、遷移後パーティクルの位置との距離の逆数を尤度として推定してもよい。また、尤度推定部139は、例えば、遷移後パーティクルと、一以上の現フレーム特徴点との平均的な近さを尤度として推定してもよい。また、尤度推定部139は、例えば、遷移後パーティクルと、当該遷移後パーティクルに対応する遷移前パーティクルの最近傍の前フレーム特徴点と対応関係にある現フレーム特徴点との近さを尤度としてもよい。

0079

ところで、尤度推定部139が尤度を最初に推定する場合、複数の遷移前パーティクルを配置する基準となる尤度を推定した複数の遷移後パーティクルが存在しない。そこで、尤度推定部139は、尤度を最初に推定する場合において、前フレーム画像にランダムに配置した複数の遷移前パーティクルを生成し、一以上の前フレーム特徴点に対応する前記一以上の現フレーム特徴点の位置と、複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する。

0080

このように初期の遷移前パーティクルを前フレーム画像全体にランダムに配置することにより、追跡部140は、尤度推定部139が推定した尤度に基づいて物体の位置を推定することができる。しかし、遷移前パーティクルを前フレーム画像全体にランダムに配置した場合、物体の位置に配置される遷移前パーティクルの割合が少なくなり、尤度推定部139が尤度を推定する精度が悪くなる可能性がある。そこで、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、一以上の前フレーム特徴点をパーティクルとして用いた一以上の遷移前パーティクルを所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の遷移後パーティクルそれぞれの尤度を推定してもよい。

0081

尤度推定部139は、例えば、前フレーム特徴点F1に対応する現フレーム特徴点F2の位置と、前フレーム特徴点F1をパーティクルとして用いた遷移前パーティクルを所定の物体遷移モデルに則って遷移させた遷移後パーティクルの位置とを比較することにより、一以上の遷移後パーティクルそれぞれの尤度を推定してもよい。このように抽象度が高い特徴量に基づく特徴点を初期の遷移前パーティクルとして用いることにより、遷移前パーティクルをランダムに配置する場合に比べて、物体の位置に配置される遷移前パーティクルの割合が多くなり、尤度推定部139は、尤度を推定する精度を向上させることができる。

0082

続いて、追跡部140は、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度に基づいて複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、現フレーム画像に含まれる物体の位置を推定する(図10の(4))。追跡部140は、例えば、尤度推定部139が推定した遷移後パーティクルの尤度の大きい順「P5>P4>P6」に、所定の数量の遷移後パーティクルを選択する。追跡部140は、例えば、所定の数量が2つである場合、尤度推定部139が推定した遷移後パーティクルの尤度の大きい順として、遷移後パーティクルP4、P5を選択する。

0083

そして、追跡部140は、選択した一部の遷移後パーティクルP4、P5を重み付き平均によって算出したパラメータに基づいて、現フレーム画像に含まれる物体の位置を推定する。追跡部140は、例えば、現フレーム画像において、推定した物体の位置を四角い枠で示してもよい。

0084

続いて、追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、現フレーム画像の後のフレーム画像に含まれる物体を追跡するために用いる複数の遷移前パーティクルを選択する(図10の(5))。追跡部140は、例えば、尤度が大きい遷移後パーティクルP5を、遷移後パーティクルP5、P7、P8のように複製し、尤度が小さい遷移後パーティクルP6を消去する。このように、物体追跡装置1は、物体追跡処理を繰り返すことにより、動画像に含まれる物体を追跡する。

0085

[物体追跡装置1の処理]
続いて、物体追跡装置1が行う処理の流れを説明する。図11は、物体追跡装置1が行う処理の流れを示すフローチャートである。本フローチャートは、物体追跡装置1が、記憶部12に動画像が格納され、ユーザによる動画像を圧縮する処理を実行する操作を受け付けたことを契機として開始する。

0086

動画像取得部131は、記憶部12に記憶されている動画像を取得する(S1)。動画像取得部131は、取得した動画像を伝搬制御部132に入力する。伝搬制御部132は、動画像取得部131から入力された動画像に含まれるフレーム画像である現フレーム画像及び前フレーム画像のそれぞれを、機械学習モデルMに含まれる入力層M1から出力層M10までの複数の処理層に、入力層M1から順に伝搬させる(S2)。

0087

抽出部133は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を抽出する処理を行う(S3)。図12は、抽出部133が行う処理の流れを示すフローチャートである。抽出部133は、指示受付部136が、操作部11を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する(S31)。

0088

抽出部133は、指示受付部136が指示を受け付けたと判定した場合(S31においてYESの場合)、指示受付部136が受け付けた指示が示す処理層を、後段処理層として選択する(S32)。抽出部133は、例えば、指示受付部136が第1の全結合層M8を示す指示を受け付けたと判定した場合、指示受付部136が受け付けた指示が示す第1の全結合層M8を、後段処理層として使用する。一方、抽出部133は、指示受付部136が指示を受け付けていないと判定した場合(S31においてNOの場合)、最後尾層(例えば、出力層M10)で共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力があるか否かを判定する(S33)。

0089

抽出部133は、出力層M10で共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力があると判定した場合(S33においてYESの場合)、最後尾層である出力層M10を、後段処理層として使用する(S34)。一方、抽出部133は、出力層M10で共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がないと判定した場合(S33においてNOの場合)、出力層M10より前の各処理層に対して、共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を繰り返し探索する。そして、抽出部133は、共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力がある処理層(例えば、第2の全結合層M9)を、後段処理層として使用する(S35)。抽出部133は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、現フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の現フレーム出力と前フレーム画像に基づいて後段処理層及び前段処理層から出力された一以上の前フレーム出力とを抽出する。

0090

具体的には、まず、後段抽出部134は、選択した後段処理層から出力された複数の後段現フレーム出力、及び選択した後段処理層から出力された複数の後段前フレーム出力から、共通に活性化している一以上の後段現フレーム出力及び一以上の後段前フレーム出力を抽出する(S36)。そして、前段抽出部135は、後段抽出部134が抽出した一以上の後段現フレーム出力及び一以上の後段前フレーム出力を活性化させる要因となった前段処理層から出力された複数の前段現フレーム出力、及び前段処理層から出力された複数の前段前フレーム出力のうち、共通に活性化している一以上の前段現フレーム出力及び一以上の前段前フレーム出力を抽出する(S37)。

0091

続いて、抽出部133は、前段処理層より前に別の処理層があるか否かを判定する(S38)。抽出部133は、前段処理層(例えば、第2のプーリング層M7)より前に別の処理層(例えば、第3の畳み込み層M6)があると判定した場合(S38においてYESの場合)、第2のプーリング層M7を後段処理層として選択し(S39)、処理をS36に戻す。一方、抽出部133は、前段処理層(例えば、入力層M1)より前に別の処理層がないと判定した場合(S38においてNOの場合)、抽出した一以上の現フレーム出力及び一以上の前フレーム出力を特徴点検出部137に入力し、抽出処理を終了する。

0092

図11に戻り、特徴点検出部137は、一以上の現フレーム出力及び一以上の前フレーム出力に基づいて、対応する特徴点を探索し、対応関係にある一以上の現フレーム出力に基づく一以上の現フレーム特徴点と、一以上の前フレーム出力に基づく一以上の前フレーム特徴点とを検出する(S4)。続いて、選択部138は、特徴点検出部137が検出した現フレーム特徴点及び前フレーム特徴点に不適切な特徴点があるか否かを判定する(S5)。選択部138は、例えば、RANSAC法に基づいて絞り込みを行う。

0093

選択部138は、現フレーム特徴点及び前フレーム特徴点に不適切な特徴点があると判定した場合(S5においてYESの場合)、不適切な特徴点、すなわち、誤検出した対応関係にある現フレーム特徴点及び前フレーム特徴点を除去し(S6)、除去した後の対応関係に基づく一部の現フレーム特徴点及び一部の前フレーム特徴点を選択する。

0094

尤度推定部139は、選択部138が、現フレーム特徴点及び前フレーム特徴点に不適切な特徴点がないと判定した場合(S5においてNOの場合)、又は誤検出した対応関係を除去した後に、追跡部140によって生成された複数の遷移前パーティクルがあるか否かを判定する(S7)。尤度推定部139は、追跡部140によって生成された複数の遷移前パーティクルがないと判定した場合(S7においてNOの場合)、複数の遷移前パーティクルを生成する(S8)。尤度推定部139は、一以上の前フレーム特徴点を遷移前パーティクルとして用いてもよい。

0095

尤度推定部139は、追跡部140によって生成された複数の遷移前パーティクルがあると判定した場合(S7においてYESの場合)、又は複数の遷移前パーティクルを生成した後に、前フレーム画像に複数の遷移前パーティクルを配置する(S9)。尤度推定部139は、例えば、追跡部140によって生成された複数の遷移前パーティクルにおいては、追跡部140が選択した遷移後パーティクルの位置を基準として、前フレーム画像に遷移前パーティクルを配置する。一方、尤度推定部139は、例えば、生成した複数の遷移前パーティクルにおいては、一以上の前フレーム特徴点それぞれの位置に遷移前パーティクルを配置する。

0096

続いて、尤度推定部139は、現フレーム画像において、前フレーム画像に配置した複数の遷移前パーティクルを、所定の物体遷移モデルに則って遷移させる(S10)。尤度推定部139は、例えば、等速直線運動モデルに則って、前フレーム画像に配置した複数の遷移前パーティクルを遷移させる。続いて、尤度推定部139は、一以上の前フレーム特徴点に対応する一以上の現フレーム特徴点の位置と、遷移させた後の複数の遷移後パーティクルの位置とを比較することにより、複数の遷移後パーティクルそれぞれの尤度を推定する(S11)。

0097

続いて、追跡部140は、尤度推定部139が推定した複数の遷移後パーティクルそれぞれの尤度に基づいて複数の遷移後パーティクルから選択した一部の遷移後パーティクルに基づいて、現フレーム画像に含まれる物体の位置を推定する(S12)。その後、追跡部140は、複数の遷移後パーティクルから選択した一部の遷移後パーティクルそれぞれの尤度の大きさに基づいて、現フレーム画像の後のフレーム画像に含まれる物体を追跡するために用いる複数の遷移前パーティクルを選択する(S13)。

0098

[実施形態における効果]
以上説明したとおり、物体追跡装置1は、取得した動画像に含まれる現フレーム画像及び前フレーム画像のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。物体追跡装置1は、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の現フレーム出力及び一以上の前フレーム出力を、処理層ごとに抽出し、対応関係にある現フレーム特徴点及び前フレーム特徴点をそれぞれ検出する。そして、物体追跡装置1は、前フレーム特徴点に対応する現フレーム特徴点の位置と、物体の動きを予測した遷移後パーティクルの位置とを比較することにより推定した尤度に基づいて、動画像に含まれる物体を追跡する。

0099

このようにすることで、物体追跡装置1は、畳み込みニューラルネットワークを含む機械学習モデルMを使用し、深層学習による抽象度が高い特徴量を求めることにより、フレーム画像間における物体の動きを推定することができる。その結果、物体追跡装置1は、動画像に含まれる物体を追跡する精度を向上させることができる。

0100

物体追跡装置1は、例えば、店舗行動分析等において、個々の客を追跡することができる。物体追跡装置1は、パーティクルフィルタのシステムモデルを適切に設計することにより、複数の客が交錯する場合であっても、個々の客を分離して追跡することができる。また、物体追跡装置1は、例えば、サッカー試合において、個々のサッカー選手を追跡することができる。物体追跡装置1は、パーティクルフィルタのシステムモデルを適切に設計することにより、個々のサッカー選手を分離して追跡することができる。

0101

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

0102

1物体追跡装置
11 操作部
12 記憶部
13 制御部
131動画像取得部
132伝搬制御部
133 抽出部
134後段抽出部
135前段抽出部
136 指示受付部
137特徴点検出部
138 選択部
139尤度推定部
140 追跡部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ