図面 (/)

技術 画像処理装置、画像処理方法、及びプログラム

出願人 キヤノン株式会社
発明者 梅田一郎矢野光太郎郭睦凌内山寛之
出願日 2017年2月14日 (3年10ヶ月経過) 出願番号 2017-025026
公開日 2018年8月23日 (2年4ヶ月経過) 公開番号 2018-132879
状態 未査定
技術分野 閉回路テレビジョンシステム イメージ分析
主要キーワード 始端点 外接領域 物体検出回路 物体座標 ソリッドステートディスク 所定時間範囲 協調処理 等時間間隔
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年8月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

動画中の物体軌跡を効率良く検出可能にすることを課題とする。

解決手段

監視カメラ(301)は、動画に含まれる一部のフレームから物体領域座標を検出し、その動画及び物体領域の座標と、その物体領域の座標が検出されたフレームのフレームIDとを送信する。演算装置(303)は、監視カメラ(301)から送信された動画と物体領域の座標とフレームIDを受信し、フレームIDを基に物体領域の座標が検出されているフレームを同定し、その同定されたフレームとは異なるフレームから物体領域の座標を検出して、それら物体領域の座標を基に、動画の中の物体領域の軌跡を生成する。

概要

背景

従来、監視カメラ撮影した動画から物体を検出して追尾することにより、物体の軌跡を求める画像処理装置が知られている。また、例えば非特許文献1には、静止画解析することにより、静止画内の人物を検出する技術が開示されている。ここで、画像内の物体を検出する場合には、物体検出のための演算を短時間に実行できる専用ハードウェアを用いることがある。一方、特許文献1には、ハードウェアからなる顔検出回路と、ソフトウェアにより顔検出処理を行う信号処理回路とを有する顔検出装置が開示されている。この特許文献1の顔検出装置は、顔検出回路と信号処理回路でそれぞれ顔検出を行うようにし、顔検出回路による顔検出結果を基に信号処理回路による顔検出処理を制御することで、顔検出の高速化を図っている。

概要

動画中の物体の軌跡を効率良く検出可能にすることを課題とする。監視カメラ(301)は、動画に含まれる一部のフレームから物体領域座標を検出し、その動画及び物体領域の座標と、その物体領域の座標が検出されたフレームのフレームIDとを送信する。演算装置(303)は、監視カメラ(301)から送信された動画と物体領域の座標とフレームIDを受信し、フレームIDを基に物体領域の座標が検出されているフレームを同定し、その同定されたフレームとは異なるフレームから物体領域の座標を検出して、それら物体領域の座標を基に、動画の中の物体領域の軌跡を生成する。

目的

本発明は、動画中の物体の軌跡を効率良く検出可能にすることを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

動画の中で物体領域が検出されたフレームを特定する識別子と、該フレームにおける前記物体領域の座標とを、取得する取得手段と、前記取得された識別子を基に、前記動画の中から、前記物体領域が検出された前記フレームを同定する同定手段と、前記動画の中で、前記同定されたフレームとは異なるフレームから物体領域の座標を検出する検出手段と、前記取得された前記物体領域の座標と、前記同定されたフレームとは異なるフレームから前記検出された前記物体領域の座標とを基に、前記動画の中の前記物体領域の軌跡を生成する生成手段と、を有することを特徴とする画像処理装置

請求項2

前記検出手段は、前記動画の中で、前記同定されたフレームとは異なるフレームの中の一部のフレームから物体領域を検出して、前記物体領域の座標を検出する物体検出手段と、前記取得された前記物体領域の座標と、前記物体検出手段が前記検出した前記物体領域の座標とを基に、前記動画の中で、前記物体領域の座標の検出が行われていないフレームについて物体領域の座標を算出する座標算出手段と、を有することを特徴とする請求項1に記載の画像処理装置。

請求項3

前記座標算出手段は、前記取得された前記物体領域の座標と、前記物体検出手段が前記検出した前記物体領域の座標との、何れかを用いた線形補間により、前記物体領域の座標の検出が行われていないフレームの前記物体領域の座標を算出することを特徴とする請求項2に記載の画像処理装置。

請求項4

前記検出手段は、前記同定されたフレームとは異なるフレームから前記物体領域の座標を検出する際、前記同定されたフレームに対して時間方向で近傍のフレームの中で、前記同定されたフレームについて前記検出されている前記物体領域の座標の周辺で且つ前記物体領域よりも大きい領域から前記物体領域を検出して、前記物体領域の座標を検出することを特徴とする請求項1に記載の画像処理装置。

請求項5

前記検出手段は、前記同定されたフレームについて前記検出されている前記物体領域の座標の周辺で且つ前記物体領域の幅及び高さを所定倍した前記大きい領域から、前記物体領域を検出して前記物体領域の座標を検出することを特徴とする請求項4に記載の画像処理装置。

請求項6

前記識別子は、前記動画に含まれる各フレームの撮影時刻情報であることを特徴とする請求項1から5の何れか1項に記載の画像処理装置。

請求項7

前記同定手段は、前記動画の中で、前記取得された識別子との類似度が最も高いフレームを、前記物体領域の座標が前記検出されている前記フレームとして同定することを特徴とする請求項1から5の何れか1項に記載の画像処理装置。

請求項8

前記識別子は、前記座標が検出されている前記物体領域に含まれる各ピクセルの座標とピクセル値との集合を含み、前記同定手段は、前記動画の中で、前記識別子の各ピクセル値と、前記識別子の各ピクセルの座標に対応したフレーム内の各ピクセル値との差の総和が、最小となる画像領域を有するフレームを、前記同定するフレームとすることを特徴とする請求項7に記載の画像処理装置。

請求項9

動画に含まれるフレームの中で物体領域の座標の検出が行われた一部の部分領域の大きさを特定する情報と、前記部分領域から検出された物体領域の座標とを、取得する取得手段と、前記取得された前記部分領域の大きさを特定する情報を基に、前記動画に含まれるフレームの中で、前記物体領域の座標の検出が行われていない部分領域を検出して、前記部分領域から物体領域の座標を検出する検出手段と、前記取得された前記物体領域の座標と、前記検出された前記物体領域の座標とを基に、前記動画の中の前記物体領域の軌跡を生成する生成手段と、を有することを特徴とする画像処理装置。

請求項10

前記取得手段は、前記部分領域の大きさを特定する情報として、前記動画に含まれるフレームの画像に対する縮小率の情報を取得し、前記検出手段は、前記縮小率の情報を基に、前記フレームの中で前記物体領域の座標の検出が行われていない部分領域を検出し、前記部分領域から前記物体領域の座標を検出することを特徴とする請求項9に記載の画像処理装置。

請求項11

前記検出手段は、前記フレームの画像を前記縮小率に基づいて縮小した縮小画像から所定の大きさの領域を切り出し、前記切り出した領域を基に前記物体領域の座標の検出が行われていない部分領域を求めて、前記部分領域から前記物体領域の座標を検出することを特徴とする請求項10に記載の画像処理装置。

請求項12

前記取得手段は、動画に含まれる一部のフレームについてのみ前記一部の部分領域から前記物体領域の座標の検出が行われている場合には前記一部のフレームを特定する識別子をも取得し、前記検出手段は、前記取得された識別子を基に、前記動画の中から、前記物体領域の座標が検出されている前記フレームを同定して、前記動画の中で、前記同定されたフレームとは異なるフレームから前記物体領域の座標を検出し、前記生成手段は、前記同定されたフレームとは異なるフレームから前記検出された前記物体領域の座標をも用いて、前記動画の中の前記物体領域の軌跡を求めることを特徴とする請求項9から11の何れか1項に記載の画像処理装置。

請求項13

動画に含まれる一部のフレームから物体領域の座標を検出する検出手段と、前記動画の中で前記物体領域の座標が検出された前記フレームを特定する識別子を取得する取得手段と、前記物体領域の座標と前記識別子とを出力する出力手段と、を有することを特徴とする画像処理装置。

請求項14

前記取得手段は、前記識別子として、前記動画に含まれる各フレームの撮影時刻情報を取得することを特徴とする請求項13に記載の画像処理装置。

請求項15

前記取得手段は、前記識別子として、フレームの類似度を表す情報を取得することを特徴とする請求項13に記載の画像処理装置。

請求項16

前記取得手段は、前記フレームの類似度を表す情報として、前記座標を検出した前記物体領域に含まれる各ピクセルの座標とピクセル値との集合を取得することを特徴とする請求項15に記載の画像処理装置。

請求項17

動画に含まれるフレームの中の一部の部分領域から物体領域の座標を検出する検出手段と、前記動画に含まれるフレームの中で前記物体領域の座標の検出が行われた部分領域の大きさを特定する情報を取得する取得手段と、前記物体領域の座標と前記部分領域の大きさを特定する情報とを出力する出力手段と、を有することを特徴とする画像処理装置。

請求項18

前記検出手段は、前記部分領域の大きさを特定する情報として、前記動画に含まれるフレームの画像に対する縮小率の情報を検出することを特徴とする請求項17に記載の画像処理装置。

請求項19

前記検出手段は、前記フレームの画像を前記縮小率に基づいて縮小した縮小画像から所定の大きさの領域を切り出し、前記切り出した領域について前記物体領域の座標を検出する処理を行うことを特徴とする請求項18に記載の画像処理装置。

請求項20

前記取得手段は、動画に含まれる一部のフレームについてのみ前記検出手段が前記一部の部分領域から前記物体領域の座標の検出を行った場合には前記一部のフレームを特定する識別子をも取得し、前記出力手段は、前記識別子をも出力することを特徴とする請求項17から19の何れか1項に記載の画像処理装置。

請求項21

動画の中で物体領域が検出されたフレームを特定する識別子と、該フレームにおける前記物体領域の座標とを、取得する取得工程と、前記取得された識別子を基に、前記動画の中から、前記物体領域の座標が検出されている前記フレームを同定する同定工程と、前記動画の中で、前記同定されたフレームとは異なるフレームから物体領域の座標を検出する検出工程と、前記取得された前記物体領域の座標と、前記同定されたフレームとは異なるフレームから前記検出された前記物体領域の座標とを基に、前記動画の中の前記物体領域の軌跡を生成する生成工程と、を有することを特徴とする画像処理装置の画像処理方法

請求項22

動画に含まれるフレームの中で物体領域の座標の検出が行われた一部の部分領域の大きさを特定する情報と、前記部分領域から検出された物体領域の座標とを、取得する取得工程と、前記取得された前記部分領域の大きさを特定する情報を基に、前記動画に含まれるフレームの中で、前記物体領域の座標の検出が行われていない部分領域を検出して、前記部分領域から物体領域の座標を検出する検出工程と、前記取得された前記物体領域の座標と、前記検出された前記物体領域の座標とを基に、前記動画の中の前記物体領域の軌跡を生成する生成工程と、を有することを特徴とする画像処理装置の画像処理方法。

請求項23

動画に含まれる一部のフレームから物体領域の座標を検出する検出工程と、前記動画の中で前記物体領域の座標が検出された前記フレームを特定する識別子を取得する取得工程と、前記物体領域の座標と前記識別子とを出力する出力工程と、を有することを特徴とする画像処理装置の画像処理方法。

請求項24

動画に含まれるフレームの中の一部の部分領域から物体領域の座標を検出する検出工程と、前記動画に含まれるフレームの中で前記物体領域の座標の検出が行われた部分領域の大きさを特定する情報を取得する取得工程と、前記物体領域の座標と前記部分領域の大きさを特定する情報とを出力する出力工程と、を有することを特徴とする画像処理装置の画像処理方法。

請求項25

コンピュータを、請求項1から20の何れか1項に記載の画像処理装置の各手段として機能させるためのプログラム

請求項26

動画に含まれる一部のフレームから物体領域の座標を検出する第1の検出手段と、前記動画の中で前記物体領域の座標が検出された前記フレームを特定する識別子を取得する第1の取得手段と、前記物体領域の座標と前記識別子とを出力する出力手段と、を備える第1の画像処理装置と、前記第1の画像処理装置から出力された前記物体領域の座標と前記識別子とを取得する第2の取得手段と、前記識別子を基に前記動画の中から前記物体領域の座標が前記検出されている前記フレームを同定する同定手段と、前記動画の中で前記同定されたフレームとは異なるフレームから物体領域の座標を検出する第2の検出手段と、前記第2の取得手段により取得された前記物体領域の座標と前記同定されたフレームとは異なるフレームから前記第2の検出手段により検出された前記物体領域の座標とを基に前記動画の中の前記物体領域の軌跡を生成する生成手段とを備える第2の画像処理装置と、を有することを特徴とする画像処理システム

請求項27

動画に含まれるフレームの中の一部の部分領域から物体領域の座標を検出する第1の検出手段と、前記動画に含まれるフレームの中で前記物体領域の座標の検出が行われた部分領域の大きさを特定する情報を取得する第1の取得手段と、前記物体領域の座標と前記部分領域の大きさを特定する情報を出力する出力手段と、を備える第1の画像処理装置と、前記第1の画像処理装置から出力された前記物体領域の座標と前記部分領域の大きさを特定する情報とを取得する第2の取得手段と、前記取得された前記部分領域の大きさを特定する情報を基に前記動画に含まれるフレームの中で前記物体領域の座標の検出が行われていない部分領域を検出して、前記部分領域から物体領域の座標を検出する第2の検出手段と、前記第2の取得手段により取得された前記物体領域の座標と前記第2の検出手段により検出された前記物体領域の座標とを基に前記動画の中の前記物体領域の軌跡を生成する生成手段とを備える第2の画像処理装置と、を有することを特徴とする画像処理システム。

技術分野

0001

本発明は、動画データを処理する画像処理装置画像処理方法プログラム、及び画像処理システムに関する。

背景技術

0002

従来、監視カメラ撮影した動画から物体を検出して追尾することにより、物体の軌跡を求める画像処理装置が知られている。また、例えば非特許文献1には、静止画解析することにより、静止画内の人物を検出する技術が開示されている。ここで、画像内の物体を検出する場合には、物体検出のための演算を短時間に実行できる専用ハードウェアを用いることがある。一方、特許文献1には、ハードウェアからなる顔検出回路と、ソフトウェアにより顔検出処理を行う信号処理回路とを有する顔検出装置が開示されている。この特許文献1の顔検出装置は、顔検出回路と信号処理回路でそれぞれ顔検出を行うようにし、顔検出回路による顔検出結果を基に信号処理回路による顔検出処理を制御することで、顔検出の高速化を図っている。

0003

特開2008−40709号公報

先行技術

0004

Chengbin Zeng, Huadong Ma, Robust Head−shoulder Detection byPCA−Based Multilevel HOG−LBP Detector for People Counting, ICPR2010

発明が解決しようとする課題

0005

ところで、動画中の物体(人物等)の軌跡を検出する場合において、例えば、軌跡検出の対象となる物体が動画中に多数存在していたり、対象となる動画が高解像度の動画や高フレームレートの動画であったりすると、処理が間に合わなくなることがある。特に、監視カメラ側に物体検出専用ハードウェアが搭載され、監視カメラによる物体検出結果と動画を基に、汎用的なPCサーバ等の情報処理装置が軌跡を検出するような場合には、情報処理装置側での演算に時間が掛かり、全体としての処理効率が低下する。

0006

そこで、本発明は、動画中の物体の軌跡を効率良く検出可能にすることを目的とする。

課題を解決するための手段

0007

本発明は、動画の中で物体領域が検出されたフレームを特定する識別子と、該フレームにおける前記物体領域の座標とを、取得する取得手段と、前記取得された識別子を基に、前記動画の中から、前記物体領域の座標が検出されている前記フレームを同定する同定手段と、前記動画の中で、前記同定されたフレームとは異なるフレームから物体領域の座標を検出する検出手段と、前記取得された前記物体領域の座標と、前記同定されたフレームとは異なるフレームから前記検出された前記物体領域の座標とを基に、前記動画の中の前記物体領域の軌跡を生成する生成手段と、を有することを特徴とする。

発明の効果

0008

本発明によれば、動画中の物体の軌跡を効率良く生成可能となる。

図面の簡単な説明

0009

監視カメラと演算装置の概略的なブロック構成を示す図である。
監視カメラと演算装置のハードウェア構成例を示す図である。
実施形態の監視ステム概略構成を示す図である。
監視カメラが撮影した動画のフレーム画像例を示す図である。
監視カメラが動画中で物体検出を行うフレームを説明する図である。
物体領域の座標と軌跡を説明する図である。
第2の実施形態のフレームID取得と同定処理フローチャートである。
第3の実施形態の部分領域を説明する図である。
第4の実施形態における物体領域検出を説明する図である。

実施例

0010

以下、本発明の好ましい実施の形態を、添付の図面に基づいて詳細に説明する。
図1は、本実施形態の画像処理装置が適用される監視カメラ301と、同じく本実施形態の画像処理装置が適用される演算装置303との、概略的な内部構成例を示す機能ブロック図である。また、図2(A)は監視カメラ301の概略的なハードウェア構成例を示し、図2(B)は演算装置303の概略的なハードウェア構成例を示している。さらに、図3は、本実施形態の画像処理システムの適用例である監視カメラ301及び演算装置303からなる監視システムの概略構成と、この監視システムの監視カメラ301による撮影範囲の一例を示した図である。

0011

先ず、図3に示した本実施形態の監視システムから説明する。
図3に示した監視システムにおいて、監視カメラ301は、図中の点線302で囲まれた範囲を撮影範囲305(カメラ視野)とする動画撮影可能なカメラであり、監視エリアの一例である通路等に設置されている。なお、図3の例の場合、監視エリアである通路には、矢印方向に歩行している複数の人物(例えば人物311〜313)が存在している。このため、監視カメラ301は、撮影範囲305内に存在している複数の物体、つまり通路を歩行している複数の人物311〜313が撮影された動画を取得する。また、監視カメラ301は、ネットワーク304を介して演算装置303に接続されている。

0012

そして、本実施形態の監視システムでは、監視カメラ301と演算装置303とが協調して、撮影動画に対して後述するような物体検出及び軌跡を求める画像処理を行うことにより、それら人物311〜313の映像上における移動の軌跡を求める。なお、本実施形態の場合、監視カメラ301により撮影動画を取得する例を挙げたが、取得される動画は監視カメラによるものに限定されない。また、本実施形態において、物体の軌跡は、歩行者の軌跡に限定されず、例えば走行する車両等、製造ラインを流れる製品部品等、物流センターコンベア上を流れる荷物等、移動する動物等の様々な物体の軌跡であってもよい。

0013

図3に示した本実施形態の監視カメラ301は、一例として図2(A)に示すようなハードウェア構成を有している。なお、図2(A)には監視カメラ301に接続されたネットワーク304も示されている。
図2(A)において、CPU202は、RAM203に展開された本実施形態に係る制御プログラムを実行して、監視カメラ301全体を制御する。本実施形態の場合、CPU202は、制御プログラムにより、後述する図1に示した監視カメラ301の各機能ブロックに対応した各処理の実行及び制御を行う。なお、本実施形態では、図1に示す監視カメラ301の各機能ブロックに対応した各処理は、CPU202がソフトウェアにより実現してもよいし、それら処理の一部又は全部が電子回路などのハードウェアにより実現されてもよい。

0014

RAM203は、本実施形態の監視カメラ301に係る制御プログラム、各種パラメータデータや画像データ、各種情報を記憶する。本実施形態に係る制御プログラムは、図示しないROMや記録装置等から読み出され、或いは、ネットワーク304等を介して外部から取得されて、RAM203に展開される。

0015

撮像装置204は、動画や静止画を撮影可能なカメラである。撮像装置204は、撮像素子レンズ画像取得回路などを有して構成されている。撮像装置204にて撮影された動画は、時間軸方向に連続した複数の静止画により形成されている。本実施形態の場合、動画は、例えば1秒間に30回、静止画を等時間間隔で撮影することにより形成されるものとする。なお、動画を形成している各静止画は一般にフレームと呼ばれており、以下の説明でもそれら各静止画をフレームと呼ぶ。

0016

物体検出回路205は、撮像装置204が撮影した動画の各フレームから、物体(本実施形態では人物を例に挙げている。)に対応した画像領域(以下、物体領域とする。)を検出する。本実施形態の場合、物体検出回路205は、例えば非特許文献1等に開示されている検出手法半導体回路FPGA(Field−Programmable Gate Array)として実装したものであるとする。本実施形態の監視カメラ301は、半導体回路やFPGAよりなる物体検出回路205を備えているため、例えばCPU202上でソフトウェアの実行により検出処理を行う場合よりも高速な物体検出(人物検出)が可能となっている。

0017

ただし、物体検出回路205が検出処理に要する時間は、画像の複雑さなどにより変動する。このため、特段の処理を施さない場合、動画を構成する静止画のフレーム1枚に対して物体検出回路205が物体検出処理を行うのに要する時間は、撮像装置204における各フレームの撮影間隔撮影時間間隔)よりも長いとする。すなわち、本実施形態において、物体検出回路205は、動画の全フレームに対してリアルタイムに物体検出処理を行うことはできず、動画を構成するフレーム群のうち一部のフレームについてのみ物体検出処理を行うものとする。なお、画像の複雑さだけでなく、画像の解像度が高い場合や、動画のフレームレートが高フレームレートである場合にも、物体検出回路205は、動画の全フレームに対してリアルタイムに物体検出処理を行えなくなることがある。したがって、この場合も、物体検出回路205は、動画の中の一部のフレームについてのみ物体検出処理を行うものとする。

0018

通信部201は、ネットワーク304を経由して、本実施形態の演算装置303との間で通信を行う。例えば、通信部201は、撮像装置204による撮影動画のデータや、物体検出回路205による物体検出結果のデータ、後述するフレームID等を、ネットワーク304を経由して演算装置303に送信する。

0019

図3に示した本実施形態の演算装置303は、一例として図2(B)に示すようなハードウェア構成を有している。なお、図2(B)には演算装置303に接続されたネットワーク304も示されている。
図2(B)において、通信部211は、ネットワーク304を経由して、本実施形態の監視カメラ301との間で通信を行う。例えば、通信部211は、監視カメラ301から送信された撮影動画のデータや物体検出結果のデータ、後述するフレームID等を、ネットワーク304を経由して受信する。

0020

CPU212は、RAM213に展開された本実施形態に係る制御プログラムを実行して、演算装置303全体を制御する。本実施形態の場合、CPU212は、制御プログラムにより、後述する図1に示した演算装置303の各機能ブロックに対応した各処理の実行及び制御を行う。なお、本実施形態では、図1に示す演算装置303の各機能ブロックに対応した各処理は、CPU212がソフトウェアにより実現してもよいし、それら処理の一部又は全部が電子回路などのハードウェアにより実現されてもよい。

0021

RAM213は、本実施形態の演算装置303に係る制御プログラム、各種パラメータデータや画像データ、各種情報を記憶する。本実施形態に係る制御プログラムは、図示しないROMや外部記録装置214等から読み出され、或いは、ネットワーク304等を介して外部から取得されて、RAM213に展開される。

0022

外部記録装置214は、ハードディスクソリッドステートディスク等の記録媒体を有した記録装置である。外部記録装置214は、本実施形態の演算装置303に係る制御プログラムや、監視カメラ301から送信されてきた動画のデータや物体検出結果のデータ等を格納可能となされている。

0023

<第1の実施形態>
以下、図1を参照しながら、第1の実施形態における監視カメラ301と演算装置303の各構成要素の動作を説明する。本実施形態の監視カメラ301と演算装置303は、図1には図示しないネットワーク(304)を介して接続されており、それら監視カメラ301と演算装置303との協調処理により、動画に写っている物体(人物等)とその物体の移動の軌跡とを検出する。なお、本実施形態では、説明を簡略化するため、監視カメラ301と演算装置303がそれぞれ一つとなされている例を挙げるが、例えば複数の監視カメラ301と一つ又は複数の演算装置303とがネットワーク304を介して接続されていてもよい。

0024

第1の実施形態の監視カメラ301は、図1に示したように、動画撮影部100、物体検出部101、フレームID取得部103、検出結果送信部104、動画送信部105の各機能ブロックを有して構成されている。なお、監視カメラ301の座標算出部102については、後述する第3の実施形態において説明する。

0025

動画撮影部100は、図2(A)の撮像装置204を含む機能ブロックであり、撮像装置204を制御して動画の撮影を行う。これにより、動画撮影部100は、動画の各フレームの画像(静止画)を取得する。また、撮像装置204が動画を撮影した際の各フレームの静止画データには、そのフレームの静止画の撮影時刻の情報が例えばメタデータとして埋め込まれる。なお、本実施形態において、フレームの撮影時刻は、ミリ秒単位で表される時刻情報であるとする。図4は、前述した図3の撮影範囲305を監視カメラ301が撮影した動画の各フレームのうちの、或る一つのフレームの画像例を示した図である。図4に例示した画像には、図3の撮影範囲305内に存在している人物311,312,313が写っている。なお、図4には矩形の物体領域401,402,403も描かれているが、これら物体領域401,402,403は後述する物体検出部101にて検出されるものであり、撮影動画のフレームの画像内に実際に写っているものではない。動画撮影部100は、撮像装置204により撮影された動画の各フレームの画像データを、物体検出部101に送る。また、動画撮影部100にて取得された動画のデータは、後述する動画送信部105にも送られる。

0026

監視カメラ301の物体検出部101は、図2(A)の物体検出回路205を含む機能ブロックであり、動画撮影部100が取得した動画のフレームから物体領域を検出してその物体領域の座標を求める。図4の画像例の場合、フレームからは、人物311,312,313の画像領域(人物領域)が検出される。さらに、物体検出部101は、それら各人物311,312,313の画像領域をそれぞれ囲う矩形の領域を物体領域401,402,403として検出し、それら各物体領域401,402,403の各座標を求める。具体的には、物体検出部101は、各物体領域401,402,403の各座標として、例えば矩形の領域の左上頂点と右下頂点の各座標を求める。なお、図4の例の場合、各物体領域401,402,403は、各人物311,312,313の画像領域をそれぞれ囲う領域となされているが、各人物311,312,313の画像領域に外接するような矩形の外接領域であってもよい。

0027

ここで、本実施形態の場合、前述したように、物体検出回路205による物体検出は、動画を構成するフレーム群のうち一部のフレームについてのみ行われる。図5は、撮像装置204による動画撮影で取得される時間順の各フレームF1,F2,・・・,F17,・・・からなるフレーム群を示している。図5の各フレームF1,F2,・・・のうち、黒く塗られたフレームF1,F4,F8,F11,F14が、物体検出回路205において物体検出処理が行われるフレームを表している。したがって、物体検出部101は、物体検出回路205がそれらフレームF1,F4,F8,F11,F14からそれぞれ検出した物体領域の座標(矩形の左上頂点と右下頂点の座標、以下適宜、物体座標表記する。)を求める。そして、物体検出部101は、動画のデータと、物体検出回路205が検出した物体座標の情報とを、フレームID取得部103に送る。

0028

フレームID取得部103は、物体検出回路205が物体領域を検出したフレームを、動画内で特定可能にするための識別子を取得する。以下、物体領域が検出されたフレームを動画内において特定可能にするための識別子を、フレームIDと呼ぶ。第1の実施形態の場合、監視カメラ301と演算装置303はミリ秒単位の時刻で同期がとられており、フレームIDは、物体検出回路205にて物体領域が検出されたフレームの画像データに埋め込まれているミリ秒単位の撮影時刻情報を用いることとする。したがって、第1の実施形態において、フレームID取得部103は、物体領域が検出されたフレームの画像データに埋め込まれている撮影時刻情報をフレームIDとして取得する。そして、フレームID取得部103は、物体領域が検出されたフレームのフレームIDと、そのフレームにおいて検出された物体領域の座標(物体座標)の情報とを、検出結果送信部104に送る。

0029

検出結果送信部104は、図2(A)の通信部201を介して、物体座標とフレームIDとを演算装置303に送信する。また、動画送信部105は、動画撮影部100から供給された動画のデータを圧縮し、その圧縮した動画のデータを、通信部201を介して演算装置303に送信する。ここで、本実施形態において、動画の圧縮は、例えばいわゆるH.264やH.265等の公知の規格による非可逆的圧縮符号化を想定する。また、圧縮符号化された動画のデータの送信は、RTP(Real−time Transport Protocol)やIP(Internet Protocol)等の、データ欠損が生じる可能性のある媒体を介した送信を想定する。なお、この例では圧縮された動画のデータとは別に座標及びフレームIDの情報を演算装置303に送信しているが、座標及びフレームIDの情報は例えばメタデータとして動画のデータに埋め込まれて送信されてもよい。

0030

第1の実施形態の演算装置303は、図1に示すように、検出結果受信部110、動画受信部111、フレーム同定部112、物体検出部113、座標算出部114、軌跡統合部115の各機能ブロックを有して構成されている。

0031

検出結果受信部110は、ネットワーク304を経由して監視カメラ301から送信されてきた情報を、図2(B)の通信部211を介して受信することで、物体座標及びフレームIDの情報を取得する。また、動画受信部111は、ネットワーク304を経由して監視カメラ301から送信されてきた、圧縮されている動画のデータを、通信部211を介して受信する。動画受信部111は、圧縮されている動画を伸張(伸張復号化)する。そして、検出結果受信部110にて受信された物体座標及びフレームIDの情報と、動画受信部111で伸張された動画のデータとは、フレーム同定部112に送られる。また、動画受信部111にて受信されて伸張された動画データは、図1の外部記録装置214に記録される。

0032

フレーム同定部112は、動画の各フレームの中で、フレームIDに対応したフレームを同定(特定)する。本実施形態の場合、前述したように動画の各フレームには撮影時刻の情報がメタデータとして埋め込まれており、またフレームIDは撮影時刻の情報となされている。このため、フレーム同定部112は、動画の各フレームに埋め込まれている撮影時刻と、フレームIDの時刻情報とを比較することにより、動画の各フレームの中からフレームIDに対応したフレームを同定できる。つまり、フレーム同定部112は、フレームIDの時刻情報を基に、監視カメラ301において動画の各フレームの中で物体領域の検出処理が行われたフレームを同定する。例えば、伸張された動画が前述の図5に示したフレーム群からなる動画である場合、フレーム同定部112は、黒く塗られたフレームF1,F4,F8,F11,F14を、監視カメラ301で物体検出処理が行われたフレームとして同定する。そして、フレーム同定部112は、動画のデータと、フレームIDと、フレームIDを基に同定したフレームの物体座標の情報とを、物体検出部113に送る。

0033

物体検出部113は、後述する座標算出部114が適切に動作できない程に物体座標が不足する場合に、座標算出部114が動作できる程度にまで物体座標を求める。前述した図5の例の場合、物体領域が検出されたフレームF4とフレームF8との間は、フレームF5,F6,F7の3フレーム分の間隔が空いている。ここで、座標算出部114が例えば2フレーム間隔以内のフレームの画像から座標を算出するものである場合、物体検出部113は、フレームF4からフレームF8までの間の例えばフレームF6についても物体座標を求める。これにより、後述する座標算出部114は、フレームF4とフレームF6とから座標を算出できるようになり、さらに、フレームF6とフレームF8とから座標を算出できることになる。なお、演算装置303の物体検出部113は、監視カメラ301の物体検出部101と同様にして物体座標を検出するが、物体検出回路205のような半導体回路等である必要はなく、CPU212がプログラムを実行して物体座標を検出してもよい。そして、物体検出部113は、動画のデータと、前述のように検出した物体座標の情報と、フレーム同定部112にて同定されたフレームの物体座標(つまり監視カメラ301側で検出された物体座標)の情報と、を座標算出部114に送る。

0034

座標算出部114は、動画の各フレームF1,F2,・・・の内、監視カメラ301の物体検出部101と演算装置303の物体検出部113の双方で物体座標の検出処理が行われていないフレームに対して、物体座標の検出処理を行う。前述した図5の例の場合、例えば、フレームF8と、そのフレームF8から2フレーム後のフレームF11とは、監視カメラ301の物体検出部101により物体領域と座標の検出処理が行われたフレームである。一方、それらフレームF8とフレームF11との間の2つのフレームF9,F10は、監視カメラ301の物体検出部101と演算装置303の物体検出部113の何れにおいても物体座標の検出処理が行われていないフレームであるとする。この例の場合、座標算出部114は、フレームF8から検出された物体座標とフレームF11から検出された物体座標との間を線形補間することにより、フレームF9に対応した物体座標とフレームF10に対応した物体座標とを算出する。

0035

ここで、図6は、動画の各フレームから求められた各物体領域を時間方向に並べて表した図である。図6の図中実線で示した物体領域602はフレームF8内の例えば前述した図4の人物311を検出した物体領域を表し、同じく図中実線で示した物体領域603はフレームF11から人物311を検出した物体領域を表しているとする。図6の図中実線で示した物体領域601については後述する。一方、図6の図中点線で示した物体領域611はフレームF9内で人物311に対応した物体領域を表し、同じく図中点線で示した物体領域612はフレームF10内で人物311に対応した物体領域を表しているとする。座標算出部114は、フレームF8の物体領域602の物体座標とフレームF11の物体領域603の物体座標との間を線形補間することにより、フレームF9の物体領域612の物体座標とフレームF10の物体領域612の物体座標とを求める。なお、図6の説明では、監視カメラ301の物体検出部101が検出した物体座標のみを用いた線形補間を例に挙げたが、線形補間に用いられる物体座標は、演算装置303の物体検出部113が求めた物体座標であってもよい。

0036

前述したように、本実施形態では、監視カメラ301側の物体検出部101で物体座標検出処理が行われていない各フレームについて、物体検出部113又は座標算出部114による物体座標算出処理が行われる。これにより、動画の全てのフレームについて物体座標の検出処理が実現される。そして、座標算出部114は、監視カメラ301の物体検出部101及び演算装置303の物体検出部113にて検出された物体座標の情報と、前述のように算出した物体座標の情報とを、軌跡統合部115に送る。

0037

軌跡統合部115は、前述のように監視カメラ301の物体検出部101、演算装置303の物体検出部113、座標算出部114での物体座標検出処理により求められた各物体座標を基に、物体の移動の軌跡を生成する。物体の移動の軌跡とは、人物等の物体領域の例えば中心座標をフレーム順に配列して得られる軌跡である。具体的には、前述のように座標算出部114での算出処理を介することで動画の全てのフレームについて物体座標が得られているので、軌跡統合部115は、先ず、動画の連続するフレーム間で最近傍にある物体座標同士を接続する。そして、軌跡統合部115は、それら物体座標からそれぞれ中心座標(左上頂点と右下頂点の中点の座標)を求めて、それら中心座標をフレーム順に配列して軌跡を求める。図6の例の場合、物体領域601、602、611、612、603の各物体座標が接続され、それら物体座標からそれぞれ求めた中心座標をフレーム順に配列した軌跡は、図中の矢印で示すような軌跡620となる。なお、図6では、例えば物体領域601の中心座標が軌跡の始端点になされている例を挙げている。そして、軌跡統合部115が求めた軌跡の情報は、本実施形態の監視システムにおいて、動画中の物体の軌跡の検出結果となされる。

0038

また、軌跡統合部115は、動画の連続する各フレーム間で、物体座標間の距離がある閾値以上の距離になる場合には、そのときの物体領域は動画内に新規に登場若しくは物体領域の消失が生じたとし、軌跡を求める際の端点とする。例えば、動画内に新規に物体領域が登場した場合、その物体領域の物体座標から求められる中心座標は、軌跡の始端点となり、一方、動画内から物体領域が消失した場合には、その物体領域の物体座標から求められる中心座標が軌跡の終端点となる。

0039

以上説明したように第1の実施形態によれば、演算装置303は、動画の物体領域の軌跡を求める際、監視カメラ301で検出された物体座標を基に、監視カメラ301にて物体領域の検出が行われていないフレームの物体座標を算出することができる。このように、演算装置303側では、監視カメラ301で物体領域が既に検出されているフレームについては物体領域の検出処理を行なわないため、監視システム全体での演算量が削減される。

0040

また一般に、監視カメラ301と演算装置303とを有する監視システムでは、通信量や演算負荷の低減策として動画の圧縮が行われる。動画の圧縮が行われた場合、動画の画像内の細部の省略や解像度低下等が生ずることがあり、動画の画質劣化することになる。ここで、前述の非特許文献1に記載の手法を含め、一般に、動画の画質が低下すると、その動画から物体領域を検出する際の検出精度が低下する。特に、物体領域の検出処理が演算装置303側で行われる場合、画質劣化は検出精度の低下に大きく影響する。これに対し、第1の実施形態においては、物体検出は監視カメラ301側で行われ、演算装置303では、監視カメラ301で物体領域の検出が行われていないフレームに対する物体座標の検出処理が行われる。すなわち、第1の実施形態の場合、画像の圧縮がなされる前の高品質な動画の画像に対して物体領域の検出が行われ、その検出された物体座標を基に、演算装置303側での物体座標検出が行われるため、高い検出精度で物体座標の検出が可能となる。したがって、第1の実施形態によれば、監視システム全体としての物体検出と追尾精度が向上し、精度の高い軌跡を得ることが可能となる。

0041

<第2の実施形態>
前述した第1の実施形態では、監視カメラ301と演算装置303の間で動画の圧縮及び送信、受信及び伸張が発生し、圧縮前の動画のフレームから物体領域が検出され、一方、伸張後の動画から物体の軌跡が求められている。また、第1の実施形態では、撮影時刻に相当するフレームIDを用いて、圧縮前の動画から物体検出が行われたフレームを、伸張後の動画のフレーム群の中から同定している。このため、第1の実施形態では、監視カメラ301と演算装置303における時刻が或る程度高い精度で同期している必要がある。これに対し、第2の実施形態では、このような時刻の同期がさほど高精度ではない場合、或いは、時刻情報のフレームIDを必要とせず、画像の類似度を用いることで圧縮前と伸張後の動画からフレームを同定可能とする。

0042

第2の実施形態の監視カメラ301及び演算装置303の構成は前述した図1図2(A)、図2(B)と同様であるため図示及び説明は省略する。以下、第2の実施形態において、図1の監視カメラ301のフレームID取得部103の動作を図7(A)のフローチャートを用いて説明し、演算装置303のフレーム同定部112の動作を図7(B)のフローチャートを用いて説明する。以下の説明では、図7(A)のフローチャートにおける各ステップS701〜S705をS701〜S705と略記し、同様に図7(B)のフローチャートにおける各ステップS711〜S714をS711〜S714と略記する。

0043

先ず、図7(A)のフローチャートを用い、監視カメラ301のフレームID取得部103の動作を説明する。
第2の実施形態において、フレームID取得部103には、撮像装置204が撮影した動画のフレームの画像データと、監視カメラ301の物体検出部101が検出した物体座標の情報とが入力される。一方、フレームID取得部103からは、第2の実施形態におけるフレームIDの情報が出力される。第2の実施形態におけるフレームIDは、前述した第1の実施形態で説明した撮影時刻情報ではなく、検出された物体領域の各ピクセルの座標とそのピクセル値の対の集合である。

0044

このため第2の実施形態の場合、フレームID取得部103は、先ず、S701において、フレームIDを空集合として初期化する。次に、フレームID取得部103は、S702からS705のループ処理として、S703及びS704の処理を、事前に定められた回数だけ繰り返す。なお、繰り返し回数は経験的に求められた回数とすればよい。

0045

S702からS705のループ処理に進むと、フレームID取得部103は、S703において、監視カメラ301の物体検出部101で求めた物体領域内に任意の座標を設定する。この座標は、物体領域内に存在する範囲でランダムに設定されてもよいし、事前に設定されていてもよい。

0046

次に、S704において、フレームID取得部103は、S703で設定した座標のピクセル値を求め、そのピクセルの座標とピクセル値の対を、フレームIDの集合に追加する。なお、ピクセル値は、入力されたフレームの画像に応じた値となる。例えば、撮像装置204からR,G,BやY,Cr,Cbなどで表されるカラー画像が取得されるのであれば、ピクセル値はそれらR,G,BやY,Cr,Cbで表される値となる。また例えば、撮像装置204から例えば赤外画像のような単色画像が取得されるのであれば、ピクセル値は、単色で表される値となる。

0047

そして、フレームID取得部103は、S702からS705のループ処理の繰り返し回数が事前に設定された回数になると、その繰り返し回数のループ処理で得られた各ピクセルの座標及びピクセル値の集合をフレームIDとして取得する。このフレームIDは、前述の実施形態と同様に、動画等と共に検出結果送信部104から演算装置303に送信される。

0048

次に、図7(B)のフローチャートを用いて、演算装置303のフレーム同定部112の動作を説明する。
第2の実施形態において、フレーム同定部112には、検出結果受信部110が受信したフレームIDと動画受信部111が受信して伸張した動画のデータとが入力される。一方、フレーム同定部112からは、フレームIDを基に特定されたフレームの画像データが出力される。

0049

第2の実施形態の場合、フレーム同定部112は、S711からS714のループ処理として、動画の所定時間範囲内の全てのフレームについて、S712とS713の処理を繰り返す。ここで、第2の実施形態において、動画の所定時間範囲は、監視カメラ301と演算装置303における時刻の同期精度誤差に依存し、フレームIDに対応するフレームが必ず動画の範囲内に含まれる程度の範囲とする。

0050

S711からS714のループ処理に進むと、フレーム同定部112は、S712において、動画の所定時間範囲内の各フレームの画像(静止画)について、それぞれフレームIDとの類似度(以下、フレーム類似度とする。)を求める。例えば、フレーム同定部112は、動画のフレーム画像を構成する各ピクセルのうちフレームIDの要素である各座標に対応したピクセルの値と、フレームIDの要素である各座標と対になされている各ピクセル値との差の総和を、フレーム類似度として求める。すなわち、差の総和の値が小さいほど、フレーム類似度は高いことになる。なお、ピクセル値の差は、フレームの画像がRGBやYCaCbのカラー画像であれば3次元ユークリッド距離となり、単色画像であれば単に2つの値の差となる。

0051

次に、フレーム同定部112は、S713において、S712で求めた差の総和の値が、動画の所定時間範囲内の全てのフレームに対するS711からS714のループ処理の中で最小値となる場合、その最小値となったフレームの画像データを記憶しておく。そして、フレーム同定部112は、S711からS714のループ処理の終了後、各ループ処理のS713で求めた差の総和の値が最小値となったフレーム、つまりフレーム類似度が最も高いフレームを、フレームIDに対応して同定されたフレームであるとする。

0052

前述したように、第2の実施形態においては、フレームIDとして、第1の実施形態のような撮影時刻に基づく情報ではなく、各ピクセルの座標及びピクセル値の集合からなる情報を用いている。ここで、動画から検出される物体が動体である場合、動画の時間順のフレーム毎に、その動体の位置が徐々に変化していくと考えられる。第2の実施形態では、図7(A)のS703において、物体領域内で座標を設定しているので、その座標は動体上の座標である可能性が高く、また、その座標上の色は背景の色とは異なる可能性が高いと考えられる。このため、圧縮前の動画と伸張後の動画の各フレームのなかで、その座標の色の差が最も小さいフレームの対は、圧縮前と伸張後の双方のフレーム内で同一の動体が同一座標に存在している同一フレームである可能性が高いと考えられる。これは、フレームIDの取得とフレーム同定との間で、動画の圧縮と伸張が行われても、動体と背景の色の差が、動画の圧縮/復号に起因する色の変化よりも小さい限り、成立すると考えられる。したがって、第2の実施形態によれば、各ピクセルの座標及びピクセル値の集合で表されるフレームIDを用いることにより、監視カメラ301の物体検出部101が物体領域を検出したフレームを、演算装置303側で同定することができる。なお、図7(A)のS702の処理が繰り返される回数を増やすこと、つまりフレーム類似度を求める点を増やすようにすれば、フレーム同定の精度を更に高めることも可能となる。

0053

<第3の実施形態>
前述した第1の実施形態の場合、演算装置303の物体検出部113は、監視カメラ301の物体検出部101が物体領域の検出処理を行っていないフレームに対して、検出処理を行うようになされている。これに対し、第3の実施形態の場合、演算装置303の物体検出部113は、受信して伸張した動画のうち、監視カメラ301側で物体領域の検出処理が行われていないフレームではなく、物体領域検出が行われていない部分領域について、検出処理を行う。

0054

第3の実施形態の監視カメラ301及び演算装置303の構成は前述した図1図2(A)、図2(B)と同様であるため図示及び説明は省略する。第3の実施形態の場合、監視カメラ301の物体検出部101は、非特許文献1に記載の技術と同様に、入力されたフレームの任意の部分領域について、それが検出対象の物体であるか否かを識別する。そして、物体検出部101は、物体であると識別された部分領域の、フレーム内における座標を出力する。

0055

このとき、物体検出部101は、任意の部分領域を形成するために、入力されたフレームの画像をそれぞれ異なる複数の縮小率により縮小して、それら異なる縮小率で縮小された画像から、それぞれ一定の大きさの画像領域を走査しながら切り出す。例えば、物体検出部101に入力されたフレームの画像は図8に示すような入力画像801であるとする。入力画像801には、図3の撮影範囲305内に存在している人物311,312,313が写っている。この例の場合、物体検出部101は、入力画像801を、縮小率Aで縮小した縮小画像802、縮小率Bで縮小した縮小画像803のように、複数の縮小率でそれぞれ縮小した縮小画像を生成する。縮小率Aと縮小率Bは、それぞれの縮小率の値が一定の比率で異なっているとする。そして、物体検出部101は、非特許文献1の技術と同様、入力画像801、縮小画像802、縮小画像803から、それぞれ一定の大きさの切り出し領域811に適合した大きさの物体領域を検出する。これにより入力画像801からは切り出し領域811に適合した大きさの物体領域821(人物313の画像領域)が検出される。以下同様に、縮小画像802からは物体領域822(人物312の画像領域)、縮小画像803からは物体領域823(人物311の画像領域)が検出される。つまり、第3の実施形態の場合、物体検出部101は、縮小率が大きな縮小画像になるほど、その画像内で大きな物体を検出することになる。

0056

ここで、第3の実施形態の場合、前述した第1の実施形態とは異なり、監視カメラ301の物体検出部101における物体検出処理は、一定間隔毎、例えば動画撮影部100が数フレーム分の画像を取得する毎に中断される。そして、物体検出部101は、処理が中断されることを前提に、縮小率の小さな画像から順に処理を行う。すなわち、物体検出部101は、小さな物体から検出する。したがって、処理が中断された場合には、小さな物体の検出が終了し、大きな物体の検出が終了していない状態となる。例えば、物体検出部101は、先ず入力画像801に検出処理を施して物体領域821を検出する。次に、物体検出部101は、縮小率が小さい縮小画像802から物体領域822を検出する。そして、縮小画像802から物体領域822を検出した時点で処理が中断されたとすると、縮小画像803に対する検出処理は行われないため物体領域823は検出されないことになる。この例の場合、監視カメラ301の物体検出部101において物体領域の検出処理が行われていない部分領域は、縮小画像803の物体領域823となる。すなわちこの場合、入力画像801の中で最も大きく写っている人物311については、検出処理が行われていないことになる。

0057

なお、第3の実施形態の場合、物体検出部101による物体検出処理が行われていないフレームについては、例えば座標算出部102が、演算装置303の座標算出部114と同様の線形補間処理等により、部分領域の物体座標を算出してもよい。すなわち、座標算出部102は、物体検出部101による物体検出処理が行われていないフレームの中で、物体検出部101が物体検出処理を行ったフレームから物体領域が検出された部分領域については、前述同様の線形補間により物体座標を算出してもよい。これにより、物体検出部101による物体検出処理が行われた部分領域については、動画の全てのフレームについて物体座標が求められた状態にすることを保障することができる。もちろん、第3の実施形態の場合、動画の中の一部のフレームについてのみ、そのフレーム内の一部の部分領域から物体領域の座標を検出してもよい。

0058

また、第3の実施形態において、フレームID取得部103は、前述の第1や第2の実施形態と同様にしてフレームIDを求める。第3の実施形態の場合、前述した処理の中断により検出処理が行われない部分領域を除き、物体座標の検出処理自体は毎フレーム実行されるので、フレームID取得部103は全てのフレームについてフレームIDを求める。なお、第3の実施形態において、動画の中の一部のフレームについてのみ、そのフレーム内の一部の部分領域から物体領域の座標を検出した場合、フレームID取得部103が取得するフレームIDは、当該一部のフレームのフレームIDとなる。

0059

検出結果送信部104は、前述のようにして求められた物体座標及びフレームIDと共に、物体検出部101により検出処理が行われた部分領域の大きさを特定可能な情報を、演算装置303に送信する。第3の実施形態の場合、物体検出部101による検出処理が行われた部分領域の大きさを特定可能な情報として、検出処理が行われた縮小画像の縮小率の情報が送信される。演算装置303に送られる縮小率の情報は、検出処理が行われた各縮小画像の各縮小率の情報でもよいが、本実施形態では縮小率の小さな画像から順に検出処理が行われるため、処理が行われた各縮小率のうち最大値の情報のみを送信してもよい。前述した図8の例の場合、検出処理が行われたのは縮小画像802までであるため、縮小率Aの情報が送信されることになる。

0060

これにより、第3の実施形態の場合、演算装置303の検出結果受信部110は、物体座標とフレームIDと縮小率の情報を受信する。そして、演算装置303の物体検出部113は、監視カメラ301側で処理されていない領域を求め、この領域に対する物体検出処理を施す。具体的には、物体検出部113は、動画受信部111が受信した画像データから、検出結果受信部110が受信した縮小率を基に、監視カメラ301側で検出処理が行われていない縮小率の縮小画像を生成し、その縮小画像に対して検出処理を行う。前述の図8の例の場合、検出結果受信部110は、縮小率Aの情報を受信する。このため、物体検出部113は、監視カメラ301側で検出処理が行われていない縮小画像として、縮小率Aよりも大きい縮小率Bにより入力画像801を縮小した縮小画像803を生成する。そして、物体検出部113は、その縮小画像803に対し、物体検出部101の場合と同様に、切り出し領域811に適合した大きさの物体領域823(人物311の画像領域)を検出する。演算装置303の物体検出部113では、監視カメラ301側のような処理の中断は行われずに、動画の毎フレームについて検出処理を実行する。前述のように物体検出部113では、監視カメラ301側での検出処理が行われていない縮小画像を用いた物体検出処理を行うことにより、物体領域検出が行われていない部分領域から物体座標が検出される。なお、第3の実施形態の監視カメラ301側において、動画の中の一部のフレームについてのみ、その中の一部の部分領域から物体領域の座標が検出された場合、物体領域の座標検出が行われていないフレームに対する処理は前述の実施形態と同様でよい。

0061

第3の実施形態の場合、座標算出部114は、監視カメラ301の物体検出部101が求めた物体領域821の座標及び物体領域822の座標と、演算装置303の物体検出部113が求めた物体領域823の座標とを、軌跡統合部115に送る。そして、軌跡統合部115は、前述の第1の実施形態の場合と同様に、時間順の各フレームの各物体座標から得られる中心座標群を繋いでそれら物体の軌跡を各々求める。

0062

第3の実施形態によれば、監視カメラ301側でフレームの画像内の一部の物体領域の座標が求められていない場合でも、演算装置303の物体検出部113の処理によりそれら物体領域の座標を求めることができる。したがって、第3の実施形態においても、各物体の軌跡を求めることができる。ここで、通信量や演算負荷を低減するために動画の品質が劣化し、物体の検出精度が低下した場合には、特に小さな物体についての検出精度が低下すると考えられる。このため、第3の実施形態の監視カメラ301側の物体検出部101は、画質の劣化後に検出されにくくなる小さな物体から優先して検出処理を行い、一方、演算装置303側の物体検出部113では画質劣化後にも検出し易い大きな物体を検出する。したがって、第3の実施形態の監視システムによれば、システム全体として検出精度を向上させることができる。
<第4の実施形態>
以下、第4の実施形態について説明する。第4の実施形態の演算装置303の物体検出部113は、監視カメラ301側で検出処理が行われなかったフレームについて、監視カメラ301が求めた物体座標を基に、物体が存在する可能性のある領域を設定し、その領域のみに対して検出処理を行う。第4の実施形態の監視カメラ301及び演算装置303の構成は前述同様であるため図示及び説明は省略する。

0063

図9は前述した図5の例えばフレームF8を表す図であり、物体領域901は図5のフレームF8内で図4の人物311に対応した物体領域(403)であるとする。また前述した図5の例のように、監視カメラ301の物体検出部101は、フレームF8で物体検出処理を行い、そのフレームF8から時間方向に後の二つのフレームF9,F10では物体検出を行わず、フレームF11で物体検出処理を行ったとする。さらに、図9において、物体領域902は、フレームF11の画像から図4の人物311が検出された際の物体領域を表しているとする。そして、監視カメラ301からは、前述の第1の実施形態と同様に、それら物体領域901の座標及びフレームF8のフレームID、物体領域902の座標及びフレームF11のフレームIDが演算装置303に送信されたとする。この場合、演算装置303側では、受信したフレームIDを基にフレーム同定が行われ、またその同定されたフレームの画像に対して物体座標が対応付けられる。図9の例の場合、フレームF8とフレームF11がそれぞれ同定され、フレームF8の画像と物体領域901の座標が対応付けられ、フレームF11の画像と物体領域902の座標が対応付けられる。

0064

そして、第4の実施形態において、演算装置303の物体検出部113は、監視カメラ301側で物体検出処理が行われていないフレームについて、検出処理を施して物体座標を求める。図9の例の場合、監視カメラ301側で物体検出処理が行われていないフレームは、フレームF9とF10である。

0065

第4の実施形態の場合、演算装置303の物体検出部113は、図9の例でフレーム同定されたフレームF8とフレームF11の物体座標を参考にして、フレームF9とF10の物体座標を求める。具体的には、物体検出部113は、フレームF8の物体領域901の座標を基に、フレームF8の次のフレームF9内で物体領域901の物体が存在しそうな領域911を設定し、そのフレームF9の領域911に対して物体検出処理を行う。ここで、フレームF9内で物体領域901の物体が存在しそうな領域は、例えば、フレームF8内の物体領域901の座標の周辺で且つ物体領域901よりも大きい領域とする。物体領域901より大きい領域は、フレームF8内の物体領域901の中心座標と同じ座標を中心とし、矩形の幅及び高さが物体領域901の幅及び高さに対して所定倍された領域とする。そして、領域911内で例えば物体領域921を検出した場合、物体検出部113は、前述同様に、物体領域921の座標を基に次のフレームF10内で物体領域921の物体が存在しそうな領域912を求め、その領域912に対する物体検出処理を行う。図9の例では、領域912内で物体領域922が検出されたとする。
これ以降は、前述した実施形態と同様に、座標算出部114は、不足している物体座標を求め、軌跡統合部115はこれら座標群を統合して軌跡を求める。

0066

第4の実施形態の監視システムにおいても前述の各実施形態と同様に、監視システム全体としての検出追尾精度が向上する。特に、第4の実施形態の場合は、監視カメラ301側で物体検出処理が行われたフレームの物体座標に基づき、監視カメラ301側で物体検出処理が行われていないフレームの中で、物体が存在しそうな領域を設定し、その領域にする物体検出処理を行う。このため、第4の実施形態によれば、物体検出処理が行われていないフレーム全体に対して物体領域の検出処理を行う場合よりも演算量を低減できる。また、第4の実施形態によれば、物体が存在しそうな領域に対して物体領域検出処理を行うので、物体領域を検出できる可能性が高くなり、検出処理時間の短縮と高精度な検出が可能となる。

0067

以上説明したように、第1〜第4の実施形態の監視システムでは、監視カメラ301側で物体検出処理が行えないフレームや部分領域等があったとしても、演算装置303側で物体検出処理を補うことにより、物体の軌跡を求めることができる。すなわち、演算装置303側では、監視カメラ301の物体検出部101で検出処理が行われていないフレームや部分領域に対する検出処理が行われるため、検出処理を施す領域が少なくなり、動画中の物体の軌跡を効率良く高い精度で検出可能となる。したがって、本実施形態の監視システムによれば、監視カメラ301の物体検出部101の処理が撮影フレームレートと比べて遅い場合、軌跡検出の対象となる物体が多数存在する場合、高解像度の動画の場合であっても、物体の軌跡を求めることができる。

0068

本発明は、前述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。

0069

前述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

0070

100:動画撮影部、101:物体検出部、102:座標算出部、103:フレームID取得部、104:検出結果送信部、105:動画送信部、110:検出結果受信部、111:動画受信部、112:フレーム同定部、113:物体検出部、114:座標算出部、115:軌跡統合部、301:監視カメラ、303:演算装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ