図面 (/)

技術 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム

出願人 株式会社エクォス・リサーチ国立大学法人九州工業大学
発明者 山田英夫村松竜弥柴田雅聡榎田修一甲斐夕登
出願日 2018年2月28日 (2年2ヶ月経過) 出願番号 2018-035745
公開日 2019年9月12日 (7ヶ月経過) 公開番号 2019-152927
状態 未査定
技術分野 イメージ分析
主要キーワード 本願発明人 ペアノ曲線 ヒルベルト曲線 平均値出力 画像認識精度 空間充填曲線 特徴マップ 走査終了点
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年9月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

動的な対象を画像認識する。

解決手段

時空間画像認識装置1は、空間情報時間情報を保持したまま動画データ4を時空間画像データに変換する時空間画像データ生成部2a、2b、2cを備えており、これらは、それぞれ異なった走査経路で動画データ4をスキャンする。これにより、時空間画像データ生成部2a、2b、2cは、それぞれ異なる走査経路でスキャンした時空間画像データ8a、8b、8c(図示せず)を生成して画像認識部3に出力する。画像認識部3は、時空間画像データ8a、8b、8cを個別に畳み込み処理して2次元特徴マップ60a、60b、60cを生成した後、これらを統合してニューラルネットワーク解析し、画像認識結果を出力する。

概要

背景

近年、人工知能を用いた深層学習が盛んに研究され、CNNを用いた2次元画像画像認識の分野において大きな成果報告されている。
動画は2次元画像であるフレーム画像時系列的に並べたものであるため、2次元画像に対する深層学習の技術を動画に適用したいとの要望が高まっている。
このような2次元画像認識技術を用いて動画を認識する技術として非特許文献1の
「3D Convolutional Neural Networks for Human Action Recognition」や非特許文献2の「フレーム連結画像を用いたCNNによるシーン認識」がある。
非特許文献1の技術は、動画データに対して空間2次元と時間1次元から成る畳み込みフィルタを適用して、畳み込み処理を行うものである。
非特許文献2の技術は、対象の動き発話シーン)を撮影した一連のフレーム画像をタイル状に配置して連結することにより、1枚の2次元の画像で対象の経時変化を表すものである。これをCNNによる画像認識装置投入してシーンの認識を行う。

しかし、非特許文献1の技術では、動画データに対して3次元の畳み込みフィルタを繰り返し使用するため、計算コストが多くなり、大規模計算機を要するという問題があった。
非特許文献2記載の技術では、2次元の畳み込みフィルタを用いるため、計算コストを低減することができるが、タイル状に隣接する画像の画素間には情報の関連性がなく、対象の認識精度が低下するという問題があった。

概要

動的な対象を画像認識する。時空間画像認識装置1は、空間情報時間情報を保持したまま動画データ4を時空間画像データに変換する時空間画像データ生成部2a、2b、2cを備えており、これらは、それぞれ異なった走査経路で動画データ4をスキャンする。これにより、時空間画像データ生成部2a、2b、2cは、それぞれ異なる走査経路でスキャンした時空間画像データ8a、8b、8c(示せず)を生成して画像認識部3に出力する。画像認識部3は、時空間画像データ8a、8b、8cを個別に畳み込み処理して2次元特徴マップ60a、60b、60cを生成した後、これらを統合してニューラルネットワーク解析し、画像認識結果を出力する。

目的

本発明は、動的な認識対象を画像認識することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得手段と、前記取得した時系列空間情報を所定の方向に異なる走査経路複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得手段と、前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成手段と、前記生成した画像データを出力する出力手段と、を具備したことを特徴とする画像データ生成装置

請求項2

前記所定の方向は、前記時系列空間情報の空間方向であり、前記他の方向は、前記時系列空間情報の時間方向であることを特徴とする請求項1に記載の画像データ生成装置。

請求項3

前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段は、前記異なる走査経路ごとに設けられており、これらの手段は、前記異なる走査経路ごとに前記時系列空間情報を並列処理することを特徴とする請求項1、又は請求項2に記載の画像データ生成装置。

請求項4

前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段は、前記異なる走査経路ごとの処理を逐次処理することを特徴とする請求項1、又は請求項2に記載の画像データ生成装置。

請求項5

請求項1から請求項4までのうちの何れか1の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得手段と、前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得手段と、前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合手段と、を具備したことを特徴とする画像認識装置

請求項6

前記特徴量取得手段は、畳み込み処理によって特徴量を取得し、前記統合手段は、ニューラルネットワークを用いて前記特徴量を統合する、ことを特徴とする請求項5に記載の画像認識装置。

請求項7

空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得機能と、前記取得した時系列空間情報を所定の方向に異なる走査経路で複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得機能と、前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成機能と、前記生成した画像データを出力する出力機能と、をコンピュータで実現する画像データ生成プログラム

請求項8

請求項1から請求項4までのうちの何れか1の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得機能と、前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得機能と、前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合機能と、をコンピュータで実現する画像認識プログラム

技術分野

0001

本発明は、画像データ生成装置画像認識装置画像データ生成プログラム、及び画像認識プログラムに関し、例えば、CNNを用いて歩行者等の各種画像を認識するものに関する。

背景技術

0002

近年、人工知能を用いた深層学習が盛んに研究され、CNNを用いた2次元画像画像認識の分野において大きな成果報告されている。
動画は2次元画像であるフレーム画像時系列的に並べたものであるため、2次元画像に対する深層学習の技術を動画に適用したいとの要望が高まっている。
このような2次元画像認識技術を用いて動画を認識する技術として非特許文献1の
「3D Convolutional Neural Networks for Human Action Recognition」や非特許文献2の「フレーム連結画像を用いたCNNによるシーン認識」がある。
非特許文献1の技術は、動画データに対して空間2次元と時間1次元から成る畳み込みフィルタを適用して、畳み込み処理を行うものである。
非特許文献2の技術は、対象の動き発話シーン)を撮影した一連のフレーム画像をタイル状に配置して連結することにより、1枚の2次元の画像で対象の経時変化を表すものである。これをCNNによる画像認識装置に投入してシーンの認識を行う。

0003

しかし、非特許文献1の技術では、動画データに対して3次元の畳み込みフィルタを繰り返し使用するため、計算コストが多くなり、大規模計算機を要するという問題があった。
非特許文献2記載の技術では、2次元の畳み込みフィルタを用いるため、計算コストを低減することができるが、タイル状に隣接する画像の画素間には情報の関連性がなく、対象の認識精度が低下するという問題があった。

先行技術

0004

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.35, pp.221−231,2013,「3D Convolutional Neural Networks for Human Action Recognition」
MIRU2016 第19回 画像の認識・理解シンポジウムPS1−27「フレーム連結画像を用いたCNNによるシーン認識」

発明が解決しようとする課題

0005

本発明は、動的な認識対象を画像認識することを目的とする。

課題を解決するための手段

0006

(1)請求項1に記載の発明では、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得手段と、前記取得した時系列空間情報を所定の方向に異なる走査経路複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得手段と、前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成手段と、前記生成した画像データを出力する出力手段と、を具備したことを特徴とする画像データ生成装置を提供する。
(2)請求項2に記載の発明では、前記所定の方向が、前記時系列空間情報の空間方向であり、前記他の方向は、前記時系列空間情報の時間方向であることを特徴とする請求項1に記載の画像データ生成装置を提供する。
(3)請求項3に記載の発明では、前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段が、前記異なる走査経路ごとに設けられており、これらの手段は、前記異なる走査経路ごとに前記時系列空間情報を並列処理することを特徴とする請求項1、又は請求項2に記載の画像データ生成装置を提供する。
(4)請求項4に記載の発明では、前記データ値取得手段、前記画像データ生成手段、及び、前記出力手段が、前記異なる走査経路ごとの処理を逐次処理することを特徴とする請求項1、又は請求項2に記載の画像データ生成装置を提供する。
(5)請求項5に記載の発明では、請求項1から請求項4までのうちの何れか1の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得手段と、前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得手段と、前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合手段と、を具備したことを特徴とする画像認識装置を提供する。
(6)請求項6に記載の発明では、前記特徴量取得手段が、畳み込み処理によって特徴量を取得し、前記統合手段は、ニューラルネットワークを用いて前記特徴量を統合する、ことを特徴とする請求項5に記載の画像認識装置を提供する。
(7)請求項7に記載の発明では、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得機能と、前記取得した時系列空間情報を所定の方向に異なる走査経路で複数回走査して当該所定の方向における前記走査経路ごとのデータ値の列を取得するデータ値取得機能と、前記取得したデータ値の列を前記時系列空間情報の他の方向に対応して配列した画像データを前記走査経路ごとに生成する画像データ生成機能と、前記生成した画像データを出力する出力機能と、をコンピュータで実現する画像データ生成プログラムを提供する。
(8)請求項8に記載の発明では、請求項1から請求項4までのうちの何れか1の請求項に記載の画像データ生成装置から、走査経路の異なる複数の画像データを取得する画像データ取得機能と、前記取得した複数の画像データから認識対象の特徴量を個別に取得する特徴量取得機能と、前記取得した個別の特徴量を統合して認識対象の認識結果を出力する統合機能と、をコンピュータで実現する画像認識プログラムを提供する。

発明の効果

0007

本発明によれば、空間的な情報と時間的な情報を併せ持つ時空間画像データを生成することにより、動的な認識対象を画像認識することができる。

図面の簡単な説明

0008

時空間画像認識装置の構成を説明するための図である。
時空間画像データの構成を説明するための図である。
ヒルベルトスキャンを説明するための図である。
ヒルベルトスキャンの走査経路を説明するための図である。
ヒルベルトスキャンの走査経路の変形例を説明するための図である。
CNNの構成を説明するための図である。
画像認識部を説明するための図である。
時空間画像認識装置のハードウェア的な構成の一例を示した図である。
時空間画像データ生成処理の手順を説明するためのフローチャートである。
画像認識処理の手順を説明するためのフローチャートである。
変形例を説明するための図である。

実施例

0009

(1)実施形態の概要
時空間画像認識装置1(図1)は、空間情報と時間情報を保持したまま動画データ4を2次元画像データである時空間画像データに変換する時空間画像データ生成部2a、2b、2cを備えており、これらは、1枚分のフレーム画像データ6に対して、それぞれ異なった走査経路で動画データ4をスキャンする。
これにより、時空間画像データ生成部2a、2b、2cは、それぞれ異なる走査経路でスキャンした時空間画像データ8a、8b、8cを生成して画像認識部3に出力する。
画像認識部3は、時空間画像データ8a、8b、8cを個別に畳み込み処理して2次元特徴マップ60a、60b、60c(後述する)を生成した後、これらを統合してニューラルネットワークで解析し、画像認識結果を出力する。
このように、時空間画像認識装置1は、異なる走査経路により生成された複数枚の時空間画像データ8a、8b、8cを入力とする2次元CNN(Convolutional Neural Network)により動画像を用いた画像認識を行うことができる。

0010

(2)実施形態の詳細
図1は、本実施形態に係る時空間画像認識装置1の構成を説明するための図である。
時空間画像認識装置1は、例えば、車両に搭載され、車載カメラが出力した動画データ4を解析して車外に存在する歩行者の有無と動作状態分類(右直立、右歩行、左直立、左歩行など)を画像認識する。

0011

時空間画像認識装置1は、動画データ4を並列処理する時空間画像データ生成部2a、2b、2c、及び画像認識部3を備えている。
以下、時空間画像データ生成部2a、2b、2cを特に区別しない場合は単に時空間画像データ生成部2と記すことにし、他の構成要素についても同様に記すことにする。

0012

時空間画像データ生成部2は、認識対象の空間的な状態の時間的変化を記録した3次元情報(空間方向2次元、時間方向1次元の計3次元)である動画データ4を、後述するように空間方向に1次元展開して時間方向に配列することにより、2次元画像データに変換する画像データ生成装置である。
この2次元画像データは、空間的、及び時間的な情報を表しているため、本願発明人らにより時空間画像データと命名された。

0013

時空間画像データ8(図2参照)は、2次元画像データであるため、空間情報、及び時間情報を記録した動画データ4に対して2次元画像データの画像認識技術を適用できるようになる。そのため、動画データ4に対して3次元フィルタを用いた従来技術に比べて計算コストを劇的に低減することができる。

0014

時空間画像データ生成部2は、動画データ4のフレームを構成する静止画像データを所定の走査経路でスキャンすることにより2次元の空間情報を1次元のデータに展開するのであるが、時空間画像データ生成部2a、2b、2cは、それぞれ異なる走査経路で静止画像データをスキャンし、これによって3種類の時空間画像データ8を生成する。
本実施形態では、時空間画像データ生成部2a、2b、2cは、走査経路の異なるヒルベルトスキャン(後述)を行うものとする。

0015

なお、時空間画像データ生成部2a、2bは、ヒルベルトスキャンを行い、時空間画像データ生成部2cは、ラスタスキャンを行うといったように、異なる方式の走査方法を組み合わせてもよい。
また、本実施形態では、3種類の時空間画像データ8を組み合わせたが、これは一例であって、2種類の時空間画像データ8を組み合わせたり、更に多くの種類の時空間画像データ8を組み合わせてもよい。

0016

画像認識部3は、時空間画像データ生成部2a、2b、2cが生成した時空間画像データ8から個別に特徴量を抽出した後、これらを統合して画像認識を行い、画像認識結果を出力する。
本実施形態では、これらの処理に、一例としてCNN(Convolutional Neural Network)を用いる。CNNは、深層学習を用いた人工知能によって画像認識処理を行うアルゴリズムであり、畳み込みニューラルネットワークと呼ばれている。CNNは、2次元画像データの画像認識方法として高い評価を得ており、広く利用されている。
通常のCNNは、1つの画像データを処理するように構成されているが、画像認識部3は、3つの時空間画像データ8を統合的に処理して画像認識するように構成されている。

0017

図2は、時空間画像データ8の構成を説明するための図である。
図2(a)に示したように、カメラによって撮影された動画データ4は、時系列的に生成されたフレーム画像データ6a、6b、…から構成されている。
フレーム画像データ6は、ある瞬間において被写体(認識対象)を撮影した、空間方向の(x、y)成分を有する2次元の静止画像データである。

0018

動画データ4は、フレーム画像データ6を撮影時間に従って時間方向(t軸とする)に時系列に順序づけて並べた静止画像データの集合であり、空間方向の2次元、時間方向の1次元を合計した3次元データとなる。
ここで、動画データ4は、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報として機能している。

0019

時空間画像データ生成部2は、カメラから逐次送られてくるフレーム画像データ6を時系列的に所定枚数分を読み込む。
このように、時空間画像データ生成部2は、カメラより時系列空間情報を取得する時系列空間情報取得手段を備えている。
ここでは、一例として最初のフレーム画像データ6aから最新のフレーム画像データ6fまでの6枚のフレーム画像データ6を読み込むことにする。
なお、画像認識精度許容範囲内に保たれる限度まで、フレーム画像データ6を所定枚数ごとに、あるいは、ランダムに読み込んだり、または、コマ落ちが生じてもよい。

0020

なお、フレーム画像データ6を読み込む順番については、この逆も可能である。
すなわち、時空間画像データ生成部2は、カメラから逐次送られてくるフレーム画像データ6のうち、最新のものから過去のものへ時系列的に所定枚数分を読み込むようにしてもよい。この場合の一例としては、最新のフレーム画像データ6fから過去方向のフレーム画像データ6aまでの6枚のフレーム画像データ6を読み込むことになる。

0021

時空間画像データ生成部2は、これらのフレーム画像データ6を読み込むと、まず、フレーム画像データ6aに対して空間方向(x軸とy軸で張られる面の面方向)にヒルベルト曲線(後述)を一筆書き的に設定する。そして、時空間画像データ生成部2は、当該ヒルベルト曲線に沿ってフレーム画像データ6aの画素の画素値をスキャン(走査)して読み取り、これらを1列のデータ値の列に展開する。この処理は、ヒルベルトスキャンと呼ばれ、詳細は後述する。

0022

フレーム画像データ6aをヒルベルトスキャンすることにより、フレーム画像データ6aを撮影した時点での、空間的情報を含む空間方向の1次元データである1次元空間画像データ7aが得られる。
時空間画像データ生成部2は、同様にして、フレーム画像データ6b〜6fも図示しない1次元空間画像データ7b〜7fに変換する。
後述するように、ヒルベルト曲線は屈曲しているため、これに沿ってスキャンすると、画像の局所性を極力保持したまま2次元画像を1次元化することができる。

0023

次いで、時空間画像データ生成部2は、図1(b)に示したように、1次元空間画像データ7a〜7fを時間方向に(即ち撮影時間の順番に)時系列的に配列して画像認識用の時空間画像データ8を生成する。

0024

時空間画像データ8は、一辺の方向が空間的情報(空間成分)を表し、これに直交する他方の辺が時間的情報時間成分)を表す2次元画像データである。
このように、時空間画像データ生成部2は、動画データ4を空間方向にヒルベルトスキャンして展開することにより3次元の時系列空間データである動画データ4を、空間的情報、及び時間的情報を保持しつつ、2次元の画像データである時空間画像データ8に変換する。
なお、ここでは1次元空間画像データ7の配列を時系列順としたが、画像認識が可能な範囲で順序を変更することも可能である。

0025

以上が、時空間画像データ生成部2が時空間画像データ8を生成する手順であるが、時空間画像認識装置1は、走査経路の異なる3つの時空間画像データ生成部2a、2b、2cを備えているため、動画データ4から、走査経路ごとの1次元空間画像データ7や時空間画像データ8を生成して画像認識部3に出力する。

0026

このため、時空間画像認識装置1は、時系列空間情報を所定の方向(この例では、空間方向)に異なる走査経路で複数回走査して(この例では3回走査して)当該所定の方向における走査経路ごとのデータ値の列を取得するデータ値取得手段と、これによって取得したデータ値の列を時系列空間情報の他の方向(この例では、時間方向)に対応して配列した画像データ(この例では、時系列画像データ)を走査経路ごとに生成する画像データ生成手段と、当該生成した画像データを出力する出力手段とを備えている。

0027

また、時空間画像データ生成部2a、2b、2cは、異なる走査経路ごとに設けられており、動画データ4を並列処理するため、上記のデータ値取得手段、画像データ生成手段、及び、出力手段は、当該異なる走査経路ごとに設けられており、これらの手段は、当該異なる走査経路ごとに時系列空間情報を並列処理している。

0028

なお、本実施形態では、動画データ4を空間方向にスキャンして、その結果得られた1次元データを時間方向に配列したが、これは、一例であって、時間方向にスキャンし、その結果得られた1次元データを空間方向に配列してもよい。

0029

本実施形態では、スキャン方法としてヒルベルトスキャンを用いるが、次に、これについて説明する。
図3は、時空間画像データ生成部2が行うヒルベルトスキャンを説明するための図である。
ヒルベルトスキャンは、フレーム画像データ6に各画素を通過するヒルベルト曲線を設定し、これに沿ってスキャンすることにより、フレーム画像データ6の全体に渡って画素値を一筆書き的に読み取る処理である。

0030

ヒルベルト曲線は、図3(a)に示したようなコの字型曲線を組み合わせて形成される空間全体を覆う曲線であり、空間充填曲線と呼ばれるものの一種である。空間充填曲線には、この他にペアノ曲線などもある。図に示した矢線は、スキャンの方向を示している。
このように、時空間画像データ生成部2は、屈曲を繰り返す曲線として空間充填曲線を設定している。

0031

図3(b)に示したような、m×m(m=2)個の画素1〜4が配置された画像データ20の例では、これらの画素を通過するヒルベルト曲線21を設定し、矢線の方向に画素値をスキャンして読み取った画素値を1列に並べると、画素1〜画素4が順に並んだ1次元空間画像データ22が得られる。

0032

図3(c)に示したような、m×m(m=4)個の画素1〜Gが配置された画像データ24の例では、これらの画素を通過するヒルベルト曲線25を設定し、矢線の方向に画素値をスキャンして読み取った画素値を1列に並べると、画素1〜画素Gが順に並んだ1次元空間画像データ26が得られる。
更に、より画素の多い画像データも同様に、ヒルベルト曲線に従ってスキャンする。

0033

ところで、例えば、図3(c)の画像データ24では、領域27に画素1、2、5、6が局在しているが、これらの画素は1次元空間画像データ26においても領域28に局在している。
同様に、画像データ24で局在している画素3、4、7、8も1次元空間画像データ26で局在してまとまっている。
このようにヒルベルトスキャンを用いると、画素値の局所性をできるだけ保持したまま2次元データを1次元化することができる。

0034

画像認識は、画像の特徴をパターン認識するため、元画像局所的な特徴をなるべく損なわないようにして時空間画像データ8を生成することが重要となる。
そのため、ヒルベルト曲線は、フレーム画像データ6をスキャンするための走査線として適した曲線である。
なお、これは、フレーム画像データ6をスキャンする曲線をヒルベルト曲線に限定するものではなく、ペアノ曲線などの他の空間充填曲線や、非空間充填曲線を用いることも可能である。

0035

本実施形態では、ヒルベルト曲線を画素単位で屈曲させるが、例えば、1つおきの画素で屈曲させ、1つおきの画素値を読み取るといったように、読み取りの間隔を粗くすることも可能である。間隔が細かいほど精度は上がるが、計算コストは増大する。そのため、読み取りの間隔は、画像認識に必要とされる局所性の程度に応じて決定すればよい。

0036

図4は、時空間画像データ生成部2a、2b、2cが行うヒルベルトスキャンの走査経路の一例を説明するための図である。
この図4では、時空間画像データ生成部2a、2b、2cは、それぞれ同一のフレーム画像データ6に対して異なる走査経路のヒルベルトスキャンを行う。
なお、x座標が小さい側を左側、大きい側を右側、y座標が小さい側を上側、大きい側を下側とする(それぞれ、図面に向かって左、右、上、下側の方向に対応する)。

0037

図4(a)は、時空間画像データ生成部2aが行うヒルベルトスキャンの走査開始点走査終了点を示している。
時空間画像データ生成部2aは、フレーム画像データ6の左端上部と左端下部を、それぞれ、走査開始点と走査終了点に設定し、フレーム画像データ6の全ての画素を通過するように走査経路(図示せず)をヒルベルト曲線にて設定する。

0038

図4(b)は、時空間画像データ生成部2bが行うヒルベルトスキャンの走査開始点と走査終了点を示している。
時空間画像データ生成部2bは、フレーム画像データ6の右端上部と右端下部を、それぞれ、走査開始点と走査終了点に設定し、フレーム画像データ6の全ての画素を通過するように走査経路(図示せず)をヒルベルト曲線にて設定する。

0039

図4(c)は、時空間画像データ生成部2cが行うヒルベルトスキャンの走査開始点と走査終了点を示している。
時空間画像データ生成部2cは、フレーム画像データ6の左端中央部に画素1つ分だけずらして走査開始点と走査終了点を設定し、フレーム画像データ6の全ての画素を通過するように走査経路(図示せず)をヒルベルト曲線にて設定する。

0040

このように、時空間画像データ生成部2a、2b、2cは、異なる点を走査開始点と走査終了点に設定してヒルベルト曲線を設定するため、走査経路が異なる。
これによって、時空間画像データ生成部2a、2b、2cは、それぞれ、走査経路の異なる時空間画像データ8を生成することができる。
なお、以上の走査開始点と走査終了点は、一例であって、任意の箇所に設定することが可能である。

0041

図5は、時空間画像データ生成部2a、2b、2cが行うヒルベルトスキャンの走査経路の変形例を説明するための図である。
図4で説明した実施形態では、同一のフレーム画像データ6に対して異なる走査経路のヒルベルトスキャンを行う場合について説明した。これに対して変形例では、1つのフレーム画像データ6aから、複数(実施形態に合わせて3枚)のクリッピング画像6aa、6ab、…をランダムにクリッピングし、このクリッピング画像6aa、…に対して同一走査経路のヒルベルトスキャンを行う。すなわち、同じ走査開始点と走査終了点を設定してヒルベルトスキャンする場合であっても、異なる領域のクリピング画像をスキャンすることで、元のフレーム画像データ6aに対しては、走査経路を変化させたことになる。

0042

図5(a)に示したように、フレーム画像データ6aは、一例として64×32個の画素から構成されているとする。
これに対し、時空間画像データ生成部2は、このサイズより小さい領域をフレーム画像データ6aにランダム(任意)に設定し、フレーム画像データ6aから当該領域で形成されたクリッピング画像6aa、6ab…を抜き出す。クリッピング画像6aa、…のサイズは、一例として60×30とする。

0043

なお、画像にヒルベルト曲線を設定する場合、一辺のサイズが2のn乗(nは自然数)であることが必要である。
そこで、時空間画像データ生成部2は、図5(b)に示したように、クリッピング画像6aaの周囲に適当な画素を追加するパディングという処理を行って、64×32のクリッピング画像6aaのサイズを復元する
そして、時空間画像データ生成部2は、復元したクリッピング画像6aaにヒルベルト曲線を設定してスキャンし、追加した画素の画素値はメモリに読み込まずにスキップして1次元空間画像データ7aを生成する。

0044

時空間画像データ生成部2は、同様に、フレーム画像データ6b〜6fを任意の範囲でクリッピングしてクリッピング画像6ba、6bb、…、〜6fa、6fb、6fcを生成し、これらをパディングしてからヒルベルトスキャンして1次元空間画像データ7ba、7bb、…、〜7fa、7fb、7fcを生成する。
そして、時空間画像データ生成部2は、1次元空間画像データ7ba、7bb、…、〜7fa、7fb、7fcを時系列順に配設して時空間画像データ8a、8b…8fを生成する。
以上の例では、クリッピング画像6aa…をフレーム画像データ6ごとに任意の領域に設定したが、何らかの規則性に従って設定してもよい。

0045

以上の手順によって、時空間画像データ生成部2a、2b、2cは、それぞれランダムにフレーム画像データ6aをクリッピングして、クリッピング画像6aa、6ab、6ac(図示せず、以下同様)を生成する。
なお、j番目の時空間画像データ生成部2j(2a、2b、2c)が、i番目のフレーム画像データ6iをクリッピングした後パディングして生成したクリッピング画像をクリッピング画像6ijと表すことにする。1次元空間画像データ7についても同様にijを用いて表示することする。

0046

そして、時空間画像データ生成部2a、2b、2cは、それぞれ、クリッピング画像6aa、6ab、6acに同じ走査経路を設定し、ヒルベルトスキャンする。
走査経路は同じであるが、クリッピングにより、元のフレーム画像データ6に対する走査する範囲が異なるため、時空間画像データ生成部2a、2b、2cは、異なる1次元空間画像データ7aa、7ab、7acを生成する。

0047

時空間画像データ生成部2a、2b、2cは、フレーム画像データ6b〜6fについても同様に処理し、これによって、時空間画像データ生成部2aは、1次元空間画像データ7ba〜7faを生成し、時空間画像データ生成部2bは、1次元空間画像データ7bb〜7fbを生成し、時空間画像データ生成部2cは、1次元空間画像データ7bc〜7fcを生成する。
そして、時空間画像データ生成部2aは、1次元空間画像データ7aa〜7faから時空間画像データ8aを生成し、時空間画像データ生成部2bは、1次元空間画像データ7ab〜7fbから時空間画像データ8bを生成し、時空間画像データ生成部2cは、1次元空間画像データ7ac〜7fcから時空間画像データ8cを生成する。
このようにして、時空間画像データ生成部2a、2b、2cは、異なる走査経路でヒルベルトスキャンした時空間画像データ8a、8b、8cを生成することができる。

0048

なお、一般的に、フレーム画像データ6をクリッピングする処理は、以下に述べるように、ヒルベルトスキャンによる局所情報の非局在化を軽減するために利用される。
即ち、ヒルベルトスキャンは、フレーム画像データ6における画素の局所性をなるべく保持したまま時空間画像データ8を生成することができる。
しかし、局所性の全てが保存されるわけではなく、局在化していた画素が離れてしまう場合もある程度発生する。

0049

クリッピング後にサイズを復元したクリッピング画像6ijにヒルベルト曲線を設定することにより、元のフレーム画像6iに対して、ヒルベルト曲線の開始点や画素を通過する経路がクリッピング画像6ijごとに変化し、画素の非局在化を様々な画素に分散することができる。
このように、時空間画像データ生成部2は、クリッピングによってもフレーム画像データごとに、曲線の設定範囲を変化させることにより曲線の設定条件を変化させることができる。

0050

このような、学習画像やフレーム画像データ6から一回り小さい画像をランダムで切り出して、空間的情報の保持を網羅的にする処理は、データオーギュメンテーションと呼ばれている。
データオーギュメンテーションは、事前学習用の動画データ4と動画データ4の双方について行われる。

0051

以上、異なる走査経路を設定してヒルベルトスキャンする例として、図4で説明した走査開始点と走査終了点を変化させる例と、図5で説明したクリッピングする例について説明したが、両者を組み合わせるのが好ましい。
本実施形態では、時空間画像データ生成部2a、2b、2cは、それぞれ個別にフレーム画像データ6をランダムにクリッピングするとともに、それぞれ、異なる走査開始点と走査終了点を設定することとした。

0052

次に、画像認識部3のCNNを説明する準備として、一般的なCNNの構成について説明する。
図6は、CNN30の構成を概念的に表したものである。
図6に示すように、CNN30は、例えば、右直立、右歩行、左直立、左歩行、・・・など歩行者が取り得る各種の態様を分類クラスとして事前学習している。そして、CNN30は、2次元画像データを読み込んで、これから歩行者の態様が何れの分類クラスに属するかを以下の構成により画像認識し、その結果を出力する。

0053

CNN30は、特徴マップ成層18と全結合層17を組み合わせて構成されている。
特徴マップ生成層18は、入力側から、畳み込み層11、プーリング層12、畳み込み層13、プーリング層14、畳み込み層15、プーリング層16の各層を積層して構成されており、その下流側に全結合層17が配置されている。
畳み込み層11は、入力された2次元画像データ(本実施形態では、時空間画像データ8が2次元画像データに相当する)に対して2次元フィルタを画像上でスライドさせてフィルタリングすることにより画像の特徴的な濃淡構造を抽出する層であり、周波数解析に対応する処理を行う。

0054

プーリング層12は、畳み込み層11によって抽出された特徴を保持しつつデータをダウンサンプリングして縮小する。
歩行者は、動的に動くため、フレーム画像データ6での撮影位置がずれるが、プーリング層12の処理によって歩行者を表す空間的な特徴の位置のずれを吸収することができる。これによって、空間的な位置ずれに対する画像認識精度の頑強性を高めることができる。

0055

畳み込み層13、15と、プーリング層14、16の機能は、それぞれ、畳み込み層11、プーリング層12と同様である。
以上のような畳み込み処理によって、特徴マップ生成層18は、2次元画像データから特徴量を抽出して、2次元特徴マップ60(畳み込み層11〜プーリング層16を経て特徴量を抽出したデータ)を生成する。

0056

全結合層17は、入力層51、中間層52、出力層53から成る一般的なニューラルネットワークであり、2次元特徴マップ60を1次元に展開して、回帰分析のような処理を行う層である。
出力層53は、右直立、右歩行、左直立、左歩行、・・・などの分類クラス別の出力部を備えており、例えば、右直立→5%、右歩行→85%、左直立→2%、・・・などと、分類クラスごとの%によって画像認識結果54を出力する。
このように、画像認識部3は、画像の特徴の抽出と位置のずれの吸収を3回行った後、回帰分析的な処理を行って、歩行者の態様を画像認識する。

0057

なお、畳み込み層11、13、15の2次元フィルタの値や、全結合層17のパラメータは、学習を通してチューニングされている。
学習は、分類クラスごとに多数の2次元画像データを用意し、これをCNN30に入力して、その結果をバックプロパゲーションするなどして行う。

0058

図7は、画像認識部3を説明するための図である
画像認識部3は、時空間画像データ生成部2a、2b、2cを用いた画像認識処理を統合するようにCNN30の機能を拡張したものであり、画像認識装置として機能する。
本実施形態では、全結合方式クラススコア平均方式、及びSVM方式の3種類の統合方式を採用し、それぞれの画像認識精度を実験により評価した。

0059

図7(a)は、全結合方式のネットワーク構造を示した図である。
画像認識部3は、時空間画像データ8a、8b、8cごとの特徴マップ生成層18a、18b、18cを備えており、それぞれ、時空間画像データ生成部2a、2b、2cから時空間画像データ8a、8b、8cを受け取って、2次元特徴マップ60a、60b、60cを生成する。

0060

このように、画像認識部3は、走査経路の異なる複数の画像データを取得する画像データ取得手段と、当該複数の画像データから認識対象の特徴量を畳み込み処理によって個別に取得する特徴量取得手段を備えている。

0061

画像認識部3は、2次元特徴マップ60a、60b、60cを生成すると、これらをベクトル化して(即ち、成分を一列に並べて)全結合(連結)することにより統合して一つの2次元特徴マップ60を生成し、これを入力層51に入力する。
中間層52は、統合された2次元特徴マップ60をニューラルネットワークによって解析し、出力層53は、当該解析によって得られた画像認識結果を出力する。
このように、画像認識部3は、2次元特徴マップ60a、60b、60cによる個別の特徴量を統合して認識対象の認識結果を出力する統合手段を備えている。

0062

図7(b)は、クラススコア平均方式のネットワーク構造を示した図である。
画像認識部3は、時空間画像データ8a、8b、8cごとに特徴マップ生成層18a〜出力層53a、特徴マップ生成層18b〜出力層53b、特徴マップ生成層18c〜出力層53cを備えており、まず、時空間画像データ8a、8b、8cごとの画像認識結果を計算する。
画像認識部3は、更に平均値出力層55を備えており、出力層53a、53b、53cが出力した画像認識結果を分類クラスごとに平均して出力する。
このように、平均値出力層55は、時空間画像データ8a、8b、8cによる画像認識結果を平均処理によって統合し、得られた平均値を最終的な画像認識結果とする。

0063

図7(c)は、SVM方式のネットワーク構造を示した図である。
画像認識部3は、時空間画像データ8a、8b、8cごとに特徴マップ生成層18a〜中間層52a、特徴マップ生成層18b〜中間層52b、特徴マップ生成層18c〜中間層52cを備えている。

0064

更に、画像認識部3は、中間層52a、52b、52cの出力部に接続されたSVM層57を備えている。
SVM層57は、SVM(Support Vector Machine)によって認識を行う層である。SVMは、識別器として広く利用されているものである。
SVM層57には、時空間画像データ8a、8b、8cが連結により統合して入力されるように構成されており、SVM層57は、これを用いて認識対象を識別する。そして、出力層53は、識別結果を分類クラスごとに出力する。

0065

本願発明者は、以上の3種類の統合方式について比較評価を行った。その結果平均正答率は、全結合方式→88.9%、クラススコア平均方式→85.8%、SVM方式→86.3%となり、全結合方式の正答率が最も高かった。これらは、3次元フィルタを用いたCNN30に比肩するものである。
なお、図6に示した単一の時空間画像データ8を用いた場合の正答率は、83.6%であり、何れの統合方式もこれより正答率が高かった。
以上の実験により、複数の走査経路を併用することにより画像認識能力が向上することが分かった。

0066

本実施形態では、一例として、画像認識部3は、CNN30によって画像認識を行ったが、これは、画像認識方式を限定するものではなく、例えば、HOG(Histogram of Oriented Gradients)特徴量、CoHOG(Co−occurrence HOG)特徴量、あるいは、MR−CoHOG(Multi Resolution CoHOG)特徴量といった、他の特徴量を用いる画像認識方式を採用することも可能である。

0067

図8は、時空間画像認識装置1のハードウェア的な構成の一例を示した図である。
時空間画像認識装置1は、車載用に構成されているが、航空機船舶などの他の形態の移動体に搭載したり、あるいは、スマートフォンなどの携帯端末に搭載したり、更には、パーソナルコンピュータなどの据え置き型の装置に搭載したりすることができる。

0068

時空間画像認識装置1は、CPU41、ROM42、RAM43、記憶装置44、カメラ45、入力部46、及び出力部47などがバスラインで接続されて構成されている。
CPU41は、中央処理装置であって、記憶装置44が記憶する時空間画像認識プログラムに従って動作し、上述した歩行者の画像認識を行う。

0069

ROM42は、読み出し専用のメモリであって、CPU41を動作させるための基本的なプログラムやパラメータを記憶している。
RAM43は、読み書きが可能なメモリであって、CPU41が動画データ4から時空間画像データ8を生成したり、更に、時空間画像データ8から歩行者を画像認識する際のワーキングメモリを提供する。

0070

記憶装置44は、ハードディスクなどの大容量の記憶媒体を用いて構成されており、時空間画像認識プログラムを記憶している。
時空間画像認識プログラムは、CPU41に時空間画像データ生成部2や画像認識部3としての機能を発揮させるためのプログラムである。

0071

カメラ45は、車外を動画撮影する車載カメラであって、所定のフレームレートでフレーム画像データ6を出力する。
入力部46は、時空間画像認識装置1を操作するための操作ボタンなどから構成され、出力部47は、時空間画像認識装置1の設定画面などを表示するディスプレイなどから構成されている。

0072

本実施形態では、時空間画像認識装置1を車載装置とするが、カメラ45を車両に設置し、ネットワーク通信によって動画をサーバに送信し、サーバで画像認識して認識結果を車両に送信するように構成することもできる。
更には、時空間画像データ生成部2を車両に実装し、画像認識部3をサーバで実現し、時空間画像データ生成部2と画像認識部3の間を通信によって接続するように構成することもできる。

0073

次に、時空間画像認識装置1の動作について説明する。ここでは、全結合方式の場合について説明する。
図9は、時空間画像データ生成部2aが行う時空間画像データ8の生成処理手順を説明するためのフローチャートである。
以下の処理は、CPU41が時空間画像認識プログラムに従って構成した時空間画像データ生成部2aが行うものである。
まず、カメラ45が車外を撮影して動画データ4を逐次的に出力する。
次に、CPU41は、動画フレームをQ枚読み込む(ステップ5)。すなわち、CPU41は、出力される動画データ4における所定枚数Q枚(例えば、6枚)のフレーム画像データ6を出力順にRAM43に読み込む。

0074

次に、CPU41は、パラメータiを0にセットしてRAM43に記憶する(ステップ10)。
そして、CPU41は、RAM43からi番目のフレーム画像データ6を読み出し、これからクリッピング画像6ijを生成してRAM43に記憶する(ステップ15)。
フレーム画像データ6からクリッピング画像6ijを生成する領域は、乱数を発生させて、これに基づいてランダムに決定する。
なお、i=0番目のフレーム画像データ6は、Q枚のうちの1枚目に対応する。即ち、i番目のフレーム画像データ6は、Q枚の内のi+1枚目に対応する。

0075

次に、CPU41は、クリッピング画像6ijをパディングしてサイズを復元し、これをRAM43に記憶する。
そして、CPU41は、RAM43に記憶した当該クリッピング画像6ijにヒルベルト曲線を設定してヒルベルトスキャンを行い(ステップ20)、1次元空間画像データ7を生成する(ステップ25)。

0076

次に、CPU41は、生成した1次元空間画像データ7をRAM43に記憶して時空間画像データ8を生成する(ステップ30)。
なお、i=0の場合は、まず、最初の1次元空間画像データ7a1をRAM43に記憶し、i=1、2、…の場合には、既にRAM43に記憶してある1次元空間画像データ7a1に時系列的に追加していく。

0077

次に、CPU41は、RAM43に記憶してあるiに1をインクリメントした後(ステップ35)、iがQ未満か否かを判断する(ステップ40)。
iがQ未満の場合(ステップ40;Y)、CPU41は、ステップ15に戻り、次のフレーム画像データ6に対して同様の処理を行う。

0078

一方、iがQ未満でない場合(ステップ40;N)、RAM43に時空間画像データ8aが完成したため、CPU41は、時空間画像データ8aを画像認識部3に出力して(ステップ45)、処理を終了する。
以上、時空間画像データ生成部2aの動作について説明したが、時空間画像データ生成部2b、2cも同様の処理を平行して行い、時空間画像データ8b、8bを画像認識部3に出力する。

0079

図10は、画像認識部3が行う画像認識処理の手順を説明するためのフローチャートである。
以下の処理は、CPU41が時空間画像認識プログラムに従って構成した画像認識部3が行うものである。なお、CPU41の処理に対応する機能部を括弧にて示す。
CPU41(特徴マップ生成層18a)は、時空間画像データ生成部2aが出力した時空間画像データ8aをRAM43から読み込む(ステップ105)。

0080

次に、CPU41(特徴マップ生成層18a)は、読み込んだ時空間画像データ8aに対して畳み込み処理を行い、2次元特徴マップ60aを生成してRAM43に記憶する(ステップ110)。
CPU41(特徴マップ生成層18b、18c)は、時空間画像データ8b、8cに対しても同様の処理を行い、2次元特徴マップ60b、60cを生成してRAM43に記憶する。

0081

次に、CPU41は、RAM43に2次元特徴マップ60a、60b、60cが揃ったか判断し、まだ、生成されていない2次元特徴マップ60がある場合は(ステップ115;N)、ステップ105に戻る。
一方、2次元特徴マップ60a、60b、60cが揃っている場合(ステップ115;Y)、CPU41(全結合層17)は、これらをRAM43から読み出して結合することにより一つの2次元特徴マップ60とし、入力層51〜出力層53から成るニューラルネットワークに入力する(ステップ120)。

0082

次に、CPU41(出力層53)は、画像認識結果を所定の出力先に出力する(ステップ125)。
出力先は、例えば、車両の制御系であり、車両前方に歩行者が存在する場合に車速制動を行ったりする。

0083

図11は、実施形態の変形例を説明するための図である。
上述した実施形態では、時空間画像認識装置1に走査経路ごとの時空間画像データ生成部2a、2b、2cを設けたが、本変形例では、単一の時空間画像データ生成部2がフレーム画像データ6を異なる走査経路で3回ヒルベルトスキャンすることにより、時空間画像データ8a、8b、8cを生成して画像認識部3に出力する。

0084

即ち、時空間画像データ生成部2は、フレーム画像データ6に対して異なる走査経路のヒルベルトスキャンを逐次行う。
この例では、データ値取得手段、画像データ生成手段、及び、出力手段は、異なる走査経路ごとの処理を逐次処理している。

0085

実施形態の時空間画像認識装置1は、時空間画像データ生成部2が複数個設置されており並列処理するため処理速度が速いという特徴がある一方、その分ハードウェア資源を要するという特徴があり、変形例の時空間画像認識装置1は、逐次処理のため処理速度は遅くなるもののハードウェア資源に対する要求が小さいという特徴がある。
何れを選択するかは、時空間画像認識装置1を実装する計算機のアーキテクチャや使用目的に応じて決めることができる。

0086

以上に説明した実施形態、及び変形例によって次のような効果を得ることができる。
(1)動画像データに含まれる空間情報と時間情報を2次元の時空間画像データで表現することができる。
(2)動画データ4(時系列画像)に複数通りの走査方法を適用することにより同一の動画データ4から複数の時空間画像データを生成することができる。
(3)複数の時空間画像データから個別に特徴量を抽出することができる。
(4)複数の時空間画像データから個別に抽出した特徴量を統合して画像認識することにより正答率を高めることができる。

0087

1時空間画像認識装置
2 時空間画像データ生成部
3画像認識部
4動画データ4
6フレーム画像データ
6ijクリッピング画像
7 1次元空間画像データ
8 時空間画像データ
11、13、15 畳み込み層
12、14、16プーリング層
17 全結合層
18特徴マップ生成層
20、24 画像データ
21、25ヒルベルト曲線
22、26 1次元空間画像データ
27、28 領域
30CNN
41 CPU
42 ROM
43 RAM
44記憶装置
45カメラ
46 入力部
47 出力部
51入力層
52 中間層
53出力層
55平均値出力層
57SVM層
60 2次元特徴マップ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社デンソーテンの「 画像処理装置及び画像処理方法」が 公開されました。( 2020/02/13)

    【課題】障害物が存在する場所を自車両が通過しようとするときに、事前に通過可能かをユーザが容易に把握できる画像処理技術を提供する。【解決手段】画像処理装置は、撮影画像取得部と、表示画像生成部と、を備える... 詳細

  • エイアイビューライフ株式会社の「 情報処理装置」が 公開されました。( 2020/02/13)

    【課題】被介護者を適切かつ迅速に介護することができないこと。【解決手段】本発明の情報処理装置は、所定領域の距離画像を取得する距離画像取得手段と、距離画像に基づいて当該距離画像内の第一人物を検出する検出... 詳細

  • シャープ株式会社の「 情報処理装置、検出方法、制御プログラム、記録媒体」が 公開されました。( 2020/02/13)

    【課題】ジェスチャ操作の検出精度を向上させる。【解決手段】情報処理装置(1)は、操作者がジェスチャ操作を行うとき、操作者の体の所定の部位が動作する領域を推定し、操作者の体の所定の部位が動作する領域が撮... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ