図面 (/)

技術 映像パターン学習装置、方法、及びプログラム

出願人 日本電信電話株式会社
発明者 孫泳青数藤恭子杵渕哲也
出願日 2015年12月17日 (4年3ヶ月経過) 出願番号 2015-246266
公開日 2017年6月22日 (2年8ヶ月経過) 公開番号 2017-111660
状態 特許登録済
技術分野 音声の分析・合成 イメージ分析
主要キーワード 統合層 統合モデル パターン特徴量 パターン学習 前後画像 パターンモデル 行動認識 動き特徴量
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年6月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

映像シーンを精度よく認識できるモデルを学習することができる。

解決手段

深層画像特徴量生成部34が、フレーム画像の各々について、CNNを用いて、深層画像特徴量を時系列順に生成する。深層動き特徴量生成部40が、CNNを用いて、深層動き特徴量を時系列順に生成する。時系列ビジュアルパターン学習部36が、RNNを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。時系列動きパターン学習部42が、RNNを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。パターン統合部44が、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベル識別するためのモデルを学習する

概要

背景

映像シーン認識イベント検出など、映像シーン解析技術幅広く行われている。一般の処理流れとしては、まず、映像から被写体(物体人物)の変化や状態を表現する画像特徴量動き特徴量音声特徴量などを抽出する。そして機械学習手法SVMやDeepLearningなど)を用いて、それらの特徴量に対して識別を行う。識別結果に基づいて映像シーン認識やイベント検出を実現する。たとえば、従来の映像イベント検出方法として次のような方法がある。

まず映像の連続フレーム画像から、時系列で一定の時間間隔フレーム画像群を抽出する。また、時系列で一定の時間間隔においてoptical flowを用いて、フレーム画像間動き追跡を行って、その追跡を表したstacked optical flowという動き特徴量を抽出する。そして、CNN(Convolutional Neural Network)を用いて、画像特徴量や動き特徴量に対してそれぞれの識別を行う。最後に、それらの識別結果を足し算統合することにより、映像シーンの認識結果となる。

概要

映像のシーンを精度よく認識できるモデルを学習することができる。深層画像特徴量生成部34が、フレーム画像の各々について、CNNを用いて、深層画像特徴量を時系列順に生成する。深層動き特徴量生成部40が、CNNを用いて、深層動き特徴量を時系列順に生成する。時系列ビジュアルパターン学習部36が、RNNを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。時系列動きパターン学習部42が、RNNを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。パターン統合部44が、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する

目的

本発明は、上記問題点を解決するために成されたものであり、映像のシーンを精度よく認識できるモデルを学習することができる映像パターン学習装置、方法、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

映像のラベル識別するためのモデルを学習する映像パターン学習装置であって、前記映像から時系列順フレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、を含む映像パターン学習装置。

請求項2

前記深層学習アルゴリズムにはCNN(Convolutional Neural Network)を用い、前記時系列データを扱う深層学習の手法にはRNN(Recurrent neural network)を用いる請求項1に記載の映像パターン学習装置。

請求項3

前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項1又は請求項2に記載の映像パターン学習装置。

請求項4

前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項1〜請求項3の何れか1項に記載の映像パターン学習装置。

請求項5

映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、を含む映像パターン学習方法。

請求項6

深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習する請求項5に記載の映像パターン学習方法。

請求項7

前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習する請求項5又は請求項6に記載の映像パターン学習方法。

請求項8

コンピュータを、請求項1〜請求項4のいずれか1項に記載の映像パターン学習装置の各部として機能させるためのプログラム

技術分野

0001

本発明は、映像パターン学習装置、方法、及びプログラム係り、特に、映像のラベルを認識するモデルを学習する映像パターン学習装置、方法、及びプログラムに関する。

背景技術

0002

映像のシーン認識イベント検出など、映像シーン解析技術幅広く行われている。一般の処理流れとしては、まず、映像から被写体(物体人物)の変化や状態を表現する画像特徴量動き特徴量音声特徴量などを抽出する。そして機械学習手法SVMやDeepLearningなど)を用いて、それらの特徴量に対して識別を行う。識別結果に基づいて映像シーン認識やイベント検出を実現する。たとえば、従来の映像イベント検出方法として次のような方法がある。

0003

まず映像の連続フレーム画像から、時系列で一定の時間間隔フレーム画像群を抽出する。また、時系列で一定の時間間隔においてoptical flowを用いて、フレーム画像間動き追跡を行って、その追跡を表したstacked optical flowという動き特徴量を抽出する。そして、CNN(Convolutional Neural Network)を用いて、画像特徴量や動き特徴量に対してそれぞれの識別を行う。最後に、それらの識別結果を足し算統合することにより、映像シーンの認識結果となる。

先行技術

0004

Karen Simonyan, Andrew Zisserman ,"Two-Stream Convolutional Networks for Action Recognition in Videos",in NIPS,2014

発明が解決しようとする課題

0005

しがしながら、上記の非特許文献1に示すような映像シーン認識方法は、機械学習手法(CNNなど)に基づいて識別を行った際に、フレーム画像毎の画像特徴量や短時間間の動き特徴量を用いられるため、映像の時系列で前後画像内容や動きの関連性を考慮しないため、従来の映像シーン認識手法は十分に映像の被写体の変化や追跡を正確に捉えることが困難である。また、映像の特徴として、画像や動き、音声テロップなどの情報間に関連性が持つため、従来の映像シーン認識手法のような単純な統合処理は映像のさまざまな種類の特徴量の関連性に対応関係が不明確となり、このような統合処理を用いた映像のシーン認識とイベント検出の精度が低くなる問題がある。

0006

本発明は、上記問題点を解決するために成されたものであり、映像のシーンを精度よく認識できるモデルを学習することができる映像パターン学習装置、方法、及びプログラムを提供することを目的とする。

課題を解決するための手段

0007

上記目的を達成するために、第1の発明に係る映像パターン学習装置は映像のラベルを識別するためのモデルを学習する映像パターン学習装置であって、前記映像から時系列順フレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするフレーム画像生成部と、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する低レベル動き特徴量生成部と、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する深層画像特徴量生成部と、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する深層動き特徴量生成部と、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する時系列ビジュアルパターン学習部と、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する時系列動きパターン学習部と、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するパターン統合部と、を含んで構成されている。

0008

また、第1の発明に係る映像パターン学習装置において、前記深層学習アルゴリズムにはCNN(Convolutional Neural Network)を用い、前記時系列データを扱う深層学習の手法にはRNN(Recurrent neural network)を用いるようにしてもよい。

0009

また、第1の発明に係る映像パターン学習装置において、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成する深層音声特徴量生成部と、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する時系列深層音声パターン学習部とを更に含み、前記パターン統合部は、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

0010

また、第1の発明に係る映像パターン学習装置において、前記パターン統合部は、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

0011

第2の発明に係る映像パターン学習方法は、映像のラベルを識別するためのモデルを学習する映像パターン学習装置における映像パターン学習方法であって、フレーム画像生成部が、前記映像から時系列順にフレーム画像を抽出し、前記抽出されたフレーム画像をフレーム画像群とするステップと、低レベル動き特徴量生成部が、前記映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成するステップと、深層画像特徴量生成部が、前記フレーム画像生成部により生成された前記フレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成するステップと、深層動き特徴量生成部が、前記低レベル動き特徴量生成部により時系列順に生成された前記低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成するステップと、時系列ビジュアルパターン学習部が、前記深層画像特徴量生成部により時系列順に生成された前記フレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習するステップと、時系列動きパターン学習部が、前記深層動き特徴量生成部により時系列順に生成された前記深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習するステップと、パターン統合部が、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量とに基づいて、前記ビジュアルパターン特徴量と前記動きパターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するステップと、を含んで実行することを特徴とする。

0012

また、第2の発明に係る映像パターン学習方法において、深層音声特徴量生成部が、前記映像に含まれる一定区間毎の音声について、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成するステップと、時系列深層音声パターン学習部が、前記深層音声特徴量生成部により時系列順に生成された前記深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、前記深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習するステップとを更に含み、前記パターン統合部が学習するステップは、前記時系列ビジュアルパターン学習部により時系列順に学習された前記ビジュアルパターン特徴量と、前記時系列動きパターン学習部により時系列順に学習された前記動きパターン特徴量と、前記時系列深層音声パターン学習部により時系列順に学習された前記音声パターン特徴量とに基づいて、前記ビジュアルパターン特徴量と、前記動きパターン特徴量と、前記音声パターン特徴量との関連性を考慮した、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

0013

また、第2の発明に係る映像パターン学習方法において、前記パターン統合部が学習するステップは、前記映像について学習された、前記ビジュアルパターン特徴量、及び前記動きパターン特徴量を1つのベクトルに統合し、前記統合されたベクトルに基づいて、前記映像のラベルを識別するためのモデルを学習するようにしてもよい。

0014

第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係る映像パターン学習装置の各部として機能させるためのプログラムである。

発明の効果

0015

本発明の映像パターン学習装置、方法、及びプログラムによれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる、という効果が得られる。

図面の簡単な説明

0016

本発明の第1の実施の形態に係る映像パターン学習装置の構成を示すブロック図である。
CNNの各層を表した一例を示す図である。
RNNを用いたビジュアルパターン特徴量の生成例を示す図である。
RNNを用いた動きパターン特徴量の生成例を示す図である。
本発明の第1の実施の形態に係る映像パターン学習装置における映像パターン学習処理ルーチンを示すフローチャートである。
本発明の第2の実施の形態に係る映像パターン学習装置の構成を示すブロック図である。

実施例

0017

以下、図面を参照して本発明の実施の形態を詳細に説明する。

0018

<本発明の実施の形態に係る概要

0019

映像イベント検出やシーン認識、特に人間の行動認識に対して、映像全体の時系列に渡って、人や主要な被写体の状態や動きの時系列の連続性と、映像のさまざまな種類の特徴量の関連性を取り入れる手法は有効と考えられる。そこで、時系列のビジュアルパターンと、動きパターンとの関連性を考慮し、それぞれのパターンを統合したパターンモデルを学習する。

0020

<本発明の第1の実施の形態に係る映像パターン学習装置の構成>

0021

次に、本発明の第1の実施の形態に係る映像パターン学習装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る映像パターン学習装置100は、CPUと、RAMと、後述する映像パターン学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この映像パターン学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。

0022

入力部10は、N個の映像からなる映像群受け付け蓄積部28に格納する。

0023

演算部20は、蓄積部28と、映像取得部30と、フレーム画像生成部32と、深層画像特徴量生成部34と、時系列ビジュアルパターン学習部36と、低レベル動き特徴量生成部38と、深層動き特徴量生成部40と、時系列動きパターン学習部42と、パターン統合部44とを含んで構成されている。

0024

蓄積部28には、入力部10で受け付けたN個の映像からなる映像群が格納されている。また、蓄積部28には、パターン統合部44で学習されたモデルが格納される。

0025

映像取得部30は、蓄積部28に処理指示を出力して、格納された映像を取得し、取得した映像を、時系列順に、フレーム画像生成部32、及び低レベル動き特徴量生成部38のそれぞれに出力する。

0026

フレーム画像生成部32は、映像取得部30により出力された映像から時系列順にフレーム画像を抽出し、抽出されたフレーム画像をフレーム画像群とする。例えば、処理対象の映像取得部30から受け取った映像において、一定の時間間隔(例えば、1秒毎)にフレーム画像(f1,f2,…,ft)を抽出し、抽出したフレーム画像群を深層画像特徴量生成部34へ出力する。

0027

深層画像特徴量生成部34は、フレーム画像生成部32により生成されたフレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成する。具体的には、フレーム画像生成部32からフレーム画像群を受け取ると、フレーム画像(f1,f2,…,ft)の各々について、上記非特許文献1に記載されている深層学習のアルゴリズムの一つであるCNN(Convolutional Neural Network)を用いて、フレーム画像毎の深層画像特徴量としてCNN画像特徴量を時系列順に生成し、時系列ビジュアルパターン学習部36に出力する。図2にCNNの各層を表した一例を示す。また、図2上部に示すCNNの複数の層のうち、中間層の出力(FC layer)、あるいは最終層の出力(Softmax layer)をCNN画像特徴量としてもよい。

0028

時系列ビジュアルパターン学習部36は、深層画像特徴量生成部34で時系列順に生成されたフレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。具体的には、深層画像特徴量生成部34からフレーム画像毎のCNN画像特徴量を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるRNN(Recurrent neural network)を用いて、映像全体の時系列におけるビジュアル内容(画像特徴)の関連性を表現したビジュアルパターン特徴量を学習し、パターン統合部44へ出力する。RNNは、例えば、非特許文献2に記載されているBPPTを用いて実装すればよい。

0029

非特許文献2:A tutorial on training recurrent neural networks, covering BPPT,RTRL, EKF and the "echo state network" approach, Herbert Jaeger, Institute for Autonomous Intelligent Systems (AIS)

0030

図3にRNNを用いたビジュアルパターン特徴量の生成例を示す。RNNにより、p1f,p2f,…ptfのビジュアルパターン特徴量を生成する。ptfは各フレーム画像の画像特徴を特徴付けるパターンらしさを表す確率である。このような時系列のビジュアル内容の関連性を考慮したビジュアルパターン特徴量によって、映像のラベルを識別することにより、非特許文献1に記載されている従来技術のように、単独のフレーム画像のCNN画像特徴量を用いて映像のラベルを識別するよりも、識別精度を高めることができる。なお、図3の例では2層RNNを用いてRNN構造を構築する場合を示しているが、具体的な応用に応じて層の数を変えてもよい。

0031

低レベル動き特徴量生成部38は、映像取得部30により出力された映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する。具体的には、映像取得部30から受け取った映像において、時系列順に抽出した連続フレームの画像ペア(t,t+1)からoptical flowを算出し、一定の時間間隔(例えば、2秒)においてoptical flowを用いて動き追跡を行って、上記非特許文献1と同様に、追跡結果を表すstacked optical flowという特徴量を、映像の低レベル動き特徴量として生成する。生成された低レベル動き特徴量を深層動き特徴量生成部40へ出力する。

0032

深層動き特徴量生成部40は、低レベル動き特徴量生成部38により時系列順に生成された低レベル動き特徴量の各々について、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成する。具体的には、時系列順に生成された低レベル動き特徴量(m1,m2,…,mt)の各々に対して、深層学習アルゴリズムの一つであるCNNを用いて、深層動き特徴量としてCNN動き特徴量を時系列順に生成し、時系列動きパターン学習部42に出力する。また、上記図2下部に示すCNNの複数の層のうち、中間層の出力(FC layer)、あるいは最終層の出力(Softmax layer)をCNN画像特徴量としてもよい。

0033

時系列動きパターン学習部42は、深層動き特徴量生成部40により時系列順に生成された深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。具体的には、深層動き特徴量生成部40からCNN動き特徴量(m1,m2,…,mt)を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるRNNを用いて、映像全体の時系列における動きの関連性を表現した動きパターン特徴量を学習し、パターン統合部44へ出力する。図4にRNNを用いた動きパターン特徴量の生成例を示す。RNNにより、p1m,p2m,…,ptmの動きパターン特徴量を生成する。ptmは各optical flowの動きを特徴付けるパターンらしさを表す確率である。t時刻のRNN出力の推測値ptmは、t−1時刻のRNNの出力と、t時刻のCNN動き特徴量とを用いて求められる。このような時系列の動きの関連性を考慮した動きパターン特徴量によって、映像のラベルを識別することにより、非特許文献1に記載されている従来技術のように、単独のCNN動き特徴量を用いて映像のラベルを識別するよりも、識別精度を高めることができる。なお、図4の例では2層RNNを用いてRNN構造を構築する場合を示しているが、具体的な応用に応じて層の数を変えてもよい。

0034

パターン統合部44は、時系列ビジュアルパターン学習部36により時系列順に学習されたビジュアルパターン特徴量と、時系列動きパターン学習部42により時系列順に学習された動きパターン特徴量とに基づいて、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。

0035

パターン統合部44では、具体的には、まず、N個の映像のそれぞれについて学習された、ビジュアルパターン特徴量と、動きパターン特徴量とを読み込む。次に、N個の映像のi番目の映像についてのビジュアルパターン特徴量(p1f,p2f,…,ptf)と、動きパターン特徴量(p1m,p2m,…,ptm)とを、一つのベクトルに統合する。例えば、ビジュアルパターン特徴量(p1f,p2f,…,ptf)と、時系列動きパターン特徴量(p1m,p2m,…,ptm)とを統合した(pif,pim)を求めればよい。

0036

下記(1)式に基づいて、Wの最適化を行うことにより、α1、α2、W、及びWEを求める。

0037

0038

ここで、liはi番目の映像について予め与えられたラベル、f()はmapping関数を表している。|| ||はノルムの演算、φ(W)はFrobeniusノルムである。Wは、ビジュアルパターン特徴量と、動きパターン特徴量との共起性を表した重みを表し、映像のシーンを識別するためのモデルとして学習される。また、WEは誤差に関する値を表しており、WE=[WfE,WmE]∈R(P*D)である。WfEはビジュアルパターン特徴量の誤差に関する値、WmEは動きパターン特徴量の誤差に関する値を表す。また、Dはptfの次元数とptmの次元数の和、Pは統合層の数である。

0039

そして、映像の各々について最適化されたWE、α1、α2、及びWを統合モデルとして蓄積部28に格納する。

0040

上記のような最適化を行うことにより、時系列ビジュアルパターン特徴量と時系列動きパターン特徴量との関連性を取り入れられるため、本発明の実施の形態に係る手法で学習した統合モデルを用いることで、上記非特許文献1の従来技術の単純な統合手法で得たパターンを用いるよりも、精度よく識別することができる。

0041

また、映像のシーンの識別では、まず、上記の深層画像特徴量生成部34、及び深層動き特徴量生成部50と同様の手法で、識別対象の映像から深層画像特徴量及び深層動き特徴量を抽出し、抽出した深層画像特徴量からビジュアルパターン特徴量、深層動き特徴量から動きパターン特徴量とを得る。そして、ビジュアルパターン特徴量、及び動きパターン特徴量に対して、上記パターン統合部44で学習したモデルを適用して、映像のシーンを識別すればよい。

0042

<本発明の実施の形態に係る映像パターン学習装置の作用>

0043

次に、本発明の実施の形態に係る映像パターン学習装置100の作用について説明する。入力部10においてN個の映像からなる映像群を受け付けて蓄積部28に格納すると、映像パターン学習装置100は、図5に示す映像パターン学習処理ルーチンを実行する。

0044

まず、ステップS100では、蓄積部28のN個の映像の中から、処理対象とする映像を取得する。

0045

次に、ステップS102では、ステップS100で取得された映像から時系列順にフレーム画像を抽出し、抽出されたフレーム画像をフレーム画像群とする。

0046

ステップS104では、ステップS102で生成されたフレーム画像群におけるフレーム画像の各々について、深層学習アルゴリズムのCNNを用いて、深層画像特徴量を時系列順に生成する。

0047

ステップS106では、ステップS104で時系列順に生成されたフレーム画像の各々の深層画像特徴量に基づいて、時系列データを扱う深層学習アルゴリズムのRNNを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習する。

0048

ステップS108では、ステップS100で取得された映像から時系列順に一定の時間間隔における低レベル動き特徴量を生成する。

0049

ステップS110では、ステップS108で時系列順に生成された低レベル動き特徴量の各々について、深層学習アルゴリズムのCNNを用いて、深層動き特徴量を時系列順に生成する。

0050

ステップS112では、ステップS110で時系列順に生成された深層動き特徴量に基づいて、時系列データを扱う深層学習アルゴリズムのRNNを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習する。

0051

ステップS114では、全ての映像についてステップSの処理を終了したかを判定し、全ての映像について処理を終了していればステップS116へ移行し、全ての映像について処理を終了していなければステップS100に戻って処理を繰り返す。

0052

ステップS116では、ステップS100〜S112の処理で、N個の映像のそれぞれについて学習された、ビジュアルパターン特徴量と、動きパターン特徴量とを読み込む。

0053

ステップS118では、ステップS116で読み込んだ、ビジュアルパターン特徴量と、動きパターン特徴量とに基づいて、上記(1)式に従って、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。

0054

ステップS120では、ステップS118で学習したモデルを蓄積部28に格納し処理を終了する。

0055

以上説明したように、本発明の第1の実施の形態に係る映像パターン学習装置によれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる。

0056

<本発明の第2の実施の形態に係る映像パターン学習装置の構成>

0057

次に、本発明の第2の実施の形態に係る映像パターン学習装置の構成について説明する。図6に示すように、本発明の第2の実施の形態に係る映像パターン学習装置200は、CPUと、RAMと、後述する映像パターン学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この映像パターン学習装置200は、機能的には図6に示すように入力部10と、演算部220とを備えている。

0058

演算部20は、蓄積部28と、映像取得部30と、フレーム画像生成部32と、深層画像特徴量生成部34と、時系列ビジュアルパターン学習部36と、低レベル動き特徴量生成部38と、深層動き特徴量生成部40と、時系列動きパターン学習部42と、深層音声特徴量生成部240と、時系列音声パターン学習部242と、パターン統合部244とを含んで構成されている。

0059

深層音声特徴量生成部240は、映像取得部30により出力された映像の一定区間毎の音声について、深層学習のアルゴリズム。具体的には、映像における一定区間毎の音声の音声スペクトル解析し、音声スペクトル(a1,a2,…,at)の各々に対して、深層学習アルゴリズムの一つであるCNNを用いて、深層音声特徴量としてCNN音声特徴量を時系列順に生成し、時系列音声パターン学習部242に出力する。

0060

時系列音声パターン学習部242は、深層音声特徴量生成部240により時系列順に生成された深層音声特徴量に基づいて、時系列データを扱う深層学習アルゴリズムを用いて、深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習する。具体的には、深層音声特徴量生成部240からCNN動き特徴量(a1,a2,…,at)を受け取ると、時系列データを扱う深層学習アルゴリズムの一つであるRNNを用いて、映像全体の時系列における音声の関連性を表現した音声パターン特徴量を学習し、パターン統合部44へ出力する。ここでは、RNNにより、p1a,p2a,…,ptaの音声パターン特徴量を生成する。ptaは各区間の音声を特徴付けるパターンらしさを表す確率である。

0061

パターン統合部244は、時系列ビジュアルパターン学習部36により時系列順に学習されたビジュアルパターン特徴量と、時系列動きパターン学習部42により時系列順に学習された動きパターン特徴量とに基づいて、ビジュアルパターン特徴量と動きパターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習する。具体的には、上記パターン統合部44と同様の手法によりモデルを学習する。N個の映像のi番目の映像についてのビジュアルパターン特徴量(p1f,p2f,…,ptf)と、動きパターン特徴量(p1m,p2m,…,ptm)と、音声パターン特徴量(p1a,p2a,…,pta)とを、一つのベクトルに統合した(pif,pim,pia)を求める。そして、下記(2)式に基づいて、Wの最適化を行うことにより、α1、α2、W、及びWEを求める。

0062

0063

ここで、Wは、ビジュアルパターン特徴量と、動きパターン特徴量と、ビジュアルパターン特徴量とのそれぞれの特徴量の共起性を表した重みを表し、映像のシーンを識別するためのモデルとして学習される。また、WEは誤差に関する値を表しており、WE=[WfE,WmE,WaE]∈R(P*D)である。WfEはビジュアルパターン特徴量の誤差に関する値、WmEは動きパターン特徴量の誤差に関する値、WaEは音声パターン特徴量の誤差に関する値を表す。

0064

そして、映像の各々について最適化されたWE、α1、α2、及びWを統合モデルとして蓄積部28に格納する。

0065

なお、本発明の第2の実施の形態に係る映像パターン学習装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。

0066

以上説明したように、本発明の第2の実施の形態に係る映像パターン学習装置によれば、フレーム画像の各々について、深層学習アルゴリズムを用いて、深層画像特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層動き特徴量を時系列順に生成し、深層学習アルゴリズムを用いて、深層音声特徴量を時系列順に生成し、時系列データを扱う深層学習アルゴリズムを用いて、フレーム画像の各々についてのビジュアルパターンに関するビジュアルパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層動き特徴量の各々についての動きパターンに関する動きパターン特徴量を時系列順に学習し、時系列データを扱う深層学習アルゴリズムを用いて、深層音声特徴量の各々についての音声パターンに関する音声パターン特徴量を時系列順に学習し、ビジュアルパターン特徴量と、動きパターン特徴量と、音声パターン特徴量との関連性を考慮した、映像のラベルを識別するためのモデルを学習することにより、映像のシーンを精度よく認識できるモデルを学習することができる。

0067

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0068

例えば、上述した実施の形態では、深層画像特徴量生成部34と、深層動き特徴量生成部40とにおいて、深層学習アルゴリズムにCNNを用いる場合を例に説明したがこれに限定されるものではなく、他のニューラルネットワークを用いてもよい。

0069

また、時系列ビジュアルパターン学習部36と、時系列動きパターン学習部42とにおいて、時系列データを扱う深層学習アルゴリズムにRNNを用いる場合を例に説明したがこれに限定されるものではなく、他の時系列データを扱うことが可能なニューラルネットワークを用いてもよい。

0070

10 入力部
20、220演算部
28蓄積部
30映像取得部
32フレーム画像生成部
34深層画像特徴量生成部
36 時系列ビジュアルパターン学習部
38低レベル動き特徴量生成部
40 深層動き特徴量生成部
42 時系列動きパターン学習部
44、244パターン統合部
100、200映像パターン学習装置
240 深層音声特徴量生成部
242 時系列音声パターン学習部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ