図面 (/)

技術 動作認識システムおよび動作認識プログラムを記録した記録媒体

出願人 シャープ株式会社
発明者 大野通広赤木宏之
出願日 1999年6月29日 (22年0ヶ月経過) 出願番号 1999-184242
公開日 2001年1月19日 (20年5ヶ月経過) 公開番号 2001-016606
状態 特許登録済
技術分野 カラーテレビジョンの色信号処理 イメージ分析
主要キーワード 輪郭直線 単位時刻 色度画像 手領域 人物候補領域 キー入力デバイス Ctrlキー 手袋型
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2001年1月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、対象の形状および動作の検出の精度が高く、かつ、低コストの動作認識システムを提供する。

解決手段

入力されたフレーム画像の時系列データから、動き検出部2によって動きのある領域を抽出し、肌色検出部3によって肌色領域を抽出する。そして、領域統合部4において、動きのある領域でかつ肌色領域となる領域を対象領域として抽出する。

概要

背景

従来、パーソナルコンピュータ等の情報処理機器におけるユーザーインターフェースとして、キー入力デバイスとしてのキーボードや、ポインティングデバイスとしてのマウスなどが一般的に用いられている。しかしながら、キーボードやマウスによる操作は、ある程度のスキルを要求するため、初心者にとっては、その操作が難しいという問題がある。

また、キーボードやマウスなどを使用する場合、操作とそれに対するシステム応答との関連を使用者が記憶しておく必要がある。例えばキーボードにおいては、CtrlキーAltキーなどの機能を覚える必要があったり、マウスにおいては、シングルクリックダブルクリックとの違いや、左ボタンと右ボタンとの機能の違いなどを覚える必要がある。このような多種多様の操作および機能を逐一覚えることは、初心者にとって大きな負担となる。

そこで、近年では、簡単かつ直観的なユーザーインターフェースとして、人間の身体、すなわち、身振り手振りを利用しようとする試みが盛んに行われている。身振りや手振りをユーザーインターフェースとして利用するためには、カメラ等の入力デバイスによって身体の姿勢、形状や動作に関する情報を入力し、入力された情報を解析することによって身体情報の内容を認識し、認識された動作に対して特定のコマンド等の意味を持たせることが必要となる。

ここで、人間の身体を利用したユーザーインターフェースとして提案されている方法について以下にその例を示す。電子情報通信学会論文誌 D-II Vol.J80-D-II No.6 pp.1571-1580(1997)「インタラクティブシステム構築のための動画像からの実時間ジェスチャ認識手法−仮想指揮システムへの応用−」(文献1)には、CCDカメラによって撮影された画像から、腕部分を抽出し、その動き軌跡を解析することによって、実時間でジェスチャを認識する方法が開示されている。また、特開平2−144675号公報(文献2)には、指の各関節毎に異なる色で塗り分けられた手袋を装着し、撮影画像から手袋の色を手がかりに指の動きを認識する方法が開示されている。

また、テレビジョン学会誌Vol.48, No.8, pp.960-965(1994) 「仮想環境実現のための基板技術」(文献3)には、データグローブと呼ばれる手袋型センサデバイスを用いて、手指の動きをコンピュータに入力する方法が開示されている。また、映像情報(I) 1992/9 pp.55-60 「赤外画像可視画像による人物抽出」(文献4)には、赤外画像と可視画像とを入力として用い、赤外画像から人物候補領域を抽出し、さらに可視画像において人物候補領域内の肌色領域を抽出することで顔や手の位置を特定する方法が開示されている。

概要

特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、対象の形状および動作の検出の精度が高く、かつ、低コストの動作認識システムを提供する。

入力されたフレーム画像の時系列データから、動き検出部2によって動きのある領域を抽出し、肌色検出部3によって肌色領域を抽出する。そして、領域統合部4において、動きのある領域でかつ肌色領域となる領域を対象領域として抽出する。

目的

文献1に開示されている方法のように、入力として可視画像を用いる場合、最も難しい問題は、入力された画像から手や指等の認識対象領域を抽出することである。手や指の抽出に関しては、画像の輝度情報色情報を利用して肌色領域を抽出することによって実現する手法が一般的である。しかしながら、輝度情報や色情報は、背景に肌色に近い領域がある場合に、身体との区別が難しくなることや、照明状態などの環境条件によって値が変動しやすいため、上記の手法は、認識の安定性欠けるという問題を有している。

本発明は上記の問題点を解決するためになされたもので、その目的は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、対象の形状および動作の検出の精度が高く、かつ、低コストの動作認識システムを提供することにある。

効果

実績

技術文献被引用数
6件
牽制数
13件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えていることを特徴とする動作認識システム。

請求項2

上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出することを特徴とする請求項1記載の動作認識システム。

請求項3

上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値ブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出することを特徴とする請求項2記載の動作認識システム。

請求項4

上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出することを特徴とする請求項1記載の動作認識システム。

請求項5

上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出することを特徴とする請求項4記載の動作認識システム。

請求項6

対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定されることを特徴とする請求項4または5記載の動作認識システム。

請求項7

上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出することを特徴とする請求項1記載の動作認識システム。

請求項8

上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えていることを特徴とする請求項1ないし7のいずれかに記載の動作認識システム。

請求項9

上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識することを特徴とする請求項8記載の動作認識システム。

請求項10

上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えていることを特徴とする請求項8または9記載の動作認識システム。

請求項11

上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行うことを特徴とする請求項8記載の動作認識システム。

請求項12

上記対象が人間の手であることを特徴とする請求項1ないし11のいずれかに記載の動作認識システム。

請求項13

特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録していることを特徴とするコンピュータが読み取り可能な記録媒体。

技術分野

0001

本発明は、例えば手などの画像が含まれている時系列画像データを処理することによって、手の形状および動作を認識する動作認識システムに関するものである。

背景技術

0002

従来、パーソナルコンピュータ等の情報処理機器におけるユーザーインターフェースとして、キー入力デバイスとしてのキーボードや、ポインティングデバイスとしてのマウスなどが一般的に用いられている。しかしながら、キーボードやマウスによる操作は、ある程度のスキルを要求するため、初心者にとっては、その操作が難しいという問題がある。

0003

また、キーボードやマウスなどを使用する場合、操作とそれに対するシステム応答との関連を使用者が記憶しておく必要がある。例えばキーボードにおいては、CtrlキーAltキーなどの機能を覚える必要があったり、マウスにおいては、シングルクリックダブルクリックとの違いや、左ボタンと右ボタンとの機能の違いなどを覚える必要がある。このような多種多様の操作および機能を逐一覚えることは、初心者にとって大きな負担となる。

0004

そこで、近年では、簡単かつ直観的なユーザーインターフェースとして、人間の身体、すなわち、身振り手振りを利用しようとする試みが盛んに行われている。身振りや手振りをユーザーインターフェースとして利用するためには、カメラ等の入力デバイスによって身体の姿勢、形状や動作に関する情報を入力し、入力された情報を解析することによって身体情報の内容を認識し、認識された動作に対して特定のコマンド等の意味を持たせることが必要となる。

0005

ここで、人間の身体を利用したユーザーインターフェースとして提案されている方法について以下にその例を示す。電子情報通信学会論文誌 D-II Vol.J80-D-II No.6 pp.1571-1580(1997)「インタラクティブシステム構築のための動画像からの実時間ジェスチャ認識手法−仮想指揮システムへの応用−」(文献1)には、CCDカメラによって撮影された画像から、腕部分を抽出し、その動き軌跡を解析することによって、実時間でジェスチャを認識する方法が開示されている。また、特開平2−144675号公報(文献2)には、指の各関節毎に異なる色で塗り分けられた手袋を装着し、撮影画像から手袋の色を手がかりに指の動きを認識する方法が開示されている。

0006

また、テレビジョン学会誌Vol.48, No.8, pp.960-965(1994) 「仮想環境実現のための基板技術」(文献3)には、データグローブと呼ばれる手袋型センサデバイスを用いて、手指の動きをコンピュータに入力する方法が開示されている。また、映像情報(I) 1992/9 pp.55-60 「赤外画像可視画像による人物抽出」(文献4)には、赤外画像と可視画像とを入力として用い、赤外画像から人物候補領域を抽出し、さらに可視画像において人物候補領域内の肌色領域を抽出することで顔や手の位置を特定する方法が開示されている。

発明が解決しようとする課題

0007

文献1に開示されている方法のように、入力として可視画像を用いる場合、最も難しい問題は、入力された画像から手や指等の認識対象領域を抽出することである。手や指の抽出に関しては、画像の輝度情報色情報を利用して肌色領域を抽出することによって実現する手法が一般的である。しかしながら、輝度情報や色情報は、背景に肌色に近い領域がある場合に、身体との区別が難しくなることや、照明状態などの環境条件によって値が変動しやすいため、上記の手法は、認識の安定性欠けるという問題を有している。

0008

この問題を解決するために、例えば文献1では、背景に暗幕を配置することによって対応する例が示されており、このような特殊な環境下において実施する例は比較的多く提案されている。あるいは、例えば文献2に開示されている方法のように、認識対象となる部位に、マーカーとなるものを装着することによって検出精度を高める例も多く提案されている。

0009

また、文献3に開示されている方法のように、データグローブのような動作入力専用のデバイスを用いる場合には、手領域の抽出や動作情報の取得の安定性に関する問題は考慮する必要がなくなる。しかしながら、操作の前に動作入力用のデバイスを装着することの煩わしさや、ユーザーインターフェースとしては高価なものとなるという問題があり、キーボードやマウスの代用として利用するには困難な点も多い。

0010

また、文献4に開示されている方法のように、赤外画像を利用すれば、一般的な環境においては身体と背景との温度差が大きいので、人間の身体領域の抽出は容易となる。しかしながら、赤外画像を入力する装置は、一般的に価格が高価であり、かつ、装置が大型となるものが多く、不法侵入者監視などの特殊用途以外には流用することが難しいので、一般家庭には普及しにくいという問題がある。

0011

本発明は上記の問題点を解決するためになされたもので、その目的は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、対象の形状および動作の検出の精度が高く、かつ、低コストの動作認識システムを提供することにある。

課題を解決するための手段

0012

上記の課題を解決するために、本発明に係る動作認識システムは、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域で、かつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えていることを特徴としている。

0013

上記の構成によれば、時系列画像データから、動き検出手段によって抽出された動きのある領域と、色検出手段によって抽出された、動作認識対象を特徴づける色を含む領域とに基づいて、領域統合手段によって対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。

0014

また、データグローブなどの接触型入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。

0015

また、上記の構成では、動きのある領域の検出と、対象を特徴づける色を含む領域の検出を行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。

0016

また、本発明に係る動作認識システムは、上記の構成において、上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出する構成としてもよい。

0017

上記の構成によれば、動き検出手段は、時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像に基づいて動きのある領域を検出するので、動きのある領域を、的確に、かつ、少ない演算処理によって検出することができる。

0018

また、本発明に係る動作認識システムは、上記の構成において、上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値ブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出する構成としてもよい。

0019

上記の構成によれば、動き検出手段は、上記差分画像に基づいてブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出するので、動いている領域の中でも、ある程度広い範囲を占める領域のみを抽出することになる。よって、例えば背景において、対象とは異なる小さな物体が動いている場合でも、これを対象となる領域の候補からはずすことができる。したがって、対象となる領域の検出の精度を上げることが可能となる。

0020

また、本発明に係る動作認識システムは、上記の構成において、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。

0021

上記の構成によれば、色検出手段は、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出するので、的確に対象を特徴づける色を含む領域を検出することができる。また、各色成分に対する条件を適宜変更することによって、背景や照明の変化にも適切に対応することが可能となる。

0022

また、本発明に係る動作認識システムは、上記の構成において、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。

0023

上記の構成によれば、色検出手段は、各色成分の画素値が所定の条件を満たすとともに、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出するので、色の条件のみならず、その領域の形状および面積をも考慮して、対象を特徴づける色を含む領域を検出することになる。よって、例えば、背景に、対象を特徴づける色と同様の色からなる領域があったとしても、形状や面積による条件によって、このような領域を候補から外すことが可能となる。したがって、対象を特徴づける色を含む領域の検出の精度を上げることが可能となる。

0024

また、本発明に係る動作認識システムは、上記の構成において、対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定される構成としてもよい。

0025

上記の構成によれば、各色成分の画素値に対する条件を、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定するので、例えば、背景や照明の状態などの環境の変化が動作認識中に生じたとしても、このような変化に応じて、各色成分の画素値に対する条件を変化させることが可能となる。すなわち、環境に変化が生じても、対象を特徴づける色を含む領域の抽出の精度を維持することができる。

0026

また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出する構成としてもよい。

0027

上記の構成によれば、領域統合手段は、現時刻において動きのある領域でかつ上記対象を特徴づける色を含む領域とともに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出するので、対象がほとんど動いていない状態の時でも、対象を対象領域として抽出することが可能となる。

0028

また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えている構成としてもよい。

0029

上記の構成によれば、形状解析手段によって、領域統合手段によって抽出された対象領域の形状を解析することができるので、対象領域の形状の状態を、形状を示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の形状を、複数のカテゴリー分類することが可能となる。

0030

また、本発明に係る動作認識システムは、上記の構成において、上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識する構成としてもよい。

0031

上記の構成によれば、形状解析手段は、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識するので、必要最小限の形状解析を行うことができる。

0032

また、本発明に係る動作認識システムは、上記の構成において、上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えている構成としてもよい。

0033

上記の構成によれば、動作認識手段によって、形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識するので、対象領域の動きの状態を、動きを示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の動きを、複数のカテゴリーに分類することが可能となる。

0034

また、本発明に係る動作認識システムは、上記の構成において、上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行う構成としてもよい。

0035

上記の構成によれば、領域統合手段における対象領域の抽出と、形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行うので、1単位時刻に行う処理量を低減することが可能となる。よって、演算性能が若干劣るシステムにおいても、処理の停滞などが生じることなく、円滑に処理を行うことが可能となる。

0036

また、本発明に係る動作認識システムは、上記の構成において、上記対象が人間の手である構成としてもよい。

0037

上記の構成によれば、人間の手の領域を抽出、形状解析、動作認識を行うことになるので、例えば、差し出す指の本数、およびその向き、さらに動きの方向にそれぞれ意味を持たせ、これらを認識することによって、例えば外部に接続された情報処理装置などのシステムに対して制御命令を送信するなどのインターフェースとして機能させることが可能となる。これによって、複雑な操作を使用者が覚えることなく、直観的な操作によるユーザーインターフェースを実現することが可能となる。

0038

また、本発明に係る動作認識プログラムを記録した記録媒体は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録していることを特徴としている。

0039

上記の構成によれば、時系列画像データから、動きのある領域と動作認識対象を特徴づける色を含む領域とに基づいて対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、動きのある領域として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。

0040

また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。

0041

また、上記の構成では、動きのある領域の検出と、対象を特徴づける色を含む領域の検出を行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。

発明を実施するための最良の形態

0042

本発明の実施の一形態について図1ないし図7に基づいて説明すれば、以下のとおりである。

0043

図1は、本実施形態に係る動作認識システムの概略構成を示すブロック図である。該動作認識システムは、フレームメモリ1、動き検出部(動き検出手段)2、肌色検出部(色検出手段)3、領域統合部(領域統合手段)4、形状解析部(形状解析手段)5、および動作認識部(動作認識手段)6を備えている。また、図1に示すように、動作認識システムは、動画入力装置7および情報処理装置8に接続されている。

0044

動画入力装置7は、例えばCCD(Charge Coupled Device)カメラによって構成される。このCCDカメラは、近年価格が急激に下落したことや、テレビ会議システムインターネットを介してのテレビ通話などの市場が拡大していることなどの理由によって、一般的に広く普及する傾向にある。また、すでに一般に広く普及しているビデオムービーカメラを動画入力装置7として用いることも可能である。このように、動画入力装置7としては、可視画像を入力することが可能なものであればよいので、比較的安価な装置によって構成することができる。

0045

情報処理装置8は、例えばパーソナルコンピュータなどによって構成され、種々の情報処理を行うものである。また、例えば、さらに他の装置の動作を制御するためのコンピュータであってもよい。

0046

以下に、上記動作認識システムが備える各処理部に関して詳細に説明する。

0047

フレームメモリ1は、動画入力装置7から順次転送されるフレーム画像のデータを一時的に記憶するものである。このフレームメモリ1は、少なくとも2フレーム分の画像を記憶可能な程度の記憶容量を持つものとし、新しいフレーム画像が入力されるときには、入力時刻が最も早いフレーム画像を消去することによって、記憶しているフレーム画像を順次更新していく。なお、以降の処理量を軽減するために、フレーム画像を縮小して記憶するようにしてもよい。

0048

動き検出部2は、フレームメモリ1に記憶されている2つのフレーム画像を比較することによって、画像内において動いている動き領域の検出を行うものである。

0049

この動き検出部2の検出動作において、動画入力装置7の転送レートが高い場合、例えば1秒あたり30フレーム程度となる場合には、動き領域の動く速度が遅いと、連続する2時刻の画像間の差が極めて僅かとなるので、動き領域の検出ができなくなってしまう。このような場合には、フレームメモリ1が、動画入力装置7から出力される全てのフレーム画像を記憶せずに、1フレームおき、あるいは2フレームおきに、フレーム画像を記憶していけばよい。また、別の方法としては、動き領域の動く速度が遅い場合にも画像間の差が生じるように、フレームメモリ1の記憶容量を十分に大きくすることによって対応してもよい。この場合には、動き検出部2は、現時刻のフレーム画像と、フレームメモリ1に記憶されているフレーム画像の中で最も早い時刻のフレーム画像との比較を行うことになる。

0050

ここで、図3(a)ないし(d)を参照しながら、動き検出部3における作用について詳細に説明する。動き検出部2は、まず、フレームメモリ1に記憶されている2つのフレーム画像の各画素について、輝度値に関する減算値の絶対値を各画素の値とする差分画像を作成する。この差分画像の一例を図3(a)に示す。なお、フレーム画像の表色形式RGB形式である場合には、計算量削減のために、簡略的にRGBの1つの要素のみ(一般的にはG)の値を輝度値として用いてもよい。

0051

次に、動き検出部2は、図3(b)に示すように、上記差分画像を所定の大きさのブロック単位に分割する。例えば、差分画像の大きさが320×240画素である場合、1ブロックの大きさを16×16画素とすると、差分画像は、20×15ブロックからなる画像となる。そして、各ブロック内に含まれる画素値の平均値を各ブロックにおけるブロック値とし、このブロック値に基づいて、図3(c)に示すように、ブロック画像を作成する。ここで、ブロック値が所定の閾値以下となっているブロックに対しては、そのブロックのブロック値を0とすることで、動作検出対象とは異なる微小な動き領域を排除している。なお、図3(c)においては、便宜的に、ブロック値の大きさを各ブロック内での表示面積の大きさで表している。

0052

なお、上記では、各ブロック内に含まれる画素値の平均値を各ブロックにおけるブロック値としていたが、これに限定されるものではなく、例えば、各ブロック内に含まれる画素値の総和値をブロック値としてもよい。

0053

次に、図3(d)に示すように、動き検出部2は、図3(c)に示すブロック画像を2値化することによって、動きの大きい画素のみを検出する。この2値化を行う際に用いられる閾値は、判別分析法等の手法を用いてブロック画像の各ブロック値を分析することによって自動的に決定されるものとする。そして、2値化された画像において、動きの大きい画素として検出されたブロックが隣接している場合に、これらを連結させた領域の面積を求める。この連結させた領域の面積が所定の閾値を越える場合には、その領域を動きのある領域として抽出する。領域の面積に対する閾値は、例えば、ブロック画像全体の面積の30分の1というように決定する。

0054

以上のように、動き検出部2は、フレームメモリ1に記憶されている2つのフレーム画像の差分画像からブロック画像を作成し、このブロック画像の解析に基づいて、画像中の動きのある領域を抽出する動作を行っている。

0055

次に、肌色検出部3について詳細に説明する。肌色検出部3には、フレームメモリ1内に現時刻のフレーム画像として記憶されている画像データが入力される。入力された画像データにおける各画素のRGB値に対して、以下に示す変換を行うことによって正規化を行い、色度画像を作成する。なお、正規化を行う意味は、照明むらを除去し、色度成分のみを抽出することにある。

0056

0057

次に、正規化後の色度画像における各画素に関して、肌色である条件を満たす画素を検出する。肌色である条件は、式(1)の(r,g,b)に関して、次の式(2)〜(6)のように表される。
rmin ≦r≦rmax (2)
gmin ≦g≦gmax (3)
bmin ≦b≦bmax (4)
r>g (5)
r>b (6)

0058

ここで、rmin 、gmin 、bmin は、(r,g,b)のそれぞれの値に対する最小値であり、rmax 、gmax 、bmax は最大値を表している。これらの最小値および最大値の決め方については後述する。

0059

次に、肌色検出部3は、上記の動き検出部2と同様に、上記の色度画像を複数のブロックに分割し、各ブロック内で上記の肌色である条件を満たす画素の数が所定の閾値を越えるときに、該ブロック値を1とし、所定の閾値以下であるときに、該ブロック値を0とするブロック画像を作成する。このブロック画像における各ブロックの大きさは、動き検出部2において作成したブロック画像における各ブロックの大きさと同じであるものとする。

0060

続いて、動き検出部2と同様に、ブロック画像において、ブロック値が1であるブロックのうち、隣接するブロック同士を連結して、その連結領域の面積を求める。この連結領域の面積が所定の閾値を越える場合に、この領域を肌色領域の候補として抽出する。

0061

さらに、肌色検出部3では、上記で肌色領域の候補として抽出された領域の形状に関する解析を行う。一般に、顔や手が表示されている領域は、ブロック画像上では円形楕円形に近い形となっている。これに基づいて、領域の円形度目安に肌色領域を絞り込むことができる。領域の円形度Cは、該領域の周囲長をL、面積をAとすると、次の式(7)によって求められる。
C=L2 /A (7)

0062

この円形度Cの値が小さい程円に近いと判定される。したがって、円形度Cが所定の閾値より小さい領域を肌色領域として抽出する。

0063

肌色領域の大きさや形状は、連続するフレームの間ではほとんど変化しないものである。したがって、面積や形状に関する閾値は、適当な初期値を決めておき、以降は前時刻の検出結果に基づいて決定することができる。つまり、面積の閾値に関しては、前時刻に近傍で検出された領域の面積より若干小さい値とし、形状の閾値に関しては、前時刻の円形度より少し大きい値とすればよい。

0064

次に、領域統合部4について詳細に説明する。領域統合部4には、動き検出部2で作成されたブロック画像と、肌色検出部3で作成されたブロック画像が入力される。領域統合部4は、動き検出部2によって検出された動き領域と、肌色検出部3によって検出された肌色領域とで重複する領域の面積が所定の閾値を越える場合に、その領域を身体領域の候補として抽出するものである。この閾値としては、例えば、重複する領域の面積が、肌色領域の3分の1であるという具合に決定すればよい。

0065

また、身体部分にほとんど動きがない時刻に対応するために、1時刻前の領域統合部4において身体領域の候補として抽出した領域を記憶しておき、その領域と現時刻の肌色領域との重複領域が所定の閾値を越える場合にも、身体領域の候補として抽出する。

0066

以上のような処理をまとめると図4に示すようになる。図4において、Aは、動き検出部2において動き領域として検出された領域、Bは、領域統合部4において前時刻において身体領域の候補として検出された領域、Cは、肌色検出部3において肌色領域として検出された領域をそれぞれ示している。領域統合部4では、AとBとが足し合わされた画像と、Cの画像とで重複する領域を、図中Dで示す、動きのある肌色領域、すなわち身体領域の候補として検出する。ここで、どの領域も動きのある肌色領域として検出されなかった場合には、次のフレーム画像の入力処理戻り、領域統合部4以降の処理部における処理は行われない。

0067

前記した肌色検出部3における肌色条件値rmin 、gmin 、bmin 、rmax 、gmax 、bmax は、領域統合部4における身体領域の候補として検出された結果に基づいて更新される。このことについて、図5(a)および(b)、ならびに図6を参照しながら、以下に説明する。

0068

図5(a)は、領域統合部4において、身体領域の候補として検出された領域を示している。この領域を、図5(b)に示すように、肌色検出部3において作成された色度画像に投影すると、図中破線で囲まれた領域となる。この破線で囲まれた領域に含まれる画素のr,g,bの各色度値に関して、各画素値に対する画素数を毎時刻積算する。そして、この積算結果に基づいて、横軸に色度値、縦軸に画素数をとったヒストグラムを作成する。図6は、r成分に関するヒストグラムを示している。

0069

各色成分に対応したヒストグラムにおいて、画素数のピーク値を検出し、そのピーク値が所定の閾値を越えた場合に、上記の肌色条件値を更新する。この閾値は、ヒストグラムのピーク値に対する割合が所定の値となるように設定すればよい。図6においては、破線で示した値がこの閾値を表している。そして、度数が、設定された閾値以上になる色値の範囲を肌色範囲とし、これに応じて、肌色条件値が決定される。すなわち、図6においては、rmin およびrmax の値が決定される。

0070

以上のように、肌色の検出条件を過去の検出結果に基づいて決定すれば、照明条件などの微妙な変化や、背景の変化などに適応することが可能となる。

0071

次に、形状解析部5について詳細に説明する。形状解析部5は、領域統合部4で抽出された身体領域の候補領域の形状を解析することによって、身体によって何が表現されているかを認識する。ここでは、対象となる身体を手であるものとし、その手において示されている指の本数を特定することにする。

0072

領域統合部4において抽出される手の候補領域は、ブロック画像上の領域であるため、領域が小さい場合には、形状の詳細な部分が不明瞭となる。したがって、以下のような方法によって形状の解析を行う。

0073

まず、手の候補領域を、肌色検出部3において作成された色度画像に投影したときに、該候補領域と重複する領域を抽出する。そして、その領域の内部において、前記した式(2)〜(6)の肌色条件を満たしている画素によって形成される形状領域を抽出し、この形状領域に対して、孤立点除去処理穴埋め処理輪郭部分平滑化処理などを行う。その結果、候補領域内に複数の形状領域が抽出される場合もあるが、この場合には、最も面積が大きい形状領域に対して、形状の解析を行う。

0074

形状の解析は、例えば以下の手順で行うことができる。まず、抽出された形状領域から、その輪郭線を抽出する。次に、抽出された輪郭線を、ある程度の長さを有する複数の直線で近似する。これらの複数の直線の中で、ほぼ同じ傾きを有する直線を輪郭直線として選出する。この形状解析の具体例を図7に示す。

0075

図7において、細線で示した部分が、抽出された形状領域の輪郭線であり、L1ないしL6で示した太線が、選出された輪郭直線である。これらの輪郭直線の中から、形状領域を挟んだ任意の2本の輪郭直線を選択し、挟まれている領域の幅、長さ、面積、位置関係などを調べることによって、指の領域や手のひらの領域などを検出することができる。

0076

例えば図7に示す例においては、輪郭直線L2とL3とに挟まれている領域と、輪郭直線L4とL5とに挟まれている領域とが、ほぼ同じ長さで同じ幅となっていることから、指の領域と推定することができる。また、これらの他には同様の領域が存在しないことから、指の本数は2本であることも推定できる。また、輪郭直線L1とL6とで挟まれている領域は、上記の指の領域と比較して、その面積がかなり大きいことから、手のひらの領域と推定することができる。さらに、画像領域において、指の領域が上方、手のひらの領域が下方に位置することから、指は上向きに出されていることが推定される。

0077

以上のように、形状解析部5は、領域統合部4で抽出された身体領域の候補領域から形状領域を抽出し、この形状領域から得られる輪郭直線に基づいて、身体がどのような形状となっているかを解析する。

0078

次に、動作認識部6について詳細に説明する。動作認識部6は、認識された身体領域、例えば手の領域の位置を毎時刻追跡することによって、動きの方向を特定する。1時刻間には手の領域の位置は大きく変化しないと仮定することができるので、現時刻の手の領域と前時刻の手の領域との位置関係が近く、かつ指の本数や向きが同じであれば、2つの手の領域の重心位置を結ぶ直線の向きが動きの方向であるとみなすことができる。

0079

一方、手を動画入力装置7に近づけていくような動作や、逆に遠ざけるような動作を行った場合には、重心位置はあまり変化しないことになる。しかしながら、動画入力装置7に近づけていくような動作を行った場合には、手の領域の面積が増加し、逆に遠ざけるような動作を行った場合には、面積が減少することから動作を特定することができる。

0080

以上のようにして認識された指の本数や動きの方向に何らかの意味付けをすることによって、動作認識システムに接続された情報処理装置8を制御するための様々な入力を行うことが可能となる。また、上記のシステムは、手の動きを追跡している間に、認識された指の本数や特定された位置を、情報処理装置8に入力することが可能となっている。したがって、例えばモニタ上で手の動きの軌跡を表示することによって、使用者は動作認識システムに認識されている動作の確認を行うことができる。また、この機能を利用すれば、使用者に動作入力のガイダンスを行うことも可能となる。

0081

次に、図2に示すフローチャートを参照しながら、本実施形態に係る動作認識システムにおける処理の流れを説明する。処理が開始されると、動画入力装置7によって撮影されたフレーム画像が、フレームメモリ1に順に記憶される(ステップ1、以下、S1と称する)。

0082

次に、フレームメモリ1に記憶されている現時刻および前時刻の2つのフレーム画像に基づいて、動き検出部2によって動き領域が検出される(S2)。この際に、動き検出部2は、上記の2つのフレーム画像の差分画像に基づいて複数のブロックからなるブロック画像を作成し、このブロック画像に基づいて動き領域の検出を行っている。

0083

次に、フレームメモリ1に記憶されている現時刻のフレーム画像に基づいて、肌色検出部3によって肌色領域が検出される(S3)。この際に、肌色検出部3は、現時刻のフレーム画像から色度画像を作成し、この色度画像における各画素に対して肌色検出条件に基づいてブロック画像として肌色領域を抽出するとともに、領域の円形度を調べることによって身体領域としての肌色領域を絞りこんでいる。

0084

次に、領域統合部4において、動き検出部2によって作成された動き領域に関するブロック画像と、肌色検出部3によって作成された肌色領域に関するブロック画像とを統合する(S4)。そして、この統合結果によって身体領域が検出された否かが判断される(S5)。

0085

身体領域が検出されなかった場合(S5においてNO)には、以降の処理は行わずに、再びS1からの処理を始める。一方、身体領域が検出された場合(S5においてYES)には、身体領域の各画素の色度を検出し、色度値と画素数との関係を示すヒストグラムに基づいて、肌色検出条件を更新する(S6)。

0086

次に、形状解析部5において、上記の身体領域を基に形状領域を作成し、この形状領域に基づいて形状解析を行う(S7)。この形状解析においては、形状領域の輪郭線を検出し、この輪郭線をある程度の長さを有する輪郭直線で近似し、この輪郭直線を解析することによって、手などの領域が解析される。

0087

この形状解析部5において、手などの領域が認識されなかった場合(S8においてNO)には、以降の処理は行わずに、再びS1からの処理を始める。一方、手などの領域が認識された場合(S8においてYES)には、動作認識部6において、上記で認識された手などの領域の動作が認識される(S9)。

0088

S9において動作が認識されなかった場合(S10においてNO)には、以降の処理は行わずに、再びS1からの処理を始める。一方、S9において動作が認識された場合(S10においてYES)には、認識結果を情報処理装置8に出力する(S11)。

0089

その後、動作認識処理の終了命令があったかどうかが判断され(S12)、終了命令がなかった場合(S12においてNO)には、再びS1からの処理を始め、終了命令があった場合(S12においてYES)には、処理を終了する。

0090

以上で述べた実施の形態では、動画像の入力から動作の認識までの処理が、全て同一時刻入力画像に対して行われることを前提としている。しかしながら、システムの処理能力不足しているなどの理由で、全ての処理を1つの時刻に行うことができない場合には、領域統合部4による身体領域の候補を抽出するまでの処理と、形状解析部5以降の処理とを別時刻の入力画像に対して行うことも可能である。このことについて、以下により詳しく説明する。

0091

例えば、時刻0に手の候補領域が抽出されると仮定する。そして、時刻0よりも後となる時刻1の入力画像に対しては、まず式(1)に従って色度画像を作成する。そして、この色度画像上に時刻0における候補領域を投影し、投影領域内において、時刻0の肌色検出条件によって肌色領域を検出する。これを手の候補領域として、以降の形状解析、動作認識の処理を行う。すなわち、時刻1においては、時刻0において領域統合部4によって身体領域の候補として抽出された領域に基づいて、時刻1における入力画像における身体領域の候補領域を設定し、この候補領域に対して、形状解析部5以降の処理を行うことになる。

0092

以上のように、本実施形態に係る動作認識システムは、動画入力装置7から毎時刻入力されるフレーム画像データから、動き検出部2によって抽出された動きのある領域と、肌色検出部3によって抽出された肌色領域とに基づいて、領域統合部4によって対象領域を抽出しているので、例えば従来の技術で示したように、輝度情報や色情報のみによって対象領域を抽出する構成と比較して、対象領域を、より的確にかつ高い信頼性でもって抽出することができる。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となる。

0093

また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができる。同時に、データグローブなどの接触型の入力装置は、一般的に高価なものであるので、このような入力装置を不要とすることにより、システムにおけるコストの低減を図ることができる。

0094

また、上記の構成では、動きのある領域の検出と肌色領域の検出とを行えばいいので、必要とする画像データは、一般に用いられている可視画像データでよいことになる。したがって、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができる。

0095

なお、以上説明した動作認識システムは、動き検出部2、肌色検出部3、領域統合部4、形状解析部5、および動作認識部6において行われる処理を、コンピュータ上で実行可能なプログラムとして記述し、このプログラムをコンピュータ上で実行することによっても、実現することが可能である。このプログラムはコンピュータで読み取り可能な記録媒体に格納されることになる。この記録媒体としては、磁気テープカセットテープ等のテープ系、フロッピーディスクハードディスク等の磁気ディスクCD−ROM/MO/MD/DVD等の光ディスクディスク系、ICカードメモリカードを含む)/光カード等のカード系、あるいはマスクROMEPROM、EEPROM、フラッシュROM等による半導体メモリを含めた固定的にプログラムを担持する媒体などが挙げられる。

0096

また、通信ネットワークからプログラムをダウンロードするように流動的にプログラムを担持する媒体であってもよい。尚、このように通信ネットワークからプログラムをダウンロードする場合には、そのダウンロード用プログラムは予め本体装置に格納しておくか、あるいは別な記録媒体からインストールされるものであってもよい。

0097

また、記録媒体に格納されている内容としてはプログラムに限定されず、データであってもよい。

発明の効果

0098

以上のように、本発明に係る動作認識システムは、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識システムにおいて、上記時系列画像データから動きのある領域を抽出する動き検出手段と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する色検出手段と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する領域統合手段とを備えている構成である。

0099

これにより、対象領域を、より的確にかつ高い信頼性でもって抽出することができるという効果を奏する。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、上記の動き検出手段において対象領域の候補として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となるという効果を奏する。

0100

また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができると同時に、システムにおけるコストの低減を図ることができるという効果を奏する。

0101

また、必要とする画像データは、一般に用いられている可視画像データでよいので、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができるという効果を奏する。

0102

また、本発明に係る動作認識システムは、上記動き検出手段が、上記時系列画像データにおける互いに異なる時間の2つの画像データにおいて、各画素における輝度値の差分を画素値とする差分画像を作成し、この差分画像に基づいて動きのある領域を検出する構成としてもよい。

0103

これにより、上記の効果に加えて、動きのある領域を、的確に、かつ、少ない演算処理によって検出することができるという効果を奏する。

0104

また、本発明に係る動作認識システムは、上記動き検出手段が、上記差分画像を所定の大きさのブロック単位に分割し、各ブロックに含まれる画素の輝度値の平均値あるいは積算値をブロック値とするブロック画像を作成し、ブロック値が所定の閾値を越えるブロックを連結することによって形成される領域の面積が所定の範囲内にある領域を、動きのある領域として抽出する構成としてもよい。

0105

これにより、上記の効果に加えて、動いている領域の中でも、ある程度広い範囲を占める領域のみを抽出することになる。よって、例えば背景において、対象とは異なる小さな物体が動いている場合でも、これを対象となる領域の候補からはずすことができる。したがって、対象となる領域の検出の精度を上げることが可能となるという効果を奏する。

0106

また、本発明に係る動作認識システムは、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。

0107

これにより、上記の効果に加えて、的確に対象を特徴づける色を含む領域を検出することができるという効果を奏する。また、各色成分に対する条件を適宜変更することによって、背景や照明の変化にも適切に対応することが可能となるという効果を奏する。

0108

また、本発明に係る動作認識システムは、上記色検出手段が、画像データにおいて、各色成分の画素値が所定の条件を満たす画素領域で、かつ、その画素領域を連結することによって形成される領域の形状および面積が所定の条件を満たしている場合に、該領域を、対象を特徴づける色を含む領域として抽出する構成としてもよい。

0109

これにより、上記の効果に加えて、色の条件のみならず、その領域の形状および面積をも考慮して、対象を特徴づける色を含む領域を検出することになる。よって、例えば、背景に、対象を特徴づける色と同様の色からなる領域があったとしても、形状や面積による条件によって、このような領域を候補から外すことが可能となる。したがって、対象を特徴づける色を含む領域の検出の精度を上げることが可能となるという効果を奏する。

0110

また、本発明に係る動作認識システムは、対象を特徴づける色を含む領域を抽出する際に用いられる、各色成分の画素値に対する条件が、現時刻に到るまでの、対象を特徴づける色を含む領域の抽出結果に基づいて決定される構成としてもよい。

0111

これにより、上記の効果に加えて、例えば、背景や照明の状態などの環境の変化が動作認識中に生じたとしても、このような変化に応じて、各色成分の画素値に対する条件を変化させることが可能となる。すなわち、環境に変化が生じても、対象を特徴づける色を含む領域の抽出の精度を維持することができるという効果を奏する。

0112

また、本発明に係る動作認識システムは、上記領域統合手段が、さらに、所定の過去の時刻において、領域統合手段によって対象領域として抽出された領域で、かつ、現時刻における、対象を特徴づける色を含む領域をも上記対象領域として抽出する構成としてもよい。

0113

これにより、上記の効果に加えて、対象がほとんど動いていない状態の時でも、対象を対象領域として抽出することが可能となるという効果を奏する。

0114

また、本発明に係る動作認識システムは、上記領域統合手段によって抽出された対象領域の形状を解析する形状解析手段をさらに備えている構成としてもよい。

0115

これにより、上記の効果に加えて、対象領域の形状の状態を、形状を示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の形状を、複数のカテゴリーに分類することが可能となるという効果を奏する。

0116

また、本発明に係る動作認識システムは、上記形状解析手段が、対象領域の輪郭線を所定の範囲の長さからなる複数の直線で近似し、この直線の傾き、長さ、位置関係によって対象領域の形状を認識する構成としてもよい。

0117

これにより、上記の効果に加えて、必要最小限の形状解析を行うことができるという効果を奏する。

0118

また、本発明に係る動作認識システムは、上記形状解析手段によって解析された対象領域の形状を、経時的に追跡することによって、対象領域の動きの方向を認識する動作認識手段をさらに備えている構成としてもよい。

0119

これにより、上記の効果に加えて、対象領域の動きの状態を、動きを示すある種のコードによって認識することが可能となる。すなわち、多様に変化する対象領域の動きを、複数のカテゴリーに分類することが可能となるという効果を奏する。

0120

また、本発明に係る動作認識システムは、上記領域統合手段における対象領域の抽出と、上記形状解析手段における形状の解析とを、それぞれ別時刻の画像データに対して行う構成としてもよい。

0121

これにより、上記の効果に加えて、1単位時刻に行う処理量を低減することが可能となるので、演算性能が若干劣るシステムにおいても、処理の停滞などが生じることなく、円滑に処理を行うことが可能となるという効果を奏する。

0122

また、本発明に係る動作認識システムは、上記対象が人間の手である構成としてもよい。

0123

これにより、上記の効果に加えて、例えば、差し出す指の本数、およびその向き、さらに動きの方向にそれぞれ意味を持たせ、これらを認識することによって、例えば外部に接続された情報処理装置などのシステムに対して制御命令を送信するなどのインターフェースとして機能させることが可能となる。これによって、複雑な操作を使用者が覚えることなく、直観的な操作によるユーザーインターフェースを実現することが可能となるという効果を奏する。

0124

また、本発明に係る動作認識プログラムを記録した記録媒体は、特定の対象の画像が含まれている時系列画像データを処理することによって該対象の形状および動作を認識する動作認識プログラムを記録した記録媒体において、上記時系列画像データから動きのある領域を抽出する処理と、上記時系列画像データから上記対象を特徴づける色を含む領域を抽出する処理と、上記動き検出手段および上記色検出手段の検出結果に基づいて、動きのある領域でかつ上記対象を特徴づける色を含む領域となる領域を対象領域として抽出する処理とをコンピュータに実行させるための動作認識プログラムを記録している構成である。

0125

これにより、対象領域を、より的確にかつ高い信頼性でもって抽出することができるという効果を奏する。例えば、背景に対象を特徴づける色と同じような色の領域がある場合でも、背景は基本的に動かないものであるので、動きのある領域として抽出されないことになる。したがって、背景に暗幕をひくなどの特殊な環境にする必要なく、対象を適切に抽出することが可能となるという効果を奏する。

0126

また、データグローブなどの接触型の入力装置を必要としないので、手などに特殊な装置を装着するなどの煩わしい作業を不要とすることができるとともに、システムにおけるコストの低減を図ることができるという効果を奏する。

0127

また、必要とする画像データは、一般に用いられている可視画像データでよいので、例えば赤外画像などの特殊な画像データを入力することが可能な、高価格で大型の画像入力装置を不要とすることができるという効果を奏する。

図面の簡単な説明

0128

図1本発明の実施の一形態に係る動作認識システムの概略構成を示すブロック図である。
図2上記動作認識システムにおいて行われる処理の流れを示すフローチャートである。
図3同図(a)ないし(d)は、上記動作認識システムが備える動き検出部が、処理を行う上で作成する画像を示す説明図である。
図4上記動作認識システムが備える領域統合部での処理を模式的に示す説明図である。
図5同図(a)は、領域統合部において、身体領域の候補として検出された領域を示す説明図であり、同図(b)は、同図(a)に示す領域を、肌色検出部において作成された色度画像に投影した状態を示す説明図である。
図6図5(b)において破線で囲まれた領域に含まれる画素の各色度値に関して、各画素値に対する画素数を毎時刻積算した結果に基づき、横軸に色度値、縦軸に画素数をとって作成したヒストグラムである。
図7上記動作認識システムが備える形状解析部において行われる処理を示す説明図である。

--

0129

1フレームメモリ
2動き検出部(動き検出手段)
3肌色検出部(色検出手段)
4領域統合部(領域統合手段)
5形状解析部(形状解析手段)
6動作認識部(動作認識手段)
7動画入力装置
8 情報処理装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ