図面 (/)

技術 説明文章生成装置、対象情報表現システム、及び説明文章生成方法

出願人 株式会社デンソー国立大学法人東京大学
発明者 板持貴之牛久祥孝田中幹大佐藤育郎
出願日 2018年7月20日 (2年5ヶ月経過) 出願番号 2018-136333
公開日 2020年1月23日 (11ヶ月経過) 公開番号 2020-013427
状態 未査定
技術分野 イメージ分析 学習型計算機
主要キーワード 顕著性 表現システム 説明文章 部分特徴量 アテンション 注目対象 イベント間 単語スコア
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年1月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

現実空間にいて画像を見ていない者が当該注目対象を容易に特定できる説明文章を生成する。

解決手段

説明文章生成装置30であって、画像90の全体から全体特徴量vgを抽出する全体特徴量抽出部33と、画像90から顕著性マップ95を抽出する顕著性マップ抽出部34と、画像90における注目対象91を含む注目領域92から部分特徴量vlを抽出する部分特徴量抽出部31と、注目領域92に近いほど重い重みを生成する重み生成部32と、単語列の最後の単語xtに基づいて、次単語の第1特徴量htを出力するとともに、次単語を求めるために画像90を参照する度合いを示すパラメータStを出力するRNN部351と、全体特徴量vg、部分特徴量vl、パラメータSt、重み94、顕著性マップ95、及び第1特徴量htに基づいて、次単語の第2特徴量ctを出力するアテンションネットワーク部352と、第1特徴量htと第2特徴量ctとを合成することで、次単語の合成特徴量ytを得る合成部353とを備えている。

概要

背景

車載カメラを用いた危険歩行者注意喚起監視カメラによる不審者監視等、画像に基づいて所定の事態を検知するシステムでは、検知した事態をいかにしてユーザ(ドライバー警備員等)に伝えるかが課題となる。特に、車載カメラや監視カメラの場合は、検知した事態の対象が現実空間のどこにどのような状態で存在するかを伝えることで初めてユーザがそれに伴った行動をとることができる。

車載カメラを用いた危険歩行者の注意喚起の場合、ヘッドアップディスプレイ(HUD)を用いて、画像において危険と判断された歩行者上に枠を出す手法が提案されている。しかしながら、HUDでは、ドライバ視界を奪ってしまうというデメリットがある。したがって、ドライバの視界を奪わず、分かりやすい形で対象を特定する情報をドライバに伝える手段が望まれる。

また、監視カメラを用いた監視システムによる不審者監視では、多くの場合、監視カメラで不審者を発見した場合に、現場で不審者に対応する人(駅員ないし警備員)に当該不審者の情報を適切に伝える必要がある。例えば、ホームに設置された監視カメラで不審者(ふらついている酔っ払いなど)を見つけた場合には、監視カメラの監視員ないし監視システムから、現場のホームに向かう警備員に「〜〜の近くにいる男性が酔っぱらっている」等の対象者一意識別する説明を無線等で連絡することになる。この口頭による説明においてどのような説明文章で伝えるかはその説明を行う人に依存しており、自動的に明確な説明で伝える手法は提案されていない。

高度運転支援システムや監視システムでは、物体認識技術が用いられる(例えば、特許文献1)。しかし、これらの技術では、物体や歩行者の種類分類と、その位置を特定するにすぎず、利用者に特定の物体や歩行者を伝える手段としては、画像上で枠を囲う等、画像用いるものであり、特定の物体や歩行者を伝えるために運転手の視界を奪うことになってしまう。

車の運転時等、運転手の視界を奪わず情報を通知する手段として、音声によるナビゲーションシステムが存在する(例えば、特許文献2)。しかし、このようなナビゲーションシステムでは、GPSで得た現在位置情報と既に準備されたDBとを照合しているにすぎず、道路にいる歩行者のように、その位置が時々刻々と変化する対象の情報を伝えることはできない。

また、歩行者認識を行って、危険な歩行者が認識された場合、その歩行者に対して危険である旨の通知を行うシステムも提案されている(例えば、特許文献3)。しかしながら、このシステムでは、あくまで歩行者への通知しか行わず、危険と判断された歩行者をドライバに伝えるものではない。また、このシステムを実現するために、車と歩行者が対になるデバイスを保持している必要がある。

さらに、運転の操作情報等を用いて、交通イベント急ブレーキなど)を複数抽出し、イベント間を結合して文脈記述を生成することによって現在の状況を文章でドライバに伝えるシステムも知られている(例えば、特許文献4)。しかし、このシステムでは、事象を説明することが主目的であり、歩行者を同定するものではない。また、このシステムでは、生成される記述のパターンも限定されている。

また、監視システムとしては、監視カメラの映像を用いて不審者を特定し、自動的に継続監視を行うシステムがある(例えば、特許文献5)。しかし、その監視映像を見ていない人には、特定された不審者がどのような人か分からず、その不審者の元へ警察官などが駆けつける際、その情報の伝達は監視映像を見ている人の表現能力に委ねられるという問題点があった。

概要

現実空間にいて画像を見ていない者が当該注目対象を容易に特定できる説明文章を生成する。 説明文章生成装置30であって、画像90の全体から全体特徴量vgを抽出する全体特徴量抽出部33と、画像90から顕著性マップ95を抽出する顕著性マップ抽出部34と、画像90における注目対象91を含む注目領域92から部分特徴量vlを抽出する部分特徴量抽出部31と、注目領域92に近いほど重い重みを生成する重み生成部32と、単語列の最後の単語xtに基づいて、次単語の第1特徴量htを出力するとともに、次単語を求めるために画像90を参照する度合いを示すパラメータStを出力するRNN部351と、全体特徴量vg、部分特徴量vl、パラメータSt、重み94、顕著性マップ95、及び第1特徴量htに基づいて、次単語の第2特徴量ctを出力するアテンションネットワーク部352と、第1特徴量htと第2特徴量ctとを合成することで、次単語の合成特徴量ytを得る合成部353とを備えている。

目的

本発明は、上記背景に鑑みてなされたものであり、画像中の注目対象を説明する説明文章を生成する説明文章生成装置において、現実空間にいて画像を見ていない者が注目対象を容易に特定できる説明文章を生成することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

画像(90)中の注目対象(91)を説明する単語列からなる説明文章を生成する説明文章生成装置(30)であって、前記画像の全体から全体特徴量(vg)を抽出する全体特徴量抽出部(33)と、前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出部(34)と、前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出部(31)と、前記注目領域に近いほど重い重みを生成する重み生成部(32)と、既に出力された単語列の最後の単語(xt)に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN部(351)と、前記全体特徴量と、前記部分特徴量と、前記第2特徴量と、前記重みと、前記顕著性マップと、前記第1特徴量とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンションネットワーク部(352)と、前記第1特徴量と前記第2特徴量とを合成することで、前記次単語の合成特徴量(yt)を得る合成部(353)と、を備えた説明文章生成装置。

請求項2

前記合成特徴量に基づいて、複数の前記候補説明文章を生成し、さらに、前記画像から前記注目対象を含む複数の対象を検出して、前記複数の候補説明文章が最もよく表している対象を特定し、最もよく表している対象として前記注目対象が特定された前記候補説明文章を、前記説明文章として選択する説明文章選択部(36)を備えた、請求項1に記載の説明文章生成装置。

請求項3

前記アテンションネットワーク部は、前記全体特徴量と前記部分特徴量と前記パラメータとを並列に並べて各部分領域注目スコアを計算し、前記全体特徴量に対して、前記重み及び前記顕著性マップでフィルタリングを行う、請求項1又は2に記載の説明文章生成装置。

請求項4

撮影によって前記画像を取得するカメラ(10)と、前記画像から前記注目対象を検出して、前記注目領域を特定する注目領域特定装置(20)と、請求項1〜3のいずれかに記載の説明文章生成装置(30)と、前記説明文章生成装置(30)で生成された前記説明文章を出力する説明文章出力装置(40)と、を備えた対象情報表現システム(100)。

請求項5

画像(90)中の注目対象を説明する単語列からなる説明文章を生成する説明文章生成方法であって、前記画像の全体から全体特徴量(Vg)を抽出する全体特徴量抽出ステップと、前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出ステップと、前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出ステップと、前記注目領域(92)に近いほど重い重みを生成する重み生成ステップと、既に出力された単語列の最後の単語(xt)に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN演算ステップと、前記全体特徴量(vg)と、前記部分特徴量(vl)と、前記パラメータ(St)と、前記重み(94)と、前記顕著性マップ(95)と、前記第1特徴量(ht)とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンション演算ステップと、前記第1特徴量(ht)と前記第2特徴量(ct)とを合成することで、前記次単語の合成特徴量(yt)を得る合成ステップと、を備え、前記合成特徴量に基づいて決定した前記次単語を前記最後の単語として、前記RNN演算ステップ、前記アテンション演算ステップ、及び前記合成ステップを繰り返すことで、1単語ずつ前記説明文章を構成する説明文章生成方法。

技術分野

0001

本発明は、画像中の特定の対象を説明する説明文章を生成する説明文章生成装置、それを用いた対象情報表現システム、及び説明文章生成方法に関する。

背景技術

0002

車載カメラを用いた危険歩行者注意喚起監視カメラによる不審者監視等、画像に基づいて所定の事態を検知するシステムでは、検知した事態をいかにしてユーザ(ドライバー警備員等)に伝えるかが課題となる。特に、車載カメラや監視カメラの場合は、検知した事態の対象が現実空間のどこにどのような状態で存在するかを伝えることで初めてユーザがそれに伴った行動をとることができる。

0003

車載カメラを用いた危険歩行者の注意喚起の場合、ヘッドアップディスプレイ(HUD)を用いて、画像において危険と判断された歩行者上に枠を出す手法が提案されている。しかしながら、HUDでは、ドライバ視界を奪ってしまうというデメリットがある。したがって、ドライバの視界を奪わず、分かりやすい形で対象を特定する情報をドライバに伝える手段が望まれる。

0004

また、監視カメラを用いた監視システムによる不審者監視では、多くの場合、監視カメラで不審者を発見した場合に、現場で不審者に対応する人(駅員ないし警備員)に当該不審者の情報を適切に伝える必要がある。例えば、ホームに設置された監視カメラで不審者(ふらついている酔っ払いなど)を見つけた場合には、監視カメラの監視員ないし監視システムから、現場のホームに向かう警備員に「〜〜の近くにいる男性が酔っぱらっている」等の対象者一意識別する説明を無線等で連絡することになる。この口頭による説明においてどのような説明文章で伝えるかはその説明を行う人に依存しており、自動的に明確な説明で伝える手法は提案されていない。

0005

高度運転支援システムや監視システムでは、物体認識技術が用いられる(例えば、特許文献1)。しかし、これらの技術では、物体や歩行者の種類分類と、その位置を特定するにすぎず、利用者に特定の物体や歩行者を伝える手段としては、画像上で枠を囲う等、画像用いるものであり、特定の物体や歩行者を伝えるために運転手の視界を奪うことになってしまう。

0006

車の運転時等、運転手の視界を奪わず情報を通知する手段として、音声によるナビゲーションシステムが存在する(例えば、特許文献2)。しかし、このようなナビゲーションシステムでは、GPSで得た現在位置情報と既に準備されたDBとを照合しているにすぎず、道路にいる歩行者のように、その位置が時々刻々と変化する対象の情報を伝えることはできない。

0007

また、歩行者認識を行って、危険な歩行者が認識された場合、その歩行者に対して危険である旨の通知を行うシステムも提案されている(例えば、特許文献3)。しかしながら、このシステムでは、あくまで歩行者への通知しか行わず、危険と判断された歩行者をドライバに伝えるものではない。また、このシステムを実現するために、車と歩行者が対になるデバイスを保持している必要がある。

0008

さらに、運転の操作情報等を用いて、交通イベント急ブレーキなど)を複数抽出し、イベント間を結合して文脈記述を生成することによって現在の状況を文章でドライバに伝えるシステムも知られている(例えば、特許文献4)。しかし、このシステムでは、事象を説明することが主目的であり、歩行者を同定するものではない。また、このシステムでは、生成される記述のパターンも限定されている。

0009

また、監視システムとしては、監視カメラの映像を用いて不審者を特定し、自動的に継続監視を行うシステムがある(例えば、特許文献5)。しかし、その監視映像を見ていない人には、特定された不審者がどのような人か分からず、その不審者の元へ警察官などが駆けつける際、その情報の伝達は監視映像を見ている人の表現能力に委ねられるという問題点があった。

0010

特開2013−109457号公報
特開2010−256106号公報
特開2002−245595号公報
特開2015−230694号公報
特開2007−68195号公報

先行技術

0011

Ruotian Luo and Gregory Shakhnarovich: Comprehension-guided referring expressions, arXiv:1701.03439v1 [cs.CV] 12 Jan 2017
Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan Yuille, and Kevin Murphy: Generation and Comprehension of Unambiguous Object Descriptions, arXiv:1511.02283v3 [cs.CV] 11 Apr 2016

発明が解決しようとする課題

0012

画像中の特定の対象を説明する説明文章を生成する説明文章生成装置が知られている。この装置では、画像中の対象となる人物や物体を、他の人物や物体と判別できるような説明文章を生成する(例えば、非特許文献1及び非特許文献2)。しかし、この装置で生成される説明文章は、あくまでも画像において対象が存在する領域を説明するための文章であり、例えば、「画像の一番左の人」等の説明文章が生成されることもある。この説明文章の場合、画像そのものを見ることができない車のドライバや監視カメラの映像を見ていない警備員等が説明文章に基づいて現実空間で対象を特定するのには向いていない。

0013

本発明は、上記背景に鑑みてなされたものであり、画像中の注目対象を説明する説明文章を生成する説明文章生成装置において、現実空間にいて画像を見ていない者が注目対象を容易に特定できる説明文章を生成することを目的とする。

課題を解決するための手段

0014

本発明の一態様の説明文章生成装置は、画像(90)中の注目対象(91)を説明する単語列からなる説明文章を生成する説明文章生成装置(30)であって、前記画像の全体から全体特徴量(vg)を抽出する全体特徴量抽出部(33)と、前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出部(34)と、前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出部(31)と、前記注目領域に近いほど重い重みを生成する重み生成部(32)と、既に出力された単語列の最後の単語(xt)に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN部(351)と、前記全体特徴量と、前記部分特徴量と、前記第2特徴量と、前記重みと、前記顕著性マップと、前記第1特徴量とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンションネットワーク部(352)と、前記第1特徴量と前記第2特徴量とを合成することで、前記次単語の合成特徴量(yt)を得る合成部(353)とを備えている。

0015

この構成により、画像中の注目対象について、その周辺の顕著な物体や人物を交えた単語列で分かり易く当該特定の対象を説明する説明文章を作成できる。

0016

本発明の一態様の対象情報表現システムは、撮影によって前記画像を取得するカメラ(10)と、前記画像から前記注目対象を検出して、前記注目領域を特定する注目領域特定装置(20)と、上記の説明文章生成装置(30)と、前記説明文章生成装置(30)で生成された前記説明文章を出力する説明文章出力装置(40)とを備えている。

0017

本発明の一態様の対象情報表現方法は、画像(90)中の注目対象を説明する単語列からなる説明文章を生成する対象情報表現方法であって、前記画像の全体から全体特徴量(Vg)を抽出する全体特徴量抽出ステップと、前記画像の顕著性度合いを示す顕著性マップ(95)を抽出する顕著性マップ抽出ステップと、前記画像における前記注目対象を含む注目領域(92)から部分特徴量(vl)を抽出する部分特徴量抽出ステップと、前記注目領域(92)に近いほど重い重みを生成する重み生成ステップと、既に出力された単語列の最後の単語に基づいて、当該最後の単語に続く次単語の第1特徴量(ht)を出力するとともに、前記次単語を求めるために前記画像を参照する度合いを示すパラメータ(St)を出力するRNN演算ステップと、前記全体特徴量(vg)と、前記部分特徴量(vl)と、前記パラメータ(St)と、前記重み(94)と、前記顕著性マップ(95)と、前記第1特徴量(ht)とに基づいて、前記次単語の第2特徴量(ct)を出力するアテンション演算ステップと、前記第1特徴量(ht)と前記第2特徴量(ct)とを合成することで、前記次単語の合成特徴量(yt)を得る合成ステップとを備え、前記合成特徴量に基づいて決定した前記次単語を前記最後の単語として、前記RNN演算ステップ、前記アテンション演算ステップ、及び前記合成ステップを繰り返すことで、1単語ずつ前記説明文章を構成する。

図面の簡単な説明

0018

図1は、対象情報表現システムの構成を示すブロック図である。
図2は、カメラの撮影によって得られた画像の例を示す図である。
図3は、画像から特定された注目領域を示す図である。
図4は、注目領域の画像を示す図である。
図5は、注目領域の特徴量抽出を説明する図である。
図6は、重みを可視化した図である。
図7は、全体画像の特徴量抽出を説明する図である。
図8は、顕著性マップを可視化した図である。
図9は、説明文章生成部の構成を示すブロック図である。
図10は、アテンションネットワーク部の構成を示す図である。
図11は、説明文章の選択を説明する図である。
図12は、対象情報表現システムを車両の予防安全システムに応用した例を示す図である。
図13は、対象情報表現システムを車両の予防安全システムに応用した例の予防安全方法のフロー図である。
図14は、対象情報表現システムを駅の監視システムに応用した例を示す図である。

実施例

0019

以下、本発明に係る説明文章生成装置、対象情報表現方法、及び対象情報表現方プログラムの実施の形態について図面を参照しながら説明する。図1は、対象情報表現システムの構成を示すブロック図である。図1に示すように、対象情報表現システム100は、カメラ10と、注目領域特定装置20と、説明文章生成装置30と、説明文章出力装置40とを備えている。

0020

図2は、カメラの撮影によって得られた画像の例を示す図である。カメラ10は、現実空間を撮影して画像を生成する。この例において、画像90は、街頭を撮影して得られたものである。

0021

図3は、画像から特定された注目領域を示す図であり、図4は、注目領域の画像を示す図である。注目領域特定装置20は、カメラ10の撮影によって得られた画像90を取得して、画像90から注目対象91を検出し、注目対象91を含む注目領域92を特定する。

0022

注目領域特定装置20は、目的に応じて既存の任意の方法によって注目対象91を検出し、注目領域を特定する。この例では、注目対象91は横断歩道を渡ろうとしている金髪の女性である。注目領域92は、注目対象91を含む矩形の領域として特定される。以下では、注目領域92の画像を部分画像93といい、画像90を全体画像ともいう。

0023

説明文章生成装置30は、注目領域特定装置20で検出された注目対象91を表現するための複数の単語の列からなる説明文章を生成する。説明文章生成装置30は、部分特徴量抽出部31と、重み生成部32と、全体特徴量抽出部33と、顕著性マップ抽出部34と、説明文章生成部35と、説明文章選択部36とを備えている。

0024

図5は、注目領域の特徴量抽出を説明する図である。部分特徴量抽出部31は、注目領域特定装置20から注目領域の部分画像を受けて、注目領域92を複数の部分領域(「バウンディングボックス」ともいう。)に分けて、各部分領域について部分特徴量vlを抽出する。本実施の形態では、部分特徴量抽出部31は、部分画像93を横2縦4の8部分領域に分割し、各部分領域について、部分特徴量vlとして2048次元特徴量ベクトルを抽出する。

0025

また、本実施の形態では、部分特徴量抽出部31は、ResNet(K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings ofCVPR, pages 770-778, 2016. arxiv.org/abs/1512.03385.を参照)を利用して各部分領域の部分特徴量vlを抽出する。なお、特徴量抽出の手法は、各部分領域の特徴量ベクトルを抽出できるものであればよく、例えば、ニューラルネットワークやHoGによって特徴量を抽出してもよい。また、分割部分領域数や各部分領域の特徴ベクトルの次元等のパラメータは任意に変更可能である。

0026

図6は、重みを可視化した図である。重み生成部32は、各画素について重み94を設定する。具体的には、重み生成部32は、注目領域特定装置20から注目領域92の大きさおよび全体画像における位置の情報を取得して、注目領域92を中心とするガウス分布によって重み94を生成する。すなわち、重み生成部32は、注目領域92に近いほど重みが重くなるように重み94を生成する。重み生成部32は、部分領域ごとに各画素の重みの平均をとることで、部分領域ごとの重みを求める。なお、重み生成部32は、部分領域中の画素の重みの最大値あるいは中央値を当該部分領域の重みとする等の手法で部分領域ごとの重みを求めてもよい。

0027

図7は、全体画像の特徴量抽出を説明する図である。全体特徴量抽出部33は、カメラ10から全体画像90を受けて、全体画像90を複数の部分領域に分けて、各部分領域について全体特徴量vgを抽出する。本実施の形態では、全体特徴量抽出部33は、全体画像90を横8縦4の32部分領域に分割し、各部分領域について、全体特徴量vgとして2048次元の特徴量ベクトルを抽出する。ここで、全体画像90の各部分領域から抽出される特徴ベクトルの次元数と、部分画像93の各部分領域から抽出される特徴ベクトルの次元数とは同じである。

0028

また、本実施の形態では、全体特徴量抽出部33は、ResNetを利用して各部分領域の全体特徴量vgを抽出する。なお、特徴量抽出の手法は、各部分領域の特徴量ベクトルを抽出できるものであればよく、例えば、ニューラルネットワークやHoGによって特徴量を抽出してもよい。また、分割部分領域数や各部分領域の特徴ベクトルの次元等のパラメータは任意に変更可能である。ただし、上述のように、全体画像90の各部分領域から抽出される特徴ベクトルの次元数と、部分画像93の各部分領域から抽出される特徴ベクトルの次元数は同一とする。

0029

図8は、顕著性マップを可視化した図である。顕著性マップ生成部34は、カメラ10から全体画像90を取得して、全体画像90に対して既存の画像処理やニューラルネットワーク等の手法を用いて、画像中の各画素の顕著性度合いを計算する。本実施の形態では、顕著性マップ生成部34は、Ittiらの手法(L. Itti, C. Koch, E. Niebur, A Model of Saliency-Based Visual Attention for Rapid Scene Analysis,IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 11, pp. 1254-1259, Nov 1998.を参照)を用いて顕著性マップ95を生成する。

0030

顕著性マップ95は、画素ごとの顕著性度合いを示す係数として生成され、例えば、明るい部分や赤い部分等の人の目につきやすい部分の顕著性が高くなるように生成される。顕著性マップ生成部34は、部分領域ごとに各画素の顕著性度合いの平均を取ることで、部分領域ごとに顕著性度合いの係数を求める。さらに係数を二値化し、顕著であると判定された部分領域のみを考慮するようにしてもよい。なお、顕著性マップ生成部34は、部分領域中の画素の顕著性度合いの最大値あるいは中央値を採用することで部分領域ごとの顕著性度合いの係数を求めてもよい。

0031

図1に戻って、部分特徴量抽出部31、重み生成部32、全体特徴量抽出部33、及び顕著性マップ生成部34は、それぞれ、抽出ないし生成した部分画像の部分特徴量vl、重み94、全体画像の全体特徴量vg、及び顕著性マップ95を説明文章生成部35に出力する。説明文章生成部35はこれらの情報を用いて、対象92を説明する説明文章を生成する。

0032

図9は、説明文章生成部の構成を示すブロック図である。説明文章生成部35は、再帰性ニューラルネットワーク部(以下、「RNN部」という。)351と、アテンションネットワーク部352と、合成部353とを備えている。説明文章生成部35で生成される説明文章は、複数の単語の列からなる。図9に示すように、説明文章生成部35は、RNN部351、アテンションネットワーク部352、合成部353の順で処理が行われるが、これらの処理は説明文章中の1単語を生成するごとに行われる。よって、生成される単語数分だけ処理が繰り返される。

0033

RNN部351は、対象言語(例えば、英語日本語、中国語等)の文法情報を学習している。RNN部351には、それまでに生成された単語列の最後の単語xtが入力され、文法的に見た場合に次に続くべき単語(以下、「次単語」ともいう。)の特徴量St、htを出力する。ここで、特徴量Stは、次単語を求めるために画像の情報を参照する度合いを示すパラメータである。

0034

また、特徴量htは、次単語の候補のスコアである。例えば、次単語の候補として、bus、car、person、・・・がある場合に、特徴量htは(bus:0.51,car:0,24,person:0.01,・・・)のような次単語の候補のスコアを要素とするベクトルで表現される。なお、特徴量Stと特徴量htとは同じ次元及び同じ値であってもよい。ただし、特徴量Stは、画像の全体特徴量vg及び部分特徴量vlと同じ次元である。

0035

RNN部351から出力される特徴量St、htは、アテンションネットワーク部352に入力される。また、アテンションネットワーク部352には、部分特徴量抽出部31、重み生成部32、全体特徴量抽出部33、及び顕著性マップ生成部34からそれぞれ部分画像の部分特徴量vl、重み94、全体画像の全体特徴量vg、及び顕著性マップ95が入力される。

0036

図10は、アテンションネットワーク部の構成を示す図である。アテンションネットワーク部352は、RNN部351から入力された特徴量Stと、部分特徴量抽出部31から入力された部分特徴量vlと、全体特徴量抽出部33から入力された全体特徴量vgとを並列に並べてニューラルネットワークを用いて各部分領域の注目スコアを計算する。なお、演算手法はニューラルネットワークには限らない。

0037

このとき、全体画像の全体特徴量vgについては、重み94及び顕著性マップ95でフィルタリング(即ち、重み付け)を行う。上述のように、重み94は注目領域92に近いほど重み係数が大きく、顕著性マップ95は顕著な部分領域ほど顕著性度合いの係数が大きいので、注目対象91の近くであって、かつ、顕著な物体に注目することができる。

0038

図9に戻って、合成部353は、アテンションネットワークの出力ctと、RNN部351の出力htとを合成して、各単語のスコアytを出力する。すなわち、合成部353の出力ytも、例えば(bus:0.76,car:0.18,person:0.02,・・・)のような次単語の候補のスコアを要素とするベクトルで表現される。

0039

説明文章生成部35は、合成部353で得られた次単語の候補のスコアに基づいて、次単語を決定する。決定された次単語は、それまでに決定された単語列の最後の単語として、RNN部351に入力され、RNN部351、アテンションネットワーク部352、及び合成部353にて上記の処理が行われる。説明文章生成部35は、これを説明文章の最後の単語に至るまで繰り返すことにより、説明文章を生成する。

0040

説明文章生成部35の上記の構成により、画像中の注目領域92の情報とRNN部351における文法情報の両方を加味したうえで単語スコアytを出力できる。また、アテンションネットワーク部352では、注目領域92の位置(即ち座標)に基づく重み94と顕著性マップ95とを用いているため、注目対象周辺の顕著性度合いが高い部分のスコアが高くなり、その部分を表現する単語のスコアが高くなることが期待できる。

0041

図1に戻って、説明文章選択部36は、複数の候補説明文章の中から注目対象を表現する説明文章を選択する。説明文章生成部35は、1単語ずつ、出力し得る単語すべてにスコアをつけて文章を生成する。例えば、1単語目の単語スコアy1と2単語目の単語スコアy2は以下のようになる。
y1=(a:0.75,the:0.16,woman:0.04,blond:0.005,・・・)
y2=(a:0.01,the:0.02,woman:0.24,blond:0.45,・・・)

0042

説明文章生成部35は、スコアの高い順に複数個の単語を選んでいくことにより、スコアが高い順に複数の候補説明文章を生成する。そして、説明文章選択部36では、生成された複数の候補説明文章のうちの最も適切な説明文章を選択して、最終的な出力とする。

0043

図11は、説明文章の選択を説明する図である。いま、図11に例示するように、以下の3つの候補説明文章が説明文章生成部35から得られたとする。
1.A woman walking on the road.
2.A blond hair woman in front of a red bus.
3.A blue shirt man.

0044

説明文章選択部36は、画像90について、既存の検出システムを用いて複数の対象を検出する。図11の例では、検出システムを用いて歩行者を検出した結果、対象A〜Gが検出されている。これらの対象A〜Gの中には、上記の説明文章の生成のための処理において注目対象91とされていた対象Cも含まれている。説明文章選択部36は、各候補説明文章について、当該候補説明文章が最もよく表している対象を選択する。この選択には、Luoらの手法(非特許文献1を参照)やMaoらの手法(非特許文献2を参照)を用いることができる。

0045

図11の例では、候補説明文章1が最もよく表している対象として、対象Aが選ばれ、候補説明文章2が最もよく表している対象として、対象Cが選ばれ、候補説明文章3が最もよく表している対象として、対象Dが選ばれている。本実施の形態の例において、注目対象は対象Cであるので、説明文章選択部36は、対象Cを最もよく表している候補説明文章2を最終的な説明文章として選択して出力する。

0046

図1に戻って、説明文章出力装置40は、説明文章選択部36で最終的に選択された説明文章を受けて、この説明文章を出力する。説明文章出力装置40は、例えば、説明文章を読み上げる音声の形式で説明文章を出力してよい。

0047

以上のように、本実施の形態の対象情報表現システム100ないし説明文章生成装置30によれば、注目対象を特定するための説明文章を生成するにあたって、当該注目対象自体の特徴を表現するだけでなく、当該注目対象の周りの物体や人物等にも注目をして注目対象を表現する説明文章を生成するので、この説明文章を頼りに当該注目対象を同定することが容易になる。

0048

さらに、本実施の形態の対象情報表現システム100ないし説明文章生成装置30は、注目対象に近い対象を重くする重み付けをし、顕著性度合いの高い対象を重視するので、注目対象の近くの目につきやすい物体や人物を参照して注目対象を表現する説明文章を生成できる。

0049

以下、本発明の実施の形態の対象情報表現システム100の応用例を説明する。

0050

図12は、対象情報表現システムを車両の予防安全システムに応用した例を示す図である。この例では、図1に示す対象情報表現システム100のすべての構成が車両51に備えられている。また、カメラ10は、車両51の前方に向けられており、車両51の前方の画像を取得する。車両51の正面方向に歩行者52がおり、車両51の左前方に歩行者53がある。また、歩行者52の近くには木54がある。歩行者52と歩行者53は、いずれも同様の色の服を着ており、同性であり、いずれも道路を横断するという行動をしている。

0051

対象情報表現システム100が、注目領域特定装置20にて歩行者52を注目対象として検出して、説明文章生成装置30にて歩行者52を同定するための説明文章を生成して、説明文章出力装置40で説明文章の音声読み上げを行うとすると、この説明文章は、歩行者53と区別して歩行者52を特定する文章であることが望ましい。

0052

仮に、歩行者52自体の特徴を表現するのみであると、例えば、「グレーの服を着た、道路を横断している、男性」のように、歩行者53との区別が困難な説明文章となる。本実施の形態の説明文章生成装置30では、上記のとおり、注目対象を周辺の目立つ物体と関連付けて表現する説明文章を生成する。例えば、図12の例では、「木のそばで、道路を横断している、男性」という説明文章が生成される。これにより、歩行者53とは区別して歩行者52を特定できる説明文章がユーザに提供されることになる。

0053

図13は、対象情報表現システムを車両の予防安全システムに応用した例の予防安全方法のフロー図である。このフローは、図1に示す対象情報表現システム100において実行される。カメラ10は車両51に前方を向けて取り付けられている。まず、カメラ10が車外(即ち、車両の前方)の画像90を撮影する(ステップS131)。次に、注目領域特定装置20は、画像90に対して歩行者認識を行い、画像90に映っている歩行者を検出する(ステップS132)。画像90に複数の歩行者がある場合には、注目領域特定装置20は、それらのすべての歩行者を検出する。

0054

次に、注目領域特定装置20は、検出した複数の歩行者の各々について、衝突余裕時間(Time To Collision:TTC)を計算する(ステップS133)。次に、注目領域特定装置20は、TTCが所定の閾値Taより小さい歩行者がいるかを判断し(ステップS134)、そのような歩行者がいる場合には(ステップS134でYES)、緊急ブレーキ発動させて(ステップS135)、処理を終了する。

0055

TTCが閾値Taより小さい歩行者がいない場合には、注目領域特定装置20は、TTCが閾値Taより大きく閾値Tbより小さい歩行者、即ち、直ちに緊急ブレーキを発動させる必要はないが注意を要する歩行者がいるかを判断する(ステップS136)。そのような歩行者がいない場合には(ステップS136でNO)、処理を終了する。そのような歩行者がいる場合には(ステップS136でYES)、注目領域特定装置20は、TTCが最も小さい歩行者を注目対象として特定して、当該歩行者を囲む矩形の注目領域を設定する(ステップS137)。

0056

注目領域特定装置20にて注目領域92が設定されると、説明文章生成装置30は、上記の手順で注目対象91とされた歩行者を説明する説明文章を生成する(ステップS138)。説明文章が生成されると、説明文章出力装置40は、説明文章を音声に変換して(ステップS139)、その音声を出力する(ステップS140)。説明文章出力装置40は、車内に備えられたスピーカを含む。ドライバを含む乗員は、このスピーカから出力される音声を聞くことができる。

0057

この予防安全方法によれば、カメラ10にて撮影された画像から注意を要する歩行者を検出して、そのような歩行者を特定する説明文章を生成し、それを音声で出力するので、ドライバは、注意を要すると判断された歩行者を特定する説明文章を音声で聞くことができる。

0058

図14は、対象情報表現システムを駅の監視システムに応用した例を示す図である。この監視システムは、駅に設置された監視カメラ71と、監視装置70と、説明文章生成装置30と、インカム装置72とを備えている。監視カメラ71は、図1に示す対象情報表現システム100のカメラ10に相当し、監視装置70は、対象領域特定部20に相当し、インカム装置72は、説明文章出力装置40に相当する。

0059

監視カメラ71は、駅に設置される。図14の例では、監視カメラ71は駅のホームの柱に設置されている。監視装置70は、監視カメラ71によって撮影された画像において駅員が対応する必要がある人物や事象を注目対象として特定する。監視装置70は、画像認識技術を用いて、自動的に注目対象を特定してよい。あるいは、注目対象は、監視装置70を用いて画像を目視しているオペレータによって特定されてもよい。

0060

図14の例では、奥側のホームで酔ってふらついている客81が監視カメラ71によって撮影されて、注目対象として特定されている。この場合に、駅員83が携帯するインカム装置83にこの酔っ払い客81を特定する説明文章を音声で出力する必要がある。このとき、この説明文章は、例えば、同じく監視カメラ71によって撮影されている客82と区別が容易なように、酔っ払い客81を説明する文章であることが望ましい。

0061

そこで、説明文章生成装置30は、上記の構成によって酔っ払い客81を説明するのに、周囲の目立つ物の情報を利用する。この説明文章生成装置30によって、図14の例では、例えば「青いベンチの近くにいる、酔っぱらった、男性」という説明文章が生成される。そして、駅員83のインカム装置72では、この説明文章が音声として出力され、駅員83に伝えられる。駅員83は、この音声を頼りに、現場において、注目対象ではない客82と区別して、注目対象となっている酔っ払い客81を容易に特定できる。

0062

100対象情報表現システム、10カメラ、20注目領域特定装置、
30説明文章生成装置、31部分特徴量抽出部、32 重み生成部、
33 全体特徴量抽出部、34顕著性マップ抽出部、35 説明文章生成部、
36 説明文章選択部、40 説明文章出力装置、351 RNN部、
352アテンションネットワーク部、353 合成部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ