図面 (/)

技術 学習処理方法、サーバ装置及び反射検知システム

出願人 パナソニック株式会社
発明者 長谷川祐
出願日 2018年2月26日 (2年2ヶ月経過) 出願番号 2018-032594
公開日 2019年9月5日 (8ヶ月経過) 公開番号 2019-148940
状態 未査定
技術分野 文字入力 イメージ分析
主要キーワード 精度指標 Y座標 反射箇所 光反射画像 矩形窓 オンプレミス 可視化画像 モバイル通信網
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年9月5日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (19)

課題

任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成する。

解決手段

AIサーバにおける学習処理方法は、光の反射位置を示す反射領域を含む元画像Aに基づいて、元画像Aの画像B´を生成するステップと、元画像A中の反射領域g1が他の画像領域識別可能に生成された学習画像B1,B2,B3と偽画像B´との比較に応じて、偽画像B´の真偽性を評価するステップと、偽画像B´に基づいて、元画像Aの偽画像A´を生成するステップと、偽画像A´と元画像Aとの比較に応じて、偽画像A´の真偽性を評価するステップと、偽画像B´及び偽画像A´のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における反射領域g1の検知に用いる学習済みモデルを生成するステップと、を有する。

概要

背景

特許文献1には、文字の読取等の処理に利用可能な画素を特定するために、撮像画像に含まれる各画素の輝度値を示す輝度画像を取得し、各画素の輝度値の度数分布を基に輝度閾値を決定し、高い輝度値の画素を強調する処理を前述した輝度画像に対して行って高輝度部分強調画像を生成する画像評価装置が開示されている。この画像評価装置は、高輝度部分強調装置に含まれる画素のそれぞれについて輝度値が輝度閾値を超えるか否かの判定結果に基づいて、輝度閾値を超える輝度を有する画素を高輝度画素と特定する。

概要

任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成する。AIサーバにおける学習処理方法は、光の反射位置を示す反射領域を含む元画像Aに基づいて、元画像Aの画像B´を生成するステップと、元画像A中の反射領域g1が他の画像領域識別可能に生成された学習画像B1,B2,B3と偽画像B´との比較に応じて、偽画像B´の真偽性を評価するステップと、偽画像B´に基づいて、元画像Aの偽画像A´を生成するステップと、偽画像A´と元画像Aとの比較に応じて、偽画像A´の真偽性を評価するステップと、偽画像B´及び偽画像A´のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における反射領域g1の検知に用いる学習済みモデルを生成するステップと、を有する。

目的

本開示は、上述した従来の状況に鑑みて案出され、任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保する学習処理方法、サーバ装置及び反射検知システムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

サーバ装置における学習処理方法であって、光の反射箇所を示す反射画像領域を含む学習処理対象の撮像画像に基づいて、前記撮像画像の第1類似画像を生成するステップと、前記撮像画像中の前記反射画像領域が他の画像領域識別可能に生成された学習用画像と前記第1類似画像との比較に応じて、前記第1類似画像の真偽性を評価するステップと、前記第1類似画像に基づいて、前記撮像画像の第2類似画像を生成するステップと、前記第2類似画像と前記撮像画像との比較に応じて、前記第2類似画像の真偽性を評価するステップと、前記第1類似画像及び前記第2類似画像のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における前記反射画像領域の検知に用いる反射検知モデルを生成するステップと、を有する、学習処理方法。

請求項2

前記反射検知モデルを生成するステップは、前記第1類似画像及び前記第2類似画像のそれぞれの真偽性の評価結果に基づいて、前記反射検知モデルが使用するパラメータ更新するステップと、更新された前記パラメータを用いて前記反射検知モデルを生成するステップと、を含む、請求項1に記載の学習処理方法。

請求項3

前記第1類似画像を生成するステップは、前記学習処理対象の撮像画像が複数存在する場合に、それぞれの前記学習処理対象の撮像画像毎に対応する前記第1類似画像を生成するステップを含む、請求項1に記載の学習処理方法。

請求項4

前記撮像画像中の前記反射画像領域に第1の色を付与し、前記撮像画像中の前記反射画像領域以外の他の画像領域に第2の色を付与して前記学習用画像を生成するステップ、を更に有する、請求項1に記載の学習処理方法。

請求項5

前記撮像画像中の前記反射画像領域を構成するそれぞれの画素のいずれか1色の画素値に、前記撮像画像中の対応する画素の輝度値を設定し、前記撮像画像中の前記反射画像領域以外の他の画像領域を構成するそれぞれの画素の画素値に、前記撮像画像中の対応する画素の画素値を設定して前記学習用画像を生成するステップ、を更に有する、請求項1に記載の学習処理方法。

請求項6

前記撮像画像中の前記反射画像領域を構成するそれぞれの画素のいずれか1色の画素値に、前記撮像画像中の対応する画素の輝度値を設定し、前記撮像画像中の前記反射画像領域以外の他の画像領域を構成するそれぞれの画素の全ての色の画素値に、前記撮像画像中の対応する画素の画素値を設定して前記学習用画像を生成するステップ、を更に有する、請求項1に記載の学習処理方法。

請求項7

光の反射箇所を示す反射画像領域を含む学習処理対象の撮像画像を保持するサーバ装置であって、プロセッサメモリと、を備え、前記プロセッサは、前記メモリと協働して、前記撮像画像に基づいて、前記撮像画像の第1類似画像を生成し、前記撮像画像中の前記反射画像領域が他の画像領域と識別可能に生成された学習用画像と前記第1類似画像との比較に応じて、前記第1類似画像の真偽性を評価し、前記第1類似画像に基づいて、前記撮像画像の第2類似画像を生成し、前記第2類似画像と前記撮像画像との比較に応じて、前記第2類似画像の真偽性を評価し、前記第1類似画像及び前記第2類似画像のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における前記反射画像領域の検知に用いる反射検知モデルを生成する、サーバ装置。

請求項8

請求項7に記載のサーバ装置と、撮像部及び表示部を有する携帯端末とが互いに通信可能に接続された反射検知システムであって、前記サーバ装置は、前記撮像部により撮像された任意の撮像画像を取得すると、前記反射検知モデルを用いて、前記撮像画像中の前記反射画像領域を検知するとともに、前記撮像画像中の前記反射画像領域を他の画像領域と識別可能に加工した出力画像を生成して前記携帯端末に送信し、前記携帯端末は、前記サーバ装置から送信された前記出力画像を用いて、前記出力画像のうち前記反射画像領域以外の前記他の画像領域を文字認識した結果を前記表示部に表示する、反射検知システム。

技術分野

0001

本開示は、学習処理方法、サーバ装置及び反射検知システムに関する。

背景技術

0002

特許文献1には、文字の読取等の処理に利用可能な画素を特定するために、撮像画像に含まれる各画素の輝度値を示す輝度画像を取得し、各画素の輝度値の度数分布を基に輝度閾値を決定し、高い輝度値の画素を強調する処理を前述した輝度画像に対して行って高輝度部分強調画像を生成する画像評価装置が開示されている。この画像評価装置は、高輝度部分強調装置に含まれる画素のそれぞれについて輝度値が輝度閾値を超えるか否かの判定結果に基づいて、輝度閾値を超える輝度を有する画素を高輝度画素と特定する。

先行技術

0003

特開2017−162030号公報

発明が解決しようとする課題

0004

しかし、特許文献1には、例えばスマートフォン等の携帯端末により撮像された撮像画像に照明光や外交等の光が反射した部分が含まれている場合に、その撮像画像中に生じた光反射画像領域を検知することは考慮されていない。

0005

本開示は、上述した従来の状況に鑑みて案出され、任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保する学習処理方法、サーバ装置及び反射検知システムを提供することを目的とする。

課題を解決するための手段

0006

本開示は、サーバにおける学習処理方法であって、光の反射箇所を示す反射画像領域を含む学習処理対象の撮像画像に基づいて、前記撮像画像の第1類似画像を生成するステップと、前記撮像画像中の前記反射画像領域が他の画像領域識別可能に生成された学習用画像と前記第1類似画像との比較に応じて、前記第1類似画像の真偽性を評価するステップと、前記第1類似画像に基づいて、前記撮像画像の第2類似画像を生成するステップと、前記第2類似画像と前記撮像画像との比較に応じて、前記第2類似画像の真偽性を評価するステップと、前記第1類似画像及び前記第2類似画像のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における前記反射画像領域の検知に用いる反射検知モデルを生成するステップと、を有する、学習処理方法を提供する。

0007

また、本開示は、光の反射箇所を示す反射画像領域を含む学習処理対象の撮像画像を保持するサーバであって、プロセッサメモリと、を備え、前記プロセッサは、前記メモリと協働して、前記撮像画像に基づいて、前記撮像画像の第1類似画像を生成し、前記撮像画像中の前記反射画像領域が他の画像領域と識別可能に生成された学習用画像と前記第1類似画像との比較に応じて、前記第1類似画像の真偽性を評価し、前記第1類似画像に基づいて、前記撮像画像の第2類似画像を生成し、前記第2類似画像と前記撮像画像との比較に応じて、前記第2類似画像の真偽性を評価し、前記第1類似画像及び前記第2類似画像のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における前記反射画像領域の検知に用いる反射検知モデルを生成する、サーバ装置を提供する。

0008

また、本開示は、上記サーバと、撮像部及び表示部を有する携帯端末とが互いに通信可能に接続された反射検知システムであって、前記サーバは、前記撮像部により撮像された任意の撮像画像を取得すると、前記反射検知モデルを用いて、前記撮像画像中の前記反射画像領域を検知するとともに、前記撮像画像中の前記反射画像領域を他の画像領域と識別可能に加工した出力画像を生成して前記携帯端末に送信し、前記携帯端末は、前記サーバから送信された前記出力画像を用いて、前記出力画像のうち前記反射画像領域以外の前記他の画像領域を文字認識した結果を前記表示部に表示する、反射検知システムを提供する。

発明の効果

0009

本開示によれば、任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保できる。

図面の簡単な説明

0010

実施の形態1に係る反射検知システムのハードウェア構成を示すブロック図
元画像Aの準備及び前処理の動作手順の一例を説明するフローチャート
学習画像B1を生成する動作手順の一例を説明するフローチャート
学習画像B2を生成する動作手順の一例を説明するフローチャート
学習画像B3を生成する動作手順の一例を説明するフローチャート
元画像A、前処理後の画像B0、学習画像B1,B2,B3を示す図
AIサーバの学習の動作手順の一例を説明するフローチャート
AIサーバの反射箇所の検出の動作手順の一例を説明するフローチャート
スマートフォンの翻訳動作手順の一例を説明するフローチャート
撮像画像が表示されたスマートフォンの撮影画面例を示す図
重畳画像が表示されたスマートフォンの確認画面例を示す図
スマートフォンに表示された翻訳結果画面例を示す図
スマートフォンに表示された他の翻訳結果画面例を示す図
他の撮像画像が表示されたスマートフォンの撮影画面例を示す図
一部文字認識可能な範囲を含む重畳画像が表示されたスマートフォンの確認画面例を示す図
一部文字認識可能な範囲が変更された確認画面例を示す図
スマートフォンに表示された翻訳結果画面例を示す図
スマートフォンに表示された他の翻訳結果画面例を示す図

実施例

0011

(実施の形態1の内容に至る経緯)
例えば、外国人等の旅行者旅行先で自己所持するスマートフォン等の携帯端末を用いて、その旅行者が内容確認したい文字部分が含まれる被写体を撮像することがある。携帯端末は、外国人等の操作により、その撮像画像中に含まれる文字部分を文字認識し、その文字認識結果を予めインストールされた翻訳アプリケーションで自己の母国語に変換する。これにより、外国人等の旅行者は、携帯端末により撮像された任意の撮像画像に含まれる文字部分の内容確認を行える。

0012

ところが、前述したように、撮像画像中に光反射画像領域が存在すると、その文字部分は文字認識不可となる。従って、携帯端末に表示される任意の撮像画像に対応する文字部分の翻訳結果に文字認識不可領域(つまり、光反射画像領域)が検知された場合には、その領域が撮像画像中に明示されれば、外国人等の旅行者にとっては親切な翻訳等の各種アプリケーションの提供が実現可能となると考えられる。

0013

そこで、以下の実施の形態1では、任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保する学習処理方法、サーバ装置及び反射検知システムの例を説明する。

0014

以下、適宜図面を参照しながら、本開示に係る学習処理方法、サーバ装置及び反射検知システムを具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

0015

図1は、実施の形態1に係る反射検知システム5のハードウェア構成を示すブロック図である。反射検知システム5は、AI(artificial intelligence)サーバ10と、スマートフォン30と、翻訳サーバ50とを含む構成である。AI(artificial intelligence)サーバ10と、スマートフォン30と、翻訳サーバ50とは、ネットワーク70を介して互いに通信可能に接続される、

0016

サーバ装置の一例としてのAIサーバ10は、プロセッサ11と、AI処理部13と、メモリ15と、ストレージ17と、通信部18とを含む構成である。

0017

プロセッサ11は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)もしくはFPGA(Field Programmable Gate Array)を用いて構成される。プロセッサ11は、AIサーバ10の動作を司るコントローラとして機能し、AIサーバ10の各部の動作を全体的に統括するための制御処理、AIサーバ10の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。プロセッサ11は、メモリ15に記憶されたプログラム及びデータに従って動作する。プロセッサ11は、動作時にメモリ15を使用し、プロセッサ11が生成又は取得したデータ又は情報をメモリ15に一時的に保存してよい。

0018

AI処理部13は、例えばスマートフォン30から送信された任意の撮像画像に対するリアルタイム画像処理(例えば後述する撮像画像中における光の反射箇所の検出並びに学習済みモデルを用いた出力画像の生成)に適したGPU(Graphics Processing Unit)を用いて構成されるプロセッサである。AI処理部13は、後述する元画像と学習画像とを用いて、CycleGAN技術を用いた機械学習を実行して学習済みモデルを生成し、ストレージ17に学習済みモデルのデータ(つまり、学習済みモデルデータ)を記憶する。AI処理部13は、メモリ13zを有し、例えばスマートフォン30から送信された任意の撮像画像における光の反射箇所の検知処理の実行時に、ストレージ17に記憶された学習済みモデルデータを読み出し、学習済みモデルをメモリ13zに一時的に展開して記憶する。AI処理部13は、スマートフォン30で撮像された任意の撮像画像を入力し、学習済みモデルの一部の機能(例えば、元画像からその元画像に類似する画像を生成する偽画像生成器の機能、生成した偽画像の真偽を評価する偽画像判別器の機能、詳細は後述参照)を用いて、検出された光の反射箇所の画像領域を含む可視化画像を出力する。

0019

メモリ15は、例えばRAM(Random Access Memory)とROM(Read Only Memory)とを用いて構成され、AIサーバ10の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えばAIサーバ10の動作時に使用されるワークメモリである。ROMは、例えばAIサーバ10を制御するためのプログラム及びデータを予め記憶して保持する。

0020

ストレージ17は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)を用いて構成された記録装置である。ストレージ17は、例えばプロセッサ11もしくはAI処理部13が生成又は取得したデータ又は情報を記憶する。ストレージ17は、AI処理部13により生成された学習済みモデルデータを記憶する(図1参照)。

0021

通信部18は、例えば有線LAN(Local Area Network)や無線LAN等を用いてネットワーク70に接続される。通信部18は、ネットワーク70に接続された翻訳サーバ50との間で通信可能であるとともに、外国人等の旅行者(ユーザの一例)が携帯して所持するスマートフォン30との間で通信可能である。通信部18は、スマートフォン30から送信された任意の撮像画像(つまり、前述した旅行者が内容確認したい文字部分を有する任意の被写体の撮像画像)を受信する。通信部18は、光の反射箇所の検知処理の結果として生成される出力画像(後述参照)をスマートフォン30翻訳サーバ50に送信する。

0022

スマートフォン30は、プロセッサ31と、撮像部32と、表示部33と、入力部34と、通信部35と、メモリ36とを含む構成である。スマートフォン30は、例えば外国人等の旅行者により携帯され、使用時に把持される。スマートフォン30は、例えば文字認識処理を実行可能なアプリケーション(文字認識アプリケーション)と、翻訳処理を実行可能なアプリケーション(翻訳アプリケーション)とを少なくとも実行可能に予めインストールされている。

0023

プロセッサ31は、例えばCPU、MPU、DSPもしくはFPGAを用いて構成される。プロセッサ31は、スマートフォン30の動作を司るコントローラとして機能し、スマートフォン30の各部の動作を全体的に統括するための制御処理、スマートフォン30の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。プロセッサ31は、メモリ36に記憶されたプログラム及びデータに従って動作する。プロセッサ31は、動作時にメモリ36を使用し、プロセッサ31が生成又は取得したデータ又は情報をメモリ36に一時的に保存してよい。

0024

撮像部32は、集光用のレンズと、CCD(Charge Coupled Device)型イメージセンサもしくはCMOS(Complementary Metal Oxide Semiconductor)型イメージセンサ等の固体撮像素子とを有する構成である。撮像部32は、スマートフォン30の電源オンである間、固体撮像素子による撮像に基づいて得られた被写体の撮像映像のデータを常時プロセッサ31に出力する。被写体は、例えば、外国人等の旅行者が内容確認したい文字部分を含む看板もしくは広告等の情報伝達媒体であるが、この情報伝達媒体に限定されないことは言うまでもない。

0025

表示部33は、例えばLCD(Liquid Crystal Display)もしくは有機EL(Electroluminescence)を用いて構成され、スマートフォン30の現在の状態を報知する以外に、各種の画面(例えば、撮像部32による撮像時の撮影画面(いわゆる、プレビュー画面)、後述する確認画面、翻訳結果を示す画面等)を表示する。

0026

入力部34は、ユーザ(例えば前述した外国人等の旅行者)による各種の入力操作受け付けて、その入力操作に応じた信号をプロセッサ31に出力する。表示部33及び入力部34は、公知のタッチパネルTPで構成されてよい。

0027

通信部35は、ネットワーク70に接続されたAIサーバ10及び翻訳サーバ50との間で無線通信可能な通信回路を用いて構成される。通信部35は、図示しないモバイル通信網(例えば4G(第4世代移動通信システム)、5G(第5世代移動通信システム))を介してネットワーク70に接続される。通信部35は、ネットワーク70に接続されたAIサーバ10及び翻訳サーバ50との間で通信可能である。通信部35は、撮像部32により撮像された任意の撮像画像のデータをAIサーバ10に送信する。

0028

メモリ36は、例えばRAMとROMとを用いて構成され、スマートフォン30の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えばスマートフォン30の動作時に使用されるワークメモリである。ROMは、例えばスマートフォン30を制御するためのプログラム及びデータを予め記憶して保持する。

0029

なお、スマートフォン30は、撮像機能及び通信機能を有する機器の一例であり、スマートフォンに限らず、ネットワーク70に接続可能なカメラタブレット端末ノートPC、監視カメラ等であってもよい。

0030

翻訳サーバ50は、プロセッサ51と、メモリ52と、ストレージ53と、通信部54とを含む構成である。翻訳サーバ50は、例えばネットワーク70に接続されたクラウドサーバであってよいし、例えばAIサーバ10が配置される運営業者事業所(図示略)に設置されるオンプレミスサーバとして構成されてもよい。翻訳サーバ50は、スマートフォン30もしくはAIサーバ10から送信された撮像画像もしくは出力画像中の文字部分に相当する文字情報を所定の言語(例えば、スマートフォン30のユーザにより予め設定された言語)に翻訳処理し、その翻訳処理結果に相当する文字情報をスマートフォン30に返信する。

0031

プロセッサ51は、例えばCPU、MPU、DSPもしくはFPGAを用いて構成される。プロセッサ51は、翻訳サーバ50の動作を司るコントローラとして機能し、翻訳サーバ50の各部の動作を全体的に統括するための制御処理、翻訳サーバ50の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。プロセッサ51は、メモリ52に記憶されたプログラム及びデータに従って動作する。プロセッサ51は、動作時にメモリ52を使用し、プロセッサ51が生成又は取得したデータ又は情報をメモリ52に一時的に保存してよい。

0032

メモリ52は、例えばRAMとROMとを用いて構成され、翻訳サーバ50の動作の実行に必要なプログラムやデータ、更には、動作中に生成されたデータ又は情報を一時的に保持する。RAMは、例えば翻訳サーバ50の動作時に使用されるワークメモリである。ROMは、例えば翻訳サーバ50を制御するためのプログラム及びデータを予め記憶して保持する。

0033

ストレージ53は、例えばHDD又はSSDを用いて構成された記録装置である。ストレージ53は、例えばプロセッサ51が生成又は取得したデータ又は情報を記憶する。また、ストレージ53は、翻訳処理の際に参照される、国毎の公用語である言語に対応する辞書データが予め登録された辞書DB53zを含む。なお、翻訳サーバ50は、ネットワーク70もしくは他のネットワーク(図示略)との間で接続された専用の辞書データ管理サーバ(図示略)との間で定期的に通信することで、辞書DB53zの内容を定期的に更新してよい。

0034

通信部54は、有線LANや無線LAN等を用いてネットワーク70に接続される。通信部54は、ネットワーク70に接続されたAIサーバ10及びスマートフォン30と通信可能である。通信部54は、スマートフォン30から文字認識処理結果の文字情報を受信すると、その受信された文字情報をスマートフォン30のユーザの公用語に対応するように予め設定された又はその都度設定された所定の言語に翻訳処理し、その翻訳結果の文字情報をスマートフォン30に返信する。

0035

なお、実施の形態1では、文字認識結果の文字情報を、翻訳サーバ50が翻訳する場合を示したが、スマートフォン30が、インストール済みの翻訳アプリケーションを起動し、文字認識結果の文字情報を所定の言語に翻訳してもよい。

0036

次に、上述した実施の形態1に係る反射検知システム5の動作について、図面を参照して説明する。

0037

実施の形態1に係る反射検知システム5は、文字部分が掲載された広告等をスマートフォン30により撮像された撮像画像に含まれる文字情報を文字認識処理し、その文字認識処理された文字情報を所定の言語に翻訳する。反射検知システム5は、スマートフォン30により撮像された撮像画像中に照明光や外光等の光の反射がある場合に、この光の反射がある個所を含む領域(以下、「反射領域」と称する場合がある)を検出し、反射領域以外の領域より一層識別可能な反射領域を含む可視光画像(以下、「出力画像」と称する場合がある)を出力する。実施の形態1では、AIサーバ10は、AIモデルとして近年注目されているCycleGAN(サイクルガン)を用いて機械学習を行い、スマートフォン30により撮像される任意の被写体の撮像画像に含まれる反射領域(上述参照)を検出するためのAIモデル(つまり、学習済みモデル)を生成する。CycleGANによる機械学習では、元画像である撮像画像とその元画像に基づいて生成される学習画像との両方が用いられる。

0038

(学習画像の生成)
先ず始めに、AIサーバ10による学習画像の生成について説明する。図2は、元画像Aの準備及び前処理の動作手順の一例を説明するフローチャートである。ユーザ(例えば、外国人等の旅行者。以下同様とする。)は、スマートフォン30を用いて広告等の印刷物(被写体の一例)を撮像し、撮像画像である元画像(図6の元画像A)を準備する(S1)。実施の形態1の説明のために、元画像Aには、外光や照明光等による光の反射領域が含まれるとしている。

0039

ユーザは、元画像Aに対し所定の前処理を行い、前処理後の画像B0を取得する(S2)。元画像Aに対する所定の前処理は、例えばスマートフォン30もしくはPC(図示略9にインストールされた画像編集系のアプリケーション(後述参照)において、ユーザの操作により、撮像画像の一部に映る光の反射領域を所定の色で塗り潰す処理である。例えば、スマートフォン30の画面に表示された撮像画像に対し、ユーザは、画像編集系のアプリケーション(例えば、描画ツール又は画像処理ソフト)を用いて、反射領域を赤色で塗り潰す。前処理後の画像(つまり、図6の前処理後の画像B0)には、赤色で塗り潰されたマーカ領域mkが描画される。スマートフォン30は、前処理後の画像B0のデータをAIサーバ10に送信する。AIサーバ10は、スマートフォン30から受信した前処理後の画像B0のデータをストレージ17に記憶する。

0040

AIサーバ10は、前処理後の画像B0を用いて、複数の学習画像を生成する。ここでは、AIサーバ10が3枚の学習画像B1,B2,B3を生成する例を説明するが、任意の枚数の学習画像を生成してもよい。多くの学習画像を用意することで、AIサーバ10における学習済みモデルを生成する処理(言い換えると、学習済みモデルに用いられる学習パラメータの更新)の精度(つまり、学習精度)が向上する。

0041

図3は、学習画像B1を生成する動作手順の一例を説明するフローチャートである。図3に示す処理は、例えばAIサーバ10のAI処理部13により実行される。AIサーバ10のAI処理部13は、ストレージ17に記憶された前処理後の画像B0から1画素の画素値を取得する(S11)。AI処理部13は、1画素の画素値の取得の際に、例えば元画像Aと同一サイズを有する前処理後の画像B0に対して2次元座標(つまり、XY座標)を設定し、X方向及びY方向に画素単位取得対象の画素を移動しながら該当する画素の画素値を取得する。

0042

AI処理部13は、取得された1画素の画素値に基づいて、その画素が塗り潰された画素であるか否かを判別する(S12)。塗り潰された画素である場合(S12、YES)、AI処理部13は、この画素の画素値を所定の色に設定(例えば赤色で塗り潰すように設定)し、反射領域の出力画素(つまり、図3により生成される学習画像B1内の対応する画素)と設定する(S13)。

0043

一方、取得された1画素が塗り潰された画素でない場合(S12、NO)、AI処理部13は、この画素を白色に設定(例えば白色で塗り潰すように設定)し、非反射領域の出力画素(前述参照)とする(S14)。

0044

ステップS13又はステップS14の処理後、AI処理部13は、ステップS11において取得された1画素が終端の画素であるか(つまり、前処理後の画像B0の終端の画素に到達したか)否かを判別する(S15)。終端の画素でない場合(S15、NO)、AI処理部13は、前処理後の画像B0に対し、取得対象の画素の位置をX方向又はY方向に1画素分移動する(S16)。AI処理部13の処理はステップS11に戻り、ステップS16において移動された次の1画素を対象として取得して同様の処理を繰り返す。

0045

一方、終端の画素である場合(S15、YES)、AI処理部13は、ステップS11,S12,S13,S14,S16,S15の一連の処理により得られた画像を学習画像B1(図6参照)として生成してメモリ13zに保存する(S17)。この後、AI処理部13は、学習画像B1の生成処理を終了する。

0046

図4は、学習画像B2を生成する動作手順の一例を説明するフローチャートである。図4に示す処理は、例えばAIサーバ10のAI処理部13により実行される。AIサーバ10のAI処理部13は、元画像Aから1画素の画素値を取得する(S21)。AI処理部13は、前処理後の画像B0から、元画像Aの1画素に対応する(つまり、XY座標が同じである)1画素の画素値を取得する(S22)。AI処理部13は、その取得された1画素の画素値に基づいて、ステップS22において取得された前処理後の画像B0の1画素が、塗り潰された画素であるか(つまり、光の反射領域にある画素であるか)否かを判別する(S23)。

0047

塗り潰された画素である場合(S23、YES)、AI処理部13は、元画像Aの1画素値から輝度値を計算する(S24)。例えば、AI処理部13は、赤色成分をr、緑色成分をg、青色成分をb、輝度値yとすると、「y=0.299r+0.587g+0.114b」の式により輝度値yを算出可能であり、以下同様である。AI処理部13は、元画像Aの1画素に対応する出力画素(つまり、図4に示す動作により生成される学習画像B2内の対応する画素)のR画素に、ステップS24で計算された輝度値を設定する(S25)。AI処理部13は、出力画素のG,B画素にそれぞれ輝度値0を設定する(S26)。

0048

一方、ステップS22において取得された前処理後の画像B0の1画素が塗り潰された画素でない場合(S23、NO)、AI処理部13は、元画像Aの1画素の画素値を出力画素(前述参照)の画素値に設定する(S27)。

0049

ステップS26又はステップS27の処理後、AI処理部13は、ステップS21において取得された画素が終端の画素であるか(つまり、元画像A0の終端の画素に到達したか)否かを判別する(S28)。終端の画素でない場合(S28、NO)、AI処理部13は、元画像Aに対し、取得対象の画素の位置をX方向又はY方向に1画素分移動する(S29)。AI処理部13の処理はステップS21に戻り、ステップS29において移動された次の1画素を対象として取得して同様の処理を繰り返す。

0050

一方、終端の画素である場合(S28、YES)、AI処理部13は、ステップS21,S22,S23,S24,S25,S26,S27,S28の一連の処理により得られた画像を学習画像B2(図6参照)として生成してメモリ13zに保存する(S30)。この後、AI処理部13は学習画像B2の生成処理を終了する。

0051

図5は、学習画像B3を生成する動作手順の一例を説明するフローチャートである。図5に示す処理は、例えばAIサーバ10のAI処理部13により実行される。AIサーバ10のAI処理部13は、元画像Aから1画素の画素値を取得する(S31)。AI処理部13は、前処理後の画像B0から、元画像Aの1画素に対応する(つまり、XY座標が同じである)1画素の画素値を取得する(S32)。AI処理部13は、ステップS31において取得された元画像Aの1画素の画素値から、例えば上述した算出式を用いて輝度値を計算する(S33)。

0052

AI処理部13は、その取得された1画素の画素値に基づいて、ステップS32において取得された前処理後の画像B0の1画素が、塗り潰された画素であるか(つまり、光の反射領域にある画素であるか)否かを判別する(S34)。塗り潰された画素である場合(S34、YES)、AI処理部13は、元画像Aの1画素に対応する出力画素(つまり、図5に示す動作により生成される学習画像B3内の対応する画素)のR画素の輝度値を、ステップS33において計算された輝度値に設定する(S35)。AI処理部13は、出力画素(前述参照)のG,B画素に、それぞれ輝度値0を設定する(S36)。

0053

一方、ステップS32において取得された前処理後の画像B0の1画素が塗り潰された画素でない場合(S34、NO)、AI処理部13は、出力画素(前述参照)のR,G,B画素のそれぞれに、ステップS33において計算された輝度値を設定する(S37)。

0054

ステップS36又はステップS37の処理後、AI処理部13は、ステップS31において取得された画素が終端の画素であるか(つまり、元画像Aの終端の画素に到達したか)否かを判別する(S38)。終端の画素でない場合(S38、NO)、AI処理部13は、元画像Aに対し、取得対象の画素の位置をX方向又はY方向に1画素分移動する(S39)。AI処理部13の処理はステップS31に戻り、ステップS39において移動された次の1画素を対象として取得して同様の処理を繰り返す。

0055

一方、終端の画素である場合(S39、YES)、AI処理部13は、ステップS31,S32,S33,S34,S35,S36,S37,S38の一連の処理後の画像を学習画像B3(図6参照)として生成してメモリ13zに保存する(S40)。この後、AI処理部13は学習画像B3の生成処理を終了する。

0056

図6は、元画像A、前処理後の画像B0、学習画像B1,B2,B3を示す図である。元画像Aは、広告や飲食店メニュー等を被写体としてユーザの操作に基づいてスマートフォン30により撮像された撮像画像である。元画像Aには、照明光や外光等の光による反射領域g1が存在し、反射領域g1の近傍では、文字認識が不可である(言い換えると、文字情報が判読できない)。

0057

前処理後の画像B0は、元画像Aに対して前処理(図2参照)を行った画像である。前処理後の画像B0は、ユーザが描画ツールや画像処理ソフトを使用して反射領域を赤色で塗り潰したマーカ領域mkが含まれる。

0058

学習画像B1は、前処理後の画像B0に対し、マーカ領域mkを所定の色(ここでは、赤色)に設定し、その他の領域を背景色(白色)に設定した画像である。なお、マーカ領域mkに設定される所定の色は、赤色でなく、青色等の任意の色でもよい。また、背景色は、白色に限らず、緑色や青色等、撮像画像にあまり含まれない色でもよい。

0059

学習画像B2は、元画像Aから輝度値を算出し、マーカ領域mkでR,G,B成分のうち、R成分を算出した輝度値に置換し、G,B成分を輝度値0に設定し、その他の領域を元画像Aの画素値にした画像である。

0060

学習画像B3は、元画像Aから輝度値を算出した後、マーカ領域mkでR成分を輝度値に置換し、その他の領域でR,G,B成分を輝度値に置換した画像である。

0061

学習済モデルを生成するための機械学習)
図7は、AIサーバ10の学習の動作手順の一例を説明するフローチャートである。図7に示す処理は、例えばAIサーバ10のAI処理部13により実行される。AIサーバ10のAI処理部13は、AIモデル(例えば前述したCycleGAN)において使用されるパラメータ(以下、「学習パラメータ」という)を設定する(S51)。

0062

学習パラメータは、例えばAIモデルを形成するニューラルネットワークを学習する際のLearning Rate(つまり、学習率)である。実施の形態1の機械学習では、例えばCycleGANを用いたAIモデルの学習パラメータを最適化する。CycleGANを用いたAIモデルは、例えば、B’生成器、偽B評価器、B−B’類似度評価器、A’生成器、偽A評価器、及びA−A’類似度評価器を含む。また、CycleGANを用いたAIモデルでは、元画像A、元画像Aの偽画像A’、学習画像B、学習画像Bの偽画像B’が用いられる。このAIモデルでは、B’生成器の学習パラメータが最適化される。B’生成器は、元画像Aあるいは偽画像A’から偽画像B’を生成する。また、この学習モデルでは、A’生成器の学習パラメータが最適化される。A’生成器は、学習画像Bあるいは偽画像B’から偽画像A’を生成する。学習画像Bには、図6に示した学習画像B1,B2,B3が用いられる。

0063

AI処理部13は、元画像Aから偽画像B’を生成する(S52)。つまり、AI処理部13は、AIモデルのB’生成器(偽画像生成器)に元画像Aを入力して偽画像B’を生成する。そして、AI処理部13は、偽画像B’の生成精度を評価する(S53)。この評価の結果に基づいて、B’生成器の精度指標となる生成精度指標KB1が更新される。AI処理部13は、偽B評価器(偽画像判別器)により、B’生成器で生成した偽画像B’の真偽を評価する(S54)。つまり、偽B評価器が、B’生成器で生成された偽画像B’の真偽を判定する。この判定の結果、偽B評価器の精度指標となる判別精度指標KB2が更新される。

0064

AI処理部13は、偽画像B’から偽画像A’を生成する(S55)。つまり、AI処理部13は、AIモデルのA’生成器に偽画像B’を入力して偽画像A’を生成する。AI処理部13は、生成した偽画像A’の類似度を評価する(S56)。つまり、A−A’類似度評価器は、偽画像A’と元画像Aの類似度を計算する。類似度の計算結果、元画像Aと再構築された偽画像A’の再構築精度指標KA3が更新される。

0065

また、AI処理部13は、学習画像Bから偽画像A’を生成する(S57)。つまり、AI処理部13は、A’生成器(偽画像生成器)に学習画像Bを入力して偽画像A’を生成する。そして、AI処理部13は、偽画像A’の生成精度を評価する(S58)。この評価の結果に基づいて、A’生成器の精度指標となる生成精度指標KA1が更新される。AI処理部13は、偽A評価器(偽画像判別器)によりA‘生成器で生成した偽画像A’の真偽を評価する(S59)。つまり、偽A評価器は、A’生成器で生成された偽画像A’の真偽を判定する。この判定の結果、偽B評価器の精度指標となる判別精度指標KA2が更新される。

0066

AI処理部13は、偽画像A’から偽画像B’を生成する(S60)。つまり、AI処理部13は、B’生成器に偽画像A’を入力して偽画像B’を生成する。AI処理部13は、生成した偽画像B’の類似度を評価する(S61)。つまり、B−B’類似度評価器は、偽画像B’と学習画像Bの類似度を計算する。類似度の計算結果、元画像Bと再構築された偽画像B’の再構築精度指標KB3が更新される。

0067

AI処理部13は、上述した生成精度指標KA1、判別精度指標KA2、再構築精度指標KA3、生成精度指標KB1、判別精度指標KB2、及び再構築精度指標KB3を基に、AIモデルの学習パラメータ(例えば、B’生成器の学習パラメータとA’生成器の学習パラメータ)を更新する(S62)。

0068

AI処理部13は、全ての元画像Aと学習画像B(例えば、学習画像B1,B2,B3)を用いて、上記ステップS52〜S62の学習処理を行ったか否かを判別する(S63)。つまり、AI処理部13は、全ての元画像Aと学習画像Bのデータが学習済となったか否かを判別する。なお、図6に示した元画像Aと学習画像B(B1,B2,B3)は、一例であり、多くの元画像Aと学習画像Bを用いることが学習精度の向上のためには望ましい。

0069

学習済でないデータがある場合(S63、NO)、AI処理部13は、次のデータを取得する(S64)。AI処理部13の処理はステップS52に戻り、同様の処理(つまり、ステップS52,S53,S54,S55,S56,S57,S58,S59,S60、S61,S62,S63,S64の一連の処理)を繰り返す。

0070

一方、全てのデータが学習済となった場合(S63、YES)、AI処理部13は、学習済みモデル(つまり、学習済みのCycleGANを用いたAIモデル)を生成し、生成した学習済みモデルのデータをストレージ17に保存する(S65)。この後、AI処理部13は、図7に示す学習処理を終了する。

0071

図8は、AIサーバ10の反射箇所の検出の動作手順の一例を説明するフローチャートである。図8に示す処理は、例えばAIサーバ10のAI処理部13により実行される。AIサーバ10のAI処理部13は、スマートフォン30により撮像された撮像画像を検出対象画像として取得し、メモリ13zに記憶する(S71)。AI処理部13は、ストレージ17に保存された学習済みモデルデータを読み出し、AIネットワークとしてメモリ13zに展開して取り込む(S72)。

0072

AI処理部13は、学習済みモデルの一部であるB’´生成器に対し、検出対象画像(撮像画像)を入力し、反射領域が可視化された画像を出力する(S73)。反射領域が可視化された画像は、例えばAI処理部13における学習済みモデル(AIモデル)を用いた処理実行時に反射領域が赤く描画され、その他の領域がグレーで描画された画像である。

0073

AI処理部13は、画像の色成分の強度比を基に、非反射領域か反射領域かを判断し、反射領域情報を取得する(S74)。非反射領域の画像は、後述するように、文字認識処理及び翻訳処理のそれぞれの対象とされる。反射領域の画像は、文字認識処理及び翻訳処理の対象外とされる。この後、AI処理部13は、図8に示すAI反射検出処理を終了する。

0074

(スマートフォンの翻訳動作)
図9は、スマートフォン30の翻訳動作手順の一例を説明するフローチャートである。図9に示す処理は、例えばスマートフォン30のプロセッサ31により主に実行される。スマートフォン30のプロセッサ31は、ユーザの操作を受け付けると、文字認識・翻訳アプリを起動する(S81)。ユーザが広告等の被写体に対し、シャッタ操作(つまり、撮像開始操作)を行うと、撮像部32は、被写体を撮像する。プロセッサ31は、撮像部32で撮像された撮像画像GZ1(図10参照)を取得し、メモリ36に記憶する(S82)。通信部35は、メモリ36に記憶された撮像画像GZ1を、ネットワーク70を介して、AIサーバ10に送信する(S83)。

0075

図10は、撮像画像GZ1が表示されたスマートフォン30の撮影画面GM1の一例を示す図である。撮像画像GZ1内には、例えば2箇所に照明光による反射領域g1が現れたとする。また、撮影画面GM1には、撮像画像GZ1に矩形窓wk1が重畳して表示される。撮影画面GM1には、矩形窓wk1に隠れて表示されないが、撮像画像GZ1には、コーヒー紅茶の文字情報が含まれる(図12B参照)。また、撮影画面GM1には、カメラのシャッタタン(つまり、撮像開始ボタン)を示すシャッタアイコンstが表示される。

0076

AIサーバ10の通信部18は、スマートフォン30から撮像画像を受信する。AI処理部13は、受信した撮像画像に対し、図8に示したAI反射検出処理を行って反射領域情報を取得する。通信部18は、AI処理部13で得られた反射領域情報をスマートフォン30に送信する。

0077

スマートフォン30の通信部35は、ネットワーク70を介して、AIサーバ10から反射領域情報を受信する(S84)。プロセッサ31は、受信された反射領域情報を基に、メモリ36に記憶された撮像画像に対し、特定の色(例えば赤色)で表された反射位置mcを重畳させ、反射位置mcが重畳した重畳画像GZ2を生成し、表示部33に表示する(S85)。

0078

図11は、重畳画像GZ2が表示されたスマートフォン30の確認画面GM2の一例を示す図である。プロセッサ31は、反射位置が重畳した重畳画像GZ2に対し、文字認識を行う(S86)。プロセッサ31は、文字認識処理の結果をメモリ36に記憶する。認識された文字には、文字認識できたことを表すマーキングとして文字掛けhmが施される。文字掛けhmが施されると、表示部33の画面に表示される文字の表示形態が変化する。例えば、文字の色が文字認識前の黒色から文字を囲むグレーに変化する。

0079

また、プロセッサ31は、確認画面GM2の下方に矩形窓wk2を表示し、矩形窓wk2に翻訳の有無を確認するメッセージを表示する。ここでは、タッチパネルTPの画面の下方に設定された表示領域には、「Translate the display. Is it OK?」のメッセージが表示される。また、タッチパネルTPの画面の下方には、入力部34としてYESボタン34z及びNOボタン34yが配置される。ユーザは、文字認識の結果、翻訳を行う場合、YESボタン34zを押下する。また、ユーザは、翻訳を行わない場合、NOボタン34yを押下する。

0080

プロセッサ31は、ユーザの操作を受け付け、翻訳を開始するか否かを判別する(S87)。翻訳を開始する場合、通信部35は、プロセッサの指示に従い、メモリ36に文字認識の結果得られた文字情報を、ネットワーク70に接続された翻訳サーバ50に送信する。翻訳サーバ50の通信部54は、スマートフォン30から送信された文字情報を、受信する。翻訳サーバ50のプロセッサ51は、ストレージ53の辞書DB53zを参照し、文字情報を予め指定された国の言語(例えば、外国人自身の母国語)で翻訳処理する。通信部54は、翻訳処理の結果をスマートフォン30に送信する。

0081

スマートフォン30の通信部35は、翻訳サーバ50から翻訳結果を受信する。プロセッサ31は、翻訳結果を表示部33の画面に表示する(S88)。なお、ここでは、翻訳サーバが翻訳を行ったが、スマートフォン30がインストール済みの翻訳アプリを起動し、自装置で翻訳を行ってもよい。

0082

図12Aは、スマートフォン30に表示された翻訳結果画面GM3の一例を示す図である。翻訳結果画面GM3の下方に配置された、矩形窓wk3で囲まれた領域には、翻訳結果が表示される。ここでは、文字情報である「カレー」、「烏龍」に対し、それぞれ翻訳結果である「Curry」、「Oolong」が表示される。また、反射位置mcが重畳され、文字認識されなかった「たこ焼き」、「焼きそば」の画像に対しては、翻訳が行われないので、何も標示されない。なお、ここでは、日本語から英語へと翻訳されたが、翻訳前の言語及び翻訳後の言語は、日本語、英語、中国後、ドイツ語、フランス語等、任意の組み合わせが可能である。翻訳アプリは、スマートフォン30に設定された所有者国籍を判別し、該当する国の言語で翻訳を行う。

0083

ユーザは、タッチパネルTPに対し、所定の操作を行うことで、翻訳結果を保存可能である。所定の操作として、例えば、翻訳結果画面GM3に表示された矩形窓wk3で囲まれた領域をダブルタップ操作することが挙げられる。

0084

プロセッサ31は、ユーザの操作を受け付け、翻訳結果を保存するか否かを判別する(S89)。翻訳結果を保存する場合、プロセッサ31は、メモリ36に翻訳結果を保存する(S90)。プロセッサ31は、アプリ終了操作が行われたか否かを判別する(S91)。アプリ終了操作が行われない場合、ステップS82の処理に戻る。一方、アプリ終了操作が行われた場合、あるいはステップS89で翻訳結果を保存しない場合、プロセッサ31は、そのまま本処理を終了する。

0085

(他の翻訳結果画面)
図12Bは、スマートフォン30に表示された他の翻訳結果画面GM4の一例を示す図である。この翻訳結果画面GM4には、矩形窓が表示されず、文字認識結果画像GZ4と、翻訳結果画像GZ5とが対比して表示される。文字認識結果画像GZ4には、文字認識された文字情報である、「カレー」、「烏龍茶」、「コーヒー」、「紅茶」が含まれる。翻訳結果画像GZ5には、翻訳された文字情報である、「Curry」、「Oolong」、「Coffee」、「Black tea」が含まれる。

0086

(スマートフォンの他の画面表示例)
別の利用例として、ユーザが、スマートフォン30で食事メニューを撮像する場合を示す。図13は、他の撮像画像GZ6が表示されたスマートフォン30の撮影画面GM6の一例を示す図である。図10に示した撮影画面GM1と同様、撮影画面GM6には、撮像画像GZ6、矩形窓wk6、及びシャッタアイコンstが表示される。撮像画像GZ6は、お食事メニュー、チキンカレー、ポークカレー、ビーフカレードリングメニュー等の文字情報を含む。チキンカレー近傍の画像には、光による反射領域g2がチキンカレーの「レー」部分と重畳して存在する。

0087

図14Aは、一部文字認識可能な範囲を含む重畳画像GZ7が表示されたスマートフォン30の確認画面GM7の一例を示す図である。撮像画像GZ6に対し文字認識を行った結果、確認画面GM7では、お食事メニュー、ポークカレー、ビーフカレー、ドリングメニューが文字認識された。認識された文字には、文字認識できたことを表すマーキングとして文字掛けhmが施される。前述したように、文字掛けhmが施されると、表示部33の画面に表示される文字の表示形態が変化する。

0088

一方、チキンカレーを含む領域には、反射位置mcが重畳表示される。この領域では、反射位置mcが近傍に重畳表示されている。また、チキンカレー全体ではないが、その一部が文字認識可能である、一部文字認識可能な範囲が、マーカmrで識別可能に表示される。ここでは、一部文字認識可能な範囲は、チキンカレーのうちの「チキンカ」の部分である。「チキンカ」の範囲は、マーカmrとして、例えばオレンジ色の網掛け(図中、ハッチ表示)が施される。また、「チキンカ」の部分を挟むように、左右のカーソルksがタッチパネルTPに表示される。ユーザが、例えば指でカーソルksをドラッグ操作することで、一部文字認識可能な範囲が変更される。

0089

図14Bは、一部文字認識可能な範囲が変更された確認画面GM8の一例を示す図である。ユーザは、「チキンカ」を翻訳しても、誤訳すると判断し、指でカーソルksを図中左に1文字移動させる。一部文字認識可能な範囲は、「チキン」の部分に変化する。これにより、チキンを翻訳した場合、チキンカレーが連想される。

0090

図14A及び図14Bには、図11と同様、確認画面GM7,GM8の下方に矩形窓wk7,wk8がそれぞれ表示され、翻訳の有無を確認するメッセージが表示される。ユーザが、タッチパネルTPの下方に表示されたYESボタン34zを押下すると、確認画面GM8に対し、翻訳が行われる。

0091

図15Aは、スマートフォン30に表示された翻訳結果画面GM9の一例を示す図である。翻訳結果画面GM9の下方には、矩形窓wk9で囲まれた領域には、翻訳結果が表示される。ここでは、文字情報である、お食事メニュー、チキン、ポークカレー、ビーフカレー、ドリングメニューに対し、それぞれ翻訳結果である「food menu」、「chiken」、「pork curry」、「beef curry」、「drink menu」が表示される。

0092

(他の翻訳結果画面)
図15Bは、スマートフォン30に表示された他の翻訳結果画面GM10の一例を示す図である。翻訳結果画面GM10の下方に表示された矩形窓wk10で囲まれた領域は、空白である。翻訳結果画面GM10には、文字情報である、お食事メニュー、チキンカレー、ポークカレー、ビーフカレー、ドリングメニューを上書きして、翻訳結果である「food menu」、「chiken」、「pork curry」、「beef curry」、「drink menu」が表示される。ただし、反射位置mcの近傍の領域は、翻訳されず、そのまま表示される。

0093

このように、スマートフォン30で撮像された撮像画像に反射位置が含まれていても、ユーザが判読可能なように、翻訳結果が表示される。

0094

以上により、実施の形態1に係るAIサーバ10における学習処理方法は、光の反射位置(反射箇所の一例)を示す反射領域g1(反射画像領域の一例)を含む元画像A(学習処理対象の撮像画像の一例)に基づいて、元画像Aの偽画像B’(第1類似画像の一例)を生成するステップを有する。また、学習処理方法は、元画像A(撮像画像の一例)中の反射領域g1が他の画像領域と識別可能に生成された学習画像B1,B2,B3と偽画像B’との比較に応じて、偽画像B’の真偽性を評価するステップを有する。また、学習処理方法は、偽画像B’に基づいて、元画像Aの偽画像A’(第2類似画像の一例)を生成するステップを有する。また、学習処理方法は、偽画像A’と元画像Aとの比較に応じて、偽画像A’の真偽性を評価するステップを有する。また、学習処理方法は、偽画像B’及び偽画像A’のそれぞれの真偽性の評価結果に基づいて、任意の撮像画像における反射領域g1の検知に用いる学習済みモデル(反射検知モデルの一例)を生成するステップを有する。

0095

これにより、AIサーバ10は、スマートフォン30から任意の撮像画像が入力された場合でも、その撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、任意の撮像画像において検知される反射画像領域の信頼性を的確に担保できる。

0096

また、学習処理方法において、学習済みモデルを生成するステップは、偽画像B’及び偽画像A’のそれぞれの真偽性の評価結果に基づいて、学習済みモデルが使用する学習パラメータ(パラメータの一例)を更新するステップと、更新された学習パラメータを用いて学習済みモデルを生成するステップとを含む。これにより、AIサーバ10は、偽画像と元画像との真偽性の評価結果に基づいて学習パラメータの更新された高精度な学習済みモデルを生成でき、学習済みモデルの学習効果を向上できる。

0097

また、学習処理方法において、偽画像B’´を生成するステップは、元画像A(学習処理対象の撮像画像の一例)が複数存在する場合に、それぞれの元画像A毎に対応する偽画像B’を生成するステップを含む。これにより、AIサーバ10は、複数の異なる元画像Aに対応して複数の偽画像を生成できるので、元画像A毎にそれぞれ学習パラメータを更新できるので、学習済みモデルの信頼性の精度を一層向上できる。

0098

また、学習処理方法は、元画像A(撮像画像の一例)中の反射領域g1に赤色(第1の色の一例)を付与し、元画像A中の反射領域g1以外の他の画像領域に白色(第2の色の一例)を付与して学習画像B1を生成するステップを更に有する。これにより、AIサーバ10は、スマートフォン30から入力された撮像画像内に光の反射領域とそれ以外の領域とが明確に識別された学習画像を容易に生成できる。

0099

また、学習処理方法は、元画像A(撮像画像の一例)中の反射領域g1を構成するそれぞれのR画素(画素のいずれか1色の一例)の画素値に、元画像A中の対応する画素の輝度値を設定し、元画像A中の反射領域g1以外の他の画像領域を構成するそれぞれの画素の画素値に、元画像A中の対応する画素の画素値を設定して学習画像B2を生成するステップを更に有する。これにより、AIサーバ10は、スマートフォン30から入力された撮像画像内に光の反射領域とそれ以外の領域とが明確に識別された学習画像を容易に生成できる。

0100

また、学習処理方法は、元画像A(撮像画像の一例)中の反射領域g1を構成するそれぞれのR画素(画素のいずれか1色の一例)の画素値に、元画像A中の対応する画素の輝度値を設定し、元画像A中の反射領域g1以外の他の画像領域を構成するそれぞれのRGB画素の(全ての色の一例)の画素値に、元画像A中の対応する画素の画素値を設定して学習画像B3を生成するステップを更に有する。これにより、AIサーバ10は、スマートフォン30から入力された撮像画像内に光の反射領域とそれ以外の領域とが明確に識別された学習画像を容易に生成できる。

0101

また、実施の形態1に係る反射検知システム5は、前述したAIサーバ10(サーバ装置の一例)と、撮像部32及び表示部33を有するスマートフォン30(携帯端末の一例)とが互いに通信可能に接続される。AIサーバ10は、撮像部32により撮像された任意の撮像画像を取得すると、学習済みモデル(反射検知モデルの一例)を用いて、撮像画像中の光の反射領域(反射画像領域の一例)を検知するとともに、撮像画像中の光の反射領域を他の画像領域と識別可能に加工した出力画像を生成してスマートフォン30に送信する。スマートフォン30は、AIサーバ10から送信された出力画像を用いて、出力画像のうち光の反射領域以外の他の画像領域を文字認識した結果を表示部33に表示する。

0102

これにより、スマートフォン30を使用するユーザ(例えば、外国人等の旅行者)は、自ら内容確認したい広告等を被写体とする撮像画像をAIサーバ10に送信しかつその撮像画像に対するAIサーバ10の処理結果をスマートフォン30において文字認識及び翻訳させることで、文字部分として認識された文字情報の翻訳結果を把握できる。言い換えると、反射検知システム5は、外国人等の旅行者をユーザに親切な文字認識及び翻訳のアプリケーションを提供でき、ユーザの利便性を的確に向上できる。

0103

以上、添付図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

0104

本開示は、撮像画像中の光の反射箇所を示す反射画像領域を検知可能な高精度な反射検知モデルを生成でき、有用である。

0105

5反射検知システム
10AIサーバ
13 AI処理部
30スマートフォン
32撮像部
33 表示部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社デンソーウェーブの「 文字認識装置」が 公開されました。( 2020/02/13)

    【課題】誤認識した文字の存在を容易に知得可能な構成を提供する。【解決手段】文字を規定間隔にて一方向に沿うように配列されてなる文字列(H1〜H3)が複数並んで配置される文字列群Wgは、他の文字列に含まれ... 詳細

  • 株式会社デンソーテンの「 画像処理装置及び画像処理方法」が 公開されました。( 2020/02/13)

    【課題】障害物が存在する場所を自車両が通過しようとするときに、事前に通過可能かをユーザが容易に把握できる画像処理技術を提供する。【解決手段】画像処理装置は、撮影画像取得部と、表示画像生成部と、を備える... 詳細

  • エイアイビューライフ株式会社の「 情報処理装置」が 公開されました。( 2020/02/13)

    【課題】被介護者を適切かつ迅速に介護することができないこと。【解決手段】本発明の情報処理装置は、所定領域の距離画像を取得する距離画像取得手段と、距離画像に基づいて当該距離画像内の第一人物を検出する検出... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ