図面 (/)

技術 畳み込みニューラルネットワークによるナンバープレート認識のための粗から細へのカスケードによる適応

出願人 コンデュエントビジネスサービシーズエルエルシー
発明者 アルバート・ゴード・ソルデビラジョン・アルマザン
出願日 2016年11月30日 (5年0ヶ月経過) 出願番号 2016-233642
公開日 2017年6月22日 (4年6ヶ月経過) 公開番号 2017-111806
状態 特許登録済
技術分野 文字認識 イメージ分析
主要キーワード ファインチューニング 学習用データセット シグネチュア 合成データセット モーメンタム グラウンドトゥルース 入力構成要素 画像取得ユニット
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年6月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題

より正確に効率的なやり方切り出された画像におけるナンバープレートを認識するための方法を提供する。

解決手段

学習させられたニューラルネットワークを利用するナンバープレート認識のための方法及びシステムおいて、ニューラルネットワークは、ナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習及び適応させる工程を含み、ニューラルネットワークを、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させ、ナンバープレートの切り出された画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する。そのようなニューラルネットワークの例は、CNN(畳み込みニューラルネットワーク)である。

概要

背景

LPR(ナンバープレート認識)またはALPR(自動ナンバープレート認識)は、「インテリジェント」な交通インフラストラクチャの利用の中心的なモジュールとしての機能を有する画像処理工程を典型的に含むコンピュータビジョン技術である。ALPRなどのナンバープレート認識技術を、画像処理および文字認識の技術を利用してナンバープレートを自動的に読み取ることによって車両を特定するために使用することができる。ナンバープレート認識工程を、画像におけるナンバープレートの位置を特定し、取得されたプレートの画像において文字切り分け、特定された文字に対してOCR光学式文字認識)を実行することによって、実行することができる。

ALPRの課題は、多くの場合、一連の画像処理工程、すなわちナンバープレートを含む部分画像の位置の特定(すなわち、プレートの位置特定)、個々の文字の画像の抽出(すなわち、切り分け)、およびこれらの文字画像に対する光学式文字認識(OCR)の実行へと分解される。このように、LPRおよびALPRの技術は、物体の認識という課題だけでなく、テキスト画像の認識という課題も含む。

ナンバープレート画像の認識における課題の1つは、切り出されたナンバープレートの画像に関して、その書き写しを生成することが望まれる点にある。ナンバープレート/テキスト画像の認識という課題に対処するために、2つの主要な動向が存在する。

第1の動向は、上述のOCRにもとづいており、文書における伝統的な単語認識法に着想を得たものである。単語の画像に関して、最初に単語の個々の文字の位置を特定することができ、次いで個々の文字をいくつかの手法によって認識することができる。これらの技術は、きわめて良好な認識結果を得ることができるが、いくつかの問題を免れない。例えば、高い精度を達成するために何百万もの学習用の単語について文字境界ボックスによる注釈付けを行う必要があり、単語内の個々の文字の位置を特定する必要があるが、これは、とくにはナンバープレートそのものを高い精度で位置特定して切り出すことさえできない可能性があるナンバープレートの認識の場合において、低速であり、誤りを生じやすい。

最近のコンピュータビジョン技術に着想した第2の動向は、単語の画像を、個々の文字を明確に検出することなく、グローバルシグネチュア(SIFTまたは他の学習による局所特徴量もとづくバッグオブワードまたはフィッシャーベクトルエンコーディング)によって表現する。そのような手法においては、単語の画像および文字列を関連の類似性指標によって共通の空間に同時に埋め込むことが可能であり、したがって単語の画像の認識を検索問題として考えることを可能にでき、単語の画像に関して、考えられるすべての書き写し(例えば、用語集)をランク付けし、画像の単語に最も類似したものを予想される書き写しとして利用することができる。

これは、多数の分野において利点を提供するが、考えられる書き写しの数が莫大であるナンバープレート認識などのいくつかの特定のタスクにおいては現実的でなく、既知の用語集によらずに認識を実行することが最も重要であるが、はるかに困難なタスクである。いくつかの技術は、グローバルな画像のシグネチュアを利用するが、課題を検索問題と考えるのではなく、最適化問題と考え、適合性関数を最大にする書き写しを見つけようと試みる。この方法は、用語集を必要としない内部のナンバープレートのデータセットについてきわめて良好な結果を得ているが、結果は、予想のとおり、用語集を用いる場合ほどには正確でなく、効率的でもなかった。同様の方向において、畳み込みニューラルネットワーク(Convolutional Neural Network)について、テキストの画像を実際の文字列を容易に回復することができるテキスト埋め込み空間へとどのようにマッピングするかを学習する学習を行うことができる。実際には、これは、大量のラベル付けされた学習用データ利用可能である場合にはテキスト画像の分類の実行を可能にするが、典型的には、とくにはナンバープレートの画像において、そのような状況ではない。

さまざまな交通の領域におけるナンバープレート認識の重要性に鑑みて、用語集によらずに、より正確に、効率的なやり方でナンバープレートを認識するための技術的解決策であって、大量の注釈付けされた学習用データを必要としない技術的解決策が求められる。

概要

より正確に効率的なやり方で切り出された画像におけるナンバープレートを認識するための方法を提供する。学習させられたニューラルネットワークを利用するナンバープレート認識のための方法及びシステムおいて、ニューラルネットワークは、ナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習及び適応させる工程を含み、ニューラルネットワークを、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させ、ナンバープレートの切り出された画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する。そのようなニューラルネットワークの例は、CNN(畳み込みニューラルネットワーク)である。

目的

したがって、開示される実施形態の一態様は、物体認識のための改善された方法およびシステムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ナンバープレート認識のための方法であって、ニューラルネットワークを生成するステップと、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させるステップと、前記ニューラルネットワークを反復的に学習および適応させるステップと、前記ニューラルネットワークをナンバープレート切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成するステップとを含む方法。

請求項2

前記ニューラルネットワークは、CNN(畳み込みニューラルネットワーク)を含む、請求項1に記載の方法。

請求項3

ナンバープレート認識のためのシステムであって、少なくとも1つのプロセッサと、コンピュータプログラムコード包含するコンピュータにとって使用可能な媒体とを備えており、前記コンピュータにとって使用可能な媒体は、前記少なくとも1つのプロセッサと通信することができ、前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサによる実行が可能であり、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させ、前記ニューラルネットワークを反復的に学習および適応させ、前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成するように構成されたインストラクションを含んでいる、システム。

請求項4

前記ニューラルネットワークは、CNN(畳み込みニューラルネットワーク)を含む、請求項3に記載のシステム。

請求項5

前記インストラクションは、前記ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように前記ニューラルネットワークを適応させるようにさらに構成されている、請求項3に記載のシステム。

請求項6

前記ニューラルネットワークを反復的に学習および適応させるための前記インストラクションは、前記ニューラルネットワークをファインチューニングすることによって前記ニューラルネットワークを反復的に学習および適応させるように構成されたインストラクションをさらに含む、請求項3に記載のシステム。

請求項7

ナンバープレート認識のためのプロセスを生じさせるためのインストラクションを表すコードを格納しているプロセッサにとって読み取り可能な媒体であって、前記コードは、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように前記ニューラルネットワークを学習させ、前記ニューラルネットワークを反復的に学習および適応させ、前記ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成するためのコードを含んでいる、プロセッサにとって読み取り可能な媒体。

請求項8

前記ニューラルネットワークは、CNN(畳み込みニューラルネットワーク)を含む、請求項7に記載のプロセッサにとって読み取り可能な媒体。

請求項9

前記コードは、前記ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように前記ニューラルネットワークを適応させるためのコードをさらに含む、請求項7に記載のプロセッサにとって読み取り可能な媒体。

請求項10

前記ニューラルネットワークを反復的に学習および適応させることは、前記ニューラルネットワークをファインチューニングすることによって前記ニューラルネットワークを反復的に学習および適応させることをさらに含む、請求項7に記載のプロセッサにとって読み取り可能な媒体。

技術分野

0001

実施形態は、広くには、画像処理の分野に関する。また、実施形態は、物体認識に関する。さらに、実施形態は、ナンバープレート認識およびニューラルネットワークに関する。

背景技術

0002

LPR(ナンバープレート認識)またはALPR(自動ナンバープレート認識)は、「インテリジェント」な交通インフラストラクチャの利用の中心的なモジュールとしての機能を有する画像処理工程を典型的に含むコンピュータビジョン技術である。ALPRなどのナンバープレート認識技術を、画像処理および文字認識の技術を利用してナンバープレートを自動的に読み取ることによって車両を特定するために使用することができる。ナンバープレート認識工程を、画像におけるナンバープレートの位置を特定し、取得されたプレートの画像において文字切り分け、特定された文字に対してOCR光学式文字認識)を実行することによって、実行することができる。

0003

ALPRの課題は、多くの場合、一連の画像処理工程、すなわちナンバープレートを含む部分画像の位置の特定(すなわち、プレートの位置特定)、個々の文字の画像の抽出(すなわち、切り分け)、およびこれらの文字画像に対する光学式文字認識(OCR)の実行へと分解される。このように、LPRおよびALPRの技術は、物体の認識という課題だけでなく、テキスト画像の認識という課題も含む。

0004

ナンバープレート画像の認識における課題の1つは、切り出されたナンバープレートの画像に関して、その書き写しを生成することが望まれる点にある。ナンバープレート/テキスト画像の認識という課題に対処するために、2つの主要な動向が存在する。

0005

第1の動向は、上述のOCRにもとづいており、文書における伝統的な単語認識法に着想を得たものである。単語の画像に関して、最初に単語の個々の文字の位置を特定することができ、次いで個々の文字をいくつかの手法によって認識することができる。これらの技術は、きわめて良好な認識結果を得ることができるが、いくつかの問題を免れない。例えば、高い精度を達成するために何百万もの学習用の単語について文字境界ボックスによる注釈付けを行う必要があり、単語内の個々の文字の位置を特定する必要があるが、これは、とくにはナンバープレートそのものを高い精度で位置特定して切り出すことさえできない可能性があるナンバープレートの認識の場合において、低速であり、誤りを生じやすい。

0006

最近のコンピュータビジョン技術に着想した第2の動向は、単語の画像を、個々の文字を明確に検出することなく、グローバルシグネチュア(SIFTまたは他の学習による局所特徴量もとづくバッグオブワードまたはフィッシャーベクトルエンコーディング)によって表現する。そのような手法においては、単語の画像および文字列を関連の類似性指標によって共通の空間に同時に埋め込むことが可能であり、したがって単語の画像の認識を検索問題として考えることを可能にでき、単語の画像に関して、考えられるすべての書き写し(例えば、用語集)をランク付けし、画像の単語に最も類似したものを予想される書き写しとして利用することができる。

0007

これは、多数の分野において利点を提供するが、考えられる書き写しの数が莫大であるナンバープレート認識などのいくつかの特定のタスクにおいては現実的でなく、既知の用語集によらずに認識を実行することが最も重要であるが、はるかに困難なタスクである。いくつかの技術は、グローバルな画像のシグネチュアを利用するが、課題を検索問題と考えるのではなく、最適化問題と考え、適合性関数を最大にする書き写しを見つけようと試みる。この方法は、用語集を必要としない内部のナンバープレートのデータセットについてきわめて良好な結果を得ているが、結果は、予想のとおり、用語集を用いる場合ほどには正確でなく、効率的でもなかった。同様の方向において、畳み込みニューラルネットワーク(Convolutional Neural Network)について、テキストの画像を実際の文字列を容易に回復することができるテキスト埋め込み空間へとどのようにマッピングするかを学習する学習を行うことができる。実際には、これは、大量のラベル付けされた学習用データ利用可能である場合にはテキスト画像の分類の実行を可能にするが、典型的には、とくにはナンバープレートの画像において、そのような状況ではない。

0008

さまざまな交通の領域におけるナンバープレート認識の重要性に鑑みて、用語集によらずに、より正確に、効率的なやり方でナンバープレートを認識するための技術的解決策であって、大量の注釈付けされた学習用データを必要としない技術的解決策が求められる。

発明が解決しようとする課題

0009

以下の概要は、開示される実施形態に特有革新的特徴のいくつかについての理解を促進するために提示され、完全な説明となることを意図しているわけではない。本明細書に開示される実施形態の種々の態様の完全な理解は、明細書全体、特許請求の範囲、図面、および要約を全体として理解することによって得ることができる。

0010

したがって、開示される実施形態の一態様は、物体認識のための改善された方法およびシステムを提供することである。

0011

開示される実施形態の別の態様は、ナンバープレート認識およびそのテキスト認識のための方法およびシステムを提供することである。

0012

開示される実施形態のまた別の態様は、切り出された画像におけるテキストの認識を提供することにある。

課題を解決するための手段

0013

上述の態様ならびに他の目的および利点を、今や本明細書において説明されるとおりに達成することができる。学習させられたニューラルネットワークを利用するナンバープレート認識のための方法およびシステムが、開示される。典型的な実施形態においては、ニューラルネットワークを生成することができる。次いで、ニューラルネットワークは、例えばナンバープレート認識の用途の文脈におけるテキスト認識などの特定のタスクへとニューラルネットワークを反復的に学習および適応させることを含む工程に委ねられる。ニューラルネットワークは、複数の学習用サンプルを利用して一般的なテキスト認識を実行するように学習させられる。ニューラルネットワークをナンバープレートの切り出された画像に適用し、テキストを認識して前記ナンバープレートに関するナンバープレートの書き写しを生成することができる。

0014

いくつかの典型的な実施形態においては、ニューラルネットワークを、CNN(畳み込みニューラルネットワーク)として実現することができる。ニューラルネットワークを反復的に学習および適応させることは、ニューラルネットワークをファインチューニングすることによってニューラルネットワークを反復的に学習および適応させることを含むことができる。いくつかの実施形態におけるニューラルネットワークのファインチューニングは、ニューラルネットワークを反復的に学習および適応させるための粗から細への適応のカスケードの使用を含むことができる。また、ニューラルネットワークは、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するように適応させられる。

0015

本明細書に取り入れられ、本明細書の一部を形成する添付の図面は、本発明をさらに例示し、本発明の詳細な説明と併せて本発明の原理を説明する役に立ち、添付の図面において、類似の参照番号は、種々の図の全体を通して、同一または機能的に類似の構成要素を指している。

図面の簡単な説明

0016

図1は、典型的な実施形態によるCNNでのナンバープレート認識のための粗から細への適応のカスケードのための方法の論理演算の各段階を示す工程の高レベルフロー図を示している。
図2は、典型的な実施形態によるコンピュータシステムの概略図を示している。
図3は、典型的な実施形態によるモジュール、オペレーティングシステム、およびユーザインターフェイスを含むソフトウェアシステムの概略図を示している。
図4は、典型的な実施形態に従って実装することができるナンバープレート認識のためのシステムのブロック図を示している。

実施例

0017

これらの例(ただし、これらの例に限られるわけではない)において述べられる特定の値および構成は、変更が可能であり、あくまでも1つ以上の実施形態を説明するために言及されているにすぎず、1つ以上の実施形態の技術的範囲を限定しようとするものではない。

0018

次に、主題を、主題の一部を形成しており、特定の典型的な実施形態を例として示している添付の図面を参照して、以下でさらに詳しく説明する。しかしながら、主題はさまざまな異なる形態にて具現化可能であり、したがって保護または請求される主題は、本明細書に記載されるいずれかの典型的な実施形態に限られると解釈されるべきではなく、典型的な実施形態は、あくまでも説明のために提示されているにすぎない。同様に、請求または保護される主題について、合理的な範囲で広い技術的範囲が意図される。とりわけ、主題は、例えば、方法、装置、構成要素、またはシステムとして具現化可能である。したがって、実施形態は、例えば、ハードウェアソフトウェアファームウェア、またはこれらの任意の組み合わせ(ソフトウェアそのもの以外の)の形態をとることができる。したがって、以下の詳細な説明は、限定の意味で解釈されてはならない。

0019

本明細書および特許請求の範囲の全体を通して、用語は、明示的に述べられている意味を越えて、文脈において示唆または暗示される言外の意味を有することもある。同様に、「一実施形態」という表現は、本明細書において使用されるとき、必ずしも同じ実施形態を指すものではなく、「別の実施形態」という表現は、本明細書において使用されるとき、必ずしも違う実施形態を指すものではない。例えば、請求項に記載の主題は、典型的な実施形態の全体または一部の組み合わせを含むように意図される。

0020

一般に、専門用語は、少なくとも部分的には、文脈における使用から理解され得る。例えば、「および」、「または」、または「および/または」などの用語は、本明細書において使用されるとき、そのような用語の使用の文脈に少なくとも部分的に依存し得る種々の意味を含むことができる。典型的には、「または」は、A、B、またはCなど、列挙を結び付けるために用いられた場合、包括的な意味で用いられてA、B、およびCを意味するように意図されるとともに、排他的な意味で用いられてA、B、またはCを意味するようにも意図される。加えて、用語「1つ以上」は、本明細書において使用されるとき、文脈に少なくとも部分的に依存して、単数の意味での任意の特徴、構造、または特性を表すために使用され得、あるいは複数の意味での特徴、構造、または特性の組み合わせを表すために使用され得る。同様に、「a」、「an」、または「the」などの用語も、文脈に少なくとも部分的に依存して、単数の使用を告げるものと理解でき、あるいは複数の使用を告げるものと理解することができる。加えて、用語「にもとづく」は、必ずしも因子の排他的な組を告げるように意図されていると解釈する必要はなく、むしろ、やはり文脈に少なくとも部分的に依存して、必ずしも明示的には説明されないさらなる因子の存在を許容することができる。

0021

開示される実施形態は、一般的なテキスト認識の畳み込みネットワーク(例えば、convnet)を、ナンバープレート(LP)画像の認識に適応させる。例えば、標準的なテキストconvnetアーキテクチャの再使用および大規模な合成テキスト画像データセットの使用が、優秀な性能結果をもたらす。開示される手法は、標準的なconvnetモデル適応技術、すなわちファインチューニングを使用することによって、合成テキスト画像とLP画像との間の大きな分野の隔たりを克服する。これは、性能にとってきわめて重要であり、対象データの特定の部分集合(例えば、モデルを特定の条件に合わせるための都市または駐車場に特有のデータ)についての後のファインチューニングによってさらなる改善が可能である。この手法の利益として、ナンバープレート(LP)認識の問題へのテキスト画像convnetの適用が挙げられる。加えて、ファインチューニングにもとづくテキスト画像からLPへの成功裏移し換えに必要な単純でありながら効率的な分野適応技術が、きわめて有用である。

0022

ナンバープレート認識というタスクのための畳み込みニューラルネットワーク(CNN)の学習を含む典型的な実施形態を実行することができる。CNNは、用語集によらないテキスト認識など、コンピュータビジョンに関する多数のタスクにおいて、顕著な結果を示しているが、ナンバープレート認識というタスクの文脈においては、未だ利用されていない。CNNの学習における主たる困難の1つは、良好なモデルを学習するために、注釈付けされた学習用データが大量に必要な点にある。とくには、ナンバープレート認識に関して、正確なCNNモデルをゼロから学習するために必要な大量のナンバープレート画像の収集および注釈付けは、残念ながら実現可能でない。しかしながら、テキスト認識という関連のタスクに関しては、学習に適した数百万ものテキスト画像を含む合成データセットが利用可能であり、このデータセットにおいて学習されたモデルが、実際の画像へと良好に一般化し、標準的なテキスト認識ベンチマークについて技術水準の結果を手に入れることが示されている。やはり、そのようなモデルは、分野のドリフトゆえにナンバープレート認識という特定のタスクにおいて性能が良好でない。

0023

したがって、開示される実施形態は、ナンバープレート認識のためのモデルの学習というタスクを、教師ありの分野の適応の1つとして考え、一般的なテキスト認識のタスクにおいてきわめて良好に機能するモデルを、学習用データが少ししか得られないナンバープレート認識という特定のタスクに適応させることを試みる。とくには、標準的なCNNのファインチューニングの戦略を利用して、これまでの手法よりも改善されたナンバープレート認識のタスクにおける優秀な精度をすでに得ることができることを、最初に実証する。

0024

そのようなファインチューニング技術は、ナンバープレート認識という複雑なタスクには利用されていない。しかしながら、この問題を考えると、ソースターゲットの分野の適応の1つは、単純化され得ることに注意すべきである。代わりに、ナンバープレート画像のターゲット分野を、より細かい粒子とされたサブ分野の集合と考えることができる。例えば、パリの駐車場においてカメラによって取得されるナンバープレート画像は、カメラの位置および種類の両方ならびに取得される車両が相違するであろうフラン部の高速道路において取得されるナンバープレートとは、異なると考えられる。テキストとナンバープレートとの間には明らかな違いが存在するが、ナンバープレートの2つのサブ分野の間にも明らかな違いが存在する。一般的なナンバープレート認識装置の学習が望まれる場合でも、認識装置を特定のサブ分野に特化させ、その特定のサブ分野においてより高い精度を得ることも、関心の対象となり得る。

0025

典型的な実施形態においては、一技術が、粗から細への適応のカスケードによってCNNの反復的な学習および適応を実行することができ、そこでは、ネットワークが最初に数百万もの学習用サンプルを活用して一般的なテキスト認識を実行するように学習させられ、次いで対象のデータセットにおいてナンバープレート認識にますます類似するタスクを実行するように適応させられる。そのような反復的なファインチューニングは、より標準的なファインチューニングを用いたモデルの学習と比べて、誤りの5%〜10%の減少をもたらすことができる。最終的な結果は、精度および速度の両方において、これまでの技術的解決策を大きくしのぐ。

0026

この手法の主たる利点の1つは、限られた量の注釈付けされたナンバープレートを使用して高い精度でナンバープレート認識を実行できる一方で、元のネットワークはテキスト認識についてのみ学習させられ、ナンバープレート認識のタスクについて良好には機能しない点にある。開示される手法は、余分な学習用データを、たとえそれがi)異なる分野から由来したとしても活用し、ii)試験時間においてより高速であり、iii)より良好な精度をもたらす。

0027

畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、とりわけテキスト認識に関する多くのタスクにおいて、顕著な結果をもたらすことができる。しかしながら、この精度は、代価を伴う。良好な性能を達成するために、CNNを、大量のラベル付けされた学習用データで教師ありのやり方で学習させる必要があるが、これは、タスク(例えば、ナンバープレート認識)によっては実現不可能であり得る。

0028

この問題のために、2つの標準的な技術的解決策、すなわち合成データにおいて学習を行うこと、およびあらかじめ学習させたネットワークを対象の分野へと適応させること、が存在する。合成データにおける学習に関しては、実際的な合成データを生成し、学習の目的に使用することが可能である。この手法は、さまざまな分野(例えば、歩行者の位置特定)に利用可能であり、開示される問題により関係するものとして、テキスト認識に利用可能である。

0029

あらかじめ学習させたネットワークを対象の分野へと適応させることについては、「類似」の分野からの充分な学習用データであらかじめ学習させたネットワーク(例えば、ImageNetデータセットにおいて学習させたネットワーク)および対象の分野からのいくつかのラベル付けされた学習用サンプルが入手できる場合、ネットワークを対象の分野へと適応させる(すなわち、コミュニティにおいて知られているように、ファインチューニングする)ことができる。これは、CNNが誤差伝播によって学習させられるため、きわめて容易に達成できる。元のタスクと対象のタスクとが同じ(例えば、20個のあらかじめ定められた分類への分類)であり、分野のシフトだけが利用可能である場合、対象の分野の学習用サンプルを用いた誤差逆伝播によってネットワークの重みを単純に更新することができる。タスクが異なる場合、ネットワークのすべての層を置き換え、ゼロから学習させる必要があるかもしれない。さらに、類似の分野からのあらかじめ学習させたネットワークを用いた結果は、限られた学習用データでのゼロからの学習と比べて、はるかに良好な結果をもたらす傾向にある。

0030

適応を伴ういくつかの状況においては、対象の分野が、実際にいくつかの異なるサブ分野で構成される。これらのサブ分野は、それらの間の関係が、元の分野との関係よりも強いが、依然としてそれらの間の違いはかなり大きい。開示される手法を、対象の分野のこの階層を利用し、認識方法の精度を改善するために、粗から細への適応にもとづいて実行することができる。

0031

両方の手法が、相補的であり得る(例えば、豊富な合成データにおける学習と、その後の実際の対象分野に合わせたファインチューニングの実行)ことに注意すべきである。また、この単純なファインチューニングが良好に機能する理由の1つが、CNNの目標が非凸であり、通常は確率的勾配降下法によって解かれるからであることに、注意すべきである。目標が凸である場合、対象の分野へのネットワークの直接的なファインチューニングは、他の技術(例えば、規則化を伴う)が同時に使用されなければ、元の分野のすべてのそれまでの知識を消去してしまうと考えられる。まさに非凸の目標が、ファインチューニングのタスクをCNNにとって容易かつ効果的にする。

0032

開示される実施形態は、利用可能な注釈付けされた学習用データが限られているナンバープレート認識の課題に主として集中する。他方で、単語画像認識のための大量の注釈付けされた学習用合成データが入手可能である。どのように両方のタスクが基本的に同じであり、すなわちテキスト画像の内容の認識であるのか、および激しい分野のドリフトが存在することを、理解することができる。テキスト画像およびナンバープレートは、統計(例えば、ナンバープレートは数字をたくさん含んでおり、よく似た長さを有している一方で、辞書の単語は、そのようでない)および取得の条件(例えば、ナンバープレートは困難な角度および照明条件撮影される可能性があり、背景テクスチャが異なる可能性がある、など)の両方において相違する。

0033

実験的な実施形態を参照して、テキスト画像の合成データセットにおけるネットワークの学習、およびその後の2つのナンバープレートデータセットにおけるファインチューニングが、きわめて良好な結果をもたらすことを、第1に実証することができる。しかしながら、これを標準的なファインチューニングと理解することができるが、CNNは、直接的にも、事前学習およびファインチューニングの実行のためのテキスト画像データセットの活用によっても、これまでにナンバープレート認識というタスクに使用されたことがないことに、注意すべきである。

0034

第2に、対象の分野がまさに何であるかを注意深く定義しなければならず、その対象の分野へと直接的にネットワークをファインチューニングすることが最良の戦略でない可能性があることを、実証することができる。ナンバープレート画像の分野を、より細かい粒子とされたサブ分野の集合と考えることができる。例えば、パリの駐車場においてカメラによって取得されるナンバープレート画像は、カメラの位置および種類の両方ならびに取得される車両が相違するであろうフランス南部の高速道路において取得されるナンバープレートとは、異なると考えられる。これは、何が対象の分野であるべきかという疑問直結する。異なるサブ領域からのものであるかどうかにかかわらず、利用可能なすべてのナンバープレートにおいて学習を行うべきか。関連のサブ分野のナンバープレートにおいてのみ学習を行うべきか。あるいは、両方の組み合わせか。

0035

このように、ネットワークを粗から細へのやり方で学習させることができる。第1に、ネットワークを、元のドメインからのできる限り多くの入手可能なデータ(例えば、実験的な実施形態においては、辞書の単語の約1,000万枚の合成画像)を利用して学習させることができる。次いで、ネットワークを、対象の分野(この場合には、ナンバープレート画像)からのすべての利用可能なサンプルを、たとえそれらがきわめて異なる状況から得られたものであっても利用して、ファインチューニングすることができる。最後に、ネットワークを、認識が望まれる対象のサブ分野のみに関して再びファインチューニングすることができる。

0036

実験が、この粗から細への戦略が、ゼロからの学習または特定の1つ以上のデータセットへの1回だけのファインチューニングを要件とする手法よりも一貫して良好であることを、実証することができる。ファインチューニングは、今やコンピュータビジョンのコミュニティにおいて標準的に行われているが、粗から細へのやり方で反復のファインチューニングを実行する研究は、CNNにおいても、より標準的な分野の適応の技術においても、これまでに存在していない。

0037

3つのデータセットを、実験的な実施形態の文脈において利用することができる。データセットの1つは、合成テキスト画像を含み、学習の目的だけに使用される。残りの2つは、現実の状況において取得されたナンバープレート画像の組織内データセットである。次に、そのようなデータセットを、さらに詳しく説明する。本明細書における特定のデータセットへの言及が、あくまでも例示の目的で提示されているにすぎず、開示される実施形態を限定する特徴とは考えられないことを、理解できるだろう。

0038

オックスフォード合成(Oxford Synthetic(OS))データセットは、辞書から抽出された約90,000個の異なる単語をカバーする約1,000万枚の合成画像を含む。このデータセットは、約100万枚の検証用画像(モデルのパラメータの検証に使用することができる)および約100万枚の試験用画像(使用されない)をさらに含む。画像は合成であるが、さまざまな種類の変換およびゆがみを適用してきわめて実際的なやり方で生成されている。このデータセットを利用して学習させられたモデルは、現実のデータにきわめて良好に一般化し、テキスト認識のタスクにおいて技術水準の結果を得る。しかしながら、データセットが辞書からの単語しか含んでいないため、文字が数字よりもはるかに一般的であり、数字が充分には代表されないことに、注意すべきである。したがって、このデータセットだけで学習させられたモデルは、数字が文字と同じ程度に一般的であるナンバープレート認識のタスクにおいて、良好には働かないと予想される。

0039

Waデータセット(Wa)は、3,282枚の独特のナンバープレートにおいて4,215枚の学習用画像および4,215枚の試験用画像を含む。これらのナンバープレートは、車両全体を撮影する画像から自動的に位置特定されて切り出され、それらのゆがみを取り除くために自動の透視変換が適用されている。きわめて良好でない検出を手作業で取り除くことができるが、切り出しが部分的であり、位置がずれており、ゆがみが良好には取り除かれておらず、あるいは他の問題を有しているナンバープレートが、そのまま残されている。

0040

Clデータセット(Cl)は、Waデータセットと同様のやり方で取得された1,891枚の独特のナンバープレートにおいて2,867枚の学習用画像および1,381枚の試験用画像を含んでいる。しかしながら、一般に、Clデータセットのナンバープレート画像の品質は、Waデータセットのそれよりもはるかに悪く、不良な検出または位置ずれに起因するより多くの問題を抱えている。11文字からなる2枚のカスタマイズされたナンバープレートを除き、両方のデータセットにおけるすべてのナンバープレートは、4〜8文字を含んでいる。

0041

両方のナンバープレートデータセットが、限られた数の学習用サンプルしか含んでおらず、これらの学習用サンプルだけを用いたCNNの学習が、平均以下の結果につながりかねないことに、注意すべきである。また、WaおよびClのどちらも検証セットを含んでいないことに、触れておかなければならない。学習の目的で、オックスフォード合成データセットにおいて用いられたパラメータと同じパラメータを使用する。ここで調節すべき唯一のパラメータは、ファインチューニングのための反復の回数である。幸いにも、試験セットにおける性能は、何回かの反復の後に基本的に収束する。したがって、ネットワークを、そのような収束が観測されるまで学習させることができる。

0042

典型的な実施形態において、ネットワークは、32x100ピクセルへとリサイズ(アスペクト比を維持しない)されたグレー画像を入力として取ることができ、それらを一連の畳み込みおよび全結合層に通すことができる。そのような典型的な実施形態において、ネットワークの出力は、37x23というサイズの行列であることができ、ここで各セルは、ナンバープレート1の位置1、2、・・・、23において考えられる37個のシンボル(例えば、10個の数字、26個の文字、およびヌルNULL)シンボル)の各々を発見する確率を示している。ネットワークの出力が与えられると、23個の列を通って移動し、各列において最高の確率を有するシンボルを採用することによって、書き写しを容易に得ることができる。

0043

ネットワークの正確なアーキテクチャは、conv64−5、conv128−5、conv256−3、conv512−3、conv512−3、fc4096、fc4096、fc(32×23)であり、ここでconvX−Yは、サイズがY×YのX個のフィルタによる畳み込みを指し、fcXは、X次元の出力を生成する全結合層である。畳み込みフィルタは、1というストライドを有し、マップサイズを維持するようにパディングされる。2というストライドによる2×2のサイズの最大プーリングが、畳み込み層1、2、および4に続く。ReLU非線形性が、層の各ペアの間に適用される。ネットワークは、学習のためにソフトマックス(softmax)を実行して交差エントロピ損失を使用する23個の独立した分類器(各位置につき1つ)で終わる。分類器は、互いに独立しているが、ネットワークの残りのパラメータと一緒共同で学習させることができる。

0044

ネットワークを、0.9のモーメンタム、5×10−5の固定の学習率、および5×10−4の重み減衰を有するSGDによって、128というサイズのミニバッチにて学習させることもできる。ネットワークは、検証セットにおける精度の収束までオックスフォード合成におけるいくつかのエポックについて学習させられる。WaおよびClにおけるファインチューニング実施形態に、ネットワークは、数百のエポックについて学習させられる。ネットワークの精度が、その時点の後に頭打ちに達したことが、実験的に観察されている。

0045

いくつかの典型的な実施形態において、開示される手法を、WaおよびClの試験セットにおいて評価することができる。そのような状況において、認識率(正しく書き写されたナンバープレートの割合)および正規化ER(Character Error Rate(誤字率))(すなわち、書き写しとグラウンドトゥルース注釈との間の編集距離をそれらの長さの最大値で割ったもの)という2つの指標報告され得る。異なる設定(例えば、ゼロからの学習、オックスフォード合成からのファインチューニング、および反復のファインチューニング)において学習させられたモデルを評価し、これまでの研究と比較することができる。

0046

典型的な結果が、下記の表1に示される。

0047

0048

ファインチューニング工程が、矢印で示される一方で、データセットのマージを、プラス符号で示すことができる。例えば、「OS−>Wa+Cl」は、最初に「オックスフォード合成」(すなわち、OS)において学習させられ、その後にWaおよびClの両方を組み合わせるデータセットにおいてファインチューニングされたモデルを指す。欠けている値は、試験用データセットが学習用データセットに関係しておらず、高い精度が期待されない設定に属する。

0049

以下の典型的な結果が注目される。第1に、もっぱらOSにおいて学習させられたモデル(c)は、ナンバープレート認識というタスクにおいてまったく良好に機能せず、認識精度は0%であり、CERは約70である。OS+Wa+Clの組み合わせのデータセットにおける学習(d)も、(わずかにましであるが)ひどく悪い結果につながる。これは、OSにおけるテキストデータの量と比べてきわめて少ないナンバープレートしか存在しないため、驚くべきことではない。

0050

第2に、ゼロからのナンバープレートデータセットにおける学習(e、f、g)は、とくにはWaおよびClの両方のデータセットが組み合わせられる場合に、はるかに良好に機能する。しかしながら、これは、OSから得ることができたすべての知識を活用しておらず、結果は、これまでの研究において達成された結果を依然として下回る。

0051

OSにおけるモデルの学習、およびその後のナンバープレートデータセットにおけるファインチューニング(h、i、j)は、優れた結果につながり、これまでの研究よりも性能がよい。(j)において、システムの精度は、WaおよびClにおいてほぼ6ポイントも改善され、CERは、ほぼ50%も低下する。興味深いことに、Wa+Clにおけるモデルのファインチューニングは、試験時に見られるナンバープレートに類似しないナンバープレートを認識するための学習をモデルに強いるにもかかわらず、WaおよびClの両方における優れた結果につながる(j)。これは、より多くの学習用データが利用可能であり、ファインチューニングがそれを活用できるからであると考えられる。

0052

OSにおいて学習させられたネットワークが最初にWa+Clにおいてファインチューニングされ、次いでWaまたはClにおいて再びファインチューニングされる反復のファインチューニング(k、l)が、最良の結果をもたらす。直感的に、OSによってもたらされるテキスト全般についてのすべての情報を利用し、Wa+Clによってもたらされるナンバープレート全般についてのすべての情報を利用し、最終的に実際の対象のタスクに専門化されたネットワークが、最良の結果を獲得する。この手法は、認識誤りをWaにおいて相対でほぼ10%(k)、Clにおいて相対で3%(l)さらに減らす。同様の改善を、CERについても観測することができる。

0053

図1が、1つの典型的な実施形態によるCNNでのナンバープレート認識のための粗から細への適応のカスケードのための方法10の論理演算の各段階を示す工程の高レベルのフロー図を示している。図1に示される方法10は、ナンバープレート認識のためのモデルの学習というタスクを、教師ありの分野の適応の1つとして考え、一般的なテキスト認識のタスクにおいてきわめて良好に機能するモデルを、学習用データが少ししか得られないナンバープレート認識という特定のタスクに適応させることを試みる。すでに示したように、標準的なCNNのファインチューニングの戦略を使用することによって、これまでの研究よりも改善されたナンバープレート認識のタスクにおける優秀な精度をすでに得ることができる。

0054

方法10の手法は、ブロック12に示されるとおり、CNNを用意するステップまたは論理演算を含む。その後に、ブロック14に示されるとおり、CNNを、複数の(例えば、数百万の)学習用サンプルを活用することによって、一般的なテキスト認識を実行するように学習させることができる。ブロック12および14に示される演算は、CNNの学習を含む。この演算(すなわち、学習)は、1回だけ生じる。しかしながら、ブロック16、18、20に示される演算は、(例えば、試験時に)多数回生じることができる。

0055

したがって、ブロック16に示されるとおり、粗から細への適応のカスケードを利用してナンバープレート認識にだんだんと類似するタスクを実行するようにCNNを適応させるステップまたは論理演算を、実行することができる。次いで、得られたCNNを、ブロック18に示されるとおり、切り出されたナンバープレートの画像へと適用し、ブロック20に示されるとおり、ナンバープレートの書き写しを生成することができる。明確化のために述べると、学習の演算は、1回だけ(すなわち、学習時に)生じる。すなわち、最初にCNNの学習が、まず一般的なテキストの例を使用し、次いでナンバープレート画像を使用して行われる。これらの演算は、1回だけ実行される。次いで、学習させられたCNNを任意の数の切り出された新たなナンバープレートの画像へと適用して、それらの書き写しを得ることができ、ネットワークをそのたびに再び学習させる必要はない。

0056

いくつかの実施形態において、開示の実施形態の演算を実行するためのコンピュータプログラムコードを、オブジェクト指向プログラミング言語(例えば、Java(登録商標)、C#、C++、など)で記述できることに、注意すべきである。しかしながら、特定の実施形態の演算を実行するためのそのようなコンピュータプログラムコードを、「C」プログラミング言語などの従来からの手続き型プログラミング言語で記述することもでき、例えばVisual Basicなどの視覚指向プログラミング環境において記述することもできる。

0057

プログラムコードは、スタンドアロンソフトウェアパッケージとして全体または一部がユーザのコンピュータにおいて実行されてよく、一部がユーザのコンピュータにおいて実行され、一部がリモートコンピュータにおいて実行されてよく、あるいは完全にリモートコンピュータにおいて実行されてもよい。後者の状況においては、リモートコンピュータを、ローカルエリアネットワーク(LAN)またはワイドエリアネットワークWAN)や、例えばWi−Fi、Wimax、802.xx、および携帯電話網などの無線データネットワークを介してユーザのコンピュータへと接続することができ、あるいは接続を、多くのサードパーティサポートするネットワークを介して(例えば、インターネットサービスプロバイダによってインターネットを通じて)外部のコンピュータへと行うことができる。そのようなネットワークの例が、図4に示されるネットワーク220である。

0058

実施形態が、本発明の実施形態による方法、システム、ならびにコンピュータプログラム製品およびデータ構造のフロー図による図解および/またはブロック図を参照して本明細書において少なくとも部分的に説明される。図解の各ブロックおよびブロックの組み合わせを、コンピュータプログラムインストラクションによって実現できることを、理解できるであろう。これらのコンピュータプログラムインストラクションを、汎用のコンピュータ、専用のコンピュータ、または他のプログラマブルデータ処理装置プロセッサへともたらし、コンピュータまたは他のプログラマブルなデータ処理装置によって実行されるインストラクションによって1つ以上のブロックに特定される機能/動作を実行するための手段が生み出されるように、装置を生み出すことができる。

0059

これらのコンピュータプログラムインストラクションは、コンピュータにとって読み取り可能なメモリに格納されてもよく、したがってコンピュータにとって読み取り可能なメモリに格納されたインストラクションによって本明細書において例示および説明された種々の1つ以上のブロック、フロー図、および他のアーキテクチャに指定の機能/動作を実行するインストラクション手段を含む製造物が生み出されるように、特定のやり方で機能するようにコンピュータまたは他のプログラマブルなデータ処理装置を導くことができる。

0060

コンピュータプログラムインストラクションは、コンピュータまたは他のプログラマブルな装置において実行されるインストラクションによって1つ以上のブロックに指定の機能/動作を実行するための段階がもたらされるように、一連の演算段階をコンピュータまたは他のプログラマブルな装置において実行させてコンピュータによって実行されるプロセスを生み出すために、コンピュータまたは他のプログラマブルなデータ処理装置へとロードされてもよい。

0061

図2および3が、実施形態を実行することができるデータ処理環境の典型的な図として提示されている。図2および3が、あくまでも例示にすぎず、開示の実施形態の態様または実施形態を実行することができる環境に関していかなる限定も断言または暗示しようとするものではないことを、理解すべきである。図示の環境に対する多数の変更を、開示の実施形態の技術的思想および技術的範囲から離れることなく、行うことが可能である。

0062

図2に示されるとおり、いくつかの実施形態を、プロセッサ341などの1つ以上のプロセッサ、メモリ342、コントローラ343(例えば、入力/出力コントローラ)、周辺機器USB(ユニバーサルシリアルバス)接続部347、キーボード344(例えば、物理的なキーボードまたはタッチ式画面グラフカルに表示されたキーボード)、入力構成要素345(例えば、キーボード344と組み合わせて利用でき、あるいはキーボード344と一緒に利用することができるマウストラックボールペンデバイス、などのポインティングデバイス)、および表示装置346を含むことができ、いくつかの場合には画像取得ユニット332(例えば、デジタルビデオカメラ、ALPRカメラ、など)も含むことができるデータ処理システム400の文脈において実現することができる。データ処理システム400は、例えば、クライアントサーバネットワーク(例えば、無線および/または有線)によって周辺装置(図示されていない)と通信するクライアントコンピューティングデバイス(例えば、クライアントPC、ラップトップタブレットコンピュータ装置、など)であってよい。別の実施形態において、データ処理システムは、クライアント−サーバネットワークまたは他のサーバにもとづくネットワークの実現の文脈におけるサーバであってよい。

0063

図示のとおり、データ処理システム400の種々の構成要素は、システムバス351または他の同様のアーキテクチャを通じて電子的に通信することができる。例えば、システムバス351は、例えばデータ処理システム400内のコンピュータ構成要素の間でデータを転送し、あるいは他のデータ処理装置、構成要素、コンピュータ、などへとデータを転送し、他のデータ処理装置、構成要素、コンピュータ、などからデータを転送するサブシステムであってよい。データ処理システム400を、例えばクライアント−サーバにもとづくネットワーク(例えば、インターネット)におけるサーバとして実現でき、あるいはクライアントおよびサーバの文脈(すなわち、各態様がクライアントおよびサーバ上で実施される)において実現することができる。データ処理システム400は、例えばスタンドアロンのデスクトップコンピュータラップトップコンピュータスマートフォンパッド型コンピュータ装置、サーバ、などであってよい。

0064

図3が、図2に示されるデータ処理システム400の動作を命令するためのコンピュータソフトウェアシステム450を示している。例えばメモリ342に格納されたソフトウェアアプリケーション454が、一般に、カーネルまたはオペレーティングシステム451と、シェルまたはインターフェイス453とを含む。ソフトウェアアプリケーション454などの1つ以上のアプリケーションプログラムを、データ処理システム400による実行のために「ロード」する(すなわち、例えばメモリ342または他のメモリ位置から転送する)ことができる。データ処理システム400は、インターフェイス453を介してユーザの指令およびデータを受け取ることができ、次いでこれらの入力に、オペレーティングシステム451および/またはソフトウェアアプリケーション454からのインストラクションに従ってデータ処理システム400が作用することができる。インターフェイス453は、いくつかの実施形態において、結果を表示するように機能することができ、それにもとづいて、ユーザは、さらなる入力をもたらすことができ、あるいはセッションを終わらせることができる。

0065

ソフトウェアアプリケーション454は、例えば本明細書において説明されるインストラクションまたは演算などのインストラクションまたは演算を実行することができるモジュール452など、1つ以上のモジュールを含むことができる。モジュール452によって実行され得るインストラクションの例として、図1のブロック12、14、16、18、20に関して本明細書において図示および説明され、本明細書のどこかで説明される段階または演算などの段階または演算が挙げられる。モジュール452が、例えば図4に関して本明細書において説明されるモジュール232、234、236、238、および/または239などのサブモジュールで構成されてよいことに、注意すべきである。

0066

以下の検討は、本システムおよび方法を実行することができる適切なコンピューティング環境の簡単な概要を提示することを意図している。必須ではないが、開示される実施形態は、単一のコンピュータによって実行されるプログラムモジュールなどのコンピュータにとって実行可能なインストラクションという全体的な文脈において説明される。多くの場合、図3に示したモジュール452などの「モジュール」が、ソフトウェアアプリケーションを構成する。しかしながら、モジュールを、例えば、電子および/またはコンピュータハードウェア、あるいはそのようなハードウェアとソフトウェアとの組み合わせで構成することもできる。いくつかの場合、「モジュール」は、データベースならびに/あるいはそのようなデータベースと相互作用する電子ハードウェアおよびソフトウィーを構成することもできる。

0067

一般に、プログラムモジュールは、これらに限られるわけではないが、特定のタスクを実行し、あるいは特定の抽象データ型およびインストラクションを実装するルーチンサブルーチン、ソフトウェアアプリケーション、プログラムオブジェクトコンポーネント、データ構造、などを含む。さらに、開示される方法およびシステムを、例えば携帯デバイスマルチプロセッサシステムデータネットワークマイクロプロセッサ基盤またはプログラマブルな家庭用電化製品、ネットワークPC、ミニコンピュータメインフレームコンピュータ、サーバ、などといった他のコンピュータシステムの構成において実行できることを、当業者であれば理解できるであろう。

0068

モジュールという用語が、本明細書において利用されるとき、特定のタスクを実行し、あるいは特定の抽象データ型を実装するルーチンおよびデータ構造の集合を指すことができることに、注意すべきである。モジュールを、2つの部分、すなわち他のモジュールまたはルーチンによるアクセスが可能な定数データ型変数、およびルーチンを載せるインターフェイスと、典型的には内部向け(そのモジュールにのみアクセス可能)であり、モジュール内にルーチンを実際に実装するソースコードを含んでいる実装部とで構成することができる。また、モジュールという用語は、単純に、文書処理会計在庫管理、などの特定のタスクの実行を助けるように設計されたコンピュータプログラムなどのアプリケーションを指すこともできる。このように、例えば図1に示され、本明細書のどこかで検討されるインストラクションまたは段階などのインストラクションまたは段階を、そのような1つ以上のモジュール、サブモジュール、などの文脈において実装することができる。

0069

したがって、図2および3は、開示の実施形態の例として意図されており、構造的な限定として意図されているのではない。さらに、そのような実施形態は、いかなる特定の用途あるいはコンピューティングまたはデータ処理環境にも限定されない。むしろ、開示される手法を、種々のシステムおよびアプリケーションソフトウェアへと好都合に適用できることを、当業者であれば理解できるであろう。さらに、開示される実施形態を、例えばWindows、Macintosh、UNIX(登録商標)、LINUX、などといった種々の異なるコンピューティングプラットフォーム上で具現化することができる。

0070

図4が、典型的な実施形態に従って実装することができるナンバープレート認識のためのシステム200のブロック図を示している。システム200は、一般に、ネットワーク220と直接(例えば、有線接続)または無線のいずれかで通信する画像取得ユニット108を含む。図4に示されるネットワーク220は、任意のネットワークトポロジ伝送媒体、またはネットワークプロトコルを採用することができる。ネットワーク220は、配線無線通信リンク光ファイバケーブル、などの接続を含むことができる。ネットワーク220は、互いの通信に伝送制御プロトコルインターネットプロトコル(TCP/IP)というプロトコル一式を使用するネットワークおよびゲートウェイの世界的な集合を代表するインターネットであってもよい。インターネットの中心には、データおよびメッセージを送る何千もの商業用、政府用、教育用、およびその他のコンピュータシステムからなる主要ノードまたはホストコンピュータ間の高速データ通信回線バックボーンが存在する。

0071

ネットワーク220(例えば、無線「Wi−Fi」ネットワーク、セルラー通信ネットワーク、インターネット、など)は、いくつかの実施形態においては図2および3に開示のようなデータ処理システム400であってよいALPRユニットと直接(例えば、有線接続)または無線通信のいずれかで通信することができる。ALPRユニットは、ALPRモジュール452を含むことができる。そのようなALPRモジュール452は、例えば、図2に示したメモリ342などのメモリに格納されてよく、例えばやはり図2に示したプロセッサ341などのプロセッサによって処理されてよい。

0072

画像取得ユニット108は、例えば、ALPRカメラまたは他のデジタルビデオカメラであってよく、例えば車両205のナンバープレート211の画像210を取得することができる。画像210を、設計の考慮事項に応じて、切り出された画像または切り出しされていない画像としてALPRモジュール452へともたらすことができる。

0073

図4に示した例では、画像210を、ALPRモジュール452による処理のために、ネットワーク220を介してALPRユニットへと送ることができる。ALPRモジュール452は、例えばニューラルネットワーク232(例えば、すでに説明したとおりのCNNまたは別の種類のニューラルネットワーク)およびそのようなニューラルネットワークを本明細書においてすでに説明したとおりに複数の学習用サンプルを利用して一般的なテキスト認識を実行すべく学習させるための学習モジュール234などの1つ以上のモジュール(または、サブモジュール)を含む。ALPRモジュール452は、ニューラルネットワークの反復的な学習および適応のための学習/適応モジュール236をさらに含むことができる。ALPRモジュール452は、テキストを認識してナンバープレート211に関するナンバープレートの書き写し240を生成するために、ニューラルネットワーク232をナンバープレート211の切り出された画像へと適用するための適用モジュール238も含むことができる。ナンバープレート211の画像210が、切り出しされていない画像としてALPRモジュール452へともたらされると仮定すると、そのような画像を、画像切り出しモジュール239をALPRモジュール452を介して利用することによって切り出し、次いでALPRモジュール452の他のモジュール232、234、236、および/または238によって処理することができる。

0074

すでに示したとおり、学習の演算は、1回だけ(すなわち、学習時に)生じる。すなわち、最初にニューラルネットワーク232の学習が、まず一般的なテキストの例を使用し、次いでナンバープレート画像を使用して行われる。これらの演算は、1回だけ実行される。次いで、学習させられたニューラルネットワーク232を任意の数の切り出された新たなナンバープレートの画像へと適用して、ナンバープレートの書き写しを得ることができ、ニューラルネットワーク232をそのたびに再び学習させる必要はない。

0075

画像切り出しモジュール239を実現するために利用することができる画像切り出し手法の例(ただし、これに限られるわけではない)が、Xerox Corporationへと譲渡されたRaja Bala等の2015年10月15日に公開された「Methodsand Systems for Efficient Image Croppingand Analysis」という名称の米国特許出願公開第2015/0294175号に開示されていることに、注意すべきである。

0076

以上にもとづき、いくつかの好ましい例および選択肢となる実施形態が本明細書に開示されることを、理解することができる。1つの典型的な実施形態においては、ナンバープレート認識のための方法が開示される。そのような方法は、ニューラルネットワークを生成する段階または論理演算と、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させる段階または論理演算と、ニューラルネットワークを繰り返し学習および適応させる段階または論理演算と、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成する段階または論理演算とを含むことができる。好ましい典型的な実施形態において、上述のニューラルネットワーク232は、CNN(畳み込みニューラルネットワーク)であってよい。当然ながら、CNNの代わりに他の種類のニューラルネットワークを実装できることを、理解できるであろう。

0077

別の典型的な実施形態においては、各段階または演算を、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するようにニューラルネットワークを適応させるために実行することができる。いくつかの典型的な実施形態において、ニューラルネットワークを反復的に学習および適応させる段階または論理演算は、ニューラルネットワークをファインチューニングすることによってニューラルネットワークを反復的に学習および適応させる段階または論理演算を含むことができる。別の典型的な実施形態において、ニューラルネットワークをファインチューニングする段階または論理演算は、ニューラルネットワークを反復的に学習および適応させるために粗から細への適応のカスケードを利用するための段階または論理演算を含むことができる。さらに別の典型的な実施形態においては、ニューラルネットワークの学習の一部として対象のセットにおけるナンバープレート認識にだんだんと類似するタスクを実行するようにニューラルネットワークを適応させる段階または論理演算を提供することができる。

0078

別の典型的な実施形態においては、ナンバープレート認識のためのシステムを実現することができる。そのようなシステムは、例えば、少なくとも1つのプロセッサと、コンピュータプログラムコードを包含するコンピュータにとって使用可能な媒体とを含むことができ、コンピュータにとって使用可能な媒体は、プロセッサ(または、複数のプロセッサ)と通信することができる。コンピュータプログラムコードは、プロセッサによる実行が可能であり、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させ、ニューラルネットワークを反復的に学習および適応させ、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成するように構成されたインストラクションを含むことができる。

0079

さらに別の典型的な実施形態においては、ナンバープレート認識のためのプロセスを生じさせるためのインストラクションを表すコードを格納する非一時的なプロセッサにとって読み取り可能な媒体が実現される。そのようなコードは、例えば、ニューラルネットワークを生成し、複数の学習用サンプルを利用して一般的なテキスト認識を実行するようにニューラルネットワークを学習させ、ニューラルネットワークを反復的に学習および適応させ、ニューラルネットワークを切り出されたナンバープレートの画像に適用し、テキストを認識してナンバープレートに関するナンバープレートの書き写しを生成するためのコードを含むことができる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ