図面 (/)

技術 プログラム、情報記憶媒体及び文字列認識装置

出願人 国立大学法人東京農工大学
発明者 朱碧蘭中川正樹
出願日 2016年12月16日 (4年0ヶ月経過) 出願番号 2017-556464
公開日 2018年10月4日 (2年2ヶ月経過) 公開番号 WO2017-104805
状態 未査定
技術分野 文字認識
主要キーワード オンライン方式 英語データ オフライン方式 文字構造 英単語学習 非確定的 特定語句 ストローク間
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年10月4日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題・解決手段

文字列認識装置は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成して各認識候補スコアを出力し、複数の認識候補から1つの認識候補を選択し、選択された認識候補が正答であるか誤答であるかを判定する。語句との照合によって認識字種を限定する第1認識処理と、認識字種の限定を行わず且つ文脈を評価する第2認識処理と、認識字種の限定を行わず且つ文脈を評価しない第3認識処理と、第2認識処理で生成された認識候補に正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には最小スコアを出力する第4認識処理のうち少なくとも2つの認識処理を実行し、生成された各認識候補のスコアに基づき1つの認識候補を選択する。

概要

背景

近年におけるスマートフォンタブレット型PCの急速な普及とともに、これらのデバイスを利用した英単語学習日本語学習のシステムが今後広く実用化されていくことが期待されている。このような環境では、選択式の問題だけでなく、記述式の問題を課して、ユーザ(解答者受験者)の深い理解を問うことができる。そして手書き文字列認識の技術(例えば、特開2012−80615号公報)を用いれば、採点支援自動採点を行うことが可能となる。

概要

文字列認識装置は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成して各認識候補スコアを出力し、複数の認識候補から1つの認識候補を選択し、選択された認識候補が正答であるか誤答であるかを判定する。語句との照合によって認識字種を限定する第1認識処理と、認識字種の限定を行わず且つ文脈を評価する第2認識処理と、認識字種の限定を行わず且つ文脈を評価しない第3認識処理と、第2認識処理で生成された認識候補に正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には最小スコアを出力する第4認識処理のうち少なくとも2つの認識処理を実行し、生成された各認識候補のスコアに基づき1つの認識候補を選択する。

目的

本発明は、以上のような課題に鑑みてなされたものであり、その目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、前記認識部は、記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、前記選択部は、前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム

請求項2

請求項1において、前記認識部は、前記第3認識処理を含む前記少なくとも2つの認識処理を実行し、前記選択部は、前記第3認識処理を含む前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム。

請求項3

請求項1又は2において、前記認識部は、前記第2認識処理と前記第3認識処理と前記第4認識処理とを実行し、前記選択部は、前記第2認識処理、前記第3認識処理及び前記第4認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とするプログラム。

請求項4

請求項1乃至3のいずれか1項において、前記選択部は、前記第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、前記第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、前記第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、前記第4認識処理での認識候補のスコアを第4の重みにより調整し、前記第5認識処理での認識候補のスコアを第5の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択することを特徴とするプログラム。

請求項5

請求項1乃至4のいずれか1項において、前記判定部は、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い場合に、前記第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、前記第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、前記第3認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ前記第4認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないことを特徴とするプログラム。

請求項6

コンピュータ読み取り可能な情報記憶媒体であって、請求項1乃至5のいずれか1項のプログラムを記憶したことを特徴とする情報記憶媒体。

請求項7

手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、選択された認識候補が正答であるか誤答であるかを判定する判定部とを含み、前記認識部は、記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、前記選択部は、前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択することを特徴とする文字列認識装置

技術分野

0001

本発明は、プログラム情報記憶媒体及び文字列認識装置に関する。

背景技術

0002

近年におけるスマートフォンタブレット型PCの急速な普及とともに、これらのデバイスを利用した英単語学習日本語学習のシステムが今後広く実用化されていくことが期待されている。このような環境では、選択式の問題だけでなく、記述式の問題を課して、ユーザ(解答者受験者)の深い理解を問うことができる。そして手書き文字列認識の技術(例えば、特開2012−80615号公報)を用いれば、採点支援自動採点を行うことが可能となる。

発明が解決しようとする課題

0003

従来の手書き文字列認識は、認識精度を向上するため語彙語句辞書との照合により認識を行う手法が主流であり、筆記された語句は多少間違っていても正しい語句に認識される。すなわち、誤った解答正答として判定されてしまう問題が発生する。手書き解答機械認識して正答か誤答かを判定する場合、誤って筆記されたものは間違ったままに認識(誤答として判定)されることが望ましい。しかし、誤った解答を誤答として判定するために、語句の照合を行わないようにすると、認識精度が大きく低下してしまう。

0004

本発明は、以上のような課題に鑑みてなされたものであり、その目的とするところは、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能なプログラム、情報記憶媒体及び文字列認識装置を提供することにある。

課題を解決するための手段

0005

(1)本発明は、手書き入力された文字パターンに対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさを示すスコアを出力する認識部と、各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する選択部と、選択された認識候補が正答であるか誤答であるかを判定する判定部としてコンピュータを機能させ、前記認識部は、記憶部に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコアを出力する第2認識処理と、前記語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコアを出力する第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、前記選択部は、前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択するプログラムに関する。また、本発明は、コンピュータ読み取り可能な情報記憶媒体であって、上記各部としてコンピュータを機能させるためのプログラムを記憶した情報記憶媒体に関係する。また、本発明は、上記各部を含む文字列認識装置に関係する。

0006

本発明によれば、文字認識を行う際に、語句(単語、特定語句)との照合によって認識字種の限定を行う第1認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価する第2認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価しない第3認識処理と、前記第2認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補のスコアを出力する第4認識処理と、前記第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理のうち、少なくとも2つの認識処理を実行し、少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

0007

(2)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第3認識処理を含む前記少なくとも2つの認識処理を実行し、前記選択部は、前記第3認識処理を含む前記少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択してもよい。

0008

本発明によれば、第3認識処理を含む少なくとも2つの認識処理を実行し、選択部は、第3認識処理を含む少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

0009

(3)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記認識部は、前記第2認識処理と前記第3認識処理と前記第4認識処理とを実行し、前記選択部は、前記第2認識処理、前記第3認識処理及び前記第4認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択してもよい。

0010

本発明によれば、第2認識処理、第3認識処理及び第4認識処理で生成された各認識候補のスコアに基づいて最適な認識候補を選択して、選択された認識候補が正答であるか誤答であるかを判定することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

0011

(4)また本発明に係るプログラム、情報記憶媒体及び文字列認識装置では、前記選択部は、前記第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、前記第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、前記第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、前記第4認識処理での認識候補のスコアを第4の重みにより調整し、前記第5認識処理での認識候補のスコアを第5の重みにより調整し、複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。

0012

本発明によれば、第1認識処理で生成された各認識候補のスコアと、第2認識処理で生成された各認識候補のスコアと、第3認識処理で生成された各認識候補のスコアと、第4認識処理での認識候補のスコアと、第5認識処理での認識候補のスコアを、それぞれ適切な重み付けにより調整し、調整後のスコアの最も高い認識候補を選択することで、認識精度の低下を抑制しつつ、誤った解答が正答として判定される確率を低減することが可能となる。

図面の簡単な説明

0013

図1は、本実施形態の文字列認識装置の機能ブロック図の一例である。
図2Aは、英単語を認識する際に実行する前処理について説明するための図である。
図2Bは、英単語を認識する際に実行する前処理について説明するための図である。
図2Cは、英単語を認識する際に実行する前処理について説明するための図である。
図2Dは、英単語を認識する際に実行する前処理について説明するための図である。
図3は、英単語の入力パターンの一例を示す図である。
図4は、単語リストから構築したトライ辞書の一例を示す図である。
図5は、トライ辞書での最適経路の探索について説明するための図である。
図6は、特定語句リストから構築したトライ辞書の一例を示す図である。
図7は、日本語の入力パターンと切出し候補ラティスの一例を示す図である。
図8は、処理部の処理の流れの第1の例を示す図である。
図9Aは、入力パターンの一例を示す図である。
図9Bは、図9Aに示す入力パターンを第1認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図9Cは、図9Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図9Dは、図9Bに示す認識候補と図9Cに示す認識候補とを統合して調整後スコアによりソートした上位10位の結果を示す図である。
図10は、処理部の処理の流れの第2の例を示す図である。
図11Aは、入力パターンの一例を示す図である。
図11Bは、図11Aに示す入力パターンを第1認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図11Cは、図11Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図11Dは、図11Aに示す入力パターンを第3認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図11Eは、図11Bに示す認識候補と図11Cに示す認識候補と図11Dに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す図である。
図12Aは、入力パターンの一例を示す図である。
図12Bは、図12Aに示す入力パターンを第2認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図12Cは、図12Aに示す入力パターンを第3認識処理で認識したときの認識候補とスコアと調整後スコアを示す図である。
図12Dは、図12Bに示す認識候補と図12Cに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す図である。
図13は、処理部の処理の流れの第3の例を示す図である。

実施例

0014

以下、本実施形態について説明する。なお、以下に説明する本実施形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。

0015

1.構成
図1に本実施形態の文字列認識装置の機能ブロック図の一例を示す。なお本実施形態の認識装置図1の構成要素(各部)の一部を省略した構成としてもよい。

0016

文字入力部160は、ユーザが筆記媒体ペン指先等)で手書き文字を入力するためのものであり、その機能は、タブレット、タッチパネル等の筆記面などにより実現できる(オンライン方式の場合)。文字入力部160は、筆記媒体が筆記面に触れてから離れるまでの筆記媒体の位置を表す座標データを一定時間間隔で検出し、検出された座標データ列座標点系列オンライン手書きパターンと呼ぶ)をストローク筆画)のデータとして処理部100に出力する。なお、ストロークの終点から次のストロークの始点までのベクトルオフストローク運筆ベクトル)と呼び、ストロークとオフストロークの連続する系列をストローク列と呼ぶ。なお、オフライン方式では、文字入力部160は、紙等に筆記された文字を、スキャナー等で白黒画像或いは濃淡画像として読み取る。

0017

記憶部170は、処理部100の各部としてコンピュータを機能させるためのプログラムや各種データを記憶するとともに、処理部100のワーク領域として機能し、その機能はハードディスク、RAMなどにより実現できる。

0018

表示部190は、処理部100で生成された画像を出力するものであり、その機能は、文字入力部160としても機能するタッチパネル、LCD或いはCRTなどのディスプレイにより実現できる。

0019

処理部100(プロセッサ)は、文字入力部160からの座標データやプログラムなどに基づいて、認識処理、選択処理判定処理表示制御などの処理を行う。この処理部100は記憶部170内の主記憶部をワーク領域として各種処理を行う。処理部100の機能は各種プロセッサ(CPU、DSP等)、ASICゲートアレイ等)などのハードウェアや、プログラムにより実現できる。処理部100は、認識部110、選択部112、判定部114、表示制御部120を含む。

0020

認識部110は、入力されたストローク列(手書き入力された文字パターンのストローク列)に対して文字認識を行って複数の認識候補を生成し、各認識候補の確からしさ(尤度)を示すスコアを出力する(オンライン方式の場合)。なお、オフライン方式では、入力画像から行を切り出し、更に文字或いは文字列を切り出して、文字認識或いは単語認識を行って複数の認識候補を生成し、各認識候補の確からしさ(尤度)を示すスコアを出力する。

0021

特に本実施形態の認識部110は、記憶部170に記憶された語句との照合によって認識字種を限定して認識候補を生成し、スコアを出力する第1認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価して認識候補を生成し、スコア(文脈の確からしさを加味したスコア)を出力する第2認識処理と、語句との照合による認識字種の限定を行わず且つ文脈の確からしさを評価せずに認識候補を生成し、スコア(文脈の確からしさを加味しないスコア)を出力する第3認識処理と、第2認識処理で生成された複数の認識候補から正答(記憶部170に記憶された正答)と一致する認識候補を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第4認識処理のうち、少なくとも2つの認識処理(第1認識処理と第2認識処理、第1認識処理と第3認識処理、第1認識処理と第4認識処理、第2認識処理と第3認識処理、第2認識処理と第4認識処理、第3認識処理と第4認識処理、第1認識処理と第2認識処理と第3認識処理、第1認識処理と第2認識処理と第4認識処理、第1認識処理と第3認識処理と第4認識処理、第2認識処理と第3認識処理と第4認識処理のいずれか)を実行する。なお、認識部110は、第3認識処理に加えて(或いは、第3認識処理に代えて)、第3認識処理で生成された認識候補から正答を検索し、正答と一致する認識候補がある場合には当該認識候補のスコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアとして所定の最小スコアを出力する第5認識処理を実行してもよい。なお、正しい解答が正答として判定される率を高める場合(すなわち、誤った解答が正答として判定されることをある程度許容する場合)には、第4認識処理及び/又は第5認識処理において、正答と一致する認識候補がある場合には当該認識候補のスコアとして所定の最大スコアを出力し、正答と一致する認識候補がない場合には認識候補のスコアを出力するようにしてもよい。

0022

選択部112は、少なくとも2つの認識処理で生成された各認識候補のスコアに基づいて、複数の認識候補から1つの認識候補を選択する。選択部112は、第1認識処理で生成された各認識候補のスコアを第1の重みにより調整し、第2認識処理で生成された各認識候補のスコアを第2の重みにより調整し、第3認識処理で生成された各認識候補のスコアを第3の重みにより調整し、第4認識処理での認識候補のスコアを第4の重みにより調整し、少なくとも2つの認識処理で生成された複数の認識候補から、調整後のスコアの最も高い認識候補を選択してもよい。また、第5認識処理を実行する場合には、第5認識処理での認識候補のスコアを第5の重みにより調整する。

0023

判定部114は、選択部112で選択された認識候補を、記憶部170に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定する。また、判定部114は、第1位の認識候補のスコア(重みによる調整後のスコア)と第2位の認識候補のスコア(重みによる調整後のスコア)との差が所定の閾値よりも低い場合に、第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば正答と判定し、第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ誤答と判定し、第3認識処理で生成された認識候補の中に正答と一致する認識候補がなく且つ第4認識処理で生成された認識候補の中に正答と一致する認識候補があれば判定を行わないようにしてもよい。

0024

表示制御部120は、入力されたストローク列を表示部190に表示させる制御と、選択部112で選択された認識候補(認識された文字列、認識結果)及び判定部114の判定結果(正答であるか誤答であるか)を表示部190に表示させる制御を行う。

0025

2.本実施形態の手法
次に本実施形態の手法について図面を用いて説明する。

0026

本実施形態の手法では、語句(単語、特定語句)との照合を用いる文字列認識(第1認識処理)と、語句との照合を用いずに文脈の確からしさを評価する文字列認識(第2認識処理)とを行い、それぞれの認識候補のスコアに重みをつけて認識候補を統合して、最適な認識候補を選択し認識結果として出力する。以下では、ストロークの時系列情報を用いるオンライン手書き認識に適用した場合について主に説明するが、ストロークの画像としての特徴を用いるオフライン手書き認識に適用することもできる。オフライン手書き認識では、行や文字の間隔から文字画像を切り出し、切り出した文字画像に対して文字認識を適用するが、それ以降の処理については全く同様に適用することができる。

0027

2−1.英単語認識
まず、英単語を認識する場合を例にとって説明する。英単語を認識する場合、前処理を行った後、単語照合による認識と、単語照合によらない認識を行う。

0028

前処理では、まず、入力された文字パターン(入力パターン)を構成する筆点列から特徴点を抽出する(図2A参照)。ここでは、まず、各ストロークの始点と終点を特徴点として選択し、隣接する両特徴点間の筆点からその両特徴点の連結線への距離を計算し、当該距離が最大になる筆点に着目し、当該距離が閾値以上であれば、当該筆点を特徴点として選択する。そして、新たな特徴点から隣接する他の特徴点に連結線を引き、同様の処理を選択可能な特徴点がなくなるまで再帰的に繰り返す。次に、ベースラインを抽出する。ここでは、筆点列の極小点極大点近似する2つの線形回帰直線を利用してベースラインBL、CL(図2B参照)を抽出する。次に、行の傾き補正を行う(図2B参照)。ここでは、ベースラインBL、CLの水平に対する角度が0になるようにストローク列全体を回転させることで、入力パターンの行方向の傾きを補正する。次に、文字の傾き補正を行う(図2C参照)。ここでは、隣接する両特徴点の連結線と水平線のなす角度のヒストグラムにおける最大値の角度を傾斜角度として検出し、その傾斜角度でせん断変換を行う。次に、オンライン手書き認識では取扱いが困難な遅延ストローク(例えば、「t」の横線や「i」のドット)を削除する(図2D参照)。最後に、入力パターンのサイズを正規化する。

0029

単語照合による認識(第1認識処理)では、まず、単語のリスト(語彙集合)からトライ辞書(Trie lexicon)を構築する。次に、トライ辞書で上位複数の経路(認識候補)を求める。ここでは、MRF(Markov random field)による単独文字認識を利用して、入力パターンの複数の特徴点から文字切出し候補となる特徴点を選択する。そして、選択した文字切出し候補で切出される文字候補の経路に対して、複数項目の確からしさ(尤度)を統合的に評価し、認識を行う。複数項目の確からしさとしては、MRF認識の確からしさ、P2DMN−MQDF(Pseudo 2D bi-moment normalization and modified quadratic discriminant function)認識の確からしさ、文字サイズの確からしさ、文字構造の確からしさ、文字位置の確からしさ、及び文字間重なりの確からしさを示すスコアを与える。

0030

図3に、入力パターン(前処理が施された入力パターン)の一例を示し、図4に、単語リストから構築したトライ辞書の一例を示す。図3に示す例では、入力パターン「Offer」から56個の特徴点f1〜f56が抽出されている。また、図4に示すトライ辞書には、単語「Offal」「Offer」「Oak」「Occur」「Ocean」「page」が登録されている。

0031

図5は、トライ辞書での最適経路の探索について説明するための図である。まず、トライ辞書の最初のノードから探索を開始する。図4に示すトライ辞書では、最初のノードは、「O」、「p」であり、これらを最初の認識字種に設定する。MRF認識により、特徴点f1からスタートする文字切出し候補を選択する。図5に示す例では、「O」として認識する場合は、3つの文字切出し候補「f1−f16」「f1−f17」「f1−f18」が選択され、「p」として認識する場合は、3つの文字切出し候補「f1−f12」「f1−f15」「f1−f18」が選択されている。これらの(階層d1における)文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位2つの文字切出し候補を選択する。図5に示す例では、「O」として認識する場合の「f1−f16」と「f1−f18」が選択されている。図4に示すトライ辞書では、「O」から拡張する文字は「f」「a」「c」であり、これらを次の認識字種として設定する。文字「O」の「f1−f16」から拡張する文字切出し候補は特徴点f17からスタートする。MRF認識により、特徴点f17からスタートする文字切出し候補を選択する。図5に示す例では、「f」として認識する場合は、3つの文字切出し候補「f17−f18」「f17−f20」「f17−f22」が選択され、「a」として認識する場合は、3つの文字切出し候補「f17−f18」「f17−f19」「f17−f20」が選択され、「c」として認識する場合は、3つの文字切出し候補「f17−f18」「f17−f20」「f17−f21」が選択されている。同様に、文字「O」の「f1−f18」から拡張する文字切出し候補を選択する。図5に示す例では、「f」として認識する場合は、3つの文字切出し候補「f19−f29」「f19−f30」「f19−f31」が選択され、「a」として認識する場合は、3つの文字切出し候補「f19−f23」「f19−f24」「f19−f25」が選択され、「c」として認識する場合は、3つの文字切出し候補「f19−f24」「f19−f25」「f19−f26」が選択されている。これらの(階層d2における)文字切出し候補に対して複数項目の確からしさを示すスコアを求め、上位2つの文字切出し候補を選択する。図5に示す例では、「f」として認識する場合の「f19−f29」と「f19−f31」が選択されている。選択された文字切出し候補から更に拡張していき、入力パターンの終端(ここでは、特徴点f56)に至るまで同様の処理を行う。図5に示す例では、「O」→「f」→「f」→「e」→「r」の経路が最適な経路(第1認識処理でのスコアが最も高い認識候補)となる。

0032

単語照合によらない認識(第2認識処理)では、MRF認識により文字切出し候補を選択する際に、トライ辞書による認識字種の限定を行わず、全ての字種(79字種)を対象とする。認識結果の探索方法は単語照合による認識手法(第1認識処理)と同様である。ただし、第2認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈(文字と文字の繋がり)の確からしさを評価する(文脈の確からしさを加味したスコアを求める)。ここでは、文脈の確からしさとして、3文字の連接確率であるトリグラム(tri-gram)確率を採用するが、2文字の連接確率であるバイグラム(bi-gram)確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第2認識処理は後述する第3認識処理と等価である。

0033

2−2.日本語認識
次に、日本語を認識する場合を例にとって説明する。日本語を認識する場合、特定語句との照合による認識(第1認識処理)と、特定語句との照合によらない認識(第2認識処理)を行う。日本語を認識する場合は、英単語を認識する場合と異なり、特徴点の抽出と非線形正規化を文字ごとに行う。また、文字の切り出しは、オフストロークとその前後のストロークの情報に基づいて行う。

0034

特定語句との照合による認識(第1認識処理)では、まず、特定語句のリスト(語彙集合)からトライ辞書を構築する。次に、入力パターンを、隣接ストローク間空間情報などの特徴値を用いて、複数個ユニットに仮切出しする。これには確定的な切出しと非確定的な切出しがある。非確定的な切出しについては、分割する場合と結合する場合の両方を想定して文字パターン候補を構成する。そして、考えられる全ての文字パターン候補を連結して切出し候補ラティスを構成する。図6に、特定語句リストから構築したトライ辞書の一例を示し、図7に、入力パターンと切出し候補ラティスの一例を示す。図7には、入力パターン「腰椎炎」と、7つのノードND1〜ND7を持つ切出し候補ラティスが示されている。切出し候補ラティスにおいて、各ノードは1つの文字パターン候補を示し、各アーク切出しポイントを示す。図7に示す例では、S0、S2、S4、S5が確定的な切出しポイントであり、S1、S3が非確定的な切出しポイントである。各ノードに示される数字は、そのノードから終端までの文字数の可能な長さである。

0035

次に、ビームサーチを適用して切出しポイントの順番で切出し候補ラティスを探索し、上位複数の経路(認識候補)を求める。探索においては、トライ辞書、切出し候補ラティスの探索経路及び特定語句の長さから、文字パターン候補の認識字種を限定する。探索した経路に対して、複数項目の確からしさ(尤度)を総合的に評価し、認識を行う。複数項目の確からしさとしては、文字認識の確からしさ、文字パターン候補や切出しポイントの幾何学的な特徴(文字パターンサイズ、文字パターン内分割、シングル文字パターン位置、ペア文字パターン位置、切出しポイント)の確からしさを示すスコアを与える。

0036

図7に示すノードND1について考えると、ノードND1から終端までの文字数は「4」又は「5」である。図6に示すトライ辞書では、終端までの文字数が「4」をとり得る最初のノードは「」であるから、ノードND1の認識字種として「腰」を設定する。次に、ノードND2について見ると、ノードND2から終端までの文字数は「3」又は「4」である。図6に示すトライ辞書では、最初のノード「腰」「」「日」は全て終端までの文字数が「3」をとり得るから、ノードND2の認識字種として「腰」「耳」「日」を設定する。次に、ノードND3について見ると、ノードND3から終端までの文字数は「3」又は「4」である。図6に示すトライ辞書では、最初のノード「腰」に続くノードは「」「痛」「部」であり、このうち終端までの文字数が「3」をとり得るノードは「椎」「部」であるから、ノードND3の認識字種として「椎」「部」を設定する。以降、終端(ノードND7)に至るまで同様の処理を行い、切出しポイントS0から切出しポイントS5に至る全てのノードの経路について評価を行う。図7に示す例では、ノードND2の「腰」→ノードND5の「腰」→ノードND7の「炎」の経路が最適な経路(第1認識処理でのスコアが最も高い認識候補)となる。

0037

特定語句との照合によらない認識(第2認識処理)では、トライ辞書による認識字種の限定を行わず、DP−Matchingにより切出し候補ラティスを探索し、探索した経路を評価する。ただし、第2認識処理では、認識精度を向上するために、認識候補の経路を評価する際に、上述した複数項目の確からしさに加えて文脈の確からしさを評価する(文脈の確からしさを加味したスコアを求める)。ここでは、文脈の確からしさとして、3文字の連接確率であるトリグラム確率を採用するが、2文字の連接確率であるバイグラム確率を用いてもよい。なお、文字認識自体の精度が十分に高い場合には、文脈の確からしさを評価しなくてもよい。この場合、第2認識処理は後述する第3認識処理と等価である。

0038

2−3.認識候補の統合
図8は、処理部100の処理の流れの第1の例を示す図である。まず、処理部100は、文字入力部160で入力された文字パターン(入力パターン)を取得する(ステップS10)。次に、認識部110は、記憶部170に記憶された語句(単語リスト、或いは特定語句のリスト)との照合による第1認識処理を行って上位複数の認識候補を生成し(ステップS12)、記憶部170に記憶された語句との照合によらず文脈の確からしさを評価する第2認識処理を行って上位複数の認識候補を生成する(ステップS14)。

0039

次に、選択部112は、第1認識処理で生成された各認識候補のスコアを重みWd(第1の重み)で調整し(ステップS16)、第2認識処理で生成された各認識候補のスコアを重みWc(第2の重み)で調整する(ステップS18)。具体的には、第1認識処理での上位L(Lは正の整数)位の認識候補Cd(L)のスコアをSd(L)、第2認識処理での上位m(mは正の整数)位の認識候補Cc(m)のスコアをSc(m)とすると、調整後のスコアSd(L)’、Sc(m)’を次式により求める。

0040

Sd(L)’=WdSd(L)
Sc(m)’=WcSc(m)
なお、Wd+Wc=1とし、重みWd、Wcは予め学習データにより学習しておく。

0041

次に、選択部112は、第1認識処理での複数の認識候補及び第2認識処理での複数の認識候補を統合して調整後のスコアによりソートし(ステップ20)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS22)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。次に、判定部114は、認識結果(選択された認識候補)を記憶部170に記憶された正答と照合して、選択された認識候補が正答であるか誤答であるかを判定し、判定結果を出力する(ステップS24)。

0042

図9A図9Dに、第1認識処理と第2認識処理とを行った場合の認識候補の統合の具体例を示す。図9Aに示す入力パターンでは、「Market」と筆記すべきところ「Martet」と誤って筆記されている。図9Bは、図9Aに示す入力パターンを第1認識処理で認識したときの認識候補Cd(L)とスコアSd(L)と調整後スコアSd(L)’であり、図9Cは、図9Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’である。また、図9Dは、図9Bに示す認識候補と図9Cに示す認識候補とを統合して調整後スコアによりソートした上位10位の結果を示す。図9Dに示す統合結果では、認識候補「Martet」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「Market」)と照合された結果、誤答として判定されることになる。

0043

図10は、処理部100の処理の流れの第2の例を示す図である。なお、図10に示すステップS30、S32、S34、S36、S38、S44については、図8に示すステップS10、S12、S14、S16、S18、S24と同様であるから、説明を省略する。認識部110は、第1認識処理と第2認識処理に加えて、記憶部170に記憶された語句との照合によらず且つ文脈の確からしさを評価しない第3認識処理を行って上位複数の認識候補を生成する(ステップS35)。第3認識処理は、トライ辞書による認識字種の限定を行わない点で第2認識処理と同様であるが、認識候補の経路を評価する際に文脈の確からしさを評価しない(文脈の確からしさを加味しないスコアを出力する)点で第2認識処理と異なる。

0044

選択部112は、第3認識処理で生成された各認識候補のスコアを重みW0(第3の重み)で調整する(ステップS39)。具体的には、第3認識処理での上位n(nは正の整数)位の認識候補C0(n)のスコアをS0(n)とすると、調整後のスコアS0(n)’を次式により求める。

0045

S0(n)’=W0S0(n)
なお、Wd+Wc+W0=1とし、重みWd、Wc、W0は予め学習データにより学習しておく。

0046

次に、選択部112は、第1認識処理での複数の認識候補、第2認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートし(ステップ40)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS42)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ又は3つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。

0047

なお、ステップS34、S38の処理を省略して、ステップS40において、第1認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、Wd+W0=1とし、重みWd、W0は予め学習データにより学習しておく。

0048

また、ステップS32、S36の処理を省略して、ステップS40において、第2認識処理での複数の認識候補及び第3認識処理での複数の認識候補を統合して調整後のスコアによりソートするように構成してもよい。この場合、Wc+W0=1とし、重みWc、W0は予め学習データにより学習しておく。

0049

図11A図11Eに、第1認識処理と第2認識処理と第3認識処理とを行った場合の認識候補の統合の具体例を示す。図11Aに示す入力パターンでは、「Market」と筆記すべきところ「Martet」と誤って筆記されている。図11Bは、図11Aに示す入力パターンを第1認識処理で認識したときの認識候補Cd(L)とスコアSd(L)と調整後スコアSd(L)’であり、図11Cは、図11Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’であり、図11Dは、図11Aに示す入力パターンを第3認識処理で認識したときの認識候補C0(n)とスコアS0(n)と調整後スコアS0(n)’である。また、図11Eは、図11Bに示す認識候補と図11Cに示す認識候補と図11Dに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す。図11Eに示す統合結果では、認識候補「Martet」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「Market」)と照合された結果、誤答として判定されることになる。

0050

図12A図12Dに、第2認識処理と第3認識処理とを行った場合の認識候補の統合の具体例を示す。図12Aに示す入力パターンでは、「体育」と筆記すべきところ「休育」と誤って筆記されている。図12Bは、図12Aに示す入力パターンを第2認識処理で認識したときの認識候補Cc(m)とスコアSc(m)と調整後スコアSc(m)’であり、図12Cは、図12Aに示す入力パターンを第3認識処理で認識したときの認識候補C0(n)とスコアS0(n)と調整後スコアS0(n)’である。また、図12Dは、図12Bに示す認識候補と図12Cに示す認識候補を統合して調整後スコアによりソートした上位10位の結果を示す。図12Dに示す統合結果では、認識候補「休育」が第1位となっているため、この認識候補が認識結果となる。従って、認識結果が正答(ここでは、「体育」)と照合された結果、誤答として判定されることになる。

0051

図13は、処理部100の処理の流れの第3の例を示す図である。なお、図13に示すステップS50〜S59、S68については、図10に示すステップS30〜S39、S44と同様であるから、説明を省略する。認識部110は、第1認識処理と第2認識処理と第3認識処理に加えて、第2認識処理で生成された認識候補から正答(記憶部170に記憶された正答)を検索する第4認識処理を行う(ステップS60)。ステップS60では、認識部110は、第2認識処理で生成された認識候補に正答と一致する認識候補がある場合には、正答と一致する認識候補のスコアを出力し、第2認識処理で生成された認識候補に正答と一致する認識候補がない場合には、各認識候補のスコアとして所定の最小スコア(選択部112で選択されないほどの非常に小さいスコア)を出力する。選択部112は、第4認識処理から出力された認識候補のスコアを重みWs(第4の重み)で調整する(ステップS62)。具体的には、第4認識処理での認識候補CsのスコアをSsとすると、調整後のスコアSs’を次式により求める。

0052

Ss’=WsSs
なお、Wd+Wc+W0+Ws=1とし、重みWd、Wc、W0、Wsは予め学習データにより学習しておく。

0053

次に、選択部112は、第1認識処理での複数の認識候補、第2認識処理での複数の認識候補、第3認識処理での複数の認識候補、及び第4認識処理での認識結果を統合して調整後のスコアによりソートし(ステップ64)、調整後のスコアの最も高い認識候補(第1位の認識候補)を選択して認識結果とする(ステップS66)。なお、認識候補を統合する際にスコアの異なる同一の認識候補が複数(2つ又は3つ)存在する場合には、高い方のスコアを当該認識候補のスコアとする。

0054

3.評価実験
3−1.英単語認識の実験
本実施形態の手法を評価するために、英単語を認識する実験を行った。オンライン手書き英語データベースIAM−OnDBの学習データ(5,364文字列)を利用して、英単語辞書(MRF認識辞書、P2DMN−MQDF認識辞書、文字サイズ評価辞書、文字構造評価辞書及び文字間重なり評価辞書)を学習した。IAM−OnDBのテストデータ(3,859文字、5562単語)から単語のトライ辞書を作成した。英単語辞書に含まれる10種類の単語を3パターンずつ正しく筆記した30個の手書き単語パターン(正答単語パターン)を作成した。また、これら10種類の単語を3パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した30個の手書き単語パターン(誤答単語パターン)を作成した。この2つのデータセットを用いて評価を行った。

0055

まず、正答単語パターンと誤答単語パターンのそれぞれに対して、第1認識処理のみを行う方式、第2認識処理のみを行う方式、第1認識処理と第2認識処理とを行う方式(図8に示す処理)の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表1に、判定率の結果を示す。

0056

第1認識処理(単語照合による認識)のみを行う場合では、正しい解答(正答単語パターン)については全て正答として判定されたが、誤った解答(誤答単語パターン)については47%もの率で正答として判定された。また、第2認識処理(単語照合によらず文脈の確からしさを評価する認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については43%もの率で誤答として判定された。一方、第1認識処理と第2認識処理とを行う場合では、正しい解答について誤答と判定される率が10%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みWd(第1の重み)は0.2074であり、重みWc(第2の重み)は0.7926である。

0057

このように、第1認識処理と第2認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。実際の学習環境において、正しい解答が誤答として判定された場合には、解答者の申告によって判定を訂正できる可能性がある。ところが、誤った解答が正答として判定された場合には、解答者が申告する動機を持ち難いため、申告がされずに判定を訂正できない恐れがある。従って、誤った解答を正答として判定することは極力避ける必要がある。

0058

次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第3認識処理のみを行う方式、第1認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表2に、判定率の結果を示す。

0059

第3認識処理(単語照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については63%もの率で誤答として判定された。一方、第1認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が13%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みWd(第1の重み)は0.2072であり、重みW0(第3の重み)は0.7928である。

0060

このように、第1認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

0061

次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第1認識処理と第2認識処理と第3認識処理とを行う方式(図10に示す処理)により認識を行い、正答として判定した率と誤答として判定した率を求めた。表3に、判定率の結果を示す。

0062

第1認識処理と第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が7%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みWd(第1の重み)は0.1126であり、重みWc(第2の重み)は0.4343であり、重みW0(第3の重み)は0.4531である。

0063

このように、第1認識処理と第2認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

0064

3−2.日本語語認識の実験
本実施形態の手法を評価するために、日本語の語句を認識する実験を行った。新聞記事データベースCD−HIASKと青空文庫を利用して、文脈処理辞書を学習した。5種類の語句を10パターンずつ正しく筆記した50個の手書き語句パターン(正答語句パターン)を作成した。また、これら5種類の語句を10パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した50個の手書き語句パターン(誤答語句パターン)を作成した。この2つのデータセットを用いて評価を行った。

0065

正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理のみを行う方式、第3認識処理のみを行う方式、第2認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表4に、判定率の結果を示す。

0066

第2認識処理(語句照合によらず文脈の確からしさを評価する認識)のみを行う場合では、正しい解答(正答語句パターン)については全て正答として判定されたが、誤った解答(誤答語句パターン)については42%もの率で正答として判定された。また、第3認識処理(語句照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については36%もの率で誤答として判定された。一方、第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が14%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みWc(第2の重み)は0.4715であり、重みW0(第3の重み)は0.5285である。

0067

このように、第2認識処理と第3認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

0068

さらに、日本語の語句を認識する実験を行った。朝日新聞記事データベースCD−HIASKと青空文庫に加えて中学生社会・理科に出現する語句を利用して、文脈処理辞書を学習した。中学生社会・理科に出現する90種類の語句を1パターンずつ正しく筆記した90個の手書き語句パターン(正答語句パターン)を作成した。また、これら90種類の語句を1パターンずつ、故意に一部の文字(1文字又は2文字)を間違えて筆記した90個の手書き語句パターン(誤答語句パターン)を作成した。この2つのデータセットを用いて評価を行った。

0069

正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理のみを行う方式、第3認識処理のみを行う方式、第2認識処理と第3認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表5に、判定率の結果を示す。

0070

第2認識処理(語句照合によらず文脈の確からしさを評価する認識)のみを行う場合では、正しい解答(正答語句パターン)については95.6%と高い確率で正答として判定されたが、誤った解答(誤答語句パターン)については13.3%もの率で正答として判定された。また、第3認識処理(語句照合によらず文脈の確からしさを評価しない認識)のみを行う場合では、誤った解答については全て誤答として判定されたが、正しい解答については30%もの率で誤答として判定された。一方、第2認識処理と第3認識処理とを行う場合では、正しい解答について誤答と判定される率が11.1%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みWc(第2の重み)は0.4805であり、重みW0(第3の重み)は0.5195である。

0071

次に、正答語句パターンと誤答語句パターンのそれぞれに対して、第4認識処理のみを行う方式、第3認識処理と第4認識処理とを行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表6に、判定率の結果を示す。

0072

第4認識処理(第2認識処理で生成した認識候補から正答と一致する認識候補を検索する認識)のみを行う場合では、正しい解答(正答語句パターン)については全て正答として判定されたが、誤った解答(誤答語句パターン)については27.8%もの率で正答として判定された。一方、第3認識処理と第4認識処理とを行う場合では、正しい解答について誤答と判定される率が11.1%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みW0(第3の重み)は0.5194であり、重みWs(第4の重み)は0.4806である。

0073

このように、第3認識処理と第4認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

0074

次に、正答単語パターンと誤答単語パターンのそれぞれに対して、第2認識処理と第3認識処理と第4認識処理とを行う方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表7に、判定率の結果を示す。

0075

第2識処理と第3認識処理と第4認識処理とを行う場合では、正しい解答について誤答と判定される率が10%生じたものの、誤った解答については全て誤答として判定された。なお、このときの重みWc(第2の重み)は0.3263であり、重みW0(第3の重み)は0.3528であり、重みWs(第4の重み)は0.3209である。

0076

このように、第2認識処理と第3認識処理と第4認識処理とを行う方式によって、認識精度の低下を最小限に抑えつつ、誤った解答が正答として判定される確率を低減できることが示された。

0077

なお、本発明は、上述の実施の形態に限定されるものではなく、種々の変更が可能である。本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

0078

例えば、複数の認識候補を統合する際に、第1位の認識候補のスコアが所定の閾値よりも低い場合、或いは、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い(差が無い)場合、或いは、認識候補と正しい解答との文字列の類似度レーベンシュタイン距離ジャロ・ウィンクラー距離などで求め、それらの文字列の類似度が高い場合に、認識結果を出力しない(リジェクトする)ようにしてもよい。このようにすると、誤採点率(正しい解答が誤答として判定される確率や誤った解答が正答として判定される確率)を更に低減することができる。

0079

また、第1位の認識候補のスコアと第2位の認識候補のスコアとの差が所定の閾値よりも低い場合に、第3認識処理で生成された認識候補の中に正答と一致する認識候補があれば(第1の条件を満たした場合)正答と判定し、第4認識処理で生成された認識候補の中に正答と一致する認識候補がなければ(第2の条件を満たした場合)誤答と判定し、第1の条件と第2の条件の両方を満たさない場合にリジェクトする処理(曖昧判定処理)を行ってもよい。

0080

正答語句パターンと誤答語句パターンのそれぞれに対して、第2認識処理と第3認識処理と第5認識処理を行う方式、第2認識処理と第3認識処理と第5認識処理に加えて曖昧判定処理を行う方式の各方式により認識を行い、正答として判定した率と誤答として判定した率を求めた。表8に、判定率の結果を示す。なお、表8では、正答語句パターンと誤答語句パターンが同頻度で発生すると仮定して、全体を100%にした結果を示す。

0081

第2認識処理と第3認識処理と第5認識処理を行う場合では、正しい解答について13%(正答語句パターンの中では26%)もの率で誤答として判定された。一方、曖昧判定処理を追加することで、正しい解答について誤答と判定される率が1.6%(正答語句パターンの中では3.2%)まで低下した。なお、曖昧判定処理により19.8%の解答がリジェクトされた。なお、第5認識処理から出力された認識候補のスコアは、重みWs0(第5の重み)で調整する。第5認識処理での認識候補Cs0のスコアをSs0とすると、調整後のスコアSs0’は、次式により求められる。

0082

Ss0’=Ws0Ss0
なお、Wc+W0+Ws0=1とし、重みWc(第2の重み)、W0(第3の重み)、Ws0は予め学習データにより学習しておく。表8の実験では、重みWcは0.3209であり、重みW0は0.3412であり、重みWs0は0.3379である。

0083

また、上記実施形態では、認識候補のスコアを重みにより線形的に調整する場合について説明したが、非線形関数を用いてスコアを調節してもよい。

0084

100 処理部、110 認識部、112 選択部、114 判定部、120表示制御部、160文字入力部、170 記憶部、190 表示部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ