図面 (/)

技術 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法

出願人 ヤフー株式会社
発明者 町永圭吾
出願日 2009年1月28日 (11年9ヶ月経過) 出願番号 2009-016439
公開日 2010年8月12日 (10年3ヶ月経過) 公開番号 2010-176260
状態 特許登録済
技術分野 文書処理装置 機械翻訳 文書処理装置
主要キーワード 変更確定 人名辞書 基礎技術 修正候補 誤り判定 漢字変換後 対象言語 大域的
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2010年8月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後文字列を含めて一の漢字含み文字列に誤変換があることを指摘すること。

解決手段

異読仮名検索手段130は、漢字含み文字列抽出手段120が抽出した文字列に対応する複数種類の読み仮名を検索し、異漢字変換検索表示手段140は、異読仮名検索手段130が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索して表示装置に表示し、誤変換指摘手段150は、異漢字変換検索表示手段140が検索した漢字変換後の文字列及び漢字含み文字列抽出手段120が抽出した文字列に基づいて、漢字含み文字列抽出手段120が抽出した文字列に誤変換があることを指摘する。

概要

背景

従来、仮名漢字変換に起因する同音異義語誤り検出訂正の方法として、確率的LSAを用いた日本語同音異義語誤りの検出・訂正の方法(非特許文献1)がある。

この方法では、同音異義語のngramでモデル化される局所出現確率及びPLSAによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。

概要

一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後文字列を含めて一の漢字含み文字列に誤変換があることを指摘すること。異読仮名検索手段130は、漢字含み文字列抽出手段120が抽出した文字列に対応する複数種類の読み仮名を検索し、異漢字変換検索表示手段140は、異読仮名検索手段130が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索して表示装置に表示し、誤変換指摘手段150は、異漢字変換検索表示手段140が検索した漢字変換後の文字列及び漢字含み文字列抽出手段120が抽出した文字列に基づいて、漢字含み文字列抽出手段120が抽出した文字列に誤変換があることを指摘する。

目的

そこで、本発明は、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘装置であって、漢字変換後文章の中から、単語を区切りとして漢字を含む文字列を抽出する漢字含み文字列抽出手段と、前記漢字含み文字列抽出手段が抽出した文字列に対応する複数種類の読み仮名を検索する異読仮名検索手段と、前記異読仮名検索手段が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し表示装置に表示する異漢字変換検索表示手段と、を備えることを特徴とする誤変換指摘装置。

請求項2

前記異漢字変換検索表示手段が検索した漢字変換後の文字列及び前記漢字含み文字列抽出手段が抽出した文字列に基づいて、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があることを指摘する誤変換指摘手段、をさらに備えることを特徴とする請求項1記載の誤変換指摘装置。

請求項3

漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名記憶手段と、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列記憶手段と、を更に備え、前記異読仮名検索手段は、前記漢字含み文字列抽出手段が抽出した文字列について、前記対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、前記異漢字変換検索表示手段は、前記異読仮名検索手段が検索した複数種類の読み仮名の夫々について、前記対応漢字含み文字列記憶手段を参照して漢字変換後の文字列を検索し、前記誤変換指摘手段は、前記異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出する異漢字変換後文字列抽出手段と、前記異漢字変換後文字列抽出手段が抽出した異漢字変換後文字列及び前記漢字含み文字列抽出手段が抽出した文字列に基づいて、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換があると判定された場合に、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があることを指摘することを特徴とする請求項2記載の誤変換指摘装置。

請求項4

複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘方法であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出するステップと、前記抽出された文字列に対応する複数種類の読み仮名を検索するステップと、前記検索された複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し表示装置に表示するステップと、を含むことを特徴とする誤変換指摘方法。

請求項5

前記検索された漢字変換後の文字列及び前記抽出された文字列に基づいて、前記抽出された文字列に誤変換があることを指摘するステップ、をさらに含むことを特徴とする請求項4記載の誤変換指摘方法。

請求項6

漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名テーブルと、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列テーブルと、を更に備え、前記複数種類の読み仮名を検索するステップでは、前記抽出された文字列について、前記対応読み仮名テーブルを参照して複数種類の読み仮名を検索し、前記漢字変換後の文字列を検索し表示装置に表示するステップでは、前記検索された複数種類の読み仮名の夫々について、前記対応漢字含み文字列テーブルを参照して漢字変換後の文字列を検索し、前記誤変換があることを指摘するステップでは、前記検索された漢字変換後の文字列の中から、前記文章の中に含まれる文字列を抽出し、当該抽出された前記文章の中に含まれる文字列及び前記漢字を含む文字列を抽出するステップにおいて抽出された文字列に基づいて、前記漢字を含む文字列を抽出するステップにおいて抽出された文字列に誤変換があるか否かを判定し、前記誤変換があると判定された場合に、前記漢字を含む文字列を抽出するステップにおいて抽出された文字列に誤変換があることを指摘することを特徴とする請求項5記載の誤変換指摘方法。

技術分野

0001

本発明は、複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法に関する。

背景技術

0002

従来、仮名漢字変換に起因する同音異義語誤り検出訂正の方法として、確率的LSAを用いた日本語同音異義語誤りの検出・訂正の方法(非特許文献1)がある。

0003

この方法では、同音異義語のngramでモデル化される局所出現確率及びPLSAによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。

先行技術

0004

三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9

発明が解決しようとする課題

0005

しかし、この方法では、あくまで、一の単語(漢字を含む文字列(以下、「漢字含み文字列」とする。))に対して、一の読み仮名しか想定していないため、複数の読み仮名がある場合における夫々の読み仮名に対応する漢字含み文字列まで対象を広げて誤変換を指摘することができなかった。

0006

そこで、本発明は、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することを目的とする。

課題を解決するための手段

0007

本発明では、以下のような解決手段を提供する。

0008

(1)複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘装置であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出する漢字含み文字列抽出手段と、前記漢字含み文字列抽出手段が抽出した文字列に対応する複数種類の読み仮名を検索する異読仮名検索手段と、前記異読仮名検索手段が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し表示装置に表示する異漢字変換検索表示手段と、を備えることを特徴とする誤変換指摘装置。

0009

(1)の構成によれば、異読仮名検索手段は、漢字含み文字列抽出手段が抽出した文字列に対応する複数種類の読み仮名を検索し、異漢字変換検索表示手段は、異読仮名検索手段が検索した複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し表示装置に表示する。

0010

これにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を、当該一の漢字含み文字列に対する修正候補として表示することができる。

0011

(2) 前記異漢字変換検索表示手段が検索した漢字変換後の文字列及び前記漢字含み文字列抽出手段が抽出した文字列に基づいて、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があることを指摘する誤変換指摘手段、をさらに備えることを特徴とする(1)記載の誤変換指摘装置。

0012

(2)の構成によれば、誤変換指摘手段は、異漢字変換検索表示手段が検索した漢字変換後の文字列及び漢字含み文字列抽出手段が抽出した文字列に基づいて、漢字含み文字列抽出手段が抽出した文字列に誤変換があることを指摘する。

0013

これにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。

0014

(3)漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名記憶手段と、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列記憶手段と、を更に備え、前記異読仮名検索手段は、前記漢字含み文字列抽出手段が抽出した文字列について、前記対応読み仮名記憶手段を参照して複数種類の読み仮名を検索し、前記異漢字変換検索表示手段は、前記異読仮名検索手段が検索した複数種類の読み仮名の夫々について、前記対応漢字含み文字列記憶手段を参照して漢字変換後の文字列を検索し、前記誤変換指摘手段は、前記異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、前記文章の中に含まれる異漢字変換後文字列を抽出する異漢字変換後文字列抽出手段と、前記異漢字変換後文字列抽出手段が抽出した異漢字変換後文字列及び前記漢字含み文字列抽出手段が抽出した文字列に基づいて、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換があると判定された場合に、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があることを指摘することを特徴とする(2)記載の誤変換指摘装置。

0015

(3)の構成によれば、誤変換指摘手段は、異漢字変換後文字列抽出手段及び誤変換判定手段を備えており、異漢字変換後文字列抽出手段は、異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、文章の中に含まれる異漢字変換後文字列を抽出し、誤変換判定手段は、異漢字変換後文字列抽出手段が抽出した異漢字変換後文字列及び前記漢字含み文字列抽出手段が抽出した文字列に基づいて、前記漢字含み文字列抽出手段が抽出した文字列に誤変換があるか否かを判定する。更に、誤変換指摘手段は、誤変換があると判定された場合に、漢字含み文字列抽出手段が抽出した文字列に誤変換があることを指摘する。

0016

これにより、異漢字変換検索表示手段が検索した漢字変換後の文字列の中から、文章の中に含まれる異漢字変換後文字列を抽出してから、誤変換があるか否かの判定が行われるので、判定対象絞り込むことができ、誤変換判定処理処理効率アップさせることができる。

0017

(4)複数種類の読み仮名を有する文字列の誤変換を指摘する誤変換指摘方法であって、漢字変換後の文章の中から、単語を区切りとして漢字を含む文字列を抽出するステップと、前記抽出された文字列に対応する複数種類の読み仮名を検索するステップと、前記検索された複数種類の読み仮名の夫々に対応する漢字変換後の文字列を検索し表示装置に表示するステップと、を含むことを特徴とする誤変換指摘方法。

0018

(4)の構成によれば、(1)の誤変換指摘装置と同様な作用効果を奏する。

0019

(5) 前記検索された漢字変換後の文字列及び前記抽出された文字列に基づいて、前記抽出された文字列に誤変換があることを指摘するステップ、をさらに含むことを特徴とする(4)記載の誤変換指摘方法。

0020

(5)の構成によれば、(2)の誤変換指摘装置と同様な作用効果を奏する。

0021

(6)漢字を含む文字列と当該文字列の読み仮名との対応関係を記憶する対応読み仮名テーブルと、仮名と当該仮名の漢字変換後の文字列との対応関係を記憶する対応漢字含み文字列テーブルと、を更に備え、前記複数種類の読み仮名を検索するステップでは、前記抽出された文字列について、前記対応読み仮名テーブルを参照して複数種類の読み仮名を検索し、前記漢字変換後の文字列を検索し表示装置に表示するステップでは、前記検索された複数種類の読み仮名の夫々について、前記対応漢字含み文字列テーブルを参照して漢字変換後の文字列を検索し、前記誤変換があることを指摘するステップでは、前記検索された漢字変換後の文字列の中から、前記文章の中に含まれる文字列を抽出し、当該抽出された前記文章の中に含まれる文字列(例えば、後述する「孝」等)及び前記漢字を含む文字列を抽出するステップにおいて抽出された文字列(例えば、後述する「剛」等)に基づいて、前記漢字を含む文字列を抽出するステップにおいて抽出された文字列(例えば、後述する「剛」等)に誤変換があるか否かを判定し、前記誤変換があると判定された場合に、前記漢字を含む文字列を抽出するステップにおいて抽出された文字列(例えば、後述する「剛」等)に誤変換があることを指摘することを特徴とする(5)記載の誤変換指摘方法。

0022

(6)の構成によれば、(3)の誤変換指摘装置と同様な作用効果を奏する。

発明の効果

0023

本発明によれば、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を、当該一の漢字含み文字列に対する修正候補として表示することができ、さらに、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。

図面の簡単な説明

0024

本実施形態の誤変換指摘装置1の機能構成を示す機能ブロック図である。
本実施形態の誤変換指摘装置1のハードウェア構成を示す図である。
本実施形態の誤変換指摘装置1の誤変換指摘処理のフローチャートである。
変換後の文章の例を示す図である。
対応読み仮名テーブルを示す図である。
対応漢字含み文字列テーブルを示す図である。
誤変換指摘の例を示す図である。
サーバ400が対応読み仮名テーブル及び対応漢字含み文字列テーブルを備えることを示す図である。

0025

1 誤変換指摘装置
110文章受付手段
120漢字含み文字列抽出手段
130 異読仮名検索手段
140 異漢字変換検索表示手段
150 誤変換指摘手段

発明を実施するための最良の形態

0026

以下、本発明の実施形態について図を参照しながら説明する。

0027

[誤変換指摘装置1の機能構成]
図1は、本発明の一実施形態に係る誤変換指摘装置1の機能構成を示す機能ブロック図である。

0028

誤変換指摘装置1は、文章受付手段110と、漢字含み文字列抽出手段120と、異読仮名検索手段130と、異漢字変換検索表示手段140と、誤変換指摘手段150と、対応読み仮名記憶手段160と、対応漢字含み文字列記憶手段170と、から構成される。

0029

更に、誤変換指摘手段150は、異漢字変換後文字列抽出手段151と、誤変換判定手段152と、から構成される。

0030

文章受付手段110は、変換後の文章(図4で後述)を読み込み、漢字含み文字列抽出手段120は、形態素解析を行い漢字含み文字列を抽出する。

0031

異読仮名検索手段130は、対応読み仮名記憶手段160(図5で後述する対応読み仮名テーブル)を参照して、複数種類の読み仮名を検索し、異漢字変換検索表示手段140は、対応漢字含み文字列記憶手段170(図6で後述する対応漢字含み文字列テーブル)を参照して、複数種類の読み仮名の夫々について漢字変換後の文字列を検索し、検索した文字列を誤変換指摘装置1が備える表示装置(図示せず)に表示する。

0032

誤変換指摘手段150は、異漢字変換検索表示手段140が検索した漢字変換後の文字列及び漢字含み文字列抽出手段120が抽出した文字列に基づいて、漢字含み文字列抽出手段120が抽出した文字列に誤変換があることを指摘する。誤変換判定手段152は、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて誤変換の有無を判定する。

0033

[誤変換指摘装置1のハードウェア構成]
図2は、本実施形態の誤変換指摘装置1のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280、並びに半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280、並びに、半導体メモリ290はまとめて記憶装置310と呼ばれる。

0034

制御部200は、誤変換指摘装置1を統括的に制御する部分であり、ハードディスク270に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェア協働し、本発明に係る各種機能を実現している。

0035

通信I/F230は、誤変換指摘装置1がネットワークを介して他の装置と情報を送受信する場合のネットワーク・アダプタである。

0036

BIOS250は、誤変換指摘装置1の起動時にCPU210が実行するブートプログラムや、誤変換指摘装置1のハードウェアに依存するプログラム等を記録する。

0037

I/Oコントローラ260には、ハードディスク270、光ディスクドライブ280、及び半導体メモリ290等の記憶装置310を接続することができる。

0038

ハードディスク270は、本ハードウェアを誤変換指摘装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するデータテーブル等を記憶する。なお、誤変換指摘装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。

0039

光ディスクドライブ280としては、例えば、DVD−ROMドライブCD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク300を使用する。光ディスク300から光ディスクドライブ280によりプログラム又はデータを読み取り、I/Oコントローラ260を介してメインメモリ240又はハードディスク270に提供することもできる。

0040

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、誤変換指摘装置1は、記憶装置310、制御部200等を備えた情報処理装置により構成される。

0041

以上の例は、誤変換指摘装置1について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した誤変換指摘装置1により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

0042

[誤変換指摘処理のフローチャート]
図3は、誤変換指摘処理のフローチャートである。

0043

ステップS1では、制御部200は、文章入力受付を行う。具体的には、図4に示す、変換後の文章が記憶されたファイルをハードディスク270から読み込み、読み込んだファイルの文章データをメインメモリ240に展開する。

0044

ステップS2では、制御部200は、漢字含み文字列抽出を行う。具体的には、ステップS1で読み込んだファイルの文章データを形態素解析することで漢字含み文字列を抽出する。

0045

ここで、形態素解析とは、コンピュータ等の計算機を用いた自然言語処理基礎技術のひとつであり、対象言語文法の知識(文法のルール集まり)や辞書品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割することである。

0046

例えば、図4に示した変換後の文章に含まれる「草尾剛が」は、「草尾」と「剛」と「が」とに分割される。また、「草尾孝の」は、「草尾」と「孝」と「の」とに分割される。

0047

したがって、図3のステップS2では、漢字含み文字列として、「草尾」、「剛」、「「孝」等が抽出される。ここで、漢字含み文字列としているのは、図4には示されていないが、例えば、「太鼓を叩く」を形態素解析して漢字含み文字列を抽出した場合、「叩く」という形態素が抽出されるので、形態素が必ずしも漢字のみで構成されるとは限らないからである。

0048

なお、漢字含み文字列を抽出する方法は、形態素解析のみで行う方法に限られず、形態素解析をすることに加えて、さらに、漢字辞書人名辞書等を参照して一致する文字の単位で抽出する方法であってもよい。

0049

図3に戻って、ステップS3では、制御部200は、異読仮名検索を行う。具体的には、ステップS2で抽出した漢字含み文字列をキーとして、対応読み仮名テーブル(図5参照)を検索し、2以上の異なる読み仮名がある場合、これらの異なる読み仮名を抽出する。

0050

ここで、図5を参照して、対応読み仮名テーブルについて説明する。この対応読み仮名テーブルは、ハードディスク270の所定の領域に割り当てられており、漢字含み文字列と複数の読み仮名とが対応付けられて記憶されている。

0051

図5の例では、「剛」について「たけし」及び「たかし」が対応付けられている。なお、図示していないが、他の例として「接ぐ」について「つぐ」及び「はぐ」が対応付けられている。

0052

よって、図3のステップS2において抽出された「剛」をキーとして、対応読み仮名テーブルの「漢字含み文字列」欄を検索すると、対応読み仮名として「たけし」及び「たかし」が抽出される。

0053

図3に戻って、ステップS4では、制御部200は、異漢字変換後文字列検索を行う。具体的には、ステップS3で抽出された複数の読み仮名の夫々をキーとして、対応漢字含み文字列テーブル(図6参照)を検索し、対応する漢字含み文字列を抽出する。

0054

ここで、図6を参照して、対応漢字含み文字列テーブルについて説明する。この対応漢字含み文字列テーブルは、ハードディスク270の所定の領域に割り当てられており、読み仮名と漢字含み文字列とが対応付けられて記憶されている。

0055

図6の例では、「たけし」について、「武」、「毅」、「健」等が、「たかし」について、「崇志」、「孝」、「隆」等が対応付けられている。なお、図示していないが、他の例として、「つぐ」について、「接ぐ」、「告ぐ」、「注ぐ」等が、「はぐ」について、「接ぐ」、「剥ぐ」等が対応付けられている。

0056

よって、図3のステップS3で抽出された「たけし」及び「たかし」をキーとして対応漢字含み文字列テーブルの「読み仮名」欄を検索すると、対応漢字含み文字列として「武」、「毅」、「健」、「崇志」、「孝」、「隆」等が抽出される。

0057

図3に戻って、ステップS5では、制御部200は、検索した文字列を表示する。具体的には、ステップS4で検索した対応漢字含み文字列を誤変換指摘装置1が備える表示装置(図示せず)に表示する。

0058

これにより、一の漢字含み文字列(例えば、「剛」)に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列(例えば、「武」、「毅」、「健」、「崇志」、「孝」、「隆」等)を、当該一の漢字含み文字列に対する修正候補として表示することができる。

0059

図3に戻って、ステップS6では、制御部200は、受け付けた文章の中から異漢字変換後文字列を抽出する。具体的には、ステップS1で受け付けた文章(図4で示した変換後の文章)の中から、ステップS4で抽出した漢字含み文字列(異漢字変換後文字列)を抽出する。

0060

例えば、ステップS4で抽出した漢字含み文字列である「武」、「毅」、「健」、「崇志」、「孝」、「隆」等が、ステップS1で受け付けた文章中に含まれているか否かを判断し、含まれている場合には、含まれていると判断された漢字含み文字列を抽出する。本実施例において図4で示した変換後の文章に含まれていると判断されるのは、「孝」である。

0061

図3に戻って、ステップS7では、制御部200は、誤変換判定を行う。具体的には、ステップS6で抽出された漢字含み文字列(異漢字変換後文字列)と、ステップS2で抽出された漢字含み文字列であって対応漢字含み文字列を抽出する基となった文字列とに基づいて誤変換判定を行う。

0062

本実施形態では、ステップS6で抽出した漢字含み文字列は「孝」、ステップS2で抽出された漢字含み文字列であって対応漢字含み文字列を抽出する基となった文字列は「剛」である。

0063

この誤変換判定の処理では、「剛」が誤変換であるか否かを判定する。

0064

詳細には、「剛」及び「孝」を同音異義語リストとして、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて、ステップS1で読み込んだ文章中における「剛」のPLSAによってモデル化される大域的出現確率及びngramでモデル化される局所的出現確率に基づいて定義される尤度(以下、「尤度」とする)と、「孝」の尤度とを計算する。次に、誤り判定の計算として、計算した尤度の比の対数を算出し、算出した対数の値が一定の閾値を超えた場合に、「剛」に誤変換があると判定する。

0065

計算方法としては、d=log{(「剛」の尤度)/(「孝」の尤度)}を計算し、d<0となった場合に、「剛」に誤変換があると判定できる。しかし、判定条件がd<0では、「孝」の尤度が「剛」の尤度とほとんど変わらず、若干高い程度(例えば、「孝」の尤度が50で、「剛」の尤度が49)でも誤変換であると判定されてしまうので、判定条件d<0の閾値「0」の値は、負の数であることを条件に、適宜調節するようにしてもよい(例えば、d<−0.5等)。

0066

ステップS8では、制御部200は、誤変換指摘を行う。具体的には、一方の同音異義語に誤変換があると判定された場合に、他方の同音異義語が正しいことを指摘する。

0067

具体例としては、図7に示すように、「剛」に対して「孝」を指摘する。更に、この図7に示した内容を、誤変換指摘装置1が備える表示装置(図示せず)に表示することで、ユーザは、誤変換があることを認識できる。

0068

誤変換があることを認識したユーザは、「剛」を「孝」に変更するか否かを判断し、変更する場合には、誤変換指摘装置1が備える変更確定タン(図示せず)を押下することで、変更を確定することができる。

0069

図3のステップS8の処理が終了すると、制御部200は、誤変換指摘処理を終了する。

0070

以上の処理を行うことにより、一の漢字含み文字列に複数の読み仮名がある場合、この複数の読み仮名に夫々対応する漢字変換後の文字列を含めて一の漢字含み文字列に誤変換があることを指摘することができる。

0071

以上、実施例では、対応読み仮名テーブル(図5)及び対応漢字含み文字列テーブル(図6)が誤変換指摘装置1に備えられているが、これに限られるものではない。例えば、図8に示すように、サーバ400が対応読み仮名記憶手段160及び対応漢字含み文字列記憶手段170を備えるようにして、誤変換指摘装置1と通信しつつ、サーバ400内の対応読み仮名記憶手段160及び対応漢字含み文字列記憶手段170を検索する(図3のステップS3及びステップS4における処理を行う)ようにしてもよい。

0072

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ