図面 (/)

技術 変換位置に基づいて誤変換を指摘する誤変換指摘装置及びその方法

出願人 ヤフー株式会社
発明者 町永圭吾
出願日 2009年3月11日 (11年8ヶ月経過) 出願番号 2009-058168
公開日 2010年9月24日 (10年1ヶ月経過) 公開番号 2010-211609
状態 特許登録済
技術分野 文書処理装置 文書処理装置
主要キーワード 練習生 変換位置 変換誤り 囲み部分 変更確定 いかだ 変換フラグ 起動結果
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2010年9月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (17)

課題

文章中の同音異義語検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘すること。

解決手段

変換位置記憶手段120は、仮名文字列漢字変換後の変換位置を記憶し、検査対象語抽出手段140は、漢字変換後の文章の中に含まれる検査対象語を抽出し、誤変換指摘手段150は、変換位置記憶手段が記憶する変換位置に基づいて、検査対象語抽出手段により抽出された検査対象語に誤変換があることを指摘する。

概要

背景

従来、仮名漢字変換に起因する同音異義語誤り検出訂正の方法として、確率的LSAを用いた日本語同音異義語誤りの検出・訂正の方法(非特許文献1)がある。

この方法では、同音異義語のngramでモデル化される局所出現確率及びPLSAによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。

概要

文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘すること。変換位置記憶手段120は、仮名文字列漢字変換後の変換位置を記憶し、検査対象語抽出手段140は、漢字変換後の文章の中に含まれる検査対象語を抽出し、誤変換指摘手段150は、変換位置記憶手段が記憶する変換位置に基づいて、検査対象語抽出手段により抽出された検査対象語に誤変換があることを指摘する。

目的

本発明は、文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘することを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

変換後の文字列により構成された文章の中に含まれる、誤変換を指摘する誤変換指摘装置であって、仮名文字列漢字変換後変換位置を記憶する変換位置記憶手段と、漢字変換後の文章全体を仮名文字列に変換した際に、当該仮名文字列の最長の共通部分検査対象語として抽出する検査対象語抽出手段と、前記変換位置記憶手段が記憶する変換位置に基づいて、前記検査対象語抽出手段により抽出された検査対象語に誤変換があることを指摘する誤変換指摘手段と、を備えることを特徴とする誤変換指摘装置。

請求項2

前記検査対象語抽出手段は、前記漢字変換後の文章を形態素に分割する形態素分割手段と、分割された形態素を仮名文字列に変換する仮名変換手段と、仮名文字列に変換された形態素を連結する仮名形態素連結手段と、連結された形態素である連結形態素の中から同一の連結形態素を抽出する同一連結形態素抽出手段と、を備え、前記漢字変換後の文章の中から、抽出した同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする請求項1記載の誤変換指摘装置。

請求項3

前記変換位置記憶手段は、仮名文字列と漢字変換後の文字列と前記変換位置とを対応付けて記憶しており、前記誤変換指摘手段は、前記変換位置記憶手段を参照することにより、前記検査対象語抽出手段により抽出された検査対象語の変換位置を抽出する変換位置抽出手段と、前記抽出された変換位置に基づいて、前記抽出された検査対象語に誤変換の可能性があることを示唆する誤変換フラグ起動する誤変換フラグ起動手段と、前記誤変換フラグが起動した場合に、前記抽出された検査対象語に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換があると判定された場合に、前記抽出された検査対象語に誤変換があることを指摘することを特徴とする請求項1又は2に記載の誤変換指摘装置。

請求項4

変換後の文字列により構成された文章の中に含まれる、誤変換を指摘する誤変換指摘方法であって、仮名文字列の漢字変換後の変換位置を記憶するステップと、漢字変換後の文章全体を仮名文字列に変換した際に、当該仮名文字列の最長の共通部分を検査対象語として抽出するステップと、前記記憶された変換位置に基づいて、前記抽出された検査対象語に誤変換があることを指摘するステップと、を備えることを特徴とする誤変換指摘方法。

請求項5

前記検査対象語として抽出するステップでは、前記漢字変換後の文章を形態素に分割し、分割された形態素を仮名文字列に変換し、仮名文字列に変換された形態素を連結し、連結された形態素である連結形態素の中から同一の連結形態素を抽出し、前記漢字変換後の文章の中から、抽出した同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする請求項4記載の誤変換指摘方法。

請求項6

前記変換位置を記憶するステップでは、同一の仮名文字列と漢字変換後の文字列と前記変換位置とを対応付けて記憶し、前記誤変換があることを指摘するステップでは、前記記憶された変換位置を参照することにより、前記検査対象語を抽出するステップにおいて抽出した検査対象語の変換位置を抽出し、前記抽出された変換位置に基づいて、前記抽出された検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動し、前記誤変換フラグが起動した場合に、前記抽出された検査対象語に誤変換があるか否かを判定し、前記誤変換があると判定された場合に、前記抽出された検査対象語に誤変換があることを指摘することを特徴とする請求項4又は5に記載の誤変換指摘方法。

技術分野

0001

本発明は、変換後の文字列により構成された文章の中に含まれる同音異義語の誤変換を指摘する誤変換指摘装置及びその方法に関する。

背景技術

0002

従来、仮名漢字変換に起因する同音異義語の誤り検出訂正の方法として、確率的LSAを用いた日本語同音異義語誤りの検出・訂正の方法(非特許文献1)がある。

0003

この方法では、同音異義語のngramでモデル化される局所出現確率及びPLSAによってモデル化される大域的出現確率に基づいて定義される尤度を用いて誤変換の有無を判定する。

先行技術

0004

三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9

発明が解決しようとする課題

0005

しかし、漢字変換後の文章における入力時の変換位置の違いは考慮されていないため、例えば、「練習成果」、「練習生可」等のような変換位置が異なる同音異義語(検査対象語)に対しては、誤り検出ができなかった。

0006

そこで、本発明は、文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘することを目的とする。

課題を解決するための手段

0007

本発明では、以下のような解決手段を提供する。

0008

(1) 変換後の文字列により構成された文章の中に含まれる、誤変換を指摘する誤変換指摘装置であって、仮名文字列の漢字変換後の変換位置を記憶する変換位置記憶手段と、漢字変換後の文章全体仮名文字に変換した際に、最長の共通部分を検査対象語として抽出する検査対象語抽出手段と、前記変換位置記憶手段が記憶する変換位置に基づいて、前記検査対象語抽出手段により抽出された検査対象語に誤変換があることを指摘する誤変換指摘手段と、を備えることを特徴とする誤変換指摘装置。

0009

(1)の構成によれば、変換位置記憶手段は、仮名文字列の漢字変換後の変換位置を記憶し、検査対象語抽出手段は、漢字変換後の文章の中に含まれる検査対象語を抽出し、誤変換指摘手段は、変換位置記憶手段が記憶する変換位置に基づいて、検査対象語抽出手段により抽出された検査対象語に誤変換があることを指摘する。

0010

これにより、文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘することができる。

0011

(2) 前記検査対象語抽出手段は、前記漢字変換後の文章を形態素に分割する形態素分割手段と、分割された形態素を仮名文字列に変換する仮名変換手段と、仮名文字列に変換された形態素を連結する仮名形態素連結手段と、連結された形態素である連結形態素の中から同一の連結形態素を抽出する同一連結形態素抽出手段と、を備え、前記漢字変換後の文章の中から、抽出した同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする請求項1記載の誤変換指摘装置。

0012

(2)の構成によれば、検査対象語抽出手段は、漢字変換後の文章を形態素に分割し、分割された形態素を仮名文字列に変換し、仮名文字列に変換された形態素を連結し、連結された形態素である連結形態素の中から同一の連結形態素を抽出し、漢字変換後の文章の中から、抽出した同一の連結形態素に対応する文字列を検査対象語として抽出する。

0013

ここで、(1)の発明では、漢字変換後の文章全体を仮名文字に変換した際に、最長の共通部分を検査対象語として抽出するので、検査対象語が長すぎて的確に誤変換指摘ができないおそれがあるが、(2)の構成により、検査対象語を的確な長さで抽出することができるので、最適な方法で誤変換指摘ができる。

0014

(3) 前記変換位置記憶手段は、仮名文字列と漢字変換後の文字列と前記変換位置とを対応付けて記憶しており、前記誤変換指摘手段は、前記変換位置記憶手段を参照することにより、前記検査対象語抽出手段により抽出された検査対象語の変換位置を抽出する変換位置抽出手段と、前記抽出された変換位置に基づいて、前記抽出された検査対象語に誤変換の可能性があることを示唆する誤変換フラグ起動する誤変換フラグ起動手段と、前記誤変換フラグが起動した場合に、前記抽出された検査対象語に誤変換があるか否かを判定する誤変換判定手段と、を備え、前記誤変換があると判定された場合に、前記抽出された検査対象語に誤変換があることを指摘することを特徴とする(1)又は(2)に記載の誤変換指摘装置。

0015

(3)の構成によれば、変換位置抽出手段は、抽出された検査対象語の変換位置を抽出し、誤変換フラグ起動手段は、変換位置抽出手段により抽出された変換位置に基づいて、抽出された検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動する。さらに、誤変換判定手段は、誤変換フラグが起動した場合に、抽出された検査対象語に誤変換があるか否かを判定し、誤変換があると判定された場合に、抽出された検査対象語に誤変換があることを指摘する。

0016

これにより、変換位置抽出手段により抽出された変換位置に基づいて、検査対象語に誤変換の可能性がある場合にのみ、検査対象語に誤変換があるか否かを判定するので、誤変換の判定対象絞り込むことができる。よって、誤変換判定処理が不要な場合は当該処理を行わないで済むので、誤変換判定処理の処理効率アップさせることができる。

0017

(4) 変換後の文字列により構成された文章の中に含まれる、誤変換を指摘する誤変換指摘方法であって、仮名文字列の漢字変換後の変換位置を記憶するステップと、漢字変換後の文章全体を仮名文字に変換した際に、最長の共通部分を検査対象語として抽出するステップと、前記記憶された変換位置に基づいて、前記抽出された検査対象語に誤変換があることを指摘するステップと、を備えることを特徴とする誤変換指摘方法。

0018

(4)の構成によれば、(1)の誤変換指摘装置と同様な作用効果を奏する。

0019

(5) 前記検査対象語として抽出するステップでは、前記漢字変換後の文章を形態素に分割し、分割された形態素を仮名文字列に変換し、仮名文字列に変換された形態素を連結し、連結された形態素である連結形態素の中から同一の連結形態素を抽出し、前記漢字変換後の文章の中から、抽出した同一の連結形態素に対応する文字列を検査対象語として抽出することを特徴とする(4)記載の誤変換指摘方法。

0020

(5)の構成によれば、(2)の誤変換指摘装置と同様な作用効果を奏する。

0021

(6) 前記変換位置を記憶するステップでは、同一の仮名文字列と漢字変換後の文字列と前記変換位置とを対応付けて記憶し、前記誤変換があることを指摘するステップでは、前記記憶された変換位置を参照することにより、前記検査対象語を抽出するステップにおいて抽出した検査対象語の変換位置を抽出し、前記抽出された変換位置に基づいて、前記抽出された検査対象語に誤変換の可能性があることを示唆する誤変換フラグを起動し、前記誤変換フラグが起動した場合に、前記抽出された検査対象語に誤変換があるか否かを判定し、前記誤変換があると判定された場合に、前記抽出された検査対象語に誤変換があることを指摘することを特徴とする(4)又は(5)に記載の誤変換指摘方法。

0022

(6)の構成によれば、(3)の誤変換指摘装置と同様な作用効果を奏する。

発明の効果

0023

本発明によれば、文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘することができる。

図面の簡単な説明

0024

本実施形態の誤変換指摘装置1の機能構成を示す機能ブロック図である。
本実施形態の誤変換指摘装置1のハードウェア構成を示す図である。
本実施形態の誤変換指摘装置1の文字入力時処理のフローチャートである。
本実施形態の誤変換指摘装置1の誤変換指摘処理のフローチャートである。
入力時における入力文字列の例を示す図である。
変換後の文章の例を示す図である。
変換単位文字列テーブルを示す図である。
変換位置テーブルを示す図である。
検査対象語抽出結果テーブルを示す図である。
変換位置抽出結果テーブルを示す図である。
誤変換フラグ起動結果テーブルを示す図である。
誤変換指摘の例を示す図である。
サーバ400が変換位置テーブルを備えることを示す図である。
検査対象語抽出処理のフローチャートである。
形態素解析、仮名変換及び隣接2形態素の連結の過程を示す図である。
同一仮名検索テーブルを示す図である。

実施例

0025

以下、本発明の実施形態について図を参照しながら説明する。

0026

[誤変換指摘装置1の機能構成]
図1は、本発明の一実施形態に係る誤変換指摘装置1の機能構成を示す機能ブロック図である。

0027

誤変換指摘装置1は、同一仮名文字列抽出手段110と、変換位置記憶手段120と、文章受付手段130と、検査対象語抽出手段140と、誤変換指摘手段150と、から構成される。

0028

さらに、誤変換指摘手段150は、変換位置抽出手段151と、誤変換フラグ起動手段152と、誤変換判定手段153と、から構成される。変換位置抽出手段151は、変換位置記憶手段120を参照して、変換位置を抽出する。

0029

同一仮名文字列抽出手段110は、文章を構成する仮名文字列から同一の仮名文字列を抽出し、抽出した同一の仮名文字列の漢字変換後の変換位置を変換位置記憶手段120(図8で後述する変換位置テーブル)に記憶する。

0030

文章受付手段130は、漢字変換後の文章(図6で後述する変換後の文章)の入力を受け付け、検査対象語抽出手段140は、検査対象語を抽出し、誤変換指摘手段150は、抽出した検査対象語に誤変換がある場合、誤変換があることを指摘する。

0031

その際、誤変換指摘手段150が備える誤変換フラグ起動手段152が、誤変換フラグを起動した場合(変換位置に基づいた誤変換の可能性がある場合)に限って、誤変換判定手段153が、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて誤変換の有無を判定する。

0032

[誤変換指摘装置1のハードウェア構成]
図2は、本実施形態の誤変換指摘装置1のハードウェア構成を示す図である。図2に示すように、制御部200を構成するCPU(Central Processing Unit)210(マルチプロセッサ構成ではCPU220等複数のCPUが追加されてもよい)、バスライン100、通信I/F(I/F:インタフェース)230、メインメモリ240、BIOS(Basic Input Output System)250、I/Oコントローラ260、ハードディスク270、光ディスクドライブ280、並びに半導体メモリ290を備える。なお、ハードディスク270、光ディスクドライブ280、並びに、半導体メモリ290はまとめて記憶装置310と呼ばれる。

0033

制御部200は、誤変換指摘装置1を統括的に制御する部分であり、ハードディスク270に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェア協働し、本発明に係る各種機能を実現している。

0034

通信I/F230は、誤変換指摘装置1がネットワークを介して他の装置と情報を送受信する場合のネットワーク・アダプタである。

0035

BIOS250は、誤変換指摘装置1の起動時にCPU210が実行するブートプログラムや、誤変換指摘装置1のハードウェアに依存するプログラム等を記録する。

0036

I/Oコントローラ260には、ハードディスク270、光ディスクドライブ280、及び半導体メモリ290等の記憶装置310を接続することができる。

0037

ハードディスク270は、本ハードウェアを誤変換指摘装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するデータテーブル等を記憶する。なお、誤変換指摘装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。

0038

光ディスクドライブ280としては、例えば、DVD−ROMドライブCD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク300を使用する。光ディスク300から光ディスクドライブ280によりプログラム又はデータを読み取り、I/Oコントローラ260を介してメインメモリ240又はハードディスク270に提供することもできる。

0039

なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、誤変換指摘装置1は、記憶装置310、制御部200等を備えた情報処理装置により構成される。

0040

以上の例は、誤変換指摘装置1について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した誤変換指摘装置1により実現される機能は、上述の方法を当該コンピュータにより実行することにより、或いは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

0041

文字入力処理のフローチャート]
図3は、文字入力処理のフローチャートである。

0042

まず、ステップS1では、制御部200は、仮名文字列の入力受付を行う。具体的には、誤変換指摘装置1に備えられたキーボート等の入力装置(図示せず)から、仮名文字列の入力を受け付ける。

0043

ステップS2では、制御部200は、漢字変換を行う。具体的には、ステップS1で受け付けた仮名文字列を漢字を含む文字列に漢字変換する。

0044

ここで、図5及び図6を参照して、図3のステップS1及びステップS2における変換処理の具体例を説明する。

0045

図5は、入力時における入力文字列の例であり、囲み部分図5における「やっと」、「れんしゅう」等)を入力する度に漢字変換が行われる。漢字変換は、文字を入力するユーザによって、入力装置の漢字変換に対応するキー(図示せず)が押下されるタイミングで行われる。

0046

図6は、変換後の文章の例であり、図5の囲み部分に対応して漢字変換がなされている。具体的に説明すると、「やっと」を入力し、入力装置の漢字変換に対応するキー(以下、「漢字変換キー」とする。)が押下されると、「やっと」と変換され、「れんしゅう」を入力し、漢字変換キーが押下されると、「練習」と変換され、以下、同様に繰り返される。

0047

図3に戻って、ステップS3では、制御部200は、変換単位文字列テーブル(図7)の作成を行う。この変換単位文字列テーブルは、メインメモリ240の所定領域に作成される。

0048

ここで、図7を参照して、変換単位文字列テーブルについて説明する。この変換単位文字列テーブルには、漢字変換の単位毎に変換前の文字列と変換後の文字列とが対応付けられており、漢字変換キーが押下されたタイミングで、最下段に変換前の文字列と変換後の文字列とが追加して格納される。

0049

例えば、図5の囲み部分「せいか」が入力され、漢字変換キーが押下されると、「せいか」が「変換前」欄に、「成果」が「変換後」欄に、追加して格納される。

0050

図3に戻って、ステップS4では、制御部200は、文章作成終了か否かを判定する。この処理がYESと判定される場合、ステップS5に処理を移し、NOと判定される場合、処理をステップS1に戻す。具体的に文章作成終了を判定する方法は、例えば、文章が作成されたファイルが閉じられたことを制御部200が検知すること等である。なお、文章が作成されたファイルが閉じられると、図6に示す変換後の文章が記憶されたファイルが、ハードディスク270に記憶される。さらに、変換前の仮名文字列のみで構成されるファイル(図5に示す例において囲み部分を省いて漢字変換をしないものに相当)が、メインメモリ240に記憶される。

0051

ここで、変換前の仮名文字列のみで構成されるファイルの作成方法は、上述した変換単位文字列テーブル(図7)の「変換前」欄の最上段に格納された仮名文字列から、下段に向かって最下段に至るまで順次に仮名文字列を抽出しファイルに展開する方法などが挙げられる。

0052

図3に戻って、ステップS5では、制御部200は、同一仮名文字列抽出を行う。具体的には、上述した変換前の仮名文字列のみで構成されるファイルから、同一仮名文字列を検索して抽出する。

0053

ここで、抽出される文字列は、「れんしゅうせいか」など複数存在する。

0054

ステップS6では、制御部200は、変換位置テーブル(図8)を作成する。

0055

ここで、図8を参照して、変換位置テーブルについて説明する。この変換位置テーブルは、ハードディスク270の所定の領域に割り当てられている。

0056

図8では、説明の便宜のために「れんしゅうせいか」に絞っているが、実際には、図3のステップS5で抽出された文字列の全てについて、変換位置テーブルに書き込まれる。

0057

具体的には、変換単位文字列テーブル(図7)の「変換前」欄を検索し、2連続する仮名文字列データを結合し、ステップS5で抽出された文字列の全てと比較する。比較した結果、一致した文字列が存在した場合、この文字列の変換位置(何文字目の後で漢字変換キーが押下されたか)を判定し、この文字列について、変換位置テーブル(図8)の「入力ワード」欄、「変換後」欄、「変換位置」欄にデータが記憶される。

0058

変換単位文字列テーブル(図7)の「変換前」欄を参照すると、「れんしゅう」及び「せいか」が2連続しているので、「れんしゅうせいか」が、変換位置テーブル(図8)の入力ワード欄にデータ形式で記憶される。さらに、「れんしゅう」及び「せいか」にそれぞれ対応する「練習」及び「成果」を結合した「練習成果」が変換後欄にデータ形式で記憶される。変換位置については、「れんしゅう」は「れんしゅうせいか」の左から5文字分であるので、「5文字目の後」が変換位置欄にデータ形式で記憶される。

0059

ここで、データ形式で記憶されるとは、文字コード等のデータが記憶されることであり、具体例を挙げれば、文字列「れんしゅうせいか」及び「練習成果」を構成する単位文字のそれぞれの文字コードが記憶されることである。また、「5文字目の後」については、「5」等の数値データが記憶されることである。

0060

「れんしゅうせい」及び「か」についても同様に、変換位置テーブルの「入力ワード」欄、「変換後」欄、「変換位置」欄に、それぞれ、「れんしゅうせいか」、「練習生可」、「7文字目の後」が、データ形式で記憶される。

0061

図3のステップS6の処理が終了すると、制御部200は、文字入力時処理を終了する。

0062

[誤変換指摘処理のフローチャート]
図4は、誤変換指摘処理のフローチャートである。

0063

ステップS11では、制御部200は、文章入力受付を行う。具体的には、図6に示す、変換後の文章が記憶されたファイルをハードディスク270から読み込み、読み込んだファイルの文章データをメインメモリ240に展開する。

0064

図4に戻って、ステップS12では、制御部200は、検査対象語抽出を行う。具体的には、図6に示す漢字変換後の文章全体を仮名文字に変換し、変換した仮名文字の最長の共通部分に対応する漢字変換後の文字列を検査対象語として抽出する。

0065

詳細に説明すると、図6に示す「やっと練習成果が出た・・・これも練習生可だと思う・・・」を仮名文字に変換すると、「やっとれんしゅうせいかがでた・・・これもれんしゅうせいかだとおもう・・・」となる。さらに、「やっとれんしゅうせいかがでた・・・これもれんしゅうせいかだとおもう・・・」の中から、最長の共通部分の文字列を抽出すると、「れんしゅうせいか」が得られる。さらにまた、「れんしゅうせいか」に対応する漢字変換後の文字列は、「練習成果」及び「練習生可」であるから、検査対象語は、「練習成果」及び「練習生可」となる。検査対象語を抽出したら、抽出した検査対象語と仮名文字列を対応付けて、検査対象語抽出結果テーブル(図9)を作成する。この検査対象語抽出結果テーブルは、メインメモリ240の所定領域に作成される。

0066

図9を参照して、検査対象語抽出結果テーブルについて説明する。この検査対象語抽出結果テーブルは、同一仮名文字列と検査対象語との対応関係を表すテーブルある。

0067

このテーブルによれば、「れんしゅうせいか」に対応する検査対象語は「練習成果」及び「練習生可」である。

0068

図4に戻って、ステップS13では、制御部200は、変換位置抽出を行う。具体的には、検査対象語についての変換位置を、図8に示した変換位置テーブルを参照して抽出する。

0069

ここで、変換位置の抽出方法について説明すると、図9に示した検査対象語抽出結果テーブルの「検査対象語」欄に格納されたデータをキーとして、図8に示した変換位置テーブルの「変換後」欄を検索して、変換位置を抽出する。

0070

例えば、図9に示した検査対象語抽出結果テーブルの「検査対象語」欄に格納された「練習成果」をキーとした場合、変換位置として「5文字目の後」が抽出される。同様に、「練習生可」をキーとした場合、変換位置として「7文字目の後」が抽出される。

0071

抽出されたデータは、変換位置抽出結果テーブル(図10)の「変換位置」欄に記憶される。

0072

図10を参照して、変換位置抽出結果テーブルについて説明する。この変換位置抽出結果テーブルは、図9に示した検査対象語抽出結果テーブルに「変換位置」欄を追加したテーブルであり、メインメモリ240に記憶された検査対象語抽出結果テーブルに「変換位置」欄を結合して作成される。

0073

図4に戻って、ステップS14では、制御部200は、誤変換フラグ起動を行う。具体的には、変換位置抽出結果テーブル(図10)における「検査対象語」欄に格納された複数の検査対象語にそれぞれ対応する変換位置を比較し、異なっている場合には、誤変換フラグ(変換位置の違いによる誤変換の可能性があることを示唆するフラグ)を起動(オンにする)し、同じ場合には、誤変換フラグを起動しない(オフのまま)。

0074

実施例では、変換位置抽出結果テーブル(図10)における変換位置は、「練習成果」と「練習生可」とで異なっているので、誤変換フラグを「オン」にする。

0075

誤変換フラグが起動したか否かについては、図11に示す誤変換フラグ起動結果テーブルに記憶される。

0076

図11を参照して、誤変換フラグ起動結果テーブルについて説明する。この誤変換フラグ起動結果テーブルは、図10に示した変換位置抽出結果テーブルに「誤変換フラグ」欄を追加したテーブルであり、メインメモリ240に記憶された変換位置抽出結果テーブルに「誤変換フラグ」欄を結合して作成される。

0077

ここで、誤変換フラグが起動した場合には、「誤変換フラグ」欄に「オン」が格納され、起動しない場合には、「オフ」が格納される。「オン」を数値データの「1」、「オフ」を「0」としてもよい。

0078

図11の誤変換フラグ起動結果テーブルを参照することにより、検査対象語について変換位置の違いによる誤変換の可能性があるか否かが分かる。図11の例で説明すると、誤変換フラグがオンとなっているので、「練習成果」又は「練習生可」に誤変換の可能性があることが分かる。

0079

図4に戻って、ステップS15では、制御部200は、誤変換判定を行う。この誤変換判定の処理(及びステップS16の誤変換指摘の処理)は、ステップS14の処理で、誤変換フラグが起動した場合にのみ実行される。

0080

誤変換判定の処理では、「練習成果」又は「練習生可」のどちらが誤変換であるかを判定する。

0081

まず、「練習生可」に誤変換があるか否かを判定する方法について説明する。

0082

詳細には、「練習成果」及び「練習生可」を同音異義語リストとして、ngram+PLSAの手法(三品拓也、貞光九月、山本幹雄「確率的LSAを用いた日本語同音異義語誤りの検出・訂正」、情報処理学会論文誌、平成16年9月、Vol.45、No.9、p.1−9)を用いて、ステップS11で読み込んだ文章中における「練習成果」のPLSAによってモデル化される大域的出現確率及びngramでモデル化される局所的出現確率に基づいて定義される尤度(以下、「尤度」とする)と、「練習生可」の尤度とを計算する。次に、誤り判定の計算として、計算した尤度の比の対数を算出し、算出した対数の値が一定の閾値を超えた場合に、「練習生可」に誤変換があると判定する。

0083

計算方法としては、d=log{(「練習生可」の尤度)/(「練習成果」の尤度)}を計算し、d<0となった場合に、「練習生可」に誤変換があると判定できる。しかし、判定条件がd<0では、「練習成果」の尤度が「練習生可」の尤度とほとんど変わらず、若干高い程度(例えば、「練習成果」の尤度が50で、「練習生可」の尤度が49)でも誤変換であると判定されてしまうので、判定条件d<0の閾値「0」の値は、負の数であることを条件に、適宜調節するようにしてもよい(例えば、d<−0.5等)。

0084

一方、「練習成果」に誤変換があるか否かを判定する方法は、上記と同様の方法で、d=log{(「練習成果」の尤度)/(「練習生可」の尤度)}を計算することで行う。

0085

ステップS16では、制御部200は、誤変換指摘を行う。この誤変換指摘の処理は、ステップS15の処理で、誤変換があると判定された場合にのみ実行される。

0086

具体的には、一方の検査対象語に誤変換があると判定された場合に、他方の検査対象語が正しいことを指摘する。具体例としては、図12に示すように、「練習生可」に誤変換があると判定された場合、「練習生可」に対して「練習成果」を指摘する。さらに、この図13に示した内容を、誤変換指摘装置1が備える表示装置(図示せず)に表示することで、ユーザは、誤変換があることを認識できる。

0087

誤変換があることを認識したユーザは、「練習生可」を「練習成果」に変更するか否かを判断し、変更する場合には、誤変換指摘装置1が備える変更確定タン(図示せず)を押下することで、変更を確定することができる。

0088

図4のステップS16の処理が終了すると、制御部200は、誤変換指摘処理を終了する。

0089

以上の処理を行うことにより、文章中の同音異義語(検査対象語)について変換位置が異なる場合であっても、変換誤りを指摘することができる。

0090

さらに、誤変換フラグが起動した場合にのみ、検査対象語に誤変換があるか否かを判定するので、誤変換の判定対象を絞り込むことができ、誤変換判定処理の処理効率をアップさせることができる。

0091

以上、実施例では、変換位置テーブル(図8)が誤変換指摘装置1に備えられているが、これに限られるものではない。例えば、図13に示すように、サーバ400が変換位置テーブルを備えるようにして、誤変換指摘装置1と通信しつつ、サーバ400内の変換位置テーブルを作成し(図3のステップS6における処理を行う)、さらに、参照する(図4のステップS12及びステップS13における処理を行う)ようにしてもよい。

0092

また、実施例における図4のステップS12における検査対象語抽出処理では、図6に示す漢字変換後の文章全体を仮名文字に変換し、変換した仮名文字の最長の共通部分に対応する漢字変換後の文字列を検査対象語として抽出したが、これに限られるものではない。後述する図14に示す、ステップS31からステップS36の処理を、図4のステップS12の処理に替えて行うようにしてもよい。

0093

以下、図14を参照して、検査対象語抽出処理について説明する。

0094

ステップS31では、制御部200は、形態素解析を行う。具体的には、図4のステップS11で読み込んだファイルの文章データを形態素解析する。ステップS32では、制御部200は、仮名変換を行い、ステップS33では、制御部200は、隣接2形態素の連結を行う。

0095

ここで、形態素解析とは、コンピュータ等の計算機を用いた自然言語処理基礎技術のひとつであり、対象言語文法の知識(文法のルール集まり)や辞書品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(おおまかにいえば、言語で意味を持つ最小単位)の列に分割することである。

0096

図15を参照して、形態素解析の具体例について、仮名変換と隣接2形態素の連結をも含めて説明する。図15は、形態素解析の過程と、隣接2形態素の連結とを示す図である。例えば、「練習成果」について形態素解析を行うと、「練習」と「成果」と、に分割される(図15丸数字1)。

0097

次に、分割された形態素である「練習」及び「成果」を仮名変換し、それぞれ「れんしゅう」及び「せいか」に変換する(図15の丸囲み数字2)。

0098

次に、隣接2形態素(分割された形態素のうち互いに隣接する二つの形態素)の連結であるが、「れんしゅう」及び「せいか」は、互いに隣接するので、これらを連結して「れんしゅうせいか」とする(図15の丸数字3)。

0099

「練習生可だ」については、形態素解析を行い(図15の丸囲み数字1)、「練習生」と「可」と「だ」に分割し、仮名変換を行い(図15の丸囲み数字2)、それぞれ「れんしゅうせい」と「か」と「だ」に変換し、隣接2形態素の連結を行い、「れんしゅうせいか」と「かだ」とする。

0100

この形態素解析、仮名変換、隣接2形態素の連結の過程は、制御部200によりデータとしてメインメモリ240に一時的に記憶される。

0101

図14に戻って、ステップS34では、制御部200は、同一仮名検索テーブル(図16参照)の作成を行う。具体的には、図15で説明した、連結された隣接2形態素(以下、「連結形態素」という。)を含む形態素のそれぞれについて、ステップS11で読み込んだファイルの文章中の文字列との対応関係と、形態素に分割する前の文字列との対応関係と、をハードディスク270の所定の領域に割り当てられた同一仮名検索テーブルに記憶する。

0102

図16を参照して、同一仮名検索テーブルについて説明する。この同一仮名検索テーブルは、上述したように、仮名のみの連結形態素を含む形態素(連結形態素を含む形態素(仮名のみ))と、文章中の文字列(連結形態素を含む形態素(文章中))と、形態素に分割する前の文字列(形態素に分ける前)と、の対応関係を記憶するテーブルである。

0103

この同一仮名検索テーブルは、メインメモリ240にデータとして記憶された、形態素解析、仮名変換、隣接2形態素の連結の過程のデータに基づいて作成される。

0104

例えば、図15における連結形態素としての「れんしゅうせいか」について、図16の同一仮名検索テーブルでの対応関係を説明すると、文章中の文字列「練習成果」及び「練習生可」に対応しており、形態素に分ける前では「練習成果」及び「練習生可だ」に対応している。

0105

図14に戻って、ステップS35では、制御部200は、同一仮名検索を行う。具体的には、同一仮名検索テーブル(図16)を参照して、「連結形態素を含む形態素(仮名のみ)」欄を参照して、同一仮名の検索(2以上の同文字列があれば同一仮名が存在することになる)を行う。

0106

例えば、図16の同一仮名検索テーブルでは、検索結果として「れんしゅうせいか」が同一仮名として抽出される。

0107

図14に戻って、ステップS36では、制御部200は、検査対象語抽出を行う。具体的には、図16の同一仮名検索テーブルから、同一仮名として検索された連結形態素を含む形態素(仮名のみ)に対応する連結形態素を含む形態素(文章中)を抽出する。

0108

例えば、検索された同一仮名は「れんしゅうせいか」であるので、「れんしゅうせいか」に対応する行のデータ(「練習成果」及び「練習生可」)を抽出して、上述した検査対象語抽出結果テーブル(図9)を作成する。

0109

ステップS36の処理が終了すると、制御部200は、図4のステップS13の処理を行う。

0110

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

0111

1 誤変換指摘装置
110 同一仮名文字列抽出手段
120変換位置記憶手段
130文章受付手段
140検査対象語抽出手段
150 誤変換指摘手段

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ