図面 (/)

技術 文字列検索プログラム、文字列検索方法及び文字列検索装置

出願人 富士通株式会社
発明者 殿川伸次
出願日 2013年10月3日 (8年3ヶ月経過) 出願番号 2013-208505
公開日 2015年4月16日 (6年8ヶ月経過) 公開番号 2015-072630
状態 特許登録済
技術分野 検索装置
主要キーワード Y座標 X座標 母集団データ 発声器官 関連文字列 設定バー 言語音 方向パラメータ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年4月16日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

曖昧に記憶された文字列と関連する文字列を検索することが可能な文字列検索プログラム、文字列検索方法及び文字列検索装置を提供することを目的とする。

解決手段

第一の文字列に含まれる各文字の母音成分遷移パターンを特定し、特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、処理をコンピュータに実行させる。

概要

背景

従来の検索システムでは、検索により目的の文字列を取得する際に、例えば目的の文字列の一部を入力して検索を行う前方一致検索後方一致検索等が知られている。さらに従来では、例えば表記が揺らいでいる場合でも、統一した表記の文字列を出力する検索システムが知られている。

概要

曖昧に記憶された文字列と関連する文字列を検索することが可能な文字列検索プログラム、文字列検索方法及び文字列検索装置を提供することを目的とする。第一の文字列に含まれる各文字の母音成分遷移パターンを特定し、特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、処理をコンピュータに実行させる。

目的

1つの側面では、曖昧に記憶された文字列と関連する文字列を検索することが可能な文字列検索プログラム、文字列検索方法及び文字列検索装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第一の文字列に含まれる各文字の母音成分遷移パターンを特定し、特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、処理をコンピュータに実行させる文字列検索プログラム

請求項2

第一の文字列に含まれる各文字の五十音表に基づく文字の配列における遷移の方向と順を示すベクトルの列を特定し、前記ベクトルの列と所定の類似関係を満たすベクトルの列によって前記配列における遷移の方向と順が示される第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、処理をコンピュータに実行させる文字列検索プログラム。

請求項3

前記ベクトルは、前記配列における第一の文字と第二の文字との間の距離を示す値と、前記第一の文字に対する前記第二の文字の角度を示す値との組みであり、前記所定の類似関係を満たすベクトルの列は、前記第一の文字列に含まれる各文字から得られたベクトルの前記距離を示す値と前記角度の値との差分が所定の範囲内のベクトルの列である請求項2記載の文字列検索プログラム。

請求項4

前記五十音表に基づく文字の配列は、清音濁音とを含む請求項2又は3記載の文字列検索プログラム。

請求項5

コンピュータによる文字列検索方法であって、該コンピュータが、第一の文字列に含まれる各文字の母音成分の遷移パターンを特定し、特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する文字列検索方法。

請求項6

コンピュータによる文字列検索方法であって、該コンピュータが、第一の文字列に含まれる各文字の五十音表に基づく文字の配列における遷移の方向と順を示すベクトルの列を特定し、前記ベクトルの列と所定の類似関係を満たすベクトルの列によって前記配列における遷移の方向と順が示される第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する文字列検索方法。

請求項7

第一の文字列に含まれる各文字の母音成分の遷移パターンを特定する第一特定部と、特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定する第二特定部と、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する制御部と、を有する文字列検索装置

請求項8

第一の文字列に含まれる各文字の五十音表に基づく文字の配列における遷移の方向と順を示すベクトルの列を特定する第一特定部と、前記ベクトルの列と所定の類似関係を満たすベクトルの列によって前記配列における遷移の方向と順が示される第二の文字列を特定する第二特定部と、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する制御部と、を有する文字列検索装置。

技術分野

0001

本発明は、文字列を検索する文字列検索プログラム、文字列検索方法及び文字列検索装置に関する。

背景技術

0002

従来の検索システムでは、検索により目的の文字列を取得する際に、例えば目的の文字列の一部を入力して検索を行う前方一致検索後方一致検索等が知られている。さらに従来では、例えば表記が揺らいでいる場合でも、統一した表記の文字列を出力する検索システムが知られている。

先行技術

0003

特開2008−59389号公報
特開平5−108004号公報

発明が解決しようとする課題

0004

従来の検索システムにおいて目的の文字列を検索するためには、少なくとも目的の文字列の一部を正確に入力する必要がある。したがって、例えば目的の文字列の記憶が曖昧なために目的の文字列の一部を正確に入力できない場合等には、検索を行うことが困難であった。

0005

1つの側面では、曖昧に記憶された文字列と関連する文字列を検索することが可能な文字列検索プログラム、文字列検索方法及び文字列検索装置を提供することを目的とする。

課題を解決するための手段

0006

開示の技術は、第一の文字列に含まれる各文字の母音成分遷移パターンを特定し、特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、処理をコンピュータに実行させる。

0007

上記各処理は、上記各処理を実現する機能部、上記各処理を手順としてンピュータにより実行させる方法、プログラムを記憶したコンピュータ読み取り可能な記憶媒体とすることもできる。

発明の効果

0008

あいまいに記憶された文字列と関連する文字列を検索することができる。

図面の簡単な説明

0009

文字列検索装置のハードウェア構成の一例を示す図である。
文字列検索装置の機能構成を説明する図である。
文字座標列表の一例を示す図である。
文字座標列表における座標の保持の仕方の一例を示す図である。
距離方向算出部の処理を説明する図である。
母集団登録の処理を説明するフローチャートである。
母集団データベースの一例を示す図である。
文字列検索装置における検索の処理を説明するフローチャートである。
検索キーとなる文字列に含まれる文字間の方向と距離の一例を示す図である。
検索キーの入力画面の一例を示す図である。
検索結果が表示された出力画面の一例を示す図である。

実施例

0010

以下に図面を参照して本実施例について説明する。図1は、文字列検索装置のハードウェア構成の一例の示す図である。

0011

文字列検索装置100は、それぞれバスBで相互に接続されている入力装置11,出力装置12、ドライブ装置13、補助記憶装置14、メモリ装置15、演算処理装置16及びインターフェース装置17を含む。

0012

入力装置11はキーボードマウス等を含み、各種信号を入力するために用いられる。出力装置12はディスプレイ装置等を含み、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置17は、モデムLANカード等を含み、ネットワークNに接続する為に用いられる。

0013

文字列検索プログラムは、文字列検索装置100を制御する各種プログラムの少なくとも一部である。文字列検索プログラムは例えば記録媒体18の配布やネットワークからのダウンロードなどによって提供される。文字列検索プログラムを記録した記録媒体28は、CD−ROMフレキシブルディスク光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

0014

また、文字列検索プログラムは、文字列検索プログラムを記録した記録媒体18がドライブ装置13にセットされるとは記録媒体18からドライブ装置13を介して補助記憶装置14にインストールされる。ネットワークからダウンロードされた文字列検索プログラムは、インターフェース装置17を介して補助記憶装置14にインストールされる。

0015

補助記憶装置14は、インストールされた文字列検索プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置15は、コンピュータの起動時に補助記憶装置14から文字列検索プログラムを読み出して格納する。そして、演算処理装置16はメモリ装置15に格納された文字列検索プログラムに従って、後述するような各種処理を実現している。

0016

本実施例の文字列検索装置100は、例えばタブレット型のコンピュータであっても良い。また本実施例の文字列検索装置100は、例えばスマートフォンを含む多機能携帯電話あっても良い。

0017

次に図2を参照して、本実施例の文字列検索装置100の機能について説明する。図2は、文字列検索装置の機能構成を説明する図である。

0018

本実施例の文字列検索装置100は、入力受付部110、距離方向算出部120、母集団登録部130、許容範囲設定部140、検索部150、文字列抽出部160、出力部170を有する。後述する各部の機能は、演算処理装置16が文字列検索プログラムを実行することで実現される。

0019

また本実施例の文字列検索装置100は、文字座標列表210、母集団データベース220を有する。文字座標列表210と母集団データベース220とは、例えば補助記憶装置14等の所定の記憶領域に格納されていても良い。

0020

本実施例の文字列検索装置100は、検索キーとなる文字列(以下、単に検索キーと呼ぶ。)が入力されると、文字列に含まれる各文字について、文字座標列表210における文字同士の距離と方向を算出する。そして文字列検索装置100は、算出した距離と方向とを用いて母集団データベース220を検索し、抽出された文字列を検索キーと関連する文字列として出力する。文字座標列表210と母集団データベース220の詳細は後述する。

0021

本実施例の文字列検索装置100の入力受付部110は、入力装置11から入力されたデータを受け付ける。本実施例において、入力装置11から入力されるデータは、例えば検索キーや、後述する許容範囲に関するパラメータ等である。

0022

距離方向算出部120は、文字列に含まれる文字のうち、隣り合う文字同士の文字座標列表210における距離と方向とを算出する。距離方向算出部120の詳細は後述する。

0023

母集団登録部130は、母集団データベース220の登録を行う。本実施例では、母集団データベース220に格納する文字列群が入力されると、各文字列において隣り合う文字同士の距離と方向を算出し、文字列と対応付けた1つのレコードとして母集団データベース220へ登録する。尚、隣り合う文字同士の距離と方向は、距離方向算出部120により算出される。

0024

許容範囲設定部140は、距離方向算出部120により算出された距離と方向を所定範囲の値とするためのパラメータを設定する。本実施例のパラメータは、具体的には距離を所定の範囲の値とする距離パラメータと、方向を所定の範囲の値とする方向パラメータとを含む。本実施例のパラメータは、例えば予めメモリ装置25等に複数種類格納されていても良い。許容範囲設定部140は、メモリ装置25から母集団データベース220に対応したパラメータを取得して設定しても良い。パラメータの詳細は後述する。

0025

検索部150は、入力受付部110が受け付けた検索キーについて、距離方向算出部120が算出した距離と方向及び設定されたパラメータに基づき母集団データベース220を検索する。検索部150の処理の詳細は後述する。

0026

文字列抽出部160は、検索部150による検索の結果として該当する文字列を母集団データベース220から抽出する。出力部170は、抽出された文字列を検索キーと関連する関連文字列として出力装置12等により出力する。

0027

尚、本実施例の文字列検索装置100は、例えば端末装置とネットワークを介して接続されていても良い。この場合文字列検索装置100は、例えば端末装置において入力された検索キーを検索要求と共に受け付け、検索キーに基づく検索を行い、その結果を端末装置へ出力しても良い。

0028

以下に図3を参照して本実施例の文字座標列表210について説明する。図3は、文字座標列表の一例を示す図である。

0029

本実施例の文字座標列表210は、五十音表に基づき文字を配列した表である。

0030

五十音表は、日本語仮名文字(平仮名、片仮名)を母音に基づき縦に五字、子音に基づき横に十字ずつ並べたものであり、言語音に関する物理的特性を扱うとされている音声学に基づき配列されている。言語音とは、いわゆる音のうち言語に用いられるものを示し、子音と母音に分けられる。

0031

母音は、口腔内呼気の流れがあまり妨げられないで発せれられる言語音であり、子音は、口腔内で呼気の流れがある程度妨げられて発せれられる言語音である。

0032

子音は、調音点及び調音法に基づいて分類されている。より具体的には、子音は、調音法より、調音点において呼気がどのように流れるか、あるいは流れないかにより分類される。

0033

調音点とは、からまでの発声器官の中で、音の区別に大きく係る部分を指す。調音法とは、喉頭以上の調音器官の形や動きによって発声器官内の空気の流れを制御したり、発声器官内で発生する音声共鳴の仕方を変化させたり、新たな音を発生あるいは追加したりして、さまざまな母音や子音を発生させる方法である。

0034

この調音点と調音法に基づいて主要な子音を配置した表に発音記号を配置すると、五十音表の「あかさたな・・・」の順序は、調音点のの奥から口の前の方という並びになると考えられている。すなわち五十音表における文字の配列は、音声学的な観点で定められた配列であると言える(参考:「言語学基礎アカタナ:音声学の基礎」http://culture.cc.hirosaki-u.ac.jp/english/utsumi/linguistics/lingusitics_c2_ja.html)。

0035

そこで本願の発明者は、記憶があいまいな文字列は、文字の情報ではなく音声の情報として記憶される可能性がある点に着目し、五十音表に基づく文字座標列表210における文字と文字の位置関係を検索に用いることを考えた。本実施例における文字と文字の位置関係とは、距離方向算出部120により算出される、文字座標列表210における文字と文字の間の距離と方向により示される。

0036

本実施例の文字座標列表210では、X軸方向に子音を並べ、Y軸方向に母音を配列した。すなわち本実施例では、文字座標列表210におけるY軸方向の座標の変化は、母音の遷移を示し、文字座標列表210におけるX軸方向の座標の変化は、子音の遷移を示す。また本実施例の文字座標列表210では、子音の次に濁音を配置した。

0037

本実施例の文字座標列表210は、例えば図4に示すように各文字の座標の値を保持していても良い。図4は、文字座標列表における座標の保持の仕方の一例を示す図である。

0038

本実施例では、図4に示すように、文字と、文字のX座標Y座標とを対応付けて格納したデータベースを文字座標列表210として保持しても良い。

0039

また本実施例の文字座標列表210は、母集団データベース220と対応して設けられていても良い。

0040

次に図5を参照して本実施例の距離方向算出部120の処理について説明する。図5は、距離方向算出部の処理を説明する図である。

0041

図5では、例えば入力受付部110が「デイデイコ」という文字列を検索キーとして受け付けた場合について説明する。

0042

本実施例の距離方向算出部120は、文字座標列表210における文字列「デイデイコ」に含まれる各文字の座標を取得する。

0043

文字座標列表210において、文字列「デイデイコ」に含まれる最初の文字「デ」の座標(X1,Y1)は、(13,4)である。文字「イ」の座標(X2,Y2)は、(1,2)である。文字「コ」の座標(X3,Y3)は、(2,5)である。

0044

本実施例の距離方向算出部120は、各文字の座標を用い文字間の距離と方向を算出する。始めに、距離方向算出部120による文字間の距離の算出について説明する。

0045

本実施例において、座標(X1,Y1)の文字「デ」と、座標(X2,Y2)の文字「イ」との間の距離Lは、以下の式(1)で算出される。

0046

L=√{(X1−X2)2+(Y1−Y2)2} 式(1)
したがって「デ」と文字「イ」との間の距離L=√{(13−1)2+(4−2)2}=12.16(小数点第3位以下切り捨て)となる。

0047

本実施例の距離方向算出部120は、以上のようにして各文字間の距離を算出する。

0048

次に、距離方向算出部120による文字間の方向の算出について説明する。本実施例では、先に入力された文字に対する次に入力された文字の文字座標列表210における角度を文字間の方向とする。

0049

以下に文字「デ」に対する文字「イ」の方向について説明する。文字列「デイデイコ」において、文字「デ」の次に入力された文字が「イ」である。よって本実施例の距離方向算出部120は、文字座標列表210における文字「デ」に対する文字「イ」の角度を文字「デ」に対する文字「イ」の方向を示す値として算出する。以下の説明では、方向を示す値を単に方向と呼ぶ。

0050

文字座標列表210における文字「デ」に対する文字「イ」の角度θは、各文字の座標を用いて以下の式(2)で算出される。

0051

θ=tan−1{(Y1−Y2)/(X1−X2)}×180/π 式(2)
したがって文字「デ」に対する文字「イ」の方向θ=tan−1{(4−2)/(13−1)}=9.46(小数点第3位以下切り捨て)となる。

0052

本実施例では、以上のようにして算出した文字「デ」と文字「イ」の間の距離と、文字「デ」に対する文字「イ」の向きを、文字座標列表210における文字「デ」と文字「イ」の位置関係を示すベクトルとする。

0053

次に、本実施例の母集団データベース220について説明する。

0054

本実施例の母集団登録部130は、例えば管理者により母集団となる文字列群が入力されると、上述した手法により各文字列において隣り合う文字と文字の位置関係を示すベクトルを算出し、文字列とベクトルと対応付けて母集団データベース220に登録する。

0055

以下に図6を参照して、本実施例の母集団の登録の処理について説明する。図6は、母集団の登録の処理を説明するフローチャートである。

0056

本実施例の文字列検索装置100は、検索対象となる母集団である文字列群の入力を受け付けると(ステップS601)、母集団登録部130は、文字列群のうち最初に入力された文字列を取得する(ステップS602)。

0057

続いて距離方向算出部120は、変数n=0とする(ステップS603)。続いて距離方向算出部120は、n=n+1とし、ステップS602で取得した文字列から、n番目の文字を取得する(ステップS604)。続いて距離方向算出部120は、n番目の文字が文字列における最後の文字か否かを判断する(ステップS605)。

0058

ステップS605において最後の文字であった場合、後述するステップS608へ進む。ステップS605において最後の文字でない場合、距離方向算出部120は、文字座標列表210におけるn番目の文字とn+1番目の文字の座標を取得し、n番目の文字とn+1番目の文字の位置関係を示すベクトルを算出する(ステップS606)。具体的には距離方向算出部120は、n番目の文字とn+1番目の文字の間の距離と、n番目の文字に対するn+1番目の文字の文字座標列表210における方向と、を算出する。算出の方法は、上述した通りである。

0059

続いて母集団登録部130は、ステップS602で取得した文字列と、n番目の文字とn+1番目の文字のベクトルとを対応付けて母集団データベース220に格納し(ステップS607)、ステップS604へ戻る。

0060

本実施例の母集団登録部130は、ステップS604〜ステップS607の処理を繰り返すことで、文字列に含まれる全ての文字について、文字と文字との位置関係を示すベクトルを取得することができる。

0061

ステップS605において、n+1番目の文字が文字列における最後の文字であった場合、母集団登録部130は、ステップS601で入力された全ての文字列に対して、ステップS604からステップS607の処理を実行したか否かを判断する(ステップS608)。ステップS608において、全ての文字列について処理を実行していない場合、母集団登録部130はステップS602へ戻る。ステップS608において全ての文字列について処理を実行した場合、母集団登録部130は、母集団の登録の処理を終了する。

0062

図7は、母集団データベースの一例を示す図である。

0063

図7に示す母集団データベース220は、文字列と、文字列に含まれる文字と文字の位置関係を示すベクトルとが対応付けられて格納されている。図7に示す母集団データベース220は、母集団として入力された文字列群が例えば星座名前であった場合を示している。

0064

図7に示す母集団データベース220は、情報の項目として、星座名を示す文字列、星座の英語名を示す文字列、英語名の発音を示す文字列、英語名の発音を示す文字列に含まれる各文字、各文字の文字座標列表210における座標を含む。また母集団データベース220は、情報の項目として、英語名の発音を示す文字列の文字間の距離と方向、すなわち文字と文字の位置関係を示すベクトルを含む。

0065

具体的には、項目「距離1」は文字列に含まれる1番目の文字と2番目の文字との間の距離を示し、項目「方向1」は文字列に含まれる1番目の文字に対する2番目の文字の方向を示す。したがって、1番目の文字と2番目の文字の位置関係は、ベクトル(距離1,方向1)と表すことができる。

0066

同様に項目「距離2」は、文字列に含まれる2番目の文字と3番目の文字との間の距離を示し、項目「方向2」は文字列に含まれる2番目の文字に対する3番目の文字の方向を示す。したがって、2番目の文字と3番目の文字の位置関係は、ベクトル(距離2,方向2)と表すことができる。

0067

具体的には例えば、文字列「バランス」において、文字「バ」と文字「ラ」の関係は、ベクトル(5.00,0.00)で示すことができる。また文字「ラ」と文字「ン」の関係は、ベクトル(9.00,0.00)で示すことができる。また文字「ン」と文字「ス」の関係は、ベクトル(15.13,−7.59)で示すことができる。よって文字列「バランス」に含まれる各文字間の関係は、ベクトルの列(5.00,0.00),(9.00,0.00),(15.13,−7.59)で示すことができる。すなわち本実施例のベクトルの列は、文字列「バランス」に含まれる各文字の文字座標列表210における遷移の方向を順に示している。言い換えれば、本実施例のベクトルの列は、文字列「バランス」に含まれる各文字の文字座標列表210における遷移パターンを特定する値の組みの列である。

0068

本実施例の母集団データベース220において、文字列から算出されたベクトルの列は、文字列と対応付けられた1つのレコードとして格納される。

0069

図7に示す母集団データベース220は、星座の名前が格納されたものとしたが、これに限定されない。母集団データベース220は、様々なカテゴリ毎に設けられていても良い。例えば本実施例の文字列検索装置100は、薬品名が格納された母集団データベースや、キャラクタの名前が格納された母集団データベース等を有していても良い。

0070

次に、図8を参照して本実施例の文字列検索装置100における検索について説明する。図8は、文字列検索装置における検索の処理を説明するフローチャートである。

0071

本実施例の文字列検索装置100において、入力受付部110が検索キーとなる文字列の入力を受け付けると(ステップS801)、距離方向算出部120は、変数n=0とする(ステップS802)。

0072

図8のステップS803からステップS805までの処理は、図6のステップS604からステップS606までの処理と同様であるから、説明を省略する。

0073

ステップS803からステップS805までの処理により、検索キーにおける文字と文字の位置関係を示すベクトルの列が算出される。

0074

本実施例の文字列検索装置100において許容範囲設定部140は、ベクトルの列に含まれる各ベクトルから方向の値を取得し、各方向の値に予め決められた方向パラメータを設定する(ステップS806)。ステップS806では、ベクトルの列から方向の値の列が取得され、各方向の値に方向パラメータが設定される。したがってステップS806では、所定範囲の方向の値の列が取得される。

0075

続いて検索部150は、母集団データベース220を、ステップS806で取得した所定範囲の方向の値の列で検索する(ステップS807)。

0076

ステップS807の検索の結果、方向の値の列が、所定範囲の方向の値の列に含まれる文字列が存在しない場合(ステップS808)、文字列検索装置100は、後述するステップS814へ進む。ステップS807の検索の結果、該当する文字列が存在する場合、文字列抽出部160は、該当する文字列を抽出する(ステップS809)。

0077

続いて検索部150は、ベクトルの列に含まれる各ベクトルから距離の値を取得し、各距離の値に予め決められた距離パラメータを設定する(ステップS810)。ステップS810は、各ベクトルから取得され距離の値の列が取得され、各距離の値に距離パラメータが設定される。したがってステップS810では、所定範囲の距離の値の列が取得される。

0078

続いて検索部150は、ステップS809で抽出した文字列を、ステップS810で取得した所定範囲の距離の値の列で検索する(ステップS811)。

0079

ステップS811の検索の結果、ステップS809で抽出された文字列において、距離の値の列が所定範囲の距離の値の列に含まれる文字列が存在しない場合(ステップS812)、文字列検索装置100は、後述するステップS814へ進む。ステップS811の検索の結果、該当する文字列が存在する場合、文字列抽出部160は、該当する文字列を抽出し、出力部170は、抽出された文字列を検索結果として出力装置12に表示させる(ステップS813)。ステップS813で出力される文字列は、検索キーと関連した文字列である。

0080

続いて文字列検索装置100は、入力受付部110において、パラメータの調整を受け付けたか否かを判断する(ステップS814)。

0081

ステップS814においてパラメータが調整された場合、文字列検索装置100はステップS806の処理へ戻る。ステップS814においてパラメータが調整されない場合、文字列検索装置100は処理を終了する。

0082

本実施例では、ステップS813で出力された検索キーと関連する文字列に、取得すべき目的の文字列が含まれている場合には、検索の処理を終了しても良い。また検索キーと関連する文字列に、目的の文字列の一部が含まれている場合には、目的の文字列の一部を検索キーとして再度検索を行っても良い。

0083

以下に図8で説明した検索の処理について具体的に説明する。図9は、検索キーとなる文字列に含まれる文字間の方向と距離の一例を示す図である。

0084

図9では、検索キーとして「ヤンス」という文字列が入力された場合について説明する。本実施例の距離方向算出部120は、文字座標列表210を参照し、文字「ヤ」と文字「ン」の位置関係を示すベクトルを算出する。

0085

図9の例では、文字「ヤ」と文字「ン」の距離は10.00であり、文字「ヤ」に対する文字「ン」の方向を示す値は0.00である。よって文字座標列表210における文字「ヤ」と文字「ン」の位置関係は、ベクトル(10.00,0.00)で示される。同様に文字「ン」と文字「ス」の距離は15.13であり、文字「ン」に対する文字「ス」の方向を示す値は−7.59である。よって文字座標列表210における文字「ン」と文字「ス」の位置関係は、ベクトル(15.13,−7.59)で示される。

0086

したがって、検索キー「ヤンス」に含まれる各文字と文字の位置関係は、ベクトルの列(10.00,0.00)、(15.13,−7.59)により示される。本実施例では、図8のステップS805までの処理で、検索キーの含まれる各文字と文字の位置関係を示すベクトルの列が得られる。

0087

次にステップS806の処理を具体的に説明する。

0088

本実施例の許容範囲設定部140は、ベクトルの列(10.00,0.00)、(15.13,−7.59)から、方向の値の列を取得する。各ベクトルにおける方向の値は、0.00,−7.59であるから、ここで取得される方向の値の列は、0.00,−7.59である。

0089

つぎに本実施例の許容範囲設定部140は、それぞれの方向の値に方向パラメータを設定する。本実施例では、例えば方向パラメータを±2.00とした。許容範囲設定部140は、それぞれの方向に値に、方向パラメータを±2.00を設定することで、方向の値を所定範囲の方向の値とする。

0090

方向の値0.00は、方向パラメータ±2.00が設定されると、範囲−2.00〜2.00の方向の値となる。方向の値−7.59は、方向パラメータ±2.00が設定されると、範囲−9.59〜−5.59の方向の値となる。

0091

したがって方向の値の列は、(−2.00〜2.00),(−9.59〜−5.59)という所定範囲の方向の値の列となる。ステップS806では、この所定範囲の方向の値の列が取得される。

0092

次に検索部150は、母集団データベース220から、所定範囲の方向の値の列(−2.00〜2.00),(−9.59〜−5.59)に方向の列の値が含まれる文字列を検索する。

0093

本実施例の母集団データベース220において、英語名の発音を示す文字列「バランス」から得られるベクトルの列は、(5.00,0.00),(9.00,0.00),(15.13,−7.59)てである。またこのベクトルの列から取得される方向の値の列は、0.00,0.00,−7.59である。

0094

この方向の値の列に含まれる列0.00,−7.59は、所定範囲の方向の値の列(−2.00〜2.00),(−9.59〜−5.59)に含まれる。よってステップS809では、文字列抽出部160により文字列「バランス」が抽出される。

0095

以上のように本実施例では、検索キーに含まれる文字と文字から得たベクトルを所定範囲の値の組みとすることで、文字座標列表210において検索キーに含まれる各文字の位置関係と所定の類似関係にある文字列を抽出できる。

0096

ここで、母集団データベース220に該当する文字列が存在しなかった場合について考える。本実施例では、この場合に所定範囲を広げるように、方向パラメータを調整(変更)することができる。

0097

具体的には例えば、方向パラメータを±2.00から±3.00とすれば、文字座標列表210における文字間の角度がより広い範囲である文字列を該当文字列として抽出することができる。よって母集団データベース220からより多くの候補となる文字列を抽出することができる。

0098

ステップS807で文字列「バランス」が抽出されると、次に検索部150は、ベクトルの列(10.00,0.00)、(15.13,−7.59)から、距離の値の列を取得する。各ベクトルにおける距離の値は、10.00,15.13であるから、ここで取得される方向の値の列は、10.00,15.13である。

0099

つぎに本実施例の許容範囲設定部140は、それぞれの距離の値に距離パラメータを設定する。本実施例では、例えば距離パラメータを±1.00とした。許容範囲設定部140は、それぞれの距離の値に、距離パラメータを±1.00を設定することで、距離の値を所定範囲の距離の値とする。

0100

距離の値10.00は、距離パラメータ±1.00が設定されると、範囲9.00〜11.00の距離の値となる。距離の値15.13は、距離パラメータ±1.00が設定されると、範囲14.13〜16.13の距離の値となる。

0101

したがって距離の値の列は、(9.00〜11.00),(14.13〜16.13)という所定範囲の距離の値の列となる。ステップS810では、この所定範囲の距離の値の列が取得される。

0102

次に検索部150は、ステップS809で抽出された文字列から、所定範囲の距離の値の列(9.00〜11.00),(14.13〜16.13)に距離の値の列が含まれる文字列を検索する。

0103

ステップS809で抽出された文字列は、「バランス」である。「バランス」の距離の値の列は、10.00,15.13であり、所定範囲の距離の値の列(9.00〜11.00),(14.13〜16.13)に含まれる。

0104

よって出力部170は、検索キー「ヤンス」と関連する文字列として、「バランス」を出力装置12に表示させる。

0105

ここで、ステップS809で抽出された文字列に該当する文字列が存在しなかった場合について考える。本実施例では、この場合に所定範囲を広げるように、距離パラメータを調整(変更)しても良い。距離パラメータの範囲を広げれば、文字座標列表210におけるける文字間の距離がより広い範囲である文字列を該当文字列として抽出できる。

0106

また本実施例では、方向パラメータの範囲と距離パラメータの範囲とを狭くするように調整することもできる。

0107

本実施例において、例えば検索キーと関連する文字列として、複数の文字列が抽出された場合、ステップS814において方向パラメータの範囲と距離パラメータの範囲を狭くすれば、文字と文字の位置関係がより検索キーと類似した文字列を抽出することができる。

0108

また本実施例では、方向パラメータと距離パラメータとを設定してから検索部150による検索を行うものとしたが、これに限定されない。

0109

例えば文字列検索装置100は、最初に検索キーから得られたベクトルの列を用いて母集団データベース220を検索しても良い。この検索により抽出される文字列は、検索キーと同じ文字列を含む文字列となる。また文字列検索装置100は、検索キーから得られたベクトルの列を用いた検索において、該当する文字列が存在しなかった場合に、方向パラメータと距離パラメータを設定し、再度検索を行っても良い。また設定するパラメータは、方向パラメータ又は距離パラメータの何れか一方であっても良い。

0110

また本実施例では、母集団データベース220は、検索対象となる文字列群のベクトルの列が母集団登録部130により予め登録されているものとして説明したが、これに限定されない。文字列検索装置100は、例えばる文字列群のみが予め母集団データベース220に格納されており、検索の処理と並行して文字列群に含まれる各文字列のベクトルの列を算出しても良い。

0111

以下に図10図11を参照し、本実施例における検索キーの入力画面と、検索結果の出力画面について説明する。

0112

図10は、検索キーの入力画面の一例を示す図である。図10に示す入力画面101は、検索キーとなる文字列の入力欄102と、パラメータの範囲を設定する設定バー103と、検索の実行を指示する指示ボタン104、105とが表示されている。

0113

本実施例では、例えば設定バー103上のスライダ103aを上下させることで、パラメータの値が調整されても良い。尚図10の例では、パラメータを設定する設定バー103は1つのみ表示されるものとしたが、設定バー103は、方向パラメータと距離パラメータのそれぞれと対応して2つ表示されても良い。または図10に示す設定バー103により設定された範囲が、方向パラメータと距離パラメータの両方に設定されても良い。

0114

また本実施例の文字列検索装置100は、入力画面101において指示ボタン104が操作された際は、パラメータを設定せずに検索を行っても良い。また本実施例の文字列検索装置100は、入力画面101において指示ボタン105が操作された際は、設定バー103で設定されたパラメータを用いて検索を行っても良い。

0115

図11は、検索結果が表示された出力画面の一例を示す図である。

0116

本実施例の出力画面111には、検索キーと関連する文字列が表示される表示欄112と、検索の結果抽出された文字列の数を表示するメッセージ113とが表示される。また本実施例の出力画面111には、再検索の実行を指示する指示ボタン106が表示される。本実施例の文字列検索装置100は、例えば設定バー103でパラメータの範囲が調整された後に指示ボタン106が操作されたとき、再検索を実行しても良い。また本実施例の文字列検索装置100は、例えば入力欄102に新たな検索キーが入力された後に指示ボタン106が操作されたとき、検索を実行しても良い。

0117

以上のように本実施例の文字列検索装置100は、検索対象となる文字列群について、文字座標列表210に基づき、各文字列における文字と文字の位置関係を示すベクトルを予め算出し、母集団データベース220に登録する。

0118

また本実施例の文字列検索装置100は、検索キーが入力されると、検索対象となる文字列群を母集団データベース220に登録する際に用いた文字座標列表210に基づき、検索キーに含まれる文字と文字の位置関係を示すベクトルを算出する。

0119

そして本実施例の文字列検索装置100は、検索キーから得られたベクトルを用いて、母集団データベース220を検索する。

0120

すなわち本実施例では、五十音表に基づく文字座標列表210における文字と文字の位置関係を検索に用いることで、検索キーが検索により得られる目的の文字列と一致していなくても、検索キーと関連する文字列を検索することができる。したがって本実施例では、目的の文字列の一部を正確に入力できない場合でも、検索を行うことができる。

0121

本実施例の文字列検索装置100は、例えば図書館における蔵書の検索や、薬品名や外国の地名等のカタカナ文字で類似した名称が多い文字列群(データベース)における所望の文字列の検索等に用いることができる。これらの検索に本実施例の文字列検索装置100を用いることで、蔵書の名称や薬品の名称、地名等を正確に記憶していなくても、正しい名称や地名の候補を検索キーと関連する文字列とてして抽出することができる。

0122

また本実施例の文字列検索装置100は、例えば母集団データベースを教材に関する情報が格納されたデータベースとしても良い。この場合、問いを検索キーとして入力させ、検索結果として出力された検索キーと関連する文字列を問いに対するヒントとして提供しても良い。

0123

開示の技術では、以下に記載する付記のような形態が考えられる。
(付記1)
第一の文字列に含まれる各文字の母音成分の遷移パターンを特定し、
特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、
前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、
処理をコンピュータに実行させる文字列検索プログラム。
(付記2)
第一の文字列に含まれる各文字の五十音表に基づく文字の配列における遷移の方向と順を示すベクトルの列を特定し、
前記ベクトルの列と所定の類似関係を満たすベクトルの列によって前記配列における遷移の方向と順が示される第二の文字列を特定し、
前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する、
処理をコンピュータに実行させる文字列検索プログラム。
(付記3)
前記ベクトルは、
前記配列における第一の文字と第二の文字との間の距離を示す値と、前記第一の文字に対する前記第二の文字の角度を示す値との組みであり、
前記所定の類似関係を満たすベクトルの列は、
前記第一の文字列に含まれる各文字から得られたベクトルの前記距離を示す値と前記角度の値との差分が所定の範囲内のベクトルの列である付記2記載の文字列検索プログラム。
(付記4)
前記五十音表に基づく文字の配列は、清音と濁音とを含む付記2又は3記載の文字列検索プログラム。
(付記5)
前記第二の文字列を特定する処理は、
文字列群の文字列毎に、前記文字列に含まれる各文字から得られた前記配列におけるベクトルの列が格納された記憶部において、前記第一の文字列から特定されたベクトルの列と前記所定の類似関係を満たすベクトルの列と対応する文字列を第二の文字列に特定する付記2乃至4の何れか一項に記載の文字列検索プログラム。
(付記6)
入力された前記文字列群の文字列毎に、前記文字列に含まれる各文字の前記配列におけるベクトルの列を算出し、
前記文字列と前記ベクトルの列とを対応させて前記記憶部に格納する処理をコンピュータに実行させる付記5記載の文字列検索プログラム。
(付記7)
コンピュータによる文字列検索方法であって、該コンピュータが、
第一の文字列に含まれる各文字の母音成分の遷移パターンを特定し、
特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定し、
前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する文字列検索方法。
(付記8)
コンピュータによる文字列検索方法であって、該コンピュータが、
第一の文字列に含まれる各文字の五十音表に基づく文字の配列における遷移の方向と順を示すベクトルの列を特定し、
前記ベクトルの列と所定の類似関係を満たすベクトルの列によって前記配列における遷移の方向と順が示される第二の文字列を特定し、
前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する文字列検索方法。
(付記9)
第一の文字列に含まれる各文字の母音成分の遷移パターンを特定する第一特定部と、
特定した前記遷移パターンと所定の類似関係を満たす遷移パターンで各文字の母音成分が遷移する第二の文字列を特定する第二特定部と、
前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する制御部と、を有する文字列検索装置。
(付記10)
第一の文字列に含まれる各文字の五十音表に基づく文字の配列における遷移の方向と順を示すベクトルの列を特定する第一特定部と、
前記ベクトルの列と所定の類似関係を満たすベクトルの列によって前記配列における遷移の方向と順が示される第二の文字列を特定する第二特定部と、
前記第二の文字列を前記第一の文字列の関連文字列として出力するか、又は前記第二の文字列を検索キーとした検索を実行する制御部と、を有する文字列検索装置。

0124

本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から
逸脱することなく、種々の変形や変更が可能である。

0125

100文字列検索装置
110入力受付部
120距離方向算出部
130母集団登録部
140許容範囲設定部
150検索部
160文字列抽出部
170 出力部
210文字座標列表
220母集団データベース

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社日立製作所の「 検索支援システム、及び検索支援方法」が 公開されました。( 2021/09/30)

    【課題】ユーザによる情報検索を容易にする検索支援システム及び検索支援方法を提供する。【解決手段】検索支援システム1は、1又は複数の項目と、その項目の内容を示す情報とを対応づけた検索対象情報を作成するデ... 詳細

  • 株式会社日立製作所の「 画像取得装置及び画像取得方法」が 公開されました。( 2021/09/30)

    【課題】パンチアウト先の運用負荷を低減しつつ、認証が必要なWebページからも画像を収集して商品と商品画像との紐づけ精度を向上させる。【解決手段】画像取得装置は、商品を特定する商品特定情報と、商品につい... 詳細

  • カシオ計算機株式会社の「 情報処理装置、表示方法、及びプログラム」が 公開されました。( 2021/09/30)

    【課題】入力された語句と該語句に関する詳細情報とを表示する情報処理装置において、現在表示されている語句と以前に表示されていた語句との対応関係を把握しやすくする。【解決手段】情報処理装置1は、入力情報に... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ