図面 (/)

技術 自然言語統計データベース装置

出願人 沖電気工業株式会社
発明者 池野篤司福居毅至
出願日 1997年12月19日 (21年9ヶ月経過) 出願番号 1997-350651
公開日 1999年7月9日 (20年3ヶ月経過) 公開番号 1999-184866
状態 特許登録済
技術分野 複合演算 検索装置 機械翻訳
主要キーワード 結合文字列 文字列メモリ 分割テキスト 閾値サイズ 結合動作 出現頻度値 教育装置 データ精度
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(1999年7月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (19)

課題

大量のテキストデータから精度の高いN−gramデータを効率良く抽出して格納する。

解決手段

複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置に関する。入力テキストファイル先頭末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加してN−gramデータ処理手段に与える特殊文字付加手段を有する。

概要

背景

文献1『長尾眞、森信介著、「大規模日本語テキストのnグラム統計の作り方語句自動抽出」、情報処理学会研究報告自然言語処理96−1、1993年7月』
文献2『特開平7−271792号公報』
文献3『特願平9−68300号明細書及び図面(公開されていないが文献と呼ぶ)』
日本語文などの自然言語文を処理する自然言語処理装置(例えば、機械翻訳装置質疑応答装置やコンピュータ援用教育装置等)においては、自然言語文に対して、最初に形態素解析を行う。近年、形態素辞書を使用せず、その代わりに、形態素境界各形態素品詞情報を保持したタグ付きコーパス(大量のテキストデータ)から学習した統計データに基づく形態素解析装置が研究され始めている(例えば、上記文献2及び文献3)。

このような統計データの一つに、N個の文字の順次でなる文字列の出現頻度を示すN−gram統計(場合によっては、N−gramデータと呼ぶ)があり、大量のテキストデータが与えられたときに、N−gramデータを計算する手法が研究されている(例えば、上記文献1)
上記文献1のN−gramデータの計算手法は、テキスト全体を一つの文字列と見なし、各文字を先頭としてテキスト最後尾の文字を末尾とする部分文字列を想定し、これをソートすることで、隣接する部分文字列の一致する文字数カウントしたデータからN−gram統計を得るという方法であり、高速処理を意図したものである。

概要

大量のテキストデータから精度の高いN−gramデータを効率良く抽出して格納する。

複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置に関する。入力テキストファイルの先頭と末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加してN−gramデータ処理手段に与える特殊文字付加手段を有する。

目的

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置において、入力テキストファイル先頭末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加して上記N−gramデータ処理手段に与える特殊文字付加手段を有することを特徴とする自然言語統計データベース装置。

請求項2

テキストファイルを複数に分割する、上記特殊文字付加手段の前段又は後段に設けられたファイル分割手段と、上記N−gramデータ処理手段によって得られた分割テキストファイル毎のN−gramデータを統合して上記N−gramデータ記憶手段に格納するデータ統合手段をさらに有することを特徴とする請求項1に記載の自然言語統計データベース装置。

請求項3

外部からの文頭又は文末のN−gramデータの要求に対し、その要求が、上記N−gramデータ記憶手段に格納されている特殊文字を含むN−gramデータの形式でない場合に、要求に係る文頭又は文末を規定する部分を特殊文字に変換して上記N−gramデータ記憶手段をアクセスする特殊文字変換手段をさらに有することを特徴とする請求項1又は2に記載の自然言語統計データベース装置。

請求項4

上記特殊文字付加手段に、付加する特殊文字を指定する特殊文字指定手段をさらに有することを特徴とする請求項1〜3のいずれかに記載の自然言語統計データベース装置。

請求項5

入力テキストファイル中の文と文との切れ目を挟む所定文字数の文間文字列を分離する文間文字列分離手段と、分離された文間文字列からN−gramデータを作成する文間N−gramデータ作成手段と、この文間N−gramデータ作成手段によって作成されたN−gramデータを、上記N−gramデータ処理手段、又は、上記データ統合手段によるN−gramデータに統合して上記N−gramデータ記憶手段に格納する第2のデータ統合手段とをさらに有することを特徴とする請求項1〜4のいずれかに記載の自然言語統計データベース装置。

請求項6

上記N−gramデータ記憶手段に格納されている、N番目の文字が特殊文字であって、N−1番目の文字が同一の複数のN−gramデータの頻度情報の相対的関係から、文区切り用のN−gramデータとして妥当性が弱いものを検出して出力する文区切り妥当性判定手段をさらに有することを特徴とする請求項1〜5のいずれかに記載の自然言語統計データベース装置。

請求項7

上記特殊文字付加手段は、開き括弧の直後にもN−1文字の特殊文字を付加するものであることを特徴とする請求項1〜6のいずれかに記載の自然言語統計データベース装置。

請求項8

テキストファイルの各文に、1組の括弧で挟まれた文字列があった場合に、括弧を含めその文字列を除去する括弧内文字列除去手段を、上記N−gramデータ処理手段より前のいずれかの位置にさらに有することを請求項1〜6のいずれかに記載の自然言語統計データベース装置。

請求項9

上記括弧内文字列除去手段により除去された文字列の括弧を除外した括弧内文字列からN−gramデータを作成する括弧内N−gramデータ作成手段と、この括弧内N−gramデータ作成手段によって作成されたN−gramデータを、上記N−gramデータ処理手段、上記データ統合手段、又は、上記第2のデータ統合手段によるN−gramデータに統合して上記N−gramデータ記憶手段に格納する第3のデータ統合手段とをさらに有することを特徴とする請求項8に記載の自然言語統計データベース装置。

技術分野

0001

本発明は、一連文章から文字列に関する統計データ(N−gramデータ)を抽出して格納する自然言語統計データベース装置に関し、例えば、統計データを利用して文の形態素を自動的に解析する形態素解析装置が利用し得るものである。

背景技術

0002

文献1『長尾眞、森信介著、「大規模日本語テキストのnグラム統計の作り方語句自動抽出」、情報処理学会研究報告自然言語処理96−1、1993年7月』
文献2『特開平7−271792号公報』
文献3『特願平9−68300号明細書及び図面(公開されていないが文献と呼ぶ)』
日本語文などの自然言語文を処理する自然言語処理装置(例えば、機械翻訳装置質疑応答装置やコンピュータ援用教育装置等)においては、自然言語文に対して、最初に形態素解析を行う。近年、形態素辞書を使用せず、その代わりに、形態素境界各形態素品詞情報を保持したタグ付きコーパス(大量のテキストデータ)から学習した統計データに基づく形態素解析装置が研究され始めている(例えば、上記文献2及び文献3)。

0003

このような統計データの一つに、N個の文字の順次でなる文字列の出現頻度を示すN−gram統計(場合によっては、N−gramデータと呼ぶ)があり、大量のテキストデータが与えられたときに、N−gramデータを計算する手法が研究されている(例えば、上記文献1)
上記文献1のN−gramデータの計算手法は、テキスト全体を一つの文字列と見なし、各文字を先頭としてテキスト最後尾の文字を末尾とする部分文字列を想定し、これをソートすることで、隣接する部分文字列の一致する文字数カウントしたデータからN−gram統計を得るという方法であり、高速処理を意図したものである。

発明が解決しようとする課題

0004

しかしながら、上記文献1のN−gramデータの計算手法は、テキストの途中に存在する文頭文末に対する考慮がなされておらず、文頭や文末に係るN−gramデータも他の位置のN−gramデータと同様に形成するものである。そのため、文頭や文末に係るN−gramデータの種類数が多くなり、文頭や文末に係るN−gramデータの各々の頻度が少なく、このようにして形成されたN−gramデータを形態素解析への統計モデルとして適用した場合には、形態素解析結果の精度を低くする。

0005

例えば、(1)「…した。今日…」と、(2)「…する。今日…」というテキストの3−gramデータを調べたときに、(1)のテキスト部分からは「た。今」が取り出され、(2)のテキスト部分からは「る。今」が取り出されるので、3−gramデータのテーブルでは全く別の見出しであることになってしまい、出現頻度が変わってくる。

0006

実際には、「今」は文頭から始まっているのであるから、前文の末尾とは文字列としてのつながりはないので、『(文頭)+今』という見出しが(1)のテキスト部分からも(2)のテキスト部分からも取り出されるのが好ましい。

0007

つまり、上記文献1のN−gramデータの計算手法では、計算を簡単にする手段としてテキスト全体を一つの文字列と見なしたときに、もともと文頭や文末であったことの情報が減じていることになる。

0008

また、上記文献1のN−gramデータの計算手法では、テキストが非常に大きいときはテキストを分割してソートし、最後にソート済み部分文字列を比較しながらデータをマージする方法を取っているが、N−gramデータだけが必要な場合(形態素解析への適用時など)、部分文字列データそのものをマージする方法には無駄が多いということができる。

0009

そのため、大量のテキストデータから精度の高いN−gramデータを効率良く抽出して格納する自然言語統計データベース装置が求められている。

課題を解決するための手段

0010

かかる課題を解決するため、本発明は、複数の文を有するテキストファイルから、文を分割することなく、文字数Nの文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置において、入力テキストファイルの先頭と末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加して上記N−gramデータ処理手段に与える特殊文字付加手段を有することを特徴とする。

発明を実施するための最良の形態

0011

(A)第1の実施形態
以下、本発明による自然言語統計データベース装置の第1の実施形態を図面を参照しながら詳述する。

0012

この第1の実施形態の自然言語統計データベース装置は、大量のテキストデータからN−gramデータを抽出して格納するまでに特徴を有し、格納した後のN−gramデータの用途(例えば形態素解析)は問わないものであり、格納した後のN−gramデータの取り出し方法には特徴がないものである。

0013

(A−1)第1の実施形態の構成
第1の実施形態の自然言語統計データベース装置は、ワークステーションパソコンなどの情報処理装置上で実現されるものであるが、機能的には、図1に示す機能ブロック図で表すことができる。

0014

図1において、第1の実施形態の自然言語統計データベース装置は、ファイル分割部1、特殊文字付加部2、文結合部3、N−gramデータ処理部4、データ統合部5及びN−gramデータテーブル6からなる。

0015

なお、以降の説明では、入力されるテキストは1行1文であるものとする。テキストファイルのフォーマットがそのようになっていない場合には、文区切り文字句点など)が存在する位置を文の終りと見なして処理を行うものとする。ここで、処理に供するテキストファイルは、ハードディスク装置などの大容量の記憶装置に記憶されているものである。また、N−gramデータの文字数Nの値は、当該装置の起動時に指定されるようになされている。

0016

ファイル分割部1は、テキストファイルを受けとり、ファイルサイズが閾値サイズより大きい場合のみ適当なサイズに分割し、特殊文字付加部2に分割したテキストファイルを一つずつ送るものである。ファイル分割部1は、ファイルサイズが閾値サイズ以下の場合には、入力されたテキストファイルを特殊文字付加部2にそのまま送るものである。ファイル分割部1は、分割を行った場合には、分割したことと、分割した数の情報をデータ統合部5に送る。

0017

特殊文字付加部2は、ファイル分割部1から受け取ったテキストファイルを、各文に分離しながら各文の先頭に特殊文字を付加し、1文ずつ文結合部3に送るものである。付加する文字の数は、求めたいN−gramの文字数であるNから1引いた値である。また、特殊文字付加部2は、テキストファイルの最後の文には末尾にも特殊文字を付加する。付加する特殊文字としては、通常の文章で出現することがほとんど考えられない文字を適用する。例えば、文字「#」を適用する。

0018

文結合部3は、特殊文字付加部2から特殊文字を付加された文を受け取って最後の文がくるまで結合し、結合結果の文字列をN−gramデータ処理部4に送るものである。

0019

N−gramデータ処理部4は、例えば、上記文献1に記載されている手法によって、N−gramデータを求め、結果をデータ統合部5に送るものである。すなわち、結合結果の文字列(M文字とする)を構成する各文字を先頭として、テキスト最後尾の文字を末尾とする計M−N+1個の部分文字列を想定し、これらをソートし、隣接する部分文字列の先頭側のN文字が一致する文字数をカウントしたデータからN−gramデータを得る。

0020

N−gramデータの例(Nが3の場合)を図5に示す。N−gramデータは文字数Nの文字列を見出しとし、出現頻度を値に持つデータである。

0021

データ統合部5は、ファイル分割部1からファイル入力時に分割した旨の情報がきている場合には、N−gramデータ処理部4から送られてくるデータを分割されたファイル数だけ受け取って、見出しの一致するデータの出現頻度値加算して一つのデータに統合してN−gramデータテーブル6に格納するものである。一方、データ統合部5は、ファイル分割部1からファイル入力時に分割した旨の情報が与えられていない場合には、N−gramデータ処理部4から送られてくるデータをそのままN−gramデータテーブル6に格納するものである。

0022

N−gramデータテーブル6は、図5に例示するように、N−gramデータを格納するものである。

0023

(A−2)第1の実施形態の動作
次に、ファイル分割部1からN−gramデータ処理部4までの動作を図2フローチャートを参照しながら説明する。

0024

まず、対象となるテキストファイルのデータを分割するかどうかを判断する(ステップ201)。ファイル分割部1は、分割可否判断に供する予め定められている閾値サイズ(又は文字数)を保持しており、対象となるファイルサイズとこの閾値サイズとの比較により、分割の可否を判断する。

0025

対象となるファイルサイズが閾値サイズを超えた場合に分割を行う(ステップ202)。分割を行う場合、分割されたファイルサイズがほぼ均等になるように分割する。また、分割後の各ファイルのサイズが、上記閾値サイズを超えないように分割数を調節する。さらに、分割は行の途中で行わない。すなわち、文の途中で分割されることはない。

0026

ステップ202において分割した場合には、データ統合部5に対して分割数のデータを送付し、分割されたファイルの最初の部分(テキスト)を送付対象としてセットし、ステップ203に進む。分割が行われない場合にはそのままステップ203に進む。

0027

ステップ203において、実際に対象テキスト(分割されていない場合はファイル全体が対象テキストとなる)を特殊文字付加部2に送付する。

0028

次に、ステップ204において、テキストの各文を対象として特殊文字を付加し、結合して一つの文字列にする。この処理の詳細については後述する。

0029

その後、ステップ204において生成された文字列を用いて、N−gramデータをカウントし、結果をデータ統合部5に送付する(ステップ205)。N−gramデータのカウントにあたっては、上記文献1に記載されている手法を用いるものとするので、ここでの説明は省略する。

0030

そして、入力テキストファイルが分割されていて、次のテキストがまだ存在しているかどうかをチェックする(ステップ206)。次のテキストが残っていた場合には、ステップ207で次のテキストを対象テキストにセットし、上述したステップ203に戻る。次のテキストがもうない(今処理をしたテキストが最後であった)場合には、一連の処理を終了する。

0031

以下、ステップ204の動作の詳細について図3のフローチャートを参照しながら説明する。すなわち、特殊文字付加部2と文結合部3の動作について説明する。

0032

まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。

0033

次に、対象文の文頭にN−1個の特殊文字を付加し、文字列メモリの末尾に追加する(ステップ302)。上述したように、Nの値はシステム起動時に指定されるものとする。

0034

その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。最後の文ではなかった場合には、次の文を対象にセットして(ステップ305)、上述したステップ302に戻る。一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、一連の処理を終了する。これによってテキストの一番末尾も正しくN−gramデータがとれるようになる。

0035

ステップ302に移行したときの対象文を「今日は…」とし、特殊文字を「#」、N=3とすると、処理結果は「##今日は…」となる。文を結合して一つの文字列にしてしまっても、このようにすることによって、文頭から「今日は…」で始まるような文からは、全て「##今」の3−gramデータが得られることになる。また、文は結合されていくので、前文の文末に次の文の先頭のN−1個の特殊文字が連結することになり、結果的に各文の文末にも特殊文字を付加したことになる。

0036

次に、データ統合部5の動作について、図4のフローチャートを参照しながら説明する。

0037

まず、入力テキストファイルが分割されたかどうかの情報が、ファイル分割部1から送られてきているかどうかを確認する(ステップ401)。

0038

分割されたという情報がきていなければ、入力ファイルは分割されておらずデータを統合する必要はないので、N−gramデータを受け付けたら(ステップ406)、ステップ405で、当該データをそのままN−gramデータテーブル6に出力格納して処理を終了する。

0039

これに対して、分割されたという情報がきていれば、N−gramデータを受け付け(ステップ402)、その各見出しに対して、既に保持しているN−gramデータの見出しに同じものがあれば、既存データ頻度値に、新規データの頻度値を加算し、既に保持しているN−gramデータの見出しに同じものがなければ、見出しと値のペアを追加する(ステップ403)。

0040

次に、ファイル分割部1から受け取った分割数の情報と同一回数、N−gramデータを受け付けたかどうか(つまり入力ファイル全体の処理結果を受け取ったかどうか)を確認する(ステップ404)。

0041

分割数の分だけ受け取った場合には、統合されたN−gramデータをN−gramデータテーブル6に出力格納して処理を終了する(ステップ405)。一方、まだ分割数まで受け取っていない場合には、上述したステップ402に戻ってデータを受け付ける。

0042

(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、多数の文を有するテキストファイル(文字列)をからN−gramデータを求めるにつき、各文に文頭又は文末に係る特殊文字を付加した後に、各文を結合し直した後に、N−gramデータを求めるようにしたので、文末、文頭近傍のN文字のカウントが正しく行うことができ、精度の高い統計データ(N−gramデータ)を得ることができる。

0043

また、第1の実施形態によれば、分割されたテキストファイルのそれぞれから求めた複数のN−gramデータを受け取り、同一見出しのデータの値を加算し、それ以外のものはテーブルに追加するようにしたので、文字列をソートしたものを統合するより速くN−gramデータが得ることができ、統計データを効率良く得ることができる。

0044

(A−4)第1の実施形態の変形実施形態
上記第1の実施形態では、ファイル分割部1による処理の後で、テキストファイルに対して文区切り処理するものを示したが、ファイル分割部1による処理の前に入力テキストファイルに対して文区切り処理する形態であっても良い。

0045

また、特殊文字付加部2、文結合部3、N−gramデータ処理部4の全て、あるいはN−gramデータ処理部4のみを、複数設けて、分割されたテキストの各々を同時に並行処理する形態であっても良い。

0046

さらに、第1の実施形態では、特殊文字を付加された文字列の結合を、文字列メモリを利用して行うものを示したが、実際にはポインタによって位置を指す方法で実現しても良い。

0047

また、第1の実施形態では、N−gramデータが見出しと頻度でなるものを示したが、頻度を確率情報に変換したものであっても良い。一般には、N−gramデータの場合、先頭のN−1文字が同じ複数の見出しの確率の総和が1になるように確率情報化される。

0048

さらに、第1の実施形態では、N−gramデータテーブル6に、起動時に指定されたNに係るN−gramデータに格納するものであったが、様々なNの値に対するデータを全て一つのテーブルとして保持するようにしても良い。

0049

(B)第2の実施形態
以下、本発明による自然言語統計データベース装置の第2の実施形態を図面を参照しながら詳述する。

0050

この第2の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、格納した後のN−gramデータの取り出し方法にも特徴を有するものである。

0051

(B−1)第2の実施形態の構成
図6は、第2の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、図1との同一、対応部分には同一符号を付して示している。

0052

図6において、第2の実施形態の自然言語統計データベース装置は、第1の実施形態と同様なファイル分割部1、特殊文字付加部2、文結合部3、N−gramデータ処理部4、データ統合部5及びN−gramデータテーブル6に加えて、特殊文字変換部7を有する。

0053

ファイル分割部1、特殊文字付加部2、文結合部3、N−gramデータ処理部4、データ統合部5及びN−gramデータテーブル6は、第1の実施形態と同じであるので、その説明は省略する。

0054

特殊文字変換部7は、例えば形態素解析装置などのN−gramデータを適用する応用装置から、ある見出しに対するデータの参照要求があったとき、文頭、文末などの指定があれば、当該装置の特殊文字に合わせて要求された見出しを変換して、N−gramデータテーブル6内のデータとマッチングをとり、その頻度値を、応用装置に返すものである。

0055

(B−2)第2の実施形態の動作
動作上、第2の実施形態が第1の実施形態と異なるのは特殊文字変換部7の動作だけであるので、以下では、特殊文字変換部7の動作を図7のフローチャートを参照しながら説明する。

0056

まず、応用装置からデータ参照要求を受け付け(ステップ701)、要求された見出しの中に、「文頭」又は「文末」の指定があるかどうかをチェックする(ステップ702)。

0057

指定がない場合は、ステップ704で、N−gramデータテーブル6から、見出しのマッチするものの頻度値を取得し(ステップ704)、応用装置に値を送って(ステップ705)、一連の処理を終了する。

0058

一方、指定があった場合、そのままではN−gramデータテーブル6の見出しとマッチしないので、「文頭」、「文末」の指定を特殊文字に変換する(ステップ703)。その後、ステップ704で、N−gramデータテーブル6から、見出しのマッチするものの頻度値を取得し(ステップ704)、応用装置に値を送って(ステップ705)、一連の処理を終了する。

0059

ここで、ステップ703の変換時に生成される特殊文字の数は、以下の式で決定される。

0060

生成特殊文字数=N−(「文頭」、「文末」以外の指定文字数
例えば、N=3で、要求が『文頭+「今」』に対するものであった場合、「文頭」、「文末」以外の指定文字数は1なので、生成される特殊文字の数は2になる。よって2個の特殊文字が「今」の前に付加されることになる。特殊文字が「#」であったとすると、要求見出しは、『##今』に変換される。

0061

(B−3)第2の実施形態の効果
第2の実施形態によっても、第1の実施形態と同様な効果を奏することができる。さらに、第2の実施形態によれば、応用装置からのデータ参照要求の見出しの中の「文頭」、「文末」指定を、データテーブル6に合わせた特殊文字に変換するようにしたので、応用装置は特殊文字の種類を意識しなくて良く、当該自然言語統計データベース装置の応用性が高くなる。

0062

(B−4)第2の実施形態の変形実施形態
上記第1の実施形態についての変形実施形態は、第2の実施形態の変形実施形態ともなり得る。

0063

なお、N−gramデータテーブル6が様々なNについてのN−gramデータを格納しているものである場合、応用装置から「文頭」、「文末」について、何文字の特殊文字を生成すればよいかが、知らされるようにすれば良い。

0064

上記第2の実施形態では、「文頭」、「文末」という符号が応用装置から与えられるものを示したが、当該自然言語統計データベース装置とは異なる特殊文字で「文頭」、「文末」を表す見出しが与えられるものであっても良い。この場合、その特殊文字を、当該自然言語統計データベース装置での特殊文字に変換してデータテーブル6を参照するようにすれば良く、変換文字数を考慮する処理は不要となる。

0065

(C)第3の実施形態
以下、本発明による自然言語統計データベース装置の第3の実施形態を図面を参照しながら詳述する。

0066

第3の実施形態の自然言語統計データベース装置も、機能ブロック図で表すと、第1の実施形態に係る図1で表すことができる。

0067

しかし、第3の実施形態の自然言語統計データベース装置は、特殊文字付加部2及び文結合部3の機能が第1の実施形態のものと多少異なっている。

0068

すなわち、第3の実施形態の特殊文字付加部2及び文結合部3はそれぞれ、基本的には、文頭又は文末に特殊文字を付加する機能、特殊文字を付加された文を結合する機能を担うものであるが、この第3の実施形態の場合、括弧種類は問わないが、文の途中に表れる開き括弧の直後にも特殊文字を付加し、そのような開き括弧の直後に付加された特殊文字をも有する文を結合する機能をも担っている。

0069

この第3の実施形態は、開き括弧の直後の文字部分は、文頭と同様に取り扱って良いという点に鑑みてなされている。

0070

上述から明らかなように、第3の実施形態の自然言語統計データベース装置は、動作上も、特殊文字付加部2及び文結合部3による特殊文字の付加及び文結合動作図2のステップ204参照)が第1の実施形態とは異なっている。

0071

そこで、以下では、第3の実施形態の特殊文字付加部2及び文結合部3の動作を、図8のフローチャートを参照しながら説明する。なお、図8は、第1の実施形態に係る図3に置き換えられるものであり、図3との同一、対応ステップには同一符号を付して示している。

0072

まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。

0073

次に、対象文の文頭にN−1個の特殊文字を付加した後(ステップ801)、これから文字列メモリに格納しようとする文字列部分の中に開き括弧があるか否かを確認する(ステップ802)。開き括弧がある場合には、開き括弧までを文字列メモリの末尾に追加し(ステップ803)、上述したステップ801に戻る。このときのステップ801においては、開き括弧の直後に特殊文字が付加されることになる。

0074

このようなステップ801〜803でなる処理ループは、処理対象の文に含まれている開き括弧の個数に応じて繰り返され、開き括弧の直後に特殊文字が付加される。

0075

処理対象の文に1個も開き括弧がない場合や、ステップ801〜803でなる処理ループを繰り返したことにより、これから文字列メモリに格納しようとする文字列部分の中に開き括弧がなくなった場合には、ステップ802で否定結果が得られ、この場合には、処理対象の文の未だ文字列メモリに格納されていない文字列を文字列メモリの末尾に追加する(ステップ804)。

0076

その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。最後の文ではなかった場合には、次の文を対象にセットして(ステップ305)、上述したステップ801に戻る。一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、一連の処理を終了する。

0077

この第3の実施形態においても、第1の実施形態と同様な効果を奏することができる。これに加えて、文頭と同様に取り扱うことができる開き括弧の直後にも、特殊文字を付加してN−gramデータを作成するようにしたので、データ精度一段の向上を期待できる。

0078

なお、この第3の実施形態についても、第1の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。

0079

また、この第3の実施形態の特徴的な技術思想(開き括弧直後に特殊文字を挿入する)と、第2の実施形態の特徴的な技術思想(応用装置は「文頭」、「文末」などという形で見出しを指定できる)とを組み合わせることもできる。

0080

(D)第4の実施形態
以下、本発明による自然言語統計データベース装置の第4の実施形態を図面を参照しながら簡単に説明する。

0081

図9は、第4の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。

0082

図9及び図1の比較から明らかなように、この第4の実施形態は、第1の実施形態の構成に加えて、特殊文字指定部12を有するものであり、この特殊文字指定部12以外の構成要素は第1の実施形態と同様に機能するものである(正確に言えば、特殊文字付加部2も多少異なる)。

0083

特殊文字指定部12は、外部から、特殊文字付加部2が付加動作する特殊文字の種類を取り込み、それを特殊文字付加部2に指定するものである。外部がユーザである場合には、例えば、複数の特殊文字候補をメニュー表示させてその中から選択させることで指定を受け付けたり、コード番号の入力などで特殊文字を受け付けたりする。また、外部が、N−gramデータテーブル6を利用する応用装置である場合には、例えば、コード番号として受け付けたりする。

0084

この第4の実施形態の特殊文字付加部2は、文頭や文末などに、特殊文字指定部12が指定した文字種の特殊文字を付加する。

0085

この第4の実施形態においても、第1の実施形態と同様な効果を奏することができる。これに加えて、特殊文字の文字種を指定できるので、各種の応用装置に対応し易いという効果をも奏する。

0086

なお、この第4の実施形態についても、第1〜第3の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。

0087

(E)第5の実施形態
以下、本発明による自然言語統計データベース装置の第5の実施形態を図面を参照しながら詳述する。

0088

この第5の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、相前後する文にまたがる文字列のN−gramデータも作成可能としたという特徴を有するものである。

0089

(E−1)第5の実施形態の構成
図10は、第5の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。

0090

図10及び図1の比較から明らかなように、この第5の実施形態は、第1の実施形態の構成に加えて、文間N−gramカウント部8を有するものであり、この文間N−gramカウント部8以外の構成要素は第1の実施形態と同様に機能するものである(正確に言えば、特殊文字付加部2及びデータ統合部5も多少異なる)。

0091

この第5の実施形態の特殊文字付加部2も、基本的には、文頭又は文末に特殊文字を付加する機能を有するものであるが、さらに、相前後する文にまたがる文字列、言い換えると、前の文の文末の所定文字数(N−1文字)でなる文字列と、その次の文の文頭の所定文字数(N−1文字)でなる文字列とを文間N−gramカウント部8に与える機能をも担っているものである。

0092

文間N−gramカウント部8は、特殊文字付加部2から与えられた相前後する文にまたがる文字列から、N−gramデータ(頻度情報を含む)を作成するものである。この文間N−gramカウント部8によるN−gramデータの作成は、対象とする文字列が短いので、上記文献1に記載の手法による必要はなく、例えば、文字列からN文字部分の切り出し、同一見出しのカウント方法を適用すれば良い。

0093

この第5の実施形態のデータ統合部5は、N−gramデータ処理部4からの分割ファイル間のN−gramデータの統合だけでなく、文間N−gramカウント部8からのN−gramデータの統合も行い、統合後のN−gramデータをN−gramデータテーブル6に格納するものである。

0094

(E−2)第5の実施形態の動作
上述のように、第5の実施形態は、相前後する文にまたがる文字列のN−gramデータも作成可能としたことに特徴を有するものであり、この特徴との関係で、特殊文字付加部2(及び文結合部3)の動作、及び、データ統合部5の動作が第1の実施形態とは異なっている。

0095

ここで、データ統合部5の動作はデータを統合するだけであるので、その説明は省略し、以下では、特殊文字付加部2(及び文結合部3)の動作と、第1の実施形態では存在していない文間N−gramカウント部8の動作を順に説明する。

0096

まず、第5の実施形態における特殊文字付加部2及び文結合部3による特殊文字の付加及び文結合動作(図2のステップ204参照)を、図11のフローチャートを参照しながら説明する。

0097

まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。

0098

次に、対象文の文頭にN−1個の特殊文字を付加し、文字列メモリの末尾に追加する(ステップ302)。その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。

0099

最後の文でなかった場合には、文末のN−1文字をコピーして文間N−gramカウント部8に送付した後(ステップ1101)、次の文を対象にセットし(ステップ305)、さらに、セットした文の文頭のN−1文字をコピーして文間N−gramカウント部8に送付して上述したステップ302に戻る(ステップ1102)。

0100

一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、文間N−gramカウント部8にテキスト最後であることを通知して(ステップ1103)、一連の処理を終了する。

0101

次に、文間N−gramカウント部8の動作を、図12のフローチャートを参照しながら説明する。

0102

まず、特殊文字付加部2から、テキスト最後の通知が与えられたか否かを判定する(ステップ1201)。

0103

テキスト最後の通知が与えられていなければ、特殊文字付加部2から、文末のN−1文字と文頭のN−1文字とを受け取り(ステップ1202)、これらの2種類の文字列を結合した後、結合文字列からN文字の部分文字列を、その先頭側から1文字ずつずらしながら切り出し(N−1組の文字列が切り出される)、切り出した文字列(N−gram;見出し)をそれぞれカウントする(ステップ1203)。その後、各見出しに対して、既に内部保持しているN−gramデータの見出しに同じものがあれば、既存データの頻度値に、新規データの頻度値を加算し、既に保持しているN−gramデータの見出しに同じものがなければ、見出しと頻度値のペアを追加する(ステップ1204)。そして、上述したステップ1201に戻る。

0104

ステップ1201の判定において、特殊文字付加部2から、テキスト最後の通知が与えられたという結果を得ると、内部保持しているN−gramデータをデータ統合部5に送付して一連の動作を終了する。

0105

(E−3)第5の実施形態の効果
この第5の実施形態においても、第1の実施形態と同様な効果を奏することができる。これに加えて、入力テキストファイルにおける文間においては、特殊文字を含む文頭や文末用のN−gramデータだけでなく、特殊文字を含まない文末から文頭に至るN−gramデータも作成することができ、多様なN−gramデータも作成、格納することができる。その結果、応用装置の自由度を高めることができる。

0106

(E−4)第5の実施形態の変形実施形態
なお、この第5の実施形態についても、第1〜第4の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。

0107

また、第2〜第4の実施形態の特徴とこの第5の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。

0108

(F)第6の実施形態
以下、本発明による自然言語統計データベース装置の第6の実施形態を図面を参照しながら詳述する。

0109

この第6の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、括弧内文字列を除去してからN−gramデータを作成可能としたという特徴を有するものである。

0110

(F−1)第6の実施形態の構成
図13は、第6の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。

0111

図13及び図1の比較から明らかなように、この第6の実施形態は、第1の実施形態の構成に加えて、括弧内文字列除去部9をファイル分割部1及び特殊文字付加部2間に有するものであり、この括弧内文字列除去部9以外の構成要素は第1の実施形態と同様に機能するものである。

0112

括弧内文字列除去部9は、ファイル分割部1からのテキストファイルの各文に、1組の括弧(開き括弧及び閉じ括弧)で挟まれた文字列があった場合に、その文字列を除去するものである。

0113

括弧の前の文字列又は括弧の後の文字列は、括弧内の文字列とは意味などが関連する単語やの関係にはあるが、括弧の前後の文字の出現の関連性は明確に存在するとは言い難い。そこで、この第6の実施形態では、N−gramデータの作成には括弧及び括弧内の文字列は使用しないこととし、括弧内文字列除去部9を設けたものである。

0114

(F−2)第6の実施形態の動作
以下、この第6の実施形態で新たに設けられた括弧内文字列除去部9の動作を説明する。

0115

なお、この第6の実施形態の場合、括弧内文字列除去部9、特殊文字付加部2及び文結合部3は、融合した形で形成されているので、括弧内文字列除去部9、特殊文字付加部2及び文結合部3の動作を、図14のフローチャートを参照しながら説明する。また、図14は、括弧内にさらに括弧がある入れ子構造は存在しないことを前提としている。さらに、図14は、第1の実施形態に係る図3に置き換えられるものであり、図3との同一、対応ステップには同一符号を付して示している。

0116

まず、ファイル分割部1から送られてきたテキストから、最初の文(最初の行)を処理対象にセットし、文を結合するための文字列メモリを確保する(ステップ301)。

0117

次に、対象文の文頭にN−1個の特殊文字を付加した後(ステップ1401)、これから文字列メモリに格納しようとする文字列部分の中に開き括弧があるか否かを確認する(ステップ1402)。開き括弧がある場合には、開き括弧直前までの文字列を文字列メモリの末尾に追加し(ステップ1403)、これ以降の文字列に閉じ括弧があるか否かを確認する(ステップ1404)。閉じ括弧があれば、開き括弧から閉じ括弧の間を読み飛ばして(ステップ1405)上述したステップ1402に戻る。

0118

上述したステップ1402において、開き括弧が存在しないという結果を得た場合や、上述したステップ1404において、閉じ括弧が存在しないという結果を得た場合には、処理対象の文の未だ文字列メモリに格納されていない文字列(読み飛ばされたものを除く)を文字列メモリの末尾に追加する(ステップ1406)。

0119

その後、現在の対象文が処理すべき最後の文かどうか(他に処理する文が残っていないか)をチェックする(ステップ303)。最後の文ではなかった場合には、次の文を処理対象にセットして(ステップ305)、上述したステップ1401に戻る。一方、最後の文であった場合には、文字列メモリの末尾に特殊文字をN−1個だけ追加し(ステップ304)、一連の処理を終了する。

0120

(F−3)第6の実施形態の効果
この第6の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加えて、入力テキストファイルにおける括弧の影響を除いたN−gramデータも作成することができるという効果を奏する。

0121

(F−4)第6の実施形態の変形実施形態
なお、この第6の実施形態についても、第1、第2、第4、第5の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。

0122

また、第1、第2、第4、第5の実施形態の特徴とこの第6の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。

0123

(G)第7の実施形態
以下、本発明による自然言語統計データベース装置の第7の実施形態を図面を参照しながら簡単に説明する。

0124

図15は、第7の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図13との同一、対応部分には同一符号を付して示している。

0125

図15及び図13の比較から明らかなように、この第7の実施形態は、第6の実施形態の構成に加えて、括弧内N−gramカウント部10を有するものであり、この括弧内N−gramカウント部10と、括弧内文字列除去部9以外の構成要素は第1の実施形態と同様に機能するものである。

0126

第7の実施形態の括弧内文字列除去部9は、1文に含まれている1組の括弧で挟まれた文字列(括弧を含む)を除去して特殊文字付加部2に与えると共に、除去した文字列のうち、括弧を除いた文字列を括弧内N−gramカウント部10に与えるものである。

0127

括弧内N−gramカウント部10は、括弧内文字列除去部9から与えられた文字列に対して、第5の実施形態の文間N−gramカウント部8と同様にして、N−gramデータを作成してデータ統合部5に与えるものである。

0128

図16は、この第7の実施形態における括弧内文字列除去部9、特殊文字付加部2及び文結合部3の動作を示すフローチャートであり、上述した第6の実施形態に係る図14のフローチャートとの同一ステップには同一符号を付して示している。

0129

図14と異なる点は、ステップ1405の処理に代えて、ステップ1601の処理を実行している点であり、その他は、図14と同一である。ステップ1601の処理は、開き括弧から閉じ括弧の間を読み飛ばしながら、括弧以外の文字列を括弧内N−gramカウント部10に送付処理である。すなわち、第6の実施形態では、1組の括弧内の文字列を単に除去するものであったが、この第7の実施形態は、括弧内N−gramカウント部10に除去した文字列を送付し、これにより、括弧内文字列に対するN−gramデータの作成を実行できるようにしている。

0130

この第7の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加えて、入力テキストファイルにおける括弧の影響を除いたN−gramデータを作成することができ、しかも、括弧内文字列を1文と見なして得たN−gramデータも作成することができる。

0131

なお、この第7の実施形態についても、第1〜第5の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。

0132

また、第1〜第5の実施形態の特徴とこの第7の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。

0133

(H)第8の実施形態
以下、本発明による自然言語統計データベース装置の第8の実施形態を図面を参照しながら詳述する。

0134

この第8の実施形態の自然言語統計データベース装置は、第1の実施形態と同様な特徴に加えて、文区切りに係るN−gramデータの中から、文区切り面から妥当でないものを検出して文区切り記号の前の文字列をユーザに提示するという特徴を有するものである。

0135

(H−1)第8の実施形態の構成
図17は、第8の実施形態の自然言語統計データベース装置の構成を示す機能ブロック図であり、上述した図1との同一、対応部分には同一符号を付して示している。

0136

図17及び図1の比較から明らかなように、この第8の実施形態は、第1の実施形態の構成に加えて、文区切り妥当性判定部11を有するものであり、この文区切り妥当性判定部11以外の構成要素は第1の実施形態と同様に機能するものである。なお、この第8の実施形態の場合、データ統合部5は、N−gramデータテーブル6に対するN−gramデータの格納が完了したときに、文区切り妥当性判定部11の処理を起動するようになされている。

0137

文区切り妥当性判定部11は、N−gramデータテーブル6に格納されているN−gramデータの中から文区切りに係るN−gramデータを検出し、さらに、その中から、文区切り面から妥当でないものを検出して文区切り記号の前の文字列をユーザに提示するものである。

0138

図示はしていないが、N−gramデータテーブル6に対する編集手段を設ければ、ユーザは提示された文字列を確認し、必要ならば、その文字列に係るN−gramデータを削除することができる。一般に、データテーブルに対する編集手段は各種のものが適用されており、そのような編集手段をN−gramデータテーブル6に対する編集手段として適用すれば良い。

0139

(H−2)第8の実施形態の動作
文区切り妥当性判定部11での動作以外は、第1の実施形態と同様であるので、その説明は省略し、以下では、文区切り妥当性判定部11の動作を図18のフローチャートを参照しながら説明する。なお、図18は、Nが3の場合の表現で記載している。

0140

まず、N−gramデータテーブル6から、N番目の文字種が特殊文字である全てのN−gramデータ(頻度値を含む)を取得する(ステップ1801)。すなわち、任意の文字を「?」で表し、Nが3であると、「??#」に係るN−gramデータを取得する。

0141

この処理で取得されるN−gramデータの大半は、N−1番目の文字種も特殊文字「#」か、N−1番目の文字種が「。」や「.」などの文区切り文字である。これは、テキストファイルを1文1行にする際に、文区切り文字を検出して1文と判断することが多く、各文に対して、上述したような特殊文字を付加してN−gramデータを作成しているためである。

0142

その後、取得したN−gramデータについて、N−1番目の文字種が同じN−gramデータの頻度値(又は確率)を比較する(ステップ1802)。ここで、比較は、頻度値がある程度以上のものだけで行うようにしても良い。すなわち、頻度値が余りに少ないものは、N−1番目の文字種が「。」や「.」などの文区切り文字でないことが多いためである。

0143

このような比較の結果、相対的に頻度値(又は確率)が小さいN−gramデータがあるか否かを判断する(ステップ1803)。このようなN−gramデータがなければ、一連の処理を直ちに終了する。一方、相対的に頻度値(又は確率)が小さいN−gramデータがあれば、そのN−gramデータから特殊文字を除いた文字列(又はN−gramデータそのもの)をユーザに提示して(ステップ1804)、一連の処理を終了する。特殊文字の意味をユーザが理解していることは少ないので、N−gramデータから特殊文字を除いた文字列をユーザに提示することが好ましい。

0144

例えば、項目や段落の見出しに見出し番号(例えば、「1.1.1」)が含まれているようなテキストファイルであれば、N−gramデータ中に、「1.#」というN−gramデータも出現するが、これは文末用(文区切り用)のN−gramデータとしては妥当でないが、文区切り文字を含んでいる。これの相対的な出現頻度は少なく、「1.」をユーザに提示して、このN−gramデータの取り扱い(削除や残存)をユーザに決定させることが好ましい。

0145

(H−3)第8の実施形態の効果
この第8の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加えて、文区切り文字を含みながら、文区切り用のN−gramデータとして妥当出ないと思われるものをユーザに提示するようにしたので、その取り扱いをユーザが決定することができるという効果を奏する。

0146

(H−4)第8の実施形態の変形実施形態
なお、この第8の実施形態についても、第1〜第7の実施形態について説明した変形実施形態のうち、適用可能なものを適用できることは勿論である。

0147

また、第2〜第7の実施形態の特徴とこの第8の実施形態の特徴とを共に有するように自然言語統計データベース装置を構成しても良い。

0148

(I)他の実施形態
本発明の自然言語統計データベース装置は、その用途はいかなるものであっても良く、種々の自然言語処理装置に適用できるものである。また、種々の自然言語処理装置は、本発明の自然言語統計データベース装置で形成されたN−gramデータテーブル(第2の実施形態の場合は特殊文字変換部を含む)だけを取り込んで利用するものであっても良い。

0149

また、本発明の自然言語統計データベース装置に係る自然言語も日本語に限定されるものではなく、他の言語の入力文を対象としたものであっても良い。

0150

さらに、N−gramデータ処理部としては、複数の文を結合したテキストファイルから、文を分割処理することなくN−gramデータを作成できるものであれば、上記文献1に記載の手法に従うものに限定されるものではない。

0151

さらにまた、上記各実施形態では、N−gramデータが単なる文字列と頻度情報とでなるものであったが、文字列部分が、品詞情報などをタグとして付加されている拡張文字の文字列であっても良い。特許請求の範囲での「文字」の用語は、「拡張文字」を含む概念とする。

発明の効果

0152

以上のように、本発明によれば、複数の文を有するテキストファイルから、文を分割することなく、N個の文字列とその頻度情報とでなるN−gramデータを作成するN−gramデータ処理手段と、作成されたN−gramデータを格納するN−gramデータ記憶手段とを有する自然言語統計データベース装置において、入力テキストファイルの先頭と末尾にN−1文字の特殊文字を付加すると共に、テキストファイル中の文と文との間にN−1文字の特殊文字を付加してN−gramデータ処理手段に与える特殊文字付加手段を有するので、大量のテキストデータから精度の高いN−gramデータを効率良く抽出して格納することができる。

図面の簡単な説明

0153

図1第1の実施形態の機能的構成を示すブロック図である。
図2第1の実施形態のファイル分割部〜N−gramデータ処理部の動作を示すフローチャートである。
図3第1の実施形態の特殊文字付加部及び文結合部の動作を示すフローチャートである。
図4第1の実施形態のデータ統合部の動作を示すフローチャートである。
図5第1の実施形態のN−gramデータ例を示す説明図である。
図6第2の実施形態の機能的構成を示すブロック図である。
図7第2の実施形態の特殊文字変換部の動作を示すフローチャートである。
図8第3の実施形態の特殊文字付加部及び文結合部の動作を示すフローチャートである。
図9第4の実施形態の機能的構成を示すブロック図である。
図10第5の実施形態の機能的構成を示すブロック図である。
図11第5の実施形態の特殊文字付加部及び文結合部の動作を示すフローチャートである。
図12第5の実施形態の文間N−gramカウント部の動作を示すフローチャートである。
図13第6の実施形態の機能的構成を示すブロック図である。
図14第6の実施形態の括弧内文字列除去部〜文結合部の動作を示すフローチャートである。
図15第7の実施形態の機能的構成を示すブロック図である。
図16第7の実施形態の括弧内文字列除去部〜文結合部の動作を示すフローチャートである。
図17第8の実施形態の機能的構成を示すブロック図である。
図18第8の実施形態の文区切り妥当性判定部11の動作を示すフローチャートである。

--

0154

1…ファイル分割部、2…特殊文字付加部、3…文結合部、4…N−gramデータ処理部、5…データ統合部、6…N−gramデータテーブル、7…特殊文字変換部、8…文間N−gramカウント部、9…括弧内文字列除去部、10…括弧内N−gramカウント部、11…文区切り妥当性判定部、12…特殊文字指定部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • グーグルエルエルシーの「 メッセージ交換スレッドの拡張」が 公開されました。( 2019/08/29)

    【課題・解決手段】メッセージ交換スレッドを拡張するための方法、装置、システム、およびコンピュータ可読媒体が提供される。様々な実装形態では、2つ以上のメッセージ交換クライアントを操作している2人以上の参... 詳細

  • クオント株式会社の「 評価装置、評価方法及び評価プログラム」が 公開されました。( 2019/08/22)

    【課題】Webサイトを閲覧する質の高い高エンゲージメントユーザの数や割合に基づき、Webサイトを評価する評価装置、評価方法および評価プログラムを提供する。【解決手段】高エンゲージメントユーザの数や割合... 詳細

  • 株式会社エクサの「 類似度判定プログラム」が 公開されました。( 2019/08/22)

    【課題】任意のパラメータ列について、あらかじめ特徴量を設計して抽出する作業を実施することなく、類似するパラメータ列を探索する類似度判定プログラムを提供する。【解決手段】本発明の類似度判定プログラムは、... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ