図面 (/)

技術 ファイル処理方法、データ処理装置及び記憶媒体

出願人 富士通株式会社
発明者 片岡正弘坪倉孝
出願日 1998年10月20日 (20年1ヶ月経過) 出願番号 1999-523696
公開日 2000年2月2日 (18年10ヶ月経過) 公開番号 WO1999-021092
状態 特許登録済
技術分野 計算機におけるファイル管理 圧縮、伸長・符号変換及びデコーダ
主要キーワード 圧縮種別 最終区間 光学的情報記憶媒体 退避ファイル 圧縮辞書 判定用フラグ 登録記号 百科辞典
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2000年2月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題・解決手段

ファイル処理方法データ処理装置及び記憶媒体は、データ及び前記データに対するインデックスのデータを複数の区間に分割し、圧縮して圧縮ファイルを求め、前記圧縮ファイルを前記区間の圧縮後のアドレス情報と共に記憶媒体に格納するように構成されている。

概要

背景

概要

ファイル処理方法データ処理装置及び記憶媒体は、データ及び前記データに対するインデックスのデータを複数の区間に分割し、圧縮して圧縮ファイルを求め、前記圧縮ファイルを前記区間の圧縮後のアドレス情報と共に記憶媒体に格納するように構成されている。

目的

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

データ及び該データに対するインデックスのデータを複数の区間に分割し、圧縮して圧縮ファイルを求めるステップと、該圧縮ファイルを前記区間の圧縮後のアドレス情報と共に記憶媒体に格納するステップとを含む、ファイル処理方法

請求項2

前記区間は固定長である、請求の範囲第1項記載のファイル処理方法。

請求項3

前記区間は可変長であり、前記格納するステップは、圧縮前のアドレス情報も前記記憶媒体に格納する、請求の範囲第1項記載のファイル処理方法。

請求項4

前記圧縮ファイルを前記区間毎に前記記憶媒体から読み出し伸長して、データ及びインデックスのデータを復元するステップを更に含む、請求の範囲第1〜第3項のいずれか1項記載のファイル処理方法。

請求項5

復元されたデータ及びインデックスのデータを補助記憶装置に格納するステップを更に含む、請求の範囲第4項記載のファイル処理方法。

請求項6

前記圧縮するステップは、各区間毎のデータ及びインデックスのデータに共通な圧縮アルゴリズム及び圧縮パラメータを使用する、請求の範囲第1〜第5項のいずれか1項記載のファイル処理方法。

請求項7

前記圧縮するステップは、前記データ中の所定数の第1のビットコード出現頻度順に選択し、選択されなかった残りの第1のビットコードを第2のビットコードに分解し、該第2のビットコードを出現頻度順に選択した結果に基づいて変換テーブルを作成し、該変換テーブルに基づいてデータ圧縮を行う、請求の範囲第1項記載のファイル処理方法。

請求項8

前記データは、辞書データである、請求の範囲第1〜第7項のいずれか1項記載のファイル処理方法。

請求項9

データ及び該データに対するインデックスのデータを複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後のアドレス情報と共に前記区間毎に記憶媒体から読み出すステップと、該圧縮ファイルを伸長して、データ及びインデックスのデータを復元するステップとを含む、ファイル処理方法。

請求項10

復元されたデータ及びインデックスのデータを補助記憶装置に格納するステップを更に含む、請求の範囲第9項記載のファイル処理方法。

請求項11

前記伸張するステップは、圧縮時に前記データ中の所定数の第1のビットコードを出現頻度順に選択し、選択されなかった残りの第1のビットコードを第2のビットコードに分解し、該第2のビットコードを出現頻度順に選択した結果に基づいて作成された変換テーブルに基づいてデータ伸張を行う、請求の範囲第9又は第10項記載のファイル処理方法。

請求項12

前記区間は固定長である、請求の範囲第9〜第11項のいずれか1項記載のファイル処理方法。

請求項13

前記区間は可変長であり、圧縮前のアドレス情報も前記記憶媒体に格納されている、請求の範囲第9〜第11項のいずれか1項記載のファイル処理方法。

請求項14

前記データは、辞書データである、請求の範囲第9〜第13項のいずれか1項記載のファイル処理方法。

請求項15

データ及び該データに対するインデックスデータを複数の区間に分割し、圧縮して圧縮ファイルを求める手段と、該圧縮ファイルを前記区間の圧縮後のアドレス情報と共に記憶媒体に格納する手段とを備えた、ファイル処理装置

請求項16

前記区間は固定長である、請求の範囲第15項記載のファイル処理装置。

請求項17

前記区間は可変長であり、前記格納する手段は、圧縮前のアドレス情報も前記記憶媒体に格納する、請求の範囲第15項記載のファイル処理装置。

請求項18

前記圧縮ファイルを前記区間毎に前記記憶媒体から読み出して伸長して、データ及びインデックスデータを復元する手段を更に備えた、請求の範囲第15〜第17項のいずれか1項記載のファイル処理装置。

請求項19

復元されたデータ及びインデックスのデータを補助記憶装置に格納する手段を更に含む、請求の範囲第18項記載のファイル処理装置。

請求項20

前記圧縮する手段は、各区間毎のデータ及びインデックスデータに共通な圧縮アルゴリズム及び圧縮パラメータを使用する、請求の範囲第15〜第19項のいずれか1項記載のファイル処理装置。

請求項21

前記圧縮する手段は、前記データ中の所定数の第1のビットコードを出現頻度順に選択し、選択されなかった残りの第1のビットコードを第2のビットコードに分解し、該第2のビットコードを出現頻度順に選択した結果に基づいて変換テーブルを作成し、該変換テーブルに基づいてデータ圧縮を行う、請求の範囲第15項記載のファイル処理装置。

請求項22

前記データは、辞書データである、請求の範囲第15〜第21項のいずれか1項記載のファイル処理装置。

請求項23

データ及び該データに対するインデックスデータを複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後のアドレス情報と共に前記区間毎に記憶媒体から読み出す手段と、該圧縮ファイルを伸長して、データ及びインデックスデータを復元する手段とを備えた、ファイル処理装置。

請求項24

復元されたデータ及びインデックスのデータを補助記憶装置に格納する手段を更に含む、請求の範囲第23項記載のファイル処理装置。

請求項25

前記伸張する手段は、圧縮時に前記データ中の所定数の第1のビットコードを出現頻度順に選択し、選択されなかった残りの第1のビットコードを第2のビットコードに分解し、該第2のビットコードを出現頻度順に選択した結果に基づいて作成された変換テーブルに基づいてデータ伸張を行う、請求の範囲第23又は第24項記載のファイル処理装置。

請求項26

前記区間は固定長である、請求の範囲第23〜第25項のいずれか1項記載のファイル処理装置。

請求項27

前記区間は可変長であり、圧縮前のアドレス情報も前記記憶媒体に格納されている、請求の範囲第23〜第25項のいずれか1項記載のファイル処理装置。

請求項28

前記データは、辞書データである、請求の範囲第23〜第27項のいずれか1項記載のファイル処理装置。

請求項29

コンピュータ読み取り可能な情報を記憶した記憶媒体であって、コンピュータに、データ及び該データに対するインデックスのデータを複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後のアドレス情報と共に前記区間毎に前記記憶媒体から読み出させる手段と、コンピュータに、該圧縮ファイルを伸長して、データ及びインデックスのデータを復元させる手段とを備えたプログラムを格納する、記憶媒体。

請求項30

コンピュータに、復元されたデータ及びインデックスのデータを補助記憶装置に格納させる手段を更に含む、請求の範囲第29項記載の記憶媒体。

請求項31

前記区間は固定長である、請求の範囲第29又は第30項記載の記憶媒体。

請求項32

前記区間は可変長であり、前記読み出させる手段は、圧縮前のアドレス情報も前記記憶媒体から読み出させる、請求の範囲第29又は第30項記載の記憶媒体。

請求項33

前記圧縮ファイルは、各区間毎のデータ及びインデックスのデータに共通な圧縮アルゴリズム及び圧縮パラメータを使用して圧縮されている、請求の範囲第29〜第32項のいずれか1項記載の記憶媒体。

請求項34

前記データは、辞書データである、請求の範囲第29〜第33項のいずれか1項記載の記憶媒体。

請求項35

コンピュータで読み取り可能な情報を記憶した記憶媒体であって、データ及び該データに対するインデックスのデータを複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後のアドレス情報と共に格納しており、該圧縮ファイルは、各区間毎のデータ及びインデックスのデータに共通な圧縮アルゴリズム及び圧縮パラメータを使用して圧縮されている、記憶媒体。

請求項36

前記区間は固定長である、請求の範囲第35項記載の記憶媒体。

請求項37

前記区間は可変長であり、圧縮前のアドレス情報も格納している、請求の範囲第35項記載の記憶媒体。

請求項38

前記データは、辞書データである、請求の範囲第35〜第37項のいずれか1項記載の記憶媒体。

請求項39

コンピュータで読取可能な情報を記録した記憶媒体であって、コンピュータに、辞書データ及び該辞書データに対するインデックスのデータを複数の区間に分割し、圧縮して圧縮辞書ファイルを求めさせる手順と、該圧縮辞書ファイルを前記区間の圧縮後のアドレス情報と共に記憶媒体に格納させる手順とを実行させるためのプログラムを記録した記憶媒体。

請求項40

前記区間は固定長である、請求の範囲第39項記載の記憶媒体。

請求項41

前記区間は可変長であり、前記読み出させる手段は、圧縮前のアドレス情報も前記記憶媒体から読み出させる、請求の範囲第39項記載の記憶媒体。

請求項42

前記圧縮辞書ファイルは、各区間毎の辞書データ及びインデックスのデータに共通な圧縮アルゴリズム及び圧縮パラメータを使用して圧縮されている、請求の範囲第39〜第41項のいずれか1項記載の記憶媒体。

請求項43

コンピュータに、前記圧縮辞書ファイルを前記区間毎に前記記憶媒体から読み出して伸長して、辞書データ及びインデックスのデータを復元させる手順を実行させるプログラムを更に記録した、請求の範囲第39〜第42項のいずれか1項記載の記憶媒体。

請求項44

コンピュータに、復元された辞書データ及びインデックスのデータを補助記憶装置に格納させる手順を実行させるプログラムを更に記録した、請求の範囲第43項記載の記憶媒体。

請求項45

コンピュータに、前記辞書データ中の所定数の第1のビットコードを出現頻度順に選択し、選択されなかった残りの第1のビットコードを第2のビットコードに分解し、該第2のビットコードを出現頻度順に選択した結果に基づいて変換テーブルを作成し、該変換テーブルに基づいてデータ圧縮を行わせる手順を実行させるプログラムを更に記録した、請求の範囲第39項記載のファイル処理方法。

請求項46

圧縮ファイルを記録したコンピュータ読み取り可能な記録媒体であって、前記圧縮ファイルは、データ及び該データに対するインデックスのデータを複数の区間に分割して圧縮された圧縮データを記録した圧縮データ領域と、前記区間の圧縮後のアドレス情報を記録した格納アドレス情報領域と、前記圧縮の処理で用いた圧縮パラメータを記録した圧縮パラメータ領域を有する、圧縮ファイルを記録したコンピュータ読み取り可能な記録媒体。

請求項47

前記圧縮パラメータは、前記辞書データ中の出現頻度順に選択した所定数の第1のピットコードおよびその出現頻度と、該選択されなかった残りの第1のビットコードを分割した第2のビットコードから出現頻度順に選択した第2のビットコードおよびその出現頻度である、請求の範囲第46項に記載の記録媒体。

技術分野

0001

本発明はファイル処理方法データ処理装置及び記憶媒体係り、特に1又は
複数の辞書百科辞典等に関する辞書ファイル等のファイル圧縮して記憶媒体
に格納して読み出すファイル処理方法及びデータ処理装置並びに圧縮された辞書
ファイル等のファイルを格納する記憶媒体に関する。

0002

近年、辞書や百科辞典等の情報を予めCD−ROM等の記憶媒体に格納してお
き、コンピュータでCD−ROMをアクセスすることにより、辞書や百科辞典等
の情報を読み出して表示することが行われるようになった。これにより、辞書や
百科辞典等の膨大な情報を非常にコンパクトな1枚のCD−ROMに格納できる
。又、コンピュータを使用中に辞書や百科辞典等を開いて必要な情報を入手する
代わりに、CD−ROMから必要な情報を読み取れるので、必要な情報を入手す
る手間が大幅に軽減される。

背景技術

0003

辞書や百科辞典等の情報を格納した従来のCD−ROMでは、辞書ファイルが
辞書データ及びインデックスのデータ(以下、インデックスデータと言う)から
なる。例えば百科辞典の場合、辞書データには、語の意味を説明するテキスト
データ(以下、テキストデータと言う)、例えば語が動物であればその動物を示
す画像のデータ(以下、画像データと言う)、例えば語がであればその鳥の鳴
き声を示す音声のデータ(以下、音声データと言う)等が含まれる。インデック
スは、辞書ファイルから所望の辞書データを検索するために使用されるもので、
辞書データに対して設けられており、
キーワードと呼ばれることもある。インデックスデータには、見出しのポインタ
項目のポインタ等が含まれる。見出しのデータには、見出し語が含まれる。又
、項目のデータには、見出し語や解説文等が含まれる。

0004

従来は、CD−ROMの記憶容量が比較的大きいため、テキストデータやイン
デックスデータは圧縮されずにCD−ROMに格納されている。他方、画像デー
タ及び音声データは、特に画像データの情報量が多いこともあり、夫々適切な圧
縮方式で圧縮されてCD−ROMに格納されている。

0005

しかし、辞書毎や百科辞典毎に1枚のCD−ROMを必要とするのでは、辞書
データの使い勝手が悪い。そこで、1枚のCD−ROMに複数の辞書や百科辞典
等の情報を格納することが望ましいが、この場合、格納するべき情報量が、辞書
データを圧縮しても1枚のCD−ROMの記憶容量を越えてしまう可能性がある
という問題があった。又、CD−ROMに格納するべき辞書ファイルが単一の辞
書や百科辞典等のものであっても、辞書ファイルの情報量が増大すれば、辞書デ
ータを圧縮しても1枚のCD−ROMの記憶容量を越えてしまう可能性もあった

0006

このため、辞書データだけでなく、インデックスデータを含む辞書ファイル全
体を圧縮してCD−ROMに格納することが考えられるが、比較的簡単な方法で
効率良く辞書ファイル全体を圧縮すると共に、圧縮辞書ファイルを短時間で伸長
可能な方法は提案されていない。特に辞書や百科辞典等の場合には、インデック
スデータの情報量が多いため、辞書ファイルの伸長時にインデックスデータを復
元する処理に時間がかかると、所望のインデックスデータ又は辞書データへのア
クセス時間が長くなり、辞書や百科辞典等の使い勝手が悪くなってしまう。

0007

又、例えば辞書データをインデックスの項目単位又は固定長単位で圧縮する場
合、特に辞書や百科辞典等ではインデックスデータの
情報量が多いため、上記と同様に辞書ファイルの伸長時の処理に時間がかかって
しまい、辞書や百科辞典等の使い勝手が悪くなってしまう。例えば、特開平9−
26969号公報では、これに類似する方法を用いた電話帳検索システムが提案
されているが、この提案方法では、インデックスデータは圧縮されない。これは
電話帳の場合、インデックスデータの情報量は、辞書データに対応する電話
号−姓、名、法人名、住所の情報量に比較すると小さく、圧縮しても全体として
情報圧縮効率があまり向上しないからである。このため、この提案方法を辞書
や百科辞典等の情報を記憶媒体に格納する際に適用しても、辞書ファイル全体と
しての情報圧縮効率はあまり向上しない。

0008

従って、従来は、辞書や百科辞典等のように、インデックスデータの情報量が
辞書データの情報量と比較しても比較的大きい場合、辞書ファイルを効率良く圧
縮して記憶媒体に格納すると共に、圧縮辞書ファイルを比較的簡単な処理により
短時間でアクセスすることができないという問題があった。

発明の開示

0009

そこで、本発明は、辞書や百科辞典等のように、インデックスデータの情報量
が辞書データの情報量と比較しても比較的大きい場合でも、辞書ファイル等のフ
イルを効率良く圧縮して記憶媒体に格納すると共に、圧縮辞書ファイル等の圧
縮ファイルを比較的簡単な処理により短時間でアクセス可能とするファイル処理
方法、データ処理装置及び記憶媒体を提供することを目的とする。

0010

本発明の目的は、データ及び該データに対するインデックスのデータを複数の
区間に分割し、圧縮して圧縮ファイルを求めるステップと、該圧縮ファイルを前
記区間の圧縮後のアドレス情報と共に記憶媒体に格納するステップとを含むファ
イル処理方法を提供することにある。本発明によれば、インデックスや各項目の
テキスト
等のデータにより構成される辞書ファイル等のファイルを効率良く圧縮して記憶
媒体に格納することができ、又、圧縮ファイルの伸長を区間毎に行えば比較的簡
単な処理でファイル検索高速に行うことができる。

0011

前記区間を固定長とすれば、圧縮前のアドレス情報を圧縮ファイルに含める必
要がなく、データ圧縮効率を向上することができる。前記区間を可変長とし、前
記格納するステップが、圧縮前のアドレス情報も前記記憶媒体に格納すれば、デ
ータの種別区分に応じて適切な区間を設定することで、データ伸長を高速に行
うことができる。

0012

前記圧縮ファイルを前記区間毎に前記記憶媒体から読み出して伸長し、復元
れたデータ及びインデックスのデータを補助記憶装置に格納するステップを更に
含むようにすれば、高速データアクセスが可能な補助記憶装置を用いることによ
り、ファイル検索速度を向上することができる。

0013

前記圧縮するステップが、各区間毎のデータ及びインデックスのデータに共通
圧縮アルゴリズム及び圧縮パラメータを使用するようにすれば、共通な圧縮ア
ルゴリズム及び圧縮パラメータを使用することにより、データ圧縮処理及びデー
タ伸長時のデータ伸長処理を簡略化することができ、具体的な圧縮アルゴリズム
としてはハフマン符号ユニバーサル符号等を使用できる。

0014

本発明の更に他の目的は、データ及び該データに対するインデックスのデータ
を複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後の
アドレス情報と共に前記区間毎に記憶媒体から読み出すステップと、該圧縮ファ
イルを伸長して、データ及びインデックスのデータを復元するステップとを含む
ファイル処理方法を提供することにある。本発明によれば、圧縮辞書ファイル等
の圧縮ファイルの伸長を区間毎に行うことにより比較的簡単な処理でファイル検
索を高速に行うことができる。

0015

本発明の他の目的は、データ及び該データに対するインデックスデータを複数
の区間に分割し、圧縮して圧縮ファイルを求める手段と、該圧縮ファイルを前記
区間の圧縮後のアドレス情報と共に記憶媒体に格納する手段とを備えたファイル
処理装置を提供することにある。本発明によれば、インデックスや各項目のテキ
スト等のデータにより構成されるファイルを効率良く圧縮して記憶媒体に格納す
ることができ、又、圧縮ファイルの伸長を区間毎に行えば比較的簡単な処理でフ
ァイル検索を高速に行うことができる。

0016

本発明の更に他の目的は、データ及び該データに対するインデックスデータを
複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後のア
ドレス情報と共に前記区間毎に記憶媒体から読み出す手段と、該圧縮ファイルを
伸長して、データ及びインデックスデータを復元する手段とを備えたファイル処
理装置を提供することにある。本発明によれば、圧縮ファイルの伸長を区間毎に
行うことにより比較的簡単な処理でファイル検索を高速に行うことができる。

0017

本発明の他の目的は、コンピュータで読み取り可能な情報を記憶した記憶媒体
であって、コンピュータに、データ及び該データに対するインデックスのデータ
を複数の区間に分割し、圧縮して求められた圧縮ファイルを前記区間の圧縮後の
アドレス情報と共に前記区間毎に前記記憶媒体から読み出させる手段と、コン
ュータに、該圧縮ファイルを伸長して、データ及びインデックスのデータを復元
させる手段とを備えたプログラムを格納する記憶媒体を提供することにある。本
発明によれば、圧縮ファイルの伸長を区間毎に行うことにより比較的簡単な処理
でファイル検索を高速に行うことができる。

0018

本発明の更に他の目的は、コンピュータで読み取り可能な情報を記憶した記憶
媒体であって、データ及び該データに対するインデックスのデータを複数の区間
に分割し、圧縮して求められた圧縮ファ
イルを前記区間の圧縮後のアドレス情報と共に格納しており、該圧縮ファイルは
、各区間毎のデータ及びインデックスのデータに共通な圧縮アルゴリズム及び圧
パラメータを使用して圧縮されている記憶媒体を提供することにある。本発明
によれば、効率良くファイルを圧縮して記憶媒体に格納することができ、又、圧
縮ファイルの伸長を区間毎に行えば比較的簡単な処理でファイル検索を高速に行
うことができる。

0019

本発明の目的は、コンピュータで読取可能な情報を記録した記憶媒体であって
、コンピュータに、辞書データ及び該辞書データに対するインデックスのデータ
を複数の区間に分割し、圧縮して圧縮辞書ファイルを求めさせる手順と、該圧縮
辞書ファイルを前記区間の圧縮後のアドレス情報と共に記憶媒体に格納させる手
順を実行させるためのプログラムを記録した記憶媒体を提供するにある。本発明
によれば、比較的簡易な処理でファイル検索を高速に行うことができる。

0020

本発明の更に他の目的は、圧縮ファイルを記録したコンピュータ読み取り可能
記録媒体であって、前記圧縮ファイルは、データ及び該データに対するインデ
クスのデータを複数の区間に分割して圧縮された圧縮データを記録した圧縮デ
ータ領域と、前記区間の圧縮後のアドレス情報を記録した格納アドレス情報領域
と、前記圧縮の処理で用いた圧縮パラメータを記録した圧縮パラメータ領域を有
する圧縮ファイルを記録したコンピュータ読み取り可能な記録媒体を提供するに
ある。本発明によれば、比較的簡易な処理でファイル検索を行うことができる。

0021

従って、本発明によれば、辞書や百科辞典等のように、インデックスデータの
情報量が辞書データの情報量と比較してもかなり大きい場合でも、辞書ファイル
等のファイルを効率良く圧縮して記憶媒体に格納すると共に、圧縮辞書ファイル
等のファイルを比較的簡単な処理により短時間でアクセス可能となる。

0022

本発明の更に他の目的及び特長は、以下図面と共に述べる説明より明らかとな
ろう。

図面の簡単な説明

0023

図1はファイル処理方法の実施例を採用したコンピュータシステム概略構成
を示すブロック図、

0024

図2はCPUが行う圧縮パラメータ演算処理を説明するフローチャート

0025

図3は圧縮パラメータのデータ構造を示す図、

0026

図4はCPUが行うデータ圧縮処理及びアドレス情報演算処理を説明するフロ
ーチャート、

0027

図5はCPUが行う圧縮ファイル合成処理及び圧縮ファイル格納処理を説明す
るフローチャート、

0028

図6は圧縮ファイルの合成を説明する図、

0029

図7はCPUが行うインデックスリード処理を説明するフローチャート、

0030

図8はCPUが行うデータ伸長処理を説明するフローチャート、

0031

図9はCPUが行うテキストリード処理を説明するフローチャートである。

発明を実施するための最良の形態

0032

本発明になるファイル処理方法及びデータ処理装置の一実施例を説明する。フ
ァイル処理方法及びデータ処理装置の実施例は、本発明になる記憶媒体の一実施
例を用いる。尚、記憶媒体の実施例では、本発明がCD−ROMに適用されてい
るが、記憶媒体自体はCD−ROMに限定されず、本発明はCD−ROM以外の
光学的情報記憶媒体光磁気ディスク等の光磁気記憶媒体フロッピーディスク
等の磁気記憶媒体、各種半導体メモリデバイス等にも同様に適用可能であること
は言うまでもない。

0033

図1は、ファイル処理方法の実施例を採用したコンピュータシステムの概略構
成を示すブロック図であり、データ処理装置の実施例に対応する。同図中、コン
ピュータステムは、大略バス9により接続された中央処理装置(CPU)1、
ランダムアクセスメモリ(RAM)等からなる主記憶装置2、ハードディスク
ライブ等からなる補助記憶装置3、キーボードマウス等からなる入力装置4、
表示装置5及びCD−ROMドライブ等からなるCD−ROM入出力装置6から
なる。コンピュータシステムを構成する各要素自体は、周知の構成のもので構成
することができる。

0034

入力装置4は、CPU1に指示やデータを入力するのに用いられ、CPU1は
これらの指示やデータに基づいて補助記憶装置3に格納されたプログラムを実行
することで、ユーザの要求する処理を行う。補助記憶装置3に格納されたプログ
ラムは、予めインストールされていても、CD−ROM入出力装置6にロードさ
れたCD−ROM6aからロードされても良い。主記憶装置2は、CPU1が行
う演算処理等の中間結果演算に使用されるデータ等を一時的に格納するのに用
いられる。表示装置5は、CPU1が行った処理の結果やユーザに指示やデータ
の入力を促すメッセージを表示する。尚、表示装置5に代えて、又は、表示装置
5に加えて、CPU1が行った処理の結果等を印字するプリンタ(図示せず)を
バス9に接続しても良い。

0035

先ず、CD−ROM入出力装置6にロードされたCD−ROM6aに、辞書や
百科辞典等の辞書ファイルを格納するファイル格納処理について説明する。ファ
イル格納処理は、大略圧縮パラメータ演算処理と、インデックスやテキスト等の
データ圧縮処理と、アドレス情報演算処理と、圧縮ファイル合成処理と、圧縮フ
ァイル格納処理とからなる。本実施例では、説明の便宜上、CD−ROM6aは
CPU1にファイル格納処理を行わせるプログラムが格納されており、CPU1
は周知の方法でこのプログラムをCD−ROM6aか
ら読み取って補助記憶装置3にロードするものとする。又、辞書や百科辞典等の
辞書ファイルは、ホスト装置(図示せず)から転送されてバス9を介して補助
憶装置3に格納されているか、或いは、CD−ROM入出力装置6によりCD−
ROM6aとは異なるCD−ROMから読み取られてバス9を介して補助記憶
置3に格納されているものとする。

0036

1a)圧縮パラメータ演算処理:

0037

図2は、CPU1が行う圧縮パラメータ演算処理を説明するフローチャートで
ある。同図中、ステップS1は、補助記憶装置3をアクセスして辞書ファイルを
オープンする。ステップS2は、辞書ファイルから1文字、即ち、例えば16ビ
トコードを読み出す。ステップS3は、読み出した16ビットコード出現
度をCPU1内の出現頻度カウンタカウントする。ステップS4は、辞書ファ
イルの最終文字を処理したか否かを判定し、判定結果がNOであれば、処理はス
テップS2へ戻る。

0038

他方、ステップS4の判定結果がYESの場合、ステップS5は、辞書ファイ
ルをクローズする。ステップS6は、出現頻度順に16ビットコードをソート
、ステップS7は、出現頻度順に例えば1024個の16ビットコードを選択す
る。ステップS8は、選択されなかった残りの16ビットコードを8ビットコー
ドに分解し、8ビットコードの出現頻度を算出する。ステップS9は、8ビット
コードの出現頻度を約1/2にし、16ビットコードの出現頻度との補正を行う

0039

ステップS10は、補助記憶装置3内に圧縮パラメータの退避ファイルをオー
プンする。ステップS11は、1024個の16ビットコードとこれらの出現頻
度を圧縮パラメータの退避ファイルに書き込む。又、ステップS12は、256
個の8ビットコードとこれらの出現頻度を圧縮パラメータの退避ファイルに書き
込む。ステップS13は、圧縮パラメータの退避ファイルをクローズし、処
理は終了する。

0040

図3は、圧縮パラメータのデータ構造を示す図である。ハフマン符号による圧
縮の場合、同図に示すように、圧縮パラメータは、例えば1024種の16ビッ
トコード毎の256種の出現頻度及び8ビットコード毎の256種の出現頻度か
らなる。これらの出現頻度は、ハフマン木の生成のためのデータとなる。尚、ユ
ニバーサル符号による圧縮の場合の圧縮パラメータはトライの木もしくはそれを
生成するための登録記号例とその参照番号等のデータで構成される。

0041

1b)データ圧縮処理及びアドレス情報演算処理:

0042

図4は、CPU1が行うデータ圧縮処理及びアドレス情報演算処理を説明する
フローチャートである。同図中、ステップS21は、8ビットコードの出現頻度
及び16ビットコードの出現頻度から変換テーブル、即ち、本実施例ではハフ
ン圧縮を行うのでハフマン木を作成する。ステップS22は、補助記憶装置3内
の辞書ファイルをオープンする。ステップS23は、補助記憶装置3内に圧縮デ
ータの退避ファイル及びアドレス情報の退避ファイルをオープンする。

0043

ステップS24は、辞書ファイルから1区間を読み出す。この区間は、固定長
であっても、可変長であっても良いが、本実施例では説明の便宜上固定長である
ものとする。尚、上記区間は、ブロックと呼ばれることもある。ステップS25
は、ハフマン木を用いて1区間の圧縮データを演算する。ステップS26は、1
区間の終わり終了符号を付加する。又、ステップS27は、圧縮データを圧縮
データの退避ファイルに書き込む。

0044

ステップS28は、該当区間が格納されるアドレス情報を演算する。例えば区
間が固定長の場合、アドレス情報は各区間に付けられた区間番号に基づいて演算
される。ステップS29は、アドレス情報をアドレス情報の退避ファイルに書き
込む。ステップS30は、最終区間を処理したか否かを判定し、判定結果がNO
であれば、処
理はステップS24へ戻る。最終区間を処理したか否かは、例えば区間番号や最
終区間に付加された最終区間符号に基づいて判定することができる。

0045

他方、ステップS30の判定結果がYESの場合、ステップS31は、圧縮デ
ータの退避ファイル及びアドレス情報の退避ファイルを夫々クローズする。又、
ステップS32は、辞書ファイルをクローズし、処理は終了する。

0046

1c)圧縮ファイル合成処理及び圧縮ファイル格納処理:

0047

図5は、CPU1が行う圧縮ファイル合成処理及び圧縮ファイル格納処理を説
明するフローチャートである。同図中、ステップS41は、補助記憶装置3内に
圧縮ファイルをオープンする。ステップS42は、補助記憶装置3内の圧縮パラ
メータの退避ファイルをオープンし、ステップS43は、圧縮パラメータの退避
ファイルの圧縮パラメータを圧縮ファイルに複写する。ステップS44は、圧縮
パラメータの退避ファイルをクローズする。

0048

ステップS45は、補助記憶装置3内のアドレス情報の退避ファイルをオープ
ンし、ステップS46は、アドレス情報の退避ファイルのアドレス情報を圧縮フ
ァイルに複写する。ステップS47は、アドレス情報の退避ファイルをクローズ
する。更に、ステップS48は、補助記憶装置3内の圧縮データの退避ファイル
をオープンし、ステップS49は、圧縮データの退避ファイルの圧縮データを圧
縮ファイルに複写する。ステップS50は、圧縮データの退避ファイルをクロー
ズする。ステップS51は、圧縮ファイルをCD−ROM入出力装置6によりC
D−ROM6aに格納する。又、ステップS52は、圧縮ファイルをクローズし
、処理は終了する。

0049

図6は、上記の如き1a)圧縮パラメータ演算処理、1b)データ圧縮処理及
びアドレス情報演算処理及び1c)圧縮ファイル合成処理及び圧縮ファイル格納
処理による圧縮ファイルの合成を説明する図である。同図中、(a)は圧縮パラ
メータを示し、本実施例で
はハフマン符号による圧縮を行うための圧縮パラメータである。同図中、(b)
は辞書ファイルの区間を示し、本実施例では各区間が例えば2kbyteであり
、各区間は辞書データ及びインデックスデータからなる。例えば百科辞典の場合
、辞書データには、語の意味を説明するテキストのテキストデータ、例えば語が
動物であればその動物を示す画像データ、例えば語が鳥であればその鳥の鳴き声
を示す音声データ等が含まれる。インデックスは、辞書ファイルから所望の辞書
データを検索するために使用されるもので、辞書データに対して設けられており
、キーワードと呼ばれることもある。インデックスデータには、見出しのポイン
タや項目のポインタ等が含まれる。見出しのデータには、見出し語が含まれる。
又、項目のデータには、見出し語や解説文等が含まれる。

0050

図6中、(c)は圧縮データを示し、各区間が固定長又は可変長で圧縮されて
いる状態を示す。又、同図中、(d)は各区間に対して演算されたアドレス情報
を示し、(e)は圧縮パラメータと、アドレス情報と、圧縮データを合成して管
理情報を先頭に付加することで得られる圧縮ファイルを示す。管理情報は、辞書
ファイル名、辞書ファイルの種別、辞書ファイルの圧縮種別等の、圧縮ファイル
を検索する際に使用される情報が含まれる。

0051

次に、CD−ROM入出力装置6にロードされたCD−ROM6aに格納され
た圧縮ファイルを読み取って所望のデータを検索するファイル検索処理について
説明する。ファイル検索処理は、大略インデックスリード処理と、テキストリー
ド処理とからなり、データ伸長処理を呼び出して実行される。本実施例では、説
明の便宜上、CD−ROM6aはCPU1にファイル検索処理を行わせるプログ
ラムが格納されており、CPU1は周知の方法でこのプログラム及び圧縮ファイ
ルをCD−ROM6aから読み取って補助記憶装置3にロードするものとする。

0052

2a)インデックスリード処理:

0053

図7は、CPU1が行うインデックスリード処理を説明するフローチャートで
ある。同図中、ステップS61は、ユーザが入力装置4より入力したインデック
スデータに基づいて、最上位インデックスのアドレス情報を設定する。ステップ
S62は、伸長処理コールし、補助記憶装置3内のファイル検索処理を行わせ
るプログラムから伸長処理を行わせるルーチンを読み出すことで、圧縮ファイル
内の最上位インデックスのアドレスを伸長する。ステップS63は、上記インデ
ックスデータに基づき、最上位インデックスの頭文字である上位インデックスの
アドレスを獲得する。ステップS64は、伸長処理をコールし、圧縮ファイル内
の上位インデックスのアドレスを伸長する。ステップS65は、上記インデック
スデータに基づき、次階層の下位インデックスのアドレスを獲得する。ステップ
S66は、伸長処理をコールし、圧縮ファイル内の上記次階層の下位インデック
スのアドレスを伸長する。ステップS67は、最下位インデックスのアドレスの
伸長が終了したか否かを判定し、判定結果がNOであれば、処理はステップS6
5へ戻る。他方、ステップS67の判定結果がYESの場合、処理は終了する。

0054

2b)データ伸長処理:

0055

図8は、CPU1が行うデータ伸長処理を説明するフローチャートである。デ
ータ伸長処理は、インデックスリード処理及びテキストリード処理により呼び出
される。同図中、ステップS71は、ユーザが入力装置4より入力したインデッ
クスデータに基づいて、要求された伸長アドレス、データサイズや記憶領域を補
記憶装置3に記憶して、伸長されたデータサイズに対して充分な大きさの記憶
領域を補助記憶装置3内に用意する。ステップS72は、CD−ROM6aから
読み取って補助記憶装置3にロードされた圧縮ファイルがオープンされているか
否かを判定し、判定結果がNOであると、ステップS73は補助記憶装置3内の
圧縮ファイルをオープン
する。ステップS74は、圧縮ファイルから圧縮パラメータを読み取り、圧縮パ
ラメータ内の8ビットコードの出現頻度及び16ビットコードとその出現頻度を
読み込む。ステップS75は、8ビットコードの出現頻度及び16ビットコード
の出現頻度に基づき、ハフマン木を作成し、処理は後述するステップS76へ進
む。尚、ハフマン木の葉のデータには、8ビットコードか16ビットコードかの
判定用フラグが付加されている。

0056

ステップS72の判定結果がYES又はステップS75の後、ステップS76
は要求された伸長アドレスに対応するアドレス情報を圧縮ファイルから読み込む
。ステップS77は、アドレス情報に基づいて、圧縮ファイルから対応する圧縮
データの区間を読み込む。ステップS78は、ハフマン木により圧縮データの区
間を伸長し、ステップS79は、8ビットコードか16ビットコードかの判定用
フラグに基づいて、伸長されたデータを上記記憶領域に複写する。又、ステップ
S80は、圧縮ファイルに対して要求されたデータサイズの伸長が完了したか否
かを判定する。

0057

ステップS80の判定結果がNOの場合、ステップS81は、次の区間の伸長
アドレスに対応したアドレス情報を圧縮ファイルから読み込む。ステップS81
は、この次の区間の伸長アドレスに対応したアドレス情報に基づいて、圧縮ファ
イルから対応する圧縮データの区間を読み込み、処理はステップS78へ戻る。
他方、ステップS80の判定結果がYESであると、処理は終了する。

0058

2c)テキストリード処理:

0059

図9は、CPU1が行うテキストリード処理を説明するフローチャートである
。同図中、ステップS91は、ユーザが入力装置4より入力したインデックスデ
ータに基づいて、伸長されたデータ中、インデックスと一致する項目をカウント
する。ステップS92は、入力されたインデックスデータに基づいて、インデッ
クスの項目ポインタの値をアドレスに設定する。ステップS93は、伸長処理を
コールし、補助記憶装置3内のファイル検索処理を行わせるプログラムから伸長
処理を行わせるルーチンを読み出すことで、圧縮ファイル内の項目ポインタで示
されるテキスト、即ち、辞書データを1区間分伸長する。

0060

ステップS94は、項目ポインタで示される辞書データが終了したか否かを判
定し、判定結果がNOであると、ステップS95は次の1区間のアドレスを設定
する。又、ステップS96は、伸長処理をコールして、圧縮ファイル内の項目ポ
インタで示される辞書データをこの次の1区間分伸長し、処理はステップS94
へ戻る。他方、ステップS94の判定結果がYESの場合、ステップS97は入
力されたインデックスデータに基づいて、全ての項目についての処理が終了した
か否かを判定し、判定結果がNOであると、処理はステップS92へ戻る。ステ
ップS97の判定結果がYESであると、ステップS98は全ての項目について
伸長された辞書データを表示装置5に表示し、処理は終了する。

0061

尚、ステップS98は、ステップS97の前に行うようにしても良い。この場
合、ステップS98は、各項目について伸長された辞書データをその都度表示装
置5に表示する。

0062

上記実施例では、説明の便宜上、区間が固定長であるものとした。この場合、
データ圧縮効率が良く、又、区間の圧縮前のアドレス情報を圧縮ファイルに格納
しておかなくてもアドレス情報を圧縮ファイルから復元可能である。これは、区
間が固定長であり、各区間には区間番号が付加されているため、各区間の他の区
間に対する相対位置が算出可能であることによる。

0063

他方、上記区間を可変長とすると、データ伸長速度を向上することができる。
これは、データの種別や区分に対応して適切な長さの区間を設定することができ
、余分なデータを伸長する必要がないことによる。尚、区間を可変長とした場合
には、区間の圧縮前のアドレス情報を圧縮ファイルに格納しておく必要がある。
従って、区間
を固定長とするか、可変長とするかは、データ圧縮率優先するか、データ伸長
速度を優先するかにより決定すれば良い。

0064

又、CD−ROM6aに格納される辞書ファイルは1以上であれは良い。複数
の辞書や百科辞典等に関する複数の辞書ファイルをCD−ROM6aに格納した
場合でも、図6中、(e)に示す管理情報内の辞書ファイル名や辞書ファイルの
種別から検索したい辞書ファイルを特定することができる。

0065

更に、上記実施例では、データ圧縮にハフマン符号を用いたが、ユニバーサル
符号等も使用でき、辞書データを各区間毎に共通な圧縮パラメータで効率良く圧
縮できるデータ圧縮方式であれば、ハフマン符号に限定されるものではない。又
、データ圧縮及び伸張の対象となるデータは、辞書データに限定されず、インデ
ックスとデータとからなるデータベースのデータをも包含する。

0066

又、上記実施例では、ファイル検索処理プログラムおよび圧縮ファイルを補助
記憶装置3にコピーして検索処理を行う説明しているが、これらを補助記憶装置
3にコピーせず、プログラムと圧縮ファイルを主記憶装置2に展開し、前述と同
様の処理を行うようにしても良い。

0067

尚、上記実施例で用いる圧縮アルゴリズムによって、通常の8ビットでのハフ
マン符号によるデータ圧縮処理により圧縮率が向上し、CD−ROMや補助記憶
装置として説明したハードディスクなどの記憶媒体に記録される圧縮ファイルの
領域は少なくなる。圧縮アルゴリズムによって圧縮率は向上するが、圧縮ファイ
ルを伸長するための処理時間は通常のハフマン符号圧縮のときとほとんど変わら
ない。

0068

検索処理にかかる時間は、読み取り装置(ドライブ)のシーク時間と圧縮ファ
イルのリード時間と伸長処理時間からなる。

0069

上述のように、圧縮アルゴリズムにより圧縮率が向上したことにより、記憶媒
体に記録される圧縮ファイルの記録領域が少なくなる
ことから、検索プログラムの検索処理にかかる時間のシーク時間が減少し、その
結果、検索速度が向上する。この効果はハードウェアの性能向上に伴い、さらに
顕著になる。

0070

以上、本発明を実施例により説明したが、本発明は本発明の範囲内で種々の変
形及び改良が可能であることは言うまでもない。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ