図面 (/)

技術 データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置

出願人 KDDI株式会社
発明者 渡邊泰之
出願日 2013年3月22日 (8年8ヶ月経過) 出願番号 2013-059957
公開日 2014年10月2日 (7年1ヶ月経過) 公開番号 2014-186457
状態 特許登録済
技術分野 圧縮、伸長・符号変換及びデコーダ 計算機におけるファイル管理 検索装置
主要キーワード 複数値 データ再構成 ペア情報 構造化情報 各組合せ 辞書符号化 組み合わせ毎 基本データ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年10月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

表形式データ集合に対して、データ量の削減を可能とする効率的なデータ表現方式を得る。

解決手段

データ集合Tに対して、(a)前記データ集合Tの各列において重複しない値の集合を抽出したデータ集合C1〜Cnを生成するステップと、(b)データ集合Tの各データについてデータ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、(c)データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出したデータ集合CpCqを生成するステップと、(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1に対応するCpCqをデータ集合D1とするステップと、(e)データ集合T0を、ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップとを含むデータ構造化方法。

概要

背景

符号化技術については、例えば特許文献1に示されるような種々方式が提案されているが、データベースの符号化技術において、データ量を削減(圧縮)するための一般的な方式としては、辞書符号化方式が存在する。この方式は、行列で構成された表形式データ集合に対して、各列の取り得る値を辞書として別のデータ集合で管理し、各列の項目において別のデータ集合を参照することで、バイト数の多いデータや重複するデータを効率的に表現し、結果的に全体のデータ量を削減するものである。

概要

表形式のデータ集合に対して、データ量の削減を可能とする効率的なデータ表現方式を得る。データ集合Tに対して、(a)前記データ集合Tの各列において重複しない値の集合を抽出したデータ集合C1〜Cnを生成するステップと、(b)データ集合Tの各データについてデータ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、(c)データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出したデータ集合CpCqを生成するステップと、(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1に対応するCpCqをデータ集合D1とするステップと、(e)データ集合T0を、ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップとを含むデータ構造化方法。

目的

本発明は上記実情に鑑みて提案されたもので、通信ステムから時系列で生成されるログファイルのように、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ列間で連動して値が変化する特性を持つデータ集合に対して、効率的なデータ表現方式を提供する

効果

実績

技術文献被引用数
0件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

1行が複数の列から構成され、複数の行からなる複数値データ集合Tに対して、(a)前記データ集合Tの各列において、重複しない値の集合を抽出し、通し番号を振ったデータ集合C1〜Cnを生成するステップと、(b)前記データ集合Tの各データについて、データ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、(c)前記データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出し、通し番号を振ったデータ集合CpCqを生成するステップと、(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1={Cp,Cq}を生成し、ペアD1に対応するCpCqをデータ集合D1とするステップと、(e)前記データ集合T0を、前記ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップと、を含むことを特徴とするデータ構造化方法。

請求項2

前記ステップ(c)乃至(e)を繰り返す手順を含むことを特徴とする請求項1に記載のデータ構造化方法。

請求項3

前記ステップ(c)乃至(e)の繰り返し手順において、前記ステップ(d)における行数が最も少ない場合の行数が、元のデータ集合Tの行数と等しくなった場合に、ステップ(c)乃至(e)の繰り返し手順を終了し、残った全ての列をペアDm={Cp,Cq,Cr,...}とし、データ集合Tm-1をデータ集合Dmとするステップを含むことを特徴とする請求項2に記載のデータ構造化方法。

請求項4

前記請求項1乃至請求項3のいずれかに記載のデータ構造化方法の各ステップを実施した後に、前記データ集合Tに対して、(f)データ集合C1〜Cnを取得するステップと、(g)全てのペアDiに対して、データ集合Diを取得するステップと、を含むデータ再構成方法。

請求項5

前記ステップ(g)において、以下のいずれかの条件を満たすDiのデータ集合Diを取得するステップを含むことを特徴とする請求項4に記載のデータ再構成方法。(1)Diが要素となるペアDjが存在し、(データ集合Diの行数)<(データ集合Djの行数)/2を満たす場合、(2)Diが要素となるペアDjが存在しない場合、条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。

請求項6

各行に対して複数の列を有して構成される表形式のデータ集合(初期データ集合)を構造化するとともに、構造化情報を用いて前記初期データ集合を再構成するデータ符号化装置であって、前記各列について重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段と、前記初期データ集合の各列を前記各基本データ集合に置き換えて初期データ集合を書き換えたデータ集合を作成するデータ集合再構成手段と、データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段と、前記抽出データ集合から、行数が最も少ない列の組み合わせをペアとするペア選択手段と、前記ペアを用いて置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段と、前記基本データ集合及び各データ集合Tnと前記ペアを基に前記初期データ集合を再構成する再構成手段と、を備えたことを特徴とするデータ符号化装置。

請求項7

前記再構成手段で使用されるペアは、以下のいずれかの条件を満たすデータ集合Diである請求項6に記載のデータ符号化装置。(1)Diが要素となるペアDjが存在し、(データ集合Diの行数)<(データ集合Djの行数)/2を満たす場合、(2)Diが要素となるペアDjが存在しない場合、条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。

請求項8

請求項1乃至請求項3のいずれか1項に記載のデータ構造化方法の各ステップをコンピュータにより実行可能としたことを特徴とするデータ構造化プログラム

請求項9

請求項4又は請求項5に記載のデータ再構成方法の各ステップをコンピュータにより実行可能としたことを特徴とするデータ再構成プログラム。

技術分野

0001

本発明はデータベースの符号化技術に係り表形式データ集合に対し各列を構造化するためのデータ構造化方法、構造化情報を用いて元のデータ集合を再構成するデータ再構成方法、データ構造化プログラム、データ再構成プログラム及び、データ構造化とデータ再構成を実現するためのデータ符号化装置に関する。

背景技術

0002

符号化技術については、例えば特許文献1に示されるような種々方式が提案されているが、データベースの符号化技術において、データ量を削減(圧縮)するための一般的な方式としては、辞書符号化方式が存在する。この方式は、行列で構成された表形式のデータ集合に対して、各列の取り得る値を辞書として別のデータ集合で管理し、各列の項目において別のデータ集合を参照することで、バイト数の多いデータや重複するデータを効率的に表現し、結果的に全体のデータ量を削減するものである。

先行技術

0003

特表2011−530234号公報

発明が解決しようとする課題

0004

しかしながら、この方式では、列単位での効率化は実現できるものの、複数の列を組み合わせて更なる効率化を図るものではなかった。
行列で構成された表形式のデータ集合において、行数が膨大になることを想定すると、計算機資源を節約するため、効率的なデータ表現方式を採用し、全体データ量を削減することが重要である。

0005

本発明は上記実情に鑑みて提案されたもので、通信ステムから時系列で生成されるログファイルのように、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ列間で連動して値が変化する特性を持つデータ集合に対して、効率的なデータ表現方式を提供するものである。
すなわち、本発明は、データを符号化する場合において、組み合わせてデータ量の削減効果が高い列の組を順次見出してデータの構造化を図るデータ構造化方法、構造化されたデータを用いて元のデータを再構成するデータ再構成方法、及び、これらの方法を実現するためのデータ符号化装置を提供することを目的としている。

課題を解決するための手段

0006

上記目的を達成するため請求項1のデータ構造化方法は、1行が複数の列から構成され、複数の行からなる複数値のデータ集合Tに対して、次の各手順を行うことを特徴としている。
(a)前記データ集合Tの各列において、重複しない値の集合を抽出し、通し番号を振ったデータ集合C1〜Cnを生成するステップ
(b)前記データ集合Tの各データについて、データ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップ。
(c)前記データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出し、通し番号を振ったデータ集合CpCqを生成するステップ。
(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1={Cp,Cq}を生成し、ペアD1に対応するCpCqをデータ集合D1とするステップ(複数の組合せがある場合は複数のペアを生成する。ただし、各列はどれか1つのペアにのみ属するものとする。)。
(e)前記データ集合T0を、前記ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップ。

0007

請求項2は、請求項1のデータ構造化方法において、前記ステップ(c)乃至(e)を繰り返す手順を含むことを特徴としている。

0008

請求項3は、請求項2のデータ構造化方法を行うに際して、前記ステップ(c)乃至(e)の繰り返し手順において、前記ステップ(d)における行数が最も少ない場合の行数が、元のデータ集合Tの行数と等しくなった場合に、ステップ(c)乃至(e)の繰り返し手順を終了し、残った全ての列をペアDm={Cp,Cq,Cr,...}とし、データ集合Tm-1をデータ集合Dmとするステップを含むことを特徴としている。

0009

請求項4は、データ再構成方法であり、前記請求項1乃至請求項3のいずれかに記載のデータ構造化方法の各ステップを実施した後に、
前記データ集合Tに対して、
(f)データ集合C1〜Cnを取得するステップと、
(g)全てのペアDiに対して、データ集合Diを取得するステップと、
を含むことを特徴としている。

0010

請求項5は、請求項4のデータ再構成方法を行うに際して、前記ステップ(g)において、以下のいずれかの条件を満たすDiのデータ集合Diを取得するステップを含むことを特徴とする。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合、
(2)Diが要素となるペアDjが存在しない場合、
条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。

0011

請求項6は、各行に対して複数の列を有して構成される表形式のデータ集合(初期データ集合)を構造化するとともに、構造化情報を用いて前記初期データ集合を再構成するデータ符号化装置であって、次の構成を含むことを特徴としている。
前記各列について重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段。
前記初期データ集合の各列を前記各基本データ集合に置き換えて初期データ集合を書き換えたデータ集合を作成するデータ集合再構成手段。
データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段。
前記抽出データ集合から行数が最も少ない列の組み合わせをペアとするペア選択手段。
前記ペアを用いて置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段。
前記基本データ集合及び各データ集合Tnと前記ペアを基に前記初期データ集合を再構成する再構成手段。

0012

請求項7は、請求項6に記載のデータ符号化装置において、前記再構成手段で使用されるペアは、以下のいずれかの条件を満たすデータ集合Diであることを特徴としている。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合、
(2)Diが要素となるペアDjが存在しない場合、
条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。

0013

請求項8は、請求項1乃至請求項3のいずれか1項に記載のデータ構造化方法の各ステップをコンピュータにより実行可能としたデータ構造化プログラムを特徴としている。

0014

請求項9は、請求項4又は請求項5に記載のデータ再構成方法の各ステップをコンピュータにより実行可能としたデータ再構成プログラムを特徴としている。

発明の効果

0015

本発明によれば、行列で構成された表形式のデータ集合をまず構造化し、さらに構造化情報を用いて元のデータ集合を再構成することにより、全体データ量を削減することができ、計算機資源をより効率的に利用することが可能となる。

図面の簡単な説明

0016

本発明のデータ符号化装置の全体構成を示すブロック図である。
データ集合(初期データ)の各データを示す表である。
構造化を行う場合の処理手順(手順1)を示すフローチャートである。
再構成を行う場合の処理手順(手順2)を示すフローチャートである。
構造化するに際して算出した各列に対応するデータ集合を示す表である。
構造化するに際して算出したデータ集合T0を示す表である。
(a)〜(c)は、構造化するに際して2つの列の組合せで重複しない値の集合を抽出して作成した各データ集合を示す表である。
(a)〜(c)は、構造化するに際して2つの列の組合せで重複しない値の集合を抽出して作成した各データ集合を示す表である。
ペアを生成するための説明図であり、(a)は列の組み合せ表、(b)は構造化情報のモデル、(c)はペアD1に対応するデータ集合D1を示す。
構造化するに際して算出したデータ集合T1を示す表である。
(a)及び(b)は、構造化するに際してデータ集合T1の2つの列の組合せで重複しない値の集合を抽出して作成した各データ集合を示す表である。
ペアを生成するための説明図であり、(a)は列の組み合せ表、(b)は構造化情報のモデル、(c)はペアD2に対応するデータ集合D2を示す。
構造化するに際して算出したデータ集合T2を示す表である。
ペアを生成するための説明図であり、(a)は構造化情報のモデル、(b)はペアD3に対応するデータ集合D3を示す。
再構成化するに際して取得・展開したデータ集合を示した説明図である。

実施例

0017

本発明のデータ構造化方法及びデータ再構成方法、この方法を実施するためのデータ符号化装置の実施形態の一例について、図面を参照して説明する。
本発明方法は、複数の行列で構成される表形式のデータ集合を符号化するものであり、特に、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ列間で連動して値が変化する特性を持つデータ集合に対して、効率良い符号化が可能な方法である。

0018

データ符号化装置10は、オペレーティングシステム(OS)を含む基本プログラムメモリ、プログラムを実行するCPU等コンピュータが有する主要な構成を備え、本発明のデータ構造化プログラム及びデータ再構成プログラムがインストールされることで構築されている。
データ符号化装置10は、図1に示すように、元のデータ集合に対し辞書符号化方式により符号化を行う符号化部11と、データ集合の各列の構造化を行う構造化部12と、構造化情報を用いて元のデータ集合を再構成する再構成部13と、各データを記憶する記憶部14とを有している。

0019

元データとなるデータ集合は、図2に示すように、行列で構成された表形式のデータ集合である。
記憶部14には、表形式のデータ集合Tが入力されるとともに、符号化、構造化及び再構成化に必要な各データ(データ集合)が記録される。

0020

符号化部11は、データ集合の構造化および再構成化を行うにあたって必要となる各種のデータ集合を作成するための手段が含まれている。この手段は、元のデータ集合Tの各列について、重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段と、データ集合Tの各列の値を対応する基本データ集合の値に置き換えてデータ集合Tを書き換えたデータ集合T0を作成するデータ集合再構成手段を備えている。

0021

構造化部12は、データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段と、作成された列の組み合わせ毎のデータ集合から行数が最も少ない列の組み合わせをペアとするペア選択手段と、前記ペアを用いてデータを置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段とを備える。

0022

再構成部13は、データ集合の再構成化に必要データを記録部14から読み出し、符号化部11で作成したデータ集合及び構造化部12のデータを基に、元のデータ集合T0を再構成する。

0023

次に、図2で示したデータ集合を想定して本発明方法のデータ構造化方法及びデータ再構成方法が行われる手順について、図3及び図4のフローチャートと、図5図15のデータ集合を参照して説明する。
符号化前の元のデータ集合は、図2に示すように、10個の行と4個の列から成る表形式のデータ集合Tを構成している。

0024

本発明方法は、このデータ集合Tに対して、後述する手順1に基づいて列データを構造化するデータ構造化方法(図3)と、構造化情報を用いて、手順2に基づいて元のデータ集合Tを再構成する再構成方法図4)とを有している。
以下、手順1によるデータ構造化処理について、図3及び図5図14を参照して説明する。

0025

(手順1)
データ集合Tの各列について、重複しない値の集合を抽出し、図5に示す各データ集合(データ集合C1,データ集合C2,データ集合C3,データ集合C4)を生成する(ステップ0a)。この処理は、符号化部11の基本データ集合作成手段において、記憶部14よりデータ集合Tを読み出し、重複しないデータ集合(C1〜Cn)を抽出して、記憶部14へ格納することで行われる。

0026

データ集合C1〜C4を参照して、データ集合Tの各列のデータを置き換えて辞書符号化したデータ集合T0(図6)を生成する(ステップ0b)。この処理は、符号化部11のデータ集合再構成手段において、データ集合C1〜C4を用いてデータ集合Tを変換し、結果となるデータ集合T0を記憶部14に格納することで行われる。

0027

2つの列の各組合せ(C1C2, C1C3, C1C4, C2C3, C2C4, C3C4)において、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合C1C2, C1C3, C1C4, C2C3, C2C4, C3C4(図7及び図8)を生成する(ステップ1)。この処理は、構造化部12の抽出データ集合作成手段において、記憶部14よりデータ集合C1〜C4を読み出し、重複しない値の集合を抽出してそれぞれデータ集合CpCqを生成し、結果を記憶部14に格納することで行われる。

0028

データ集合C1〜C4の組み合わせによる行数(図9(a))から、行数が最も少ない列の組合せを求め、ペアD1を生成する(ステップ2)。この例の場合、ペアD1は、「C1とC3」の組合せとなり、その行数は「2」となる。行数が最も少ない組合せが複数ある場合は、複数のペアを生成する。ただし、各列は、どれか1つのペアにのみ属するものとする。
ペアとなる2つの列の組合せのデータ集合をデータ集合D1(図9(c))とする。また、データ集合D1の行数をND1で表す。この例では、ND1は「2」となる。

0029

この処理は、構造化部12のペア選択手段において、ステップ1で生成したデータ集合を元に上記により図9(b)のような構造化に関する情報を生成し、結果を記憶部14に格納することで行われる。図9(b)の構造化情報は、データ集合C1〜C4に対して、「C1とC3」の組合せがペアD1となり、データ集合D1の行数が「2」であることを示している。

0030

生成したペアD1「C1とC3」を用いてデータ集合T0(図6)を再構成しデータ集合T1(図10)とする(ステップ3)。この処理は、構造化部12のデータ集合再構成手段において、記憶部14よりデータ集合T0を読み出し、ステップ2で生成したペア情報を用いてデータ集合T0を変換し、結果となるデータ集合T1を記憶部14に格納することで行われる。

0031

続いて、データ集合T1に対して、上述したステップ1〜ステップ3の処理を繰り返して行う。
すなわち、データ集合T1における2つの列の各組合せ(D1C2, D1C4, C2C4)において、行毎に値を連結した場合に重複しない値の集合を抽出し、データ集合D1C2, D1C4(図11)を生成する(ステップ1)。データ集合C2C4については前回のステップ1で既に作成されている(図8(b))。
データ集合D1, C2, C4の組み合わせによる行数(図12(a))から、行数が最も少ない列の組合せを求め、ペアD2を生成する(ステップ2)。

0032

生成したペアD2を用いてデータ集合T1(図10)を再構成しデータ集合(図13)とする(ステップ3)。この例では、ペアD2は「D1,C4」となり、ND2は「5」となる。
この処理は、構造化部12において、ステップ1で生成したデータ集合を元に上記により図12(b)のような構造化に関する情報を生成し、結果を記憶部14に格納することで行われる。図12(b)の構造化情報は、図9(b)の構造化情報に加えて、「D1とC4」の組合せがペアD2となり、データ集合D2の行数が「5」であることを示している。

0033

ステップ1〜ステップ3の処理は、ステップ2でNDiが元のデータ集合Tにおける全体の行数に等しくなるまで繰り返して行う(ステップ10)。
この例では、次の繰り返し処理にてデータ集合D2C2が唯一生成され、「D2とC2」の組合せがペアD3となる。データ集合D2C2の行数ND3が「10」となり、元のデータ集合Tの行数に等しくなるので、この時点でデータ構造化は終了し、残りの列を全て1つのペアD3(ペアDm)とする(ステップ11)。この例では、ペアD3は「D2とC2」となり、ND3は「10」となる。
この処理は、構造化部12におけるペア生成処理終了判定(生成したペアDmのデータ集合Dmの行数が元のデータ集合Tの行数に等しくなるか否かの判定)で行われる。

0034

上述の処理で与えられたデータ集合Tm-1は、図14(b)のように符号化されたデータ集合Dmとなる。また、図14(a)のような構造化情報を取得する。
図14(a)の構造化情報は、図9(b)及び図10(b)の構造化情報に加えて、「D2とC2」の組合せがペアD3となり、データ集合D3の行数が「10」であることを示している。

0035

続いて、構造化情報を用いて元のデータ集合を再構成する手順2によるデータ再構成化処理について、図2及び図15を参照して説明する。
(手順2)
先ず、上述した図3のステップ0aで生成したデータ集合を全て取得する(ステップ21)。
次に、全てのDiに対して、以下の条件(1)又は(2)のいずれかを満たすDiのデータ集合Diを取得する(ステップ22〜26)。
(1)Diが要素となるDjが存在し、NDi<NDj/2 を満足する。
(2)Diが要素となるDjが存在しない。

0036

Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて(再帰的に)展開する。
これらの処理は、再構成部(再構成手段)13において、上記条件を満たすデータ集合を記憶部14より読み出し、あるいは読み出したデータを元に生成し、最終的に再構成後のデータ集合として結果を出力することで行われる。

0037

上述したデータ集合T(図2)の例で説明すると、先ず、図3のステップ0aで生成したデータ集合C1, C2, C3, C4を全て取得する(図15)。
次に、ペアD1については、D1が要素となるペアD2が存在し、ND1(2)<ND2(5)/2が成立するので、データ集合D1を取得する(図15)。
ペアD2については、D2が要素となるペアD3が存在するが、ND2(5)<ND3(10)/2が成立しない(ND2(5)=ND3(10)/2)。
ペアD3については、D3が要素となるペアDjが存在しないので、データ集合D3をデータ集合D2を用いて展開してデータ集合D3(展開後)を取得する(図15)。
その結果、データ集合C1, C2, C3, C4、データ集合D1、データ集合D3(展開後)を取得し記憶部14に記憶する。これらが、元のデータ集合Tを再構成した結果となり、内容はデータ集合Tと同等である。

0038

上述したデータ符号化装置において符号化に必要な各データ集合のデータ量について考えると、データ集合Aのデータ量をSA(再構成後の全てのデータを含む)、データ集合Aの行数をNA、元のデータ集合の行数をN、列Cのバイト数をLC、行番号を表す列のバイト数をLとした場合、データ集合1, 2 , 3 ,4のデータ量S1, S2, S3, S4はそれぞれ次式のようになる。

0039

ST= ( L列1 + L列2 + L列3 + L列4 ) × N
ST0= 4 × L × N + ΣL列i ×NCi
ST1= 3 × L × N + 2 × L × ND1 + ΣL列i × NCi
ST2= 2 × L × N + 2 × L × ND2 + 2 × L × ND1 + ΣL列i × NCi

0040

前提として L列i>L、N>NCi と考えてよいので、ST>ST0 が導かれる。
また、N>2 x ND1 であれば、 ST0>ST1 が導かれる。
同様に、N>2 x ND2 であれば、 ST1>ST2 が導かれる。
したがって、前提条件下においては、データ構造化および再構成化処理を繰り返す毎にデータ量は減少するので、本装置によりデータ集合の全体データ量を削減することができる。

0041

上述したデータ符号化装置によれば、通信システムから時系列で生成されるログファイルのように、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ、行の値に対して列間で連動して値が変化する特性を持つデータ集合に対して、組み合わせて効果が高い列の組を見出して構造化を図ることにより、効率的なデータ表現を行ってデータ量の削減を達成することができる。

0042

10…データ符号化装置、 11…符号化部、 12…構造化部、 13…再構成部、 14…記憶部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社日立製作所の「 検索支援システム、及び検索支援方法」が 公開されました。( 2021/09/30)

    【課題】ユーザによる情報検索を容易にする検索支援システム及び検索支援方法を提供する。【解決手段】検索支援システム1は、1又は複数の項目と、その項目の内容を示す情報とを対応づけた検索対象情報を作成するデ... 詳細

  • 株式会社日立製作所の「 画像取得装置及び画像取得方法」が 公開されました。( 2021/09/30)

    【課題】パンチアウト先の運用負荷を低減しつつ、認証が必要なWebページからも画像を収集して商品と商品画像との紐づけ精度を向上させる。【解決手段】画像取得装置は、商品を特定する商品特定情報と、商品につい... 詳細

  • カシオ計算機株式会社の「 情報処理装置、表示方法、及びプログラム」が 公開されました。( 2021/09/30)

    【課題】入力された語句と該語句に関する詳細情報とを表示する情報処理装置において、現在表示されている語句と以前に表示されていた語句との対応関係を把握しやすくする。【解決手段】情報処理装置1は、入力情報に... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ