図面 (/)

技術 データ統合装置およびデータ統合方法

出願人 株式会社日立製作所
発明者 半田岳志山下祐子山本秀典川崎健治崎川修一郎津野高志
出願日 2016年10月7日 (4年8ヶ月経過) 出願番号 2016-198655
公開日 2018年4月12日 (3年2ヶ月経過) 公開番号 2018-060430
状態 特許登録済
技術分野 検索装置 計算機におけるファイル管理
主要キーワード 所定システム 所定テーブル データ統合装置 情報統合装置 設計開発者 所定装置 ループ対象 部品抽出処理
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年4月12日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する。

解決手段

データ統合装置100において、記憶装置202にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、所定テーブルごとのマスタデータ形式との類似度を算出し、当該類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定し、特定した所定テーブルのマスタデータ形式と、各システムの各テーブルのデータ形式との類似度を算出し、当該類似度が所定基準を満たす所定システムの所定テーブルを特定し、特定したマスタデータ形式の所定テーブルと所定システムの所定テーブルとについての変換処理定義の情報を再利用可能な変換処理部品候補の情報として出力する演算装置201を含む構成とする。

概要

背景

多種多様なシステムを跨いだデータの横断的活用促進を目的に、データ統合装置が開発されてきた。こうしたデータ統合装置では、データソースとなる様々な業務システムの多種多様なデータを一元的に収集蓄積する一方で、当該蓄積されたデータの形式や構造を、利用者の要求に応じて変換する処理を行う。

上述のような変換処理に際しては、変換元データデータ構造変換先データのデータ構造との間で互いのデータ項目同士の対応関係付けを行う処理が予め必要となる。処理対象となるデータがRDBデータであれば、そうした処理のロジックテーブル毎に設計する必要がある。

この変換処理において多種多様なシステムのデータを処理対象とした場合、変換対象となるテーブル数が膨大となるケースが想定される。その場合、各テーブルのデータ項目同士の対応関係付けに要する手間や時間も増大し、上述の変換処理のロジック設計に要する設計開発者作業工数コストが増大することが懸念される。

こうしたデータ統合に伴う設計者の作業工数低減を課題とする従来技術として、以下のものが提案されている。すなわち、情報源から抽出したデータを変換して格納先登録するための情報統合プログラムであって、前記情報源から取得した第1のスキーマ情報と、当該第1のスキーマ情報の変更前に前記情報源から取得した第2のスキーマ情報とを比較し、前記情報源のスキーマの変更を検出するステップと、前記スキーマの変更に関連する項目属性値で、スキーマ情報に含まれる属性値とデータモデルにおける項目情報とを対応付けて格納する対応表格納部を探索するステップと、前記対応表格納部において前記スキーマの変更に関連する項目の属性値が検出された場合には、当該スキーマの変更に関連する項目の属性値に対応する項目情報を用いて、前記第2のスキーマ情報に対応するデータモデルである変更前データモデルを格納するメタ情報格納部に格納されている前記変更前データモデルを改修して変更後データモデルを生成し、記憶装置に格納するステップと、前記記憶装置に格納された前記変更後データモデルを、前記格納先に対応するデータモデルに変換するための変更後統合ロジックを生成し、前記メタ情報格納部に格納するロジック改修ステップとをコンピュータに実行させるための情報統合装置(特許文献1参照)などが提案されている。

概要

変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する。データ統合装置100において、記憶装置202にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、所定テーブルごとのマスタデータ形式との類似度を算出し、当該類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定し、特定した所定テーブルのマスタデータ形式と、各システムの各テーブルのデータ形式との類似度を算出し、当該類似度が所定基準を満たす所定システムの所定テーブルを特定し、特定したマスタデータ形式の所定テーブルと所定システムの所定テーブルとについての変換処理定義の情報を再利用可能な変換処理部品候補の情報として出力する演算装置201を含む構成とする。

目的

本発明の目的は、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置と、前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行する演算装置と、を備えることを特徴するデータ統合装置

請求項2

前記演算装置は、前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力するものである、ことを特徴とする請求項1に記載のデータ統合装置。

請求項3

前記演算装置は、前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行うものである、ことを特徴とする請求項2に記載のデータ統合装置。

請求項4

前記演算装置は、前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行するものである、ことを特徴とする請求項3に記載のデータ統合装置。

請求項5

所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置を備える情報処理装置が、前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行することを特徴するデータ統合方法

請求項6

前記情報処理装置が、前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する、ことを特徴とする請求項5に記載のデータ統合方法。

請求項7

前記情報処理装置が、前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行う、ことを特徴とする請求項6に記載のデータ統合方法。

請求項8

前記情報処理装置が、前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行する、ことを特徴とする請求項7に記載のデータ統合方法。

技術分野

0001

本発明は、データ統合装置およびデータ統合方法に関するものであり、具体的には、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する技術に関する。

背景技術

0002

多種多様なシステムを跨いだデータの横断的活用促進を目的に、データ統合装置が開発されてきた。こうしたデータ統合装置では、データソースとなる様々な業務システムの多種多様なデータを一元的に収集蓄積する一方で、当該蓄積されたデータの形式や構造を、利用者の要求に応じて変換する処理を行う。

0003

上述のような変換処理に際しては、変換元データデータ構造変換先データのデータ構造との間で互いのデータ項目同士の対応関係付けを行う処理が予め必要となる。処理対象となるデータがRDBデータであれば、そうした処理のロジックテーブル毎に設計する必要がある。

0004

この変換処理において多種多様なシステムのデータを処理対象とした場合、変換対象となるテーブル数が膨大となるケースが想定される。その場合、各テーブルのデータ項目同士の対応関係付けに要する手間や時間も増大し、上述の変換処理のロジック設計に要する設計開発者作業工数コストが増大することが懸念される。

0005

こうしたデータ統合に伴う設計者の作業工数低減を課題とする従来技術として、以下のものが提案されている。すなわち、情報源から抽出したデータを変換して格納先登録するための情報統合プログラムであって、前記情報源から取得した第1のスキーマ情報と、当該第1のスキーマ情報の変更前に前記情報源から取得した第2のスキーマ情報とを比較し、前記情報源のスキーマの変更を検出するステップと、前記スキーマの変更に関連する項目属性値で、スキーマ情報に含まれる属性値とデータモデルにおける項目情報とを対応付けて格納する対応表格納部を探索するステップと、前記対応表格納部において前記スキーマの変更に関連する項目の属性値が検出された場合には、当該スキーマの変更に関連する項目の属性値に対応する項目情報を用いて、前記第2のスキーマ情報に対応するデータモデルである変更前データモデルを格納するメタ情報格納部に格納されている前記変更前データモデルを改修して変更後データモデルを生成し、記憶装置に格納するステップと、前記記憶装置に格納された前記変更後データモデルを、前記格納先に対応するデータモデルに変換するための変更後統合ロジックを生成し、前記メタ情報格納部に格納するロジック改修ステップとをコンピュータに実行させるための情報統合装置(特許文献1参照)などが提案されている。

先行技術

0006

特開2012−27690号公報

発明が解決しようとする課題

0007

しかしながら従来技術においては、上述の変換処理を要求する所定システムアプリケーションにとって必要なデータ形式が、統合されたデータ形式とは異なる場合がある。ここで、統合されたデータ形式とは、例えば、多種多様なシステムにおける所定データの各間で最も共通的に用いられているデータ項目からなるデータ形式であり、各システムにお
けるデータとの間で、上述したデータ項目同士の対応関係付けが定義済みのものである。従って、上述の所定システム等が必要とするデータ形式が、統合されたデータ形式と異なることは、上述の変換処理のために必要な定義等が未知の状態であることを意味する。

0008

この場合、統合されたデータ形式を、所定システム等が必要なデータ形式へと変換するための、変換処理ロジックの設計開発作業が生じる。また、上述の統合されたデータ形式においては(各システムのデータ間で共通的に用いられないため)変換対象外とされたデータについて要求があった場合、例えば、情報源のシステムの所定データに関してデータ統合装置にて上述の統合をするための対応表や変換処理ロジック設計が必要となってしまう。

0009

そこで本発明の目的は、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援する技術を提供することにある。

課題を解決するための手段

0010

上記課題を解決する本発明のデータ統合装置は、所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置と、前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行する演算装置と、を備えることを特徴する。

0011

また、本発明のデータ統合方法は、所定事象のデータに関して所定システムで用いる各テーブルのデータ形式、および、前記データの間で普遍的なデータ形式として所定テーブルごとに予め定めたマスタデータ形式、の各情報と、前記マスタデータ形式の所定テーブルと前記所定システムの所定データ形式の所定テーブルとの間でのデータの変換処理定義の情報と、を格納した記憶装置を備える情報処理装置が、前記記憶装置にデータ形式の情報が未格納である所定データに関するテーブルのデータ形式と、前記所定テーブルごとのマスタデータ形式との類似度たる第1類似度を算出し、当該第1類似度が所定基準を満たすマスタデータ形式の所定テーブルを特定する処理と、前記特定した所定テーブルのマスタデータ形式と、前記記憶装置に格納している前記システムの各テーブルのデータ形式との類似度たる第2類似度を算出し、当該第2類似度が所定基準を満たす所定システムの所定テーブルを特定する処理と、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する処理と、を実行することを特徴する。

発明の効果

0012

本発明によれば、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援可能となる。

図面の簡単な説明

0013

本実施形態におけるデータ統合装置を含むネットワーク構成例を示す図である。
本実施形態のデータ構造定義テーブルのデータフォーマット例を示す図である。
本実施形態の再利用可能部品抽出結果格納テーブルのデータフォーマット例を示す図である。
本実施形態の類似度算出パラメータテーブルのデータフォーマット例を示す図である。
本実施形態におけるマスタデータ形式のテーブルと、配信先システムが要求するデータ形式のテーブル間の類似度を算出した結果を格納するデータフォーマットの例を示す図である。
本実施形態におけるマスタデータ形式のテーブルと、データ構造定義テーブルに定義されるデータ形式のテーブル間の類似度を算出した結果を格納するデータフォーマットの例を示す図である。
本実施形態のデータ変換処理部品定義テーブルのデータフォーマット例を示す図である。
本実施形態のデータ統合装置におけるデータ変換配信処理概念を示す図である。
本実施形態におけるデータ統合装置のハードウェア構成例を示す図である。
本実施形態におけるデータ統合方法のフロー例1を示す図である。
本実施形態の配信先システムが要求するデータ形式のデータ構造のデータフォーマット例を示す図である。
本実施形態におけるデータ統合方法のフロー例2を示す図である。
本実施形態におけるデータ統合方法のフロー例3を示す図である。
本実施形態の配信先システムが要求するデータ形式のデータ構造とマスタデータ形式のデータ構造との類似度算出処理を説明する図である。
本実施形態におけるデータ統合方法のフロー例4を示す図である。
本実施形態の配信先システムが要求するデータ形式へデータ変換を行う再利用可能なデータ変換処理部品候補を抽出する処理の説明する図(その1)である。
本実施形態の配信先システムが要求するデータ形式へデータ変換を行う再利用可能なデータ変換処理部品候補を抽出する処理の説明する図(その2)である。
本実施形態における画面例1を示す図である。
本実施形態における画面例2を示す図である。

実施例

0014

−−−ネットワーク構成−−−

0015

以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態のデータ統合装置100を含むネットワーク構成図である。図1にて示すように、本実施形態のデータ統合装置100は、入力端末120、配信元システム130、および配信先システム140と、専用回線150を介して通信可能に接続されている。

0016

このうち、配信元システム130は、例えば鉄道事業者が管理・運用する列車ダイヤデータを保持するシステムである。この配信元システム130からデータ統合装置100に配信されるデータが、データ統合装置100における所定のデータ変換プログラム(変換処理定義)によって、配信先システム140におけるデータ形式に変換され、当該配信先システム140に配信されることとなる。

0017

また、配信先システム140は、上述の配信元システム130由来の所定データに基づき、適宜な業務やサービスを実行する鉄道事業者が管理・運用するシステムである。具体
的には、列車運行状況観測データと上述の列車ダイヤデータとを利用して、列車運行管理を行うシステム等を想定出来る。

0018

また、入力端末120は、上述の配信元システム130から得られるデータを、配信先システム140の望むデータ形式に変換するためのデータ変換プログラム、の設計開発者が操作する端末となる。

0019

こうしたネットワーク構成に含まれる本実施形態のデータ統合装置100は、適宜なハードウェアおよびソフトウェアにより実装される機能部品として、ユーザインターフェース部111、データ構造類似度算出部112、再利用可能データ変換部品抽出部113、および通信部114、を備える。またデータ統合装置100は、こうした機能部が取り扱うデータの格納先として、データ格納部101を備える。

0020

上述の機能部のうち、データ構造類似度算出部112は、配信先システム140が要求するデータ形式のテーブルにおけるデータ構造と、データ統合装置100が予め保持するマスタデータ形式のテーブルにおけるデータ構造との、類似度を算出するものである。上述のマスタデータ形式(統合されたデータ形式)とは、例えば、所定業務のデータに関して複数の配信先システム140を跨がって共通的に用いられているデータ項目、からなる所定テーブルのデータ形式を想定する。

0021

なお、こうしたマスタデータ形式と配信先システム140におけるデータ形式(データ統合装置100が既知のもの)との関係において、各データ項目同士の対応関係付けが定義済み、すなわち、該当テーブルのデータ項目間でデータ変換処理を行うためのデータ変換プログラムがデータ統合装置100に既に保持されているとする。上述のデータ構造類似度算出部112で行う処理手順の詳細は、図12aに示すフローチャートにて後述する。

0022

また、再利用可能データ変換部品抽出部113は、配信元システム130から配信されたデータを、マスタデータ形式を介することで配信先システム140が要求するデータ形式に変換する、データ変換プログラムの候補、すなわち「再利用可能なデータ変換処理部品候補」を抽出するものである。再利用可能データ変換部品抽出部113で行う処理手順の詳細は図14に示すフローチャートにて後述する。

0023

また、通信部114は、専用回線150を介して配信元システム130と通信し、所定の配信データ及びこの配信データに関するデータ構造定義情報131の送受信を行うものである。上述の配信データ(例:列車ダイヤデータ)は、データ構造定義テーブル107(図2)で定義されるデータ構造を有した表形式データを想定する。データ統合装置100は、こうした表形式データを配信元システム130から得て配信元データ格納部110(図8)に格納することとなる。

0024

一方、上述のデータ構造定義情報131は、配信データのデータ形式、テーブル名、当該テーブルにおけるカラム、そのデータ型、の各情報から構成された情報である。データ統合装置100は、このデータ構造定義情報131を、データ構造定義テーブル107に格納する。

0025

上述のデータ構造定義テーブル107は、図2に示すデータフォーマットを有しており、そのデータ項目として、データ形式1101、テーブル1072、カラム1103、および、データ型1104を含んでいる。図2に示す例では、「マスタデータ」、「データ形式X」、「データ形式Y」の計3種類のデータ形式に関する構造定義の情報が格納されている。

0026

続いて、ユーザインターフェース部111は、データ変換プログラムの設計開発者に向けて、配信先システム140のデータ形式にデータ変換処理を行うために再利用可能なデータ変換プログラム(データ変換部品)の候補を示す、再利用候補換部品提示画面1110(図16)を生成する。

0027

この再利用候補変換部品提示画面1110は、配信先システム140のデータ形式を入力するための配信先システムデータ形式入力領域11101と、再利用可能部品抽出ボタン11102と、再利用候補変換部品一覧表示領域11103と、により構成される。

0028

データ変換プログラムの設計開発者が、上述の再利用候補変換部品提示画面1110を入力端末120にて閲覧し、配信先システムデータ形式入力領域11101に配信先システム140で必要とされるデータ形式を入力し、再利用可能部品抽出ボタン11102を押下したとする。この場合、データ統合装置100は、配信先システムデータ形式入力領域11101で入力されたデータ形式に応じて、データ構造類似度算出処理、及び、再利用可能データ変換部品抽出処理を実行する。

0029

なお、上述の再利用候補変換部品一覧表示領域11103には、データ統合装置100が、再利用可能部品抽出結果格納テーブル106(図3)より読み出した再利用候補変換部品(既知のデータ変換プログラム)を一覧表示する。

0030

この再利用可能部品抽出結果格納テーブル106は、図3に示すデータフォーマットを有しており、そのデータ項目として、配信先システム140におけるデータ形式1081、テーブル1062、およびカラム1083と、データ変換の基点となるマスタデータ形式の該当テーブルおよびカラムを示す変換元カラム1084と、(マスタデータ形式の所定テーブルの所定カラムの値を、所定の配信先システムにおけるデータ形式の所定テーブルの所定カラムの値に対応付けする、すなわちデータ変換処理を行うデータ変換プログラムが既知の)変換先カラム1085と、を含んでいる。

0031

図3に示す例では、配信先データ「データ形式Z」のデータテーブル「列車」のカラム「列車番号」に関しては、「マスタデータ形式の駅時刻テーブルの列車番号カラム」を、「データ形式Xの列車情報テーブルの列車番号カラム」へと変換するデータ変換プログラムが再利用可能候補であるとして、該当情報が格納されている。

0032

また、データ格納部101における類似度算出パラメータテーブル102は、図4に示すデータフォーマットを有しており、データ構造類似度算出処理において利用する重み値の情報を定義している。そのデータ項目としては、項目名1031と、類似度算出重み1032を含む。

0033

このうち項目名1031は、テーブルにおけるカラム名を示しており、図4の例では、「列車」や「出発時刻」という値が格納されている。また、類似度算出重み1032は、データ構造間の類似度算出において、該当カラムの一致判定の結果に適用すべき重み値を示しており、図4の例では類似度算出重みとして「2」や「3」という値が格納されている。こうした類似度算出パラメータテーブル102の各データは、予め有識者が登録しておくものとする。

0034

また、データ格納部101における類似度算出結果一時格納部103は、マスタデータ形式のテーブルと配信先システム140が要求するデータ形式のテーブルとの間の類似度を算出した結果を、図5に示すように表形式で格納する格納先となる。

0035

そのデータ項目としては、テーブル1041と、カラム1042と、テーブル1043と、カラム1044と、データ型1045と、テーブル間類似度1046とを含む。

0036

このうちテーブル1041は、マスタデータ形式のテーブル名を示しており、カラム1042は、当該テーブル1041に格納されるテーブルのカラム名を示している。また、テーブル1043は、配信先システム140が要求するデータ形式のテーブル名を示しており、カラム1044は、当該テーブル1043に格納されるテーブルのカラム名を示している。

0037

また、データ型1045は、上述のカラム1042とカラム1044のデータ型を示している。また、テーブル間類似度1046は、上述のテーブル1041とテーブル1043に格納されるテーブル間の類似度の算出結果を示す。なお、カラム間の一致度に関する算出結果は、一致度格納領域1047に格納される。

0038

ここで、カラムの名称の一致度を算出した結果がN、データ型の一致度を算出した結果がMのとき、(N,M)のようにそれぞれの一致度算出結果の組として結果を格納することとする。

0039

なお、図5で例示する表における縦方向の長さは、テーブル1041に格納されるテーブルのカラム数分、また、当該表における横方向の長さは、テーブル1043に格納されるテーブルのカラム数分となる。

0040

また、図5の例では、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「」列車・駅」テーブルの類似度を算出した場合の結果が示されている。マスタデータ形式の「列車」テーブルの「列車番号」カラムと「データ形式Z」の「列車・駅」テーブルの「列車番号」カラムは、カラム名がいずれも「列車番号」であることからカラム名の一致度は1×類似度算出重み(3)=3と算出される。また、データ型はいずれのカラムも「Integer(整数型)」であることから、データ型の一致度は1である。

0041

また、データ格納部101における類似度算出結果格納部105は、マスタデータ形式のテーブルとデータ構造定義テーブルに定義されるデータ形式のテーブルとの間の類似度を算出した結果を、図6に示す表形式で格納するものである。そのデータ項目としては、テーブル1071と、カラム1072と、データ形式1073と、テーブル1074と、カラム1075と、データ型1076と、テーブル間類似度1077とを含む。

0042

このうちテーブル1071と、カラム1072と、テーブル1074と、カラム1075と、データ型1076と、テーブル間類似度1077は、上述の図5で例示した類似度算出結果一時格納部103のデータフォーマット例と同様の構成である。また、データ形式1073は、データ構造定義テーブル107のデータ形式のデータ項目と同様の構成である。また、一致度格納領域1078に格納される値は、上述の図5で例示した類似度算出結果一時格納部103のデータフォーマット例と同様の構成である。図6に示す例では、マスタデータ形式の「列車」テーブルと、「データ形式X」及び「データ形式Y」の全テーブルとのそれぞれの類似度を算出した場合の結果が示されている。

0043

また、データ格納部101におけるデータ変換処理部品定義テーブル104は、データ形式を変換するためのデータ変換プログラムの情報を定義するデータテーブルであり、図7に示すデータフォーマットを有する。

0044

そのデータ項目としては、変換元データ形式1061と、変換元テーブル1042と、変換元カラム1063と、変換先データ形式1064と、変換先テーブル1065と、変
換先カラム1066と、プログラムファイル名1067とを含む。

0045

このうち変換元データ形式1061は、変換元データのデータ形式を示し、変換元テーブル1042は、当該変換元データのデータテーブル名を示し、変換元カラム1063は、変換元データテーブルのカラム名を示す。

0046

また、変換先データ形式1064は、変換先データのデータ形式を示し、変換先テーブル1045は、変換先データのデータテーブル名を示し、変換先カラム1066は、変換先データテーブルのカラム名を示し、プログラムファイル名1067は、変換元カラム1063を変換先カラム1066へデータを変換するためのプログラムのファイル名を示す。

0047

図7に示すデータ変換処理部品定義テーブル104の例では、マスタデータ形式のテーブル「駅時刻」のカラム「列車番号」を、「データ形式X」のテーブル「列車情報」のカラム「列車番号」へデータ変換するためのプログラム「prg00001.dat」の名が格納されている。
−−−データ変換処理の概念−−−

0048

ここで、本実施形態のデータ統合装置100におけるデータ変換処理の原理について、その概念を説明する。図8は、データ統合装置100におけるデータ変換処理の原理を示す説明図である。

0049

本実施形態におけるデータ統合装置100は、配信元データ格納部110に格納する配信元データを、マスタデータ形式へ変換しマスタデータ格納部109に格納する。また、データ統合装置100は、マスタデータ格納部109に格納した上述のデータを、配信先システム140が要求するデータ形式へ変換する。このデータ形式の変換処理に際し、データ統合装置100は、変換元のテーブルにおけるカラムと変換先のテーブルにおけるカラムとの対応付け、型変換演算処理を行い、その結果を、データ変換部品ライブラリ108に格納するデータ変換プログラムとして格納する。図8に示す例では、マスタデータ格納部109に格納されるマスタデータ形式のデータを、データ変換部品ライブラリ108における配信先システム140が要求するデータ形式へのデータ変換部品群(データ変換プログラム群)のうち、「データ形式X」の全テーブルの全カラム毎のデータ変換プログラムを用いることで、「配信先システムX」が要求する「データ形式X」への変換を実現する。配信先システム140が要求するデータ形式へのデータ変換プログラムは、予め開発され、データ変換部品ライブラリ108に登録されているものとする。

0050

これら機能部による処理の詳細は、以降の図10図12a図12b図14に示すフローチャートを用いて後述する。
−−−ハードウェア構成−−−

0051

本実施形態におけるデータ統合装置100のハードウェア構成は以下の如くとなる。図9は、データ統合装置100のハードウェア構成例を示す図である。

0052

本実施形態のデータ統合装置100は、CPU201、HDD202、メモリ203、入力装置204、表示装置205、および通信装置206を備える。このうちCPU201は、データの入出力、読み込み、格納および各種処理を実行する演算装置である。また、HDD202は、データを記憶する不揮発性の記憶手段である。また、メモリ203は、プログラムおよびデータを一時的に記憶する揮発性の記憶手段である。

0053

また、入力装置204は、ユーザからの操作入力受け付ける、キーボードマウス
マイク等の装置である。また、表示装置205は、利用者にデータを表示する、ディスプレイ等の装置である。また、通信装置206は、配信元システム130や配信先システム140と専用回線150を介して通信し、データを送受信するネットワークカード等の装置である。

0054

こうしたデータ統合装置100は、例えば上述のHDD202またはメモリ203に保持するプログラム207をCPU201が実行することで、上述の各機能部を実装する。−−−メインフロー例−−−

0055

以下、本実施形態におけるデータ統合方法の実際手順について図に基づき説明する。以下で説明するデータ統合方法に対応する各種動作は、データ統合装置100がメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。

0056

図10は、本実施形態におけるデータ統合方法のフロー例1を示す図であり、具体的には、データ統合装置100においてデータ構造類似度を算出し、(配信元システム130のデータを、配信先システム140が望むデータ形式に変換するため)再利用可能なデータ変換プログラムを既存のデータ変換プログラム中から抽出する一連の手順を示すフローチャートである。

0057

ここで、データ変換プログラムの設計開発者が、入力端末120に表示される図16の設計開発者提示画面1110において、配信先システム140が要求するデータ形式と、データ構造と、データ構造類似度算出処理要求とを入力したとする。

0058

この場合、データ統合装置100は、上述のデータ変換プログラムの設計開発者が入力した、配信先システム140が要求するデータ形式およびデータ構造の各情報と、データ構造類似度算出処理要求とを、入力端末120から受信する(301)。勿論、データ統合装置100が、こうした情報を別の手段、経路で予め取得済みである場合、本ステップは不要である。

0059

図11に、配信先システム140が要求するデータ形式「データ形式Z」の「列車・駅」テーブルに関するデータ構造を示すデータフォーマット例を示す。例示するデータ構造におけるデータ項目としては、データ形式1401と、テーブル1402と、カラム1403と、データ型1404を含んでいる。このデータ項目の構成は、上述のデータ構造定義テーブル107のデータ項目と同様の構成である。

0060

続いて、データ統合装置100のデータ構造類似度算出部112は、配信先システム140が要求するデータ形式のテーブルにおけるデータ構造と、マスタデータ形式の各テーブルにおけるデータ構造との類似度を算出する(302)。

0061

また、データ統合装置100の再利用可能データ変換部品抽出部113は、配信先システム140が要求するデータ形式へデータ変換を行うための、再利用可能なデータ変換処理プログラムの候補を抽出する(303)。

0062

次に、データ統合装置100のユーザインターフェース部111は、図3に示した再利用可能部品抽出結果格納テーブル106を参照し、上述の配信先システム140が要求するデータ形式へデータ変換を行うデータ変換プログラムとして再利用可能なプログラム一覧を表示する画面を生成し、当該画面(図16)を表示端末に返し(304)、処理を終了する。

0063

なお、上述のデータ構造類似度算出部112で行う処理手順の詳細は図12aに示すフローチャートにて後述する。また、再利用可能データ変換部品抽出部113で行う処理手順の詳細は図14に示すフローチャートにて後述する。
−−−詳細フロー例1−−−

0064

図12aは、データ構造類似度算出部112が、配信先システム140の要求するデータ形式のテーブルにおけるデータ構造と、マスタデータ形式の各テーブルにおけるデータ構造との類似度を算出する手順の詳細を示すフローチャートである。

0065

まず、データ統合装置100のデータ構造類似度算出部112は、データ構造定義テーブル107において、データ形式が「マスタデータ形式」である各テーブルのデータレコードを取得する(3021)。

0066

次に、データ統合装置100のデータ構造類似度算出部112は、ステップ3021でデータレコードを取得したマスタデータ形式のテーブル全てに対して、ループを行う(3022)。

0067

続いて、データ統合装置100のデータ構造類似度算出部112は、データ構造定義テーブル107に登録済みの、「マスタデータ形式」以外のデータ形式、すなわち既知の配信先システム140の各データ形式のテーブル全てに対してループを行う(3023)。

0068

次に、データ統合装置100のデータ構造類似度算出部112は、ステップ3021で得たマスタデータ形式のテーブルであって、ループ対象テーブルのカラムと、ステップ3023でループ対象とした配信先システム140のデータ形式のテーブルであって、ループ対象テーブルのカラムとの一致度と、当該テーブル間の類似度とをそれぞれ算出する(30231)。このテーブル間の類似度を算出する処理手順の詳細は、図12bに示すフローチャートにて説明する。

0069

図12bは、データ構造類似度算出部112が、上述したマスタデータ形式のループ対象テーブルのカラムと、配信先システム140のデータ形式のループ対象のカラムとの一致度と、当該テーブル間の類似度とをそれぞれ算出する手順の詳細を示すフローチャートである。

0070

このフローにおいて、まず、データ統合装置100のデータ構造類似度算出部112は、上述のステップ3022でループ対象テーブルとした、マスタデータ形式のテーブルの全カラムに対してループを行う(3024)。

0071

データ統合装置100のデータ構造類似度算出部112は、当該ループ内で、上述のステップ3023でループ対象テーブルとした、配信先システム140のデータ形式のテーブルの全カラムに対してループを行う(3025)。

0072

続いて、データ統合装置100のデータ構造類似度算出部112は、ループ対象であるマスタデータ形式のテーブルにおけるループ対象カラムのカラム名と、ループ対象である配信先システム140のデータ形式のテーブルのループ対象カラムのカラム名とが一致しているか判定する(3026)。

0073

上述の判定の結果、両カラム名が一致していなければ(3026:NO)、データ統合装置100のデータ構造類似度算出部112は、「0」を類似度算出結果一時格納部103の一致度格納領域1047に格納する(30211)。

0074

一方、上述の判定の結果、両カラム名が一致しているならば(3026:YES)、データ統合装置100のデータ構造類似度算出部112は、類似度算出パラメータテーブル102を参照し、当該テーブルにおける全ての項目名と類似度算出重みの各値を取得する(3027)。

0075

データ統合装置100のデータ構造類似度算出部112は、ステップ3027で得た項目名の中に、ステップ3026で判定結果が「一致」となった対象カラム名が定義されているか判定する(3028)。

0076

上述の判定の結果、上述の対象カラム名が定義されていなければ(3028:NO)、データ統合装置100のデータ構造類似度算出部112は、「1」を類似度算出結果一時格納部103の一致度格納領域1047に格納する(30210)。

0077

一方、上述の判定の結果、上述の対象カラム名が定義されていれば(3028:YES)、データ統合装置100のデータ構造類似度算出部112は、「1×類似度算出重み」の算出結果を、類似度算出結果一時格納部103の一致度格納領域1047に格納する(3029)。

0078

続いて、データ統合装置100のデータ構造類似度算出部112は、ループ対象であるマスタデータ形式のテーブルにおけるループ対象カラムのデータ型と、ループ対象である配信先システム140のデータ形式のテーブルにおけるループ対象カラムのデータ型とが一致しているか判定する(30212)。

0079

上述の判定の結果、両データ型が一致しているならば(30212:YES)、データ統合装置100のデータ構造類似度算出部112は、「1」を、類似度算出結果一時格納部103の一致度格納領域1047に格納する(30213)。

0080

一方、上述の判定の結果、両データ型が一致していなければ(30212:NO)、データ統合装置100のデータ構造類似度算出部112は、「0」を類似度算出結果一時格納部103の一致度格納領域1047に格納する(30214)。

0081

次に、データ統合装置100のデータ構造類似度算出部112は、上述でループ対象とした、マスタデータ形式のテーブルと配信先システム140のデータ形式のテーブルとの間の類似度を、(一致度の総和)/{2×(マスタデータテーブルのカラム数×比較するテーブルのカラム数)}、の式で算出し、当該算出結果を類似度算出結果一時格納部103のテーブル間類似度1046に格納し(30215)、処理を終了する。

0082

ここで、上述の図12aおよび図12bの各フローで示した処理の、具体的な例について、図13踏まえて説明する。図13は、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルを対象に、類似度算出の処理を行う概念を示す説明図である。

0083

この場合、データ統合装置100は、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルの「列車番号」カラムは、カラム名が一致していると判定する。この一致するカラム名「列車番号」は、類似度算出パラメータテーブル102の項目名に定義されている。よって、データ統合装置100は、この「列車番号」に対応する類似度算出重み「3」を取得する。

0084

そこでデータ統合装置100は、一致度格納領域1047のうち「列車番号」カラムに対応した領域10471に、カラム名の一致度算出結果である「3」を格納する。

0085

続いて、データ統合装置100は、この「列車番号」カラムのデータ型はいずれも「Integer」で一致していることから、一致度格納領域1047のうち「列車番号」カラムに対応した領域10471に、データ型の一致度算出結果として「1」を格納する。
データ統合装置100は、上述の処理を、マスタデータ形式の「列車」テーブルの各カラムと、「データ形式Z」の「列車・駅」テーブルの各カラムとの、全組合せに対して行う。

0086

最後に、データ統合装置100は、上述のマスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルとに関して、テーブル間類似度を算出する。ここで、図7に例示する一致度格納領域1047で格納している各カラムの一致度の総和は、3+1+1+1=6、また、マスタデータ形式の「列車」テーブルにおけるカラム数は3、また、「データ形式Z」の「列車・駅」テーブルにおけるカラム数は4である。

0087

このことから、データ統合装置100は、当該テーブル間の類似度を、(一致度の総和)/{2×(マスタデータテーブルのカラム数×比較するテーブルのカラム数)}=6/(2×3×4)=0.25と算出する。
−−−詳細フロー例2−−−

0088

図14は、配信元システム130の所定データを配信先システム140が要求するデータ形式へデータ変換する際に再利用可能な、データ変換処理プログラムの候補を、データ統合装置100の再利用可能データ変換部品抽出部113が抽出する手順(メインフローにおけるステップ303)の詳細を示すフローチャートである。なお、この「再利用可能なデータ変換プログラム」とは、マスタデータ形式の所定テーブルとの関係において、配信元システム130の所定テーブルのデータを、所定配信先システム140のデータ形式向けにデータ変換を行うべく定義済みの、すなわち既知のデータ変換プログラムである。

0089

つまり、本実施形態のデータ統合装置100は、既知のデータ変換プログラムを、未だデータ変換プログラムが定義されていない配信先システム140のデータ形式向けに再利用すべく、その情報を提供するのである。

0090

このフローにおいて、データ統合装置100の再利用可能データ変換部品抽出部113は、配信先システム140が要求するデータ形式の該当テーブル(ステップ301で情報を得ている)全てに対して、ループを行う(3031)。

0091

続いてデータ統合装置100の再利用可能データ変換部品抽出部113は、当該ループ内で、ループ対象であるテーブルのカラム全てに対してループを行う(3032)。

0092

ここでデータ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の各テーブルと上述のループ対象である配信先システム140のデータ形式のテーブルと、の関係について、類似度算出結果格納部105(図6)を参照し、ループ対象テーブルのカラムと、カラム名またはデータ型が一致するマスタデータ形式のカラムとそのテーブルの情報を取得する(3033)。

0093

続いてデータ統合装置100の再利用可能データ変換部品抽出部113は、上述のステップ3033の結果、カラム名またはデータ型が一致する、すなわち、一致度が(a,b)(a>0またはb>0)であるカラムが存在するか判定する(3034)。

0094

この判定の結果、該当カラムが存在しなければ(3034:NO)、データ統合装置100の再利用可能データ変換部品抽出部113は、再利用可能部品抽出結果格納テーブル
106の変換元カラム1084と変換先カラム1085に、「再利用可能候補無し」の値を格納する(3036)。

0095

一方、上述の判定の結果、該当カラムが存在するならば(3034:YES)、データ統合装置100の再利用可能データ変換部品抽出部113は、該当カラムのカラム名とデータ型の各一致度を合計した値が、該当カラム間で最大となるカラムを特定する(3035)。

0096

次に、データ統合装置100の再利用可能データ変換部品抽出部113は、上述のステップ3035で特定したカラムが複数存在するか判定する(3037)。

0097

上述の判定の結果、該当カラムが複数存在しない場合(3037:NO)、すなわち1つのみであった場合、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の該当テーブルにおける該当カラムのカラム名と、当該カラムを有する、マスタデータ形式のテーブルのテーブル名を取得する(3039)。

0098

一方、上述の判定の結果、該当カラムが複数存在する場合(3037:YES)、再利用可能データ変換部品抽出部113は、該当する各カラムを有する各テーブルの類似度を取得し、その類似度がテーブル間で最大となる、マスタデータ形式のテーブルを特定する(3038)。また、このステップ3038において、データ統合装置100の再利用可能データ変換部品抽出部113は、特定したマスタデータ形式のテーブルにおける、該当カラムのカラム名と当該テーブル名を取得する。

0099

続いて、データ統合装置100の再利用可能データ変換部品抽出部113は、ステップ3038またはステップ3039のいずれかでカラム名およびテーブル名を取得した該当カラムと該当テーブルの組数分だけループを行う(30310)。

0100

ここでデータ統合装置100の再利用可能データ変換部品抽出部113は、類似度算出結果格納部105を参照し、上述のループにて対象とするマスタデータ形式のテーブルと、当該テーブルとの類似度を算出済みの、配信先システム140における全データ形式の各テーブルとに関して、ループ対象のカラムに関する一致度算出結果を取得する(30311)。

0101

ここで得た情報に基づき、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式のテーブルと、配信先システム140における全データ形式の各テーブルのいずれかとの間で、カラム名あるいはデータ型が一致する、すなわち、一致度が(a,b)(a>0またはb>0)であるカラムが存在するか判定する(30312)。 上述の判定の結果、該当カラムが存在しなければ(30312:NO)、データ統合装置100の再利用可能データ変換部品抽出部113は、再利用可能部品抽出結果テーブル格納106の変換元カラム1084と変換先カラム1085に「再利用可能候補無し」の値を格納する(30314)。

0102

一方、上述の判定の結果、該当カラムが存在するならば(30312:YES)、データ統合装置100の再利用可能データ変換部品抽出部113は、該当カラムのカラム名とデータ型の一致度を合計した値が最大となる、配信先システム140のデータ形式、該当テーブル、およびカラム名の各情報を取得する(30313)。

0103

続いてデータ統合装置100の再利用可能データ変換部品抽出部113は、ステップ30313で取得したカラムが複数存在するか判定する(30315)。

0104

上述の判定の結果、該当カラムが複数存在するならば(30315:YES)、データ統合装置100の再利用可能データ変換部品抽出部113は、該当カラムを含む各テーブルの、対応するマスタデータ形式のテーブルとの類似度を参照し、類似度が該当テーブル間で最大となるテーブルを特定する(30316)。

0105

一方、該当カラムが複数存在しなければ(30315:NO)、データ統合装置100の再利用可能データ変換部品抽出部113は、処理をS30317へ進める。

0106

次に、データ統合装置100の再利用可能データ変換部品抽出部113は、上述のマスタデータ形式の所定テーブルにおけるカラムのデータを、上述のステップ3016で特定した(配信先システム140の)データ形式の該当テーブルのカラムのデータとする、データ変換プログラムが、ステップ3031およびステップ3032でループ対象とするテーブルのカラムへ変換する再利用可能候補部品と判断し、再利用可能部品抽出結果格納テーブル106の変換元カラム1084に「ステップ3038またはステップ3039で取得したマスタデータ形式のテーブルのカラム」を、変換先カラム1085に「取得した配信先システム140のデータ形式のテーブルのカラム」を格納する(30317)。

0107

ここで、図15a図15bは、配信先システム140が要求するデータ形式「データ形式Z」の「列車・駅」テーブルのカラム「列車番号」にデータ変換を行うデータ変換プログラムとして、再利用可能なデータ変換処理部品候補を抽出する、具体的な処理概念を示す。

0108

まず、図15aに示す通り、マスタデータ形式の「列車」テーブルと、「データ形式Z」の「列車・駅」テーブルとを対象に、類似度を算出する処理について説明する。この場合、データ統合装置100の再利用可能データ変換部品抽出部113は、両テーブルの間でカラム名あるいはデータ型が一致するカラムとして、マスタデータ形式の「列車」テーブルの「列車番号」カラムと、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムと、の各情報を取得する。

0109

次に、データ統合装置100の再利用可能データ変換部品抽出部113は、上述で取得したカラムのカラム名とデータ型の一致度算出結果を合計した値を、マスタデータ形式の「列車」テーブルの「列車番号」カラムと、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラム、のそれぞれについて、3+1=4と算定する。従って、一致度の合計値が同じカラムが2つ特定されることになる。

0110

なお、この2つのカラムをもつマスタデータ形式の各テーブル(「列車」テーブルと「駅時刻」テーブル)と「データ形式Z」の「列車・駅」テーブルとの間における、テーブル間類似度は、それぞれ「0.25」と「0.47」である。

0111

従って、データ統合装置100の再利用可能データ変換部品抽出部113は、テーブル間類似度が「0.47」で最大の、マスタデータ形式の「駅時刻」テーブルを特定し、このマスタデータ形式の「駅時刻」テーブルの名と「列車番号」カラムの名を取得する。

0112

続いて、図15bに示すとおり、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムと、類似度算出済みである「データ形式X」と「データ形式Y」の全テーブルの全カラムとの一致度算出結果を取得する。

0113

また、データ統合装置100の再利用可能データ変換部品抽出部113は、上述のように取得した一致度算出結果に対し、カラム名とデータ型の一致度を合計した値を算出し、
最大値をとるカラムを抽出する。この場合、最大になるのは3+1=4で、「データ形式X」の「列車情報」テーブルの「列車番号」カラムと特定される。

0114

よって、データ統合装置100の再利用可能データ変換部品抽出部113は、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムを、「データ形式X」の「列車情報」テーブルの「列車番号」カラムへ変換する処理部品が、「データ形式Z」の「列車・駅」テーブルの「列車番号」カラムへデータ変換を行う再利用可能部品候補として、再利用可能部品抽出結果格納テーブル106に格納する。
−−−画面表示例−−−

0115

続いて、データ統合装置100のユーザインターフェース部111が生成し、入力端末120に表示させる画面の例について説明する。図16は、ユーザインターフェース部111が生成する画面の例であって、入力端末120を介してデータ変換プログラムの設計開発者に提示する、再利用候補変換部品提示画面1110の例を示す図である。

0116

この再利用候補変換部品提示画面1110は、配信先システムデータ形式入力領域11101と、再利用可能部品抽出ボタン11102と、再利用候補変換部品表示領域11103から構成される。

0117

このうち再利用候補変換領域11103には、配信先システムデータ形式入力領域11101に入力された値をキーとして、再利用可能部品抽出結果格納テーブル106の配信先データ形式のデータ項目が一致するレコードの情報と、このレコードのうち変換元カラム1084から変換先カラム1085に変換するデータ変換プログラムのファイル名が表示される。また、データ変換プログラムのファイル名は、上述のレコードの変換元カラム1084と変換先カラム1085の値をキーにして、データ変換処理部品定義テーブル104より抽出したレコードのプログラムファイル名1067の値である。

0118

図16に示す例では、配信先データ形式「データ形式Z」の「列車・駅」テーブルのカラムである、「列車番号」、「駅名」、「到着時刻」、および「出発時刻」のそれぞれに対して、マスタデータ形式のデータを変換するデータ変換プログラムの再利用可能候補を抽出した結果が示されている。

0119

また、上述のカラムのうち「列車番号」と「駅名」に関して、それぞれ、マスタデータ形式の「駅時刻」テーブルの「列車番号」カラムから、「データ形式X」の「列車情報」テーブルの「列車番号」カラムへ変換する、データ変換プログラム「prg00001.dat」と、マスタデータ形式の「駅時刻」テーブルの「駅名」カラムから、「データ形式X」の「列車情報」テーブルの「駅名」カラムへ変換する、データ変換プログラム「prg00005.dat」とが、再利用可能候補として表示されている。

0120

上述した再利用可能なデータ変換プログラムの候補を抽出する手段には、既に述べた各フロー等の方法の他に、その他の公知の機械学習技術に基づく方法、例えばニューラルネットワークサポートベクターマシン等の分類器を用いるとしてもよい。

0121

なお、上述の再利用候補変換部品提示画面1110における、変換元カラムおよび変換先カラムにて表示する内容とその形態として、ユーザインターフェース部111は、該当カラムの記載の表示形態下線部付きの太文字など、クリッカブル強調表示とするとしてもよい。図17にこの場合の表示例を示す。

0122

このように、クリッカブルな強調表示とするのは、カラム間の一致判定(ステップ3028〜3029、ステップ30210)にて一致が特定され、類似度算出パラメータテー
ブル102の類似度算出重みの値の適用対象となったカラムに関する記載とする。

0123

図17の例であれば、データ統合装置100のユーザインターフェース部111は、例えば、マスタデータ形式の「駅時刻」テーブルのカラム「列車番号」の文字を太文字の下線部付きとし、また、「データ形式X」の「列車情報」テーブルのカラム「列車番号」の文字を太文字の下線部付きとする。

0124

この場合、データ統合装置100のユーザインターフェース部111は、上述の設計開発者が入力端末120を操作し、この下線部をクリックしたイベントに応じて、例えば下線部下方にプルダウンメニュー111031を表示させる。このプルダウンメニュー111031は、該当カラムに関して上述の一致判定で用いた類似度算出パラメータテーブル102の類似度算出重みの値を、設計開発者が変更可能とするインターフェースである。図17の例では、「列車番号」カラムに関して適用していた類似度算出重みの値を、「3」から「1」の間で選択しうるメニューとなっている。

0125

データ統合装置100のユーザインタフェース部111は、このプルダウンメニュー111031にて設計開発者から受け付けた類似度算出重みの値の選択に応じて、選択された類似度算出重みの値を用いた上述の各類似度の算出を、データ構造類似度算出部112に指示する。

0126

一方、データ構造類似度算出部112は、この指示に応じて類似度算出(ステップ302)に必要な各処理を再実行する。また、この再実行の結果を受けた再利用可能データ変換部品抽出部113は、類似度算出の結果等に基づく、再利用可能なデータ変換プログラムの抽出処理(ステップ303)に必要な各処理を再実行する。

0127

ユーザインタフェース部111は、こうした再実行の結果を取得し、画面1110を更新し、入力端末120に表示させる。従って、上述の設計開発者は、類似度算出の重みの値を変更した場合の結果について確認可能となっている。

0128

なお、上述では、プルダウンメニュー111031を、類似度算出重みの値の変更を受け付けるユーザインタフェースの例として示したが、これに限定せず、所定事象の変更指示を受ける既存の各種インタフェース(例:スライダーバーや複数のラジオボタンなど)を適宜に採用してよい。

0129

以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。

0130

こうした本実施形態によれば、配信先のシステムやアプリケーションが要求するデータ形式とマスタデータのデータ形式との、データ項目間の対応付けといった作業を省き、既に設計・開発されたデータ変換処理部品のうちで再利用可能な部品を、データ統合装置の利用者等に提示可能となる。

0131

すなわち、変換定義等が未定義のデータ間であっても効率的なデータ変換処理の実現を支援可能となる。

0132

本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のデータ統合装置において、前記演算装置は、前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所
定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力するものである、としてもよい。

0133

これによれば、上述の類似度を好適な精度で効率的に算出し、また、こうした類似度に基づき特定されたテーブル間の該当カラムに関して再利用可能な変換処理部品候補の情報を、所定の担当者等に提示することが可能となる。ひいては、変換定義等が未定義のデータ間であっても、精度よく更に効率的なデータ変換処理の実現を支援可能となる。

0134

また、本実施形態のデータ統合装置において、前記演算装置は、前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行うものである、としてもよい。

0135

これによれば、上述の類似度を更に好適な精度で効率的に算出し、また、こうした類似度に基づき特定されたテーブル間の該当カラムに関して再利用可能な変換処理部品候補の情報を、所定の担当者等に提示することが可能となる。ひいては、変換定義等が未定義のデータ間であっても、更に精度よく効率的なデータ変換処理の実現を支援可能となる。

0136

また、本実施形態のデータ統合装置において、前記演算装置は、前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行するものである、としてもよい。

0137

これによれば、類似度の算出に影響を与えたカラムの重要度すなわち上述の重み付け値の大きさに関して、所定担当者等による変更を受け付けることで、例えば高スキルの担当者等の知見に応じた好適な精度での類似度の算出が可能となる。また、こうした重み付け値の変更に伴って変化しうる類似度に基づき、あらためて特定されるテーブル、および該当テーブル間の該当カラムに関する再利用可能な変換処理部品候補の情報を、所定の担当者等に提示することが可能となる。ひいては、変換定義等が未定義のデータ間であっても、更に精度よく更に効率的かつ柔軟なデータ変換処理の実現を支援可能となる。

0138

また、本実施形態のデータ統合方法において、前記情報処理装置が、前記第1および第2の各類似度の算出に際し、対象とするテーブル間における各カラムの名およびデータ型のそれぞれの一致判定を行い、当該一致判定の結果を所定アルゴリズムに適用することで類似度を算出し、前記再利用可能な変換処理部品候補の情報の出力に際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定されカラムに関する、当該テーブルの間に関する前記変換処理定義の情報を記憶装置より読み出し、当該情報を再利用可能な変換処理部品候補の情報として所定装置に出力する、としてもよい。

0139

また、本実施形態のデータ統合方法において、前記情報処理装置が、前記各類似度の算出に際し、類似度に対する影響の大きさに応じてカラムごとに定めた重み付け値を、前記一致判定の結果に適用した上で、前記所定アルゴリズムによる類似度の算出を行う、としてもよい。

0140

また、本実施形態のデータ統合方法において、前記情報処理装置が、前記再利用可能な変換処理部品候補の情報を出力するに際し、前記特定した、マスタデータ形式の所定テーブルと前記所定システムの所定テーブルとについて、前記一致判定にて一致が特定され、前記重み付け値の適用対象となったカラムに関する情報と、当該カラムに関して適用された前記重み付け値の変更用インターフェースとを更に出力し、前記変更用インターフェースにて受け付けた重み付け値の変更指示に応じて、前記各類似度の算出および当該算出に伴う各処理を再実行する、としてもよい。

0141

100データ統合装置
101データ格納部
102類似度算出パラメータテーブル
103 類似度算出結果一時格納部
104データ変換処理部品定義テーブル
105 類似度算出結果格納部
106 再利用可能部品抽出結果格納テーブル
107データ構造定義テーブル
108データ変換部品ライブラリ
109マスタデータ格納部
110配信元データ格納部
111ユーザインターフェース部
112データ構造類似度算出部
113 再利用可能データ変換部品抽出部
114通信部
120入力端末
130配信元システム
131データ構造定義情報
140配信先システム
150専用回線
201 CPU(演算装置)
202 HDD(記憶装置)
203メモリ
204入力装置
205表示装置
206通信装置
207 プログラム

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ