図面 (/)

技術 情報処理装置及びプログラム

出願人 富士ゼロックス株式会社
発明者 小松裕
出願日 2013年12月5日 (7年0ヶ月経過) 出願番号 2013-251668
公開日 2015年6月11日 (5年6ヶ月経過) 公開番号 2015-108982
状態 特許登録済
技術分野 検索装置
主要キーワード 分類要素 類似度判断 列位置情報 基本事項 回答書 章見出し 最上階層 チェックシート
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年6月11日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

階層構造を有して構成される文書に含まれる文字列に関連する電子情報を、当該文字列の階層構造における位置に基づいて容易に取得する。

解決手段

情報処理装置は、第1の階層構造を有して構成される見出し要素の何れかに属する構成要素に含まれる文字列を取得する文字列取得部201と、取得された文字列の第1階層構造における位置を示す文字列位置情報を取得する文字列位置情報取得部204と、それぞれ、第2階層構造を有して構成される分類要素の何れかに格納する複数の電子情報のうち、その電子情報の電子情報名に取得された文字列を含む複数の電子情報を抽出する電子情報抽出部202と、抽出した複数の電子情報の第2階層構造における格納場所を示す格納場所情報と、文字列位置情報と、に基づいて抽出した複数の電子情報のうち、取得された文字列と関連する電子情報を取得する。

概要

背景

特許文献1には、作業工程マニュアル文書の各作業工程と、その作業工程を実施することにより生成される電子情報を予め関連付けて定義しておき、作業工程に応じて対応する電子情報をユーザに提示する技術が開示されている。

概要

階層構造を有して構成される文書に含まれる文字列に関連する電子情報を、当該文字列の階層構造における位置に基づいて容易に取得する。情報処理装置は、第1の階層構造を有して構成される見出し要素の何れかに属する構成要素に含まれる文字列を取得する文字列取得部201と、取得された文字列の第1階層構造における位置を示す文字列位置情報を取得する文字列位置情報取得部204と、それぞれ、第2階層構造を有して構成される分類要素の何れかに格納する複数の電子情報のうち、その電子情報の電子情報名に取得された文字列を含む複数の電子情報を抽出する電子情報抽出部202と、抽出した複数の電子情報の第2階層構造における格納場所を示す格納場所情報と、文字列位置情報と、に基づいて抽出した複数の電子情報のうち、取得された文字列と関連する電子情報を取得する。

目的

本発明の目的の一つは、階層構造を有して構成される文書に含まれる文字列に関連する電子情報を、当該文字列の階層構造における位置に基づいて容易に取得することにある

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

第1の階層構造を有して構成される見出し要素の何れかに属する構成要素に含まれる文字列を取得する文字列取得手段と、前記取得された文字列の前記第1の階層構造における位置を示す文字列位置情報を取得する文字列位置情報取得手段と、それぞれ、第2の階層構造を有して構成される分類要素の何れかに格納する複数の電子情報のうち、その電子情報の電子情報名に前記取得された文字列を含む複数の前記電子情報を抽出する電子情報抽出手段と、前記抽出した複数の電子情報の前記第2の階層構造における格納場所を示す格納場所情報と、前記文列位置情報と、に基づいて前記抽出した複数の電子情報のうち、前記取得された文字列と関連する前記電子情報を取得する電子情報取得手段と、を含むことを特徴とする情報処理装置

請求項2

前記格納場所情報と前記文字列位置情報とが類似するか否かを判断する判断手段、をさらに含み、前記電子情報取得手段は、前記文字列位置情報と類似すると判断された前記格納場所情報に対応する前記電子情報を取得する、ことを特徴とする請求項1に記載の情報処理装置。

請求項3

前記文字列位置情報は、前記取得された文字列を含む構成要素が属する階層から最上階層までの各見出し要素の見出し要素名を順に含み、前記格納場所情報は、前記電子情報が格納される階層から最上層までの各分類要素の分類要素名を順に含み、前記判断手段は、前記文字列位置情報に含まれるすべての前記見出し要素名それぞれが、前記格納場所情報における同じ階層の前記分類要素名と類似するか否かを判断する、ことを特徴とする請求項2に記載の情報処理装置。

請求項4

前記文字列位置情報は、前記取得された文字列を含む構成要素が属する階層から最上階層までの各見出し要素の見出し要素名を順に含み、前記格納場所情報は、前記電子情報が属する階層から最上層までの各分類要素の分類要素名を順に含み、前記判断手段は、前記文字列位置情報に含まれる見出し要素名の中から抽出した、1または複数の見出し要素名に基づいて類似するか否かを判断する、ことを特徴とする請求項2に記載の情報処理装置。

請求項5

前記文字列位置情報は、前記取得された文字列を含む構成要素が属する階層から最上階層までの各見出し要素の見出し要素名を順に含み、前記格納場所情報は、前記電子情報が属する階層から最上層までの各分類要素の分類要素名を順に含み、前記判断手段は、前記文字列位置情報に含まれるすべての見出し要素名それぞれと、前記格納場所情報における同じ階層の前記分類要素名と、が類似しない場合に、当該見出し要素名と、当該同じ階層より上層の前記分類要素名と、が類似するか否かを判断する、ことを特徴とする請求項2から4のいずれか1項に記載の情報処理装置。

請求項6

第1の階層構造を有して構成される見出し要素の何れかに属する構成要素に含まれる文字列を取得する文字列取得手段、前記取得された文字列の前記第1の階層構造における位置を示す文字列位置情報を取得する文字列位置情報取得手段、それぞれ、第2の階層構造を有して構成される分類要素の何れかに格納する複数の電子情報のうち、その電子情報の電子情報名に前記取得された文字列を含む複数の前記電子情報を抽出する電子情報抽出手段、前記抽出した複数の電子情報の前記第2の階層構造における格納場所を示す格納場所情報と、前記文字列位置情報と、に基づいて前記抽出した複数の電子情報のうち、前記取得された文字列と関連する前記電子情報を取得する電子情報取得手段、としてコンピュータを機能させるためのプログラム

技術分野

0001

本発明は、情報処理装置及びプログラムに関する。

背景技術

0002

特許文献1には、作業工程マニュアル文書の各作業工程と、その作業工程を実施することにより生成される電子情報を予め関連付けて定義しておき、作業工程に応じて対応する電子情報をユーザに提示する技術が開示されている。

先行技術

0003

特開2009−64347号公報

発明が解決しようとする課題

0004

本発明の目的の一つは、階層構造を有して構成される文書に含まれる文字列に関連する電子情報を、当該文字列の階層構造における位置に基づいて容易に取得することにある。

課題を解決するための手段

0005

請求項1に記載の発明は、情報処理装置であって、第1の階層構造を有して構成される見出し要素の何れかに属する構成要素に含まれる文字列を取得する文字列取得手段と、前記取得された文字列の前記第1の階層構造における位置を示す文字列位置情報を取得する文字列位置情報取得手段と、それぞれ、第2の階層構造を有して構成される分類要素の何れかに格納する複数の電子情報のうち、その電子情報の電子情報名に前記取得された文字列を含む複数の前記電子情報を抽出する電子情報抽出手段と、前記抽出した複数の電子情報の前記第2の階層構造における格納場所を示す格納場所情報と、前記文列位置情報と、に基づいて前記抽出した複数の電子情報のうち、前記取得された文字列と関連する前記電子情報を取得する電子情報取得手段と、を含むことを特徴とする。

0006

請求項2に記載の発明は、請求項1に記載の情報処理装置であって、前記格納場所情報と前記文字列位置情報とが類似するか否かを判断する判断手段、をさらに含み、前記電子情報取得手段は、前記文字列位置情報と類似すると判断された前記格納場所情報に対応する前記電子情報を取得する、ことを特徴とする。

0007

請求項3に記載の発明は、請求項2に記載の情報処理装置であって、前記文字列位置情報は、前記取得された文字列を含む構成要素が属する階層から最上階層までの各見出し要素の見出し要素名を順に含み、前記格納場所情報は、前記電子情報が格納される階層から最上層までの各分類要素の分類要素名を順に含み、前記判断手段は、前記文字列位置情報に含まれるすべての前記見出し要素名それぞれが、前記格納場所情報における同じ階層の前記分類要素名と類似するか否かを判断する、ことを特徴とする。

0008

請求項4に記載の発明は、請求項2に記載の情報処理装置であって、前記文字列位置情報は、前記取得された文字列を含む構成要素が属する階層から最上階層までの各見出し要素の見出し要素名を順に含み、前記格納場所情報は、前記電子情報が属する階層から最上層までの各分類要素の分類要素名を順に含み、前記判断手段は、前記文字列位置情報に含まれる見出し要素名の中から抽出した、1または複数の見出し要素名に基づいて類似するか否かを判断する、ことを特徴とする。

0009

請求項5に記載の発明は、請求項2から4のいずれか1項に記載の情報処理装置であって、前記文字列位置情報は、前記取得された文字列を含む構成要素が属する階層から最上階層までの各見出し要素の見出し要素名を順に含み、前記格納場所情報は、前記電子情報が属する階層から最上層までの各分類要素の分類要素名を順に含み、前記判断手段は、前記文字列位置情報に含まれるすべての見出し要素名それぞれと、前記格納場所情報における同じ階層の前記分類要素名と、が類似しない場合に、当該見出し要素名と、当該同じ階層より上層の前記分類要素名と、が類似するか否かを判断する、ことを特徴とする。

0010

請求項6に記載の発明は、プログラムであって、第1の階層構造を有して構成される見出し要素の何れかに属する構成要素に含まれる文字列を取得する文字列取得手段、前記取得された文字列の前記第1の階層構造における位置を示す文字列位置情報を取得する文字列位置情報取得手段、それぞれ、第2の階層構造を有して構成される分類要素の何れかに格納する複数の電子情報のうち、その電子情報の電子情報名に前記取得された文字列を含む複数の前記電子情報を抽出する電子情報抽出手段、前記抽出した複数の電子情報の前記第2の階層構造における格納場所を示す格納場所情報と、前記文字列位置情報と、に基づいて前記抽出した複数の電子情報のうち、前記取得された文字列と関連する前記電子情報を取得する電子情報取得手段、としてコンピュータを機能させることを特徴とする。

発明の効果

0011

請求項1及び6に記載の発明によれば、階層構造を有して構成される見出し要素に属する構成要素に含まれる文字列に関連する電子情報を、当該文字列の階層構造における位置情報に基づいて取得する。

0012

請求項2に記載の発明によれば、階層構造を有して構成される見出し要素に属する構成要素に含まれる文字列に関連する電子情報を、当該文字列の階層構造における位置情報と、当該電子情報の階層構造における格納場所情報と、の類似度に基づいて取得する。

0013

請求項3に記載の発明によれば、文字列の階層構造における位置情報と電子情報の階層構造における格納場所情報とが完全に一致するかを判断できる。

0014

請求項4に記載の発明によれば、文字列の階層構造における位置情報の一部と電子情報の階層構造における格納場所情報との類似度を判断することができる。

0015

請求項5に記載の発明によれば、電子情報の階層構造における格納場所情報から関連性の低い情報を除外して類似度の判断を行うことができる。

図面の簡単な説明

0016

本発明の一実施形態に係る電子情報管理システムの構成の一例を示す図である。
マニュアル文書の一例を示す図である。
電子情報管理サーバ20に実装されるディレクトリシステムの一例を模式的に示す図である。
本実施形態に係る文書管理サーバ20により実行される主な機能の一例を示すブロック図である。
図3に示すディレクトリシステムのうち「購買No002」のディレクトリに格納されている情報の一例を示す図である。

実施例

0017

以下、本発明の一実施形態について図面に基づき詳細に説明する。

0018

図1は、本発明の一実施形態に係る電子情報管理システムの構成の一例を示す図である。図1に示すように、電子情報管理システムは、情報処理装置10、マニュアル管理サーバ20、及び電子情報管理サーバ30を含んで構成されている。情報処理装置10、電子情報管理サーバ20、及びマニュアル管理サーバ30はLANやインターネットなどの通信手段に接続されており、互いに通信されるようになっている。

0019

情報処理装置10は、情報処理装置10にインストールされているプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子ハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、マウスディスプレイなどであるユーザインタフェース部などを含んでいる。これらの要素は、バスを介して接続される。情報処理装置10の記憶部には、情報処理装置10の制御部によって実行されるプログラムが記憶される。また、情報処理装置10の記憶部は、情報処理装置10のワークメモリとしても動作する。

0020

マニュアル管理サーバ20は、作業手順等が記述されたマニュアル文書を管理している。マニュアル文書は、章、節、項といった見出し要素を用いた階層構造(第1の階層構造)を有する文書である。ここで、各見出し要素が階層構造におけるノード、見出し要素の文字列データがノード名に相当し、各ノードに作業内容を示す構成要素が属している。構成要素としては、例えば、文、図形、表などであってよい。

0021

図2にマニュアル文書の一例を示す。図2に示すように購買マニュアルの階層構造では、「第1章見積」、「第2章購入」等の「章」階層は第一階層に位置し、「1.1基本事項」、「1.2 相見積先選定」等の「節」階層は第二階層に位置し、「1.4.1回答書チェック」等の「項」階層は第三階層に位置している。そして、見出し要素の文字列「見積」、「回答」、「回答書チェック」がそれぞれノード名となる。この場合、例えば、マニュアル文書に記述されている作業内容「見積書を見積先に送付し・・・」内の語句「見積書」について、その階層構造における位置を最上階層(章見出しから)から各ノード名を区切り記号「/」で区切って連ね、「見積/見積/」のように表す。

0022

電子情報管理サーバ30は、文書管理サーバ20にインストールされているプログラムに従って動作するCPU等のプログラム制御デバイスである制御部、ROMやRAM等の記憶素子やハードディスクドライブなどである記憶部、ネットワークボードなどの通信インタフェースである通信部、などを含んでいる。これらの要素は、バスを介して接続される。文書管理サーバ20の記憶部には、文書管理サーバ20の制御部によって実行されるプログラムが記憶される。また、文書管理サーバ20の記憶部は、文書管理サーバ20のワークメモリとしても動作する。

0023

電子情報管理サーバ30は、マニュアル文書に基づいて作業した結果生成される成果物をディレクトリシステムにて管理する。成果物は、作業内容に応じて生成される電子情報とし、例えば文書情報画像情報動画情報音声情報などであってよい。そして、電子情報管理サーバ30の記憶部には、ディレクトリシステム上に存在する複数のディレクトリからなる木構造(第2の階層構造)を示す木構造データが記憶されている。木構造データには、各ディレクトリのディレクトリ名が含まれる。また、木構造データにおいて、各ディレクトリのディレクトリ名は、そのディレクトリの上位のディレクトリのディレクトリ名に関連づけられている。図3は電子情報管理サーバ30に実装されるディレクトリシステムの一例を模式的に示す図である。図3に示すように「購買申請書フォルダ」はルートとなる第五階層に位置し、「購買No0001」は第四階層に位置し、「見積」、「購入依頼」は第三階層に位置し、「相見積」、「回答書」、「見積先決定」、「テンプレート」、「(旧)ドラフト版」は第二階層に位置し、「チェックシート」は第一階層に位置している。なお、ディレクトリの作成、削除等はユーザにより自由に実施される。

0024

また、電子情報管理サーバ30の記憶部には、ディレクトリシステム上に存在する複数の電子情報が記憶されている。図3に示すように、例えば「見積書.doc」が電子情報を示している。各電子情報は、それぞれ、いずれかのディレクトリに格納され、それぞれの電子情報の電子情報名が、その電子情報が格納されているディレクトリのディレクトリ名に関連づけられて記憶部に記憶される。例えば、図3によれば、電子情報「A社見積書.doc」は第一階層のディレクトリ「相見積」に格納されている。そして、ディレクトリ「相見積」に属している電子情報「A社見積書.doc」について、その格納場所を最上階層のディレクトリから各ディレクトリ名を区切り記号で区切って連ね、「/購買申請書フォルダ/購買No0001/見積/相見積/」のように表す。なお、電子情報を格納するディレクトリはユーザにより選択される。

0025

ここで、マニュアル文書の作業手順に従って作成された成果物である電子情報を格納するディレクトリの階層構造及びディレクトリ名はマニュアル文書の階層構造及び見出し要素名と類似することが推定される。そこで、本実施形態では、電子情報を格納するディレクトリの階層構造及びディレクトリ名と、マニュアル文書の階層構造及び見出し要素名との類似性からマニュアル文書に記述されている文字列に対応する電子情報を特定する構成としている。

0026

図4は、本実施形態に係る情報処理装置10により実行される主な機能の一例を示すブロック図である。図4に示すように、本実施形態における情報処理装置10は、機能的には、マニュアル文書取得部200、文字列取得部201、電子情報抽出部202、格納場所情報取得部203、文字列位置情報取得部204、類似度判断部205、及び表示部206を含んで構成される。なお、本実施形態に係る文書管理サーバ20において、図2に示す機能以外の機能が実現されていてもよい。これらの機能は、記憶部に記憶されたプログラムが制御部を実行することにより実現されている。このプログラムは、例えば、光ディスク磁気ディスク磁気テープ光磁気ディスクフラッシュメモリ等のコンピュータ可読な情報記憶媒体を介して、あるいは、インターネットなどの通信手段を介して文書管理サーバ20に供給される。

0027

マニュアル文書取得部200は、マニュアル文書管理サーバ20の記憶部からマニュアル文書を取得する。

0028

文字列取得部201は、マニュアル文書取得部200が取得したマニュアル文書の文中からユーザにより指定された文字列を取得する。例えば、文字列取得部201は、マニュアル文書取得部200が取得したマニュアル文書の文中のユーザが指定する任意の文字列を取得してもよいし、予め定義した文字列から選択してもよい。

0029

電子情報抽出部202は、電子情報管理サーバ20の記憶部に記憶されている複数の電子情報から、当該電子情報の電子情報名に文字列取得部201が取得した文字列を含む電子情報を抽出する。具体的には、文字列取得部201が図2に示すマニュアル文書の「見積書」を取得した場合は、図3に示すディレクトリシステムに格納されている電子情報のうち電子情報名に「見積書」を含む、「A社見積書.doc」、「B社見積書.doc」、「見積書.doc」(ディレクトリ「テンプレート」に格納されている)、「見積書.doc」(ディレクトリ「(旧)ドラフト版」に格納されている)の4つの電子情報が抽出される。なお、ここでは「購買No0001」ディレクトリ内に格納されている電子情報のうちから抽出しているが、「購買申請書」ディレクトリ内に格納されているすべての電子情報のうちから抽出してもよいし、いずれかのディレクトリを選択してもよい。

0030

格納場所情報取得部203は、電子情報抽出部202が抽出した各電子情報の電子情報管理サーバ30の記憶部における格納場所を示す格納場所情報を取得する。具体的には、例えば、格納場所情報取得部203は、電子情報「A社見積書.doc」の格納場所情報は「/購買申請書フォルダ/購買No0001/見積/相見積/」、電子情報「B社見積書.doc」の格納場所情報は/購買申請書フォルダ/購買No0001/見積/相見積/」、電子情報「見積書.doc」(ディレクトリ「テンプレート」に格納されている)の格納場所情報は「/購買申請書フォルダ/購買No0001/見積/テンプレート/」、電子情報「見積書.doc」(ディレクトリ「(旧)ドラフト版」に格納されている)の格納場所情報は「/購買申請書フォルダ/購買No0001/見積/(旧)ドラフト版/」として取得する。

0031

文字列位置情報取得部204は、文字列取得部201が取得した文字列のマニュアル文書内の記述場所を示す文字列位置情報をマニュアル文書管理サーバ20から取得する。具体的には、例えば、文字列位置情報取得部204は、「見積書」の文字列位置情報を「見積/見積/」として取得する。

0032

類似度判断部205は、文字列位置情報取得部204が取得した文字列位置情報と、格納場所情報取得部203が取得した各電子情報の格納場所情報との類似度を判断する。類似度の判断は、マニュアル文書内の取得した文字列に対応する電子情報は、マニュアル文書の階層構造と類似した階層構造を有するディレクトリに格納されているという推定のもとに判断するものである。つまり、文字列位置情報に含まれる見出し要素名及びその順序がそれぞれ、格納場所情報に含まれる分類要素名及びその順序と類似するかを判断し文字列位置情報と格納場所情報との類似度を判断する。そうすることで、取得した文字列を電子情報名に含む複数の電子情報のうち、当該取得した文字列と関連の高い(類似度の高い)電子情報を特定することが可能となる。

0033

まず、類似度の判断を行うための第1の手法について説明する。第1の手法は、文字列位置情報に含まれる見出し要素名それぞれを、類似度の判断を行う対象である電子情報の格納場所情報における同じ階層の分類要素名と比較し類似するか否かを判断する。具体的には、例えば、階層i(i≧1)において見出し要素名と分類要素名との語句類似度Si(0≦Si≦100)を算出し、算出された語句類似度Siの平均値を類似度Sv(0≦Sv≦100)とする。この場合、類似度Svが100の場合に、文字列位置情報のすべての階層における見出し要素名が、それぞれ同じ階層の分類要素名と完全に一致する。なお、類似度Svが所定値以上(例えば、80以上)の場合に、格納場所情報と文字列位置情報との類似度が高いと判断してもよい。これにより、文字列位置情報に含まれる1以上の見出し要素名と、その階層順と、がともに一致するという類似度の高い格納場所情報を特定することが可能となる。

0034

ここで、見出し要素名と分類要素名との語句同士の類似度(語句類似度S)を判断する手法は既存の技術を用いてよい。例えば、各語句について形態素解析を行うとともに、その形態素解析の結果に基づいて各語句を単語に分割し、分割した各単語に対して名詞動詞付属語等の品詞情報を付与する。付属語が連続している場合には、連続した付属語を一つの単語として扱うことにしてもよい。そして、各語句を構成する単語や文節(名詞や動詞等の内容後に続く付属語のまとまり)をそれぞれ比較して、その語句同士の差異所定数以下の単語または文節に過ぎない場合には、それらの語句同士は類似の関係にあるとして判断する。付属語が連続している場合には、連続した付属語を一つの単語として扱うことにしてもよい。そして、語句同士の差異として検出された単語数または文節数の、各語句を構成する全単語数または全文節数に対する割合に応じた語句類似度Sを設定することとする。なお、その他の語句同士の類似性を判断する手法により設定される語句類似度Sを用いることとしてもよい。

0035

図3を用いて第1の手法について具体例を示す。文字列位置情報取得部204が取得した「見積書」の文字列位置情報「見積/見積/」と、格納場所情報取得部203が取得した「A社見積書.doc」の格納場所情報「購買申請書フォルダ/購買No0001/見積/相見積」と、の類似度を判断する場合を例にすると、まず文字列位置情報の一層目の見出し要素名「見積」と、格納場所情報の一層目の分類要素名「相見積」と、の語句類似度S1を算出する。この場合、分類要素名「相見積」と見出し要素名「見積」との語句の差異は「相」だけであるため語句類似度S1は高い(例えば、S1>80)と判断される。次に、文字列位置情報の二層目の見出し要素名「見積」と、格納場所情報の二層目の分類要素名「見積」と、の語句類似度S2を算出する。この場合は、見出し要素名「見積」と分類要素名「見積」の語句は完全に一致するため語句類似度S2は100と判断される。そして、語句類似度S1と語句類似度S2との平均値が類似度Sv(この場合は、Sv>90となり類似度Svは高いと判断される)となる。同様にして、電子情報抽出部が抽出した電子情報「B社見積書.doc」、「見積書.doc」(ディレクトリ「テンプレート」に格納されている)、及び「見積書.doc」(ディレクトリ「(旧)ドラフト版」に格納されている)についてもそれぞれ、文字列位置情報取得部204が取得した「見積書」の文字列位置情報「見積/見積/」との類似度を判断すると、類似度Svが高いと判断される格納場所情報は「A社見積書.doc」及び「B社見積書.doc」の格納場所情報となる。

0036

次に、類似度の判断を行うための第2の手法について説明する。この第2の手法は、上述した第1の手法より類似度の確度は低いが、広い範囲で類似度の高い格納場所情報を特定することができる。

0037

第2の手法としては、文字列位置情報に含まれる見出し要素名それぞれと、格納御場所情報における同じ階層の分類要素名との類似度が低いと判断された場合に、当該同じ階層より上層の分類要素名との類似度を判断する。格納場所情報に含まれる分類要素と分類要素名とがユーザにより自由に設定することができる場合は、格納場所情報に見出し要素名と全く関連性のない分類要素名が含まれている可能性がある。そこで、第2の手法によりこのような見出し要素名と全く関連性のない分類要素名との語句類似度Siを判断しないようにすることができる。具体的には、例えば、一層目の見出し要素名と一層目の分類要素名との語句類似度S1が低いと判断された場合に、一層目の見出し要素名と、1つ上層である二層目の分類要素名との語句類似度を判断する。このような処理を一層目の見出し要素名と、いずれかの層の分類要素名との語句類似度が高いと判断されるまで、または最上層の分類要素名との類似度が判断されるまで繰り返す。そして、いずれかの層の分類要素名との語句類似度が高いと判断された場合に当該語句類似度を語句類似度S1の値とし、最下層から最上層の分類要素名のうち語句類似度が高いと判断される分類要素名がない場合は、一層目の見出し要素名と一層目の分類要素名との語句類似度S1をそのまま用いる。そして、すべての階層の見出し要素名について同様の処理を行い算出された語句類似度Siの平均値を語句類似度Svとする。これにより、格納場所情報に、見出し要素名と関連性のない分類要素名が含まれている場合であっても、その関連性のない分類要素名をスキップして、文字列位置情報と格納場所情報との類似度Svの判断を行うことが可能となる。なお、第2の手法によりスキップされた分類要素の数と、語句類似度Siとの重みづけにより類似度Svを算出することとしてもよい。

0038

図5を用いて第2の手法について具体例を示す。図5は、図3に示すディレクトリシステムのうち「購買No002」のディレクトリに格納されている情報の一例を示す図である。まず、語句取得部201が図2に示すマニュアル文書の「見積書」を取得した場合に、電子情報抽出部202は、図5に示す「購買No0002」ディレクトリに格納されている電子情報のうち電子情報名に「見積書」を含む電子情報「見積書.doc」を抽出する。そして、抽出した電子情報「見積書.doc」の格納場所情報「購買申請書フォルダ/購買No0002/相見積/X社/見積」と、文字列位置情報取得部204が取得した「見積書」の文字列位置情報「見積/見積/」と、の類似度を判断する場合を例にすると、まず文字列位置情報の一層目の見出し要素名「見積」と、格納場所情報の一層目の分類要素名「見積」と、の語句類似度S1を算出すると、両者の語句は完全に一致するため語句類似度S1は100となる。次に文字列位置情報の二層目の見出し要素名「見積」と、格納場所情報の二層目の分類要素名「X社」と、の語句類似度S2を算出すると、一致する語句がないため語句類似度S2は0となる。このままだと、語句類似度S1(=100)と語句類似度S2(=0)との平均値である類似度Svは低いと判断される。そこで、第2の手法を用いると、語句類似度S2は低いと判断されるため、文字列位置情報の二層目の見出し要素名「見積」と、1つ上層の三層目の分類要素名「相見積」と、の語句類似度を算出することになる。すると、「相見積」と「見積」との語句の差異は「相」だけであるため語句類似度(例えば>80)は高いと判断されるので、当該語句類似度が語句類似度S2の値となる。そして、語句類似度S1(=100)と語句類似度S2(>80)との平均値である類似度Svは高いと判断される。このように、図5に示す「X社」ディレクトリのようなユーザの都合により作成された、「見積書」とは直接関連性のないディレクトリを含む場合であっても、当該ディレクトリをスキップすることで広範囲での類似度の判断を行うことができる。

0039

また、類似度の判断を行うための第3の手法として、文字列位置情報に含まれる見出し要素のうち1または複数の見出し要素を抽出して類似度の判断の対象としてもよい。具体的には、例えば、文字列位置情報に含まれる複数の見出し要素のうち、最上層から順に1または複数の見出し要素を抽出して文字列位置情報とする。例えば、文字列位置情報に含まれる見出し要素数が格納場所情報に含まれる分類要素数より多い場合に、当該分類要素数と同数の見出し要素を抽出することとしてもよい。文字列位置情報の上層の見出し要素は、例えば章、節といった大見出しであるためその見出し要素名を分類要素名に使用する可能性は高く、上層の見出し要素を抽出することで類似度の判断を容易にすることが期待できる。なお、同様にして、格納場所情報に含まれる複数の分類要素のうちから1または複数の分類要素を抽出して類似度の判断の対象としてもよい。

0040

なお、類似度判断部205は、上述した第1の手法、第2の手法、及び第3の手法のいずれかを用いてもよいし、組み合わせて用いてもよい。また、第1の手法を用いて類似度が高いと判断された格納場所情報と、第2の手法、第3の手法を用いて類似度が高いと判断された格納場所情報と、を類似度の算出精度の違いにより区別してもよい。

0041

表示部206は、類似度判断部205により類似度Svが高いと判断された格納場所情報に対応する電子情報を電子情報管理サーバ20から取得してユーザインタフェース部に表示出力する。このとき、第1の手法を用いて類似度Svが100と判断された格納場所情報に対応する電子情報と、それ以外の手法を用いて類似度Svが高いと判断された格納場所情報に対応する電子情報と、の表示を異ならせる。また、第2の手法、第3の手法を用いて類似度Svが高いと判断された格納場所情報に対応する電子情報は、類似度の算出精度が低いことを示して表示することとしてもよい。

0042

なお、本発明は上述の実施形態に限定されるものではない。

0043

例えば、上述の実施形態において情報処理装置10により実行される機能をマニュアル管理サーバ20または電子情報管理サーバ30で実行されることとしてもよい。また、情報処理装置10、マニュアル管理サーバ20、及び電子情報管理サーバ30を別体の装置である例について示したが、これらは一体の装置であってもよい。

0044

10情報処理装置、20マニュアル文書管理サーバ、30電子情報管理サーバ、200 マニュアル文書取得部、201文字列取得部、202 電子情報抽出部、203格納場所情報取得部、204文字列位置情報取得部、205類似度判断部、206 表示部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ