図面 (/)

技術 情報処理方法及び装置並びに組織名規範化方法及び装置

出願人 富士通株式会社
発明者 ジャン・シュ孟遥于浩
出願日 2014年7月1日 (4年4ヶ月経過) 出願番号 2014-135784
公開日 2015年1月19日 (3年10ヶ月経過) 公開番号 2015-011723
状態 未査定
技術分野 検索装置 特定用途計算機
主要キーワード サブ組織 内部組織構造 追加ユニット 計算機科学 別名情報 特徴記述 XML文法 サポートベクタ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2015年1月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

情報処理方法及び装置並びに組織規範化方法及び装置を提供する。

解決手段

該情報処理方法は、組織名の語義特徴に基づいて、前記組織名を複数等級サブ組織名に分解する組織名分解ステップ;前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベース構築する組織名記憶ステップを含む。

概要

背景

従来の文献管理分野では、各刊行物会議などの、文献の著者組織名の書き方への要求が異なるので、同じ組織については各種の異なる書き方がある可能性もある。これによって、組織名の書き方が非規範的になり、文献の統一管理及び文献検索に不便をもたらすことがある。これらの非規範的なものは、組織名の改名及び別名、組織名の等級の違い及び組織名の書き方の形式フォーマット)の違いなどによるものを含んでもよいが、これら限定されない。

概要

情報処理方法及び装置並びに組織名規範化方法及び装置を提供する。該情報処理方法は、組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベース構築する組織名記憶ステップを含む。

目的

本発明は、情報処理及びwebサービス分野に関し、特に、組織(organization)名データベースを構築するための情報処理方法及び装置、並び、該データベースを用いて組織名に対して規範化(標準化)を行い、文献の統一管理及び高速検索に便利な組織名規範化方法及び装置を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

情報処理方法であって、組織名の語義特徴に基づいて、前記組織名を複数等級サブ組織名に分解する組織名分解ステップ;前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベース構築する組織名記憶ステップを含む、方法。

請求項2

請求項1に記載の情報処理方法であって、前記組織名記憶ステップでは、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、方法。

請求項3

請求項2に記載の情報処理方法であって、前記語義方式は、リソースディスクリプションフレームワークの方式を含む、方法。

請求項4

請求項1に記載の情報処理方法であって、前記隷属関係分析ステップでは、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源を検索し、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、方法。

請求項5

情報処理装置であって、組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ユニット;前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ユニット;及び、前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む、装置。

請求項6

組織名規範化方法であって、文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、請求項1〜4中の任意の1項に記載の情報処理方法により構築されたデータベースを使用し、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ステップを含む、方法。

請求項7

請求項6に記載の方法であって、前記組織名規範化ステップでは、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、方法。

請求項8

請求項6に記載の方法であって、前記組織名規範化ステップでは、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方形式に対して規範化を行う、方法。

請求項9

請求項6に記載の方法であって、さらに、前記データベースに前記著者組織名の情報が含まれていない場合、請求項1〜4中の任意の1項に記載の情報処理方法を用いて、前記著者組織名にたして処理を行い、所定条件満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ステップを含む、方法。

請求項10

組織名規範化装置であって、文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、付記1〜4中の任意の1項に記載の情報処理方法によって構築されたデータベースを用いて、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ユニットを含む、装置。

技術分野

0001

本発明は、情報処理及びwebサービス分野に関し、特に、組織(organization)名データベース構築するための情報処理方法及び装置、並び、該データベースを用いて組織名に対して規範化(標準化)を行い、文献の統一管理及び高速検索に便利な組織名規範化方法及び装置を提供することに関する。

背景技術

0002

従来の文献管理分野では、各刊行物会議などの、文献の著者組織名の書き方への要求が異なるので、同じ組織については各種の異なる書き方がある可能性もある。これによって、組織名の書き方が非規範的になり、文献の統一管理及び文献検索に不便をもたらすことがある。これらの非規範的なものは、組織名の改名及び別名、組織名の等級の違い及び組織名の書き方の形式フォーマット)の違いなどによるものを含んでもよいが、これら限定されない。

発明が解決しようとする課題

0003

上述に鑑みて、本発明の目的は、組織名データベースを構築するための情報処理方法及び装置、並びに、該データベースを用いて組織名に対して規範化を行う組織名規範化方法及び装置を提供することにある。

課題を解決するための手段

0004

本発明の一側面によれば、情報処理方法が提供され、該方法は、
組織名の語義特徴に基づいて、組織名を複数等級のサブ組織名に分解する組織名分解ステップ
複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を取得する隷属関係分析ステップ;
公開情報資源を利用し、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む。

0005

本発明の好適な実施例によれば、組織名記憶ステップでは、語義方式で、組織名及び内部組織構造関係及び同等関係を記憶する。

0006

本発明の他の好適な実施例によれば、語義方式は、リソースディスクリプションフレームワークの方式を含んでもよい。

0007

本発明の他の好適な実施例によれば、隷属関係分析ステップでは、複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を利用し、公開情報資源をサーチ(検索)して隷属関係を取得し、また、組織の内部組織構造関係を取得する。

0008

本発明の他の側面によれば、情報処理装置がさらに提供され、該情報処理装置は、
組織名の語義特徴に基いづて、組織名を複数等級のサブ組織名に分解する組織名分解ユニット
複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット
公開情報資源を利用し、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む。

0009

本発明の他の側面によれば、組織名規範化方法がさらに提供され、該組織名規範化方法は、
文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
本発明の実施例に記載の情報処理方法により構築されたデータベースを用いて、組織名に対して、所定ルールに符合するように、規範化を行う組織名規範化ステップを含む。

0010

本発明の好適な実施例によれば、組織名規範化ステップでは、データベースにおける内部組織構造関係及び/又は文献の著者情報に基づいて、著者組織名に含まれる複数等級のサブ組織名の等級に対して規範化を行う。

0011

本発明の他の好適な実施例によれば、組織名規範化ステップでは、データベースを用いて、組織名の間の文字差別情報及び文献の著者情報に基づいて、著者組織名の書き方の形式に対して規範化を行う。

0012

本発明の他の好適な実施例によれば、組織名規範化方法はさらに、データベースに著者組織名の情報が含まれれていない場合、本発明の実施例に記載の情報処理方法により、著者組織名に対して処理を行い、所定条件満足する時に、該著者組織名の情報をデータベースに追加する組織名追加ステップを含む。

0013

本発明の他の側面によれば、組織名規範化装置がさらに提供され、該組織名規範化装置は、
文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
本発明の実施例に記載の情報処理方法により構築されたデータベースを用いて、組織名に対して、所定ルールに符合するように規範化を行う組織名規範化ユニットを含む。

0014

本発明の他の側面によれば、記憶媒体がさらに提供され、該記憶媒体は、コンピュータ可読プログラムを記憶しており、情報処理装置において該プログラムを実行する時に、該プログラムは、情報処理装置に、本発明の情報処理方法を実行させる。

0015

本発明の他の側面によれば、コンピュータ可読プログラムがさらに提供され、該プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において該命令を実行する時に、該命令は、情報処理装置に、本発明の情報処理方法を実行させる。

0016

本発明の他の側面によれば、記憶媒体がさらに提供され、該記憶媒体は、コンピュータ可読プログラムを含み、情報処理装置において該プログラムを実行する時に、該プログラムは、情報処理装置に、本発明の組織名規範化方法を実行させる。

0017

本発明の他の側面によれば、コンピュータ可読プログラムがさらに提供され、該プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において該命令を実行する時に、該命令は、情報処理装置に、本発明の組織名規範化方法を実行させる。

0018

本発明の実施例によれば、機械学習方法を導入して組織名に対して分解を行い、公開情報資源を利用して、分解により得られたサブ組織名の間の隷属関係及び組織名の間の同等関係(即ち、改名、別名などの情報)を分析し、及び、語義方式(例えば、リソース・ディスクリプション・フレームワーク(RDF)の方式)で組織名及びこれらの関係情報を記憶することで組織名データベースを構築し、また、該データベースを用いて文献の著者組織名に対して規範化を行い、これにより、文献の統一管理及び高速且つ正確な検索に便利な情報処理方法及び装置並びに組織名規範化方法及び装置を提供することができる。

図面の簡単な説明

0019

本発明の実施例における情報処理方法のフローチャートである。
本発明の実施例における情報処理装置の機能ブロック図である。
本発明の実施例における組織名規範化方法のフローチャートである。
本発明の他の実施例における組織名規範化方法のフローチャートである。
本発明の実施例における組織名規範化装置の機能ブロック図である。
本発明の他の実施例における組織名規範化装置の機能ブロック図である。
本発明の実施例に用いる情報処理装置としてのパソコン構成ブロック図である。

実施例

0020

以下、図1〜図7を参照しながら、本発明の実施例における、組織名データベースを構築するための情報処理方法及び装置、並びに、該データベースを利用して組織名に対して規範化を行う組織名規範化方法及び装置を詳しく説明する。

0021

先ず、図1に基づいて本発明の実施例における情報処理方法を説明する。図1は、本発明の実施例における情報処理方法のフローチャートである。

0022

図1に示すように、本発明の実施例における情報処理方法100は、組織名分解ステップS110、隷属関係分析ステップS120、同等関係分析ステップS130、及び、組織名記憶ステップS140を含んでもよい。次に、各ステップにおける処理を詳細に紹介する。

0023

先ず、組織名分解ステップS110では、組織名の語義特徴に基づいて、該組織名を複数等級のサブ組織名を分解する。

0024

具体的に、組織名分解ステップS110では、先ず、従来の単語分け方法に基づいて、組織名に対して単語分けを行い、その後、例えば「Supervised Learning Method」のような機械学習方法を利用して、CRF(Conditional Random Field)に基づいてグループブロック情報識別し、そして、例えば、単語、位置、単語データベースに属するかどうか、前、後などの特徴に基づいて、組織名を複数等級のサブ組織名に分解する。次の表1には、組織名分解ステップS110に用いる特徴記述を示す。

0025

そのうち、組織名辞書は主に大学の名称からなり、具体的に名門大学(例えば、「中国Project 211」の大学又は「中国Project 985」の大学)からなり、地名辞書は、省、市、自治区、県などからなり、また、組織類の中心単語辞書は、大学の名称及びその組織機構の抽出により得られ、例えば、「大学」、「学院」、「系」、「研究所」、「中心」、「実験室」などであり、これらの情報は全て、事前既知の公開情報資源である。

0026

例えば、組織名である“京師範大学生命科学学院”について言えば、組織名分解ステップS110において例えば表1に示す語義特徴を用いてそれに対して処理を行うことによって得られた分解後の二つの等級のサブ組織名は、“北京師範大学”及び“生命科学学院”である。

0027

なお、上述の語義特徴は、例示的なものだけであり、本発明を限定するためのものではない。もちろん、当業者は、ニーズに応じて他の語義特徴を定義して組織名に対して分解を行ってもよい。

0028

次に、隷属関係分析ステップS120では、分解により得られた複数等級のサブ組織名の間の隷属関係を分析し、組織名に関する組織の内部組織構造関係を得る。

0029

なお、ここでの“隷属関係”とは、組織名の間の上下関係、例えば、上述の組織名である“北京師範大学生命科学学院”について言えば、“生命科学学院”が“北京師範大学”
に隷属することが分かる。

0030

好ましくは、隷属関係分析ステップS120では、所定の命名ルールに基づいて、複数等級のサブ組織名の間の隷属関係を取得し、且つ、該隷属関係に基づいて、組織の内部組織構造関係を形成してもよい。

0031

具体的には、通常の命名ルールに基づいて、左から右へと上下関係を取得することができる。少数の組織名の順序が逆である場合について、例えば、“教育部−微軟語言重点実験室哈尓濱工業大学”について、その組織名の分解結果は、“教育部−微軟語言重点実験室”及び“哈尓濱工業大学”である。この場合、頻度情報に基づいて閾値を設定し、この場合に対してフィルタリングを行ってもよく(何故なら、大部分の場合におけるライティング(書き)の順序が左から右へであり、即ち、“哈尓濱工業大学教育部−微軟語言重点実験室”のはずである)、又は、等級の包含関係(例えば、通常、「実験室」が大学に属するとのこと)に基づいて、この場合の順序が逆であると確定し、これによって、該組織名の正確な隷属関係が、“教育部−微軟語言重点実験室”が“哈尓濱工業大学”に属するとの隷属関係であることを得ることができる。よって、大量の文献情報に対して統計を行うことにより、該組織名に関する組織の内部組織構造関係を得ることができる。

0032

好ましくは、組織名の間の隷属関係をより正確に確定して組織の内部組織構造関係を構築するためには、本発明ではさらに、公開情報資源を利用して隷属関係を取得して内部組織構造関係を構築する方式を提案する。

0033

よって、好ましくは、隷属関係分析ステップS120ではさらに、複数等級のサブ組織名の内の、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて、公開情報資源をサーチし、複数等級のサブ組織名の間の隷属関係を取得し、そして、組織の内部組織構造関係を取得する。

0034

具体的に、例えば、第一級サブ組織名としての学校の名称を検索のための単語(キーワード)とし、例えば、学校のホームページ、http://www.wikipedia.org/、http://baike.baidu.com/などの公開情報資源を総合利用して検索を行い、これによって、組織名の間の上下関係を見つけ、該学校の名称が示す学校の内部組織構造関係を構築する。例えば、依然として、上述の組織名の“教育部−微軟語言重点実験室哈尓濱工業大学”を例とすると、それを分解することにより得られた第一級サブ組織名としての“哈尓濱工業大学”を以て、例えば、http://baike.baidu.com/にて検索し、そして、そのうちの“院系設置”によって哈尓濱工業大学の内部組織構造関係を得ることができる。

0035

その後、同等関係分析ステップS130では、公開情報資源を利用して組織名の間の同等関係を分析することができる。なお、ここでの「同等関係」とは、主に、組織名の別名情報、改名情報などを指す。

0036

好ましくは、同等関係分析ステップS130では、複数等級のサブ組織名の内の、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて公開情報資源をサーチし、これによって、組織名の間の同等関係を得ることができる。

0037

具体的に、第一級サブ組織名としての学校の名称を検索のための単語とし、例えば、学校のホームページ、http://www.wikipedia.org/、http://baike.baidu.com/などの公開情報資源を総合利用して検索を行い、出て来たウェーブページに対して「命名実体識別ツール」又はウェーブページにおけるリンク情報を用いて特定情報の抽取を行い、そのうちの出現している組織名称を学校の名称の改名情報及び/又は別名情報として抽出する。

0038

例えば、上述のサブ組織名である“哈尓濱工業大学”を以て検索を行い、学校のホームページにおける“学校概況”、“学校歴史”によって、その下の“校史概覧”情報を見つけることができる。同様に、http://baike.baidu.com/にて“哈尓濱工業大学”を以て検索すれば、“歴史沿”、“歴史”などの情報を得ることもできる。その後、ウェーブページにおける組織実体情報に対して、命名実体識別ツール又はウェーブページにおけるリンク情報を用いて提取を行い、例えば、“昇格”、“合併”、“改名”、“併入”、“合併組建”、“曽用名”などのキーワードと組み合わせて位置決めを行い、これによって、候補組織名情報を提供し、改名、別名の人的関与の処理プロセスに供する。

0039

上述からわかるように、従来技術における、全著者情報のみを利用して改名、別名などの情報に対して処理を行うことに比べ、公開情報資源を利用して検索を行い、例えば改名、別名など情報の組織名の同等関係を確保し、正確率を向上させることができる。

0040

次に、組織名記憶ステップS140では、組織名と、内部組織組織関係及び同等関係とを関連付けさせて記憶し、データベースを構築する。

0041

従来技術では、通常、関係データベースの方式で上述の情報を記憶するが、好ましくは、所定組織の内部各組織名の間の関係をより良く示すために、本発明では、語義方式で組織名、内部組織構造関係及び同等関係を記憶することを提案する。

0042

好ましくは、語義方式は、リソース・ディスクリプション・フレームワーク(RDF)の方式を含んでもよいが、これに限定されない。RDFは、XML文法及びRDFSを用いて元のデータをデータモデルとして記述する。

0043

先ず、本体ontologyを定義し、且つ、類別Classは、学校、分校、学院、系、中心、実験室などを含み、関係は、隷属(belongTo)、同等(sameAs)、別名などを含む。以下、RDFの方式で、組織名及びその内部組織構造関係及び同等関係を記憶する実現例を示す。そのうち、各実体について、唯一な同一資源識別子(URI)を与え、その後、該実体をコール(call)する時に該実体を唯一に識別するために便利である。

0044

RDF
xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:vcard=http://www.w3.org/2001/vcard-rdf/3.0#
xmlns:titech="http://www.tt.cs.titech.ac.jp/~fukatani/University/TITech.owl#belongTo">
//清華大学のURI識別子

清華大学

//清華大学計算機学院のURI

清華大学計算機学院
//清華大学計算機学院が清華大学に属する

//清華大学計算機学院abc実験室のURI

清華大学計算機学院abc実験室
//清華大学計算機学院abc実験室が清華大学計算機学院に属する



なお、RDFの方式で情報を記憶する場合、使用するのは構造化XMLデータであるので、情報検索は、よりスマート且つより正確になり、効率を大幅に向上させることができる。

0045

また、上述のRDFの方式は、組織名情報及びその内部組織構造関係及び同等関係を記憶するための例示的な好ましい方式のみであり、当業者は、この分野における他の方式を採用して情報の記憶を行ってよい。

0046

以上、図1に基づいて、組織名データベースを構築するための例示的な方式を説明したが、上述は、例示のためだけであり、本発明を限定するためではない。当業者は、本発明の原理に基づいて上述の処理プロセスの変形例を得ることができ、また、これらの変形例は全て、本発明の技術的範囲に属する。

0047

上述の情報処理方法に対応するように、本発明はさらに情報処理装置を提供する。以下、図2を参照しながら、本発明の実施例における情報処理装置の機能構成例を説明する。図2は、本発明の実施例における情報処理装置の機能ブロック図である。

0048

図2に示すように、本発明の実施例における情報処理装置200は、組織名分解ユニット210、隷属関係分析ユニット220、同等関係分析ユニット230及び組織名記憶ユニット240を含んでもよい。次に、各ユニットの機能構成例をそれぞれ詳しく説明する。

0049

組織名分解ユニット210は、組織名の語義特徴に基づいて、組織名を複数等級のサブ組織名に分解するために用いられる。

0050

隷属関係分析ユニット220は、複数等級のサブ組織名の間の隷属関係を分析し、該組織名に関する組織の内部組織構造関係を得るために用いられる。

0051

好ましくは、隷属関係分析ユニット220はさらに、所定の命名ルールに基づいて、複数等級のサブ組織名の間の隷属関係を取得し、そして、隷属関係に基づいて内部組織構造関係を構築するために用いられる。

0052

また、好ましくは、隷属関係分析ユニット220はさらに、複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて、公開情報資源をサーチして隷属関係を取得し、また、組織の内部組織構造関係を得るために用いられる。

0053

同等関係分析ユニット230は、公開情報資源を利用し、組織名の間の同等関係を分析するために用いられる。

0054

好ましくは、同等関係分析ユニット230は、複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、組織を示す第一級サブ組織名を用いて、公開情報資源をサーチし、組織名の間の同等関係を得るために用いられる。

0055

組織名記憶ユニット240は、組織名と、内部組織構造関係及び同等関係とを関連付けさせて記憶し、データベースを構築するために用いられる。

0056

好ましくは、組織名記憶ユニット240はさらに、語義方式で組織名及び内部組織構造関係及び同等関係を記憶するために用いられる。

0057

好ましくは、語義方式は、RDFに基づく方式を含む。

0058

なお、以上、図1に基づいて、組織名データベースを構築するための情報処理方法の詳細なプロセスを説明したが、該情報処理装置は、前述の方法の実施例に対応するものであるので、装置の実施例に未記述の部分については、方法の実施例中の対応する部分の紹介を参照することができるので、ここでは、詳しい説明を省略する。

0059

上述のように、各刊行物、雑誌、会議などの、著者組織名の書き方への要求が異なるので、同じ組織については異なる書き方がある可能性がある。“哈尓濱工業大学語言語音教育部−微軟重点実験室”を例とすると、異なる刊行物には、例えば、次のような書き方、即ち、“哈尓濱工業大学語言語音教育部−微軟重点実験室”、“哈尓濱工業大学計算機科学及び技術学院”、“哈尓濱工業大学、計算機科学及び技術学院”、“哈尓濱工業大学教育部、微軟語言語音重点実験室”、“教育部−微軟語言語音重点実験室哈尓濱工業大学”、“哈尓濱工業大学、語言語音教育部−微軟重点実験室”などの書き方がある。これらの組織名は、実質的に同じ組織を指すので、上述の組織名の書き方に対して規範化を行う必要があり、また、最終結果が“哈尓濱工業大学計算機科学及び技術学院語言語音教育部−微軟重点実験室”になることは所望である。

0060

よって、次に、図3〜図4を基に、本発明の実施例における情報処理方法によって構築されたデータベースを用いて、組織名に対して規範化を行う組織名規範化方法を説明する。

0061

図3は、本発明の実施例における組織名規範化方法のフローチャートである。

0062

図3に示すように、本発明の実施例の組織名規範化方法300は、組織名分解ステップS310及び組織名規範化ステップS320を含んでもよい。

0063

まず、組織名分解ステップS310では、文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解してもよい。具体的な組織名分解方法は、図1に基づいて説明した組織名分解ステップS110に用いる方法とは同じであるので、ここでは、詳しい説明を省略する。

0064

次に、組織名規範化ステップS320では、本発明の実施例に記載の情報処理方法によって構築されたデータベースを用いて、組織名に対して規範化を行い、所定ルールに符合するようにさせる。

0065

なお、以上、“哈尓濱工業大学語言語音教育部−微軟重点実験室”の場合を例としたが、ここでの組織名の非規範的場合は、使用する組織名の等級の違い及び書き方のフォーマットの違いによる非規範的なものを含んでもよいが、これらに限定されない。以下、この二つの場合についてそれぞれ詳しく説明する。

0066

好ましくは、使用する組織名の等級の違いによる非規範的なものについて、組織名規範化ステップS320では、データベースにおける内部組織構造関係及び/又は文献の著者情報を用いて、著者組織名に含まれる複数等級のサブ組織名の等級に対して規範化を行ってもよい。

0067

具体的に、上述の場合を例とすると、“語言語音教育部−微軟重点実験室”が“計算機科学及び技術学院”に属し、該情報は、データベースにおける内部組織構造関係により取得することができる。如何に、“哈尓濱工業大学計算機科学及び技術学院”の付けられている論文が“哈尓濱工業大学語言語音教育部−微軟重点実験室”からのものであると確定するかについては、論文中の全著者情報を用いて、共著者の名前、論文のタイトル、キーワード、分類番号などの特徴を抽出し、既知の二項分類器(例えば、ベイズ分類器、最大Entropy分類器、又は、サポートベクタ分類器など)を用いて、両者が同じ組織を指すかを判定する。また、簡単なルールに基づく方法で判定してもよく、例えば、2つの論文が、所定人数を超えた同じ著者を含み且つ同一組織の名称のみを含む場合、この2つの組織には関係があると判定でき、また、具体的な関係の種類については、内部組織構造関係に基づいて確定されてもよい。

0068

また、好ましくは、書き方のフォーマットの違いによる非規範的なものについて、組織名規範化ステップS320では、データベースを用いて、組織名の間の文字差別情報及び文献の著者情報に基づいて、著者組織名の書き方の形式に対して規範化を行う。

0069

具体的に、例えば、“教育部−微軟語言語音重点実験室”、“語言語音教育部−微軟重点実験室”及び“教育部、微軟語言語音重点実験室”について言えば、先ず、2つの候補組織名称の間の異なる字の数が、所定の字数(例えば、2つの字(符号を含まず))の範囲にあれば、このような場合の2つの組織名について、さらに、二者が同じ組織を指すかを判定する。具体的な方法は、上述の場合についての方法と類似し、即ち、論文中の全著者の情報に基づいて、共著者の名前、論文のタイトル、キーワード、分類番号などの特徴を抽出し、既知の二項分類器を用いて、両者が同じ組織を指すかを判定する。また、簡単なルールに基づく方法を用いてもよく、例えば、2つの論文が、所定人数を超えた同じ著者を含む且つ同じ組織名称のみを含む場合、この2つの組織名が同じ組織を指すと判定してもよい。

0070

以上、上述の2つの場合のみによる組織名の非規範なものについて説明したが、その以外の場合についても、当業者は、本発明の原理に基づいて、既存のデータベースを用いて、組織名に対して規範化を行うことがもちろんできる。

0071

次に、図4を基に、本発明の他の実施例における組織名規範化方法を説明する。図4は、本発明の他の実施例における組織名規範化方法のフローチャートである。

0072

図4に示すように、本発明の他の実施例における組織名規範化方法400は、組織名分解ステップS410、組織名規範化ステップS420及び組織名追加ステップS430を含んでもよい。そのうち、組織名分解ステップS410及び組織名規範化ステップS420は、図3に基に説明した組織名分解ステップS310及び組織名規範化ステップS320とは同じであるため、ここでは、詳しい説明を省略する。以下、組織名追加ステップS430における処理を詳しく説明する。

0073

組織名追加ステップS430では、データベースに該著者組織名の情報が含まれていない場合、図1に基づいて記載した情報処理方法によって著者組織名に対して処理を行い、所定条件を満足する時に、著者組織名の情報をデータベースに追加する。

0074

好ましくは、該所定条件は、著者組織名の出現回数所定閾値よりも大きいとのことを含む。これは、データベースを頻繁に更新して、処理負荷を増加させることを防ぐためである。

0075

上述の組織名規範化方法に対応するように、構築された組織名データベースを用いて組織名を規範化する組織名規範化装置が更に提供される。

0076

図5は、本発明の実施例における組織名規範化装置の機能ブロック図である。

0077

図5に示すように、本発明の実施例における組織名規範化装置500は、組織名分解ユニット510及び組織名規範化ユニット520を含む。以下、各ユニットの機能構成を詳しく説明する。

0078

組織名分解ユニット510は、文献の著者組織名の語義特徴に基づいて、著者組織名を複数等級のサブ組織名に分解するために用いられる。

0079

組織名規範化ユニット520は、本発明の実施例に記載の情報処理方法によって構築されたデータベースを用いて、組織名に対して規範化を行い、所定ルールに符合するようにさせる。

0080

好ましくは、組織名規範化ユニット520はさらに、データベースにおける内部組織構造関係及び/又は文献の著者情報を用いて、著者組織名に含まれる複数等級のサブ組織名の等級に対して規範化を行う。

0081

また、好ましくは、組織名規範化ユニット520はさらに、データベースを用いて、組織名の間の文字差別情報及び文献の著者情報に基づいて、著者組織名の書き方の形式に対して規範化を行う。

0082

なお、この組織名規範化装置は、前述の方法の実施例に対応するものであるので、装置の実施例に未記述の部分については、方法の実施例中の対応する部分の紹介を参照することができるため、ここでは、詳しい説明を省略する。

0083

次に、図6を基に、本発明の他の実施例における組織名規範化装置の機能構成例を説明する。図6は、本発明の他の実施例における組織名規範化装置の機能ブロック図である。

0084

図6に示すように、本発明の他の実施例における組織名規範化装置600は、組織名分解ユニット610、組織名規範化ユニット620及び組織名追加ユニット630を含んでもよい。そのうち、組織名分解ユニット610及び組織名規範化ユニット620は、図5に基づいて記載した組織名分解ユニット510及び組織名規範化ユニット520の機能構成とは同じであるので、ここでは、詳しい説明を省略する。以下、組織名追加ユニット630の機能構成を詳しく説明する。

0085

組織名追加ユニット630は、データベースに著者組織名の情報が含まれていない場合、図1に基づいて記載した情報処理方法を用いて著者組織名に対して処理を行い、そして、所定条件を満足する時に、著者組織名の情報をデータベースに追加するために用いられる。

0086

好ましくは、該所定条件は、著者組織名の出現回数が所定閾値よりも大きいとのことを含む。

0087

なお、以上において図5及び図6を基に記載した組織名規範化装置の機能構成は、例示的なものだけであり、本発明を限定するものでない。当業者は、上述の機能構成について変更することがもちろんできるが、このような変更によるものはすべて、本発明の技術的範囲に属する。

0088

また、上述の一連の処理及び装置は、ソフトウェアファームウェアハードウェア又はそれらの任意の組む合せの方式で実現されてもよい。ソフトウェア又はファームウェアにより実現する場合、まず、記憶媒体又はネットワークから、専用ハードウェア構造を有するマシン(例えば、図7に示す汎用マシン700)に該ソフトウェア又はファームウェアのプログラムをインストールし、それから、該マシンは、各種プログラムがインストールされている時に、上述のユニットやサブユニットの各種機能を実行することができる。

0089

図7は、本発明の実施例に用いる情報処理装置としてのパソコン(汎用マシン)700の構成ブロック図である
図7に示すように、中央処理ユニット(CPU)701が、リードオンリーメモリ(ROM)702に記憶されているプログラム、又は、記憶部708からランダムアクセスメモリ(RAM)703にロードされているプログラムに基づいて各種の処理を行う。RAM703は、ニーズに応じて、CPU701が各種の処理などを実行するときに必要なデータを記憶してもよい。CPU701、ROM702及びRAM703は、バス704を経由して互いに接続される。また、入力/出力インターフェース705もバス704に接続される。

0090

入力/出力インターフェース705には、入力部706(キーボードマウスなどを含む)、出力部分707(表示器例えばCRT、LCD、スピーカーなどを含む)、記憶部708(ハードディスクなどを含む)、及び通信部709(ネットワーク接続カード例えばLANカードモデムなどを含む)が接続される。通信部709は、ネットワーク例えばインターネットを経由して通信処理を行う。ドライブ710がニーズに応じて入力/出力インターフェース705に接続されてもよい。また、ニーズに応じて、取り外し可能な媒体711例えば磁気ディスク光ディスク光磁気ディスク半導体メモリなどをドライブ710にセットすることにより、その中から読み出しコンピュータプログラムを記憶部708にインストールしてもよい。

0091

ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体711から、このソフトウェアを構成するプログラムをインストールしてもよい。

0092

なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図7に示すような取り外し可能な媒体711に限定されない。取り外し可能な媒体711の例としては、磁気ディスク(フロッピー登録商標ディスクを含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM702、記憶部708に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。

0093

また、本発明は、マシン(例えば、コンピュータ)読取可能な命令コードからなるプログラムプロダクトにも関する。この命令コードは、マシンに読み取られて実行される時に、上述の実施例による方法を実行することができる。

0094

さらに、上述のマシン読取可能な命令コードからなるプログラムプロダクトを記憶している記憶媒体も本開示に含まれている。このような記憶媒体は、磁気ディスク(フロッピーディスク)、光ディスク、光磁気ディスク、メモリカードメモリメモリスティックなどを含むが、これらに限定されない。

0095

本発明の上述の実施例による方法は、明細書に記載の又は図面に図示の時間順序に従って実行することに限定されず、他の時間順序に従って、並列に又は独立して実行してもよい。よって、本明細書又は図面に記載の方法の実行順序は、本発明の技術範囲を限定しない。

0096

また、もちろん、本発明の上述の方法の各処理プロセスは、各種のマシン可読記憶媒体に保存のコンピュータ実行可能なプログラムの方式により実現されてもよい。

0097

また、本発明の目的は、上述の実行可能なプログラムコードを記憶している記憶媒体を直接又は間接にシステム又は設備に提供し、且つ、該系統又は設備中のコンピュータ又は中央処理ユニット(CPU)が上述のプログラムコードを読み出して実行させる方式で実現されてもよい。

0098

また、該系統又は設備はプログラムを実行する機能を有すれば、本発明の実施方式はプログラムに限定されず、また、該プログラムは他の任意の形式、例えば、オブジェクトプログラムインタープリター実行用プログラム、又は、オペレーティングシステム操作系統に提供するスクリプトプログラムなどであってもよい。

0099

上述のマシン可読記憶媒体は、各種の存儲器及び存儲ユニット、半導体装置ディスユニット例えば光、磁気及び光磁気ディス、及び他の任意の使用可能な情報記憶媒体などであってもよい。

0100

また、クライントコンピュータが、インターネットに接続されている所定のウェブサイトを経由して、本発明の上述の実施例によるコンピュータプログラムコードダウンロードし、コンピュータにインストールした後に、該プログラムを実行することにより、本発明を実現することもできる。

0101

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。

0102

(付記1)
情報処理方法であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ステップ;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を得る隷属関係分析ステップ;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ステップ;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ステップを含む、方法。

0103

(付記2)
付記1に記載の方法であって、
前記組織名記憶ステップでは、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、方法。

0104

(付記3)
付記2に記載の方法であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、方法。

0105

(付記)
付記1に記載の方法であって、
前記隷属関係分析ステップでは、所定の命名ルールに基づいて、前記複数等級のサブ組織名の間の隷属関係を取得し、前記隷属関係に基づいて前記内部組織構造関係を形成する、方法。

0106

(付記5)
付記1に記載の方法であって、
前記隷属関係分析ステップでは、前記複数等級のサブ組織名の内の、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、方法。

0107

(付記6)
付記1に記載の方法であって、
前記同等関係分析ステップでは、前記複数等級のサブ組織名の内の、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記同等関係を取得する、方法。

0108

(付記7)
情報処理装置であって、
組織名の語義特徴に基づいて、前記組織名を複数等級のサブ組織名に分解する組織名分解ユニット;
前記複数等級のサブ組織名の間の隷属関係を分析し、前記組織名に関する組織の内部組織構造関係を取得する隷属関係分析ユニット;
公開情報資源を用いて、組織名の間の同等関係を分析する同等関係分析ユニット;及び、
前記組織名と、前記内部組織構造関係及び前記同等関係とを関連付けさせて記憶し、データベースを構築する組織名記憶ユニットを含む、装置。

0109

(付記8)
付記7に記載の装置であって、
前記組織名記憶ユニットはさらに、語義方式で、前記組織名及び前記内部組織構造関係及び前記同等関係を記憶する、装置。

0110

(付記9)
付記8に記載の装置であって、
前記語義方式は、リソース・ディスクリプション・フレームワークの方式を含む、装置。

0111

(付記10)
付記7に記載の装置であって、
前記隷属関係分析ユニットはさらに、所定の命名ルールに基づいて、前記複数等級サブ組織名の間の隷属関係を取得し、前記隷属関係に基づいて前記内部組織構造関係を形成する、装置。

0112

(付記11)
付記7に記載の装置であって、
前記隷属関係分析ユニットはさらに、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記隷属関係を取得し、前記組織の内部組織構造関係を取得する、装置。

0113

(付記12)
付記7に記載の装置であって、
前記同等関係分析ユニットはさらに、前記複数等級のサブ組織名のうちの、所定ルールに基づいて確定された、前記組織を示す第一級サブ組織名を用いて、前記公開情報資源をサーチし、前記同等関係を取得する、装置。

0114

(付記13)
組織名規範化方法であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ステップ;及び、
付記1〜6中の任意の1項に記載の情報処理方法により構築されたデータベースを使用し、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ステップを含む、方法。

0115

(付記14)
付記7に記載の方法であって、
前記組織名規範化ステップでは、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、方法。

0116

(付記15)
付記7に記載の方法であって、
前記組織名規範化ステップでは、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、方法。

0117

(付記16)
付記7に記載の方法であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、付記1〜6中の任意の1項に記載の情報処理方法を用いて前記著者組織名に対して処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ステップを含む、方法。

0118

(付記17)
付記16に記載の方法であって、
前記所定条件は、前記著者組織名の出現回数が所定閾値よりも大きいとのことを含む、方法。

0119

(付記18)
組織名規範化装置であって、
文献の著者組織名の語義特徴に基づいて、前記著者組織名を複数等級のサブ組織名に分解する組織名分解ユニット;及び、
付記1〜6中の任意の1項に記載の情報処理方法によって構築されたデータベースを用いて、前記組織名に対して所定ルールに符合するように規範化を行う組織名規範化ユニットを含む、装置。

0120

(付記19)
付記18に記載の装置であって、
前記組織名規範化ユニットはさらに、前記データベースにおける内部組織構造関係及び/又は前記文献の著者情報に基づいて、前記著者組織名に含まれている複数等級のサブ組織名の等級に対して規範化を行う、装置。

0121

(付記20)
付記18に記載の装置であって、
前記組織名規範化ユニットはさらに、前記データベースを用いて、組織名の間の文字差別情報及び前記文献の著者情報に基づいて、前記著者組織名の書き方の形式に対して規範化を行う、装置。

0122

(付記21)
付記18に記載の装置であって、さらに、
前記データベースに前記著者組織名の情報が含まれていない場合、付記1〜6中の任意の1項に記載の情報処理方法を用いて、前記著者組織名に対して処理を行い、所定条件を満足する時に、前記著者組織名の情報を前記データベースに追加する組織名追加ユニットを含む、装置。

0123

(付記22)
付記21に記載の装置であって、
前記所定条件は、前記著者組織名の出現回数が所定閾値よりも大きいとのことを含む、装置。

0124

(付記23)
記憶媒体であって、
コンピュータ可読プログラムを含み、情報処理装置において前記プログラムを実行する時に、前記プログラムは、前記情報処理装置において付記1〜6中の任意の1項に記載の情報処理方法を実行させる、記憶媒体。

0125

(付記24)
コンピュータ可読プログラムであって、
前記プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において前記命令を実行する時に、前記命令は、前記情報処理装置に、付記1〜6中の任意の1項に記載の情報処理方法を実行させる、プログラム。

0126

(付記25)
記憶媒体であって、
コンピュータ可読プログラムを含み、情報処理装置において前記プログラムを実行する時に、前記プログラムは、前記情報処理装置に、付記7〜17中の任意の1項に記載の組織名規範化方法を実行させる、記憶媒体。

0127

(付記26)
コンピュータ可読プログラムであって、
前記プログラムは、コンピュータ実行可能な命令を含み、情報処理装置において前記命令を実行する時に、前記命令は、前記情報処理装置に、付記7〜17中の任意の1項に記載の組織名規範化方法を実行させる、プログラム。

0128

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

  • ヤフー株式会社の「 決定装置、決定方法、及び決定プログラム」が 公開されました。( 2018/09/27)

    【課題】ユーザに対してユーザの移動の妨害に応じた適切な広告配信を可能にする。【解決手段】本願に係る決定装置は、取得部と、決定部とを有する。取得部は、ユーザの位置情報と、ユーザが位置するエリアにおいて発... 詳細

  • ヤフー株式会社の「 付与装置、付与方法および付与プログラム」が 公開されました。( 2018/09/27)

    【課題】利用者の意図に沿ったナレッジベースの検索を実現する。【解決手段】本願に係る付与装置は、第1要素と第2要素と要素間の関係を示す関係情報とを有する複数のトリプルを参照し、第1要素と第2要素とを抽出... 詳細

  • ヤフー株式会社の「 分類装置、分類方法および分類プログラム」が 公開されました。( 2018/09/27)

    【課題】発話の分類精度を向上させる。【解決手段】本願に係る分類装置は、内容に応じて発話を分類する複数の分類モデルであって、それぞれ学習手法が異なる分類モデルのいずれかを用いて、利用者から受付けた発話を... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ