図面 (/)

技術 データ出力装置、データ出力方法およびデータ出力プログラム

出願人 日本電気株式会社
発明者 門馬道也森永聡
出願日 2010年5月28日 (10年7ヶ月経過) 出願番号 2010-122967
公開日 2011年12月8日 (9年0ヶ月経過) 公開番号 2011-248740
状態 特許登録済
技術分野 検索装置
主要キーワード 類似度計算式 初期行列 距離計量 データ分析装置 損失関数 正規化関数 次計画問題 データ出力プログラム
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2011年12月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

属性が異なるデータ間の類似度を計算するための類似度計算式更新し、更新結果に応じてデータを出力するためのデータ出力装置を提供する。

解決手段

データベース10が、複数の異なる属性のデータと、各データ間の類似度を計算するための類似度計算式とを記憶する。データ抽出手段20が、入力されたキーワードに応じたデータをデータベース10から抽出する。データ出力手段30が、データ抽出手段20が抽出したデータを出力する。フィードバック情報入力手段40が、データ出力手段30が出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力する。類似度更新手段50が、フィードバック情報にもとづいて、記憶されているデータと入力されたキーワードとの間の類似度を計算するための類似度計算式を更新してデータベース10に記憶する。

概要

背景

ユーザの操作に応じて予め登録されている複数のデータの間の類似度更新する、つまりデータの類似度を学習するシステムがある。特許文献1には、データの間の類似度として、ユーザの操作にもとづいてデータ空間の計量を学習するシステム(つまり、ユーザの操作に応じて、ある空間におけるデータ間の距離を更新するシステム)が記載されている。特許文献1に記載されたシステムは、ユーザの操作に応じた情報を入力するフィードバック入力装置、計量学習装置、および最適化された計量を適用したデータ分析装置などから構成されている。

特許文献1に記載されたシステムは次のように動作する。ユーザの指示に応じて、データ分析として、例えば文書クラスタリング分類)を行う場合に、当該システムは、まず、最適化されていない計量を用いて文書の分析を行い、分析結果を出力する。

ユーザによって分析結果が参照され、さらに操作が行われた場合に、フィードバック入力装置は、ユーザによって行われた操作に応じた情報を計量学習装置が扱うことのできる形に変換する。計量学習装置は、計量学習を実行する。また、特許文献1に記載されたシステムは能動学習機能を有する。これによりシステムからユーザに、計量学習において学習結果に影響を与えるような重要な情報提示を行い、フィードバックの生成や計量学習の効率を上げる。

ユーザによって行われた操作に応じて与えられるフィードバックの種類は、計量学習の方法に直結する。特許文献1に記載されたシステムでは、Mahalanobis行列を最適化する場合に、Mahalanobis距離に関するフィードバック(データ間の距離を遠ざける、近づけるなど)や、行列要素属性重要度属性間関連度)についての直接のフィードバックなどが用いられる。

非特許文献1にはフィードバックの種類が3つの組みのデータである場合に、計量学習を行う方法が記載されている。フィードバックは、3点間の類似度、非類似度に対して与えられる。計量はMahalanobis行列で定義される。非特許文献1には、分類モデル構築する場合に、複数のMahalanobis行列を用いると、分類精度が向上することが記載されている。

非特許文献2には、画像検索の際にユーザのクエリに応じた画像を抽出する際に、距離計量ではなく、類似度を学習し、画像抽出の精度を向上させるシステムが記載されている。

概要

属性が異なるデータ間の類似度を計算するための類似度計算式を更新し、更新結果に応じてデータを出力するためのデータ出力装置を提供する。データベース10が、複数の異なる属性のデータと、各データ間の類似度を計算するための類似度計算式とを記憶する。データ抽出手段20が、入力されたキーワードに応じたデータをデータベース10から抽出する。データ出力手段30が、データ抽出手段20が抽出したデータを出力する。フィードバック情報入力手段40が、データ出力手段30が出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力する。類似度更新手段50が、フィードバック情報にもとづいて、記憶されているデータと入力されたキーワードとの間の類似度を計算するための類似度計算式を更新してデータベース10に記憶する。

目的

本発明は、異なる属性のデータの間の類似度を計算するための類似度計算式を更新し、更新結果に応じてデータを出力するためのデータ出力装置、データ出力方法およびデータ出力プログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力するデータ出力装置であって、複数の異なる属性のデータと、各データ間の類似度を計算するための類似度計算式とを記憶するデータベースと、前記入力されたキーワードに応じたデータを前記データベースから抽出するデータ抽出手段と、前記データ抽出手段が抽出したデータを出力するデータ出力手段と、前記データ出力手段が出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力するフィードバック情報入力手段と、前記フィードバック情報入力手段が入力したフィードバック情報にもとづいて、前記データベースに記憶されているデータと前記入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式を前記データベースに記憶する類似度更新手段とを備え、前記データ抽出手段は、前記データベースに記憶されている類似度計算式であって、前記キーワードに応じた類似度計算式の計算結果にもとづいて、前記キーワードに応じたデータを抽出することを特徴とするデータ出力装置。

請求項2

類似度更新手段は、フィードバック情報入力手段が入力したフィードバック情報によって示されるユーザによって選択操作がなされたデータと、入力されたキーワードとの間の類似度を計算するための類似度計算式を更新する請求項1記載のデータ出力装置。

請求項3

データ抽出手段は、データベースに記憶されている類似度計算式を用いて、入力されたキーワードにもとづくベクトルとユーザによって選択操作がなされたデータにもとづくベクトルとを線形変換し、線形変換後のベクトルの内積によって示される各データ間の類似度を計算し、類似度更新手段は、前記類似度計算式において、前記入力されたキーワードにもとづくベクトルと、フィードバック情報によって示される前記ユーザによって選択操作がなされたデータにもとづくベクトルとを、それぞれのベクトルに応じて線形変換するための行列を更新する請求項1または請求項2記載のデータ出力装置。

請求項4

データベースは、属性がグラフのデータと属性が文書のデータとを含む複数の複合データを記憶し、前記データベースに記憶されている前記複数の複合データに含まれる前記グラフのデータと前記文書のデータとの組のうち、所定の条件を満たす組のデータを類似するデータであると設定する類似組設定手段を含み、類似度更新手段は、前記類似組設定手段によって類似するデータであると設定された組に含まれるデータの間の類似度を計算するための類似度計算式を更新する請求項1から請求項3のうちいずれか1項記載のデータ出力装置。

請求項5

データベースは、属性がグラフのデータと属性が文書のデータとを含む複数の複合データを記憶し、フィードバック情報入力手段が入力したフィードバック情報にもとづいて、入力されたキーワードと、ユーザによって選択操作がなされたデータとの組のデータを類似するデータであると設定する類似組設定手段を含み、類似度更新手段は、前記類似組設定手段によって類似するデータであると設定された組に含まれるデータの間の類似度を計算するための類似度計算式を更新する請求項1から請求項3のうちいずれか1項記載のデータ出力装置。

請求項6

データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力するデータ出力方法であって、複数の異なる属性のデータと各データ間の類似度を計算するための類似度計算式とを記憶するデータベースから、前記入力されたキーワードに応じたデータを抽出し、抽出したデータを出力し、出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力し、入力したフィードバック情報にもとづいて、前記データベースに記憶されているデータと前記入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式を前記データベースに記憶し、新たにキーワードが入力された場合に、更新されて前記データベースに記憶されている類似度計算式であって、前記キーワードに応じた類似度計算式の計算結果にもとづいて、前記キーワードに応じたデータを抽出することを特徴とするデータ出力方法。

請求項7

コンピュータに、データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力させるためのデータ出力プログラムであって、コンピュータに、複数の異なる属性のデータと各データ間の類似度を計算するための類似度計算式とを記憶するデータベースから、前記入力されたキーワードに応じたデータを抽出するデータ抽出処理と、前記データ抽出処理で抽出したデータを出力するデータ出力処理と、前記データ出力処理で出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力するフィードバック情報入力処理と、前記フィードバック情報入力処理で入力したフィードバック情報にもとづいて、前記データベースに記憶されているデータと前記入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式を前記データベースに記憶する類似度更新処理とを実行させ、前記データ抽出処理で、前記データベースに記憶されている類似度計算式であって、前記キーワードに応じた類似度計算式の計算結果にもとづいて、前記キーワードに応じたデータを抽出させるためのデータ出力プログラム。

技術分野

0001

本発明は、データ間の類似度を計算するための類似度計算式更新し、更新結果に応じてデータを出力するためのデータ出力装置データ出力方法およびデータ出力プログラムに関する。

背景技術

0002

ユーザの操作に応じて予め登録されている複数のデータの間の類似度を更新する、つまりデータの類似度を学習するシステムがある。特許文献1には、データの間の類似度として、ユーザの操作にもとづいてデータ空間の計量を学習するシステム(つまり、ユーザの操作に応じて、ある空間におけるデータ間の距離を更新するシステム)が記載されている。特許文献1に記載されたシステムは、ユーザの操作に応じた情報を入力するフィードバック入力装置、計量学習装置、および最適化された計量を適用したデータ分析装置などから構成されている。

0003

特許文献1に記載されたシステムは次のように動作する。ユーザの指示に応じて、データ分析として、例えば文書クラスタリング分類)を行う場合に、当該システムは、まず、最適化されていない計量を用いて文書の分析を行い、分析結果を出力する。

0004

ユーザによって分析結果が参照され、さらに操作が行われた場合に、フィードバック入力装置は、ユーザによって行われた操作に応じた情報を計量学習装置が扱うことのできる形に変換する。計量学習装置は、計量学習を実行する。また、特許文献1に記載されたシステムは能動学習機能を有する。これによりシステムからユーザに、計量学習において学習結果に影響を与えるような重要な情報提示を行い、フィードバックの生成や計量学習の効率を上げる。

0005

ユーザによって行われた操作に応じて与えられるフィードバックの種類は、計量学習の方法に直結する。特許文献1に記載されたシステムでは、Mahalanobis行列を最適化する場合に、Mahalanobis距離に関するフィードバック(データ間の距離を遠ざける、近づけるなど)や、行列要素属性重要度属性間関連度)についての直接のフィードバックなどが用いられる。

0006

非特許文献1にはフィードバックの種類が3つの組みのデータである場合に、計量学習を行う方法が記載されている。フィードバックは、3点間の類似度、非類似度に対して与えられる。計量はMahalanobis行列で定義される。非特許文献1には、分類モデル構築する場合に、複数のMahalanobis行列を用いると、分類精度が向上することが記載されている。

0007

非特許文献2には、画像検索の際にユーザのクエリに応じた画像を抽出する際に、距離計量ではなく、類似度を学習し、画像抽出の精度を向上させるシステムが記載されている。

0008

国際公開第2009/104324号パンフレット

先行技術

0009

Kilian Q. Weinberger、Lawrence K. Saul、“Fast Solvers and Efficient Implementations for Distance Metric Learning”、ICML2008、pp.1160−1167
Gal Chechik、Uri Shalit、Varun Sharma、Samy Bengio、“An Online Algorithm for Large Scale Image Similarity Learning”、[online]、NIPS2009、[平成22年5月19日検索]、インターネット<URL:http://books.nips.cc/papers/files/nips22/NIPS2009_0844.pdf>

発明が解決しようとする課題

0010

しかし、特許文献1に記載されているシステム、非特許文献1に記載されている方法、および非特許文献2に記載されているシステムでは、データの属性が異なることが考慮されていない。従って、特許文献1に記載されているシステム、および非特許文献2に記載されているシステムでは、異なる属性のデータ間の距離を計量することができない。非特許文献1に記載されている方法では、異なる属性のデータ間の類似度を更新することができない。

0011

よって、特許文献1に記載されているシステム、および非特許文献2に記載されているシステムで更新される距離は、同一の属性のデータ間の距離に限定され、距離の更新の効率を高めることができない。また、非特許文献1に記載されている方法で更新される類似度は、同一の属性のデータ間の類似度に限定され、類似度の更新の効率を高めることができない。

0012

そこで、本発明は、異なる属性のデータの間の類似度を計算するための類似度計算式を更新し、更新結果に応じてデータを出力するためのデータ出力装置、データ出力方法およびデータ出力プログラムを提供することを目的とする。

課題を解決するための手段

0013

本発明によるデータ出力装置は、データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力するデータ出力装置であって、複数の異なる属性のデータと、各データ間の類似度を計算するための類似度計算式とを記憶するデータベースと、入力されたキーワードに応じたデータをデータベースから抽出するデータ抽出手段と、データ抽出手段が抽出したデータを出力するデータ出力手段と、データ出力手段が出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力するフィードバック情報入力手段と、フィードバック情報入力手段が入力したフィードバック情報にもとづいて、データベースに記憶されているデータと入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式をデータベースに記憶する類似度更新手段とを備え、データ抽出手段は、データベースに記憶されている類似度計算式であって、キーワードに応じた類似度計算式の計算結果にもとづいて、キーワードに応じたデータを抽出することを特徴とする。

0014

本発明によるデータ出力方法は、データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力するデータ出力方法であって、複数の異なる属性のデータと各データ間の類似度を計算するための類似度計算式とを記憶するデータベースから、入力されたキーワードに応じたデータを抽出し、抽出したデータを出力し、出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力し、入力したフィードバック情報にもとづいて、データベースに記憶されているデータと入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式をデータベースに記憶し、新たにキーワードが入力された場合に、更新されてデータベースに記憶されている類似度計算式であって、キーワードに応じた類似度計算式の計算結果にもとづいて、キーワードに応じたデータを抽出することを特徴とする。

0015

本発明によるデータ出力プログラムは、コンピュータに、データの間の類似度にもとづいて、入力されたキーワードに応じたデータを出力させるためのデータ出力プログラムであって、コンピュータに、複数の異なる属性のデータと各データ間の類似度を計算するための類似度計算式とを記憶するデータベースから、入力されたキーワードに応じたデータを抽出するデータ抽出処理と、データ抽出処理で抽出したデータを出力するデータ出力処理と、データ出力処理で出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力するフィードバック情報入力処理と、フィードバック情報入力処理で入力したフィードバック情報にもとづいて、データベースに記憶されているデータと入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式をデータベースに記憶する類似度更新処理とを実行させ、データ抽出処理で、データベースに記憶されている類似度計算式であって、キーワードに応じた類似度計算式の計算結果にもとづいて、キーワードに応じたデータを抽出させることを特徴とする。

発明の効果

0016

本発明によれば、異なる属性のデータの間の類似度を計算するための類似度計算式を統一的に更新するので、データ検索結果などのデータ出力の精度を効率よく高めることができる。

図面の簡単な説明

0017

本発明による類似度学習装置の実施形態の構成例を示す説明図である。
類似度適用データベースに保存されているデータの例を示す説明図である。
フィードバック変換部の構成例を示す説明図である。
類似度学習装置の実現例を示す説明図である。
本実施形態の類似度学習装置の動作を示すフローチャートである。
本発明の概要を示すブロック図である。

0018

本発明による類似度学習装置100の実施形態について、図面を参照して説明する。図1は、本発明による類似度学習装置100の実施形態の構成例を示す説明図である。

0019

図1に示すように、本発明による類似度学習装置100は、フィードバック変換部200、類似度学習部300、および類似度適用データベース400を含み、ユーザインタフェース500に接続されている。

0020

類似度適用データベース400には、互いに類似している複数のデータの組、および非類似のデータの組が保存されている。図2は、類似度適用データベース400に保存されているデータの例を示す説明図である。図2に示す例では、類似度適用データベース400に、文書データxdi、xdj、およびxdkと、画像データxpi、xpj、およびxpkと、音声データxvi、xvj、およびxvkとが保存されていることが示されている。そして、図2には、文書データxdiと画像データxpiとが類似していることが示され、画像データxpkと音声データxviとが非類似であることが示され、音声データxvjと文書データxdjとが類似していることが示されている。また、図2には、文書データxdiと文書データxdkとが類似していることが示され、文書データxdiと文書データxdjとが非類似であることが示され、画像データxpiと画像データxpjとが非類似であることが示され、音声データxviと音声データxvkとが類似していることが示され、音声データxvjと音声データxvkとが非類似であることが示されている。以下、互いに類似するデータの組を類似組といい、互いに非類似のデータの組を非類似組という。

0021

なお、各データは、類似度適用データベース400において、属性に応じた属性空間に(表現で)保存されているとする。具体的には、図2に示すように、文書データxdi、xdj、およびxdkが文書空間に保存され、画像データxpi、xpj、およびxpkが画像空間に保存され、音声データxvi、xvj、およびxvkが音声空間に保存されているとする。

0022

図3は、フィードバック変換部200の構成例を示す説明図である。図3に示すように、フィードバック変換部200は、類似−非類似抽出部210と、類似−非類似選択部220とを含む。

0023

ユーザインタフェース500は、データの検索や分類のためにユーザによって入力されたキーワードを類似度適用データベース400に送信する。類似度適用データベース400は、ユーザインタフェース500によって送信されたキーワードに応じたデータをユーザインタフェース500に送信する。ユーザインタフェース500は、類似度適用データベース400が送信したデータを表示する。ユーザインタフェース500は、ユーザによってユーザインタフェース500に入力されたキーワードと、表示したデータに応じてユーザによってなされた選択操作とを示すフィードバックデータを類似度適用データベース400に送信する。類似度適用データベース400は、ユーザインタフェース500によって送信されたフィードバックデータを保存する。

0024

また、類似度適用データベース400は、ユーザインタフェース500によって送信されたフィードバックデータをフィードバック変換部200に入力する。フィードバック変換部200は、入力されたフィードバックデータに応じた類似組のデータの集合Sおよび非類似組のデータの集合Dを類似度適用データベース400から抽出する。フィードバック変換部200は、入力されたフィードバックデータと、類似度適用データベース400から抽出した集合Sおよび集合Dを類似度学習部300に入力する。

0025

類似度学習部300は、フィードバック変換部200が入力したフィードバックデータ、集合Sおよび集合Dにもとづいて、各データ間の類似度を計算するための類似度計算式を更新する。

0026

類似度学習部300の動作について説明する。ある空間aから別の空間へのデータxのマッピングを式(1)に定義する。
φa(xa)・・・式(1)
式(1)に示すように、あるデータxは、φの像空間マップされる。そして、異なる空間のデータである空間aのデータxiと空間bのデータxjとの間の類似度σab(xi,xj)は以下の式(2)で定義される。
σab(xi,xj)=σ(φa(xai),φb(xbj))・・・式(2)
ここで、xaiは、xiが空間aのデータであることを示し、xbjは、xjが空間bのデータであることを示している。また、σ(x,y)は2つのベクトル間の類似度を算出するための関数である。

0027

なお、データxi,xjがそれぞれ異なる空間のデータにもとづくベクトルであるとして式(1)および式(2)を用いてデータxiとデータxjとの間の類似度を定義したが、同じ空間のデータの間の類似度も、式(1)および式(2)を用いて定義してもよいし、異なる空間にある同じデータの間の類似度を式(1)および式(2)を用いて定義してもよい。

0028

式(1)に定義したマッピングの簡単な例に、線形変換がある。線形変換を用いた場合に、マッピングは以下の式(3)で示される
φa(xa)=Waxa・・・式(3)
そして、式(4)に示すように、データxとデータyとの類似度もマップされた空間における内積で定義できる。
σ(x,y)=xTy・・・式(4)

0029

式(3)および式(4)を用いると、式(2)に示す空間aのデータxiと空間bのデータxjとの間の類似度を計算するための類似度計算式を以下の式(5)で表すことができる。
σab(xi,xj)=σ(Waxai,Wbxbj)=xaiTWaTWbxbj・・・式(5)

0030

上述した各式を用いて、異なる空間のデータの間の類似度を計算するための類似度計算式の更新(類似度学習問題)は以下に示す式(6)の枠組みで定式化される。

0031

0032

式(6)において、要素が3つである集合Tの各要素のデータには、符号i、jまたはkが付されている。そして、iが付されたデータとjが付されたデータとの間の類似度は、iが付されたデータとkが付されたデータとの間の類似度よりも高い。また、Loss({ζ})は損失関数であり、Regularization({φ})は正規化関数であり、Cは損失関数と正規化関数との間のトレードオフを決定する定数であり、ζは、非負の変数である。正規化関数には、φの様々なノルムが用いられる。

0033

損失関数Loss({ζ})について説明する。損失関数Loss({ζ})は、以下に示す式(7)で定義される。

0034

ここで、Cijkは、予め与えられた定数である。

0035

式(7)において、loss(ζijk)は、スカラー量引数とするロス関数であり、一般のロス関数(例えば、ヒンジロス、2次ロス、およびL1ノルムロス)である。なお、loss(ζijk)がヒンジロスである場合の例を式(8)に示し、2次ロスである場合の例を式(9)に示す。
loss(ζijk)=ζijk+・・・式(8)
loss(ζijk)=ζijk2・・・式(9)
なお、式(8)におけるζijk+は、ζijkが負の値である場合に0となり、ζijkが正の値である場合にζijkとなる関数である。

0036

そして、類似度が組で与えられる場合に、類似度学習問題は、その組を用いて以下に示す式(10)で定式化される。

0037

0038

式(10)に示す式が用いられる場合のロス関数の例として、式(11)にヒンジロスの例を示し、式(12)に2次ロスの例を示す。
loss(ζij∈S)=(ζS−ζij)+
loss(ζij∈D)=(ζij−ζD)+
・・・(式11)
loss(ζij∈S)=(ζS−ζij)2
loss(ζij∈D)=(ζij−ζD)2
・・・(式12)

0039

式(11)および式(12)において、ζSおよびζDはユーザによって与えられる定数であり、ζSは類似組のデータの間の類似度を示す定数であり、ζDは非類似組のデータの間の類似度を示す定数である。

0040

類似度学習部300は、以上に述べた類似度学習問題を、類似度を決める関数や、損失関数、正則項の選択によって、線形計画問題や2次計画問題非線形計画問題として解くことができる。具体的には、類似度学習部300は、問題に応じて、一般の最適化問題ソルバや、公知の勾配法解法を用いて上記問題を解く。

0041

次に、マッピングに式(3)に示す線形変換を用い、類似度を式(5)に示す内積を用いて定義し、損失関数に式(11)に示すヒンジロスを用い、正規化関数にL2ノルムを用いた場合に、類似度学習部300が類似度学習問題を解決する(つまり式(5)に示す類似度を計算するための類似度計算式におけるWa,Wbを更新する)例について説明する。

0042

ここでは、空間aのデータxiと空間bのデータxjとの間の類似度を計算するための類似度計算式を更新する場合を例に説明する。なお、データxiは、ユーザによってユーザインタフェース500に入力されたキーワードであるとし、データxjは、類似度適用データベース400が記憶している画像のデータであるとする。

0043

そうすると、空間aのデータxiと空間bのデータxjとの間の類似度を計算するための類似度計算式を更新する類似度学習問題は式(13)のように示される。

0044

0045

そして、類似度学習部300は、式(13)に示す問題と同時に、同じ空間内のデータ間の類似度を計算するための類似度計算式を更新する類似度学習問題SubProblem(a,a)とSubProblem(b,b)とを解く。そして、各データ間全体の類似度を計算するための類似度計算式を更新する類似度学習問題は以下の式(14)のように示される。

0046

0047

類似度学習部300は、類似度学習問題SubProblem(a,a)およびSubProblem(b,b)の目的化関数の重み付き和を全体の目的化関数とし、すべての制約条件を満たすように式(14)に示す問題を解く。

0048

上述した制約条件の例として、所定のデータ間が類似していることが自明である場合に、当該所定のデータが類似していることとすることが考えられる。具体的には、同じ符号が付されたデータ間の類似度は、異なる符号が付されたデータ間の類似度よりも高いことを前提条件とし、当該前提条件を制約条件に用いる。

0049

類似度学習部300は、あるデータ間の類似度および信頼度が高い場合に、当該類似度および当該信頼度を用いて類似組または非類似組を生成して、データ間の類似度を計算するための類似度計算式の更新の精度を高めることができる。具体的には、例えば、新聞記事のように信頼度の高い媒体を用いて、当該媒体における文書のデータと当該文書の添付画像のデータとを含む類似組を生成し、生成した類似組を含む集合Sを用いてデータ間の類似度を計算するための類似度計算式を更新してもよい。

0050

なお、一般に、文書のデータと当該文書の添付画像のデータとの類似度が高い場合に、当該文書のデータおよび当該文書の添付画像のデータの信頼度は高いと考えられる。従って、類似度学習部300は、新聞記事のように信頼度の高い媒体を用いてデータ間の類似度を計算するための類似度計算式を更新した場合に、信頼度が高い類似組を生成することができる。

0051

また、類似度学習部300は、多量の文書と画像との組から、共起度などにもとづいて統計的に類似すると推定される類似組を抽出することができる。さらに、類似度学習部300は、例えば、文書と画像に付されたコメントとの単語の共起度にもとづいて、類似組を抽出することができる。そして、類似度学習部300は、抽出した類似組を含む集合Sを用いてデータ間の類似度を計算するための類似度計算式を更新してもよい。

0052

類似度学習部300は、ユーザによってウェブ検索イトに入力されたキーワードと、入力されたキーワードに応じて提示したウェブサイトのうち、ユーザによって選択操作がなされたウェブサイトを示す情報とにもとづいて、当該キーワードと当該ウェブサイトが提供する文書のデータや画像のデータとの間の類似度を計算するための類似度計算式を更新してもよい。

0053

類似度学習部300は、以下のように、フィードバックデータを抽出して類似度学習を高効率化することが考えられる。
(a)公知の数理計画法で用いられるように、制約条件を満たさないフィードバックデータを重点的に抽出する。具体的には式(15)を計算する。
σab(xi,xj)−σab(xi,xk)・・・式(15)
そして、計算結果の値が小さい順に、所定の数の組を抽出する。なお、全ての組について式(15)に示す計算を行うのではなく、例えば、ユーザによって指定された組(類似組のはずであるが類似度が低い組や、類似度が低いはずであるが現在の類似度(Wの初期値またはWを用いないで計算された内積を類似度として計算した結果)が高い組)を組み合わせて式(15)の計算結果の値が小さい組を抽出する。

0054

(b)公知の実験計画法を用いて類似組または非類似組を抽出し、抽出した組にもとづいて制約条件を生成する。

0055

(c)上述した(a)の方法および(b)の方法を組み合わせる。具体的には、(b)の方法で予め抽出した組に(a)の方法を適用して組を抽出したり、(a)の方法で抽出した組と、(b)の方法で抽出した組との和集合に含まれる組を抽出したりする。

0056

図4は、類似度学習装置100の実現例を示す説明図である。図4に示す例では、類似度学習装置100におけるフィードバック変換部200、および類似度学習部300はCPU(Central Processing Unit)101によって実現され、類似度適用データベース400は、ハードディスク106およびCPU101によって実現され、ユーザインタフェース500は、入出力インタフェース105によって実現される。また、そして、CPU101は、ROM102またはハードディスク106に記憶され、RAM103に一時的に記憶されたプログラムに従って処理を実行する。

0057

次に、図1に示す類似度学習装置100の動作について、図面を参照して説明する。図5は、本実施形態の類似度学習装置100の動作を示すフローチャートである。

0058

類似度適用データベース400は、自データベースに保存している類似組のデータおよび非類似組のデータに線形変換φを適用する(ステップS100)。なお、類似度適用データベース400は、初回のステップS100の処理で、全ての属性空間における最低次元への線形変換を行う。その場合、各空間のデータに次元圧縮を行うが、次元圧縮を行う場合には、固有値の大きい順に固有ベクトルを並べて、最低次元への変換を求める。

0059

なお、類似度適用データベース400は、後述するステップS500の処理で類似度学習部300によって類似度を計算するための類似度計算式が更新された場合に、更新された当該類似度計算式に応じた線形変換を類似組のデータおよび非類似組のデータに適用する。

0060

類似度適用データベース400は、ユーザによってユーザインタフェース500に入力されたキーワードに応じたデータを抽出して、ユーザインタフェース500に送信する(ステップS200)。そして、類似度適用データベース400は、ユーザインタフェース500によって送信されたキーワードと、ユーザによってなされた操作とを示すフィードバックデータを保存し、フィードバック変換部200に入力する(ステップS300)。

0061

フィードバック変換部200は、フィードバック変換部200は、入力されたフィードバックデータに応じた類似組のデータの集合Sおよび非類似組のデータの集合Dを類似度適用データベース400から抽出する(ステップS400)。フィードバック変換部200は、入力されたフィードバックデータと、類似度適用データベース400から抽出した集合Sおよび集合Dを類似度学習部300に入力する。

0062

類似度学習部300は、フィードバック変換部200によって入力された集合Sに含まれる類似組のデータおよび集合Dに含まれる非類似組のデータにもとづいて、類似度を計算するための類似度計算式を更新し、更新結果を類似度適用データベース400に保存する(ステップS500)。なお、類似度学習部300は、フィードバック変換部200が集合Sおよび集合Dを抽出する毎に類似度を計算するための類似度計算式を更新する処理を行ってもよいし、所定の時間間隔や、集合Sに含まれるデータの組および集合Dに含まれるデータの組のうち、予め決められた条件に合致する組を抽出して類似度を計算するための類似度計算式を更新する処理を行ってもよいし、予め決められたタイミング(例えば、予め決められた時刻)に定期的に類似度を計算するための類似度計算式を更新する処理を行ってもよい。

0063

本実施形態によれば、ユーザによって入力されたキーワードや操作結果に応じて各データの間の類似度を計算するための類似度計算式を更新し、更新した類似度計算式を用いてデータを出力することができる。

0064

また、本実施形態によれば、ユーザによってユーザインタフェース500に一の属性のキーワード(例えば、属性が文書である文字のキーワード)が入力された場合に、当該一の属性のデータおよび他の属性のデータとの類似度にもとづいて、複数の属性のデータを統一した順序で(例えば、文書の属性のデータ、画像の属性のデータ、および音声の属性のデータを区別することなく類似度の高い順序で)、出力することができる。

0065

さらに、本実施形態によれば、属性毎に類似度を計算するための類似度計算式を更新する場合に比べて、類似度を計算するための類似度計算式の更新効率を高めることができる。その理由は、属性毎に類似度を計算するための類似度計算式を更新する場合には、ある属性のデータが不足したりして、類似度を計算するための類似度計算式の更新が困難になる場合があるからである。本実施形態では、複数の異なる属性のデータを統一的に扱って類似度を計算するための類似度計算式を更新するので、そのような問題は生じない。

0066

また、本実施形態によれば、類似度学習部300は、複数の異なる属性のデータ間の類似度を計算する類似度計算式を用いるので、類似度学習問題の制約条件となる類似組および非類似組をより多く生成することができる。また、例えば、ユーザによって選択操作がなされる頻度が他の属性のデータよりも低い画像データと、他の属性のデータとの類似度を計算するための類似度計算式を、当該画像データに含まれている説明文等を用いて更新することができる。つまり、ユーザによって選択操作がなされる頻度が他の属性のデータよりも低いデータと他のデータとの類似度を計算するための類似度計算式を、高い効率で更新することができる。従って、本実施形態によれば、複数の異なる属性のデータ間の類似度を計算するための類似度計算式を更新するように構成されているので、一の属性のデータ間の類似度をそれぞれ計算する類似度計算式をそれぞれ更新する場合よりも、高い効率で類似度計算式を更新することができる。

0067

データ分析において、分析結果を示すグラフの説明文を自動的に生成したり、説明文を推薦したりするシステムに本発明による類似度学習装置を適用した実施例について説明する。

0068

(a)類似度学習
ユーザインタフェース500は、事前に類似度適用データベース400に、過去に作成された分析結果を示すグラフと当該グラフの説明文を含む複合データである分析レポートのデータを入力する。そして、類似度適用データベース400は、分析レポートや、当該分析レポートが掲載されたウェブサイトのデータを用いて、類似度学習部300によって既に更新された類似度計算式を記憶しているとする。

0069

類似度適用データベース400は、入力された分析レポートに含まれる説明文に公知の形態素解析の方法を適用して、当該説明文に含まれる文書を数値化(ベクトル表現化)する。また、類似度適用データベース400は、入力された分析レポートに含まれるグラフに公知の特徴量抽出方法を適用して、当該グラフを数値化(ベクトル表現化)する。

0070

フィードバック変換部200が、文書とグラフとの類似組および非類似組を生成する方法について説明する。まず、クリックログ(ユーザによってユーザインタフェース500になされた選択操作の履歴)を用いずに、文書とグラフとの類似組および非類似組を生成する方法について説明する。

0071

フィードバック変換部200は、分析レポートにおける説明文が文書単位(例えば、説明文の全体において、1文または1段落を文書単位としてもよいし、例えば、説明文の箇所に応じて、1文または1段落を文書単位としてもよい)で明示的にグラフの内容を引用している場合に、当該文書と明示的に内容を引用しているグラフとは類似しているとして、当該文書と当該グラフとを含む類似組を生成する。また、フィードバック変換部200は、当該文書が明示的に複数のグラフの内容を引用している場合に、当該文書と当該複数のグラフとを含む類似組を生成する。また、フィードバック変換部200は、当該複数のグラフを含む類似組を生成する。

0072

フィードバック変換部200は、分析レポートにおける説明文において、一の文書が明示的に引用しているグラフと、明示的に引用していないグラフとを含む非類似組を生成する。また、フィードバック変換部200は、当該一の文書と、他の文書、および当該他の文書が明示的に内容を引用しているグラフとを含む非類似組を生成する。

0073

フィードバック変換部200は、分析レポートにおけるグラフに含まれるコメントまたはタグと、当該グラフとを含む類似組を生成する。また、フィードバック変換部200は、一のグラフに含まれる複数のコメントを含む類似組を生成する。フィードバック変換部200は、一のグラフと他のグラフとを含む非類似組、および一のグラフと他のグラフに含まれるコメントまたはタグとを含む非類似組を生成する。

0074

入力された分析レポートにおける説明文にグラフの内容が引用されていない場合、分析レポートにおけるグラフにコメントやタグが対応付けられていない場合、または分析レポートにおけるグラフにコメントやタグが含まれていない場合に、フィードバック変換部200は、当該分析レポートにおいて貼り付けられた間の距離が所定の長さよりも短い文書とグラフまたは文書とを含む類似組を生成し、貼り付けられた間の距離が所定の長さよりも短い文書とグラフまたは文書とを含む非類似組を生成する。なお、フィードバック変換部200は、生成した類似組に距離に応じた類似度を設定してもよい。つまり、フィードバック変換部200は、距離が近い組の類似度を距離が遠い組の類似度よりも高く設定してもよい。また、フィードバック変換部200は、一の説明文における文書と他の説明文における文書およびグラフとを含む非類似組を生成し、一のグラフと他のグラフおよび他のグラフの内容を引用する文書とを含む非類似組を生成する。

0075

次に、クリックログを用いて、文書とグラフとの類似組および非類似組を生成する方法について説明する。フィードバック変換部200は、入力されたフィードバックデータに含まれるキーワードと、分析レポートに含まれる文書およびグラフのうち、ユーザによって選択操作がなされた文書またはグラフとを含む類似組を生成する。また、フィードバック変換部200は、入力されたフィードバックデータによって示されるキーワードと、分析レポートに含まれる文書およびグラフのうち、ユーザによって選択操作がなされなかった文書またはグラフとを含む非類似組を生成する。フィードバック変換部200は、入力されたフィードバックデータによって示されるユーザによってなされた操作にもとづいて、当該ユーザに連続して選択された分析レポートのそれぞれに含まれる文書およびグラフを含む類似組を生成する。そして、類似度学習部300は、フィードバック変換部200によって生成された類似組(具体的には、例えば、入力されたキーワードと選択操作がなされたデータ)を含む集合Sにもとづいて、類似度を計算するための類似度計算式を更新する。

0076

類似−非類似選択部220が、フィードバック変換部200(より具体的には、類似−非類似抽出部210)によって生成された類似組の集合および非類似組の集合から、ノイズ除去や類似度学習問題の解決の高効率化のために制約条件として扱う集合を選択する方法について説明する。

0077

1.方法1
線形変換の行列の初期値、または線形変換を用いない類似度(ベクトル間の内積またはベクトル間の内積をcosineのようにベクトルの長さで正規化した値)を用いて、一の分析レポートに含まれる文書間およびグラフ間の類似度が高い分析レポートの信頼度を高く設定する。そして、類似−非類似選択部220は、文書とグラフとの間の類似度が高い類似組に含まれる当該文書を含む類似組に含まれる文書と、当該類似組に含まれる当該グラフを含む類似組に含まれるグラフとの類似度を調べる。そして、類似−非類似選択部220は、調べた類似度が所定の値以上である類似度である場合に、調べた類似度が所定の値未満である場合に比べて、当該類似組の信頼度を高く設定する。また、類似−非類似選択部220は、文書とグラフとの間の類似度が低い非類似組に含まれる当該文書を含む非類似組に含まれる文書と、当該非類似組に含まれる当該グラフを含む非類似組に含まれるグラフとの類似度を調べる。そして、類似−非類似選択部220は、調べた類似度が所定の値未満である類似度である場合に、調べた類似度が所定の値以上である場合に比べて、当該非類似組の信頼度を高く設定する。そうすると、類似−非類似選択部220は、信頼度が高い類似組および非類似組を選択することが可能になる。

0078

2.方法2
類似−非類似抽出部210が、実験計画法を用いて、文書のデータの集合から重要な文書のデータを抽出する。また、類似−非類似抽出部210が、実験計画法を用いて、グラフ(画像であってもよい)のデータの集合から重要なグラフのデータを抽出する。類似−非類似抽出部210は、抽出した文書のデータとグラフのデータとの類似度を調べて、調べた類似度に応じて、文書のデータとグラフのデータとを含む類似組または非類似組を生成する。そして、類似−非類似選択部220は、上述した方法1を用いて信頼度を推定し、推定した信頼度が所定の値以上である類似組または非類似組を抽出する。なお、類似−非類似選択部220は、類似度を計算するための類似度計算式に予め信頼できる初期行列が与えられている場合に、上述した方法2を用いて、重要な文書とグラフとを含む類似組および非類似組を抽出することができる。また、類似−非類似選択部220は、上述した類似度学習部300が、フィードバックデータを抽出して類似度学習を高効率化する方法を用いて、類似組および非類似組を選択することができる。

0079

なお、ユーザによって選択操作がなされたグラフは、ユーザによって興味が持たれている、または重要であると推定されるので、類似−非類似選択部220は、当該グラフを含む類似組または非類似組を他の組に優先して選択する。

0080

類似度学習部300は、フィードバック変換部200が生成または選択した類似組または非類似組の類似度を学習する。そして、類似度学習部300は、類似度学習の結果(マッピングや線形変換)を類似度適用データベース400に保存する。

0081

(b)新規な分析レポートに含まれるグラフに対するコメントや文書の推薦
ユーザインタフェース500は、類似度適用データベース400に、新規な分析レポートのデータを入力する。そして、類似度適用データベース400は、入力された分析レポートに含まれるグラフの特徴ベクトルを抽出する。類似度適用データベース400は、抽出した特徴ベクトルにマッピングおよび線形変換を適用する。そして、類似度学習部300は、マッピングおよび線形変換を適用された当該特徴ベクトルと、入力された分析レポートに含まれている文書との類似度を計算する。データベース類似度適用部400は、計算結果の類似度が高い順に、ユーザインタフェース500に、文書を当該グラフの説明文に推薦する文書としてユーザへの提示を指示する。

0082

(c)検索への適用
類似度学習部300は、ユーザによってユーザインタフェース500に入力されたキーワードを文書として扱い、分析レポートに含まれている文書およびグラフとの類似度を計算する。データベース類似度適用部400は、計算結果の類似度が高い順に、ユーザインタフェース500に、文書またはグラフを検索結果としてユーザへの提示を指示する。

0083

データのクラスタリングに本発明による類似度学習装置を適用した実施例について説明する。

0084

データのクラスタリングを行うシステムにおいて、異なる属性のデータをクラスタリングの対象とする場合を例に説明する。ユーザインタフェース500は、データの分類のためにユーザによって入力されたキーワードを類似度適用データベース400に送信する。類似度適用データベース400は、ユーザインタフェース500によって送信されたキーワードに応じたデータをユーザインタフェース500に送信する。ユーザインタフェース500は、類似度適用データベース400が送信したデータを表示する。ユーザインタフェース500は、ユーザによってユーザインタフェース500に入力されたキーワードと、表示したデータに応じてユーザによってなされた操作とを示すフィードバックデータを類似度適用データベース400に送信する。

0085

ここで、例えば、文書の属性のデータと画像の属性のデータとが類似度適用データベース400に保存され、属性が文書であるデータをユーザに提示した場合に、ユーザインタフェース500には、ユーザによって、当該ユーザによって入力されたキーワードと提示したデータとが類似していることや非類似であること、提示した一のデータと属性が文書である他のデータとが類似していることや非類似であること、および提示した一のデータと属性が画像であるデータとが類似していることや非類似であることを示す操作がなされる。

0086

そして、類似度適用データベース400は、ユーザインタフェース500によって送信されたフィードバックデータを保存する。

0087

また、類似度適用データベース400は、ユーザインタフェース500によって送信されたフィードバックデータをフィードバック変換部200に入力する。フィードバック変換部200は、入力されたフィードバックデータに応じた類似組のデータの集合Sおよび非類似組のデータの集合Dを類似度適用データベース400から抽出する。フィードバック変換部200は、入力されたフィードバックデータと、類似度適用データベース400から抽出した集合Sおよび集合Dを類似度学習部300に入力する。

0088

類似度学習部300は、入力された集合Sおよび集合Dにもとづいて、各データ間の類似度を計算するための類似度計算式を更新する。

0089

次に、本発明の概要について図面を参照して説明する。図6は、本発明の概要を示すブロック図である。図6に示すように、本発明によるデータ出力装置(図1に示す類似度学習装置100に相当)は、データベース10(図1に示す類似度適用データベース400に相当)と、データ抽出手段20(図1に示すフィードバック変換部200に相当)と、データ出力手段30(図1に示す類似度適用データベース400に相当)と、フィードバック情報入力手段40(図1に示す類似度適用データベース400に相当)と、類似度更新手段50(図1に示す類似度学習部300に相当)とを含む。

0090

データベース10は、複数の異なる属性のデータと、各データ間の類似度を計算するための類似度計算式とを記憶する。データ抽出手段20は、入力されたキーワードに応じたデータをデータベース10から抽出する。データ出力手段30は、データ抽出手段20が抽出したデータを出力する。フィードバック情報入力手段40は、データ出力手段30が出力したデータに応じて、ユーザによってなされた選択操作を示す情報を含むフィードバック情報を入力する。類似度更新手段50は、フィードバック情報入力手段40が入力したフィードバック情報にもとづいて、データベース10に記憶されているデータと入力されたキーワードとの間の類似度を計算するための類似度計算式を更新し、更新後の類似度計算式をデータベース10に記憶する。

0091

そして、データ抽出手段20は、データベース10に記憶されている類似度計算式であって、入力されたキーワードに応じた類似度計算式の計算結果にもとづいて、キーワードに応じたデータを抽出する。

0092

そのような構成によれば、類似度更新手段50が、異なる属性のデータの間の類似度を計算するための類似度計算式を統一的に更新するので、データ検索結果などのデータ出力の精度を効率よく高めることができる。

0093

また上記の実施形態では、以下の(1)〜(4)に示すようなデータ出力装置も開示されている。

0094

(1)類似度更新手段50が、フィードバック情報入力手段40が入力したフィードバック情報によって示されるユーザによって選択操作がなされたデータと、入力されたキーワードとの間の類似度を計算するための類似度計算式を更新するデータ出力装置。

0095

(2)データ抽出手段20が、データベース10に記憶されている類似度計算式を用いて、入力されたキーワードにもとづくベクトルとユーザによって選択操作がなされたデータにもとづくベクトルとを線形変換し、線形変換後のベクトルの内積によって示される各データ間の類似度を計算し、類似度更新手段50が、類似度計算式において、入力されたキーワードにもとづくベクトルと、フィードバック情報によって示されるユーザによって選択操作がなされたデータにもとづくベクトルとを、それぞれのベクトルに応じて線形変換するための行列を更新するデータ出力装置。

0096

(3)データベース10が、属性がグラフのデータと属性が文書のデータとを含む複数の複合データを記憶し、データベース10に記憶されている複数の複合データに含まれるグラフのデータと文書のデータとの組のうち、所定の条件を満たす組のデータを類似するデータであると設定する類似組設定手段(図1に示すフィードバック変換部200に相当)を含み、類似度更新手段50が、類似組設定手段によって類似するデータであると設定された組に含まれるデータの間の類似度を計算するための類似度計算式を更新するデータ出力装置。

実施例

0097

(4)データベース10が、属性がグラフのデータと属性が文書のデータとを含む複数の複合データを記憶し、フィードバック情報入力手段40が入力したフィードバック情報にもとづいて、入力されたキーワードと、ユーザによって選択操作がなされたデータとの組のデータを類似するデータであると設定する類似組設定手段(図1に示すフィードバック変換部200に相当)を含み、類似度更新手段50が、類似組設定手段によって類似するデータであると設定された組に含まれるデータの間の類似度を計算するための類似度計算式を更新するデータ出力装置。

0098

本発明を、複数の属性の情報を検索することができる情報検索装置や、当該情報検索装置に搭載されるプログラムに適用可能である。また、複数の属性のデータを用いてクラスタリングのようなデータ分析をするデータ分析装置や、当該データ分析装置に搭載されるプログラムに適用可能である。

0099

10データベース
20データ抽出手段
30データ出力手段
40フィードバック情報入力手段
50類似度更新手段
100類似度学習装置
101 CPU
102 ROM
103 RAM
105入出力インタフェース
106ハードディスク
200フィードバック変換部
210 類似−非類似抽出部
220 類似−非類似選択部
300 類似度学習部
400類似度適用データベース
500 ユーザインタフェース

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ