図面 (/)

技術 比較装置、比較方法および比較プログラム

出願人 ヤフー株式会社
発明者 宮崎祐小林隼人菅原晃平野口正樹
出願日 2017年10月23日 (2年4ヶ月経過) 出願番号 2017-204653
公開日 2019年5月23日 (9ヶ月経過) 公開番号 2019-079198
状態 未査定
技術分野 検索装置 機械翻訳
主要キーワード 対応関数 固定ベクトル 無限次元 分散表現 比較精度 関数空間 スマートデバイス 抽象表現
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年5月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

分野間の比較精度を向上させること。

解決手段

本願に係る比較装置は、指定された分野毎単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換部と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較部とを有することを特徴とする。

概要

背景

従来、様々な情報が有する特徴をベクトル等の多次元量に変換し、多次元量同士を比較することで、情報同士の類似度を判定する技術が知られている。このような技術の一例として、画像情報を所定の空間上におけるベクトルと見做し、ベクトル同士の比較結果に基づいて、画像情報の分類を行う技術が知られている。

概要

分野間の比較精度を向上させること。本願に係る比較装置は、指定された分野毎単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換部と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較部とを有することを特徴とする。

目的

本願は、上記に鑑みてなされたものであって、分野間の比較精度を向上させることを目的とする

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

指定された分野毎単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換部と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較部とを有することを特徴とする比較装置

請求項2

前記変換部は、前記共通基底ベクトルをカーネル関数によって作成することを特徴とする請求項1に記載の比較装置。

請求項3

前記変換部は、前記分散表現空間を再生核ヒルベルト空間に変換することを特徴とする請求項2に記載の比較装置。

請求項4

比較装置が実行する比較方法であって、指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換工程と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較工程とを含むことを特徴とする比較方法。

請求項5

指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換手順と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較手順とをコンピュータに実行させるための比較プログラム

技術分野

0001

本発明は、比較装置比較方法および比較プログラムに関する。

背景技術

0002

従来、様々な情報が有する特徴をベクトル等の多次元量に変換し、多次元量同士を比較することで、情報同士の類似度を判定する技術が知られている。このような技術の一例として、画像情報を所定の空間上におけるベクトルと見做し、ベクトル同士の比較結果に基づいて、画像情報の分類を行う技術が知られている。

先行技術

0003

特開2009−211693号公報

発明が解決しようとする課題

0004

しかしながら、上記の従来技術では、分野間の比較精度の向上が難しい。

0005

例えば、第1分野に属する複数の情報と第2分野に属する複数の情報とを比較することで、第1分野と第2分野との類似性を判断するといった手法が考えられる。しかしながら、上述した技術では、情報同士を比較しているに過ぎないため、分野間の類似性を精度よく比較しているとは言えない場合がある。

0006

本願は、上記に鑑みてなされたものであって、分野間の比較精度を向上させることを目的とする。

課題を解決するための手段

0007

本願に係る比較装置は、指定された分野毎単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する変換部と、前記共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する比較部とを有することを特徴とする。

発明の効果

0008

実施形態の一態様によれば、分野間の比較精度を向上させることができる。

図面の簡単な説明

0009

図1は、実施形態に係る比較装置が実行する比較処理の一例を示す図である。
図2は、実施形態に係る比較装置の構成例を示す図である。
図3は、実施形態に係るベクトル空間データベース登録される情報の一例を示す図である。
図4は、実施形態に係る比較装置が設定する係数の一例を説明する図である。
図5は、実施形態に係る比較処理の流れの一例を説明するフローチャートである。
図6は、ハードウェア構成の一例を示す図である。

実施例

0010

以下に、本願に係る比較装置、比較方法および比較プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る比較装置、比較方法および比較プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

0011

[実施形態]
〔1.比較装置の一例〕
まず、図1を用いて、比較装置が実行する比較処理の一例について説明する。図1は、実施形態に係る比較装置が実行する比較処理の一例を示す図である。図1では、比較装置10は、以下に説明する比較処理を実行する情報処理装置であり、例えば、サーバ装置クラウドシステム等により実現される。

0012

より具体的には、比較装置10は、インターネット等の所定のネットワークN(例えば、図2参照)を介して、任意の利用者が使用する情報処理装置100、200と通信可能である。例えば、比較装置10は、情報処理装置100との間で、複数の単語(以下、「単語群」と記載する場合がある。)を含む文章送受信を行う。また、比較装置10は、比較対象となる分野の指定や、後述する固定単語の指定等を情報処理装置200から受付ける。

0013

なお、情報処理装置100、200は、スマートフォンタブレット等のスマートデバイスデスクトップPC(Personal Computer)やノートPC等、サーバ装置等の情報処理装置により実現されるものとする。

0014

〔1−1.情報処理装置が実行する比較処理について〕
ここで、比較装置10は、情報処理装置200から指定された分野(以下、「指定分野」と記載する場合がある。)の比較を行い、比較結果に基づいて、指定分野が類似するか否かを判定する。例えば、比較装置10は、w2v(word2vec)やs2v(sentence2vec)等、単語や文章をベクトル(多次元量)に変換し、変換後のベクトルを用いて入力された文章に対応する応答を出力する。より具体的な例を挙げると、比較装置10は、情報処理装置100から受付けた文章を分野ごとに選別する。そして、比較装置10は、ある分野に属する文章から、形態素解析等の技術を用いて単語群を抽出し、抽出した単語をベクトルに変換する。すなわち、比較装置10は、分野ごとに異なるベクトル空間を生成する。

0015

ここで、単語同士の類似性を比較するための、同じベクトル空間上におけるベクトル同士の内積を用いる技術が考えられる。しかしながら、このような方法では、分野そのものが類似するか否かを判定することができない。また、各分野に属する単語を同じベクトル空間上におけるベクトルに変換し、各ベクトルの類似性に基づいて、分野同士が類似するか否かを判断する手法が考えられる。しかしながら、このような方法では、比較対象となる分野に属する単語同士を比較しているに過ぎず、分野そのものが有する概念を比較しているとは言えない。

0016

そこで、比較装置10は、以下の比較処理を実行する。まず、比較装置10は、指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する。そして、比較装置10は、共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する。例えば、比較装置10は、共通基底ベクトルをカーネル関数によって作成する。すなわち、比較装置10は、分散表現空間を再生核ヒルベルト空間に変換する。

0017

例えば、比較装置10は、再生核ヒルベルト空間を用いて、指定分野に属する情報に基づいた有限次元ベクトル空間(単語ベクトル空間)であって、カーネル関数によって、指定分野を示す有限次元ベクトル空間を無限次元ベクトル空間(関数空間)に変換する。そして、比較装置10は、無限次元ベクトルの比較結果に基づいて、指定分野同士を比較する。

0018

例えば、比較装置10は、あらかじめ各分野に属する情報のベクトルに基づいて、各分野に属する情報を示す有限次元ベクトル空間(単語ベクトルによる分散表現空間)を生成する。そして、比較装置10は、指定分野に属する情報を示す有限次元ベクトルを無限次元ベクトルに変換(関数)する。より具体的には、比較装置10は、各分野に属する情報のベクトルを示す離散的な関数を生成しておき、指定分野に属する情報のベクトルを無限次元化する。例えば、比較装置10は、指定分野に属する情報のベクトルを、所定のカーネル関数(例えば、カーネルトリック)を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定分野の無限次元ベクトルとする。

0019

〔1−2.比較処理の概念について〕
以下、数式を用いて、比較装置10が実行する比較処理の概念について説明する。例えば、比較装置10は、医療物理学料理等、様々な分野に関連する文章をその分野に属する文章として取得する。より具体的な例を挙げると、比較装置10は、医療関連の論文や特許公報等を医療分野に関連する文章として取得し、レシピや料理の歴史を示す論文等を料理に関連する文章として取得する。そして、比較装置10は、各文章から単語を抽出し、抽出した単語の相対的な関連性に基づいて、単語をベクトル化する。すなわち、比較装置10は、各分野ごとに異なる単語ベクトル空間を生成する。なお、このようなベクトル化については、w2v等の任意のベクトル化技術が採用可能である。

0020

ここで、ある1つの分野と対応する単語ベクトル空間(分散表現空間)における単語ベクトルを、離散ベクトルxを入力とする関数自体がすでに連続であるので、離散値xを固定した関数を汎関数を利用して求めることで、離散ベクトルxの無限次元化(連続化)をすることができる。

0021

ここで、ベクトルxを固定ベクトルとした場合について関数f(x)の汎関数Fは、以下の式(1)を満たすこととなる。

0022

0023

このような汎関数Fは、ベクトルxを固定ベクトルとすることで関数fを入力とし、関数f(x)と同じ結果を示す関数であると見做すことができる。ここで、関数f(・)がある分野に属する情報を示すことを考えると、このような汎関数Fは、関数f(・)と対応する分野に属する情報をさらに抽象化した情報であると見做すことができる。このため、汎関数Fは、対応する分野の概念の指標となりえる。そこで、比較装置10は、汎関数の入力となるf(・)を対応する分野を示す関数であると見做し、指定分野のf(・)を比較することで、指定分野の類似性を判断する。

0024

ここで、無限次元ベクトルから値を作り出すためには、無限次元ベクトル間の内積空間を用いることとなる。そこで、比較装置10は、ある分野に属する情報のベクトルxを無限次元ベクトルに変換することで、固定ベクトルxのの無限次元ベクトル化(すなわち、連続化(関数化))を図る。例えば、比較装置10は、所定のカーネル関数を用いて、ベクトルxを無限次元ベクトル化する。

0025

例えば、比較装置10は、ある分野に属する情報を示す関数f(x)を、以下の式(2)に従って変換する。すなわち、比較装置10は、リース表現定理を用いて、関数f(x)を関数fとカーネル関数k(・、x)の内積として表す。ここで、k(・、x)は、式(3)で定義されるカーネル関数である。

0026

0027

ここで、カーネル関数式(3)は、2つの入力ベクトルをカーネル関数として再帰的に用い、カーネル関数によって変換される2つの入力ベクトルの無限次元ベクトル同士の内積から値を求めるための関数である。

0028

0029

ここで、ある分野に属する各ベクトルxをカーネル関数を用いて無限次元ベクトル化した場合、その分野と対応する関数fは、各無限次元ベクトルk(・、x)を基底とするベクトルの合成ベクトルと見做すことができる。一方、比較対象となる複数の分野、すなわち、複数の指定分野のそれぞれに同じ単語のベクトルが含まれる場合、各指定分野をその単語の無限次元化ベクトルにより表すことで、各指定分野を同じ基底ベクトルによる合成ベクトルへと変換することができる。

0030

そこで、比較装置10は、指定された分野に属する情報のうち指定された情報のベクトルを、所定のカーネル関数を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。ここで、分野ごとの基底ベクトルを実現するため、比較装置10は、指定分野と単語との組ごとに異なる係数が積算されたベクトルであって、カーネル関数により無限次元化されたベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。そして、比較装置10は、指定分野と対応する合成ベクトル同士の内積の値に基づいて、指定分野が類似するか否かを判定する。

0031

例えば、比較装置10は、第1指定分野の無限次元ベクトルと、第2指定分野の無限次元ベクトルとの内積(コサイン積)を算出する。そして、比較装置10は、算出した内積の値を第1指定分野と第2指定分野との類似度の指標とし、第1指定分野と第2指定分野とが類似するか否かを判定する。例えば、比較装置10は、算出した内積の値が所定の閾値を超える場合は、第1指定分野と第2指定分野とが類似すると判定する。そして、比較装置10は、判定結果を出力する。

0032

すなわち、比較装置10は、ベクトルを無限次元化することで、離散的な対応関数f(x)を連続的な関数へと変換し、変換後の関数の汎関数同士を比較することで、分野そのものが有する概念同士の比較を実現する。換言すると、比較装置10は、再生核ヒルベルト空間を用いることで、ある分野に属する情報の離散的な分散表現を連続値に変換し、変換した連続値を関数と見做してその汎関数を用いることで、その分野に属する分散表現の分散表現、すなわち、その分野の抽象表現を取得する。そして、比較装置10は、取得した抽象表現同士を比較するので、分野間の比較精度を向上させることができる。

0033

〔1−3.比較処理の一例について〕
以下、図1を用いて、比較装置10が実行する比較処理の一例について説明する。例えば、比較装置10は、情報処理装置100から学習データを受付ける(ステップS1)。このような学習データには、各分野に属する文献等の文章が含まれる。このような場合、比較装置10は、単語を所定の次元数でベクトル化し、各分野ごとのベクトル空間を学習する(ステップS2)。例えば、比較装置10は、w2v等の各種ベクトル化技術を用いて、単語#1や単語#2等をベクトル#1やベクトル#2へと変換する。ここで、比較装置10は、分野と単語の組ごとにベクトルを生成する。例えば、比較装置10は、第1分野の文章に含まれている単語#1と、第2分野の文章に含まれている単語#2とをそれぞれ異なる単語として学習する。

0034

続いて、比較装置10は、情報処理装置200から、指定分野と固定単語とを受付ける(ステップS3)。より具体的には、比較装置10は、比較対象となる複数の分野と、複数の固定単語との指定を受付ける。ここで、固定単語とは、関数を汎関数へと変換する際に固定するベクトルと対応する単語である。このような場合、比較装置10は、再生核ヒルベルト空間を用いて、指定分野のベクトルを無限次元ベクトルに変換し、無限次元ベクトルを基底とする合成ベクトルであって、指定分野と対応する合成ベクトル同士の内積に基づいて、指定分野の類似性を比較する。

0035

まず、比較装置10は、固定単語のベクトルを指定分野ごとに特定する(ステップS4)。例えば、比較装置10は、単語#1が固定単語である場合、第1指定分野における単語#1のベクトルxと、第2指定分野における単語#1のベクトルxとを特定する。そして、比較装置10は、カーネル関数を用いて、各ベクトルxを無限次元ベクトルに変換する(ステップS5)。例えば、比較装置10は、各分野と単語との組合せごとに異なる係数を設定しておく。そして、比較装置10は、カーネル関数と、第1指定分野と対応する係数とを用いて、第1指定分野における各固定単語のベクトルを無限次元ベクトルに変換し、変換後の無限次元ベクトルの和を、その第1指定分野の対応関数の無限次元ベクトルとする。また、例えば、比較装置10は、カーネル関数と、第2指定分野と対応する係数とを用いて、第2指定分野における各固定単語のベクトルを無限次元ベクトルに変換し、変換後の無限次元ベクトルの和を、その第2指定分野の対応関数の無限次元ベクトルとする。

0036

そして、比較装置10は、無限次元ベクトル同士の内積に基づいて、指定分野の類似度を算出する(ステップS6)。例えば、比較装置10は、第1指定分野と第2指定分野との比較を行う再、単語t、s、wが固定単語として指定された場合、単語tと第1指定分野との組に対応する係数α1、単語tと第2指定分野との組に対応する係数α2、単語sと第1指定分野との組に対応する係数β1、単語sと第2指定分野との組に対応する係数β2、単語wと第1指定分野との組に対応する係数γ1、および単語wと第2指定分野との組に対応する係数γ2を設定する。

0037

また、比較装置10は、第1指定分野における単語tの無限次元ベクトルと係数α1との積であるα1k(・、t)、第1指定分野における単語sの無限次元ベクトルと係数β1との積であるβ1k(・、s)、および第1指定分野における単語wの無限次元ベクトルと係数γ1との積であるγ1k(・、w)の和を、第1指定分野と対応する無限次元ベクトルf1とする。また、比較装置10は、第2指定分野における単語tの無限次元ベクトルと係数α2との積であるα2k(・、t)、第2指定分野における単語sの無限次元ベクトルと係数β2との積であるβ2k(・、s)、および第2指定分野における単語wの無限次元ベクトルと係数γ2との積であるγ2k(・、w)の和を、第2指定分野と対応する無限次元ベクトルf2とする。

0038

そして、比較装置10は、無限次元ベクトルf1と無限次元ベクトルf2との内積を算出し、算出した内積の値に基づいて、指定分野の類似度を判定する。その後、比較装置10は、比較結果を情報処理装置200へと提供する(ステップS7)。

0039

〔1−4.比較処理のバリエーションについて〕
ここで、比較装置10は、無限次元ベクトル同士の内積に基づいて、指定分野の類似度を判定するのであれば、任意の処理を実行して良い。例えば、比較装置10は、無限次元ベクトル同士のコサイン積の値そのものを、類似度として採用してもよい。また、比較装置10は、類似度を示す数値を比較結果として提供してもよい。また、比較装置10は、類似度が所定の閾値を超えるか否かに基づいて、指定分野が類似するか否かを判定し、判定結果を比較結果として出力してもよい。

0040

また、比較装置10は、任意の数の指定分野の指定を受付けてよく、任意の数の固定単語の指定を受付けてよい。また、比較装置10は、固定単語の指定を受付けずともよい。例えば、比較装置10は、各指定分野に共通して属する単語を特定し、特定した単語の中から所定の数の単語を固定単語としてランダムに選択してもよい。

0041

なお、上述した比較処理は、ベクトル化することができる情報、すなわち、多次元量に変換することができる情報であれば、任意の情報の分野の比較について適用可能である。例えば、比較装置10は、静止画像動画像音声が有する特徴量を情報として採用することで、静止画像、動画像、音声が属する分野同士の比較を実現してもよい。また、比較装置10は、ニュース等の各種コンテンツが有する特徴量を情報として採用することで、各種コンテンツが属する分野同士の比較を行ってもよい。また、比較装置10は、利用者の属性(例えば、デモグラフィック属性やサイコグラフィック属性)に基づいて各利用者を示すベクトルを生成し、生成したベクトルを用いて、上述した比較処理を実行することで、利用者が属する分野(例えば、趣味趣向に応じたクラスタ等)同士の比較を行ってもよい。

0042

〔2.比較装置の構成〕
以下、上記した比較処理を実現する比較装置10が有する機能構成の一例について説明する。図2は、実施形態に係る比較装置の構成例を示す図である。図2に示すように、比較装置10は、通信部20、記憶部30、および制御部40を有する。

0043

通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、情報処理装置100、200との間で情報の送受信を行う。

0044

記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク光ディスク等の記憶装置によって実現される。また、記憶部30は、ベクトル空間データベース31を記憶する。

0045

ベクトル空間データベース31には、各情報のベクトルが登録されている。例えば、図3は、実施形態に係るベクトル空間データベースに登録される情報の一例を示す図である。図3に示す例では、ベクトル空間データベース31には、「カテゴリID(Identifier)」、「カテゴリ」、「単語」、「単語ベクトル」等といった項目を有する情報が登録される。

0046

ここで、「カテゴリID」とは、単語が属する分野を識別する識別子である。また、「カテゴリ」とは、単語が属する分野を示す情報である。また、「単語」とは、対応付けられたカテゴリIDが示す分野に属する単語である。また、「単語ベクトル」とは、対応付けられた単語のベクトルである。

0047

例えば、図3に示す例では、カテゴリID「ID#1」、カテゴリ「カテゴリ#1」、対応関数「対応関数#1」、単語「単語#1−1」、および単語ベクトル「ベクトル#1−1」が対応付けて登録されている。このような情報は、カテゴリID「ID#1」が示す分野が「カテゴリ#1」である旨を示す。また、このような情報は、単語「単語#1−1」が「カテゴリ#1」に属しており、この単語のベクトルが「ベクトル#1−1」である旨を示す。

0048

なお、図3に示す例では、「カテゴリ#1」、「単語#1−1」、「ベクトル#1−1」といった概念的な値について記載したが、実際には、カテゴリを示す文字列、対応関数、単語となる文字列、およびベクトルが登録されることとなる。また、例えば、ベクトル空間データベース31には、各ベクトルをカーネル関数により無限次元化した無限次元ベクトルが登録されていてもよい。

0049

図2戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、比較装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific IntegratedCircuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。

0050

図2に示すように、制御部40は、生成部41、変換部42、比較部43、および出力部44を有する。生成部41は、所定の分野に属する情報のベクトルに基づいて、その分野に属する情報を示す関数を生成する。また、生成部41は、所定の分野に属する情報のベクトルを示す離散的な関数を生成する。

0051

例えば、生成部41は、情報処理装置100から学習データとして各分野に属する文献を取得すると、形態素解析等の技術を用いて文献から単語を抽出し、抽出した単語をw2v等の技術を用いてベクトル化する。そして、生成部41は、その文献が属する分野と対応付けて抽出した単語とベクトルとをベクトル空間データベース31に登録する。

0052

変換部42は、再生核ヒルベルト空間を用いて、各分野ごとに、その分野に属する各単語のベクトルを係数を乗算した共通基底ベクトルで表現する対応関数(係数ベクトル:共通基底の座標で表現されたベクトル)として生成する。例えば、変換部42は、指定分野に属する情報のベクトル(単語ベクトル)を無限次元ベクトルに変換する。より具体的には、変換部42は、指定分野に属する情報のベクトル(固定単語のベクトル)をベクトル空間データベース31から読み出す。

0053

そして、変換部42は、指定分野に属する情報のベクトル、すなわち、固定単語のベクトルを、所定のカーネル関数を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定分野の無限次元ベクトルとする。より具体的には、変換部42は、指定された分野に属する情報のうち指定された情報のベクトルを、所定のカーネル関数を用いて無限次元化し、無限次元化したベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。ここで、変換部42は、無限次元化したベクトルに対して、分野と単語との組ごとに異なる係数が積算されたベクトルを基底とする合成ベクトルを指定された分野の無限次元ベクトルとする。

0054

ここで、図4は、実施形態に係る比較装置が設定する係数の一例を説明する図である。なお、図4に示す例では、固定単語と各分野と対応する関数を概念的に説明するため、各単語のベクトルを横軸に取り、各分野と対応する関数を概念的に投影した。また、図4に示す例では、第1分野と対応する関数f1を実線で、第2分野と対応する関数f2を長点線で、第3分野f3と対応する関数を短点線で概念的に記載した。

0055

このような図において、単語tを固定した場合、分野に依存しない抽象的な単語tの分散表現(すなわち、抽象表現)は、図4中Ftで示す一点破線に対応する。また、単語sを固定した場合、分野に依存しない抽象的な単語2の分散表現(すなわち、抽象表現)は、図4中Fsで示す一点破線に対応する。このような単語tおよび単語sの抽象表現は、各分野の関数となる無限次元ベクトルの基底ベクトルとなる。そこで、比較装置10は、単語tや単語sの抽象表現の線形結合として、各指定分野の関数を学習する。

0056

例えば、図4中Ftで示す一点破線と、関数f1との交点は、以下の式(4)で示すことができ、図4中Ftで示す一点破線と、関数f2との交点は、以下の式(5)で示すことができる。すなわち、図4中Ftで示す一点破線と、任意の関数fnとの交点は、以下の式(6)で示すことができる。

0057

0058

0059

0060

同様に、図4中Fsで示す一点破線と、関数fnとの交点は、以下の式(7)で示すことができる。

0061

0062

このような基底ベクトルの和で各分野の関数を示した場合、各分野の概念を示す無限次元ベクトルを得ることができる。この結果、比較装置10は、各分野の概念を示す無限次元ベクトル同士の内積を用いて、各分野の概念同士が類似するか否かを判定することができる。

0063

図2に戻り、説明を続ける。比較部43は、無限次元ベクトルの比較結果に基づいて、指定された分野同士を比較する。例えば、比較部43は、変換部42から各指定分野と対応する無限次元ベクトルを受付ける。すなわち、比較部43は、各指定分野の概念を示す関数と対応する無限次元ベクトルを受付ける。このような場合、比較部43は、各指定分野の無限次元ベクトル同士の内積の値を算出し、算出した内積の値に基づいて、指定分野が類似するか否かを判定する。

0064

出力部44は、比較結果を出力する。例えば、出力部44は、比較部43による比較結果を受付けると、受付けた比較結果を情報処理装置200へと出力する。

0065

〔3.比較装置が実行する処理の流れの一例〕
次に、図5を用いて、比較装置10が実行する比較処理の流れの一例について説明する。図5は、実施形態に係る比較処理の流れの一例を説明するフローチャートである。例えば、比較装置10は、単語をベクトル化し(ステップS101)、各分野の対応関数を学習する(ステップS102)。続いて、比較装置10は、指定分野と固定単語の指定を受付けたか否かを判定し(ステップS103)、受付けていない場合は(ステップS103:No)、受付けるまで待機する。一方、比較装置10は、指定分野と固定単語の指定を受付けた場合は(ステップS103:Yes)、固定単語をベクトル化し(ステップS104)、カーネル関数を用いて、対応関数を無限次元ベクトル化する(ステップS105)。そして、比較装置10は、無限次元ベクトルの内積に基づいて、比較対象分野を比較し(ステップS106)、比較結果を提供して(ステップS107)、処理を終了する。

0066

〔4.変形例〕
上記では、比較装置10による比較処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、比較装置10が実行する比較処理のバリエーションについて説明する。

0067

〔4−1.装置構成
上述した例では、比較装置10は、比較装置10内で比較処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、比較装置10は、指定分野や固定単語の指定を受付けるフロントエンドサーバと比較処理を行うバックエンドサーバ協調して動作することにより、実現されてもよい。例えば、比較装置10は、生成部41、変換部42、比較部43を有するフロントエンドサーバと、出力部44を有するバックエンドサーバにより実現されてもよい。また、比較装置10は、ベクトル空間データベース31を外部のストレージサーバに記憶させてもよい。

0068

〔4−2.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

0069

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

0070

また、上記してきた各実施形態は、処理内容矛盾させない範囲で適宜組み合わせることが可能である。

0071

〔5.プログラム〕
また、上述してきた実施形態に係る比較装置10は、例えば図6に示すような構成のコンピュータ1000によって実現される。図6は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。

0072

演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。

0073

出力IF1060は、モニタプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格コネクタにより実現される。また、入力IF1070は、マウスキーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。

0074

なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体テープ媒体磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。

0075

ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。

0076

演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。

0077

例えば、コンピュータ1000が比較装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムまたはデータ(例えば、モデル)を実行することにより、制御部40の機能を実現する。

0078

〔6.効果〕
上述したように、比較装置10は、指定された分野毎に単語ベクトルによって作成された分散表現空間を共通の基底ベクトルで分野ごとに比較するために、分野ごとの基底ベクトルを分野共通基底ベクトルに変換する。そして、比較装置10は、共通基底ベクトルで生成されるベクトルの比較結果に基づいて、指定された分野同士を比較する。また、比較装置10は、共通基底ベクトルをカーネル関数によって作成する。

0079

このように、比較装置10は、分散表現空間を再生核ヒルベルト空間に変換する。例えば、再生核ヒルベルト空間を用いて、指定された分野に属する情報に基づいた関数であって、その分野を示す関数を無限次元ベクトルに変換する。そして、比較装置10は、無限次元ベクトルの比較結果に基づいて、指定された分野同士を比較する。この結果、比較装置10は、指定分野そのものが有する概念同士を比較することができるので、分野同士の比較精度を向上させることができる。

0080

また、上述した処理の結果、比較装置10は、指定分野に属する情報の分散表現の抽象表現、すなわち、指定分野の抽象表現を用いて、指定分野同士を比較することができるので、分野そのものの比較を実現することができる。

0081

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

0082

また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。

0083

10比較装置
20通信部
30 記憶部
31ベクトル空間データベース
40 制御部
41 生成部
42 変換部
43比較部
44 出力部
100、200 情報処理装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ