図面 (/)

技術 情報処理装置、情報処理方法、およびプログラム

出願人 Zホールディングス株式会社
発明者 夜久真也
出願日 2018年9月18日 (2年2ヶ月経過) 出願番号 2018-173387
公開日 2020年3月26日 (7ヶ月経過) 公開番号 2020-046805
状態 未査定
技術分野 検索装置
主要キーワード 関連度合 素性情報 ナレッジデータ 別名情報 判定モデル 特定位 決定木分析 オンライン動作
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

エンティティと関連付けられた別名情報収集することが可能な情報処理装置情報処理方法、およびプログラムを提供すること。

解決手段

エンティティの別名の候補を生成する生成部と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、を備える情報処理装置。

概要

背景

従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベース蓄積される。一方、検索エンジンは、ユーザによって入力された検索ワード(以下、「検索クエリ」とも言う)を受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索クエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに関連付けて記憶したデータベースが用いられる場合がある(特許文献1参照)。データベースにおいて、ある特定のエンティティと関連付けられているテキストデータが検索クエリとして入力されると、その特定のエンティティに関する情報が検索結果とともに出力される。

概要

エンティティと関連付けられた別名情報を収集することが可能な情報処理装置情報処理方法、およびプログラムを提供すること。エンティティの別名の候補を生成する生成部と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、を備える情報処理装置。

目的

本発明は、このような事情を考慮してなされたものであり、エンティティと関連付けられた別名情報を収集することが可能な情報処理装置、情報処理方法、およびプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

エンティティの別名の候補を生成する生成部と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、を備える情報処理装置

請求項2

前記第1情報は、前記エンティティと関連付けられた百科事典ウェブページに前記エンティティの別名の候補が含まれるか否かを示す情報を含む、請求項1に記載の情報処理装置。

請求項3

前記第1情報は、前記別名の候補を検索クエリとした場合に得られる検索結果ウェブページに含まれるリンク利用状況に関する情報を含む、請求項1または2に記載の情報処理装置。

請求項4

前記第1情報は、前記別名の候補の文字列が、前記エンティティの文字列の部分文字列であるか否かを示す情報を含む、請求項1から3のいずれか一項に記載の情報処理装置。

請求項5

前記第1情報は、前記別名の候補の文字列と、前記エンティティの文字列との編集距離を示す情報を含む、請求項1から4のいずれか一項に記載の情報処理装置。

請求項6

前記学習モデルを生成する学習部をさらに備える、請求項1から5のいずれか一項に記載の情報処理装置。

請求項7

前記学習部は、百科事典ウェブページのリダイレクト情報に基づいて得られる別名のうち、リダイレクト先ウェブページ内特定位置であるリダイレクト情報に基づいて得られる別名は学習データとして採用しない、請求項6に記載の情報処理装置。

請求項8

前記生成部は、百科事典ウェブページのリダイレクト情報に基づいて、第1エンティティの名前を示す第1ワードに関連付けられた第1ページへのリダイレクト元である、第2ページに関連付けられた第2ワードを、前記第1エンティティの別名の候補とする、請求項1から7のいずれか一項に記載の情報処理装置。

請求項9

前記生成部は、百科事典ウェブページの第1エンティティの名前を示す第1ワードに関連付けられた第1ページに第2ページへの誘導情報が含まれる場合、前記第1ワードを、前記第2ページに関連付けられた第2ワードにより示される第2エンティティの別名の候補とする、請求項1から8のいずれか一項に記載の情報処理装置。

請求項10

前記生成部は、検索に利用された検索クエリと、検索結果ウェブページに含まれるリンクのうちクリックされたリンクのリンク先のページに関連付けられるエンティティの名前とが異なる場合、前記検索クエリを、前記エンティティの別名の候補とする、請求項1から9のいずれか一項に記載の情報処理装置。

請求項11

コンピュータが、エンティティの別名の候補を生成し、前記エンティティと、生成された前記別名の候補との関連度合を示す第1情報を算出し、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、生成された前記別名の候補が前記エンティティの別名であるか否かを判定する、情報処理方法

請求項12

コンピュータに、エンティティの別名の候補を生成させ、前記エンティティと、生成された前記別名の候補との関連度合を示す第1情報を算出させ、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、生成された前記別名の候補が前記エンティティの別名であるか否かを判定させる、プログラム

技術分野

0001

本発明は、情報処理装置情報処理方法、およびプログラムに関する。

背景技術

0002

従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベース蓄積される。一方、検索エンジンは、ユーザによって入力された検索ワード(以下、「検索クエリ」とも言う)を受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

0003

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索クエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに関連付けて記憶したデータベースが用いられる場合がある(特許文献1参照)。データベースにおいて、ある特定のエンティティと関連付けられているテキストデータが検索クエリとして入力されると、その特定のエンティティに関する情報が検索結果とともに出力される。

先行技術

0004

特開2017−76403号公報

発明が解決しようとする課題

0005

ユーザによって入力される検索クエリは、エンティティの正式名称以外に、エンティティのあだ名(ニックネーム)、略称通称、自称などの別名を含む場合がある。これらの別名とエンティティとが関連付けられていない場合、エンティティに関する情報が取得できず、或いはユーザが意図しない不適切なエンティティに関する情報が取得されて検索結果とともに出力される場合がある。

0006

本発明は、このような事情を考慮してなされたものであり、エンティティと関連付けられた別名情報を収集することが可能な情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

課題を解決するための手段

0007

本発明の一態様は、エンティティの別名の候補を生成する生成部と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部と、を備える情報処理装置である。

発明の効果

0008

本発明の一態様によれば、エンティティと関連付けられた別名情報を収集することができる。

図面の簡単な説明

0009

本実施形態に係るナレッジデータサーバ使用環境及び構成を示す図である。
本実施形態に係るナレッジグラフの一例を示す図である。
本実施形態に係る「野球選手A」のウェブページの一例を示す図である。
本実施形態に係る検索結果ウェブページの一例を示す図である。
本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。
本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。
本実施形態における収集部により収集された百科事典ウェブページの一例を示す図である。
本実施形態における収集部により収集された百科事典ウェブページの一例を示す図である。
本実施形態における別名候補情報の一例を示す図である。
本実施形態における別名リストの一例を示す図である。
本実施形態のナレッジデータサーバの学習動作の一例を示す流れ図である。
本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。
本実施形態のナレッジデータサーバの別名判定動作の一例を示す流れ図である。
本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。

実施例

0010

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。

0011

エンティティとは、例えば、ある対象事物実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

0012

<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットイントラネット標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局プロバイダ装置専用回線などを更に含んでよい。

0013

端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話タブレット型コンピュータノート型コンピュータデスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供するサーバである。

0014

ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、例えば、ナレッジグラフD1と、別名候補情報D2と、判定モデルD3と、別名リストD4とが記憶される。

0015

図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

0016

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

0017

例えば、くちばしを持ち、卵生脊椎動物であり、前肢になっている、という性質を持つ事物は、「」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。尚、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

0018

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

0019

ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

0020

図2示される例のナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」)と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。

0021

所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。図2に示すナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「野球選手A」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球選手A」というURLとが関連付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「野球チームB」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球チームB」というURLとが関連付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

0022

図3は、本実施形態に係る「野球選手A」のウェブページの一例を示す図である。「野球選手A」のウェブページには、「野球選手A」の関連データが記載されている。

0023

<1−2.検索結果ウェブページ>
図4は、本実施形態に係る検索結果ウェブページの一例を示す図である。図4に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、検索クエリに関連するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページに検索クエリを入力する。検索クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力された検索クエリをウェブサーバ300に送信する。

0024

ウェブサーバ300は、端末装置200から受信した検索クエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信した検索クエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、ナレッジグラフD1に基づいて、受信した検索クエリと関連付けられたエンティティに関連付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページを生成する。

0025

図4に示される例においては、検索クエリとして「野球選手A」が入力され、ナレッジパネル220には「野球選手A」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「野球選手A」の画像222や、「野球選手A」の生年月日出身地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。

0026

<1−3.ナレッジデータサーバ100の構成>
図1戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、通信I/F(Interface)111と、収集部112と、別名候補抽出部113(生成部)と、素性抽出部114(算出部)と、判定部115と、別名リスト生成部116と、所在情報取得部117と、学習部118とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F111は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、「クロール対象機器DV」)、端末装置200、及びウェブサーバ300)との通信を仲介する。

0027

収集部112は、所定のウェブページに関する収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。収集部112による収集処理の対象となる収集対象データは、例えば、利用者によって編集可能な百科事典のウェブページ(以下、「百科事典ウェブページ」)、検索エンジンの検索ログ等である。

0028

収集部112は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザ閲覧可能なデータを含む。尚、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTML(HyperText Markup Language)のソースを示すテキストデータを含むウェブページを含む。収集部112は、百科事典ウェブページのうち、例えば、ナジッレグラフD1に含まれるエンティティのそれぞれの名前と対応するテキストデータが記載されたウェブページが存在する場合、そのすべてを収集する。

0029

また、収集対象データは、例えば、百科事典ウェブページに関するリダイレクト情報を含む。図5は、本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。図6は、本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。例えば、百科事典ウェブページにおいて、ユーザが端末装置200を操作して「野球選手A」(第1ワード)の別名である「別名a」(第2ワード)を検索クエリとして入力した場合、端末装置200には入力された「別名a」と関連付けられたウェブページP1(第2ページ)は表示されることなく、「野球選手A」と関連付けられたウェブページP2(第1ページ)へのリダイレクト転送)が行われ、端末装置200にはこのウェブページP2が表示される。すなわち、ウェブページP1はリダイレクト元のページであり、リダイレクト先のページとしてウェブページP2が設定されたページ(リダイレクト先としてウェブページP2のURLが設定された転送用ページ)である。図6に示されるように、リダイレクト情報は、上記のようなリダイレクト元のページと関連付けられたワードと、リダイレクト先のページと関連付けられたワードとが関連付けられたリストを含む。図6には、例えば、リダイレクト元のワード「別名a」と、リダイレクト先のワード「野球選手A」とが関連付けられたデータが含まれる。

0030

尚、収集部112によるクロール処理を行わずに、例えば、ナレッジデータサーバ100のオペレータ運用端末のブラウザを操作して手動で収集対象データを収集し、ナレッジデータサーバ100に設けられた入力部(図示しない)を介して収集対象データを入力するようにしてもよい。

0031

リダイレクト元のワードは、リダイレクト先のワードの同義語であり、これら2つのワードは同一のエンティティを示していることが想定される。すなわち、リダイレクト元のワードは、リダイレクト先のワードの別名であることが想定される。このため、別名候補抽出部113は、収集部112により収集された収集対象データに含まれるリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出し、リダイレクト元のワードを、リダイレクト先のワードの別名の候補(以下、「別名候補」)として、別名候補情報D2に登録する。

0032

また、別名候補抽出部113は、収集部112により収集された収集対象データに含まれる百科事典ウェブページのHTMLのソースを示すテキストデータから誘導情報を抽出し、抽出した誘導情報に基づいて別名候補を抽出し、別名候補情報D2に登録する。図7は、本実施形態における収集部112により収集された百科事典ウェブページの一例を示す図である。図7に示される百科事典ウェブページは、「キャラクタC」(第1エンティティ)と関連付けられたページであり、「キャラクタC(アニメ)T1」および「キャラクタC(テレビドラマ)T2」のそれぞれと関連付けられたページへの誘導情報を含んでいる。これらの「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」(第2エンティティ)はいずれもエンティティとなりうるものである。この場合、「キャラクタC」のワードは、エンティティテとしての「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」の別名(例えば、略称)である可能性がある。そこで、別名候補抽出部113は、あるウェブページと関連付けられたワード(図7に示される例では「キャラクタC」)を、該ウェブページに含まれる誘導情報に含まれるワード(図7に示される例では「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」)の別名候補として、別名候補情報D2に登録する。

0033

また、別名候補抽出部113は、収集部112により収集された収集対象データに含まれる検索エンジンの検索ログに基づいて別名候補を抽出し、別名候補情報D2に登録する。例えば、別名候補抽出部113は、検索結果ウェブページに含まれるリンクのクリックログなどの利用状況に関する情報を収集する。別名候補抽出部113は、検索に利用された検索クエリと、検索結果ウェブページに含まれるリンクのうちユーザがクリックしたリンク先のページ(例えば、百科事典ウェブページ)に関連付けられるエンティティの名前とが異なる場合、この検索クエリを、エンティティの別名候補として抽出する。別名候補抽出部113は、検索結果ウェブページに含まれるリンクのうち、クリック数クリック率CTR:Click Trough Rate)等が所定の閾値以上であるリンクのリンク先のページに関連付けられるエンティティのみに対して、検索クエリを別名候補として設定してよい。尚、以下においては、収集対象データが、百科事典ウェブページに関するリダイレクト情報である場合を例に挙げて説明する。

0034

図1に戻り、素性抽出部114は、エンティティと、該エンティティに関して別名候補抽出部113により抽出された別名候補との組の各々について、素性情報(第1情報)を抽出する。素性情報とは、エンティティと、別名候補との関連度合を示す情報である。素性情報は、別名候補の確からしさを判定するための指標となる情報である。素性情報には、例えば、百科事典ウェブページに含まれるエンティティの要約情報に基づく第1素性情報、検索結果ウェブページに含まれるリンクのクリックログなどの利用状況に基づく第2素性情報、別名候補の文字列構造に基づく第3素性情報及び第4素性情報等が含まれる。素性抽出部114は、例えば、第1から第4素性情報のうちの少なくとも1つの情報を抽出する。尚、素性情報は、上記の第1から第4素性情報の4種類に限定されるものではなく、エンティティと、別名候補との関連度合を示すのに有用な情報であれば任意に付け加えることができる。

0035

(第1素性情報)
図8は、本実施形態に係る「野球選手A」の百科事典ウェブページの一例を示す図である。「野球選手A」の百科事典ウェブページには、「野球選手A」のプロフィールに関する情報(要約情報)が含まれており、このプロフィールに関する情報には「愛称:BBB(N1)」の文字列が含まれている。素性抽出部114は、例えば、このプロフィール情報(「愛称」という欄の情報(キー)と、その内容を示す「BBB」(バリュー))を参照し、別名候補情報D2に含まれる別名候補の各々が、関連付けされるエンティティのページの要約情報を含まれるか否かを判定する。このように、素性抽出部114は、別名候補が要約情報に含まれている場合、例えば、別名候補情報D2の素性1の欄に“1”を記録し、別名候補が要約情報に含まれていない場合、別名候補情報D2の素性1の欄に“0”を記録する。

0036

(第2素性情報)
素性抽出部114は、検索結果ウェブページに含まれるリンクのクリックログ等の利用状況に関する情報に基づいて、別名候補情報D2に含まれる別名候補の各々が検索クエリとして利用された場合に、関連付けされるエンティティに関連付けられたページに遷移する確率(別名候補が対応するエンティティに関連付けられる確率)を示す第2素性情報を算出する。例えば、素性抽出部114は、検索結果ウェブページに含まれるリンクのクリック率を第2素性情報として算出して、別名候補情報D2の素性2の欄に記録する。

0037

(第3素性情報)
素性抽出部114は、別名候補情報D2に含まれる別名候補の各々の文字列が、関連付けされるエンティティの文字列の部分文字列であるか否かを示す第3素性情報を算出し、別名候補情報D2の素性3の欄に登録する。例えば、別名候補の文字列が「ABCD」であり、エンティティの文字列が「東京ABCD」である場合、この別名候補の文字列「ABCD」は、エンティティの文字列「東京ABCD」の部分文字列である。素性抽出部114は、別名候補の各々の文字列が、関連付けされるエンティティの文字列の部分文字列である場合、例えば、別名候補情報D2の素性3欄に“1”を記録し、別名候補の各々の文字列が、関連付けされるエンティティの文字列の部分文字列ではない場合、別名候補情報D2の素性3の欄に“0”を記録する。

0038

(第4素性情報)
素性抽出部114は、別名候補情報D2に含まれる別名候補の各々の文字列と、関連付けされるエンティティの文字列との編集距離レーベンシュタイン距離)を算出し、算出した編集距離を示す第4素性情報を、別名候補情報D2の素性4の欄に記録する。例えば、別名候補の文字列が「ABEフィルムメーカー」であり、エンティティの文字列が「あべフィルムメーカー」である場合、編集距離は“3”である。

0039

図1に戻り、判定部115は、判定モデルD3に基づいて、別名候補情報D2に含まれる別名候補の各々が、関連付けられるエンティティの別名であるか否かを判定する。判定モデルD3は、素性情報(例えば、素性1から4の少なくとも1つ)が与えられた場合に、該素性情報に関する別名候補がエンティティの別名であるか否かの判定結果を出力するようにモデリングされたものである。判定結果は、別名であるか否かを示すもの(例えば、別名であることを示す“1”または別名ではないことを示す“0”)であってもよいし、別名である確率を示す数値であってもよい。以下において、判定結果が、別名であるか否かを示すものである場合を例に挙げて説明する。

0040

判定モデルD3は、例えば、ロジスティック回帰分析決定木分析サポートベクターマシン再帰ニューラルネットワーク(Recurrent Neural Network:RNN)、多層構造のニューラルネットワーク(Deep Neural Network:DNN)、または畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を用いたディープラーニングに基づく技術等の任意の機械学習により生成されたモデルであってよい。

0041

判定部115は、別名候補が、関連付けされるエンティティの別名であると判定した場合、例えば、別名候補情報D2の判定結果の欄に“1”を記録し、別名ではないと判定した場合、別名候補情報D2の判定結果の欄に“0”を記録する。

0042

図9は、本実施形態における別名候補情報D2の一例を示す図である。図9に示される例では、エンティティである「野球選手A」に対して、別名候補「別名a」、素性1「1(要約情報に含まれている)」、素性2「0.14(クリック率)」、素性3「1(部分文字列である)」、素性4「3(編集距離)」、判定結果「1(別名である)」が関連付けされている。

0043

別名リスト生成部116は、別名候補情報D2に含まれるデータのうち、判定結果が「1」である、すなわち、判定部115により別名候補が別名であると判定されたデータの「エンティティ」と「別名候補」との組を抽出して、別名リストD4を生成する。図10は、本実施形態における別名リストD4の一例を示す図である。図10に示される例では、エンティティである「野球選手A」に対して、別名1「別名a」、別名2「別名c」が関連付けされている。尚、別名リストD4生成する代わりに、抽出された「別名候補」を、「エンティティ」と関連付けてナレッジグラフD1に登録してもよい。

0044

所在情報取得部117は、ナレッジグラフD1および別名リストD4に基づいて、ウェブサーバ300から受信した検索クエリに対応するエンティティに関連付けられている所在情報を取得する。所在情報取得部117は、ナレッジグラフD1に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する。所在情報取得部117は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに関連付けられている所在情報を取得する。

0045

一方、所在情報取得部117は、受信した検索クエリと合致するエンティティ名がナレッジグラフD1に存在しないと判定した場合、別名リストD4に登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する。所在情報取得部117は、受信した検索クエリと合致する別名が別名リストD4に存在すると判定した場合、該別名と関連付けられたエンティティに関連付けられている所在情報を取得する。このとき、検索クエリと、エンティティ名または別名とが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するエンティティ名または別名とみなしてよい。尚、別名がナレッジグラフD1に登録されている場合、所在情報取得部117は、ナレッジグラフD1に登録された別名に基づいて、受信した検索クエリと合致する別名が存在するか否かを判定してもよい。

0046

次に、所在情報取得部117は、取得した所在情報をウェブサーバ300に送信する。所在情報取得部117は、受信した検索クエリと合致するエンティティおよび別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ300に送信する。

0047

図1に戻り、学習部118は、エンティティの名前と、別名と、素性情報との組を含む学習データを用いて機械学習を行うことで判定モデルD3を生成し、生成した判定モデルD3を記憶部120に記憶させる。学習部118は、例えば、ロジスティック回帰分析、決定木分析、サポートベクターマシン、再帰型ニューラルネットワーク、多層構造のニューラルネットワーク、または畳み込みニューラルネットワークを用いたディープラーニング技術等の任意の技術を採用してよい。

0048

<1−4.学習動作>
図11は、本実施形態のナレッジデータサーバ100の学習動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により学習動作を行う。

0049

まず、学習部118は、学習対象の学習データを生成する(S10)。例えば、学習部118は、ナレッジグラフD1に既に登録されている「エンティティ」と「別名」との組を抽出し、抽出した「エンティティ」と「別名」との組に対する「素性情報(例えば、素性1から4の少なくとも1つ)」を算出し、「エンティティ」、「別名」、及び「素性情報」の組を学習データとする。

0050

また、学習部118は、百科事典ウェブページのリダイレクト情報に基づいて、学習データを生成してもよい。図12は、本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。図12には、「別名a」と関連付けられたウェブページP1から「野球選手A」と関連付けられたウェブページP2へのリダイレクト1と、「別名a」と関連付けられたウェブページP1から「野球チームB」と関連付けられたウェブページP3内の特定位置(「メンバ情報」の欄)へのリダイレクト2とが示されている。ウェブページ内の特定位置へのリダイレクトは、該ウェブページ内のリダイレクトを受ける場所にid属性及びname属性を指定したAタグを設置し、リダイレクト先を指定するURLの引数に上記において指定したname属性の名前を指定すること等により実現される。

0051

この場合、リダイレクト1は、「野球選手A」と関連付けられたウェブページP2のそのものへのリダイレクトであるため、リダイレクト元のウェブページP1と関連付けられた「別名a」は、リダイレクト先のウェブページP2と関連付けられた「野球選手A」の別名である可能性が高いと考えられる。一方、リダイレクト2は、「野球チームB」と関連付けられたウェブページP3のそのものではなく、ウェブページP3内の特定位置へのリダイレクトであるため、リダイレクト元のウェブページP1と関連付けられた「別名a」は、リダイレクト先のウェブページP2と関連付けられた「野球チームB」の別名である可能性が低いと考えられる。そこで、学習部118は、百科事典ウェブページに関するリダイレクト情報に基づいて得られるデータのうち、リダイレクト先がウェブページのそのものであるエンティティと別名との組については学習データとして採用する。一方、学習部118は、リダイレクト先がウェブページ内の特定位置であるエンティティと別名との組については学習データとして採用しない。尚、学習データは、ナレッジデータサーバのオペレータにより生成されてもよい。

0052

次に、学習部118は、生成した学習データを用いて機械学習を行い、エンティティと、該エンティティの別名と、該エンティティの素性情報との関係を学習した判定モデルD3を生成し(S12)、生成した判定モデルD3を記憶部120に記憶させる(S14)。以上により、本フローチャートの処理が終了する。

0053

<1−5.別名判定動作>
図13は、本実施形態のナレッジデータサーバ100の別名判定動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により別名判定動作を行う。

0054

まず、別名候補抽出部113は、収集部112により収集された収集対象データに含まれるリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出し、リダイレクト元のワードを、リダイレクト先のワード(すなわち、エンティティの名前)の別名候補として抽出する(S20)。別名候補抽出部113は、抽出したエンティティと、別名候補との組を別名候補情報D2に記録する。

0055

次に、素性抽出部114は、別名候補情報D2に含まれるエンティティと、別名候補との組の各々に対して、素性情報(例えば、素性1から4の少なくとも1つ)を抽出する(S22)。素性抽出部114は、抽出した素性情報を、別名候補情報D2に記録する。

0056

次に、判定部115は、別名候補情報D2と、判定モデルD3とに基づいて、別名候補の各々が、関連付けられるエンティティの別名であるか否かを判定する(S24)。判定部115は、判定結果を別名候補情報D2に記録する。

0057

次に、別名リスト生成部116は、別名候補情報D2に含まれるデータのうち、判定結果が「1」である(すなわち、判定部115により別名候補が、関連付けされるエンティティの別名であると判定されたデータ)の「エンティティ」と「別名候補」との組を抽出して、別名リストD4を生成する(S26)。以上により、本フローチャートの処理が終了する。

0058

<1−6.オンライン動作>
図14は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部117は、ウェブサーバ300から検索クエリを受信する(S30)。

0059

次に、所在情報取得部117は、ナレッジグラフD1に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する(S32)。所在情報取得部117は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに関連付けられている所在情報を取得し、ウェブサーバ300に送信し(S34)、本フローチャートの処理を終了する。

0060

一方、所在情報取得部117は、受信した検索クエリと合致するエンティティ名がナレッジグラフD1に存在しないと判定した場合、別名リストD4に別名として登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する(S36)。所在情報取得部117は、受信した検索クエリと合致する別名が別名リストD4に存在すると判定した場合、該別名と関連付けられたエンティティに関連付けられている所在情報を取得し、ウェブサーバ300に送信する(S34)。以上により、本フローチャートの処理が終了する。

0061

一方、所在情報取得部117は、受信した検索クエリと合致する別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ300に送信する(S38)。以上により、本フローチャートの処理が終了する。

0062

以上、説明したように、本実施形態のナレッジデータサーバ100は、エンティティの別名の候補を生成する生成部(別名候補抽出部113)と、前記エンティティと、前記生成部により生成された別名の候補との関連度合を示す第1情報を算出する算出部(素性抽出部114)と、前記第1情報が入力されると、前記第1情報に関連付けられた別名の候補がエンティティの別名であるか否かを示す情報を出力するように学習された学習モデルに基づいて、前記生成部により生成された別名の候補が前記エンティティの別名であるか否かを判定する判定部(判定部115)と、を備える。これによって、エンティティと関連付けられた別名情報を収集することができる。

0063

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

0064

100…ナレッジデータサーバ
110…制御部
111…通信I/F
112…収集部
113…別名候補抽出部
114…素性抽出部
115…判定部
116…別名リスト生成部
117…所在情報取得部
118…学習部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…別名候補情報
D3…判定モデル
D4…別名リスト
R1…リダイレクト情報

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 富士ゼロックス株式会社の「 データ管理システム」が 公開されました。( 2020/09/24)

    【課題】階層構造になっている管理システムにおいて、管理対象データの実体を最上位の装置が全て管理する場合と比較して、管理対象データがユーザの意図しない装置に提供されないシステムを提供する。【解決手段】管... 詳細

  • 株式会社ウフルの「 デバイス管理システム、デバイス管理方法、情報処理装置、及びプログラム」が 公開されました。( 2020/09/24)

    【課題】デバイスの信頼性を向上可能なデバイス管理システム、デバイス管理方法、情報処理装置、デバイス及びプログラムを提供する。【解決手段】デバイス管理システム1は、複数の情報処理装置2をネットワーク3で... 詳細

  • 本田技研工業株式会社の「 サーバ」が 公開されました。( 2020/09/24)

    【課題】車両の利用者が、該利用者の生活圏外の人であって前記利用者の属性に類似した属性を持つ地域人(地元民)が利用したPOI情報をリコメンドとして受けることができるサーバを提供する。【解決手段】サーバ1... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ