図面 (/)

技術 情報検索方法、情報検索装置、及びプログラム

出願人 日本電信電話株式会社
発明者 大塚淳史浅野久子松尾義博
出願日 2016年5月20日 (3年2ヶ月経過) 出願番号 2016-101928
公開日 2017年11月24日 (1年7ヶ月経過) 公開番号 2017-208047
状態 未査定
技術分野 検索装置
主要キーワード グリッド距離 カテゴリ分割 質問集 出現分布 キーワードスコア 多次元尺度構成法 検索ウインドウ 選択カテゴリ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年11月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

ユーザ自ら検索クエリを検討することなく、情報要求適合する情報を検索できるようにする。

解決手段

情報検索装置100は、質問集に含まれる自然言語記述された複数の質問文の内容に基づいて、質問文の各々の特徴量を抽出し、質問文から抽出した特徴量に基づいて、質問文を画面上に表示する際の表示座標を計算し、質問文の各々を表示座標に従って画面上に表示し、画面上の指定座標受け付けた場合、各々の質問文の表示座標と、指定座標との距離を計算し、計算した距離が予め定めた条件を満たす質問文に含まれるキーワードに基づいて、検索クエリを生成し、生成した検索クエリを検索エンジンに入力して検索クエリに対する検索結果を表示する。

概要

背景

Web検索に代表される情報検索システムでは、例えばユーザが検索ウインドウに入力したキーワード組(以降、「検索クエリ」という)に対してキーワードマッチ等の処理を行い、検索クエリに適合する文書を検索している。しかし、キーワードマッチを用いた検索処理の場合には、検索クエリのキーワードと文書内のキーワードが完全一致していなくてはならず、検索の再現率(Recall)が低下してしまうという問題が発生することがある。そこで、検索クエリ中に含まれるキーワードを拡張して増加させ、ユーザが検索ウインドウに入力した検索クエリを、より幅広い文書にマッチさせるクエリ拡張技術等が開示されている(特許文献1、2)。

また、検索の再現率を向上させる方法と共に、情報検索インタフェースを改善し、より簡単な操作で情報検索を行う方法についても広く研究が進められている。例えば、2次元平面を用いて視覚的に情報検索をしやすくする方法が開示されている(非特許文献1)。

概要

ユーザ自らが検索クエリを検討することなく、情報要求に適合する情報を検索できるようにする。情報検索装置100は、質問集に含まれる自然言語記述された複数の質問文の内容に基づいて、質問文の各々の特徴量を抽出し、質問文から抽出した特徴量に基づいて、質問文を画面上に表示する際の表示座標を計算し、質問文の各々を表示座標に従って画面上に表示し、画面上の指定座標受け付けた場合、各々の質問文の表示座標と、指定座標との距離を計算し、計算した距離が予め定めた条件を満たす質問文に含まれるキーワードに基づいて、検索クエリを生成し、生成した検索クエリを検索エンジンに入力して検索クエリに対する検索結果を表示する。

目的

本発明は、上記の事情を鑑みて成されたものであり、ユーザ自らが検索クエリを検討することなく、情報要求に適合する情報を検索することができる情報検索方法、情報検索装置、及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

質問集に含まれる自然言語記述された複数の質問文の内容に基づいて、前記質問文の各々の特徴量を抽出し、前記質問文の各々について、前記質問文から抽出した前記特徴量に基づいて、前記質問文を画面上に表示する際の表示座標を計算し、前記質問文の各々を、前記画面上の前記計算された表示座標に表示し、ユーザ操作によって指定された、前記画面上の指定座標受け付けた場合、前記質問文の各々について計算された表示座標と、前記指定座標との距離を計算し、前記計算された距離が予め定めた条件を満たす前記質問文に含まれるキーワードに基づいて、検索クエリを生成し、前記生成された検索クエリを検索エンジンに入力し、前記検索エンジンによって検索された前記検索クエリに対する検索結果を表示する情報検索方法

請求項2

前記質問文の表示座標を計算する際に、前記質問文の内容に基づいて前記質問文の重要度を計算し、前記質問文を表示する際に、前記質問文の重要度が高いほど前記画面上に表示される前記質問文の文字の大きさが大きくなるように、前記質問文を表示する請求項1記載の情報検索方法。

請求項3

前記質問文の各々の表示座標に基づいて、前記質問文の各々を複数のクラスタ分類し、前記質問文を表示する際に、前記クラスタの各々においてクラスタ中心となる前記質問文の文字の大きさが、クラスタ中心ではない前記質問文の文字の大きさより大きくなるように、前記質問文を表示する請求項2記載の情報検索方法。

請求項4

前記質問文の内容に基づいて、前記質問文の各々の前記特徴量をカテゴリ毎に抽出し、前記特徴量に基づいて、前記質問文を前記画面上に表示する際の表示座標をカテゴリ毎に計算し、前記質問文の各々を、前記画面上の前記計算された表示座標にカテゴリ毎に表示する請求項1〜請求項3の何れか1項に記載の情報検索方法。

請求項5

前記検索クエリを生成する際に、前記指定座標との距離が最も短い表示座標に表示される前記質問文に含まれるキーワードを含む前記検索クエリを生成する請求項1〜請求項4の何れか1項に記載の情報検索方法。

請求項6

前記検索クエリを生成する際に、前記指定座標との距離が、予め定めた閾値以内に含まれる前記質問文の各々に含まれる各キーワードに対して、前記指定座標との距離が前記閾値以内に含まれる前記質問文の各々における出現頻度が高く、且つ、前記指定座標との距離が短い前記質問文に含まれるキーワードほど、キーワードスコアが高くなるように、前記キーワードスコアを算出し、前記キーワードスコアが上位M個のキーワードを含む前記検索クエリを生成する請求項1〜請求項4の何れか1項に記載の情報検索方法。

請求項7

質問集に含まれる自然言語で記述された複数の質問文の内容に基づいて、前記質問文の各々の特徴量を抽出する特徴量抽出部と、前記質問文の各々について、前記特徴量抽出部で前記質問文から抽出した前記特徴量に基づいて、前記質問文を画面上に表示する際の表示座標を計算する座標計算部と、前記質問文の各々を、前記座標計算部で計算された前記画面上の表示座標に表示する表示部と、ユーザ操作によって指定された、前記画面上の指定座標を受け付けた場合、前記質問文の各々について、前記座標計算部で計算された表示座標と、前記指定座標との距離を計算する距離計算部と、前記距離計算部で計算された距離が予め定めた条件を満たす前記質問文に含まれるキーワードに基づいて、検索クエリを生成するクエリ生成部と、前記クエリ生成部で生成された検索クエリを検索エンジンに入力し、前記検索エンジンによって検索された前記検索クエリに対する検索結果を取得する情報検索部と、を備え、前記表示部は、前記情報検索部で取得した前記検索クエリに対する検索結果を前記画面上に表示する情報検索装置

請求項8

請求項1〜請求項6の何れか1項に記載の情報検索方法の各ステップコンピュータに実行させるためのプログラム

技術分野

0001

本発明は、テキストを対象とする情報検索方法情報検索装置、及びプログラムに関する。

背景技術

0002

Web検索に代表される情報検索システムでは、例えばユーザが検索ウインドウに入力したキーワード組(以降、「検索クエリ」という)に対してキーワードマッチ等の処理を行い、検索クエリに適合する文書を検索している。しかし、キーワードマッチを用いた検索処理の場合には、検索クエリのキーワードと文書内のキーワードが完全一致していなくてはならず、検索の再現率(Recall)が低下してしまうという問題が発生することがある。そこで、検索クエリ中に含まれるキーワードを拡張して増加させ、ユーザが検索ウインドウに入力した検索クエリを、より幅広い文書にマッチさせるクエリ拡張技術等が開示されている(特許文献1、2)。

0003

また、検索の再現率を向上させる方法と共に、情報検索インタフェースを改善し、より簡単な操作で情報検索を行う方法についても広く研究が進められている。例えば、2次元平面を用いて視覚的に情報検索をしやすくする方法が開示されている(非特許文献1)。

0004

特開2010−123036号公報
特開2013−45182号公報

先行技術

0005

林大策、福原知宏、佐哲司著、「情報整理を支援する対話型検索インタフェースの提案と評価」、第4回データ工学と情報マネジメントに関するフォーラムDEIM Forum 2012論文集電子情報通信学会、E7-1、2012

発明が解決しようとする課題

0006

上記に示したように、Web検索に代表される情報検索システムでは、例えばユーザが検索ウインドウに検索クエリを入力することによって所望の情報を取得する。

0007

しかしながら、所望の情報を取得するために検索ウインドウに検索クエリを入力するという行為は、情報検索が不慣れなユーザによっては困難を伴う場合が多い。

0008

これは第1に、情報検索を行う場合、ユーザは自らが知りたいことである情報要求を明確に定義する必要があるためである。情報要求が漠然とした状態や、何を調べればよいかわからない状態では、ユーザは検索クエリをどのように作成したらよいかわからなくなることがある。第2に、仮にユーザが情報要求を明確に理解している場合であっても、情報要求を満たす検索結果を得るための検索クエリを作成することが難しいという事情がある。

0009

本発明は、上記の事情を鑑みて成されたものであり、ユーザ自らが検索クエリを検討することなく、情報要求に適合する情報を検索することができる情報検索方法、情報検索装置、及びプログラムを提供することを目的とする。

課題を解決するための手段

0010

上記の目的を達成するために本発明に係る情報検索方法は、質問集に含まれる自然言語記述された複数の質問文の内容に基づいて、前記質問文の各々の特徴量を抽出し、前記質問文の各々について、前記質問文から抽出した前記特徴量に基づいて、前記質問文を画面上に表示する際の表示座標を計算し、前記質問文の各々を、前記画面上の前記計算された表示座標に表示し、ユーザ操作によって指定された、前記画面上の指定座標受け付けた場合、前記質問文の各々について計算された表示座標と、前記指定座標との距離を計算し、前記計算された距離が予め定めた条件を満たす前記質問文に含まれるキーワードに基づいて、検索クエリを生成し、前記生成された検索クエリを検索エンジンに入力し、前記検索エンジンによって検索された前記検索クエリに対する検索結果を表示する。

0011

本発明に係る情報検索装置は、質問集に含まれる自然言語で記述された複数の質問文の内容に基づいて、前記質問文の各々の特徴量を抽出する特徴量抽出部と、前記質問文の各々について、前記特徴量抽出部で前記質問文から抽出した前記特徴量に基づいて、前記質問文を画面上に表示する際の表示座標を計算する座標計算部と、前記質問文の各々を、前記座標計算部で計算された前記画面上の表示座標に表示する表示部と、ユーザ操作によって指定された、前記画面上の指定座標を受け付けた場合、前記質問文の各々について、前記座標計算部で計算された表示座標と、前記指定座標との距離を計算する距離計算部と、前記距離計算部で計算された距離が予め定めた条件を満たす前記質問文に含まれるキーワードに基づいて、検索クエリを生成するクエリ生成部と、前記クエリ生成部で生成された検索クエリを検索エンジンに入力し、前記検索エンジンによって検索された前記検索クエリに対する検索結果を取得する情報検索部と、を含んで構成され、前記表示部は、前記情報検索部で取得した前記検索クエリに対する検索結果を前記画面上に表示する。

0012

本発明に係る情報検索方法のプログラムは、情報検索方法の各ステップコンピュータに実行させる。

発明の効果

0013

以上説明したように、本発明の情報検索方法、情報検索装置、及びプログラムによれば、ユーザ自らが検索クエリを検討することなく、情報要求に適合する情報を検索することができる、という効果が得られる。

図面の簡単な説明

0014

検索画面の構成例を示す図である。
検索画面の表示例を示す図である。
情報検索装置の構成例を示す概略図である。
情報検索装置における座標情報作成処理ルーチンの処理の一例を示すフローチャートである。
情報検索装置における情報検索処理ルーチンの処理の一例を示すフローチャートである。

実施例

0015

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、以下では、同じ働きを担う構成要素又は処理には全図面を通して同じ符号を付与し、重複する説明を適宜省略する。

0016

図1に、本実施の形態に係る情報検索装置100の検索画面50の構成例を示す。検索画面50は、カテゴリ選択領域51、質問表示領域52、及び検索結果表示領域53を含み、情報検索装置100で取り扱われる各種情報を表示すると共に、例えばユーザが操作するマウスの指定位置をポインタで表示し、ユーザがマウスをクリックした位置を受け付ける検索インタフェースとして機能する。

0017

カテゴリ選択領域51は、質問表示領域52をカテゴリ毎切り替えるための領域であり、例えばカテゴリ毎にタブが配置される。図1の例では、カテゴリ選択領域51に3つのタブ51A〜51Cが配置されており、ユーザがマウスで何れかのタブをクリックすることで、クリックしたタブに対応付けられたカテゴリに関する質問文が質問表示領域52に表示される。

0018

ここで、カテゴリとは、例えば複数の項目を一定の基準に基づいて分類した際の区分であり、本実施の形態では、後述するように、複数の質問文がカテゴリ毎に分類されている。

0019

質問表示領域52は、カテゴリ選択領域51で選択されたカテゴリに関する質問文が表示される領域である。ユーザが、質問表示領域52のうち、自分が抱える情報要求に近い内容を示していると思われる質問文が表示されている近辺の領域をマウスでクリックすることで、検索結果表示領域53に、マウスでクリックした領域に応じた質問文に対する検索結果が表示される。

0020

例えば、図2に示すように、カテゴリ選択領域51に「PC」、「野球」、及び「音楽」の3つのカテゴリが用意され、ユーザによって「PC」のカテゴリが選択された場合について説明する。

0021

この場合、質問表示領域52には、PC、すなわちパーソナルコンピュータに関する質問文が表示される。ユーザは、自分が抱える情報要求に近い内容を示していると思われる質問文が表示されている領域にマウスのポインタ54を移動し、マウスをクリックする。なお、質問表示領域52に自分が抱える情報要求に近い内容を示す質問文が表示されていない場合、ユーザは、自分が抱える情報要求に比較的似ている質問文がより集中している近辺の領域にマウスのポインタ54を移動し、マウスをクリックする。

0022

例えばユーザが、「仕事で使うノートパソコンで、できれば軽いものがいい」との情報要求を漠然と持っている場合、図2に示す質問表示領域52には、当該情報要求そのものを示す質問文は存在しない。しかし、図2に示す質問表示領域52には、ユーザの情報要求に関連する「ノートPCが重い」という質問文と、「仕事で使えるノートがほしい」という質問文が表示されているため、ユーザはこれらの質問文が表示されている近辺の領域にポインタ54を移動し、マウスをクリックする。この場合、検索結果表示領域53には、「ノートPCが重い」という質問文と、「仕事で使えるノートがほしい」という質問文と、の主に2つの質問文に関連した検索結果が表示されることになる。

0023

なお、図2に示すように、質問表示領域52に表示される各々の質問文は、質問文の重要度に応じて文字の大きさが異なるように表示される場合がある。

0024

以降、例えば図2に示すような検索画面50を表示し、ユーザがクリックした質問表示領域52の領域に応じた質問文に基づく検索結果を検索結果表示領域53に表示する情報検索装置100について説明する。

0025

システム構成
図3は、本実施の形態に係る情報検索装置100のシステム構成例を示す図である。情報検索装置100は、CPUと、RAMと、後述する座標情報作成処理ルーチン及び情報検索処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。

0026

情報検索装置100は、入力部10、演算部20、記憶部30、及び表示部40を備え、演算部20は、座標情報作成部20A及び情報検索部20Bを備える。

0027

上記のような構成を備える情報検索装置100の入力部10には、例えば自然言語で記述された複数の質問文を含む質問集、及びユーザによってマウスがクリックされた際のポインタ54で指し示された検索画面50上の座標、すなわち「指定座標」が入力される。

0028

なお、質問集は自然言語で記述された質問文を含むテキスト集合であればどのようなものであってもよく、質問文の内容、及び質問集の収集方法に制限はない。例えば、Webの質問回答イト投稿された質問文を用いたり、ホームページ等のよくある質問(Frequently Asked Questions:FAQ)に記載された質問文を用いたりすることができる。なお、この場合、質問集に含まれる質問文を、質問文の趣旨を逸脱しない範囲で加工してもよい。例えば、質問文が長文である場合や、質問文の表現が一般的に用いられている表現と異なる場合には、不要な文節や単語の除去、或いは単語の置き換え等の加工を行ってもよい。質問文の加工方法に特に制限はなく、例えば質問文の構文解析結果に基づいて自動的に質問文を加工してもよく、或いは、ユーザに質問文を加工させるようにしてもよい。

0029

入力部10は、質問集を受け付けた場合、受け付けた質問集を座標情報作成部20Aに通知する。

0030

座標情報作成部20Aは、入力部10から受け付けた質問集に基づいて、質問集に含まれる各々の質問文の質問表示領域52における表示座標、及び質問文を質問表示領域52に表示する場合における、各々の質問文の文字の大きさを規定する質問文スコアを作成する。

0031

そのため、座標情報作成部20Aは、カテゴリ分割部21、特徴量抽出部22、及び座標計算部23を備える。

0032

カテゴリ分割部21は、入力部10から受け付けた質問集に含まれる各々の質問文の内容に基づいて、質問集に含まれる質問文の各々をカテゴリ毎に分割する。

0033

なお、質問文をカテゴリに分割する方法に制限はなく、公知のカテゴリ分割方法を用いることができる。例えば、質問集の収集元で質問文に予め付与されているカテゴリ情報をそのまま用いてもよいし、質問集に対してK-平均アルゴリズムやWard法等の公知のクラスタリングアルゴリズムを適用し、質問文をカテゴリ毎に分割するようにしてもよい。ただし、カテゴリ分割部21は、必ずしも質問文の各々をカテゴリ毎に分割するわけではない。例えば、収集した質問文の数が比較的少ない場合や、質問文が1つの話題に集中している場合等には、質問文の各々が予め1つのカテゴリに含まれるとみなして、以降の処理を実行する。

0034

特徴量抽出部22は、カテゴリ毎に、カテゴリ分割部21で当該カテゴリに分割された各々の質問文に基づいて、各々の質問文から特徴量を抽出する。

0035

なお、質問文からの特徴量の抽出方法に制限はなく、公知の特徴量抽出方法を用いることができる。例えば、質問文に対して形態素解析を行って質問文を形態素に分割し、質問文における形態素の出現分布をbag-of-words形式に基づく特徴ベクトルとして表したものを質問文の特徴量としてもよい。また、ニューラルネットワークを用いて質問文に含まれる各々の形態素の意味ベクトルを作成し、質問文に出現する全ての形態素の意味ベクトルを重心計算などの処理で合成した合成ベクトルを質問文の特徴量としてもよい。

0036

座標計算部23は、カテゴリ毎に、特徴量抽出部22で各々の質問文から抽出した特徴量に基づいて、質問表示領域52における、当該カテゴリに分割された各々の質問文の表示位置を規定する表示座標を計算する。

0037

質問表示領域52は2次元で表される領域であるため、座標計算部23では、特徴量抽出部22で質問文から抽出した特徴量の次元数を2次元に圧縮する処理を行う。

0038

具体的には、各々の質問文から抽出された特徴量が3次元以上のベクトルで表される場合、座標計算部23は、特徴量に対してベクトルの次元圧縮アルゴリズムを適用する。

0039

なお、特徴量に対する次元圧縮方法に制限はなく、公知の次元圧縮方法を用いることができる。例えば特異値分解トピックモデルを用いて、特徴量をそのまま2次元に圧縮して得られるベクトルの座標を質問表示領域52の範囲に正規化することで、質問表示領域52における質問文の表示座標を計算してもよい。また、多次元尺度構成法(Multi Dimensional Scaling:MDS)を用いて特徴量から対応する質問文の類似度を計算し、類似度が高い質問文ほど近接して質問表示領域52に表示するように、質問表示領域52における質問文の表示座標を計算するようにしてもよい。

0040

なお、座標計算部23は、質問表示領域52における質問文の表示座標の他、質問文の重要度に応じて、質問表示領域52に表示される質問文の文字の大きさを規定する値、すなわち、質問文スコアを計算してもよい。

0041

質問文の重要度の算出方法に制限はなく、公知の算出方法を用いることができる。例えば、座標計算部23は、質問表示領域52における各質問文の表示座標を要素とするデータ集合に対してAffinity Propagation等のクラスタリングアルゴリズムを適用して、表示座標の各々を複数のクラスタに分割する。その際、座標計算部23は、各クラスタを代表する特徴的な質問文、すなわちクラスタ中心となる質問文をクラスタ毎に設定する。そして、座標計算部23は、設定したクラスタ中心となる質問文の質問文スコアに予め定めた値を加算して、図2に示したように、クラスタ中心となる質問文の文字の大きさを他の質問文より大きく表示させるようにしてもよい。

0042

また、例えば、座標計算部23は、予め定めたキーワード抽出ルールに従って、各々の質問文からキーワードを抽出し、質問文スコアを計算してもよい。なお、座標計算部23で使用するキーワード抽出ルールに特に制限はなく、自由に規定することができる。一般的には、名詞及び動詞等の自立語又は内容語となる形態素をキーワードとして質問文から抽出することが好ましい。

0043

この場合、座標計算部23は、Term Frequency-Inverse Document Frequency(TF-IDF)法、又はBM25法などの重み算出方法を適用して、各質問文に含まれるキーワードの重みを算出する。そして、座標計算部23は、算出したキーワードの重みに基づいて、各質問文の重みを質問文スコアとして算出する。座標計算部23は、質問文スコアが大きいほど重要な質問文であるとみなし、質問文スコアが大きい質問文ほど質問文の文字の大きく表示させるようにしてもよい。

0044

座標計算部23は、質問文の各々に質問文を一意識別する質問文IDを対応付けると共に、質問文毎に質問文ID、表示座標、及び質問文スコアを対応付け、対応付けられた質問文ID、質問文、表示座標、及び質問文スコアを単位とするデータセットの各々を、記憶部30に予め設けられた質問集座標群DB30Aにカテゴリ毎に格納する。

0045

なお、座標計算部23で質問文スコアを計算しない場合には、座標計算部23は、質問文ID、質問文、及び表示座標を単位とするデータセットの各々を、質問集座標群DB30Aにカテゴリ毎に格納する。また、座標情報作成部20Aにおいて質問文を形態素に分割した場合には、座標計算部23は、質問文に含まれる形態素及び各形態素品詞に関する情報をデータセットに含めるようにしてもよい。更に、座標計算部23は、各カテゴリにカテゴリの内容を表す名称(カテゴリ名)を対応付けて質問集座標群DB30Aに格納するようにしてもよい。

0046

そして、ユーザが情報検索装置100で情報検索を開始する際、表示部40は、カテゴリ選択領域51で選択されているカテゴリに対するデータセットの各々を質問集座標群DB30Aから取得して、質問表示領域52に表示する。この場合、表示部40は、選択されているカテゴリに対するデータセット毎に、質問表示領域52の表示座標に対応する位置に、質問文スコアに応じた文字の大きさで質問文を表示する。

0047

なお、表示部40は、質問表示領域52の大きさに合わせて表示座標を適切にスケーリングし、質問表示領域52に質問文を表示するようにしてもよい。

0048

一方、ユーザが、自分が抱える情報要求に近い内容を示していると思われる質問文の近辺にマウスのポインタ54を移動し、マウスをクリックすると、入力部10には、マウスをクリックして指定した位置に対応する座標、すなわち「指定座標」が入力される。

0049

入力部10は、指定座標を受け付けた場合、受け付けた指定座標を情報検索部20Bに通知する。

0050

情報検索部20Bは、入力部10から受け付けた指定座標、及び質問集座標群DB30Aに格納される質問文の表示座標に基づいて検索クエリを生成し、生成した検索クエリを用いて検索エンジンで検索した検索結果を出力する。

0051

そのため、情報検索部20Bは、距離計算部24、クエリ生成部25、及び情報検索部26を備える。

0052

距離計算部24は、入力部10から受け付けた指定座標、及び質問集座標群DB30Aに格納される質問文の表示座標に基づいて、指定座標と、カテゴリ選択領域51で選択中のカテゴリに含まれる質問文の表示座標と、の距離を、質問文毎に計算する。そして、距離計算部24は、カテゴリ選択領域51で選択中のカテゴリに含まれる質問文と、計算した距離と、を対応付け、例えば対応付けられた距離が短い順に、距離が対応付けられた質問文の各々をクエリ生成部25に出力する。

0053

なお、指定座標と質問文の表示座標との距離の算出方法に制限はなく、例えばユーグリッド距離又はコサイン距離等の公知の距離の計算アルゴリズムを用いることができる。また、質問文の代わりに質問文IDに計算した距離を対応付け、クエリ生成部25に出力するようにしてもよい。

0054

クエリ生成部25は、距離計算部24から受け付けた質問文及び距離に基づいて、対応付けられた距離が予め定めた条件を満たす質問文からキーワードを抽出して、検索クエリを生成する。

0055

クエリ生成部25には予め複数の検索クエリ生成方法実装されており、クエリ生成部25は、例えばカテゴリ選択領域51で選択されたカテゴリの内容に応じて、適用する検索クエリ生成方法を決定することができる。

0056

クエリ生成部25は、例えば1つ目の検索クエリ生成方法として、指定座標からの距離が最も短い表示座標に対応する質問文からキーワードを抽出し、抽出したキーワードの各々を検索クエリとする方法を適用する。

0057

なお、クエリ生成部25で使用するキーワード抽出ルールに制限はなく、自由に規定することができる。一般的には、名詞及び動詞等の自立語又は内容語となる形態素をキーワードとして質問文から抽出する方法が用いられる。この場合、例えば座標情報作成部20Aで既に質問文を形態素に分割している場合には、その分割結果を用いることができる。

0058

また、クエリ生成部25は、2つ目の検索クエリ生成方法として、距離計算部24から受け付けた質問文のうち、対応する表示座標から指定座標までの距離が短い方から順にN個(N=1,2,3,・・・)の質問文を選択し、選択した質問文の各々から抽出したキーワードを検索クエリとする方法を適用する。

0059

なお、Nの値は予め定めた値を用いてもよく、また、可変値であってもよい。例えば、指定座標から予め定めた距離以内に含まれる表示座標の各々に対応した質問文を全て選択することで、結果として可変するN個の質問文を選択するようにしてもよい。

0060

具体的には、クエリ生成部25は、選択したN個の質問文の各々から、予め定めたキーワード抽出ルールに従ってキーワードを抽出し、抽出したキーワードの各々から、検索クエリとして用いるキーワードを決定する。

0061

検索クエリとして用いるキーワードの決定方法には様々な方法を用いることができるが、クエリ生成部25では、N個の質問文の各々から抽出したキーワードのうち、出現頻度が高く、且つ、指定座標との距離がより短い質問文に含まれるキーワードから順に検索クエリとして用いる。

0062

また、2つ目の検索クエリ生成方法では、クエリ生成部25は、選択したN個の質問文の各々から抽出した各キーワードについて、(1)式を用いてキーワードkeywordのキーワードスコアScore(keyword)を計算し、キーワードスコアScoreが高い方から順にM個(M=1,2,3,・・・)のキーワードを検索クエリとして用いる。

0063

0064

ここで、df(keyword)は、N個の質問文におけるキーワードkeywordの出現頻度であり、tf(n,keyword)は、指定座標からの距離がn番目に近い表示座標に対応する質問文におけるキーワードkeywordの出現頻度である。

0065

なお、Mの値は予め定めた値を用いてもよく、また、可変値であってもよい。例えば予め定めた値以上のキーワードスコアScoreを有するキーワードを選択することで、結果として可変するM個のキーワードを検索クエリとして用いるようにしてもよい。

0066

そして、クエリ生成部25は、生成したM個のキーワードを含む検索クエリを情報検索部26に出力する。

0067

情報検索部26は、クエリ生成部25から受け付けた検索クエリを図示しない検索エンジンに入力し、検索エンジンが情報検索部26から入力された検索クエリを用いて検索した検索結果を、検索エンジンから取得する。

0068

なお、情報検索部26が検索クエリを入力する検索エンジンは、例えば情報検索装置100とネットワークで接続される情報検索装置100とは異なる装置(外部装置)で動作する任意の検索システムにおける検索エンジンを用いることができる。この場合、情報検索部26は、当該検索エンジンを用いてWeb等を検索するために提供された検索用のインタフェース(Application Programming Interface:API)を用いて、検索エンジンを利用することができる。

0069

そして、情報検索部26は、検索エンジンから取得した、検索クエリに対する検索結果を表示部40に出力する。

0070

表示部40は、情報検索部26から受け付けた検索結果を、図1に示した検索結果表示領域53に表示する。

0071

以上により、ユーザがマウス等でクリックした質問表示領域52の領域から生成した検索クエリに基づく検索結果が、検索結果表示領域53に表示される。

0072

<情報検索装置の作用>
次に、本実施の形態に係る情報検索装置100の作用について説明する。

0073

情報検索装置100は、質問集を入力部10で受け付けると、受け付けた質問集を座標情報作成部20Aに通知する。そして、情報検索装置100は、CPUで図4に示す座標情報作成処理ルーチンを実行する。

0074

まず、ステップS100において、入力部10から受け付けた質問集に含まれる質問文の各々に対して公知のカテゴリ分割方法を適用し、質問文の各々をカテゴリ毎に分割する。そして、分割した質問文の各々とカテゴリを対応付け、例えば記憶部30に格納する。

0075

ステップS102において、ステップS100で分割した質問文のカテゴリの中から、未選択のカテゴリを1つ選択する。なお、以降では、ステップS102で選択したカテゴリを、特に「注目カテゴリ」ということにする。

0076

ステップS104において、ステップS102で選択した注目カテゴリに含まれる各々の質問文の中から、未選択の質問文を1つ選択する。なお、以降では、ステップS104で選択した質問文を、特に「注目質問文」ということにする。

0077

ステップS106において、ステップS104で選択した注目質問文に対して、上述した公知の特徴量抽出方法を用いて特徴量を抽出し、例えば記憶部30に格納する。

0078

ステップS108において、ステップS106で注目質問文から抽出した特徴量に対して上述した公知の次元圧縮方法を用いて、特徴量の次元数を2次元に圧縮する。そして、2次元に圧縮した特徴量の各要素を質問表示領域52の大きさに合わせて正規化し、正規化した特徴量の各要素を、質問表示領域52における注目質問文の表示座標として注目質問文と対応付け、記憶部30に格納する。

0079

ステップS110において、ステップS102で選択した注目カテゴリに含まれる全ての質問文をステップS104で選択したか否かを判定し、まだステップS104で選択されていない質問文が存在する場合には、ステップS104に移行する。そして、ステップS102で選択した注目カテゴリに含まれる質問文の中から未選択の質問文がなくなるまで、ステップS104で未選択の質問文を選択し、ステップS104〜S110を繰り返すことで、注目カテゴリに含まれる質問文の各々に、質問表示領域52における表示座標が対応付けられる。

0080

一方、ステップS110の判定処理肯定判定の場合には、ステップS112に移行する。

0081

ステップS112において、ステップS108で計算した注目カテゴリにおける各質問文の表示座標の各々を要素とするデータ集合に対して、公知のクラスタリングアルゴリズムを適用し、各質問文の表示座標の各々を注目カテゴリ内で複数のクラスタに分割する。

0082

ステップS114において、注目カテゴリに含まれる質問文の各々に質問文スコアを設定する。

0083

具体的には、まず、注目カテゴリに含まれる質問文の各々の質問文スコアとして予め定めた値を設定する。

0084

そして、ステップS112で分割した、注目カテゴリ内における複数のクラスタの各々に対して、クラスタに含まれる各質問文の表示座標の各々に基づいて、クラスタ中心となる質問文を設定する。なお、クラスタ中心の設定方法に制限はなく、例えば特定のクラスタに含まれる各質問文における表示座標の各々の平均値との距離が最も短い表示座標に対応する質問文を、上記特定のクラスタにおけるクラスタ中心としてもよい。

0085

そして、クラスタ毎に、クラスタ中心に対応付けられた質問文の質問文スコアに所定の値を加算することで、クラスタ中心に対応付けられた質問文の質問文スコアが、クラスタ中心以外の質問文の質問文スコアより大きくなるようにする。したがって、例えば質問表示領域52に表示する質問文の文字を、質問文に対応付けられた質問文スコアの値が大きいほど大きく表示するようにすれば、注目カテゴリにおいてクラスタ中心に対応付けられた質問文の文字が、クラスタ中心以外の質問文の文字より大きく質問表示領域52に表示されることになる。

0086

したがって、ユーザは、質問文の文字の大きさに基づいて、質問表示領域52に表示された各々の質問文の中から特徴的な質問文を素早く把握することができ、情報検索装置100の操作性を向上させることができる。

0087

ステップS116において、注目カテゴリに含まれる質問文の各々に対して、質問文IDと、ステップS108で計算した表示座標と、ステップS114で設定した質問文スコアと、を対応付け、質問集座標群DB30Aにカテゴリ単位で格納する。

0088

ステップS118において、ステップS100で分割した全てのカテゴリをステップS102で選択したか否かを判定し、まだステップS102で選択されていないカテゴリが存在する場合には、ステップS102に移行する。そして、ステップS100で分割したカテゴリの中から未選択のカテゴリがなくなるまで、ステップS102で未選択のカテゴリを選択し、ステップS102〜S118を繰り返すことで、質問文ID、質問文、表示座標、及び質問文スコアがそれぞれ対応付けられたデータセットの各々が、カテゴリ毎に質問集座標群DB30Aに格納される。

0089

以上の処理によって、図4に示す座標情報作成処理ルーチンが終了する。

0090

次に、情報検索装置100で情報検索サービスをユーザに提供する場合、情報検索装置100は、CPUで図5に示す情報検索処理ルーチンを実行する。なお、情報検索処理ルーチンを実行するにあたり、ユーザは、カテゴリ選択領域51で特定のカテゴリを既に選択しているものとする。

0091

まず、ステップS200において、図4に示した座標情報作成処理ルーチンの実行によって質問集座標群DB30Aに格納されたデータセットの各々をカテゴリ毎に読み込み、ユーザがカテゴリ選択領域51で選択したカテゴリに含まれる質問文の各々を、検索画面50の質問表示領域52に表示する。この場合、質問文を、質問文の表示座標で表される位置に、質問文スコアに応じた文字の大きさで質問表示領域52に表示する。なお、上述したように、ここでは一例として、質問文スコアが大きいほど、質問表示領域52に表示する質問文の文字の大きさを大きく表示する。

0092

なお、ユーザがカテゴリ選択領域51で選択したカテゴリを、特に「選択カテゴリ」ということにする。

0093

ステップS202において、ユーザが質問表示領域52でマウスをクリックした際に情報検索装置100のオペレーションシステムから通知される指定座標の有無によって、質問表示領域52がクリックされたか否かを判定する。否定判定の場合には、ユーザがマウスで質問表示領域52をクリックするまで、ステップS202の処理を繰り返す。一方、肯定判定の場合にはステップS204に移行する。

0094

ステップS204において、ステップS202でオペレーションシステムから通知された指定座標を記憶部30に格納する。

0095

ステップS206において、質問集座標群DB30Aを参照して、選択カテゴリに含まれる各々の質問文の中から、未選択の質問文を1つ選択する。

0096

ステップS208において、ステップS206で選択した質問文に対応付けられた表示座標を質問集座標群DB30Aから取得する。

0097

ステップS210において、ステップS204で取得した指定座標と、ステップS208で取得した質問文の表示座標と、の距離を計算する。既に説明したように、指定座標と質問文の表示座標との距離の算出方法に制限はなく、例えばユーグリッド距離又はコサイン距離等の公知の距離の計算アルゴリズムを用いて距離を計算する。

0098

計算した距離は、例えばステップS206で選択した質問文と対応付けて記憶部30に格納する。

0099

ステップS212において、選択カテゴリに含まれる全ての質問文をステップS206で選択したか否かを判定し、まだステップS206で選択されていない選択カテゴリ内の質問文が存在する場合には、ステップS206に移行する。そして、選択カテゴリに含まれる質問文の中から未選択の質問文がなくなるまで、ステップS206で未選択の質問文を選択し、ステップS206〜S212を繰り返すことで、選択カテゴリに含まれる質問文の各々に、ステップS210で指定座標との距離が対応付けられて記憶部30に格納される。

0100

一方、ステップS212の判定処理が肯定判定の場合には、ステップS214に移行する。

0101

ステップS214において、ステップS210で選択カテゴリに含まれる質問文の各々に対応付けられた距離に基づいて、選択カテゴリに含まれる質問文の中から質問文を選択する。そして、本ステップで選択した質問文からキーワードを抽出し、抽出したキーワードに基づいて、ステップS204で取得した指定座標に対応する検索クエリを生成する。

0102

例えば、上記の2つ目の検索クエリ生成方法を用いる場合には、選択カテゴリに含まれる各々の質問文のうち、ステップS210で質問文に対応付けられた距離が短い方から順にN個の質問文を選択する。そして、例えば上述したキーワード抽出ルールに従って、選択したN個の質問文からキーワードを抽出し、抽出したキーワードの各々に対して、(1)式を用いてキーワードスコアScoreをキーワード毎に計算する。そして、キーワードスコアScoreが高い方から順にM個のキーワードを検索クエリとして生成する。

0103

なお、上述したように、本ステップで実行する検索クエリの生成方法はこれに限られず、例えばステップS210で選択カテゴリに含まれる質問文の各々に対応付けられた距離のうち、最も短い距離に対応する質問文からキーワードを抽出し、抽出したキーワードの各々を検索クエリとしてもよい。

0104

ステップS216において、Web等を検索するために予め提供されたAPIを用いて、任意の検索システムにおける検索エンジンにステップS214で生成した検索クエリを入力し、当該検索クエリに対する検索結果を検索エンジンから取得する。

0105

ステップS218において、ステップS216で検索エンジンから取得した検索結果を検索画面50の検索結果表示領域53に表示する。

0106

なお、本実施の形態では、マウスを用いて質問表示領域52の質問文を指定する形態について説明したが、検索画面50を表示する表示装置タッチパネルを取り付け、指等で質問文を指定するようにしてもよいことは言うまでもない。

0107

以上の処理によって、図5に示す情報検索処理ルーチンが終了する。

0108

このように、本実施の形態に係る情報検索装置100は、収集した質問集に含まれる質問文を、質問表示領域52の質問文の特徴量に基づいた位置に表示し、ユーザが、自分が抱える情報要求に近い内容を示していると思われる質問文の近辺でマウスをクリックすることで指定座標を受け付ける。そして、情報検索装置100は、受け付けた指定座標、及び質問表示領域52における質問文の表示座標に基づいて検索クエリを自動的に生成し、生成した検索クエリを用いて検索エンジンで検索した検索結果を検索結果表示領域53に出力する。

0109

したがって、情報検索装置100は、従来の検索エンジンを用いた検索方法のように、ユーザが検索エンジンの検索ウインドウに検索クエリを入力する必要がないため、検索クエリを検索ウインドウに入力して検索する場合に比べて、検索に係る操作性を向上させることができる。特に、大きさの関係から文字入力が比較的困難となりやすいスマートフォンタブレット端末等の携帯端末での操作性の向上を図ることができる。

0110

また、情報検索装置100は、自分が抱える情報要求に近い内容を示していると思われる質問文の近辺をマウスでクリックするだけで、検索クエリを自動的に生成する。したがって、ユーザ自身では思いつくことが困難な検索クエリに対する検索結果を得ることができるため、ユーザが検索クエリを検討する場合に比べて、多様な情報を得ることができる。このように、ユーザ自身では思いつくことが困難な観点から情報要求に対応する内容を調べることができるため、特に、教育目的のアプリケーション等に本発明に係る情報検索方法を用いることができる。

0111

また、情報検索装置100は、ユーザが質問表示領域52をマウスでクリックすることで、指定座標に応じた質問の検索結果を表示するため、ユーザが検索クエリを検索ウインドウに入力して検索する場合に比べて、高速、且つ、大量に情報を得ることができる。したがって、迅速な検索が要求されるコールセンター検索端末等において、本発明に係る情報検索方法を用いることができる。

0112

また、情報検索装置100は、ユーザがクリックした領域の近辺に表示される複数の質問文に基づいて、検索クエリを自動的に生成することができる。したがって、質問表示領域52にユーザの情報要求に適した質問文がない場合であっても、ユーザが情報要求に類似すると思われる質問文の近辺をクリックすることによって、情報要求に適した検索結果を得ることができる。

0113

更に、情報検索装置100では、質問文の重要度が高いほど質問表示領域52に表示する質問文の文字の大きさを大きくするため、同じ大きさの文字で質問文を表示する場合に比べて、ユーザは複数の質問文の中から特徴的な質問文を素早く把握することができる。

0114

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

0115

例えば、上述の情報検索装置100は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。

0116

また、本願明細書中では、プログラムが予めROMにインストールされている実施形態を説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

0117

10・・・入力部
20・・・演算部
20A・・・座標情報作成部
20B・・・情報検索部
21・・・カテゴリ分割部
22・・・特徴量抽出部
23・・・座標計算部
24・・・距離計算部
25・・・クエリ生成部
26・・・情報検索部
30・・・記憶部
40・・・表示部
50・・・検索画面
51・・・カテゴリ選択領域
52・・・質問表示領域
53・・・検索結果表示領域
100・・・情報検索装置
30A・・・質問集座標群DB

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • グーグルエルエルシーの「 ビデオマッチングシステムのサービス品質向上のための画像マッチングシステムの使用」が 公開されました。( 2019/05/30)

    【課題・解決手段】システムは、対象のビデオを受信する。システムは、対象のビデオ内の動的セグメントと準静的セグメントとを識別する。システムは、対象のビデオの動的セグメントと参照ビデオの参照動的セグメント... 詳細

  • 尾和剛一の「 特許文献集合の分析方法」が 公開されました。( 2019/05/23)

    【課題】特定のコア技術や、特定の出願人の特定の分野の全特許文献集合の文献件数時系列動向とは異なる動向を示す文献項目を抽出する方法を提供する。【解決手段】特定文献集合分折方法は、特定の文献集合の特許文献... 詳細

  • 株式会社大塚商会の「 画像解析システム」が 公開されました。( 2019/05/23)

    【課題】 画像解析システムを提供することを目的とする。【解決手段】 画像解析システムであって,対象物と対象物関連情報とを対応づけて記憶する対象物情報記憶部と,第1の画像情報と,少なくとも一以上の第... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ