図面 (/)

技術 技術動向情報作成装置

出願人 公立大学法人広島市立大学
発明者 難波英嗣
出願日 2012年7月13日 (8年4ヶ月経過) 出願番号 2012-157433
公開日 2012年11月15日 (8年0ヶ月経過) 公開番号 2012-226768
状態 特許登録済
技術分野 文書処理装置 機械翻訳 検索装置
主要キーワード 引用形式 分類結果情報 抄録データ 引用情報 スプレッドシート形式 国際特許分類 調和平均 特許分類
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2012年11月15日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

文献の引用関係を用いることにより、関連用語を取得する関連用語取得装置を提供する。

解決手段

文献情報が2以上記憶される文献情報記憶部11と、用語情報受け付ける用語情報受付部12と、用語情報を含む文献情報において引用している他の文献を識別する情報である引用文識別情報を少なくとも有する文献情報の部分を取得する文献情報取得部13と、文献情報取得部13が取得した引用文献識別情報で識別される引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を文献情報記憶部11から取得する引用文献情報取得部14と、その引用文献情報の一部から、用語情報に関連する関連用語情報を取得する関連用語情報取得部15と、関連用語情報を出力する関連用語情報出力部16と、を備える。

概要

背景

従来の情報処理装置は、Web上のWebページ検索し、関連用語自動収集する(例えば、非特許文献1、非特許文献2、非特許文献3、非特許文献4参照)。一般に、Webからある専門用語tに関連する用語を収集するには、まず、ある用語tに関する記述を収集し、そこからtと関連する用語を抽出するという手順が必要になる。ここで、用語tに関する適切な記述を収集する方法が、ポイントのひとつとなる。例えば、非特許文献1において、次に述べる方法で、用語tに関する記述を収集している。ある用語tに対して、まず「tとは」、「tという」、「tは」、「t」の4種類のクエリ検索エンジンに入力し、得られたURLのそれぞれ上位100ページ入手する。次に、入手したページを整形して文に分割し、用語tを含む文のみを抽出し、そこから関連用語の収集を行う。

なお、従来技術において、論文間の参照情報を考慮したサーベイ論文作成支援システムが存在する(非特許文献5)。
また、近年、ある用語に関連する用語をテキスト集合から自動的に収集する研究が活発に行われている(非特許文献1,3,4,6参照)。

概要

文献の引用関係を用いることにより、関連用語を取得する関連用語取得装置を提供する。文献情報が2以上記憶される文献情報記憶部11と、用語情報受け付ける用語情報受付部12と、用語情報を含む文献情報において引用している他の文献を識別する情報である引用文識別情報を少なくとも有する文献情報の部分を取得する文献情報取得部13と、文献情報取得部13が取得した引用文献識別情報で識別される引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を文献情報記憶部11から取得する引用文献情報取得部14と、その引用文献情報の一部から、用語情報に関連する関連用語情報を取得する関連用語情報取得部15と、関連用語情報を出力する関連用語情報出力部16と、を備える。

目的

本発明は、上記問題の少なくとも一つを解決するためになされたものであり、文献の引用関係を用いることにより、適切な関連用語の取得を行うことができる関連用語取得装置等を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

文献を示す情報である文献情報が2以上記憶される文献情報記憶部と、用語を示す情報である用語情報受け付ける用語情報受付部と、前記用語情報受付部が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得部と、前記引用文献情報取得部が取得した引用文献情報の一部から、前記用語情報受付部が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得部と、前記関連用語情報取得部が取得した関連用語情報を出力する関連用語情報出力部と、を具備する関連用語取得装置

請求項2

前記文献情報は、当該文献情報の構造を記述する情報である構造記述情報を有し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、前記構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得する、請求項1記載の関連用語取得装置。

請求項3

前記引用文献情報の1以上の部分と、当該部分の項目との対応を示す情報である引用文献構造情報を取得する引用文献構造情報取得部をさらに備え、前記引用文献情報取得部は、前記引用文献構造情報取得部が取得した引用文献構造情報を用いて、前記引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得する、請求項1記載の関連用語取得装置。

請求項4

前記引用文献情報は、特許文書を示す情報であり、前記あらかじめ決められている項目に対応する引用文献情報の部分は、独立請求項の部分である、請求項1から請求項3のいずれか記載の関連用語取得装置。

請求項5

前記引用文献情報は、特許文書を示す情報であり、前記あらかじめ決められている項目に対応する引用文献情報の部分は、発明の効果を記載している部分である、請求項1から請求項3のいずれか記載の関連用語取得装置。

請求項6

前記引用文献情報は、特許文書を示す情報であり、前記あらかじめ決められている項目に対応する引用文献情報の部分は、請求項の前提部以外の部分である、請求項1から請求項3のいずれか記載の関連用語取得装置。

請求項7

前記文献情報取得部は、文献情報の一部を取得する場合に、前記引用文献識別情報を少なくとも有する部分であって、前記引用文献識別情報で識別される文献についての記述を示す情報である引用情報を少なくとも有する部分を取得し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得する、請求項1から請求項6のいずれか記載の関連用語取得装置。

請求項8

前記引用形式は、引用文献の問題を指摘する形式である問題指摘型引用形式と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式とを少なくとも含む、請求項7記載の関連用語取得装置。

請求項9

前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用情報における引用形式が問題指摘型引用形式である場合には、背景的な項目を有する部分を取得し、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用情報における引用形式が論説根拠型引用形式である場合には、特徴的な項目を有する部分を取得する、請求項8記載の関連用語取得装置。

請求項10

前記関連用語情報取得部は、前記引用文献情報取得部が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を取得する関連用語候補情報取得手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報の示す用語の関連度を前記関連用語候補情報ごとに算出する関連度算出手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を関連用語情報に決定する関連用語情報決定手段と、を具備する、請求項1から請求項9のいずれか記載の関連用語取得装置。

請求項11

前記文献情報記憶部では、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶され、前記文献情報取得部は、前記文献情報記憶部で記憶されている前記第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、前記引用文献情報取得部は、前記文献情報記憶部で記憶されている前記第2の種類の文献情報から、引用文献情報の一部を取得する、請求項1から請求項10のいずれか記載の関連用語取得装置。

請求項12

文献を示す情報である文献情報が2以上記憶される文献情報記憶部と、用語情報受付部と、文献情報取得部と、引用文献情報取得部と、関連用語情報取得部と、関連用語情報出力部とを備えた関連用語取得装置で用いられる関連用語取得方法であって、用語情報受付部が、用語を示す情報である用語情報を受け付ける用語情報受付ステップと、文献情報取得部が、前記用語情報受付ステップで受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を、前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得ステップと、引用文献情報取得部が、前記文献情報取得ステップで取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得ステップと、関連用語情報取得部が、前記引用文献情報取得ステップで取得した引用文献情報の一部から、前記用語情報受付ステップが受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得ステップと、関連用語情報出力部が、前記関連用語情報取得ステップで取得した関連用語情報を出力する関連用語情報出力ステップと、を具備する関連用語取得方法。

請求項13

コンピュータに、用語を示す情報である用語情報を受け付ける用語情報受付ステップと、前記用語情報受付ステップで受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を、文献を示す情報である文献情報が2以上記憶される文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得ステップと、前記引用文献情報取得ステップで取得した引用文献情報の一部から、前記用語情報受付ステップが受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得ステップと、前記関連用語情報取得ステップで取得した関連用語情報を出力する関連用語情報出力ステップと、を実行させるためのプログラム

請求項14

技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部と、前記文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出部と、前記技術用語抽出部が抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得部と、前記技術用語抽出部が抽出した技術用語と、前記時期情報取得部が取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成部と、前記技術動向情報作成部が作成した技術動向情報を出力する出力部と、を備えた技術動向情報作成装置

請求項15

検索用語を受け付ける検索用語受付部と、前記検索用語受付部が受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索部と、をさらに備え、前記文献情報取得部は、検索された文献情報の全部または一部を取得する、請求項14記載の技術動向情報作成装置。

請求項16

2以上の検索用語が記憶される検索用語記憶部と、前記検索用語記憶部で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける検索用語選択受付部と、をさらに備え、前記検索用語受付部は、前記検索用語選択受付部が受け付けた選択で示される検索用語を受け付ける、請求項15記載の技術動向情報作成装置。

請求項17

前記文献情報記憶部で記憶されている文献情報から専門用語を抽出する専門用語抽出部と、所定の接尾語が記憶される接尾語記憶部と、前記専門用語抽出部が抽出した専門用語に前記接尾語記憶部で記憶されている接尾語を付けた用語が、前記文献情報記憶部で記憶されている文献情報に含まれる場合に、当該専門用語を検索用語として前記検索用語記憶部に蓄積する検索用語蓄積部と、をさらに備えた、請求項16記載の技術動向情報作成装置。

請求項18

前記検索部は、前記検索用語受付部が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索する、請求項15から請求項17のいずれか記載の技術動向情報作成装置。

請求項19

前記文献情報は、技術文献のタイトルを少なくとも含む情報であり、前記検索部は、前記文献情報記憶部で記憶されている文献情報の示す技術文献のタイトルにおけるメイントピックを示す領域に、前記検索用語受付部が受け付けた検索用語が含まれる文献情報を検索する、請求項18記載の技術動向情報作成装置。

請求項20

前記メイントピックを示す領域は、タイトルの最後の領域である、請求項19記載の技術動向情報作成装置。

請求項21

前記検索部によって検索された文献情報と分野が同一の文献情報を特定する特定部をさらに備え、前記文献情報取得部は、前記特定部が特定した文献情報の全部または一部も前記文献情報記憶部から取得する、請求項15から請求項20のいずれか記載の技術動向情報作成装置。

請求項22

前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得し、当該引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定する、請求項21記載の技術動向情報作成装置。

請求項23

前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得し、当該引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合に、当該引用情報で記述されている技術文献を識別する引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定する、請求項22記載の技術動向情報作成装置。

請求項24

前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語として抽出する技術用語抽出手段と、を備えた、請求項14から請求項23のいずれか記載の技術動向情報作成装置。

請求項25

前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記検索用語受付部が受け付けた検索用語と、前記手がかり語句検索手段が検索した手がかり語句によって対応付けられている用語を技術用語として抽出する技術用語抽出手段と、を備えた、請求項15から請求項23のいずれか記載の技術動向情報作成装置。

請求項26

前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、2以上の専門用語が記憶される専門用語記憶手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語に、前記専門用語記憶手段で記憶されている専門用語が含まれる場合に、当該専門用語を技術用語として抽出する技術用語抽出手段と、を備えた、請求項14から請求項23のいずれか記載の技術動向情報作成装置。

請求項27

前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する技術用語候補抽出手段と、前記技術用語候補抽出手段が抽出した技術用語候補の全部または一部を技術用語として選択する技術用語選択手段と、を備えた、請求項14から請求項23のいずれか記載の技術動向情報作成装置。

請求項28

前記技術用語抽出部は、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段をさらに備え、前記技術用語選択手段は、前記技術用語接尾語記憶手段で記憶されている接尾語を有する技術用語候補を技術用語として選択する、請求項27記載の技術動向情報作成装置。

請求項29

前記技術用語選択手段は、前記文献情報記憶部で記憶されているいずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択する、請求項27記載の技術動向情報作成装置。

請求項30

前記技術用語抽出部は、前記技術用語候補が抽出された文献情報と、分野が同一の文献情報を特定する文献情報特定手段と、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段と、をさらに備え、前記文献情報取得部は、前記文献情報特定手段が特定した文献情報の全部または一部も取得し、前記技術用語選択手段は、前記文献情報取得部が取得した、一の文献情報の全部または一部と、当該一の文献情報と分野が同一であると前記文献情報特定手段によって特定された文献情報の全部または一部とから抽出された技術用語候補の少なくともいずれかが、前記接尾語記憶手段で記憶されている接尾語を有する場合に、前記一の文献情報の全部または一部から抽出された技術用語候補を技術用語として選択する、請求項27記載の技術動向情報作成装置。

請求項31

前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であり、前記出力部は、前記技術動向情報を表示出力する、請求項14から請求項30のいずれか記載の技術動向情報作成装置。

請求項32

前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する図形である文献図形が、当該文献情報に対応する時期情報の示す時期に応じて表示される画像であり、前記技術動向情報における文献図形の選択を受け付ける図形選択受付部と、前記図形選択受付部が選択を受け付けた文献図形に対応する文献情報に関する情報であり、前記技術動向情報の画像に表示する情報である表示情報を前記文献情報記憶部から取得する表示情報取得部と、をさらに備え、前記技術動向情報作成部は、前記表示情報取得部が取得した表示情報を表示する技術動向情報を作成する、請求項31記載の技術動向情報作成装置。

請求項33

技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部と、文献情報取得部と、技術用語抽出部と、時期情報取得部と、技術動向情報作成部と、出力部とを用いて実行される技術動向情報作成方法であって、前記文献情報取得部が、前記文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得ステップと、前記技術用語抽出部が、前記文献情報取得ステップで取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出ステップと、前記時期情報取得部が、前記技術用語抽出ステップで抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得ステップと、前記技術動向情報作成部が、前記技術用語抽出ステップで抽出した技術用語と、前記時期情報取得ステップで取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成ステップと、前記出力部が、前記技術動向情報作成ステップで作成した技術動向情報を出力する出力ステップと、を備えた技術動向情報作成方法。

請求項34

検索用語受付部と、検索部とをさらに用いて実行される技術動向情報作成方法であって、前記検索用語受付部が、検索用語を受け付ける検索用語受付ステップと、前記検索部が、前記検索用語受付ステップで受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索ステップと、をさらに備え、前記文献情報取得ステップでは、検索された文献情報の全部または一部を取得する、請求項33記載の技術動向情報作成方法。

請求項35

コンピュータに、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出ステップと、前記技術用語抽出ステップで抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得ステップと、前記技術用語抽出ステップで抽出した技術用語と、前記時期情報取得ステップで取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成ステップと、前記技術動向情報作成ステップで作成した技術動向情報を出力する出力ステップと、を実行させるためのプログラム。

請求項36

コンピュータに、検索用語を受け付ける検索用語受付ステップと、前記検索用語受付ステップで受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索ステップと、をさらに実行させ、前記文献情報取得ステップでは、検索された文献情報の全部または一部を取得する、請求項35記載のプログラム。

技術分野

0001

本発明は、例えば、ある用語に関連する関連用語を取得する関連用語取得装置等や、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成装置等に関する。

背景技術

0002

従来の情報処理装置は、Web上のWebページ検索し、関連用語を自動収集する(例えば、非特許文献1、非特許文献2、非特許文献3、非特許文献4参照)。一般に、Webからある専門用語tに関連する用語を収集するには、まず、ある用語tに関する記述を収集し、そこからtと関連する用語を抽出するという手順が必要になる。ここで、用語tに関する適切な記述を収集する方法が、ポイントのひとつとなる。例えば、非特許文献1において、次に述べる方法で、用語tに関する記述を収集している。ある用語tに対して、まず「tとは」、「tという」、「tは」、「t」の4種類のクエリ検索エンジンに入力し、得られたURLのそれぞれ上位100ページ入手する。次に、入手したページを整形して文に分割し、用語tを含む文のみを抽出し、そこから関連用語の収集を行う。

0003

なお、従来技術において、論文間の参照情報を考慮したサーベイ論文作成支援システムが存在する(非特許文献5)。
また、近年、ある用語に関連する用語をテキスト集合から自動的に収集する研究が活発に行われている(非特許文献1,3,4,6参照)。

先行技術

0004

理史、他1名,「ウェブを利用した関連用語の自動収集」、情報処理学会研究報告自然言語処理NL−153、p.57−64、2003年
佐々木靖弘、他2名、「用語間関連度を測る指標の提案」、言語処理学会第10回年次大会,p.25−28、2004年
白井清昭、他3名、「ポータルサイト自動作成の試み」、言語処理学会第10回年次大会、p.624−627、2004年
小原恭介、他3名、「ウェブを利用した関連用語収集」、第3回情報科学技術フォーラム(FIT2004),2004年
難波英嗣、他1名,「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理,Vol.6,No.5,p.43−62、1999年
難波英嗣、「論文間の引用情報を利用した関連用語の自動収集」、言語処理学会 第11回年次大会、2005年

発明が解決しようとする課題

0005

しかしながら、従来の情報処理装置においては、文献の引用関係に着目しておらず、用語ごとに、Webサーチエンジンを使って関連ページを収集し、そこから関連用語を抽出するため、関連用語の収集に時間がかかる、という問題があった。また、従来の情報処理装置においては、文献の引用関係に着目していないために、関連用語収集の精度が低い、という問題があった。

0006

また、ある研究分野において、「どのような技術がいつから使われているのか」、と言う情報を収集して整理することは、その分野の研究動向概観するために必要不可欠である。しかしながら、そのような情報を収集するには、その研究分野に精通した人の多大な労力と時間を必要とする、と言う問題があった。

0007

また、上述の非特許文献等では、前述のように、ある用語に関連する用語を自動的に収集することはできる。しかしながら、上述の非特許文献等では、技術用語がいつ頃から使われているのかを示す情報を作成することができなかった。

0008

本発明は、上記問題の少なくとも一つを解決するためになされたものであり、文献の引用関係を用いることにより、適切な関連用語の取得を行うことができる関連用語取得装置等を提供することを目的とする。

0009

また、本発明は、上記問題点の少なくとも一つを解決するためになされたものであり、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる技術動向情報作成装置等を提供することを目的とする。

課題を解決するための手段

0010

上記目的の少なくとも一つを達成するため、本発明による関連用語取得装置は、文献を示す情報である文献情報が2以上記憶される文献情報記憶部と、用語を示す情報である用語情報受け付ける用語情報受付部と、前記用語情報受付部が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得部と、前記引用文献情報取得部が取得した引用文献情報の一部から、前記用語情報受付部が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得部と、前記関連用語情報取得部が取得した関連用語情報を出力する関連用語情報出力部と、を備えたものである。

0011

このような構成により、用語情報に関連する関連用語情報を取得することができる。特に、引用文献情報取得部が引用文献情報の一部を取得することによって、より適切な関連用語情報の取得を行うことができうる。

0012

また、本発明による関連用語取得装置では、前記文献情報は、当該文献情報の構造を記述する情報である構造記述情報を有し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、前記構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。

0013

このような構成により、文献情報は構造記述情報を有するため、引用文献情報取得部は、あらかじめ決められている項目に対応する部分を容易に取得することができうる。

0014

また、本発明による関連用語取得装置では、前記引用文献情報の1以上の部分と、当該部分の項目との対応を示す情報である引用文献構造情報を取得する引用文献構造情報取得部をさらに備え、前記引用文献情報取得部は、前記引用文献構造情報取得部が取得した引用文献構造情報を用いて、前記引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得してもよい。

0015

このような構成により、引用文献情報取得部は、引用文献構造情報取得部が取得した引用文献構造情報を用いて、あらかじめ決められている項目に対応する部分を容易に取得することができうる。

0016

また、本発明による関連用語取得装置では、前記文献情報取得部は、文献情報の一部を取得する場合に、前記引用文献識別情報を少なくとも有する部分であって、前記引用文献識別情報で識別される文献についての記述を示す情報である引用情報を少なくとも有する部分を取得し、前記引用文献情報取得部は、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、前記文献情報取得部が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得してもよい。

0017

このような構成により、引用形式に応じた項目に対応する部分を、引用文献情報取得部が取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より適切な関連用語情報の取得が可能となりうる。

0018

また、本発明による関連用語取得装置では、前記関連用語情報取得部は、前記引用文献情報取得部が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を取得する関連用語候補情報取得手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報の示す用語の関連度を前記関連用語候補情報ごとに算出する関連度算出手段と、前記関連用語候補情報取得手段が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を関連用語情報に決定する関連用語情報決定手段と、を備えてもよい。
このような構成により、引用文献情報取得部によって取得された引用文献情報の一部から、適切に関連用語情報を取得することができうる。

0019

また、本発明による関連用語取得装置では、前記文献情報記憶部では、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶され、前記文献情報取得部は、前記文献情報記憶部で記憶されている前記第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、前記引用文献情報取得部は、前記文献情報記憶部で記憶されている前記第2の種類の文献情報から、引用文献情報の一部を取得してもよい。

0020

このような構成により、ある用語に関連する関連用語であって、その用語と異なる分野の関連用語を取得することができうる。例えば、学術文献で使用される用語に関連する特許用語を取得することができうる。

0021

また、上記目的の少なくとも一つを達成するため、本発明による技術動向情報作成装置は、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部と、前記文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得部と、前記文献情報取得部が取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出部と、前記技術用語抽出部が抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得部と、前記技術用語抽出部が抽出した技術用語と、前記時期情報取得部が取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成部と、前記技術動向情報作成部が作成した技術動向情報を出力する出力部と、を備えたものである。

0022

このような構成により、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる。その結果、その作成された技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。また、その技術動向情報を作成するために、その研究分野に精通した人の多大な労力と時間を費やす必要がないというメリットもある。

0023

また、本発明による技術動向情報作成装置では、検索用語を受け付ける検索用語受付部と、前記検索用語受付部が受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索部と、をさらに備え、前記文献情報取得部は、検索された文献情報の全部または一部を取得してもよい。
このような構成により、検索用語によって、技術動向情報を作成する研究分野を指定することができうる。

0024

また、本発明による技術動向情報作成装置では、2以上の検索用語が記憶される検索用語記憶部と、前記検索用語記憶部で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける検索用語選択受付部と、をさらに備え、前記検索用語受付部は、前記検索用語選択受付部が受け付けた選択で示される検索用語を受け付けてもよい。

0025

このような構成により、検索用語として適切な用語(例えば、研究分野を示す用語など)を検索用語記憶部において記憶しておくことにより、不適切な検索用語が入力される事態を回避することができうる。その結果として、適切な検索を行うことができ、適切な技術動向情報を作成することができるようになる。

0026

また、本発明による技術動向情報作成装置では、前記文献情報記憶部で記憶されている文献情報から専門用語を抽出する専門用語抽出部と、所定の接尾語が記憶される接尾語記憶部と、前記専門用語抽出部が抽出した専門用語に前記接尾語記憶部で記憶されている接尾語を付けた用語が、前記文献情報記憶部で記憶されている文献情報に含まれる場合に、当該専門用語を検索用語として前記検索用語記憶部に蓄積する検索用語蓄積部と、をさらに備えてもよい。
このような構成により、ユーザ等が検索用語を検索用語記憶部に蓄積する処理を行わなくても、自動的に検索用語を検索用語記憶部に蓄積することができる。

0027

また、本発明による技術動向情報作成装置では、前記検索部は、前記検索用語受付部が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索してもよい。
このような構成により、検索用語をメイントピックとする分野の技術動向情報を作成することができうる。

0028

また、本発明による技術動向情報作成装置では、前記検索部によって検索された文献情報と分野が同一の文献情報を特定する特定部をさらに備え、前記文献情報取得部は、前記特定部が特定した文献情報の全部または一部も前記文献情報記憶部から取得してもよい。

0029

このような構成により、検索用語を用いた検索によって取得することができない文献情報であるが、その検索によって取得された文献情報と分野が同一の他の文献情報を取得することができうる。その結果、より多くの文献情報を収集することができ、より適切な技術動向情報を作成することができると考えられる。

0030

また、本発明による技術動向情報作成装置では、前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得し、当該引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定してもよい。
このような構成により、引用関係を用いて文献情報の特定を行うことができうる。

0031

また、本発明による技術動向情報作成装置では、前記特定部は、前記検索部によって検索された文献情報から、当該文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得し、当該引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合に、当該引用情報で記述されている技術文献を識別する引用文献識別情報を用いて、前記検索部によって検索された文献情報と分野が同一の文献情報を特定してもよい。

0032

このような構成により、引用情報をも用いて、文献情報の特定を行うことができる。特に、引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である場合には、引用された文献情報と、引用した文献情報との分野が似ていることが発明者らの研究によってわかっており、適切な文献情報の特定を行うことができうる。

0033

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、手がかり語句を用いて、取得された文献情報の全部または一部から、技術用語を抽出することができる。

0034

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記検索用語受付部が受け付けた検索用語と、前記手がかり語句検索手段が検索した手がかり語句によって対応付けられている用語を技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、手がかり語句と検索用語とを用いて、取得された文献情報の全部または一部から、技術用語を抽出することができる。

0035

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、2以上の専門用語が記憶される専門用語記憶手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語に、前記専門用語記憶手段で記憶されている専門用語が含まれる場合に、当該専門用語を技術用語として抽出する技術用語抽出手段と、を備えてもよい。
このような構成により、技術用語抽出手段が一般名詞や非専門用語等を技術用語として抽出することを回避することができうる。

0036

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、1以上の手がかり語句が記憶される手がかり語句記憶手段と、前記文献情報取得部が取得した文献情報の全部または一部において、前記手がかり語句を検索する手がかり語句検索手段と、前記手がかり語句検索手段が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する技術用語候補抽出手段と、前記技術用語候補抽出手段が抽出した技術用語候補の全部または一部を技術用語として選択する技術用語選択手段と、を備えてもよい。
このような構成により、まず手がかり語句を用いて技術用語候補を抽出し、その後に、技術用語候補から適切な技術用語を選択することができうる。

0037

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段をさらに備え、前記技術用語選択手段は、前記技術用語接尾語記憶手段で記憶されている接尾語を有する技術用語候補を技術用語として選択してもよい。

0038

このような構成により、所定の接尾語を有する用語は、技術用語として適切であると考えられるところ、その接尾語を用いた技術用語の選択を行うことによって、適切な技術用語を選択することができうる。

0039

また、本発明による技術動向情報作成装置では、前記技術用語選択手段は、前記文献情報記憶部で記憶されているいずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択してもよい。

0040

このような構成により、いずれの文献情報においてもメイントピックとして用いられていない用語は、技術用語として好適でないと考えられるところ、いずれかの文献情報においてメイントピックとして用いられている技術用語候補を技術用語として選択することにより、適切な技術用語を選択することができうる。

0041

また、本発明による技術動向情報作成装置では、前記技術用語抽出部は、前記技術用語候補が抽出された文献情報と、分野が同一の文献情報を特定する文献情報特定手段と、前記技術用語が取り得る1以上の接尾語が記憶される技術用語接尾語記憶手段と、をさらに備え、前記文献情報取得部は、前記文献情報特定手段が特定した文献情報の全部または一部も取得し、前記技術用語選択手段は、前記文献情報取得部が取得した、一の文献情報の全部または一部と、当該一の文献情報と分野が同一であると前記文献情報特定手段によって特定された文献情報の全部または一部とから抽出された技術用語候補の少なくともいずれかが、前記接尾語記憶手段で記憶されている接尾語を有する場合に、前記一の文献情報の全部または一部から抽出された技術用語候補を技術用語として選択してもよい。
このような構成により、適切な技術用語の選択をすることができうる。

0042

また、本発明による技術動向情報作成装置では、前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であり、前記出力部は、前記技術動向情報を表示出力してもよい。
このような構成により、表示出力された技術動向情報の画像をユーザが見ることにより、技術の動向を容易にとらえることができうる。

0043

また、本発明による技術動向情報作成装置では、前記技術動向情報は、技術用語ごとに、当該技術用語を含む文献情報に対応する図形である文献図形が、当該文献情報に対応する時期情報の示す時期に応じて表示される画像であり、前記技術動向情報における文献図形の選択を受け付ける図形選択受付部と、前記図形選択受付部が選択を受け付けた文献図形に対応する文献情報に関する情報であり、前記技術動向情報の画像に表示する情報である表示情報を前記文献情報記憶部から取得する表示情報取得部と、をさらに備え、前記技術動向情報作成部は、前記表示情報取得部が取得した表示情報を表示する技術動向情報を作成してもよい。

0044

このような構成により、例えば、技術動向情報の画像に表示されている技術用語の含まれる文献情報についての所定の情報を、その技術動向情報の画像を見ているユーザが容易に知ることができるようになり、ユーザの利便性が向上されている。

発明の効果

0045

本発明による関連用語取得装置等によれば、用語情報に関連する関連用語情報を取得することができる。また、例えば、引用形式に応じた項目に対応する部分を取得して関連用語情報を取得することによって、より適切な関連用語情報の取得が可能となりうる。

0046

本発明による技術動向情報作成装置等によれば、技術用語とその技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成することができる。したがって、その技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。

図面の簡単な説明

0047

本発明の実施の形態1による関連用語取得装置の構成を示すブロック図
同実施の形態による関連用語情報取得部の構成を示すブロック図
同実施の形態による関連用語取得装置の動作を示すフローチャート
同実施の形態による関連用語取得装置の動作を示すフローチャート
同実施の形態による関連用語取得装置の動作を示すフローチャート
同実施の形態による関連用語取得装置の動作を示すフローチャート
同実施の形態における実験例について説明するための図
同実施の形態における実験例について説明するための図
本発明の実施の形態2による関連用語取得装置の構成を示すブロック図
同実施の形態による関連用語情報取得部の構成を示すブロック図
同実施の形態による関連用語情報取得部の構成を示すブロック図
本発明の実施の形態3による関連用語情報取得部の動作を示すフローチャート
同実施の形態におけるタイプC用手がかり句辞書の一例を示す図
同実施の形態におけるタイプB用手がかり句辞書の一例を示す図
同実施の形態における文献情報の書誌情報の一例を示す図
本発明の実施の形態4による技術動向情報作成装置の構成を示すブロック図
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態における技術用語抽出部の構成を示すブロック図
同実施の形態における技術用語抽出部の動作を示すフローチャート
同実施の形態における技術用語抽出部の構成を示すブロック図
同実施の形態における技術用語抽出部の動作を示すフローチャート
同実施の形態における技術用語抽出部の構成を示すブロック図
同実施の形態における技術用語抽出部の動作を示すフローチャート
同実施の形態における技術用語抽出部の構成を示すブロック図
同実施の形態における技術用語抽出部の動作を示すフローチャート
同実施の形態における技術用語抽出部の構成を示すブロック図
同実施の形態における技術用語抽出部の動作を示すフローチャート
同実施の形態における技術用語抽出部の動作を示すフローチャート
同実施の形態における構造タグと手がかり語句との対応の一例を示す図
同実施の形態における文献情報記憶部で記憶されている情報の一例を示す図
同実施の形態におけるタイプCの手がかり語句と手がかり語句の位置との対応の一例を示す図
同実施の形態における文献情報取得部が取得した文献情報の一例を示す図
同実施の形態における手がかり語句記憶手段で記憶されている手がかり語句の一例を示す図
同実施の形態における抽出された技術用語の一例を示す図
同実施の形態における取得された時期情報の一例を示す図
同実施の形態における出力された技術動向情報の一例を示す図
同実施の形態における技術動向情報の一例を示す図
同実施の形態における専門用語記憶手段で記憶されている専門用語の一例を示す図
本発明の実施の形態5による技術動向情報作成装置の構成を示すブロック図
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
本発明の実施の形態6による技術動向情報作成装置の構成を示すブロック図
同実施の形態による技術動向情報作成装置の動作を示すフローチャート
同実施の形態における出力された技術動向情報の一例を示す図
実験結果を示す図
実験結果を示す図
実験結果を示す図
他の形態による技術動向情報作成装置の構成を示すブロック図
他の形態における分類結果情報の一例を示す図
他の形態における出力された技術動向情報の一例を示す図
コンピュータシステム外観一例を示す模式図
コンピュータシステムの構成の一例を示す図

実施例

0048

以下、本発明による関連用語取得装置、及び技術動向情報作成装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。

0049

(実施の形態1)
本発明の実施の形態1による関連用語取得装置について、図面を参照しながら説明する。
図1は、本実施の形態による関連用語取得装置1の構成を示すブロック図である。図1において、本実施の形態による関連用語取得装置1は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16とを備える。

0050

文献情報記憶部11では、2以上の文献情報が記憶される。ここで、文献情報とは、文献を示す情報である。文献は、論文、特許書類(例えば、出願公開公報、特許公報等)、Webページ、官報、書籍等の何らかのまとまりを有する文書であればどのようなものでもよい。一の文献情報には、対応する一の文献の情報(データ)が含まれる。ただし、一の文献情報には、後の処理で必要となる範囲の情報が含まれているだけであってもよい。例えば、学術論文の文献情報である場合に、その学術論文の参考文献とタイトルのみを後の処理で用いる場合には、文献情報記憶部11で記憶される文献情報は、参考文献とタイトルのみを有する情報であってもよい。文献情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報がテキストファイルである場合に、そのテキストファイルでは、タグを用いて文書を記述するマークアップ言語によって記述されていてもよく、あるいは、対応する文献の内容が単にテキストデータによって示されていてもよい。文献情報は、少なくともその一部に構造を有するものとする。ここで、その構造は、タグや見出し等によって明示されていてもよく、あるいは、明示されていなくてもよい。後者の場合には、例えば、文献情報で示される文献のあるパラグラフ読むことによって、そこに要約が記載されていることがわかり、他のパラグラフを読むことによって、そこに目的が記載されていることがわかる、というものでもよい。構造が明示されている場合に、その構造は、文献情報の有する情報であり、文献情報の構造を記述する情報である構造記述情報によって示されてもよく、そうでなくてもよい。ここで、構造記述情報とは、例えば、日本の特許明細書で使用されている見出しのタグや、HTMLファイルで使用されているタグ等である。構造記述情報以外によって文献情報の構造が記述されている場合としては、例えば、通常の論文のように、「要約」や、「参考文献」等の見出しのテキストデータが文献情報に含まれる場合がある。文献情報記憶部11で記憶される2以上の文献情報には、少なくとも、他の文献を引用している文献を示す文献情報が含まれるものとする。ある文献情報において引用されている他の文献のことを引用文献と呼ぶことにする。他の文献を引用している文献を示す文献情報には、引用文献を識別する情報である引用文献識別情報が含まれる。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。文献情報記憶部11は、所定の記録媒体(例えば、半導体メモリ磁気ディスク光ディスクなど)によって実現されうる。文献情報記憶部11にユーザ属性対応情報が記憶される過程は問わない。例えば、記録媒体を介して文献情報が文献情報記憶部11で記憶されるようになってもよく、通信回線等を介して送信された文献情報が文献情報記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報が文献情報記憶部11で記憶されるようになってもよい。

0051

用語情報受付部12は、用語情報を受け付ける。ここで、用語情報とは、用語を示す情報である。この用語情報は、一般に用語のテキストを示す情報であるが、用語を示す情報であればそれ以外であってもよい。関連用語取得装置1では、この用語情報受付部12で受け付けられた用語情報で示される用語に関連する用語である関連用語が取得される。用語情報受付部12は、例えば、入力デバイス(例えば、キーボードマウスタッチパネルなど)から入力された情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報を受け付けてもよい。なお、用語情報受付部12は、受け付けを行うためのデバイス(例えば、モデムネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、用語情報受付部12は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

0052

なお、用語情報受付部12は、用語情報以外の情報を受け付けてもよい。例えば、関連用語取得装置1によって取得された関連用語情報によって何らかの検索等を行う場合に、その検索で用いる検索キー(例えば、検索で用いる国際特許分類等)を用語情報と共に受け付けてもよい。そのような場合でも、以下の文献情報の取得等の処理は、用語情報受付部12の受け付けた用語情報を用いてなされるものとする。

0053

文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。用語を文献情報の全部に有する文献情報とは、その用語が文献情報のいずれかの箇所に含まれていることをいう。一方、用語を文献情報の一部に有する文献情報とは、その用語が文献情報の一部の領域、例えば、タイトルや、特許請求の範囲等のあらかじめ決められている領域に含まれることをいう。文献情報取得部13が用語情報の示す用語を文献情報の一部に有する文献情報を検索する場合には、例えば、その文献情報の一部に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、上記の検索を行ってもよい。

0054

文献情報取得部13は、検索された文献情報の全部、またはその検索された文献情報の一部を文献情報記憶部11から取得する。文献情報取得部13が、検索された文献情報の一部を取得する場合には、その文献情報の一部は、検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分である。したがって、文献情報取得部13によって、少なくとも引用文献識別情報を含む文献情報の全部または一部が取得されることになる。文献情報取得部13が文献情報の一部を取得する場合には、例えば、文献情報取得部13は、引用文権識別情報を少なくとも含むと考えられる参考文献(Reference)の欄や、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を特定し、その領域を含む文献情報の一部を取得してもよい。前者の場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の一部を取得してもよい。また、後者の場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって文献情報の一部を取得してもよい。文献情報取得部13が、用語情報の示す用語を文献情報の一部に有する文献情報を検索し、また、文献情報取得部13が、検索された文献情報の一部を取得する場合に、その検索で用いる文献情報の一部と、取得対象となる文献情報の一部とは、文献情報の同じ部分であってもよく、文献情報の異なる部分であってもよい。

0055

引用文献情報取得部14は、引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。ここで、引用文献情報とは、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す文献情報である。そして、引用文献情報取得部14は、その検索された引用文献情報の一部を文献情報記憶部11から取得する。引用文献情報取得部14が取得する引用文献情報の一部は、あらかじめ決められている項目に対応する引用文献情報の部分である。あらかじめ決められている項目に対応する部分とは、その項目について記載されている部分のことである。項目とは、文書において区分されうる領域のことであり、例えば、タイトル、発明の名称、要約(アブストラクト)、特許請求の範囲、請求項、請求項の前提部プリアンブル)、1番目に記載されている請求項(以下、「第1請求項」とする)、第1請求項に従属する請求項、発明の目的、発明の効果等である。あらかじめ決められている項目は、単一の項目であってもよく、2以上の項目であってもよい。その項目は、引用文献情報において顕在化していてもよく、あるいは、顕在化していなくてもよい。項目が顕在化しているとは、その項目に対応する部分が引用文献情報において明示されていることである。例えば、項目名がテキストで表示されることによって項目が顕在化していてもよく、あるいは、タグが用いられることにより、項目が顕在化していてもよい。項目が顕在化していないとは、項目が顕在化している場合のように項目に対応する部分が引用文献情報において明示されていないことである。例えば、項目立てをしないで文書が記載されている場合などが該当する。そのような場合であっても、引用文献情報取得部14は、文書の所定の部分にどのような項目の記載がなされているのかを知ることができうる。

0056

ここで、引用文献情報取得部14が、あらかじめ決められている項目に対応する引用文献情報の部分を取得する処理について説明する。あらかじめ決められている項目を示す情報が、引用文献情報取得部14がアクセス可能な図示しない記録媒体において記憶されている場合に、引用文献情報取得部14は、その記録媒体にアクセスして項目を示す情報を読み出す。そして、項目が引用文献情報において顕在化している場合には、引用文献情報取得部14は、その読み出した項目に対応する引用文献情報の部分を取得する。一方、項目が引用文献情報において顕在化していない場合には、引用文献情報取得部14は、その項目に対応する引用文献情報の部分を特定し、その特定した引用文献情報の部分を取得する。次に、項目に対応する引用文献情報の部分の特定について説明する。例えば、引用文献情報取得部14は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、引用文献情報取得部14は、ある項目に対応する引用文献情報の部分を特定する場合には、その項目に対応する条件情報を取得し、その条件情報に対応する引用文献情報の部分を特定する。

0057

なお、文献情報に構造記述情報が含まれる場合には、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。

0058

また、引用文献情報取得部14が、結果として上述のような引用文献情報の一部を取得することができるのであれば、その過程は問わない。例えば、文献情報取得部13が引用文献識別情報として引用文献のタイトルを含む情報を取得し、引用文献情報取得部14が項目「タイトル」に対応する引用文献情報の一部を取得する場合には、引用文献情報取得部14は、文献情報取得部13が取得した引用文献識別情報から、引用文献情報のタイトルに対応する部分を取得することによって、引用文献情報の一部を取得してもよい。

0059

関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、関連用語情報を取得する。ここで、関連用語情報とは、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である。関連用語情報取得部15の詳細な構成については、図2を用いて後述する。

0060

関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRT液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、関連用語情報出力部16は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、関連用語情報出力部16は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

0061

図2は、関連用語情報取得部15の構成を示すブロック図である。図2において、関連用語情報取得部15は、関連用語候補情報取得手段21と、関連度算出手段22と、関連用語情報決定手段23とを備える。

0062

関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を、引用文献情報取得部14が取得した引用文献情報の一部から取得する。関連用語候補情報取得手段21は、取得した関連用語候補情報を図示しない記録媒体に蓄積してもよい。ここで、関連用語候補情報を取得する種々の方法についてここで説明する。

0063

[関連用語候補情報の取得方法1]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部について形態素解析を行い、単名詞、及び/または、複合名詞を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、単名詞等を示す情報に加えて、未知語を示す情報も関連用語候補情報として取得してもよい。ここで、形態素解析とは、自然言語の文書を形態素に分割し、その形態素の品詞を見分ける処理である。形態素解析を行うソフトウェアとして、日本では奈良先端科学技術大学院大学で開発された「ChaSen(筌)」(http://chasen.naist.jp)等が知られている。茶筌を用いることにより、例えば、名詞類を示す情報を取得することができる。ここで、名詞類とは、単名詞や未知語、またはこれらが連接した複合名詞である。また、英単語に品詞を付与するソフトウェアとしては、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。単名詞等を示す情報を関連用語候補情報として取得する方法については、上記非特許文献4等で開示されており、従来から知られているため、その詳細な説明を省略する。

0064

[関連用語候補情報の取得方法2]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部から、専門用語を示す情報を関連用語候補情報として取得してもよい。ここで、専門用語を示す情報を取得する方法について説明する。まず、関連用語候補情報取得手段21は、上記の「関連用語候補情報の取得方法1」と同様にして、引用文献情報取得部14が取得した引用文献情報の一部から、単名詞等を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を関連用語候補情報として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。

0065

造語能力に基づくスコア付け)
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。

0066

出現頻度に基づくスコア付け)
注目している単名詞等をtとする。また、そのtの構成語数をnとする。その場合に、tに対応するスコアを次のように算出する。
tのスコア=(tの出現頻度)/(語数をnとする単名詞等の平均出現頻度)

0067

ここで、上記式中の「単名詞等」とは、関連用語候補情報取得手段21が抽出した単名詞等である。ここで、tの出現頻度、及び語数をnとする単名詞等の平均出現頻度は、引用文献情報取得部14が取得した引用文献情報の一部において算出される。なお、tのスコアとして、単に「tの出現頻度」を用いてもよい。

0068

また、上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報を関連用語候補情報として取得してもよい。専門用語を示す情報を関連用語候補情報として取得する方法については、上記非特許文献1、上記非特許文献3、並びに下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。

0069

文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000

0070

文献:大博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月

0071

[関連用語候補情報の取得方法3]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。ここで、名詞のまとまりとは、1以上の単名詞を含むまとまりである。例えば、引用文献情報取得部14が取得した引用文献情報の一部が、次に示されるような特許出願書類の請求項であったとする。

0072

操作手段によりアクチュエータを駆動して所望の作業を行う作業機において,前記作業の作業機構に作成する負荷を検出する負荷検出手段と,この負荷検出手段の検出値に応じた周波数の信号を出力する第1の周波数変換器と,当該負荷検出手段の検出値に応じた周波数のパルスを出力する第2の周波数変換器と,前記第1の周波数変換器から出力される信号を前記第2の周波数変換器からのパルスの出力期間だけ間欠的に出力する変調手段と,この変調手段の出力に応じて振動を発生する振動発生手段とを設けたことを特徴とする作業機の操作用仮想振動生成装置。』

0073

請求項では、一般に次のような構造的特徴が存在する。一つ目は、請求項の末尾に「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機の操作用仮想振動生成装置」がその名詞のまとまりに該当する。二つ目は、「において、」や「であって、」などの文字列によって請求項が前半部と後半部に分割される場合に、「において、」や「であって、」の直前にも、末尾と同様の「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機」がその名詞のまとまりに該当する。したがって、関連用語候補情報取得手段21は、請求項の末尾の名詞のまとまりと、「において、」等の直前の名詞のまとまりとを取得し、それらの名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、「において、」等の直前の名詞のまとまりの場所を、「において、」等を手がかり句として特定することができる。ここでは、特許出願書類の請求項について説明したが、それ以外の構造が設定されている文書においても、同様にして名詞のまとまりを特定することができ、関連用語候補情報を取得することができる。

0074

なお、文書の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を取得する方法については、下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。

0075

文献:新森昭宏、奥学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年
文献:特開2004−164054号公報

0076

なお、関連用語候補情報取得手段21は、頻出する一般的な名詞等を示す情報を、関連用語候補情報から除外してもよい。例えば、関連用語候補情報取得手段21は、除外すべき名詞等を示す情報を1以上、図示しない記録媒体において保持しておき、関連用語候補情報として取得した情報に、除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報を関連用語候補情報から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。

0077

関連度算出手段22は、関連用語候補情報取得手段21が取得した関連用語候補情報の示す用語の関連度を、関連用語候補情報ごとに算出する。関連度算出手段22は、その算出した関連度と、関連用語候補情報取得手段21が取得した関連用語候補情報とを対応付けて図示しない記録媒体に蓄積してもよい。

0078

ここで、関連度の算出方法について説明する。関連度算出手段22は、関連用語候補情報の関連度を、その関連用語候補情報の示す用語が、引用文献情報取得部14が取得した引用文献情報の一部(なお、引用文献情報の一部が1以上取得されている場合には、それらの集合)に出現する頻度としてもよい。また、関連度算出手段22は、各関連用語候補情報について、「関連用語候補情報の取得方法2」で説明した、専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを算出し、そのスコアを関連度としてもよい。なお、この場合において、関連用語候補情報取得手段21においてスコアがすでに算出されている場合には、関連度算出手段22は、そのスコアを関連用語候補情報取得手段21から取得してもよく、あるいは、新たにスコアの算出を行ってもよい。したがって、関連度算出手段22による関連度の算出には、関連度の取得を含むものとする。また、関連度算出手段22は、関連用語候補情報の示す用語の出現頻度と、上記のスコアとの両方を用いて関連度を算出してもよい。例えば、その両者を加算して関連度を算出してもよく、その両者を乗算して関連度を算出してもよい。

0079

関連用語情報決定手段23は、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を、関連用語情報に決定する。関連用語情報決定手段23は、例えば、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位から一定数量(例えば、30個等)、あるいは一定割合(例えば、30%等)の関連用語候補情報を関連用語情報に決定してもよく、対応する関連度が所定のしきい値以上の関連用語候補情報を関連用語情報に決定してもよく、あるいは、その他の方法により、対応する関連度が上位の関連用語候補情報を関連用語情報に決定してもよい。より具体的には、関連用語情報決定手段23は、関連度算出手段22が算出した関連度をソートし、そのソートした関連度の上位に対応する関連用語候補情報を選択して、図示しない記録媒体に関連用語情報として蓄積することによって、関連用語情報の決定を行う。この図示しない記録媒体に蓄積された関連用語情報が、関連用語情報出力部16によって出力される関連用語情報である。関連用語情報決定手段23は、関連用語情報を図示しない記録媒体に蓄積してもよい。この場合には、その蓄積された関連用語情報が関連用語情報出力部16によって読み出され、出力されることになる。

0080

次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。図3は、関連用語取得装置1の全体動作を示すフローチャートである。

0081

(ステップS101)用語情報受付部12は、用語情報を受け付けたかどうか判断する。そして、用語情報を受け付けた場合には、ステップS102に進み、そうでない場合には、用語情報を受け付けるまで、ステップS101の処理を繰り返す。

0082

(ステップS102)文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、またはその検索された文献情報の一部であって、その検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を文献情報記憶部11から取得する。この処理の詳細については、図4のフローチャートを用いて後述する。

0083

(ステップS103)引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を文献情報記憶部11から取得する。この処理の詳細については、図5のフローチャートを用いて後述する。

0084

(ステップS104)関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する。この処理の詳細については、図6のフローチャートを用いて後述する。

0085

(ステップS105)関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

0086

図4は、図2のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートである。
(ステップS201)文献情報取得部13は、用語情報受付部12で受け付けられた用語情報を全部または一部に含む文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。

0087

(ステップS202)文献情報取得部13は、カウンタiを1に設定する。
(ステップS203)文献情報取得部13は、ステップS201で検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS204に進み、存在しない場合には、一連の処理は終了となり、図3のフローチャートのステップS103に進む。

0088

(ステップS204)文献情報取得部13は、検索されたi番目の文献情報の全部または一部を取得する。検索されたi番目の文献情報の一部を取得する場合には、前述のように、引用文献識別情報を少なくとも含む部分を取得するものとする。なお、検索されたi番目の文献情報において、引用文献識別情報が全く含まれない場合には、文献情報取得部13は、何も取得しなくてもよい。
(ステップS205)文献情報取得部13は、カウンタiを1だけインクリメントして、ステップS203に戻る。

0089

図5は、図2のフローチャートにおけるステップS103の引用文献情報の取得処理の詳細について示すフローチャートである。
(ステップS301)引用文献情報取得部14は、カウンタiを1に設定する。

0090

(ステップS302)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS303に進み、存在しない場合には、一連の処理は終了となり、図2のフローチャートのステップS104に進む。

0091

(ステップS303)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報を取得する。
(ステップS304)引用文献情報取得部14は、カウンタjを1に設定する。

0092

(ステップS305)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS307に進み、存在しない場合には、ステップS306に進む。
(ステップS306)引用文献情報取得部14は、カウンタiを1だけインクリメントする。そして、ステップS302に戻る。

0093

(ステップS307)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報のあらかじめ決められている部分を文献情報記憶部11から取得する。

0094

(ステップS308)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部がすでに取得されたものであるかどうか判断する。そして、すでに取得されたものである場合には、ステップS310に進み、そうでない場合には、ステップS309に進む。

0095

(ステップS309)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部を一時的に記憶する。このステップS309において追記されていく引用文献情報の一部が、最終的に引用文献情報取得部14によって取得された引用文献情報の一部となる。
(ステップS310)引用文献情報取得部14は、カウンタjを1だけインクリメントする。そして、ステップS305に戻る。

0096

図6は、図2のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートである。
(ステップS401)関連用語候補情報取得手段21は、引用文献情報取得部14によって取得された引用文献情報の一部(引用文献情報の一部が2以上取得されている場合には、その引用文献情報の一部の2以上の集合)、すなわち、ステップS309において一時的に記憶された引用文献情報の一部から関連用語候補情報を取得する。

0097

(ステップS402)関連度算出手段22は、カウンタiを1に設定する。
(ステップS403)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報が存在するかどうか判断する。そして、存在する場合には、ステップS404に進み、存在しない場合には、ステップS407に進む。

0098

(ステップS404)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報の関連度を算出する。

0099

(ステップS405)関連用語情報決定手段23は、ステップS404で算出された関連度を、対応する関連用語候補情報に対応付けて一時記憶する。ここで、ステップS404で算出された関連度に対応する関連用語候補情報とは、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報のことである。

0100

(ステップS406)関連度算出手段22は、カウンタiを1だけインクリメントする。そして、ステップS403に戻る。
(ステップS407)関連用語情報決定手段23は、ステップS405で一時記憶した関連度をソートする。

0101

(ステップS408)関連用語情報決定手段23は、ステップS407でソートした上位の関連度に対応する関連用語候補情報を、関連用語情報に決定する。そして、一連の処理は終了となり、図2のフローチャートのステップS105に進む。

0102

次に、本実施の形態による関連用語取得装置1によって得られる具体的な効果を示す実験例について説明する。この実験例では、文献情報取得部13が取得する文献情報は学術論文であるとする。一方、引用文献情報取得部14が取得する引用文献情報は特許に関する文献情報であるとする。したがって、関連用語取得装置1に学術論文用語を示す用語情報を入力することにより、その学術論文用語に関連する特許用語を示す関連用語情報が出力されることになる。ここで、学術論文用語とは、学術論文において比較的多く用いられる用語(例えば、DRAMワードプロセッサなどの具体的な下位の用語)であり、特許用語とは、特許書類において比較的多く用いられる用語(例えば、半導体記憶装置文書編集装置などの抽象的な上位の用語)である。

0103

この実験例では、特許公開公報(1993年〜2002年)の情報が文献情報記憶部11で記憶される文献情報に含まれる。また、その特許公開公報中の引用論文の書誌情報約85000件も文献情報記憶部11で記憶される文献情報に含まれる。なお、特許公開公報から、その特許公開公報で引用されている論文の書誌情報を抽出する方法としては、次の文献で開示されている方法を用いた。

0104

文献:安善奈津美、難波英嗣、相沢輝昭、奥村学、「特許、論文データベース統合した検索環境の構築」、情報処理学会研究報告、NL−168、p.21−26、2005年

0105

まず、用語情報受付部12が受け付ける用語情報について説明する。文献情報記憶部11で記憶されている特許公開公報の情報から名詞を抽出する。そして、その抽出した名詞を頻度順に並べ、その頻度の高いものから論文用語25語を人手で選択する。具体的には、「CPU」、「半導体レーザ」、「DRAM」、「メモリセル」、「ワードプロセッサ」、「ノボラック樹脂」、「CD」等を選択した。

0106

この実験例において、引用文献情報取得部14が取得する引用文献情報の箇所のパターンは以下の通りである。

0107

(パターン1)引用文献の第1請求項、すなわち、特許請求の範囲の1番目に記載されている請求項を示す情報を引用文献情報の一部として取得する。

0108

(パターン2)引用文献の全請求項、すなわち、特許請求の範囲に記載されているすべての請求項を示す情報を引用文献情報の一部として取得する。

0109

(パターン3)引用文献の第1請求項を示す情報と、その第1請求項に従属する請求項である従属請求項を示す情報とを引用文献情報の一部として取得する。ここで、第1請求項に従属する請求項には、第1請求項に直接従属する請求項だけでなく、第1請求項に他の請求項を介して従属している請求項も含まれる。

0110

また、この実験例において、関連用語候補情報取得手段21が関連用語候補情報を取得するパターンは以下の通りである。

0111

(パターンA)関連用語候補情報の取得方法1で説明したように、引用文献情報の一部について形態素解析を行い、名詞を関連用語候補として取得する。

0112

(パターンB)関連用語候補情報の取得方法3で説明したように、引用文献情報の一部から名詞のまとまりを特定し、その名詞のまとまりに含まれる名詞を関連用語候補として取得する。

0113

なお、関連用語候補情報取得手段21は、所定の不要語句リストを用いて、その不要語句リストに含まれる語句と一致する関連用語候補を取得しないものとする。「方法」や「記載」等の用語は、分野を問わず多くの特許請求項に出現するため、そのような用語を関連用語候補から除外するためである。不要語句リストは、10年分の特許公開公報に含まれる名詞を出現頻度順に並べ、頻度の高いものの中から人手で不要語句リストに含める語句を選択した。例えば、方法、記載、発行、文献、使用、利用、詳細、製造、提案、製造方法、データ等の合計350個の不要語句が不要語句リストに含まれる。

0114

また、この実験例においては、引用文献情報の一部を取得することについての効果を検証するため、関連度算出手段22における関連度の算出は行わないものとする。また、関連用語情報決定手段23において、関連用語候補情報取得手段21が取得した関連用語候補情報をそのまま関連用語情報に決定するものとする。

0115

このような状況の下、上述の25個の各用語情報を用語情報受付部12が受け付け、その用語情報に関連する関連用語情報を関連用語情報出力部16が出力するまでの処理を実行した。関連用語情報出力部16は、関連用語情報を所定の記録媒体に蓄積するものとする。その後、その関連用語情報を用いて、検証を行った。

0116

この検証では、以下の基準により、関連用語情報の正否の判定を行った。
(基準1)概念的に最も近い用語のみ正解
例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」を正解とし、ワードプロセッサの構成要素である関連用語情報「表示装置」は不正解とした。

0117

(基準2)特許データベース中の出現頻度
ある用語の出現頻度が特許データベース中で極端に低い場合は、その用語は特許の関連用語の取得を行う上で有用でないと考え、不正解とした。

0118

(基準3)基準1で選択されたものとの比較
ある用語が上記(基準2)を満たさない場合でも、その用語が上記(基準1)で選択されたものと概念的にほぼ等しいと判断される場合には、低頻度でも正解とした。例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」と概念的にほぼ等しい関連用語情報「文書作成装置」も正解であるとした。「レーザ」と「レーザー」のような表記のゆれについても、一方の関連用語情報が正解と判定されていれば、もう一方も正解とした。

0119

また、この検証では、次式評価尺度εを用いた。これは、質問応答システムの評価において一般的に用いられるMRR(mean reciprocal rank)を拡張したものであり、次の文献で開示されている。

0120

文献:清田陽司、黒橋禎夫、木戸子、「自動抽出した換喩表現を用いた係り受け関係のずれの解消」、自然言語処理、Vol.11、No.4、p.127−145、2004年

0121

ここで、nは入力に対する正解の数である。Rは出力されたリスト中の正解順位番号の集合である。εは正解がすべて最上位順位付けされたときに、最大値1をとる。

0122

図7は、この実験例の結果を示す表である。図7において、IDは、各実験例を識別するために設定されている。ID6の実験例は、他の実験例でのベースラインとなる実験例であり、用語情報と高頻度共起する名詞を抽出し、その名詞を関連用語としたものである。このベースラインとなるID6の実験例が、従来からの関連用語の取得において用いられている手法である。図7の表からわかるように、ID1の実験例とID2の実験例とを比較すると、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が優れていることがわかる。また、ID3の実験例と、ID4の実験例とを比較すると、やはり単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が勝っている。このことから、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得することが有効であることがわかる。

0123

次に、請求項間の関係を考慮することが有効であるかどうかについて検討する。ID2,4,5の実験結果を比較すると、第1請求項とその従属請求項を用いたID5の実験結果が最もすぐれており、第1請求項しか用いないID2の実験結果が最も悪い結果となった。ID2の実験結果が悪い原因は、引用文献の一部を取得する箇所の制限が強すぎ、ノイズが減るだけでなく、取得できた正解数も減ったことである。全請求項を使ったID3の実験例は、ID2の実験例と比べると抽出できた正解の数は大きいものの、不正解のものも数多く抽出してしまっているため、ID5の実験例に劣る結果となっている。

0124

各手法において、1つの特許公開公報から名詞を抜き出す際に、請求項をいくつ用いているのか調べたところ、図8で示される結果となった。ID5の実験例は、ID4の実験例と比べて取得対象となる請求項の数が4割未満であるにもかかわらず、精度がID4の実験例よりも高くなっていることから、第1請求項とその従属請求項内に高い確率で正解が含まれていることがわかる。

0125

以上のように、本実施の形態による関連用語取得装置1によれば、引用文献情報の一部を取得することによって、効果的な関連用語情報の取得を行うことができうる。したがって、受け付けられた用語情報に関連する関連用語情報を適切に取得することができる関連用語取得装置1を提供することができる。

0126

なお、引用文献情報取得部14が取得する引用文献情報の一部は、関連用語情報を適切に取得できる部分であれば、どのような部分であってもよい。例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、独立請求項の部分であってもよい。独立請求項とは、他の請求項に従属しない請求項のことである。引用文献情報取得部14は、ある請求項が独立請求項であるかどうかを、例えば、次のようにして判断してもよい。引用文献情報取得部14は、注目している請求項に他の請求項を参照する記載、すなわち、「請求項N」の記載が存在するかどうか判断し、存在する場合には、その注目している請求項が独立請求項でないと判断し、存在しない場合には、その注目している請求項が独立請求項であると判断する。ここで、「N」は1以上の任意の整数である。また、例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、発明の効果を記載している部分であってもよい。発明の効果を記載している部分は、例えば、項目「発明の効果」に対応する部分であってもよく、文書の内容から発明の効果が記載されていると判断される部分であってもよい。後者の場合に、その発明の効果を記載している部分を特定する方法としては、例えば、「以上のように」か「このように」から始まり、「効果」、「可能」、「できる」のいずれかの言葉が含まれているパラグラフを発明の効果を記載している部分として特定する方法などがある。また、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、請求項の前提部以外の部分であってもよい。請求項の前提部とは、請求項のいわゆるプリアンブルと呼ばれる部分であって、一般に、請求項中の「において」や「であって」よりも以前に記載される部分である。したがって、請求項の前提部以外の部分とは、請求項の特徴的な記載のなされている部分であって、一般に、請求項中の「において」や「であって」よりも後に記載されている部分である。請求項にプリアンブルが記載されていない場合には、請求項の全体が前提部以外の部分となる。

0127

(実施の形態2)
本発明の実施の形態2による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、引用文献構造情報取得部をさらに備えたものである。

0128

図9は、本実施の形態による関連用語取得装置2の構成を示すブロック図である。図9において、本実施の形態による関連用語取得装置2は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16と、引用文献構造情報取得部31とを備える。引用文献構造情報取得部31以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。

0129

引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報の1以上の部分と、その部分の項目との対応を示す情報である引用文献構造情報を取得する。引用文献構造情報は、項目と、その項目に対応する引用文献情報の部分とを対応付けることができる情報であれば、その情報の構造は問わない。例えば、引用文献構造情報は、タグによって項目と、その項目に対応する部分とを示してもよい。すなわち、引用文献情報において、<効果>と、</効果>とで挟まれた領域が、項目「効果」に対応する部分であってもよい。この場合には、引用文献構造情報は、文献情報記憶部11で記憶されてもよい。また、例えば、引用文献構造情報は、項目「効果」に対応付けて、その項目「効果」に対応する引用文献情報の部分を示す情報を有してもよい。この場合には、引用文献構造情報は、文献情報記憶部11で引用文献情報に対応付けられて保持されてもよく、あるいは、引用文献構造情報取得部31や他の構成要素が有する図示しない記録媒体において保持されてもよい。後者の場合には、引用文献識別情報に対応付けて引用文献構造情報を保持することが好適である。引用文献情報の部分を示す情報とは、例えば、引用文献情報の部分の先端の位置と、後端の位置とを示す情報であってもよい。先端や後端の位置は、例えば、引用文献情報の先端からのバイト数で示されてもよく、あるいは、ページ数行数などで示されてもよい。

0130

ここで、引用文献構造情報取得部31がある項目に対応する部分をどのように特定するのかについて説明する。例えば、引用文献構造情報取得部31は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、その条件情報に対応する引用文献情報の部分を特定し、その部分に項目を対応付けることによって引用文献構造情報を取得する。例えば、項目「効果」に対応する条件情報が、「以上のように」か「このように」からパラグラフが始まり、そのパラグラフに「効果」、「可能」、「できる」のいずれかの言葉が含まれていることであるとする。すると、引用文献構造情報取得部31は、その条件にあうパラグラフを特定し、そのパラグラフを項目「効果」に対応付けることによって引用文献構造情報を取得することができる。また、例えば、項目「請求項の特徴的記載」に対応する条件情報が、請求項に含まれている部分であって、「であって」や「において」に続く部分であり、句点「。」で終わる部分であるとする。すると、引用文献構造情報取得部31は、その条件にあう部分を特定し、その部分を項目「請求項の特徴的記載」に対応付けることによって引用文献構造情報を取得することができる。なお、請求項の特徴的記載を取得する方法などについては、前述の文献『新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年』に記載されている。

0131

次に、本実施の形態による関連用語取得装置2の全体動作について、図10のフローチャートを用いて説明する。なお、ステップS501、S502以外の処理は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。ただし、ステップS103において、引用文献情報取得部14は、引用文献構造情報取得部31が取得した引用文献構造情報を用いて、引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得するものとする。

0132

(ステップS501)引用文献構造情報取得部31は、引用文献構造情報をすでに取得しているかどうか判断する。そして、取得していない場合には、ステップS502に進み、すでに取得している場合には、ステップS102に進む。

0133

(ステップS502)引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報のすべてについて、引用文献構造情報を取得する。ここで、文献情報記憶部11で記憶されている文献情報のうち、いずれが引用文献情報であるのかについては、文献情報を取得するまではわからないため、引用文献構造情報取得部31は、文献情報記憶部11で記憶されているすべての文献情報について引用文献構造情報を取得するものとする。

0134

なお、図10のフローチャートでは、引用文献構造情報を一括して取得する場合について説明したが、ある引用文献情報の一部を取得する場合であって、その引用文献情報の引用文献構造情報がまだ取得されていない場合に、その引用文献情報の引用文献構造情報のみを取得するようにしてもよい。このようにする方が、不要な引用文献構造情報の取得を行わないこととなり、処理負荷が軽減されることになる。

0135

また、引用文献構造情報の取得は、関連用語取得装置2において関連用語の取得処理を行っていないとき、すなわち、関連用語取得装置2における処理負荷の大きくないときにあらかじめ行っていてもよい。

0136

このように、本実施の形態による関連用語取得装置2によれば、引用文献構造情報を用いて引用文献情報の一部を取得するため、引用文献情報において文献の構造が顕在化していない場合であっても、引用文献構造情報を用いることによって、引用文献の所望の部分の取得を容易に行うことができうることになる。

0137

(実施の形態3)
本発明の実施の形態3による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、文献情報における引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得するものである。

0138

本実施の形態による関連用語取得装置の構成は、実施の形態1の図1図2で示されるものと同様であり、その説明を省略する。なお、文献情報取得部13は、文献情報の一部を取得する場合に、引用文献識別情報を少なくとも有する部分であって、引用情報を少なくとも有する部分を取得する。また、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得する。また、引用文献情報取得部14が引用形式に応じてあらかじめ決められている項目に対応する部分を取得することには、引用形式が所定の形式である場合には、引用文献情報の一部の取得を行わない場合を含むものとする。

0139

ここで、引用情報とは、引用文献識別情報で識別される文献についての記述を示す情報である。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。文献情報において、引用情報と引用文献識別情報とが異なる領域に存在する場合であって、文献情報取得部13が文献情報の一部を取得する場合には、文献情報取得部13は、両者を含むひとまとまりの文献情報の部分を取得してもよく、あるいは、両者をそれぞれ含む2以上の文献情報の部分を取得してもよい。また、文献情報取得部13が引用情報を有する文献情報の全部または一部を取得する場合に、その引用情報は文献情報の全部または一部において顕在化していてもよく、あるいは、顕在化していなくてもよい。前者の場合には、文献情報の全部または一部において引用情報の部分が容易にわかることになる。

0140

次に、引用情報における引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。引用文献情報取得部14は、例えば、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり句が含まれるかどうかによって、各引用形式を決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法であってもよい。

0141

次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。本実施の形態による関連用語取得装置1の全体動作は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。また、図3のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートも、実施の形態1の図4のフローチャートと同様であり、その説明を省略する。ただし、図4のステップS204において、文献情報取得部13は、引用情報も取得するものとする。また、図3のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートも、実施の形態1の図6のフローチャートと同様であり、その説明を省略する。

0142

図11は、図3のフローチャートにおけるステップS103の引用文献の取得処理の詳細について示すフローチャートである。なお、ステップS601〜S603以外の処理は、実施の形態1の図5のフローチャートと同様であり、その説明を省略する。

0143

(ステップS601)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報と、その引用文献識別情報に対応する引用情報とを取得する。なお、文献情報取得部13が取得した文献情報の全部または一部において、引用情報の部分が顕在化していない場合には、文献情報取得部13による引用情報の取得処理での説明と同様にして、引用文献情報取得部14は、引用情報の部分を特定することができる。

0144

(ステップS602)引用文献情報取得部14は、j番目の引用文献識別情報に対応する引用情報における引用形式を決定する。引用形式を決定するとは、例えば、j番目の引用文献識別情報と、引用形式を示す情報とを対応付けて図示しない記録媒体に蓄積することであってもよい。この処理の詳細については、図12のフローチャートを用いて後述する。

0145

(ステップS603)引用文献情報取得部14は、ステップS601で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報の一部であって、ステップS602で決定した引用形式に対応する部分を文献情報記憶部11から取得する。

0146

図12は、図11のフローチャートにおけるステップS602の引用形式の決定処理の詳細について示すフローチャートである。なお、前述のように、引用文献情報取得部14は、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しているものとする。

0147

(ステップS701)引用文献情報取得部14は、カウンタkを1に設定する。
(ステップS702)引用文献情報取得部14は、引用情報がタイプCのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS703に進み、そうでない場合には、ステップS704に進む。

0148

(ステップS703)引用文献情報取得部14は、引用形式をタイプCに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS704)引用文献情報取得部14は、カウンタkを1だけインクリメントする。

0149

(ステップS705)引用文献情報取得部14は、k番目のタイプCの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS702に戻り、存在しない場合には、ステップS706に進む。
(ステップS706)引用文献情報取得部14は、カウンタkを1に設定する。

0150

(ステップS707)引用文献情報取得部14は、引用情報がタイプBのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS708に進み、そうでない場合には、ステップS709に進む。

0151

(ステップS708)引用文献情報取得部14は、引用形式をタイプBに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS709)引用文献情報取得部14は、カウンタkを1だけインクリメントする。

0152

(ステップS710)引用文献情報取得部14は、k番目のタイプBの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS707に戻り、存在しない場合には、ステップS711に進む。

0153

(ステップS711)引用文献情報取得部14は、引用形式をタイプOに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。

0154

次に、本実施の形態による関連用語取得装置1の動作について、具体例を用いて説明する。この具体例において、文献情報記憶部11は、Postscript及びPDF形式の自然言語処理分野を中心とするフルテキスト論文(文献情報)約12000件を記憶している。これらのうち、約8000件は、ACLが提供するACL Anthologyに含まれるものであり、残りの約4000件は、国内外の自然言語処理研究者や自然言語処理系研究室のWebページから収集したものや、国際会議予稿集CD−ROM)から抽出した論文データ(文献情報)等である。このように、この具体例における文献情報記憶部11で記憶されている文献情報は、学術論文という一種類の文献情報である。

0155

また、この具体例において、文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語がタイトルに含まれる文献情報から、その文献情報の参考文献の欄の情報と、対応する引用情報とを取得するものとする。

0156

また、この具体例において、引用文献情報取得部14は、タイプCに応じた手がかり句を有する情報であるタイプC用手がかり句辞書と、タイプBに応じた手がかり句を有する情報であるタイプB用手がかり句辞書とを図示しない記録媒体において保持している。図13は、タイプC用手がかり句辞書の一例を示す図である。図14は、タイプB用手がかり句辞書の一例を示す図である。引用文献情報取得部14は、引用情報にタイプC用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプCであると決定し、引用情報にタイプB用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプBであると決定する。

0157

また、この具体例において、引用文献情報取得部14は、引用文献の一部として、引用文献のタイトルを取得するものとする。
まず、ユーザが用語情報「terminology」を関連用語取得装置1に入力したとする。すると、その用語情報「terminology」は用語情報受付部12で受け付けられる(ステップS101)。そして、文献情報取得部13は、その用語情報「terminology」をタイトルに含む各文献情報の参考文献(Reference)の欄の部分と、引用情報とを取得する(ステップS102、S201〜S205)。

0158

具体的には、文献情報取得部13は、用語情報「terminology」をタイトルに含む各文献情報を検索し、その検索された文献情報の書誌情報を取得する(ステップS201)。図15は、その取得された文献情報の書誌情報の一例を示す図である。図15で示されるように、その書誌情報には「著者」、「タイトル」、「その他」が含まれる。「著者」は論文の著者(1名以上)の情報であり、「タイトル」は論文のタイトルの情報であり、「その他」は論文誌の名称や著作年などの情報である。なお、図15において、各レコードに「ID」が対応付けられているが、この「ID」は、表におけるレコード管理のために存在する。

0159

文献情報取得部13は、図15で示される各レコードで識別される文献情報から、参考文献(Reference)の欄の部分と、その参考文献の欄に含まれる引用文献識別情報に対応する引用情報とを取得する(ステップS204)。

0160

ここで、この具体例における引用情報の取得方法について説明する。文献情報取得部13は、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索する。次に、文献情報取得部13は、そのインデックスを含む文とつながりの深い文を以下の(1)〜(6)の手がかり句を用いて抽出する。すなわち、文献情報取得部13は、インデックスを含む文の次の文に、以下の(1)〜(6)の手がかり句のいずれかが含まれる場合に、その手がかり句の含まれる文がインデックスを含む文とつながりが深い文であるとして抽出する。文献情報取得部13は、インデックスを含む文と、そのインデックスを含む文とつながりの深い文とを引用情報として取得する。

0161

(1)照応詞に関する手がかり:In this、On this,Such
(2)接続詞に関する手がかり:But、However、Although
(3)1人称に関する手がかり:We、we、Our、our、us、I
(4)3人称に関する手がかり:They、they、Their、their、them
(5)副詞に関する手がかり:Furthermore、Additionally、Still
(6)その他の手がかり:In particular、follow、For example

0162

次に、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の一部(すなわち、参考文献の部分と各引用文献識別情報に対応する引用情報)に基づいて、引用形式を決定し、引用形式に応じた引用文献の部分を取得する(ステップS103、図11図12のフローチャート)。

0163

引用形式の決定では、前述のように、図13で示されるタイプC用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプCに決定し、図14で示されるタイプB用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプBに決定し、タイプC、タイプBのいずれでもない場合には、引用形式をタイプOに決定する(ステップS701〜S711)。そして、引用文献情報取得部14は、引用形式がタイプCである場合には、引用文献情報の一部として、引用文献情報のタイトルを示す情報を取得する。一方、引用文献情報取得部14は、引用形式がタイプBである場合には、引用文献情報の一部として、引用文献情報の要約(アブストラクト)を示す情報を取得する。なお、引用文献情報取得部14は、引用形式がタイプOである場合には、引用文献情報の一部の取得を行わない。

0164

この後、関連用語情報出力部16は、引用文献情報取得部14によって取得された引用文献情報の一部の集合から関連用語情報を取得し(ステップS104、図6のフローチャート)、関連用語情報出力部16は、その取得された関連用語情報を出力する(ステップS105)。

0165

なお、引用情報を取得する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用情報を取得する他の方法について説明する。文献情報取得部13は、例えば、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索し、そのインデックスが含まれる文を特定する。そして、文献情報取得部13は、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。

0166

文献情報取得部13は、あらかじめ図示しない記録媒体で記憶されている下記の2種類の手がかり語句にアクセス可能であるとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…

0167

文献情報取得部13は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。文献情報取得部13は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、文献情報取得部13は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。文献情報取得部13は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。文献情報取得部13は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。

0168

また、引用形式を判断する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用形式を判断する他の方法について説明する。文献情報取得部13は、例えば、引用情報に所定の手がかり句が含まれるかどうかのみによって引用形式を判断するのではなく、引用情報に含まれる手がかり句の位置も考慮して引用形式を判断してもよい。より具体的には、例えば、タイプC用手がかり句辞書では、図20で示されるように、タイプCの手がかり句(図20では、「手がかり語句」としている)と、手がかり句の位置とを対応付けられているものとする。図20の「手がかり句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり句の位置=3)までの3個の文を意味している。手がかり句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。文献情報取得部13は、タイプCの手がかり句が、対応する手がかり句の位置で示される文に含まれる場合に、その引用情報の引用形式を、タイプCであると判断してもよい。より具体的には、文献情報取得部13は、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合に、その引用情報の引用形式をタイプCであると判断してもよい。なお、ここでは、引用形式がタイプCであるかどうかの判断方法について説明したが、引用形式がタイプBであるかどうかの判断方法についても同様である。

0169

このように、本実施の形態による関連用語取得装置1によれば、引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より精度の高い関連用語情報の取得が可能となりうる。

0170

なお、本実施の形態では、上記の具体例のように、引用形式がタイプCである場合には、引用文献情報のタイトルを示す情報を取得し、引用形式がタイプBである場合には、引用文献情報の要約を示す情報を取得する場合について説明したが、これはその他の設定であってもよい。例えば、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が問題指摘型引用形式である場合には、引用文献情報における背景的な項目を有する部分を取得し、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が論説根拠型引用形式である場合には、引用文献情報における特徴的な項目を有する部分を取得してもよい。ここで、背景的な項目とは、例えば、特許文献であれば、「従来技術」や「背景技術」等であってもよく、学術文献であれば、「イントロクション」や「関連研究」等であってもよい。また、特徴的な項目とは、例えば、特許文献であれば、「実施の形態」や「効果」等であってもよく、学術文献であれば、「終わりに」や「結論」等であってもよい。これらの項目に対応する引用文献情報の部分を取得する方法としては、実施の形態1、2で説明した方法を用いることができる。
また、引用形式に応じた引用文献情報の部分を取得する処理を、実施の形態2における関連用語取得装置2において実行してもよいことは言うまでもない。

0171

また、上記各実施の形態において、文献情報記憶部11で記憶されている文献情報は2以上の種類のものであってもよい。例えば、文献情報記憶部11において、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶されており、文献情報取得部13は、文献情報記憶部11で記憶されている第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、引用文献情報取得部14は、文献情報記憶部11で記憶されている第2の種類の文献情報から、引用文献情報の一部を取得してもよい。例えば、第1の種類の文献情報が学術論文に関する情報であり、第2の種類の文献情報が特許書類の情報であってもよく、その逆であってもよい。一般に学術論文に慣れているユーザは、特許書類で用いられる用語に精通していない場合が多いが、このような関連用語取得装置を用いることにより、学術論文で用いられる用語から、その用語に関連する特許書類で用いられる関連用語を取得することができる。また、第1の種類の文献情報が第1の種類の言語の情報であり、第2の種類の文献情報が第2の種類の言語の情報であってもよい。第1の種類の言語、第2の種類の言語は、例えば、英語日本語、中国語フランス語、ドイツ語等、どのような言語であってもよい。このようにすることで、例えば、日本語の用語に関連する英語の関連用語を取得することが可能となりうる。

0172

(実施の形態4)
本発明の実施の形態4による技術動向情報作成装置について、図面を参照しながら説明する。
図16は、本実施の形態による技術動向情報作成装置の構成を示すブロック図である。図16において、本実施の形態による技術動向情報作成装置1001は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019とを備える。

0173

検索用語受付部1011は、検索用語を受け付ける。検索用語とは、後述する検索部1013での検索において、検索キーワードとして用いられる情報である。検索用語受付部1011が受け付ける検索用語は、実際には検索用語を示す情報であるが、単に検索用語と呼ぶことにする。技術動向情報作成装置1001では、この検索用語受付部1011が受け付けた検索用語によって、技術文献が検索され、その検索された技術文献を示す情報が取得されて、その情報をもとに技術動向情報が作成されることになる。このように、この検索用語は、技術動向情報を作成する分野等を決めるために用いられるものである。この検索用語は、一般にテキストデータであるが、その他の情報であってもよい。また、この検索用語は、例えば、作成される技術動向情報の分野を示す情報であってもよく、作成される技術動向情報の期間を示す情報であってもよい。検索用語が技術動向情報の分野を示す情報である場合には、その検索用語は、例えば、その分野の名称でもよく、その分野に対応付けられた記号等であってもよい。分野に対応付けられた記号としては、例えば、IPC(国際特許分類)や、USクラス(米国特許分類)等がある。本実施の形態では、検索用語受付部1011が、技術動向情報の分野の名称を示す検索用語を受け付ける場合について説明する。

0174

ここで、検索用語受付部1011による検索用語の受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、検索用語受付部1011は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語受付部1011は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。

0175

文献情報記憶部1012では、複数の文献情報と、複数の時期情報とが少なくとも記憶される。ここで、文献情報とは、技術文献の少なくとも一部を示す情報である。技術文献とは、例えば、技術論文や、特許・実用新案の公報、公開技報、技術関連の書籍や記事、技術に関するウェブページ等である。一の文献情報には、対応する一の技術文献の少なくとも一部の情報(データ)が含まれる。技術文献の一部とは、技術文献のうち、後の処理で必要となる範囲が少なくとも含まれる部分である。例えば、技術文献のタイトルと参考文献とを後の処理で用いる場合には、文献情報は、技術文献のタイトルと参考文献とを示す情報であってもよい。なお、文献情報は、技術文献の全部を示す情報であってもよい。また、時期情報とは、文献情報の示す技術文献に関する時期を示す情報である。時期情報は、例えば、文献情報の作成された時期を示す情報であってもよく、文献情報の公開された時期を示す情報であってもよく、文献情報に関するその他の時期を示す情報であってもよい。時期情報は、例えば、文献情報に関する年を示す情報でもよく、年月を示す情報でもよく、年月日を示す情報であってもよく、その他の時期を示す情報であってもよい。文献情報と、時期情報とは、どの技術文献がどの時期のものであるかがわかるように、直接的に、あるいは、間接的に対応付けられているものとする。前者の場合には、例えば、互いに対応する文献情報と時期情報とが同じレコードに含まれてもよい。後者の場合には、例えば、技術文献を識別する文献ID等を介して、文献情報と、時期情報とが対応付けられていてもよい。文献情報、及び時期情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報と時期情報とは、データとして一体に構成されてもよく、別々のデータであってもよい。

0176

文献情報記憶部1012において、これ以外の情報が記憶されてもよいことは言うまでもない。例えば、技術文献の著者名、出版社名、媒体名(例えば、雑誌名、書籍名等)、技術文献の分野を示す情報(例えば、IPC等)、技術文献の要約等の書誌情報が文献情報記憶部1012で記憶されてもよい。また、文献情報には、例えば、引用文献識別情報や、引用情報が含まれてもよい。引用文献識別情報とは、文献情報において引用している他の技術文献(以下、この技術文献を「引用文献」と呼ぶこともある)を識別する情報である。引用情報とは、引用情報の含まれる文献情報において引用している他の技術文献についての記述を示す情報である。技術文献についての記述とは、例えば、その技術文献の問題点を指摘するための記述や、その技術文献を根拠として新しい理論を提案したり、システムを構築したりするための記述等である。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。本実施の形態では、文献情報に少なくともタイトルと、引用文献識別情報と、引用情報とが含まれるものとする。

0177

ここで、引用文献識別情報と引用情報とについてさらに詳細に説明する。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応するインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。この所定の領域は、後述するように、所定のルールに基づいて決定されるものであってもよい。

0178

次に、引用情報における引用文献の引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。ここで、上記説明の引用形式については、次の文献で説明されている。

0179

文献:難波英嗣、奥村学、「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理、Vol.6、No.5、p.43−62、1999年

0180

なお、文献情報記憶部1012は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部1012に文献情報等が記憶される過程は問わない。例えば、記録媒体を介して文献情報等が文献情報記憶部1012で記憶されるようになってもよく、通信回線等を介して送信された文献情報等が文献情報記憶部1012で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報等が文献情報記憶部1012で記憶されるようになってもよい。

0181

検索部1013は、検索用語受付部1011が受け付けた検索用語を用いて、文献情報記憶部1012を検索する。検索部1013は、検索用語受付部1011が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索することが好適である。「技術文献に対応する文献情報」とは、技術文献の少なくとも一部を示す文献情報の意味である。メイントピックとは、ある研究分野の名称である。その範囲の広狭は注目している範囲によって異なりうる。例えば、「形態素解析」はメイントピックとなりうるが、それを含む「自然言語処理」もメイントピックとなりうる。

0182

そのような検索のために、検索部1013は、文献情報記憶部1012で記憶されている各文献情報の全体を検索してもよく、各文献情報の一部(例えば、タイトルのみ等)を検索してもよく、あるいは、文献情報以外の情報を検索してもよい。文献情報の一部を検索する場合には、文献情報は、その文献情報の一部を特定することができる構造を有しているものとする。例えば、文献情報の部分ごとに項目名が記載されていてもよく、あるいは、マークアップ言語のタグ等を用いて項目が特定できるようにされていてもよい。「文献情報以外の情報」とは、例えば、時期情報であってもよく、その他の書誌情報であってもよい。

0183

また、検索用語がメイントピックである技術文献に対応する文献情報を検索するために、検索部1013は、例えば、その検索用語が所定の回数以上記載されている文献情報を検索してもよく、あるいは、所定の複数の領域(例えば、タイトルと要約など)にその検索用語が記載されている文献情報を検索してもよい。このように、ある検索用語がメイントピックである技術文献に対応する文献情報を検索する方法はすでに次の文献等で知られており、その詳細な説明を省略する。

0184

文献:Ricardo Baeza−Yates, Berthier Ribeiro−Neto、「Modern Information Retrieval」、Addison−Wesley Pub、ISBN:020139829X、1999年

0185

文献:徳永健伸、「情報検索と言語処理」、東京大学出版会、ISBN:4130654055、1999年

0186

文献:Nitin Indurkhya, Tong Zhang, Fred J. Damerau、「Text Mining:Predictive MethodsFor Analyzing Unstructured Information」、Springer、ISBN:0387954333、2004年

0187

また、文献情報が技術文献のタイトルを少なくとも含む情報である場合に、検索部1013は、文献情報記憶部1012で記憶されている文献情報の示す技術文献のタイトルにおけるメイントピックを示す領域に、検索用語受付部1011が受け付けた検索用語が含まれている文献情報を検索してもよい。このようにすることで、検索用語がメイントピックである技術文献に対応する文献情報を検索しうると考えられる。タイトルにおいてメイントピックを示す領域は、例えば、日本語のタイトルにおいては、タイトルの最後の領域であってもよく、英語のタイトルにおいては、タイトルの最初の領域であってもよい。

0188

なお、検索部1013が行う検索処理そのものについては、すでに公知であるため、その詳細な説明を省略する。この検索部1013による検索の結果、一般に1以上の文献情報が検索結果として特定されることになる。その特定は、例えば、その文献情報を識別する情報を一時記憶メモリ等の記録媒体に蓄積することによって行われてもよく、その文献情報に対応付けてフラグを設定することによって行われてもよい。

0189

特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この特定部1014による特定を行うことで、検索部1013が検索しなかった文献情報であるが、検索部1013が検索した文献情報と分野が同一である文献情報も、技術動向情報の作成に用いることができるようになる。ここで、その特定方法としては、例えば、(1)引用関係を用いる方法、(2)文書分類文書クラスタリングを用いる方法等がある。

0190

(1)引用関係を用いる方法
引用関係を用いる方法では、検索部1013が検索した文献情報において引用されている技術文献に対応する文献情報は、検索部1013が検索した文献情報と分野が同一であると仮定して文献情報の特定を行う方法である。その文献情報の特定において、例えば、(1−1)引用文献識別情報のみを用いる方法と、(1−2)引用文献識別情報と引用形式とを用いる方法とがある。

0191

(1−1)引用文献識別情報のみを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、その文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得する。そして、その取得した引用文献識別情報で文献情報を特定する。

0192

引用文献識別情報の取得において、特定部1014は、引用文献識別情報を含むと考えられる参考文献(Reference)の欄を取得してもよく、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を取得してもよい。参考文献の欄や、特許文献等を取得する場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を取得してもよい。また、パターンマッチング等の技術を用いて引用文献識別情報を取得する場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって、文献情報における引用文献識別情報を含む領域を取得してもよい。特定部1014が取得した引用文献識別情報は、図示しない記録媒体に一時的に蓄積されてもよい。

0193

(1−2)引用文献識別情報と引用形式とを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、引用文献識別情報を取得すると共に、その文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得する。そして、その取得した引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式(タイプCの引用形式)である場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定する。

0194

例えば、ある技術文献Aにおいて技術文献Bが引用されている場合に、技術文献Bの問題を指摘する形式(タイプCの引用形式)で技術文献Bが引用されている場合には、技術文献Aと技術文献Bとの分野が同じである可能性の高いことが発明者らの研究によってわかっている(前述の文献「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」参照)。

0195

したがって、引用情報によって示される技術文献の引用形式がタイプCの引用形式である場合に、その技術文献を識別する引用文献識別情報で文献情報を特定し、そうでない場合に、文献情報を特定しなくてもよい。

0196

特定部1014は、例えば、タイプCの引用形式に応じた1以上の手がかり語句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり語句が含まれるかどうかによって、引用形式がタイプCであるかどうかを決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよく、あるいは、引用情報において引用を行っている文(例えば、引用文献識別情報を含む文や、引用文献識別情報に対応するインデックスを含む文など)を基準として、所定の範囲であってもよい。その所定の位置は、手がかり語句ごとに設定されていてもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法を用いてもよい。

0197

引用情報の取得において、特定部1014は、例えば、引用文献識別情報について言及している領域を、引用文献識別情報等を用いて特定し、その特定した領域を含む引用情報を取得してもよく、あるいは、引用文献識別情報に対応するインデックスについて言及している領域を、引用文献識別情報に対応するインデックスを用いて特定し、その特定した領域を含む引用情報を取得してもよい。特定部1014が取得した引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。

0198

特定部1014は、引用情報を取得し、その引用情報における引用形式がタイプCであると判断した場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定することになる。例えば、引用情報において、引用文献識別情報によって引用文献についての言及が行われている場合には、その引用文献識別情報で文献情報を特定すればよい。一方、引用情報において、インデックスによって引用文献についての言及が行われている場合には、そのインデックスに対応する引用文献識別情報を特定し、その特定した引用文献識別情報で文献情報を特定すればよい。

0199

なお、上記(1−1)、(1−2)における引用文献識別情報や引用情報の取得において、特定部1014は、文献情報記憶部1012から引用文献識別情報等を取得してもよく、あるいは、後述する文献情報取得部1015が引用文献識別情報等を含む文献情報を取得している場合には、その文献情報取得部1015が取得した文献情報から引用情報を取得してもよい。本実施の形態では、前者の場合について説明する。

0200

(2)文書分類や文書クラスタリングを用いる方法
複数の文献情報を分類したりクラスタリングしたりする方法は、従来から知られている。例えば、上述の文献「Modern Information Retrieval」、「情報検索と言語処理」、「Text Mining:Predictive MethodsFor Analyzing Unstructured Information」等において開示されている。この方法では、同一のグループに分類されたり、クラスタリングされたりした文献情報は、分野が同一の文献情報であると仮定して、文献情報を特定する。より具体的には、検索部1013によって検索された文献情報と同一のグループに分類されたり、クラスタリングされたりした文献情報を、特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この場合における文献情報の特定は、例えば、文献情報を識別する文献IDや、文献情報の書誌情報(タイトル、発表年頭著者名、文献の掲載された媒体名等)によってなされてもよい。

0201

文献情報取得部1015は、文献情報取得部1015で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する。文献情報取得部1015は、検索部1013によって検索された文献情報の全部または一部を取得する。文献情報取得部1015が文献情報の一部を取得する場合に、その文献情報の一部は、例えば、文献情報のタイトルや要約等であってもよい。例えば、その取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部1015は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を、文献情報の一部として取得してもよい。文献情報取得部1015が文献情報の一部を取得し、検索部1013が文献情報の一部を検索する場合に、その取得する文献情報の一部と、検索で用いる文献情報の一部とは、文献情報の同じ部分であってもよく、あるいは、文献情報の異なる部分であってもよい。

0202

文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部も文献情報記憶部1012から取得する。例えば、引用文献識別情報によって文献情報が特定されている場合には、文献情報取得部1015は、引用文献識別情報を用いて文献情報記憶部1012を検索して、その検索された文献情報の全部または一部を取得する。ここで、文献情報取得部1015が特定部1014による特定結果を用いて取得する文献情報の領域は、文献情報取得部1015が検索部1013による検索結果を用いて取得する文献情報の領域と同様であるとする。例えば、文献情報取得部1015が検索結果を用いて文献情報のタイトルを取得する場合には、文献情報取得部1015は、特定された文献情報のタイトルを取得するものとする。
文献情報取得部1015は、検索結果や特定結果に応じて取得した文献情報の全部または一部を、図示しない記録媒体において一時的に記憶してもよい。

0203

技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する。文献情報取得部1015が取得した文献情報とは、文献情報取得部1015が、その一部または全部を取得した文献情報のことである。ここで、技術用語とは、検索部1013が検索した技術文献の分野において用いられる用語である。この技術用語は、検索部1013が検索した技術文献の分野における要素となる技術用語であることが好ましい。この技術用語の変遷を見ることにより、技術動向を知ることができうる。技術用語抽出部1016が抽出する技術用語は、実際には技術用語を示す情報であるが、単に技術用語と呼ぶことにする。技術用語抽出部1016が技術用語を抽出する方法については後述する。技術用語抽出部1016は、抽出した技術用語を図示しない記録媒体において一時的に記憶してもよい。

0204

時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報取得部1015から取得する。例えば、文献情報取得部1015が取得した文献情報に対応する時期情報を時期情報取得部1017が取得することにより、時期情報取得部1017は、前述の時期情報を取得することができる。この場合に、ある文献情報から技術用語が抽出されなかった場合には、その文献情報に対応する時期情報を取得しなくてもよく、あるいは、その文献情報に対応する時期情報を後述する技術動向情報の作成で用いないようにしてもよい。

0205

技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて技術動向情報を作成する。ここで、技術動向情報とは、技術用語と、その技術用語を含む技術文献に関する時期とを対応付ける情報である。すなわち、技術動向情報によって、ある技術用語がどの時期に使用されていたのかを知ることができうる。技術動向情報において、技術用語と対応付けられる時期は、時期情報そのもの(例えば、年月等の数値そのもの)であってもよく、あるいは、時期情報とは異なるもの(例えば、年月等に対応した図形等)であってもよい。後者の場合には、例えば、時期を示す座標軸を用いて、技術情報と対応付けられる時期が示されてもよい。この技術動向情報は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とが対応付けられた情報であれば、そのデータ形式を問わない。例えば、テキストファイルであってもよく、スプレッドシート形式のファイルであってもよく、画像ファイルであってもよく、その他の形式のファイルであってもよい。この技術動向情報は、例えば、技術用語ごとに、その技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であってもよい。技術動向情報には、検索用語受付部1011が受け付けた検索用語が含まれてもよい。

0206

出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、出力部1019は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部1019は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。例えば、技術動向情報が画像である場合には、出力部1019は、その技術動向情報を表示出力する。

0207

なお、この技術動向情報作成装置1001において用いられる言語は問わない。例えば、日本語であってもよく、英語であってもよく、フランス語であってもよく、中国語であってもよく、韓国語であってもよい。

0208

次に、本実施の形態による技術動向情報作成装置1001の動作について、図17のフローチャートを用いて説明する。
(ステップS1101)検索用語受付部1011は、検索用語を受け付けたかどうか判断する。そして、検索用語を受け付けた場合には、ステップS1102に進み、そうでない場合には、検索用語を受け付けるまでステップS1101の処理を繰り返す。

0209

(ステップS1102)検索部1013は、検索用語受付部1011が受け付けた検索用語で、文献情報記憶部1012を検索する。検索部1013は、例えば、検索された文献情報を識別する文献IDを取得してもよい。

0210

(ステップS1103)特定部1014は、検索部1013が検索した文献情報と分野が同一の文献情報を特定する。なお、この処理の詳細については後述する。

0211

(ステップS1104)文献情報取得部1015は、検索部1013が検索した文献情報の全部または一部と、特定部1014が特定した文献情報の全部または一部とを文献情報記憶部1012から取得する。なお、この処理の詳細については後述する。

0212

(ステップS1105)技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から、技術用語を抽出する。この処理の詳細については後述する。

0213

(ステップS1106)時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報記憶部1012から取得する。

0214

(ステップS1107)技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて、技術動向情報を作成する。

0215

(ステップS1108)出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。そして、ステップS1101に戻る。なお、技術動向情報の出力が、表示出力のように継続して行うことができる場合には、一定の時間の経過後に、その出力を終了してもよく、あるいは、終了する指示や割り込み処理等の受け付け等をトリガーとして、その出力を終了してもよい。
なお、図17のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

0216

また、図17のフローチャートにおける検索処理(ステップS1102)や、文献情報の取得処理(ステップS1104)、技術用語の抽出処理(ステップS1105)、時期情報の取得処理(ステップS1106)等において、何も検索されなかったり、文献情報等が取得されなかったりした場合などには、エラーであるとしてステップS1101に戻るようにしてもよい。

0217

また、文献情報の特定処理(ステップS1103)において文献情報が特定されなかった場合でも、ステップS1104に進んでもよく、ステップS1101に戻ってもよい。本実施の形態では、前者の場合について説明する。

0218

また、図17のフローチャートの処理の順序は、ある程度、任意である。例えば、時期情報を取得する処理は、文献情報の特定処理の後であれば、文献情報の取得処理や技術用語の抽出処理よりも以前に行われてもよい。

0219

次に、図17のフローチャートにおける文献情報の特定処理(ステップS1103)の詳細な処理について、図18のフローチャートを用いて説明する。なお、文献情報の特定の方法には前述のように各種の方法が存在するが、ここでは、引用文献識別情報と引用形式とを用いて文献情報を特定する方法について説明する。
(ステップS1201)特定部1014は、カウンタiを1に設定する。

0220

(ステップS1202)特定部1014は、検索部1013が検索したi番目の文献情報から、すべての引用文献識別情報と、各引用文献識別情報に対応する引用情報とを取得する。なお、前述のように、引用文献識別情報は、引用情報に含まれていてもよく、そうでなくてもよい。また、このステップにおいて、検索部1013が検索したi番目の文献情報に引用文献識別情報がまったく含まれなかった場合には、引用文献識別情報等の取得を行わないでステップS1203に進む。

0221

(ステップS1203)特定部1014は、カウンタjを1に設定する。
(ステップS1204)特定部1014は、検索されたi番目の文献情報から取得されたj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS1205に進み、そうでない場合には、ステップS1208に進む。

0222

(ステップS1205)特定部1014は、j番目の引用文献識別情報に対応する引用情報の引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS1206に進み、そうでない場合には、ステップS1207に進む。

0223

(ステップS1206)特定部1014は、j番目の引用文献識別情報を図示しない記録媒体において一時記憶する。この一時記憶された引用文献識別情報で識別される文献情報が、特定された文献情報となる。

0224

(ステップS1207)特定部1014は、カウンタjを1だけインクリメントする。そして、ステップS1204に戻る。
(ステップS1208)特定部1014は、カウンタiを1だけインクリメントする。

0225

(ステップS1209)特定部1014は、検索部1013によって検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1202に戻り、そうでない場合には、文献情報を特定する一連の処理は終了となり、ステップS1104に進む。

0226

次に、図17のフローチャートにおける文献情報の取得処理(ステップS1104)の詳細な処理について、図19のフローチャートを用いて説明する。
(ステップS1301)文献情報取得部1015は、検索部1013による検索結果の示す各文献情報の全部または一部を取得する。この処理の詳細については後述する。

0227

(ステップS1302)文献情報取得部1015は、特定部1014によって文献情報が特定されたかどうか判断する。そして、文献情報が特定された場合には、ステップS1303に進み、そうでない場合には、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。

0228

(ステップS1303)文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部を取得する。なお、この処理の詳細については後述する。この処理が終了すると、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。

0229

次に、図19のフローチャートにおける検索結果の示す各文献情報の全部または一部を取得する処理について、図20のフローチャートを用いて説明する。

0230

(ステップS1401)文献情報取得部1015は、カウンタiを1に設定する。
(ステップS1402)文献情報取得部1015は、i番目の検索結果の示す文献情報の全部または一部を取得する。

0231

(ステップS1403)文献情報取得部1015は、ステップS1402で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(ステップS1404)文献情報取得部1015は、カウンタiを1だけインクリメントする。

0232

(ステップS1405)文献情報取得部1015は、i番目の検索結果が存在するかどうか判断する。そして、存在する場合には、ステップS1402に戻り、そうでない場合には、検索結果の示す各文献情報の全部または一部を取得する一連の処理は終了となり、ステップS1302に進む。

0233

次に、図18のフローチャートにおける特定された文献情報の全部または一部の取得処理について、図21のフローチャートを用いて説明する。
(ステップS1501)文献情報取得部1015は、カウンタiを1に設定する。

0234

(ステップS1502)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部をまだ取得していないかどうか判断する。そして、取得していない場合には、ステップS1503に進み、取得している場合には、ステップS1505に進む。この判断は、例えば、ステップS1403で文献情報取得部1015によって取得された文献情報の一時記憶されている図示しない記録媒体を参照することによって行うことができる。

0235

(ステップS1503)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部を取得する。
(ステップS1504)文献情報取得部1015は、ステップS1503で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。

0236

(ステップS1505)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(ステップS1506)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1502に戻り、そうでない場合には、特定された文献情報を取得する一連の処理は終了となり、ステップS1105に進む。

0237

次に、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する方法について説明する。
まず、技術用語を抽出する基本的な原理について説明する。文献情報取得部1015が取得した文献情報の全部または一部には、検索や特定されたメイントピックの分野における技術用語が含まれていると仮定している。そして、その技術用語は一般的に、所定の手がかり語句と対応していることが多いと考えられる。特に、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称も含まれる場合には、技術用語は、メイントピックの名称と所定の手がかり語句を介して対応付けられていることが多いと考えられる。

0238

例えば、メイントピックの名称が「文抽出」である場合に、文献情報取得部1015が文献情報の一部「SVMを用いた文抽出」を取得したとすると、メイントピックの名称「文抽出」と、その分野における技術用語「SVM」とが、手がかり語句「を用いた」を介して対応付けられていることがわかる。また、例えば、メイントピックの名称が「字幕生成」である場合に、文献情報取得部1015が文献情報の一部「字幕生成のための文短縮」を取得したとすると、メイントピックの名称「字幕生成」と、その分野における技術用語「文短縮」とが、手がかり語句「のための」を介して対応付けられていることがわかる。また、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称が含まれない場合であっても、手がかり語句を用いることによって、技術用語を特定することは可能であると考えられる。

0239

したがって、それらの手がかり語句を特定し、その手がかり語句で文献情報取得部1015が取得した文献情報の全部または一部を検索し、その検索された手がかり語句に対応する用語を技術用語として抽出することができうる。なお、それだけの方法であれば、適切でない技術用語を抽出する可能性もありうるため、発明者らは、より精度を上げるための方策についても考えている。以下、具体的に、技術用語抽出部1016の構成及び動作について説明する。

0240

[パターン1]
図22は、パターン1における技術用語抽出部1016の構成を示すブロック図である。図22において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語抽出手段1023とを備える。なお、文献情報取得部1015が取得した文献情報の全部または一部は、文献情報一時記憶手段1020で記憶されているものとする。この文献情報一時記憶手段1020は、例えば、文献情報取得部1015が有してもよく、技術用語抽出部1016が有してもよく、あるいは、その他の構成要素が有してもよい。

0241

手がかり語句記憶手段1021では、1以上の手がかり語句が記憶される。この手がかり語句は、上記説明のように、技術用語の抽出で用いられるための手がかり語句であり、適切な技術用語の抽出を行うことができるようにあらかじめ決められているものである。なお、この手がかり語句は、実際には手がかり語句を示す情報であるが、単に手がかり語句と呼ぶことにする。手がかり語句記憶手段1021は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。手がかり語句記憶手段1021に手がかり語句が記憶される過程は問わない。例えば、記録媒体を介して手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、通信回線等を介して送信された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよい。

0242

手がかり語句検索手段1022は、文献情報取得部1015が取得した文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されている手がかり語句を検索する。

0243

技術用語抽出手段1023は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を技術用語として抽出する。手がかり語句と所定の関係を有する用語とは、例えば、手がかり語句の前にある用語や、手がかり語句の後にある用語等である。この関係は、手がかり語句ごとに決まっていてもよく、手がかり語句の属性ごとに決まっていてもよい。手がかり語句の属性とは、例えば、その手がかり語句が技術用語とメイントピックとを関係付ける関係であってもよい。例えば、手がかり語句の属性として、「Method」や、「Goal」等がある。属性「Method」を有する手がかり語句としては、例えば、「による」、「に基づく」、「を用いた」等が存在する。属性「Goal」を有する手がかり語句としては、例えば、「のための」、「に向けて」等がある。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。

0244

技術用語抽出手段1023は、例えば、手がかり語句と所定の関係を有する連続した名詞句を技術用語として抽出してもよく、あるいは、あらかじめ技術用語となりうる用語の候補を図示しない記録媒体において保持しておき、手がかり語句と所定の関係を有する用語であって、その保持している技術用語の候補と一致するものを技術用語として抽出してもよい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ