図面 (/)

技術 文書汎用度推定装置、文書汎用度推定方法及びプログラム

出願人 日本電気株式会社
発明者 久野綾子平尾英司
出願日 2015年7月9日 (5年10ヶ月経過) 出願番号 2015-137600
公開日 2017年1月26日 (4年3ヶ月経過) 公開番号 2017-021512
状態 特許登録済
技術分野 機械翻訳
主要キーワード 候補ペア 計算処理装置 用語リスト 翻訳パターン 度推定処理 中央処理演算装置 度推定装置 累積結果
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年1月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (12)

課題

文書汎用度を箇所毎に推定する。

解決手段

文書汎用度推定装置は、特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、第1文字列に類似する第2文字列とを含む第1の組に対し、第1文字列に含まれ、かつ、第2文字列に含まれない第3文字列、及び、第2文字列に含まれ、かつ、第1文字列に含まれない第4文字列を抽出し、第3文字列と第4文字列とを含む第2の組と第1の組とを関連付けし、第2の組に関連付けられた第1の組の個数に基づき、第2の組が、区別されて使用されている語句を表す区別語の組であるか否かを判定し、区別語の組のうち、第3文字列および第4文字列が同義関係または類義関係にある区別語の組を抽出し、抽出された区別語の組の出現頻度を、所定の単位で区切られた、文書の所定の範囲ごとに算出し、該出現頻度に基づいて文書の範囲毎の汎用度を推定する。

概要

背景

システム開発における設計書仕様書等の専門的な文書には、専門用語が多く含まれている。そのため、同義で使われているのか、区別して使われているのかが判別しにくい用語や記述不足になりがちな表現など、文書を作成するにあたり、留意すべき事項が多い。そのような留意すべき事項を用語リストや記述不足が発生しやすい単語のリスト等を用いて共有することが望ましいが、このようなリストを人手で作成するのは手間がかかる。そのため、情報処理装置等を用いて文書から自動的に上記単語や用語を抽出するシステムが開発されている。

例えば、文書から専門用語情報を抽出する技術の一例が特許文献1に開示されている。

また、特許文献2には、表記ゆれ候補を抽出する装置が記載されている。

また、特許文献3には、音声テキスト形態素解析して文字列を取得し、該文字列を用いて読み上げ音声修正を行う装置が記載されている。

また、特許文献4には、ブログから特徴語を抽出して、特徴語の出現数から地域特性辞書を生成する方法が記載されている。

また、特許文献5には、対訳文書全体から翻訳パターンの抽出を行う装置が記載されている。

概要

文書の汎用度を箇所毎に推定する。文書汎用度推定装置は、特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、第1文字列に類似する第2文字列とを含む第1の組に対し、第1文字列に含まれ、かつ、第2文字列に含まれない第3文字列、及び、第2文字列に含まれ、かつ、第1文字列に含まれない第4文字列を抽出し、第3文字列と第4文字列とを含む第2の組と第1の組とを関連付けし、第2の組に関連付けられた第1の組の個数に基づき、第2の組が、区別されて使用されている語句を表す区別語の組であるか否かを判定し、区別語の組のうち、第3文字列および第4文字列が同義関係または類義関係にある区別語の組を抽出し、抽出された区別語の組の出現頻度を、所定の単位で区切られた、文書の所定の範囲ごとに算出し、該出現頻度に基づいて文書の範囲毎の汎用度を推定する。

目的

本発明の主たる目的は、文書の汎用度を文書の箇所ごとに推定することができる技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とを含む第1の組に対し、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と前記第4文字列とを含む第2の組と前記第1の組とを関連付けする第1の抽出手段と、前記第2の組に関連付けられた前記第1の組の個数に基づき、前記第2の組が、区別されて使用されている語句を表す区別語の組か否かを判定する判定手段と、前記区別語の組のうち、単語の同義関係または類義関係に基づいて複数の単語間における関連を表す一般概念情報記述された辞書において、前記第3文字列および前記第4文字列が同義関係または類義関係にある前記区別語の組を抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された前記区別語の組の出現頻度を、所定の単位で区切られた、文書範囲ごとに算出し、該出現頻度に基づいて前記文書の範囲毎の汎用度を推定する推定手段と、を備える文書汎用度推定装置

請求項2

前記判定手段は、前記区別語の組と判定された前記第2の組のうち、前記第3文字列および前記第4文字列の一方が他方を含む前記第2の組を、前記区別語の組から除外する、請求項1に記載の文書汎用度推定装置。

請求項3

前記判定手段は、前記区別語の組と判定された前記第2の組のうち、前記第3文字列および前記第4文字列のそれぞれを、形態素解析処理を行うことにより得られる、前記第3文字列の読みおよび前記第4文字列の読みが同じである、該第3文字列および該第4文字列を含む前記第2の組を、前記区別語の組から除外する、請求項1または2に記載の文書汎用度推定装置。

請求項4

前記判定手段は、前記文書において前記第1文字列の出現回数を示す第1回数と、前記文書において前記第2文字列の出現回数を示す第2回数とを求め、前記区別語の組と判定された前記第2の組のうち、前記第2の組に関連付けられた前記第1の組に含まれる第1文字列の第1回数を、該第2の組に含まれる前記第3文字列毎累計した第3回数と、前記第2の組に関連付けられた前記第1の組に含まれる第2文字列の第2回数を、該第2の組に含まれる前記第4文字列毎に累計した第4回数と、に基づいて、前記第2の組が前記区別語の組であるか否かを判定する、請求項1から3のいずれかに1項に記載の文書汎用度推定装置。

請求項5

前記判定手段は、前記第2の組に関連付けられた前記第1の組の個数が所定の個数以上である場合、該第2の組が前記区別語の組であると判定する、請求項1から4のいずれか1項に記載の文書汎用度推定装置。

請求項6

前記文書に対し形態素解析処理を行い、該形態素解析処理によって特定された品詞に基づき、前記特定の品詞の単語が連なる文字列を抽出し、抽出した文字列同士の類似する程度を表す類似度に基づき、前記第1文字列と、前記第2文字列とを抽出し、前記第1文字列と、前記第2文字列とを含む前記第1の組を作成する作成手段をさらに備える請求項1から5のいずれか1項に記載の文書汎用度推定装置。

請求項7

前記推定手段は、前記出現頻度、前記出現頻度を、該出現頻度を算出した範囲内に含まれる文字数で除した割合、前記出現頻度を、該出現頻度を算出した前記区別語の組の前記文書全体における出現頻度で除した割合、の少なくとも1つを前記汎用度として推定する、請求項1から6のいずれか1項に記載の文書汎用度推定装置。

請求項8

前記汎用度を示す情報を前記文書の所定の範囲単位に画面に表示させる表示制御手段を更に備える、請求項1から7のいずれか1項に記載の文書汎用度推定装置。

請求項9

特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とを含む第1の組に対し、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と前記第4文字列とを含む第2の組と前記第1の組とを関連付けし、前記第2の組に関連付けられた前記第1の組の個数に基づき、前記第2の組が、区別されて使用されている語句を表す区別語の組か否かを判定し、前記区別語の組のうち、単語の同義関係または類義関係に基づいて複数の単語間における関連を表す一般概念情報が記述された辞書において、前記第3文字列および前記第4文字列が同義関係または類義関係にある前記区別語の組を抽出し、前記抽出された区別語の組の出現頻度を、所定の単位で区切られた、文書の範囲ごとに算出し、該出現頻度に基づいて前記文書の範囲毎の汎用度を推定する、文書汎用度推定方法

請求項10

特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とを含む第1の組に対し、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と前記第4文字列とを含む第2の組と前記第1の組とを関連付けする処理と、前記第2の組に関連付けられた前記第1の組の個数に基づき、前記第2の組が、区別されて使用されている語句を表す区別語の組か否かを判定する処理と、前記区別語の組のうち、単語の同義関係または類義関係に基づいて複数の単語間における関連を表す一般概念情報が記述された辞書において、前記第3文字列および前記第4文字列が同義関係または類義関係にある前記区別語の組を抽出する処理と、前記抽出された区別語の組の出現頻度を、所定の単位で区切られた、文書の範囲ごとに算出し、該出現頻度に基づいて前記文書の範囲毎の汎用度を推定する処理と、をコンピュータに実行させるプログラム

技術分野

0001

本発明は、文書の記載事項汎用的か否かを文書の箇所ごとに評価する文書汎用度推定装置、文書汎用度推定方法、及びプログラムに関する。

背景技術

0002

システム開発における設計書仕様書等の専門的な文書には、専門用語が多く含まれている。そのため、同義で使われているのか、区別して使われているのかが判別しにくい用語や記述不足になりがちな表現など、文書を作成するにあたり、留意すべき事項が多い。そのような留意すべき事項を用語リストや記述不足が発生しやすい単語のリスト等を用いて共有することが望ましいが、このようなリストを人手で作成するのは手間がかかる。そのため、情報処理装置等を用いて文書から自動的に上記単語や用語を抽出するシステムが開発されている。

0003

例えば、文書から専門用語情報を抽出する技術の一例が特許文献1に開示されている。

0004

また、特許文献2には、表記ゆれ候補を抽出する装置が記載されている。

0005

また、特許文献3には、音声テキスト形態素解析して文字列を取得し、該文字列を用いて読み上げ音声修正を行う装置が記載されている。

0006

また、特許文献4には、ブログから特徴語を抽出して、特徴語の出現数から地域特性辞書を生成する方法が記載されている。

0007

また、特許文献5には、対訳文書全体から翻訳パターンの抽出を行う装置が記載されている。

先行技術

0008

特開平9−16593号公報
特開2011−186976号公報
特開2014−240884号公報
特開2010−160534号公報
特開平11−45244号公報

発明が解決しようとする課題

0009

自然言語解析などで文書から、上述のような同義で使われているのか、区別して使われているのかが判別しにくい用語等の知識を獲得する場合、入力する文書の汎用度を考慮しないと、得られた知識の活用範囲が不適切になる。

0010

たとえば、案件特有の用語が多く含まれている箇所は、汎用度が低い箇所といえる。このような汎用度の低い箇所からは案件特有の知識が抽出できる。一方、幅広い案件に共通する用語が多く含まれている箇所は、汎用度が高い箇所といえる。このような汎用度の高い箇所からは、案件に共通する知識が抽出できる。

0011

しかしながら、特許文献1に記載の技術では、専門用語を抽出するにとどまり、文書の箇所毎の汎用度を把握することができない。また、特許文献2から5も、文書の箇所毎の汎用度を把握することについては、何ら開示されていない。

0012

したがって、上述した各特許文献に記載の技術では、取得した知識の活用範囲を明確にすることができない。

0013

(発明の目的)
本発明の主たる目的は、文書の汎用度を文書の箇所ごとに推定することができる技術を提供することにある。

課題を解決するための手段

0014

本発明の一態様に係る文書汎用度推定装置は、特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とを含む第1の組に対し、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と前記第4文字列とを含む第2の組と前記第1の組とを関連付けする第1の抽出手段と、前記第2の組に関連付けられた前記第1の組の個数に基づき、前記第2の組が、区別されて使用されている語句を表す区別語の組か否かを判定する判定手段と、前記区別語の組のうち、単語の同義関係または類義関係に基づいて複数の単語間における関連を表す一般概念情報が記述された辞書において、前記第3文字列および前記第4文字列が同義関係または類義関係にある前記区別語の組を抽出する第2の抽出手段と、前記第2の抽出手段によって抽出された前記区別語の組の出現頻度を、所定の単位で区切られた、文書の範囲ごとに算出し、該出現頻度に基づいて前記文書の範囲毎の汎用度を推定する推定手段と、を備える。

0015

また、本発明の一態様に係る文書汎用度推定方法は、特定の品詞の単語が連なる第1文字列と、特定の品詞の単語が連なる文字列のうち、前記第1文字列に類似する第2文字列とを含む第1の組に対し、前記第1文字列に含まれ、かつ、前記第2文字列に含まれない第3文字列、及び、前記第2文字列に含まれ、かつ、前記第1文字列に含まれない第4文字列を抽出し、前記第3文字列と前記第4文字列とを含む第2の組と前記第1の組とを関連付けし、前記第2の組に関連付けられた前記第1の組の個数に基づき、前記第2の組が、区別されて使用されている語句を表す区別語の組か否かを判定し、前記区別語の組のうち、単語の同義関係または類義関係に基づいて複数の単語間における関連を表す一般概念情報が記述された辞書において、前記第3文字列および前記第4文字列が同義関係または類義関係にある前記区別語の組を抽出し、前記抽出された区別語の組の出現頻度を、所定の単位で区切られた、文書の範囲ごとに算出し、該出現頻度に基づいて前記文書の範囲毎の汎用度を推定する。

0016

なお、上記各装置または方法を、コンピュータによって実現するコンピュータ・プログラム、およびそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な非一時的記録媒体も、本発明の範疇に含まれる。

発明の効果

0017

本発明によれば、文書の箇所ごとの汎用度を推定できる。

図面の簡単な説明

0018

本発明の第1の実施形態に係る文書汎用度推定装置が有する構成の一例を示すブロック図である。
本発明の第1の実施形態に係る文書汎用度推定装置における動作の一例を示すフローチャートである。
表記ゆれ候補ペア情報の一例と、差分ペア情報の一例とを概念的に表す図である。
表記ゆれ候補ペア情報の他の例と、差分ペア情報の他の例とを概念的に表す図である。
差分ペア毎に、該差分ペアに含まれる差分の語の出現回数の累積を、該差分ペアに関連付けた情報の一例を概念的に表す図である。
表記ゆれ候補ペア情報の更に他の例と、差分ペア情報の更に他の例とを概念的に表す図である。
区別語ペア情報の一例と、概念辞書の一例と、特異用法語ペア情報の一例とを概念的に表す図である。
出力部が出力する情報を表示した画面の一例を表す図である。
本発明の第2の実施形態に係る文書汎用度推定装置が有する構成の一例を示すブロック図である。
第2の実施形態に係る文書汎用度推定装置における処理の流れの一例を示すフローチャートである。
本発明の各実施形態に係る文書汎用度推定装置を実現可能な計算処理装置ハードウェア構成例を、概略的に示すブロック図である。

実施例

0019

以下、本発明の実施形態について、図面を参照して詳細に説明する。尚、すべての図面において、同等の構成要素には同じ符号を付し、適宜説明を省略する。

0020

<第1の実施形態>
図1は、本発明の第1の実施形態に係る文書汎用度推定装置10が有する構成の一例を示すブロック図である。尚、図1において、実線にて示された構成要素は、第1の実施形態に係る文書汎用度推定装置10が有する構成要素であることを表す。また、点線にて示された構成要素は、第1の実施形態に係る文書汎用度推定装置10が有してもよい構成要素であることを表す。

0021

図1に示す通り、文書汎用度推定装置10は、入力部101、表記ゆれ候補抽出部(作成部)103、差分抽出部104、区別語選定部105、特異用法語抽出部107、文書汎用度推定部108、出力部(表示制御部)109および記憶部110を有する。記憶部110には、形態素辞書102および概念辞書106が格納されている。なお、本実施形態では、形態素辞書102と概念辞書106とが同じ記憶部110に格納されていることを例に説明を行うが、形態素辞書102と概念辞書106とは異なる記憶部に格納されるものであってもよい。また、記憶部110は、文書汎用度推定装置10とは別個記憶装置によって実現されるものであってもよい。

0022

入力部101は、表記ゆれを抽出する対象である文書(以降、文書データ入力文書とも呼ぶ)を受け取る。入力部101は、受け取った入力文書を表記ゆれ候補抽出部103および文書汎用度推定部108に入力する。

0023

記憶部110に格納された形態素辞書102は、形態素解析処理にて参照される辞書(情報)であり、少なくとも、単語とその品詞とが関連付けされた辞書である。尚、形態素辞書102の単語には、該単語の読みを表す読み情報が更に関連付けされていてもよい。

0024

表記ゆれ候補抽出部103は、入力部101から入力文書を受け取る。表記ゆれ候補抽出部103は、たとえば、後述するような抽出手順に従い、入力文書の中から表記ゆれであると推定される候補(すなわち、1つ以上の単語、文字列、複合語)のペア(以降、「表記ゆれ候補ペア」と表す)を抽出する。以降、表記ゆれであると推定される候補を、「表記ゆれ候補」と表す。

0025

表記ゆれ候補抽出部103が行う表記ゆれ候補ペアを抽出する抽出手順の例について説明する。表記ゆれ候補抽出部103は、たとえば、形態素辞書102を参照しながら入力文書に対し、形態素解析処理を行うことにより、入力文書における文章を単語(形態素、すなわち、意味を成す最小の文字列)に区切るとともに、該単語の品詞を特定する。次に、表記ゆれ候補抽出部103は、得られた単語及び該単語の品詞のうち、あらかじめ指定された品詞が連続している単語をつなぎ合わせることにより複合語を抽出する。なお、表記ゆれ候補抽出部103は、あらかじめ指定された品詞が複数ある場合は、指定された品詞のいずれかが連続している単語をつなぎ合わせることにより複合語を入力文書から抽出する。その後、表記ゆれ候補抽出部103は、抽出した1以上の複合語からなる、複合語の一覧から任意の2つの複合語をペア(組)として取り出す。そして、表記ゆれ候補抽出部103は、取り出した複合語のペア(複合語ペアと呼ぶ)ごとに、編集距離、文字列の類似度、または、複合語の出現回数の偏り度合い等に基づき、表記ゆれの度合いを算出する。次に、表記ゆれ候補抽出部103は、算出した表記ゆれの度合いが予め指定した閾値以上か否かを判定し、表記ゆれの度合いが閾値以上の複合語ペアを表記ゆれ候補ペアとして抽出する。表記ゆれ候補抽出部103は、以上のような抽出手順によって、入力文書から表記ゆれ候補ペアを抽出する。そして、表記ゆれ候補抽出部103は、1以上の、抽出した表記ゆれ候補ペアを含む情報である表記ゆれ候補ペア情報を出力し、該表記ゆれ候補ペア情報が差分抽出部104に入力される。

0026

なお、上記では、表記ゆれ候補を、複合語として説明を行ったが、上述したとおり、表記ゆれ候補は、1つ以上の単語または文字列であってもよい。この場合、表記ゆれ候補抽出部103は、1つ以上の単語のペアまたは文字列のペアを、表記ゆれ候補ペアとして抽出する。

0027

差分抽出部104は、表記ゆれ候補抽出部103から、表記ゆれ候補抽出部103が抽出した表記ゆれ候補ペアを1以上含む表記ゆれ候補ペア情報を受け取る。差分抽出部104は、表記ゆれ候補ペア情報に含まれる表記ゆれ候補ペアごとに、該表記ゆれ候補ペアに含まれる2つの表記ゆれ候補のそれぞれから、差分を表す構成語もしくは差分を表す文字列を抽出する。そして、差分抽出部104は、表記ゆれ候補ペアに含まれる2つの表記ゆれ候補のそれぞれから抽出した構成語(または文字列)を相互に関連付けすることにより、差分ペアを作成する。以降、差分抽出部104が作成した、1以上の差分ペアを含む情報を差分ペア情報と呼ぶ。次に、差分抽出部104は、作成した差分ペアと、該差分ペアを抽出した基である表記ゆれ候補ペアとを関連付けて保持する。ここで、構成語とは、複合語を構成する形態素を表す。

0028

そして、差分抽出部104は、作成した差分ペアを1以上含む差分ペア情報を、出力する。この差分ペア情報が、区別語選定部105に入力される。

0029

区別語選定部105は、差分抽出部104から、差分抽出部104が作成した差分ペアを1以上含む差分ペア情報を受け取る。区別語選定部105は、受け取った差分ペア情報に含まれる差分ペアに関連する(差分ペアの抽出の基になる)入力文書において、差分ペアごとに、該差分ペアに関連付けられている表記ゆれ候補ペアの種類数集計する。次に、区別語選定部105は、集計した、表記ゆれ候補ペアの種類数があらかじめ指定された閾値以上か否かを判定し、閾値以上の場合、表記ゆれ候補ペアの種類数の集計の対象である差分ペアを区別語のペア(以降、「区別語ペア」と表す)として選定する。ここで、区別語とは、表記において区別されて使い分けられている、表記ゆれには該当しない語を表し、区別語ペアとは、この区別語のペアを表す。

0030

なお、区別語選定部105は、差分ペアに関連付けられた表記ゆれ候補ペアの種類数が閾値以上の場合であっても、特定の条件を満たす場合には、該差分ペアを区別語ペアとして選定しない機能を備えていてもよい。特定の条件とは、たとえば、表記ゆれ候補ペアにおける一方の語が他方の語を包含するという条件、及び、表記ゆれ候補ペアにおける2つの語の読みが一致しているという条件等である。また、特定の条件とは、たとえば、差分ペアに関連付けられた表記ゆれ候補ペアにおける2つの語に関して、入力文書内において出現する出現回数の偏りが大きいという条件などであってもよい。

0031

区別語選定部105は、選定した区別語ペアを1以上含む区別語ペア情報を出力し、該区別語ペア情報が特異用法語抽出部107に入力される。

0032

記憶部110に格納された概念辞書106は、複数の単語間における関連を表す一般概念情報が記憶されているシソーラスである。この一般概念情報とは、ある単語に対して同義関係を有する単語(同義語)または類義関係を有する単語(類義語)と、上記ある単語との関連を表す。

0033

特異用法語抽出部107は、区別語選定部105から、区別語選定部105で選定された区別語ペアを含む区別語ペア情報を受け取る。特異用法語抽出部107は、受け取った区別語ペア情報に含まれる区別語ペアの中で、該区別語ペア(差分ペア)の単語(差分の語)間の関係が概念辞書106において同義関係、もしくは類義関係である区別語ペアを、特異用法語のペアとして抽出する。以下、特異用法語のペアを、特異用法語ペアと表す。ここで、特異用法語とは、特に使用方法が異なっている語である。

0034

特異用法語抽出部107は、抽出した特異用法語ペアを1以上含む特異用法語ペア情報を出力し、該特異用法語ペア情報が文書汎用度推定部108に入力される。

0035

文書汎用度推定部108は、特異用法語抽出部107から特異用法語ペア情報を受け取る。また、入力部101から入力文書を受け取る。

0036

文書汎用度推定部108は、入力文書を指定された単位(例えば、章、ページ、段落、文、文字数等)で区切る。そして、文書汎用度推定部108は、区切った範囲ごとに、特異用法語ペア情報に含まれる特異用法語ペアの出現頻度を求める。具体的には、文書汎用度推定部108は、区切った範囲ごとに、特異用法語ペアに含まれる一方の特異用法語(区別語)と、他方の特異用法語とが、同時に、該範囲に出現する頻度(出現回数)を求める。

0037

例えば、特異用法語ペアが3組である場合、文書汎用度推定部108は、それぞれのペアに対して、出現頻度(出現回数)を、範囲毎に求める。そして、文書汎用度推定部108は、範囲毎に、出現頻度を集計する。

0038

そして、文書汎用度推定部108は、求めた出現頻度に基づいて、入力文書の汎用度を、出現頻度を求めた範囲毎に推定する。この汎用度は、例えば、求めた特異用法語ペアの出現回数そのものであってもよいし、特異用法語ペアの出現回数を前記範囲の文字数で除した割合であってもよい。また、汎用度は、特異用法語ペアの出現回数を文書全体の特異用法語ペアの出現回数で除した割合であってもよい。また、文書汎用度推定部108は、推定した、範囲毎の汎用度に基づいて、更に、入力文書全体の汎用度を推定してもよい。

0039

文書汎用度推定部108は、推定した入力文書の汎用度と、汎用度を推定した範囲を示す範囲情報とを、出力し、該汎用度および範囲情報が出力部109に入力される。

0040

出力部109は、文書汎用度推定部108から、文書汎用度推定部108が推定した汎用度と、該汎用度を推定した範囲を示す範囲情報とを受け取る。そして、出力部109は、汎用度を示す情報を、範囲情報によって示される範囲ごとに、たとえば、ユーザが判別可能な態様(例えば、ユーザインタフェース(UI:User Interfece))で、例えば、図示しない表示装置の画面に表示させるよう、該表示装置に出力する。出力部109は、たとえば、ユーザインタフェースとして、ユーザが認識可能な汎用度の一覧を生成して、生成した一覧を図示しない表示装置の画面に表示させてもよい。また、出力部109は、例えば、汎用度を、図示しない外部装置に適した様態に変更して、該外部装置への情報提供を行ってもよい。

0041

図2を参照しながら、第1の実施形態に係る文書汎用度推定装置10における動作について説明する。図2は、本発明の第1の実施形態に係る文書汎用度推定装置10における動作の一例を示すフローチャートである。

0042

図2に示す通り、まず、入力部101は、汎用度を推定する対象である文書(入力文書)を受け取る(ステップS101)。その後、表記ゆれ候補抽出部103は、上述したような表記ゆれ候補ペアの抽出手順に従い、入力文書から表記ゆれ候補ペアを抽出する(ステップS102)。

0043

そして、差分抽出部104は、表記ゆれ候補抽出部103が抽出した表記ゆれ候補ペアごとに、該表記ゆれ候補ペアに含まれる2つの表記ゆれ候補のそれぞれから差分を表す構成語、もしくは、差分を表す文字列を抽出する。そして、差分抽出部104は、抽出した構成語(または文字列)を、相互に関連付けすることにより、差分ペアを作成する(ステップS103)。次に、差分抽出部104は、差分ペアと、該差分ペアを抽出した基である表記ゆれ候補ペアとを関連付けて保持する。

0044

区別語選定部105は、ステップS103で作成された差分ペアのうち、関連付けられた表記ゆれ候補ペアの種類数が、あらかじめ指定された閾値以上である差分ペアを、区別語ペアとして選定する(ステップS104)。このとき、区別語選定部105は、ある差分ペアに関連付けられた表記ゆれ候補ペアの種類数が閾値以上であっても、特定の条件に当てはまる場合には、該差分ペアを区別語ペアとして選定しなくてもよい。

0045

特異用法語抽出部107は、ステップS104で選定された区別語ペアのうち、該区別語ペアに含まれる単語間の関係が概念辞書106において同義関係、もしくは類義関係である区別語ペアを特異用法語ペアとして抽出する(ステップS105)。

0046

文書汎用度推定部108は、入力文書を指定された単位ごとに区切り、区切った範囲内の特異用法語ペアの出現頻度を算出する。そして、文書汎用度推定部108は算出した出現頻度に基づいて、入力文書の範囲毎の汎用度を推定する(ステップS106)。

0047

出力部109は、前記範囲ごとの汎用度を示す情報を出力する(ステップS107)。

0048

以上により、文書汎用度推定装置10は、文書汎用度推定処理を終了する。

0049

次に、本発明の第1の実施形態に係る文書汎用度推定装置10の動作の具体例について、図3図4図5図6図7及び図8を参照して説明する。

0050

まず、図2のステップS102からステップS104までの処理の具体例について、図3図4及び図5を参照して説明する。

0051

図3は、表記ゆれ候補ペア情報の一例と、差分ペア情報の一例とを概念的に表す図である。図3における表記ゆれ候補ペア情報T1は、表記ゆれ候補抽出部103がステップS102において抽出する表記ゆれ候補ペアを含む。図3に示す表記ゆれ候補ペア情報T1は、説明の便宜上、1行に1つの表記ゆれ候補ペアが含まれる表として説明を行う。この表には、表記ゆれ候補ペアに含まれる一方の表記ゆれ候補を左側の列に、他方の表記ゆれ候補を右側の列に記載している。なお、表記ゆれ候補ペア情報T1の表現方法はこれに限定されるものではない。

0052

差分抽出部104は、ステップS103において、表記ゆれ候補ペアを、形態素解析処理等を行うことにより、構成語(または文字列)を作成する。次に、差分抽出部104は、構成語(または文字列)単位で、表記ゆれ候補の文字列を比較し、異なる構成語を差分として抽出する。たとえば、図3に示す表記ゆれ候補ペア情報T1の1行目には、「返納処理」と「返品処理」という表記ゆれ候補ペアが含まれる。以降、表記ゆれ候補ペアを、斜線「/」を用いて、例えば、「返納処理/返品処理」と表記する。表記ゆれ候補ペアが「返納処理/返品処理」の場合、差分抽出部104は、該表記ゆれ候補ペアに含まれる構成語を比較することにより、「返納」と「返品」という差分を抽出する。もしくは、たとえば、差分抽出部104は、該表記ゆれ候補ペアに対して文字列単位にて文字コードを基に比較することにより、「納」と「品」という差分を抽出してもよい。

0053

そして、差分抽出部104は、差分として抽出された構成語(または文字列)を相互に関連付けすることにより、差分ペアを作成する。さらに、差分抽出部104は、差分ペアと、該差分ペアを作成した基である表記ゆれ候補ペアとを関連付けする。差分抽出部104は、他の表記ゆれ候補に対しても同様に差分ペアを作成する。これにより、図3の右側に示すような、差分抽出部104が作成した1以上の差分ペアを含む差分ペア情報が生成される。なお、図3では、差分ペアから向けられた矢印は、該差分ペアに関連付けられた、該差分ペアの作成の際に差分を抽出した元である表記ゆれ候補ペアを示している。また、差分ペアも表記ゆれ候補ペアと同様に、ペアとなる語を斜線「/」を用いてつなげることにより、差分ペアを表現する。

0054

区別語選定部105は、差分ペアのうち、該差分ペアに関連付けられた表記ゆれ候補ペアの種類数が、指定された閾値以上のペアを区別語ペアとして選定する。図3に示す例では、「返納/返品」の差分ペアに関連付けられている表記ゆれ候補ペアは、「返納処理/返品処理」、「返納情報/返品情報」、及び、「一部返納/一部返品」の3種類である。これにより、区別語選定部105は、「返納/返品」の差分ペアに対する、表記ゆれ候補ペアの種類数を集計した結果である「3」を得る。そして、区別語選定部105は、他の差分ペアについても同様に、該差分ペアに関連付けられた表記ゆれ候補ペアの種類数を集計する。

0055

そして、たとえば、あらかじめ指定された閾値が2である場合、区別語選定部105は、表記ゆれ候補ペアの種類数が2以上となる差分ペアを、区別語ペアとして選定する。図3に示す例の場合、区別語選定部105は、「返納/返品」、「決済決裁」、「設計/設置」、及び、「実績成績」の差分ペアを、区別語ペアとして選定する。なお、図3では、差分ペアのうち、区別語選定部105が区別語ペアとして選定した差分ペアを太枠で表している。

0056

また、区別語選定部105は、差分ペアに関連付けられた表記ゆれ候補ペアの種類数が閾値以上の場合であっても、特定の条件を満たす場合には、該差分ペアを区別語ペアとして選定しなくてもよい。これを、図4を用いて説明する。図4は、表記ゆれ候補ペア情報の他の例と、差分ペア情報の他の例とを概念的に表す図である。図4に示す表記ゆれ候補ペア情報T2は、図3に示す表記ゆれ候補ペア情報T1に含まれる表記ゆれ候補ペアと同様の表記ゆれ候補ペアを含む情報である。更に、表記ゆれ候補ペア情報T2に含まれる各表記ゆれ候補ペアの表記ゆれ候補には、該表記ゆれ候補の入力文書内における出現回数が関連付けられている。なお、図4に示す表記ゆれ候補ペア情報に含まれる表記ゆれ候補ペアには、図3に示す表記ゆれ候補ペアに、更に、「購入額購入金額」の表記ゆれ候補ペアを含んでいる。図4に示す表記ゆれ候補ペア情報T2は、説明の便宜上、1行に1つの表記ゆれ候補ペアが含まれる表として説明を行う。

0057

たとえば、特定の条件が「差分ペアにおいて、一方の語が他方の語を包含している」である場合、図4の差分ペアのうち、「額/金額」は、この特定の条件を満たす。したがって、区別語選定部105は、この差分ペア「額/金額」を区別語ペアとして選定しない。

0058

また、たとえば、特定の条件が「差分ペアにおいて、2つの語の読みが一致している」である場合、図4の差分ペアのうち、「決済/決裁」と「精算清算」とは、この条件を満たす。したがって、区別語選定部105は、この差分ペア「決済/決裁」と「精算/清算」とを、区別語ペアとして選定しない。尚、各語の読みは、たとえば、形態素辞書102等における読み情報として定義されているとする。

0059

また、たとえば、特定の条件が「差分ペアに関連付けられている表記ゆれ候補ペアの出現回数に偏りがある」である場合、区別語選定部105は、差分ペアに関連付けられた表記ゆれ候補ペアに含まれる各表記ゆれ候補の出現回数の偏りを評価する。区別語選定部105は、たとえば、差分ペアに対して表記ゆれ候補ペアが1つのみ関連付けられている場合、該表記ゆれ候補ペアに含まれる各表記ゆれ候補の出現回数の偏りを評価すればよい。差分ペアに対して複数の表記ゆれ候補ペアが関連付けられている場合、区別語選定部105が行う出現回数の偏りを評価する際に用いる情報は、たとえば、以下の(1)または(2)に示すものが挙げられる。
(1)ある差分ペアに関連付けられている表記ゆれ候補ペアに含まれる表記ゆれ候補の出現回数を、差分の語ごとに累積した結果、
(2)ある差分ペアに関連付けられている表記ゆれ候補ペアの種類ごとの出現回数。

0060

また、区別語選定部105が行う出現回数の偏りを評価する処理は、たとえば、以下の(3)から(5)の何れかに示す処理である。
(3)差分ペアに関連付けられている表記ゆれ候補ペアのうち、一方の表記ゆれ候補の出現回数が第1の所定の閾値以下であり、かつ、他方の表記ゆれ候補の出現回数が第2の所定の閾値以上の場合に、偏りがあると判定する処理、
(4)差分ペアに関連付けられている表記ゆれ候補ペアにおいて、出現回数が多い方の表記ゆれ候補の出現回数に対する、出現回数が少ない方の表記ゆれ候補の出現回数の割合が閾値以下である場合に、偏りがあると判定する処理、
(5)上記(3)及び上記(4)に示す判定方法が組み合わせられた方法(たとえば、すくなくとも一方を満たす等)に従い、偏りがあるか否かを判定する処理。

0061

なお、上記(3)において、第2の所定の閾値は、第1の所定の閾値より大きい数である。また、ある差分ペアに関連付けられている表記ゆれ候補ペアが複数ある場合、区別語選定部105は、上記(3)の処理として、以下の(a)および(b)を満たす場合に、偏りがあると判定する。
(a)ある差分ペアに関連付けられている表記ゆれ候補ペアのうち、一方の表記ゆれ候補群に含まれる表記ゆれ候補の出現回数が第1の所定の閾値以下、
(b)他方の表記ゆれ候補群に含まれる表記ゆれ候補の出現回数が第2の所定の閾値以上。
なお、上記(a)および(b)において、表記ゆれ候補群とは、表記ゆれ候補に含まれる差分の語が同じものである複数の表記ゆれ候補である。

0062

以下では、上記(3)において、第1の所定の閾値が2であり、第2の所定の閾値が20であるとして説明する。ある差分ペアに関連付けられている表記ゆれ候補ペアにおいて、一方の表記ゆれ候補(または表記ゆれ候補群)の出現回数が2以下であり、かつ、他方の表記ゆれ候補の出現回数が20以上である場合、区別語選定部105は、出現回数の偏りがあると判定する。この具体的な処理の一例について説明する。

0063

まず、差分ペアに対して複数の表記ゆれ候補ペアが関連付けられている場合、区別語選定部105が出現回数の偏りを評価する情報を、上記(1)を用いるとする。この場合、区別語選定部105は、差分ペアに対して、表記ゆれ候補群に含まれる複数の表記ゆれ候補の出現回数の累積を求める。複数の表記ゆれ候補のそれぞれには、差分ペアに含まれる2つの差分の語の何れかが含まれる。したがって、上記区別語選定部105による累積を求める処理は、差分ペア毎に、該差分ペアに関連付けられた複数の表記ゆれ候補ペアのそれぞれの表記ゆれ候補の出現回数を差分の語ごとに累積する処理であるとも言える。

0064

例えば、図4に示す差分ペア「返納/返品」には、「返納処理/返品処理」、「返納情報/返品情報」、及び、「一部返納/一部返品」の3種類の表記ゆれ候補ペアが関連付けられている。そして、図4に示す通り、「返納処理/返品処理」の表記ゆれ候補である「返納処理」の出現回数は3であり、「返品処理」の出現回数は4である。同様に、「返納情報/返品情報」の表記ゆれ候補である「返納情報」の出現回数は29であり、「返品情報」の出現回数は34である。また、「一部返納/一部返品」の表記ゆれ候補である「一部返納」の出現回数は16であり、「一部返品」の出現回数は38である。

0065

区別語選定部105は、これらの表記ゆれ候補ペアに関連付けられた差分ペアに含まれる差分の語ごとに、出現回数を累積する。つまり、区別語選定部105は、差分の語である「返納」を含む表記ゆれ候補「返納処理」、「返納情報」および「一部返納」の出現回数を累積し、累積結果48を得る。同様に、区別語選定部105は、差分の語である「返品」を含む表記ゆれ候補「返品処理」、「返品情報」および「一部返品」の出現回数を累積し、累積結果76を得る。

0066

図5は、差分ペア毎に、区別語選定部105によって求められた、該差分ペアに含まれる差分の語の出現回数の累積を、該差分ペアに関連付けた情報の一例を概念的に表す図である。以下では、この情報を、差分ペア情報T3とする。なお、図5に示す差分ペア情報T3には、説明の便宜上、差分ペアに関連付けられた表記ゆれ候補ペアに含まれる表記ゆれ候補も表示している。

0067

図5に示す通り、区別語選定部105が、差分ペアに対して、表記ゆれ候補ペアに関連付けられた差分ペアに含まれる差分の語ごとに出現回数を累積した結果が含まれる。図5の差分ペア情報T3に示す通り、例えば、差分ペア「返納/返品」に含まれる差分の語である「返納」の出現回数(出現回数累積)は、表記ゆれ候補「返納処理」、「返納情報」および「一部返納」の出現回数の合計である48である。また、差分ペア「返納/返品」に含まれる差分の語である「返品」の出現回数は、「返品処理」、「返品情報」および「一部返品」の出現回数の合計である76である。

0068

その後、区別語選定部105は、差分ペアごとに、該差分ペアに含まれる一方の差分の語を含む表記ゆれ候補の出現回数が2以下であり、かつ、他方の差分の語を含む表記ゆれ候補の出現回数が20以上である差分ペアを抽出する。そして、区別語選定部105は、抽出した差分ペアを、該差分ペアに関連付けられた表記ゆれ候補ペアの出現回数に偏りがある差分ペアであると判定する。

0069

図5に示す差分ペア情報T3を参照すると、差分ペアを抽出する基となる表記ゆれ候補ペア情報に含まれる表記ゆれ候補の、差分の語ごとの出現回数に偏りがある差分ペアは、R24にて示される「清算/精算」と、R26にて示される「実績/成績」である。したがって、区別語選定部105は、差分ペア「清算/精算」と、差分ペア「実績/成績」とを、表記ゆれ候補の出現回数に偏りがある差分ペアであると評価し、これらを区別語ペアから除外する。

0070

次に、区別語選定部105が上記(3)の処理を行う場合に用いる情報が、上記(2)である場合の区別語選定部105の処理の一例について説明する。区別語選定部105が、偏りがあると判定する際に用いる情報である出現回数は、例えば、図4に示す出現回数である。区別語選定部105は、表記ゆれ候補ペア情報T2を参照し、差分ペアごとに、該差分ペアに関連付けられた表記ゆれ候補ペアに含まれる一方の表記ゆれ候補の出現回数が2以下であり、かつ、他方の表記ゆれ候補の出現回数が20以上である差分ペアを抽出する。そして、区別語選定部105は、R5、R9、R10、および、R11で示される表記ゆれ候補ペアを、出現回数の偏りがあると判定する。

0071

図4に示す通り、R5にて示される表記ゆれ候補ペア「精算時処理/清算時処理」は、差分ペア「精算/清算」に関連付けられている。R9にて示される表記ゆれ候補ペア「実績情報成績情報」およびR11にて示される表記ゆれ候補ペア「実績別/成績別」は、差分ペア「実績/成績」に関連付けられている。R10にて示される表記ゆれ候補ペア「決済額/決裁額」は、差分ペア「決済/決裁」に関連付けられている。

0072

差分ペア「精算/清算」、「実績/成績」および「決済/決裁」のうち、区別語ペアとして選定される可能性がある差分ペアは、差分ペアに関連付けられた表記ゆれ候補ペアの種類数が2以上である「実績/成績」および「決済/決裁」である。

0073

ここで、差分ペア「決済/決裁」に関連付けられた表記ゆれ候補ペアは、表記ゆれ候補ペアR2と、表記ゆれ候補ペアR10とである。これらの表記ゆれ候補ペアのうち、表記ゆれ候補ペアR10は、該表記ゆれ候補ペアに含まれる表記ゆれ候補の出現回数に偏りがあると判定されている。

0074

また、差分ペア「実績/成績」に関連付けられた表記ゆれ候補ペアは、表記ゆれ候補ペアR9と、表記ゆれ候補ペアR11とである。これらの表記ゆれ候補ペアは、ともに、表記ゆれ候補ペアに含まれる表記ゆれ候補の出現回数に偏りがあると判定された表記ゆれ候補ペアである。

0075

ある差分ペアに関連付けられた複数の表記ゆれ候補ペアの全てが、表記ゆれ候補の出現回数に偏りがある場合、区別語選定部105は、該差分ペアを、区別語ペアとして選定しなくてもよい。また、ある差分ペアに関連付けられた表記ゆれ候補ペアのうち、表記ゆれ候補の出現回数に偏りがあると判定された表記ゆれ候補ペアの数が指定した閾値以上である場合に、区別語選定部105は、該差分ペアを、区別語ペアとして選定しなくてもよい。

0076

前者の場合、区別語選定部105は、差分ペア「決済/決裁」を、区別語ペアとして選定し、差分ペア「実績/成績」を、区別語ペアとして選定しない。

0077

後者の場合、閾値が1であるとき、ある差分ペアに関連付けされた複数の表記ゆれ候補ペアのうち、表記ゆれ候補の出現回数に偏りがあると判定された表記ゆれ候補ペアが少なくとも1つある場合には、区別語選定部105は、該差分ペアを、区別語ペアとして選定しない。したがって、後者の場合、上述した例において、区別語選定部105は、差分ペア「決済/決裁」と、差分ペア「実績/成績」とを、区別語ペアとして選定しない。

0078

次に、図2のステップS105からステップS107までの処理の具体例について図6図7及び図8を参照して説明する。

0079

図6は、表記ゆれ候補抽出部103が入力文書から抽出した表記ゆれ候補ペアを含む表記ゆれ候補ペア情報の他の例と、差分ペア情報の他の例とを概念的に表す図である。図6に示す表記ゆれ候補ペア情報T4は、表記ゆれ候補ペア情報T1と同様に、1行に1つの表記ゆれ候補ペアが含まれる表として説明を行う。また、図7は、図6の差分ペア情報に含まれる差分ペアから区別語選定部105が抽出した区別語ペアを含む区別語ペア情報の一例と、概念辞書106の一例と、特異用法語抽出部107が抽出した特異用法語ペアを含む特異用法語ペア情報の一例とを概念的に示す図である。

0080

図6に示す差分ペア情報に含まれる差分ペアは、図6に示す複数の表記ゆれ候補ペアから差分抽出部104が抽出したものである。区別語選定部105は、この差分ペアに関連付けられた表記ゆれ候補ペアの数を集計し、表記ゆれ候補ペアの数が2以上の場合に、該差分ペアを区別語ペアとして選定する。図7に示す区別語ペア情報に含まれる各区別語ペアは、区別語選定部105が選定した区別語ペアである。図7では、説明の便宜上、この区別語ペアを表形式で表している。

0081

図7に示す概念辞書106は、説明の便宜上、同じ行に、ある単語と、このある単語の類義語を含めている。例えば、ある単語が「時間」の場合、この「時間」の類義語である「時刻」、「時」および「刻限」が「時間」と同じ行に含まれる。

0082

特異用法語抽出部107は概念辞書106を参照し、区別語ペアの中で概念辞書106上、類義関係である語を特異用法語ペアとして抽出する。図7に示す概念辞書106の例では、下線で示した「時間」と「時刻」、「部署」と「部門」、「審査」と「考査」は類義関係であり、「昇進」と「昇給」は類義関係ではないことがわかる。よって、特異用法語抽出部107は、区別語ペアのうち、「時間/時刻」、「部署/部門」および「審査/考査」を特異用法語ペアとして抽出する。これら特異用法語ペアを含む特異用法語ペア情報は、図7の右上側に示すものとなる。

0083

図8は、出力部109が入力文書の範囲ごとの汎用度を示す情報を、図示しない表示装置に出力した場合の、表示画面の一例である。汎用度推定部108は、入力文書を指定された単位で区切り、区切った単位ごとに汎用度を推定する。図8の例では、指定された単位を1ページとしている。そして汎用度推定部108は、範囲(1ページ)ごとに、特異用法語がペアで出現した回数カウントする。文書汎用度推定部108は、図7の例の場合、「時間/時刻」、「部署/部門」、「審査/考査」が各ページ内に対で出現した回数をカウントする。

0084

文書汎用度推定部108は、この出現回数をそのまま汎用度としてもよいし、割合を汎用度としてもよいし、その両方でもよい。図8の例では、文書汎用度推定部108は、出現回数と、出現回数を、出現回数の合計で除した割合の両方を汎用度としている。

0085

出力部109は、区切った範囲毎(図8の例ではページ毎)に、推定された汎用度を示す情報を、図8に示すような一覧の形式にし、図示しない表示装置の表示画面に表示させるよう、該表示装置に出力する。これにより、表示装置は、図8に示すような、ページ毎の汎用度の一覧を表示させることができる。

0086

(効果)
以上のように、本実施形態に係る文書汎用度推定装置10の差分抽出部104は、2つの表記ゆれ候補(第1文字列および第2文字列)を含む表記ゆれ候補ペア(第1の組)から差分の語(第3文字列および第4文字列)を抽出する。そして、差分抽出部104は、抽出した2つの差分の語を含む差分ペア(第2の組)と、表記ゆれ候補ペアとを関連付ける。その後、区別語選定部105は、差分ペアに関連付けられた表記ゆれ候補ペアの個数が所定の個数以上か否かを確認し、所定の個数以上の場合、当該第2の組が、区別されて使用されている語句を表す区別語のペアであると判定する。そして、特異用法語抽出部107が、区別語ペアのうち、概念辞書106において、差分の語同士が、同義関係または類義関係にある区別語ペアを特異用法語ペアとして抽出する。その後、文書汎用度推定部108が、特異用法語ペアの出現頻度を、所定の単位で区切られた、文書の範囲ごとに算出し、該出現頻度に基づいて前記文書の汎用度を推定する。

0087

このように、文書汎用度推定部108が、表記ゆれではない文字列のペアであって、特に区別されている文字列のペアの、文書の所定の単位における出現頻度を算出する。例えば、文書内で区別して使い分けられており、且つ、概念辞書106内での意味が類似している語の組の出現頻度が、文書内のある特定の範囲でのみ高い場合、この箇所は汎用度が低い(専門的な文書である)可能性が高い。したがって、文書汎用度推定装置10は、文書全体の所定の単位ごとに、その文書の汎用度を推定することができる。これにより、同義で使われているのか、区別して使われているのかが判別しにくい用語等の知識の活用範囲を明確にすることができる。

0088

また、区別語選定部105は、区別語ペアのうち、一方の区別語が、他方の区別語を含む場合、このペアを、区別語ペアから除外する。更に、区別語選定部105は、は、区別語ペアのうち、両方の区別語の読みが一致する場合、このペアを、区別語ペアから除外する。これにより、区別語選定部105は、より精度よく、表記ゆれの文字列を特定し、特異用法語抽出部107以降の処理で使用する文字列に表記ゆれの文字列を含めないようにすることができる。これにより、より精度よく、文書の汎用度を算出することができる。

0089

また、区別語選定部105は、入力文書において、表記ゆれ候補ペアに含まれる各表記ゆれ候補の出現回数を算出し、区別語ペアのうち、該区別語ペアに関連する表記ゆれ候補ペアの表記ゆれ候補の出現回数を、差分の語ごとに累計する。そして、この累計された、差分の語ごとの出現回数の偏りが、所定の値より大きい場合、例えば、一方の出現回数が第1の所定の閾値以下であり、他方の出現回数が第2の所定の閾値以上の場合、該差分の語を含む差分ペアを区別語ペアから除外する。出現回数の偏りがある場合、この2つの語は、表記ゆれ語である可能性が高い。したがって、区別語選定部105は、特異用法語抽出部107以降の処理で使用する文字列に表記ゆれの文字列を含めないようにすることができる。これにより、より精度よく、文書の汎用度を算出することができる。

0090

<第2の実施形態>
次に、図9図10とを参照しながら、第2の実施形態に係る文書汎用度推定装置201について説明する。図9は、本発明の第2の実施形態に係る文書汎用度推定装置201が有する構成の一例を示すブロック図である。図10は、第2の実施形態に係る文書汎用度推定装置201における処理の流れの一例を示すフローチャートである。以下では、図9に示す各部の機能を、図10に示すフローチャートを用いながら説明を行う。

0091

第2の実施形態に係る文書汎用度推定装置201は、図9に示す通り、第1の抽出部202と、判定部203と、第2の抽出部204と、推定部205とを有する。

0092

文書汎用度推定装置201は、例えば、外部装置から第1の組301を受信する。

0093

第1の組301は、特定の品詞の単語が連なる文字列のうち、相互に類似する2つの文字列を含む。たとえば、この文字列は、第1の実施形態に例示するように、文書に対し、形態素解析処理を行うことにより、文書内の文章を単語に区切り、該単語の品詞を特定し、特定の品詞が連続する単語を抽出することにより求められる。相互に類似する2つの文字列は、たとえば、複数の文字列に関して、編集距離等を用いて文字列間が類似する程度を表す類似度を求め、類似度が所定の値以上であるか否かに応じて求められる。

0094

このように、第1の組301は、上述した第1の実施の形態における表記ゆれ候補ペアであり、第1の組301に含まれる2つの文字列は、表記ゆれ候補である。

0095

以降においては、説明の便宜上、第1の組301が含む2つの文字列を、第1文字列と、第2文字列と呼ぶ。この第1の文字列と第2の文字列とは互いに関連付けられている。

0096

第1の抽出部202は、上述した第1の実施の形態における差分抽出部104に相当する。

0097

第1の抽出部202は、第1の組301に含まれる第1文字列と、第2文字列とを読み取り、該第1文字列と、該第2文字列との差分を求め、差分の文字列を含む組を第2の組とする(図10のステップS201)。ここで、差分を表す文字列を第3文字列、及び、第4文字列と表す。第3文字列は、第1文字列に含まれるが第2文字列には含まれない文字列である。第4文字列は、第2文字列に含まれるが第1文字列には含まれない文字列である。すなわち、第1の抽出部202は、第1文字列と第2文字列とから、第3文字列と第4文字列とを抽出する。そして、差分抽出部202は、該第3文字列と、該第4文字列と含む組を第2の組とする。この第2の組は、上述した第1の実施の形態に係る差分ペアである。

0098

次に、第1の抽出部202は、第2の組と、第1の組301とを関連付ける(図10のステップS202)。

0099

差分抽出部202は、複数の第1の組301に関して、上述した処理を実行する。そして、第1の抽出部202は、第2の組を示す情報を出力し、該第2の組を示す情報が判定部203に入力される。

0100

判定部203は、上述した第1の実施の形態における区別語選定部105に相当する。

0101

判定部203は、第1の抽出部202から第2の組を示す情報を受け取る。そして、判定部203は、第2の組に関連付けられた第1の組の個数を求める。判定部203は、求めた個数に基づき、第2の組が区別語の組であるか否かを判定する(図10のステップS203)。ここで、区別語とは、区別されて使用されている語句を表す。たとえば、判定部203は、第2の組に関連付けられた第1の組の個数が、所定の個数(たとえば、2)以上である場合、第2の組を区別語の組である(すなわち、表記ゆれ語の組ではない)と判定する。また、判定部203は、第2の組に関連付けられた第1の組の個数が所定の個数未満である場合に、第2の組を区別語の組ではない(すなわち、表記ゆれ語の組である)と判定する。

0102

すなわち、判定部203は、区別語の組であると判定された第2の組に含まれる第3文字列及び第4文字列を、区別語であると判定する。また、判定部203は、表記ゆれ語の組であると判定された第2の組に含まれる第3文字列及び第4文字列を、表記ゆれ語であると判定する。

0103

そして、判定部203は、区別語の組を示す情報を出力し、該情報が第2の抽出部204に入力される。

0104

第2の抽出部204は、上述した第1の実施の形態における特異用法語抽出部107に相当する。第2の抽出部204は、判定部203から、区別語の組を示す情報を受け取る。第2の抽出部204は、上記情報によって示される区別語の組の中で、該区別語の組に含まれる第3文字列および第4文字列の関係が、例えば、第1の実施の形態における概念辞書106のような辞書において同義関係または類義関係である区別語の組を抽出する(図10のステップS204)。この辞書は、単語の同義関係または類義関係に基づいて複数の単語間における関連を表す一般概念情報が記述された辞書である。このステップS204にて抽出される区別語の組は、上述した第1の実施の形態における特異用法語ペアに相当する。

0105

第2の抽出部204は、抽出した区別語の組を示す情報を出力し、該情報が推定部205に入力される。

0106

推定部205は、上述した第1の実施の形態における文書汎用度推定部108に相当する。第2の抽出部204から区別語の組を示す情報を受け取る。また、推定部205は、自身に格納された、または、図示しない記憶部等に記憶された、所定の単位(章、ページ、段落、文、文字数等)区切られた文書を取得する。なお、所定の単位を示す情報が、推定部205自身、または、図示しない記憶部等に格納されており、例えば外部装置から受信した文書を、推定部205が上記指定された単位に区切ってもよい。

0107

推定部205は、このように、文書において、所定の単位で区切られた範囲ごとに、第2の抽出部204から受信した情報によって示される区別語の組の出現頻度(出現回数)を算定する(図10のステップS205)。そして、推定部205は、算出した出現頻度に基づいて、文書の汎用度302を上記範囲毎に推定する(図10のステップS206)。

0108

汎用度302は、例えば、第2の抽出部204が抽出した区別語の組の出現回数そのものであってもよい。また、汎用度302は、第2の抽出部204が抽出した区別語の組の出現回数を前記範囲の文字数で除した割合であってもよいし、第2の抽出部204が抽出した区別語の組の出現回数を文書全体の該区別語の組の出現回数で除した割合でもよい。なお、推定部205は、更に、文書全体の汎用度を算出してもよい。

0109

以上のように、本実施形態に係る文書汎用度推定装置201によれば、文書の汎用度を所定の範囲毎に推定することができる。この理由は、文書内で区別して使い分けられており、且つ、概念辞書上での意味が類似している語の組の文書の所定の範囲での出現頻度が高い場合、その箇所は汎用度の低い(専門的な文書である)文書である可能性が高いからである。本実施形態では、文書の指定の範囲毎に、区別語の組のうち、概念辞書上で意味が類似している区別語の組の出現頻度を用いて、文書の所定の範囲毎の出現頻度を算出しているため、より高精度に文書の汎用度を推定することができる。

0110

(ハードウェア構成例)
上述した本発明の各実施形態における文書汎用度推定装置を、1つの計算処理装置(情報処理装置、コンピュータ)を用いて実現するハードウェア資源の構成例について説明する。但し、係る文書汎用度推定装置は、物理的または機能的に少なくとも2つの計算処理装置を用いて実現してもよい。また、係る文書汎用度推定装置は、専用の装置として実現してもよい。

0111

図11は、第1の実施形態または第2の実施形態に係る文書汎用度推定装置(10、201)を実現可能な計算処理装置のハードウェア構成例を概略的に示す図である。計算処理装置20は、中央処理演算装置(Central Processing Unit、以降「CPU」と表す)21、メモリ22、ディスク23、及び、不揮発性記録媒体24のドライブ装置29を有する。計算処理装置20は、さらに、通信インタフェース(以降、「通信IF」と表す。)27、及び、ディスプレイ28を有する。また、計算処理装置20は、入力装置25および出力装置26と通信可能に接続されている。なお、計算処理装置20は、入力装置25および出力装置26を内部に設ける構成であってもよい。この場合、ディスプレイ28は、出力装置26に含まれる構成であってもよい。計算処理装置20は、通信IF27を介して、他の計算処理装置、及び、通信装置と情報を送受信することができる。

0112

メモリ22は、例えば、RAM(Random Access Memory)によって実現される。

0113

ディスク23は、ソフトウェア・プログラム(コンピュータ・プログラム:以下、単に「プログラム」と称する)を格納しており、例えば、ハードディスク、ROM(Read Only Memory)等によって実現される。

0114

不揮発性記録媒体24は、コンピュータが読み取り可能な、たとえば、コンパクトディスク(Compact Disc(CD))、デジタルバータイルディスク(Digital_Versatile_Disc(DVD))である。また、不揮発性記録媒体24は、ユニバーサルシリアルバスメモリ(USB(Universal Serial Bus)メモリ)、ソリッドステートドライブ(Solid_State_Drive(SSD))等であってもよい。不揮発性記録媒体24は、電源を供給しなくても係るプログラムを保持し、持ち運びを可能にする。なお、不揮発性記録媒体24は、上述した媒体に限定されない。また、係るプログラムは、不揮発性記録媒体24に記憶されたものに限定されず、通信IF27がインターネット等の通信ネットワークを介して外部よりダウンロードしたものであってもよい。

0115

入力装置25は、例えば、マウスキーボード、内蔵のキーボタン、又は、タッチパネルなどで実現され、入力操作に用いられる。

0116

出力装置26は、例えば、計算処理装置20の外部に設けられたディスプレイで実現され出力を確認するために用いられる。

0117

また、ディスプレイ28は、例えば、計算処理装置20に内蔵された表示装置によって実現される。

0118

すなわち、CPU21は、ディスク23または不揮発性記録媒体24に記憶された各種プログラムを、実行する際にメモリ22にコピーし、演算処理を実行する。CPU21は、プログラム実行に必要なデータをメモリ22から読み取る。表示が必要な場合には、CPU21は、ディスプレイ28に出力結果を表示する。外部への出力が必要な場合には、CPU21は、出力装置26に出力結果を出力する。

0119

具体的には、CPU21は、上述したブロック図(図1、または、図9)に示す各部が表す機能(処理)に対応する、メモリ22にコピーされた文書汎用度推定プログラムを実行する。なお、係る文書汎用度推定プログラムは、例えば、各実施の形態の説明において参照したフローチャート(図2、または、図10)に記載した処理を実現可能なプログラムである。このように、CPU21は、上述した本発明の各実施形態において説明した処理を行う。

0120

すなわち、このような場合、本発明は、係る文書汎用度推定プログラムによっても成し得ると捉えることができる。さらに、係る文書汎用度推定プログラムが記録されたコンピュータ読み取り可能な不揮発性の記録媒体によっても、本発明は成し得ると捉えることができる。

0121

上述した各実施形態では、ブロック図に示した各ブロックに示す機能を、図11に示すCPU21が実行する一例として、ソフトウェア・プログラムによって実現する場合について説明した。しかしながら、ブロック図に示した各ブロックに示す機能は、一部または全部を、ハードウェア回路として実現してもよい。

0122

以上、上述した実施形態を模範的な例として本発明を説明した。しかし、本発明は、上述した実施形態には限定されない。すなわち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

0123

本発明によれば、文書の汎用度を推定し、汎用度の高い文書のみから用語リストや記述不足が発生しやすい単語リスト構築する、といった用途に適用できる。

0124

10文書汎用度推定装置
101 入力部
102形態素辞書
103表記ゆれ候補抽出部
104差分抽出部
105 区別語選定部
106概念辞書
107 特異用法語抽出部
108 文書汎用度推定部
109 出力部
110 記憶部
201 文書汎用度推定装置
202 第1の抽出部
203 判定部
204 第2の抽出部
205 推定部
301 第1の組
302 汎用度
20計算処理装置
21 CPU
22メモリ
23ディスク
24不揮発性記録媒体
25入力装置
26出力装置
27通信IF
28ディスプレイ
29 ドライブ装置

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • パナソニックIPマネジメント株式会社の「 ベクトル化装置、言語処理方法及びプログラム」が 公開されました。( 2021/03/18)

    【課題・解決手段】ベクトル化装置(2)は、文字列に応じたベクトルを生成する。ベクトル化装置は、取得部(22〜24)と、記憶部(21)と、演算処理部(20)とを備える。取得部は、文字列を取得する。記憶部... 詳細

  • 株式会社日立製作所の「 計算機システム及び文書の分類方法」が 公開されました。( 2021/03/18)

    【課題】文書の分類結果とともに、分類の根拠をユーザに提示する計算機システム及び文書の分類方法を提供する。【解決手段】計算機システムは、文書のデータの入力を受け付け、文書及び文書の要素を構成要素とする非... 詳細

  • 株式会社NTTドコモの「 情報提供システム」が 公開されました。( 2021/03/18)

    【課題】ユーザによって用いられる蓋然性が高いキーワードを精度良く提供する情報提供システムを提供する。【解決手段】情報提供システムは、対象ユーザを含む複数の閲覧者が第1情報源から提供される第1コンテンツ... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ