図面 (/)

技術 性格推定装置及びプログラム

出願人 KDDI株式会社
発明者 南川敦宣
出願日 2010年1月19日 (8年7ヶ月経過) 出願番号 2010-008805
公開日 2011年8月4日 (7年0ヶ月経過) 公開番号 2011-150390
状態 特許登録済
技術分野 特定用途計算機
主要キーワード 自己分析 内容特徴 事前データ ベイズ分類器 情報利得 DF値 性格診断 平均文字数

この技術の活用可能性のある市場・分野

関連する未来課題
重要な関連分野

後で読みたい技術情報を見つけたら、ブックマークしておきましょう!

ページの右上にあるブックマークボタンからこのページをブックマークできます。
あなたがブックマークした技術情報は、いつでもマイページのリストから閲覧することが出来ます。

この項目の情報は公開日時点(2011年8月4日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

質問回答させたり、他の者と何らかの会話をさせたりすることなく、推定対象者性格推定を行う性格推定装置を提供する。

解決手段

性格推定装置は、ネットワーク上で公開されている文書についてのデータを取得する手段と、所得したデータから、該文書の特徴を示す1つ以上の要素それぞれについての値を求め、求めた要素の値を含む特徴量ベクトルを生成する手段と、前記特徴量ベクトルに基づき、1つ以上の性格に関するパラメータのそれぞれについて、その強弱を所定の段階で判定する、あるいは、複数の性格に関するパラメータ間の強弱を判定する判定手段とを備えている。

概要

背景

自己分析又は性格診断の手法としてエゴグラムが知られている(例えば、特許文献1、参照。)。エゴグラムは、性格を示すパラメータとして、批判的親(CP)、養育的親(NP)、大人(A)、自由な子供(FC)及び従順な子供(AC)の5つの自我状態を使用し、それぞれの自我状態の強弱を、例えば、5段階で表示し、これにより、各個人の特徴を分類するものであり、交流分析の分野で利用されている。

推定対象者のエゴグラムを判定するためには、通常、カウンセリングを受けるか、多数の設問回答する必要があり、簡易に判定する方法はない。このため、特許文献2では、推定対象者の発言音声認識して韻律情報を抽出し、カメラで推定対象者を撮影して顔の各部位の時間変化から感情推定し、これにより、推定対象者の自我状態を判定することが記載されている。しかしながら、推定のためには推定対象者と会話する必要があり、カウンセリングを受けることと差はなく、設備構成も大掛かりとなる。また、一時的な会話では、自我状態が表層に現れにくく、精度良く推定することが困難である。

概要

質問に回答させたり、他の者と何らかの会話をさせたりすることなく、推定対象者の性格推定を行う性格推定装置を提供する。性格推定装置は、ネットワーク上で公開されている文書についてのデータを取得する手段と、所得したデータから、該文書の特徴を示す1つ以上の要素それぞれについての値を求め、求めた要素の値を含む特徴量ベクトルを生成する手段と、前記特徴量ベクトルに基づき、1つ以上の性格に関するパラメータのそれぞれについて、その強弱を所定の段階で判定する、あるいは、複数の性格に関するパラメータ間の強弱を判定する判定手段とを備えている。

目的

本発明は、質問に回答することや、何らかの会話を行うことなく、推定対象者の性格推定を行う性格推定装置及びプログラムを提供する

効果

実績

技術文献被引用数
2件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ネットワーク上で公開されている文書についてのデータを取得する手段と、所得したデータから、該文書の特徴を示す1つ以上の要素それぞれについての値を求め、求めた要素の値を含む特徴量ベクトルを生成する手段と、前記特徴量ベクトルに基づき、1つ以上の性格に関するパラメータのそれぞれについて、その強弱を所定の段階で判定する、あるいは、複数の性格に関するパラメータ間の強弱を判定する判定手段と、を備えている性格推定装置

請求項2

前記判定手段は、前記パラメータの強弱の段階と前記要素の値との関係を示す、あるいは、前記複数のパラメータ間の強弱と前記要素の値との関係を示す学習データを有している、請求項1に記載の性格推定装置。

請求項3

前記1つ以上の要素は、所定の語句出現頻度を含む、請求項1又は2に記載の性格推定装置。

請求項4

複数の学習データ提供者の前記性格に関するパラメータの強弱の段階と、前記複数の学習データ提供者がネットワーク上で公開している文書に含まれる、あらかじめ選択した候補語句の出現頻度の分布から、各候補語情報利得を求め、前記所定の語句は、前記情報利得が所定の閾値より大きい候補語句又は前記情報利得の大きさが所定の順位以上の候補語句である、請求項3に記載の性格推定装置。

請求項5

前記1つ以上の要素は、前記文書に含まれる各名詞逆出現頻度平均値及び/又は最大値を含む、請求項1から4のいずれか1項に記載の性格推定装置。

請求項6

前記1つ以上の要素は、前記文書の更新頻度平均文字数改行頻度句読点の頻度及び絵文字の出現頻度の少なくとも1つを含む、請求項1から5のいずれか1項に記載の性格推定装置。

請求項7

請求項1から6のいずれか1項に記載の性格推定装置としてコンピュータを機能させるプログラム

技術分野

0001

本発明は、性格診断ステムに使用する性格推定装置に関し、より詳しくは、性格を示す1つ以上のパラメータ強弱又はパラメータ間の強弱を判定して出力する性格推定装置に関する。

背景技術

0002

自己分析又は性格診断の手法としてエゴグラムが知られている(例えば、特許文献1、参照。)。エゴグラムは、性格を示すパラメータとして、批判的親(CP)、養育的親(NP)、大人(A)、自由な子供(FC)及び従順な子供(AC)の5つの自我状態を使用し、それぞれの自我状態の強弱を、例えば、5段階で表示し、これにより、各個人の特徴を分類するものであり、交流分析の分野で利用されている。

0003

推定対象者のエゴグラムを判定するためには、通常、カウンセリングを受けるか、多数の設問回答する必要があり、簡易に判定する方法はない。このため、特許文献2では、推定対象者の発言音声認識して韻律情報を抽出し、カメラで推定対象者を撮影して顔の各部位の時間変化から感情推定し、これにより、推定対象者の自我状態を判定することが記載されている。しかしながら、推定のためには推定対象者と会話する必要があり、カウンセリングを受けることと差はなく、設備構成も大掛かりとなる。また、一時的な会話では、自我状態が表層に現れにくく、精度良く推定することが困難である。

先行技術

0004

特開2007−226531号公報
特開2004−310034号公報

発明が解決しようとする課題

0005

本発明は、質問に回答することや、何らかの会話を行うことなく、推定対象者の性格推定を行う性格推定装置及びプログラムを提供することを目的とする。

課題を解決するための手段

0006

本発明における性格推定装置によれば、
ネットワーク上で公開されている文書についてのデータを取得する手段と、所得したデータから、該文書の特徴を示す1つ以上の要素それぞれについての値を求め、求めた要素の値を含む特徴量ベクトルを生成する手段と、前記特徴量ベクトルに基づき、1つ以上の性格に関するパラメータのそれぞれについて、その強弱を所定の段階で判定する、あるいは、複数の性格に関するパラメータ間の強弱を判定する判定手段とを備えていることを特徴とする。

0007

本発明における性格推定装置の他の実施形態によれば、
前記判定手段は、前記パラメータの強弱の段階と前記要素の値との関係を示す、あるいは、前記複数のパラメータ間の強弱と前記要素の値との関係を示す学習データを有していることも好ましい。

0008

また、本発明における性格推定装置の他の実施形態によれば、
前記1つ以上の要素は、所定の語句出現頻度を含むことも好ましい。

0009

さらに、本発明における性格推定装置の他の実施形態によれば、
複数の学習データ提供者の前記性格に関するパラメータの強弱の段階と、前記複数の学習データ提供者がネットワーク上で公開している文書に含まれる、あらかじめ選択した候補語句の出現頻度の分布から、各候補語情報利得を求め、前記所定の語句は、前記情報利得が所定の閾値より大きい候補語句又は前記情報利得の大きさが所定の順位以上の候補語句であることも好ましい。

0010

さらに、本発明における性格推定装置の他の実施形態によれば、
前記1つ以上の要素は、前記文書に含まれる各名詞逆出現頻度平均値及び/又は最大値を含むことも好ましい。

0011

さらに、本発明における性格推定装置の他の実施形態によれば、
前記1つ以上の要素は、前記文書の更新頻度平均文字数改行頻度句読点の頻度及び絵文字の出現頻度の少なくとも1つを含むことも好ましい。

0012

本発明におけるプログラムによれば、
前記性格推定装置としてコンピュータを機能させることを特徴とする。

発明の効果

0013

推定対象者がインターネット上に公開している文書から性格推定を行うため、推定対象者に質問に対する回答を行わせたり、カウンセリングを受けさせたりすることなく、推定対象者の性格診断を行うことができる。

図面の簡単な説明

0014

本発明による性格推定装置の簡略化した構成図である。
判定部の構成図である。
特徴量ベクトルを説明する図である。
学習データを示す図である。
特徴語句候補を示す図である。
事前データを示す図である。
親学習データの要素と、各分類器に使用する要素との関係を示す図である。

実施例

0015

本発明を実施するための形態について、以下では図面を用いて詳細に説明する。なお、以下の説明においては、批判的親(CP)、養育的親(NP)、大人(A)、自由な子供(FC)及び従順な子供(AC)の5つの自我状態を使用し、各自我状態の強弱を5段階で判定する形態により説明を行うが、自我状態の種類、数、各自我状態を何段階に分類するかは設計事項である。

0016

本発明による性格推定装置は、ブログや、SNSの日記欄等、推定対象者がネットワーク上に公開している文書から、当該対象者の性格を推定するものであり、図1に、その簡略化した構成図を示す。なお、以下の説明においては、推定対象者がネットワークに公開しているブログの文書から推定を行う形態を用いる。図1に示す様に、性格推定装置は、前処理部1と、構造特徴量計算部2と、形態素解析部3と、内容特徴量計算部4と、判定部5とを備えている。また、本発明による性格推定装置は、ネットワークと接続可能な様に構成されている。

0017

図示しない入出力部を介して、推定対象者が公開しているブログ等のURL(Uniform Resource Locator)を入力すると、前処理部1は、入力されたURLで指定されたブログ等にアクセスして、各文書の投稿日時データ及び本文を表す文書データを取得する。なお、本実施形態において、1つの文書とは、1回の投稿に記載された文書データと、それに付随する投稿日時データから成るものとする。つまり、例え、推定対象者が、ある日に3回投稿したとすると、その日からは3つの文書データが取得できることになる。

0018

性格推定装置は、取得した文書データ及びその投稿日時から、構造特徴量計算部2、形態素解析部3、内容特徴量計算部4を用いて、推定対象者の特徴量ベクトルを生成し、判定部5は、この特徴量ベクトルに基づき当該推定対象者の各自我状態の判定を行う。図3は、特徴量ベクトルを示す図である。

0019

特徴量ベクトルは、F1からFnのn個の要素を含み、各要素は、推定対象者の文書構造に関する特徴を数値化した構造特徴量に関するものと、文書内容に関する特徴を数値化した内容特徴量に関するものに分類される。さらに、内容特徴量に関する要素は、特徴語句に関する要素と、キーワード情報量に関する要素に分類される。図3においては、要素F1〜F5は構造特徴量であり、構造特徴量計算部2を用いてその値を判定する。また、要素F6〜Fnは内容特徴量であり、形態素解析部3及び内容特徴量計算部4を用いてその値を判定する。なお、要素F6からFn−2は、特徴語句に関するものであり、要素Fn−1及びFnは、キーワード情報量に関するものである。

0020

具体的には、構造特徴量計算部2は、取得した文書の更新頻度、つまり、投稿頻度を求めて特徴量ベクトルの1番目の要素F1とし、取得した各文書の平均文字数を求めて特徴量ベクトルの2番目の要素F2とし、取得した各文書の1文字当たりの改行コード数の平均値と、1文字当たりの句読点数の平均値と、1文字当たりの絵文字の平均値を、それぞれ、特徴量ベクトルの3番目から5番目の要素F3、F4、F5とする。

0021

また、形態素解析部3は、文書データの形態素解析を行い、文書データを品詞情報のついた単語列に分解し、内容特徴量計算部4は、各特徴語句の出現頻度を求める。ここで、特徴語句は、後述する方法にて事前に選択されたものであり、出現頻度は、例えば、各文書の特徴語句の出現数を、当該文書の全語句数で除した値の全文書に渡る平均値を使用する。図3においては、あらかじめn−7個の特徴語句が選択されており、各特徴語句の出現頻度を、それぞれ、特徴量ベクトルの6番目からn−2番目の要素F6〜Fn−2としている。

0022

さらに、内容特徴量計算部4は、形態素解析後の単語列から名詞を抽出し、抽出した各名詞のIDF(逆出現頻度)値を文書データベースに含まれる文書から計算する。ここで、名詞WのIDF値は、文書データベースに含まれる文書数をD、文書データベースに含まれる、名詞Wを含む文書数をNとすると、log(D/N)である。なお、文書データベースは、性格推定装置と同じ場所に設置され、性格推定装置と直接接続されているものであっても、ネットワーク上に存在するものであっても良い。内容特徴量計算部4は、抽出した各名詞のIDF値を求め、その最大値を特徴量ベクトルのn−1番目の要素Fn−1、その平均値を特徴量ベクトルのn番目の要素Fnとする。

0023

判定部5は、特徴量ベクトルに基づき各自我状態の値を判定する。図2は、判定部5の概略的な構成を示す図であり、判定部5は、判定する自我状態に対応する分類器をそれぞれ備えている。具体的には、判定部5は、CP分類器51と、NP分類器52と、A分類器53と、FC分類器54と、AC分類器55とを備えている。各分類器51から55は、入力された特徴量ベクトルに基づき、対応する自我状態の強弱の値を決定して出力する。なお、本実施形態において、分類器51から55は単純ベイズ分類器であるものとするが、SVM(サポートベクタマシーン)や、NBTree等の決定木を用いて値の決定を行うものであっても良い。

0024

以下に、分類器51から55における対応する自我状態の値の決定について説明する。各分類器51から55は、学習データを保持している。図4は、NP分類器52が保持している学習データを示す図である。なお、学習データの作成については後述する。図4に示す様に、学習データは複数(k個)のレコードを含み、各レコードは、学習データ提供者のNPの値と、当該学習データ提供者がインターネットで公開しているブログ等の文書から得た特徴量ベクトルの一部又は全部の要素の値との関係を示すものである。図4において、NP分類器52は、特徴量ベクトルのn個の要素のうち、要素F1〜F5と、F8及びF10と、Fn−1及びFnの9個の要素を学習データの要素として使用している。

0025

NP分類器52は、NPの強弱の各段階について以下の式(1)を計算し、その値が最大となる段階を出力する。
Pr(c)ΠPr(fi|c) (1)
ここで、cはNPの強弱の値、つまり、5段階で評価する場合は1から5であり、Pr(c)は学習データにおいてNPの値がcである割合であり、fiは、入力された特徴量ベクトルの要素Fiの値であり、Pr(fi|c)は、NPの値がcである学習データのレコード数に対する、学習データの要素Fiの値がfi−Δより大きく、かつ、fi+Δ以下のレコード数の割合であり、Πは、学習データの全要素に渡り乗算を行うことを示している。

0026

例えば、学習データには1000レコードあり、その内、NPの値が2であるレコードが150あり、NPの値が2、かつ、要素F1の値が0.25より大きく0.35以下のレコードが75あり、Δ=0.05であり、入力された特徴ベクトルの要素F1の値が0.3であるとすると、Pr(2)=0.15、Pr(f1|2)=0.5となる。

0027

上述した様に、各分類器51から55は、学習データの各要素と、入力された特徴量ベクトルに含まれる対応する要素を比較し、入力された特徴量ベクトルとの尤度が最も高い学習データの自我状態の値を出力する。

0028

続いて、各分類器51から55に設定する学習データの作成について説明する。各分類器51から55の学習データを作成するために、まず、図6に示す事前データを作成する。事前データは、図6に示す様に、複数(k個)のレコードを含み、1つのレコードは、1人の学習データ提供者から生成される。具体的には、学習データ提供者の各自我状態の値、つまり、CP、NP、A、FC、ACの値を、カウンセリングや多数の質問に回答してもらう等して判定し、さらに、当該学習データ提供者がインターネット上で公開しているブログ等の文書を取得して、既に説明したのと同様の方法にて、構造特徴量と内容特徴量を計算し、当該学習データ提供者の構造特徴量及び内容特徴量と自我状態の対応関係を、1つのレコードとする。なお、この段階において、内容特徴量として使用する語句は候補であり、事前に各自我状態の判定に役立つと思われる語句を複数選択しておく。図6においては、図5に示す様に、“Cd1”から“Cd10”の10個の単語を、特徴語句候補として選択している。

0029

続いて、事前データに含まれる各レコードの自我状態の値と、各特徴語句候補の出現頻度の値に基づき、各自我状態に使用する特徴語句を選択する。図5においては、CPには“Cd1”及び“Cd2”を選択し、NPには“Cd3”及び“Cd5”を選択し、Aには“Cd2”、“Cd3”及び“Cd4”を選択し、FCには“Cd6”及び“Cd8”を選択し、ACには“Cd7”及び“Cd9”を選択している。本実施形態において、使用する特徴語句の選択は、各特徴語句候補の情報利得により判定する。ある特徴語句候補の情報利得とは、ある自我状態のエントロピーから、その自我状態の当該特徴語句候補の条件付エントロピーを減じた値であり、情報利得が閾値以上のものや、上位所定数のものを、その自我状態の判定に使用するものとして選択する。

0030

具体的には、自我状態NPのエントロピーH(NP)は、
H(NP)=ΣPr(c)(logPr(c)) (2)
である。ここで、cはNPの強弱の値、つまり、5段階で評価する場合は1から5であり、Pr(c)は、事前データにおいてNPの値がcである割合、つまり、例えば、事前データが1000レコード有りNPの値が3であるレコードが100件である場合には、Pr(3)=0.1であり、Σは総てのNPの値に渡り積算することを示している。

0031

さらに、自我状態CPの特徴語句候補“Cd1”の条件付エントロピーH(NP|Cd1)は、
H(NP|Cd1)=ΣPr(wd)H(NP|wd) (3)
である。ここで、wdは、特徴語句候補“Cd1”の出現頻度の取り得る範囲の一部の範囲であり、H(NP|wd)は、wdの範囲に該当するレコードのエントロピーである。なお、Σは“Cd1”の出現頻度の取り得る範囲に渡り積算することを示している。つまり、“Cd1”の値の範囲が0から1である場合に、例えば、これを0.1ずつ10個の範囲に区切り、各範囲についてPr(wd)H(NP|wd)の値を計算して、これらの和を求める。

0032

図5に示す様に特徴語句を選択した場合、図6に示す事前データの構造特徴量に関する5つの要素をF1からF5とし、選択した“Cd1”から“Cd9”の9つの要素をF6からF14とし、キーワード情報量の2つの要素をF15及びF16とした親学習データを生成する。つまり、事前データから、選択されなかった特徴語句候補を削除したデータを親学習データとする。この親学習データに含まれる要素が、本発明による性格推定装置が生成する特徴量ベクトルの要素となる。また、各分類器51から55に設定する学習データは、構造特徴量の各要素と、キーワード情報量の各要素と、対応する自我状態に使用する特徴語句に関する要素と、対応する自我状態の強弱を、親学習データから抜き出したものとなる。図7は、図5の様に選択した場合における、親学習データの各要素と、各分類器51から55に設定する要素との対応関係を示している。

0033

以上、本発明においては、推定対象者がインターネット上に公開している文書から自我状態を推定することで、推定対象者に対して質問に回答させたり、カウンセリングを受けさせたりすることなく、推定対象者の性格診断を行うことができる。なお、上述した実施形態においては、特徴語句候補をあらかじめ選択しておき、事前データに基づき特徴語句候補から実際に使用する特徴語句の選択を行っていたが、事前データによる絞り込みを行うことなく、あらかじめ選択した語句をそのまま特徴語句として使用する形態であっても良い。なお、特徴語句候補又は特徴語句の選択は、例えば、文末に使用する助動詞(「ます」、「です」、「ね」等)、特定の接頭語(「お」等)、記号数字、特定の接続詞(「だが」等)、感嘆詞(「あー」等)、一人称(「僕」、「私」、「ワタシ」等)等、自我状態の分析に有用と考えられる語句から選択する。

0034

なお、上記実施形態においては、各自我状態に対応する分類器を設けていたが、各自我状態の強弱の関係を判定する形態であっても良い。具体的には、CPとNPのどちらが強いのか、FCとACのどちらが強いのか等を判定する形態であっても良い。この場合にはCPとNPの強弱を判定する分類器と、FCとACの強弱を判定する分類器を設けることになり、各分類器には対応する学習データを設定することになる。

0035

なお、本発明による性格推定装置は、コンピュータを図1や2の各部として機能させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。さらに、本発明は、ハードウェア及びソフトウェア組合せによっても実現可能である。

0036

1 前処理部
2構造特徴量計算部
3形態素解析部
4内容特徴量計算部
5 判定部
51 CP分類器
52 NP分類器
53 A分類器
54 FC分類器
55 AC分類器

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近公開された関連が強い技術

この技術と関連性が強い人物

関連性が強い人物一覧

この技術と関連する挑戦したい社会課題

関連する挑戦したい社会課題一覧

この技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ