図面 (/)

技術 データ分析システム、データ分析方法、プログラム、および、記録媒体

出願人 株式会社UBIC
発明者 彦根佑紀
出願日 2015年9月17日 (5年2ヶ月経過) 出願番号 2015-184442
公開日 2017年3月2日 (3年8ヶ月経過) 公開番号 2017-045434
状態 特許登録済
技術分野 学習型計算機 検索装置
主要キーワード 系列評価 部分評価 伝達情報量 制御資源 移動平均モデル 評価フェーズ ビジランス 混在領域
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年3月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (16)

課題

人工知能成長過程を確認できるようにしたデータ分析システムデータ分析制御方法及びプログラムを提供する。

解決手段

コントローラ制御プログラムを実行することにより実現される人工知能を備え、学習ステップを経て成長しながら、データを評価し、評価結果に基づいてデータの分類を行い、複数の評価用データを評価する。コントローラは、複数の評価用データの複数の時点における評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する。

概要

背景

コンピュータの急速な発展により社会情報化が進んだ結果、企業・個人の活動に、膨大な量の情報(ビッグデータ)が、広範、かつ、密接に関係するようになってきている。そのため、最近では、特に、ビッグデータの中から、所望の情報を的確に分別する必要性が重要視されている。

ビッグデータから所望の情報を分類するためのアプローチとして、サンプリングされたデータに対して、レビューワに依るデータの分類を適用し、人工知能がこの分類の結果を学習しながら人工知能がレビューワに代わって評価用データ自動分類を進めていくシステムが知られている(例えば、特開2013−182338号公報)。

概要

人工知能の成長過程を確認できるようにしたデータ分析システムデータ分析制御方法及びプログラムを提供する。コントローラ制御プログラムを実行することにより実現される人工知能を備え、学習ステップを経て成長しながら、データを評価し、評価結果に基づいてデータの分類を行い、複数の評価用データを評価する。コントローラは、複数の評価用データの複数の時点における評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する。

目的

そこで、本願は、係る課題に鑑みてなされたものであり、その目的は、人工知能の成長の過程を確認できるようにしたデータ分析システムを提供する

効果

実績

技術文献被引用数
1件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

コントローラ制御プログラムを実行することにより実現される人工知能を備え、当該人工知能が学習ステップを経て成長しながら、データを評価するデータ分析システムであって、前記人工知能は、複数の評価用データを評価し、前記コントローラは、前記複数の評価用データの複数の時点における前記評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する、データ分析システム。

請求項2

前記コントローラは、前記分布の態様を、前記人工知能の成長プロセスに従って変動させる、請求項1記載のデータ分析システム。

請求項3

前記評価は、データと所定事案との関連性の程度を示す指標を含み、前記人工知能は、サンプルデータと当該サンプルデータに付与された前記関連性に係る分類との組み合わせに、前記サンプルデータに含まれる複数の構成要素がそれぞれ寄与する度合いを評価することによって、前記サンプルデータが特徴付けられるパターンを学習し、前記学習したパターンに基づいて、前記指標を決定し、前記コントローラは、前記複数の評価用データの複数の時点における前記指標の分布を求める、請求項1記載のデータ分析システム。

請求項4

前記関連性に係る分類は、前記所定事案に関連する、という第1の分類と、前記所定事案に関連しない、という第2の分類と、を含み、前記人工知能は、人からの入力に基づいて、前記複数の評価用データの夫々に、前記第1の分類、又は、第2の分類を付与し、前記コントローラは、前記複数の評価用データを前記第1の分類及び第2の分類毎に分布させる、請求項3記載のデータ分析システム。

請求項5

前記人工知能は、前記パターンの学習を経ることによって、成長し、前記コントローラは、前記人工知能の成長の度合いに応じて、前記第1の分類が付与された評価用データと前記第2の分類が付与された評価用データとの分類の態様とが異なるようにした、請求項4記載のデータ分析システム。

請求項6

前記コントローラは、第1の時点での前記第1の分類が付与された評価用データと前記第2の分類が付与された評価用データとの夫々の前記指標と、前記第1の時点より後の第2の時点での前記第1の分類が付与された評価用データと前記第2の分類が付与された評価用データとの夫々の前記指標と、の分布を求め、前記第1の時点と前記第2の時点とが、前記人工知能が成長し始めた段階に属する場合には、前記第1の分類が付与された評価用データと前記第2の分類が付与された評価用データとが混在して分布するようにし、前記第1の時点と第2の時点とが、前記人工知能の成長が進んでいる段階に属する場合には、前記第1の分類が付与された評価用データの前記指標が、前記第1の時点よりも第2の時点で大きくなるように分布するようにし、前記第1の時点と第2の時点とが、前記人工知能の成長が進んだ後安定した段階に属する場合には、前記第1の分類が付与された評価用データの前記指標が、前記第1の時点及び第2の時点で共に大きくなるように分布するようにし、前記第2の分類が付与された評価用データの前記指標が、前記第1の時点及び第2の時点で共に小さくなるように分布するようにした、請求項5記載のデータ分析システム。

請求項7

コンピュータが制御プログラムを実行することによって実現される人工知能を、学習ステップを経て成長させ、当該人工知能を利用してデータを評価するデータ分析制御方法であって、複数の評価用データを評価し、前記複数の評価用データの複数の時点における前記評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する、データ分析制御方法。

請求項8

コンピュータに、人工知能を稼働させる機能と、当該人工知能を、学習ステップを経て成長させる機能と、当該人工知能がデータを評価し、評価結果に基づいてデータの分類を行う機能と、当該人工知能が複数の評価用データを評価する機能と、前記複数の評価用データの複数の時点における前記評価の分布を求める機能と、当該分布に基づく報知情報を作成し、当該報知情報を出力する機能と、を実現させるためのプログラム

請求項9

請求項8記載のプログラムを記録したコンピュータ読み取り可能な記録媒体

技術分野

0001

本出願は、データ分析システム係り、例えば、ビックデータからユーザが望む情報を分類する等に好適な人工知能の応用に関するものである。

背景技術

0002

コンピュータの急速な発展により社会情報化が進んだ結果、企業・個人の活動に、膨大な量の情報(ビッグデータ)が、広範、かつ、密接に関係するようになってきている。そのため、最近では、特に、ビッグデータの中から、所望の情報を的確に分別する必要性が重要視されている。

0003

ビッグデータから所望の情報を分類するためのアプローチとして、サンプリングされたデータに対して、レビューワに依るデータの分類を適用し、人工知能がこの分類の結果を学習しながら人工知能がレビューワに代わって評価用データ自動分類を進めていくシステムが知られている(例えば、特開2013−182338号公報)。

先行技術

0004

特開2013—182338号公報

発明が解決しようとする課題

0005

従来のデータ分析システムによれば、人工知能がレビューワの分類の特徴を学習することによって成長するために、人工知能による、データの分類精度も徐々に向上し、多くのデータの中から所望のデータが適切かつ迅速に得られるようになる。

0006

しかしながら、ユーザにとっては、人工知能の成長過程を確認できる術がなかったために、例えば、人工知能によるデータ分析がどの程度機能しているのか、システムの運用開始からどれぐらいの期間で実用的なデータ分析システムが稼動するのか、を知ることが出来なかった。

0007

そこで、本願は、係る課題に鑑みてなされたものであり、その目的は、人工知能の成長の過程を確認できるようにしたデータ分析システムを提供することにある。

課題を解決するための手段

0008

前記目的を達成する第1の開示は、コントローラ制御プログラムを実行することにより実現される人工知能を備え、当該人工知能が学習ステップを経て成長しながら、データを評価し、評価結果に基づいてデータの分類を行うデータ分析システムであって、前記人工知能は、複数の評価用データを評価し、前記コントローラは、前記複数の評価用データの複数の時点における前記評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する、ことを特徴とする。

0009

前記目的を達成する第2の開示は、コンピュータが制御プログラムを実行することによって実現される人工知能を、学習ステップを経て成長させ、当該人工知能を利用してデータを評価するデータ分析制御方法であって、複数の評価用データを評価し、前記複数の評価用データの複数の時点における前記評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する、ことを特徴とする。

0010

前記目的を達成する第3の開示は、コンピュータに、人工知能を稼働させる機能と、当該人工知能を、学習ステップを経て成長させる機能と、当該人工知能がデータを評価し、評価結果に基づいてデータの分類を行う機能と、当該人工知能が複数の評価用データを評価する機能と、前記複数の評価用データの複数の時点における前記評価の分布を求める機能と、当該分布に基づく報知情報を作成し、当該報知情報を出力する機能と、を実現させるためのプログラムである、ことを特徴とする。

0011

前記目的を達成する第4の開示は、前記プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

発明の効果

0012

既述の開示によって、人工知能の成長の過程を確認できるようにしたデータ分析を実現することができる。

図面の簡単な説明

0013

データ分析システムのハードウェア構成の一例を示すブロック図である。
上記データ分析システムが備えた予測コーディング機能の一例を示す機能ブロック図である。
上記データ分析システムが備えた予測コーディング部が実行する処理の一例を示すフローチャートである。
人工知能の成長プロセス可視化するためのプログラムの動作を示すフローチャートである。
人工知能の成長プロセスを可視化する制御処理のための管理テーブルの一例である。
人工知能の成長プロセスの可視化情報の一例であり、データ分析システムの運用初期の段階でのデータのスコアの分布の典型例を示すグラフである。
前記可視化情報としての、データ分析システムの運用開始後日が浅い実例に係るデータのスコア分布を示すグラフである。
人工知能の成長期における、データのスコア分布の典型例に係るグラフである。
前記可視化情報として、図7に示すシステムの運用段階から、運用が進んだ実例におけるデータのスコア分布を示すグラフである。
人工知能の成長が成熟期である状態での、データのスコア分布の典型例に係るグラフである。
前記可視化情報として、システムの運用が図9に示す段階よりさらに進んだ実例における、データのスコア分布を示すグラフである。
人工知能の成長段階毎に、データと乖離度との関係を示すグラフである。
人工知能の成長段階毎に、データと移動距離との関係を示すグラフである。
「関連あり」のデータ群のスコアの平均値と「関連なし」のデータ群のスコアの平均値との差分がデータ分析システムの運用の進行に従って変化する傾向を説明するグラフである。
人工知能の成長プロセスの可視化のための管理画面の一例である。

実施例

0014

データ分析システムの限定されない一つの態様として、企業等の組織体において送受信されている電子メールが、情報漏洩カルテル等の不正行為に関係、関与しているかを監査するためのシステムがある。電子メールの監査を含む、データ分析は、データ分析システムにおいて稼働する人工知能によって達成される。人工知能とは、人間によるデータ分析を、コンピュータの制御プログラムなどの制御資源記憶資源を用いて肩代わりしようとする、自律判断が可能な仮想的な主体である。

0015

人工知能がデータ分析の運用を開始する際、レビューワによるデータの分類結果が人工知能に与えられると、人工知能はデータ分類の特徴を学習する。人工知能は、学習した特徴にしたがって、分析対象のデータを、例えば、「関連あり」、又は、「関連なし」に分類する。レビューワは、人工知能の運用開始後でも、所定期間毎に、一部のデータを実際にレビューしてデータを分類し、その分類の結果を人工知能に継続的に与えると、人工知能はデータ分析の特徴をその都度さらに学習して、データ分析の精度を専門家(弁護士等)のレベルと同等になるまで成長することができる。これによって、人工知能は、レビューワが全てチェックすることができない大量のデータの中から、目的のデータを、レビューワに代わって、迅速かつ的確に分類することができる。以下に、データ分析システムを詳細に説明するが、データ分析システムの態様は、以下の説明に限定されるものではない。

0016

〔データ分析システムの構成〕
図1は、本実施の形態に係るデータ分析システム(以下、単に「システム」と略記することがある。)のハードウェア構成の一例を示すブロック図である。当該システムは、例えば、データ(デジタルデータおよびアナログデータを含む。)を格納可能な任意の記録媒体(例えば、メモリハードディスクなど。)と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、CPU:Central Processing Unit)とを備え、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータ(例えば、パーソナルコンピュータサーバ装置クライアント装置ワークステーションメインフレームなど)またはコンピュータシステム(例えば、データ分析のための主要処理を実行するサーバ装置、ユーザが使用するクライアント装置、分析対象となるデータを格納するファイルサーバなど、複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)を備えるシステムとして実現され得る。本実施の形態は、上記システムが後者によって実現される例(図1)を主として説明している。

0017

なお、本実施の形態において、「データ」は、上記コンピュータによって処理可能となる形式表現される、任意のものでよい。上記データは、例えば、少なくとも一部において構造定義不完全非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイルヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料表計算資料、決算報告書打ち合わせ資料、報告書、営業資料契約書組織図事業計画書、企業分析情報電子カルテウェブページブログソーシャルネットワークサービス投稿されたコメントなど)、音声データ(例えば、会話音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む。

0018

また、本実施の形態において、「学習用データ」(training data)は、レビューワ(弁護士、企業内の法務担当者等の専門家である。)によって分類情報対応付けられたデータ(データと分類情報とが組み合わされた、分類済みのデータ)であってよい。一方、「評価用データ」(evaluation data)は、当該分類情報が対応付けられていないデータ(学習用データとしてレビューワに提示されていない、未分類のデータ)であってよい。ここで、上記「分類情報」は、データを分類するために用いる識別ラベルであってよく、例えば、データと所定事案とが関係していることを示す「Related」ラベル、両者が特に関係していることを示す「High」ラベル、および、両者が関係しないことを示す「Non-Related」ラベルのように、当該学習用データを3つに分類する情報であったり、「良い」、「やや良い」、「普通」、「やや悪い」、および「悪い」のように、当該学習用データを5つに分類する情報であったりしてよい。

0019

また、上記「所定事案」は、上記システムがデータとの関連性を評価される対象を広く含み、その範囲は制限されない。例えば、所定事案は、当該システムがディスカバリ支援システムとして実現される場合、ディスカバリ手続きが要求される本件訴訟であってよいし、犯罪捜査支援システムとして実現される場合、捜査対象となる犯罪であってよいし、電子メール監視システムとして実現される場合、不正行為(例えば、情報漏洩、談合など)であってよいし、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム転倒予測転倒防止)システム、予後予測システム、診断支援システムなど)として実現される場合、医薬に関する事例・事案であってよいし、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーションキュレーション)システム、ユーザ監視システムソーシャルメディア運営システムなど)として実現される場合、インターネットに関する事例・事案であってよいし、プロジェクト評価システムとして実現される場合、過去に遂行したプロジェクトであってよいし、マーケティング支援システムとして実現される場合、マーケティング対象となる商品サービスであってよいし、知財評価システムとして実現される場合、評価対象となる知的財産であってよいし、不正取引監視システムとして実現される場合、不正な金融取引であってよいし、コールセンターエスカレーションシステムとして実現される場合、過去の対応事例であってよいし、信用調査システムとして実現される場合、信用調査する対象であってよいし、ドライビング支援システムとして実現される場合、車両の運転に関することであってよいし、営業支援システムとして実現される場合、営業成績であってよい。

0020

図1に例示されるように、本実施の形態に係るデータ分析システム1は、例えば、データ分析の主要処理を実行可能なサーバ装置2と、当該データ分析の関連処理を実行可能な一つ又は複数のクライアント装置3と、データおよび当該データに対する評価結果を記録するデータベース4を備えるストレージシステム5と、クライアント装置3およびサーバ装置2に対して、データ分析のための管理機能を提供する管理計算機6とを備えてよい。

0021

クライアント装置(入力制御装置)3は、複数の評価用データの一部、又は、評価用データとは別なデータを、分類前のサンプルデータとして、ユーザ(レビューワ)に提示可能である。これにより、当該ユーザは、クライアント装置3を介してサンプルデータに対する評価・分類のための入力を行う(分類情報を与える。)ことができる。サーバ装置2は、複数の評価用データをランダムサンプリングして、所定数のサンプルデータを抽出して、所定のクライアント装置に提供することができる。既述の別なデータとしては、例えば、分析対象である評価用データには含まれないが、所定事案を評価用データと同一又は類似とするデータ群に属するデータであってよい。

0022

クライアント装置3は、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェース(例えば、キーボードディスプレイなど。)と、通信インターフェースとを備える。通信インターフェースは、所定のネットワークを用いた通信手段によって、クライアント装置3とサーバ装置2および管理計算機6とを通信可能に接続する。

0023

サーバ装置2の制御資源と記憶資源によって稼働される人工知能は、分類情報が付されたサンプルデータ、即ち、サンプルデータと分類情報との組み合わせ(これを「学習用データ」という。)に基づいて、当該学習用データから、パターン(例えば、データに含まれる抽象的規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない)を学習し、当該パターンに基づいて、評価用データと所定事案との関連性を評価する。レビューワが学習用データを継続的に人工知能に与えることによって、人工知能は、パターンをさらに学習しながら成長する。ここで、「人工知能が成長する」とは、当該人工知能のパフォーマンスが向上することであってよく、例えば、当該人工知能が評価用データと所定事案との関連性を評価する精度が向上することであってよい。

0024

人工知能は、上記学習したパターンに基づいて、評価用データと不正行為(例えば、情報漏洩等)との関係性を評価することもでき、評価用データと訴訟との関連性を評価することもできるし、評価用データと犯罪捜査との関連性を評価することもできるし、評価用データとユーザの嗜好との関連性を評価することもできるし、評価用データとその他の任意の事象(所定事案)との関連性を評価することもできる。

0025

サーバ装置2は、クライアント装置3と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。評価用データが電子メールの場合、評価用データは、図示しないメールサーバから、ストレージシステム5のデータベース4に、継続的或いは定期的等に格納されるようにしてもよい。

0026

管理計算機6は、クライアント装置3、サーバ装置2、およびストレージシステム5に対して、所定の管理処理を実行する。管理計算機6は、クライアント装置3と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。なお、クライアント装置3、サーバ装置2、管理計算機6がそれぞれ備えたメモリには、各装置を制御可能なアプリケーションプログラムが記憶されており、各コントローラが当該アプリケーションプログラムをそれぞれ実行することにより、当該アプリケーションプログラム(ソフトウェア資源)とハードウェア資源とが協働し、各装置が動作する。

0027

ストレージシステム5は、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベース4を備えてよい。サーバ装置2とストレージシステム5とは、DAS(Direct Attached Storage)方式、またはSAN(Storage Area Network)によって接続されている。

0028

なお、図1に示されるハードウェア構成はあくまで例示に過ぎず、上記システムは、他のハードウェア構成によっても実現され得る。例えば、サーバ装置2において実行される処理の一部または全部がクライアント装置3において実行される構成であってもよいし、当該処理の一部または全部がサーバ装置2において実行される構成であってもよいし、ストレージシステム5がサーバ装置2に内蔵される構成であってもよい。また、ユーザは、クライアント装置3を介してサンプルデータに対する評価・分類のための入力を行う(分類情報を与える)だけでなく、サーバ装置2に直接接続された入力機器を介して上記入力を行うこともできる。当該システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、特定の1つの構成(例えば、図1に例示されるような構成)に限定されない。

0029

〔データ分析システム1が備える予測コーディング機能〕
図2は、本実施の形態に係るデータ分析システム(サーバ装置2)によって実現される、予測コーディング機能の一例を示す機能ブロック図である。予測コーディング機能は、人工知能によるデータ分析のための主要機能の一つである。

0030

(予測コーディング機能の基本構成
図2に例示されるように、人工知能は、予測コーディング(Predictive Coding)部10を備える。予測コーディング部10は、人手で分類された少数のデータ(既述の学習用データのことである。)に基づいて、多数のデータ(分類情報が対応付けられていない評価用データであり、例えば、ビッグデータである。)から有意な情報を抽出できるように、当該評価用データを評価、例えば、スコア付けする。

0031

予測コーディング部10は、例えば、データ取得部11、分類情報取得部12、データ分類部13、構成要素抽出部14、構成要素評価部15、構成要素格納部16、およびデータ評価部17を備えることができる。

0032

データ取得部11は、任意の記憶資源(例えば、データベース4、インターネット上のウェブサーバイントラネット上のメールサーバなど)からデータを取得する。データ取得部11は、データ分析の対象とする全データを評価用データとして構成要素抽出部14に提供すると共に、所定数のサンプルデータを取得して、これをデータ分類部13に提供する。

0033

分類情報取得部12は、各サンプルデータに対して、ユーザによって入力された分類情報を、任意の入力装置(例えば、クライアント装置3)から取得し、当該分類情報をデータ分類部13に出力する。

0034

データ分類部13は、データ取得部11から送られた複数のサンプルデータと、分類情報取得部12から、各サンプルデータに対して入力された分類情報とを組み合わせ、当該組み合わせを、複数の学習用データとして構成要素抽出部14に出力する。

0035

構成要素抽出部14は、データ分類部13から受領した複数の学習用データから、当該学習用データを構成する構成要素を抽出する。ここで、「構成要素」は、データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素キーワードセンテンス、段落、および/またはメタデータ(例えば、電子メールのヘッダ情報)であったり、音声を構成する部分音声ボリュームゲイン)情報、および/または音色情報であったり、画像を構成する部分画像部分画素、および/または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および/または3次元情報であったりしてよい。構成要素抽出部14は、抽出した構成要素と当該構成要素に対応する分類情報とを構成要素評価部15に出力する。さらに、構成要素抽出部14は、データ取得部11から入力された評価用データから、当該評価用データを構成する構成要素を抽出し、当該構成要素をデータ評価部17に出力する。

0036

構成要素評価部15は、構成要素抽出部14から入力された構成要素を評価する。構成要素評価部15は、例えば、夫々、学習用データの少なくとも一部を構成する複数の構成要素が、上記組み合わせに寄与する度合い(言い換えれば、当該構成要素が分類情報に応じて出現する分布)をそれぞれ評価する。より具体的には、構成要素評価部15は、例えば、伝達情報量(例えば、構成要素の出現確率と分類情報の出現確率とを用いて、所定の定義式から算出される情報量)を用いて構成要素を評価することによって、当該構成要素の評価値を算出する。これにより、構成要素評価部15は、当該学習用データに含まれるパターンを学習する(ユーザからの入力により付与された分類情報に応じて当該学習用データが特徴付けられるパターンを学習する)ことができる。構成要素評価部15は、構成要素と当該構成要素の評価値とを構成要素格納部16に出力する。

0037

構成要素格納部16は、構成要素評価部15から入力された構成要素および評価値を対応付け、両者を任意のメモリ(例えば、ストレージシステム5)に格納する。

0038

データ評価部17は、構成要素抽出部14から入力された構成要素に対応付けられた評価値を任意のメモリ(例えば、ストレージシステム5のデータベース4)から読み出し、当該評価値に基づいて評価用データを評価する。より具体的には、データ評価部17は、例えば、評価用データの少なくとも一部を構成する構成要素に対応付けられた評価値を合算することによって、当該評価用データの指標(例えば、評価用データを序列化可能にする数値文字、および/または記号であってよい)を導出することができる。当該指標として好適な形態は、前記評価値を合算したスコアである。データ評価部17は、当該評価用データと当該指標とを対応付け、両者を任意のメモリ(例えば、ストレージシステム5)に格納する。

0039

構成要素評価部15は、「Related」または「High」のラベルが設定されたデータの評価が、これらのラベルが設定されないデータの評価よりも大きくなるまで、構成要素を選定するとともに、当該構成要素を繰り返し評価し、当該構成要素の評価値を修正することができる。これによって、構成要素評価部15は、「Related」または「High」の分類情報が付された複数の学習用データに出現し、学習用データとラベルとの組み合わせに影響がある構成要素を見つけ出すことができる。構成要素評価部15は、例えば、以下の式を用いて構成要素の評価値wgtを算出する。

0040

0041

ここで、wgtは、評価前のi番目の構成要素の評価値の初期値を示す。また、wgtは、L回目の評価後のi番目の構成要素の評価値を示す。γはL回目の評価における評価パラメータを意味し、θは評価の際の閾値を意味する。これにより、構成要素評価部15は、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。なお、構成要素評価部15は、「Related」が設定された学習用データの指標の最低値と、「Non-Related」が設定された学習用データの指標の最高値との中間値を、評価用データに対して「Related」の設定の有無を自動判定する際の閾値(所定の基準値)とすることができる。そして、データ評価部17は、構成要素の評価値によって、例えば、以下の式から、複数の評価用データの夫々と複数の学習用データの夫々のスコアを算出する。スコアとは、これらデータの分類別符号に対する結びつきの強さを定量的に評価する指標である。データ評価部17は評価用データ毎のスコアを所定の基準値と比較して、基準値以上である評価用データを「Related」に分類し、基準値未満である評価用データを「Non-Related」に分類することができる。

0042

mj:i番目の構成要素の出現頻度
wgti:i番目の構成要素の評価値

0043

なお、上記において、***部と表記した構成は、サーバ装置2のコントローラが、プログラム(データ分析プログラム)を実行することによって実現する、人工知能の機能構成であるため、***部を、***処理または***機能と言い換えてもよい。また、***部をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

0044

〔予測コーディング部10が実行する処理〕
図3は、本実施の形態に係るデータ分析システムが備えた予測コーディング部10が実行する処理の一例を示すフローチャートである。

0045

まず、データ取得部11が、任意のメモリからサンプルデータを取得する(ステップ300、以下「ステップ」を「S」と略記する)。次に、分類情報取得部12が、ユーザがサンプルデータを実際にレビューして分類を決定し、ユーザによってサンプルデータに対して入力された分類情報を、任意の入力装置から取得する(S302)。次に、データ分類部13が、サンプルデータと分類情報とを組み合わせることによってサンプルデータを分類して、学習用データを構成し(S304)、構成要素抽出部14が、当該学習用データを構成する構成要素を当該学習用データから抽出する(S306)。そして、構成要素評価部15が、当該構成要素を評価し(S308)、構成要素格納部16が、当該構成要素と評価値とを対応付け、両者を任意のメモリに格納する(S310)。なお、上記S306〜S10の処理を、「学習フェーズ」(人工知能がパターンを学習するフェーズ)と称する。

0046

データ取得部11が、任意のメモリから評価用データを取得する(S312)。構成要素抽出部14が、当該評価用データを構成する構成要素を当該評価用データから抽出する(S314)。データ評価部17は、当該構成要素に対応付けられた評価値を任意のメモリから読み出し、当該評価値に基づいて評価用データを評価する(S316)。なお、上記S312〜S316の処理を、「評価フェーズ」(人工知能が上記パターンに基づいて評価用データを評価する。)と称する。なお、上記学習フェーズに含まれる各処理は、いずれも必須の処理ではないことに注意する。例えば、構成要素と当該構成要素の評価値とを対応付けて記憶するメモリが予め与えられており、予測コーディング部10が、当該メモリに格納された当該構成要素および評価値に基づいて、評価用データを評価することもできる。

0047

次に、予測コーディング部10の評価結果を利用して、本実施の形態に係るデータ分析システムが実行可能な諸機能について説明する。当該諸機能は、サーバ装置2の管理部18(図2)によって実行される。この諸機能の一つに、人工知能の成長プロセスを可視化する機能がある。従来、データ分析システムのユーザにとっては、人工知能の成長の過程を確認できる術がなかったために、データ分析システムとして、電子メールの監査のシステムを例にすれば、人工知能による電子メールの監査がどの程度機能しているのか、システムの運用開始からどれぐらいの期間で実用的な監査ツールとして稼動できるのか、を知ることが出来なかった。データ分析システムが、ユーザに人工知能の成長プロセスを示すことによって、データ分析(メール監査等)に対するユーザの信頼を高めることができる。

0048

(人工知能の成長プロセスの可視化)
管理計算機6は、例えば、データ分析システムの運用が開始される際、人工知能の成長プロセスを可視化する処理をサーバ装置2に依頼することができる。サーバ装置2が当該依頼を受信すると、管理部18は、人工知能の成長プロセスを可視化するための可視化プログラム起動させる。

0049

管理部18は、可視化プログラムによって、人工知能の成長を測定し、測定結果に基づいて、人工知能の成長プロセスの、報知情報としての可視化情報を作成し、これをクライアント装置3、サーバ装置2、及び、管理計算機6の少なくとも一つに表示させることができる。限定されない一態様として、人工知能の成長を測定するポイントは、レビューワである監査人が、不正に「関連する」と判断した文書(例えば、電子メール等)、又は、不正に「関連しない」と判断した文書が、人工知能によって正しくスコア付けされているか、否かにある。監査人が関連性の有無を判断した文書のスコアが全体文書のスコアのどの位置に分布し、時系列(人工知能の成長過程)でスコア付けがどう変わるかという、人工知能の学習における成長状態を反映したファクタ動き、経緯、経過等によって、人工知能の成長度を測ることができる。人工知能の成長プロセスは、一つの典型的な例では、成長初期、成長期、成熟期の段階に分けることができる。人工知能の成長が、成長期、及び/又は、成熟期に到達したことを示すことによって、ユーザは、データ分析システムが安定して稼働していることを確認することができる。

0050

図4は、可視化プログラムの動作を示すフローチャートである。管理部18は、データ管理システムの運用を開始した段階(人工知能を作成した段階)でスコアを付けた評価用データの中から所定数の評価用データを、人工知能の成長プロセスを可視化するために利用されるデータ(以下、「利用データ」という。)として、選択する(S400)。利用データは、人工知能の成長に合わせて、スコアの分布の時系列での変化を表示するために利用されるものであり、したがって、所定数とは、スコアの分布をユーザに示すのに必要な数であればよい。例えば、数十から数千の範囲で、選択されればよい。管理部18は、ランダムに、又は、管理者によって指定された要件(例えば、会社内でのある部門に関係する電子メールであるか等。)にしたがって、利用データを選択することができる。管理部18は、スコアの高低に偏ることなく、スコアが高い評価用データからスコアが低い評価用データまで、バランスよく、利用データを選択することがよい。利用データとしては、学習用データでもよい。

0051

次いで、管理部18は、利用データの管理テーブルを作成し、管理テーブルに、算出されたスコアを登録する(S402)。図5は、管理テーブルの一例である。管理部18は、システムの運用を開始した際のスコアを、複数の利用データの夫々(データ#1〜データ#n)について、領域500に登録する。さらに、管理部18は、レビューワに、利用データ夫々について実際にレビューして既述の分類を付与することを求め、利用データ夫々の分類情報を管理テーブルの領域504に登録する(S404)。

0052

データ分析システムの運用が進んでいく過程で、管理部18は、利用データの評価(S17、S18)を所定期間毎、例えば、定期的なタイミング(時点)で実施し、管理テーブルの領域502に、各タイミングで算出されたスコアを順次記録する。t1、t2、t3、・・・tn夫々がこのタイミングである。定期的なタイミングとは、数日毎、1週間毎等、特に、限定されるものではない。また、システムの管理者が指定する任意のタイミングであってもよい。人工知能はシステムの運用に合わせて成長するので、同じデータであっても、どの時点で算出されたスコアであるかによって、スコアは人工知能の成長度の影響を受けて変わってくる。

0053

利用データのスコアは、人工知能の成長によって影響を受けるものであるから、例えば、スコアの分布、分布の変化等のスコアの態様から、人工知能の成長度合いが判る。管理部18が、利用データについて、スコアの分布の態様を所定の形式で表示することによって、人工知能の成長がどの段階にあるかをユーザに示すことができる。

0054

管理部18が、ユーザから人工知能の成長プロセスを可視化するための要求を、管理計算機6を介して受けると、管理テーブル(図5)にアクセスして、各利用データのスコアを読み出し、可視化情報を作成して、これを、サーバ装置2等の出力手段(表示装置等)を介して出力する(S406)。

0055

図6は、可視化情報の一例であり、システムの運用に合わせて、複数のデータのスコアの分布を示すグラフである。縦軸が第1の時点で算出された、利用デーアのスコアを示し、横軸が第1の時点から後の第2の時点で算出された利用データのスコアである。第1の時点、第2の時点としては、前記管理テーブル(図5)から任意に選択されてよいが、例えば、以下説明するように、横軸が最新の時点又は現在の時点でのスコアであり、縦軸が一つ前の時点でのスコアである。

0056

○、又は、●で示された一つ一つが利用データの夫々に対応する。○は、レビューワが「関連なし」と分類したデータであることを示し、●は、レビューワが「関連あり」と分類したデータであることを示す。図6は、データ分析システムの運用初期の段階でのスコアの分布の典型例である。運用初期の段階では、人工知能は十分に成長していないため、レビューワが「関連する」と判断したデータであっても、人工知能は低いスコアを付けるなど、レビューワの判断と人工知能の判断(スコア)には乖離があり、その結果、グラフ全体的にスコアは低い傾向になって、○と●との混在(符号600で示す。)がグラフの左下の領域に発生している。符号602は、横軸のスコア(最新のタイミングで算出されたスコア)と縦軸のスコア(一つ前の過去のタイミングで算出されたスコア)とが同じであることを示す基準線である。データ分析システムの運用開始の初期段階では、人工知能も成長していないため、スコアの算出のタイミングが違ってもスコアに動きはなく、スコアの分布は基準線に集まる傾向になる。

0057

図7は、既述の可視化情報としての、データ分析システムの運用開始後日が浅い実例に係る利用データのスコア分布を示すグラフである。縦軸が、運用開始時でのスコアを示し、横軸が運用開始後10日経過時点でのスコアを示す。図7によれば、スコアの分布はグラフの左下に集中し、関連ありのデータ(●)と関連なしのデータ(○)が混在している等、図6のグラフと同じ傾向が見られるため、ユーザは、システムの運用開始後10日時点において、人工知能は未だ成長していない状態(成長初期)にあると判断することができる。

0058

次いで、データ分析システムの運用が進み、レビューワによる解析が行われたデータ数が増えていくと、人工知能の学習が継続されて人工知能の成長が進むため、レビューワが「関連する」と判断したデータについて、高いスコアが付く傾向になっていく。したがって、「関連あり」のデータのスコア分布は、過去のタイミングで算出されたスコアでは低くなり、最新のタイミングで算出されたスコアでは高くなる、ことを意味する右下のゾーンに移動するようになる。一方、「関連なし」の分布は、過去スコアでは高く、最新のスコアでは低いゾーンである、左上に移動するようになる。

0059

図8は人工知能の成長期における、データのスコア分布の典型例に係るグラフである。過去スコアが高い「関連あり」のデータのスコアの分布は高いままで、過去スコアが低い「関連あり」のデータの最新スコアの分布は高くなる。この「関連あり」のデータのスコア分布は運用初期の分布に比較して、混在領域(図6の符号600で示す。)を抜け出して、基準線602より右下の領域604に移動し、その結果、「関連あり」のデータのスコアの分布と「関連なし」のデータのスコアの分布とが分かれる傾向になる。

0060

図9は、既述の可視化情報として、図7に示すシステムの運用段階から、運用が進んだ実例における利用データのスコア分布を示すグラフである。縦軸が、システム運用開始時の17日経過時点でのスコアを示し、横軸がシステム運用開始後24日経過時点でのスコアを示す。図9によれば、図8のグラフと同じ傾向が見られるため、ユーザは、システムの運用開始後24日時点において、人工知能は学習及び成長が活発に進んでいる成長期にあると判断することができる。

0061

さらに、システムの運用が進んでいき、レビューワによる解析が行われたデータ数がより増えていくと、人工知能がさらに学習を進め、人工知能の成長が安定した傾向になってくる。図10は人工知能の成長が成熟期にある状態での、データのスコア分布の典型例に係るグラフである。人工知能の成長が安定した状態では、過去のタイミングと最新のタイミングで、人工知能の成長度に大きな変化がないために、同一データの過去スコアと最新スコアとの間での変異が少なくなって、データのスコア分布が基準線に沿うようになる。

0062

人工知能の成長段階から成熟期に至る過程で、「関連あり」に分類された利用データのスコア分布は、グラフの右下の領域604から基準線602に向けて右上の高スコア領域602に移動し、「関連なし」に分類された利用データのスコア分布は基準線602の左下の低スコア領域608に移動して、両者が区分けされる。データのスコア分布がこの状態なったことは、人工知能の学習が理想的に進んだことを意味し、人工知能の成長が成熟した状態になったことを示している。

0063

図11は、既述の可視化情報として、システムの運用が図9に示す段階よりさらに進んだ実例における、利用データのスコア分布を示すグラフである。縦軸が、運用開始時の24日経過時点でのスコアを示し、横軸が運用開始後29日経過時点でのスコアを示す。図11によれば、図10のグラフと同じ傾向が見られるため、ユーザは、システムの運用開始後29日を経過した時点で、人工知能は成長が安定した成熟期にあると判断することができる。

0064

データ分析システムは、既述の可視化情報を出力して、人工知能の成長がどのフェーズにあるかの判断を人に委ねるものとして説明したが、既述の可視化情報から既述の特徴を把握して、データ分析システムが人工知能の成長がどのフェーズにあるかを判断してもよい。

0065

データ評価部17は評価用データ毎のスコアを所定の基準値と比較して、基準値以上である評価用データを「Related」に分類し、基準値未満である評価用データを「Non-Related」に分類することができることを説明したが、「基準値」を具体的にどの値にするかは、難しい。しかしながら、人工知能の成長段階の可視化情報によれば、基準線に沿って、「関連あり」に分類されたデータの所在と、「関連なし」に分類されたデータの所在とは別れる傾向にあり、人工知能の成熟段階では、両者が明りょうに区分けできるので、両者の境界のスコアを前記基準値として設定してもよい。

0066

既述の説明では、可視化情報を、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布とを、過去のタイミングと最新のタイミングとの2次元によって形成し、当該分布が人工知能の成長プロセスの段階に応じて変動し、その変動によって、人工知能の成長プロセスがユーザに分かるようにしたが、可視化情報はこれに限られない。例えば、可視化情報の第2の実施形態として次のものがある。

0067

人工知能の成長が進んでいる段階では、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布とは共に、基準線から乖離する傾向となり、人工知能の成長が安定するにしたがって、これらの分布が基準線に近づく傾向になり、人工知能の成長が成熟した段階では、これら分布が基準線に沿った傾向になる。そこで、データの分布位置からの基準線に対する乖離度(データの分布位置から基準線に対する垂直方向の距離)をデータ毎に算出して、乖離度の傾向を表示したものを可視化情報として、人工知能の成長段階が判断できるようにしてもよい。

0068

図12は、既述の実例において、人工知能の成長段階毎に、利用データと乖離度との関係を示すグラフである。(1)は人工知能の運用初期に対応するグラフであり、(2)は人工知能の成長進行段階に対応するグラフであり、(3)は人工知能の成長安定段階に対応するグラフである。横軸は夫々の利用データ(但し、最新タイミングでのスコアが高い順)を示し、縦軸は乖離度を示す。人工知能の運用開始時(1)では、人工知能が成長していないため、乖離度が全体的に低く、さらに、ところどころ乖離度が大きい利用データがある。人工知能が盛んに成長している段階では、利用データの乖離度が大きく、特に、スコアが高い利用データの乖離度が増加している(1000)。そして、人工知能の成長が安定した段階では、スコアの算出タイミングの違いでスコアの差が縮小される傾向となるため乖離度は小さくなる。

0069

さらに、可視化の第3の実施形態として、次のものがある。人工知能の成長が進んでいる段階では、データのスコアは計算される都度大きく変化し得るため、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布はともに、2次元座標上を大きく移動する。一方、人工知能の成長が成熟した段階では、データのスコアは計算される都度ほぼ変化しないため、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布はともに、2次元座標上をほぼ移動しない傾向となる。そこで、過去の時点でのスコアの分布が最新の時点でのスコアの分布まで移動した距離をデータ毎に算出して、移動距離の傾向を表示したものを可視化情報として、人工知能の成長段階が判断できるようにしてもよい。

0070

図13は、既述の実例において、人工知能の成長段階毎に、利用データと移動距離との関係を示すグラフである。(1)は人工知能の運用初期から人工知能の成長が進んでいる段階迄に対応するグラフであり、(2)は人工知能の成長が進んでいる段階から人工知能の成長が安定した段階迄に対応するグラフである。横軸は夫々の利用データ(但し、最新タイミングでのスコアが高い順)を示し、縦軸は移動距離を示す。人工知能の運用開始からその成長が進んでいる段階迄では、利用データのスコアが算出される都度スコアの値が比較的大きく変化するため移動距離は大きくなり、人工知能の成長が進んでいる段階から人工知能の成長が安定する段階迄では、利用データのスコアが算出される都度スコアの値が比較的変化しないため、移動距離は小さくなる。

0071

さらに、可視化の第4の実施形態として、次のものがある。人工知能の成長の初期では「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布は、既述のとおり混在しているため、前者(「関連あり」の複数のデータの例えば平均値)と後者(「関連なし」の複数のデータの例えば平均値)との差分は小さい傾向にある。人工知能の成長が進むと、この差分は拡大する傾向になる。そして、人工知能が成熟した段階では、この差分の拡大傾向は減少して、データ分析システムの運用が進んでも両者の差分が変わらないようになる。そこで、両者の差分の変動傾向を可視化することによって、人工知能の成長段階が判断できるようにしてもよい。図12は、両者の差分の傾向を示したグラフであり、横軸がスコアの算出タイミングを示し、縦軸がスコアを示し、1200は「関連あり」のデータ群のスコアの平均値であり、1202は、「関連なし」のデータ群のスコアの平均値である。図12から、データ分析システムの運用が進むにしたがって、「関連あり」のデータのスコアと「関連なし」のデータのスコアの差分(h)が徐々に拡大し、その後その差分の拡大が縮小されることを示している。

0072

以上説明したように、人工知能の成長プロセスを、所定のスコア算出タイミングとこれより以前のスコア算出タイミングにおける、複数の利用データ毎のスコア分布の差分に基づいて、所定の形式で可視化することによって、データ分析システムのユーザは、人工知能の成長プロセスを認識することができるので、データ分析に対する信頼性が向上される。

0073

図15は、人工知能の成長プロセスの可視化のための管理画面1500の一例である。当該管理画面には、1502,1504,1506で示されるグラフィカルユーザインタフェースGUI)が含まれている。第1のGUI1502は、人工知能によるデータ分析システム運用を開始する際、人工知能の成長プロセスの可視化の要否をユーザに選択させるためのものである。第2のGUIは、人工知能の成長プロセスを可視化するために、利用データのスコアの分布を得ようとする際に、スコアの算出タイミングをユーザが選択できるようにするためのものである。t0はシステムの運用を開始した時点でスコアを算出したタイミングであり、tmは最新のスコアの算出タイミングである。これらの複数のタイミングから所定個のタイミングが選択されてよいが、人工知能の成長の進展を確認する上で、最新のタイミング(tm)と一つ前のタイミング(tm−1)が選択されることがよい。第3のGUIは、人工知能の成長プロセスの可視化の態様をユーザに選択させるためのものである。可視化の態様としては、既述の第1の態様から第4の態様がある。

0074

(パターン更新機能
予測コーディング部10は、例えば、以下(1)〜(3)のように、所定の学習用データ、および/または新たに得られた学習用データに基づいて、構成要素の評価値を最適化することができる。

0075

(1)評価値の最適化
構成要素評価部15は、評価用データを評価した結果に基づいて再現率または適合率を算出し、当該再現率または適合率が上昇するように、構成要素がデータと分類情報との組み合わせに寄与する度合いを繰り返し評価することによって、上記学習したパターンを更新することができる。

0076

ここで、上記「再現率」(Recall Rate)は、所定数のデータに対して発見すべきデータが占める割合(網羅性)を示す指標である。例えば、「全データの30%に対して再現率が80%」と表現した場合、発見すべきデータの80%が、指標の上位30%のデータの中に含まれていることを示す(データ分析システムを用いず、データに総当たり(リニアレビュー)した場合、発見すべきデータの量はレビューした量に比例するため、当該比例からの乖離が大きいほどシステムの性能が良いことを示す。)。また、上記「適合率」(Precision Rate)は、上記システムによって発見されたデータに対して、真に発見すべきデータが占める割合(正確性)を示す指標である。例えば、「全データを30%処理した時点で、適合率が80%」と表現した場合、指標の上位30%のデータに対して、発見すべきデータの占める割合が80%であることを示す。

0077

構成要素抽出部14は、データ評価部17によって評価された結果に基づいて再現率または適合率を算出し、当該再現率または適合率が目標値を下回っていた場合、再現率または適合率が目標値を上回るまで、構成要素をデータから再抽出する。このとき、構成要素抽出部14は、前回抽出した構成要素を除いた構成要素を抽出するようにしてもよいし、前回抽出した構成要素の一部を新たな構成要素に置き換えてもよい。また、データ評価部17が、再抽出された構成要素で評価用データの指標を導出する場合、再抽出された構成要素とその評価値とを用いて各データの指標(第2指標)を導出し、構成要素を再抽出する前に得られた第1指標と第2指標とから、再現率または適合率を導出し直してもよい。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0078

(2)畳み込み手法に基づく構成要素の評価
構成要素評価部15は、学習用データに含まれる構成要素を評価した後、当該構成要素以外の他の構成要素の評価値を畳み込むことによって、当該構成要素の評価値に当該他の構成要素の評価値を反映させるように、当該構成要素を再評価することができる。これにより、構成要素と他の構成要素との関連性が、当該構成要素の評価値として評価されるため、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0079

(3)最適化のタイミング
構成要素評価部15は、任意のタイミングでパターン(例えば、構成要素と当該構成要素の評価値との組み合わせ)を更新することができる。すなわち、構成要素評価部15は、例えば、(a)上記システムを管理する管理ユーザから更新リクエスト受け付けたタイミングで、(b)予め設定された日時が到来したタイミングで、および/または(c)ユーザから追加レビューに関する入力を受け付けたタイミングで、上記パターンを更新することができる。

0080

ユーザは、データ評価部17によって指標が導出された評価用データの内容を確認(確認レビュー)し、当該評価用データに対する分類情報を新たに入力することができる。このとき、分類情報取得部12は、新たに入力された分類情報を取得し、データ分類部13は、上記評価用データと当該分類情報とを組み合わせ、当該組み合わせを新たな学習用データとしてもよい。当該新たな学習用データは、任意のメモリに蓄積され、例えば、上記(a)〜(c)のタイミングで上記システムにフィードバックされる。

0081

これにより、構成要素抽出部14は、上記新たな学習用データから構成要素を抽出し、構成要素評価部15は、当該構成要素を評価する。当該構成要素が以前に評価され、当該構成要素とその評価値とがメモリに格納されている場合、構成要素格納部16は、当該評価値を新たな評価結果(評価値)と置き換え、格納されていない場合、当該構成要素とその評価値とを対応付けて、当該メモリに新たに格納する。すなわち、予測コーディング部10は、任意のタイミング(例えば、上記(a)〜(b)のタイミング)で、当該分類情報に対応するデータの少なくとも一部を構成する複数の構成要素が、当該データと当該分類情報との組み合わせに寄与する度合いを再評価することによって、上記学習したパターンを更新することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0082

管理部18は、さらに、以下(1)〜(5)を実行可能である。

0083

(1)レビュー・ヒートマップ(Review Heat Map)
データ評価部17が、複数の評価用データに対してそれぞれ指標を導出し、(例えば、当該指標によって当該評価用データと所定事案との関連性が高いことが示された順に)ユーザが、当該複数の評価用データをそれぞれ確認して分類情報を付与した(確認レビューした)場合を一例として考える。このとき、管理部18は、分類情報が対応付けられた評価用データが、すべての評価用データに対して占める割合に応じたグラデーションを用いて、複数の評価用データをそれぞれ評価した結果に対する当該割合の分布を視認可能に表示することができる。

0084

例えば、データ評価部17が、0〜10000の値域をとる数値を上記指標として導出する場合、管理部18は、例えば、当該指標を1000ごとに区切った範囲(すなわち、0〜1000を第1区間、1001〜2000を第2区間、2001〜3000を第3区間・・・とする)に評価用データをそれぞれ分類し(例えば、指標が2500である評価用データを第3区間に分類する)、ある範囲に分類された評価用データの総数に対して、所定の分類情報(例えば、「Related」)が付与された評価用データが占める割合が視認可能となるように、例えば、当該範囲の色調を変化させて(例えば、当該割合が高いほど暖色系に近づき、低いほど寒色系に近づく)、当該範囲を表示させることができる。管理部18は、他の範囲についても、同様に当該他の範囲を表示させる。

0085

これにより、管理部18は、各範囲における上記割合の分布を、グラデーションを用いて表示することができるため、例えば、上記指標によって評価用データと所定事案との関連性が高いことが示されている範囲(例えば、当該指標が8001〜9000である第9区間)にもかかわらず、当該範囲における上記割合が寒色系の色調で示されている場合、ユーザによる確認レビューが間違っているおそれがあることを示唆することができる。すなわち、データ分析システムは、ユーザに当該分布を一目で把握させることができるという付加的な効果をさらに奏する。

0086

(2)セントラルリンケージ(Central Linkage)
管理部18は、複数の主体(例えば、人、組織、コンピュータなど)間の相互関係(例えば、上下関係、系列関係、データ送受信多寡など)を可視化することができる。例えば、第1コンピュータから第2コンピュータに電子メールが送信された場合、管理部18は、当該第1コンピュータを表す第1の円と当該第2コンピュータを表す第2の円とを、当該第1の円から当該第2の円に向かう矢印(例えば、電子メールの多寡に応じた太さを有してよい)で結んだダイアグラムを、所定の表示装置(例えば、クライアント装置10が備えたディスプレイ)に表示させることができる。

0087

また、管理部18は、データ評価部17によって評価された結果に応じて、上記相互関係を可視化することができる。例えば、データ評価部17が、0〜10000の値域をとる数値を上記指標として導出する場合、管理部18は、例えば、指定された区間に属する指標が対応付けられた評価用データ(例えば、第1コンピュータから第2コンピュータに送信された電子メール)のみに基づいて、上記ダイアグラムを上記所定の表示装置に表示させることができる。これにより、データ分析システムは、複数の主体間の相互関係をユーザに一目で把握させることができるという付加的な効果をさらに奏する。

0088

(3)行動抽出(Behavior Extractor)
管理部18は、所定の動作を表す第1の構成要素が評価用データに含まれるか否かを判定し、含まれると判定する場合、当該所定の動作の対象を表す第2の構成要素を特定することができる。例えば、「仕様確定する」という文章が上記評価用データに含まれる場合、当該文章から「仕様」および「確定する」という構成要素を抽出し、「確定する」という所定の動作を表す構成要素(動詞)の対象である「仕様」という他の構成要素(目的語)を特定する。次に、管理部18は、上記構成要素および他の構成要素を含む評価用データの属性性質・特徴)を示すメタ情報属性情報)と、当該構成要素および第他の構成要素とを関連付ける。ここで、上記メタ情報とは、データが有する所定の属性を示す情報であり、例えば、上記評価用データが電子メールである場合、当該電子メールを送信した人物名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。

0089

そして、管理部18は、2つの構成要素とメタ情報とを対応付けて、所定の表示装置(例えば、クライアント装置3が備えたディスプレイ)に表示させる。例えば、管理部18は、第1の構成要素を表す円と第2の構成要素を表す円とを、当該第1の円から当該第2の円に向かう矢印で結んだダイアグラムを、上記所定の表示装置に表示させることができる。これにより、データ分析システムは、上記所定の動作とその対象とをユーザに一目で把握させることができるという付加的な効果をさらに奏する。

0090

(4)生成的概念抽出に基づく自動要約
管理部18は、予め選定された概念の下位概念に対応する構成要素を含むデータを複数の評価用データからそれぞれ抽出し、当該複数の評価用データを要約可能なコンテンツ(例えば、文章、グラフ、表など)を生成することができる。

0091

まず、ユーザが、評価用データから検出したいトピックに応じたいくつかの概念を選定し、当該選定した概念を予め管理部18に登録する。例えば、検出すべきトピックが「不正」または「不満」である場合、概念のカテゴリを「行動」、「感情」、「性質・状態」、「リスク」、および「金銭」の5つに分け、例えば「行動」については「復讐する」、「軽蔑する」など、「感情」については「苦しむこと」、「腹を立てること」など、「性質・状態」については「鈍重であること」、「態度が悪いこと」など、「リスク」については「脅す」、「だます」など、「金銭」については「人の労働に対して支払われるお金」などの概念を、ユーザが管理部18にそれぞれ登録する。

0092

管理部18は、登録された概念ごとに、当該概念の下位概念に対応する構成要素を学習用データから検索し、当該検索された構成要素を当該概念に対応付けて、任意のメモリ(例えば、ストレージシステム18)に格納する。そして、管理部18は、当該格納された構成要素を評価用データから抽出し、当該構成要素に対応付けられた概念を特定し、当該概念を用いた要約を出力する。例えば、管理部18は、ある電子メールに含まれる「監視システム受注」というテキストから「システム」、「販売」、および「する」という概念を抽出し、他の電子メールに含まれる「会計システム導入」というテキストから「システム」、「販売」、および「する」という概念を抽出し、これら電子メールの要約として「システムを販売する」を出力する。このとき、管理部18は、例えば、「システムを販売する」の概念を含む評価用データが、すべての評価用データに対して占める割合を示すグラフ(例えば、円グラフ)を示すことができる。これにより、データ分析システムは、評価用データの全体像をユーザに把握させることができるという付加的な効果をさらに奏する。

0093

(5)トピッククラスタリング(Topic Clustering)
管理部18は、複数の評価用データに含まれるトピック(主題)に応じて、当該複数の評価用データをクラスタリングすることができる。例えば、管理部18は、任意の分類モデル(例えば、K平均法、サポートベクターマシン、球面クラスタリングなど)を用いて、複数の評価用データをクラスタリングすることができる。これにより、データ分析システムは、評価用データの全体像をユーザに把握させることができるという付加的な効果をさらに奏する。

0094

補助機能
予測コーディング部10が備えた各部は、例えば、以下(1)〜(6)の補助機能を有することができる。

0095

(1)高解像度評価
データ評価部17は、高い解像度で評価用データを評価することができる。すなわち、データ評価部17は、評価用データに対して指標を導出するだけでなく、例えば、評価用データを複数のパーツ(例えば、当該評価用データに含まれるセンテンスまたは段落(部分評価用データ))に分割し、学習したパターンに基づいて当該複数の部分評価用データをそれぞれ評価(部分評価用データに対して指標を導出)することができる。そして、データ評価部17は、複数の部分評価用データに対してそれぞれ導出した複数の指標を統合し、当該統合指標を評価用データの評価結果とすることもできる(例えば、各指標が数値として導出される場合、当該指標の最大値を抽出して当該評価用データに対する統合指標としたり、当該指標の平均を当該評価用データに対する統合指標としたり、当該指標を大きい順から所定数合算して当該評価用データの統合指標としたりすることができる)。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0096

(2)時系列評価
時間の経過とともにその性質が変化するデータ(例えば、時間の経過とともに進行する病状を記録した電子カルテなど)を分析する場合、構成要素評価部15は、所定時間ごとに区切られた学習用データ(例えば、第1区間の学習用データ、第2区間の学習用データ・・・)からそれぞれパターンを学習し(すなわち、当該所定時間ごとに構成要素と当該構成要素を評価した結果とを取得し)、データ評価部17は、当該パターンにそれぞれ基づいて評価用データを評価することができる。すなわち、データ評価部17は、時系列に沿って評価用データに対する指標を導出することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0097

このとき、データ評価部17は、上記指標の時間的変化に基づいて、将来の指標を予測することができる。例えば、データ評価部17は、新たに評価用データが得られる前に、時系列分析のためのモデル(例えば、自己回帰モデル移動平均モデルなど)と、所定の期間内(例えば、過去1ヶ月)において導出された指標とに基づいて、当該新たな評価用データを評価した場合に得られる次の指標を予測することができる。これにより、データ分析システムは、将来起こり得る事象(例えば、好ましくない事態が起こるリスク)をユーザに提示できるという付加的な効果をさらに奏する。

0098

(3)案件別評価
案件の種類に応じてその性質が変化するデータ(例えば、訴訟の種類(例えば、独占禁止違反、情報漏洩、特許権侵害など)に応じて内容が変化する訴訟関連文書など)を分析する場合、構成要素評価部15は、案件ごとに準備された学習用データ(例えば、独占禁止法違反に関する学習用データ、情報漏洩に関する学習用データ・・・)からそれぞれパターンを学習し(すなわち、当該案件ごとに構成要素と当該構成要素を評価した結果とを取得し)、データ評価部17は、当該パターンにそれぞれ基づいて評価用データを評価することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0099

(4)構文解析
データ評価部17は、評価用データが有する構造を解析し、当該解析した結果を当該評価用データの評価に反映させることができる。例えば、評価用データが少なくとも一部に文章(テキスト)を含む場合、データ評価部17は、当該文章に含まれる各センテンスの表現形態(例えば、当該センテンスが肯定形であるか、否定形であるか、消極形であるかなど)を解析し、当該解析した結果を評価用データに対して導出する指標に反映させることができる。ここで、肯定形は、主題を肯定する表現(例えば、「料理が美味しい」)であり、否定形は、主題を否定する表現(例えば、「料理が不味い」または「料理が美味しくない」)であり、消極形は、主題を婉曲に肯定または否定する表現(例えば、「料理が美味しいとはいえなかった」または「料理が不味いとはいえかった」)であってよい。

0100

データ評価部17は、上記表現形態に応じて指標を調整することができる。例えば、データ評価部17が所定の値域をとる数値を上記指標として導出する場合、データ評価部17は、例えば、肯定形に「+α」を加算し、否定形に「−β」を加算し、消極形に「+θ」を加算することによって(α、β、およびθは、それぞれ任意の数値であってよい)、上記指標を調整することができる。また、データ評価部17は、評価用データに含まれるセンテンスが否定型であることを検知した場合、例えば、当該センテンスをキャンセルすることにより、当該センテンスに含まれる構成要素を指標導出の基礎にしない(当該構成要素を考慮しない)ことができる。

0101

さらに、構成要素評価部15は、例えば、ある形態素(構成要素)がセンテンスの主語、目的語、および述語のいずれかに応じて、当該構成要素の評価値を増減させることができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0102

(5)構成要素間の相関共起)を考慮した評価
データ評価部17は、評価用データに含まれる第1構成要素と、当該評価用データに含まれる第2構成要素との相関(共起、例えば、両者が同時に出現する頻度)を考慮して、当該評価用データに対する指標を導出することができる。例えば、評価用データが少なくとも一部に文章(テキスト)を含む場合において、当該文章に「価格」という第1キーワード(第1構成要素)が出現するとき、データ評価部17は、当該第1キーワードが出現した第1位置の近傍にある第2位置(例えば、当該第1位置を含む所定の範囲に含まれる位置)に、第2キーワード(第2構成要素)が出現する数に基づいて、上記指標を導出することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0103

(6)感情分析
評価用データが所定事案に対するユーザの評価情報を含む場合、データ評価部17は、当該評価用データを生成したユーザの感情であって、当該評価情報に基づいて生じた当該所定事案に対する感情を、当該評価用データから抽出する(当該評価用データに含まれる感情を評価する)ことができる。

0104

例えば、商品・サービスを紹介するウェブサイト(例えば、オンライン商品サイトレストランガイドなど)に含まれるデータを分析対象とする場合、データ評価部17は、当該商品・サービスに対するコメント(レビュー)に含まれる構成要素(例えば、「良かった」、「楽しかった」、「悪かった」、「つまらなった」などのキーワード)と、当該商品・サービスに対する評価(例えば、「とても良い」、「良い」、「普通」、「悪い」、「とても悪い」の5段階評価)との組み合わせ(学習用データ)に基づいて、評価用データ(例えば、他のウェブサイトに含まれるデータ)を評価することができる。このとき、データ評価部17は、例えば、誇張表現(例えば、「とても」、「非常に」など)に応じて当該評価結果を増減させることができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

0105

〔データ分析システムが文書データ以外のデータを処理する例〕
本実施の形態においては、データ分析システムが文書データを分析する場合を主に想定し、当該想定に基づく一例を説明したが、当該システムは、文書データ以外のデータ(例えば、音声データ、画像データ、映像データなど)を分析することもできる。

0106

例えば、音声データを分析する場合、上記システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、上記システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法(例えば、隠れマルコフモデルカルマンフィルタなど)を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いて音声を認識し、認識後のデータに対して、実施の形態において説明した手順と同様の手順で分析できる。

0107

また、画像データを分析する場合、上記システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該画像データを分析できる。

0108

さらに、映像データを分析する場合、上記システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該映像データを分析できる。

0109

〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本データ分析システムの目的が達成される。上記記録媒体としては、「一時的でない有形媒体」、例えば、テープディスクカード半導体メモリプログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体通信ネットワーク放送波等)を介して上記コンピュータに供給されてもよい。本データ分析システムは、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能であり、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語HTML5などのマークアップ言語などを用いて実装され得る。また、上記プログラムを記録した任意の記録媒体も、本データ分析システムの範疇に入る。

0110

〔他のアプリケーション例〕
上記システムは、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定の事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。

0111

本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

0112

本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。

0113

1……データ分析システム、2……サーバ装置、3……クライアント装置、4……データベース、5……ストレージシステム、6……管理計算機、10……予測コーディング部、11……データ取得部、12……分類情報取得部、13……データ分類部、14……構成要素抽出部、15……構成要素評価部、16……構成要素格納部、17……データ評価部、18……管理部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ