図面 (/)

技術 決算分析システムおよび決算分析プログラム

出願人 株式会社xenodatalab.
発明者 関洋二郎宮代大輔八木夏樹
出願日 2017年6月5日 (1年6ヶ月経過) 出願番号 2017-110899
公開日 2018年8月2日 (4ヶ月経過) 公開番号 2018-120567
状態 未査定
技術分野 検索装置
主要キーワード 事業報告 属性ラベル 組み合わせ判定 過去最高 決算データ 平均単価 決済関連情報 標準化データ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年8月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (8)

課題

決算関連情報からの要因抽出を効率的かつ柔軟に行う。

解決手段

パターン記憶部11には、要因パターンが記憶されている。この要因パターンは、少なくとも科目および金額情報を含む会計上の事象表現と、この事象の要因の表現とを有する。形態素解析部5は、決算関連情報に含まれる文章を分解した各文について形態素解析を行い、形態素列を生成する。ラベリング部6は、形態素列を構成する形態素またはその組み合わせに対して、固有属性ラベルを付与する。パターン比較部7は、属性ラベルによって抽象化された形態素列と、パターン記憶部に記憶された要因パターンとを比較し、形態素列が要因パターンと一致するか否かを判定する。要因抽出部8は、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける。

概要

背景

一般に、証券取引所が開示する決算短信、企業が発表する業績予想修正証券会社が発表する決算分析レポートといった決算関連情報は、投資家機関投資家にとって、株式や債券などの投資取引を行う上での重要な情報源となる。そのため、従来より、コンピュータを用いて、決算関連情報を自動で処理する様々な手法が提案されている。

例えば、特許文献1には、決算書分析結果に基づく記事を作成する記事作成システムが開示されている。この記事作成システムは、決算書データから取得される情報に関する条件と、決算書データから取得された情報がその条件に適合した場合に使用される文字列とを含むテンプレートを備えている。XBRL(eXtensible Business Reporting Language)で記述された決算書データを受け付けた場合、この決算書データから取得される情報がテンプレートに記述された条件に適合するか否かが判断される。そして、この条件に適合する場合、テンプレートに記述された文字列を含んだ記事を表す記事データが自動的に作成される。これにより、決算書の分析結果に基づく記事の作成に要する時間の短縮を図る。

また、特許文献2には、不動産ポートフォリオの分析を行う装置が開示されている。この装置では、複数の不動産物件属性データと、不動産物件運用決算データと、分析に用いる決算データを標準化するための標準化ルール情報とが記憶されている。決算データは、標準化ルール情報に基づいて、予め決められた標準化データに変換される。そして、この標準化データと、不動産物件の属性データとに基づいて、収益率等の指標が計算される。これにより、不動産投資におけるポートフォリオ分析を容易に行うことが可能となる。

概要

決算関連情報からの要因抽出を効率的かつ柔軟に行う。パターン記憶部11には、要因パターンが記憶されている。この要因パターンは、少なくとも科目および金額情報を含む会計上の事象表現と、この事象の要因の表現とを有する。形態素解析部5は、決算関連情報に含まれる文章を分解した各文について形態素解析を行い、形態素列を生成する。ラベリング部6は、形態素列を構成する形態素またはその組み合わせに対して、固有属性ラベルを付与する。パターン比較部7は、属性ラベルによって抽象化された形態素列と、パターン記憶部に記憶された要因パターンとを比較し、形態素列が要因パターンと一致するか否かを判定する。要因抽出部8は、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける。

目的

その際、特に有用なのは、科目および金額主体とした会計上の事象(例えば、「営業利益が○○億円」)に対して、その要因(例えば、「為替の影響等により」)を抽出・特定することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

決算関連情報分析する決算分析システムにおいて、少なくとも科目および金額情報を含む会計上の事象表現と、当該事象の要因の表現とを有する要因パターンを記憶するパターン記憶部と、処理対象となる文の形態素列であって、この形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額分類する属性毎固有属性ラベルを付与することによって抽象化された形態素列と、前記パターン記憶部に記憶された前記要因パターンとを比較すると共に、前記要因パターンと一致した前記形態素列について、前記要因パターンによって指定された部分を要因として抽出し、当該抽出された要因を前記形態素列における科目および金額情報と紐付けて、1組のデータとして記憶する文書解析部とを有することを特徴とする決算分析システム。

請求項2

記文解析部は、前記要因パターンと一致した前記形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、前記属性ラベルが付与されていない不定の繰り返し部分を要因として抽出することを特徴とする請求項1に記載された決算分析システム。

請求項3

前記文書解析部は、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章順序に従って他の文を分析し、当該欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うことを特徴とする請求項1または2に記載された決算分析システム。

請求項4

予め定義された文字列を記憶する形態素解析辞書をさらに有し、前記文書解析部は、前記形態素解析辞書に記憶された文字列については、一つの形態素として扱うことを特徴とする請求項1に記載された決算分析システム。

請求項5

前記形態素の組み合わせについて、前記属性ラベルを対応付けて記憶するラベリング辞書をさらに有し、前記文書解析部は、一つの形態素として扱われる前記形態素の組み合わせに対して、前記ラベリング辞書によって特定される前記属性ラベルを付与することを特徴とする請求項4に記載された決算分析システム。

請求項6

前記金額情報は、金額の増減に関する情報であることを特徴とする請求項1から5のいずれかに記載された決算分析システム。

請求項7

少なくとも科目および金額情報を含む会計上の事象の表現と、当該事象の要因の表現とを有する要因パターンが予め記憶されているコンピュータを用いて、決算関連情報を分析する決算分析プログラムにおいて、処理対象となる文の形態素列であって、この形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与することによって抽象化された形態素列と、前記パターン記憶部に記憶された前記要因パターンとを比較する第1のステップと、前記要因パターンと一致した前記形態素列について、前記要因パターンによって指定された部分を要因として抽出し、当該抽出された要因を前記形態素列における科目および金額情報と紐付けて、1組のデータとして記憶する第2のステップとを有する処理を前記コンピュータに実行させることを特徴とする決算分析プログラム。

請求項8

前記第2のステップは、前記要因パターンと一致した前記形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、前記属性ラベルが付与されていない不定の繰り返し部分を要因として抽出するステップであることを特徴とする請求項7に記載された決算分析プログラム。

請求項9

前記第2のステップは、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、前記文章の順序に従って他の文を分析し、当該欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うステップを含むことを特徴とする請求項7または8に記載された決算分析プログラム。

請求項10

前記コンピュータには、予め定義された文字列を記憶する形態素解析辞書が予め記憶されており、前記第1のステップは、前記形態素解析辞書に記憶された文字列については、一つの形態素として扱うステップを含むことを特徴とする請求項7に記載された決算分析プログラム。

請求項11

前記コンピュータには、前記形態素の組み合わせについて、前記属性ラベルを対応付けて記憶するラベリング辞書が予め記憶されており、前記第1のステップは、一つの形態素として扱われる前記形態素の組み合わせに対して、前記ラベリング辞書によって特定される前記属性ラベルを付与するステップを含むことを特徴とする請求項10に記載された決算分析プログラム。

請求項12

前記金額情報は、金額の増減に関する情報であることを特徴とする請求項7から11のいずれかに記載された決算分析プログラム。

技術分野

0001

本発明は、決算関連情報分析して、会計上の事象要因を抽出する決算分析システムおよび決算分析プログラムに関する。

背景技術

0002

一般に、証券取引所が開示する決算短信、企業が発表する業績予想修正証券会社が発表する決算分析レポートといった決算関連情報は、投資家機関投資家にとって、株式や債券などの投資取引を行う上での重要な情報源となる。そのため、従来より、コンピュータを用いて、決算関連情報を自動で処理する様々な手法が提案されている。

0003

例えば、特許文献1には、決算書の分析結果に基づく記事を作成する記事作成システムが開示されている。この記事作成システムは、決算書データから取得される情報に関する条件と、決算書データから取得された情報がその条件に適合した場合に使用される文字列とを含むテンプレートを備えている。XBRL(eXtensible Business Reporting Language)で記述された決算書データを受け付けた場合、この決算書データから取得される情報がテンプレートに記述された条件に適合するか否かが判断される。そして、この条件に適合する場合、テンプレートに記述された文字列を含んだ記事を表す記事データが自動的に作成される。これにより、決算書の分析結果に基づく記事の作成に要する時間の短縮を図る。

0004

また、特許文献2には、不動産ポートフォリオの分析を行う装置が開示されている。この装置では、複数の不動産物件属性データと、不動産物件運用決算データと、分析に用いる決算データを標準化するための標準化ルール情報とが記憶されている。決算データは、標準化ルール情報に基づいて、予め決められた標準化データに変換される。そして、この標準化データと、不動産物件の属性データとに基づいて、収益率等の指標が計算される。これにより、不動産投資におけるポートフォリオ分析を容易に行うことが可能となる。

先行技術

0005

特開2011−008527号公報
特開2008−140294号公報

発明が解決しようとする課題

0006

ところで、インターネット等の普及により、様々な決算関連情報の入手が容易になった今日、これらの情報を収集・分析してレポート化することは、投資家や機関投資家にとって有用である。その際、特に有用なのは、科目および金額主体とした会計上の事象(例えば、「営業利益が○○億円」)に対して、その要因(例えば、「為替の影響等により」)を抽出・特定することである。しかしながら、従来、このような要因を決算関連情報から自動で抽出する手法は存在しない。

0007

本発明は、かかる事情に鑑みてなされたものであり、その目的は、決算関連情報からの要因抽出を効率的かつ柔軟に行うことである。

課題を解決するための手段

0008

かかる課題を解決すべく、第1の発明は、パターン記憶部と、文書解析部とを有し、決算関連情報を分析する決算分析システムを提供する。パターン記憶部には、要因パターンが記憶されている。この要因パターンは、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有する。文書解析部は、処理対象となる文の形態素列と、パターン記憶部に記憶された要因パターンとを比較する。解析対象となる文の形態素列は、この形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎固有属性ラベルを付与することによって抽象化されている。また、文書解析部は、要因パターンと一致した形態素列について、この要因パターンによって指定された部分を要因として抽出し、抽出された要因を形態素列における科目および金額情報と紐付けて、1組のデータとして記憶する。

0009

ここで、第1の発明において、上記文解析部は、要因パターンと一致した形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、属性ラベルが付与されていない不定の繰り返し部分を要因として抽出することが好ましい。

0010

第1の発明において、上記文書解析部は、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章順序に従って他の文を分析し、この欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行ってもよい。

0011

第1の発明において、予め定義された文字列を記憶する形態素解析辞書をさらに設けてもよい。この場合、上記文書解析部は、形態素解析辞書に記憶された文字列については、一つの形態素として扱う。また、上記形態素の組み合わせについて、属性ラベルを対応付けて記憶するラベリング辞書をさらに設けてもよい。この場合、上記文書解析部は、一つの形態素として扱われる形態素の組み合わせに対して、ラベリング辞書によって特定される属性ラベルを付与する。

0012

また、第2の発明は、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有する要因パターンが予め記憶されているコンピュータを用いて、決算関連情報を分析する決算分析プログラムを提供する。このプログラムは、処理対象となる文の形態素列であって、この形態素列を構成する形態素またはその組み合わせに対して、少なくとも科目および金額を分類する属性毎に固有の属性ラベルを付与することによって抽象化された上記形態素列と、パターン記憶部に記憶された要因パターンとを比較する第1のステップと、要因パターンと一致した形態素列について、この要因パターンによって指定された部分を要因として抽出し、抽出された要因を形態素列における科目および金額情報と紐付けて、1組のデータとして記憶する第2のステップとを有する処理をコンピュータに実行させる。

0013

ここで、第2の発明において、上記第2のステップは、要因パターンと一致した形態素列のうち、要因を表す表現の前方または後方において連続し、かつ、属性ラベルが付与されていない不定の繰り返し部分を要因として抽出するステップであることが好ましい。

0014

第2の発明において、上記第2のステップは、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けを行うステップを含んでいてもよい。

0015

第2の発明において、コンピュータには、予め定義された文字列に関する形態素の組み合わせを記憶する形態素解析辞書が予め記憶されていてもよい。この場合、上記第1のステップは、形態素解析辞書に記憶された文字列については、一つの形態素として扱うステップを含む。また、コンピュータには、上記形態素の組み合わせについて、属性ラベルを対応付けて記憶するラベリング辞書が予め記憶されていてもよい。この場合、上記第1のステップは、一つの形態素として扱われる形態素の組み合わせに対して、ラベリング辞書によって特定される属性ラベルを付与するステップを含む。

0016

さらに、第1および第2の発明において、上記金額情報は、金額の増減に関する情報であることが好ましい。

発明の効果

0017

本発明によれば、文そのものではなく、文を形態素解析した上で属性ラベルによって抽象化された形態素列が、予め定義された要因パターンと比較される。そして、両者が一致した場合、この形態素列のうち、要因パターンによって指定された部分が要因として抽出される。要因パターンとの比較を属性ラベルによって抽象化された形態素列ベースで行うことで、定義すべき要因パターンの数を有効に抑制でき、要因抽出を効率的かつ柔軟に行うことが可能となる。

図面の簡単な説明

0018

決算分析システムのブロック構成
決済分析レポートの表示例を示す図
文書解析ルーチンフローチャート
処理対象となる文の一例を示す図
ラベリングされた形態素列の名称をまとめた一覧表
要因パターンの一例を示す図
係り受け解析における要因抽出例の説明図

実施例

0019

図1は、本実施形態に係る決算分析システムのブロック構成図である。決算分析システム1は、入力された決算関連情報を分析し、その分析結果として、レポートを作成・出力する。このシステム1は、典型的にはコンピュータによって実現することができ、その機能的なブロックとして、データ前処理部2と、文書解析部3と、レポート作成部4とを有する。

0020

データ前処理部2は、インターネット上に公開された決算関連情報、例えば、証券取引所が開示する決算短信、企業が発表する業績予想の修正、証券会社が発表する決算分析レポートなどを取得する。決算関連情報の取得は、各企業のホームページ(IRページ)をクローリングすることによって行うことができる。また、データ前処理部2は、取得したXBRLデータを解析して財務情報を取得すると共に、取得したPDFデータを解析して、セグメント別、地域別などの財務情報を取得する。ここで、XBRL(eXtensible Business Reporting Language)とは、拡張可能事業報告言語であって、財務諸表などのビジネスレポートを電子文書化することで、それらの作成の効率化や比較・分析などの二次利用を目的として、XML(Extensible Markup Language)の規格をベースに作られた言語である。さらに、データ前処理部2は、決済関連情報としてのPDFデータを解析して、このPDFに記載されている文章のデータを取得する。

0021

文書解析部3は、データ前処理部2によって取得された文章から、決算結果である会計上の事象が生じた要因を抽出・取得する。ここで、会計上の事象とは、例えば、「営業利益が○○億円」といった如く、科目および金額情報を主体とした記述である。本明細書において、「金額情報」とは、文章中に出現した金額に関する情報を指し、具体的には、以下のパターンが想定されるが、特に、金額の増減に関しては重要な情報として注目すべきである。

0022

[金額情報のパターン]
1.科目+金額(例:売上高1億円)
2.科目+金額増減(例:売上高が1億円増加)
3.科目+金額増減(例:増収

0023

また、要因とは、例えば、「為替の影響等により」といった如く、会計上の事象が生じた原因や要因を表す記述である。文書解析部3は、このような事象と要因とを紐付けて、1組のデータとして記憶・保持する。このような事象と要因との紐付けは、後述する文単位文章全体に対して行われる。

0024

レポート作成部4は、文書解析部3によって取得されたデータに基づいて、決算の内容を分析し、その分析結果を決済分析レポートとして出力する。図2は、決済分析レポートの表示例を示す図である。同図の例では、事業のセグメント別に、「売上高」、「営業益」、「利益」等の各事象について、その要因が「解説」として記述されている。それぞれの事象および「解説」のセットは、後述する要因抽出部8による情報の紐付けに基づいて生成される。なお、決算分析レポートの作成に際しては、文書解析部3による解析結果だけでなく、上述したXBRL解析やPDF解析で抽出された数値データも適宜使用される。

0025

文書解析部3は、これを構成する機能的なサブブロックとして、形態素解析部5と、ラベリング部6と、パターン比較部7と、要因抽出部8とを有する。また、文書解析部3は、文書解析に必要となる予め定義された情報を記憶する記憶部として、形態素解析辞書9と、ラベリング辞書10と、パターン記憶部11とを備えている。形態素解析辞書9は、形態素解析において、一つの形態素として扱うべきものとして、予め定義された文字列(例えば、「月」、「前年」、「売上高」に準じる科目など)を多数記憶している。ラベリング辞書10は、ラベリング部6の処理において用いられ、形態素の組み合わせについて、属性ラベルを対応付けて記憶している。そして、一つの形態素として扱われる形態素の組み合わせに対して、ラベリング辞書10によって特定された属性ラベルが付される。また、パターン記憶部11には、予め定義された要因パターンが多数記憶されている。それぞれの要因パターンは、少なくとも科目および金額情報を含む会計上の事象の表現と、この事象の要因の表現とを有するパターンである。形態素解析辞書9、ラベリング辞書10およびパターン記憶部11の記憶内容は、適宜、追加・変更することができる。

0026

形態素解析部5は、決算関連情報に含まれる文章を文に分解すると共に、それぞれの文についての形態素解析を行い、文毎の形態素列を生成する。ここで、PDFには行の概念がないので、形態素解析に先立ち、1文の切れ目句点インデント等)で行となるように、文字列が成形される。形態素解析とは、処理対象となる文を形態素と呼ばれる最も小さな文法単位に分割して解析することであり、日本語の解析では、文から単語を切り出していき、動詞形容詞名詞副詞、連体詞、接続詞助動詞助詞といった如く、その単語の品詞活用とが推定される。その際、形態素解析辞書9によって予め定義された文字列については、形態素解析上、一つの形態素として取り扱われ、所定のメタデータが付与される。

0027

ラベリング部6は、文の形態素列を構成する形態素またはその組み合わせに対して、属性毎に固有の属性ラベルを付与する(ラベリング)。例えば、数字と”円”の組み合わせには「金額」という属性ラベルを付与するといった如くである。属性ラベルは、最低限、「科目」および「金額」を分類できることが要求されるが、これら以外の属性を適宜設定してもよい。また、ラベリング辞書10にて予め定義された形態素の組み合わせ(1つの形態素として扱うべきもの)については、用語辞書9によって指定された属性ラベルが付与される。

0028

パターン比較部7は、属性ラベルによって抽象化された文の形態素列と、パターン記憶部11に記憶された要因パターンとを比較し、形態素列が要因パターンと一致するか否かを判定する。

0029

要因抽出部8は、要因パターンと一致した形態素列について、要因パターンによって指定された部分を要因として抽出し、この抽出された要因を形態素列における科目および金額情報と紐付ける。例えば、国名+助詞+科目+助詞+不定の繰り返し+”により”+金額差分という要因パターンと一致した形態素列については、要因を表す表現である”により”の前方において連続し、かつ、属性ラベルが付与されていない「不定の繰り返し」の部分が要因として抽出されるといった如くである。ここで、「不定の繰り返し」とは、正規表現では、例えば、”.”(「科目」や「金額情報」等のラベルが付与されていない任意の一文字)と、”+”(直前のパターンの1回以上の繰り返し)”との組み合わせとして表現できる。また、要因を表す表現には様々なものが存在し、表現によっては後方において連続した「不定の繰り返し」の部分が要因とされることもある。なお、本実施形態において、科目、金額、および要因の3要素を1組のセットとした紐付けは、基本的に文単位で行われるが、これらの要素が別個の文になっている場合には、3要素の過不足をみながら、複数の文から1組のセットが抽出される。

0030

図3は、文書解析部3において実行される文書解析ルーチンのフローチャートである。この文書解析処理は、コンピュータに図3の処理を実行させるコンピュータプログラムインストールすることによって実行される。以下、図4に示した文を一例に文書解析の詳細について説明する。

0031

まず、ステップ1において、形態素解析部5は、PDFより取得された文書を文単位で分解し、それぞれの文に対して、文章の順序に従って文番号昇順で付与する。続くステップ2において、処理対象となる文番号を指定する循環変数nが1にセットされ、文章における最初の文の処理が開始される。

0032

ステップ3において、形態素解析部5は、処理対象となる文の形態素解析を行う。上述したように、用語辞書にて予め定義された形態素の組み合わせについては一つの形態素として扱う以外、一般的な形態素解析と異なるところはない。

0033

ステップ4において、ラベリング部6は、形態素列を構成する形態素またはその組み合わせに対してラベリングを行う。このラベリングには、(1)単純な形態素列に対するラベリング、(2)定義済み形態素列に対するラベリング、(3)金額増減の表現に対するラベリングの3つが存在する。

0034

(1)単純な形態素列に対するラベリング
句点や数値などのような簡単な形態素列の組み合わせに対して、属性ラベルが付与される。読点については、形態素のメタデータが「記号」かつ「読点」の形態素であり、「,」にマッチする場合、「,」「、」の属性ラベルが付与される。句点については、形態素のメタデータが「記号」かつ「句点」の形態素であり、「.」にマッチする場合、「。」とされる。また、数値については、形態素のメタデータが「名詞」かつ「数」の形態素が1つ以上存在するものをAとし、読点や句点に続き形態素のメタデータが「名詞」かつ「数」の形態素が1つ以上するものをBとした場合、AまたはABにマッチするものに「数値」の属性ラベルが付与される。さらに、金額については、上記「数値」に「円」が続くものに「金額」の属性ラベルが付与される。図4例文では、「1,616億円」,「3,621億円」,「6,128億円」,「944億円」,「53億円」の各形態素列に「金額」の属性ラベルが付与されることになる。

0035

(2)定義済み形態素列に対するラベリング
月、前年、売上高に準ずる科目など、ラベリング辞書10にて定義済みの形態素列に対して、属性ラベルが付与される。例えば、売上高に準ずる科目として、「連結」という表現をAとし、「売上収益」,「売上高」,「売上」,「営業収益」等の表現をBとし、括弧に囲まれた形態素列をCとした場合、B,AB,BC,ABCにマッチするものに対して、「売上高」や「売上」といった属性ラベルが付与される。

0036

(3)金額増減の表現に対するラベリング
単純な表現、カッコ書き付き、割合での表現等でパターン分けして属性ラベルが付与される。例えば、「過去最高の」をA、結果の直前の表現をB、前期の表現、前期の表現+読点をC、金額または割合の1回以上の繰り返しをD、括弧に囲まれた形態素をE、読点+金額または割合、読点+金額または割合+EをF、増減の表現をG、読点をHとした場合、ABCBDEFGH、BCBDEFGH、CBDEFGHといった組み合せを定義してマッチするものに「金額増減」の属性ラベルが付与される。ただし、定義すべき全ての組み合わせを列挙すると記述量が膨大になるため、実際には、組み合せの全列挙ではなく、正規表現のような手法が用いられる。図4の例文では、「3,621億円の増収」,「6,128 億円の減収」,「944億円の増収」,「53億円の減収」,「減少額1,616億円」に対して、「金額増減」の属性ラベルが付与される。

0037

ステップ5において、パターン比較部7は、属性ラベルによって抽象化された文の形態素列と、パターン記憶部11に記憶された要因パターンとを比較し、両者が一致するか否かが判断される(マッチング)。ここで、ラベリングされた形態素列の名称として、図5の一覧表に示す名称を用いる場合について考える。この場合、マッチさせる形態素列のパターン(要因パターン)としては、図6に示すように、A系(A1〜A5・・・),B系(B1〜B3・・・),C系(C1〜C3・・・)などが考えられる。例えば、要因パターンAは、[要因前置]+「セグメント前置」+「セグメント表現」+「要因(逆向)候補」+「要因前置(含:要因)」+「要因(逆向)候補」+”営業利益率は前年を維持し、”+「修飾(分量)」+「科目表現」+「価格表現」+「行末」より構成されていることを意味する。このような要因パターンは、多数の決算関連情報をサンプルとして調査し、要因の抽出漏れがないように多数用意されている。

0038

両者の並びが一致する場合には、ステップ6の肯定判定からステップ7の要因抽出に進み、要因抽出部8は、要因パターンによって指定された部分が結果(要因・科目・金額増減)として抽出する。例えば、A系およびC系の要因パターンについては、「CAUSE_THOUGH」が要因(逆)、「CAUSE」が要因(順)、「ACCOUNT_PHRASE」が科目、「PRICE_SET」が金額増減として抽出されるといった如くである。また、B系の要員パターンについては、「CAUSE_THOUGH」が要因(逆)、「CAUSE」が要因(順)、「PRICE_SET_WITH_ACCOUNT」が科目、金額増減として抽出されるといった如くである。

0039

ステップ7において抽出された要因は、形態素列における科目および金額情報と紐付けて1組のセットとされる。図4の例文では、「3,621億円の増収」という事象について「原油及び天然ガスの売上高に関し、販売数量の増加により」という要因、「6,128億円の減収」という事象について「平均単価の下落により」という要因、「944億円の増収」という事象について「売上の平均為替レートが円安となったことにより」という要因がそれぞれ抽出されることになる。なお、「増収」や「減収」といった表記は、科目としては売上高を表している。

0040

これに対して、両者が一致しない場合には、ステップ6の否定判定からステップ8に進み、要因抽出部8は、複数の文に跨がる組み合わせ判定を行う。すなわち、一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、科目、金額情報、および要因の紐付けが行われる。

0041

そして、ステップ9において、循環変数nがラストであるか、換言すれば、文章における最後の文の処理が終了したかが判断される。循環変数nがラストでない場合には、ステップ10で循環変数をインクリメントした上で、ステップ3に戻り、新たな文の処理を実行する。これに対して、循環変数がラストの場合には、一連の処理が終了する。

0042

このように、本実施形態によれば、文そのものではなく、文を形態素解析した上で属性ラベルによって抽象化された形態素列が、予め定義された要因パターンと比較される。そして、両者が一致した場合、この形態素列のうち、要因パターンによって指定された部分が要因として抽出される。一般に、決算関連情報は、ある程度決まった形式の文章で記述されることが多い。このような傾向に鑑み、事象と要因との関係を記述した多数の文章から記述のバリエーションを抽出し、それぞれを要因パターンとして定義しておく。そして、要因パターンとの比較を属性ラベルによって抽象化された形態素列ベースで行うことで、定義すべき要因パターンの数を有効に抑制しつつ、要因抽出を効率的に行うことができる。それとともに、新たなバリエーションが見つかった場合には、新たに定義された要因パターンをパターン記憶部11に追加するだけでよいため、柔軟性にも優れている。

0043

また、本実施形態によれば、処理対象となる一つの文において、科目、金額情報、および要因のいずれかの要素が欠落している場合、文章の順序に従って他の文を分析し、この欠落した要素が得られたことをもって、事象(科目,金額情報)と要因との紐付けが行われる。これにより、要因抽出をより効果的に行うことが可能となる。

0044

さらに、本実施形態によれば、予め定義された文字列を形態素解析辞書9に登録・記憶しておき、この文字列については、形態素解析上、一つの形態素として取り扱う。これにより、決済関連情報に記載された用語をより正確に認識でき、その結果として、要因抽出の精度の向上を図ることができる。

0045

なお、上述した実施形態では、要因抽出の一環として、形態素列における形態素の並び方と、要因パターンにおける要素の並び方とのマッチングを行う例について説明したが、本発明はこれに限定されるものではなく、形態素同士の係り受けのパターンに基づいて同様の処理を行ってもよい。この場合、要因パターンとしては、事象および要因を含む要素同士の係り受けのパターンとして定義される。

0046

図7は、係り受け解析における要因抽出例の説明図である。解析対象となる例文を形態素解析した結果が「国内」「の」「販売」「が」「好調」「に」「推移」「した」「こと」「から」「、」「増収」「となり」「まし」「た」である場合、まず、形態素がラベリングされる。例えば、「国内」がセグメント、「増収」が科目+増減、「、」「まし」「た」などは無視といった如くである。つぎに、起点となる「となり」から伸びているグループに分割される。例えば、(1)「国内の販売が」はセグメントに含まれている、(2)「好調に推移したことから」は、何のラベルも付いてない形態素で構成されているので要因である可能性が高い、(3)「、」は無視のみ、(4)「増収」は科目+増減が含まれている、(5)「まし」は無視のみ、(6)「た」も無視のみ、といった如くである。最後に、無視を除いて整理することにより、科目+増減として「増収」が、要因として「好調に推移したことから」が抽出される。

0047

1決済分析システム
2 データ前処理部
3文書解析部
4レポート作成部
5形態素解析部
6ラベリング部
7パターン比較部
8要因抽出部
9形態素解析辞書
10 ラベリング辞書
11パターン記憶部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

新着 最近 公開された関連が強い 技術

この 技術と関連性が強い 技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する挑戦したい社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ