図面 (/)

技術 エンティティワードの認識方法と装置

出願人 ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド
発明者 シ,ヤビンリ,シャンジジャン,イェチャン,ヤンジュ,ヨン
出願日 2021年2月16日 (10ヶ月経過) 出願番号 2021-022635
公開日 2021年9月9日 (3ヶ月経過) 公開番号 2021-131858
状態 未査定
技術分野
  • -
主要キーワード 専門用語集 ウェアラブルデバイス 訓練モジュール サンプル文 マッチング操作 キー信号入力 低速インターフェース 候補サンプル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2021年9月9日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

人工知能における情報処理技術の分野に関し、エンティティワード認識方法と装置を提供する。

解決手段

方法は、エンティティワードのカテゴリ及び認識対象ドキュメントを取得するステップと、エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、認識対象のドキュメントを分割して、複数の候補文を生成するステップと、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得するステップと、を含む。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。

概要

背景

現在、知識グラフ構築は、あらゆる業界でますます重要視され、例えば、法律制度の知識グラフに法務業界での法的推論などを提供することができ、ここで、知識グラフの構築は、エンティティワードマイニングに依存する。

関連技術において、業界内で蓄積された専門ドキュメントに基づいてエンティティワードをマイニングして、業界内の専門用語集を取得し、キーワードマッチング技術に基づいて専門ドキュメントから対応するエンティティワードをマイニングする。

しかし、このようなエンティティワードの取得方法は、用語集包括性の度合いに依存する。多くの場合、業界内で蓄積された用語集は非常に限られているため、エンティティワードのリコール率が低い。

概要

人工知能における情報処理技術の分野に関し、エンティティワードの認識方法と装置を提供する。方法は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するステップと、エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、認識対象のドキュメントを分割して、複数の候補文を生成するステップと、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得するステップと、を含む。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。

目的

現在、知識グラフの構築は、あらゆる業界でますます重要視され、例えば、法律制度の知識グラフに法務業界での法的推論などを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

エンティティワード認識方法であって、エンティティワードのカテゴリ及び認識対象ドキュメントを取得するステップと、前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、前記認識対象のドキュメントを分割して、複数の候補文を生成するステップと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップと、を含む、ことを特徴とするエンティティワードの認識方法。

請求項2

前記エンティティワード質問及び前記複数の候補文を予め構築された問答モデルに入力するステップの前に、サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するステップと、前記サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するステップと、前記エンティティワード質問及び前記複数の候補サンプル文を初期問答モデルに入力するステップと、前記初期問答モデルの埋め込み層を制御して、前記サンプルエンティティワード質問の第1の特徴及び前記複数のサンプル文の第2の特徴を抽出するステップと、前記第1の特徴と前記第2の特徴とを結合してサンプル特徴を生成するステップと、前記サンプル特徴を前記初期問答モデルのモデル層に入力して、前記モデル層から出力されたサンプルエンティティワードを取得するステップと、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内ターゲットエンティティワードと一致するか否かを判断するステップと、一致しない場合、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、前記初期問答モデルのモデルパラメータを調整し続けるステップと、を含む、ことを特徴とする請求項1に記載の方法。

請求項3

前記モデル層は、複数層復号ユニットを含み、各層の復号ユニットの復号サブユニットの数は前記サンプル特徴に対応する長さと一致し、前記各層の復号ユニットの復号サブユニットは互いに接続されておらず、前記複数層の復号ユニットにおいて、各層の各々の復号サブユニットは、前の層の全ての復号サブユニットに接続され、前記サンプル特徴を前記初期問答モデルのモデル層に入力するステップは、前記サンプル特徴における各サブ特徴を対応する位置の第1層の復号ユニットのサブユニットに入力するステップと、前記モデル層の最後の層の復号ユニットに対応する位置から出力されたエンティティワード復号結果を取得するステップと、を含む、ことを特徴とする請求項2に記載の方法。

請求項4

前記エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、前記各エンティティワードの意味のスムーズさを取得するステップと、前記エンティティワード集合から、前記意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするステップと、フィルタリング後の前記エンティティワード集合をユーザに提供するステップと、をさらに含む、ことを特徴とする請求項1に記載の方法。

請求項5

前記エンティティワード集合内の各々のエンティティワードの長さを取得するステップと、前記エンティティワード集合から、前記長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするステップと、フィルタリング後の前記エンティティワード集合をユーザに提供するステップと、をさらに含む、ことを特徴とする請求項1に記載の方法。

請求項6

前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップは、前記問答モデルから出力された、前記複数の後続の文に対応するタグ付けされた文を認識するステップと、前記タグ付けされた文内の開始識別子及び終了識別子を認識するステップと、前記開始識別と、隣接する終了識別との間のエンティティワードを抽出して、前記エンティティワード集合を生成するステップと、を含む、ことを特徴とする請求項1に記載の方法。

請求項7

エンティティワード認識装置であって、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第1の取得モジュールと、前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するための第1の生成モジュールと、前記認識対象のドキュメントを分割して、複数の候補文を生成するための第2の生成モジュールと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するための第2の取得モジュールと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するための第3の取得モジュールと、を含む、ことを特徴とするエンティティワード認識装置。

請求項8

サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するための第4の取得モジュールと、前記サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するための第5の取得モジュールと、前記エンティティワード質問及び前記複数の候補サンプル文を初期問答モデルに入力するための入力モジュールと、前記初期問答モデルの埋め込み層を制御して、前記サンプルエンティティワード質問の第1の特徴及び前記複数のサンプル文の第2の特徴を抽出するための抽出モジュールと、前記第1の特徴と前記第2の特徴とを結合してサンプル特徴を生成するための結合モジュールと、前記サンプル特徴を前記初期問答モデルのモデル層に入力して、前記モデル層から出力されたサンプルエンティティワードを取得するための第6の取得モジュールと、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するための判断モジュールと、一致しない場合、前記サンプルエンティティワードが、タグ付けされた前記サンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、前記初期問答モデルのモデルパラメータを調整し続けるための訓練モジュールと、をさらに含む、ことを特徴とする請求項7に記載の装置。

請求項9

前記エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、前記各エンティティワードの意味のスムーズさを取得するための第7の取得モジュールと、前記エンティティワード集合から、前記意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするための第1のフィルタリングモジュールと、フィルタリング後の前記エンティティワード集合をユーザに提供するための第1の提供モジュールと、をさらに含む、ことを特徴とする請求項7に記載の装置。

請求項10

前記エンティティワード集合内の各々のエンティティワードの長さを取得するための第8の取得モジュールと、前記エンティティワード集合から、前記長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするための第2のフィルタリングモジュールと、フィルタリング後の前記エンティティワード集合をユーザに提供するための第2の提供モジュールと、をさらに含む、ことを特徴とする請求項7に記載の装置。

請求項11

電子機器であって、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、ここで、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1〜6のいずれか1項に記載の方法を実行できる、ことを特徴とする電子機器。

請求項12

コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1〜6のいずれか1項に記載の方法を実行させるために用いられる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。

請求項13

コンピュータ上で動作しているときに、請求項1〜6のいずれか1項に記載の方法を前記コンピュータに実行させる、ことを特徴とするコンピュータプログラム

技術分野

0001

本出願は、人工知能技術における情報処理技術の分野に関し、特に、エンティティワード認識方法と装置に関する。

背景技術

0002

現在、知識グラフ構築は、あらゆる業界でますます重要視され、例えば、法律制度の知識グラフに法務業界での法的推論などを提供することができ、ここで、知識グラフの構築は、エンティティワードのマイニングに依存する。

0003

関連技術において、業界内で蓄積された専門ドキュメントに基づいてエンティティワードをマイニングして、業界内の専門用語集を取得し、キーワードマッチング技術に基づいて専門ドキュメントから対応するエンティティワードをマイニングする。

0004

しかし、このようなエンティティワードの取得方法は、用語集包括性の度合いに依存する。多くの場合、業界内で蓄積された用語集は非常に限られているため、エンティティワードのリコール率が低い。

発明が解決しようとする課題

0005

本出願の第1の目的は、エンティティワードの認識方法を提供することである。

0006

本出願の第2の目的は、エンティティワード認識装置を提供することである。

0007

本出願の第3の目的は、電子機器を提供することである。

0008

本出願の第4の目的は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。

0009

本出願の第5の目的は、コンピュータプログラムを提供することである。

課題を解決するための手段

0010

上記目的を達成するために、本出願の第1態様の実施例は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するステップと、前記エンティティワードのカテゴリに基づいてエンティティワード質問を生成するステップと、前記認識対象のドキュメントを分割して、複数の候補文を生成するステップと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するステップと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するステップと、を含むエンティティワード認識方法を提供する。

0011

上記目的を達成するために、本出願の第2態様の実施例は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第1の取得モジュールと、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するための第1の生成モジュールと、前記認識対象のドキュメントを分割して、複数の候補文を生成するための第2の生成モジュールと、前記エンティティワード質問及び前記複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するための第2の取得モジュールと、前記エンティティワードの認識結果に基づいて前記エンティティワード質問に対応するエンティティワード集合を取得するための第3の取得モジュールと、を含むエンティティワード認識装置を提供する。

0012

上記目的を達成するために、本出願の第3態様の実施例は、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含む電子機器を提供し、ここで、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記の実施例に記載のエンティティワードの認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。

0013

上記目的を達成するために、本出願の第4の態様の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに上記の実施例に記載のエンティティワードの認識方法を実行させるために用いられる。

0014

上記目的を達成するために、本出願の第5の態様の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムは、前記コンピュータに上記の実施例に記載のエンティティワードの認識方法を実行させるために用いられる。

発明の効果

0015

上記出願の一実施例は、次のような利点と有益な効果を有する。

0016

エンティティワードのカテゴリ及び認識対象のドキュメントを取得し、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、さらに、認識対象のドキュメントを分割して、複数の候補文を生成し、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得し、最後に、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。

0017

上記の選択可能な方法が有する他の効果を、以下で具体的な実施例を参照しながら説明する。

図面の簡単な説明

0018

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本出願の第1実施例に係るエンティティワードを認識するシーンの模式図である。
本出願の第2実施例に係るエンティティワードの認識方法のフローチャートである。
本出願の第3実施例による問答モデルの構造模式図である。
本出願の第5実施例に係るエンティティワード認識装置の構造模式図である。
本出願の第6実施例に係るエンティティワード認識装置の構造模式図である。
本出願の第7実施例に係るエンティティワード認識装置の構造模式図である。
本出願の第8実施例に係るエンティティワード認識装置の構造模式図である。
本出願の実施例に係るエンティティワードの認識方法を実現するための電子機器のブロック図である。

実施例

0019

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

0020

以下、図面を参照しながら、本出願の実施例のエンティティワードの認識方法と装置について説明する。ここで、本実施例に言及されるエンティティワードは、法律業界の「申し込み」などのような各業界の専門用語である。

0021

関連技術で言及されたエンティティワードのリコール率が高くないという問題を解決するために、本出願は、自動化に基づく業界エンティティを認識する方法を提供した。問答技術を利用して、高拡張性低コストの業界エンティティワードの認識方法を実現し、それにより、知識グラフの大規模構築、インテリジェントな問答、エンティティ検索などの上位アプリケーションサポートし、例えば、図1に示すように、ユーザが入力した検索文が「信用カードタイプ」である場合、対応するエンティティワードをユーザに提供できる。

0022

具体的に言えば、図2は、本出願の一実施例に係るエンティティワードの認識方法のフローチャートであり、図2に示すように、当該方法は、ステップ101〜ステップ105を含む。

0023

ステップ101、エンティティワードのカテゴリ及び認識対象のドキュメントを取得する。

0024

ここで、エンティティワードのカテゴリとは、取得対象のエンティティワードが属する技術分野などを言い、例えば、当該エンティティワードのカテゴリは、法律、経済医療などであり得る。また、認識対象のドキュメントは、通常、対応する分野でリコール対象のエンティティワードの専門ドキュメントである。

0025

なお、異なる分野で、エンティティワードのカテゴリの取得方法も異なり、実現可能な一方法として、ユーザにエンティティワードのカテゴリの選択インターフェースを提供し、ユーザがインターフェース上で選択したタグに基づいて、所属のエンティティワードのカテゴリを決定する。

0026

実現可能な別の方法として、認識対象のドキュメントに含まれている内容に基づいて、認識対象のドキュメントのテーマを決定し、テーマ内容に基づいてエンティティワードのカテゴリを決定することができる。

0027

ステップ102、エンティティワードのカテゴリに基づいてエンティティワード質問を生成する。

0028

本出願の実施例では、エンティティワードのカテゴリの一般化特徴をマイニングするため、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、例えば、エンティティワードのカテゴリが「人物」である場合、それを「文中で言及された人は誰ですか」というエンティティワード質問などに処理することができる。

0029

当然ながら、異なるシーンにおいて、エンティティワードのカテゴリに基づいてエンティティワード質問を生成する方法も異なり、実現可能な一方法として、学習モデルを予め訓練し、当該モデルは、入力がエンティティワードのカテゴリで、出力がエンティティワード質問である。実現可能な別の方法として、対応するエンティティワードのカテゴリが属する分野で、エンティティワードのカテゴリと最も一般的に使用される問題との対応関係を予め構築し、当該対応関係に基づいて、対応するエンティティワード質問を決定する。

0030

ステップ103、認識対象のドキュメントを分割して、複数の候補文を生成する。

0031

エンティティワード質問とのマッチングを容易にするため、本実施例では、認識対象のドキュメントを分割し、例えば、改行記号などの句読点及び意味分析などにしたがって、各々の文を生成して、複数の候補文を取得し、候補文の長さは、後続の処理とマッチング操作を容易にする長さである。

0032

ステップ104、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得する。

0033

問答モデルを予め訓練し、当該問答モデルは、入力されたエンティティワード質問及び複数の候補文に基づいて、対応するエンティティワード質問にマッチングする回答候補文を認識することができ、当該回答文に、対応するエンティティワードをタグ付けすることを理解するであろう。

0034

具体的には、初期問答モデルを予め構築し、ここで、図3に示すように、構築した問答モデルは4層を含む。第1層は入力層で、エンティティワード質問及び対応する候補文のシーケンスを入力するために用いられ、ここで、入力する際に、モデルの認識を容易にするため、開始にCLSを使用し、候補文間はSEPによって接続され、これにより、エンティティワード質問及び対応する全ての候補文を入力することができ、当然ながら、エンティティワード質問及び対応する1つ又はいくつかの候補問題を入力することもでき、認識効率を向上させるため、エンティティワード質問と明らかに関連のない候補文を予め排除することもでき(意味認識などの技術に基づいて排除でき)、続いて図1に示す例を用い、認識対象のドキュメントが銀行業界のドキュメントであり、エンティティワード質問は「信用カード」である場合、入力層に入力されたのは、「CLS信用カードSEP広発携程提携カード事業紹介」であり得る。

0035

問答モデルの第2層は埋め込み層であり、当該層は図中のembedding layersに対応し、主に入力されたシーケンスの特徴を抽出するために用いられ、例えば、以下の3種類の方法を使用して抽出することができる。第1種類は、単語埋め込みであり、予め構築された単語集によって、入力された単語シーケンス内の単語を、単語のID情報などのような対応する単語識別情報転換し、さらに、埋め込み技術によって、転換されたIDを低次元ベクトル圧縮する。第2種類、位置埋め込みであり、各単語の入力シーケンスにおける位置情報を、埋め込み技術によって低次元ベクトルに圧縮する。第3種類、段落フラグメント埋め込みであり、この特徴を使用して候補文がドキュメントのどの段落にあるかを特徴付け、ここで、図中のEAは第1段落に出現したことを表し、EBは第2段落に出現したことを表し、埋め込み層はこの3種類のベクトル特徴を組み合わせてから、第3層のモデル層に入力してもよい。

0036

問答モデルの第3層モデル層は図中のmodeling layersに対応し、当該層は、主にtransformerユニットで構成される。モデル層には複数層のtransformerユニットがあってもよく、各層の各transformerユニットは、1つの入力中のユニットに対応し、つまり、入力層、埋め込み層、モデル層のシーケンスの長さは全部一致すべきである。同じ層内のtransformerユニットは互いに接続されておらず、異なる層間のtransformerユニットは、2つずつ接続する(美観要因考量して、図に2つの層を展示し、また、第1層のT0と上層tranformerとの接続状況のみを展示した)。

0037

問答モデルの4層は出力層であり、出力層は、2つのポインター開始ポインターSTART及び終了ポインターENDで入力候補文のエンティティワードの境界識別する)によるポインターネットワークである。

0038

問答モデルの訓練中に、各分野における大量のサンプルエンティティワード質問及びサンプル認識ドキュメントを取得し、サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得し、さらに、エンティティワード質問及び複数の候補サンプル文を初期問答モデルに入力する。

0039

初期問答モデルの埋め込み層を制御して、サンプルエンティティワード質問の第1の特徴及び複数のサンプル文の第2の特徴を抽出し、ここで、第1の特徴は、上記識別IDなどとして理解でき、第2の特徴は、上記ID及び位置情報が転換された特徴ベクトルなどとして理解できる。

0040

さらに、第1の特徴と第2の特徴とを結合してサンプル特徴を生成し、サンプル特徴を初期問答モデルのモデル層に入力して、モデル層によって出力されたサンプルエンティティワードを取得する。

0041

サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内ターゲットエンティティワードと一致するか否かを判断し、一致すれば、モデル訓練が完了したことが示され、一致しなければ、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、初期問答モデルのモデルパラメータを調整し続ける。

0042

ここで、上記実施例に記載のように、モデル層は、複数層の復号ユニットを含み、各層の復号ユニットの復号サブユニットの数はサンプル特徴に対応する長さと一致し、各層の復号ユニットの復号サブユニットは互いに接続されておらず、複数層の復号ユニットにおいて、各層の各々の復号サブユニットは前の層の全ての復号サブユニットに接続され、それにより、実際の訓練中に、サンプル特徴における各々のサブ特徴を対応する位置の第1層の復号ユニットのサブユニットに入力し、即ち、対応する位置でのサブユニットに、対応する位置のサブ特徴を順番に入力して、モデル層の最後の層の復号ユニットに対応する位置から出力されたエンティティワード復号結果を取得する。

0043

ステップ105、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。

0044

具体的には、エンティティワードの認識結果を取得した後、エンティティワード質問に対応するエンティティワード集合を取得する。

0045

実現可能な一方法として、エンティティワードの認識結果は、候補文内のエンティティワード及び対応する確率を含み、本実施例では、確率値の大きさに基づいて、確率値が所定の閾値より大きいエンティティワードを、エンティティワード集合内のエンティティワードとして決定できる。

0046

実現可能な別の方法として、上記に言及したように、エンティティワードの認識結果は、タグ付けされた候補文を含み、問答モデルによって出力された、複数の後続の文に対応するタグ付けされた文を認識し、さらに、タグ付けされた文内の開始識別子及び終了識別子を認識し、開始識別と、隣接する終了識別との間のエンティティワードを抽出して、エンティティワード集合を生成する。

0047

エンティティワードを取得した後、正確ではないエンティティワードがある可能性もあるため、エンティティワードの取得精度を確保するために、取得したエンティティワードに対して後処理検証を行ってもよい。

0048

実現可能な一方法として、エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、各エンティティワードの意味のスムーズさ、例えば、依存などの構文情報検証を提供して、意味の依存関係乱れていれば、意味のスムーズさが低いと決定し、エンティティワード集合から、意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングし、さらに、フィルタリング後のエンティティワード集合をユーザに提供する。

0049

実現可能な別の方法として、エンティティワード集合内の各々のエンティティワードの長さを取得し、エンティティワード集合から、長さが所定の長さ範囲に属さないエンティティワードをフィルタリングし、さらに、フィルタリング後のエンティティワード集合をユーザに提供する。ここで、所定の長さ範囲は、長すぎるまたは短すぎるエンティティワードをフィルタリングするために用いられ、当該範囲は、エンティティワードのカテゴリに基づいて決定できる。

0050

なお、上記の2種類の例示の検証処理方法を、単独で実行してもよいし、組み合わせて実行してもよく、ここでは限定しない。

0051

これにより、本出願の実施例のエンティティワードの認識方法は、一方で、汎用性が強く、予め訓練されたモデルによって予備訓練段階幅広テキスト特徴を学習できることを保証し、それにより強い汎用性を有する。他方で、リコール率が高い場合、深層学習による問答モデルは、訓練サンプル転移学習の追加などの方法により、良好な精度とリコール率を取得できる。また一方で、単語集などを手動で作成する必要がなく、訓練サンプルを追加するだけで、モデル効果を最適化することができる。

0052

要約すると、本出願の実施例のエンティティワードの認識方法では、エンティティワードのカテゴリ及び認識対象のドキュメントを取得し、エンティティワードのカテゴリに基づいてエンティティワード質問を生成し、さらに、認識対象のドキュメントを分割して、複数の候補文を生成し、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得し、最後に、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得する。これにより、適用範囲が広いエンティティワードの認識方法を実現し、エンティティワードのリコール率及びエンティティワード認識のインテリジェント化を向上させる。

0053

本出願は、上記実施例を実現するために、エンティティワード認識装置をさらいに提供し、図5は、本出願の一実施例に係るエンティティワード認識装置の構造模式図であり、図5に示すように、当該エンティティワード認識装置は、第1の取得モジュール10、第1の生成モジュール20、第2の生成モジュール30、第2の取得モジュール40及び第3の取得モジュール50を含む。

0054

第1の取得モジュール10は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するために用いられる。

0055

第1の生成モジュール20は、エンティティワードのカテゴリ及び認識対象のドキュメントを取得するために用いられる。

0056

第2の生成モジュール30は、認識対象のドキュメントを分割して、複数の候補文を生成するために用いられる。

0057

第2の取得モジュール40は、エンティティワード質問及び複数の候補文を予め訓練された問答モデルに入力して、エンティティワードの認識結果を取得するために用いられる

0058

第3の取得モジュール50は、エンティティワードの認識結果に基づいてエンティティワード質問に対応するエンティティワード集合を取得するために用いられる。

0059

本出願の一実施例では、図6に示すように、当該装置は、第4の取得モジュール60、第5の取得モジュール70、入力モジュール80、抽出モジュール90、結合モジュール100、第6の取得モジュール110、判断モジュール120及び訓練モジュール130をさらに含む。

0060

第4の取得モジュール60は、サンプルエンティティワード質問及びサンプル認識ドキュメントを取得するために用いられる。

0061

第5の取得モジュール70は、サンプル認識ドキュメントに対して分割処理を行って、複数の候補サンプル文を取得するために用いられる。

0062

入力モジュール80は、エンティティワード質問及び複数の候補サンプル文を初期問答モデルに入力するために用いられる。

0063

抽出モジュール90は、初期問答モデルの埋め込み層を制御して、サンプルエンティティワード質問の第1の特徴及び複数のサンプル文の第2の特徴を抽出するために用いられる。

0064

結合モジュール100は、第1の特徴と第2の特徴とを結合してサンプル特徴を生成するために用いられる。

0065

第6の取得モジュール110は、サンプル特徴を初期問答モデルのモデル層に入力して、モデル層から出力されたサンプルエンティティワードを取得するために用いられる。

0066

判断モジュール120は、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するか否かを判断するために用いられる。

0067

訓練モジュール130は、一致しない場合、サンプルエンティティワードが、タグ付けされたサンプル認識ドキュメント内のターゲットエンティティワードと一致するまで、初期問答モデルのモデルパラメータを調整し続ける。

0068

本出願の一実施例において、図7に示すように、図5に示すものに加えて、当該装置は、第7の取得モジュール140、第1のフィルタリングモジュール150及び第1の提供モジュール160をさらに含む。

0069

第7の取得モジュール140は、エンティティワード集合内の各々のエンティティワードに対して意味分析を行って、エンティティワード毎の意味のスムーズさを取得するために用いられる。

0070

第1のフィルタリングモジュール150は、エンティティワード集合から、意味のスムーズさが所定の閾値より小さいエンティティワードをフィルタリングするために用いられる。

0071

第1の提供モジュール160は、フィルタリング後のエンティティワード集合をユーザに提供するために用いられる。

0072

本出願の一実施例において、図8に示すように、図5に示すものに加えて、当該装置は、第8の取得モジュール170、第2のフィルタリングモジュール180及び第2の提供モジュール190をさらに含む。

0073

第8の取得モジュール170は、エンティティワード集合内の各々のエンティティワードの長さを取得するために用いられる。

0074

第2のフィルタリングモジュール180は、エンティティワード集合から、長さが所定の長さ範囲に属さないエンティティワードをフィルタリングするために用いられる。

0075

第2の提供モジュール190は、フィルタリング後のエンティティワード集合をユーザに提供するために用いられる。

0076

なお、前述のエンティティワードの認識方法に対する解釈と説明は、本発明の実施例のエンティティワード認識装置にも適用でき、その実現原理は類似するため、ここでは詳細な説明を省略する。

0077

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。

0078

図9に示すように、本出願の実施例のエンティティワードの認識方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータデスクトップコンピュータワークステーションパーソナルデジタルアシスタントサーバブレードサーバメインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ携帯電話スマートフォンウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。

0079

図9に示すように、当該電子機器は、1つ又は複数のプロセッサ501と、メモリ502と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力出力装置(例えば、インターフェースに結合されたディスプレイデバイスなど)にGUI図形情報ディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図9では、1つのプロセッサ501を例とする。

0080

メモリ502は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。その中で、前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記少なくとも1つのプロセッサが本出願により提供されるエンティティワードの認識方法を実行するようにする。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供されるエンティティワードの認識方法を実行させるためのコンピュータ命令が記憶されている。

0081

メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例におけるエンティティワードの認識方法に対応するプログラム命令モジュール(例如、図5に示す第1の取得モジュール10、第1の生成モジュール20、第2の生成モジュール30、第2の取得モジュール40及び第3の取得モジュール50)のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例におけるエンティティワードの認識方法を実現する。

0082

メモリ502は、ストレージプログラムエリアストレージデータエリアとを含むことができ、その中で、ストレージプログラムエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータエリアは、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも1つの磁気ディスクストレージデバイスフラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設定されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して電子機器に接続されることができる。上記のネットワークの例は、インターネットイントラネットローカルエリアネットワークモバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

0083

エンティティワード認識方法を実行する電子機器電子機器は、入力装置503と出力装置504とをさらに含んでもよい。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、図9では、バスを介して接続することを例とする。

0084

入力装置503は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーンキーパッドマウストラックパッドタッチパッドポインティングスティック、1つ又は複数のマウスボタントラックボールジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明装置(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。

0085

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム特定用途向けASIC特定用途向け集積回路)、コンピュータハードウェアファームウェアソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。

0086

これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指プログラミング言語、及び/又はアセンブリ機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイスPLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」の用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

0087

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。

0088

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワークWAN)と、インターネットとを含む。

0089

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント−サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。

0090

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定しない。

0091

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

この 技術と関連性が強い技術

該当するデータがありません

この 技術と関連性が強い法人

該当するデータがありません

この 技術と関連性が強い人物

該当するデータがありません

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ