図面 (/)

技術 人工知能に基づく三元組チェック方法、装置及びコンピュータプログラム

出願人 バイドゥオンラインネットワークテクノロジー(ベイジン)カンパニーリミテッド
発明者 ユ、ミアオヤン、レンカイゼン、ジエペンユアン、ペンチェンリウ、シアオボ
出願日 2018年12月27日 (2年0ヶ月経過) 出願番号 2018-244583
公開日 2019年10月3日 (1年3ヶ月経過) 公開番号 2019-169126
状態 特許登録済
技術分野 検索装置
主要キーワード 確信値 評価標準 分離部品 捜索結果 スマート機器 ソースサイト コンピュータ設備 携帯式コンピュータ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2019年10月3日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (5)

課題

人工知能に基づく三元チェック方法及び装置及記憶媒体を提供する。

解決手段

方法は、チェック待ちの三元組に基づいて捜索queryを生成すること、queryに対応する捜索結果Webページを取得すること、捜索結果Webページに基づいて三元組の確信度スコア確定すること及び確信度スコアに基づいて三元組が正しい三元組であるかを確定することを含む。

概要

背景

人工知能(Artificial Intelligence)の英語略語AIであり、それは、人間の知能模擬延伸及び拡張するための理論、方法、技術及び応用システムを研究、開発する新たな技術科学である。人工知能はコンピュータ科学領域の1つ分岐であり、知能の本質を了解することを意図し、人間の知能に似ている方式で反応できる新たなスマート機器を製造し、該分野における研究は、ロボット言語識別画像識別自然言語処理及びエキスパートシステム等を含む。

精確な応答とは、自然結果である表現形態と異なり、直接に精確にユーザの捜索必要を満足する製品である。精確応答類の製品において、構造化主語述語目的語(SPO,Subject Predicate Object)三元組の正確性を保証することは、精確応答類の製品の基本的な要求であり、同時に、ユーザの捜索必要を満足し、ユーザの体験を向上する基礎である。

SPO三元組は、知識マップにおける構造化データの基本的な要素であり、例えば、1つのSPO三元組において、S=劉*華、P=、O=*倩である。

正しいSPO三元組を取得するために、従来技術において常に以下の処理方式を採用する。
1)高品質Webサイトから正しいSPO三元組を抽出する。
2)人工照合標注に基づいて正しいSPO三元組を提供する。

上記2つの種類の方式は、小規模のデータに適用することができるが、情報抽取(IE,Information Extraction)技術の徐々に繰り返して成熟に従って、SPO三元組データは、前例のない拡張して来るが、大規模のSPO三元組データは、制限される高品質Webサイト及び人工照合標注の不可持続性によって、統一、効率的なチェックができなく、知識マップの更なる拡大のボトルネックとなる。

概要

人工知能に基づく三元組チェック方法及び装置及記憶媒体を提供する。方法は、チェック待ちの三元組に基づいて捜索queryを生成すること、queryに対応する捜索結果Webページを取得すること、捜索結果Webページに基づいて三元組の確信度スコア確定すること及び確信度スコアに基づいて三元組が正しい三元組であるかを確定することを含む。

目的

本発明は、人工知能に基づく三元組チェック方法、装置及び記憶媒体を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

人工知能に基づく三元チェック方法であって、チェック待ちの三元組に基づいて捜索queryを生成すること、前記queryに対応する捜索結果Webページを取得すること、前記捜索結果Webページに基づいて前記三元組の確信度スコア確定すること、前記確信度スコアに基づいて前記三元組が正しい三元組であるかを確定すること、を含む三元組チェック方法。

請求項2

前記捜索結果Webページに基づいて前記三元組の確信度スコアを確定することは、前記捜索結果Webページから要求に合致するM(Mが1より大きい正の整数である)個のWebページを選出し、選出されたWebページを処理待ちWebページとすること、処理待ちWebページ毎に、前記処理待ちWebページに前記三元組の情報が含まれば、前記処理待ちWebページに関するN(Nが正の整数である)個の所定パラメータ値をそれぞれに取得し、前記N個の所定パラメータ値に基づいて前記処理待ちWebページの品質スコアを確定し、前記処理待ちWebページには前記三元組の情報が含まなければ、ゼロを前記処理待ちWebページの品質スコアとし、各処理待ちWebページの品質スコアに基づいて前記三元組の確信度スコアを確定すること、を含む請求項1に記載の三元組チェック方法。

請求項3

前記要求に合致するM個のWebページは、前記捜索結果Webページにおける上からM個までのWebページを含み、前記捜索結果Webページから要求に合致するM個のWebページを選出した後に、更に、選出された要求に合致するM個のWebページに対して、重複除去処理を含む前処理を行い、前処理されたWebページを前記処理待ちWebページとすることを含む請求項2に記載の三元組チェック方法。

請求項4

前記重複除去処理は、内容が重複するWebページにおけるソースサイト信頼度が最も高いWebページを保留することを含む請求項3に記載の三元組チェック方法。

請求項5

前記N個の所定パラメータ値は、前記処理待ちWebページのソースサイトの信頼度と、前記処理待ちWebページの内容と前記三元組との相関性と、前記処理待ちWebページの内容の信頼度と、を含む請求項2に記載の三元組チェック方法。

請求項6

前記N個の所定パラメータ値に基づいて前記処理待ちWebページの品質スコアを確定することは、前記N個の所定パラメータ値の積を計算し、計算結果を前記処理待ちWebページの品質スコアとすることを含み、前記各処理待ちWebページの品質スコアに基づいて前記三元組の確信度スコアを確定することは、各処理待ちWebページの品質スコアを加算し、加算した結果を前記三元組の確信度スコアとすること、を含む請求項2に記載の三元組チェック方法。

請求項7

前記確信度スコアに基づいて前記三元組が正しい三元組であるかを確定することは、前記確信度スコアを予め設定された第1の閾値と比較すること、前記確信度スコアが前記第1の閾値より大きければ、前記三元組が正しい三元組であると確定すること、を含む請求項1に記載の三元組チェック方法。

請求項8

前記三元組が正しい三元組であると確定したら、品質スコアの大きい順に、各処理待ちWebページを並べ替え、並べ替えた後に上からN′( N′が正の整数である)個までのWebページを選出すること、選出されたN′個のWebページから更に品質スコアが予め設定された第2の閾値より高いWebページを選出し、選出されたWebページを前記三元組のWebページに関するコーパスデータ補足証明とすること、を更に含む請求項2に記載の三元組チェック方法。

請求項9

人工知能に基づく三元組チェック装置であって、生成手段と、取得手段と、スコア手段と、チェック手段とを含み、前記生成手段は、チェック待ちの三元組に基づいて捜索queryを生成することに用いられ、前記取得手段は、前記queryに対応する捜索結果Webページを取得することに用いられ、前記スコア手段は、前記捜索結果Webページに基づいて前記三元組の確信度スコアを確定することに用いられ、前記チェック手段は、前記確信度スコアに基づいて前記三元組が正しい三元組であるかを確定することに用いられる三元組チェック装置。

請求項10

前記スコア手段は、選択サブ手段と処理サブ手段とを含み、前記選択サブ手段は、前記捜索結果Webページから要求に合致するM(Mが1より大きい正の整数である)個のWebページを選出し、選出されたWebページを処理待ちWebページとすることに用いられ、前記処理サブ手段は、前記処理待ちWebページ毎に、前記処理待ちWebページには前記三元組の情報が含まれば、前記処理待ちWebページに関するN(Nが正の整数である)個の所定パラメータ値をそれぞれに取得し、前記N個の所定パラメータ値に基づいて前記処理待ちWebページの品質スコアを確定し、前記処理待ちWebページには前記三元組の情報が含まなければ、ゼロを前記処理待ちWebページの品質スコアとし、各処理待ちWebページの品質スコアに基づいて前記三元組の確信度スコアを確定することに用いられる請求項9に記載の三元組チェック装置。

請求項11

前記要求に合致するM個のWebページは、前記捜索結果Webページにおける上からM個までのWebページを含み、前記選択サブ手段は、更に、前記捜索結果Webページから要求に合致するM個のWebページを選出した後に、選出された前記要求に合致するM個のWebページに対して重複除去処理を含む前処理を行い、前処理されたWebページを前記処理待ちWebページとすることに用いられる請求項10に記載の三元組チェック装置。

請求項12

前記重複除去処理は、内容が重複するWebページにおけるソースサイトの信頼度が最も高いWebページを保留することを含む請求項11に記載の三元組チェック装置。

請求項13

前記N個の所定パラメータ値は、前記処理待ちWebページのソースサイトの信頼度と、前記処理待ちWebページの内容と前記三元組との相関性と、前記処理待ちWebページの内容の信頼度と、を含む請求項10に記載の三元組チェック装置。

請求項14

前記処理サブ手段は、処理待ちWebページ毎に、前記N個の所定パラメータ値の積をそれぞれに計算し、計算結果を前記処理待ちWebページの品質スコアとし、前記処理サブ手段は、各処理待ちWebページの品質スコアを加算し、加算した結果を前記三元組の確信度スコアとする請求項10に記載の三元組チェック装置。

請求項15

前記チェック手段は、前記確信度スコアを予め設定された第1の閾値と比較し、前記確信度スコアが前記第1の閾値より大きければ、前記三元組が正しい三元組であると確定する請求項9に記載の三元組チェック装置。

請求項16

前記チェック手段は、さらに、前記三元組が正しい三元組であると確定したら、品質スコアの大きい順に、各処理待ちWebページを並べ替え、並べ替えた後に上からN′( N′が正の整数である)個までのWebページを選出し、選出されたN′個のWebページから更に品質スコアが予め設定された第2の閾値より高いWebページを選出し、選出されたWebページを前記三元組のWebページに関するコーパスデータ補足証明とすることに用いられる請求項10に記載の三元組チェック装置。

請求項17

メモリプロセッサ及び前記メモリに記憶され前記プロセッサによって実行されるコンピュータプログラムを含むコンピュータ設備であって、前記プロセッサが前記プログラムを実行する時、請求項1〜8の何れか1項に記載の方法を実現するコンピュータ設備。

請求項18

プロセッサによって実行される時、請求項1〜8の何れか1項に記載の方法を実現するコンピュータプログラム。

技術分野

0001

本発明は、コンピュータ応用技術に関するものであり、特に人工知能に基づく三元チェック方法、装置及記憶媒体に関するものである。

背景技術

0002

人工知能(Artificial Intelligence)の英語略語AIであり、それは、人間の知能模擬延伸及び拡張するための理論、方法、技術及び応用システムを研究、開発する新たな技術科学である。人工知能はコンピュータ科学領域の1つ分岐であり、知能の本質を了解することを意図し、人間の知能に似ている方式で反応できる新たなスマート機器を製造し、該分野における研究は、ロボット言語識別画像識別自然言語処理及びエキスパートシステム等を含む。

0003

精確な応答とは、自然結果である表現形態と異なり、直接に精確にユーザの捜索必要を満足する製品である。精確応答類の製品において、構造化主語述語目的語(SPO,Subject Predicate Object)三元組の正確性を保証することは、精確応答類の製品の基本的な要求であり、同時に、ユーザの捜索必要を満足し、ユーザの体験を向上する基礎である。

0004

SPO三元組は、知識マップにおける構造化データの基本的な要素であり、例えば、1つのSPO三元組において、S=劉*華、P=、O=*倩である。

0005

正しいSPO三元組を取得するために、従来技術において常に以下の処理方式を採用する。
1)高品質Webサイトから正しいSPO三元組を抽出する。
2)人工照合標注に基づいて正しいSPO三元組を提供する。

0006

上記2つの種類の方式は、小規模のデータに適用することができるが、情報抽取(IE,Information Extraction)技術の徐々に繰り返して成熟に従って、SPO三元組データは、前例のない拡張して来るが、大規模のSPO三元組データは、制限される高品質Webサイト及び人工照合標注の不可持続性によって、統一、効率的なチェックができなく、知識マップの更なる拡大のボトルネックとなる。

発明が解決しようとする課題

0007

上記実情に鑑みて、本発明は、人工知能に基づく三元組チェック方法、装置及び記憶媒体を提供する。

0008

具体的な技術案は、以下とおりである。人工知能に基づく三元組チェック方法は、チェック待ちの三元組に基づいて捜索queryを生成すること、前記queryに対応する捜索結果Webページを取得すること、前記捜索結果Webページに基づいて前記三元組の確信度スコア確定すること、前記確信度スコアに基づいて前記三元組が正しい三元組であるかを確定すること、を含む。

0009

本発明の1つの好ましい実施例によると、前記捜索結果Webページに基づいて前記三元組の確信度スコアを確定することは、前記捜索結果Webページから要求に合致するM(Mが1より大きい正の整数である)個のWebページを選出し、選出されたWebページを処理待ちWebページとすること、処理待ちWebページ毎に、前記処理待ちWebページに前記三元組の情報が含まれば、前記処理待ちWebページに関するN(Nが正の整数である)個の所定パラメータ値をそれぞれに取得し、前記N個の所定パラメータ値に基づいて前記処理待ちWebページの品質スコアを確定し、前記処理待ちWebページには前記三元組の情報が含まなければ、ゼロを前記処理待ちWebページの品質スコアとし、各処理待ちWebページの品質スコアに基づいて前記三元組の確信度スコアを確定すること、を含む。

0010

本発明の1つの好ましい実施例によると、前記要求に合致するM個のWebページは、前記捜索結果Webページにおける上からM個までのWebページを含み、前記捜索結果Webページから要求に合致するM個のWebページを選出した後に、更に、選出された要求に合致するM個のWebページに対して、重複除去処理を含む前処理を行い、前処理されたWebページを前記処理待ちWebページとすることを含む。

0011

本発明の1つの好ましい実施例によると、前記重複除去処理は、内容が重複するWebページにおけるソースサイト信頼度が最も高いWebページを保留することを含む。

0012

本発明の1つの好ましい実施例によると、前記N個の所定パラメータ値は、前記処理待ちWebページのソースサイトの信頼度と、前記処理待ちWebページの内容と前記三元組との相関性と、前記処理待ちWebページの内容の信頼度と、を含む。

0013

本発明の1つの好ましい実施例によると、前記N個の所定パラメータ値に基づいて前記処理待ちWebページの品質スコアを確定することは、前記N個の所定パラメータ値の積を計算し、計算結果を前記処理待ちWebページの品質スコアとすることを含み、前記各処理待ちWebページの品質スコアに基づいて前記三元組の確信度スコアを確定することは、各処理待ちWebページの品質スコアを加算し、加算した結果を前記三元組の確信度スコアとすること、を含む。

0014

本発明の1つの好ましい実施例によると、前記確信度スコアに基づいて前記三元組が正しい三元組であるかを確定することは、前記確信度スコアを予め設定された第1の閾値と比較すること、前記確信度スコアが前記第1の閾値より大きければ、前記三元組が正しい三元組であると確定すること、を含む。

0015

本発明の1つの好ましい実施例によると、該方法は、前記三元組が正しい三元組であると確定したら、品質スコアの大きい順に、各処理待ちWebページを並べ替え、並べ替えた後に上からN′( N′が正の整数である)個までのWebページを選出すること、選出されたN′個のWebページから更に品質スコアが予め設定された第2の閾値より高いWebページを選出し、選出されたWebページを前記三元組のWebページに関するコーパスデータ補足証明とすること、を更に含む。

0016

人工知能に基づく三元組チェック装置は、生成手段と、取得手段と、スコア手段と、チェック手段とを含み、前記生成手段は、チェック待ちの三元組に基づいて捜索queryを生成することに用いられ、前記取得手段は、前記queryに対応する捜索結果Webページを取得することに用いられ、前記スコア手段は、前記捜索結果Webページに基づいて前記三元組の確信度スコアを確定することに用いられ、前記チェック手段は、前記確信度スコアに基づいて前記三元組が正しい三元組であるかを確定することに用いられる。

0017

本発明の1つの好ましい実施例によると、前記スコア手段は、選択サブ手段と処理サブ手段とを含み、前記選択サブ手段は、前記捜索結果Webページから要求に合致するM(Mが1より大きい正の整数である)個のWebページを選出し、選出されたWebページを処理待ちWebページとすることに用いられ、前記処理サブ手段は、前記処理待ちWebページ毎に、前記処理待ちWebページには前記三元組の情報が含まれば、前記処理待ちWebページに関するN(Nが正の整数である)個の所定パラメータ値をそれぞれに取得し、前記N個の所定パラメータ値に基づいて前記処理待ちWebページの品質スコアを確定し、前記処理待ちWebページには前記三元組の情報が含まなければ、ゼロを前記処理待ちWebページの品質スコアとし、各処理待ちWebページの品質スコアに基づいて前記三元組の確信度スコアを確定することに用いられる。

0018

本発明の1つの好ましい実施例によると、前記要求に合致するM個のWebページは、前記捜索結果Webページにおける上からM個までのWebページを含み、前記選択サブ手段は、更に、前記捜索結果Webページから要求に合致するM個のWebページを選出した後に、選出された要求に合致するM個のWebページに対して重複除去処理を含む前処理を行い、前処理されたWebページを前記処理待ちWebページとすることに用いられる。

0019

本発明の1つの好ましい実施例によると、前記重複除去処理は、内容が重複するWebページにおけるソースサイトの信頼度が最も高いWebページを保留することを含む。

0020

本発明の1つの好ましい実施例によると、前記N個の所定パラメータ値は、前記処理待ちWebページのソースサイトの信頼度と、前記処理待ちWebページの内容と前記三元組との相関性と、前記処理待ちWebページの内容の信頼度と、を含む。

0021

本発明の1つの好ましい実施例によると、前記処理サブ手段は、処理待ちWebページ毎に、前記N個の所定パラメータ値の積をそれぞれに計算し、計算結果を前記処理待ちWebページの品質スコアとし、前記処理サブ手段は、各処理待ちWebページの品質スコアを加算し、加算した結果を前記三元組の確信度スコアとする。

0022

本発明の1つの好ましい実施例によると、前記チェック手段は、前記確信度スコアを予め設定された第1の閾値と比較し、前記確信度スコアが前記第1の閾値より大きければ、前記三元組が正しい三元組であると確定する。

0023

本発明の1つの好ましい実施例によると、前記チェック手段は、さらに、前記三元組が正しい三元組であると確定したら、品質スコアの大きい順に、各処理待ちWebページを並べ替え、並べ替えた後に上からN′( N′が正の整数である)個までのWebページを選出し、選出されたN′個のWebページから更に品質スコアが予め設定された第2の閾値より高いWebページを選出し、選出されたWebページを前記三元組のWebページに関するコーパスデータ補足証明とすることに用いられる。

0024

メモリプロセッサ及び前記メモリに記憶され前記プロセッサに実行されるコンピュータプログラムを含むコンピュータ設備であって、前記プロセッサが前記プログラムを実行する時、以上のような方法を実現する。

0025

コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体であって、前記プログラムがプロセッサによって実行される時、以上のような方法を実現する。

0026

上記説明から分かるように、本発明の上記技術案によれば、先ずチェック待ちの三元組に基づいて捜索queryを生成し、その後、queryに対応する捜索結果Webページを取得し、捜索結果Webページに基づいて三元組の確信度スコアを確定し、更に確信度スコアに基づいて三元組が正しい三元組であるかを確定する。即ち、本発明に係る技術案において、捜索結果に基づいて三元組に対する効率的なチェックを実現することができ、効率的に三元組の正確性をチェックすることができ、制限される高品質なWebサイトの拘束を避ける同時に、人工照合標注するためにかかる人力及び時間コストを大幅に削減し、知識マップのデータのカバー範囲等を拡大することができる。

図面の簡単な説明

0027

本発明に係る人工知能に基づくSPO三元組チェック方法の第1の実施例のフローチャートである。
本発明に係る人工知能に基づくSPO三元組チェック方法の第2の実施例のフローチャートである。
本発明に係る人工知能に基づくSPO三元組チェック装置の実施例の構成模式図である。
本発明の実施形態を実現することに適する、例示的なコンピュータシステムサーバ12を示すブロック図である。

実施例

0028

従来技術に存在する問題点に対して、本発明において、捜索結果に基づいて効率的に三元組の正確性をチェックすることができる、人工知能に基づく三元組チェック方式を提供する。好ましく、前記三元組はSPO三元組である。

0029

本発明の技術案をより明確で簡潔させるために、以下、SPO三元組を例として、図面を参照して実施例を挙げて、本発明に係る技術案を更に説明する。

0030

明らかに、記載された実施例は、本発明の実施例の一部だけであり、全ての実施例ではない。本発明における実施例に基づいて、当業者創造的な労働をしないことを前提として獲得できる他の実施例は、いずれも本発明の保護範囲に属する。

0031

図1は、本発明に係る人工知能に基づくSPO三元組チェック方法の第1の実施例のフローチャートである。図1に示すように、以下のような具体的な実現方式を含む。101において、チェック待ちのSPO三元組に基づいて捜索queryを生成する。

0032

102において、queryに対応する捜索結果Webページを取得する。

0033

103において、捜索結果Webページに基づいてSPO三元組の確信度スコアを確定する。

0034

104において、確信度スコアに基づいてSPO三元組が正しいSPO三元組であるかを確定する。

0035

何れかの1つのSPO三元組については、それに対してチェックを行う必要がある時、先ず、SPO三元組に基づいて捜索queryを生成し、即ち、オリジナルの未確認のSPO三元組に基づいて捜索語句を構成する。

0036

例えば、S=劉*華、P=妻、O=朱*倩については、query=劉*華妻朱*倩を構成することができる。

0037

上記queryを利用して捜索エンジンにおいて捜索を行い、捜索エンジンによって返信される捜索結果Webページを取得することができる。捜索結果Webページから要求に合致するM個のWebページを選出し、選出されたWebページを処理待ちWebページとし、更に処理待ちWebページに対して後続の処理を行う。Mは、1より大きい正の整数であり、必要に応じて具体的な値がを設定することができる。

0038

例えば、捜索結果WebページにおけるトップMのWebページを選出することができる。且つ、更に選出されたM個のWebページに対して前処理を行い、即ち選出されたM個のWebページに対してフィルタリング及び整理を行い、例えば重複除去処理等を行い、更に前処理されたWebページを処理待ちWebページとすることができる。

0039

そのうち、重複除去処理とは、内容が重複するWebページにおけるソースサイトの信頼度が最も高いWebページを保留することである。例えば、2つのWebページにおける内容が重複すれば、2つのWebページのソースサイトの信頼度を比較して、信頼度が高いソースサイトからのWebページを保留し、即ち高品質WebサイトからのWebページを保留する。

0040

イトの信頼度は、サイトの確信度或いは確信値とも呼ばれ、サイトが信頼できるサイトであるかを反映するためのものである。どのようにサイトの信頼度を取得することは、制限がない。例えば、各サイトに関する各方面の品質を評価することで、それぞれに各サイトの信頼度を生成し保存することができる。このようにして、必要があるとき、直接に保存された何れかのサイトの信頼度を問い合わせることができる。

0041

重複除去処理によって、低品質サイトからのゴシップ情報を互いにコピーすることで、後続の処理結果等を影響することを防止することができる。重複除去処理の以外に、実際の必要に応じて選出されたWebページに対して他の前処理を行うこともでき、例えば不健康な内容を含むWebページ等を除去することができる。

0042

その後、取得された処理待ちWebページに基づいてSPO三元組の確信度スコアを確定することができる。

0043

具体的に、処理待ちWebページ毎に以下のような処理等を行うことができる。即ち、処理待ちWebページにはSPO情報が含まれば、処理待ちWebページに関するN個の所定パラメータ値をそれぞれに取得し、N個の所定パラメータ値に基づいて処理待ちWebページの品質スコアを確定し、Nが正の整数である。処理待ちWebページにはSPO情報が含まなければ、ゼロを処理待ちWebページに関する品質スコアとする。その後、各処理待ちWebページの品質スコアに基づいてSPO三元組の確信度スコアを確定することができる。

0044

処理待ちWebページにはSPO情報を含むことは、常に、処理待ちWebページにはS、P、Oを同時に含み、S、P、Oが連続的でも不連続的でもよいということを指す。

0045

処理待ちWebページにはSPO情報が含まれば、更に処理待ちWebページに関するN個の所定パラメータ値、例えば処理待ちWebページに関するソースサイトの信頼度、処理待ちWebページの内容とSPO三元組との相関性及び処理待ちWebページの内容の信頼度等を取得することができる。

0046

予め設定された評価標準に従って、処理待ちWebページの内容とSPO三元組との相関性を確定/計算することができる。例えば、処理待ちWebページにおいて、SとPがOの先に出現することが、OがSとPの先に出現することと比べて相関性が更に高いと考え、或いは、S、PとOが同一話或いは同一段落に出現することが、異なる段落に出現することと比べて相関性が更に高いと考える。具体的な実現は従来技術である。

0047

また、自然言語処理(NLP,Natural Language Processing)における意味分析技術等によって、処理待ちWebページの内容の信頼度を確定/計算することができる。例えば、内容の文法、用語或いは論理でできるだけ客観、正確であるか等によって、処理待ちWebページの内容の信頼度を確定することができる。同様に、具体的な実現は従来技術である。

0048

N個の所定パラメータ値をそれぞれに取得した後に、N個の所定パラメータ値の積を計算し、計算結果を処理待ちWebページの品質スコアとすることができる。以上のように、処理待ちWebページにはSPO情報が含まなければ、ゼロを処理待ちWebページの品質スコアとすることができる。

0049

各処理待ちWebページの品質スコアをそれぞれに取得した後に、各処理待ちWebページの品質スコアを加算し、加算した結果をSPO三元組の確信度スコアとすることができる。

0050

更に、SPO三元組の確信度スコアを予め設定された第1の閾値と比較して、確信度スコアが第1の閾値より大きければ、SPO三元組が正しいSPO三元組であると確定することができる。第1の閾値の具体的な値は、必要に応じて設定できる。

0051

SPO三元組が正しいSPO三元組であれば、更にSPO三元組のWebページに関するコーパスデータ補足証明を確定することもできる。

0052

具体的に、品質スコアの大きい順に各処理待ちWebページを並べ替え、並べ替えた後にトップN′のWebページを選出することができ、選出されたN′個のWebページから更に品質スコアが予め設定された第2の閾値より高いWebページを選出し、選出されたWebページをSPO三元組のWebページコーパスデータ補足証明とすることができ、ただし、N′が正の整数であり、実際の必要に応じて、その具体的な値を設定できる。同様に、第2の閾値の具体的な値も必要に応じて設定できる。

0053

上記処理は、主に製品の実現という観点から考え、ユーザが精確応答類の製品を使用する時、例えば劉*華の妻を捜索する時、1つの簡単な回答結果だけ返事すれば、ユーザの体験が比較的に悪くなり、従って、実際の応用において、回答結果を表す同時に、選出されたWebページコーパスデータ補足証明とするWebページへのリンクを表すことができ、Webページには回答結果に関する相関内容があることをユーザに教えて、ユーザはクリックして閲覧すること等ができるので、製品の性能を向上することができる。

0054

上記説明に基づいて、図2は、本発明に係る人工知能に基づくSPO三元組チェック方法の第2の実施例のフローチャートである。図2に示すように、以下の具体的な実現方式を含む。

0055

201において、チェック待ちのSPO三元組に基づいて捜索queryを生成する。

0056

例えば、S=杜*濤、P=、O=杜*豪については、query=杜*濤父杜*豪を構成することができる。

0057

202において、queryに対応する捜索結果Webページを取得する。

0058

上記queryを利用して捜索エンジンにおいて捜索を行い、捜索エンジンによって返信される捜索結果Webページを取得することができる。

0059

203において、捜索結果WebページからトップMのWebページを選出し、選出されたWebページに対して前処理を行い、前処理されたWebページを処理待ちWebページとする。

0060

前記前処理は重複除去処理等を含み、重複除去処理とは、内容が重複するWebページにおけるソースサイトの信頼度が最も高いWebページを保留することであってもよい。

0061

204において、処理待ちWebページに基づいてSPO三元組の確信度スコアを確定する。

0062

好ましく、数式(1)に従ってSPO三元組の確信度スコアを計算することができる。

0063

0064

そのうち、iの値が1からQであり、Qが処理待ちWebページの総数を表す。

0065

数式(1)に示すように、処理待ちWebページ毎に、対応する





及び

をそれぞれに取得し、





及び

の積を計算し、各々の積を加算することで、SPO三元組の確信度スコアTCを取得する。

0066

処理待ちWebページ毎については、処理待ちWebページにSPO情報が含まれば、

を1とすることができ、そうでなければ、0とすることができる。例えば、処理待ちWebページには「杜*濤」、「父」及び「杜*豪」という情報が同時に出現すると、

を1とすることができ、そうでなければ、0とすることができる。

0067

は、処理待ちWebページのソースサイトの信頼度を表す。

は、処理待ちWebページの内容とSPO三元組との相関性を表す。

は、処理待ちWebページの内容の信頼度を表す。



及び

の値がいずれも0〜1の間である。

0068

何れかの処理待ちWebページについては、その

が0であると、該処理待ちWebページの



及び

を計算する必要がなく、なずなら、計算結果に関わらず、計算された積はいずれも0であるためである。

0069

注意すべきことは、数式(1)に従って確信度スコアを計算する方式は単に例だけであり、本発明の技術案を制限しなく、実際の応用において、当業者が想到できる他の計算方式を採用してもよく、SPO三元組の確信度を効率的に評価するという目的に達成することができれば良い。

0070

205において、確信度スコアに基づいてSPO三元組が正しいSPO三元組であるかを確定し、正しいSPO三元組であれば、206を実行し、正しいSPO三元組でなければ、フローを終了する。

0071

TCを計算した後に、TCを第1の閾値ECと比較して、TC>ECであれば、SPO三元組が正しいSPO三元組であると判定することができ、即ちSPO三元組がチェックを満足すると確定することができる。

0072

206において、処理待ちWebページからSPO三元組のWebページコーパスデータ補足証明を選出し、フローを終了する。

0073

SPO三元組が正しいSPO三元組であると確定したら、

が1である処理待ちWebページに対して、



及び

の積の大きい順に並べ替えて、並べ替えた後にトップN′のWebページを選出し、選出されたN′個のWebページから更に



及び

の積が予め設定された第2の閾値より大きいWebページを選出し、最終的に選出されたWebページをSPO三元組のWebページコーパスデータ補足証明とし、ただし、N′が正の整数である。

0074

注意すべきことは、前述各方法の実施例に関して、説明を簡単させるために、それを一連の動作の組み合わせとして表現したが、本開示によれば、あるステップが他の順序または同時に行うことができるので、当業者であれば、本開示は記述された動作の順序によって制限されないことを理解すべきことである。そして、明細書に記載された実施例はいずれも好ましい実施例であり、係る操作及びモジュールが、本発明にとっては必ずしも必要とは限らないことが、当業者であれば理解すべきである。

0075

上記実施例において、各実施例に関する説明にはいずれも自分の重点があり、ある実施例において詳述していない部分が、他の実施例にかかる説明を参照できる。

0076

要するに、上記各方法の実施例における技術案を採用して、捜索結果に基づいてSPO三元組についての効率的なチェックを実現することができ、効率的にSPO三元組の正確性をチェックすることができ、制限される高品質なWebサイトの拘束を避ける同時に、大人工照合標注するためにかかる人力及び時間コストを大幅に削減し、知識マップのデータのカバー範囲等を拡大することができる。

0077

以上は方法の実施例に関する説明であり、以下、装置の実施例によって本発明に係る技術案を更に説明する。

0078

図3は、本発明に係る人工知能に基づくSPO三元組チェック装置の実施例の構成模式図である。図3に示すように、生成手段301、取得手段302、スコア手段303及びチェック手段304を含む。

0079

生成手段301は、チェック待ちのSPO三元組に基づいて捜索queryを生成するために用いられる。

0080

取得手段302は、queryに対応する捜索結果Webページを取得するために用いられる。

0081

スコア手段303は、捜索結果Webページに基づいてSPO三元組の確信度スコアを確定するために用いられる。

0082

チェック手段304は、確信度スコアに基づいてSPO三元組が正しいSPO三元組であるかを確定するために用いられる。

0083

何れかの1つのSPO三元組については、それに対してチェックを行う必要がある時、先ず、生成手段301によってSPO三元組に基づいて捜索queryを生成し、即ちオリジナルの未確認のSPO三元組に基づいて捜索語句を構成する。

0084

取得手段302は、上記queryを利用して捜索エンジンにおいて捜索を行い、捜索エンジンによって返信される捜索結果Webページを取得し、更にスコア手段303によって捜索結果Webページに基づいてSPO三元組の確信度スコアを確定する。

0085

図3に示すように、スコア手段303は、具体的に選択サブ手段3031及び処理サブ手段3032を含む。

0086

選択サブ手段3031は、捜索結果Webページから要求に合致するM個のWebページを選出し、選出されたWebページを処理待ちWebページとし、Mが1より大きい正の整数である。例えば、選択サブ手段3031は、捜索結果WebページにおおけるトップMのWebページを選出することができる。また、選択サブ手段3031は、更に選出されたM個のWebページに対して前処理を行い、即ち選出されたM個のWebページに対してフィルタリング及び整理を行い、例えば重複除去処理等を行い、更に前処理されたWebページを処理待ちWebページとすることができる。

0087

そのうち、重複除去処理とは、内容が重複するWebページにおけるソースサイトの信頼度が最も高いWebページを保留することである。

0088

処理サブ手段3032は、処理待ちWebページ毎に、それぞれ以下のような処理等を行うことができる。すなわち、処理待ちWebページにはSPO情報が含まれば、処理待ちWebページのN個の所定パラメータ値をそれぞれに取得し、Nは正の整数であり、N個の所定パラメータ値に基づいて処理待ちWebページの品質スコアを確定することと、処理待ちWebページにはSPO情報が含まなければ、ゼロを処理待ちWebページの品質スコアとすることと、各処理待ちWebページの品質スコアに基づいてSPO三元組の確信度スコアを確定すること、を行う。

0089

そのうち、N個の所定パラメータ値は、処理待ちWebページのソースサイトの信頼度、処理待ちWebページの内容とSPO三元組との相関性、及び処理待ちWebページの内容の信頼度を含む。

0090

また、処理サブ手段3032は、処理待ちWebページ毎に、それぞれにN個の所定パラメータ値の積を計算し、計算結果を処理待ちWebページの品質スコアとする。処理サブ手段3032は、各処理待ちWebページの品質スコアを加算し、加算した結果をSPO三元組の確信度スコアとすることもできる。

0091

SPO三元組の確信度スコアを取得した後、チェック手段304は、確信度スコアを予め設定された第1の閾値と比較して、確信度スコアが第1の閾値より大きければ、SPO三元組が正しいSPO三元組であると確定することができる。

0092

SPO三元組が正しいSPO三元組であれば、チェック手段304は、更にSPO三元組のWebページに関するコーパスデータ補足証明を確定することもできる。

0093

例えば、チェック手段304は、品質スコアの大きい順に各処理待ちWebページを並べ替え、並べ替えた後にトップN′のWebページを選出することができ、選出されたN′個のWebページから更に品質スコアが予め設定された第2の閾値より高いWebページを選出し、最終的に選出されたWebページをSPO三元組のWebページコーパスデータ補足証明とすることができ、N′が正の整数である。

0094

図3に示す装置の実施例における具体的な動作フローは、前述各方法の実施例における対応する説明を参照し、その説明を省略する

0095

以上の各実施例において、SPO三元組を例として説明したが、本発明に係る技術案は、SPO三元組に限定しておらず、正確性のチェック必要がある他の三元組についても、本発明に係る技術案は同様に適用することができる。

0096

図4は、本発明の実施形態を実現することに適する、例示的なコンピュータシステム/サーバ12のブロック図を示す。図4に示したコンピュータシステム/サーバ12が1つの例だけであり、本発明の実施例の機能及び使用範囲を限制するためのものではない。

0097

図4に示すように、コンピュータシステム/サーバ12は、汎用演算設備の形態で表現される。コンピュータシステム/サーバ12の部品には、1つ又は複数のプロセッサ(処理手段)16と、メモリ28と、異なるシステム部品(メモリ28とプロセッサ16とを含む)を接続するためのバス18を含んでいるが、これに限定されない。

0098

バス18は、複数種類バス構成の中の1つ又は複数の種類を示し、メモリバス又はメモリコントローラ周辺バスグラフィック加速ポート、プロセッサ又は複数種類のバス構成での何れかのバス構成を使用したローカルバスを含む。例えば、それらの架構には、工業標準架構(ISA)バス、マイクロチャンネル架構(MAC)バス、増強型ISAバスビデオ電子規格協会(VESA)ローカルバス及び周辺コンポーネント接続(PCI)バスを含んでいるが、これに限定されない。

0099

コンピュータシステム/サーバ12には、典型的には複数の種類のコンピュータシステム読取り可能な媒体を含む。それらの媒体は、コンピュータシステム/サーバ12にアクセスされて使用可能な任意な媒体であり、揮発性の媒体と不揮発性の媒体や移動可能な媒体と移動不可な媒体を含む。

0100

メモリ28には、揮発性メモリ形式のコンピュータシステム読取り可能な媒体、例えばランダムアクセスメモリ(RAM)30及び/又はキャッシュメモリ32を含むことができる。コンピュータシステム/サーバ12には、更に他の移動可能/移動不可なコンピュータシステム記憶媒体や揮発性/不揮発性のコンピュータシステム記憶媒体を含むことができる。例として、記憶システム34は、移動不可能な不揮発性磁媒体を読み書くために用いられる(図4に示していないが、常に「ハードディスクドライブ」とも呼ばれる)。図4に示していないが、移動可能な不揮発性磁気ディスク(例えば「フレキシブルディスク」)に対して読み書きを行うための磁気ディスクドライブ、及び移動可能な不揮発性光ディスク(例えばCD−ROM、DVD−ROM又は他の光媒体)に対して読み書きを行うための光ディスクドライブを提供できる。このような場合に、ドライブは、それぞれ1つ又は複数のデータ媒体インターフェースによってバス18に接続される。メモリ28には少なくとも1つのプログラム製品を含み、該プログラム製品には1組の(例えば少なくとも1つの)プログラムモジュールを含み、それらのプログラムモジュールは、本発明の各実施例の機能を実行するように配置される。

0101

1組の(少なくとも1つの)プログラムモジュール42を含むプログラム/実用ツール40は、例えばメモリ28に記憶され、このようなプログラムモジュール42には、オペレーティングシステム、1つの又は複数のアプリケーションプログラム、他のプログラムモジュール及びプログラムデータを含んでいるが、これに限定しておらず、それらの例示での1つ又はある組み合にはネットワーク環境の実現を含む可能性がある。プログラムモジュール42は、常に本発明に記載されている実施例における機能及び/又は方法を実行する。

0102

コンピュータシステム/サーバ12は、1つ又は複数の周辺設備14(例えば、キーボードポインティングデバイスディスプレイ24等)と通信を行ってもよく、ユーザと該コンピュータシステム/サーバ12とのインタラクティブを実現できる1つ又は複数の設備と通信を行ってもよく、及び/又は該コンピュータシステム/サーバ12と1つ又は複数の他の演算設備との通信を実現できる任意の設備(例えばネットワークカードモデム等)と通信を行っても良い。このような通信は入力/出力(I/O)インターフェース22によって行うことができる。そして、コンピュータシステム/サーバ12は、ネットワークアダプタ20によって1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(LAN)、広域ネットワークWAN)及び/又は公衆回線網、例えばインターネット)と通信を行っても良い。図4に示すように、ネットワークアダプタ20は、バス18によってコンピュータシステム/サーバ12の他のモジュールと通信を行う。図に示していないが、コンピュータシステム/サーバ12と連携して他のハードウェア及び/又はソフトウェアモジュールを使用することができ、マイクロコード、設備ドライブ、冗長処理手段、外部磁気ディスクドライブアレイ、RAIDシステム、磁気テープドライブ及びデータバックアップストレジ等を含むが、これに限定されない。

0103

プロセッサ16は、メモリ28に記憶されているプログラムを実行することで、各々機能応用及びデータ処理を実行し、例えば図1又は2に示す実施例における方法を実現する。

0104

本発明には、コンピュータプログラムが記憶されているコンピュータ読取り可能な記憶媒体を同時に開示し、該プログラムがプロセッサによって実行される時、図1又は2に示すような実施例における方法を実現する。

0105

1つ又は複数のコンピュータ読取り可能な媒体の任意な組合を採用しても良い。コンピュータ読取り可能な媒体は、コンピュータ読取り可能な信号媒体又はコンピュータ読取り可能な記憶媒体である。コンピュータ読取り可能な記憶媒体は、例えば、電気磁気、光、電磁気赤外線、又は半導体のシステム、装置又はデバイス、或いは上記ものの任意な組合であるが、これに限定されない。コンピュータ読取り可能な記憶媒体の更なる具体的な例(網羅していないリスト)には、1つ又は複数のワイヤ具備する電気的な接続、携帯式コンピュータ磁気ディスク、ハードディクス、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュ)、光ファイバー携帯式コンパクト磁気ディスクリードオンリーメモリ(CD−ROM)、光メモリ部材、磁気メモリ部材、又は上記ものの任意で適当な組合を含む。本願において、コンピュータ読取り可能な記憶媒体は、プログラムを含む又は記憶する任意な有形媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスに使用される又はそれらと連携して使用されるができる。

0106

コンピュータ読取り可能な信号媒体には、ベースバンドにおいて伝搬されるデータ信号或いはキャリアの一部として伝搬されるデータ信号を含み、それにコンピュータ読取り可能なプログラムコードが載っている。このような伝搬されるデータ信号について、複数種類の形態を採用でき、電磁気信号光信号又はそれらの任意で適当な組合を含んでいるが、これに限定されない。コンピュータ読取り可能な信号媒体は、コンピュータ読取り可能な記憶媒体以外の任意なコンピュータ読取り可能な媒体であってもよく、該コンピュータ読取り可能な媒体は、命令実行システム、装置又はデバイスによって使用される又はそれと連携して使用されるプログラムを送信、伝搬又は転送できる。

0107

コンピュータ読取り可能な媒体に記憶されたプログラムコードは、任意で適正な媒体によって転送されてもよく、無線電線光ケーブル、RF等、又は上記ものの任意で適当な組合が含されているが、これに限定されない。

0108

1つ又は複数の種類のプログラミング言語又はそれらの組合で、本発明の操作を実行するためのコンピュータプログラムコード編集することができ、前記プログラミング言語には、オブジェクト向けのプログラミング言語、例えばJava(登録商標)、Smalltalk、C++が含まれ、通常のプロシージャ向けプログラミング言語、例えば「C」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全的にユーザコンピュータに実行されてもよく、部分的にユーザコンピュータに実行されてもよく、1つの独立のソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータに実行され且つ部分的に遠隔コンピュータに実行されてもよく、又は完全的に遠隔コンピュータ又はサーバに実行されてもよい。遠隔コンピュータに係る場合に、遠隔コンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、ユーザコンピュータ、又は、外部コンピュータに接続できる(例えば、インターネットサービス事業者を利用してインターネットを介して接続できる)。

0109

本発明に開示されたいくつの実施例で開示された装置および方法などが、他の手段によって実現できることを理解すべきだ。例えば、上述した装置は単に例示に過ぎず、例えば、前記手段の分割は、論理的な機能分割のみであり、実際には、別の方法で分割することもできる。

0110

前記の分離部品として説明された手段が、物理的に分離されてもよく、物理的に分離されなくてもよく、手段として表される部品が、物理手段でもよく、物理手段でなくてもよく、1つの箇所に位置してもよく、又は複数のネットワークセル分布されても良い。実際の必要に基づいて、その中の一部又は全部を選択して、本実施例の態様の目的を実現することできる。

0111

また、本発明の各実施例における各機能手段が1つの処理手段に集積されてもよく、各手段が物理的に独立に存在してもよく、2つ又は2つ以上の手段が1つの手段に集積されても良い。上記集積された手段は、ハードウェアの形式で実現してもよく、ハードウェア+ソフトウェア機能手段の形式で実現しても良い。

0112

上記ソフトウェア機能手段の形式で実現する集積された手段は、1つのコンピュータ読取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能手段は1つの記憶媒体に記憶されており、1台のコンピュータ設備(パソコン、サーバ、又はネットワーク設備等)又はプロセッサ(processor)に本発明の各実施例に記載された方法の一部の手順を実行させるための若干の命令を含む。前述の記憶媒体には、USBメモリリムーバブルハードディスク、リードオンリーメモリ(ROM,Read−Only Memory)、ランダムアクセスメモリ(RAM,Random Access Memory)、磁気ディスク又は光ディスク等の、プログラムコードを記憶できる媒体を含む。

0113

以上は、本発明の好ましい実施例だけであり、本発明を制限するものでなく、本発明の精神および原則の範囲内で行われた変更、同等の置換、改善等は、全て本発明の特許請求の範囲に含めるべきである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ