図面 (/)

技術 特許情報処理装置、特許情報処理方法、プログラム

出願人 株式会社アイ・アール・ディー
発明者 谷川英和太田貴久
出願日 2016年6月2日 (5年4ヶ月経過) 出願番号 2016-110708
公開日 2017年12月7日 (3年10ヶ月経過) 公開番号 2017-215893
状態 拒絶査定
技術分野 検索装置 機械翻訳
主要キーワード 偏差パターン 単位列 拒絶理由通知書 類似度計算結果 特許分類 レーベンシュタイン距離 大括弧 検査単位
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年12月7日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

従来、先の出願と優先権張出願との対応または基礎出願と外国出願との対応を検査し、検査結果を出力できなかった。

解決手段

特許書類に関する情報である1以上の第一特許情報と、1以上の第一特許情報に基づいて作成された特許書類に関する情報である1以上の第二特許情報を受け付ける受付部と、第一特許情報の一部であり、検査の対象である2以上の第一検査単位を1以上の各第一特許情報から取得する第一検査単位取得部と、第二特許情報の一部であり、検査の対象である2以上の第二検査単位を1以上の各第二特許情報から取得する第二検査単位取得部と、2以上の各第一検査単位と2以上の第二検査単位との対応を検査し、検査結果を取得する検査部と、検査部が取得した検査結果を出力する出力部とを具備する特許情報処理装置により、先の出願と優先権主張出願との対応または基礎出願と外国出願との対応を検査し、検査結果を出力できる。

概要

背景

優先権張出願や、ある出願を別の言語に翻訳して外国へ出願するとき等の、ある特許書類基礎として別の特許書類を作成するとき、その基礎となった書類の内容が、作成した特許書類に含まれているかをチェックすることは非常に重要である。もし、基礎となった書類の内容の一部が含まれなかった、もしくは新規に内容を追加してしまった場合、権利範囲が狭くなることや、権利が取得できないことがある。基礎となる書類のページ数が膨大な場合や、基礎となる書類が多数存在する場合、このようなチェックを人手で完全に行うことは困難である。

一方、従来、特許明細書等の作成を支援するシステム等が提案されている(例えば、特許文献1参照)。また、拒絶理由通知書で示された特許明細書等の一部分と類似する単語が多い段落等を表示する装置等が提案されている(例えば、特許文献2参照)。

概要

従来、先の出願と優先権主張出願との対応または基礎出願と外国出願との対応を検査し、検査結果を出力できなかった。特許書類に関する情報である1以上の第一特許情報と、1以上の第一特許情報に基づいて作成された特許書類に関する情報である1以上の第二特許情報を受け付ける受付部と、第一特許情報の一部であり、検査の対象である2以上の第一検査単位を1以上の各第一特許情報から取得する第一検査単位取得部と、第二特許情報の一部であり、検査の対象である2以上の第二検査単位を1以上の各第二特許情報から取得する第二検査単位取得部と、2以上の各第一検査単位と2以上の第二検査単位との対応を検査し、検査結果を取得する検査部と、検査部が取得した検査結果を出力する出力部とを具備する特許情報処理装置により、先の出願と優先権主張出願との対応または基礎出願と外国出願との対応を検査し、検査結果を出力できる。

目的

(A)類似度閾値で決定する方法
類似度の閾値で決定するとは、類似度が閾値以上のすべての検査単位組を対応すると決定することである

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

特許書類に関する情報である1以上の第一特許情報と、当該1以上の第一特許情報に基づいて作成された特許書類に関する情報である第二特許情報を受け付ける受付部と、前記第一特許情報の一部であり、検査の対象である2以上の第一検査単位を前記1以上の各第一特許情報から取得する第一検査単位取得部と、前記第二特許情報の一部であり、検査の対象である2以上の第二検査単位を前記1以上の各第二特許情報から取得する第二検査単位取得部と、前記2以上の各第一検査単位と前記2以上の第二検査単位との対応を検査し、検査結果を取得する検査部と、前記検査部が取得した検査結果を出力する出力部とを具備する特許情報処理装置

請求項2

前記第二特許情報は、前記1以上の第一特許情報に対応する1以上の特許の優先権張出願の特許書類に関する情報である請求項1記載の特許情報処理装置。

請求項3

前記第二特許情報は、2以上の第一特許情報に対応する2以上の特許の優先権主張出願の特許書類に関する情報である請求項2記載の特許情報処理装置。

請求項4

前記第一特許情報は、第一言語で記述された特許書類に関する情報であり、前記第二特許情報は、第二言語で記述された特許書類に関する情報であり、前記第二特許情報は、第一特許情報を翻訳した特許書類に関する情報である請求項1記載の特許情報処理装置。

請求項5

前記第一特許情報を第二言語に機械翻訳し、第二言語で記述された特許書類に関する情報である第一翻訳情報を取得する機械翻訳部をさらに具備し、前記第一検査単位取得部は、前記第一翻訳情報の一部であり、検査の対象である2以上の第一検査単位を前記第一翻訳情報から取得する請求項4記載の特許情報処理装置。

請求項6

前記第二特許情報を第一言語に機械翻訳し、第一言語で記述された特許書類に関する情報である第二翻訳情報を取得する機械翻訳部をさらに具備し、前記第二検査単位取得部は、前記第二翻訳情報の一部であり、検査の対象である2以上の第二検査単位を前記第二翻訳情報から取得する請求項4記載の特許情報処理装置。

請求項7

第一特許情報を構成する部分である第一部分特許情報の示す項目識別する第一項目識別子と、第二特許情報を構成する部分である第二部分特許情報の示す項目を識別する第二項目識別子との対応を示す情報である1以上の対応情報が格納される対応情報格納部をさらに具備し、前記検査部は、第一部分特許情報が有する2以上の各第一検査単位と、前記対応情報により前記第一検査単位に対応付けられる、第二部分特許情報が有する2以上の各第二検査単位との対応を検査し、検査結果を取得する請求項4から請求項6いずれか一項に記載の特許情報処理装置。

請求項8

前記第一検査単位および前記第二検査単位は、特許請求の範囲を構成する請求項、または明細書を構成する段落、または図面であり、前記検査部は、前記1以上の第一特許情報が有する1以上の各請求項と前記第二特許情報が有する1以上の各請求項との対応を検査し、または前記1以上の第一特許情報が有する1以上の各段落と前記第二特許情報が有する1以上の各段落との対応を検査し、または前記1以上の第一特許情報が有する1以上の各図面と前記第二特許情報が有する1以上の各図面との対応を検査し、検査結果を取得する請求項2から請求項7いずれか一項に記載の特許情報処理装置。

請求項9

前記出力部は、前記1以上の第一特許情報が有する第一検査単位に対して、第一検査単位との類似度が第一閾値以上又はより大きい第二検査単位が存在する第一の結果、第一検査単位との類似度が第二閾値未満又は以下となる第二検査単位しか存在しない第二の結果、および第一検査単位との類似度が第二閾値以上又はより大きく、かつ第一閾値未満又は以下である第二検査単位が存在する第三の検査結果の、3種類の結果のうちの2種類以上の結果を出力し得る請求項1から請求項8いずれか一項に記載の特許情報処理装置。

請求項10

前記出力部は、前記第二特許情報が有する第二検査単位に対して、第二検査単位との類似度が第一閾値以上又はより大きい第一検査単位が存在する第一の結果、第二検査単位との類似度が第二閾値未満又は以下となる第一検査単位しか存在しない第二の結果、および第二検査単位との類似度が第二閾値以上又はより大きく、かつ第一閾値未満又は以下である第一検査単位が存在する第三の検査結果の、3種類の結果のうちの2種類以上の結果を出力し得る請求項1から請求項9いずれか一項に記載の特許情報処理装置。

請求項11

受付部と、第一検査単位取得部と、第二検査単位取得部と、検査部と、出力部を用いて処理される特許情報処理方法であって、前記受付部が、特許書類に関する情報である1以上の第一特許情報と、当該1以上の第一特許情報に基づいて作成された特許書類に関する情報である第二特許情報を受け付ける受付ステップと、前記第一検査単位取得部が、前記第一特許情報の一部であり、検査の対象である2以上の第一検査単位を前記1以上の各第一特許情報から取得する第一検査単位取得ステップと、前記第二検査単位取得部が、前記第二特許情報の一部であり、検査の対象である2以上の第二検査単位を前記1以上の各第二特許情報から取得する第二検査単位取得ステップと、前記検査部が、前記2以上の各第一検査単位と前記2以上の第二検査単位との対応を検査し、検査結果を取得する検査ステップと、前記出力部が、前記検査ステップが取得した検査結果を出力する出力ステップとを備える特許情報処理方法。

請求項12

コンピュータを、特許書類に関する情報である1以上の第一特許情報と、当該1以上の第一特許情報に基づいて作成された特許書類に関する情報である第二特許情報を受け付ける受付部と、前記第一特許情報の一部であり、検査の対象である2以上の第一検査単位を前記1以上の各第一特許情報から取得する第一検査単位取得部と、前記第二特許情報の一部であり、検査の対象である2以上の第二検査単位を前記1以上の各第二特許情報から取得する第二検査単位取得部と、前記2以上の各第一検査単位と前記2以上の第二検査単位との対応を検査し、検査結果を取得する検査部と、前記検査部が取得した検査結果を出力する出力部として機能させるためのプログラム

技術分野

0001

本発明は、2以上の特許書類の情報が対応関係にあるかを検査する特許情報処理装置等に関するものである。

背景技術

0002

優先権張出願や、ある出願を別の言語に翻訳して外国へ出願するとき等の、ある特許書類を基礎として別の特許書類を作成するとき、その基礎となった書類の内容が、作成した特許書類に含まれているかをチェックすることは非常に重要である。もし、基礎となった書類の内容の一部が含まれなかった、もしくは新規に内容を追加してしまった場合、権利範囲が狭くなることや、権利が取得できないことがある。基礎となる書類のページ数が膨大な場合や、基礎となる書類が多数存在する場合、このようなチェックを人手で完全に行うことは困難である。

0003

一方、従来、特許明細書等の作成を支援するシステム等が提案されている(例えば、特許文献1参照)。また、拒絶理由通知書で示された特許明細書等の一部分と類似する単語が多い段落等を表示する装置等が提案されている(例えば、特許文献2参照)。

先行技術

0004

特開2012−48696号公報
特開2012−242879号公報

発明が解決しようとする課題

0005

しかしながら、従来のシステム等においては、先の出願と優先権主張出願との対応、または基礎出願と外国出願等の対応を検査することができなかった。

課題を解決するための手段

0006

本第一の発明の特許情報処理装置は、特許書類に関する情報である1以上の第一特許情報と、1以上の第一特許情報に基づいて作成された特許書類に関する情報である第二特許情報を受け付ける受付部と、第一特許情報の一部であり、検査の対象である2以上の第一検査単位を1以上の各第一特許情報から取得する第一検査単位取得部と、第二特許情報の一部であり、検査の対象である2以上の第二検査単位を1以上の各第二特許情報から取得する第二検査単位取得部と、2以上の各第一検査単位と2以上の第二検査単位との対応を検査し、検査結果を取得する検査部と、検査部が取得した検査結果を出力する出力部とを具備する特許情報処理装置である。
かかる構成により、先の出願と優先権主張出願との対応や、基礎出願と外国出願との対応、外国語書面出願とその翻訳文との対応、先の出願と分割出願との対応、実用新案登録とそれを基にした特許出願との対応、原出願と変更出願との対応、といった、ある知的財産に関する書類とその書類を基礎として作成された別の書類との対応を検査し、検査結果を出力することができる。これにより、対応関係の無い検査単位、すなわち追加や削除されてしまった検査単位や、修正された検査単位を容易に発見することができる。

0007

また、本第二の発明の特許情報処理装置は、第一の発明に対して、第二特許情報は、1以上の第一特許情報に対応する1以上の特許の優先権主張出願の特許書類に関する情報である特許情報処理装置である。
かかる構成により、先の出願と優先権主張出願との対応を検査し、検査結果を出力することができる。

0008

また、本第三の発明の特許情報処理装置は、第二の発明に対して、第二特許情報は、2以上の第一特許情報に対応する2以上の特許の優先権主張出願の特許書類に関する情報である特許情報処理装置である。
かかる構成により、2以上の先の出願と一の優先権主張出願との対応を検査し、検査結果を出力することができる。

0009

また、本第四の発明の特許情報処理装置は、第一の発明に対して、第一特許情報は、第一言語で記述された特許書類に関する情報であり、第二特許情報は、第二言語で記述された特許書類に関する情報であり、第二特許情報は、第一特許情報を翻訳した特許書類に関する情報である特許情報処理装置である。
かかる構成により、基礎出願と外国出願との対応等、異なる言語で記述された書類間の対応を検査し、検査結果を出力することができる。

0010

また、本第五の発明の特許情報処理装置は、第四の発明に対して、第一特許情報を第二言語に機械翻訳し、第二言語で記述された特許書類に関する情報である第一翻訳情報を取得する機械翻訳部をさらに具備し、第一検査単位取得部は、第一翻訳情報の一部であり、検査の対象である2以上の第一検査単位を第一翻訳情報から取得する特許情報処理装置である。
かかる構成により、基礎出願と外国出願との対応等、異なる言語で記述された書類間の対応を適切に検査し、検査結果を出力することができる。

0011

また、本第六の発明の特許情報処理装置は、第四の発明に対して、第二特許情報を第一言語に機械翻訳し、第一言語で記述された特許書類に関する情報である第二翻訳情報を取得する機械翻訳部をさらに具備し、第二検査単位取得部は、第二翻訳情報の一部であり、検査の対象である2以上の第二検査単位を第二翻訳情報から取得する特許情報処理装置である。
かかる構成により、基礎出願と外国出願との対応等、異なる言語で記述された書類間の対応を適切に検査し、検査結果を出力することができる。

0012

また、本第七の発明の特許情報処理装置は、第四から第六いずれか1つの発明に対して、第一特許情報を構成する部分である第一部分特許情報の示す項目識別する第一項目識別子と、第二特許情報を構成する部分である第二部分特許情報の示す項目を識別する第二項目識別子との対応を示す情報である1以上の対応情報が格納される対応情報格納部をさらに具備し、検査部は、第一部分特許情報が有する2以上の各第一検査単位と、対応情報により第一検査単位に対応付けられる、第二部分特許情報が有する2以上の各第二検査単位との対応を検査し、検査結果を取得する特許情報処理装置である。
かかる構成により、基礎出願と外国出願との対応等、異なる言語で記述された書類間の対応を検査し、検査結果を出力することができる。また、検査範囲絞り込むことができるので、より高速かつ適切に対応を検査することができる。

0013

また、本第八の発明の特許情報処理装置は、第二から第七いずれか1つの発明に対して、第一検査単位および第二検査単位は、特許請求の範囲を構成する請求項、または明細書を構成する段落、または図面であり、検査部は、1以上の第一特許情報が有する1以上の各請求項と第二特許情報が有する1以上の各請求項との対応を検査し、または1以上の第一特許情報が有する1以上の各段落と第二特許情報が有する1以上の各段落との対応を検査し、または1以上の第一特許情報が有する1以上の各図面と第二特許情報が有する1以上の各図面との対応を検査し、検査結果を取得する特許情報処理装置である。
かかる構成により、特許請求の範囲に含まれる請求項や、明細書の段落、図面の対応を検査し、検査結果を出力することができる。

0014

また、本第九の発明の特許情報処理装置は、第一から第八いずれか1つの発明に対して、出力部は、1以上の第一特許情報が有する第一検査単位に対して、第一検査単位との類似度が第一閾値以上又はより大きい第二検査単位が存在する第一の結果、第一検査単位との類似度が第二閾値未満又は以下となる第二検査単位しか存在しない第二の結果、および第一検査単位との類似度が第二閾値以上又はより大きく、かつ第一閾値未満又は以下である第二検査単位が存在する第三の検査結果の、3種類の結果のうちの2種類以上の結果を出力し得る特許情報処理装置である。
かかる構成により、先の出願と優先権主張出願との対応または基礎出願と外国出願との対応を検査し、適切な検査結果を出力することができる。また、先の出願や基礎出願等の内容が、優先権主張出願や外国出願等に含まれるか否か、もしくは類似しているかを検査することができる。

0015

また、本第十の発明の特許情報処理装置は、第一から第九いずれか1つの発明に対して、出力部は、第二特許情報が有する第二検査単位に対して、第二検査単位との類似度が第一閾値以上又はより大きい第一検査単位が存在する第一の結果、第二検査単位との類似度が第二閾値未満又は以下となる第一検査単位しか存在しない第二の結果、および第二検査単位との類似度が第二閾値以上又はより大きく、かつ第一閾値未満又は以下である第一検査単位が存在する第三の検査結果の、3種類の結果のうちの2種類以上の結果を出力し得る特許情報処理装置である。
かかる構成により、先の出願と優先権主張出願との対応または基礎出願と外国出願との対応を検査し、適切な検査結果を出力することができる。また、優先権主張出願や外国出願等の内容が、先の出願や基礎出願等に含まれるか否か、もしくは類似しているかを検査することができる。

発明の効果

0016

本発明による特許情報処理装置によれば、先の出願と優先権主張出願との対応や、基礎出願と外国出願との対応、外国語書面出願とその翻訳文との対応、先の出願と分割出願との対応、実用新案とその実用新案を基にした特許出願との対応、原出願と変更出願との対応、といった、ある知的財産に関する書類とその書類を基礎として作成された別の書類との対応を検査し、検査結果を出力することができる。

図面の簡単な説明

0017

実施の形態1における特許情報処理装置を含むシステムの概念
同実施の形態における特許情報処理装置のブロック図
同実施の形態における特許情報処理装置の動作を示すフローチャート
同実施の形態における特許情報処理装置の検査単位間の対応関係を決定する処理の例に関する動作を示すフローチャート
同実施の形態における受付部に受け付けられる特許情報の一例を示す図
同実施の形態における受付部のインターフェースの一例を示す図
同実施の形態における各特許情報から取得された検査単位の一例を示す図
同実施の形態における各検査単位間の類似度計算結果の一例を示す図
同実施の形態における検査単位間の対応関係の一例を示す図
同実施の形態における特許情報処理装置の表示の一例を示す図
実施の形態2における特許情報処理装置のブロック図
同実施の形態における特許情報処理装置の動作を示すフローチャート
同実施の形態における受付部に受け付けられる特許情報の一例を示す図
同実施の形態における対応情報の一例を示す図
同実施の形態における各特許情報から取得された検査単位の一例を示す図
同実施の形態における各検査単位間の類似度計算結果の一例を示す図
同実施の形態における検査単位間の対応関係の一例を示す図
同実施の形態における特許情報処理装置の表示の一例を示す図
上記実施の形態におけるコンピュータシステム外観の一例を示す図
上記実施の形態におけるコンピュータシステムの構成の一例を示す図

実施例

0018

以下、特許情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

0019

(実施の形態1)
本実施の形態において、1以上の特許書類に関する情報である第一特許情報と、当該1以上の第一特許情報に対応する特許書類を基礎として作成された第二の特許の情報である第二特許情報とを受け付け、第一特許情報を構成する単位である第一検査単位と、第二特許情報を構成する単位である第二検査単位を取得し、各第一検査単位と各第二検査単位との対応を検査し、検査結果を出力する特許情報処理装置1について説明する。

0020

図1は、本実施の形態における特許情報処理装置1を含むシステムの概念図である。図1において、特許情報処理装置1と1または2以上のユーザ端末2とは、ネットワーク100を介して接続されている。ネットワーク100は、有線、または無線通信回線であり、例えば、インターネットイントラネット、LAN(Local Area Network)、公衆電話回線等である。また、ユーザ端末2は、ネットワーク100に接続可能な端末であれば何でも良い。例えば、ユーザ端末2は、デスクトップパソコンノートパソコンスマートフォンタブレット、またはPDA等であっても良い。なお、図1において、特許情報処理装置1とユーザ端末2は同一のハードウェアで実現してもよく、同一のハードウェアで実現する場合、ネットワーク100を介さなくても良い。つまり、特許情報処理装置1は、スタンドアロンで動作しても良い。

0021

図2は、本実施の形態における特許情報処理装置1のブロック図である。特許情報処理装置1は、受付部101、第一検査単位取得部102、第二検査単位取得部103、検査部104、出力部105を備える。

0022

受付部101は、特許書類に関する情報である1以上の第一特許情報と、当該1以上の第一特許情報に基づいて作成された特許書類に関する情報である第二特許情報を受け付ける。以下、第一特許情報の基となった特許書類を第一特許書類、第二特許情報の基となった特許書類を第二特許書類と呼ぶ。また、第二特許情報が第一特許情報に基づいて作成されたことを、第二特許情報は第一特許情報を継承していると表現する。また、本発明では「特許書類」や「特許情報」といった用語を用いているが、上述したように、本発明は特許以外の知的財産に関する書類にも適用可能である。ただし、以下では、便宜上、特許以外の知的財産をまとめて「特許」と表現する。

0023

また、特許書類とは、特許等の担当組織提出される書類のいずれか、もしくはその組み合わせである。例えば、特許の国内出願ならば、願書、特許請求の範囲、明細書、図面、要約書のうちの1つ、もしくはその組み合わせである。すなわち、特許請求の範囲や明細書、図面単独でも良く、それらを結合した書類でも良い。

0024

また、各特許書類に関する特許情報とは、通常、特許書類に記載された書誌事項テキストと図面である。ここで、書誌事項とは、願書や公報に記載された発明者や出願人、代理人特許分類(IPC、FI、Fターム、CPC等)などの特許の内容に関する文以外の情報を表す。また、テキストとは、特許の内容に関する文の集まりであり、特許請求の範囲、明細書(発明の名称を含む)、要約書に含まれる文章情報を表す。また、図面とは、表などを含む画像を表す。特許情報は、これらの情報を基礎として、さらに、テキストの段落の切れ目の場所に関する情報(HTMLのタグ等)や、各段落が含まれる見出し(明細書の[発明が解決しようとする課題]など、以下、大括弧は隅付き括弧を意味する)といった書誌事項やテキスト、図面の持つ属性(表や図といった画像内容のタイプや、2値グレースケールカラーといった画像ファイルのタイプ等)に関する情報を含んでも良い。以下、上記の書誌事項やテキスト、図面に付随する情報を付加情報と呼ぶ。

0025

また、受け付けとは、キーボードマウスタッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスク磁気ディスク半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。

0026

また、受付部101では、複数の第一特許情報もしくは第二特許情報が指定された場合、特許書類を区別して受け付ける。例えば、分割出願において、基礎となった特許書類をA、当該Aを分割した特許書類をB1とB2とした場合、第一特許情報はAの1つ、第二特許情報はB1とB2の2つの合計3つの特許情報をそれぞれ区別して受け付ける。

0027

また、受付部101は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面制御ソフトウェア等で実現され得る。

0028

第一検査単位取得部102は、1以上の各第一特許情報の一部であり、検査の対象である2以上の第一検査単位を、受付部101が受け付けた1以上の各第一特許情報から取得する。

0029

ここで、第一検査単位とは、第一特許情報の1つの書誌事項又はテキストの一部又は1つの図面である。ここで、テキストの一部とは、通常、単純な部分文字列ではなく、特許請求の範囲や明細書、要約書のタグに含まれるテキストや、段落、文といった意味のある文字列の「まとまり」を表す。また、タグとは、特許明細書における[課題を解決するための手段]や[発明の効果]といった、各書類において直後に文章が含まれる見出しを意味する。さらに、タグに含まれるテキストとは、上記タグから別のタグが現れるまでに出現するテキストである。また、各検査単位は、その1つの書誌事項又はテキストの一部又は1つの図面に対応する前記付加情報を含んでも良い。

0030

また、本実施例では、各請求項のテキストはそれぞれ1つの段落であり、かつ、[請求項n](nは数字)というタグに属するテキストであるとする。すなわち、以降、タグや段落について述べる場合、それは明細書のタグや段落以外に、特許請求の範囲における請求項という意味も含む。

0031

また、通常、1つの特許情報から取得された検査単位の内容は重複しないものとする。例えば、複数段落で構成される検査単位を用いる場合、各検査単位に含まれる段落は重複しない。具体的には、ある特許情報が段落p1,p2,p3で構成されるものとする。このとき、通常、1つ目の検査単位がp1とp2、2つ目の検査単位がp2とp3のように、p2が重複して含まれるようなことない。なお、図面の場合は、同一の図面が異なる検査単位となることは許さない。

0032

また、通常、同一の特許情報から取得された検査単位のすべて用いることで、当該特許情報のテキストと図面をすべて被覆できるものとする。例えば、上記と同様に、ある特許情報が段落p1,p2、p3で構成されるものとする。このとき、通常、段落p1で構成される検査単位a1と、段落p2で構成される検査単位a2という2つの検査単位のみを取得し、段落p3が取得したすべての検査単位のいずれにも含まれないようなことはない。

0033

また、第一検査単位取得部102が取得する2以上の検査単位は、特許情報の元となった特許書類での順序を保持しても良い。ここで、「順序を保持」とは、ある特許書類に対応する検査単位からテキストや図面を抽出し、それを並べたとき、前記特許書類のテキストや図面と一致することを意味する。以下、第一検査単位取得部102と後述する第二検査単位取得部103が取得する2以上の検査単位を、それぞれ第一検査単位列、第二検査単位列と呼ぶ。

0034

また、第一検査単位取得部102は、通常、MPUやメモリ等から実現され得る。第一検査単位取得部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。また、後述する第二検査単位取得部103と検査部104、実施の形態2の機械翻訳部1006と検査部1004も同様である。

0035

第二検査単位取得部103は、第一検査単位取得部102と同様の処理を第二特許情報に対して行う。

0036

検査部104は、第一検査単位列中の各第一検査単位と、第二検査単位列中の各第二検査単位との対応を検査し、検査結果を取得する。ここで、ある第一検査単位とある第二検査単位が「対応する」とは、前記第二検査単位が前記第一検査単位を基礎に作成されたことを意味する。また、検査とは、対応する検査単位の組を発見することを意味する。検査部104は、第一検査単位と第二検査単位の「類似度」に基づいて、前記2つの検査単位が対応するか否かを検査する。「類似度」については後述する。また、検査部104の取得する検査結果は、例えば、対応する第一検査単位と第二検査単位の組とその類似度で構成される情報の集合である。検査部104の取得する検査結果は、例えば、対応する第一検査単位と第二検査単位の組の集合でも良い。

0037

ここで、検査部104は、通常、第一特許情報と第二特許情報のすべての組み合わせについて、それぞれ検査単位間の対応を検査する。例えば、第一検査単位列Aと第二検査単位列B1とB2の3つの検査単位列を検査する場合、AとB1、ならびにAとB2の2つの組み合わせについて検査を行う。すなわち、通常、検査部104は、第一検査単位と第二検査単位以外の検査単位の組み合わせについては検査しない。例えば、第一検査単位列Aが[a1,a2,a3]、第二検査単位列B1が[b11,b12]、B2が[b21,b22,b23]という検査単位列で構成される場合、同一検査単位列内の対応関係(例えば、a1とa3の対応関係等)や、第一もしくは第二検査単位列同士の検査単位の対応関係(例えば、b12とb23の対応関係等)は検査を行わない。また、種類の異なる検査単位間での検査も行わない。例えば、異なる書誌事項間(例えば発明者と出願人)や、書誌事項とテキスト、書誌事項と図面、テキストと図面等組み合わせについては検査を行わない。

0038

一方、通常、第一検査単位と第二検査単位の組ならば検査に制限はない。すなわち、検査結果全体を見たとき、第一検査単位と第二検査単位の間には1対多や多対1の関係があり得る。例えば、第一特許書類のある1つの段落が2つに分割され第二特許書類に存在している場合、検査単位の対応は1対2となる。逆に、第一特許書類の2つの段落を1つに統合したならば、検査単位の対応は2対1となる。

0039

また、検査部104は、たとえ内容がまったく同一であっても、常に類似したテキストや図面をもつ検査単位の組を「対応する」と判定するとは限らない。例えば、検査単位のテキストが属するタグや順序を考慮して、類似した検査単位の組の一部を「対応しない」と判定する場合がある。具体的には、第一特許情報の明細書の[課題を解決するための手段]に対応する検査単位と、第二特許情報の要約書の[解決手段]に対応する検査単位が十分に類似していても、書類が異なるため、対応する検査単位組ではないと判定することがある。対応すると判定しない検査単位の組は設定しても良いし、しなくても良い。

0040

検査部104は、はじめに、上記対応すると判定しない検査単位の組以外(すなわち、対応する可能性のある検査単位の組)について、検査単位間の「類似度」を算出し、その後、対応する検査単位組を判断する。ここで、「類似度」は、「一致度」や「関連度」と読んでもよい。本尺度は、検査単位の書誌事項又はテキスト又は図面がどの程度似ているかを表す尺度であり、当該書誌事項又はテキスト又は図面がどの程度似ているか、どの程度一致しているかを表す数ならば、その内容は問わない。例えば、書誌事項を基にした検査単位間の類似度としては、検査単位が完全一致した場合に1、そうでない場合は0となるような類似度を用いても良い。

0041

また、テキストを基とした検査単位間の類似度としては、各検査単位のテキストをベクトル化して、そのベクトルの類似度を用いても良く、各検査単位のテキストを文字や語の系列として扱い、レーベンシュタイン距離編集距離)をもとにした類似度を用いても良い。ここで、テキストのベクトル化の方法についても、文字や語のn−gram(n≧1)や、テキストが属するタグ等の検査単位が持つ他の属性を次元として、その出現頻度やTF−IDFを値とするベクトル化する方法等がある。また、ベクトルの類似度についても、コサイン類似度ピアソン相関係数偏差パターン類似度等のベクトル間の類似度を算出する方法がある。上記のベクトル化の方法や、ベクトルの類似度、レーベンシュタイン距離については、公知技術であるため説明を省略する。

0042

また、上記の類似度を求める際に、形態素解析構文解析を適用し、テキストの言語構造解析しても良い。検査部104は、形態素解析や構文解析の結果を用いて、形態素係り受け句構造等を利用して類似度を算出する。例えば、形態素解析の結果を用いて、各検査単位のテキストに含まれる形態素の一致率を類似度としても良い。また、例えば、構文解析結果から各検査単位のテキストに対応する句構造木を求め、ツリーカーネルを類似度としても良い。なお、形態素解析や構文解析、ツリーカーネルについては公知技術であるため説明を省略する。

0043

また、テキストを基にした検査単位間の類似度として、独自の類似度を用いても良い。例えば、検査単位間のテキストが完全に一致した場合に1、記号のみが変化している場合に変化しなかった記号の割合(変化しなかった記号の数/テキストに含まれる記号の数)、それ以外の場合に0となるような類似度を用いても良い。

0044

一方、図面を基とした検査単位間の類似度としては、検査単位の画像をそれぞれ、画像のピクセル数×画素値の数(例えば、100×100のRGBカラー画像ならば、100×100×3=30000)次元のベクトルとして、上記テキストの類似度と同様にそのベクトルの類似度を求める方法や、検査対象の図面を、一旦ヒストグラムなどの別の表現に変換し、そのベクトルの類似度を求める方法を用いても良い。また、類似度を求める前に図面のサイズの正規化平滑化減色などの前処理を入れても良い。

0045

なお、本実施の形態は、通常、書誌事項とテキスト、図面では対応関係を求めることはないため、書誌事項間の類似度と、テキストの類似度、ならびに図面の類似度で、最大値最小値スケール等が一致している必要なない。

0046

また、類似度の算出後の、対応する検査単位の組を決定する方法についても、その方法は問わない。例えば、検査単位組間の類似度の閾値で決定しても良く、各第一もしくは第二検査単位について類似度の高いものから順番に決定しても良く、大局的に対応関係を見る、グローバルアライメントローカルアライメントを求めるアルゴリズムを用いて決定しても良い。以下、検査部104が、(A)類似度の閾値で決定する方法、(B)類似度の高いものから順番に決定する方法、(C)グローバルアライメントを求めるアルゴリズムを用いて決定する方法、(D)ローカルアライメントを求めるアルゴリズムを用いて決定する方法、の4つに分けて説明する。

0047

(A)類似度の閾値で決定する方法
類似度の閾値で決定するとは、類似度が閾値以上のすべての検査単位組を対応すると決定することである。ここで、類似度の閾値はあらかじめ検査部104に設定しても良く、画像処理分野における2値化処理で用いられる判別識別法などを用いて自動的に決定しても良い。なお、上記の閾値を自動的に決定する方法については、公知技術のため説明を省略する。

0048

(B)類似度の高いものから順番に決定する
類似度の高いものから順番に決定するとは、各第一検査単位は、当該第一検査単位との類似度が最も高い第二検査単位とのみ対応すると決定する、もしくは各第二検査単位は、当該第二検査単位との類似度が最も高い第一検査単位とのみ対応すると決定する方法である。方法については、図4のフローチャートで詳細な動作を説明する。

0049

(C)グローバルアライメントを求めるアルゴリズムを用いて決定する
グローバルアライメントを求めるアルゴリズムを用いて決定するとは、検査単位間の類似度でも説明したレーベンシュタイン距離等を用いることで、大局的に対応関係を決定することである。すなわち、検査単位間の類似度の算出では、検査単位を文字や語の系列として扱い、検査単位組ごとにレーベンシュタイン距離を求め、類似度を算出していたが、対応する検査単位組の決定では、特許情報を検査単位の系列として扱い、各系列間のレーベンシュタイン距離を求め、その距離に対応する検査単位の組を対応関係にあると決定する方法である。

0050

(D)ローカルアライメントを求めるアルゴリズムを用いて検査する
ローカルアライメントを求めるアルゴリズムを用いて決定するとは、Smith−Watermanアルゴリズム(Smith, Temple F.; and Waterman, Michael S. "Identification of Common Molecular Subsequences", Journal of Molecular Biology 147, pp.195-197,1981年)や、太田のアルゴリズム(太田貴久, 増山繁, "学生レポート採点支援のためのレポート類似部分発見手法", 信学技報,NLC2005-112, pp. 37-42,2006年)を用いて対応を決定することである。これらのローカルアライメントを求めるアルゴリズムは、レーベンシュタイン距離等のグローバルアライメントを求める方法を局所的に適用する方法である。各ローカルアライメントを求めるアルゴリズムについての詳細は文献を参照されたし。

0051

なお、(C)グローバルアライメントを求めるアルゴリズムや、(D)ローカルアライメントを求めるアルゴリズムを用いる際は、各特許情報の検査単位は順序を保持しており、これらのアルゴリズムを適用する前に、類似度が0より大きい値で正規化されているものとする。

0052

また、(B),(C),(D)の方法は、(A)の方法と組み合わせても良い。すなわち、類似度が特定の閾値以下もしくは未満の検査単位間は判定しないとし、それ以外の検査単位について、(B),(C),(D)それぞれの方法で対応関係を決定しても良い。

0053

上記(B),(C),(D)のいずれかの方法を用いることで、類似した表現が多く含まれることが多い請求項の対応関係を正しく対応付けることができる。

0054

出力部105は、検査部104が取得した検査結果を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影プリンタでの印字音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。なお、送信や蓄積、処理結果の引き渡しについては、出力対象が最終的にユーザに提示されるものとする。また、出力部105は、対応する第一検査単位と第二検査単位とを認識可能に出力することができれば、その形式や様式、書式などは問わない。なお、後述する実施の形態2の出力部1005についても出力方法や形式、様式、書式等は同様である。

0055

また、出力部105は、通常、視覚的もしくは音声により、第一特許情報と第二特許情報が区別できるように出力する。例えば、視覚的な方法としては、第一特許情報を左側に、第二特許情報を右側に出力する方法がある。また、本発明は「対応関係が存在しない」検査単位に非常に重要な意味があるため、各特許情報を出力する際、対応関係が存在しない検査単位を含めたすべての検査単位を出力することが望ましい。

0056

また、出力部105は、検査単位間の類似度を、視覚的に認識可能な方法もしくは音声により出力してもよい。例えば、検査単位が段落や請求項で構成される場合、視覚的な方法としては、各段落の見出し(明細書の[0001]などの段落番号や、特許請求の範囲の[請求項1])の横に「(類似度:0.95)」のような文字列を追加して直接類似度を表記する方法や、前記各段落の文字列の色や透明度を変化させる方法や、前記各段落の見出しの色を変化させる方法がある。ここで、本発明は「類似していない」ことが重要な意味を持つので、類似度の低い場合を目立たせるように出力することが好適である。

0057

また、出力部105は、対応関係にある検査単位間の不一致部分を他の部分と区別可能な方法で出力することもできる。例えば、テキストをもとにした検査単位の不一致部分については、当該不一致部分に色を付ける方法や、下線を引く方法、太字にする方法などがある。前記類似度と同様に、不一致部分を目立たせるように出力することが好適である。

0058

また、出力部105は、検査結果から検査単位を幾つかのグループ分類し、その分類を出力してもよい。

0059

例えば、出力部105は、第一特許情報の各第一検査単位に対して、第一検査単位との類似度が第一閾値以上(又はより大きい)となる第二検査単位が存在する第一の結果、第一検査単位との類似度が第二閾値未満(又は以下)となる第二検査単位しか存在しない第二の結果、および第一検査単位との類似度が第二閾値以上(又はより大きい)であり、かつ第一閾値未満(又は以下)である第二検査単位が存在する第三の検査結果の、3種類の結果のうちの2種類以上を用いて検査単位を分類し、いずれかの分類に属する検査単位を他と区別できるように出力する。ここで、第一閾値と第二閾値は、出力部105があらかじめ保持している。また、いずれの分類にも属さない検査単位については、出力してもしなくてもよい。具体的には、例えば、検査単位を前記第二の結果と前記第三の結果に分類し、それぞれの検査単位を色付けして出力する方法がある。この場合、前記第一の結果に属する検査単位については出力してもしなくてもよい。

0060

また、例えば、出力部105は、上記の例と同様に、第二特許情報の各第二検査単位に対して、第二検査単位との類似度が第一閾値以上(又はより大きい)となる第一検査単位が存在する第一の結果、第二検査単位との類似度が第二閾値未満(又は以下)となる第一検査単位しか存在しない第二の結果、および第二検査単位との類似度が第二閾値以上(又はより大きい)であり、かつ第一閾値未満(又は以下)である第一検査単位が存在する第三の検査結果の、3種類の結果のうちの2種類以上を用いて検査単位を分類し、いずれかの分類に属する検査単位を他と区別できるように出力することもできる。

0061

なお、上記のように検査単位を幾つかのグループに分割する場合、各結果の類似度の区間は、類似度の値域をすべてカバーし、かつ、各区間が共通部分を持たないように設定することが好適である。例えば、第一閾値より大きい場合に第一の結果、第二閾値以下の場合に第二の結果、第一閾値以下かつ第二閾値より大きい場合に第三の結果となるように各グループを定義しても良い。

0062

ここで、上記のように、閾値を設定して検査結果を幾つかのグループに分類し出力する場合、テキストの検査単位間の類似度と図面の類似度のスケールが一致している方が望ましい。

0063

また、出力部105は、検査部104が取得した検査結果を読み上げることでも実現できる。

0064

また、出力部105は、検査部104が取得した検査結果を他のプログラムへ引き渡すことでも実現できる。

0065

また、出力部105は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

0066

次に、特許情報処理装置1の動作について図3のフローチャートを用いて説明する。なお、所定の情報におけるi番目の情報は、「情報[i]」と記載するものとする。図3は、特許情報処理装置1の全体動作を表すフローチャートである。

0067

(ステップS201)受付部101は、継承関係にある2以上の特許情報が入力された場合、S202へ進む。そうでない場合、前記情報が入力されるまで待機する。

0068

(ステップS202)第一検査単位取得部102は、受け付けられたすべての第一特許情報について、HTMLのタグや特許公開公報などに存在する隅付き括弧で括られた文字列、インデント行頭スペース)をもとに各書類から第一検査単位を取得する。

0069

(ステップS203)第二検査単位取得部103は、ステップS202と同様の方法で、第二特許情報から第二検査単位を取得する。

0070

(ステップS204)検査部104は、種類が同じ検査単位組のすべてについて、その種類に応じた類似度の算出を行う。

0071

(ステップS205)検査部104は、ステップS204が求めた検査単位間の類似度をもとに対応関係を取得する。前出の(B)類似度の高いものから順番に決定する方法については、図4を用いて説明する。

0072

(ステップS206)出力部105は、検査部104が取得した検査結果を、出力する形に加工する。なお、ディスプレイなどの画像表示装置に出力する場合の具体的な出力のイメージは後述する。

0073

(ステップS207)出力部105は、ステップS206で構成した情報を出力する。

0074

また、図3のフローチャートにおいて、ステップS202とステップS203の動作の順序は問わない。

0075

図4は、図3のステップS205の検査単位間の対応関係決定処理の例を示すフローチャートである。

0076

(ステップS301)検査部104は、ステップS204で類似度を算出したすべての検査単位組をPに設定する。

0077

(ステップS302)検査部104は、Pが空集合の場合、上位処理へリターンする。

0078

(ステップS303)検査部104は、Pの中で最も高い類似度を持つ検査単位組をpに設定する。

0079

(ステップS304)検査部104は、ステップS303で設定したpを対応関係にある検査単位組であると決定する。

0080

(ステップS305)検査部104は、pと関連する検査単位組をPから削除し、ステップS302へ戻る。ここで、pと関連する検査単位組とは、pを構成する第一検査単位を含む検査単位組、もしくはpを構成する第二検査単位を含む検査単位組、もしくはpを構成する第一検査単位組と第二検査単位組のいずれかを含む検査単位組の、いずれか1つの関係にある検査単位組である。pを構成する第一検査単位を含む検査単位組を削除した場合、第一検査単位と第二検査単位の関係は多対1となり、pを構成する第二検査単位を含む検査単位組を削除した場合、第一検査単位と第二検査単位の関係は1対多となり、pを構成する第一検査単位組と第二検査単位組のどちらかを含む検査単位組を削除した場合、第一検査単位と第二検査単位の関係は1対1となる。なお、どの関係にある検査単位組を削除するかは検査部104にあらかじめ設定されている。

0081

なお、図5の処理は、図3のステップS205の処理の一例であり、前述のとおり、(A)類似度の閾値で決定する方法や、(C)グローバルアライメントを求めるアルゴリズムを用いて検査する方法、(D)ローカルアライメントを求めるアルゴリズムを用いて検査する方法といった方法もある。

0082

以下、本実施の形態における特許情報処理装置1の具体的な動作について説明する。なお、本具体例において示した各図面の情報は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。また、本具体例において、受付部101が受け付ける「特許情報A.file」と「特許情報B.file」は、図5のように、それぞれ第一特許情報Aと第二特許情報Bを含むファイルであるとする。また、各特許情報は、特許請求の範囲と明細書、図面を含むものとする。

0083

また、本具体例において、第一検査単位取得部102と第二検査単位取得部103が取得する検査単位はテキストと図面であり、また、テキストの検査単位は、請求項ならびに段落を用いるものとする。また、本具体例において、テキストと図面の間の対応関係や、書類の異なる検査単位間での対応関係の検査は行わない。すなわち、特許請求の範囲の請求項と明細書の段落間の検査は行わない。

0084

また、本具体例において、検査部104は、テキストで構成される検査単位間の類似度と図面で構成される検査単位間の類似度として、コサイン類似度等の0から1までの実数で表され1のときに最も類似している類似度を用いる。また、検査部104は、上記(B)の方法(図4の方法)を用いて、第一検査単位と第二検査単位が1対多の関係になる対応関係を検査するものとする。

0085

また、本具体例において、出力部105は、ディスプレイ等の画像表示装置への出力を行う。また、出力部105は、第一閾値を0.8、第二閾値を0.4と設定し、第一検査単位との類似度が0.8以上となる第二検査単位が存在する結果をA、第一検査単位との類似度が0.4未満となる第二検査単位しか存在しない結果をC、および第一検査単位との類似度が0.4以上であり、かつ0.8未満である第二検査単位が存在する結果をBと判定し出力する。

0086

ユーザ端末2のユーザが、図6のようなインターフェースに対して、ポインティングデバイスやキーボード等を操作し、前記2つのファイルを選択した後、「実行」ボタンクリックしたとする。すると、ネットワーク100を介して、受付部101が「特許情報A.file」と「特許情報B.file」を受け付ける(ステップS201)。受付部101は、「特許情報A.file」と「特許情報B.file」をそれぞれ第一検査単位取得部102と第二検査単位取得部103に送る。

0087

第一検査単位取得部102は、「特許情報A.file」から請求項と明細書の段落、図面を抽出し、検査単位を生成し、それを「特許情報A.file」に現れる順序にならべた検査単位列を取得する(ステップS202)。同様に、第二検査単位取得部103は、「特許情報B.file」から請求項と明細書の段落、図面を抽出し、検査単位を生成し、それを「特許情報B.file」に現れる順序にならべた検査単位列を取得する(ステップS203)。これらの結果、図7のような検査単位列が取得される。

0088

検査部104は、図7の検査単位列が入力されると各検査単位の対応を検査する(ステップS204、S205)。検査部104は、第一特許情報Aの請求項と第二特許情報の請求項、第一特許情報Aの明細書の段落と第二特許情報Bの明細書の段落、ならびに第一特許情報Aの図面と第二特許情報Bの図面のすべての組み合わせを類似度算出の対象とし、類似度算出の対象となったすべての検査単位の組に対して、類似度の算出を行う(ステップS204)。その結果、図8のようなに類似度が求められる。次に、図8の上位、すなわち図8の上から順番に対応関係を決定していく(ステップS205)。本例の場合、はじめにRank1の第一検査単位a1と第二検査単位b1が対応関係にあると決定する(ステップS303、S304)。そして、第二検査単位b1を含む他の検査単位組であるRank2とRank4を除外し(ステップS305)、残った検査単位組のなかで最も高い類似度をもつ検査単位組であるRank3の第一検査単位a2と第二検査単位b3を対応関係にあると決定する。本処理を繰り返すことで、最終的に図9の検査結果を取得することができる。

0089

出力部105は、検査部104が取得した検査結果から出力データを構成する(ステップS206)。例えば、特許情報Aを左側、特許情報Bを右側に表形式で構成した出力の例を図10に示す。なお、図10では、特許情報Aの各検査単位を順番どおりに配置し、前記各検査単位に対応する特許情報Bの検査単位を右側に配置している。そして、出力部105は構成した出力データを実際に出力する(ステップS207)。

0090

以上、本実施の形態によれば、先の出願と優先権主張出願との対応や、基礎出願と外国出願との対応、外国語書面出願とその翻訳文との対応、先の出願と分割出願との対応、実用新案登録とそれを基にした特許出願との対応、原出願と変更出願との対応、といった、ある知的財産に関する書類とその書類を基礎として作成された別の書類との対応を検査することができる。また、2以上の先の出願と一の優先権主張出願との対応を検査することができる。また、2以上の特許に関して、書誌事項や、特許請求の範囲に含まれる請求項、明細書の段落、図面の対応を検査することができる。また、先の出願の内容が、優先権主張出願に含まれるか否か、もしくは類似しているかを検査することができる。

0091

また、本実施の形態によれば、類似した表現が多く含まれることが多い請求項の対応関係を正しく検査することができる。また、対応関係が存在する書誌事項又はテキスト又は図面を容易に把握することができ、対応関係が存在しない書誌事項又はテキスト又は図面も容易に把握することができる。

0092

なお、本実施の形態によれば、第一特許情報のもととなった第一特許書類、および第二特許情報のもととなった第二特許書類は、特許以外の書類でも良い。本発明は、第一特許情報の知的財産に関する書類を基礎に、第二特許情報の知的財産権に関する書類が作成されたか否かをチェックする様々な場合で使用可能である。すなわち、第一特許書類と第二特許書類は、特許に関する書類のみならず、実用新案書類意匠書類、ならびに、それらの翻訳文等を含む。

0093

また、本実施の形態によれば、受付部101が受け付ける特許情報は特許書類のすべての情報が含まれていなくとも良い。例えば、特定の出願に関連する書類の特許請求の範囲(すべての請求項)と、明細書の[発明を実施するための形態]のみを受付部101へ入力しても良い。この場合、入力された情報のみが検査される。

0094

また、本実施の形態によれば、受付部101が受け付ける特許情報は付加情報を含まなくとも良い。この場合、第一検査単位取得部102および第二検査単位取得部103は、テキストに含まれる隅付き括弧で括られた文字列やインデント(行頭の空白)、句読点を用いて検査単位とするテキストのまとまりを取得する。

0095

なお、本実施の形態によれば、ステップS204の図面を基にした検査単位の間の類似度を求める際、類似度を計算する前に、OCR光学文字認識)技術を用いて図面に含まれる文字を抜き出し、その文字を除いた画像間の類似度を計算しても良い。第一特許書類と第二特許書類では、図面内の記号のみが異なることが数多くある。そのため、類似度計算の前に図面に含まれる文字をあらかじめ抜き出すことで、前記の場合にも高確率で対応関係を正しく判断することができる。OCRについては、公知技術であるため説明を省略する。

0096

また、本実施の形態によれば、ステップS204の検査単位間の類似度を求める際、検査単位を構成する書誌事項又はテキスト又は図面の一部分のみを利用して類似度を求めても良く、また、前記一部分のみを利用した類似度を組み合わせても良い。例えば、テキストの類似度において、検査単位に含まれる記号のみや、名詞のみを用いて類似度を求めても良い。また、図面の類似度において、前記のOCRをかけた場合で、図面中の記号のみを用いて類似度を求めても良い。さらに、図面の類似度において、OCRで抜き出した文字列の類似度と文字列を抜き出した画像の類似度を併用しても良い。

0097

また、本実施の形態によれば、出力部105が、検査結果を第一閾値と第二閾値によりグループ分けして出力する場合、テキストの検査単位間と図面の検査単位間で異なる第一閾値と第二閾値を設定しても良い。

0098

また、本実施の形態によれば、出力部105は、出願番号や公開番号などの検査単位に含まれない第一特許情報と第二特許情報に関連した情報を共に出力しても良い。

0099

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。その実行時に、プログラム実行部は、記憶部や記録媒体にアクセスしながらプログラムを実行してもよい。なお、このことは、本明細書における他の実施の形態においても該当する。なお、上記実施の形態における特許情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、1以上の特許書類に関する情報である第一特許情報と、当該1以上の第一特許情報に基づいて作成された特許書類に関する情報である第二特許情報とを受け付ける受付部、前記第一特許情報の一部であり、検査の対象である2以上の第一検査単位を前記1以上の各第一特許情報から取得する取得する第一検査単位取得部、前記第二特許情報の一部であり、検査の対象である2以上の第二検査単位を前記1以上の各第二特許情報から取得する取得する第二検査単位取得部、前記2以上の各第一検査単位と前記2以上の第二検査単位との対応を検査し、検査結果を取得する検査部検査部が取得した検査結果を出力する出力部として機能させるためのプログラムである。

0100

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。

0101

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。

0102

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、または分散処理を行ってもよい。例えば、第一検査単位取得部と第二検査単位取得部の処理を異なるコンピュータで行っても良い。また、Aという1つの第一検査単位と、B1とB2という2つの第二検査単位が受付部101に入力されたとき、AとB1の検査とAとB2の検査を別々のコンピュータで行ってもよい。

0103

図19は、上記プログラムを実行して、上記実施の形態による特許情報処理装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。

0104

図19において、コンピュータシステム1800は、CD−ROMドライブ1805を含むコンピュータ1801と、キーボード1802と、マウス1803と、モニタ1804とを備える。

0105

図20は、コンピュータシステム1800の内部構成を示す図である。図20において、コンピュータ1801は、CD−ROMドライブ1805に加えて、MPU(Micro Processing Unit)1811と、ブートアッププログラム等のプログラムを記憶するためのROM1812と、MPU1811に接続され、アプリケーションプログラム命令を一時的に記憶すると共に、一時記憶空間を提供するRAM1813と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク1814と、MPU1811、ROM1812等を相互に接続するバス1815とを備える。なお、コンピュータ1801は、LANやWAN等への接続を提供する図示しないネットワークカードを含んでいてもよい。

0106

コンピュータシステム1800に、上記実施の形態による特許情報処理装置の機能を実行させるプログラムは、CD−ROM1821に記憶されて、CD−ROMドライブ1805に挿入され、ハードディスク1814に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1801に送信され、ハードディスク1814に記憶されてもよい。プログラムは実行の際にRAM1813にロードされる。なお、プログラムは、CD−ROM1821、またはネットワークから直接、ロードされてもよい。また、CD−ROM1821に代えて他の記録媒体(例えば、DVD等)を介して、プログラムがコンピュータシステム1800に読み込まれてもよい。

0107

プログラムは、コンピュータ1801に、上記実施の形態による特許情報処理装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム1800がどのように動作するのかについては周知であり、詳細な説明は省略する。

0108

(実施の形態2)
本実施の形態において、第一言語で記述された1以上の特許書類に関する情報である第一特許情報と、第二言語で記述され、当該1以上の第一特許情報を翻訳して作成された1以上の特許書類に関する情報である第二特許情報とを受け付け、第一特許情報を構成する単位である第一検査単位と、第二特許情報を構成する単位である第二検査単位とを用いて、第一検査単位と第二検査単位との対応関係を取得し、出力する特許情報処理装置10について説明する。

0109

本実施の形態における特許情報処理装置10を含むシステムは、図1と同様である。すなわち、図1における特許情報処理装置1を、特許情報処理装置10に置き換えたシステムである。

0110

図11は、本実施の形態における特許情報処理装置10のブロック図である。特許情報処理装置10は、受付部101、機械翻訳部1006、第一検査単位取得部1002、第二検査単位取得部1003、対応情報格納部1007、検査部1004、出力部1005を備える。

0111

図11において、受付部101は、図2の受付部101と同様の動作を行うので、説明を省略する。

0112

機械翻訳部1006は、第一言語で記述された第一特許情報と、第二言語で記述された第二特許情報のテキストを、機械翻訳技術を用いて、いずれかの言語に統一する。すなわち、第一言語で記述された第一特許情報を第二言語へ翻訳する、もしくは第二言語で記述された第二特許情報を第一言語へ翻訳する。また、3以上の言語が受け付けられた場合、通常、直接比較する特許情報に含まれるいずれかの言語に翻訳する。例えば、第一特許情報Aがフランス語、第二特許情報B1が英語、第二特許情報B2が日本語である場合、AとB1を比較する場合は、フランス語か英語のいずれか、AとB2を比較する場合は、フランス語か日本語のいずれかに翻訳する。なお、機械翻訳技術については周知のため、説明を省略する。

0113

第一検査単位取得部1002は、実施の形態1の第一検査単位取得部102と同様に、1以上の各第一特許情報の一部であり、検査の対象である2以上の第一検査単位を、受付部101が受け付けた1以上の各第一特許情報から取得する。ここで、第一特許情報が機械翻訳部1006により機械翻訳されていた場合、文字列を含む各検査単位は、その文字列を翻訳したものへ置き換える。

0114

第二検査単位取得部1003は、第一検査単位取得部1002と同様に、各第二特許情報から第二検査単位を取得する。

0115

対応情報格納部1007は、第一特許情報を構成する部分である第一部分特許情報の示す項目を識別する第一項目識別子と、第二特許情報を構成する部分である第二部分特許情報の示す項目を識別する第二項目識別子との対応を示す1以上の情報である対応情報を格納する。

0116

ここで、第一部分特許情報の示す項目を識別する第一項目識別子とは、第一特許情報の記述言語におけるタグを意味する。タグとは、第一言語が日本語ならば、特許明細書における[課題を解決するための手段]や[発明の効果]といった、各書類において直後に文章が含まれる見出しを意味する。同様に、第二部分特許情報の示す項目を識別する第二項目識別子とは、第二特許情報の記述言語におけるタグを意味する。第二言語が英語ならば、{Solution to Problem}や、{Advantageous Effects of Invention}がタグである。また、第一項目識別子と第二項目識別子との対応を示す情報とは、同一もしくは類似した意味をもつタグの集合である。例えば、先の例の場合、[課題を解決するための手段]と{Solution to Problem}、[発明の効果]と{Advantageous Effects of Invention}が対応情報となる。なお、対応情報格納部1007に格納される対応情報は、あらかじめ格納されているものとする。

0117

ここで、第一項目識別子と第二項目識別子は、単純な文字列でも良く、正規表現などのパターンでも良い。例えば、第一項目識別子として、「請求項¥d+」という正規表現を格納しても良い(「¥d+」は0から9までの数字の1回以上の繰り返しを意味する)。

0118

また、対応情報格納部1007は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

0119

検査部1004は、対応情報格納部1007に格納された対応情報が対応を示す第一部分特許情報が有する2以上の各第一検査単位と、前記対応情報が対応を示す第二部分特許情報が有する2以上のいずれかの第二検査単位との対応を検査し、検査結果を取得する。すなわち、検査部1004は、対応情報格納部1007の対応情報を参照し、実施の形態1の検査部104(ステップS204)において、タグが異なるものは類似度算出の対象にしないとした場合と同様に、対応情報に基づいて、対応しない検査単位については類似度算出を行わない。

0120

ここで、対応情報格納部1007に格納されている対応情報のいずれにも当てはまらない第一項目識別子に対応する第一検査単位(例えば、独自のタグに属する段落)は、すべての第二検査単位に対して類似度算出を行っても良いし(いずれの第二検査単位とも対応しない)、行わなくても良い(すべての第二検査単位と対応する可能性がある)。また、同様に、対応情報格納部1007に格納されている対応情報のいずれにも当てはまらない第二項目識別子に対応する第二検査単位は、すべての第一検査単位に対して類似度算出を行っても良いし、行わなくても良い。

0121

出力部1005は、実施の形態1の出力部105と同様に、検査部104が取得した検査結果を出力する。なお、出力部1005は、翻訳したテキストの代わりに原文を出力しても良く、翻訳したテキストと原文の両方を出力しても良い。

0122

次に、特許情報処理装置10の動作について図12のフローチャートを用いて説明する。図12は、特許情報処理装置10の全体動作を表すフローチャートである。

0123

(ステップS1101)受付部101は、継承関係にある2以上の特許情報が入力された場合、S1108へ進む。そうでない場合、前記情報が入力されるまで待機する。

0124

(ステップS1108)機械翻訳部1006は、第一特許情報もしくは第二特許情報の言語が統一されるようにいずれかのテキストを機械翻訳する。

0125

(ステップS1102)第一検査単位取得部1002は、受け付けられたすべての第一特許情報について、HTMLのタグや特許公開公報などに存在する隅付き括弧で括られた文字列、インデント(行頭のスペース)をもとに各書類から第一検査単位を取得する。この際、第一特許情報がステップS1108により機械翻訳されていた場合、検査単位に含まれる文字列を翻訳後のものと置き換える。

0126

(ステップS1103)第二検査単位取得部1003は、ステップS1102と同様の方法で、第二特許情報から第二検査単位を取得する。

0127

(ステップS1104)検査部1004は、対応情報格納部1007を参照し、対応する可能性のある第一検査単位と第二検査単位の組について類似度の算出を行う。

0128

(ステップS1105)検査部1004は、実施の形態1のステップS205と同様に、類似度をもとに対応関係を取得する。

0129

(ステップS1106)出力部1005は、検査部1004が取得した検査結果を、出力する形に加工する。なお、ディスプレイなどの画像表示装置に出力する場合の具体的な出力のイメージは後述する。

0130

(ステップS1107)出力部105は、ステップS1106で構成した情報を出力する。

0131

また、図12のフローチャートにおいて、ステップS1102とステップS1103の動作の順序は問わない。

0132

以下、本実施の形態における特許情報処理装置10の具体的な動作について説明する。なお、本具体例において示した各図面の情報は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。また、本具体例において、受付部101が受け付ける「特許情報A.file」と「特許情報C.file」は、図13のように、それぞれ第一特許情報Aと第二特許情報Cを含むファイルであるとする。また、各特許情報は、特許請求の範囲と明細書、図面を含むものとする。なお、第一特許情報Aは図5のものと同一である。

0133

また、本具体例において、対応情報格納部1007に格納されている対応情報は図14のようであるとする。図14において、「(Technical )?」は、「Technical 」があってもなくても良いことを意味し、「¥d+」は、1回以上の数字の繰り返しを意味する。

0134

また、本具体例において、第一検査単位取得部1002と第二検査単位取得部1003が取得するテキストの検査単位は、請求項ならびに段落を用いるものとする。

0135

また、本具体例において、検査部1004は、テキストで構成される検査単位間の類似度と図面で構成される検査単位間の類似度として、コサイン類似度等の0から1までの実数で表され1のときに最も類似している類似度を用いる。また、検査部1004は、上記(B)の方法(図4の方法)を用いて、第一検査単位と第二検査単位が1対1の関係になる対応関係を検査するものとする。

0136

また、本具体例において、出力部105は、ディスプレイ等の画像表示装置への出力を行う。また、出力部105は、第一閾値を0.8、第二閾値を0.6と設定し、第一検査単位との類似度が0.8以上となる第二検査単位が存在する結果をA、第一検査単位との類似度が0.6未満となる第二検査単位しか存在しない結果をC、および第一検査単位との類似度が0.6以上であり、かつ0.8未満である第二検査単位が存在する結果をBと判定し出力する。

0137

ユーザ端末2のユーザが、実施の形態1の具体例と同様に、ファイルを指定することで、受付部101が「特許情報A.file」と「特許情報C.file」を受け付ける(ステップS1101)。

0138

機械翻訳部1006は、特許情報Cに対して英日翻訳を行う。

0139

第一検査単位取得部1002は、「特許情報A.file」から請求項と明細書の段落、図面を抽出し、検査単位を生成し、それを「特許情報A.file」に現れる順序にならべた検査単位列を取得する(ステップS1102)。

0140

第二検査単位取得部1003は、「特許情報C.file」から請求項と明細書の段落、図面を抽出し、検査単位を生成し、さらに、各検査単位に含まれる文字列を翻訳したものと置き換え、それを「特許情報B.file」に現れる順序にならべた検査単位列を取得する(ステップS1103)。ステップS1102とステップS1103の結果、図14のような検査単位列が取得される。

0141

検査部1004は、図7の検査単位列が入力されると各検査単位の対応を検査する(ステップS1104、S1105)。

0142

検査部1004は、はじめに、対応情報格納部1007が保持する図14の対応情報を参照し、検査単位組の類似度を算出する。図14で示した範囲では、(a1,c1),(a1,c2),(a1,c3),(a2,c1),(a2,c2),(a2,c3),(a3,c1),(a3,c2),(a3,c3),(a4,c4),(ai,ak)の合計11組の類似度を算出する。この結果、図16のような類似度が算出される。

0143

次に、検査部1004は、図16の結果から検査単位の対応を検査する。図16の場合、はじめに、Rank 1の第一検査単位a1と第二検査単位c1が対応関係にあると決定する(ステップS303、S304)。そして、第一検査単位a1、もしくは第二検査単位c1を含むすべての検査単位組を取り除く。この場合、Rank x+1,x+2,x+3,x+4を取り除く(ステップS305)。次に、残った検査単位組のなかで最も高い類似度をもつ検査単位組であるRank2の第一検査単位a3と第二検査単位c3を対応関係にあると決定する。以上の処理を繰り返すことで、最終的に図17の検査結果を取得することができる。

0144

出力部1005は、検査部1004が取得した検査結果から出力データを構成する(ステップS1106)。例えば、実施の形態1の場合と同様の方法で出力を構成した例を図18に示す。なお、図18では、第二特許情報について、元のテキストの他に機械翻訳の結果も同時に出力している。そして、出力部1005は構成した出力データを実際に出力する(ステップS1107)。

0145

以上、本実施の形態によれば、基礎出願と外国出願との対応を検査し、検査結果を出力できる。また、本実施の形態によれば、基礎出願と外国出願との対応を検査し、適切な検査結果を出力できる。

0146

なお、本実施の形態において、機械翻訳部1006を備える場合について説明したが、特許情報処理装置10は、機械翻訳部1006を備えなくても良い。機械翻訳部1006がない場合、検査部1004は、個別言語への依存度が低い類似度算出方法、例えば、実施の形態1でも述べた、テキスト中の記号のみを用いた類似度算出方法を用いることで、検査単位間の対応関係を検査できる。

0147

また、機械翻訳部1006は、テキストに加え、図面内に存在する文字列も翻訳しても良い。この場合、OCR(光学文字認識)技術を用いて図面に含まれる文字を抜き出して翻訳する。翻訳した文字列についても、翻訳後の文字列を画像化し、図面の元の文字列が存在した場所に再配置しても良いし、図面間の類似度の算出に用いても良い。

0148

また、機械翻訳部1006は、テキスト全体を機械翻訳するのではなく、テキストの一部分のみを翻訳しても良い。例えば、テキスト中の名詞のみを翻訳しても良い。この場合、機械翻訳部1006を備えない場合と同様に、検査部1006は、個別言語への依存度が低い類似度算出方法を用いる。

0149

なお、本実施の形態において、対応情報格納部1007を備える場合について説明したが、特許情報処理装置10は、対応情報格納部1007を備えなくても良い。対応情報格納部1007がない場合、検査部1004は、種類が同一のすべての検査単位組について類似度を算出し、検査を行う。

0150

また、上記実施の形態は、実施の形態1と同様に、各構成要素は専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。なお、上記実施の形態における特許情報処理装置を実現するソフトウェアは、以下のようなプログラムである。

0151

また、上記実施の形態における特許情報処理装置10を実現するソフトウェアは、以下のようなプログラムである。つまり、コンピュータがアクセス可能な記録媒体は、第一特許情報を構成する部分である第一部分特許情報の示す項目を識別する第一項目識別子と、第二特許情報を構成する部分である第二部分特許情報の示す項目を識別する第二項目識別子との対応を示す情報である1以上の対応情報が格納される対応情報格納部を具備し、コンピュータを、1以上の第一言語で記述された特許書類に関する情報である第一特許情報と、当該1以上の第一特許情報に基づいて作成され第二言語で記述された特許書類に関する情報である第二特許情報とを受け付ける受付部、前記第二特許情報を第一言語に機械翻訳し、第一言語で記述された特許書類に関する情報である第二翻訳情報を取得する、もしくは前記第二特許情報を第一言語に機械翻訳し、第一言語で記述された特許書類に関する情報である第二翻訳情報を取得する機械翻訳部、前記第一特許情報もしくは第一翻訳情報の一部であり、検査の対象である2以上の第一検査単位を前記1以上の各第一特許情報もしくは第一翻訳情報から取得する第一検査単位取得部、前記第二特許情報もしくは第二翻訳情報の一部であり、検査の対象である2以上の第二検査単位を前記1以上の各第二特許情報もしくは第二翻訳情報から取得する取得する第二検査単位取得部、前記2以上の各第一検査単位と前記2以上の第二検査単位との対応を検査し、検査結果を取得する検査部検査部が取得した検査結果を出力する出力部として機能させるためのプログラムである。

0152

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、または分散処理を行ってもよい。例えば、機械翻訳部1006の処理を異なるコンピュータで行っても良い。

0153

また、対応情報格納部1007はネットワーク等で繋がった別のコンピュータに保存されていても良い。

0154

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

0155

以上のように、本発明にかかる特許情報処理装置は、先の出願と優先権主張出願との対応または基礎出願と外国出願との対応を検査し、検査結果を出力できるという効果を有し、特許情報処理装置等として有用である。

0156

1特許情報処理装置
10 特許情報処理装置
101 受付部
102 第一検査単位取得部
103 第二検査単位取得部
104検査部
105 出力部
1002 第一検査単位取得部
1003 第二検査単位取得部
1004 検査部
1005 出力部
1006機械翻訳部
1007対応情報格納部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 新妻弘崇の「 遅延メモリ行列を用いたotsu-gram」が 公開されました。( 2021/08/19)

    【課題】自然言語処理などで時系列データの特徴量として良く利用されるn-gramにおいてnを職人芸で調節しないといけない問題を解決し、自動的に適切な特徴が選択されるotsu-gramを提供する。【解決手... 詳細

  • 株式会社野村総合研究所の「 文章構造描画装置」が 公開されました。( 2021/08/19)

    【課題】特許出願書類などの比較的難読性の高い文章を分かりやすくするためのユーザインタフェース技術を提供する。【解決手段】文章構造描画装置は、文章を取得する手段と、取得された文章を構文解析する手段と、構... 詳細

  • 富士通株式会社の「 情報提示プログラム、装置、及び方法」が 公開されました。( 2021/08/19)

    【課題】過去の対応情報に基づくナレッジの作成を支援する有用な情報を提示する。【解決手段】発生した事象に対する対応の内容が記録された複数の対応情報を類似度でグループ化し、各グループについて優先度を算出し... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ