図面 (/)

技術 言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体方法

出願人 カテナ株式会社
発明者 龍忠光
出願日 1998年7月7日 (22年7ヶ月経過) 出願番号 1998-205765
公開日 2000年1月21日 (21年0ヶ月経過) 公開番号 2000-020520
状態 拒絶査定
技術分野 機械翻訳
主要キーワード データ順番 タスク状況 登録判定処理 検索種類 充当処理 実行番号 判定辞書 仮データ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2000年1月21日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

目的

操作者が自由に入力した自然語コンピュータが取り扱える形式情報化し、処理を進める。その情報の形式は、操作者がその入力文で伝えたい話題に適した形に柔軟に変化する機能を備え、その話題に沿って、認識し、作動する。

構成

入力文および状況に応じて変化する処理モード切り替え部。入力文を解析する際に重要単語を見つけ出し,その重要単語にかかわる単語から,文の構造を把握し、さらに対話処理によって操作者の意図を確認して、操作者の意図に沿った話題性概念(話題性リスト)を抽出し、そのリストに入力文を割り当てて処理を進める本処理部。単語の意味、他の単語との関連、話題性との関連をデータとして格納した単語辞書。過去における入力文を処理した内容、処理の結果としてのデータを格納した知識データベース。以上の構成からなり、認識結果を反映して、情報の検索、実行、格納を行う。

概要

背景

従来、コンピュータ解析、認識、処理の対象とする言語は、プログラム言語に代表される一定の形式で設計された人工語であった。コンピュータを使用した事務処理分野において、自然語文書の入力・出力(表示、印刷)、自然語の文書の蓄積、自然語の文書の作成・編集・管理が行われているが、自然言語文字列として処理が行われているだけであった。日本語ワープロにおいては、日本語をかな漢字変換技術により形態素列として処理している。

人工知能技術において、学習、類推、知識を中心課題として、これらを一般的、基礎的に研究されているが、ごく単純な構造を定式化されているだけで、自然言語によって学習し、類推し、知識処理をしていく総合的システムになるまでには至っていない。

概要

操作者が自由に入力した自然語をコンピュータが取り扱える形式に情報化し、処理を進める。その情報の形式は、操作者がその入力文で伝えたい話題に適した形に柔軟に変化する機能を備え、その話題に沿って、認識し、作動する。

入力文および状況に応じて変化する処理モード切り替え部。入力文を解析する際に重要単語を見つけ出し,その重要単語にかかわる単語から,文の構造を把握し、さらに対話処理によって操作者の意図を確認して、操作者の意図に沿った話題性概念(話題性リスト)を抽出し、そのリストに入力文を割り当てて処理を進める本処理部。単語の意味、他の単語との関連、話題性との関連をデータとして格納した単語辞書。過去における入力文を処理した内容、処理の結果としてのデータを格納した知識データベース。以上の構成からなり、認識結果を反映して、情報の検索、実行、格納を行う。

目的

ユーザーが自由に入力した自然言語をコンピュータが取り扱える形式に情報化して、処理を進める方法、あるいはシステムが望まれていた。本発明が解決しようとする課題は、入力された自然言語をコンピュータの解析、認識、処理の対象とすることができる方法、あるいはシステムを提供することである。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

コンピュータを使用した言語解析認識処理において、現在のタスク監視しつつ、入力文形式に応じて前記言語解析認識処理のモードを切り替えて処理を進めることを特徴とする方法、システム

請求項2

コンピュータを使用した言語解析認識処理において、現在のタスクを監視しつつ、操作者の要求に応じて前記言語解析認識処理のモードを切り替えて処理を進めることを特徴とする方法、システム。

請求項3

前記言語解析認識処理のモードは、文章入力処理、単語入力処理文書群入力処理から選ばれた少なくとも1つであることを特徴とする特許請求範囲第1項および第2項記載の方法、システム。

請求項4

前記モードの切り替えは、メニューによるものとして、メニューの内容、起動のタイミングが、現在のタスクおよび入力文に連動していることを特徴とする特許請求範囲第1項記載の方法、システム。

請求項5

前記モードの切り替えは、メニューによるものとして、現在のタスクの状況および操作者の要求に応じたメニューの内容で、所望のタイミングで起動させておこなうことを特徴とする特許請求範囲第2項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項6

コンピュータを使用した言語解析認識処理において、その構成の中に次に列記した辞書から選ばれる少なくとも1つを構成に含む辞書を参照して処理を進めて進めていくことを特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。単語辞書として、1)構文要素辞書2)指示表明語辞書3)動詞辞書4)形容詞辞書5)形容動詞辞書6)助動詞7)無視可能語辞書8)概念語辞書そのほかの辞書として9)決り文句辞書10)足らず辞書11)構文辞書12)です・ます判定辞書13)活用形体辞書

請求項7

前記決り文句辞書には、挨拶言葉相槌システムコマンドからから選ばれた少なくとも1つ以上が含まれていることを特徴とする特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項8

前記構文要素辞書は、1)助詞、単位から構成される言い回し言葉2)動詞語尾、形容詞の語尾、形容動詞の語尾から構成される指示表明語の語尾3)重文を表現するのに使われる接続詞接尾辞から選ばれた少なくとも1つの要素を含んでいることを特徴とした特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項9

前記指示表明語辞書は、普通名詞固有名詞、動詞の語幹、形容詞の語幹、形容動詞の語幹、疑問詞、代名詞副詞時制語、感嘆詞、擬似語、数字接頭辞敬称語から選ばれた少なくとも1つの要素を含んでいることを特徴とした特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項10

前記辞書を参照して、入力文から単語を抽出し、処理を進めていくことを特徴とした特許請求範囲第6項記載の方法、システム。

請求項11

否定文処理において、否定対象の単語を検索し、前記単語に否定を示す識別符号を付与し、前記識別記号を付与した単語を1つの単語として登録して処理を進めていくことを特徴とする特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項12

コンピュータを使用した言語解析認識処理において、入力文中に検出された読点「。」「?」は文の終わりとし、キャリッジリターン(CR)又は実行命令と同じとすることを特徴とした方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項13

前記単語は、属性名と属性値との対で構成される属性のリストとして、データ処理されることを特徴とした特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項14

前記属性は1)単語名2)読み3)指示表明語、構文要素、無視可能語を構成要素とする入力文を分解するための分類、4)普通名詞、固有名詞、動詞の語幹、形容詞、形容動詞、疑問詞、代名詞、副詞、時制語、感嘆詞、擬似語、数字、接頭辞、敬称語、感動詞、決り文句からなる表明語の意味を把握するための分類5)活用形6)です系演算子フラグ7)動作性名詞フラグ8)ロール8)格リスト9)概念語フラグ10)名称概念11)第一次上位概念12)上位概念13)話題性概念名(話題性リンク)13)話題性リスト14)同義語15)単数反対語フラグ(該単語が唯一の反対語を持つことを示す)16)属性名フラグ(該単語が、入力文中では属性名として出現することを示す)17)属性値フラグ(該単語が、入力文中では属性値として出現することを示す)18)属性値単数フラグ(該単語が属性名のときは、属性値は1つしか取れないことを示す)19)属性値/属性名フラグ(該単語が、入力文中では属性値としても属性名としても出現することができることを示す)20)下位概念21)類似語22)複合語本体23)AND、OR論理演算子の単語を含む複合語構成単位から選ばれる少なくとも1つであることを特徴とする特許請求範囲第13項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項15

入力文中に、「名詞+名詞+・・・・+名詞」という複数の名詞が連続して連なる形式が検出された場合、前記形式を一個の単語すなわち複合語(名詞語と定義する)として処理を進めることを特徴とする特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項16

前記形式を1つの名詞語として前記単語辞書に登録することを特徴とする特許請求範囲第15項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項17

前記登録した複合語の属性として、前記形式を構成する単語を登録し、該単語の少なくとも1つを重要語として重み付けをなされることを特徴とする特許請求範囲第16項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項18

前記形式を構成する各単語のそれぞれの属性として、前記形式の名詞語を登録することを特徴とする特許請求範囲第16項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項19

前記形式を構成する各単語の属性において、話題性概念に会社組織が登録されている場合、前記複合語をする部、課、すなわち「名詞+名詞+・・・・+名詞+部」、「名詞+名詞+・・・・+名詞+課」も単語辞書に登録することを特徴とした特許請求範囲第16項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項20

「形容詞+形容詞+・・+形容詞+名詞」の形式が検出された場合、前記形式を一個の単語、すなわち、複合語(形容詞語と定義する)として設定して処理を進めることを特徴とする特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項21

「接頭辞+名詞」、「名詞+敬称」から選ばれる少なくとも1つの形式を検出した場合、前記形式を一個の単語、すなわち、複合語(敬称語と定義する)として設定して処理を進めることを特徴とする特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項22

andやorの論理演算子に相当する単語が検出された場合、該andやorの論理演算子に相当する単語の前後に位置する単語を含めて一個の単語として処理を進めることを特徴とする特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項23

数字が検出された場合、連続する数字を「数字」という名詞を修飾する形容詞とし、「数字というキャラクター+数字」を数字語再定義して処理を進めて行くことを特徴とした特許請求範囲第10項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項24

前記数字の後に単位を示す語が続く場合、「数字というキャラクター+数字+単位」を数字語と定義する事を特徴とした特許請求範囲第23項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項25

前記属性に記されている動作性名詞フラグにおいて、フラグが立っている場合、1)名詞+動作性名詞2)動作性名詞+する3)動作性名詞+です4)です+動作性名詞+(ます系、あるいは時制の言い回し)から選べる少なくとも1つの組み合わせを動詞として処理を進めることを特徴とした特許請求範囲第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項26

前記属性に記されている動作性名詞フラグにおいて、1)名詞+をしに2)名詞+しに3)名詞+に+ます系4)名詞+する5)です+動作性名詞+(ます系、あるいは時制の言い回し)から選ばれる少なくとも1つの形式が入力文中に検出された場合、フラグを立てることを特徴としたと特許請求範囲第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項27

代名詞+動詞、動詞のみ、代名詞のみ、主語も動詞もない表明語、感嘆詞のみのどれか1つで構成されている入力文を舌足らず辞書に登録することを特徴とする特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項28

前記登録された舌足らず文は、ユーザー使用頻度、そのタスク、その時期から選ばれる少なくとも1つを含む状況データが該登録された舌足らず文のデータにリンクされていることを特徴とする前記特許請求範囲第27項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項29

コンピュータを使用した言語解析認識処理において、入力文を構文データ、正常文データから構成される複合データとして処理していることを特徴とした方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項30

前記正常文データおよび前記構文データは、リンクデータで関連している複合データであることを特徴とする特許請求範囲第29項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項31

コンピュータを使用した言語解析認識処理において、入力文から構成される文書の処理において、1)前記文データで構成される複合データ、すなわち文書データとすること2)前記文データを適当な属性に充当すること3)前記属性のリストから構成される文書データを生成すること以上を特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項32

コンピュータを使用した言語解析認識処理において、入力文から構成される文書の処理において、1)前記文書を複数の文書データで構成される複合データ、すなわちスーパー文書データとすること2)前記文書データに適当な属性に充当すること3)前記属性のリストから構成されるスーパー文書データを生成すること以上を特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項33

入力文に対して前記構文辞書および前記構文要素辞書を参照し、重文、構文が検出された場合、前処理によって重文、構文のない正常文を抽出し、処理を進めていくことを特徴とした特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項34

特許請求範囲第33項記載の言語解析認識処理において、1)あらかじめ用意した前記構文辞書および構文要素辞書を参照して重文、構文を検出すること、2)重文が検出された場合、前記入力文を重文がなくなるまで分解し、生成した文データの集まりとして処理すること、3)重文の存在は、文データ間のリンクデータとして処理すること、4)文データ中の構文は、正常文データと関連する構文データとして処理すること、以上を特徴とした方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項35

前記正常文データの処理において、構文要素辞書および指示表明語辞書を参照して、構文要素を切り出し、さらに、その間に出てくる文字列から指示表明語を切り出して、構文要素および指示表明語のない文字列を抽出して処理を進めていくことを特徴とした特許請求範囲第34項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項36

前記構文が、1)「ます+名詞+です」の形式2)「・・・+ある」の形式3)「・・・+言う」の形式4)「・・・+思う」の形式5)「・・・+ある」の形式6)「・・・+の+助詞」の形式7)「・・・+の+です」の形式から選ばれた少なくとも1つの形式であることを特徴とする特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項37

前記構文辞書において、それぞれの構文に対して、構文要素、構文要素の配置、そして構文要素の直前にくる単語の属性を登録してあることを特徴とする特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項38

入力文に対して、前記決り文句辞書を参照して決り文句が検出された場合、決り文句処理を行い、決り文句を切り出して、決り文句のない文字列を抽出して処理を進めていくことを特徴とした特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項39

コンピュータを使用した言語解析認識処理において、決り文句辞書を参照して決り文句が検出された場合、決り文句処理を行い、決り文句を切り出して、決り文句のない文字列を抽出し、さらに、構文要素辞書および指示表明語辞書を参照して、構文要素を切り出したうえで、その間に出てくる文字列から指示表明語を切り出して残った文字列に対して、1)動詞辞書、形容詞辞書、形容動詞辞書を参照して、動詞の語幹、形容詞の語幹、形容動詞の語幹を抽出し、さらにそれらに続く残った文字列をまとめて語尾として処理すること2)前記残った文字列を助動詞辞書、助詞辞書を参照して、活用語尾と助動詞の組み合わせを抽出し、この組み合わせに対してあらかじめ用意した前記活用形体辞書を参照して、ロール(活用事象、肯否、意味)を決定すること3)前記ロールを属性名として、先頭に動詞、形容詞、形容動詞の語幹がある場合は前記語幹を属性値、先頭が助動詞の場合は助動詞の終止形を属性値とすることで属性のデータを生成すること4)くず語、無視可能語辞書を参照し助詞は無視すること以上を特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項40

前記活用形態辞書においては、1)事象とは現在、過去、予定予測であること2)肯否とは肯定、否定であること3)意味とは使役、受身、可能、自発、尊敬、希望意志、状況、比況、伝聞、様態、丁寧、掛け声、命令であること以上を特徴とする特許請求範囲第6項および第34項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項41

入力文に対して前記構文辞書および前記構文要素辞書を参照し、重文、構文が検出された場合、前処理によって重文、構文のない正常文を抽出し、処理を進めていく言語解析認識処理において、前記正常文に対して、1)前記です・ます判定辞書を参照して、「です」文、「ます」文の判定をするステップ2)です文データと判定された場合、ですスキーマから主文データを生成し、、節を抽出するステップ3)ます文データと判定された場合、演算子の格リストから主文データを生成し、句、節を抽出するステップ4)前記抽出された句、節から、句データ節データを生成するステップ6)主文データを構成する単語データに対してリンクデータによって句データ、節データを関連させるステップ以上のステップで処理を進めていくことを特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項42

前記ですます判定辞書は、「です」、「だ」、「です」系の言い回し、「です」系ロール、「ます」系ロールおよび、ですスキーマから選ばれた少なくとも1つから構成されることを特徴とする特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項43

前記ます文の解析において1)ます系と判定された文章が入力されると、演算子を抽出し、単語辞書を参照して、その格リストを呼び出すステップ2)前記格リストを構成する属性と一致する属性を持つ指示表明語を検出するステップ3)前記検出された指示表明語を前記格リストに充当して、正常文データを生成するステップ以上のステップを特徴とする言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項44

入力文を分解し抽出した単語を前記単語辞書と照合し、疑問詞ロールを属性に持つ場合、疑問文と判定する機能を備えたことを特徴とする特許請求範囲第6項記載の言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項45

入力文中の単語に対して前記単語辞書を参照し、その属性において概念フラグが立っている単語を抽出し、残った単語を前記概念の下位概念として登録することを特徴とする特許請求範囲第6項および第14項記載の言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項46

前記格リストは、入力文を処理し、文データを生成するために必要な属性のリストであることを特徴とする特許請求範囲第14項および第43項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項47

入力文を解析し、1)構文要素を検出し、前記構文要素辞書からそのロールを呼び出すステップ2)前記構文要素の直前の指示表明語を単語辞書に照合し、前記指示表明語の上位概念を呼び出すステップ3)前記検出された構文要素から分かるロールと前記上位概念と照合し一致を判定するステップ4)一致する場合、前記指示表明語をそれぞれ属性名もしくは属性値に充当し作成した属性のリストで文データを生成するステップ以上のステップを特徴とする特許請求範囲第46項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項48

前記検出された構文要素から分かるロールと前記上位概念とが一致しない場合、操作者に問い合わせの出力文送出し、その操作者から入力された情報を獲得して、必要に応じて新しい属性のリストを作成し、そのリストに前記指示表明語を割り当てることで文データを生成し入力文を認識させることを特徴とする特許請求範囲第47項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項49

コンピュータを使用した言語解析認識処理方法において、入力文中にあらかじめ与えられた話題性概念あるいはユーザーが決めた話題性概念の下位概念に含まれる単語が出現した場合に、前記話題性概念に対応する格リスト(話題性リスト)を前記単語辞書から呼び出して処理を進めることを特徴とする特許請求項第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項50

入力文を解析して1)抽出した指示表明語から話題性概念を取り出すステップ2)「人」以外に話題性がない場合、未確認フラグをたてて処理を進めるステップ3)2種類以上の話題性がある場合、多い話題性を抽出するステップ以上のステップを特徴とする特許請求範囲第49項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項51

入力文から話題性概念を属性にもつ単語を抽出し、前記単語辞書から前記単語の話題性リストを呼び出し、前記リストにある属性名と同じ属性名を持つ単語を属性値として格納していくことを特徴とする特許請求範囲第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項52

入力文中から抽出された助詞のロールから格リストを生成し、前記話題性概念に対応する話題性と前記生成した格リストと一致しない場合、操作者に問い合わせの出力文を送出し,操作者から入力された情報を獲得して処理を進めることを特徴とする特許請求範囲第49項記載の言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項53

前記辞書を参照して入力文中に動詞が検出されれば、動詞辞書から該動詞の格リストを呼び出し、該入力文を構成する単語の属性名に当てはまるものがあれば、その格リストに該単語を格納していくことで該入力文を格認識していくことを特徴とする特許請求範囲第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項54

前記格リストにある属性名と同じ属性名を持つ属性を持つ単語が検出されなかった場合、前記属性について操作者に聞き返すことをで必要とする単語を獲得して、該格リストを充当し認識処理を進めていくことを特徴とする特許請求範囲第53項記載の言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項55

コンピュータを使用した言語解析認識処理において1)前記充当作業が繰り返された場合、前記格リストに充当の対象となった属性が登録されるステップ2)前記登録された属性に充当すべきか判定するステップを特徴とする特許請求項第54項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項56

生成される文データの名称は、その文データの格リスト中にある主格に格納される属性値、前記話題性を属性に持つ単語の名称から選ばれる少なくとも1つから構成されることを特徴とする言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項57

コンピュータを使用した言語解析認識処理方法において、1)過去におこなった言語認識処理の内容およびその処理の結果として生成されたデータを知識として登録しておくこと2)その知識は、必要に応じて他の知識と関連付けられ構造化されること以上を特徴とする知識データベースを備えたことを特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項58

コンピュータを使用した言語解析認識処理において、過去に行った言語認識処理の結果として新たに登録された知識を、一定期間における使用頻度、重要度に応じて重み付けを行い、前記単語辞書、その他の辞書から選ばれる少なくとも1つに登録することを特徴とする特許請求範囲第6項記載の単語辞書を使用することを特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項59

前記単語辞書および知識データベースを使用した言語解析認識処理において、1)グループを設定するステップ、2)入力文から抽出された単語に対して、名称、記号、文字列から選ばれる少なくとも1つのアイデンティティーを前記グループに登録していくステップ、3)前記アイデンティティーを仲介にして、前記入力文から抽出された単語名、ロール名、話題性名、上位概念、スキーマから選ばれた少なくとも1つをリンクしていくステップ以上を特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項60

必要に応じて選ばれた単語に対して、前記単語の属性としてユーザーが任意の単語を同義語として設定していく同義語処理を特徴とする特許請求範囲第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項61

言語分析認識処理を用いた検索において、前記グループをまず検索し、次に一般概念を検索するという2段階の検索を特徴とする特許請求範囲第59項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項62

前記グループ外部へ情報を発信する場合、前記情報を一般概念に変換してから送ることを特徴とする特許請求範囲第59項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項63

前記属性に列記された概念において、1)上位概念、第一次上位概念、名称概念は、この順番に上位から下位に向かう3層の階層を形成していること、2)第一次上位概念の中で話題性と設定した単語のリストを話題性概念とすること3)名称概念は、単語の名称を具体物とすること以上を特徴とする特許請求範囲第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項64

前記インスタンスにおいて、その属性値に対して、ロールを設定していくことを特徴とした前記特許請求範囲第63項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項65

前記属性に記された概念語フラグ1)第一次上位概念フラグ2)話題性フラグ3)上位概念フラグにおいて、前記第一次上位概念フラグは、4)名称概念、第一次上位概念から選ばれた少なくとも1つからなること、5)話題性フラグは設定により任意に選ばれること、6)上位概念フラグは人、動物、場所、物から選ばれる少なくとも1つからなること、以上を特徴とする前記特許請求項第14項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項66

入力文中の代名詞に対して、前の文章中を構成する単語の属性を参照し、上位概念が同じ名詞を検索して充当することを特徴とする特許請求範囲第14項記載の言語分析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項67

前記検索において、あらかじめ設定された数量だけ過去の入力文を遡って検索が働き、代名詞の具体的内容を充当し処理を進めていくことを特徴とする特許請求範囲第66項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項68

あらかじめ登録された時制を示す単語に対して、使用するコンピュータのタイマーから読み取られる時間を充当して、処理を進めていくことを特徴とする言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項69

入力文中に前記時制を示す語が検出された場合、現在の年月日時分を見て絶対値に変換することを特徴とする前記特許請求範囲第68項記載の言語解析認識方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項70

入力文において、1)代名詞が含まれていること、2)動詞がないこと、3)感嘆詞を含んで文章の形式を完成していないことから選ばれる少なくとも一つの条件に一致する舌足らずな入力文であって、前記属性割当処理、聞き返し処理から選ばれた少なくとも1つの処理が、あらかじめ設定された回数繰り返された場合、前記舌足らずな入力文が登録されて処理が進められることを特徴とする特許請求範囲第28項記載の言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項71

前記決り文句辞書に登録されている文字列が検出された場合、登録された出力文を発信することを特徴とする特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項72

前記決り文句の処理において、ユーザーの格付け判定を行い、格付けに応じて前記出力文に対して編集処理が行われることを特徴とする特許請求範囲第71項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項73

前記決り文句の処理において、タイマーから時制条件を抽出し、その時制条件に応じて、前記出力文に対して編集処理が行われることを特徴とする特許請求範囲第71項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項74

言語解析認識処理において、前記決り文句が、入力文中に検出された場合、1)操作者に対して予め設定しておいた理由確認のメッセージを送出して、前記操作者からの入力を催促すること、2)前記操作者からの入力により処理を進めていくこと、以上を特徴とする特許請求範囲第71項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項75

前記操作者からの入力は自由入力とし、該入力文に対して決り文句辞書に格納された話題性リストを参照して、必要とする情報を獲得して処理を進めることを特徴とした前記特許請求項第74項記載の特許請求範囲第71項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項76

前記話題性リストが充当されなかった場合、予め設定したメッセージを送出し充当されなかった属性(格)に関する情報の入力を促して処理を進めることを特徴とした前記特許請求項第75項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項77

前記無視可能語辞書を参照し、無視可能語が検出された場合、その語を省いて処理を進めることを特徴とした特許請求範囲第6項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項78

コンピュータを使用した言語解析認識処理において、1)入力文中に処理しきれない文字列が残る場合、聞き返し辞書を参照し、聞き返しの決り文句を出力しユーザーに必要な情報の入力を促すこと2)ユーザーからの返事の入力あるいは、入力の無い状態の所定時間経過を待って処理を進めること以上を特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項79

前記聞き返しに対するユーザーの答えが、聞き返し辞書に登録されている返事文から予測される答えと一致しなかった場合、聞き返し辞書を参照し、聞き返しの決り文句を出力し、再度ユーザーに必要な情報の入力を促すことを特徴とする特許請求範囲第78項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項80

コンピュータを使用した言語解析認識処理において、1)連続する入力文の集まりを分析し話題性の変化点を検出すること2)その変化点と前に検出された変化点によって、その話題性の継続する範囲を確定すること3)その範囲内にある入力文のうち話題性の検出されなかった文章を抽出し、その文章から抽出される属性を前記話題性の要素として登録すること4)話題性の出現する頻度を監視して,低い頻度のものを消去すること以上を特徴とする言語解析認識処理の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項81

コンピュータを用いた言語解析認識処理において、入力文の文型判断して、格納処理検索処理実行処理から選ばれる少なくとも1つの処理に移ることを特徴とする方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項82

前記文型判断はにおいて、1)演算子の命令形2)APコマンド3)予め登録された実行の言葉4)予め登録された検索の言葉から選ばれる少なくとも1つによって、判断されることを特徴とする特許請求範囲第81項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

請求項83

前記文型判断の結果、疑問文と判定され場合において、1)疑問文に対する回答を検索する条件を抽出すること2)操作者の設定したグループ概念を参照して検索処理を進めること以上を特徴とする特許請求範囲第81項記載の方法、システム、言語解析認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体。

発明の効果

0001

本発明はコンピュータを使用した自然言語解析、認識、処理の方法、システム言語認識処理プログラムを格納した記憶媒体、および、その方法で作成されたデータ群を記録した記憶媒体に関する。

背景技術

0001

ユーザーが自由に入力した自然言語をコンピュータが取り扱える形式情報化して、処理を進めることができる。

0002

従来、コンピュータの解析、認識、処理の対象とする言語は、プログラム言語に代表される一定の形式で設計された人工語であった。コンピュータを使用した事務処理分野において、自然語文書の入力・出力(表示、印刷)、自然語の文書の蓄積、自然語の文書の作成・編集・管理が行われているが、自然言語を文字列として処理が行われているだけであった。日本語ワープロにおいては、日本語をかな漢字変換技術により形態素列として処理している。

発明が解決しようとする課題

0003

人工知能技術において、学習、類推、知識を中心課題として、これらを一般的、基礎的に研究されているが、ごく単純な構造を定式化されているだけで、自然言語によって学習し、類推し、知識処理をしていく総合的システムになるまでには至っていない。

課題を解決するための手段

0004

ユーザーが自由に入力した自然言語をコンピュータが取り扱える形式に情報化して、処理を進める方法、あるいはシステムが望まれていた。本発明が解決しようとする課題は、入力された自然言語をコンピュータの解析、認識、処理の対象とすることができる方法、あるいはシステムを提供することである。

0005

本発明においては、現在のタスク監視しつつ、入力文に応じて言語解析認識処理のモードを切り替えて処理を進める。あるいは、操作者の必要に応じて前記言語解析認識処理のモードを切り替えて処理を進める。

0006

前記言語解析認識処理のモードは、文章入力処理、単語入力処理文書入力処理、から選ばれた少なくとも1つである。また、前記モードの切り替えは、メニューによるものとして、メニューの内容、起動のタイミングが、現在のタスクおよび入力文に連動している。

0007

あるいは、前記モードの切り替えは、現在のタスク状況および操作者の必要に応じたメニューの内容で、所望のタイミングで起動させておこなう。

0008

本発明のコンピュータを使用した言語解析認識処理は、構成の中に次に列記した辞書から選ばれる少なくとも1つを含んでいる辞書を参照して処理を進めていく。単語辞書として
1)構文要素辞書2)指示表明語辞書3)動詞辞書4)形容詞辞書5)形容動詞辞書6)助動詞7)無視可能語辞書8)概念語辞書そのほかの辞書として9)決り文句辞書10)足らず辞書11)構文辞書12)です・ます判定辞書13)活用形体辞書

0009

前記決り文句辞書には、挨拶言葉相槌システムコマンドからから選ばれた少なくとも1つ以上が含まれている。

0010

前記構文要素辞書は、1)助詞、単位から構成される言い回し言葉2)動詞語尾、形容詞の語尾、形容動詞の語尾から構成される指示表明語の語尾3)接続詞接尾語から構成される重文要素、複文要素から選ばれた少なくとも1つの要素が含まれている。

0011

前記指示表明語辞書は、普通名詞固有名詞、動詞の語幹、形容詞の語幹、形容動詞の語幹、疑問詞、代名詞副詞時制語、感嘆詞、擬似語、数字接頭辞敬称語から選ばれた少なくとも1つの要素を含んでいる。

0012

前記単語辞書を参照して、入力文から単語を抽出し、処理を進めていく。

0013

否定文の場合、否定対象の単語を検索し、前記単語に否定を示す識別符号を付与し、前記識別記号を付与した単語を1つの単語として登録して処理を進めていく。

0014

入力文中に検出された読点「。」「?」は文の終わりとし、キャリッジリターン(CR)又は実行命令と同じとする。

0015

前記単語は、属性名と属性値との対で作られる属性から構成される単語データとして処理される。前記属性は、下記の通り。
1)単語名2)読み3)指示表明語、構文要素、無視可能語を構成要素とする入力文を分解するための分類、4)普通名詞、固有名詞、動詞の語幹、形容詞、形容動詞、疑問詞、代名詞、副詞、時制語、感嘆詞、擬似語、数字、接頭辞、敬称語、感動詞、決り文句からなる表明語の意味を把握するための分類5)活用形6)です系演算子フラグ7)動作性名詞フラグ8)ロール8)格リスト9)概念語フラグ10)名称概念11)第一次上位概念12)上位概念13)話題性概念名(リンク)13)話題性リスト14)同義語15)単数反対語フラグ16)属性名フラグ17)属性値フラグ18)属性値単数フラグ19)下位概念20)類似語21)複合語本体22)AND、OR論理演算子の単語を含む複合語構成単位

0016

入力文中に「名詞+名詞+・・・・+名詞」の形式が検出された場合、この形式を一個の単語すなわち複合語として処理を進める。この形式は、1つの名詞語として前記単語辞書に登録する。前記登録した複合語の属性として、前記形式を構成する単語の少なくとも1つを登録する。前記形式を構成する各単語のそれぞれの属性として、前記形式の名詞語を登録する。前記形式を構成する各単語の属性において、話題性概念に会社組織が登録されている場合、前記複合語をする部、課、すなわち「名詞+名詞+・・・・+名詞+部」、「名詞+名詞+・・・・+名詞+課」も単語辞書に登録する。

0017

「形容詞+形容詞+・・・・+名詞」の形式が検出された場合、前記形式を一個の単語、すなわち、複合語として設定して処理を進める。

0018

「接頭辞+名詞」、「名詞+敬称」から選ばれる少なくとも1つの形式を検出した場合、前記形式を一個の単語、すなわち、複合語として設定して処理を進める。

0019

andやorの論理演算子に相当する単語が検出された場合、前後の単語を含めて一個の単語として処理を進める。

0020

数字が検出された場合、連続する数字を「数字」という名詞を修飾する形容詞とし、「数字というキャラクター+数字」を数字語再定義して処理を進めて行く。前記数字の後に単位を示す語が続く場合、「数字というキャラクター+数字+単位」を数字語と定義する。

0021

前記属性に記されている動作性名詞フラグにおいて、フラグが立っている場合、
1)名詞+動作性名詞2)動作性名詞+する3)動作性名詞+です4)です+動作性名詞+[ます系、あるいは時制の言い回し]から選べる少なくとも1つの組み合わせを動詞として処理を進める。

0022

前記属性に記されている動作性名詞フラグにおいて、
1)名詞+をしに2)名詞+しに3)名詞+に+ます系4)名詞+する5)です+動作性名詞+[ます系、あるいは時制の言い回し]から選ばれる少なくとも1つの組み合わせが入力文中に検出された場合、フラグを立てる。

0023

代名詞+動詞、動詞のみ、代名詞のみ、主語も動詞もない表明語、感嘆詞のみのどれか1つで構成されている入力文を舌足らず辞書に登録する。

0024

本発明のコンピュータを使用した言語解析認識処理においては、入力文を構文データ、正常文データから選ばれる少なくとも1つのデータで構成する複合データ、すなわち文データとして処理している。

0025

前記正常文データおよび前記構文データを適当な属性に充当して、前記属性のリストから構成される文データを生成する。

0026

入力文から構成される文書の処理において、
1)前記文データで構成される複合データ、すなわち文書データとすること
2)前記文データを適当な属性に充当すること
3)前記属性のリストから構成される文書データを生成すること
以上のステップで処理を進める。

0027

まえの文書処理でデータとして整理しきれない場合、さらに
1)前記文書を複数の文書データで構成される複合データ、すなわちスーパー文書データとすること
2)前記文書データに適当な属性に充当すること
3)前記属性のリストから構成されるスーパー文書データを生成すること
以上のステップを行い処理を進める。

0028

入力文に対して前記構文辞書および前記構文要素辞書を参照し、重文、構文が検出された場合、前処理によって重文、構文のない正常文を抽出し、処理を進めていく。

0029

前段に記した言語解析認識処理は、1)あらかじめ用意した前記構文辞書および構文要素辞書を参照して重文、構文を検出すること、2)重文が検出された場合、前記入力文を重文がなくなるまで分解し、生成した文データの集まりとして処理すること、3)重文の存在は、文データ間のリンクデータとして処理すること、4)文データ中の構文は、正常文データと関連する構文データとして処理すること、以上である。

0030

前記正常文データの処理において、構文要素辞書および指示表明語辞書を参照して、構文要素を切り出し、さらに、その間に出てくる文字列から指示表明語を切り出して、構文要素および指示表明語のない文字列を抽出して処理を進めていく。

0031

前記単語辞書にある構文は、
1)「ます+名詞+です」の形式
2)「・・・+ある」の形式
3)「・・・+言う」の形式
4)「・・・+思う」の形式
5)「・・・+ある」の形式
6)「・・・+の+助詞」の形式
7)「・・・+の+です」の形式
から選ばれた少なくとも1つの形式である。

0032

前記構文辞書において、それぞれの構文に対して、構文要素、構文要素の配置、そして構文要素の直前にくる単語の属性を登録してある。

0033

入力文に対して、前記決り文句辞書を参照して決り文句が検出された場合、決り文句処理を行い、決り文句を切り出して、決り文句のない文字列を抽出して処理を進めていく。

0034

抽出された前記文字列に対して、1)動詞辞書、形容詞辞書、形容動詞辞書を参照して、動詞の語幹、形容詞の語幹、形容動詞の語幹を抽出し、さらにそれらに続く残った文字列をまとめて語尾として処理すること2)前記残った文字列を助動詞辞書、助詞辞書を参照して、活用語尾と助動詞の組み合わせを抽出し、この組み合わせに対してあらかじめ用意した前記活用形体辞書を参照して、ロール(活用事象、肯否、意味)を決定すること3)前記ロールを属性名、先頭に動詞、形容詞、形容動詞の語幹がある場合は前記語幹を属性値とする、先頭が助動詞の場合は助動詞の終止形を属性値とするデータとして抽出し処理していくこと4)くず語、無視可能語辞書を参照し助詞は無視する以上のステップで処理を進める。

0035

前記活用形態辞書は、1)事象とは現在、過去、予定予測であること2)肯否とは肯定、否定であること3)意味とは使役、受身、可能、自発、尊敬、希望意志、状況、比況、伝聞、様態、丁寧、掛け声、命令であること以上を特徴とする。

0036

前記正常文に対して、1)前記です・ます判定辞書を参照して、「です」文、「ます」文の判定をするステップ2)です文データと判定された場合、ですスキーマから主文データを生成し、、節を抽出するステップ3)ます文データと判定された場合、演算子の格リストから主文データを生成し、句、節を抽出するステップ4)前記抽出された句、節から、句データ節データを生成するステップ6)主文データを構成する単語データに対してリンクデータによって句データ、節データを関連させるステップ以上のステップで処理を進めていく。

0037

前記ですます判定辞書は、「です」、「だ」、「です」系の言い回し、「です」系ロール、「ます」系ロールおよび、ですスキーマから選ばれた少なくとも1つから構成される。

0038

前記スキーマ解析は、
1)ます系と判定された文章が入力されると、演算子を抽出し、その格リストを呼び出すステップ
2)前記格リストを構成する属性と一致する属性を持つ指示表明語を検出するステップ
3)前記検出された指示表明語を前記格リストに充当して、正常文データを生成するステップ
以上のステップを特徴とする。

0039

本発明の言語解析認識処理の方法、あるいは、システムは、入力文を分解し抽出した単語を前記単語辞書と照合し、疑問詞ロールを属性に持つ場合、疑問文と判定する機能を備えている。

0040

入力文中の単語に対して前記単語辞書を参照し、概念を属性にもつ単語を抽出し、残った単語を前記概念の下位概念として登録する。

0041

前記格リストは、入力文を処理し、文データを生成するために必要な属性のリストである。

0042

その方法は、入力文を解析し、
1)構文要素を検出し、前記構文要素辞書からそのロールを呼び出すステップ
2)前記構文要素の直前の指示表明語を単語辞書に照合し、前記指示表明語の上位概念を呼び出すステップ
3)前記検出された構文要素から分かるロールと前記上位概念と照合し一致を判定するステップ
4)一致する場合、前記指示表明語をそれぞれ属性名もしくは属性値に充当し作成した属性のリストで文データを生成するステップ以上のステップである。

0043

前記検出された構文要素から分かるロールと前記上位概念とが一致しない場合、ユーザーもしくはシステムのオペレーターに問い合わせを行い、必要に応じて新しい属性のリストを作成し、そのリストに前記指示表明語を割り当てることで文データを生成し入力文を認識させる。

0044

入力文中にあらかじめ与えられた話題性概念あるいはユーザーが決めた話題性概念の下位概念に含まれる単語が出現した場合に、前記話題性概念に対応する格リストを前記単語辞書から呼び出して処理を進める。

0045

前段の方法は、入力文を解析して1)抽出した指示表明語から話題性概念を取り出すステップ2)「人」以外に話題性がない場合、未確認フラグをたてて処理を進めるステップ3)2種類以上の話題性がある場合、多い話題性を抽出するステップ以上のステップである。

0046

入力文から話題性を属性にもつ単語を抽出し、前記単語辞書から前記単語の格リストを呼び出し、前記リストにある属性名と同じ属性名を持つ単語を属性値として格納していく。

0047

入力文中から抽出された助詞のロールから格リストを生成し、前記話題性概念に対応する格リストと前記生成した格リストと一致しない場合、対話処理を行ってユーザーあるいはオペレーターに問い合わせて正しい使い方の場合、新たに辞書に登録して処理を進める。

0048

前記辞書を参照して入力文中に動詞が検出されれば、動詞辞書から該動詞の格リストを呼び出し、該入力文を構成する単語の属性名に当てはまるものがあれば、その格リストに該単語を格納していくことで該入力文を格認識していく。

0049

前記格リストにある属性名と同じ属性名を持つ属性を持つ単語が検出されなかった場合、前記属性についてユーザーもしくはオペレーターに聞き返すことをで必要とする単語を獲得して、該格リストを充当し認識処理を進めていく。

0050

前記充当作業が繰り返された場合、前記格リストに充当の対象となった属性が登録される。そして、以後言語認識処理する際に前記登録された属性に充当すべきかの判定を行う。

0051

前記生成される文データの名称は、前記格リストの主格に格納される属性値、前記話題性を属性に持つ単語の名称から選ばれる少なくとも1つから構成される。

0052

過去におこなった言語認識処理の結果を登録しておく知識データベース備えておく。

0053

コンピュータを使用した言語解析認識処理において、過去に行った言語認識処理の結果、新たに登録された内容を、一定期間における使用頻度重要度に応じて、前期内容を単語辞書もしくは知識データベースに登録する。

0054

前段に記した単語辞書および知識データベースに対して、1)グループを設定するステップ、2)入力文から抽出された単語に対して、名称、記号、文字列から選ばれる少なくとも1つのアイデンティティーを前記グループに登録していくステップ、3)前記アイデンティティーを仲介にして、前記入力文から抽出された単語名、ロール名、話題性名、上位概念、スキーマから選ばれた少なくとも1つをリンクしていくステップ以上を特徴とする処理を行う。

0055

必要に応じて、対象の単語に対して、その単語の属性としてユーザーが任意の単語を同義語として設定して処理を進めていく。

0056

本発明の言語分析認識処理を用いた検索は、前記設定したグループをまず検索し、次に一般概念を検索するという2段階の検索を特徴とする。

0057

前記グループ外部へ情報を発信する場合、前記情報を一般概念に変換してから送る。

0058

前記属性に列記された概念は、1)上位概念、第一次上位概念、名称概念は、この順番に上位から下位に向かう3層の階層を形成していること、2)第一次上位概念の中で話題性と設定したものを話題性概念とすること3)名称概念は、単語の名称をインスタンスとすること以上を特徴とする。さらに、このインスタンスの属性値に対して、ロールを設定していく。

0059

前記属性に記された概念語フラグ1)第一次上位概念フラグ2)話題性フラグ3)上位概念フラグにおいて、前記第一次上位概念フラグは、4)名称概念、第一次上位概念から選ばれた少なくとも1つからなること、5)話題性は設定により任意に選ばれること、6)上位概念フラグは人、動物、場所、物から選ばれる少なくとも1つからなること、以上を特徴とする。

0060

入力文中の代名詞に対して、前の文章中を構成する単語の属性を参照し、上位概念が同じ名詞を検索して充当する。この検索において、あらかじめ設定された数量だけ過去の入力文を遡って検索が働き、代名詞の具体的内容を充当し処理を進めていく。

0061

あらかじめ登録された時制を示す単語に対して、時間データを充当して、処理を進めていく。入力文中に前記時制を示す語が検出された場合、現在の年月日時分を見て絶対値に変換する。

0062

入力文において、1)代名詞が含まれていること、2)動詞がないこと、3)感嘆詞を含んで文章の形式を完成していないことから選ばれる少なくとも一つの条件に一致する舌足らずな入力文であって、前記パラメータ割当処理、聞き返し処理から選ばれた少なくとも1つの処理が、あらかじめ設定された回数繰り返された場合、前記舌足らずな入力文が登録されて処理が進められる。

0063

前記決り文句辞書に登録されている文字列が検出された場合、登録された出力文を発信する。この決り文句の処理において、ユーザーの格付け判定を行い、格付けに応じて前記出力文に対して編集処理が行われる。さらに、タイマーから時制条件を抽出し、その時制条件に応じて、前記出力文に対して編集処理が行われる。

0064

前段に記した決り文句処理は、
1)ユーザー、オペレーターから選ばれる少なくとも1人の操作者に対して予め設定しておいた理由確認のメッセージ送出して、前記操作者からの入力を催促すること、2)前記操作者からの入力により処理を進めていくこと、以上を特徴とする。

0065

前記操作者からの入力は自由入力とし、前記対話処理プログラムは入力文に対して話題性の格リストを参照して、必要とする情報を獲得して処理を進める。

0066

前記話題性の格リスト(話題性リスト)が充当されなかった場合、予め設定したメッセージを送出し充当されなかった格に関する情報の入力を促して処理を進める。さらに、この話題性の処理においては、
1)連続する入力文の集まりを分析し話題性の変化点を検出すること
2)その変化点と前に検出された変化点によって、その話題性の継続する範囲を確定すること
3)その範囲内にある入力文のうち話題性の検出されなかった文章を抽出し、その文章から抽出される属性を前記話題性の要素として登録すること
4)話題性の出現する頻度を監視して,低い頻度のものを消去すること
以上を特徴ととして持っている。

0067

前記単語辞書を構成する無視可能語辞書を参照し、無視可能語が検出された場合、その語を省いて処理を進める。

0068

処理しきれない文字列が残る場合、聞き返し辞書を参照し、聞き返しの決り文句を出力しユーザーに必要な情報の入力を促し、ユーザーからの返事の入力あるいは、入力の無い状態の所定時間経過を待って処理を進める。

0069

前記聞き返しに対するユーザーの答えが、聞き返し辞書に登録されている返事文から予測される答えと一致しなかった場合、聞き返し辞書を参照し、聞き返しの決り文句を出力し、再度ユーザーに必要な情報の入力を促す。

0070

本発明のコンピュータを用いた言語解析認識処理は、入力文をの文型判断して、格納処理検索処理実行処理から選ばれる少なくとも1つの処理に移ることを特徴とする。前記文型判断の結果、疑問文と判定された場合、疑問文に対する回答を検索する条件を入力文から単語データとして抽出し、操作者の設定したグループ概念を参照して、検索条件として抽出した単語の同義語、類似語と置き換えて検索を進める。

0071

前記文型判断は、1)演算子の命令形2)APコマンド3)予め登録された実行の言葉4)予め登録された検索の言葉から選ばれる少なくとも1つによって、判断される。

0072

以上に述べたように、本発明によって、自然語による様々な入力文に対して、入力者(ユーザー)の意図するところに沿って処理を進めることが可能になる。プログラムの本処理で処理し切れない場合でも、対話処理によって入力者の意図を入力してもらうシステムとなっている。対話処理の結果は、必要に応じて登録されるため、本発明の方法あるいはシステムは自然語による多様な入力文に柔軟に対応できる。

0073

以下実際の例をもとにさらに詳しく説明していく。図1は、実施例1の全体の流れを示した。本処理101は、単語辞書102および知識DB103を参照しながら、進められる。以下、本処理内部の動作を説明していく。

0074

まず入力文に対して、モード切り替え部104で処理のモードを設定する。図2でモード切り替えを説明する。処理のモードには、文章入力204、単語入力205、文書入力206がある。これらモードは、対話デーモン202またはメニューにより設定する。言語解析認識処理中も対話デーモンは、常に機能しており「決まり文句」が入力されるとモードの切り替えが行われる。あるいはユーザーがメニューを呼び出して切り替えてもよい。また、処理中にシステムからユーザーに入力を求める問い合わせ処理、聞き返し処理を行うときも、必要に応じてモードの切り替えが行われる。

0075

言語解析認識処理を進めていくために参照する辞書は、単語辞書として
1)構文要素辞書2)指示表明語辞書3)動詞辞書4)形容詞辞書5)形容動詞辞書6)助動詞7)無視可能語辞書8)概念語辞書そのほかの辞書として9)決り文句辞書10)舌足らず辞書11)構文辞書12)です・ます判定辞書13)活用形体辞書から構成され、ユーザーのハードディスクインストールされる。あるいはユーザーが接続可能なデータ回線上にあるサーバーにおいてもよい。

0076

知識DB(データベース)102は、過去の言語解析認識処理を行った入力文を事例として格納しておく。105の決り文句処理は、知識データベースに登録してある決り文句処理部105を図3フローにしたがって説明する。決り文句辞書308に登録されている「おはよう」という文句が入力文中にある場合、決り文句辞書308を参照して301で検出する。

0077

図4は「おはよう」が、決り文句辞書308に格納されている状態を示す。302で「おはよう」の条件を参照する。303はコマンドがないのでNOに進み、303の順番を探す。ここもNOで、305に進む。ここでIDの条件と入力者(ユーザー)のIDとを比較して、一致する条件の出力文を出力する。

0078

単語分析処理部106を図5のフローにしたがって説明する。501の構文要素抽出部においては、構文要素辞書を参照して構文要素をを抽出する。

0079

次に502の指示表明語抽出部でその間に出て来る文字列を指示表明語として、指示表明語辞書を参照する。ここで先に名詞など活用のない指示表明語を抽出していく。このとき、カタカナ漢字アルファベットなどを先に照合して、このタイプの未知語を処理してしまう。つぎに、動詞、形容詞、形容動詞、助詞などの活用語尾のある指示表明語を抽出する。このとき、「語尾活用+助動詞+・・+助詞」を演算子のロールとして語尾設定処理503を行う。この処理のために、上記「語尾+助詞+・・+助詞」を格納した活用形態辞書を別に用意してもよい。

0080

図6−1は、語尾設定処理のフローである。601で動詞、形容詞、形容動詞が検出された場合、602で語幹が抽出され、603で活用語尾の照合が行われる。604のロール判定部では、活用形態辞書615を参照してロールを判定する。図6−2は「行」という動詞の活用形体辞書を図示したものである。さらに605の助動詞検出部で検出された助動詞の語幹変化の照合を行う。607において、そのロールを判定する。助動詞は語順が決められるので608でその照合が行われる。助動詞は複数接続可能なため、605に戻って再度助動詞の検出を行う。助動詞が検出されなくなったら、609に進み、残っている未処理文字列を検出する。この文字列はクズ語辞書617を参照して、クズ語処理610を行う。クズ語辞書にない未処理文字列は、クズ語辞書に登録する。611で検出されたロールの出力処理を行う。その出力は、(属性名、属性値)の形式とする。図6−3は「龍さん上野へ行きます。」の出力を図示したものである。「きます」という「行」の語尾活用から(連用1、現在、肯定、丁寧)というロールが決まり出力されている。

0081

先頭が、動詞、形容詞、形容動詞の場合、
属性値=「語幹」
属性名=「語幹+助動詞」で表されるロール
先頭が助動詞の場合、
属性値=先頭助動詞の終止形
属性名=「語幹変化+助動詞」で表されるロール

0082

以上の処理をおこなっても残っている未知語は、ユーザーに問い合わせの出力文を送出して、必要な情報を入力してもらう。

0083

504のグループ概念獲得処理で生成するグループ知識とグループ知識のの構成を説明する。ユーザーが、文章を入力する場合、その入力文の中で使われる単語はユーザー独特の意味(概念)を持って使われている。そこで該ユーザーのグループを設定して、その使い方を取り込んでいく。すなわち、あらかじめ用意された単語辞書と知識データベースに載っている別の単語もしくは語句同義、類似語の関係にある場合、それらを該ユーザーのグループ知識として登録していくのである。

0084

図7グループ登録のフローである。ユーザーが入力した入力文から抽出された単語に対してグループ判定部701で判定し、すでに自分のグループにある場合、ここで終了する。自分のグループに入っていないと判定されると、ユーザーに問合メッセージ文を作成し、送出する。そしてユーザーからの入力により、グループ獲得部703において該単語を登録する。

0085

図8は、ユーザ−Aのグループ、ユーザーBのグループ、そして一般知識において、一般知識における「会社」という単語が、それぞれのグループで登録されている様態を示したものである。一般知識で「会社」という単語をその意味、使い方が登録されている。しかしながら、ユーザーAは、一般知識で「会社」という言葉に相当する文章を作るとき「会社」とは言わず「商社」を使う。このとき図6で説明したグループ獲得処理が行われて、Aグループに「商社」という言葉が,IDaとして登録され、その同義語あるいは類似語として「会社」も同時に登録される。同じ会社に相当する文章で、ユーザーBは「オフィス」という言葉を使っているならば、Bグループでは同様に「オフィス」が、IDbとして登録されている。

0086

図9は、複合語の処理のフローである。901において、「名詞+名詞+・・名詞」の形式を判定し、該形式が検出されれば、906の名詞語処理を行う。検出されなければ、902において、「形容詞+形容詞+・・+名詞」を判定する。検出されれば907において形容詞語処理を行う。検出されなければ、903に進み、「接頭辞+名詞」または「名詞+敬称」の形式を判定する。検出されれば、908の敬称語設定処理に進む。検出されなければ、904においてand、orの論理演算子に相当する語句の検出を行う。あれば、and/or処理909に進む。なければ、905の数字の検出に進み、検出されれば、910の数字語設定処理を行う。なければ、複合語処理を終了する。

0087

図10は名詞語設定処理906の内部フローである。ここで「企画」「部長」という「名詞」+「名詞」の形式が、検出されると単語名登録処理1001で単語辞書1007の単語名に「企画部長」が登録される。さらに複合語属性1登録処理1002において「企画」と「部長」とが、企画部長の複合語属性1の欄に登録される。ここでは「部長」は組織語なので、重要語としてフラグが立てておく。1003複合語属性2登録処理では、「企画」の複合語属性2の欄と「部長」の複合語属性2の欄にそれぞれ「企画部長」が登録される。

0088

1004で会社組織語の判定を行うと、「部長」が検出されるので、1005において「企画」+「部」も登録する。さらに、1006に進み、「企画部」複合語属性1に「企画」と「部長」を登録する。

0089

図11は、形容詞語設定処理907、敬称語設定処理908の結果登録された複合語「やさしい数学」、「山田さん」の単語辞書への格納状態を示している。単語名に登録された「やさしい数学」の複合語属性1には、「やさしい」と「数学」が登録され、「やさしい」には、形容詞フラグ(形)が立つ。「山田さん」の複合語属性1には「山田」と「さん」が登録され、「さん」には敬称語フラグ(敬)が立つ。敬称語設定処理の過程で人と地名の同名異義語が検出されている場合、敬称があれば人名、なければ地名として処理を進める。

0090

909のand/or設定処理においては、904で検出されたand、orの論理演算子に相当する語句の前後の単語をくっつけて1つの単語と設定する。ただし、単語辞書への登録は行わない。設定された単語のロールは「and/or単語」と仮設定する。

0091

入力文に「53」という文字列がある場合、905の数字判定において「5」、「3」という数字のキャラクターが検出される。910の数字語設定処理では、(「53」という形容詞)+(「数字」という名詞)+(「歳」という単位)という複合語として扱い「数字語」と定義する。

0092

505の否定語設定処理を説明する。助動詞「ない」を検出した場合、前にある単語を抽出し、NO単語を設定する。

0093

507の同義語探索処理を説明する。ユーザーが設定する同義語は、図12のように単語辞書に格納されている。単語10の同義語を参照すると単語5が検出されるが、単語5は単語1が同義語として設定されている。単語1の同義語は設定されていない。このように同義語を遡っていって最終の同義語を標準語と定義する。同義語探索処理とは、同義語が設定された単語に対して、その標準語を探索し、設定された同義語を標準語に置き換える処理である。

0094

508の動作性名詞処理を説明する。名詞の属性として動作性名詞フラグを設定し、フラグが立っている名詞を動作性名詞として処理を進める。動作性名詞は次に列記する形式の場合、その形式全体が1つの動詞として設定される。
1. 名詞+動作性名詞
1. 動作性名詞+する
1. 動作性名詞+です
1. です+動作性名詞+「ます系の言い回し、時制」

0095

フラグが立っていなくても、次に列記する形式は1つの動詞として処理される。
1.名詞+(を)しに
1. 名詞+に+ます演算子
1. 名詞+する
1. です+名詞+「ます系の言い回し、時制」

0096

509の同名異義語処理について説明する。入力文から抽出された指示表明語の属性である同名異義語を呼び出し、それら同名異義語の属性をすべて照合し、相違点を抽出しておく。図13は同名異義語関係にある単語1と単語2が、その相違点を抽出されて格納されている様態を図示したものである。表1301を参照すると、属性1は、単語1にのみある属性で属性値はV1である。一方属性2は単語2にのみ存在し、その属性値はV2である。属性3は単語1、単語2の両方に存在し、その属性値はそれぞれVa、Vbである。属性4は、どちらにもない。ここで相違点抽出処理を行い、属性値3を抽出する。すなわち、表1302である。

0097

510の句読点処理について説明する。句点「、」は無視語とする。読点「。」は文の終わりとし、CR(キャレッジリターン)又は実行ボタンとして処理する。

0098

以上の過程で行われた単語分析処理106の結果を基に入力文の意味の認識処理に入っていく。

0099

ここで入力文の意味とは、その入力文でユーザーが表現しようとした話題を表すリンク構造を持った属性のリストである。その意味を認識するとは、その属性のリストに抽出された単語又はその属性を正しく割り当てていくことである。以下、その具体的手順を示していく。

0100

107の重文処理について説明する。501の構文要素抽出の結果、接続詞が検出された場合、重文処理107を行う。検出された接続詞のロールを単語辞書にある構文要素辞書を参照して呼び出す。図14は、構文要素辞書に格納された接続詞の様態である。

0101

ここで本発明の説明のためたびたび使われているロールについて説明する。ロールとは、文の中での該単語が演じる役割を総称した名前である。一般的にいえば、文というデータを構成する単語というデータの属性の名前、すなわち属性名と同じものである。「龍はお腹が痛いので、会社を休んだ。」という文の場合、「ので」という接続詞が検出される。図14の構文要素辞書を参照すると、ロールは理由、従文の位置は前なので、重文処理によって、図15のように主文データ1501と従文データ1502、そして、理由という役割のリンクデータ1503(本実施例の場合、IDmというアイデンティティ記号を付けることで達成されている)という形式でコンピュータに認識される。このように、主文と従文、そして両者をリンクする接続詞という3つのデータとして、重文は処理される。

0102

108の充当処理について説明する。まず、疑問文、疑問詞にかかわる文型充当を図16にしたがって説明する.1601で疑問詞が検出されると、1602に進み「?」の有無を判定し、なければ1603で「?」の充当が行われる。さらに1604で疑問詞のロールを仮決定処理する。この疑問詞の仮決定処理によって、検出された疑問詞は図17に示したように、「ロール」+「何」という形式に置換される。

0103

つぎに、図18にしたがって代名詞充当について説明する。1801では、単語辞書を参照して特定代名詞を検出し、1802でその上位概念を呼び出し、1803で前の入力文を検索し、上位概念が一致する名詞を充当する。代名詞が、「彼」「彼」の場合、上位概念が「人」である具体的データから男性女性を判定して充当する。「代名詞」+「名詞」の形式の場合、1806で名詞が上位概念語かどうかを判定し、1807において、前の入力文から上位概念が一致する名詞を検索し充当する。名詞が上位概念語でない固有名詞、具体語の場合、1808で無視処理する。

0104

充当処理108には、時制処理もある。時制処理には、時制の言葉を入力のときタイマーの現在時間を見て絶対値に置換する処理と、出力時にタイマーの現在時間を見て絶対値に置換する処理とがある。

0105

109の経験処理について説明する。図19は経験の登録処理のフローである。「龍は明日学校に」という文が入力された場合を例に、説明していく。1901で動詞の存在の判別が行われる。この場合、動詞がないので、聞き返し処理部1902で、「龍は明日学校に をどうするのか?」という出力文を編集し、ユーザーのモニターにに出力する。マルチメディア機能を備えたコンピュータをユーザーが使用しているなら、音声編集をして前記出力文を読み上げてもよい。

0106

ユーザーから「行くの!」という入力があったとする。ここでユーザーからの回答として入力された文の処理は、通常の文章入力処理モードと少し異なる。この少し違うモードへの切り替えは、聞き返し処理と連動して、行われる。通常の文章処理をおこなったあとに、解析認識された文データの構成要素に対して検索処理を実行し、この場合必要とする演算子を抽出する。この場合、「行」という動詞が検出される。ここで「龍は明日学校に をどうするのか?単語のみ!」という出力文を送出して、単語入力モードに切り替えて処理を進めてもよい。

0107

1903の属性割り当て処理部では、「行」という動詞の格リストを呼び出し、格リストに列記された属性と入力文にある単語の属性を単語辞書で照合し、割り当てていく。「行」の格リストは、図20の2001に示した。入力文中の「明日」という単語には、この格リストにない新しい属性、すなわち「時制」がある。そこで、格リストに「時制」を追加して、入力文を認識する。その認識結果が、2002である。

0108

1904の聞き返し処理について説明する。「行」の格リストが、主格、行動、時制から構成されていた場合、前例の入力文は、主格:龍、行動:行、時制:明日 という具合に認識され、「学校」が処理されない。そこで、「学校 は何ですか?」という出力文を編集し、ユーザーのモニターに表示する。

0109

ここで「それは目的なんだよ」というユーザーからの回答文の入力があったとする。1902の処理と同様に回答文の解析認識処理した上で、属性名の検索をおこない、「目的」という属性名を検出する。そこで、目的:学校 という属性を前記格リストに付け加えて、入力文を認識する。

0110

1905の登録条件判別では、入力文の解析認識結果に、
1)「代名詞+動詞」の形式
2)動詞だけの形式
3)主語も動詞もない表明語だけの形式
という強い条件と
4)動詞のみがない
という弱い条件のうちのどれかの条件を調べる。条件が検出された場合、1906の登録判定処理に送る。強い条件の場合、入力文を過去の解析認識処理事例である知識DB(データベース)と参照して、1回でもあれば、登録処理1907に進む。弱い条件の場合、3回で登録処理を行う。例文は弱い条件を持っている。

0111

図21は、知識DBに格納された入力文の様態を示したものである。ここで例文が、ID1の文章であったとすると、経験カウントは2である。これはこの例文が過去に2回あったことを示している。これは登録条件を満たさないので、1909の経験カウント処理で先の経験カウント値に1加えて3とする。これで次回同じ例文が、入力されれば登録条件を満たし、1907の登録処理で舌足らず辞書に前記例文を登録する。

0112

1908では、前記登録された文章に対して、状況データを属性として追加する。図22は、龍というユーザーが、「これ送って」と入力した場合のコンピュータ上に登録された様態を示している。「これ送って」という入力は2201のように認識されている。2202は、状況データのひとつで、通常の入力のときの頻度を示している。2203は、仕事内容リクルートの時の頻度を示している別の状況データである。これは、仕事がリクルートのとき、「これ送って」とというこの龍というユーザーの意図が2201である頻度が通常の3倍になることを示している。

0113

このようにして舌足らず辞書に登録された文章の利用について説明していく。図23は、経験利用のフローである。2301の舌足らず文検出で検出された入力文に対して、2301でその登録データを呼び出す。2303では状況データを参照して、頻度の高い舌足らず文のデータを取り出し、2304の確認処理で登録された属性をユーザーに対して問い合わせ確認していく。これは先の聞き返し処理と同様に確認の出力文を編集しユーザーに送出し、ユーザーからの入力を受けてそれを解析認識して、必要な情報を入力文から獲得していく処理である。

0114

ここで登録された属性に対して修正があった場合、2306で修正された属性で新しいデータを生成し、舌足らず辞書に格納する。修正がなければ、2307で呼び出された登録データの頻度に1加える。

0115

図1の110文章処理について説明する。図24は、文章処理のフローである。まず2401で構文処理を説明する。ここで対象となる構文は、
1)「ます+名詞+です」の形式
2)「・・・+ある」の形式
3)「・・・+言う」の形式
4)「・・・+思う」の形式
5)「・・・+ある」の形式
6)「・・・+の+助詞」の形式
7)「・・・+の+です」の形式
である。

0116

これら構文は構文データとして抽出して、残りを正常文として処理を進める。「明日、大阪へ行く予定です」という 「ます+名詞+です」の形式入力文の場合、図25の2501のように予定という構文データを抽出して、ID25で表現されたリンクデータ2503により正常文データ2502と関連付けれる。

0117

つぎに図26で 「・・・+ある」の形式の処理を説明する。この形式は、物、場所、状態を基本的属性とする格リストを生成し処理してしまう。たとえば、「新宿には、面白い店がたくさんある。」という入力文は、物である「面白い店」をデータ名称として場所、状態に対して、「新宿」、「たくさん」を割り当て文データを完成する。

0118

図27は、の処理を図示したものである。2701のように議事録データを生成し、残った文章を正常文として処理を進める。

0119

「・・・+思う」の形式も、同様に回想録データを生成し、残った文章を正常文として処理を進める。

0120

「・・・+の+助詞」の形式は、図28のように「の」の前にある文章を1つのデータ2801として処理し、残りの文章を正常文として処理し、ID28でリンクさせる。

0121

「・・・+の+です」の形式は、「の」を前の文章のどれかを指す名詞として処理を進める。たとえば、「Aさんは自転車映画館に行きました。」という文章があり、「龍さんのです。」と続いた場合、後者の文章は、図29のように「の」は、前文に出現した自転車を指す名詞としてデータ化される。

0122

構文処理2401で構文は処理された。つぎに残った正常文に対して、2402で文の種類の判別が行われる。図30にその判別のフローを示す。まず3001で演算子の有無を判別し、演算子があれば、3002のです文条件の判定を行う。

0123

です文の判定条件は、「でしょ(う)」「だろ(う)」「でし(た)」「で(ある、ない)」「です」「だ」「である」「な(の)」「でござる」「なら(ば)」「ではない」であり、これら単語を登録した「です・ます判定辞書」を参照する。ここで上記単語のどれかが検出されれば、3003のます文条件の判定に進む。検出されなければ、ます文処理3008に進む。ただし、動詞,形容詞、形容動詞が、「です」文判定条件の直前にある場合、この「です」文条件を無視して処理する。

0124

ます文の判定条件は、です・ます判定辞書に登録されている「ます系の言い回し」「ます系演算子」の存在の有無である。判定しNOであれば、です文データ生成2405に進む。YESすなわち存在する場合、ます文データ生成2403に進む。

0125

ます系の言い回しとは、「を」「に」「へ」「で」の助詞、および時制を示す語句のことである。

0126

3001で演算子が検出されなかった場合、3004で3002と同様にです文条件の判定を行う。そこでYESの場合、ます文条件3005に進み、3003と同様の判別が行われ、です文データ生成処理、ます文データ生成処理の振り分けが行われる。

0127

3004でNOの場合、3006のスキーマ条件判別に移る。ここでは「・・は・・」「・・が・・」「・・の・・」形式のスキーマ照合が行われる。有れば、「w1はがのw2」スキーマ処理3007に進む。無ければ、ます文処理に進む。「w1はがのw2」形式は、主語があれば、充当処理を行って「です文」「ます文」の形式にして処理する。主語がなければ、属性名フラグが立っている単語が、単語分析処理(図1の106)で抽出されていれば、残りの単語を属性値とし、(属性名、属性値)の対にしてデータ化する。概念語があれば、概念語を属性値とし、残りを属性名とする対にしてデータ化する。概念語もなければ、未確認フラグを立ててデータ化する。

0128

2405です文データ生成の処理を説明する。です・ます判定辞書に登録されたですスキーマから、該正常文と一致するスキーマを検出する。検出されたスキーマを使って、該正常文から主格、属性名、属性値に割り当てられる単語をそれぞれ抽出し、格リストを生成し、正常文データとする。図31は、「w1のw2はw3」形式、「龍さんの趣味ゴルフ(です)。」の場合のデータ化を図示したものである。

0129

以下、属性名はA、属性値はV、主格はS と表記する。w1、w2、w3は「の」「は」「が」「な」という言い回し語(助詞)の直前に位置する名詞である。図32の3201は、ですスキーマの様態である。たとえば、前の例である「w1のw2はw3」の場合、スキーマから、w1=S、(w2、w3)=(A、V)or(V、A)と解釈する。また、3202はスキーマから生成された正常文データの構成である。

0130

です文の基本となる前記w1、w2,w3以外に、句、節がw1、w2、w3を修飾する形で出現することもある。これら句、節は句データ、節データを生成して、修飾する相手であるw1、w2、w3のどれかにリンクさせる。このリンクは、アイデンティティ(ID番号)で実現されるリンクデータで行われる。

0131

図33は、3201のSK3スキーマのです文がデータ化された状態を示している。主データの3301にに対して、ID332でリンクされた節データ3302とID333でリンクされた句データ3303という具合にデータが生成される。

0132

ここでもう少し深く説明する。前記スキーマにおいて、言い回し語を検出してスキーマを判定する訳だが、句、節の中に同じ言い回し語が含まれている場合もある。この場合、処理対象の文章中に存在する言い回し語をすべて取り出し、スキーマに一致する組み合わせをすべて抽出し、その直前の名詞を取り出して、それらすべての組み合わせのです文データを仮生成し、過去の処理ログを参照して頻度の最も高い組み合わせを選択する。この場合、ユーザーに対する問い合わせ文章を編集し送出し、ユーザーの入力で決めてもよい。こうして決まった組み合わせで生成された「です」文データは、その頻度が状況データとしてカウントされていく。

0133

2403のます文データ生成について説明する。図34は、そのフローである。、単語分析処理106の結果を基に3401で指示表明語を抽出し、3402で直後の構文要素(助詞)を参照して抽出された名詞のロールを決定する。3403で演算子から、単語辞書を参照して格リストを呼び出す。3404で、こうして呼び出したリストに名詞を割り当てていく。3405のロール/格一致判定で、ロールと格が一致すれば、3406でそのまま「ます」文データを生成し、3407で句、節を抽出する。ロールと格が一致しない場合、3408で該名詞の概念を呼び出し、3409でもう一度格との一致を判定する。ここで一致すれば、該名詞を格リストに割り当て「ます」文データを生成し、句、節の抽出を行う。ここでも一致しなければ、該名詞のロールを「−」という未確認フラグを立てて格リストの属性に追加し処理を進める。

0134

図35は「龍さんは明日学校に行きます。」という文章の処理を図示したものである。演算子は「行」で、その格リストは3501である。格リストは「主格」目的地」「行動」から構成されている。そこに抽出された名詞を「は」「に」という助詞を参照してロールを「主格」「目的地」と決めていけば、「龍」「学校」は容易に格リストに割り当てられる。ところが明日はわからないので、3502のように、未確認の「−」フラグを立てて処理する。

0135

以上の処理を経て抽出された句、節から、句データ、節データを生成する過程(図24の2407)を説明する。

0136

ます抽出された句節から、「・・+の+・・+の+・・+の+・・」形式から、句を判別し、YESなら、句処理に進む。NOなら節であるから、「です」文判定を行い、YESなら「です」文処理を行う。ここでもNOなら「ます」文処理を行う。こうして生成したデータは、先に説明したように修飾する対象の単語とリンクさせる。

0136

です文、ます文の処理はすでに説明した。ここでは「・・+の+・・+の+・・+の+・・」形式の処理について説明する。図36は前記形式である「w1のw2の・・のwn」という処理対象文を処理するフローである。3601でn−1=0か判定する。YESなら、すべての「の」が処理されているので、終了である。NOならば、wnの概念語判定3602を行う。YESなら1から(n−1)番目の「の」の直前の名詞から具体語を検索する。検索された語をwk(1≦k≦n−1)とすると、(A,V)=(wn,wk)とする属性が生成する。残った「w1のw2の・・wk−1のwk+1の・・のwn−1」は、単語(w)の順番数をもう一度ふりなおして「w1、w2、・・、wn−2」としての3601に戻って同様の処理を繰り返す。

0137

3602でNOならば、「w1のw2の・・のwn−1」をwnの修飾語としてリンクを取り、3601に戻って「w1のw2の・・のwn−1」に対して同様の処理を繰り返す。

0138

このようにして、処理する「の」がなくなったら、句処理が終了である。

0139

未確認フラグが立っている文データについては、必要に応じてユーザーに対して出力文を編集して送りユーザーから必要な情報の入力をしてもらい、データを補完する。こうして補完したデータから、演算子の格リストを新たに生成し、辞書に登録する。このようにして、コンピュータの言語解析認識能力成長させる。以上で複文処理(図1の110)を終わり、111の否定語処理に進む。

0140

図1の否定語処理111について説明する。図37は否定語処理のフローである。3701で助詞の「ない」からNO単語の存在を判定し、あれば3702で「です」文と「ます」文とを判別する。ここで「ます」文の場合、3703でクセDBを参照して登録済みならば、3704で登録データから、最も頻度の高いデータ順番にユーザーに問い合わせ文を送出し、3705でユーザーからの入力情報により、どの単語を否定しているのか決定する。

0141

3702で「です」文と判別された場合、3702で単数反対語フラグを確認し、フラグが立っていれば、3707で反対語を検出する。検出されれば、3708でNO単語を検出された反対語に入れ替える。最初から反対語フラグがたっていなかったり、フラグが立っていても反対語が検出されない場合、3709でNO単語として設定し処理を進める。3710では同音異義語処理を行い、NO単語を設定した単語が、対象文で使われている単語の同音異義語でないか判別し、同音異義語であれば変更して、正しい単語にNO単語設定する。

0142

3711で設定したNO単語が登録済みかどうか判別し、登録していなければ、3712で登録して終了。登録済みであれば、3713で複数登録可能な属性の単語かどうか判別し、可能なら3712で追加登録、不可なら3714で変更するかユーザーに対して問い合わせの出力文を送出する。ユーザーから変更を指示する入力があれば、3715で変更して登録する。

0143

図1の112話題性処理について説明する。ユーザーの要求する話題に沿って入力文を認識して、はじめてユーザーにとって有用な言語認識処理システムとなる。この話題を属性のリストとしてまとめたものを話題性リストとし、話題性リストによって表現される話題を話題性概念と定義する。話題は、ユーザーそれぞれに固有なものなので、その話題を話題性リストとしてあらかじめ抽出する必要がある。入力文の認識は、先に説明したようにユーザーの表現したい話題の格リスト(話題性リスト)に入力文から抽出された単語を割り当てる作業である。話題性概念の抽出方法として、登録、生成がある。登録は、ユーザーが話題としたい名詞を指定し、その名詞を話題性概念名とする格リスト(話題性リスト)を入力してもらい、さらにその上位概念の単語を入力してもらい登録する作業である。図38は、「会社」という話題の例である。話題として「会社」という名詞を指定し、(社長社員給料)という話題性リストを登録する。さらにその上位概念「場所」を書き込んだものが3801である。このリストを構成する各単語に対して話題性のリンクを設定した様態が、3802である。

0144

生成とは、まず話題性概念(リスト)を指定して、次にその具体的名前を指定して、話題性を構成する各単語に話題性リンクを書き込んでいく抽出方法である。図38に即して説明すると、まず(社長、社員、給料)という話題性概念を指定し、次にその具体的名前として「会社」を指定し、「社長」「社員」「給料」の話題性リンクに「会社」を書き込んでいくのである。

0145

認識処理は、入力文をここまで言語解析処理してきた結果として抽出されたデータをユーザーにとって意味のある構造を持ったデータに再構成する作業である。図39はそのフローである。3901の話題性概念抽出によって、話題性概念を検出する。3902において、検出された話題性概念が複数の場合、話題性リストを構成する格が多いものに絞り込む。3903で絞り込んだ格リストに前出の抽出されたデータを割り当てていく。ここで当てはまらないデータがあれば、未確認フラグを立てて登録しておく。このように、構造を持ったデータ生成することが、本発明における認識に他ならない。この認識結果のデータは、必要に応じて3905で編集処理がなされる。話題性抽出3901に付いては,後で文脈処理と絡めて詳しく説明する。

0146

図1の113文型判断では、入力文の認識結果をもとに実行処理、検索処理、格納処理の少なくとも1つに振り分けられる。図40はそのフローである。AND語、OR語が含まれている場合、4001でAND/OR分解処理を行う。4002では演算子が命令形を判別し、YESなら入力文からAPIコマンドを抽出し実行処理4004に進む。

0147

4002で命令形が判別されない場合、4005の実行/検索単語検出でどれか検出されれば、4006で実行か、検索かの判別を行い、検出されなければ4008の格納処理に進む。4006で実行/検索の振り分けを行い、4004の実行処理または4007の検索処理に進む。

0148

図41で4001のAND/OR分解処理を詳しく説明する。4101でAND/OR語が、主格かどうか判別する。主格なら、4102の主格分割処理を行い、分割した主格の言葉のそれぞれに残りの文章を結合させて、主格の数だけ、文章を生成し、4103のバッファーに送る。4104では、その文章を1文章づつ出力する。

0149

主格でない場合、4105で該単語が属性値かどうかの判別を行い、YESならAND/ORを判定し、ANDなら4107で、単語と単語との間に「/」を、ORなら4108で「,」をいれる処理を行う。4105でNOすなわち属性名であった場合、4109でその属性名に割り当てられる単語(属性値)を検出し、同じ属性値をとる(属性名、属性値)の対を複数生成する。

0150

図42は格納処理のフローである。4201で「ます」文、「です」文の判別を行い、「ます」文ならば4202予定判断処理に進む。これは、その文章の時刻とタイマーの時間を比較して文章が、先のことなら「予定」という話題性リンクをそうでなければ「事実」という話題性リンクをつける。4203で格納フラグを立てて文脈処理4204に送出する。4201で「です」文と判別された場合、そのまま4203に進み、格納フラグを立てて文脈処理4204に送られたあと、知識データベースに格納される。文脈処理に付いては、後で話題性抽出処理と絡めて詳しく説明する。

0151

図43は実行処理のフローである。4301のAPIコマンドの判別でNOならば、4302の内部編集処理に進む。ここでは知識データの追加、変更、削除が行われる。APIコマンドがあれば、4303のアプリケーション探索で入力文から判別された実行語から、実装されているアプリケーションを探す。4304ではそのアプリケーションが必要とするデータのリスト(APLの格リスト)を呼び出し、4305で言語解析認識によりデータ化された入力文をこの格リストに割り当てていく。もしうまく割り当てられなかったら、4307でユーザーに聞き返しの出力文を送出し、必要とする情報をユーザーから入力してもらう。アプリケーションが必要とするデータがすべて割り当てられるまでこの操作が繰り返され、4308でアプリケーションへのデータセットが行われる。このとき、4303のアプリケーション探索や4307の聞き返し処理の処理過程はデータとして記録される。4309で実行番号を付与し、四則演算処理判別4310をおこない、数字処理4311施して、4312の格納処理に進む。

0152

図44は検索処理のフローである。4401で「?」の判別を行い、あれば仮データ処理4402を行なってから、4403複合語処理に進み、NOならばそのまま4403に進む。

0153

仮データ処理4402を説明する。入力文から指示表明語を抽出し、ロールをつけて、(ロール、指示表明語)のペアとしていく処理である。名詞の場合は、その上位概念をロールとする。疑問詞はロールがついていなければ、入力文の中の概念語をロールとする。上位概念の同じ単語があれば、概念語をロールとして(ロール、指示表明語)のペアを作る。図45は、「上野の龍さんの会社は何ですか?」という例文を仮データ化した様態を示している。「上野」の上位概念は場所なので、(場所、上野)というペアができる。「龍」は敬称「さん」からその上位概念「人」がわかり、概念語の「会社」をロールとして(会社、何)という疑問詞のペアができる。

0154

4403では複合語が処理される。ここでは「形容詞+形容詞+・・+名詞」、「副詞+副詞+・・+名詞」の形式の単語分解することおよび敬称を抽出して無視することが行われる。

0155

4404のあいまい処理では、入力文中の形容詞および副詞をユーザーのくせDB(グループ概念)を参照して、ユーザーのグループに該当する前記形容詞および副詞を一般概念の単語辞書にある同義語もしくは類義語に変換する。

0156

4406の検索条件設定では、まず4404のあいまい処理の対象となった単語、複合語としての条件語を検索条件として抽出する。もしこの作業で検索条件が抽出できないならば、同義語がある単語を抽出し、同義語で置き換えた同じ文章を複数生成してそれを検索条件とする。

0157

これでも検索条件がないなら、AND/OR疑問文かどうか判別しAND/ORの分解し条件を探索する。

0158

4406の検索種類決定を図46のフローで説明する。4601で、入力文中の単語を知識データベースと照合して、データの名称があれば、4601のデータの名称のみかどうかの判別を行う。YESなら、4603のデータ名検索である。NO、すなわち、他の要素があるなら属性値検索4604である。

0159

4601でNOなら、4605で概念語を判別し、なければ属性名・属性値の検索4606である。YES、すなわち、概念語があるなら概念検索4607である。

0160

データ名検索では、疑問詞のロールとデータ名の上位概念を照合し、違っていると検索できないので、「不可能」と出力する。

0161

図47は属性値検索のフローである。4701で、入力文中の指示表明語であるKW1、KW2、・・KWnというn個の検索条件が、入力される。4702で先頭から順次データ検索をして、4707で合致したKW(=KWx)を消していく。4703でKWmの判別を行い、YESなら4708で最後のKW(=KWm)を出力する。残っていれば、4704でKWmの(A,V)ペアの相手となるKWxを探索する。4705で判別を行いKWxが属性名なら4706で出力する。NOなら4702でKWxを消去してもう一度データ探索をする。

0162

属性名検索は、まず検索条件となる単語(以下、KW)から、(KW、属性値)のペアが可能か判別する。NOなら「不可能」と出力。YESなら、KWとペアとなる単語(=KWx)を出力する。

0163

概念検索は、入力文中の概念語をKWgとして、KWgの下位概念にある単語を呼び出し、入力文の他の単語KWa、KWb、・・の関連リンクを呼び出し、一致を見て一致すればその単語を出力する。

0164

以上のような検索の種類を決定して、4407で検索条件の確認を行い、4408で検索を実行する。

0164

これまでの説明の問い合わせ処理、聞き返し処理、確認処理でたびたび記述してきた出力文を編集し、ユーザーに送出する処理について詳しく説明する。出力する内容において、データ名称には「は」を付ける。属性名、属性値に対しては、属性名+「は」+属性値+単位(ある場合のみ)+「で」とする。演算子に対しては、「演算子+語尾」とする。以上のように出力文を編集して出力する。

0165

文脈処理について説明する。図48は文脈処理のフローである。4801の一時バファー処理では、処理対象とする文章から話題性概念を1文章毎に抽出する。そして、抽出した話題性概念を1個づつ話題性1として一時バッファーに書き込む。ここで話題性概念がない場合、「なし」と書き込む。書き込む数は100とする。書き込み数はユーザーが任意に設定してよい。

0166

図49は、4802の文脈話題性抽出のフローである。4901の変化点抽出では、一時バッファーを監視して、3つ連続して現在の話題性概念が検出できなければ、そこを話題性変化点とする。あるいは、30分間入力がなければ、話題性変化点と設定してもよい。4902の不足充当処理では、4901で抽出された話題性変化点と前の変化点との間を現在の話題性の継続範囲として、この範囲の文章で現在の話題性概念の抜けている文章に現在の話題性概念を充当する。4903の成長処理では、4902で充当した文章に出て来る指示表明語の内、他の話題性概念名の単語を除いた単語を話題性概念辞書に書き込む。4904ではあらかじめ設定した100を10個越えた時点で、古い順に10個バッファーから登録した話題性概念を消去し、さらに、消去した話題性概念につながっている同じ話題性概念についても消去する。4907で、あらかじめ設定した出現頻度に満たない話題性概念を判別し、4908でその話題性を消去する。

図面の簡単な説明

0167

4803の単語の意味選択では、グループ概念獲得処理(図5の504)で設定したグループを必要に応じて選択する処理である。こうすることでユーザーが属する業界独特の単語の意味を認識することできる。

0168

図50は、知識の登録処理のフローである。文章の処理の結果、やり取り、処理そのものを記録したものが知識DB(データベース)である。このままでも新しく入力文を解析認識処理の参照に使われるが、知識データベースは、ユーザーとの本処理(図1の101)がなされていないコンピュータの処理能力余裕があるときに、知識登録処理を行い、知識データベースを構造化する。

0169

図50は、知識登録のフローである。5001で、該データが空間データか、時間データか判別する。空間データは、5002でさらに登録済みかどうか判別され、NOなら5007で新データを生成する。登録済みなら5003でさらに、未確認フラグを判定し、あれば5004で該データを参照して、未確認な部分を補完して、5005で辞書に登録することで辞書を成長させる。5006では予定かどうか判別し、YESなら5009で予定に登録する。5001で時間と判別された場合、5010でタイマーの時間、シーケンスという時期データを登録する。5011では、該データと前記時期データを除いた部分で一致するデータを呼び出し未確認フラグの検出を行う。YESなら5004で変更処理をして完成されたデータを辞書に登録し成長させる。

0170

図1本発明の全体のフローを示した図である。
図2処理モード切り替えのフローを示した図である。
図3決り文句処理のフローを示す図である。
図4決り文句辞書における「おはよう」という決り文句の格納状態を示した図である。
図5単語分析処理のフローを示す図である。
図6‐1語尾設定処理のフローを示した図である。
図6‐2 「行」という動詞の活用形体辞書を示した図である。
図6‐3例文の語尾設定出力を示した図である。
図7グループ登録のフローを示した図である。
図8グループと一般知識の関係を示した図である。
図9複合語処理のフローである。
図10名詞語設定処理のフローである。
図11形容詞語、敬称語の単語辞書における格納状態を示した図である。
図12単語辞書における同義語の格納状態を示した図である。
図13同名異義語処理の前後の様態を比較した図である。
図14構文要素辞書における接続詞の格納状態を示した図である。
図15重文処理の実例を示した図である。
図16文型充当のフローを示した図である。
図17疑問詞ロールの仮決定処理を示した図である。
図18代名詞充当を示した図である。
図19経験の登録処理を示した図である。
図20格リストと格認識を示した図である。
図21知識データベースの格納形態を示した図である。
図22例文の知識ベースへの格納形態を示した図である。
図23経験利用のフローを示した図である。
図24文章処理のフローを示した図である。
図25例文における構文処理を示した図である。
図26例文の構文処理を示した図である。
図27例文の構文処理を示した図である。
図28例文の構文処理を示した図である。
図29例文の構文処理を示した図である。
図30文の種類判定のフローを示した図である。
図31例文のです文データを示した図である。
図32ですスキーマを示した図である。
図33句、節を含んだです文データを示した図である。
図34ます文処理のフローを示した図である。
図35例文のます文処理を示した図である。
図36「・の・の・の・」形式の処理のフローを示した図である。
図37否定語処理のフローを示した図である。
図38会社という名詞の話題性概念登録を示した図である。
図39認識処理のフローを示した図である。
図40文型判断のフローを示した図である。
図41AND/OR分解処理のフローを示した図である。
図42格納処理のフローを示した図である。
図43実行処理のフローを示した図である。
図44検索処理のフローを示した図である。
図45例文の仮データ処理を示した図である。
図46検索種類決定のフローを示した図である。
図47属性値検索のフローを示した図である。
図48文脈処理のフローを示した図である。
図49文脈話題性抽出のフローを示した図である。
図50知識登録のフローを示した図である。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ