図面 (/)

技術 自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラム

出願人 国立研究開発法人理化学研究所
発明者 保谷哲也
出願日 2005年11月14日 (14年5ヶ月経過) 出願番号 2005-328805
公開日 2006年6月29日 (13年9ヶ月経過) 公開番号 2006-171714
状態 特許登録済
技術分野 音声認識 学習型計算機
主要キーワード スカラー形式 スパイク列 発火状態 核関数 ラジアル基底関数 自己適応 ウェイト係数 ボトムアップ方式
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2006年6月29日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (6)

課題

音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成自己適応的に発展させることができる自己発展型音声言語パターン認識システムを提供する。

解決手段

パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。具体的には、各ニューロンは、音声言語データの階層的な認識レベル(音素ベル単語レベル文節レベル及び文レベル)のそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。

概要

背景

一般に、音声言語データパターン認識を行うパターン認識システムでは、隠れマルコフモデル(HMM: Hidden Markov Model)(非特許文献1及び2参照)を応用した手法が広く用いられている。

しかしながら、このようなHMMの手法を用いたパターン認識システムでは、人手を介して作成された言語コーパス等の巨大データベースを用いて予め内部パラメータの調整(学習)を行う必要があるので、パターン認識の処理に先立って多くの手間がかかってしまうという問題がある。また、実際にパターン認識の処理を行う際にも、例えばビタービサーチアルゴリズム(非特許文献3及び4参照)等を用いて、入力された音声データ(又は符号化された音声データ)とのパターンマッチングを行う必要があるので、その経路検索に多くの時間がかかってしまうという問題がある。さらに、システムの内部構成を自己適応的に発展させることができないので、環境の変化に十分に対応することができないという問題もある。
Ferguson, J. (ed.): "Hidden Markov Models for Speech", Princeton, NJ:IDA, 1980.
鹿野、伊、河原、武田、山本(編)、音声認識システム、IT-Text、情報処理学会、2001.
Viterbi, A. J.: "Error boundsfor convolutional codes and an asymptotically optimal decoding algorithm",IEEE Trans. Information Theory, IT-13: 260-269, Apr. 1967.
Forney, G. D.: "The Viterbi algorithm", Proc. IEEE, 61: 268-278, Mar. 1973.

概要

音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システムを提供する。パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。具体的には、各ニューロンは、音声言語データの階層的な認識レベル(音素ベル単語レベル文節レベル及び文レベル)のそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。

目的

本発明はこのような点を考慮してなされたものであり、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムを提供することを目的とする。

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声言語データパターン認識を行う自己発展型音声言語パターン認識システムにおいて、音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部とを備え、前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されていることを特徴とする自己発展型音声言語パターン認識システム。

請求項2

前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、前記各ネットワーク階層に含まれる前記各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されていることを特徴とする、請求項1に記載のシステム

請求項3

前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応していることを特徴とする、請求項2に記載のシステム。

請求項4

前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応していることを特徴とする、請求項2に記載のシステム。

請求項5

前記階層的な認識レベルは、音素ベル単語レベル文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことを特徴とする、請求項1乃至4のいずれか一項に記載のシステム。

請求項6

前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記核関数は、ラジアル基底関数を含むことを特徴とする、請求項1乃至5のいずれか一項に記載のシステム。

請求項7

前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる全てのネットワーク階層において、当該各ネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持することを特徴とする、請求項1乃至6のいずれか一項に記載のシステム。

請求項8

前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる1段目のネットワーク階層においては、当該1段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持し、n(n=2〜N(Nは2以上の整数))段目のネットワーク階層においては、前段である(n−1)段目のネットワーク階層に含まれるニューロンのうち前記各n段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持することを特徴とする、請求項1乃至6のいずれか一項に記載のシステム。

請求項9

核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさs1の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、前記第1ステップが終了した後、n=2〜N(Nは2以上の整数)のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、(a)外部から入力された入力データに基づいて、当該入力データに含まれるn番目の認識レベルに対応する大きさsnの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、及び(b)上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した(n−1)段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、を繰り返す第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法。

請求項10

核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさs1の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、前記第1ステップと並行して、又は、前記第1ステップが終了した後、n番目の認識レベルに対応する大きさsnの単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理、すなわち、(a)外部から入力された入力データに基づいて、ある所定の期間p1内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、n段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンに伴って、n段目のネットワーク階層に含まれるニューロンが発火しなければ、当該(n−1)段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、を行う第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法。

請求項11

前記第2ステップの前記(a)の処理において、外部から入力された入力データに基づいて、ある所定の期間p1内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間p2内に、n段目のネットワーク階層に含まれる何れのニューロンも発火しない場合、当該各ニューロン間を結び付ける既存のウェイト係数の学習又は消去を行うことを特徴とする、請求項10に記載の方法。

請求項12

前記n番目の認識レベルに対応する大きさsnは、nの値が小さい程小さくなることを特徴とする、請求項9乃至11のいずれか一項に記載の方法。

請求項13

前記n番目の認識レベルに対応する大きさsnは、nの値が小さい程大きくなることを特徴とする、請求項9乃至11のいずれか一項に記載の方法。

請求項14

前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことを特徴とする、請求項9乃至13のいずれか一項に記載の方法。

請求項15

請求項9乃至14のいずれか一項に記載の方法をコンピュータに対して実行させることを特徴とする、自己組織化ニューラルネットワーク構造の構築プログラム

技術分野

0001

本発明は、音声言語データパターン認識を行うパターン認識システム係り、とりわけ、システム構成自己適応的に発展させることが可能な自己組織化ニューラルネットワーク構造を備えた自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムに関する。

背景技術

0002

一般に、音声言語データのパターン認識を行うパターン認識システムでは、隠れマルコフモデル(HMM: Hidden Markov Model)(非特許文献1及び2参照)を応用した手法が広く用いられている。

0003

しかしながら、このようなHMMの手法を用いたパターン認識システムでは、人手を介して作成された言語コーパス等の巨大データベースを用いて予め内部パラメータの調整(学習)を行う必要があるので、パターン認識の処理に先立って多くの手間がかかってしまうという問題がある。また、実際にパターン認識の処理を行う際にも、例えばビタービサーチアルゴリズム(非特許文献3及び4参照)等を用いて、入力された音声データ(又は符号化された音声データ)とのパターンマッチングを行う必要があるので、その経路検索に多くの時間がかかってしまうという問題がある。さらに、システムの内部構成を自己適応的に発展させることができないので、環境の変化に十分に対応することができないという問題もある。
Ferguson, J. (ed.): "Hidden Markov Models for Speech", Princeton, NJ:IDA, 1980.
鹿野、伊、河原、武田、山本(編)、音声認識システム、IT-Text、情報処理学会、2001.
Viterbi, A. J.: "Error boundsfor convolutional codes and an asymptotically optimal decoding algorithm",IEEE Trans. Information Theory, IT-13: 260-269, Apr. 1967.
Forney, G. D.: "The Viterbi algorithm", Proc. IEEE, 61: 268-278, Mar. 1973.

発明が解決しようとする課題

0004

本発明はこのような点を考慮してなされたものであり、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させることができる自己発展型音声言語パターン認識システム、そのシステムで用いられる自己組織化ニューラルネットワーク構造の構築方法及びその構築プログラムを提供することを目的とする。

課題を解決するための手段

0005

本発明は、第1の解決手段として、音声言語データのパターン認識を行う自己発展型音声言語パターン認識システムにおいて、音声言語データの特徴を抽出して特徴データを出力する特徴抽出部と、前記特徴抽出部から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部とを備え、前記パターン認識部は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造を有し、この自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されていることを特徴とする自己発展型音声言語パターン認識システムを提供する。

0006

なお、上述した第1の解決手段において、前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、前記各ネットワーク階層に含まれる前記各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されていることが好ましい。

0007

また、上述した第1の解決手段において、前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応しているとよい。また、前記自己組織化ニューラルネットワーク構造のうち入力データである特徴データが直接入力されるニューロンを含む入力側ネットワーク階層は、比較的大きな単位の音声言語データを認識する認識レベルに対応し、前記入力側ネットワーク階層から離れたネットワーク階層は、比較的小さな単位の音声言語データを認識する認識レベルに対応していてもよい。

0008

さらに、上述した第1の解決手段において、前記階層的な認識レベルは、音素ベル単語レベル文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことが好ましい。

0009

さらに、上述した第1の解決手段において、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記核関数は、ラジアル基底関数を含むことが好ましい。

0010

さらに、上述した第1の解決手段において、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる全てのネットワーク階層において、当該各ネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持することが好ましい。また、前記パターン認識部の前記自己組織化ニューラルネットワーク構造に含まれる前記各ニューロンで用いられる前記テンプレートデータは、前記階層的な認識レベルに含まれる1段目のネットワーク階層においては、当該1段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データを保持し、n(n=2〜N(Nは2以上の整数))段目のネットワーク階層においては、前段である(n−1)段目のネットワーク階層に含まれるニューロンのうち前記各n段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持してもよい。

0011

本発明は、第2の解決手段として、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさs1の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、前記第1ステップが終了した後、n=2〜N(Nは2以上の整数)のそれぞれに関して順番に次の(a)及び(b)の処理、すなわち、(a)外部から入力された入力データに基づいて、当該入力データに含まれるn番目の認識レベルに対応する大きさsnの単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、及び(b)上記(a)の処理により追加されたニューロンを、入力データに起因して連鎖的に発火した(n−1)段目のネットワーク階層に含まれるニューロンに対してウェイト係数を介して相互に結合する処理、を繰り返す第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法を提供する。

0012

本発明は、第3の解決手段として、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロンを含む自己組織化ニューラルネットワーク構造であって、前記各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合された自己組織化ニューラルネットワーク構造を構築する、自己組織化ニューラルネットワーク構造の構築方法において、外部から入力された入力データに基づいて、当該入力データに含まれる1番目の認識レベルに対応する大きさs1の単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層内に追加する第1ステップと、前記第1ステップと並行して、又は、前記第1ステップが終了した後、n番目の認識レベルに対応する大きさsnの単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理、すなわち、(a)外部から入力された入力データに基づいて、ある所定の期間p1内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火した場合、(i)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、n段目のネットワーク階層に含まれるニューロンが発火すれば、当該各ニューロン間を結び付けるウェイト係数の形成及び既存のウェイト係数の学習を行う一方で、(ii)当該(n−1)段目のネットワーク階層に含まれる複数のニューロンに伴って、n段目のネットワーク階層に含まれるニューロンが発火しなければ、当該(n−1)段目のネットワーク階層に含まれる前記複数のニューロンの発火の時間的推移を表す行列データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとしてn段目のネットワーク階層に追加する処理、を行う第2ステップとを含む、自己組織化ニューラルネットワーク構造の構築方法を提供する。

0013

なお、上述した第3の解決手段においては、前記第2ステップの前記(a)の処理において、外部から入力された入力データに基づいて、ある所定の期間p1内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間p2内に、n段目のネットワーク階層に含まれる何れのニューロンも発火しない場合、当該各ニューロン間を結び付ける既存のウェイト係数の学習又は消去を行ってもよい。

0014

なお、上述した第2又は第3の解決手段において、前記n番目の認識レベルに対応する大きさsnは、nの値が小さい程小さくなるとよい。また、前記n番目の認識レベルに対応する大きさsnは、nの値が小さい程大きくなってもよい。

0015

また、上述した第2又は第3の解決手段において、前記階層的な認識レベルは、音素レベル、単語レベル、文節レベル及び文レベルのうちの少なくとも2つ以上のレベルを含むことが好ましい。

0016

本発明は、第4の解決手段として、上述した第2又は第3の解決手段に係る方法をコンピュータに対して実行させることを特徴とする、自己組織化ニューラルネットワーク構造の構築プログラムを提供する。

発明の効果

0017

本発明の第1の解決手段によれば、パターン認識部内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル等)に対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されているので、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させて環境の変化にも柔軟に対応することができる。

0018

本発明の第2及び第4の解決手段によれば、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、特定のネットワーク階層の構築又は学習を順次行う、いわゆる直列型学習方式を用いているので、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を効率良く構築することができる。

0019

本発明の第3及び第4の解決手段によれば、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式を用いているので、入力データの大きさの切り替え等を行う必要がなく、上述した第1の解決手段に係る階層構造を備えた自己組織化ニューラルネットワーク構造を簡易に構築することができる。

発明を実施するための形態

0020

以下、図面を参照して本発明の実施の形態について説明する。

0021

まず、図1により、本実施の形態に係る自己発展型音声言語パターン認識システムの全体構成について説明する。

0022

図1に示すように、本実施の形態に係る自己発展型音声言語パターン認識システム10は、音声言語データのパターン認識を行うものであり、センサー等から入力された音声言語データの特徴を抽出して特徴データを出力する特徴抽出部11と、特徴抽出部11から出力された特徴データに基づいてパターン認識の処理を行うパターン認識部12とを備えている。また、自己発展型音声言語パターン認識システム10は、特徴抽出部11及びパターン認識部12を制御して、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造の構築又は学習処理、及び、構築された自己組織化ニューラルネットワーク構造による音声言語データの認識処理を行う外部制御部13を備えている。

0023

このうち、特徴抽出部11は、センサー等から入力された音声言語データに対して離散化及び帯域分割等の処理を施すことにより、パターン認識部12へ入力される入力データx(本明細書において下線付き英字ベクトルを表す)を生成するものである。なお、特徴抽出部11は、外部制御部13による制御の下で、特徴抽出部11から出力される特徴データ(入力データx)の大きさを制御することができるようになっている。

0024

パターン認識部12は、核関数に従って入力データとテンプレートデータとの類似度に応じた発火の強さを出力する複数のニューロン(カーネルユニット)を含む自己組織化ニューラルネットワーク構造を有している。なお、ここでいう核関数(カーネル関数)とは、ある2つのデータ(ベクトル)の関係を出力する関数をいう(文献『N. Cristianini and J. S. Taylor, "An Introduction to Support Vector Machines", Cambridge Univ. Press, 2000.』参照)。このような核関数としては任意のものを用いることができるが、2つのデータ(ベクトル)の相互関係を距離で表してその度合いをスカラー形式で出力するようなラジアル基底関数が好ましく用いられる。

0025

なお、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造は、本発明者が先に提案した自己組織化カーネルメモリ(SOKM:self-organising kernel memory)(特願2004−38504号参照)に相当するものであり、特徴抽出部11から出力された特徴データ(入力データx)に基づいて構築又は学習されるものである。具体的には、パターン認識部12は、初期状態ではニューロンが全く存在しておらず、与えられた条件下で、入力データxに含まれるデータが選択的に取り出され、それに基づいてニューロンが自己増殖的に順次追加されることにより、また、Hebbの法則に基づく自己組織化アルゴリズムに従ってそれらの複数のニューロンが相互に結合されてネットワークが形成されることにより行われる。なお、このようにして構築される自己組織化ニューラルネットワーク構造内の各ニューロンは、その入力データ(ベクトル)として、特徴抽出部11から出力された特徴データ(入力データx)(図2及び図3実線の矢印参照)、又は、前段のニューロンから出力されたデータ(図2及び図3破線の矢印参照)のいずれかをとる。また、各ニューロンは、そのテンプレートデータとして、特徴データ(音声言語データ)そのものを保持する他、特徴データ(音声言語データ)に対応する数値ラベル等を保持することができる。

0026

さらに、以上のようにして構築される自己組織化ニューラルネットワーク構造内の各ニューロンは、そのテンプレートデータとして、1段目のネットワーク階層においては、当該1段目のネットワーク階層で認識される単位の音声言語データに対応する特徴データ(音声言語データ)を保持する一方で、それよりも上段のn(n=2〜N(Nは2以上の整数))段目のネットワーク階層においては、前段である(n−1)段目のネットワーク階層に含まれるニューロンのうち各n段目のネットワーク階層に含まれる各ニューロンに関係付けられるニューロンの発火の時間的推移を表す行列データを保持するようにしてもよい。なお、1段目のネットワーク階層に含まれる各ニューロンがテンプレートデータとして保持する特徴データは、例えば1段目のネットワーク階層が音素レベルの階層である場合を例に挙げれば、時間的に短い生音声のフレームデータを特徴抽出したものであり、必ずしも音声学上の厳密な意味での「音素」に対応するデータである必要はない。

0027

以下、上述したn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に含まれる各ニューロンで保持されるテンプレートデータ(テンプレート行列)の詳細について説明する。今、単語レベルのネットワーク階層である2段目のネットワーク階層内に存在する単語/AI/に対応するニューロンK2iが、1段目のネットワーク階層内に存在する音素/A/、/AI/、/I/にそれぞれ対応するニューロンK11、K15、K16の発火の時間的推移(K11−>K15−>K16)に基づいて規定されるものとすると、ニューロンK2iが保持するテンプレート行列C2iは、例えば次式(1)のように表現することができる。

0028

ここで、上式(1)のテンプレート行列C2iの各要素の値“0”/“1”は、前段である1段目のネットワーク階層に含まれる各ニューロンの発火状態(発火しない(“0”)/発火した(“1”))を表している。また、テンプレート行列C2iの各列番号は、1段目のネットワーク階層に含まれるニューロンの発火した時間に相当している。このことから分かるように、テンプレート行列C2iの各要素の値はいわゆる実際のニューロンのスパイク列(spike trains)を表象しているとも考えられる。

0029

なお、上式(1)のテンプレート行列C2iは、1段目のネットワーク階層に含まれる各ニューロンの発火の度合いも考慮して一般化すると、次式(2)のように表現することができる。ここで、次式(2)のテンプレート行列C2iにおいて、cjkはニューロンK1jの発火の度合いを表している。

0030

上式(1)(2)において、テンプレート行列C2iの各行は、1段目のネットワーク階層に含まれる各ニューロンK11、K15、K16の発火の時間的推移(上式(1)(2)では過去6ポイント分)を表している。すなわち、2段目のネットワーク階層に含まれるニューロンK2iが上述したようなテンプレート行列C2iと入力データとのマッチングを行うための核関数を保持するようにすれば、音素レベルのニューロンである上記3つのK11、K15、K16の発火のパターンが入力として与えられ、かつ、上式(1)(2)のようなテンプレート行列C2iとある程度一致した場合に、当該ニューロンK2iが発火することとなり、これによって、単語/AI/のパターン認識を行うことが可能になる。

0031

なお、2段目以降のネットワーク階層に含まれるニューロンにおいては、ある時間の発火を示すテンプレート行列の各要素の値を設定するタイミングについて、必ずしも1段目のネットワーク階層における入力データ(この場合は音素レベルの特徴データ)の与えられるタイミングと一致する必要はない。

0032

具体的には例えば、1段目のネットワーク階層に含まれるニューロンが持つ核関数K1jが次式(3)(4)のようなシグモイド関数(文献『T. Hoya, Artificial Mind System -- Kernel Memory Approach. Series: Studies in Computational Intelligence, Vol. 1, Heidelberg: Springer-Verlag, July 2005.』参照)等で定義される場合には、1段目のネットワーク階層内のニューロンから発火の強さが出力されるタイミングは入力データが与えられるタイミングとを一致させないようにすることができる。これにより、2段目以降のネットワーク階層に含まれるニューロンに保持されるテンプレート行列の各要素の値が設定されるタイミングと、1段目のネットワーク階層に入力データが与えられるタイミングとの関係を任意に調整することができる。なお、次式(4)において、f()はある任意の関数(例えばラジアル基底関数)とすることができる。

0033

また、より簡潔には、外部制御部13内にダウンサンプリング機構を設け、1段目のネットワーク階層内のニューロンから出力される発火の強さを時間的に不連続な形で取得することにより、2段目以降のネットワーク階層に含まれるニューロンに保持されるテンプレート行列の各要素の値が設定されるタイミングと、1段目のネットワーク階層に入力データが与えられるタイミングとの関係を任意に調整するようにしてもよい。

0034

以上のようにして2段目以降のネットワーク階層に含まれるニューロンにおいて、ある時間の発火を示すテンプレート行列の各要素の値を設定するタイミングを調整することにより、前段のネットワーク階層内のニューロンから出力される出力データを間引くことが可能となり、テンプレート行列の列数を大幅に減らすことができる。また、1段目のネットワーク階層内のニューロンが持つ核関数K1jに関し、上式(4)の関数f()は任意に設定することが可能であるので、この関数f()を適切に設定することにより、挙動がより複雑な人間の認知構造模倣するような言語パターン認識システム等を構築することも可能となる。

0035

なお、以上においては、音素レベルのネットワーク階層(1段目のネットワーク階層)と単語レベルのネットワーク階層(2段目のネットワーク階層)との関係を例に挙げて、単語レベルのネットワーク階層に含まれる各ニューロンで保持されるテンプレート行列について説明したが、より上位のネットワーク階層の関係(すなわち、単語レベルのネットワーク階層と文節レベルのネットワーク階層との関係、及び、文節レベルのネットワーク階層と文レベルのネットワーク階層との関係)についても同様であり、上式(1)(2)に示すようなテンプレート行列を持つニューロンが、文節レベルのネットワーク階層に含まれる各ニューロン及び文レベルのネットワーク階層に含まれる各ニューロンとして追加される。

0036

ここで、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士は、音声言語データの階層的な認識レベルに対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されている。

0037

具体的には、自己組織化ニューラルネットワーク構造に含まれる各ニューロンは、音声言語データの階層的な認識レベルのそれぞれに対応する複数のネットワーク階層のいずれかに含まれ、各ネットワーク階層に含まれる各ニューロンは、当該各ネットワーク階層に隣接するネットワーク階層に含まれるニューロンとの間でのみ相互に結合されている。例えば、階層的な認識レベルが音素レベル、単語レベル、文節レベル及び文レベルの4つのレベルであるものとすると、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造は、図2又は図3に示すような構成をとることができる。なお、図2及び図3に示すような自己組織化ニューラルネットワーク構造において、各レベル間に含まれるニューロン間における信号の流れは単一の方向のみと仮定する。(すなわち、図2及び図3に示すような自己組織化ニューラルネットワーク構造は相互結合型ニューラルネットワークであるので(特願2004−38504号参照)、原理上、双方向の信号の流れを表現することができるが、ここでは、逆方向の信号の流れ(例えば単語レベルから音素レベルへの信号の流れ)は考慮しないものとする。

0038

ここで、図2に示す自己組織化ニューラルネットワーク構造では、特徴データである入力データxが直接入力されるニューロンを含む入力側ネットワーク階層が、音素等の比較的小さな(時間的に短い)単位の音声言語データを認識する音素レベルネットワーク階層であり、当該入力側ネットワーク階層から離れるにつれて、比較的大きな単位の音声言語データを認識するネットワーク階層(単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層)が配置されている。なお、図2においては例えば、音素レベルのニューロンである/AK/、/KA/、/AI/、/I/は入力データxが直接入力されるように構成されており、単語レベルのニューロンである/AKAI/は、音素レベルのニューロンである/AK/、/KA/、/AI/、/I/に接続されている。

0039

これに対し、図3に示す自己組織化ニューラルネットワーク構造では、特徴データである入力データxが直接入力されるニューロンを含む入力側ネットワーク階層が、文等の比較的大きな(時間的に長い)単位の音声言語データを認識する文レベルネットワークであり、当該入力側ネットワーク階層から離れるにつれて、比較的小さな単位の音声言語データを認識するネットワーク階層(単語レベルネットワーク階層及び音素レベルネットワーク階層)が配置されている。

0040

なお、図2及び図3に示す自己組織化ニューラルネットワーク構造において、その構造内に含まれるニューロンは、テンプレートデータの大きさが異なっていても相互に結合可能であり、また、結合された他のニューロンの発火に起因して当該ニューロンの発火が促されるので、この特性を利用することにより、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を容易に構築することができる。すなわち、今、ある二つのニューロンA及びBがそれぞれ異なる大きさのテンプレートデータTA及びTBをあらかじめ保持している仮定する。すると、例えば、ニューロンAがある入力データに基づいて発火した場合、それに結合されているニューロンBにその発火が伝わり、それらのウェイト係数の値に応じてニューロンBが発火することがあり得る。このため、このような特性を用いるようにすれば、例えば、音素レベルネットワーク階層に含まれるニューロン群から単語レベルネットワーク階層に含まれるニューロンへの結合を実現して、階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル)に対応する複数のニューロンを段階的に関係付けることができる。

0041

ここで、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造では、そのパターン認識結果は、例えば、自己組織化ニューラルネットワーク構造内で発火した全てのニューロンのうちで最も発火率の大きいものを選択し、その値(クラスIDの値等)を出力することにより、得ることができる。また、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造では、複数のニューロンがネットワーク階層単位で段階的に配置されているので、そのパターン認識結果は、例えば、それぞれのネットワーク階層単位(例えば、音素レベルネットワーク階層や単語レベルネットワーク階層等)で最も発火率の大きいニューロンを選択し、その値(クラスIDの値等)を出力することにより、得ることができる。

0042

次に、図1に示す自己発展型音声言語パターン認識システム10において、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する方法の詳細について説明する。

0043

概要
図1に示す自己発展型音声言語パターン認識システム10において、特徴抽出部11から出力された特徴データ(入力データx)は、外部制御部13による制御の下で、パターン認識部12へ入力され、この入力された特徴データ(入力データx)に基づいて、パターン認識部12にて、音声言語データのパターン認識の処理を実現するための自己組織化ニューラルネットワーク構造の構築又は学習が行われる。なお、このような構築又は学習の方式としては、例えば次のような3種類の方式を挙げることができる。以下、それぞれの方式の概要を説明する。

0044

合成方式
第1の方式は、合成(synthesis)方式又はボトムアップ方式と呼ばれるものであり、例えば、音素等の比較的小さな(時間的に短い)単位の音声言語データを認識する音素レベルネットワーク階層から、比較的大きな単位の音声言語データを認識するネットワーク階層(単語レベルネットワーク階層→文節レベルネットワーク階層→文レベルネットワーク階層)を順に構築するものである。この場合、特徴抽出部11から出力されてパターン認識部12へ入力される入力データxは、外部制御部13による制御の下で、音声言語データの最小単位(例えば音素単位)から最大単位(例えば文単位)まで所定の期間ごとにこの順番で変えられる。そして、外部制御部13による制御の下で、パターン認識部12にて、まず、音素レベルでパターン認識可能なネットワークが最初に構築され、次いで、単語レベル、文節レベル及び文レベルのネットワークがこの順番で順に構築される。これにより、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。なお、以上のような方式以外にも、後述するような並列型学習方式を用いて、自己組織化ニューラルネットワーク構造を構築することも可能である。

0045

分析方式
第2の方式は、分析(analysis)又はトップダウン方式と呼ばれるものであり、ソシュール(Saussure)の差異(difference)構造の概念(文献『丸山圭三郎、ソシュールの思想、岩波書店、1981.』参照)に基づいて、文等の比較的大きな(時間的に長い)単位の音声言語データを認識する文レベルネットワーク階層から、比較的小さな単位の音声言語データを認識するネットワーク階層(文節レベルネットワーク階層→単語レベルネットワーク階層→音素レベルネットワーク階層)を順に構築するものである。この場合、特徴抽出部11から出力されてパターン認識部12へ入力される入力データxは、外部制御部13による制御の下で、予め決められた音声言語データの最大単位(例えば文単位)で与えられる。そして、外部制御部13による制御の下で、パターン認識部12にて、まず、文レベルでパターン認識可能なネットワークが最初に構築され、次いで、上記合成方式とは逆に、ソシュールの差異構造に従うような形で、文節レベル、単語レベル及び音素レベルのネットワークがこの順番で順に構築される。これにより、図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。

0046

(分析合成方式)
第3の方式は、分析合成(analysis-systhesis)方式又はボトムアップ・トップダウン混在方式と呼ばれるものである。この場合、特徴抽出部11から出力されてパターン認識部12へ入力される入力データxは、初期の段階では、外部制御部13による制御の下で、音声言語データの任意の単位(例えば音素単位、単語単位文節単位及び文単位)で与えられ、まず、図4に示すような自己組織化ニューラルネットワーク構造が構築される。次いで、その後の段階で、このようにしてパターン認識部12内に構築された自己組織化ニューラルネットワーク構造に含まれる複数のニューロンを前提として、上述したような合成方式及び/又は分析方式に従って、複数のニューロンが相互に段階的に関係付けられることにより、図2及び/又は図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築(再編成)される。なお、自己組織化ニューラルネットワーク構造で中間的に構築される図4の構成は、ネットワーク階層(音素レベルネットワーク階層、単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層)の区別のない構成であり、全てのニューロンに対して入力データxが直接入力されている。

0047

なお、図4に示すような自己組織化ニューラルネットワーク構造(階層構造を考慮しないネットワーク構造)は、上述したダウン・サンプリング機構(1段目のネットワーク階層内のニューロンの発火の強さをダウン・サンプリングするメカニズム)として、サンプリング周期が異なるものを複数個用意し、後述する自己組織化ニューラルネットワーク構造の第2の構築方法に従って、ネットワーク構造の構築又は学習を行うようにするとよい。これにより、異なる列数のテンプレート行列を持つ複数のニューロンがネットワーク構造内に一括して追加されることとなり、異なるレベルのネットワーク階層に含まれるようなニューロンが同時に追加される。

0048

[具体的な構築方法]
次に、上述した自己組織化ニューラルネットワーク構造の第1の構築方法として、上述した合成方式に従って、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築するための具体的な手順について説明する。

0049

まず、フェーズ1の処理として、外部制御部13による制御の下で、特徴抽出部11から出力される特徴データ(入力データx)の大きさを制御し、音素単位の音声言語データ(1番目の認識レベルに対応する大きさs1の単位の音声言語データ)がパターン認識部12へ入力されるようにする。

0050

この状態で、パターン認識部12において、所定の期間p1に亘って、外部から入力された音素単位の音声言語データに基づいて、当該音素単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層(音素レベルネットワーク階層)内に追加する。

0051

次いで、フェーズ2の処理として、以上のようにして1段目のネットワーク階層(音素レベルネットワーク階層)の構築が終了した後、外部制御部13による制御の下で、特徴抽出部11から出力される入力データxの大きさを切り替え、単語単位の音声言語データ(2番目の認識レベルに対応する大きさs2の単位の音声言語データ)がパターン認識部12へ入力されるようにする。

0052

この状態で、パターン認識部12において、所定の期間p2に亘って、外部から入力された単語単位の音声言語データに基づいて、当該単語単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして2段目のネットワーク階層(単語レベルネットワーク階層)内に追加する。また、このようにして追加されたニューロンを、入力データxである単語単位の音声言語データに起因して連鎖的に発火した1段目のネットワーク階層(音素レベルネットワーク階層)に含まれるニューロンに対してウェイト係数を介して相互に結合する。

0053

同様にして、上述したフェーズ2と同様の処理を、フェーズn(n=3,4,…)の処理として、所定の期間pnに亘って行い、n段目のネットワーク階層(例えば、文節レベルネットワーク階層や文レベルネットワーク階層等)を順次構築する。

0054

なお、以上において、目的とするN段目のネットワーク階層(例えば4段目の文レベルネットワーク階層)が構築された場合には、再度、フェーズ1に戻って、音素レベルネットワーク階層から構築又は学習を繰り返すようにしてもよい。また、各フェーズnの期間pn(n=1,2,...,N)はそれぞれのネットワーク階層の構築又は学習に必要とされる時間を考慮して適宜異なる期間としてもよい。

0055

以上により、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。

0056

なお、上述した自己組織化ニューラルネットワーク構造の第1の構築方法においては、構築される自己組織化ニューラルネットワーク構造に含まれる各ネットワーク階層のニューロンがそのテンプレートデータとして特徴データ(音声言語データ)そのものを保持する場合を例に挙げて説明したが、n(n=2〜N(Nは2以上の整数))段目のネットワーク階層のニューロンが上式(1)(2)のようなテンプレート行列を保持する場合には、次に述べる第2の構築方法のような手順で、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造の構築又は学習を行うことができる。

0057

具体的には、自己組織化ニューラルネットワーク構造の第2の構築方法の手順は次のとおりである。なお、以下に述べる第2の構築方法において、2段目以降のネットワーク階層の構築及び学習は、自己組織化カーネルメモリー(SOKM: self-organising kernel memory)の学習則(特願2004−38504号及び文献『T. Hoya, Artificial Mind System -- Kernel Memory Approach. Series: Studies in Computational Intelligence, Vol. 1, Heidelberg: Springer-Verlag, July 2005.』参照)を拡張したものである。

0058

まず、外部制御部13による制御の下で、特徴抽出部11から出力される特徴データ(入力データx)の大きさを制御し、全ての認識レベルに対応する大きさs1〜snの単位の音声言語データ(音素単位、単語単位及び文節単位の音声言語データ)を含む文単位の音声言語データがパターン認識部12へ入力されるようにする。

0059

そして、フェーズ1の処理として、パターン認識部12において、外部から入力された文単位の音声言語データに基づいて、当該音声言語データに含まれる音素単位の音声言語データを核関数のテンプレートデータとして持つニューロンを、新たなニューロンとして1段目のネットワーク階層(音素レベルネットワーク階層)内に追加する。

0060

そして、以上のフェーズ1の処理と並行して、又は、フェーズ1の処理が終了した後、n番目の認識レベルに対応する大きさsnの単位の音声言語データを認識するためのn(n=2〜N(Nは2以上の整数))段目のネットワーク階層に関して次の(a)の処理を行う。

0061

すなわち、
(1)前段である(n−1)段目のネットワーク階層において、もし、ある期間p1内に、複数のニューロンが発火した場合には、次の処理を行う。
(1-i) もし、前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンの発火に伴って、後段のネットワーク階層であるn段目のネットワーク階層に含まれるニューロンKni(n=2,3,...)のいずれかが発火した場合には、
ニューロンKniとニューロンKn−1jとの間を結び付けるウェイト係数wijを次の規則に従って更新する。
wij=wij+Δ1・wij(wijが存在している場合)
=wij,max (wij>wij,maxの場合)
=winit (wijが存在していない場合)
(1-ii) さもなければ、新たなニューロンをn段目のネットワーク階層に追加する。なお、この新たなニューロンは、そのテンプレートデータとして、(n−1)段目のネットワーク階層に含まれる前記複数のニューロン(期間p1内に発火したニューロン)の発火の時間的推移を表す行列データを持つものとする。

0062

逆に、もし、外部から入力された入力データに基づいて、ある所定の期間p1内に、n段目のネットワーク階層の前段である(n−1)段目のネットワーク階層に含まれる複数のニューロンが発火したにもかかわらず、ある所定の期間p2内に、n段目のネットワーク階層に含まれる何れのニューロンKniも発火しない場合には、ニューロンKniとニューロンKn−1jとの間を結び付けるウェイト係数wijを次の規則に従って更新する。
wij=wij−Δ2・wij(wij>winitの場合)
wijを消去(そうでない場合)

0063

なお、以上の手順で、ニューロンKniが前段のネットワーク階層にあるどのニューロンとの間にもウェイト係数による結び付きがない場合には、ニューロンKniは後段のネットワーク階層から除去される。

0064

以上により、目的とするN段(例えば4段)のネットワーク階層(音素レベルネットワーク階層、単語レベルネットワーク階層、文節レベルネットワーク階層及び文レベルネットワーク階層)が並行して構築及び学習され、最終的に、図2に示すような階層構造を備えた自己組織化ニューラルネットワーク構造が構築される。

0065

なお、以上のようにして構築される自己組織化ニューラルネットワーク構造は、合成方式により構築されたものであるので、そのパフォーマンスは1段目のネットワーク階層(音素レベルネットワーク階層)の構成に大きく依存すると考えられる。このような1段目のネットワーク階層のネットワーク構造としては、上述したような構造(自己組織化カーネルメモリ(SOKM:self-organising kernel memory)を用いた相互結合型ニューラルネットワークシステム(特願2004−38504号参照))に限らず、発火のパターンをネットワーク構造の出力とするような構造であれば特に制約はない。

0066

なお、以上においては、上述した合成方式の場合を例に挙げて説明したが、上述した分析方式及び分析合成方式の場合でも、同様の手法により、図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築することができる。

0067

このように本実施の形態によれば、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造に含まれる各ニューロンのうち互いに関係のあるニューロン同士が、音声言語データの階層的な認識レベル(音素レベル、単語レベル、文節レベル及び文レベル等)に対応して段階的に関係付けられるよう、ウェイト係数を介して相互に結合されているので、音声言語データに対するパターン認識の処理を高い認識率でかつ効率的に行うとともに、そのシステム構成を自己適応的に発展させて環境の変化にも柔軟に対応することができる。

0068

また、本実施の形態によれば、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、第1の構築手法、すなわち、特定の期間pn(n=1,2,...,N)に分けて特定のネットワーク階層の構築又は学習を順次行う、いわゆる直列型学習方式を用いるようにすれば、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を効率良く構築することができる。

0069

また、本実施の形態によれば、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築する手法として、第2の構築手法、すなわち、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式を用いるようにすれば、入力データの大きさの切り替え等を行う必要がなく、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を簡易に構築することができる。

0070

なお、上述した実施の形態においては、上述した合成方式、分析方式及び分析合成方式を実現するための具体的な手法として、特定のネットワーク階層の構築又は学習を特定の期間pn(n=1,2,...,N)に分けて順次行う、いわゆる直列型学習方式、又は、複数のネットワーク階層の構築又は学習を並行して行う、いわゆる並列型学習方式をとる場合を例に挙げて説明したが、図2及び図3に示すような階層構造を備えた自己組織化ニューラルネットワーク構造を構築することができれば、これ以外の任意の手法を用いることができることはいうまでもない。

0071

また、上述した実施の形態において、パターン認識部12内に構築される自己組織化ニューラルネットワーク構造は、上述したような音声言語データに基づいて発火する聴覚モダリティを持つ複数のニューロンに加えて、画像データ等に基づいて発火する視覚嗅覚及び触覚のうちの少なくとも一つのモダリティを持つ複数のニューロンを含んでいてもよい。この場合には、例えば、聴覚系の音声言語データの入力のみに起因して視覚モダリティを持つニューロンを発火させることも可能となり、いわゆる想起等を模した連想記憶等を行うことが可能となる。

0072

さらに、上述した実施の形態に係る自己発展型音声言語パターン認識システム10のパターン認識部12内に構築される自己組織化ニューラルネットワーク構造の構築方法は、例えば、図5に示すようなコンピュータシステム40上でプログラムにより当該方法を実行させることにより実現することができる。ここで、コンピュータシステム40は、バス48と、バス48に接続されたプロセッサ41、メモリ42及びハードディスク43と、バス48に接続された周辺機器キーボードマウス等の入力装置44、ディスプレイプリンタ等の出力装置45、FDドライブ46及びCD−ROMドライブ47)とを備えている。そして、上述したようなプログラムは、メモリ42やハードディスク43、フレキシブルディスク49及びCD−ROM50等のようなコンピュータ読み取り可能な記録媒体に格納され、プロセッサ41から逐次読み出されて実行されることにより上述したような機能ないし手順が実現される。

図面の簡単な説明

0073

本発明の一実施の形態に係る自己発展型音声言語パターン認識システムの全体構成を示すブロック図。
図1に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の一例を示す図。
図1に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の他の例を示す図。
図1に示す自己発展型音声言語パターン認識システムのパターン認識部内に構築される自己組織化ニューラルネットワーク構造の中間的な構成を示す図。
本発明の一実施の形態に係る自己発展型音声言語パターン認識システムが実現されるコンピュータシステムの一例を示す図。

符号の説明

0074

10自己発展型音声言語パターン認識システム
11特徴抽出部
12パターン認識部
13外部制御部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ