図面 (/)

技術 ディープ・ニューラルネットワークの学習方法、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体及びコンピュータプログラム

出願人 国立研究開発法人情報通信研究機構
発明者 松田繁樹ルー・シュガン堀智織柏岡秀紀
出願日 2013年5月23日 (6年11ヶ月経過) 出願番号 2013-109061
公開日 2014年12月8日 (5年4ヶ月経過) 公開番号 2014-229124
状態 特許登録済
技術分野 音声認識 学習型計算機
主要キーワード 計算理論 英語データ 開発データ トレーニングステップ 隠れ状態 学習データセット 独立ネット 各学習データ
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年12月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

複数カテゴリーに属するデータでDNNを学習する時間を短くできるDNNの学習方法を提供する。

解決手段

この方法は、日英の学習データで言語独立なサブネットワーク120、言語依存なサブネットワーク122及び124を学習するステップを含む。このステップは、サブネットワーク120出力層ニューロンと、サブネットワーク122の入力層のニューロンとを接続したDNNを、日本語データで学習する第1のステップと、サブネットワーク122に代えてサブネットワーク124をサブネットワーク120に接続したDNNを形成し、英語データで学習するステップと、これらステップを、学習データが終了するまで交互に実行するステップと、完了後に、第1のサブネットワーク120を他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。

概要

背景

機械学習の1手法としてDNNが注目されている。DNNは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より20〜30%も低下する等、優れた性能を発揮していることが報告されている(非特許文献1〜3)。

DNNとは、従来よりも多くの層を持つニューラルネットワークということができる。具体的には、図1を参照して、DNN30は、入力層40と、出力層44と、入力層40と出力層44との間に設けられた複数の隠れ層42とを含む。入力層40は複数個入力ノードニューロン)を持つ。出力層44は、識別対象の数だけのニューロンを持つ。隠れ層42は複数の隠れ層(7層、9層、11層等)を持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。

DNN30では、層の数だけではなく、各層内のニューロン数も多い。そのために学習のための計算量が膨大な量になることがある。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論発展により、DNNの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えば非特許文献4に記載された実験では、学習データとして200ピクセル×200ピクセルの画像1千万個を用い、1,000台の16コアのコンピュータを用いたDNNの学習に3日間を要したという。

概要

複数カテゴリーに属するデータでDNNを学習する時間を短くできるDNNの学習方法を提供する。この方法は、日英の学習データで言語独立なサブネットワーク120、言語依存なサブネットワーク122及び124を学習するステップを含む。このステップは、サブネットワーク120出力層のニューロンと、サブネットワーク122の入力層のニューロンとを接続したDNNを、日本語データで学習する第1のステップと、サブネットワーク122に代えてサブネットワーク124をサブネットワーク120に接続したDNNを形成し、英語データで学習するステップと、これらステップを、学習データが終了するまで交互に実行するステップと、完了後に、第1のサブネットワーク120を他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。

目的

本発明の目的は、対象があるカテゴリーに属する学習データを用いてDNNの学習を行なう際の時間を短くできるDNNの学習装置及び方法並びにそうしたDNNを用いた対象の認識装置を提供する

効果

実績

技術文献被引用数
3件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数カテゴリー分類される対象について識別するディープニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークコンピュータを用いて学習させる、ディープ・ニューラルネットワークの学習方法であって、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、前記複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで前記第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含み、前記サブネットワークの学習ステップは、コンピュータが、前記第1のサブネットワークの後段に前記第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、前記第1のカテゴリーに属する学習データで学習させ、前記第1のサブネットワークの後段に前記第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、前記第2のカテゴリーに属する学習データで学習させることにより、前記第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習ステップと、コンピュータが、前記ディープ・ニューラルネットワークの学習ステップの完了後に、前記第1のサブネットワークを他のサブネットワークから分離して、前記カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む、ディープ・ニューラルネットワークの学習方法。

請求項2

前記第1、第2及び第3のサブネットワークは、いずれも入力層隠れ層及び出力層を含み、前記ディープ・ニューラルネットワークの学習ステップは、コンピュータが、前記第1、第2及び第3のサブネットワークを初期化するステップと、コンピュータが、前記第1のサブネットワークの前記出力層のニューロンと、前記第2のサブネットワークの前記入力層のニューロンとを接続して第1のディープ・ニューラルネットワークを形成し、前記第1のカテゴリーに属する学習データで前記第1のディープ・ニューラルネットワークを学習させる第1の学習ステップと、コンピュータが、前記第1のサブネットワークの前記出力層のニューロンと、前記第3のサブネットワークの前記入力層のニューロンとを接続して第2のディープ・ニューラルネットワークを形成し、前記第2のカテゴリーに属する学習データで前記第2のディープ・ニューラルネットワークを学習させる第2のトレーニングステップと、コンピュータが、前記第1及び第2の学習ステップを、終了条件成立するまで交互に実行するステップとを含む、請求項1に記載の学習方法。

請求項3

さらに、コンピュータが、前記サブネットワークの学習ステップの完了後に、前記第2のサブネットワークを他のサブネットワークから分離して、前記第1のカテゴリーの対象に対して使用されるカテゴリー依存のサブネットワークとして記憶媒体に記憶させるステップを含む、請求項1又は請求項2に記載のディープ・ニューラルネットワークの学習方法。

請求項4

複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークをコンピュータを用いて学習させる、ディープ・ニューラルネットワークの学習方法であって、コンピュータが、前記複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークを記憶するステップと、コンピュータが、前記特定カテゴリー用のサブネットワークを記憶するステップと、コンピュータが、前記特定カテゴリー用のサブネットワークを初期化するステップと、コンピュータが、前記カテゴリー独立なサブネットワークの出力層のニューロンと、前記特定カテゴリー用のサブネットワークの入力層とを接続することによりディープ・ニューラルネットワークを形成するステップと、コンピュータが、前記特定カテゴリーに属する学習データを用いて、かつ前記カテゴリー独立なサブネットワークのパラメータを固定して、前記特定カテゴリー用のサブネットワークを学習させるステップとを含む、ディープ・ニューラルネットワークの学習方法。

請求項5

請求項1〜請求項4のいずれかに記載の方法により学習した、ディープ・ニューラルネットワークのサブネットワークのパラメータを記憶した記憶媒体。

請求項6

ディープ・ニューラルネットワークの学習方法をコンピュータに実行させるコンピュータプログラムであって、前記方法は、複数カテゴリーに分類される対象について識別するディープ・ニューラルネットワークにおいて、前記複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習させる方法であり、当該方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、前記複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで前記第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含み、前記サブネットワークの学習ステップは、コンピュータが、前記第1のサブネットワークの後段に前記第2のサブネットワークを接続して形成された第1のディープ・ニューラルネットワークを、前記第1のカテゴリーに属する学習データで学習させ、前記第1のサブネットワークの後段に前記第3のサブネットワークを接続して形成した第2のディープ・ニューラルネットワークを、前記第2のカテゴリーに属する学習データで学習させることにより、前記第1及び第2のディープ・ニューラルネットワークの学習を行なうディープ・ニューラルネットワークの学習ステップと、コンピュータが、前記ディープ・ニューラルネットワークの学習ステップの完了後に、前記第1のサブネットワークを他のサブネットワークから分離して、前記カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む、コンピュータプログラム。

技術分野

0001

この発明は、音声認識及び画像認識等の認識技術に用いられるディープニューラルネットワーク(以下、記載を簡略にするために「DNN」と呼ぶ。)に関し、特に、特定用途のDNNの学習を高速化する技術に関する。

背景技術

0002

機械学習の1手法としてDNNが注目されている。DNNは例えば、画像認識及び音声認識等に適用されており、誤り率が以前より20〜30%も低下する等、優れた性能を発揮していることが報告されている(非特許文献1〜3)。

0003

DNNとは、従来よりも多くの層を持つニューラルネットワークということができる。具体的には、図1を参照して、DNN30は、入力層40と、出力層44と、入力層40と出力層44との間に設けられた複数の隠れ層42とを含む。入力層40は複数個入力ノードニューロン)を持つ。出力層44は、識別対象の数だけのニューロンを持つ。隠れ層42は複数の隠れ層(7層、9層、11層等)を持つ。各隠れ層はそれぞれ複数個のニューロンを持つ。

0004

DNN30では、層の数だけではなく、各層内のニューロン数も多い。そのために学習のための計算量が膨大な量になることがある。以前はそのような計算を行なうことはほとんど不可能だったが、コンピュータ自体の高機能化、分散・並列処理技術の発達及び計算理論発展により、DNNの学習を行なうことも可能となっている。しかし、学習のために大量のデータを使用する場合、依然として学習のために長時間を要することになる。例えば非特許文献4に記載された実験では、学習データとして200ピクセル×200ピクセルの画像1千万個を用い、1,000台の16コアのコンピュータを用いたDNNの学習に3日間を要したという。

先行技術

0005

Y. Bengio, “Learning deep architectures forAI,” Foundations and Trendsin Machine Learning, Vol. 2, No. 1, pp. 1-127, 2009.
G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury, “Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups,”IEEE Signal Processing Magazine, Vol. 29, No. 6, pp. 82-97, 2012.
A. Mohamed, G. Dahl, and G. Hinton, “Acoustic Modeling using Deep Belief Networks,” IEEE Transactions on Audio, Speech, and Language Processing, Vol. 20, No. 1, pp. 14-22, 2012.
Quoc V. Le, Marc'Aurelio Ranzato, Rajat Monga, Matthieu Devin, Kai Chen, Greg S. Corrado, Jeff Dean Andrew Y. Ng, "Building High-level Features Using Large Scale Unsupervised Learning," Proc. ICML, 2012.

発明が解決しようとする課題

0006

例えば音声認識にDNNを適用する場合、対象とする言語により音素構成が異なるために、DNNを個別に用意し、別々に学習を行なわなければならない。例えば、図2を参照して、日本語英語との音声認識用のDNNを用いる場合には、日本語DNN60と英語DNN62とを個別に準備し、それぞれ別々の学習データを用いて学習を行なう。すなわち、2個のDNNの学習を行なう必要がある。新たな言語の音声認識が必要となった場合には、新たなDNNを用意し、新たに学習を行なう。すなわち、全部でN個の言語についてDNNの学習を行なう場合には、1個のDNNを行なう場合と比較して約7倍の時間が必要となる。DNNの学習にそのような長時間を要していては、システムの開発に膨大な時間を要することとなり、好ましくない。

0007

こうした問題は、言語別の音声認識を行なうためのDNN学習のときだけでなく、たとえばカテゴリー別画像認識用のDNNを準備したりする場合にも生ずる問題である。

0008

それゆえに本発明の目的は、対象があるカテゴリーに属する学習データを用いてDNNの学習を行なう際の時間を短くできるDNNの学習装置及び方法並びにそうしたDNNを用いた対象の認識装置を提供することを目的とする。

課題を解決するための手段

0009

本発明の第1の局面に係るDNNの学習方法は、複数カテゴリーに分類される対象について識別するDNNを、複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークをコンピュータを用いて学習させる、DNNの学習方法である。この方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含む。サブネットワークの学習ステップは、コンピュータが、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のDNNを、第1のカテゴリーに属する学習データで学習させ、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のDNNを、第2のカテゴリーに属する学習データで学習させることにより、第1及び第2のDNNを学習させるDNNの学習ステップと、コンピュータが、DNNの学習ステップの完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。

0010

好ましくは、第1、第2及び第3のサブネットワークは、いずれも入力層、隠れ層及び出力層を含む。DNNの学習ステップは、コンピュータが、第1、第2及び第3のサブネットワークを初期化するステップと、コンピュータが、第1のサブネットワークの出力層のニューロンと、第2のサブネットワークの入力層のニューロンとを接続して第1のDNNを形成し、第1のカテゴリーに属する学習データで第1のDNNを学習させる第1の学習ステップと、コンピュータが、第1のサブネットワークの出力層のニューロンと、第3のサブネットワークの入力層のニューロンとを接続して第2のDNNを形成し、第2のカテゴリーに属する学習データで第2のDNNを学習させる第2の学習ステップと、コンピュータが、第1及び第2の学習ステップを、終了条件成立するまで交互に実行するステップとを含む。

0011

より好ましくは、この学習方法はさらに、コンピュータが、サブネットワークの学習ステップの完了後に、第2のサブネットワークを他のサブネットワークから分離して、第1のカテゴリーの対象に対して使用されるカテゴリー依存のサブネットワークとして記憶媒体に記憶させるステップを含む。

0012

本発明の第2の局面に係る学習方法は、複数カテゴリーに分類される対象について識別するDNNにおいて、特定カテゴリーに使用されるカテゴリー依存のサブネットワークをコンピュータを用いて学習させる、DNNの学習方法である。この方法は、コンピュータが、複数カテゴリーに共通して使用されるカテゴリー独立なサブネットワークを記憶するステップと、コンピュータが、特定カテゴリー用のサブネットワークを記憶するステップと、コンピュータが、特定カテゴリー用のサブネットワークを初期化するステップと、コンピュータが、カテゴリー独立なサブネットワークの出力層のニューロンと、特定カテゴリー用のサブネットワークの入力層とを接続することによりDNNを形成するステップと、コンピュータが、特定カテゴリーに属する学習データを用いて、かつカテゴリー独立なサブネットワークのパラメータを固定して、特定カテゴリー用のサブネットワークを学習させるステップとを含む。

0013

本発明の第3の局面に係る記憶媒体は、上記したいずれかの方法により学習した、DNNのサブネットワークのパラメータを記憶した記憶媒体である。

0014

本発明の第4の局面に係るコンピュータプログラムは、DNNの学習方法をコンピュータに実行させる。この学習方法は、複数カテゴリーに分類される対象について識別するDNNにおいて、複数カテゴリーに共通に使用されるカテゴリー独立なサブネットワークを学習させる方法である。当該方法は、コンピュータが、記憶媒体内に、第1、第2及び第3のサブネットワークを記憶するステップと、コンピュータが、複数カテゴリーのうち、第1及び第2のカテゴリーに属する学習データで第1、第2及び第3のサブネットワークを学習させるサブネットワークの学習ステップとを含む。

0015

サブネットワークの学習ステップは、コンピュータが、第1のサブネットワークの後段に第2のサブネットワークを接続して形成された第1のDNNを、第1のカテゴリーに属する学習データで学習させ、第1のサブネットワークの後段に第3のサブネットワークを接続して形成した第2のDNNを、第2のカテゴリーに属する学習データで学習させることにより、第1及び第2のDNNの学習を行なうDNNの学習ステップと、コンピュータが、DNNの学習ステップの完了後に、第1のサブネットワークを他のサブネットワークから分離して、カテゴリー独立なサブネットワークとして記憶媒体に記憶させるステップとを含む。

図面の簡単な説明

0016

DNNの構成を模式的に示す図である。
日本語と英語について個別にDNNの学習を行なう場合を説明するための模式図である。
本発明に至るDNNの学習に関する着想を説明するDNNの内部構成の模式図である。
本発明に至るDNNの学習に関する着想を説明するDNNの内部構成の模式図である。
本発明の各実施の形態に係るDNNの基本的な構成を説明する模式図である。
本発明の各実施の形態における言語に依存しない独立なサブネットワーク(以下、「独立サブネットワーク」と呼ぶ。)と言語に依存したサブネットワーク(以下、「依存サブネットワーク」と呼ぶ。)との接続形態を示すブロック図である。
本発明の各実施の形態における独立サブネットワークと依存サブネットワークとの接続の具体的構成を示すブロック図である。
独立サブネットワークと依存サブネットワークとの流通形態及び接続形態を示す模式図である。
本発明の実施の形態に係るDNNにおける独立サブネットワークと依存サブネットワークとの同時学習を実現するプログラムフローチャートである。
本発明の実施の形態に係るDNNにおける独立サブネットワークを固定して依存サブネットワークの学習を行なう処理を実現するプログラムのフローチャートである。
実施の形態に係るDNNの学習処理を実行するコンピュータシステム外観図である。
図11に示すコンピュータの内部構成を示すブロック図である。

実施例

0017

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。なお、以下の実施の形態は主に音声認識に関する例についてのものであるが、本発明はそのような実施の形態には限定されない。例えば画像認識にも適用できる。

0018

[基本的な考え方
上記したように、多言語音声についてDNNの学習を行なう場合には、個別のDNNをそれぞれの言語で別々に学習させる必要がある。しかしそのためには長時間を要するという問題がある。こうした問題を解決するために、以下のような仮定をおいて多言語音声のDNNの学習を行なった。実験によれば、この仮定には十分な根拠があると思われる。

0019

(1)別々の言語といっても、対象とするのは同じ音声である。したがって、多言語に共通な特徴、言い換えれば言語から独立した特徴は、DNNのどこか同じ場所で処理されているはずである。例えば母音子音破裂音及び摩擦音等の音素属性の検出等がこれにあたる。これらの処理は、いずれも入力に近い層で行なわれるものと仮定する。すなわち、図3に示すように、日本語DNN60及び英語DNN62のいずれにおいても、上記したような音素属性を処理するニューロン80及び82等は入力層に近い位置にあると仮定する。

0020

(2)一方、図4を参照して、言語に依存した処理は出力層に近い層内のニューロン(例えばニューロン100及び102等)で処理されると仮定する。例えば、音素属性から音素へのマッピング等の処理がこれにあたる。

0021

(3)以上を踏まえると、図4の日本語DNN60及び英語DNN62の共通部分(ニューロン80及び82が集中している層)をそれ以後の層と分割することにより、図5に示すように、言語に依存しない独立サブネットワーク120が得られることになる。日本語DNN60及び英語DNN62のうち、残りの部分がそれぞれの言語に依存した依存サブネットワーク(たとえば日本語の依存サブネットワーク122及び英語の依存サブネットワーク124)となる。

0022

このような仮定に基づくと、予め学習済みの独立サブネットワーク120を準備すれば、特定の言語に依存した依存サブネットワークのみの学習を行なって独立サブネットワーク120に接続するだけで、その言語を認識するためのDNNを得ることができる。DNN全体の学習を行なう場合と比較して、依存サブネットワークの層の数は小さくなるので、学習に要する時間が短くなることが期待できる。

0023

具体的には、以下のような構成が考えられる。図6を参照して、独立サブネットワーク120と、依存サブネットワーク122及び124とを準備する。独立サブネットワーク120は、入力層160、隠れ層162及び出力層164を含む。依存サブネットワーク122及び124も同様、入力層180及び200、隠れ層182及び202、並びに出力層184及び204を含む。独立サブネットワーク120の出力層164のニューロン数と、依存サブネットワーク122及び124の入力層180及び200のニューロン数とは一致させる。

0024

図7を参照して、例えば独立サブネットワーク120と依存サブネットワーク122との接続では、独立サブネットワーク120の出力層164の各ニューロンと、依存サブネットワーク122の入力層180の対応するニューロンとを互いに接続してニューロン対220,222,…,224とする。したがって、出力層164のニューロン数と入力層180のニューロン数とは一致させる必要がある。

0025

学習時の学習データのフォワードプロパゲーションでは、独立サブネットワーク120側のニューロンの出力xiLIをその入力層180側のニューロンへの入力yiLDとする。なおここでiはニューロンのインデックスを表し、「LI」は「Language Independent」の略で言語から独立したものであることを示し、「LD」は「Language Dependent」の略で言語に依存することを示す。以下の説明でも同様である。

0026

バックプロパゲーションでは、独立サブネットワーク120の出力層164内の各ニューロンの誤差信号eiLIは、依存サブネットワーク122又は124の第2層目の隠れ層内の各ニューロンの誤差信号ejLDから次の式により計算する。ただしjはニューロンのインデックスである。

0027

ただしこの式でwijは依存サブネットワーク122又は124内の入力層内のi番目のニューロンと、第2層目のj番目のニューロンとの接続に与えられた重みである。

0028

本実施の形態に係るシステムでは、図6及び図7に示すような独立サブネットワーク120及び依存サブネットワーク122並びに依存サブネットワーク124を同時に学習させる。具体的には図9及び図10のフローチャートを参照して後述するが、独立サブネットワーク120と依存サブネットワーク122とを接続したDNNで日本語の学習データを用いて学習させる処理と、独立サブネットワーク120と依存サブネットワーク124とを接続したDNNで英語の学習データを用いて学習させる処理とを、学習データを変更しながら交互に繰返す。この処理により、日英の両言語に共通した、言語に依存しない処理を行なうニューロンが独立サブネットワーク120に、日本語特有の処理を行なうニューロンが依存サブネットワーク122に、英語特有の処理を行なうニューロンが依存サブネットワーク124に、それぞれ集中するように、これらのサブネットワークが学習すると考えられる。

0029

[効果]
上記したように独立サブネットワーク120と依存サブネットワーク122及び124とが得られることにより以下のような効果が得られる。図8を参照して、上記したように日本語の独立サブネットワーク120、英語の依存サブネットワーク122及び124の学習が終了すると、依存サブネットワーク122及び124を独立サブネットワーク120とセットにして流通させることもできるし、別々に流通させることもできる。

0030

例えば独立サブネットワーク120と全く同じ独立サブネットワーク232が既にユーザの手元にあるものとする。このユーザは日本語の依存サブネットワーク122を入手して独立サブネットワーク232の後段に接続することにより、日本語の音声認識用のDNNを構築できる。別のユーザが独立サブネットワーク120と全く同じ独立サブネットワーク230を保持していれば、このユーザは英語の依存サブネットワーク124を入手して独立サブネットワーク230の後段に接続することで、英語の音声認識用のDNNを構築できる。

0031

さらにまた、上記仮定からすると、独立サブネットワーク120は、言語がどのようなものであるかにかかわらず使用できるように学習するはずである。したがって、新たな言語のDNNをこの独立サブネットワーク120を使用して以下のように短時間で学習できる。すなわち、独立サブネットワーク120を固定し(独立サブネットワーク120のパラメータをすべて不変として)、新たな言語(たとえば中国語)のための未学習の依存サブネットワーク(中国語用の依存サブネットワーク)234を独立サブネットワーク120の後段に接続する。そして、独立サブネットワーク120を固定して、中国語の学習データを用いて独立サブネットワーク120及び依存サブネットワーク234からなるDNNの学習を行なう。この際、独立サブネットワーク120のパラメータは変化させず、依存サブネットワーク234の学習のみを行なう。こうした処理で、依存サブネットワーク234は中国語に適合したパラメータの値を持つように学習し、独立サブネットワーク120の後段に依存サブネットワーク234を接続することにより中国語の音声認識用のDNNを構築できる。もちろん、この依存サブネットワーク234についても、独立サブネットワーク120とセットで流通させることも、別に流通させることもできる。あるユーザが独立サブネットワーク120と同じ独立サブネットワーク236を持っている場合、このユーザは依存サブネットワーク234のみを入手することで、独立サブネットワーク236と組合せ新たな中国語用のDNNを構築できる。

0032

依存サブネットワーク234の層の数は、独立サブネットワーク120と依存サブネットワーク234とを組合せたDNNと比較して少ない。したがって依存サブネットワーク234の学習は、DNN全体の学習を行なう場合と比較してはるかに少なくなる。その結果、新たな言語についてのDNNを構築する必要が生じたときにも従来よりも短期間で必要なDNNを準備できる。

0033

プログラム構成
上記したシステムはコンピュータのハードウェアと、そのハードウェア上で実行されるコンピュータプログラムとにより実現可能である。図9に独立サブネットワーク120、日本語の依存サブネットワーク122及び英語の依存サブネットワーク124を学習させる処理を実現するプログラムのフローチャートを示し、図10に追加で中国語の依存サブネットワーク234を学習させる処理を実現するプログラムのフローチャートを示す。

0034

図9を参照して、独立サブネットワークと依存サブネットワーク(複数。この例では2つ)とを同時に学習させるプログラムは、独立サブネットワーク120を初期化するステップ240、依存サブネットワーク122を初期化するステップ242及び依存サブネットワーク124を初期化するステップ244とを含む。独立サブネットワーク120の初期化は、通常のDNNと同じく、RBM(Restricted Boltzman Machine)により行なう。依存サブネットワーク122及び124の初期化は、独立サブネットワーク120の出力を入力として、独立サブネットワーク120と同様、RBMを用いて行なう。なお、独立サブネットワーク120の出力を用いず、依存サブネットワーク122及び124をそれぞれ独立サブネットワーク120と独立にRBMにより初期化してもよい。

0035

続いて、学習データを用いて独立サブネットワーク120並びに依存サブネットワーク122及び124の学習を同時に行なう。この例では、学習データは日本語と英語との双方の音声データ及び音素認識結果からなり、かつ日英の学習データはいずれも複数のセットに分割しておく。

0036

このプログラムの、学習を行なう部分は、学習データの各セットに対して以下の処理248を実行するステップ246と、学習の結果得られた独立サブネットワーク120、日本語の依存サブネットワーク122及び英語の依存サブネットワーク124のパラメータを別々に出力し、図示しない記憶媒体にそれぞれ記憶させて処理を終了するステップ250とを含む。

0037

処理248は、独立サブネットワーク120の後段に日本語の依存サブネットワーク122を接続するステップ270と、処理対象となっている学習セット内の日本語の各学習データに対して独立サブネットワーク120と依存サブネットワーク122とを接続して得られたDNNの学習を実行するステップ272と、独立サブネットワーク120の後段に英語の依存サブネットワーク124を接続するステップ276と、処理対象となっている学習データセット内の英語の各学習データを用い、この学習データが終了するまで、独立サブネットワーク120と依存サブネットワーク124とを接続して得られたDNNの学習を行なうステップ278とを含む。

0038

図9のプログラムを実行することにより、図6に示すように、独立サブネットワーク120+依存サブネットワーク122と、独立サブネットワーク120+依存サブネットワーク124との2つのDNNの学習がそれぞれ日本語と英語とのデータを用いて交互に実行される。この際、独立サブネットワーク120は日本語と英語の双方のデータを用いて学習し、日本語の依存サブネットワーク122は日本語のデータを用いて学習し、英語の依存サブネットワーク124は英語のデータを用いて学習する。その結果、図5に示すように、日本語に特有の処理に関連するニューロンは日本語用の依存サブネットワーク122に、英語に特有の処理に関連するニューロンは英語用の依存サブネットワーク122に、言語に独立したニューロンは独立サブネットワーク120に、それぞれ集中することになる。

0039

図10に、既に独立サブネットワーク120が得られた後に、新たな言語(たとえば中国語)の依存サブネットワーク(図8に示す依存サブネットワーク234)の学習を行なうためのプログラムの制御構造フローチャート形式で示す。

0040

図10を参照して、このプログラムは、独立サブネットワーク120の後段に依存サブネットワーク234を接続して新たなDNNを得るステップ300と、独立サブネットワーク120+依存サブネットワーク234からなるDNNの初期化を公知の方法で実行するステップ302と、中国語の各学習データを用いて、独立サブネットワーク120のパラメータを固定してDNNの学習を行なうステップ304と、学習の終了後に、依存サブネットワーク234を独立サブネットワーク120と別に出力し、図示しない記憶媒体に記憶させるステップ308とを含む。

0041

このプログラムを実行することにより、独立サブネットワーク120に中国語用の依存サブネットワーク234を接続したDNNの学習を行なうことができる。独立サブネットワーク120についてはパラメータが固定されているので、実質的にはこの学習は依存サブネットワーク234のみが対象である。後述する実験では、このようにして学習した依存サブネットワーク234を独立サブネットワーク120の後段に接続しても、最初から中国語用の学習を行なったDNNと同等の性能が得られた。詳細については後述の実験結果で述べる。

0042

ハードウェア構成
上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行される上記したコンピュータプログラムとにより実現できる。図11はこのコンピュータシステム330の外観を示し、図12はコンピュータシステム330の内部構成を示す。

0043

図11を参照して、このコンピュータシステム330は、メモリポート352及びDVD(Digital Versatile Disc)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。

0044

図12を参照して、コンピュータ340は、メモリポート352及びDVDドライブ350に加えて、CPU(中央処理装置)356と、CPU356、メモリポート352及びDVDドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、他端末との通信を可能とするネットワークへの接続を提供するネットワークインターフェイス(I/F)344を含む。

0045

コンピュータシステム330を上記した各実施の形態のシステムの各機能部として機能させるためのコンピュータプログラムは、DVDドライブ350又はメモリポート352に装着されるDVD362又はリムーバブルメモリ364に記憶され、さらにハードディスク354に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。DVD362から、リムーバブルメモリ364から、又はネットワークを介して、直接にRAM360にプログラムをロードしてもよい。

0046

このプログラムは、コンピュータ340を、上記実施の形態に係るシステムの各機能部として機能させるための複数の命令からなる命令列を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム若しくはサードパーティのプログラム、又は、コンピュータ340にインストールされる各種プログラミングツールキット又はプログラムライブラリにより提供される。したがって、このプログラム自体はこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又はプログラミングツールキット内の適切なプログラムツールを呼出すことにより、上記したシステムとしての機能を実現する命令のみを含んでいればよい。もちろん、プログラムのみで必要な機能をすべて提供するようにしてもよい。

0047

図5図9に示す本実施の形態では、学習データ及び各サブネットワークのパラメータ等は、RAM360又はハードディスク354に記憶される。サブネットワークのパラメータはさらに、USBメモリ等のリムーバブルメモリ364に記憶されてもよいし、ネットワーク等の通信媒体を介して他のコンピュータに送信されてもよい。

0048

コンピュータプログラムを実行する際のコンピュータシステム330の動作は周知である。したがってここではその詳細については繰返さない。

0049

[実験]
上記仮定に基づいたシステムの有効性について、実験により検証した。実験は、日本語、英語及び中国語の音声データに対してフレームレベルでの音素の識別性能について行なった。音声データは、既にスマートフォン等で利用されている音声翻訳アプリケーションから音声翻訳サーバに送信されてくるデータを蓄積したものである。

0050

音響パラメータとしては12次までのMFCC係数対数音声パワー並びにそれらのフレーム間でのΔ(デルタ)及びΔΔである。すなわち、1フレームあたり39次元の特徴量を用いた。フレーム長は20ミリ秒フレームシフト量は10ミリ秒である。1フレームあたり、処理対象のフレームと、その前後5フレームずつ、合計11フレームの特徴量からなる429次元の特徴量ベクトルをDNNへの入力として用いた。

0051

日本語、英語及び中国語の音素数はそれぞれ26、39及び30である。各言語に対するDNNの出力層のニューロン数はこれら音素数に合わせた。

0052

学習データは各言語について40,000発話であり、約25時間にわたる音声データである。評価のためのデータは1,000個とした。各発話には端末番号が付されているが、評価データの端末番号は、学習データには含まれていなかった。

0053

プレ学習段階でのRBMパラメータ推定の学習率を0.005に固定した。学習の繰返し数エポック数)は100とした。ファインチューニング段階では、学習率を0.001からスタートし、開発データに対する誤り率が増加すると学習率を半分に変更した。開発データ数は2,000である。開発データ内の端末番号は、学習データにも評価データにも含まれなかった。RBMとDNNは128のミニバッチサイズで学習した。

0054

ベースライン
従来の手法で言語ごとに学習したDNNによる音素識別性能を、本願発明によるDNNの評価のためのベースラインとした。DNNの層数は、いずれの場合も入力層を別として2層、4層、6層の場合を評価した。各隠れ層内のニューロン数はいずれの場合も512である。プレ・学習段階で、各言語のDNNを日本語、英語及び中国語の発話データで別々に初期化した。各ニューロンについては、いずれも出力関数としてシグモイド関数を用いた。得られたDNNの音素識別率をテーブル1に示す。

0055

テーブル1から、層の数を多くすると言語を問わず識別率が向上することが分かる。

0056

さらに、上記実施の形態について説明したDNNの学習方法にしたがって日本語及び英語の学習データを用い、独立サブネットワークと、日本語用の依存サブネットワーク及び英語用の依存サブネットワークとの学習を同時に行なった。ここではこれらをLIJp,En、LDJp及びLDEnと呼ぶ。この結果、日本語用のDNN(LIJp,En→LDJp)と英語用のDNN(LIJp,En→LDEn)とが得られたことになる。同様の方法で、日本語と中国語の学習データを用いた学習で、独立サブネットワークLIJp,Ch、LDJp及びLDChを得た。実験では、LIの隠れ層及び出力層のニューロンと、LDの隠れ層のニューロンとについては、出力関数としてシグモイド関数を用いた。LDの出力層のニューロンとしてはソフトマックス関数を用いた。各隠れ層内のニューロン数は512であり、これはベースラインのものと同じである。DNNの層数は6である。

0057

2つのDNN(LLJp、En→LDJp及びLLJp,En→LDEn)による音素認識精度をテーブル2に示し、他のDNN(LIJP,Ch→LDJp及びLIJp,Ch→LDch)による音素認識精度をテーブル3に示す。

0058

0059

0060

テーブル2及びテーブル3から、依存サブネットワークに2層以上を割り当てた場合には、ベースラインとほぼ同じ性能が得られたことが分かる。最もすぐれた性能を示したのは、LIとLDとに同じ数の層を割り当てたときであったが、その差はわずかなものであった。以上から、一般的にいって、上記実施の形態にしたがってDNNを独立サブネットワークと依存サブネットワークとに分けて複数個の言語について同時に学習したときには、最初から各言語について個別のDNNの学習を行なった場合よりよい性能を得られると考えられる。

0061

最後に、独立サブネットワークに、その独立サブネットワークの学習に使用されなかった言語の依存サブネットワークを接続し、独立サブネットワークのパラメータを固定して学習して得られたDNNの音素識別性能を調べた。具体的には、DNN(LIJp,En→LDCh)と、DNN(LIJp,Ch→LDEn)との2つのDNNについてそれぞれ中国語と英語の音素識別性能を調べた。結果をテーブル4に示す。

0062

0063

テーブル4から分かるように、上記DNNで実質的には中国語の依存サブネットワークと英語の依存サブネットワークとしか学習がされなかったにもかかわらず、得られたDNNの音素識別性能は、LDが1層しかない場合を除き、ベースラインの性能と遜色ないものである。

0064

以上の実験から、本発明での仮定は実際に正しい可能性が大であることが分かる。すなわち、複数の言語の学習データを用いて独立サブネットワークと各言語の依存サブネットワークとを同時に学習させることで、独立サブネットワークには、言語に依存しない処理に関連するニューロンが集中すること及び各言語の依存サブネットワークには、その言語の音声処理に特に関連するニューロンが集中するということができる。したがって、この独立サブネットワークを、学習に用いられなかった言語の依存サブネットワークと組合せてDNNを構成した場合にも、十分な識別性能が得られると考えられる。すなわち、独立サブネットワークが得られれば、新たな言語については依存サブネットワークの学習のみを行なって、得られた依存サブネットワークを独立サブネットワークの後段に接続すれば、最初からDNNの学習を行なったものとほぼ同程度の識別性能を得ることができる。依存サブネットワークの層数はDNN全体の層の数より小さくできるので、その学習に要する時間は、DNN全体を学習させるよりもはるかに短くできる。

0065

なお、上記実施の形態及び実験は、言語の音素識別に関するものである。この場合、DNNの出力層のニューロン数は、各言語の音素数と一致させる。しかし本発明は、そのような実施の形態には限定されない。音声認識のための音響モデルとして、隠れマルコフモデル(HMM)がよく使用されている。そのようなHMMに代えてDNNを使用することもできる。その場合には、DNNにより隠れ状態推定することになるため、DNNの出力層のニューロンの数は、想定される隠れ状態の数と同じ数とする。

0066

<変形例>
上記した実施の形態は音声処理に関するものであった。しかし、本発明は音声処理のみに適用可能なわけではない。例えば、画像認識についても同様に適用できる。音声の場合には、言語という明確な区別があり、従来は言語ごとにDNNの学習を行なってきた。したがって実施の形態のように、言語に依存しない部分のみを抽出して独立サブネットワークとすると、多言語について共通に使用できるという有利な点がある。これに対して画像認識の場合にも、明確に対象を区別できるカテゴリーがあれば、上記言語に代えてそれらカテゴリーごとに、本願発明を用いて画像認識のためのDNNの学習を効率的に行なえる。

0067

例えば、画像認識の基礎となるエッジの抽出等、画像の基本的な特徴の検出は、対象の性質にかかわらず共通に行なわれる。一方、画像内の具体的なオブジェクトの識別は、より上位の特徴に基づいて行なわれると考えられる。したがって、画像内のオブジェクトの識別のためのDNNについても、画像のカテゴリーから独立したサブネットワーク(独立サブネットワーク)と、画像のカテゴリーごとに準備される、カテゴリーに依存したサブネットワーク(依存サブネットワーク)とから構築できると考えられる。

0068

この場合の学習は、予め複数のカテゴリーに属するオブジェクトが含まれる画像を準備し、それらのための個別の依存サブネットワークと、独立サブネットワークとを準備する。そして、独立サブネットワークに、各カテゴリー用の依存サブネットワークを接続してそのカテゴリーに属する画像についてのDNNの学習を行なう。一定量の学習が終了したら、カテゴリー用の依存サブネットワークを別のカテゴリー用のものに代え、そのカテゴリーに属する画像でDNNの学習を行なう。こうした学習を繰返し行なうことで、画像のカテゴリーから独立した独立サブネットワークと、各カテゴリーの画像のための依存サブネットワークとが得られる。独立ネットワークのパラメータを固定することで、学習に使用されなかったカテゴリーの画像に対するサブネットワークの学習が可能であることも上記実施の形態の場合と同様である。そのための学習時間も少なくて済む。

0069

したがって本発明は、画像内のオブジェクトの識別処理のためのDNNの学習にも有効に適用できる。

0070

さらに、本発明は音声又は画像の識別処理に対してのみ有効なわけではない。同種のデータ内に複数のカテゴリーが想定でき、それらデータがそのカテゴリーに分類できるようなものであれば、どのようなデータにも適用できる。

0071

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

0072

30ディープ・ニューラルネットワーク(DNN)
60日本語DNN
62英語DNN
80,82,100,102ニューロン
120,230,232,236 独立サブネットワーク
122 日本語の依存サブネットワーク
124 英語の依存サブネットワーク
160,180,200入力層
162,182,184隠れ層
164,184,204出力層
220,222,224 ニューロン対
234 中国語の依存サブネットワーク

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ