図面 (/)

技術 発話認識システム、発話認識装置、および発話認識方法

出願人 リウチンフォンチェンシアオハン
発明者 リウチンフォンチェンシアオハン
出願日 2017年10月10日 (2年4ヶ月経過) 出願番号 2017-197027
公開日 2018年2月22日 (1年11ヶ月経過) 公開番号 2018-028681
状態 特許登録済
技術分野 盲人、聾者、聾唖者の教習、意志伝達 音声入出力 音声認識 音声の分析・合成 デジタル計算機のユーザインターフェイス
主要キーワード 装着座 中央処理器 圧力検知信号 気流解析 接触強度 ケーブルワイヤ 発音信号 接触パターン
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年2月22日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題

構音障害を有する人に発話認識ステムを提供する。

解決手段

発話認識システムである装身具3は、対象者に用いられ、画像取得装置4と装着座51を有する口腔内検知装置5と発話認識装置とを含む。画像取得装置4は、対象者のの画像を対象者の発話中に取得する。口腔内検知装置5は、対象者のとの接触と対象者の舌との距離を検知して接触信号距離信号とを生成する。発話認識装置は、唇の画像と接触信号と距離信号とを処理して対象者の発話内容を取得する。

概要

背景

人の発話は、身体の多くの器官の間における協調の結果であり、これら器官には呼吸器官構音器官、種々の関連筋肉および神経が含まれる。これらの器官に関連する神経へのダメージは、器官の機能障害そして正常な発音への困難をもたらし、当人の発話が他者にとって理解不能となる状況につながる。このような状況は、一般に構音障害(dysarthria)と呼ばれている。

ただ、構音障害を有する人は、通常、言語に対する認知に問題はなく、しかもある単語を発しようとする際の発音は大抵一貫している。

発話が理解不能となる状況に対処するための方法がいくつか応用されている。例えば、欧州特許第2737480号は、患者発話音声を変換するためのシステムと方法を開示している。中国特許出願番号104123934は、音声に関するサンプル信号を取得し、そのサンプル信号中の特定の音節単音節音調との組み合わせを認識するためにサンプル信号を処理するためのシステムおよび方法を開示している。

概要

構音障害を有する人に発話認識システムを提供する。発話認識システムである装身具3は、対象者に用いられ、画像取得装置4と装着座51を有する口腔内検知装置5と発話認識装置とを含む。画像取得装置4は、対象者のの画像を対象者の発話中に取得する。口腔内検知装置5は、対象者のとの接触と対象者の舌との距離を検知して接触信号距離信号とを生成する。発話認識装置は、唇の画像と接触信号と距離信号とを処理して対象者の発話内容を取得する。

目的

本発明の目的は、構音障害を有する人に発話認識システムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

対象者(900)に用いられる発話認識ステム(3)であって、前記対象者(900)の発話中に前記対象者(900)の(902)の画像を継続的に取得する画像取得装置(4)と、前記対象者(900)の口腔(903)内で前記対象者(900)の口蓋に装着されるように構成された装着座(51)と、前記装着座(51)に配置され、前記対象者(900)の発話中に前記対象者(900)の(905)との接触を検知して、その舌(905)との接触に基づいて接触信号を生成するように構成された接触検知ユニット(52)と、前記装着座(51)に配置され、前記対象者(900)の舌(905)との距離を検知して、その舌(905)との距離に基づいて距離信号を生成するように構成された距離検知ユニット(53)と、を含む、口腔内検知装置(5)と、前記対象者(900)の唇(902)の画像と、前記接触信号と、前記距離信号とをそれぞれ受信するように前記画像取得装置(4)と前記口腔内検知装置(5)に接続されると共に、前記唇(902)の画像と前記接触信号と前記距離信号とを処理して前記対象者(900)の発話内容を取得するようにプログラムされている発話認識装置(6)と、を具える、発話認識システム(3)。

請求項2

前記発話認識装置(6)に接続されて前記発話認識装置(6)から前記発話内容を受信すると共に前記発話内容を出力する出力装置(7)を更に具える、請求項1に記載の発話認識システム(3)。

請求項3

前記発話認識装置(6)は、前記唇(902)の異なる動作にそれぞれ関連付けられている複数の唇パラメータを保存している上に、前記唇(902)の画像を解析して前記対象者(900)の発話中に前記唇(902)のいずれの動作が生じたかを判断し、その前記唇(902)の動作に関連付けられている、対応の一つの前記唇パラメータを取得するようにプログラムされている唇動作分析モジュール(632)と、前記舌(905)との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータを保存している上に、前記接触信号を解析して発話中に舌(905)とのいずれの接触パターンが発生したかを判断し、その接触パターンに関連付けられている、対応の一つの前記口蓋パラメータを取得できるようにプログラムされている接触分析モジュール(633)と、前記距離検知ユニット(53)と前記対象者(900)の舌(905)との距離の異なる変化パターンにそれぞれ関連付けられている複数の舌パラメータを保存している上に、前記距離信号を解析して発話中にいずれの距離変化パターンが発生したかを判断し、その距離変化パターンに関連付けられている、対応の一つの前記舌(905)パラメータを取得できるようにプログラムされている距離分析モジュール(634)と、前記対応の一つの前記唇パラメータと、前記対応の一つの前記口蓋パラメータと、前記対応の一つの前記舌(905)パラメータとを収集して前記発話内容に対応する発話パラメータセットを生成するようにプログラムされているパラメータ収集モジュール(636)と、を含む、請求項1に記載の発話認識システム(3)。

請求項4

前記接触検知ユニット(52)は、それぞれ前記舌(905)に接触されると圧力検知信号を出力するように構成された互いに間隔を置いた複数の圧力センサ(521)と、 前記圧力検知信号を処理して前記接触信号を生成するように構成された信号プロセッサ(522)と、を含む、請求項1に記載の発話認識システム(3)。

請求項5

前記距離検知ユニット(53)は、 前記装着座(51)が前記対象者(900)の口蓋に装着された時に前記舌(905)に向かう面である前記装着座(51)の底面に複数が互いに間隔を置いて設けられ、それぞれ前記舌(905)からの距離を検知して距離検知信号を出力するように構成された距離センサ(531)と、前記距離検知信号を処理して前記距離信号を生成するように構成された信号プロセッサ(532)と、を含む、請求項1に記載の発話認識システム(3)。

請求項6

前記口腔内検知装置(5)は、前記装着座(51)に配置され、前記対象者(900)の口腔(903)内での気流を検知して気流信号を生成する気流検知ユニット(54)を更に含む、請求項3に記載の発話認識システム(3)。

請求項7

前記発話認識装置(6)は、前記対象者(900)の口腔(903)内における気流の異なる変化パターンにそれぞれ関連付けられている複数の気流パラメータを保存している気流解析モジュール(635)を更に含み、前記気流解析モジュール(635)は、発話中の前記口腔(903)内においていずれの気流変化パターンが発生したかを判断するために気流信号を解析し、その気流変化パターンに関連付けられている、対応の一つの前記気流パラメータを取得するようにプログラムされていて、前記パラメータ収集モジュール(636)は、前記対応の一つの前記気流パラメータを更に収集して前記発話パラメータセットを生成する、請求項6に記載の発話認識システム(3)。

請求項8

前記口腔内検知装置(5)と前記発話認識装置(6)とはそれぞれ、前記口腔内検知装置(5)と前記発話認識装置(6)との間で信号を送信し合うための通信ユニット(55、61)を含む、請求項1に記載の発話認識システム(3)。

請求項9

前記口腔内検知装置(5)は、オン切り替えられたときに、前記画像取得装置(4)と前記口腔内検知装置(5)とを起動させて前記対象者(900)の唇(902)の画像と前記接触信号と前記距離信号とを取得するために前記画像取得装置(4)と前記口腔内検知装置(5)とに起動コマンドを送信するスイッチユニット(62)を含む、請求項1に記載の発話認識システム(3)。

請求項10

前記発話認識装置(6)は、 複数の発話パラメータセットと各前記発話パラメータセットにそれぞれ関連付けられた複数の発音データセットとを保存しているデータベース(631)と、発話合成モジュール(637)とを更に含み、前記発話合成モジュール(637)は、前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと、前記データベース(631)に保存されている各前記発話パラメータセットとを比較し、前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと一致する一つの前記発話パラメータセットに関連する一つの前記発音データセットを取得し、前記一つの前記発音データセットから合成発音信号を生成するようにプログラムされていて、且つ、前記発話認識システム(3)は、前記発話認識装置(6)に接続されていて前記合成発音信号を受信する上に前記発話内容として前記合成発音信号を出力する出力装置(7)を更に具える、請求項3に記載の発話認識システム(3)。

請求項11

前記データベース(631)は、前記発音データセットの少なくとも一つの特定の組み合わせとそれぞれ関連付けられた複数の単語データセットを更に保存していて、前記発話認識装置(6)は、単語検索モジュールを更に含み、前記単語検索モジュールは、前記合成発音信号を生成するのに用いられた前記一つの前記発音データセットと関連付けられた一つの前記単語データセットを検索し、前記一つの前記単語データセットを出力するべく前記出力装置(7)に送信するようにプログラムされている、請求項10に記載の発話認識システム(3)。

請求項12

前記出力装置(7)は、前記合成発音信号を出力する音声出力モジュール(71)と、前記一つの前記単語データセットを表示するディスプレイモジュール(72)とを更に含む、請求項11に記載の発話認識システム(3)。

請求項13

前記対象者(900)に装着される主要部と、前記主要部に連結され且つ前記主要部から前方に延伸する延伸部とを含む装身具を更に具え、前記画像取得装置(4)と前記音声出力モジュール(71)とが前記延伸部に配置されている、請求項12に記載の発話認識システム(3)。

請求項14

画像取得装置(4)に接続され、前記画像取得装置(4)から対象者(900)の唇(902)の画像を受信すると共に、口腔内検知装置(5)に接続され、前記対象者(900)の発話中における前記口腔内検知装置(5)の前記対象者(900)の舌(905)との接触に関連する接触信号と、前記口腔内検知装置(5)の前記舌(905)との距離に関連する距離信号とを受信する発話認識装置(6)であって、前記唇(902)の異なる動作にそれぞれ関連付けられている複数の唇パラメータを保存している上に、前記対象者(900)の発話中に前記唇(902)のいずれの動作が生じたかを判断するために前記唇(902)の画像を解析し、その前記唇(902)の動作に関連付けられている、対応の一つの前記唇パラメータを取得するようにプログラムされている唇動作分析モジュール(632)と、前記舌(905)との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータを保存している上に、発話中に前記舌(905)とのいずれの接触パターンが発生したかを判断するために前記接触信号を解析し、その接触パターンに関連付けられている、対応の一つの前記口蓋パラメータを取得できるようにプログラムされている接触分析モジュール(633)と、距離検知ユニット(53)と前記対象者(900)の舌(905)との距離の変化パターンにそれぞれ関連付けられている複数の舌パラメータを保存している上に、発話中にいずれの距離変化パターンが発生したかを判断するために前記距離信号を解析し、その距離変化パターンに関連付けられている、対応の一つの前記舌(905)パラメータを取得できるようにプログラムされている距離分析モジュール(634)と、前記対応の一つの前記唇パラメータと、前記対応の一つの前記口蓋パラメータと、前記対応の一つの前記舌(905)パラメータとを収集して発話内容に対応する発話パラメータセットを生成するようにプログラムされているパラメータ収集モジュール(636)と、を具える、発話認識装置(6)。

請求項15

前記対象者(900)の口腔(903)内における気流に関連する気流信号を更に受信すると共に、気流解析モジュール(635)を更に具え、 前記気流解析モジュール(635)は、前記対象者(900)の口腔(903)内における気流の変化パターンにそれぞれ関連付けられている複数の気流パラメータを保存し、 前記気流信号を解析して発話中の前記口腔(903)内においていずれの気流変化パターンが発生したかを判断し、その気流変化パターンに関連付けられている、対応の一つの気流パラメータを取得するようにプログラムされていて、前記パラメータ収集モジュール(636)は、前記対応の一つの前記気流パラメータを更に収集して前記発話パラメータセットを生成する、請求項14に記載の発話認識装置(6)。

請求項16

複数の発話パラメータセットと各前記発話パラメータセットにそれぞれ関連付けられた複数の発音データセットとを保存しているデータベース(631)と、発話合成モジュール(637)とを更に具え、前記発話合成モジュール(637)は、前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと、前記データベース(631)に保存されている各前記発話パラメータセットとを比較し、前記パラメータ収集モジュール(636)により生成された前記発話パラメータセットと一致する一つの前記発話パラメータセットに関連する一つの前記発音データセットを取得し、前記一つの前記発音データセットから合成発音信号を生成するようにプログラムされていて、且つ、前記発話認識装置(6)は、前記合成発音信号を受信する上に前記発話内容として前記合成発音信号を出力する出力装置(7)に更に接続されている、請求項14に記載の発話認識装置(6)。

請求項17

前記データベース(631)は、前記発音データセットの少なくとも一つの特定の組み合わせとそれぞれ関連付けられた複数の単語データセットを更に保存しており、前記合成発音信号を生成するのに用いられた前記一つの前記発音データセットと関連付けられた一つの前記単語データセットを検索し、前記一つの前記単語データセットを出力するべく前記出力装置(7)に送信するようにプログラムされている単語検索モジュールを更に含む、請求項16に記載の発話認識装置(6)。

請求項18

対象者(900)に用いられ、発話認識システム(3)によって実行される発話認識方法であって、前記発話認識システム(3)は、画像取得装置(4)と、前記対象者(900)の口腔(903)内で前記対象者(900)の口蓋に装着される口腔内検知装置(5)と、前記画像取得装置(4)と前記口腔内検知装置(5)とに接続された発話認識装置(6)を含むものであり、前記画像取得装置(4)によって前記対象者(900)の発話中に前記対象者(900)の唇(902)の画像を継続的に取得するステップと、前記口腔内検知装置(5)によって前記対象者(900)の舌(905)との接触を検知して、その前記舌(905)との接触に基づいて接触信号を生成するステップと、前記口腔内検知装置(5)によって前記対象者(900)の発話中に前記対象者(900)の舌(905)との距離を検知して、その前記舌(905)との距離に基づいて距離信号を生成するステップと、前記発話認識装置(6)によって前記対象者(900)の唇(902)の画像を前記画像取得装置(4)から受信すると共に前記口腔内検知装置(5)から前記接触信号と前記距離信号とを受信するステップと、前記発話認識装置(6)によって前記唇(902)の画像と前記接触信号と前記距離信号とを処理して前記対象者(900)の発話内容を取得するステップと、を具える、発話認識方法。

請求項19

前記発話認識システム(3)は、前記発話認識装置(6)に接続されている出力装置(7)を更に含むものであって、 前記出力装置(7)によって前記発話認識装置(6)から前記発話内容を受信して前記発話内容を出力するステップを更に具える、請求項18に記載の発話認識方法。

技術分野

0001

(関連する出願の相互参照
本出願は、2014年7月28日に出願された台湾特許出願第103125713号と、2015年3月24日に出願された台湾特許出願第104109414号との優先権を主張する。

0002

本発明は、発話認識ステムおよび発話認識装置に関する。

背景技術

0003

人の発話は、身体の多くの器官の間における協調の結果であり、これら器官には呼吸器官構音器官、種々の関連筋肉および神経が含まれる。これらの器官に関連する神経へのダメージは、器官の機能障害そして正常な発音への困難をもたらし、当人の発話が他者にとって理解不能となる状況につながる。このような状況は、一般に構音障害(dysarthria)と呼ばれている。

0004

ただ、構音障害を有する人は、通常、言語に対する認知に問題はなく、しかもある単語を発しようとする際の発音は大抵一貫している。

0005

発話が理解不能となる状況に対処するための方法がいくつか応用されている。例えば、欧州特許第2737480号は、患者発話音声を変換するためのシステムと方法を開示している。中国特許出願番号104123934は、音声に関するサンプル信号を取得し、そのサンプル信号中の特定の音節単音節音調との組み合わせを認識するためにサンプル信号を処理するためのシステムおよび方法を開示している。

発明が解決しようとする課題

0006

そこで、本発明の目的は、構音障害を有する人に発話認識システムを提供することにある。

課題を解決するための手段

0007

本発明によると、発話認識システムは、対象者に用いられるものであって、画像取得装置と、口腔内検知装置と、発話認識装置とを具える。

0008

前記画像取得装置は、前記対象者の発話中に前記対象者のの画像を継続的に取得するものである。前記口腔内検知装置は、装着座と、接触検知ユニットと、距離検知ユニットとを含む。

0009

前記装着座は、前記対象者の口腔内で前記対象者の口蓋に装着されるように構成されている。前記接触検知ユニットは、前記装着座に配置され、前記対象者の発話中に前記対象者のとの接触を検知してその前記舌との接触に基づいて接触信号を生成するように構成されている。前記距離検知ユニットは、前記装着座に配置され、前記対象者の舌との距離を検知してその前記舌との距離に基づいて距離信号を生成するように構成されている。

0010

前記発話認識装置は、前記対象者の唇の画像と、前記接触信号と、前記距離信号とをそれぞれ受信するように、前記画像取得装置と前記口腔内検知装置とに接続されている。前記発話認識装置は、前記唇の画像と前記接触信号と前記距離信号とを処理して前記対象者の発話内容を取得するようにプログラムされている。

0011

また、本発明の目的は、発話認識処理を行なうことができる発話認識装置を提供することにもある。

0012

本発明によると、発話認識装置は、画像取得装置に接続されて、前記対象者の発話中に前記画像取得装置から対象者の唇の画像を受信する。前記発話認識装置はまた、口腔内検知装置に接続されて、接触信号と距離信号とを受信する。前記接触信号は、前記対象者の発話中における前記口腔内検知装置の前記対象者の舌との接触に関連し、前記距離信号は、前記対象者の発話中における前記口腔内検知装置の前記舌との距離に関連する。前記発話認識装置は、唇動作分析モジュールと、接触分析モジュールと、距離分析モジュールと、パラメータ収集モジュールとを含む。

0013

前記唇動作分析モジュールは、前記唇の異なる動作にそれぞれ関連付けられている複数の唇パラメータを保存している。前記唇動作分析モジュールは、前記唇の画像を解析して前記対象者の発話中に前記唇のいずれの動作が生じたかを判断し、その前記唇の動作に関連付けられている、対応の一つの前記唇パラメータを取得するようにプログラムされている。

0014

前記接触分析モジュールは、前記舌との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータを保存している。前記接触分析モジュールは、前記接触信号を解析して発話中に舌とのいずれの接触パターンが発生したかを判断し、その接触パターンに関連付けられている、対応の一つの前記口蓋パラメータを取得できるようにプログラムされている
前記距離分析モジュールは、前記距離検知ユニットと前記対象者の舌との距離の異なる変化パターンにそれぞれ関連付けられている複数の舌パラメータを保存している。前記距離分析モジュールは、前記距離信号を解析して発話中にいずれの距離変化パターンが発生したかを判断し、その距離変化パターンに関連付けられている、対応の一つの前記舌パラメータを取得できるようにプログラムされている。

0015

前記パラメータ収集モジュールは、前記対応の一つの前記唇パラメータと、前記対応の一つの前記口蓋パラメータと、前記対応の一つの前記舌パラメータとを収集して前記対象者の発話内容に対応する発話パラメータセットを生成するようにプログラムされている。

0016

更に、本発明の目的は、上記の発話認識装置を用いて実行される発話認識方法を提供することにもある。

0017

本発明によると、発話認識方法は、
前記画像取得装置によって前記対象者の発話中に前記対象者の唇の画像を継続的に取得するステップと、
前記口腔内検知装置によって前記対象者の舌との接触を検知して、その前記舌との接触に基づいて接触信号を生成するステップと、
前記口腔内検知装置によって前記対象者の発話中に前記対象者の舌との距離を検知して、その前記舌との距離に基づいて距離信号を生成するステップと、
前記発話認識装置によって前記対象者の唇の画像を前記画像取得装置から受信すると共に前記口腔内検知装置から前記接触信号と前記距離信号とを受信するステップと、
前記発話認識装置によって前記唇の画像と前記接触信号と前記距離信号とを処理して前記対象者の発話内容を取得するステップと、を具える。

0018

本発明の他の特徴および利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になるであろう。

図面の簡単な説明

0019

本発明の第1の実施形態の発話認識システムを示す。
対象者が図1の発話認識システムを着用したところを示す。
第1の実施形態の発話認識システムのブロック図である。
発話認識システムの口腔内検知装置を示す。
対象者の口腔に配置された口腔内検知装置を示す。
本発明の第2の実施形態の発話認識システムを示す。
第2の実施形態の発話認識システムのブロック図である。
本発明の第3の実施形態の発話認識システムを示す。
第3の実施形態の発話認識システムのブロック図である。
第1の実施形態の発話認識システムによって実行される発話認識方法の手順を示すフローチャートを示す。

実施例

0020

以下、本発明をより詳しく説明する。なお、類似の構成要素については本発明全体を通して同一番号が付されている。

0021

図1は、本発明の第1の実施形態に係る発話認識システムを示している。発話認識システムは、構音障害を有する対象者900(図2参照)に用いられる。

0022

発話認識システムは、装身具3と、画像取得装置4と、口腔内検知装置5と、発話認識装置6(図3参照)と、出力装置7とを含む。

0023

更に図2に示されているように、本実施形態での発話認識システムにおいて、装身具3は、主要部31と、一対の連結部32と、延伸部33とを含む。主要部31は、C字型になっていて対象者900の頭部901に装着される。連結部32は主要部31の両端にそれぞれ設けられている。延伸部33は、いずれかの連結部32に連結されていると共に連結部32から前方に延伸しており、可撓性のある材料からなっている。更に、延伸部33には、データを伝送するためのケーブルワイヤ(図示せず)が入っている。

0024

なお、本実施形態において、装身具3は一対の耳あてとして構成されているが、他の実施形態においては、眼鏡として構成することもできる。更に他の実施形態において、装身具3は連結部32を一つだけ有してもよい。

0025

画像取得装置4は、延伸部33の自由端(即ち連結部32に連結されていない側)に設けられ、対象者900の発話中の唇902の画像を継続的に取得できるように構成されている。延伸部33は、画像取得装置4を適当な位置、例えば対象者900の唇902の真正面に配置するべく調整することができる。 画像取得装置4により取得された画像は延
伸部33内のケーブルワイヤを介して伝送することができる。

0026

口腔内検知装置5は、図3および図5に示されているように、装着座51と、接触検知ユニット52と、距離検知ユニット53と、気流検知ユニット54と、第1の通信ユニット55とを含む。

0027

装着座51は、対象者900の口蓋904および上歯906の形状に合うように形成されている。具体的には、装着座51は、対象者900の口腔903に装着された際に、対象者900の上歯906に係合し且つ口蓋904に当接するように形成されている。装着座51を固定するために追加の構成部材として例えば粘着物位置決め部材を用いることも可能である。つまり、装着座51は、発話する際の対象者900の口蓋904および上
歯906の“代役”を果たすものとなる。

0028

接触検知ユニット52は、装着座51に設けられ、対象者900の発話中に対象者900の舌905に接触されたことを検知すると共に、その接触に基づいて接触信号を生成するように構成されている。接触検知ユニット52は、互いに間隔を置いた複数の圧力センサ521(図3では図面の単純化のため一つだけ図示)と、信号プロセッサ522とを含む。

0029

本実施形態では、圧力センサ521は装着座51の底面に設けられている。該底面は、装着座51が対象者900の口蓋904に装着された際に舌905に向かう面である。なお、他の実施形態では、圧力センサ521は装着座51に組み込まれてもよい。

0030

使用に当たって、圧力センサ521はそれぞれ舌905に接触されると圧力検知信号を出力するように構成される。各々の圧力センサ521からの圧力検知信号には、舌905と接触した回数や舌905との接触による圧力の度合いといったデータが含まれる。

0031

信号プロセッサ522は、対象者900の発話中に対象者900の舌905に接触されたことに基づいて圧力検知信号を処理して接触信号を生成するように構成されている。接触信号には各圧力センサ521によって検知された舌905との接触による圧力の度合いと接触の回数、および、それぞれの圧力センサ521から圧力検知信号を受け取った順番(即ち、複数の圧力センサ521における舌905に接触された順番)を含む。従って、接触検知ユニット52が設けられた装着座51が口蓋904および上歯906の代役を果たすので、対象者900の発話中の口蓋904および上歯906に対する舌905の動き、例えば舌905と口蓋904/上歯906との接触パターンや、接触位置、接触強度などを、接触信号により示すことができる。

0032

距離検知ユニット53は、装着座51に設けられ、対象者900の舌905からの距離を検知すると共に検知した距離に基づいて距離信号を生成するように構成されている。距離検知ユニット53は、互いに間隔を置いた複数の距離センサ531(図3では図面の単純化のため一つだけ図示)と、信号プロセッサ532とを含む。

0033

距離センサ531は、装着座51の底面に設けられ、装着座51の中心線に沿って並べられている。即ち、距離センサ531は、装着座51が対象者900の口蓋904に装着された時に舌905の前後方向に並ぶ。距離センサ531は、舌905からの距離を検知すると共に距離検知信号を出力するようにそれぞれ構成されている。

0034

使用に当たって、各々の距離センサ531は、探査信号(例えば光信号)を舌905に向けて発し、探査信号の舌905からの反射に基づいて距離検知信号を出力できる。距離センサ531により出力された距離検知信号を用いることにより、信号プロセッサ532は、対象者の発話中の舌905とそれぞれの距離センサ531との距離を測定し、距離信号を生成することができる。同様に、距離検知ユニット53が設けられた装着座51が口蓋904の代役を果たすので、発話中の口蓋904と舌905との距離の変化パターンを距離信号により示すことができる。

0035

気流検知ユニット54は、装着座51の前部に設けられ、装着座51が対象者900の口蓋904に装着された時に口腔903内に露出する。気流検知ユニット54は、対象者900の発話中の口腔903内における気流を検知するためのものであり、検知した気流に基づいて気流信号を生成するように構成されている。

0036

第1の通信ユニット55は、接触検知ユニット52、距離検知ユニット53、気流検知
ユニット54によりそれぞれ生成された信号を発話認識装置6に伝送するために、発話認識装置6にワイヤレスで接続される。第1の通信ユニット55と発話認識装置6との間でのデータ伝送は、ANTプロトコルブルートゥース登録商標)、ZigBee(登録商標)、近距離無線通信(NFC)などを通して行なうことができる。

0037

本実施形態においては、第1の通信ユニット55と、信号プロセッサ522、532とは、装着座51に嵌め込まれた回路基板50に統合されている。

0038

図1図3に示されているように、発話認識装置6は、装身具3に取り付けられており、第2の通信ユニット61、スイッチユニット62、発話認識ユニット63、送信ポート64、記憶媒体65を含む。

0039

第2の通信ユニット61は、第1の通信ユニット55と通信可能となっている。即ち、第2の通信ユニット61は、接触検知ユニット52からの接触信号、距離検知ユニット53からの距離信号、気流検知ユニット54からの気流信号をそれぞれ受信できる。第2の通信ユニット61は更に例えば伝送ケーブルを用いて画像取得装置4と接続され、唇902の画像を受信する。受信されたデータは記憶媒体65に記憶される。

0040

スイッチユニット62は、手動スイッチ621を含む。手動スイッチ621がオン切り替えられると、起動コマンドが画像取得装置4と口腔内検知装置5とに送信され、これら装置が起動し、対象者900の唇902の画像と、接触信号と、距離信号と、気流信号とが取得される。

0041

発話認識ユニット63は、データベース631と、唇動作分析モジュール632と、接触分析モジュール633と、距離分析モジュール634と、気流解析モジュール635と、パラメータ収集モジュール636と、発話合成モジュール637と、単語検索モジュール638とを含む。

0042

データベース631には、複数の発話パラメータセットと、それぞれ各発話パラメータセットと関連付けられた複数の発音データセットと、発音データセットの少なくとも一つの特定の組み合わせとそれぞれ関連付けられた複数の単語データセットとが保存されている。

0043

本実施形態においては、各々の発音データセットは、発話音の単位である音節に個別に関連付けられており、各々の単語データセットは、一つまたはそれ以上の音節の特定の組み合わせである一つの単語に関連付けられている。

0044

唇動作分析モジュール632には、唇902の異なる動作にそれぞれ関連付けられている複数の唇パラメータが保存されている。唇動作分析モジュール632は、唇902の画像を解析して対象者900の発話中に唇902においていずれの動作が生じたかを判断する上に、その唇902の動作に関連付けられている対応の一つの唇パラメータを取得できるようにプログラムされている。

0045

接触分析モジュール633には、舌905との異なる接触パターンにそれぞれ関連付けられている複数の口蓋パラメータが保存されている。接触分析モジュール633は、接触信号を解析して発話中に舌905とのいずれの接触パターンが発生したかを判断する上に、その接触パターンに関連付けられている対応の一つの口蓋パラメータを取得できるようにプログラムされている。

0046

距離分析モジュール634には、複数の舌パラメータが保存されている。舌パラメータ
は、距離検知ユニット53と対象者900の舌905との距離(即ち、口蓋904と舌905との距離)の異なる変化パターンにそれぞれ関連付けられている。距離分析モジュ
ル634は、距離信号を解析して発話中にいずれの距離変化パターンが発生したかを判断する上に、その距離変化パターンに関連付けられている対応の一つの舌パラメータを取得できるようにプログラムされている。

0047

気流解析モジュール635には、対象者900の口腔903内における気流の異なる変化パターンにそれぞれ関連付けられている複数の気流パラメータが保存されている。気流解析モジュール635は、気流信号を解析して発話中の口腔903内においていずれの気流変化パターンが発生したかを判断する上に、その気流変化パターンに関連付けられている対応の一つの気流パラメータを取得できるようにプログラムされている。

0048

パラメータ収集モジュール636は、唇動作分析モジュール632により取得された唇パラメータ、接触分析モジュール633により取得された口蓋パラメータ、距離分析モジュール634により取得された舌パラメータ、気流解析モジュール635により取得された気流パラメータを収集して、それらパラメータを基に発話の内容に対応する発話パラメータセットを生成するようにプログラムされている。

0049

発話合成モジュール637は、パラメータ収集モジュール636により生成された発話パラメータセットを、データベース631に保存されている発話パラメータセットとそれぞれ比較して、パラメータ収集モジュール636により生成された発話パラメータセットと一致する発話パラメータセットに関連付けられた一つの発音データセットを取得して、少なくともその一つの取得された発音データセットから合成発音信号を生成すると共に、この合成発音信号を出力装置7に送信するようにプログラムされている。そして、合成発音信号は記憶媒体65に保存される。

0050

合成発音信号を生成するに当たって、発話合成モジュール637は、各発音データセットを一つの音節として扱い、その(それらの)音節を用いて少なくとも一つの単語の発音を合成するが、他の実施形態においては、様々な方法が用いられ、例えば波形接続合成(concatenative synthesis)、フォルマント合成(formant synthesis)、ダイフォン合成(diphone synthesis)、分野限定合成(domain-specific synthesis)、正弦波合成(sine wave synthesis)などを用いることができる。

0051

なお、データベース631に保存されているいずれの発話パラメータセットも、パラメータ収集モジュール636により生成された発話パラメータセットと一致しなかった場合、発話合成モジュール637は、通知信号を生成して対象者900に知らせる。

0052

単語検索モジュール638は、複数の単語データセットの中から、合成発音信号を生成するのに用いられた発音データセットと関連付けられた一つの単語データセットを検索し、その一つの単語データセットを出力するべく第2の通信ユニット61を介して出力装置7に送信するようにプログラムされている。

0053

単語検索モジュール638は、単語データセットを検索する精度を向上するために更に意味解析機能を有するようにすることもできる。

0054

送信ポート64は、タブレットコンピュータスマートフォンラップトップコンピュータパーソナルコンピュータなどの電子装置(図示せず)とケーブル接続できるようにするためのマイクロUSBポートを含めることもできる。接続された際に、送信ポート64は、発話認識装置6の設定を変更したり記憶媒体65に保存されているデータにアクセスしたりするためのインターフェースを電子装置に提供する。

0055

出力装置7は、合成発音信号を出力するための音声出力モジュール71と、発話認識装置6から受信した単語データセットに基づいて単語を表示するためのディスプレイモジュール72とを含む。

0056

図2に示されているように、本実施形態では、音声出力モジュール71として、延伸部33の自由端に設けたマイクロフォンが用いられ、該マイクロフォンは発話認識装置6から合成発音信号を受信するために延伸部33内のケーブルワイヤを介して発話認識装置6に接続されている。

0057

ディスプレイモジュール72としては、ディスプレイ画面を有し対象者900によって扱われるタブレットコンピュータが用いられる。ディスプレイモジュール72は更に、単語検索モジュール638によって検索された単語データセットを受信するために、第2の通信ユニット61とワイヤレス通信できる第3の通信ユニット721を含んでもよい。

0058

対象者900が当該発話認識システムを使用するにあたっては、セットアップ作業がまず行なわれる。

0059

セットアップ作業では、まず装身具3が対象者900の頭部901に装着される。次いで画像取得装置4が対象者900の唇902の画像を取得できるようにするべく延伸部33が位置調整される。そして口腔内検知装置5の装着座51が対象者900の口腔903内に置かれる。

0060

その後、対象者900により発話認識システムを着用しながらいくつかの特定の単語を発話することが要される。これにより発話認識システムは、対象者900がそれらの単語を発話する間、唇の動き、圧力センサ521と舌905との接触パターン、各距離センサ531と舌905との距離の変化パターン、口腔903内の気流を含む発話情報を解析し記録することができる。セットアップ作業における上述の解析は、上記説明でそれぞれ示したものと同様であり、関連の各パラメータが発話認識ユニット63の対応のモジュール632〜635に保存される。

0061

記録された情報は、対象者900によって発話された単語を構成する特定の音節に関連付けられる発話パラメータセットを設定するために用いられ、設定された発話パラメータセットがデータベース631に保存されると、セットアップ作業が完了する。

0062

発話認識システムを実際に使用する際(つまり、対象者900が口述でメッセージを伝えようとするとき)には、対象者900は、装身具3と口腔内検知装置5を装着しており、手動スイッチ621をオンに切り替える。すると、第2の通信ユニット61により起動コマンドが画像取得装置4と口腔内検知装置5とに送信され、これら装置が起動する。

0063

対象者900が発話する間、画像取得装置4と口腔内検知装置5とは、上記セットアップ作業と同様の方法で上記発話情報を取得する。その結果、発話認識ユニット63のパラメータ収集モジュール638は、発話の内容に対応する発話パラメータセットを生成することができるようになり、出力装置7は、発話パラメータセットに関連する合成発音信号や単語データセットを出力できるようになる。

0064

データベース631に保存されている発話パラメータセットに発話の内容が対応しなかった場合、出力装置7は発話認識ユニット63により制御されて対象者900に通知を出し、認識のために対象者900に再び発話するよう促す。

0065

メッセージを口述した後、対象者900は、画像取得装置4と口腔内検知装置5とを終了させるために手動スイッチ621をオフにすることができる。

0066

本実施形態において、音声出力モジュール71は対象者900の口の付近に設けられるが、変化形態として、音声出力モジュール71をディスプレイモジュール72と一体に設けることもできる。

0067

また、音声出力モジュール71かディスプレイモジュール72かのいずれかがあれば通常はメッセージを他者に伝えるのに不足はないため、変化形態として、音声出力モジュール71とディスプレイモジュール72とのいずれかを省くこともできる。

0068

本実施形態が気流検知ユニット54を含んでいるのは、発音データセットの取得と、音声出力モジュール71が合成発音信号を出力する際の音量調整とにおける精度の向上のためであり、他の実施形態においては、気流検知ユニット54を省くこともできる。

0069

図6図7には、本発明に係る発話認識システムの第2の実施形態が示されている。本実施形態においては、装身具3(図2参照)が省かれている上に、画像取得装置4と、発話認識装置6と、出力装置7とが電子装置800(例えば本実施形態ではラップトップ式のコンピュータ)と一体に構成されている。具体的に言うと、コンピュータの内蔵カメラアプリケーションプログラムを実行する中央処理器(CPU)、内蔵スピーカースクリーンが、それぞれ画像取得装置4、発話認識装置6、音声出力モジュール71、ディスプレイモジュール72の役目を果たす。

0070

使用に当たっては、対象者900が電子装置800の方を向くと、対象者900の唇の動き(図2参照)が電子装置800の内蔵カメラによって撮影され、合成発音信号が内蔵スピーカーによって出力される。本実施形態によれば、対象者900は装身具3の着用を必要とせずに、第1の実施形態の効果を達成する事ができる。

0071

また、本実施形態は、電子装置800を利用した遠隔会話に関連する応用に役立ち得る。

0072

図8図9には、本発明に係る発話認識システムの第3の実施形態が示されている。本実施形態においては、第1の通信ユニット55として、装着座51を第2の通信ユニット61に物理的に連結するワイヤーが用いられている。

0073

この形態の場合、信号を処理するための構成要素、例えば信号プロセッサ522、532は、装着座51に設ける替わりに装身具3に設けてもよい。圧力センサ521(図9では一つだけ図示)と各距離センサ531(図9では一つだけ図示)とによりそれぞれ生成された信号は、第1の通信ユニット55を介して信号プロセッサ522、532に送信され処理される。よって、装着座51は、組み込む構成要素が減ることにより、そのサイズをより小さく作製することができる。

0074

図10には、一実施形態に基づく、本発明に係る発話認識システムにより実施される発話認識方法の手順が示されている。本実施形態では、上述の第1の実施形態の発話認識システムが用いられる。

0075

併せて図2を参照されたい。ステップ102において、発話認識システムの構成要素、具体的には装身具3と口腔内検知装置5とが対象者900に装着され、手動スイッチ621が対象者900によりオンに切り替えられる。

0076

次に、ステップ104において画像取得装置4が対象者900の唇902の画像を継続的に取得し始め、ステップ106において口腔内検知装置5が対象者900の舌905との接触および距離を検知し始め、その間に対象者900が発話を始める。

0077

ステップ108において、口腔内検知装置5は対象者900の発話中における舌905との接触に基づいて接触信号を生成すると共に、舌905との距離に基づいて距離信号を生成する。

0078

ステップ110において、発話認識装置6は、対象者900の唇902の画像を画像取得装置4から受信すると共に、接触信号と距離信号とを口腔内検知装置5から受信する。

0079

ステップ112において、発話認識装置6は、唇902の画像および接触信号と距離信号を処理して、対象者900の発話内容を取得する。

0080

ステップ114において、対象者900の発話の内容が出力のために出力装置7に送信される。

0081

上記をまとめると、本開示で示された発話認識システムおよび発話認識方法は、発話パラメータセット、発音データセット、単語データセットを含むデータベースを構築するためにまず対象者900の発話に関する必要な情報を記録するように構成される。使用の際には、対象者900の発話に伴って、発話認識システムは、合成発音信号を生成するために必要な情報を検知することができる。そして合成発音信号は出力装置7により出力することができ、これにより他者は対象者900が構音障害を有していてもその発話の内容を理解することができるようになる。

0082

以上、本発明を実用的な実施形態と考えられるものに関して記述してきたが、本発明は、開示した実施形態に制限されることなく、同様の修正および等価な配置のすべてを包含するような、最も広い解釈の精神および範囲内に含まれる様々なアレンジカバーするように意図されることが理解される。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ