図面 (/)

技術 電子機器、音声認識方法及びプログラム

出願人 Dynabook株式会社
発明者 中前碧
出願日 2018年9月20日 (2年3ヶ月経過) 出願番号 2018-175636
公開日 2020年3月26日 (9ヶ月経過) 公開番号 2020-046563
状態 未査定
技術分野 音声認識 音声入出力
主要キーワード 認識期間 Expressカード ウェアラブル機器 遠隔支援システム 拡張アダプタ 後方表面 マルチモ ビューワアプリケーション
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月26日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

短時間で精度良く音声認識することができる電子機器音声認識方法及びプログラムを提供すること。

解決手段

実施形態によれば、電子機器は、記憶部と、音声入力部と、認識部とを具備する。記憶部は、音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示す辞書を記憶する。音声入力部は、音声を入力する。認識部は、記憶部に記憶されている辞書内の音声コマンドを用いて、音声入力部により入力された音声を認識し、認識結果に基づき音声に対応するコマンドデータを決定する。辞書は第1辞書と、書き換え可能な第2辞書とを含む。第1辞書の音声コマンド数は第2辞書の音声コマンド数より多い。第1辞書は複数のサブ辞書に分割されている。認識部は、複数のサブ辞書と第2辞書の少なくとも1つを用いて、音声を認識する。

概要

背景

音声認識技術を応用して、電子機器に対する種々のコマンドを音声コマンドとし、音声により操作できる電子機器が開発されている。ここでは、電子機器に対して音声認識装置が付加される。音声認識装置は、入力された音声を認識して、認識結果をコマンドデータに変換して電子機器へ送る。

概要

短時間で精度良く音声認識することができる電子機器、音声認識方法及びプログラムを提供すること。 実施形態によれば、電子機器は、記憶部と、音声入力部と、認識部とを具備する。記憶部は、音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示す辞書を記憶する。音声入力部は、音声を入力する。認識部は、記憶部に記憶されている辞書内の音声コマンドを用いて、音声入力部により入力された音声を認識し、認識結果に基づき音声に対応するコマンドデータを決定する。辞書は第1辞書と、書き換え可能な第2辞書とを含む。第1辞書の音声コマンド数は第2辞書の音声コマンド数より多い。第1辞書は複数のサブ辞書に分割されている。認識部は、複数のサブ辞書と第2辞書の少なくとも1つを用いて、音声を認識する。

目的

本発明の目的は、短時間で精度良く音声認識することができる電子機器、音声認識方法及びプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示す辞書を記憶する記憶部と、音声を入力する音声入力部と、前記記憶部に記憶されている前記辞書内の前記音声コマンドを用いて、前記音声入力部により入力された前記音声を認識し、認識結果に基づき前記音声に対応するコマンドデータを決定する認識部と、を具備し、前記辞書は第1辞書と、書き換え可能な第2辞書とを含み、前記第1辞書の音声コマンド数は前記第2辞書の音声コマンド数より多く、前記第1辞書は複数のサブ辞書に分割されており、前記認識部は、前記複数のサブ辞書と前記第2辞書の少なくとも1つを用いて、前記音声を認識する電子機器

請求項2

前記記憶部は、外部機器から送信された前記第1辞書と前記第2辞書を記憶する請求項1記載の電子機器。

請求項3

前記記憶部は、前記外部機器から送信された新しい第2辞書を受信すると、記憶していた前記第2辞書に前記新しい第2辞書を上書きする請求項2記載の電子機器。

請求項4

前記認識部は、外部機器から送信された指定情報に基づいて、前記複数のサブ辞書と前記第2辞書の前記少なくとも1つを選択する請求項1記載の電子機器。

請求項5

前記第2辞書の音声コマンド数は第1の数以下であり、前記複数のサブ辞書の各々の音声コマンド数は前記第1の数以下である請求項1記載の電子機器。

請求項6

前記辞書は、音声コマンドと該音声コマンドに対応する少なくとも1つのコマンドデータとの対応関係を示す請求項1記載の電子機器。

請求項7

前記認識部は第1動作モードと第2動作モードで動作可能であり、前記第1動作モードで動作する場合、前記認識部は認識開始が指示されてから一定期間前記音声を認識し、前記第2動作モードで動作する場合、前記認識部は認識開始が指示されてから認識終了が指示されるまで前記音声を継続して認識する請求項1記載の電子機器。

請求項8

前記辞書は、前記第1動作モードとして、一定期間認識を実行させるための第1音声コマンドと前記第1音声コマンドに対応する第1コマンドデータとの対応関係と、前記第2動作モードとして、認識を開始させるための第2音声コマンドと前記第2音声コマンドに対応する第2コマンドデータとの対応関係と、前記第2動作モードとして、認識を終了させるための第3音声コマンドと前記第3音声コマンドに対応する第3コマンドデータとの対応関係を示す請求項7記載の電子機器。

請求項9

前記認識部が前記音声を認識する前に、前記認識部は前記音声の認識に用いられる前記複数のサブ辞書と前記第2辞書の前記少なくとも1つに含まれる音声コマンドをユーザに通知する通知部をさらに具備する請求項1記載の電子機器。

請求項10

前記通知部は、前記複数のサブ辞書と前記第2辞書の前記少なくとも1つに含まれる前記音声コマンドと、前記音声コマンドによる機能を表示する表示部を具備する請求項9記載の電子機器。

請求項11

前記辞書は、前記音声コマンドと該音声コマンドに対応するキーコードとの対応関係を示す請求項1記載の電子機器。

請求項12

前記辞書は、複数の音声コマンドと該複数の音声コマンドに対応する1つの同じキーコードとの組み合わせとの対応関係を示す請求項11記載の電子機器。

請求項13

音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示す第1辞書と、音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示し、対応関係が書き換え可能な第2辞書と、を用いる音声認識方法であって、前記第1辞書の音声コマンド数は前記第2辞書の音声コマンド数より多く、前記第1辞書は複数のサブ辞書に分割されており、前記複数のサブ辞書と前記第2辞書の少なくとも1つを用いて音声認識する音声認識方法。

請求項14

コンピュータにより実行されるプログラムであって、前記プログラムは前記コンピュータに、音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示す第1辞書であって複数のサブ辞書に分割されている第1辞書と、音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示し、対応関係が書き換え可能な第2辞書であって前記第2辞書の音声コマンドは前記第1辞書の音声コマンド数より少ない第2辞書と、に対して、前記複数のサブ辞書と前記第2辞書の少なくとも1つを用いて音声認識すること、を実行させるためのプログラム。

技術分野

0001

本発明の実施形態は電子機器音声認識方法及びプログラムに関する。

背景技術

0002

音声認識技術を応用して、電子機器に対する種々のコマンドを音声コマンドとし、音声により操作できる電子機器が開発されている。ここでは、電子機器に対して音声認識装置が付加される。音声認識装置は、入力された音声を認識して、認識結果をコマンドデータに変換して電子機器へ送る。

先行技術

0003

特開平4−302025号公報
特開2013−68665号公報
特開2010−191223号公報

発明が解決しようとする課題

0004

音声認識装置がオフラインで動作する場合、電子機器が使用する可能性のあるコマンドに関する辞書データを音声認識装置の記憶部に予め書き込む必要がある。このため、辞書データのサイズが大きくなり、認識に要する時間が長くなる、又は誤認識の可能性が高くなる。

0005

本発明の目的は、短時間で精度良く音声認識することができる電子機器、音声認識方法及びプログラムを提供することである。

課題を解決するための手段

0006

実施形態によれば、電子機器は、記憶部と、音声入力部と、認識部とを具備する。前記記憶部は、音声コマンドと該音声コマンドに対応するコマンドデータとの対応関係を示す辞書を記憶する。前記音声入力部は、音声を入力する。前記認識部は、前記記憶部に記憶されている前記辞書内の前記音声コマンドを用いて、前記音声入力部により入力された音声を認識し、認識結果に基づき前記音声に対応するコマンドデータを決定する。前記辞書は第1辞書と、書き換え可能な第2辞書とを含む。前記第1辞書の音声コマンド数は前記第2辞書の音声コマンド数より多い。前記第1辞書は複数のサブ辞書に分割されている。前記認識部は、前記複数のサブ辞書と前記第2辞書の少なくとも1つを用いて、前記音声を認識する。

図面の簡単な説明

0007

実施形態の電子機器を含む遠隔支援システムの一例を示すブロック図である。
オペレータ端末12の一例を示すブロック図である。
モバイルPC16に接続されるウェアラブル機器23の外観の一例を示す。
ウェアラブル機器23を構成する機器本体24の外観の一例を示す。
モバイルPC16と機器本体24との接続の一例を示す。
機器本体24の一例を示すブロック図である。
モバイルPC16の外観の一例を示す。
モバイルPC16の一例を示すブロック図である。
音声認識装置400の一例の機能ブロック図である。
音声認識装置400が含む辞書422a、424aの一例を示す図である。
音声認識装置400が含む辞書422a、424bの他の例を示す図である。
ホストアプリケーション404の処理の一例を示すフローチャートである。
音声認識装置400の処理の一例を示すフローチャートである。
カメラアプリケーションの実行中のディスプレイ124の画面例を示す。
ビューワアプリケーションの実行中のディスプレイ124の画面例を示す。
ファイル管理アプリケーションの実行中のディスプレイ124の画面例を示す。
通話アプリケーションの実行中のディスプレイ124の画面例を示す。
第1辞書422bの変形例を示す。
図18に示される第1辞書422bを使う場合の音声認識の一例を示す。
第1辞書422cの他の変形例を示す。
第2辞書424cの他の変形例を示す。
第1辞書又は第2辞書の他の変形例を示す。

実施例

0008

以下、実施の形態について図面を参照して説明する。なお、開示はあくまで一例にすぎず、以下の実施形態に記載した内容により発明が限定されるものではない。当業者が容易に想到し得る変形は、当然に開示の範囲に含まれる。説明をより明確にするため、図面において、各部分のサイズ、形状等を実際の実施態様に対して変更して模式的に表す場合もある。複数の図面において、対応する要素には同じ参照数字を付して、詳細な説明を省略する場合もある。

0009

[システム全体の概略]
図1は、実施形態に係る電子機器の応用例の一つである遠隔支援システムの一例を示すブロック図である。電子機器の応用例は遠隔支援システムに限定されない。遠隔支援システムは、後方オペレータがユーザ(例えば作業現場作業者)を遠隔地から支援するためのシステムである。現場の作業の例は、複雑なメンテナンス業務、物流倉庫ピッキング作業監視災害救助医療サポート等がある。作業現場のユーザ側をフロントエンド、後方のオペレータ側バックエンドとも称する。

0010

遠隔支援システムは、ユーザが携帯するモバイルPC16と、ユーザから離れた位置にある遠隔支援センター(データセンター)18と、両者を相互に接続し、両者間の通信を可能とするネットワーク22とからなる。モバイルPC16と遠隔支援センター18は有線LANケーブルによりネットワーク22に接続されてもよいし、無線LANブルートゥース登録商標)等によりネットワーク22に接続されてもよい。モバイルPC16は、現場で使用可能な高度の汎用性と処理能力を持つ。

0011

モバイルPC16は、ディスプレイや文字入力用ハードウェアキーボードを備えていると、携帯性が良くないとともに、ユーザは作業に専念しづらい。これを解決するために、モバイルPC16はディスプレイやハードウェアキーボードを備えない。モバイルPC16にメガネ型のウェアラブル機器を接続すれば、ウェアラブル機器の表示部をモバイルPC16のディスプレイとして利用できるので、ユーザは作業しながら、表示を確認することができる。モバイルPC16はソフトウェアキーボードを備え、ウェアラブル機器又はモバイルPC16がカーソル移動キーを備えていれば、カーソルを移動させることにより、ソフトウェアキーボード内のキーを選択することができるので、作業をしながらでも、情報を入力することができる。さらに、音声認識技術を利用して音声コマンドを入力することにより、ハンズフリーでモバイルPC16へコマンドを入力することができる。これにより、作業現場等での業務効率化や生産性向上、或いは、データの負荷分散ネットワーク環境の改善等を図ることが期待される。

0012

メガネ型のウェアラブル機器23がモバイルPC16に接続される。図1では、ウェアラブル機器23はケーブルによりモバイルPC16に接続される。ウェアラブル機器23はディスプレイ、タッチパッド等を備える。このため、モバイルPC16から送信される画像がディスプレイで表示され、タッチパッドからコマンド等が入力される。

0013

図1に示すように複数のユーザがネットワークを介して相互に通信することも可能である。この場合、遠隔支援センター18のオペレータを経由して通信してもよいし、遠隔支援センター18のオペレータを介さずにユーザ同士のみで通信するようにすることも可能である。

0014

遠隔支援センター18はオペレータ端末12とサーバ14を備える。遠隔支援センター18はモバイルPC16を介してウェアラブル機器23とオペレータ端末12間で音声通話を行う又は情報をやり取りする。ウェアラブル機器23で撮影される映像をオペレータ端末12にリアルタイム配信することや、モバイルPC16とオペレータ端末12間で画像を相互に送受信することができる。また、オペレータ端末12からモバイルPC16にテキストメッセージを送信することもできる。例えば、物流倉庫ピッキング作業では、ウェアラブル機器23にピッキング品の場所を画像、テキストにより表示させ、ハンズフリーでのピッキングを実現できる。

0015

遠隔支援としては、典型的には、例えば以下の機能を含む。
(1)モバイルPC16とオペレータ端末12との双方向の音声通話機能
(2)音声通話中にウェアラブル機器23が撮影する映像をオペレータ端末12にリアルタイム配信するライブ映像配信機能
(3)音声通話中にモバイルPC16とオペレータ端末12間で静止画を送受信する静止画像送受信機能。(3)の機能によれば、モバイルPC16は撮影した静止画やビデオ配信中のキャプチャ画像をオペレータ端末12に送信し、オペレータ端末12は受信した画像に文字や絵などを書き込むことにより画像を編集し、編集した画像をモバイルPC16に送信する。モバイルPC16で受信した静止画像は、モバイルPC16内のフォルダに保存され、閲覧可能である。
(4)音声通話中にオペレータ端末12のデスクトップ画面全体又は任意のアプリケーションウィンドウをウェアラブル機器23に表示する画面共有機能。
(5)オペレータ端末12からモバイルPC16に対してテキストメッセージを送信するテキストメッセージの送信機能

0016

サーバ14は遠隔支援のための処理をオペレータ端末12に代わって行う又はオペレータ端末12と協働して行うものであり、プロセッサ(CPU)28、ROM30、RAM32、ハードディスクドライブ(HDD)又はソリッドステートドライブSSD)からなるストレージデバイス34、インターフェース36を備える。なお、サーバ14の機能を全てオペレータ端末12に持たせ、サーバ14を省略してもよい。

0017

[オペレータ端末12]
図2はオペレータ端末12の一例を示すブロック図である。オペレータ端末12はデスクトップ型PC又はノートブック型PC等からなる。
オペレータは、モバイルPC16から送信される映像等をオペレータ端末12で観察しながら、作業現場の状況を確認し、音声通話や画像によってモバイルPC16のユーザに指示を行う。オペレータは、オペレータ端末12を用いてモバイルPC16から受信した画像に絵や文字などの書き込みを行うことにより画像を編集し、編集した画像をモバイルPC16に送信することや、オペレータ端末12に保存することができる。

0018

オペレータ端末12は、プロセッサを含むシステムコントローラ42を備える。システムコントローラ42には、主メモリ44、BIOS−ROM50、HDD又はSSDからなるストレージデバイス52、オーディオコーデック54、グラフィクスコントローラ62、タッチパネル70、USBコネクタ72、無線LANデバイス74、ブルートゥースデバイス76、有線LANデバイス78、PCIExpress(登録商標)カードコントローラ80、メモリカードコントローラ82、エンベデッドコントローラキーボードコントローラ(EC/KBC)84等が接続される。

0019

システムコントローラ42はストレージデバイス52から主メモリ44にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム(OS)46、遠隔支援のためのバックエンドアプリケーションプログラム(以下、バックエンドアプリケーションと略称する)48等を含む。システムコントローラ42は不揮発性メモリであるBIOS−ROM50に記憶された基本入出力システム(BIOS)も実行する。BIOSはハードウェア制御のためのシステムプログラムである。

0020

オーディオコーデック54は、再生対象デジタル音声信号アナログの音声信号に変換して、ヘッドフォン58又はスピーカ60に供給する。また、オーディオコーデック54は、マイク56から入力されるアナログの音声信号をデジタル信号に変換する。マイク56とヘッドフォン58は単独で設けてもよいが、インカムとして一体的に設けてもよい。

0021

グラフィックスコントローラ62は、オペレータ端末12のディスプレイモニタとして使用される液晶表示器(LCD)64を制御する。LCD64の画面上にタッチパネル70が重ねられ、LCD64の画面にタッチペン等により手書き入力操作が行えるように構成されていてもよい。グラフィックスコントローラ62にはHDMI(登録商標)コントローラ66も接続される。HDMIコントローラ66は外部の表示デバイスとの接続のためのHDMIコネクタ68に接続される。

0022

無線LANデバイス74は、ネットワーク22との接続のためにIEEE802.11規格無線LAN通信を実行する。ブルートゥースデバイス76は、外部機器との接続のためにブルートゥース規格無線通信を実行する。有線LANデバイス78は、ネットワーク22との接続のためにIEEE802.3規格の有線LAN通信を実行する。このように、オペレータ端末12とネットワーク22との接続は無線通信によってもよいし、有線通信によってもよいように構成されている。しかし、少なくともいずれか1つの通信機能を備えるだけでもよい。

0023

PCIExpressカードコントローラ80はオペレータ端末12と外部機器との間でPCIExpress規格の通信を行なう。メモリカードコントローラ82は、記憶媒体、例えばSDカード(登録商標)等のメモリカードにデータを書き込み、メモリカードからデータを読み出す。

0024

EC/KBC84は電力管理コントローラであり、キーボード88を制御するキーボードコントローラも内蔵したワンチップマイクロコンピュータとして実現されている。EC/KBC84は、電源スイッチ86の操作に応じてオペレータ端末12をパワーオン又はパワーオフする又はスリープ状態又は休止状態に設定するとともにスリープ状態又は休止状態から通常状態復帰させる機能を有する。パワーオン、パワーオフ、スリープ状態、休止状態の制御は、EC/KBC84と電源回路90との協働動作によって実行される。EC/KBC84はオペレータ端末12がパワーオフされている期間中も、バッテリ92又はACアダプタ94からの電力によって動作するように構成してもよい。しかし、バッテリ92は必須ではない。電源回路90は、バッテリ92からの電力又は外部電源として接続されるACアダプタ94からの電力を用いて、各コンポーネントへ供給すべき電力を生成する。

0025

[ウェアラブル機器23]
図3はモバイルPC16に接続されるウェアラブル機器23の外観の一例を示す。ウェアラブル機器23はメガネフレーム142と機器本体24を備える。メガネフレーム142は一般的なメガネからレンズを取り除いた形状でもよく、ユーザの顔に装着される。メガネフレーム142はメガネが取り付けられる構造としてもよい。ユーザがメガネを常用する場合、常用しているメガネと同様な度数のレンズがメガネフレーム142に取り付けられてもよい。

0026

メガネフレーム142は機器本体24が着脱される取り付け具144を左右のテンプルに備える。図3ではユーザの右側のテンプルの取り付け具144は機器本体24に隠されているので、図示されない。上述したように機器本体24はディスプレイ124(図4に示す)を備え、ディスプレイ124は片目目視されるようになっているので、機器本体24が利き目側に取り付けられるように取り付け具144は左右のテンプルに備えられている。なお、機器本体24を取り付け具144によりメガネフレーム142に着脱自在に取り付ける必要はなく、機器本体24がメガネフレーム142に固定された右眼用ウェアラブル機器、左眼用のウェアラブル機器をそれぞれ別個に用意してもよい。さらに、ウェアラブル機器23は、メガネ型ウェアラブル機器ではなく、ヘルメットゴーグル等のユーザの頭部に装着されるヘッドマウント型のウェアラブル機器でもよい。

0027

機器本体24は、その係合片128(図4に示す)が取り付け具144の上下の枠内に挟まれるように、メガネフレーム142に取り付けられる。機器本体24をメガネフレーム142から取り外す場合、ユーザは機器本体24を取り付け具144から引き抜く。

0028

機器本体24が取り付け具144に取り付けられた状態で、係合片128は取り付け具144内で前後に多少は移動可能である。このため、ユーザの焦点がディスプレイ124に合うように機器本体24は前後位置が調整可能である。さらに、取り付け具144はテンプルに直交する軸144Aを中心に回転可能であり、機器本体24がメガネフレーム142に取り付けられた後、ディスプレイ124がユーザの視線上に位置するように上下位置が調整可能である。さらに、取り付け具144の回転角度は90度程度であり、ユーザは取り付け具144を上方向に大きく回転することにより、機器本体24をメガネフレーム142からはね上げることができる。これにより、機器本体24により視野が邪魔され実物を見ることが困難な場合や、狭い場所の作業中に機器本体24が周囲の物体干渉する場合でも、ウェアラブル機器23全体を顔から外す/再装着することなく、機器本体24をユーザの視野から一時的に外す/戻すことができる。

0029

機器本体24はメガネフレーム142のテンプルに沿う側面部とユーザの一方の眼球の視線上に位置する前面部とからなる。側面部と前面部とは蝶番により接続され、側面部に対する前面部の角度は調節可能である。
前面部の外側表面にはカメラ116、ライト118、カメラLED120が設けられる。ライト118は暗部の撮影時に発光する補助照明である。カメラLED120は写真動画の撮影時に点灯し、撮影対象者に撮影していることを認識させるためのものである。

0030

機器本体24が右側のテンプルに取り付けられた場合、機器本体24の側面部の上部側面に第1ボタン102、第2ボタン104、第3ボタン106が設けられる。なお、ユーザの利き目が左眼の場合、機器本体24は左側のテンプルに取り付けられる。右側に取り付けられるか左側に取り付けられるかで、機器本体24の上下が反転するので、側面部の上部側面と下部側面の両面に第1ボタン102、第2ボタン104、第3ボタン106を設けてもよい。

0031

側面部の外側表面にはタッチパッド110、第4ボタン108、マイク112、照度センサ114が設けられる。タッチパッド110と第4ボタン108は人差し指で操作可能である。第1ボタン102、第2ボタン104、第3ボタン106は、機器本体24が右側に取り付けられた際、それぞれ人差し指、中指薬指で操作可能な位置に配置される。第1ボタン102、第2ボタン104、第3ボタン106及び第4ボタン108は操作されると、コマンドを入力することができる。本明細書では、コマンドとは機器本体24に対する特定の処理の実行指令のことであり、指令キーコードとして機器本体24に入力される。

0032

タッチパッド110は、その表面上で矢印に示すようにユーザが指を上下前後に移動させたことを検出できるようにしている。この移動の検出は、指を接触したまま移動するドラッグ動きに加え指をさっと擦るフリックの動きも含む。タッチパッド110は、ユーザの指の上下前後移動を検出すると、コマンドを入力することができる。

0033

第1ボタン102、第2ボタン104、第3ボタン106、第4ボタン108、タッチパッド110の操作により発生されるキーコードはアプリケーションによって決められている。
例えば、第3ボタン106が1回押されると、項目の選択/項目の実行のためのキーコードが発生される。第3ボタン106が長押しされると、起動中のアプリケーションの一覧の表示のためのキーコードが発生される。第2ボタン104が1回押されると、画面をホーム画面に戻すためのキーコードが発生される。第2ボタン104が長押しされると、クイックセッティングメニュー表示のためのキーコードが発生される。第1ボタン102が1回押されると、操作の取り消しのためのキーコード(例えばEscキーのキーコード)が発生される。

0034

タッチパッド110の操作に関しては、例えば、上下にドラッグされると、カーソルの上下移動のためのキーコードが発生される。前にフリックされると、左のアイコンを選択する(連続してスクロールする)ためのキーコードが発生される。後ろにフリックされると、右のアイコンを選択する(連続してスクロールする)ためのキーコードが発生される。前にドラックされると、左のアイコンを選択する(1項目ずつスクロールする)ためのキーコードが発生される。後ろにドラックされると、右のアイコンを選択する(1項目ずつスクロールする)ためのキーコードが発生される。上下左右は、図3に示すように、機器本体24が右側のテンプルに取り付けられた場合の方向を意味する。機器本体24が左側のテンプルに取り付けられた場合、上下、左右は上の説明の反対となる。

0035

第1ボタン102は人差し指、第2ボタン104は中指、第3ボタン106は薬指、第4ボタン108は小指で操作できるような位置に配置される。なお、第4ボタン108が側面部の上部側面ではなく、側面部の外側表面に設けられるのは、スペースの関係上であり、第4ボタン108も第1ボタン102、第2ボタン104、第3ボタン106と同様に側面部の上部側面に設けられてよい。照度センサ114はディスプレイの明るさを自動調整するために周囲の照度を検出する。

0036

図4は機器本体24の裏側(メガネフレーム142に取り付けられた状態の場合、ユーザの顔側)の外観の一例を示す。機器本体24は、ユーザの顔の側面に沿う側面部と、顔の前面に位置する前面部とからなる。前面部の内側表面にはLCDからなるディスプレイ124が設けられる。側面部の内側表面にはマイク126、スピーカ130、係合片128が設けられる。マイク126は側面部の前方に、スピーカ130は側面部の後方に、係合片128は側面部の後方に設けられる。スピーカ130の代わりにヘッドフォンを用いてもよい。その場合、オペレータ端末12と同様にマイクとヘッドフォンをインカムとして一体的に設けてもよい。

0037

図5はモバイルPC16と機器本体24との接続の一例を示す。図5に示すように、側面部の後方表面にはUSBtype−C(登録商標)規格のケーブル146の一端のコネクタプラグ)146Aが挿入されるコネクタ(レセプタクル)132が設けられる。なお、プラグとレセプタクルをコネクタと称することもある。USBtype−C規格のケーブル146の他端のコネクタ(プラグ)146BはモバイルPC16の上部側面のUSBtype−C規格のコネクタ(レセプタクル)207に挿入される。このように機器本体24はUSBtype−C規格のケーブル146を介してモバイルPC16に接続され、画像信号USB信号が機器本体24とモバイルPC16の間で伝送される。

0038

実施形態では機器本体24は駆動電源としてのバッテリ又はDC端子を備えず、駆動電源はモバイルPC16からUSBtype−Cケーブル146を介して機器本体24に供給される。しかし、機器本体24が駆動電源を備えてもよい。
図6は機器本体24の回路構成の一例を示すブロック図である。USBtype−Cコネクタ132がミキサ166に接続される。ディスプレイコントローラ170とUSBハブ164がミキサ166の第1端子、第2端子にそれぞれ接続される。ミキサ166はUSBtype−C規格のケーブル146を介して伝送された画像信号とUSB信号を分離して、画像信号を第1端子、USB信号を第2端子に出力するとともに、第1端子から入力された画像信号と第2端子から入力されたUSB信号を多重化して、USBtype−Cコネクタ132に出力する。ディスプレイ124がディスプレイコントローラ170に接続される。図6の例では、ディスプレイ124は内蔵デバイスであるが、外部ディスプレイHDMI規格等のケーブルを介してディスプレイコントローラ170に接続されてもよい。

0039

カメラコントローラ168、オーディオコーデック172、センサコントローラ162がUSBハブ164に接続される。カメラ116とライト118とカメラLED120がカメラコントローラ168に接続される。マイク112、126からの音声信号がオーディオコーデック172に入力され、オーディオコーデック172からの音声信号がアンプ174を介してスピーカ130に入力される。図6の例では、カメラ116及びオーディオコーデック172、センサコントローラ162等は内蔵デバイスであるが、これらの機器は外付けデバイスであってもよい。例えば、機器本体24にUSB規格のコネクタ(レセプタクル)が設けられ、外付けのカメラ、オーディオコーデック、センサコントローラ、その他のUSBデバイスがUSB規格のケーブルを介してUSBハブ164に接続されてもよい。

0040

センサコントローラ162に、モーションセンサ(例えば、加速度地磁気重力ジャイロセンサ等)176、照度センサ114、近接センサ178、タッチパッド110、第1ボタン102、第2ボタン104、第3ボタン106、第4ボタン108、GPSセンサ180が接続される。センサコントローラ162はモーションセンサ176、照度センサ114、近接センサ178、タッチパッド110、第1ボタン102、第2ボタン104、第3ボタン106、第4ボタン108、GPSセンサ180からの検出信号を処理して、モバイルPC16へコマンドを供給する。図4には示していないが、モーションセンサ176、近接センサ178は機器本体24の内部に配置される。モーションセンサ176は機器本体24の動き、向き、姿勢等を検出する。近接センサ178はユーザの顔、指等の接近によりウェアラブル機器23の装着を検出する。

0041

[モバイルPC16]
図7はモバイルPC16の外観の一例を示す。モバイルPC16は片手で持てる小型PCであり、そのサイズは、幅が約10cm以下、高さが約18cm以下、厚さが2cm程度であり、重量は約300g程度と、小型で軽量である。このため、モバイルPC16は作業着ポケットベルトに装着されるホルスタあるいはショルダーケース収納でき、ウェアラブルである。モバイルPC16はCPUや半導体メモリ等の半導体チップやSSD(Solid State Disk)等のストレージデバイスを収納するが、ディスプレイと文字入力用のハードウェアキーボードは備えない。

0042

モバイルPC16の正面にはアップボタン202a、ライトボタン202b、ダウンボタン202c、レフトボタン202d、決定ボタン(センターボタンエンターボタンとも称する)202eからなる5ボタン202が配置され、その下に指紋センサ204が配置される。文字入力用のハードウェアキーボードが備わっておらず暗証番号(PINとも称する)を入力することができないので、指紋センサ204はモバイルPC16のログイン時のユーザ認証のために用いられる。5ボタン202はコマンドを入力するためにモバイルPC16にキーコードを入力する。

0043

なお、5ボタン202の各ボタン202a〜202dに数字割り当て、5ボタン202を用いて暗証番号を入力することにより、ログイン時のユーザ認証を行ってもよい。この場合、指紋センサ204は省略可能である。決定ボタン202e以外の4つのボタンに数字を割り当てるので、数字の種類は4つしかなく、ランダムに入力した数字が暗証番号に一致する可能性がある。しかし、暗証番号の桁数を大きくすれば、ランダムに入力した数字が暗証番号に一致する確率を小さくすることができる。指紋センサ204を備えるモバイルPC16でも5ボタン202による認証も可能としてもよい。1台のモバイルPC16を複数のユーザで共有することがあるが、指紋認証だけではこのような場合に対応できないので、5ボタン202による認証が併用可能となっている。

0044

5ボタン202は機器本体24のボタン102、104、106、108の操作及びタッチパッド110と同じキーコードを入力可能である。機器本体24のボタン102、104、106、108とタッチパッド110は操作している様子をユーザは見ることができないので、ユーザによっては意図した操作をするには慣れが必要な場合もある。また、ボタン102、104、106、108とタッチパッド110は小型であるので、操作しづらい場合もある。実施形態では、モバイルPC16の5ボタン202でも同じ操作ができる(すなわち、同じキーコードを入力できる)ので、上記の懸念は解消される。5ボタン202の操作により発生されるキーコードもアプリケーションによって決められている。5ボタン202の上下左右は、図3に示すように、機器本体24が右側のテンプルに取り付けられた場合の方向を意味する。機器本体24が左側のテンプルに取り付けられた場合、5ボタン202の上下、左右とタッチパッド110の上下、左右と反対となる。

0045

例えば、決定ボタン202eが1回押されると、項目の選択/項目の実行のためのキーコードが発生される。機器本体24では、第3ボタン106の1回押しに対応する。決定ボタン202eが長押しされると、終了又は操作の取り消しのためのキーコードが発生される。機器本体24では、第1ボタン102の1回押しに対応する。アップボタン202aが1回押されると、カーソルを上に移動するためのキーコードが発生される。機器本体24では、タッチバッド110上での上へのドラッグに対応する。アップボタン202aが長押しされると、起動中のアプリケーションの一覧を表示するためのキーコードが発生される。機器本体24では、第3ボタン106の長押しに対応する。ダウンボタン202cが1回押されると、カーソルを下に移動するためのキーコードが発生される。機器本体24では、タッチバッド110上での下へのドラッグに対応する。ダウンボタン202cが長押しされると、クイックセッティングメニュー(後述)の表示のためのキーコードが発生される。機器本体24では、第2ボタン104の長押しに対応する。レフトボタン202dが1回押されると、右のアイコンを選択するためのキーコードが発生される。機器本体24では、タッチバッド110上での後ろにドラッグ/フリックに対応する。ライトボタン202bが1回押されると、左のアイコンを選択するためのキーコードが発生される。機器本体24では、タッチバッド110上での前にドラッグ/フリックに対応する。

0046

モバイルPC16の上部側面には、USB3.0規格のコネクタ(レセプタクル)206とUSBtype−C規格のコネクタ(レセプタクル)207とオーディオジャック208が設けられる。モバイルPC16の一方の側面(正面から見て左側面)には、メモリカード用のカードスロット218が設けられる。メモリカードは、例えばSDカード、マイクロSDカード(登録商標)等を含む。

0047

モバイルPC16の他方の側面(正面から見て右側面)には、ケンジントンロック(登録商標)のためのスロット210、電源スイッチ212、パワーLED213、DC IN/バッテリLED214、DC端子216、冷却用通風口222が設けられる。パワーLED213は電源スイッチ212の周囲に配置され、電源オンの期間点灯する。DC IN/バッテリLED214はバッテリが充電中であるか否か等のモバイルPC16の状態とバッテリの残量を表示する。モバイルPC16はバッテリで駆動可能であるが、DC端子216にACアダプタを接続した状態でも駆動可能である。図示しないが、裏面はワンタッチでバッテリが交換可能に構成されている。

0048

図8はモバイルPC16の一例を示すブロック図である。モバイルPC16は機器本体24で撮影した映像をオペレータ端末12へ配信することや、オペレータ端末12から受信した画像を閲覧することができる。このため、モバイルPC16は、ともにアプリケーションプログラム(以下、アプリケーションと略称する)により実現されるカメラ機能ビューワ機能とファイル管理機能通話機能を備える。カメラ機能は機器本体24のカメラ116で写真やビデオを撮影する機能である。撮影した写真やビデオはカメラフォルダに保存され、ビューワ機能により閲覧できる。ビューワ機能はカメラフォルダに保存されているファイルを閲覧する機能である。ファイルの種類は、画像、動画、PDF、カメラ機能で撮影した写真やビデオ、オペレータ端末12から受信した画像、オペレータ端末12へ送信した画像、ユーザフォルダに保存されたファイル等がある。ファイル管理機能は、カメラフォルダに保存されているファイルを管理する機能である。管理はファイル名変更、ファイル削除等を含む。通話機能は他人と通話する機能である。他人は、オペレータ端末12のオペレータや第3者を含む。

0049

モバイルPC16はシステムコントローラ302を備える。図示しないが、システムコントローラ302はプロセッサ(CPU)とコントローラ・ハブからなる。プロセッサには、主メモリ308、BIOS−ROM310、パワーLED213、DC IN/バッテリLED214、USBコントローラ322が接続される。コントローラ・ハブには、フラッシュメモリ326、メモリカードコントローラ328、HDD又はSSDからなるストレージデバイス330、USB切替器324、オーディオコーデック334、3G/LTEGPSデバイス336、指紋センサ204、USB3.0コネクタ206、ブルートゥース/無線LANデバイス340、EC/KBC344が接続される。

0050

システムコントローラ302はストレージデバイス330から主メモリ308にロードされる様々なプログラムを実行する。これらプログラムは、OS314、遠隔支援のためのフロントエンドアプリケーションプログラム(以下、フロントエンドアプリケーションと略称する)316、音声コマンドアプリケーションプログラム(以下、音声コマンドアプリケーションと略称する)318等を含む。フロントエンドアプリケーション316は、オペレータ端末12のバックエンドアプリケーション48と協働して遠隔支援システムを実現する。フロントエンドアプリケーション316は、上記した機能を実現するためのカメラアプリケーション、ビューワアプリケーション、ファイル管理アプリケーション及び通話アプリケーション等を含む。なお、これらのアプリケーションはフロントエンドアプリケーション316ではなく、バックエンドアプリケーション48に含まれていても良い。

0051

オーディオコーデック334は、再生対象のデジタルの音声信号をアナログの音声信号に変換して、オーディオジャック208に供給する。また、オーディオコーデック334は、オーディオジャック208に接続されるマイク(図示せず)から入力されるアナログの音声信号をデジタルの音声信号に変換する。

0052

メモリカードコントローラ328はメモリカードスロット218に挿入されるメモリカード、例えばSDカードにアクセスして、SDカードに対するデータの読み書きを制御する。
USBコントローラ322はUSBtype−Cコネクタ207に接続されるUSBtype−Cケーブル又はUSB3.0コネクタ206に接続されるUSB3.0ケーブル(図示せず)に対するデータの送受信を制御する。

0053

ブルートゥース/無線LANデバイス340は、ネットワーク22との接続のためにブルートゥース規格の無線通信とIEEE802.11規格の無線LAN通信を実行する。なお、ネットワーク22との接続は無線通信によらず、IEEE802.3規格の有線LAN通信によってもよい。

0054

指紋センサ204はモバイルPC16の起動時の指紋認証のために使用される。
EC/KBC344には、サブプロセッサ346、USB Power Delivery Controller(PDCと称する)348、電源スイッチ212及び5ボタン202が接続される。EC/KBC344は、電源スイッチ212の操作に応じてモバイルPC16をパワーオン又はパワーオフする機能を有する。パワーオン及びパワーオフの制御は、EC/KBC344と電源回路350との協働動作によって実行される。EC/KBC344はモバイルPC16がパワーオフされている期間中も、バッテリ352又はACアダプタ358からの電力によって動作する。電源回路350は、バッテリ352からの電力又は外部電源として接続されるACアダプタ358からの電力を用いて、各コンポーネントへ供給すべき電力を生成する。電源回路350は電圧レギュレータモジュール356を含み、電圧レギュレータモジュール356はシステムコントローラ302内のプロセッサに接続される。PDC348はUSBtype−Cコネクタ207に接続され、EC/KBC344からの制御に応じてUSBtype−Cコネクタ207に対する電源の制御を行う。PDC348は、EC/KBC344よりUSB再接続コマンド(後述するHCIコマンド)を受けると、モバイルPC16がUSBtype−Cコネクタ207に供給している電源を一旦オフし、USBtype−Cコネクタ207に接続されているデバイスを検出するためのデバイススキャンを行う。デバイススキャンはUSBtype−Cコネクタ207に電源が供給されていなくもて実施可能である。PDC348は、デバイススキャンによって検出されたデバイスと通信を行い、デバイスに電源を供給するかあるいはデバイスより電源の供給を受けるかの決定を行う。実施例の機器本体24は電源の供給能力を持たないため、実施例では常にモバイルPC16から機器本体24に対して電源が供給されることになる。モバイルPC16から機器本体24に電源が供給されると、モバイルPC16のOS314は、機器本体24が接続されたことを検出する。

0055

なお、モバイルPC16を機器本体24と別体として構成したが、モバイルPC16を機器本体24内に組み込んで、両者を一体として構成してもよい。
また、図示しないが、USBtype−Cコネクタ207にはポート拡張アダプタ接続可能であり、HDMI、RGB、有線LAN等のインターフェースも使用可能である。

0056

[音声認識装置]
モバイルPC16のフロントエンドアプリケーション316は、オペレータ端末12のバックエンドアプリケーション48と協働して遠隔支援システムを実現するので、1つの遠隔支援アプリケーションみなすこともできる。遠隔支援システムはオペレータ端末12のキーボード88やタッチパネル70、モバイルPC16の5ボタン202又は機器本体24のタッチパッド110やボタン102、104、106、108から入力されるキーコードに応じて動作する。キーコードが遠隔支援システムに対するコマンドに対応する。そのため、コマンド入力のために手作業が必要であり、ユーザが作業現場で作業中にホストアプリケーションにコマンドを与えるのが困難な場合もある。

0057

実施形態によれば、モバイルPC16に音声コマンドアプリケーション318が備えられる。機器本体24のマイク112、126から入力された音声が認識され、認識結果である音声コマンドに応じたコマンドデータが発生される。遠隔支援アプリケーションに対してコマンドデータドが入力されることにより、遠隔支援システムに対してコマンドが与えられる。

0058

遠隔支援アプリケーションは音声コマンドアプリケーション318から出力されるコマンドデータを受信し、コマンドデータに対応する音声コマンドを認識し、認識した音声コマンドに応じた動作を実行することにより、音声コマンドに応じた機能を実現する。音声コマンドアプリケーション318から出力されるコマンドデータの形式や態様は遠隔支援アプリケーションが解釈することができれば良く、任意の形式や態様を採用することができる。コマンドデータの一例としてキーコードを用いることができる。遠隔支援アプリケーションは、もともと、キーボードやタッチパネル、ボタン又はタッチパッド等からコマンドとしてキーコードを受け取るように構成されているので、音声コマンドアプリケーション318がコマンドデータとしてキーコードを出力すれば、遠隔支援アプリケーションは、音声コマンドアプリケーション318とともに使用される場合でも、その構成を変更する必要が無い。音声コマンドアプリケーション318がホストアプリケーションに対して音声コマンドに対応したキーコードを与えるように構成すると、キーコードを受け取ることができるものであればどのようなホストアプリケーションに対しても音声コマンドアプリケーション318を用いて音声コマンドにより制御、操作することができる。
音声コマンドに対応するキーコードは、遠隔支援アプリケーションが受け付けるコマンドに対応するキーコードと対応している。例えば、Enterキーが操作されると、遠隔支援アプリケーションにおいて写真撮影が行われる場合、写真撮影に対応する音声コマンドが認識されると、Enterキーのキーコードが発生される。

0059

このため、ユーザは、ハンズフリーで遠隔支援システムを利用することができ、作業現場でバックエンドのオペレータ等の遠隔支援を容易に受けることができる。

0060

図9は、音声コマンドアプリケーション318により実現される音声認識装置400の一例の機能ブロック図を示す。音声認識装置400は、マイク402、音声入力部406、音声認識部408、キーコード出力部412、辞書記憶部414、辞書管理部416及び辞書入力部418等を含む。

0061

マイク402が音声入力部406に接続される。マイク402は、例えば、図3に示す機器本体24のマイク112、図4に示す機器本体24のマイク126、図7に示すモバイルPC16のオーディオジャック208に接続される図示しないマイクに相当する。音声入力部406は、例えば、図6に示す機器本体24のオーディオコーデック172や図8に示すモバイルPC16のオーディオコーデック334に相当する。

0062

音声入力部406は、マイク402から入力されたデジタルの音声信号を単語毎区切り、1つまたは複数の単語からなる入力音声信号を音声認識部408に供給する。なお、音声入力部406は、マイクから直接入力された音声信号に限らず、音声ファイルから読み出された音声信号を入力しても良い。

0063

音声認識部408がマッチングの際に使用する辞書は、ホストアプリケーション404で生成され、ホストアプリケーション404から供給される。辞書は、音声コマンドとコマンドデータとの対応関係を示すテキスト形式のファイルである。この実施形態では、コマンドデータの一例はキーコードとする。テキスト形式の一例は、ジェイソンファイルがある。このように辞書はテキスト形式のファイルであるので、権限があれば、必要に応じてオペレータやユーザが書き直すことができる。ホストアプリケーション404は、例えば、モバイルPC16のフロントエンドアプリケーション316やオペレータ端末12のバックエンドアプリケーション48に相当する。

0064

辞書入力部418は、ホストアプリケーション404から受信した辞書を辞書管理部416に転送する。ホストアプリケーション404がオペレータ端末12内のバックエンドアプリケーション48である場合、辞書入力部418は、モバイルPC16の3G/LTE/GPSデバイス336やブルートゥース/無線LANデバイス340に相当する。ホストアプリケーション404がモバイルPC16内のフロントエンドアプリケーション316の場合、辞書入力部418を格別設ける必要はない。

0065

辞書管理部416は、ホストアプリケーション404から受信した辞書を辞書記憶部414に書き込む。辞書記憶部414は第1辞書422と第2辞書424を記憶するメモリである。辞書記憶部414はモバイルPC16内の主メモリ308内に設けられる。

0066

音声認識部408は、音声入力部406から供給された入力音声信号に対して音響分析特徴抽出、辞書記憶部414内の第1辞書422又は第2辞書424に含まれる音声コマンドと入力音声信号とのパターンマッチング等を行い、入力音声信号の音声認識を行う。パターンマッチングに第1辞書422と第2辞書424のいずれを使用するかは、ホストアプリケーション404により指定される。音声認識は、入力音声信号との類似度が最も高く、かつその類似度が所定値以上である音声コマンドを決定することである。音声認識部414は、音声認識により決定された音声コマンドに対応するキーコードを第1辞書422又は第2辞書424から読み出し、キーコード出力部412に供給する。

0067

辞書管理部416と音声認識部408は、モバイルPC16内のシステムコントローラ302に対応する。
キーコード出力部412はキーコードをホストアプリケーション404に送信する。ホストアプリケーション404がオペレータ端末12内のバックエンドアプリケーション48である場合、キーコード出力部412は、モバイルPC16の3G/LTE/GPSデバイス336やブルートゥース/無線LANデバイス340に相当する。ホストアプリケーション404がモバイルPC16内のフロントエンドアプリケーション316の場合、キーコード出力部412を格別設ける必要はない。

0068

[第1辞書422と第2辞書424]
辞書記憶部414に記憶される辞書は、ホストアプリケーション404を操作するために使われる可能性のある音声コマンドをできるだけ多く含むことが好ましい。このため、ホストアプリケーション404の種類によっては、辞書が含む音声コマンド数が非常に多くなる場合があり、認識に要する時間が長くなる、又は誤認識の可能性が高くなることがある。これを回避するために、実施形態によれば、図9に示すように、第1辞書422と第2辞書424の2種類の辞書が用意され、いずれかが選択される。

0069

ホストアプリケーション404を操作するコマンドは、ホストアプリケーション404の機能、ステータス等に応じて、時間の経過とともに変化するコマンドと、ある程度決まっており時間の経過に関わらず変化しないコマンドに分類できる。例えば、カメラアプリケーションやビューワアプリケーションで使用されるコマンドはある程度決まっている。このようなコマンドを静的コマンドとも称する。また、ファイル管理アプリケーションや通話アプリケーションで使用されるコマンドは時間の経過とともに変化する。このようなコマンドを動的コマンドとも称する。

0070

静的コマンドにより第1辞書422が生成され、動的コマンドにより第2辞書424が生成される。すなわち、ホストアプリケーション404が第1辞書422を一度生成すると、ホストアプリケーションそのものが変更されない限り、第1辞書は変更する必要が無い静的辞書である。一方、ホストアプリケーション404が第2辞書424を一度生成しても、ホストアプリケーション404の機能、ステータス等が変化する度に、第2辞書は変更する必要がある動的辞書である。

0071

なお、カメラアプリケーションで使用される静的コマンドグループと、ビューワアプリケーションで使用される静的コマンドグループは異なる。そのため、第1辞書422に含まれる音声コマンドは、ホストアプリケーション404の機能、ステータス、モード等に基づき複数のグループ(サブ辞書とも称する)に分割され、各グループにタグ名が付けられている。第1辞書422が使用される場合、いずれかのグループが選択される。

0072

図10は、第1辞書422aと第2辞書424aの一例を示す。第1辞書422aの例えばタグ名「カメラ」のグループ(カメラアプリケーションに対応)は、例えば、スチルズームインズームアウト、ビデオオン、ビデオオフの5つの音声コマンドを含む。音声コマンド「スチル」に対応するキーコードはEnterキーのキーコード(静止画を撮影することを指示する)であり、音声コマンド「ズームイン」に対応するキーコードはUpキーのキーコード(ズーム倍率を大きくすることを指示する)であり、音声コマンド「ズームアウト」に対応するキーコードはDownキーのキーコード(ズーム倍率を小さくすることを指示する)であり、音声コマンド「ビデオオン」に対応するキーコードはCtrlキーのキーコードとsキーのキーコードの組み合わせ(動画撮影を開始することを指示する)であり、音声コマンド「ビデオオフ」に対応するキーコードはCtrlキーのキーコードとeキーのキーコードの組み合わせ(動画撮影を終了することを指示する)である。このように音声コマンドに対応した独自のコマンドではなく、キーコードをコマンドとして発生させているので、ホストアプリケーション404のコマンド受付機能を音声コマンドアプリケーション独自のコマンドに対応できるように変更する必要がない。さらに、音声コマンドに対して単一のキーコードを発生するだけではなく、Ctrlキーと英数字キーのような複数の異なるキーのキーコードの組み合わせを発生することもできる。これにより、ショートカットキー操作を音声コマンドにより実現できる。

0073

第1辞書422aの例えばタグ名「ビューワ」のグループ(ビューワアプリケーションに対応)は、例えばズームイン、ズームアウト、ツギ、マエの4つの音声コマンドを含む。音声コマンド「ズームイン」に対応するキーコードはUpキーのキーコード(拡大表示をすることを指示する)であり、音声コマンド「ズームアウト」に対応するキーコードはDownキーのキーコード(拡大表示を元に戻すことを指示する)であり、音声コマンド「ツギ」に対応するキーコードはNextキーのキーコード(次の写真・動画を表示することを指示する)であり、音声コマンド「マエ」に対応するキーコードはPrevキーのキーコード(前の写真・動画を表示することを指示する)である。

0074

なお、同じカメラアプリケーション又はビューワアプリケーションでも、機能や状況(例えばGUI画面)毎にコマンドグループが異なる場合は、それらの機能、状況毎にグループが形成される。
一方、動的コマンドは、コマンドの発行履歴から予想することができる。例えば、ファイル管理アプリケーションで使用されることが予想されるコマンドは、ファイル名と操作名(削除、移動等)であり、今後選択されそうなファイル名は操作履歴からある程度予測できる。そのため、ユーザがファイル管理アプリケーションを利用することをホストアプリケーション404が認識すると、ホストアプリケーション404は図10に示すような第2辞書424aを生成し、音声認識装置400に送る。第2辞書424aは辞書記憶部414に登録される。ファイル管理アプリケーションに関する第2辞書424aは、例えば、サクライチ、サクラニ、サクラサンウメデリートの5つの音声コマンドを含む。音声コマンド「サクライチ」に対応するキーコードはs,a,k,u,r,a,1の7つのキーのキーコード(ファイル名「サクラ1(1)」の写真・動画を選択することを指示する)であり、音声コマンド「サクラニ」に対応するキーコードはs,a,k,u,r,a,2の7つのキーのキーコード(ファイル名「サクラ2(桜2)」の写真・動画を選択することを指示する)であり、音声コマンド「サクラサン」に対応するキーコードはs,a,k,u,r,a,3の7つのキーのキーコード(ファイル名「サクラ3(桜3)」の写真・動画を選択することを指示する)であり、音声コマンド「ウメ」に対応するキーコードはu,m,eの3つのキーのキーコード(ファイル名「ウメ(梅)」の写真・動画を選択することを指示することを指示する)であり、音声コマンド「デリート」に対応するキーコードはDeleteキーのキーコード(選択した写真・動画を削除することを指示する)である。

0075

第1辞書422全体の静的コマンド数は多数であるが、第1辞書422のタグ毎(サブ辞書毎)のコマンド数はマッチングに要する時間、すなわち認識時間と、誤認識が生じる可能性等を考慮して、少数、例えば10個以下に制限されている。第2辞書424の動的コマンド数もタグ毎の第1辞書422の静的コマンド数と同程度に制限されている。

0076

多数の音声コマンドをタグ毎に記憶している第1辞書422の全ては辞書記憶部414に書き込まれると、音声認識装置400を初期化しない限り書き換えられない。しかし、第2辞書424aは少数のコマンド(サブ辞書毎のコマンド数と同程度)しか記憶していないので、ホストアプリケーション404の機能、ステータス等が変化する度にホストアプリケーション404により生成され直される。そのため、辞書記憶部414に書き込まれた第2辞書424はホストアプリケーション404により随時書き換えられる。

0077

ユーザが実行するアプリケーションを切り替えると、その切り替えに応じて、ホストアプリケーション404は新しい第2辞書424を生成し、音声認識装置400に送る。例えば、実行するアプリケーションをユーザがファイル管理アプリケーションから通話アプリケーションに切り替えると、ホストアプリケーション404は、通話アプリケーションに関する第2辞書424bを生成し、図11に示すように、辞書記憶部414内のファイル管理アプリケーションに関する第2辞書424aが第2辞書424bに書き換えられる。通話アプリケーションで使用されることが予想されるコマンドは、宛先と操作名(通話、切断等)であり、今後選択されそうな宛先は通話履歴からある程度予測できる。第2辞書424bは、例えば、サトー、スズキ、タナカワタナベツウワの5つの音声コマンドを含む。音声コマンド「サトー」に対応するキーコードはs,a,t,oの4つのキーのキーコード(宛先「サトー(佐)」を選択する)であり、音声コマンド「スズキ」に対応するキーコードはs,u,z,u,k,iの6つのキーのキーコード(宛先「スズキ(鈴木)」を選択することを指示する)であり、音声コマンド「タナカ」に対応するキーコードはt,a,n,a,k,aの6つのキーのキーコード(宛先「タナカ(田中)」を選択することを指示する)であり、音声コマンド「ワタナベ」に対応するキーコードはw,a,t,a,n,a,b,eの8つのキーのキーコード(宛先「ワタナベ(渡辺)」を選択することを指示する)であり、音声コマンド「ツウワ」に対応するキーコードはCtrlキーのキーコードと1キーのキーコードの組み合わせ(選択した宛先と通話することを指示する)である。

0078

[第2辞書424の作成]
図12を参照して、ホストアプリケーション404が第2辞書424を作成する手順の一例を説明する。第2辞書424は種々の状況に応じて使用されるが、ここでは、図10図11に示すように、ファイル管理アプリケーションで使用される第2辞書424aと通話アプリケーションで使用される第2辞書424bを説明する。

0079

ブロック432で、ホストアプリケーション404は、ファイル管理アプリケーションによりアクセスされたファイルのアクセス回数累計)/頻度(連続する2回のアクセスの時間間隔)を集計する。ブロック434で、ホストアプリケーション404は、通話アプリケーションにより通話された宛先の通話回数(累計)/頻度(連続する2回の通話の時間間隔)を集計する。通話アプリケーションは宛先を登録した電話帳を管理しており、電話帳の宛先毎に通話回数/頻度を管理する。ホストアプリケーション404は、ファイル管理アプリケーションが起動している間は、ブロック432の処理をバックグラウンドで処理し、通話アプリケーションが起動している間は、ブロック434の処理をバックグラウンドで処理する。

0080

ブロック436で、ホストアプリケーション404は、ファイル管理アプリケーションによりファイル操作が要求されたか否かを判定する。ファイル操作が要求されていない場合(ブロック436の判定がノーの場合)、ブロック442で、ホストアプリケーション404は、通話アプリケーションにより通話が要求されたか否かを判定する。通話が要求されていない場合(ブロック442の判定がノーの場合)、ブロック432の処理が再度実行される。

0081

ブロック436の判定がイエスの場合(ファイル操作が要求された場合)、ブロック438で、ホストアプリケーション404はアクセス回数/頻度の多い/高い所定数のファイルを選択し、ファイルのタイトルとそれらのファイルに対して行われることが予想される操作(例えば、削除)を含む第2辞書424aを生成する。その後、ブロック446で、ホストアプリケーション404は、音声コマンドアプリケーション318、すなわち音声認識装置400に対して、第2辞書424aを送信するとともに、第2辞書424aを辞書記憶部414に登録させ、音声認識に使用するように指示する。

0082

ブロック442の判定がイエスの場合(通話が要求された場合)、ブロック444で、ホストアプリケーション404は通話回数/頻度の多い/高い所定数の宛先を電話帳から選択し、通話の宛先と操作(通話)を含む第2辞書424bを生成する。その後、ブロック446で、ホストアプリケーション404は、音声コマンドアプリケーション318、すなわち音声認識装置400に対して、第2辞書424bを送信するとともに、第2辞書424bを辞書記憶部414に登録させ、音声認識に使用するように指示する。

0083

音声認識処理の一例]
図13のフローチャートを参照して、音声コマンドアプリケーション318により実現される音声認識装置400の処理の一例を説明する。ホストアプリケーション404は、先ず第1辞書422を音声認識装置400が動作する前に音声認識装置404へ送信し、次に第2辞書424を適時なタイミングで音声認識装置404へ送信する。ブロック452で、音声認識装置400は、ホストアプリケーション404から第1辞書422を受信し、第1辞書422を辞書記憶部414に登録する。ブロック454で、音声認識装置400は、ホストアプリケーション404からタグが指定されたか否かを判定する。タグが指定された場合、ブロック456で、音声認識装置400は、第1辞書422の指定されたタグのグループに含まれる音声コマンドをウェアラブル機器23の機器本体24のディスプレイ124で表示させる。

0084

図14図15は、ブロック456におけるディスプレイ124で表示される画面の一例である。図14は、タグ「カメラ」が指定された場合、図15はタグ「ビューワ」が指定された場合の画面例を示す。タグ「カメラ」が指定された場合は、カメラビュー画像が表示されるとともに、音声コマンド「スチル」、「ズームイン」、「ズームアウト」、「ビデオオン」、「ビデオオフ」が使用可能であることが、音声コマンドの機能とともに表示される。タグ「ビューワ」が指定された場合は、保存されている撮影画像が表示されるとともに、音声コマンド「ズームイン」、「ズームアウト」、「ツギ」、「マエ」が使用可能であることが、音声コマンドの機能とともに表示される。これらの表示により、ユーザは現在使用できる音声コマンドの名前と機能を確認することができる。

0085

実際に音声認識するためには、認識開始を指示するトリガ音声(例えば、「開始」等)をまず入力して音声認識モードを開始し、次に実際のコマンドに対応する音声を入力するようになっている。図10図11には図示していないが、第1辞書422は、トリガ音声コマンドを含むトリガ用のタグも有し、音声認識モードの開始前はトリガ用のタグの第1辞書422が選択される。このため、音声認識装置400は、ブロック458で、トリガ用音声が入力されるまで待機する。トリガ用音声が入力されたことが認識されると、音声認識モードが開始され、ブロック462で、音声認識装置400は、第1辞書422の中のブロック454で受信したタグのグループを選択し、選択したグループに含まれる音声コマンドを用いて入力音声を音声認識し、認識した音声コマンドに対応するキーコードをホストアプリケーション404へ送信する。この後、ブロック454の処理が再度実行される。

0086

ブロック454で、タグが指定されていない場合、ブロック464で、音声認識装置400は、ホストアプリケーション404から第2辞書424a又は424bを受信したか否かを判定する。ホストアプリケーション404はユーザが特定のアプリケーションの利用を開始したことを検出すると、そのアプリケーションに関する第2辞書を音声認識装置400に送信する。第2辞書424a又は424bを受信していない場合、ブロック454の処理が再度実行される。第2辞書424a又は424bを受信した場合、ブロック465で、音声認識装置400は、第2辞書424a又は424bを辞書記憶部414に登録する。辞書記憶部414に第2辞書424a又は424bが登録されている場合、既に登録されていた第2辞書は受信した第2辞書によって上書きされる。音声認識に使用される辞書として、第2辞書が選択される。

0087

ブロック466で、音声認識装置400は、第2辞書424a又は424bに含まれる音声コマンドをウェアラブル機器23の機器本体24のディスプレイ124で表示させる。
図16図17は、ブロック466におけるディスプレイ124で表示される画面の一例である。図16は、ユーザがファイル管理アプリケーションの利用を開始した時にホストアプリケーション404により生成された第2辞書424aに含まれる音声コマンドを示す。図16の画面からは、現時点では、ファイル管理アプリケーションに対して、タイトル(ファイル名)として桜1、桜2、桜3、梅の4つの音声コマンドが使用可能であり、操作として音声コマンド「デリート」が使用可能であることが分かる。図17は、ユーザが通話アプリケーションの利用を開始した時にホストアプリケーション404により生成された第2辞書424bに含まれる音声コマンドを示す。図17の画面からは、現時点では、通話アプリケーションに対して、宛先として佐藤、鈴木、田中、渡辺の4つの音声コマンドが使用可能であり、操作として音声コマンド「通話」が使用可能であることが分かる。これらの表示により、ユーザは現時点で使用できる音声コマンドの名前と機能を確認することができる。

0088

音声認識装置400は、ブロック468で、音声認識のために使用する辞書としてトリガ用のタグの第1辞書422を選択し、トリガ用音声が入力されるまで一定時間待機する。一定時間経過しても、トリガ用音声が入力されない場合、ブロック454の処理が再度実行される。一定時間内にトリガ用音声が入力されたことが判定されると、ブロック472で、音声認識装置400は、音声認識のために使用する辞書として第2辞書424a又は424bを選択し、第2辞書424a又は424bに含まれる音声コマンドを用いて入力音声を音声認識し、入力音声に対応するキーコードをホストアプリケーション404へ送信する。この後、ブロック454の処理が再度実行される。

0089

なお、ブロック462又はブロック472の認識処理中にタイムアウトを設定しても良い。すなわち、認識開始から一定時間経過しても認識結果が得られない場合、処理を中止し、認識失敗通知しても良い。
このように実施形態によれば、辞書記憶部414は、複数のサブ辞書に分割されている第1辞書422と、少数の音声コマンドとキーコードとの対応関係を動的に定義し直す第2辞書424を記憶する。第1辞書422は、多数の音声コマンドとキーコードとの対応関係を予め定義する辞書である。(第1辞書内の)複数のサブ辞書と第2辞書のいずれかを利用して入力音声を認識することにより、辞書のデータサイズを小さくすることができる。このため、短時間で、誤認識率の小さい音声認識を行うことができる。動的に変更される第2辞書を使うことにより、ホストアプリケーション404を利用するユーザが大サイズの辞書データを作成する手間を省くことができるとともに、ホストアプリケーション404の状況に柔軟に対応した音声操作を実現することができる。また、第1辞書は複数のサブ辞書に分割されており、第1辞書が使用される際は、いずれかのサブ辞書が選択されるので、ホストアプリケーション404の機能や状況に合わせた音声コマンドを利用できることになるため、ユーザが音声操作をより活用しやすくなる。

0090

[変形例]
図18は、第1辞書の変形例422bを示す。図13のブロック458、468に示すように、音声認識はトリガ用音声が入力されると開始される。音声認識の終了については、一定時間の経過により自動的に終了させる場合と、終了のための音声が入力されるまで継続する場合の2通りが考えられる。前者をシングルモード、後者をマルチモードと称する。図18に示す第1辞書422bは、カメラアプリケーションに関するシングルモード用のタブと、マルチモード用のタブを示す。なお、ここでは、初期には認識モードとしてはシングルモードが設定され、マルチモード用のトリガ用音声が入力されると、認識モードがマルチモードに変更される。マルチモードで動作中にマルチモードを終了させる音声が入力されると、認識モードがシングルモードに戻る。

0091

第1辞書422bのタグ名「シングル」のグループは、例えば、ハイマルチ、スチル、ズームイン、ズームアウト等の音声コマンドを含む。音声コマンド「ハイ」に対応するキーコードはF1キーのキーコード(シングルモードの音声認識を開始することを指示する)であり、音声コマンド「マルチ」に対応するキーコードはF2キーのキーコード(マルチモードの音声認識を開始することを指示する)であり、音声コマンド「スチル」に対応するキーコードはEnterキーのキーコード(静止画を撮影することを指示する)であり、音声コマンド「ズームイン」に対応するキーコードはUpキーのキーコード(ズーム倍率を大きくすることを指示する)であり、音声コマンド「ズームアウト」に対応するキーコードはDownキーのキーコード(ズーム倍率を小さくすることを指示する)である。

0092

第1辞書422bのタグ名「マルチ」のグループは、例えば、オワリ、スチル、ズームイン、ズームアウト等の音声コマンドを含む。音声コマンド「オワリ」に対応するキーコードはF10キーのキーコード(マルチモードの音声認識を終了することを指示する)であり、音声コマンド「スチル」に対応するキーコードはEnterキーのキーコード(静止画を撮影することを指示する)であり、音声コマンド「ズームイン」に対応するキーコードはUpキーのキーコード(ズーム倍率を大きくすることを指示する)であり、音声コマンド「ズームアウト」に対応するキーコードはDownキーのキーコード(ズーム倍率を小さくすることを指示する)である。

0093

このような第1辞書422bを使うと、図19に示すような音声認識が実行される。図19(a)に示すように、シングルモード開始用の音声(ハイ)が入力され、音声コマンド「ハイ」が認識されると、シングルモードの認識期間が開始する。この後、ユーザがカメラを操作するコマンドを音声として入力する。例えば、音声コマンド「ズームイン」が認識されると、カメラのズーム倍率が大きくなる。音声コマンド「ハイ」の認識から一定時間t1が経過すると、認識期間が終了する。この後、音声コマンドでカメラをさらに操作するためには、ユーザはシングルモード開始用の音声(ハイ)を再び入力する。

0094

図19(b)に示すように、シングルモード開始用の音声が入力され、音声コマンド「ハイ」が認識された後、マルチモード開始用の音声が入力され、音声コマンド「マルチ」が認識されると、認識モードがシングルモードからマルチモードに切り替わる。マルチモードの場合、複数の音声が連続して入力され、複数の音声コマンドが連続して認識される。マルチモードの場合、マルチモード終了用の音声が入力され、音声コマンド「オワリ」が認識されると、認識モードはシングルモードに戻る。

0095

なお、初期モードとしてシングルモードを説明したが、マルチモードが初期モードであっても良い。さらに、初期モードを設定しないで、初期状態はモード指定待ちとし、シングルモード又はマルチモードを指定する音声の入力待ちとしても良い。
音声認識を利用してホストアプリケーション404を操作することは、入力音声の認識結果と最も類似する音声コマンドを辞書の中から探し、最も類似する音声コマンドに対応するキーコードを発生することである。音声はユーザの性別年齢出身地、癖等により微妙に異なるので、同じような音声でも音声認識結果は異なることがある。これに対処するために、微妙に異なる音声コマンドに対して同一のキーコードを割り当てると、汎用性のある辞書が実現される。

0096

図20は第1辞書のさらなる変形例422cを示す。例えば、シングルモードの音声認識を開始するキーコード(F1キー)は、音声コマンド「ハイ」、「ハイッ」、「ハイー」のいずれにも対応し、静止画を撮影するキーコード(Enterキー)は、音声コマンド「スチル」、「スチール」のいずれにも対応し、ズーム倍率を大きくするキーコード(Upキー)は、音声コマンド「ズームイン」、「ズムイン」、「ズームイーン」のいずれにも対応するように第1辞書422cが作られている。

0097

図21は第2辞書のさらなる変形例424cを示す。例えば、宛先「佐藤」を選択するキーコード(s,a,t,oキー)は、音声コマンド「サトー」、「サトオ」、「サトウ」のいずれにも対応するように第2辞書424cが作られている。
さらに、音声コマンドに対して複数の異なるキーコードの組み合わせからなるショートカットキーを割り当てることを説明したが、複数の同一のキーコードの組み合わせを割り当て、単一キー連続操作(例えば、長押し)を音声コマンドにより実現しても良い。例えば、メニュー内でアイコンを選択するためにカーソルを音声コマンドにより移動させる場合、図22に示すように、音声コマンド「アップ」又は「ウエ」に対してUpキーのキーコードを1回発生させ、音声コマンド「アップー」又は「ウエー」に対して、音声が入力されている期間中、Upキーのキーコードを複数回繰り返して発生させるように第1辞書又は第2辞書を構成しても良い。同様に、音声コマンド「ダウン」又は「シタ」に対してDownキーのキーコードを1回発生させ、音声コマンド「ダウンー」又は「シター」に対して、音声が入力されている期間中、Downキーのキーコードを複数回繰り返して発生させても良い。音声コマンド「ライト」又は「ミギ」に対してRightキーのキーコードを1回発生させ、音声コマンド「ライトー」又は「ミギー」に対して、音声が入力されている期間中、Rightキーのキーコードを複数回繰り返して発生させても良い。音声コマンド「レフト」又は「ヒダリ」に対してLeftキーのキーコードを1回発生させ、音声コマンド「レフトー」又は「ヒダリー」に対して、音声が入力されている期間中、Leftキーのキーコードを複数回繰り返して発生させても良い。

0098

なお、カーソルの移動は、図3図6に示すタッチパッド110又は図7図8に示す5ボタン202の操作によっても可能である。前述したように、図3図6に示すタッチパッド110又は図7、図8に示す5ボタン202の操作における上下左右は、機器本体24が左右のいずれのテンプルに取り付けられたかにより変わる。機器本体24は、モーションセンサ176により、左右のいずれのテンプルに取り付けられたかを検出することができ、その検出結果をモバイルPC16に送信する。音声コマンドアプリケーション318はその検出結果に応じて、第1辞書又は第2辞書の上下左右の定義を変更することもできる。
なお、音声コマンドアプリケーション318はキーコード以外のコマンドデータを出力し、遠隔支援アプリケーションがそのコマンドデータを認識するようにしても良い。

0099

本実施形態の処理はコンピュータプログラムによって実現することができる。従って、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

0100

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

0101

400…音声認識装置、402…マイク、404…ホストアプリケーション、406…音声入力部、408…音声認識部、412…キーコード出力部、414…辞書記憶部、416…辞書管理部、418…辞書入力部。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ