図面 (/)

技術 音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体

出願人 フェアリーデバイセズ株式会社
発明者 藤野真人
出願日 2019年11月20日 (1年1ヶ月経過) 出願番号 2019-210065
公開日 2020年3月19日 (9ヶ月経過) 公開番号 2020-042292
状態 未査定
技術分野 音声認識
主要キーワード ブロックアウト センサ種類 指定角度 指紋識別装置 話者識別処理 非可聴音 円周軌道 受付モード
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年3月19日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (10)

課題

高精度で、しかも安価に音声内容分析解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体を提供する。

解決手段

音声情報処理システムは、音声に関する音声情報を入力する入力手段と、入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前段処理を施された音声情報が話者特徴情報及び音声到来方位情報と共に記録される記録手段と、を備える。

概要

背景

近年、音声情報処理技術の発展は目覚ましいものがある。例えば、利用者がシステムの状態を容易に把握できるようにし、利用者とシステムとが常に円滑な対話を実現できる音声対話システム(例えば、特許文献1参照)、苦情等を音声により受け付けて、後の処理に利用可能な形態で処理者に伝達することが可能な対話記録システム(例えば、特許文献2参照。)、及びユーザと円滑に対話できる、対話機能を有する電子機器(例えば、特許文献3参照。)が開示されている。

特許文献1に記載の発明は、マイク、音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段、対話管理手段、問題解決手段、応答文生成手段、音声合成手段、音声出力手段、スピーカ、複数の中途応答処理手段からなる音声対話システムにおいて、複数の中途応答処理手段は、入力系の手段である音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段のうち任意の1つあるいは複数の手段の処理結果を入力として、処理結果を出力系の手段である音声出力手段、音声合成手段、応答文生成手段のうち1つあるいは複数の手段へ出力するものである。

特許文献2に記載の発明は、対話の音声データを記録する記録装置と、記録される音声データについて、特定の箇所を識別するための識別子を生成して、記録装置に記録させる処理を行う情報処理装置とを備え、情報処理装置は、記記録装置に記録される音声データについて、識別子の生成の要求を受け付けて識別子を生成し、識別子を、記録すべき音声データと対応付けて記録装置に記録し、記録装置には、音声データと、識別子データとが記録され、また、音声データを音声認識部により、音声認識して得られたテキストデータが記録されるものである。

特許文献3に記載の発明は、冷蔵庫は、マイクおよびスピーカを備え、音声を取得し、取得した音声に応じて発話する対話機能を有するものであり、冷蔵庫は、冷蔵庫近傍の所定の範囲内におけるユーザの位置を特定する位置特定部と、位置特定部にて特定されたユーザの位置に応じた値となるように、マイクの感度を調整するマイク制御部、スピーカの音量を調整するスピーカ制御部を備えるものである。

概要

高精度で、しかも安価に音声内容分析解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体を提供する。音声情報処理システムは、音声に関する音声情報を入力する入力手段と、入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前段処理を施された音声情報が話者特徴情報及び音声到来方位情報と共に記録される記録手段と、を備える。

目的

認識処理は、収集した音声情報から、話し手の他に、笑い声拍手、呼び声等の認識、さらに環境音を分析、解析、認識等の処理を行った結果から、話者識別性別推定年齢推定等を行うとともに、イントネーション判定から、出身地等に関する各種情報を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミングブラインド音源分離残響抑制ノイズ抑圧エコーキャンセル音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段とを備えたことを特徴とする音声情報処理システム

請求項2

物音、人の声、雑音を含む音声情報が入力される複数のマイクが配置されたマイクユニットと、単数あるいは複数のスピーカによって可聴音及び/もしくは非可聴音発音する音声発生部と、前記マイクからの音声情報に対して識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段とを有することを特徴とする音声情報処理システム。

請求項3

室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。

請求項4

室内の環境の設定、意図的解釈、及び対話を管理する外部システムをさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。

請求項5

前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段のうちの少なくとも一つを備えたことを特徴とする請求項4に記載の音声情報処理システム。

請求項6

前記意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする請求項4に記載の音声情報処理システム。

請求項7

前記音声情報の内容の分析処理解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢性別を含む属性について推論する推論手段をさらに備えることを特徴とする請求項1もしくは2に記載の音声情報処理システム。

請求項8

前記推論手段は、前記話者との対話を意図的に解釈する解釈手段と、前記話者との対話を管理する管理手段とを備えたことを特徴とする請求項7に記載の音声情報処理システム。

請求項9

前記室内のサイズを判断するサイズ判断手段と、前記室内のノイズレベルを認識するノイズレベル認識手段と、前記室内の残響レベルを認識する残響レベル認識手段とをさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。

請求項10

前記筐体に設けられ画像を表示する画像表示手段をさらに備えたことを特徴とする請求項5に記載の音声情報処理システム。

請求項11

前記筐体に設けられユーザを認識する指紋認証手段をさらに備えたことを特徴とする請求項5に記載の音声情報処理システム。

請求項12

前記クライアント側の音声入出力装置の処理能力が十分であるかの判断は、プロセッサ演算速度メモリーサイズ、センサ種類マイクロフォンアレイ、スピーカの数、LEDの数、内蔵カメラアプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含んでなされることを特徴とする請求項3に記載の音声情報処理システム。

請求項13

新たに入力された音声の特徴を前記記録手段に記録された前記話者特徴情報と照合して話者を識別する話者識別手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。

請求項14

前記話者の感情を識別する感情識別手段をさらに備えたことを特徴とする請求項7に記載の音声情報処理システム。

請求項15

前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段をさらに備えたことを特徴とする請求項1もしくは2に記載の音声情報処理システム。

請求項16

物音、人の声、雑音を含む音声に関する音声情報が入力される第1のステップと、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う第2のステップであって、前記前段処理は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を行う、ステップと、前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る第3のステップと、前記音声情報に係る話者の特徴を話者特徴情報として抽出する第4のステップと、前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される第5のステップとを具備することを特徴とする音声情報処理システムの制御方法

請求項17

コンピュータ読み取り可能なプログラムであって、コンピュータを、物音、人の声、雑音を含む音声に関する音声情報を入力する入力手段と、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段であって、該前段処理手段は、ビームフォーミング、ブラインド音源分離、残響抑制、ノイズ抑圧、エコーキャンセル、音声区間検出のうちの少なくともいずれか一つの処理を実行するものである、手段と、前記入力された音声情報が到来した方位を検出し音声到来方位情報を得る音声到来方位情報獲得手段と、前記音声情報に係る話者の特徴を話者特徴情報として抽出する特徴抽出手段と、前記前段処理を施された前記音声情報が前記話者特徴情報及び前記音声到来方位情報と共に記録される記録手段ととして機能させるための音声情報処理システムのプログラム。

請求項18

請求項17に記載のプログラムを記録した記録媒体

技術分野

0001

本発明は、会話における音声情報処理システムに係る、音声情報処理システム、音声情報処理システムの制御方法、音声情報処理システムのプログラム及び記録媒体に関する。

背景技術

0002

近年、音声情報処理技術の発展は目覚ましいものがある。例えば、利用者がシステムの状態を容易に把握できるようにし、利用者とシステムとが常に円滑な対話を実現できる音声対話システム(例えば、特許文献1参照)、苦情等を音声により受け付けて、後の処理に利用可能な形態で処理者に伝達することが可能な対話記録システム(例えば、特許文献2参照。)、及びユーザと円滑に対話できる、対話機能を有する電子機器(例えば、特許文献3参照。)が開示されている。

0003

特許文献1に記載の発明は、マイク、音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段、対話管理手段、問題解決手段、応答文生成手段、音声合成手段、音声出力手段、スピーカ、複数の中途応答処理手段からなる音声対話システムにおいて、複数の中途応答処理手段は、入力系の手段である音声入力手段、音声分析手段、音声認識手段、構文解析手段、意図抽出手段のうち任意の1つあるいは複数の手段の処理結果を入力として、処理結果を出力系の手段である音声出力手段、音声合成手段、応答文生成手段のうち1つあるいは複数の手段へ出力するものである。

0004

特許文献2に記載の発明は、対話の音声データを記録する記録装置と、記録される音声データについて、特定の箇所を識別するための識別子を生成して、記録装置に記録させる処理を行う情報処理装置とを備え、情報処理装置は、記記録装置に記録される音声データについて、識別子の生成の要求を受け付けて識別子を生成し、識別子を、記録すべき音声データと対応付けて記録装置に記録し、記録装置には、音声データと、識別子データとが記録され、また、音声データを音声認識部により、音声認識して得られたテキストデータが記録されるものである。

0005

特許文献3に記載の発明は、冷蔵庫は、マイクおよびスピーカを備え、音声を取得し、取得した音声に応じて発話する対話機能を有するものであり、冷蔵庫は、冷蔵庫近傍の所定の範囲内におけるユーザの位置を特定する位置特定部と、位置特定部にて特定されたユーザの位置に応じた値となるように、マイクの感度を調整するマイク制御部、スピーカの音量を調整するスピーカ制御部を備えるものである。

先行技術

0006

特許第3454897号公報
特開2000−067064号公報
特開2017−069835号公報

発明が解決しようとする課題

0007

しかしながら、特許文献1に記載の発明は、オウム返し応答もしくは相槌応答によって、利用者は、自分の発話が音声として入力されていることを認識でき、安心して次の発話を行なえるが、定型文を利用しているため、ノイズエコーの混在したイレギュラーな発話に対しては何ら評価をしたり、定型文に修正を施したりするようにはなっていない。

0008

また、特許文献2に記載の発明は、予め定めた基準値以上かを判定し、基準値未満のときは、発言が途切れていると判定し、その後、基準値を超える状態となったとき、発言が始まったと判定して、頭出し信号を出力したりするものの、対話の相手感情を把握したり、聞き間違いに対して改善するような処理はなされていない。

0009

さらに、特許文献3に記載の発明は、取得した音声に応じて発話する受動的な応答をするようになっているものの相手に対して能動時に話しかけるようにはなっていない。

0010

本願は、このような問題点を解決するために企図されたものであり、高精度で、しかも安価に音声内容分析解析、認識、評価、修正することにより最適化するとともに、会話の行われている状況をより的確に把握する技術的思想提示目指すものである。

課題を解決するための手段

0011

上記課題を解決するため、請求項1に記載の発明は、音声に関する音声情報を入力する入力手段と、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段と、前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段と、を備えたことを特徴とする。

0012

ここで、音声とは、物音(例えば、ドアたたく音等)と人の声と雑音(例えば、サイレン動物鳴き声クシャミ等)とを含む音波である。

0013

また、第1の情報とは、アプリケーションソフトウェア(以下、「アプリ」と記す。)に関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、評価が不十分な場合に繰り返すフロー等を含む情報である。

0014

請求項2に記載の発明は、請求項1に記載の構成に加え、前記最適化手段は、前記タスク処理の結果を評価する第1の評価手段と、前記評価が十分でない場合に前記第1の情報を修正する修正手段と、前記前段処理手段から前記修正手段までの一連の処理を繰り返す繰返手段と、を備えたことを特徴とする。

0015

請求項3に記載の発明は、請求項1に記載の構成に加え、室内で前記音声の内容を分析して応答する際に、クライアント側の音声入出力装置処理能力が対応可能な場合に前記音声入出力装置で情報処理を行い、前記音声入出力装置の処理能力が対応可能でない場合にクラウド側が情報処理を行う判断手段を備えたことを特徴とする。

0016

請求項4に記載の発明は、請求項1に記載の構成に加え、室内の環境の設定、意図的解釈、及び対話を管理する外部システムを備えたことを特徴とする。

0017

ここで、意図的解釈とは話者の意図を推定し、推定結果を反映した解釈を言う。

0018

請求項5に記載の発明は、請求項1に記載の構成に加え、前記外部システムは、前記音声入出力装置の筐体外を撮像する撮像手段、前記筐体を振動させる振動手段、前記筐体を回転させる回転手段、及び前記筐体外の壁に画像を投影する投影手段を少なくとも一つ備えたことを特徴とする。

0019

請求項6に記載の発明は、請求項1に記載の構成に加え、意図的解釈、前記対話の管理に外部コンテンツの利用が可能なことを特徴とする。

0020

請求項7に記載の発明は、請求項1に記載の構成に加え、前記音声の内容の分析処理解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢性別を含む属性について推論する推論手段と、第2の情報をデザインする際に利用したログ収集する収集手段と、前記ログを解析する解析手段と、前記応答及び前記第2の情報を評価する第2の評価手段とをそなえ、前記評価に基づいて継続的に改善することで最適化することを特徴とする。

0021

ここで、第2の情報とは、各種手段のうちどの手段を用い、どの順番で処理し、評価し、十分でない場合に繰り返すフローについての情報をいう。

0022

認識処理は、収集した音声情報から、話し手の他に、笑い声拍手、呼び声等の認識、さらに環境音を分析、解析、認識等の処理を行った結果から、話者識別、性別推定、年齢推定等を行うとともに、イントネーション判定から、出身地等に関する各種情報を提供するものである。

0023

請求項8に記載の発明は、請求項7に記載の構成に加え、前記推論手段は、前記話者との対話を意図的に解釈する解釈手段と、前記話者との対話を管理する管理手段と、を備えたことを特徴とする。

0024

ここで、話者との対話の管理とは、顧客満足度向上のため、話者がどのような発話に対しどのような感情を抱いたかを記録し、クライアント側の音声入出力装置をコールセンターに利用していた場合にオペレータ注意喚起したり、管理者に報告したりすることを含む。また、クライアント側の音声入出力装置を会議に利用していた場合に出席者が感情的になった場合に落ち着かせるように休憩を入れたり、冷静になるような旨の音声を発話したりすることを含む。

0025

請求項9に記載の発明は、請求項4に記載の構成に加え、前記環境判断手段は、前記室内のサイズを判断するサイズ判断手段と、前記室内のノイズレベルを認識するノイズレベル認識手段と、前記室内の残響レベルを認識する残響レベル認識手段と、を備えたことを特徴とする。

0026

請求項10に記載の発明は、請求項5に記載の構成に加え、前記筐体に設けられ画像を表示する画像表示手段を備えたことを特徴とする。

0027

請求項11に記載の発明は、請求項5に記載の構成に加え、前記筐体に設けられユーザを認識する指紋認証手段を備えたことを特徴とする。

0028

請求項12に記載の発明は、請求項1に記載の構成に加え、クライアント側の音声入出力装置の処理能力は、プロセッサ演算速度メモリーサイズ、センサ種類マイクアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含むことを特徴とする。

0029

請求項13に記載の発明は、請求項1に記載の構成に加え、前記話者の音声から話し方を特徴として抽出する特徴抽出手段と、前記特徴を前記話者の情報にづけて記憶し、新たに入力した音声の特徴を前記記憶手段に記憶された話者の情報と照合して話者を識別する話者識別手段と、を備えたことを特徴とする。

0030

請求項14に記載の発明は、請求項7に記載の構成に加え、前記話者の感情を識別する感情識別手段を備えたことを特徴とする。

0031

請求項15に記載の発明は、請求項14に記載の構成に加え、前記筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯し、前記話者を検知したときに前記一部の発光色が話者の方向で停止するように発光する発光手段を備えたことを特徴とする。

0032

請求項16に記載の発明は、音声に関する音声情報を入力し、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行い、前記前段処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化することを特徴とする。

0033

請求項17に記載の発明は、コンピュータ読み取り可能なプログラムであって、コンピュータを、音声に関する音声情報を入力する入力手段、前記入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、前記前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、前記タスク処理の評価が十分でない場合に前記第1の情報を修正し、前記評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、として機能させるための音声情報処理システムのプログラムであることを特徴とする。

0034

請求項18に記載の発明は、請求項17に記載のプログラムを記録した記録媒体であることを特徴とする。

発明の効果

0035

本発明によれば、高精度で、しかも安価に音声内容の分析、解析、認識、評価することにより最適化するとともに、会話の行われている状況をより的確に把握することを可能とする。

図面の簡単な説明

0036

本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。
図1に示した音声情報処理システムに用いられるクラウド側サーバハードウェアブロック図の一例である。
図1に示した音声情報処理システムのハードウェアブロック図の一例である。
図2に示した音声情報処理システムのソフトウェアブロック図の一例である。
図2に示した音声情報処理システムの処理内容を示すソフトウェアスタック図の一例である。
図2に示した音声情報処理システムの外観図の一例である。
図2に示した音声情報処理システムにおける全体動作を示すフローチャートの一例である。
図2に示した音声情報処理システムにおける全体動作を示すフローチャートの他の一例である。
図2に示した音声情報処理システムにおける全体動作を示すフローチャートの他の一例である。

0037

本発明の実施の形態を、図面を参照して説明する。

0038

<構成>
<システム全体>
図1は、本発明の一実施形態に係る音声情報処理システム全体の構成図の一例である。本発明の一実施形態に係る音声情報処理システムは、ネットワーク10を介してクラウド側サーバ20、及びクライアント側の音声入出力装置100が接続されて構成されている。

0039

音声入出力装置100とスマートフォンとで連携して音声情報処理システムを構成してもよく、Wi-Fiルータを用いてインターネット接続してもよい。なお、音声入出力装置100とスマートフォンとの間の通信手段としては、例えば、無線赤外線有線等どのような方法を用いてもよい。また本願を適用する、例えば音声情報処理システムが複数存在する場合には、音声入出力装置100はその数だけ存在することとなる。

0040

<クラウド側サーバ及び音声入出力装置のハードウェア構成
次に、図2に従ってクラウド側サーバ20の詳細を説明する。図2に示すように、クラウド側サーバ20は、データベース(以下、「DB」という。)21、プロセッサ22、出力装置23、入力装置24、及びインターフェース26等を備えて構成されている。プロセッサ(「コンピュータ」とも称する)22は、音声情報の管理に関するデータの処理を行い、DB21は音声情報の管理に関する情報等のデータ、及び制御プログラム等を記憶する。出力装置23は、ディスプレイプリンタ等を備えて構成され、必要に応じて各種情報を出力する。また、入力装置24は、キーボードバーコードリーダ、及びスキャナ等を備えて構成され、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものとする。なお、クラウド側サーバ20は最終的に音声情報処理システムとしての業務遂行が可能であれば、単独でも複数のシステムから構成されていてもよい。

0041

<音声入出力装置のハードウェア構成>
次に、図3に従って音声入出力装置100の詳細を説明する。同図に示すように、音声入出力装置100は、主として拡張部201、記憶部202、マイクユニット203、マイク制御部204、信号処理部205、通信部206、音声発生部207、非可聴音発生部208、及び表示部209を備える。表示部209はLED(Light Emitting Diode:発光ダイオード)210とLCD(Liquid Crystal Display:液晶表示ディスプレイ)211とを有してもよい。LED210はリング状であってもよい。

0042

音声入出力装置100は、さらに破線で示す撮像部212、個人認証部213、IR(Infrared:赤外線)部214、投影部215、振動部216、及び回転部217を備えて構成してもよい。

0043

拡張部201は音声入出力装置100にUSB(Universal Serial Bus)メモリUSB機器を接続するための部材である。

0044

記憶部202は、音声入出力装置100の制御プログラム、音声データ、個人データ、画像データ等のデータを記憶する部材であり、例えばROM(Read Only Memory:読み出し専用メモリ)、RAM(Randam Access Memory:書き換え自在メモリ)、HDD(Hard Disk Drive)、SSD(SolId State Drive)が挙げられる。

0045

マイクユニット203は、少なくとも1本のマイクからなり、マイク制御部204にてAGC(Automatic Gain Control:自動利得制御)やフォーミング等の制御が行われる。

0046

信号処理部205は、マイクからの音声信号に対し周囲雑音除去等の処理を施し、正確に認識処理した後、処理済みの情報を記憶部202に記憶し、音声発生部207から音声を発生させたり、マイクからの音声信号の話者識別処理や感情識別処理を行ったり、処理済みの音声情報を到来方位情報話者識別情報感情識別情報と共に記憶部202に記憶し、同時に表示部209に適合した表示を行ったりする。併せて通信部206や拡張部201より外部に送信し、クラウド処理等により詳細な情報分析を行うことができる。これらの処理により、特定方位に存在する雑音源からの音声情報をブロックアウトしたり、これとは逆に特定方位からの情報のみを記録したりすることができる。

0047

また、記憶部202は多層構成とし、記録すべき音声情報の到来方位や話者識別、感情識別等の関連情報の整理が可能となる。

0048

信号処理部205は、Wi-Fiやブルートゥース登録商標)等により外部機器無線通信するための通信部206とハードワイヤにて外部機器と接続する拡張部201とを有し、外部マイクにより周囲雑音を集音して拡張ポートからかかる受信雑音を入力して周囲雑音の影響を低減したり、USBポートにより外部機器と通信したりすることが可能である。

0049

非可聴音発生部208から超音波を発生し、その反射による話者や壁までの距離を測定することができる。

0050

表示部209のLED210は、リング状のLEDを周回点灯させたり、点滅させたり発光間隔や発光色を変化させたりしてもよい。LCD211は、音声入出力装置100の筐体の天板や側面に設けてもよく、カラーでもモノクロでもよい。

0051

撮像部212は、音声入出力装置100の周囲の状況を撮像する部材であり、例えばCCD(Charge Coupled Device:電荷結合素子カメラが挙げられる。撮像部212による撮像画像動画像でも静止画像でもよい。

0052

個人認証部213は、ユーザの指紋声紋を識別する部材であり、音声入出力装置100の天板に設けられた指紋識別装置であっても、話者の音声から声紋を識別する声紋識別装置(もしくはソフトウェア)であってもよい。

0053

IR部214は、赤外線センサであり、人感センサとして人の侵入監視来客検知に用いることができる。

0054

投影部215は、音声入出力装置100の筐体に設けられ、例えば会議や旅行説明のため、室内のホワイトボードや壁やスクリーンに地図や議題を投影するプロジェクターである。

0055

振動部216は、クライアント側の音声入出力装置100の筐体を振動させることで、ユーザに注意喚起させるものである。振動部216は、例えば、圧電素子出力軸偏芯カムを有するモータ等が挙げられる。

0056

回転部217は、音声入出力装置100の底面に設けられたベースと、ベース上に設けられた回転軸と、回転軸上に設けられ筐体を回転させるモータとで構成される。この回転部217により、投影部215やLCD211の向きを変えることができる。

0057

<クラウド側サーバ及び音声入出力装置のソフトウェア構成
図4に従ってクラウド側サーバ及び音声入出力装置のソフトウェア構成について説明する。

0058

<クラウド側サーバ>
クラウド側サーバ20は、入力手段41、出力手段42、記憶手段43、判断手段44、最適化手段45、翻訳手段49、第1制御手段50、推論手段51、及び通信手段52を備えて構成されている。

0059

最適化手段45は、評価手段46、修正手段47、及び繰返手段48を備える。推論手段51は、感情識別手段51a、方位検出手段51b、話者識別手段51c、収集手段51d、解釈手段51e、管理手段51f、サイズ判断手段51g、ノイズレベル認識手段51h、及び残響レベル認識手段51iを備える。

0060

入力手段41は、必要に応じて情報の入力を行うが、情報の入力を可能とするすべての装置を含むものであり、図2に示した入力装置24によって実現される。

0061

出力手段42は、必要に応じて各種情報を出力する手段であり、図2に示した出力装置23によって実現される。

0062

記憶手段43は、クラウド側サーバの制御プログラム、及び音声情報の管理に関する情報等のデータ等を記憶する手段であり、図2に示したデータベース21によって実現される。制御プログラムには、起動時について能動的な動作、すなわち、例えば人を検知したときに先に挨拶を言うように設定されている。

0063

判断手段44は、室内で音声の内容を分析して応答する際に、クライアント側の音声入出力装置100の処理能力が対応可能な場合にクライアント側の音声入出力装置100で情報処理を行い、クライアント側の音声入出力装置100の処理能力が対応可能でない場合にクラウド側サーバ20が情報処理を行うよう判断する手段であり、図2に示したプロセッサ22によって実現される。

0064

ここで、クライアント側の音声入出力装置100の処理能力とは、プロセッサの演算速度、メモリーサイズ、センサ種類、マイクアレイ、スピーカの数、LEDの数、内蔵カメラ、アプリケーションソフトウェアの数、他社の装置に対応可能なフロントエンド信号処理を含む。

0065

最適化手段45は、識別処理が容易となるような前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を何回でも繰り返すことで最適化する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。

0066

第1の情報とは、アプリに関連するシナリオデザイン、各種手段のうちどの手段を選択し、どの順番でどのように実行し、評価し、結果が不十分な場合に何回でも繰り返すフロー等を含む情報である。

0067

最適化手段45の評価手段46は、タスク処理の結果を評価する手段である。最適化手段45の修正手段47は、結果が十分でない場合に第1の情報を修正する手段である。最適化手段45の繰返手段は、評価手段46から修正手段47までの一連の処理を何回でも繰り返す手段である。

0068

翻訳手段49は、自動的に言語を識別し、例えば日本語から日本語以外の多言語に翻訳し、日本語以外の多言語を日本語に翻訳する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。翻訳手段49は、日本語の音声を日本語以外の多言語の音声に変換したり、日本語以外の多言語の音声を日本語の音声に変換したりする、いわば、通訳機能(もしくは同時通訳機能)を有していてもよい。この場合、音声は音声合成手段により合成されるが、話者の性別、年齢を判断し、老若男女に対応した音声を発音するようにしてもよい。また、翻訳手段49は、翻訳する際はテキスト形式翻訳内容を記録することもできるようになっている。テキストデータは話者と紐づけるようにするのが好ましい。テキストデータは話者に応じて色分けするようにしてもよい。

0069

第1制御手段50は、クラウド側サーバ20の各手段を統括制御する手段であり、図2に示したプロセッサ22によって実現される。

0070

推論手段51は、音声の内容の分析処理、解析処理、及び認識処理を含む情報加工処理を行い、話者の、年齢、性別を含む属性について推論する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。

0071

感情識別手段51aは、話者の感情を識別する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。感情識別手段51aによって識別された話者の感情について話者の発話と紐づけて記録するのが好ましい。

0072

方位検出手段51bは、音声入出力装置100から見た話者の方位を検出する手段であり、図2に示した入力装置24及びプロセッサ22によって実現される。

0073

話者識別手段51cは、話者の音声から話し方の平均的な音響モデルとの差を特徴として抽出する特徴抽出手段により得られた特徴を話者の情報に紐づけて記憶し、新たに入力した音声の特徴を記憶手段43に記憶された話者の情報と照合して話者を識別する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。話者識別に関しては、後述する音声入出力装置100に、撮像する撮像手段73や指紋認証手段72を設けることにより、顔画像認識処理や指紋認証処理によって実現するようにしてもよい。

0074

収集手段51dは、第2の情報をデザインする際に利用したログを収集する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。第2の情報とは、前述したように各種手段のうちどの手段を用い、どの順番で処理し、評価し、結果が十分でない場合に繰り返すフローについての情報をいう。

0075

解釈手段51eは、話者との対話を意図的に解釈する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。

0076

管理手段51fは、話者との対話を管理する手段であり、図2に示したデータベース21及びプロセッサ22によって実現される。

0077

サイズ判断手段51gは、室内のサイズを判断する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。サイズ判断手段51gは、インターフェース26を介してクライアント側の音声入出力装置100において、非可聴音を間欠発音し、周辺からの反射音をマイクで集音し、クライアント側の音声入出力装置100の環境を把握(2次元方位と距離)するようにしてもよい。

0078

ノイズレベル認識手段51hは、室内のノイズレベルを認識する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。ノイズレベル認識手段51hは、クライアント側の音声入出力装置100のマイクで得られた室内の音声からノイズ除去処理前のノイズレベルの情報を、インターフェース26を介して得ることができるようになっている。室内のノイズレベルによってクライアント側の音声入出力装置100の環境が例えば受付か、会議室か、コールセンター室かそれ以外かが判断できる。

0079

残響レベル認識手段51iは、室内の残響レベルを認識する手段であり、図2に示したインターフェース26、及びプロセッサ22によって実現される。残響レベル認識手段51iは、クライアント側の音声入出力装置100のマイクで得られた室内の音声から残響レベルの情報を、インターフェース26を介して得ることができるようになっている。室内の残響レベルによってクライアント側の音声入出力装置100の環境が判断できる。

0080

通信手段52は、クラウド側サーバ20とクライアント側の音声入出力装置100との間でネットワーク10を介して情報を授受するための手段であり、図2に示したインターフェース26によって実現できる。

0081

<音声入出力装置>
クライアント側の音声入出力装置100は、主として入力手段61、出力手段62、前段処理手段63、発光手段64、通信手段65、第2制御手段66、記憶手段67、入出力手段68、及び検知手段69を備えて構成されている。音声入出力装置100は、さらに画像表示手段71、指紋認証手段72、撮像手段73、外部情報入力手段74、振動手段75、及び回転手段76を備えて構成してもよい。

0082

入力手段61は、音声に関する音声情報を入力する手段であり、図3に示すマイクユニット203及びマイク制御部204によって実現される。入力手段61は、ビームフォーミング処理ブラインド音源分離処理残響抑制処理、ノイズ抑圧処理エコーキャンセルバージイン)処理、及び音声区間検出(Voice Activity Detection:VADとも略す。)処理を施す。

0083

出力手段62は、非可聴音(20kHz〜40kHz、好ましくは30kHzの音)を発生する手段であり、図3に示した非可聴音発生部208によって実現される。非可聴音発生部208としては、例えばムービングコイルを用いた超音波スピーカの他、圧電素子を用いた超音波スピーカが挙げられる。

0084

前段処理手段63は、マイクからの音声からノイズを除去したり、エコーをキャンセルしたり、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理を行う手段であり、図3に示したマイク制御部204によって実現される。

0085

発光手段64は、筐体の外周に設けられ、軌道上の一部の発光色が残りの部分の発光色と異なるように周回点灯したり、話者を検知したときに一部の発光色が話者の方向で停止するように発光したりする手段であり、図3に示したLED210によって実現される。

0086

通信手段65は、クライアント側の音声入出力装置100とクラウド側サーバ20との間でネットワーク10を介して情報を授受する手段であり、図3に示した通信部206によって実現される。

0087

第2制御手段66は、音声入出力装置100を統括制御する手段であり、図3に示した信号処理部205によって実現される。信号処理部205としては、例えばプロセッサが挙げられる。

0088

記憶手段67は、音声入出力装置100を統括制御するプログラムを記憶する手段であり、図3に示した記憶部202によって実現される。記憶手段67は、例えばROM、RAM、HDD、SSDが挙げられ、音声情報、個人情報画像情報指紋情報を記憶するように構成してもよい。

0089

入出力手段68は、USBフラッシュメモリやUSB機器を接続するための手段であり、図3に示した拡張部201によって実現される。

0090

検知手段69は、音声入出力装置100に接近したり通過したりする人を検知する手段であり、図3に示したIR部214が挙げられる。検知手段69としては、例えば人感センサが挙げられる。

0091

画像表示手段71は、文字情報を含む静止画像や動画像等の画像を表示する手段であり、図3に示したLCD211によって実現される。

0092

指紋認証手段72は、ユーザを認識する手段であり、図3に示した個人認証部213によって実現される。指紋認証手段72としては、例えば指紋センサが挙げられる。

0093

撮像手段73は、デジタルカメラであり、図3に示した撮像部212によって実現される。

0094

外部情報入力手段74は、外部からのコンテンツを入力する手段であり、図3に示した拡張部201によって実現される。

0095

振動手段75は、音声入出力装置100の筐体を振動させる手段であり、図3に示した振動部216によって実現される。

0096

回転手段76は、音声入出力装置100の筐体を鉛直な中心軸周りに回転(旋回)させる手段であり、図3に示した回転部217によって実現される。

0097

投影手段77は、室内のスクリーン、ホワイトボード、壁面等に画像を投影する手段であり、図3に示した投影部215によって実現される。

0098

<ソフトウェアスタック>
上記に示す分析処理、解析処理、認識処理等の構成について、図5のソフトウェアスタック図の処理内容に従って説明する。処理内容は、利用ログ収集・解析部503、意図解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、マルチマイクアレイ処理技術部510、マルチマイクハードウェア部512、センサ515等から構成される。意図的解釈・対話管理技術部504は、外部システム513や外部コンテンツ514が接続されていてもよい。対話アプリ501−1〜501−nに応じてシナリオデザインが評価される。その際利用ログ収集・解析して継続的に改善する。尚、図では継続的改善に3つの矢印が記載されているが、意図的解釈・対話管理技術部504、音声認識部505、話者識別部506、環境音認識部507、感情分析部508、フロントエンド信号処理技術部509、マイクアレイ処理技術部510、及びマルチマイクハードウェア部512についても、順番を入れ替えたり、一部を省略したりするとともに継続的改善が行われるので矢印が記載されていてもよい。

0099

マルチマイクハードウェア512やフロントエンド信号処理技術部509は他社製品にも柔軟に対応可能である。

0100

マイクアレイ処理技術部510は、ビームフォーミング処理、ブラインド音源分離処理、残響抑制処理等から構成され、フロントエンド信号処理技術部509はノイズ抑圧処理、エコーキャンセル(バージイン)処理、音声区間検出(「VAD」とも略す。)処理等から構成され、音声を文字等に変換する音声認識部505は多言語対応処理、自動言語識別処理、多言語混合処理等から構成され、話者識別部506は事前学習処理クラスタリング処理、さらに話者照合(認証)処理等から構成され、感情分析部508は感情多クラス分類処理、感情マッピング処理抑揚認識処理等から構成され、環境音認識部507は拍手音・笑い声認識処理、重なり検出処理シーン推定処理、さらに異音検査処理は音響官能検査処理、正常/異常音識別処理等から構成される。

0101

以上、音声処理の構成を説明したが、音声処理により、笑い声、拍手、呼び鈴といった特徴のある音の認識、話者識別、性別推定、イントネーション判定等の処理を行う。ただし、上記各処理を可能とするためには、音の前処理として、音声切り出しノイズ抑圧残響抑圧音源定位すなわち指定角度の音を取り出すビームフォーミング等の処理を行うものとする。さらに、上記各処理による認識結果情報は、例えば関連システムと連携して、利用ログ収集・解析技術部503、意図解釈・対話管理技術部504により解析、管理処理を行うものとする。

0102

また、人の話し声を例えばマイクによって収集するだけでなく、例えばスピーカにより、人の聴覚では聞くことができない、例えば超可聴音もしくは非可聴音を発音し、この超可聴音もしくは非可聴音の反射音を例えばマイクによって収音し、この情報を音声処理により解析、認識処理を行い、音声入出力装置100の周辺状況に関し、反射する対象の材質、距離等を把握するものとする。これらを可能とするために、例えばマイクを複数搭載するとともに、例えば水平方向に円形状にマイクを搭載したマイク搭載部(図示せず)を縦方向に、例えば2層搭載することにより、垂直方向の検知を可能とする。また、発音する超可聴音もしくは非可聴音を例えばパルス状に成形し、あるパルス音から次のパルス音との間隔に、ある音声入出力装置100に特有情報音を付加することにより、複数の音声入出力装置100を識別することを可能とする。

0103

ここで、本実施形態によれば、話者識別や感情識別等の音声処理や利用ログ収集、解析、意図解釈等のどの処理を使うか、どの順番で使うか、ノイズを除去してから残響処理を行うか、残響処理を行ってからノイズを除去するのかはユーザが自由に選べるようになっている。

0104

<音声情報処理システム>
図6に示すシステムは、音声入出力装置100と、クラウド側サーバ20と、を有するシステムである。

0105

音声入出力装置100は、多数の貫通孔が形成された筐体101の天板外周部に配置されたLED(Light Emitting Diode:発光ダイオード)リング102と、筐体101の同一平面の周面に円周状に配置された複数(例えば16個であるが限定されない。)のPDMマイク103−1〜103−16と、筐体101内に下端向きに配置されたスピーカ群スコーカ104S、ツイータ104S)と、筐体101の底面に上向きに凸の円錐形状の反射板105と、を備える装置である。筐体101内には各種回路基板が設けられている。106は電源ランプとしてのLEDである。107は電源コードであるが、バッテリー搭載可能である。

0106

筐体101は、図では円筒状であるが限定されず角柱状であっても、円錐状であっても、角錐台状であっても、円錐台状であってもよい。

0107

LEDリング102は多数の3色LED多色発光型のデバイスであり、環状に形成されたものである。LEDリング102は、一部の数個隣接配置されたLEDと他の残りの部分のLEDとが異なる発光色で発光したり、円周軌道にそって回転したり停止したりし、周回点灯したりすることが可能である。例えば、話者方向を数個のLEDで白色点灯し、残りのLEDを青色点灯することが挙げられるが、これに限定されるものではなく、点灯の代わりに点滅させたり、インジケータのように話者の音声の強度に応じて照度を変化させたりしてもよい。

0108

PDMマイク103−1〜103−16は、筐体101の同一平面の周面に16個等間隔で配置されているため、反射音より音源の左右方向の識別が20度の範囲で可能であり、音声入出力装置100の近傍にいる音源としての人の音声を集音することが可能である。

0109

スコーカ104Sは通常の音声を発生するスピーカであり、ツイータ104Tは非可聴音(超音波)を発生するスピーカである。反射板105は、スコーカ104S及びツイータ104Sからの音声や非可聴音を筐体101の外側に放射状に反射させる部材である。ツイータ104からの非可聴音は反射板105で反射され筐体101の外部に出射して話者に反射した場合には筐体101に向かい、PDMマイク103−1〜103−16で集音することでレーダー(もしくはソナー)のように機能させることができる。この非可聴音はパルス変調されていてもよい。
クラウドシステム300は、複数のサーバを有するサーバ群301からなり、音声入出力装置100のディープラーニング処理等のソフトウェア処理を行ってもよい。

0110

<動作1>
図7に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。

0111

本システムは、予めユーザが第1の情報としてのシナリオを設定可能である。シナリオとは、例えば、話者と音声入出力装置100との対話に対してどのように応答するかを示すストーリーである。

0112

まずユーザがクラウド側サーバ20で複数情報(例えば、第1の情報、第2の情報、第3の情報)を作成する(ステップS10)。

0113

音声入出力装置100の電源スイッチがオンされると(ステップS11)、プロセッサ22は音声入出力装置100の外部から、例えば図示しないスマートフォンでモード設定信号が有るか否か判断する(ステップS12)。

0114

プロセッサ22は、外部からモード設定信号が有ると判断した場合(ステップS12/YES)、コールセンターモード、受付モード会議モード、…のうちのいずれかのモードが設定され(ステップS13)、外部からモード設定信号が無いと判断した場合(ステップS12/NO)、ステップS14に進む。

0115

ステップS14では、プロセッサ22が、クライアント側の音声入出力装置100の処理能力が十分か否かを判断し、音声入出力装置10の処理能力が十分であると判断した場合(ステップS14/YES)、クライアント側の音声入出力装置100で処理し(ステップS15)、クライアント側の音声入出力装置100の処理能力が十分でないと判断した場合(ステップS14/NO)クラウド側で処理し(ステップS16)、ステップS17に進む。

0116

プロセッサ22は、最適化済か否か判断し(ステップS17)、最適化済でない場合(ステップS17/NO)、第1の情報を選択し(ステップS18)、識別処理が容易となるような前段処理を実行する。前段処理は、第1の情報として、例えば、ビームフォーミング、ブラインド音源分離、及び残響抑制のいずれかから少なくとも一つ選択して、順番を決定し、実行する。ノイズ抑圧、エコーキャンセル、及び音声区間検出から適宜選択して、順番を決定し、実行するものとする(ステップS19)。

0117

次にタスクの評価(ステップS20)を行い、評価が十分か否かを判断し(ステップS21)、評価が十分でないと判断した場合(ステップS21/NO)、ステップS10に戻り、クラウド側で第1の情報を修正し、ステップS10〜ステップS23を何回でも繰り返す。

0118

プロセッサ22は、ステップS21でタスクの評価が十分であると判断した場合(ステップS21/YES)、第2の情報を選択し(ステップS22)、識別処理を実行する。識別処理は、第2の情報として、例えば、音声認識、話者識別、感情分析、及び環境音認識のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする(ステップS23)。

0119

次にタスクの評価(ステップS24)を行い、評価が十分か否かを判断し(ステップS25)、評価が十分でないと判断した場合(ステップS25/NO)、ステップS10に戻り、クラウド側で第2の情報を修正し、ステップS10〜ステップS24を何回でも繰り返す。

0120

プロセッサ22は、ステップS24でタスクの評価が十分であると判断した場合(ステップS24/YES)、第3の情報を選択し(ステップS26)、対話アプリを実行する。対話アプリについては、第3の情報として、利用ログ収集、解析、意図的解釈、及び対話管理のいずれかから少なくとも一つ選択して、順番を決定し、実行するものとする(ステップS27)。

0121

次に、タスクの評価(ステップS28)を行い、評価が十分か否かを判断し(ステップS29)、評価が十分でないと判断した場合(ステップS29/NO)、ステップS10に戻り、クラウド側で第3の情報を修正し、ステップS10〜ステップS28を何回でも繰り返す。

0122

プロセッサ22は、最適化が完了すると(ステップS30.)、アプリを実行し(ステップS31)、終了しない場合(ステップS32/NO)、ステップS12に戻り、終了する場合(ステップS32/YES)、終了する。この場合、電源スイッチが自動的オフになるように構成してもよい。

0123

ここで、図7に示したフローチャートは一実施例に過ぎず、限定されるものではない。例えば、室内環境が同一であって、話者の数に変更があったり、室内環境に変更があっても話者や人数に変更がなかったり、使用するモードが変更になったり、使用するマイクの数やグレードに変更があったりしても、適宜ステップS18〜ステップS21と、ステップS22〜ステップS25と、ステップS26〜ステップS29とを入れ替えたり、一部を省略したりすることで継続的改善が施されるとともに柔軟な対応が可能である。

0124

例えば、図7に示したフローチャートに基づいて処理する場合、マイクユニットのマイクが1本の場合にはビームフォーミングやブラインド音源分離は行わず、また、マイクの性能が高性能でない場合にはノイズ抑圧は1回だけ行い、マイクユニットのマイクが多数、例えば16個以上の場合にはビームフォーミンツやブラインド音源処理を行い、ノイズ抑圧やエコーキャンセル等の処理を行うようになっている。

0125

<動作2>
図8に示すフローチャートの動作の主体は、クラウド側サーバ20のプロセッサ22である。図8に示したフローチャートの図7に示したフローチャートとの相違点は、ステップS18〜ステップS21と、ステップS26〜ステップS29とを入れ替えた点である。これは、クラウド側サーバで処理した場合に図7に示したフローチャートで処理しても結果が不十分な場合に行う処理の一例である。このような処理を行っても継続的改善が施されるとともに柔軟な対応が可能である。

0126

<動作3>
図9に示したフローチャートは、音声入出力装置100の使用が終了し、電源スイッチをオフにした状態で受付、会議室、もしくはコールセンターのオペレータの机の上に載置し、翌営業日に再度電源スイッチをオンにした場合について想定したものである。

0127

電源スイッチがオンされると(ステップS91)、プロセッサ22は、室内環境、話者の変更、人数及びモード変更が無いか否かを判断し(ステップS92)、変更が無い場合(ステップS92/YES)、アプリを実行する(ステップS93)。

0128

プロセッサ22は、アプリを実行した後終了か否か判断し(ステップS94)、終了の場合には終了し(ステップS94/YES)、終了しない場合にはステップS92に戻る(ステップS94/NO)。

0129

プロセッサ22は、室内環境、話者の変更、人数及びモード変更が有った場合(ステップS92/NO)、クライアント側の音声入出力装置100の処理能力が十分か否かを判断する(ステップS95)。

0130

プロセッサ22は、クライアント側の音声入出力装置100の処理能力が十分であると判断した場合(ステップS95/YES)、音声入出力装置100で処理し(ステップS96)、クライアント側の音声入出力装置100の処理能力が十分でないと判断した場合(ステップS96/NO)、クラウド側で処理し(ステップS97)、ステップS98に進む。

0131

プロセッサ22は、モード設定信号が有るか否か判断し(ステップS98)、外部からモード設定信号が有ると判断した場合(ステップS98/YES)、コールセンターモード、受付モード、会議モード、…のうちのいずれかのモードが設定され(ステップS99)、外部からモード設定信号が無いと判断した場合(ステップS98/NO)、ステップS14(図7参照。)に進む。

0132

ステップS92の処理により、無駄な処理が省略され効率が向上する。

0133

以上で説明した本発明に係る音声入出力装置100は、コンピュータで処理を実行させる制御プログラムによって実現されている。一例として、プログラムにより本発明の機能を実現する場合の説明を以下で行う。

0134

コンピュータが読み取り可能なプログラムであって、
コンピュータを、
音声に関する音声情報を入力する入力手段、
入力された音声情報に対し、識別処理が容易となるような前段処理を行う前段処理手段、
前段処理手段により処理された音声情報に所定の加工を施し、第1の情報に基づいてタスク処理を行い、タスク処理の評価が十分でない場合に第1の情報を修正し、評価が十分になるまで一連の処理を繰り返すことで最適化する最適化手段、
として機能させるための音声情報処理システムのプログラムが挙げられる。

0135

これにより、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明にかかる音声入出力装置100を実現することができる。

0136

このようなプログラムは、コンピュータに読み取り可能な記録媒体に記憶されていてもよい。

0137

<記録媒体>
ここで、記録媒体としては、例えばCD-ROMフレキシブルディスクFD)、CD−R等のコンピュータで読み取り可能な記録媒体、フラッシュメモリ、RAM、ROM、FeRAM等の半導体メモリやHDDが挙げられる。

0138

CD−ROMは、Compact Disc Read Only Memoryの略である。フレキシブルディスクは、Flexible Diskを意味する。CD-Rは、CD Recordableの略である。FeRAMは、Ferroelectric RAMの略で、強誘電体メモリを意味する。HDDは、Hard Disc Driveの略である。

実施例

0139

尚、上述した実施の形態は、本発明の好適な実施の形態の一例を示すものであり、本発明はそれに限定されることなく、その要旨を逸脱しない範囲内において、種々変形実施が可能である。

0140

本発明は、主に音声による情報をもとに対象の状況を、詳細に知ることができるだけでなく、将来にわたり、発生が予測される事項について認識可能とした上で、関係者全般に対し情報を提供することを可能とすることで、主に音声による状況把握を必要とする場面に適用可能である。

0141

10 ・・・ネットワーク
20 ・・・クラウド側サーバ
21 ・・・データベース(DB)
22 ・・・プロセッサ
23 ・・・出力装置
24 ・・・入力装置
26 ・・・インターフェース
100 ・・・音声入出力装置100
101 ・・・筐体
102 ・・・LEDリング
103−1〜103−16 ・・・PDMマイク
104 ・・・スピーカ群
104S ・・・スコーカ
104T ・・・ツイータ
105 ・・・反射板
106 ・・・電源ランプ
107 ・・・電源コード
201 ・・・拡張部
202 ・・・記憶部
203 ・・・マイクユニット
204 ・・・マイク制御部
205 ・・・信号処理部
206 ・・・通信部
207 ・・・音声発生部
208 ・・・非可聴音発生部
209 ・・・表示部

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ