図面 (/)

技術 エージェント装置、エージェント装置の制御方法、およびプログラム

出願人 本田技研工業株式会社
発明者 安原真也大井裕介
出願日 2019年2月14日 (1年9ヶ月経過) 出願番号 2019-024471
公開日 2020年8月31日 (2ヶ月経過) 公開番号 2020-135110
状態 未査定
技術分野 可聴帯域変換器の回路等 車両用電気・流体回路 音声入出力
主要キーワード 中間辺 左側後部座席 右側後部座席 後部座席付近 運転者近傍 車両情報装置 DS側 混合ガウス分布モデル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年8月31日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (15)

課題

より自然な使用感エージェント機能を提供することができるエージェント装置、エージェント装置の制御方法およびプログラムを提供する。

解決手段

エージェント装置100は、複数のエージェント機能部150−1〜3と、複数のスピーカを含むスピーカユニット30と、音声制御部118を備える。複数のエージェント機能部のそれぞれは、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する。音声制御部は、複数のエージェント機能部のそれぞれに対し、音声の音像定位させる位置を設定し、設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する。

概要

背景

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている(例えば、特許文献1参照)。

概要

より自然な使用感でエージェント機能を提供することができるエージェント装置、エージェント装置の制御方法およびプログラムを提供する。エージェント装置100は、複数のエージェント機能部150−1〜3と、複数のスピーカを含むスピーカユニット30と、音声制御部118を備える。複数のエージェント機能部のそれぞれは、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する。音声制御部は、複数のエージェント機能部のそれぞれに対し、音声の音像定位させる位置を設定し、設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する。

目的

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

車両の乗員の発話に応じて、音声による応答を含むサービスを提供する複数のエージェント機能部と、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像定位させる位置を設定し、前記設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する音声制御部と、を備えるエージェント装置

請求項2

前記音声制御部は、前記複数のエージェント機能部のうち使用頻度の高いエージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が助手席である位置に定位させる、請求項1記載のエージェント装置。

請求項3

前記複数のエージェント機能部は、車両機器を制御する権限が付与された車両エージェント機能部を含み、前記音声制御部は、前記車両エージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が助手席である位置に定位させる、請求項1記載のエージェント装置。

請求項4

前記複数のエージェント機能部は、車両機器を制御する権限が付与された車両エージェント機能部を含み、前記音声制御部は、前記車両エージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が運転席である位置に定位させる、請求項1または2記載のエージェント装置。

請求項5

前記音声制御部は、前記複数のエージェント機能部のうち使用頻度の低いエージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が後部座席である位置に定位させる、請求項1から4のうちいずれか1項記載のエージェント装置。

請求項6

前記音声制御部は、乗員の着座位置を認識する着座位置認識部の認識結果に基づいて、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像を定位させる位置を設定する、請求項1から5のうちいずれか1項記載のエージェント装置。

請求項7

前記音声制御部は、前記着座位置認識部が、乗員が各座席に着座していることを認識した場合、前記複数のエージェント機能部のそれぞれによる前記音声の音像を定位させる位置を、車室の天井付近に設定する、請求項6記載のエージェント装置。

請求項8

少なくとも運転者顔向きを認識する顔向き認識部の認識結果を参照し、前記運転者が顔を向けている位置に音像が定位されているエージェント機能部を起動させる起動エージェント選択部を更に備える、請求項1から7のうちいずれか1項記載のエージェント装置。

請求項9

コンピュータが、複数のエージェント機能部のうちいずれかを起動させ、前記起動したエージェント機能部の機能として、車両の乗員の発話に応じて、音声による応答を含むサービスを提供し、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像を定位させる位置を設定し、前記設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する、エージェント装置の制御方法

請求項10

コンピュータに、複数のエージェント機能部のうちいずれかを起動させる処理と、前記起動したエージェント機能部の機能として、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する処理と、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像を定位させる位置を設定し、前記設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する処理と、を実行させるプログラム

技術分野

0001

本発明は、エージェント装置、エージェント装置の制御方法、およびプログラムに関する。

背景技術

0002

従来、車両の乗員と対話を行いながら、乗員の要求に応じた運転支援に関する情報や車両の制御、その他のアプリケーション等を提供するエージェント機能に関する技術が開示されている(例えば、特許文献1参照)。

先行技術

0003

特開2006−335231号公報

発明が解決しようとする課題

0004

近年では、複数のエージェント機能を車両に搭載することについて実用化が進められているが、その場合の音声出力態様について十分に検討されていなかった。このため、従来の技術では、自然な使用感を乗員に提供することができない場合があった。

0005

本発明は、このような事情を考慮してなされたものであり、より自然な使用感でエージェント機能を提供することができるエージェント装置、エージェント装置の制御方法、およびプログラムを提供することを目的の一つとする。

課題を解決するための手段

0006

この発明に係るエージェント装置、エージェント装置の制御方法、およびプログラムは、以下の構成を採用した。
(1):この発明の一態様に係るエージェント装置は、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する複数のエージェント機能部と、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像定位させる位置を設定し、前記設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する音声制御部と、を備えるものである。

0007

(2):上記(1)の態様において、前記音声制御部は、前記複数のエージェント機能部のうち使用頻度の高いエージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が助手席である位置に定位させるものである。

0008

(3):上記(1)の態様において、前記複数のエージェント機能部は、車両機器を制御する権限が付与された車両エージェント機能部を含み、前記音声制御部は、前記車両エージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が助手席である位置に定位させるものである。

0009

(4):上記(1)または(2)の態様において、前記複数のエージェント機能部は、車両機器を制御する権限が付与された車両エージェント機能部を含み、前記音声制御部は、前記車両エージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が運転席である位置に定位させるものである。

0010

(5):上記(1)〜(4)の態様において、前記音声制御部は、前記複数のエージェント機能部のうち使用頻度の低いエージェント機能部による音声の音像を、前記車両の座席のうち最も近い座席が後部座席である位置に定位させるものである。

0011

(6):上記(1)〜(5)の態様において、前記音声制御部は、乗員の着座位置を認識する着座位置認識部の認識結果に基づいて、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像を定位させる位置を設定するものである。

0012

(7):上記(6)の態様において、前記音声制御部は、前記着座位置認識部が、乗員が各座席に着座していることを認識した場合、前記複数のエージェント機能部のそれぞれによる前記音声の音像を定位させる位置を、車室の天井付近に設定するものである。

0013

(8):上記(1)〜(7)の態様において、少なくとも運転者顔向きを検知する顔向き検知部の検知結果を参照し、前記運転者が顔を向けている位置に音像が定位されているエージェント機能部を起動させる起動エージェント選択部を更に備えるものである。

0014

(9):本発明の他の態様に係るエージェント装置の制御方法は、コンピュータが、複数のエージェント機能部のうちいずれかを起動させ、前記起動したエージェント機能部の機能として、車両の乗員の発話に応じて、音声による応答を含むサービスを提供し、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像を定位させる位置を設定し、前記設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御するものである。

0015

(10):本発明の他の態様に係るプログラムは、コンピュータに、複数のエージェント機能部のうちいずれかを起動させる処理と、前記起動したエージェント機能部の機能として、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する処理と、前記複数のエージェント機能部のそれぞれに対し、前記音声の音像を定位させる位置を設定し、前記設定した位置に音像を定位させるように複数のスピーカの出力をそれぞれ制御する処理と、を実行させるものである。

発明の効果

0016

(1)〜(10)の態様によれば、より自然な使用感でエージェント機能を提供することができる。

図面の簡単な説明

0017

エージェント装置100を含むエージェントシステム1の構成図である。
第1実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。
表示・操作装置20の配置例を示す図である。
スピーカユニット30の配置例を示す図である。
音像が定位する位置が定まる原理について説明するための図である。
エージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。
音像定位位置の第1例を示す図である。
音像定位位置の第2例を示す図である。
音像定位位置の第3例を示す図である。
音像定位位置の第4例を示す図である。
音像定位位置の第5例を示す図である。
音像定位位置の第6例を示す図である。
第2実施形態に係るエージェント装置100Aの構成と、車両Mに搭載された機器とを示す図である。
起動エージェント選択部120の動作について説明するための図である。

実施例

0018

以下、図面を参照し、本発明のエージェント装置、エージェント装置の制御方法、およびプログラムの実施形態について説明する。エージェント装置は、エージェントシステムの一部または全部を実現する装置である。以下では、エージェント装置の一例として、車両(以下、車両M)に搭載され、複数種類のエージェント機能を備えたエージェント装置について説明する。エージェント機能とは、例えば、車両Mの乗員と対話をしながら、乗員の発話の中に含まれる要求(コマンド)に基づく各種の情報提供を行ったり、ネットワークサービス仲介したりする機能である。複数種類のエージェントはそれぞれに果たす機能、処理手順、制御、出力態様・内容がそれぞれ異なってもよい。また、エージェント機能の中には、車両内の機器(例えば運転制御車体制御に関わる機器)の制御等を行う機能を有するものがあってよい。

0019

エージェント機能は、例えば、乗員の音声を認識する音声認識機能(音声をテキスト化する機能)に加え、自然言語処理機能(テキストの構造や意味を理解する機能)、対話管理機能、ネットワークを介して他装置を検索し、或いは自装置が保有する所定のデータベースを検索するネットワーク検索機能等を統合的に利用して実現される。これらの機能の一部または全部は、AI(Artificial Intelligence)技術によって実現されてよい。また、これらの機能を行うための構成の一部(特に、音声認識機能や自然言語処理解釈機能)は、車両Mの車載通信装置または車両Mに持ち込まれた汎用通信装置と通信可能なエージェントサーバ(外部装置)に搭載されてもよい。以下の説明では、構成の一部がエージェントサーバに搭載されており、エージェント装置とエージェントサーバが協働してエージェントシステムを実現することを前提とする。また、エージェント装置とエージェントサーバが協働して仮想的に出現させるサービス提供主体(サービス・エンティティ)をエージェントと称する。

0020

<全体構成>
図1は、エージェント装置100を含むエージェントシステム1の構成図である。エージェントシステム1は、例えば、エージェント装置100と、複数のエージェントサーバ200−1、200−2、200−3、…とを備える。符号の末尾ハイフン以下数字は、エージェントを区別するための識別子であるものとする。いずれのエージェントサーバであるかを区別しない場合、単にエージェントサーバ200と称する場合がある。図1では3つのエージェントサーバ200を示しているが、エージェントサーバ200の数は2つであってもよいし、4つ以上であってもよい。それぞれのエージェントサーバ200は、互いに異なるエージェントシステムの提供者運営するものである。従って、本発明におけるエージェントは、互いに異なる提供者により実現されるエージェントである。提供者としては、例えば、自動車メーカーネットワークサービス事業者電子商取引事業者携帯端末販売者製造者などが挙げられ、任意の主体(法人、団体、個人等)がエージェントシステムの提供者となり得る。

0021

エージェント装置100は、ネットワークNWを介してエージェントサーバ200と通信する。ネットワークNWは、例えば、インターネットセルラー網、Wi−Fi網、WAN(Wide Area Network)、LAN(Local Area Network)、公衆回線電話回線無線基地局などのうち一部または全部を含む。ネットワークNWには、各種ウェブサーバ300が接続されており、エージェントサーバ200またはエージェント装置100は、ネットワークNWを介して各種ウェブサーバ300からウェブページを取得することができる。

0022

エージェント装置100は、車両Mの乗員と対話を行い、乗員からの音声をエージェントサーバ200に送信し、エージェントサーバ200から得られた回答を、音声出力画像表示の形で乗員に提示する。

0023

<第1実施形態>
[車両]
図2は、第1実施形態に係るエージェント装置100の構成と、車両Mに搭載された機器とを示す図である。車両Mには、例えば、一以上のマイク10と、表示・操作装置20と、スピーカユニット30と、ナビゲーション装置40と、車両機器50と、車載通信装置60と、乗員認識装置80と、エージェント装置100とが搭載される。また、スマートフォンなどの汎用通信装置70が車室内に持ち込まれ、通信装置として使用される場合がある。これらの装置は、CAN(Controller Area Network)通信線等の多重通信線シリアル通信線無線通信網等によって互いに接続される。なお、図2に示す構成はあくまで一例であり、構成の一部が省略されてもよいし、更に別の構成が追加されてもよい。

0024

マイク10は、車室内で発せられた音声を収集する収音部である。表示・操作装置20は、画像を表示すると共に、入力操作を受付可能な装置(或いは装置群)である。表示・操作装置20は、例えば、タッチパネルとして構成されたディスプレイ装置を含む。表示・操作装置20は、更に、HUD(Head Up Display)や機械式入力装置を含んでもよい。スピーカユニット30は、例えば、車室内の互いに異なる位置に配設された複数のスピーカ(音出力部)を含む。表示・操作装置20は、エージェント装置100とナビゲーション装置40とで共用されてもよい。これらの詳細については後述する。

0025

ナビゲーション装置40は、ナビMI(Human machine Interface)と、GPS(Global Positioning System)などの位置測位装置と、地図情報を記憶した記憶装置と、経路探索などを行う制御装置ナビゲーションコントローラ)とを備える。マイク10、表示・操作装置20、およびスピーカユニット30のうち一部または全部がナビHMIとして用いられてもよい。ナビゲーション装置40は、位置測位装置によって特定された車両Mの位置から、乗員によって入力された目的地まで移動するための経路ナビ経路)を探索し、経路に沿って車両Mが走行できるように、ナビHMIを用いて案内情報を出力する。経路探索機能は、ネットワークNWを介してアクセス可能ナビゲーションサーバにあってもよい。この場合、ナビゲーション装置40は、ナビゲーションサーバから経路を取得して案内情報を出力する。なお、エージェント装置100は、ナビゲーションコントローラを基盤として構築されてもよく、その場合、ナビゲーションコントローラとエージェント装置100は、ハードウェア上は一体に構成される。

0026

車両機器50は、例えば、エンジン走行用モータなどの駆動力出力装置、エンジンの始動モータドアロック装置ドア開閉装置、窓、窓の開閉装置及び窓の開閉制御装置シートシート位置の制御装置、ルームミラー及びその角度位置制御装置車両内外照明装置及びその制御装置、ワイパーデフォッガー及びそれぞれの制御装置、方向指示灯及びその制御装置、空調装置走行距離やタイヤ空気圧の情報や燃料残量情報などの車両情報装置などを含む。

0027

車載通信装置60は、例えば、セルラー網やWi−Fi網を利用してネットワークNWにアクセス可能な無線通信装置である。

0028

乗員認識装置80は、例えば、着座センサ車室内カメラ画像認識装置などを含む。着座センサは座席の下部に設けられた圧力センサシートベルトに取り付けられた張力センサなどを含む。車室内カメラは、車室内に設けられたCCD(Charge Coupled Device)カメラやCMOS(Complementary Metal Oxide Semiconductor)カメラである。画像認識装置は、車室内カメラの画像を解析し、座席ごとの乗員の有無、顔向きなどを認識する。本実施形態において、乗員認識装置80は、着座位置認識部の一例である。

0029

図3は、表示・操作装置20の配置例を示す図である。表示・操作装置20は、例えば、第1ディスプレイ22と、第2ディスプレイ24と、操作スイッチASSY26とを含む。表示・操作装置20は、更に、HUD28を含んでもよい。

0030

車両Mには、例えば、ステアリングホイールSWが設けられた運転席DSと、運転席DSに対して車幅方向(図中Y方向)に設けられた助手席ASとが存在する。第1ディスプレイ22は、インストルメントパネルにおける運転席DSと助手席ASとの中間辺りから、助手席ASの左端部に対向する位置まで延在する横長形状のディスプレイ装置である。第2ディスプレイ24は、運転席DSと助手席ASとの車幅方向に関する中間あたり、且つ第1ディスプレイの下方に設置されている。例えば、第1ディスプレイ22と第2ディスプレイ24は、共にタッチパネルとして構成され、表示部としてLCD(Liquid Crystal Display)や有機EL(Electroluminescence)、プラズマディスプレイなどを備えるものである。操作スイッチASSY26は、ダイヤルスイッチボタン式スイッチなどが集積されたものである。表示・操作装置20は、乗員によってなされた操作の内容をエージェント装置100に出力する。第1ディスプレイ22または第2ディスプレイ24が表示する内容は、エージェント装置100によって決定されてよい。

0031

図4は、スピーカユニット30の配置例を示す図である。スピーカユニット30は、例えば、スピーカ30A〜30Hを含む。スピーカ30Aは、運転席DS側の窓柱(いわゆるAピラー)に設置されている。スピーカ30Bは、運転席DSに近いドアの下部に設置されている。スピーカ30Cは、助手席AS側の窓柱に設置されている。スピーカ30Dは、助手席ASに近いドアの下部に設置されている。スピーカ30Eは、右側後部座席BS1側に近いドアの下部に設置されている。スピーカ30Fは、左側後部座席BS2側に近いドアの下部に設置されている。スピーカ30Gは、第2ディスプレイ24の近傍に設置されている。スピーカ30Hは、車室の天井ルーフ)に設置されている。

0032

係る配置において、例えば、専らスピーカ30Aおよび30Bに音を出力させた場合、音像は運転席DS付近に定位することになる。また、専らスピーカ30Cおよび30Dに音を出力させた場合、音像は助手席AS付近に定位することになる。また、専らスピーカ30Eに音を出力させた場合、音像は右側後部座席BS1付近に定位することになる。また、専らスピーカ30Fに音を出力させた場合、音像は左側後部座席BS2付近に定位することになる。また、専らスピーカ30Gに音を出力させた場合、音像は車室の前方付近に定位することになり、専らスピーカ30Hに音を出力させた場合、音像は車室の上方付近に定位することになる。これに限らず、スピーカユニット30は、ミキサーアンプを用いて各スピーカの出力する音の配分を調整することで、車室内の任意の位置に音像を定位させることができる。

0033

[エージェント装置]
図2戻り、エージェント装置100は、管理部110と、エージェント機能部150−1、150−2、150−3と、ペアリングアプリ実行部152とを備える。管理部110は、例えば、音響処理部112と、エージェントごとWU(Wake Up)判定部114と、表示制御部116と、音声制御部118とを備える。いずれのエージェント機能部であるか区別しない場合、単にエージェント機能部150と称する。3つのエージェント機能部150を示しているのは、図1におけるエージェントサーバ200の数に対応させた一例に過ぎず、エージェント機能部150の数は、2つであってもよいし、4つ以上であってもよい。図2に示すソフトウェア配置は説明のために簡易に示しており、実際には、例えば、エージェント機能部150と車載通信装置60の間に管理部110が介在してもよいように、任意に改変することができる。

0034

エージェント装置100の各構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶装置(非一過性記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

0035

管理部110は、OS(Operating System)やミドルウェアなどのプログラムが実行されることで機能する。

0036

管理部110の音響処理部112は、エージェントごとに予め設定されているウエイクアップワードを認識するのに適した状態になるように、入力された音に対して音響処理を行う。

0037

エージェントごとWU判定部114は、エージェント機能部150−1、150−2、150−3のそれぞれに対応して存在し、エージェントごとに予め定められているウエイクアップワードを認識する。エージェントごとWU判定部114は、音響処理が行われた音声(音声ストリーム)から音声の意味を認識する。まず、エージェントごとWU判定部114は、音声ストリームにおける音声波形振幅零交差に基づいて音声区間を検出する。エージェントごとWU判定部114は、混合ガウス分布モデルGMM;Gaussian mixture model) に基づくフレーム単位音声識別および非音声識別に基づく区間検出を行ってもよい。

0038

次に、エージェントごとWU判定部114は、検出した音声区間における音声をテキスト化し、文字情報とする。そして、エージェントごとWU判定部114は、テキスト化した文字情報がウエイクアップワードに該当するか否かを判定する。ウエイクアップワードであると判定した場合。エージェントごとWU判定部114は、対応するエージェント機能部150を起動させる。なお、エージェントごとWU判定部114に相当する機能がエージェントサーバ200に搭載されてもよい。この場合、管理部110は、音響処理部112によって音響処理が行われた音声ストリームをエージェントサーバ200に送信し、エージェントサーバ200がウエイクアップワードであると判定した場合、エージェントサーバ200からの指示に従ってエージェント機能部150が起動する。なお、各エージェント機能部150は、常時起動しており且つウエイクアップワードの判定を自ら行うものであってよい。この場合、管理部110がエージェントごとWU判定部114を備える必要はない。

0039

エージェント機能部150は、対応するエージェントサーバ200と協働してエージェントを出現させ、車両の乗員の発話に応じて、音声による応答を含むサービスを提供する。エージェント機能部150には、車両機器50を制御する権限が付与されたものが含まれてよい。また、エージェント機能部150には、ペアリングアプリ実行部152を介して汎用通信装置70と連携し、エージェントサーバ200と通信するものがあってよい。例えば、エージェント機能部150−1には、車両機器50を制御する権限が付与されている。エージェント機能部150−1は、車載通信装置60を介してエージェントサーバ200−1と通信する。エージェント機能部150−2は、車載通信装置60を介してエージェントサーバ200−2と通信する。エージェント機能部150−3は、ペアリングアプリ実行部152を介して汎用通信装置70と連携し、エージェントサーバ200−3と通信する。ペアリングアプリ実行部152は、例えば、Bluetooth(登録商標)によって汎用通信装置70とペアリングを行い、エージェント機能部150−3と汎用通信装置70とを接続させる。なお、エージェント機能部150−3は、USB(Universal Serial Bus)などを利用した有線通信によって汎用通信装置70に接続されるようにしてもよい。以下、エージェント機能部150−1とエージェントサーバ200−1が協働して出現させるエージェントをエージェント1、エージェント機能部150−2とエージェントサーバ200−2が協働して出現させるエージェントをエージェント2、エージェント機能部150−3とエージェントサーバ200−3が協働して出現させるエージェントをエージェント3と称する場合がある。

0040

表示制御部116は、エージェント機能部150からの指示に応じて第1ディスプレイ22または第2ディスプレイ24に画像を表示させる。以下では、第1ディスプレイ22を使用するものとする。表示制御部116は、一部のエージェント機能部150の制御により、例えば、車室内で乗員とのコミュニケーションを行う擬人化されたエージェントの画像(以下、エージェント画像と称する)を生成し、生成したエージェント画像を第1ディスプレイ22に表示させる。エージェント画像は、例えば、乗員に対して話しかける態様の画像である。エージェント画像は、例えば、少なくとも観者(乗員)によって表情や顔向きが認識される程度の顔画像を含んでよい。例えば、エージェント画像は、顔領域の中に目やに擬したパーツが表されており、顔領域の中のパーツの位置に基づいて表情や顔向きが認識されるものであってよい。また、エージェント画像は、立体的感じられ、観者によって三次元空間における頭部画像を含むことでエージェントの顔向きが認識されたり、本体(胴体手足)の画像を含むことで、エージェントの動作や振る舞い、姿勢等が認識されるものであってもよい。また、エージェント画像は、アニメーション画像であってもよい。

0041

音声制御部118は、エージェント機能部150からの指示に応じて、スピーカユニット30に含まれるスピーカのうち一部または全部に音声を出力させる。音声制御部118は、複数のスピーカユニット30を用いて、エージェント画像の表示位置に対応する位置にエージェント音声の音像を定位させる制御を行ってもよい。エージェント画像の表示位置に対応する位置とは、例えば、エージェント画像がエージェント音声を喋っていると乗員が感じると予測される位置であり、具体的には、エージェント画像の表示位置付近(例えば、2〜3[cm]以内)の位置である。また、音像が定位するとは、例えば、乗員の左右のに伝達される音の大きさを調節することにより、乗員が感じる音源の空間的な位置を定めることである。

0042

図5は、音像が定位する位置が定まる原理について説明するための図である。図5では、説明を簡略化するために、上述したスピーカ30B、30D、および30Gを用いる例を示しているが、スピーカユニット30に含まれる任意のスピーカが使用されてよい。音声制御部118は、各スピーカに接続されたアンプ(AMP)32およびミキサー34を制御して音像を定位させる。例えば、図5に示す空間位置MP1に音像を定位させる場合、音声制御部118は、アンプ32およびミキサー34を制御することにより、スピーカ30Bに最大強度の5%の出力を行わせ、スピーカ30Dに最大強度の80%の出力を行わせ、スピーカ30Gに最大強度の15%の出力を行わせる。この結果、乗員Pの位置からは、図5に示す空間位置MP1に音像が定位しているように感じることになる。

0043

また、図5に示す空間位置MP2に音像を定位させる場合、音声制御部118は、アンプ32およびミキサー34を制御することにより、スピーカ30Bに最大強度の45%の出力を行わせ、スピーカ30Dに最大強度の45%の出力を行わせ、スピーカ30Gに最大強度の45%の出力を行わせる。この結果、乗員Pの位置からは、図5に示す空間位置MP2に音像が定位しているように感じることになる。このように、車室内に設けられる複数のスピーカとそれぞれのスピーカから出力される音の大きさを調整することで、音像が定位される位置を変化させることができる。なお、より詳細には、音像の定位する位置は、音源が元々保有している音特性や、車室内環境の情報、頭部伝達関数(HRTF;Head-related transfer function)に基づいて定まるため、音声制御部118は、予め官能試験などで得られた最適な出力配分でスピーカユニット30を制御することで、音像を所定の位置に定位させる。

0044

[エージェントサーバ]
図6は、エージェントサーバ200の構成と、エージェント装置100の構成の一部とを示す図である。以下、エージェントサーバ200の構成と共にエージェント機能部150等の動作について説明する。ここでは、エージェント装置100からネットワークNWまでの物理的な通信についての説明を省略する。

0045

エージェントサーバ200は、通信部210を備える。通信部210は、例えばNIC(Network Interface Card)などのネットワークインターフェースである。更に、エージェントサーバ200は、例えば、音声認識部220と、自然言語処理部222と、対話管理部224と、ネットワーク検索部226と、応答文生成部228とを備える。これらの構成要素は、例えば、CPUなどのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの構成要素のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。

0046

エージェントサーバ200は、記憶部250を備える。記憶部250は、上記の各種記憶装置により実現される。記憶部250には、パーソナルプロファイル252、辞書DB(データベース)254、知識ベースDB256、応答規則DB258などのデータやプログラムが格納される。

0047

エージェント装置100において、エージェント機能部150は、音声ストリーム、或いは圧縮や符号化などの処理を行った音声ストリームを、エージェントサーバ200に送信する。エージェント機能部150は、ローカル処理(エージェントサーバ200を介さない処理)が可能な音声コマンドを認識した場合は、音声コマンドで要求された処理を行ってよい。ローカル処理が可能な音声コマンドとは、エージェント装置100が備える記憶部(不図示)を参照することで回答可能な音声コマンドであったり、エージェント機能部150−1の場合は車両機器50を制御する音声コマンド(例えば、空調装置をオンにするコマンドなど)であったりする。従って、エージェント機能部150は、エージェントサーバ200が備える機能の一部を有してもよい。

0048

音声ストリームを取得すると、音声認識部220が音声認識を行ってテキスト化された文字情報を出力し、自然言語処理部222が文字情報に対して辞書DB254を参照しながら意味解釈を行う。辞書DB254は、文字情報に対して抽象化された意味情報対応付けられたものである。辞書DB254は、同義語類義語一覧情報を含んでもよい。音声認識部220の処理と、自然言語処理部222の処理は、段階が明確に分かれるものではなく、自然言語処理部222の処理結果を受けて音声認識部220が認識結果を修正するなど、相互に影響し合って行われてよい。

0049

自然言語処理部222は、例えば、認識結果として、「今日の天気は」、「天気はどうですか」等の意味が認識された場合、標準文字情報「今日の天気」に置き換えたコマンドを生成する。これにより、リクエストの音声に文字揺らぎがあった場合にも要求にあった対話をし易くすることができる。また、自然言語処理部222は、例えば、確率を利用した機械学習処理等の人工知能処理を用いて文字情報の意味を認識したり、認識結果に基づくコマンドを生成してもよい。

0050

対話管理部224は、自然言語処理部222の処理結果(コマンド)に基づいて、パーソナルプロファイル252や知識ベースDB256、応答規則DB258を参照しながら車両Mの乗員に対する発話の内容を決定する。パーソナルプロファイル252は、乗員ごとに保存されている乗員の個人情報趣味嗜好、過去の対話の履歴などを含む。知識ベースDB256は、物事の関係性を規定した情報である。応答規則DB258は、コマンドに対してエージェントが行うべき動作(回答や機器制御の内容など)を規定した情報である。

0051

また、対話管理部224は、音声ストリームから得られる特徴情報を用いて、パーソナルプロファイル252と照合を行うことで、乗員を特定してもよい。この場合、パーソナルプロファイル252には、例えば、音声の特徴情報に、個人情報が対応付けられている。音声の特徴情報とは、例えば、声の高さ、イントネーションリズム(音の高低パターン)等の喋り方の特徴や、メル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients)等による特徴量に関する情報である。音声の特徴情報は、例えば、乗員の初期登録時に所定の単語や文章等を乗員に発声させ、発声させた音声を認識することで得られる情報である。

0052

対話管理部224は、コマンドが、ネットワークNWを介して検索可能な情報を要求するものである場合、ネットワーク検索部226に検索を行わせる。ネットワーク検索部226は、ネットワークNWを介して各種ウェブサーバ300にアクセスし、所望の情報を取得する。「ネットワークNWを介して検索可能な情報」とは、例えば、車両Mの周辺にあるレストラン一般ユーザによる評価結果であったり、その日の車両Mの位置に応じた天気予報であったりする。

0053

応答文生成部228は、対話管理部224により決定された発話の内容が車両Mの乗員に伝わるように、応答文を生成し、エージェント装置100に送信する。応答文生成部228は、乗員がパーソナルプロファイルに登録された乗員であることが特定されている場合に、乗員の名前を呼んだり、乗員の話し方に似せた話し方にした応答文を生成してもよい。

0054

エージェント機能部150は、応答文を取得すると、音声合成を行って音声を出力するように音声制御部118に指示する。また、エージェント機能部150は、音声出力に合わせてエージェントの画像を表示するように表示制御部116に指示する。このようにして、仮想的に出現したエージェントが車両Mの乗員に応答するエージェント機能が実現される。

0055

音像制御
以下、エージェント装置100において実行される音像制御について説明する。音声制御部118は、複数のエージェント機能部150のそれぞれに対し、音声の音像を定位させる位置を設定し、設定した位置に音像を定位させるようにスピーカユニット30に含まれる複数のスピーカの出力をそれぞれ制御する。以下は、音声制御部118により音像の定位する位置を設定する規則を例示したものである。以下に示す各規則は、排他的でないものと排他的なものが含まれているが、排他的でないものについては組み合わせて使用されてよい。

0056

(規則1)
音声制御部118は、例えば、複数のエージェント機能部150のうち使用頻度の高いエージェント機能部150(換言すると、使用頻度の高いエージェント)による音声の音像を、車両Mの座席のうち最も近い座席が助手席ASである位置(以下、助手席近傍位置)に定位させる。より具体的に、音声制御部118は、複数のエージェント機能部150のうち使用頻度の「最も高い」エージェント機能部150による音声の音像を助手席近傍位置に定位させる。これに代えて音声制御部118は、複数のエージェント機能部150のうち使用頻度が「高い方から上位n個まで」のエージェント機能部150による音声の音像を、車両Mの座席のうち最も近い座席が助手席ASである位置に定位させてもよい(nは自然数)。助手席近傍位置は、例えば、第1ディスプレイ22における助手席ASに対向する位置である。図7は、音像定位位置の第1例を示す図である。ここでは、エージェント2の使用頻度が最も高く、エージェント1およびエージェント3はエージェント2よりも使用頻度が低いものとする。MP(2)はエージェント2による音声の音像の定位する位置(助手席近傍位置)であり、MP(1、3)はエージェント1および3による音声の音像の定位する位置である。このとき、第1ディスプレイ22には、エージェント2の動作状態に合わせて動作するアニメーション画像であるエージェント画像EG(2)が表示されてよい。エージェント画像EG(2)は、発話者が運転者である場合、運転席DSの方を向いているように感じられるグラフィックで形成される。このように音像の定位する位置を設定することによって、エージェントを使用する機会が多いと考えられる運転席DSに着座した乗員(運転者)Pからすると、助手席AS付近に居る(或いはエージェント画像EG(2)を表示しない場合、仮想的に助手席ASに着座したように感じられる)エージェントに何かを問い合わせるような使用感で、エージェント機能を利用することができる。この結果、エージェント装置100は、自然な使用感でエージェント機能を提供することができる。

0057

エージェントの使用頻度は、例えば管理部110によって起動回数などを基準としてカウントされ、メモリに保存されている。

0058

(規則2)
音声制御部118は、車両機器50を制御する権限が付与されたエージェント機能部150−1による音声の音像を、車両の座席のうち最も近い座席が運転席DSである位置(以下、運転席近傍位置)に定位させてもよい。運転席近傍位置は、例えば、HUD28の表示面が存在する位置の付近である。図8は、音像定位位置の第2例を示す図である。MP(1)はエージェント1による音声の音像の定位する位置(運転席近傍位置)であり、MP(2、3)はエージェント2および3による音声の音像の定位する位置である。このとき、例えばHUD28に、エージェント1の動作状態に合わせて動作するアニメーション画像であるエージェント画像EG(1)が表示されてよい。車両機器50をスイッチ等で操作する場合、スイッチは運転席の周辺に設けられるのが通常であるから、このように音像の定位する位置を設定することによって、運転席DSに着座した乗員(運転者)Pにとって、エージェント機能を使用せずに車両機器50を操作するのと同じような使用感で、エージェント機能を利用することができる。この結果、エージェント装置100は、自然な使用感でエージェント機能を提供することができる。

0059

(規則3)
音声制御部118は、複数のエージェント機能部150のうち使用頻度の低いエージェント機能部150(換言すると、使用頻度の低いエージェント)による音声の音像を、車両Mの座席のうち最も近い座席が後部座席(以下、後部座席付近位置)である位置に定位させてもよい。より具体的に、音声制御部118は、複数のエージェント機能部150のうち使用頻度の「最も低い」エージェント機能部150による音声の音像を、後部座席付近位置に定位させる。これに代えて音声制御部118は、複数のエージェント機能部150のうち使用頻度が「低い方から下位k個まで」のエージェント機能部150による音声の音像を、後部座席付近位置に定位させてもよい(kは自然数)。後部座席付近位置は、例えば、スピーカ30Fとスピーカ30Eとを結ぶ直線上(或いは幅を持たせた空間領域)における任意の位置である。図9は、音像定位位置の第3例を示す図である。なお本図は、規則1、2、3を組み合わせた例を示している。MP(1)はエージェント1による音声の音像の定位する位置であり、MP(2)はエージェント2による音声の音像の定位する位置であり、MP(3)はエージェント3による音声の音像の定位する位置(後部座席付近位置)である。ここでは、エージェント2の使用頻度が最も高く、エージェント3の使用頻度が最も低いものとする。このとき、例えば、エージェント1が起動している場合、HUD28にエージェント画像EG(1)が表示され、エージェント2が起動している場合、第1ディスプレイ22にエージェント画像EG(2)が表示されてよい。このように音像の定位する位置を設定することによって、運転席DSに着座した乗員(運転者)Pにとって、稀にしか使用しないエージェントの音声は自身から遠い位置から聞こえるようにすることができる。この結果、エージェント装置100は、自然な使用感でエージェント機能を提供することができる。

0060

(規則4)
音声制御部118は、例えば、車両機器50を制御する権限が付与されたエージェント機能部150−1による音声の音像を、助手席近傍位置に定位させてもよい。図10は、音像定位位置の第4例を示す図である。MP(1)はエージェント1による音声の音像の定位する位置(助手席近傍位置)であり、MP(2)はエージェント2による音声の音像の定位する位置であり、MP(3)はエージェント3による音声の音像の定位する位置である。この場合において、例えば、エージェント1との対話のステージ遷移に応じて、MP(1)を、運転席近傍位置に移動させてもよい。例えば、音声制御部118は、エージェント1が乗員Pの要望を聞いている段階では、MP(1)を助手席近傍位置に設定し、エージェントサーバ200−1からの返信に基づいてエージェント1が詳細説明をする段階ではMP(1)を運転席近傍位置に設定するようにしてもよい。また、これに併せてエージェント画像EG(1)を、第1ディスプレイ22における助手席近傍位置に近い位置からHUD28に移動させてよい。このように、車両機器50を制御可能な使い勝手の良いエージェント1を、自然に対話できる助手席近傍位置に設定することで、運転席に着座した乗員(運転者)Pは、自然に対話を開始することができる。また、詳細説明を聞く段階では自身に近い位置にエージェント1の音像や画像が移動して来るため、人と会話をしているような使用感を提供することができる。これらの結果、エージェント装置100は、自然な使用感でエージェント機能を提供することができる。

0061

(規則5)
音声制御部118は、例えば、乗員認識装置80により認識された乗員の着座位置に基づいて、複数のエージェント機能部150のそれぞれに対し、音声の音像を定位させる位置を設定してもよい。図11は、音像定位位置の第5例を示す図である。本図において、運転席DSには乗員P1が着座しており、助手席ASには乗員P2が着座しており、左側後部座席には乗員P3が着座している。MP(1)はエージェント1による音声の音像の定位する位置(運転席近傍位置)であり、MP(2)はエージェント2による音声の音像の定位する位置(助手席近傍位置)であり、MP(3)はエージェント3による音声の音像の定位する位置(後部座席付近位置のうち、左側後部座席に偏した位置)である。このように音像の定位する位置を設定することで、各乗員に対して一人のエージェントが応答しているような環境を提供することができる。

0062

図12は、音像定位位置の第6例を示す図である。本図において、運転席DS、助手席AS、右側後部座席BS1、左側後部座席BS2の全てに乗員が着座している。この場合、音声制御部118は、例えば、複数のエージェント機能部150のそれぞれによる音声の音像を定位させる位置を、車室の天井付近(図中、MP)に設定するこうすることで、乗員の全てに対してエージェントが同時に応答しているような環境を提供することができる。これらの結果、エージェント装置100は、自然な使用感でエージェント機能を提供することができる。

0063

以上のように、音声制御部118が音像の定位する位置を設定することについて説明したが、音声制御部118は、エージェントごとの音像が定位する位置の初期設定を、乗員の操作に従って行ってもよい。この場合、乗員が第1ディスプレイ22などを使用して入力操作を行うと、音声制御部118は、入力操作の内容に応じて初期設定を行う。その後は、エージェントの使用頻度に応じて音像の定位する位置を順次変更してもよい。

0064

上記説明した第1実施形態のエージェント装置100によれば、より自然な使用感でエージェント機能を提供することができる。

0065

また、エージェント装置100によれば、更に、エージェントの判別を容易にすることもできる。例えば、複数のエージェントが同時に起動している場合を想定すると、音声の声色が似ている場合、どのエージェントが発話をしたのか区別がつかなくなることが想定される。また、乗員が、どのエージェントを起動させたのか忘れてしまう可能性もあり、その場合、今から行う要求が起動中のエージェントに対して有効なのかどうか、乗員が悩んでしまうことも想定される。これに対し、実施形態のエージェント装置100では、ある程度、固定的にエージェントの音声の音像が定位する位置を設定するため、音声が聞こえてくる方向に基づいて、乗員が起動中のエージェントを判別することができる。

0066

<第2実施形態>
以下、第2実施形態について説明する。図13は、第2実施形態に係るエージェント装置100Aの構成と、車両Mに搭載された機器とを示す図である。第2実施形態における乗員認識装置80は、顔向き認識部の一例である。顔向きの認識は、例えば、画像における顔領域で抽出された鼻梁などの特徴的な部位の配置に基づいて行われる。第2実施形態のエージェント装置100Aは、第1実施形態と比較すると、起動エージェント選択部120を更に備える。

0067

音声制御部118がエージェント機能部150による音声の音像を定位させる位置を設定する仕組みについては第1実施形態と同様である。

0068

第1実施形態では、エージェント機能部150ごとのウエイクアップワードが決まっており、発話されたウエイクアップワードに応じたエージェント機能部150が起動するものとした。第2実施形態では、エージェントを特定しないフリー起動が可能であることを前提とする。フリー起動を実現するには、乗員同士の発話であるか、エージェントに向けた発話であるかを判別する必要があるが、本発明において、係る判別の手法について特段制約は存在しないため、詳細な説明を省略する。

0069

起動エージェント選択部120は、乗員の発した音声の声色、その後に続く返答の有無などに基づいて、乗員が、ウエイクアップワードではないが、「起動させるエージェントを特定せずにエージェントの応答を求める発話」(以下、フリー起動発話)を行ったことを認識する。その際に、起動エージェント選択部120は、乗員認識装置80により認識された、発話した乗員の顔向きを取得する。そして、起動エージェント選択部120は、発話した乗員の顔向きの先にある位置に、音像の定位する位置が設定されているエージェントを選択して起動させる。

0070

図14は、起動エージェント選択部120の動作について説明するための図である。図14の上図において、エージェント1の音声の音像は運転者近傍位置に設定され、エージェント2の音声の音像は左側後部座席BS2の付近に設定され、エージェント3の音声の音像は右側後部座席BS1の付近に設定されている。この状態において、乗員(運転者)Pが左斜め後方に顔を向けてフリー起動発話を行った場合、図14下図に示すように、起動エージェント選択部120は、乗員Pから見て左斜め後方に音声の音像が定位するように設定されていたエージェント2を起動させる。図中、DPは乗員認識装置80により認識された乗員Pの顔向きを示している。

0071

係る制御によって、第2実施形態に係るエージェント装置100Aは、乗員がエージェントの起動方法を忘れてしまった場合であっても、「過去にその方向に音声の音像が定位していたエージェント」位の記憶が残っている場合には、同じエージェントを起動させることができる。この結果、利便性を向上させることができる。

0072

以上説明した第2実施形態のエージェント装置100Aによれば、第1実施形態と同様の効果を奏するのに加えて、利便性を更に向上させることができる。

0073

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

0074

10マイク
20 表示・操作装置
30スピーカユニット
40ナビゲーション装置
50車両機器
60車載通信装置
70汎用通信装置
80 乗員認識装置
100、100Aエージェント装置
110管理部
112音響処理部
114エージェントごとWU判定部
116表示制御部
118音声制御部
120起動エージェント選択部
150エージェント機能部
152ペアリングアプリ実行部
200 エージェントサーバ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ