図面 (/)

技術 対話型ダイアログシステムのための感情タイプの分類

出願人 マイクロソフトテクノロジーライセンシング,エルエルシー
発明者 ウン,エドワードレオン,マックス
出願日 2015年12月2日 (4年5ヶ月経過) 出願番号 2017-528786
公開日 2018年2月8日 (2年2ヶ月経過) 公開番号 2018-503894
状態 不明
技術分野
  • -
主要キーワード センササブシステム ファームウェア論理 ウェアラブルデバイス 家庭用電子デバイス 歩行期間 共通デバイス 単一タイプ アルゴリズムブロック
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2018年2月8日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題・解決手段

対話型ダイアログシステムにおいて、意味論的コンテンツに関連付けられた感情タイプコードを選択するための技法。態様において、事実またはプロファイル入力が、事実またはプロファイル入力の特定の組み合わせに基づいて感情タイプを選択する感情分類アルゴリズムに提供される。感情分類アルゴリズムは、規則ベースとするか、または機械学習から導出することができる。以前のユーザ入力は、感情分類アルゴリズムへの入力としてさらに指定可能である。技法は、スマートフォンなどのモバイル通信デバイス内で特に適用可能であり、事実またはプロファイル入力は、オンラインアクセステキストまたは音声通信スケジューリング機能などを含む、デバイスの多様な機能セットの使用から導出可能である。

概要

背景

[0001] 人為的対話型ダイアログシステムは、最先端家庭用電子デバイスにおいてますます普及している機能である。たとえば、現在のワイヤレススマートフォンは、ユーザとリアルタイムの対話型会話を行うために、音声認識、対話型ダイアログ、および音声合成ソフトウェアを組み込み、こうしたサービスを情報およびニュースリモートデバイスの構成およびプログラミング、会話の親密な関係などとして送達する。

[0002] ユーザがダイアログシステムとより自然でシームレスな会話を体験できるようにするために、意味論的コンテンツに加えて感情的コンテンツを有する音声または他の出力を生成することが望ましい。たとえば、ニュースを送達する、タスクスケジューリングする、またはその他の方法でユーザと対話する場合、ユーザをより効果的に会話を行わせるために、合成された音声および/または他の出力に感情的特徴を付与することが望ましくなる。

概要

対話型ダイアログシステムにおいて、意味論的コンテンツに関連付けられた感情タイプコードを選択するための技法。態様において、事実またはプロファイル入力が、事実またはプロファイル入力の特定の組み合わせに基づいて感情タイプを選択する感情分類アルゴリズムに提供される。感情分類アルゴリズムは、規則ベースとするか、または機械学習から導出することができる。以前のユーザ入力は、感情分類アルゴリズムへの入力としてさらに指定可能である。技法は、スマートフォンなどのモバイル通信デバイス内で特に適用可能であり、事実またはプロファイル入力は、オンラインアクセステキストまたは音声通信スケジューリング機能などを含む、デバイスの多様な機能セットの使用から導出可能である。

目的

[0003] したがって、対話型ダイアログシステムによって送達される意味論的コンテンツに付与するのに好適な感情を決定するため、および、このように決定された感情を複数の所定の感情タイプのうちの1つに従って分類するための、技法を提供する

効果

実績

技術文献被引用数
- 件
牽制数
- 件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

対話型ダイアログシステムのための装置であって、少なくとも1つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択するように構成された分類ブロックであって、前記感情タイプコードは複数の所定の感情タイプのうちの1つを指定する、分類ブロックと、前記出力ステートメントに対応する音声を生成するように構成されたテキスト音声ブロックであって、前記生成された音声は前記感情タイプコードによって指定された前記所定の感情タイプを有するものである、テキスト−音声ブロックと、を備え、前記少なくとも1つの事実またはプロファイル入力は、前記対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される、装置。

請求項2

前記モバイル通信デバイスは音声通話およびインターネットアクセスサービスを提供するように構成され、前記装置は前記出力ステートメントを自然言語で生成するように構成された言語生成ブロックをさらに備え、前記出力ステートメントは、所定の意味論的コンテンツおよび前記感情タイプコードに関連付けられた指定された所定の感情タイプを有する、請求項1に記載の装置。

請求項3

前記少なくとも1つの事実またはプロファイル入力は、前記ユーザによって構成される少なくとも1つのユーザ構成パラメータを備え、前記少なくとも1つのユーザ構成パラメータは、趣味、関心、性格特性、好きな映画、好きなスポーツ、および好きな料理のタイプのうちの少なくとも1つを備える、請求項1に記載の装置。

請求項4

前記少なくとも1つの事実またはプロファイル入力は、前記装置を使用してユーザオンラインアクティビティから導出される少なくとも1つのパラメータをさらに備え、ユーザオンラインアクティビティから導出される前記少なくとも1つのパラメータは、インターネット検索クエリアクセスされるインターネットウェブサイト電子メールメッセージのコンテンツ、およびオンラインソーシャルメディアウェブサイトへの投稿のうちの、少なくとも1つを備える、請求項1に記載の装置。

請求項5

前記少なくとも1つの事実またはプロファイル入力は、ユーザ位置、ユーザのテキストまたは音声通信のコンテンツ、および、前記装置のカレンダスケジューリング機能を使用して前記ユーザによってスケジューリングされた少なくとも1つのイベントのうちの、少なくとも1つをさらに備える、請求項1に記載の装置。

請求項6

前記少なくとも1つの事実またはプロファイル入力は、現在のユーザ感情状態、デバイス使用統計オンライン情報リソース、およびデジタルアシスタントパーソナリティのうちの、少なくとも1つをさらに備える、請求項1に記載の装置。

請求項7

アルゴリズムを使用して前記感情タイプコードを選択するように構成された前記分類ブロックは、複数の基準事実またはプロファイル入力と対応する複数の基準感情タイプとの間の少なくとも1つの機能的マッピングを備え、前記少なくとも1つの機能的マッピングは機械学習技法から導出される、請求項1に記載の装置。

請求項8

プロセッサと、前記プロセッサによって実行可能な命令を保持するメモリとを含む、コンピューティングデバイスであって、前記命令は、少なくとも1つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択することであって、前記感情タイプコードは複数の所定の感情タイプのうちの1つを指定する、選択すること、および、前記出力ステートメントに対応する音声を生成することであって、前記生成された音声は前記感情タイプコードによって指定された前記所定の感情タイプを有するものである、生成すること、を行うように前記プロセッサによって実行可能であり、前記少なくとも1つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される、コンピューティングデバイス。

請求項9

少なくとも1つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択することであって、前記感情タイプコードは複数の所定の感情タイプのうちの1つを指定する、選択すること、および、前記出力ステートメントに対応する音声を生成することであって、前記生成された音声は前記感情タイプコードによって指定された前記所定の感情タイプを有するものである、生成すること、を含む、方法であって、前記少なくとも1つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される、方法。

請求項10

前記少なくとも1つの事実またはプロファイル入力は、ユーザ位置、前記ユーザによって構成されるユーザ構成パラメータ、ユーザオンラインアクティビティ、ユーザ位置、ユーザのテキストまたは音声通信のコンテンツ、および、カレンダスケジューリング機能を使用して前記ユーザによってスケジューリングされた少なくとも1つのイベントのうちの、少なくとも1つを備える、請求項9に記載の方法。

背景技術

0001

[0001] 人為的対話型ダイアログシステムは、最先端家庭用電子デバイスにおいてますます普及している機能である。たとえば、現在のワイヤレススマートフォンは、ユーザとリアルタイムの対話型会話を行うために、音声認識、対話型ダイアログ、および音声合成ソフトウェアを組み込み、こうしたサービスを情報およびニュースリモートデバイスの構成およびプログラミング、会話の親密な関係などとして送達する。

0002

[0002] ユーザがダイアログシステムとより自然でシームレスな会話を体験できるようにするために、意味論的コンテンツに加えて感情的コンテンツを有する音声または他の出力を生成することが望ましい。たとえば、ニュースを送達する、タスクスケジューリングする、またはその他の方法でユーザと対話する場合、ユーザをより効果的に会話を行わせるために、合成された音声および/または他の出力に感情的特徴を付与することが望ましくなる。

発明が解決しようとする課題

0003

[0003] したがって、対話型ダイアログシステムによって送達される意味論的コンテンツに付与するのに好適な感情を決定するため、および、このように決定された感情を複数の所定の感情タイプのうちの1つに従って分類するための、技法を提供することが望ましい。

課題を解決するための手段

0004

[0004] 本課題を解決するための手段は、下記の発明を実施するための形態でさらに説明する概念の選択を簡略化された形で紹介するために提供される。本課題を解決するための手段は、請求する主題の主な機能または重要な機能を識別することを意図しておらず、請求する主題の範囲を限定するために使用されることも意図していない。

0005

[0005] 簡単に言えば、本明細書で説明する主題の様々な態様は、対話型ダイアログシステム用の装置を提供するための技法を対象としている。ある態様において、モバイル通信デバイス利用可能な事実またはプロファイル入力を以前または現在のユーザ入力と組み合わせて、対話型ダイアログシステムによって生成される出力ステートメントと関連付けるために適切な感情タイプコードを選択することができる。たとえば、事実またはプロファイル入力を、ユーザオンラインアクティビティユーザ通信カレンダおよびスケジューリング機能などの、デバイス使用のある態様から導出することができる。感情タイプコードを選択するためのアルゴリズムは、規則ベースとするか、または機械学習技法を使用して事前に構成することができる。感情タイプコードを出力ステートメントと組み合わせて、改善されたユーザ体験のための感情的特徴を有する合成音声を生成することができる。

0006

[0006] 他の利点は、以下の詳細な説明および図面から明らかとなろう。

図面の簡単な説明

0007

[0007]本開示の技法が適用可能なモバイル通信デバイスを採用するシナリオを示す図である。
[0008]デバイスのプロセッサおよび他の要素によって実行可能な処理の、例示的実施形態を示す図である。
[0009]ダイアログエンジンによって実行される処理の例示的実施形態を示す図である。
[0010]本開示に従った感情タイプ分類ブロックの例示的実施形態を示す図である。
[0011]ハイブリッド感情タイプ分類アルゴリズムの例示的実施形態を示す図である。
[0012]規則ベースアルゴリズムの例示的実施形態を示す図である。
[0013]規則ベースアルゴリズムの代替の例示的実施形態を示す図である。
[0014]感情タイプを選択するためにトレーニングされたアルゴリズムを導出するための、トレーニング方式の例示的実施形態を示す図である。
[0015]本開示に従った方法の例示的実施形態を示す図である。
[0016]前述の方法およびプロセスのうちの1つまたは複数を実行可能な、非限定的コンピューティングシステムを概略的に示す図である。
[0017]本開示に従った装置の例示的実施形態を示す図である。
[0018]表示テキストに、可聴音声ではなくまたは可聴音声に加えて感情的コンテンツが付与されるダイアログシステムに、本開示の技法が組み込まれる、例示的実施形態を示す図である。

実施例

0008

[0019] 本明細書で説明する技術の様々な態様は、一般に、電子的対話型ダイアログシステム内の出力ステートメントに関連付けられた感情タイプコードを選択するための技術を対象としている。添付の図面に関して下記に示される詳細な説明は、本発明の例示的態様の説明として意図され、本発明が実施可能な単なる例示的態様を表すものとは意図されていない。本説明全体を通じて使用される「例示的」という用語は、「例、インスタンス、または図例として働くこと」を意味し、必ずしも他の例示的態様よりも好ましいかまたは有利であるものと解釈されるべきではない。詳細な説明は、本発明の例示的態様を完全に理解するための特定の細部が含まれる。当業者であれば、本発明の例示的態様がこれらの特定の細部なしで実施可能であることが明らかとなろう。いくつかのインスタンスにおいて、周知の構造およびデバイスは、本明細書に提示される例示的態様の新規性を曖昧にするのを避けるためにブロック図の形で示される。

0009

[0020]図1は、本開示の技法が適用可能なモバイル通信デバイス120を採用するシナリオを示す。図1は単なる例示の目的で示されており、本開示の範囲を、本開示をモバイル通信デバイスに適用することのみに限定することは意味していないことに留意されたい。たとえば、本明細書で説明する技法は、他のデバイスおよびシステムにおいて、たとえば、ノートブックおよびデスクトップコンピュータヒューマンインターフェースシステム、自動車ナビゲーションシステムなどにおいて、容易に適用可能である。こうした代替の適用例は、本開示の範囲内にあるものと企図される。

0010

[0021]図1において、ユーザ110は、モバイル通信デバイス120、たとえばハンドヘルドスマートフォンと通信する。スマートフォンは、音声通話、および、計算タスクの多様なアレイ実装するための比較的高度なマイクロプロセッサを用いたインターネットアクセスなどの、通信機能統合した任意のモバイルデバイスを含むことが理解できよう。ユーザ110は、デバイス120上のマイクロフォン124に音声入力122を提供することができる。デバイス120内の1つまたは複数のプロセッサ125、および/またはネットワークを介して利用可能な(たとえば、クラウドコンピューティング方式を実装する)プロセッサ(図示せず)は、たとえば下記で図2を参照しながらさらに説明するような機能を実行する、マイクロフォン124によって受信された音声信号を処理することができる。プロセッサ125は、本明細書で単なる例示のために説明するような任意の特定の形、形状、または機能分割を有する必要がないこと、およびこうしたプロセッサは、一般に、当分野で既知の様々な技法を使用して実装可能であることに留意されたい。

0011

[0022]プロセッサ125によって実行される処理に基づいて、デバイス120は、オーディオスピーカ128を使用して、音声入力122に応答する音声出力126を生成することができる。あるシナリオにおいて、デバイス120は、音声入力122とは無関係に音声出力126を生成することも可能であり、たとえばデバイス120は、自立的に警告を提供すること、または他のユーザ(図示せず)からのメッセージを音声出力126の形でユーザ110にリレーすることができる。例示的実施形態において、音声入力122に応答する出力は、たとえば、テキストグラフィックスアニメーションなどとして、デバイス120のディスプレイ129上に表示することもできる。

0012

[0023]図2は、デバイス120のプロセッサ125および他の要素によって実行可能な対話型ダイアログシステム200の、例示的実施形態を示す図である。図2に示される処理は、単なる例示のためのものであり、本開示の範囲を図2に示される動作の任意の特定のシーケンスまたはセットに制限するものではないことに留意されたい。たとえば、代替の例示的実施形態において、感情タイプコードを選択するための本明細書で開示されるある技法は、図2に示される処理に関係なく適用可能である。さらに、図2に示される1つまたは複数のブロックは、システムにおける特定の機能分割に応じて組み合わせるかまたは省略することが可能であるため、図2は、図示されるブロックのいかなる機能的な依存性または独立性をも示唆するものではない。こうした代替の例示的実施形態は、本開示の範囲内であるものと企図される。

0013

[0024]図2において、ブロック210で音声入力が受信される。音声入力210は、たとえばデバイス120上のマイクロフォン124から導出される音響信号を表す波形に対応し得る。音声入力210の出力210aは、音声コンテンツを含む音響波形デジタル化バージョンに対応し得る。

0014

[0025]ブロック220で、出力210aに対して音声認識が実行される。例示的実施形態において、音声認識220は、出力210a内に存在するような音声をテキストに変換する。音声認識220の出力220aは、それに応じて、デジタル化された音響波形出力210a内に存在する音声のテキスト表現に対応し得る。たとえば、マイクロフォン124によって拾われるような出力210aが、「明日の天気はどうですか」などの人間の発話オーディオ波形表現を含む場合、音声認識220は、その音声認識機能に基づいて、「明日の天気はどうですか」というテキストに対応するASCIIテキスト(または他のテキスト表現)を出力することができる。ブロック220によって実行されるような音声認識は、たとえば、隠れマルコフモデル(HMM)、ニューラルネットワークなどを含む、音響モデリング技法および言語モデリング技法を使用して実行可能である。

0015

[0026]ブロック230で、出力210aの予測される自然言語の知識に基づいて、音声認識220の出力220aに対して言語理解が実行される。例示的実施形態において、構文解析および文法解析などの自然言語理解技法は、出力220aにおけるテキストの意図された意味を導出するために、たとえば形態および構文の知識を使用して実行可能である。言語理解230の出力230aは、出力220a内に存在する音声の意味論的および/または感情的コンテンツの形式的表現を含むことができる。

0016

[0027]ブロック240で、ダイアログエンジンは、出力230aから決定されたように音声に対して好適な応答を生成する。たとえば、ユーザ音声入力が特定の地理の天気に関するクエリに対応することを、言語理解230が決定した場合、ダイアログエンジン240は、たとえば天気予報サービスまたはデータベースなどのソースから、必要な天気情報を取得およびアセンブルすることができる。たとえば、取り出された天気情報は、天気予報に関する時刻日付コード、「晴れ」の天気に対応する天気タイプコード、および72度(摂氏22.2度)の平均気温を示す温度フィールドに対応することができる。

0017

[0028]例示的実施形態において、ダイアログエンジン240は、ユーザによる迅速な理解のために提示できるように、取り出された情報をさらに「パッケージング」することができる。したがって、ダイアログエンジン240の意味論的コンテンツ出力240aは、「今日の天気は晴れ、気温72度」などの、意味論的コンテンツの表現に対応することができる。

0018

[0029]意味論的コンテンツ240aに加えて、ダイアログエンジン240は、意味論的コンテンツ240aに関連付けられた感情タイプコード240bをさらに生成することができる。感情タイプコード240bは、出力音声としてユーザに送達される時に意味論的コンテンツ240aに付与するための、特定タイプの意味論的コンテンツを示すことができる。たとえば、ユーザがある日のピクニック計画している場合、感情的に陽気な調子の声で晴れの天気予報を同時に伝えることができる。この場合、感情タイプコード240bは、「中程度の幸せ」に対応する感情コンテンツタイプと言い表すことができる。対話型ダイアログシステム200が利用可能なデータ、事実、および入力に基づいて、感情タイプコード240bを生成するための技法について、たとえば図3を参照しながら下記でさらに説明する。

0019

[0030]ブロック250で、ダイアログエンジン240の出力240a、240bに対して言語生成が実行される。言語生成は、人間のユーザによる迅速な理解のために、ダイアログエンジン240の出力を、たとえば語彙および文法規則に従ったターゲット言語でのセンテンスなど、自然言語形式で提示する。たとえば、意味論的コンテンツ240aに基づいて、言語生成250は、「今日の天気は晴れ、72度になるでしょう」というステートメントを生成することができる。

0020

[0031]例示的実施形態において、ブロック250は、システムパーソナリティブロック255から入力255aをさらに受け入れることができる。システムパーソナリティブロック255は、対話型ダイアログシステムに関して事前に選択された「パーソナリティ」に従って、ダイアログエンジンについてデフォルトパラメータ255aを指定することができる。たとえば、システムパーソナリティが「男性」または「女性」、あるいは「明朗」または「思慮深い」ものと選択された場合、ブロック255は、システムパーソナリティに対応するパラメータ基準入力255aとして指定することができる。ある例示的実施形態において、ブロック255を省略するか、またはその機能を他のブロック、たとえばダイアログエンジン240または言語生成ブロック250に組み込むことが可能であり、こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図されることに留意されたい。

0021

[0032]例示的実施形態において、言語生成ブロック250は、意味論的コンテンツ240a、感情タイプコード240b、およびデフォルト感情パラメータ255aを組み合わせて、出力ステートメント250aを合成することができる。たとえば、「中程度の幸せ」に対応する感情タイプコード240bは、ブロックに、「素晴らしいニュース、今日の天気は晴れ、72度になるでしょう!」などの、自然言語(たとえば英語)のセンテンスを生成させることができる。出力ステートメント250aに対応するオーディオ音声を生成するために、後続のテキスト−音声ブロック260に言語生成ブロック250の出力ステートメント250aが提供される。

0022

[0033] ある例示的実施形態において、上記で説明した言語生成ブロック250のいくつかの機能が省略できることに留意されたい。たとえば、言語生成ブロック250は、必ずしも出力ステートメント250aを生成する際に感情タイプコード240bを反映するとは限らず、代わりに、合成された音声出力の完全な感情コンテンツを提供するために、テキスト−音声ブロック260(感情タイプコード240bにもアクセスできる)に依拠することができる。さらに、ダイアログエンジンによって取り出された情報がすでに自然言語形式である、あるインスタンスにおいて、言語生成ブロック250を効果的にバイパスすることができる。たとえば、ダイアログエンジン240によってアクセスされるインターネット天気サービスは、天気更新を英語などの自然言語で直接提供することができるため、言語生成250は、必ずしも意味論的コンテンツ240a上でいかなる実質的な事後処理をも実行する必要がない場合がある。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

0023

[0034]ブロック260で、言語生成250の出力250aに対してテキスト−音声変換が実行される。例示的実施形態において、250aに対応するテキストコンテンツおよび感情タイプコード240bに対応する感情コンテンツを有する音声を合成するために、感情タイプコード240bはTTSブロック260にも提供される。テキスト−音声変換260の出力はオーディオ波形とすることができる。

0024

[0035]ブロック270で、テキスト−音声変換260の出力から音響出力が生成される。デバイス120のスピーカ128によって、リスナー、たとえば図1のユーザ110に、音声出力を提供することができる。

0025

[0036]対話型ダイアログシステムがますます高度になるにつれて、こうしたシステムによって生成される音声に好適な感情タイプコードおよび他のタイプの出力を効果的に選択するための技法を提供することが望ましくなる。たとえば、意味論的コンテンツ240aと共に感情タイプコード240bを提供することによって提案されるように、ある適用例では、音声出力270が感情的に中立なテキスト表現として生成されるだけでなく、リスナーに送達される時に事前に指定された感情コンテンツを組み込むことも望ましい。したがって、適切な感情コンテンツが音声出力270内に存在するものとユーザ110が知覚するように、出力ステートメント250aを好適な感情タイプコード240bに関連付けることができる。

0026

[0037] たとえば、ある野球チームワールドシリーズで勝ったという情報に意味論的コンテンツ240aが対応し、さらにユーザ110がその野球チームのファンであるように、ダイアログエンジン240が指定する場合、ユーザの感情状態合致させるために「興奮」(たとえば、中立または不幸せ、の反対として)を表すように感情タイプコード240bを選択することで、結果としてユーザ110の対話体験をより満足のいくものにする可能性がある。

0027

[0038]図3は、適切な意味論的コンテンツならびに関連付けられた感情タイプコードを生成するために、ダイアログエンジン240によって実行される処理の例示的実施形態240.1を示す。図3は単なる例示のために示されており、本開示の範囲を本明細書で説明する技法の任意の特定の適用例に限定するものではないことに留意されたい。

0028

[0039]図3において、ダイアログエンジン240.1は、意味論的コンテンツ生成ブロック310と、本明細書では「分類ブロック」とも呼ばれる感情タイプ分類ブロック320とを含む。ブロック310および320のどちらにもユーザダイアログ入力230aが提供され、これは、現在または任意の以前のダイアログセッションにおいて、ユーザ110によって1つまたは複数のステートメントまたはクエリ上で実行される言語理解230の出力を含むことができる。特に、意味論的コンテンツ生成ブロック310は、ユーザに送達されることになる情報に対応する意味論的コンテンツ240.1aを生成する一方で、感情タイプ分類ブロック320は、意味論的コンテンツ240.1aに付与されることになる、感情タイプコード240.1bによって表される適切な感情タイプを生成する。ユーザダイアログ入力230aは、たとえばローカルデバイスメモリ上の履歴ファイル内などに記憶されるような、現在または以前のダイアログセッションからのユーザ入力のうちのいずれかまたはすべてを含むものと理解できることに留意されたい。

0029

[0040]ユーザダイアログ入力230aに加えて、ブロック320にはさらに「事実またはプロファイル」入力301が提供され、これは、その上にダイアログエンジン240.1が実装されるデバイスの使用から導出されるパラメータを含むことができる。感情タイプ分類ブロック320は、たとえば、下記でさらに開示される機械学習技法に従ってオフラインでトレーニングされたパラメータを備える、1つまたは複数のアルゴリズムに従った事実またはプロファイル入力301およびユーザダイアログ入力230aの組み合わせに基づいて、適切な感情タイプコード240.1bを生成することができる。例示的実施形態において、感情タイプコード240.1bは、感情(たとえば、「幸せ」など)、ならびに(たとえば、1〜5の数字のうち、「非常に幸せ」を示す5を用いて)その感情が表される程度を示す程度インジケータを、含むことができる。例示的実施形態において、感情タイプコード240.1bは、出力音声に付与することが可能な複数の所定の感情タイプのうちの1つを指定するために、感情マークアップ言語(EmotionML)で指定されるような形式で表すことができる。

0030

[0041]スマートフォンなどの現在の消費者デバイスについて、現在の傾向は、多様な機能セットを、ユーザによって頻繁に、またしばしば継続的に持ち運ばれる単一のモバイルデバイスに統合した、不可欠なパーソナルアシスタント役割を担うためのものになりつつあることに留意されたい。多種多様な目的(たとえば、音声通信、インターネットアクセス、スケジュールプランニングレクリエーションなど)のための単一のユーザによるこうしたデバイスの反復使用により、対話型ダイアログシステム200による、感情タイプコード240.1bを選択するための膨大な関連データへの潜在的なアクセスが可能となる。たとえば、スマートフォン用の位置サービスが実行可能な場合、ある期間にわたるユーザの地理的位置に関するデータを使用して、たとえば、地元のスポーツチームのファンである、または、ある地域内の新しいレストランに行ってみる傾向があるなど、ユーザの地理的プリファレンスを推測することができる。関連データを生成するシナリオの使用の他の例には、トピックまたはキーワード検索を実行するためにスマートフォンを使用してインターネットにアクセスすること、カレンダの日付またはアポイントメントをスケジューリングすること、デバイスの初期設定時にユーザプロファイルセットアップすることなどが含まれるが、これらに限定されない。こうしたデータは、ユーザ110との対話型ダイアログセッション中に、意味論的コンテンツ240.1aに付与するのに適切な感情タイプコード240.1bを評価するために、ダイアログシステムによって集合的に利用可能である。こうした使用シナリオに鑑み、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から、少なくとも1つあるいは複数の事実またはプロファイル入力301を導出することが、特に有利である。

0031

[0042]図4は、本開示に従った感情タイプ分類ブロックの例示的実施形態320.1を示す。図4において、デバイス120によって取得可能な例示的な事実またはプロファイル入力301.1は、感情タイプ分類のタスクに関連するようにシステム設計者によって選択された複数の事実またはプロファイルパラメータ402〜422を含む。例示的な事実またはプロファイル入力301.1は、単なる例示のために与えられていることに留意されたい。代替の例示的実施形態において、事実またはプロファイル入力301.1の個々のパラメータのうちのいずれかを省略すること、および/または、図4に示されていない他のパラメータを追加することが可能である。パラメータ402〜422は、必ずしもパラメータの互いに素クラスを記述するものではなく、すなわち、感情タイプ分類ブロック320.1によって使用される単一タイプの入力が、入力402〜422の2つまたはそれ以上のカテゴリに同時に入る可能性がある。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

0032

[0043]ユーザ構成402は、感情タイプ分類に役立つデバイス120にユーザ110によって直接入力される情報を含む。例示的実施形態において、デバイス120のセットアップ中、または一般にデバイス120の動作中、ユーザ110は一連のプロファイル問題に答えるように求められる可能性がある。たとえばユーザ110は、年齢および性別趣味、関心、好きな映画スポーツ性格特性などに関して問われる可能性がある。いくつかのインスタンスにおいて、ユーザの性格特性(たとえば、外向性または内向性、支配的または従順など)に関する情報は、パーソナリティプロファイルアンケートからの質問を問うことによって推測可能である。ユーザ構成402からの情報は、感情タイプコード240.1bを選択するために、感情タイプ分類ブロック320.1によって後で使用するために記憶することができる。

0033

[0044] ユーザオンラインアクティビティ404は、インターネットまたは他のネットワークとの間でデバイス120を介して伝送される、インターネット使用統計および/またはデータのコンテンツを含む。例示的実施形態において、オンラインアクティビティ404は、たとえばデバイス120を介してウェブ検索エンジンサブミットされるような、ユーザ検索クエリを含むことができる。ユーザ検索クエリのコンテンツは留意され、同様のクエリの頻度および/またはタイミングなどの他の統計とすることができる。例示的実施形態において、オンラインアクティビティ404は、頻繁にアクセスされるウェブサイトの識別、電子メールメッセージのコンテンツ、ソーシャルメディアウェブサイトへの投稿を、さらに含むことができる。

0034

[0045]ユーザ通信406は、デバイス120を使用して実行されるテキストまたは音声の通信を含む。こうした通信は、たとえば、ショートメッセージングサービス(SMS)を介して送信されるテキストメッセージワイヤレスネットワークを介する音声通話などを含むことができる。ユーザ通信406は、ネイティブまたは第三者のソーシャルメディアネットワーク、たとえば、デバイス120を使用してユーザ110によってアクセスされるインターネットウェブサイト上でのメッセージング、あるいは、インスタントメッセージングまたはチャットアプリケーションなどを含むこともできる。

0035

[0046]ユーザ位置408は、たとえば、1つまたは複数のセルラー基地局、または、インターネットベースの位置サービスが実行可能な場合はこうしたサービスとの、ワイヤレス通信を介して、デバイス120が利用可能なユーザ位置の記録を含むことができる。ユーザ位置408はさらに、たとえばユーザが家または職場、車内、混雑した環境、会議室にいる場合など、ユーザの位置コンテキストを指定することができる。

0036

[0047]カレンダ/スケジューリング機能/現地の日付および時刻410は、ユーザのアクティビティスケジュールに基づく感情分類に関連するような時刻情報を含むことができる。たとえば、こうした情報は、パーソナルスケジューリングオーガナイザとしてのユーザ110によるデバイス120の使用を前提とすることができる。例示的実施形態において、ユーザのカレンダ上の時間セグメントが利用可能であるかまたは利用不可であるかは、感情タイプの分類に関連するものであり得る。さらに、今後のアポイントメントの性質、たとえばスケジュールされた休暇または重要な商談も、関連するものであり得る。

0037

[0048]カレンダ/スケジューリング機能/現地の日付および時刻410は、ある時間がユーザの勤務時間重複するかどうか、または現在の日付が週末に対応するかどうかなどの情報を、さらに組み込むことができる。

0038

[0049]ユーザ感情状態412は、ユーザのリアルタイムの感情状態の決定に関するデータを含む。こうしたデータは、ダイアログシステムに対するユーザの発話のコンテンツ、ならびに音声パラメータ生理的信号などを含むことができる。感情認識技術は、デバイス120上の様々なセンサ(たとえば、物理センサ入力420)によって感知されるような、たとえば、ユーザの会話、顔の表情、デバイス120との間で通信される最近のテキストメッセージ、体温および心拍数を含む生理兆候などを感知することによって、ユーザの感情を推測する際に、さらに利用することができる。

0039

[0050]デバイス使用統計414は、ユーザ110がどの程度頻繁にデバイス120を使用するか、ユーザがどの程度の期間、何の目的でデバイス120を使用したかなどに関する、情報を含むことができる。例示的実施形態において、一日を通じたユーザのデバイス120との対話の時間および頻度、ならびにそれらの対話中に、使用されたアプリケーション、または閲覧されたウェブサイトを、記録することが可能である。

0040

[0051]オンライン情報リソース416は、オンライン情報源から取得されるような、ユーザの関心に関するニュースまたはイベントを含むことができる。たとえば、ユーザ110がスポーツチームのファンであるという決定に基づいて、オンライン情報リソース416は、そのスポーツチームが最近試合に勝ったというニュースを含むことができる。代替として、たとえば、ユーザ110があるタイプの料理好むことが決定された場合、オンライン情報リソース416は、ユーザの家の近くにそのタイプの新しいレストランが開店したばかりであるというニュースを含むことができる。

0041

[0052]デジタルアシスタント(DA)パーソナリティ418は、ダイアログシステムに関するパーソナリティプロファイルを指定することができるため、ユーザによるダイアログシステムとの対話は、人間のアシスタントとの対話をより厳密に模倣することになる。DAパーソナリティプロファイルは、たとえば、DAが外向性であるか内向性であるか、支配的であるか従順であるか、またはDAの性別を指定することができる。たとえば、DAパーソナリティ418は、デジタルアシスタントに対して女性の明朗なパーソナリティに対応するプロファイルを指定することができる。この機能は、図2を参照しながら上記で説明したようなシステムパーソナリティブロック255の代替として、またはこれに関連して提供することができることに留意されたい。

0042

[0053]物理センサ入力420は、デバイス120の物理パラメータを感知するためのデバイス120上のセンサから導出される信号を含むことができる。たとえば、物理センサ入力420は、たとえばユーザ110が現在歩いているかまたは車中にいるかを決定するために、デバイス120内の加速度計および/またはジャイロスコープからのセンサ信号を含むことができる。ユーザの現在の移動状況の知識は、適切な感情応答の生成に役立つ感情タイプ分類ブロック320.1に情報を提供することができる。物理センサ入力420は、たとえば、背景雑音に基づいて環境の特徴を推測するためなどに、デバイス120上のマイクロフォンまたは他の音響録音デバイスからのセンサ信号も含むことができる。

0043

[0054]会話履歴422は、ユーザとデジタルアシスタントとの間での現在および過去の会話の任意の録音を含むことができる。

0044

[0055] 事実またはプロファイル入力301.1ならびにユーザダイアログ入力230aは、感情タイプ分類ブロック320.1の感情タイプ分類アルゴリズム450への入力として提供することができる。感情タイプ分類アルゴリズム450は、特定の事実またはプロファイル入力301.1およびユーザダイアログ入力230aによって指定された多次元ベクトルを、たとえば適切な感情タイプおよび対応するその感情の程度を指定する、感情タイプコード240.1bの特定の出力決定マッピングすることができる。

0045

[0056]図5は、ハイブリッド感情タイプ分類アルゴリズムの例示的実施形態450.1を示す。図5は、単なる例示のために示されており、本開示の範囲を図示された任意の特定タイプのアルゴリズムに限定するものではないことに留意されたい。

0046

[0057]図5において、感情タイプ分類アルゴリズム450.1は、感情タイプを選択するために使用されることになる少なくとも1つのアルゴリズムを選択するための、アルゴリズム選択ブロック510を含む。例示的実施形態において、少なくとも1つのアルゴリズムは、規則ベースアルゴリズム512およびトレーニング済みアルゴリズム514を含む。規則ベースアルゴリズム512は、ダイアログシステムの設計者によって指定されたアルゴリズムに対応可能であり、一般に、所与の感情タイプを特定のシナリオ、事実、プロファイル、および/またはユーザダイアログ入力に割り当てるために、設計者によって見分けられるような基本的原理に基づくものとすることができる。他方で、トレーニング済みアルゴリズム514は、そのパラメータおよび機能的マッピングが、たとえばオフラインで大規模セットのトレーニングデータから導出される、アルゴリズムに対応可能である。トレーニング済みアルゴリズム514内の入力と出力との間の相互関係は、規則ベースアルゴリズム512内よりもシステム設計者に対してトランスペアレントでない可能性があり、トレーニング済みアルゴリズム514は一般に、アルゴリズムトレーニングから決定されるような変数間のより複雑な相互依存性を捕らえ得ることを理解されよう。

0047

[0058]図5に見られるように、規則ベースアルゴリズム512およびトレーニング済みアルゴリズム514はどちらも、入力として事実またはプロファイル入力301.1およびユーザダイアログ入力230aを受け入れることができる。アルゴリズム選択ブロック510は、任意のインスタンスにおいて感情タイプコード240.1bを選択するために使用するように、アルゴリズム512または514のうちの適切な1つを選択することができる。たとえば、値の所定のセットに対応する事実またはプロファイル入力301.1および/またはユーザダイアログ入力230aに応答して、選択ブロック510は、トレーニング済みアルゴリズム514の代わりに特定の規則ベースアルゴリズム512を実装することを選択するか、またはその逆を選択することができる。例示的実施形態において、たとえば、基本的原理に基づくそれらの設計が結果としてあるインスタンスにおいて、感情タイプのより正確な分類を生じさせる場合に、規則ベースアルゴリズム512が、あるケースではトレーニング済みアルゴリズム514よりも好ましい可能性がある。規則ベースアルゴリズム512は、たとえば、あるタイプのトレーニング済みアルゴリズム514を設計するために十分なトレーニングデータが利用できないというあるシナリオにおいても、好ましい可能性がある。例示的実施形態において、特定の入力セットに基づいて予測される応答を導出することが設計者にとって相対的に容易である場合、規則ベースアルゴリズム512を選択することができる。

0048

[0059]図6は、規則ベースアルゴリズムの例示的実施形態600を示す。図6は単なる例示のために示されており、本開示の範囲を、規則ベースアルゴリズム、規則ベースアルゴリズムの任意の特定の実装、あるいは、事実またはプロファイル入力301.1または感情タイプ240bについての任意の特定の形式またはコンテンツに、限定するものではないことに留意されたい。

0049

[0060]図6において、意思決定ブロック610で、ユーザ感情状態412が「幸せ」であるかどうかが決定される。幸せでない場合、アルゴリズムはブロック612に進み、感情タイプコード240bを「中立」に設定する。幸せである場合、アルゴリズムは意思決定ブロック620に進む。

0050

[0061]意思決定ブロック620で、ユーザ構成402のパーソナリティパラメータ402.1が「外向性」であるかどうかがさらに決定される。外向性でない場合、アルゴリズムはブロック622に進み、感情タイプコード240bを、感情タイプ「興味あり」の程度が1であることを示す「興味あり(1)」に設定する。外向性である場合、アルゴリズムはブロック630に進み、感情タイプコード240bを「幸せ(3)」に設定する。

0051

[0062]規則ベースアルゴリズム600は、外向性のユーザは、より陽気または「より幸せ」な感情タイプを表すダイアログシステムに関心を持ちやすいという想定の下で、ユーザのパーソナリティに基づいて、選択的に感情タイプコード240bを設定することを理解されよう。さらに規則ベースアルゴリズム600は、現在幸せなユーザは、同じく幸せな感情タイプを有するシステムにより積極的に応答するという想定のもので、現在のユーザ感情状態に基づいて感情タイプコード240bを設定する。代替の実施形態において、感情タイプコード240bを事実またはプロファイル入力301.1の他のパラメータおよび値に関連付けるように、本明細書で明示的に説明していない他の規則ベースアルゴリズムを容易に設計することができる。

0052

[0063]アルゴリズム600によって示されるように、感情タイプコード240bの決定は、必ずしも常に、事実またはプロファイル入力301.1およびユーザダイアログ入力230aにおけるすべての利用可能パラメータを利用するわけではない。特にアルゴリズム600は、ユーザ感情状態412およびユーザ構成402のみを利用する。利用可能パラメータの任意のサブセットを利用するアルゴリズムのこうした例示的実施形態、ならびに、本明細書で明示的に説明していないパラメータを利用するアルゴリズムの代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

0053

[0064]図7は、規則ベースアルゴリズムの代替の例示的実施形態700を示す。図7において、意思決定ブロック710で、ユーザダイアログ入力230aが更新されたニュースに関するユーザによるクエリに対応するかどうかが決定される。対応する場合、アルゴリズムは意思決定ブロック720に進む。

0054

[0065]意思決定ブロック720で、ユーザ感情状態412が「幸せ」であるかどうか、またさらに、オンライン情報リソース416が、ユーザのお気に入りのスポーツチームが試合に勝ったばかりであることを示すかどうかが、決定される。例示的実施形態において、ユーザのお気に入りのスポーツチームは、事実またはプロファイル入力301.1の他のパラメータから、たとえば、ユーザ構成402、ユーザオンラインアクティビティ404、カレンダ/スケジューリング機能410などから、それ自体を導出することができる。意思決定ブロック720の出力が肯定の場合、アルゴリズムはブロック730に進み、感情タイプコード240bは「興奮(3)」に設定される。

0055

[0066]感情タイプコード240bを選択するための規則ベースアルゴリズムに加えて、感情タイプ分類アルゴリズム450.1は、代替としてまたは関連して、トレーニング済みアルゴリズムを利用することができる。図8は、感情タイプを選択するためにトレーニング済みアルゴリズムを導出するためのトレーニング方式の例示的実施形態800を示す。図8は単なる例示のために示されており、本開示の範囲を、感情タイプを選択するためのトレーニングアルゴリズムに関するいずれの特定の技法にも限定するものではないことに留意されたい。

0056

[0067]図8において、トレーニング段階801中、アルゴリズムトレーニングブロック810に、一連または複数の基準事実またはプロファイル入力301.1*、対応する一連の基準の前ユーザ入力230a*、および対応する一連の基準感情タイプコード240.1b*を含む、入力が提供される。本明細書において、括弧で囲まれたパラメータx{x}は、複数または一連のオブジェクトxを示すことに留意されたい。特に、各基準事実またはプロファイル入力301.1*は、事実またはプロファイル入力301.1の設定の特定の組み合わせに対応する。

0057

[0068] たとえば、1つの例示的な基準事実またはプロファイル入力301.1*は、ユーザ構成402を「外向性」パーソナリティタイプを含むように、ユーザオンラインアクティビティ404を語句「シーホークス」に関するオンライン検索の複数のインスタンスを含むように、ユーザ位置408を居住市として「シアトル」に対応するように、指定することができる。この基準事実またはプロファイル入力301.1*に対応して、基準ユーザダイアログ入力230a*は、最新のスポーツニュースに関するユーザクエリを含むことができる。代替のインスタンスにおいて、この基準事実またはプロファイル入力301.1*に対応する基準ユーザダイアログ入力230a*は、前ユーザ入力を全く示さないNULL文字列とすることができる。基準事実またはプロファイル入力301.1*および対応する基準ユーザダイアログ入力230a*のこの例示的組み合わせに基づいて、トレーニング段階801中、アルゴリズムトレーニングブロック810に基準感情タイプコード240.1b*を指定することができる。

0058

[0069]例示的実施形態において、基準事実またはプロファイル入力301.1*およびユーザダイアログ入力230a*の特定の設定に適切な基準感情タイプコード240.1b*を、人間の注釈者または判定者によって供給することができる。これらの人間の注釈者には、トレーニング段階801中に、基準事実またはプロファイル入力および基準ユーザ入力の個別の組み合わせを提示することが可能であり、この状況に応答して、各組み合わせに好適な感情タイプの注釈を付けることができる。このプロセスは、多くの人間の注釈者ならびに、基準事実またはプロファイル入力および前ユーザ入力の多くの組み合わせを使用して反復することができるため、大量のトレーニングデータをアルゴリズムトレーニングブロック810に利用することができる。トレーニングデータおよび基準の感情タイプ注釈に基づいて、基準入力の所与の組み合わせを基準出力に最も正確にマッピングするトレーニング済みアルゴリズムのために、トレーニング済みアルゴリズムパラメータ810aの最適なセットを導出することができる。

0059

[0070]例示的実施形態において、人間の注釈者は、デジタルアシスタントのパーソナリティの対応する特徴と同様または同一の、ある特徴を有することができる。たとえば人間の注釈者は、たとえば、システムパーソナリティ255および/またはデジタルアシスタントパーソナリティ418によって指定されるような、デジタルアシスタントの構成済み特徴と同じ性別またはパーソナリティタイプを有することができる。

0060

[0071]アルゴリズムトレーニングブロック810は、基準事実またはプロファイル入力301.1*、ユーザダイアログ入力230a*、および基準感情タイプコード240.1b*の複数の供給されたインスタンスに応答して、入力の各組み合わせを供給された基準感情タイプに最適にマッピングする、アルゴリズムパラメータのセット、たとえば重み、構造、係数などを、導出するように構成される。例示的実施形態において、入力を出力にマッピングするための一般規則を最適に導出する、機械学習、たとえば管理学習からの技法を利用することができる。これに応じてアルゴリズムトレーニングブロック810は、図5に示されるようなトレーニング済みアルゴリズムブロック514の例示的実施形態514.1に提供される、トレーニング済みアルゴリズムパラメータ810aの最適なセットを生成する。特に、ブロック514.1は、トレーニング済みアルゴリズムパラメータ810aに従って、リアルタイム動作802中に感情タイプ240.1bを選択する。

0061

[0072] さらに下記で、本開示の技法の例示的適用例を説明する。この例は単なる例示のために与えられるものであり、本開示の範囲を、事実またはプロファイル入力、システム応答、またはシナリオのいずれの特定のセットまたはタイプにも限定するものではないことに留意されたい。

0062

[0073]マークフットボールファンである。彼は常に、ナシナルフットボールリーグ(NFL)に関するニュースに注意を払っている。シアトル在住の彼のお気に入りのチームは、シアトルシーホークスである。毎週曜日、マークは自分のスマートフォンを使ってフットボールゲームをオンラインで視聴し、自分の友人たちとオンラインチャットアプリケーションを介してプレーヤおよびチームについて意見を交わす。彼は自分のアクティビティや興味もソーシャルメディアアプリケーションで共有する。数か月前、シーホークスが49ersを延長戦で打ち負かした時、彼は非常に興奮して、その勝利について自分のソーシャルメディアのプロフィールページで大々的に論じた。

0063

[0074] ある月曜日、シーホークスはサンフランシスコマンデーナイトフットボールで、49ersと試合をしていた。残念ながら、マークはクライアント夕食を取っており、試合を見過ごした。その夕食はマークにとって重要な商談であり、彼は商取引をまとめられそうであった。結果的に商談は非常にうまく進行し、マークの提案はクライアントに承認された。夕食後、マークは帰宅する車中で、リアルタイムの音声会話をするために自分のスマートフォンで対話型ダイアログシステム(またはデジタルアシスタントDA)を起動した。

0064

[0075]マーク:「やあ、素晴らしい夕食だったよ!契約を結んだ。ダン(マークの上司)はきっと喜ぶよ。」

0065

[0076]デジタルアシスタント(陽気な調子の声で):「やった!良かったね。」(DA応答1)

0066

[0077]マーク:「ところでシーホークスはどうだった、教えてよ!」

0067

[0078]デジタルアシスタント(興奮した調子の声で):「当ててみて。君のシーホークスは勝ったよ!49ersを30対25で打ち負かしたんだ。ラッセルウィルソンが第4クォータで2本のタッチダウンパスを決めたよ。」(DA応答2)

0068

[0079]マーク:「わぁ、それはすごい。試合を見られなくて残念だ。今年もプレイオフに進むね!」

0069

[0080]デジタルアシスタント(引き続き興奮した声で、やや抑え気味に):「うん!プレイオフの間、君のカレンダをブロックしておかなくちゃ。見逃したくないだろ!」(DA応答3)

0070

[0081] 上記の例は、本開示の技法のいくつかの態様を示している。特に、対話型ダイアログシステムはマークがフットボールファンであること、およびシーホークスファンであることも知っている。システムはこの情報を、たとえば、マークがフットボールニュースの追跡を希望していること、ならびに彼のお気に入りのチームがシーホークスであることを示す、マークが自分のデジタルアシスタント上で構成した明示的設定から取得する。DAはオンライン情報源から、シーホークスがその夜ライバルチームのサンフランシスコ49ersと試合をしたこと、およびシーホークスが逆転勝ちしたことも知っている。これによってDAはシーホークスの勝利のニュースをマークに報告する時に、興奮した調子の声(DA応答2)に対応する感情タイプを選択することができる。さらにDAは、マークの好みについての知識および彼の事前入力に基づいて、マークのカレンダをブロックする時間を提案する時に、興奮した調子の声(DA応答3)を選択する。

0071

[0082] さらにダイアログシステムは、たとえば、マークのスマートフォンの使用パターン(たとえば、使用頻度、使用時間など)、自分のスマートフォンのセットアップ時にマークによって示された個人的な興味および趣味、ならびに自分のソーシャルメディアネットワークに対するステータス更新から導出される、マークのパーソナリティに関する情報を有する。この例において、ダイアログシステムは、マークのパーソナリティを推測するために彼の電話の使用パターンによって生成された大量の統計を取り扱うように設計された機械学習アルゴリズムに基づいて、マークが外向性の誠実な人間であることが決定できる。

0072

[0083]マークがDAシステムを2か月前に起動したこと、および彼がそれ以来DAを定期的かつますます頻繁に使用しているという事実から、さらなる情報が導出される。先週、マークはDAと平均一日5回対話した。例示的実施形態において、ある感情タイプ分類アルゴリズムは、こうした対話の頻度に起因して、マークとDAとの間の親密さが深くなっていることを推測できる。

0073

[0084] さらにDAは、マークの現在の感情状態が幸せであることを彼の声から決定する。彼のデバイス上のカレンダ/スケジューリング機能を使用することで、DAは勤務時間後であること、およびマークがクライアントとの商談を終えたばかりであることを知る。対話中、DAは、たとえば車の電子機器とのワイヤレスブルートゥース登録商標)接続の確立、加速度計によって決定される歩行期間に続く静止期間、車内の低レベルの背景雑音、測定された移動速度などから、マークが車中にいることを識別する。さらに、時刻統計に合致する位置データ履歴などの過去のデータから、マークが夕食後に車で帰宅していることが推量される。したがって、図4のブロック450.1を参照しながら説明したような分類アルゴリズムにより、DAは陽気な調子の声(DA応答1)に対応する感情タイプを選択する。

0074

[0085]図9は、本開示に従った方法900の例示的実施形態を示す。図9は単なる例示のために示されたものであり、本開示の範囲を図示された任意の特定の方法に限定するものではないことに留意されたい。

0075

[0086]図9において、ブロック910で、方法は、少なくとも1つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択することを含み、感情タイプコードは複数の所定の感情タイプのうちの1つを指定する。

0076

[0087]ブロック920で、方法は、出力ステートメントに対応する音声を生成することを含み、生成された音声は感情タイプコードによって指定された所定の感情を有する。例示的実施形態において、少なくとも1つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される。

0077

[0088]図10は、前述の方法およびプロセスのうちの1つまたは複数を実行することが可能な非限定的コンピューティングシステム1000を概略的に示す。コンピューティングシステム1000は簡略形式で示される。仮想的に、任意のコンピュータアーキテクチャを本開示の範囲を逸脱することなく使用できることが理解されよう。異なる実施形態において、コンピューティングシステム1000は、メインフレームコンピュータ、サーバコンピュータクラウドコンピューティングシステムデスクトップコンピュータラップトップコンピュータタブレットコンピュータホームエンターテイメントコンピュータ、ネットワークコンピューティングデバイスモバイルコンピューティングデバイス、モバイル通信デバイス、スマートフォン、ゲーミングデバイスなどの形を取ることができる。

0078

[0089]コンピューティングシステム1000は、プロセッサ1010およびメモリ1020を含む。コンピューティングシステム1000は、任意選択により、ディスプレイサブシステム、通信サブシステムセンササブシステムカメラサブシステム、および/または図10に示されていない他のコンポーネントを含むことができる。コンピューティングシステム1000は、任意選択により、たとえばキーボードマウスゲームコントローラ、カメラ、マイクロフォン、および/またはタッチスクリーンなどの、ユーザ入力デバイスを含むこともできる。

0079

[0090]プロセッサ1010は、1つまたは複数の命令を実行するように構成された1つまたは複数の物理デバイスを含むことができる。たとえばプロセッサは、1つまたは複数のアプリケーション、サービス、プログラムルーチンライブラリ、オブジェクト、コンポーネント、データ構造、または他の論理構成の一部である、1つまたは複数の命令を実行するように構成可能である。こうした命令は、タスクの実行、データタイプの実装、1つまたは複数のデバイスの状態の変換、または場合によっては所望の結果の達成のために実装可能である。

0080

[0091]プロセッサは、ソフトウェア命令を実行するように構成された1つまたは複数のプロセッサを含むことができる。追加または代替として、プロセッサは、ハードウェアまたはファームウェア命令を実行するように構成された、1つまたは複数のハードウェアまたはファームウェア論理機械を含むことができる。プロセッサのプロセッサは、シングルコアまたはマルチコアであってよく、その上で実行されるプログラムは並列または分散処理用に構成可能である。プロセッサは、任意選択により、リモートに配置され、および/または調整処理用に構成することが可能な、2つまたはそれ以上のデバイス全体に分散される個々のコンポーネントを含むことができる。プロセッサの1つまたは複数の態様は、クラウドコンピューティング構成で構成されたリモートにアクセス可能ネットワーク化コンピューティングデバイスによって仮想化および実行することができる。

0081

[0092]メモリ1020は、本明細書で説明する方法およびプロセスを実装するために、プロセッサによって実行可能なデータおよび/または命令を保持するように構成された、1つまたは複数の物理デバイスを含むことができる。こうした方法およびプロセスが実装される時、メモリ1020の状態は(たとえば異なるデータを保持するように)変換可能である。

0082

[0093]メモリ1020は、取り外し可能媒体および/または組み込みデバイスを含むことができる。メモリ1020は、とりわけ、光学メモリデバイス(たとえば、CD、DVD、HD-DVD、Blu-Rayディスクなど)、半導体メモリデバイス(たとえば、RAM、EPROM、EEPROMなど)、および/または磁気メモリデバイス(たとえば、ハードディスクドライブフロッピィディスクドライブテープドライブMRAMなど)を含むことができる。メモリ1020は、揮発性不揮発性、動的、静的、読み取り/書き込み、読み取り専用ランダムアクセス順次アクセス位置アドレス指定可能、ファイルアドレス指定可能、およびコンテンツアドレス指定可能の特徴のうちの、1つまたは複数を備えるデバイスを含むことができる。いくつかの実施形態において、プロセッサ1010およびメモリ1020は、特定用途向け集積回路またはシステムオンチップなどの、1つまたは複数の共通デバイスに組み込むことができる。

0083

[0094]メモリ1020は、本明細書で説明する方法およびプロセスを実装するために実行可能なデータおよび/または命令の記憶および/または転送使用可能な、取り外し可能コンピュータ可読記憶媒体の形を取ることもできる。メモリ1020は、とりわけ、CD、DVD、HD−DVD、Blu−Rayディスク、EEPROM、および/またはフロッピィディスクの形を取ることができる。

0084

[0095]メモリ1020は、情報を記憶する1つまたは複数の物理デバイスを含むことを理解されよう。「モジュール」、「プログラム」、および「エンジン」という用語は、1つまたは複数の特定の機能を実行するために実装されたコンピューティングシステム1000の態様を記述するために使用可能である。いくつかのケースにおいて、こうしたモジュール、プログラム、またはエンジンは、メモリ1020によって保持される命令を実行するプロセッサ1010を介してインスタンス化可能である。異なるモジュール、プログラム、および/またはエンジンを、同じアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、API、関数などからインスタンス化できることを理解されよう。同様に、同じモジュール、プログラム、および/またはエンジンを、異なるアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、API、関数などからインスタンス化できる。「モジュール」、「プログラム」、および「エンジン」という用語は、実行可能ファイルデータファイル、ライブラリ、ドライバスクリプトデータベースレコードなどの個々またはグループ包含することを意味する。

0085

[0096] 態様において、コンピューティングシステム1000は、少なくとも1つの事実またはプロファイル入力に基づいて、出力ステートメントに関連付けられた感情タイプコードを選択するために、プロセッサ1010によって実行可能な命令を保持するメモリ1020を含む、コンピューティングデバイスに対応することが可能であり、感情タイプコードは複数の所定の感情タイプのうちの1つを指定する。命令は、出力ステートメントに対応する音声を生成するために、プロセッサ1010によってさらに実行可能であり、生成された音声は、感情タイプコードによって指定された所定の感情タイプを有するものである。例示的実施形態において、少なくとも1つの事実またはプロファイル入力は、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される。こうしたコンピューティングデバイスは、プロセス、機械、製造、または組成物に対応することを理解されたい。

0086

[0097]図11は、本開示に従った装置1100の例示的実施形態を示す。装置1100は単なる例示のために示されており、本開示の範囲を図示された任意の特定の装置に限定するものではないことに留意されたい。

0087

[0098]図11において、分類ブロック1120は、少なくとも1つの事実またはプロファイル入力1120bに基づいて、出力ステートメント1110aに関連付けられた感情タイプコード1120aを選択するように構成される。感情タイプコード1120aは、複数の所定の感情タイプのうちの1つを指定する。テキスト−音声ブロック1130は、出力ステートメント1110aと感情タイプコード1120aによって指定された所定の感情タイプとに対応する、音声1130aを生成するように構成される。例示的実施形態において、少なくとも1つの事実またはプロファイル入力1120bは、対話型ダイアログシステムを実装するモバイル通信デバイスの使用から導出される。

0088

[0099] 本開示の技法は、必ずしもモバイル通信デバイスを組み込んだ実施形態に限定されるものでないことに留意されたい。代替の例示的実施形態において、本技法は、たとえばデスクトップコンピュータ、ホームゲーミングシステムなどの、非モバイルデバイスに組み込むこともできる。さらに、本技法を組み込むモバイル通信デバイスは、必ずしもスマートフォンに限定されるものではなく、コンピュータ化された腕時計眼鏡などのウェアラブルデバイスを含むこともできる。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

0089

[00100]図12は、本開示の技法が、可聴音声ではなくまたは可聴音声に加えて表示されるテキストに付与される感情コンテンツを伴うダイアログシステムに組み込まれる、例示的実施形態1200を示す。図12に示されるブロックは図2で同様にラベル付けされたブロックに対応しており、図2に示されるあるブロックは説明しやすいように図12から省略されていることに留意されたい。

0090

[00101]図12において、言語生成ブロック250の出力250aは、ダイアログエンジン240によって生成される感情タイプコード240bと組み合わされ、テキスト−音声および/または表示用テキストブロック1260に入力される。テキスト−音声態様において、ブロック1260は、意味論的コンテンツ240aおよび感情タイプコード240bを用いて音声を生成する。表示用テキスト態様において、ブロック1260は、代替としてまたはさらに、意味論的コンテンツ240aおよび感情タイプコード240bを用いて表示用テキストを生成する。感情タイプコード240bは、たとえば、表示されるテキスト文字のサイズまたはフォントを調整すること、感情タイプコード240bに対応する顔文字(たとえば、笑顔または他のピクチャ)を提供することなどのような技法を使用して、表示されるテキストに感情を付与することができることを理解されよう。例示的実施形態において、ブロック1260は、代替としてまたはさらに、ディスプレイ上のDAまたはユーザを表す1つまたは複数のアバターに対して、感情ベースのアニメーションまたはグラフカル修正を生成する。たとえば、感情タイプコード240bが「悲しみ」に対応している場合、事前に選択されたDAを表すアバターは、事前に構成された「悲しい」表情を用いて生成するか、または場合によっては、たとえば「泣いている動作」などの動きを介して悲しみを表現するようにアニメーション化することができる。こうした代替の例示的実施形態は、本開示の範囲内にあるものと企図される。

0091

[00102] 本明細書および特許請求の範囲において、要素が別の要素に「接続」または「結合」されていると言い表される場合、これは他の要素に直接接続または結合可能であるか、あるいは介在要素が存在可能であることが理解されよう。これに対して、要素が別の要素に「直接接続」または「直接結合」されていると言い表される場合、介在要素は一切存在しない。さらに、要素が別の要素に「電気的に結合」されていると言い表される場合、これはこうした要素間に低抵抗経路が存在することを示し、要素が別の要素に単に「結合」されていると言い表される場合、こうした要素間には低抵抗の経路が存在するかまたは存在しない場合がある。

0092

[00103] 本明細書で説明する機能は、少なくとも部分的に、1つまたは複数のハードウェアおよび/またはソフトウェア論理コンポーネントによって実行可能である。たとえば、制限なしに、使用可能な例示タイプのハードウェア論理コンポーネントは、フィールドプログラマブルゲートアレイFPGA)、特定プログラム向け集積回路ASIC)、特定プログラム向け標準製品(ASSP)、システムオンチップシステム(SOC)、結合プログラマブル論理デバイス(CPLD)などを含む。

0093

[00104] 本発明は様々な修正および代替の構成が可能であるが、図面内にはそのうちのある例示的な実施形態が示されており、上記で詳細に説明している。しかしながら、本発明を開示された特定の形に限定する意図はなく、むしろ、本発明の趣旨および範囲内に入るすべての修正、代替構成、および等価物カバーするものと意図されることを理解されたい。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

該当するデータがありません

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

該当するデータがありません

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

この 技術と関連性が強い技術

該当するデータがありません

この 技術と関連性が強い法人

該当するデータがありません

この 技術と関連性が強い人物

該当するデータがありません

この 技術と関連する社会課題

該当するデータがありません

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ