図面 (/)

技術 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器

出願人 深せん前海達闥云端智能科技有限公司
発明者 劉兆祥廉士國王寧
出願日 2019年9月6日 (1年5ヶ月経過) 出願番号 2019-163325
公開日 2020年4月23日 (9ヶ月経過) 公開番号 2020-064616
状態 未査定
技術分野 双方向TV,動画像配信等 デジタル計算機のユーザインターフェイス イメージ処理・作成
主要キーワード タイプラベル 補助ロボット インタラクション装置 訓練過程 訓練モジュール 人体姿勢 マルチメディアコンポーネント Fiモジュール
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年4月23日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (9)

課題

仮想ロボットとユーザとの間のインタラクションを実現し、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感アクションコミュニケーションへのニーズ応えることができる仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器を提供する。

解決手段

インタラクション方法は、ユーザより入力された仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマー行動応答情報モデル訓練サンプルとして訓練して得た仮想ロボットの制御モデルに入力するステップと、制御モデルがインタラクティブ情報に基づいて出力した行動制御情報に基づいて、仮想ロボットに対して行動制御を行うステップとを含む。

概要

背景

現在、仮想アイドルは、エンターテインメント分野において新たなスポットライトとなり、人々の中で人気を集めてきた。しかしながら、伝統的な仮想アイドルは、主にシステムにより事前設定され、キャラクタープロット発展インタラクション方式などの要素に基づいて事前実装されており、視聴者リアルタイム対話することはできず、柔軟性および適用性は低い。

ネットワークライブストリーミング業界の発展に伴い、ユーザは、ネットワークのライブストリーミングプラットフォームにおいてライブストリーミングを視聴し、文字を通じてストリーマーと対話したり、さらにはストリーマーへ仮想賞品を贈ったりすることができ、従来の仮想アイドル技術は、ライブストリーミングプラットフォームに適用してライブストリーミングを達成することはできず、ライブルームの従来の補助ロボットの機能も比較的単純で、主に音声に基づいており、人々の感情的なコミュニケーションアクションのコミュニケーションのエクスペリエンスを満たすことができない。

概要

仮想ロボットとユーザとの間のインタラクションを実現し、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズ応えることができる仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器を提供する。インタラクション方法は、ユーザより入力された仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報モデル訓練サンプルとして訓練して得た仮想ロボットの制御モデルに入力するステップと、制御モデルがインタラクティブ情報に基づいて出力した行動制御情報に基づいて、仮想ロボットに対して行動制御を行うステップとを含む。

目的

本開示の主な目的は、上記関連技術に存在する問題を解決するために、仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

仮想ロボットインタラクション方法であって、ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマー行動応答情報モデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するステップと、前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップとを含むことを特徴とする仮想ロボットのインタラクション方法。

請求項2

前記制御モデルを訓練する方法をさらに含み、前記方法は、ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得するステップと、ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップとを含むことを特徴とする請求項1に記載の方法。

請求項3

ビデオライブストリーミングプラットフォームから、ユーザが入力したインタラクティブ情報に対するストリーマーの行動応答情報を取得する前記ステップは、人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出するステップ、及び/又は顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出するステップ、及び/又は音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出するステップを含むことを特徴とする請求項2に記載の方法。

請求項4

前記制御モデルは、畳み込みネットワーク及び完全接続層により体動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフト画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、前記ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練する前記ステップは、前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するステップを含むことを特徴とする請求項2に記載の方法。

請求項5

前記ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する前に、前記方法は、ユーザが入力した好み情報を取得するステップと、前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定するステップとをさらに含み、前記インタラクティブ情報を前記仮想ロボットの制御モデルに入力する前記ステップは、前記インタラクティブ情報を前記目的制御モデルに入力するステップを含み、前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う前記ステップは、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップを含むことを特徴とする請求項2〜4のいずれか1項に記載の方法。

請求項6

仮想ロボットのインタラクション装置であって、ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する第1取得モジュールと、前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するモデル入力モジュールと、前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う制御モジュールとを備えることを特徴とする仮想ロボットのインタラクション装置。

請求項7

ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する第2取得モジュールと、ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するモデル訓練モジュールとをさらに備えることを特徴とする請求項6に記載の装置。

請求項8

前記第2取得モジュールは、人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する第1取得サブモジュール、及び/又は顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する第2取得サブモジュール、及び/又は音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する第3取得サブモジュールを備えることを特徴とする請求項7に記載の装置。

請求項9

前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、前記モデル訓練モジュールは、前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練することを特徴とする請求項7に記載の装置。

請求項10

前記装置は、ユーザが入力した好み情報を取得する第3取得モジュールと、前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定する決定モジュールとをさらに備え、前記モデル入力モジュールは、前記インタラクティブ情報を前記目的制御モデルに入力し、前記制御モジュールは、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うことを特徴とする請求項7〜9のいずれか1項に記載の装置。

請求項11

コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムプロセッサにより実行されると、請求項1〜5のいずれか1項に記載の前記方法のステップを実現することを特徴とするコンピュータ可読記憶媒体。

請求項12

電子機器であって、コンピュータプログラムが記憶されたメモリと、前記メモリにおける前記コンピュータプログラムを実行して、請求項1〜5のいずれか1項に記載の方法のステップを実現するプロセッサとを備えることを特徴とする電子機器。

技術分野

0001

本開示は、ヒューマンコンピュータインタラクションの分野に関し、具体的には、仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器に関する。

背景技術

0002

現在、仮想アイドルは、エンターテインメント分野において新たなスポットライトとなり、人々の中で人気を集めてきた。しかしながら、伝統的な仮想アイドルは、主にシステムにより事前設定され、キャラクタープロット発展、インタラクション方式などの要素に基づいて事前実装されており、視聴者リアルタイム対話することはできず、柔軟性および適用性は低い。

0003

ネットワークライブストリーミング業界の発展に伴い、ユーザは、ネットワークのライブストリーミングプラットフォームにおいてライブストリーミングを視聴し、文字を通じてストリーマーと対話したり、さらにはストリーマーへ仮想賞品を贈ったりすることができ、従来の仮想アイドル技術は、ライブストリーミングプラットフォームに適用してライブストリーミングを達成することはできず、ライブルームの従来の補助ロボットの機能も比較的単純で、主に音声に基づいており、人々の感情的なコミュニケーションアクションのコミュニケーションのエクスペリエンスを満たすことができない。

発明が解決しようとする課題

0004

本開示の主な目的は、上記関連技術に存在する問題を解決するために、仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器を提供することである。

課題を解決するための手段

0005

上記目的を達成させるために、本開示の実施例の第1態様は、仮想ロボットのインタラクション方法を提供し、該方法は、
ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得するステップと、
前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報モデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するステップと、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップとを含む。

0006

前記制御モデルを訓練する方法をさらに含み、該方法は、
ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得するステップと、
ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップとを含むようにしてもよい。

0007

前記ビデオライブストリーミングプラットフォームから、ユーザが入力したインタラクティブ情報に対するストリーマーの行動応答情報を取得するステップは、
人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出するステップ、及び/又は
顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出するステップ、及び/又は
音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出するステップを含むようにしてもよい。

0008

前記制御モデルは、畳み込みネットワーク及び完全接続層により体動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフト画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
前記ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップは、
前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するステップを含むようにしてもよい。

0009

前記ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する前に、前記方法は、
ユーザが入力した好み情報を取得するステップと、
前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定するステップとをさらに含み、
前記インタラクティブ情報を前記仮想ロボットの制御モデルに入力する前記ステップは、
前記インタラクティブ情報を前記目的制御モデルに入力するステップを含み、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う前記ステップは、
前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うステップを含むようにしてもよい。

0010

本開示の実施例の第2態様は、仮想ロボットのインタラクション装置を提供し、該装置は、
ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する第1取得モジュールと、
前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するモデル入力モジュールと、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う制御モジュールとを備える。

0011

ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する第2取得モジュールと、
ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するモデル訓練モジュールとをさらに備えるようにしてもよい。

0012

前記第2取得モジュールは、
人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する第1取得サブモジュール、及び/又は
顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する第2取得サブモジュール、及び/又は
音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する第3取得サブモジュールを備えるようにしてもよい。

0013

前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
前記モデル訓練モジュールは、
前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するようにしてもよい。

0014

前記装置は、
ユーザが入力した好み情報を取得する第3取得モジュールと、
前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定する決定モジュールとをさらに備え、
前記モデル入力モジュールは、前記インタラクティブ情報を前記目的制御モデルに入力し、
前記制御モジュールは、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うようにしてもよい。

0015

本開示の実施例の第3態様は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムプロセッサにより実行されると、第1態様の前記方法のステップを実現するコンピュータ可読記憶媒体を提供する。

0016

本開示の実施例の第4態様は、電子機器を提供し、該電子機器は、
コンピュータプログラムが記憶されたメモリと、
前記メモリにおける前記コンピュータプログラムを実行して、第1態様の前記方法のステップを実現するプロセッサとを備える。

発明の効果

0017

上記技術案によれば、少なくとも下記技術的効果を奏する。ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を含むビデオライブストリーミングプラットフォームの履歴データを、モデル訓練サンプルとして訓練して、出力が仮想ロボットの行動を制御する制御情報となる制御モデルを得る。このようにして、該制御モデルに基づいて、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報をリアルタイムで収集することにより、ユーザに対する仮想ロボットのリアルタイムなインタラクション応答を制御することができ、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズ応える。

0018

本開示のほかの特徴及び利点については、後述する発明を実施する形態の部分において詳細に説明する。

0019

図面は、本開示をより理解しやすくするために提供されるものであり、明細書の一部を構成し、下記特定の実施形態とともに本開示を解釈するが、本開示を制限するものではない。

図面の簡単な説明

0020

本開示の実施例による仮想ロボットのインタラクション方法の模式的フローチャートである。
本開示の実施例による仮想ロボットの制御モデルの訓練方法の模式的フローチャートである。
本開示の実施例による制御モデルの訓練過程の模式図である。
本開示の実施例による別の制御モデルの訓練過程の模式図である。
本開示の実施例による仮想ロボットのインタラクション装置の構造模式図である。
本開示の実施例による仮想ロボットのインタラクション装置の構造模式図である。
本開示の実施例による別の仮想ロボットの訓練装置の構造模式図である。
本開示の実施例によるさらなる電子機器の構造模式図である。

実施例

0021

以下、図面を参照しながら本開示の特定の実施形態を詳細に説明する。なお、ここで説明する特定の実施形態は、本開示を説明して解釈するものに過ぎず、本開示を制限するものではない。

0022

本開示の実施例は、図1に示すように、S11〜S13を含む仮想ロボットのインタラクション方法を提供し、
S11において、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報を取得する。

0023

1つの可能な実施形態では、本開示の実施例は、動画技術とネットワークのライブストリーミング技術を組み合わせて、バーチャルキャラクターアバターをネットワークのライブストリーミングルームで表示させ、ユーザが入力した前記インタラクティブ情報は、ユーザが仮想ロボットのライブストリーミングルームにおいて入力するテキスト情報及び/又はユーザが贈るギフトの画像情報などであってもよい。

0024

上記は、本開示の実施例の可能な適用シナリオの一例を挙げて説明したが、別の可能な実施形態においては、該仮想ロボットは、ネットワークのライブストリーミングに適用するのではなく、単独した最終製品に内蔵されて、チャットロボット又は情感的なインタラクションをするロボットとして販売してもよい。本開示では、それについて限定しない。

0025

S12において、前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力する。

0026

具体的には、ビデオライブストリーミングプラットフォームの履歴放送情報に基づいて、大量のサンプルを取得することができ、各ストリーマーライブストリーミングルームのチャットルームにいる視聴者が入力するテキスト情報、贈るバーチャルギフトの画像情報を上記インタラクティブ情報とするとともに、ストリーマービデオ及びオーディオからストリーマーの行動応答情報を抽出し、それにより大量のモデル訓練サンプルを取得し、このようにして、訓練して得た制御モデルの仮想ロボットに対する制御は、ストリーマーの本格的な応答により近くなる。

0027

S13において、前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う。

0028

具体的には、仮想ロボットに対する行動制御は、アバターとして表示させる仮想ロボットの体の動き、顔表情及び音声出力の制御を含み得る。

0029

上記方法によれば、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を含むビデオライブストリーミングプラットフォームの履歴放送データをモデル訓練サンプルとして訓練して、出力が仮想ロボットの行動を制御する制御情報となる制御モデルを得る。このように、該制御モデルに基づいて、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報をリアルタイムで収集することにより、ユーザに対する仮想ロボットのリアルタイムなインタラクション応答を制御することができ、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズに応える。

0030

業者が本開示の実施例による技術案をさらに理解できるように、以下、本開示の実施例による仮想ロボットのインタラクション方法について詳細に説明する。

0031

まず、ステップS12における前記制御モデルに関しては、本開示の実施例は、該制御モデルの訓練方法をさらに含み、なお、制御モデルに対する訓練は、ビデオライブストリーミングプラットフォームから収集したサンプルに基づいて事前に行われ、後で仮想ロボットとユーザとのインタラクション過程において、インタラクションするごとに制御モデルを訓練せずに済み、もしくは、ビデオライブストリーミングプラットフォームから新しく収集するサンプルに基づいて該制御モデルを周期的に更新してもよい。

0032

具体的には、仮想ロボットに対する制御モデルの訓練方法は、図2に示すように、S21とS22を含む。

0033

S21において、ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する。

0034

一例として、ユーザがビデオライブストリーミングプラットフォームにおいて入力するインタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及び/又はユーザがストリーマーに贈るバーチャルギフトの画像情報を含む。

0035

S22において、ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練する。

0036

以下、ストリーマーの行動応答情報を取得する方式について説明する。

0037

方式1は、人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する。

0038

その中でも、前記体の動き情報は、主に四肢の関節の位置情報をいう。人体姿勢解析モジュールにより連続画像フレームを入力し、畳み込みニューラルネットワークを通じて学習して姿勢確率マップを取得した後、オプティカルフロー情報と組み合わせて中間混合概率分布マップを生成し、最後に、関節位置情報は得られる。

0039

方式2は、顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する。

0040

具体的には、まず、顔検出モジュールによってストリーマービデオから顔領域を抽出し、次にディープニューラルネットワークを通じて学習し、表情分類結果を生成する。

0041

方式3は、音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する。

0042

まず、1つの音声を1枚の図像に変換して入力とし、すなわち、まず1フレームごとの音声についてフーリエ変換を行い、次に時間と周波数を図像の2つの次元とし、その後、畳み込みネットワークを通じて音声全体に対してモデリングし、出力ユニットを最後の認識結果たとえば音節又は漢字に直接対応させる。

0043

なお、上記3種類の実施形態は、実際の必要(たとえば製品機能設計)に応じて選択的に実施してもよく、つまり、ステップS21では、ビデオライブストリーミングプラットフォームから、ユーザが入力したインタラクティブ情報に対するストリーマーの行動応答情報を取得するステップは、人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出するステップ、及び/又は顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出するステップ、及び/又は音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出するステップを含む。

0044

以下、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含む場合を例にして、制御モデルの訓練を説明する。

0045

具体的には、前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、前記ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するステップは、前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するステップを含む。

0046

一例として、図3及び図4は、それぞれ制御モデルの訓練の模式図を示している。図3には、訓練データ由来が示されており、図4には、ディープラーニングネットワークに基づく制御モデルの訓練過程が示されている。図3に示すように、テキスト情報及びギフト画像をディープラーニングネットワークの入力サンプルとし、人体姿勢解析モジュール及び顔表情分析モジュールによってストリーマービデオから抽出された体の動き情報及び顔表情情報、及び音声分析モジュールによってストリーマーオーディオから抽出された音声情報をディープラーニングネットワークにより標識された出力サンプルとする。図4に示すように、ディープニューラルネットワークは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられ、仮想ロボットに対して体の動き、顔表情及び音声ごとに訓練する。

0047

なお、人体姿勢解析、顔表情分析及び音声分析は、いずれもニューラルネットワークによる深度学習の方式で実現できる。

0048

本開示の実施例の1つの可能な実施形態において、ユーザが仮想ロボットとインタラクションする前に、ユーザが自身の好みに応じて仮想ロボットを選択するようにしてもよい。一例として、ステップS11の前、ユーザが入力した好み情報を取得し、前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定し、ただし、該複数のタイプの制御モデルは、異なる性格のタイプのストリーマーについてデータを収集して訓練して得た制御モデルであってもよく、それに対応して、ステップS12は、前記インタラクティブ情報を前記目的制御モデルに入力するステップを含み、ステップS13では、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う。

0049

該好み情報は、ユーザがユーザ選択用のラベル情報から選択する目的ラベル情報であってもよく、該ラベル情報は、たとえば、ストリーマーの性格ラベル、ストリーマーのパフォーマンススタイルラベルなどとしてもよい。

0050

一例として、本開示の実施例は、ビデオライブストリーミングプラットフォームにおいてストリーマーごとに表示させる性格ラベル、パフォーマンスタイプラベルなどに基づいてストリーマーを分類し、ユーザが好み情報を入力して選択するように、各クラスのストリーマーの履歴放送情報に基づいて訓練制御モデルをそれぞれ予め訓練しておく。それにより、ユーザの好みに応じてユーザに対する仮想ロボットのインタラクションを制御することができ、ユーザによる仮想ロボット性格のカスタマイズを実現することに相当し、このため、ユーザーエクスペリエンスを向上させる。特定の実施では、仮想ロボットの外形もユーザの好みに応じてカスタマイズをすることができ、本開示では、それについて限定しない。

0051

同様な発明の構想に基づいて、本開示の実施例は、上記方法の実施例による仮想ロボットのインタラクション方法を実施するための仮想ロボットのインタラクション装置をさらに提供し、図5に示すように、該装置は、
ユーザより入力された、前記仮想ロボットとインタラクションするインタラクティブ情報を取得する第1取得モジュール51と、
前記インタラクティブ情報を、ビデオライブストリーミングプラットフォームのユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして訓練して得た前記仮想ロボットの制御モデルに入力するモデル入力モジュール52と、
前記制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行う制御モジュール53とを備える。

0052

上記装置によれば、該装置は、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を含むビデオライブストリーミングプラットフォームの履歴放送データを、モデル訓練サンプルとして訓練して、出力が仮想ロボットの行動を制御する制御情報となる制御モデルを得る。このようにして、該制御モデルに基づいて、ユーザより入力された、仮想ロボットとインタラクションするインタラクティブ情報をリアルタイムで収集することにより、ユーザに対する仮想ロボットのリアルタイムなインタラクション応答を制御することができ、仮想ロボットのリアルタイム性、柔軟性及び適用性を向上させ、ユーザによる仮想ロボットとの情感、アクションのコミュニケーションへのニーズに応える。

0053

図6に示すように、前記装置は、
ユーザが入力した好み情報を取得する第3取得モジュール54と、
前記仮想ロボットの複数のタイプの制御モデルの中から、前記好み情報とマッチングした目的制御モデルを特定する決定モジュール55とをさらに備え、
前記モデル入力モジュール52は、前記インタラクティブ情報を前記目的制御モデルに入力し、
前記制御モジュール53は、前記目的制御モデルが前記インタラクティブ情報に基づいて出力した行動制御情報に基づいて、前記仮想ロボットに対して行動制御を行うようにしてもよい。

0054

本開示の実施例は、図2による仮想ロボットの訓練方法を実施するための仮想ロボットの訓練装置をさらに提供し、図7に示すように、該装置は、
ビデオライブストリーミングプラットフォームからユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報を取得する第2取得モジュール56と、ビデオライブストリーミングプラットフォームから取得した、ユーザが入力したインタラクティブ情報及び該インタラクティブ情報に対するストリーマーの行動応答情報をモデル訓練サンプルとして前記制御モデルを訓練するモデル訓練モジュール57とを備える。一例として、ユーザがビデオライブストリーミングプラットフォームにおいて入力するインタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及び/又はユーザがストリーマーに贈るバーチャルギフトの画像情報を含む。

0055

前記第2取得モジュール56は、
人体姿勢解析モジュールによってストリーマービデオからストリーマーの体の動き情報を抽出する第1取得サブモジュール、及び/又は
顔表情分析モジュールによってストリーマービデオからストリーマーの顔表情情報を抽出する第2取得サブモジュール、及び/又は
音声分析モジュールによってストリーマーオーディオからストリーマーの音声情報を抽出する第3取得サブモジュールを備えるようにしてもよい。

0056

前記制御モデルは、畳み込みネットワーク及び完全接続層により体の動き出力、顔表情出力、音声出力の3つのブランチに分けられるディープラーニングネットワークを含み、ユーザがビデオライブストリーミングプラットフォームにおいて入力する前記インタラクティブ情報は、ユーザがライブストリーミングチャットルームにおいて入力するテキスト情報及びユーザがストリーマーに贈るバーチャルギフトの画像情報を含み、前記行動応答情報は、ストリーマーの体の動き情報、顔表情情報及び音声情報を含み、
前記モデル訓練モジュール57は、
前記テキスト情報及び前記バーチャルギフトの画像情報を訓練入力として、前記仮想ロボットの体の動き、顔表情及び音声を訓練するようにしてもよい。

0057

なお、以上提供する仮想ロボットのインタラクション装置及び訓練装置は、個別に設置してもよく、同じサーバー集積させてもよく、たとえば、該インタラクション装置及び該訓練装置は、ソフトウェアハードウェア又は両方を組み合わせた形態でサーバーの一部または全部を実現し、本開示では、それについて限定しない。

0058

上記実施例における装置に関しては、その各モジュールが操作を実行する具体的な方式について、該方法に関連する実施例において詳細に説明したため、ここで詳細に説明しない。

0059

本開示の実施例は、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、上記仮想ロボットのインタラクション方法のステップを実現するコンピュータ可読記憶媒体をさらに提供する。

0060

本開示の実施例は、さらに電子機器を提供し、該電子機器は、
コンピュータプログラムが記憶されたメモリと、
前記メモリにおける前記コンピュータプログラムを実行して、上記仮想ロボットのインタラクション方法のステップを実現するプロセッサとを備える。

0061

なお、該電子機器は、仮想ロボットの制御装置としてもよく、又は、仮想ロボットは、該電子機器において運行してもよく、本開示では、それについて限定しない。

0062

図8は、本開示の実施例による上記電子機器のブロック図である。図8に示すように、該電子機器800は、プロセッサ801、メモリ802を備えてもよい。該電子機器800は、マルチメディアコンポーネント803、入力/出力(I/O)インターフェース804、及び通信コンポーネント805のうちの1つ又は複数を備えてもよい。

0063

プロセッサ801は、上記仮想ロボットのインタラクション方法における全部又は一部のステップを実行するように該電子機器800全体の操作を制御する。メモリ802は、該電子機器800の操作をサポートするように各種タイプのデータを記憶しており、これらデータは、たとえば、該電子機器800において操作するいずれかのアプリケーションプログラム又は方法の命令、及びアプリケーションプログラムに関連するデータ、たとえば連絡先データ送受信するメッセージ、画像、オーディオ、ビデオなどを含む。該メモリ802は、任意のタイプの揮発性又は不揮発性記憶装置又はこれらの組み合わせにより実現でき、たとえば、スタティックランダムアクセスメモリ(Static Random Access Memory(SRAM))、電気的消去可能プログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read−Only Memory(EEPROM))、消去可能プログラマブル読み出し専用メモリ(Erasable Programmable Read−Only Memory(EPROM))、プログラマブル読み出し専用メモリ(Programmable Read−Only Memory(PROM))、読み取り専用メモリ(Read−Only Memory(ROM))、磁気メモリフラッシュメモリ磁気ディスク又は光ディスクである。マルチメディアコンポーネント803は、画面及びオーディオコンポーネントを備えてもよい。画面は、たとえば、タッチスクリーンであってもよく、オーディオコンポーネントは、オーディオ信号を出力及び/又は入力することに用いられる。たとえば、オーディオコンポーネントは、外部からのオーディオ信号を受信可能なマイクロフォンを含み得る。受信するオーディオは、さらにメモリ802に記憶され又は通信コンポーネント805により送信される。オーディオコンポーネントは、オーディオ信号を出力するための少なくとも1つのスピーカーを備える。I/Oインターフェース804は、プロセッサ801とほかのインターフェースモジュールとの間のインターフェースとなり、上記ほかのインターフェースモジュールは、キーボードマウス、ボタンなどであってもよい。これらボタンは、仮想ボタン又は物理ボタンである。通信コンポーネント805は、該電子機器800とほかの機械との間の有線又は無線通信に用いられる。無線通信は、たとえばWi−Fi、ブルートゥース近距離無線通信(Near Field Communication(NFC))、2G、3G又は4G、又はこれらの1種又は複数種の組み合わせであり、このため、対応した該通信コンポーネント805は、Wi−Fiモジュールブルートゥースモジュール、NFCモジュールを備えてもよい。

0064

例示的な一実施例では、電子機器800は、1つ又は複数の特定用途向け集積回路(Application Specific IntegratedCircuit(ASIC))、ジブラルタルシグナルプロセッサ(Digital Signal Processor(DSP))、デジタル信号処理機器(Digital Signal Processing Device(DSPD))、プログラマブルロジックデバイス(Programmable Logic Device(PLD))、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array(FPGA))、コントローラマイクロコントローラマイクロプロセッサ又はほかの電子素子により実現されて、上記仮想ロボットのインタラクション方法を実行するようにしてもよい。

0065

本開示の実施例による上記コンピュータ可読記憶媒体は、プログラム命令を含む上記メモリ802であってもよく、上記プログラム命令は、電子機器800のプロセッサ801により実行されて、上記仮想ロボットのインタラクション方法を完成できる。

0066

以上、図面を参照しながら、本開示の好適実施形態を詳細に説明したが、本開示は、上記実施形態の詳細に制限されず、本開示の技術的構想から逸脱せずに、本開示の技術案について様々な簡単な変形をすることができ、これら簡単な変形は、いずれも本開示の保護範囲に属する。

0067

なお、上記特定の実施形態において説明した各特定の技術的特徴は、矛盾しない限り、任意の適切な方式で組み合わせることができ、重複しないように、本開示では、各種可能な組み合わせ方式について説明しない。

0068

また、本開示の様々な実施形態も、互いに任意に組み合わせることができ、本開示の主旨に違反しない限り、本開示において開示されている内容とみなされるべきである。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ