図面 (/)

この項目の情報は公開日時点(2019年6月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

ページ制御方法および装置を提供する。

解決手段

端末から送信された、ユーザにより端末を介して入力した音声情報を受信するステップであって、端末はターゲットページを表示するためのものであり、端末は、ターゲットページに対するユーザの音声制御要求を受信したことに応答して、音声情報を受信する、ステップと、音声情報に対して音声認識を行って、文字情報を生成するステップと、文字情報を解析して、動作指令を生成するステップと、端末が前記ターゲットページに対して動作指令により示される動作を実行するように、動作指令を端末に送信するステップと、を含む。本実施形態は、音声によるページ制御を実現することができる。

概要

背景

科学技術の発展に伴い、携帯電話タブレットPC、スマートテレビなどのような表示画面を備えた機器が徐々に人の生活の中で重要な位置を占めるようになってきている。

概要

ページ制御方法および装置を提供する。端末から送信された、ユーザにより端末を介して入力した音声情報を受信するステップであって、端末はターゲットページを表示するためのものであり、端末は、ターゲットページに対するユーザの音声制御要求を受信したことに応答して、音声情報を受信する、ステップと、音声情報に対して音声認識を行って、文字情報を生成するステップと、文字情報を解析して、動作指令を生成するステップと、端末が前記ターゲットページに対して動作指令により示される動作を実行するように、動作指令を端末に送信するステップと、を含む。本実施形態は、音声によるページ制御を実現することができる。

目的

本願に係る第一の側面によると本願はページを制御するページ制御方法を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ページを制御するページ制御方法であって、前記ページ制御方法は、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信する受信ステップと、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信し、前記音声情報に対して音声認識を行って、文字情報を生成する認識ステップと、前記文字情報を解析して、動作指令を生成する解析ステップと、前記端末が前記ターゲットページに対して前記動作指令により示される動作を実行するように、前記動作指令を前記端末に送信する送信ステップと、を含むことを特徴とする方法。

請求項2

前記解析ステップは、動作指令を取得するように、予めトレーニングされた深層学習モデルに前記文字情報を入力するステップを含み、前記深層学習モデルは文字情報と動作指令との対応関係を示すためのモデルであることを特徴とする請求項1に記載の方法。

請求項3

前記深層学習モデルは、トレーニングサンプルセットを取得するステップと、機械学習の方法を用い、前記トレーニングサンプルセットにおける各トレーニングサンプルの文字情報を入力とし、予め設定された動作指令を出力とし、トレーニングを行うステップとによって取得され、前記トレーニングサンプルセットにおける各トレーニングサンプルは、前記文字情報および前記動作指令を含むことを特徴とする請求項2に記載の方法。

請求項4

前記認識ステップは、予め設定された音声キーワード情報セットに前記音声情報とマッチする音声キーワード情報が含まれているか否かを確定する第1の確定ステップと、前記予め設定された音声キーワード情報セットに前記音声情報とマッチする前記音声キーワード情報が含まれていると確定したことに応答して、前記音声情報とマッチする前記音声キーワード情報を取得する取得ステップと、予め設定された、取得された音声キーワード情報に対応するテキストキーワード情報を、前記音声情報の文字情報として確定する第2の確定ステップと、を含むことを特徴とする請求項1〜請求項3のいずれか一項に記載の方法。

請求項5

前記動作は、ページのジャンプ、ページのスライド、ページのめくり、ページの終了のうちの少なくとも1つを含む請求項1〜請求項4のいずれか一項に記載の方法。

請求項6

ページを制御するページ制御装置であって、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信する受信部と、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信し、前記音声情報に対して音声認識を行って、文字情報を生成する認識部と、前記文字情報を解析して、動作指令を生成する解析部と、前記端末が前記ターゲットページに対して前記動作指令により示される動作を実行するように、前記動作指令を前記端末に送信する送信部とを含むことを特徴とする装置。

請求項7

前記解析部は、動作指令を取得するように、予めトレーニングされた深層学習モデルに前記文字情報を入力する入力モジュールを含み、前記深層学習モデルは前記文字情報と前記動作指令との対応関係を示すためのモデルであることを特徴とする請求項6に記載の装置。

請求項8

前記深層学習モデルは、トレーニングサンプルセットを取得し、機械学習の方法を用い、トレーニングサンプルセットにおける各トレーニングサンプルの文字情報を入力とし、予め設定された動作指令を出力とし、トレーニングを行って取得され、前記トレーニングサンプルセットにおける各トレーニングサンプルは、文字情報および前記動作指令を含むことを特徴とする請求項7に記載の装置。

請求項9

前記認識部は、予め設定された音声キーワード情報セットに前記音声情報とマッチする音声キーワード情報が含まれているか否かを確定する第1の確定モジュールと、前記予め設定された音声キーワード情報セットに前記音声情報とマッチする前記音声キーワード情報が含まれていると確定したことに応答して、前記音声情報とマッチする前記音声キーワード情報を取得する取得モジュールと、予め設定された、取得された音声キーワード情報に対応するテキストキーワード情報を、前記音声情報の文字情報として確定する第2の確定モジュールと、含むことを特徴とする請求項6〜請求項8のいずれか一項に記載の装置。

請求項10

前記動作は、ページのジャンプ、ページのスライド、ページのめくり、ページの終のうちの少なくとも1つを含む請求項6〜請求項9のいずれか一項に記載の装置。

請求項11

一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶する記憶装置とを備えるサーバであって、前記一つ又は複数のプログラムは、前記一つ又は複数のプロセッサを介して、コンピュータに請求項1−請求項5のいずれか一項に記載の方法を実行させることを特徴とするサーバ。

請求項12

コンピュータプログラムが格納されたコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサを介して、コンピュータに請求項1−請求項5のいずれか一項に記載の方法を実行させるコンピュータ読取可能な記憶媒体。

請求項13

コンピュータプログラムであって、前記コンピュータプログラムは、ページ制御装置を介して、コンピュータに請求項1−請求項5の何れか一つに記載の方法を実行させるコンピュータプログラム。

技術分野

0001

本願は、コンピュータの技術分野、具体的にインターネットの技術分野に関し、より詳細には、ページ制御方法および装置に関する。

背景技術

0002

科学技術の発展に伴い、携帯電話タブレットPC、スマートテレビなどのような表示画面を備えた機器が徐々に人の生活の中で重要な位置を占めるようになってきている。

発明が解決しようとする課題

0003

現在、表示画面を備えた機器は、ユーザの希望するページをユーザに表示することができ、ユーザは、画面タッチすることにより、表示されたページを制御(例えば、ページのめくり、ページの終了、ページの明るさの調節など)することができるようになっている。

0004

本願は、ページを制御するページ制御方法および装置を提供する。

課題を解決するための手段

0005

本願に係る第一の側面によると本願はページを制御するページ制御方法を提供する。上記ページ制御方法は、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信する受信ステップと、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信し、前記音声情報に対して音声認識を行って、文字情報を生成する認識ステップと、文字情報を解析して、動作指令(operation instruction)を生成する解析ステップと、前記端末が前記ターゲットページに対して前記動作指令により示される動作(operation)を実行するように、前記動作指令を前記端末に送信する送信ステップとを含む。

0006

本願の一部の実施形態において、前記解析ステップは、動作指令を取得するように、予めトレーニングされた深層学習モデルに前記文字情報を入力するステップを含み、前記深層学習モデルは前記文字情報と前記動作指令との対応関係を示すためのモデルである。

0007

本願の一部の実施形態において、前記深層学習モデルは、トレーニングサンプルセットを取得し、前記機械学習の方法を用い、トレーニングサンプルセットにおける各トレーニングサンプルの文字情報を入力とし、予め設定された動作指令を出力とし、トレーニングして取得され、前記トレーニングサンプルセットにおける各トレーニングサンプルは、前記文字情報および前記動作指令を含む。

0008

本願の一部の実施形態において、前記認識ステップは、予め設定された音声キーワード情報セットに前記音声情報とマッチする音声キーワード情報が含まれているか否かを確定する第1の確定ステップと、前記予め設定された音声キーワード情報セットに前記音声情報とマッチする前記音声キーワード情報が含まれていると確定したことに応答して、前記音声情報とマッチする前記音声キーワード情報を取得する取得ステップと、予め設定された、取得された音声キーワード情報に対応するテキストキーワード情報を前記音声情報の文字情報として確定する第2の確定ステップとを含む。

0009

本願の一部の実施形態において、前記動作は、ページのジャンプ、ページのスライド、ページのめくり、ページの終了のうちの少なくとも1つを含む。

0010

本願に係る第二の側面によると、本願は、ページ制御装置を提供する。上記ページ制御装置は、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信する受信部と、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信し、前記音声情報に対して音声認識を行って、文字情報を生成する認識部と、文字情報を解析して、動作指令を生成する解析部と、前記端末が前記ターゲットページに対して前記動作指令により示される動作を実行するように、前記動作指令を前記端末に送信する送信部とを含む。

0011

本願の一部の実施形態において、前記解析部は、動作指令を取得するように、前記文字情報を予めトレーニングされた深層学習モデルに入力する入力モジュールを含み、前記深層学習モデルは前記文字情報と前記動作指令との対応関係を示すためのモデルである。

0012

本願の一部の実施形態において、前記深層学習モデルは、トレーニングサンプルセットを取得するステップと、機械学習の方法を用い、前記トレーニングサンプルセットにおける各トレーニングサンプルの文字情報を入力とし、予め設定された動作指令を出力とし、トレーニングするステップとによって取得され、ここで、前記トレーニングサンプルセットにおける各トレーニングサンプルは、前記文字情報および前記動作指令を含む。

0013

本願の一部の実施形態において、前記認識部は、予め設定された音声キーワード情報セットに前記音声情報とマッチする音声キーワード情報が含まれているか否かを確定する第1の確定モジュールと、前記予め設定された音声キーワード情報セットに前記音声情報とマッチする前記音声キーワード情報が含まれていると確定したことに応答して、前記音声情報とマッチする前記音声キーワード情報を取得する取得モジュールと、予め設定された、取得された音声キーワード情報に対応するテキストキーワード情報を前記音声情報の文字情報として確定する第2の確定モジュールとを含む。

0014

本願の一部の実施形態において、前記動作は、ページのジャンプ、ページのスライド、ページのめくり、ページの終了のうちの少なくとも1つを含む。

0015

本願に係る第三の側面によると、本願は、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶する記憶装置とを備えるサーバであって、前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに上記ページ制御方法の何れか一つ実施形態に記載の方法を実行させるサーバを提供する。
本願に係る実施形態は、一つ又は複数のプロセッサと、一つ又は複数のプログラムを記憶する記憶装置とを備えるサーバであって、前記一つ又は複数のプログラムは、前記一つ又は複数のプロセッサを介してコンピュータに上述の上記ページ制御方法の何れか一つに記載の方法を実行させるサーバを提供する。

0016

本願に係る第四の側面によると、本願は、コンピュータプログラムが格納されており、該プログラムがプロセッサにより実行されると、上記ページ制御方法の何れか一つの実施形態に記載の方法が実行されるコンピュータ読取可能な記憶媒体を提供する。
本願に係る実施形態は、コンピュータプログラムが格納されたコンピュータ読取可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサを介して、コンピュータに上記ページ制御方法の何れか一つの実施形態に記載の方法を実行させるコンピュータ読取可能な記憶媒体を提供する。
本願に係る実施形態によると、本願は、コンピュータプログラムであって、前記コンピュータプログラムは、ページ制御装置を介してプロセッサにより実行されると、コンピュータに上記ページ制御方法の何れか一つの実施形態に記載の方法を実行させるコンピュータプログラムを提供する。

発明の効果

0017

本願の実施形態によって提供されるページ制御方法および装置は、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信し、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信する。そして、前記音声情報に対して音声認識を行って、文字情報を生成し、文字情報を解析して、動作指令を生成し、前記端末が前記ターゲットページに対して前記動作指令により示される動作を実行するように、前記動作指令を前記端末に送信することにより、音声情報に基づくページ制御を実現することができる。

図面の簡単な説明

0018

以下の図面を参照してなされた非制限的実施形態に対する詳細的な説明により、本発明の他の特徴、目的及び利点がより明らかになる。
図1は、本願が適用される例示的なシステムアーキテクチャ図である。
図2は、本願に係るページ制御方法の一実施形態のフローチャートである。
図3は、本願に係るページ制御方法の適用シナリオの概略図である。
図4は、本願に係るページ制御方法の他の実施形態のフローチャートである。
図5は、本願に係るページを制御するための装置の一実施形態の構造概略図である。
図6は、本願の実施形態を実現するためのサーバに適用されるコンピュータシステムの構成の模式図である。

実施例

0019

以下、図面及び実施形態を参照しながら本発明をより詳細に説明する。なお、ここで説明する具体的な実施形態は、当該発明を説明するためのものに過ぎず、当該発明を限定するものではないことを理解すべきである。また、説明の便宜上、図面には発明に関連する部分のみを示す。

0020

なお、矛盾のない限り、本願の実施形態と実施形態における特徴を相互に組み合せることができるものとする。以下、図面及び実施形態を参照しながら本願を詳細に説明する。

0021

図1は、本願が適用できるページ制御方法および装置の実施形態の例示的なシステムアーキテクチャ100を示した。

0022

図1に示されたように、システムアーキテクチャ100は、端末デバイス101、102、103と、ネットワーク104と、サーバ105とを備えても良い。ネットワーク104は、端末デバイス101、102、103とサーバ105の間に通信リンク媒体として用いられる。ネットワーク104は、各種の接続タイプ、例えば有線無線通信リンク又は光ケーブル(Optical fiber Cable)などを含んでも良い。

0023

ユーザは、端末デバイス101、102、103を使用してネットワーク104を介してサーバ105とやりとりすることにより、メッセージなどを送受信することができる。端末デバイス101、102、103には、各種の通信クライアントアプリ、例えばウェブブラウザアプリ、電子書籍リーダーのアプリ、音楽再生用アプリ、インスタントメッセージ(Instant Messaging)ツール、電子メールクライアントソーシャルプラットフォームソフトウェアなどがインストールされても良い。

0024

端末デバイス101、102、103は、音声のやり取り(interaction)機能を有する各種の電子装置であっても良く、スマートフォーン、タブレット、電子書籍リーダー、MP3プレーヤ(Moving Picture Experts Group Audio Layer III)、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤ、ノードパソコン及びディスクトップコンピュータなどを含むが、それらに限定されない。

0025

サーバ105は、各種のサービスを提供するサーバ、例えば端末デバイス101、102、103における音声情報を処理する音声情報処理サーバであっても良い。音声情報処理サーバは、受信した、ページの制御に用いられる音声情報などのデータに対して解析などの処理を行い、処理結果(例えば動作指令)を端末デバイスにフィードバックすることができる。

0026

なお、本願の実施形態により提供されるページ制御方法は、一般的にサーバ105により実行される。それに応じて、ページ制御装置は一般的にサーバ105に設けられる。

0027

なお、図1における端末デバイス、ネットワーク及びサーバの数は例示的なものに過ぎないことを理解されるべきである。必要に応じて、任意の数の端末デバイス、ネットワーク及びサーバを備えても良い。

0028

さらに、本願に係るページ制御方法の一実施形態のプロセス200を示す図2を参照する。前記ページ制御方法は、以下のステップを含む。

0029

ステップ201において、端末から送信された、ユーザにより端末を介して入力した音声情報を受信する。

0030

本実施形態において、ページ制御方法が実行される電子装置(例えば、図1に示すサーバ)は、有線接続または無線接続によって端末から送信された、ユーザが端末から入力した音声情報を受信することができる。ここで、端末はターゲットページを表示するためのものであり、端末は、前記ターゲットページに対するユーザの音声制御要求を受信したことに応答して、音声情報を受信する。

0031

本実施形態において、ターゲットページは、端末に表示され、ユーザが制御しようとするページである。具体的には、ターゲットページは、ウェブページグラフィカルインタフェーステキストユーザインタフェースなどであってもよい。音声制御要求は、ターゲットページ上の音声制御ボタンクリックすること、または発声によって予め設定された音声制御喚起語(wakeupphrase)を入力することなど、ターゲットページまたは端末に対するユーザの操作であってもよい。音声情報は、ユーザが発話により入力した音声情報であり、音声情報と発話によりユーザが表現した内容とは対応している。ユーザによって表現されるコンテンツは、字、単語、のうちの少なくとも1つを含むことができるが、これに限定されない。例えば、ユーザがターゲットページを次のページにめくろうとする場合、ユーザが表現すべきコンテンツは、「ページを次のページにめくれ」、「次のページ」などであってもよい。

0032

ステップ202において、音声情報に対して音声認識を行って、文字情報を生成する。

0033

本実施形態において、上記電子装置(例えば、図1のサーバ)は、ステップ201で取得した音声情報に基づいて、音声情報に対して音声認識を行って、文字情報を生成することができる。ここで、文字情報は、字、単語、句のうちの少なくとも1つを含むことができるが、これに限定されない。

0034

本実施形態において、文字情報は、ユーザが発話により表現したコンテンツを示すために使用することができる。具体的には、文字情報は、発話によってユーザが表現したコンテンツの全部または一部を示すために使用されてもよい。例えば、ユーザにより「ページを次のページにめくれ」という内容を表す音声情報が入力されると、音声認識した後、生成された文字情報は、「ページを次のページにめくれ」、「次のページ」、「ページをめくる」などであってもよい。ここで、「ページを次のページにめくれ」は、発話によってユーザが表現したコンテンツの全部であり、「次のページ」および「ページをめくる」は、発話によりユーザが表現したコンテンツの一部である。

0035

本実施形態の一部の任意の実施形態において、前記電子装置は、予め設定された音声キーワード情報セットに前記音声情報とマッチする音声キーワード情報が含まれているか否かを確定し、前記予め設定された音声キーワード情報セットに前記音声情報とマッチする前記音声キーワード情報が含まれていると確定したことに応答して、前記音声情報とマッチする前記音声キーワード情報を取得し、予め設定された、取得された音声キーワード情報に対応するテキストキーワード情報を前記音声情報の文字情報として確定することにより、音声情報に対して音声認識を行って文字情報を生成する。

0036

本実施形態の一部の任意の実施形態において、電子装置は、音声認識技術を使用して音声情報に対して音声を認識し、文字情報を生成することができる。なお、音声認識技術は、広く研究され、現在適用されている周知の技術であり、ここではその詳細を省略する。

0037

ステップ203において、文字情報を解析して、動作指令を生成する。

0038

本実施形態において、電子装置(例えば、図1のサーバ)は、ステップ202で取得した文字情報に基づいて、文字情報を解析して動作指令を生成してもよい。ここで、動作指令は、端末が認識可能なコマンドであり、ターゲットページに対する端末の操作を示すために使用することができる。複数の文字情報は1つの動作指令に対応することができることは理解されている。例えば、「ページを次のページにめくれ」、「次のページ」という文字情報は、いずれも、動作指令「Control_NextPage」に対応することができる。

0039

本実施形態の一部の任意の実施形態において、電子装置は、自然言語処理技術を使用して文字情報を解析して、動作指令を生成することができる。なお、自然言語処理技術は、広く研究され、現在適用されている周知の技術であり、ここではその詳細を省略する。

0040

ステップ204において、動作指令を端末に送信する。

0041

本実施形態において、電子装置(例えば、図1に示すサーバ)は、ステップ203で取得した動作指令に基づいて、端末がターゲットページに対して動作指令により示される動作を実行するように、前記動作指令を前記端末に送信する。

0042

一例として、生成された動作指令は「Control_NextPage」であるとする。電子装置は、動作指令を端末に送信することができる。端末は、動作指令が受信されたことに応答して、予め設定された動作指令と動作との対応関係を探索し、さらに、動作指令が対応する動作をターゲットページに対して実行することができる。例えば、動作指令が対応する動作は、「ターゲットページを制御して次のページにめくる」ことであってもよい。

0043

引き続き図3を参照する。図3は、本発明の一実施形態によるページ制御方法の応用シナリオの概略図である。図3の応用シナリオでは、端末301には、符号302のように、ページ番号が「2/88」であるページが示されている。ユーザが端末によって表示されたページを音声で制御したい場合、ユーザは、(音声ウェイクアップワードのような)音声制御要求を端末に送信し、音声情報303を入力する。ここで、音声情報303によって示されるユーザの表現は「次のページ」である。端末は、音声情報303を受信し、音声処理サーバ304に音声情報303を送信する。音声処理サーバ304は、受信した音声情報303に対して音声認識を行い、文字情報305を生成する。そして、音声処理サーバ304は、文字情報305を解析して動作指令306を生成する。最後に、音声処理サーバ304は、生成した動作指令306を端末301に送信し、動作指令306により示される動作を端末301に実行させる。この場合、端末301が表示している符号307のページ番号は「3/88」である。

0044

本発明の実施形態によって提供される方法は、端末から送信された、ユーザが端末で入力した音声情報を受信した後、音声情報から音声を認識して文字情報を生成する。その後、文字情報を解析して動作指令を生成して、最終的に端末に動作指令を送信することにより、端末がターゲットページの動作指令により示される動作を実行するようにすることで、音声情報に基づくページ制御が実現される。

0045

図4をさらに参照する。図4は、ページ制御方法の他の実施形態のプロセス400を示す。ページ制御方法のプロセス400は、以下のステップを含む。

0046

ステップ401において、端末から送信された、ユーザにより端末を介して入力した音声情報を受信する。

0047

本実施形態のステップ401は、図2に対応する実施形態のステップ201とほぼ同じであるため、ここではその詳細を省略する。

0048

ステップ402において、音声情報に対して音声認識を行って、文字情報を生成する。

0049

本実施形態におけるステップ402は、図2に対応する実施形態におけるステップ202とほぼ同じであるため、ここではその詳細を省略する。

0050

ステップ403において、予めトレーニングされた深層学習モデルに文字情報を入力して動作指令を得る。

0051

本実施形態において、電子装置(例えば、図1のサーバ)は、ステップ402で得られた文字情報に基づいて、予めトレーニングされた深層学習モデルに文字情報を入力して動作指令を取得することができる。ここで、前記深層学習モデルは、前記文字情報と前記動作指令との対応関係を示すためのモデルである。一例として、深層学習モデルは、技術者が大量の文字情報と動作指令に基づいて予め設定した対応付け表であってもよく、文字情報と動作指令との対応関係が複数格納されてもよい。または、深層学習モデルは、技術者が大量のデータ統計に基づいて予め設定されかつ前記電子装置に格納された、文字情報と動作指令とのマッチ度を計算するための計算式であってもよい。例えば、当該計算式は、動作指令における英単語を中国語翻訳した後、文字情報との類似度計算を行う類似度計算式であってもよく、得られた類似度計算結果は、計算された文字情報と動作指令とがマッチするか否かを判定するのに用いられる。

0052

本実施形態の一部の任意の実施形態において、深層学習モデルは、以下のステップによりトレーニングして得ることができる。まず、電子装置は、トレーニングサンプルセットを取得し、そして、電子装置は、前記トレーニングサンプルセットにおける各トレーニングサンプルに対して、機械学習の方法を用い、文字情報を入力とし、動作指令を出力とし、トレーニングして取得することができる。ここで、前記トレーニングサンプルセットにおける各トレーニングサンプルは、文字情報および予め設定された動作指令を含む。具体的には、トレーニングサンプルセットにおける各トレーニングサンプルについて、電子装置は、多層パーセプトロン(MLP)および畳み込みニューラルネットワークCNN)のような基本モデルを使用して、文字情報を入力とし、動作指令を出力とし、機械学習の方法を用いてトレーニングして深層学習モデルを得ることができる

0053

なお、深層学習モデルをトレーニングする方法は、現在広く研究され、適用されている周知の技術であり、ここではその詳細を省略する。

0054

ステップ404において、動作指令を端末に送信する。

0055

本実施形態のステップ401は、図2に対応する実施形態のステップ201とほぼ同じであり、ここではその詳細を省略する。

0056

図4からわかるように、図2に対応する実施形態と比較して、本実施形態にかかるページ制御方法のプロセス400は、深層学習モデルを用いて文字情報を解析することを強調している。したがって、本実施形態で説明した発明は、よりインテリジェントで効率的にすることで、より柔軟なページ制御を実現することができる。

0057

更に図5参照すると、上記の図に示された方法の実施形態として、本願は、ページを制御するための装置の実施形態を提供する。装置の実施形態は、図2に示される方法の実施形態に対応し、装置は、様々な電子装置に具体的に適用され得る。

0058

図5に示すように、本実施形態に係るページ制御装置500は、受信部501、認識部502、解析部503及び送信部504を含む。受信部501は、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信するように構成され、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信する。認識部502は、音声情報に対して音声認識を行って、文字情報を生成するように構成される。解析部503は、文字情報を解析して動作指令を生成するように構成されている。送信部504は、前記端末が前記ターゲットページに対して前記動作指令により示される動作を実行するように、前記動作指令を前記端末に送信するように構成されている。

0059

本実施形態において、ページ制御装置500の受信部501は、有線接続または無線接続によって、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信することができる。ここで、端末はターゲットページを表示するためのものであり、端末は、前記ターゲットページに対するユーザの音声制御要求を受信したことに応答して、音声情報を受信する。

0060

本実施形態において、ターゲットページは、端末に表示され、ユーザが制御しようとするページである。具体的には、ターゲットページは、ウェブページ、グラフィカルインタフェース、テキストユーザインタフェースなどであってもよい。音声制御要求は、ターゲットページまたは端末に対するユーザによる操作であってもよい。音声情報は、ユーザが発話により入力した音声情報であり、音声情報と発話によりユーザが表現した内容とが対応される。ユーザによって表現されるコンテンツは、字、単語、句のうちの少なくとも1つを含むことができるが、これに限定されない。

0061

本実施形態において、認識部502は、受信部501によって取得された音声情報に基づいて、音声情報に対して音声認識を行って、文字情報を生成することができる。ここで、文字情報は、字、単語、句のうちの少なくとも1つを含むが、これに限定されない。

0062

本実施形態において、文字情報は、ユーザが発声して表現したコンテンツを示すために使用することができる。具体的には、文字情報は、発話によってユーザが表現したコンテンツの全部または一部を示すために使用されてもよい。

0063

本実施形態において、解析部503は、認識部502により取得された文字情報に基づいて、文字情報を解析して動作指令を生成してもよい。ここで、動作指令は、端末が認識可能な指令であり、ターゲットページに対する端末の処理を示すために使用することができる。なお、複数の文字情報は1つの動作指令に対応することができることは理解されている。

0064

本実施形態において、送信部504は、解析部503により取得された動作指令に基づいて、端末がターゲットページに対して動作指令により示される動作を実行するように、前記動作指令を前記端末に送信する。

0065

本実施形態の一部の任意の実施形態において、解析部503は、予めトレーニングされた深層学習モデルに文字情報を入力して動作指令を得るように構成された入力モジュール(図示せず)を含むことができる。深層学習モデルは、文字情報と動作指令との間の対応関係を付けるために使用される。

0066

本実施形態の一部の任意の実施形態において、深層学習モデルは、以下のステップによりトレーニングして得ることができる。まず、電子装置は、トレーニングサンプルセットを取得し、そして、電子装置は、前記トレーニングサンプルセットにおける各トレーニングサンプルに対して、機械学習の方法を用い、文字情報を入力とし、動作指令を出力とし、トレーニングして取得し、ここで、前記トレーニングサンプルセットにおける各トレーニングサンプルは、文字情報および予め設定された動作指令を含む。

0067

本実施形態の一部の任意の実施形態において、認識部502は、予め設定された音声キーワード情報セットに前記音声情報とマッチする音声キーワード情報が含まれているか否かを確定するように構成される第1の確定モジュール(図示せず)と、前記予め設定された音声キーワード情報セットに前記音声情報とマッチする前記音声キーワード情報が含まれていると確定したことに応答して、前記音声情報とマッチする前記音声キーワード情報を取得するように構成される取得モジュール(図示せず)と、予め設定された、取得された音声キーワード情報に対応するテキストキーワード情報を前記音声情報の文字情報として確定するように構成される第2の確定モジュール(図示せず)とを備える。

0068

本実施形態の一部の任意の実施形態において、動作は、ページのジャンプ、ページのスライド、ページのめくり、ページの終のうちの少なくとも1つを含んでもよい。

0069

本発明の実施形態による装置500は、受信部501により、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信した後、認識部502で音声情報に対して音声認識を行って文字情報を生成し、続いて、解析部503で文字情報を解析して動作指令を生成し、最後に、送信部504により動作指令を端末に送信する。これにより、動作指令により指示された動作をターゲットページに実行させる音声によるページ制御を実現することができる。

0070

続いて図6を参照する。図6は、本願の実施形態を実現するための電子装置に適用されるコンピュータシステム600の構成模式図を示した。図6に示された電子装置は一つの例示に過ぎず、本願の実施形態の機能及び使用範囲を制限するものではない。

0071

図6に示されたように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の動作に必要な様々なプログラムおよびデータがさらに格納されている。CPU601、ROM602およびRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。

0072

キーボードマウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、およびLANカードモデムなどを含むネットワークインターフェースカード通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク光ディスク光磁気ディスク半導体メモリなどのようなものであり、必要に応じてドライブ610に取り付けられ、したがって、ドライブ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。

0073

特に、本発明の実施形態によれば、上記のフローチャートに参照して説明された手順はコンピュータソフトウェアプログラムによって実現されても良い。例えば、本発明の実施形態はコンピュータ読取可能な媒体にロードされるコンピュータプログラムを含むコンピュータプログラム製品を備える。当該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされ、及び/又はリムーバブルメディア611からインストールされても良い。当該コンピュータプログラムは、中央処理部(CPU)601により実行される場合に、本願の方法に限定される前記機能を実行する。説明すべきなのは、本願のコンピュータ読取可能な媒体は、コンピュータ読取可能な信号媒体、コンピュータ読取可能な記憶媒体、或いは前記両者の任意の組み合わせであっても良い。コンピュータ読取可能な記憶媒体は、例えば電気磁気、光、電磁気赤外線半導体のシステム、サーバ又は部品、或いはこれらの任意の組み合わせであっても良いが、それらに限定されない。コンピュータ読取可能な記憶媒体についてのより具体的な例は、一つ又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読取専用メモリ(ROM)、消去可能なプログラミング読取専用メモリ(EPROM又はフラッシュ)、光ファイバ、携帯可能なコンパクト磁気ディスク読取専用メモリ(CD−ROM)、光学記憶素子磁気記憶素子、或いは前記の任意の適切の組み合わせを含むが、それらに限定されない。本願において、コンピュータ読取可能な記憶媒体は、プログラムを含むかまたはプログラムが格納される任意の有形の媒体であっても良い。当該プログラムは、コマンドによりシステム、サーバ又は部品の使用を実行し、或いはそれらに組み合わせて使用されても良い。本願において、コンピュータ読取可能な信号媒体は、ベースバンド伝送され或いはキャリアの一部として伝送され、コンピュータ読取可能なプログラムコードがロードされるデータ信号を含んでも良い。このような伝送されるデータ信号は、各種の形式を採用しても良く、電磁気信号光信号又は前記の任意の適切な組み合わせを含むが、それらに限定されない。コンピュータ読取可能な信号媒体は、コンピュータ読取可能な記憶媒体以外の任意のコンピュータ読取可能な媒体であっても良い。当該コンピュータ読取可能な媒体は、コマンドによりシステム、サーバ又は部品の使用を実行し又はそれらと組み合わせて使用されるプログラムを送信し、伝播し又は伝送することができる。コンピュータ読取可能な媒体に含まれるプログラムコードは、任意の適当の媒体で伝送されても良く、無線電線、光ケーブル、RFなど、或いは前記の任意の適切の組み合わせを含むが、それらに限定されない。

0074

図面におけるフローチャート及びブロック図は、本願の各実施形態によるシステム、方法及びコンピュータプログラム製品により実現可能なシステム構造、機能及び動作を示した。この点において、フローチャート又はブロック図における各ブロックは、一つのモジュールプログラムセグメント、又はコードの一部を表すことができる。当該モジュール、プログラムセグメント、コードの一部には、一つ又は複数の所定のロジック機能を実現するための実行可能なコマンドが含まれる。なお、幾つかの置換としての実現において、ブロックに示される機能は図面に示される順序と異なる順序であっても良い。例えば、二つの接続的に表示されるブロックは実際に基本的に併行に実行されても良く、場合によっては逆な順序で実行されても良く、関連の機能に従って確定される。なお、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は動作を実行する専用のハードウェアによるシステムで実現されても良く、或いは専用のハードウェアとコンピュータコードの組み合わせで実現されても良い。

0075

本願の実施形態に説明された「部」は、ソフトウェアの部で実現されても良く、ハードウェアの部で実現されても良い。説明された部は、プロセッサに設置されても良い。例えば、受信部と、認識部と、解析部と、送信部とを備えるプロセッサとして記載されても良い。なお、これらの部の名称はある場面で部の自身に対する限定にはならない。例えば、受信部は、「音声情報を受信する部」と記載されても良い。

0076

他の側面として、本願は更にコンピュータ読取可能な媒体を提供する。当該コンピュータ読取可能な媒体は、前記実施形態に説明された装置に含まれたものであっても良く、当該装置に実装されずに別途に存在するものであっても良い。前記コンピュータ読取可能な媒体には、一つ又は複数のプログラムがロードされる。前記一つ又は複数のプログラムが当該装置により実行されると、当該装置は、端末から送信された、ユーザが前記端末を介して入力した音声情報を受信し、前記端末はターゲットページを表示するためのものであり、前記端末は、前記ターゲットページに対する前記ユーザの音声制御要求を受信したことに応答して、音声情報を受信する。そして、前記音声情報に対して音声認識を行って、文字情報を生成し、文字情報を解析して、動作指令を生成し、前記端末が前記ターゲットページに対して前記動作指令により示される動作を実行するように、前記動作指令を前記端末に送信する。

0077

以上の記載は、本発明の好適な実施形態及び運用される技術原理に対する説明にすぎない。本願発明範囲は、前記技術特徴による特定の組み合わせからなる発明に限定されることなく、前記の発明技術的思想から逸脱しない限り、前記技術特徴又は均等の特徴による任意の組み合わせによって形成される他の発明も同様に含まれることは、当業者であれば明らかである。例えば、前記特徴と本願に開示された(それらに限定されない)類似の機能を具備する技術特徴が互いに置換され得る発明も本願発明に含まれる。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 京セラ株式会社の「 電子機器、制御方法、及びプログラム」が 公開されました。( 2020/10/29)

    【課題】操作性を向上させた電子機器、制御方法、及びプログラムを提供する。【解決手段】電子機器1は、自機器に接触されないジェスチャを検出する第1センサ(近接センサ18)と、自機器に接触されるタッチを検出... 詳細

  • 京セラ株式会社の「 電子機器、制御方法、及びプログラム」が 公開されました。( 2020/10/29)

    【課題】移動体の運転の安全性を向上可能な電子機器、制御方法、及びプログラムを提供する。【解決手段】自動車に搭載可能な電子機器は、自機器に触れられずにジェスチャを検出する第1センサと、自機器に接触される... 詳細

  • クリスタルメソッド株式会社の「 推定システム、及び推定装置」が 公開されました。( 2020/10/29)

    【課題】キー入力を推定する精度の向上を図ることができる推定システム、及び推定装置を提供する。【解決手段】仮想キーボードを用いて入力された文字列を推定する推定システムであって、ユーザが前記仮想キーボード... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ