図面 (/)

技術 ディスプレイ装置、ディスプレイ装置の制御方法および対話型システム

出願人 三星電子株式会社
発明者 尹勝一金相姫金裁徹李相權李天成李へ汀鄭宰旭車泰煥
出願日 2013年4月3日 (7年10ヶ月経過) 出願番号 2013-077303
公開日 2014年1月20日 (7年1ヶ月経過) 公開番号 2014-010449
状態 拒絶査定
技術分野 TV送受信機回路 TV方式の細部 電話通信サービス 音声認識 選択的呼出装置(遠隔制御・遠隔測定用)
主要キーワード イメージ形態 対話パターン 電源オフ命令 演出者 TTSエンジン 音声形態 応答メッセージ情報 突発性雑音
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2014年1月20日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (13)

課題

本発明の目的とするところは、外部のサーバ連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。

解決手段

ディスプレイ装置が開示される。本ディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、ユーザの音声を第1サーバに伝送し、第1サーバからユーザの音声に対応するテキスト情報を受信する第1通信部と、受信されたテキスト情報を第2サーバに伝送する第2通信部と、テキスト情報に対応する応答情報が第2サーバから受信されると、応答情報に基づいて、ユーザの音声に対応する応答メッセージを出力するように出力部を制御する制御部とを含む。

概要

背景

電子技術の発達により、多様な種類のディスプレイ装置が開発および普及され、ユーザの要求に応じて益々多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。

一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。

しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザとの対話を通じてインタラクティブな情報を提供することができないという限界が存在していた。

概要

本発明の目的とするところは、外部のサーバ連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。 ディスプレイ装置が開示される。本ディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、ユーザの音声を第1サーバに伝送し、第1サーバからユーザの音声に対応するテキスト情報を受信する第1通信部と、受信されたテキスト情報を第2サーバに伝送する第2通信部と、テキスト情報に対応する応答情報が第2サーバから受信されると、応答情報に基づいて、ユーザの音声に対応する応答メッセージを出力するように出力部を制御する制御部とを含む。

目的

しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供する

効果

実績

技術文献被引用数
1件
牽制数
3件

この技術が所属する分野

(分野番号表示ON)※整理標準化データをもとに当社作成

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

ディスプレイ装置において、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、前記ユーザの音声を第1サーバ伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、前記受信されたテキスト情報を第2サーバに伝送する第2通信部と、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するように前記出力部を制御する制御部とを含むディスプレイ装置。

請求項2

前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記制御部は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で、前記出力部を介して出力することを特徴とする請求項1に記載のディスプレイ装置。

請求項3

前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含むことを特徴とする請求項2に記載のディスプレイ装置。

請求項4

前記第2サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成することを特徴とする請求項1に記載のディスプレイ装置。

請求項5

ディスプレイ装置の制御方法において、ユーザの音声を収集するステップと、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第2サーバに伝送するステップと、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するステップとを含む制御方法。

請求項6

前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記出力するステップは、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力することを特徴とする請求項5に記載の制御方法。

請求項7

前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含むことを特徴とする請求項6に記載の制御方法。

請求項8

前記第2サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成することを特徴とする請求項5に記載の制御方法。

請求項9

第1サーバと、第2サーバおよび前記第1サーバと前記第2サーバとを連動するディスプレイ装置を含む対話型システムにおいて、前記ディスプレイ装置からユーザ音声が受信されると、前記ユーザ音声に対応するテキスト情報を前記ディスプレイ装置に伝送する第1サーバと、前記ディスプレイ装置から前記テキスト情報が受信されると、前記テキスト情報に対応する応答情報を前記ディスプレイ装置に伝送する第2サーバと、前記第2サーバから前記応答情報が受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するディスプレイ装置とを含む対話型システム。

請求項10

前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記ディスプレイ装置は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力することを特徴とする請求項9に記載の対話型システム。

技術分野

0001

本発明は、ディスプレイ装置、ディスプレイ装置の制御方法および対話型システムに関し、より詳細には、ユーザの音声に応じて制御されるディスプレイ装置、ディスプレイ装置の制御方法および対話型システムに関する。

背景技術

0002

電子技術の発達により、多様な種類のディスプレイ装置が開発および普及され、ユーザの要求に応じて益々多様な機能を備えるようになった。特に、テレビの場合、最近では、インターネットと接続されてインターネットサービスまでサポートし、ユーザはテレビを通じて多くのデジタル放送チャネルまで視聴できるようになった。

0003

一方、最近はディスプレイ装置をより便利かつ直観的に制御するために、音声認識を用いた技術が開発されている。特に、テレビの場合、ユーザの音声を認識し、音量調節またはチャネル変更のように、ユーザの音声に対応する機能を行うことができるようになった。

0004

しかし、従来のユーザの音声を認識するディスプレイ装置は、認識された音声に対応する機能を提供するだけで、ユーザとの対話を通じてインタラクティブな情報を提供することができないという限界が存在していた。

発明が解決しようとする課題

0005

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、外部のサーバ連動してユーザと対話可能なディスプレイ装置、ディスプレイ装置の制御方法および対話型システムを提供することにある。

課題を解決するための手段

0006

以上のような目的を達成するための本発明の一実施形態に係るディスプレイ装置は、音声および映像のうち少なくとも一方を出力する出力部と、ユーザの音声を収集する音声収集部と、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信する第1通信部と、前記受信されたテキスト情報を第2サーバに伝送する第2通信部と、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するように前記出力部を制御する制御部とを含む。

0007

ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記制御部は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で、前記出力部を介して出力してよい。

0008

なお、前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。

0009

一方、前記第2サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成してよい。

0010

一方、本発明の一実施形態に係るディスプレイ装置の制御方法は、ユーザの音声を収集するステップと、前記ユーザの音声を第1サーバに伝送し、前記第1サーバから前記ユーザの音声に対応するテキスト情報を受信するステップと、前記受信されたテキスト情報を第2サーバに伝送するステップと、前記テキスト情報に対応する応答情報が前記第2サーバから受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するステップとを含む。

0011

ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記出力するステップは、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力してよい。

0012

なお、前記応答情報は、前記ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。

0013

一方、前記第2サーバは、前記受信されたテキスト情報に基づいて、前記ユーザ音声に対する発話意図を判断し、前記判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて前記応答情報を生成してよい。

0014

一方、本発明の一実施形態に係る第1サーバと、第2サーバおよび前記第1サーバと前記第2サーバとを連動するディスプレイ装置を含む対話型システムは、前記ディスプレイ装置からユーザ音声が受信されると、前記ユーザ音声に対応するテキスト情報を前記ディスプレイ装置に伝送する第1サーバと、前記ディスプレイ装置から前記テキスト情報が受信されると、前記テキスト情報に対応する応答情報を前記ディスプレイ装置に伝送する第2サーバと、前記第2サーバから前記応答情報が受信されると、前記応答情報に基づいて、前記ユーザの音声に対応する応答メッセージを出力するディスプレイ装置とを含む。

0015

ここで、前記応答情報は、前記ディスプレイ装置から応答メッセージを出力するための応答メッセージ情報を含み、前記ディスプレイ装置は、前記応答メッセージ情報に基づいて、前記ユーザの音声に対応する応答メッセージを音声およびテキストのうち少なくとも一方で出力してよい。

発明の効果

0016

以上説明したように、本発明によれば、ユーザと対話可能なディスプレイ装置を提供することができ、ユーザの便宜性を向上させることができる。

図面の簡単な説明

0017

本発明の一実施形態に係る対話型システムを説明するための図である。
図1に示す対話型システムの各動作を説明するためのタイミング図である。
図1に示すディスプレイ装置の構成を説明するためのブロック図である。
図3に示すディスプレイ装置の細部構成を説明するためのブロック図である。
図1に示す第1サーバの構成を説明するためのブロック図である。
図1に示す第2サーバの構成を説明するためのブロック図である。
本発明の別の実施形態に係る対話型システムを説明するための図である。
図7に示す対話型システムの各動作を説明するためのタイミング図である。
本発明の一実施形態に係る対話型システムの動作を説明するための図である。
本発明の一実施形態に係る対話型システムの動作を説明するための図である。
本発明の一実施形態に係る対話型システムの動作を説明するための図である。
本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

実施例

0018

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。

0019

図1は、本発明の一実施形態に係る対話型システム1000を説明するための図である。図1に示すように、対話型システムは、ディスプレイ装置100と、第1サーバ200と、第2サーバ300および外部機器400を含む。例えば、ディスプレイ装置100は、図1に示すように、テレビであってよいが、それは一実施形態に過ぎず、スマートフォンのような携帯電話デスクトップパソコンノートパソコンナビゲーション等のような多様な電子装置で実現されてよい。

0020

一方、ディスプレイ装置100は、ディスプレイ装置100を制御するための遠隔制御装置(図示せず)によって制御されてよい。例えば、ディスプレイ装置100がテレビで実現された場合、リモコン(図示せず)から受信された制御信号に応じて電源オンオフチャネル変換、音量変更等の動作を行うことができる。

0021

なお、外部機器400は、多様な電子装置で実現されてよい。例えば、外部機器400は、図1に示すように、DVDプレーヤであってよいが、それは一例に過ぎない。すなわち、外部機器400は、セットトップボックス音響機器ゲーム機等のように、ディスプレイ装置100に接続されて機能を行うことができる電子装置で実現されてよい。

0022

ディスプレイ装置100は、ユーザ音声に応じて多様な機能を行うことができる。

0023

具体的に、ディスプレイ装置100は、ユーザの音声に対応する応答メッセージを出力するか、ユーザ音声に対応する機能を行ったり、ユーザの音声に対応する機能を行うように、外部機器400を制御することができる。

0024

そのために、ディスプレイ装置100は、収集されたユーザの音声を第1サーバ200に伝送する。第1サーバ200は、ディスプレイ装置100からユーザの音声が受信されると、受信されたユーザの音声をテキスト情報(または、テキスト)に変換し、テキスト情報をディスプレイ装置100に伝送する。

0025

そして、ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する。第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、受信されたテキスト情報に対応する応答情報を生成してディスプレイ装置100に伝送する。

0026

ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいて、多様な動作を行うことができる。

0027

具体的に、ディスプレイ装置100は、ユーザの音声に対応する応答メッセージを出力することができる。ここで、応答メッセージは、音声およびテキストのうち少なくとも一方で出力されてよい。例えば、ディスプレイ装置100は、特定番組放送時間を問い合わせるユーザの音声が入力されると、当該番組の放送時間を音声またはテキスト形態で出力したり、これらの組み合わせで出力してよい。

0028

なお、ディスプレイ装置100は、ユーザの音声に対応する機能を行うことができる。すなわち、ディスプレイ装置100は、ディスプレイ装置100から提供可能な機能のうち、ユーザの音声に対応する機能を行うことができる。例えば、ディスプレイ装置100は、チャネル変更のためのユーザの音声が入力されると、当該チャネルを選局してディスプレイすることができる。

0029

この場合、ディスプレイ装置100は、当該機能に対応する応答メッセージを併せて提供することもできる。すなわち、ディスプレイ装置100は、ユーザの音声に応じて行われた機能に対する情報を音声またはテキスト形態で出力するか、これらの組み合わせで出力することができる。上述の例の場合、ディスプレイ装置100は、変更されたチャネルに対する情報またはチャネル変更が完了していることを示すメッセージを、音声およびテキストのうち少なくとも一方で出力することができる。

0030

なお、ディスプレイ装置100は、ユーザの音声に対応する機能を行うように、外部機器400を制御することができる。すなわち、ディスプレイ装置100は、外部機器400から提供可能な機能のうち、ユーザの音声に対応する機能を行うように外部機器400を制御することができる。そのために、ディスプレイ装置100は、ユーザの音声に対応する機能を行うための制御命令を外部機器400に伝送することができる。

0031

例えば、外部機器400が、図1に示すように、DVDプレーヤで実現された場合、ディスプレイ装置100は、ユーザの音声に応じて、DVDプレーヤの電源オン/オフさせるための制御命令、再生のための制御命令、一時停止のための制御命令等をDVDプレーヤに伝送することができる。

0032

しかし、それは外部機器400がDVDプレーヤで実現された場合の一例に過ぎない。すなわち、ディスプレイ装置100は外部機器400の種別でユーザの音声に対応する機能を行うための制御命令を外部機器400に伝送することができる。例えば、外部機器400がセットトップボックスで実現された場合、ディスプレイ装置100はチャネルを転換するためのユーザの音声に基づいてチャネル転換のための制御命令をセットトップボックスに伝送することもできる。

0033

一方、図1の対話型システム1000に外部機器400が含まれるものとして示しているが、それは一例に過ぎず、必ずしも外部機器400が含まれなければならないというわけではない。

0034

ただ、ディスプレイ装置100は、外部機器400が接続されていない状態で、外部機器400を制御するためのユーザの音声が入力されると、ユーザの音声による動作を行うことができないことを示すメッセージを出力することができる。例えば、図1のような対話型システム1000でDCDプレーヤが接続されていない状態で、DVDプレーヤの電源をオフにさせるためのユーザの音声が入力されると、ディスプレイ装置100は“DVDプレーヤが接続されていません。”または“DVDプレーヤの接続を確認して下さい”のようなメッセージを音声およびテキストのうち、少なくとも一方の形態で出力することができる。

0035

図2は、図1に示す対話型システムの各動作を説明するためのタイミング図である。

0036

図2に示すように、ディスプレイ装置100は、ユーザ音声を収集し(S10)、第1サーバ200に伝送する(S20)。具体的に、ユーザ音声を収集するためのモードが開始されると、ディスプレイ装置100は予め設定された距離以内において、ユーザが発話した音声を収集して第1サーバ200に伝送することができる。

0037

そのために、ディスプレイ装置100は、ユーザが発話した音声を入力されるためのマイク等を備えてよい。この場合、マイクは、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離した形態で実現されてよい。分離した形態で実現される場合、マイクはユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続されてよい。

0038

第1サーバ200は、ディスプレイ装置100から受信されたユーザ音声をテキスト情報に変換する(S30)。具体的に、第1サーバ200は、STT(Speech To Text)アルゴリズムを用いて、ディスプレイ装置100から受信されたユーザの音声をテキスト情報に変換することができる。そして、第1サーバ200は、テキスト情報をディスプレイ装置100に伝送する(S40)。

0039

ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を第2サーバ300に伝送する(S50)。第2サーバ300は、ディスプレイ装置100からテキスト情報が受信されると、テキスト情報に対応する応答情報を生成する。

0040

ここで、応答情報は、ディスプレイ装置100から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージは、ディスプレイ装置100から収集されたユーザの音声に対応する回答として、応答メッセージ情報はユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式表現されるものであってよい。それにより、ディスプレイ装置100は、応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

0041

なお、応答情報は、ユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令は、ユーザの音声に対応する機能を行うようにディスプレイ装置100を制御するための制御命令またはユーザの音声に対応する機能を行うように、外部機器400を制御するための制御命令を含んでよい。それにより、ディスプレイ装置100は、ユーザの音声による機能を行うか、ユーザの音声による機能が行われるように外部機器400を制御することができる。

0042

一方、ディスプレイ装置100は受信された応答情報に基づいて、ユーザの音声に対応する動作を行う(S80)。

0043

具体的に、ディスプレイ装置100は応答情報に含まれた応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを出力することができる。すなわち、ディスプレイ装置100は、第2サーバ300からテキスト形式の応答メッセージ情報が受信されると、TTS(Text To Speech)アルゴリズムを用いてテキストを音声に変換して出力したり、応答メッセージ情報を構成するテキストが含まれるように、UI(User Interface)画面を構成して出力することができる。

0044

例えば、ディスプレイ装置100で“○○○(放送番組名)は何時から?”というユーザ音声が収集された場合、第2サーバ300は、“土曜日の夕方7時からです”というテキスト形式の応答メッセージ情報をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、“土曜日の夕方7時からです”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

0045

なお、ディスプレイ装置100は、応答情報に含まれた制御命令に従って、ユーザの音声に対応する機能を行うように制御することができる。例えば、“ディスプレイ装置100で○○○(放送番組名)を録画して”というユーザの音声が収集された場合、第2サーバ300は“○○○”の予約録画機能を行うための制御命令をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、当該放送番組に対する予約録画を行うことができる。

0046

別の例として、図1のように、外部機器400がDVDプレーヤで実現された場合を仮定する。この場合、“DVDプレーヤをつけて”というユーザの音声が収集されると、第2サーバ300はDVDプレーヤの電源をオンさせるための制御命令をディスプレイ装置100に伝送することができる。それにより、ディスプレイ装置100は、電源をオンさせるための制御命令をDVDプレーヤに伝送し、DVDプレーヤの電源をオンさせることができる。

0047

この場合、応答情報は、ディスプレイ装置100で行われる機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第2サーバ300は“○○○の録画が予約されました”というテキスト形式の応答メッセージ情報をディスプレイ装置100に制御命令とともに伝送し、ディスプレイ装置100は予約録画機能の実行とともに、“○○○の録画が予約されました”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

0048

なお、応答情報は、外部機器400で行われる機能に対応する応答メッセージ情報を更に含んでよい。すなわち、上述の例において、第2サーバ300は“DVDプレーヤの電源を入れました”というテキスト形式の応答メッセージ情報をディスプレイ装置100に制御命令とともに伝送し、ディスプレイ装置100は、DVDプレーヤの電源をオンさせる動作とともに、“DVDプレーヤの電源を入れました”という応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

0049

図3は、図1に示すディスプレイ装置の構成を説明するためのブロック図である。

0050

図3に示すように、ディスプレイ装置100は、出力部110と、音声収集部120と、第1通信部130と、第2通信部140および制御部150を含む。特に、図3は、外部機器400を除き、対話型システム1000を実現した場合に、ディスプレイ装置100の構成を説明するためのブロック図である。よって、外部機器400を含んで対話型システム1000を実現した場合、ディスプレイ装置100は、外部機器400との通信のための別途の構成要素を更に含んでよい。出力部110は、音声および映像のうち少なくとも一方を出力する。具体的に、出力部110は、音声収集部120を介して収集されたユーザの音声に対応する音声メッセージを音声およびテキストのうち、少なくとも一方を形態で出力してよい。

0051

そのために、出力部110は、ディスプレイ部(図示せず)およびオーディオ出力部(図示せず)を備えてよい。

0052

具体的に、ディスプレイ部(図示せず)は、液晶表示装置(Liquid Crystal Display、LCD)、有機電気発光ダイオード(Organic Light Emitting Display、OLED)またはプラズマ表示パネル(Plasma Display Panel、PDP)等で実現され、ディスプレイ装置100を介して提供可能な多様なディスプレイ画面を提供することができる。特に、ディスプレイ部(図示せず)は、ユーザの音声に対応する応答メッセージをテキストまたはイメージ形態でディスプレイすることができる。

0053

ここで、ディスプレイ部(図示せず)がタッチパッドとともに相互レイヤ構造をなすタッチスクリーン形態で実現されてよく、タッチスクリーンはタッチ入力位置面積タッチ入力の圧力までも検出するように構成されてよい。

0054

一方、オーディオ出力部(図示せず)は、ジャック等のような出力ポートまたはスピーカ等で実現され、ユーザの音声に対応する応答メッセージを音声形態で出力することができる。

0055

一方、出力部110は、多様な映像およびオーディオを出力することができる。ここで、映像およびオーディオは、放送コンテンツマルチメディアコンテンツ等を構成する映像およびオーディオであってよい。

0056

音声収集部120は、ユーザの音声を収集する。例えば、音声収集部120は、ユーザの音声を収集するためのマイクロで実現され、ディスプレイ装置100に内蔵されて一体型をなすか、ディスプレイ装置100と分離された形態で実現されてよい。分離された形態で実現される場合、音声収集部120は、ユーザが手で握る形態、または食卓やテーブルに置かれる形態で実現されてよく、ディスプレイ装置100と有線または無線ネットワークを通じて接続されて収集されたユーザの音声をディスプレイ装置100に伝送することができる。

0057

一方、音声収集部120は、収集された音声がユーザの音声かを判断し、ユーザの音声からノイズ(例えば、エアコンの音や掃除機の音、音楽の音等)をフィルタリングすることもできる。

0058

例えば、音声収集部120は、アナログ形態のユーザ音声が入力されると、それをサンプリングしてデジタル信号に変換する。そして、音声収集部120は、変換されたデジタル信号のエネルギーを計算し、デジタル信号のエネルギーが予め設定された値以上であるか否かを判断する。

0059

デジタル信号のエネルギーが予め設定された値以上である場合、音声収集部120はデジタル信号からノイズ成分を除去し、第1通信部130に伝達する。このとき、ノイズ成分は、家庭環境で発生し得る突発性雑音として、エアコンの音や掃除機の音、音楽の音等が含まれてよい。一方、デジタル信号のエネルギーが予め設定された値未満である場合、音声収集部120はデジタル信号に特別な処理過程を経ずに、別の入力を待つ。

0060

それにより、ユーザの音声ではない別の音によって全オーディオ処理過程活性化しないため、不要な電力消耗を防止することができる。

0061

第1通信部130は、第1サーバ(図1の200)と通信を行う。具体的に、第1通信部130は、ユーザの音声を第1サーバ200に伝送し、ユーザの音声に対応するテキスト情報を第1サーバ200から受信してよい。

0062

第2通信部140は、第2サーバ(図1の300)と通信を行う。具体的に、第2通信部140は、受信されたテキスト情報を第2サーバ300に伝送し、テキスト情報に対応する応答情報を第2サーバ300から受信してよい。

0063

そのために、第1通信部130および第2通信部140は、多様な通信方式を用いて第1サーバ200および第2サーバ300と通信を行うことができる。

0064

例えば、第1通信部130および第2通信部140は、有/無線LAN(Local Area Network)、WANイーサネット登録商標)、ブルートゥース(Bluetooth(登録商標))、Zigbee(登録商標)、USB(Universal Serial Bus)、IEEE 1394、Wi−Fi等を用いて、第1サーバ200および第2サーバ300と通信を行うことができる。そのために、第1通信部130および第2通信部140は、各通信方式に対応するチップまたは入力ポート等を具備することができる。例えば、有線LAN方式で通信を行う場合、第1通信部130および第2通信部140は、有線LANカード(図示せず)および入力ポート(図示せず)を備えてよい。

0065

一方、上述の実施形態では、ディスプレイ装置100が第1サーバ200および第2サーバ300と通信を行うために、別途の通信部130、140を備えるものとして説明したが、それは一例に過ぎない。すなわち、ディスプレイ装置100は一つの通信モジュールを通じて第1サーバ200および第2サーバ300と通信を行うことができることは言うまでもない。

0066

制御部150は、ディスプレイ装置100の動作全般を制御する。具体的に、制御部150は、音声収集部120を介してユーザの音声を収集し、収集されたユーザの音声を第1サーバ300に伝送するように第1通信部130を制御することができる。そして、制御部150は、ユーザの音声に対応するテキスト情報を受信するように、第1通信部130を制御することができる。

0067

一方、制御部150は、テキスト情報に対応する応答情報が第2サーバ300から受信されると、応答情報に基づいてユーザの音声に対応する応答メッセージを出力するように出力部110を制御することができる。

0068

ここで、応答情報は、応答メッセージを出力するための応答メッセージ情報を含んでよい。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものとして、制御部150は応答メッセージ情報に基づいて、ユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力部110を介して出力することができる。

0069

具体的に、制御部150は、TTSエンジンを用いて、テキスト形態の応答メッセージ情報を音声に変換して出力部110を介して出力することができる。ここで、TTSエンジンとは、テキストを音声に変換するためのモジュールとして、従来開示されている多様なTTSアルゴリズムを用いてテキストを音声に変換することができる。なお、制御部150は、応答メッセージ情報を構成するテキストを含むように、UI画面を構成して出力部110を介して出力することもできる。

0070

例えば、テレビで実現されたディスプレイ装置100が“最も人気のある番組名を教えて”というユーザの音声を収集すると、第2サーバ300は“最も人気のある番組は○○○(放送番組名)です”をテキスト形式で表示してディスプレイ装置100に伝送することができる。この場合、制御部150は、“最も人気のある番組は○○○(放送番組名)です”を音声に変換して出力部110を介して出力したり、“最も人気のある番組は○○○(放送番組名)です”というテキストが含まれるように、UI画面を構成して出力部110を介して出力するように制御することができる。

0071

なお、応答情報は、ディスプレイ装置100の機能を制御するための制御命令を含んでよい。ここで、制御命令は、ディスプレイ装置100で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部150は、第2サーバ300から受信された制御命令に基づいて、ユーザの音声に対応する機能が実行されるようにディスプレイ装置100の各構成要素を制御することができる。

0072

例えば、テレビで実現されたディスプレイ装置100が“テレビの音量を上げて”というユーザ音声を収集すると、第2サーバ300はディスプレイ装置100の音量を上げるための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて出力部110を介して出力されるオーディオの音量を上げることができる。ただ、それは一例に過ぎず、制御部150は、収集されたユーザの音声に応じて、電源オン/オフ、チャネル変更等の多様な動作が行われるように、ディスプレイ装置100の各構成要素を制御することができる。

0073

なお、応答情報は、制御命令に従って実行された機能に関連する応答メッセージ情報を含んでよい。この場合、制御部150は、制御命令による機能を行い、応答メッセージ情報に基づいて実行された機能に関連する応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。

0074

例えば、テレビで実現されたディスプレイ装置100が“チャネルを11番に変更して”というユーザの音声を収集すると、第2サーバ300はディスプレイ装置100のチャネルを11番に変更するための制御命令と、“チャネルを11番に変更しました”をテキスト形式で表示してディスプレイ装置100に伝送することができる。この場合、制御部150は、制御命令に基づいて出力部110を介して出力される放送チャネルを11番に変更する。そして、制御部150は、“チャネルを11番に変更しました”を音声に変換して出力110を介して出力するか、“チャネルを11番に変更しました”というテキストが含まれるようにUI画面を構成して、出力部110を介して出力するように制御することができる。

0075

上述の例のように、制御部150は、ユーザの音声に対応する応答メッセージを出力したり、ユーザの音声に対応する機能を実行するように制御することができる。

0076

一方、ディスプレイ装置100で別途の機能を実行することなく、ユーザの音声に対応する応答メッセージを出力する場合は、ユーザの音声がディスプレイ装置100で実行されることができない機能を実行させようとする場合を更に含んでよい。

0077

例えば、ディスプレイ装置100がテレビ電話機能をサポートしないテレビで実現された場合を仮定する。この場合、ディスプレイ装置100で“XXXに電話をかけて”というユーザ音声を収集すると、第2サーバ300はテレビ電話実行のための制御命令をディスプレイ装置100に伝送することができる。しかし、ディスプレイ装置100では、当該制御命令に対応する機能がサポートされていないということから、制御部150は、第2サーバ300から受信された制御命令を認識することができなくなる。この場合、制御部150は、“サポートされていない機能です”という応答メッセージを、出力部110を介して、音声およびテキストのうち少なくとも一方の形態で出力することができる。

0078

一方、上述の実施形態では、第2サーバ300から伝送される応答メッセージ情報は、応答メッセージがテキスト形式で表示されたものとして説明したが、それは一例に過ぎない。すなわち、応答メッセージ情報は、ディスプレイ装置100から出力される応答メッセージを構成する音声データそのものか、当該応答メッセージを構成する音声データの一部か、ディスプレイ装置100に予め保存された音声またはテキストを用いて、当該応答メッセージを出力するための制御信号の形態であってよい。

0079

それにより、制御部150は、応答メッセージ情報の形態を考慮し、応答メッセージを出力することができる。

0080

具体的に、制御部150は、応答メッセージを構成する音声データそのものが受信されると、当該データを出力部110から出力可能な形態で処理して音声およびテキストのうち、少なくとも一方の形態で出力することができる。

0081

一方、制御部150は、応答メッセージを出力するための制御信号が受信されると、ディスプレイ装置100に予め保存されたデータのうち、制御信号にマッチするデータを検索し、検索された音声またはテキストデータを出力可能な形態で処理して、出力部110を介して出力することができる。そのために、ディスプレイ装置100は、応答メッセージを提供するための音声またはテキストデータを保存していることができる。例えば、ディスプレイ装置100は、“チャネル変更が完了しました”といった完全な文章形態のデータを保存していてよく、なお、“チャネルを・・番に変更しました”のような文章を構成する一部データを保存していてよい。この場合、当該文章を完成させるチャネル名は第2サーバ300から受信されてよい。

0082

図4は、図3に示すディスプレイ装置の細部構成を説明するためのブロック図である。図4に示すように、ディスプレイ装置100は図3に示す構成要素の他に、インターフェース部160と、入力部170と、保存部180と、受信部190および信号処理部195を更に含んでよい。図4に示す構成要素のうち、図3に示す構成要素と重複する構成要素は、その機能が同一であるため、詳細な説明は省略する。

0083

インターフェース部160は、外部機器(図1の400)と通信を行う。具体的に、インターフェース部160は、HDMI(登録商標)やUSB等の各種の有線通信方式、ブルートゥース、Zigbee等の無線通信方式によって外部機器400と通信を行うことができる。そのために、インターフェース部160は、各通信方式に対応するチップまたは入力ポート等を備えてよい。例えば、HDMI通信方式によって外部機器400と通信を行う場合、インターフェース部160はHDMIポートを備えてよい。

0084

一方、ディスプレイ装置100は、第2サーバ300から応答情報を受信して多様な動作を行うことについて、図3を参照して上述している。

0085

この場合、応答情報は、外部機器400の機能を制御するための制御命令を含んでよい。ここで、制御命令は外部機器400で実行可能な機能のうち、ユーザの音声に対応する機能を実行するための命令を含んでよい。それにより、制御部150は、第2サーバ300から受信された制御命令をインターフェース部160を介して外部機器400に伝送し、外部機器400がユーザの音声に対応する機能を行うように制御することができる。

0086

例えば、外部機器400がDVDプレーヤで実現された場合を仮定する。ディスプレイ装置100が“DVDプレーヤの電源を入れて”というユーザの音声を収集すると、第2サーバ300はDVDプレーヤの電源をオンさせるための制御命令をディスプレイ装置100に伝送することができる。この場合、制御部150は、第2サーバ300から受信された制御命令をDVDプレーヤに伝送するように制御することができる。それにより、DVDプレーヤは、ディスプレイ装置100から受信された制御命令に基づいて自分の電源をオンさせることができる。ただ、それは一例に過ぎず、外部機器400はユーザ音声に応じて受信された制御命令に基づいて、多様な機能を行うことができることは言うまでもない。

0087

一方、制御部150は、第2サーバ300から受信された制御命令に基づいて外部機器400を制御することができない場合、ユーザの音声に応じて外部機器400を制御することができないことを示すメッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。ここで、制御命令に基づいて外部機器400を制御することができない場合は、第2サーバ300から受信された制御命令の対象となる機器がディスプレイ装置100に接続されていない場合を含んでよい。

0088

すなわち、制御部150は、インターフェース部160に接続された外部機器400の種類を判断し、第2サーバ300から受信された制御命令の対象となる機器がインターフェース部160に接続されていない場合、当該内容を示すメッセージを音声およびテキストのうち、少なくとも一方の形態で出力するように制御することができる。

0089

例えば、ディスプレイ装置100に接続された外部機器400がDVDプレーヤで実現された場合を仮定する。この場合、ディスプレイ装置100が“ゲーム機の電源を入れて”というユーザの音声を収集すると、第2サーバ300はゲーム機の電源をオンさせるための制御命令をディスプレイ装置100に伝送することができる。このとき、制御部150は、制御命令の対象となるゲーム機がインターフェース部160に接続されていない状態であるため、“ゲーム機の接続状態を確認して下さい”または“サポートされていない音声です”といったメッセージを音声およびテキストのうち、少なくとも一方の形態で出力してよい。

0090

入力部170は、多様なユーザ操作を受信して制御部150に伝達するための入力手段として、入力パネルで実現されてよい。ここで、入力パネルは、タッチパッド(Touch Pad)或いは各種機能キー数字キー、特殊キー文字キー等を備えたキーパッド(Key Pad)またはタッチスクリーン(Touch Screen)方式で行われてよい。更に、入力部170は、ディスプレイ装置100を制御するためのリモコンから伝送されるリモコン信号を受信するためのIR受信部(図示せず)で実現されてよい。

0091

一方、入力部170は、ディスプレイ装置100の機能を制御するための各種ユーザ操作を受信することができる。例えば、ディスプレイ装置100がスマートテレビで実現される場合、電源オン/オフ、チャネル変更、音量変更等、スマートテレビの機能を制御するためのユーザ操作を受信することができる。この場合、制御部150は、入力部170を介して入力されたユーザ操作に対応する各種機能を実行するように別の構成要素を制御することができる。例えば、制御部150は、電源オフ命令が入力されると、ディスプレイ装置100の各構成要素に供給される電源を遮断することができ、チャネル変更が入力されると、ユーザ操作に応じて選択されたチャネルを選局するように、受信部180を制御することができる。

0092

特に、入力部170は、ユーザの音声を収集するための音声認識モードを開始するためのユーザ操作を入力される。例えば、入力部170は、ディスプレイ部とともにタッチスクリーン形態で実現され、音声認識モードを入力されるためのオブジェクト(仮に、アイコン)をディスプレイすることができる。一方、入力部170は、音声認識モードを入力されるための別途のボタンを備えることもできる。

0093

音声認識モードを開始するためのユーザ操作が入力部170を介して入力されると、制御部150は音声収集部120を活性化して、ユーザの音声を収集することができる。そして、制御部150は、第1サーバ200および第2サーバ300との通信を通じて収集されたユーザ音声に対応する応答情報を受信し、応答メッセージを出力したり、特定機能を実行するように制御することができる。

0094

保存部180は、ディスプレイ装置100を動作させるために必要な各種プログラム等が保存される保存媒体として、メモリやHDD(Hard Disk Drive)等で実現可能である。例えば、保存部180は、制御部150の動作実行のためのプログラムを保存するためのROM、制御部150の動作実行によるデータを一時的に保存するためのRAM等を備えてよい。なお、各種参照データを保存するためのEEPROM(Electrically Erasable and Programmable ROM)等を更に備えてよい。

0095

特に、保存部180は、ユーザの音声に対応する各種応答メッセージを音声またはテキストデータで予め保存していてよい。それにより、制御部150は、第2サーバ300から受信される音声メッセージ情報(特に、制御信号)に対応する音声またはテキストデータを保存部180から読み取ってオーディオ出力部112またはディスプレイ部111に出力することができる。この場合、制御部150は、音声データに対してデコーディング等の信号処理を行い、デコーディングされた音声データを増幅してオーディオ出力部112を介して出力することができ、テキストデータを構成するテキストが含まれるようにUI画面を構成してディスプレイ部111を介して出力することができる。上述の実施形態では、制御部150が保存部180から読み取られた音声およびテキストデータに対する信号処理を行うものとして説明したが、制御部150は、音声およびテキストデータに対する信号処理を行うように、信号処理部195を制御することもできる。

0096

受信部190は、多様なコンテンツを受信する。具体的に、受信部190は、放送ネットワークを用いて放送番組コンテンツを伝送する放送局またはインターネットを用いてコンテンツファイルを伝送するウェブサーバからコンテンツを受信する。なお、ディスプレイ装置100内に設けられたり、ディスプレイ装置100に接続された各種記録媒体再生装置からコンテンツを受信することもできる。記録媒体再生装置とは、CDやDVD、ハードディスクブルーレイディスクメモリカードUSBメモリ等のような多様な記録媒体に保存されたコンテンツを再生する装置を意味する。

0097

放送局からコンテンツを受信する実施形態の場合には、受信部190は、チューナ(図示せず)、復調器(図示せず)、等化器(図示せず)等のような構成を含む形態で実現されてよい。一方、ウェブサーバのようなソースからコンテンツを受信する実施形態の場合には、受信部190は、ネットワークインターフェースカード(図示せず)で実現されてよい。または、上述の各種記録媒体再生装置からコンテンツを受信する実施形態の場合には、受信部190は、記録媒体再生装置と接続されたインターフェース部(図示せず)で実現されてよい。このように、受信部190は、実施形態に応じて多様な形態で実現されてよい。

0098

信号処理部195は、受信部190を介して受信されたコンテンツが出力部110を介して出力できるようにコンテンツに対する信号処理を行う。

0099

具体的に、信号処理部195は、コンテンツに含まれたビデオ信号に対してデコーディング、スケーリングおよびフレームレート変換等の動作を行い、ディスプレイ部111から出力可能な形態でビデオ信号を変換することができる。なお、信号処理部195は、コンテンツに含まれたオーディオ信号に対してデコーディング等の信号処理を行ってオーディオ出力部112から出力可能な形態でオーディオ信号を変換することができる。

0100

図5は、図1に示す第1サーバの構成を説明するためのブロック図である。図5に示すように、第1サーバ200は、通信部210および制御部220を含む。

0101

通信部210は、ディスプレイ装置100と通信を行う。具体的に、通信部210は、ディスプレイ装置100からユーザの音声を受信し、ユーザの音声に対応するテキスト情報をディスプレイ装置100に伝送することができる。そのために、通信部210は、多様な通信モジュールを含んでよい。

0102

制御部220は、第1サーバ200の動作全般を制御する。特に、制御部220は、ディスプレイ装置100からユーザの音声が受信されると、ユーザの音声に対応するテキスト情報を生成し、それをディスプレイ装置100に伝送するように通信部210を制御する。

0103

具体的に、制御部220は、STT(Speech To Text)エンジンを用いて、ユーザの音声に対応するテキスト情報を生成することができる。ここで、STTエンジンとは、音声信号をテキストに変換するためのモジュールとして、従来開示されている多様なSTTアルゴリズムを用いて音声信号をテキストに変換することができる。

0104

例えば、制御部220は、受信されたユーザの音声内でユーザが発話した音声の開始と終了とを検出して音声区間を判断する。具体的に、制御部220は、受信された音声信号のエネルギーを計算し、計算されたエネルギーに応じて音声信号のエネルギーレベル分類して、動的プログラミングを通じて音声区間を検出することができる。そして、制御部220は、検出された音声区間内において、音響モデル(Acoustic Model)に基づいて、音声の最小単位である音素を検出して音素データを生成し、生成された音素データにHMM(Hidden Markov Model)確率モデルを適用して、ユーザの音声をテキストに変換することができる。

0105

図6は、図1に示す第2サーバの構成を説明するためのブロック図である。図6に示すように、第2サーバ300は、通信部310と、保存部320および制御部330を含む。

0106

通信部310は、ディスプレイ装置100と通信を行う。具体的に、通信部310は、ディスプレイ装置100からテキスト情報を受信し、テキスト情報に対応する応答情報をディスプレイ装置100に伝送することができる。そのために、通信部310は、多様な通信モジュールを含んでよい。

0107

保存部320は、ディスプレイ装置100から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存する。

0108

具体的に、保存部320は、サービスドメイン別の対話パターンを保存する。ここで、サービスドメインは、ユーザが発話した音声が属するテーマに応じて、“放送”、“VOD”、“アプリ管理”、“機器制御”、“情報(天気や株式、ニュース等)提供”等で区分されてよい。しかし、それは一例に過ぎず、その他にも、多様なテーマに応じてサービスドメインを区分することができることはいうまでもない。

0109

より具体的に、保存部320は、各サービスドメイン別のコーパス(corpus)データベースを備えてよい。ここで、コーパスデータベースとは、例文およびそれに対する回答を保存する形態で実現されてよい。

0110

すなわち、保存部320は、各サービスドメイン別に複数の例文および各例文に対する回答を保存することができる。なお、保存部320は、例文を解釈するための情報および例文に対応する回答を各例文ごとにタグ付け(Tagging)して保存することができる。

0111

例えば、放送サービスドメイン内に“○○○(放送番組名)は何時から?”という例文が保存された場合を仮定する。

0112

この場合、保存部320は、“○○○(放送番組名)は何時から?”といった例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○○(放送番組名)は何時から?”のような例文において、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜は何時から?”という形式を有する例文の冒頭には放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、放送番組名、出演者演出者等が含まれてよい。

0113

なお、保存部320は、“○○○(放送番組名)は何時から?”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○○(放送番組名)は何時から?”に対する回答として、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をタグ付けして保存することができる。

0114

別の例として、放送サービスドメイン内に“○番(チャネル番号)に変えて”という例文が保存された場合を仮定する。

0115

この場合、保存部320は、“○番(チャネル番号)に変えて”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)に変えて”のような例文において、“○番(チャネル番号)”はチャネル番号を示し、“変え”とはチャネル選局命令を示し、“て”とは例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜に変えて”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。

0116

なお、保存部320は、“○番(チャネル番号)に変えて”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)に変えて”に対する回答として、“<チャネル番号>にチャネルを変更しました”をタグ付けして保存することができる。

0117

更に別の例として、機器制御ドメイン内に、“○○(機器名称)の電源を切って”という例文が保存された場合を仮定する。

0118

この場合、保存部320は、“○○(機器名称)の電源を切って”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○(機器名称)の電源を切って”のような例文において、“○○(機器名称)”は機器名称を示し、“電源”、“切っ”とは電源オフ命令を示し、“て”とは当該例文のタイプが要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜の電源を切って”という形式を有する例文の冒頭には、機器に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、機器に関連する単語は、機器名称、製造元等を含んでよい。

0119

なお、保存部320は、“○○(機器名称)の電源を切って”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○○(機器名称)の電源を切って”に対する回答として、“<機器名称>の電源をオフにしました”をタグ付けして保存することができる。

0120

なお、保存部320は、各例文にディスプレイ装置100または外部機器400を制御するための制御命令をタグ付けして保存することができる。特に、保存部320は、ディスプレイ装置100または外部機器400を制御するためのユーザの音声に対応する例文にディスプレイ装置100または外部機器400を制御するための制御命令をタグ付けして保存することができる。

0121

例えば、保存部320は、“○番(チャネル番号)に変えて”といった例文にディスプレイ装置100のチャネルを○番に変更するための制御命令をタグ付けして保存することができる。別の例として、保存部320は、“○○(機器名称)の電源を切って”といった例文に機器名称を有する外部機器400の電源をオフさせるための制御命令をタグ付けして保存することができる。

0122

一方、保存部320は、保存される例文およびそれに対する回答について説明してきた。しかし、それは一例に過ぎず、サービスドメイン別に多様な例文およびそれに対する回答が保存できることは言うまでもない。

0123

制御部330は、第2サーバ300の動作全般を制御する。特に、ディスプレイ装置100からユーザの音声に対応するテキスト情報が受信されると、制御部330は、受信されたテキスト情報に対応する応答情報を生成し、生成された応答情報を通信部310を介してディスプレイ装置100に伝送するように制御することができる。具体的に、制御部330は、テキスト情報を分析してユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送するように通信部310を制御することができる。

0124

そのために、制御部330は、受信されたテキスト情報にマッチする対話パターンが存在するコーパスデータベースを検出し、ユーザの音声が属するサービスドメインを判断することができる。

0125

具体的に、制御部330は、受信されたテキスト情報を各サービスドメイン別に保存された例文と比較し、受信されたテキスト情報にマッチする例文が属するサービスドメインをユーザの音声が属するサービスドメインとして判断することができる。

0126

例えば、制御部320は、ディスプレイ装置100から“○○○(放送番組名)は何時から?”または“○番(チャネル番号)に変えて”というテキストが受信されると、ディスプレイ装置100で収集したユーザの音声が放送サービスドメインに属すると判断することができ、ディスプレイ装置100から“○○(機器名称)の電源を切って”というテキストが受信されると、ディスプレイ装置100から収集したユーザの音声が機器制御ドメインに属すると判断することができる。

0127

一方、制御部330は、受信されたテキスト情報にマッチする例文が存在しない場合、統計的にユーザの音声が属するドメインを判断することができる。

0128

例えば、ディスプレイ装置100が“○番(チャネル番号)に変えて”を収集し、収集されたユーザの音声に対するテキストを第2サーバ300に伝送した場合を仮定する。この場合、制御部330は、HMM(Hidden Markov Model)、CRF(Condition Random Fields)、SVM(Support Vector Machine)等の分類モデルを使用してユーザの音声が“○番(チャネル番号)に変えて”と統計的に類似すると判断し、“○番(チャネル番号)に変えて”は放送サービスドメインに属すると判断することができる。

0129

そして、制御部330は、予め保存された例文と統計的に類似すると判断されたテキスト情報を保存することもできる。この場合、制御部330は、テキスト情報を統計的に類似する例文が属するサービスドメインの更に別の例文で保存することができる。

0130

この場合、制御部330は、予め保存された例文を参照して、新たに保存される例文を解釈するための情報およびそれに対応する回答を新たに保存される例文にタグ付けして保存することができる。

0131

例えば、“○番(チャネル番号)に変えて下さい”を新たな例文として保存する場合を仮定する。

0132

この場合、制御部330は、“○番(チャネル番号)に変えて”を参照して“○番(チャネル番号)に変えて下さい”のような例文を解釈するための情報を当該例文にタグ付けして保存することができる。具体的に、制御部330は、“○番(チャネル番号)に変えて下さい”のような例文において、“○番(チャネル番号)”はチャネル番号を示し、“変えて”とはチャネル選局命令を示し、“下さい”とは例文のタイプは要求文であることを示す情報を当該例文にタグ付けして保存することができる。なお、保存部320は、“〜に変えて下さい”という形式を有する例文の冒頭には、放送番組に関連する単語が配置されるという情報を当該例文にタグ付けして保存することができる。ここで、放送番組に関連する単語は、チャネル番号、放送局名、放送番組名、出演者、演出者等であってよい。

0133

なお、保存部320は、“○番(チャネル番号)に変えて下さい”に対する回答を当該例文にタグ付けして保存することができる。具体的に、保存部320は、“○番(チャネル番号)に変えて下さい”に対する回答として、“<チャネル番号>にチャネルを変更しました”をタグ付けして保存することができる。

0134

なお、制御部330は、ディスプレイ装置100から受信されたテキスト情報にマッチする例文が複数個存在し、これらが互いに異なるサービスドメインに属する場合、統計的に分析してユーザの音声の属するサービスドメインとして判断することができる。

0135

具体的に、制御部330は、ディスプレイ装置100から受信されたテキスト情報を構成する単語(または、形態素)が各サービスドメイン内に存在する頻度数に基づいて各単語(または、形態素)に加重値を与えて、与えられた加重値を考慮してユーザの音声の属するサービスドメインとして判断することができる。

0136

例えば、“○○○(放送番組名)に変えて”という例文が放送サービスドメインおよびVODサービスドメインに各々保存された状態で、“○○○(放送番組名)に変えて”のようなテキストがディスプレイ装置100から受信された場合を仮定する。

0137

この場合、制御部330は、“○○○(放送番組名)に変えて”にマッチする例文が放送サービスドメインおよびVODサービスドメインに存在すると判断し、“○○○(放送番組名)に変えて”を構成する単語(または、形態素)である“変え”および“て”が、各サービスドメイン内に存在する頻度数に基づいて各サービスドメイン別に“変え”および“て”に加重値を与えることができる。

0138

例えば、制御部330は、放送サービスドメイン内に保存された全例文の中から、“変え”を含む例文の占める割合を放送サービスドメインから“変え”の加重値として算出し、放送サービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合を放送サービスドメインから“て”の加重値を算出することができる。

0139

このような方法で、制御部330は、VODサービスドメイン内に保存された全例文の中から、“変え”を含む例文の占める割合をVODサービスドメインから“変え”の加重値として算出し、VODサービスドメイン内に保存された全例文の中から“て”を含む例文の占める割合をVODサービスドメインから“て”の加重値を算出することができる。

0140

その後、制御部330は、各単語に対して与えられた加重値を演算してユーザの音声の属するサービスドメインを判断することができる。上述の例において、制御部330は、放送サービスドメイン内において、“変え”と“て”の各々に与えられた加重値を互いに掛け算した結果と、VODサービスドメイン内において、“変え”と“て”の各々に与えられた加重値を互いに掛け算した結果とを比較し、結果値の大きいサービスドメインにユーザの音声が属すると判断することができる。

0141

すなわち、制御部330は、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値が、VODサービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○(放送番組名)に変えて”は、放送サービスドメインに属すると判断することができる。逆に、制御部330は、VODサービスドメイン内において与えられた加重値に基づいて算出された結果値が、放送サービスドメイン内において与えられた加重値に基づいて算出された結果値より大きい場合、“○○○(放送番組名)に変えて”は、VODサービスドメインに属すると判断することができる。

0142

しかし、それは一例に過ぎず、制御部330は、多様な方式を通じて統計的にユーザの音声の属するサービスドメインを判断することができる。

0143

その後、制御部330は、ユーザの音声の属するサービスドメインに基づいて、ユーザの音声から対話作用(dialogue act)、主作用(main action)および構成要素(component slot)(または、個体名)を抽出する。

0144

ここで、対話作用は、文章の形態に関連する分類基準として、当該文章が叙述部(Statement)、要求文(Request)または疑問文(Question)であるかを示すものである。

0145

主作用は、当該発話が特定ドメインで対話を通じて所望の行為を示す意味的情報である。例えば、放送サービスドメインで、主作用はテレビ電源オン/オフ、放送番組検索、放送番組時間検索、放送番組予約等を含んでよい。別の例として、機器制御ドメインで、主作用は機器電源オン/オフ、再生、一時停止等を含んでよい。

0146

構成要素は、発話に示される特定ドメインに対する個体情報、すなわち、特定ドメインで意図する行動の意味を具体化するために与えられる情報である。例えば、放送サービスドメインにおいて、構成要素はジャンル、放送番組名、放送時間、チャネル名、俳優名前等を含んでよく、機器制御サービスドメインにおいて構成要素は、外部機器名称、製造元等を含んでよい。

0147

そして、制御部330は、抽出された対話作用、主作用および構成要素を用いてユーザの音声に含まれた発話意図を判断し、判断された発話意図に対応する応答情報を生成してディスプレイ装置100に伝送することができる。

0148

ここで、応答情報は、ディスプレイ装置100から応答メッセージを出力するための応答メッセージ情報を含む。応答メッセージ情報は、ユーザの音声に対してディスプレイ装置100から出力される応答メッセージがテキスト形式で表現されたものとして、ディスプレイ装置100は第2サーバ300から受信された応答メッセージ情報に基づいてユーザの音声に対応する応答メッセージを出力することができる。

0149

そのために、制御部330は、判断された発話意図に対する回答を保存部320から抽出し、抽出された回答をテキストに変換して応答メッセージ情報を生成することができる。

0150

なお、応答情報はユーザの音声に対応する機能を実行するための制御命令を含んでよい。ここで、制御命令はユーザの音声に対応する機能を行うようにディスプレイ装置100を制御するための制御命令またはユーザの音声に対応する機能を行うように、外部機器400を制御するための制御命令を含んでよい。

0151

そのために、制御部330は判断された発話意図に対応する制御命令を保存部320から抽出してディスプレイ装置100に伝送するように制御することができる。

0152

以下では、制御部330がユーザの音声に対応する応答情報を生成するより具体的な方法を例えて説明する。

0153

まず、制御部330は、ユーザの音声とマッチする例文またはユーザの音声と統計的に類似すると判断された例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用および構成要素を抽出し、ユーザの音声に対応する応答情報を生成してディスプレイ装置100に伝送することができる。

0154

例えば、ディスプレイ装置100からテキスト“○○○(放送番組名)は何時から?”が受信された場合を仮定する。

0155

この場合、制御部330は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

0156

すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には例文を解釈するための情報として、“○○○(放送番組名)”は放送番組を示し、“何時”は放送時間に関するお問い合わせを示し、“から?”は例文のタイプが疑問文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○○(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は○○○(放送番組名)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○○○”に対する“放送時間”を“問い合わせる”ものと判断することができる。

0157

なお、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

0158

すなわち、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をユーザの音声に対応する回答として検索する。

0159

この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。

0160

例えば、制御部330は、“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答で、ブランク<放送番組名>は放送番組名である“○○○(放送番組名)”を載せることができる。そして、制御部330は、EPG(Electronic Program Guide)情報を通じて“○○○(放送番組名)”の放送時間を検索し、検索された放送時間を別のブランクである<放送時間>に載せることができる。それにより、制御部330は、“お問い合わせの○○○の放送時間は土曜日の7時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0161

それにより、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

0162

別の例として、ディスプレイ装置100からテキスト“○番(チャネル番号)に変えて”が受信された場合を仮定する。

0163

この場合、制御部330は、受信されたテキストが放送サービスドメインに属すると判断し、放送サービスドメイン内で受信されたテキストとマッチする例文である“○番(チャネル番号)に変えて”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

0164

すなわち、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”には例文を解釈するための情報として、“○(チャネル番号)”はチャネル番号を示し、“変え”は放送選局命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○番(チャネル番号)に変えて”の対話作用は要求文であり、主作用は放送選局命令であり、構成要素は○番(チャネル番号)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○番”に対する“放送選局”を“要求する”ものと判断することができる。

0165

なお、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

0166

すなわち、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされた回答である“<チャネル番号>にチャネルを変更しました”をユーザの音声に対応する回答として検索する。

0167

この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。

0168

例えば、制御部330は、“<チャネル番号>にチャネルを変更しました”のような回答で、ブランク<チャネル番号>はチャネル番号である“○番(チャネル番号)”を載せることができる。それにより、制御部330は、“○番にチャネルを変更しました”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0169

なお、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされた制御命令を保存部320から検索し、タグ付けされた制御命令をディスプレイ装置100に伝送するように制御することができる。すなわち、制御部330は、放送サービスドメインに保存された例文である“○番(チャネル番号)に変えて”にタグ付けされたディスプレイ装置100のチャネルを○番に変更するための制御命令をディスプレイ装置100に伝送することができる。

0170

それにより、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○番にチャネルを変更し、第2サーバ300から受信された応答メッセージ情報に基づいて、“○番にチャネルを変更しました”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

0171

別の例として、ディスプレイ装置100からテキスト“○○(機器名称)の電源を切って”が受信された例を仮定する。

0172

この場合、制御部330は、受信されたテキストが機器制御ドメインに属すると判断し、機器制御ドメイン内で受信されたテキストとマッチする例文である“○○(機器名称)の電源を切って”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

0173

すなわち、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”には例文を解釈するための情報として、“○○(機器名称)”は機器名称を示し、“電源”、“切っ”は電源オフ命令を示し、“て”は例文のタイプが要求文であることを示す情報がタグ付けされている。よって、制御部330は、これらの情報を参照してディスプレイ装置100から受信されたテキスト“○○(機器名称)の電源を切って”の対話作用は要求文であり、主作用は電源オフ命令であり、構成要素は○○(機器名称)であると判断することができる。それにより、制御部330は、ユーザの音声に含まれた発話意図は“○○(機器名称)”に対する“電源オフ”を“要求する”ものと判断することができる。

0174

なお、制御部330は、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた回答を保存部320から検索し、タグ付けされた回答を用いて応答メッセージ情報を生成することができる。

0175

すなわち、制御部330は、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた回答である“<機器名称>の電源をオフにしました”をユーザの音声に対応する回答として検索する。

0176

この場合、制御部330は、検索された回答に含まれたブランクを完成し、完全な形の文章を生成することができる。

0177

例えば、制御部330は、“<機器名称>の電源をオフにしました”のような回答で、ブランク<機器名称>に“○○(機器名称)”を載せることができる。それにより、制御部330は、“<機器名称>の電源をオフにしました”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0178

なお、制御部330は、機器制御ドメインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた制御命令を保存部320から検索し、タグ付けされた制御命令をディスプレイ装置100に伝送するように制御することができる。すなわち、制御部330は、機器制御メインに保存された例文である“○○(機器名称)の電源を切って”にタグ付けされた○○(機器名称)の電源をオフさせるための制御命令をディスプレイ装置100に伝送することができる。

0179

それにより、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○○(機器名称)を有する外部機器400の電源をオフさせ、第2サーバ300から受信された応答メッセージ情報に基づいて、“○○(機器名称)の電源をオフにしました”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

0180

一方、制御部330は、ユーザの音声と統計的に類似するものとして、例文にタグ付けされた情報を用いて、ユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

0181

例えば、ディスプレイ装置100からテキスト“△△△(放送番組名)は何時から?”が受信された場合を仮定する。

0182

この場合、制御部330は、テキスト“△△△(放送番組名)は何時から?”は、放送サービスドメイン内に保存された例文である“○○○(放送番組名)は何時から?”と統計的に類似すると判断することができる。それにより、制御部330は、放送サービスドメイン内に保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた情報を用いてユーザの音声から対話作用、主作用および構成要素を抽出し、それに対する応答情報を生成することができる。

0183

すなわち、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”には例文を解釈するための情報として、“〜は何時から?”の前の部分には、放送番組に関連する単語が配置されるという情報がタグ付けされている。よって、制御部330は、放送番組に関連する単語である放送番組名、出演者、演出者等のうち、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索する。

0184

そのために、保存部320は、各サービスドメイン別に構成要素に対する情報を保存する個体名辞書またはTIMEX辞書等を含んでよい。

0185

すなわち、制御部330は、個体名辞書またはTIMEX辞書等を参照して、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索し、“△△△(放送番組名)”が放送番組名を表す単語であると判断することができる。

0186

ただ、それは一例に過ぎず、制御部330は、EPG情報等を用いて、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索することもでき、予め保存された例文とCRF(Conditional Random Field)を用いて、“△△△(放送番組名)”がどのような意味を有する単語であるかを検索することもできる。

0187

それにより、制御部330は、ディスプレイ装置100から受信されたテキスト“△△△(放送番組名)は何時から?”の対話作用は疑問文であり、主作用は放送時間に関するお問い合わせであり、構成要素は△△△(放送番組名)であると判断することができる。そして、制御部330は、ユーザの音声に含まれた発話意図は、“△△△”に対する“放送時間”を“問い合わせる”ことと判断することができる。

0188

なお、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答を用いて、“△△△(放送番組名)は何時から?”に対する応答メッセージ情報を生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0189

すなわち、制御部330は、放送サービスドメインに保存された例文である“○○○(放送番組名)は何時から?”にタグ付けされた回答である“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”をユーザの音声に対応する回答として検索する。そして、制御部330は、“お問い合わせの△△△(放送番組名)の放送時間は水曜日の11時からです”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0190

一方、制御部330は、ディスプレイ装置100で応答メッセージの一部の文章データを保存している場合、当該文章を完成させるための一部のテキストのみをディスプレイ装置100に伝送するように制御することができる。

0191

例えば、ディスプレイ装置100に“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”のような回答が予め保存されている場合、制御部330は、ディスプレイ装置100に保存された回答を完全な形の文章で構成するために、ユーザが問い合わせる放送番組名およびその放送時間をテキスト形態のディスプレイ装置100に伝送するように制御することができる。この場合、制御部330は、ディスプレイ装置100に予め保存された回答を出力するための別途の制御信号をディスプレイ装置100に伝送することができる。

0192

それにより、ディスプレイ装置100は、第2サーバ300から受信されたテキストを予め保存された回答に載せて“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を応答メッセージとして出力することができる。

0193

一方、上述の実施形態において、制御部330は例文にタグ付けされた情報を用いて対話作用、主作用および構成要素を抽出するものとして説明してきたが、それは一例に過ぎない。すなわち、制御部330は、ユーザの音声からMaxEnt(Maximum Entropy Classfier)を用いて対話作用、主作用を抽出し、CRF(Condition Random Fields)を用いて構成要素を抽出することもできる。

0194

しかし、これらの実施形態に限定されるわけではなく、制御部330は既に公知となった多様な方式を通じてユーザの音声から対話作用、主作用および構成要素を抽出することもできる。

0195

一方、制御部330は、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができない場合、以前に受信されたユーザの音声を参照して、現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。すなわち、制御部330は、現在受信されたユーザの音声をコーパスデータベースに保存された対話パターンと比較して、現在受信されたユーザの音声が対話パターンで、最初のユーザ発話に該当するか否かを判断し、最初のユーザ発話に該当しないと判断されると、以前に受信されたユーザの音声を参照して現在受信されたユーザの音声に含まれたユーザの発話意図を判断することができる。

0196

例えば、“○○○(放送番組名)は何時から?”というユーザの音声が入力された後、“何時から?”というユーザの音声が入力された場合を仮定する。この場合、制御部330は、“何時から?”というユーザの音声が放送サービスドメイン内で最初のユーザ発話に該当しないと判断されると、以前に受信された“○○○(放送番組名)は何時から?”というユーザ音声に基づいて、“何時から?”の発話意図を判断することができる。すなわち、制御部330は、構成要素を抽出することができない“何時から?”というユーザ音声の発話意図を判断するために、以前に受信されたユーザ音声に含まれた“○○○(放送番組名)”を用いて“何時から?”の発話意図を“○○○”に対する“番組の開始時間”を“問い合わせる”ことと判断することができる。

0197

一方、図1ないし図4において、ディスプレイ装置100は、第2サーバ300から受信された応答情報に応じてユーザの音声に対応する応答メッセージを出力したり、特定機能を行うものとして説明したが、それは一例に過ぎない。ディスプレイ装置100は、第1サーバ200から受信されたテキスト情報を用いて、ユーザの音声に対応する応答メッセージを出力したり特定機能を行うこともできる。

0198

以下では、図4を参照して、より具体的に説明する。

0199

保存部180は、第1サーバ200から受信されたテキスト情報に対応する応答情報を生成するための多様な情報を保存することができる。すなわち、第2サーバ300の保存部320のように、保存部180は各サービスドメイン別に複数の例文および各例文に対する回答を保存することができる。このとき、保存部140は、例文を解釈するための情報および例文に対応する回答、制御命令をタグ付けして保存することができる。

0200

制御部150は、保存部180に保存された例文および例文にタグ付けされた情報を用いてユーザの音声に対応する応答情報を生成し、生成された応答情報に基づいてユーザの音声に対応する応答メッセージを出力したり、ユーザの音声に応じてディスプレイ装置100または外部機器400の機能を行うように制御することができる。この場合、制御部150は、第2サーバ300に対する説明部分で説明した方法と同様の方法を用いることができる。

0201

図7は、本発明の別の実施形態に係る対話型システムを説明するための図である。図7に示すように、対話型システム1000’は、ディスプレイ装置100と、第1サーバ200と、第2サーバ300と、外部機器400および外部サーバ500を含む。図7の対話型システムは、別途の外部サーバ500を更に具備することにおいてのみ、図1の対話型システムと相違しているため、図1ないし図6と重複する内容に対する具体的な説明は省略する。ただ、第2サーバ300の動作に対しては、図6に示すブロック図を参照して説明する。

0202

第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報に基づいてユーザの音声に対する発話意図を判断し、判断された発話意図による応答情報を生成してディスプレイ装置100に伝送する。この場合、第2サーバ300は、外部サーバ500から受信された検索情報を用いて応答情報を生成することができる。

0203

ここで、応答情報を生成することができない場合は、検索された回答に含まれたブランクを完成することができない場合を含んでよい。

0204

この場合、第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報そのものを外部サーバ500に伝送してテキスト情報に対応する検索情報を外部サーバ500から受信し、検索情報に基づいて応答情報を生成することができる。

0205

なお、第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報から一定のキーワードを抽出し、外部サーバ500に伝送することもできる。例えば、“ソウル気温はどう?”というテキストからキーワードは“ソウル”、“気温”であってよく、第2サーバ300は、サービスドメイン別に一定のキーワードを保存していてよい。

0206

外部サーバ500は、第2サーバ300から受信されたテキスト情報またはテキスト情報から抽出されたキーワードに基づいて、検索情報を生成し、それを第2サーバ300に伝送する。具体的に、外部サーバ500は、多様な情報を保存するウェブサーバで実現され、テキスト情報またはテキスト情報から抽出されたキーワードに対するウェブ検索を行い、検索された結果を第2サーバ300に伝送することができる。

0207

それにより、第2サーバ300は、外部サーバ500から受信された検索結果を用いて検索された回答に含まれたブランクを完成して応答情報を生成し、生成された応答情報をディスプレイ装置100に伝送することができる。

0208

例えば、ディスプレイ装置100から“○○(地域名称)の天気はどう?”というテキストを受信すると、制御部330は、ユーザの音声に含まれた発話意図は“○○(地域名称)”に対する“天気”を“問い合わせる”ものと判断し、“お問い合わせの<地域名称>の天気は<天気情報>です”を回答として検索することができる。

0209

この場合、制御部330は、検索された回答で、ブランク<地域名称>は地域名称である“○○(地域名称)”を載せることができる。ただ、別のブラック<天気情報>を完成するために、制御部330は、受信されたテキスト情報またはテキスト情報から抽出されたキーワードを外部サーバ500に伝送することができる。ここで、キーワードは、“○○(地域名称)”および“天気”であってよい。それにより、外部サーバ500は、○○(地域名称)に対する天気情報を検索することができる。

0210

ここで、制御部330は、外部サーバ500から検索結果が受信されると、受信された検索結果を用いてユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。上述の例において、外部サーバ500から検索結果として、○○(地域名称)に対する天気が25℃であることが受信されると、制御部330は、“お問い合わせの○○(地域情報)の天気は25℃です”という完全な形の文章をユーザの音声に対応する応答メッセージ情報として生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0211

それにより、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“お問い合わせの○○(地域名状)の天気は25℃です”を音声およびテキストのうち、少なくとも一方の形態で出力することができる。

0212

図8は、図7に示す対話型システムの各動作を説明するためのタイミング図である。一方、第2サーバ300の具体的な構成は、図6に示すものと同様であるため、第2サーバ300の動作に対しては、図6に示すブロック図を参照して説明する。なお、図8において、ステップS510ないしS514は、図2のS10ないしS50と同様であることから、繰り返し説明は省略する。

0213

第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報に基づいて、ユーザの音声に対する発話意図を判断し、判断された発話意図による応答情報を生成することができるか否かを判断する(S515)。

0214

具体的に、制御部330は、ディスプレイ装置100から受信されたテキスト情報に基づいて、ユーザの音声の属するサービスドメインを判断し、サービスドメインに基づいてユーザの音声に対応する発話意図を判断する。そして、制御部330は、判断された発話意図に対応する回答を保存部310に具備されたコーパスデータベースから抽出する。それに対しては、図1ないし図6とともに上述している。

0215

この後、制御部330は、抽出された回答を用いて応答メッセージ情報を生成する。

0216

この場合、抽出された回答が完成した文章形態ではなく、予め保存された情報を用いて抽出された回答を完成させることができないと、制御部330は発話意図による応答情報を生成することができないと判断する。

0217

例えば、収集された“○○○(放送番組名)は何時から?”というユーザの音声に対する発話意図が“○○○”に対して“番組の開始時間”を“問い合わせる”ものとして判断し、それによる回答として“お問い合わせの<放送番組名>の放送時間は<放送時間>からです”が抽出された場合を仮定する。この場合、制御部330は、EPG情報を用いて“お問い合わせ○○○(放送番組名)の放送時間は土曜日の7時からです”という応答メッセージ情報を生成する。

0218

別の例として、収集された“○○(地域名称)の天気はどう?”というユーザの音声に対する発話意図が“○○(地域名称)”に対する“天気”を“問い合わせる”ものとして判断され、それによる回答として“お問い合わせの<地域名称>の天気は<天気情報>です”が抽出された場合を仮定する。この場合、第2サーバ300には、○○(地域名称)に対する天気情報が予め保存されていないため、予め保存されている情報を用いて抽出された回答を完成させることができない。このように、予め保存された情報を用いて完成した文章形態の応答メッセージ情報を生成することができない場合、制御部330は発話意図による応答情報を生成することができないと判断する。

0219

この場合、第2サーバ300は、ディスプレイ装置100から受信されたテキスト情報を外部サーバ500に伝送する。そのために、通信部310は、外部サーバ500と通信を行うことができる。

0220

具体的に、制御部330は、発話意図による応答情報を生成することができない場合、すなわち、予め保存された情報を用いて抽出された回答を完成させることができない場合、ディスプレイ装置100から受信されたテキスト情報を外部サーバ500に伝送するように通信部310を制御する。すなわち、上述の例において、制御部330は“○○(地域名称)の天気はどう?”というテキスト情報を外部サーバ500に伝送するように制御する。

0221

なお、制御部330は、ディスプレイ装置100から受信されたテキスト情報からキーワードを抽出し、通信部310を通じて抽出されたキーワードを外部サーバ400に伝送することもできる。

0222

そのために、保存部320は、テキスト情報から抽出される各種キーワードに対する情報を保存することができる。具体的に、保存部320は、サービスドメイン別に予め定義されたキーワードを保存することができる。例えば、情報提供サービスドメインに対しては、地域名称、気温、雨、、確率等のような天気関連のキーワードをマッチさせて保存し、放送サービスドメインに対しては、番組名、主演俳優、シンガー、曲名等のような放送関連のキーワードをマッチさせて保存することができる。

0223

例えば、“○○(地域名称)の天気はどう?”というユーザの音声は情報提供サービスドメインに属するため、制御部330は、テキスト情報から“ソウル”、“天気”のようなキーワードを検出し、外部サーバ500に伝送するように制御することができる。

0224

外部サーバ500は、検索情報を生成し(S517)、生成された検索情報を第2サーバ300に伝送する。具体的に、外部サーバ500はウェブサーバで実現され、第2サーバ300から受信されたテキスト情報またはキーワードに対するウェブ検索を行い、ウェブ検索結果を検索情報として生成することができる。

0225

上述の例のように、外部サーバ500は“○○(地域名称)の天気はどう?”というテキストまたは“○○(地域名称)”、“天気”のようなキーワードが第2サーバ300から受信されると、当該情報を用いてウェブ検索を行い、それによって検索された○○(地域名称)の天気に対する情報を第2サーバ300に伝送することができる。

0226

一方、第2サーバ300は、外部サーバ500から検索情報が受信されると、応答情報を生成し(S519)、生成された応答情報をディスプレイ装置100に伝送することができる。

0227

具体的に、制御部330は、検索情報を用いてユーザの音声に対応する応答情報を生成することができる。すなわち、制御部330は、検索情報を用いて抽出された回答を完全な形に再構成して応答メッセージ情報を生成し、生成された応答メッセージ情報をディスプレイ装置100に伝送することができる。

0228

すなわち、上述の例において、外部サーバ400から○○(地域名称)の天気が25℃である検索情報が受信されると、制御部330は検索情報に基づいて“お問い合わせの○○(地域名称)の天気は25℃です”という応答メッセージ情報を生成してディスプレイ装置100に伝送するように制御することができる。

0229

一方、ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいてユーザ音声に対応する動作を行う。上述の例において、ディスプレイ装置100は第2サーバ300から受信される応答メッセージ情報に基づいて、“お問い合わせの○○(地域名称)の天気は23℃です”という応答メッセージを音声およびテキストのうち、少なくとも一方の形態で出力することができる。それについては、図1ないし図6を参照して説明している。

0230

一方、図1ないし図8において、第1サーバ200と第2サーバ300とを含む一つのサーバを対話型サーバと称してよい。ただ、図1ないし図8においては、第1サーバ200と第2サーバ300とが別途に実現されるものとして説明したが、それは一例に過ぎない。すなわち、第1サーバ200と第2サーバ300とは、一つのサーバで実現されてよく、この場合、第1サーバ200と第2サーバ300とが一つのサーバで実現されたものを対話型サーバと称してよい。

0231

この場合、ディスプレイ装置100は、ユーザの音声に対応するテキスト情報を受信せず、一つで実現されたサーバ(図示せず)においてユーザの音声をテキストに変換し、変換されたテキストに基づいてユーザの音声に対応する応答情報を生成してディスプレイ装置100に伝送することができる。

0232

図9ないし図11は、本発明の一実施形態に係る対話型システムの動作を説明するための図である。

0233

例えば、図9の(a)および(b)に示すように、特定放送番組を視聴していたユーザ600が“○○○(放送番組名)は何時から?”と発話した場合を仮定する。

0234

この場合、ディスプレイ装置100は、第2サーバ300から受信された応答情報に基づいて“○○○(放送番組名)は何時から?”に対する応答メッセージを出力することができる。具体的に、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて、“○○○(放送番組名)は何時から?”に対する応答メッセージとして、“お問い合わせの○○○(放送番組名)の放送時間は土曜日の7時からです”を音声で出力するか、画面上にテキストで出力することができる。

0235

一方、図10の(a)に示すように、特定放送番組を視聴していたユーザ600は“○番(チャネル番号)に変えて”と発話した場合を仮定する。

0236

この場合、図10の(b)および(c)のように、ディスプレイ装置100は第2サーバ300から受信された応答情報に基づいて“○番(チャネル番号)に変えて”に対応する応答メッセージを出力し、チャネル変更を行うことができる。

0237

具体的に、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて“○番(チャネル番号)に変えて”に対する応答メッセージとして、“○番(チャネル番号)にチャネルを変更しました”を音声で出力するか、画面上にテキストで出力することができる。そして、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、○番(チャネル番号)にチャネルを変更することができる。

0238

例えば、図11の(a)に示すように、DVDプレーヤを視聴していたユーザ600が“DVDプレーヤの電源を切って”と発話した場合を仮定する。

0239

この場合、図11の(b)および(c)のように、ディスプレイ装置100は第2サーバ300から受信された応答情報に基づいて“DVDプレーヤの電源を切って”に対する応答メッセージを出力し、DVDプレーヤ400の電源をオフにさせることができる。

0240

具体的に、ディスプレイ装置100は、第2サーバ300から受信された応答メッセージ情報に基づいて“DVDプレーヤの電源を切って”に対する応答メッセージとして、“DVDプレーヤの電源をオフにしました”を音声で出力するか、画面上にテキストで出力することができる。そして、ディスプレイ装置100は、第2サーバ300から受信された制御命令に基づいて、DVDプレーヤの電源をオフにさせることができる。

0241

図12は、本発明の一実施形態に係るディスプレイ装置の制御方法を説明するためのフローチャートである。

0242

まず、ユーザの音声を収集する(S710)。具体的に、ディスプレイ装置と一体型をなすか、分離された形のマイクを通じて、ユーザ音声を収集することができる。

0243

その後、ユーザの音声を第1サーバに伝送し(S720)、第1サーバからユーザの音声に対応するテキスト情報を受信する(S730)。具体的に、STTアルゴリズムを通じてテキストに変換されたユーザの音声を第1サーバから受信することができる。

0244

続いて、受信されたテキスト情報を第2サーバに伝送し(S740)、テキスト情報に対応する応答情報が第2サーバから受信する(S750)。ここで、応答情報はディスプレイ装置から応答メッセージを抽出するための応答メッセージ情報を含む。即ち、ユーザの音声に対応する応答メッセージがテキスト形式で表現された応答メッセージ情報を第2サーバから受信してよい。

0245

そして、応答情報に基づいてユーザの音声に対応する応答メッセージを出力する(S760)。具体的に、応答テキスト情報に基づいて、ユーザの音声に対応する応答メッセージを音声およびテキストのうち、少なくとも一方で出力することができる。

0246

一方、応答情報は、ディスプレイ装置の機能を制御するための制御命令を更に含んでよい。それにより、ディスプレイ装置は、ユーザの音声に対応する応答メッセージを出力するだけでなく、ユーザの音声に対応する特定機能を行うことができるようになる。

0247

そして、第2サーバは、受信されたテキスト情報に基づいてユーザ音声に対する発話意図を判断し、判断された発話意図による応答情報を生成することができない場合、外部サーバから受信された検索情報を用いて応答情報を生成することができる。すなわち、第2サーバは判断された発話意図による応答情報を生成することができない場合、テキスト情報を外部サーバに伝送する。それにより、外部サーバはテキスト情報に基づいて検索情報を生成して第2サーバに伝送し、第2サーバは検索情報を用いて応答情報を生成してディスプレイ装置に伝送することができる。

0248

なお、本発明に係る制御方法を順次行うプログラムが保存された非一時的な読み取り可能な媒体(Non−transitory computer readable medium)が提供されてよい。

0249

非一時的な読み取り可能な媒体とは、レジスタキャッシュ、メモリ等のような短い間データを保存する媒体ではなく、半永久的にデータを保存し、機器によって読み取り(Reading)が可能な媒体を意味する。具体的には、上述の多様なアプリケーションまたはプログラムは、CDやDVD、ハードディスク、ブルーレイディスク、USB、メモリカード、ROM等のような非一時的な読み取り可能な媒体に保存されて提供されてよい。

0250

なお、ディスプレイ装置および遠隔制御装置に対して示した上述のブロック図では、バス(Bus)を示していないが、ディスプレイ装置および遠隔制御装置で各構成要素間の通信はバスによって行われてよい。なお、各デバイスには、上述の多様なステップを行うCPU、マイクロプロセッサ等のようなプロセッサが更に含まれてよい。

0251

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明は以上の実施形態に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的趣旨の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

(分野番号表示ON)※整理標準化データをもとに当社作成

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 三菱電機株式会社の「 モデム」が 公開されました。( 2021/01/07)

    【課題・解決手段】本発明の目的は、設置環境における電源事情に応じて動作を切り替えることで消費電力を抑えられるモデム(5、6)を提供することである。モデム(5、6)は、低圧電源端子(502、602)と、... 詳細

  • 日本電気株式会社の「 メッセージ配信装置、方法およびプログラム」が 公開されました。( 2021/01/07)

    【課題・解決手段】メッセージ再送にかかるコストの増加を抑えることを可能にするため、メッセージを配信し、前記メッセージの宛先の各々に対する前記配信の成否に関する履歴を履歴記憶部へ記憶させ、前記メッセージ... 詳細

  • 株式会社NTTドコモの「 対話装置」が 公開されました。( 2021/01/07)

    【課題・解決手段】一実施形態に係る対話装置は、ユーザにより入力されたユーザ発話を取得する取得部と、ユーザ発話に対応するシステム発話を生成する複数の生成部と、複数の生成部から選択された一つの生成部により... 詳細

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ