図面 (/)

技術 音声翻訳プログラム、音声翻訳方法、音声翻訳装置、及び音声翻訳システム

出願人 富士通株式会社
発明者 松井佑樹袴田隼毅夏目浩太
出願日 2019年3月19日 (1年9ヶ月経過) 出願番号 2019-051119
公開日 2020年9月24日 (3ヶ月経過) 公開番号 2020-154542
状態 未査定
技術分野 機械翻訳 音声の分析・合成 検索装置 音声認識
主要キーワード ウェアラブルデバイス ポータブルストレージ 基準言語 合成文 問い返し 拡張対象 音声ログ 質問テーブル
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2020年9月24日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

翻訳処理を行なう回数を低減させる。

解決手段

複数の言語間における音声翻訳を行なう音声翻訳プログラムであって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する処理を、コンピュータに実行させる。

概要

背景

言語の壁を超えたコミュニケーションを実現するための手法の1つとして、複数の言語間における音声翻訳を行なう音声翻訳機が知られている。

概要

翻訳処理を行なう回数を低減させる。複数の言語間における音声の翻訳を行なう音声翻訳プログラムであって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する処理を、コンピュータに実行させる。

目的

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の言語間における音声翻訳を行なう音声翻訳プログラムであって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する、処理をコンピュータに実行させることを特徴とする、音声翻訳プログラム。

請求項2

前記生成は、前記第3の音声の認識結果の一部又は全部と、前記第1の音声の認識結果の一部又は全部と、前記第2の文字列と、を合成して得られる前記文字列に基づいて、前記第4の音声又は前記テキストを生成する、ことを特徴とする、請求項1に記載の音声翻訳プログラム。

請求項3

複数の言語間における音声の翻訳を行なう音声翻訳プログラムであって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する、処理をコンピュータに実行させることを特徴とする、音声翻訳プログラム。

請求項4

前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度に基づいて決定する、処理を前記コンピュータに実行させることを特徴とする、請求項1〜3のいずれか1項に記載の音声翻訳プログラム。

請求項5

前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式に基づいて決定する、処理を前記コンピュータに実行させることを特徴とする、請求項1〜4のいずれか1項に記載の音声翻訳プログラム。

請求項6

前記形式が質問形式の音声である場合に、前記質問形式で出力した音声に対応する文字列を前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列とする、ことを特徴とする、請求項5に記載の音声翻訳プログラム。

請求項7

前記第1の音声の中に、前記特定の文字列に対応付けて記憶された第2の特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する、処理を前記コンピュータに実行させ、前記第1の音声の中に、前記特定の文字列に対応する音声又は類似する音声が含まれると判定し、且つ、前記第2の特定の文字列に対応する音声又は類似する音声が含まれないと判定した場合に、前記第2の音声を出力する、ことを特徴とする、請求項1〜6のいずれか1項に記載の音声翻訳プログラム。

請求項8

複数の言語間における音声の翻訳を行なう音声翻訳方法であって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する、ことを特徴とする、音声翻訳方法。

請求項9

複数の言語間における音声の翻訳を行なう音声翻訳方法であって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する、ことを特徴とする、音声翻訳方法。

請求項10

複数の言語間における音声の翻訳を行なう音声翻訳装置であって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する判定部と、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部と、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する第2出力部と、を備えることを特徴とする、音声翻訳装置。

請求項11

複数の言語間における音声の翻訳を行なう音声翻訳装置であって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する判定部と、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部と、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する第2出力部と、を備えることを特徴とする、音声翻訳装置。

請求項12

複数の言語間における音声の翻訳を行なう音声翻訳システムであって、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する判定部と、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部と、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する第2出力部と、を備えることを特徴とする、音声翻訳システム。

請求項13

前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度に基づいて決定する決定部、を備えることを特徴とする、請求項12に記載の音声翻訳システム。

請求項14

前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式に基づいて決定する決定部、を備える、ことを特徴とする、請求項12に記載の音声翻訳システム。

請求項15

前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度と、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式と、に基づいて決定する決定部、を備える、ことを特徴とする、請求項12に記載の音声翻訳システム。

技術分野

背景技術

0002

言語の壁を超えたコミュニケーションを実現するための手法の1つとして、複数の言語間における音声翻訳を行なう音声翻訳機が知られている。

先行技術

0003

特開2014−178915号公報
特開平9−218770号公報
特開2014−238761号公報

発明が解決しようとする課題

0004

互いに異なる言語を扱う話者が音声翻訳機を介して対話をする場合、一方の話者が発言した第1言語の第1の音声は、音声翻訳機により、他方の話者が扱う第2言語に翻訳され、第2言語の第2の音声として出力される。また、音声翻訳機から出力された第2の音声を聞いた他方の話者が発言した第2言語の音声は、音声翻訳機により、第1言語に翻訳され、第1言語の音声として出力される。

0005

このように、音声翻訳機を介した対話では、翻訳処理によって、発言内容の言語が変換され、変換後の音声として出力(再生)されるため、同一の言語を扱う話者間の対話と比較して対話にかかる時間(対話時間)が増加する場合がある。

0006

また、一方の話者から音声翻訳機を介して他方の話者に質問をする場合において、質問内容に他方の話者が回答をするのに十分な情報が含まれていない場合、他方の話者から、不足する情報を得るための聞き返しが発生することがある。情報不足である質問によって聞き返しが発生する場合、音声翻訳機を介した対話の往復回数、換言すれば、音声翻訳機が翻訳処理を行なう回数が増加するため、さらに時間がかかることがある。また、当該回数が増加するにつれて、翻訳ミスの発生リスクが高まる。

0007

1つの側面では、本発明は、翻訳処理を行なう回数を低減させることを目的の1つとする。

課題を解決するための手段

0008

1つの側面では、音声翻訳プログラムは、複数の言語間における音声の翻訳を行なう音声翻訳プログラムであり、以下の処理をコンピュータに実行させてよい。前記処理は、入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定してよい。前記処理は、含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力してよい。前記処理は、前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力してよい。

発明の効果

0009

1つの側面では、翻訳処理を行なう回数を低減させることができる。

図面の簡単な説明

0010

音声翻訳機を用いる場合の対話時間を説明するための図である。
音声翻訳機を用いる場合の対話時間を説明するための図である。
一実施形態に係る音声翻訳システムのハードウェア構成例を示すブロック図である。
端末回答者に装着されるカード型ウェアラブルデバイスである場合の端末のハードウェア構成例を示す図である。
端末の利用態様の一例を示す図である。
端末の機能構成例を示すブロック図である。
サーバの機能構成例を示すブロック図である。
聞き返しテーブルの一例を示す図である。
生成テーブルの一例を示す図である。
聞き返しテーブルの一例を示す図である。
文生成テーブルの一例を示す図である。
サーバの動作例を説明するフローチャートである。
一実施形態に係る音声翻訳システムを用いる場合の対話時間を説明するための図である。
聞き返しテーブルの一例を示す図である。
第1変形例に係るサーバの機能構成を示すブロック図である。
第1変形例に係る聞き返しテーブルを示す図である。
第1変形例に係る類似質問テーブルを示す図である。
第2変形例に係るサーバの機能構成を示すブロック図である。
第2変形例に係る音声ログに格納される音声データを示す図である。
第2変形例に係る更新部による更新処理の動作を説明するフローチャートである。
第2変形例に係る聞き返しテーブルを示す図である。
第2変形例に係る文生成テーブルを示す図である。
第2変形例に係る類似質問テーブルを示す図である。

実施例

0011

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

0012

〔1〕一実施形態
〔1−1〕比較例
図1及び図2は、音声翻訳機を用いる場合の対話時間を説明するための図である。図1上段には、質問者英語で「Where is room 201 ?」と質問し、回答者が201号室の場所を英語で「xx.」と回答する対話を示す。

0013

一方、図1下段には、回答者が日本語を扱い、質問者と回答者との間で音声翻訳機を介した対話を行なう場合を示す。音声翻訳機を介した対話では、図1の下段に示すように、以下の「音声」のやり取りが発生する。

0014

(i)質問者が「Where is room 201 ?」と発言する。
(ii)音声翻訳機が(i)を翻訳した「201号室はどこですか?」という音声を出力する。
(iii)回答者が(ii)に対して「xxです。」と発言する。
(iv)音声翻訳機が(iii)を翻訳した「xx.」という音声を出力する。

0015

このように、図1の上段と比較して、図1の下段の例では、少なくとも、上記(ii)及び(iv)における、音声翻訳機による翻訳処理にかかる時間と、音声出力にかかる時間との合計時間の分、対話時間が増加する(例えば2倍程度になる)ことが分かる。

0016

図2は、病棟が複数存在する場合の例を示す。図2の上段には、質問者が「Where is room 201 ?」と質問し、回答者が「Which ward ?」と問い返し、質問者が「B ward.」と返答し、回答者がB病棟の201号室の場所として「xx.」と回答する対話を示す。

0017

一方、図2の下段には、回答者が日本語を扱い、質問者と回答者との間で音声翻訳機を介した対話を行なう場合を示す。音声翻訳機を介した対話では、図2の下段に示すように、以下の「音声」のやり取りが発生する。

0018

(I)質問者が「Where is room 201 ?」と発言する。
(II)音声翻訳機が(I)を翻訳した「201号室はどこですか?」という音声を出力する。
(III)回答者が(II)に対して「どちらの病棟ですか?」と発言する(問い返す)。
(IV)音声翻訳機が(III)を翻訳した「Which ward ?」という音声を出力する。
(V)質問者が(IV)に対して「B ward.」と発言(返答)する。
(VI)音声翻訳機が(V)を翻訳した「B病棟です。」という音声を出力する。
(VII)回答者が(VI)に対して「xxです。」と発言する。
(VIII)音声翻訳機が(VII)を翻訳した「xx.」という音声を出力する。

0019

このように、図2の上段と比較して、図2の下段の例では、少なくとも、上記(II)、(IV)、(VI)及び(VIII)における、翻訳処理にかかる時間と、音声出力にかかる時間との合計時間の分、対話時間が増加する(例えば2倍程度になる)ことが分かる。

0020

以上のように、音声翻訳機を用いた異言語間のコミュニケーションでは、同一言語間のコミュニケーションの2倍程度の時間がかかることがある。また、翻訳処理の回数が増加することにより、翻訳ミスの発生リスクが高まる可能性がある。

0021

また、翻訳処理は、コンピュータのプロセッサリソースを利用して実行される、比較的負荷の高い処理である。翻訳処理は、例えば、人工知能AI;Artificial Intelligence)の技術を用いた機械学習、一例として深層学習(ディープラーニング)を利用して行なわれることもある。このため、翻訳処理の回数が増加することにより、プロセッサの負荷が高まるため、コンピュータの処理性能の低下、消費電力の増加、バッテリ残量低下、等が発生する場合がある。

0022

さらに、音声翻訳機は、例えば、音声の入力及び出力を行なう端末(「音声翻訳端末」と称されてもよい)と、端末から受信した音声を翻訳して端末に送信するサーバと、を備えたシステムとして実現されることがある。この場合、翻訳処理の回数が増加することによって、サーバのプロセッサの負荷が高まり、また、端末とサーバとの間のネットワークにおいて文字データ等と比較してデータサイズの大きい音声データの通信量が増加する。このため、ネットワークにおいて輻輳が発生し、通信遅延通信エラー等が発生する場合がある。

0023

そこで、一実施形態では、1つの側面において、翻訳処理を行なう回数を低減させる手法を説明する。

0024

〔1−2〕一実施形態のハードウェア構成例
まず、図3図5を参照して、一実施形態に係る音声翻訳システム1のハードウェア(HW;Hardware)構成例を説明する。

0025

図3は、一実施形態に係る音声翻訳システム1のHW構成例を示すブロック図である。図3に示すように、音声翻訳システム1は、例示的に、1以上の端末2、及び、サーバ3を備えてよい。端末2及びサーバ3は、ネットワーク4を介して相互に通信可能に接続されてよい。

0026

ネットワーク4としては、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、及び、インターネット、のうちのいずれか1つ、又は、これらの2以上の組み合わせが挙げられる。なお、ネットワーク4には、例えば、VPN(Virtual Private Network)等の仮想的なネットワークが含まれてもよい。ネットワーク4は、ルータモバイルルータを含む)や無線基地局フェムトセル等の小型基地局を含む)、等の通信装置を有してよく、1以上の端末2及びサーバ3の各々は、有線通信ケーブル)又は無線通信を利用してネットワーク4に接続してよい。

0027

(端末2のハードウェア構成例)
端末2は、音声翻訳システム1のユーザインタフェース(UI;User Interface)として利用される音声翻訳端末の一例である。図3に示すように、端末2は、例示的に、プロセッサ2a、メモリ2b、通信IF2c、マイク2d、及び、スピーカ2eを備えてよい。なお、端末2は、これらに加えて、例えばバッテリ等の電源部、操作入力を受け付けるための操作ボタン、等のHW構成を備えてよい。

0028

端末2としては、例えば、ウェアラブルデバイス、スマートホンタブレットラップトップ等のPC(Personal Computer)、携帯電話、等の、音声の入力機能及び出力機能を有する種々の情報処理装置(コンピュータ)が挙げられる。

0029

一実施形態においては、端末2は、図4に例示するように、ユーザ(話者)、例えば回答者に装着されるカード型のウェアラブルデバイスであるものとする。なお、ウェアラブルデバイスとしての端末2は、図4に例示するように、回答者の衣服(例えば胸ポケット)を把持するクリップ等を取り付けるための固定部2g等を備えてもよい。

0030

プロセッサ2aは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ2aは、端末2内の各ブロックとバス2fで相互に通信可能に接続されてよい。

0031

プロセッサ2aとしては、例えば、CPU、MPU、GPU、APU、DSP、ASICFPGA等の集積回路(IC;IntegratedCircuit)のうちのいずれか1つ、又は、2以上の組み合わせが挙げられる。CPUはCentral Processing Unitの略称であり、MPUはMicro Processing Unitの略称である。GPUはGraphics Processing Unitの略称であり、APUはAccelerated Processing Unitの略称である。DSPはDigital Signal Processorの略称であり、ASICはApplication Specific ICの略称であり、FPGAはField-Programmable Gate Arrayの略称である。

0032

メモリ2bは、種々のデータやプログラム等の情報を格納するHWの一例である。メモリ2bとしては、例えばRAM(Random Access Memory)等の揮発性メモリ、又は、フラッシュメモリやROM(Read Only Memory)等の不揮発性メモリが挙げられる。

0033

また、メモリ2bは、端末2の各種機能の全部若しくは一部を実現するプログラム(図示省略)を格納してよい。例えば、端末2のプロセッサ2aは、メモリ2bに格納されたプログラムを実行することにより、端末2としての機能を実現できる。

0034

通信IF2cは、ネットワーク4との間の接続及び通信の制御等を行なうIFである。例えば、通信IF2cは、ネットワーク4における通信規格準拠した有線又は無線通信モジュールを含んでよい。

0035

マイク2dは、音声の入力機能の一例である。マイク2dは、例えば話者が発言した音声を音声データとして取得する。なお、図4及び図5に例示するように、端末2は、複数のマイク2d−1及び2d−2を備えてもよい。

0036

図5に例示するように、マイク2d−1は、質問者が発言した音声を取得してよく、マイク2d−2は、回答者が発言した音声を取得してよい。例えば、マイク2d−1は、質問者が発言した音声を、回答者が発言した音声よりも高い入力レベルで取得(検出)してよく、マイク2d−2は、回答者が発言した音声を、質問者が発言した音声よりも高い入力レベルで取得(検出)してよい。

0037

このために、マイク2d−1及び2d−2自体に指向性を持たせてもよいし、端末2の筐体におけるマイク2d−1及び2d−2の配置位置や方向、音道の構造等を、対応する話者からの音声がよりマイク2d−1及び2d−2に集音されるように設定してもよい。

0038

スピーカ2eは、音声の出力機能の一例である。スピーカ2eは、例えば音声データを音声として端末2から出力する。スピーカ2eは、端末2の筐体の所定の位置、例えば図4及び図5においては、回答者に装着された場合に質問者に対向する面、等に配置されてよい。

0039

図5に例示するように、スピーカ2eとしては、質問者及び回答者の双方において音声が聞き取れるように、指向性の小さい又は無指向性のスピーカが利用されてよい。なお、スピーカ2eとして、質問者用のスピーカ及び回答者用のスピーカとして、それぞれに指向性を持たせた複数のスピーカが利用されてもよい。

0040

上述した端末2のHW構成は例示である。従って、端末2内でのHWの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、端末2内のブロック2a〜2eの少なくとも2以上のブロックは、SoC(System-on-a-Chip)等の集積回路として統合され、端末2に実装されてもよい。

0041

(サーバ3のハードウェア構成例)
図3に示すように、サーバ3は、例示的に、プロセッサ3a、メモリ3b、記憶装置3c、通信IF3d、I/O(Input / Output)部3e、及び、読取部3fを備えてよい。

0042

サーバ3としては、例えば、タワー型ラックマウント型、若しくはブレード型等のサーバ、又は、PC(Personal Computer)、等の種々の情報処理装置(コンピュータ)が挙げられる。サーバ3は、物理マシンであってもよいし、仮想マシン(VM;Virtual Machine)であってもよい。また、サーバ3は、複数のサーバを備える情報処理システム、例えば、クラスタシステム又はクラウドシステム等として実現されてもよい。サーバ3が情報処理システムとして実現される場合、情報処理システムが備える複数のサーバの各々が、図3に示すHW構成を備えてよい。

0043

プロセッサ3aは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ3aは、サーバ3内の各ブロックとバス3iで相互に通信可能に接続されてよい。なお、プロセッサ3aは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。プロセッサ3aとしては、例えば、CPU、MPU、GPU、APU、DSP、ASIC、FPGA等の集積回路のうちのいずれか1つ、又は、2以上の組み合わせが挙げられる。

0044

メモリ3bは、種々のデータやプログラム等の情報を格納するHWの一例である。メモリ3bとしては、例えばDRAM(Dynamic RAM)等の揮発性メモリが挙げられる。

0045

記憶装置3cは、種々のデータやプログラム等の情報を格納するHWの一例である。記憶装置3cとしては、例えば、HDD等の磁気ディスク装置SSD等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、SCM(Storage Class Memory)、ROM等が挙げられる。

0046

また、記憶装置3cは、サーバ3の各種機能の全部若しくは一部を実現するプログラム3gを格納してよい。例えば、プロセッサ3aは、記憶装置3cに格納されたプログラム3gをメモリ3bに展開して実行することにより、サーバ3としての機能を実現できる。

0047

通信IF3dは、ネットワーク4との間の接続及び通信の制御等を行なうIFである。例えば、通信IF3dは、ネットワーク4における通信規格に準拠した有線又は無線の通信モジュールを含んでよい。例えば、プログラム3gは、通信IF3dを介して、ネットワーク4からサーバ3にダウンロードされ、記憶装置3cに格納されてもよい。

0048

I/O部3eは、マウスキーボード、又は操作ボタン等の入力部、並びに、タッチパネルディスプレイ、LCD(Liquid Crystal Display)等のモニタプロジェクタ、又はプリンタ等の出力部、の一方又は双方を含んでよい。

0049

読取部3fは、記録媒体3hに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部3fは、記録媒体3hを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部3fとしては、例えば、USB(Universal Serial Bus)等に準拠したアダプタ記録ディスクへのアクセスを行なうドライブ装置SDカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体3hにはプログラム3gが格納されてもよく、読取部3fが記録媒体3hからプログラム3gを読み出して記憶装置3cに格納してもよい。

0050

記録媒体3hとしては、例示的に、磁気光ディスクや、ポータブルストレージ等の非一時的な記録媒体が挙げられる。磁気/光ディスクとしては、例示的に、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)、ブルーレイディスクHVD(Holographic Versatile Disc)等が挙げられる。ポータブルストレージとしては、例示的に、フラッシュメモリ、ポータブルHDD/SSD等が挙げられる。

0051

上述したサーバ3のHW構成は例示である。従って、サーバ3内でのHWの増減(例えば任意のブロックの追加や削除)、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、サーバ3において、I/O部3e及び読取部3fの少なくとも一方は、省略されてもよい。

0052

〔1−3〕機能構成例
次に、図6図10を参照して、一実施形態に係る音声翻訳システム1の機能構成例を説明する。

0053

(端末2の機能構成例)
図6は、端末2の機能構成例を示すブロック図である。図6に示すように、端末2は、例示的に、バッファ21、音声入力部22、音声出力部23、処理部24、及び、通信部25を備えてよい。

0054

バッファ21は、データ、例えば音声データを記憶する記憶領域の一例である。例えば、バッファ21は、端末2に入力され、又は、端末2から出力される音声データ、端末2とサーバ3との間で送受信される音声データ(例えばパケット)、並びに、端末2において処理される音声データ、等を一時的に記憶する。バッファ21は、例えば、図3に示すメモリ2bの記憶領域の少なくとも一部により実現されてよい。

0055

音声入力部22は、端末2への音声の入力を受け付ける。例えば、音声入力部22は、マイク2dにより音声データを取得し、取得した音声データをバッファ21に格納する。

0056

なお、音声入力部22は、音声データを話者ごとに分類してバッファ21に格納してもよい。例えば、図4及び図5に示すように、端末2が複数のマイク2d−1及び2d−2を備える場合、音声入力部22は、マイク2d−1及び2d−2のいずれのマイク2dから取得した音声データかを特定可能な情報を、音声データに付加してもよい。

0057

音声出力部23は、端末2からの音声の出力を行なう。例えば、音声出力部23は、バッファ21に格納された出力用の音声データを、スピーカ2eにより音声として出力する。なお、スピーカ2eが話者ごとのスピーカを備える場合、音声出力部23は、処理部24により指定される出力先のスピーカから音声を出力してもよい。

0058

処理部24は、端末2における種々の処理を行なう。例えば、処理部24は、入出力される音声データの入出力処理、送受信される音声データの送受信処理、その他、操作入力に応じた処理や電源管理、等を行なってよい。入出力処理には、例えば、音声データの加工やデータ形式変換等が含まれてもよい。送受信処理には、例えば、送信する音声データ(マイク2d(話者)を特定する情報を含んでもよい)の決定や、受信した音声データの出力先のスピーカ2eの決定等が含まれてもよい。

0059

通信部25は、サーバ3との間で音声データの送受信を行なう。例えば、通信部25は、バッファ21に格納された音声データに基づきパケットを生成し、生成したパケットを通信IF2cによりサーバ3に送信してよい。また、通信部25は、通信IF2cによりサーバ3からパケットを受信し、受信したパケットから音声データを抽出してバッファ21に格納してよい。

0060

(サーバ3の機能構成例)
図7は、サーバ3の機能構成例を示すブロック図である。図7に示すように、サーバ3は、例示的に、メモリ部31、通信部32、音声認識部33、判定部34、文合成部35、翻訳部36、及び、音声合成部37を備えてよい。

0061

なお、通信部32、音声認識部33、判定部34、文合成部35、翻訳部36、及び音声合成部37の少なくとも1つは、図3に示すサーバ3のプロセッサ3aがプログラム3gを実行することにより実現されてよい。

0062

なお、上記ブロック32〜37のうちの少なくとも1つの処理は、例えば、プロセッサ3aとしてのCPU等の演算処理装置により実行されてもよく、他の処理は、例えば、プロセッサ3aとしてのGPU等の画像処理装置によって実行されてもよい。「他の処理」としては、例えば、翻訳部36の翻訳処理が挙げられる。なお、「他の処理」に、音声認識部33、判定部34、文合成部35、及び音声合成部37のうちの少なくとも1つの処理が含まれてもよい。

0063

さらに、上記ブロック32〜37のうちの少なくとも1つの処理は、例えば、人工知能(AI)の技術を用いた機械学習、一例として深層学習(ディープラーニング)を利用して行なわれてもよい。

0064

メモリ部31は、サーバ3の動作に用いられる種々の情報を記憶する記憶部の一例である。メモリ部31は、例示的に、音声データ記憶部31a、聞き返しテーブル(TBL;Table)31b、聞き返し音声データ記憶部31c、及び、文生成TBL31dを備えてよい。メモリ部31は、図3に示すメモリ3b及び記憶装置3cの少なくとも一方が有する記憶領域により実現されてよい。

0065

音声データ記憶部31aは、サーバ3が端末2から受信した音声データ、及び、サーバ3から端末2に送信する音声データ、をそれぞれ記憶してよい。聞き返し音声データ記憶部31cは、後述する「聞き返し文」の音声データを予め記憶してよい。

0066

通信部32は、端末2との間で音声データの送受信を行なう。例えば、通信部32は、音声データ記憶部31a又は聞き返し音声データ記憶部31cに記憶された音声データに基づきパケットを生成し、生成したパケットを通信IF3dにより端末2に送信してよい。また、通信部32は、通信IF3dにより端末2からパケットを受信し、受信したパケットから音声データを抽出して音声データ記憶部31aに格納してよい。

0067

音声認識部33は、通信部32が受信した音声データによって表される音声を認識する音声認識処理を行なう。音声認識処理には、例えば、音声データを文字列に変換する変換処理が含まれてよい。また、音声認識処理には、音声データによって表される音声の特徴を分析することで、当該音声の話者を識別する識別処理が含まれてもよい。なお、音声認識処理は、既知の種々の手法により実現可能である。

0068

判定部34は、入力を受け付けた音声データの文字列に対して、当該音声データが聞き返し対象か否かを判定する聞き返し判定処理、及び、当該音声データが聞き返しに対する応答か否かを判定する応答判定処理、を行なう。

0069

以下の説明では、質問者が扱う(話す)言語を第1言語と表記し、回答者が扱う(話す)言語を第2言語と表記する場合がある。

0070

例えば、判定部34は、聞き返し判定処理において、入力を受け付けた第1言語の第1の音声の中に、メモリ部31に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する。なお、上記判定は、入力を受け付けた第1言語の第1の音声が質問形式である場合、例えば文字列に変換された音声データが疑問文である場合に行なわれてよい。一方、判定部34は、入力を受け付けた音声が、第1言語の平叙文の音声である場合や、第2言語の音声である場合、上記判定を抑止し、入力を受け付けた音声の認識結果である文字列を翻訳部36に出力してよい。

0071

判定部34は、聞き返し判定処理において、音声認識部33により音声データから変換された質問文(文字列)と、メモリ部31が記憶する聞き返しTBL31bと、を比較する。そして、判定部34は、質問文の中に、聞き返しTBL31bに設定された特定の文字列に対応又は類似する文字列が含まれるか否かを判定する。

0072

図8は、聞き返しTBL31bの一例を示す図である。聞き返しTBL31bは、情報不足である質問内容に対する聞き返し文を管理する情報である。なお、図8には、聞き返しTBL31bをテーブル形式で例示しているが、これに限定されるものではなく、聞き返しTBL31bは、配列やDB(Database)等の種々の形式であってよい。

0073

図8に示すように、聞き返しTBL31bは、例示的に、「ID」、第1の文字列の一例である「聞き返し文」、(第1の)特定の文字列の一例である「条件A(質問文)」、及び、第2の特定の文字列の一例である「条件B(NOT)」の項目を含んでよい。ID(Identifier)は、聞き返し文を識別する識別情報の一例である。聞き返し文には、質問者に対して聞き返す文字列が設定される。

0074

条件A(質問文)には、聞き返し対象となる質問文が設定される。なお、図8に例示するように、1つの聞き返し文(ID)に対して、互いに類似の範囲にある複数の条件Aが設定されてもよい。また、条件Aにおいて、部屋番号のように質問文に応じて変化する文字列は、任意の文字列が該当し得るようにワイルドカード「*」に置き換えられてよい。

0075

条件B(NOT)には、聞き返し文によって質問者から得たい文字列であって、質問文に含まれていれば聞き返しが不要である文字列が設定される。

0076

判定部34は、質問文の中に、聞き返しTBL31bの条件Aに対応又は類似する文字列が含まれるか否かを判定する。例えば、質問文が「Where is room 201 ?」という文字列である場合、図8に例示するように、IDが「1」のエントリに「Where is room * ?」という文字列が存在するため、判定部34は、質問文に、条件Aに対応又は類似する文字列が存在すると判定する。

0077

また、判定部34は、条件Aに対応又は類似する質問文の中に、条件Bに対応又は類似する文字列が含まれるか否かを判定してもよい。例えば、図8に例示するように、当該条件Aのエントリにおける条件Bには、「A」又は「B」という文字列が存在する。一方、質問文である「Where is room 201 ?」には、「A」又は「B」が含まれないため、判定部34は、質問文に、条件Bに対応又は類似する文字列が存在しないと判定する。

0078

なお、条件A又はBに「類似する」文字列とは、実質的な意味が同様である文字列を意味してよく、例えば、図8に示す「Where is room * ?」に対する、「I want to visit room *.」のように、質問の内容として同一と扱うことが可能な文字列である。

0079

判定部34は、質問文に、条件Aに対応又は類似する文字列が含まれる場合(又は、さらに条件Bに対応又は類似する文字列が存在しない場合)、当該条件Aが設定されたエントリから、聞き返し文及びIDの一方又は双方を抽出する。例えば、質問文が「Where is room 201 ?」である場合、図8の例では、判定部34は、「Which ward, A or B ?」と設定された聞き返し文、又は、ID「1」を抽出する。

0080

そして、判定部34は、抽出した聞き返し文又はIDに対応する、質問文と同一の言語の音声データの送信を、通信部32に指示する。例えば、判定部34は、メモリ部31に格納された聞き返し音声データ記憶部31cの中から、抽出した聞き返し文又はIDに対応する音声データを取得し、通信部32に出力してもよい。

0081

なお、スピーカ2eが話者ごとのスピーカを備える場合、判定部34は、質問者に対する出力である(質問者側のスピーカから出力させる)音声データであることを示す情報を、聞き返し音声データに付加してもよい。

0082

聞き返し音声データ記憶部31cは、聞き返し文の文字列を音声変換することで得られる、聞き返し文と同一の言語の聞き返し音声データ(第2の音声)を、聞き返し文又はIDごとに予め記憶してよい。聞き返し音声データをプリセットとして予めメモリ部31に格納することにより、聞き返し文の翻訳処理、及び、音声合成処理を省略することができるため、サーバ3のプロセッサ3a等の処理負荷を低減させることができる。

0083

このように、判定部34及び通信部32は、第1の音声の中に、音声データ記憶部31aに記憶した特定の文字列に対応する音声が含まれると判定した場合、特定の文字列に対応付けて記憶された第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部の一例である。

0084

なお、質問文に、聞き返しTBL31bの各条件Aに対応又は類似する文字列が存在しない場合、当該質問文は、聞き返し対象外である。また、質問文が、「Where is room 201 of A ward ?」のように、条件Bの「A」に対応する文字列を含む場合、当該質問文に対する聞き返しは不要である。これらに該当する場合、判定部34は、聞き返し文の出力を行なわず(抑止し)、通常の音声翻訳を行なうために、翻訳部36に対して質問文の翻訳を指示してよい。

0085

ところで、聞き返し音声データは、通信部32から端末2に送信され、端末2の音声出力部23から聞き返し音声として出力される。質問者は、聞き返し音声に対して応答内容を発言する。応答内容の音声は、応答音声データとして端末2に入力され、端末2からサーバ3に送信されて、通信部32により音声データ記憶部31aに格納される。このように、サーバ3では、聞き返し音声データ(第2の音声)の出力後に、第1言語の応答音声データ(第3の音声)が入力されることが予測される。

0086

このため、判定部34は、通信部32が音声データを受信すると、上述した聞き返し判定処理の前に、当該音声データに対して応答判定処理を行なってよい。

0087

例えば、判定部34は、応答判定処理において、聞き返し音声データの出力後に入力された音声データが、質問者からの応答音声データか否かを判定してよい。この判定は、例えば、音声データが第1言語か否かの判定、音声認識部33による話者の識別処理の処理結果、及び、受信した音声データに付加された話者(マイク2d)を特定可能な情報、の少なくとも1つに基づき行なわれてよい。

0088

上記判定の結果、受信した音声データが応答音声データではない場合(質問者以外からの音声データである場合)、判定部34は、当該音声データの音声認識結果の文字列に対し、上述した聞き返し判定処理を実行してよい。

0089

一方、受信した音声データが応答音声データである場合、判定部34は、当該音声データの音声認識結果の文字列を、文合成部35に出力してよい。

0090

文合成部35は、聞き返し文に対する応答文の音声認識結果と、文生成TBL31dとに基づいて、合成文を生成する。

0091

図9は、文生成TBL31dの一例を示す図である。文生成TBL31dは、第1の音声を示す質問文と、第3の音声を示す応答文とに基づく合成文を生成するための情報である。なお、図9には、文生成TBL31dをテーブル形式で例示しているが、これに限定されるものではなく、文生成TBL31dは、配列やDB等の種々の形式であってよい。

0092

図9に示すように、文生成TBL31dは、例示的に、聞き返しTBL31bのIDに対応する「ID」、「条件」、及び、「生成文」の項目を含んでよい。

0093

条件には、聞き返し文によって質問者から得たい文字列を特定するための情報が設定される。例えば、聞き返し文が「Which ward, A or B ?」(ID「1」;図8参照)である場合、条件には、図9の1行目に例示するように、質問者から得たい文字列である「A」、又は、当該文字列を特定する情報である「前者」、が設定される。

0094

生成文には、条件に応じて、質問文と応答文とを組み合わせた合成文を生成するための情報が設定されてよい。一例として、生成文には、質問文の「Where is room * ?」と、応答文の「A ward.」の一部とを組み合わせた、「Where is room * of A ward ?」(図9の1行目参照)という、合成文の生成パターンが設定されてよい。当該生成パターンは、特定の文字列に対応付けて記憶された第2の文字列の一例である。なお、生成文において、部屋番号のように質問文に応じて変化する文字列は、任意の文字列が該当し得るようにワイルドカード「*」に置き換えられてよい。

0095

また、生成文には、応答文が条件を満たさない場合、すなわち、応答文に、「A」又は「前者」、或いは、「B」又は「後者」(図9の2行目参照)、のいずれも含まれない場合に用いる、合成文の生成パターンが設定されてよい(図9の3行目参照)。当該生成パターンは、例示的に、少なくとも、「応答文」と、「質問文」とを組み合わせた(結合した)文字列であってよい。一実施形態では、応答文が条件を満たさない場合の生成パターンは、「質問文」+「聞き返し文」+「応答文」であるものとする。

0096

文合成部35は、判定部34から通知された聞き返し文に対する応答文が、文生成TBL31dのいずれの条件に合致するか否かを判定し、合致する条件に対応する合成文を生成し、当該合成文を翻訳部36に出力する。

0097

図8の例では、文合成部35は、応答文が条件を満たす場合、応答文の一部又は全部を生成パターン内の所定箇所(例えば「*」部分)に反映した、「Where is room 201 of A ward ?」という文字列を生成する。

0098

また、例えば、文合成部35は、応答文が「I don’t know.」のように条件を満たさない場合、質問文、聞き返し文、及び応答文を組み合わせ(結合し)、「Where is room 201 ? Which ward, A or B ? I don’t know.」という文字列を生成する。

0099

このように、文合成部35は、情報不足である質問文と、当該質問文の情報を補足するための応答文とを合成して、回答者が質問文に対する回答を行なう十分な情報を含む合成文を生成するのである。

0100

なお、サーバ3(例えば音声認識部33又は判定部34)は、文生成TBL31dにおける生成文の生成パターンとして利用するために、第1の音声である質問文の文字認識結果、及び、第2の音声である聞き返し文の文字列を、メモリ部31に格納してもよい。例示的に、当該文字列を格納するログとして、後述する音声ログ31g(図18参照)が利用されてもよい。

0101

翻訳部36は、入力される第1言語又は第2言語の文字列を、第2言語又は第1言語に翻訳し、翻訳した文字列を音声合成部37に出力する、翻訳処理を行なう。

0102

例えば、翻訳部36は、判定部34又は文合成部35から入力される第1言語の文字列を、第2言語の文字列に翻訳してよい。また、翻訳部36は、判定部34から入力される第2言語の文字列を、第1言語の文字列に翻訳してよい。翻訳部36による翻訳処理は、既知の種々の手法により実現可能である。

0103

音声合成部37は、翻訳部36が翻訳した文字列を音声合成することで、当該文字列の言語で表される音声を生成し、生成した音声を音声データ記憶部31aに格納する、音声合成処理を行なう。

0104

例えば、音声合成部37は、翻訳部36から入力される第1言語の文字列を、第1言語の音声に音声合成(音声変換)した音声データを生成してよい。また、音声合成部37は、翻訳部36から入力される第2言語の文字列を、第2言語の音声に音声合成(音声変換)した音声データを生成してよい。音声合成部37による音声合成処理は、既知の種々の手法により実現可能である。

0105

以上のように、文合成部35、翻訳部36、及び音声合成部37は、応答文が文生成TBL31dの条件を満たす場合、以下の処理を行ない、音声を出力する第2出力部の一例である。

0106

第2出力部は、第2の音声の出力後に入力された第1言語の第3の音声の認識結果の一部又は全部を、特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の音声又はテキストを出力してよい(図9の1行目及び2行目参照)。

0107

また、第2出力部は、第2の音声の出力後に入力された第1言語の第3の音声の認識結果と第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力してよい(図9の3行目参照)。

0108

なお、聞き返しTBL31b、聞き返し音声データ、及び文生成TBL31dは、サーバ3の利用者や管理者等により、音声翻訳システム1の利用形態に応じて想定される質問文や聞き返し文を考慮して決定され、サーバ3の運用前に予め設定されてよい。

0109

また、図8及び図9に示すように、メモリ部31は、音声翻訳システム1により扱われる第1言語となり得る言語ごとに、当該言語の文字列が設定された聞き返しTBL31b、聞き返し音声データ、及び文生成TBL31dのセットを記憶してもよい。

0110

或いは、メモリ部31は、音声翻訳システム1により扱われる言語のうちの一部の言語についてのみ、聞き返しTBL31b及び文生成TBL31dのセットを記憶してもよい。一例として、図10及び図11に示すように、聞き返しTBL31b及び文生成TBL31dには、それぞれ、第1言語以外の言語、例えば、サーバ3において基準となる言語(例えば第2言語)の文字列が設定されてもよい。この場合、判定部34及び文合成部35は、音声データの文字認識結果、並びに、聞き返しTBL31b及び文生成TBL31dの文字列の一方又は双方を、翻訳部36により翻訳してから、上述した比較、判定、及び文字列操作等を行なってもよい。

0111

聞き返し文の音声データについては、例えば、音声翻訳システム1が扱う言語数や聞き返し文の種類(数)が多い場合、聞き返し音声データの合計のデータサイズが増大し、サーバ3のメモリ3bや記憶装置3cの記憶容量を圧迫する可能性がある。そこで、例えば、判定部34は、聞き返しTBL31bから抽出した基準言語の聞き返し文の文字列を、翻訳部36により第1言語に翻訳し、翻訳後の文字列を音声合成部37により音声化することで取得してもよい。換言すれば、メモリ部31が聞き返し音声データ記憶部31cを備えない構成、又は、聞き返し音声データ記憶部31cに記憶させる聞き返し音声データ数を制限した構成が許容されてよい。これにより、音声データのデータサイズの増大を抑制できる。

0112

〔1−4〕動作例
次に、図12を参照して、上述の如く構成された一実施形態に係る音声翻訳システム1の動作例を説明する。図12は、サーバ3の動作例を説明するフローチャートである。

0113

図12に示すように、サーバ3の通信部32は、端末2の通信部25からの音声データの受信を待ち受ける(ステップS1、ステップS1でNo)。

0114

端末2から音声データを受信すると(ステップS1でYes)、通信部32は、受信した音声データを音声データ記憶部31aに格納する。

0115

音声認識部33は、音声データ記憶部31aに格納された音声データに対して、音声認識処理を行なう。音声認識部33は、音声認識処理において、当該音声データを音声変換して文字列を取得する(ステップS2)。なお、音声認識部33は、音声認識処理において、音声データから話者の特徴を取得してもよい。

0116

判定部34は、応答判定処理において、ステップS1で受信した音声データが、聞き返し音声データを送信した送信先である端末2から受信した音声データか否かを判定する(ステップS3)。なお、ステップS3の判定は、音声データが、第1言語の質問形式の音声であると判定した場合に行なわれてよい。

0117

聞き返し音声データの送信先端末2から受信した音声データではない場合(ステップS3でNo)、判定部34は、聞き返し判定処理を行なう。聞き返し判定処理では、判定部34は、ステップS2で取得した文字列に、聞き返しTBL31bの条件Aに対応又は類似する文字列が含まれるか否かを判定する(ステップS4)。

0118

取得した文字列に、条件Aに対応又は類似する文字列が含まれない場合(ステップS4でNo)、処理がステップS8に移行する。一方、条件Aに対応又は類似する文字列が含まれる場合(ステップS4でYes)、判定部34は、取得した文字列に、聞き返しTBL31bにおいて、当該条件Aのエントリの条件Bに対応又は類似する文字列が含まれるか否かを判定する(ステップS5)。

0119

取得した文字列に、条件Bに対応又は類似する文字列が含まれる場合(ステップS5でYes)、処理がステップS8に移行する。一方、取得した文字列に、条件Bに対応又は類似する文字列が含まれない場合(ステップS5でNo)、判定部34は、聞き返しTBL31bにおける当該エントリの聞き返し文に対応する聞き返し音声データを、聞き返し音声データ記憶部31cから取得する。そして、判定部34は、通信部32を介して、聞き返し音声データを端末2に送信し(ステップS6)、処理がステップS1に移行する。

0120

なお、判定部34は、聞き返しTBL31bにおける聞き返し文の文字列を、翻訳部36により翻訳し、音声合成部37により音声変換することで、聞き返し音声データを取得してもよい。

0121

ステップS3において、受信した音声データが、聞き返し音声データの送信先端末2から受信した音声データであると判定した場合(ステップS3でYes)、判定部34は、ステップS2で取得した文字列を文合成部35に出力する。

0122

文合成部35は、文生成TBL31dに基づき、入力された文字列の一部又は全部を生成パターンと合成する、又は、当該文字列とメモリ部31が記憶する質問文とを組み合わせることで合成文を生成し(ステップS7)、処理がステップS8に移行する。

0123

ステップS8では、翻訳部36は、判定部34又は文合成部35から入力される文字列の言語を、第1言語から第2言語、又は、第2言語から第1言語に翻訳(変換)する。

0124

次いで、音声合成部37は、翻訳部36が翻訳した文字列を音声合成することで音声データを生成し(ステップS9)、生成した音声データを音声データ記憶部31aに格納する。

0125

通信部32は、音声データ記憶部31aから音声合成部37が格納した音声データを読み出して端末2に送信し(ステップS10)、処理がステップS1に移行する。

0126

なお、ステップS2及びステップS3の処理順序は、逆順であってもよいし、並行して実行されてもよい。また、ステップS3において、判定部34が、音声データが第1言語の平叙文である、又は、音声データが第2言語である、と判定した場合、ステップS4及びS5の判定をスキップし、ステップS8の処理が行なわれてもよい。

0127

以上のように、一実施形態に係る音声翻訳システム1によれば、回答者から質問者に対する、よくある「聞き返し」を、サーバ3及び端末2により実行することができる。

0128

図13は、一実施形態に係る音声翻訳システム1を用いる場合の対話時間を説明するための図である。図13の上段は、比較例に係る図2の下段と同様である。

0129

図13の下段は、サーバ3による制御下で動作する端末2を介した、質問者(図13紙面左側)及び回答者(図13の紙面右側)の対話を示す。図13の下段に示すように、端末2を介した対話では、以下の「音声」のやり取りが発生する。

0130

・質問者が「Where is Room 201 ?」と発言する(矢印I参照)。
・端末2(サーバ3)がIの音声を分析し、聞き返しを行なうことを決定する(符号II参照)。
・端末2が、IIで決定された「Which ward ?」という聞き返し音声を質問者に出力する(矢印III参照)。
・質問者がIIIの音声に対して「B ward.」と発言(応答)する(矢印IV参照)。
・端末2(サーバ3)がIVの音声を分析し、I及びIVの音声の文字列を合成し音声を生成する(符号V参照)。
・端末2がVで生成された「B病棟の201号室はどこですか?」という音声を回答者に出力する(矢印VI参照)。
・回答者がVIに対して「xxです。」と発言する(矢印VII参照)。
・端末2(サーバ3)がVIIの音声を分析し、当該音声の文字列を翻訳し、音声変換する(符号VIII参照)。
・端末2がVIIIで生成(翻訳)された「xx.」という音声を質問者に出力する(矢印IX参照)。

0131

図13の下段に示すように、音声翻訳システム1により、端末2から回答者に出力される音声を、質問者による2回に亘る発言(矢印I及びIV参照)を集約して翻訳した「B病棟の」の1回に抑えることができる。これにより、回答者の発話回数が減少するため、スムーズなコミュニケーションが可能になるとともに、会話にかかる時間を削減することができる。

0132

また、図13の例では、サーバ3による合計の翻訳回数を、図13の上段に示す4回から、図13の下段に示す2回に減少させることができる。これにより、翻訳ミスの発生リスクを低減させることができる。

0133

さらに、図13の下段に示す矢印又は符号I〜Vの処理を、いずれも質問者が扱う第1言語によって行なうことができる。これにより、翻訳ミスの発生リスクを低減させることができる。

0134

また、翻訳回数を減少させることにより、翻訳処理や音声合成処理等を行なうための、サーバ3や端末2の処理性能及びネットワーク4の帯域等のリソースを削減できる。これにより、音声翻訳システム1は、より多くの端末2を備え、これらの端末2にサーバ3及びネットワーク4を共用させることが可能となる。例えば、GPU等の画像処理装置によって実行される翻訳処理のように、高負荷な処理の実行回数を減少させることができるため、コンピュータの処理性能の低下、消費電力の増加、バッテリの残量低下、等を抑制することができる。

0135

さらに、聞き返し文に対する応答文が、文生成TBL31dの条件に合致しない場合(期待する返答でない場合)であっても、以下のように、合成文に基づき生成された質問文が、回答者にとって回答に十分な情報となる可能性もある。

0136

例えば、質問者が病棟を知らないが、入院している人の名前等の情報、或いは、病棟の特徴(例えば「海側の病棟」又は「新しい病棟」)等の、病棟を特定する参考となる情報を知っている場合、合成文には、当該参考となる情報が含まれる。一例として、応答文が「I don’t know. It’s a room where Mr. Suzuki is.」という文字列である場合、合成文(翻訳後)は、「*号室はどこですか? A,Bのどちらの病棟ですか? 鈴木さんのいる部屋です。」となる。

0137

このように、質問者が、質問文における曖昧性を、サーバ3から提示された「聞き返し」に対する応答によっても解消できない場合であっても、サーバ3は、回答者に対して、「聞き返し」では曖昧性を解消できなかったことを暗に通知することができる。また、返答文に、質問者が新たに提示した曖昧性を解消するための情報が含まれていた場合に、サーバ3は、回答者に当該情報を併せて通知することができる。これにより、スムーズなコミュニケーションが可能になるとともに、会話にかかる時間を削減することができる。

0138

なお、「201号室はどこですか?」の質問に対して、回答者が、入院している人の名前を聞き返す場合も想定される。このように、聞き返しTBL31bには、1つの条件A(質問文)に対して、複数の異なる聞き返し文が設定されてもよい。例えば、図14に示すように、聞き返しTBL31bには、ID「2」として、聞き返し文「Who’s visiting ?」、並びに、条件B「Mr.」、「Ms.」又は「Mrs.」を含む、条件AがID「1」と共通するエントリが設定されてもよい。

0139

判定部34は、入力された文字列が、複数のエントリにおける条件Aに該当する場合、当該複数のエントリの聞き返し文を、例えば「or」で結合(接続)した聞き返し音声データを出力してもよい。或いは、判定部34は、例えば、IDの小さいエントリの聞き返し音声データを出力し、これに対する返答が、文生成TBL31dにおける条件に合致しない場合、他のIDのエントリの聞き返し音声データを出力するようにしてもよい。

0140

〔1−5〕変形例
一実施形態に係る音声翻訳システム1は、上述した構成に限定されるものではなく、例えば、以下のように変形することも可能である。

0141

〔1−5−1〕第1変形例
図15は、第1変形例に係るサーバ3Aの機能構成例を示すブロック図である。第1変形例に係るサーバ3Aは、主に、判定部34に代えて判定部34Aを備える点、並びに、メモリ部31Aが、聞き返しTBL31b(図7参照)に代えて、聞き返しTBL31e及び類似質問TBL31fを備える点が、図7に示すサーバ3と異なる。

0142

図16は、聞き返しTBL31eの一例を示す図であり、図17は、類似質問TBL31fの一例を示す図である。聞き返しTBL31e及び類似質問TBL31fは、図7に示す聞き返しTBL31bを分離して管理するテーブルである。

0143

図16に示すように、聞き返しTBL31eには、ID及び聞き返し文に対して、1対1の関係で1つの質問文が対応付けられてよい。

0144

図17に示すように、類似質問TBL31fには、ID(及び聞き返し文)に対して、1対他の関係で1以上の類似質問文が対応付けられてよい。ここで、類似質問文とは、条件Aの質問文に類似する、同様の趣旨の質問文であり、条件Aの質問文と共通する聞き返し文が設定される質問文である。図16及び図17の例では、条件Aの質問文が「201号室はどこですか?」であり、これに類似する類似質問文が「201号室に行きたいのですが。」であることを示している。

0145

なお、聞き返しTBL31eの条件Aには、条件Aの質問文と、同一IDの類似質問文との中で、音声認識により得られた文字列と合致する頻度が最も高い質問文が設定されてよい。

0146

判定部34Aは、聞き返し判定処理において、聞き返しTBL31eを参照して、音声認識部33が取得した文字列と、条件Aとを比較し、条件Aに合致しない場合、IDごとに、当該文字列と類似質問TBL31fの類似質問文とを比較してよい。

0147

このように、判定部34Aは、入力を受け付けた第1言語の第1の音声の中に、メモリ部31Aの聞き返しTBL31e及び類似質問TBL31fに記憶された特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定してよい。

0148

以上のように、類似質問文を、聞き返しTBL31eとは別テーブルで管理することにより、判定部34Aは、聞き返し文の種類(ID数)が多い場合や、条件Aと同様の趣旨の質問文が多い場合等であっても、条件Aの判定を効率的に行なうことができる。

0149

〔1−5−2〕第2変形例
図18は、第2変形例に係るサーバ3Bの機能構成例を示すブロック図である。第2変形例に係るサーバ3Bは、主に、更新部38を備える点、並びに、メモリ部31Bが音声ログ31gを備える点が、図15に示すサーバ3Aと異なる。

0150

なお、第2変形例に係るサーバ3Bは、図15に示す第1変形例に係るサーバ3Aと同様に、判定部34Aを備え、メモリ部31Bが聞き返しTBL31e及び類似質問TBL31fを備えるものとするが、これに限定されるものではない。例えば、第2変形例に係るサーバ3Bは、判定部34を備え、メモリ部31Bが聞き返しTBL31bを備える構成であってもよい。

0151

音声ログ31gは、通信部32が端末2との間で送受信する音声データの履歴を記録するログである。音声ログ31gでは、例えば、音声認識部33により音声データから変換された文字列、及び、聞き返し文の文字列等の、サーバ3において送受信される音声データに対応する文字列が、例えばDB等の形式で管理されてよい。音声ログ31gは、上述のように、文生成TBL31dにおける生成文の生成パターンとして利用されてもよい。

0152

図19は、音声ログ31gに格納される音声データの一例を示す図である。図19に示すように、音声ログ31gには、例えば、話者を識別する「A」及び「B」等の識別情報と、話者による音声データの文字列「xxxxx ?」、「yyyyy ?」、「zzzzz」等が格納されてよい。なお、音声ログ31gには、文字列が、例えば時系列に沿って格納されてよく、文字列とともに、タイムスタンプ等の時刻を表す情報が格納されてもよい。

0153

更新部38は、音声ログ31gに基づいて、聞き返しTBL31e及び類似質問TBL31f、並びに、文生成TBL31dの少なくとも1つを更新する。なお、更新部38は、聞き返しTBL31e及び類似質問TBL31fに代えて、聞き返しTBL31bを更新してもよい。

0154

以下、図20を参照して、更新部38による更新処理の動作例を説明する。図20に示すように、更新部38は、更新タイミング待ち合わせる(ステップS11、ステップS11でNo)。更新タイミングとしては、例えば、音声翻訳システム1の運用中又は運用停止中における所定のタイミング、例えば周期的なタイミング等が挙げられる。

0155

更新タイミングが到来すると(ステップS11でYes)、更新部38は、音声ログ31gを分析し(ステップS12)、話者A及び話者Bによる対話における所定の文字列群を抽出する。

0156

所定の文字列群としては、例えば、図19ケース1における「xxxxx ?」、「yyyyy ?」及び「zzzzz」を含む複数の文字列や、ケース2における「XXXXX ?」及び「Which ward, A or B ?」を含む複数の文字列、等が挙げられる。このように、所定の文字列群には、話者B(回答者)による聞き返しが発生したことを示す、話者Bから発言された質問形式の文字列(聞き返し文)が含まれてよい。また、所定の文字列群には、当該話者Bからの聞き返し文の直前の文字列、又は、聞き返し文の直前及び直後の文字列が含まれてよい。

0157

更新部38は、音声ログ31gの分析により、図19のケース1又は2に該当する文字列群を検出したか否かを判定する(ステップS13)。文字列群を検出していない場合(ステップS13でNo)、処理がステップS11に移行する。

0158

ケース1又は2に該当する文字列群を検出した場合(ステップS13でYes)、更新部38は、該当する文字列群を拡張候補として抽出し、当該文字列群の出現回数を更新する(ステップS14)。なお、文字列群の出現回数は、例えば、文字列群に含まれる聞き返し文ごとの出現回数であってもよく、メモリ部31Bにおいてテーブルや配列等によりカウント(管理)されてよい。

0159

更新部38は、出現回数に基づき、出現頻度閾値以上の文字列群を検出する(ステップS15)。例えば、更新部38は、拡張候補の文字列群ごとに、全ての拡張候補の文字列群の合計出現回数に対する出現回数の割合や、所定時間あたりの出現回数、等を算出することで、出現頻度を求め、出現頻度が閾値以上の文字列群を拡張対象に決定してよい。

0160

そして、更新部38は、拡張対象の文字列群に基づき、聞き返しTBL31e又は31b、類似質問TBL31f、並びに、文生成TBL31dの少なくとも1つを更新し(ステップS16)、処理がステップS11に移行する。

0161

このように、更新部38は、聞き返しTBL31b又は31bにおける「聞き返し文」を、過去に入力を受け付けた条件Aが含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度、及び、当該出力した音声の形式、の一方又は双方に基づいて決定する決定部の一例である。

0162

以下、図21図23を参照して、図20のステップS16における更新部38の処理の一例を説明する。

0163

(拡張対象の文字列群が図19のケース1に該当する場合)
例えば、更新部38は、拡張対象の文字列群が、図19のケース1に該当する場合、換言すれば、時系列に連続した質問文を含む場合、以下の処理を行なう。

0164

更新部38は、聞き返しTBL31e又は31b並びに文生成TBL31dのそれぞれにエントリ(ID「2」)を追加する(図21及び図22参照)。そして、更新部38は、図21及び図22、並びに、以下に示すように、拡張対象の文字列群に基づき、追加したエントリを更新する。

0165

・更新部38は、時刻が先の(過去の)質問文「xxxxx ?」を聞き返しTBL31e又は31bの条件Aに設定する(図21参照)。
・更新部38は、時刻が後の質問文「yyyyy ?」を聞き返しTBL31e又は31bの聞き返し文に設定する(図21参照)。
・更新部38は、質問文「yyyyy ?」の後に返答された応答文「zzzzz」を聞き返しTBL31e又は31bの条件B、並びに、文生成TBL31dの条件に、それぞれ設定する(図21及び図22参照)。
・更新部38は、質問文「xxxxx ?」と、応答文「zzzzz」の一部又は全部とに基づき、文生成TBL31dの生成文の生成パターンを設定する(図22参照)。例えば、図22の例では、生成パターンは「xxxxx of zzzzz ?」である。

0166

(拡張対象の文字列群が図19のケース2に該当する場合)
例えば、更新部38は、拡張対象の文字列群が、図19のケース2に該当する場合、換言すれば、聞き返し文が聞き返しTBL31e又は31bに登録済であり、且つ、質問文が条件A(質問文又は類似質問文)に存在しない場合、以下の処理を行なう。

0167

なお、図19のケース2の例において、聞き返しTBL31e又は31bに登録済の聞き返し文は、サーバ3が聞き返し文として出力した、第1言語の「Which ward, A or B ?」である。

0168

この場合、更新部38は、類似質問TBL31f又は聞き返しTBL31bに対して、「Which ward, A or B ?」のID「1」に対応する類似質問文のエントリを追加する(図23参照)。そして、更新部38は、図23に示すように、拡張対象の文字列群における類似質問文「XXXXX ?」に基づき、追加したエントリを更新する。

0169

このように、更新部38は、過去の音声ログ31gを用いて、メモリ部31Bにおける各情報の生成及び更新を行なうことができる。従って、サーバ3Bは、音声翻訳システム1における運用環境の変化等に応じて、聞き返しTBL31e、類似質問TBL31f、及び文生成TBL31dを柔軟に更新することができる。

0170

〔2〕その他
上述した一実施形態、並びに、第1及び第2変形例に係る技術は、以下のように変形、変更して実施することができる。

0171

例えば、図7図15、又は図18に示す、サーバ3、3A、又は3Bの各機能ブロックは、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

0172

一例として、判定部34又は34Aの機能は、聞き返し判定処理を行なう聞き返し判定処理部と、応答判定処理を行なう応答判定処理部と、に分割されてもよい。

0173

また、他の例として、文合成部35、翻訳部36、及び音声合成部37を、翻訳合成部として統合してもよい。この場合、翻訳合成部は、質問文、聞き返し文、及び応答文の少なくとも1つを翻訳し、音声合成してから、音声同士を組み合わせる(結合させる)ことで、回答者に出力する第4の音声を生成してもよい。

0174

また、判定部34又は34A、並びに、文合成部35は、文字列を用いた判定及び文字列の合成を行なうものとしたが、これに限定されるものではない。判定部34又は34A、並びに、文合成部35の一方又は双方は、音声データ記憶部31a及び聞き返し音声データ記憶部31cに記憶された音声データ、又は、翻訳部36及び音声合成部37が生成した音声データを利用して、判定及び合成を行なってもよい。

0175

さらに、音声合成部37の処理は、適宜省略されてもよく、サーバ3、3A、又は3Bは、翻訳部36による翻訳後の文字列を、テキストデータとして、端末2に送信してもよい。この場合、端末2は、サーバ3、3A、又は3Bからテキストデータを受信し、当該テキストデータを図示しないモニタ等に表示してもよいし、当該テキストデータに基づき音声合成(音声変換)を行ない、スピーカ2eから音声を出力してもよい。

0176

また、一方の話者、例えば質問をする質問者は日本語を話し、他方の話者、例えば質問に対する回答をする回答者は、英語を話すものとして説明したが、これに限定されるものではない。質問者及び回答者が扱う言語は、互いに異なる言語であって、双方向に翻訳処理が可能な種々の言語であってよい。一例として、質問者が英語を話し、回答者が中国語を話す、等の場合においても、一実施形態並びに第1及び第2変形例に係る手法を適用可能である。

0177

さらに、病院において、質問者が病室の場所を質問し、回答者が病室の場所を回答する場合を例に挙げて説明するが、これに限定されるものではない。一実施形態に係る手法は、店舗施設での接客自治体窓口業務、等の種々の分野に適用可能である。

0178

また、上述のように、サーバ3、3A、及び3Bは、それぞれ、複数のサーバを備える情報処理システム、例えば、クラスタシステム又はクラウドシステム等として実現されてもよい。この場合、サーバ3、3A、又は3Bとしての機能は、機能ブロック単位で、又は、機能ブロックを更に分割した単位で、複数のサーバに分散して配置されてよい。また、情報処理システムが備える各サーバは、図3に示すプログラム3gの少なくとも一部を、自サーバに配置される機能を実現するための個別のプログラムとして記憶してよい。

0179

〔3〕付記
以上の一実施形態、並びに、第1及び第2変形例に関し、さらに以下の付記を開示する。

0180

(付記1)
複数の言語間における音声の翻訳を行なう音声翻訳プログラムであって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する、
処理をコンピュータに実行させることを特徴とする、音声翻訳プログラム。

0181

(付記2)
前記生成は、前記第3の音声の認識結果の一部又は全部と、前記第1の音声の認識結果の一部又は全部と、前記第2の文字列と、を合成して得られる前記文字列に基づいて、前記第4の音声又は前記テキストを生成する、
ことを特徴とする、付記1に記載の音声翻訳プログラム。

0182

(付記3)
複数の言語間における音声の翻訳を行なう音声翻訳プログラムであって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する、
処理をコンピュータに実行させることを特徴とする、音声翻訳プログラム。

0183

(付記4)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度に基づいて決定する、
処理を前記コンピュータに実行させることを特徴とする、付記1〜3のいずれか1項に記載の音声翻訳プログラム。

0184

(付記5)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式に基づいて決定する、
処理を前記コンピュータに実行させることを特徴とする、付記1〜4のいずれか1項に記載の音声翻訳プログラム。

0185

(付記6)
前記形式が質問形式の音声である場合に、前記質問形式で出力した音声に対応する文字列を前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列とする、
ことを特徴とする、付記5に記載の音声翻訳プログラム。

0186

(付記7)
前記第1の音声の中に、前記特定の文字列に対応付けて記憶された第2の特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する、
処理を前記コンピュータに実行させ、
前記第1の音声の中に、前記特定の文字列に対応する音声又は類似する音声が含まれると判定し、且つ、前記第2の特定の文字列に対応する音声又は類似する音声が含まれないと判定した場合に、前記第2の音声を出力する、
ことを特徴とする、付記1〜6のいずれか1項に記載の音声翻訳プログラム。

0187

(付記8)
複数の言語間における音声の翻訳を行なう音声翻訳方法であって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する、
ことを特徴とする、音声翻訳方法。

0188

(付記9)
複数の言語間における音声の翻訳を行なう音声翻訳方法であって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定し、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力し、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する、
ことを特徴とする、音声翻訳方法。

0189

(付記10)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度に基づいて決定する、
ことを特徴とする、付記8又は付記9に記載の音声翻訳方法。

0190

(付記11)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式に基づいて決定する、
ことを特徴とする、付記8〜10のいずれか1項に記載の音声翻訳方法。

0191

(付記12)
複数の言語間における音声の翻訳を行なう音声翻訳装置であって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する判定部と、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部と、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果の一部又は全部を前記特定の文字列に対応付けて記憶された第2の文字列内の所定箇所に反映した文字列に基づいて生成した、第2言語の第4の音声又はテキストを出力する第2出力部と、を備える
ことを特徴とする、音声翻訳装置。

0192

(付記13)
複数の言語間における音声の翻訳を行なう音声翻訳装置であって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する判定部と、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部と、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する第2出力部と、を備える
ことを特徴とする、音声翻訳装置。

0193

(付記14)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度に基づいて決定する決定部、を備える
ことを特徴とする、付記12又は付記13に記載の音声翻訳装置。

0194

(付記15)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式に基づいて決定する決定部、を備える、
ことを特徴とする、付記12又は付記13に記載の音声翻訳装置。

0195

(付記16)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度と、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式と、に基づいて決定する決定部、を備える、
ことを特徴とする、付記12又は付記13に記載の音声翻訳装置。

0196

(付記17)
複数の言語間における音声の翻訳を行なう音声翻訳システムであって、
入力を受け付けた第1言語の第1の音声の中に、記憶部に記憶した特定の文字列に対応する音声又は類似する音声が含まれるか否かを判定する判定部と、
含まれると判定した場合に、前記特定の文字列に対応付けて記憶された前記第1言語の第1の文字列を音声変換することで得られる第2の音声を出力する第1出力部と、
前記第2の音声の出力後に入力された前記第1言語の第3の音声の認識結果と前記第1の音声の認識結果とに基づいて生成した、第2言語の第4の音声又はテキストを出力する第2出力部と、を備える
ことを特徴とする、音声翻訳システム。

0197

(付記18)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度に基づいて決定する決定部、を備える
ことを特徴とする、付記17に記載の音声翻訳システム。

0198

(付記19)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式に基づいて決定する決定部、を備える、
ことを特徴とする、付記17に記載の音声翻訳システム。

0199

(付記20)
前記特定の文字列に対応付けて記憶する前記第1言語の第1の文字列を、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声それぞれの出力の頻度と、過去に入力を受け付けた前記特定の文字列が含まれる第1言語の音声に対して出力した音声の形式と、に基づいて決定する決定部、を備える、
ことを特徴とする、付記17に記載の音声翻訳システム。

0200

1音声翻訳システム
2端末
21バッファ
22音声入力部
23音声出力部
24 処理部
25、32通信部
3、3A、3Bサーバ
31、31A、31Bメモリ部
31a音声データ記憶部
31b、31e 聞き返しTBL
31c 聞き返し音声データ記憶部
31d 文生成TBL
31f 類似質問TBL
31g音声ログ
33音声認識部
34、34A 判定部
35 文合成部
36翻訳部
37音声合成部
38更新部
4 ネットワーク

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ