図面 (/)

技術 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体

出願人 株式会社日立製作所
発明者 藤田雄介武田龍神田直之
出願日 2013年9月11日 (5年10ヶ月経過) 出願番号 2015-536346
公開日 2017年3月2日 (2年4ヶ月経過) 公開番号 WO2015-037073
状態 特許登録済
技術分野 検索装置 音声認識 音声の分析・合成 電話通信サービス
主要キーワード 問題位置 系列テーブル 頭出しキー 発声部分 送信チャンネル毎 識別境界 感情検出 書記素
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2017年3月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (11)

課題・解決手段

問題通話を効率的に確認・発見することを可能にする音声検索技術を提供する。このために、本発明による音声検索システムは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースを有し、入力された検索用キーワードに基づいて通話検索データベースを検索し、検索用キーワードを含む音声区間系列を取得する。より詳細には、当該音声検索システムは、複数の録音通話音声データのうち、検索用キーワードを含む音声区間系列とその出現時刻キーワード検索結果として取得し、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻が取得され、当該開始時刻を音声再生頭出し位置として決定する。そして、頭出し位置が音声検索結果として出力される(図1参照)

概要

背景

近年、コールセンタ運営し、大量の音声データを抱える企業においては、音声データからの情報抽出作業を自動化することが求められている。特に、コールセンタのオペレータを管理するスーパーバイザは、大量の通話音声データの中から、問題通話(クレーム)を効率的に発見・確認することで、オペレータの教育や、迅速なクレーム対応に活かすことを狙っている。

問題通話を効率的に発見・確認する方法としては、通話内容からクレームを特定する方法と、通話内容の要聴取箇所を特定する方法が挙げられる。

通話内容からクレームを特定する方法としては、例えば、特許文献1に示されるように、利用者とオペレータとの会話録音された録音音声データにおける音声の抑揚強弱の変化や間から話し手感情表現を特徴量とし、音声データ内のキーワードと感情表現による特徴量を用いて音声データをスコアリングし、そのスコア値に基づいて、どの音声通話がクレームとして対処すべきものであるかを判断するものがある。

また、通話内容の要聴取箇所を特定する方法としては、例えば、特許文献2に示されるように、発話時間というパラメータを用いてオペレータ側の発話から顧客側の発話に変わった箇所を要聴取箇所として特定し、その箇所を頭出し点(聞き出し部分)とするものがある。

概要

問題通話を効率的に確認・発見することを可能にする音声検索技術を提供する。このために、本発明による音声検索システムは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースを有し、入力された検索用キーワードに基づいて通話検索データベースを検索し、検索用キーワードを含む音声区間系列を取得する。より詳細には、当該音声検索システムは、複数の録音通話音声データのうち、検索用キーワードを含む音声区間系列とその出現時刻キーワード検索結果として取得し、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻が取得され、当該開始時刻を音声再生頭出し位置として決定する。そして、頭出し位置が音声検索結果として出力される(参照)

目的

本発明はこのような状況に鑑みてなされたものであり、問題通話を効率的に確認・発見することを可能にする音声検索技術を提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースと、入力された検索用キーワードに基づいて前記通話検索データベースを検索し、前記検索用キーワードを含む音声区間系列を取得するプロセッサと、を有し、前記プロセッサは、前記複数の録音通話音声データのうち、前記検索用キーワードを含む音声区間系列とその出現時刻キーワード検索結果として取得し、前記キーワード検索結果における出現時刻に基づいて、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生頭出し位置として決定し、前記頭出し位置を音声検索結果として出力する、ことを特徴とする音声検索システム

請求項2

請求項1において、前記通話検索データベースは、さらに、前記音声区間系列のそれぞれの非言語情報スコアを記憶し、前記プロセッサは、前記非言語情報スコアに基づいて、前記頭出し位置が決定された前記音声検索結果の優先順位を決定することを特徴とする音声検索システム。

請求項3

請求項2において、前記プロセッサは、前記音声検索結果を前記優先順位順に並べて利用者提示するための検索結果表示画面を生成し、表示デバイスに表示することを特徴とする音声検索システム。

請求項4

請求項3において、前記プロセッサは、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻の他に、前記キーワード検索結果として取得した音声区間系列及び前記キーワード検索結果として取得した音声区間系列の直後の別のチャンネルの音声区間系列の開始時刻を音声再生の頭出し位置として選択可能とするように前記検索表示画面を生成し、前記表示デバイスに表示することを特徴とする音声検索システム。

請求項5

請求項2において、前記非言語情報スコアは前記音声区間系列中感情を判定して得られる感情スコアであり、当該感情スコアは前記音声区間系列の開始時刻と関連付けられていることを特徴とする音声検索システム。

請求項6

入力された検索用キーワードに基づいて通話検索データベースを検索し、前記検索用キーワードを含む音声区間系列を取得する音声検索方法であって、前記通話検索データベースは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶しており、プロセッサが、前記複数の録音通話音声データのうち、前記検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得するステップと、前記プロセッサが、前記キーワード検索結果における出現時刻に基づいて、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定するステップと、前記プロセッサが、前記頭出し位置を音声検索結果として出力するステップと、を有することを特徴とする音声検索方法。

請求項7

請求項6において、前記通話検索データベースは、さらに、前記音声区間系列のそれぞれの非言語情報スコアを記憶し、さらに、前記プロセッサが、前記非言語情報スコアに基づいて、前記頭出し位置が決定された前記音声検索結果の優先順位を決定するステップを有することを特徴とする音声検索方法。

請求項8

請求項7において、さらに、前記プロセッサが、前記音声検索結果を前記優先順位順に並べて利用者に提示するための検索結果表示画面を生成し、表示デバイスに表示するステップを有することを特徴とする音声検索方法。

請求項9

請求項8において、前記表示するステップにおいて、前記プロセッサは、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻の他に、前記キーワード検索結果として取得した音声区間系列及び前記キーワード検索結果として取得した音声区間系列の直後の別のチャンネルの音声区間系列の開始時刻を音声再生の頭出し位置として選択可能とするように前記検索表示画面を生成し、前記表示デバイスに表示することを特徴とする音声検索方法。

請求項10

請求項7において、前記非言語情報スコアは前記音声区間系列中の感情を判定して得られる感情スコアであり、当該感情スコアは前記音声区間系列の開始時刻と関連付けられていることを特徴とする音声検索方法。

請求項11

コンピュータに請求項6に記載の音声検索方法を実行させるためのプログラムを記憶するコンピュータ読み取り可能な記憶媒体

技術分野

0001

本発明は、音声検索システム音声検索方法、及びコンピュータ読み取り可能な記憶媒体に関し、例えば、記憶装置に格納される音声データの内容を検索し、検索結果を表示するための技術に関する。

背景技術

0002

近年、コールセンタ運営し、大量の音声データを抱える企業においては、音声データからの情報抽出作業を自動化することが求められている。特に、コールセンタのオペレータを管理するスーパーバイザは、大量の通話音声データの中から、問題通話(クレーム)を効率的に発見・確認することで、オペレータの教育や、迅速なクレーム対応に活かすことを狙っている。

0003

問題通話を効率的に発見・確認する方法としては、通話内容からクレームを特定する方法と、通話内容の要聴取箇所を特定する方法が挙げられる。

0004

通話内容からクレームを特定する方法としては、例えば、特許文献1に示されるように、利用者とオペレータとの会話録音された録音音声データにおける音声の抑揚強弱の変化や間から話し手感情表現を特徴量とし、音声データ内のキーワードと感情表現による特徴量を用いて音声データをスコアリングし、そのスコア値に基づいて、どの音声通話がクレームとして対処すべきものであるかを判断するものがある。

0005

また、通話内容の要聴取箇所を特定する方法としては、例えば、特許文献2に示されるように、発話時間というパラメータを用いてオペレータ側の発話から顧客側の発話に変わった箇所を要聴取箇所として特定し、その箇所を頭出し点(聞き出し部分)とするものがある。

先行技術

0006

特開2011−82839号公報
特開2007−184699号公報

発明が解決しようとする課題

0007

しかしながら、特許文献1による方法のみでは、特定されたクレームの通話全体を聴取しなければ、顧客がどこで怒っているか、なぜ顧客が怒っているのかを確認することが出来ない。また、特許文献2の方法を組み合わせたとしても、聞き出し部分が沢山あるような場合に、全ての聞き出し部分を聞かなければ、顧客がどこで怒っているかを確認することが出来ない。すなわち、従来の方法では、問題通話を発見し、通話の一部のみを聞いて問題の内容を効率的に確認する手段はなかった。

0008

本発明はこのような状況に鑑みてなされたものであり、問題通話を効率的に確認・発見することを可能にする音声検索技術を提供するものである。

課題を解決するための手段

0009

上記課題を解決するために、本発明による音声検索システムは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースを有し、入力された検索用キーワードに基づいて通話検索データベースを検索し、検索用キーワードを含む音声区間系列を取得する。より詳細には、複数の録音通話音声データのうち、検索用キーワードを含む音声区間系列とその出現時刻キーワード検索結果として取得される。また、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻が取得され、当該開始時刻が音声再生頭出し位置として決定される。そして、頭出し位置が音声検索結果として出力される。

0010

本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。

0011

本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

発明の効果

0012

本発明によれば、録音された通話における問題通話を効率的に確認・発見することができるようになる。

図面の簡単な説明

0013

本発明の実施形態による音声検索システムのハードウェア構成例を示す図である。
本発明の実施形態による音声検索システム内における処理概要を説明するための機能ブロック図である。
本発明の実施形態による通話録音DBの構成例を示す図である。
本発明の実施形態による音声検索システムで実行される通話検索DB作成処理の詳細について説明するためのフローチャートである。
本発明の実施形態による通話検索DBの構成例を示す図である。
本発明の実施形態による音声検索システムで実行される通話検索処理の詳細について説明するためのフローチャートである。
本発明の実施形態による検索画面の構成例を示す図である。
本発明の実施形態によるキーワード検索結果の例を示す図である。
本発明の実施形態による検索結果表示画面の基本的構成例を示す図である。
本発明の実施形態による検索結果表示画面の変形構成例を示す図である。

実施例

0014

以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

0015

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

0016

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

0017

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。

0018

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

0019

以下では、頭出し決定部等の各処理部を主語動作主体)として本発明の実施形態における各処理について説明を行うが、各処理部による処理は、プログラム化され、このプログラムプロセッサによって実行することにより実現されるため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバ記憶メディアによって計算機インストールされてもよい。

0020

<音声検索システムのハードウェア構成>
図1は、本発明の実施形態による音声検索システムのハードウェア構成例を示す図である。

0021

音声検索システム1は、VoIPゲートウェイ201と、IP交換機202と、複数のIP電話機203と、IPネットワーク中継装置204と、通話録音装置2と、通話検索装置3と、通話検索端末装置4と、を有している。複数のIP電話機203は、コールセンタ内に設置されており、複数のオペレータが、公衆電話回線網200の先の電話機を用いる顧客からの電話に対応できるようになっている。また、通話録音装置2、通話検索装置3、及び通話検索端末装置4はそれぞれ、通常のコンピュータによって実現されるようにしても良い。

0022

通話録音装置2は、CPU205−1と、メモリ206−1と、HDD207−1と、IPネットワーク中継装置204と接続する通信部208−1と、を有している。メモリ206−1は、通話録音部21と、送受信種別取得部22と、通話録音DB管理部24の処理を行うためのプログラムを格納している。また、HDD207−1は、通話録音DB23を含んでいる。

0023

通話検索装置3は、CPU205−2と、メモリ206−2と、HDD207−2と、IPネットワーク中継装置204と接続する通信部208−2と、を有する。メモリ206−2は、通話録音取得部31と、キーワード検出部32と、音声区間検出部33と、感情検出部34と、キーワード受付部36と、キーワード検索部37と、頭出し位置決定部38と、優先順位決定部39と、検索結果送信部40の処理を行うためのプログラムを格納している。また、HDD207は、通話検索DB35を含んでいる。

0024

通話検索端末装置4は、CPU205−3と、メモリ206−3と、HDD207−3と、IPネットワーク中継装置204と接続する通信部208−3と、キーボード209と、ディスプレイ210と、マウス211と、スピーカ212と、を有している。メモリ206−3は、キーワード問合せ部41と検索結果表示部42の処理を実現するためのプログラムを格納している。

0025

<音声検索システムの動作(処理概要)>
図2は、音声検索システム1内における処理概要を説明するための機能ブロック図である。

0026

音声検索システム1は、コールセンタにおける顧客とオペレータの間の通話音声を、通話録音装置2により録音し、その通話録音の内容をキーワードにより検索可能とする通話検索装置3、及び通話検索端末装置4を用いて、スーパーバイザが問題発話の検索に利用できるように構成されている。

0027

通話録音装置2において、通話録音部21は、顧客とオペレータの通話をそれぞれ録音する。また、送受信種別取得部22は、通話録音がオペレータの発話(送信)であるか顧客の発話(受信)であるかを決定する。そして、取得した通話録音データは、決定された送受信種別とづけけられて通話録音DB23に格納され、管理される。通話録音DB管理部24は、外部(通話録音取得部31)からの要求(例えば、特定時刻における通話データ送信要求)を受け付けて通話録音DB23の情報を要求元に送信する。

0028

通話検索装置3において、通話録音取得部31は、通話録音DB管理部24に対して通話データの送信要求を送信し、通話録音装置2の通話録音DB23に保存された通話録音を取得する。そして、キーワード検出部32は、取得した通話録音中に存在するキーワードを検出する。検出すべきキーワードは例えば、予め決められていたり、外部から入力されたりするものとする。また、音声区間検出部33は、取得した通話録音中の音声区間を検出する。さらに、感情検出部34は、取得した通話録音中の感情を検出する。取得した通話録音からキーワード、音声区間、及び感情が検出されると、それらの各検出結果が、音声中の出現時刻と紐づけられて通話検索DB35に格納され、管理される。一方、キーワード受付部36は、外部(スーパーバイザが操作する通話検索端末装置4)からキーワードを受け付ける。キーワード検索部37は、受け付けたキーワードに基づいて通話検索DB35からキーワードの出現時刻を検索する。そして、頭出し位置決定部38は、キーワード検索結果801から送受信種別(チャンネル)が異なる直前の音声区間の出現時刻を検索する。また、優先順位決定部39は、頭出し位置決定結果802から感情を検索した結果に基づいて、キーワード検索結果(例えば、図8の801参照)の優先順位を決定する。最後に、検索結果送信部40は、優先順位に基づく検索結果を通話検索端末装置4に対して送信する。

0029

通話検索端末装置4において、キーワード問合せ部41は、スーパーバイザの指示に応答して、入力されたキーワードを通話検索装置3へ問い合わせる。また、検索結果表示部42は、通話検索装置3から検索結果を受信し、ディスプレイ210に表示する。

0030

<通話録音DB>
図3は、通話録音DB23の構成例を示す図である。通話録音DB23は、公知のリレーショナルデータベースを用いて構築することができる。

0031

通話録音DB23は、録音された通話を一意に識別・特定するための録音ID301と、当該録音通話において顧客に対応したオペレータを一意に識別・特定するためのオペレータID302と、当該録音通話における顧客の電話番号を示す電話番号303と、当該録音通話を録音した時刻を示す録音時刻304と、当該録音通話におけるオペレータの音声データである送信音声305と、当該録音通話における顧客の音声データである受信音声306と、を構成項目として有する。なお、送信音声305及び受信音声306には、実際の音声ファイル保存場所を示すファイルパスが保存される。

0032

<音声検索システム1の動作>
音声検索システム1は、通話検索DB作成処理と通話DB検索処理を実行する。以下、これらについて詳細に説明する。

0033

(i)通話検索DB作成処理
図4は、音声検索システム1で実行される通話検索DB作成処理の詳細について説明するためのフローチャートである。

0034

まず、通話録音取得部31は、通話録音装置2の通話録音DB管理部24に対して新規の通話録音が存在するか問い合わせる(ステップS301)。このとき、通話録音DB管理部24は、新規の通話録音が存在するかの問い合わせを受け付け、所定の時刻よりあとに録音された通話録音があれば、その録音IDを通話録音取得部31に返す。通話録音がない場合は、通話録音取得部31は、所定の時間待機する(ステップS302)。

0035

通話録音が存在する場合、通話録音取得部31は、通話録音装置2から新規の録音IDに対応する通話録音の送信音声と受信音声を取得する(ステップS303)。

0036

次に、キーワード検出部32は、音声中の所定のキーワードを検出する(ステップS304)。音声中のキーワードを検出する処理としては、いくつかの公知の方法がある。例えば、大語彙連続音声認識技術を用いて音声を文章に変換し、文章を構成する単語(形態素)と出現時刻の組をデータベース化しておく方法である。この方法では、既知の単語で構成されるフレーズ高速に検索できるが、未知の単語は別の単語に誤って認識されるため、未知の単語を含む検索は不可能となる。また、別の方法として、サブワード認識技術を用いて音声を音素系列に変換し、音素と出現時刻の組をデータベース化しておく方法がある。この方法では、検索時にキーワードを音素系列に変換して探索することで、未知の単語も検索できるが、音素の認識誤り許容するよう検索する必要があるため、検索に多少時間がかかる。さらに別の方法として、音響特徴量データベースしておく方法がある。検索時には、キーワードに対応する音響モデルと音響特徴量系列とを照合して、キーワードの出現箇所を検出することで、未知の単語も高精度に検索できるが、音響特徴量を短いフレーム単位で照合する必要から、検索に時間がかかる。ここでは、未知の単語を高速に検索することを想定して、サブワード認識技術を用いた構成を例に説明する。キーワード検出部32は、送信音声と受信音声をそれぞれ音素認識し、音素系列を音素出現時刻とともに通話検索DB35の音素系列テーブル501(図5参照)に保存する。

0037

そして、音声区間検出部33は、通話音声中の音声区間を検出する(ステップS305)。音声区間を検出する処理は公知の技術により実現できる。例えば、音声パワー閾値に基づく方法や、音響特徴量のパタン識別に基づく方法などである。通話音声中には、人間の発声のほか、無音区間保留音などがあるが、音声区間検出により、人間の発声部分のみを取り出す。音声区間検出部33は、送信音声と受信音声をそれぞれから検出した音声区間の開始時刻と終了時刻から、音声開始時刻系列、音声終了時刻系列を構成し、音声区間系列テーブル502(図5参照)に追加する。

0038

次に、感情検出部34は、通話音声中の感情を検出する(ステップS306)。音声中の感情を検出する処理は、公知の技術により実現できる。例えば、音声から抽出した、音響特徴量および音声ピッチ発話速度平均値とその変化量に基づいて、怒りと平静の感情を識別する方法である。事前に怒り音声と平静音声のデータベースから、怒りと平静の識別器サポートベクターマシン等の技術により学習しておくと、識別境界からの距離に基づいて怒り感情のスコアが計算できる。ここでは、音声区間ごとに、怒りと平静の感情(非言語情報:用いることのできる非言語情報は感情に限られず、発声の滑らかさ、聞きやすさといった別の観点でスコアを計算したものでも良く、または、声の高さ、声の大きさ、発話速度、周囲の無音区間の長さといった非言語情報であっても良い)を識別し、識別境界からの距離を感情スコア(非言語情報スコア)として求める。感情検出部34は、送信音声と受信音声をそれぞれから、感情スコア系列と、対応する音声区間の開始時刻系列を構成し、感情スコア系列テーブル503(図5参照)に追加する。

0039

以上の通話検索DB作成処理により、通話録音をキーワードに基づいて検索し、時刻から音声区間、感情スコアの対応関係を検索することが可能となる。

0040

(ii)通話検索DBの構成例
図5は、通話検索DB35の構成例を示す図である。通話検索DB35は、公知のリレーショナルデータベースを用いて構築することができる。

0041

通話検索DB35は、音素系列テーブル501と、音声区間系列テーブル502と、感情スコア系列テーブル503とによって構成される。

0042

音素系列テーブル501は、録音された通話を一意に識別・特定するための録音ID5011と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別5012、管理すべき少なくとも1つの音素系列を保持する音素系列5013と、通話開始時刻からの各音素が出現する相対時刻(音素時刻系列内では絶対時刻として表現されている)を示す音素時刻系列5014と、を構成項目として有している。各種別5012において、音素系列5013は、複数の音素系列を保持する場合、並列して当該複数の音素系列を管理する。例えば、各音素系列は、(「M O O SH I W A K E G O Z A I M A S ENN(申し訳ございません)」,「K A SH I K O M A R I M A SH I T A(かしこまりました)」,・・・)というように管理される。また、音素系列では各構成音素が空白で区切られている。音素時刻系列5014では、各音素が音声ファイル中の絶対時刻で表現されていることから、例えば、「M O O S H I W A K E G O Z A I M A S E NN(申し訳ございません)」における先頭の音素「M」が発せられている時間は0.02秒(時刻2.13−時刻2.11)となることが分かる。音素時刻系列5014においても、各音素出現時刻は空白で区切られて管理されている。

0043

音声区間系列テーブル502は、録音された通話を一意に識別・特定するための録音ID5021と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別5022と、音素系列テーブルで管理される各音素系列を含む音声区間系列の開始時刻を保持する音声開始時刻系列5023と、音素系列テーブル501で管理される各音素系列を含む音声区間系列の終了時刻を保持する音声終了時刻系列5024と、を構成項目として有している。当該テーブルからは、例えば、録音(通話)ID=1234の送信側(オペレータ)の音素系列「M O O SH I W A K E G O Z A I M A S ENN(申し訳ございません)」を含む音声区間が時刻2.11に開始し、時刻4.50に終了し、同録音IDの受信側(顧客)の音素系列「K O M A R U NN D E S U Y O N E(困るんですよね)」を含む音声区間が時刻0.05に開始し、時刻1.90に終了することが分かる。当該音声区間系列テーブル502を用いれば、録音通話を構成する各音素系列の出現順序を特定することができる。

0044

感情スコア系列テーブル503は、録音された通話を一意に識別・特定するための録音ID5031と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別5032、各音素系列について算出された感情スコア値を保持する感情スコア系列5033と、音素系列テーブル501で管理される各音素系列の開始時刻を保持する音声開始時刻系列5034と、を構成項目として有している。

0045

(iii)通話DB検索処理
図6は、音声検索システム1で実行される通話検索処理の詳細について説明するためのフローチャートである。

0046

まず、キーワード問合せ部41は、利用者が入力したキーワードを取得する(ステップS601)。ここでキーワード問合せ部41は、利用者(スーパーバイザー)にキーワードの入力を促すために、図7のような検索画面701をディスプレイ210に表示してもよい。図7に示されるように、利用者は、ディスプレイ210上に表示される検索キーワード入力ボックス702をマウス211で選択し、キーボード209を用いて検索キーワードを入力する。最後に検索実行タン703をマウス211でクリックすると、通話検索装置3に対してキーワードを送信する。

0047

次に、キーワード受付部36は、キーワードを受信する(ステップS602)。

0048

また、キーワード検索部37は、受け付けたキーワードから通話検索DB35の音素系列テーブル501を検索する(ステップS603)。ここで、受け付けたキーワードは、例えば、公知の書記素音素変換技術を用いて音素系列に変換される。キーワードとして、例えば「申し訳ありません」を受け付けた場合、音素系列は「M O O SH I W A K E A R I M A S ENN」となる。そして、キーワード検索部37は、変換された音素系列が、音素系列テーブル501内の音素系列に部分系列として含まれる箇所を検索する。このとき編集距離が所定の値未満のものを検索するようにすれば、音素認識の誤りを許容する検索が可能となる。また、キーワード検索部37は、検索された音素系列の開始点終了点にそれぞれ対応する時刻を音素時刻系列から求める。図8は、キーワード検索結果801の例を示している。キーワード検索結果801は、キーワード検索によって得られた結果のスコア順位を示す順位8011と、キーワード検索によって得られた結果のそれぞれのスコア値を示すスコア8012と、録音された通話を一意に識別・特定するための録音ID8013と、該当する音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別8014と、当該キーワード検索結果を含む音素系列の開始時刻8015及び終了時刻8016と、を構成項目として含んでいる。なお、順位8011は、キーワード検索によって得られた結果をスコア順にソートすることによって決定される。ここで、スコアには編集距離を用いることができる。

0049

続いて、頭出し位置決定部38は、キーワード検索結果801に対応して音声再生の開始時刻を決定する(ステップS604)。つまり、頭出し位置決定部38は、通話検索DB35を参照し、キーワード検索結果801の各レコードに対して録音IDが同一で種別が異なる音声区間系列テーブル502中の複数のレコード(キーワード検索結果の種別が「送信」であれば「受信」の音素系列、逆に「受信」であれば「送信」の音素系列)を頭出し候補として選択する。また、頭出し位置決定部38は、選択したレコードの音声開始時刻系列を参照し、キーワード検索結果801における開始時刻の直前の音声開始時刻を特定し、対応する音声終了時刻とともに、頭出し位置決定結果802とする。これにより、キーワード検索結果801の音声開始時刻に対して、直前の相手方通話の開始時刻に頭出しすることができる。こうして、「申し訳ありません」のような謝罪表現をキーワードとして検索する際に、謝罪を行う理由となる相手方の通話から聞き始めることができる。このようにして得られたのが、図8に示される頭出し位置決定結果802である。頭出し位置決定結果802は、キーワード検索結果の順位8011に対応する順位が記入される順位8021と、録音された通話を一意に識別・特定するための録音ID8022と、該当する頭出し位置の音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別8023と、キーワード検索結果801に基づいて求めた、頭出しすべき音素系列の開始時刻8024及び終了時刻8025と、を構成項目として含んでいる。

0050

次に、優先順位決定部39は、頭出し位置決定結果802に対応する感情スコアを検索し、その結果に応じて検索結果を並べ替える(ステップS605)。つまり、優先順位決定部39は、通話検索DB35を参照し、頭出し位置検索結果802の各レコードに対して、録音ID8022と種別8023が同一の感情スコア系列テーブル503中のレコードを選択する。また、優先順位決定部39は、選択したレコードの音声開始時刻系列から、頭出し位置決定結果802における音声開始時刻と一致する箇所を検索し、対応する感情スコアを感情スコア列から取得する。さらに、優先順位決定部39は、検索結果を感情スコアに基づいて並べ換える。このようにすると、「申し訳ありません」のような謝罪表現をキーワードとして検索する際に、編集距離に基づいて並べ替えを行っていた場合は、単純にキーワードの確からしさしか考慮されなかったが、直前の相手方発話の怒りの程度に応じた並べ替えが可能となり、問題(クレーム)の大きさに基づいた並べ替えが可能となる。以上のようにして得られたのが、図8に示される優先順位決定結果803である。優先順位決定結果803は、キーワード検索結果の順位8011に対応する順位が記入される順位8031と、録音された通話を一意に識別・特定するための録音ID8032と、該当する頭出し位置の音素系列が属するチャンネルの種類(送信チャンネルか受信チャンネルか)を示す種別8033と、頭出しすべき音素系列の感情スコア値を示すスコア8034と、キーワード検索結果801に基づいて求めた、頭出しすべき音素系列の開始時刻8035及び終了時刻8036と、を構成項目として含んでいる。

0051

検索結果送信部40は、優先順位決定結果803を通話検索端末装置4に送信する(ステップS606)。

0052

最後に、検索結果表示部42は、受信した優先順位決定結果803に基づいて、検索結果をディスプレイ210に表示する(ステップS607)。検索結果表示画面例については図9を参照して後述する。

0053

<検索結果表示画面の構成例>
図9は、検索結果表示画面901の基本的構成例を示す図である。

0054

検索結果表示部42は、通話録音DB23への問合せによりオペレータ・電話番号・録音日時を検索した結果を同時に検索結果表示画面901表示する。図9に示されるように、検索結果は、優先順位決定結果803に基づいて順番に表示される。

0055

例えば利用者(スーパーバイザー)が頭出しキーワードボタン902をマウス211でクリックすると、通話検索装置3の通話録音取得部31は、通話録音DB23へ問合せを行うことにより通話録音を取得し、優先順位決定結果803に基づく開始時刻から再生する。これにより、利用者は、キーワード検索の結果、問題(クレーム)のあった箇所に遡って音声(この場合、キーワードを含むチャンネルの音声(オペレータの音声)に対応する別のチャンネルの音声(顧客の音声))を頭から聞くことができる。また、問題(クレーム)の大きさに応じて優先度を決めて並べ換えているため、効率的に問題の把握が可能となる。

0056

<変形例>
上述の実施形態では、頭出し位置を、キーワード検索によって特定された音声区間系列(例えば、オペレータの音声区間)の直前の相手方(例えば、顧客)の音声区間系列の開始時刻にしているが、利用者が複数の頭出し位置候補から選択できるようにしても良い。

0057

ここでは、感情スコアを利用して頭出し位置を決定する例(変形例)について説明する。頭出し位置決定部38は、通話検索DB35を参照し、キーワード検索結果801の各レコードに対して録音IDが同一で種別が異なる音声区間系列テーブル502中のレコードを選択する。

0058

また、頭出し位置決定部38は、選択したレコードの音声開始時刻系列を参照し、キーワード検索結果801における開始時刻の前の音声開始時刻を複数件(例えば3件)抽出し、頭出し位置候補として選択する。

0059

次に、頭出し位置決定部38は、録音IDと種別が同一の感情スコア系列テーブル503中のレコードを選択する。

0060

続いて、頭出し位置決定部38は、選択したレコードの音声開始時刻系列から、頭出し位置候補の音声開始時刻と一致する箇所を検索し、対応する感情スコアを感情スコア列から検索する。その結果得られる複数件の感情スコアから最大のものを選択し、対応する音声開始時刻を頭出し位置決定結果802とする。このようにすると、謝罪を行う理由となる相手方の通話において、直前に怒り感情が大きくなった発話までさかのぼることができる。なお、感情スコアから最大のものを選択するだけでなく、キーワード検索結果801の音声開始時刻と頭出し位置候補の音声開始時刻の差を考慮して計算してもよい。このようにすることにより、できるだけキーワードに近い範囲で怒り感情が大きくなった発話までさかのぼることができる。

0061

以上のような利用者による頭出し位置の選択を可能にするための検索結果表示画面1001の構成例を図10に示す。

0062

検索結果表示画面1001は、少なくとも1つの検索結果のそれぞれについて、頭出しキーワードボタン1002と、当該先頭頭出しボタン1003と、相手方先頭頭出しボタン1004と、相手方後方頭出しボタン1005と、を頭出し位置選択用のボタンとして有している。頭出しキーワードボタン1002は、キーワード検索によって特定された音素系列の先頭音素の開始時刻を頭出し位置とするためのボタンである。当該先頭頭出しボタン1003は、キーワード検索によって特定された音声区間系列の開始時刻を頭出し位置とするためのボタンである。相手方先頭頭出しボタン1004は、図9の頭出しキーワードボタン902と同様に、キーワード検索によって特定された音声区間系列(例えば、オペレータの音声区間)の直前の相手方(例えば、顧客)の音声区間系列の開始時刻を頭出し位置とするためのボタンである。相手方後方頭出しボタン1005は、キーワード検索によって特定された音声区間系列(例えば、オペレータの音声区間)の直後の相手方(例えば、顧客)の音声区間系列の開始時刻を頭出し位置とするためのボタンである。

0063

<まとめ>
(1)本発明の実施形態では、通話検索装置は、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースから、検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得する。また、通話検索装置は、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定し、この頭出し位置を音声検索結果として出力する。このように、キーワード検索結果に対し、問題位置に遡って頭出しすることで、利用者は、問題通話の内容を効率的に確認できるようになる。なお、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の頭出しを行う以外に、キーワード検索結果として取得した音声区間系列そのものの開始位置を頭出し位置としても良いし、その直後の別チャンネルの音声区間系列の開始位置を頭出し位置としても良い。また、これら複数の頭出し位置を利用者が選択できるようにしても良い。

0064

さらに、本実施形態では、通話検索データベースが、音声区間系列のそれぞれの非言語情報スコア(感情スコア:問題の大きさに相当)を記憶し、非言語情報スコア(感情スコア)に基づいて、頭出し位置が決定された音声検索結果の優先順位を決定するようにしても良い。検索結果表示画面(GUI)では、複数の音声検索結果がこの優先順位順に表示される。このように、キーワード検索結果を問題の大きさに応じて並べ替えるようにしているので、問題通話を効率的に発見できるようになる。

0065

(2)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスクCD−ROM、DVD−ROM、ハードディスク光ディスク光磁気ディスク、CD−R、磁気テープ不揮発性メモリカード、ROMなどが用いられる。

0066

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

0067

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

0068

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。

0069

さらに、上述の実施形態において、制御線情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

0070

また、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施例では、コールセンタにおける通話録音装置と連携した問題発話検索システムを想定したが、例えば、多拠点ビデオ会議における議事録検索システムや、放送録画における番組検索システムなど、様々なシステムに適用することが出来る。

0071

1・・・音声検索システム、2・・・通話録音装置、3・・・通話検索装置、4・・・通話検索端末装置、205−1〜205−3・・・CPU、206−1〜206−3・・・メモリ、207−1〜207−3・・・HDD、208−1〜208−3・・・通信部、209・・・キーボード、210・・・ディスプレイ、211・・・マウス、212・・・スピーカ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ