図面 (/)

技術 画像処理装置、及び画像処理システム

出願人 株式会社リコー
発明者 阪上弘文鷹見淳一
出願日 2011年11月24日 (8年11ヶ月経過) 出願番号 2011-256026
公開日 2012年8月2日 (8年3ヶ月経過) 公開番号 2012-147420
状態 特許登録済
技術分野 可聴帯域変換器用回路 可聴帯域変換器の細部(特性を得るもの) 音声の分析・合成 スタジオ装置 可聴帯域変換器の回路等 双方向TV,動画像配信等
主要キーワード 音声レベル表示 音声レベル情報 領域検知 マイクロフォンユニット 人物検出装置 ビデオ会議装置 遠隔会議装置 座席配置
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2012年8月2日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (14)

課題

発言者音声レベル会議出席者の顔の上方(頭上)に画像表示するビデオ会議カメラマイク装置を提供する。

解決手段

本発明のカメラ・マイクユニット50は、カメラ3により撮影された画像を処理して会議出席者の顔を検出する顔検出手段15と、複数のマイク5によって音声到来方向を検出する音声到来方向検出手段16と、ずれ時間情報22に基づいて音声を収音する方向を変更する音声収音方向変更手段17と、音声収音方向変更手段17により収音した音声レベルを算出する音声レベル算出手段18と、顔検出手段15により検出した顔検出情報20、音声到来方向検出手段16により検出した音声到来方向情報21、及び音声レベル算出手段18により算出した音声レベル情報24に基づいて、会議室画像の会議出席者の発言者の頭上に音声レベルを画像表示する画像信号25を生成する音声レベル表示合成手段19と、を備えて構成されている。

概要

背景

従来から、静止画遠隔会議装置において、各会議出席者用に配置されたマイクで収音した音声レベルを、会議出席者に対応させて画像表示する技術が知られている。しかし、今まで会議装置では、会議出席者毎にマイクを配置する必要があるため、会議出席する人数が変化した場合、即座に対応しにくいという問題があった。
また、特許文献1には、誰が発言者であるかを明確に表示する目的で、各会議出席者用に配置したマイクで収音した音声レベルを、会議出席者に対応させて画像表示する構成が開示されている。

概要

発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するビデオ会議カメラマイク装置を提供する。本発明のカメラ・マイクユニット50は、カメラ3により撮影された画像を処理して会議出席者の顔を検出する顔検出手段15と、複数のマイク5によって音声到来方向を検出する音声到来方向検出手段16と、ずれ時間情報22に基づいて音声を収音する方向を変更する音声収音方向変更手段17と、音声収音方向変更手段17により収音した音声レベルを算出する音声レベル算出手段18と、顔検出手段15により検出した顔検出情報20、音声到来方向検出手段16により検出した音声到来方向情報21、及び音声レベル算出手段18により算出した音声レベル情報24に基づいて、会議室画像の会議出席者の発言者の頭上に音声レベルを画像表示する画像信号25を生成する音声レベル表示合成手段19と、を備えて構成されている。

目的

本発明は、かかる課題に鑑みてなされたものであり、会議出席者の人数分のマイクや発言表示装置を不要にするために、複数のマイクからなるマイクロフォンアレイを使用して、発言者の音声の到来方向を検出し、画像処理で会議出席者の顔を検出して、発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するビデオ会議用カメラマイク装置を提供する

効果

実績

技術文献被引用数
1件
牽制数
1件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

撮影手段、及び音声収音するマイクロフォンを備えた画像処理装置であって、前記撮影手段により撮影された画像に基づいて人物の位置を検出する人物検出手段と、複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と、を備えたことを特徴とする画像処理装置。

請求項2

前記音声レベル表示合成手段は、前期人物検出手段と音声到来方向検出手段によって特定される発話者情報、および前記音声レベルに対応して、リアルタイム発話者画像の付近に表示した円の大きさを変化させることを特徴とする請求項1に記載の画像処理装置。

請求項3

前記音声の検出は、該音声の信号レベルが所定の閾値以上で、且つ、所定の時間以上継続した場合に、音声として判断することを特徴とする請求項1又は2に記載の画像処理装置。

請求項4

前記音声レベルを含む画像を表示する画像表示装置と、撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、前記撮影手段により撮影された画像に基づいて人物を検出する人物検出手段と、複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と前記信号を他の画像処理装置に送信する送信手段とを有する画像処理装置と、を備えたことを特徴とする画像処理システム

技術分野

0001

本発明は、画像処理装置、及び画像処理システムに関し、さらに詳しくは、会議出席者に対応させて音声レベル画像表示する画像処理技術に関するものである。

背景技術

0002

従来から、静止画遠隔会議装置において、各会議出席者用に配置されたマイクで収音した音声レベルを、会議出席者に対応させて画像表示する技術が知られている。しかし、今まで会議装置では、会議出席者毎にマイクを配置する必要があるため、会議出席する人数が変化した場合、即座に対応しにくいという問題があった。
また、特許文献1には、誰が発言者であるかを明確に表示する目的で、各会議出席者用に配置したマイクで収音した音声レベルを、会議出席者に対応させて画像表示する構成が開示されている。

発明が解決しようとする課題

0003

しかし、特許文献1に開示されている従来技術は、本発明とは確かに会議出席者に対応させて音声レベルを画像表示する点では類似しているが、会議出席者毎にマイクを配置する必要があり、会議に出席する人数の変化に対応しにくいという問題は解消できていない。
本発明は、かかる課題に鑑みてなされたものであり、会議出席者の人数分のマイクや発言表示装置を不要にするために、複数のマイクからなるマイクロフォンアレイを使用して、発言者の音声到来方向を検出し、画像処理で会議出席者の顔を検出して、発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するビデオ会議カメラマイク装置を提供することを目的とする。

課題を解決するための手段

0004

本発明はかかる課題を解決するために、請求項1は、撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、前記撮影手段により撮影された画像に基づいて人物の位置を検出する人物検出手段と、複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と、を備えたことを特徴とする。
本発明は、会議出席者の顔を認識し、各会議出席者の音声を収音して、誰が発言しているかを検出する。そして、発言者の音声レベルに応じて発言者の画像の上部に音声レベルに応じたマークを表示する。これを実現するために、本発明では、ビデオ会議用カメラマイク装置の構成として、顔検出手段、音声到来方向検出手段、音声収音方向変更手段、音声レベル算出手段、及び音声レベル表示合成手段を備えて、画像信号を生成する。これにより、会議出席者の人数分のマイクを不要にすることができる。

0005

請求項2は、前記音声レベル表示合成手段は、前期人物検出手段と音声到来方向検出手段によって特定される発話者情報、および前記音声レベルに対応して、リアルタイム発話者画像の付近に表示した円の大きさを変化させることを特徴とする。
本発明の音声レベルの画像表示方法は、音声レベルに応じて、発言者の画像の上部に円の大きさを変化させる。例えば、音声レベルが大きい場合は、円の大きさを大きくし、音声レベルが小さい場合は、円の大きさを小さくする。これらの表示をリアルタイムに行う。これにより、発言者が誰で、且つ、発言者の音声レベルを即座に認識することができる。

0006

請求項3は、前記音声の検出は、該音声の信号レベルが所定の閾値以上で、且つ、所定の時間以上継続した場合に、音声として判断することを特徴とする。
会議では、発言者以外の出席者の相づち等の発言も収音される。これらの音声をすべて検出してしまうと、画像表示がめまぐるしく変化する虞がある。本発明ではこのような現象を防止するために、音声の検出は、該音声の信号レベルが所定の閾値以上で、且つ、所定の時間以上継続した場合に、音声として判断する。これにより、画像表示のめまぐるしい変化を防止することができる。

0007

請求項4は、前記音声レベルを含む画像を表示する画像表示装置と、撮影手段、及び音声を収音するマイクロフォンを備えた画像処理装置であって、前記撮影手段により撮影された画像に基づいて人物を検出する人物検出手段と、複数のマイクロフォンによって収音した音声データのずれ時間情報に基づいて音声の到来方向を検出する音声到来方向検出手段と、前記複数のマイクロフォンによって収音されたデータのずれ時間を補正して加算することで前記音声を収音する方向を変更する音声収音方向変更手段と、該音声収音方向変更手段により収音した音声レベルを算出する音声レベル算出手段と、前記人物検出手段により検出した人物検出情報、前記音声到来方向検出手段により検出した音声到来方向情報、及び前記音声レベル算出手段により算出した音声レベル情報に基づいて、前記画像に音声レベルを画像表示させる信号を生成する音声レベル表示合成手段と前記信号を他の画像処理装置に送信する送信手段とを有する画像処理装置と、を備えたことを特徴とする。
本発明のビデオ会議用カメラマイク装置を少なくとも2つ用意して、各会議室に本発明のビデオ会議用カメラマイク装置と、画像表示装置と、スピーカ、及びビデオ会議装置を備え、夫々の会議室をLAN等のネットワークで接続することにより、ビデオ会議システム構築することができる。これにより、遠隔地との会議をスムーズに行うことができる。

発明の効果

0008

本発明によれば、複数のマイクからなるマイクロフォンアレイを使用して、発言者の音声の到来方向を検出し、画像処理で会議出席者の顔を検出して、発言者の音声レベルを会議出席者の顔の上方(頭上)に画像表示するので、会議出席者の人数分のマイクを不要とすることができる。

図面の簡単な説明

0009

本発明の実施形態に係る画像処理装置の外観について説明する図である。
本発明の実施形態に係る画像処理装置の内部構成について説明するブロック図である。
本発明の実施形態に係る画像処理装置の動作を説明するフローチャートである。
音声到来方向検出手段の動作原理について説明する図である。
音声収音方向変更手段の動作原理について説明する図である。
人物検出手段の実施例の1つである顔検出手段について説明する図である。
人物検出手段の実施例の1つである上半身検出手段について説明する図である。
発言者の音声レベルを円の大きさで発言者の頭上に画像表示した様子について説明する図である。
発言者の音声レベルを棒グラフの長さで発言者の上半身エリア中央に画像表示した様子について説明する図である。
発言者の音声レベルを発話者画像領域矩形枠の太さで画像表示した様子について説明する図である。
発言者の音声レベルを発話者画像領域の輪郭線の太さで画像表示した様子について説明する図である。
本発明の画像処理装置を会議室で使用した画像処理システムを説明する図である。
本発明の画像処理システムを2つの会議室に設置した場合の動作について説明する図である。

実施例

0010

以下、本発明を図に示した実施形態を用いて詳細に説明する。但し、この実施形態に記載される構成要素、種類、組み合わせ、形状、その相対配置などは特定的な記載がない限り、この発明の範囲をそれのみに限定する主旨ではなく単なる説明例に過ぎない。

0011

図1は、本発明の実施形態に係る画像処理装置の外観について説明する図である。本発明の画像処理装置50は、本体4の前面に備えられ、会議出席者等を撮影する撮影装置3と、会議出席者の発言者の音声を収音する複数のマイクロフォン5と、本体4を立設する柱6と、柱6を固定する台座7とを備えて構成されている。尚、本体4の内部の構成については後述する。また、本体4は柱6から取り外し可能な構成としても良い。
撮影装置3は、自拠点で会議が行われている状況を撮影し、撮影された画像は他拠点に送信され、遠隔会議を実現することができる。
撮影装置3で撮影される画像には、自拠点で会議を行っている人(会議出席者)が含まれる。

0012

図2は、本発明の実施形態に係る画像処理装置の内部構成について説明するブロック図である。本発明の画像処理装置50は、撮影装置3、及び会議出席者の音声を収音する複数のマイクロフォン5(マイクロフォンa〜d:マイクロフォンアレイ)を備えた画像処理装置50であって、撮影装置3により撮影された画像を処理して、画像に含まれる人(会議出席者)の位置を検出する人物検出手段15と、複数のマイクロフォン5によって音声の到来方向を検出して、音声到来方向情報21、及び、ずれ時間情報22を出力する音声到来方向検出手段16と、ずれ時間情報22に基づいて音声を収音する方向を変更する音声収音方向変更手段17と、音声収音方向変更手段17により収音した音声レベルを算出する音声レベル算出手段18と、人物検出手段15により検出した人物検出情報20、音声到来方向検出手段16により検出した音声到来方向情報21、及び音声レベル算出手段18により算出した音声レベル情報24に基づいて、撮影装置3で撮影された画像の会議出席者の発言者の付近に音声レベルを画像表示する画像信号25を生成する音声レベル表示合成手段19と、を備えて構成されている。尚、音声収音方向変更手段17から音声信号23が出力される。

0013

撮影装置3から出力される画像信号は、人物検出手段15に入力され、画像から人物を検出し、人物の位置情報を人物検出情報20として出力する。
人物検出に関しては、従来技術であるが、後述する。
また、4個のマイクロフォンa〜dからなるマイクロフォンアレイの音声出力信号は、音声到来方向検出手段16に入力され、音の到来方向、つまりマイクロフォンアレイ及び撮影装置から見た発言者の方向を検出する。マイクロフォンアレイに到来する音の方向により、4個のマイクロフォン(a〜d)5の音声信号出力に時間のずれが発生する。この時間のずれ(ずれ時間情報22)から音の到来方向を検出し、ずれ時間情報22と音声到来方向情報21を出力する。
又、マイクロフォンアレイの音声出力信号は、音声収音方向変更手段17に入力され、ずれ時間情報22を入力して、発言者の方向からの音声を収音する。音声到来方向検出手段16と音声収音方向変更手段17の動作原理は従来技術であるが後述する。
音声収音方向変更手段17から出力された発言者の音声信号23は、音声レベル算出手段18に入力されると同時に、画像処理装置50の音声信号23として出力する。音声レベル算出手段18では、所定の時間間隔で音声信号の実効値を算出し、音声レベル情報24を出力する。

0014

例えば、音声信号のサンプリング周波数を8kHzとし、128サンプルの音声データの時間間隔(1/8000秒×128サンプル=16msec)毎に、各サンプルデータを2乗した値の合計の和の平方根(=実効値)を算出して、音声レベル情報を出力する。
人物検出情報20、音声到来方向情報21、音声レベル情報24が、音声レベル表示合成手段19に入力され、図8に示すような、会議室画像の発言者1の付近に音声レベルを円2で表示する画像の画像信号が出力される。
即ち、本発明は、人物の位置情報と音声到来方向情報に基づき、誰が発言しているかを検出する。そして、発言者の音声レベルに応じて発言者の画像の付近に音声レベルに応じたマークや数値を表示する。これを実現するために、本実施形態では、画像処理装置50の構成として、人物検出手段15、音声到来方向検出手段16、音声収音方向変更手段17、音声レベル算出手段18、及び音声レベル表示合成手段19を備えて、画像信号25を生成する。これにより、会議出席者の人数分のマイクロフォンを不要にすることができる。

0015

図3は、本発明の実施形態に係る画像処理装置の動作を説明するフローチャートである。
撮影装置3が出力する画像信号から人物を検出する処理(S7)と、マイクロフォン5が出力する音声信号から音声を検出する処理(S1)は並行して行なう。音声の検出は、信号レベルが所定の閾値以上で、所定の時間以上継続した場合に、音声を検出したと判断する。これにより、短時間の相づち等の発言はレベル表示せず、画像表示がめまぐるしく変化する事を防止することができる。
次に、音声を検出したら、その到来方向を到来方向検出手段16により検出する(S2)。
現状の到来方向と異なる場合は、音声収音方向変更手段17により収音方向を変更する(S3)。
次に、収音している音声のレベルを音声レベル算出手段18により算出する(S4)。
その後、人物検出情報20と、音声到来方向情報21と、音声レベル情報24を使用して、音声レベル表示合成手段19により音声レベル表示の画像合成を行なう(S5)。
会議が終了するまで、上記処理を繰り返す。会議終了は、接続している会議装置10(図13参照)から終了の制御信号を入力して判断しても良いし、画像処理装置50の電源切断によって判断しても良い。

0016

図4は、音声到来方向検出手段の動作原理について説明する図である。例えば、発言者がマイクロフォンアレイの正面方向にいる場合は、4個のマイクロフォン(a〜d)に入る音は同時刻であり、4個のマイクロフォンの音声信号出力は時間のずれが無い。マイクロフォンアレイの斜め方向から音26が到来すると、各マイクロフォンへの音の到達時間が異なるため、4個のマイクロフォンの音声信号出力に時間のずれが発生する。一例として、図4(a)のように到来音26が到来し、マイクロフォンaに対する、マイクロフォンb、マイクロフォンc、マイクロフォンdの到達時間の遅れを、t1、t2、t3とする。この時間のずれから、到来音26の方向(発言者の方向)を検出できる(図4(b)参照)。

0017

図5は、音声収音方向変更手段の動作原理について説明する図である。音声到来方向検出手段16によって、検出された各マイクロフォンの到達時間の遅れ(t1、t2、t3)を打ち消すように、各マイクロフォン出力時間遅延を追加する。つまり、図5(a)に示すように、マイクaには時間遅延t3を有する遅延器27、マイクロフォンbには時間遅延t2を有する遅延器28、マイクロフォンcには時間遅延t1を有する遅延器29を追加することにより、到来音の音声信号のタイミングが一致する(図5(b)参照)。これらを加算することにより、到来音の方向からの音声信号は強め合い、それ以外の方向から到来する音声信号は打ち消される。このようにして、音声収音方向を変更して、発言者の音声を収音して出力する。

0018

図6は、人物検出手段の一例として、顔検出手段について説明する図である。画像から顔を検出する方法は、参考文献(デジタルカメラ向け顔画像処理技術:オムロンKEC情報 No.210 2009.JUL P.16−P.22)に示すように公知の技術で実現できる。特に、本発明では、検出した顔が、既に登録済の誰の顔であるかと言う認識処理は不要である。図6に、会議室画像から顔を検出した結果の例を示す。このように、発言者30の顔を検出したら、矩形31で囲んで、その矩形画像上の位置(座標)を顔検出情報として出力する。これにより、発言者30の顔の上方(発言者の頭上)に音声レベルを円で表示できる。
図6では発言者30の顔の上方(発言者の頭上)に音声レベルを円で表示したが、音声レベルを表示する位置、音声レベルを表示する方法はこれに限らない。つまり、発言者30の顔の下方、発言者30の顔の胴体に音声を表示してもよい。また、撮影装置によって撮影された画像の発言者の位置に基づいて、音声レベルが表示される位置が変更できても良い。
また、音声レベルは円に限られず、その他の図形、表示方法でもよい。
図7は、人物検出の別の例として、顔および上半身を含む領域検知手段について説明する図である。画像から人物領域を検出する方法は、参考文献(人物検出装置グローリー株式会社 特開2009‐140307公報)などの公知の技術で実現できる。

0019

図8は、発言者の音声レベルを円の大きさで発言者の頭上に画像表示した様子について説明する図である。本発明は、従来のビデオ会議の相手側や自分側の会議室画像に、発言者の音声レベルを合成表示する。一例として、図8に示すように、発言者1の頭上に、発言者1の音声レベルに対応した大きさの円2を表示する。円2の大きさを音声レベルに対応してリアルタイムで変化させる。図8(a)は音声レベルが大きい場合を示し、図8(b)は音声レベルが小さい場合を示す。これにより、誰が発言しているかが目で分かる。又、発言者の声の大きさも目で分かるので、自分の発言音量が大きいか、小さいかが自分で分かる。
即ち、ビデオ会議実施中は、自分の声が相手に伝わっているのかが不安になる場合があり、必要以上に大きな声で発言する事がある。又、相手の声が小さくて聞き取りにくくても、相手に大きな声で発言するように要求しにくい場合もある。そこで、自分の発言音量が大きいか、小さいかが自分で分かると、必要以上に大きな声で発言する事を防止できる。
又、自分の声が小さい事が自分で分かると、声を大きくすべきである事に自分で気づき、円滑な会議を実施することができる。
即ち、本発明の音声レベルの画像表示方法は、音声レベルに応じて、発言者1の画像の上部に円2の大きさを変化させる。例えば、音声レベルが大きい場合は、図8(a)のように円2の大きさを大きくし、音声レベルが小さい場合は、円2の大きさを小さくする。
これらの表示をリアルタイムに行う。これにより、発言者が誰で、且つ、発言者の音声レベルを即座に認識することができる。

0020

円でレベル表示を行う際の表示位置の中心座標(x,y)は、例えば以下の式で定める。
x=(Xl+Xr)/2
y=Yt+Rmax+Yoffset
ただし、Xl:人物領域の左端のx座標
Xr:人物領域の右端のx座標
Yt:人物領域の上端のy座標
Rmax:円の最大半径最大レベル時の円の大きさ)
Yoffset:人物領域と円の間にあける隙間
また、円の半径rは、例えば人間の聴感上の大きさに一致するよう、対数尺度に従う以下の式で定める。
r=Rmax*log(p)/log(Pmax) (p>1の場合)
r=0 (p≦1の場合)
ただし、Rmax:円の最大半径(最大レベル時の円の大きさ)
p:音声レベル(短時間パワー値)
Pmax:最大レベル(最大振幅時の短時間パワー)
なお、信号X=(x1、x2、…xN)の短時間パワーpは、



で定義される値であり、例えばサンプリング周波数が16kHzの場合、N=320とすれば、20mS分のデータに対する短時間パワーを算出することができる。
また、最大レベルPmaxについては、16bit幅のPCMデータ(−32768〜32767の範囲の振幅値)の場合、
Pmax=32767*32767/√2
となる。
ただし、この例のように、レベル表示を行う位置を発言者の領域の外側(例えば上方)に設定する場合、画像にそのような表示を行うだけのスペースが確保されている必要があるが、例えば話者の顔が画像の上端付近にあってその上方にスペースが確保できない場合など、構図によってはレベルを表示する位置を修正する必要がある。このような場合には顔領域の下、左右などに円の中心座標を移動して表示を行えばよい。

0021

上記のような表示エリアの問題が発生しにくいレベル表示の例を、図9図11に示す。
図9は、発言者1の音声レベルを棒グラフ2の長さで発言者の上半身エリア中央に画像表示した様子について説明する図である。
図10は、発言者1の音声レベルを発話者画像領域の矩形枠2の太さで画像表示した様子について説明する図である。
図11は、発言者1の音声レベルを発話者画像領域の輪郭線2の太さで画像表示した様子について説明する図である。
いずれも、「誰が発言しているかが目で分かる」、「発言者の声の大きさが目で分かる」という図8の例と同様の効果が得られると共に、既に画像上に存在する領域のごく近傍やその内部にレベルを表示しているため、レベル表示するためのスペースの問題も発生しにくい。

0022

図12は、本発明のカメラ・マイクロフォンユニットを会議室で使用した画像処理システムを説明する図である。本発明の画像処理システム60は、図1図2で説明した画像処理装置50と、会議室画像を表示する画像表示装置9と、会議出席者の音声を拡声するスピーカ8と、画像処理装置50から出力された画像信号11及び音声信号12をネットワーク32を介して他の画像処理装置に伝送する会議装置10と、を備えて構成されている。
図1の画像処理装置50を会議装置10と併用して、会議室で使用している状況を示す。会議出席者は図のような座席配置に会議出席者用いす11に着席する。
画像表示装置9は、テレビモニターでも良いし、プロジェクタを使ってスクリーンや壁に画像を投影しても良い。画像処理装置50は、会議12上に置き、カメラ3で会議出席者全員が撮影できるような位置に設置する。

0023

図13は、本発明の画像処理システムを2つの会議室に設置した場合の動作について説明する図である。図13では、A会議室とB会議室でビデオ会議を行なう場合を示している。例えば、A会議室の画像処理装置50から出力された画像信号11と音声信号12は、会議装置10とネットワーク32を経由して、相手側のB会議室に伝送される。受信した画像信号14は、自分側の画像表示装置9で表示され、受信した音声信号13は、自分側のスピーカ8から音声として出力される。又、会議装置10により、自分側の会議室画像を、自分側の画像表示装置9で表示する事もできる。
即ち、本発明の画像処理装置50を少なくとも2つ用意して、各会議室A、Bに本発明の画像処理装置50と、画像表示装置9と、スピーカ8、及び会議装置10を備え、夫々の会議室をLAN等のネットワーク32で接続することにより、画像処理システムを構築することができる。これにより、遠隔地との会議をスムーズに行うことができる。

0024

1発言者、2音声レベル、3カメラ、4 本体、5マイク、6 柱、7台座、8スピーカ、9画像表示装置、10ビデオ会議装置、11会議出席者いす、12会議机、13音声信号、14画像信号、15顔検出手段、16音声到来方向検出手段、17音声収音方向変更手段、18 音声レベル算出手段、19音声レベル表示合成手段、20顔検出情報、21 音声到来方向情報、22 ずれ時間情報、23 音声信号、24音声レベル情報、25 画像信号、26到来音、27、28、29遅延器、30 発言者、31 顔検出矩形、32ネットワーク、50 カメラ・マイクユニット、60 ビデオ会議システム

先行技術

0025

特開昭60−116294号公報

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

該当するデータがありません

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

該当するデータがありません

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ