図面 (/)

技術 画像認識システムを備えた知識情報処理サーバシステム

出願人 サイバーアイ・エンタテインメント株式会社
発明者 久夛良木健薄隆横手靖彦
出願日 2011年10月14日 (8年1ヶ月経過) 出願番号 2011-226792
公開日 2013年5月13日 (6年6ヶ月経過) 公開番号 2013-088906
状態 特許登録済
技術分野 計算機間の情報転送 特定用途計算機 検索装置 音声認識 音声の分析・合成
主要キーワード 不特定物 連結的 ベクトル線 欠損画像 位置情報センサ 広告ボード 統計確率 適宜解析
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2013年5月13日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (20)

課題

解決手段

インターネット接続可能なネットワーク端末に接続され、ユーザの頭部に装着可能なヘッドセットシステムから得られるユーザの主観的な視野等を反映した画像、及び音声信号を、ネットワーク端末経由で知識情報処理サーバシステムアップロードし、画像に内包されているユーザが着目した特定物体等に対し、音声認識システムとの協調動作により、ユーザ自身音声による着目対象の指定、選択等を、サーバシステム上で可能にし、ユーザによる一連画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、サーバシステム側がインターネットを介し、ユーザのネットワーク端末経由で、画像認識結果及びその認識プロセスをユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として通知し、ユーザのメッセージつぶやきを広範なユーザ間で共有可能にする。

概要

背景

近年のインターネットの世界的な普及により、ネットワーク上の情報量が急激に増大しつつある事から、それら膨大な量の情報の海の中から目的とする情報を効果的且つ高速に探し出す手段としての検索技術が急速に進歩して来た。現在では、強力な検索エンジンを備えたポータルサイトがいくつも運営されている。また、閲覧者検索キーワードアクセス履歴等を解析し、閲覧者の嗜好にあったWebページ広告等を各々の検索結果に関連して配信する技術も開発され、閲覧者が多用するキーワードに基づく効果的なマーケティング活動等への応用も始まっている。

例えば、ユーザにとって有用な情報を精度良く且つ容易に提供する事が出来る情報提供装置がある(特許文献1)。この情報提供装置は、ユーザによる各コンテンツに対するアクセス頻度を表すアクセス頻度情報を、当該ユーザを識別するユーザ識別情報対応付けて格納するアクセス履歴格納手段と、各ユーザ間における各コンテンツへのアクセス傾向類似性を表すユーザ間類似度を、前記アクセス履歴格納手段に格納された前記アクセス頻度情報に基づいて算出するユーザ間類似度計算手段と、ユーザと各ユーザとの間の前記ユーザ間類似度により重み付けした、当該各ユーザの前記アクセス頻度情報から、当該ユーザにとってのコンテンツの有用度を表す情報であるコンテンツ・スコアを算出するコンテンツ・スコア計算手段と、前記コンテンツ・スコア計算手段によって算出された各コンテンツの前記コンテンツ・スコアを、前記ユーザ識別情報に対応付けて記憶するインデックス格納手段と、通信端末装置から送信されたユーザ識別情報を含むクエリの入力を受け付けクエリ入力手段と、前記クエリ入力手段により受け付けられた前記クエリに適合するコンテンツのコンテンツ識別情報を取得し、当該クエリに含まれるユーザ識別情報に対応付けられて前記インデックス格納手段に記憶された前記コンテンツ・スコアを参照して、取得した前記コンテンツ識別情報から提供情報を生成する提供情報生成手段と、前記提供情報生成手段により生成された前記提供情報を、前記通信端末装置に出力する提供情報出力手段とを備える事を特徴とする、情報提供装置である。

これらのキーワード等の文字情報検索クエリとする検索手段をさらに拡大する目的で、画像認識技術を備えた検索エンジンの開発が近年進み、文字に代わり画像そのものを入力クエリとする画像検索サービスが、広くインターネット上で提供される様になって来ている。画像認識技術の研究の始まりは、一般に40年以上前に遡る事が出来る。以来、コンピュータの高速化と機械学習技術の進歩と共に、線画解釈(1970年代)、人手によるルール幾何形状モデルによって構築された知識データベースに基づく認知モデル3次元モデル表現(1980年代)といった研究が漸次行われる様になった。1990年代に入ると、特に顔画像の認識や学習による認識に関する研究が盛んになった。2000年代になると、コンピュータの処理能力の一層の向上により、統計処理機械学習の為に必要となる膨大な計算処理が比較的安価に実行可能になった為、一般物体認識に関する研究が進んだ。一般物体認識とは、実世界のシーン撮影した画像に対して、コンピュータがその画像中に含まれる物体を一般的な名称で認識する技術である。1980年代には、全て人手によってルールやモデルの構築を試みていたが、大量のデータを手軽に扱える様になったこの時期には、コンピュータを活用した統計的機械学習によるアプローチが注目され、近年の一般物体認識ブームのきっかけとなった。一般物体認識技術によって、画像に対するキーワードを対象画像に自動的に付与する事が可能になり、画像をその意味内容によって分類及び検索する事も可能になる。近い将来には、コンピュータによって全ての人間の画像認識機能を実現する事が目標とされている(非特許文献1)。一般物体認識技術は、画像データベースからのアプローチと統計的確率手法の導入によって急速に進歩した。その中でも先駆的な研究として、画像に人手でキーワードを付与したデータから個々の画像との対応付けを学習し物体認識を行なう手法(非特許文献2)や、局所特徴量に基づく手法(非特許文献3)等がある。また、局所特徴量による特定物体認識に関する研究にSIFT法(非特許文献4)、及びVideo Google(非特許文献5)等がある。その後、2004年に入り、「Bag−of−Keypoints」あるいは「Bag−of−Features」と呼ばれる手法が発表された。この手法は、対象となる画像をビジュアルワード(visual word)と呼ばれる代表的な局所パターン画像片集合として扱い、その出現頻度多次元ヒストグラムで表現する。具体的には、SIFT法に基づいた特徴点抽出を行い、予め求められた複数のビジュアル・ワードに基づいてSIFT特徴ベクトルベクトル量子化し、画像毎にヒストグラムを生成するものである。この様に生成されたヒストグラムの次元数は、通常、数百から数千次元スパース(sparse)なベクトルになる。そして、これらのベクトルは、コンピュータ上の多次元ベクトルの分類問題として高速に処理される事により、一連画像認識処理が行われる(非特許文献6)。

これらコンピュータによる画像認識技術の進展に伴い、カメラ付きネットワーク端末で撮影した画像を、ネットワーク経由でサーバ側に構築された画像認識システム側に問い合わせ、当該サーバ側に蓄積された膨大な画像データベースを基に、当該画像認識システム側がそれらの画像と、予め学習済みの物体毎の特徴を記述した画像特徴データベース群とを比較照合する事で、アップロードされた画像に含まれる主要な物体を画像認識し、その認識結果を前記ネットワーク端末側に速やかに提示するサービスが既に始まっている。画像認識技術の中でも特定の人間の顔の検出技術は、個々人を特定する手法の一つとして急速に応用開発が進んでいる。多数の顔画像の中から特定の人物の顔を精度良く抽出する為には、膨大な顔画像の事前学習が必要となる。その為に準備しなくてはならない知識データベースの量も極めて大きくなる事から、或る程度大規模な画像認識システムの導入が必要になる。一方、電子カメラにおけるオートフォーカスに用いられる様な一般的な「平均顔」の検出、或いは限られた人物の顔の特定であれば、電子カメラ等の小型の筐体内に十分収まる規模のシステムで今や容易に実現が可能である。また、近年供用が始まったインターネットを利用した地図提供サービスの中で、地図上の要所々々における路上写真(Street View)を居ながらにして俯瞰する事が出来る様になった。この様なアプリケーションでは、プライバシー保護の観点から偶然写り込んだ自動車ナンバープレート歩行者の顔、或いは道路越しに見えてしまう個人宅の様子等を、一定以上判別出来ない程度にフィルタ処理して再表示する必要性も出て来ている(非特許文献7)。

近年、現実空間拡張して、コンピュータによる情報空間としてのサイバー空間とを相互に融合しようとする拡張現実感(Augmented Reality:略称AR)というコンセプトが提案され、既に一部のサービスが始まっている。一例として、GPSや無線基地局等から取得可能な位置情報を利用した三次元位置測位システム、カメラ、及び表示装置等を一体として備えたネットワーク携帯端末を用い、上記三次元位置測位システムから割り出した自身の位置情報を基に、カメラで撮影した現実世界映像と、サーバ上にデジタル情報として蓄積されている注釈アノテーション:Annotation)とを重ね合わせ、サイバー空間に浮かぶエアタグ(Airtag)として現実世界の映像に貼り付ける事が可能になっている(非特許文献8)。

1990年代後半になると、通信ネットワークインフラ整備拡張に伴い、インターネット上に構築されたユーザ相互社会的関係を促進する目的で、ソーシャルネットワークに係るサイトが数多く開設され、数々のソーシャルネットワーキング・サービス(SNS)が生まれた。SNSにおいては、ユーザ検索機能メッセージ送受信機能、掲示板等のコミュニティ機能によって、ユーザ間のコミュニケーション有機的に促進される。例えばSNSのユーザは、趣味・嗜好を同じくするユーザが集う掲示板に積極的に参加して、文書や画像、音声等のパーソナル情報交換し、また自分の友人を他の知人紹介する事等により、人と人との相互の繋がりをさらに深め、ネットワーク上でコミュニケーションを有機的かつより広範に広げていく事が出来る。

SNSにおけるサービスの一形態として、ネットワーク上にアップロードされた動画を複数のユーザが選択共有し、当該動画シーン上の任意の位置にユーザが自由に当該動画内容に関連するコメントをアップロードする事を可能にし、それらコメント群を当該動画面上にスクロール表示する事で、複数のユーザ間で当該動画を媒介とした共有コミュニケーションを図る事が可能なコメント付き動画配信システムがある(特許文献2)。当該システムは、コメント情報コメント配信サーバから受信し当該共有動画再生を開始すると共に、当該コメント情報から再生する動画の、特定の動画再生時間に対応するコメントをコメント配信サーバから読み出し、読み出したコメント群に対応付けられた動画再生時間に、当該動画と共にそれらコメント群を表示可能にする。併せて、それらコメント情報をリストとしても個別に表示可能にし、表示されたコメント情報から特定のコメントデータが選択されると、選択されたコメントデータのコメント付与時間に対応する動画再生時間から当該動画を再生し、読み出したコメントデータを表示部に再表示させる。また、ユーザによるコメントの入力操作を受け付けて、コメントが入力された時点の動画再生時間をコメント付与時間として、コメント内容と共に前記コメント配信サーバに送信する。

SNSの中でも、ネットワーク上で交換可能な情報パケットサイズを大幅に限定する事で、コミュニケーションのリアルタイム性をより重視しようという動きもある。これらマイクロブログとも呼ばれるユーザの短いつぶやきや、それらに関連するURL等のアドレス情報を埋め込んだ140文字以内の文字データを、当該ユーザがインターネット上にリアルタイム且つ広範に発信する事で、当該ユーザのその時々体験を当該ユーザの文字によるつぶやきのみならず、画像や音声データを加えた一体的な情報として広範なユーザ間で共有可能にし、さらにユーザがそれらつぶやきの中から特定の発信者や特定の話題を選択してフォローする機能も提供する事で、地球規模でのリアルタイム・コミュニケーションを喚起するサービスが既に始まっている(非特許文献9)。

ネットワークを介した情報サービスとは異なるものの、特定の対象に対峙した時に当該対象に関する詳細な音声説明受取る事が出来るサービスとして、博物館美術館の「音声ガイド」システムがある。これらは、対象となる絵画等の近傍に設置された音声信号送出部から送出される赤外線変調された音声信号を、それら対象物近接したユーザの端末装置に組込まれた赤外線受信部で復調し、当該ユーザのイヤフォンに当該絵画等に係る詳細な説明を音声として提供するもので、この方式以外にも極めて指向性の高い音声トランスミッターを用いて、ユーザの元に直接当該音声情報送り込める様な音声ガイドシステムも実用化されている。

コンピュータ・システムに対する音声による情報入力コマンド入力方法として、ユーザの発話音声音声言語として認識し、テキストデータや各種のコンピュータコマンドに変換して入力処理する技術がある。当該入力処理には高速の音声認識処理が必要となるが、これらを可能にする音声認識技術群として、音響処理技術、音響モデル作成適応化技術、適合・尤度演算技術、言語モデル技術、対話処理技術等があり、これらの要素技術をコンピュータ上で組み合わせる事で、近年では十分実用に耐える高速の音声認識システムが構築可能となっている。近年では、大規模語彙連続音声認識エンジンの開発によって、ユーザにより発話される音声言語認識処理を、ネットワーク端末上でほぼ実時間で処理する事も可能となっている。

音声認識技術の研究の歴史は、1952年に米国のベル研究所でのゼロ交差回数を用いた数字認識の研究に始まり、1970年代に入ると発声時間の長さの変動を、動的計画法を用いて非線形正規化する手法(Dynamic Time Warping)が日本及びロシア研究者によって提案され、米国においても統計確率的手法であるHMM(Hidden Markov Model:隠れマルコフモデル)を用いた音声認識基礎的な研究が進んだ。現在では、利用者の音声の特徴を適応的に学習させる事より、明瞭な発声で読み上げられた文章をほぼ完全に口述筆記する事が可能なレベルにまで到達している。この様な高度の音声認識技術を応用した従来技術として、会議による発言音声を入力とする話し言葉から、文語としての議事録自動作成する技術も開発されている(特許文献3)。

すわなち、特許文献3に開示された技術は、音声を入力して文書情報を作成し出力する音声文書変換装置であり、文書情報出力を受信して画面に表示する表示装置を備え、この音声文書変換装置が、入力する音声を認識する音声認識部と、入力音声漢字仮名混じりの文語に変換する変換テーブルと、前記音声認識部から認識した音声を受信して整列させ前記変換テーブルを検索して文語に変換し所定の書式で文書に編集する文書形成部と、この編集済み文書記憶保存する文書メモリと、この保存された文書情報を送信すると共に他の情報・信号を前記表示装置との間で授受する送受信部とを有し、かつ前記表示装置が前記音声文書変換装置の送受信部との間で情報・信号を送受信する送受信部と、受信した文書情報を表示情報として記憶する表示情報メモリと、この記憶する表示情報を画面表示する表示盤とを有する事を特徴としている。

また、コンピュータ上の文字情報からなる文章を、指定された言語で流暢に読み上げる音声合成システムは、近年最も進化の進んでいる領域の一つである。音声合成システムは、スピーチシンセサイザー(Speech Synthesizer)とも呼ばれ、テキストを音声に変換するテキスト読み上げシステムや、発音記号を音声に変換するシステム等を含む。歴史的には、1960年代末以降、コンピュータによる音声合成システムの開発が進んだものの、初期のスピーチ・シンセサイザーによる発声はいかにもコンピュータによる音声だと感じさせる人間味のない無機質なものが多かった。以降研究が進むにつれ、後述する様に、場面、状況、前後の文脈関係により声の抑揚調子を自在に変化させる事が出来る様になり、人間の肉声と比べてほとんど遜色がない高品質音声合成が可能になっている。特に、サーバ側に構築された音声合成システムは、膨大な辞書を活用可能なばかりではなく、その発声アルゴリズム自体も人間に近い複雑な発音が可能な様に多数のデジタルフィルタ類を組み込む事も可能になり、ネットワーク端末機器の急速な普及に伴い、近年その応用可能な範囲が一段と拡大している。

音声合成技術には、大きく分けてフォルマント合成と連結的合成とがある。フォルマント合成では、人間の音声を使用する事なく周波数や音色等のパラメータをコンピュータ上で調整して人工的な合成波形を生成する。これらは一般的に人工的な音声として聞こえる場合が多い。一方で連結的合成では、基本的に人間の音声を収録して、その音素断片等を滑らかに連結して肉声に近い音声を合成する方法である。具体的には、一定時間収録された音声を「音」「音節」「形態素」「単語」「成句」「文節」等に分割してインデックス化し、検索可能な音声ライブラリ群を作成する。こうした音声ライブラリは、テキスト読み上げシステム等により音声を合成する際に、適宜最適な音素や音節等が抽出され、適切なアクセントと共に最終的に人間の発話に近い流暢な一連の音声に変換される。

係る従来技術に加え、声調機能を備えたテキスト読み上げシステム等の開発により、バリエーションに富んだ音声を合成する技術も続々実用化されている。例えば、高度な音声編成システムによって、アクセント調整や音の高低・長さの調整を行う事によって、「うれしさを伴った声」「悲しみを伴った声」「怒りを伴った声」「冷たさを伴った声」等の感情の抑揚を調整する事が出来る他、音声編成システムが備えるデータベース登録された特定の人のクセを反映した音声を、これらシステム上で自在に合成する事も出来る様になっている。

また、上述した音声合成についての先行技術に、合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を自然に結合させる技術も提案されている(特許文献4)。

即ち、特許文献4に開示された技術は、録音音声格納手段、入力テキスト解析手段、録音音声選択手段、接続境界算出手段、規則合成手段、接続合成手段に加えて、合成音声区間のうちで録音済みの肉声と部分的に一致する区間を決定する肉声韻律区間決定手段と、その一致部分の肉声韻律を抽出する肉声韻律抽出手段と、抽出された肉声韻律を使って合成音声区間全体の韻律情報を生成する、ハイブリッド韻律生成手段を備える事を特徴としている。

概要

広範なソーシャル・コミュニケーションを喚起する。インターネットに接続可能なネットワーク端末に接続され、ユーザの頭部に装着可能なヘッドセットシステムから得られるユーザの主観的な視野等を反映した画像、及び音声信号を、ネットワーク端末経由で知識情報処理サーバシステムにアップロードし、画像に内包されているユーザが着目した特定物体等に対し、音声認識システムとの協調動作により、ユーザ自身の音声による着目対象の指定、選択等を、サーバシステム上で可能にし、ユーザによる一連の画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、サーバシステム側がインターネットを介し、ユーザのネットワーク端末経由で、画像認識結果及びその認識プロセスをユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として通知し、ユーザのメッセージやつぶやきを広範なユーザ間で共有可能にする。

目的

近年のインターネットの世界的な普及により、ネットワーク上の情報量が急激に増大しつつある事から、それら膨大な量の情報の海の中から目的とする

効果

実績

技術文献被引用数
2件
牽制数
2件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

インターネット接続可能なネットワーク端末に対し、有線或いは無線で接続可能な多機能入出力デバイスであって、少なくとも一以上のマイクロフォン、一以上のイヤフォン、一以上の画像撮像素子カメラ)を一体として有する、ユーザの頭部に装着可能なヘッドセットシステムから得られる当該ユーザの主観的な視野、及び視点を反映した画像、及び音声信号を、前記ネットワーク端末経由でインターネット上の画像認識システムを備えた知識情報処理サーバシステムアップロード可能にし、当該画像に内包されている当該ユーザが着目した特定物体一般物体、人、写真、或いはシーンに対し、音声認識システムとの協調動作により、当該ユーザ自身音声による当該着目対象の指定、選択、及び抽出操作を、インターネット経由で前記画像認識システムとの協調動作により可能にした上で、当該ユーザによる上記一連画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、前記画像認識システムを備えた知識情報処理サーバシステムが、インターネットを介し、当該ユーザのネットワーク端末経由で、当該画像認識結果及びその認識プロセスを当該ユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として、及び/又は、当該ユーザのネットワーク端末に音声及び画像情報として通知する事を可能にし、当該画像認識可能になった対象に対し、当該ユーザが自らの声で語りかけたメッセージつぶやきを、前記音声認識システムとの協調動作により前記知識情報処理サーバシステムがその内容を分析分類蓄積し、それらメッセージやつぶやきをインターネット経由で、同様の対象を目にした自らを含む広範なユーザ間で共有可能にする事で、多数のユーザの視覚的な好奇心に端を発する広範なネットワークコミュニケーションを誘発させると共に、それら広範なユーザ間のコミュニケーションを、前記知識情報処理サーバシステム側で統計的に観察・蓄積・解析する事で、当該ユーザ特有の、或いは特定のユーザ群特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範な「ユーザ」群、抽出可能な「キーワード」群、及び様々な着目「対象」に係るノード間を繋ぐ動的なインタレストグラフとして獲得可能にする、画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム

請求項2

インターネットに接続可能なネットワーク端末を介して、ユーザが前記画像認識システムを備えた知識情報処理サーバシシテムに向けアップロードした写真、或いは動画に対し、当該画像全体、或いは当該画像に内包されている当該ユーザが着目した特定物体、一般物体、人、或いはシーンに係る選択抽出処理を、前記ネットワーク端末上のGUI操作、及び/又は、前記請求項1に記載の音声入力操作により可能にし、当該画像全体、或いは当該抽出された対象に対し、前記画像認識システムを備えた知識情報処理サーバシステムが画像認識した結果を、当該入力画像と共に当該ユーザを含む予め指定可能な広範なユーザ間で共有可能にする事で、当該画像認識可能になった対象に対し、当該ユーザによる文字情報による書き込み、及び/又は、当該ユーザが自らの声で語りかけたメッセージやつぶやきを、前記音声認識システムとの協調動作により前記画像認識システムを備えた知識情報処理サーバシステムがその内容を分析・分類・蓄積し、そこから抽出可能な当該対象に係るキーワード群、及び/又は、時空間情報を基に、ユーザによる指定可能な特定の対象の選択、指定可能な任意の時空間の選択、或いはそれらの組み合わせを可能にする事で、当該抽出された対象、或いは特定の時空間における前記入画像群に係る広範なネットワーク・コミュニケーションを誘発させると共に、それら広範なユーザ間のコミュニケーションを、前記画像認識システムを備えた知識情報処理サーバシステム側で統計的に観察・蓄積・解析する事で、当該ユーザ特有の、或いは特定のユーザ群に特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範な「ユーザ」群、抽出可能な「キーワード」群、及び様々な着目「対象」に係るノード間を繋ぐ動的なインタレストグラフとして獲得可能にする、画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項3

前請求項2においてアップロードされた写真、或いは動画の中から、前記画像認識システムを備えた知識情報処理サーバシステムにより抽出可能になった当該画像に係るキーワード群、及び/又は、時空間情報を基に、前記画像認識システムを備えた知識情報処理サーバシステムが同一の時空間内に撮影されたと推定可能な画像群を選択抽出し、それら複数の画像群に含まれる検出可能な画像構成要素群の中から特徴的な画像構成要素群を抽出し、それらを基に前記複数の画像群を構成要素とする広視野画像として繋ぎ合わせる、或いは複数の類似画像を集めた当該時空間に係るアルバムに生成する事を可能にする事で、ユーザが設定可能な任意の時空間内における視覚的な体験に端を発した、当時空間内の様々な対象に係るユーザの文字による書き込みや、音声によるメッセージやつぶやきを、同様の時空間を選択した複数のユーザ間で共有可能にする事で、多数のユーザの広範なネットワーク・コミュニケーションを誘発させる事が可能な、請求項2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項4

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが着目している、或いは着目した特定物体、一般物体、人、写真、或いはシーンに対し、当該ユーザが残したメッセージやつぶやきを、当該ユーザが指定する特定の時間或いは時間帯、及び/又は、当該ユーザが指定する特定の場所や地域において、当該ユーザが指定する自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体、或いは前記知識情報処理サーバシステムが抽出する特定のユーザ、或いは特定のユーザ群、或いはユーザ全体を対象に、音声情報として残す事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項5

前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体が、その着目対象である特定物体、一般物体、人、写真、或いはシーンに対して残した前記メッセージやつぶやきに対し、それらの受領対象となるユーザを、当該メッセージやつぶやきを残したユーザ自身により指定可能に構成する事で、当該対象に偶然遭遇した上記メッセージやつぶやきの受領対象である、特定のユーザ、或いはユーザ群、或いはユーザ全体に対し、当該メッセージやつぶやきを残したユーザ自身により指定可能な時空間内に限定して、インターネット経由で、当該メッセージやつぶやきを、当該受領対象ユーザが装着するヘッドセットシステムに対し音声情報で、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し音声情報及び画像情報として受取る事が可能な、請求項4に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項6

前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体が、その着目対象である特定物体、一般物体、人、写真、或いはシーンに対して残した前記メッセージやつぶやきに対し、当該メッセージやつぶやきを残したユーザが指定した時空間内に限らず、前記メッセージやつぶやきの受領対象となる上記ユーザによる任意の時空間選択指定を可能にした上で、インターネット経由で、当該メッセージやつぶやきを、当該受領対象ユーザが装着するヘッドセットシステムに対し音声情報で、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し音声情報及び画像情報として受取る事が可能な、請求項4に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項7

前記ネットワーク・コミュニケーションシステムにおいて、前記メッセージやつぶやきの受領対象となったユーザが、再び異なる時空間内において同一の対象に遭遇した場合に、同様のメッセージやつぶやきを再び繰り返す事無く、以前に当該ユーザが受取ったメッセージやつぶやきの続きから、或いはそれ以降に加わった新たなメッセージやつぶやきを加えて受取る事が可能な、請求項4に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項8

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが装着するヘッドセットシステム、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し送り込まれた前記メッセージやつぶやきに対し、ユーザの着目対象である特定物体、一般物体、人、写真、或いはシーンに向かい音声で話しかける事で、前記画像認識システムを備えた知識情報処理サーバシステムが、その音声内容を前記音声認識システムとの協調動作により認識し、その応答候補として、当該対象に係るさらに詳細な情報、或いは特定のユーザやユーザ群が指定可能な言語で発した一連のメッセージやつぶやき、特定のトピックス、当該対象に係る広告告知等を、当該ユーザに係るインタレストグラフを基に様々な話題を選択抽出し、当該ユーザが装着するヘッドセットシステム、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し、ネットワーク上の自動翻訳システム、及び前記音声合成システムとの協調動作により、当該ユーザが指定した言語でインタラクティブ応答する事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項9

前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いはユーザ全体が、その着目対象である特定物体、一般物体、人、写真、或いはシーンに対して残した前記メッセージやつぶやきの中から、特定の主題や話題を前記音声認識システム、および前記画像認識システムを備えた知識情報処理サーバシステムとの協調動作により抽出し、その結果を、上記関連要素群それぞれをノードとするインタレストグラフとして学習の上で生成・蓄積した上で、ユーザが視覚的な関心を持った対象に係る様々なユーザ間のメッセージやつぶやきに含まれる特定の、特異的な、或いは共通したコメントノード群として抽出し、前記インタレストグラフを基にそれら抽出された各ノード群を中心とする部分グラフを生成し、それら部分グラフの中から、当該ユーザ固有のインタレストグラフを基にさらに選択抽出した話題を、前記音声合成システムとの協調動作により、当該ユーザが装着するヘッドセットシステム、及び/又は、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に対し音声、及び/又は、画像、図形、イラスト、或いは文字情報で送り込む事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項10

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが着目した特定物体、一般物体、人、写真、或いはシーンを、ネットワーク経由で前記画像認識システムを備えた知識情報処理サーバシステムに問い合わせた結果「不明」となった場合、当該対象に対し当該ユーザが音声で残したメッセージやつぶやき、或いは質問等に対し、他のユーザが音声、或いは文字情報により当該対象の推定もしくは詳細な説明をネットワーク経由で当該ユーザ、或いは関心のある他のユーザ群に通知し共有する事を可能にする事で、ユーザの視覚的好奇心から発した広範なユーザ間のコミュニケーションを喚起すると共に、前記知識情報処理サーバシステム側が、それら広範なユーザ間のコミュニケーションから、当該対象に係る新たな情報をノード及び他の関連するノード間のリンクとして抽出し、当該情報が正しい場合は、前記知識情報データベース内の構成要素である前記インタレストグラフに対して新規登録、追加、或いは更新処理可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項11

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが予め指定した発見対象である特定物体、一般物体、人、写真、或いはシーンを、当該ユーザのヘッドセットシステムに装着したカメラが偶然捉えた場合、当該ヘッドセットシステムに有線或いは無線で接続されているユーザのネットワーク端末に向け、前記画像認識システムを備えた知識情報処理サーバシステム側からダウンロード可能な特定画像検出フィルタが、当該対象に係る初期的な画像特徴抽出・画像推定処理を行い、その結果としてさらに詳細な画像認識処理が必要となった場合に、ネットワーク経由で前記画像認識システムを備えた知識情報処理サーバシステムに問い合わせる事で、当該対象を最終的に認識・確認し、その結果をネットワーク経由で、前記ヘッドセットシステムを装着した当該ユーザのイヤフォンに音声情報で、及び/又は、ユーザのネットワーク端末には、画像・文字を含む詳細な情報として通知する事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項12

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが指定可能な特定物体、一般物体、人、写真、或いはシーン等の捜索対象に対し、過去に当該対象に遭遇した、或いは偶然目にした時空間履歴を、ネットワークを経由して前記画像認識システムを備えた前記知識情報処理サーバシステムに問い合わせる事により、最後に当該対象を目にした時空間情報を含む詳細情報を、前記画像認識システムを備えた知識情報処理サーバシステムからネットワーク経由で当該ユーザのヘッドセットシステム、及び/又は、当該ユーザのネットワーク端末に対し、音声、文字、写真、或いは図形情報で通知する事で、当該対象に関する前記画像認識システムを備えた知識情報処理サーバシステム側の視覚的な記憶による捜索を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項13

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが関心を持った着目対象がどの様な特徴を有しているか、及び/又は、どの様な位置関係にあるか、及び/又は、どの様な運動状態にあるかを、前記画像認識システムを備えた知識情報処理サーバシステム側に明示的に指し示す手段として、当該ユーザの音声による対象の指定(ポインティング)操作を可能にし、当該ユーザとの音声によるインタラクティブなコミュニケーションにより、前記画像認識システムを備えた知識情報処理サーバシステム側が、当該ユーザが音声で指し示した当該対象を言い表す上記特徴群を基に、前記画像認識システムとの協調動作により、当該着目対象を抽出・認識し、当該認識結果に対する再確認を、当該ユーザが前記画像認識システムを備えた知識情報処理サーバシステムに対し音声で指し示した上記特徴以外に、ユーザのヘッドセットシステムが捉えたユーザの主観的視野を反映したカメラ映像を基に、前記画像認識システムを備えた知識情報処理サーバシステムが当該対象に共起する新たな物体事象を抽出し、それら当該対象をさらに正確に言い表す事が可能な共起事象として当該ユーザが音声で示した上記特徴群に加えた一連の記述として生成し、それらの記述を一連の文章として再構成した後に、前記音声合成システムとの協調動作により、当該ユーザに対し音声で「再確認」を求める事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項14

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが関心を持った着目対象を、インターネット経由で前記画像認識システムを備えた知識情報処理サーバシステム側に選択指定する手段として、ユーザ自ら指先による操作で、当該対象となる特定物体、一般物体、人、写真、或いはシーンが存在する方向を指し示す、或いは当該対象に指先で直接触れる事により、前記ユーザのヘッドセットシステムに組み込まれたカメラが、当該ユーザによる前記選択操作を逐次観察し、それらの選択操作映像をインターネット経由で前記知識情報処理サーバシステムに組込まれた画像認識システム、或いは前記ユーザのネットワーク端末に組込まれた画像認識エンジンに逐次入力する事で、ユーザが指し示した対象を推定し、その結果を、前記画像認識システムを備えた知識情報処理サーバシステム側が当該ユーザとの音声によるインタラクティブなコミュニケーションの結果、当該ユーザに対して音声による再確認を求める事で最終的に当該対象を決定可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項15

前記ネットワーク・コミュニケーションシステムにおいて、ユーザの頭部に装着可能な前記ヘッドセットシステムに一体となって組込まれた、ユーザの眼前に配置されたトランスミッター部から放射される光を、ユーザの瞳、及び/又は、網膜に向けて照射し、その反射光を前記トランスミッター部と一体となったレシーバ部で計測する事で、ユーザの眼球動き直接検出可能にすると共に、当該ユーザの視線の先にある着目対象を当該ユーザが注視した時に、前記検出された視点位置に関してユーザが意識している当該着目対象位置と重なる様に、前記音声認識システムとの協調動作により、前記画像認識システムを備えた知識情報処理サーバシステム側が、当該ユーザとのインタラクティブな音声によるコミュニケーションの結果、視点位置のキャリブレーションを行う事で、当該ユーザの着目対象へのポインティング指示を正確に行う事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項16

上記ポインティング操作において、ユーザの音声による指示、指による指示、或いは視線方向による指示により選択可能になった対象に対し、前記ネットワーク上に構築された画像認識システムを備えた知識情報処理サーバシステムとの協調動作により、対象となる特定物体、一般物体、人、写真、或いはシーンの名称、遭遇した時空間情報、ユーザ情報、及び対象画像情報を、前記サーバ側で、当該ユーザの着目対象、及び着目対象係る付帯情報として蓄積・解析・参照可能な、請求項13から請求項15のいずれか一項に記載の画像認識システムを備えた、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項17

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが眼前の対象に関心を持った可能性がある事を、インターネット経由で前記知識情報処理サーバシステム側に喚起する手段として、当該ユーザが装着する前記ヘッドセットシステムに組込まれたカメラ、加速度センサ、及び/又は、方位センサからの値を前記ネットワーク端末側で逐次観測し、当該ヘッドセットシステムを装着しているユーザの頭部が動いている状態から予め既定される静止状態に入ったと判断された時、当該ユーザが何か特定の対象を注視しようとしている可能性があると判断し前記画像認識システム、及び前記音声認識システムに対する接続準備を自動的に行う事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項18

前記ネットワーク・コミュニケーションシステムにおいて、ユーザの頭部に装着可能な前記ヘッドセットシステムに、地球上における位置情報、及び当該ユーザの頭部が向いている方位情報を検出するセンサ群を組込み、それら検出された位置情報及び方位情報を、当該絶対時間と共に前記画像認識システムを備えた知識情報処理サーバシステムに通知する事で、前記ヘッドセットシステムに組込まれたカメラからの映像と、実際の地球上の位置情報、及び時間軸情報との整合性を基に、当該対象の存在適合性を検証し、それらが存在する位置及び方位精度較正可能にすると共に、前記画像認識システムを備えた知識情報処理サーバシステム側のデータベース内に存在しない建造物看板、不審な物体等を発見した場合、速やかに関連する情報をインターネット経由で収集し、その結果、当該データベースへの記載内容の更新妥当であると判断される場合は、速やかに更新処理を行い、引き続き不明な場合には、当該検出されたロケーションの近傍にいる他のユーザ群に対し、検証の為に当該対象に係る新たな画像群の送信を促す事で、追加的な情報を収集すると共に、広範なユーザ間のさらなるネットワーク・コミュニケーションを誘発可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項19

前記ネットワーク・コミュニケーションシステムにおいて、ユーザの頭部に装着可能な前記ヘッドセットシステムに、ユーザ認証の為の生体認証バイオメトリクスセンサを一体として組み込み、当該ヘッドセットシステムを装着したユーザ固有の生体識別情報を、前記ネットワーク端末経由でインターネット上の生体認証システムに問い合わせる事で、当該ユーザと当該ヘッドセットシステムとの紐付けを可能とし、その上で当該ヘッドセットシステムの着脱を、当該ヘッドセットシステム及び前記サーバ側で常時監視する事により、当該ヘッドセットシステムの装着不具合、或いは他のユーザによる不正な装着、さらには不正利用を防止する事を可能とする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項20

前記ネットワーク・コミュニケーションシステムにおいて、ユーザの体温心拍血圧脳波呼吸、眼球の移動、発声、体の動き等の生体情報バイタルサイン)を前記ヘッドセットシステムに組込まれたセンサ群で逐次計測・収集・解析し、当該ヘッドセットシステムを装着したユーザの主観的な視野を反映したカメラ映像内に、特定の物体、特定の一般物体、特定の人、特定の写真、或いは特定のシーンを捉えた時点で、それら観測可能なバイタルサインの値が急変した場合、ネットワークを経由してサーバ側の画像認識システムを備えた知識情報処理サーバシステムが、当該ユーザに関わる特異的な反応として当該時点でのデータの詳細な収集・蓄積・解析、及び初期的な原因の推定を行う事を可能にすると共に、以降、類似の状況にユーザが遭遇する可能性が高まった場合、或いは当該ユーザが係る対象に実際遭遇した場合、前記画像認識システムを備えた知識情報処理サーバシステム側から当該ユーザに対し、ネットワークを介して音声、及び/又は文字、バイブレーション等による情報で速やかに通知する事を可能にすると共に、観測可能なバイタルサイン値の所定以上の急変に対し、ユーザの容体に一定以上の危機の可能性が疑われる場合は、当該ユーザに対し緊急状態確認通知発行すると同時に、その結果、当該ユーザから一定の反応がない場合に自動的に当該状況を所定の宛先に通知可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項21

前記ネットワーク・コミュニケーションシステムにおいて、複数のユーザ間で共有可能な画像情報に関し、プライバシー保護の観点から、人物を特定可能な顔を含む身体の特徴的な部分、及び/又は、反社会的、反人道的、反人間的と判断される特定物体、一般物体、写真、或いはシーンに関し、前記サーバ側に構築された画像認識システムを備えた知識情報処理システムが、自動的かつ速やかに当該対象に対し、自動的に判別不能なレベルにまでフィルタ処理する、或いは当該画像全体の閲覧制限を行う事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項22

前記ネットワーク・コミュニケーションシステムにおいて、自らを含む特定のユーザ、或いは特定のユーザ群、或いは不特定のユーザが、当該特定物体、一般物体、人、写真、或いはシーンに対して残したメッセージやつぶやきに対して、当該メッセージやつぶやきを残したユーザを識別する情報を、前記ヘッドセットシステムに組み込まれたマイクロフォン経由によるユーザの音声による操作、或いはユーザのネットワーク端末上の操作により、当該メッセージやつぶやきを残したユーザが設定可能な対象範囲の中で、前記画像認識システムを備えた知識情報処理サーバシステム側からインターネット経由で、当該対象ユーザのヘッドセットシステム、及び/又は、当該対象ユーザのネットワーク端末に対し、音声、文字、写真、或いは図形で通知する事を可能とする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項23

前記ネットワーク・コミュニケーションシステムにおいて、ユーザとの生体認証の結果、前記知識情報処理サーバシステムと紐付けされたユーザ固有のヘッドセットシステムを装着した複数のユーザ間で、単一の或いは複数のネットワーク端末群を共有可能にする協調動作に関し、各々のユーザと共有ネットワーク端末との間のローカルな紐付けを、当該共有ネットワーク端末上に表示された認識マーカー、及び/又はその近傍に置かれた特定の画像情報を基に、ユーザ毎のヘッドセットシステムに組み込まれたカメラがそれらの形状と位置情報を逐次読み取る事により、各ユーザのヘッドセットシステムの撮像視野のキャリブレーション、及び共有ネットワーク端末との間の相互の紐付けを個々のネットワーク端末側で可能とし、その上で当該ネットワーク端末が各々のユーザの位置関係を検出し、複数のユーザによる共有ネットワーク端末に対する入力操作を、夫々のユーザ固有の入力操作として認識可能とすると共に、当該共有ネットワーク端末に組み込まれた表示デバイス上において、各々のユーザの位置関係に即した個別情報表示を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項24

前記ネットワーク・コミュニケーションシステムにおいて、ユーザのヘッドセットシステムに組み込まれたカメラから撮影中の映像を基に、ユーザのネットワーク端末側に前記サーバ側から設定可能な状態で組み込まれた特定画像パターン検出フィルタが、ユーザの主観的な視野内にある特定の画像パターン、或いは特定の時間変調された画像パターンを送出している表示ディスプレイを検出し、その場所と方向を当該ユーザのヘッドセットシステム経由で、当該ユーザのヘッドセットシステムに組込まれたイヤフォンに音声情報で通知すると共に、当該ユーザの視野内に入った当該表示ディスプレイ上に表示されている当該画像情報に関連する音声情報を、同じくインターネット経由で自動的に送り込む事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項25

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能なヘッドセットシステムに、2台以上の撮像視差を有するカメラ、及び/又は対象物体までの深度(距離)を測定可能三次元カメラ組込む事で、空間の把握、及び物体の立体形状の把握を容易にし、その上で前記画像認識システムを備えた知識情報処理サーバシステム側からユーザのヘッドセットシステムに組込まれたイヤフォンに向けて、当該ユーザに様々な角度から当該対象や周囲の状況を撮影させる指示を音声情報で対話的に送る事で、当該対象の立体的な把握を効果的に行う事が可能になると同時に、前記画像認識システムを備えた知識情報処理サーバシステム内のデータベースとの照合をより正確に行う事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項26

前記ネットワーク・コミュニケーションシステムにおいて、ユーザのヘッドセットシステムに組み込まれたユーザの主観的視野を反映したカメラからの映像を基に、前記知識情報処理サーバシステム側に構築された画像認識システムが、異なる視点位置から撮影された複数の画像フレーム中に含まれる同一物体に含まれる画像特徴点毎の相互画像フレーム間対応関係フレーム毎に検出・評価する事により、視点の違いによるそれら検出された相互の画像特徴点の相互位置関係をカメラの撮像画像面に対する透視変換から対応付け、特定の領域に含まれる本来立体であるべき物体が、当該透視変換に伴うべき視点移動変移を起こさず、当該閉領域内各特徴点平行移動する場合は、当該閉領域に存在する対象は平面内に収まっていると見做し、当該領域を平面的な印刷物や写真である可能性が高いと推定する、或いは画像の奥行き情報を直接検出可能な前記撮像システムからの画像である場合、同一平面上に本来立体であるべき物体やシーンの特徴点が存在する場合は、同様に当該閉領域が平面的な印刷物や写真である可能性が高いと推定する、或いは特定の領域に存在する物体のスケールが周囲の物体と大幅に異なる場合に、当該特定の領域が建物の窓ではないと明らかに判断可能な場合、それらを平面的な広義の写真として画像認識する事を可能とする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項27

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能なヘッドセットシステムに、全周囲、或いはユーザの後方を撮影する事が可能なカメラシステムを組込む事で、当該ヘッドセットシステムが接続されたユーザのネットワーク端末、及びインターネット経由で前記画像認識システムを備えた知識情報処理サーバシステムに、それらユーザの視野外となる撮像画像をアップロードする事で、認識可能になった様々な対象画像の中で、当該ユーザが特に関心或いは注意を払わなければならない予め登録可能な物体、人物、或いはシーンが発見された場合、速やかに音声、又は/及び、バイブレーション機能、或いはそれに代わる手段により、ユーザにかかる事態を通知する事を可能にする、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項28

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能なヘッドセットシステムに物体との相対距離直接測定する深度センサを組込む事で、ユーザに所定の距離、及び/又は速度で近付く人間を含む生体、或いは物体の移動を検知し、ユーザに音声で係る状況を速やかに通知すると共に、前記ヘッドセットシステムに組込まれたカメラを自動的に起動し、インターネット経由で前記画像認識システムを備えた知識情報処理サーバシステムに問い合わせ可能にする事で、ユーザに近付く対象を、前記サーバ側で解析し、その結果を音声、又は/及びバイブレーション機能、或いはそれに代わる手段によりユーザに速やかに通知する事が可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項29

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能な前記ヘッドセットシステムに、周囲の明るさ、照明外光色温度環境騒音、周囲の音圧レベルを検出するセンサ等の環境センサを組込む事で、当該ユーザのヘッドセットシステムに組み込まれたカメラからの映像、及びマイクロフォンからの音声入力信号自動調整し、当該環境下で最適な画像・音声品位を確保可能にする事で、前記知識情報処理サーバシステムに組み込まれた画像認識システムの認識精度を、さらに向上させる事が可能な、請求項1に及び2記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項30

前記ネットワーク・コミュニケーションシステムにおいて、ユーザが頭部に装着可能な前記ヘッドセットシステムに、インターネットに直接接続可能な無線通信システム、及びユーザの視野の一部を覆う形で半透明表示ディスプレイデバイスを組み込み、前記ユーザのネットワーク端末自体が有する主要な機能を、前記ヘッドセットシステムと共に一体的に組み込む事で、前記ネットワーク端末の助けを借りずに、前記画像認識システムを備えた知識情報処理サーバシステムと直接接続可能な、請求項1及び2に記載の画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

請求項31

前記ネットワーク・コミュニケーションシステムにおいて、ネットワークに一定以上の障害がある場合、或いはネットワーク接続に一定の制限がある場合に、前記ネットワーク側に構築された画像認識システム、音声認識システム、音声合成システム、生体認証システム、或いは知識情報処理サーバシステムが一時的であるにせよ使用不可能になる事態に対応する為、或いはネットワーク及びサーバ側の負荷を低減する目的で、及び/又は、一連の画像・音声認識プロセス応答性を高める目的で、サーバ側の助けを借りずに、ユーザが選択可能な限定された個数及び/又は種類の特定物体、一般物体、人、写真、或いはシーンに対し、それらをユーザのネットワーク端末上で単独で検出・認識可能にする、上記限定された対象の画像認識処理に対応する学習済み参照データベース、及び当該限定された対象の検出・認識に必要な画像認識プログラムの最適化実行プログラムを、予め前記サーバ及びネットワーク端末との間のネットワーク接続が確立している状況下で、前記サーバ側から前記ネットワーク端末側に選択的にダウンロード可能にする事で、請求項1に記載の画像認識プロセス、及び請求項4に記載のユーザが着目した対象に対するユーザのメッセージやつぶやきの書き込み、併せてネットワーク接続が切断される時点までに当該対象に対し残された請求項5に記載の他のユーザのメッセージやつぶやきの受領、同様にネットワーク接続が切断される時点までに前記ネットワーク端末内に保持可能な記憶容量の範囲内で当該対象に対し残された請求項6に記載の任意の時空間を指定可能なメッセージやつぶやきの受領、請求項11に記載の予めユーザが指定可能な特定の対象の発見、請求項13から請求項15に記載のユーザが着目した対象に対するポインティング操作、請求項16に記載のユーザが着目した対象に対するポインティング履歴、請求項17に記載の頭部静止状態の検出処理、請求項18に記載の現在位置検出処理、請求項19に記載の生体認証処理において、予め前記ネットワーク端末内にサーバ側から送り込まれた認証キーと前記ヘッドセットを装着したユーザ間の認証とローカルな紐付け、請求項20に記載の前記ヘッドセットを装着したユーザから取得可能な各種生体情報との連動機能、請求項22に記載の前記ネットワーク端末内に保持されているメッセージやつぶやきを発したユーザ情報の通知、請求項23に記載のネットワーク端末の共有機能、請求項24に記載の前記ネットワーク端末内に保持されている範囲内での特定の表示ディスプレイからの音声情報の受領、請求項26に記載の予め前記ネットワーク端末内に登録されている限定された枚数の写真の検出、請求項27及び請求項28に記載のユーザの主観的視野外にある予め登録済みの事象や対象の存在の通知、及び請求項29に記載の各種環センサ群からの入力への対応のいずれか一つ以上の機能を含み、前記ネットワーク端末上で当該ユーザと必要最小限の音声コミュニケーションを可能にする音声認識システム、及び音声合成システムの実行サブセットを、予め前記サーバ及びネットワーク端末とのネットワーク接続が確立している状況下で、前記サーバ側から前記ネットワーク端末側にダウンロードしておく事で、サーバとのネットワークが確立している時と比べ一定の制限はあるものの、前記サーバと前記ネットワーク端末間の接続がオフラインである事態においても、当該ユーザが設定した範囲内での画像認識機能、及び簡単な音声によるコミュニケーション機能を確保し、以降のネットワーク接続が再開可能になった時点で、ネットワーク上の生体認証システムによる当該ユーザ認証の再確認を受け、前記画像認識システムを備えた知識情報処理サーバシステム側と前記ネットワーク端末との同期を確立する事を可能にする、画像認識システムを備えたネットワーク端末、及び画像認識システムを備えた知識情報処理サーバシステムによるネットワーク・コミュニケーションシステム。

技術分野

0001

本発明は、ユーザの頭部に装着可能なヘッドセットシステムに組み込まれたカメラから得られる当該ユーザの主観的な視野を反映した画像信号を、当該ユーザのネットワーク端末経由でネットワークを介して画像認識システムを備えた知識情報処理サーバシステム側に適宜アップロードする事で、当該ユーザが関心を持って着目した特定物体一般物体、人、写真、或いはシーン等の1以上の対象(以降「対象」と呼称)が、上記カメラ映像中のいずれに当るのかを、前記サーバシステムと当該ユーザ間の音声による双方向のコミュニケーションにより抽出可能にした上で、それら対象の抽出過程及び画像認識結果を、上記サーバシステム側が当該ユーザのネットワーク端末経由で、上記ヘッドセットシステムに組込まれたイヤフォンを通し、当該ユーザに対し音声情報により通知する事を特徴とする。

0002

その上で当該ユーザが着目する様々な対象に対し、当該ユーザの音声によるメッセージつぶやき、或いは質問等の音声タグを残す事を可能にする事で、異なる時空間内において自らを含む様々なユーザが当該対象に偶然遭遇する、或いはそれら対象を偶然目にした時に、前記サーバシステム側に蓄積された当該対象に係る様々なメッセージやつぶやき群を、当該対象への着目に同期して音声で受取る事を可能にし、それら個々のメッセージやつぶやきに対し、ユーザがさらなる音声応答を返す事を可能にする事で、様々なユーザの共通の着目対象に係る広範なソーシャル・コミュニケーションを喚起する事を特徴とする。

0003

その上で、当該喚起された多数のユーザの視覚的関心に端を発する広範なソーシャル・コミュニケーションを、前記サーバシステム側で継続的に収集解析・蓄積する事で、広範なユーザ、様々なキーワード、及び様々な対象を構成ノード群とする、動的なインタレストグラフとして獲得可能にし、それらを基に高度にカスタマイズされたサービスの提供、精度の高いリコメンデーション提示、或いは動的な広告告知等への効果的な情報提供サービスに繋げる事を可能にする、前記画像認識システムを備えた知識情報処理サーバシステムに関する。

背景技術

0004

近年のインターネットの世界的な普及により、ネットワーク上の情報量が急激に増大しつつある事から、それら膨大な量の情報の海の中から目的とする情報を効果的且つ高速に探し出す手段としての検索技術が急速に進歩して来た。現在では、強力な検索エンジンを備えたポータルサイトがいくつも運営されている。また、閲覧者検索キーワードアクセス履歴等を解析し、閲覧者の嗜好にあったWebページや広告等を各々の検索結果に関連して配信する技術も開発され、閲覧者が多用するキーワードに基づく効果的なマーケティング活動等への応用も始まっている。

0005

例えば、ユーザにとって有用な情報を精度良く且つ容易に提供する事が出来る情報提供装置がある(特許文献1)。この情報提供装置は、ユーザによる各コンテンツに対するアクセス頻度を表すアクセス頻度情報を、当該ユーザを識別するユーザ識別情報対応付けて格納するアクセス履歴格納手段と、各ユーザ間における各コンテンツへのアクセス傾向類似性を表すユーザ間類似度を、前記アクセス履歴格納手段に格納された前記アクセス頻度情報に基づいて算出するユーザ間類似度計算手段と、ユーザと各ユーザとの間の前記ユーザ間類似度により重み付けした、当該各ユーザの前記アクセス頻度情報から、当該ユーザにとってのコンテンツの有用度を表す情報であるコンテンツ・スコアを算出するコンテンツ・スコア計算手段と、前記コンテンツ・スコア計算手段によって算出された各コンテンツの前記コンテンツ・スコアを、前記ユーザ識別情報に対応付けて記憶するインデックス格納手段と、通信端末装置から送信されたユーザ識別情報を含むクエリの入力を受け付けクエリ入力手段と、前記クエリ入力手段により受け付けられた前記クエリに適合するコンテンツのコンテンツ識別情報を取得し、当該クエリに含まれるユーザ識別情報に対応付けられて前記インデックス格納手段に記憶された前記コンテンツ・スコアを参照して、取得した前記コンテンツ識別情報から提供情報を生成する提供情報生成手段と、前記提供情報生成手段により生成された前記提供情報を、前記通信端末装置に出力する提供情報出力手段とを備える事を特徴とする、情報提供装置である。

0006

これらのキーワード等の文字情報検索クエリとする検索手段をさらに拡大する目的で、画像認識技術を備えた検索エンジンの開発が近年進み、文字に代わり画像そのものを入力クエリとする画像検索サービスが、広くインターネット上で提供される様になって来ている。画像認識技術の研究の始まりは、一般に40年以上前に遡る事が出来る。以来、コンピュータの高速化と機械学習技術の進歩と共に、線画解釈(1970年代)、人手によるルール幾何形状モデルによって構築された知識データベースに基づく認知モデル3次元モデル表現(1980年代)といった研究が漸次行われる様になった。1990年代に入ると、特に顔画像の認識や学習による認識に関する研究が盛んになった。2000年代になると、コンピュータの処理能力の一層の向上により、統計処理機械学習の為に必要となる膨大な計算処理が比較的安価に実行可能になった為、一般物体認識に関する研究が進んだ。一般物体認識とは、実世界のシーンを撮影した画像に対して、コンピュータがその画像中に含まれる物体を一般的な名称で認識する技術である。1980年代には、全て人手によってルールやモデルの構築を試みていたが、大量のデータを手軽に扱える様になったこの時期には、コンピュータを活用した統計的機械学習によるアプローチが注目され、近年の一般物体認識ブームのきっかけとなった。一般物体認識技術によって、画像に対するキーワードを対象画像に自動的に付与する事が可能になり、画像をその意味内容によって分類及び検索する事も可能になる。近い将来には、コンピュータによって全ての人間の画像認識機能を実現する事が目標とされている(非特許文献1)。一般物体認識技術は、画像データベースからのアプローチと統計的確率手法の導入によって急速に進歩した。その中でも先駆的な研究として、画像に人手でキーワードを付与したデータから個々の画像との対応付けを学習し物体認識を行なう手法(非特許文献2)や、局所特徴量に基づく手法(非特許文献3)等がある。また、局所特徴量による特定物体認識に関する研究にSIFT法(非特許文献4)、及びVideo Google(非特許文献5)等がある。その後、2004年に入り、「Bag−of−Keypoints」あるいは「Bag−of−Features」と呼ばれる手法が発表された。この手法は、対象となる画像をビジュアルワード(visual word)と呼ばれる代表的な局所パターン画像片集合として扱い、その出現頻度多次元ヒストグラムで表現する。具体的には、SIFT法に基づいた特徴点抽出を行い、予め求められた複数のビジュアル・ワードに基づいてSIFT特徴ベクトルベクトル量子化し、画像毎にヒストグラムを生成するものである。この様に生成されたヒストグラムの次元数は、通常、数百から数千次元スパース(sparse)なベクトルになる。そして、これらのベクトルは、コンピュータ上の多次元ベクトルの分類問題として高速に処理される事により、一連画像認識処理が行われる(非特許文献6)。

0007

これらコンピュータによる画像認識技術の進展に伴い、カメラ付きネットワーク端末で撮影した画像を、ネットワーク経由でサーバ側に構築された画像認識システム側に問い合わせ、当該サーバ側に蓄積された膨大な画像データベースを基に、当該画像認識システム側がそれらの画像と、予め学習済みの物体毎の特徴を記述した画像特徴データベース群とを比較照合する事で、アップロードされた画像に含まれる主要な物体を画像認識し、その認識結果を前記ネットワーク端末側に速やかに提示するサービスが既に始まっている。画像認識技術の中でも特定の人間の顔の検出技術は、個々人を特定する手法の一つとして急速に応用開発が進んでいる。多数の顔画像の中から特定の人物の顔を精度良く抽出する為には、膨大な顔画像の事前学習が必要となる。その為に準備しなくてはならない知識データベースの量も極めて大きくなる事から、或る程度大規模な画像認識システムの導入が必要になる。一方、電子カメラにおけるオートフォーカスに用いられる様な一般的な「平均顔」の検出、或いは限られた人物の顔の特定であれば、電子カメラ等の小型の筐体内に十分収まる規模のシステムで今や容易に実現が可能である。また、近年供用が始まったインターネットを利用した地図提供サービスの中で、地図上の要所々々における路上写真(Street View)を居ながらにして俯瞰する事が出来る様になった。この様なアプリケーションでは、プライバシー保護の観点から偶然写り込んだ自動車ナンバープレート歩行者の顔、或いは道路越しに見えてしまう個人宅の様子等を、一定以上判別出来ない程度にフィルタ処理して再表示する必要性も出て来ている(非特許文献7)。

0008

近年、現実空間拡張して、コンピュータによる情報空間としてのサイバー空間とを相互に融合しようとする拡張現実感(Augmented Reality:略称AR)というコンセプトが提案され、既に一部のサービスが始まっている。一例として、GPSや無線基地局等から取得可能な位置情報を利用した三次元位置測位システム、カメラ、及び表示装置等を一体として備えたネットワーク携帯端末を用い、上記三次元位置測位システムから割り出した自身の位置情報を基に、カメラで撮影した現実世界映像と、サーバ上にデジタル情報として蓄積されている注釈アノテーション:Annotation)とを重ね合わせ、サイバー空間に浮かぶエアタグ(Airtag)として現実世界の映像に貼り付ける事が可能になっている(非特許文献8)。

0009

1990年代後半になると、通信ネットワークインフラ整備拡張に伴い、インターネット上に構築されたユーザ相互社会的関係を促進する目的で、ソーシャルネットワークに係るサイトが数多く開設され、数々のソーシャル・ネットワーキング・サービス(SNS)が生まれた。SNSにおいては、ユーザ検索機能メッセージ送受信機能、掲示板等のコミュニティ機能によって、ユーザ間のコミュニケーションが有機的に促進される。例えばSNSのユーザは、趣味・嗜好を同じくするユーザが集う掲示板に積極的に参加して、文書や画像、音声等のパーソナル情報交換し、また自分の友人を他の知人紹介する事等により、人と人との相互の繋がりをさらに深め、ネットワーク上でコミュニケーションを有機的かつより広範に広げていく事が出来る。

0010

SNSにおけるサービスの一形態として、ネットワーク上にアップロードされた動画を複数のユーザが選択共有し、当該動画シーン上の任意の位置にユーザが自由に当該動画内容に関連するコメントをアップロードする事を可能にし、それらコメント群を当該動画面上にスクロール表示する事で、複数のユーザ間で当該動画を媒介とした共有コミュニケーションを図る事が可能なコメント付き動画配信システムがある(特許文献2)。当該システムは、コメント情報コメント配信サーバから受信し当該共有動画再生を開始すると共に、当該コメント情報から再生する動画の、特定の動画再生時間に対応するコメントをコメント配信サーバから読み出し、読み出したコメント群に対応付けられた動画再生時間に、当該動画と共にそれらコメント群を表示可能にする。併せて、それらコメント情報をリストとしても個別に表示可能にし、表示されたコメント情報から特定のコメントデータが選択されると、選択されたコメントデータのコメント付与時間に対応する動画再生時間から当該動画を再生し、読み出したコメントデータを表示部に再表示させる。また、ユーザによるコメントの入力操作を受け付けて、コメントが入力された時点の動画再生時間をコメント付与時間として、コメント内容と共に前記コメント配信サーバに送信する。

0011

SNSの中でも、ネットワーク上で交換可能な情報パケットサイズを大幅に限定する事で、コミュニケーションのリアルタイム性をより重視しようという動きもある。これらマイクロブログとも呼ばれるユーザの短いつぶやきや、それらに関連するURL等のアドレス情報を埋め込んだ140文字以内の文字データを、当該ユーザがインターネット上にリアルタイム且つ広範に発信する事で、当該ユーザのその時々体験を当該ユーザの文字によるつぶやきのみならず、画像や音声データを加えた一体的な情報として広範なユーザ間で共有可能にし、さらにユーザがそれらつぶやきの中から特定の発信者や特定の話題を選択してフォローする機能も提供する事で、地球規模でのリアルタイム・コミュニケーションを喚起するサービスが既に始まっている(非特許文献9)。

0012

ネットワークを介した情報サービスとは異なるものの、特定の対象に対峙した時に当該対象に関する詳細な音声説明を受取る事が出来るサービスとして、博物館美術館の「音声ガイド」システムがある。これらは、対象となる絵画等の近傍に設置された音声信号送出部から送出される赤外線変調された音声信号を、それら対象物近接したユーザの端末装置に組込まれた赤外線受信部で復調し、当該ユーザのイヤフォンに当該絵画等に係る詳細な説明を音声として提供するもので、この方式以外にも極めて指向性の高い音声トランスミッターを用いて、ユーザの元に直接当該音声情報を送り込める様な音声ガイドシステムも実用化されている。

0013

コンピュータ・システムに対する音声による情報入力コマンド入力方法として、ユーザの発話音声音声言語として認識し、テキストデータや各種のコンピュータコマンドに変換して入力処理する技術がある。当該入力処理には高速の音声認識処理が必要となるが、これらを可能にする音声認識技術群として、音響処理技術、音響モデル作成適応化技術、適合・尤度演算技術、言語モデル技術、対話処理技術等があり、これらの要素技術をコンピュータ上で組み合わせる事で、近年では十分実用に耐える高速の音声認識システムが構築可能となっている。近年では、大規模語彙連続音声認識エンジンの開発によって、ユーザにより発話される音声言語認識処理を、ネットワーク端末上でほぼ実時間で処理する事も可能となっている。

0014

音声認識技術の研究の歴史は、1952年に米国のベル研究所でのゼロ交差回数を用いた数字認識の研究に始まり、1970年代に入ると発声時間の長さの変動を、動的計画法を用いて非線形正規化する手法(Dynamic Time Warping)が日本及びロシア研究者によって提案され、米国においても統計確率的手法であるHMM(Hidden Markov Model:隠れマルコフモデル)を用いた音声認識基礎的な研究が進んだ。現在では、利用者の音声の特徴を適応的に学習させる事より、明瞭な発声で読み上げられた文章をほぼ完全に口述筆記する事が可能なレベルにまで到達している。この様な高度の音声認識技術を応用した従来技術として、会議による発言音声を入力とする話し言葉から、文語としての議事録自動作成する技術も開発されている(特許文献3)。

0015

すわなち、特許文献3に開示された技術は、音声を入力して文書情報を作成し出力する音声文書変換装置であり、文書情報出力を受信して画面に表示する表示装置を備え、この音声文書変換装置が、入力する音声を認識する音声認識部と、入力音声漢字仮名混じりの文語に変換する変換テーブルと、前記音声認識部から認識した音声を受信して整列させ前記変換テーブルを検索して文語に変換し所定の書式で文書に編集する文書形成部と、この編集済み文書記憶保存する文書メモリと、この保存された文書情報を送信すると共に他の情報・信号を前記表示装置との間で授受する送受信部とを有し、かつ前記表示装置が前記音声文書変換装置の送受信部との間で情報・信号を送受信する送受信部と、受信した文書情報を表示情報として記憶する表示情報メモリと、この記憶する表示情報を画面表示する表示盤とを有する事を特徴としている。

0016

また、コンピュータ上の文字情報からなる文章を、指定された言語で流暢に読み上げる音声合成システムは、近年最も進化の進んでいる領域の一つである。音声合成システムは、スピーチシンセサイザー(Speech Synthesizer)とも呼ばれ、テキストを音声に変換するテキスト読み上げシステムや、発音記号を音声に変換するシステム等を含む。歴史的には、1960年代末以降、コンピュータによる音声合成システムの開発が進んだものの、初期のスピーチ・シンセサイザーによる発声はいかにもコンピュータによる音声だと感じさせる人間味のない無機質なものが多かった。以降研究が進むにつれ、後述する様に、場面、状況、前後の文脈関係により声の抑揚調子を自在に変化させる事が出来る様になり、人間の肉声と比べてほとんど遜色がない高品質音声合成が可能になっている。特に、サーバ側に構築された音声合成システムは、膨大な辞書を活用可能なばかりではなく、その発声アルゴリズム自体も人間に近い複雑な発音が可能な様に多数のデジタルフィルタ類を組み込む事も可能になり、ネットワーク端末機器の急速な普及に伴い、近年その応用可能な範囲が一段と拡大している。

0017

音声合成技術には、大きく分けてフォルマント合成と連結的合成とがある。フォルマント合成では、人間の音声を使用する事なく周波数や音色等のパラメータをコンピュータ上で調整して人工的な合成波形を生成する。これらは一般的に人工的な音声として聞こえる場合が多い。一方で連結的合成では、基本的に人間の音声を収録して、その音素断片等を滑らかに連結して肉声に近い音声を合成する方法である。具体的には、一定時間収録された音声を「音」「音節」「形態素」「単語」「成句」「文節」等に分割してインデックス化し、検索可能な音声ライブラリ群を作成する。こうした音声ライブラリは、テキスト読み上げシステム等により音声を合成する際に、適宜最適な音素や音節等が抽出され、適切なアクセントと共に最終的に人間の発話に近い流暢な一連の音声に変換される。

0018

係る従来技術に加え、声調機能を備えたテキスト読み上げシステム等の開発により、バリエーションに富んだ音声を合成する技術も続々実用化されている。例えば、高度な音声編成システムによって、アクセント調整や音の高低・長さの調整を行う事によって、「うれしさを伴った声」「悲しみを伴った声」「怒りを伴った声」「冷たさを伴った声」等の感情の抑揚を調整する事が出来る他、音声編成システムが備えるデータベース登録された特定の人のクセを反映した音声を、これらシステム上で自在に合成する事も出来る様になっている。

0019

また、上述した音声合成についての先行技術に、合成音声区間と部分的に一致する肉声区間を検出して、その肉声区間の韻律(抑揚・リズム)情報を合成音声に付与し、肉声と合成音声を自然に結合させる技術も提案されている(特許文献4)。

0020

即ち、特許文献4に開示された技術は、録音音声格納手段、入力テキスト解析手段、録音音声選択手段、接続境界算出手段、規則合成手段、接続合成手段に加えて、合成音声区間のうちで録音済みの肉声と部分的に一致する区間を決定する肉声韻律区間決定手段と、その一致部分の肉声韻律を抽出する肉声韻律抽出手段と、抽出された肉声韻律を使って合成音声区間全体の韻律情報を生成する、ハイブリッド韻律生成手段を備える事を特徴としている。

0021

特開2009−265754号公報
特開2009−077443号公報
特開1993−012246号公報
特開2009−020264号公報

先行技術

0022

井啓司, "一般物体認識の現状と今後",情報処理学会論文誌, Vol.48, No.SIG16(CVIM19), pp.1-24, 2007
Pinar Duygulu, Kobus Barnard, Nando de Freitas, David Forsyth, "Object Recognition as Machine Translation: Learning a lexicon for a fixed image vocabulary," European Conference on Computer Vision (ECCV), pp.97-112, 2002.
R. Fergus, P. Perona, and A. Zisserman, "Object Class Recognition by Unsupervised Scale-invariant Learning,"IEEE Conf. on Computer Vision and Pattern Recognition, pp.264-271, 2003.
David G.Lowe, "Object Recognition from Local Scale-Invariant Features," Proc. IEEE International Conference on Computer Vision, pp.1150-1157, 1999.
J. Sivic and A. Zisserman, "Video google: A text retrieval approach to object matching in videos", Proc. ICCV2003, Vol. 2, pp.1470-1477, 2003.
G. Csurka, C. Bray, C. Dance, and L. Fan, "Visual categorization with bags of keypoints," Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp.1-22, 2004.
Ming Zhao, Jay Yagnik, Hartwig Adam, David Bau; Google Inc. "Large scale learning and recognition of faces in web videos" FG '08: 8th IEEE International Conference on Automatic Face & Gesture Recognition, 2008.
http://jp.techcrunch.com/archives/20091221sekai-camera/
Akshay Java, Xiaodan Song, Tim Finin, and Belle Tseng, “Why We Twitter: Understanding Microblogging Usage and Communities” Joint 9th WEBKDDand 1stSNA-KDD Workshop ’07.

発明が解決しようとする課題

0023

しかしながら、従来の検索エンジンにおいては、検索対象に係るいくつかのキーワードを考え文字で入力する必要があった。それらの検索結果は、複数、時に夥しい数の候補群に係る文書タイトルと共に概略記述文章として提示される事から、目的とする検索結果に辿り着く為には、各候補群が示す情報の格納先をさらに個々に開いて読み進んでいく必要があった。近年は画像を直接入力クエリとする検索も可能になり、その検索出力として関連度の高い画像そのものを一覧的に閲覧可能な画像検索サービスも提供され始めている。しかし、ユーザが関心を持った対象や事象に対し、その好奇心をさらに喚起する様な関連情報を、快適且つ的確にユーザに提供出来る迄には至っていない。また従来の検索プロセスでは、PCやネットワーク端末等に向かって一時的ではあるにせよ集中的な入力操作を行う必要がある事から、ユーザがハンズフリーで何か別の事をしながら日常の生活の中でふと誰かに語りかけ、身近な誰かが答えてくれる様な、普段我々が何気なく行っている自然なコミュニケーションが、従来のITシステム上ではまだ実現出来ていない。

0024

一例として、ユーザがふと調べたいと思った対象や事象に遭遇した場合、その名称等が判る場合には文字入力によるネットワーク検索を行うか、カメラ付き携帯電話スマートフォン等を手に当該対象に近付き、当該ネットワーク端末に具備されているカメラで撮影した後、当該撮影画像を基に画像検索をかけるケースが多い。それでも思う様な検索結果が得られない場合は、ネットワーク上の他のユーザへ当該対象を問い合わせる事も可能ではある。しかし、これら一連のプロセスはユーザにとって少々煩雑であるだけではなく、対象に直接携帯電話等をかざす等の行為が必要な事から時に対象から身構えられる、場合によっては失礼だと感じさせる、さらには携帯電話をかざす行為自体に対し周りから不審な目で見られる、といった嫌いがあった。また対象が動物や人物等の場合、対象と自分との間にカメラ付き携帯端末等が入る事により一種視覚的な壁の様なものが出来てしまう点と、検索結果を先ずは当該携帯端末で確認しようとする事から、一時的にせよ当該対象や周囲の人々とのコミュニケーションが中断しがちであった。また、これら一連の検索プロセスには相応の時間がかかる事から、ユーザが外出中にふと目にした物体や人、動物、或いはシーン等に関心を持ったとしても、その場で上記一連の操作が完結出来ない場合も多く、一旦撮影した写真を自宅等に持ち帰って改めてPC等で検索し直す必要もあった。

0025

近年、実用化が始まった拡張現実と呼ばれるサービスにおいて、我々が存在する現実の空間と、コンピュータネットワーク網の中に構成されるサイバー空間とを紐付ける手法の一つとして、GPS等から得られる測位情報に加え、カメラが向いている方位情報を併せて利用する手法がある。しかしこれら位置情報のみの利用では、対象物体自体の移動や、そもそも対象が観測時点で存在していない等、刻々と変化する現実の世界の状況に際し対応が困難なケースが多い。基本的に位置情報と固定的に紐付いている様々な建造物都市ランドマーク等とは異なり、車などの移動・可搬可能な物体や、動き回る人や動物、或いは「夕焼け」等の概念的なシーンに対しては、当該システム内に画像認識機能を有していない場合には、本質的な意味での相互の対応付けが困難となる。

0026

SNSにおけるサービスの一形態として、近年ユーザの間で人気のあるコメント付き動画共有サービスにおいては、共有視聴される動画が録画済みの動画である場合には、現実の世界で進行中の事象に対してリアルタイムの共有体験が得られないという問題がある。これに対し、ライブストリーム映像配信に対応したコメント付与サービスが既に始まっている。対象となるストリーム映像としては、記者会見、発表会、国会中継イベントスポーツ等に加えて、一般ユーザ投稿によるライブ映像配信がある。これらの動画共有サービスにおいては、ネットワークを介してリアルタイムで進行中の事象に係る「場」の共有が可能となる。しかし、延々と続くライブストリーム映像配信をフォローするには時間及び忍耐が必要である。そこからユーザ固有の或いは参加しているユーザ群に共通の関心の在り所等を効果的・効率的に抽出し、それらをインタレストグラフとして広範に体系付ける素材群として見ると、その収集可能な対象及び情報量には一定の限界があった。これは利用者数急増しているネットワーク共有動画視聴サービスでも同じで、ユーザが様々な動画ファイル連続視聴する為に消費する時間、及び配信サーバネットワーク回線に係るコストに対し、ユーザが能動的に何か有用な情報をサーバ側に提供出来るチャンスはそれ程多くない。

0027

これに対し、140文字以内という一定の制限は課されるものの、そのネットワーク上を流れるリアルタイムのトピックス多彩さと参加者の急増も手伝って、これらマイクロブログと呼ばれるリアルタイム・メッセージ交換サービスから抽出可能なユーザ固有の、或いは特定のユーザ間で共通の、或いは広範なユーザ間において共通の、リアルタイムに収集可能なインタレストグラフの有用性に注目が集まっている。しかしながら、従来のマイクロブログにおいては、ユーザがその時点で自らが関心を持った対象や状況に係るつぶやきが中心で、当該ユーザの近傍或いは視野内に存在する他のユーザの関心の対象に対しては、有効な気付きを十分与える事が出来ているとは言えない。これらマイクロブログにおけるつぶやきの内容は極めて多岐に亘る為、特定のユーザ、特定の話題、或いは特定の場所等を指定して、テーマやトピックスを絞り込む方向の機能は提供されているものの、逆にその関心の対象をさらに拡げて行く方向として、個々のユーザ特有の潜在的な関心の反映や、当該ユーザの身近に存在する他のユーザによる顕在的な関心の在り処の通知等、さらに広範なSNSを誘発する可能性については、まだ十分生かし切れているとは言えない。

課題を解決するための手段

0028

上記課題を解決するために、本発明に係るネットワーク・コミュニケーションシステムは、一形態として、インターネットに接続可能なネットワーク端末に対し、有線或いは無線で接続可能な多機能入出力デバイスであって、少なくとも一以上のマイクロフォン、一以上のイヤフォン、一以上の画像撮像素子(カメラ)を一体として有する、ユーザの頭部に装着可能なヘッドセットシステムから得られる当該ユーザの主観的な視野、及び視点を反映した画像、及び音声信号を、前記ネットワーク端末経由でインターネット上の前記画像認識システムを備えた知識情報処理サーバシステム側にアップロード可能にし、当該画像に内包されている当該ユーザが着目した特定物体、一般物体、人、写真、或いはシーンに対し、音声認識システムとの協調動作により、当該ユーザ自身の音声による当該着目対象の指定、選択、及び抽出操作を、前記サーバシステム上で可能にした上で、当該ユーザによる上記一連の画像認識プロセス及び画像認識結果を、音声合成システムとの協調動作により、前記サーバシステム側がインターネットを介し、当該ユーザのネットワーク端末経由で、当該画像認識結果及びその認識プロセスを当該ユーザのヘッドセットシステムに組込まれたイヤフォンに対し音声情報として、及び/又は、当該ユーザのネットワーク端末に音声及び画像情報として通知する事を可能にし、当該画像認識可能になった対象に対し、当該ユーザが自らの声で語りかけたメッセージやつぶやきを、前記音声認識システムとの協調動作により、前記サーバシステム側がその内容を分析・分類・蓄積し、それらメッセージやつぶやきをネットワーク経由で、同様の対象を目にした自らを含む広範なユーザ間で共有可能にする事で、多数のユーザの視覚的な好奇心に端を発する広範なネットワーク・コミュニケーションを誘発させると共に、それら広範なユーザ間のコミュニケーションを、前記サーバシステム側で統計的に観察・蓄積・解析する事で、当該ユーザ特有の、或いは特定のユーザ群に特有の、或いはユーザ全体に共通の動的な関心や好奇心の在り所とその推移を、上記広範な「ユーザ」群、抽出可能な「キーワード」群、及び様々な着目「対象」に係るノード群との間を繋ぐ動的なインタレストグラフとして獲得可能にする事を特徴とする。

0029

また、前記ネットワーク・コミュニケーションシステムにおいて、ユーザが関心を持った着目対象がどの様な特徴を有しているか、及び/又は、どの様な位置関係にあるか、及び/又は、どの様な運動状態にあるかを、前記画像認識システムを備えた知識情報処理サーバシステム側にユーザが明示的に指し示す手段として、当該ユーザの音声による対象の選択指定ポインティング)操作を可能にし、これら一連の選択指定の過程で当該ユーザが発声する当該対象に係る様々な特徴群を基に、前記音声認識システムとの協調動作により前記サーバシステム側が当該対象を正確に抽出・認識し、その画像認識結果に係る前記サーバシステム側から当該ユーザに向けての再確認内容として、当該ユーザが前記サーバシステム側に対し明示的に音声で指し示した特徴群以外に、当該ユーザの主観的視野を反映したカメラ映像を基に、前記サーバシステム側が当該対象に共起する新たな物体や事象群を抽出し、当該対象をさらに正確に言い表す事が可能な共起事象として加え、それらを一連の文章に構成し、前記音声合成システムとの協調動作により、当該ユーザに対し音声により再確認を求める事を可能にする事を特徴とする。

発明の効果

0030

本発明は、ユーザの頭部に装着可能なヘッドセットシステムに組み込まれたカメラから得られるユーザの主観的な視野を反映した画像信号を、当該ユーザのネットワーク端末経由でネットワークを介し前記画像認識システムを備えた知識情報処理サーバシステム側に適宜アップロードする事で、当該ユーザが関心を持って着目した特定物体、一般物体、人、写真、或いはシーン等の1以上の対象(以降「対象」と呼称)が、前記カメラ映像中のいずれに当るのかを、前記サーバシステムと当該ユーザ間の音声による双方向のコミュニケーションにより抽出可能にする事で、従来の画像認識システムが不得意として来たユーザの「主観」を反映した対象の抽出及び認識処理を可能にし、画像認識率そのものを向上させる効果を与えると同時に、そこにユーザの音声による対象指定(ポインティング)操作と、それに対するサーバ側からの音声による再確認という双方向のプロセスを組み入れる事で、当該画像認識システムに対し継続的な機械学習が可能となる。

0031

また、ユーザによる前記音声指示を前記サーバシステム側で適宜解析する事で、当該対象に係る有用なキーワード群の抽出、及び当該ユーザによる当該対象に対する関心の抽出を可能にし、そこから広範なユーザ、様々なキーワード、及び様々な対象を構成ノード群とする、動的なインタレストグラフが獲得可能になる。

0032

その上で、当該インタレストグラフの対象となるノード群をネットワーク上でさらに広範なユーザ、様々な対象、及び様々なキーワードに対し拡大取得する事により、当該インタレストグラフの対象領域のさらなる拡大に加え、その収集頻度をさらに高める事が出来る。これにより、コンピュータ・システムによる継続的な学習プロセスに、人類の「知」をより効果的に組み入れて行く事が可能となる。

0033

また本発明は、前記画像認識システムを備えた知識情報処理システムにより認識可能になったユーザの着目対象に対し、当該ユーザが残した音声によるメッセージやつぶやきをネットワーク経由で前記サーバシステム内にアップロードし分類・蓄積しておく事で、異なる時空間において同様或いは類似の対象に近付いた、或いは着目した他のユーザ、或いはユーザ群に対し、前記サーバシステム側がネットワークを介し、当該ユーザのネットワーク端末経由で、前記メッセージやつぶやきを、当該ユーザとの音声コミュニケーションにより、インタラクティブ送り込む事を可能にする。これにより、多数のユーザに及ぶ様々な視覚的好奇心に端を発する広範なユーザコミュニケーションを、ネットワーク上で継続的に喚起する事が可能になる。

0034

また、ユーザが様々な対象に対して残した前記メッセージやつぶやきに係る内容の解析及び分類を前記サーバシステム側でリアルタイムに実行する事で、当該サーバシステム内に保持されている前記インタレストグラフの記述を基に、当該メッセージやつぶやきに含まれる主たる話題を抽出し、当該抽出された話題を中心ノードとするさらに関連性の高い他の話題群を抽出し、それらを抽出された話題に関心の高い他のユーザ及びユーザ群と、ネットワークを介して相互に共有可能にする事で、広範なユーザが目にする様々な対象や事象に端を発したネットワーク・コミュニケーションを継続的に誘発する事が可能となる。

0035

また本発明においては、当該ユーザ側から発した前記メッセージやつぶやきのみならず、当該サーバシステム自身側から発する様々な関心、好奇心、或いは疑問を当該ユーザ、或いはユーザ群に対し提起する事が出来る。例えば前記インタレストグラフ内に記載の対象ノード間の関連性から想定可能な範囲を超えて、特定のユーザが特定の対象に対して一定以上の関心を示す場合や、或いは逆に一定以下の関心しか示さない場合や、当該サーバシステム側だけでは認識が困難な対象や事象が存在した場合、或いはそれらに遭遇した場合等に、当該サーバシステム側から関連する質問やコメントを、当該ユーザ、或いは特定のユーザ群、或いは広範なユーザ群に対し積極的に提起する事を可能にする。これにより、前記サーバシステム側が様々な事象を通じて人類の「知」を継続的に吸収し、学習の上で自らの知識データベース内に体系立てて取り込んで行くプロセスが構成可能となる。

0036

近年では超高速光ファイバー網によるネットワークのさらなる高速化と相俟って、巨大データセンタの敷設が進み、超並列演算可能なスーパーコンピュータの開発も一段と加速している事から、コンピュータ・システム自身の自動学習プロセスにおいて、そこに人類の「知」が効果的、有機的、かつ継続的に加わって行く事で、ネットワークを介してこれらの高性能コンピュータシステム群による様々な事象の自動認識、及び機械学習が急速に発展して行く可能性がある。その為には、人類の「知」をいかにコンピュータ側が効果的に取得し、ネットワークを介して広範に共有可能な「知」の体系として再利用可能な状態に整理して行けるかが重要となる。言い換えると、いかにコンピュータの「好奇心」を刺激し、人とのコミュニケーションの中で継続的にコンピュータ・システムが進化して行ける効果的な方法を見つけられるかが重要となる。本発明においては、これらサーバ側に構築されたコンピュータ・システム自身による学習を、広範な対象に対する人々の視覚的関心と直接結び付ける具体的な方法を与える。

図面の簡単な説明

0037

本発明の一実施形態におけるネットワーク・コミュニケーションシステムの構成に関しての説明図である。
本発明の一実施形態におけるヘッドセットシステム及びネットワーク端末の構成に関しての説明図である。
本発明の一実施形態における音声による対象画像抽出処理に関しての説明図である。
本発明の一実施形態における音声による対象画像抽出処理に関しての説明図である。
本発明の一実施形態における音声によるポインティングに関しての説明図である。
本発明の一実施形態における学習によるグラフ構造成長に関しての説明図である。
本発明の一実施形態における複数対象候補の選択優先度処理に関しての説明図である。
本発明の一実施形態における知識情報処理サーバシステムの構成に関しての説明図である。
本発明の一実施形態における画像認識システムの構成に関しての説明図である。
本発明の一実施形態における一般物体認識部の構成及び処理フローに関しての説明図である。
本発明の一実施形態における一般物体認識システムの構成及び処理フローに関しての説明図である。
本発明の一実施形態におけるシーン認識システムの構成及び処理フローに関しての説明図である。
本発明の一実施形態における特定物体認識システムの構成及び処理フローに関しての説明図である。
本発明の一実施形態における生体認証手順に関する説明図である。
本発明の一実施形態におけるインタレストグラフ部の構成及び処理フローに関する説明図である。
本発明の一実施形態におけるグラフデータベース基本要素及び構成に関する説明図である。
本発明の一実施形態における状況認識部の構成及び一グラフ構造例に関する説明図である。
本発明の一実施形態におけるメッセージ保管部の構成及び処理フローに関する説明図である。
本発明の一実施形態における再生処理部の構成及び処理フローに関する説明図である。
本発明の一実施形態におけるACL(アクセス制御リスト)に関する説明図である。
本発明の一実施形態におけるユースケースシナリオに関する説明図である。
本発明の一実施形態における共通の対象への視覚的な好奇心に誘起されるネットワーク・コミュニケーションに関する説明図である。
本発明の一実施形態におけるインタレストグラフに関するグラフ構造の説明図である。
本発明の一実施形態における画像認識プロセスからのグラフ抽出手順に関する説明図である。
本発明の一実施形態におけるインタレストグラフの獲得に関する説明図である。
本発明の一実施形態における獲得されたインタレストグラフのスナップショットの一部に関する説明図である。
本発明の一実施形態における時空間及び対象を指定可能なメッセージやつぶやきの記録と再生手順に関する説明図である。
本発明の一実施形態における時間/時間帯指定手順に関する説明図である。
本発明の一実施形態における場所/地域の指定手順に関する説明図である。
本発明の一実施形態におけるユーザが指定した時空間でのメッセージやつぶやきの再生手順に関しての説明図である。
本発明の一実施形態におけるユーザの手指による対象指示手順に関する説明図である。
本発明の一実施形態における視野の固定による対象指示の手順に関する説明図である。
本発明の一実施形態における写真の検出手法に関する説明図である。
本発明の一実施形態における対象との対話手順に関する説明図である。
本発明の一実施形態における会話エンジンの構成と処理フローに関する説明図である。
本発明の一実施形態における複数のヘッドセットからの共有ネットワーク端末の利用に関する説明図である。
本発明の一実施形態における音声によるWiki利用に関する処理手順の説明図である。
本発明の一実施形態における位置情報を利用した誤差補正に関する説明図である。
本発明の一実施形態における視点マーカーのキャリブレーションに関する説明図である。
本発明の一実施形態におけるサーバとのネットワーク接続が一時的に切断されている状況におけるネットワーク端末単体での処理に関する説明図である。
本発明の一実施形態における同一の時空間内に撮影された画像から抽出された特定物体、及び一般物体の事例である。
本発明の一実施形態におけるアップロードされた画像に含まれる特定の時空間情報の抽出及び特定の時間軸の選択指定表示に関する説明図である。
本発明の一実施形態における特定の時空間への視点移動時に特定の対象に係る会話を促す仕組みに関する説明図である。

実施例

0038

以下、本発明の一実施形態を図1から図31を用いながら説明する。

0039

図1を用いて、本発明の一実施形態におけるネットワーク・コミュニケーションシステム100の構成に関し説明する。前記ネットワーク・コミュニケーションシステムは、ヘッドセットシステム200、ネットワーク端末220、知識情報処理サーバシステム300、生体認証システム310、音声認識システム320、音声合成システム330から構成される。前記ヘッドセットシステムは1以上存在し、1以上の前記ヘッドセットシステムが1個の前記ネットワーク端末にネットワーク251で接続される。前記ネットワーク端末は1以上存在し、インターネット250に接続される。前記知識情報処理サーバシステムは、生体認証システム310、音声認識システム320、及び音声合成システム330と、各々ネットワーク252、253、及び254で接続される。前記生体情報処理システムは、インターネット250と接続されていても良い。本実施例におけるネットワークは専用回線であっても良いし、インターネットを含む公衆回線であっても良いし、公衆回線上にVPN技術を用いて仮想的な専用回線を構築したものであっても良い。以下、特に断らない限りネットワークを前記の通り定義する。

0040

図2(A)に、本発明の一実施形態におけるヘッドセットシステム200の構成例を示す。前記ヘッドセットシステムは、図2(B)に示す様な、ユーザが装着する事で当該ネットワーク・コミュニケーションシステム100を利用可能なインターフェース装置である。図1において、ヘッドセットシステム200aから200cは、接続251aから251cでネットワーク端末220aに対し接続され、ヘッドセットシステム200dから200eは、接続251dから251eでネットワーク端末220bに対し接続され、ヘッドセットシステム200fは、接続251fでネットワーク端末220cに接続されている。つまり、ヘッドセット200aから200fは、ネットワーク端末220aから220cを介して、インターネット経由で知識情報処理サーバシステム300に繋がっている様子を表わしている。以下、ヘッドセットシステム200と記載した場合にはヘッドセットシステム200aから200fのいずれか一台を指す。ヘッドセットシステム200aから200fは、全て同一機種である必要はない。同等の機能、或いは実施可能な最低限の機能を備えた同様の装置であれば良い。

0041

ヘッドセットシステム200は以下の要素群で構成されるが、これらに限らず、そのいくつかを選択して搭載しても良い。マイクロフォン201は1以上存在し、当該ヘッドセットシステムを装着したユーザの音声や、当該ユーザの周辺の音を収集する。イヤフォン202は1以上存在し、モノラル或いはステレオで、他のユーザのメッセージやつぶやき、サーバシステムからの音声による応答等を含む様々な音声情報を、当該ユーザに通知する。カメラ(画像撮像素子)203は1以上存在し、当該ユーザの主観的な視野を反映した映像以外に、ユーザの背後や側面、或いは上部等の死角となっているエリアからの映像も含んでも良い。また、静止画であるか動画であるかを問わない。生体認証センサ204は1個以上存在し、一実施例としてユーザの有用な生体識別情報の一つである静脈情報鼓膜外耳部から)を取得し、前記生体認証システム310と連携して、当該ユーザ、当該ヘッドセットシステム、及び前記知識情報処理サーバシステム300間を、認証し紐付ける。生体情報センサ205は1以上存在し、ユーザの体温心拍血圧脳波呼吸眼球移動、発声、体の動き等の検出可能な各種生体情報バイタルサイン)を取得する。深度センサ206は、前記ヘッドセットシステムを装着したユーザに近付く、人間を含む或る程度以上の大きさの生体の移動を検知する。画像出力装置207は、前記知識情報処理サーバシステム300からの各種通知情報を表示する。位置情報センサ208は、前記ヘッドセットシステムを装着したユーザの位置(緯経度、高度、向き)を検知する。一例として、当該位置情報センサに6軸モーションセンサ等を装備する事で、移動方向、向き、回転等を前記に追加して検出する様に構成しても良い。環境センサ209は、前記ヘッドセットシステム周辺の明るさ、色温度騒音音圧レベル温湿度等を検知する。視線検出センサ210は、一実施例として前記ヘッドセットシステムの一部からユーザの瞳、又は網膜に向けて安全な光線照射し、その反射光計測する事で、ユーザの視線方向を直接検知する。無線通信装置211は、ネットワーク端末220との通信、及び前記知識情報処理サーバシステム300との通信を行う。電源部212は、前記ヘッドセットシステム全体に電力を供給する為の電池等を指すが、有線で前記ネットワーク端末に接続可能な場合は、外部からの電力供給によっても良い。

0042

図2(C)に、本発明の一実施形態におけるネットワーク端末220の構成例を示す。図1において、ネットワーク端末220aから220fは広くユーザが利用するクライアント端末装置であり、PC、携帯情報端末(PDA)、タブレットインターネット接続可能な携帯電話、スマートフォン等が含まれ、これらがインターネットに接続されている様子を表している。以下、ネットワーク端末220と記載した場合には、インターネットに接続されたネットワーク端末220aから220fのいずれか一台を指す。ネットワーク端末220aから220fは同一機種である必要はない。同等の機能、或いは実施可能な最低限の機能を備えた端末装置であれば良い。

0043

ネットワーク端末220は以下の要素群で構成されるが、これらに限らずそのいくつかを選択して搭載しても良い。操作部221は、表示部222と共にネットワーク端末220のユーザインターフェース部である。ネットワーク通信部223は、インターネットとの通信、及び1以上のヘッドセットシステムとの通信を担当する。前記ネットワーク通信部は、IMT−2000、IEEE802.11、Bluetooth、IEEE802.3、或いは独自の有線/無線規格、及びルータを経由したその混合形態であっても良い。認識エンジン224は、知識情報処理サーバシステム300の主要な構成要素である画像認識システム301が有する画像認識処理機能から、限定された対象に関する画像認識処理に特化した前記ネットワーク端末に最適化した画像認識プログラムを前記知識情報処理サーバシステム側からダウンロードし実行する。これにより、前記ネットワーク端末側にも一定の範囲内で画像検出認識機能の一部を持たせる事で、前記サーバ側の画像認識システム側に対する処理負担の軽減、及びネットワーク回線の負荷の軽減を図る事が出来ると共に、その後のサーバ側での認識プロセスに際し、後述の図3Aにおけるステップ30−20から30−37に対応する予備的な前処理を実行する事が可能となる。同期管理部225は、ネットワークの不具合等により回線の一時的な切断が発生し、再び回線が復帰した際にサーバ側との同期処理を行う。CPU226は中央処理装置であり、記憶部227は主メモリ装置であり、又フラッシュメモリ等を含む一次、及び二次記憶装置である。電源部228は、当該ネットワーク端末全体に電力を供給する為の電池等の電源である。これらネットワーク端末は、ネットワーク網に対し緩衝的な役割を果たす。例えば、ユーザにとって重要ではない情報をネットワーク側にアップロードしても、それは知識処理サーバシステム300にとっては当該ユーザとの紐付けという意味ではノイズであり、ネットワーク回線に対しても不要なオーバーヘッドとなる。従って、可能な範囲で或る程度のスクリーニング処理をネットワーク端末側で行う事で、ユーザに対する有効なネットワークバンド幅の確保や、ローカリティが高い処理に関し応答速度の向上を図る事が可能になる。

0044

図3Aを用いて、本発明の一実施例としてユーザが関心を持った対象に着目する際のユーザの音声による対象画像抽出処理30−01のフローを説明する。前記で定義した様に本実施例では特定物体、一般物体、人、写真、或いはシーンを「対象」と総称する事にする。前記対象画像抽出処理は、ステップ30−02のユーザによる音声入力トリガで始まる。前記音声入力トリガには、特定の言葉や一連の自然言語を用いても良いし、音圧レベルの変化を検出する事によりユーザの発声を検出しても良いし、またネットワーク端末220上のGUI操作によっても良い。前記ユーザの音声入力トリガによりユーザのヘッドセットシステムに具備されているカメラの撮影が開始され、そこから取得可能になる動画像、連続した静止画、或いは静止画を、前記知識情報処理サーバシステム300に対しアップロードを開始し(30−03)、その後ユーザからの音声コマンド入力待ち状態(30−04)に入る。

0045

一連の対象画像抽出、及び画像認識処理フローは、音声認識処理、画像特徴抽出処理、着目対象抽出処理、そして画像認識処理の順番で実行される。具体的には、音声入力コマンド待ち(30−04)からユーザの発話を認識し、当該音声認識処理によりユーザの発声した一連の言葉から単語列を抽出し、当該単語列に基づいて画像の特徴抽出処理を行い、抽出可能になった画像特徴群を基に画像認識処理を実行し、対象が複数に亘る場合や、対象自体からの特徴抽出が困難である場合等に、ユーザに対しさらなる画像特徴群の入力を求める事で、ユーザが着目した対象をサーバ側がより確実に認識するプロセスを構成する。上記ユーザの発話による「再確認」のプロセスを加える事で、画像認識システムの全ての処理プロセスをコンピュータ・システム側のみで対処しなくてはならないという従来の発想転換して、従来画像認識システムが不得意として来た対象画像の正確な抽出、或いは従来の音声認識システムが不得意として来た同音異義語への対応問題等への効果的な対処が可能になる。実際の導入に当たっては、これらの一連の画像認識プロセスを、いかにユーザにとり煩わしい作業と思わせずに楽しいコミュニケーションと思わせられるかが重要となる。前記一連の画像特徴抽出処理では、図3Aに示す事例よりもさらに多様な画像特徴群に対応する画像特徴抽出処理部群を多数並列に配置して一気並列処理する事が可能で、それにより画像認識精度の一層の向上と併せて処理の大幅な高速化を図る事が可能となる。

0046

ユーザの音声による対象のポインティング方法としては、当該ステップ30−06から30−15で例示した様な、各画像特徴群に対しユーザがそれらを各々単独に選択しながらポインティングして行く事例より、複数の画像特徴群を含んだ一連の言葉として一括してポインティングする事例の方が多いものと想定される。この場合は、複数の画像特徴群による対象の抽出処理が同時並列に行われ、そこから当該対象を表現する複数の画像特徴要素群が得られる可能性が高い。そこからより多くの特徴が抽出可能になれば、当該着目対象のポインティングの確度は一段と高まる。それら抽出可能になった画像特徴群を手掛かりに、前記画像認識システムによる画像認識処理30−16が開始される。画像認識は、一般物体認識システム106、特定物体認識システム110、及びシーン認識システム108により実行される。図3Aでは、これらを連続したフローで表現しているが、当該画像認識処理は各々並列、或いは各一般物体認識、特定物体認識、及びシーン認識処理の中でさらに並列化する事が可能で、当該画像認識処理の認識速度に係る処理時間を大幅に短縮する事が出来る。上記の結果として、当該画像認識された対象に係る様々な認識結果を、音声で当該対象に係る画像認識結果として、ユーザに通知する事が可能になる。

0047

この場合であっても、上記画像認識結果に加えて当該ユーザが指し示した特徴要素群のみを引用してユーザに再確認を求めたとしても、果たしてそれで本当にユーザが着目した対象をシステム側が正しく抽出したのか疑問が残る場合もある。例えば、ユーザの視野を反映したカメラ画像の中には、類似の物体が複数存在している可能性もある。本特許では、当該不確実性に対応する為、前記画像認識システムを備えた知識情報処理サーバシステム側が、当該対象の近傍状況を、当該カメラ映像を基に精査する事で当該対象と「共起」している新たな物体や事象を抽出(30−38)し、当該ユーザが明示的に指し示していないそれら新たな特徴要素群を上記再確認の要素に加え(30−39)、当該ユーザに対し音声による再確認(30−40)を求める事で、ユーザの着目対象と上記サーバシステム側が抽出した対象が同一である事を再確認する事を可能に構成することが出来る。

0048

上記一連の処理は、基本的に同一の対象に関する処理であり、ユーザはその行動において常に他の対象に興味移行し得るので、図3Aにおける前記ステップ群包含するさらに大きな外側の処理ループも存在する。なお、前記画像認識処理ループは、前記ヘッドセットシステムをユーザが装着した時点で開始しても良いし、ステップ30−02同様の音声トリガによっても開始しても良いし、前記ネットワーク端末を操作する事によって開始しても良いが、必ずしもそれらには限らない。前記処理ループの停止は、前記処理ループの開始における手段と同様に、前記ヘッドセットをユーザが外した時としても良いし、音声トリガによっても良いし、前記ネットワーク端末を操作する事によって停止しても良いが、必ずしもそれらには限らない。さらに、ユーザの着目の結果認識された対象は、当該時空間情報を付して後述のグラフデータベース365に記録する事で、後日の問い合わせに回答出来る様に構成しても良い。前記図3Aに記載の対象画像抽出処理は本発明における重要なプロセスであり、以下その各ステップを説明する。

0049

最初に、ユーザによる音声入力トリガ(30−02)が発生し、カメラ画像のアップロード(30−03)開始後、音声認識処理30−05によりユーザの対象検出コマンドから単語列が抽出され、前記単語列が条件群30−07から30−15のいずれかの特徴に適合した場合には、係る画像特徴抽出処理に引き渡される。前記単語列が「対象の名称」である場合(30−06)、例えば、ユーザが当該対象に係る固有名詞を発話した場合、当該アノテーションはユーザの一定の認識判断を反映したものとして、係る特定物体認識の実行(110)処理を行う。その照合結果と、当該アノテーションに齟齬がある場合、或いは疑問がある場合は、当該ユーザによる誤認識の可能性もあるとして、当該ユーザに喚起を促す。或いはユーザが、当該対象に係る一般名詞を発話した場合、当該一般名詞に係る一般物体認識の実行(106)処理を行い、その画像特徴から対象を抽出する。或いはユーザが当該対象に係るシーンを発話した場合、当該シーンに係るシーン認識の実行(108)処理を行い、その画像特徴から対象領域を抽出する。またそれらの特徴を一つだけ指し示すのではなくて、複数の特徴を含む情景として指定しても良い。例えば、道路(一般物体)の左側(位置)を走る(状態)黄色い(色)タクシー(一般物体)、ナンバーは「1234(特定物体)」という様な指定の方法である。これらの対象指定を一連の言葉としても良いし、各々個別に指定を行っても良い。対象が複数個発見される場合には、前記画像認識システムによる再確認プロセスを経て、さらに新たな画像特徴を追加して対象を絞り込んで行く事が出来る。当該画像抽出結果は、一例としてユーザに対し音声による質問、例えば「それは〜ですか?」を発行して再確認処理される(30−40)。当該再確認内容に対し、着目対象の抽出がユーザの意図通りである場合は、ユーザはその旨を示す言葉或いは単語を発話して、ステップ30−50「カメラ画像アップロード終了」を実行し、当該対象画像抽出処理を終了する(30−51)。一方、ユーザの意図とは違う場合には、再びステップ30−04「音声コマンド入力待ち」に戻り、さらなる画像特徴群を入力する。また、何度入力しても対象の特定に至らない場合や、そもそも対象自体が視野外に移動してしまった場合等には、処理を中断(QUIT)して当該対象画像抽出処理を終了する。

0050

例えば音声認識処理30−05の結果が図3Aで示す条件30−07に適合した場合、即ちユーザが対象の「色」に関する特徴を発話した場合には、色抽出処理30−20が行われる。当該色抽出処理には、RGB3原色において色毎に範囲を設定して抽出する手法を用いても良いし、それらをYUV色空間上で抽出しても良い。またこれら特定の色空間表現には限定されない。当該色抽出処理後に対象を分離抽出し(30−29)、セグメンテーション切り出し領域)情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30−38)し、抽出可能になった全特徴群に関する記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0051

例えば音声認識処理30−05の結果が図3Aで示す条件30−08に適合した場合、即ちユーザが対象の「形状」に関する特徴を発話した場合には、形状特徴抽出30−21が行われる。当該形状特徴抽出処理では、対象に係るエッジ追跡を行いながら輪郭や主要な形状特徴を抽出後、形状のテンプレート適合処理を行うが、それ以外の手法を用いても良い。当該形状抽出処理後に対象を分離し(30−30)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30−38)し、抽出可能になった全特徴群に関する記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0052

例えば音声認識処理30−05の結果が図3Aで示す条件30−09に適合した場合、即ちユーザが対象の「大きさ」に関する特徴を発話した場合には、物体サイズ検出処理30−22が行われる。その一例として、当該物体サイズ検出処理ではサイズ以外の他の特徴抽出処理等により切り分けされた当該対象物体に対し、周囲にある他の物体との相対的なサイズ比較がユーザとのインタラクティブな音声コミュニケーションにより実行される。例えば「左隣の〜よりも大きな〜」という様な指示である。その理由としては、対象が単独で存在する場合、その大きさの比較になる様な具体的な指標がないと、単に画角から見た大きさのみでそのサイズを一意に判断出来ない事によるが、それ以外の手法を用いても良い。当該サイズ検出後に対象を分離し(30−31)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30−38)し、抽出可能になった全特徴群に関する記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0053

例えば音声認識処理30−05の結果が図3Aで示す条件30−10に適合した場合、即ちユーザが対象の「明るさ」に関する特徴を発話した場合には、輝度検出処理30−23が行われる。当該輝度検出処理では、RGB3原色から、或いはYUV色空間から特定領域の輝度を求めるが、それら以外の手法を用いても良い。当該対象の輝度検出処理では、対象の周囲と比較した相対輝度の抽出が、ユーザとのインタラクティブな音声コミュニケーションにより実行される。例えば「周りより明るく輝いている〜」という様な指示である。その理由としては、対象が単独で存在する場合、その明るさの比較になる様な具体的な指標がないと、単に画素が有する輝度値のみでユーザが感じた輝度を一意に判断出来ない理由によるが、それ以外の手法を用いても良い。当該輝度検出後に対象を分離し(30−32)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30−38)し、抽出可能になった全特徴群に関する記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0054

例えば音声認識処理30−05の結果が図3Aで示す条件30−11に適合した場合、即ちユーザが「対象との距離」に関する特徴を発話した場合には、奥行き検出処理30−24が行われる。当該奥行き検出処理では、ユーザのヘッドセットシステム200に具備された深度センサ206を用いて奥行きを直接測定しても良いし、2台以上のカメラ映像から得られる視差情報から計算により算出しても良い。また、これら以外の手法を用いても良い。当該距離検出後に対象を分離し(30−33)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して共起物体や共起事象を抽出(30−38)し、抽出可能になった全特徴群に関する記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0055

例えば音声認識処理30−05の結果が図3Aで示す条件30−12に適合した場合、即ちユーザが「対象の存在する位置/領域」に関して発話した場合には、対象の領域検出30−25が行われる。当該領域検出処理では、一例としてユーザの主たる視野を反映したカメラ画像全体を予め等間隔のメッシュ状に領域分割し、ユーザからのインタラクティブな指示として「右上の〜」という様な領域指定から対象を絞り込んでも良いし、「の上の〜」という様な、対象が存在する場所の指定で行っても良い。また、他の位置/領域に係る指定であっても良い。当該対象の存在する位置/領域検出後に対象を分離し(30−34)、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して他の共起物体や共起事象を抽出(30−38)し、抽出可能になった当該共起特徴群を含む記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0056

例えば音声認識処理30−05の結果が図3Aで示す条件30−13に適合した場合、即ちユーザが「対象と他物体との位置関係」に関して発話した場合には、当該対象に係る共起関係検出30−26が行われる。当該共起関係検出処理では、図3Aに記載の各処理(106、108、110、30−20から30−28)により抽出された対応特徴に係るセグメンテーション情報を用いて、それらのセグメンテーション情報に対応する各特徴との共起関係を精査する事で、対象の抽出を行う。一例として「〜と一緒に写っている〜」という様な指示であるが、これ以外の手法を用いても良い。これにより、当該対象と他物体との位置関係を基に対象を分離し(30−35)、当該対象に係るセグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに対象の画像認識処理(30−16)を行う。その後は当該認識結果を利用して他の共起物体や共起事象を抽出(30−38)し、抽出可能になった当該共起特徴群を含む記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0057

例えば音声認識処理30−05の結果が図3Aで示す条件30−14に適合した場合、即ちユーザが「対象の動き」に関して発話した場合には、動き検出処理30−27が行われる。当該動き検出処理では、時間軸上に連続的に展開された複数枚の画像を参照し、各画像を複数のメッシュ領域に分割し、当該領域を相互に比較する事によって、カメラ自体の移動による全体画像平行移動以外に、相対的に個別移動している領域を見つけ出し、その領域の差分抽出(30−36)処理を行い、周囲に比べて相対的に移動している領域に係るセグメンテーション情報を得る。また、これら以外の手法を用いても良い。次に当該セグメンテーション情報を手掛かりに、対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して他の共起物体や共起事象を抽出(30−38)し、抽出可能になった当該共起特徴群を含む記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0058

例えば音声認識処理30−05の結果が図3Aで示す条件30−15に適合した場合、即ちユーザが「対象の様子」に関して発話した場合には、状態検出処理30−28が行われる。当該状態検出処理では、物体の状態、例えば、運動状態(静止、移動、振動、浮遊、上昇、下降飛翔、回転、泳動、接近、離遠等)、動作状態(走っている、跳んでいる、しゃがんでいる、座っている、寝ている、横たわっている、っている、食べている、飲んでいる、観察可能喜怒哀楽等を含む)を、当該状態に係る特徴を記述した知識データベース(未図示)を参照しながら、連続する複数の画像群から推定・抽出(30−37)し、セグメンテーション情報を得る。次に当該セグメンテーション情報を手掛かりに、対象の画像認識処理(30−16)を行う。その後は当該画像認識処理結果を利用して、他の共起物体や共起事象を抽出(30−38)し、抽出可能になった当該共起特徴群を含む記述を生成(30−39)し、当該記述をもってユーザに再確認を求める(30−40)。その結果がYESであれば、カメラ画像のアップロードを終了(30−50)し、音声による対象画像の抽出処理を終了(30−51)する。

0059

ユーザは前記ステップに係る音声による図3Aで示す再確認(30−40)のステップにおいて、前記対象画像抽出処理をユーザの発話により中止する事が出来る。音声認識処理30−05において、前記中止コマンドが認識された場合には、ステップ30−50に移行しカメラ画像アップロードを終了し、音声による対象画像抽出処理を終了する(30−51)。前記記載の各々の対象の検出、抽出、或いは認識処理において、処理時間が一定以上長引く場合には、ユーザに対して興味を引き続ける目的で処理の経過を示す状況や、関連する情報を音声で伝える事が出来る。例えば、「今着目している〜の認識処理を、引き続きサーバに問合わせ中です。現在〜人の方が同様の対象に注目しています。もう少しお待ち下さい」「〜までの処理が終わりました。途中経過は〜です」の様な経過メッセージを当該ユーザに対し、音声で返す事が出来る。

0060

ここで、図3Bを用いて、図3Aをデータの流れから説明する。入力は画像35−01と発話35−02である。認識・抽出処理制御35−03では、発話35−02の入力による図3Aにおけるステップ30−06から30−15を1以上実行し、画像35−01に対して図3Aにおけるステップ35−16を実行する際には、一般物体認識処理システム110による一般部隊認識処理、特定物体認識システム110による特定物体認識処理、及びシーン認識システム108によるシーン認識処理のいずれか1以上を実行する。画像認識システム106、108、110の各々の機能ブロックは、実行ユニット毎にさらなる並列化が可能であり、画像認識処理ディスパッチ35−04により1以上の処理に振り分けられて並列に実行される。また、発話35−02の入力に対し、図3Aにおけるステップ30−07から30−15を実行する場合には、特徴抽出処理30−20から30−28、及び分離抽出処理30−29から30−37を実行する。上記特徴抽出処理及び分離抽出処理は各々1以上存在し、特徴抽出ディスパッチ35−05により1以上の処理に分けられて並列に実行される。前記認識・抽出処理制御35−03では、ユーザの発話に処理順序に影響を与える単語が含まれている場合(例えば、「〜の上」という場合には「〜」を画像認識する必要があり、その次に「上」を処理する)には、順序制御を行う。

0061

入力画像35−01に関して、認識・抽出処理制御35−03は、後述のグラフデータベース365にアクセスして、代表ノード35−06を抽出(当該データベースに当該ノードが存在しなければ新しい代表ノードを生成)する。前記一連の処理より、画像35−01が発話35−02に従って処理され、前記同時実行される各認識・抽出処理群に係る結果のグラフ構造35−07がグラフデータベース365に蓄積される。この様にして、入力画像35−01に対する認識・抽出処理制御35−03による一連のデータの流れは、発話35−02が当該入力画像に関して有効にある限り続く。

0062

次に図4Aを用いて、本発明の一実施例におけるユーザの音声による対象のポインティング操作を説明する。これは、図3Aに記載の手順に対する応用例である。図4A(A)の場所は、ニューヨークマンハッタンタイムズ・スクエア界隈である。この場所にいるユーザ、或いはこの写真を見たユーザが仮に発話41「A yellow taxi on the road on the left side」をつぶやいたとする。ここから音声認識システム320は、当該発話41から複数の文字列或いは単語列を抽出する。当該発話から抽出可能な単語としては「一台」の「黄色」の「タクシー」が「左側」の「道路上」に見える、の5個である。ここから、前記図3Aで示した対象画像抽出フローにおける「対象の名称」「対象の色情報」「対象の位置」「対象の存在する領域」及び着目している対象が複数ではなく、単一の対象である事が判る。これらの手掛かりから、当該画像特徴群を有する対象の検出・抽出処理が開始され、それが点線円(50)のタクシーである可能性を前記画像認識システム側がユーザに音声により返答する事が可能となった場合、前述した様にその再確認内容として、上記ユーザが明示的に示した特徴要素群のみで再確認するだけでは、今一歩確実性欠ける場合がある。これらの不確実性に対処する為に、ユーザがまだ指し示していない当該対象に係る他の共起特徴要素群を検出し、それらを再確認内容に加える必要がある。例えば「それは手前の横断歩道に差し掛かっているタクシーで、前に人が見えますね?」という様に、前記画像認識システムを備えた知識情報処理サーバシステム側が検出した当該対象に係る新たな共起事象を加えユーザに再確認を求める事が出来れば、よりユーザの意に沿った対象の検出・抽出・絞り込み処理が可能となる。本事例では、点線円(50)を含む領域の拡大画像図4A(B)から、「横断歩道」(55)「人」(56)が検出可能となっている様子を示している。

0063

同様に、大きな看板があるビルを見上げているユーザが、発話45「I’m standing on the Times Square in NY now」とつぶやけば、カメラ画像を用いた適合処理により、そこが「ニューヨーク」州「タイムズ・スクウェア」で、ユーザが有名なランドマークとなっている建物を着目していると推測可能になる。

0064

同様に、発話42「A red bus on the road in front」という表現から、「1台(対象の数)」の「赤(対象の色特徴)」い「バス(対象の名称)」が「正面(対象の存在する位置)」の「道路(一般物体)」「上(対象の位置関係)」が抽出可能になり、ユーザが点線円51内のバスを着目していると推定可能になる。

0065

同様に、発話44「The sky is fair in NY today」という表現から、「今日」の「NY」の天気は「晴れ」が抽出可能になり、ユーザが点線円(52)の領域「空」を見上げていると推定可能になる。

0066

少し複雑なつぶやき43「A big ad−board of “the Phantom of the Opera”, top on the building on the right side」からは、「右端」に見える「ビル」の「屋上」にある、点線円(53)で示した「オペラ座の怪人」の「広告ボード」をユーザが着目していると推定可能になる。

0067

これら検出可能な単語列は、各々「固有の名称」「一般名詞」「シーン」「色」「位置」「領域」「場所」等を示しており、それらに対応した画像検出・画像抽出処理が実行される。その結果が当該時空間情報、及び画像情報と共に、前記知識情報処理サーバシステム300上に引き渡される。なお、図4Aに記載のイメージは本発明の一実施例を説明したもので、それに限定されない。

0068

ここで、図4Bを用いて、本発明の一実施例における図3Aに記載の手順を実行する過程の学習機能に関して、図4Aのシーンを例に説明する。図4B(A)は図4Aに記載のユーザの主たる視野を反映した画像に関して獲得されたグラフ構造(後述)の一部のスナップショットである。まず画像認識プロセスとグラフ構造との関係を説明する。

0069

ノード(60)は図4Aを代表するノードであり、図4Aの画像データを記録しているノード(61)とリンクしている。以下、ノードとノードのリンクを用いて情報を表現する。ノード(60)はまた、場所を表わすノード(62)と、時間を表わすノード(63)に対してもリンクしている事で、撮影場所と時間の情報を保持している。さらにノード(60)は、ノード(64)とノード(65)とリンクしている。ノード(64)は、図4A中の点線円(50)の対象を代表するノードであり、前記発話41により、特徴量T1(65)、特徴量T2(66)、色属性(67)、切り抜き画像(68)、及び画像内の位置座標(69)の各情報を保持している。前記特徴量は、図3Aの手順の過程における後述の一般物体認識システム106の処理結果として得られる。ノード(65)は、図4Aの点線円(51)の対象を代表するノードであり、前記ノード(64)と同様の情報を保持している。なお、ノード(60)即ち図4Aは、ユーザ1の主観視画像としてノード(77)とリンクしている。

0070

次に、ユーザ2を表すノード(80)の主観視を代表するノード(81)の保持する情報を、図4B(B)に示す。図では簡略化のため、図4B(A)に記載のノードのうちいくつかは省略している。ノード(82)は、ユーザ2の主観視における図4Aの点線円(51)に相当する対象の代表ノードである。同様に、特徴量C1(84)とC2(85)を情報として保持している。

0071

前記ノード(65)にリンクする特徴量であるB1(70)及びB2(71)と、前記ノード(82)にリンクする特徴量であるC1(84)及びC2(85)は、一般物体認識システム106において比較され、同一対象であると判断された場合(即ち同じカテゴリに属した場合)、或いは統計的に新たな重心となり得る場合には、代表特徴量D(91)が算出され学習に付される。本実施例では、当該学習結果をVisual Word辞書110−10に記録する。さらに、対象を代表するノード(90)、及びそのサブノード群(91から93と75から76)をリンクした部分グラフが生成され、ノード(60)は、ノード(65)とのリンクをノード(90)とのリンクに置き換える。同様にノード81は、ノード82とのリンクをノード90とのリンクに置き換える。

0072

次に、他のユーザが異なる時空間において、図4Aで点線円(50)に相当する対象に着目した場合には、前記同様のグラフ構造を構築するが、当該対象に対して一般物体認識システム106は、前記学習により当該対象の特徴量がノード(90)に記録された特徴量と同じクラスにも属すると判断出来るので、ノード(90)とリンクする様にグラフ構造を構築する事が出来る。

0073

図3Aに記載の、ステップ30−20から30−28に対応する特徴抽出処理において抽出された特徴群は、ユーザの発話と、セグメンテーション情報と、当該特徴とをノードに持つグラフ構造として表現出来る。例えば、図4Aの点線円(50)のセグメンテーション領域の場合で、特徴抽出処理がステップ30−20の場合には、色に関する特徴ノードを保持するグラフ構造となる。当該グラフ構造は、既に対象に関する代表ノードが存在する時には、その部分グラフと比較される。図4Bの例では、ノード(67)の色特徴“yellow”と近いと判断出来るので、当該グラフ構造は代表ノード(64)の部分グラフになる。この様なグラフ構造の統合を記録しておいても良い。それにより、当該例では、ユーザの発話と色特徴との関係を記録する事が出来るので、“yellow”に対応する色特徴の確からしさを高める事になる。

0074

上記記載の手順により、後述の画像認識に係るデータベース群(107、109、111、110−10)と、後述のグラフデータベース365は成長(新しいデータを獲得)する。上記記載では一般物体の場合を説明したが、特定物体、人、写真、或いはシーンであっても、同様に当該データベース群に対象に関する情報が蓄積される。

0075

次に図4Cを用いて、本発明の一実施形態におけるグラフデータベース365から複数の対象候補ノードが抽出された場合に、ユーザがどれに着目しているかを算出する手段に関して説明する。当該手順は、例えば、図3Aにおける手順のステップ30−38及びステップ30−39において抽出可能になった複数の対象候補から、ユーザの着目対象を選び出す際に利用出来る。

0076

ステップ(S10)は、前記ステップ30−38の結果の共起物体・事象に対応する代表ノードをグラフデータベース365から抽出する(S11)。当該ステップは、図3Aに記載のステップ30−16、及びステップ30−20から30−28において、前記グラフデータベースをアクセスする事で、例えば色特徴抽出30−20では図4Aに関係する色ノードから、対象ノード(64)と(65)を、図4Aノード60と、2つの色ノード(67)と(72)のリンクから抽出する事が出来る。

0077

前記ステップ(S11)では、1以上の代表ノードが抽出され得る。その全ての代表ノードに対して、次のステップを繰り返す(S12)。ステップ(S13)では、一つの代表ノードを変数iに格納する。そして、当該変数iの代表ノードを参照しているノード数を、変数n_ref[i]に格納する(S14)。例えば、図4B(C)ではノード(90)を参照しているノードからのリンクは点線円(94)のリンクであり、「3」となる。次にn_all[i]にノードiの部分グラフの全ノード数を代入(S15)する。図4B(C)のノード(90)では「5」を代入する。次に、n_ref[i]が規定値以上か?が判断される。YESの場合にはn_fea[i]に1を代入(S17)し、NOの場合には0を代入(S18)する。ステップ(S19)ではn_fea[i]に、前記ノードiの部分グラフ中で図3Aに記載の手順で、ユーザの発話した特徴に対応するノードの数をn_all[i]で除した数値加算する。例えば、図4B(C)の例で、ノード(90)に関して、ユーザが“red”のみを発話した場合には1/5を加算し、ユーザは“red”と“on”と“road”を含む発話をした場合には3/5を加算する。その結果、{n_all[i],n_fea[i]}の二項組を、ノードiに対する選択優先度とする。

0078

上記の構成により、前記画像認識プロセスによる学習結果を反映したグラフ構造を算出基準とする事になり、当該学習結果を選択優先度に反映する事が出来る。例えば、図3Aの記載の、ステップ30−20から30−28を含む特徴とユーザの発話が一致する場合には、代表ノードに当該特徴に関するノードが追加されるので、前記ステップにより算出された選択優先度が変化する。なお、選択優先度の算出は当該手法には限らない。例えばリンクの重みを考慮しても良い。また、図4B(C)ではノード(74)とノード(75)を他のノードを同じ重みとしてノード数をカウントしたが、当該ノード(74)とノード(75)は強関係にあるとして、1つのノードとしてカウントしても良い。この様にノード間の関係を考慮しても良い。

0079

ステップ30−39の抽出可能になった全特徴群の記述の生成では、前記選択優先度の第1項の値が大きな順に並べたノード群の中で、第2項が値「1」以上のノードを選び、後述の会話エンジン430を利用して、音声による再確認をユーザに対して行う事が出来る。当該第2項は、ステップ(S16)にて規定値との関係から算出している。即ち、前記代表ノードの非参照数から算出している。例えばステップ(S16)の規定値を「2」にした場合には、2以上の複数のユーザがリンクしている(即ち一度はユーザの着目対象になっている)代表ノードを選び出す。即ちユーザ対して再確認をする候補に加える事を意味している。以上記載の手順により、ステップ30−38の共起物体・事象の抽出による当該対象候補群の中から、よりユーザの意にかなった対象を選び出す事が可能になる。

0080

なお、前記選択優先度に係る二項組の値は、前記組み合わせの利用手段以外を用いても良い。例えば、前記二項組で表現された選択優先度を2次元ベクトルとして正規化して比較しても良い。また、例えば、代表ノードに係る部分グラフにある特徴量ノード図4B(C)の例ではノード(91)の対応クラス内での代表特徴量(例えば、Visual Word辞書110−10における特徴量)との距離を考慮して、前記選択優先度を算出しても良い。

0081

さらに、前記再確認において、ユーザが規定時間無言の場合には、ユーザの意にかなった対象を認識した可能性と見做して、カメラ画像のアップロードを終了(30−50)しても良い。

0082

図5を用いて、本発明の一実施形態に係る知識情報処理サーバシステム300における機能ブロックを説明する。本発明では画像認識システム301、生体認証部302、インタレストグラフ部303、音声処理部304、状況認識部305、メッセージ保管部306、再生処理部307、ユーザ管理部308から構成しているが、これらに限定されず、そのいくつかを選択して構成しても良い。

0083

上記音声処理部304部は、ユーザが装着したヘットセットシステム200が拾うユーザの発声を、音声認識システム320を利用して発話単語列に変換する。また、後述の再生処理部306からの出力を、音声合成システム330を利用して当該ユーザに前記ヘッドセットシステムを通して音声として通知する。

0084

次に図6Aから図6Eを用いて、本発明の一実施形態における画像認識システム301の機能ブロックを説明する。前記画像認識システムでは、ヘッドセットシステム200からの画像に対して、一般物体認識、特定物体認識、シーン認識等の画像認識処理を行う。

0085

最初に図6Aを用いて、本発明の一実施形態における画像認識システム301の構成例を説明する。画像認識システム301は、一般物体認識システム106、シーン認識システム108、特定物体認識システム110、画像カテゴリデータベース107、シーン構成要素データベース109、及びマザーデータベース(以下MDBと略す)111で構成される。一般物体認識システム106は、一般物体認識部106−01、カテゴリ検出部106−02、カテゴリ学習部106−03、及び新規カテゴリ登録部106−04とで構成され、シーン認識システム108は、領域抽出部108−01、特徴抽出部108−02、重み学習部108−03、及びシーン認識部108−04とで構成され、特定物体認識システム110は、特定物体認識部110−01、MDB検索部110−02、MDB学習部110−03、及び新規MDB登録部110−04とで構成され、画像カテゴリデータベース107は、カテゴリ分類データベース107−01、及び不特定カテゴリデータ107−02で構成され、シーン構成要素データベース109は、シーン要素データベース109−01、及びメタデータ辞書109−02とで構成され、MDB111は、詳細設計データ111−01、付帯情報データ111−02、特徴量データ111−03、及び不特定物体データ111−04とで構成される。画像認識システム301の機能ブロックは必ずしもこれらに限定されるものではないが、これら代表的な機能について簡単に説明する。

0086

一般物体認識システム106は、画像中に含まれる物体を一般的な名称、或いはカテゴリで認識する。ここでいうカテゴリは階層的であり、同じ一般物体として認識されているものでも、さらに細分化されたカテゴリ(同じ椅子でも4本足の「椅子」もあれば、全く足の無い「座椅子」の様なものまで含まれる)や、さらに大域的なカテゴリ(椅子も机もタンスも含めて、これらは全て「家具」のカテゴリとして大分類される)としても分類及び認識が可能である。カテゴリ認識は、この分類を意味する「Classification」、即ち既知のクラスに物体を分類するという命題であり、カテゴリはまたクラスとも呼ばれる。

0087

一般物体認識プロセスにおいて、入力画像中の物体と参照物体画像との比較照合を行った結果、それらが同一形状であるか類似形状である場合、あるいは極めて類似した特徴を併せ持ち、他のカテゴリが有する主要な特徴において明らかに類似度が低いと認められる場合に、認識された物体に対し対応する既知のカテゴリ(クラス)を意味する一般名称を付与する。それらの各カテゴリを特徴付け必須要素を詳細に記述したデータベースがカテゴリ分類データベース107−01であり、それらのいずれにも分類する事が出来ない物体は、不特定カテゴリデータ107−02として一時的に分類し、将来の新たなカテゴリ登録、あるいは既存カテゴリの定義範囲の拡大に備える。

0088

一般物体認識部106−01では、入力された画像中の物体の特徴点から局所特徴量を抽出し、それらの局所特徴量が予め学習によって得られた所定の特徴量の記述と似ているか似ていないかを相互に比較して、前記物体が既知の一般物体であるかどうかを判別するプロセスを実行する。

0089

カテゴリ検出部106−02では、一般物体認識可能となった物体がどのカテゴリ(クラス)に属するかを、カテゴリ分類データベース107−01との照合において特定あるいは推定し、その結果、特定カテゴリにおいてデータベースに追加あるいは修正を加える様な追加の特徴量が見出された場合には、カテゴリ学習部106−03において再学習した上で、カテゴリ分類データベース107−01の前記一般物体に関する記述をアップデートする。また一旦、不特定カテゴリデータ107−02とされた物体とその特徴量が別に検出された他の不特定物体の特徴量と極めて類似であると判定された場合には、それらは新たに発見された同一の未知のカテゴリ物体である可能性が高いとして、新規カテゴリ登録部106−04において、カテゴリ分類データベース107−01にそれらの特徴量が新規登録され、当該物体に対し新たな一般名称が付与される。

0090

シーン認識システム108では、入力画像全体あるいは一部を支配している特徴的な画像構成要素を、性質の異なる複数の特徴抽出システムを用いて検出し、それらをシーン構成要素データベース109に記載されているシーン要素データベース109−01と多次元空間上で相互に参照する事で、各々の入力要素群が当該特定シーン内に検出されるパターンを統計処理により求め、画像全体あるいは一部を支配している領域が当該特定のシーンであるかどうかを認識する。併せて、入力画像に付帯しているメタデータ群と、シーン構成要素データベース109に予め登録済みのメタデータ辞書109−02に記載されている画像構成要素とを照合し、シーン検出の精度を一段と向上させる事が可能となる。領域抽出部108−01では、画像全体を必要に応じて複数の領域に分割して、領域毎にシーン判別を可能にする。例えば、都市空間内のビルの壁面や屋上に設置した監視カメラからは、交差点や数多くの店舗エントランス等の複数のシーンを見渡す事が出来る。特徴抽出部108−02は、指定した画像領域内における検出された複数の特徴点の局所特徴量、色情報や物体の形状等、利用可能な様々な画像特徴量から得られる認識結果を後段の重み学習部108−03に入力し、各々の要素が特定のシーンにおいて共起する確率を求め、シーン認識部108−04に入力して最終的な入力画像に対するシーン判別を行う。

0091

特定物体認識システム110は、入力された画像から検出された物体の特徴を、予めMDB111内に収納されている特定物体群の特徴と逐次照合し、最終的に物体を同定処理(Identification)する。地球上に存在する特定物体の総数は膨大で、それら全ての特定物体との照合を行う事はおよそ現実的ではない。従って、後述する様に、特定物体認識システムの前段において、予め一定の範囲内に物体のカテゴリや探索範囲を絞り込んでおく必要がある。特定物体認識部110−01では、検出された画像特徴点における局所特徴量と、学習によって得られたMDB111内の特徴パラメータ群とを相互に比較し、前記物体がどの特定物体に当て嵌まるかの判別を統計処理により判別する。MDB111には、その時点で入手可能な当該特定物体に関する詳細なデータが保持されている。一例として、それら物体が工業製品であるならば、詳細設計データ111−01として設計図CADデータ等から抽出された物体の構造、形状、寸法、配置図、可動部、可動範囲、重量、剛性仕上げ等、物体を再構成し製造する為に必要な基本情報等がMDB111内に保持される。付帯情報データ111−02には、物体の名称、製造者部品番号、日時、素材、組成加工情報等、物体に関する様々な情報が保持される。特徴量データ111−03には、設計情報に基づいて生成される個々の物体の特徴点や特徴量に係る情報が保持される。不特定物体データ111−04は、その時点ではどの特定物体にも属していない不明な物体等のデータとして、将来の解析に備えMDB111内に暫定的に収納される。MDB検索部110−02は、当該特定物体に対応する詳細データを検索する機能を提供し、MDB学習部110−03は、適応的かつ動的な学習プロセスを通して、MDB111内の当該物体に係る記載内容に対し追加・修正を行う。また一旦、不特定物体として不特定物体データ111−04とされた物体も、その後に類似の特徴を有する物体が頻繁に検出された場合、新規MDB登録部110−04により、新たな特定物体として新規登録処理される。

0092

図6Bに、本発明の一実施形態における一般物体認識部106−01のシステム構成、及び機能ブロックの実施例を示す。一般物体認識部106−01の機能ブロックは必ずしもこれらに限定されるものではないが、代表的な特徴抽出手法としてBag−of−Features(以下、BoFと略す)を適用した場合の一般物体認識手法について、以下に簡単に説明する。一般物体認識部106−01は、学習部106−10、比較部106−11、ベクトル量子化ヒストグラム部(学習)110−11、ベクトル量子化ヒストグラム部(比較)110−14、及びベクトル量子化ヒストグラム識別部110−15で構成され、学習部110−16は、局所特徴量抽出部(学習)110−07、ベクトル量子化部(学習)110−08、Visual Word作成部110−09、及びVisual Word辞書(CodeBook)110−10とで構成される。

0093

BoFは、画像中に現れる画像特徴点を抽出し、その相対位置関係を用いずに物体全体を複数の局所特徴量(Visual Word)の集合体として表現し、それらを学習によって得られたVisual Word辞書(CodeBook)110−10と比較照合して、それら局所特徴量の構成がどの物体に最も近いかを判別する。

0094

図6Bを用いて、本発明の一実施形態における一般物体認識部106−01における処理を説明する。学習部106−10を構成する局所特徴量抽出部(学習)110−07により得られた多次元の特徴ベクトルは、後段のベクトル量子化部(学習)110−08によって一定次元数の特徴ベクトル群クラスタ分割され、Visual Word作成部110−09で各々の重心ベクトルを元に、特徴ベクトル毎にVisual Wordが生成される。クラスタリングの手法として、k−means法やmean−shift法が知られている。生成されたVisual Wordは、Visual Word辞書(CodeBook)110−10に収納され、それを基に入力画像から抽出された局所特徴量を相互に照合し、ベクトル量子化部(比較)110−13においてVisual Word毎にベクトル量子化を行う。その後、ベクトル量子化ヒストグラム部(比較)110−14において、全てのVisual Wordに対するヒストグラムを生成する。

0095

当該ヒストグラムの各ビンの総数(次元数)は通常数千から数万と多く、入力画像によっては特徴の一致が全くないヒストグラムのビンも数多く存在する一方、特徴の一致が顕著なビンもあり、それらを一括してヒストグラムの全ビンの値の総和が1になる様な正規化処理を行う。得られたベクトル量子化ヒストグラムは、後段のベクトル量子化ヒストグラム識別部110−15へと入力され、一例として代表的な識別器であるSupport Vector Machine(以下SVMと呼称)において、物体の属するクラス、即ち当該対象が如何なる一般物体であるかを認識処理する。ここでの認識結果は、前記Visual Word辞書に対する学習プロセスとしても利用可能である。また、他の手法(メタデータや集合知の利用)から得られた情報も、同様に前記Visual Word辞書に対する学習フィードバックとして利用が可能で、同一クラスの特徴を最も適切に記述し、且つ他のクラスとの分離度を良好に保つ様に、適応的な学習を継続する事が重要となる。

0096

図6Cに、本発明の一実施形態における前記一般物体認識部106−01を含む一般物体認識システム106全体の概略構成ブロック図を示す。一般物体(クラス)は様々なカテゴリに属していて、それらは多重的な階層構造を成している。一例を挙げると、人間は「哺乳類」という上位カテゴリに属し、哺乳類は「動物」というさらに上位のカテゴリに属している。人間はまた、髪の色や目の色、大人か子供か?といった別のカテゴリでも認識が可能である。これらの認識判断を行うには、カテゴリ分類データベース107−01の存在が欠かせない。これは人類の「知」の集積庫であり、将来の学習や発見によって、そこにさらに新たな「知」が加わり継続的な進化が図られるものでもある。一般物体認識部106−01で同定されたクラス(およそ人類がこれまでに識別している全ての名詞の総数に及ぶ)は、様々な多次元的且つ階層的な構造体として、当該カテゴリ分類データベース107−01内に記述されている。継続的な学習において認識された一般物体は、カテゴリ分類データベース107−01と照合され、カテゴリ検出部106−02で所属カテゴリが認識される。その後、カテゴリ学習部106−03に当該認識結果が引き渡され、カテゴリ分類データベース107−01内の記述との整合性チェックされる。一般物体認識された物体は、時に複数の認識結果を内包する場合が多い。例えば「昆虫」であると認識した場合に、目の構造や手足の数、触角の有無、全体の骨格構造や羽の大きさ、胴体色彩や表面のテクスチャ等でも新たな認識・分類が可能で、前記カテゴリ分類データベース107−01内の詳細記述を基に照合される。カテゴリ学習部106−03では、これらの照合結果を基に、カテゴリ分類データベース107−01への追加・修正が必要に応じて適応的に行われる。その結果、既存カテゴリのいずれにも分類出来ない場合、「新種の昆虫」である可能性も高いとして、新規カテゴリ登録部106−04がこれらの新規物体情報をカテゴリ分類データベース107−01内に登録する。一方、その時点で不明な物体は、不特定カテゴリデータ107−02として、将来の解析や照合に備え一時的にカテゴリ分類データベース107−01内に収納される。

0097

図6Dに、本発明の一実施形態における入力画像に含まれるシーンを認識判別する、シーン認識システム108の本発明における代表的な実施例をブロック図で示す。学習画像及び入力画像からは、一般に複数の物体が認識可能となるケースが多い。例えば、「空」「太陽」「地面」等を表す領域と同時に、「木」や「草」そして「動物」等の物体が同時に認識可能となる場合、それらが「動物園」なのか「アフリカの草原」なのかは、全体の景色やそれ以外に発見される物体との共起関係等から類推する事になる。例えば、檻や案内板等が同時に発見され多くの見物客で賑わっていれば、そこが「動物園」である可能性が高まるが、全体のスケールが大きく、遠くに「キリマンジャロ」の様な雄大な景色を臨み、様々な動物が混在して草原上にいる様な場合には、そこが「アフリカの草原」である可能性が一気に高まる。この様な場合、さらに認識可能な物体や状況、共起事象等を知識データベースであるシーン構成要素データベース109に照合し、より総合的な判断を下す必要も出てくる。例えば、全画面の9割が「アフリカの草原」を指し示していると推定されても、後述の図22に記載の事例における手順と共に、それらが矩形の枠で切り取られ全体が平面状であれば、ポスターや写真である確率が極めて高くなる。

0098

シーン認識システム108は、領域抽出部108−01、特徴抽出部108−02、強識別器(重み学習部)108−03、シーン認識部108−04、及びシーン構成要素データベース109から構成され、特徴抽出部108−02は、局所特徴量抽出部108−05、色情報抽出部108−06、物体形状抽出部108−07、コンテキスト抽出部108−08、及び弱識別器108−09から108−12とで構成され、シーン認識部108−04は、シーン分類部108−13、シーン学習部108−14、及び新規シーン登録部108−15で構成され、シーン構成要素データベース109は、シーン要素データベース109−01、及びメタデータ辞書109−02で構成される。

0099

領域抽出部108−01は、背景や他の物体の影響を受けずに目的とする物体の特徴を効果的に抽出する為に、対象画像に係る領域抽出を行う。領域抽出手法の例として、グラフベース領域分割法(Efficient Graph−Based Image Segmentation)等が知られている。抽出された物体画像は、局所特徴量抽出部108−05、色情報抽出部108−06、物体形状抽出部108−07、及びコンテキスト抽出部108−08に各々入力され、それらの各抽出部から得られた特徴量が弱識別器108−09から108−12において識別処理され、多次元の特徴量群として統合的にモデリングされる。それらモデリング化された特徴量群を、重み付け学習機能を有する強識別器108−03に入力し、最終的な物体画像に対する認識判定結果を得る。前記の弱識別器の例としてSVM、強識別器の例としてはAdaBoost等が代表的である。

0100

一般に入力画像には複数の物体や、それらの上位概念である複数のカテゴリが含まれている場合が多く、人間はそこから一目で特定のシーンや状況(コンテキスト)を思い浮かべる事が出来る。一方、単独の物体や単一のカテゴリのみを提示された場合、それだけで入力画像がどういうシーンを表わしているのかを判断するのは困難である。通常は、それらの物体が存在している周囲の状況や相互の位置関係、また各々の物体やカテゴリの共起関係(同時に出現する確率)が、当該シーンの判別に対して重要な意味を持ってくる。前項で画像認識可能となった物体群カテゴリ群は、シーン要素データベース109−01内に記述されているシーン毎構成要素群の出現確率を基に照合処理され、後段のシーン認識部108−04において、係る入力画像がいかなるシーンを表現しているのかを統計的手法を用いて決定する。

0101

これとは別の判断材料として、画像に付帯しているメタデータも有用な情報源となり得る。しかし、時には人間が付したメタデータ自体が、思い込みや明らかな誤り、或いは比喩として画像を間接的に捉えている場合等もあり、必ずしも当該画像中に存在する物体やカテゴリを正しく表わしているとは限らない場合がある。この様な場合にも、前記画像認識システムを備えた知識情報処理サーバシステムから抽出可能な当該対象に係る共起事象等を参考に総合的に判断し、最終的な物体やカテゴリの認識処理が行われる事が望ましい。また、一つの画像からは複数のシーンが得られる場合も多い。例えば、「の海」であると同時に「海水浴場」であったりもする。その場合は、複数のシーン名が当該画像に付される。さらに画像に付すべきシーン名として、例えば「夏の海」或いは「海水浴場」のいずれがより適当であるかは、当該画像のみからでは判断が難しく、前後の状況や全体との関係、各々の要素群の共起関係等を参考に、それらの要素間の関連性を記述した知識データベース(未図示)を基に最終的に判断が必要な場合もある。

0102

図6Eに、本発明の一実施形態における特定物体認識システム110のシステム全体の構成例、及び機能ブロックを示す。特定物体認識システム110は、一般物体認識システム106、シーン認識システム108、MDB111、特定物体認識部110−01、MDB検索部110−02、MDB学習部110−03、及び新規MDB登録部110−04とで構成され、特定物体認識部110−01は、二次元写像部110−05、個別画像切り出し部110−06、局所特徴量抽出部(学習)110−07、ベクトル量子化部(学習)110−08、Visual Word作成部110−09、Visual Word辞書(CodeBook)110−10、ベクトル量子化ヒストグラム部(学習)110−11、局所特徴量抽出部(比較)110−12、ベクトル量子化部(比較)110−13、ベクトル量子化ヒストグラム部(比較)110−14、ベクトル量子化ヒストグラム識別部110−15、形状特徴量抽出部110−16、形状比較部110−17、色情報抽出部110−18、及び色彩比較部110−19とで構成される。

0103

一般物体認識システム106により、対象物体の属するクラス(カテゴリ)が認識可能になった時点で、物体がさらに特定物体としても認識可能か?という絞り込みのプロセスに移る事が出来る。クラスが或る程度特定されないと、無数の特定物体群からの検索を余儀なくされ、時間的にもコスト的にも実用的とは言えない。これらの絞り込みプロセスには、一般物体認識システム106によるクラスの絞り込み以外にも、シーン認識システム108の認識結果から当該対象の絞り込みを行う事も有用となる。また特定物体認識システム110から得られる特徴量を用いて、さらなる絞り込みが可能になるだけではなく、物体の一部にユニークな識別情報商品名とか、特定の商標ロゴ等)が認識可能な場合、或いは有用なメタデータ等が予め付されているケースでは、さらなるピンポイントの絞り込みも可能となる。

0104

それら絞り込まれたいくつかの可能性の中から、複数の物体候補群に係る詳細データや設計データをMDB検索部110−02がMDB111内から順次引き出し、それらを基に入力画像との適合プロセスが実行される。物体が工業製品でない場合や、詳細な設計データ自体が存在していない場合においても、写真等があれば各々検出可能な画像特徴及び画像特徴量を詳細に突き合わせる事で、或る程度の特定物体認識が可能となる。しかし、入力画像と比較画像見え方が全く同じというケースは稀で、例え同じであっても各々を違う物体として認識してしまう事例もある。反面、物体が工業製品であり、CAD等の詳細なデータベースが利用可能な場合には、一例として二次元写像部110—05が入力画像の見え方に応じMDB111内の三次元データ二次元画像可視化レンダリング)する事により、精度の高い特徴量の適合処理を行う事が可能になる。この場合、二次元写像部110—05における二次元画像へのレンダリング処理を全視点方向からくまなく写像して実行する事は、計算時間と計算コストの不要な増大を招く事から、入力画像の見え方に応じた絞り込み処理が必要となる。一方、MDB111を用いた高精度のデータから得られる各種特徴量は、学習プロセスにおいて予め求めておく事が可能である。

0105

特定物体認識部110−01では、物体の局所特徴量を局所特徴量抽出部110−07で検出し、ベクトル量子化部(学習)110−08で各々の局所特徴量を複数の類似特徴群に分離した後、Visual Word作成部110−09で多次元の特徴量セットに変換し、それらをVisual Word辞書110−10に登録する。これらは多数の学習画像に対し、十分な認識精度が得られるまで継続して行われる。学習画像が例えば写真等である場合は、画像の解像度不足やノイズの影響、オクルージョンの影響、対象以外の物体から受ける影響等が避けられないが、MDB111を基にしている場合は、ノイズのない高精度のデータを基に理想的な状態で対象画像の特徴抽出を行う事が可能な事から、従来の手法に比べて大幅に抽出・分離精度を高めた認識システムを構成する事が可能となる。入力画像は、個別画像切り出し部110−06で目的とする特定物体に係る領域が切り出された後に、局所特徴量抽出部(比較)110−12において局所特徴点及び特徴量が算出され、予め学習により用意されたVisual Word辞書110−10を用い個々の特徴量毎にベクトル量子化部(比較)110−13にてベクトル量子化された後に、ベクトル量子化ヒストグラム部(比較)110−14にて多次元の特徴量に展開され、ベクトル量子化ヒストグラム識別部110−15にて、物体が当該学習済み物体と同一か、似ているか、それとも否かが識別判断される。識別器の例として、SVM(Support Vector Machine)が広く知られているが、他にも識別判断の重み付けを学習の上で可能にするAdaBoost等も有効な識別器として広く活用されている。これらの識別結果は、MDB学習部110−03を通じてMDB自体への追加修正、或いは新たな項目の追加というフィードバックループにも利用可能となる。対象が依然として未確認となる場合には、新規MDB登録部110−04に保留され、次なる解析再開に備える。

0106

また、局所特徴量のみならず、検出精度をさらに向上させる目的で、物体の形状特徴を利用する事も有用となる。入力画像から切り出された物体は、形状特徴量抽出部110−16を経由して形状比較部110−17に入力され、物体の各部の形状的な特徴を用いた識別が行われる。その識別結果はMDB検索部110−02にフィードバックされ、それによりMDB111に対する絞り込み処理が可能となる。形状特徴量抽出手段の例として、HoG(Histograms of Oriented Gradients)等が知られている。形状特徴は、またMDB111を用いた二次元写像を得る為の多視点方向からのレンダリング処理を大幅に減らす目的でも有用となる。

0107

また、物体の色彩的な特徴やテクスチャ(表面処理)も、画像認識精度を上げる目的で有用である。切り出された入力画像は、色情報抽出部110−18に入力され、色彩比較部110−19で物体の色情報、あるいは当該テクスチャ等の抽出が行われ、その結果をMDB検索部110−02にフィードバックする事で、MDB111においてさらなる絞り込み処理を行う事が可能となる。これら、一連のプロセスを通じて、特定物体認識処理をより効果的に行う事が可能となる。

0108

次に、図7を用いて、本発明の一実施形態における生体認証部302の処理手順340を説明する。ユーザが前記ヘッドセットシステム200を装着する事で(341)、以下の生体認証処理が始まる。ユーザと前記知識情報処理サーバシステムとの間の通信において、個々のユーザに対応する生体認証情報や、個々のユーザのプロファイル等の個人情報をやり取りする場合には、通信途中でのデータの抜き取り改竄等の不正な行為からの強力な保護が必須になる。そこで、まず上記生体認証システムとの間で、強力な暗号化通信路確立する(342)。ここではSSL(Secure Sockets Layer)や、TLS(Transport Layer Security)等の技術(例えば、http://www.openssl.org/)を用いる事が可能になるが、他の同様の暗号化手法を導入しても良い。次に、前記ヘッドセットシステムに具備された生体認証センサ204から、生体認証情報345を取得する。生体認証情報には、前記ヘッドセットシステムを装着するユーザの外耳部や鼓膜における静脈パターン情報等を用いる事が出来るが、これらを選択して組み合わせても良いし、これらには限らない。前記生体認証情報はテンプレートとして、前記生体認証システムに送付される。図7のステップ355は、前記生体認証システム側での処理を説明している。ステップ356にて、当該テンプレートを知識情報処理サーバシステム300にユーザ登録する。ステップ357にて、当該テンプレートから署名暗号化関数f(x,y)を生成し、ステップ358にて前記関数を当該ヘッドセットシステムに返す。ここで、f(x,y)における“x”は署名暗号化されるデータであり、“y”は署名暗号化の際に用いる生体認証情報である。判断345では、前記関数を入手出来たかどうかを確認し、YESの場合には当該ヘッドセットシステムと前記知識情報処理サーバシステム間の通信に前記関数を利用する(346)。判断345がNOの場合には、規定回数、前記判断345がNOであるかを判断(349)し、YESの場合には認証エラーをユーザに通知する(350)。当該判断349がNOの場合には、ステップ344から処理を繰り返す。その後、ステップ(347)で規定時間待ってから、ループ(343)を繰り返す。ユーザが当該ヘッドセットシステムを取り外した場合、或いは前記認証エラーの場合には、前記生体認証システムとの間の暗号化通信路を切断する(348)。

0109

図8Aに、本発明の一実施形態におけるインタレストグラフ部303の構成例を示す。本実施例においては、グラフデータベース365へのアクセスを、グラフデータベース365、及びユーザデータベース366への直接アクセスとして記述しているが、具体的な実装においては、システムを利用中のユーザに係るインタレストグラフ適用処理の高速化を図る目的で、グラフ記憶部360はグラフデータベース365内に収納されているグラフ構造データの中から必要な部分のみ、及びユーザデータベース366内に記載の当該ユーザに係る必要な部分情報を自らの高速メモリ上に選択的に読み出し、内部にキャッシュする事が可能である。

0110

グラフ演算部361は、前記グラフ記憶部360から部分グラフの抽出、又は前記ユーザに係るインタレストグラフの演算を行う。関連性演算部362は、ノード間の関連性に関して、n(>1)次繋がりのノードの抽出、フィルタリング処理、及びノード間のリンクの生成・破壊等を行う。統計情報処理部363は、前記グラフデータベース内のノードとリンクデータを統計情報として処理し、新規の関連性を発見する。例えば、或る部分グラフが別の部分グラフと情報距離が近く、同じ様な部分グラフが同一クラスタ内に分類出来る時は、新しい部分グラフは前記クラスタに含まれる確率が高いと判断可能になる。

0111

ユーザデータベース366は、当該ユーザに関する情報を保持しているデータベースであり、前記生体認証部302にて利用される。本発明では、前記ユーザデータベース内部の当該ユーザに対応したノードを中心としたグラフ構造を、当該ユーザのインタレストグラフとして扱う。

0112

図8Bを用いて、本発明の一実施形態におけるグラフデータベース(365)に関して説明する。図8B(A)に、前記グラフデータベース(365)に対する基本アクセス手法を示す。value(371)は、key(370)からlocate演算(372)により得られる。前記key(370)は、value(373)をハッシュ(hash)関数で計算して導出する。例えば、ハッシュ関数にSHA−1アルゴリズムを用いた場合には、key(370)は160ビット長になる。Locate演算(372)には、分散ハッシュテーブル(Distributed Hash Table)法を利用出来る。図8B(B)に示す様に、本発明では、前記keyとvalueの関係を(key, {value})で表現し、前記グラフデータベースへの格納単位とする。

0113

例えば、図8B(C)の様に、2つのノードがリンクされている場合、ノードn1(375)は、(n1, {ノードn1})で、ノードn2(376)は、(n2, {ノードn2})で表現する。n1やn2は、各々ノードn1(375)、ノードn2(376)のkeyであり、ノード実体n1(375)、ノード実体n2(376)を各々hash演算し、各々のkeyを得る。また、リンクl1(377)は、ノードと同様に(l1, {n1, n2})で表現し、{n1, n2}をhash演算する事で、そのkey(l1)377を得る。

0114

図8B(D)は、前記グラフデータベースの構成要素の一例である。ノード管理部380)は前記ノードを、リンク管理部381は前記リンクを管理し、各々をノード・リンク格納部385に記録する。データ管理部382は、ノードに関連したデータをデータ格納部386に記録すべく管理する。

0115

図9を用いて、本発明の一実施例における状況認識部305の構成例を説明する。図9(A)における履歴管理部410は、ユーザ毎にネットワーク・コミュニケーションシステム100内での利用履歴を管理する。例えば、対象に対する着目を足跡フットプリント)として残す事を可能にする。或いは、同じメッセージやつぶやきを繰り返して再生しない様に、前回どこまで再生したか?を記録する。或いは、メッセージやつぶやきの再生を途中で中止した時には、以降の継続再生の為に当該再生を中止した箇所を記録する。例えば、図9(B)では、その一実施例として、グラフデータベース365に記録されたグラフ構造の一部を示す。ユーザ(417)ノード、対象(415)ノード、及びメッセージやつぶやき(416)ノードは、各々リンクで繋がっている。ノード(416)に再生位置を記録したノード(418)をリンクする事で、ユーザ(417)の着目した対象(415)に関するメッセージやつぶやきの再生を、ノード(418)として記録した再生位置から再開する。なお、本実施例における前記利用履歴はこれらの手法には限定されず、同様の効果が期待出来る他の手法を用いても良い。

0116

メッセージ選択部411はユーザ毎に管理され、ユーザが着目した対象に複数のメッセージやつぶやきが記録されていた場合に、適切なメッセージやつぶやきを選択する。例えば、記録された時刻順で再生しても良い。当該ユーザに係るインタレストグラフから、当該ユーザの関心の高い話題を選択的に選び出し再生しても良い。また、当該ユーザを明示的に指定したメッセージやつぶやきを優先的に再生しても良い。なお、本実施例におけるメッセージやつぶやきの選択手順は、これらに限定されない。

0117

カレントインタレスト412は、インタレストグラフ部303中の当該ユーザに係る現在の関心を表すノード群として、ユーザ毎に管理され収納されている。前記メッセージ選択部では、前記カレント・インタレストにおける当該ユーザの現在の関心に対応したノード群から上記グラフ構造を探索する事で、当該ユーザが当該時点において関心度の高いノード群を選び出し、後述の会話エンジン430の入力要素とし、それらを一連の文章に変換し再生する。

0118

当該ユーザの関心の対象や度合いは、例えば後述の図17におけるグラフ構造から求める。図17において、ユーザ(1001)ノードは,ノード(1005)とノード(1002)へのリンクを有している。即ち、このリンクから,「ワイン」と「車」に関心があるとする。前記ユーザが「ワイン」と「車」のどちらに関心が高いかは、ノード「ワイン」から繋がるグラフ構造と、ノード「車」から繋がるグラフ構造とを比較し、ノード数が多い方をより関心が高いとしても良いし、ノードに関連した着目履歴から、着目回数の多い方により関心が高いとしても良いし、前記ユーザが自らの関心の強さを指定しても良いし、これらには限定されない。

0119

図10を用いて、本発明の一実施形態におけるメッセージ保管部306に関して説明する。ユーザが発話したメッセージやつぶやき391、及び/又は、ヘッドセットシステム200で撮影した画像421は、当該メッセージ保管部によりメッセージデータベース420に記録される。メッセージノード生成部422は、インタレストグラフ部303から前記メッセージやつぶやきの対象となる情報を取得し、メッセージノードを生成する。メッセージ管理部423は、当該メッセージノードに前記メッセージやつぶやきを関連付けて、前記メッセージやつぶやきを前記グラフデータベース365に記録する。なお、前記ヘッドセットシステムで撮影した画像421を、同様に前記グラフデータベース365に記録しても良い。なお、前記メッセージやつぶやきの記録には、ネットワークを経由してネットワーク上の同様のサービスを利用しても良い。

0120

図11を用いて、本発明の一実施形態における再生処理部307に関して説明する。ユーザのメッセージやつぶやき391を含むユーザの発話は、音声認識システム320で認識処理され、単数の或いは複数の単語列に変換される。前記単語列は、状況認識部304において「ユーザが現在何かの対象に着目している?」「時空間情報を指示している?」「或いは何かの対象に向かい話しかけている?」という状況識別子を付与され、再生処理部306の構成要素である会話エンジン430に送付される。なお、前記状況認識部304の出力としての識別子は、前記の各々の状況には限定されないし、当該識別子を用いない手法で構成しても良い。

0121

前記再生処理部307は、前記会話エンジン430、着目処理部431、コマンド処理部432、ユーザメッセージ再生部433から構成されるが、これらを選択して構成しても良いし、新たな機能を追加して構成しても良く、当該構成には限定されない。前記着目処理部は、前記状況認識部から対象を着目中であるとの識別子が付された場合に実行され、図3Aに記載の一連の処理を担う。前記ユーザメッセージ再生部は、対象に残されたメッセージやつぶやき、及び/又は、関連付けられた画像の再生を行う。

0122

図12を用いて、本発明の一実施形態に係るユーザ管理部308に関し説明する。前記ユーザ管理部は、許可されたユーザのACL(アクセス制御リスト)をグラフ構造で管理する。例えば、図12(A)は、一人のユーザ(451)ノードが、許可(450)ノードとリンクを有している状態を示す。これにより、当該ユーザに対し、当該許可ノードとリンクしたノードに対する許可が与えられる。当該ノードがメッセージやつぶやきであれば、それらを再生する事が出来る。

0123

図12(B)は、特定のユーザ群に許可を与えている例である。許可(452)ノードは、ユーザグループ(453)ノードにリンクする、ユーザ1(454)ノード、ユーザ2(455)ノード、及びユーザ3(456)ノードに対し、一括して許可を与えている様子を示している。また、図12(C)は、全員(458)ノードに対し、一括して許可(457)ノードが与えられている例である。

0124

さらに、図12(D)は、特定のユーザ(460)ノードに対し、特定の時間或いは時間帯(461)ノード、特定の場所/地域(462)ノードに限り許可(459)ノードを与えている様子を示している。

0125

なお、本実施例におけるACLは、図12以外の構成をとっても良い。例えば、不許可ノードを導入して、許可を与えないユーザを明示する様に構成しても良い。また、前記許可ノードをさらに詳細化して、再生許可ノードと記録許可ノードを導入する事で、メッセージやつぶやきを再生する場合と記録する場合で、許可の形態を変える様に構成しても良い。

0126

図13Aを用いて、本発明の一実施形態に係るネットワーク・コミュニケーションシステム100を利用するユーザを中心とした、ユースケース・シナリオの一事例を説明する。

0127

本発明では、ユーザが装着しているヘッドセットシステム200に具備されたカメラの撮影可能範囲を視野503と呼び、ユーザが主に見ている方向を当該ユーザの主観的な視野:主観視502と呼ぶ。ユーザは、ネットワーク端末220を装着しており、ユーザの発話(506又は507)を前記ヘッドセットシステムに組み込まれたマイクロフォン201で拾い、ユーザの主観視を反映した前記ヘッドセットシステムに組み込まれたカメラ203が撮影する映像と共に、前記知識情報処理サーバシステム300側にアップロードされている。前記知識情報処理サーバシステム側からは、前記ヘッドセットシステムに組み込まれたイヤフォン202、或いはネットワーク端末220に対し、音声情報、及び映像/文字情報等を返す事が可能になっている。

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

  • 株式会社ソケッツの「 検索装置および方法」が 公開されました。( 2019/09/19)

    【課題】同一の感性ワードで加重的に絞り込み検索を行えるようにする。【解決手段】同一の感性ワードで加重的に絞り込み検索を行う場合、類似・関連ワード抽出部319が、感性ワードに類似・関連する別のワードを検... 詳細

  • 横浜信用金庫の「 情報提供システム、情報提供方法、プログラム」が 公開されました。( 2019/09/19)

    【課題】精度がより高いビジネスマッチングを実現することである。【解決手段】情報提供システム1は、従業員が属する企業の企業情報及び経営者が経営する企業の企業情報の少なくとも何れかを記憶する記憶部120と... 詳細

  • 株式会社ドワンゴの「 サーバおよびプログラム」が 公開されました。( 2019/09/19)

    【課題】ゲームのリアルタイムプレイ動画の観客による当該ゲームの進行へ介入が短期間に集中することによる双方向的なゲーム体験の破綻を回避する。【解決手段】本発明の一態様に係るサーバは、算出部と、決定部と、... 詳細

この 技術と関連性が強い技術

関連性が強い 技術一覧

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ