図面 (/)

技術 メタデータ生成システム、映像コンテンツ管理システム及びプログラム

出願人 JCC株式会社
発明者 石井孝利
出願日 2019年7月4日 (1年8ヶ月経過) 出願番号 2019-125237
公開日 2021年2月4日 (1ヶ月経過) 公開番号 2021-012466
状態 特許登録済
技術分野 双方向TV,動画像配信等 検索装置
主要キーワード 専用機械 映像対象 コメンテータ 学習度 映像分析 学習済 再生所要 スタジオセット
関連する未来課題
重要な関連分野

この項目の情報は公開日時点(2021年2月4日)のものです。
また、この項目は機械的に抽出しているため、正しく解析できていない場合があります

図面 (7)

課題

ニュース番組など映像コンテンツに含まれる文字及び音声を高精度に認識して各映像コンテンツに関連する正確なメタデータ自動生成するシステムを提供する。

解決手段

テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、文字又は文字列を認識する文字認識部と、音声を認識する音声認識部と、認識した文字又は文字列、音声に基づいてテキスト情報を生成するテキスト化部と、テキスト情報に基づいてメタデータを作成するメタデータ作成部と、を有する。文字認識部は、文字又は文字列の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する文字認識専用機械学習部を有する。音声認識部は、音声の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する音声認識専用機械学習部を有する。

概要

背景

テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成ステムは公知である(特許文献1参照)。メタデータは、映像コンテンツの作成日時、放送日時、配信日時、作成者タイトル注釈、等を示すテキスト情報である。メタデータは、保存した大量の映像コンテンツを効率的に検索可能に管理するために重要な情報である。

特許文献1のメタデータ生成システムは、映像コンテンツを構成する各映像に含まれる文字情報文字または文字列)を認識し、それらをテキスト化することで、各映像コンテンツに関連するメタデータを自動生成する。さらに、特許文献1のメタデータ生成システムは、映像コンテンツに含まれる音声情報をテキスト化して、メタデータを自動生成する機能も有している。

特許文献1のメタデータ生成システムによれば、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる文字情報及び音声情報からメタデータを効率良く作成することができる。これにより、保存した大量の映像コンテンツを高効率に検索可能に管理し得る映像コンテンツ管理システムの実現が可能となった。

概要

ニュース番組など映像コンテンツに含まれる文字及び音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成するシステムを提供する。テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、文字又は文字列を認識する文字認識部と、音声を認識する音声認識部と、認識した文字又は文字列、音声に基づいてテキスト情報を生成するテキスト化部と、テキスト情報に基づいてメタデータを作成するメタデータ作成部と、を有する。文字認識部は、文字又は文字列の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する文字認識専用機械学習部を有する。音声認識部は、音声の認識処理を繰り返す毎に、その認識精度がより高くなるように機械学習する音声認識専用機械学習部を有する。

目的

本発明が解決しようとする課題は、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができるメタデータ生成システム、これを備えた映像コンテンツ管理システム及びこれらのシステムを実現するためのプログラムを提供する

効果

実績

技術文献被引用数
0件
牽制数
0件

この技術が所属する分野

ライセンス契約や譲渡などの可能性がある特許掲載中! 開放特許随時追加・更新中 詳しくはこちら

請求項1

テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成ステムであって、前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部と、前記映像コンテンツに含まれる音声を認識する音声認識部と、前記文字認識部により認識した文字又は文字列及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ作成部と、を有し、前記文字認識部は、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部を有することを特徴とするメタデータ生成システム。

請求項2

前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部を更に有し、前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成することを特徴とする、請求項1記載のメタデータ生成システム。

請求項3

前記映像コンテンツは、ニュース番組であり、前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、前記音声は、前記ニュース番組内での人物の音声であり、前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であることを特徴とする、請求項2記載のメタデータ生成システム。

請求項4

前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とする、請求項3記載のメタデータ生成システム。

請求項5

前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする請求項1及び2記載のメタデータ生成システム。

請求項6

前記映像構成要素は背景映像を含み、前記背景映像は、風景建築物、自然、商標ロゴ通行人動物又は交通手段を含むことを特徴とする請求項2又は3記載のメタデータ生成システム。

請求項7

請求項1から6のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、利用者端末から視聴要求受け付け要求受付部と、を有し、前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とする映像コンテンツ管理システム。

請求項8

請求項1から6のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラム

請求項9

請求項7に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラム。

技術分野

0001

本発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成ステム及びこれを備えた映像コンテンツ管理システム及びそのプログラムに関するものである。

背景技術

0002

テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムは公知である(特許文献1参照)。メタデータは、映像コンテンツの作成日時、放送日時、配信日時、作成者タイトル注釈、等を示すテキスト情報である。メタデータは、保存した大量の映像コンテンツを効率的に検索可能に管理するために重要な情報である。

0003

特許文献1のメタデータ生成システムは、映像コンテンツを構成する各映像に含まれる文字情報文字または文字列)を認識し、それらをテキスト化することで、各映像コンテンツに関連するメタデータを自動生成する。さらに、特許文献1のメタデータ生成システムは、映像コンテンツに含まれる音声情報をテキスト化して、メタデータを自動生成する機能も有している。

0004

特許文献1のメタデータ生成システムによれば、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる文字情報及び音声情報からメタデータを効率良く作成することができる。これにより、保存した大量の映像コンテンツを高効率に検索可能に管理し得る映像コンテンツ管理システムの実現が可能となった。

先行技術

0005

特開2018−33048号公報

発明が解決しようとする課題

0006

テレビ放送やインターネット配信により提供される映像コンテンツの画面レイアウト多種多様である。特にテレビ放送される番組の画面レイアウトは、視聴者に対し各放送局が独自性をアピールしようとして放送局毎に工夫が凝らされたものとなっている。また、テレビ放送される番組中の音声に関しても同様に、放送局ごとに工夫が凝らされている。

0007

たとえば、ニュース番組放送画面には、キャスタースタジオセット背景などとともに、ヘッドラインテロップなどの文字情報が表示されるが、文字情報の表示態様すなわち、文字の大きさやフォントの種類、画面内における表示位置はニュース番組ごとに、更には番組内コーナーごとに異なる。また、各ニュース番組はオリジナル楽曲効果音などを持ち、キャスターの声に重ねてそのような楽曲や効果音を流す音響演出も多種多様に行われる。

0008

このような、映像コンテンツの画面レイアウトや音響演出の多種多様化は、日を追って増大する傾向にある。また、テレビ放送に限らず、インターネット配信により提供される映像コンテンツにおいても同様に、画面レイアウトや音響演出が多種多様化している。

0009

しかし、特許文献1のメタデータ生成システムは、画面レイアウトや音響演出の多種多様化を想定していない。このため、特許文献1のメタデータ生成システムでは、映像コンテンツに含まれる文字情報及び音声情報を正確に認識することが困難な状況になっている。文字情報及び音声情報の認識精度の低下は、生成されるメタデータの正確性の低下に直結するため、高性能なメタデータ生成システムを実現する上で克服しなければならない問題である。

0010

そこで、本発明が解決しようとする課題は、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができるメタデータ生成システム、これを備えた映像コンテンツ管理システム及びこれらのシステムを実現するためのプログラムを提供することにある。

課題を解決するための手段

0011

上記課題を解決するために、請求項1記載の発明は、テレビ放送またはインターネット配信により提供された映像コンテンツに関するメタデータを生成するメタデータ生成システムであって、
前記映像コンテンツに画像として含まれる文字又は文字列を認識する文字認識部と、前記映像コンテンツに含まれる音声を認識する音声認識部と、前記文字認識部により認識した文字又は文字列及び前記音声認識部により認識した音声に基づいてテキスト情報を生成するテキスト化部と、前記テキスト化部により生成されたテキスト情報に基づいて前記映像コンテンツのメタデータを作成するメタデータ作成部と、を有し、前記文字認識部は、前記文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部を有し、前記音声認識部は、前記音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部を有することを特徴とする。

0012

上記のように構成された請求項1のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを作成する。

0013

その際、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する。文字又は文字列の認識処理についての機械学習は、文字認識専用機械学習部により実行され、音声の認識処理についての機械学習は、音声認識専用機械学習部により実行されるので、文字情報、音声情報それぞれの認識処理についての機械学習が高効率に進行する。

0014

したがって、文字又は文字列の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる文字又は文字列の認識精度が急速に向上していき、音声の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに含まれる音声の認識精度が急速に向上していく。

0015

また、請求項2記載の発明は、請求項1記載のメタデータ生成システムにおいて、前記映像コンテンツに画像として含まれる前記文字又は文字列以外の映像構成要素としての物体を認識する物体認識部を更に有し、前記物体認識部は、前記物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部を有し、
前記テキスト化部は、前記文字認識部により認識した文字又は文字列、前記音声認識部により認識した音声及び前記物体認識部により認識した物体に基づいてテキスト情報を生成することを特徴とする。

0016

上記のように構成された請求項2のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる文字又は文字列を認識するとともに、各映像コンテンツに含まれる音声を認識し、認識した文字又は文字列及び音声に基づいてテキスト情報を生成し、更に、テレビ放送またはインターネット配信により提供された各映像コンテンツに画像として含まれる物体を認識する。そして、認識した文字又は文字列、音声及び前記文字又は文字列以外の映像構成要素としての物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。

0017

その際、文字又は文字列の認識処理についての機械学習及び音声の認識処理についての機械学習に加えて、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。物体の認識処理についての機械学習は、物体専用機械学習部により実行されるので、文字又は文字列の認識処理についての機械学習の高効率化及び音声の認識処理についての機械学習の高効率化に加えて、物体の認識処理についての機械学習も高効率化する。物体の認識処理が繰り返されることにより、テレビ放送またはインターネット配信により提供された映像コンテンツに画像として含まれる物体の認識精度が急速に向上していく。

0018

また、請求項3記載の発明は、請求項2記載のメタデータ生成システムにおいて、前記映像コンテンツは、ニュース番組であり、前記文字又は文字列は、前記ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、前記音声は、前記ニュース番組内での人物の音声であり、前記物体は、前記ニュース番組内で表示される前記文字又は文字列以外の映像構成要素であることを特徴とする。

0019

上記のように構成された請求項3のメタデータ生成システムは、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列を認識する。また、各ニュース番組内での人物の音声を認識する。また、ニュース番組内で表示される人物又は映像構成要素を認識する。そして、認識した文字又は文字列、音声、及び、人物又は映像構成要素に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。

0020

請求項3のメタデータ生成システムにおいては、文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。

0021

また、請求項4記載の発明は、請求項3記載のメタデータ生成システムにおいて、前記文字認識専用機械学習部及び物体認識専用機械学習部は、前記映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて機械学習し、前記音声認識専用機械学習部は、前記人物の音声に基づいて用意された学習用データを用いて機械学習することを特徴とする。

0022

上記のように構成された請求項4のメタデータ生成システムにおいては、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部及び物体認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部が機械学習を行うことにより、テレビ放送またはインターネット配信により提供された各ニュース番組内での人物の音声の認識精度が確実に向上する。

0023

請求項5記載の発明にあっては、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び物体を認識することを特徴とする。
即ち、従来の、メタデータを利用した映像コンテンツ検索システムにあっては、テレビ等の全放送番組を、放送局コード及び秒を基準とするタイムコードを付して映像と対応させた状態で録画し、録画された放送番組情報からメタデータ化し、メタデータにより使用者が指定した映像情報を、映像に付された放送局コード及び秒単位のタイムコードを基に抽出するように構成されていた。

0024

このような従来のメタデータ利用の映像コンテンツ検索システムにあっては、タイムコードの基準となる秒基準、秒単位でのメタデータ化及び当該メタデータに基づく検索は可能であり、例えば、映像中の人間の音声、会話等は論理的な展開が一般的でもあることから、充分にメタデータ化することも可能であると共に、検索、分析することは可能である。

0025

しかしながら、いわゆる「シーンチェンジ」のように映像が瞬間的に変化する場合がある。即ち、あるシーンにおいて特定の対象を映していたところ、他の対象に突然に脈絡なく変化するような場合が存在する。例えば、ドラマの映像においても、ドラマ構成上、あるシーンから全く関係のないシーンへ唐突に変化する場合もある。

0026

このような急峻な「シーンチェンジ」等の場合には、秒単位の認識、分析技術では、シーンチェンジ、映像変化の経過について十分には対応できない。また、特に、「サブリミナル映像」等のように、特定のシーンが、人間が十分に認識できないような非常な短時間、フラッシュバックのようにインサートされているような場合もあり、このような場合の映像情報の分析に関しても、従来の秒単位での映像分析技術では充分には対応できない。

0027

しかしながら、映像コンテンツの情報分析の観点からは、このような突然のシーンチェンジ、映像対象の唐突な変更、又はサブリミナル映像等の、非常に短時間の映像変化の経過に関してもメタデータ化しておき、その後の検索、分析の場面に対応したい、という要請がある。また、例えば、災害等の映像を事後的に検証分析するような場合、災害原因究明には、映像の秒単位の分析では充分な分析、研究が不可能な場合もある。

0028

ところで、映像フレームは一秒あたり30フレーム以上存在し、例えば、テレビ、ビデオフレームレートは、30fpsであり、これらのフレームにより映像が構成されている。従って、映像を構成するフレーム単位で映像を抽出し、対応するメタデータを作成し、当該メタデータに基づき映像を検索、分析できるようになれば上記の事態を解決することが可能となる。

0029

そこで、請求項5記載の発明にあっては、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析できるように構成されている。

0030

請求項6記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景建築物、自然、商標ロゴ通行人動物又は交通手段を含むことを特徴とする。

0031

また、請求項7記載の発明は、請求項1から6のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータを用いて、大量の映像コンテンツを検索可能に管理する映像コンテンツ管理システムであって、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存する映像コンテンツ保存部と、前記映像コンテンツ保存部に保存されている全ての映像コンテンツを前記メタデータと関連付けて管理する映像コンテンツ管理部と、利用者端末から視聴要求受け付け要求受付部と、を有し、前記映像コンテンツ管理部は、前記要求受付部が受け付けた利用者からの視聴要求に応じた前記メタデータを特定し、当該メタデータを検索キーにして前記映像コンテンツ保存部に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを前記利用者の端末で視聴可能とすることを特徴とする。

0032

上記のように構成された請求項7の映像コンテンツ管理システムは、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項1から6のいずれか一項に記載のメタデータ生成システムにより生成されたメタデータと関連付けて管理する。利用者の端末から視聴要求を受け付けた場合、その視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして、保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末で視聴可能とする。

0033

また、請求項8記載の発明は、請求項1から6のいずれか一項に記載のメタデータ生成システムをコンピュータを用いて実現するためのプログラムである。

0034

請求項8のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明のメタデータ生成システムを実現できる。

0035

また、請求項9記載の発明は、請求項5に記載の映像コンテンツ管理システムをコンピュータを用いて実現するためのプログラムである。

0036

請求項9のプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明の映像コンテンツ管理システムを実現できる。

発明の効果

0037

請求項1のメタデータ生成システムによれば、文字又は文字列の認識精度及び音声の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

0038

請求項2のメタデータ生成システムによれば、文字又は文字列の認識精度及び音声の認識精度に加えて、物体の認識精度が、それ専用の機械学習により急速に向上していくので、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報、音声情報及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

0039

請求項3のメタデータ生成システムによれば、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上するので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

0040

請求項4のメタデータ生成システムによれば、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いることにより、ヘッドライン又はテロップに含まれる文字又は文字列の認識及び物体の認識についての機械学習を高効率に進行させることができ、人物の音声に基づいて用意された学習用データを用いることにより、人物の音声の認識についての機械学習を高効率に進行させることができるので、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

0041

請求項5記載の発明にあっては、前記文字認識部、前記音声認識部及び物体認識部は、映像コンテンツを構成するフレーム単位で文字又は文字列、音声及び、物体を認識するように構成されていることから、映像コンテンツをフレーム単位で認識して、文字、文字列、音声及び文字及び文字列以外の映像コンテンツをメタデータ化し、これらのフレーム単位のメタデータに基づき映像コンテンツを検索、分析することできる。
その結果、放送映像に存在する、急峻な「シーンチェンジ」等の場合や、「サブリミナル映像」に関しても、映像の抽出、検索、分析が可能となり、また、災害等の映像を事後的に検証分析するような場合、災害原因の究明において、映像の秒単位の分析では充分な分析が不可能な場合であっても有効に対応することが可能となる。

0042

請求項6記載の発明にあっては、前記映像構成要素は背景映像を含み、前記背景映像は、風景、建築物、自然、商標、ロゴ、通行人、動物又は交通手段を含むことから、映像コンテンツとして画面に表示されるほぼ全ての映像構成要素に関してメタデータ化が可能となる。

0043

請求項7の発明によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを保存するとともに、保存されている全ての映像コンテンツを、請求項1から6のいずれか一項に記載のメタデータ生成システムにより生成された正確なメタデータと関連付けて検索可能に管理することで、高性能な映像コンテンツ管理システムを実現することができる。

0044

請求項8の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、テレビ放送やインターネット配信により提供される映像コンテンツに含まれる文字情報や音声情報を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することが可能なメタデータ生成システムを実現することができる。

0045

請求項9の発明に係るプログラムによれば、これを一又は複数のコンピュータにインストールし実行することにより、本発明に係るメタデータ生成システムを備えた高性能な映像コンテンツ管理システムを実現することができる。

図面の簡単な説明

0046

一実施形態の映像コンテンツ管理システムのブロック図である。
図1の映像コンテンツ管理システムの一連処理内容を示すフローチャートである。
図1の映像コンテンツ管理システムを構成する一実施形態のメタデータ生成システムの一連の処理内容を示すフローチャートである。
図3中の認識処理に含まれる文字認識処理のフローチャートである。
図3中の認識処理に含まれる音声認識処理のフローチャートである。
図3中の認識処理に含まれる物体認識処理のフローチャートである。

実施例

0047

以下、添付図面を参照して、本発明の一実施形態について説明する。
[構成]
[映像コンテンツ管理システム]
図1に示す一実施形態の映像コンテンツ管理システム100は、受信部110と、映像コンテンツ保存部120と、一実施形態のメタデータ生成システム130と、映像コンテンツ管理部140と、要求受付部150と、を有する。

0048

受信部110は、放送局200及び配信元300から提供された映像コンテンツを受信する機能ブロックである。受信部110は、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを受信する。放送局200には、地上放送局及び衛星放送局が含まれる。配信元300には、インターネット上に存在する各種映像コンテンツサーバが含まれる。

0049

映像コンテンツ保存部120は、受信部110により受信された大量の映像コンテンツを保存する機能ブロックである。映像コンテンツ保存部120には、大容量のHDD(Hard Disk Drive)及び大容量のSSD(Solid State Drive)が含まれる。

0050

メタデータ生成システム130は、映像コンテンツ保存部120に記録されている映像コンテンツに関するメタデータを生成する機能ブロックである。

0051

映像コンテンツ管理部140は、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、メタデータ生成システム130により生成されたメタデータと関連付けて検索可能に管理する機能ブロックである。

0052

要求受付部150は、利用者の端末400から視聴要求を受け付ける機能ブロックである。

0053

映像コンテンツ管理部140は、要求受付部150が受け付けた利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部120に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末400で視聴可能とする。

0054

[メタデータ生成システム]
メタデータ生成システム130は、認識部131と、テキスト化部138と、メタデータ作成部139、とを有する。

0055

認識部131は、映像コンテンツ保存部120に保存されている各映像コンテンツに含まれる認識対象を認識する機能ブロックである。認識部131は、文字認識部132と、音声認識部134と、物体認識部136と、を有する。

0056

文字認識部132は、各映像コンテンツに画像として含まれる文字又は文字列を認識する機能ブロックである。文字認識部132は、文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習する文字認識専用機械学習部133を有する。

0057

音声認識部134は、各映像コンテンツに含まれる音声を認識する機能ブロックである。音声認識部134は、音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習する音声認識専用機械学習部135を有する。

0058

物体認識部136は、各映像コンテンツに画像として含まれる物体を認識する機能ブロックである。物体認識部136は、物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習する物体認識専用機械学習部137を有する。

0059

テキスト化部138は、文字認識部132により認識した文字又は文字列、音声認識部134により認識した音声及び物体認識部136により認識した物体に基づいてテキスト情報を生成する機能ブロックである。

0060

メタデータ作成部139は、テキスト化部138により生成されたテキスト情報に基づいて各映像コンテンツのメタデータを作成する機能ブロックである。メタデータは、テレビ放送される映像コンテンツの場合には、番組単位或いは番組中のコーナー単位ごと、もしくは記事単位ごとに生成される。また、映像コンテンツが映画の場合、メタデータは、映画の1作品ごと、映像の所定数のフレームごと、等、種々の単位ごとに作成される。メタデータには、映像コンテンツの提供元(放送局、配信元、等)、映像コンテンツの時間情報(放送日時、配信日時、再生所要時間、等)、内容の要約、等が含まれる。

0061

映像コンテンツがニュース番組である場合、文字認識部132による認識対象となる文字又は文字列は、そのニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列であり、音声認識部134による認識対象となる音声は、そのニュース番組内での人物の音声であり、物体認識部136による認識対象となる物体は、そのニュース番組内で表示される人物又は映像構成要素、又は映像構成要素の背景に存在する各種物体、商品、風景、建築物及び構築物等である。

0062

文字認識専用機械学習部133及び物体認識専用機械学習部137は、映像コンテンツの画面レイアウトや背景を考慮してそれぞれ用意された学習用データD1、D3を用いて機械学習する。音声認識専用機械学習部135は、人物の音声に基づいて用意された学習用データD2を用いて機械学習する。

0063

たとえば、映像コンテンツがニュース番組である場合、文字認識専用機械学習部133は、そのニュース番組の画面レイアウトを考慮して用意された学習用データD1を用いて、そのニュース番組に表示されるヘッドライン又はテロップに含まれる文字又は文字列をより高精度に認識できるように機械学習する。
また、物体認識専用機械学習部137は、そのニュース番組の画面レイアウトを考慮して用意された学習用データD3を用いて、そのニュース番組内で表示される人物(キャスターやコメンテータ)又は映像構成要素(建物、車両、飛行機、等)及びその背景情報をより高精度に認識できるように機械学習する。
また、音声認識専用機械学習部135は、そのニュース番組に登場する人物(キャスターやコメンテータ)の音声に基づいて用意された学習用データD2を用いて、そのニュース番組内でのその人物の音声をより高精度に認識できるように機械学習する。
この場合、学習用データD1、D3は、ニュース番組単位或いは番組中のコーナー単位又は記事単位ごとの画面レイアウトを考慮して用意される。学習用データD2は、ニュース番組単位或いは番組中のコーナー単位ごとの登場人物の音声に基づいて用意される。

0064

[動作]
つぎに、上記のように構成された映像コンテンツ管理システム100における処理の流れを、図2から図6のフローチャートに従って説明する。

0065

映像コンテンツ管理システム100は、図2に示すように、映像コンテンツ受信処理S1、映像コンテンツ保存処理S2、メタデータ生成処理S3、映像コンテンツ管理処理S4、要求受付処理S5及び視聴処理S6を含む一連の処理を実行する。

0066

映像コンテンツ受信処理S1は、放送局200及び配信元300から提供される映像コンテンツを受信する処理である。
映像コンテンツ保存処理S2は、映像コンテンツ受信処理S1により受信した映像コンテンツを保存する処理である。

0067

メタデータ生成処理S3は、映像コンテンツ保存部120に記録されている各映像コンテンツに関するメタデータを生成する処理である。
映像コンテンツ管理処理S4は、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、メタデータ生成処理S3により生成されたメタデータと関連付けて検索可能に管理する処理である。
要求受付処理S5は、利用者の端末400から視聴要求を受け付ける処理である。

0068

視聴処理S6は、利用者からの視聴要求に応じたメタデータを特定し、当該メタデータを検索キーにして映像コンテンツ保存部120に保存されている大量の映像コンテンツの中から一又は所定の複数の映像コンテンツを検索し、検索によりヒットした一又は所定の複数の映像コンテンツを利用者の端末400で視聴可能とする処理である。
映像コンテンツ受信処理S1、映像コンテンツ保存処理S2、メタデータ生成処理S3及び映像コンテンツ管理処理S4が繰り返し実行されることにより、映像コンテンツ保存部120に大量の映像コンテンツが保存されていくとともに、映像コンテンツ保存部120に保存されている大量の全ての映像コンテンツがメタデータと関連付けて検索可能に管理されるようになる。

0069

図3に示すように、メタデータ生成処理S3は、認識ステップS31と、テキスト化ステップS32及びメタデータ作成ステップS33と、を含んで構成される。
認識ステップS31は、映像コンテンツ保存部120に保存されている各映像コンテンツに含まれる認識対象を認識するステップである。認識ステップS31では、文字認識処理(図4)と、音声認識処理(図5)と、物体認識処理(図6)と、が実行される。
テキスト化ステップS32では、認識ステップS31により認識した認識対象(文字又は文字列、音声、物体)に基づいてテキスト情報が生成される。
メタデータ作成ステップS33では、テキスト化ステップS32により生成されたテキスト情報に基づいて各映像コンテンツのメタデータが作成される。

0070

図4に示すように、文字認識処理は、文字認識ステップ311aと文字認識専用機械学習ステップS311bとを含んで構成される。文字認識ステップ311aでは、各映像コンテンツに画像として含まれる文字又は文字列が認識され、文字認識専用機械学習ステップS311bでは、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習が行われる。

0071

文字認識専用機械学習ステップS311bが繰り返されることにより、文字認識部13(図1)に、文字又は文字列の認識に特化した学習済モデル(以下、「文字用学習済モデル」と記す)が生成される。文字認識部132は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる文字又は文字列を文字用学習済モデルを用いて認識する。よって、図4に示す文字認識処理の実行回数が増えるほど、文字用学習済モデルの学習度が向上していき、文字認識部132の性能が向上する。

0072

図5に示すように、音声認識処理は、音声認識ステップS312aと音声認識専用機械学習ステップS312bとを含んで構成される。音声認識ステップS312aでは、各映像コンテンツに含まれる音声が認識され、音声認識専用機械学習ステップS312bでは、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習が行われる。

0073

音声認識専用機械学習ステップS312bが繰り返されることにより、音声認識部134(図1)に、音声の認識に特化した学習済モデル(以下、「音声用学習済モデル」と記す)が生成される。音声認識部134は、各映像コンテンツに含まれる音声を入力とし、その音声を音声用学習済モデルを用いて認識する。よって、図5に示す音声認識処理の実行回数が増えるほど、音声用学習済モデルの学習度が向上していき、音声認識部134の性能が向上する。

0074

図6に示すように、物体認識処理は、物体認識ステップS313aと物体認識専用機械学習ステップS313bとを含んで構成される。物体認識ステップS313aでは、各映像コンテンツに画像として含まれる物体が認識され、物体認識専用機械学習ステップS313bでは、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習が行われる。

0075

物体認識専用機械学習ステップS313bが繰り返されることにより、物体認識部136(図1)に、物体の認識に特化した学習済モデル(以下、「物体用学習済モデル」と記す)が生成される。物体認識部136は、各映像コンテンツに含まれる画像を入力とし、その画像に含まれる物体を物体用学習済モデルを用いて認識する。よって、図6に示す物体認識処理の実行回数が増えるほど、物体用学習済モデルの学習度が向上していき、物体認識部136の性能が向上する。

0076

[作用・効果]
上記のように、本実施形態のメタデータ生成システム130は、テレビ放送またはインターネット配信により提供され、映像コンテンツ保存部120に保存された各映像コンテンツに画像として含まれる文字又は文字列を文字認識部132で認識し、各映像コンテンツに含まれる音声を音声認識部134で認識し、各映像コンテンツに画像として含まれる物体を物体認識部136で認識する。そして、認識した文字又は文字列、音声及び物体に基づいてテキスト情報を生成し、そのテキスト情報に基づいて各映像コンテンツのメタデータを生成する。

0077

その際、本実施形態のメタデータ生成システム130は、文字認識部132が文字又は文字列の認識処理を繰り返す毎に、認識対象とされるべき文字又は文字列とその認識結果とに基づいて、文字又は文字列の認識精度がより高くなるように機械学習し、音声認識部134が音声の認識処理を繰り返す毎に、認識対象とされるべき音声とその認識結果とに基づいて、音声の認識精度がより高くなるように機械学習し、物体認識部136が物体の認識処理を繰り返す毎に、認識対象とされるべき物体とその認識結果とに基づいて、物体の認識精度がより高くなるように機械学習を実行する。

0078

文字又は文字列の認識処理についての機械学習は文字認識専用機械学習部133により実行され、音声の認識処理についての機械学習は音声認識専用機械学習部135により実行され、物体の認識処理についての機械学習は物体認識専用機械学習部137により実行される。このように、文字、音声、物体の学習処理がそれぞれ専用の機械学習部により実行されることにより、文字、音声、物体それぞれの認識処理についての機械学習が高効率に進行する。

0079

すなわち、文字認識専用機械学習部133、音声認識専用機械学習部135及び物体認識専用機械学習部137による学習処理が各々繰り返されることにより、文字認識部132、音声認識部134及び物体認識部136のそれぞれに、文字、音声及び物体の認識用に特化した文字用学習済モデル、音声用学習済モデル及び物体用学習済モデルが個別に生成される。

0080

文字認識部132、音声認識部134及び物体認識部136は、各映像コンテンツに含まれる文字又は文字列の画像、音声及び物体の画像をそれぞれ入力とし、それらを専用の学習済モデル(文字用学習済モデル、音声用学習済モデル、物体用学習済モデル)を用いて認識する。よって、文字認識部132、音声認識部134及び物体認識部136による認識処理の実行回数が増えるほど、それぞれの専用の学習済モデルの学習度が向上していき、文字認識部132、音声認識部134及び物体認識部136の性能が向上する。

0081

このように、文字又は文字列の認識精度、音声の認識精度及び物体の認識精度が、それぞれ独立した専用の機械学習により急速に向上していくので、各映像コンテンツに画像として含まれる文字及び物体、そして音声を高精度に認識して各映像コンテンツに関連する正確なメタデータを自動生成することができる。

0082

また、本実施形態のメタデータ生成システム130によれば、文字又は文字列の認識処理についての機械学習が進むにつれて、テレビ放送またはインターネット配信により提供された各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度が向上する。音声の認識処理についての機械学習が進むにつれて、各ニュース番組内での人物の音声の認識精度が向上する。物体の認識処理についての機械学習が進むにつれて、各ニュース番組内で表示される人物又は映像構成要素の認識精度が向上する。

0083

また、本実施形態のメタデータ生成システム130によれば、映像コンテンツの画面レイアウトを考慮して用意された学習用データを用いて文字認識専用機械学習部133及び物体認識専用機械学習部137が機械学習を行うことにより、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度及び各ニュース番組内で表示される人物又は映像構成要素の認識精度が確実に向上する。また、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部135が機械学習を行うことにより、各ニュース番組内での人物の音声の認識精度が確実に向上する。

0084

すなわち、本実施形態のメタデータ生成システム130によれば、各ニュース番組内で表示されるヘッドライン又はテロップに含まれる文字又は文字列の認識精度、各ニュース番組内での人物の音声の認識精度及び各ニュース番組内で表示される物体の認識精度が、それぞれ独立した専用の機械学習により向上する。これにより、ヘッドライン又はテロップに含まれる文字又は文字列、人物の音声及び物体及びその背景をそれぞれきわめて高精度に認識し、それらの認識結果に基づいて各映像コンテンツに関連する正確なメタデータを自動生成することが可能となる。

0085

そして、本実施形態の映像コンテンツ管理システム100によれば、テレビ放送またはインターネット配信により提供された大量の映像コンテンツを映像コンテンツ保存部120に保存するとともに、映像コンテンツ保存部120に保存されている全ての映像コンテンツを、本実施形態のメタデータ生成システム130により生成された正確なメタデータと関連付けて検索可能に管理することができるので、高性能な映像コンテンツ管理システム100を実現することができる。

0086

なお、本発明は上記実施形態に限定されない。たとえば、上記実施形態のメタデータ生成システム130は、文字認識部132、音声認識部134及び物体認識部136を備えているが、物体認識部136は必須の構成要素ではない。

0087

また、上記実施形態では、人物の音声に基づいて用意された学習用データを用いて音声認識専用機械学習部135が機械学習を行うこととしたが、人物以外の音声、たとえば災害現場戦場などの報道中の音声に含まれる爆音ヘリコプターや飛行機の飛行音、戦車走行音、等に基づいて用意された学習用データを用いて、音声認識専用機械学習部135が機械学習を行うことも可能である。たとえば、ヘリコプターや飛行機の音に基づいて用意された学習用データを用いて音声認識専用機械学習部135が機械学習を行うことにより、音声認識部134によるヘリコプターや飛行機の音の認識精度を向上させることができる。

0088

また、上記実施形態において、物体認識部136が認識する人物の要素は、当該人物の顔のみであっても、顔を含む身体の一部であってもよい。

0089

100映像コンテンツ管理システム
120 映像コンテンツ保存部
130メタデータ生成システム
132文字認識部
133 文字認識専用機械学習部
134音声認識部
135 音声認識専用機械学習部
136物体認識部
137 物体認識専用機械学習部
138テキスト化部
139メタデータ作成部
140 映像コンテンツ管理部
150要求受付部
D1学習用データ
D3 学習用データ
D2 学習用データ
S31認識ステップ
S311a文字認識ステップ
S311b 文字認識専用機械学習ステップ
S312a音声認識ステップ
S312b 音声認識専用機械学習ステップ
S313a 物体認識ステップ
S313b 物体認識専用機械学習ステップ
S32 テキスト化ステップ
S33 メタデータ作成ステップ

ページトップへ

この技術を出願した法人

この技術を発明した人物

ページトップへ

関連する挑戦したい社会課題

関連する公募課題

ページトップへ

技術視点だけで見ていませんか?

この技術の活用可能性がある分野

分野別動向を把握したい方- 事業化視点で見る -

ページトップへ

おススメ サービス

おススメ astavisionコンテンツ

新着 最近 公開された関連が強い技術

この 技術と関連性が強い人物

関連性が強い人物一覧

この 技術と関連する社会課題

関連する挑戦したい社会課題一覧

この 技術と関連する公募課題

関連する公募課題一覧

astavision 新着記事

サイト情報について

本サービスは、国が公開している情報(公開特許公報、特許整理標準化データ等)を元に構成されています。出典元のデータには一部間違いやノイズがあり、情報の正確さについては保証致しかねます。また一時的に、各データの収録範囲や更新周期によって、一部の情報が正しく表示されないことがございます。当サイトの情報を元にした諸問題、不利益等について当方は何ら責任を負いかねることを予めご承知おきのほど宜しくお願い申し上げます。

主たる情報の出典

特許情報…特許整理標準化データ(XML編)、公開特許公報、特許公報、審決公報、Patent Map Guidance System データ