基于深度学习的视频内容识别

计算机视觉研究院

发布于 2018-04-17 14:46:05

3.2K0

发布于 2018-04-17 14:46:05

好久未和老相好的您们面对面的知识交流过，不知道大家最近科研是否顺利，有没有新的想法和创新，我都会祝学术界的您科研硕果累累，祝工业界的您工程完善更多智能化功能，造福人类，推动人工智能的进步！今天给您讲讲视频大数据和视频内容的识别（部分内容来自复旦大学-计算机科学技术学院薛向阳、姜育刚，谢谢参考阅读）。

视频大数据

作为目前最火热的词汇之一，大数据在各个领域都已有了较为成熟的应用。在视频监控领域，大数据时代正悄悄来临。

现代社会的信息量正以飞快的速度增长，这些信息里又积累着大量的数据。预计到2025年，每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理。我们需要对这些数据进行分析和处理，以获取更多有价值的信息。在未来的“智慧城市”中，会有越来越大的结构化以及非结构化的数据。那么我们如何高效地存储和管理这些数据，如何分析这些数据呢?

答案是：我们需要强有力的大数据处理系统进行支撑。

在城市安全、交通管理中将部署大量的视频监控设备，这些视频监控设备将产生大量的视频及其相关的数据，如交通卡口数据达到十亿条甚至更大级别，人像库的数据量达到千万条甚至更大级别。

针对如此大级别的数据量，当前系统会逐渐暴露出数据检索速度越来越慢;数据统计、分析效率越来越低等问题，这些问题都需要一个成熟的技术来解决。随着“智慧城市”中城市安全、智慧交通等的迅速发展，城市中非结构化的数据量越来越大。视频大数据技术侧重帮助各类客户从日趋海量的非结构化视频数据中快速发掘高价值的信息，协助客户提升其决策的效率和精准度。因此，视频大数据的处理好坏成了客户关注的焦点，视频大数据的处理技术也成了厂家能力的体现。

针对“智慧城市”建设中大量视频数据的快速检索、统计分析的需求，海康威视，佳都科技等视频领域的领军企业已有了成熟的视频大数据的解决方案，目前已应用多个“智慧城市”的建设中。

视频大数据技术能够解决当前系统处理海量视频及相关数据能力不足的问题，帮助客户从海量的视频数据中快速挖掘高价值的信息，协助客户提升其决策的效率和精准度。可以预见在未来的“智慧城市”建设中，视频的数据量会爆炸性增长，对海量视频数据处理系统的要求会越来越高，对视频数据挖掘的能力要求越来越强，视频大数据平台将引入越来越多的AI机器学习，深度学习、智能图算法等尖端技术来提高整个系统的智能化水平。

q全球互联网分析报告(由思科公司发布)

在2019年，全球每月产生互联网视频的总时长将会达到五百万年；
全球互联网视频流量占总流量的比例预计将由2014年的67%增长至2019年的80%；
消费视频点播流量将在2019年之前增长一倍。

我们还是来说说视频内容的知识，先来说说现在这领域的视频数据集的构建。

哥伦比亚消费视频数据集

Originalunedited videos captured by ordinaryconsumers Interestingand very diverse contents；
Veryweakly indexed；
On average, 3 tags per consumer video on YouTube vs. 9 tags each YouTube video has。

Y.-G. Jiang et al., Consumer Video Understanding: A Benchmark Database and An Evaluation of Human and Machine Performance, ACM ICMR 2011.

大规模动作识别比赛的数据

THUMOSChallenge

101类别；分别与ICCV2013、ECCV2014、CVPR2015合办

深度视频学习

Video Classification with Regularized DNN

Z. Wu, Y.-G. Jiang et al., Exploring Inter-feature and Inter-class Relationships with Deep Neural Networks for Video Classification, ACM Multimedia 2014 (full paper)

Feature Fusion

Bothearly fusion and late fusion neglect the hidden correlations across differentfeatures.

ClassRelationships

Similar Video Semantics

Approach

DNNLearning Scheme

- Calculate prediction error

- Update weights in a BP manner

在该过程，注入了特征和类别关系。

↓

Algorithm:

1、先初始化权重，Ω和Ψ是单位矩阵。

2、有一个循环，预测误差和更新权重矩阵，更新特征及类别关系Ω和Ψ。

其他框架：

Two-Stream CNN

Hao Ye, Zuxuan Wu, Rui-Wei Zhao, Xi Wang, Yu-Gang Jiang, et al. Evaluating Two-Stream CNN for Video Classification, ICMR 2015

Z. Wu, X. Wang, Y.-G. Jiang et al., Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification, accepted to ACM Multimedia 2015 (Full Paper)