视频大数据处理的挑战和机遇

计算机视觉研究院

发布于 2018-04-17 16:19:27

1.8K0

发布于 2018-04-17 16:19:27

背景：

视频在许多应用中是非常重要的问题，如内容搜索、智能内容识别广告等。现在正处在一个数据爆炸性增长的"大数据"时代，大数据对社会经济、政治、文化，人们生活等方面产生深远的影响，大数据时代对人类的数据驾驭能力提出了新的挑战与机遇，所以处理视频大数据也具有挑战和机遇。

待解决问题：视频大数据分类

视频分类思想步骤：

1) 选择具有代表性的数据集或在多个数据集实验；

2) 分析视频特征，深入研究代表性特性（静态特征、运动特征和声音特征）；

3) 选择优秀的分类器（深度学习）。

具体挑战：

可计算的底层特征和高层语义范畴不能用先进的方法去很好桥接之间的语义鸿沟；
大级别的数据量，当前系统会逐渐暴露出数据检索速度越来越慢；数据统计、分析效率越来越低等问题。

具体介绍如下：

1、介绍

捕捉、分享和观看视频是我们日常生活的一部分。对于分类视频的技术，根据它们高层次语义在许多应用中迫切需要。此外，知道视频的语义将帮助选择和放置更适合（更有利可图）的广告在线视频共享网站。

在这短短的文章中，我们简要地讨论视频分类相关技术。特别是，我们更专注于用户生成的视频(UGVs)，其通常是简短的如“生日派对”和“孩子们玩耍积木”。这与专业的视频不一样，如电影或新闻其包含混合的语义，且要求时间分割在内容分类之前。UGVs很重要因为在互联网视频分享活动中占主导作用。与专业生成的节目相比，大多数UGVs没有提供高品质的文字描述，这使得自动分类尤其重要且期望在实际应用中。

2、特征

连续的视频分类系统在很大程度上依赖于突出的特征，通常被期待为鲁棒性去承受内部类的变化和区别性去正确认识不同的类别。视频已知是天然多模式的，包括视觉和声道。视觉通道不仅描绘对象的外观信息，而且还可以捕捉他们的运动随着时间的推移，而声道通常包含背景音乐和对话。两个通道已知是高度互补，并应在视频分类中联合使用。各种特征已经被开发了在近几年，覆盖静态外观特征，运动特征和声音特征。在下文中讨论几个有代表性的特征。

1）静态外观特征

静态外观特征可以从视频帧单独提取。虽然没有探索时间信息，它们广泛被采用对于视频分析，由于低计算成本和相当好的性能在许多应用中。许多现有的图像特征可被计算，其中著名的SIFT一直是最流行的一种。其它一些特征也有被广泛使用。例如颜色-SIFT，SIFT的一个变型，已被被频繁采用来建模颜色信息。此外，方向梯度直方图(HOG)也很受欢迎。

最近，现成的卷积神经网络(CNN)的基础表示也被用作静态外观特征用于视频分类。Jain等人从一个CNN模型预训练提取帧级特征在ImageNet数据的动作识别中且记录了有前途的性能。结果清楚地表明CNN的特征是非常强大的，且应考虑来对视频分类。

2）运动特征

不同于静态外观特征，运动特征结合了时间信息去建模运动和视频内容的时间演化，这是很有价值去理解人类行为和复杂事件。一个简单的和自然的方式去获得运动特征就是扩展基于帧的图像特征到三维空时空间。例如，Laptev等人延长Harris拐角块检测到局部的空时兴趣点(STIP)，它们是空时体积，其中像素值急剧变化在空间和时间。而不是在三维空间中检测兴趣点，Wang等人提出稠密轨迹特征，通过稠密地跟踪采样块在不同的尺寸使用光流领域去获得轨迹，在这四个局部描述中计算去编码运动和外观信息。这个特征已经流行并占据所有流行的基准测试且表现优异。最近，西蒙尼扬等人提议去用CNN建模时间信息在视频中，通过堆叠光流图像作为输入代视频帧。这种方式已证明有竞争力的结果相比于稠密轨迹。

3）声学特征

声音特征可以提供有价值的和互补性强的信息到对应的视频。梅尔频率倒谱系数(MFCC)，其表示音频信号的短期功率谱，已经被证明为顶尖性能在许多应用中如语音识别。在视频分类背景下，姜等人编码MFCC用词袋描述表示，作为视觉特征的互补，且在事件检测中达到引人注目的性能。类似的表述被广泛使用在最近工作上的视频分类。

3、分类器

所给出的特征表示，视频分类成为一个典型的分类问题，这可通过各种分类来实现。特别是支持向量机(SVM)是最受欢迎的分类由于其简单性和较好的普遍性。线性支持向量机可有效地训练，但可能遭受较差的性能当数据是线性不可分。对于非线性核，核x^2与交叉核是相当流行的。

相反的对于支持向量机，有施加深度学习执行视频分类是最近的趋势。Wu等人设计了多模式的深度神经网络去探讨视频中内部特征和类间的关系。Karparthy等人提出了一个多分辨率CNN对于端到端动作识别，其通过随时间的堆叠帧。西蒙尼扬等人采用双流架构，其中两个CNNs分别在帧和光流图像中被训练去建模空间和时间信息。

4、基准数据集

1）柯达消费视频数据集：柯达消费视频大约记录了伊士曼柯达公司(the Eastman Kodak Company)的100个客户。该数据集由1358个视频剪辑的25个概念（包括活动，场景和单个目标）组成作为柯达概念本体（the Kodak concept ontology）的一部分。

2）MCG-WEBV：MCG-WEBV是由中国科学研究院收集的一个较大的YouTube视频集。有234414带注解的网络视频如“加沙的冲突”一些主题级事件，其太复杂，去识别仅仅依靠内容分析。该数据集主要是采用视频话题检测和排名，通过利用视频的文字描述。

3）哥伦比亚消费视频(CCV)：该CCV数据集建于2011年，旨在鼓励互联网用户视频分析的研究。它包含9,317用户生成的YouTube视频，这被注释成20个类，其中包括对象(例如，“猫”和“狗”)、场景（例如，“海滩”和“游乐场”）、体育事件（例如，“篮球“和”足球“）和社会活动（例如，”生日“和”毕业“）。

4）TRECVID MED数据集：由分析高层事件视频的实际需要来影响，每年NIST TRECVID活动创造了自2010年以来一个多媒体事件检测(MED)的任务。每年一个新的或扩展的数据集被构建对于全球系统的比较。在2014年，MED开发数据集包含20个事件，如“生日一部分”“自行车招”等等。根据NIST的训练/测试分段，大约有5K的视频训练和23K的视频进行测试，共计1200多个小时。

5）UCF-101 THUMOS-2014年：UCF-101数据集是一个广泛被采用的基准行为识别的视频，其中包括13320视频剪辑(共27小时)。有101种注解类，大致可分为五种类型：人与对象交互，身体运动，人与人互动，弹奏乐器和体育。最近，THUMOS-2014动作识别挑战扩展了UCF-101数据集，通过采用从UCF-101数据集训练视频。其他网络视频被收集，其中包括2500背景影片、1000验证视频和1574测试视频。

6）Sports-1M数据集：sports-1M的数据集被收集，由谷歌研究人员专注于运动的视频，其中包括100万YouTube视频和487类，如“保龄球”、“自行车”、“漂流”等等。该数据集没有手动标记。注释自动生成通过来自网络用户的文本描述分析。

7）复旦-哥伦比亚视频数据集(FCVID)：我们最近发布FCVID数据集包含带有239类注释的91223个网络视频，覆盖范围广在11个高层组的层次结构中，包括“艺术”、“美容时尚”、“烹饪与健康”、“DIY”、“教育与科技”、“日常生活”、“休闲与技巧”、“音乐”、“自然”、“体育”和“旅游”。不同于Sports-1M，FCVID手动标注有可靠的标签。多个注解参与去尽量减少主观性。

表1 几种流行的基准数据集对于WEB/消费类视频的分类

5、挑战与机遇

虽然在过去的十年里已有显著进展，但目前视频分类技术是远远不能令人满意。主要挑战仍然是可计算的低层特征和高层语义范畴，它不能由一个最先进的方法来很好桥接之间的语义鸿沟。在上述基准CCV，UCF-101和THUMOS-2014中，最好的报告结果分别是69.3％，88.0％和70.8％。网络级数据结果较差是因为有更多的噪音和混乱。这种性能水平显然在许多实际情况下无法令人满意。

随着深度学习方法的日益普及，我们相信在分类性能上有一大的飞跃，可以通过设计新的深度学习模式适于视频分析来实现。到目前为止，深度学习已经证明了许多任务，包括图像注释，语音识别和文本分析，都有非常骄人的成绩。然而对于视频，我们还没有看到非常强劲的性能报告使用这种方法。

主要的原因是，影片有非常独特的时空特征，不能用流行的CNN架构完全捕获。CNN可以部署在采样视频帧，但重要的时间信息不能被建模。目前，关于UCF-101的基准最好报告结果是从早期中提到的双流CNN方法，这是两个传统的CNN分别在时间和空间流上运行。这种方法仅产生类似的性能，以传统手工制作的稠密轨迹特征。此外，现有的工作还显示，直接扩展CNN到3D空时域效果不会很好。因此，我们设想一个新的网络架构，需要进行视频分析。

在设计一个新的深层神经网络结构是困难的，但有可能的，训练一个新的网络并不是一件容易的事。一个关键的问题是，我们在视频领域没有足够的训练数据。如前所述，当前最全面的网络视频分类基准与手工标注可能是我们最近收集到的新FCVID数据集。与其中最大的ImageNet数据集相比，其有超过1400万注释的图像，91K FCVID视频仍然太少。因此建立一个庞大而精心设计的视频数据库是一个挑战，也是一个机遇，因为一旦我们有足够的训练数据，深度学习基于视频分类的性能可能会大大提高到惊人的水平。

总之，有两个方向迫切需要深入将来的调查，大规模基准和深学习方法专门用于视频数据分析。需要注意的是前者不只是需要繁琐的注解工作。它也需要一个很聪明的设计，保证了良好的覆盖，在未来的几年里探测通过计算机算法，且适合到实际应用的需求中。

最后，我们想强调的是，上述讨论只是反映了这一广泛而复杂问题的局部视图。除此之外，有可能是在这个充满活力的领域的有许多更有趣的，更重要的研究问题。

部分参考文献：

D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. In ICLR,2015. 1
S. Banerjee and A. Lavie. Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. In Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization, 2005. 7
D. L. Chen and W. B. Dolan. Collecting highly parallel data for paraphrase evaluation. In ACL, 2011. 5
J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell. Long-term recurrent convolutional networks for visual recognition and description. In CVPR, 2015. 1, 2, 4
H. Fang, S. Gupta, F. Iandola, R. Srivastava, L. Deng, P. Dollar, J. Gao, X. He, M. Mitchell, J. C. Platt, C. L. Zitnick, and G. Zweig. From captions to visual concepts and back. In CVPR, 2015. 1
A. Farhadi, M. Hejrati, M. A. Sadeghi, P. Young, C. Rashtchian, J. Hockenmaier, and D. Forsyth. Every picture tells a story: Generating sentences from images. In ECCV, 2010. 2
S. Guadarrama, N. Krishnamoorthy, G. Malkarnenkar,S. Venugopalan, R. Mooney, T. Darrell, and K. Saenko. Youtube2text: Recognizing and describing arbitrary activities using semantic hierarchies and zero-shot recognition. In ICCV, 2013. 2, 5
Y. Jia, M. Salzmann, and T. Darrell. Learning cross-modality similarity for multinomial data. In ICCV, 2011. 2
A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 6
R. Kiros, R. Salakhutdinov, and R. Zemel. Multimodal neural language models. In ICML, 2014. 2
R. Kiros, R. Salakhutdinov, and R. S. Zemel. Unifying visual-semantic embeddings with multimodal neural language models. TACL, 2015. 1
A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 5
G. Kulkarni, V. Premraj, V. Ordonez, S. Dhar, S. Li, Y. Choi, A. C. Berg, and T. L. Berg. Babytalk: Understanding and generating simple image descriptions. IEEE Trans. on PAMI, 2013. 2
J. Mao, W. Xu, Y. Yang, J. Wang, and A. L. Yuille. Explain images with multimodal recurrent neural networks. In NIPS Workshop on Deep Learning, 2014. 1, 2
T. Mei, Y. Rui, S. Li, and Q. Tian. Multimedia search reranking: A literature survey. ACM Computing Surveys (CSUR), 2014. 3
Y. Pan, T. Yao, T. Mei, H. Li, C.-W. Ngo, and Y. Rui. Clickthrough-based cross-view learning for image search. In SIGIR, 2014. 3
A. Rohrbach, M. Rohrbach, N. Tandon, and B. Schiele. A dataset for movie description. In CVPR, 2015. 5, 7
M. Rohrbach, W. Qiu, I. Titov, S. Thater, M. Pinkal, and B. Schiele. Translating video content to natural language descriptions. In ICCV, 2013. 2, 7
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015. 5
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.5
R. Socher and L. Fei-Fei. Connecting modalities: Semisupervised segmentation and annotation of images using unaligned text corpora. In CVPR, 2010. 6
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015. 6
J. Thomason, S. Venugopalan, S. Guadarrama, K. Saenko, and R. Mooney. Integrating language and vision to generate natural language descriptions of videos in the wild. In COLING, 2014. 6
A. Torabi, C. Pal, H. Larochelle, and A. Courville. Using descriptive video services to create a large data source for video annotation research. arXiv preprint arXiv:1503.01070, 2015. 5
D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015. 5
S. Venugopalan, M. Rohrbach, J. Donahue, R. Mooney, T. Darrell, and K. Saenko. Sequence to sequence - video to text. In ICCV, 2015. 2, 6, 7
S. Venugopalan, H. Xu, J. Donahue, M. Rohrbach, R. Mooney, and K. Saenko. Translating videos to natural language using deep recurrent neural networks. In NAACL HLT, 2015. 1, 2, 6, 7