【干货】模仿人类的印象机制,商汤提出精确实时的视频目标检测方法

【导读】最近,针对视频目标检测中速度精度难以两全的问题,来自商汤科技(SenseTime)的学者发表论文提出一个新的概念——印象网络,其体现出了自然高效的特征聚合机制。本文的框架通过迭代吸收稀疏的关键帧特征来建立印象特征。印象特征一直沿着视频传播,有助于增强低质量帧的特征。这种印象机制能够将稀疏的关键帧进行远距离的特征融合,并且使融合的过程开销最小。所提出的方法在ImageNet VID上进行了评估,取得了非常好的效果并且具备实时性(20fps)。代码将开源。

论文:Impression Network for Video Object Detection

▌摘要


与图像目标检测相比,视频目标检测更具挑战性。以前的工作证明:对视频逐帧应用目标检测器不但速度慢,而且不准确。在视频中由于运动和虚焦导致目标出现视觉模糊现象,进而使相应帧的检测失败。多帧特征融合方法(Multi-frame feature fusion methods)能够提高检测精度,但是其以牺牲速度为前提。基于特征传播的方法(Feature propagation based methods)能够提高检测速度,但是它牺牲了准确性。那么是否可以同时提高速度和检测性能呢?

受到人们如何从模糊的帧中利用印象识别对象的启发,本文提出了印象网络(Impression Network),其体现了自然和高效的特征聚合机制。在提出的框架中,通过迭代吸收稀疏的帧特征来建立印象特征。印象特征一直沿着视频传播,有助于增强低质量帧的特征。这种印象机制能够将稀疏的关键帧进行远距离的特征融合,并且使融合的过程开销最小。它显著提升了ImageNet VID中逐帧进行检测的方法,同时速度提高了3倍(20 fps)。 本文希望印象网络能够为视频特征增强提供新的解决思路,将提供本文的代码。

▌详细内容


快速准确的视频目标检测方法在很多场景下都很有价值。 像Faster R-CNN 和R-FCN 这样的单图像检测器在静态图像上取得了非常好的精度,所以一种很自然的想法是将它们应用于视频中。一种直观的方法是在视频中逐帧应用这些方法,但这并不是最好的。首先,图像检测器通常涉及到大型的特征网络(像ResNet-101 这样的网络),即使在GPU上运行也很慢(5fps)。

这妨碍了视频目标检测在自动驾驶和视频监控等实时场景中的应用。其次,单图像检测器容易受到视频中图像退化问题(这是很常见的问题)的影响。如图2所示,图像帧可能会受到虚焦、运动模糊、对象位置异常等因素影响,其使得图像的视觉线索太弱以至于难以进行对象检测。因此,上述两个问题使视频目标检测任务具有挑战性。

图2:视频中变差的帧的示例

特征级方法可以针对上述两个问题给出解决方案。这些方法将单图像识别过程分为两个阶段:1. 图像通过通用特征网络进行特征提取; 2. 然后,子网络(具有特定任务的子网络)生成结果。当将图像检测器转换为视频检测器时,特征级方法致力于改进特征阶段(第一阶段),而任务网络(第二阶段)保持不变。任务的独立性使得特征级的方法多样话且概念简单。为了提高速度,特征级方法在第一阶段重用稀疏采样的深度特征,因为邻近的视频帧有很多冗余信息。这节省了特征网络推断的时间,使检测速度达到实时的标准,但牺牲了准确性。

另一方面,通过多帧特征融合可以提高准确性,使得检测器能够检测到低质量的帧,但是多帧特征融合成本可能很高,从而进一步降低了框架的运行速度。在本文的工作中,作者结合了二者的优势,提出了一个新的特征级框架,它具有实时的检测速度,并且准确率能超过逐帧检测方法。

提出的印象网络受到人类对视频的理解方式的启发。当出现一个新的帧时,人类不会忘记以前的帧。相反,这个印象是随着视频的积累产生的,这有助于在有限的视觉线索中理解退化帧(degenerated frames)。这种机制使提出的方法能提高帧的特征和准确性。文中还将其与稀疏关键帧特征提取方法相结合,以获得实时的检测速度。提出方法的流程如图1所示。

图1:印象网络推断流程。只显示前三个片段的关键帧。顶层特征图的第581个通道(对马敏感)被可视化。关键帧2处因为虚焦而导致检测失败(图5),但是印象特征将前面帧的信息传递过来,并增强f2,因此仍然能够正确预测。

为了解决冗余和提高速度,本文将视频分成长度相等的片段。对于每个片段,只选择一个关键的帧进行深度特征提取。利用光流指导(flow-guided)特征传播,关键帧特征被非关键帧重复使用。基于此,本文采用印象机制(Impression mechanism)进行多帧特征融合。当提取关键帧特征(key feature)时,不仅要送入任务网络,而且还被印象特征(impression feature)吸收。然后特征向下传播到下一个关键帧。

下一个关键帧的任务特征(task feature)是其自身特征和印象特征的加权组合,并通过吸收该特征来更新印象特征。这个过程持续到整个视频结束。在这个框架中,印象特征积累了高质量的视频对象信息并且一直向后传播,有助于增强传入的关键特征。它提高了任务特征的整体质量,从而提高了检测的准确性。

印象机制也有助于提升速度。通过迭代聚合策略,可以最大限度地降低特征融合的成本。 先前的工作[33]已经证明,视频帧特征应该在聚集之前与光流指导(flow-guided)的warping在空间上对齐,而光流的计算是不可忽略的。直观的方式需要对每个帧进行一个光流估计,而印象网络(Impression Network)只需要对相邻片段进行一次额外的流量估算,使其效率更高。

印象网络没有花里胡哨的修饰,却在ImageNet VID 数据集上超越了目前最先进的图像检测器。其速度提高了三倍(20 fps),并且准确度更高。本文希望印象网络能够为视频检测任务中的特征聚合提供新的视角。

▌方法简介


本文的算法流程如下所示:

给定一个视频,这次的任务是产生这个视频每一帧上的检测结果。为了避免冗余的特征计算,本文将帧序列以长度l进行划分。每个划分中只有一个关键帧通过特征网络提取特征。

关键帧特征通过flow-guided warping传播到剩余帧中,其中光流是通过一个轻量级的光流网络进行计算的。最后,所有帧的特征被送入任务网络,产生最终的检测结果。

图3:印象网络的训练框架。数据流用实线标记出来。用虚线连接的组件之间共享权值。图中,利用三个视频帧对推断阶段的工作流程进行了模拟。所有的组件都进行端到端优化。

▌实验结果


图4:使用不同聚合权重分配帧的示例。白色数字表示用algorithm 1对加权像素进行空间平均。清晰的图像帧被分配到较大的权重,这使符合直觉的。

图5:印象网络好于逐帧的基准方法(标准ResNet-101 R-FCN)的示例。绿色框表示正确的,红色框表示错误的。

表1:不同方法的准确率和运行时间对比。

图6:先前的关键帧在不同记忆门g处对检测的平均贡献。 当g为1.0时,贡献值随着偏移值的增大而平滑下降。 随着g的减小,印象越来越多地被最近的关键帧占据,而早期的关键帧迅速缩小到0。

图7:在不同的g值时的mAP得分。 尽管网络训练并不总是如图中一样,但是启用远程聚合确实带来了显着的改善。

表2:选择不同的关键帧得到的平均传播距离和mAP值。其他设置保持一致(具体如表1).因为对称性,只显示关键帧id从0-5的结果。

表3:用提出的印象网络与基于聚合的方法FGFA及其更快的变体FGFA-fast进行比较。其中的设置与表1中的方法(d)相同。

图8:比较深度特征光流(DFF)和印象网络的速度-精度(speed-accuracy)曲线。两者都使用ResNet-101作为特征网络,FlowNet-S作为光流网络(flow network)。

▌结论


本文提出了一个快速和准确的特征级(feature-level)的视频对象检测方法。所提出的印象机制利用了一种新颖的视频特征聚合方案。由于印象网络在特征阶段(第一阶段)工作,所以它与现有的box-level后处理方法如Seq-NMS 是可以互补的。 现在文章中使用FlowNet-S 来指导特征传播以便进行清晰的比较,使用更高效的光算法肯定会使提出的方法受益。 为了简单,文本使用固定的片段长度,当然,使用自适应的长度可以更合理地调度计算。作为一种特征级的方法,印象网络具有任务独立性(task-independence),并有可能解决其他视频任务中的图像退化问题。

参考链接:

https://arxiv.org/abs/1712.05896

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏贾志刚-OpenCV学堂

使用sklearn随机森林算法实现手写数字识别

随机森林(random forest)是2001年提出来同时支持数据的回归与分类预测算法,在具体了解随机森林算法之前,首先看一下决策树算法(Decision T...

34720
来自专栏CDA数据分析师

几千条文本库也能做机器学习!NLP小数据集训练指南

深度学习往往需要大量数据,不然就会出现过度拟合,本文作者提出了一些在文本数据量不够大的时候可用的一些实用方法,从而赋予小数据集以价值。

10830
来自专栏专知

DeepMind最新深度学习研究:超参选择利器-引入基于群体的训练

【导读】机器学习的训练和优化是现代深度学习模型中最具有挑战性的方面,本文首先介绍了常用的深度学习超参数优化方法:随机搜索和手动优化,然后引入DeepMind关于...

38070
来自专栏AI科技评论

干货 | 上海交通大学CVPR Spotlight论文:利用形态相似性生成人体部位解析数据

AI 科技评论按:本文由上海交通大学的方浩树为 AI 科技评论所撰写的独家解读稿件,未经许可不得转载。

15220
来自专栏CSDN技术头条

随机森林不可思议的有效性

对于机器学习从业者而言,有自己最喜欢的算法是很常见的。可能这有点不太合乎常理,因为没有一个算法能够完全地主导所有的应用,而且机器学习算法的性能很大程度上依赖于应...

26160
来自专栏Soul Joy Hub

《深度学习Ng》课程学习笔记03week2——机器学习(ML)策略(2)

http://blog.csdn.net/u011239443/article/details/78132697 2.1 进行误差分析 标注错误: ? 2...

35980
来自专栏腾讯大数据的专栏

揭开大数据测试的神秘面纱

一、前言 在大数据时代,数据挖掘,人工智能,机器学习这一系列高大上的技术应运而生,针对这一系列高大上的系统,测试同学如何参与其中,做好质量把控呢?与我们熟悉的测...

20860
来自专栏机器之心

教程 | 详解支持向量机SVM:快速可靠的分类算法

选自Monkey Learn 作者:Bruno Stecanella 参与:李泽南、李亚洲 当处理文本分类问题时,你需要不断提炼自己的数据集,甚至会尝试使用朴素...

560100
来自专栏新智元

【干货指南】机器学习必须需要大量数据?小数据集也能有大价值!

深度学习往往需要大量数据,不然就会出现过度拟合,本文作者提出了一些在文本数据量不够大的时候可用的一些实用方法,从而赋予小数据集以价值。

16840
来自专栏AI研习社

为什么『无监督集成学习』乏人问津?

终于有机会给大家聊聊每天折磨我的主题 - 无监督集成学习(Unsupervised Ensemble)。其实这是个很有意思的领域,但因为各种各样的原因一直都处于...

40260

扫码关注云+社区

领取腾讯云代金券