专栏首页人工智能前沿讲习基于视频的目标检测的发展【附PPT与视频资料】

基于视频的目标检测的发展【附PPT与视频资料】

关注文章公众号 回复"郭超旭"获取PPT与视频资料

导读


随着深度卷积神经网络的迅速发展,基于图片的识别任务包括分类、检测与分割等都得到了极大的进步。然而,我们现实生活面临的都是一些视频流信息,而基于图片的模型参数量大且Inference时间较长,如何将这些模型迁移到视频流上成为了一个研究热点。此次分享主要聚焦于基于视频的目标检测,介绍近几年research community 在视频目标检测的几个比较好的工作。

作者简介


郭超旭,中科院自动化研究所二年级硕士生在读,本科毕业于华南理工大学自动化系。2018 MSCOCO竞赛实例分割第三名,全景分割第二名。2018南京人工智能大赛仪表识别组初赛第一名。目前研究方向主要为基于视频、图片的检测与分割。

1.Introduction


基于视频的目标检测与普通的图片目标检测的任务一样,都是需要给出图片上物体的类别以及对应的位置,但是视频目标检测相比图片目标检测有更多的难点和更高的要求。视频中会存在运动模糊、摄像头失焦的现象以及目标物体可能会保持一种奇怪的姿态或者存在严重的遮挡,这往往需要利用视频中的时序信息来对视频中的信息进行推断和预测。除此之外,视频由于包含有大量的视频帧,直接将基于图片的检测模型迁移到视频上可能会带来巨大的计算量,视频中的时序信息可能能够帮助我们不用依赖重复的特征计算就能得到相应的结果。目前主流的方法是利用光流来捕捉视频中的时序信息。

2.Methods


目前利用光流的方法大体分为两个流派,一个是利用光流来进行洗漱关键帧之间的特征传递,从而节省计算量来达到速度与精度的trade-off;一个是利用光流来充分利用邻帧的信息,对视频帧进行特征增强,以达到更高的精度,但是速度一般比较慢。我们接下来会以论文公开时间为顺序来介绍近期的四个工作。

第一个工作是来自MSRA的Deep Feature Flow (DFF),DFF的核心思想就是利用光流中的warp操作来进行特征传递。具体地讲,如下图1,DFF在一段视频帧里面以固定间隔选取稀疏地关键帧,其他的帧则为非关键帧。对于关键帧,DFF 用一个特征提取网络res101去提取高层语义特征,进而检测器则以这些特征为输入从而得到检测结果;对于非关键帧,DFF先经过一个光流网络计算该非关键帧与在此之前最近的关键帧的光流图,然后利用得到的光流图和关键帧的高层特征进行warp操作,从而将特征对齐并传递到该非关键帧,检测器基于此特征输出该非关键帧的检测结果。DFF利用相对轻量的光流网络和warp操作代替原来的res101来得到相应的特征,达到节省计算量的目的。最终在关键帧间隔为10的情况下,达到73.1mAP/20fps(K40). 在比baseline(73.9Map/5fps)损失了0.8mAP的情况下得到了5倍的提速。

图1

这里我们稍微讲解一下warp操作,warp最开始是用在对图片像素点进行对齐的操作。光流图本质就是记录了某帧图片像素点到另外一帧的运动场,光流图上的每一个点对应着图片上该点的运动矢量。如图2所示,假设我们知道第t帧中的点会运动到第t+1帧的点,这样就得到了运动矢量。如果我们此时要求得第t帧中的像素值,则可以根据其运动矢量和第t+1帧中的像素值来进行双线性插值得到,具体如图3:

图3

假设落到点,则有:

而DFF则将warp操作扩展到feature map上,从而达到进行特征传递的目的。

第二个工作是MSRA的Flow Guided Feature Aggregation(FGFA)。与DFF不同,FGFA追求精度而不考虑速度,其对于视频的所有帧都利用特征网络res101提取了特征,为了增强特征,其还利用光流将相邻多帧的特征给warp到当前帧,然后所有的特征输入到一个小的embedding网络从而得到每个特征的相对重要性权重,进而利用这些权重对这些特征进行加权求和,最后得到的增强后的特征再送入检测器,以得到检测结果。通过这样的方式,FGFA得到了更高的精度,但是损失了很多速度,最后的结果为76.3mAP/1.36fps。

第三个工作是来自商汤的Impression Network,这个工作是在DFF的基础上做的,Impression除了将关键帧的特征利用warp传递到非关键帧之外,还提出关键帧之间的特征传播与增强,以求保留更多的时序上下文信息。具体地,关键帧的特征利用warp传递到下一个关键帧,两个特征经过几层卷积网络得到相应的重要性权重,进而对其进行加权求和得到新的关键帧的特征,不同的相邻关键帧之间以这种方式不断迭代进行,达到将重要的信息在整个视频中传递的目的。Impression在得到较好结果的同时也有不错的速度,在GTX 1060上达到75.5mAP/20fps。

第四个工作是MSRA的Towards good performance video object detection。之前DFF和Impression选取关键帧的方式都是启发式地以固定间隔来选取,这个工作给光流网络增加了一个输出,新的输出map上的每一个点的值代表两帧的feature map上的对应点的特征一致性程度。而这个工作觉得当上一个关键帧与当前帧的特征一致性程度总体低到一定的阈值的时候,就要将该帧当作新的关键帧。除了提出动态选取关键帧的方法之外,其还提出根据两帧之间的特征一致性程度来动态更新非关键帧的特征,而不是跟之前的工作一样直接利用warp过来的特征。具体地,当feature map上的某个位置特征一致性比较低的时候,我们就不利用warp过来的特征来更新非关键帧的特征,而使用原来的特征;如果比较高的话,则直接使用warp过来的特征。通过这两个技巧,这个工作得到了比较好的一个trade-off:78.6mAP(+deformable)/8.6fps(K40)。

Take Home Message


当前的主流方法都是利用光流在做特征的对齐和传递,这种做法有点曲线救国,如何摆脱光流而设计一个直接基于特征的对齐方法是一个值得探究的方向。

SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树(AI Knowledge Tree),通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前,衷心期待和感谢您的支持与奉献!

有意加入者请与我们联系:wangxl@mustedu.cn

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:Must

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-12-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 三维目标识别算法综述

    目前三维点云数据的获取方法相对快捷,同时三维点云数据的采集不受光照影响,也规避了二维图像遇到的光照、姿态等问题,因此基于点云数据的三维物体识别也引起了人们的重视...

    马上科普尚尚
  • 深度了解特征工程

    Feature:An attribute useful for your modeling task. Feature Selection:From many ...

    马上科普尚尚
  • 数据挖掘的前沿论文,看我们推荐的这7篇

    近年来,电商平台飞速发展,搭配问题是电商系统中的一个非常重要的任务,它涉及对商品的深入理解整合。阿里京东等公司,都设计了专门独立的搭配平台,比如时尚大脑,滴搭系...

    马上科普尚尚
  • 为什么人生气时说话用喊的 博客分类: 经典文章转载 .netBlog

    所有的学生都想了很久,其中有一个学生说:“因为我们丧失了冷静,所以我们会用喊的。”

    chroya
  • Redis持久化详解(RDB&AOF)

    Redis 对外提供数据访问服务时,使用的是常驻内存的数据。为了在Redis Server重启之后数据还可以得到恢复,Redis具备将数据持久化到硬盘中的能力。

    JavaEdge
  • 集合详解(一)----Collection和Map接口

    在我们编程的时候,有时候需要集中存放多个数据,可以用数组来保存多个数据,但是数组的长度是不可变的,一旦数组的长度确定了之后就无法再改变,如果要保存可变长度的数...

    令仔很忙
  • Nature年度最佳科学图片:人造微观血液网络、水珠里的青蛙

    除此之外,Nature新闻编辑团队选出了一些图片。这些图片既展示了先进的技术、以及通过技术看见的微观生物,也提醒着人类气候变化的危险。

    量子位
  • JMeter分布式压测环境搭建

    在使用JMeter进行压测时,当被测接口需要很高的并发量,或者有些接口访问数很高的时候,Linux网络相关的内核参数需要根据实际服务进行调整,从而导致本地端...

    软测小生
  • Redis持久化原理(RDB)

    本文将先说明上述几种技术分别解决了Redis高可用的什么问题;然后详细介绍Redis的持久化技术,主要是RDB和AOF两种持久化方案;在介绍RDB和AOF方案时...

    用户5546570
  • JMeter分布式压测环境搭建

    在使用JMeter进行压测时,当被测接口需要很高的并发量,或者有些接口访问数很高的时候,Linux网络相关的内核参数需要根据实际服务进行调整,从而导致本地端...

    用户5521279

扫码关注云+社区

领取腾讯云代金券