专栏首页人工智能前沿讲习SFFAI分享 | 张志鹏:SiamDW Real-Time Visual Tracking【附PPT与视频资料】

SFFAI分享 | 张志鹏:SiamDW Real-Time Visual Tracking【附PPT与视频资料】

导读


目标跟踪是计算机视觉的基本任务之一,近年来随着大量跟踪数据库如OTB,VOT,LASOT,GOT10K的提出,以及VOT比赛的推广,单目标跟踪领域迅速发展。而这其中siamese跟踪算法由于其在速度和精度之间很好的平衡而逐渐成为单目标跟踪研究中最火的方向。然而在今年之前,siamese跟踪算法仍然是只是基于浅层的AlexNet,深层网络不但没有帮助反而会使效果下降。在CVPR19中,我们通过对网络结构属性的分析,提出网络padding, 感受野, 特征输出大小,stride是影响加深网络的关键。进而我们提出了适用于跟踪siamese网络的crop-in-residual模块,通过堆积模块加深网络,使深层siamese网络在跟踪上效果有了显著提高。本次分享会上我们:

(1) 首先回顾了Siamese跟踪的几篇经典论文;

(2) 介绍了我们在CVPR2019的工作:Deeper and Wider Siamese Networks for Real-Time Visual Tracking;

(3) 分享关于Siamese跟踪的感悟。

作者简介


张志鹏,中科院自动化所模式识别国家重点实验室,研二,导师胡卫明。研究方向为单目标跟踪。

目标跟踪介绍


单目标跟踪是在给定物体和初始位置的情况下,跟踪得到后续每帧目标的具体位置。作为时序问题,目标跟踪除了面对图像质量和目标形变/遮挡等挑战外,时序上误差累计导致的漂移也是跟踪所面对的严峻问题。近期Siamese网络由于其在performance和efficiency的良好的平衡得到广泛关注。

相关工作


SiamFC和SiamRPN

Siamese网络将目标跟踪定义为matching问题,抽取前一帧目标位置周围的候选框对应的特征,将其与模板(通常为第一帧)进行匹配得到跟踪结果。如果每个框都进行特征抽取(SINT做法), 其时间成本非常高。SiamFC将候选特征抽取和匹配的过程转化为全卷积操作,通过模板特征在候选图特征上进行滑窗卷积,快速得到最大响应的位置。但是SiamFC的一个问题是没有快速的尺度估计算法,SiamRPN通过加一个新的尺度回归head使得到的目标更加精准。近期Siamese的主要工作都围绕SiamFC和SiamRPN展开。

SA-SIAM和SPM

SA-SIAM和SPM是MSRA同一团队在CVPR2018和CVPR2019的两篇工作。SA-SIAM引入一个辅助网络,两支网络分别在不同数据集上训练,作者将其称为SNet和ANet。SNet在ImageNet上训练,ANet在跟踪数据集上训练。两只网络由于训练时目的不同,所关注的特征也不相同,通过两支网络结果融合有效的提高了跟踪准确率。SPM的核心思想是做结果的二次refine。首先模型粗略搜索得到一个结果,然后将这个结果送达第二级refine模型进行微调。

Motivation and Analysis

在今年之前Siamese跟踪网络的backbone仍然是浅层的AlexNet。按照深度学习的常识,在一定范围内随着网络加深,模型效果会越来越好。所以在不改变其他条件的基础上,我们将网络的backbone替换为更深的VGG,ResNet和Inception。然而,这种直接的替换不但没有带来性能提高,反而让性能急剧下降。

为了找到其中的原因,我们通过大量实验对网络中的影响因子进行了详细的分析。

我们发现,感受野(RF),特征输出大小(OFS), 网络stride,和padding对性能都有关键影响。首先对于Siamese网络来说必须先消除padding带来的感知不一致的问题,如下图所示。

当没有padding时,siamese两支网络感知一致,当有padding时感知一致性被破坏,造成定位不准(详见paper)。感受野和输出大小的影响呈现处单峰的趋势,过大过小都不好。Siamese跟踪本质上是patch tracking的过程,模板被抽象成一个有spatial信息(如6*6)的特征嵌入。感受野过小则特征抽象程度不够。感受野过大的话相邻两个patch重合度很大,造成特征嵌入整体diversity比较小,也会使其判别力降低。如下图所示。

根据实验分析,我们得到如下设计Siamese跟踪网络的guidelines:

(1) Siamese跟踪网络偏向于比较小的stride,如4或8;

(2) 网络感受野在输入模板大小的60%-80%比较合适;

(3) Stride,感受野,输出大小相互耦合,在设计网络时候要综合考虑;

(4) Siamese跟踪网络要消除padding带来的感知不一致的问题。

网络设计

根据上述提出的guidelines,我们设计了CIR和CIR-D模块。CIR模块简单有效的消除了感知不一致的问题,并且block内crop的做法一定程度起到了加速作用。

通过堆叠CIR模块,我们设计了不同的深度Siamese跟踪网络并取得了明显的performance增益。

一些可能不成熟的经验

  • Siamese网络对超参和训练数据都很敏感,一定要多实验验证;
  • 跟踪近年发展很快,每年都会有很大的performance增幅,但只刷点不应该是学术的重心,还是应该提供更多更好的分析思路;
  • 多和别人讨论,扩展思路。

Code

https://github.com/researchmm/SiamDW.git

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:张志鹏

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 视频中的多目标跟踪【附PPT与视频资料】

    目前视频多目标跟踪在智能安防、自动驾驶、医疗等领域都有非常多的应用前景,但同时也是计算机视觉中比较困难的一个问题。这主要是由于待跟踪的目标被遮挡造成的。本文主要...

    马上科普尚尚
  • 精选论文 | 视频目标跟踪专题【附打包下载】

    随着近年来智能城市监控的发展和自动驾驶的兴起,视频目标跟踪得到了更多的研究者的关注,其中包括单目标跟踪、多目标跟踪、跨摄像头多目标跟踪等等。目标跟踪也涉及很多相...

    马上科普尚尚
  • 【AIDL专栏】王井东:深度融合——一种神经网络结构设计模式

    深度学习,是最近十年来才发展起来的。2006年Hinton发表在Science的文章【1】首次提出了深度学习的概念,但当时没有很多人认可深度学习。深度学习真正引...

    马上科普尚尚
  • Nature Reviews Neuroscience:脑网络组织的经济性

    大脑是昂贵的,相对于身体大小而言,大脑会产生高昂的物质和代谢成本,而脑网络可以通过改变组织形式来减少这些成本。但是,脑网络连接组也有很高的拓扑效率、鲁...

    用户1279583
  • 研究表明:直接连接到云端至少降低50倍的延迟

    对于将公共云作为其数据中心解决方案的一部分的企业来说,网络延迟是一个很大的问题。对于某些企业而言,还没有考虑到这种延迟,直到他们已经承诺使用公共云,并迅速成为一...

    静一
  • 【腾讯TMQ】基于模型的自动化测试工具:GraphWalker

    概述GraphWalker就是一个基于测试模型的用例生成工具。它主要应用于FSM, EFSM模型。可以用来它直接读取FSM, EFSM图形模型、json模型、生...

    腾讯移动品质中心TMQ
  • 内连接的两种方式

    在前面的文章中我们讲过两个概念,宽表和窄表,在现实业务中,数据库中很多表存储其实都是以窄表的形式来存储的,但是我们一般从数据库中获取信息的时候,都是需要同时从多...

    张俊红
  • 【直播】我的基因组 30:使用软件把变异分类—添加tag

    前面我们讲解了VCF文件的基础信息,其中第8列的信息可以无限丰富,但是通常我们的call variation的软件默认只给出有限的信息,有的甚至都不会告诉你该变...

    生信技能树
  • Jmeter(三十八)while控制器实现ssh三次重连

    然而在实际测试中,不能确定我们的的机器能够正常连接。这里就要用到while循环设置重连,如下添加while控制器,写入循环语句。

    飞天小子
  • 获取Redis中所有的键

    在日常的开发中我们有时会要遍历Redis中的所有的键,我们在之前的文章中已经介绍过了,我们可以用keys命令来获取所有的键,那么在Redis中除了keys命令之...

    吉林乌拉

扫码关注云+社区

领取腾讯云代金券