SFFAI分享 | 张志鹏：SiamDW Real-Time Visual Tracking【附PPT与视频资料】

马上科普尚尚

发布于 2020-05-14 10:23:08

8950

发布于 2020-05-14 10:23:08

导读

目标跟踪是计算机视觉的基本任务之一，近年来随着大量跟踪数据库如OTB,VOT,LASOT,GOT10K的提出，以及VOT比赛的推广，单目标跟踪领域迅速发展。而这其中siamese跟踪算法由于其在速度和精度之间很好的平衡而逐渐成为单目标跟踪研究中最火的方向。然而在今年之前，siamese跟踪算法仍然是只是基于浅层的AlexNet，深层网络不但没有帮助反而会使效果下降。在CVPR19中，我们通过对网络结构属性的分析，提出网络padding, 感受野, 特征输出大小，stride是影响加深网络的关键。进而我们提出了适用于跟踪siamese网络的crop-in-residual模块，通过堆积模块加深网络，使深层siamese网络在跟踪上效果有了显著提高。本次分享会上我们：

(1) 首先回顾了Siamese跟踪的几篇经典论文；

(2) 介绍了我们在CVPR2019的工作：Deeper and Wider Siamese Networks for Real-Time Visual Tracking；

(3) 分享关于Siamese跟踪的感悟。

作者简介

张志鹏，中科院自动化所模式识别国家重点实验室，研二，导师胡卫明。研究方向为单目标跟踪。

目标跟踪介绍

单目标跟踪是在给定物体和初始位置的情况下，跟踪得到后续每帧目标的具体位置。作为时序问题，目标跟踪除了面对图像质量和目标形变/遮挡等挑战外，时序上误差累计导致的漂移也是跟踪所面对的严峻问题。近期Siamese网络由于其在performance和efficiency的良好的平衡得到广泛关注。

相关工作

SiamFC和SiamRPN

Siamese网络将目标跟踪定义为matching问题，抽取前一帧目标位置周围的候选框对应的特征，将其与模板(通常为第一帧)进行匹配得到跟踪结果。如果每个框都进行特征抽取(SINT做法), 其时间成本非常高。SiamFC将候选特征抽取和匹配的过程转化为全卷积操作，通过模板特征在候选图特征上进行滑窗卷积，快速得到最大响应的位置。但是SiamFC的一个问题是没有快速的尺度估计算法，SiamRPN通过加一个新的尺度回归head使得到的目标更加精准。近期Siamese的主要工作都围绕SiamFC和SiamRPN展开。

SA-SIAM和SPM

SA-SIAM和SPM是MSRA同一团队在CVPR2018和CVPR2019的两篇工作。SA-SIAM引入一个辅助网络，两支网络分别在不同数据集上训练，作者将其称为SNet和ANet。SNet在ImageNet上训练，ANet在跟踪数据集上训练。两只网络由于训练时目的不同，所关注的特征也不相同，通过两支网络结果融合有效的提高了跟踪准确率。SPM的核心思想是做结果的二次refine。首先模型粗略搜索得到一个结果，然后将这个结果送达第二级refine模型进行微调。

Motivation and Analysis

在今年之前Siamese跟踪网络的backbone仍然是浅层的AlexNet。按照深度学习的常识，在一定范围内随着网络加深，模型效果会越来越好。所以在不改变其他条件的基础上，我们将网络的backbone替换为更深的VGG，ResNet和Inception。然而，这种直接的替换不但没有带来性能提高，反而让性能急剧下降。

为了找到其中的原因，我们通过大量实验对网络中的影响因子进行了详细的分析。

我们发现，感受野(RF)，特征输出大小(OFS), 网络stride，和padding对性能都有关键影响。首先对于Siamese网络来说必须先消除padding带来的感知不一致的问题，如下图所示。

当没有padding时，siamese两支网络感知一致，当有padding时感知一致性被破坏，造成定位不准(详见paper)。感受野和输出大小的影响呈现处单峰的趋势，过大过小都不好。Siamese跟踪本质上是patch tracking的过程，模板被抽象成一个有spatial信息(如6*6)的特征嵌入。感受野过小则特征抽象程度不够。感受野过大的话相邻两个patch重合度很大，造成特征嵌入整体diversity比较小，也会使其判别力降低。如下图所示。

根据实验分析，我们得到如下设计Siamese跟踪网络的guidelines：

（1） Siamese跟踪网络偏向于比较小的stride，如4或8；

（2）网络感受野在输入模板大小的60%-80%比较合适；

（3） Stride，感受野，输出大小相互耦合，在设计网络时候要综合考虑；

（4） Siamese跟踪网络要消除padding带来的感知不一致的问题。

网络设计

根据上述提出的guidelines，我们设计了CIR和CIR-D模块。CIR模块简单有效的消除了感知不一致的问题，并且block内crop的做法一定程度起到了加速作用。

通过堆叠CIR模块，我们设计了不同的深度Siamese跟踪网络并取得了明显的performance增益。

一些可能不成熟的经验

Siamese网络对超参和训练数据都很敏感，一定要多实验验证；
跟踪近年发展很快，每年都会有很大的performance增幅，但只刷点不应该是学术的重心，还是应该提供更多更好的分析思路；
多和别人讨论，扩展思路。

Code

https://github.com/researchmm/SiamDW.git

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-07-12，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自人工智能前沿讲习微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度

SFFAI分享 | 张志鹏：SiamDW Real-Time Visual Tracking【附PPT与视频资料】

SFFAI分享 | 张志鹏：SiamDW Real-Time Visual Tracking【附PPT与视频资料】

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐