前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ECCV2020 | Ocean:目标感知的Anchor-free实时跟踪器,速度70+FPS!刚开源

ECCV2020 | Ocean:目标感知的Anchor-free实时跟踪器,速度70+FPS!刚开源

作者头像
小白学视觉
发布2020-07-15 14:42:24
2.8K0
发布2020-07-15 14:42:24
举报
文章被收录于专栏:深度学习和计算机视觉

Ocean:目标感知的Anchor-free实时跟踪器,表现SOTA!

性能优于SiamRPN++、DiMP等网络,速度可高达70+ FPS!

论文链接:https://arxiv.org/pdf/2006.10721.pdf

代码刚刚开源!

https://github.com/researchmm/TracKit

作者团队:中科院&微软

1

摘要

基于anchor的Siamese跟踪器在准确性方面取得了显著的进步,但是进一步的改进却受到滞后跟踪鲁棒性的限制。我们发现根本原因是:

基于anchor的方法中的回归网络仅在正锚框中训练(即IoU≥0.6),该机制使得难以细化与目标对象重叠的anchor。

在本文中,我们提出了一个新颖的目标感知的anchor-free网络来解决这个问题:

  • 首先,不完全参考anchor,而是以anchor-free方式直接预测目标对象的位置和比例。由于groundtruth框中的每个像素均受过良好训练,因此跟踪器能够在推理过程中纠正目标对象的不精确预测。
  • 其次,引入特征对齐模块,以从预测的边界框中学习对象感知特征。目标感知功能可以进一步有助于目标对象和背景的分类。
  • 此外,还提出了一种基于anchor-free模型的新型跟踪框架。

实验表明,我们的anchor-free跟踪器在五个基准上达到了最先进的性能,包括VOT-2018,VOT-2019,OTB-100,GOT-10k和LaSOT。

《Ocean: Object-aware Anchor-free Tracking》 其ECCV 2020论文名为:《Learning Object-aware Anchor-free Networks for Real-time Object Tracking》

2

主要思路

Siamese跟踪器以其均衡的速度和精度引起了人们的广泛关注。

比较具有开创性的工作例如SINT[35]和SiamFC[1]使用Siamese网络学习目标和候选图像补丁之间的相似性度量,从而将跟踪建模为目标在整个图像上的搜索问题。大量的Siamese跟踪器被提出并取得了很好的效果。其中,被称为SiamRPN[22]的Siamese区域候选网络是其中的最具代表性的作品。SiamRPN引入了区域建议网络RPN[31],该网络由前景背景估计的分类网络和锚框优化的回归网络组成,即,学习预定义锚框的2D偏移量。这种基于锚的跟踪器在跟踪精度方面显示出了巨大的潜力。

  • 缺点:

由于回归网络只训练在正锚盒上(即IoU≥0.6),很难细化与目标对象重叠较小的锚点。这将导致跟踪失败,特别是当分类结果不可靠时。

例如,由于跟踪误差的积累,对目标位置的预测可能变得不可靠。由于之前在训练集中看不到这种弱预测,回归网络无法对其进行修正。作为一个序列,跟踪器在随后的帧中逐渐漂移。

  • 问题的提出:

人们很自然会提出这样一个问题:我们能设计一个具有纠正不准确预测能力的边界盒回归模型吗?

  • 解决办法:

在这项工作中,我们证明了答案是肯定的:

我们的目标感知anchor-free跟踪器直接回归目标对象在视频帧中的位置,而不是预测锚盒的小偏移量!更具体地说,提出的跟踪器由两个部分组成:目标感知分类网络和边界盒回归网络。

分类网络负责确定一个区域是属于前景还是背景,而回归网络则预测目标对象内的每个像素到groundtruth边界盒的四个边的距离。由于groundtruth中的每个像素都经过了良好的训练,即使只有一小块区域被识别为前景,回归网络也能够定位目标对象。最终,在推理过程中,跟踪器能够修正与目标物体重叠较小的弱预测。

当回归网络预测一个更准确的边界盒时(如校正弱的预测),相应的特征反过来有助于前景和背景的分类。我们使用预测的边界框作为参照来学习用于分类的对象感知特征。更具体地说,我们介绍了一个特征对齐模块,它包含一个二维空间变换,以对齐特征采样位置与预测的边界盒(即候选对象的区域)。该模块保证了采样在预测区域内,适应了目标尺度和位置的变化。因此,所学习的特征在分类时更具鉴别性和可靠性。

3

具体实现

3.1 Object-aware Anchor-Free Networks

  • Anchor-free回归网络

为了解决当预测的边界盒变得不可靠时,跟踪器会快速漂移的问题,我们引入了一种新的无锚回归来进行视觉跟踪。它将groundtruth边界盒中的所有像素都作为训练样本。其核心思想是估计目标对象内每个像素到groundtruth边界盒的四个边的距离。其中,设

B=(x0,y0,x1,y1)∈r4

表示目标对象的groundtruth包围盒的左上角和右下角。如果一个像素的坐标(x,y)落入groundtruth box B,则将其视为回归样本。因此,训练样本的labels T∗= (l∗,t∗,r∗,b∗)计算为:

(a)回归:groundtruth box中的像素,即红色区域,在训练中被标记为正样本。 (b)正则区分类:靠近目标中心的像素,即红色区域,被标记为正样本。紫色点表示分数图中某个位置的采样位置。 (c)对象感知分类:预测盒和groundtruth盒的IoU,即训练时使用带有红斜线的区域作为标签。青色点代表提取对象感知特征的采样位置。黄色箭头表示空间变换产生的偏移量。

回归网络的学习是通过4个信道数为256的3×3卷积层,再通过1个信道数为4的3×3层来预测距离。这种无锚回归算法在训练时将groundtruth box中的所有像素都考虑在内,即使只识别出一个很小的区域作为前景,也可以预测目标物体的尺度。因此,跟踪器能够在一定程度上修正推理过程中的弱预测。

  • Object-aware Classification Network

在之前的Siamese跟踪方法[1,21,22]中,分类置信度是通过从特征图中固定规则区域采样的特征来估计的,例如。,图2(b)中的紫色点。该采样特征描述了图像中固定的局部区域,不能随对象尺度的变化而缩放。结果表明,分类置信度在复杂背景下区分目标对象时不可靠。

为了解决这个问题,我们提出了一个特征对齐模块来学习用于分类的对象感知特征。对于分类图中的每个位置(dx,dy),都有一个回归网络预测的对应的对象包围框M= (mx,my,mw,mh),其中mx和my表示盒子中心,mw和mh表示盒子的宽度和高度。我们的目标是通过从相应候选区域M中采样特征来估计每个位置(dx,dy)的分类置信度。核大小为k×k的标准二维卷积样本特征使用固定的网格:

因此,我们提出在规则采样网格G上加一个空间变换T(图2C中的黄色箭头),将固定区域的采样位置转换为预测区域M。

采样位置的转换可以适应视频帧中预测边界盒的变化。因此,所提取的目标感知特征对目标尺度的变化具有较强的鲁棒性,有利于跟踪过程中的特征匹配。此外,对象感知特征提供了候选目标的全局描述,使目标和背景的区分更加可靠。

  • Loss Function

其中回归loss:

分类loss:

规则区域loss:

3.2 object-aware Anchor-Free Tracking

  • Framework

特征提取:

该方法遵循Siamese跟踪器[1]的架构,以图像对作为输入,即示例图像和候选搜索图像。示例图像表示要跟踪的目标,即第一帧以目标对象为中心的图像patch,而搜索图像通常较大,代表后续视频帧的搜索区域。两个输入都由修改后的ResNet-50[13]主干处理,然后产生两个特征图。更具体地说,我们去掉了标准ResNet-50[13]的最后一个阶段,只保留了前四个阶段作为主干。前三个阶段的结构与最初的ResNet-50相同。在第四阶段,将下采样单元的卷积步幅由2修改为1,增加feature map的空间大小,同时将所有的3×3卷积都进行扩充,步幅扩大为2,增加接受野。这些修改提高了输出特征的分辨率,从而提高了特征在目标定位中的能力。

特征组合:

将提取的样本特征与搜索图像相结合,生成相应的相似度特征,用于后续的目标定位。与之前在多尺度特征上执行cross-correlationon的工作不同,我们的方法只在单一尺度上执行,即backbone的最后阶段。我们将单尺度特征通过三个平行扩张的卷积层[48],再将相关特征逐点求和融合,如图3(特征组合)所示。

目标定位:

这一步使用所提出的网络来定位搜索图像中的目标。分类网络预测的两个概率po和pr通过权重ω进行加权:

我们对尺度变化施加惩罚来抑制物体大小和高宽比的大变化,如下所示:

最终的目标分类概率计算

ˆpcl =α·pcl

  • Integrating Online Update

我们进一步为离线算法配置了一个在线更新模型。引入了一个在线分支来捕捉目标对象在跟踪过程中的外观变化。如图3(底部)所示,在线分支继承骨干网前三个阶段的结构和参数,即,修改ResNet-50[13]。第四阶段保持主干结构不变,但通过[2]中提出的预训练策略获得其初始参数。在模型更新方面,采用快速共轭算法[2]对推理过程中的在线分支进行训练。将在线分支和分类分支估计的前景得分图加权为:

4

实验结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小白学视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档