CVPR:深度无监督跟踪

原创

用户2293520

修改于 2020-07-27 10:38:56

1.2K0

修改于 2020-07-27 10:38:56

文章被收录于专栏：AI算法

本文提出了一种无监督的视觉跟踪方法。与使用大量带注释数据进行监督学习的现有方法不同，本文的CNN模型是在无监督的大规模无标签视频上进行训练的。动机是，强大的跟踪器在向前和向后预测中均应有效（即，跟踪器可以在连续帧中向前定位目标对象，并在第一个帧中回溯到其初始位置）。在Siameses相关过滤器网络上构建框架，该网络使用未标记的原始视频进行训练。同时提出了一种多帧验证方法和一种对成本敏感的损失，以促进无监督学习。由于没有bells & whistles，本文的无监督跟踪器可达到完全受监督的在训练过程中需要完整且准确的标签的跟踪器的基线精度。此外，无监督框架在利用未标记或标记较弱的数据以进一步提高跟踪准确性方面具有潜力。

1.引言

视觉跟踪是计算机视觉中的一项基本任务，该任务旨在在给定第一帧的边界框注释的情况下将视频中的目标对象定位。最新的深度跟踪方法通常使用预训练的CNN模型进行特征提取。这些模型以受监督的方式进行训练，需要大量带注释的真实情况的标签。手动注释总是昂贵且费时的，而大量未标记的视频很容易在Internet上找到。值得研究如何利用未标记的视频序列进行视觉跟踪。

最新的深度跟踪方法
Luca Bertinetto, Jack Valmadre, Jo˜ao F Henriques, Andrea
Vedaldi, and Philip HS Torr. Fully-convolutional siamese
networks for object tracking. In ECCV, 2016.
Boyu Chen, Dong Wang, Peixia Li, Shuang Wang, and
Huchuan Lu. Real-time’actor-critic’tracking. In ECCV,
2018.
Anfeng He, Chong Luo, Xinmei Tian, and Wenjun Zeng. A
twofold siamese network for real-time object tracking. In
CVPR, 2018.
Ilchae Jung, Jeany Son, Mooyeol Baek, and Bohyung Han.
Real-time mdnet. In ECCV, 2018.
Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, and Xiaolin Hu.
High performance visual tracking with siamese region pro-
posal network. In CVPR, 2018.
Wenhan Luo, Peng Sun, Fangwei Zhong, Wei Liu, Tong
Zhang, and Yizhou Wang. End-to-end active object track-
ing and its real-world deployment via reinforcement learn-
ing. TPAMI, 2019.
Wenhan Luo, Junliang Xing, Anton Milan, Xiaoqin Zhang,
Wei Liu, Xiaowei Zhao, and Tae-Kyun Kim. Multi-
ple object tracking: A literature review. arXiv preprint
arXiv:1409.7618, 2014.
Ran Tao, Efstratios Gavves, and Arnold WM Smeulders.
Siamese instance search for tracking. In CVPR, 2016.
Qiang Wang, Jin Gao, Junliang Xing, Mengdan Zhang, and
Weiming Hu. Dcfnet: Discriminant correlation ﬁlters net-
work for visual tracking. arXiv preprint arXiv:1704.04057,
2017.
Qiang Wang, Zhu Teng, Junliang Xing, Jin Gao, Weiming
Hu, and Stephen Maybank. Learning attentions: Residual
attentional siamese network for high performance online vi-
sual tracking. In CVPR, 2018.
Tianyu Yang and Antoni B Chan. Learning dynamic memory
networks for object tracking. In ECCV, 2018.
Yunhua Zhang, Lijun Wang, Jinqing Qi, Dong Wang,
Mengyang Feng, and Huchuan Lu. Structured siamese net-
work for real-time visual tracking. In ECCV, 2018.

本文提出通过无监督学习从头开始学习视觉跟踪模型。本文的启发是基于可以以向前和向后的方式执行视觉跟踪。最初，给定目标对象在第一帧上的注释，可以在后续帧中向前跟踪目标对象。向后跟踪时，将最后一帧中的预测位置用作初始目标注释，并将其向后跟踪到第一帧。通过反向跟踪在第一帧中估计的目标位置与初始注释相同。在测量了向前和向后目标轨迹之间的差异之后，通过考虑如图1所示的轨迹一致性以无监督的方式训练网络。通过利用未标记视频中的连续帧，模型学习通过重复执行来定位目标前向跟踪和后向验证。

图1 有监督和无监督学习之间的比较。通过监督学习的视觉跟踪方法需要训练视频每一帧的真实情况的标签。通过使用前向跟踪和后向验证，训练了没有重量级注释的无监督跟踪器。

所提出的无监督学习方案旨在获取通用特征表示，而并非严格要求跟踪完整对象。对于视频序列，在第一帧中随机初始化一个边界框，该边界框可能不会覆盖整个对象。然后，提出的模型将按照以下顺序学习跟踪边界框区域。这种跟踪策略与基于部分或基于边缘的跟踪方法具有相似性，后者专注于跟踪目标对象的子区域。由于视觉对象跟踪器不会只专注于完整的对象，因此使用随机裁剪的边界框来跟踪训练。

基于部分的跟踪方法
Si Liu, Tianzhu Zhang, Xiaochun Cao, and Changsheng Xu.
Structural correlation ﬁlter for robust visual tracking. In
CVPR, 2016.
基于边缘的跟踪方法
Feng Li, Yingjie Yao, Peihua Li, David Zhang, Wangmeng
Zuo, and Ming-Hsuan Yang. Integrating boundary and center
correlation ﬁlters for visual tracking with aspect ratio varia-
tion. In ICCVWorkshop, 2017.

将本文的无监督学习整合到基于Siamese的相关过滤器框架中。网络在训练过程中包括两个步骤：前向跟踪和后向验证。向后验证并不总是有效的，因为跟踪器可能会成功地从偏转或错误的位置返回到初始目标位置。另外，未标记视频中的严重遮挡之类的障碍将降低网络表示能力。为了解决这些问题，本文提出了多帧验证和对成本敏感的损失，从而在无监督的训练中获益。多帧验证增加了前向轨迹和后向轨迹之间的差异，以减少验证失败。同时，对成本敏感的损失减轻了训练期间噪声样本的干扰。

基于Siamese的相关过滤器框架
Qiang Wang, Jin Gao, Junliang Xing, Mengdan Zhang, and
Weiming Hu. Dcfnet: Discriminant correlation ﬁlters net-
work for visual tracking. arXiv preprint arXiv:1704.04057,
2017.

所提出的无监督跟踪器在基准数据集上显示有效。大量的实验结果表明，在没有bells & whistles的情况下，本文的无监督跟踪器可实现与基线完全监督跟踪器相当的性能。当与其他改进（例如自适应在线模型更新）集成在一起时，所提出的跟踪器将展现出最先进的性能。这种无监督的框架显示了利用未贴标签的Internet视频学习良好的特征表示以跟踪场景的潜力。在标签有限或嘈杂的情况下，无监督方法与相应的监督框架相比具有可相当的结果。此外，通过使用更多未标记的数据进一步提高了跟踪准确性。下面的章节对不同训练配置进行完整分析。

自适应在线模型更新
Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, and
Michael Felsberg. Eco: Efﬁcient convolution operators for
tracking. In CVPR, 2017.
Martin Danelljan, Gustav H¨ager, Fahad Shahbaz Khan, and
Michael Felsberg. Adaptive decontamination of the training
set: A uniﬁed formulation for discriminative visual tracking.
In CVPR, 2016.

本文的工作有三方面的贡献： •提出了一种基于Siamese相关滤波器主干的无监督跟踪方法，该方法是通过向前和向后跟踪学习的。 •提出了一种多帧验证方法和一种对成本敏感的损失，以改善无监督学习性能。 •在标准基准上进行的广泛实验显示了所提出方法的良好性能，并揭示了视觉跟踪中无监督学习的潜力。

2.方法

图2（a）显示了Butterﬂy序列的一个示例，用于说明向前和向后的跟踪。实际上在未标记的视频中随机绘制边界框以执行向前和向后跟踪。给定一个随机初始化的边界框标签，首先跟踪以预测其在后续帧中的位置。然后，反转序列，并以最后一帧中的预测边界框作为伪标签向后跟踪。通过后向跟踪预测的边界框应与第一帧中的原始边界框相同。使用网络训练的一致性损失来测量前后轨迹之间的差异。图2（b）显示了所提出的无监督Siamese相关滤波器网络的概述。在下面的内容中，首先回顾基于相关过滤器的跟踪框架，然后详细说明本文的无监督深度跟踪方法。

图2 无监督深度跟踪概述。在（a）中显示出本文的动机，即向前和向后跟踪以计算网络训练的一致性损失。（b）中显示了详细的训练过程，其中无监督学习已集成到Siamese相关过滤器网络中。在线跟踪期间，仅向前跟踪以预测目标位置。

2.1回顾相关跟踪

判别相关滤波器（DCF）将搜索补丁的输入特征回归到高斯响应图以进行目标定位。训练DCF时，选择带有真实标签Y的模板补丁X。可以通过解决岭回归问题来了解过滤器W，如下所示：

判别相关滤波器
David S Bolme, J Ross Beveridge, Bruce A Draper, and
Yui Man Lui. Visual object tracking using adaptive corre-
lation ﬁlters. In CVPR, 2010.
Jo˜ao F Henriques, Rui Caseiro, Pedro Martins, and Jorge
Batista. High-speed tracking with kernelized correlation ﬁl-
ters. TPAMI, 37(3):583–596, 2015.

其中λ是正则化参数，*表示圆卷积。公式1可以在傅立叶域中有效地计算，而DCF可以通过

傅立叶域
David S Bolme, J Ross Beveridge, Bruce A Draper, and
Yui Man Lui. Visual object tracking using adaptive corre-
lation ﬁlters. In CVPR, 2010.
Martin Danelljan, Gustav H¨ager, Fahad Khan, and Michael
Felsberg. Accurate scale estimation for robust visual track-
ing. In BMVC, 2014.
Jo˜ao F Henriques, Rui Caseiro, Pedro Martins, and Jorge
Batista. High-speed tracking with kernelized correlation ﬁl-
ters. TPAMI, 37(3):583–596, 2015.

其中是⊙元素乘积，F()是离散傅里叶变换（DFT），（）F−1（·）是逆DFT，⋆表示复共轭运算。在每个后续帧中，给定搜索补丁Z，可以在傅立叶域中计算对应的响应图R：

上面的DCF框架从使用模板补丁X学习目标模板W开始，然后将W与搜索补丁Z结合在一起以生成响应。最近，Siamese相关过滤器网络将DCF嵌入到Siamese框架中，并构造了两个共享权重分支，如图2（b）所示。第一个是模板分支，它将模板补丁X作为输入并提取其特征以通过DCF进一步生成目标模板。第二个是搜索分支，它以搜索补丁Z作为特征提取的输入。然后将目标模板与搜索补丁的CNN特征进行卷积以生成响应图。Siamese DCF网络的优势在于，特征提取CNN和关联过滤器都被制定为端到端框架，因此，学习到的特征与视觉跟踪场景更加相关。

2.2 无监督学习原型

给定两个连续的帧P1和P2，分别裁剪模板并从中搜索补丁。通过进行前向跟踪和后向验证，所提出的框架不需要在监督训练中使用真实标签。 P1中初始边界框和预测边界框之间的差异将为网络学习制定一致性损失。

前向跟踪 建立一个Siamese 相关过滤器网络，以跟踪帧 P1中的初始边界框区域。从第一帧 P1裁剪模板补丁T之后，相应的目标模板WT可以计算为：

其中ϕθ（）ϕθ（·）表示具有可训练网络参数θ的CNN特征提取操作，YT是模板补丁T的标签。此标签是一个以初始边界框中心为中心的高斯响应。一旦获得学习的目标模板WT，就可以通过以下公式计算出来自帧P2的搜索补丁S的响应图：

如果补丁S的真实高斯标签可用，则可以通过计算RS与真实性之间的L2距离来训练网络ϕθ（）ϕθ（·）。在下文展示了如何通过利用向后轨迹验证来训练没有标签的网络。

后向跟踪 在为帧P2生成响应图RS之后，创建一个以其最大值为中心的伪高斯标签，用YS表示。在向后跟踪中，在搜索补丁和模板补丁之间切换角色。通过将S作为模板补丁，用伪标签YS生成目标模板WS。可以使用等式（4）来学习目标模板WS。用S替换T并用YS替换YT。然后通过等式（5）将WT替换为WS，将S替换为T以生成响应图RT。注意仅使用一个Siamese 相关过滤器网络来跟踪前向和后向。在跟踪步骤中固定网络参数θ。

一致性损失计算 经过正向和反向跟踪后，获得了响应图RT。理想情况下，RT应该是高斯标签，其峰位于初始目标位置。换句话说，RT应该与最初给定的标签YT相似。因此，可以通过使重构误差最小化，以无监督的方式训练表示网络ϕθ（）ϕθ（·），如下所示：

对计算出的损失进行反向传播以更新网络参数。在反向传播过程中，遵循Siamese 相关过滤器方法将网络更新为：

2.3 无监督学习改进

所提出的无监督学习方法基于RT和YT之间的一致性构造目标函数。在实践中，跟踪器可能会在前向跟踪中偏离目标，但在后向过程中仍会返回到原始位置。但是，因为一致性的预测本文的损失函数不会惩罚该偏差。同时，原始视频可能包含无信息的甚至是受破坏的训练样本，这些样本被遮挡会破坏无监督的学习过程。因此本文提出了多帧验证和成本敏感的损失来解决这些限制。

2.3.1多帧验证

提出了一种多帧验证方法来减轻不精确的定位问题，该问题不会受到等式（6）的惩罚。本文的想法是在向前和向后跟踪期间包含更多帧，以减少验证失败。（6）式中的重建误差往往被放大，计算出的损失将有助于训练过程。

在无监督学习期间，涉及另一个帧P3，它是P2之后的后续帧。从P2裁剪一个搜索补丁S1，从P3裁剪另一个搜索补丁S2。如果生成的响应图RS1与其对应的真相响应不同，则该误差在下一帧P3中趋于变大。结果是在后向跟踪中一致性很可能被破坏，并且所生成的响应图RT更可能偏离YT。通过简单地在向前和向后跟踪中包含更多搜索补丁，本文的一致性损失将更有效地惩罚如图3所示的不准确的本地化。在实践中使用三个帧进行验证，改进的一致性损失写为：

其中RT是后向跟踪步骤中其他帧生成的响应图。

图3 单帧验证和多帧验证。单帧验证中的不正确定位可能不是如左图所示。如图所示，通过包含更多帧在右边，可以累积定位误差来打破向前和向后跟踪期间的预测一致性。

2.3.2成本敏感性损失

在第一个帧P1中随机初始化边界框区域，以进行前向跟踪。此边界框区域可能包含嘈杂的背景上下文（例如，被遮挡的目标）。图5显示了这些区域的概况。为了减轻背景干扰，提出了一种对成本敏感的损失，以排除噪声样本进行网络训练。

在无监督学习期间，从训练序列中构造多个训练对。每个训练对由帧P1中的一个初始模板补丁T和分别来自后续帧P2和P3的两个搜索补丁S1和S2组成。这些训练对构成Siamese 网络的训练批次。实际上发现损失极高的训练对很少会阻止网络训练的收敛。为了减少噪声对的影响，排除了包含高损失值的整个训练对的10％。他们的损失可以使用等式（8）计算。为此，**为每个训练对分配二进制权重Adropi，所有权重元素形成权重向量Adrop。**其元素的10％为0，其他元素为1。

除了嘈杂的训练对之外，原始视频还包含许多仅有背景或静止目标的无信息图像补丁。对于这些补丁，静止物体（例如，天空，草地或树木）几乎不会移动。直观地讲，运动较大的目标对网络训练的贡献更大。因此，将运动权重向量Amotion分配给所有训练对。每个元素的Amotioni运动都可以由下式计算

其中RS1i和RS2i分别是第i个训练对的相应特征图，YTi和YSii分别是对应的初始化的和伪标签。等式(9)计算从帧P1到P2和P2到P3的目标运动差。Amotioni的值越大，表示目标在此连续轨迹中经历的运动越大。另一方面可以解释为，Amotioni的值代表了网络应该更加关注的困难的训练对。将运动权重和二进制权重归一化，如下所示：

其中n是小批量中训练对的数量。mini-batch中的最终无监督损失计算如下：

2.4 无监督的训练细节

网络结构 遵循DCFNet来使用只有两个卷积层的浅层Siamese网络。这些卷积层的滤波器大小分别为3×3×3×32和3×3×32×32。此外，在卷积层的末端采用了本地响应归一化（LRN）层。这种轻巧的结构可实现极为有效的在线跟踪。

训练数据 选择广泛使用的ILSVRC 2015 ，以与现有的监督跟踪器进行合理比较。在数据预处理步骤中，现有的监督方法要求每帧都有真实的标签。同时，他们通常会丢弃目标被遮挡或目标部分看不见或目标很少出现在跟踪中的帧场景（例如蛇）。这需要费时的人机交互来预处理训练数据。

相反，不进行任何数据预处理，而只是在每个帧中裁剪中心补丁。补丁的大小是整个图像的一半，并作为网络输入进一步调整为125×125，如图4所示。从视频的连续10帧中随机选择三个裁剪的补丁。将三个补丁之一设置为模板，将其余补丁设置为搜索补丁。这基于以下假设：位于中心的目标对象不太可能在短时间内移出裁剪区域。跟踪出现在裁剪区域中心的对象，但未指定其类别。裁剪区域的一些示例如图5所示。

图4 训练样本生成的说明。所提出的方法只是将未标记视频的中心区域裁剪并调整大小，作为训练补丁。

图5 随机裁剪的中心补丁示例 ILSVRC 2015。大多数补丁包含有价值的内容，而有些则意义不大。

2.5 在线目标跟踪

在进行了无监督的正式学习之后，按照前文所述在向前跟踪之后在线跟踪了目标对象。为了适应目标外观变化，在线更新了DCF参数，如下所示：

其中αt∈[0,1]是线性插值系数。目标尺度是通过具有尺度因子{as|a=1.015,s={−1,0,1}}的补丁金字塔估算的。将本文的无监督深度跟踪器表示为UDT，它仅使用标准的增量模型更新和尺度估算。此外，使用先进的模型更新来自适应地更改ααt，并根据[7]提出更好的DCF公式。改进的跟踪器表示为UDT +。

[7]
Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, and
Michael Felsberg. Eco: Efﬁcient convolution operators for
tracking. In CVPR, 2017.

3 实验

本节分析无监督学习框架的有效性。然后在标准基准上与最先进的跟踪器进行比较，包括OTB-2015，Temple-Color和VOT-2016。

3.1 实验细节

实验中使用动量为0.9且权重衰减为0.005的随机梯度下降（SGD）训练模型。无监督网络接受了50次训练，学习率从10−2到10−5指数级下降，最小批量为32。所有实验均在具有4.00GHz Intel Core I7-4790K和NVIDIA GTX的计算机上执行 1080Ti GPU。

在OTB-2015 和TempleColor 数据集上使用具有20个像素的距离精度（DP）和重叠成功图的曲线下面积（AUC）的单次通过评估（OPE）。在VOT2016 上使用预期平均重叠（EAO）来衡量性能。

3.2 消融研究与分析

无监督和有监督的学习 使用相同的训练数据通过完全监督的学习来训练网络。图6显示了评估结果，其中在AUC评分下，完全监督的训练配置可使UDT提升了3％。

图6 UDT跟踪器在OTB-2015数据集上具有不同配置的精度和成功图。图中显示了20像素阈值处的距离精度和曲线下面积（AUC）分数。

稳定的训练 通过使用不同的配置来分析稳定训练的有效性。图6显示了多个学习跟踪器的评估结果。 UDT-StandardLoss指示从跟踪器获得的结果，而无需使用困难样本重称（即等式（9）中的Amotion）。UDT-SingleTrajectory表示仅使用原型帧从跟踪器获得的结果。结果表明，多帧验证和成本敏感的损失提高了准确性。

使用高质量的训练数据 通过使用高质量的训练数据来分析性能差异。在ILSVRC 2015中，在真相边界框上添加了从[-20，+20]像素不等的偏移量，而不是随机裁剪补丁来训练样本收集。这些补丁比随机裁剪的目标包含更多有意义的对象。图6中的结果表明，跟踪器使用弱标记的样本（即UDT-Weakly）进行学习在监督配置下产生可比的结果。请注意，现有物体检测器或光学流量估算器预测的目标位置通常相对于地面偏移20个像素。这些结果表明，在使用现有检测或流量估计方法产生的较少精确标记的情况下，UDT在监督配置下可达到可比的性能。

短时域自适应 从OTB-2015 中的视频中收集了前5帧，而在第1帧中只有真实边界框可用。利用这些有限的样本，使用前向后向传播对网络进行100次迭代微调。此训练过程大约需要6分钟。结果（即，UDT-Finetune）表明性能进一步提高。无监督训练学习通用特征表示，可以使用几次调整适应将其转移到特定域（例如OTB）。这种领域的适应性类似于MDNet ，但是初始参数是在无监督的情况下学习的。

采用更多未标记的数据 最后将更多未标记的视频用于网络训练。这些额外的原始视频来自OxUvA基准（总共337个视频），是Youtube-BB 的子集。在图6中，UDT-MoreData跟踪器获得了性能改进（0.9％的DP和0.7％的AUC），这说明未标记的数据可以推进无监督的训练。不过，在下文中，将继续使用仅受过公平比较训练的UDT和UDT +跟踪器。

3.3 SOTA比较

OTB-2015数据集 使用最新的实时跟踪器，包括ACT ，ACFN，CFNet，SiamFC ，SCT，CSR-DCF，DSST 和KCF 使用精度和成功图度量。图7和表1表明，提出的无监督跟踪器UDT与基线监督方法（即SiamFC和CFNet）。同时提出的UDT跟踪器大大超过了DSST算法。由于DSST是基于DCF的跟踪器，具有精确的比例估计，因此性能改进表明本文的无监督特征表示比经验特征更有效。在图7和表1中，没有与一些出色的非实时跟踪器进行比较。例如，MDNet 和ECO 可以在OTB-2015数据集上产生67.8％和69.4％的AUC，但它们远非实时的。

图 7 OTB-2015在最近实时追踪器上的结果

表 1

在表1中，与最近提出的监督跟踪器进行了比较。这些最新方法主要基于Siamese网络，并使用ILSVRC进行了训练。一些跟踪器（例如SA-Siam [15]和RT-MDNet ）采用预先训练的CNN模型（例如AlexNet 和VGG-M）进行网络初始化。Siamese RPN还使用了来自YouTube-BB数据集的更多带标签的训练视频。与现有方法相比，本文的UDT +跟踪器不需要数据标签或现成的深层模型，同时仍可实现相当的性能和效率。

寺庙颜色数据集 Temple-Color 具有128个彩色视频，是更具挑战性的基准。将本文的方法与本节中介绍的最新跟踪器进行了比较。UDT跟踪器在对抗SiamFC和CFNet方面表现出色，如图8所示。

图 8

VOT2016数据集 此外以VOT2016基准报告评估结果。根据VOT报告，预期平均重叠（EAO）是跟踪器排名的最终指标。如表2所示，UDT跟踪器的性能与基准跟踪器（例如SiamFC）相当。改进的UDT +跟踪器的性能优于最先进的全监督跟踪器，包括SA-Siam ，StructSiam MemTrack 。

表2

属性分析 在OTB-2015基准上，进一步分析了不同挑战下的性能差异，如图9所示。在大多数具有挑战性的情况下，UDT跟踪器优于SiamFC和CFNet跟踪器。与全监督的UDT跟踪器相比，无监督的UDT在照明变化（IV），遮挡（OCC）和快速运动（FM）场景下无法实现类似的跟踪精度。这是因为目标外观变化在这些视频序列中很重要。没有强大的监督，跟踪器将无法有效学习强大的功能表示形式，以克服这些变化。

图9

定性评估 在八个有挑战性的视频序列上，将UDT跟踪器与一些监督跟踪器（例如ACFN，SiamFC和CFNet）和基线DCF跟踪器（DSST）进行直观比较。尽管UDT跟踪器未进行在线改进，但仍然观察到UDT有效地跟踪了目标，尤其是在具有挑战性的Ironman和Diving视频序列上。如图10所示。值得一提的是，这种强大的跟踪器是在没有地面监督的情况下使用未标记的视频学习的。

图10

局限性 （1）如属性分析中所述，无监督特征表示可能缺少应付复杂场景的客观信息。（2）由于方法涉及前向和后向跟踪，因此计算量是另一个潜在的缺点。

4.结论

本文提出了如何在野外使用未标记的视频序列训练视觉跟踪器的方法，这在视觉跟踪中很少进行研究。通过设计无监督的Siamese相关过滤器网络，验证了基于前向后向的无监督训练流程的可行性和有效性。为了进一步方便在无监督的训练下，本文扩展了框架以考虑多帧并采用了对成本敏感的损失。大量的实验表明，所提出的无监督跟踪器，没有bells & whisltes，可以作为坚实的基线，并且可以与经典的完全监督跟踪器相媲美。最后，无监督框架在视觉跟踪中显示出诱人的潜力，例如利用更多未标记的数据或标记较弱的数据来进一步提高跟踪精度。

论文 https://arxiv.org/pdf/1904.01828.pdf

代码 https://github.com/594422814/UDT

欢迎关注微信公众号 AI算法后丹修炼炉

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能