前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Detection Transformer(DETR)训练更快收敛的绝佳方案!即插即用的SMCA模块 | ICCV 2021

Detection Transformer(DETR)训练更快收敛的绝佳方案!即插即用的SMCA模块 | ICCV 2021

作者头像
AI算法与图像处理
发布2021-09-06 11:05:34
1.3K0
发布2021-09-06 11:05:34
举报
文章被收录于专栏:AI算法与图像处理

Vision Transformer 相关的工作依然火爆,不完全统计已有20来篇来,今天介绍一篇来自商汤科技的最新工作:

github链接和论文:

https://arxiv.org/pdf/2108.02404.pdf

https://github.com/fredzzhang/spatially-conditioned-graphs

更多 ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理(欢迎star)

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

摘要

最近提出的Detection Transformer(DETR)模型成功地将 transformer 应用于目标检测,并实现了与两阶段对象检测框架(如 Faster-RCNN)相当的性能。然而,DETR收敛缓慢。从头开始的训练数据[4]需要500个epoch才能达到高精度。为了加快其收敛速度,我们提出了一种简单而有效的改进DETR框架的方案,即 Spatially Modulated Co-Attention(SMCA)机制。SMCA的核心思想是在DETR中通过将co-attention 反馈限制在初始估计的边界框位置附近,从而进行位置感知。我们提出的SMCA在保持DETR中其他操作不变的情况下,通过替换解码器中原有的co-attention机制,提高了DETR的收敛速度。此外,通过将multi-head和scale-selection attention设计集成到SMCA中,我们的完整分级SMCA可以实现比基于扩展卷积主干的DETR更好的性能(108个epoch时45.6 mAP,500个epoch时43.3 mAP)。

速度对比:

动机和核心思想

最近提出的DETR 通过移除手工设计的anchor和非最大值抑制(NMS),大大简化了目标检测pipeline。然而,与two-stage或one-stage检测器相比,DETR的收敛速度较慢(500vs 40 epoch)。DETR的缓慢收敛使得研究人员难以进一步扩展该算法,从而阻碍了其广泛应用。

在DETR中,有一系列对象查询向量负责检测不同空间位置的对象。每个对象查询与卷积神经网络(CNN)编码的空间视觉特征交互,通过 co-attention 机制自适应地从空间位置收集信息,然后估计边界框位置和对象类别。然而,在DETR的解码器中,每个对象查询的共同关注视觉区域可能与查询要预测的边界框无关。因此,DETR的解码器需要较长的训练周期来搜索适当的共同参与区域,以准确地识别相应的对象。

基于这一观察结果,我们提出了一个新的模块,名为 Spatially Modulated Co-attention(SMCA),它是一个即插即用模块,用于取代DETR中现有的co-attention机制,并通过简单的修改实现更快的收敛和更高的性能。提出的SMCA动态预测每个对象查询对应的框的初始中心和比例,生成二维空间高斯权重图。权重映射与对象查询和图像特征的co-attention特征映射地对应相乘,以更有效地从视觉特征映射中聚合查询相关信息。通过这种方式,空间权重图有效地调节每个对象查询的共同关注的搜索范围,使其适当地围绕最初估计的对象中心和比例。利用高斯分布的训练可以显著提高SMCR的空间预测速度。

主要贡献

1)提出 Spatially Modulated Co-attention(SMCA),可以加速DETR 的收敛。

没有多尺度特征和多头注意力的SMCA基础版本已经可以在50个epoch实现41.0 mAP,在108个epoch实现42.7 mAP。在 V100 GPU 上训练SMCA的基础版本50个epoch需要265 小时。

2)我们的完整SMCA进一步集成了多尺度特征和多头空间调制,可以进一步显著改进和超越DETR,只需更少的训练迭代。SMCA在50个epoch可实现43.7 mAP,在108个epoch可实现45.6 mAP,而DETR-DC5在500个epoch可实现43.3 mAP。在V100 GPU上需要600 小时来训练50个epoch的完整SMCA。

3)我们对COCO 2017数据集进行了广泛的消融研究,以验证的SMCA模块和网络设计的有效性。

实验结果:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 动机和核心思想
  • 主要贡献
  • 实验结果:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档