为了加速DETR
收敛,论文提出了简单而有效的Spatially Modulated Co-Attention
(SMCA
)机制,通过在初始边界框位置给予较高的协同注意力响应值的约束来构建DETR
的回归感知协同注意力。此外,将SMCA
扩展为多头注意力和尺度选择注意力后,对比DETR
可以实现更好的性能(108
周期45.6 mAP
vs 500
周期43.3 mAP
)
论文: Fast Convergence of DETR with Spatially Modulated Co-Attention
CNN
主干的多尺度特征进行缩放以形成联合多尺度特征图,而是引入了尺度内和多尺度混合的自注意力机制来进行多尺度视觉特征之间的信息传播。论文的贡献如下:
SMCA
),通过位置约束的目标回归来加速DETR
的收敛。没有多尺度特征和多头注意力的基础版SMCA
已经可以在 50 个周期时达到41.0 mAP
,在 108 个周期时达到42.7 mAP
。SMCA
进一步集成了多尺度特征和多头空间调制,可以通过更少的训练迭代进一步显着改进和超越DETR
。SMCA
在 50 个周期时可以达到43.7 mAP
,在 108 个周期时可以达到45.6 mAP
。COCO 2017
数据集进行了广泛的消融研究,以验证SMCA
模块和网络设计。DETR:Facebook提出基于Transformer的目标检测新范式 | ECCV 2020 Oral
多个空间权重图可以强调不同的上下文并提高检测精度。
表 3 和表 4 展示了论文提出的空间调制协同注意力、多头调整注意力和多尺度特征之间的对比实验。
表 5 与SOTA模型进行对比。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。