CrossFormer: A Versatile Vision Transformer Based on Cross-scale Attention
CrossFormer:基于跨尺度注意力机制的通用视觉Transformer
论文:https://arxiv.org/abs/2108.00154
代码地址(已开源):
https://github.com/cheerss/CrossFormer
作者单位:浙江大学CAD&CG国家重点实验室、哥伦比亚大学、腾讯
在视觉任务中,跨尺度的注意力机制非常重要。如,同一张图片中不同大小的物体建立关联需要跨尺度的注意力机制;而在实例分割等任务中,为了得出更好的分割结果,也需要建立大尺度的全局特征和小尺度的细粒度特征之间的关联。但现有的视觉Transformer并不拥有建立跨尺度特征的能力。本文分析造成此问题的原因有两方面:
针对此问题,本文提出基于跨尺度注意力机制的视觉Transformer -– CrossFormer。CrossFormer和PVT等一样采用金字塔式的结构,从而将模型分为了多个不同的阶段(stage),如图1所示。它的核心设计包含跨尺度嵌入层(CEL)和长短距离注意力(L/SDA)两个模块:
图 1 CrossFormer的整体结构
图 2 跨尺度嵌入层Cross-scale Embedding Layer(CEL)
;而LDA在分组时以间隔
来采样,图3(b)中给出了一个
的例子,图中所有红色边框的嵌入属于同一组,所有黄色边框的嵌入属于另一组。
图3 长短距离注意力(Long Short Distance Attention,LSDA)的分组方式。
文中给出了4种不同大小的CrossFormer,它们在图像分类、物体检测、实例分割、语义分割4个具有代表性的视觉任务上超越了其他的视觉Transformer。并且在物体检测、实例分割、语义分割3个任务上涨点非常显著。代码和预训练模型已在github公开。
在图像分割上的性能表现:
在语义分割上的性能表现:
在目标检测和实例分割上的性能表现:
论文PDF和代码下载