简读分享 | 陈兴民 编辑 | 李仲深
论文题目
Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification
摘要
最近,自注意力机制在各种 NLP 和 CV 任务中显示出令人印象深刻的性能,它可以帮助捕获序列特征并获取全局信息。在这项工作中,作者探索了如何扩展 selfattention 模块以更好地学习用于识别细粒度对象的细微特征嵌入,例如不同的鸟类或人的身份。为此,本文提出了一种双交叉注意学习(DCAL)算法来配合自注意学习。首先,作者提出了全局-局部交叉注意(GLCA)来增强全局图像和局部高响应区域之间的交互,这有助于加强识别的空间判别线索。其次,作者还提出成对交叉注意(PWCA)来建立图像对之间的交互。PWCA 可以通过将另一张图像视为干扰物来规范图像的注意力学习,并将在推理过程中被移除。作者观察到 DCAL 可以减少误导性注意力并分散注意力反应以发现更多互补部分以进行识别。本文对细粒度的视觉分类和对象重新识别进行了广泛的评估。
实验表明,DCAL 的性能与最先进的方法相当,并且持续改进了多个自我注意基线,例如,在 MSMT17 上分别超过 DeiT-Tiny 和 ViTBase 2.8% 和 2.4% mAP。
论文地址
https://arxiv.org/abs/2205.02151v1