论文笔记31 -- （ReID）【ICCV2021】TransReID: Transformer-based Object Re-Identification

对角巷法师

发布于 2021-12-08 16:14:46

1.8K0

发布于 2021-12-08 16:14:46

文章被收录于专栏：对角巷

ICCV 2021，首个将Transformer用于Re-ID的工作 TransReID在行人和车辆重识别任务上均表现SOTA！

论文：点这里代码：点这里

Shuting He，Hao Luo， Pichao Wang， Fan Wang， Hao Li， Wei Jiang Alibaba Group， Zhejiang University ICCV 2021

Abstract

提取鲁棒的特征表示是目标重新识别（ReID）的关键挑战之一。虽然基于卷积神经网络（CNN）的方法取得了巨大的成功，但它们一次只处理一个局部邻域，并遭受由卷积和降采样操作符导致的细节信息损失（e.g. pooling and strided convolution，池化和跨步卷积）。为了克服这些限制，我们提出了一个名为 TransReID 的纯基于 transformer 的目标 ReID 框架。具体来说，我们首先将一个图像编码为一个patch序列，并构建一个基于 transformer 的 strong baseline，并有一些关键的改进，用基于 CNN 的方法在几个 ReID 基准测试上取得了具有竞争力的结果。为了进一步改进 transformers 中上下文的鲁棒特征学习，我们精心设计了两个新的模块。（i）提出 the jigsaw patch module（JPM），通过位移操作（shift）和patch洗牌操作（patch shuffle）重新排列 patch embeddings，产生更强的识别能力和更多样化的覆盖范围。（ii）引入了 the side information embeddings（SIE），通过插入可学习的 embeddings 来合并这些非视觉线索，以减轻对相机/视角变化的特征偏差。据我们所知，这是第一个采用纯 transformer 进行 ReID 研究的工作。TransReID 的实验结果非常有前景，在人和车辆 ReID 基准上都取得了最先进的性能。

1. Introduction

目标重新识别（ReID）旨在跨不同场景和相机视图关联特定对象，例如在 person ReID 和 vehicle ReID 的应用中。提取具有鲁棒性和判别性特征是 ReID 至关重要的组成部分，长期以来一直被基于 CNN 的 [19，37，36，44，42] 方法所主导。

通过回顾基于 CNN 的方法，我们发现了两个在目标 ReID 领域没有得到很好解决的重要问题。（1）在全局范围内利用丰富的结构模式对于目标 ReID[54] 至关重要。然而，由于有效感受野的高斯分布，基于 CNN 的方法主要关注小的判别区域 [29]。最近，注意力模块 [54，6，4，48，21，2] 被引入来探索长距离依赖关系 [45]，但它们大多嵌入到深层，并没有解决 CNN 的原理问题。因此，基于注意力的方法仍然更喜欢大的连续区域，并且难以提取多个不同的判别性部分（见图 1）。（2）具有详细信息的细粒度特征也很重要。然而，CNN 中下采样操作（e.g. pooling 和 strided convolution）降低了输出特征图的空间分辨率，这极大地影响了区分具有相似外观的物体的辨别能力 [37，27] 。如图2所示，背包的细节在基于 CNN 的特征图中丢失了，这使得很难区分这两个人。

最近，Vision Transformer (ViT) [8] 和 Data-efficient image Transformers (DeiT) [40] 表明，在图像识别的特征提取方面，纯 transformers 与基于 CNN 的方法一样有效。随着 multi-head 注意力模块的引入以及卷积和下采样算子的去除，基于 transformer 的模型适合解决基于 CNN 的 ReID 中的上述问题，原因如下：（1）与 CNN 模型相比， multi-head self-attention捕获了长距离依赖性，并驱动模型关注不同的人体部位（例如图 1 中的大腿、肩部、腰部）；（2）无需下采样算子，transformer可以保留更详细的信息。例如，可以观察到背包周围特征图的差异（图 2 中的红色框标记）可以帮助模型轻松区分这两个人。这些优点促使我们在目标 ReID 中引入transformers。

尽管transformers有上面讨论的巨大优势，但仍然需要专门为目标 ReID 设计，以应对独特的挑战，如图像中大的变化（例如遮挡、姿态多样性、相机视角）。在基于 CNN 的方法中，已经做出了大量努力来解决这一挑战。其中，局部特征 [37，44，20，49，28] 和辅助信息（如相机和视点）[7，61，35，30] 已经被证明对于增强特征鲁棒性是至关重要且有效的。学习部分/条带（part/stripe）聚合特征使其能够对抗遮挡和错位 [50]。然而，将刚性 part/stripe 方法从基于 CNN 的方法扩展到纯基于 transformer 的方法可能会由于全局序列分裂成几个孤立的子序列而损害远程依赖关系。此外，考虑到辅助信息，如相机和视点特定的信息，可以构建一个不变的特征空间来减少辅助信息变化带来的偏差。然而，建立在 CNN 上的复杂的辅助信息设计，如果直接应用于 transformer，无法充分利用 transformer 的固有编码能力。因此，对于纯 transformer 成功应对这些挑战而言，特定设计的模块是不可避免且必不可少的。

因此，我们提出了一个新的目标 ReID 框架 TransReID 来学习鲁棒的特征表示。首先，通过进行几个关键的调整，我们构建了一个基于纯 transformer 的 strong baseline 框架。

其次，为了扩展远程依赖并增强特征鲁棒性，我们提出了一个 jigsaw patches module（JPM），通过移位和洗牌操作重新排列 patch embeddings，并对其重新分组以进行进一步的特征学习。在模型的最后一层上使用 JPM 与不包括此特殊操作的全局分支并行提取鲁棒特征。因此，网络倾向于提取具有全局上下文的扰动不变性和鲁棒性特征。第三，为了进一步增强鲁棒特征的学习，引入了 side information embeddings（SIE）。我们提出了一个统一的框架，通过可学习的 embeddings 有效地整合非视觉信息，以减轻相机或视点带来的数据偏差，而不是基于 CNN 的方法中使用这些非视觉线索的特殊和复杂的设计。以相机为例，提出的SIE有助于解决摄像机间和摄像机内匹配之间巨大的成对相似性差异（见图 6）。SIE 也可以很容易地扩展到包括除我们已经展示的那些以外的任何非视觉信息。

据我们所知，我们是第一个研究纯 transformers 在目标 ReID 领域的应用。论文的贡献如下：

提出了一个 strong baseline，首次将纯 transformer 用于 ReID 任务，并实现了与基于 CNN 的框架相当的性能。
设计了一个 jigsaw patches module（JPM），由移位和 patch 洗牌操作组成，它促进了目标的扰动不变和鲁棒特征表示。
引入了一种 side information embeddings（SIE），它通过可学习的 embeddings 对辅助信息进行编码，并被证明可以有效地减轻学习特征的偏差。
最终框架 TransReID 在行人和车辆 ReID 基准测试中都实现了最先进的性能，包括 MSMT17 [46]、Market-1501 [55]、DukeMTMC ReID [33]、Occluded Duke [31]、VeRi-776 [24] 和 VehicleID [23]。

2. Related Work

2.1. Object ReID

对目标 ReID 的研究主要集中在行人 ReID 和车辆 ReID 上，大多数最先进的方法都是基于 CNN 结构。目标 ReID 的一个流行 pipeline 是设计合适的损失函数来训练 CNN 主干（例如 ResNet [14]），该主干用于提取图像的特征。 cross-entropy loss（ID loss）[56] 和 triplet loss [22] 在深度 ReID 中使用最广泛。 Luo等人 [27] 提出了 BNNeck，以更好地结合 ID loss 和 triplet loss。 Sun等人 [36] 提出了 ID loss 和 triplet loss 的统一观点。

Fine-grained Features. 已经学习了细粒度特征来聚合来自不同部分/区域（part/region）的信息。细粒度部分要么通过粗略的水平条纹自动生成，要么通过语义解析自动生成。像 PCB [37]、MGN [44]、AlignedReID++ [28]、SAN [32]等方法将图像划分为多个条带，并为每条带提取局部特征。使用解析或关键点估计来对齐不同的部分或两个目标也已被证明对人和车辆的 ReID 都是有效的 [25，30，47，31]。

Side Information. 对于在交叉相机系统中捕获的图像，由于不同的相机设置和目标视点，在姿势、方向、照明、分辨率等方面存在很大的变化。一些方法 [61, 7] 使用如相机 ID 或视点信息之类的辅助信息来学习不变特征。例如，基于相机的批量归一化（CBN）[61] 强制将来自不同相机的图像数据投影到相同的子空间，从而大大减少了 inter-camera和 intra-camera 对之间的分布差距。视点/方向不变特征学习 [7，60] 对人和车辆的 ReID 也很重要。

2.2. Pure Transformer in Vision

Transformer 模型在 [41] 中被提出，用于自然语言处理（NLP）领域中的顺序数据。也表明了它对计算机视觉任务的有效性。Han 等人 [11] 和 Salman 等人 [18] 调查了 transformer 在计算机视觉领域的应用。

纯 transformer 模型正变得越来越流行。例如，Image Processing Transformer (IPT) [3] 通过使用大规模预训练来利用 transformers，并在超分辨率、去噪和去雨等多个图像处理任务上实现了最先进的性能。ViT [8] 是最近提出的，它将纯 transformer 直接应用于图像块序列。然而，ViT 需要一个大规模数据集来预训练模型。为了克服这一缺点，Touvron 等人[40]提出了一个叫作 DeiT 的框架，该框架引入了一种针对 transformer 的师生策略，以在不需要大规模预训练数据的情况下加速 ViT 训练。

3. Methodology

我们的目标 ReID 框架基于基于 transformer-based 的图像分类，但有几个关键改进以捕获鲁棒的特征（第 3.1 节）。为了进一步提高在 transformer 上下文中的鲁棒特征学习，第 2 节中精心设计了 jigsaw patch module (JPM) 和side information embeddings (SIE)。3.2 和 3.3 节这两个模块以端到端的方式联合训练，如图 4 所示。

3.1. Transformer-based strong baseline

我们遵循目标 ReID 的通用 strong pipeline [27，44] 为目标 ReID 构建了一个基于 transformer 的 strong baseline。我们的方法有两个主要阶段，即特征提取和监督学习。如图 3 所示。给定图像 \ x∈ R^{H×W×C} ，其中 H，W，C 分别表示其高度、宽度和通道数，我们将其分成 N 个固定大小的 patches { \ {x^i_p | i=1，2，···，N} }。一个额外的可学习 [cls] embedding token（表示为 \ x_{cls} ）被预先添加到输入序列中。输出 [cls] token 用作全局特征表示 \ f 。通过添加可学习的位置 embeddings 来合并空间信息。然后，输入到 transformer 层的输入序列可以表示为：

其中，\ Z_0 表示输入序列 embeddings，\ P ∈ R^{(N+1)×D} 是位置 embeddings。\ F 是将 patches 映射到 D 维的线性投影。此外，\ l 个transformer 层用于学习特征表示。解决了基于 CNN 方法的有限感受野问题，因为所有 transformer 层都有一个全局感受野。也没有下采样操作，因此保留了详细信息。

Overlapping Patches. 纯基于 transformer 的模型（例如 ViT、DeiT）将图像切分为不重叠的 patches，从而丢失 patches 周围的局部相邻结构。相反，我们使用滑动窗口来生成具有重叠像素的 patches。将步长表示为 S，patch 的大小为 P（例如16），那么相邻两个 patch 重叠的区域的形状表示为（P-S）× P。分辨率为 H×W 的输入图像将被切分为 N 个 patches。

其中，[·] 是下取整函数，S 设置为小于 P。\ N_H 和 \ N_W 分别表示高度和宽度上切分 patches 的数量。S 越小，图像切分成的 patches 就越多。直观地说，更多的 patches 通常会带来更好的性能，但需要更多的计算成本。

Position Embeddings. 由于 ReID 任务的图像分辨率可能与图像分类中的原始图像分辨率不同，因此不能在此直接加载 ImageNet 上预训练的位置 embedding。因此，引入了双线性 2D 插值来帮助处理任何给定的输入分辨率。与 ViT 类似，位置 embedding 也是可学习的。

Supervision Learning. 我们通过构建全局特征的 ID loss 和 triplet loss 来优化网络。ID loss \ L_{ID} 是没有标签平滑（label smoothing）的交叉熵损失。对于三元组 {a，p，n}，具有 soft-margin 的 triplet loss \ L_{T} 如下所示：

3.2. Jigsaw Patch Module

尽管基于 transformer 的 strong baseline 可以在目标 ReID 中获得令人印象深刻的表现，但它利用了目标的整个图像中的信息。然而，由于遮挡和错位等挑战，我们可能只能对物体进行部分观察。学习细粒度局部特征（如条带特征）已被广泛用于基于 CNN 的方法来应对这些挑战。

假设输入到最后一层的隐藏特征表示为 \ Z_{l−1} = [z^0_{l−1}; z^1_{l−1}, z^2_{l−1}, ..., z^N_{l−1}] 。为了学习细粒度的局部特征，一个简单的解决方案是将 \ [z^1_{l−1}, z^2_{l−1}, ..., z^N_{l−1}] 分成 k 个组，依次连接共享token \ z^0_{l−1} ，然后将 k 个特征组输入到一个共享的 transformer 层来学习 k 个局部特征，表示为 {\ {f^j_l|j = 1, 2, · · · , k} }，\ f^j_l 是第 j 个组的输出标记。但它可能无法充分利用 transformer 的全局依赖性，因为每个局部段仅考虑连续 patch embeddings 的一部分。

为了解决上述问题，我们提出了一个 jigsaw patch module (JPM) 来打乱 patch embeddings，然后将它们重新分组到不同的部分，每个部分都包含整个图像的几个随机 patch embeddings。此外，训练中引入的额外扰动也有助于提高目标 ReID 模型的鲁棒性。受 ShuffleNet [53] 的启发，patch embeddings 通过移位操作和 patch 洗牌操作进行洗牌。序列 embeddings \ Z_{l-1} 被打乱如下：

Step1: The shift operation. 前 m 个 patch（除了 [cls] token）移到最后，即 \ [z^1_{l−1}, z^2_{l−1}, ..., z^N_{l−1}] 以 m 步移动变为 \ [z^{m+1}_{l−1}, z^{m+2}_{l−1}, ..., z^N_{l−1}, z^{1}_{l−1}, z^{2}_{l−1}, ..., z^{m}_{l−1}] 。
Step2: The patch shuffle operation. 移位的 patch 通过 k 组的洗牌操作进一步洗牌。隐藏的特征变成 \ [z^{x1}_{l−1}, z^{x2}_{l−1}, ..., z^{xN}_{l−1}], x_i ∈ [1, N] 。

通过 shift 和 shuffle 操作，局部特征 \ f^j_l 可以覆盖来自不同身体或车辆部件的 patches，这意味着局部特征具有全局判别能力。

如图 4 所示，与 jigsaw patch 并行，另一个全局分支是标准 transformer，将 \ Z_{l-1} 编码为 \ Z_l = [f_g; z^1_l, z^2_l, ..., z^N_l] ，其中 \ f_g 用作基于 CNN 方法的全局特征。最后，使用 \ L_{ID} 和 \ L_{T} 训练全局特征 \ f_g 和 k 个局部特征。总 loss 计算如下：

在推理过程中，我们将全局特征和局部特征 \ [f_g, f^1_l, f^2_l, ..., f^k_l] concatenate 起来作为最终的特征表示。仅使用全局特征 \ f_g 是一种具有较低计算成本和轻微性能下降的变体。

3.3. Side Information Embeddings

在获得细粒度的特征表示后，特征仍然容易受到相机或视点变化的影响。换句话说，由于场景偏差，经过训练的模型可能很容易无法从不同的角度区分相同的目标。因此，我们提出了一种 Side Information Embedding（SIE），将相机或视点等非视觉信息合并到嵌入表示中，以学习不变特征。

受到采用可学习的 embeddings 来编码位置信息的位置 embeddings 的启发，我们插入可学习的一维 embeddings 来保留辅助信息。特别是，如图 4 所示，SIE 与 patch embeddings 和 position embeddings 一起插入到 transformer encoder 中。具体来说，假设总共有 \ N_C 相机 ID，我们将可学习的辅助信息 embeddings 初始化为 \ S_C ∈ R^{N_C ×D} 。如果图像的相机 ID 是 r，则其相机 embeddings 可以表示为 \ S_C [r] 。与在 patch 之间变化的位置 embeddings 不同，相机 embeddings \ S_C [r] 对于图像的所有 patch 都是相同的。此外，如果目标的视点可用，无论是通过视点估计算法还是人工标注，我们也可以将视点标签 q 编码为 \ S_V [q] ，其中 \ S_V ∈ R^{N_V ×D} 和 \ N_V 表示图像所有 patch 视点 ID 的数量。

现在的问题是如何融合两种不同类型的信息。一个简单的解决方案可能是直接将两个 embeddings 添加在一起，如

\ S_C [r] + S_V [q]。但是，由于冗余或对抗性信息，它可能会使两个 embeddings 相互抵消。我们建议将相机和视点联合编码为 \ S_{(C,V )} ∈ R^{(N_C ×N_V )×D} 。

最后，具有相机 ID r 和视点 ID q 的输入序列被输入到 transformer 层，如下所示：

其中 \ Z_0 是等式 2 中的原始输入序列。λ 是平衡 SIE 权重的超参数。由于每个 patch 的位置 embeddings 不同但在不同图像上相同，并且每个 patch 的 \ S_{(C,V)}相同，但对于不同的图像可能具有不同的值。Transformer层能够对具有不同分布特性的 embeddings 进行编码，然后可以直接添加这些特性。

在这里，我们仅演示了 SIE 与相机和视点信息的用法，它们都是分类变量。在实践中，SIE 可以进一步扩展以编码更多种类的信息，包括分类变量和数值变量。在我们对不同基准的实验中，相机和视点信息都包含在任何可用的地方。

4. Experiments

4.1. Datasets

我们在四个 person ReID 数据集 Market-1501 [55]、DukeMTMC-reID [33]、MSMT17 [46]、Occluded-Duke [31] 和两个 vehicle ReID 数据集 VeRi-776 [24] 和 VehicleID [23] 上评估了我们提出的方法。需要注意的是，与其他数据集不同，Occluded-Duke 中的图像是从 DukeMTMC-reID 中选择的， training/query/gallery 数据集分别包含 9%/100%/10% 遮挡图像。除了 VehicleID 之外的所有数据集都为每张图像提供了相机 ID，而只有 VeRi-776 和 VehicleID 数据集为每张图像提供了视点标签。表 1 总结了这些数据集的详细信息。

4.2. Implementation

除非另有说明，所有行人图像均 resize 为 256×128，所有车辆图像均 resize 为 256×256。训练图像通过 random horizontal flipping、padding、 random cropping 和 random erasing 进行增强 [57]。batch size 设置为 64，每个 ID 有 4 张图像。采用 SGD 优化器，momentum 为 0.9， weight decay 为 1e-4。学习率初始化为 0.008，余弦学习率衰减。除非另有说明，我们分别为人和车辆 ReID 数据集设置 \ m = 5, k = 4 和 \ m = 8, k = 4 。

所有实验均使用一个 Nvidia Tesla V100 GPU，使用 PyTorch 工具箱和 FP16 进行训练。ViT 的初始权重在 ImageNet-21K 上预训练，然后在 ImageNet-1K 上进行微调，而 DeiT 的初始权重仅在 ImageNet-1K 上训练。

Evaluation Protocols. 遵循 ReID 社区的惯例，我们使用 CMC 曲线和 mAP 评估所有方法。

4.3. Results of Transform-based Baseline

在本节中，我们在表 2 中比较了基于 CNN 和基于 transformer 的 backbones。为了显示计算和性能之间的权衡，我们选择了几种不同的主干。 DeiT-small、DeiT-Base、ViT-Base 分别表示为 DeiT-S、DeiT-B、ViT-B。 ViT-B/16s=14 表示重叠 patch 设置中 patch 大小为 16 且步长 S=14 的 ViT-Base。为了进行全面比较，还包括每个主干的推理耗时。

我们可以观察到 ResNet 系列和 DeiT/ViT 之间的模型容量存在很大差距。与 ResNet50 相比，DeiT-S/16 在性能和速度上要好一些。DeiT-B/16 和 ViT-B/16 与 ResNeSt50 [51] 主干实现了相似的性能，推理时间比 ResNeSt50 少（1.79x vs 1.86x）。当我们减小滑动窗口的步长时，可以提高 Baseline 的性能，同时推理时间也会增加。ViT-B/16s=12 比 ResNeSt200 快（2.81x vs 3.12x），并且在 ReID 基准测试中的表现略好于 ResNeSt200。因此，ViT-B/16s=12 比 ResNeSt200 实现了更好的速度-精度权衡。此外，我们认为 DeiT/ViT 在计算效率方面仍有很大的提升空间。

4.4. Ablation Study of JPM

表 3 中验证了 JPM 模块的有效性。在 MSMT17 和 VeRi-776 上，与 baseline 相比，JPM 分别带来了 +2.6% mAP 和 +1.0% mAP 的改进。增加组数 k 可以提高性能，同时略微增加推理时间。在我们的实验中，k = 4 是一种权衡速度和性能的选择。比较 JPM 和 JPM w/o rearrange，我们可以观察到 shift 和 shuffle 操作在 MSMT17 和 VeRi-776 上分别获得 +0.5% mAP 和 +0.2% mAP 改进，有助于模型学习更多的判别性特征。还可以观察到，如果在推理阶段仅使用全局特征 \ f_g （仍然使用完整的 JPM 训练），则性能（表示为“w/o local”）几乎与完整特征的版本相当，所以建议我们在推理阶段仅使用全局特征作为一种具有较低存储成本和计算成本的有效变体。图 5 中可视化的注意力图表明，带有 rearrange 操作的 JPM 可以帮助模型学习更多全局上下文信息和更多判别部分，这使得模型对扰动更加鲁棒。

4.5. Ablation Study of SIE

Performance Analysis. 在表 4 中，我们评估了 SIE 在 MSMT17 和 VeRi-776 上的有效性。 MSMT17 不提供视点标注，因此对 MSMT17 显示仅编码相机信息的 SIE 的结果。VeRi-776 不仅有每张图像的相机 ID，还根据车辆方向标注了 8 个不同的视点。因此，通过SIE编码摄像机 ID 和/或视点信息的各种组合来显示结果。

当 SIE 仅对图像的相机 ID 进行编码时，模型在 MSMT17 上获得了 1.4% 的 mAP 和 0.1% 的 rank-1 精度提升。在 Veri-776 上也可以得出类似的结论。当 SIE 对视点信息进行编码时，Baseline 获得了 78.5% 的 mAP。当同时编码相机 ID 和视点标签时，准确度增加到 79.6% mAP。如果将编码更改为 \ S_C [r] + S_V [q] ，这是 3.3 节中讨论的次优编码，只能在 VeRi-776 上实现 78.3% 的 mAP。因此，提出的 \ S(C,V ) 是一种更好的编码方式。

Visualization of Distance Distribution. 如图 6 所示，在图 6a 和 6b 中，相机和视点变化的分布间隙分别很明显。当我们将 SIE 模块引入 Baseline 时，减少了相机间/视点和相机内/视点之间的分布差异，这表明 SIE 模块减弱了由各种相机和视点引起的场景偏差的负面影响。

Ablation Study of λ. 我们在图 7 中分析了 SIE 模块的权重 λ 对性能的影响。当 λ = 0 时，Baseline 在 MSMT17 和 VeRi-776 上分别达到 61.0% mAP 和 78.2% mAP。随着 λ 的增加，mAP 提高到 63.0%（MSMT17 的 λ = 2.0）和 79.9%（VeRi-776 的 λ = 2.5），这意味着 SIE 模块现在有利于学习不变特征。继续增加 λ，由于特征 embedding 和位置 embedding 的权重被削弱，性能下降。

4.6. Ablation Study of TransReID

最后，我们在表 5 中评估了引入 JPM 和 SIE 的好处。对于 Baseline，JPM 和 SIE 在 MSMT17/VeRi-776 上分别将性能提高了 +2.6%/+1.0% mAP 和 +1.4%/+1.4% mAP。通过将这两个模块一起使用，TransReID 在 MSMT17 和 VeRi-776 上分别实现了 64.9% (+3.9%) 和 80.6% (+2.4%) 的 mAP。实验结果表明了我们提出的 JPM、SIE 和整体框架的有效性。

4.7. Comparison with State-of-the-Art Methods

在表 6 中，我们的 TransReID 在六个基准（包括 person ReID、occluded ReID 和 vehicle ReID）上与最先进的方法进行了比较。

Person ReID. 在 MSMT17 和 DukeMTMC-reID 上，TransReID* (DeiT-B/16) 相比之前的最先进方法有很大优势（+5.5%/+2.1% mAP）。在 Market-1501 上，TransReID∗ (256×128) 的性能与最先进的方法相当，尤其是在 mAP 上。与同样集成相机信息（如 CBN [61]）的方法相比，我们的方法也显示出优越性。

Occluded ReID. ISP 通过迭代聚类隐式使用人体语义信息，HOReID 引入外部姿势模型来对齐身体部位。与上述方法相比，TransReID (DeiT-B/16) 不需要任何语义和姿势信息来对齐身体部位的情况下，实现了 55.6% 的 mAP（至少 +3.3% mAP），这显示了 TransReID 生成鲁棒特征表示的能力。此外，TransReID* 通过重叠 patches 的帮助，将性能提高到 58.1% mAP。

Vehicle ReID. 在 Veri-776 上，TransReID* (DeiT-B/16) 达到 82.3% mAP，超过 GLAMOR 2.0% mAP。当仅使用视点标注时，TransReID∗ 在 Veri-776 和 VehicleID 上的性能仍然优于 VANet 和 SAVER。我们的方法在 VehicleID 上实现了约 85.2% Rank-1 准确率的最新性能。

DeiT vs ViT vs CNN. TransReID∗ (DeiT-B/16) 在公平比较（ImageNet-1K 预训练）下与现有方法相比达到了具有竞争力的性能。表 6 中还报告了我们使用 ViT-B/16 的方法的额外结果，以供进一步比较。对于较短的图像 patch 序列，DeiT-B/16 实现了与 ViT-B/16 相似的性能。当输入 patch 数量增加时，ViT-B/16 的性能优于 DeiT-B/16，这表明 ImageNet-21K 预训练为 ViT-B/16 提供了更好的泛化能力。尽管基于 CNN 的方法主要报告 ResNet50 主干的性能，但它们可能包括多个分支、注意力模块、语义模型或其他增加计算消耗的模块。我们在相同的计算硬件上对 TransReID* 和 MGN [44] 之间的推理速度进行了公平的比较。与 MGN 相比，TransReID* 的速度提高了 4.8%。因此，在与大多数基于 CNN 的方法相当的计算下，TransReID* 可以实现更具前景的性能。

5. Conclusion

在本文中，我们研究了用于目标 ReID 任务的纯 transformer 框架，并提出了两个新模块，jigsaw patch module (JPM) 和 side information embedding (SIE)。最终的框架 TransReID 在几个流行的人/车 ReID 数据集（包括 MSMT17、Market-1501、DukeMTMC-reID、Occluded-Duke、VeRi-776 和 VehicleID）上优于所有其他最先进的方法。基于 TransReID 取得的可喜成果，我们相信 TransReID 任务具有进一步探索的巨大潜力。基于从 CNN 的方法中获得的丰富经验，基于 Transformer 的网络有望以更好的表示能力和更低的计算成本设计出更高效的网络。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2021/09/01 ，如有侵权请联系 cloudcommunity@tencent.com 删除

css