MinkUNeXt诞生 | UNet结合Transformer，再进行GeM广义均值池化，复杂问题简单化，性能SOTA

公众号-arXiv每日学术速递

发布于 2024-04-11 17:23:34

1140

发布于 2024-04-11 17:23:34

本文提出了MinkUNeXt，一个完全基于新型的3D MinkNeXt Block的有效且高效的位置识别架构，该残差块由遵循近期Transformer理念但纯粹使用简单的3D卷积的3D稀疏卷积组成。通过U-Net编码器-解码器网络在不同尺度上进行特征提取，并通过广义均值池化（GeM）将这些特征聚合为一个单一描述符。所提出的架构证明了仅依靠传统的3D稀疏卷积就能超越当前的最新水平，而无需使用更复杂和先进的提议，如Transformer、注意力层或可变形卷积。通过对牛津RobotCar和内部数据集的彻底评估，MinkUNeXt证明其性能优于其他现有方法。

I Introduction

在许多应用中，移动机器人必须在特定的环境中执行自主导航。在移动过程中，机器人应能够识别或区分环境中的不同区域。这个行为相当于在其当前的传感器观测与存储数据库的一部分之间找到对应关系。这种能力通常被称为地点识别。为了加快这一过程，作者们经常专注于通过不变描述子来描述环境的一些部分。通过这种方式，机器人应该能够通过在数据库中找到与其当前观测相关联的描述子最相似的描述子来识别环境的一部分。地点识别的概念在诸如定位、建图和导航等任务中至关重要。

地点识别和机器人定位是两个紧密相关的概念。地点识别集中在对当前机器人观测的描述上，这种方式能让机器人识别地图中的不同位置。因此，地点识别专注于提取和编码机器人查询观测中找到的相关特征，以便它们可以与先前存储的数据进行比较（图1）。同样，机器人定位指的是在已知地图内估计机器人的位置和方向。

在这种方式中，鉴于由一系列子地图组成的机器人地图，进行机器人全局定位的常见过程可能包括两个阶段：

使用特征描述子（地点识别）在全局数据库中快速找到一个子地图
在该子地图中（机器人定位）对机器人的位置和方向进行精确估计

在[2]中提出了一个类似的技术，其中描述子是从激光雷达测量中计算得出的。接下来，使用手工制作的描述子来快速检索地图中的一些感兴趣区域。最后的定位步骤，基于ICP（迭代最近点）算法，能够计算子地图内的位置和方向。

截至目前，地点识别已经通过各种类型的传感器来完成：视觉摄像头，激光，激光雷达和雷达，并采用了不同类型的技术。例如，地点识别问题已经通过基于词袋（Bag of Words）算法的技术，使用图像得到了广泛的解决。

在过去的几年里，激光雷达传感器（LiDAR）的价格和重量都有所下降，同时分辨率在提高。因此，激光雷达传感器能够从环境中获取大量精确的测量数据，这些数据定义了环境的形状和结构。作为一种自发光传感器，它对自然光照的变化不敏感，因此可直接应用于户外应用。因此，移动机器人领域出现了几种激光雷达传感器的新潜在应用，因此有必要关注那些能够实现场景健壮描述的方法。

在文献中，到目前为止，我们可以找到以下技术：

基于手工制作的激光雷达数据描述的经典技术，用于生成旋转不变性表示；
基于深度神经网络的方法，直接在点坐标上操作或将在点投影到图像坐标上的描述。

在这篇论文中，提出了一种基于深度神经网络技术的鲁棒描述由激光雷达传感器捕获的场景的方法。从几种最新的架构基础上，提出了几项改进和修改。因此，所提出的网络在地点识别的背景下能够超越所有其他现有方法。总之，本文的主要贡献包括：

MinkUNeXt是一种新的用于地点识别的3D稀疏卷积神经网络。它是首个用于点云嵌入和地点识别的U-Net架构方法。这个架构经过特别开发与优化，以解决此问题。此外，在宏观和微观设计方面都取得了实质性的改进。

新残差块的定义：完全由3D稀疏卷积构成的3D MinkNext块，其性能超越了ResNet块。它遵循了ConvNeXt提出的理念，该理念采用标准卷积，最初是针对图像分类、语义分割和目标检测提出的。

因此，所提出的拓扑结构在平均召回率1（AR@1）和平均召回率1%（AR@1%）方面，显著超越了当前点云位置识别技术的最新水平，与文献中最相关的方法相比较。

II State of the art

本节全面概述了地点识别领域的当前技术水平，特别是深入探讨了将深度神经网络与点云数据结合使用的情况。已经出现了许多聚焦于基于点云的地点识别应用。在本节中，方法将按时间顺序呈现。此外，本文档提供了对最相关架构取得的主要成果的比较。在这一背景下，这项任务的首个解决方案在文献[10]中提出，即PointNetVLAD，该网络模型基于PointNet进行特征提取，然后通过NetVLAD层进行特征聚合。

这类架构作为输入的点云无需排序，因为它们使用了如多层感知机（MLP）或全连接层这样的对称函数。接下来，一个类似的方法，名为LPD-Net ，通过在网络开始处加入局部特征提取块以及后续的基于图的邻域聚合，改进了现有技术水平。

在那之后，MinkLoc3D架构应运而生。它基于特征金字塔网络（FPN）与稀疏卷积进行特征提取，然后通过广义均值池化（GeM）将特征聚合为一个单一向量。当时，MinkLoc3D架构标志着的一个重要里程碑，因为它显著超越了现有的最先进方法，并证明了使用3D卷积层对于从点云中提取特征是一个不错的选择。与之前的网络类型不同，在使用3D卷积时，它们确实需要一个排序后的点云作为输入，其中点之间的空间关系得以保留。同样的情况以类似的方式出现在图像中，其中2D卷积由于像素之间的邻域关系，在特征提取上被证明是非常有效的。在这个意义上，一些2D架构也应运而生，将投影点云作为球形图像输入（OverlapNet）。

其他工作，如[1]提出创建一个旋转不变的手工图像：从点云的极坐标表示出发，计算属于同一高度角（环）的连续点之间的2D距离，然后，为每个环获得直方图，生成点云的2D手工编码。

此外，一些架构（MinkLoc++，PIC-Net）同时使用单目图像和点云。在这种情况下，这两个架构都由两个分支组成，分别独立处理图像和点云。每个分支都会产生一个特征向量，最后通过池化过程将这两个向量聚合为一个单一的向量。另外，每个点可以与图像的RGB值相对应的特征相关联。这需要精确校准相机-激光雷达系统。否则，一些作者提出使用每个激光雷达射线返回的相对强度，称为MinkLoc-SI。

DAGC架构首次引入了自注意力层用于点云特征提取以进行位置识别。后来，其他作者继续使用注意力层，取得了接近当时最先进水平的结果。在这方面，提出了NDT-Transformer，这是一种基于3个Transformer编码器的网络模型，它使用经过正常分布变换（NDT）修改后的点云作为输入。这种方法在降低内存复杂度的同时保留了点云的几何形状。

同时，PPT-Net 应运而生，它是一个带有金字塔分布的Transformer，后面跟着一个NetVLAD层。基于相似的想法，SOE-Net 使用一系列MLPs提取局部特征，然后在这些特征的聚合过程中应用注意力层。此外，Retriever 网络在自编码器中引入了自注意力层来进行局部特征聚合。另外，为了追求效率和这些架构在实时定位系统（必须在实时条件下工作）中的应用，SVT-Net被提出，它是一个基于稀疏卷积层进行特征提取的高效稀疏体素Transformer。

此外，HiTPR 采用Farthest Point Sampling 方法来降低输入点云的维度，同时保留其原始的拓扑信息。此外，这项工作引入了一个Transformer块用于短距离局部特征提取，以及一个额外的Transformer块用于提取远距离的全局信息。上述基于Transformer的方法取得了与现有技术水平相似的结果。然而，TransLoc3D 的提出标志着一个显著的进步。它也是一个基于稀疏卷积的网络模型，但与其他提议不同，它通过具有不同核大小的卷积层并行地提取不同尺度的特征。

此外，它还利用ECA（高效通道注意力）层来交互不同通道的局部特征。这类层也被MinkLoc3Dv2 使用，后者是基于MinkLoc3D 的架构。MinkLoc3Dv2 包含使用具有更多平面或通道（卷积矩阵的深度）的ECAs。到目前为止，这个网络架构在Oxford RobotCar Dataset 上的平均召回率1（AR@1）指标中展示了最佳结果，这部分归功于他们在训练过程中引入的损失函数以及他们使用的高的批量大小。

最终，在1%的平均召回率（AR@1%）方面，由KPPR取得了最佳结果，这是一个基于灵活可变形卷积（KPConv）的网络模型。然而，在更为严格的1的平均召回率（AR@1）指标上，Minkloc3Dv2仍然领先。迄今为止，已经提出了其他一些架构，它们在其他类型的贡献上有所作为，例如旋转不变性E

{}^{2}

PN-GeM和RPR-Net，或是推断效率EPC-Net和BPT。

本文介绍了MinkUNeXt，这是一个基于MinkUNet的架构，经过修改和增强后，用于从点云中进行位置识别。它是一个完全基于所提出的3D MinkNeXt块的编码器-解码器架构，该块是一个由3D稀疏卷积组成的残差块，遵循ConvNeXt提出的理念。特征提取由U-Net编码器-解码器执行，而将这些特征聚合为一个单一描述符的操作则通过广义均值池化（GeM）完成。所提出的架构证明了仅依靠传统的3D稀疏卷积就能超越当前技术水平，而无需使用更复杂和精巧的框架，如Transformers、注意力层或可变形卷积。本文以此表明，所提出的架构输出的结果优于文献中的发现，同时保持了效率、可扩展性和性能。

III MinkUNeXt: global point cloud descriptor for place recognition

从点云中进行位置识别可以看作是一个嵌入任务。为此，我们希望有一个能够提取场景的更具描述性特征的架构，并且，此外，将这些特征聚合为一个能够最一般性地描述场景中存在的信息的单一向量。本文提出了一个开创性的解决方案，在位置识别的背景下采用了U-Net架构。大多数类似U-Net的架构最初是为语义分割设计的，其目标是为输入图像的每个像素分配一个类别，或者在这种情况下，为输入点云的每个点分配一个类别。然而，U-Net的编码器-解码器拓扑结构也能够从场景中提取和融合相关特征，这将在实验部分进行展示。

Global Architecture

提出的模型由一个点云输入，该点云作为一个无序的3D坐标集合给出，即

P=\{(x_{i},y_{i},z_{i})\}

。这个点云被量化成一个稀疏张量，这是稀疏矩阵的高维扩展，其中非零元素被表示为一组索引（坐标）

和相关的值（或特征）

。一些论文提议将一些手工制作的属性作为特征，例如法线的垂直分量、高度方差、曲率变化或仅仅是坐标的值。其他论文则倾向于将每个坐标的特征初始化为1，即第一个卷积（主干）将只把非空体素的输入特征设为'1'。这个想法也用在了本文中，其中输入数据

\hat{P}=\{(\hat{x}_{i},\hat{y}_{i},\hat{z}_{i},1)\}

由

，一个3D量化坐标集合和

，一个长度等于量化点数量的'1'向量构成。

全局架构如图2所示。网络的编码器部分由五个3D稀疏卷积组成（用黄色标出）。其中，干细胞是第一个卷积，它保持了点云的输入维度，因为其步长固定为1，核大小为5。而接下来的四个卷积逐渐减小空间维度，由于连续的卷积层从之前的层结合信息，捕捉到越来越大范围的模式，因此感受野增加。这些卷积中的每一个都将输入维度降低2倍，因为它们使用大小为2的核和步长。在编码器之后，输入点云的维度被下采样32倍。

在常见的U-Net结构中，解码器由四个3D稀疏转置卷积组成，这些卷积可以将空间维度上采样2倍，逐步重建输入点云。然而，在这个架构中，建议仅通过应用三个转置卷积（用橙色标出）来部分重建输入点云，因为我们的目的是点云嵌入，而不是语义分割。第IV-E节将证明仅用三个转置卷积提取的特征对于理解场景的整体上下文更加稳健。此外，在所有卷积之后应用了批量归一化和ReLU激活函数（用红色标出），这有助于稳定训练过程。

此外，建议在这个架构中使用所提出的残差MinkNeXt块（用蓝色标出），而不是在每个ReLU之后常见的ResNet块（不考虑与干细胞对应的那个）。这种残差块为梯度流经网络提供了直接路径，减少了过拟合并提升了在未见数据上的泛化能力。在这个架构中，也用于增加特征图的数量，具体将在以下第III-B节中详细介绍。

U-Net架构的特点在于编码器和解码器之间存在跳跃连接。一方面，编码器能够捕捉到点云中不同空间尺度上的特征，从细微的细节（低级别）到更全局的结构（高级别）。另一方面，得益于跳跃连接，解码器能够融合低级别和高级别的特征。

在此之后，加入了一个全连接层，因为研究表明它输出的特征在视觉地点识别中对于视角变化具有鲁棒性。此外，这个全连接层也用于将特征图扩展到512维。随后，构成该特征图的点描述符通过广义均值池化（GeM）聚合成一个单一的全局描述符。

Residual Block Architecture

正如先前提到的，本文提出了全局和残差块两种架构。在此基础上，设计了一个新的残差块（图3），它完全由3D稀疏卷积组成，并遵循了ConvNeXt提出的理念，超越了ResNet块的性能。我们将这个块命名为MinkNeXt，因为它利用了ResNet块，并在Minkowski Engine中完全实现。

在全球架构中（图2），所提出的残差块在每次ReLU激活函数后以蓝色显示（除了对应于主干的那个）。由于残差块通常被用来增加特征图的数量，残差块的主干由一个1x1x1卷积形成，它将输入维度扩展到输出通道的大小。之后，应用了一个倒置的瓶颈结构，将维度扩展四倍，然后通过两个3D稀疏卷积将其再次降低到输出维度。这种倒置瓶颈最初由MobileNetV2提出，如今，它是每个Transformer块中的重要设计。另外，当输入和输出维度不同时，在残差连接中也应用一个1x1x1卷积。

本块中采用的激活函数是高斯误差线性单元（GeLU），它比ReLU更平滑，并已被最先进的Transformers所采用。最终，在块的主干流中通过LayerNorms 进行归一化，在残差连接中通过BatchNorms [46] 进行归一化。

IV Experiments

本节介绍了数据集（第IV-A节）、标注（第IV-B节）以及所提架构的训练和评估（第IV-C节）。随后，在第IV-D节中描述了实现细节。接着，在第IV-E节中，我们呈现了对设计步骤的消融研究，以获得最终架构。最后，在第IV-F节中，将本文的主要结果与文献中的其他方法进行了比较。

Datasets

为了训练和评估所提出的方法，采用了文献[10]中引入的数据集和评估协议。这是一个被大量研究采用并得到广泛认可的通用框架，用于比较使用点云解决位置识别任务的不同提案。该基准测试包括2个数据集和4种不同的环境：

牛津机器人车数据集。这个数据集是通过安装在汽车上的一些SICK LMS-151 2D传感器生成的。数据集涵盖了牛津市沿线10公里的轨迹。总共使用了同一轨迹的44个序列，从地理上划分为训练（70%）和测试（30%）。这产生了21,711个训练子图和3,030个测试子图。

内部数据集。该数据集由三种不同的环境组成：大学区（U.S.），居民区（R.A.）和商业区（B.D.）。这些数据集是通过安装在电动车辆上的Velodyne-64激光雷达捕获的，覆盖了这三个区域。路径长度分别为10公里，8公里和5公里。它由来自U.S.、R.A.和B.D.地区的5个不同序列组成，这些序列是在不同的时间捕获的。此外，每个U.S.和R.A.序列从地理上被划分为训练和测试。而B.D.环境仅用于测试。

在这两个数据集中，激光雷达扫描分别以12.5米和25米的固定间隔进行，分别用于训练集和测试集。同时，这两个数据集都是由多个子地图组成的。每个子地图是通过沿着20米连续捕获激光雷达扫描构建而成的。接下来，这些扫描被注册到一个公共框架中，并进一步处理以创建一个一致的子地图。这些训练和测试子地图通过移除地面平面以及通过体素网格滤波器进行规则采样，以将其大小减少到4096个点。构成每个点云的点位的XYZ坐标随后进行平移和缩放，以便在每个坐标的[-1, 1]范围内获得零均值的点分布。

Labelling and similarity

数据集中的每个子图都用其相应质心的UTM坐标进行标记。这构成了每个子图的标识符，并在网络训练和评估期间使用。接下来，我们定义数据集中子图之间的相似性。这个概念在文献中通常被称为标记，它很重要，因为需要向模型输入从同一地点捕获的结构相似子图以及从不同地点捕获的结构不相似子图。在这种意义上，大多数提出的标记协议都是基于UTM坐标的欧氏距离（如果两个点云在距离内捕获，则认为它们在结构上相似；如果它们从距离大于的地方捕获，则认为是结构上不同的，其中p<n

这个程序，当然，是一个粗略的近似，假设从同一区域捕获的子图将具有相似的结构。然而，这是一种简单但有效的标记训练数据的方法。在本文中，采用了

p=10m

和

n=50m

的方法，这与大多数参考文献中的方法一致。作者还提出了其他地方识别背景下相似性标记的方法。例如，[11]提出使用点云之间的重叠作为标记相似和不相似点云的替代方法。为了计算两个点云（即子图）之间的重叠，必须进行精确的配准，这限制了将此技术应用于大型数据集。

Training and evaluation

至于所提方法的训练和评估，我们遵循了[10]中建立的两个评估协议：

第一种，基准协议，包括仅使用牛津训练数据来训练模型，并用牛津内部（美国，R.A. 和 B.D.）的测试数据进行评估。

第二个精细化的协议包括使用牛津和内部（美国，R.A.）训练数据进行训练，并使用牛津和内部（美国，R.A.和B.D.）测试数据进行评估。

表1总结了针对上述定义的每个协议和每个数据集的训练和测试子图的数量。基于LiDAR的位置识别描述符的评估是通过top-K候选的召回率来进行的。遵循最常见的评估方法（如第二章中引用的论文中所做的那样），使用平均召回@1 (AR@1) 和平均召回@1% (AR@1%) 以便于与其他技术进行比较。

我们从测试数据集中获取的一个点云形成的“查询子图”开始，以及从地图中覆盖同一区域的不同遍历的点云子图。每个查询子图通过网络处理，输出一个编码其外观的描述符向量。这个描述符被称为“查询描述符”。接下来，将查询描述符与地图中的所有描述符进行比较。选择数据库中使距离最小的点云。最后，如果查询点云和检索到的点云之间的欧几里得距离在25米以内，则认为位置识别是成功的。

Implementation details

在当前工作中，所提出的模型是按照[5]中建立的过程进行训练的。在这方面，采用了截断平滑AP（TSAP）损失函数，该函数试图最大化正候选top-k的排名：

\mathcal{L}_{TSAP}=\frac{1}{b}\sum_{q=1}^{b}(1-AP_{q}) \tag{1}

在哪里，

是批处理大小，而

AP_{q}

是平滑平均精度：

AP_{q}=\frac{1}{|P|}\sum_{i\in P}\frac{1+\sum_{j\in P,j\neq i}G(d(q,i)-d(q,j) ;\tau)}{1+\sum_{j\in\Omega,j\neq i}G(d(q,i)-d(q,j);\tau)} \tag{2}

给定一个查询点云

，平均精度

AP_{q}

是从最近的

个候选点集

（阳性）和所有阳性与阴性点的集合

\Omega

计算得出的。同时，函数

构成一个Sigmoid函数

G(x;\tau)=\left(1+\exp\left(-\frac{x}{\tau}\right)\right)^{-1}

，其中参数

\tau

控制其锐利度。术语

d(q,i)

表示查询点云

的描述符与第

个点云之间的欧氏距离。分子表示在顶部

个阳性点中对阳性点

的软排名（其中

k=4

），而分母表示在所有其他阳性点和阴性点中对阳性点

的软排名。

为了这种类型损失函数的正确执行，有必要使用大的批量大小进行训练，具体来说，已经使用了2048的批量大小，对于基线和改进协议分别进行了400和500个训练周期。用于最小化损失函数的优化器是Adam，初始学习率为1e-3，并且在LR调度器步骤给出的周期中除以10，对于基线协议是第250和350个周期，对于改进协议是第350和450个周期。表2总结了上述所有参数值。

此外，在处理稀疏卷积时，输入点云需要通过一个系数

进行量化，该系数设定为0.01。由于这些点云已经被归一化到[-1, 1]，因此在每个坐标轴上获得的空间分辨率为200体素。为了增加训练实例的数量并减少模型过拟合，通过以下数据增强方法进行处理：对点云中的每个点单独应用介于[0, 0.001]之间的随机抖动值，对全局点云应用介于[0, 0.01]之间的随机变换，以及随机移除10%的点。

Ablation study: From MinkUNet to MinkUNeXt

该设计从MinkUNet34C架构作为基线出发。接下来，将描述一系列的设计决策。每个设计步骤都在以下两个主要小节中总结：(1)全局设计以及(2)残差块设计。对于每个步骤，将从MinkUNet34C开始，展示从该步骤到获得MinkUNeXt架构的过程及其结果。网络的演变和结果在图4中展示。表3总结了并描述了主要设计步骤。

Iii-E1 Global Design

正如上文所述，起点是MinkUnet34C [16]架构，首先通过添加一个GeM池化层对其进行修改。这一步骤在图4中标记为G1.1。接下来描述的是通往最终设计其余的道路图。每个设计步骤都被归类为以下一个点：评估基数，评估通道数，改变跳跃连接的数量以及将茎变为“Patchify”。

G1. 评估基数。基数定义为并行块的数目，这使得网络能够学习不同的输入表示。在这个意义上，针对每个残差块的不同的基数配置进行了评估：分别是（2, 3, 4, 6, 2, 2, 2, 2）、（2, 2, 2, 2, 2, 2, 2, 2）和（1, 1, 1, 1, 1, 1, 1, 1），分别对应MinkUNet34、MinkUNet18和MinkUNet14。这些基数值表示图2中蓝色显示的每个残差块的实例数量，但此时仍使用ResNet块。

此外，这些基数配置分别总结在图4的步骤G1.1、G1.2和G1.3中。如图所示，将基数减少到最小，即没有并行块，显示出更好的性能，并且在平均召回率1（AR@1）方面从92.2%提升到92.8%。从现在开始，将使用1作为每个残差块的基数。

G2. 评估通道数量。通道数量或滤波器数量对应于卷积层可以学习到的特征图的数量。编码器中卷积层对应的滤波器数量固定为（32、64、128、256），但解码器的通道数量取以下值（128、128、96、96）、（128、128、128、128）和（192、192、128、128），分别对应于MinkUNet14A、MinkUNet14B和MinkUNet14C。

解码器的这些滤波器数量在图4的步骤G1.3、G2.1和G2.2中进行了总结。最佳结果是使用MinkUNet14C（G2.2）获得的，AR@1为93.3%。因此，在后续架构变体中将采用的转置卷积的滤波器数量为（192、192、128、128）。

G3. 改变跳跃连接的数量。原始的U-Net以其编码器和解码器网络之间存在的4个跳跃连接为特征。在这方面，本文研究了当减少跳跃连接的数量并移除最后一个连接后的转置卷积时，网络的性能如何变化。除了已经在上述配置中实现的4个跳跃连接外，我们还评估了对应于图4中G3.1和G3.2的2个和3个跳跃连接。将跳跃连接的数量减少到3个并移除最后一个连接后的层，模型在AR@1上的改进最为显著，结果从93.3%提高到96.3%。因此，编码器和解码器之间将只包含3个跳跃连接。

G4. 将茎部改为"Patchify"。茎部指的是网络中的第一层，它执行最初的处理。在这种情况下，首次处理是通过一个具有5个核大小和1个步长的3D稀疏卷积来完成的。"Patchify"这个术语指的是将输入数据分割成一系列补丁的行为。视觉 Transformer引入了这个概念，最初是受到NLP Transformer的启发。Swin Transformer使用一个具有4个核大小和4个步长的非重叠卷积作为其茎部。在这个意义上，G4的茎部采用了这些参数，但是网络的性能从96.3%下降到了92.8%，因此放弃了"Patchify"这种方法。

Iv-D2 Residual Block Design

本节从ResNet块描述到所提出的MinkNeXt块每个设计步骤。这个残差块的设计路线图按以下要点划分：在残差块中创建Bottleneck，在残差块中创建Inverted Bottleneck，用GeLUs替换ReLUs，用LN替换BN以及评估不同的核大小。

在残差块中创建瓶颈。瓶颈结构包括首先通过1x1卷积减少隐藏层的维度，然后再将其扩展回原始大小。这种修改导致所提出架构的性能表现更差。

在残差块中创建倒置瓶颈。每个Transformer块都由一个倒置瓶颈组成，这包括扩展隐藏层特征图的维度，然后通过1x1卷积将其减少到原来的大小。在这种情况下，采用内核大小为3，步长为1的3D稀疏卷积来创建一个隐藏维度比输入维度宽四倍的倒置瓶颈。图4显示，当与以下修改(R3)一起分析时，这个倒置瓶颈块与先前的ResNet块相比，产生了更好的结果。

用GeLUs替换ReLUs。纠偏线性单元（ReLU）因其简单和高效，一直以来都是应用最广泛的激活函数。然而，近期一些先进的Transformer模型，如谷歌的BERT 或 OpenAI的GPT-4，采用了高斯误差线性单元（GeLUs），它是ReLU的一种更平滑的变体。

遵循同样的理念，我们在图4中的步骤R3.1和R3.2，分别用GeLUs替换了ResNet块和倒置瓶颈块中的ReLUs。在两种情况下，架构的性能都有所提升，但采用所提出的倒置瓶颈块时获得了更好的结果，达到了97.0%的AR@1。因此，将带有GeLUs的倒置瓶颈作为残差块使用。

用层归一化（LN）替代批量归一化（BN）。批量归一化（Batch Normalization, BN）在卷积网络中通过提高收敛性和减轻过拟合发挥着关键作用。然而，BN可能会引入一些复杂性，这些复杂性可能会对模型的性能产生负面影响。最近，更简单的层归一化（Layer Normalization, LN）已成功应用于Transformer中。

因此，在所提出的残差块中，用LN替代BN，使模型性能提升了最高达97.4%。因此，在残差块中，将采用层归一化而非批量归一化。

评估不同的核大小。视觉转换器的特点是使用较大的核大小，最小尺寸为7。然而，如图4（R5）所示，在当前的地点识别任务中，使用较小的核大小在残差块的输入、隐藏层和最后一层中都是有益的。在这方面，我们发现最佳的参数配置是在第一次卷积中使用核大小为1，在隐藏层和最后一次卷积中使用核大小为3。这导致了最终的模型和残差块架构，我们分别将其命名为MinkUNeXt和MinkNeXt块。

Comparison with the state of the art

如第IV-C小节所定义，对于使用牛津RobotCar和内部数据集进行地点识别，已遵循了在[10]中建立的两种训练和评估协议。基础协议是仅用牛津训练数据训练模型，并用牛津和内部（美国，R.A.和B.D.）测试数据进行评估。相比之下，改进的协议包括使用牛津和内部（美国，R.A.）训练数据进行训练，并使用牛津和内部（美国，R.A.和B.D.）测试数据进行评估。这些协议在文献中被广泛使用，以便在相同的条款和条件下进行比较。此外，这里展示的比较结果是从所引用的相同工作中获得的。

表4和V展示了当前技术水平下提出的不同技术与本文提出的方法（在相同的训练和评估协议下，包括基线和改进）在平均召回率1（AR@1）和平均召回率1%（AR@1%）方面的比较概览。每一列展示了使用每个数据集获得的结果，而最后两列呈现了平均结果。

Iv-B1 Results with the Baseline Protocol

表4展示了多种方法在平均召回率1（AR@1）和平均召回率1%（AR@1%）方面的结果。可以观察到，PointNetVLAD以Oxford Robotcar和In-house数据集为起点，为点云位置识别建立了基准。PCAN在大多数数据集上略优于PointNetVLAD。BPT取得了极具竞争力的结果，特别是在Oxford和美国数据集上表现突出。RPR-Net在美国、R.A和B.D上的表现超过了BPT，显示出更好的泛化能力。一些工作，如DAGC和Retriever，并没有为所有数据集提供AR@1的结果。然而，它们呈现了AR@1%的结果，这些结果显示性能优于PCAN，但比BPT差。

此外，LPD-Net、HiTPR、EPC-Net和E

{}^{2}

PN-GeM在多种场景下显示出相似但良好的结果。SOE-Net只提供了AR@1%的结果，这些结果非常令人鼓舞，因为它们接近MinkLoc3D，后者是首个在Oxford数据集上AR@1超过90%的架构。此外，HiBi-Net、PPT-Net和SVT-Net在In-house数据集上表现出略高的性能。TransLoc3D在Oxford上取得了迄今为止最好的结果，并在其他场景中表现出稳定的性能，其改进版本MinkLoc3Dv2超过了其他所有架构。另外，KPPR也显示了卓越的性能，但只在U.S.、R.A.、B.D.的情况下提供了平均召回率1%的结果。

最后，所提出的架构MinkUNeXt在牛津数据集上展示了在AR@1和AR@1%方面的卓越性能。它以97.5%的AR@1和99.3%的AR@1%超过了所有现有方法。然而，当模型在美国、R.A.和B.D.进行测试时，性能略有下降。应强调的是，牛津数据集和三个内部数据集是使用具有不同特性的激光雷达获得的，例如通道数量或空间分辨率。牛津数据集是使用各种SICK LMS-151 2D捕获的，而内部数据集是使用64通道的Velodyne捕获的。此外，牛津数据集中的子图包含的场景完全是城市环境，特点是建筑密集的环境和更紧凑的结构。相比之下，内部数据集中呈现的场景要开放得多，障碍物更少，城市元素的分布更为分散。这种捕获场景本质上的差异可能会显著影响模型在每个数据集上的结果和性能。

Iv-B2 Results with the Refined Protocol

关于模型在使用改进协议进行训练时的表现（表5），PointNetVLAD同样引入了起始参考点，尽管网络架构简单，但令人惊讶的是，它在U.S. R.A.和B.D.上取得了良好的性能。PCAN和DAGC对于内部数据集的表现与PointNetVLAD相似，但在牛津的表现特别优秀。

相比之下，LPD-Net和SOE-Net在所有指标和数据集上表现出显著更好的性能。MinkLoc3D在牛津的平均召回率1（AR@1）上超过了90%，并且在所有指标和数据集上通常表现良好。PPT-Net没有提供平均召回率1（AR@1）的值，但在平均召回率1%（AR@1%）上显示出有希望的性能。此外，SVT-Net在U.S.、R.A.和B.D.中尤其突出。另外，TransLoc3D在所有指标上都取得了良好的结果，是整体表现最佳的方法之一。MinkLoc3Dv2目前在技术水平上取得了最好的结果，并相较于MinkLoc3D显示出改进。

最终，所提出的MinkUNeXt模型在所有场景中的平均召回率1（AR@1）和平均召回率1%（AR@1%）方面显示出显著的改进，取得了迄今为止最佳的状态-of-艺术成果。在牛津数据集上的平均召回率1（AR@1）指标为97.7%，并优于排名第二的MinkLoc3Dv2，高出0.8个百分点。在R.A.、B.D.场景中，它比MinkLoc3Dv2高出0.1到1.1个百分点。然而，在U.S.数据集上，使用这一指标得到的结果稍微差一些（0.3个百分点）。

关于在精细协议下的AR@1%的结果，改进空间已经很小。但是，牛津的结果提高了0.2个百分点，达到99.3%，R.A.提高了0.5个百分点，达到99.9%，B.D.提高了0.1个百分点，达到97.7%。此外，尽管模型之前在U.S.的AR@1方面输出稍微差一些的结果，但网络在AR@1%指标上的性能与之前最佳的state-of-the-art结果相等，值为99.9%。在所有4个数据集上的平均AR@1和AR@1%分别提高了0.4%和0.2%。总之，使用精细协议训练MinkUNeXt克服了使用基线协议训练时呈现的泛化困难，因为模型适应了两种激光雷达特性。

V Conclusion

本文介绍了MinkUNeXt，这是一个基于MinkUNet [16]的架构，经过彻底修改和增强，用于基于点云的位置识别。它是一个完全基于所提出的3D MinkNeXt块的编码器-解码器架构：一个由3D稀疏卷积组成的残差块，遵循ConvNeXt 提出的理念。特征提取步骤由U-Net编码器-解码器执行。将这些特征聚合到一个单一描述符的过程通过广义平均池化（GeM）完成。所设计的架构证明了仅依靠传统的3D稀疏卷积，就可以超越目前的最新技术，而不需要使用更复杂和先进的提议，如 Transformer 、注意力层或可变形卷积。

所提出的网络表明，使用U-Net架构进行基于点云的位置识别是有益的，因为它能够捕捉到三维环境中的详细和上下文信息。来自多个空间尺度的特征融合提高了位置识别模型的鲁棒性，使其能够适应点云几何和密度的变化，以及不同的场景。

还应该注意的是，所提出的方法输出的结果已经超过了已经饱和的最先进水平。特别是，当使用改进后的协议进行训练时，网络在AR@1上达到了97.5%，在AR@1%上达到了99.3%。因此，改进的空间很小，需要更大和更多样化的场景来激发进一步的进步。

未来的工作将考虑将视觉信息纳入地点识别系统。在这个意义上，我们认为与仅使用具有纯距离数据的激光雷达相比，这将使得环境表示更加丰富。然而，视觉信息受到变化的光照条件、天气和季节变化的阻碍，这带来了巨大的挑战。