前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >告别迷路 ,OverlapMamba 提升激光雷达位置识别能力 !

告别迷路 ,OverlapMamba 提升激光雷达位置识别能力 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:09:13
1060
发布2024-07-08 14:09:13
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

位置识别是使自主系统能够实现独立决策和安全操作的基础。 在SLAM中的循环闭合检测和全局定位等任务中也至关重要。先前的方法使用平凡的点云表示作为输入,并采用基于深度学习的激光雷达位置识别(LPR)方法,使用不同的点云图像输入与卷积神经网络(CNNs)或 Transformer 架构。 然而,最近提出的结合状态空间模型(SSMs)的Mamba深度学习模型在长序列建模方面具有巨大潜力。 因此,作者开发了OverlapMamba,一个用于位置识别的新型网络,它将输入范围视图(RVs)表示为序列。作者以一种新颖的方式采用随机重建方法来构建移位状态空间模型,压缩视觉表示。 在三个不同的公共数据集上进行评估,作者的方法有效地检测循环闭合,即使在从不同方向穿越先前访问过的地点时也显示出鲁棒性。依赖于原始范围视图输入,它在时间复杂度和速度上超过了典型的激光雷达和多视图组合方法,表明了强大的位置识别能力和实时效率。

I Introduction

在本文中,作者提出了一种新颖的地点识别方法,利用自动驾驶系统上安装的3D激光雷达(LiDARs)生成原始范围视图(RVs)。对这些RVs进行后续操作,生成用于识别户外驾驶场景不同视角下地点的鲁棒全局描述符。

地点识别技术在自动驾驶系统全局定位的确定中,通过特征比较将传感器捕获的场景与数据库中的场景相匹配,是自主系统在未知环境中导航的关键技术之一。

因此,研究和开发更准确、更鲁棒的地标识别算法已成为SLAM研究的重要方向。本研究中,作者提出的方法通过引入OverlapMamba模型,提高了地点识别的效率和准确性,并通过实验验证了其性能优于现有技术。

II Related work

在自动驾驶的早期阶段,科学家们利用摄像头作为主要传感器对视觉地点识别(VPR)进行了广泛的研究[14]。

因此,对VPR研究的理解主要基于Lowry等人[16]的综述文献。在这里,作者关注LPR的相关工作。

LPR Based on Local Description

之前的LPR方法主要是通过手动设计或深度学习方法生成局部描述。这些方法有效地捕捉到了独特的特征,如纹理和颜色,并表现了它们周围环境的内容。最初,受到自旋图像[17]的启发,手动设计的局部描述常用于LPR任务,比如识别和验证在不同时间从同一地点收集的数据。

这是通过从点云的几何和拓扑结构中提取关键点,并手动计算这些点的描述符来匹配点云之间实现的。例如,杨家齐等[18]引入了一种通过加权投影向量生成局部描述的方法,以增强LPR的稳定性。曹凤奎等[19]提出了一种名为承载角(BA)的图像模型,用于提取场景匹配的特征。

另一种方法是通过深度学习生成局部描述,通常使用3D CNN编码点云 Patch 。查尔斯·R·奇等[9]设计了一种直接利用点云的方法,使用点云的排列不变性来生成高效且鲁棒的局部描述。

然而,基于局部描述的LPR方法都容易受到视角变化影响关键点的准确性,并且依赖大量的计算能力来处理密集点云;

因此,这些方法在处理来自高精度激光雷达设备的稀疏点云方面存在局限性。

LPR Based on Global Description

近期方法倾向于使用基于流行全局描述的方法来描述整体场景特征,提供了数据的整体视图。这些方法通常使用各种形式的数据作为输入,如RV、BEV和球形视图。Xieyuanli Chen等人[12]提出了一种网络,可以解决闭环检测和场景识别问题。这种方法通过重叠距离图像直观且高效地估计扫描对之间的相似性。随后,OverlapTransformer[13]作为之前模型的增强版本被引入。

这个轻量级网络利用 Transformer 架构在偏航不变描述符上加入注意力加权,从而显著提高了位置识别性能。

在OverlapTransformer的基础上,Junyi Ma等人[24]提出了一种跨视图 Transformer 网络,该网络融合了从激光雷达数据生成的RV和BEV,提高了全局描述符的鲁棒性。

其他方法[14]也采用了 Transformer 架构,该架构以捕捉长距离依赖和上下文关系而闻名,以实现在杂乱环境中的有效识别。

然而,它们巨大的计算需求限制了训练过程中的批量大小。

方法[1]采用基于投影的方法,这提供了更低的计算需求和更好的可解释性,但不可避免地在维度降低过程中丢失信息。

III Overview of the Framework

本研究专注于将前沿的SSM,即Mamba模型,整合到SLAM技术中,以提高地点识别的效率并增强全局定位的能力。作者首先描述SSM的基础知识。

在第三节B部分,作者介绍了OverlapMamba的概念,其全面框架如图2所示。

然后在第三节C部分,作者详细说明了OverlapMamba块的架构,并说明如何对输入序列进行建模。

鉴于作为Mamba输入的全局描述符是从沿着垂直维度的随机变量(RVs)卷积得到的,作者在第三节D中详细阐述了序列的金字塔池化,它对序列执行多尺度一维池化以保留空间信息。

在第三节E中,作者讨论了在训练过程中使用计算重叠标签的Triplet Loss的问题。

Preliminaries

Mamba-Based Place Recognition

OverlapMamba block

所提出的OverlapMamba块(OLM)如图2所示。原始的Mamba模块专门为1D序列设计,可能不适用于需要空间感知的任务。在最近的研究中,研究行人普遍采用双向序列建模方法[23]。这种方法本质上将图像划分为多个块,并通过位置编码将它们映射成序列。同时,一些研究选择使用四个不同方向序列作为输入[24, 25],沿着水平和垂直轴收集像素信息,然后反转这些生成的序列以创建四个序列的组。最后,通过选择性的SSM(S6)模型[22],所有序列被合并成一个新的序列。

在本文中,重叠 Backbone 中的卷积滤波器仅沿着垂直维度压缩范围图像,而不压缩宽度维度。这使得特征序列的最大输出尺寸为。作者采用双向方法进行序列建模。由于作者直接通过堆叠的卷积模块获得标记序列,因此无需沿水平方向添加额外的位置嵌入或采样。标记序列直接包含偏航信息,并且在处理后翻转反向序列包含机器人从相反方向接近同一场景的信息。

因此,作者认为由于距离图像中包含的全局场景信息,标记序列是同一个场景在不同偏航角度下从一个循环序列生成的。因此,在重叠 Backbone 中,作者使用算法1中的函数随机处理带有偏航角的标准化标记序列,并生成随机翻转偏航角的序列。

处理后的数据可以模拟同一场景在不同偏航角度下的特征,增强模型在训练期间的泛化能力。最后,处理完毕后,将获得四个不同的序列作为选择性的SSM(S6)的输入,用于推理和训练。

整体OverlapMamba块结合了多方向序列建模进行地点识别任务。作者在算法1中展示了OLM块的运算,以下是超参数:表示模块堆叠的数量,表示隐藏状态维度,表示扩展状态维度,表示SSM维度。该块接收并规范化标记序列;然后使用线性层将序列投影以获得和。接下来,作者翻转并应用随机偏航角处理以获得四个方向序列,每个序列都单独处理。

作者对每个序列通过1D卷积和激活函数得到。然后,作者切分线性层的结果。

分别对使用softplus()函数,计算和并将它们输入到SSM中通过门控得到。最后,通过添加四个方向的序列得到输出标记序列。

Sequential Pyramid Pooling in the Backbone

作者探索了两种不同的 Token 序列生成方法,以确保偏航等方差。第一种方法利用带有位置编码的扁平化2D块。

第二种方法采用纯卷积框架。距离图像的大小为64 900,这比同等大小的垂直和水平方向的普通图像更接近序列数据的表示。

自然地,在转换为序列后可以保留更多的特征信息。然而,针对普通图像已经提出了处理小块和结合位置编码的方法。当应用于距离图像时,在水平和垂直方向上存在特征信息的不平衡。重叠主干采用沿垂直方向的卷积滤波器,将距离图像压缩为大小为的特征序列,以解决此问题。

这种方法生成了一个沿宽度维度最大限度保留偏航信息的序列。

此外,由于距离图像在垂直方向上只有64个像素,因此主干不需要大尺寸滤波器或许多堆叠的卷积模块。总的来说,这种方法更适合处理远程车辆(RVs)。

在处理范围图像时,由于滤波器仅沿垂直方向压缩图像,因此图像沿水平方向被划分为个长度为的序列进行处理。

然而,由于距离图像固有的物体形变和噪声干扰,生成的特征序列可能会表现出不正确的空间信息。因此,作者提出了一个简单架构的SPP模块,灵感来自于空间金字塔池化[26],如图4所示。

SPP在水平方向上采用两层1-D池化,而不使用多尺度池化核。它对输入序列执行三个连续的最大池化操作,并连接中间状态,然后使用滤波器进行通道压缩。

金字塔池化结构简单,但通常不能用于序列处理,因为它旨在学习2D图像中的多尺度特征。然而,如前所述,由垂直卷积处理生成的序列包含了水平方向上的所有位置信息。

因此,使用SPP可以有效改善序列中物体位置和比例的不变性,并减少由噪声干扰引起特征损失。

Improved Triplet Loss with Hard Mining

在作者的实验中,作者发现当使用传统的Triplet Loss时,损失函数难以收敛。

此外,随着损失函数的减小,模型的泛化能力并没有增加,如图5所示。作者认为模型选择训练数据分布不均匀。从训练数据中随机选择样本的做法虽然简单,但容易导致易于区分的样本。

IV Experiments

Experimental Setup

作者使用三个数据集评估作者的方法:KITTI [28],Ford Campus [29],以及公开可用的NCLT [30]。KITTI数据集包含在城区、郊区和高速公路场景中收集的真实图像数据,每张图像中最多有15辆车和30个行人,以及不同程度的遮挡和截断。

Ford Campus视觉和激光雷达数据集是从一个自主地面车辆测试平台收集的。这些数据集中的车辆轨迹路径包含几个大尺度和小尺度循环。NCLT数据集在密歇根大学收集,该数据集反复探索校园,室内外都有,轨迹不同,且涵盖了一天中不同的时间段以及四季。

作者对KITTI和Ford数据集使用尺寸为1 64 900的范围图像。对于拥有32线激光雷达数据的NCLT数据集,作者生成了尺寸为1 32 900的范围图像,包含60米内所有激光雷达点。为了确保与近期研究的公平比较,作者将KITTI和Ford序列的最大距离设置为50米,并在单通道范围图像中生成了所有点云。

在使用OverlapMamba的实验中,作者使用了一个OverlapMamba块的单一层,其中嵌入维度为。作者对处理过和未处理的序列进行一对一求和,以实现特征序列的随机偏航增强。在SPP模块中,作者将池化核大小设置为5,并相应地填充序列以保持长度。

作者使用Adam优化器[31],初始学习率为,并训练OverlapMamba模型20个周期。作者还尝试仅使用激光雷达点云数据进行训练,不使用任何其他信息,并将结果泛化到不同的环境,无需微调。

Evaluation for Loop Closure Detection

作者 在KITTI数据集上训练并评估了作者的方法,并将其性能与其他 Baseline 学习方法进行了比较。作者采用了相同的实验设置,在序列03~10上进行训练,在序列00和02上进行评估。作者计算了两次扫描之间的重叠值,并将重叠大于0.3阈值的扫描视为闭环。在训练之前,作者将正样本和负样本的最大数量都设置为6。

第一次实验支持作者的主张,即作者的方法在使用激光雷达数据的大型户外环境中实现了最先进的定位和闭环检测,并且能够很好地泛化到不同的环境。作者评估了AUC、F1max分数、recall@1和recall@1%,结果如表1所示。

仅基于深度范围图像训练的OverlapMamba在KITTI上超越了所有基于点云特征的方法。

与基于视觉特征的方法相比,在F1分数上分别比OverlapNet和Overlap-Transformer高出2.5%和1.3%。与使用RV和BEV组合输入的CVTNet相比,OverlapMamba在KITTI数据集上实现了高2.3%的AUC和高1%的F1max。作者的recall@1和recall@1%是最高之一,并且与包含 Transformer 编码器的OverlapTransformer相当。然而,总体数据显示,作者的模型具有更好的泛化能力。

这在Ford数据集上的比较中进一步得到了证明。作者使用在KITTI序列03-10上训练的权重在Ford数据集上进行测试。结果显示,作者的模型在Ford数据集上实现了最高的F1max水平0.871,比现有最佳方法OverlapTransformer提高了近2%。结果表明,作者的 Proposal 在测试集上保持了持续的优越性。作者的性能优于所有其他方法。

Evaluation for Place Recognition

在这个实验中,作者验证了作者的方法在NCLT数据集上的性能,并将其与其他 Baseline 方法进行了比较。与所有 Baseline 方法类似,作者使用2012-01-08的数据库来训练作者的模型,并在2012-02-05和2012-06-15的 Query 序列上评估其性能。作者使用与闭环检测实验相同的训练设置。训练完成后,作者以5的步长遍历 Query 序列。对于每个遍历的 Query 序列,作者以1的步长迭代所有数据库序列,基于欧几里得距离生成位置识别的 GT 文件。

为了准确评估模型的性能,作者在NCLT数据集上使用位置识别的平均前1召回率(AR@1)、前5召回率(AR@5)和前20召回率(AR@20)作为评估指标。如图6和图7所示的评估结果表明,作者提出的方法OverlapMamba在NCLTramak数据集上显著优于所有 Baseline 方法。

值得注意的是,与最近的SoTA CVTNet [27]相比,作者提高了AR@1达0.43%至1.30%,AR@20达0.63%至4.13%,展示了Mamba架构在长期建模任务中的显著潜力。

OverlapMamba仅使用RVs作为输入,但性能超过了所有使用多种数据表示的 Baseline 方法,如仅使用BEVs或结合RVs和BEVs作为输入的方法,验证了作者在数据处理和位置识别任务中的方法优越性。

在没有任何精化模块的情况下,使用Mamba处理全局描述符的方法被证明是优越的。与使用 Transformer 作为主要编码结构的OverlapTransformer相比,Mamba显示出与 Transformer 相似或更优的性能,且仅有线性复杂性(设置)。此外,每个提出的组件都在不同程度上提高了 Baseline 的性能(设置)。进行了组件组合的消融实验()以证明每个组件的不可或缺性。最后一行显示OverlapMamba在每个组件上都有最佳性能。

表3中的实验探讨了OverlapMamba模块数量在生成全局描述符时的有效性。作者修改了OverlapMamba块中堆叠的模块数量,只比较了1至3个堆叠模块。在KITTI数据集上的实验结果如表3所示,表明仅使用单个Mamba模块时可以达到最佳性能。这可能是因为当多个Mamba块堆叠时,需要更多的迭代和训练样本来实现更好的性能。因此,使用单层OverlapMamba块可以在准确性和运行时间之间实现最佳平衡。

Study on ImTrihard Loss

在第三节E中,作者描述了所提出的ImTrihard损失函数对模型泛化能力和训练收敛速度的影响。

作者在KITTI数据集(表4)上进行了实验,以进一步验证通过使用ImTrihard损失实现的训练时间成本的降低。值得注意的是,仅在第一个训练周期内,使用ImTrihard损失训练的OverlapMamba的F1max得分达到了0.872,超过了经过完全训练后许多现有方法的F1得分。此外,由于ImTrihard损失选择了最难的正样本和负样本,其损失值可能最初大于传统Triplet Loss。

在实验中,作者还观察到随着训练周期的增加,Triplet Loss出现了过拟合的迹象。在第20个训练周期中,F1max比第10个周期的F1max大约低1.2%。然而,在使用ImTrihard损失的实验中没有观察到性能下降。

损失值的变化在图8中更直观地描绘出来。在KITTI数据集序列00上的评估(b)进一步证明了其收敛能力。仅在第一个周期内,其准确度达到了96.43%。这些结果进一步证实了ImTrihard损失可以帮助模型快速收敛,并具有出色的泛化能力。其相对简单的结构也便于其容易地应用于不同的场景。

Runtime

在这个实验中,作者将NCLT序列2012-01-08作为数据库,使用序列2012-02-05作为 Query 来计算运行时间。由于Mamba架构具有快速推理的优势,OverlapMamba由于其高效的SSM扫描,在所有 Baseline 方法中表现最优,其速度可以达到相似大小的Transformer的5倍。如表5所示,作者的方法是SoTA方法中最快的。对于描述符生成,每个扫描仅需0.49毫秒,甚至比基于纯几何直方图的方法还要快。在搜索的时间成本上,作者的方法显著减少了运行时间,平均只需要0.35毫秒。OverlapMamba在搜索过程中直接计算描述符之间的欧氏距离,无需任何预处理或通过函数计算描述符的相似性。特别是与 Baseline 方法生成的相同描述符大小(1 256)相比,作者的方法展示了生成的描述符的描述能力及其无与伦比的实时性能。

V Conclusion

在本文中,作者提出了一种新颖的基于激光雷达的定位网络,该网络利用Mamba模型,一种用于处理随机变量的随机重建方法,以及一种简单的SPP架构。

广泛的实验结果证明,即使在简单的信息输入下,作者提出的OverlapMamba在时间精度、复杂性和速度上也能超越其他最先进的算法,在三个公开数据集上的表现证明了其在车牌识别任务中的泛化能力,以及在现实世界自动驾驶场景中的实用价值。

参考

[1].OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • I Introduction
  • II Related work
    • LPR Based on Local Description
      • LPR Based on Global Description
      • III Overview of the Framework
      • Preliminaries
      • Mamba-Based Place Recognition
      • OverlapMamba block
      • Sequential Pyramid Pooling in the Backbone
      • Improved Triplet Loss with Hard Mining
      • IV Experiments
        • Experimental Setup
        • Evaluation for Loop Closure Detection
        • Evaluation for Place Recognition
        • Study on ImTrihard Loss
        • Runtime
        • V Conclusion
        • 参考
        相关产品与服务
        汽车相关识别
        汽车相关识别(Vehicle Optical Character Recognition,Vehicle OCR)基于行业前沿的深度学习技术,提供驾驶证识别、行驶证识别、车牌识别、车辆 VIN 码识别等多种服务,支持将图片上的文字内容,智能识别为结构化的文本,应用于车主身份认证、ETC 出行、违章识别、停车管理等多种场景,大幅提升信息处理效率。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档