前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >广汽研究院Xlab等提出3D车道线检测器PVALane,被AAAI接收,在多个Benchmark上表现出SOTA性能

广汽研究院Xlab等提出3D车道线检测器PVALane,被AAAI接收,在多个Benchmark上表现出SOTA性能

作者头像
CV君
发布2023-12-13 14:32:35
7591
发布2023-12-13 14:32:35
举报
文章被收录于专栏:我爱计算机视觉

关注公众号,发现CV技术之美

近日,广汽研究院Xlab联合广东工业大学、澳门大学、澳门理工大学在3D车道线检测方向的研究成果《PVALane: Prior-guided 3D Lane Detection with View-agnostic Feature Alignment》,被《AAAI: Association for the Advancement of Artificial Intelligence》(人工智能领域国际顶级会议/CCF人工智能A类会议/清华大学人工智能推荐A类会议)接收,其提出一种新的3D车道线检测算法,可以高效并精准的还原包含高度信息的真实场景车道线几何结构,论文相关通讯作者与通讯单位均为广汽研究院。

3D车道检测对于可靠与稳定的自动驾驶系统至关重要,近年来越来越多被行业所关注,目前已成为相关领域研究的热门方向,然而主流的FV-based方法和BEV-based方法在性能表现上存在一定缺陷。常规的2D车道检测模型由于只需要在图像空间进行车道检测,其结果相对准确但由于缺少高度信息不能直接应用于复杂的真实场景中(如道路起伏不平)。针对这一实际问题,我们认为可以利用准确且可靠的2D位置先验信息来引导3D车道的精准检测;由于FV 和 BEV 视图在车道线的表达上有着不同的表现形式,我们对齐并融合 FV 和 BEV 特征在语义和几何信息维度上的优点,提出了名为PVALane的端到端的车道检测框架。在业内多个主流数据集上,PVALane在精度上取得了SOTA的检测性能,并且在上下坡、夜间行车、极端天气等场景下都表现出极高的鲁棒性;为了体现PVALane的实时应用能力,我们对PVALane的推理速度进行了实验,达到了108 FPS,其远超自动驾驶系统的实时性要求。

引言

现有3D车道检测方法主要分为两种:基于BEV特征的方法和基于FV特征的方法。如图1所示,前者需要利用IPM (Inverse Perspective Mapping) 将FV特征转换到BEV空间特征,虽然有着更好的几何平移不变性,但是由于IPM的平地假设而无法应用于上下坡场景。基于FV特征的方法避免了IPM视图转换过程,通过在3D空间定义anchors从而直接在FV空间预测3D车道,结构更为简单。然而这种方法由于几何失真畸变从而需要非常密集的anchor设计,进而导致混淆的车道表征空间。

而2D车道检测由于直接在2D/FV空间进行车道预测,无需视图转换或者跨空间预测,因此其结果相对3D检测而言准确许多。因此我们开始设想:能否先在FV/2D空间进行车道预测,将准确且可靠的2D预测结果作为先验信息引导较为复杂的3D车道检测过程?

根据分析,我们认为实现这一目标的关键在于 :2D先验信息如何高效传递给3D检测模型。 如果直接将2D检测结果转换为3D anchor,则需要进行2D&3D anchor之间的规则转换,即对于2D检测结果,要先进行车道线拟合和采样的方法来得到3D anchor。然而这一转换过程的计算负担是极高的。因此,我们提出了 Prior Anchor Network (PAN), 其通过将预定义的3D anchor投影到2D空间计算其目标概率 (2D预测结果),从而根据概率分数过滤掉没有覆盖潜在车道的3D anchor,并将结果称为 Prior Anchor。 这种方法可以有效利用准确的2D预测来减少3D车道搜索空间,并且只需要利用索引完成先验信息传递,因此可以作为一个easy-to-deploy 模块进行端到端的方式训练。

此外,我们还提出了先验引导的视图无关特征对齐模块(PVFA)。通过将Prior Anchor投影至FV和BEV空间采样视图特征,PVFA能够利用不同的视图属性(如语义和几何信息)进行更具鲁棒性的车道检测。

本文的主要贡献:

  1. 介绍了一种先验引导的车道检测PVALane框架,该框架利用2D先验知识实现精确高效的3D车道检测。
  2. 提出了一种新颖的Prior Anchor生成策略,在保证近乎零计算成本的同时提供了车道位置的强先验信息。
  3. 提出了一种视图无关的特征对齐方法,利用Prior Anchor有效地对齐和融合不同视图对于车道线的表达。
  4. 实验证明,PVALane在多个3D车道检测数据集上实现了SOTA检测性能,并在复杂场景下表现出卓越的鲁棒性。

方法

模型架构

PVALane 的模型架构如上图图3所示,其核心模块包括Prior Anchor Network (PAN)和Prior-guided View-agnostic Feature Alignment (PVFA)。其中PAN主要通过2D空间的检测结果来生成稀疏且高质量的Prior Anchor。而PVFA则被用来对齐与融合不同视图的语义几何信息。

Prior Anchor Network

PAN用于快速生成候选的Prior Anchor从而降低3D车道检测模型的车道搜索空间。具体而言,给定第j-个预定义3D anchor

A^j

=(

x^j

,y,

z^j

) ,PAN首先利用相机内外参将其投影至2D空间得到2D anchor:

之后采样对应的anchor特征并对其应用初始的分类头来得到车道类别分数

P_{pri}^j
\in
{\mathbb{R}}^{1+N_c}

,其中

N_c

代表车道类别。然后根据类别分数计算潜在车道概率:

其中S(

\cdot

)表示softmax函数。为了利用2D检测结果来降低3D车道检测的复杂性,我们进一步选择出高质量且覆盖车道的稀疏anchors作为Prior Anchor

A_{pri}

。具体而言,我们使用预设的阈值 来过滤掉在2D空间中概率分数较低的3D anchors:

其中

\Psi_j

(

\cdot

)返回满足

{\tilde{P}}^j_{pri}

>

\tau

的 j 索引。

Prior-Guided View-agnostic Feature Alignment

通过利用 PAN 提供的Prior Anchor,我们进一步提出先验引导的视图无关特征对齐模块(PVFA),其能够在共享采样空间中有效地对齐和合并来自两个视图 (FV与BEV)的丰富视图信息。

具体而言, 给定

\mathcal{P}_{g 2 f v}(\cdot)_{\text {和 }} \mathcal{P}_{g 2 b e v}(\cdot)

分别为世界坐标

\mathrm{FV}

和 BEV 的投影过程, 我们分别获得 Prior Anchor 投影至 FV 和 BEV 的采样特征:

\begin{gathered} \hat{\mathbf{F}}_{f v}^j=\tilde{\mathbf{F}}_{f v}\left(\mathcal{P}_{g 2 f v}\left(\mathbf{A}_{p r i}^j\right)\right) \in \mathbb{R}^{N_p \times C_{p r i}} \\ \hat{\mathbf{F}}_{\text {bev }}^j=\tilde{\mathbf{F}}_{\text {bev }}^{N_f}\left(\mathcal{P}_{g 2 b e v}\left(\mathbf{A}_{\text {pri }}^j\right)\right) \in \mathbb{R}^{N_p \times C_{p r i}} \end{gathered}

由于

\tilde{{\mathbf{F}}}_{f v}^j

\tilde{{\mathbf{F}}}_{\text {bev }}^{j}

是使用统一的Prior Anchor进行采样的,因此他们可以被视为是视图无关且很容易进行特征对齐。我们使用一个特征融合模块

\Psi_{fus}

(

\cdot

)根据索引 j 来合并FV和BEV anchor 特征, 计算公式为:

\mathbf{F}_{\text {fus }}^j=\Phi_{\text {fus }}\left(\mathcal{F}\left(\hat{\mathbf{F}}_{\text {fv }}^j\right), \mathcal{F}\left(\hat{\mathbf{F}}_{\text {bev }}^j\right)\right) \in \mathbb{R}^{N_p C_{p r i}}

这种融合特征包含不同的视图信息,使得模型能够推断实际场景中的3D结构。此外,使用稀疏的Prior Anchor对FV和BEV特征进行对齐,可显著减少两者之间的关联空间从而提升模型效率。

实验结果

量化指标

表1展示了PVALane和SOTA方法的量化指标对比。可以看到,PVALane在F1分数、分类准确性、X/Z轴回归误差等指标上均显著超越了当前的方法。如下表2所示,我们进一步展示了不同场景下PVALane的F1分数,可以看到PVALane在上下坡、极端天气、夜间行车等场景下均表现出较高的鲁棒性。

此外,为了证明PVALane的实时应用能力,我们进一步对PVALane的推理速度进行了实验。如下表所示,PVALane实现了108 FPS的推理速度,其能够满足自动驾驶过程的实时性要求。

结果可视化

下图展示了PAN生成的Prior Anchor与初始anchor的可视化对比。从图中可以看出,相比于密集且冗余的初始anchor,Prior Anchor能够在有效覆盖车道的前提下显著降低车道搜索空间,从而降低3D车道检测模型的复杂性。

我们还进一步展示了PVALane在不同场景下的检测结果,如下图所示。从中可以看出PVALane 实现了更高的准确度,并能精确预测远处的车道。此外,PVALane在雨天和陡峭上坡等极具挑战性的场景中也都表现出色,这证明了 PVALane 的适应性和鲁棒性。

总结

在这项工作中,我们提出了一个用于3D车道检测的先验引导框架PVALane。其通过利用2D检测提供的强先验知识来减少3D车道搜索空间,从而实现高效且精确的3D车道检测;此外,在先验信息的引导下我们还进一步对齐 FV 和 BEV 特征所侧重的语义和几何信息;

实验证明与现有的先进方法相比,我们的方法表现出更优越的性能以及更好的鲁棒性;最后,为了体现PVALane的实时应用能力,我们对PVALane的推理速度进行了实验,达到了108 FPS,其远超自动驾驶系统的实时性要求。相信这项工作所提出的方案,在其他研究领域也将会有更为广泛的应用前景。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 方法
    • 模型架构
      • Prior Anchor Network
        • Prior-Guided View-agnostic Feature Alignment
        • 实验结果
          • 量化指标
            • 结果可视化
            • 总结
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档