转载自:泡泡机器人SLAM
标题:Dynamic 3D Scene Analysis by Point Cloud Accumulation
作者:Shengyu Huang, Zan Gojcic, Jiahui Huang, Andreas Wieser, Konrad Schindler
用于自动驾驶汽车和移动机器人的多光束 LiDAR 传感器可以获取 3D 范围扫描序列。由于有限的角度扫描分辨率和遮挡,单帧扫描只能稀疏地覆盖场景。稀疏性限制了语义分割或表面重建等下游应用的性能。幸运的是,当传感器移动时,会从一系列不同的视点捕获多帧扫描。这些相邻帧提供了补充信息,在场景坐标系中累积时,会产生更密集的采样和更完整的三维场景覆盖。然而,扫描的场景通常包含移动的物体。仅通过补偿扫描仪的运动无法正确对齐这些移动物体上的点。在本文中,我们探索了多帧点云积累作为 3D 扫描序列的中间表示,并开发了一种利用户外街景几何布局和刚性物体的归纳偏差的方法。与最先进的场景流估计器相比,我们提出的方法旨在对齐公共参考坐标系中的所有 3D 点,从而正确地累积单个物体上的点。我们的方法大大减少了几个基准数据集上的对齐错误。此外,累积的点云也有利于表面重建等高级任务。
· 在累积多帧点云获得高密度点云时通常会因物体移动造成伪影,本文利用移动物体实例分割和运动估计等一系列方法,消除了累积点云中移动物体的伪影,这有利于提升三维目标识别等下游任务的准确性。
· 相比于之前的工作,本文着重对移动物体和静止场景相对于移动中的 LiDAR 传感器运动建模,而不是对每一个点独立地估计运动流。这样的方式可以充分利用刚体运动的假设,从而提升运动流估计的准确性。
图2 总结了将 T 帧点云对齐和累积的方法流程。首先对每一帧点云进行前景与背景分割。背景点被用来估计传感器的自我运动,而前景点则继续被分类为移动或静止的前景。根据移动的前景点的位置和运动,它们被分割为不同的物体,并进一步估计这些物体的刚性运动。最终,移动的物体的运动流由其与传感器的相对运动决定,而三维街景和静止物体的运动流则由传感器自身运动估计决定。将运动流估计应用到相关点云上则可以累积获得对齐的多帧点云。
输入点云首先由 PointPillars 骨干网络转化为鸟瞰视角下的特征图像,然后通过 2D UNet 提取特征图像 Fbase,并预测前景分割sFG。
在所有Pillars中随机取样 Nego 个前景值小于 𝛕 的背景点,帧 t 到帧 1 的传感器运动估计 Tego 通过最小优化这些背景点的坐标转换误差获得:
其中 p 为 Pillar 中心的坐标,ɸ 为 帧 t 中 Pillar p 在帧 1 中的软映射, w 为相应的映射权重。
为方便移动物体分割,所有 T 帧的 2D 特征图 Fbase 经过上一节提到的传感器运动估计校正后堆积成为一个 3D 特征张量,再通过 3D 卷积网络、时间尺度上的最大池化以及一个小的 2D UNet之后获得 2D 运动特征图像 Fmotion。基于Fmotion, 以下公式预测任意位置xi的发运动分割 :
时空实例组合将移动点分割为独立的物体,并跨越多帧将同一物体组合在一起。具体来说,通过预测每一帧每一点到其相应物体几何中心的偏移量,经过运动补偿后应用 DBSCAN 聚类算法,将跨越多帧的移动点聚类为不同的实例。
针对每一个目标物体,时空实例组合都产出 T 帧点云,本文使用 TubeNet 回归该物体的运动。类似于 RPMNet,TubeNet 以单位矩阵作为运动估计的初始化,以实例的点级别特征为输入迭代回归运动估计的残值。
本文选择 Waymo 和 nuScenes 数据集进行实验,使用场景流预测的标准指标:3D 终点误差(EPE)、准确率 (严格 AccS 和 宽松 AccR)、异常率 (ROutliers) 等。
表1显示本文的方法在 Waymo 和 nuScenes 数据集上表现都远远超越之前的场景流预测方法。
图3说明了本文的方法可以扩展到更多帧场景流预测,并保持相较其他方法更低的误差。
图4定性展示了本文和其他方法多帧点云累积的结果。可以看到本文的结果可以更好地处理移动物体伪影。
本文提出了对移动物体运动单独建模的方法,大大提升了场景流分析的准确性,着重解决了移动物体在多帧点云累积时引发的伪影问题。
本文的方法仍高度依赖于人工标记,包括实例分割标记、真实运动标记。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。