PVNet: 像素级投票网络估计6DoF位姿

3D视觉工坊

发布于 2021-03-19 12:08:56

2K0

文章被收录于专栏：3D视觉从入门到精通3D视觉从入门到精通

摘要

大家好，今天为大家带来的文章是—— PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation。

本文研究了在严重的遮挡或截断情况下，单张RGB图像的六自由度位姿估计问题。近期的研究表明，两阶段的方法可以获得显著的性能，首先检测关键点，然后求解PnP问题估计位姿。然而，这些方法大多仅通过回归图像坐标或热图定位一组稀疏的关键点，这些关键点对遮挡和截断很敏感。相反，本文引入了一个像素级投票网络(PVNet)用于回归指向关键点的像素级向量，并使用这些向量对关键点位置进行投票。这为定位被遮挡或截断的关键点创建了一种灵活的表示方式。这种表示的另一个重要特征是，它提供了关键点位置的不确定性，可以进一步被PnP求解器所利用。实验表明，该方法在LINEMOD、Occlusion LINEMOD和YCB-Video数据集上的性能优于现有的方法，同时能够有效地进行实时的位姿估计。新创建的Truncation LINEMOD数据集可以验证该方法对截断的鲁棒性。代码https://zju3dv.github.io/pvnet/。

贡献

1.提出了像素级投票网络(PVNet)框架，可以估计六自由度位姿。该框架学习向量场表示，用于鲁棒的2D关键点定位，并能够自然地处理遮挡和截断。

2.基于PVNet的稠密预测，本文提出一种由不确定性驱动的PnP算法。

3.在基准数据集上，与最先进的方法相比，该方法显著地提高了性能(在LINEMOD和OCCLUSION上分别增加了86.3%vs79%，40.8%vs30.4%)。本文还创建了一个新的数据集，用于对截断的对象进行评估。

算法流程

给定一幅图像，位姿估计的任务是检测目标并估计其在三维空间中的方向和平移。首先利用CNNs检测2D目标关键点，然后利用PnP算法计算六自由度位姿。

1.基于投票的关键点定位

给定一个RGB图像，PVNet预测像素级对象标签和向量，其中像素级向量代表每个像素到每个关键点的方向。给定从属于该物体的所有像素到某一物体关键点的方向，可生成该关键点的2D位置假设以及基于ransac投票的置信度得分。在这些假设的基础上估计每个关键点的空间概率分布的均值和协方差，如图1。

图1 关键点定位。(a)Occlusion LINEMOD数据集的图像。(b)PVNet的架构。(c)指向物体关键点的像素级向量。(d)语义标签。(e)投票产生的关键点假设。投票分数越高的假设越亮。(f)根据假设估计的关键点位置的概率分布。分布的均值用红星表示，协方差矩阵用椭圆表示。

更具体地说，PVNet执行两个任务:语义分割和向量场预测。对于像素p, PVNet输出与物体关联的语义标签和向量vk(p)，该向量表示从像素p到物体的2D关键点xk的方向。向量vk(p)是像素p与关键点xk之间的偏移量，即xk-p。利用语义标签和偏移量，得到了目标物体像素，并将这些偏移量相加，生成一组关键点假设。然而，这些偏移量对物体尺度的变化非常敏感，这限制了PVNet的泛化能力。因此，本文提出尺度不变向量

在给定目标像素和单位向量的基础上，本文使用基于ransac的投票方案生成关键点假设。首先，随机选取两个像素点，将其向量的交点作为假设hki，作为关键点xk。重复N次，生成一组假设{hki|i=1,2,…,N} 用于表示可能的关键点位置。然后，物体的所有像素为这些假设投票。将假设hki的投票得分wki定义为，

Ⅱ为指标函数，θ为阈值(所有实验均为0.99)，p∈O表示像素p属于对象O。直觉上，较高的投票分数意味着一个假设更有准确，因为它与更多的预测方向一致。所得到的假设描述了图像中一个关键点的空间概率分布，其均值μk和协方差∑k如下。图1(e)显示了一个示例。

2.关键点选择

如图2(a)使用物体的3D包围框的8个角点作为关键点，这些角点可能远离图像中的物体像素。距离目标像素越远，定位误差就越大，因为关键点假设是使用从目标像素开始的向量生成的。图2(b)和(c)分别是选择包围框角点和选择物体表面上关键点得到的假设。物体表面上的关键点在定位上的差异通常要小得多。

图2 (a)3D物体模型及其3D包围框。(b)PVNet选择包围框角点得到的假设。(c)PVNet选择物体表面的一个关键点产生的假设。表面关键点的较小方差可以表明，在该方法中，表面关键点比包围框角点更容易定位。

本文首先，添加对象中心来初始化关键点集合。然后，不断找到物体表面上到当前关键点集最远的一个点，并将其添加到集合中。实证结果表明，该策略会产生更好的结果。根据实验结果建议K = 8。图3显示了一些物体的关键点。

图3 LINEMOD数据集中四个物体的关键点。

3.不确定性驱动的PnP

给定每个物体的2D关键点位置，它的六自由度位姿可以通过使用现有的PnP求解器求解。然而，大多求解器忽略了不同的关键点可能有不同的置信度。给定估计的平均值μk和协方差矩阵Σk，通过最小化马氏距离来计算六自由度位姿，

其中Xk为关键点的3D坐标，xk~是xk的二维投影，π是透视投影函数。参数R和t采用基于四个关键点的EPnP初始化。然后，使用Levenberg- Marquardt算法求解(5)。

4.损失函数

其中w为PVNet的参数，vk~为预测向量，vk为真实单位向量。请注意，在测试期间，不需要将预测的向量作为单位，因为后续处理只使用向量的方向。

主要结果

2D Projection metric。计算估计位姿和真实位姿的3D模型点投影之间的平均距离。如果距离小于5个像素，则认为估计的位姿是正确的。

ADD metric。用估计的位姿和真实位姿计算转换后的两个模型点之间的平均距离。当距离小于模型直径的10%时，认为估计的位姿是正确的。对于对称对象，使用ADD-S度量[40]，其中的平均距离是根据最近的点距离计算的。

表1 在Occlusion LINEMOD数据集上消融研究。指标为ADD(-S)，其中glue和eggbox为对称对象。Tekin[36]通过回归检测关键点，而其他配置使用提出的基于投票的关键点定位。BBox 8显示了该方法使用[36]中定义的关键点的结果。Offset8显示了对关键点的偏移量预测结果。FPS K是指由FPS算法产生的K个表面关键点。Un意味着使用不确定性驱动的PnP。在没有Un的配置中，使用EPnP估计姿态。