ECCV 2022｜面向精确的主动相机定位算法

3D视觉工坊

发布于 2023-04-30 10:00:46

2990

发布于 2023-04-30 10:00:46

文章被收录于专栏：3D视觉从入门到精通

项目地址：https://github.com/qhFang/AccurateACL.

文章：Towards Accurate Active Camera Localization（ECCV 2022）

主要内容：

主动相机定位问题是主动控制相机运动以获得精确的相机姿态，过去的算法大多是基于马尔可夫的，其缺陷在于减少了定位相机的位置不确定性，在离散的姿态空间中定位相机，并且与场景属性无关，这限制了粗略尺度中的相机姿态精度。

为此提出了一种新的主动相机定位算法来克服这些限制，该算法通过增强学习来实现精确的相机定位，由被动和主动定位模块组成。前者通过建立逐点的相机-世界对应关系来优化连续姿态空间中的相机姿态；后者对场景和相机的不确定性分别进行建模以规划正确的路径，用于精确的相机姿态估计。

在具有挑战性的定位场景上验证了算法，实验结果表明其算法在精细尺度相机姿态精度上优于最先进的基于马尔可夫定位的方法和其他方法。

主动相机定位与被动相机定位

被动相机定位是通常我们所理解的相机定位，即估计拍摄一副图像时的相机的位姿，图像是被动获得的，而主动相机是通过控制相机的移动主动地去拍摄一些图片进而准确估计相机的位姿。

主动相机定位通常涉及三个问题：

1. 如何定位：如何定位相机以获得最准确的相机姿势

2. 去哪里：相机在环境中未知位置的初始化，之后它应该怎么移动以进行精确的主动定位。由于在连续相机姿态空间中存在许多可定位位置，主动定位问题变得高度模糊且难以解决。

3. 何时停止：代理不知道其真实的相机姿态，因此要怎么决定何时停止相机移动。

Pipeline：

在环境中的未知位置和方向初始化相机后，主动相机定位的问题是主动控制相机向更好的位置移动以获得准确的相机姿态。

输入：带有位姿真值的RGB-D帧序列、主动定位期间获得的瞬时RGB-D帧。

对于初始RGB-D帧，被动定位模块估计当前相机姿态，主动定位模块估计相机移动的下一个动作，然后获得新的RGB-D帧，重复这样的过程直到主动定位模块决定停止移动并且在最后一步选择最终相机姿态作为估计的相机姿态。

被动定位模块：

被动定位模块是回答“如何定位”问题。

通过被动定位器优化连续姿势空间中的相机姿势，采用了基于决策树的方法以实现这一目的，具体的，

的对应关系，它通过对对应关系的姿势优化来推断相机姿势假设，并通过迭代丢弃最差的姿势假设直到最后一个剩下来确定输入帧的相机姿态。

主动定位模块：

主动定位模块由场景不确定性和相机不确定性组成，分别回答“去哪里”和“何时停止”问题。

场景不确定性：

从两个角度来描述这种属性，即相机位于场景的何处，以及观察到的场景哪一部分对于准确定位更有效。为了对上述信息进行建模，提出了相机驱动场景地图和世界驱动场景地图，他们回答了“去哪里”的问题，并通过结合场景不确定性属性和估计的相机姿态以及世界坐标，引导相机向不确定性较小的场景区域移动。场景不确定性属性完全由场景模型和被动定位模块决定，因此预先计算并对主动定位过程保持不变，而估计的相机姿态和世界坐标是在相机移动期间从捕获的RGB-D帧立即计算得出的。

相机驱动的场景图：

为了过滤掉无效的相机位置，将所有地图通道初始化为二进制可穿越地图，其中可穿越位置和障碍位置分别用0和−1填充，并且只更新可穿越位置的值。

世界驱动的场景图：

当前世界坐标估计指示使用所估计的相机姿态从当前RGB-D帧反向投影的世界坐标位于场景点云上的何处，因此被计算为描述每个场景点是否被至少一个反向投影世界坐标占据的逐点二进制值。

相机不确定性分量：

相机不确定性是相机固有的特性，它表示相机运动期间当前相机姿态估计的质量。相机不确定性模块回答“何时停止”问题，从而确定主动相机运动的自适应停止条件。

理想情况下，相机不确定度值应通过直接将估计的相机姿态与真实相机姿态进行比较来计算，然而在相机主动运动期间，真实相机姿态是不存在的。

为了缓解上述困难，通过将表示真实相机姿态的捕获深度观测和从3D场景模型Dscene投影的深度图像（其表示估计的相机姿态）进行比较来计算相机不确定性值。

给定观察到的深度和投影的深度图像，首先使用已知的相机固有参数将两个图像反向投影到相机空间中的点云中。然后利用ICP来配准两个点云，并估计它们之间的相对相机姿态，当两个点云大致对齐时，采用的ICP方法能够实现非常紧密的点云对齐，因此估计的相对姿态指示当前相机姿态估计距离真实姿态有多远，并被视为相机不确定性分量