PoGO-Net：使用图神经网络进行姿势图优化（ICCV 2021）

3D视觉工坊

发布于 2022-06-28 17:07:39

7290

发布于 2022-06-28 17:07:39

文章被收录于专栏：3D视觉从入门到精通

PoGO-Net: Pose Graph Optimization with Graph Neural Networks

李欣怡 * Magic Leap，美国加利福尼亚州桑尼维尔xinli@magicleap.com

Haibin Ling † 美国纽约州斯托尼布鲁克石溪大学 hling@cs.stonybrook.edu

链接：https://www3.cs.stonybrook.edu/~hling/publication/PoGO-Net-21.pdf

摘要

准确的相机位姿估计或全局相机重定位Structure-from-Motion (SfM) 和 SLAM 系统的核心组件。给定成对的相对的相机位姿，位姿图对其进行优化（PGO），这包括到求解一组优化的全局一致的相机的绝对位姿。在这项工作中，我们提出了一种由图神经网络 (GNN) 驱动的新型 PGO 方案，即 PoGO-Net，利用multiple rotation averaging (MRA) 进行相机的绝对位姿回归。具体来说，PoGO-Net 将有噪声的视图作为输入，其中节点和边被设计为对几何约束和局部图一致性进行编码。此外，我们通过利用隐式边缘丢弃方案来解决异常边缘去除问题，其中噪声或损坏的边缘通过参数化网络有效地过滤掉。此外，我们引入了嵌入 MRA 公式的联合损失函数，使得鲁棒推理即使在大规模场景中也能够实现实时性能。我们提出的网络在公共基准上进行了端到端的训练，在广泛的实验中优于最先进的方法，这些实验证明了我们提出的网络的效率和鲁棒性

1. 引言

视觉定位或相机姿态估计是许多计算机视觉和机器人任务的核心，其应用包括机器人导航、自动驾驶和增强现实。相机姿态估计是通过图像检索借助序列信息自行确定方向和位置的过程。作为标准相机位姿估计方法中的关键组件，位姿图优化（PGO）包括成对相机相对位姿的迭代估计和噪声全局视图的渐进式优化。在大多数传统的运动结构 (SfM) [65, 69] 和 SLAM [47] 系统中，PGO 是通过利用特征帧对应来数值求解高维非凸逼近问题，通常会产生高计算成本。

尽管解决 SfM 系统后端优化的研究激增，但仍有许多挑战存在。首先，规范求解器在输入大小方面具有三次阶的复杂性，并逐渐减慢 [67]，从而丧失了实时要求。其次，成对相对相机姿态的测量通常是存在噪声的，会在视图中产生损坏和错误的边缘，从而损害传统方法和基于学习的方法的性能 [52]。第三，使用深度学习网络对结构和运动进行直接回归容易出现过度拟合 [55, 62]，从而阻碍了实际应用中的鲁棒性和通用性。

受最近成功的图神经网络 (GNN) [53]的启发，我们在此提出了一种新的基于 GNN 的 PGO 方案，以解决上述所有问题，即 PoGO-Net。具体来说，我们使用视图边缘上的成对的几何约束对边缘信息进行编码，并与局部一致性信息聚合。相机的绝对方向被编码为节点特征，根据其连接的边缘和相邻节点进行更新。当我们将输入那些被视为具有错误和冗余边的损坏图时，我们通过利用拓扑参数化网络层进行“边缘丢弃”来解决图去噪问题，即移除异常边缘根据局部图的一致性，得到输入视图的更稀疏但更精确的子图。我们重新定义消息聚合并设计基于多次旋转平均（MRA）算法的损失函数，通过高效的消息传递方案，我们提出的网络即使在大规模数据集下也能够实时处理.此外，我们的网络具有端到端的可微结构，其中去噪层和 GNN 层的参数在训练期间联合优化。

我们的贡献可以总结如下：

• 我们提出了一种新的 PGO 公式，以 GNN 为燃料，通过利用 MRA 方案进行相机的绝对位姿回归。

• 我们设计去噪层来解决PGO 中的异常边缘去除问题。我们提出的去噪层与 GNN 层一起迭代执行，隐含地利用了“边缘丢弃”方案。

• 我们端到端训练 PoGO-Net，该网络可以轻松地与传统和基于学习的 SfM 系统集成*。对公共基准的广泛实验证明了我们提出的网络的准确性、效率和鲁棒性。

2. 相关工作

传统的 PGO 方法。给定一个 3D 场景，最初通过应用鲁棒的方法 [21, 50] 来估计成对的相机的相对位姿，以去除匹配的对应异常值的特征，从而拟合基本/本征矩阵[2]，然后是视图重新细化，即 PGO 迭代。在传统 SfM 方法的标准 PGO 方法 [19, 35, 47, 56] 中，解决高维非凸优化问题 [27, 58] 主要包括采用迭代非线性数值求解器 [1, 45 , 48, 64] 通过联合优化来优化3D 场景点、相机方向和平移 [42, 58, 68] 即bundle adjustment (BA) 来最小化重投影误差。

作为 BA 中的一个子问题，旋转平均 (RA) [26, 29] 致力于在给定一组相对相机旋转的存在噪声的测量值的情况下求解相机方向，并且可以归类为单旋转平均 [28, 38, 40 ] 和多次旋转平均 (MRA) [4, 7, 20, 44]。前者在给定几个估计的情况下提供了一次旋转的最佳解决方案，而后者可以被视为同步问题，其目标是在给定噪声边缘标签的情况下恢复图中的未知顶点标签 [3]。近年来，我们见证了对 MRA 的研究兴趣激增 [9-12, 46, 63, 66]。尽管旋转群空间具有非凸性，但是MRA 仍然是一个计算上难以解决的问题，但与基于点帧对应的传统 BA 方法相比，它通过允许更低的维度和复杂性显示出优势 [11,17,66 ]，实现更快、更轻的求解器。然而，MRA 的主要挑战与异常边缘相关，即，如果不了解视图中边缘上的噪声分布，MRA 的准确性和鲁棒性会受到极大损害 [4, 12, 44, 65 ]。最近有大量针对鲁棒高效的 MRA 方法的工作，这些方法可以进一步分为显式异常值检测/去除方案 [12、29、49] 和隐式降噪方案 [4、14、63]。

基于学习的 SfM 方法。直到最近，研究兴趣才集中在将深度神经网络整合到 SfM 方法和相机位姿估计任务中 [5, 18, 22, 33 , 36, 57, 61, 71]。作为最早采用神经网络进行相机位姿回归的工作之一，[33]中提出的深度卷积神经网络位姿回归器是根据嵌入相机的绝对位姿预测误差的损失函数进行训练的。虽然 [33] 率先将神经网络的优点融合到姿态回归框架中，但它没有将视图的帧内约束或连通性纳入优化，因此在准确性上几乎没有超过在[13, 52, 72] 中所改进的那样的传统的方案。其他工作利用给定序列图像之间的代数或几何关系，并训练网络预测以定位图像 [8,13,59,61]，其中 [13] 通过配备双向的具有 CNN-RNN 模型的方向 LSTM 来利用序列图像的时间一致性，使得时间规律性可以在回归中提供更多的姿势信息。[8] 中的方法通过利用来自 IMU 和 GPS 的额外测量来训练具有帧之间成对几何约束的 DNN 模型。采用神经网络也极大地有利于平行研究，包括 3D 配准和点云对齐 [6, 25]。

最近的工作 [72] 是第一个在完整的相机的绝对位姿回归框架中利用 GNN 的研究，其中作者使用与 CNN 提取的图像特征融合的节点对视图图进行建模。另一种最近的方法 [49] 提出了一个基于 GNN 的网络来解决 MRA，其中网络由两个子网络组成，分别解决异常值去除和姿势细化。尽管这两种基于 GNN 的方法都取得了令人满意的性能，但存在局限性并且可以进行改进。例如，节点特征和边缘值的相关性在[72]中被视为纯二元，丢弃帧之间的几何约束。此外，该图被初始化为完全连接的，这可能会引入大量冗余和错误的边。

在我们的工作中，我们使用视图边缘上的成对的几何约束对边缘消息进行编码，并与局部一致性信息聚合。尽管受到 NeuRoRA [49] 的启发，但是我们所提出的网络通过明确制定边缘消息来实现“边缘丢弃”方案，而前者仅在节点上进行消息聚合。此外，通过允许节点-边联合消息聚合能更有效地保留图信息，这样只需要一个损失，从而促进端到端训练，而额外的视图清理损失被包括在网络NeuRoRA 的工作设计中。特别是，我们通过引入去噪层来有效地去除异常值，从而解决了我们提出的网络的鲁棒性问题。

图神经网络。凭借其强大而敏捷的数据表示，GNNs [34, 53, 60]在众多计算机视觉任务中表现出色。尽管取得了成功，但由于 GNN 对噪声图的脆弱性，直接采用 GNN 来解决 PGO 并不适用 [24、43、51、70、73]。在我们的工作中，我们通过采用参数化去噪层来减少异常边缘的负面影响 [41,43,51]。

3. 问题陈述

3.1.预备知识和符号

给定具有 n 个图像帧的 3D 场景，考虑存在帧 Ii 和 Ij 之间的相对旋转的测量 ̃Rij ∈ SO(3)。假设在 ̃Rij 无噪声的理想情况下，Ii 和 Ij 的绝对旋转 Ri, Rj ∈ SO(3) 满足 ̃Rij = Rj R−1 i 。然而，在实践中，相对测量值通常是有噪声的并且包含异常值，因此相机的绝对方向估计是寻求一组与相对测量值全局一致的相机方向，这个过程称为多次旋转平均（MRA）。

形式上，MRA [12] 是一个变换同步问题，它包括最小化一个代价函数，该函数最小化相对旋转 ̃Rij 和Rj R−1 i的测量值之间的差异。即求解以下目标函数

其中 ρ(· ) 是鲁棒的代价函数，d(·,·) 是距离度量。我们在整篇论文中采用四元数参数化和相应的度量[29]。

3.2.位姿图优化

有了上面定义的 MRA 问题，现在我们准备制定 PGO 过程。让图 G = (V, E) 表示初始视图，其中顶点集 V = {vi|i ≤ n} 表示要估计的相机的绝对方向的集合，边缘集 E = {(i, j)|vi, vj ∈ V} 描述了图像帧之间相对相机方向的成对测量的可用性。在实践中，视图的边缘经常有噪声，这使我们无法直接在 G 上进行 MRA。E有噪声的原因有两个：1）鉴于图像检索中存在不可减少的错误（例如特征匹配），对于基于深度学习的方法 [37, 49] 和传统的几何约束方法 [10, 44，63]，异常值成对的相对测量值很难消除 2）由于多个摄像机可以共享相似的视图，因此视图图往往具有冗余边缘，因此在方程式1中定义的MRA通常是“过度约束”[12]。在我们的工作中，我们通过利用由参数化去噪层融合的“边缘丢弃”方案来处理视图图中的噪声，从而修复和消除噪声/冗余边缘，然后真正可操作地在G的正确子图上进行MRA

4. PoGO-Net 架构

在本节中，我们将详细介绍所提出的 PoGO-Net，如图 1 所示。具体而言，我们首先在第 4.1 节中给出网络架构概述，然后通过在第 4.2 节中介绍我们的图结构和特征嵌入。然后，我们在第 4.3 节中说明了我们的消息聚合方案的新颖结构，其中节点消息和边缘消息都经过有效编码，以收集每个节点附近的所有信息。4.4节描述了我们提出的网络中的去噪层，其中去噪层被设计为与 GNN 层一起迭代执行，以便可以有效地隐式去除异常边缘。在 4.5 和 4.6 中，我们强调了图更新规则和建议的损失函数。

4.1.架构概述

如图 1 所示，我们的 PoGO-Net 将噪声视图作为输入并输出优化的位姿图。由于输入中的相机的绝对方向是未知的，我们通过在具有最高程度（即与大多数节点连接）的节点上播种生成树来初始化节点特征，并借助我们去噪层主动去除异常边缘的帮助在图上传播初始化。该网络具有多层前馈架构，由去噪层和 GNN 层组成。在每次迭代中，去噪层在通过 GNN 层更新聚合消息之前对异常边缘执行“边缘丢弃”方案。PoGO-Net 是完全可微的，并且经过端到端训练，可以联合优化去噪层和 GNN 层。

4.2.特征嵌入

对于输入视图 G = (V, E)，表示相对方向集的边集 E 包含位姿估计所需的大部分基本信息。设̃rij ∈ SO(3), (i, j) ∈ E 表示连接 vi 和 vj 的边的特征向量。由于节点代表未知的相机的绝对方向，让qi ∈ SO(3)，vi ∈ V 代表节点特征。{qi|vi ∈ V} 可以看作是一组特征占位符，在训练过程中以生成树的方式交互初始化，更多细节在 4.5节中给出。

从 E 派生的指示每个节点邻域的二进制矩阵的邻接矩阵 AG与常规 GNN 相比，我们工作中的邻接矩阵由参数化变量形成。具体来说，由 AG 组成的元素的值说明了相应的边缘表示的测量值是否可靠，即，小的值意味着边缘容易出现噪声甚至异常值。AG 参数化的详细信息在 §4.4 中。

图1:PoGO-Net方法示意图。我们提出的网络将噪声视图图作为输入，输出是优化的位姿图。该网络采用具有消息传递方案的多层前馈架构，其中消息在每个节点的连接边和相邻节点上聚合。去噪层旨在去除异常边缘，并与 GNN 层迭代执行。最好以彩色观看

4.3.消息聚合

我们的网络采用多层前馈架构，利用消息传递方案 [53] 实现，即聚合信息在每个节点的邻域内传播。由于节点和边通过网络层交互更新，我们设计了一种新颖的联合消息聚合方案来有效地编码节点消息和边消息。详细地，记为第 l 层节点 vi 的邻域 Nl i = {vj |(i, j) ∈ El}，消息生成如下

其中表示连接，πi 表示节点 vi 的状态。对于 PGO，从与给定相机姿态共享视图的所有相邻相机收集信息是必不可少的，因此我们将 vi 的状态特征与其邻域中的所有连接边缘和节点特征组合在一起。

值得注意的是，由于我们提出的网络能够在训练期间过滤掉异常值/冗余边缘，E 在不同的层中变得更稀疏但更精确（详细信息在第 4.4 节中给出）。节点状态消息的两个组成部分对应于相邻节点的所有连接边。

4.4.图去噪

由于 PoGO-Net 的输入经常存在异常值/冗余边，因此直接将 GNN 应用于 PGO 任务是不切实际的，因为沿边的消息聚合可能会传播和放大整个图上的噪声。在我们提出的网络中，我们通过利用“边缘丢弃”去噪层和 GNN 层来降低噪声，这样边缘和节点会根据 §4.3 中定义的相应消息传递进行交互更新。

具体来说，考虑网络第I层的邻接矩阵 Al G，在我们的网络中，Al G 的元素表示回归中相应边缘特征的权重 ̃rl ij。也就是说，Al G = AG ⊙ Zl，其中 Zl 表示二进制系数矩阵 {zl ij }，⊙表示逐元素乘法运算。在[31, 43, 60]之后，我们将二进制元素 zl ij 从纯二进制放宽为边缘消息ml ̃rij 的确定性函数 g 的值，如方程式3，使得系数是连续的和非二进制的。具体来说，令 εl 是与ml ̃rij无关的均匀分布随机变量，则zl ij定义为

其中

是由 γl 参数化的 MLP。当我们鼓励网络为优化去除边时，我们将 zl ij 的开放域 (0, 1) 扩展到包括 0。将 ul ij 表示为从由边缘消息，即

其中 τ > 0 表示温度参数 [31, 43] 和

是 sigmoid 函数。既然我们要ul ij∈ (a, b) 且 a < 0 且 b > 0，因此我们将ul ij更新为

。现在我们准备将 zl ij 最终确定为

以便启用零值系数。使用上述去噪方案，现在可以有效地从视图中去除噪声边缘，而无需显式检测异常值。在我们提出的网络中，去噪和消息传递是迭代执行的，即输入在每次迭代中通过 GNN 层之前通过去噪层。

图 2：节点初始化。我们的去噪层能够在基于生成树的初始化过程中根据局部一致性过滤掉异常边缘，防止广播错误的测量值

图 3：我们网络中反向传播方案的图示。去噪层根据边缘损失进行更新，而 GNN 参数则根据总损失进行调整。

4.5 图初始化和更新

初始化。回想一下，图形启动配置了节点设置作为节点要素占位符集合，因为在初始化时，输入视图图中的绝对相机方向是未知的（§4.2）。在 PoGO-Net 中，我们通过在视图图 [11, 28] 中播种生成树来初始化节点，即为具有最高度数的节点赋予初始值，然后在其邻域上进行定向广播迭代以广度优先的方式。

尽管具有生成树旋转分布的初始化对于传统方法通常并不鲁棒，因为噪声边缘上的异常值测量值会逐渐传播[4,12,49]，但我们提出的网络通过使用我们的去噪层能够纠正动态的错误的测量，从而限制了异常值的传输。具体来说，去噪层用边缘消息进行参数化，它聚集了“局部边缘一致性”的信息，即异常边缘在其邻域内产生不一致的消息，因此容易被移除（§4.4 ）。图 3 给出了我们初始化过程的说明。

图更新。视图图通过网络层更新边和节点，而节点特征直接参考聚合的节点消息更新，边结构隐含地演变为新兴的邻接矩阵。具体而言，边缘特征与固有的图连接信息一起聚合在边缘消息中。在每次迭代中，在通过更新的局部区域上聚合的边缘消息传递之前，异常边缘被丢弃。

形式上，将 φ(·)、φ(·) 和 μ(·) 分别表示为节点、边和状态的连接的可微 MLP，我们根据规则更新图

4.6 损失函数

损失函数。我们的损失函数由两个部分组成，一个代表边缘损失，另一个代表节点损失。直观地说，边缘损失衡量输出位姿图的全局一致性，节点损失评估相机的绝对方向的预测。分别将 Le 表示为边损失，Lv 表示节点损失，令 Lr 为附加的 l1 正则化损失，对应于关于顶点度的节点权重以及关于邻接系数 zij 的边权重的加权和，则

其中 αe, αv, αr ∈ (0, 1) 是权重参数。准确地说，将groundtruth相机的绝对方向表示为{q∗i}，那么我们有

其中 (ˆ·) 表示输出变量值，∥·∥d 表示对应于 l1 四元数度量 d 的范数。我们的网络是端到端联合训练的，去噪层和 GNN 层参数同时优化。特别是，虽然 GNN 层针对组合总损失进行了调整，但我们强制去噪层训练完全依赖于 Le，因为为去噪而设计的“边缘丢弃”方案是基于边缘的当地区域的一致性。

表 1：7Scenes 数据集 [55] 上的实验结果。结果被直接引用，最好的结果被突出显示。

训练，对于 PoGO-Net 的训练，我们使用 SGD 优化网络参数，其中权重衰减设置为 1e-4，学习率初始化为 1e-3。我们以 64 的批大小训练网络，最大epochs 设置为 300。在我们的实验中，我们使用参数 αe = 0.2，αv = 0.7，αr = 0.1 作为损失函数。§5.1 给出了更多的训练细节。

5. 实验结果

我们的网络使用 SGD 对所有数据集进行端到端训练。这些网络是在 Pytorch 中在具有 8GB 内存的单个 Nvidia GeForce 1080 GPU 上实现的。

数据集和指标。我们针对传统和基于学习的最先进的相机姿势回归方法对多个基准进行了广泛的实验。我们报告中位数和平均角度误差以及实验的运行时间。对于无法获得相对相机姿势测量的数据集，初始视图图是通过手动运行传统的最先进的SfM系统VisualSfM [68，69]给出的高斯噪声（μ = 20◦，σ = 5◦）添加到初始化视图的边缘。

ScanNet [15] 是一个 RGB-D 视频数据集，包含超过 1500 次室内扫描的 250 万个视图，groundtruth 包括相机的绝对方向（由 [16] 给出）、三角表面和语义分割。The Cambridge dataset [33] 包含超过 12000 张具有真实相机的绝对方向的图像，在剑桥大学周围的 6 个户外场景中拍摄。由于存在大量移动物体和不断变化的闪电条件，该数据集具有挑战性。7 Scenes [55] 由 7 个相对较小的室内场景组成，由 Kinect RGB-D 相机跟踪。虽然与其他数据集相比，少于 10K 图像的数据集规模较小，但由于场景中存在各种无纹理对象，因此视图图具有很高的噪声，因此具有挑战性。The Photo Tourism datasets [65] 是 19 个户外场景的大型集合，具有超过 5k 的视图和多个数据集上超过 200K 的相对测量值。

基线。我们将 PoGO-Net 的性能与传统和基于学习的最先进方法进行比较，以证明所提出网络的效率和鲁棒性。在这些方法中，IRLS [11]、IRLS-Robust [12]、Weiszfeld [28]、Arrigoni [4]、DISCO [14]、CEMP [39]、MPLS [54]和Wang [63]是传统的MRA-PGO方法。基于学习的方法包括 RelocNet [5]、LsG [71]、MapNet [8]、PoseNet15 [33]、PoseNet17 [32]、PoseNet+LSTM [62]、CNN+GNN [72] 和 NeuRoRA [49] .

5.1 实施细节

对于 PoGO-Net 的训练，我们采用了没有 dropout 的 SGD 优化器。为了防止 GNN 的“过度平滑”，我们使用 l1 正则化在批次（大小 = 64）内进行随机洗牌。主干网络采用原始的 GNN [53]。我们根据数据集的传统拆分训练 PoGO-Net，学习率从 1e-3 开始并降低到 1e-5。视图完全使用传统的生成树方法初始化，容易对广播错误的边缘测量。因此，我们通过在前 10% 的训练数据上将边缘损失 Le（即局部边缘一致性）的权重设置得稍高（αe = 0.35）来解决去噪层参数调整问题。损失分量权重参数设置为 αv = 0.7，αe = 0.2，αr = 0.1，用于所有数据集的训练。尽管我们将最大 epoch 设置为 300，但我们已经观察到，在我们的实验中，验证错误和测试错误的丢弃在 150-230 epoch 左右终止。

5.2.性能比较

7 Scenes。我们首先在7 Scenes数据集上将 PoGO-Net 与最近最先进的基于学习的 PGO 方法进行比较，定量结果如表 1 所示。可以看出，PoGO-Net 在大多数场景上都取得了最好的效果，其中在 Fire 和 Heads 数据集上 PoGO-Net 的性能大大优于其他方法。在 Pumpkin 和 Stairs 数据集上，PoGO-Net 略逊于以前的方法。考虑到这两个场景都拥有大量具有重复图案和无纹理表面的视图，错误的主要因素源于噪声极大的图像检索，即错误的特征提取和匹配导致初始视图在大多数边缘上严重损坏。

表 2：剑桥数据集 [33] 上的实验结果。结果被直接引用，最好的结果被突出显示。

请注意，[5] 和 [72] 都使用了 ResNet [30] 特征提取器，与我们在图像检索阶段用于初始视图图生成的传统方法 VisualSfM 相比，它更加鲁棒。

剑桥数据集。在剑桥数据集的实验中，我们通过对不同数据集的训练证明了 PoGO-Net 的可迁移性。结果在表 2 中给出。具体来说，我们在剑桥数据集上记录了可比较的测试结果，PoGO-Net 仅在 7Scenes [55]、ScanNet [15] 和 Photo Tourism [65] 数据集上单独训练。我们最终报告了在剑桥数据集上进行训练和测试的性能，我们的 PoGO-Net 在大多数场景中都表现出显着的优势，进一步证明了网络在大规模户外场景中的鲁棒性。请注意，没有为 PoseNet15 [33] 和 PoseNet+LSTM [62] 提供 Trinity Great Court 和 Street 的数据，两种方法的平均误差基于左侧四个场景的结果。

表 3：ScanNet 数据集 [15] 上的实验结果。结果基于 5 次常规方法运行。平均运行时间在 CPU 上进行评估。

ScanNet。然后，我们针对传统的最先进方法测试 PoGO-Net 的性能。具体来说，我们记录了角度误差和运行时间，以证明 PoGO-Net 与传统 MRA-PGO 方法相比的准确性和效率。我们还包括 NeuRoRA [49] 报告的结果，这是一个基于 GNN 的 MRA 框架，具有两个子网络。请注意，NeuRoRA 是使用作者捕获的合成数据集进行预训练的，CleanNet 和 Fine-tuning 网络是分开训练的，而 PoGO-Net 是在没有预调参数的情况下端到端训练的。我们引用 [49] 中针对 NeuRoRA 报告的结果，我们执行常规方法并报告 5 次运行平均值，结果如表 3 所示。可以看出，POGO-NET在准确性和速度上都大大优于以前的方法。

图 4：对分布到 a) 10% b) 20% 视图边缘的噪声的不同去噪层设置的研究。

Tourism。与 ScanNet 上的实验类似，照片旅游数据集 [65] 上实验的角度误差和运行时间在表 4 中报告。我们部分引用了 [4, 12, 49] 中的结果。可以观察到，PoGO-Net 在大部分场景中都取得了最好的效果。在具有大规模视图图的数据集（例如 Piccadilly）上，PoGO-Net 通过比传统方法快 400 倍来证明其效率，并且与基于学习的 NeuroRA 相比快近 2 倍。补充材料中提供了完整的结果和更多的实验分析。

5.3 消融研究

为了研究去噪层的效果，我们对 7Scenes 数据集和 PoGO-Net 的几种变体进行了消融研究。详细地，我们用 0%、30%、50% 的数量重新训练网络原始 PoGO-Net 中的去噪层，并在测试集上测试它们，并在视图图中随机选择的边缘上添加额外的噪声（从 1° 到 10°）。准确度图如图 4 所示 . 在去噪层设置为 0% 的情况下，使用生成树方案初始化视图图中的节点非常困难，因为边缘误差在图上严重传播。因此，在 GNN 的实验中- 唯一的变化，我们首先通过强制循环标识[49]手动过滤掉视图图中随机选择的循环中的异常边缘。可以看出，尽管具有较少去噪层的网络可以工作但与原来相比，它产生的准确率要低得多。此外，值得注意的是，尽管噪声水平不断增加，PoGO-Net 的准确性仍保持稳定，进一步证明了网络的鲁棒性。补充材料中提供了关于去噪层效应的完整研究

表 4：Tourism Dataset的实验结果 [65]。我们报告 CPU 上的角度误差 (◦) 和运行时间 (s)。突出显示最佳结果。完整的结果在补充材料中给出

5.4 讨论和未来工作

为了进一步证明 PoGO-Net 的泛化能力，我们在 KITTI Odometry [23] 上对其进行了测试，并将其与最先进的 SLAM 方法 ORB-SLAM [47] 集成。评估和分析在补充材料中给出。观察到 PoGO-Net 实现了高精度的实时性能，进一步验证了 PoGO-Net 扩展到完整 SfM/SLAM 系统的潜力。虽然准确的 MRA，特别是与基于图形的公式相结合，是紧凑和轻量级的，可以有效地解决 PGO，但扩展用于 SE(3) 回归的 PoGO-Net 既不是直接的也不是微不足道的。尽管如此，我们仍然相信，特征子网的采用赋予了完整的位姿估计，使得旋转和平移可以在图形形式中共同优化。

6. 结论

在这项工作中，我们提出了一种由 GNN 推动的新型 PGO 方案，即 PoGO-Net，以利用 MRA 进行相机的绝对位姿回归。PoGO-Net 将嘈杂的视图作为输入，其中节点和边被设计为对成对的几何约束进行编码，并与局部图的一致性进行聚合。为了解决向鲁棒的 MRA-GNN 方法去除异常边缘的问题，我们通过在噪声或损坏的边缘上利用边缘丢弃方案来设计去噪层，这些边缘被参数化网络有效地过滤掉。我们的联合损失函数嵌入了 MRA 公式，支持端到端训练，从而同时优化去噪层和 GNN 层的参数。多个基准的广泛实验证明了 PoGO-Net 的准确性、效率和鲁棒性。

参考文献

[1] S. Agarwal, K. Mierle, and Others.Ceres solver.http: //ceres-solver.org.

[2] A. M. Andrew.Multiple view geometry in computer vision.Kybernetes, 2001.

[3] F. Arrigoni and A. Fusiello.Synchronization problems in computer vision with closed-form solutions.International Journal of Computer Vision (IJCV), 128(1):26–52, 2020.

[4] F. Arrigoni, B. Rossi, P. Fragneto, and A. Fusiello.Robust synchronization in so (3) and se (3) via low-rank and sparse matrix decomposition.Computer Vision and Image Under- standing, 174:95–113, 2018.

[5] V. Balntas, S. Li, and V. Prisacariu.Relocnet: Continuous metric learning relocalisation using neural nets.In European Conference on Computer Vision (ECCV), 2018.

[6] U. Bhattacharya and V. M. Govindu.Efficient and robust reg- istration on the 3d special euclidean group.In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2019.

[7] T. Birdal, M. Arbel, U. Simsekli, and L. J. Guibas.Synchro- nizing probability measures on rotations via optimal trans- port.In Proceedings of the IEEE Computer Society Confer- ence on Computer Vision and Pattern Recognition (CVPR), 2020.

[8] S. Brahmbhatt, J. Gu, K. Kim, J. Hays, and J. Kautz.Geometry-aware learning of maps for camera localization.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

[9] A. P. Bustos, T.-J.Chin, A. Eriksson, and I. Reid.Visual slam: Why bundle adjust?In Proceedings of the IEEE In- ternational Conference on Robotics and Automation (ICRA), 2019.

[10] L. Carlone, R. Tron, K. Daniilidis, and F. Dellaert.Initializa- tion techniques for 3d slam: a survey on rotation estimation and its use in pose graph optimization.In Proceedings of the IEEE International Conference on Robotics and Automation (ICRA), 2015.

[11] A. Chatterjee and V. M. Govindu.Efficient and robust large- scale rotation averaging.In Proceedings of the IEEE Inter- national Conference on Computer Vision (ICCV), 2013.

[12] A. Chatterjee and V. M. Govindu.Robust relative rotation averaging.IEEE Transactions on Pattern Analysis and Ma- chine Intelligence (T-PAMI), 40(4), 2017.

[13] R. Clark, S. Wang, A. Markham, N. Trigoni, and H. Wen.VidLoc: A deep spatio-temporal model for 6-dof video-clip relocalization.In Proceedings of the IEEE Computer Soci- ety Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[14] D. Crandall, A. Owens, N. Snavely, and D. Huttenlocher.Discrete-continuous optimization for large-scale structure from motion.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011.

[15] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner.ScanNet: Richly-annotated 3d reconstruc- tions of indoor scenes.In Proceedings of the IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR), 2017.

[16] A. Dai, M. Nießner, M. Zollh ̈ofer, S. Izadi, and C. Theobalt.Bundlefusion: Real-time globally consistent 3d reconstruc- tion using on-the-fly surface reintegration.ACM Transac- tions on Graphics (ToG), 36(4):1, 2017.

[17] F. Dellaert, D. M. Rosen, J. Wu, R. Mahony, and L. Car- lone.Shonan rotation averaging: Global optimality by surf- ing SO(p)n.In European Conference on Computer Vision (ECCV).Springer, 2020.

[18] M. Ding, Z. Wang, J. Sun, J. Shi, and P. Luo.Camnet: Coarse-to-fine retrieval for camera re-localization.In Pro- ceedings of the IEEE International Conference on Computer Vision (ICCV), 2019.

[19] J. Engel, T. Sch ̈ops, and D. Cremers.Lsd-slam: Large-scale direct monocular slam.In European conference on computer vision (ECCV).Springer, 2014.

[20] A. Eriksson, C. Olsson, F. Kahl, and T.-J.Chin.Rotation averaging with the chordal distance: Global minimizers and strong duality.IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 43(1):256–268, 2019.

[21] M. A. Fischler and R. C. Bolles.Random sample consen- sus: a paradigm for model fitting with applications to image analysis and automated cartography.Communications of the ACM, 24(6):381–395, 1981.

[22] R. Garg, V. K. Bg, G. Carneiro, and I. Reid.Unsupervised CNN for single view depth estimation: Geometry to the res- cue.In European Conference on Computer Vision (ECCV).Springer, 2016.

[23] A. Geiger, P. Lenz, and R. Urtasun.Are we ready for au- tonomous driving?the KITTI vision benchmark suite.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012.

[24] S. Gidaris and N. Komodakis.Generating classification weights with GNN denoising autoencoders for few-shot learning.In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[25] Z. Gojcic, C. Zhou, J. D. Wegner, L. J. Guibas, and T. Birdal.Learning multiview 3d point cloud registration.In Proceed- ings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[26] V. M. Govindu.Combining two-view constraints for mo- tion estimation.In Proceedings of the IEEE Computer Soci- ety Conference on Computer Vision and Pattern Recognition (CVPR), 2001.

[27] G. Grisetti, R. K ̈ummerle, H. Strasdat, and K. Konolige.g2o: A general framework for (hyper) graph optimization.In Pro- ceedings of the IEEE International Conference on Robotics and Automation (ICRA), 2011.

[28] R. Hartley, K. Aftab, and J. Trumpf.L1 rotation averaging using the Weiszfeld algorithm.In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pat- tern Recognition (CVPR), 2011.

[29] R. Hartley, J. Trumpf, Y. Dai, and H. Li.Rotation averag- ing.International Journal of Computer Vision (IJCV), 103 (3), 2013.

[30] K. He, X. Zhang, S. Ren, and J. Sun.Deep residual learning for image recognition.In Proceedings of the IEEE Confer- ence on Computer Vision and Pattern Recognition (CVPR), 2016.

[31] E. Jang, S. Gu, and B. Poole.Categorical reparameterization with gumbel-softmax.International Conference on Learning Representations (ICLR), 2017.

[32] A. Kendall and R. Cipolla.Geometric loss functions for cam- era pose regression with deep learning.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recogni- tion (CVPR), 2017.

[33] A. Kendall, M. Grimes, and R. Cipolla.PoseNet: A convolu- tional network for real-time 6-dof camera relocalization.In Proceedings of the IEEE International Conference on Com- puter Vision (ICCV), 2015.

[34] T. N. Kipf and M. Welling.Semi-supervised classification with graph convolutional networks.International Confer- ence on Learning Representations (ICLR), 2017.

[35] G. Klein and D. Murray.Parallel tracking and mapping for small ar workspaces.In IEEE and ACM International Sym- posium on Mixed and Augmented Reality (ISMAR), 2007.

[36] M. Klodt and A. Vedaldi.Supervising the new with the old: learning sfm from sfm.In Proceedings of the European Con- ference on Computer Vision (ECCV), 2018.

[37] Z. Laskar, I. Melekhov, S. Kalia, and J. Kannala.Camera re- localization by computing pairwise relative poses using con- volutional neural network.In Proceedings of the IEEE Inter- national Conference on Computer Vision Workshops, 2017.

[38] S. H. Lee and J. Civera.Robust single rotation averaging.Computing Research Repository (CoRR), 2020.

[39] G. Lerman and Y. Shi.Robust group synchroniza- tion via cycle-edge message passing.arXiv preprint arXiv:1912.11347, 2019.

[40] X. Li and H. Ling.Hybrid camera pose estimation with on- line partitioning for SLAM.IEEE Robotics and Automation Letters (RA-L), 5(2):1453–1460, 2020.

[41] C. Louizos, M. Welling, and D. P. Kingma.Learning sparse neural networks through l 0 regularization.International Conference on Learning Representations (ICLR), 2018.

[42] M. I. Lourakis and A. A. Argyros.Sba: A software package for generic sparse bundle adjustment.ACM Transactions on Mathematical Software (TOMS), 36(1):1–30, 2009.

[43] D. Luo, W. Cheng, W. Yu, B. Zong, J. Ni, H. Chen, and X.Zhang.Learning to drop: Robust graph neural network via topological denoising.Web Search and Data Mining (WSDM), 2021.

[44] D. Martinec and T. Pajdla.Robust rotation and translation estimation in multiview reconstruction.In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2007.

[45] J. J. Mor ́e.The Levenberg-Marquardt algorithm: implemen- tation and theory.Numerical analysis, pages 105–116, 1978.

[46] P. Moulon, P. Monasse, and R. Marlet.Global fusion of rela- tive motions for robust, accurate and scalable structure from motion.In Proceedings of the IEEE International Confer- ence on Computer Vision (ICCV), 2013.

[47] R. Mur-Artal, J. M. M. Montiel, and J. D. Tardos.Orb-slam: a versatile and accurate monocular slam system.IEEE Trans- actions on Robotics (T-RO), 31(5):1147–1163, 2015.

[48] M. J. Powell.A new algorithm for unconstrained optimiza- tion.In Nonlinear programming, pages 31–65.Elsevier, 1970.

[49] P. Purkait, T.-J.Chin, and I. Reid.Neurora: Neural robust rotation averaging.In European Conference on Computer Vision (ECCV).Springer, 2020.

[50] R. Raguram, O. Chum, M. Pollefeys, J. Matas, and J.-M.Frahm.Usac: a universal framework for random sample con- sensus.IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 35(8):2022–2038, 2012.

[51] Y. Rong, W. Huang, T. Xu, and J. Huang.Dropedge: To- wards deep graph convolutional networks on node classifica- tion.International Conference on Learning Representations (ICLR), 2020.

[52] T. Sattler, Q. Zhou, M. Pollefeys, and L. Leal-Taixe.Under- standing the limitations of cnn-based absolute camera pose regression.In Proceedings of the IEEE Computer Soci- ety Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[53] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini.The graph neural network model.IEEE Transactions on Neural Networks, 20(1):61–80, 2008.

[54] Y. Shi and G. Lerman.Message passing least squares frame- work and its application to rotation synchronization.Pro- ceedings of the International Conference on Machine Learn- ing (ICML), 2020.

[55] J. Shotton, B. Glocker, C. Zach, S. Izadi, A. Criminisi, and A. Fitzgibbon.Scene coordinate regression forests for cam- era relocalization in rgb-d images.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recog- nition (CVPR), 2013.

[56] N. Snavely, S. M. Seitz, and R. Szeliski.Skeletal graphs for efficient structure from motion.In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2008.

[57] C. Tang and P. Tan.BA-Net: Dense bundle adjustment net- works.In International Conference on Learning Represen- tations (ICLR), 2018.

[58] B. Triggs, P. F. McLauchlan, R. I. Hartley, and A. W. Fitzgib- bon.Bundle adjustment—a modern synthesis.In Inter- national Workshop on Vision Algorithms, pages 298–372.Springer, 1999.

[59] A. Valada, N. Radwan, and W. Burgard.Deep auxiliary learning for visual localization and odometry.In Proceed- ings of the IEEE International Conference on Robotics and Automation (ICRA), 2018.

[60] P. Veliˇckovi ́c, G. Cucurull, A. Casanova, A. Romero, P. Lio, and Y. Bengio.Graph attention networks.International Con- ference on Learning Representations (ICLR), 2018.

[61] S. Vijayanarasimhan, S. Ricco, C. Schmid, R. Sukthankar, and K. Fragkiadaki.Sfm-net: Learning of structure and mo- tion from video.arXiv preprint arXiv:1704.07804, 2017.

[62] F. Walch, C. Hazirbas, L. Leal-Taixe, T. Sattler, S. Hilsen- beck, and D. Cremers.Image-based localization using lstms for structured feature correlation.In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017.

[63] L. Wang and A. Singer.Exact and stable recovery of rota- tions for robust synchronization.Information and Inference: A Journal of the IMA, 2(2):145–193, 2013.

[64] R. W. Wedderburn.Quasi-likelihood functions, generalized linear models, and the gauss—newton method.Biometrika, 61(3):439–447, 1974.

[65] K. Wilson and N. Snavely.Robust global translations with 1dsfm.In European Conference on Computer Vision (ECCV).Springer, 2014.

[66] K. Wilson, D. Bindel, and N. Snavely.When is rotations av- eraging hard?In European Conference on Computer Vision (ECCV).Springer, 2016.

[67] C. Wu.Towards linear-time incremental structure from mo- tion.In International Conference on 3D Vision (3DV).IEEE, 2013.

[68] C. Wu, S. Agarwal, B. Curless, and S. M. Seitz.Multicore bundle adjustment.In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recog- nition (CVPR), 2011.

[69] C. Wu et al.Visualsfm: A visual structure from motion sys- tem.2011.

[70] K. Xu, W. Hu, J. Leskovec, and S. Jegelka.How powerful are graph neural networks?International Conference on Learning Representations (ICLR), 2019.

[71] F. Xue, X. Wang, Z. Yan, Q. Wang, J. Wang, and H. Zha.Local supports global: Deep camera relocalization with se- quence enhancement.In Proceedings of the IEEE Interna- tional Conference on Computer Vision (ICCV), 2019.

[72] F. Xue, X. Wu, S. Cai, and J. Wang.Learning multi-view camera relocalization with graph neural networks.In Pro- ceedings of the IEEE Computer Society Conference on Com- puter Vision and Pattern Recognition (CVPR), 2020.

[73] L. Zhao and L. Akoglu.PairNorm: Tackling oversmoothing in gnns.In International Conference on Learning Represen- tations (ICLR), 2019.

本文仅做学术分享，如有侵权，请联系删文。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-05-02，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自 3D视觉工坊微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

神经网络

PoGO-Net：使用图神经网络进行姿势图优化（ICCV 2021）

PoGO-Net：使用图神经网络进行姿势图优化（ICCV 2021）

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐