CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Representing 3D sparse map points and lines for camera relocalization
标题:表示 3D 稀疏地图点和线以进行相机重新定位
作者:Bach-Thuan Bui, Huy-Hoang Bui, Dinh-Tuan Tran, Joo-Ho Lee
文章链接:https://arxiv.org/abs/2402.18011
项目代码:https://thpjp.github.io/pl2map/
摘要:
视觉定位和地图绘制的最新进展在集成点和线特征方面取得了相当大的成功。然而,扩展本地化框架以包含额外的映射组件经常会导致对专用于匹配任务的内存和计算资源的需求增加。在这项研究中,我们展示了轻量级神经网络如何学习表示 3D 点和线特征,并通过利用多个学习映射的力量来展示领先的姿势准确性。具体来说,我们利用单个转换器块来编码线特征,有效地将它们转换为独特的点状描述符。随后,我们将这些点和线描述符集视为不同但相互关联的特征集。通过在多个图层中集成自注意力和交叉注意力,我们的方法在使用两个简单的 MLP 回归 3D 地图之前有效地细化每个特征。在综合实验中,我们的室内定位结果在基于点和线辅助配置方面均超过了 Hloc 和 Limap。此外,在户外场景中,我们的方法取得了显着的领先优势,标志着与最先进的基于学习的方法相比的最显着的增强。
2.VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction
(CVPR 2024)
标题:VastGaussian:用于大型场景重建的 Vast 3D 高斯
作者:Jiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang
文章链接:https://arxiv.org/abs/2402.17427
项目代码:https://vastgaussian.github.io/
摘要:
现有的基于 NeRF 的大场景重建方法通常在视觉质量和渲染速度方面存在局限性。虽然最近的 3D 高斯溅射在小规模和以对象为中心的场景中效果很好,但由于视频内存有限、优化时间长和明显的外观变化,将其扩展到大型场景会带来挑战。为了应对这些挑战,我们提出了 VastGaussian,这是第一个基于 3D 高斯分布在大型场景上进行高质量重建和实时渲染的方法。我们提出了一种渐进式分区策略,将大场景划分为多个单元,其中训练摄像机和点云按照空域感知可见性标准正确分布。这些单元经过并行优化后合并成一个完整的场景。我们还将解耦外观建模引入优化过程中,以减少渲染图像中的外观变化。我们的方法优于现有的基于 NeRF 的方法,并在多个大型场景数据集上实现了最先进的结果,从而实现了快速优化和高保真实时渲染。
3.NARUTO: Neural Active Reconstruction from Uncertain Target Observations
标题:NARUTO:从不确定目标观察中进行神经主动重建
作者:\Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans
文章链接:https://arxiv.org/abs/2402.18771
摘要:
我们推出了 NARUTO,一种神经主动重建系统,它将混合神经表示与不确定性学习相结合,从而实现高保真表面重建。我们的方法利用多分辨率哈希网格作为映射主干,选择它是因为其卓越的收敛速度和捕获高频局部特征的能力。我们工作的核心是结合不确定性学习模块,该模块动态量化重建不确定性,同时积极开展环境改造。通过利用学习到的不确定性,我们提出了一种新颖的不确定性聚合策略,用于目标搜索和有效的路径规划。我们的系统通过针对不确定的观测进行自主探索,并以卓越的完整性和保真度重建环境。我们还通过主动射线采样策略增强 SOTA 神经 SLAM 系统,展示了这种不确定性感知方法的实用性。使用室内场景模拟器对 NARUTO 在各种环境中进行的广泛评估证实了其在主动重建方面的卓越性能和最先进的状态,其在 Replica 和 MP3D 等基准数据集上令人印象深刻的结果就证明了这一点。