首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论文简述 | Voxel Map for Visual SLAM

在现代视觉SLAM系统中,从关键帧中检索候选地图点是一种标准做法,用于进一步的特征匹配或直接跟踪.在这项工作中,我们认为关键帧不是这项任务的最佳选择,因为存在几个固有的限制,如弱几何推理和较差的可扩展性.我们提出了一种体素图表示来有效地检索视觉SLAM的地图点.通过以光线投射方式对摄像机frustum进行采样来查询来自摄像机姿态的可见点,这可以使用有效的体素散列方法在恒定时间内完成.与关键帧相比,使用我们的方法检索的点在几何上保证落在摄像机的视野内,并且遮挡点可以在一定程度上被识别和去除.这种方法也很自然地适用于大场景和复杂的多摄像机配置.实验结果表明,我们的体素图与具有5个关键帧的关键帧图一样有效,并且在EuRoC数据集上提供了显著更高的定位精度(在RMSE平均提高46%),所提出的体素图表示是视觉SLAM中基本功能的一般方法,并且可广泛应用.

02
您找到你想要的搜索结果了吗?
是的
没有找到

NeurIPS2022的Spotlight文章,性能超出当前SOTA的神经隐式表面重建方法20%

近年来,通过基于体渲染技术的神经隐式表面学习来实现多视图三维重建成为计算机三维视觉领域研究的热点。然而,目前仍然存在一个关键性问题亟待解决:现有的方法缺乏明确的多视图几何约束,因此通常无法实现几何一致的三维重建。为了应对这一问题,我们提出了一种几何一致的神经隐式多视图三维重建算法。首先,我们从理论上分析了基于积分的体渲染技术和基于空间点的符号距离函数(SDF)建模之间存在着固有偏差。为了消除这一偏差,我们直接定位到SDF网络的零测度集,并通过利用来自运动恢复结构(SFM)的稀疏三维信息和多视图立体视觉(MVS)中的光度一致性约束来显式地对表面进行多视图几何优化。这保证了我们的符号距离函数优化无偏,并使得多视图几何约束聚焦于真正表面的优化。大量实验表明,我们提出的方法在复杂的精细结构和大范围的平滑区域都实现了高质量的三维重建,从而在性能上大大优于现有技术。

01

ECCV 2022 | VisDB:基于学习的密集人体鲁棒估计

从单目图像估计 3D 人体姿势和形状是动作重定向、虚拟化身和人类动作识别等各种应用的关键任务。这是一个具有根本挑战性的问题,因为深度模糊和人类外表的复杂性会随着关节、衣服、照明、视角和遮挡而变化。为了通过紧凑的参数表示复杂的 3D 人体,诸如 SMPL 之类的基于模型的方法已在社区中得到广泛使用。然而,SMPL 参数以整体方式表示人体,导致通过直接它们的参数无法灵活适应真实世界图像。更重要的是,当人体在图像中不完全可见时,基于回归的方法往往会失败,例如,被遮挡或在框架外。在这项工作中,作者的目标是学习与输入图像并且对部分身体情况具有鲁棒性的人体估计。

02

基于深度学习的语义分割技术总览

用卷积神经网络分类(全卷积网络FCN),与普通CNN网络不通的是,FCN的分类层是卷积层,普通网络为全连接层。方法介绍如下:  最近的语义分割架构一般都用卷积神经网络(CNN)为每个像素分配一个初始类别标签。卷积层可以有效地捕捉图像中的局部特征,并以层级的方式将许多这样的模块嵌套在一起,这样 CNN 就可以试着提取更大的结构了。通过一系列卷积捕捉图像的复杂特征,CNN 可以将一张图的内容编码为紧凑表征。  但为了将单独的像素映射给标签,我们需要将标准 CNN 编码器扩展为编码器-解码器架构。在这个架构中,编码器使用卷积层和池化层将特征图尺寸缩小,使其成为更低维的表征。解码器接收到这一表征,用通过转置卷积执行上采样而「恢复」空间维度,这样每一个转置卷积都能扩展特征图尺寸。在某些情况下,编码器的中间步骤可用于调优解码器。最终,解码器生成一个表示原始图像标签的数组。

02
领券