视觉定位的最佳选择:随机森林还是神经网络?

每天一分钟,带你读遍机器人顶级会议文章

标题:Random Forests versus Neural Networks − What is Best for CameraLocalization

作者:Daniela Massiceti, Alexander Krull, Eric Brachmann Carsten Rother and Philip H.S. Torr

来源:ICRA2017

播音员:清蒸鱼

编译:赵博欣

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

今天介绍的文章是“Random Forests versus Neural Networks − What is Best for CameraLocalization”——视觉定位的最佳选择:随机森林还是神经网络?,该文章发表在ICRA2017。

本文主要解决在三维已知场景中给定单幅RGB图像的条件下,对摄像头进行定位的问题。目前解决这类问题最先进的方法主要分两步完成:首先,计算图像中每个像素在三维场景中的坐标,然后利用这些坐标信息通过RANSAC算法估算摄像头的6D位姿。在第一步中目前主要采用随机森林(RFs)分类器,而另一方面,针对密集型像素坐标回归,很多作者会采用神经网络(NNs)方法,但这类方法测试时间较长。

图1 所谓场景坐标回归:给定一个已知的场景(图(上)),其中每个表面点都有唯一的三维坐标(在图中显示为一个特定的颜色),目标是相对于这个场景来定位摄像机。为了实现这一点,需要对一幅输入的RGB图像中的每个像素预测其三维场景坐标,这个过程即为场景坐标回归(图(下)中现实场景的黑色像素表示未知的场景坐标)。

那么问题来了:这两个方法中哪一个更适用于摄像头的定位计算?针对这个问题,本文做了以下两个贡献:(1)从RF中推导并初始化了一个时间高效的NN架构,本文称之为ForestNet(森林网络)。(2)针对场景坐标回归,本文提出了一个新的完全可微的鲁邦平均方法,该方法可通过神经网络进行端到端训练。实验结果表明,对于场景坐标重构,传统神经网络框架优于测试时间高效的RFs和ForestNets,然而,在最后的6D位姿估计精确度方面,RFs和ForestNets的性能更好。

图2 将ForestNet用于摄像头定位的训练(黄色)和测试(蓝色)的流程。(1)利用已知3D场景训练RF。(2)通过RF到NN映射来将训练好的RF转化成一个并行树状网络集,本文统称为ForestNet。利用一个附加的鲁邦平均模块将原始训练数据的子集用来对ForestNet进行微调,这个模块可以附加并整合到网络训练中。在测试阶段,从RGB测试图像中采集一组稀疏像素,然后通过ForestNet获得一组三维场景坐标。(3)将获得的场景坐标传递给RANSAC优化器[2],该优化器能够生成并优化一系列可能的摄像头位姿,直到找到一组最优值。GT=真实场景坐标,为了更好的显示,图中用彩色显示。

总而言之,通过场景数据库测试发现,本文提出的带有鲁邦平均的ForestNet,是一个相当快速的RF,其性能超越了目前现有的其他摄像头定位方法。虽然本文工作主要面向摄像头定位中的场景坐标重构,但我们提出的创新点也可以应用于其他连续回归任务。

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171213A028WZ00?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区