视觉定位的最佳选择：随机森林还是神经网络？

文章来源：企鹅号 - 泡泡机器人SLAM

每天一分钟，带你读遍机器人顶级会议文章

标题：Random Forests versus Neural Networks − What is Best for CameraLocalization

作者：Daniela Massiceti, Alexander Krull, Eric Brachmann Carsten Rother and Philip H.S. Torr

来源：ICRA2017

播音员：清蒸鱼

编译：赵博欣

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

今天介绍的文章是“Random Forests versus Neural Networks − What is Best for CameraLocalization”——视觉定位的最佳选择：随机森林还是神经网络？，该文章发表在ICRA2017。

本文主要解决在三维已知场景中给定单幅RGB图像的条件下，对摄像头进行定位的问题。目前解决这类问题最先进的方法主要分两步完成：首先，计算图像中每个像素在三维场景中的坐标，然后利用这些坐标信息通过RANSAC算法估算摄像头的6D位姿。在第一步中目前主要采用随机森林（RFs）分类器，而另一方面，针对密集型像素坐标回归，很多作者会采用神经网络（NNs）方法，但这类方法测试时间较长。

图1 所谓场景坐标回归：给定一个已知的场景（图（上）），其中每个表面点都有唯一的三维坐标（在图中显示为一个特定的颜色），目标是相对于这个场景来定位摄像机。为了实现这一点，需要对一幅输入的RGB图像中的每个像素预测其三维场景坐标，这个过程即为场景坐标回归（图（下）中现实场景的黑色像素表示未知的场景坐标）。

那么问题来了：这两个方法中哪一个更适用于摄像头的定位计算？针对这个问题，本文做了以下两个贡献：（1）从RF中推导并初始化了一个时间高效的NN架构，本文称之为ForestNet（森林网络）。（2）针对场景坐标回归，本文提出了一个新的完全可微的鲁邦平均方法，该方法可通过神经网络进行端到端训练。实验结果表明，对于场景坐标重构，传统神经网络框架优于测试时间高效的RFs和ForestNets，然而，在最后的6D位姿估计精确度方面，RFs和ForestNets的性能更好。

图2 将ForestNet用于摄像头定位的训练（黄色）和测试（蓝色）的流程。（1）利用已知3D场景训练RF。（2）通过RF到NN映射来将训练好的RF转化成一个并行树状网络集，本文统称为ForestNet。利用一个附加的鲁邦平均模块将原始训练数据的子集用来对ForestNet进行微调，这个模块可以附加并整合到网络训练中。在测试阶段，从RGB测试图像中采集一组稀疏像素，然后通过ForestNet获得一组三维场景坐标。（3）将获得的场景坐标传递给RANSAC优化器[2]，该优化器能够生成并优化一系列可能的摄像头位姿，直到找到一组最优值。GT=真实场景坐标，为了更好的显示，图中用彩色显示。

总而言之，通过场景数据库测试发现，本文提出的带有鲁邦平均的ForestNet，是一个相当快速的RF，其性能超越了目前现有的其他摄像头定位方法。虽然本文工作主要面向摄像头定位中的场景坐标重构，但我们提出的创新点也可以应用于其他连续回归任务。

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号。

发表于: 2017-12-132017-12-13 06:30:19
原文链接：http://kuaibao.qq.com/s/20171213A028WZ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

视觉定位的最佳选择：随机森林还是神经网络？

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐