前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >FCGF-基于稀疏全卷积网络的点云特征描述子提取(ICCV2019)

FCGF-基于稀疏全卷积网络的点云特征描述子提取(ICCV2019)

作者头像
3D视觉工坊
修改2020-12-03 11:36:34
5350
修改2020-12-03 11:36:34
举报
文章被收录于专栏:3D视觉从入门到精通
概要

论文: Fully Convolutional Geometric Features

标签: ICCV 2019; feature, match, registration

作者: Christopher Choy,Jaesik Park, Vladlen Koltun

机构: Stanford University, POSTECH, Intel Labs

论文、代码地址:在公众号「3D视觉工坊」,后台回复「ICCV2019」,即可直接下载。

从点云中提取几何特征是配准、重建、跟踪等应用的第一步。SOTA的方法往往需要计算底层特征作为输入或者提取基于patch的有限感受野的特征。在本论文中,作者提出了FCGF(Fully-Convolutional Geometric Features),它通过全卷积网络一次计算得到点云特征;作者还提出了新的度量学习损失,可以显著提升性能。FCGF是紧凑的,同时捕获了广泛的空间上下文,并可扩展到大型场景。论文中在室内数据集和室外数据集均进行了验证,FCGF在不需要预处理时达到了SOTA精度,同时比其它精确的办法快600倍,而且结构是紧凑的(32维)。

一、论文的出发点和贡献

在许多点云配准、跟踪和场景流估计(scene flow estimation)任务中,寻找几何点对应(geometric correspondences)关系是一个关键的步骤。因此,大量的工作集中在设计具有区分性的3D特征,进而建立对应关系。

早期的3D特征描述主要依赖于人工设计的特征描述子,如SHOT、FPH和FPFH等,这些局部描述子可以区分局部几何特征。最近,注意力逐渐转向了基于深度学习的三维特征,比如PPF-FoldNet(ECCV 2018),PPFNet(CVPR 2018)和3DFeat-Net(ECCV 2018)等。之前的这些工作中存在一些问题:

  • 提取小的3D patch,将其映射到低维空间。这不仅限制了感受野,而且计算效率也很低,因为即使对于重叠的三维区域,网络的中间表示也都是单独计算的。
  • 使用昂贵的底层几何特征作为输入降低了特征计算的速度。
  • 只对一些interest points提取特征,导致分辨率(点的数量)下降,因此降低了后续的配准精度。

全卷积网络是高效的,因为它们在具有重叠感受野的神经元之间共享中间激活(intermediate activations)。此外,全卷积网络中不是直接操作小的patch,因此神经元具有更大的感受野。而且,全卷积网络产生密集的输出,这非常适用于详细描述场景的任务。

尽管全卷积网络具有这些优点,但由于三维数据的特点,全卷积网络并没有广泛应用到三维几何特征的提取。卷积网络用于3D数据时,标准输入是一个四维的数据(x, y, z, f): 三个空间维度(x, y, z)和一个特征维度f。但大多数三维体素都是空的,导致这种表示占用内存较大。

在论文中,作者采用一种稀疏tensor来表示3D数据,采用Minkowski卷积代替传统卷积,提出了ResUNet用于提取输入点云中每个点的特征,另外提出了新的loss用于全卷积度量学习。该网络不需要数据预处理(提取简单特征),也不需要patch的输入,而且能够产生具有SOTA区分性的高分辨率特征。作者在3DMatch数据集和KITTI数据集中验证了FCGF(Fully Convolutional Geometric Features)的表示能力和提取特征的速度,实验结果如Figure 1。

二、论文的方法

论文中的数据表示和卷积操作主要基于MinkowskiEngine,这里不详细介绍,更多信息请查看MinkowskiEngine主页。

2.1 点云数据的稀疏表示

MinkowskiEngine把点云表示成两部分: 坐标矩阵和特征矩阵F。

2.2 稀疏点云数据的卷积
2.3 网络模型的架构

论文中的模型架构ResUNet是一种U-Net类的网络架构,在编码和解码部分均包括残差结构,在解码和编码之间通过skip连接来增强特征的表达能力,如Figure 2所示。

  • 残差结构: Res = [(Conv + Bn + ReLU) + (Conv + Bn)], Output = ReLU(input + Res(input)),其中的Conv, Bn, ReLU操作均为稀疏数据的卷积,即Minkowski下的卷积操作。
  • 编码: 包括N(Figure2中N=3)个(Conv + Bn + Res)结构,kernel size一般设置为3,第一个Conv中的stride=1,其他Conv的stride一般设置为2。
  • 解码: 包括N(数量同编码部分)个(transposed Conv + Bn + Res)结构,除了第一个transposed Conv结构外,其他transposed Conv结构的输入均是encoder和decoder进行concat后的tensor。同时,最后一个transposed Conv中的kernel size为1,stride为1,其它的transposed Conv中的kernel size均为3,stride均为2。
  • 特征提取层: Conv(kernel size=1, stride=1),其后无Bn和ReLU结构。
  • 官方代码: https://github.com/chrischoy/FCGF/blob/master/model/resunet.py

ResUNet架构中的MinkowskiEngine下的Conv, Bn, ReLU, transposed Conv换成常规的2D图像下面的对应操作,就是一个很普通的网络架构,关于MinkowskiEngine的一些基础知识和代码实践欢迎参https://zhuanlan.zhihu.com/p/304117161。

2.4 损失函数

·Loss实现和采样策略的源码: https://github.com/chrischoy/FCGF/blob/master/lib/trainer.py

2.5 训练

优化器是SGD,初始学习率0.1,指数衰减学习率(γ=0.99)。Batch size设置为4,训练100个epoches。在训练时对数据采用随机scale(0.8 - 1.2)和随机旋转(0-360°)的增强。

三、论文的实验

3.1 数据集
  • 3DMatch(内容较多,请查阅https://github.com/zhulf0804/3D-PointCloud/tree/master/3DMatch)
  • KITTI
3.2 评估指标
3.3 实验结果

主要介绍3DMatch数据集上的实验结果。

  • 精度和速度

作者在3DMatch测试集中比较了FCGF与传统方法和深度学习方法的性能,如Table 1所示,第1列是方法名称,第2列是FMR值(及其标准差),第3列是在旋转的3DMatch数据集中的FMR值(及其标准差),第4列表示特征描述子的维度和提取特征的时间。从表中可以看到,FCGF提取特征的速度快,特征简洁(只有32维),在3DMatch数据集和旋转增强的3DMatch数据集均有最高的FMR。

在3DMatch测试集中Registration recall的比较如Table 5所示,FCGF在7个场景和平均情况下均达到了最高的Registration recall。

  • Ablation Study

作者测试了不同loss下的性能,实验结果如Table3所示。由表格可以看到,对于contrastive Loss,normalized feature比非normalized feature要好,hardest-contrastive loss比常规(随机的)contrastive loss结果要好,同时可以观察到hardest-contrastive loss是所有loss中结果是最好的。对于triplet loss,normalized feature比非normalized feature要差,这个结论和contrastive loss中是相反的;hardest-triplet loss要比常规(随机的)triplet-loss结果要好,但其容易导致collapse。综合对比,hardest-contrastive loss在3DMatch数据集中是最好的。

  • 可视化

FCGF特征的t-SNE显示如Figure 5所示。

四、总结

1.论文基于MinkowskiEngine实现了点云的全卷积网络,点云和卷积等采用稀疏表示,优化了显存。

2.作者提出了hardest-contrastive loss和hardest-triplet loss,利用点云数据中的correspondences实现了特征的有效学习,并通过哈希的方式加快了生成二元组和三元组的速度。

3.不足: 基于MinkowskiEngine的神经网络在量化点云时会丢掉部分点云信息。

本文仅做学术分享,如有侵权,请联系删文。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 3D视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、论文的出发点和贡献
  • 二、论文的方法
    • 2.1 点云数据的稀疏表示
      • 2.2 稀疏点云数据的卷积
        • 2.3 网络模型的架构
          • 2.4 损失函数
            • 2.5 训练
            • 三、论文的实验
              • 3.1 数据集
                • 3.2 评估指标
                  • 3.3 实验结果
                  • 四、总结
                  相关产品与服务
                  图像处理
                  图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档