首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PointNet:三维点云分割与分类的深度学习

PointNet:三维点云分割与分类的深度学习

作者头像
点云PCL博主
发布2019-07-30 16:41:20
2.1K0
发布2019-07-30 16:41:20
举报
文章被收录于专栏:点云PCL点云PCL

本文是关于PointNet点云深度学习的翻译与理解,PointNet是一种直接处理点云的新型神经网络,它很好地体现了输入点云的序列不变性。

相关工作

点云特征

点云的大多数现有特征都是针对特定任务人工完成的。点特征通常对点的某些统计特性进行编码,并被设计为对某些变换不变,通常分类为内在[2,24,3]或外在[20,19,14,10,5]。它们也可以分类为局部特征和全局特征。对于特定的任务,找到最佳特征组合并是不容易的

3D 数据的深度学习

3D 数据具有多种流行的表示形式,从而形成各种学习方法。体积 CNN: [28,17,18]是在体素化形状上应用 3D卷积神经网络的先驱。然而,由于 3D卷积的数据稀疏性和计算成本,体积表示受到其分辨率的限制。 FPNN [13]和 Vote3D [26]提出了处理稀疏性问题的特殊方法;然而,他们的操作仍然是稀疏的卷积,他们对于处理非常大的点云数据是一个挑战。多视图 CNN[23,18]

试图将 3D 点云或形状呈现为 2D 图像,然后应用 2D 转换网将其分类。

通过精心设计的图像 CNN,这种方法在形状分类和检索任务上取得了主导性能[21]。但是,将它们扩展到场景理解或其他 3D 任务,如点分类和形状完成是不容易的。频谱 CNN:一些最新的文章[4,16]在网格上使用频谱 CNN。然而,这些方法目前受限于诸如有机物等多种网格,并且将它们扩展到非等距形状(如家具)的可能性并不明显。基于特征的 DNN: [6,8]首先通过提取传统形状特征将三维数据转换为矢量,然后使用全连接的网络对形状进行分类。我们认为这种方法受到提取特征表示能力的限制。

无序集的深度学习

从数据结构的角度来看,点云是一组无序的向量。 而大多数深度学习的作品针对像序列一样的常规输入表示(在语音和语言处理中),图像和体积(视频或 3D 数据),但在深度学习点集上没有做太多工作。Oriol Vinyals 等人最近的一项研究[25]研究了这个问题。 他们使用一个带有注意机制的读-进程-写网络来完成无序的输入集,并显示他们的网络能够对数字进行排序。然而,由于他们的工作主要集中在通用集和 NLP 应用程序上,因此缺少几何体数据集。

问题陈述

我们设计了一个深度学习框架,直接利用无序点集作为输入。点云表示为一组 3D 点{P i | i = 1, ..., n}, 其中每个点 P i 是其(x,y, z)坐标加上诸如颜色,法线等的额外特征通道的向量。为了简单和清楚起见,除非另有说明,只使用(x, y, z)坐标作为我们点的通道。对于对象分类任务,输入点云或者从形状直接采样,或者从场景点云中预先分割。我们提出的深度网络为所有 k 个候选类别输出 k 个分数。对于语义分割,输入可以是单个对象的部分区域分割,或者来自 3D 场景的子体积用于对象区域分割。我们的模型将为 n 个点和 m个语义子类别中的每一个输出 n×m 分数。

图2 PointNet 架构。分类网络以 n 个点作为输入,应用输入和特征转换,然后通过 max pooling 合并点特征。输出是 k 类的分类分数。分割网络是对分类网络的扩展。它连接了整体和局部特征以及每个点的分数输出。“mlp”代表多层感知器,括号中的数字是层大小。 Batchnorm 用于所有具有 ReLU 的层。分类层中最后一个 mlp使用分层

点集的深度学习

我们网络的体系结构受 R n中点集的属性的启发。

R n 中点集的性质

我们的输入是来自欧几里得空间的点的子集。它具有三个主要属性:

01

无序

与图像中的像素阵列或体积网格中的体素阵列不同,点云是一组没有特定顺序的点。换句话说, 假设一个点云有 N 个 3D 点集合, 单就这些点的先后顺序排列组合,就有 N! 种可能 。

02

点之间的互动

点来自具有距离度量的空间。这意味着点不是孤立的,并且相邻点形成一个有意义的点子集。因此,该模型需要能够捕获附近点的局部结构以及局部结构之间的组合相互作用。

03

转换中的不变性

作为几何物体,点集的学习表示对某些变换应该 是不变的。例如,旋转和平移点不应该修改全局点云类别或点的分割。

PointNet 架构

我们的完整网络体系结构在图 2 中可见,其中分类网络和分割网络共享大部分结构。请阅读图 2 的标题。我们的网络有三个关键模块:最大池化层作为对所有点信息进行聚合的对称函数, 局部和整体信息组合结构以及两个对齐输入点和点特征的联合对齐网络。我们将在下面单独的段落中讨论我们选择这样设计背后的原因。

01

无序输入的对称函数

为了使模型对输入置换不变,存在三种策略: 1)将输入排序为规范的顺序;

2)将输入视为训练 RNN 的序列,但通过各种排列会增加训练数据;

3)使用简单的对称函数来聚合每个点的信息。这里,一个对称函数将 n 个向量作为输入,并输出一个对输入顺序不变的新向量。例如, +和*运算符是对称二进制函数。虽然排序听起来像一个简单的解决方案,在高维空间实际上并不存在一般情况下稳定的 w.r.t.的点扰动排序。这可以通过以下矛盾点很容易地看出来。如果存在这样的排序策略,则它定义高维空间和一维实线之间的双射图。不难看出,要求序列稳定,点扰动相当于要求该映射在维数减少时保持空间接近度,这是一般情况下无法实现的任务。因此, 输入排序并不能完全解决这种规范排序问题,并且由于规范排序问题依然存在,网络难以学习从输入到输出的一致映射。我们发现直接在排序点集合上应用 MLP的效果很差,但相比于直接处理未排序的输入稍好一些。

使用 RNN 的观点认为点集是一个顺序信号,并希望通过随机置换序列训练 RNN,RNN 将不改变输入顺序。然而,在“OrderMatters”[25]中,作者表明排序确实重要,不能完全省略。尽管RNN 对长度很小(几十个)的序列的输入排序具有相对较好的鲁棒性,但很难扩展到数千个输入元素,这是点云数据集的常见大小。 从经验上说,我们也认为,基于 RNN 的模型表现不如我们提出的方法

我们的想法是近似一个一般函数的定义, 通过在点云集合中应用不对称函数变换设置的点:

从经验上讲,我们的基本模块非常简单:我们用多层感知器网络来近似 h,用单变量函数和最大池化函数来组合 g。 通过实验证明能很好地工作。 通过收集 h,我们可以学习一些 f 来捕获集合的不同属性。虽然我们的关键模块看起来很简单,但它有着有趣的属性,并可以在几个不同的应用中实现强大的性能

01

局部和全局信息聚合

上面部分的输出形成一个向量[f 1, ..., f K], 它是输入集的全局签名。我们可以轻松地训练一个支持分类的全局形状特征的 SVM 或多层感知器分类器。但是,点分割需要结合局部和全局的知识。我们可以通过简单但高效的方式实现这一目标。 我们的解决方案可以在图 2 中看到(分割网络)。在计算全局点云特征向量之后,通过将全局特征与每个点特征相连接,将其反馈给每点特征。然后根据组合的点特征逐点提取新的每点特征 - 此时每点特征都知道局部和全局信息。 通过这种修改,我们的网络能够预测依赖于局部几何和全局语义的每点数量。例如,我们可以准确预测每点法线(附图中的图),验证网络能够汇总来自该点的局部邻域的信息。在实验环节中,我们还展示了我们的模型可以在形状部分分割和场景分割上实现最先进的性能。

01

联合对齐网络

点云的语义标注必须是不变的,如果点云经历某 些几何变换,如刚性变换。因此,我们期望我们的点集的学习表示对这些转换是不变的。 一个自然的解决方案是在提取特征之前将所有输入集合对准到规范空间。 Jaderberg 等人[9]引入了空间变换器的思想,通过采样和插值来对齐 2D 图像,通过在 GPU 上实现的专门定制的图层来实现。与[9]相比,我们的点云输入形式使我们能够以更简单的方式实现这一目标。我们不需要发明任何新的图层沙子,因为在图像案例中没有引入别名。我们通过微型网络(图 2 中的 T net)预测仿射变换矩阵,并将该变换直接应用于输入点的坐标。迷你网络本身类似于大型网络,由点独立特征提取,最大池化层和完全连接层的基本模块组成。关于 T-net 的更多细节在补充中。 这个想法可以进一步扩展到特征空间的一致性。我们可以在点要素上插入另一个对齐网络,并预测要素变换矩阵以对齐来自不同输入点云的要素。然而,特征空间中的变换矩阵比空间变换矩阵具有更高的维度,这大大增加了优化的难度。因此,为我们的 softmax 训练损失增加一个正则化术语。我们约束特征变换矩阵接近正交矩阵:

其中 A 是由迷你网络预测的特征对齐矩阵。正交变换不会丢失输入中的信息,因此是理想的。我们发现,通过加入正则化项,优化变得更加稳定,我们的模型取得了更好的性能。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档