前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关联分割点云中的实例和语义

关联分割点云中的实例和语义

作者头像
点云PCL博主
发布2019-10-09 14:59:04
1.3K0
发布2019-10-09 14:59:04
举报
文章被收录于专栏:点云PCL

2019 CVPR

Xinlong Wang 1 Shu Liu 2 Xiaoyong Shen 2 Chunhua Shen 1 Jiaya Jia 2,3

1 The University of Adelaide 2 Youtu Lab, Tencent

1阿德莱德大学2 Youtu Lab,腾讯

3中国香港中文大学

2019.2

摘要

3D点云精确直观地描述真实场景。迄今为止,很少讨论如何在这样一个信息丰富的3D场景中细分多样化元素。在本文中,我们首先介绍一个简单而灵活的框架,用于同时分割点云中的实例和语义。然后,我们提出两种方法,使两个任务相互利用,从而实现双赢。具体来说,我们通过学习语义感知的点级实例嵌入,使实例分割从语义分割中受益。同时,将属于同一实例的点的语义特征融合在一起,以进行更准确的每点语义预测。我们的方法在很大程度上优于3D实例分割中最先进的方法以及3D语义分割的显着改进。代码已在以下网址提供:https://github.com/WXinlong/ASIS。

简介

实例分割和语义分割都旨在检测由场景中的最小单元组表示的特定信息区域。例如,点云可以被解析为点组,其中每个组对应于一类东西或单个实例。这两个任务是相关的,并且在真实场景中都具有广泛的应用,例如自动驾驶和增强现实。尽管近年来[10(Mask-RCNN),6(处理高遮挡实例语义分割),21(语义分割的全卷积网络),34(3D点云的语义分割),16(运用超点图进行大型点云语义分割)]对每项任务都取得了很大进展,但现有方法并没有相关联地处理这两项任务。

实际上,实例分割和语义分割在某些方面相互冲突。前者清楚地区分同一类的不同实例,而后者希望它们具有相同的标签。但是,这两项任务可以通过寻求共同点来相互合作。语义分割区分不同类的点,这也是实例分割的目的之一,因为不同类的点必须属于不同的实例。此外,实例分段将相同的标签分配给属于同一实例的点,这也与语义分段一致,因为同一实例的点必须属于同一类别。这一观察结果让人想知道这两项任务如何联系起来以实现双赢的解决方案?

可能有两种直接的方法。第一个是,给定语义标签,我们可以在每个语义类上独立运行实例分段,以更好地区分各个实例。因此,简单但直接地分离不同的类实例。

使用ASIS的实例分段和语义分段结果。我们的方法将原始点云作为输入并输出每个点的实例标签和语义标签。

然而,实例分割将在很大程度上取决于语义分割的性能,因为不正确的语义预测将不可避免地导致不正确的实例预测。否则,给定实例标签,可以对每个实例进行分类,并将预测的类标签分配给该实例的每个点。因此,问题转化为更容易的实例识别问题。但是,不准确的实例预测会使下游对象分类器混淆不清。这两种方法都是逐步的范式,可能是次优和低效的。在这项工作中,我们将这两项任务完全整合到一个端到端的并行培训框架中,该框架以柔和且可学习的方式分享相同的好处。

我们首先引入一个简单的基线来同时分割实例和语义。它类似于[6]中用于2D图像的方法,但我们为3D点云定制它。基线网络有两个并行分支:一个用于每点语义预测;另一个输出点级实例嵌入,其中属于同一实例的点的嵌入保持接近而不同实例的点的嵌入是分开的。我们的基线方法已经可以比最近的最新方法SGPN [35(相似网络提议的3D点云语义分割)]获得更好的性能,以及更快的训练和推理。基于这种灵活的基线,进一步提出了一种新技术来关联实例分割和语义分段紧密结合在一起,称为ASIS(关联分段实例和语义)。

利用所提出的ASIS方法,我们能够学习语义感知实例嵌入,其中属于不同语义类的点的嵌入通过特征融合进一步自动分离。如图2所示,不同类别点之间的界限更清晰(椅子和桌子,窗户和墙壁)。此外,属于同一实例的点的语义特征被利用并融合在一起,以进行更准确的每点语义预测。其背后的直觉是,在语义分割期间,分配给其中一个类别的点是因为包含该点的实例属于该类别。因此,这两项任务可以相互利用,进一步提高其绩效。我们的方法被证明在不同的骨干网络上是有效和通用的,例如Point-Net [26]和分层架构PointNet ++ [28]。该方法还可用于处理全景分割[14]任务,该任务统一了语义和实例分割。总而言之,我们的主要贡献如下。

  • 我们提出了一种快速有效的简单基线,用于在3D点云上同时进行实例分割和语义分割。
  • 我们提出了一个新的框架,称为ASIS,将实例分割和语义分割紧密地联系在一起。具体地,提出了两种类型的伙伴关系-语义意识,例如用于语义分割的分段和实例融合-以使这两个任务彼此协作。
  • 通过提出的ASIS,包含语义感知实例分割和实例化语义分段的模型被端到端地训练,其优于S3DIS数据集[1]上的最先进的3D实例分割方法以及重要的三维语义分割任务的改进。此外,我们在ShapeNet数据集[39]上的实验表明,ASIS也有利于零件分割的任务。

图2:学习的点级实例嵌入的1D嵌入。t-SNE [22]技术用于可视化S3DIS测试数据上的点的学习实例嵌入。显示了三个特写对。在每对中,左侧补丁来自我们的基线方法,而右侧补丁来自ASIS。色调差异表示实例嵌入空间中的距离

2.相关工作

实例分段。2D实例分割最近引起了很多研究的关注,导致了各种表现最佳的方法。受到基于区域的CNN(R-CNN)[8]在对象检测问题中的有效性的启发,[25,4]学会通过提出段候选来分割实例。

语义分割。随着最近卷积神经网络(CNNs)的发展[15,32],在语义分割方面取得了巨大的进步。基于完全卷积网络(FCN)的方法[18,2,19]主导了2D图像的语义分割。至于3D分割,黄等人[11]提出了3D-FCNN,它预测粗体素级语义标签。PointNet [26]和后续作品[7,38]使用多层感知器(MLP)来产生细粒度的点级分割。实际上,很少有先前的工作段语义利用实例嵌入,无论是在2D图像还是3D点云。

点云的深度学习。为了利用经典CNN的强大表现能力,首先将3D点云投影到[33,31,27,9]中的多视图渲染图像中,在其上可以应用精心设计的用于2D图像的CNN。但是在投影过程中,点云中的部分上下文信息被遗忘。点云数据的另一种流行表示是体素化体积。[37,23,12,30]的工作将点云数据转换为常规的体积占用网格,然后训练3D CNN或品种以执行体素级预测。由于点云的稀疏性和3D卷积的大量计算,体积表示的缺点在于计算和存储器密集。因此,这些方法仅限于处理大规模3D场景。为了直接处理原始点云,PointNet [26]被提议用于产生点级预测,在3D分类和分割任务上实现强大的性能。以下工作Point-Net ++ [28],RSNet [13],DGCNN [36]和PointCNN [17]进一步关注探索本地环境和分层学习架构。在这项工作中,我们构建了一个新的框架,用于在点云中关联地分割实例和语义,并证明它在不同的骨干网络上是有效的和通用的

3.我们的方法

01

3.1 一个简单的基线

这里我们介绍一个简单而有效的框架。它由共享编码器和两个并行解码器组成。其中一个解码器用于点级语义预测,而另一个解码器用于处理实例分段问题。具体地,首先提取大小为Np的点云,并通过特征编码器(例如,堆叠的PointNet层)将其编码成特征矩阵。此共享特征矩阵指的是PointNet体系结构中的局部特征和全局特征的串联,或PointNet ++体系结构的最后一组抽象模块的输出。两个并行分支然后获取特征矩阵并分别进行下面的预测。

语义分割分支将共享特征矩阵解码为NP×NF形状语义特征矩阵F SEM,然后输出NP×NC形状的语义预测P SEM,其中NC是语义类别的数量。除最后一个输出层外,实例分段分支具有相同的体系结构。N P×N F实例特征矩阵F INS用于预测具有N P×N E形状的每点实例嵌入E INS,其中N E是嵌入的维度。点云的嵌入表示其中点之间的实例关系:属于同一实例的点在嵌入空间中彼此接近,而不同实例的那些点是分开的。

在训练时,语义分段分支由经典的交叉熵损失监督。对于实例分割,采用[6]中的2D图像判别损失函数来监督实例嵌入学习。我们修改它并使其适用于点云。[6]中使用的损失是特定于类的:不同语义类的实例嵌入是分开学习的,这意味着应该首先给出语义类。这种逐步范式高度依赖于语义预测的质量,因为不正确的语义预测将不可避免地导致不正确的实例识别。因此,我们采用类不可知实例嵌入学习策略,其中嵌入负责区分不同的实例并且对其类别视而不见。损失函数的表述如下:

其中L var旨在将嵌入拉向实例的平均嵌入,即实例中心,L dist使实例相互排斥,并且L reg是保持嵌入值有界的正则化项。在我们的实验中α设定为0.001。具体来说,每个术语可以写成如下:

I是地面实例的数量; N i是实例i中的点数;μi是实例i的平均嵌入; ||·|| 1是L1距离; e j是一个点的嵌入;δv和δd是边缘; [x] + = max(0,x)表示铰链。

在测试期间,使用平均移位聚类[3]在实例嵌入上获得最终实例标签。我们将同一实例中的点的语义标签的模式分配为其最终类别。流程如图3(a)所示。

图3:我们的点云实例分割和语义分割方法的图示。(a)系统的完整管道。(b)ASIS模块的图示

02

相互帮助

如图3(b)所示,受益于上述简单灵活的框架,我们能够在其基础上构建新的ASIS模块,实现语义实例分割和实例融合语义分割。

语义感知实例分割。点云的语义特征构建了一个新的高级特征空间,其中点根据其类别自然定位。在该空间中,同一语义类的点紧密相连,而不同的类被分开。我们从语义特征中抽象语义感知(SA)并将其集成到实例特征中,从而产生语义感知实例特征。首先,语义特征矩阵FSEM作为F′SEM的实例特征空间,F SEM通过独立于点的完全连接层(FC),具有批量归一化和ReLU激活功能。F′SEM与FSEM具有相同的形状。然后,我们将自适应语义特征矩阵F′SEM添加到实例特征矩阵FINS元素,生成语义感知实例特征矩阵FSINS。该程序可以表述为:

在这种柔和且可学习的方式中,属于不同类别实例的点在实例特征空间中被进一步排斥,而相同类别实例很少受到影响。特征矩阵FSINS用于生成最终实例嵌入。

实例融合语义分割。给定实例嵌入,我们使用K最近邻(kNN)搜索在实例嵌入空间中为每个点(包括其自身)找到固定数量的相邻点。为了确保属于同一实例的K个采样点,我们过滤根据公式2中使用的余量δv的异常值。如3.1节所述,铰接损失项L var通过在δv的距离内绘制接近平均嵌入的每个点嵌入来监督实例嵌入学习。kNN搜索的输出是形状为NP×K的索引矩阵。根据索引矩阵,这些点的语义特征(F SEM)被分组为NP×K×NF形特征张量,这是语义特征矩阵组,其中每个组对应于与其质心点相邻的实例嵌入空间中的局部区域。在[26,36,38]中通过信道方式最大聚合的有效性,每组的语义特征通过融合在一起通道方式的最大聚合操作,作为质心点的精细语义特征。实例融合(IF)可以如下公式化。对于N P×N F形语义特征矩阵F SEM = {x 1,...,x N P}⊆R N F,实例融合语义特征计算如下:

其中{x i1,...,x ik}表示实例嵌入空间中K个邻点中心点i的语义特征,而Max是以K向量为输入并输出新向量的逐元素最大值算子。在实例融合中,输出是NP×NF特征矩阵F ISEM,最终的语义特征被输入到最后的语义分类器中。

4.实验

01

实验设置

数据集。我们在两个公共数据集上进行实验:斯坦福3D室内语义数据集(S3DIS)[1]和ShapeNet [39]。S3DIS包含来自6个区域的Matterport扫描仪的3D扫描,总共有272个房间。场景点云中的每个点与实例标签和来自13个类别的语义标签之一相关联。除了大型真实场景基准测试S3DIS之外,我们还在ShapeNet零件数据集上评估我们的方法。此数据集包含16个类别的16,881个3D形状。从形状采样的每个点分配有50个不同部分中的一个。来自[35]的实例注释用作实例地面实况标签。

评估指标。我们的实验涉及S3DIS是在与[26]中的微平均相同的k倍交叉验证之后进行的。我们还在[34]之后的第五次报告中表现,因为区域5在其他折叠中不存在。为了评估语义分段,计算所有类别的总体准确度(oAcc),平均准确度(mAcc)和平均IoU(mIoU)以及每个类IoU的详细分数。例如,采用分段,(加权)覆盖(Cov,WCov)[29,20,40]。Cov是与地面实况相匹配的预测的平均实例IoU。得分进一步通过地面实例的大小加权以获得WCov。对于地面实况区域G和预测区域O,这些值被定义为

其中|r Gi|地面真实区域中的点数。此外,还报告了经典度量平均精度(mPrec)和具有IoU阈值0.5的平均召回率(mRec)。

训练和推理细节。对于S3DIS数据集,每个点由9维特征向量(XYZ,RGB和关于房间的标准化坐标)表示。在训练期间,我们按照[26]中的程序,将房间分成1m×1m的地平面重叠块,每个块包含4096个点。对于实例分段分支,我们使用σv= 0.5,σd= 1.5和5个输出嵌入维度来训练网络。对于实例融合中的kNN搜索,K设置为30。我们分别为PointNet和PointNet ++训练网络50个时期和100个时期,批量大小为24,基本学习率设置为0.001,每300k次迭代除以2。采用Adam解算器在单个GPU上优化网络。动量设定为0.9。在测试时,平均移位聚类的带宽设置为0.6。BlockMerging算法[35]用于合并来自不同块的实例。对于ShapeNet数据集,每个形状由具有2048个点的点云表示,如[26]中所示。每个点由3维矢量(XYZ)表示

表1:S3DIS数据集上的实例分段结果

表2:S3DIS数据集上的语义分段结果。

02

S3DIS结果

我们使用Point-Net和PointNet ++(单尺度分组)作为我们的骨干网络对S3DIS数据集进行实验。如果没有额外的注释,我们的主要分析基于PointNet。

表3:S3DIS数据集的消融研究.IF指实例融合; SA指的是语义意识。

图4:我们的基线方法和ASIS在实例分割上的比较。不同颜色代表不同的实例。

图5:我们的基线方法和ASIS在语义分割方面的比较。

更强大的骨干。这两项任务都很大程度上受益于我们的新方法。当采用更强大的架构PointNet ++作为我们的骨干网络时,我们观察到一致的改进:区域5上的2.1 mWCov和2.6 mIoU增益; 1.7 mWCov和1.1 mIoU增益进行6次交叉验证。PointNet ++上的结果表明我们的ASIS是一个通用框架,可以构建在不同的骨干网络上。

03

ShapeNet结果

我们使用[35]生成的实例分割注释对ShapeNet数据集进行实验,这些注释不是“真实的”基础事实。在[35]之后,仅提供了部件实例分割的定性结果。如图8所示,椅子的汽车和腿的轮胎很好地分组成单独的实例。语义分段结果在表6中报告。使用PointNet作为主干,我们实现了0.6点的改进。基于PointNet ++,ASIS的基线性能优于0.7 mIoU。这些结果表明我们的方法也有利于零件分割问题。

5.结论

在本文中,提出了一种新的分割框架,即ASIS,用于关联点云上的实例分割和语义分割。明确探索了这两个任务之间的关系,并直接指导我们的方法设计。我们在S3DIS数据集和ShapeNet零件数据集上的实验证明了ASIS的有效性和有效性。我们期望所提出的方法在3D实例分割和3D语义分割中的广泛应用,以及希望新颖的设计提供关于分割任务的未来工作的见解,例如,全景分割等。

图6:S3dis试验上ASIS的定性结果

图7:每个类的性能变化。(a)与基线方法相比,实例分段性能的变化。(b)与我们的基线方法相比,语义分割性能的变化

表5:估算了计算速度和参考时间性能的比较,并对区域5进行了平均。这是处理尺寸为4096x 9的点云的时间。报告了区域5的实例分割结果。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 点云PCL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档