前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2021 CVPR | 基于渐进感受局部区域推理的全方位监督点云分割

2021 CVPR | 基于渐进感受局部区域推理的全方位监督点云分割

作者头像
计算机视觉
发布2021-07-05 10:40:52
8680
发布2021-07-05 10:40:52
举报
文章被收录于专栏:计算机视觉工坊

2021 CVPR | Omni-supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning

图1 ScanNet v2数据中点云的RFCC图示(从上到下)。在解码阶段,分割问题被分解为一个更容易的全局上下文识别问题(预测全局RFCCs,见图顶部)和一系列感受局部区域推理的问题。

1 Motivation

本期带来的是2021年CVPR接收的一篇关于点云语义分割的文章。本文的核心出发点是,认为由于之前的监督学习仅针对神经网络中的输出结果进行预测,因此隐藏层特征通常无法学习到3D分割的信息表达,然而这个问题可以通过对中间层的多尺度监督来解决。本文的Omni-supervised实际上是一种多尺度监督方法。

2 主要贡献

在本文中,作者首次提出了渐进感受局部区域推理(RFCR),并将多尺度监督方法引入点云分割问题,其中目标感受局部区域编码(RFCCs)的目的是记录编码器中隐藏单元的感受区域的类别。然后,目标RFCCs将监督解码器以从粗到细的类别推理方式逐步推断RFCC,最终获得目标语义标签。由于许多隐藏层特征不活跃,并且对RFCC预测的贡献很小,因此作者提出了一种具有离心趋势的特征密集化以获得更明确的特征,它实际上相当于对特征进行熵值的正则化。更多的显著特征可以进一步释放多尺度监督方法的潜力。作者将本文的方法嵌入到四个流行的网络构架中,并在三个具有挑战性的基准数据集上进行测试。结果显示该方法可以显着改善网络构架在所有三个数据集中的效果。具体来说,该方法在S3DIS和Semantic3D上取得了SOTA性能,并在在ScanNet基准测试里的所有基于点的方法中mIoU性能排名第一。

3 引言

点云语义分割问题中的数据点的语义标签推断任务在3D视觉中是十分有挑战性的。同时该技术可广泛应用于机器人、自动驾驶和虚拟/增强现实等领域。为了处理点云分割问题,以前的工作通常是引入了精心设计的编码器-解码器架构,在编码阶段分层提取全局上下文特征,并在解码阶段将上下文特征分配给点以实现逐点标记。然而,在典型的编码器-解码器框架中,网络仅通过对最后一层中的点标签进行监督,而忽略了其他层中的隐藏单元,缺乏直接监督来提取具有特征的信息量。换句话说,就是多尺度/全尺度监督确实是必要的。

在2D视觉中,CVAE尝试给出多尺度预测和监督,以在分割任务中提取有用的特征。并使用迭代上采样粗预测然后对其进行微调以获得最终结果,从而可以一起监督不同尺度的预测。

然而,到目前为止,由于点云自身所具有的不规则性,还没有人成功地将多尺度,更不用说全尺度监督应用于3D语义分割。与2D图像不同,因为采样点云和原始点云之间没有固定的映射关系,在点云上很难通过简单的平铺或插值将隐藏特征上采样到原始分辨率,尤其是在采样是随机的情况下。此外,使用最近邻的常见上采样方法无法追踪编码关系,从而对中间特征引入了不正确的监督。

为了解决这个问题,作者提出了一种通过渐进感受局部区域推理的全方位监督方法。作者没有将隐藏特征上采样到原始分辨率,而是设计了一个感受局部区域代码(RFCC)来有效地跟踪编码关系并表示每个隐藏单元的感受区域的类别。从而实现在所有尺度上监督网络。具体来说,在解码阶段,目标RFCCs将监督网络以预测不同尺度的RFCCs,这个过程就变相理解为就一个渐进的推理过程。

此外,作者为了进一步释放全尺度监督的潜力,提取更多的活跃特征(即具有较大量级的特征)来实现RFCC预测,作者又提出了一种潜在函数的特征密集化方法,该潜在特征实际上相当于特征的一个熵损失计算。

4 相关工作

在相关工作部分中,作者主要根据文章的相关切入点介绍了三方面工作的内容(1.点云语义分割;2.多尺度监督;3.熵的正则化)。

5 方法

5.1感受区域编码(RFCC)

在原始点云中标记一个点的标签是容易的。同时,为任何下采样点云中的点提供标签可以从其感受区域内的点接收信息。因此作者设计了一个感受局部区域编码(RFCC)来表示编码器中采样点感受区域内所有类别。目标RFCC是在编码阶段与特征的卷积和采样一起生成的。换句话说,在编码阶段(图2中顶部分支的左侧部分)和RFCC生成(图2(a))之间使用共享采样,因此生成的目标RFCC可以精确地记录感受区域中的类别分量,可以忽略点云的采样是一个随机过程。

图2 所提方法的网络框架。(a)显示目标感受区域编码(RFCC)与通用编码一起生成。(b)表示网络将以粗到细的方式预测RFCC。(c)代表将隐藏特征推离0的离心趋势。最后一层的预测激活函数为Softmax或者Sigmoid。

本文的RFCC目的是为编码器的任一层中设计每个点的多热标签。具体来说,在语义分割任务中,我们需要将每个点分类为C个类别,RFCC将是一个1×C的二进制向量。给定编码器pli第l层中的第i个点,目标RFCC gli表示存在于pli感受区域中的对象类别,每个元素gli [k]表示k个类别。基于这个定义,可以先将输入点pi的one-hot label分配给输入层的RFCC gli,因为点pi的感受区域只包含pi本身:

其中yi是原始点云中点pi的标签。如图2(a)所示,我们可以沿着RFCCs 中3D Convs的前一层 gl-1i获得gli:

其中k[1,C]表示通道索引,j是pli在第(l-1)层的感受区域中的点索引。值得注意的是,RFCC的生成只发生在编码器中,而不是解码器中。迭RFCC的生成,直到其到达最中心的层L。通常,当最中心的层仅包含一个点时,场景描述符只是一个自然推导出的全局监督器。

5.2 RFCC推理

网络框架中的解码器用来推断语义分割任务中每个输入点的类别。在本文方法中,如图2(b)所示,作者将这个复杂的问题分解为一个更简单的全局上下文识别问题(预测gLi)和一系列渐进的感受区域推理问题(通过增加来自跳跃链接的附加特征αli从gli推理gl-1i,最终获得语义标签gli)。

如图2所示,βli是解码器中采样点pli的特征。对于除最后一层之外的每一层解码器,作者将共享的多层感知器(MLP)Ml和sigmoid函数σ应用于βli以预测 RFCCs g~li:

然后,在编码阶段生成的目标RFCC gli直接用于通过逐层监督 Lli引导g~li的预测:

整个RFCC推理损失可以简单地表示为

在最后一层,作者简单地利用MLPs和softmax来预测g~li,并使用交叉熵损失来监督原始尺度的输出特征。

5.3 特征密集化

由于渐进的感受区域推理引入了大量监督,因此需要具有明确信号的更多主动特征。然而,传统网络中存在许多数量级很小的不显著的隐藏单元。因此,作者又引入了离心趋势,以实现正特征和负特征之间的低密度分离(即,使得特征远离0),如图2(c)所示:

其中β¯=a(β),a可以是恒等函数或简单的感知器。我们可以看到势函数对特征的负梯度是:

上式具有与特征相同的符号。这表明此时积极特征将变得更大,而消极特征将变得更小。此外,根据此公式,绝对值较小的特征将获得较大的梯度。

同时,这种离心势可以通过简单的熵损失来实现:

其中 β-li,k是β-li的第k个通道。

另一方面,作者的全尺度监督可以直接放大特征密集化引入的某些信号的的特征。更多明确的特征可以参与到RFCC预测中,有助于学习更好的隐藏层表示,提高语义分割性能。

最后,所有的监督都可以表示为

其中λ1和λ2是两个可调整的超参数,而LS表示语义分割的常见交叉熵损失。在本文的实验中,可以简单地将λ1和λ2设置为1,并且在大多数情况下都能表现良好。

6 实验部分

为了展示本文方法的有效性,作者将方法嵌入到四种流行的方法中(可变形KPConv、刚性KPConv、RandLA和SceneEncoder),并在三种经典的点云分割数据集上进行了实验(杂乱室内场景的 ScanNet v2,大型室内房间的S3DIS和大型室外空间的 Semantic3D)。

为了更好地评估分割性能,作者将类别之间的平均交集(mIoU)作为方法评价指标。

ScanNet v2上的语义分割结果如表1所示,作者实现了70.2%的mIoU,并在所有基于点的方法中在该基准测试中排名第一。在这里,作者将可变形 KPConv作为基准,并且在mIoU中实现了1.8%的改进。为了展示方法的泛化能力,作者还将本文方法应用于SceneEncoder。如表1所示,mIoU提高了3.1%。此外,在图3中提供了可变形KPConv和本文的方法的可视化对比结果。红色虚线圆圈显示出明显的改进。

表1 ScanNet v2 上的室内场景语义分割结果

图3 ScanNet v2数据集上的可视化结果。

表2中显示了在S3DIS Area-5的分割结果。在这个数据集中,作者还以可变形KPConv作为方法的框架,并在S3DIS Area-5数据上实现了68.73% mIoU,极大的提高了性能。图4给出本文方法的可视化结果。

表2 S3DIS Area-5室内场景语义分割结果

图4 S3DIS Area-5 测试数据集上的可视化结果。

在表3中,作者展示了所提方法和其他主流方法在Semantic3D上的结果。在这项任务中,作者实现了77.8%的mIoU,超过了所有最新方法。

表3 Semantic3D室外场景语义分割结果

图5 Semantic3D 数据集上的可视化结果

图6 解码层中特征量级的可视化。绿色图表示添加Feature Densification后特征绝对值的分布,红色图表示原始网络中特征绝对值的分布。

7总结

在本文中,作者提出了一种用于全尺度监督点云分割的渐进感受局部区域推理方法,该方法将分割问题分解为全局上下文识别任务和一系列渐进感受区域编码推理过程。此外,作者提出了一种互补的特征密集化方法,为RFCC预测提供更活跃的特征。在三个流行的基准数据测试中使用四个流行的网络框架来评估所提的方法,并几乎取得SOTA结果。另外,该方法它更适合具有编码器-解码器架构的网络。

备注:作者系我们「3D视觉从入门到精通」知识星球特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档