来源:OpenCV中文网
论文标题:Instance-Aware Embedding for Point Cloud Instance Seg
论文链接:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750256.pdf
论文发表:ECCV2020
目前尚未开源。
1
引言
该论文是关于点云的语义分割和实例分割类的文章。在计算机视觉点云是一个非常常见的概念,它特指在某个坐标系下点的数据集,其中每个点包含了丰富的信息,包括三维坐标X,Y,Z、颜色、分类值、强度值、时间等。点云可以将现实世界原子化,通过高精度的点云数据可以还原现实世界,可以说万物皆点云。点云语义分割简单的说就是给每个点一个label,比如说这个点是电脑还是杯子。
实例分割是指在语义分割的同时,把每个不同的物体给分割出来,比如一个房间里有很多物品,将这些物体中点进行分类。要知道在二维图像中进行实例分割可以达到一个不错的效果,但是对于三维点云的研究却远远落后。
传统的方法使用半径搜索或其他类似的方法来聚集局部信息。然而,这些方法不知道实例的上下文,无法实现实例的边界和几何信息,这对分离相邻对象至关重要。在该论文中作者通过提出一个实例感知模块来研究三维实例感知知识的影响。并且实验结果在精度和效率上都优于以往的方法。
2
论文贡献
该论文的贡献可以归结为如下三点,分别如下所示:
•作者提出了一个新的实例感知模块,成功地编码了与实例相关的上下文信息,用于三维点云实例分割。
•该方法对实例相关的几何信息进行显式编码,信息量大,有助于生成有区别的嵌入特征。
•该框架可以进行端到端的训练,在效率和有效性上都优于以往的方法。利用所提出的方法,可以在不同的任务上获得最新的结果。
3
模型介绍
3.1网络结构
论文中作者采用了一个Encoder-Decoder架构,编码器由两个任务共享。输入为点集
,
为点的总数,
为输入特征维数,其中输入特征包括颜色和位置信息,如X、Y、Z、R、G、B。解码器包含两个并行分支:一个用于语义分割,另一个实例嵌入编码。语义分割分支生成逐点分类结果
,其中
为类别数。焦点损失
用于解决训练过程中的类别不平衡。
此外,每个点的编码向量的实例分支输出具有
学习距离度量的特征,其中
为嵌入维数。属于同一个实例的编码向量应该聚集在一起,属于不同实例的编码向量应该结束相隔甚远。在推理过程中,采用聚类算法得到最终的分组结果。通过检测实例的空间扩展,实现了一种新的生成实例感知知识。具体的模型结构图如下所示:
3.2实例感知模块
作者提出了一个实例感知模块(IAM),主要用于选择捕捉空间实例上下文的代表点。对于点
位置是
,
和
,点水平偏移由上下文检测分支进行预测,以表示实例的空间扩展,表示为
。
实例的预测代表区域为
,可以简单地表示为:
其中
是代表点的数目,
代表第i个点。通过一个最小最大函数
可以将每个点预测的轴对齐边界框进行表示。
学习这些具有代表性的区域是由空间边界框和实例分组标签共同驱动的,这样
就可以紧密地包围实例。论文中提供了三种损失:
、
和
。
最大化预测和真实之间边界框的重叠。在论文中3D IoU的损失如下所示:
其中
是点的总数,
是第
点的预测边界框,
是第
点的三维轴对齐边界框真实值。绿色点被选为
,而红色点是预测的
。如下图所示:显示检测到的代表点。绿色点是随机选择的,红色点是IAM输出的相应有意义区域。
3.3实例分支
通常情况下,实例解码器的输入是下采样点
,相应的特征表示为
。这些特征通过几个上采样层逐渐传播到整个点集。为了在传播过程中对实例上下文进行编码,作者利用
的有意义语义区域作为采样点。
3.3.1编码实例感知上下文
通过从包含实例空间范围的
中聚合信息来增强
的表示。由于这些检测点不一定位于输入点上,因此采用KNN对RGB特征进行插值。然后将插值特征添加到原始
中,生成包含局部表示和实例上下文的特征。在解码过程中,组合特征逐渐上采样,通过所有点传播实例感知上下文。
3.3.2 编码几何信息
几何信息对于识别两个接近的物体至关重要,为了学习有区别的编码特征,论文中直接将标准化的坐标质心连接到嵌入空间。考虑到由点
预测的质心为
,其中
是计算给定包围盒几何质心的函数,最终的逐点嵌入特征可以表示为
,其中
是实例分支产生的嵌入特征。为了使具有相同实例标签的点的几何信息保持一致,将预测的几何质心从同一实例拉向簇中心,方法是:
其中
是实例总数,
是第
个实例的点数。
表示第
个实例的平均预测几何质心,
定义为
和
松约束。
旨在迫使附加的几何信息具有较小的变化,并为分离相邻对象提供信息。
利用信息量逐点嵌入
学习距离度量,该距离度量可以将实例内嵌入拉向簇中心,并使实例中心彼此远离。损失函数公式如下所示:
其中
是实例总数,
是第
个实例的点数。
和
是软间隔。在训练过程中,第一项将实例簇相互推开,第二项将嵌入项拉向簇中心。在推理过程中,采用快速mean-shift算法对嵌入空间中的不同实例进行聚类。该方法是可以进行端到端训练的,并且有四个损失进行监督,如下所示:
4
实验结果
4.1数据集
该论文采用了三个具有实例注释的流行数据集:斯坦福三维室内语义数据集(S3DIS)、scannetw2和PartNet。S3DIS收集在6个大型室内区域,覆盖272个房间。整个数据集包含超过2.15亿个点,由13个常见语义类别组成。
ScanNetV2是一个RGB-D视频数据集,它包含1500多个扫描,分为1201、300和100个扫描,分别用于训练、验证和测试。该数据集共包含40 个类,对13个类别进行了求值。与上述两个数据集不同,PartNet是一个具有细粒度对象注释的一致的大型数据集。它由57000多个零件实例组成,涵盖24个对象类别。每个对象包含10000个点。
4.2评价指标
语义分割的评价指标是整体像素精度(mAcc)、类别平均准确度(oAcc)和平均交合并(mIoU)。实例分割采用平均实例覆盖率(mCov)、平均加权实例覆盖率(mW-Cov)、平均实例精度(mP-rec)和召回率(mRec)。
4.3实例感知模块
作者研究了所提出的实例感知模块的影响,该模块首先找出实例的代表点,然后对这些采样点的特征进行聚合。对空间扩展知识进行编码有助于分离和区分封闭实例。定性结果如下图所示,由于成功地编码了实例上下文和几何信息,论文的方法产生了区分结果,特别是对于附近的对象。论文所提出的方法显示出对密集场景的鲁棒性,这些场景需要更多的区分特征来区分不同的实例。
4.4 S3DIS的定量结果
如下表所示为语义分割任务的性能结果。采用的是6倍交叉验证进行评估。作者的方法建立在普通的PointNet++上,与使用多视图甚至图形CNN的方法相比,获得了更好的结果。
定性实例分组结果如下图所示。作者的方法与ASIS的性能进行了比较,显示了编码的实例感知知识的有效性。
4.5 ScanNetV2上的定量结果
ScanNetV2的定量性能如下表所示。和最新的ASIS相比,作者的方法取得了比较不错的结果,mAP@0.25和mAP@0.5分别提高了8.4%和6.5%。
下图显示了Scannetw2上实例分割的定性结果。
4.6 PartNet上的定量结果
PartNet上的性能如下表所示。与室内场景不同,PartNet提供了细粒度和层次化的对象部件注释。级别1包含最粗糙的批注,级别3包含最精细的批注。训练样本数量最多的五个类别分别是:椅子、储藏室、桌子、灯和花瓶。论文的方法在大多数类别和级别上都取得了最先进的结果,大大提高了性能。
下图显示了PartNet上实例分割的定性结果,并提供了不同的类别和细粒度级别。
本文仅做学术分享,如有侵权,请联系删文。