前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >三维局部描述子综述

三维局部描述子综述

原创
作者头像
一点人工一点智能
发布2023-02-17 14:56:02
9730
发布2023-02-17 14:56:02
举报
文章被收录于专栏:一点人工一点智能

作者:方斌,丁军峰,马杰,明德烈

转载自:华中科技大学学报(自然科学版)

编辑:东岸因为@一点人工一点智能

原文:三维局部描述子综述

入群邀请:7个专业方向交流群+1个资料需求群

摘要:对三维计算机视觉领域中近三十年的局部描述子进行总结,回顾了传统三维手工局部描述符的构造方法,介绍了基于深度学习的方法。

首先,针对三维手工局部特征和学习型特征,分别从局部参考坐标系和三维数据的表示方式的角度出发,对它们进行分类概述,并重点介绍部分典型方法;然后,概述了三维局部描述子的常用数据集,并统计了各数据集上现有描述子的性能;最后,探讨了三维描述子领域未来值得研究的一些问题。


近十年来,随着三维(3D)传感器的普及,越来越多的研究集中在三维数据的处理中,其中,作为计算机视觉的一个基础研究问题,三维局部特征描述能够广泛地应用于各类计算机视觉及图形学任务中,例如:特征对应建立、配准、分割、检索等,尤其在场景对齐与重建、三维目标识别、物体姿态估计等对稳健的局部特征描述符要求更高的任务中发挥着关键的作用[1]。

三维局部特征描述是指将三维关键点邻域包含的曲面形状信息转换为高维描述向量的过程[1]。一个优秀的三维局部描述子须满足区分性高、鲁棒性强、紧凑性好且易于计算四个条件。国内外相关研究者在对早期的三维局部特征描述符也进行大量的综述。文献[1]对2010年以前的手工局部特征描述符进行了系统的分类与评估。文献[2]则是依据全局、局部及混合型特征对2018年以前的手工特征进行综述。文献[3]则是具体评估了手工描述符在物体类别识别中性能。文献[4]对三维检测子与三维描述符之间的适配性进行了探究。

现有的相关综述要么时间较为久远,要么仅仅只是涵盖了部分早期的手工描述符,近五年,大量手工描述符相继被提出。此外,随着二维深度学习方法的成熟,带动了三维深度学习的发展,进而涌现出一批学习型三维局部特征描述符,但迄今尚未有综述系统全面介绍现有的三维手工和学习型局部特征描述符,因此有必要对这些方法进行分类整理。本研究的总体内容如图1所示,首先分别综述了三维空间中的局部参考坐标系、手工局部描述符和学习型局部描述符,然后分别对每一部分进行算法对比分析,最后总结三维局部特征描述符的挑战与未来的研究方向。相比于现有的三维局部特征描述符综述,本研究大量增加了近五年的研究成果,因此能够准确地反映三维局部特征描述符的最新研究进展。

图片
图片

01  局部参考坐标系

局部参考坐标系(LRF),由三个正交的单位向量构成,完成对关键点周围的局部表面的姿态归一化,使得局部表面具备旋转平移不变性。一个有效的局部参考坐标系须满足在噪声、分辨率变化、表面残缺等干扰下保持高可重复性,这种精确划分空间信息的稳定性,能够显著提升描述符的鉴别力。如图2所示,依据是否分阶段估计三个坐标轴,现有方法可分为两类[5],即基于协方差分析(CA)的方法[6-14]和基于点几何属性分析(GA)的方法[15-28]。

图片
图片

1.1 基于协方差分析的LRF构建方法

基于协方差分析的LRF构建方法见表1。由于局部表面协方差分解后得出三个特征向量代表点分布最显著的三个方向,因此可将其作为参考坐标系,最大化局部点的分散程度。基于CA的LRF构建方法首先构建局部表面的点散布矩阵,然后对散布矩阵进行特征分解,最后将方向去歧义后的三个特征向量作为参考坐标系的三个轴。考虑到表面不全、分辨率变化等干扰的存在,一般会针对性的设计相应的点权重函数进行补偿。此类方法的点散布矩阵为

式中:p 为关键点;N(p)p 的邻域表面点集合;q_i 为任一邻域点;w_{q_i}q_i 的权重。此类方法的研究重点集中在w_{q_i} 的定义上,典型方法包括文献[6]提出的ISS-LRF和文献[8]提出的SHOT-LRF。

ISS-LRF[6]针对表面点密度不均问题提出了一个密度补偿权重项,即统计每个点一定范围内邻域点的数量,来代表该点的疏密程度,并以该统计量的倒数作为该点的密度权重,从而提高了LRF对点密度不均的稳健性。

SHOT-LRF[29]则依据局部表面中心相对于边界出现残缺的概率更低这一思路,提出了一个距离惩罚项来解决表面不完整的问题,即邻域点的权重与其距离关键点的距离成反比,以此惩罚远距离点,进而实现LRF对表面不完整的稳健性。

以上两种方法分别构建了密度补偿权重项与距离惩罚权重项,受上述方法启发,文献[12]为ISS-LRF增加了一个基于高斯核函数的距离惩罚项,进而提出了3DBSC-LRF。文献[10]提出的RoPS-LRF方法在网格数据上对局部三角面进行连续积分,使用平方距离权重和归一化三角面片面积权重来解决上述两种干扰,为研究密度权重与距离权重的占比及溢出点的干扰情况,文献[10]后续又提出了TriSI-LRF[11]。与RoPS-LRF类似还有文献[13]提出的HGND-LRF,该方法将RoPS-LRF的二次距离权重项替换为高斯核函数距离权重项,能够调试出合理的距离权重。

不同于上述方法在坐标空间中对点设计权重,文献[9]和文献[14]在法向量空间中设计密度及距离惩罚项,分别提出了Santos-LRF与FFIS-LRF,两种方法分别使用维诺图和三角面片划分三维表面,以胞元或三角面的法向量作为表示,将胞元及三角面片的归一化面积作为密度权重,在二次项距离的反比作为距离惩罚项,在法向量空间中构建LRF。

图片
图片

1.2 基于点几何属性分析的LRF构建方法

基于点几何属性分析的LRF构建方法见表2。与基于CA的方法不同,基于点几何属性的方法采用点的几何属性分步确立Z轴、X轴和Y轴。

图片
图片

基于GA的方法一般选取一个小的邻域半径估计Z轴,然后在一个大的半径范围内利用点的几何属性作投票得出最显著的方向,最后将该方向投影到Z轴所在切平面得出X轴。常用的几何属性包括:有向距离值[15,19-24],法向量夹角[17],梯度[18,26],特征向量值[16,25],学习的点或胞元权重[27-28]。有向距离是最为常用的几何属性,这里着重介绍PS-LRF[15] 和FLARE-LRF[19]两种典型方法。

文献[15]提出了经典的PS-LRF方法,该LRF使用关键点处的法向量作为Z轴,然后通过球面与表面相交得到轮廓点,并将最大有向距离的点的方向投影到Z轴定义的切平面上作为X轴,但该方法未考虑Z轴的方向歧义性,因此Z轴的重复性不高。

文献[19]提出的FLARE-LRF采用一个较小的半径(5mr,mr为点云分辨率)估计法向量,并以局部表面质心修正其方向,然后采用靠近边界(0.85R~R,R为局部邻域半径)的邻域点的最大有向距离点的投影方向作为X轴。

在上述两种方法的启发下,文献[20]提出了ToLDI-LRF,该方法以距离中心点的距离和投影距离作为权重,将邻域点的投影向量的加权平均方向作为X轴。

在ToLDI-LRF的基础上,BROPH-LRF[22]用SHOT-LRF的求取的Z轴替代了TOLDI-LRF的Z轴,IToLDI-LRF[20]和SPAH-LRF[21]则是探索了不同范数的距离中心点的距离权重及投影距离权重对LRF重复性的影响。

1.3 局部参考坐标系小结

现有的局部参考坐标系主要研究的核心在于距离权重项和密度权重项的设计,从方法发展的时间轴来看,基于几何属性的方法的相关研究更为主流,基于几何属性的方法由于采用了几何属性进行加权投票,因此能更好地应对残缺点云,而对于完整点云,基于协方差分析的方法能够获得更稳定的LRF.可参阅文献[15,29]进一步了解常见的LRF的性能。

02  三维手工局部特征描述符

手工特征描述符是指按照人的经验与知识设计的特征表示,一个有效的特征描述符须满足以下条件[1]:a.描述符具有强区分性;b.描述子应该对各类噪声和背景干扰具有稳健的不变性[31];c.描述符应易于计算且匹配高效。本研究将三维手工局部特征描述符按照是否采用LRF分为两类,即基于LRF的手工局部描述符和不依赖LRF的手工局部特征描述符。

2.1 基于LRF的三维手工局部描述符

基于LRF的三维手工局部描述符首先为三维局部表面建立一个可重复的LRF,然后将局部表面变换到该LRF下,进而实现局部表面的平移旋转不变性。此外,由于LRF提供了精确的空间划分信息,这类描述符大都将几何属性与空间信息关联起来,因此普遍具有鉴别力强、描述性好的优点,应用广泛,其不足在于LRF的稳定性对描述符的性能影响很大。依据这类描述符是否为浮点型,进一步将其分为基于LRF的浮点型和二值型的方法,其发展时间轴如图3所示,详细的分析见表3。

图片
图片
表3   基于LRF三维手工局部特征描述方法比较
表3 基于LRF三维手工局部特征描述方法比较

浮点型特征:在建立LRF后,该类方法利用LRF提供的空间信息构建浮点型的空间分布或者几何属性直方图。典型的方法包括点签名特征(PS)[15]、方向直方图签名(SHOT)[30]、旋转投影统计量(RoPS)[10]、三坐标平面深度图(ToLDI)[20]等。

PS[15]:该特征首先获取球面与表面的交叉线,并计算交叉线上的点到由关键点及其法线确定的平面的距离,然后通过最大有向距离确定X轴方向,最后统计有向距离值进而生成点签名特征,该方法的优点在于:由于采用直方图形式统计数据,因此对噪声比较稳健。但是,其缺点在于:a.由于采用球面与网格相交的方式确定边界点的计算量大,因此耗时很长;b.由于只统计了边缘点的有向距离信息,因此描述性不强;c.由于Z轴方向有歧义,且利用有向距离确定的X轴方向可能变化,因此造成该描述符的特征不唯一。后续采用投影距离或高度的特征还包括ToLDI[20],LHI[32]及WHI[33]。

SHOT[30]:该方法首先对局部球形表面建立参考坐标系,然后在极坐标下按照水平方位角、径向距离和垂直高度角三个维度将球体空间划分为32个子空间,接着统计每个子空间中的法线与Z轴的夹角的分布直方图,最后串接成直方图签名特征。该方法优于旋转图像(SI)[34]、指数映射(EM)及点签名特征描述符。为了解决弱几何信息的场景下的点云描述,文献[8]将颜色信息融合进来,进而提出了CSHOT特征,除在三维空间中描述法线分布外,高斯法线分布直方图(HGND)[35]在二维坐标平面统计法线投影的方向分布直方图。

RoPS[10]:该方法首先在三角格网数据采用连续主成分分解建立LRF,然后将局部表面绕三个坐标轴依次旋转模拟不同视点,并将旋转后的局部表面投影到三个坐标平面上,进而形成投影点密度图,接着在点密度图上提取低阶不变矩、香农熵等统计量,最后串接所有视点下的统计量形成RoPS特征描述。该方法对低高斯噪声及不同程度的网格下采样均表现稳健,特征匹配性能优于SHOT和旋转图像SI等描述符,在三维目标识别实验中识别精度远高于SI。

ToLDI[20]:该方法构建好局部坐标系以后,首先将局部表面单位坐标系下,然后将局部表面投影至坐标平面,形成三幅20×20的投影高度图,最后串接形成ToLDI特征描述符。该方法在Bologna数据集、UWA目标识别数据集及UWA配准数据集上的结果略优于RoPS,其缺点在于特征描述符维度较高,匹配效率较低。

二值化特征:由于浮点型描述符存储开销大且匹配低效,因此部分研究转向基于三维局部二值特征的研究。现有的三维局部二值特征绝大部分是基于LRF的方法,典型的方法包括二值方向签名直方图(BSHOT)[37]、三维二值上下文特征(BSC)[12]、旋转投影二值结构(RPBS)[38]和局部体素化结构(LoVS)[39]等。

B-SHOT[37]:该方法首先将SHOT特征描述以步长为4划分为一系列的四元组,然后采用五种二值化方案对每一个四元组进行二值化,最后将串接所有位即得到B-SHOT二值特征描述。该方法提高了SHOT的匹配效率,但是须要首先计算浮点型SHOT特征,因此计算效率并未降低。

BSC[12]:针对B-SHOT无法直接计算二值特征这一不足,文献[12]直接在局部表面上构建二值特征,首先构建LRF;然后将局部表面投影到三坐标平面上,分别得到点密度分布图,投影距离图,使用高斯函数平滑图像;接着在每幅图像上提取BRIEF二值特征;最后串接所有图像的二值特征,即可得到最后的BSC特征。该方法在Bologna数据集、UWA目标识别数据集及WH-TLS数据集上的性能均优于RoPS等浮点型特征。

RPBS[38]:BSC利用了二维图像中成熟的二值特征提取方法,而RPBS则是利用轮廓来表示形状。具体方法为:在建立LRF后,类似于RoPS特征,首先将局部表面绕三个坐标轴旋转,然后将旋转后的局部表面投影到三坐标平面上,根据每个网格的占据情况得到二值特征。该方法在Bologna数据集上的匹配性能优于RoPS和SHOT等浮点型特征。

LoVS[39]:不同于RPBS在投影的二维图像上建立占据二值图像,LoVS直接在三维空间中对局部表面完成体素化操作,该方法可以避免投影带来的信息损失,相较于RPBS,描述力更高。在Bologna和UWA三维配准数据集上的性能优于RoPS和SHOT等特征,但是该方法对网格下采样较为敏感。针对此问题,文献[40]提出了加权的体素化缓存二值描述符(VBBD),该方法使用高斯核函数平滑每个体素网格,解决了因下采样带来的空洞问题。

2.2 不基于LRF的三维手工局部描述符

基于LRF的三维手工局部描述符的性能与LRF的重复性密切相关,为减少不可靠的LRF对描述符的干扰,研究者提出了大量不基于LRF的三维手工局部特征,具体见图4,详细比较见表4。这类方法主要利用投影距离、法线夹角和形状索引等属性构成的一维、二维和三维属性分布直方图或者多属性协方差矩阵来编码局部表面,对噪声和点密度变化等干扰具有更强的鲁棒性,典型的方法包括旋转图像SI[34]、点特征直方图(PFH)[59]和多尺度协方差描述子(MCOV)[60]等。

图4   不基于LRF的三维局部特征的发展时间轴
图4 不基于LRF的三维局部特征的发展时间轴
图片
图片

SI[34]:旋转图像是最经典的三维局部特征描述子,该方法以关键点处的法向量为参考轴,统计圆柱面坐标系下的点云分布,以点到参考轴的距离和到切平面的距离两种属性构成的二维分布图来表示局部表面,后续为了解决局部表面的凹凸性带来的歧义,文献[61]提出了改进的旋转图像特征(ISI)。

PFH[59]:SI编码的是邻域点与关键点之间的空间关系,而PFH统计的则是点对间法线的相对差异信息。具体而言,任意两个包含法向量的点对,首先利用法线及连接向量建立Darboux框架,然后计算另一法线与该坐标框架的夹角信息,最后串接三个夹角直方图与一个距离直方图形成最后的PFH特征。该特征的优点在于使用了法线信息,能够捕获点云中更多的信息,不足在于计算复杂度高。为此,文献[62]提出了快速点特征直方图(FPFH),该方法只统计邻域点与中心点之间的特征直方图,最后采用加权的形式累加成FPFH特征,FPFH在保持PFH的高描述性的同时,极大降低了计算复杂度,后续的局部形状特征直方图(LSFH)[63]使用局部深度、法线夹角及水平投影一维直方图刻画邻域点与关键点之间的关系。局部点对特征(LPPF)则是使用关键点与邻域点的连接向量及该向量与邻域点法线的夹角构成的二维属性直方图来描述局部表面,使用类似的二维属性直方图来构造描述子的还有划分的局部特征统计量(DLFS)[64]、点对特征直方图(HoPPF)[65]及点对变换特征直方图(PPTFH)[66]等。后续的子划分空间偏差角统计量(SDASS)[24]则是构建以邻域点与法线夹角,邻域点到参考轴及切平面的距离的三维属性直方图来描述局部表面。由于这些方法采用共生统计的方式,因此具有较高的鉴别力。

MCOV[60]:上述描述符描述的是点对之间的属性分布,而描述所有邻域点集之间的属性关系能够获得更加有效的表面信息,MCOV使用协方差矩阵刻画邻域点坐标点及颜色六个属性维度的相关性。ACOV进一步使用局部表面的十种统计属性的协方差矩阵来描述局部表面,该方法的特征匹配性能优于SHOT和FPFH等描述符。

2.3 手工三维局部特征描述符小结

三维手工局部特征发展了近三十年,涌现出大量的研究,本研究将其分为两类,即基于局部参考坐标系的方法与不依赖局部参考坐标系的方法。前者的鉴别力与局部参考坐标系的稳定性关系密切,一般在局部参考坐标系下建立签名或者直方图签名特征,能够在高精度、完整的点云数据达到远优于其他方法的结果,典型的如模型检索;后者考虑到实际数据中表面不完整、噪声等干扰的影响,一般以属性直方图的形式刻画局部表面,能够有效地应对噪声、分辨率变化的干扰,典型的如场景配准。现有的研究趋势是将两者的优势结合起来,局部参考坐标系提供精确的空间信息,属性直方图等提供鲁棒的抗干扰能力。

03  学习型三维局部特征描述符

三维局部特征描述符经过从传统的基于手工设计的方法到基于学习的方法的发展,根据不同输入表示,可分为基于多视图的方法、基于体素的方法及基于点集的方法。学习型三维局部特征描述符的发展时间轴如图5所示,详细的比较分析见表5。

图片
图片
图片
图片

3.1 基于多视图投影的方法

基于多视图的方法的核心思想为:首先将多个视角下的局部表面作为网络输入,然后采用深度网络融合多个视角的信息。典型的方法包括MVDesc[41],LMVCNN[77],MP[78],LMVD[43]和YOHO[79]等。这类方法的研究重点在于视点的选择与投影方式的设计,下面介绍三种典型的方法。

MecP[78]:针对现有的手工描述符表达力不足,学习型描述符对旋转鲁棒性差及部分描述符维度过高的问题。文献[78]提出一种基于墨卡托投影的局部表面表示,首先为局部表面建立一个参考坐标系,然后利用墨卡托投影保角保几何的特性,将局部表面投影到60×60的柱面地图上,并采用孪生卷积神经网络将图像压缩成32维特征,该方法在Bologna数据集特征匹配结果优于现有的手工特征描述符,在3DMatch数据上的特征匹配结果优于3DMatch,CGF,PPF-Net,Folding-Net,PPF-FoldNet和3DFeat-Net。

LMVD[43]:针对现有的基于多视图的局部描述符通常认为选取一组固定的视点来获取视图信息,这种视点选取的方式与后续的多视角信息融合过程是分离的,文献[43]利用可微化渲染提出采用软栅格化技巧将视点的选择作为优化参数,与后续的特征表面进行联合训练,有效解决了人工视点显著性不足的问题。该方法在室内3DMatch数据集上具有更高的鉴别力,对表面旋转、稀疏点云表现稳定,同时在室外的KITTI数据集上的泛化能力也较好。

YOHO[79]:针对现有的学习型描述符大多依赖手工设计的局部参考坐标系获得旋转不变性,但现有的局部参考坐标在面对噪声与点密度变化时稳定性差的问题,文献[79]首先为局部表面设置20个均匀分布的视点,对于每个视点,将局部表面旋转到该视点下,然后采用PointNet[80]或FCGF获取压缩的特征表示,最后使用群卷积和最大池化获得多视点融合后的旋转等价的特征表示。该方法在3DMatch数据集上的特征匹配性能优于LMVD[43]和SpinNet[81]等方法。

3.2 基于体素的方法

基于体素的方法的核心思想为:首先采用体素化表达的方式将三维局部表面有序化,然后采用类似于二维图像中的卷积神经网络的方式提取特征表示。这类方法能够较好保持三维数据本身的空间信息,典型的方法包括3DMatch[47],CGF[48],3DSmoothNet[82]和SpinNet[81]等。

3DMatch[47]:文献[47]针对传统手工描述符在低分辨率、高噪声及残缺表面等干扰下难以建立有效特征对应这一情况,提出了一种基于截断距离函数(TDF)体素化局部表面,并采用类似AlexNet网络架构,以双流权重共享的孪生网络训练网络,最终得到512维特征,相比于传统手工描述符,显著提升了三维重建方面的性能。但由于该方法未提前对局部表面进行姿态归一化,因此对旋转十分敏感。

CGF[48]:文献[48]针对传统手工描述符在精度、紧凑性和鲁棒性三方面难以兼顾的问题,提出了一种基于球面坐标表示的深度网络。与USC相同,该方法首先构建一个局部参考坐标系,然后将所有的局部点云投影到球面坐标系下,每个球面体素内计算归一化的点密度信息,最后采用三元损失函数的五层的全连接网络进行训练,得到更加紧凑及精确的局部描述符,但受限于网络深度及LRF的原因,CGF的精度及旋转鲁棒性仍有较大提升空间。

3DSmoothNet[82]:文献[82]针对3DMatch的旋转不变性差、特征维度高且泛化能力不足的问题,首先利用建立的LRF消除局部表面的姿态歧义,然后在LRF下建立体素化表示,并采用高斯核函数平滑每个体素网格,使用类似于L2-Net的堆叠卷积层构建网络,最后采用双流共享权值孪生网络进行训练,但受限于网络深度的原因,CGF的精度仍有较大提升空间。

SpinNet[81]:文献[81]针对现有描述符的表达力、旋转不变性及泛化性不强的问题,提出了一种旋转不变的柱面体素网络。该方法首先利用空间变换模块将局部表面从球面体素空间变换到柱面体素空间,然后神经特征提取模块先后采用MLP和3DCNN提取单个体素的特征及体素间的空间结构特征。可重复的法线和CNN的平移不变性赋予了该特征的旋转不变性,使用高维非线性特征对单个体素进行表示减少了数据的损失,该方法在3DMatch和KITTI里程计数据集上具有极强的泛化性。

3.3 基于点集的方法

基于点集的方法其核心思想是直接在无序点集上学习三维局部特征表示,不须要提前将三维点云变换到有序的数据结构,例如图像和体素等。这类方法的核心是基于PointNet[80]及PointNet++[83]架构对点特征进行编码,典型的方法包括PPF-Net[35],PPF-FoldNet[84],D3Feat[54],DIPs[85]及GeDi[36]等。

PPF-Net[35]:文献[35]提出了一种直接在原始点云上操作,且具备感知全局上下文的局部特征描述符。该方法首先利用mini-PointNet对N个局部块提取局部特征,每个局部块以点坐标、法线及4维点对特征作为输入,然后采用最大池化提取局部块的全局特征,最后与单个局部特征串接并融合,采用双流孪生网络和一个N元损失函数训练。该方法相比3DMatch有一定提升,但是在旋转后的3DMatch数据集上表现不佳。

PPF-FoldNet[84]:文献[84]针对PPF-Net对于旋转操作很敏感这一问题,提出了一个无监督的编码解码网络。为抵抗旋转带来的影响,该网络的将局部块的旋转不变的点对特征作为输入,编码器部分采用类似PointNet的网络结构,解码器则是与Folding-net类似,采用MLP进行两次折叠,重构出局部点对特征,最后采用倒角距离衡量误差。该方法相比于PPF-Net在抗旋转方面更加鲁棒,但是由于只采用了简单的局部点对特,没有使用点的坐标信息,因此学习的描述符精度有待进一步提升。

D3Feat[54]:受二维图像中的D2-Net[86]启发,针对随机采样的关键点会降低描述符的匹配精度这一问题,提出了联合学习关键点检测和描述的网络。该方法采用归一化的核点卷积(KPConv)的残差模块与跳接U-net结构构建全卷积网络,选取特征通道内与局部邻域内最显著的点作为关键点,使用数据增强提升学习描述符对噪声、尺度及旋转的影响。当关键点数量较少时,该方法在3DMatch和KITTI数据集上具有更高的配准精度。

DIPs[85]:文献[85]提出了一种基于PointNet架构的局部特征学习框架,该方法首先为局部表面计算参考坐标系,并粗对齐局部点云,然后使用仿射变换网络(Affine T-Net)进行精对齐,最后使用PointNet将精对齐后的点云压缩成低维度的归一化特征。该方法在3DMatch和ETH数据集上的特征匹配性能优于FCGF和3DsmoothNet等。后续该作者又使用四元数网络(Q-Net)代替仿射T-Net,提出了GeDi[36],该方法进一步提升了描述符的特征匹配性能。

3.4 学习型三维局部特征描述符小结

学习型三维局部特征描述符首先使用数据增强、构建参考坐标系或构建旋转不变性特征对抵抗旋转的影响,然后以多视图、体素或点集方式作为输入,以共享权值的孪生网络或者三元网络进行训练,在特征数据上的性能要优于传统手工描述符,但是由于不同数据集上点分布特性差异较大,因此对于上述三种不同表示学习型特征,基于体素表示的方法能保持局部表面的三维结构,但存储开销最大;基于多视图的表示方法会因视点及投影的原因造成信息损失,故表示力相对较差;基于点集表示的方法能够直接作用于点集,但对采样点的分布比较敏感,这些原因造成大多数学习型描述符的通用性不强,不能应用于不同的数据分布及特定场景。针对这些局限性,一种研究趋势是构建通用型的学习型描述符,能够跨数据集学习出通用性的特征,包括SpinNet[81],GeDi[36]和MS-SVConv[87]。

3.5 常用数据集及性能对比

表6呈现了三个常用的三维描述子数据集,分别为3DMatch数据集[47]、ETH数据集[88]及KITTI数据集[89] ,其中3DMatch数据集[47]是由Kinect深度传感器生成的室内场景点云,数据质量高。后续对3DMatch数据集中点云进行旋转得到的3DMatchRotated数据集[47],该数据集被用于验证描述子对室内旋转场景点云的鲁棒性。而ETH数据集[88]则是采用Hokuyo UTM-30LX扫描仪对不同季节的室外场景扫描而成,相对于3DMatch[47]结构化场景,ETH数据集的点云更为散乱。KITTI[89]则是通过车载的Velodyne HDL-64线激光雷达扫描而成,不仅点云密度不均,而且存在大量空洞,因此挑战性最大。

a.3DMatch数据集上描述子的匹配性能。如表7所示,学习型三维描述子(FCGF和SpinNet等)的平均匹配召回率远高于传统手工描述子(SI,SHOT,FPFH及USC)。这是因为3DMatch数据集的点云存在范围的机构化表面(平面),传统的手工特征难以提取有效的几何信息,从而导致大量错误匹配的产生。而在3DMatchRotated数据集上,传统方法的性能基本保持不变,这是因为手工描述符针对旋转设计相应的旋转不变性特征,而早期的深度学习型描述符(CGF,3DMatch和PPF-Net)的性能出现大幅降低,说明它们对点云旋转极为敏感。而最新的深度学习型描述符(SpinNet和DIPs)由于设计相应抗旋转策略,因此能够保持最优。

图片
图片
表7   3DMatch数据集上的平均匹配召回率
表7 3DMatch数据集上的平均匹配召回率

b.ETH数据集上描述子的匹配性能。如表8所示,在室外半结构化场景中,学习型三维描述子(CGF,3DMatch,PPF-Net及FCGF)的平均匹配性能显著降低,此时传统手工描述子SHOT的性能远远优于上述方法。这是因为SHOT构造了稳定可重复的LRF,类似于SHOT,DIPs及GeDi方法构造了更为精确的LRF信息,从而极大提升了描述子的鉴别力。

图片
图片

c.KITTI数据集上描述子的匹配性能。如表9所示, 各描述符的匹配性能通过场景点云配准结果体现。所有的深度学习方法均获得满意的配准结果,说明深度学习方法能够在KITTI移动激光雷达点云上学习出有效的三维局部描述子。

图片
图片

04  研究展望

三维局部特征描述是三维计算机视觉的研究基础,近年来大量的研究相继涌现,本研究将其涉及的三个方面,即局部参考坐标系、手工局部特征及学习型特征进行分类阐述,简要分析总结了现有的方法的优缺点及面临的挑战,为初入三维局部特征描述符这一领域的读者提供参考。

尽管近些年在三维数据的局部特征提取方面取得极大的进展,但是仍旧面临诸多挑战,也进一步明确了未来须要继续研究的方向。

a.低质量数据的特征提取问题。现有方法能够在高质量、稠密的点云数据中表现优异,但是当数据质量降低(高噪声、极低分辨率、大量空洞等)时,很多几何属性的统计会出现问题,此时算法将面临极大挑战,因此设计能够应对低质量数据的描述符是一个值得研究的方向。

b.深度学习方法的泛化性问题。现有的学习型方法大都在特定的数据集上训练,但是当面临特定的应用场景或者不同分布的数据时,方法基本失效,因此研究跨数据集的通用性的学习型描述符是一个值得探索的方向。

c.多数据融合的特征描述符。现有大部分方法仅采用几何属性信息构建描述符,在一些几何属性缺乏的场景中提取有鉴别力的信息将面临极大挑战,合理将多种传感器的数据融合起来,能够极大地提升描述符的鉴别力。

d.融合局部信息和全局信息点云描述符的设计。本研究的点云局部描述符侧重于编码邻域点的局部信息,然而由于局部重复模式、表面对称性等干扰,使用局部描述符难以建立可靠的点对应关系,而从关键点出发的全局信息能够捕获更多非歧义的信息,因此有必要设计结合局部和全局信息的点云描述符来实现更全面的几何表示。

e.融合纹理和几何信息点云描述符的设计。本研究的点云局部描述符侧重于编码关键点的邻域几何分布信息,然而当描述几何信息单一但纹理信息丰富的对象(壁画)时,无法建立正确的点对应关系,而从目标的颜色纹理信息出发能够获得更有区分性的信息,因此有必要设计融合纹理和几何信息的点云描述符来实现更有区分性的局部表示。

  1. 轻量级实时三维激光雷达SLAM,面向大规模城市环境自动驾驶
  2. 现实虚拟化:从三维重建到逆渲染(Inverse Rendering)
  3. 书籍推荐-《3D计算机视觉》
  4. 多视图点云配准算法综述
  5. 动态场景下基于自适应语义分割的RGB-D SLAM算法
  6. 书籍推荐-《基于Python的3D深度学习》

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01  局部参考坐标系
    • 1.1 基于协方差分析的LRF构建方法
      • 1.2 基于点几何属性分析的LRF构建方法
        • 1.3 局部参考坐标系小结
        • 02  三维手工局部特征描述符
          • 2.1 基于LRF的三维手工局部描述符
            • 2.2 不基于LRF的三维手工局部描述符
              • 2.3 手工三维局部特征描述符小结
              • 03  学习型三维局部特征描述符
                • 3.1 基于多视图投影的方法
                  • 3.2 基于体素的方法
                    • 3.3 基于点集的方法
                      • 3.4 学习型三维局部特征描述符小结
                        • 3.5 常用数据集及性能对比
                        • 04  研究展望
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档