点云目标检测已有成果速览

文章来源：企鹅号 - 3D点云深度学习

通过阅读已有目标检测成果，可以帮助我们摸索出一条合理的学习路径。

目前点云目标检测领域的成果大致分为以下几类：

基于鸟瞰图的方法：MV3D将Li-DAR点云投射到鸟瞰图上，并为3D边界框proposal训练一个region proposal网络（RPN）。然而，该方法在检测诸如行人和骑车人等小物体方面滞后，并且不能容易地适应具有垂直方向上的多个物体的场景。AVOD同样利用点云投影数据，克服了上述缺点。在KITTI竞赛的排行榜上目前排名第2.

基于3D的方法：3d fully convolutional network for vehicle detection in point cloud将整个场景的点云转换为体积网格，并使用3D体积CNN作为对象提议（proposal）和分类。由于3D卷积和大型3D搜索空间的昂贵成本，这些方法的计算成本通常相当高。

点云的深度学习：在特征学习之前，大多数现有方法将点云转换为图像或体积形式。 Voxnet将点云体素化为体积网格，并将图像CNN推广到3D CNN。Vote3deep设计更有效的3D CNN或利用点云稀疏性的神经网络体系结构。

基于Frustum的网络在KITTI Benchmark套件中表现出高性能。该模型在3D物体检测方面排名第二，如基于汽车，行人和骑车人的鸟瞰检测。这是唯一的方法，它使用Point-Net直接处理点云，而不使用激光雷达数据和体素创建的CNN。但是，它需要预处理，因此也必须使用相机传感器。基于另一个处理校准摄像机图像的CNN，它使用这些检测来将全局点云最小化为基于平截头体的缩减点云。这种方法有两个缺点：i）模型精确度强烈依赖于摄像机图像及其相关的CNN。因此，仅将这种方法应用于激光雷达数据是不可能的; ⅱ）总体网络必须连续运行两种深度学习方法，这会导致更高的推理时间和更低的效率。在NVIDIA GTX 1080i GPU上，参考模型的帧速率大约为7fps。

相反，周等人[3]Voxelnet提出了一个模型，只能操作激光雷达数据。就此而言，它是KITTI中仅使用激光雷达数据进行3D和鸟瞰检测的最佳模型。基本思想是在网格单元上运行端到端的学习，而不使用手工制作的特征。使用Pointnet方法在训练期间学习网格单元内的特征。在顶部建立一个预测3D边界框的CNN。尽管准确度很高，但该模型在TitanX GPU上只有4fps的低速度。

发表于: 2018-06-032018-06-03 21:39:26
原文链接：https://kuaibao.qq.com/s/20180603G1EGR000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

点云目标检测已有成果速览

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐