首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

点云目标检测已有成果速览

通过阅读已有目标检测成果,可以帮助我们摸索出一条合理的学习路径。

目前点云目标检测领域的成果大致分为以下几类:

基于鸟瞰图的方法:MV3D将Li-DAR点云投射到鸟瞰图上,并为3D边界框proposal训练一个region proposal网络(RPN)。 然而,该方法在检测诸如行人和骑车人等小物体方面滞后,并且不能容易地适应具有垂直方向上的多个物体的场景。AVOD同样利用点云投影数据,克服了上述缺点。在KITTI竞赛的排行榜上目前排名第2.

基于3D的方法:3d fully convolutional network for vehicle detection in point cloud将整个场景的点云转换为体积网格,并使用3D体积CNN作为对象提议(proposal)和分类。由于3D卷积和大型3D搜索空间的昂贵成本,这些方法的计算成本通常相当高。

点云的深度学习:在特征学习之前,大多数现有方法将点云转换为图像或体积形式。 Voxnet将点云体素化为体积网格,并将图像CNN推广到3D CNN。Vote3deep设计更有效的3D CNN或利用点云稀疏性的神经网络体系结构。

基于Frustum的网络在KITTI Benchmark套件中表现出高性能。该模型在3D物体检测方面排名第二,如基于汽车,行人和骑车人的鸟瞰检测。这是唯一的方法,它使用Point-Net直接处理点云,而不使用激光雷达数据和体素创建的CNN。但是,它需要预处理,因此也必须使用相机传感器。基于另一个处理校准摄像机图像的CNN,它使用这些检测来将全局点云最小化为基于平截头体的缩减点云。这种方法有两个缺点:i)模型精确度强烈依赖于摄像机图像及其相关的CNN。因此,仅将这种方法应用于激光雷达数据是不可能的; ⅱ)总体网络必须连续运行两种深度学习方法,这会导致更高的推理时间和更低的效率。在NVIDIA GTX 1080i GPU上,参考模型的帧速率大约为7fps。

相反,周等人[3]Voxelnet提出了一个模型,只能操作激光雷达数据。 就此而言,它是KITTI中仅使用激光雷达数据进行3D和鸟瞰检测的最佳模型。 基本思想是在网格单元上运行端到端的学习,而不使用手工制作的特征。使用Pointnet方法在训练期间学习网格单元内的特征。 在顶部建立一个预测3D边界框的CNN。 尽管准确度很高,但该模型在TitanX GPU上只有4fps的低速度。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180603G1EGR000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券