近年来,随着大规模训练数据和先进机器学习、深度学习算法的发展,三维目标检测的整体性能有了巨大的提高,三维目标检测也广泛应用于重建建筑物的建筑模型、自动驾驶、人脸检测、历史遗址保留、虚拟现实游戏等行业。
三维目标检测的数据表示形式有多种,例如RGB图像、立体像素化图像、多边形网格以及点云等。随着硬件设备性能的提升与人工智能技术的飞速发展,越来越多的领域开始使用激光雷达采集到的点云进行三维空间的场景理解,如自动驾驶、增强现实等,雷达点云不易受到外界因素的影响,具有较强的抗干扰能力且测距精度较高。而相机采集到的RGB图像却具有丰富的纹理信息和丰富的色彩,但是图像是缺乏深度的二维信息,存在由远及近的尺度问题,可以看出图像数据与点云数据各有优劣。
WIMI微美全息(NASDAQ:WIMI)开发了基于图像和点云融合的三维目标检测算法系统。以RGB 图像和含深度信息的点云数据为输入数据,对三维空间中的目标进行分类和定位,再经过一系列的特征提取、实例分割、3D框估计等操作,将图像和点云融合,利用多任务的相互增益,,大大提升三维目标检测准确率。
首先处理图像和点云数据,提取各自的特征,将特征输入到检测方法的不同阶段以进行3D边界框预测,提取出对应的目标数据。每个物体对应一个视锥体点云;其次,将每个物体的视锥体点云做为掩膜预测的输入数据,获得预测的物体掩膜,并利用物体掩膜结果投影至点云空间再形成视锥进行3D实例分与3D框估计,可有效地减小了场景中嘈杂点云对目标检测的影响。然后将最后层的特征连接在一起送入决策层进行特征融合和目标检测。为了精确地定位物体的3D位置,可以通过将点云数据中的点投影至图像平面来建立点和像素的关联,然后将图像特征融合入每个点中。将图像RGB特征融入点云数据在一定程度上是能够起到正向提升的效果,有效提升三维目标检测的精度。
随着三维数据获取技术的进步、计算能力的增强、深度学习技术的发展以及应用需求的增加,三维视觉技术的研究和应用受到越来越多的关注。目前,三维目标检测技术已经成为计算机视觉和自动驾驶领域的核心技术之一,与二维目标检测技术相比,在三维空间中进行目标的位姿估计对于实际应用场景更加重要。三维目标检测与识别是三维场景理解的关键技术,是机器理解世界并与世界交互的基础,在自动驾驶、智能机器人、智慧交通、自主导航等领域具有极其广阔的应用前景,WIMI微美全息也将不断拓展其基于图像和点云融合的三维目标检测算法的运用领域。
领取专属 10元无门槛券
私享最新 技术干货