计算机视觉理论及其实现-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

计算机视觉理论及其实现

专栏成员

1715

文章

4065126

阅读量

73

订阅数

3D Object Proposals for Accurate Object Class Detection

图像处理图像识别自动驾驶无人驾驶机器学习

本文的目标是在自动驾驶环境下生成高质量的3D目标建议。我们的方法利用立体图像将提案以3D包围框的形式放置。我们将此问题表述为最小化一个能量函数，该函数编码目标大小先验、地平面以及几个与自由空间、点云密度和到地面距离有关的深度信息特征。我们的实验表明，在具有挑战性的KITTI基准测试上，与现有的RGB和RGB- d目标建议方法相比，性能有显著提高。结合卷积神经网络(CNN)评分，我们的方法在所有三个KITTI目标类上都优于所有现有的结果。

2022-09-23

5220

计算机视觉最新进展概览(2021年7月11日到2021年7月17日)

自动驾驶无人驾驶网络安全安全图像识别

自动驾驶汽车的目标检测通常基于摄像头图像和激光雷达输入，通常用于训练深度人工神经网络等预测模型，用于目标识别决策、速度调节等。这种决策中的一个错误可能是破坏性的; 因此，通过不确定性测度来衡量预测模型决策的可靠性至关重要。在深度学习模型中，不确定性通常用于衡量分类问题。然而，自动驾驶中的深度学习模型往往是多输出回归模型。因此，我们提出了一种新的方法，即预测表面不确定度(PURE)来测量这类回归模型的预测不确定度。我们将目标识别问题表述为一个具有多个输出的回归模型，用于在二维摄像机视图中寻找目标位置。为了进行评估，我们修改了三个广泛应用的目标识别模型(即YoLo、SSD300和SSD512)，并使用了KITTI、Stanford Cars、Berkeley DeepDrive和NEXET数据集。结果显示，预测面不确定性与预测精度之间存在显著的负相关关系，表明不确定性对自动驾驶决策有显著影响。

2021-07-20

5600

计算机视觉最新进展概览(2021年6月20日到2021年6月26日)

自动驾驶无人驾驶图像处理图像识别

1、3D Object Detection for Autonomous Driving: A Survey 自动驾驶被认为是保护人类免遭严重车祸的最有前途的方法之一。为此，三维目标检测是感知系统的核心基础，特别是在路径规划、运动预测、避碰等方面。一般来说，立体或单目图像中相应的三维点云已经是三维目标检测的标准布局，随着提供准确的深度信息，点云越来越普遍。尽管已有的努力，点云上的3D目标检测仍然处于起步阶段，原因是点云本质上高度稀疏和不规则，相机视图和激光雷达鸟瞰图之间的不对齐视图的模态协同，遮挡和规模变化在长距离等。近年来，在三维目标检测方面取得了深刻的进展，有大量的文献正在研究这一视觉任务。因此，我们将全面回顾该领域的最新进展，涵盖所有主要主题，包括传感器、基本原理和最新的最先进的检测方法及其优缺点。此外，我们将介绍度量并提供流行公共数据集的定量比较。未来工作的途径将在对调查工作进行深入分析后审慎地确定。最后，对本文进行了总结。 2、One Million Scenes for Autonomous Driving: ONCE Dataset 当前的自动驾驶感知模型因严重依赖大量注释数据来覆盖不可见的案例和解决长尾问题而臭名昭著。另一方面，从未标记的大规模收集数据中学习、逐步自我训练的强大识别模型越来越受到关注，可能成为下一代行业级强大、鲁棒的自动驾驶感知模型的解决方案。然而，研究领域普遍存在着现实场景中必不可少的数据不足的问题，这阻碍了未来全/半/自我监督的三维感知方法的探索。在本文中，我们介绍了用于自动驾驶场景的三维目标检测的ONCE(一百万场景)数据集。 ONCE数据集包括100万个激光雷达场景和700万个相应的相机图像。数据来自144个驾驶小时，比现有最大的3D自动驾驶数据集(如nuScenes和Waymo)长20倍，数据来自不同的地区、时间段和天气条件。为了便于未来利用无标记数据进行3D检测的研究，我们另外提供了一个基准，在此基准上我们在ONCE数据集上再现和评估各种自我监督和半监督方法。我们对这些方法进行了广泛的分析，并提供了与使用数据规模相关的有价值的观察结果。 3、SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving 为了促进一个真实的、不断发展和可扩展的自动驾驶系统，我们提出了一个大规模的基准，通过学习原始数据，对不同的自我监督和半监督方法进行标准化评估，这是迄今为止第一个也是最大的基准。现有的自动驾驶系统严重依赖“完美的”视觉感知模型(如检测)，这些模型使用大量标注数据进行训练，以确保安全。然而，在部署一个强大的自动驾驶系统时，要对所有场景和环境(例如夜晚、极端天气、城市)都精心标注是不现实的。基于自监督和半监督学习的强大发展，通过协同开发大规模无标记数据和少量标记数据学习鲁棒检测模型是一个很有前途的方向。现有的数据集(如KITTI、Waymo)要么只提供少量的数据，要么覆盖了有限的领域，并进行了完整的注释，阻碍了对大规模预训练模型的探索。在这里，我们发布了一个用于自动驾驶的大规模目标检测基准，名为SODA10M，包含1000万张未标记图像和20K张标记了6个代表性目标类别的图像。为了提高多样性，图像每10秒采集一次，在32个不同的城市中，在不同的天气条件下，时间段和场景。我们提供了广泛的实验和深入的分析现有的监督的最先进的检测模型，流行的自我监督和半监督方法，以及一些关于如何开发未来的模型的见解。 4、MODETR: Moving Object Detection with Transformers 运动目标检测(MOD)是自动驾驶系统的一项重要任务。 MOD通常通过融合了外观和运动线索的双流卷积结构处理，而没有考虑空间或运动特征之间的相互关系。在本文中，我们通过跨越空间流和运动流的多头注意机制来解决这个问题。我们建议MODETR; 一个运动物体检测Transformer网络，包括空间和运动形态的多流变压器编码器，和一个物体变压器解码器，使用集合预测产生运动物体的边界盒。整个体系结构使用双向损耗进行端到端训练。本文探讨了将运动线索与Transformer模型结合的几种方法，包括双流RGB和光流方法，以及利用序列信息的多流体系结构。为了整合时间信息，我们提出了一种新的时间位置编码(TPE)方法来扩展空间位置编码(SPE)。我们将为此探索两种架构选择，即在速度和时间之间实现平衡。为了评估我们的网络，我们在KITTI MOD[6]数据集上执行MOD任务。结果表明，显著的5%地图的Transformer网络MOD超过了最先进的方法。此外，提出的TPE编码比SPE基线提供了10%的mAP改进。 5、Multi-Modal 3D O

2021-06-29

9150

Thermal Object Detection using Domain Adaptation through

存储自动驾驶无人驾驶神经网络图像识别

最近发生的一起自动驾驶车辆致命事故引发了一场关于在自动驾驶传感器套件中使用红外技术以提高鲁棒目标检测可见性的辩论。与激光雷达、雷达和照相机相比，热成像具有探测红外光谱中物体发出的热差的优点。相比之下，激光雷达和相机捕捉在可见光谱，和不利的天气条件可以影响其准确性。热成像可以满足传统成像传感器对图像中目标检测的局限性。提出了一种用于热图像目标检测的区域自适应方法。我们探讨了领域适应的多种概念。首先，利用生成式对抗网络，通过风格一致性将低层特征从可见光谱域转移到红外光谱域。其次，通过转换训练好的可见光光谱模型，采用具有风格一致性的跨域模型进行红外光谱中的目标检测。提出的策略在公开可利用的热图像数据集(FLIR ADAS和KAIST多光谱)上进行评估。我们发现，通过域适应将源域的低层特征适应到目标域，平均平均精度提高了约10%。

2020-06-28

1.8K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态