前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Meta AI 的研究人员创建了用于对象识别的“OMNI3D”数据集和可以推广到看不见的图像的“Cube R-CNN”模型

Meta AI 的研究人员创建了用于对象识别的“OMNI3D”数据集和可以推广到看不见的图像的“Cube R-CNN”模型

作者头像
代码医生工作室
发布2022-11-17 08:35:14
4300
发布2022-11-17 08:35:14
举报
文章被收录于专栏:相约机器人相约机器人

长期以来计算机视觉一直难以从单个图像中理解对象及其特征,这一主题在机器人技术、辅助技术和 AR/VR 中都有应用。3D 对象识别问题提出了与从 2D 视觉输入中感知 3D 事物相关的新挑战。近十年来大规模数据集帮助 2D 对象识别在预测和定位 2D 图片网格上的项目方面取得了重大进展。另一方面世界是在三个维度中三维构建的。在这里目标是创建一个紧密定向的 3D 边界框,用于估计图片中每个项目的 3D 位置和范围。

目前正在研究 3D 对象识别的两个领域:内部环境和具有自动驾驶汽车的城市领域。尽管问题表述相似,但对城市和内部场景解决方案的跨领域见解很少。方法经常被设计成只在给定的域中起作用。例如城市技术代表 3D 旋转的偏航角,并假设对象位于地平面上。有限的深度范围用于室内程序(例如,高达 6m 英寸)。大多数时候这些假设对于现实世界中的事物和场景是不正确的。

使用图像进行 3D 对象识别的最广泛使用的基准也有点小。Urban KITTI拥有7k张照片,室内SUN RBG-D包括10,000张;相比之下像 COCO 这样的 2D 基准测试的范围要大 20 倍。他们引入了一个名为 OMNI3D 的大型且多样的 3D 基准测试,以解决缺乏用于 3D 对象检测的通用大规模数据集的问题。OMNI3D 是 234k 图像的集合,其中 300 万个对象用 97 个类别的 3D 框进行注释,包括椅子、沙发、笔记本电脑、桌子、杯子、鞋子、枕头、书籍、汽车、人等。它是从公开可用的数据集中策划的,包括 SUN RBG-D、ARKitScenes、Hypersim、Objectron、KITTI 和 nuScenes。

SUN RGB-D 和 KITTI 是 3D 检测的两个标准基准,比 OMNI3D 大 20 倍。它们为 3D 框技术提供了一种新颖、快速、批量和准确的交并并集技术,用于对大型数据集进行实际评估,比现有方法快 450 倍。使用证据证明 OMNI3D 作为海量数据集的价值,表明它可以在城市地区的基准测试中将单数据集的 AP 性能提高 5.3%,在室内空间的基准测试中提高 3.8%。在这个新的数据集上,开发了一种通用且简单的 3D 对象检测器,称为 Cube R-CNN,它产生跨领域的前沿成果,并受到近年来 2D 和 3D 识别方面的重大研究进展的推动。

Cube R-CNN 可以检测图像中的每个项目及其所有 3D 属性,包括旋转、深度和域。由于 OMNI3D 的复杂性,我们的模型表现出很好的泛化性,并且比使用单个集成模型的室内和城市环境的其他研究表现更好。从如此广泛的数据中学习存在困难,因为 OMNI3D 包含焦距剧烈波动的图片,这加剧了尺度深度的模糊性。他们通过虚拟深度在数据集中使用相同的虚拟相机内在函数转换对象深度来解决这个问题。

在训练期间使用数据增强(例如图片重新缩放)是 2D 检测的关键组成部分,正如所证明的,对于 3D 来说,虚拟深度也是一个额外的优势。与以前最先进的方法相比,采用单一统一设计的解决方案在室内 SUN RGB-D 上的 IoU3D 比 Total3D 高 12.4%,在城市 KITTI 上的 AP3D 比 GUPNet 高 9.5%。OMNI3D 的代码可在 GitHub 上找到。

https://arxiv.org/pdf/2207.10660v1.pdf

https://github.com/facebookresearch/omni3d

https://garrickbrazil.com/omni3d/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-08-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档