前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Facebook AI 推出可提高 3D 理解力的“3DETR”和不依赖标签的自监督学习机制“DepthContrast”

Facebook AI 推出可提高 3D 理解力的“3DETR”和不依赖标签的自监督学习机制“DepthContrast”

作者头像
代码医生工作室
发布2021-10-19 14:42:00
8550
发布2021-10-19 14:42:00
举报
文章被收录于专栏:相约机器人

在当今世界,开发能够理解世界 3D 数据的系统至关重要。例如自动驾驶汽车需要 3D 理解才能移动并避免与物体碰撞。相比之下AR/VR 应用程序可以帮助人们进行日常活动,例如想象沙发是否适合客厅。

计算机视觉是一个人工智能领域,它采用机器学习 (ML) 和深度学习 (DL),使计算机能够以与人类相同的方式观察、识别和解释图像和视频中的对象。DL 方法论的最新进展和技术突破极大地增强了计算机视觉系统的能力。

高性能计算机视觉 (CV) 模型使用大型标记数据集进行预训练。但是它尚未广泛用于 3D 识别任务,例如在客厅的 3D 扫描中检测和定位一件家具。这是因为注释数据的稀缺性和标记 3D 数据集的耗时性。此,3D 理解模型经常依赖于与用于训练的特定 3D 数据集密切相关的手工架构设计。

Facebook AI 引入了3DETR和DepthContrast,这两个免费的新模型可以提高 3D 理解力。这些模型通过提供使 3D 理解更容易的通用 3D 架构和不依赖于标签的自监督学习机制,使入门更容易。

3DETR:用于 3D 数据建模的转换器

3D 检测转换器,简称 3DETR,是一种转换器架构,可用作检测和分类应用程序的通用 3D 主干。

2D 数据在 2D 照片和电影中表示为规则的像素网格,而 3D 数据表示为点坐标。3D 数据集通常比图像和视频数据集小很多,因为3D 数据更难获取和分类。因此它们的整体大小和它们包含的类的数量经常受到限制。

3DETR 将 3D 场景作为输入并输出场景中对象的 3D 边界框集合(表示为点云或 XYZ 点坐标集)。研究人员使用了 VoteNet,一种在 3D 点云中检测对象的模型,以及识别变换器 (DETR),一种更简单的架构,用于重新定义对象检测的难度。

该模型建立在 Transformers 之上。根据该团队的说法,要让 Transformer 用于 3D 理解,它们需要:

  • 傅立叶编码,提供了一种更好的方式来表达 XYZ 坐标。
  • 非参数查询嵌入,使它们的随机点采样能够适应 3D 点云的移动密度,而无需参数来预测位置。

进一步指出,这些设计考虑是必不可少的,因为点云包含空白空间和噪声点的混合。

Transformer 编码器使用点云输入创建场景中对象形状和位置坐标的表示。它通过执行一系列自我注意程序来捕获识别所需的全局和局部上下文来实现这一点。它可以在 3D 环境中自动识别几何属性。

这些点特征被输入到 Transformer 解码器中,后者返回一组 3D 边界框。在点特征和查询嵌入上,它执行多个交叉注意程序。解码器的自注意力表明它专注于项目以预测它们周围的边界框。Transformer 编码器也足够通用,可用于其他 3D 任务,如形状识别。

DepthContrast:自监督预训练

当今的技术使收集 3D 数据变得更加容易。然而,主要的挑战在于理解这些数据,因为 3D 数据具有不同的物理特性,具体取决于它的获取方式和位置。

此外,获取多视图 3D 数据比单视图 3D 数据更具挑战性。因此人工智能研究中使用的大部分 3D 数据都是作为单视图深度图收集的,然后通过 3D 配准进行后处理以生成多视图 3D。由于源照片不足或相机运动明显,将单视图数据转换为多视图数据的失败率高达 78%。

DepthContrast 表明学习最先进的 3D 特征可以仅使用单视图 3D 数据来完成。DepthContrast 从任何 3D 数据(无论是单视图还是多视图)训练自监督模型,从而消除了处理小型未标记数据集的困难。

DepthContrast 通过对比学习对齐从这些改进的深度图中提取的特征,从单视图深度图中构建不同的 3D 深度图。

该团队表明,该方法可用于预训练各种 3D 架构,包括 PointNet++ 和 Sparse ConvNets。更重要的是,DepthContrast 可用于任何形式的 3D 数据,无论它是在室内还是室外拍摄,是单视图还是多视图。

根据调查结果,使用 DepthContrast 预训练的 ScanNet 3D 检测基准模型绝对是最先进的。DepthContrast 的属性可以改进一系列 3D 基准测试,包括形状分类、对象检测和分割。

该团队希望 3DETR 和 DepthContrast 将帮助从业者开发更好的 3D 识别工具,而无需之前所需的高入门障碍和耗时的工程。

论文 3DETR:

https://arxiv.org/abs/2109.08141?

代码 3DETR:

https://github.com/facebookresearch/3detr

纸张深度对比:

https://arxiv.org/abs/2101.02691?

代码深度对比:

https://github.com/facebookresearch/DepthContrast?

资料来源:

https://ai.facebook.com/blog/simplifying-3d-understanding-using-self-supervised-learning-and-transformers/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档