前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3D视觉

3D视觉

作者头像
hotarugali
发布2022-05-27 16:11:42
1.3K0
发布2022-05-27 16:11:42
举报

1. 简介

随着自动驾驶、AR & VR 等技术的发展,3D 视觉的研究正方兴未艾。目前 3D 视觉的两个主要问题是:

  • 从一张 2D 图像预测得到 3D 表示
  • 处理 3D 表示数据来实现下游任务(分类、检测、分割等)

2. 3D 表示

目前 3D 视觉表示主要有 555 种方法:深度图(Depth Map)、体素(Voxel Grid)、隐表面(Implicit Surface)、点云(Point Cloud)、网格(Mesh)。

2.1 深度图

深度图(Depth Map)表示是指在原来的 2D 图像基础上,再增加一个深度图信息。

2.1.1 RGB-D

一种直接的方式是测量 2D 图像中每个点到相机的距离作为深度图,也即:

  • RGB image + Depth image = RGB-D image (2.5D)

然而这种方式其实不是完全的 3D,因此我上文写的是 2.5D。因为这样表示的深度图缺乏尺度信息,因而会对实际的深度产生歧义:

针对这个问题,Eigen 等人[1]提出了一种 scale-invariant MSE 损失,来训练其提出的深度图预测网络。scale-invariant MSE 损失的主要思想如下:

其中,y, y^* 分别表示网络预测的深度图和 ground truth。

yy^* 的尺度缩放时,即y = C y^* 时,有d = \log{C},代入(1) 可计算得 D(y, y^*) = 0。因此,该损失函数即为 scale-invariant 的。

Eigen 等人提出的神经网络结构如下:

2.1.2 RGB + Surface Normal

另一种类似表示 3D 视觉信息的方法是对 RGB 图像中的每个像素,给出其所在物体表面的法向量,也用 333 个通道进行表示,即 Surface Normal。这样也能在一定程度上表示 3D 物体的空间结构信息。

Eigen 等人[2]在第二年又提出了从 RGB 图像预测 Depth Map、Surface Normal 和 Semantic Label 的统一神经网络模型,其结构如下图所示:

在这篇文章[2:1]中,Eigen 等人分别针对 Depth Map、Surface Normal 和 Semantic Label 给出了不同的损失函数:

  • 如果使用该模型来预测 Depth Map,则给出的损失函数为:
  • 其中,D = \log{y}, D^* = \log{y^*}y, y^* 分别表示网络预测的深度图和 ground truth。与式 (1) 一样,d = D - D^* 。相比于式 (1) ,式 (2) 增加了两个梯度项,\nabla_x d_i \nabla_y d_j 分别表示 d x,y 轴上的梯度,从而使得 y y^* 不仅在数值上相近,在结构上也相近。 不难证明,当 yy^* 的尺度缩放时,即 y = C y^* 时,依然有 L_{\mathrm{depth}}(D, D^*) = 0 ,因此该损失也是 scale-invariant 的。
  • 如果使用该模型来预测 Surface Normal,则给出的损失函数为:
L_{\mathrm{normal}}(N, N^*) = -\frac{1}{n} \sum_i N_i \cdot N_i^* \tag{3}

其中,NN^* 分别表示网络预测的 Surface Normal 和 groud truth,N_iN_i^* 都是 3 维的单位法向量,(\cdot) 为向量间的点积。 两个单位法向量之间的点积其实就是二都的角度余弦,当二者重合时值最大,当二者反向时值最小,故损失函数加了一个负号。

  • 如果使用该模型来预测 Semantic Label,则给出的损失函数为:
L_{\mathrm{semantic}}(C, C^*) = -\frac{1}{n} \sum_i C_i^* \log{C_i} \tag{4}

其中,C_i 是网络最后一层经过 Softmax 给出的预测标签,C_i^* 为 ground truth。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 简介
  • 2. 3D 表示
    • 2.1 深度图
      • 2.1.1 RGB-D
      • 2.1.2 RGB + Surface Normal
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档