单视角下AI也可以计量长高距离

计算机视觉研究院

发布于 2023-11-17 15:51:14

2800

发布于 2023-11-17 15:51:14

文章被收录于专栏：计算机视觉战队计算机视觉战队

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

大多数3D重建方法可能仅恢复高达全局尺度模糊度的场景属性。我们提出了一种新的单视图度量方法，该方法可以仅使用在无约束条件下获取的单眼图像来恢复由物体的3D高度或地面以上的相机高度以及相机的方向和视野参数表示的场景的绝对比例。

01

前景概要

大多数3D重建方法可能仅恢复高达全局尺度模糊度的场景属性。我们提出了一种新的单视图度量方法，该方法可以仅使用在无约束条件下获取的单眼图像来恢复由物体的3D高度或地面以上的相机高度以及相机的方向和视野参数表示的场景的绝对比例。我们的方法依赖于深度网络学习的数据驱动先验，该深度网络专门设计用于通过估计边界框投影来吸收未知相机与3D实体（如物体高度）相互作用的弱监督约束。我们利用自然图像中常见的人类或汽车等对象的分类先验作为尺度估计的参考。我们在几个数据集上展示了最先进的定性和定量结果，以及包括虚拟对象插入在内的应用。此外，我们输出的感知质量通过用户研究得到了验证。

02

背景

从图像重建3D场景是计算机视觉中的一个基本问题。尽管在这项任务上取得了许多成功，但以前的大多数作品只重建了未知规模的场景。这适用于许多问题，包括未校准相机的运动结构（SfM）、野外单目相机校准和单图像深度估计。这种模糊性是图像形成的投影性质所固有的，解决它需要额外的信息。例如，Criminisi的开创性工作“单视图计量”依赖于场景中参考对象的大小。

在这项工作中，我们考虑了“野外”的单视图度量问题，其中对于由未知大小的对象组成的无约束场景，只有单个图像可用。特别是，我们计划通过具有绝对比例估计的几何相机校准来实现这一点，即恢复相机方向（或者，图像中的地平线）、视野和相机离地面的绝对3D高度。给定这些参数，可以将图像空间中的任何2D测量转换为3D测量。我们的目标是利用现代深度网络构建一种适用于各种图像的稳健、自动的单视图计量方法。解决这个问题的一种方法可以是训练深度神经网络，使用具有已知绝对3D相机参数的图像数据库来预测场景的规模。不幸的是，目前还不存在这样大规模的数据集。相反，我们的见解是利用具有2D对象注释的大规模数据集。特别是，我们观察到，人类和汽车等特定类别的物体在野外的图像中无处不在，这将是推断3D尺度的好“参考物体”。

虽然在之前的工作中已经使用了使用已知类的对象作为参考来重建相机和场景3D属性的想法，但我们通过在图像形成模型中进行较少的近似来显著扩展这项工作（例如，全透视相机与零相机俯仰角、无限焦距），从而更好地对野外图像进行建模。此外，我们的方法学习以端到端的方式预测所有相机和场景属性（对象和相机高度估计、相机校准）；相比之下，以前的工作依赖于处理每个子任务的单独组件。我们证明，这种整体方法在各种数据集（SUN360、KITTI、IMDB-23K）上的所有这些任务中都取得了最先进的结果。我们还演示了我们的方法在虚拟对象插入等应用程序中的使用，在这些应用程序中，我们自动创建具有已知维度的3D对象的语义有意义的渲染图（见上图）。

03

新框架

从二维注释恢复三维参数

我们假设世界由一个主要的地平面和一台观察场景的相机组成，所有物体都位于地平面上。我们采用了类似的透视相机模型，该模型由相机角度（偏航角、俯仰角θ和滚转角ψ）、焦距f和相机距地面高度hcam参数化（见下图）。对于图像帧纵轴上的测量，地平线的位置为v0，而垂直图像中心位于vc。每个对象边界框在图像中都有一个顶部vt和底部vb位置。我们假设所有图像都是在零滚动的情况下拍摄的，或者事先进行了校正。在不失一般性的情况下，我们进一步假设校正产生零偏航和零失真。

ScaleNet: Single View Metrology Network with Absolute Scale Estimation

先前的工作表明，当场景参数（例如相机参数、对象大小）合理时，重新投影的2D边界框应该理想地适合图像帧中检测到的边界框。我们在弱监督学习框架中遵循了类似的路径，并特别关注人类和汽车，因为它们是野外图像数据集中最常见的对象类别（例如COCO数据集）。我们的端到端方法，称为ScaleNet（SN），分为两部分，我们在下图中进行了描述。首先，通过几何相机校准网络联合估计除相机高度外的所有对象边界框和相机参数。这些参数在训练过程中受到直接监督。其次，一系列类似PointNet的网络基于先前的输出来估计和细化相机高度（场景比例）。第二部分在每个阶段使用边界框重投影损失进行弱监督。

04

实验及可视化

（下图左）带GT实况高度的注释人员边界框（红色）和带关键点的检测人员（绿色）（彩色）。（右）立柱比例计算。在下图中，直立比例计算为lactual/lupright，考虑到人的姿势的3D中实际比例的近似值。将其乘以预测直立高度以获得实际高度，并将高度先验应用于预测直立高度。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗