来源:ECCV 2202 原标题:CLIFF: Carrying Location Information in Full Frames into Human Pose and Shape Estimation 论文作者:Zhihao Li 内容整理:王彦竣 本文讨论了自上而下的人体姿态估计方法中裁剪出人体图片而损失全局位置信息的问题,并提出了CLIFF("Carry Location Information in Full Frames"),通过将检测框的位置与裁剪图像的特征向量进行拼接,给网络提供了更加全局的信息,提高了网络的对于人体的全局旋转角以及姿态的估计精度。
目录
基于参数化人体从单张RGB图像重建三维人体姿态与形状,由于图片的深度模糊性,是一个欠约束问题。由于这个问题在 AR/VR 、动作分析等领域的重要性,它引起了很多关注。
正如计算机视觉中的一些其他任务,预测人体参数化模型有两种方法,自上而下的方法与自下而上的方法。前者首先检测图像中的人体,然后裁剪感兴趣的区域,并独立处理每个裁剪的图像。后者将完整图像作为输入并同时给出所有人的预测结果。自上而下的方法目前在该领域占主导地位,因为它与检测解藕,具有较高的召回率和精度。
然而自上而下的第一步:裁剪,丢弃了人体在图中的位置信息,而位置信息对于估计人体的全局旋转角非常重要。以下图为例子,当原图由一个对角线视场 (FOV) 55° 的透视相机所拍摄。经过剪裁后,三个输入图像看起来非常相似,由此会得到非常相似的预测。但实际上从原图可以看出,这三个人具有明显不同的全局旋转角。这个问题同样存在于其他的二维监督信息,如二维关键点。在裁剪后的图片中计算的二维关键点的损失并不是一个合适的监督,因为这个监督会使网络通过会扭曲肢体的方式来补偿全局旋转角的误差。也就是,缺少全图的信息会引入额外的歧义。
在上半部分,裁剪后的图像看起来很相似,因此得到了接近的预测 然而,三个预测中有两个是错误的(标记为红色)。实际上,从鸟瞰图可以看到,它们相对于原始相机具有明显不同的全局旋转角。在下部,三个全局旋转 是相同的,但再次有两个估计是错误的。
为了解决这个问题,本文提出的 CLIFF,通过对现有的自上而下方法进行两个主要的修改。首先,CLIFF 需要更多整体特征作为输入。除了分辨率固定裁剪的潜在代码图像,人体的边界框信息也被馈送到 CLIFF,用来编码人体在原始图像中的位置和大小,为模型提供预测全局旋转所需的充分信息。其次,CLIFF 在原始图像的尺度上计算2D重投影损失。模型通过在原始图像的相机坐标系下预测 3D 关键点,并投影到原始图像而非裁剪后的图像上。这些预测的 2D 关键点有一个与投影到图像中的人体一样类似的投影与透视失真的过程,这对于利用 2D 关键点间接优化 3D 信息有着重要的作用。由于 CLIFF 有全局信息的监督,它可以更加准确的预测相对于原相机的全局旋转以及更加准确的肢体姿态。
总的来说,本工作的贡献可以被概况为:
SMPL 人体参数化模型提供了一个可微分的函数,可以接受十几个参数作为输入
,
,
同时返回姿态三维人体模型
,其中姿态参数
包括了根节点(胯部)相对于某些坐标系如相机坐标系的全局旋转角度,以及 23 个人体关节沿着运动树的关系,相对于父节点的相对旋转角度。
HMR 是一种简单但被广泛使用的自上而下的 3D 人体形状与姿态估计方法,其结构如下图 (a) ,一个正方形裁剪的图片调整大小到 224 x 224 并传入一个卷积编码器,之后利用迭代的全连接回归器预测 SMPL 参数
,和相对于裁剪后图片的虚拟弱透视相机
的参数
,其中
是尺度参数,
和
是相对于
,沿着
和
的根平移。通过预先定义一个大的焦距
,
可以被转换为透视相机的投影参数
,其中
表示了相对于
沿着
,
和
的根平移:
其中
是裁剪后图片的分辨率。
HMR 的损失函数被定义为:
其中:
其中
,
,
是真实标签,而预测的裁剪图像中的 2D 关键点是通过透视投影
获得:
是一个全一的矩阵。
HMR模型与CLIFF模型示意图
正如上述描述,之前的自上而下方法只接受裁剪后的图像作为输入,然后在该图像上计算重投影损失,这可能导致不准确的预测。为了解决该问题,作者利用 HMR 作为基线方法,并提出了两种修改来构建 CLIFF,由上图中的(b)所示。
首先,CLIFF 会接受一个更加全局的信息作为输入,除了被编码等图像特征,裁剪区域的物体框信息
也会被送入网络:
其中
是它相对于原图中心的位置,
是裁剪图像的原始尺寸,
是 CLIFF 中使用的原相机
。除了归一化的作用之外,用
作为分母给了前两项几何意义:
其中
是
相对于原相机
坐标系的旋转角,由下图所示。因此,将
作为输入的一部分,回归器可以隐式地进行变换,并预测相对于
的全局旋转,这对于姿态的估计也有好处。而对于焦距,当真实值可知时,CLIFF 使用真实值,否则则估计焦距为
。其中
和
是全图的宽高,对应了一个 FOV 为 55° 的
。
其次,CLIFF基于全图计算重投影损失而不是裁剪后的图像,根平移从
到
的变换:
其中
表示相对于
沿着的
,
和
的根平移。之后我们将 3D 关键点投影到全局图像:
为了计算 2D 重投影损失:
其中真实标签
也是相对于全局图像。最终,CLIFF的总损失由如下式子计算:
预测得到的 2D 关键点
与原图中的人体有着相近的投影和透视失真,特别是当相机焦距
与真实值接近时。由此来看,
可以准确地监督 CLIFF 来做出更加准确的三维姿态预测,尤其是全局旋转。
基于 3D 标签(尤其是 SMPL 参数)的监督对于提升回归法的预测精度至关重要,但是现实数据集非常难以获取这些标注,因为他们需要特殊的设备与繁琐的采集流程。最近有许多基于CNN 的 为标签标注器被提出来解决这个问题。但是,它们所基于的模型对于人在原图像中的位置并不可知,导致它们产生不准确的标注,尤其是全局旋转上。
由此,本文提出了一个基于 CLIFF 的标注器,它使用全局位置感知信息进行馈送和监督,从而产生更好的全局旋转与关节姿势标注。如图 4 所示,该管线有四步来实现仅仅基于真实 2D关键点实现对显示数据集的 SMPL 参数标注。
,包括 3D 数据集和由 EFT 所生成的具有伪 GT 的 2D 数据集。预训练的权重用作从这些不同的数据集中获取的隐式先验,用于进行步骤 3 中的优化。
以预测 SMPL 参数
。虽然这些预测可能并不准确,但它们可以作为显式先验指导优化,并且成本很低,无需使用众包来采集姿势。
作为正则化,在目标数据集对与训练模型
进行微调,得到更新后的标注器
。此时的先验非常重要,因为它们可以防止
过拟合这些 2D 关键点然后预测出不合理的结果。
以得到最终的伪标签。
对比其他的先验来自在另一个大型动作捕捉数据集 AMASS 上额外训练的标注器相比,CLIFF 注释器包含强先验,无需额外的模型或者 AMASS 便可以获得。更重要的是,基于 CLIFF,注释器产生更好的伪标签,这对提高训练性能非常有帮助。
本文对比了 CLIFF 与其他基于视频或者基于单帧的方法,大部分为自上而下的方法,以及一个自下而上的方法,如下表所示,CLIFF 在三个不同的数据集上的所有指标都显著地超过了现有 SOTA。在使用相同的图像编码器(ResNet-50 )和类似的计算成本下,CLIFF 超过其基线 HMR-EFT,将 MPJPE 和 PVE 减少了 13 mm。当 PA-MPJPE 相近的情况下,CLIFF 仍然具有较低的 MPJPE 和 PVE,因为它具有更好的全局旋转估计。使用 HRNet-W48 作为图像编码器时,CLIFF 具有更好的性能,对比 SOTA 有着显著的优势(包括 METRO 和 Mesh Graphormer)。
SOTA对比实验
如下图所示,在 3DPW 测试数据上将 CLIFF 与 PARE 进行比较,使用具有真实相机内参的原始相机渲染重建结果。尽管 PARE 也可以获得准确的关节姿势,但可以看到其结果在重叠到图像后与人体像素有明显错位。从俯视图来看,CLIFF 的预测结果与真实结果之间的重叠度更高,这要归功于其更准确的全局旋转估计。
预测结果对比
以 HMR 作为基线,对比了去掉物体背景框信息的(CI)以及基于原图像的 2D 重投影监督损失(CS)。由下表,去掉 CI 后,MPJPE 显著提升,表明更加差的全局旋转估计。当 CS 被去掉后,会给 CLIFF 产生更加大的误差。这个实验验证了全局位置信息有助于模型预测更加准确地全局旋转以及姿态的猜想。
消融实验
下表对比了不同的伪标签标注器在 3DPW 数据集上的表现,因为它是一个有真实 SMPL 参数的现实数据集。CLIFF 注释器在所有指标中都优于其他方法。与微调预训练模型的 EFT 相比,CLIFF 注释器都以小批量方式进行训练,即帮助它一直保持隐式先验。有了额外的先验,CLIFF 的注释器无需仔细选择通用停止标准。
标注器实验结果
本文介绍了 CLIFF,该模型不仅获取裁剪的图像,还获取其边界框信息作为输入,提供了人体在原始图像中的全局位置信息,同时基于完整图像而不是裁剪图像计算 2D 重投影损失,以某种方式投影预测的 3D 关节。基于 CLIFF,作者为现实 2D 数据集提出了一种新颖的伪标签标注器,它生成高质量的 3D 注释,以帮助基于回归的模型提高其性能。在常见的数据集上的测试表明,CLIFF 显着优于最先进的方法。