开源 | CVPR2020 人体姿态估计网络，不同于其他基于图像的方法，该方法直接对视频数据进行训练，更关注时间上的变化

CNNer

发布于 2020-06-19 15:41:21

8190

发布于 2020-06-19 15:41:21

文章被收录于专栏：CNNer

论文地址：http://arxiv.org/pdf/1912.05656v2.pdf 代码：https://github.com/mkocabas/VIBE.git 来源：马克斯·普朗克智能系统研究所 论文名称：VIBE: Video Inference for Human Body Pose and Shape Estimation 原文作者：Muhammed Kocabas

人体运动分析是理解行为的基础。虽然在基于单帧图像的三维姿态和形状估计取得了优秀的表现，但是由于缺少用于训练的真值数据，现有的基于视频序列的人体姿态估计仍然无法直接、准确、自然的生成运动视频序列。为了解决该问题，本文提出了VIBE（Video Inference for Body Pose and ShapeEstimation）算法，使用一个大规模的运动捕获视频数据集（AMAS），包含自然场景下未配对的2D标注关键点。本文算法的创新点在于提出了一个对抗框架，使用AMASS数据集区分真实的人体运动，还是由网络回归产生的时间运动序列。定义了一个时间网络框架，在不需要自然场景3D标注数据的情况下，在图像序列上进行对抗训练，并且产生模拟运动的运动视频序列。经过大量的试验分析了运动估计的重要性，并且证明了VIBE算法在具有挑战性的3D姿态估计数据集上具有SOTA的表现。

虽然目前的3D人体姿态估计取得了很好的效果，但是大都数并不是通过运动视频序列来进行训练获取的。我们探索了一些方法用于将静态图像处理算法扩展成可以处理视频序列的方法：（1）我们介绍了一个随时间传播信息的递归架构；（2）介绍了利用AMASS数据集进行运动序列判别训练的方法；（3）我们提出了一种自注意力机制，专注于在时间轨迹上学习人体运动。（4）从AMASS数据集重新学习了一个新的人体运动序列先验，并且证明相比于鉴别器它可以帮助获取更好的训练效果。

下面是论文具体框架结构以及实验结果：