密集人体姿态估计:2D图像帧可实时生成UV贴图

Root 编译整理

量子位 出品 | 公众号 QbitAI

Facebook人工智能研究院和法国国立计算机及自动化研究院最近提出了一种密集人体姿态估计新方法:DensePose-RCNN,同时宣布即将开源人体姿态数据集DensePose-COCO。

2月1号,法国国立计算机及自动化研究院和FAIR共同在ArXiv上发表了一篇可实时把2D图像转成UV贴图(3D展开的表面)的论文。

Rıza Alp Güler,INRIA(左)Natalia Neverova,FAIR(中)Iasonas Kokkinos,FAIR(右)

三人的工作主要有以下贡献:

1.提高了2D图像转3D贴图的人工标注的效率

以往把2D图像转成3D模型的表面贴图时,都需要人工去旋转,工作量太大。

现在重新设计了2D转3D贴图的处理流程。现在只需要两步就可以完成。

首先,采用Top-down的方式,把图像中的人体按身体部位划分区域。

然后,研究团队用一组大致等距的点对每个身体部位区域进行采样,并把这些等距点与相应的身体部分的预渲染的展开面的点对应起来(取6个视角的平面图像,为3D展开图提供参考)。

为了简化这个任务,允许标注员在其中任何一个上放置等距点。不必手动旋转表面,可以让标注员直接从六个选项中选一个。

在数据收集过程中,使用的是SMPL模型和SURREAL纹理。

这两步,身体部位划分和等距点对应标注可以同时进行,可以获得很高的2D转3D一致性。此次研究,收集了5万人案例的标注数据,以及500多万个手动标注的对应点。以下是来自验证集的图像上的标注的可视化:收集的点的图像(左),U(中)和V(右)值。

2.拿收集到的数据集训练了DensePose RCNN模型

与单人版的DenseReg类似,通过划分身体部位来对应回标注的等距点。对于每个像素,去确定它在贴图上的位置,并进行二维校正。

如下图所示。

研究团队采用的是金字塔网络(FPN)特征的RCNN结构,和区域特征聚集方式ROI align pooling以获得每个选定区域内的密集部分标签和坐标。

如下所示,在ROI池的基础上引入一个全卷积网络,有两个目的:

针对每个选定的身体部位,生成每个像素的分类结果;

对于每个部分使用回归本地坐标。

在训练过程中,DensePose系统用的GTX1080显卡,对于320x240的图像,是以25fps的速度运行;对于800x1100的图像,是以4-5fps的速度运行。

DensePose-RCNN系统可以直接使用标注点作为监督。

但是,通过对原本未标注的监管信号的价值进行“修补”,取得了更好的结果。为了达到这个目的,我们采用一种基于学习的方法,首先训练一个“教师”网络:一个完全卷积神经网络(如下图所示),在给定图像尺度把图像和分割蒙版统一化。

另外,使用级联策略进一步提高了系统的性能。通过级联,利用来自相关任务的信息,例如关键点估计和实例分割,这已经被Mask-RCNN架构成功解决。这使我们能够利用任务协同作用和不同监督来源的互补优势。

最后,附论文链接,

https://arxiv.org/pdf/1802.00434.pdf

以及编译来源,也是数据集开放的链接,

densepose.org

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180204A0DLCH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券