密集人体姿态估计:2D图像帧可实时生成UV贴图(附论文)

Root 编译整理 量子位 出品 | 公众号 QbitAI

Facebook人工智能研究院和法国国立计算机及自动化研究院最近提出了一种密集人体姿态估计新方法:DensePose-RCNN,同时宣布即将开源人体姿态数据集DensePose-COCO。

2月1号,法国国立计算机及自动化研究院和FAIR共同在ArXiv上发表了一篇可实时把2D图像转成UV贴图(3D展开的表面)的论文。

Rıza Alp Güler,INRIA(左)
Natalia Neverova,FAIR(中)
Iasonas Kokkinos,FAIR(右)

三人的工作主要有以下贡献:

1.提高了2D图像转3D贴图的人工标注的效率

以往把2D图像转成3D模型的表面贴图时,都需要人工去旋转,工作量太大。

现在重新设计了2D转3D贴图的处理流程。现在只需要两步就可以完成。

首先,采用Top-down的方式,把图像中的人体按身体部位划分区域。

然后,研究团队用一组大致等距的点对每个身体部位区域进行采样,并把这些等距点与相应的身体部分的预渲染的展开面的点对应起来(取6个视角的平面图像,为3D展开图提供参考)。

为了简化这个任务,允许标注员在其中任何一个上放置等距点。不必手动旋转表面,可以让标注员直接从六个选项中选一个。

在数据收集过程中,使用的是SMPL模型和SURREAL纹理。

这两步,身体部位划分和等距点对应标注可以同时进行,可以获得很高的2D转3D一致性。此次研究,收集了5万人案例的标注数据,以及500多万个手动标注的对应点。以下是来自验证集的图像上的标注的可视化:收集的点的图像(左),U(中)和V(右)值。

2.拿收集到的数据集训练了DensePose RCNN模型

与单人版的DenseReg类似,通过划分身体部位来对应回标注的等距点。对于每个像素,去确定它在贴图上的位置,并进行二维校正。

如下图所示。

研究团队采用的是金字塔网络(FPN)特征的RCNN结构,和区域特征聚集方式ROI align pooling以获得每个选定区域内的密集部分标签和坐标。

如下所示,在ROI池的基础上引入一个全卷积网络,有两个目的:

针对每个选定的身体部位,生成每个像素的分类结果; 对于每个部分使用回归本地坐标。

在训练过程中,DensePose系统用的GTX1080显卡,对于320x240的图像,是以25fps的速度运行;对于800x1100的图像,是以4-5fps的速度运行。

DensePose-RCNN系统可以直接使用标注点作为监督。

但是,通过对原本未标注的监管信号的价值进行“修补”,取得了更好的结果。为了达到这个目的,我们采用一种基于学习的方法,首先训练一个“教师”网络:一个完全卷积神经网络(如下图所示),在给定图像尺度把图像和分割蒙版统一化。

另外,使用级联策略进一步提高了系统的性能。通过级联,利用来自相关任务的信息,例如关键点估计和实例分割,这已经被Mask-RCNN架构成功解决。这使我们能够利用任务协同作用和不同监督来源的互补优势。

最后,附论文链接, https://arxiv.org/pdf/1802.00434.pdf

以及编译来源,也是数据集开放的链接, densepose.org

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-02-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

视频 | 两分钟论文:从冬天回到夏天,英伟达的迁移网络能派上用场

本期论文:Unsupervised Image-to-Image Translation Networks 论文译名:无监督以图生图(图到图迁移网络) 英伟达推...

39550
来自专栏大数据挖掘DT机器学习

李航博士:浅谈我对机器学习的理解

李航博士,华为技术有限公司 诺亚方舟实验室 首席科学家 ? 算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算...

47890
来自专栏AI研习社

用数据说话:把自拍照变成毕加索名画 哪种算法最高效?

提起前段时间红遍朋友圈的 Prisma,可能许多朋友都还记忆犹新:输入一张自己的照片,再选一个 Prisma 内置的名画滤镜,几秒之后就能得到一张名画风的新照片...

334100
来自专栏大数据文摘

“无中生有”计算机视觉探奇

11520
来自专栏人工智能头条

“无中生有”计算机视觉探奇

16240
来自专栏新智元

GAN如此简单的PyTorch实现,一张脸生成72种表情(附代码)

【新智元导读】随着GAN的发展,单凭一张图像就能自动将面部表情生成动画已不是难事。但近期在Reddit和GitHub热议的新款GANimation,却将此技术提...

31210
来自专栏AI科技大本营的专栏

知乎大神周博磊:用“Network Dissection”分析卷积神经网络的可解释性

当地时间 7 月 22 日,备受瞩目的 CVPR 2017 最佳论文在夏威夷会议中心揭晓。本届 CVPR 2017 共有两篇最佳论文(分别被康奈尔和清华团队、以...

52070
来自专栏CSDN技术头条

机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

22580
来自专栏PPV课数据科学社区

机器学习、数据挖掘、人工智能、统计模型这么多概念有何差异?

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

38070
来自专栏量化投资与机器学习

因子的有效性分析基于7种机器学习算法【系列54】

今天,继续我们的机器学习应用量化投资系列。本期我们介绍一篇研究报告,详细的介绍了7中机器学习算法在因子有效性上的展现。希望给大家在写策略时做一些参考借鉴。 前言...

52080

扫码关注云+社区

领取腾讯云代金券