效果惊艳!FAIR提出人体姿势估计新模型,升级版Mask-RCNN

来源:densepose.org

【新智元导读】FAIR和INRIA的合作研究提出一个在Mask-RCNN基础上改进的密集人体姿态评估模型DensePose-RCNN,适用于人体3D表面构建等,效果很赞。并且提出一个包含50K标注图像的人体姿态COCO数据集,即将开源。

论文:https://arxiv.org/abs/1802.00434

网站:http://densepose.org/

密集人体姿势估计是指将一个RGB图像中的所有人体像素点映射到人体的3D表面。

  • 我们介绍了DensePose-COCO数据集,这是一个大型ground-truth数据集,在50000张COCO的图像上手工标注了图像-人体表面(image-to-surface)的对应点。
  • 我们提出了DensePose-RCNN架构,这是Mask-RCNN的一个变体,以每秒多帧的速度在每个人体区域内密集地回归特定部位的UV坐标。

DensePose-COCO数据集

我们利用人工标注建立从二维图像到人体表面表示的密集对应。如果用常规方法,需要通过旋转来操纵表明,导致效率低下。相反,我们构建了一个包含两个阶段的标注流程,从而高效地收集到图像-表面的对应关系的标注。

如下所示,在第一阶段,我们要求标注者划定与可见的、语义上定义的身体部位相对应的区域。我们指导标注者估计被衣服遮挡住的身体部分,因此,比如说穿着一条大裙子也不会使随后的对应标注复杂化。

在第二阶段,我们用一组大致等距的点对每个部位的区域进行采样,并要求注释者将这些点与表面相对应。为了简化这个任务,我们通过提供六个相同身体部分的预渲染视图来展开身体部位的表面,并允许用户在其中任何一个视图上放置标志。这允许注释者通过从在六个选项中选择一个,而不用手动旋转表面来选择最方便的视点。

我们在数据收集过程中使用了SMPL模型SURREAL textures

两个阶段的标注过程使我们能够非常有效地收集高度准确的对应数据。部位分割(part segmentation)和对应标注( correspondence annotation)这两个任务基本是是同时进行的,考虑到后一任务更具挑战性,这很令人惊讶。我们收集了50000人的注释,收集了超过500万个人工标注的对应信息。以下是在我们的验证集中图像注释的可视化:图像(左),U(中)和V(右)是收集的注释点的值。

DensePose-RCNN系统

与DenseReg类似,我们通过划分表面来查找密集对应。对于每个像素,需要确定:

  • 它倾向于属于哪个表面部位;
  • 它对应的部位的2D参数化的位置。

下图右边说明了对表面的划分和“与一个部位上的点的对应”。

我们采用具有特征金字塔网络( FPN)的Mask-RCNN结构,以及ROI-Align池化以获得每个选定区域内的密集部位标签和坐标。

如下图所示,我们在ROI-pooling的基础上引入一个全卷积网络,目的是以下两个任务:

  • 生成每像素的分类结果以选择表面部位
  • 对每个部位回归局部坐标

在推理过程,我们的系统使用GTX1080 GPU在320x240的图像上以25fps的速度运行,在800x1100的图像上以4-5fps的速度运行。

DensePose-RCNN系统可以直接使用注释点作为监督。但是,我们通过在原本未标注的位置上“修补”监督信号的值进行取得了更好的结果。为了达到这个目的,我们采用一种基于学习的方法,首先训练一个“教师”网络:一个完全卷积神经网络(如下图),它重新构造了给定图像的ground-truth值和 segmentation mask。

我们使用级联策略(cascading strategies)进一步提高了系统的性能。通过级联,我们利用来自相关任务的信息,例如已经被Mask-RCNN架构成功解决的关键点估计和实例分割。这使我们能够利用任务协同和不同监督来源的互补优势。

作者:

  • Rıza Alp Güler,INRIA, CentraleSupélec
  • Natalia Neverova,Facebook AI Research
  • Iasonas Kokkinos,Facebook AI Research

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-02-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

你可能不知道的7个深度学习实用技巧

【导读】前几天,深度学习工程师George Seif发表了一篇博文,总结了7个深度学习的技巧,主要从提高深度学习模型的准确性和速度两个角度来分析这些小技巧。在使...

3684

何时使用线性回归,聚类或决策树

决策树,聚类和线性回归算法之间的差异已经在很多文章中得到了说明(比如这个和这个)。但是, 在哪里使用这些算法并不总是很清楚。通过这篇博文,我将解释在哪里可以使用...

3108
来自专栏决胜机器学习

机器学习(七) ——logistic回归

机器学习(七)——logistic回归 (原创内容,转载请注明来源,谢谢) 一、概述 1、基本概念 logistic回归(logisticre...

3386
来自专栏ATYUN订阅号

【行业】如何解决机器学习中出现的模型成绩不匹配问题

评估机器学习模型的程序是,首先基于机器学习训练数据对其进行调试和评估,然后在测试数据库中验证模型是否具有良好的技能。通常,在使用训练数据集评估模型后,你会对得到...

1094
来自专栏机器之心

深度神经网络全面概述:从基本概念到实际模型和硬件基础

选自arxiv 作者:Joel Emer等 机器之心编译 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由 IEEE F...

53119
来自专栏应兆康的专栏

20. 偏差和方差

假设你的训练集,开发集和测试集都来自同一分布。那么你会觉得获取更多的训练数据就可以提高性能,对吗? 尽管更多的数据是无害的,但它并不是总会像我们所期望的那样有用...

3499
来自专栏AI研习社

智能手机哪家强?实时人像分割大比拼!

近年来,各种图像效果越来越受到人们的关注。散景一个很受欢迎的例子是在图像的非聚焦范围进行虚化。这个效果由快速镜头大光圈实现。不幸的是,手机摄像头很难实现这种效果...

1622
来自专栏机器学习算法工程师

数据挖掘中的利器--XGBoost理论篇

XGBoost是各种数据挖掘或机器学习算法类比赛中每个团队都会使用且精度相对最好的算法之一(Deep Learning算法除外)。也就是说,对于刚转向机器学习领...

4759
来自专栏新智元

DeepMind提出快速调参新算法PBT,适用GAN训练(附论文)

来源: DeepMind 编译:马文 【新智元导读】DeepMind在最新的一篇论文 Population Based Training of Neural N...

4359
来自专栏应兆康的专栏

20. 偏差和方差

1651

扫码关注云+社区

领取腾讯云代金券