专栏首页人工智能前沿讲习基于姿态的人物视频生成【附PPT与视频资料】

基于姿态的人物视频生成【附PPT与视频资料】

关注文章公众号 回复"杨凌波"获取PPT资料 视频资料可点击下方阅读原文在线观看

导读


合成特定姿态下的人物图像,并进一步让人物动起来,做出逼真,连贯的动作,是多媒体领域颇具趣味的研究方向。近年来,图像生成及图像翻译领域快速发展,为人物动作视频合成问题提供了有效的实现路径。利用骨架+纹理特征合成视频帧的研究思路,现有研究取得了一定突破,已经能够合成较为流畅的高分辨率人物动作视频,但在处理遮挡,提升动作真实性,以及特征解耦等方面还有明显改进空间。本次讲座将带大家一同回顾人物动作视频生成的发展历程,解读若干最新的重要成果,并同大家共同探讨未来的发展趋势。

作者简介


杨凌波,北京大学数字媒体研究所在读博士生,本科毕业于北大数学系数学与应用数学专业。目前主要研究方向为骨架引导下的人物图像/视频生成。

杨凌波

前言


基于姿态的人物图像/视频合成,可以分为两个子问题:学习足以表达,刻画人体结构及人物动作的特征表示,以及学习从特征表示到人物图像/视频帧空间的生成映射。随着人体姿态估计及条件图像生成/翻译领域的发展,上述两个子问题有了相应的解决途径,在若干局部取得了可喜的进展。下面将扼要介绍四篇人物图像/视频生成领域的经典工作,简要分析其创新点及局限性,并简要总结该领域当前面临的问题与挑战。

相关工作


MaLiqian等人于2017年NIPS(现NeurIPS)发文“Pose guided Person Image Generation”,首次明确了人物姿态图像合成问题的一般形式:给定一张内容图像(content image)和待合成目标姿态(target pose),生成图像中人物在新姿态下的外观,如下图所示:

本篇文章中提出了一种两段式学习框架,通过从粗到精的方式合成新姿态下的人物图像:第一阶段首先合成目标姿态下人物的大体轮廓,并大致保持衣着颜色;第二阶段在前一阶段的结果基础上再学习精细的残差,增强合成图像的细节纹理。训练流程图如下所示:

在DeepFashion数据集上的生成效果如下所示:

在生成方面,作者直接借鉴了同时期图像翻译工作pix2pix的网络设计,通过引入跳层连接(skip connection)保持原图的纹理细节。

Alexander Siarohin等人考虑到姿态迁移问题中的结构不一致性,提出了Deformable GAN,利用“形变跳层连接“(deformable skip connection)来保持纹理信息与骨架位置的对应关系,原理图如下:

通过形变跳层连接将人体不同部位的纹理信息“搬“到新的姿态骨架上,Deformable GAN能够保留更多的纹理信息,显著提升了生成的图像质量:

前两种方法都只考虑2D层面的人物特征提取,因此无法很好处理遮挡的情形,下图即为一例:

Facebook则另辟蹊径,提出了一种更为丰富,考虑人体3D表面信息的姿态表示Densepose(http://densepose.org/):

基于Densepose表示,Facebook进一步提出了Dense Pose Transfer,通过融合生成网络预测(predict)模块及人物纹理形变(warpping)模块的结果来获得更为鲁棒的人体姿态外观表征:

与Deformable GAN相比,Dense Pose Transfer由于在姿态表示中融合了人体表面纹理信息,从而能够更好地保持衣着纹理细节,并有效解决一部分的遮挡,断肢等问题。下图中第一行为Deformable GAN的结果,第二行为Dense pose transfer的结果:

与图像生成不同,视频动作生成的工作更多收到图像翻译(Image-to-image translation)的启发,直接学习人体骨架图到真实视频帧的映射,纹理信息完全由数据驱动的方式从训练视频中提取。Berkeley AI Lab的Caroline Chan等人于2018年Siggraph提出EverybodyDance Now,首次合成了高分辨率的人物舞蹈动作视频(视频地址:https://www.youtube.com/watch?v=PCBTZh41Ris)。

EverybodyDance Now综合了生成领域的各种实现技巧:骨架尺寸归一化,前后帧联合预测提升时域一致性,以及人脸部分单独增强等(相应的图可以从PPT里直接找到)。

问题与挑战


人物动作视频生成问题自提出至今不足两年,尚属初期阶段,各种不同的特征表示及生成策略纷纷出现。其中基于骨架的特征表示,以及基于图像翻译领域的pix2pix生成网络结构引领了当前研究的主流,并取得了较好的结果。个人认为,目前人物视频合成领域面临两个核心问题:其一,人物肢体遮挡造成纹理细节缺失,单纯依靠单帧图像提供纹理信息有明显缺陷,需要引入更多3D-aware的姿态特征表示,如Densepose;其二,对于自然人物动作视频的统计特性学习及表示还有待进一步发展,以便更好地建模人体运动,避免动作生硬,不连续等问题。未来基于3D人体模型及人物纹理贴图渲染的思路可能会带来下一个新的突破点。

参考文献


[1] Ma, Liqian, et al."Pose guided person image generation." Advances in NeuralInformation Processing Systems. 2017.

[2] Siarohin, Aliaksandr, etal. "Deformable gans for pose-based human image generation." CVPR20 18-Computer Vision and Pattern Recognition. 2018.

[3] Neverova, Natalia, RızaAlp Güler, and Iasonas Kokkinos. "Dense pose transfer." arXivpreprint arXiv:1809.01995 3 (2018).

[4] Chan, Caroline, et al."Everybody dance now." arXiv preprint arXiv:1808.07371 (2018).

SFFAI讲者招募

为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树(AI Knowledge Tree),通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前,衷心期待和感谢您的支持与奉献!

有意加入者请与我们联系:wangxl@mustedu.cn

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:杨凌波

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SFFAI分享 | 古纾旸:Generative model is more than just GANs【附PPT与视频资料】

    近些年来,随着深度学习和对抗生成网络的兴起,图像生成领域取得了巨大的进步。然而,对于计算机视觉领域的生成问题,并非只有生成对抗网络这样唯一的解决途径。在SFFA...

    马上科普尚尚
  • SFFAI分享 | 周龙:同步双向文本生成【附PPT与视频资料】

    基于双向编码的BERT在11项自然语言理解任务上取得了惊人的效果,而目前主流的自然语言生成任务(包括机器翻译,自动摘要等)仍然采用单向解码,即从左到右依次产生目...

    马上科普尚尚
  • 生成对抗网络在图像翻译上的应用【附PPT与视频资料】

    在图像处理、计算机图形和计算机视觉中,许多问题都可以表现为将输入图像“转换”成相应的输出图像。 正如我们常见的机器翻译中,同一句话可以用英语或中文表达一样,一副...

    马上科普尚尚
  • 深度神经网络生成模型:从 GAN VAE 到 CVAE-GAN

    作者 | Blink·禀临科技 联合创始人·彭博 整理 | AI科技大本营(rgznai100) 在几年前,深度神经网络的热门话题是分类问题: 给定一张图 x,...

    AI科技大本营
  • Flink如何管理Kafka的消费偏移量

    在这篇文章中我们将结合例子逐步讲解 Flink 是如何与 Kafka 工作来确保将 Kafka Topic 中的消息以 Exactly-Once 语义处理。

    smartsi
  • 发布订阅模式

    发布订阅模式又称为观察者模式,它用来定义一对多的依赖关系。当对象的状态改变时,所有依赖它的对象都会得到通知。在JavaScript的实现中,最常见的订阅发布模式...

    一粒小麦
  • 业界 | AI 让朱茵秒变杨幂,但我拒绝成为波多野结衣

    我就说吃瓜群众平常要多关注科技新闻,一个在科技界已经诞生了一年多的“老技术”Deepfake 居然因为“明星换脸”的视频火出了圈。

    AI研习社
  • [算法系列]最优化问题综述

    优化问题一般可分为两大类:无约束优化问题和约束优化问题,约束优化问题又可分为含等式约束优化问题和含不等式约束优化问题。

    统计学家
  • Elasticsearch深入详解 | 知识图谱(每周更新)

    1、题记 Elasticsearch技术已经燃爆到飞的感觉。 为了方便订阅Elasticsearch深入详解的博友们第一时间获取最新经验分享,和大家一起成长,...

    铭毅天下
  • Vue的学习(十四)如何启动vue的项目,并且对vue的项目目录做解释,打包项目的命令

    意思就是将我们的项目进行打包,为什么会这样呢,我们执行完 npm run build 项目就会找package.json这个文件 里面有个

    一天不写程序难受

扫码关注云+社区

领取腾讯云代金券