专栏 | 让照片走两步:骨骼框架辅助的人物动作生成模型

机器之心专栏

上海交通大学电子工程系

作者:杨蕊

随着 GAN 网络的出现,深度学习一次又一次的突破了人类对于人工智能的想象。本文所提的算法就首次实现这样一种愿景:给定一张静态人物照片,一连串的骨骼关节运动序列,电脑自动生成一个运动视频,让该照片中的人物按照所给出的运动模式动起来,如跳舞、运动等。怎么样,是不是很像哈利波特的魔法世界中的会动的相框和报纸呢?

文章链接:https://arxiv.org/pdf/1707.01058

简介

这项工作的创新点在于在国际上首先尝试了基于骨骼序列的人体运动视频生成技术, 很好地解决了传统生成方法生成人体运动问题。所提出的算法采用了双输入的模式,将参考人物静态照片和运动模式(即关节点序列)输入到 Conditional GAN 网络中,并辅以 Triplet Loss 的网络训练目标函数,以保证所生成连接体运动的的前后帧动作的一致性。所生成的人物运动序列效果真实,并且已经在两个国际标准数据集上进行测试,获得了很好的视觉效果。

方法

图 1 算法结构

所提出的方法具体如图 1 所示。给出一张包含某个人外表的照片 X,最终目标是生成一系列共享相同外表的照片 Y = {y1,…, yn},并且按照一定的运动模式进行运动。因此需要将原始照片 x 和骨架的运动序列 S={S1,S2,…} 一起作为输入到所构建的深度神经网络中。根据条件生成对抗网络 CGAN 的基本数学形式,损失函数可以写成:

其中生成网络生成新的一帧,判别网络进行判别对抗。为了保证生成图像的质量,加入了 L1 项损失函数。

然而由于生成的主要目标是视频,需要考虑前后帧的联系,所以在损失函数中再加入一项 triplet loss,使得相近的帧生成的结果比较相近。假设某一帧的生成结果 anchor image 为 ta,则认为与这一帧相近的帧生成结果为正样本 tp,较远的生成结果为负样本 tn,最终希望 ta 与 tp 的距离小于 ta 与 tn 的距离,对应的损失函数为:

最终的损失函数是上面三个公式的和。

图3

另一方面,由于希望将动态的骨骼信息与静态的外貌信息共同输入,并且共享高层的语义信息,这里采取了 Siamese 结构,并将这个结构称为 Siamese 生成器。该生成器具体的网络结构如下(如图 3 所示):

实验结果

最终在两个国际著名的运动视频数据集上进行了测试:KTH dataset 和 Human3.6M dataset。下图是所生成的视频的一些例子。

视频生成结果为:

可以看出使用该方法,最终生成的视频视觉效果非常好。在实验中还发现,视频的前景生成的非常好,运动模式捕捉的十分到位,能够摆出骨架运动的动作,外貌特征也被很好的保留了下来。在我们的论文中还对与损失函数的有效性进行了一系列的讨论。参考论文 4.3 部分。

总结

学术界中对于骨架的讨论与数据集有很多,但采取 LSTM 不能解决长时间生成中视频模糊,畸变的问题,生成的动作也常常不能保持人体结构。这论文中的方法首次巧妙地融合了骨架运动和关节信息以及人物表象信息,最终生成了栩栩如生的运动视频 (即真实的人体连接体运动视频)。相信我们都被这神奇的算法震撼了。想要了解详情,可以参考论文:Skeleton-aided Articulated Motion Generation 刚刚被 2017 ACM Multimedia 收录,由上海交通大学电子系人工智能实验室博士生晏轶超,徐经纬完成,倪冰冰教授,杨小康教授指导。

本文为机器之心专栏,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-07-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

Ian Goodfellow & ICLR-17最佳论文得主新作:验证与测试,机器学习的两大挑战

AI 科技评论按:去年年底,Ian Goodfellow与Nicolas Papernot(是的,就是ICLR 2017的最佳论文得主之一)合作开了一个博客叫c...

3056
来自专栏腾讯大数据的专栏

腾讯数平精准推荐 | OCR技术之识别篇

本文介绍了腾讯数平精准推荐团队的OCR识别算法,包括识别算法的演进之路以及4个代表性方法。

6.4K11
来自专栏机器之心

120万美元机器24分钟训练ImageNet,UC Berkeley展示全新并行处理方法

选自UC Berkeley 机器之心编译 参与:李泽南、蒋思源 今年 6 月,Facebook 实现 1 小时训练 ImageNet 的成绩之后,通过增加批量大...

2827
来自专栏AI科技评论

当 AI 开始学习艺术创作,我们应该觉得担心吗?

AI 科技评论按:随着深度学习爆发式的成功,算法渐渐的被引入了一个人类认为相对安全的领域 —— 创造引人注目的艺术。

692
来自专栏AI科技大本营的专栏

DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了

一篇顶十篇!想入门强化学习,专心研读这篇对DeepMind经典论文的解析就够了 作者 | Aman Agarwal 编译 | Shawn 编辑 | 鸽子、焦燕...

4066
来自专栏CreateAMind

深度学习与神经科学相遇(二)[译]

许多机器学习方法(如典型的监督式学习)是基于有效地函数优化,并且,使用误差的反向传播(Werbos, 1974; Rumelhart et al., 1986)...

1083
来自专栏机器之心

NeurIPS 2018亮点选读:深度推理学习中的图网络与关系表征

作者简介:Angulia Yang 毕业于新加坡国立大学,目前从事人工智能相关计算机视觉 (Computer Vision) 的研究与开发工作,主要工作方向集中...

5112
来自专栏大数据文摘

论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能

1072
来自专栏Coding迪斯尼

深度学习初论:构建基础思维框架

1052
来自专栏新智元

纽约大学联合谷歌大脑提出「COG」数据集,可提高系统的「视觉推理」能力

【新智元导读】在认知心理学和神经科学中丰富的视觉推理和记忆传统的启发下,我们开发了一个人工的、可配置的视觉问题和答案数据集(COG),用于在人类和动物中进行平行...

32411

扫码关注云+社区

领取腾讯云代金券