专栏 | 让照片走两步：骨骼框架辅助的人物动作生成模型

机器之心

发布于 2018-05-09 11:05:54

1.8K0

发布于 2018-05-09 11:05:54

文章被收录于专栏：机器之心

机器之心专栏

上海交通大学电子工程系

作者：杨蕊

随着 GAN 网络的出现，深度学习一次又一次的突破了人类对于人工智能的想象。本文所提的算法就首次实现这样一种愿景：给定一张静态人物照片，一连串的骨骼关节运动序列，电脑自动生成一个运动视频，让该照片中的人物按照所给出的运动模式动起来，如跳舞、运动等。怎么样，是不是很像哈利波特的魔法世界中的会动的相框和报纸呢？

文章链接：https://arxiv.org/pdf/1707.01058

简介

这项工作的创新点在于在国际上首先尝试了基于骨骼序列的人体运动视频生成技术, 很好地解决了传统生成方法生成人体运动问题。所提出的算法采用了双输入的模式，将参考人物静态照片和运动模式（即关节点序列）输入到 Conditional GAN 网络中，并辅以 Triplet Loss 的网络训练目标函数，以保证所生成连接体运动的的前后帧动作的一致性。所生成的人物运动序列效果真实，并且已经在两个国际标准数据集上进行测试，获得了很好的视觉效果。

方法

图 1 算法结构

所提出的方法具体如图 1 所示。给出一张包含某个人外表的照片 X，最终目标是生成一系列共享相同外表的照片 Y = ｛y1，…, yn｝，并且按照一定的运动模式进行运动。因此需要将原始照片 x 和骨架的运动序列 S={S1,S2,…} 一起作为输入到所构建的深度神经网络中。根据条件生成对抗网络 CGAN 的基本数学形式，损失函数可以写成：

其中生成网络生成新的一帧，判别网络进行判别对抗。为了保证生成图像的质量，加入了 L1 项损失函数。

然而由于生成的主要目标是视频，需要考虑前后帧的联系，所以在损失函数中再加入一项 triplet loss，使得相近的帧生成的结果比较相近。假设某一帧的生成结果 anchor image 为 ta，则认为与这一帧相近的帧生成结果为正样本 tp，较远的生成结果为负样本 tn，最终希望 ta 与 tp 的距离小于 ta 与 tn 的距离，对应的损失函数为：

最终的损失函数是上面三个公式的和。

图3

另一方面，由于希望将动态的骨骼信息与静态的外貌信息共同输入，并且共享高层的语义信息，这里采取了 Siamese 结构，并将这个结构称为 Siamese 生成器。该生成器具体的网络结构如下（如图 3 所示）：

实验结果

最终在两个国际著名的运动视频数据集上进行了测试：KTH dataset 和 Human3.6M dataset。下图是所生成的视频的一些例子。

视频生成结果为：

可以看出使用该方法，最终生成的视频视觉效果非常好。在实验中还发现，视频的前景生成的非常好，运动模式捕捉的十分到位，能够摆出骨架运动的动作，外貌特征也被很好的保留了下来。在我们的论文中还对与损失函数的有效性进行了一系列的讨论。参考论文 4.3 部分。

总结

学术界中对于骨架的讨论与数据集有很多，但采取 LSTM 不能解决长时间生成中视频模糊，畸变的问题，生成的动作也常常不能保持人体结构。这论文中的方法首次巧妙地融合了骨架运动和关节信息以及人物表象信息，最终生成了栩栩如生的运动视频 (即真实的人体连接体运动视频)。相信我们都被这神奇的算法震撼了。想要了解详情，可以参考论文：Skeleton-aided Articulated Motion Generation 刚刚被 2017 ACM Multimedia 收录，由上海交通大学电子系人工智能实验室博士生晏轶超，徐经纬完成，倪冰冰教授，杨小康教授指导。

本文为机器之心专栏，转载请联系本公众号获得授权。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-07-06，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自机器之心微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

专栏 | 让照片走两步：骨骼框架辅助的人物动作生成模型

专栏 | 让照片走两步：骨骼框架辅助的人物动作生成模型

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐