三位一体的纯正视频换脸术,拒绝别人的嘴替我说话 | SIGGRAPH 2018

奥巴栗 发自 麦蒿寺 量子位 报道 | 公众号 QbitAI

各位说不定还记得,之前有个导演,模仿奥巴马的声音吐槽了川普,还把自己的完好地贴到了奥巴马脸上。

这样,虽然嘴部有些异样,但不盯着嘴看的话,也不易察觉吐槽视频是合成的。

不过,就算只为了那一小撮火眼金睛的观众,科学家们大概还是要为合成视频的逼真程度赴汤蹈火。

最近,普朗克研究所 (MPI) 一群技艺精湛的研究人员,表示他们是第一个,把替身的3D头部和面部动作整体搬运到目标主角脸上,的团队。

三位一体

在他们的系统里,只要输入一段替身的单人表演视频,和目标主角的一段单人视频,就可以让主角学到头部和面部的所有动作。

视频输入后,算法会用“面部重构 (face reconstruction) ”的方式追踪替身和主角,得到一系列参数,用来表示头部姿势面部表情眼球转动等等动作。

这些参数向量可以直接输送到主角的脸上,下一步就是渲染合成的主角图像。

然后重点来了,团队建造了一个拥有时空结构 (space-time architecture)的神经网络,向它输入渲染过的人脸参数模型,它就能“脑补”出目标主角的逼真视频,称为动态肖像 (video portrait) 。

团队说,这样的真实度是靠艰苦的对抗训练来实现的。

成果是,只要有几分钟的主角视频作为训练素材,替身的表演就可以获得高质量的继承。

头发脖子肩膀还有目标背景,都会随着生成的头部面部动作,发生自然的变化。就连背景里的阴影,也能跟着前景走。

想调哪就调哪

另外,如果不想让头部跟着一起动,也可以只改表情。

还有啊,如果不想完全照搬替身的表演,我们还可以手动调节头的朝向,脸上的表情。

任何参数都可以单独调,也可以整体调。

这就是说,没有替身,直接给视频里的主角改动作也没问题。眨眨眼,撇下嘴,都可以。

有对比才有伤害

至于这研究成果到底厉害成什么样,当然还是要和其他人的算法比比看。不然,极客们怎么获得碾压同行的快感?

首先,他们把自家的动态肖像算法和Thies团队的Face2Face做了对比。

二者相比,动态肖像大法的表情更加到位,头部动作更吻合,生成的视频也就一气呵成。

第二个对手是Suwajanakorn团队基于音频的配音法术。

对方的嘴唇同步很优秀,但没有给主角任何表情控制技能,效果便略显僵硬。而己方的面部、头部和眼球搭配食用,更为自然清新。

第三场比赛,是在头部运动的选手之间展开。

Averbunch-Elor团队的算法在动作上和动态肖像相差无几,但背景明显扭曲,翻了修图大计。

对此,普朗克研究所表示,这是因为对方算法是一帧一帧单独学习的,而他们是用整段视频来学姿势。

谦虚地说,还有局限

虽然,现在生成的视频已经很接近真实了,但团队说这个算法还是有自己的局限性。

比如,人物的活跃范围,超出了训练语料库 (Training Corpus) 的表情和动作,就很难高度还原替身的表演了。

但他们说,这也是多数同行会遇到的问题。

那不就是说,“我做到的你没做到,我没做到的你也没做到”,么?

论文摘要传送门:

https://gvv.mpi-inf.mpg.de/projects/DeepVideoPortraits/index.html

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

AI换脸终结者问世!美国防部推首款AI侦测工具,“反换脸”精度99%!

【新智元导读】美国防部研发出了全球首款“反AI变脸刑侦检测工具”,专用于检测AI变脸/换脸造假技术。如今,以GAN为代表的AI换脸术盛行,相应的人脸检测识别技术...

39320
来自专栏算法channel

例子 3 个语言分析的基本任务

假如你的公司发布了一款全新的手机产品,新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解

13920
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 3 - 人类学习的启示

? 机器学习 上一篇TensorFlow的内核基础介绍了TF Core中的基本构造块,在介绍其强大的API之前,我们需要先明了TF所要解决的核心问题:机器学习...

35460
来自专栏AI科技评论

【深度】Nature:我们能打开人工智能的“黑箱”吗?

编者按:人工智能无处不在。但是在科学家信任人工智能之前,他们首先应该了解这些人工智能机器是如何运作的,这也就是文中所提到的“黑箱”问题。在控制论中,通常把所不知...

36260
来自专栏人工智能快报

用于星系的人脸识别:人工智能为天文学带来新工具

【概要】名为“深度学习”的机器学习方法被广泛应用于人脸识别以及其他图像和语音识别应用程序,该方法在帮助天文学家分析星系图像及了解它们如何形成和演变方面展示了潜力...

11220
来自专栏新智元

MIT非视线成像“透视相机”:隔墙观物、影中窥人!

2012年,MIT计算机视觉科学家安东尼奥·托拉尔巴(Antonio Torralba)在西班牙海岸度假时,发现他酒店房间墙壁上的杂散阴影似乎不是由任何东西投射...

18550
来自专栏人工智能快报

深度学习帮助科学家开展实时引力波探测

“ 美国国家超级计算应用中心的科学家正在利用深度学习对引力波进行实时探测。 ” 位于美国伊利诺伊大学厄巴纳-尚佩恩分校(University of Illi...

39580
来自专栏专知

机器学习是“炼金术”?

18260
来自专栏新智元

ResNet成为AlphaGo Zero核心技术,孙剑详解Zero的伟大与局限

【新智元导读】DeepMind迄今最强棋手AlphaGo Zero横空出世,其中一个重要组成部分是出自华人团队的深度残差网络ResNet。新智元采访了深度残差网...

39170
来自专栏人工智能快报

人工智能极大提升天文数据处理速度

引力透镜效应是指空间中一个遥远天体的图像(如星系)被大质量天体的引力扭曲和放大,例如一个星系群在一个较小、遥远天体的前面就会引发这种效应。这种有用的现象能帮助科...

31280

扫码关注云+社区

领取腾讯云代金券