首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >三位一体的纯正视频换脸术,拒绝别人的嘴替我说话 | SIGGRAPH 2018

三位一体的纯正视频换脸术,拒绝别人的嘴替我说话 | SIGGRAPH 2018

作者头像
量子位
发布2018-07-20 18:29:11
4490
发布2018-07-20 18:29:11
举报
文章被收录于专栏:量子位量子位量子位
奥巴栗 发自 麦蒿寺 量子位 报道 | 公众号 QbitAI

各位说不定还记得,之前有个导演,模仿奥巴马的声音吐槽了川普,还把自己的完好地贴到了奥巴马脸上。

这样,虽然嘴部有些异样,但不盯着嘴看的话,也不易察觉吐槽视频是合成的。

不过,就算只为了那一小撮火眼金睛的观众,科学家们大概还是要为合成视频的逼真程度赴汤蹈火。

最近,普朗克研究所 (MPI) 一群技艺精湛的研究人员,表示他们是第一个,把替身的3D头部和面部动作整体搬运到目标主角脸上,的团队。

三位一体

在他们的系统里,只要输入一段替身的单人表演视频,和目标主角的一段单人视频,就可以让主角学到头部和面部的所有动作。

视频输入后,算法会用“面部重构 (face reconstruction) ”的方式追踪替身和主角,得到一系列参数,用来表示头部姿势面部表情眼球转动等等动作。

这些参数向量可以直接输送到主角的脸上,下一步就是渲染合成的主角图像。

然后重点来了,团队建造了一个拥有时空结构 (space-time architecture)的神经网络,向它输入渲染过的人脸参数模型,它就能“脑补”出目标主角的逼真视频,称为动态肖像 (video portrait) 。

团队说,这样的真实度是靠艰苦的对抗训练来实现的。

成果是,只要有几分钟的主角视频作为训练素材,替身的表演就可以获得高质量的继承。

头发脖子肩膀还有目标背景,都会随着生成的头部面部动作,发生自然的变化。就连背景里的阴影,也能跟着前景走。

想调哪就调哪

另外,如果不想让头部跟着一起动,也可以只改表情。

还有啊,如果不想完全照搬替身的表演,我们还可以手动调节头的朝向,脸上的表情。

任何参数都可以单独调,也可以整体调。

这就是说,没有替身,直接给视频里的主角改动作也没问题。眨眨眼,撇下嘴,都可以。

有对比才有伤害

至于这研究成果到底厉害成什么样,当然还是要和其他人的算法比比看。不然,极客们怎么获得碾压同行的快感?

首先,他们把自家的动态肖像算法和Thies团队的Face2Face做了对比。

二者相比,动态肖像大法的表情更加到位,头部动作更吻合,生成的视频也就一气呵成。

第二个对手是Suwajanakorn团队基于音频的配音法术。

对方的嘴唇同步很优秀,但没有给主角任何表情控制技能,效果便略显僵硬。而己方的面部、头部和眼球搭配食用,更为自然清新。

第三场比赛,是在头部运动的选手之间展开。

Averbunch-Elor团队的算法在动作上和动态肖像相差无几,但背景明显扭曲,翻了修图大计。

对此,普朗克研究所表示,这是因为对方算法是一帧一帧单独学习的,而他们是用整段视频来学姿势。

谦虚地说,还有局限

虽然,现在生成的视频已经很接近真实了,但团队说这个算法还是有自己的局限性。

比如,人物的活跃范围,超出了训练语料库 (Training Corpus) 的表情和动作,就很难高度还原替身的表演了。

但他们说,这也是多数同行会遇到的问题。

那不就是说,“我做到的你没做到,我没做到的你也没做到”,么?

论文摘要传送门:

https://gvv.mpi-inf.mpg.de/projects/DeepVideoPortraits/index.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 三位一体
  • 想调哪就调哪
  • 有对比才有伤害
  • 谦虚地说,还有局限
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档