专栏首页量子位让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

让梦露和龙妈学着你说话,只需一张静态图和一个视频 | 项目开源

想让名人学着你说话,怎么办?

很简单,只要一张名人的照片,配上你说话的视频,分分钟就能搞定。

来看下效果:

无论你是挤眉弄眼,还是摇头晃脑,照片里的名人们都能跟你神同步

这就是来自意大利特伦托大学的一项研究:

利用一个一阶运动模型 (First Order Motion Model),静态图也能动起来,换脸也不在话下。

当然,这么有意思的项目,已经开源了!

一个川普在说话,一群史塔克也有话说

其实,这项研究早在数月前便已发表。

当时用的输入视频是川建国同志,静态照片用的是一组《冰与火之歌》史塔克家族及剧中其他人物图片。

效果是这样的:

可以看到,无论川建国同志是眨眼、晃头,史塔克家族的人们做到了神同步。

就连那张标志性的O型嘴,也“模仿”的惟妙惟肖。

而时隔几个月,这项技术又在Reddit爆火了起来。

一个可能的原因是,这次输入的视频来自流行的短视频平台,也就是说我们自己录一段视频也能用。

加上效果的逼真、有趣,或许用不了多长时间,短视频内容平台可能就会推出这个功能了吧。

当然,这个模型的魔力不止于此。

输入一个模特换pose的视频,再配上多张静态服饰照片,就能批量输出动态展示服装的视频了。

换脸,也是小菜一碟。

不过,也要温馨提醒一句:慎用静态照片,不然出来的效果可能就不太像“阳间的东西”了……

一阶运动模型

在训练阶段,研究人员采用了大量的视频序列集合,包含相同类别的对象。模型通过结合视频中的单帧,和学习到的潜在运动表示,来训练重构视频。

在测试阶段,研究人员将模型应用于由源图像和驱动视频的每一帧组成的对,并执行源对象的图像动画。

模型的框架就如下图所示:

框架主要由2部分构成:运动估计模块图像生成模块

运动估计模块的目的,是预测一个密集的运动场。研究人员假设存在一个抽象的参考框架,并且独立估计两个变换,分别是「从参考到源」和「从参考到驱动」。这样就能够独立处理源帧和驱动帧。

研究人员认为这个步骤是必要的,因为在测试时,模型会接收从不同视频中采样的源图像和驱动帧对,它们在视觉上可能非常不同。

在第一步中,研究人员从稀疏轨迹集近似这两种变换,通过使用以自监督方式学习的关键点来获得。利用局部仿射变换对每个关键点附近的运动进行建模。

在第二步中,密集运动网络结合局部近似得到密集运动场。除此之外,这个网络还输出遮挡的mask,指示哪些图像的驱动部分可以通过源图像的扭曲(warping)来重建,哪些部分应该被绘制(根据上下文推断)。

在第三步中,生成模块按照驱动视频中,提供的源对象移动的图像进行渲染。此处,研究人员使用一个生成器网络,根据密集的运动对源图像进行扭曲,并对源图像中被遮挡的图像部分进行着色。

最后,这个模型已经在GitHub上开源,我们在“传送门”中已经奉上地址链接。

快去试试吧~

传送门

GitHub项目地址: https://github.com/AliaksandrSiarohin/first-order-model

论文地址: https://arxiv.org/pdf/2003.00196.pdf

作者系网易新闻·网易号“各有态度”签约作者

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Nature年度最佳科学图片:人造微观血液网络、水珠里的青蛙

    除此之外,Nature新闻编辑团队选出了一些图片。这些图片既展示了先进的技术、以及通过技术看见的微观生物,也提醒着人类气候变化的危险。

    量子位
  • 无人车是怎样一步步学会开车的? | 自动驾驶科普

    原作:Marty Jacobs 安妮 编译自 Zore Equals False 量子位 出品 | 公众号 QbitAI ? 无人车到底是怎样一步一步学会开车的...

    量子位
  • 脑补慢动作的AI源代码来了:有了它,普通视频也能平滑补帧

    手机慢动作视频拍摄已经越来越普及,但网上大多数视频仍然是低帧率。如果我们自己能够自己动手,把球赛精彩瞬间转换成慢动作回放,那该有多好啊!

    量子位
  • 三星开发人工智能,无需3D建模即可为绘画和照片添加动画效果

    三星位于莫斯科的AI中心和Skolkovo科学与技术研究所的工程师和研究人员创建了一个模型,可以从图像中生成逼真的动画,而无需像3D建模这样的传统方法。

    AiTechYun
  • 【CVPR2020】百度入选22篇论文涵盖全视觉领域!

    近日,计算机视觉领域“奥斯卡”CVPR 2020官方公布论文收录结果,伴随投稿数量激增,接收率开始经历了一个持续下降的过程。今年,在6656篇有效投稿中,共有1...

    深度学习技术前沿公众号博主
  • 面试官问我 RabbitMQ 消息如何插队?

    消息中间件在各个大厂都有使用,算是现在面试过程中必问的一个知识点了。昨天,微信群里有一位网友说,面试官问我 RabbitMQ 消息如何插队?求大家科普如何做!

    业余草
  • 学界 | 斯坦福提出高速视频目标检测系统NoScope:速度超现有CNN上千倍

    选自Stanford University 作者:Daniel Kang 等 机器之心编译 参与:熊猫 卷积神经网络在目标检测任务上已经取得了优良的表现,但它们...

    机器之心
  • 理解Java并发工具类SynchronousQueue

    SynchronousQueue类是JDK5中引入的一个同步队列,这个类比较特殊,因为它虽然是一个队列但实际上并不真正的存储数据,仅仅维护一个线程配对的队列列表...

    我是攻城师
  • 以太坊源码分析---go-ethereum之p2p通信分析(2)

    第一时间获取文章,可以关注本人公众号 月牙寂道长 yueyajidaozhang

    月牙寂道长
  • PyTorch进阶之路(三):使用logistic回归实现图像分类

    在本教程中,我们将使用我们已有的关于 PyTorch 和线性回归的知识来求解一类非常不同的问题:图像分类。我们将使用著名的 MNIST 手写数字数据库作为我们的...

    机器之心

扫码关注云+社区

领取腾讯云代金券