开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >牛津大学最新研究：给我一张照片，就能让你开口讲话

牛津大学最新研究：给我一张照片，就能让你开口讲话

量子位

发布于 2018-03-30 15:14:16

6950

发布于 2018-03-30 15:14:16

举报

文章被收录于专栏：量子位

若朴发自凹非寺量子位报道 | 公众号 QbitAI

这句话你说过没有？不承认？我给你看证据！

于是你就看到一段视频，画面中的你开口说了一段你不曾讲过的话，口型自然、动作流畅。这是怎么回事？

来自牛津大学工程科学系视觉几何组的三位工程师，最近提出了一种生成聊天面部视频的方法。这个方法需要两个输入信息：

一张静止的面部图像
一个语音片段

可以得到的输出，是口型与语音片段同步且匹配的视频。这个方法可以实时工作，并且在运行时，可以应用于未曾见过的面孔和未曾听过的音频，也就是说，不是训练数据的情况下也能工作。

干说不如来段视频，一下就全明白了：

视频内容

为了实现上述效果，牛津大学的团队提出了一种编码-解码CNN模型，使用面部和音频的联合嵌入，来生成合成的面部聊天视频帧。这个模型经过数十小时未标记视频的训练。

相关Paper在此：

https://arxiv.org/pdf/1705.02966.pdf

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-05-16，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

若朴发自凹非寺量子位报道 | 公众号 QbitAI

相关产品与服务

图像处理

图像处理基于腾讯云深度学习等人工智能技术，提供综合性的图像优化处理服务，包括图像质量评估、图像清晰度增强、图像智能裁剪等。

产品介绍产品文档

精选特惠用云无忧