2 分钟论文:语音生成表情包背后的技术原理

AI 科技评论出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

来源 /Two Minute Papers

翻译 /郭维

校对 /凡江

整理 /雷锋字幕组

【本期论文】

AI Creates Facial Animation From Audio

由语音生成实时面部表情动画

本期论文探讨的话题是 —— 由语音生成实时面部表情动画,也就是说,在对我们说的话进行语音记录后,通过某种学习算法,生成数字形象在说话的高质量动画。听起来是不是很酷呢?

实际上,这种学习算法是一种卷积神经网络。每个角色只需要进行三到五分钟的训练,便可以对真实世界的各种表达方式及语言形成某种概念。如果你认为,这没什么大不了的,实际上,这个算法在不断地优化过程中,变得越来越好。

接下来我们会聊到,背后主要有两个原因支撑这个算法的不断优化。

第一个原因就是,它不仅将音频作为输入,我们发现在说出这些话的时候,角色所处的情绪状态也得到了表达,从而变得栩栩如生,非常生动。

第二个原因,也是最棒的一部分,我们可以将此与 DeepMind WaveNet 相结合,通过文字输入合成音频。因此,它基本可以合成一个真人语音,并且将我们写下的任何东西,毫无障碍地讲出来。听起来似乎我们可以同时应用剪辑与这项技术,使得数字形象说出我们写下的内容。

那么通过 WaveNet 我们是否可以将文字转化成语言,并将语音加到真实角色上去呢?这样一来,我们找到了一种通过学习,为我们方便地提供服务,甚至不再需要任何画外音演员,也不再需要为动画进行动作捕捉,实在是太棒了。

在该篇论文中,尤其需要注意的是,作者提到的用于确保结果长期正确运行的三向损失函数。当然了,在研究中我们必须证明成绩是在不断提高的。在补充视频中,我们做了很多对比来完成此项内容,但是我们需要的,不仅仅是这些。

由于这些结果无法归结为我们需要证明的数学定理,我们不得不采取其他方式来完成这件事。最终的目标是,普通人认为这些视频是真实视频的几率,要比用原先技术生成的视频的大。这是该篇论文中提出的用户学习的核心理念。

我们找来一群人,在他们不知情的情况下,给他们观看新老技术所生成的视频,然后问他们觉得哪个更加自然,结果相去甚远。新技术不仅整体上有优势,在某个单项中,不论是场景还是语言上无不胜出,这在研究中是很罕见的。

一般来说,在一个成熟领域,新技术只是进行了不同的取舍。一个经典的例子就是——执行时间的减少伴随着内存消耗成本的提高。然而在本篇论文中,它在各方面都体现了出了优势,让人惊叹。

学霸们还请自行阅读论文以获得更多细节

论文原址:https://arxiv.org/pdf/1706.03741.pdf

本文来自企鹅号 - AI科技评论媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

如何用爬虫和挖掘技术设计一款数据舆情产品?(附开发源码)

网址:http://www.kesci.com/apps/home_log/index.html#!/competition ? 一. 动机与问题背景 ...

86360
来自专栏人工智能头条

大伽「趣」说AI:腾讯云在多个场景中的AI落地实践

AI技术已经家喻户晓。不论是移动终端设备,还是企业系统平台,都开始集成AI能力,现阶段看,AI融合到各个行业的潜力非常巨大,能够在众多场景中发挥作用,比如云计算...

17740
来自专栏人工智能

2 分钟论文:语音生成表情包背后的技术原理

AI 科技评论出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 来源 /Two Minute Papers 翻...

27250
来自专栏机器之心

观点 | 人工智能的三个阶段:我们正从统计学习走向语境顺应

选自DataScienceCentral 作者:William Vorhies 机器之心编译 参与:黄小天、微胖、李泽南 我们处在人工智能的哪个阶段?我们将要去...

37790
来自专栏数据科学与人工智能

【机器学习】机器学习商业应用入门及七个实例

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或...

33450
来自专栏新智元

【iPhone X重磅发布】携A11人工智能芯片登场,人脸识别9大特征

【新智元导读】苹果13日凌晨发布了本年度最重量级的产品——iPhone X (iPhone 10)。这款用人脸识别进行解锁的新iPhone 可能是苹果AI属性最...

33060
来自专栏新智元

【快报】机器翻译首次超越人类 | 亚马逊再度挖到深度学习人才

新智元 AI DAILY 1 机器翻译首次超越人类水平 ? 最近实时机器翻译取得了重大突破。10月3日发表的一篇论文中,香港大学和 CMU 的研究人员称,...

36850
来自专栏大数据文摘

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

17830
来自专栏PPV课数据科学社区

【学习】写给新人数据挖掘基础知识介绍

一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数...

32460
来自专栏机器学习算法与Python学习

进阶深度学习?这里有9个给程序员的建议

这名开发者名叫Alexey Gaziev,是一家社交媒体管理创业公司的CTO,原来是一名Ruby开发者,后来自己学习深度学习。

13210

扫码关注云+社区

领取腾讯云代金券