奥巴马吐槽川普“笨蛋”的视频火了,这又得“归功”于AI

夏乙 栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI

一段吐槽视频今天在美国火了。

也就半天的工夫,这段视频在Twitter上有200多万次播放,1300多条评论,被转发了2万6000多次,还收获了5万多个赞。

什么视频这么万人瞩目?主角,是前总统奥巴马;这么受关注,当然是因为——内容非常劲爆,特别是这一句:

President Trump is total and complete dipshit.

“川普总统完全就是个笨蛋。”

不过,这些劲爆的话都不是奥巴马自己说的,视频里的声音来自刚刚在今年的奥斯卡上以《Get Out》拿下最佳原创剧本奖的导演Jordan Peele。

他和BuzzFeed CEO Jonah Peretti一起,自导自演了这么一出大戏,戏里的奥巴马,对口型能力强大到让所有假唱精英败下阵来。

搬出奥巴马,就是为了向全美国(甚至全球)人民传达视频开头的那句话:

“我们已经进入了这样一个时代,我们的敌人可以做出看起来像任何人在任何时候说任何话的东西。”

未来的假新闻可能就是这个样。

这个视频……鹅厂不让上传,有兴趣的同学可以自行搭梯子去Twitter看:

https://twitter.com/BuzzFeed/status/986257991799222272

视频中,Peele还放出了奥巴马和自己的对比环节。

右边就是Jordan Peele,这段视频的(部分)替身演员和声优。视频制作的主力工具则是Adobe AE和FakeApp。

此次的脸部搬家工作,具体是这样的。首先,找出一段奥巴马真正的演讲视频,将Peele的嘴粗暴地粘贴到奥巴马脸上。然后,再把奥巴马的下巴,换成一个可以随着演员嘴部动作一同运动的下巴。

下一步,FakeApp登场,负责把拼贴好的视频做一些平滑和细化处理。听起来像是收尾工作,但这一步任重道远。

据BuzzFeed透露,一开始搬家的效果蠢蠢的。可能用整容失败都不足以形容。但,训练时间长了之后,Peele的嘴部动作和奥巴马的脸融合得越来越自然。

最后发出来的视频,是56小时辛苦训练、以及特效专家现场指导的结晶。

又见FakeApp

是的,又见FakeApp。

去年底,一位不愿透露姓名的用户deepfakes,利用业余时间搞出了这个机器学习算法,主要的功效就是两个字:换脸。

只要给这个AI一些照片,就能出色的给视频中的主角换脸。

后来他的网名,就成了这个技术的代名词。作者本人透露,这个系统是基于像TensorFlow后端的Keras等多个开源库完成的。

这个开源系统发布之后,立刻引发了轰动。国外网友在reddit上创建了专门的讨论区,用来交流和发布研究成果。

简单实用效果好,deepfakes快速流行开来。很多人开始用这个技术,把色情片主角的脸换成自己喜欢的明星。

再后来,deepfakes进化成FaceApp。

从此换脸的流程进一步简化。FaceApp被定义为一个社区开发的桌面应用,可以运行deepfakes算法,无需安装Python、TensorFlow等,并且如果想要运行,仅需要“CUDA支持的高性能GPU”。

换脸的训练过程

炸裂的效果引发了巨大的争议,后来reddit上这个版块也不得不关闭了事。

虽然互联网公司几乎集体封禁了deepfake相关社群,不想让网民们再到处传播换上赫敏脸的小片片。但是,这个技术的超低门槛软件FakeApp悄然迭代着,目前已经到了2.2版。

这里,我们放一段之前的演示:将希特勒的脸“嫁接”到阿根廷总统Mauricio Macri身上,体会一下效果。

视频内容

关于deepfakes的应用,量子位还在另一篇报道里有过详细的描述,传送门在此:《不可描述,技术进步》

无需配音

在FakeApp的帮助下,换脸这件事变得非常简单。

那声音怎么办?严丝合缝的声优在哪里?

还是让AI来吧。

上周,有Reddit小伙伴发布了,川普演讲的韩文版,是AI自动生成的。

楼下,就有韩国友人鉴定,嗯,流利得可以。

视频内容

这还不算,会说韩文的群众纷纷表示,美国人说韩文,基本就是这个口音。

本周,还是那个小伙伴,又放出了带有you-know-who嗓音的韩式英文,AI调教成果上佳。

视频内容

视频那一头的神秘团队Icepick,到底对他们的AI做了什么,目前并没有相关信息公开。

耳朵会怀孕

不过,我们依然可以看看,AI获得语音生成技能之前,到底需要经受怎样的调教——

气质如何调教

不管是谷歌娘,Siri,或是Alexa,说的话听上去都不太像真人。这是因为,我们说话时有一些平常不容易察觉的细节,比如字与字之间的连接、呼吸声、气音、嘴唇碰撞时发出的声音等等。

所以,把多个语音片段直接拼接合成 (Concatenative Synthesis) 一段话 (即鬼畜本畜),或者用参数合成 (Statistical Parametric Synthesis) ,都很难产生非常接近人声的语音。

第一个用神经网络来生成人类自然语音的,就是DeepMind的WaveNet。

从前,人们很少为原始音频的声波直接建模,因为每秒有超过16,000个采样点,让模型过于复杂,难于训练。

但当PixelRNN和PixelCNN发布之后,DeepMind便有了“借助二维图像的处理方式,来处理一维声波”的想法。

WaveNet是全卷积神经网络,卷积层里的扩张因子 (dilation factors) ,能让感受野 (receptive field) 随深度变化呈指数增长,并且覆盖数千个时间步 (timestep)。

有了延时采样机制,只要增加一层,就可以多关联一倍的时间范围,训练效果更佳。

你听得出,我不是人吗

通过层层卷积,WaveNet便可以把PS痕迹明显的机器语音,转换成更加流畅自然的语音,与人类声音之间的差异大幅降低。

嗓音如何调教

去年,Lyrebird也发布了语音合成技术,基于音色、音调、音节、停顿等多种特征,来定义某个人的声音,然后借用ta的声音来说话。

据公司官方表示,通过大量的样本学习,神经网络只需要听一分钟的音频,就可以模仿里面的陌生人说话了。Lyrebird系统生成一段语音,比同一时期的WaveNet要快得多。

口音如何调教

说一句话很容易,但语音就是一门复杂的学科了。同样一个“啊”字从不同的人嘴里发出来,也会因为口型大小、发音位置 (这并不是官方特征分类) 等习惯的不同,让身为听众的人类或计算机感受到差异。

给你,销魂的伦敦腔

百度的语音合成系统DeepVoice,可以轻松训练AI合成百种英文口音。研发团队发现,AI把不同口音的演讲者,对应到嵌入空间的不同区域里。比如来自大不列颠岛和北美大陆的人,在嵌入空间里占据的区域也有明显的不同。

简单的原理:英男 + 均美 +均英 = 美男

如果是处理中文,什么样的声线和口音,才比较适合骗大神带你吃鸡呢?

随口一说

你个火·箭男

也有人不喜欢用政治噱头来包装科学研究的做法,并表达了强烈的反胃之情。

不过我倒觉得,如果有人发糖,还是要尽量分享给周围的人。下面是正确示范——川川当选之际,和希拉里的深you情du对唱 (误) ,无奈视频上传有难度,就改成了传送门。

https://www.bilibili.com/video/av7234390/

以后,AI说不定能帮我们,把天衣无缝的南腔北调,P给鬼畜区的任何一位主角。

那么,我心心念念的雷布斯同款仙桃普通话,感觉指日可待啊。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

怎样撰写技术论文

---- 很多人都有写技术文档的经验,还有发表职称论文,如何写专业的论文?下面的文章会对你有帮助!!! 怎样撰写技术论文 1 技术论文 的一般格式和具...

2905
来自专栏量子位

“每天AI资讯这么多!该看哪些?”推荐一份优质资料清单

原作 BAILOOL & meetshah1995 Root 编译自 GitHub 量子位 出品 | 公众号 QbitAI 人工智能最近火到炸裂,不看吧担心和时...

3296
来自专栏机器之心

业界 | 《硅谷》中的「See Food」不仅是真实的应用,还有真实的故事

机器之心报道 作者:李泽南 「我们知道杨靖的 app 是在食品领域中的,但我们假设它的实现基于手机摄像头,」HBO《硅谷》第四季中硅谷的投资人这样说道。「比如,...

3174
来自专栏腾讯云安全的专栏

鉴黄界的“Master”,其实是“他”

2554
来自专栏机器之心

纽约客特稿 | 把癌症诊断交给机器,医疗服务会更好吗?

选自Newyorker 作者:Siddhartha Mukherjee 机器之心编译 参与:侯韵楚、Rick R、微胖、吴攀、蒋思源 深度学习系统变得越强大,它...

34315
来自专栏机器学习算法与Python学习

从小白到达人,一个博士的论文发表经验谈!

作为一个Junior,我曾经无知地询问过很多次CSSCI和SSCI的排名是如何对应的,比如如果把经济研究放到SSCI中是一个大概什么位置呢?所得到的答案出人意料...

1070
来自专栏新智元

川普PK希拉里,谁演讲技术更好?这里有一个AI做的测试

来源:foxnews.com 作者:Brooke Crothers 编译:刘小芹 【新智元导读】最近Trint公司做了一个测试,用它的AI软件对特朗普、克林顿...

35512
来自专栏量子位

不好,两群AI打起来了!“幕后主使”是上海交大~

夏乙 若朴 发自 凹非寺 量子位 出品 | 公众号 QbitAI 你们这些科学家在干什么!怎么教会AI打群架啦! ? 成百上千的AI agent,分成两支AI大...

4215
来自专栏大数据文摘

AI说人“画” | 说说我用神经网络找小哥哥的那些事儿……

1603
来自专栏AI科技大本营的专栏

胜过iPhone XS?Google Pixel的“夜视功能”是怎样炼成的

【导读】随着智能手机的不断发展成熟,为了寻找差异化的厂商不断增加摄像头的数量。然而,摄像头的数量越多,就代表拍照的质量越好吗?

1022

扫码关注云+社区

领取腾讯云代金券