大数据文摘作品,转载要求见文末
编译 | 康璐、大力、钱天培
想象生日当天,你收到了一份神秘礼物:你的朋友请奥巴马给你录了一段生日祝福视频——嘴型和声音完全对得上,肢体动作也相当协调。奥巴马说着你的名字、你的故事,为你许愿,看得你泪眼朦胧:“原来我的小伙伴是个隐形土豪!”这样的场景是否十分梦幻呢?
华盛顿大学的计算机科学家们正让这件事情变得有可能。
近日,他们发布了一项有趣的最新研究成果:以现有美国前总统巴拉克奥巴马的音频和视频为原料,用人工智能的方法制作出以假乱真的奥巴马视频。
在此之前,华盛顿大学的计算机科学家已表示,他们可以通过分析网络图像资料制作人物数字化身(digital doppelgängers)。从社会名流,如汤姆汉克斯(《阿甘正传》的阿甘)、阿诺德施瓦辛格(《终结者》的终结者),到公众人物,如乔治.W.布什、巴拉克奥巴马,他们的数字化身都可以被制作出。
在此次研究中,该实验室将奥巴马选取为对象是因为网上有大量奥巴马的高清视频。这个研究团队通过神经网络分析了上百万帧奥巴马的视频,用以掌握奥巴马说话时的面部元素变化,例如嘴唇、牙齿和皱纹的移动。
为了使神经网络学习到嘴型和声音之间的相互联系,研究人员将音频片段与视频的原始声音文件剪辑在一起,制成神经网络学习的数据源。然后,他们把匹配了新音频片段的嘴型嫁接到了源视频中。本质上来说,研究人员利用过去几十年的素材,合成了嘴型和声音同步的奥巴马视频。
研究人员注意到,以前类似的研究大多是通过一遍遍录制人们说话的视频来寻找不同嘴型和声音之间的联系。然而,这是一项非常费钱、枯燥又费时的工作。与此相反,这个新方法可以利用已经存在于网络或其他地方的数百万小时的视频资料来展开研究,大大节约了成本。
该研究的合作者Ira Kemelmacher-Shlizerman说道,这项新技术的前景之一是为视频会议提供技术支持。虽然远程的视频会议通常伴随着卡顿、画面暂停或低分辨率的问题,但是音频通常不会出现问题。因此在未来,视频会议可能只需要简单传输人们说话的音频,然后用这个软件重构出人们说话时候的样子。这项工作也能在VR和AR应用中用数字化替身的方式帮助人们对话。
此外,他们也期待这项工作能在未来帮助VR(虚拟现实)或AR(增强现实)应用生成人物数字化模型。
研究人员注意到,他们做的假视频目前还不是尽善尽美。例如在一个目标视频中,当奥巴马将脸转离正对镜头方向的时候,他尚有缺陷的脸部三维建模会使他的嘴重叠到脸外的背景上去。此外,奥巴马也偶尔会长出“双下巴”。
除此之外,研究团队也注意到,他们目前的成果还无法模拟情绪变化。因此在假视频中,奥巴马的脸部表情可能会在非正式的发言场合显得太严肃,或者在严肃的发言场合显得太随意。他们表示,用神经网络来预测视频中的情感变化将会是一个非常有趣的任务。
研究者们也表示,他们很小心地避免了将非奥巴马本人的音频制作成假视频。“但这种连音频一同伪造的假视频可能很快就能被制作出来了”,来自华盛顿大学的计算机科学家、该研究的第一作者 SupasornSuwajanakorn说道。也就是说,在文章开头提到的“奥巴马为你送生日祝福”的情境很快就能变为现实了。
有趣的是,这项研究提供了假视频制作的技术支持,同时也启发了我们检测假视频的方法。譬如,在被处理过的假视频中,人物的嘴部和牙齿会产生局部模糊。Suwajanakorn 说:“这种模糊虽然很难被人眼识别,却可以被一个比对不同视频嘴部模糊程度的程序很有效地识别出来。”
在一定程度上,嘴型变化和说话内容之间的联系是全人类共有的特征。因此,用奥巴马的视频训练出来的神经网络模型或许也可以被用到其他人物的假视频制作上。或许在不久的将来,不需要录制大量的个人视频,你也能够快速制作出你自己的“虚拟人像”。
当那天到来,你的语音将会把你的虚拟影像带去世界各地,但你或许也会发现“假冒”的自己在各地游走。当然,也可能会发现正在说freestyle的奥巴马。
如果一切成真,你会如何看待这项技术呢?欢迎在文末留言说出你的看法。
原文链接:http://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-creates-fake-obama
2017年7月《顶级数据团队建设全景报告》下载
关于转载 如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。