得益于微软的新人工智能技术,蒙娜丽莎现在可以做的不仅仅是展示神秘的微笑了。
微软的研究人员公布并详细介绍了他们开发的一种新的人工智能模型——VASA-1。
它可以将一张静态的人脸图像和某人说话的音频片段结合,创建出一个看起来能以假乱真的视频。
AI利用一张照片生成了动态视频
这些视频中,原本静态的人像会根据音频内容、词汇和语义情感,展现出逼真的嘴唇同步和自然的面部表现,甚至是在适当的时候,微扬的眉毛、上翘的嘴角或弯弯的眼角细节,在说话的过程中,头部还会有自然的摆动幅度——这一切,让视频内容看起来很有欺骗性,仿佛就是由主角在亲口讲述内容一般。
除了普通人像照片,AI还可以利用名画或卡通插图等来匹配语音内容生成视频。比如,研究人员展示了他们如何让蒙娜丽莎背诵美国女演员安妮海瑟薇的喜剧说唱。
来自VASA-1的输出,既有趣又有点不真实,它学习了大量的人们说话时的面部视频,现阶段,已能基本识别自然的面部表情和头部运动,包括“嘴唇弧度,眼神和眨眼、扬眉等等”。
微软表示,该技术可用于教育方面,或“改善有沟通障碍的个人的社交状况”,或为孤独人群创造出完美拟真的虚拟伴侣。
若是仔细观察VASA-1输出的视频,仍然能从中找到AI生成的蛛丝马迹,例如有些时候,略显僵硬的眨眼和夸张的眉毛运动等。
但微软表示,它相信自己的模型“明显优于”其他类似的工具,并“为与模仿人类对话行为的逼真化身进行实时互动铺平了道路”。
在公众惊叹的同时,也传出了担忧的声音,有民众认为,这项AI技术如果缺乏监管,它可以很容易的被滥用来冒充真实的人。
还有些从事广告或电影行业的专业人士也表示了担心,认为这项技术可能会进一步扰乱以创意为主的人工产业。
目前,微软表示不打算向公众发布VASA-1模型,只提供给一些专业用户和网络安全教授用于测试目的。
微软研究人员在一篇博客文章中说:“我们反对任何冒用真实的人的名义发出误导或有害内容的行为。”他补充说,公司目前“没有计划公开发布”该产品,“直到我们确定该技术将被负责任地使用,并符合适当的规定。”
领取专属 10元无门槛券
私享最新 技术干货