开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

新AI模型：一张图片+声音样本=会说话的人脸视频

文章来源：企鹅号 - CHIP奇谱

虽然Runway、NVIDIA公司借助AI模型，通过图片与声音样本实现人像唇部音频同步和头部运动技术，但实际动态图像质量和逼真度还需提升。而近日微软展示了名为VASA-1的AI模型，只要接受一张人像照片+一段声音样本，就可创建一个鲜活的会说话的人脸视频，甚至还包括唇语同步，面部情绪表达及头部动作。

微软表示，VASA-1是一个新的框架，目的是创建栩栩如生的人脸视频，应用场景可用于虚拟人物的动画制作。示例中的所有人物都是合成的，是借助DALL-E 制作生成的。

VASA-1模型还具有很强的控制能力，提供的图片无需正面平视前方的视角就可生成相应动态视频。还可将图片中人物眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。

作为商业前景来看，最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的AINPC，就能让玩家更好感受游戏沉浸感。它还可用于为社交媒体视频创建虚拟化身，基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌，就能制作出更逼真的音乐视频。

不过可惜的是，该模型目前只是研究预览版，除微软研究团队以外的任何人都无法试用。不过，对于了解过该AI模型的人都会记忆深刻，期待不久将来可以进入大众的应用视野。

发表于: 2024-04-192024-04-19 12:32:18
原文链接：https://page.om.qq.com/page/OXfiXmY8H7KYpms73DP-Sj0w0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯