首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

新AI模型:一张图片+声音样本=会说话的人脸视频

虽然Runway、NVIDIA公司借助AI模型,通过图片与声音样本实现人像唇部音频同步和头部运动技术,但实际动态图像质量和逼真度还需提升。而近日微软展示了名为VASA-1的AI模型,只要接受一张人像照片+一段声音样本,就可创建一个鲜活的会说话的人脸视频,甚至还包括唇语同步,面部情绪表达及头部动作。

微软表示,VASA-1是一个新的框架,目的是创建栩栩如生的人脸视频,应用场景可用于虚拟人物的动画制作。示例中的所有人物都是合成的,是借助DALL-E 制作生成的。

VASA-1模型还具有很强的控制能力,提供的图片无需正面平视前方的视角就可生成相应动态视频。还可将图片中人物眼睛注视的方向、头部距离甚至情绪作为输入来引导生成。

作为商业前景来看,最明显的应用案例就是游戏中的高级唇语同步。如果能创造出具有自然唇部动作的AINPC,就能让玩家更好感受游戏沉浸感。它还可用于为社交媒体视频创建虚拟化身,基于人工智能的电影制作。如果能让人工智能歌手看起来像在唱歌,就能制作出更逼真的音乐视频。

不过可惜的是,该模型目前只是研究预览版,除微软研究团队以外的任何人都无法试用。不过,对于了解过该AI模型的人都会记忆深刻,期待不久将来可以进入大众的应用视野。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OXfiXmY8H7KYpms73DP-Sj0w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券