首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌

---- 新智元报道   编辑:LRS 【新智元导读】让图片配合你的音频出演,配套sd-webui插件已发布! 随着数字人概念的火爆、生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题。 不过目前「通过人脸图像和一段语音音频来生成会说话的人物头像视频」仍然存在诸多问题,比如头部运动不自然、面部表情扭曲、视频和图片中的人物面部差异过大等问题。 最近来自西安交通大学等的研究人员提出了SadTalker模型,在三维运动场中进行学习从音频中生成3DMM的3D运动系数(头部姿势、表情),并使用一

01

DiffPoseTalk:利用扩散模型进行语音驱动的风格化 3D 面部动画和头部姿势生成

语音驱动的3D面部动画从任意语音信号生成与嘴唇同步的面部表情,需要学习语音、风格和相应的面部运动之间的多对多映射关系。大多数现有的语音驱动的3D面部动画方法依赖于确定性模型,这些模型通常无法充分捕捉复杂的多对多关系,而且面部动作过于平滑。此外,这些方法通常在训练过程中使用独热编码来表示风格特征,因此限制了它们适应新的风格的能力。为了解决上述限制和挑战,我们提出了DiffPoseTalk。与现有方法相比,DiffPoseTalk的主要改进可概括如下。我们使用基于注意力的架构将面部动作与语音对齐,并训练一个扩散模型来预测面部表情信号;除了表情之外,我们还预测了说话者的头部姿势,并设计相应的损失函数以获得更自然的动画。此外,我们利用Wav2Vec来编码输入的语音,以提高泛化能力和稳健性。最后,我们开发了一个风格编码器,从风格视频剪辑中获取潜在的风格代码。最后,我们构建了一个包含多种说话风格的语音驱动的面部动画数据集。

04

Premiere Pro 2020 Mac版(专业非线性视频编辑软件)

Premiere Pro 2020 for Mac是Adobe公司开发的一款专业非线性视频编辑软件,适用于Mac操作系统。它提供了强大的视频编辑功能和工具,可以帮助用户创建高质量的影视作品、广告、短片、动画等。该软件可以处理各种视频格式,包括常见的MP4、AVI、MOV、FLV等格式,以及高清和4K分辨率的视频。它支持多个视频和音频轨道,允许用户同时处理多个媒体元素,并在时间轴上对它们进行排列和调整。此外,该软件还提供了一系列高级特效、转场和滤镜,可以为视频增加创意元素。 Premiere Pro 2020 for Mac还具有许多其它功能,如实时预览、自动同步音频和视频、多机位编辑、快速导入素材等,这些都使得视频编辑变得更加高效、简便。非常适合专业人士和爱好者使用。

02
领券