首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能AI应用VideoReTalking让视频中的数字人开源项目 10秒视频驱动声音生成逼真视频音频和嘴唇数开源项目

你只需要输入任意一个视频和一个音频文件,它能给你生成一个新的视频,在这个视频里,人物的嘴型会与音频同步。VideoReTalking不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。

工作流程:

整个系统的工作流程分为三个主要步骤:面部视频生成、音频驱动的嘴型同步和面部增强。所有这些步骤都是基于学习的方法,并且可以在一个顺序的流程中完成,无需用户干预。

1、面部视频生成:首先,系统会使用表情编辑网络来修改每一帧的表情,使其与一个标准表情模板相符,从而生成一个具有标准表情的视频。

2、音频驱动的嘴型同步:然后,这个视频和给定的音频一起被输入到嘴型同步网络中,生成一个嘴型与音频同步的视频。

3、面部增强:最后,系统通过身份感知的面部增强网络和后处理来提高合成面部的照片真实性。

【项目及演示】:opentalker.github.io/video-retalking/

【论文】arxiv.org/abs/2211.14758

【GitHub】github.com/OpenTalker/video-retalking

【Colab】colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb

该系统是使用 PyTorch 实现的,并且每个模块都是单独训练的。系统在 VoxCeleb 数据集上进行了训练。

VoxCeleb 是一个大型的、多样性丰富的说话头部视频数据集。这个数据集包含了 22,496 个不同身份和头部姿态的说话头部视频。选择这个数据集的目的是为了确保模型能够处理各种各样的说话头部视频。

通过这样详细和精细的训练过程,VideoReTalking 成功地实现了一个能够生成高质量、嘴型与音频同步的说话头部视频编辑系统。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O3plX2oCUDNxJ6n4E5z2Yyrg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券