前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >零基础小白快速免费部署AI数字人MuseTalk

零基础小白快速免费部署AI数字人MuseTalk

作者头像
AIGC部落
发布2024-07-22 18:31:06
1430
发布2024-07-22 18:31:06
举报
文章被收录于专栏:Dance with GenAI

MuseTalk 是由腾讯音乐天琴实验室开发的一款实时高质量音频驱动的口型同步模型,专门用于虚拟人口型生成。该模型能够根据输入的音频信号自动调整数字人物的面部图像,使其唇形与音频内容高度同步,从而达到口型与声音匹配的效果。MuseTalk 在口型生成方面表现出色,能够生成准确且画面一致性良好的口型,尤其擅长真人视频生成。

MuseTalk 的主要功能特点包括:

实时性能:在 NVIDIA Tesla V100 上可以实现每秒30帧以上的实时推理。

多语言支持:支持中文、英文和日文等多种语言的音频输入,这使得它能够为不同国家和地区的用户提供服务。

高精度口型同步:通过潜在空间修复(Latent Space Inpainting)技术,能够在256 x 256像素的面部区域上进行高精度的口型修改。

高画面一致性:生成的口型与声音匹配效果准确且画面一致性良好。

广泛的应用场景:适用于多种视频内容处理需求,如自媒体制作、虚拟主播等。

不过,MuseTalk的部署过程比较麻烦,对于小白用户来说很有难度,而且对电脑显卡和内存等都有较高要求。幸好有大好人谷歌推出的google colab,借助它我们可以快速免费而且非常简单的部署MuseTalk。Google Colab(也称为Colaboratory)是一个由Google提供的免费云端开发环境,主要用于数据分析、机器学习和深度学习等任务。它基于Jupyter Notebook,用户可以通过浏览器直接编写和执行Python代码,并且可以与他人共享和协作编辑代码。

首先,打开这个地址:

https://colab.research.google.com/github/camenduru/MuseTalk-jupyter/blob/main/MuseTalk_jupyter.ipynb

点击右上角,更改运行时类型,选择T4GPU

可以看到google colab给我们分配了免费的12G内存,78G硬盘,还有GPU算力资源;

点击小三角,运行代码:

3分钟左右,运行成功,

看到Running on public URL这一行字,就代表MuseTalk已经成功部署了,然后点击这个网址:

上传一个音频和一个参考视频:

视频上传后需要处理10多秒

然后点击:Generate

如果出现:Error,Connection errored out.

可以把视频时长、音频时长裁剪短一些,20秒左右;然后再次运行;

最后一步需要时间较多,通常是20多分钟;

右边出现视频,就说明处理完成了:

然后点击右上角的download,可以下载处理好的视频。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云智能数智人
腾讯云智能数智人(Tencent Cloud AI Digital Human)为新一代多模态人机交互系统,快捷打造有智能、有形象、可交互的“数智分身”,引领企业服务智慧升级,助力数智化转型,提升企业沟通效率和服务温度。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档