首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

最强开源数字人 HeyGem 解读李清照《蝶恋花》

HeyGem真的可以说是目前效果最好的开源数字人解决方案。这个视频的流程是使用Flux模型生成了人物和背景的图片,人物用即梦的大师对口型生成了口播初始视频,主要是HeyGem不支持图片,只能用口播素材进行训练。使用腾讯元宝生成口播文案,用开源的Spark-TTS把文案生成语音,发现长音频中每段的开头Spark-TTS会出现无关语下次再留意下。用可灵把背景图生成背景视频,Suno生成背景音乐,剪映把人物抠像合成。这个方案的优势是自由定制高清数字人,长口播视频省钱~HeyGem缺点也不少,只能使用正面人脸视频,有点侧脸都不行,视频中右脸部分就比较明显的虚影,另外卡通人物兼容性也比较差。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OAt28ZTBJKDOlTshXILEnEvQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券