最强开源数字人 HeyGem 解读李清照《蝶恋花》

文章来源：企鹅号 - 日吟

HeyGem真的可以说是目前效果最好的开源数字人解决方案。这个视频的流程是使用Flux模型生成了人物和背景的图片，人物用即梦的大师对口型生成了口播初始视频，主要是HeyGem不支持图片，只能用口播素材进行训练。使用腾讯元宝生成口播文案，用开源的Spark-TTS把文案生成语音，发现长音频中每段的开头Spark-TTS会出现无关语下次再留意下。用可灵把背景图生成背景视频，Suno生成背景音乐，剪映把人物抠像合成。这个方案的优势是自由定制高清数字人，长口播视频省钱~HeyGem缺点也不少，只能使用正面人脸视频，有点侧脸都不行，视频中右脸部分就比较明显的虚影，另外卡通人物兼容性也比较差。