HeyGem真的可以说是目前效果最好的开源数字人解决方案。这个视频的流程是使用Flux模型生成了人物和背景的图片,人物用即梦的大师对口型生成了口播初始视频,主要是HeyGem不支持图片,只能用口播素材进行训练。使用腾讯元宝生成口播文案,用开源的Spark-TTS把文案生成语音,发现长音频中每段的开头Spark-TTS会出现无关语下次再留意下。用可灵把背景图生成背景视频,Suno生成背景音乐,剪映把人物抠像合成。这个方案的优势是自由定制高清数字人,长口播视频省钱~HeyGem缺点也不少,只能使用正面人脸视频,有点侧脸都不行,视频中右脸部分就比较明显的虚影,另外卡通人物兼容性也比较差。
领取专属 10元无门槛券
私享最新 技术干货