MegaTTS 3 字节的这个项目,在项目刚创建的时候就留意到了,因为看评分要比 CosyVoice 2 还要强,前天看刘悦大佬发了一键包,可惜只能使用训练后的.pt模型,而官方提供的是提取声音特征的.npy文件。
昨天想自己用官方的Docker方式试试,结果构建的时候慢的要命就去睡觉了,今天早上起来一试还不好用,不知道是不是因为模型文件没放对位置的原因。然后又在B站搜了下,发现有大佬提供了支持.npy形式的一键包。
视频地址:https://www.bilibili.com/video/BV1XodPY1Epn/
一键包:https://pan.quark.cn/s/c596f24538ee
字节官方项目地址:https://github.com/bytedance/MegaTTS3
用谷歌网盘里几个特征文件试了下,果然音色还原的不错的,可以听听看。
其实主要给一个朋友克隆声音,之前的项目都试过还原的都不如MegaTTS3的效果,这里不方便放出来,相似度方面真的不用自己抽卡。但是缺点是需要把声音上传到公共网盘,有被别人使用的风险,介意的还是慎重考虑。
不知道是不是因为克隆的音色相似度太高的缘故,字节暂时没有提供本地训练的方法,要训练音色需要把自己的声音文件上传到谷歌网盘,然后字节提取声音特征文件后会把文件重新上传到网盘。
音频上传网址:https://drive.google.com/drive/folders/1gCWL1y_2xu9nIFhUX_OW5MbcFuB7J5Cl
推荐5-24秒24kHz以上的干声wav文件。
特征文件获取网址:https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr
可以在user_batch_1或user_batch_2中找找上传的同名.npy文件。找的时候可能需要在网页中(Ctrl+F5)来查找,在云端硬盘中直接搜索有可能会找不到。一般上传后的第2天就能获取到。
推理生成
有了声音和.npy特征文件,就可以在一键包中上传进行推理合成音频了。方法所见即所得。。。
关于参数的说明:
infer timestep:
推理步数,步数越高相对质量越高,生成速度越慢。
Intelligibility Weight:
发音强度 (p_w) 用于控制发音的准确性,数值越高,发音越标准。例如在处理带有口音的输入文本时,较高的p_w值能让输出语音更接近标准发音。数值范围:0.5-5.0(建议1.0-4.0)
Similarity Weight:
音色相似度 (t_w) 用于控制生成语音与参考语音的相似度,数值越高,生成的语音就越接近参考语音。若你有一个参考语音样本,t_w值设为5.0时生成语音会比设为1.0时更像该参考语音。数值范围:1.0-5.0(建议2.0-5.0)
参数应用策略
参数组合说明
保留口音模式
降低发音强度(p_w=1.0-1.5)可保持说话者原始发音特征,适用于跨语言场景中的口音保留需求,如港台腔与英语的混合发音
标准化发音模式
提升发音强度(p_w=2.5-4.0)能强制矫正发音,消除地域口音干扰,适合需要专业播音效果的场景
情感语音优化
配合中等发音强度(p_w=1.5-2.5)与高音色相似度(t_w≥3.0),可生成带有情感起伏的拟真语音,如惊喜、悲伤等复杂情绪表达
噪声环境适配
当参考音频存在背景噪声时,需同时提高两个参数(p_w≥3.0, t_w≥3.0)以增强模型抗干扰能力
另外现在ComfyUI也已经有两个项目支持了
https://github.com/billwuhao/ComfyUI_MegaTTS3
https://github.com/1038lab/ComfyUI-MegaTTS
使用方法也基本一样,先在custom_nodes目录中git clone项目,然后安装依赖,再把模型文件夹放到\models\TTS\MegaTTS3目录下面。
模型下载:https://pan.quark.cn/s/87c061f249b9
感谢阅读,如果觉得对你有帮助可以帮我点个赞或者推荐,也可以分享给你觉得需要的朋友!
领取专属 10元无门槛券
私享最新 技术干货