首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【史上最强】还原你的声音,GPT-SoVITS在windows下安装使用技巧

安装环境:

系统:Windows11

内存:32G

显卡:4060ti16G

1.下载源码到本地磁盘

git clone https://github.com/RVC-Boss/GPT-SoVITS.git

2.启动双击go-webui.bat

访问地址:http://localhost:9874

3.页签【0-前置数据获取工具】中【0a-UVR5人声伴奏分离&去混响去延迟工具】是如果需要分离人声的音频,作者提供了一个工具可以勾选使用,不需要可以跳过

4.【0b-语音切分工具】目的是将一个长音频分解成若干个短音频用于训练,在【音频自动切分输入路径,可文件可文件夹】中填入输入长音频文件路径,如:

5.【切分后的子音频的输出根目录】填入切割后文件的文件夹,如:

6.打开切分后的音频看下是否切成多个小段,若没有还是一个长音频,可以调整threshold值,如:-34调整到-20再点击【开启语音切割】

7.【0c-中文批量离线ASR工具】是将每小段的语音进行ASR识别文字,【批量ASR(中文only)输入文件夹路径】填入刚刚切割后小段的文件路径,如:D:\GPT-SoVITS-beta\test\mike\output\slicer_opt

点击【开启离线批量ASR】会在D:\GPT-SoVITS-beta\output\asr_opt生成一个slicer_opt.list文件,里面包含每小段音频的文字识别

8.【0d-语音文本校对标注工具】需要对asr后的文字识别做个校准,【.list标注文件的路径】中填入刚刚生成的slicer_opt.list的路径,如:D:\GPT-SoVITS-beta\output\asr_opt\slicer_opt.list,勾选【是否开启打标WEBUI】,后会自动跳转录音文字核对页面

9.把录音和文字核对一遍,文字识别有问题的可以更改,翻页点击NextIndex,更改完点击SubmitText,会自动更新slicer_opt.list文件

10.回到主页,点击页签【1-GPT_SoVITS-TTS】开始语音模型训练,【*实验/模型名】中帮模型起个名字

11.点击【1A】页签【*文本标注文件】中输入核对后list文件的位置D:\GPT-SoVITS-beta\output\asr_opt\slicer_opt.list,【*训练集音频文件目录】中填入切割后录音的文件夹D:\GPT-SoVITS-beta\test\mike\output\slicer_opt

12.点击【开启一键三连】,完成后会显示一键三连进程结束

13.切换到【1B-微调训练】页签点击【开启SoVITS训练】,需要等待一段时间后提示完成

14.点击【开启GPT训练】,训练完成后语音模型生成

15.点击【1C-推理】,点击【刷新模型路径】,可以在下拉选项中看见新训练的模型,选中模型名-e-15.ckpt和模型名_e8_s104.pth模型,勾选【是否开启TTS推了WebUI】,会跳转到TTS合成语音页面

16.【*请上传并填写参考信息】选择上传一个3-10秒的音频,可以是刚刚切分的小音频 ,然后【参考音频的文本】中将文字识别填入

17,选择语种后,【需要合成的文本】输入需要合成语音文字,点击【语音合成】

18.最后还有语句切分工具,可以用于超长文本的切分,太长的文本合成出来效果不一定好,所以太长建议先切。合成会根据文本的换行分开合成再拼起来。

小技巧:当勾选中文时,对英文的生成效果就会差很多,如果有中英混合的话所以可以将“AIGC”换成“诶爱机西”读出的效果会好些^_^。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OcXxO55pjFA4THRgqHuCgAMg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券