之前给大家介绍过一些克隆自己声音的工具,大部分可能是需要付费的,这次给大家介绍一个开源程序MockingBird,可以在本地安装克隆自己的声音,用自己的声音实现文本转语音功能。github项目地址:https://github.com/babysor/MockingBird,号称5秒内克隆您的声音并生成任意语音内容,下面是本地具体安装步骤。
1、安装Python
我们下载Python 3.10.11稳定版
下载到电脑上之后,双击运行安装Python,先点击勾选add python.exe to path,在点击install now安装。
2、安装PyTorch
打开pytorch官网链接:https://pytorch.org/get-started/locally/,选择适合自己的操作系统,我的是Windows系统,NVIDIA显卡选CUDA,其它显卡选CPU。然后复制下面的代码。
如果你的系统和显卡跟我一样的话,可以直接复制下面的代码:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
按键盘上的Windows+R键启动终端,在终端内鼠标右键点击,自动粘贴命令,然后回车,安装pytorch,
3、安装ffmpeg
首先打开ffmpeg官网:https://ffmpeg.org/download.html,下载对应系统的文件,这里以Windows为例
将压缩包下载到本地电脑上解压,然后打开bin文件夹,复制路径,
然后鼠标右键点击我的电脑-属性-高级系统设置-环境变量-选中Path点击编辑-新建,然后在输入框内输入上面的文件夹路径,然后确定。
这时在cmd里输入如下命令:
ffmpeg
出现ffmpeg详细信息就表示ffmpeg安装成功。
4、下载并安装MockingBird
打开MockingBird项目地址,点击绿色code按钮,点击【Download ZIP】将程序文件下载到本地电脑,如果你电脑上安装了git了,也可以通过如下命令下载:
git clone https://github.com/babysor/MockingBird.git
打开MockingBird文件夹,找到requirements.txt文件并打开,将monotonic-align==0.0.3这条数据删除“==0.0.3”,仅保留文本“monotonic-align”,保存并关闭当前文档
依次运行如下两条命令:
pip install -r requirements.txt
pip install webrtcvad-wheels
5、准备语言模型
可以自己训练,也可以下载下方别人分享的模型。
将下载的模型文件放到MockingBird根目录下data\ckpt\synthesizer文件夹内,你需要先新建synthesizer这个文件夹。
如果使用下面三个模型,你需要使用0.0.1版本才行,github里点击main按钮再点击tags,再点击v0.0.1,切换到0.0.1版本,再点击绿色code按钮,再点击download ZIP将程序文件下载下来,再依上面步骤安装v0.0.1版本。
6、启动webui
在MockingBird文件夹内上方地址栏里输入cmd回车,进入终端内输入如下命令,看到有输出URL地址信息就可以了,
python web.py
你看到的URL地址可能和我的不一样,这个不是固定的不用在意,复制你的URL到浏览器地址栏打开。在【文本内容】里输入待合成语音的文本,选择模型,点击合成按钮,右侧就会显示合成结果音频,可播放或下载。
7、启动GUI
python demo_toolbox.py
先点击按钮【Browse打开本地】选择一个音频文件,时长要短,选择synthesizer模型为75k,输入待合成语音的文本内容,点击合成按钮,导出合成后的音频。
这个软件上手还是有些难度的,不光安装麻烦,使用起来也有些麻烦,除非有这个需求,比如做解说配音或想研究代码及软件之类的,如果用的不太多还是用其它配音或是克隆声音软件简单些。有感兴趣的可以去试试。
领取专属 10元无门槛券
私享最新 技术干货