一款可定制声音的开源音频克隆工具—OpenVoice

山行AI

发布于 2024-01-05 14:47:07

6K2

文章被收录于专栏：山行AI山行AI

[2]简介

正如我们在我们的论文[3] 和网站[4]中详细介绍的，OpenVoice的优势有三个方面：

1. 准确的音色克隆。 OpenVoice能够准确地克隆参考音色，并生成多种语言和口音的语音。

2. 灵活的声音风格控制。 OpenVoice使得对声音风格（如情感和口音）以及其他风格参数（包括节奏、暂停和语调）的粒度控制成为可能。

3. 零样本跨语言声音克隆。 生成的语音的语言或参考语音的语言都不需要在大规模的多语言训练数据集中呈现。

[5]

OpenVoice自2023年5月起一直在为 myshell.ai[6] 的即时声音克隆功能提供动力。截至2023年11月，声音克隆模型已被全球用户使用数千万次，并见证了平台上用户的爆炸性增长。

[7]主要贡献者

•Zengyi Qin[8] 在MIT和MyShell•Wenliang Zhao[9] 在清华大学•Xumin Yu[10] 在清华大学•Ethan Sun[11] 在MyShell

[12]现场演示

[13]

[14]

[15]免责声明

这是一个实现，它近似地表现出 myshell.ai[16] 的内部声音克隆技术的性能。myshell.ai中的在线版本有更好的 1) 音频质量，2) 声音克隆相似性，3) 语音自然性和 4) 计算效率。

[17]安装

克隆这个仓库，并运行

conda create -n openvoice python=3.9
conda activate openvoice
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia
pip install -r requirements.txt

从这里[18] 下载检查点，并将其解压到 checkpoints 文件夹

[19]使用方法

1. 灵活的声音风格控制。 请查看 demo_part1.ipynb[20] 以了解如何利用OpenVoice对克隆声音进行灵活的风格控制的示例。

2. 跨语言声音克隆。 请查看 demo_part2.ipynb[21] 以了解MSML训练集中见过或未见过的语言的示例。

3. Gradio 演示。 使用 python -m openvoice_app --share[22] 启动一个本地的Gradio演示。

4. 高级使用。 基础发声模型可以替换为用户喜欢的任何语言和风格的模型。请使用在演示中展示的 se_extractor.get_se 函数提取新基础发声者的音色嵌入。

5. 生成自然语音的提示。 有许多单声道或多声道的TTS方法可以生成自然语音，并且容易获得。通过简单地将基础发声模型替换为你喜欢的模型，你可以将语音的自然度推向你所期望的水平。

[23]路线图

• 推理代码• 音色转换模型• 多风格基础发声模型• 多风格和多语言演示• 其他语言的基础发声模型• 更自然的EN基础发声模型

[24]引用

@article{qin2023openvoice,
title={OpenVoice: Versatile Instant Voice Cloning},
author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
journal={arXiv preprint arXiv:2312.01479},
year={2023}
}

[25]许可

此仓库采用创意共享署名-非商业性4.0国际许可证，禁止商业使用。MyShell保留检测音频是否由OpenVoice生成的能力，无论是否添加了水印。

[26]致谢

这个实现是基于几个优秀的项目，TTS[27]，VITS[28]，和 VITS2[29]。感谢他们出色的工作！

参考

更多信息请参考：https://github.com/myshell-ai/OpenVoice

References

[1] Discord 社区: https://discord.gg/myshell

[2] : https://github.com/myshell-ai/OpenVoice#introduction

[3] 论文: https://arxiv.org/abs/2312.01479

[4] 网站: https://research.myshell.ai/open-voice

[5] : https://github.com/myshell-ai/OpenVoice/blob/main/resources/framework-ipa.png

[6] myshell.ai: https://app.myshell.ai/explore

[7] : https://github.com/myshell-ai/OpenVoice#main-contributors

[8] Zengyi Qin: https://www.qinzy.tech/

[9] Wenliang Zhao: https://wl-zhao.github.io/

[10] Xumin Yu: https://yuxumin.github.io/

[11] Ethan Sun: https://twitter.com/ethan_myshell

[12] : https://github.com/myshell-ai/OpenVoice#live-demo

[13] : https://www.lepton.ai/playground/openvoice

[14] : https://app.myshell.ai/bot/z6Bvua/1702636181

[15] : https://github.com/myshell-ai/OpenVoice#disclaimer

[16] myshell.ai: https://app.myshell.ai/explore

[17] : https://github.com/myshell-ai/OpenVoice#installation

[18] 这里: https://myshell-public-repo-hosting.s3.amazonaws.com/checkpoints_1226.zip

[19] : https://github.com/myshell-ai/OpenVoice#usage

[20] demo_part1.ipynb: https://github.com/myshell-ai/OpenVoice/blob/main/demo_part1.ipynb

[21] demo_part2.ipynb: https://github.com/myshell-ai/OpenVoice/blob/main/demo_part2.ipynb

[22] python -m openvoice_app --share: https://github.com/myshell-ai/OpenVoice/blob/main/openvoice_app.py

[23] : https://github.com/myshell-ai/OpenVoice#roadmap

[24] : https://github.com/myshell-ai/OpenVoice#citation

[25] : https://github.com/myshell-ai/OpenVoice#license

[26] : https://github.com/myshell-ai/OpenVoice#acknowledgements

[27] TTS: https://github.com/coqui-ai/TTS

[28] VITS: https://github.com/jaywalnut310/vits

[29] VITS2: https://github.com/daniilrobnikov/vits2

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-01-03，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自山行AI 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度