前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本转语音技术合集:多语言支持,自然度高 | 开源专题 No.90

文本转语音技术合集:多语言支持,自然度高 | 开源专题 No.90

作者头像
小柒
发布2024-06-12 14:43:10
1760
发布2024-06-12 14:43:10
举报
文章被收录于专栏:开源服务指南开源服务指南

RVC-Boss/GPT-SoVITShttps://github.com/RVC-Boss/GPT-SoVITS

Stars: 25.5k License: MIT

GPT-SoVITS 是一个强大的少样本语音转换和文本到语音 WebUI。 该项目主要功能、关键特性、核心优势包括:

  • 零样本 TTS:输入 5 秒的声音样本,即可进行文本到语音转换。
  • 少样本 TTS:只需 1 分钟的训练数据即可微调模型,提高语音相似度和真实感。
  • 跨语言支持:支持英文、日文和中文等不同于训练数据集的推理。
  • WebUI 工具:集成了声伴分离、自动训练集分割、中文 ASR 和文字标注等工具,帮助初学者创建训练数据集和 GPT/SoVITS 模型。

jaywalnut310/vitshttps://github.com/jaywalnut310/vits

Stars: 6.4k License: MIT

vits 是一个用于端到端文本转语音的条件变分自动编码器和对抗学习的项目。 该项目提出了一种并行端到端 TTS 方法,采用了变分推断、正则化流和对抗训练过程,以改善生成建模的表现力。此外,还提出了一种随机持续时间预测器,可以从输入文本中合成具有不同节奏的语音。通过概率建模来表达自然多样性关系,并在主观人类评估中显示出优异性能。

  • 采用条件变分自动编码器
  • 使用对抗学习
  • 支持单阶段训练和并行采样
  • 提供预训练模型

yl4579/StyleTTS2https://github.com/yl4579/StyleTTS2

Stars: 4.2k License: MIT

这个项目是 StyleTTS 2,它是一个文本到语音 (TTS) 模型,通过使用大规模语音语言模型的风格扩散和对抗训练来实现人类级别的 TTS 合成。其主要功能包括利用扩散模型将风格建模为潜在随机变量以生成最适合文本的样式,并采用大规模预训练 SLM 作为鉴别器进行端到端培训。该项目具有以下关键特点和核心优势:

  • 利用扩散技术有效地产生多样化的语音合成
  • 使用大规模预训练 SLMs 提高了语音自然度
  • 在单发声者 LJSpeech 数据集上超越了人类录制,在多发声者 VCTK 数据集上与之匹配
  • 对 LibriTTS 数据集进行培训时,能够胜过先前公开可获得的零冲击说话者适应性

myshell-ai/MeloTTShttps://github.com/myshell-ai/MeloTTS

Stars: 3.8k License: MIT

MeloTTS 是 MyShell.ai 开发的高质量多语言文本转语音库。

  • 支持英语、西班牙语、法语、中文、日本和韩国等多种语言。
  • 中文发音支持混合中英文。
  • 足够快速以进行 CPU 实时推断。

collabora/WhisperSpeechhttps://github.com/collabora/WhisperSpeech

Stars: 3.5k License: MIT

WhisperSpeech 是一个通过反向 Whisper 构建的开源文本到语音系统。 该项目的主要功能、关键特性和核心优势包括:

  • 以开源模型为基础,如 Whisper from OpenAI、EnCodec from Meta 和 Vocos from Charactr Inc。
  • 训练模型使用合法授权的语音录音,并且所有代码都是开源的,因此在商业应用中始终安全可靠。
  • 目前模型基于英文 LibreLight 数据集训练,下一版本计划支持多种语言。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源服务指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • RVC-Boss/GPT-SoVITShttps://github.com/RVC-Boss/GPT-SoVITS
  • jaywalnut310/vitshttps://github.com/jaywalnut310/vits
  • yl4579/StyleTTS2https://github.com/yl4579/StyleTTS2
  • myshell-ai/MeloTTShttps://github.com/myshell-ai/MeloTTS
  • collabora/WhisperSpeechhttps://github.com/collabora/WhisperSpeech
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档