前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归

微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归

作者头像
机器之心
发布2024-03-26 16:46:32
1600
发布2024-03-26 16:46:32
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

SOTA 语音合成效果。

文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。

多年来,微软持续关注语音领域的技术研究与产品研发,为了合成高质量自然的人类语音,NaturalSpeech 研究项目(https://aka.ms/speechresearch)应运而生。

为了实现这个宏伟远景,NaturalSpeech 项目将目标拆分成几个阶段:

1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,研究团队在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 语音合成数据集上达到了人类录音水平的音质

2)第二阶段,高效地实现像人类一样多样化的语音合成,包含不同的说话人、韵律、情感、风格等。为此,研究团队在 2023 年推出了 NaturalSpeech 2,利用扩散模型(Diffusion Model)实现了零样本(Zero-Shot)的语音合成

在 2024 年,该研究团队联合中科大、港中大(深圳)、浙大等机构联合发布了全新的系统:NaturalSpeech 3,它从语音数据的 “表示” 和 “建模” 两个角度出发,利用创新的属性分解扩散模型和属性分解语音神经编解码器 FACodec,通过 Data/Model Scaling,实现了零样本语音合成的重要突破,极大地向第二阶段目标迈进。

3)当前,该联合研究团队正在研究更自然的语音合成,最终实现像人类一样自然且随意的发声。

想加入该研究团队从事最前沿的语音 / 音频 / 视频研究吗?文末有招聘信息。

NaturalSpeech 3 论文链接: https://arxiv.org/abs/2403.03100

NaturalSpeech 3 Demo 演示: https://speechresearch.github.io/naturalspeech3

NaturalSpeech 3 论文一经推出就在国内外社交媒体上引发热议,推特网友盛赞:NaturalSpeech 3 是目前最好的零样本 TTS 模型,标题里的「Natural」可以说是当之无愧。

NaturalSpeech 3 可以仅仅通过 3s 的提示音频在没有见过的说话人上实现效果惊艳音色克隆,例如下面的例子:

NaturalSpeech 3 不仅能够实现逼真的音色模型,还能够非常好的还原韵律,情感等特征。我们来听听下面这个例子:

可以感觉到,NaturalSpeech 3 生成的结果在音质和音色方面和真实音频几乎没有差别,并且非常好的复刻了提示音频中包含的情绪等语音信息。

NaturalSpeech 3 还可以对不同的属性使用不同的提示实现更为可控的生成,例如可以使用一个语速较快的人的声音作为 duration 的提示,使得生成的结果同样具有较快的语速。例如下面这个例子:

可以发现,NaturalSpeech 3 的音色仍然和其他属性的 prompt 保持一致,但是跟随了 duration prompt 较快语速。

NaturalSpeech 3 的成功秘诀来自于基于属性分解的 Codec+Diffusion 建模范式以及 Data/Model Scaling。传统 TTS 系统因训练数据集有限,难以支持高质量的零样本语音合成。而最近的研究通过扩大语料库,虽有所进步,但在声音质量、相似性和韵律方面仍未达到理想水平。

NaturalSpeech 3 提出创新的属性分解扩散模型和属性分解神经语音编码器 FACodec,通过将语音分解成不同属性的子空间并根据不同的提示(prompt)分别生成,有效地降低了语音建模难度,从而大大提高了语音合成的质量和自然度。

与此同时,NaturalSpeech 3 通过将训练数据扩展到 20 万小时(这是迄今为止公开的研究工作中使用的最大规模数据)以及将模型大小扩展到 1B(2B 甚至更大的模型正在训练中),进一步提升语音合成的质量和自然度。

属性分解神经语音编解码器(FACodec): NaturalSpeech 3 提出一种创新的属性分解神经语音编解码器(Codec)负责将复杂的语音波形转换成代表不同语音属性(内容、韵律、音色和声学细节)的解耦子空间,并从这些属性重构高质量的语音波形。

FACodec 通过使用语音编码器、音色提取器、三个分解向量量化器(分别针对内容、韵律和声学细节)、一个语音解码器以及多种训练技术的组合,实现了这一过程。这种设计促进了语音属性间的解耦,简化了 TTS 对语音表示的建模过程。

NaturalSpeech 3的属性分解神经语音编解码器FACodec

目前语音开源项目 Amphion 已经支持 NaturalSpeech 3 的核心组件 FACodec,并且已发布预训练模型。FACodec 作为 NaturalSpeech 3 的核心,能够将复杂的语音波形转换成表示内容、韵律、音色和声学细节等属性的解耦表示,并从这些属性重构高质量的语音波形。

这一技术能够显著降低语音的建模难度,研究人员可以利用 FACodec 复现 NaturalSpeech 3 或应用到语音合成、语音转换等各式各样的下游生成任务

FACodec 预训练模型: https://huggingface.co/spaces/amphion/naturalspeech3_facodec

FACodec 代码: https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec

属性分解扩展模型:NaturalSpeech 3 设计了多个扩散模型模块来分别建模音素持续时间、韵律、内容、声学细节(其中韵律,内容,声学细节共享一个Diffusion模型),而不需要单独对音色进行建模,因为音色特征可以直接从 prompt 中提取。此外,每一个扩散模型的 prompt 仅与该模块的语音因素相关,实现了对各个模块的可控性生成。

NaturalSpeech 3的属性分解扩散模型

SOTA 的语音合成效果:经过大量的实验验证,NaturalSpeech 3 在语音质量、相似性、韵律和可懂度方面均超越了现有最先进的 TTS 系统。特别是,在 LibriSpeech 测试集上,与真实语音相比,NaturalSpeech 3 在 CMOS 评分上达到了相当甚至更好的语音质量;在语音相似度方面,实现了新的最佳水平;在韵律建模上也展现了显著的改进。

NaturalSpeech 3和其它TTS系统比较

NaturalSpeech3在不同模型大小和数据量下的比较

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档