在线语音合成技术概述与传统语音对比

文章来源：企鹅号 - 图可

在线语音合成，又称文语转换(Text To Speech, TTS)，是一种可以将任意输入文本转换成相应语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成系统而言，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成(或称拼接合成)。

在线语音合成:文字转成真人语音：zaixianai-cn

对于后端系统中的参数合成而言，该方法在训练阶段对语言声学特征、时长信息进行上下文相关建模，在合成阶段通过时长模型和声学模型预测声学特征参数，对声学特征参数做后处理，最终通过声码器恢复语音波形。该方法可以在语音库相对较小的情况下，得到较为稳定的合成效果。缺点在于统计建模带来的声学特征参数“过平滑”问题，以及声码器对音质的损伤。

对于后端系统中的拼接合成而言，训练阶段与参数合成基本相同，在合成阶段通过模型计算代价来指导单元挑选，采用动态规划算法选出最优单元序列，再对选出的单元进行能量规整和波形拼接。拼接合成直接使用真实的语音片段，可以最大限度保留语音音质；缺点是需要的音库一般较大，而且无法保证领域外文本的合成效果。

传统的语音合成系统，都是相对复杂的系统，比如，前端系统需要较强的语言学背景，并且不同语言的语言学知识还差异明显，因此需要特定领域的专家支持。后端模块中的参数系统需要对语音的发声机理有一定的了解，由于传统的参数系统建模时存在信息损失，限制了合成语音表现力的进一步提升。而同为后端系统的拼接系统则对语音数据库要求较高，同时需要人工介入制定很多挑选规则和参数。

这些都促使端到端语音合成的出现。端到端合成系统直接输入文本或者注音字符，系统直接输出音频波形。端到端系统降低了对语言学知识的要求，可以很方便在不同语种上复制，批量实现几十种甚至更多语种的合成系统。并且端到端语音合成系统表现出强大丰富的发音风格和韵律表现力。

发表于: 2020-05-152020-05-15 15:06:04
原文链接：https://kuaibao.qq.com/s/20200515A0EFRE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

在线语音合成技术概述与传统语音对比

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐