喜马拉雅贺雯迪：基于端到端TTS实现更具生动、富有情感的语音合成表现

原创

LiveVideoStack

修改于 2020-05-08 14:18:21

1.3K0

修改于 2020-05-08 14:18:21

文章被收录于专栏：音视频技术

现如今，随着TTS技术不断发展，用户对于语音合成的音质质量、流畅度等拥有更高追求。语音合成中的风格控制、音色转换、歌声合成等技术是目前业界的难点和共同追求的方向。本次采访邀请到了喜马拉雅的音频算法工程师贺雯迪，她将从语音合成领域、TTS技术的发展状况和应用场景等方向与大家一同探讨。

文 / 贺雯迪

策划 / LiveVideoStack

LiveVideoStack：贺雯迪，你好，感谢你接受LiveVideoStack的采访，作为本次大会AI与多媒体内容生产创作专场的讲师，请先和大家介绍一下你目前负责的工作方向和演讲内容。

贺雯迪：我目前在喜马拉雅担任音频算法工程师，工作研发方向是TTS前端模块的搭建和优化（文本规整化、分词、多音字、韵律预测等），后端算法（基于深度生成模型的说话人风格转换，情感控制，音色克隆、神经声码器的优化等方向）。演讲的方向是基于现在语音合成领域中比较具有发展前瞻性和讨论性的：语音合成中风格迁移、情感合成、音色克隆等衍生方向上技术和应用方面的探讨。

LiveVideoStack：在一般情况下TTS并不会受到广泛关注，但实际上，TTS对于整个AI语音交互的体验触发起到了决定性的作用，也直接影响到AI在用户心中的“三次元化”形象。从你的角度来看，TTS技术目前的发展状况如何？攻坚方向主要有哪些？

贺雯迪：目前行业内TTS技术在保持了比较好的MOS值情况下，应该大部分基于深度学习框架，沿用了端到端声学模型 + 神经声码器的结构来支撑线上业务或者开放平台。TTS攻坚的方向依然在于模型结构的优化、高质量数据集的获取、精准的评测机制等，工程上还同时需要考虑算力、合成的实时性、数据的吞吐量，机器资源占比等时间和空间成本问题。如何让语音合成的各个衍生模块（跨语言、跨风格、多情感、跨媒体、低资源）从研究走向落地，做成规模化产品提供稳定的效果和服务给用户使用，也是我们目前所正在解决的事情。

LiveVideoStack：样本的获取在机器学习领域都是很大的问题，更有情感表现力和精准韵律的声音，一定是通过庞大精准的语料库直接拼接产生的。喜马拉雅是如何解决样本问题的呢？

贺雯迪：喜马拉雅有自己的主播团队，我们会定时定期筛选所需要风格、音色的主播来进行数据集录制，现成的语料库在主站数据及主播获得授权的情况下可直接用我们自研的算法进行识别、清洗、去噪来进行使用。另外我们也有自己的标注团队，目前标注的层级在语法分词、韵律分词、多音字、音素等。

LiveVideoStack：TTS即“从文本到语音”，算法通过系统对输入的文本进行分析，在这过程中如何对段落中的多音字、词性、韵律进行区分，获得合成语音的基本单元信息？

贺雯迪：在端到端的语音合成中，由于自然语言本身是开放的，语言语义信息也非常重要。前端部分涉及NLP领域，会对输入的文本进行处理，处理的流程大致是：对文本进行非标准词的正则、对正则文本进行韵律分词预测、根据分词结果将文本转音素，解决拼音中多音字问题（多音字用模型来判断它的读音，目前比如基于条件随机场、注意力机制的端到端模型、Bert等，都能在不同程度上解决这个问题，而现有的文本转音素开源工具里，大部分多音字的错误率并不是特别高，我们可以针对于几个常见的易错多音字来进行优化）。

LiveVideoStack：如果要实现明星甚至普通人的声音都可以在终端设备中体现，这在之前需要大量语料的录入和拼接。如何让机器低成本地学习用户的声音，也就是你在演讲中将会提到的音色克隆，这项语音合成技术是如何做到通过少量的语料模仿不同声音的呢？

贺雯迪：少样本以至于单样本、零样本学习在深度学习领域都是很重要的。初期fine-tune在语音合成中的运用，用于在一个训练好的多说话人模型上进行小样本训练，由于之前的模型已经学习到了多说话人的声学特征，只需要在模型参数上输入新的小数据集就能让现有的模型参数进行迁移学习和精调，已适用于现有的新数据集。比如，如果我们提前有一个20个说话人的多说话人模型，这其中训练数据里每一位说话人的样本可能需要几个小时时长，新的说话人只需要估计10分钟左右时长的音频数据，就能通过短时间训练，做到音色克隆。

现在，大体量的数据集我们可以更轻易地收集音色的多样性，比如开源作者@CorentinJ 在他的repo：Real-Time-VC中就尝试过，用一个能生成代表说话人音色向量的编码器，以及计算一种新增加的损失函数，将编码器、合成器+声码器的部分分开训练，训练数据集量级至少大于300小时、含有的说话人最好在1000个以上。通过训练好的声学模型，用户只需要输入一条几秒钟的个人语音，就能克隆出该用户的声音（通俗来说可以理解为embedded speaker里与该用户最相似的声音，最大程度去还原）。当然还有更多的少样本、零样本音色克隆的研究趋势，其发展和落地依然处于行业内不断探索的过程。

LiveVideoStack：从大环境来看，TTS的应用场景非常丰富，手机、音响等智能设备在目前是比较被普及应用的场景，除此之外还有哪些比较小范围应用TTS的应用场景，在未来还将有哪些场景将会用到TTS？

贺雯迪：TTS的现有的应用场景主要分为人机交互、语音播报。前者包括智能客服、智能家居等；语音播报的场景更加广泛，比如残障人士设备、公共交通设备、GPS 导航、有声小说、音视频新闻播报等已经开始普及了。并且随着8090后群体中二次元文化、网络文化等发展，游戏、虚拟偶像、虚拟主播、音色克隆等更多个性化场景也将运用到语音合成技术。其实TTS的场景应用应该非常具有想象力，对于人工智能来说，语音语义相当于人工智能的语言表达，在不违背道德风险，合理合法的前提下，它应该像说话、发声一样日常适用于我们的生活，提供更多种可能的表达。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

语音合成

编程算法

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

语音合成

编程算法

登录后参与评论

0 条评论

热度