学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音

选自arXiv

作者:王雨轩等

机器之心编译

参与:李泽南、吴攀

最近,谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文作者认为这一新思路相比去年 DeepMind 的 WaveNet 以及百度刚刚提出的 DeepVoice 具有架构上的优势。点击阅读原文下载论文。

现代文本转语音(TTS)的流程十分复杂(Taylor, 2009)。比如,统计参数 TTS(statistical parametric TTS)通常具有提取各种语言特征的文本前端、持续时间模型(duration model)、声学特征预测模型和基于复杂信号处理的声码器(Zen et al., 2009; Agiomyrgiannakis, 2015)。这些部分的设计需要不同领域的知识,需要大量精力来设计。它们还需要分别训练,这意味着来自每个组件的错误可能会复合到一起。现代 TTS 设计的复杂性让我们在构建新系统时需要大量的工作。

此前,WaveNet(van den Oord et al., 2016)是一种用于生成音频的强大模型。它对 TTS 来说效果良好,但由于样本级自回归采样的本质(sample-level autoregressive nature),速度较慢。它还需要对来自现有 TTS 前端的语言特征进行调节,因此不是端到端的:它只取代了声码器和声学模型。另一个最近开发的神经模型是百度提出的 DeepVoice(Arik et al., 2017),它通过相应的神经网络代替经典 TTS 流程中的每一个组件。但其中的每个组件都是独立训练出来的,改变系统以端到端形式训练非常重要。

论文:Tacotron:一个完全端到端的文本转语音合成模型(Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model)

摘要:

一个文本转语音的合成系统通常需要多个处理阶段,例如文本分析前端、声学模型和音频合成模块。构建这些组件经常需要多种领域的专业知识,而且设计选择也可能很脆弱。在本论文里,我们提出了 Tacotron——一种端到端的生成式文本转语音模型,可以直接从字符合成语音。通过<text, audio>配对数据集的训练,该模型可以完全从随机初始化从头开始训练。我们提出了几个可以使该序列到序列框架在这个高难度任务上表现良好的关键技术。Tacotron 在美式英语测试里的平均主观意见评分达到了 3.82 分(总分是 5 分),在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。

图 1:模型架构。该模型接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法以生成语音

图 2:CBHG(一维卷积库+highway 网络+双向 GRU)模块,改编自 Lee et al. (2016)

表 1:超参数和网络架构。「conv-k-c-ReLU」表示宽度为 k、有 c 个输出通道、带有 ReLU 激活的一维卷积。FC 代表全连接。

图 3:在测试短语上的注意对齐(attention alignment)。由于使用了 r=5 的输出规约(output reduction),Tacotron 的解码器的长度更短。

图 4:使用和不使用后处理网络的预测谱图对比

研究人员进行了平均意见得分测试(mean opinion score,MOS)——由测试者对合成语音的自然程度进行 5 分制的李克特量表法(Likert scale score)评分。MOS 的测试者均为母语人群,共使用 100 个事先未展示的短语,每个短语获得 8 次评分。当计算评分时,只有在测试者佩戴耳机时打出的评分被计算在内。作为对比,研究人员将 Tacotron 与参数式(parametric)系统(基于 LSTM(Zen et al., 2016))和拼接式(concatenative)系统(Gonzalvo et al., 2016)做了比较,后两者目前均已投入商业应用。测试结果如下表显示:Tacotron 的 MOS 分数为 3.82,优于参数系统。由于参照基准已经非常强大,以及 Griffin-Lim 合成的引入,这一新方法具有非常好的前景。

表2:意见得分测试结果

项目 GitHub:https://github.com/google/tacotron

语音合成音频试听:「Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model」

https://google.github.io/tacotron/

原文链接:https://arxiv.org/abs/1703.10135

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

究竟深度学习在干什么?

概要: 深度学习取得了巨大的成功,这是无容置疑的。对此,我们不必再多说什么。但是,其理论基础仍然有很大的空白。

943
来自专栏人工智能头条

高铁新建人脸识别系统,如何做到整容也可以识别逃犯?

7686
来自专栏机器之心

教程 | 用生成对抗网络给雪人上色,探索人工智能时代的美学

4327
来自专栏机器学习算法与Python学习

Python做文本挖掘的情感极性分析(基于情感词典的方法)

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 我们会再接再厉 成为全网优质的技术类...

5746
来自专栏IT派

亚马逊AI主任科学家李沐:机器学习简介

本书作者跟广大程序员一样,在开始写作前需要来一杯咖啡。我们跳进车准备出发,Alex掏出他的安卓喊一声“OK Google”唤醒语言助手,Mu操着他的中式英语命令...

4986
来自专栏AI科技评论

KDD2016论文亮点解析(一)

导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员。 论文一题目:稳定流体近似的卷...

3276
来自专栏专知

【深度】浅析Geoffrey Hinton最近提出的Capsule计划

【导读】本文全面介绍了深度学习的来龙去脉以及Hinton最近提出的Capsule计划。希望做物理的、做数学的、做生物的、做化学的、做计算机、包括做科幻的都能看的...

3006
来自专栏机器之心

浅析Geoffrey Hinton最近提出的Capsule计划

选自知乎专栏 作者:SIY.Z 机器之心经授权转载 本文有可能是知乎上分析介绍深度学习最为全面的文章之一。希望做物理的、做数学的、做生物的、做化学的、做计算机、...

40114
来自专栏AI科技大本营的专栏

【NLP年度重磅盘点】12项重大行业突破!详解2017年深度学习加持下的NLP大事件

翻译 | 林椿眄、刘畅、彭硕 编辑 | Donna Suisui 过去几年,深度学习架构和算法在图像识别和语音处理等领域取得了重大的进步。而在NLP(自然语言处...

4158
来自专栏人工智能头条

一文读懂AlphaGo背后的强化学习

1533

扫码关注云+社区

领取腾讯云代金券