文章/答案/技术大牛

发布

谷歌推Tacotron 2，搞定绕口令，效果优于WaveNet

文章来源：企鹅号 - 量子位

安妮编译整理

量子位出品 | 公众号 QbitAI

让电脑会讲话没什么，但让电脑说得666就不是一件容易事了。

今天，谷歌推出一种直接从文本中合成语音的神经网络结构，即新型TTS（Text-to-Speech,TTS）系统Tacotron 2。Tacotron 2结合了WaveNet和Tacotron的优势，不需要任何语法知识即可直接输出文本对应的语音。

下面是一个Tacotron 2生成的音频案例，效果确实很赞，并且还能区分出单词“read”在过去分词形式下的读音变化。

“He has read the whole thing”

超越WaveNet和Tacotron

作为Tacotron 2的基础，WaveNet和Tacotron都是怎样的架构？

去年9月，谷歌DeepMind曾公布了一种用神经网络对原始波形建模的技术，生成的音频效果优于当时的TTS系统。

WaveNet抛弃传统的简单将语音片段机械拼接的TTS方法，从零开始创造整个音频波形输出。不过，WaveNet需要调节来自现有TTS前端的语言特征，相当于它只取代了声码器和声学模型，不是端对端的语音合成系统。

WaveNet架构

今年3月，谷歌的王雨轩等人提出了一种新型端对端语音合成系统Tacotron。它可将接收的输入字符，输出成相应的原始频谱图，然后提供给Griffin-Lim重建算法生成语音。

Tacotron模型架构

Tacotron 2

Tacotron 2由一个循环的序列到序列特征预测网络构成，先将字符嵌入到梅尔刻度（Mel-scale）谱系图中，然后由修正过的WaveNet模型作为vocoder，从这些声谱图中合成时域的波形。

在谷歌的Jonathan Shen,、Ruoming Pang等人和加州大学伯克利分校的Zongheng Yang共同发表的论文Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions中，研究人员介绍了Tacotron 2的工作原理。

他们用序列到序列的模型优化了TTS，将字母序列映射到编码音频的特征序列中。这些特征是一个每12.5毫秒计算一次的80维声谱图，里面不仅有单词的发音，还包括音量、速度和语调等语言的细微差别。

然后，研究人员用一个类似WaveNet的架构，将这些特征转换为24kHz的波形。

Tacotron 2的模型架构/图中下半部分为序列到序列模型，该模型将一系列字母映射到一个声谱图上。

测评结果和局限

最后，研究人员抽取了100个音频样例，要求人类听众对不同TTS系统生成语言的自然度评分。测试结果显示，Tacotron 2的平均意见得分约为4.53，明显优于其他模型，仅比专业的录音人员分数（ground truth）低一点。

不同模型测试音频的平均意见得分（MOS）

在音频结果展示页中可以看到，研究人员对Tacotron 2的生成结果进行了多维度的测评，包括：

专有名词及复杂词语

同一单词在不同时态及含义上的发音变化

拼写错误对发音的影响

标点符号位置的影响

重点突出部分及语调的把控

绕口令

虽然Tacotron 2生成的样品听起来不错，但仍有一些难题有待解决。例如系统在“decorum”和“merlot”等复杂单词的发音方面有困难，可能会随机产生奇怪的声音。

目前，Tacotron 2还不能实时生成音频，也不能将人类的情绪加到生成的声音中。

“每个问题都是一个有趣的研究方向。”谷歌研究人员在博客结尾说。

https://google.github.io/tacotron/publications/tacotron2/

https://arxiv.org/abs/1712.05884

https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

—完—

发表于: 2017-12-202017-12-20 13:27:44
原文链接：http://kuaibao.qq.com/s/20171220A0CIA200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

谷歌推Tacotron 2，搞定绕口令，效果优于WaveNet

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐