谷歌发布升级版语音合成系统，直接从字符合成语音

文章来源：企鹅号 - 新城商业

科技改变生活

近日，谷歌推出了新的语音合成系统Tacotron 2，这是一种直接从文本中合成语音的神经网络结构，即新型TTS系统，该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验，在能力上有了进一步提升。

TTS技术即从文本到语音，它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下，文本输出的语音音律应使听众在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感，但是目前还没有一款系统可以做到。

2017年3月，谷歌推出了一种新的端到端语音合成系统Tacotron。该系统可以接收字符输入并输出相应的原始频谱图，然后将其导入Griffin-Lim重建算法直接生成语音。

谷歌在其论文《Tacotron：一个完全端到端的文本转语音合成模型》中介绍了该TTS系统的工作原理，一个文本转语音的合成系统需要文本分析前端、声学模型和音频合成模块等多个处理阶段，而Tacotron可以直接从字符合成语音，通过配对数据集的训练，该模型可以完全从随机初始化从头开始训练。

七个月后，Deepmind也推出了自己的语音生成商用模型WaveNet，它使用卷积神经网络构建，并在此前测试版本的基础上把效率提高了1000倍。之所以进步如此神速，是因为其用一个完全训练好的WaveNet模型教另一个子网络如何推理，该网络的架构是一个规模不大的卷积神经网络的拓展，这样一来，语音生成时就可以把所有单词全部同时生成出来。

针对Tacotron 2，谷歌同样发布了一篇论文《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》，对其新系统做了介绍。

该系统是经过序列到序列（sequence-to-sequence）模型优化的TTS，即增加了将字母序列映射为音频编码序列等一系列功能，不仅可以捕捉单词发音，还能捕捉人类语音的各种细微特征，包括音量，速度和语调。

该版本在输出端增加了 WaveNet MoL，使WaveNet和Tacotron的优点得到发挥，在最后的测试中，研究人员抽取了100个音频样例，要求听众对不同TTS系统生成语言的自然度评分。结果显示，Tacotron 2的平均意见得分约为4.53（满分5），明显优于其他模型，即使是真正的人类语音也只能得到4.667的分数。

虽然Tacotron 2取得了很大的进步，但研究人员表示，还有一些难题等待突破，包括复杂单词的发音困难，不能实时生成音频以及无法将人类的情绪加到生成的声音中等。

发表于: 2017-12-282017-12-28 21:00:35
原文链接：http://kuaibao.qq.com/s/20171228A0XK5100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

谷歌发布升级版语音合成系统，直接从字符合成语音

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐