谷歌发布升级版语音合成系统,直接从字符合成语音

科技改变生活

近日,谷歌推出了新的语音合成系统Tacotron 2,这是一种直接从文本中合成语音的神经网络结构,即新型TTS系统,该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验,在能力上有了进一步提升。

TTS技术即从文本到语音,它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下,文本输出的语音音律应使听众在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,但是目前还没有一款系统可以做到。

2017年3月,谷歌推出了一种新的端到端语音合成系统Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其导入Griffin-Lim重建算法直接生成语音。

谷歌在其论文《Tacotron:一个完全端到端的文本转语音合成模型》中介绍了该TTS系统的工作原理,一个文本转语音的合成系统需要文本分析前端、声学模型和音频合成模块等多个处理阶段,而Tacotron可以直接从字符合成语音,通过配对数据集的训练,该模型可以完全从随机初始化从头开始训练。

七个月后,Deepmind也推出了自己的语音生成商用模型WaveNet,它使用卷积神经网络构建,并在此前测试版本的基础上把效率提高了1000倍。之所以进步如此神速,是因为其用一个完全训练好的WaveNet模型教另一个子网络如何推理,该网络的架构是一个规模不大的卷积神经网络的拓展,这样一来,语音生成时就可以把所有单词全部同时生成出来。

针对Tacotron 2,谷歌同样发布了一篇论文《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》,对其新系统做了介绍。

该系统是经过序列到序列(sequence-to-sequence)模型优化的TTS,即增加了将字母序列映射为音频编码序列等一系列功能,不仅可以捕捉单词发音,还能捕捉人类语音的各种细微特征,包括音量,速度和语调。

该版本在输出端增加了 WaveNet MoL,使WaveNet和Tacotron的优点得到发挥,在最后的测试中,研究人员抽取了100个音频样例,要求听众对不同TTS系统生成语言的自然度评分。结果显示,Tacotron 2的平均意见得分约为4.53(满分5),明显优于其他模型,即使是真正的人类语音也只能得到4.667的分数。

虽然Tacotron 2取得了很大的进步,但研究人员表示,还有一些难题等待突破,包括复杂单词的发音困难,不能实时生成音频以及无法将人类的情绪加到生成的声音中等。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20171228A0XK5100?refer=cp_1026

同媒体快讯

相关快讯

扫码关注云+社区