前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌发布升级版语音合成系统,直接从字符合成语音

谷歌发布升级版语音合成系统,直接从字符合成语音

作者头像
企鹅号小编
发布2018-01-16 15:58:53
2K0
发布2018-01-16 15:58:53
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

科技改变生活

近日,谷歌推出了新的语音合成系统Tacotron 2,这是一种直接从文本中合成语音的神经网络结构,即新型TTS系统,该系统结合了初代Tacotron和Deepmind WaveNet等研究的经验,在能力上有了进一步提升。

TTS技术即从文本到语音,它是语音合成应用的一种。在搭载神经网络算法的语音控制器作用下,文本输出的语音音律应使听众在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感,但是目前还没有一款系统可以做到。

2017年3月,谷歌推出了一种新的端到端语音合成系统Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其导入Griffin-Lim重建算法直接生成语音。

谷歌在其论文《Tacotron:一个完全端到端的文本转语音合成模型》中介绍了该TTS系统的工作原理,一个文本转语音的合成系统需要文本分析前端、声学模型和音频合成模块等多个处理阶段,而Tacotron可以直接从字符合成语音,通过配对数据集的训练,该模型可以完全从随机初始化从头开始训练。

七个月后,Deepmind也推出了自己的语音生成商用模型WaveNet,它使用卷积神经网络构建,并在此前测试版本的基础上把效率提高了1000倍。之所以进步如此神速,是因为其用一个完全训练好的WaveNet模型教另一个子网络如何推理,该网络的架构是一个规模不大的卷积神经网络的拓展,这样一来,语音生成时就可以把所有单词全部同时生成出来。

针对Tacotron 2,谷歌同样发布了一篇论文《Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions》,对其新系统做了介绍。

该系统是经过序列到序列(sequence-to-sequence)模型优化的TTS,即增加了将字母序列映射为音频编码序列等一系列功能,不仅可以捕捉单词发音,还能捕捉人类语音的各种细微特征,包括音量,速度和语调。

该版本在输出端增加了 WaveNet MoL,使WaveNet和Tacotron的优点得到发挥,在最后的测试中,研究人员抽取了100个音频样例,要求听众对不同TTS系统生成语言的自然度评分。结果显示,Tacotron 2的平均意见得分约为4.53(满分5),明显优于其他模型,即使是真正的人类语音也只能得到4.667的分数。

虽然Tacotron 2取得了很大的进步,但研究人员表示,还有一些难题等待突破,包括复杂单词的发音困难,不能实时生成音频以及无法将人类的情绪加到生成的声音中等。

本文来自企鹅号 - 新城商业媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 新城商业媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档