首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌tacotron端到端的文本转语音合成模型实践

谷歌tacotron端到端的文本转语音合成模型实践

作者头像
sparkexpert
发布2019-05-28 21:56:40
9180
发布2019-05-28 21:56:40
举报

虽然谷歌tacotron已经推出了两个版本了,但是本实践主要还是针对第一个实践的。

1、论文原理

从其 《Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model》论文对应的摘要可以看出:

  一个文本转语音的合成系统通常需要多个处理阶段,例如文本分析前端、声学模型和音频合成模块。构建这些组件经常需要多种领域的专业知识,而且设计选择也可能很脆弱,当然更重要的易形成错误累积。该论文提出了 Tacotron——一种端到端的生成式文本转语音模型,可以直接从字符合成语音。通过<text, audio>配对数据集的训练,该模型可以完全从随机初始化从头开始训练。我们提出了几个可以使该序列到序列框架在这个高难度任务上表现良好的关键技术。

   论文的网络架构如下:

  可见其本质上是Seq2Seq的一种应用,该模型接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法以生成语音

2、论文实践

注:本测试过程中,需要将一整句英文的标点符号进行去除,否则,会造成断点。

(1)测试: hello nice to meet you,效果生成见后续链接。

2、从china daily中摘抄了一段英文:http://www.chinadaily.com.cn/a/201804/14/WS5ad1378ca3105cdcf65183dc.html中的:Xi Jinping, general secretary of the Communist Party of China Central Committee, has called for tangible measures in line with local conditions to translate into reality the spirit of the CPC Central Committee and to produce early and evident results.

上述两段话的合成结果如下:

链接: https://pan.baidu.com/s/1yeaM5gPRT29dTXZd7hRMsw 密码: uc69。

经过分析,目前的合成还存在一点问题:

(1)语调过于平淡,完全没有抑扬顿挫;

(2)对第二个测试长句而言,非常明显的是长句后面的一些合成效果较差,可见这本质上RNN的长时间依赖合成效果还是有待于进一步提升。

后续有时间再关注一下其升级版本的复现。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年04月16日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档