业界 | 谷歌发布TTS新系统Tacotron 2:直接从文本生成类人语音

选自Google Blog

作者:Jonathan Shen、Ruoming Pang

机器之心编译

参与:黄小天、刘晓坤

近日,谷歌在其官方博客上推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。虽然结果不错,但仍有一些问题,比如无法实时生成语音。机器之心对博客内容和论文摘要进行了编译,原文链接请见文中。

几十年来人们一直希望可以从文本生成听感自然的语音系统(text-to-speech,TTS)。过去几年来,TTS 研究取得了重大进展,完整 TTS 系统的各个独立部分得到了很大的性能提升。通过结合过去的研究成果如 Tacotron 和 WaveNet,我们获得了更大的性能提升,最终构建出了新系统 Tacotron2。我们的方法并没有使用复杂的语言学或声学特征作为输入,而是使用神经网络从文本生成类人的语音,其中输入数据仅使用了语音样本和相关的文本记录。

可以在论文「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」中查看新系统的完整描述。简单来说,该系统的工作方式是:优化一个序列到序列模型以将字母序列映射到编码了录音的特征序列。这些拥有 80 个维度的声谱(每 12.5 毫秒计算一个帧)不仅捕捉了单词的发音,还有人类语音的微妙变化,包括音量、语速和语调。最后,这些特征被一个类似 WaveNet 的架构转换成 24kHz 的波形。

Tacotron2 模型架构的详细结构。图中的下半部分描述了将字母序列映射到声谱的序列到序列模型的结构。更多技术细节请参见论文。

TTS 新系统取得了当前最佳的结果,可以在这里试听 Tacotron2 生成的语音样本:https://google.github.io/tacotron/publications/tacotron2/index.html。我们让人类听者试听生成的语音以评估其自然性(类人性),并取得了和专业录音相当的分数。

虽然结果很不错,但还存在一些困难需要解决。例如,新系统很难对复杂单词做出正确的发音(例如,decorum 和 merlot),在极端情况下它甚至会随机生成奇怪的噪音。并且,我们的系统目前还不能实时生成语音。此外,我们还无法控制生成的语音,例如使声音听起来开心或悲伤。这些都是很有趣的研究方向。

论文:Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

论文链接:https://arxiv.org/abs/1712.05884

摘要:本论文介绍了 Tacotron 2,一个用于直接从文本合成语音的神经网络架构。该系统包括一个循环序列到序列特征预测网络(把字符嵌入映射到梅尔标度谱图)以及一个改良的 WaveNet 模型(作为声码器以从这些谱图中合成时域波形)。相较于专业录音水准的 MOS 值 4.58,我们的模型取得了 4.53 的 MOS 值。为了验证我们的设计选择,我们展示了系统关键组件的消融研究,并评估了使用梅尔谱图取代语言学、持续时间、F_0 特征作为 WaveNet 输入的影响。我们进一步证明使用一个紧凑的声学中间表征能够明显简化 WaveNet 的架构。

表 1:不同系统 95% 置信区间的 MOS 估值

图 2:合成值 vs. 真值:100 项上的 800 个评级

表 2:当已在预测/真值梅尔谱图上训练的 WaveNet 用于从预测/真值梅尔谱图上进行合成之时,系统评估的 MOS 值的对比。

表 3:分别以 Griffin-Lim 和 WaveNet 为声码器的 MOS 值比较,以及在 WaveNet 中分别使用 1025 维的线性谱图和 80 维的梅尔谱图作为条件特征的 MOS 值比较。

表 4:不同层设置和感受野大小的 WaveNet 的 MOS 值评估结果。

原文地址:https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-12-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

500款各领域机器学习数据集,总有一个是你要找的

美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139

32210
来自专栏机器之心

学界 | 谷歌全端到端语音合成系统Tacotron:直接从字符合成语音

选自arXiv 作者:王雨轩等 机器之心编译 参与:李泽南、吴攀 最近,谷歌科学家王雨轩等人提出了一种新的端到端语音合成系统 Tacotron,该模型可接收字符...

62890
来自专栏机器之心

专访 | 诺基亚首席科学家范力欣:用模糊逻辑实现可解释的深度神经网络

深度学习发展到今天,很大程度上依然是一个「实验主导」的、「先有实验结果再找可能解释」的学科。对实验结果的理论解释,争议不断,而且随着时间的推移,研究者们给出的解...

16220
来自专栏AI科技评论

KDD2016论文亮点解析(一)

导读:KDD2016是首屈一指的跨学科会议,它聚集了数据科学,数据挖掘,知识发现,大规模数据分析和大数据方面的研究人员和从业人员。 论文一题目:稳定流体近似的卷...

34860
来自专栏量化投资与机器学习

【必看】机器学习应用量化投资必须要踩的那些坑(系列55)

29150
来自专栏PPV课数据科学社区

500款各领域机器学习数据集,总有一个是你要找的

金融 美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139 沪深股票除权除息...

3K110
来自专栏专知

【ICCV2017视觉盛宴概况】何恺明博士包揽最佳论文和最佳学生论文奖!Facebook成大赢家!

【导读】当地时间 10月 22 日到10月29日,两年一度的计算机视觉国际顶级会议 International Conference on Computer V...

40940
来自专栏CVer

CVPR 2018 获奖名单:最佳论文和最佳学生论文共计5大奖项

CVPR 2018大会刚刚发布了最佳论文奖、学生最佳论文奖、最佳论文鼓励奖、十年检验奖和青年学者奖等共计5项大奖。

20860
来自专栏新智元

【干货】二值神经网络:让 AlphaGo 能在手腕运行

赢得围棋人机大战的AlphaGo为了运行神经网络,用了280块GPU,功率超过一百个李世石[1]。 这种使用浮点计算的神经网络要求的大存储空间和大计算量,严重阻...

468160
来自专栏机器人网

顶级AI会议NIPS压轴2017

NIPS,全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Sys...

39380

扫码关注云+社区

领取腾讯云代金券