动态 | Google推出Tacotron 2:结合WaveNet,深度神经网络TTS媲美专业级别

AI 科技评论按:今年3月,Google 提出了一种新的端到端的语音合成系统:Tacotron。该系统可以接收字符输入并输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音。该论文认为这一新思路相比去年 DeepMind 的 WaveNet 具有架构上的优势。10 月,Deepmind发布博客称,其新的WaveNet 模型比起一年前的原始模型效率提高 1000 倍并正式商用于Google Assistant中(参见 AI 科技评论往期文章:《Deepmind语音生成模型WaveNet正式商用:效率提高1000倍》),而就在今天,Google Brain 团队发布博客,宣布推出 Tacotron 2,Google Brain 与 DeepMind 的暗中较劲仍在继续。

以下是 Google 博客的相关内容,让我们来看看此次 Tacotron 2 的更新情况:

从文本(文本到语音,TTS)生成非常自然的探测语音已经成为过去数十年的研究目标。在近几年中,TTS研究取得了很大的进展,TTS系统有许多独立的模块都有了很大的改进。结合在 Tacotron 和 WaveNet 等过去研究思路,我们增加了更多改进,最终实现了我们的新系统 Tacotron 2 。我们的方法不使用复杂的语言和声学特性作为输入,相反,我们仅使用语音示例和相应的文本记录进行训练的神经网络,来从文本生成类似人类的语音。

对于这一新系统的完整描述可以在我们的论文“Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”(通过调节 WaveNet 对 Mel 谱图预测的自然 TTS 合成)中找到。简而言之,其工作原理是这样的:我们使用针对 TTS 优化的序列到序列模型来映射序列字母到编码音频的一系列功能。这些功能是一个 80 维音频频谱图,每 12.5 毫秒计算一次帧,不仅可以捕捉单词的发音,还可以捕捉人类语音的各种微妙之处,包括音量,速度和语调。最后,这些功能使用类似 WaveNet 的架构转换为 24 kHz 波形。

图为 Tacotron 2 的详细模型架构。图像的下半部分描述了将字母序列映射到光谱图的序列到序列模型。更多技术细节请参阅相关论文。

您可以在这里(http://t.cn/RT3cZ08)听一些 Tacotron 2 生成的音频样本。在一个评估中,我们要求听众对生成的语音的自然度进行评分,并获得了与专业录音相媲美的评分。

虽然我们的样本听起来不错,但仍然有一些棘手的问题需要解决。例如,我们的系统在复杂的单词(例如“decorum”和“merlot”)的发音上有困难,在极端的情况下甚至会随机产生奇怪的噪音。另外,我们的系统还不能实时生成音频。而且,我们还不能控制生成的语音,比如引导它听起来高兴或悲伤。这些都是一个有趣的研究问题。

Tacotron VS WaveNet

WaveNet 是一种用于生成原始音频波形的深层神经网络模型,由 Deepmind 于2016年提出。在 TTS 语音合成系统中,主流的做法是拼接 TTS (由单个配音演员的高质量录音大数据库,通常有数个小时的数据。这些录音被分割成小块,然后可以将其进行组合以形成完整的话语) ,而WaveNet采取完全不同的方法。在原始论文中,我们描述了一个深层的生成模型,可以以每秒处理16000个样本、每次处理一个样本党的方式构建单个波形,实现各个声音之间的无缝转换。

上图动画展示了 WaveNet 的结构。它由卷积神经网络构建,在训练阶段,网络确定了语音的底层结构,比如哪些音调相互依存,什么样的波形是真实的以及哪些波形是不自然的。训练好的网络每次合成一个样本,每个生成的样本都考虑前一个样本的属性,所产生的声音包含自然语调和如嘴唇形态等参数。它的“口音”取决于它接受训练时的声音口音,而且可以从混合数据集中创建任何独特声音。与TTS系统一样,WaveNet使用文本输入来告诉它应该产生哪些字以响应查询。另外,为了使用 WaveNet 将文本转化为语音,需要识别文本中是什么。

Tacotron由 Google Brain 团队的 Yuxuan Wang (王雨轩)等人提出。在第一代 Tacotron 的相关论文中指出,WaveNet 对 TTS 效果良好,但由于样本集的自回归属性(sample-level autoregressive nature),其生成语音的处理速度较慢;同时,由于 WaveNet 还需要对现有 TTS 前端语言特征进行调节,因此也不是端到端的。

图为Tacotron最初论文中的模型架构

在今年3月提出的模型中,Tacotron 模型取得了 3.82 的平均意见得分(满分5) 。而在最近的评估中,Tacotron 2 模型平均意见得分为 4.53,专业录音平均意见得分为 4.58。

AI 科技评论发现,WaveNet 大幅提高了效率后,此前的“处理速度慢”的问题已经得到解决,但仍然不是端到端。而在新的 Tacotron 模型架构中也看到,主要改进在于输出端增加了 WaveNet MoL,这样可以将 WaveNet 和 Tacotron 的优点各自结合起来,二者的“强强联合”有望促进类似语音识别一样的进步,实现语音合成的新台阶。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-12-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

吴恩达最新深度学习课程: 斯坦福2018—Andrew Ng、Kian Katanforoosh主讲(附PPT)

【导读】近期,斯坦福大学深度学习课程有开课了,主讲老师是人工智能领域知名学者Andrew Ng和Kian Katanforoosh。我们在早些时候也编辑发布了卡...

58160
来自专栏AI科技评论

学界 | Moments in Time:IBM-MIT联合提出最新百万规模视频动作理解数据集

AI 科技评论按:本文为上海交通大学林天威为 AI 科技评论撰写的独家稿件,未经许可请勿转载。 在过去一年中,视频理解相关的领域涌现了大量的新模型、新方法,与之...

39670
来自专栏AI科技评论

DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

编者按:Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果——WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的...

41770
来自专栏数据科学与人工智能

【机器学习】机器学习和数据挖掘的推荐书单

《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic...

27480
来自专栏人工智能头条

Yann LeCun:CNN已解决CIFAR-10,目标 ImageNet

25360
来自专栏腾讯云技术沙龙

叶聪:朋友圈背后的计算机视觉技术与应用

AI要走进千家万户,融入整个社会,而不仅仅是曲高和寡的模型。所以现在非常讲究AI场景化,使它成为与产业相关的部分。

58840
来自专栏量子位

谷歌推Tacotron 2,搞定绕口令,效果优于WaveNet

安妮 编译整理 量子位 出品 | 公众号 QbitAI 让电脑会讲话没什么,但让电脑说得666就不是一件容易事了。 今天,谷歌推出一种直接从文本中合成语音的神经...

33860
来自专栏专知

【网络节点表示学习教程】在向量空间中启用网络分析和推理,清华大学崔鹏博士最新分享

【导读】第32届AAAI大会-AAAI 2018已经于2月2号-7号在美国新奥尔良召开,清华大学崔鹏博士在大会作了精彩的报告“Network Represent...

45850
来自专栏云加头条

【干货合集】深度学习入门与实战

近年来,深度学习的概念十分火热,人工智能也由于这一技术的兴起,在近几年吸引了越来越多的关注。本文精选了分享在腾云阁技术社区深受开发者欢迎的深度学习的文章,轻松快...

1.3K00
来自专栏人工智能头条

我们从1400篇机器学习文章中挑出了Top 10

15140

扫码关注云+社区

领取腾讯云代金券