学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet

选自百度

作者:Wei Ping、Kainan Peng、Jitong Chen

机器之心编辑

语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在 AI 时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型ClariNet,合成速度提升了数千倍,可以达到实时的十倍以上。此外,这也是语音合成领域第一个真正的端到端模型:单个神经网络,直接从文本到原始音频波形。

最近,百度硅谷人工智能实验室的研究员提出了 ClariNet,一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术(Google I/O 大会所展示的超逼真合成语音的背后技术)。自从其被提出,就得到了广泛的离线应用。但由于其自回归(autoregressive)的特点,只能按时间顺序逐个生成波形采样点,导致合成速度极慢,无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流(Gaussian inverse autoregressive flow),可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型,其合成速度提升了数千倍,可以达到实时的十倍以上。

对比 DeepMind 稍早提出的 Parallel WaveNet,ClariNet 中的概率分布蒸馏(probability density distillation)过程更加简单优美,直接闭式地(closed-form)来计算训练目标函数 KL 散度(KL divergence),大大简化了训练算法,并且使得蒸馏过程效率极高——通常 5 万次迭代后,就可以得到很好的结果。同时作者还提出了正则化 KL 散度的办法,大大提高了训练过程的数值稳定性,使得结果简单易训练(注:Clari 在拉丁语中是 clear, bright 的意思)。而 Parallel WaveNet 由于需要蒙特卡洛采样来近似 KL 散度,使得梯度估计的噪音很大,训练过程很不稳定,外界极难重现 DeepMind 的实验结果。

更值得注意的是,ClariNet 还是语音合成领域第一个完全端到端的系统,可以通过单个神经网络,直接将文本转换为原始的音频波形。先前为业界所熟知的「端到端」语音合成系统(比如 Google 提出的 Tacotron,百度之前提出的 Deep Voice 3),实际是先将文本转换为频谱(spectrogram),然后通过波形生成模型 WaveNet 或者 Griffin-Lim 算法,将频谱转换成原始波形输出。这种方法由于文本到频谱的模型和 WaveNet 是分别训练优化的,往往导致次优的结果。而百度研究员提出的 ClariNet,则是完全打通了从文本到原始音频波形的端到端训练,实现了对整个 TTS 系统的联合优化,比起分别训练的模型,在语音合成的自然度上有大幅提升(参见 合成语音示例)。另外,ClariNet 是全卷积模型,训练速度比起基于循环神经网络(RNN)的模型要快 10 倍以上。

ClariNet 的网络结构如下图所示。它使用基于注意力机制(Attention)的编码器-解码器(Encoder-Decoder)模块来学习文本字符与频谱帧之间的对齐关系。解码器的隐状态(hidden states)被送给 Bridge-net 来进行时序信息处理和升采样(upsample)。最终 Bridge-net 的隐状态被送给音频波形生成模块(Vocoder),用来最终合成原始音频波形。

论文:ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

  • 论文地址:https://arxiv.org/pdf/1807.07281.pdf
  • 合成语音示例:https://clarinet-demo.github.io/
视频内容

本文为机器之心经授权发布,转载请联系原作者获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专访 | 诺基亚首席科学家范力欣:用模糊逻辑实现可解释的深度神经网络

深度学习发展到今天,很大程度上依然是一个「实验主导」的、「先有实验结果再找可能解释」的学科。对实验结果的理论解释,争议不断,而且随着时间的推移,研究者们给出的解...

14420
来自专栏量子位

百度推出完全端到端的并行音频波形生成模型,比WaveNet快千倍 | 论文

最近,百度硅谷人工智能实验室的研究员提出的ClariNet(合成语音展示),是一种全新的基于WaveNet的并行音频波形(raw audio waveform)...

13200
来自专栏专知

干货|36页最新深度学习综述论文:算法、技术、应用,181篇参考文献

【导读】最近一期的计算机顶级期刊ACM Computing Surveys (CSUR)出版,包含了来自佛罗里达国际大学的研究人员发布的一篇深度学习综述论文《A...

35220
来自专栏量子位

DeepMind详解新WaveNet:比原来快千倍,语音更自然 | 附论文

夏乙 编译自 DeepMind Blog 量子位 出品 | 公众号 QbitAI ? 上个月,Google Assistant英语和日语版终于用上了DeepMi...

53150
来自专栏机器之心

业界 | 谷歌发布TTS新系统Tacotron 2:直接从文本生成类人语音

437130
来自专栏AI科技大本营的专栏

当这位70岁的Hinton老人还在努力推翻自己积累了30年的学术成果时,我才知道什么叫做生命力(附Capsule最全解析)

Hinton,这个以“深度学习之父”和“神经网络先驱”响彻AI领域的名字,他的一举一动,都是热点导向。 当我们远望一位顶级人物时,除了他的学术,也许,我们更...

39960
来自专栏专知

【新加坡国立大学张戎】深度学习与强化学习(附slide下载)

来源: https://cloud.tencent.com/developer/article/1006637 随着 DeepMind 公司的崛起,深度学习和强...

39380
来自专栏AI研习社

浅析Geoffrey Hinton最近提出的Capsule计划

Geoffrey Hinton 以「深度学习之父」和「神经网络先驱」闻名于世,其对深度学习及神经网络的诸多核心算法和结构(包括「深度学习」这个名称本身,反向传播...

39590
来自专栏企鹅号快讯

15大顶级深度学习课程,你收集全了吗?

翻译 | AI科技大本营 参与 | 刘畅、Donna 目前,深度学习和深度强化学习已经在实践中得到了广泛的运用。资源型博客sky2learn整理了15个深度学习...

218100
来自专栏AI科技大本营的专栏

资源 | 李飞飞、吴恩达、Bengio等人的15大顶级深度学习课程,你收集全了吗?

翻译 | AI科技大本营 参与 | 刘畅 编辑 | Donna 目前,深度学习和深度强化学习已经在实践中得到了广泛的运用。资源型博客sky2learn整理了15...

45090

扫码关注云+社区

领取腾讯云代金券