视频 | 谷歌新一代WaveNet :深度学习怎么生成语音?

AI 科技评论按:这里是雷锋字幕组编译的 Two minutes paper 专栏,每周带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。

原标题:NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

翻译 | 张锋凯 整理 | 凡江 林尤添

在往期的 2 分钟论文栏目中,我们有谈过 Google 的 WaveNet(一个基于学习型的文本到语音引擎),也就是说,只要我们给予已经训练好的模型一些朗读的素材,引擎就会尽可能生成一个较真实的声音。而在本期视频中,我们将介绍一个新的产品,它在原有的基础上进行改进,让合成语音臻于完美。

图片来源:WaveNet: A Generative Model for Raw Audio

点开本期视频后,你会听到,合成的语音在韵律,重读,和语调上都非常出色,以至于我们真假难辨。相关的音频信息可以在这里找到:

https://google.github.io/tacotron/publications/tacotron2/index.html

在原先 Google 的 WaveNet 论文中,我们为了解决语音合成难题,创造了扩张卷积,这个网络结构跳跃性地输入数据,由此使我们我们有了更好的全局视野。这有点像增加我们眼睛的感受野,让我们能够感受整个景观,而不是照片中只有树的狭窄的视角。

新框架利用梅尔声谱作为 WaveNet 的输入,这种声谱是一种基于人类感知的中间媒介,它不仅记录了不同的单词如何发音,而且还记录了预期的音量和语调。

新模型接受了大约 24 小时的语音数据训练,当然,模型都是要经过某种程度的检验才合格。

我们对其的检验方法是记录以前算法的平均意见分(用来描述声音样本和人类真实声音的比分)。我们的新算法大获成功,之后通过用户研究更加接地气的检验,让用户进行盲测,猜测听到的声音是合成的还是真实的。

的确不可思议,因为大部分的测试结果都是——人们真假莫辨。

请注意,生成这些波形不是实时的,而且还需要很长时间。为了有更好的效率,DeepMind 的科学家撰写了一篇轰动的论文,把 WaveNe 的波形生成速度提升了上千倍。当然,新发明也会带来新挑战——这可能导致录音更容易被伪造,而录音将被削弱作为物证的可信性,除非我们找到一种新的检验方法,例如在录音上加入数字签名。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

哥伦比亚大学数据科学课程笔记(2)

1949
来自专栏企鹅号快讯

蒙特卡洛树搜索是什么?如何将其用于规划星际飞行?

选自kdnuggets 作者:Mateusz Wyszyński 机器之心编译 参与:Panda 本文解读了蒙特卡洛树搜索算法背后的概念,并用一个案例说明了欧洲...

2188
来自专栏机器之心

前沿 | 如何让超越人类的AI不构成威胁?OpenAI给出的答案是:目标一致性

2078
来自专栏安恒信息

ios6.1.3和6.1.4完美越狱危机并存 警惕越狱诈骗网站

· 最近,黑客winocm连续向人们公开了ios6.1.3和6.1.4完美越狱的部分证据,以证明自己已能够越狱。给很多苦苦等待越狱的果粉带来了希望。...

2635
来自专栏机器之心

入门 | 蒙特卡洛树搜索是什么?如何将其用于规划星际飞行?

2416
来自专栏奇点大数据

前沿 | 如何让超越人类的AI不构成威胁?OpenAI给出的答案是:目标一致性

我们可以将辩论的方式可视化为一个游戏树。它同围棋等游戏类似,但是这里的叶节点由辩论者之间论点和人类判决的句子构成。不论是在辩论还是在围棋中,真正的答案取决于整个...

844
来自专栏机器之心

业界 | 谷歌「虚拟摄影师」:利用深度学习生成专业级摄影作品

选自Google Research 机器之心编译 参与:Smith 黄小天 机器学习在目标清晰的客观领域取得了超乎想象的效果,比如图像识别和机器翻译;但在主观领...

2819
来自专栏AI研习社

抠图不再麻烦,Adobe 新算法让 P 图以假乱真

你的朋友圈有被《我的前世青年照》刷屏么?大家之所以这么热情,主要是因为 AI 技术让我们的照片与模板中人物完美融合,看起来毫无违和感。

832
来自专栏奇点大数据

最前沿:从虚拟到现实,DRL 让小狗机器人跑起来了

深度增强学习 DRL 在仿真机器人已经取得了很大的成功,同时,也在真实的机器人抓取(Robotic Manipulation)问题上有了很大的进展。然而依然会有...

483
来自专栏AI科技评论

视频 | 抠图不再麻烦,Adobe 新算法让 P 图以假乱真

这里是,雷锋字幕组编译的Two minutes paper专栏,每周带大家用碎片时间阅览前沿技术,了解AI领域的最新研究成果。

1093

扫码关注云+社区