语音合成论文和英伟达撞车,韩国小哥紧急放出全部草稿代码和样本 | 资源帖

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

由于和英伟达研究撞车,韩国一位研究语音合成的作者已经哭晕了。

10月31日,英伟达在arXiv网站上传了一篇论文——WaveFlow:一个用于音频合成基于流的生成网络。

英伟达论文地址: https://arxiv.org/abs/1811.00002

而一位韩国首尔大学的学生发现,自己的研究成果竟然和英伟达高度相似,为了和英伟达抢时间,他们在11月6日赶紧也向arXiv上传了论文。

论文第二作者昨晚还在reddit发帖,并抢时间放出源代码,以此安慰在角落哭泣的第一作者。

FloWaveNet项目

这位韩国学生公布的FloWaveNet,是一种基于流生成模型的原始音频合成方法,只需要一个最大似然损失,不需要其他额外的损失函数。该模型可以实时高效地采样原始音频,而且合成音频的清晰度已经能和WaveNet相媲美。

英伟达也公布了自己的WaveGlow:一种基于流的网络,能够从梅尔频谱图(mel-spectrograms)中合成高质量的语音。 它借鉴了OpenAI的生成网络Glow和DeepMind的WaveNet,能够提供快速,高效和高质量的音频合成,而无需自动回归(auto-regression)。 WaveGlow仅由单一成本函数进行训练,使用单一网络实现,使得训练过程简单而稳定。

源代码与合成音频样品

作者已经在GitHub上公布了FloWaveNet源代码,并和百度研究院数月前发布的语音合成项目ClariNet进行对比。

FloWaveNet项目地址: https://github.com/ksw0306/FloWaveNet

ClariNet项目地址: https://github.com/ksw0306/ClariNet

这两个项目都是基于PyTorch实现,此外用户还需要安装音频分析包librosa

为了展示效果,作者还放出了与原始音频、WaveNet合成音频样品的对比(第一段为原始音频、第二段为FloWaveNet合成,第三段为WaveNet合成):

另外,英伟达也放出了自己的WaveGlow的项目和多段音频对比,但是却没有提供源代码: https://nv-adlr.github.io/WaveGlow

不过,有英伟达论文的第三方PyTorch实现可用: https://github.com/npuichigo/waveglow

因祸得福

帖子发出后2个小时内,获得了热烈讨论。有人分享了类似“撞车”经验,表示单枪匹马很难与大公司众多工程师竞争,自己开始某项研究数月后,就被DeepMind抢发了论文。

不过还是有人鼓励作者,英伟达的WaveGlow目前仅仅是提交到arXiv,还未正式发表,希望作者不要担心。

很快帖子就吸引来了行业大咖。英伟达WaveGlow作者之一、负责应用深度学习的副总裁Bryan Catanzaro在回帖中点赞,并且抛出了橄榄枝,希望发帖者能够去英伟达实习。

不知道这算不算因祸得福呢?

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FD的专栏

什么是最小可行性数据产品(MVP)?如何用它做机器学习?

本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。

10520
来自专栏新智元

【2017深度学习框架大事记】PyTorch成TensorFlow最大竞争对手,微软、亚马逊、Facebook 合作联盟对抗谷歌

来源:towardsdatascience.com 作者:Indra den Bakker 编译:刘小芹 【新智元导读】2017年,深度学习框架领域出现了许多新...

41560
来自专栏人工智能

生成人工智能:创意专家新的强大工具

人工智能可以以惊人的速度,效率和逼真度生成新的数据模式。在过去的几年里,人工智能通过算法生成可以以数字形式呈现的任何对象已经司空见惯。到2019年,大多数领先的...

22860
来自专栏数据科学与人工智能

【数据挖掘】常用的数据挖掘方法

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡...

32160
来自专栏数据派THU

手把手教你用Kaggle开启机器学习之旅(附资源链接)

本文分析了Kaggle利于数据科学领域新手学习的几点特征,并带你学习ML相关知识。

23020
来自专栏ATYUN订阅号

【业界】神经模拟再突破,NEST算法可以100%模拟人脑

AiTechYun 编辑:nanan ? 科学家们一直试图找到将大脑处理能力带到计算机上的方法。创建能够模拟人脑的算法,以及神经元如何工作是实现这一梦想的关键。...

37860
来自专栏人工智能头条

贾扬清:希望Caffe成为深度学习领域的Hadoop

40340
来自专栏大数据文摘

业界 | 什么是最小可行性数据产品(MVP)?如何用它做机器学习?

本文作者是一名数据科学家,现在离开了Pivotal公司加入了idealo公司,正在帮助其搭建数据科学团队以及把机器学习整合到公司的产品中。

13000
来自专栏新智元

谷歌用“多巴胺”怼上OpenAI,开源TensorFlow强化学习框架

最近 OpenAI 在 Dota 2 上的表现,让强化学习又大大地火了一把,但是 OpenAI 的强化学习训练环境 OpenAI Gym 却一直遭到不少抱怨,比...

45830
来自专栏大数据文摘

李飞飞说,机器是又快又准确,但是人类聪明呀!除此,她还推荐你读这十个机器学习误区

21330

扫码关注云+社区

领取腾讯云代金券