百度发布升级版 Deep Voice 2,神经网络实时生成,完美模仿数百种声音(论文下载)

【新智元导读】百度研究院今年初发布的完全深度神经网络构建的 Deep Voice 文本到语音转化系统,声称在转化速度上比 WaveNet 快400倍。但当时的系统只能转化20小时语音,而且只有一种声音。不到三个月的时间,这个系统得到大幅升级,能够生成数百个小时的语音,拥有数百种声音。

百度在官方博客介绍了升级版 Deep Voice 2:

今年2月,百度硅谷 AI Lab 发布了 Deep Voice 1,这是一个完全使用深度神经网络生成人类语音的系统。与其他使用神经网络的文本到语音(text-to-speech,TTS)系统不同的是,Deep Voice 1是实时运行的,能在需要播放语音时非常快速地合成音频,因此适用于媒体或对话界面之类的交互应用。通过训练能够从大量数据和简单特征学习的深度神经网络,我们创建了一个非常灵活而且高质量的实时语音合成系统。

今天,我们很高兴地宣布推出 Deep Voice 2,这是 Deep Voice 系统的第二代版本。短短三个月时间,我们已经将第一代系统只能生成20小时语音,只有一种声音,扩大到数百小时语音,并且可以拥有数百种声音。Deep Voice 2能够从数百种声音学习,并且能够完美地模仿这些声音。与传统的这类系统不同,传统的系统需要使用同一个说话人的数十小时的语音来训练,但 Deep Voice 2只需每个说话人不到半小时的语音数据,就可以学会数百种独特的声音,同时拥有高音质。

Deep Voice 2 通过寻找不同声音之间的共同特征来学习语音。具体来说,每个声音对应一个单个的向量,即总结了如何模仿目标声音来生成语音的约50个数字。与以前的 TTS 系统都不同,Deep Voice 2 是从头开始学习这些特征,不需要任何关于这些声音的区别的指导。

音频片段试听地址:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

论文:Deep Voice 2: Multi-Speaker Neural Text-to-Speech

有关 Deep Voice 2 的更多信息,请阅读我们的论文。

论文下载地址:http://research.baidu.com/wp-content/uploads/2017/05/Deep-Voice-2-Complete-Arxiv.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

大神Yann LeCun亲授:如何自学深度学习技术并少走弯路(3000字长文)

编者按:深度学习领域泰斗级人物 Yann LeCun 是 Quora上非常踊跃的答者,他乐于分享自己的心得体会。例如,有人问“你最喜欢的机器学习算法是什么?”,...

45290
来自专栏AI科技评论

视频 | 棋类大战中惨败的人类,现在想要在电子游戏上扳回一局

喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。 本期 Arxiv ...

37960
来自专栏新智元

【ACL 2017最佳论文解读】NLP数据成热点,哈佛教授获终身成就奖

【新智元导读】计算语言学顶会 ACL 2017 刚刚公布了最佳论文和终身成就奖。本年度最佳长论文被授予了霍普金斯大学使用概率方法研究语言类型学的文章。最佳短论文...

40050
来自专栏机器之心

专访 | 蚂蚁金服MISA:比用户更懂自己的自然语言客服系统

20330
来自专栏CDA数据分析师

2016机器学习与自然语言处理学术全景图:卡耐基梅隆大学排名第一

随着 2016 年结束,剑桥大学高级研究员 Marek Rei 对人工智能行业的 11 个主要会议和期刊进行了分析,它们包括 ACL、EACL、NAACL、EM...

214100
来自专栏新智元

【AI版狄仁杰】爱丁堡大学团队教AI识别犯罪剧中的罪犯,正确率达60%仍不及人类

作者:常佩琦 【新智元导读】爱丁堡大学的研究人员通过《犯罪现场调查》系列电视剧的相关视频、音频和文本训练AI,测试AI能否准确识别每集中的罪犯。在每集电视剧结束...

35050
来自专栏机器之心

入门 | 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

569100
来自专栏AI科技评论

小白不知从何入手认知机器学习?Shakir Mohamed 授你锦囊妙计

导读:如何让机器学习从环境中自主学习和思考是科学家们正努力探索的目标。本文的一些想法说不定可以为研究带来一丝灵感。 注:本文译自 The Spectator,作...

29960
来自专栏AI科技大本营的专栏

首发|贾扬清回应[1小时训练ImageNet]:要关注这10个技术细节,窝里斗没有必要

昨天,整个深度学习领域,几乎被一篇论文刷了屏。 论文指出,通过一种新的方法,能够大幅加速模型训练的过程,仅需1小时,就能训练完ImageNet这样的大规模数据集...

41960
来自专栏程序你好

VR技术: Facebook的3D照片是怎么回事?

12220

扫码关注云+社区

领取腾讯云代金券