百度发布全深度学习文本到语音转化系统 Deep Voice,比 WaveNet 快400倍

【新智元导读】 百度最新发布文本到语音转化系统Deep Voice。百度称,这是一个全部由深度神经网络构建的系统,在文本到语音的转化速度上比 WaveNet 快400倍。

百度研究院今天发布 Deep Voice,这是一个文本到语音转化系统,完全由深度神经网络构建。

百度研究院在官方博客上写道:

目前,要搭建这样一个系统,最大的阻碍在于声频合成的速度,此前的方法一般都需要数分钟或数小时来生成几秒的语音。

我们解决了这一难题,并且证明我们能够进行实时的音频合成。在速度上,这一系统比WaveNet 参数部署要快400倍。

从文本中生成人造的语音,通常被称为文本转语音(TTS),它是许多应用,比如,语音驱动的设备、导航系统和视力障碍者设备中不可或缺的工具。从根本上说,它能让人在不需要视觉交互的情况下与技术进行互动。

现代的 TTS 系统都是基于复杂的、多步骤的处理管道,其中,每一个管道都可能会依赖于人为设计的特征和启发。由于这种复杂性,建造新的TTS 系统是非常消耗人力,而且也会非常困难的。

DeepVoice 受到传统的本文到语音的管道启发,并且采纳了相同的架构,但是,DeepVoice 使用神经网络来代替全部组件,并使用了更简单的特征。这是的我们的系统能更好地适用于新的数据库、声音和领域,而不需要任何人为的数据标注或者额外的特征设计。

DeepVoice 为真正的端到端的,且不需要复杂处理管道、不依赖于手动设计特征进行输入和预训练的语音合成奠定了基础。

我们目前的管道依然不是端到端的,它由一个音素模型和一个音频合成组件构成。

声音中的机器人声音特性产生于管道结构和音素模型,然后,声频生成组件单独可以生成更加自然的音频片段。

音频片段试听地址: http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/

深度学习以及变革了许多领域,包括计算机视觉和语音识别,并且,我们相信,文本到语音的转换现在也处在了类似的转折点上,我们非常期待深度学习社区能一起努力,并且希望能以一种可再生的细节程度,来分享我们的整个文本到语音的转化系统,进而加速这一进程。

论文:DeepVoice:Real-Time Neural Text-to-Speech

论文作者:Sercan O. Arik ,Mike Chrzanowski,Adam Coates,Gregory Diamos,Andrew Gibiansky,Yongguo Kang,Xian Li ,John Miller ,Jonathan Raiman ,Shubho Sengupta ,Mohammad Shoeybi

摘要

我们在本文中提出一个完全由深度神经网络组成的文本到语音的系统——Deep Voice,它为真正端到端神经网络语音合成奠定了基础。

该系统由5个主要的组件构成:一个用于定位音素边界的分割模型、一个字素到音素(grapheme-tophoneme)转换模型、一个音素音长预测模型和一个基础的频次预测模型以及一个音频合成模型。

在分割模型中,我们提出了一个新的方法来执行音素边界探测,其中的技术包括使用使用深度神经网络和联结主义临时分类(CTC)损失。

在语音合成模型中,我们采用了一个Wavenet 的变体,相比原始版本,我们要求的参数更少,训练速度更快。

通过在每一个组件中使用神经网络,我们的系统比传统的文本到语音系统更加简洁也更加灵活。传统的系统总共,每一个组件都要求人为设计的特征和深度的专业知识。

最终,研究证明,用我们的系统来进行推理,在CPU 和GPU 上,它比实时的和优化后的WaveNet 推理核(Inference kernels)更快,最终比既有的部署快了400倍。

五个组件在系统中的作用示意图

论文下载地址:https://arxiv.org/pdf/1702.07825.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【斯坦福大学吴恩达博士生Ziang Xie】深度文本生成最佳实战指南(附指南下载)

【导读】人们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可...

1K7
来自专栏灯塔大数据

每周学点大数据 | No.59协同过滤模型(下)

NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: ? 此时式中,Sij 表示的是i 和...

3455
来自专栏人工智能头条

AMiner背后的技术细节与挑战

1296
来自专栏ATYUN订阅号

破解黑盒?谷歌让你理解机器如何“思考”

AiTechYun 编辑:xiaoshan 在2015年,谷歌曾尝试去想象神经网络如何理解产生了迷幻图像的图像。不久之后,谷歌把其代码开源为“DeepDream...

2815
来自专栏数据派THU

独家 | 从零开始用python搭建推荐引擎(附代码)

当今社会的每个人都面临着各种各样的选择。例如,如果我漫无目的想找一本书读,那么关于我如何搜索就会出现很多可能。这样一来,我可能会浪费很多时间在网上浏览,并且在各...

3874
来自专栏最新技术

数据包络分析教程

数据包络分析(Data Envelopment Analysis,也称DEA)是一种用于进行前沿分析的非参数方法。它使用线性规划来估计多个决策单元的效率,它广泛...

5006
来自专栏新智元

AI距离匹敌人类大脑还有多远?人工神经网络和生物神经网络最详细对比

【新智元导读】 人工神经网络性能的好坏取决于哪些要素?取得了哪些进展,最新发展趋势是什么?通过与生物神经网络的对比,本文带来对人工神经网络的深度介绍。 能够学...

3426
来自专栏新智元

【重磅】谷歌发布Open Images图片数据集,包含9百万标注图片

AI World 2016世界人工智能大会 ❶ 业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报...

3725
来自专栏加米谷大数据

技术分享 | 数据可视化5种方法

数据可视化是指以饼状图等图形的方式展示数据,可以帮助用户理解数据,一直是热门方向。 图表是”数据可视化”的常用手段,其中又以基本图表—-柱状图、折线图、饼图等等...

3007
来自专栏AI研习社

OpenAI Baselines 更新,新增 HER 强化学习算法

AI 研习社按:富有挑战的新测试环境和任务,极具竞争力的基准模型,你感到兴奋和压力了吗? 为了方便快速开发迭代以及对比测试,各大人工智能机构都会在专门开发的模拟...

5179

扫码关注云+社区