前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >业界 | 历经一年,DeepMind WaveNet语音合成技术正式产品化

业界 | 历经一年,DeepMind WaveNet语音合成技术正式产品化

作者头像
机器之心
发布2018-05-08 12:06:59
1.3K0
发布2018-05-08 12:06:59
举报
文章被收录于专栏:机器之心机器之心机器之心

选自DeepMind

机器之心编译

参与:刘晓坤

昨日,谷歌发布了一系列新的产品,从音箱到手机,让我们看到了其产品全面 AI 化的趋势。而 DeepMind 一年前宣布的语音合成技术 WaveNet 也正式产品化,融入谷歌助手之中。本文对升级后的 WaveNet 技术做了解读。

就在一年前,谷歌 DeepMind 发布了 WaveNet,这是一种新的深度神经网络,能生成新的声音信号波形,并且比起其它现有技术,其生成的语音拥有更加逼真的音效。当时这个模型还只处于研究雏形阶段,对于消费性产品而言,模型的计算消耗量太大。

经过 12 个月的努力而大大提升了模型运行的速度和质量之后,谷歌 DeepMind 现在已经推出了 WaveNet 的更新版本,可以在所有的平台上生成美式英语和日语的谷歌助手语音。

使用新的 WaveNet 模型可以使谷歌助手生成一系列更加自然逼真的声音。

为什么 WaveNet 的性能如此高效并可以超越现有的最先进技术水平呢?首先需要理解今天的「文本到语音」(text-to-speech,TTS)系统或语音合成(speech synthesis)系统的工作方式。

大部分系统都是基于所谓的连续式 TTS,即使用大型的高质量录音的数据库,收集单个人数小时的声音记录。这些录音将被分成小块然后组合或成串连接以合成完整的所需的发音。但是这些系统生成的语音通常都是不自然的而且很难调整,因为只要出现了一系列变化,比如需要表达新的情绪或语调的情况,就得建立一个新的数据库记录。

为了解决这些问题,有时候会用一种替代模型,称为参量 TTS。这个模型不需要使用一系列规则和语法、嘴唇动作的参量成串连接声音,而引导计算机生成语音。虽然这个方法更加经济,计算速度也更快,但生成的语音不自然。

WaveNet 采取了完全不同的方法。在相关论文中,作者描述了一种深度生成模型,可以从头开始生成单独的信号波形,每次生成一个样本,每秒生成 16000 个样本,并且在单独的声音之间是无缝过渡的。

在原始的 WaveNet 模型上强化的卷积神经网络结构

WaveNet 使用一个卷积神经网络构建,并在大型的语音样本的数据库中训练。在训练过程中,网络将决定语音的潜在结构,比如哪些音调相互依存,以及哪些信号波形是现实的(哪些又不是现实的)。训练后的网络将每一次合成一个语音样本,而每一个样本都和上一个样本的特性相关。最后生成的语音包含自然的语调以及其它的特征比如咂嘴声,其「口音」依赖于用于训练的语音,为从混合数据集中创造任意数量的独特的声音开辟了可能性。正如其它所有的 TTS 系统一样,WaveNet 使用一个文本输入告诉系统在回答问题的时候,应该生成什么词。

从原始模型中生成如此高保真的声音波形需要消耗相当大的计算量,这意味着 WaveNet 虽然有潜力但是还无法在现实世界中应用。不过经过了 12 个月的努力,谷歌已经开发出了能快速生成信号波形的新模型。它还可以大规模运行,并且是在谷歌最新的 TPU 云基础架构上运行的第一个产品。

WaveNet 的研究团队未来将公布新模型的研究细节。最新改进的 WaveNet 模型仍然能生成新的信号波形但是是以原始模型的 1000 倍的速度生成,意味着它只需要 50ms 就可以生成 1 秒的语音。实际上,该模型不只是快,而且保真度很高,可以在一秒内生成 24000 个信号波形的样本。而且每一个样本的分辨率也从 8bit 提高到了 16bit(和光碟一样的分辨率)。

这将使模型在人类听众测试中给出更加自然的听感。例如,最新的 US English voice I,在 1-5 scale 的测试中得到了 4.347 的平均意见分数(mean-opinion-score,MOS),而即使是人类语音也只能得到 4.667 的分数。

新模型同样保留了原始模型的灵活性,可以在训练过程中更好的利用大量的数据。具体来说就是,可以使用多种语音训练网络。从而,即使对于所需输出的语音只有少量的训练数据,仍然可以生成高质量、细致入微的语音。DeepMind 表示这只是 WaveNet 的开始,他们有信心在未来,语音界面的强大功能将对全世界的语言开放。

原文链接:https://deepmind.com/blog/wavenet-launches-google-assistant/

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档