专栏首页AI科技评论DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

DeepMind发布最新原始音频波形深度生成模型WaveNet,将为TTS带来无数可能

编者按:Google的DeepMind研究实验室昨天公布了其在语音合成领域的最新成果——WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。

WaveNets是一种卷积神经网络,能够模拟任意一种人类声音,生成的语音听起来比现存的最优文本-语音系统更为自然,将模拟生成的语音与人类声音之间的差异降低了50%以上。

我们也将证明,同一种网络能够合成其他音频信号,如音乐,并能够自动生成沁人心脾的钢琴曲。

会说话的机器

使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。过去几年中,深度神经网络的应用(如Google语音搜索)为提高计算机理解自然语音的能力带来了革新。但是,运用计算机生成语音——通常用于指代语音合成或文本-语音(TTS)系统——在极大程度上还要依托拼接TTS,TTS中包含一个超大型记录单个说话者的简短语音片段的数据库,随后将这些语音片段重新合成形成完整的话语。在不记录一个新的完整数据库的前提下,这种语音合成方法难以做到修饰声音(例如,转换到一个不同的说话者,或者改变其语音中强调的重点或传达的情感)。

为了解决语音合成的这一难题,迫切需要运用一种参数TTS,在这种文本-语音系统中,生成数据所需要的所有信息被存储于模型的参数中,语音所传达的内容及语音特征可以通过模型的输入信息得以控制。然而,目前参数(Parametric)TTS模型生成的语音听起来不如拼接(Concatenative)TTS模型生成的语音自然,这种现象至少出现在音节类语言中,如英语。现有的参数模型通常是运用信号加工算法vocoders计算获得的输出信息,以此生成音频信号。

WaveNet通过直接为音频信号的原始波形建模,一次为一种音频样本建模,来改变这种范式。同生成听起来更为自然的语音相同,使用原始波形意味着WaveNet能够为任意类型的音频建模,包括音乐。

WaveNet

研究者通常避免为原始音频建模,因为原始音频往往瞬间发生变化:通常情况下,每秒出现16,000种或更多音频样本,在很多时间标尺内出现重要的结构。很明显,构建一个完全自动回归模型是一项具有挑战性的任务,在这种模型中,对每一种音频样本的预测均受到之前所有音频样本的影响(用统计学方面的话来讲,每一种预测性分布是建立在所有先前观察的基础之上的)。

但是,我们今年公布的PixelRNN和PixelCNN模型显示,做到以每次一个像素,甚至于每次一个颜色通道的方式生成复杂的自然图像是可能的,这将要求对每个图像做数千次预测。这也启发我们将原有的二维PixelNets转变为一种一维WaveNet。

上方动画所示为一个WaveNet模型的内部结构,通常是一种完整的卷积神经网络,卷积层中有各种各样的扩张因子,允许其接受域深度成倍增长,并且覆盖数千个时间步长。

在训练时间段内,输入序列是从人类说话者记录得来的真实波形。在训练之后,我们可以对网络取样,以生成合成话语。在取样的每一个步骤中,将从由网络计算得出的概率分布中抽取数值。所抽取的数值随后被反馈到输入信息中,这样便完成下一步新预测。像这样每做一次预测就取样会增加计算成本,但是我们已经发现,这样的取样方法对于生成复杂且听起来真实的音频是至关重要的。

改善最优文本-语音转换模型

我们曾经运用Google的一些TTS数据集来训练WaveNet,以便用于评估WaveNet的性能。下图所示为与Google当前最优TTS系统(参数型TTS和拼接型TTS)和使用Mean Opinion Scores(MOS:用于评估语音通讯系统质量的方法)获得的人类语音相比,在标尺(1-5)上WaveNets的质量。MOS是一种用于主观语音质量测试的标准测定方法,在人群中进行盲试验。我们可以看到,WaveNets将最优模型生成语音的质量与人类自然语音(US英语和汉语普通话)之间的差距降低了50%以上。

就汉语和英语来讲,Google当前的TTS系统在世界范围内被认为是最优文本-语音系统,因此,用一种单一模型来改善生成汉语与英语语音质量将会是一项重大成就。

教会WaveNet说有意义的话

为了实现运用WaveNet将文本转化为语音,我们得告诉WaveNet文本的内容是什么。我们通过将文本转换成语言和语音特征(包括音位、音节、单词等),把转换得来的特征提供给WaveNet,完成这一过程。这意味着网络的预测步骤不仅仅基于先前获得的音频样本,而且要基于文本所传达的内容。

如果我们想要脱离文本序列来训练网络,网络依然能够生成语音,但是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语,有意义的单词被编造的像单词的声音隔断开。

注意,有时WaveNet也会生成一些非语音类型的声音,如呼吸或口腔运动;这反映出一种原始音频模型具有高度灵活性。

一个单一的WaveNet具备学习许多不同声音(男性和女性)的特征。为了确保WaveNet能够知道用何种声音匹配给定的任何一段话语,我们训练网络使之学习获得说话者的身份特征。有趣的是,我们发现,与单一训练单个说话者的特征相比,用许多说话者的语言、语音及身份等特征来训练网络使得WaveNet能够更好地模拟单个说话者,这种训练模式暗含着一种迁移学习形式。

通过改变说话者的身份,我们可以用WaveNet以不同的声音表达同一段话语。

同样,我们可以为该模型提供额外的输入信息,如情感或口音,使得生成的语音变得更为多样化,更有趣。

生成音乐

由于WaveNet能够用来模拟任何一种音频信号,我们认为,尝试用WaveNet生成音乐也将很好玩。与TTS实验不同,我们的网络不是基于一个输入序列,告诉它怎么演奏音乐(如一篇乐谱);相反,我们只是简单地允许WaveNet任意生成一种音乐。当我们采用一个古典钢琴曲数据集来训练WaveNet时,它将生成一曲美妙乐章。

WaveNets将为TTS带来无数可能,大体上来讲,有生成音乐和模拟音频两类。事实上,直接运用深度神经网络一个时间步长一个时间步长地生成音乐,这种方法适用于所有16kHZ音频,这将是非常令人惊喜的。我们非常期待WaveNets未来将会带给大家的惊喜。

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:高斐

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-09-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018

    AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文...

    AI科技评论
  • 干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结

    AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领...

    AI科技评论
  • 业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

    AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文...

    AI科技评论
  • 【重磅】DeepMind发布最佳语音神经网络生成模型,与人类差距缩减50%以上

    【新智元导读】本文介绍的是WaveNet——一个原始音频波形深度模型。我们展示了,Wavenet能够生成模仿人类的语音,听起来要比现有最好的文本到语音转化系统更...

    新智元
  • [深度学习概念]·语音识别模型WaveNet介绍

    这篇文章介绍了WaveNet,一种原始音频波形的深度生成模型。我们展示了WaveNets能够生成模仿任何人类语音的语音,并且听起来比现有的最佳文本语音系统更自然...

    小宋是呢
  • 浅谈语音技术

    当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介...

    刘盼
  • 浅谈网络语音技术

    当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介...

    刘盼
  • 业界 | 深度学习也能实现「鸡尾酒会效应」:谷歌提出新型音频-视觉语音分离模型

    选自Google Research Blog 作者:Inbar Mosseri等 机器之心编译 在嘈杂的环境中,人们非常善于把注意力集中在某个特定的人身上,在心...

    机器之心
  • 12.21 VR 扫描:大魔王你行不行,沉寂两年就让我们看这样的产品?

    VRPinea
  • 6.14 VR扫描:苹果再获新专利,发力AR交互领域

    VRPinea

扫码关注云+社区

领取腾讯云代金券