前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >亚马逊利用神经TTS系统,仅需几个小时即可模拟独特的讲话风格

亚马逊利用神经TTS系统,仅需几个小时即可模拟独特的讲话风格

作者头像
AiTechYun
发布2018-12-18 15:07:51
1.2K0
发布2018-12-18 15:07:51
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

编译:chux

出品:ATYUN订阅号

厌倦了Alexa沉稳,单调的语调?现在,由于一种新的AI技术,亚马逊可能很快就能够将新的讲话风格推广到其语音助手。

在一篇新发表的论文“Effect of data reduction on sequence-to-sequence neural TTS”和随附的博客文章中,亚马逊详细介绍了一种文本到语音(TTS)系统,该系统可以学习采用一种新的讲话风格,比如新闻播音员的风格。只需几个小时的训练,就可以像新闻播报员那样讲话。传统方法需要聘请配音演员,并以目标风格朗读数十小时。

“对于用户而言,神经网络产生的合成语音听起来比通过连接方法产生的语音更自然,这种方法将存储在音频数据库中的短语音片段串联起来,”亚马逊应用科学经理Trevor Wood写道,“随着我们的系统提供的灵活性增加,我们可以轻松改变合成语音的讲话风格。”

NTTS架构

亚马逊的AI模型,称为神经TTS,或简称NTTS,由两部分组成。第一部分是一个生成神经网络,它转化音素序列,区分一个词和另一个词的声音单位到声谱图(一种声音频率谱,视觉表示随时间变化)的序列中,如pad和patp中的p,b,d和t。

第二个部分是声音编码器,它可以转换那些频谱图成一个连续的音频信号,特别是有频带的mel-spectrogram,强调人脑在处理语音时使用的特征。

Wood指出,现象到光谱图解释器网络是序列到序列的,这意味着它不仅仅从相应的输入计算输出,而且考虑它在输出序列中的位置。除了“风格编码”之外,亚马逊的科学家使用现象序列和相应的mel-spectrogram序列对其进行训练,后者确定了训练示例中使用的特定讲话风格。

模型的输出被输入声音编码器,产生高质量的语音波形。独特的是,声音编码器可以从任何扬声器中获取mel-spectrogram,无论它们是否在训练时间内被看到,并且它不需要使用扬声器编码。

结果,一种模型训练方法,结合了大量中性风格的语音数据,只需几小时的所需风格的补充数据,以及能够区分语音元素的AI系统,既是独立的讲话风格,风格又独特。

亚马逊倾听者调查结果

“当在操作过程中呈现讲话风格的代码时,网络会预测适合该风格的韵律模式,并将其应用于单独生成的,风格不可知的表示,”Wood解释道,“通过相对较少的额外训练数据实现的高质量性能,可以快速扩展演讲风格。”

根据亚马逊的研究,听众更倾向于使用NTTS产生的声音,而不是通过连接合成的声音。

Wood表示,“对中性NTTS的偏好,反映了用神经生成方法将一般语音合成质量提高的广泛报道,NTTS新闻播音员语音的进一步改进,反映了我们系统能够捕捉与文本相关的风格。”这项新的研究是在Alexa的耳语模式首次亮相之后进行的。

论文:arxiv.org/abs/1811.06315

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档