亚马逊利用神经TTS系统,仅需几个小时即可模拟独特的讲话风格

编译:chux

出品:ATYUN订阅号

厌倦了Alexa沉稳,单调的语调?现在,由于一种新的AI技术,亚马逊可能很快就能够将新的讲话风格推广到其语音助手。

在一篇新发表的论文“Effect of data reduction on sequence-to-sequence neural TTS”和随附的博客文章中,亚马逊详细介绍了一种文本到语音(TTS)系统,该系统可以学习采用一种新的讲话风格,比如新闻播音员的风格。只需几个小时的训练,就可以像新闻播报员那样讲话。传统方法需要聘请配音演员,并以目标风格朗读数十小时。

“对于用户而言,神经网络产生的合成语音听起来比通过连接方法产生的语音更自然,这种方法将存储在音频数据库中的短语音片段串联起来,”亚马逊应用科学经理Trevor Wood写道,“随着我们的系统提供的灵活性增加,我们可以轻松改变合成语音的讲话风格。”

NTTS架构

亚马逊的AI模型,称为神经TTS,或简称NTTS,由两部分组成。第一部分是一个生成神经网络,它转化音素序列,区分一个词和另一个词的声音单位到声谱图(一种声音频率谱,视觉表示随时间变化)的序列中,如pad和patp中的p,b,d和t。

第二个部分是声音编码器,它可以转换那些频谱图成一个连续的音频信号,特别是有频带的mel-spectrogram,强调人脑在处理语音时使用的特征。

Wood指出,现象到光谱图解释器网络是序列到序列的,这意味着它不仅仅从相应的输入计算输出,而且考虑它在输出序列中的位置。除了“风格编码”之外,亚马逊的科学家使用现象序列和相应的mel-spectrogram序列对其进行训练,后者确定了训练示例中使用的特定讲话风格。

模型的输出被输入声音编码器,产生高质量的语音波形。独特的是,声音编码器可以从任何扬声器中获取mel-spectrogram,无论它们是否在训练时间内被看到,并且它不需要使用扬声器编码。

结果,一种模型训练方法,结合了大量中性风格的语音数据,只需几小时的所需风格的补充数据,以及能够区分语音元素的AI系统,既是独立的讲话风格,风格又独特。

亚马逊倾听者调查结果

“当在操作过程中呈现讲话风格的代码时,网络会预测适合该风格的韵律模式,并将其应用于单独生成的,风格不可知的表示,”Wood解释道,“通过相对较少的额外训练数据实现的高质量性能,可以快速扩展演讲风格。”

根据亚马逊的研究,听众更倾向于使用NTTS产生的声音,而不是通过连接合成的声音。

Wood表示,“对中性NTTS的偏好,反映了用神经生成方法将一般语音合成质量提高的广泛报道,NTTS新闻播音员语音的进一步改进,反映了我们系统能够捕捉与文本相关的风格。”这项新的研究是在Alexa的耳语模式首次亮相之后进行的。

论文:arxiv.org/abs/1811.06315

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

【真·干货】你务必要搞清楚的十大数据挖掘知识点

数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结...

1183
来自专栏大数据文摘

从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

2354
来自专栏大数据文摘

让冰冷的机器看懂这个多彩的世界

3019
来自专栏新智元

【重磅】AI 自动研发机器学习系统,DeepMind 让算法学习强化学习(附论文)

【新智元导读】眼下,人工智能研发的一个大方向是用AI系统来自动化开发AI系统。虽然这一目标尚未实现,但目前的进展让已足够令人人震惊。本文介绍了最新的一些进展,包...

3748
来自专栏企鹅号快讯

计算机视觉:让冰冷的机器看懂多彩的世界

作者:微软亚洲研究院 链接:https://www.guokr.com/article/439945/ 2010年,来自斯坦福大学、普林斯顿大学及哥伦比亚大学的...

4589
来自专栏灯塔大数据

数据挖掘 | 避免弊端方法汇总大全,实用!

导语:数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难...

3556
来自专栏量化投资与机器学习

【Matlab量化投资】用数据包络分析和基因算法进行选股分析?你get了吗!(附源程序)

本文主要介绍用数据包络分析和基因算法按上市公司的基本面数据进行选股分析。其中基因算法用于选择基本面指标,数据包络分析对股票进行效率评分。‍‍‍‍‍ ‍由于代码较...

2308
来自专栏大数据文摘

AI = 神经网络?这8个技术就不是!

992
来自专栏机器之心

深度 | 让机器思考与互相理解:DeepMind提出机器心智理论神经网络ToMnet

2857
来自专栏算法channel

送6本精选的算法,机器学习,深度学习的书

1Discrete Mathematics and Its Applications 7th ? 计算机只能懂得离散(甚至是有限的语言),所以离散数学在当今的作...

3235

扫码关注云+社区

领取腾讯云代金券