首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

学界 | 语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet

最近,百度硅谷人工智能实验室的研究员提出了 ClariNet,一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型。WaveNet 是能够完美模仿人类声音的最前沿语音合成技术(Google I/O 大会所展示的超逼真合成语音的背后技术)。自从其被提出,就得到了广泛的离线应用。但由于其自回归(autoregressive)的特点,只能按时间顺序逐个生成波形采样点,导致合成速度极慢,无法在 online 应用场合使用。ClariNet 中所提出的并行波形生成模型基于高斯逆自回归流(Gaussian inverse autoregressive flow),可以完全并行地生成一段语音所对应的原始音频波形。比起自回归的 WaveNet 模型,其合成速度提升了数千倍,可以达到实时的十倍以上。

00

系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述

编者按:语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。

02
领券