Google发布云端文字转语音SDK：支持12种语言，32种声音识别

BestSDK

发布于 2018-04-19 10:14:25

3.3K0

发布于 2018-04-19 10:14:25

文章被收录于专栏：BestSDK

Google的文字转语音（Text-To-Speech）功能原本使用在Google助理或是GoogleMap等服务上，现在Google推出云端文字转语音服务，开发者也可以在自己的应用程序上添加语音功能了。

另外，Google还表示，云端文字转语音使用了高传真人声合成技术WaveNet，让电脑发音更像真正的人声。

Google表示，不少开发者向他们反应，也想要将文字转语音的功能，使用在自己的应用上，因此他们把这项功能放到Google云端平台，推出云端文字转语音服务。

开发者现在可以将云端文字转语音服务用在语音回应系统，像是呼叫中心（IVRs），也能在电视、汽车或是机器人等物联网装置，建置语音回应功能，或是在以文字为主的媒体上，将文章与书转成音讯。

Google云端文字转语音使用了DeepMind所创建的声音生成模型WaveNet，这个高传真的人声合成技术，可以让电脑合成的语音更自然。

WaveNet是2016年DeepMind发表的技术，但是到了今日已有很大的进步。以速度来说，WaveNet现在Google的云端TPU基础设备上运作，比起初代，产生原始波形的速度快了一千倍，而且产生1秒钟的语音只需要50毫秒。

除了速度提高千倍，产生语音的拟真度也得到了长足的提升，WaveNet能够建立每秒24，000样本的高传真波形，且采样分辨率从原本8位元提升到了16位元，因此所得到的人声语音品质更好更自然。

Google表示，比起市面上的电脑语音，人们对WaveNet所合成的语音有更高的接受度。而在语音测试中，WaveNet合成的新美国英语语音，平均得分4.1，比起标准声音好20％，也与真实人类语音差距减少70％

云端文字转语音功能现在支援32种声音12种语言，开发者可以客制化音调、语速以及音量增益，并且能转存为MP3或是WAV等各式音讯格式。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-10，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BestSDK 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度