语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。 提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景,提升人机交互体验,提高语音类应用构建效率。
产品功能
声音效果
腾讯云语音合成目前支持男女共53种声音效果,可以满足小说、客服、导航、通知等多种应用场景。
合成方式
腾讯云语音合成提供两类产品:通用语音合成和长文本语音合成。其中,通用语音合成包含基础语音合成、实时语音合成和流式文本语音合成三种合成方式。
通用语音合成:
基础语音合成:非流式语音合成,整段文本合成音频后一次性下发。适用于较短文本且无实时性要求的场景;
实时语音合成:流式语音合成,一次性输入文本,流式返回音频。适用于对实时性要求较高的场景;
流式文本语音合成:流式语音合成,支持流式输入文本,流式返回音频,适用于大语言模型的逐字输入场景。
长文本语音合成:非流式语音合成,可支持较长文本的音频合成(10万字以内),适用于有声阅读、新闻媒体等场景。
语种
语音合成支持纯中文、纯英文、中英文混合、粤语内容的合成。
参数配置
语音合成支持音量、语速、采样率的设置。语速从0.6倍到1.5倍可选,适配各种客户场景。采样率可选 8K 和 16K,同时支持 App 和电话线路。