声音复刻(Voice Cloning)为企业提供快速、批量、自动化的定制音色服务。声音复刻基于客户上传的少量录音数据,自动进行模型训练,实现对发音人音色的定制,并可通过 语音合成 输出对应的音色音频。声音复刻广泛适用于数字人、语音社交、资讯播报、短视频制作等场景。
产品功能
产品种类
腾讯云支持两种类型的复刻:一句话版声音复刻和基础版声音复刻。
一句话版声音复刻所需训练语料少(5 - 15s),合成超拟人,表现力极强。
基础版声音复刻需要10 - 20分钟语料输入,合成时延低,自然度相似度高,极具性价比。
语种支持
可支持中文普通话、英文和中英混说。
语速调整
支持0.6、0.8、1.0、1.2、1.5、2.0多种倍速率的合成语速。
音量调整
支持11个档次(0 - 10)的合成音量。
支持接口类型
复刻类型 | 基础语音合成 (非流式输出) | 实时语音合成 (流式输出) | 流式文本语音合成 (双向流式) |
一句话版声音复刻 | 暂不支持 | 支持 | 支持 |
基础版声音复刻 | 支持 | 支持 | 支持 |
采样率
支持8K、16K、24K采样率的合成效果。