文档中心>声音复刻>快速入门>训练数据准备指引

训练数据准备指引

最近更新时间:2025-09-05 15:58:21

我的收藏

一、复刻流程




说明:
基础版声音复刻流程请参见 声音复刻控制台

二、训练数据

1. 数据准备前
录音环境:建议使用和真实应用场景一致的环境进行录音采集,录音环境中避免出现回音、背景音乐、吵闹人声的情况。
录音演员:定制方需拥有录音演员使用授权。
录音设备:录音过程中,使用同一个录音设备,避免电流声等杂音。
2. 数据准备中
录音质量:录制音频保证干净清晰,所有音频的情绪、语速、音量、音高一致稳定,避免语速忽快忽慢、音量忽大忽小;避免情绪表达过于夸张;朗读不出现卡顿、读错问题;避免方言口音朗读,避免音频包含口水音或较大的换气声。
录音风格:按照正常业务场景对应的音色风格自然表达。
音频格式:单/双声道16bit 固定采样率16k以上,44100、48000最优,音频非压缩保存,音频格式为无损音频 wav 格式。
录音语种:中文、英文;场景包含英文播报的,需要单独提供中文音频、英文音频、中英文音频。
数据确认:音频准备过程中,建议提供部分样例,由产品经理确认是否符合业务要求。
3. 数据准备后
数据检查:数据文件提交给产品经理,进行数据检查,确保发音风格统一、数据质量可用。数据检查、筛选无误后,由产品经理给出声音定制排期。
说明:
基础版声音复刻数据准备后可直接在 声音复刻控制台 创建训练任务。

三、标注&训练

标注及训练由腾讯完成,一般周期3 - 4周。

四、交付验收

验收文本:客户提供20句验证文本模板,用于验证效果。
模型优化:按报价包含的次数支持,超出需要额外报价付费,参考小规模定制报价。
可优化范围,以下为客观规则化播报,与定制模型无关,语音合成服务本身会持续优化:
a. 多音字播报,如「一行白鹭上青天」中的行(hang2);
b. 特殊姓名,如「华」hua4;
c. 专有名词,如「腾讯」、「深圳大学」;
d. 专业术语,如「k8s」、「SLA」;
e. 时间,如「2022-3-21」、「19:01:02」;
f. 电话号码,如138****7834、010-*****987;
g. 数学,如3/4、0.18、23.78%;
h. 符号单位:如「4:3」。
不可优化范围,以下为主观效果或个性化需求:
a. 情绪不可优化,需根据场景提前确认录音情绪,如金融催收、电商客服、武侠小说等;一种情绪为一个音色,如需提供多种情绪需要定制多个音色;
b. 语速不可优化,需要音频语速一致,tts接口通过SSM参数支持微调;
c. 音量不可优化,需要音频的音量一致,tts接口通过SSM参数支持微调;
d. 若音频采用和原始录音拼接,无法保证拼接效果,建议采用整句合成或全量合成;
e. 特定文本按特殊播报的,如 sanzhang@tencent.com 会按照拼音播报却要单个字母播报。