声音复刻训练数据准备指引

一、复刻流程    
﻿
﻿
﻿
说明：
基础版声音复刻流程请参见 声音复刻控制台。
二、训练数据
1. 数据准备前
录音环境：建议使用和真实应用场景一致的环境进行录音采集，录音环境中避免出现回音、背景音乐、吵闹人声的情况。
录音演员：定制方需拥有录音演员使用授权。
录音设备：录音过程中，使用同一个录音设备，避免电流声等杂音。
 2. 数据准备中
录音质量：录制音频保证干净清晰，所有音频的情绪、语速、音量、音高一致稳定，避免语速忽快忽慢、音量忽大忽小；避免情绪表达过于夸张；朗读不出现卡顿、读错问题；避免方言口音朗读，避免音频包含口水音或较大的换气声。
录音风格：按照正常业务场景对应的音色风格自然表达。
音频格式：单/双声道16bit 固定采样率16k以上，44100、48000最优，音频非压缩保存，音频格式为无损音频 wav 格式。
录音语种：中文、英文；场景包含英文播报的，需要单独提供中文音频、英文音频、中英文音频。
数据确认：音频准备过程中，建议提供部分样例，由产品经理确认是否符合业务要求。
 3. 数据准备后
数据检查：数据文件提交给产品经理，进行数据检查，确保发音风格统一、数据质量可用。数据检查、筛选无误后，由产品经理给出声音定制排期。
说明：
基础版声音复刻数据准备后可直接在 声音复刻控制台 创建训练任务。
三、标注&训练
标注及训练由腾讯完成，一般周期3 - 4周。
四、交付验收
验收文本：客户提供20句验证文本模板，用于验证效果。
模型优化：按报价包含的次数支持，超出需要额外报价付费，参考小规模定制报价。
可优化范围，以下为客观规则化播报，与定制模型无关，语音合成服务本身会持续优化：
a. 多音字播报，如「一行白鹭上青天」中的行（hang2）；
b. 特殊姓名，如「华」hua4；
c. 专有名词，如「腾讯」、「深圳大学」；
d. 专业术语，如「k8s」、「SLA」；
e. 时间，如「2022-3-21」、「19:01:02」；
f. 电话号码，如138****7834、010-*****987；
g. 数学，如3/4、0.18、23.78%；
h. 符号单位：如「4:3」。
不可优化范围，以下为主观效果或个性化需求：
a. 情绪不可优化，需根据场景提前确认录音情绪，如金融催收、电商客服、武侠小说等；一种情绪为一个音色，如需提供多种情绪需要定制多个音色；
b. 语速不可优化，需要音频语速一致，tts接口通过SSM参数支持微调；
c. 音量不可优化，需要音频的音量一致，tts接口通过SSM参数支持微调；
d. 若音频采用和原始录音拼接，无法保证拼接效果，建议采用整句合成或全量合成；
e. 特定文本按特殊播报的，如 sanzhang@tencent.com 会按照拼音播报却要单个字母播报。

训练数据准备指引

本页目录：

一、复刻流程

二、训练数据

1. 数据准备前

2. 数据准备中

3. 数据准备后

三、标注&训练

四、交付验收

可优化范围，以下为客观规则化播报，与定制模型无关，语音合成服务本身会持续优化：

不可优化范围，以下为主观效果或个性化需求：