一、定制素材自检项
声音复刻需提交一段100句文本的音频,提交前请务必逐条检查以下自检项:
1. 无复刻人外的其他人声录入。
2. 音频收音音量适中,无明显混响、底噪,及其他噪声。
3. 使用中文,普通话录制;文本有一定丰富性,不能存在大量的语句重复。
音频格式要求:
1. 所有音频需转化为 wav 格式,并压缩成 zip 包提交。
2. 直接选中所有音频文件直接压缩为 zip 包(不可新建文件夹后压缩),压缩包不超过1G。
3. 每条音频采样率须是24K及以上,单条音频长度不超过1小时。
4. 音频命名无空格或者特殊字符。
二、音频录制指引(视频版)
三、音频录制指引(文字版)
录制内容
按停顿-读-停顿的循环过程,依次朗读100句文本并生成音频。
录制文本:可自行选择自己领域熟悉的文本,也可参照附件参考文本,语句越多训练效果越好。
文本要求:中文汉字文本;单句子最长不超过50字,平均句子控制在20字左右。
音频个数:可一整段或分为几段音频均可,最多不超过10个。
音频格式:录制时推荐无损 WAV 格式(具体格式不限制),不低于24k采样率。
注意事项
环境要安静无杂音,建议麦克风有防风罩且与嘴的距离在10cm内,音量保持适中;
尽量避免在光滑墙面、地板房间录制,如大面积玻璃墙面或大理石地板房间,以避免引入混响;
提前熟悉朗读文本,避免录制断断续续;
注意尽量不要喷麦;
每个句子结束自然停顿;句子中按照文本正常表达进行自然停顿;
按照本身说话的风格,有韵律的朗读;
吐字清晰,保证台词读音正确;
除了讲话之外,不要做其余动作,避免多余声音(如衣服摩擦等声音、吞咽声)。
注意:
定制音频的效果和原视音频的质量息息相关,若音频质量好,最终的声音复刻效果也越好;音频质量差,最终定制效果也会差。
如:原音频中包含噪声,最终定制的效果也将包含噪声。
四、典型问题
爆音
避免出现爆音,通常离麦克风过近,麦克风没有防喷麦海绵,或录音语音音量过大会出现爆音。
抿嘴音,口水音、喘息及喷麦声
避免录音过程中过多闭口张口或吞咽导致的抿嘴音、口水音减少较明显的喘息声,喷麦声。
噪声及混响
避免麦克风离嘴部过远,避免在有明显背景噪声的环境录音,如有其他背景人声,空调声,背景音乐等;避免引入混响,通常在较多玻璃光滑墙壁房间会有较强混响。
频谱缺失
避免采用自带增强或降噪等处理模块的录音软件,避免导致对原始语音的损伤及频谱频段缺失的录音软件,避免导致对原始语音的损伤及频谱频段缺失。
五、音质检测接口指标说明
信噪比:音频中有用信号能量与噪声能量的比值,越大越好,该指标大于等于25可认为合格。
信噪比不达标的原因:
可能是由于录制环境的噪声比较大,可换个更安静的环境进行录制;
可能是由于嘴巴离麦克风太远,导致有用信号能量不够,可适当调整麦克风与嘴巴的距离,以10cm的距离为宜。(距离过近容易导致喷麦或者截幅)
混响指数:音频中有用信号能量与回声能量的比值,越大越好,该指标大于等于30可认为合格。
混响指数不达标的原因:
可能是录制环境不佳产生了回声,大的空间、硬质的墙面容易产生回声,尽量选择空间较小、软包较多地方进行录制,例如卧室、车内等。
截幅:截幅表示部分音频的幅值超过了最大允许范围,通俗来说就是音频的音量过大了;该指标小于等于10可认为合格。
截幅不达标的原因:
一般是由于录制时嘴巴离麦克风过近,可适当调整麦克风与嘴巴的距离,以10cm的距离为宜;
也可能是录制软件的音量设置过大造成的,可以通过调整录制软件的音量来解决。
截幅不达标的音频的波形图示意:
截幅达标的音频的波形图示意:
部分音频示例:
附件中罗列了“高质量音频”、“混响不达标”、“信噪比不达标”、“信噪比和混响均不达标”、“音频存在截幅”的示意音频,供下载试听。
音频示例.zip(1.1MB)