人们在使用tts的过程中,经常会有定制化的需求。 比如,bot的开发者希望自己的bot能够具有独特的音色,比如是个小孩,或者名人的声音,又或者是方言的支持。 而当前认知服务只提供了标准的男女生声音。 对于这部分需求,我们可以通过定制TTS语音的方式解决。
定制TTS声音的操作流程如下:
定义该声音需要使用的场景, 选定好发音人。这个过程需要需求方对希望的发音人有明确的要求,同时发音人要有能力长时间录音。
数据采集。发音人通过比较专业的录音设备,用目标场景相关的文本和语气完成一定数量的录音。 这个时间跟录音数据量有关,可能需要几周到几个月,对应500到上万句的录音。 数据质量要尽量保持一致性的风格。 如果需要情感类的语音,也需要采集相应的情感语料。
模型训练。对于采集的数据,我们需要进行数据处理,分析,进行机器学习模型训练。这个过程会尽量自动化。
模型评估。需求方对生成的模型进行评估,发现问题。
模型调优。相关的问题,可以采取对数据进行进一步清洗, 添加更多的数据以及标注的方式进行提高。 通常这适用于需要非常高的质量的场景。
如果你或者你的客户有定制TTS的需求,欢迎联系进行商务合作。
领取专属 10元无门槛券
私享最新 技术干货