首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用于语音训练的声音数据集:万句中文标准女声音库,免费

多行业语音合成解决方案——基于不断改进的语音合成前端模型,结合高精度自动预处理技术对数据进行处理和建模,推出适合多行业、多领域、多场景的智能语音解决方案,更深入行业,更接近人声。

中文标准女声音库(10000句)

本次开放的数据仅支持非商用!

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。

TTS语音合成技术是实现人机语音通信关键技术之一。使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场。和语音识别ASR相比,语音合成的技术相对来说要成熟一些,是应用范围较广的技术。

随着人工智能产业的飞速发展,语音合成系统也得到了更加广泛的应用。除了语音合成初期的清晰度、可懂度以外,人们对语音合成的自然度、节奏感以及音质的要求也越来越高。而语音库的质量也是决定语音合成效果的关键因素。

【中文标准女声音库】采集对象的音色风格知性阳光、亲切自然,专业标准普通话女声,听感乐观积极。录制环境为专业录音室和录音软件,录音环境和设备自始至终保持不变,录音环境的信噪比不低于35dB;单声道录音,用48KHz 16比特采样频率、PCM WAV格式。录音语料涵盖各类新闻、小说、科技、娱乐、对话等领域,语料设计综合语料样本量,力求在有限的语料数据量内,对音节音子、类型、音调、音连以及韵律等尽可能全面的覆盖。根据合成语音标注标准对音库进行文本音字校对、韵律层级标注、语音文件边界切分标注。

技术参数

数据内容:中文标准女声语音库数据

录音语料:综合语料样本量;音节音子的数量、类型、音调、音连以及韵律等进行覆盖。

有效时长:约12小时

平均字数:16字

语言类型:标准普通话

发音人:女;20-30岁;声音积极知性

录音环境:声音采集环境为专业录音棚环境:1)录音棚符合专业音库录制标准;2)录音环境和设备自始至终保持不变;3)录音环境的信噪比不低于35dB。

录制工具:专业录音设备及录音软件

采样格式:无压缩PCM WAV格式,采样率为48KHz、16bit

标注内容:音字校对、韵律标注、中文声韵母边界切分

标注格式:文本标注为.txt格式文档;音节音素边界切分文件为.interval格式

质量标准:1. 语音文件为48k 16bit wav格式,音色、音量、语速一致,无漂零无截幅;2.标注文件字准率不低于99.8%;3.音素边界错误大于10ms的比例小于1%;音节边界准确率大于98%.

存储方式:FTP存储

文件格式:音频文件:WAV 文本标注文件:TXT 边界标注文件:INTERVAL

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190125A1CGCR00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券