前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >WenetSpeech数据集的处理和使用

WenetSpeech数据集的处理和使用

作者头像
夜雨飘零
发布2021-12-07 14:49:06
1.8K0
发布2021-12-07 14:49:06
举报
文章被收录于专栏:CSDN博客CSDN博客

WenetSpeech数据集

10000+小时的普通话语音数据集,使用地址:PPASR

WenetSpeech
WenetSpeech

WenetSpeech数据集 包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

  • 所有数据分为 3 类,如下表所示:

数据分类

时长(小时)

可信度

可用系统

强标签

10005

>=0.95

监督训练

弱标签

2478

[0.6, 0.95]

半监督或噪音训练

无标签

9952

/

无监督训练或预训练

总共

22435

/

/

  • 领域、说话风格和场景将高标签分为 10 组,如下表所示:

领域

Youtube(小时)

Podcast(小时)

全部(小时)

有声读物

0

250.9

250.9

现场解说

112.6

135.7

248.3

纪录片

386.7

90.5

477.2

戏剧

4338.2

0

4338.2

采访

324.2

614

938.2

新闻

0

868

868

阅读

0

1110.2

1110.2

讨论

204

90.7

294.7

综艺

603.3

224.5

827.8

其他

144

507.5

651.5

总共

6113

3892

10005

  • 3个子集,即S,M并且L对不同的数据规模建设ASR系统

训练数据

可信度

时长(小时)

L

[0.95, 1.0]

10005

M

1.0

1000

S

1.0

100

  • 评估测试数据

评估数据

时长(小时)

来源

描述

DEV

20

互联网

专为一些需要在训练中设置交叉验证的语音工具而设计

TEST_NET

23

互联网

比赛测试

TEST_MEETING

15

会议

远场、对话、自发和会议数据集

  1. 本教程介绍如何使用该数据集训练语音识别模型,只是用强标签的数据,主要分三步。下载并解压WenetSpeech数据集,在官网 填写表单之后,会收到邮件,执行邮件上面的三个命令就可以下载并解压数据集了,注意这要500G的磁盘空间。
  2. 然后制作数据集,下载原始的数据是没有裁剪的,我们需要根据JSON标注文件裁剪并标注音频文件。在tools目录下执行create_wenetspeech_data.py程序就可以制作数据集了,注意此时需要3T的磁盘空间。--wenetspeech_json参数是指定WenetSpeech数据集的标注文件路径,具体根据读者下载的地址设置。
代码语言:javascript
复制
cd tools/
python create_wenetspeech_data.py --wenetspeech_json=/media/wenetspeech/WenetSpeech.json
  1. 最后创建训练数据,跟普通使用一样,在项目根目录执行create_data.py就能过生成训练所需的数据列表,词汇表和均值标准差文件。这一步结束后就可以训练模型了,具体看训练模型
代码语言:javascript
复制
python create_data.py

项目地址:https://github.com/yeyupiaoling/PPASR

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-11-30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • WenetSpeech数据集
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档