前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >迄今最大公开语音数据集上线,汉语部分还不够强,需要你来帮忙

迄今最大公开语音数据集上线,汉语部分还不够强,需要你来帮忙

作者头像
量子位
发布2019-04-23 15:03:53
6590
发布2019-04-23 15:03:53
举报
文章被收录于专栏:量子位量子位
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

今天,Mozilla发布了迄今为止最大的公开语音数据集Common Voice,内容全部来自志愿者的贡献。它的总时长达到了1368小时,包含18种语言,其中也有汉语

数据集中的每一条都包含了一组独立MP3录音及相应的文字文件,同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。

Mozilla希望此举能促进语音技术的创新与健康的商业竞争。

如何下载

现在去官方网站:

https://voice.mozilla.org/zh-CN/datasets

在上面填入自己的邮箱,内容会以tar.gz压缩包的形式下载到本地,而且可以按照不同语种分类下载。

其中英语部分的素材最多,总共达到了803小时,文件体积22GB。而汉语(中国台湾)现在的素材比较少,只有28小时、800MB。

但是大陆地区的汉语暂时还没上线,它的目标是录入5000句话,现在只有584句,只完成了目标的10%多。希望大家积极去做贡献,让它早日上线。

为汉语数据集做贡献

除了下载数据外,官方网站还提供了语音收集和验证的选项,你也可以为这个数据集贡献自己的一份力量。

打开电脑麦克风和扬声器,按照屏幕上的句子读出来,为数据集录入语音素材。你还能聆听别人的录音,验证数据的正确性。

对于未上线的大陆中文,你可以在网站上填写自己的邮件地址,成为提供资源的志愿者,Mozilla团队会在第一时间通知你最新进展。

特别之处

Common Voice是由志愿者按照屏幕文字录入的语音内容组成。

也许有人要问,有声读物本身就包含语音和文字的对照,为何Mozilla还要花大力气去做Common Voice?

因为有声读物作为语音识别的训练数据集存在着一些局限性。

首先,书面与口语非常大的不同。

其次,有声读物通常是在安静的录音棚内录制,录制设备质量更好,音频内容也很干净。而现实生活中的语音环境十分复杂。

最后,阅读时的语气和节奏也与平时说话不同。

其他语音数据集推荐

Mozilla还为大家提供了其他的语音数据集,有需要的同学请自取。

有声读物英文语料库LibriSpeech: https://www.openslr.org/12

TED演讲语料库TED-LIUM: https://www.openslr.org/51/

讲话转录文本语料库VoxForge: http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/

翻译和口语音频的大型数据库Tatoeba: https://tatoeba.org/eng/downloads

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如何下载
  • 为汉语数据集做贡献
  • 特别之处
  • 其他语音数据集推荐
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档