专栏首页量子位迄今最大公开语音数据集上线,汉语部分还不够强,需要你来帮忙

迄今最大公开语音数据集上线,汉语部分还不够强,需要你来帮忙

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI

今天,Mozilla发布了迄今为止最大的公开语音数据集Common Voice,内容全部来自志愿者的贡献。它的总时长达到了1368小时,包含18种语言,其中也有汉语

数据集中的每一条都包含了一组独立MP3录音及相应的文字文件,同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。

Mozilla希望此举能促进语音技术的创新与健康的商业竞争。

如何下载

现在去官方网站:

https://voice.mozilla.org/zh-CN/datasets

在上面填入自己的邮箱,内容会以tar.gz压缩包的形式下载到本地,而且可以按照不同语种分类下载。

其中英语部分的素材最多,总共达到了803小时,文件体积22GB。而汉语(中国台湾)现在的素材比较少,只有28小时、800MB。

但是大陆地区的汉语暂时还没上线,它的目标是录入5000句话,现在只有584句,只完成了目标的10%多。希望大家积极去做贡献,让它早日上线。

为汉语数据集做贡献

除了下载数据外,官方网站还提供了语音收集和验证的选项,你也可以为这个数据集贡献自己的一份力量。

打开电脑麦克风和扬声器,按照屏幕上的句子读出来,为数据集录入语音素材。你还能聆听别人的录音,验证数据的正确性。

对于未上线的大陆中文,你可以在网站上填写自己的邮件地址,成为提供资源的志愿者,Mozilla团队会在第一时间通知你最新进展。

特别之处

Common Voice是由志愿者按照屏幕文字录入的语音内容组成。

也许有人要问,有声读物本身就包含语音和文字的对照,为何Mozilla还要花大力气去做Common Voice?

因为有声读物作为语音识别的训练数据集存在着一些局限性。

首先,书面与口语非常大的不同。

其次,有声读物通常是在安静的录音棚内录制,录制设备质量更好,音频内容也很干净。而现实生活中的语音环境十分复杂。

最后,阅读时的语气和节奏也与平时说话不同。

其他语音数据集推荐

Mozilla还为大家提供了其他的语音数据集,有需要的同学请自取。

有声读物英文语料库LibriSpeech: https://www.openslr.org/12

TED演讲语料库TED-LIUM: https://www.openslr.org/51/

讲话转录文本语料库VoxForge: http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/

翻译和口语音频的大型数据库Tatoeba: https://tatoeba.org/eng/downloads

本文分享自微信公众号 - 量子位(QbitAI),作者:关注前沿科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

    网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦。

    量子位
  • 8种寻找机器学习数据集的方法 | 附数据集资源

    近日,亚马逊AWS高级技术顾问Will Badr介绍了8种寻找机器学习数据集的方法。

    量子位
  • 一个耗资数百万的AI数据集,和它背后的90后超人们

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI ? 不够智能的人工智能,往往被调侃成“人工智障”,但不是所有人都清楚知道“智障”的原因。 199...

    量子位
  • PDF转图片,在线PDF转JPG/PNG

    使用pdf.js预览图片,pdf.js将pdf通过canvas将每一页渲染出来,然后我们通过canvas的toDataURL方法保存为jpg或png格式。

    vivec
  • 最擅长玩《毁灭战士》的AI开源了 | 来自CMU的论文&代码

    李林 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 最擅长玩《毁灭战士(DOOM)》的那个AI,最近开源了。 它叫Arnold,来自卡耐基梅隆大学“...

    量子位
  • SAP最佳业务实践:ETO–项目装配(240)-5劳动力计划

    image.png CMP2劳动力计划 一个工作中心中可能有多个人力资源,如果能力计划是在工作中心层上的,那么能力不会分配个某个人。因此也不可能看到详细的和有意...

    SAP最佳业务实践
  • 人工智能胶囊系统以最先进的精度区分物体

    强有力的证据表明,人类总是依靠坐标系或参考线和曲线来推测空间中点的位置。这与广泛使用的计算机视觉算法不同,后者往往通过物体特征的数字表示来区分物体。为了寻求一种...

    AiTechYun
  • 基于线性SVM的CIFAR-10图像集分类

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

    红色石头
  • 鹅厂老司机教你学习Innodb

    点击上方蓝字每天学习数据库 | 本文作者:陈俊熹,腾讯云数据库研发工程师,主要负责腾讯云MySQL数据库研发工作。 ---- Innodb存储引擎是目前MyS...

    腾讯云数据库 TencentDB
  • 剑指offer(47-67题)终极篇

    思路: 这题首先要理解题意吧。题目就是给了两个操作,insert和FirstAppearingOnce两个函数,至于一些其他需要你自己实现。你可以选择字符数组、...

    bigsai

扫码关注云+社区

领取腾讯云代金券