前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Mozilla发布最大公共语音数据集Common Voice

Mozilla发布最大公共语音数据集Common Voice

作者头像
LiveVideoStack
发布2021-09-01 16:59:14
8400
发布2021-09-01 16:59:14
举报
文章被收录于专栏:音视频技术音视频技术

近日,Mozilla发布了当前可使用的,规模最大的公共语音数据集Common Voice,数据集涵盖18种语言,由42000多名贡献者提供的近1400小时的语音数据构成。

文 / George Roter

翻译 / 咪宝

原文

https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/

Mozilla发布了可供使用的最大人类语音数据集,包括18种不同的语言,累计记录了超过42,000多名贡献者的近1,400小时的语音数据。

从一开始,我们对Common Voice的愿景就是构建世界上最多样化的语音数据集,为构建语音技术进行优化。我们还做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。

今天,我们很高兴与大家分享我们的第一个多语种数据集,其中包含18种语言。包括英语、法语、德语和普通话(繁体),以及威尔士语和卡比尔语。总的来说,新的数据集囊括了超过42000人的大约1400个小时的语音片段。

在这个版本中,不断增长的Common Voice数据集目前是同类数据集中规模最大的,成千上万的人将他们的声音和原始的手写文字贡献给公共领域(CC0)。完整的数据集可以在Common Voice站点上(https://voice.mozilla.org/zh-CN/datasets)进行下载。

数据质量

Common Voice数据集不仅在其大小和许可模型(https://github.com/JRMeyer/open-speech-corpora)方面是独一无二的,而且在其多样性上也是独一无二的。它代表了一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。

这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED演讲中的TEDLIUM语料库是男性和女性的3倍)。

更常见的声音:8个月内从3种语言到22种语言

自2018年6月启用多语言支持以来,Common Voice已变得更加全球化,更具包容性。这已经超出了我们的预期:在过去的8个月中,社区积极响应该项目,以22种语言开展数据收集工作,在Common Voice网站上,还有70种语言正在进行中,令人难以置信。

作为一个社区驱动的项目,世界各地关心用自己的语言建立语音数据集的人们负责每一个新项目的启动——有些是热情的志愿者,有些是作为语言学家或技术专家日常工作的一部分。每一项工作都需要翻译网站,以允许投稿和添加句子阅读。

我们最新增加的语言包括荷兰语、Hakha-Chin语、世界语、波斯语、巴斯克语和西班牙语。在某些情况下,Common Voice上发布一种新语言代表着该语言在互联网上出现的开始。这些社区的努力证明了:所有语言,不仅仅是那些能够为科技公司带来高收入的语言都值得成为代表。

我们将继续与这些社区合作,确保他们的声音成为代表,甚至帮助他们自己开发语音技术。本着这种精神,我们最近与Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在基加利联合主办了一场创意黑客马拉松,为Kinyarwanda创建了一个语音语料库,为卢旺达当地的技术人员开发基于他们自己语言的开源语音技术奠定了基础。

改进贡献者的体验,包括可选配置文件

Common Voice网站是我们构建语音数据集的主要工具之一,这些数据集对语音交互技术非常有用。它今天的样子是一个不断迭代的过程产生的结果。我们听取了社区对有关贡献者痛点的反馈,同时也进行了可用性研究,以使得贡献、投稿更容易、更有吸引力、更有趣。

参与贡献的人不仅可以在录制和验证中看到每种语言的进度,而且还改进了不同片段之间的提示; 新的功能,以审查,重新记录,并跳过剪辑作为一个集成部分的经验;在说话与倾听之间快速切换; 以及选择退出会话的功能。

我们还添加了创建已保存配置文件的选项,允许参与者跟踪多种语言的进度和指标。提供一些可选的人口统计信息同时改善了用于训练语音识别准确度的音频数据。

Common Voice最初作为概念证明原型,在过去的一年中一直在协作迭代。

授权去中心化的产品创新:马拉松而非冲刺

Mozilla的目标是建立一个更加多样化和创新的语音技术生态系统。我们的目标是既发布自己的语音产品,同时也支持研究人员和小型玩家。通过Common Voice提供数据只是其中的一部分,开源的语音到文本和文本到语音引擎以及由我们的机器学习小组驱动的、经过训练的DeepSpeech项目模型也是其中的一部分。

我们知道这需要时间,我们相信尽早发布和公开工作能够吸引技术人员、组织和公司的参与和反馈,从而使这些项目更加健壮。目前,这两个项目都处于研究阶段,DeepSpeech在产品化方面取得了很大的进步。

到目前为止,有了来自普通语音和其他来源的数据,DeepSpeech在技术上能够“实时”地将语音精确地转换为文本,即在流式传输音频时实时转换。这允许当讲座、电话交谈、电视节目、广播节目和其他直播流发生时进行转录。

DeepSpeech引擎已经被许多非mozilla项目所使用:例如,在Mycroft中,一个开源的基于语音的助手;在利昂,一个开源的个人助理;在电话内线交换机(FusionPBX)中,安装在私人机构并为其服务的一种电话交换机,用于记录电话信息。在未来,Deep Speech将针对更小的平台设备,如智能手机和车载系统,开启Mozilla内外的产品创新。

对于Common Voice,我们在2018年的重点是构建概念,使其成为能够被任何语言社区使用、优化网站和构建强大后端(例如,帐户系统)的工具。在接下来的几个月里,我们将集中精力尝试不同的方法,通过社区努力和新的合作伙伴关系来增加我们能够收集的数据的数量和质量。

我们的总体目标仍然是:为世界上所有寻求构建和使用语音技术的人提供更多、更好的数据。因为竞争和开放有利于创新。因为较小的语言是一个访问和公平的问题。因为隐私和控制很重要,尤其是对你的声音。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 LiveVideoStack 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档