首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

1400小开源语音数据集,你想要都在这儿

基于此,Mozilla 基金会认为,没有足够的数据开放给公众使用,将会扼杀科技创新,开放语音数据集则可以让更多人参与进来,让任何人都可以自由地使用该数据集,将语音技术嵌入到各种应用和服务。...另有网友花了时间验证了一些语音,他评论中表达了质疑称: 至少我能听出来的范围内,我没有听到任何句子说错了。不过,我确实遇到了大量非常糟糕的样本,以至于有些难以理解。...同样值得注意的是,MozillaDeepSpeech 模型的第一个版本使用 LibriSpeech 进行了训练和测试。...但是 Common Voice 的目标不是取代 LibreSpeech 或其他开放数据集(如 TED 演讲)作为训练数据集,而是它们的有益补充。...链接: https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset

2.2K10

Mozilla发布最大公共语音数据集Common Voice

在这个版本,不断增长的Common Voice数据集目前是同类数据集中规模最大的,成千上万的人将他们的声音和原始的手写文字贡献给公共领域(CC0)。...提供一些可选的人口统计信息同时改善了用于训练语音识别准确度的音频数据。 Common Voice最初作为概念证明原型,在过去的一年一直协作迭代。...我们知道这需要时间,我们相信尽早发布和公开工作能够吸引技术人员、组织和公司的参与和反馈,从而使这些项目更加健壮。目前,这两个项目都处于研究阶段,DeepSpeech在产品化方面取得了很大的进步。...到目前为止,有了来自普通语音和其他来源的数据,DeepSpeech在技术上能够“实时”地将语音精确地转换为文本,即在流式传输音频实时转换。...DeepSpeech引擎已经被许多非mozilla项目所使用:例如,Mycroft,一个开源的基于语音的助手;利昂,一个开源的个人助理;电话内线交换机(FusionPBX),安装在私人机构并为其服务的一种电话交换机

84030
您找到你想要的搜索结果了吗?
是的
没有找到

语音识别取得了两个里程碑进展 Mozilla发布开源语音识别模型和语音数据集

其中之一是Mozilla的开源语音识别模型首次发布,该模型的准确性接近人类听同样的录音的感知。其次,Mozilla还发布了世界上第二大公开的语音数据集,这是全球近2万名用户的贡献。...这就减少了用户的选择,也减少了初创公司、研究人员甚至更大的公司的可用功能,这些公司想要为他们的产品和服务提供支持。 这就是为什么MozillaDeepSpeech作为一个开放源码项目。...DeepSpeech项目地址:https://github.com/mozilla/DeepSpeech 发布的第一个版本,引擎包含了Python、NodeJS和一个命令行二进制代码的预构建包,开发者可以马上使用它来进行语音识别...构建世界上最多样化的公开语音数据集,为训练语音技术最优化 如此少的服务商业上可用的一个原因是缺乏数据。创业公司、研究人员或任何想要建立语音技术的人都需要高质量的、转录的语音数据来训练机器学习算法。...目标是让人们可以很容易地把他们的声音捐赠给一个公开的数据库,这样就可以建立一个语音数据集,每个人都可以用它来训练新的语音应用程序。

1.3K40

如何用 Keras 为序列预测问题开发复杂的编解码循环神经网络?

该函数有3个参数: n_input:输入序列的基数,例如每个时间步长的特征、字或字符的个数。 n_output:输出序列的基数,例如每个时间步长的特征、字或字符的个数。...例如,源序列可能是[1,2,3],目标序列是[4,5,6],则训练模型的输入和输出将是: Input1: ['1', '2', '3'] Input2: ['_', '4', '5'] Output:...下面这个predict_sequence()函数可以模型训练完成之后根据给定的源序列生成目标序列。 此函数需要5个参数: infenc:对新的源序列进行预测时使用的编码器模型。...cardinality:输出序列的基数,例如每个时间步长的特征、单词或字符的数量。 该函数返回包含目标序列的列表。 可伸缩序列问题 本章节,我们将提出一个可伸缩的序列预测问题。...这不仅对于打印生成的目标序列必需的,而且也可用于比较完全预测目标序列是否与预期目标序列相匹配。 one_hot_decode()函数将对已编码的序列进行解码。

2.2K00

PPASR流式与非流式语音识别

deepspeech2 0.077042 点击下载 free_st_chinese_mandarin_corpus(109小) deepspeech2 0.137442 点击下载 thchs_30(...34小) deepspeech2 0.062654 点击下载 超大数据集(1600多小时真实数据)+(1300多小时合成数据) deepspeech2 训练 训练 说明: 这里字错率是使用eval.py...自定义的语音数据需要符合以下格式,另外对于音频的采样率,本项目默认使用的是16000Hz,create_data.py也提供了统一音频数据的采样率转换为16000Hz,只要is_change_frame_rate...如果模型文件夹下包含last_model文件夹,训练的时候会自动加载里面的模型,这是为了方便中断训练的之后继续训练,无需手动指定,如果手动指定了resume_model参数,则以resume_model...65], loss: 13.76276, cer: 0.23105 [2021-09-17 08:43:07.817434] Test epoch: 24, time/epoch: 0:24:30.756875

1.2K10

解读 | 起底语音对抗样本:语音助手危险了吗?

但 Ian 的回击仍然不妨碍 Athalye 和 Carlini 成为名噪一的攻方代表。...Attacks on Speech-to-Text》一文给出了对 Mozilla 实现的百度 DeepSpeech 论文的一个白箱、定向、需要直接输入的攻击。...但是语音领域,尚没有成功的黑箱攻击。本文就是一个白箱攻击,攻击的对象是 Mozilla 去年年底开源的语音识别模型 DeepSpeech 0.1.0 版本。...Mozilla DeepSpeech 今年 1 月底更新了 v0.1.1,进行了一些依赖项调整,重新训练参数,但并没有改动主要结构。...版本的主要改动说明并未对此进行说明,但是,版本的提交者确实是知晓这篇论文的存在的,他提出了一个至今仍然开放的 issue(GitHub: https://github.com/mozilla/DeepSpeech

1.6K60

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

一些可以找到的例子功能非常强大,但非常复杂,如 MozillaDeepSpeech(基于百度的研究,使用 TensorFlow);抑或极其简单抽象,无法应用于实际数据。...,当使用神经网络进行语音识别,通过能进行字级转录的连接时间分类(Connectionist Temporal Classification,CTC)目标函数,我们可以丢弃音素的概念。...神经网络使用目标函数来最大化字符序列的概率(即选择最可能的转录),随后把预测结果与实际进行比较,计算预测结果的误差,以训练不断更新网络权重。...这种典型的语音数据转换需要计算 13 位或 26 位不同倒谱特征的梅尔倒频谱系数(MFCC)。转换之后,数据被存储为时间(列)和频率系数(行)的矩阵。 ?...注意:几百小的音频也需要大量时间来进行训练,即使你有一块强大的 GPU。 ?

1.1K90

DeepMind推出GAN-TTS:用生成对抗网络实现高保真语音

语言特征对语音和持续时间信息进行编码,而音调由对数基本频率对数F0表示,总共有567个功能。 没有使用真实的持续时间和音调来进行主观评估;相反,研究人员使用了单独模型预测的持续时间和音高。 ?...数据集由包含单个序列的可变长度音频片段组成,由专业配音演员用北美英语说出。为了进行培训,使用2秒的采样窗口(过滤出较短的示例)以及相应的语言功能。过滤后的数据集的总长度为44小。...研究人员最好的模型WaveNet和Parallel WaveNet上获得的分数要比强基线差,但可比。 ? 但是,这种性能尚未使用对抗技术实现,并且仍然非常好,尤其是与参数文本到语音模型相比。...与最新的文本语音转换模型不同,GAN-TTS经过对抗训练,生成的生成器是前馈卷积网络。 这允许非常有效的音频生成,这在实际应用很重要。...由于它们基于公开可用DeepSpeech识别模型,因此它们将可用于机器学习社区。研究人员的定量结果以及对生成样本的主观评估表明,使用GAN进行文本到语音转换的可行性。

1.9K20

ICLR 2020 | 使用GAN进行高保真语音合成

3、模型细节 (1)生成器 本文使用的生成器G的结构如下图所示: G的输入是语言和音调信息200Hz的序列,输出是24kHz的原始波形图。...5 实验 1、 数据集 本文提出的文本语音转换模型包含语言特征和音调信息的高保真人类语音上进行训练。语言特征对语音和持续时间进行编码,而音调信息则使用对数基本频率logF0来表示。...实验,本模型不使用真实语音持续时间和音调来进行主观评估,而是采用了不同模型所预测出的语音持续时间和发音。...数据集由单个序列的变长语音切片组成,发音使用的是标准美语,采用结合语言特征的两秒时间窗口进行训练,总时长为44小,样本频率为24kHz,并使用5毫秒时间窗口来计算语言特征和音调信息。...因此,实验部分,这边文章使用控制变量的方式证明了模型选择的最优性,具体设置如下: 实验部分对比设置,除以上变化,其他所有参数都和本文模型保持一致。

2.5K10

基于黑盒语音识别系统的目标对抗样本

研究,通过改进遗传算法从而应用于短语和句子;将噪声限制高频域上可以提高样本的相似度;而当对抗样本已经接近目标,梯度估计会比遗传算法进行更有效的权衡,为未来的研究打开了新的大门。...; 黑盒攻击:对模型不了解,对训练集不了解或了解很少;然而,攻击者能够访问网络的所有参数,这在实践是不现实的。...黑盒设置,当攻击者只能访问网络的逻辑或输出,要始终如一地创建成功的敌对攻击就很难了。...最常见的是梅尔-频率转换(MFC),本质上是采样音频文件的傅里叶变换,将音频转换成一个显示频率随时间变化的 spectogram,如下图中的DeepSpeech 模型,使用 spectogram 作为初始输入...他们将方法应用到 Mozilla DeepSpeech 模型(该模型是一个复杂、反复、字符级的网络,解码每秒 50 个字符的翻译)。

98830

基于黑盒语音识别系统的目标对抗样本

研究,通过改进遗传算法从而应用于短语和句子;将噪声限制高频域上可以提高样本的相似度;而当对抗样本已经接近目标,梯度估计会比遗传算法进行更有效的权衡,为未来的研究打开了新的大门。...; 黑盒攻击:对模型不了解,对训练集不了解或了解很少;然而,攻击者能够访问网络的所有参数,这在实践是不现实的。...黑盒设置,当攻击者只能访问网络的逻辑或输出,要始终如一地创建成功的敌对攻击就很难了。...最常见的是梅尔-频率转换(MFC),本质上是采样音频文件的傅里叶变换,将音频转换成一个显示频率随时间变化的 spectogram,如下图中的DeepSpeech 模型,使用 spectogram 作为初始输入...他们将方法应用到 Mozilla DeepSpeech 模型(该模型是一个复杂、反复、字符级的网络,解码每秒 50 个字符的翻译)。

85420

GitHub上15 个优秀开源项目告诉你如何上手数据科学!

关键时刻,第一时间送达! 作为一名狂热的数据科学爱好者,本文作者整理了 2017 年 Github 上尤为实用的数据科学资源,希望和大家共同学习。...Mozilla 一直是构建 DeepSpeech 和开源软件库的主要研究力量,Mozilla 技术战略副总裁 Sean White 一篇博文中写道:「目前只有少数商用质量的语音识别引擎是开源的,它们大多数由大型公司主宰...项目地址:https://github.com/mozilla/DeepSpeech Mobile Deep Learning 该资源库将数据科学的当前最佳技术移植到了移动平台上。...下图解释了一个简单的用例,即目标检测。它可以识别目标(例如一张图像的手机)的准确位置,很棒不是吗?...构建网站或移动设备界面,前端工程师通常必须编写大量重复的代码,这比较费时且低效率。实质上,这阻碍了开发者将大部分时间用于实现其正在构建软件的功能及逻辑。

1.2K50

看硅谷数据工程师如何使用TensorFlow构建、训练和改进RNN

作者:Matthew Rubashkin、Matt Mollison 硅谷数据科学公司 SVDS的深度学习研发团队,我们调研了循环神经网络(RNN)探究时间序列和提升语音识别性能上的应用。...很多案例虽然功能强大,但是相当复杂,例如在Mozilla公共授权下Mozilla积极发展的 DeepSpeech 项目,太过简单抽象,不能用于真实数据。...联结主义的时序分类(CTC)损失函数 神经网络做语音识别,使用允许 character-level (字符级)副本预测的目标函数:联结主义时序分类 Connectionist Temporal Classification...这种典型的以人为中心的语音数据转换是计算梅尔频率倒谱系数(MFCC),有13或者26种不同的倒谱特征,可以作为这种模型的输入。经过这种转换,数据被存储一个频率系数(行)随时间(列)的矩阵。...(2个示例) Dev: dev-clean-wav (2个示例) 当训练这几个示例,你会很快注意到训练数据会过度拟合(overfit),使得错词率(WER)约为0%,而测试集和Dev数据集的WER大约能达到

1.1K40

基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型

DeepSpeech2文语音识别 本项目是基于PaddlePaddle的DeepSpeech 项目开发的,做了较大的修改,方便训练中文自定义数据集,同时也方便测试和使用。...(109小) 2 3 1024 0.170260 点击下载 thchs_30(34小) 2 3 1024 0.026838 点击下载 说明: 这里提供的是训练参数,如果要用于预测,还需要执行导出模型...自定义的语音数据需要符合以下格式,另外对于音频的采样率,本项目默认使用的是16000Hz,create_data.py也提供了统一音频数据的采样率转换为16000Hz,只要is_change_frame_rate...如果没有关闭测试,每一轮训练结果之后,都会执行一次测试计算模型测试集的准确率。执行训练,如果是Linux下,通过CUDA_VISIBLE_DEVICES可以指定多卡训练。...CUDA_VISIBLE_DEVICES=0,1 python train.py 训练过程,程序会使用VisualDL记录训练结果,可以通过以下的命令启动VisualDL。

2.3K10

利用 AssemblyAI PyTorch 建立端到端的语音识别模型

criterion = nn.CTCLoss(blank=28).to(device) ? 语音模型评估 评估语音识别模型,行业标准使用的是单词错误率(WER)作为度量标准。...这个示例是LibriSpeech(100小的音频)的一个子集和一个单独的GPU上进行训练的。为了获得最先进的结果,你需要对数千小的数据进行分布式训练,并且需要在许多计算机上分布数十个GPU。...该模型具有3个CNN残差层和5个双向GRU层,允许你具有至少11GB内存的单个GPU上训练合理的批处理大小。你可以调整main函数的一些超级参数,减少或增加你的用例和计算可用性的模型大小。 ?...首先在论文中介绍了“无可或缺的注意力”,转换器已经出现和修改,几乎击败所有现有的NLP任务,取代了RNN的类型体系结构。转换器查看序列数据完整上下文的能力也可以转转移到语音。...这样做的一些好处是,进行语音推理,模型不必担心词汇量不足。对于单词c h a t,每个字符都有自己的标签。使用字符的缺点是效率低,由于你一次只能预测一个字符,该模型更容易出现错误。

1.4K20

盘点:今年GitHub上最火的15个机器学习项目

DeepSpeech 项目地址: https://github.com/mozilla/DeepSpeech DeepSpeech 是百度开发的开源实现库,它提供了当前顶尖的语音转文本合成技术。...Mozilla 一直是构建 DeepSpeech 和开源软件库的主要研究力量,Mozilla 技术战略副总裁 Sean White 一篇博文中写道:「目前只有少数商用质量的语音识别引擎是开源的,它们大多数由大型公司主宰...该 repo 解释了一个简单的用例,即目标检测。它可以识别目标(例如一张图像的手机)的准确位置,很棒不是吗? 6....绘图函数的输入会发生改变,尽管大部分输入是数据的张量 X(而非数据本身)和(可选)张量 Y(包含可选数据变量,如标签或时间戳)。它支持所有基本图表类型,以创建 Plotly 支持的可视化。...该方法成功克服了失真,满足了大量场景的摄影风格迁移需求,包括时间、天气、季节、艺术编辑等场景。

93480

使用 TimeGAN 建模和生成时间序列数据

本文中,我们将研究时间序列数据并探索一种生成合成时间序列数据的方法。 时间序列数据 — 简要概述 时间序列数据与常规表格数据有什么不同呢?时间序列数据集有一个额外的维度——时间。...因此,我们得到了一个维度(19712,(24,28))的数据集,其中每个19712实例有24行(即时间步)和28个特性。...本节,我们将查看如何使用能量数据集作为输入源来生成时间序列数据集。 我们首先读取数据集,然后以数据转换的形式进行预处理。这个预处理实质上是[0,1]范围内缩放数据。...我们energy_data上训练TimeGAN模型,然后使用这个训练过的模型生成更多的数据。...其余参数定义如下: seq_len = 24 # Timesteps n_seq = 28 # Features hidden_dim = 24 # Hidden

2.9K30

PPASR语音识别(进阶级)

本项目支持多卡训练,通过使用--gpus参数指定,如--gpus= '0,1'指定使用第1张和第2张显卡训练。...参数--pretrained_model是指定预训练模型所在的文件夹,使用预训练模型,加载的时候会自动跳过维度不一致的层。...训练过程,程序会使用VisualDL记录训练结果,可以通过以下的命令启动VisualDL。...评估 评估和预测,使用--decoder参数可以指定解码方法,当--decoder参数为ctc_greedy对结果解码的贪心策略解码方法,贪心策略是每一步选择概率最大的输出值,然后删除重复字符和空索引...导出模型 训练,我们保存了模型的参数,但是如何要用于推理,还需要导出预测模型,执行下面命令导出模型。模型的结构参数必须跟训练的一致。

1.1K20

2017年度盘点:15个最流行的GitHub机器学习项目

2.4 DeepSpeech 项目地址: https://github.com/mozilla/DeepSpeech DeepSpeech 是百度开发的开源实现库,它提供了当前顶尖的语音转文本合成技术。...Mozilla 一直是构建 DeepSpeech 和开源软件库的主要研究力量,Mozilla 技术战略副总裁 Sean White 一篇博文中写道:「目前只有少数商用质量的语音识别引擎是开源的,它们大多数由大型公司主宰...该 repo 解释了一个简单的用例,即目标检测。它可以识别目标(例如一张图像的手机)的准确位置,很棒不是吗?...绘图函数的输入会发生改变,尽管大部分输入是数据的张量 X(而非数据本身)和(可选)张量 Y(包含可选数据变量,如标签或时间戳)。它支持所有基本图表类型,以创建 Plotly 支持的可视化。...该方法成功克服了失真,满足了大量场景的摄影风格迁移需求,包括时间、天气、季节、艺术编辑等场景。

745100
领券