数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源

铜灵 发自 凹非寺 量子位 出品| 公众号 QbitAI

想自己构建机器学习模型,没想到首先就卡在了第一步。

网上各种数据集鱼龙混杂,质量也参差不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦

如何才能高效找到机器学习领域规模最大质量最高的数据集?

为了响应广大网友的呼声,网友u/UpdraftDev将全网最大的机器学习数据集整理汇集,并对这些数据集进行了分类和介绍。

想找心仪数据集,现在一目了然。网友纷纷表示:很满意!

太方便了

这个网站上,共收集到了100多个业界最大型的数据集。

根据任务类别,这些数据集中又分为三大类:计算机视觉(CV)、自然语言处理(NLP)和音频数据集。

在网站主页,一眼扫过去可以看到数据集名称、发布时间、简要介绍、开源协议、相关论文等重要信息,查找起来非常方便。

点进去就直接跳转到网站主页了,轻轻一点,免去了你挨个搜索每个数据集地址的麻烦。

神仙数据集

清单中列举的数据集中,不乏一些有趣的业界知名数据集,在很多的机器学习任务中,这些数据集都是最实用、出现场次最高的那一批。

都是哪些神仙数据集?

计算机视觉领域

先来看一下CV领域,汇总中收纳了70个大型数据集,很多经常遇到的经典数据集都在里面。

看看你能认出几个:

其中,包含了英伟达去年12月开源的人脸数据集FFHQ(Flickr-Faces-HQ),内含7万张1024×1024分辨率的高清人脸大图。

它提供了高度多样化、高质量的人脸数据,并且涵盖了比现有高分辨率数据集(如CelebA-HQ)更多的变化,比如更多佩戴眼镜、帽子的照片。

也有一些熟悉的中国企业身影。

比如百度开放的自动驾驶数据集ApolloScape,包括感知、仿真场景、路网数据等数十万帧逐像素语义分割标注的高分辨率图像数据。

数据集采用了逐像素语义分割标注的方式,是环境复杂、标注精准、数据量大的自动驾驶数据集。

腾讯开源的Tencent ML-Images项目,其多标签图像数据集ML-Images包含了1800万图像和1.1万多种常见物体类别,比谷歌开源的Open Images数据集还丰富不少。

当然,像ImageNet、KITTI、COCO、Cityscapes等这样的老牌经典数据集也都在里面。

自然语言处理(NLP)领域

NLP领域目前有26个数据集:

斯坦福大学NLP组的SQuAD 2.0你得了解一下,和一代相比,2.0版在增加对抗性问题的同时,也新增了一项“判断一个问题能否根据提供的阅读文本作答”的任务。

SQuAD 2.0中不仅包含十万个问题-答案对,还有超过五万个由人类众包者对抗性地设计的无法回答的问题。

CoQA数据集也是斯坦福开发的对话数据集,包含来自8k组对话的127k个带有答案的问题。这些对话涉及 7 个不同领域,每组对话的平均长度为15轮,每一轮对话都由问题和回答组成。

此外,DeepMind的Q&A问答数据集、微软的MS MARCO机器阅读理解数据集、三名中国学生推出的HotpotQA新型问答数据集等,都可以在这份清单中一键直达。

音频数据集

还有四个大型音频数据集:

谷歌的大规模音频数据集AudioSet,包含632类的音频类别以及2084320 条人工标记的每段10秒的声音剪辑片段,覆盖大范围人类与动物、乐器与音乐流派、日常环境声音。

谷歌NSynth数据集,收录了从1000种乐器中采集的大量注释的音符,包括不同的音高和速率,比同类的公共数据集大了一个数量级。

初创公司Mozilla公布的Common Voice数据集,内含2万名英语志愿者500小时、40万份录音,语料库也在不断扩充中。

还有LibriSpeech ASR corpus语音数据集,包括1000小时的英文发音和对应文字,数据来自LibriVox项目的有声读物,是一个大型的语料数据库。

传送门

这份清单中还有很多实用有趣的数据集,记得自己也去探索一遍。

目前,数据集汇合还在持续更新中,记得及时收藏。

数据集地址: https://www.datasetlist.com/

作者系网易新闻·网易号“各有态度”签约作者

本文分享自微信公众号 - 量子位(QbitAI)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏caoqi95的记录日志

数据预处理-对类别数据的处理方法

参数: -indices: A Tensor of indices. -depth: A scalar defining the depth of the ...

11220
来自专栏caoqi95的记录日志

Coursera NLP 课程 - 第一周 - 01 - NLP 课程介绍

「学习内容总结自 coursera 上的 Natural Language Processing 课程」

11320
来自专栏caoqi95的记录日志

DeepSleepNet - 基于原始单通道 EEG 的自动睡眠阶段评分模型

这篇论文是 2017 年在 IEEE 神经系统与康复工程学报上发布的一篇关于睡眠分阶的论文。这篇论文的主要贡献有:

19020
来自专栏caoqi95的记录日志

深度学习笔记5-卷积神经网络的基本内容

一张图片在计算机中是以三个独立的矩阵存储的,对应于下图中的红色,绿色和蓝色通道。三个矩阵与图像大小相同,例如,下图中猫的图像的分辨率是64×64,三个矩阵(RG...

10320
来自专栏京程一灯

用机器学习加速你的网站

我一生中大约73%的时间都在思考网络性能:如何在慢速手机上能播放60FPS的画面,用完美的顺序加载资源,通过离线缓存能做的一切。等等等等。

11220
来自专栏京程一灯

AI系统实现了自动编程,程序员要被取代了吗?

随着人工智能技术的快速进展,人工智能时代的序幕已经揭起,目前深度学习在图像处理方面的能力已经接近于人,甚至在某些方面已经超过人的识别能力。在语音识别、自然语言处...

56040
来自专栏京程一灯

JavaScript中的10个机器学习示例

随着时间的推移,机器学习库变得更快也更易于使用,其发展速度丝毫没有放缓的迹象。虽然一直以来 Python 都是机器学习的重要语言,但目前的神经网络可以在任何语言...

12630
来自专栏caoqi95的记录日志

基于 Keras 和 dlib 的人脸识别实践

这次的实践是基于很小的数据集,搭建的系统也比较粗糙,只是个toy implementation。主要用来练手和熟悉流程的。

21810
来自专栏京程一灯

使用 AI 为 Web 网页增加无障碍功能

根据世界健康组织的统计,全球约有 2.85 亿位视力障碍人士,仅美国就有 810 万网民患视力障碍。

18510
来自专栏caoqi95的记录日志

KNN (K 邻近)分类算法

最近看到一个很火的 100-Days-Of-ML-Code 的活动,在 Github 上看了下每日的学习内容,发现是个很好的查漏补缺的列表。这个学习列表里面包含...

17530

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励