专栏首页AI科技大本营的专栏秘籍 | 机器学习数据集网址大全

秘籍 | 机器学习数据集网址大全

作者 | Will Badr

译者 | Linstancy

整理 | Jane

出品 | AI科技大本营(ID:rgznai100)

要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。

近期,亚马逊高级技术顾问 Will Badr 分享了 8 种适用于不同机器学习问题的常用数据集,并给出相应的描述,用法示例以及在某些情况下用于解决与该数据集相关的机器学习问题的代码。

1、Kaggle 数据集

链接: https://www.kaggle.com/datasets

这是当前数据科学领域最热门,也是最受欢迎的数据集之一。在 Kaggle 中,每个数据集都是对应一项比赛,参赛者可以在这个小社区里讨论数据,查找一些公共代码或在 kernel 中创建自己的项目。Kaggle 中包含大量不同类型,不同大小以及多种不同格式的真实数据集。此外,参赛者还可以看到与每个数据集关联的 kernel,其中许多数据科学家会上传自己的 notebooks 来分析数据集,还能找到解决特定数据集问题的算法实现。

2、Amazon 数据集

链接: https://registry.opendata.aws/

Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个搜索框,可以帮助使用者快速找到所需的数据集。每个数据集包含相应的数据集描述和使用示例,数据量非常丰富且易于使用。

此外,依托于 Amazon Web Services (AWS) 平台,如 Amazon S3,这些储存在云端的数据集都有高度的可扩展性服务,这对于那些使用 AWS 进行机器学习开发和实验的用户来说,将非常方便。因为在云端,数据集的传输将非常快。

3、UCI 机器学习数据集

链接: https://archive.ics.uci.edu/ml/datasets.html

这是由加州大学欧文分校(UCI)信息与计算机科学学院的研究者创建的一个包含 100 多种不同类型数据集的大型数据库。该数据库根据不同的机器学习问题来对数据集进行分类,在这里,用户可以找到单变量、多变量时间序列数据集,分类、回归、推荐系统数据集等。此外,该数据库中的部分数据集已经经过数据清洗过程,是可以直接为用户使用。

4、Google 数据集所搜引擎

链接: https://toolbox.google.com/datasetsearch

2018 年 9 月,Google 推出了这项服务,它是一个可以按名称搜索相应数据集的工具箱,其目标是集成数万个不同的数据集,并对用户开放使用。

5、Miscrosoft 数据集

链接: https://msropendata.com/

2018 年 7 月,Miscrosoft 联合其外部的研究社区声明发布 Miscrosoft Research Open Data 服务。这项存储在云端的数据库,包含了一系列在已发表研究中使用过的数据集,致力于促进全球研究社区的研究合作。

6、Awesome 公开数据集

链接: https://github.com/awesomedata/awesome-public-datasets

Awesome 是一个按不同主题分类的数据库,其中涵盖了如生物学,经济学,教育等不同领域的重要数据集,其中列出的大多数数据集都可供用户免费试用,但在使用任何数据集之前,用户需要通过认证已获得使用许可。

7、government 数据集

在这里你可以找到那些与政府相关的数据集。为显示政府工作的透明度,许多国家机构公开发布了其国家在一些领域的数据集,如下示例:

  • EU Open Data:欧洲政府数据集

链接: https://data.europa.eu/euodp/data/dataset

  • US Gov Data:美国政府数据 (非政治问题上的数据集,但自特朗普政府上调以来,该网站数据集暂时无法使用)

链接: https://www.data.gov/

  • New Zealand’s Government Dataset:新西兰政府数据集

链接: https://catalogue.data.govt.nz/dataset

  • Indian Government Dataset:印度政府数据集

链接: https://data.gov.in/

8、Computer Vision 领域数据集

链接: https://www.visualdata.io/

如果是从事图像处理、计算机视觉或深度学习领域的工作,那么该数据集会是最好的实验资源。Visual Data 包含一些可用于构建计算机视觉(CV)模型的优秀数据集。使用者可以通过某个特定的 CV 任务来查找相应的数据集,如语义分割(semantic segmentation)、图像生成标题(image captioning)、图像生成(image generation),甚至是无人驾驶解决方案所需的数据集。

原文链接: https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

本文分享自微信公众号 - AI科技大本营(rgznai100),作者:Will Badr

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据时代,谁的眼神锁定你?

    双十一余韵未歇,刚处理完一波售后及退件等“剁手后遗症”的各方人马也已经为再战双十二做好了准备。截至 12 日零点,天猫双十一成交额达 2135 亿元。与此同时,...

    AI科技大本营
  • 个推CTO安森:我所理解的数据中台

    在前面两篇文章(《数据智能时代来临:本质及技术体系要求》和《多维度分析系统的选型方法》)之中,我们概括性地阐述了对于数据智能的理解,并根据工作中团队涉及到的多维...

    AI科技大本营
  • 大数据工程师手册:全面系统的掌握必备知识与工具

    如何才能成为一名真正的“全栈(full-stack)”数据科学家?需要了解哪些知识?掌握哪些技能?

    AI科技大本营
  • 发展大数据是互联网时代必然选择

    随着信息化的推进,数据已经成为一种重要的资源。工信部提出,未来,大数据将在工业生产全流程中进行应用,一方面大力提升企业内部运行管理效率,另一方面,发展基于大数据...

    灯塔大数据
  • 大数据需求会慢慢爆发,数据将是企业未来价值无可限量的资产 | 大咖周语录

    数据猿导读 大数据时代,各类数据爆炸式增长,与此相关的数据化产品也层出不穷,甚至已经到了泛滥的境地。那么,如何更好地运用大数据,使其变成自己的无形资产呢? ? ...

    数据猿
  • 【编译】在大数据时代,看渣打银行如何革自己的命?

    数据猿导读 随着数据科学和开源数据技术时代的到来,传统银行逐渐形成了两大类:一类是积极拥抱数据革命,另一类则保持原来的状态。 ? 编译 | 郭敏 这是一个信息爆...

    数据猿
  • 不需神化大数据,更不必妖魔化!

    数据猿导读 当社会对大数据公司开始慢慢地妖魔化,我想这未免对这个大数据行业有了很深的误解。社会大众可能并不知道大数据公司到底再做什么。 ? 作者 | 田静 本文...

    数据猿
  • 天创信用CTO高少峰:现在的数据市场还处于混乱无监管的野蛮增长状态

    数据猿导读 当前阶段,数据处于一个混乱无监管,但快速野蛮增长的阶段,各类形形色色的数据充斥着数据市场。第一类是用户授权爬取的数据;第二类是实时接入的接口数据;第...

    数据猿
  • 【大数据】大数据时代的数据资产管理

    伴随着大数据时代的悄然来临,对数据的重视提到了前所未有的高度。套上大数据的光环后,原本那些存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报告...

    小莹莹
  • 吓死宝宝了,15个关于大数据的事实和真相

    ? 跟踪大数据的趋势,研究和统计数据为专业人士提供了一个规划大数据项目的坚实的基础,这里有每个IT专业人士都应该知道的15个有关大数据的重要事实。 每个人都在...

    小莹莹

扫码关注云+社区

领取腾讯云代金券