专栏首页机器学习算法与Python学习顶级AI【数据】资源送给你!

顶级AI【数据】资源送给你!

本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。

1、Kaggle数据集

Kaggle数据集地址 https://www.kaggle.com/datasets

这是我最喜欢的数据集之一,每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。

2、Amazon数据集

AWS开放数据地址 https://registry.opendata.aws/

这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。

数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。

3、UCI机器学习数据集

UCI数据集地址: https://archive.ics.uci.edu/ml/datasets.html

这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。

4、Google数据集搜索引擎

Google数据集搜索引擎 https://toolbox.google.com/datasetsearch

在2018年末,Google推出了数据集搜索服务。这是一个可以按名称搜索数据集的搜索引擎,目标是为数万个不同数据集存储库提供统一搜索入口,非常好用。

5、微软数据集

在2018年7月,微软与外界研究社区一起,发布了微软研究开发数据。

微软数据集地址: https://msropendata.com/

它包含了云服务器中的数据存储库,致力于促进全球研究社区的协作,并在其中提供了一系列用于已发表研究的数据集内容。

6、Awesome开放数据集收藏列表

Awesom Public Datasets https://github.com/awesomedata/awesome-public-datasets

本数据集列表中,按主题整理了大量的数据集内容,例如:生物学、经济学、教育等。其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

7、政府数据集

许多国家均在网络上提供了多种公众可用的政府数据集内容,例如:

欧洲政府数据集 https://data.europa.eu/euodp/data/dataset

美国政府数据集 https://www.data.gov/

新西兰政府数据集 https://catalogue.data.govt.nz/dataset

印度政府数据集 https://data.gov.in/

北爱尔兰公共数据集 https://www.opendatani.gov.uk/

8、VisualData数据集

VisualData数据集 https://www.visualdata.io/

视觉数据包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

本文分享自微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【最全中文NLP数据集】10大类、142条数据源,总有一款适合你!

    中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html

    昱良
  • 大数据科学家可不是那么好当,不信,泥瞅瞅

    大数据科学家有多牛?让我们从有史以来市值最高的科技公司苹果看起。为抢大数据科学家,苹果开出美金16万到20万(约合台币400万到600万)的年薪,以及任何你想得...

    昱良
  • 最好用的 AI 开源数据集(涵盖计算机视觉、NLP、语音等 6 大类)

    1 新智元编译 来源:medium.com 编译:刘小芹 【新智元导读】本文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整...

    昱良
  • 2017-2021年中国大数据产业预测分析及全球市场规模预测

    一、有利因素 (一)政策利好   2015年7月,国务院出台了《关于积极推进“互联网+”行动的指导意见》,计划推动移动互联网、云计算、大数据、物联网等与现代制...

    钱塘数据
  • 【职业】现在学习大数据晚吗?

    ? PPV课网站上经常有人问这个问题,在回答这个问题之前,先看一段对话: Q:你好老师,我想问下现在从事大数据相关的行业是不是有点晚了, 现在大数据这块就业就...

    小莹莹
  • 大数据分析然并卵?那是因为你没做到这些

    看到这篇文章,感觉对数据分析一些点总结蛮好的,分享给大家。数据分析要产生真正的价值,或者说要让业务方,管理层感觉到真正的价值,其实需要非常多的东西:

    华章科技
  • SODA理事会理事、苏打数据CEO高丰:只有数据流通,数据才能创造价值

    12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一...

    数据猿
  • 林彪用数据挖掘活捉廖耀湘 ——从数据化谈“互联网+”

    据《往事回眸》记载:1948年辽沈战役开始之后,在东北野战军前线指挥所里面,每天深夜都要进行例常的“每日军情汇报”:由值班参谋读出下属各个纵队、师、团用电台报告...

    华章科技
  • 机遇与挑战并存 看政务大数据如何提升民生服务水平

    12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一...

    数据猿
  • 大数据时代,传统统计学依然是数据分析的灵魂

    什么是数据?数据(data)在拉丁文里是“已知”的意思,在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自...

    华章科技

扫码关注云+社区

领取腾讯云代金券