前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习经典开源数据集盘点

机器学习经典开源数据集盘点

作者头像
abs_zero
发布2022-04-19 14:20:48
5440
发布2022-04-19 14:20:48
举报
文章被收录于专栏:AI派AI派

在机器学习任务实施前,如何快速寻找到可用数据集,是令每一位研究人员最头痛的事情。本文为大家列举了八大主流数据集来源,不仅包含大量的数据集信息,而且包含了描述、用法以及一些实施案例等。

01 Kaggle数据集

Kaggle数据集地址 https://www.kaggle.com/datasets

这是我最喜欢的数据集之一,每个数据集都对应于一个小型社区,你可以在其中讨论数据、查找公共代码,或者在其中创建自己的项目。这里包含了大量不同类型、不同结构的数据集内容。同时,还可以在其中获取到与每个数据集关联的资料,其中包含了许多数据科学家们提供的数据集分析笔记等。

02 Amazon数据集

AWS开放数据地址 https://registry.opendata.aws/

这个数据集中包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。

数据集存储在Amazon Web Services(AWS)资源中,对于使用AWS构建自己机器学习实验的用户来说,传输速度将非常块。

03 UCI机器学习数据集

UCI数据集地址: https://archive.ics.uci.edu/ml/datasets.html

这个数据集来自于加州大学信息与计算机科学学院,其中包含了100多个数据集。根据机器学习问题的类型对数据集进行分类,可找到单变量或多变量时间序列数据集,以及分类、回归或推荐系统的数据集。

04 Google 数据集搜索引擎

Google数据集搜索引擎 https://toolbox.google.com/datasetsearch

在2018年末,Google推出了数据集搜索服务。这是一个可以按名称搜索数据集的搜索引擎,目标是为数万个不同数据集存储库提供统一搜索入口,非常好用。

05 微软数据集

在2018年7月,微软与外界研究社区一起,发布了微软研究开发数据。

微软数据集地址: https://msropendata.com/

它包含了云服务器中的数据存储库,致力于促进全球研究社区的协作,并在其中提供了一系列用于已发表研究的数据集内容。

06 Awesome 开放数据集收藏列表

Awesom Public Datasets https://github.com/awesomedata/awesome-public-datasets

本数据集列表中,按主题整理了大量的数据集内容,例如:生物学、经济学、教育等。其中列出的大多数数据集都是免费的,但在使用任何数据集之前,均需检查数据集的许可要求。

07 政府数据集

许多国家均在网络上提供了多种公众可用的政府数据集内容,例如:

欧洲政府数据集 https://data.europa.eu/euodp/data/dataset

美国政府数据集 https://www.data.gov/

新西兰政府数据集 https://catalogue.data.govt.nz/dataset

印度政府数据集 https://data.gov.in/

北爱尔兰公共数据集 https://www.opendatani.gov.uk/

08 VisualData数据集

VisualData数据集 https://www.visualdata.io/

视觉数据包含了一些用于构建计算机视觉模型的优秀数据集,用户可通过某个CV主题查询,例如语义分割、图像标题、图像生成、自动驾驶汽车等内容。

总之,从目前观察到的现象看,似乎存在一个全球性的方向,即向研究与机器学习社区提供越来越多的数据。这些新数据集的社区将继续发展并使数据更加易用,以便众包与计算机科学界能够继续快速创新,并为未来生活带来更多创造性的方案。

原文链接: https://medium.com/datadriveninvestor/top-8-sources-for-machine-learning-and-analytics-datasets-5d2d94ada8ab 仅供学术分享,侵删

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI派 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01 Kaggle数据集
  • 02 Amazon数据集
  • 03 UCI机器学习数据集
  • 04 Google 数据集搜索引擎
  • 05 微软数据集
  • 06 Awesome 开放数据集收藏列表
  • 07 政府数据集
  • 08 VisualData数据集
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档