前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >想做机器学习却找不到数据集?快来看这个盘点

想做机器学习却找不到数据集?快来看这个盘点

作者头像
HuangWeiAI
发布2019-08-06 17:35:09
1.5K0
发布2019-08-06 17:35:09
举报
文章被收录于专栏:浊酒清味浊酒清味

数据集相对于机器学习而言是至关重要的,可以说好的数据集是成功的一半。但是,我们很难找到一个特定的数据集来解决各种机器学习问题,甚至是进行实验。因而找到合适的数据集是一件很难的事情,接下来我们就盘点一下一些优质的数据集资源,或许会帮到你哦。

1Kaggle Datasets

每个dataset都是一个小型社区,您可以在其中讨论数据、查找一些公共代码或在内核中创建自己的项目。它们包含大量的实际数据集,这些数据集具有各种形状、大小和许多不同的格式。您还可以看到与每个数据集关联的“内核”,其中许多不同的数据科学家提供了笔记本来分析数据集。有时候你可以在自己笔记本上想到一些算法来解决这个特定数据集中的预测问题。

地址:

https://www.kaggle.com/datasets

2Amazon Datasets

该数据源包含不同领域的许多数据集,如:(公共交通、生态资源、卫星图像等)。它也有一个搜索框,以帮助您找到您正在寻找的数据集,它也有数据集描述和使用的所有数据集的例子,这是非常有用的,易于使用!

这些数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。如果您正在使用AWS进行机器学习实验和开发,这将非常方便,因为数据集的传输非常快,因为它是AWS网络的本地数据集。

地址:

https://registry.opendata.aws/?source=post_page

3UCI ML Repository

加州大学信息与计算机科学学院的另一个巨大的数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。您可以为单变量和多变量时间序列数据集、分类、回归或推荐系统找到数据集。UCI中的一些数据集已经被清理并准备好使用。

地址:

https://archive.ics.uci.edu/ml/index.php

4Google数据集搜索引擎

在2018年末,谷歌尽其所能,推出了另一项伟大的服务。它是一个工具箱,可以按名称搜索数据集。他们的目标是统一成千上万个不同的数据集存储库,使数据集可被发现。干得好,谷歌。

地址:

https://toolbox.google.com/datasetsearch?source=post_page

5Microsoft Datasets

2018年7月,微软与外部研究界共同宣布启动“微软研究院开放数据”

地址

https://msropendata.com/?source=post_page

6Awesome公共数据库

这是一个按主题组织的数据集的伟大来源,如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,您应该始终检查许可要求。

地址:

https://github.com/awesomedata/awesome-public-datasets?source=post_page

7计算机视觉数据集

如果您正在从事图像处理、计算机视觉或深度学习,那么这应该是您的实验数据来源。

视觉数据包含少量的大型数据集,可用于构建计算机视觉(CV)模型。您可以通过特定的CV主题来查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)来查找数据集。

地址:

https://www.visualdata.io/?source=post_page

8Lionbridge AI Datasets

地址:

https://lionbridge.ai/datasets/?source=post_page

总而言之,似乎有一个全球性的方向,就是让越来越多的数据可用,让研究和机器学习社区更容易获得。这些新数据集的社区将继续增长,使数据更容易访问,以便众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浊酒清味 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档