学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于学习和实验各种机器学习算法!
在学习机器学习算法的过程中,我们经常需要数据来学习和试验算法,但是找到一组适合某种机器学习类型的数据却不那么方便。下文对常见的开源数据集进行了汇总。
1. UCI数据集
2. Kaggle竞赛数据集
3. ImageNet
4. VisualData
5. MS COCO
6. Stanford CoreNLP
7. IMDB
8. Sentiment140
9. HotspotQA
10. Enron Email
11. Amazon
12. 百度Apollocapes
13. Berkeley DeepDrive
14. Robotcar
15. Data.gov
16. Food Environment Atlas
17. Annual Survey of School System Finances
18. NCES
19. Data USA
20. 中国国家统计局
21. Quandl
22. WorldBank
23. IMF
24. Markets
25. Google Trends
26. US Macro Regional
27. Google Audioset
28. 2000 HUB5 English
29. LibriSpeech
scikit-learn是Python中进行数据挖掘和建模中常用的机器学习工具包。scikit-learn的datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法。模块的主要函数如下所示。
自带数据集的datasets模块里包含自带数据集,使用load_*加载即可,使用示例如下所示。
from sklearn.datasets import load_iris
data = load_iris()
# 查看数据描述
print(data.DESCR)
X = data.data
y = data.target
自带数据集的基本信息及序号30、31、32的自带数据集做简单的介绍如下。读者也可以使用data.DESCR,查看其英文描述。
30. 波士顿房价数据集
这个数据集包含了506处波士顿不同地理位置的房产的房价数据(因变量),房屋以及房屋周围的详细信息(自变量),其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数等13个维度的数据,波士顿房价数据集能够应用到回归问题上。波士顿房价数据集与属性描述如下所示。
31. 鸢尾花数据集
鸢尾花数据集是一个非常经典的数据集,著名的统计学家Fisher在研究判别分析问题时收集了一些关于鸢尾花的数据,包含了150个鸢尾花样本,对应3种鸢尾花,各50个样本,以及它们各自对应的4种关于外形的数据(自变量)。该数据集可用于多分类问题,测量数据如下所示。
类别共分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。
32. 手写数字数据集
这个数据集是结构化数据的经典数据,共有1797个样本,每个样本有64个元素,对应一个8×8像素点组成的矩阵,矩阵中值的范围是0~16,代表颜色的深度,控制每一个像素的黑白浓淡,所以每个样本还原到矩阵后代表一个手写体数字。
33. 糖尿病数据集
34. 葡萄酒数据集
35. 乳腺癌数据集
36. 体能训练数据集
scikit-learn在线下载数据集的datasets模块包含在线下载数据集的方法,调用fetch_*接口从网络下载,示例如下所示。
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
newsgroups_test = fetch_20newsgroups(subset='test')
注意,fetch_*接口由于需要从国外网址下载数据,速度可能很慢!
在线下载数据集的基本信息如下所示。
37. Olivetti脸部图像数据集
38. 20类新闻分类数据集(文本)
39. 20类新闻文本数据集(特征向量)
40. 带标签的人脸数据集
41. 路透社新闻语料数据集
42. 加州住房数据集
43. 森林植被
scikit-learn包括用于以svmlight/libsvm格式加载数据集的实函数。在这种格式中,每一行都采用表格,此格式特别适用于稀疏数据集。在该模块中,使用SciPy稀疏CSR矩阵,并使用numpy数组,示例如下。svmlight / libsvm格式的公共数据集可以从网上下载。
网址:csie.ntu
from sklearn.datasets import load_svmlight_file
X_train , y_train = load_svmlight_file ("/ path / to / train_dataset.txt " )newsgroups_test = fetch_20newsgroups(subset='test')
openml是机器学习数据和实验的公共存储库,允许每个人上传开放数据集。sklearn.datasets能够从存储库下载数据集。示例如下:
from sklearn.datasets import fetch_openml
mice = fetch_openml(name='miceprotein', version=4)
print(mice.DESCR)
mice.ur
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。