前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【陆勤践行】最流行的4个机器学习数据集

【陆勤践行】最流行的4个机器学习数据集

作者头像
陆勤_数据人网
发布2018-02-26 10:48:29
6340
发布2018-02-26 10:48:29
举报

机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

  • 数据集特征:多变量
  • 记录数:150
  • 领域:生活
  • 属性特征:实数
  • 属性数目:4
  • 捐赠日期:1988-07-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:563347

Adult

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

  • 数据集特征:多变量
  • 记录数:48842
  • 领域:社会
  • 属性特征:类别型,整数
  • 属性数目:14
  • 捐赠日期:1996-05-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:393977

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

  • 数据集特征:多变量
  • 记录数:178
  • 领域:物理
  • 属性特征:整数,实数
  • 属性数目:13
  • 捐赠日期:1991-07-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:337319

Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

  • 数据集特征:多变量
  • 记录数:1728
  • 领域:N/A
  • 属性特征:类别型
  • 属性数目:6
  • 捐赠日期:1997-06-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:272901

小结

通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上数据集下载地址:http://archive.ics.uci.edu/ml/

原文:http://www.jianshu.com/p/be23b3870d2e

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Iris
  • Adult
  • Wine
  • Car Evaluation
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档