专栏首页数据科学与人工智能【陆勤践行】最流行的4个机器学习数据集

【陆勤践行】最流行的4个机器学习数据集

机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。

Iris

Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

  • 数据集特征:多变量
  • 记录数:150
  • 领域:生活
  • 属性特征:实数
  • 属性数目:4
  • 捐赠日期:1988-07-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:563347

Adult

该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。

  • 数据集特征:多变量
  • 记录数:48842
  • 领域:社会
  • 属性特征:类别型,整数
  • 属性数目:14
  • 捐赠日期:1996-05-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:393977

Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

  • 数据集特征:多变量
  • 记录数:178
  • 领域:物理
  • 属性特征:整数,实数
  • 属性数目:13
  • 捐赠日期:1991-07-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:337319

Car Evaluation

这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。

  • 数据集特征:多变量
  • 记录数:1728
  • 领域:N/A
  • 属性特征:类别型
  • 属性数目:6
  • 捐赠日期:1997-06-01
  • 相关应用:分类
  • 缺失值:
  • 网站点击数:272901

小结

通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上数据集下载地址:http://archive.ics.uci.edu/ml/

原文:http://www.jianshu.com/p/be23b3870d2e

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-07-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2月23日数据动态早报|大数据和人工智能,金融产业的创新发展通道。

    数据动态,让您了解数据新变化、新创造和新价值。 ? ---- 一、通信行业数据动态 1 广东移动大数据:春节出身用户近八成已返程,据广东移动统计分析,工作在广东...

    陆勤_数据人网
  • 数据科学家的5种特质

    数据科学事业正在蓬勃发展,各行各业对技能熟练员工的需求越来越高。调查发现,出色的数据科学家拥有一些相似的特征,这让他们从人群中脱颖而出。 当今社会对数据科学家...

    陆勤_数据人网
  • 【数据分析】工业大数据开启新时代 七大应用分析

    工业大数据的典型应用包括产品创新、产品故障诊断与预测、工业生产线物联网分析、工业企业供应链优化和产品精准营销等诸多方面。本文我们讲就工业大数据在制造企业的应用场...

    陆勤_数据人网
  • 跳槽?前端面试知识点目录大全~

    金三银四,又到了一年一度的跳槽季,相信大家都在准备自己的面试笔记,我也针对自己工作中所掌握或了解的一些东西做了一个目录总结,方便自己复习。详细内容会在之后一一对...

    苏南
  • 《工业大数据白皮书》发布会在京召开

    (转自大数据标准工作组) 2017年2月18日,在工业和信息化部和国家标准化管理委员会的指导下,《工业大数据白皮书》发布会在北京成功召开。工业和信息化部信息化和...

    安恒信息
  • 最性感职业养成记 | 想做数据科学家/工程师?从零开始系统规划大数据学习之路

    大数据文摘
  • BDTC 2017丨大数据在工业与制造业的探索与应用

    12月7-9日,由中国计算机学会主办,CCF 大数据专家委员会承办,的2017中国大数据技术大会(BDTC 2017),在北京新云南皇冠假日酒店隆重举行。本次大...

    挖掘大数据
  • JavaScript之arguments.callee

    arguments.callee 在哪一个函数中运行,它就代表哪个函数。 一般用在匿名函数中。 在匿名函数中有时会需要自己调用自己,但是由于是匿名函数,没有名子...

    郑小超.
  • 冰火两重天,百度痛失大将的第二天腾讯招来了AI专家张潼 | 大数据24小时

    数据猿导读 创新不够,颜色来凑,苹果新品掀“红色”热潮;人工智能专家张潼博士加盟腾讯,出任AI Lab主任一职;专注布局住房金融市场,大道金服获2亿元融资……以...

    数据猿
  • 深度|港科大教授、第四范式首席科学家杨强:人工智能“寡头”终结者

    前言 今天,第四范式发布了一款人工智能开发平台“先知”,这是AI领域首个面向开发者的开发平台。第四范式对先知设置了参数自动化的算法,并搭建了比Spark快数百...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券