前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据集也配有姓名

数据集也配有姓名

作者头像
木羊
发布2022-04-11 17:30:54
5260
发布2022-04-11 17:30:54
举报
文章被收录于专栏:睡前机器学习

今天是周末,为啥在休息日更新感觉比工作日更吃毅力?我们聊数据集。

数据集在机器学习中总是个很尴尬的角色。

数据集的重要性前面聊过。在我看来,如果把一次机器学习任务当作一场电影,那数据集和算法模型双双揽下男女一号的位置应该没什么悬念,如果名额还有富余,那就把损失函数也算上好了。

反正整个过程,无非就是数据集、算法模型和损失函数怎样相爱相杀。

好了,有意思的地方来了:

翻开市面任一本机器学习的教材,反反复复讲的肯定都是算法模型,当然也少不了损失函数,至于数据集,总是寥寥数笔,说声“很重要”,然后就没下文了。

——怎么,明明是三个人的电影,数据集我不配有姓名?

太不尊重。前面我们聊到加州房价数据集,正好,今天主角就是你了。

不过,有一个问题。加州房价和宝可梦都有自己的数据集,但内容当然完全不同,该用一套什么样的方法来研究呢?

靠谱的数据集,一般都会对数据集的对象、采集形成过程和各个维度进行必要的介绍。在加州房价数据集里,在DESCR(“描述”)属性里可以看到这些介绍。

代码语言:javascript
复制
dataset.DESCR

首先是背景:

代码语言:javascript
复制
This dataset was derived from the 1990 U.S. census, using one row per census
block group. A block group is the smallest geographical unit for which the U.S.
Census Bureau publishes sample data (a block group typically has a population
of 600 to 3,000 people).

大致说明了数据集采集的时间,来源,方法(using one row per census block group),还对什么叫“block group”进行了细心解释。

接着是总体情况:

代码语言:javascript
复制
Number of Instances: 20640
Number of Attributes: 8 numeric, predictive attributes and the target

数据集中包含样本20640个,8个可用于预测的属性项,和一个实际结果项——看到这里,已经很清楚这是一个可使用有监督学习的数据集。

数据集还贴心地逐项说明了数据的8个维度和具体含义:

代码语言:javascript
复制
Attribute Information:
- MedInc        median income in block
- HouseAge      median house age in block
- AveRooms      average number of rooms
- AveBedrms     average number of bedrooms
- Population    block population
- AveOccup      average house occupancy
- Latitude      house block latitude
- Longitude     house block longitude

数据集最重要的就是数据的不同维度了。这8个属性名称是不是看着眼熟?没错,都是与feature_names属性的值一一对应。

可以看出来,数据集记录了收入、房龄、几房几卧、人口、空置率(其实应该是使用率,不过空置率比较好理解,值等于1-使用率),以及提到过的所在经纬度。

内容挺丰富的,当然也还有值得改善的地方,毕竟换作咱们买房,还得问问有没有学位,是不是限购之类的。不过,尽善尽美的数据集哪儿也不好找。

那么,待预测项的实际值,也就是参考答案在哪呢?有监督学习可离不了。在这个数据集里,参考答案称为“target”,相对应的20640个实际值都一个不少地保存在属性target里。

数据集当然也少不了对target的解释:

代码语言:javascript
复制
The target variable is the median house value for California districts.

说得很清楚了,这里的实际值记录的是加州房价的中位数,也正是需要引入算法模型进行预测的对象。

既然是房价,那就是连续值了,说明要解决的是个回归问题。分析到这一步,目的也很清楚了。

最后,还有一项很重要但很容易被忽略的:

代码语言:javascript
复制
Missing Attribute Values: None

没有缺失项。这在数据集中十分难得,不用手工修修补补,可以选好模型直接就上!实在可喜可贺。

下次再聊。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档