前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据挖掘不可小觑测量级别

数据挖掘不可小觑测量级别

作者头像
许卉
发布2019-07-15 17:27:31
6350
发布2019-07-15 17:27:31
举报
文章被收录于专栏:Data Analyst

数据挖掘不可忽视测量级别

Data Analyst

为保证模型精准度,通常,构建模型前需要对样本进行缺失值、异常值、数据合并、数据离散化以及变量转换等多方面的处理,处理过程中,变量测量级别的确定贯穿其中。

测量类型通常包括名义测量、次序测量、标度测量与二分取值型测量,其中标度测量包括间距测量与比率测量两种。

啥是测量类型?

Data Analyst

什么是测量类型?

  • 名义测量

名义测量是等级最低的测量类型,也称为定名测量,数值的含义比较单一仅仅代表某些分类或者属性,这样的变量没有办法进行大小的区分。例如民族可以分为汉族、蒙族、满族等等;人口按照肤色可以分为黄种人、白种人、黑人等等;企业分为国企、股份制企业、私企等等。

  • 次序测量

次序测量的量化水平高于名义测量,次序测量的变量具有排序的特质,例如超市规模可以分为大型、中型与小型;人们的生活水平可以分为贫困、温饱、小康与富裕对知识的掌握程度可以分为略懂、了解、掌握与精通等等。

  • 间距测量

间距测量的量化程度更高级一些,这种量化方式的取值不再是类的编码,而是具有一定单位实际测量值。间距测量的变量可以进行加减运算,但是不能够进行乘除运算,这是由于测量等级的变量所取的0不再是物理意义上绝对的0。例如平均结婚年龄这个变量,城市为26岁、农村为22岁,通常农村的平均结婚年龄要早于城市

  • 比率测量

比率测量是最高级的测量等级,这种测量方法除了具有间距测量等级的所有特性外,同时也赋予了0具有物理上的绝对意义,并且可以进行加减乘除运算。例如增长率变量。

  • 二分取值

二分取值是一种特殊的度量形式,既可以视其为名义变量,也可以视其为单独的测量标准,常见于logistic回归中。例如消费时1表示购买0表示不购买;营销时1表示客户流失0表示客户留存在市场分析领域,通常将二分取值变量假设为名义变量或者定类变量

测量类型中的坑

Data Analyst

定义变量类型时,如果定义错误会为后续工作带来很大的麻烦,例如变量为分类变量,但是却错误的将其定义为了定序变量,则会导致建模后的分析结果出现非常大的偏差

不同的测量级别间比较好区分,定类测定与定序测定间的区别在于变量内部是否具有顺序的含义,定类测定与定距定比测定间的区别可以理解为分类与连续间的区别。

实际工作中,经常会遇到部分变量水平很多的情况,例如城市字段,可能全国有500多个城市,这个变量入模时是将它看做分类变量还是连续变量呢?

通常,SAS中以12作为阈值,如果变量的水平超过12个则判定变量为连续变量。针对这种水平较多的变量,最好不要直接用数据挖掘的功能进行处理,如果直接将其作为分类变量,则会导致计算量急剧升高,一般我都会先进性分组处理后再考虑构建模型,例如可以考虑将中部地区的城市全部标记为1、东部地区的城市全部标记为2。当然,分组的前提是,一定要遵循现实意义。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档