前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【大数据问答】SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

【大数据问答】SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

作者头像
小莹莹
发布2018-04-20 17:24:45
2.5K0
发布2018-04-20 17:24:45
举报

SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

(1)系统缺失值、空白值 每一个变量均有可能出现系统缺失或者空白,当数据量巨大时我们根本无法用眼睛看出是否有缺失,最明智的做法是把这项任务交给数据分析工具,比如Excel,可通过数据有效性、筛选、查找、计数等功能去实现,如果是SPSS数据源,可以通过描述统计之“频率”项来实现。

上图,五个变量中,家庭人均收入有效样本94,有6个无效样本,在spss数据区域显示为空白值。其他变量均没有缺失,对于这6个缺失值是留是踢需要谨慎。 (2)变量取值分布 这一项不容忽视,一般由于输入错误、数据本身或者其他原因造成。这里分分类变量和数值变量进行检查。 分类变量取值分布检查: 描述统计之“频率”项,可以对变量以及变量取值进行频次统计汇总,因此,此处仍然采用“频率”项。

上图,我们已经确认是否献血样本全部有效,但是不代表这个变量没有其他噪声。通过此变量取值分布的考察,我们可以发现是否献血有4个水平,分别为“0”“1”“No”“Yes”,但实际上,该变量的取值至于两个水平,“No”“Yes”,其余两个取值是错误操作导致的,这是系统缺失值,可以通过重新赋值进行处理。 数值变量取值分布检查: 数值变量取值分布不宜采用“频次”的统计,一般可通过直方图、含有正态检验的直方图来实现。

上图,数值变量的直方图,可以清楚的看到其分布情况。可以初步判断存在异常值。 (3)离群值、极值 在SPSS中可以通过“箱图”直观的看到异常值,探索分析项或者箱图功能可实现。

上图,为spss探索分析结果,还可以设置分组变量。可以直观的发现,家庭人均收入存在极值,编号为66,可以快速查找定位。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档