【大数据问答】SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

(1)系统缺失值、空白值 每一个变量均有可能出现系统缺失或者空白,当数据量巨大时我们根本无法用眼睛看出是否有缺失,最明智的做法是把这项任务交给数据分析工具,比如Excel,可通过数据有效性、筛选、查找、计数等功能去实现,如果是SPSS数据源,可以通过描述统计之“频率”项来实现。

上图,五个变量中,家庭人均收入有效样本94,有6个无效样本,在spss数据区域显示为空白值。其他变量均没有缺失,对于这6个缺失值是留是踢需要谨慎。 (2)变量取值分布 这一项不容忽视,一般由于输入错误、数据本身或者其他原因造成。这里分分类变量和数值变量进行检查。 分类变量取值分布检查: 描述统计之“频率”项,可以对变量以及变量取值进行频次统计汇总,因此,此处仍然采用“频率”项。

上图,我们已经确认是否献血样本全部有效,但是不代表这个变量没有其他噪声。通过此变量取值分布的考察,我们可以发现是否献血有4个水平,分别为“0”“1”“No”“Yes”,但实际上,该变量的取值至于两个水平,“No”“Yes”,其余两个取值是错误操作导致的,这是系统缺失值,可以通过重新赋值进行处理。 数值变量取值分布检查: 数值变量取值分布不宜采用“频次”的统计,一般可通过直方图、含有正态检验的直方图来实现。

上图,数值变量的直方图,可以清楚的看到其分布情况。可以初步判断存在异常值。 (3)离群值、极值 在SPSS中可以通过“箱图”直观的看到异常值,探索分析项或者箱图功能可实现。

上图,为spss探索分析结果,还可以设置分组变量。可以直观的发现,家庭人均收入存在极值,编号为66,可以快速查找定位。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据结构与算法

P3819 松江1843路

题目描述 涞坊路是一条长L米的道路,道路上的坐标范围从0到L,路上有N座房子,第i座房子建在坐标为 的地方,其中住了 人。 松江1843路公交车要在这条路上...

3256
来自专栏小樱的经验随笔

【机器学习笔记之一】深入浅出学习K-Means算法

摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 ...

3039
来自专栏菩提树下的杨过

NDArray自动求导

NDArray可以很方便的求解导数,比如下面的例子:(代码主要参考自https://zh.gluon.ai/chapter_crashcourse/autogr...

23610
来自专栏贾志刚-OpenCV学堂

基于积分图的二值图像膨胀算法实现

积分图来源与发展 积分图是Crow在1984年首次提出,是为了在多尺度透视投影中提高渲染速度。随后这种技术被应用到基于NCC的快速匹配、对象检测和SURF变换中...

5458
来自专栏深度学习自然语言处理

【概率笔记】条件概率这样学才快啦

比如,一个上学期间整天鬼混的学沫,根本就不好好学习,对于他而言,选择题的四个选项ABCD被他选取的概率就为1/4。而对于大学霸来说,题题都会,那么他选取每一个选...

1053
来自专栏xingoo, 一个梦想做发明家的程序员

动态规划

基本思想:将待求解问题分解成若干子问题,先求解子问题,然后从子问题的解中得到原问题的解。 与分治不同的是,经分解得到的子问题往往不是互相独立的。 若用分治法来解...

1975
来自专栏数据结构与算法

2853 方格游戏(三维棋盘)

 时间限制: 1 s  空间限制: 128000 KB  题目等级 : 钻石 Diamond 题解  查看运行结果 题目描述 Description 菜菜看到了...

3606
来自专栏人工智能

向量自回归简介

通常,我们试图分析大量的数据来找到有用的信息或预测未来的事件。数据集中最重要的类型之一是时间序列。时间序列表示按时间顺序索引的一系列数据点。有很多模型来分析这种...

6501
来自专栏钱塘大数据

32类计算机与数学领域最为重要的算法

导读: 奥地利符号计算研究所的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科...

3148
来自专栏数说工作室

机器学习/深度学习代码速查:6大工具库 &27种神经网络图览

Kailash Ahirwar,Mate Lab 联合创始人,Github的一位资深作者,也是一位活雷锋,近日在其Github个人主页上发表了一个机器学习/深度...

5135

扫码关注云+社区

领取腾讯云代金券