数据分析之数据处理

数据处理是根据数据分析目的,将收集到的数据,用适当的处理方法进行加工、整理,形成适合数据分析的要求样式,它是数据分析前必不可少的工作,并且在整个数据分析工作量中占据了大部分比例。数据处理包括数据清洗、数据抽取、数据合并、数据计算、数据分组等操作。在进行数据处理之前,先要了解数据变量。

文/黄成甲

数据变量

变量就是我们常说的字段,在数据库中,称为字段;在统计学中,称为变量。常用的数据类型有字符型数据、数值型数据、日期型数据。

1.字符型数据

也称为文本数据,由字符串组成,它是不能进行算术运算的文字数据类型,它包括中文字符、英文字符、数字字符(非数值型)等字符。字符型数据是一种分类数据,例如,性别可以分为男、女,省份可以按各省进行分类,我们就可以通过这些分类数据进行分类研究,从而更全面的掌握事物的特征。

2.数值型数据

数值型数据是直接使用自然数或度量单位进行计量的数值数据。例如:收入、年龄、体重、身高这几个变量均为数值型数据。对于数值型数据,可以直接用算术运算方法进行汇总和分析。

3.日期型数据

日期型数据用于表示日期或时间数据,它可以进行算术运算,所以它是特殊的数值型数据。日期型数据主要应用在时间序列分析中。

变量尺度

在统计学中,按照对事物描述的精准程度,将采用的测量尺度从低到高分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

1.定类尺度

定类尺度是对事物类别或属性的一种测度。定类变量的特点是其值只能代表事物的类别和属性,不能比较各类别之间的大小,例如性别、职业两个变量。使用“名义N”来表示定类尺度。

2.定序尺度

定序尺度是对事物之间等级或者顺序的一种测度。其计算结果只能排序,不能进行算术运算,例如学历、职级两个变量。使用“序列O”来表示定序尺度。

3.定距尺度

定距尺度是对事物次序之间间距的一种测度,只可进行加减运算,不可进行乘除运算。它不仅能够对事物进行排序,还能准确计算次序之间的差距是多少,例如温度、时间两个变量。

4.定比尺度

定比尺度是测算两个测量值之间比值的一种测度。它能够进行加减乘除运算,例如收入、用户数两个变量。定比尺度与定距尺度最大的区别是它有一固定的绝对“0”值,而定距尺度没有。在定距变量中“0”不表示没有,只是一个测量值;而在定比变量中“0”就是表示没有。

定距尺度和定比尺度在绝大多数统计分析中没有本质上的区别,通称为“度量S”。

变量尺度跟数据类型对应表

数据清洗

数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。

数据抽取

数据抽取也称为数据拆分、是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。主要方法有字段拆分和随机抽样。随机抽样方法主要有简单随机抽样、分层抽样、系统抽样等。

数据合并

数据合并,是指综合数据表中某几个字段的信息或不同的记录数据,组合成一个新字段、新记录数据,主要有两种操作:字段合并、记录合并。字段合并,是将某几个字段合并为一个新字段。记录合并,也称为纵向合并,是将具有共同的数据字段、结构,不同的数据表记录信息,合并到一个新的数据表中。

数据分组

数据分组,根据分析的目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。其中,用于绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间从小到大进行排列,这样才能观察数据的分布规律。在SPSS里可使用可视分箱进行数据分组。

对于不等距的操作,可以重新编码为不同变量。重新编码可以把一个变量的数值按照指定要求赋予新的数值,也可以把连续变量重新编码成离散变量,如把年龄重新编码为年龄段。

数据标准化

数据标准化是将数据按比例缩放,使之落在一个特定区间。数据标准化就是为了消除量纲(单位)的影响,方便进行比较分析。常用的数据标准化方法有0-1标准化和Z标准化。

0-1标准化也称离差标准化,它是对原始数据进行线性变换,使结果落到【0,1】区间。0-1标准化还有个好处,就是很方便做十进制、百分制的换算,只需乘上10或100即可,其他分制同理。

Z标准化也称标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小樱的经验随笔

模拟退火算法从原理到实战【基础篇】

  模拟退火算法来源于固体退火原理,将固体加温至充分高,再让其徐徐冷却,加温时,固体内部粒子随温升变为无序状,内能增大,而徐徐冷却时粒子渐趋有序,在每个温度都达...

43660
来自专栏PPV课数据科学社区

【大数据问答】SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

SPSS是如何做到发现数据质量问题,例如,如何发现缺失值? (1)系统缺失值、空白值 每一个变量均有可能出现系统缺失或者空白,当数据量巨大时我们根本无法用眼睛...

43840
来自专栏刘望舒

算法(一)时间复杂度

前言 算法很重要,但是一般情况下做移动开发并不经常用到,所以很多同学早就将算法打了个大礼包送还给了老师了,况且很多同学并没有学习过算法。这个系列就让对算法头疼的...

20080
来自专栏逍遥剑客的游戏开发

纹理投影测试

19570
来自专栏新智元

【邓侃】哈佛大学机器翻译开源项目 OpenNMT的工作原理

【新智元导读】 2016年12月20日,哈佛大学自然语言处理研究组,宣布开源了他们研发的机器翻译系统 OpenNMT ,并声称该系统的质量已经达到商用水准。本文...

54550
来自专栏互联网大杂烩

Python 异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视...

20420
来自专栏用户画像

剑指offer 连续子数组的最大和

HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候...

12210
来自专栏专知

【LeetCode 204】关关的刷题日记40 Number of Boomerangs

关关的刷题日记40 – Leetcode 447. Number of Boomerangs 题目 Given n points in the plane th...

36640
来自专栏小樱的经验随笔

【机器学习笔记之一】深入浅出学习K-Means算法

摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。 ...

30590
来自专栏智能算法

图像处理常用插值方法总结

在做数字图像处理时,经常会碰到小数象素坐标的取值问题,这时就需要依据邻近象素的值来对该坐标进行插值。比如:做地图投影转换,对目标图像的一个象素进行坐标变换到源图...

542100

扫码关注云+社区

领取腾讯云代金券