前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析之数据处理

数据分析之数据处理

作者头像
黄成甲
发布2018-09-12 15:05:38
2K1
发布2018-09-12 15:05:38
举报
文章被收录于专栏:黄成甲黄成甲

数据处理是根据数据分析目的,将收集到的数据,用适当的处理方法进行加工、整理,形成适合数据分析的要求样式,它是数据分析前必不可少的工作,并且在整个数据分析工作量中占据了大部分比例。数据处理包括数据清洗、数据抽取、数据合并、数据计算、数据分组等操作。在进行数据处理之前,先要了解数据变量。

文/黄成甲

数据变量

变量就是我们常说的字段,在数据库中,称为字段;在统计学中,称为变量。常用的数据类型有字符型数据、数值型数据、日期型数据。

1.字符型数据

也称为文本数据,由字符串组成,它是不能进行算术运算的文字数据类型,它包括中文字符、英文字符、数字字符(非数值型)等字符。字符型数据是一种分类数据,例如,性别可以分为男、女,省份可以按各省进行分类,我们就可以通过这些分类数据进行分类研究,从而更全面的掌握事物的特征。

2.数值型数据

数值型数据是直接使用自然数或度量单位进行计量的数值数据。例如:收入、年龄、体重、身高这几个变量均为数值型数据。对于数值型数据,可以直接用算术运算方法进行汇总和分析。

3.日期型数据

日期型数据用于表示日期或时间数据,它可以进行算术运算,所以它是特殊的数值型数据。日期型数据主要应用在时间序列分析中。

变量尺度

在统计学中,按照对事物描述的精准程度,将采用的测量尺度从低到高分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。

1.定类尺度

定类尺度是对事物类别或属性的一种测度。定类变量的特点是其值只能代表事物的类别和属性,不能比较各类别之间的大小,例如性别、职业两个变量。使用“名义N”来表示定类尺度。

2.定序尺度

定序尺度是对事物之间等级或者顺序的一种测度。其计算结果只能排序,不能进行算术运算,例如学历、职级两个变量。使用“序列O”来表示定序尺度。

3.定距尺度

定距尺度是对事物次序之间间距的一种测度,只可进行加减运算,不可进行乘除运算。它不仅能够对事物进行排序,还能准确计算次序之间的差距是多少,例如温度、时间两个变量。

4.定比尺度

定比尺度是测算两个测量值之间比值的一种测度。它能够进行加减乘除运算,例如收入、用户数两个变量。定比尺度与定距尺度最大的区别是它有一固定的绝对“0”值,而定距尺度没有。在定距变量中“0”不表示没有,只是一个测量值;而在定比变量中“0”就是表示没有。

定距尺度和定比尺度在绝大多数统计分析中没有本质上的区别,通称为“度量S”。

变量尺度跟数据类型对应表

数据清洗

数据清洗就是将多余重复的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或删除。

数据抽取

数据抽取也称为数据拆分、是指保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。主要方法有字段拆分和随机抽样。随机抽样方法主要有简单随机抽样、分层抽样、系统抽样等。

数据合并

数据合并,是指综合数据表中某几个字段的信息或不同的记录数据,组合成一个新字段、新记录数据,主要有两种操作:字段合并、记录合并。字段合并,是将某几个字段合并为一个新字段。记录合并,也称为纵向合并,是将具有共同的数据字段、结构,不同的数据表记录信息,合并到一个新的数据表中。

数据分组

数据分组,根据分析的目的将数值型数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。其中,用于绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间从小到大进行排列,这样才能观察数据的分布规律。在SPSS里可使用可视分箱进行数据分组。

对于不等距的操作,可以重新编码为不同变量。重新编码可以把一个变量的数值按照指定要求赋予新的数值,也可以把连续变量重新编码成离散变量,如把年龄重新编码为年龄段。

数据标准化

数据标准化是将数据按比例缩放,使之落在一个特定区间。数据标准化就是为了消除量纲(单位)的影响,方便进行比较分析。常用的数据标准化方法有0-1标准化和Z标准化。

0-1标准化也称离差标准化,它是对原始数据进行线性变换,使结果落到【0,1】区间。0-1标准化还有个好处,就是很方便做十进制、百分制的换算,只需乘上10或100即可,其他分制同理。

Z标准化也称标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.08.29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档