数据分析之描述性分析

SPSS的模块按功能可以分为三部分:描述性分析、推断性分析、探索性分析。

1.描述性分析主要是对所收集的数据进行分析,得出反映客观现象的各种数量特征的一种分析方法,它包括数据的集中趋势分析、数据离散程度分析、数据的频数分布分析等,描述性分析是对数据进一步分析的基础。

2.推断性分析是研究如何根据样本数据来推断总体样本数量特征,它是在对样本数据进行描述统计分析的基础上,对研究总体的数量特征做出推断。常见的分析方法有假设检验、相关分析、回归分析、时间序列分析等方法。

3.探索性分析主要是通过一些分析方法从大量的数据中发现未知且有价值信息的过程,它不受研究假设和分析模型的限制,尽可能地寻找变量之间的关联性。常见的分析方法有聚类分析、因子分析、对应分析等方法。

文/黄成甲

频率分析

频率分析主要通过频数分布表、条形图和直方图,以及集中趋势和离散趋势的各种统计量来描述数据的分布特征,以便我们队数据的分布特征形成初步的认识,才能发现隐含在数据背后的信息,为后续数据分析提供方向和依据。

频率分析包括分类变量的频率分析和连续变量的频率分析。在SPSS里都采用频率表来做频率分析。对于连续变量数据的分析,描述的统计量包括百分位值、集中趋势、离散趋势和数据分布特征。

1.百分位值

百分位值主要用于对连续变量数据离散程度的测量,常用的百分位值是四分位数。它是将变量中的数据从小到大排序后,用三个数据点将数据分为四等份,与这三个点相对应的数值称为四分位数。由于是等分整个数据,这三个数据点分别位于数据的25%(第一四分位数)、50%(第二四分位数,也就是常用的中位数)和75%(第三四分位数)的位置。

2.集中趋势

集中趋势反映了数据向其中心值聚集的程度,是对数据一般水平的概括性度量,主要通过平均值、中位数和众数来表示。

集中趋势主要统计量

3.离散趋势

离散趋势反映了数据远离中心值的程度,是衡量集中趋势值对整个数据的代表程度。数据的离散度越大,说明集中趋势值的代表性越低;反之,数据的离散程度越接近于0,说明集中趋势值的代表性越高。数据的离散程度主要通过范围、标准差和方差来表示。

离散趋势主要统计量

4.分布特征

对于连续变量,在样本量较大的情况下,研究若你有会提出假设,认为数据应当服从某种分布,每种分布都可以采用一系列的指标来描述数据离散分布的程度。在图形的显示上,对于分类数据,如果需要了解数据分布,则可以选择条形图;如果需要了解数据结构,则选择饼图;而对于连续数据,选择直方图。

条形图和直方图的区别:

(1)条形图用于展示分类数据,直方图用于展示连续数据;

(2)条形图是用条形的长度表示各类别频数的多少,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距;

(3)直方图分组数据具有连续性,所以直方图的各矩形通常是连续排列的,而条形图表示分类数据,则是分开排列;

描述分析

描述分析与频率分析的不同之处在于:

(1)描述分析提供的统计量仅适用于连续变量,频率分析既可用于分析连续变量,也可用于分析分类变量;

(2)描述分析无相应统计图绘制输出,并且提供计算的统计量也相对较少。

但在描述性分析里可以进行Z标准化。

交叉表分析

交叉表示一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算,如求和、平均值、计数等。交叉表分析是用于分析两个或两个以上分类变量之间的关联关系,以交叉表格的形式进行分类变量间关系的对比分析。它的原理是从数据的不同角度综合进行分组细分,以进一步了解数据的构成、分布特征,它是描述分析常用方法之一。类似于EXcel的数据透视表。

频率分析、描述分析都是对单个变量进行分析,交叉表可以对多个变量在不同取值情况下的数据分布情况进行分析。从而进一步分析变量之间的相互影响和关系。

多选题定义

在SPSS里,多选题也称为多重响应集,意为使用多个变量记录答案,其中每个个案可以给出多个答案。

多选题数据录入的方式有两种:二分法和多重分类法。

(1)二分法:把每一个相应选项定义为一个变量,每一个变量值均做这样的定义——“0”代表未选,“1”代表选中,即对于被调查者选中的选项录入1,对未选的选项录入0。

(2)多重分类法:事先定义录入的数值,比如1,2,3,4,5分别代表选项A、B、C、D、E,并且根据多选题限选的项数确定应录入的变量个数。例如限选3项,那么需要设立3个变量,如果调查者在该题选ACD,则在3个变量下分别录入1、3、4。

在通常情况下,如果多选题没有限定选项个数,并且选项个数不多时,可以采用二分法录入。如果对选项的个数加以限定,则改用多重分类法进行录入。

数据报表制作

常见的表格类型有叠加表、交叉表和嵌套表。

(1)叠加表

同一张表中有多个同类变量的描述分析结果,可以简单地理解为对每个变量分别做同样的分析,然后将结果拼接在一起。

叠加表示意图

(2)交叉表

它是一种行列交叉的分类汇总表格,行和列上至少各有一个分类变量,行和列的交叉处可以对数据进行多种汇总计算,如计数、百分比、求和、平均值等。

交叉表示意图

(3)嵌套表

它是指多个变量放置在同一个表格维度中,也就是说,分析维度是由两个及以上变量的各种类别组合而成的。嵌套表主要应用在需要展现较多的统计指标时,能够使结果更为美观和紧凑。

嵌套表示意图

我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=16uhfxjtsalsw

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

绿幕通通扔掉 ੧ᐛ੭ | 谷歌AI实时「抠」背景

大场面的科幻动作片,拍摄过程肯定离不开绿幕。 ? 制作过程更加磨人。 抠绿+后期要做到完美(空间位置关系、光影关系),不仅要求细心,还得堆大量时间。 为了让影视...

39240
来自专栏ATYUN订阅号

OpenAI发布分析报告:AI计算量6年增长30万倍,翻倍趋势将持续下去

OpenAI发布的分析显示,自2012年以来,最大规模的人工智能训练运行所使用的计算量呈指数增长,3.5个月翻一倍(相比之下,摩尔定律需要18个月)。自2012...

12010
来自专栏机器之心

教程 | 深度学习初学者必读:张量究竟是什么?

选自Kdnuggets 作者:Ted Dunning 机器之心编译 参与:晏奇、吴攀 今天很多现有的深度学习系统都是基于张量代数(tensor algebra...

35250
来自专栏AI科技评论

清华大学岂凡超:义原的介绍和义原的自动推荐 | AI研习社76期大讲堂总结

义原(Sememe)在语言学中是指最小的不可再分的语义单位,而知网(HowNet)则是最著名的义原知识库。近些年来,包括知网在内的语言知识库在深度学习模型中的重...

14030
来自专栏AI科技大本营的专栏

AI 行业实践精选:深度学习股市掘金

【AI100 导读】近年来在图像和语音识别等领域,深度学习技术所取得的突破引起了很大关注。目前在金融领域,深度学习的应用也越来越广泛。那么,深度学习可否应用到股...

27140
来自专栏大数据挖掘DT机器学习

机器学习,数据挖掘在研究生阶段大概要学些什么?

作者:豆豆叶 中国科学技术大学数学系 机器学习,数据挖掘在研究生阶段大概要学些什么?能给一个梗概或者方向么? 这是一个很难回答的问题,每个人的基础不同起点也...

573100
来自专栏SIGAI学习与实践平台

理解计算:从√2到AlphaGo ——第1季 从√2谈起

计算的概念看似简单却又十分宽泛,它实际上是计算机学科永远不变的核心内容,就算现在所谓的人工智能,在我看来也不过是一种计算或计算结果的应用。本文将从简单的例子出发...

10930
来自专栏机器之心

学界 | 反超GPU:微软提出在CPU上高效解码的神经机器翻译模型

选自arXiv 机器之心编译 参与:黄玉胜、李泽南 在最近一次机器学习热潮中,GPU 一直是承担神经网络模型训练和处理的主要计算设备,大多数模型都是针对 GPU...

34540
来自专栏生信宝典

数据可视化基本套路总结

真依然很拉风,简书《数据可视化》专栏维护者,里面有很多优秀的文章,本文便是其中一篇。

57320
来自专栏机器人网

学习人工智能需要哪些必备的数学基础?

当下,人工智能成了新时代的必修课,其重要性已无需赘述,但作为一个跨学科产物,它包含的内容浩如烟海,各种复杂的模型和算法更是让人望而生畏。对于大多数的新手来说,如...

42590

扫码关注云+社区

领取腾讯云代金券