前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >干货分享--统计学知识大梳理(第一部分)

干货分享--统计学知识大梳理(第一部分)

作者头像
1480
发布2020-03-05 14:50:54
6440
发布2020-03-05 14:50:54
举报

前言

道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。

笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标

目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余 目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件 目标三:为读者搭建从“理论”到“实践"的桥梁

注意:本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》

概述

你的“对象” 是谁?

此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。

一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。

二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。

因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。

分析就像在给 “爱人” 画肖像

从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。

看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。

1

第一部分

对“数据”的描述性分析

数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:

1. 集中趋势量度:为这批数据找到它们的“代表”

均值(μ)

均值的局限性

均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表

这5个人的年龄均值是:31.2岁

很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???

中位数

中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。

中位数的局限

回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。

那么我们在看一下下面一组数据,中位数的表现又如何?

中位数:45

这组数据的中位数为:45,但是中位数45并不能代表这组数据。

因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。

众数

众数是样本观测值在频数分布表中频数最多的那一组的组中值。

平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。

2. 分散性与变异性的量度

(全距,迷你距,四分位数,标准差,标准分)

全距=max-min

全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

全距的局限性

全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。

四分位数

所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。

Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。 Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。

迷你距 也叫“四分位距”

迷你距。它是一组数据中较小四分位数与较大四分位数之差。

即:迷你距= 上四分位数 - 下四分位数

迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。

全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?

我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。

方差

方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

标准差

标准差为方差的开方。

通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?

标准分——表征了距离均值的标准差的个数

标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。

标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。

第一部分小节

1. 描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。

2. 集中趋势参数:均值,中位数,众数

3. 分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分

End.

来源:PMCAFF

作者:大山里人

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档