前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >干货分享--统计学知识大梳理(第二部分)

干货分享--统计学知识大梳理(第二部分)

作者头像
1480
发布2020-03-05 20:10:02
5400
发布2020-03-05 20:10:02
举报
文章被收录于专栏:数据分析1480数据分析1480

1

第二部分

关于“事件”的研究分析

概率论

1. 一个事件的情况

为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。

事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。 概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!! 概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。

概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布

期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)

方差:表征了事件不同结果之间的差异或分散程度。

2. 细说分布

理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。

因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。

“离散型”数据和“连续性”数据差异

在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?

离散数据: 一个粒儿,一个粒儿的数据就是离散型数据。 连续数据: 一个串儿,一个串儿的数据就是连续型数据。

好啦,开个玩笑!!!别打我,下面分享干货!!!

其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。

举个例子:

人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。

对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。

清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。

离散型分布

离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。

连续型分布

连续型分布本质上就是求连续的一个数据段概率分布。

正态分布

f(x)----是该关于事件X的概率密度函数

μ --- 均值

σ^2 ---方差

σ ---标准差

绿色区域的面积 ---该区间段的概率

正态分布概率的求法

step1 --- 确定分布和范围 ,求出均值和方差 step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?) step3 ---查表找概率

离散型分布 → 正态分布 (离散分布转化为正态分布)

精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)

3. 多个事件的情况:“概率树”和“贝叶斯定理”

多个事件就要探讨事件和事件之间的关系

对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件 穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1 互斥事件:如何A和B为互斥事件,那么A和B没有任何交集 独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。

例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。

相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。

例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。

条件概率(条件概率,概率树,贝叶斯公式)

条件概率代表:已知B事件发生的条件下,A事件发生的概率

概率树 --- 一种描述条件概率的图形工具。

假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。

从图中我们可以发现以下两个信息:

1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件

2. 概率树每个层级分支的概率和都是1

贝叶斯公式 ----提供了一种计算逆条件概率的方法

贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

第二部分小节

1. 事件,概率,概率分布之间的关系

2. 期望,方差的意义

3. 连续型数据和离散型数据之间的区别和联系

4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布

5. 离散分布和正态分布可以转化

6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式

End.

来源:PMCAFF

作者:大山里人

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据分析1480 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档