前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计中的各种分布

统计中的各种分布

作者头像
小末快跑
发布2020-07-29 16:58:09
1.7K0
发布2020-07-29 16:58:09
举报
文章被收录于专栏:日常撸知识日常撸知识
  • 大数定理:当样本数量足够大时,这些样本的均值无限接近总体的期望。
  • 中心极限定理:不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。

1. 伯努利分布:伯努利分布:伯努利试验单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果。又名两点分布或者0-1分布。

期望值:E(x)=p;

方差:Var(x)=pq;

2. 二项分布:假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了x次,则失败次数为n-x,发生这种情况的概率可用下面公式来计算(伯努利分布是二项分布在n = 1时的特殊情况):

如果X ~ B(n, p)(也就是说,X是服从二项分布的随机变量),那么X的期望值为:

方差为:

3. 几何分布:几何分布(GeometricDistribution):在伯努利试验中,得到一次成功所需要的试验次数X。X的值域是{ 1, 2, 3,... }; 在得到第一次成功之前所经历的失败次数Y = X − 1。Y的值域是{ 0, 1, 2,3, ... }。那么k次试验中,第k次才得到成功的概率是:

期望和方差分别为:

4. 泊松分布:泊松分布解决的是“在特定时间里发生n个事件的机率”。泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数、激光的光子数分布等等,参数λ是单位时间(或单位面积)内随机事件的平均发生率:

泊松分布的期望值和方差都是λ。在二项分布中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= np比较适中,则事件出现的次数的概率可以用泊松分布来逼近。

5. 正态分布又名高斯分布(英语:Gaussiandistribution),是一个非常常见的连续概率分布,其概率密度函数为:

通常所说的标准正态分布是位置参数mu =0,尺度参数sigma^2 = 1的正态分布。

6. 指数分布:指数分布(英语:Exponentialdistribution)是一种连续概率分布。指数分布是描述泊松分布中事件发生时间间隔的概率分布。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”。一个指数分布的概率密度函数是:

其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X 呈指数分布,则可以写作:X ~ Exponential(λ)。

期望:

方差:

7. T分布:根据中心极限定理,只要样本量足够大, 统计量的 抽样分布(如样本均值)将遵循正态分布。

但是样本量有时很小,并且我们通常不知道总体的标准偏差。

当这些问题中的任何一个出现时,统计学家依赖 t统计量(也称为 t分数)的分布,其值由下式给出:

t = [ x -μ] / [s / sqrt(n)]

其中x是样本均值,μ是总体均值,s是样本的标准偏差,n是样本大小。所述的分布被称为 t分布。

用于根据小样本来估计呈正态分布且方差未知的总体的平均值。如果方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

(英国人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,当时他还在爱尔兰都柏林的吉尼斯(Guinness)啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与酿酒研究有关的成果,但允许他在不提到酿酒的前提下,以笔名发表t分布的发现,所以论文使用了“学生”(Student)这一笔名。之后t检定以及相关理论经由罗纳德·费雪(Sir Ronald Aylmer Fisher)发扬光大,为了感谢戈塞的功劳,费雪将此分布命名为学生t分布(Student's t))

8. 伽马分布:假设X1, X2, ... Xn 为连续发生事件的等候时间,且这n次等候时间为独立的,那么这n次等候时间之和Y (Y=X1+X2+...+Xn)服从伽玛分布,即 Y~Gamma(α , β),其中α = n, β = λ。这里的 λ 是连续发生事件的平均发生频率。指数分布是伽玛分布α = 1的特殊情况。伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”。所以,伽玛分布可以看作是n个指数分布的独立随机变量的加总:

这里a=n, 当a=1时,伽马分布就是指数分布,所以伽马分布就是n个指数分布的和。伽马分布期望和方差:

Gamma分布中的参数α称为形状参数(shape parameter),β(就是λ)称为尺度参数(scale parameter)。

9. 卡方分布:chi-squaredistribution。k个独立的标准正态分布变量的平方和服从自由度为k的卡方分布。若k个独立的随机变量Z1,Z2,⋯,Zk,且符合标准正态分布N(0,1),则这k个随机变量的平方和:

服从卡方分布,记为:

卡方分布的期望,其中n为卡方分布的自由度。:

方差,其中n为卡方分布的自由度。:

χ2表示观察值与理论值之间的偏离程度。

χ2的计算公式:

其中,A为实际值,T为理论值。自由度的概念:自由度v=(行数-1)*(列数-1)。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小末快跑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档