前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >概率分布:掌握事态谋定千里外

概率分布:掌握事态谋定千里外

作者头像
herain
发布2022-04-27 15:02:33
2370
发布2022-04-27 15:02:33
举报
文章被收录于专栏:数据指象

世界充满不确定性,每一个人都不断的在搜寻各种信息来消弱不确定性,提高自己判断选择的胜算,不确定性推衍出多种事态的发展:比如明天的天气,可能晴空万里,可能乌云密布,可能晴转多云。

1,为什么要在多种事态中做判断呢?

因为对事态的判断,是一种思想的认知选择,指导我们下一步的具体行动,最重要的是这种认知选择是有价值的,认知的选择的价值和判断的准确性、事态的重要性成正相关。

比如:天气的认知判断:明天绝对下雨,指导你出门前带一把雨伞,来应对下雨这种事态的出现,避免下雨耽误自己的大事。如果你判断错了呢?意味着超出认知判断的事态发生来,就会引发一连串的(难以预料)事态变化。

正如一个有名的故事:“因为失去一个马蹄铁,继而失去一匹马,失去一个骑士,失去一场战场,毁灭了一个帝国”。人都惧怕不确定性中的不同事态。

2,怎样把握事态,消弱不确定性?

把握事态的方法只有一个就是了解事态的迹象,可以简单为数据中的信息,万事万物是紧密相连的,就拿天气的事态变化,可以提前从天气的迹象做一个简单的判断。

在长期的生产实践中,总结出了许多自然现象与天气变化的规律,并编成了顺口易记的谚语。这些谚语可以帮助我们粗略预测天气的变化。

瓦块云,晒煞人。 馒头云,天气晴。 天上鲤鱼翻,晒谷不用摊。 早霞不出门,晚霞行千里。 鱼鳞天,不雨也风癫。 日晕三更雨,月晕午时风。

一句话:“掌握事态特征所牵连/包含的信息”。

3,怎么确定一个事态发生的可能性呢?

两个字:“概率”,一种取 [0, 1]的可能性程度的度量。概率只是一种事态发生的几率,不代表实际事态真正发生与否。随机变量就是表示不确定的事态。随机变量有离散型和连续型两种。问题来了,对一件事的不同事态(多个随机变量),怎么描述呢?

需要记住两个概念:“期望”,“方差”,构成了概率分布的主要概念就这两个。“期望”可以理解为一件事的引力基准线,牵引着不同的事态的发展,“方差”可以理解为事态的脱准力,方差越大事态就更难把握,也更难预测。期望是统计工作者期望的,方差是统计工作者失落的。

一个事件的期望来自于事态大小乘以概率的合计:

方差多种事态于期望基准距离的平方X概率的合计:

事态出现的概率分布,就是事态点在 期望基准和方差脱准力构成的二维平面的分布图。

4,主题:事态(随机变量)主要的概率分布。

概率分布的目的:反向推演出某一个事态(随机变量)发生的概率,为决策提供依据,掌控事态变化的关键。

4.1, 二项式分布:有限确定的随机变量(彼此独立),且随机变量的发生概率已知。在n次事件实验中,某个随机变量,出现的 x 次数的概率的分布。二项式分布(二维坐标轴,粗俗的理解)的期望和方差分别为:

R模拟:(概率越大,n次实验中随机变量出现的次数多)

代码语言:javascript
复制
> k=seq(0.1,0.9,0.1)> par(mfrow=c(3,3),mai=c(0.6,0.5,0.2,0.1))> for(i in 1:9)+ barplot(dbinom(0:5,5,k[i]),xlab="x",ylab="p",ylim=c(0,0.6),main=substitute(B(5,b),list(b=k[i])),col="lightblue")

实验图

4.2,正态分布很重要(因为用的地方很多)

扩展:可以了解到正态分布分布的前世今生:高斯与正态分布

不说废话,这是统计学家们,苦心推演出来的万能概率分布,是创世纪的数理统计发现。

神说,要有正态分布,就有了正态分布。

神看正态分布是好的,就让随机误差就服从了正态分布。

正态分布随机变量的概率密度公式:(不明觉厉的公式,记住就好)

R模拟:

代码语言:javascript
复制
> par(mai=c(0.75,0.75,0.1,0.1),cex=0.9)
> curve(dnorm(x,-2,1),from=-6,to=2,xlim=c(-6,6),ylab="f(x)",lty=1,lwd=1.5,col='blue')
> abline(h=0)
> segments(-2,0,-2, dnorm(-2,-2,1),lwd=1.5,col="black")

> curve(dnorm(x,2,1),from=-2,to=6,add=T,lty=2,lwd=1.5,col='green')
> segments(2,0,2, dnorm(2,2,1),lty=2,lwd=1.5,col="black")
> legend(x="topright",legend=c("N(-2,1)","N(2,1)"),lty=1:2,col=c("blue","green"),cex=0.8)

#计算正态分布的概率
> pnorm(40,mean=50,sd=10)
[1] 0.1586553
#计算正态分布的分位数
> qnorm(0.025,mean=0,sd=1)
[1] -1.959964
> 

4.3, 正态分布推演的卡方分布

卡方分布:n 个标准正态分布随机变量的平方和的分布成为具有n个自由的卡方分布。分布形状取决于自由度n的大小,通常为不对称的右偏分布,自由度增大逐渐趋于对称。

R模拟:

代码语言:javascript
复制
> par(mfrow=c(2,3),mai=c(0.6,0.6,0.2,0.1))
> n=5000
> df<-c(2,5,10,15,20,30)
> for(i in 1:6){
+ x<-rchisq(n,df[i])
+ hist(x,xlim=c(0,60),prod=T,col='lightblue',xlab="x",ylab="Density",main=paste("df=",df[i]))
+ curve(dchisq(x,df[i]),lwd=1.5,col=2,add=T)
+ }
#pchisq(10,df=15)
#qchisq(0.95,df=10)

4.4,t分布正态与卡方的结合

t分布,用t表示样本均值经过标准化后的新随机变量,因此成为t分布,也成学生分布。设随机变量Z服从标准正太分布,X服从n个自由度的卡方分布,且Z与X独立,则:

服从自由度为n的t分布。t 分布类似于正态分布,比正态分布平坦而分散,随着自由度增大逐渐趋于正态分布。

R模拟:

代码语言:javascript
复制
> 
> curve(dnorm(x,0,1), from=-3,to=3,xlim=c(-4,4),ylab="f(x)",lty=1,col=1)
There were 24 warnings (use warnings() to see them)
> abline(h=0)
> segments(0,0,0,dnorm(0),col="blue", lty=2,lwd=1.5)
> curve(dt(x,5) ,from=-4,to=4, add=T,lty=2,col=2,lwd=1.5)
> curve(dt(x,2) ,from=-4,to=4, add=T,lty=3,col=4,lwd=1.5)
> legend(x="topright",legend=c("N(0,1)","t(5)","t(2)"),lty=1:3,col=c(1,2,4))

4.5,F分布是纪念著名统计学家R. A. Fisher 以其姓氏的第一个字母而命名的,它是两个卡方分布变量的比。设U服从自由度为n1的卡方分布,V服从自由度为n2的卡方分布,且U和V独立。则:

服从自由度为n1 和n2的F分布。

R模拟:

代码语言:javascript
复制
> curve(df(x,10,20) ,from=0,to=5,xlim=c(0,5),ylab="f(x)",lty=1,col=1,lwd=1.5)
> curve(df(x,10,20) ,from=0,to=5,add=T,lty=2,col=2,lwd=1.5)
> curve(df(x,5,10) ,from=0,to=5,add=T,lty=2,col=2,lwd=1.5)
> curve(df(x,3,5) ,from=0,to=5,add=T,lty=3,col=4,lwd=1.5)
> 
> legend(x="topright",legend=c("F(10,20)","F(5,10)","F(3,5)"),lty=1:3,col=c(1,2,4))

#pf(3,df1=10,df2=8)
#qf(0.95,df1=25,df2=20)

5,总结一下:卡方分布,t分布,F分布都属于正态分布的推演,当自由度增大,它们都渐进趋于正态分布。学好这几种分布,从样本分布,推演一个随机变量的概率就很简单了,祝你在滚动的潮流中,获取掌握事态变化的方法,辅助自己决胜千里之外,成就精彩人生。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据指象 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档