概率的概率分布 Beta-分布（2）

生信编程日常

发布于 2020-04-24 15:51:21

1.3K0

发布于 2020-04-24 15:51:21

文章被收录于专栏：生物信息学、python、R、linux

1. Beta分布的数学期望和方差为：

2. 共轭先验

2.1定义

共轭先验是指的在贝叶斯学派中，如果先验分布和后验分布属于同类，则先验分布与后验分布被称为共轭分布，而先验分布被称为似然函数的共轭先验（Conjugate prior）。

先验分布贝叶斯学派认为，在我们获得样本结果之前，应该对这个事件有一个认知。在实验之前加入主观判断，可能会取得更好的结果。
后验分布根据样本的先验分布，再加上实际数据的分布，利用条件概率公式等得到的结果。
似然函数似然有的时候可能与概率差不多，但是两者的关注点不同。比如我们投硬币，假设这个硬币是质地均匀的公平硬币，连续投两次，都出现正面的概率是0.25；而似然主要关注，都出现了正面的情况下，这枚硬币是否是个公平硬币。当两面都是正面的朝上的似然函数：（其实以结果来看，更偏向于质地不均匀）

2.2 Beta分布与二项分布共轭先验

二项分布的似然函数为：

将Beta分布和二项分布都代入贝叶斯公式中：(图片来自https://towardsdatascience.com/conjugate-prior-explained-75957dc80bfb)

可以看到后验分布同样是Beta分布，与先验分布一致。参数变成了(x+α, n-x+β)。

3. 例子

关于Beta分布不得不提到经典的击棒球的例子 (参考http://www.datalearner.com/blog/1051505532393058)。

棒球中的平均击球率是用一个运动员击中棒球的次数除以他总的击球数量，棒球运动员的击球概率一般在0.266左右。假设我们要预测一个运动员在某个赛季的击球率，我们可以计算他以往的击球数据计算平均击球率。但是在赛季刚开始的时候，他击球次数少，因此无法准确预测。比如他只打了一次球，那击球率就是100%或者0。但是显然我们并不会这样预测。在这个例子中：

先验 Beta分布

假设所有的运动员击球率在0.27左右，范围一般是0.21到0.35之间。可以用参数α=81和β=219的Beta分布表示。因为当这两个值时，期望是α/(α+β)，即0.27；并且分布的主要区间在0.2-0.35之间。

set.seed(1)
x<-seq(-5,5,length.out=10000)
y<-dbeta(x, 81, 219)
  
plot(x,y,col="red",xlim=c(0,1),ylim=c(0,20),type='l',
     xaxs="i", yaxs="i",ylab='density',xlab='',
     main="The Beta Density Distribution")

legend("topright",legend="α = 81, β = 219")

实际数据二项分布假设，到目前为止，这个运动员在这个赛季总共打了n次球，击中了x次，这满足二项分布。
后验分布

由于 Beta分布与二项分布共轭先验，由上面的推导可知，后验分布仍然满足Beta分布。结果变成了Beta(α+x,β+(n−x))。

因此，假如我们知道在这个赛季，该运动员打了300次球，击中了100次，那么最终的后验概率为Beta(181, 419)。

set.seed(1)
x<-seq(-5,5,length.out=10000)
y<-dbeta(x, 81, 219)
  
plot(x,y,col="red",xlim=c(0,1),ylim=c(0,25),type='l',
     xaxs="i", yaxs="i",ylab='density',xlab='',
     main="The Beta Density Distribution")

lines(x = x, y = dbeta(x, 181, 419), col = "green")
legend("topright",legend=paste("α =", c(81, 181)," β =", c(219, 419)), lwd=1, col=c("red", "green"))