前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >方差分析和F分布

方差分析和F分布

作者头像
小小杨
发布2021-10-13 10:29:52
8500
发布2021-10-13 10:29:52
举报
文章被收录于专栏:下落木下落木

方差分析由来

问题:两块地用不同的混合肥料,马铃薯的产量是否会不同?

英国人费希尔的做法是在农田中种上马铃薯,不同部分施用不同的混合肥料。然后在收获后对数据进行采样,看不同实验组的产量是否不同。

两个问题

费希尔也知道,马铃薯不是什么工业产品,本身产量就会有波动,肯定不能说某个实验组产量多了20%就说该组施用的混合肥料有效果,至少需要考虑以下两个问题

(1)概率。马铃薯的产量X本身具有随机性,比如说服从某正态分布:

根据该分布,产量在-20%-20%之间波动可能性较大,因此如果某实验组产量多了20%,并没有把握说混合肥料产生了效果(因为不可能知道所有马铃薯的产量,所以无法真正算出μ,也就不可能真正知道该正态分布N(μ,σ^2),因此用虚线画出):

而产量在50%之上的波动可能性较小,因此如果某实验组产量多了50%,那么说明混合肥料可能真的产生了效果:

就此,费希尔设计了组间方差这个统计量,当组间方差较大的时候,说明发生了低概率事件,从而说明混合肥料可能真的产生了效果。

(2)原因。马铃薯的产量X如果是随机波动,那么应该是有增有减的。

比如从某个实验组中采样得到五株马铃薯,记录每株的重量,得到五个点。

算出该实验组的平均产量X'相对于μ增加了20%,并且五个点相对于μ有增有减,分散在X'的四周,这就说明重量变化是由于随机波动造成的:

如果某个实验组平均产量X'相对于μ还是只增加了20%,但组内所有的马铃薯植株上的产量都是增加,紧密的围绕在X'的附近,那么说明混合肥料可能真的产生了效果,造成组内所有马铃薯的重量都增加了:

就此,费希尔设计了组内方差这个统计量,当组内方差较小的时,说明该试验组的普遍增产(或减产),也说明混合肥料可能真的产生了效果(组间方差、组内方差这两个统计量接下来会进一步介绍)。

假设检验

综合上面两个问题,费希尔设计了一个假设检验:

  1. 假设:混合肥料没有效果,也就是各个实验组的产量的均值相同
  2. 检验:设计了组间方差/组内方差这个统计量,当实验组得到的数据使得该统计量足够大时,那么就可以推翻上述假设,得到混合肥料有效果的结论

从抽样到计算完成该假设检验,就称为方差分析。

实战

下面用具体的数据进行下实战讲解。假设有A、B、C三组马铃薯,每组施用不同的肥料。

在每组中各选五株,记录每株产出的马铃薯的重量,所得表格如下:

根据上面表格,画出来的图像是这样的:

可以看出:

  1. 发生了低概率事件,即A组的样本均值XA'远离μ
  2. 原因很可能是由于混合肥料导致,因为A组内的重量紧密围绕在XA'附近,这说明整体都增产了,而不是随机波动

所以是很有把握认为这三组产量不同,并且是由于混合肥料导致的。当然上面是定性分析,下面看看如何定量分析。

组间方差

首先需要知道发生了低概率事件,即是否有某组(在本例中是A组)的样本均值远离μ。

因为μ是没有办法真正知道的,实际计算时只能用所有样本的均值X'来代替(本例中就是15株马铃薯的均值),然后计算各个实验组的样本均值与X‘的距离,累加起来就得到了组间方差:

忽略其中的常数,可以看出,组间方差较大时说明发生了低概率事件。

组内方差

将各个实验组的方差加起来就得到了组内方差(其中也多了些常数,暂时可以不用管):

其中xAi、xBi、xCi是各组内的某株马铃薯的重量。

组内方差越小,说明各个实验组变换越一致,越有可能是由混合肥料导致的。

统计量构造

费希尔接着构造了组间方差/组内方差这么一个统计量,它综合了“概率”和“原因”这两个角度。

为了说明这点,我们又对之前的A、B、C三组进行了多次实验,得到不同的组间方差、组内方差:

解读下:

  1. 第一行,组间方差大,说明可能发生了低概率事件;组内方差小,说明组内变化可能一致。本文的例子算出来就是该行。那么有充分的理由相信,这三组中其中某组(也可能是某两组、某三组)的产量有所不同,并且这种不同很可能是由于混合肥料造成的
  2. 第二行,组间方差一般大,组内方差也是一般大,没有充分的理由相信这三组是不同的,保守一点,我们判断这三组是相同的
  3. 第三行,组间方差足够小,说明可能没有发生低概率事件;组内方差足够大,说明可能组内的变化不一样。那么还是保守地判断这三组是相同的

可见统计量组间方差/组内方差越大,那么三组不同的可能性越大。那具体要大到什么程度,才有把握说三组是不同的呢?

这就需要F分布进行最后的检验(F就是Fisher的首字母,所以你也可以称之为费希尔分布)。

F分布

可以证明,满足某些条件的情况下(比如总体和样本都是正态分布),统计量组间方差/组内方差是服从F分布的:

此时,当组间方差/组内方差的值足够大,大到落入F分布的右边区域(也称为拒绝域)时,就有把握说三组是不同的:

至此就完成了假设检验,也就是完成了方差分析:

  1. 假设:混合肥料没有效果,也就是各个实验组的样本均值相同
  2. 检验:计算统计量组间方差/组内方差的值,如果所得值落入F分布的拒绝域,那么就拒绝原假设,否则就接受

t检验

t检验和方差分析的区别在于,t检验是判断两组数据是否不同,而方差分析可以判断三组或者更多组数据是否存在不同。

从本文介绍可知,方差分析只是知道了这三组是否有差异,具体是到是哪组有差异,还需要别的统计方法。比如对这三组两两进行t检验。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 下落木 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 两个问题
  • 假设检验
  • 实战
    • 组间方差
      • 组内方差
        • 统计量构造
        • F分布
        • t检验
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档