前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >当我们在说方差分析时,我们在说些什么?

当我们在说方差分析时,我们在说些什么?

作者头像
邓飞
发布2019-09-25 09:51:37
1.3K0
发布2019-09-25 09:51:37
举报

当我们在说方差分析时,我们在说些什么?

方差分析系列1的主要内容:

  • 方差分析的定义
  • 方差分析的几个概念
  • 方差分析和T检验的关系
  • 一类错误和二类错误
  • 方差分析的思想与数量遗传学

1. 方差分析定义

方差分析或变方分析(Analysis of variance,简称ANOVA)为数据分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变项的因子中包含等于或超过三个类别情况下,检定其各类别间平均数是否相等的统计模式,广义上可将T检定中方差相等(Equality of variance)的合并T检定(Pooled T-test)视为是方差分析的一种,基于T检定为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检定的分析上时,产生的F值则会等于T检定的平方项。

方差分析依靠F-分布为概率分布的依据,利用平方和(Sum of square)与自由度(Degree of freedom)所计算的组间与组内均方(Mean of square)估计出F值,若有显著差异则考量进行事后比较或称多重比较(Multiple comparison),较常见的为薛费法(事后比较法)、杜其范围检定与邦费罗尼校正,用于探讨其各组之间的差异为何。

在方差分析的基本运算概念下,依照所感兴趣的因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类,依照因子的特性不同而有三种型态,固定效应方差分析(fixed-effect analysis of variance)、随机效应方差分析(random-effect analysis of variance)与混合效应方差分析(Mixed-effect analaysis of variance),然而第三种型态在后期发展上被认为是Mixed model的分支,关于更进一步的探讨可参考Mixed model的部分。

方差分析优于两组比较的T检验之处,在于后者会导致多重比较(multiple comparisons)的问题而致使第一型错误(Type one error)的机会增高,因此比较多组平均数是否有差异则是方差分析的主要命题。

在统计学中,方差分析(ANOVA)是一系列统计模型及其相关的过程总称,其中某一变量的方差可以分解为归属于不同变量来源的部分。其中最简单的方式中,方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的T检验。在做多组双变量T检验的时候,错误的概率会越来越大,特别是第一型错误,因此方差分析只在二到四组平均值的时候比较有效。

---wiki百科--

育种数据中,想要看几个品种在不同地点的表现,有些品种产量高,有些品种产量低,问题是这些产量高的品种是由于误差造成的,还是它本身的基因型导致的产量高,这就需要用科学的方法进行检验,进行品种的筛选。检测不同品种显著性的方法,最常用的就是方差分析。

2. 方差分析几个概念

1.因素

因素是一个独立的变量,也就是方差分析研究的对象,也称为因子。如:我们要分析饮料的颜色对饮料的销售量是否有影响,在这里,“饮料的颜色”是所要检验的对象,它就是一个因素。在有的书中把因素称为“因子”。

2.水平

因素中的内容称为水平,它是因素的具体表现。如:“饮料的颜色”这一因素中的水平有四个,即饮料的四种不同颜色:无色、粉色、桔黄色、绿色;它们是“饮料的颜色”这一因素的四种具体表现。因素的每一个水平可以看作是一个总体,比如:无色、粉色、桔黄色、绿色饮料可以看作是四个总体。

3.控制变量

在方差分析中,能够人为控制的影响因素称为控制因素,或控制变量;如:例1中,“饮料的颜色”对于饮料的销售量而言,是能够人为控制的影响因素,称为控制变量。

4.随机变量

在方差分析中,人为很难控制的影响因素称为随机因素,或随机变量;如:例1中,“人们对不同颜色的偏爱”对于饮料的销售量而言,是人为很难控制的影响因素,称为随机变量。

5.观察变量与观察值

在方差分析中,受控制因素和随机因素影响的事物,称为观察变量。在每个水平下得到的样本数据称为观察值。如:例1中,销售量是观察变量,在每个饮料颜色下得到的样本数据(即表10-1中的数据)就是观察值。

品种试验中,术语对应关系:

  • 因素:品种就是因素或者因子(factor)
  • 水平:10个品种,每个品种就是因素的一个水平(level)
  • 控制变量:我们可以控制的因素,比如品种
  • 随机变量:我们不能控制的因素,比如残差
  • 观测值:我们想要考虑的性状,比如产量

3. 方差分析和T检验

T检验是两两之间的检验,判断一个因素的两个水平是否一样,如果品种比较多,比如郑单958,先玉335,伟科702,就需要比较3个T检验,如果它犯错的可能是0.05(一类错误),那么三组试验至少有一个错误的概率为3*0.05 = 0.15,很大的概率有没有,而方差分析只需要一次试验,降低一类错误。

所以,在多个水平时,方差分析要优于T检验

4. 一类错误和二类错误

  • 一类错误:假阳性 本来是不显著的,然后统计推断达到了显著性,是错误的
  • 二类错误:假阴性 本来是显著的,然后统计推断不显著性,是错误的

在这里插入图片描述

5. 方差分析和数量遗传学

方差分析的方法,重要的是变异分解这个思路,与线性模型关联在了一起,然后数量遗传学也将表型值分为基因型值与环境效应,育种是针对表型数据间接选择基因型值,这个思路如此简洁,又意义重大。

在没有科学的思路之前,育种就像无头的苍蝇一样,杂乱无章法。遗传力高的时候,表型选择有效,遗传力低时表型选择就很吃力。

5.1 方差分析原理1:表型值剖分

比如10个品种的产量,用完全随机区组设计,重复3次,得到产量的值,如何判断这10个品种好坏?

我们用线性模型,将产量进行分解:

用数学公式表示:

  • y: 产量
  • mu: 平均值
  • beta: 品种效应值
  • epsilon: 误差

在这里插入图片描述

5.2 方差分析原理2:组间变异和组内变异
  • 组间变异:品种间的变异
  • 组内变异:品种内误差变异
5.3 方差分析原理3:组间变异/组内变异

如果品种间的变异远远大于组内的变异,及品种的差异远远大于误差,说明品种间的差异是真实的,即品种间达到显著水平,这里的SA和SE要除以自由度,得到F值,然后根据分子和分母的自由度,计算F值对应的P值。

5.4 方差分析和数量遗传学

在育种中,我们感兴趣的不是beta是否达到极显著,而是要得到beta的值(效应值,育种值),然后根据它进行品种筛选,因为它代表着品种的真实表现,它排除了误差和环境造成的影响。

由方差分析的变异分解,到育种值,到配合力,到BLUP值,到GBLUP,HBLUP,都是这种思路的延伸,不同的是使用一般线性模型,混合线性模型,贝叶斯模型等等

6. 参考资料

https://gisersqdai.top/2017/06/11/%E5%BA%94%E7%94%A8%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B8%8ER%E8%AF%AD%E8%A8%80%E5%AE%9E%E7%8E%B0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E5%85%AB%EF%BC%89%E2%80%94%E2%80%94%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90/ http://www.cmtsa.org/uploads/soft/140806/%E7%AC%AC7%E7%AB%A0%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf http://math.sjtu.edu.cn/faculty/chengwang/files/2015spring/%E6%96%B9%E5%B7%AE%E5%88%86%E6%9E%90.pdf https://www.jianshu.com/p/f5f54a39cb19

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 当我们在说方差分析时,我们在说些什么?
    • 1. 方差分析定义
      • 2. 方差分析几个概念
        • 3. 方差分析和T检验
          • 4. 一类错误和二类错误
            • 5. 方差分析和数量遗传学
              • 5.1 方差分析原理1:表型值剖分
              • 5.2 方差分析原理2:组间变异和组内变异
              • 5.3 方差分析原理3:组间变异/组内变异
              • 5.4 方差分析和数量遗传学
            • 6. 参考资料
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档