前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >卡方检验在关联分析中的应用

卡方检验在关联分析中的应用

作者头像
生信修炼手册
发布于 2019-12-17 08:33:26
发布于 2019-12-17 08:33:26
2.4K00
代码可运行
举报
文章被收录于专栏:生信修炼手册生信修炼手册
运行总次数:0
代码可运行

case/control的关联分析,本质是寻找在两组间基因型分布有差异的SNP位点,这些位点就是候选的关联信号,常用的分析方法有以下几种

  1. 卡方检验
  2. 费舍尔精确检验
  3. 逻辑回归

卡方检验是一种用途广泛的假设检验,属于非参数的检验一种,适合针对分类变量的分析。从形式上看,数据是由行和列对应的两个分类变量构成的表格,示意如下

对于case/control的关联分析,我们有两个分类变量,第一个就是样本的分组, 有case和control两组;第二个是Allel或者基因型的类别,对于Allele而言有两种,major和minor allele。对于基因型而言, 在上图中有AA, Aa, aa3种,当然在实际分析中,还会考虑遗传模型进一步对基因型的类别进行划分,常用的遗传模型有以下几种

  1. domanant model, 显性遗传模型,只要有突变位点就会致病,所以杂合突变和纯合突变归位一类,基因型就划分为两类,第一类为AA和Aa, 第二类为aa
  2. recessive model, 隐性模型, 只有纯合突变会致病,基因型同样划分为两类,第一类为纯合突变AA, 第二类为非纯合突变,Aa和aa
  3. additive model, 相加模型,突变位点的个数会影响性状的表型值,而且是累加关系,纯合突变的突变位点个数是杂合突变的2倍,对应的性状是不同的,基因型划分为3类, AA,Aa, aa
  4. multiplicative model, 相乘模型,突变位点的个数会影响性状的表型值,而且是相乘关系,纯合突变的突变位点个数是杂合突变的4倍,对应的性状是不同的,基因型划分为3类, AA,Aa, aa

以上模型根据划分的类别可以分为3大类,第一类是显性遗传模型,第二类是隐性遗传模型,第三类是additive, multiplicative model和常规的基因型分类,这三种模型都是划分为了3种基因型。

对于卡方检验,首先需要根据表格中的频数分布计算卡方统计量,公式如下

A表示实际频数,T表示理论频数,从公式可以看到,卡方统计量代表的是实际值与理论值之间的差异。看一个具体的例子

Genotype

AA

Aa

aa

Case

30

15

55

Control

28

12

60

上图表示的是两组实际观测到的基因型频数分布,对应的频率分布如下

Genotype

AA

Aa

aa

Case

30%

15%

55%

Control

28%

12%

60%

从数值上看,直观的可以看两组间分布有差异,但是这个差异是由抽样导致的误差还是真实存在的差异不知道。先假设两组间没有差异,合并样本,再次统计对应的频率,分别为29%, 13.5%,57.5% ,这3个数值就是理论频率, 根据这个频率来计算理论频数

Genotype

AA

Aa

aa

Case

100 x 29%

100 x 13.5%

100 x 57.5%

Control

100 x 29%

100 x 13.5 %

100 x 57.5 %

然后通过公式来计算卡方值,最终的计算结果为0.61969, 对应的R代码如下

从上图可以看到,对于卡方检验,除了卡方值X-squared之外,还有df和p-value两个值。df表示自由度,取值为(行数 - 1) X (列数 - 1), 上述数据为2X3的表格,自由度为2。为什么要考虑自由度呢?

这就要从卡方分布的定义说起,对于N个符合标准正态分布的变量,其平方和服从卡方分布,自由度指的就是这里的N, 不同自由度卡方分布是不同的,如下图所示

上图所示是不同自由度下卡方值的密度分布,不同自由度之间差别很大,所以我们需要先明确对应的自由度才可以利用卡方值来做出判断。利用自由度和卡方值,我们需要去查询卡方值分布表,获得对应的p值。在R中对应的操作代码如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1 - pchisq(0.6196902, df = 2)
[1] 0.7335606

pchisq代表是卡方值的累计分布函数,代表卡方值小于0.6196902的概率。卡方分布表中为大于阈值的概率,示意如下

卡方值越小,对应的概率越大。自由度为2,P=0.05对应的卡方临界值为5.99, 上述示例的卡方值小于该临界值,说明发生的概率大于0.05,拒绝原假设,case/control组间差异不显著。

卡方检验虽然使用范围广泛,但还是有一些限制,样本量必须大于40, 而且最小的频数不能小于5, 这里的频数指的是理论频数

对于2X2的数据,当不满足要求时,推荐使用费舍尔精确检验来进行分析。

·end·

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
plink中case/control关联分析细节解析
作为关联分析最常用的工具,plink支持多种关联分析的算法。对于经典的case/control关联分析,该软件支持allele和genotype两个层次的关联分析,具体做法如下
生信修炼手册
2019/12/19
3.1K0
plink中case/control关联分析细节解析
Cochran-Armitage趋势检验在关联分析中的应用
Cochran-Armitage trend test,简称为CAT趋势检验,是由William Cochran和Peter Armitage提出的一种分析两个分类变量关联性的检验方法,和卡方检验不同的是,该方法要求其中一个分类变量必须只有两个类别,另外一个变量则是一个有序的分类变量。
生信修炼手册
2019/12/17
3.1K0
Hardy–Weinberg equilibrium
Hardy–Weinberg equilibrium,叫做哈迪-温伯格平衡。该定律提出,对于一个足够大的群体,在群体中各个个体之间随机交配,在没有突变,个体迁移,遗传漂变等因素发生的情况下,这个种群的基因频率和基因型频率可以一代代稳定不变,保持平衡。
生信修炼手册
2020/05/11
1.2K0
R语言实现VCF文件的处理可视化
基因突变数据大家应该很熟悉,作为突变信息的存储文件VCF文件,记录了突变的位点以及对应的突变信息。文件分为三个部分 ‘#’号开头行——meta, 非#号开头行分为fix和gt两个部分。fix部分存储vcf文件中非#号开头行的前7列,分别是染色体编号、碱基位置、ID、参考碱基、变异碱基、质量值、是否过滤;gt 部分存储两部分内容format、样本基因型。今天给大家介绍下在R语言中处理vcf文件的包vcfR。首先看下包的安装:
一粒沙
2021/10/21
5.3K1
【机器学习 | 假设检验系列】假设检验系列—卡方检验(详细案例,数学公式原理推导),最常被忽视得假设检验确定不来看看?
【机器学习 | 假设检验系列】假设检验系列—卡方检验(详细案例,数学公式原理推导),最常被忽视得假设检验确定不来看看? 作者: 计算机魔术师 版本: 1.0 ( 2023.8.27 )
计算机魔术师
2023/12/18
2.2K0
【机器学习 | 假设检验系列】假设检验系列—卡方检验(详细案例,数学公式原理推导),最常被忽视得假设检验确定不来看看?
基于家系数据的GWAS分析
通过GWAS分析可以寻找与某一疾病或性状相关的突变位点,传统的GWAS都是基于control/case的设计,通过比较健康人群和患病人群中突变位点或者基因型频率的差异,最终确定相关的位点。
生信修炼手册
2020/05/11
1.3K0
基于家系数据的GWAS分析
笔记 | GWAS 操作流程2-4:哈温平衡检验
「什么是哈温平衡?」 ❝哈迪-温伯格(Hardy-Weinberg)法则 哈迪-温伯格(Hardy-Weinberg)法则是群体遗传中最重要的原理,它解释了繁殖如何影响群体的基因和基因型频率。这个法则是用Hardy,G.H (英国数学家) 和Weinberg,W.(德国医生)两位学者的姓来命名的,他们于同一年(1908年)各自发现了这一法则。他们提出在一个不发生突变、迁移和选择的无限大的随机交配的群体中,基因频率和基因型频率将逐代保持不变。---百度百科 ❞ 「怎么做哈温平衡检验?」 ❝「卡方适合性检验!」
邓飞
2020/04/27
4.7K0
皮尔逊χ²检验(Pearson's Chi-squared Test)
皮尔逊χ²检验(Pearson's Chi-squared Test),也称为卡方检验,是由英国统计学家卡尔·皮尔逊(Karl Pearson)在19世纪末提出的。它是统计学中最常用的一种非参数检验方法,最初设计用于评估观察频数与期望频数之间是否存在显著差异,常用于推断分类变量间的独立性或拟合优度检验。
jack.yang
2025/04/05
2210
皮尔逊χ²检验(Pearson's Chi-squared Test)
费舍尔精确检验在关联分析中的应用
和卡方检验类似,费舍尔精确检验同样也是分析两个分类变量关联性的假设检验,适用于样本个数很小的情况。在卡方检验中,对应的统计量只有在样本数量足够大的情况下才符合卡方分布,所以卡方分布中做了近似处理,近似认为对应的统计量服从卡方分布,而费舍尔精确检验在分析对应的p值时没有做任何的近似处理,所以称其计算出来的p值很精确。
生信修炼手册
2019/12/17
1.3K0
当我们在说方差分析时,我们在说些什么?
方差分析或变方分析(Analysis of variance,简称ANOVA)为数据分析中常见的统计模型,主要为探讨连续型(Continuous)资料型态之因变量(Dependent variable)与类别型资料型态之自变量(Independent variable)的关系,当自变项的因子中包含等于或超过三个类别情况下,检定其各类别间平均数是否相等的统计模式,广义上可将T检定中方差相等(Equality of variance)的合并T检定(Pooled T-test)视为是方差分析的一种,基于T检定为分析两组平均数是否相等,并且采用相同的计算概念,而实际上当方差分析套用在合并T检定的分析上时,产生的F值则会等于T检定的平方项。
邓飞
2019/09/25
1.5K0
当我们在说方差分析时,我们在说些什么?
MDR多因子降维分析实战
MDR多因子降维法是逻辑回归的一种补充,可以有效进行基因和基因,基因和环境因素之间的相互作用分析,核心算法如下
生信修炼手册
2019/12/19
1.8K0
MDR多因子降维分析实战
这篇15分文章还留了个惊喜给你!
今天和大家分享的是2020年6月发表在Molecular Cancer(IF:15.302)上的一篇文章,“The genetic and pharmacogenomic landscape of snoRNAs in human cancer”,本篇文章中,作者研究了遗传变异对snoRNA表达的影响,以及snoRNA表达对药物反应的影响。为了使其他研究人员可以获得这些数据,作者还建立了一个用户界面友好的数据库——GPSno,希望能为未来基于snoRNA的靶向治疗的发展提供帮助。
科研菌
2020/08/17
5600
这篇15分文章还留了个惊喜给你!
Variant 分析阶段小结1-基础碎碎念
所谓遗传变异是生物体内遗传物质发生变化而造成的可以遗传给后代的变异,这些变异导致了生物在不同水品上体现出遗传的多样性。生物信息学中各种基因组研究的基础就是遗传变异的研究,比如进化和各种表型的研究。
生信技能树
2018/07/27
1.7K0
Variant 分析阶段小结1-基础碎碎念
Cochran-Mantel-Haenszel检验在关联分析中的应用
Cochran-Mantel-Haenszel, 简称CMH检验,是分析两个二分类变量之间关联性的一种检验方法,在2 x 2 表格数据的基础上,引入了第三个分类变量,称之为混杂变量。混杂变量的引入使得该检验可以用于分析分层样本,作为生物统计学领域的一种常用技术,该检验常用于疾病对照研究。
生信修炼手册
2019/12/19
2.9K0
Cochran-Mantel-Haenszel检验在关联分析中的应用
SnpSift学习笔记(三)
本篇主要介绍caseControl, rmRefGen, tstv, rmInfo, gt, vcfcheck这6个命令的用法。
生信修炼手册
2020/05/11
5170
使用plink进行case/control关联分析
本篇文章按照plink官方提供的教程,进行一个实际操作。可以看做是官方教程的一个翻译版本。官方教程的链接如下
生信修炼手册
2020/05/11
2.3K0
Python数据科学:卡方检验
如果其中一个变量的分布随着另一个变量的水平不同而发生变化时,那么两个分类变量就有关系。
小F
2020/10/09
3K0
Python数据科学:卡方检验
SPSS卡方检验结果解读详解
卡方检验(Chi-Square Test)是由Pearson提出的一种统计方法,在一定的置信水平和自由度下,通过比较卡方统计量和卡方分布函数概率值,判断实际概率与期望概率是否吻合,通过比较理论概率和实际概率的吻合程度,可检验两个分类变量的相关性。用户可利用SPSS软件方便的完成卡方检验,在SPSS软件中,默认H0成立,即观察频数和实际频数无差别,即两组变量相互不产生影响,两组变量不相关,如果检验P值很高,则假设检验通过;如果检验P值很低,则检验不通过,观察频数和实际频数有差别,两组变量相关。SPSS数据检验具有很强的科学性和完备性,因此给出的报告也较复杂,下面就来进行SPSS卡方检验结果解读。
全栈程序员站长
2022/08/27
4.1K0
SPSS卡方检验结果解读详解
卡方检验、t检验和方差分析的区别
如果是定类和定类,此时应该使用卡方分析;如果是定类和定量,此时应该使用方差或者T检验。
小小杨
2021/10/13
13.7K0
卡方检验讲解
我们前面讲过方差分析,方差分析的应用场景是什么样子的呢?不记得同学可以翻回去看看。当我们要比较两组或者多组均值有没有显著性差异的时候,我们可以用方差分析。请注意,这里面我们提到是两组或者多组之间的均值比较时,我们用方差分析,想一下什么类型的数据可以求均值呢?是不是只有数值类型的数据才可以求均值。也就是所谓的连续型变量。那如果我们要比较两组或者多组之间的分类型变量之间是否有显著性差异呢?这个时候就不可以使用方差分析了,就需要使用专门用于分类变量比较的卡方检验。
张俊红
2019/09/17
2K0
卡方检验讲解
推荐阅读
相关推荐
plink中case/control关联分析细节解析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验