前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多基因风险评分2

多基因风险评分2

作者头像
生信与临床
发布2020-08-27 16:57:28
1.4K0
发布2020-08-27 16:57:28
举报

众所周知,人体的染色体是由A、T、C、G四种碱基组成的DNA双螺旋结构,其中A碱基与T碱基相对,C碱基与G碱基相对。换言之,如果一条DNA单链某位置上的碱基是A,那么与之配对的另一条单链DNA在相同位置上的碱基就是T。由于人类是一个二倍体生物,这也就意味着人的染色体基因型是由两种碱基组成,如果一个人在染色体某一位置上的基因型(SNP)是AA,并且AA就是野生型,突变的情况是A突变成G,那么基因型AG就是杂合型,GG就是纯合突变型,为了方便计算,我们规定基因型为AA的人的等位基因剂量为0,AG的等位基因剂量为1,GG的等位基因剂量为2,我们也称该SNP的等位基因剂量分别是0、1、2,其他相关知识点可参考往期遗传学概述

通过DNA测序我们就能获得个体在某一个SNP上的等位基因剂量,接下来我们就需要获取该SNP针对特定疾病的效应值,这种数据可以通过各种GWAS数据库获取。通常情况下我们需要获取某一个SNP对该疾病的效应等位基因(effect allele)、效应量(effect size,通常是BETA或OR)、效应量的标准误以及该效应量的P值,一般来说该P值是要小于全基因组显著水平的(<5E-8)。接下来,我将介绍3种常用的PRS简便计算方法

在下面的公式中,S代表效应值,G代表的等位基因剂量,下标i表示的是SNP的序号,下标j表示的则是个体的序号。

第一种:累加求和法

这种方法是最早提出也是最为简便的计算方法,就是将每个个体上的SNP的效应值和等位基因剂量相乘,然后将各个SNP的得分累加后获取个体的PRS。这种方法简便易行,但是在某些个体部分SNP是缺失时,可能会带来一定的误差。

第二种:平均值法

该方法在第一种方法的基础上除以每个个体用于计算PRS的SNP个数,M表示的就是SNP个数,它较好的处理了某些个体存在SNP缺失的情况,是对第一种方法的优化,也是软件PRSice的默认方法。

第三种:标准化法

看公式我们不难理解,这种方法实际上是对第一种方法算出来的PRS进行标准化。当我们用第一种方法算出不同个体的PRS后,计算这一群人PRS的均值和标准误,然后用原PRS减去PRS均值后再除以PRS的标准误就得到标准化后的个体PRS。这种方法的优点是使PRS数据更符合正态分布,便于统计分析。

以上三种PRS计算方法是我们常用的简便方法,当然最新的研究也提出来各种基于贝叶斯模型或者神经网络的PRS计算方法,笔者认为这些新方法的效果还有待评估,我们首先需要掌握的是这些常用方法。

关于多基因风险评分的计算方法就讲到这里,在下期内容中我会和大家介绍如何使用PRSice软件来快速计算PRS,敬请期待!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档