前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用

【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用

作者头像
数说君
发布2018-04-04 16:45:42
9.6K0
发布2018-04-04 16:45:42
举报
文章被收录于专栏:数说工作室数说工作室

之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下:

我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变化,就是因为一些基因发生了改变。 目前,科学家已经对糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多种复杂疾病进行了GWAS分析,并找到了疾病相关的多个易感位点。

携带某种基因易感位点的人,就会有很大概率换上某种疾病。

我们通过全基因组关联分析(GWAS)找出来与某个疾病关联最大的基因位点集合(SNP或说variant),GWAS分析的思想如下:

原文请戳这里:☞【数说·大数据圈】机器学习在生物大数据应用的一个例子

到这里,其实并没有结束,最终找出来的若干基因易感位点(我们不妨称为易感SNP集合,每一个位点,简单理解为一个SNP吧),是一个集合,里面包含了可能不止一个易感位点。它们都是在统计意义上的显著,是有一定犯错概率的,也没有经过生物学的证实。 本文要说的精细定位,就是要进一步缩减候选的基因易感位点,排除掉一些“假”的位点。精细定位,叫做fine-mapping。

0

必备前提

在做fine-mapping之前,有三个前提一定要具备: 第一,区域中所有的common SNP都已经被genotyped或者imputed。这个前提是为了确保真正致病的那个SNP已经包含在这“若干基因易感位点”之中了。 第二,已经做过严格的quality control。 第三,大样本,确保提供足够的power。 满足必备前提之后,我们进行fine-mapping,分成两部分,statistical fine-mapping和functional fine-mapping。本文的重点是statistical fine-mapping,简单介绍一下统计方法在fine-mapping中的应用。

1

statistical fine-mapping

这一部分是本文的重点。 在此步骤中,我们对GWAS中选出来的易感SNP集合进行统计分析,比较、排序其中SNP的重要次序,甚至删除掉一些不重要的SNP,缩小易感SNP集合的范围。 大概有三种方法,一一列举如下:

方法1:conditional regression

我们在回归模型中,将最显著的那个SNP作为协变量进行控制,看其他SNP对疾病的影响是否还显著。选出P值最显著的几个易感SNP(P值通常要小于10的-8次方,因为要校正,所以视SNP的数量决定,参考☞浅议P值校正),缩小范围,精细定位。 我们可以在plink中利用命令: plink -bfile mydata --linear --condition covariateSNP 来实现。 下面是一个例子,摘自 "Fine mapping analysis of HLA‑DP/DQ gene clusters

on chromosome 6 reveals multiple susceptibility loci for HBV infection"

这篇文献中,作者想要看一下前人发现的,HLA-DP/DQ这两个基因簇与乙型肝炎(HBV)的显著关系,是否可以再具体定位到某个SNP或者block中。

注:染色体、基因、block和SNP这四者大致是什么关系?

(不专业的比喻,帮助理解一下,勿喷哈~)

如果把SNP看做是一个具体的房子或者建筑物,那么block就是一片小区,基因大概就是一个城市,染色体差不多是一个省了。

其中就使用到了conditional regression的方法

垂直轴代表作为协变量的基因簇,水平轴代表需要detected的基因簇。白色代表显著,灰色代表不显著: HBV = HLA-DP + (HLA-DQ + other covariates)

HBV = HLA-DQ + (HLA-DP + other covariates)

从两个白色区域可以看出,HLA-DP和HLA-DQ都是显著的,因此,作者的第一个结论是:

之前发现的HLA-DP和HLA-DQ两个基因簇对乙型肝炎的显著影响,是相互独立的。

此外,作者又对HLA-DP上的三个block做了conditional regression:

block 3位于HLA-DPA1,block 5位于HLA-DPB1,block 4位于HLA-DPA1和HLA-DPB1的overlap 区域。

block

location

block 3

in HLA-DPA1

block 4

in HLA-DPA1/B1 overlapping region

block 5

in HLA-DPB1

首先以block 3作为covariate,看其他两个是否显著: HBV = block 4 + ( block 3 + other covariates) HBV = block 5 + ( block 3 + other covariates) 发现都是显著的; 其次以block 4作为covariate, HBV = block 3 + ( block 4 + other covariates) HBV = block 5 + ( block 4 + other covariates) 发现block 5是显著的; 最后以block 5作为covariate, HBV = block 3 + ( block 3 + other covariates) HBV = block 4 + ( block 3 + other covariates) 发现都不显著。 因此,作者的第二个结论:

HLA-DPB1上的block 5,是该区域中对HBV作用最显著的易感位点。

方法2: Bayesian posterior probability

P值判断的方法有几个缺点,因为每一个P值的计算都受到样本量、MAF(Minor Allele Frequency)等因素的影响,每个研究的样本量不一样,不同研究的P值之间不好直接比较,而Bayesian posterior probability可以很好的回避这些问题。

对某区域上的每个SNP,计算一个pp(posterior probability)。

选出的易感SNP集合,其所有的pp之和等于99%,也即丢弃掉的SNP,其PP之和为1%。 该方法可以使用一个叫BIMBAM的程序来实现。 比如,

"Bayesian refinement of association signals for 14 loci in 3 common diseases"

这篇文献就使用该方法对三种疾病进行fine-mapping。感兴趣的可以自己看一下,这里只展示一张图:

图中黄色和紫色的点点,就是99%的易感SNP集合,它们的PP加起来为99%。其中,黄色的点点,是95%集合,它们加起来为95%。

方法3:High LD with lead SNP

这个方法很简单,就是选出GWAS中,与最最显著的SNP高LD的SNP,作为缩小的易感SNP集合。 以上三种方法的适用情形,是我们有原始的genotype 数据,如果没有呢?我们可以尝试只用summary association statistical信息。

方法4:Summary association statistics

没有原始的genotype数据,我们可以利用一些summary的信息,典型的方法有CAVIAR、PAINTOR等。 CAVIAR方法的流程如下图所示:

PAINTOR方法也是只利用summary的统计量和成对的相关系数矩阵来完成。

2

functional fine-mapping

functional的fine-mapping主要是对SNP做一些功能阐述。用到的数据库有ANNOVAR、VEP、HaploReg等,不多说了。

3

Summary

最后总结一下整个流程:

参考资料:

Strategies for fine-mapping complex traits,Sarah L.,2015

Fine mapping analysis of HLA‑DP/DQ gene clusters on chromosome 6 reveals multiple susceptibility loci for HBV infection, Jingjing Tao, 2015

Bayesian refinement of association signals for 14 loci in 3 common diseases, Julian B Maller, 2012

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档