专栏首页实验盒FINEMAP:使用GWAS摘要数据进行无功能注释数据的精细定位(Fine-mapping)

FINEMAP:使用GWAS摘要数据进行无功能注释数据的精细定位(Fine-mapping)

介绍

全基因组关联分析(GWAS)是非常流行的定位表型或疾病遗传位点方法。不过很多情况下,GWAS 发现的最显著的 SNP(top SNP 或者 index SNP)并不是真正造成影响的causal SNP(因果SNP),而是因为跟 causal SNP 之间存在的 LD 而变得显著。因而,后续还需要对结果进行 fine-mapping(精细定位),把 causal SNP找到。

如果想了解更多 fine-mapping 的知识,推荐看看 Nature Reviews Genetics 上的《From genome-wide associations to candidate causal variants by statistical fine-mapping》这篇综述。

方法

常用的 fine-mapping 方法有 PAINTOR、eCAVIAR等。这些方法利用了 Roadmap、ENCODE 或者 GTEx 的功能注释数据,效果不错。然而,这些方法一般需要其他组学注释数据的辅助。如果研究对象是动物或者植物,而没有可以利用的组学数据,那怎么办?

无注释数据时,可以选择 CAVIAR、CAVIARBF、SNPtest等方法。不过,这些方法用了穷举搜索,速度上堪忧。

这里推荐 FINEMAP,它可以用于:

  1. 识别因果SNP(causal SNP)
  2. 估计因果SNP的效应大小
  3. 估计因果SNP的遗传贡献

FINEMAP 的统计模型类似于 CAVIAR 和 CAVIARBF,但算法上有一个很大的区别。FINEMAP 使用shotgun stochastic search(SSS)算法,与 CAVIARBF 的穷举搜索算法相比速度提高了非常多,避免计算量大的穷举搜索。PAINTOR 也可在无注释数据时使用,但相比而言 FINEMAP 的结果会更准确。

另外,FINEMAP 有一个方便的地方是,在设定好最大causal SNPs 数量 k 后,得到的结果包含了 1 到 k 个不同 causal SNPs 的后验概率以及各个 causal SNPs 数量的概率,非常方便进行后续的分析。

下载

可在 http://www.christianbenner.com 根据自己的系统平台选择编译好的文件。以 Linux 为例:

wget http://www.christianbenner.com/finemap_v1.4_x86_64.tgz
tar -xzvf finemap_v1.4_x86_64.tgz

解压后文件夹中的 finemap_v1.4_x86_64 可直接执行。

输入文件

FINEMAP 的输入需要 master 文件,z 文件和 ld 文件。如果有 5 个不同的显著位点,那么需要 1 个 master 文件和 5 个不同的 z文件 和 ld 文件。

Z file

一个用空格分隔的文本文件,包含需要分析区域的 GWAS summary statistics 信息,每行一个SNP。文件必须包含列名,每一列分别是:

rsid:SNP 名字
chromosome:染色体名称,性染色体的名字与  precomputed SNP correlations 文件保持一致即可
position:物理位置
allele1:包含SNP的“第一个”等位基因。对应SNPTEST 中的“ allele_A”,BOLT-LMM 中的“ ALLELE1”,通常是“effect allele”
allele2:reference allele
maf:minor allele 频率
beta:GWAS结果的 effect sizes
se:the standard errors of effect sizes

例子:

rsid chromosome position allele1 allele2 maf beta se
rs1 10 1 T C 0.35 0.0050 0.0208
rs2 10 1 A G 0.04 0.0368 0.0761
rs3 10 1 G A 0.18 0.0228 0.0199

LD file

一个用空格分隔的文本文件,其中包含SNP相关矩阵,可以计算皮尔逊相关系数,也可以用 plink 的 --r square 计算出 r matrix。

例子:

1.00 0.95 0.98
0.95 1.00 0.96
0.97 0.96 1.00

注意,SNP 顺序必须与 Z 文件中的顺序保持一致

Master file

分号分隔的文本文件,不包含空格。这个文件记录的是数据集和配置参考。第一行是列明,后续每一行是一个数据集和对应的参数。文件每一列分别是:

z:Z 文件的名称(输入)
ld:LD 文件的名称(输入)
bcor:BCOR 文件的名称(输入)
snp:结果输出 SNP 文件的名称(输出)
config:结果输出 CONFIG 文件的名称(输出)
cred:结果输出 CRED 文件的名称(输出)
n_samples:GWAS 样本数量
k:K 文件的名称(可选输入,可忽略)
log:LOG文件的名称(可选输出,可忽略)

ld 列和 bcor 列二选一,如果 ld 信息是用纯文本表示的矩阵,填入 ld 文件即可。

举例,分别计算两个数据集的 master 文件如下所示:

z;ld;snp;config;cred;log;n_samples
dataset1.z;dataset1.ld;dataset1.snp;dataset1.config;dataset1.cred;dataset1.log;5363
dataset2.z;dataset2.ld;dataset2.snp;dataset2.config;dataset2.cred;dataset2.log;5363

运行

以程序中的示例数据为例:

运行 shotgun stochastic search 方法的 fine-mapping:

./finemap_v1.4_x86_64 --sss --in-files example/data --dataset 1

--infiles 是 master 文件。--dataset 接的是 master 文件中的行号,行号从 1 开始,填入 1 代表使用第 1 行的 z 文件、ld 文件和配置参数进行分析。

除了 shotgun stochastic search,还可以使用 stepwise conditional search 方法,它的逐步条件处理过程类似于 GCTA COJO 中的实现:

./finemap_v1.4_x86_64 --cond --in-files example/data --dataset 2

如果想要了解指定 SNP 是否 causal,可以:

./finemap_v1.4_x86_64 --config --in-files example/data --dataset 1 --rsids rs30,rs11

结果解读

输出结果有 .snp.cred.config 三种不同后缀的文件。

.config 记录了分析时选用的参数。

.snp 文件是 model-averaged posterior summaries,每一行是一个 SNP。在假定不同 causal SNPs 数量时会得到不一样的结果,而这个文件包含了所有结果的摘要情况。

.cred 文件最后会带有一个数字,这个数字代表的是 causal SNPs 数量 k。比如,.cred5 是设定 causal SNPs 为5个而得到的计算结果。这个文件中,包含了数量 k 的后验概率和和推断出的 causal SNP 后验概率。

如果对 FINEMAP 的方法不是特别了解,可以只看 .cred 文件中的结果,从中选出 k 值和相应的 causal SNPs。

总结

FINAMAP 的速度非常快。经过实践,在 6000 个样本的情况下,截取 top SNPs 上下游各 3Mb 区域进行分析,设定最大 causal SNPs 数量为 10,每一个区域的计算时间大概 20 分钟,内存占用非常小。在显著位点很多的时候,FINEMAP 的优势体现出来了。

本文分享自微信公众号 - 实验盒(gh_8a85afc0b064),作者:实验盒

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • CAUSALdb:涵盖数千个GWAS研究和Fine-mapping结果的可视化数据库

    现在 GWAS 研究越来越多。要查询以往的 GWAS 研究结果,可以使用 GWAS Catalog。GWAS Catalog 包含的信息非常多,不过有时可能满足...

    实验盒
  • GWAS综述(生信文献阅读俱乐部精选)

    从具有遗传标记的复杂性状的统计学关联推进到理解影响性状的功能性遗传变异往往是一个复杂的过程。精细定位可以选择遗传变异并对其进行优先级排序以供进一步研究,但是大量...

    生信技能树
  • 【生物大数据】统计方法在生物信息学“精细定位”(fine-mapping)中的应用

    之前我们发过一篇文章,文章中说如何寻找与某个疾病相关的遗传信息,简单复习一下: 我们每个人所带的基因是差不多的,之所以有的人卷发,有的人直发,有这么丰富多彩的变...

    数说君
  • [Nature Methods]四篇好文简读-专题1

    SnapHiC: a computational pipeline to identify chromatin loops from single-cell H...

    智能生信
  • 【直播】我的基因组64:用gwas来预测健康风险

    既然我的基因组已经确定无误了,那么我可以放心的探索啦!正好这几个月收集了朋友圈的一些GWAS新闻,就是某个科研团体研究了几千甚至上万人的基因型,找到了某几个位点...

    生信技能树
  • GWAS大家都耳熟能详, TWAS又是何方神圣

    GWAS称之为全基因组关联分析,是研究复杂疾病遗传易感性的一种方法,已经广泛应用于各种复杂疾病中,识别到了许多与疾病相关的SNP位点,然而GWAS识别到的很多S...

    生信修炼手册
  • 人工智能学术速递[6.24]

    【1】 DeepStochLog: Neural Stochastic Logic Programming 标题:DeepStochLog:神经随机逻辑编程

    公众号-arXiv每日学术速递
  • PRS多基因评分教程学习笔记(一)

    最近发现PRS是近两年比较热门的领域,从科学家对糖尿病等几种疾病的评分,到23andme对糖尿病的评估,发表的文章也越来越多,有必要学习一下他的基本过程。这里找...

    用户1075469
  • GWAS做完了,下一步做什么?

    通过GWAS分析可以找出与疾病相关联的SNP位点,然而我们的根本目的是找出可能导致疾病发生的SNP位点,这些位点位于GWAS分析结果中,完成了GWAS分析之后,...

    生信修炼手册
  • 【直播】我的基因组 38:我得了艾滋病?我是暴躁狂?

    请原谅我这次当了标题党,本题应该是,把vcf格式的变异文件注释上gwas的研究结果。 这个同样是为了丰富我们的variation文件,加强我们队每个变异位点的变...

    生信技能树
  • Nature子刊:识别偏头痛脑与遗传的标志物

    偏头痛是世界范围内发病普遍、致残率高的疾病之一,产生巨大的社会经济负担。然而,偏头痛的发病机制不明,尚无可识别病理改变的诊断标志物。针对偏头痛的特异性标志物将有...

    用户1279583
  • GWAS和GS的结合:SSGWAS的应用

    满血复活。注意:这个blupf90的新功能,貌似有点问题,好几个人测试显示SSGWAS结果P-value不显示。还未坐实,待我测试后公布。

    邓飞
  • 想要进行gene prioritization分析,请看这里!

    通过GWAS分析可以识别到与性状关联的SNP位点,然而从生物学角度出发,我们更想了解的是哪些基因或者通路导致了这些位点与性状的关联现象。为了解决这一问题,科学家...

    生信修炼手册
  • 短篇:call snp和GWAS的关系

    首先,要确定样本,无论是300个自交系群体,还是300个病人的血液或者组织样本,这些自交系或者病人都称为样本(sample),提取DNA,每个样本对应一个DNA...

    邓飞
  • Sequential regulatory activity prediction across chromosomes with convolutional neural networks

    Sequential regulatory activity prediction across chromosomes with convolutional ...

    bye
  • 2.5万汉族人的GWAS乳腺癌风险基因

    今天是大年初七,给大家带来的是2.5万汉族人的GWAS乳腺癌风险基因,希望你能学到知识。

    生信技能树
  • 自然语言处理学术速递[8.18]

    【1】 Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition 标题:采用GPT...

    公众号-arXiv每日学术速递
  • 机器人相关学术速递[6.24]

    【1】 Coarse-to-Fine Q-attention: Efficient Learning for Visual Robotic Manipulat...

    公众号-arXiv每日学术速递
  • Nat. Genet. | 基于遗传学主导的方法定义免疫相关性状的药物靶标

    2019年6月28日牛津大学Julian C. Knight教授团队以及欧盟创新药物计划ULTRA-DD协会在Nature Genetics在线发表题为 A g...

    DrugAI

扫码关注云+社区

领取腾讯云代金券