前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LDSC分析实战

LDSC分析实战

作者头像
生信修炼手册
发布2019-12-19 12:42:21
3.5K0
发布2019-12-19 12:42:21
举报
文章被收录于专栏:生信修炼手册生信修炼手册

通过对单个表型的GWAS分析结果进行连锁不平衡回归分析,可以鉴定是否存在混淆因素,同时估计遗传力的大小;对于多个不同表型的GWAS分析结果进行分析,则可以计算表型间的遗传相似度。

通过ldsc这款软件,可以方便地进行LDSC分析,源代码保存在github上,网址如下

https://github.com/bulik/ldsc

采用了conda来确保软件独立的安装环境,安装过程如下

代码语言:javascript
复制
git clone https://github.com/bulik/ldsc.git
cd ldsc
conda env create --file environment.yml
source activate ldsc

通过官网的wiki, 可以快速的掌握其用法,基本用法如下

1. 计算ld score

根据原始的分型结果,计算LD score, 输入数据为plink的二进制格式,代码如下

代码语言:javascript
复制
python ldsc.py  --bfile 22  --l2 --ld-wind-cm 1  --out 22

bfile参数指定输入的plink二进制文件,l2参数表示计算LD score值,ld-wind-cm参数指定计算LD的窗口大小,单位为1cM, out参数指定输出文件的前缀。

运行成功后,LD score值保存在后缀为l2.ldscore.gz的文件中, 内容如下

记录了每一个SNP位点的LD score值。值得注意的是,在计算LD score值时,每条染色体要分开计算。

2. 进行LDSC分析

第一步我们得到了LD score值,进行LDSC分析,我们还需要GWAS分析结果。该软件制定了一种后缀为sumstats的格式,用来存储GWAS分析结果,要求有以下5列

  1. SNP
  2. N
  3. Z
  4. P
  5. A1
  6. A2

SNP表示SNP ID, 比如rs号;N表示样本个数;Z表示SNP对表型的效应值,beta, OR, z-score等等; P表示pvalue;A1表示突变的Allele, A2表示参照的Allele。

该软件自带了脚本来格式化GWAS结果,生成sumstats格式的文件,用法如下

代码语言:javascript
复制
python munge_sumstats.py \
--sumstats gwas.txt \
--N 2000 \
--out test

格式转换之后,就可以进行LDSC分析了,用法如下

代码语言:javascript
复制
python ldsc.py \
--h2 test.sumstats.gz \
--ref-ld-chr ld_score_chr/ \
--w-ld-chr ld_score_chr/ \
--out test_h2

h2参数表示进行回归分析,估算遗传力;ref-ld-chr参数指定ld score值对应的目录,该目录下每条染色体的LD score为一个文件;w-ld-chr指定回归分析中每个SNP位点的权重,因为算法对这个权重不敏感,和ref-ld-chr保持一致即可,out参数指定输出文件的前缀。

在后缀为log的文件中保存了回归分析的截距以及遗传力,该软件同时还可以计算多个表型的遗传相似度,更多用法请参考官方文档。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 计算ld score
  • 2. 进行LDSC分析
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档