前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多基因风险评分3

多基因风险评分3

作者头像
生信与临床
发布2020-08-27 16:40:23
1.3K0
发布2020-08-27 16:40:23
举报

PRSice是当前比较流行的多基因风险评分工具,它主要是用R语言编写的,运行速度快,可以高通量处理大数据。它既有Linux版本,也有Windows版本,由于我们平时研究中使用Linux操作系统比较多,故本次主要以Linux版本为例进行讲解。如果有小伙伴想在Windows操作系统下安装并使用该软件,那么可以在PRSice官网(https://www.prsice.info/)上获取相关教程。

第一部分:准备文件

1. Base文件:使用参数--base来指定该文件,它本质上就是GWAS的结果文件。我们可以使用如下参数指定base文件的列,比如--snp SNP --chr CHR --bp BP --A1A1 --A2 A2 --stat OR --pvalue P就是如下文件的参数设置,其中--snp SNP就是指定列名为SNP的列作为snp。

2. Target文件:该文件是包含个体基因型信息的文件,我们可以使用--target参数来指定该文件,PRSice支持两种格式的target文件,一种是PLINK格式的二进制文件,包括bed、bim和fam这三个文件,另一种是BGEN文件,包括bgen和sample这两个文件。关于PLINK文件,请参考往期内容初探PLINK文件格式(bed,bim,fam),BGEN文件格式我会在之后的推送中详细讲解,它在大型遗传数据库中应用十分广泛。

3. Phenotype文件:这是一份表型文件,这个文件的前两列必须是FID(家系ID)和IID(个体ID),其余的列存储的都是表型信息。对于一个二分类性状(有病/无病),NA或者-9表示缺失值,而-9在连续型性状中不表示缺失,这个尤其需要注意。

4. LD文件:该文件是估计SNP之间连锁不平衡关系的,可以从1000 Genomes官网上下载。

https://www.internationalgenome.org/

第二部分:具体操作及代码

当我们下载并安装好PRSice软件后,可以看到base文件TOY_BASE_GWAS.assoc,其具体内容如下图所示:

之后,我们还可以看到PLINK格式的二进制文件TOY_TARGET_DATA。

最后一个就是表型文件TOY_TARGET_DATA.pheno,如下图所示:该文件前两列必须是FID和IID,后面的就是表型信息。

运行代码如下:

Rscript ./PRSice.R --dir . \    --prsice ./PRSice_linux \    --base TOY_BASE_GWAS.assoc \    --target TOY_TARGET_DATA \    --thread 1 \    --stat OR \    --binary-target T \    --out TOY_OUT

这里有两个参数需要注意,一个是--thread,它表示的是程序运行所使用的线程数,一般线程越多,运行速度越快,线程数的使用视计算机的性能而定,四核计算机可以使用4个线程,一般服务器可以使用20个以上的线程,该参数在处理大数据时尤其有用。另一个参数就是--out,它是用来指定输出结果的前缀。

PRSice软件运行时有很多参数可供调整,极大地方便了使用者,如果想了解它的详细参数,可以使用如下代码:Rscript PRSice.R –help。

米老鼠已经把帮助文档提取出来,有兴趣的伙伴可以看下面的PRSice英文版使用文档。

第三部分:输出结果

程序运行完毕一般会有6个文件输出,如下图所示:

前两个文件是图片,后四个是文本文件,其中以log结尾的文件是记录程序运行情况的日志型文件,一般当程序运行出错时需要仔细查看一下。

关于PRSice软件的使用就先讲到这里,在下期内容中我会和大家详细解读PRSice的输出结果,敬请期待!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档