PRSice是当前比较流行的多基因风险评分工具,它主要是用R语言编写的,运行速度快,可以高通量处理大数据。它既有Linux版本,也有Windows版本,由于我们平时研究中使用Linux操作系统比较多,故本次主要以Linux版本为例进行讲解。如果有小伙伴想在Windows操作系统下安装并使用该软件,那么可以在PRSice官网(https://www.prsice.info/)上获取相关教程。
第一部分:准备文件
1. Base文件:使用参数--base来指定该文件,它本质上就是GWAS的结果文件。我们可以使用如下参数指定base文件的列,比如--snp SNP --chr CHR --bp BP --A1A1 --A2 A2 --stat OR --pvalue P就是如下文件的参数设置,其中--snp SNP就是指定列名为SNP的列作为snp。
2. Target文件:该文件是包含个体基因型信息的文件,我们可以使用--target参数来指定该文件,PRSice支持两种格式的target文件,一种是PLINK格式的二进制文件,包括bed、bim和fam这三个文件,另一种是BGEN文件,包括bgen和sample这两个文件。关于PLINK文件,请参考往期内容初探PLINK文件格式(bed,bim,fam),BGEN文件格式我会在之后的推送中详细讲解,它在大型遗传数据库中应用十分广泛。
3. Phenotype文件:这是一份表型文件,这个文件的前两列必须是FID(家系ID)和IID(个体ID),其余的列存储的都是表型信息。对于一个二分类性状(有病/无病),NA或者-9表示缺失值,而-9在连续型性状中不表示缺失,这个尤其需要注意。
4. LD文件:该文件是估计SNP之间连锁不平衡关系的,可以从1000 Genomes官网上下载。
https://www.internationalgenome.org/
第二部分:具体操作及代码
当我们下载并安装好PRSice软件后,可以看到base文件TOY_BASE_GWAS.assoc,其具体内容如下图所示:
之后,我们还可以看到PLINK格式的二进制文件TOY_TARGET_DATA。
最后一个就是表型文件TOY_TARGET_DATA.pheno,如下图所示:该文件前两列必须是FID和IID,后面的就是表型信息。
运行代码如下:
Rscript ./PRSice.R --dir . \ --prsice ./PRSice_linux \ --base TOY_BASE_GWAS.assoc \ --target TOY_TARGET_DATA \ --thread 1 \ --stat OR \ --binary-target T \ --out TOY_OUT
这里有两个参数需要注意,一个是--thread,它表示的是程序运行所使用的线程数,一般线程越多,运行速度越快,线程数的使用视计算机的性能而定,四核计算机可以使用4个线程,一般服务器可以使用20个以上的线程,该参数在处理大数据时尤其有用。另一个参数就是--out,它是用来指定输出结果的前缀。
PRSice软件运行时有很多参数可供调整,极大地方便了使用者,如果想了解它的详细参数,可以使用如下代码:Rscript PRSice.R –help。
米老鼠已经把帮助文档提取出来,有兴趣的伙伴可以看下面的PRSice英文版使用文档。
第三部分:输出结果
程序运行完毕一般会有6个文件输出,如下图所示:
前两个文件是图片,后四个是文本文件,其中以log结尾的文件是记录程序运行情况的日志型文件,一般当程序运行出错时需要仔细查看一下。
关于PRSice软件的使用就先讲到这里,在下期内容中我会和大家详细解读PRSice的输出结果,敬请期待!