多基因风险评分3

PRSice是当前比较流行的多基因风险评分工具,它主要是用R语言编写的,运行速度快,可以高通量处理大数据。它既有Linux版本,也有Windows版本,由于我们平时研究中使用Linux操作系统比较多,故本次主要以Linux版本为例进行讲解。如果有小伙伴想在Windows操作系统下安装并使用该软件,那么可以在PRSice官网(https://www.prsice.info/)上获取相关教程。

第一部分:准备文件

1. Base文件:使用参数--base来指定该文件,它本质上就是GWAS的结果文件。我们可以使用如下参数指定base文件的列,比如--snp SNP --chr CHR --bp BP --A1A1 --A2 A2 --stat OR --pvalue P就是如下文件的参数设置,其中--snp SNP就是指定列名为SNP的列作为snp。

2. Target文件:该文件是包含个体基因型信息的文件,我们可以使用--target参数来指定该文件,PRSice支持两种格式的target文件,一种是PLINK格式的二进制文件,包括bed、bim和fam这三个文件,另一种是BGEN文件,包括bgen和sample这两个文件。关于PLINK文件,请参考往期内容初探PLINK文件格式(bed,bim,fam),BGEN文件格式我会在之后的推送中详细讲解,它在大型遗传数据库中应用十分广泛。

3. Phenotype文件:这是一份表型文件,这个文件的前两列必须是FID(家系ID)和IID(个体ID),其余的列存储的都是表型信息。对于一个二分类性状(有病/无病),NA或者-9表示缺失值,而-9在连续型性状中不表示缺失,这个尤其需要注意。

4. LD文件:该文件是估计SNP之间连锁不平衡关系的,可以从1000 Genomes官网上下载。

https://www.internationalgenome.org/

第二部分:具体操作及代码

当我们下载并安装好PRSice软件后,可以看到base文件TOY_BASE_GWAS.assoc,其具体内容如下图所示:

之后,我们还可以看到PLINK格式的二进制文件TOY_TARGET_DATA。

最后一个就是表型文件TOY_TARGET_DATA.pheno,如下图所示:该文件前两列必须是FID和IID,后面的就是表型信息。

运行代码如下:

Rscript ./PRSice.R --dir . \    --prsice ./PRSice_linux \    --base TOY_BASE_GWAS.assoc \    --target TOY_TARGET_DATA \    --thread 1 \    --stat OR \    --binary-target T \    --out TOY_OUT

这里有两个参数需要注意,一个是--thread,它表示的是程序运行所使用的线程数,一般线程越多,运行速度越快,线程数的使用视计算机的性能而定,四核计算机可以使用4个线程,一般服务器可以使用20个以上的线程,该参数在处理大数据时尤其有用。另一个参数就是--out,它是用来指定输出结果的前缀。

PRSice软件运行时有很多参数可供调整,极大地方便了使用者,如果想了解它的详细参数,可以使用如下代码:Rscript PRSice.R –help。

米老鼠已经把帮助文档提取出来,有兴趣的伙伴可以看下面的PRSice英文版使用文档。

第三部分:输出结果

程序运行完毕一般会有6个文件输出,如下图所示:

前两个文件是图片,后四个是文本文件,其中以log结尾的文件是记录程序运行情况的日志型文件,一般当程序运行出错时需要仔细查看一下。

关于PRSice软件的使用就先讲到这里,在下期内容中我会和大家详细解读PRSice的输出结果,敬请期待!

本文分享自微信公众号 - 生信与临床(cll-15151929371),作者:米老鼠

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言进阶之生存分析

    在医学研究中,生存分析是一类非常重要的统计方法,它主要的目的是对生存率和时间进行建模,计算患者在特定时间段内生存的概率,主要用于评估治疗的效果和疾病的危险程度。...

    生信与临床
  • R语言进阶之坐标轴和文本

    使用函数title()可以在图中添加标题,这里包括主标题、副标题、x轴标题和y轴标题,具体如下:

    生信与临床
  • Meta分析系列之传统meta分析

    传统的meta分析(直接meta分析,也称直接比较)是一个有效获取临床证据的方法,它是在系统评价各个临床试验的基础上,运用统计学合并效应量的方法,获...

    生信与临床
  • [二十五]JavaIO之RandomAccessFile

    noteless
  • php面试笔记(7)-php基础知识-文件及目录处理考点

    在面试中,考官往往喜欢基础扎实的面试者,而文件及目录处理相关的考点,往往是大家容易忽视的一个点,今天冷月就来帮各位小伙伴们梳理一下,在面试中文件及目录处理相关的...

    学长冷月
  • Python全栈开发之文件操作

    在终端/资源管理器、 中可以执行常规的文件/目录管理操作 ,如果希望通过代码来实现,需要导入os模块

    py3study
  • Linux学习

    一、基础指令     1.ls指令         ../    上级目录         ./    当前目录         ls -al     ...

    曼路
  • Shell学习总结

    一、基础指令     1.ls指令         ../    上级目录         ./    当前目录         ls -al     ...

    曼路
  • 文件操作版汉诺塔类问题

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    喜欢ctrl的cxk
  • 2.4 文件类型

    -rw----- 第一位表示文件的类型,之后的表示文件读写权限 /-*- ** 普通文件,包括二进制文件 d 表示目录 c 字符串设备(鼠标、...

    运维小白

扫码关注云+社区

领取腾讯云代金券