这是一个读者给我写信询问的问题:
初学GWAS,应该知道,GWAS是干什么用的?我的理解,GWAS分为四部分:
•删除异常值•查看数据分布•数据可视化
•MAF•Call rate•HWE
•ANNOVAR•snpEFF
•GO 富集分析•Kegg 通路分析
上面是我之前做的汇总。
整体而言, plink可以手动进行:
•基因型数据质控•MAF•geno•HWE•建模•GLM模型(连续性状)•logistic模型(二分类性状)
TASSEL
•窗口化界面•不用编程,鼠标点点点•需要提前将表型数据和基因型数据整理好•模型• GLM模型•LMM模型•可视化•QQ图•曼哈顿图•LD衰减图
可以看到,TASSEL比较有优势,特别是它具有LMM模型,LMM模型是连续性状主流的分析方法。
•R包:GAPIT•R包:FamCPU•R包:rMVP•GEMMA
很多都是相通的,学习一种方法,其它软件也能很快入手。比如我先是用GEMMA,然后GAPIT和TASSEL也能很快上手。
后面,我将之前的文档,重新整理一下,按照这个流程,重新整理一份GWAS cookbook,岂不善哉!