前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >笔记 | GWAS 操作流程1:下载数据

笔记 | GWAS 操作流程1:下载数据

作者头像
邓飞
发布2020-05-18 17:08:19
2.2K0
发布2020-05-18 17:08:19
举报

这里,总结一下GWAS的学习笔记,GWAS全称“全基因组关联分析”,使用统计模型找到与性状关联的位点,用于分子标记选择(MAS)或者基因定位,这次学习的教程是plink做GWAS,plink是个很好的软件,但是我之前做GWAS都是使用R包,听说plinkEMMAX做GWAS更快,更好,更容易写出pipeline。就利用网上的信息写一个操作笔记,先操作plink,然后是EMMAX。对于一些有模型基础的同学,理解起来应该不难。

GWAS分析的两类性状:

  • 分类性状(阈值性状,质量性状):比如抗病性,颜色等等
  • 连续性状(数量性状):比如株高,体重,产量等等

GWAS的分析方法:

  • 分类性状:logistic等等
  • 连续性状:GLM,MLM模型等等

「一般线性模型(GLM):」

这里,SNP作为固定因子,可以考虑其它协变量(比如性别,PCA,群体结构等等)

「混合线性模型(MLM):」

  • 固定因子:SNP + 可以考虑其它协变量(比如性别,PCA,群体结构等等),这里固定因子和前面的GLM一样
  • 随机因子:亲缘关系矩阵(K矩阵或者A矩阵)

参考:

❝教程代码和数据下载:https://github.com/MareesAT/GWA_tutorial/ ❞

这个教程非常的经典,我看网上很多人推荐。

❝相关的文章:https://onlinelibrary.wiley.com/doi/full/10.1002/mpr.1608 ❞

教程中包括数据的过滤,SNP的过滤,样本的过滤,质控的标准等等,介绍的非常清楚,看完这篇文章,感觉plink的语法知识又增加了很多。

1. 下载数据和代码

首先,在linux环境下,新建一个文件夹,进入后运行下面命令:

代码语言:javascript
复制
git clone https://github.com/MareesAT/GWA_tutorial.git

下载之后,目录如下:

代码语言:javascript
复制
.
└── GWA_tutorial
    ├── 1_QC_GWAS.zip
    ├── 2_Population_stratification.zip
    ├── 3_Association_GWAS.zip
    ├── 4_PRS.doc
    └── README.md

1 directory, 5 files

2. 下载R语言和plink软件

如果你已经安装了这两个软件,就不用下载安装了。

  • R:https://www.r-project.org/
  • plink:http://zzz.bwh.harvard.edu/plink/ https://www.cog-genomics.org/plink2

3. 解压文件

这里,使用unzip命令,解压zip文件。

代码语言:javascript
复制
unzip 1_QC_GWAS.zip
unzip 2_Population_stratification.zip
unzip 3_Association_GWAS.zip

4. 文件介绍

4.1 质控

主要是根据一些筛选标准,去掉一些位点。筛选标准有缺失百分比,哈温等等。

「文件夹:」1_QC_GWAS

主要文件:

代码语言:javascript
复制
1_Main_script_QC_GWAS.txt
HapMap_3_r3_1.bed
HapMap_3_r3_1.bim
HapMap_3_r3_1.fam
check_heterozygosity_rate.R
Relatedness.R
hist_miss.R
pops_HapMap_3_r3
hwe.R
MAF_check.R
gender_check.R
heterozygosity_outliers_list.R
inversion.txt

其中1_Main_script_QC_GWAS.txt里面包括所有运行的代码,HapMap*文件是plink格式的文件,*R是几个用于检测和可视化的R脚本,我们后面会依次讲解这些代码。

4.2 群体分层

「文件夹:」2_Population_stratification

代码语言:javascript
复制
1_Main_script_QC_GWAS.txt
2_Main_script_MDS.txt
MDS_merged.R

其中,1_Main_script_QC_GWAS.txt2_Main_script_MDS.txt为运行代码。

4.3 GWAS分析

「文件夹:」 3_Association_GWAS

代码语言:javascript
复制
QQ_plot.R
Manhattan_plot.R
3_Main_script_association_GWAS.txt

其中,3_Main_script_association_GWAS.txt为运行代码。

4.4 多基因风险评分(PRS)分析

是一个word文件:

这是独立的一步,有需要的可以查看里面的分析方法。

5. 未完待续!

欢迎关注我的公众号,一起跨入学习进步!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 育种数据分析之放飞自我 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考:
  • 1. 下载数据和代码
  • 2. 下载R语言和plink软件
  • 3. 解压文件
  • 4. 文件介绍
    • 4.1 质控
      • 4.2 群体分层
        • 4.3 GWAS分析
          • 4.4 多基因风险评分(PRS)分析
          • 5. 未完待续!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档