前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >GWAS实战教程前言与示例数据

GWAS实战教程前言与示例数据

作者头像
生信与临床
发布2022-08-21 17:13:21
发布2022-08-21 17:13:21
1.2K00
代码可运行
举报
运行总次数:0
代码可运行

从今天开始,小陈会结合已发表的全外显子组研究(whole-exome study, WES)带领大家学习一下GWAS。可能有朋友会问,WES和GWAS是一回事儿吗

从研究流程上来看,两者是一回事儿,但是从研究的内容来说它俩还不太一样,GWAS主要是研究全基因组上的SNP(包含内含子和外显子)和疾病的关联,而WES则利用外显子捕捉技术检测大量错义突变,进而研究外显子和疾病的关联。一般来说,由于WES直接研究错义突变,因此具有更加直接的生物学意义,临床上应用也更为广泛。

近期,浙江大学团队利用WES技术鉴定出和吸烟年龄密切相关的位点(PMID: 29216386),并且他们公开了1619人的WES数据(包含原始测序数据!),大家可以在GEO数据库里下载(ID号为GSE148812,链接为https://pubmed.ncbi.nlm.nih.gov/29216386/)。

打开链接后如下图所示:

接着拉到最底下,将“Download family”里的SOFT文件和”Supplementary file”里的genotyping文件下载下来(如下图所示,均为标红的)。另外,大家可以点击“custom”,把前两个原始的idat数据下载下来,咱们了解一下illumina的原始测序数据是啥样的。

今天我先带大家看看原始测序结果:

我们需要下载”illunimaio”包用于读取idat数据

代码语言:javascript
代码运行次数:0
运行
复制
setwd("C:/GWAS/TestData") # 设置好工作路径,idat数据存储于其中
BiocManager::install("illuminaio")# 安装R包
library(illuminaio) # 加载illuminaio包
myfile <- list.files() # 列出工作目录下的所有文件
myfile

这里我们看到文件名有Grn和Red两种,其实是两种激光,前者是绿色激光(激发G/T碱基),后者是红色激光(激发A/C碱基),通过荧光的强弱我们即可确定该位置上是何碱基了。

代码语言:javascript
代码运行次数:0
运行
复制
myfile <- myfile[grep(myfile, pattern =".idat$")] #获取以idat结尾的文件名
idat <- lapply(myfile, function(x){readIDAT(x)}) # 循环读取idat文件(实际上只有2个)
myidat <- idat[[1]] # 选择第一个文件为例子
names(myidat) # 查看列名

这里面最重要的就是Quants信息了,它是存储了per-bead-type值,是定量的关键。

代码语言:javascript
代码运行次数:0
运行
复制
myidatData <- myidat$Quants # 提取Quants信息
head(myidatData) # 查看Quants信息

每一行代表的是一个SNP在该样本中的信息,Mean代表荧光的平均强度, SD是测量误差,而NBeads代表微珠数。

好了,关于illumina的原始测序数据就先讲到这儿,后面我会以这套数据带大家掌握GWAS的分析流程,谢谢支持!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信与临床 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档