前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你要挖的公共数据集作者上传了错误的表达矩阵肿么办(如何让高手心甘情愿的帮你呢?)

你要挖的公共数据集作者上传了错误的表达矩阵肿么办(如何让高手心甘情愿的帮你呢?)

作者头像
生信技能树
发布2019-08-16 11:28:28
6690
发布2019-08-16 11:28:28
举报
文章被收录于专栏:生信技能树

事情总不会一直顺风顺水,如果有人带你,学习当然舒服,明天我们会发布学徒招募,敬请期待!

尝试一篇文献的表达差异分析和热图重现,主要参考您Github中GEO-master/GSE42872_main的代码,但我跑出的差异分析列表logFC与文献给出的列表数据不符,尝试了很多次,不清楚是什么原因?

本来我一般是不理会这样的求助的, 毕竟代码都给了,还不会用,总不能怪我了,巧的是我鬼使神差的回复了:

你的问题在哪里,我就没得空去帮你检查,你要是真想我回答,两个办法。

第一个是把你这个文献写一个PPT,介绍这方面背景知识点给我,我学习到了新知识,作为交换,我就帮你修改代码

第二个是,你直接付费我来帮你检查代码

有趣的是,对方马上甩来了一个详细的PPT,让我也学到了知识,所以就投桃报李,帮忙检查代码,结果发现了很有趣的事情,就是这个数据集的作者,居然上传了错误的表达矩阵。

错误的表达矩阵

[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array 这个芯片平台怎么可能只有不到五千个探针!

所以肯定是作者上传错了,因为文件大小就不对。

下载CEL文件

这个时候必须要下载原始数据了。

拿到芯片的原始数据,cel文件的下载地址:ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE84nnn/GSE84571/suppl/GSE84571_RAW.tar

下载这个文件很坎坷,因为我们伟大的墙(不过找了还在墙外的学徒帮忙解决了),解压后就处理咯。

处理CEL文件

CEL文件怎么处理呢? 如果你是孤军奋斗,那么恭喜你咯,至少需要四五天的摸索才有可能搞定下面短短3行代码

这个时候我翻的三年前自己整理的代码,参考我的GEO教程,在https://github.com/jmzeng1314/GEO 上面

代码语言:javascript
复制
# BiocManager::install(c( 'oligo' ),ask = F,update = F)
library(oligo) 
# BiocManager::install(c( 'pd.hg.u133.plus.2' ),ask = F,update = F)
library(pd.hg.u133.plus.2)

dir='~/Downloads/GSE84571_RAW/'
  od=getwd()
  setwd(dir)
  celFiles <- list.celfiles(listGzipped = T)
  celFiles
  affyRaw <- read.celfiles( celFiles )
  setwd(od)
  eset <- rma(affyRaw)
  eset
  # http://math.usu.edu/jrstevens/stat5570/1.4.Preprocess_4up.pdf
  save(eset,celFiles,file = f)
  # write.exprs(eset,file="data.txt")

得到的eset这个对象,与我们之前一直讲解的GEOquery包下载是一样的, 所以后续代码不需要变化。

得到表达矩阵和表型信息

代码语言:javascript
复制
a=eset
dat=exprs(a) #a现在是一个对象,取a这个对象通过看说明书知道要用exprs这个函数
dim(dat)#看一下dat这个矩阵的维度
# [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
dat[1:4,1:4] #查看dat这个矩阵的1至4行和1至4列,逗号前为行,逗号后为列
#dat=log(dat)
dat[1:4,1:4]
boxplot(dat[,1:4])
colnames(exprs)
group_list = paste(substring(celFiles,12,12),
                   substring(celFiles,24,24),sep = '-')
table(group_list) #统计频率
save(dat,group_list,file = 'step1-output.Rdata')

有了表达矩阵和表型信息后续分析就完全参考我https://github.com/jmzeng1314/GEO代码即可。

差异分析结果跟作者的附件公布的数量相当,基因也基本一致,问题就解决啦。(感兴趣的读者,可以验证一下我所说的!)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 错误的表达矩阵
  • 下载CEL文件
  • 处理CEL文件
  • 得到表达矩阵和表型信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档