看pd数据的表格 查看哪里可以看到分组依据
某一列包含了单独分组信息,(一般只包含1~2个单词),直接提取
Group = pd$`disease state:ch1`
在网页上or自己数有几个分组,每个分组对应几个样本
Group = c(rep("RA",times=13),
rep("control",times=9))
Group = rep(c("RA","control"),times = c(13,9))
某一列的信息中可以提取到分组信息
Group=ifelse(str_detect(pd$source_name_ch1,"control"),
"control",
"RA")
把分组的数据类型变成因子型数据,因子型数据可以理解为有高低顺序的分类变量
Group = factor(Group,levels = c("control","RA")) #level是水平,要把control组放在第一个位置
if(!require(hgu133plus2.db))BiocManager::install("hgu133plus2.db") #安装并加载R包,R包完整的名字应该是搜索到的名字+.db
library(hgu133plus2.db)
ls("package:hgu133plus2.db") #查看该R包里所有的数据and函数
ids <- toTable(hgu133plus2SYMBOL)
head(ids)
2.从GPL网站提取探针注释
在该GPL号码的网页,可以下载对应的探针注释信息的表格,下载后保存于工作目录中
取出探针id和对应symbol的两列(数据框取子集)
b = read.delim("GPL570-55999.txt",
check.names = F,
comment.char = "#")
colnames(b) #查看下载的表格的各个列名,并复制相应的列名用于取子集
ids2 = b[,c("ID","Gene Symbol")]
colnames(ids2) = c("probe\_id","symbol") #更改行名
k1 = ids2$symbol!="";table(k1) ##去掉没有对应基因名的探针id(开放性探针的id)
k2 = !str\_detect(ids2$symbol,"///");table(k2) ##去掉对应多个基因名的探针id
ids2 = ids2[ k1 & k2,]
并不一定所有的探针注释中开放性探针都是" ",所以要看一下如
这里我们可以取数据框子集查看里面的内容是什么
ids2$[410,2]
3.探针平台的官网寻找
4.自主注释(自学一下)
#https://mp.weixin.qq.com/s/mrtjpN8yDKUdCSvSUuUwcA
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。