下面是学徒写的《GEO数据挖掘课程》的配套笔记(第5篇)
接下来的分析就不是表达矩阵的标准分析了,而是这个表达矩阵背后的生物学故事的相关分析:
三阴性乳腺癌的分子标记 ER(Estrogen Receptor) PR(Progesterone Receptor) HER2 (Human Epidermal Growth Factor Receptor2)
找出这个三个基因的表达,如果直接搜索找不到,需要找到这些基因的别名,从genecards,进行搜索
SYMBOL1 | SYMBOL2 |
---|---|
ER | ESR1(Estrogen Receptor 1), ESR2(Estrogen Receptor 2) |
PR | PGR(Progesterone Receptor) |
HER2 | ERBB2(Erb-B2 Receptor Tyrosine Kinase 2) |
然后找出这些基因对应的探针并绘制如图,查看这些基因在两组之间的表达差异
rm(list = ls()) ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
load(file = 'step1-output.Rdata')
dat[1:4,1:4]
library(hgu133plus2.db)# BiocManager::install("hgu133plus2.db")
p2s=toTable(hgu133plus2SYMBOL) #保证探针对应到基因SYMBOL
k=p2s$symbol %in% c('ERBB2','ESR1','ESR2','PGR') #%in%判断左边的值是否在右边的变量中
np=p2s[k,1] #取出第一列,探针名
ng=p2s[k,2] #取出第二列,symbol号
x=dat[np,]
rownames(x)=paste(ng,np,sep = ':') #取出这些探针的表达值,将行名定义为探针和symbol的组合,以便于识别
#绘制热图
library(pheatmap)
tmp=data.frame(group=group_list)
rownames(tmp)=colnames(x)
pheatmap(x,annotation_col = tmp,show_colnames = F,cluster_cols = F)
对下面的热图进行解读:
有很多探针并没有成功将两个组别区分开来,可能的原因有:
ER_PR_HER2_heatmap.Rplot01
利用相对ER、PR和HER2 GE水平(log2)和双峰拟合来识别TN肿瘤样本,直方图显示肿瘤的分布和频率
二元高斯混合分布模型
wdata=data.frame(v=as.numeric(x["ESR1:205225_at",]))
library(ggpubr)
gghistogram(wdata, x = 'v', y = "..density..",
add_density = T, #添加条形图
add = "mean", rug = TRUE)
以ESR1:205225_at的表达为例展示直方图
虚线左边为TNBC,虚线右边为noTNBC
直方图.Rplot01
这些分析,基本上读一下我五年前在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;
视频观看方式
我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:
然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!