前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >三阴性乳腺癌表达数据分析笔记之TNBC定义

三阴性乳腺癌表达数据分析笔记之TNBC定义

作者头像
生信技能树
发布2020-10-26 10:54:36
9940
发布2020-10-26 10:54:36
举报
文章被收录于专栏:生信技能树生信技能树
学徒和学员已经陆续出师,是时候把生信技能树的舞台交给后辈了!

下面是学徒写的《GEO数据挖掘课程》的配套笔记(第5篇)

  1. B站课程《三阴性乳腺癌表达矩阵探索》笔记之文献解读
  2. 三阴性乳腺癌表达矩阵探索之数据下载及理解
  3. 三阴性乳腺癌表达矩阵探索笔记之差异性分析
  4. 三阴性乳腺癌表达矩阵探索笔记之差异基因富集分析

接下来的分析就不是表达矩阵的标准分析了,而是这个表达矩阵背后的生物学故事的相关分析:

三阴性乳腺癌的分子标记 ER(Estrogen Receptor) PR(Progesterone Receptor) HER2 (Human Epidermal Growth Factor Receptor2)

找出这个三个基因的表达,如果直接搜索找不到,需要找到这些基因的别名,从genecards,进行搜索

SYMBOL1

SYMBOL2

ER

ESR1(Estrogen Receptor 1), ESR2(Estrogen Receptor 2)

PR

PGR(Progesterone Receptor)

HER2

ERBB2(Erb-B2 Receptor Tyrosine Kinase 2)

然后找出这些基因对应的探针并绘制如图,查看这些基因在两组之间的表达差异

代码语言:javascript
复制
rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)
load(file = 'step1-output.Rdata')
dat[1:4,1:4]
library(hgu133plus2.db)# BiocManager::install("hgu133plus2.db")
p2s=toTable(hgu133plus2SYMBOL) #保证探针对应到基因SYMBOL
k=p2s$symbol %in% c('ERBB2','ESR1','ESR2','PGR') #%in%判断左边的值是否在右边的变量中
np=p2s[k,1] #取出第一列,探针名
ng=p2s[k,2] #取出第二列,symbol号
x=dat[np,]
rownames(x)=paste(ng,np,sep = ':') #取出这些探针的表达值,将行名定义为探针和symbol的组合,以便于识别

#绘制热图
library(pheatmap)
tmp=data.frame(group=group_list)
rownames(tmp)=colnames(x) 
pheatmap(x,annotation_col = tmp,show_colnames = F,cluster_cols = F)

对下面的热图进行解读:

  • 每个基因都会对应多个探针,我们一般选择最大表达量的那个探针,因为只有这样的探针才能说明生物学规律。高表达的探针是能够替代这些基因的的真实行为的,而低表达的探针则不能。
  • 以ESR1:205225_at为例,这个探针在TNBC中是低表达的(蓝色和黄色较多),而在noTNBC中则是高表达的(红色较深)。ERBB2和PGR也呈现类似的规律。

有很多探针并没有成功将两个组别区分开来,可能的原因有:

    1. 探针的效果不好
    2. 探针所靶向的转录本可能不是我们需要的

ER_PR_HER2_heatmap.Rplot01

利用相对ER、PR和HER2 GE水平(log2)和双峰拟合来识别TN肿瘤样本,直方图显示肿瘤的分布和频率

二元高斯混合分布模型

代码语言:javascript
复制
wdata=data.frame(v=as.numeric(x["ESR1:205225_at",]))
library(ggpubr)
gghistogram(wdata, x = 'v',  y = "..density..",
            add_density = T, #添加条形图
          add = "mean", rug = TRUE)

以ESR1:205225_at的表达为例展示直方图

虚线左边为TNBC,虚线右边为noTNBC

直方图.Rplot01

这些分析,基本上读一下我五年前在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了;

视频观看方式

我把3年前的收费视频课程:3年前的GEO数据挖掘课程你可以听3小时或者3天甚至3个月,免费到B站:

  • 这个课程超级棒,B站免费学习咯:https://m.bilibili.com/video/BV1dy4y1C7jz
  • 配套代码在GitHub哈:https://github.com/jmzeng1314/GSE76275-TNBC
  • TCGA数据库挖掘,代码在:https://github.com/jmzeng1314/TCGA_BRCA
  • GTEx数据库挖掘,代码在:https://github.com/jmzeng1314/gtex_BRCA
  • METABRIC数据库挖掘,代码在:https://github.com/jmzeng1314/METABRIC

然后马上就有了3千多学习量,而且有学员给出来了图文并茂版本万字笔记,让我非常感动!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档