前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信马拉松 Day22 TCGA实践

生信马拉松 Day22 TCGA实践

原创
作者头像
阿呆的月历
发布2024-02-08 19:20:00
2150
发布2024-02-08 19:20:00
举报
文章被收录于专栏:生信马拉松生信马拉松

今天的主要内容是讲TCGA特有的数据分析内容

肿瘤专属的知识

笔记:

1、TCGA的tumor和normal是表达数据里自带的,因此不需要特地下载临床信息,但是如果需要筛选样本,如特定的癌症亚类或相关的信息就需要临床信息

2、TCGA差异分析的方法和图片与常规的相同

3、生存分析,KM-plot之外的两个是批量处理的方法

4、生存模型:有多种机器学习算法,实际就是形成由基因表达量和系数构成的公式,作用是选出关键基因,Lasso回归通过自己的算法分配系数,Lasso回归认为重要的就有系数,Lasso认为不重要的系数就是0,模型选中的基因就是关键基因,和前面的目的实际是一样的,是缩小关键基因范围的方法,可以给模型几十个或者几个基因再次进行筛选,都可以;第二个作用是风险分数的计算,每个病人都有自己的分数,得到病人的计算结果,就是预测值或风险评分,风险高还是风险低,用一个值来量化它

5、模型预测和评估:ROC曲线,C-index,评估模型的质量

6、突变数据的处理:其实是外显子组的下游分析,每一个基因在每个病人的哪个位点上发生了变化,突变频谱图

泛癌比较复杂,一般的电脑不能使用

xena(尚未更新)是2019年的基因版本,与现在有一定的出入,但也能用


没有正常样本怎么做差异分析

1.不做T-N差异分析,只做亚型,或根据某基因的表达量高低来做分析

2.和Gtex联合分析,原因是在xena上已经做好了从下机开始的分析

gtex+tcga数据

链接:https://pan.baidu.com/s/1I_Y7ARl4REWwyh1Ssei-_w?pwd=xjls

提取码:xjls

3.从GEO数据库找T-N的数据做差异分析,差异基因在TCGA里面继续分析(因为TCGA数据量大且齐全,适合做生存分析)


combat_seq函数可以处理转录组批次效应


代码语言:R
复制
#一个按条件筛选的小技巧

library(dplyr)

#创造一个数据,这是我自己搞的

data = data.frame(gene1 = rep(c('Negative','Positive'),each=3),

                  gene2 = rep(c('Negative','Positive'),times=3))

#写上条件

k1 = data$gene1=='Negative'&data$gene2=='Negative'

k2 = data$gene1=='Negative'&data$gene2=='Positive'



case_when(k1~'Type1',

          k2~'Type2',

          T~'Type3')

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 肿瘤专属的知识
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档