前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TCGA背景知识及数据整理

TCGA背景知识及数据整理

作者头像
生信菜鸟团
发布2024-07-11 10:55:42
760
发布2024-07-11 10:55:42
举报
文章被收录于专栏:生信菜鸟团

癌症的Count数据

这个count数据取过log

前12位为病人ID

中间为分组信息

TCGA数据整理

---title: "新版TCGA数据下载_便捷"output: html_documenteditor_options: chunk_output_type: console--- ```{r setup, include=FALSE}knitr::opts_chunk$set(echo = TRUE,message = F,warning = F)``` ### 1.查看TCGA的33个project ```{r}rm(list = ls())library(TCGAbiolinks) #没安装的话这里可以百度安装方式library(stringr)library(SummarizedExperiment)projs <- getGDCprojects()$project_id %>% str_subset("TCGA")projs``` ### 2.下载并整理表达矩阵 去这个链接,找到你要的癌症的count和临床信息数据,下载下来放在工作目录下 https://share.weiyun.com/ZMQdPBLC 密码:xjlshh ```{r}proj = "TCGA-CHOL" #这里CHOL可以替换成你想要的癌症,参考前面的projectload("chol_exp.Rdata")exp = chol```#加粗的都是可替换的名称 ### 3.下载并整理临床信息 ```{r}load("chol_clinical.Rdata")clinical = chol_clinical``` ### 4.表达矩阵行名ID转换 ```{r}library(tinyarray)exp = trans_exp_new(exp)exp[1:4,1:4]``` gdc下载的数据从此处开始衔接 ### 5.基因过滤 需要过滤一下那些在很多样本里表达量都为0或者表达量很低的基因。过滤标准不唯一。 过滤之前基因数量: ```{r}nrow(exp)``` #### 常用过滤标准1: 仅去除在所有样本里表达量都为零的基因 ```{r}exp1 = exp[rowSums(exp)>0,]nrow(exp1)``` #### 常用过滤标准2(推荐): 仅保留在一半以上样本里表达的基因 ```{r}exp = exp[apply(exp, 1, function(x) sum(x > 0) > 0.5*ncol(exp)), ]nrow(exp)``` ### 6.分组信息获取 根据样本ID的第14-15位,给样本分组(tumor和normal) ```{r}Group = make_tcga_group(exp)table(Group)``` ### 7.保存数据 ```{r}save(exp,Group,proj,clinical,file = paste0(proj,".Rdata"))```

另一种数据整理方式,二选一就可以。注意替换肿瘤名称

---title: "新版TCGA数据下载_自力更生版"output: html_documenteditor_options: chunk_output_type: console--- ```{r setup, include=FALSE}knitr::opts_chunk$set(echo = TRUE,message = F,warning = F)``` ### 1.查看TCGA的33个project ```{r}rm(list = ls())library(TCGAbiolinks)library(stringr)library(SummarizedExperiment)projs <- getGDCprojects()$project_id %>% str_subset("TCGA")projs``` ### 2.下载并整理表达矩阵 ```{r}proj = "TCGA-CHOL"f1 = paste0(proj,"expf.Rdata")if(!file.exists(f1)){ query = GDCquery(project = proj, data.category = "Transcriptome Profiling", data.type = "Gene Expression Quantification", workflow.type = "STAR - Counts",) GDCdownload(query) dat = GDCprepare(query) exp = assay(dat) #tpm = assay(dat,4) save(exp,file = f1)}load(f1)``` ### 3.下载并整理临床信息 ```{r}f2 = paste0(proj,"clf.Rdata")if(!file.exists(f2)){ query = GDCquery(project = proj, data.category = "Clinical", data.type = "Clinical Supplement", file.type = "xml" ) GDCdownload(query) dat = GDCprepare_clinic(query,clinical.info = "patient") k = apply(dat, 2, function(x){!all(is.na(x))});table(k) clinical = dat[,k] save(clinical,file = f2)}load(f2)``` ### 4.表达矩阵行名ID转换 ```{r}library(tinyarray)exp = trans_exp_new(exp)exp[1:4,1:4]``` gdc下载的数据从此处开始衔接 ### 5.基因过滤 需要过滤一下那些在很多样本里表达量都为0或者表达量很低的基因。过滤标准不唯一。 过滤之前基因数量: ```{r}nrow(exp)``` #### 常用过滤标准1: 仅去除在所有样本里表达量都为零的基因 ```{r}exp1 = exp[rowSums(exp)>0,]nrow(exp1)``` #### 常用过滤标准2(推荐): 仅保留在一半以上样本里表达的基因 ```{r}exp = exp[apply(exp, 1, function(x) sum(x > 0) > 0.5*ncol(exp)), ]nrow(exp)``` ### 6.分组信息获取 根据样本ID的第14-15位,给样本分组(tumor和normal) ```{r}Group = make_tcga_group(exp)table(Group)``` ### 7.保存数据 ```{r}save(exp,Group,proj,clinical,file = paste0(proj,".Rdata"))```

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档