专栏首页生信小驿站pan-cancer泛癌单基因分析问题之合并TCGA和GTEx

pan-cancer泛癌单基因分析问题之合并TCGA和GTEx

这个学习记录总共分为两个部分。

(1)第一个部分是纯代码分析某个基因在TCGA33类肿瘤中的差异分析。 (2)结合TCGA和GTEx数据库,这样做的好处是:因为TCGA中肿瘤样本和正常样本是不均衡的,甚至某些肿瘤是没有癌旁正常组织的。所以结合GTEx数据库,可以大大增加正常样本的数量。

(1)TCGA差异分析

  • 下载TCGA rawcount数据。
#=======================================================


#=======================================================


library(GenomicDataCommons)

setwd('D:\\SCIwork\\F33\\TCGA')

rm(list=ls())


library(dplyr)

library(TCGAbiolinks)

library(dplyr)

library(DT)

library(SummarizedExperiment)

library(stringr)

#=======================================================


#=======================================================

cancer  <- TCGAbiolinks:::getGDCprojects()$project_id

cancer <- str_subset(cancer, "TCGA")

cancer <- sort(cancer)




for (i in 1:33) {
  cancer_select <- cancer[i]
  print(cancer_select)
  #下载rna-seq的counts数据
  suppressMessages({
    query <- GDCquery(
      project = cancer_select,
      data.category = "Transcriptome Profiling",
      data.type = "Gene Expression Quantification",
      workflow.type = "HTSeq - Counts")  })
  
  
  if (is.null(query)){
    print(paste0("No Counts data of solid normal tissue for ", cancer_select ))
  } else{
    
    GDCdownload(query, method = "api", 
                files.per.chunk = 300)
    expdat <- GDCprepare(query = query, save = TRUE,
                         save.filename = paste0(cancer_select,".rda"))
    count_matrix=assay(expdat)
    write.csv(count_matrix,
              file = paste( cancer_select,"Counts.csv",
                            sep = "-"))}}

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 100篇泛癌研究文献解读之使用EXPANDS和PyClone量化肿瘤内部异质性

    为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://...

    生信技能树
  • TCGA数据库的normal样本不够可以拿GTEx来凑

    其实是没办法简单的回答是否可以整合TCGA和GTEx数据库,或者说该如何结合,这背后的统计学略微有点复杂,不仅仅是批次效应。发表在Sci Data. 2018;...

    生信技能树
  • 100篇泛癌研究文献解读之生存分析相关基因

    为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://...

    生信技能树
  • 100篇泛癌研究文献解读之核受体基因家族探索

    为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://...

    生信技能树
  • GEPIA2详解(中国智造-肿瘤数据库)

    GEPIA2 是北京大学张泽民老师实验室开发的一个网站,能够对TCGA和GTEx项目共9736个肿瘤样本、8587个正常样本的RNA-seq表达数据进行分析。目...

    生信技能树
  • 获取、可视化和分析蛋白质组学数据资源:TCPA

    功能蛋白质组学的相关研究能够快速提高我们对病理生理学和治疗癌症的理解。为了方便更广泛的研究访问癌症蛋白质组数据集,该团队开发了一个用户友好的数据资源,TCPA(...

    科研菌
  • 100篇泛癌研究文献解读之snoRNAs

    为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://...

    生信技能树
  • TCGA泛癌全基因组分析(PCAWG)介绍

    我们都知道在TCGA数据库当中,包括了33种所有实体肿瘤的测序的结果(如果不知道的话,可以看我们今天的第二条推送哦!)。我们在进行TCGA数据分析的时候,除了可...

    医学数据库百科
  • 100篇泛癌研究文献解读之突变全景图

    为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://...

    生信技能树

扫码关注云+社区

领取腾讯云代金券