最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。...不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。...本文包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展示),然后是cBioPortal,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE...TCGA主站 ? TCGA分析了11,000个病人的33种肿瘤的7个不同层面的数据,共获得2.5 PB数据。 ? 意在解析癌症发生的分子接触、肿瘤的亚型和治疗靶点等。 ?...TCGA网站主要提供的是数据的浏览和下载功能,可以根据项目、个体、数据类型、肿瘤类型等筛选需要的数据,使用TCGA提供的工具下载,进一步分析。 ? ? ? ? ? ? ? ? ? ?
通常我们在挖掘TCGA数据库的时候,会发现该项目纳入的正常组织测序结果是非常少的,也就是说很多病人都不会有他的正常组织的转录组测序结果,比如说乳腺癌吧,1200个左右的转录组数据,其中1100左右都是肿瘤组织的测序数据...这个时候我们就需要想办法加大正常组织测序样本量,既然TCGA数据库没有,我们就从其他数据库着手。...更多的是关于这个数据库的网页使用介绍,我们生信工程师通常不需要,就不赘述了。...注意一下 数据库的版本信息: The current release is V7 including 11,688 samples, 53 tissues and 714 donors 首先看数据库的注释信息...如果真的要把GTEx数据库的转录组表达矩阵和TCGA的进行比较,还需要一定程度的去除批次效应。 我以前在生信技能树多次讲解,这里也不再赘述。
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记 ——jimmy 往期目录如下: 使用R语言的...数据源 众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库,包括的测序数据有: DNA Sequencing miRNA Sequencing Protein Expression mRNA...一个R包不仅仅是提供一个数据下载接口,更重要的是里面封装了一些便于使用的统计分析函数。...生信技能树GATK4系列教程 GATK4的gvcf流程 你以为的可能不是你以为的 新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧 曾老湿最新私已:GATK4实战教程 GATK4的CNV流程...WES的CNV探究-conifer软件使用 单个样本NGS数据如何做拷贝数变异分析呢 肿瘤配对样本用varscan 做cnv分析 使用cnvkit来对大批量wes样本找cnv
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程!...——jimmy 往期目录如下: 使用R语言的cgdsr包获取TCGA数据 TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 ?...第二篇目录 TCGA数据源 背景知识 了解并获取FireBrowse的数据 了解从FireBrowse下载到的S4对象 5大分析方法 优缺点分析 众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库...而第二个不同的时间,指的是TCGA数据库在发展过程中样本量的增加, 而FireBrowse是按照时间来定期运行程序处理数据的,所以一般来说用最新版的结果,就会涵盖TCGA里面的所有的样本了。...既然是broad的FireBrowse包装盒 那么你当然可以直接使用broad的FireBrowse工具咯,命令行版本哈!
TCGA全称如下 The Cancer Genome Atlas 是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome...Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。...该数据库的网址如下 https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga 数据类型包括以下几种...目前针对TCGA的数据,常用的分析包括以下几种 生存分析 肿瘤患者和正常人的差异分析 组学数据和临床数据的相关性 基于TCGA等公共数据库的挖掘是目前研究的一个热点,在文章中也经常会使用TCGA的数据来和自己实际的数据相互映证...了解和掌握TCGA数据的用法势在必行,在后续文章中会详细介绍。
好久没有写TCGA数据库教程了,因为TCGA计划早在2017年就陆陆续续停止了,我那个时候写了几百个教程并且录制了视频。...数据库有哪些数据 代码如下: > curatedTCGAData(diseaseCode = "*", assays = "*", dry.run = TRUE) Please see the list...联网下载数据 可以使用 dry.run 控制是否真的下载,因为如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。...//accmae_sampleMap.csv" 实战 比如提取TCGA数据库的BRCA数据集的TNBC亚型的表达量矩阵。 前面我们提到过,如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。...写在后面 写完教程才发现居然是没有图片,所以我就借用了2019年3月的这个文章《TACCO, a Database Connecting Transcriptome Alterations, Pathway
长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox...包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧 TCGA的28篇教程...- 指定癌症查看感兴趣基因的表达量 本教程目录: 首先使用cgdsr获取表达数据集临床信息 临床资料解读 简单的KM生存分析 有分类的KM生存分析 根据基因表达量对样本进行分组做生存分析 cox生存分析...只需要记住和熟练使用三个函数: Surv:用于创建生存数据对象 survfit:创建KM生存曲线或是Cox调整生存曲线 survdiff:用于不同组的统计检验 首先使用cgdsr获取表达数据集临床信息...既然是要说明如何对任意癌症的任意基因做生存分析,那么我们首先需要理解cgdsr下载TCGA任意数据的用法(见之前的教程),下面的例子是获取TCGA数据库的乳腺癌的BRCA1和BRCA2基因的表达,以及涉及到的病人的临床资料
该网站结合了反向蛋白质阵列(RPPA)和TCGA的蛋白质组数据库,可以后续结合TCGA的临床数据进行分析。 ?...每个体系都包括4个方面,基本操作一致,我们这里以肿瘤样本为例简要介绍一下该数据库的使用。 点击View details。 ? 进入,可以发现具体包含4个在线分析工具: ?
背景 TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National...TCGA官网: 1. 数据等级和分类: TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。...在网页上方会显示出勾选条件,如下图所示,选择条件是TCGA-LIHC中用MuTect2 call出的原始体细胞变异的SNV文件,文件数量是378个,然后我们可以通过购物车按钮单个添加或全部添加到我们的下载清单中...3.如何下载数据: TCGA中的数据分为controlled和open,controlled数据需要申请账号才可以下载,open数据不需要账号。
options(stringsAsFactors = F) #加载表达数据 load("F:/TCGA/HTSeq-FPKM/Rdata/data/TCGA-COAD-Exp.Rdata") #加载临床数据...load("K:/TCGA/clinicalData/tidyAllCancerData/TCGA-COAD -Clindata.Rdata") 表达数据和临床数据,我之前已经上传到网盘 之前处理后的数据进行简单的处理...因为原来表达矩阵中病人的barcode长,"TCGA-AA-3662-11A-01R-1723-07",而临床数据中的只有前3段。
然后使用相对应的算法来评估每个样本的免疫浸润程度。 ?...但是TIMER算法的作者,最近把TCGA所有癌症的RNA-seq的基于不同算法的结果都进行了运算,同时也把结果放到了网站上,这样我们就可以查各个算法当中具体的免疫情况。...作者使用的是edgr来分析的差异表达结果。我们需要做的就是选择目标基因即可,结果是以箱式图的方式进行呈现的。 ? 2.基因在泛癌当中的预后情况。...自己数据集免疫情况评估 这个数据库除了可以分析TCGA的现有数据之外,也是可以对自己的数据集进行免疫浸润分析的。...值得注意的是,上传的数据是TPM归一化的数据库。 ? 写到最后 以上就是这个数据库的所有内容了。基本上如果想要做TCGA研究的免疫浸润的话,可以通过这个数据库来查看。
下载TCGA所有癌症的maf文件计算TMB 下载TCGA所有癌症的maf文件做signature分析 TCGA计划的4个找somatic mutation的软件使用体验 但是限于时间和知识背景,虽然代码方面问题不大...今天和大家一起探索TCGA数据中胃癌突变的情况。 今天的探索分为两个部分: 1.Mutation 1)数据下载 目前TCGA突变分析的数据vcf格式数据是受限的,所以我们这应用maf文件进行分析。...直接去TCGA官网下载数据也不难,都很容易,并且工具都在添加一些新的功能,比如最近添加的CNV的分析,举一反三的看ICGC的应用方式几乎和TCGA的应用方式是一样的。...注意:TCGA直接下载的maf文件第16列即为样品名(例如:TCGA-FP-A4BE-11A-11D-A24F-08),但是直接下载的临床数据的样本名(例:TCGA-FP-A4BE)是不同的,此处需要整理成一致后读入...渴望探索的小伙伴可以去TCGA的官网试试一样可以绘制出此图,点选即可。
因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。...## 来源于 XENA 数据源: # https://gdc.xenahubs.net/download/TCGA-LAML/Xena_Matrices/TCGA-LAML.survival.tsv.gz...在Xena的survival.tsv中定义的结局事件是死亡,在TCGA-CDR中,PFI.1定义的终点事件是疾病进展,包括死亡、复发、转移等。...具体到病人TCGA-BA-5151,他可能是在术后517天发现有肿瘤复发,第722天失访,那么在Xena的生存分析中是定义为722天截尾,但是在TCGA-CDR中是517天事件发生。...这一点在TCGA-CDR的表格文件中有解释 关于生存分析该选择哪个时间点 这不是一个选择题,既然人家TCGA组织整理了 four major clinical outcome endpoints.
所以今天就给大家推荐一个已经利用TCGA数据库分析好的tRFs数据库:OncotRF[http://bioinformatics.zju.edu.cn/OncotRF/index.html]。...数据库分析流程 通过以上的介绍其实已经了解了这个数据库是怎么进行分析的。对于数据的获取,这个数据库使用TCGA当中miR-seq的bam数据来进行重新比对。进而就可以获得tRFs的表达情况。...数据库使用 数据库主要提供了四种使用的方式:tRFs基本检索;具体肿瘤类型所有结果预览;自定义分组比较以及预后分析 基本检索 假如我们有一个目标的tRF想要进行分析。就可以使用这个功能来进行定向检索。...数据库使用场景 以上就是这个数据库的主要功能了。比较可惜的是作者没有提供所有原始数据下载的功能。不然的话,还可以下载所有的原始数据来进行自己的DIY分析。不过其实功能已经很全了。...研究tRFs的或者在使用TCGA挖掘数据没有新的思路的同学可以考虑一下这个tRFs。
Neuroblastoma 神经母细胞瘤 TARGET-AML Acute Myeloid Leukemia 急性髓性白血病 TCGA-MESO Mesothelioma 间皮瘤 TCGA-ACC...Adrenocortical Carcinoma 肾上腺皮质癌 TCGA-READ Rectum Adenocarcinoma 直肠腺癌 TCGA-LGG Brain Lower Grade Glioma...Cancer Organoid Profiling 胰腺癌类器官分析 TCGA-BRCA Breast Invasive Carcinoma 乳腺浸润癌 TCGA-OV Ovarian Serous...Kidney Chromophobe 肾染色体 TCGA-UVM Uveal Melanoma 葡萄膜黑色素瘤 TCGA-THYM Thymoma 胸腺瘤 TCGA-TGCT Testicular Germ...结肠腺癌 TCGA-LUAD Lung Adenocarcinoma 肺腺癌 TCGA-CESC Cervical Squamous Cell Carcinoma and Endocervical
我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?...TCGA TCGA, 全称为The Cancer Genome Atlas(癌症基因组图谱)。通过其名称我们就知道这个数据库主要做的就是肿瘤相关的数据库。为什么经常看到别人用这个数据库呢?...如果我们使用GEO数据库检索某一个癌种,同样也可以得到这些相关的数据。但是TCGA数据库珍贵的地方是,这个数据都是出自同一个人的。这样的话,我们就可以研究不同组学之间的交叉反应了。...这个数据库和TCGA的关系,就是ICGC数据库包括了TCGA的数据。另外呢,ICGC也纳入了其他别的地区所做的队列的测序数据。所以如果使用ICGC进行检索的话,我们可以得到更多的数据。 ?...另外的一个呢,就是和TCGA联合使用。由于TCGA重点收集的还是癌症组织的数据,对于其正常的数据收集的相对来说较少,由于正常样本少所以对于差异表达的结果可能就不是很准确。
GDC是Genomic Data Commons的缩写,是由美国国家癌症研究所NCI建立的一套癌症数据共享系统,整合包括TCGA在内的多个癌症数据库中的信息,提供了癌症数据的统一存储,管理,展示,将数据与世界范围内的癌症基因组学研究者共享...当然,到目前为止,该数据库中最大的数据依然是来自TCGA的数据。 为了方便管理如果大量的数据,建立了一个统一的数据模型,如下所示 ?...以上只是个人总结的简化版的模型,便于理解数据库中的信息,实际包含的数据类型更多,模型也更加复杂。...数据库的首页提供了以下多个导航栏 1. project 可以查看所有项目的数据,也可以通过左侧的筛选框进行筛选,project相关属性如下所示 ?...点击project id可以查看summary信息,以TCGA-BRCA为例,示意如下 ? 2.
数据库有哪些数据 代码如下: data('diseaseCodes', package = "TCGAutils") head(diseaseCodes) 可以看到是居然是37个数据集,但是有分子分型的并不多...也是需要联网下载数据,但是可以使用 dry.run 控制是否真的下载,因为如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。...数据库的BRCA数据集的TNBC亚型的表达量矩阵 前面我们提到过,如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。...LIVING TCGA-A1-A0SE Positive Positive Negative LIVING TCGA-A1-A0SF Positive...如果ydata存的是肿瘤或者正常样品这样的属性,我们使用cv.glmHub来做分类模型构建,如果ydata存的是肿瘤生存信息,那么我们使用cv.glmHub来做生存分析的模型构建。
TCGAbiolinks是一个分析处理TCGA数据的R包,通过GDC API来查询和下载TCGA的数据,同时提供了差异分析,生存分析,富集分析等常见的分析功能,网址如下 http://bioconductor.org...这里分成了两个步骤,第一步从GDC下载原始数据,可以使用API或者gdc-clinet进行下载, API的速度相对快一点;第二步对原始数据的结果进行整理,从GDC下载的原始数据是每个文件单独分开的,需要先对结果进行整理
TCGA官网:https://portal.gdc.cancer.gov/ 至于使用教程,可阅读之前的文章:TCGA数据库使用教程。...miRNA_ID:miRBase v21数据库中收录的miRNA名称 read_count:miRNA原始reads数,用于表达定量; reads_per_million_miRNA_mapped:每百万...然后我们就可以进行后续的分析了,比如: 差异分析:一文就会TCGA数据库基因表达差异分析。 与临床数据结合的分析:一个R脚本解决某类功能基因(比如m6A甲基化)临床预后模型分析流程.等。...此外,TCGA数据库中处理直接下载的miRNA-Seq之外,Gene Expression Quantification里面的RNA-Seq数据中也有非编码RNA的数据,比如lncRNA等。...我也把TCGA数据库33个Project的RNA-Seq转录组数据都处理好了,后续会介绍怎么处理
领取专属 10元无门槛券
手把手带您无忧上云