一个基于TCGA数据库,不需要注册登录即可进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。
生物信息数据分析教程视频——13-3种R包(DESeq2、edgeR和limma)进行RNAseq的差异表达分析与比较
我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比较多,所以这里也就做一下简单的介绍。
TCGA数据库在2022年4月初进行更新之后,小编第一时间给大家展示了TCGA数据库的变化,用图文的方式详细介绍了新版TCGA数据库RNAseq数据下载方法。
大家应该是都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据,miRNAseq数据以及体细胞突变数据
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
标题:A novel autophagy-related lncRNA prognostic risk model for breast cancer
关于可变剪切研究的数据库,尤其是在肿瘤当中研究可变剪切的数据库。之前我们介绍过了[[tsvdb-可变剪切分析数据库]]以及[[TCGA Spliceseq-可变剪切相关数据库]] 这两个基于 TCGA 构建的数据库。这两个数据库当中,一个用来可视化可变剪切的情况,另外一个则提供了可变剪切数据的整体分析。
也就是说,任意癌症,很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息,包括SNV和CNV,这样的话,除非大家感兴趣的疾病并不在TCGA数据库里面,或者说具有其它特殊性(比如人种),否则都不建议继续设计这样的简单的课题了。
之前我们在介绍GEPIA的时候,说这个数据库只能用于TCGA表达数据的一些分析。但是对于TCGA数据而言,里面包括相同样本的表达、突变、拷贝数、甲基化以及临床信息等数据,所以我们其实可以利用TCGA数据库来进行多组学之间的交叉分析。今天我们就介绍一个TCGA多组学分析的经典数据库:
其实是没办法简单的回答是否可以整合TCGA和GTEx数据库,或者说该如何结合,这背后的统计学略微有点复杂,不仅仅是批次效应。发表在Sci Data. 2018; 的文章:Unifying cancer and normal RNA sequencing data from different sources 就比较详细的说明了TCGA和GTEx数据库的转录组数据的天然差异:
视频地址:http://mpvideo.qpic.cn/0b2efmaamaaaryalyzztmvrvak6dayvqabqa.f10002.mp4? 参考文章: UCSC数据库下载TCGA数据需要
TCGA数据库目前是科研中最常用的数据库之一,其中储存着多种疾病的各组学的数据,借助该数据库,帮助了很多研究生们发表了自己的文章,达到了毕业条件。但是,如果你是刚入门的新手,不用担心,跟着我们的系列推文,完成TCGA数据库的认识与下载,开启TCGA数据库的大门。今天我们就来学习一下TCGA数据库中癌症的RNAseq数据下载。
最近一直是在总结核酸研究杂志2019发表的数据库(关于这个他们杂志专门发了一个总结文献,感兴趣的可以去看看,PMID: 31906604,如果懒得自己看,可以每天看一下我们公众号就行),其中就有一个数据库是 APAatalas。
前面给大家介绍了新版的TCGA数据库,通过文字和视频给大家讲解了如何从TCGA数据库下载RNAseq数据和miRNAseq数据
利用一周多的时间,我们把最最基本的生信套路来讲解了一遍。正好前几天一个小伙伴拿了一篇相关文献在咨询问题。这里就拿这篇文献来总结一下我们目前写的这些东西。
这里我们可以发现,miRNA的前体可能对应多个成熟的miRNA,比如hsa-let-7a-1,有两个对应的成熟体,MIMAT0000062(hsa-let-7a-5p)和MIMAT0004481(hsa-let-7a-3p)。这里的值是对所有成熟体miRNA求和的结果。
但是TCGA数据库这2年就更新了两次,有些以前的教程可能就不在适用,我也写了一篇文章来介绍了最新版的内容:2024年TCGA数据库改版后的数据下载问题,为了下载数据方便,以及我后续分析数据方便,我正在把以前的代码渐渐封装成一个R包,让一些常规分析变得更加方便快捷,这个R包在慢慢的开发中,包的内容比较杂,没有一个好的名字,我就用我公众号ID(MedBioInfoCloud)作为包名:
关于融合基因,之前我们已经介绍了多个相关的数据库。如果要研究融合基因的话,可以看一眼
TCGA数据库在2022年4月初进行更新之后,RNAseq的数据格式发生了很大变化,给我们广大的科研工作者带来了极大的不便。小编也是在第一时间给大家展示了TCGA数据库的变化,用图文的方式详细介绍了新版TCGA数据库RNAseq数据下载方法。
我们都知道,RNA可以分为转运RNA(tRNA), 核糖体RNA(rRNA)以及信使RNA(mRNA)。而tRNA会被降解成一些非编码的小片段。这些小片段就称为tRNA延伸片段(transfer RNA-derived fragments, tRFs)。按照研究类型目前tRFs主要可以分为:5ʹ-and 3ʹ-halves (>30 nt), 5ʹ- and 3ʹ-tRFs (15–30 nt), i-tRFs 和 3ʹU-tRFs 这六个类型。
各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据
我们都知道在TCGA数据库当中,包括了33种所有实体肿瘤的测序的结果(如果不知道的话,可以看我们今天的第二条推送哦!)。我们在进行TCGA数据分析的时候,除了可以对单一的癌种进行分析之外。还可以对所有的33种肿瘤进行统一的分析解读,来寻找33种肿瘤当中所存在的共同的特征。这就是我们说到的泛癌分析了。
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
前面关于TCGA的教程我介绍很多,包括数据下载和一些简单的分析以及数据的处理,这里介绍还是介绍数据的下载,前面介绍过从网页下载后直接整理,或者利用R包下载,这里介绍基于TCGA数据开发的一些工具——UCSC。从UCSC下载TCGA数据比较简单。
关于差异分析的文章中【一文就会TCGA数据库基因表达差异分析】其实有推送过,这篇文章目前为止,有近千人付费学习。
关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA。
所以我这里安排一个学徒作业,大家需要去下载TCGA数据库的BRCA这个癌症的芯片和RNA-seq的表达矩阵,分别进行差异分析,拿到统计学显著的上下调基因列表。
基因融合指的是两个或者多个基因的部分序列结合到一起形成了一种新的基因。随着高通量测序的发展,我们可以利用二代测序的数据来鉴定出发生在不同疾病当中的融合基因,所以也就出现了很多来寻找融合基因的数据库。今天就来给大家介绍几个融合基因查询的数据库。
对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。
因为关注我们公众号的小伙伴,对发表在SCI上的情况更为关心,所以我们在GeenMedical检索中限定了IF大于0的文章,然后进行了统计。
在进行差异分析、生存分析等下游分析时,有很多粉丝朋友对到底使用哪种类型的数据非常纠结,所以我们今天比较一下counts、tpm、fpkm、vst、cpm的表达量差异,让大家对这些数据类型有一个直观的感受。
有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:
DAVID、g:Convert 以及 biomart,但是这个工具内置的数据怎么样并不清楚,所以今天就来评价一下这几个工具吧。
--生信自学网
在进行融合基因的分析时,我们会想要知道哪些融合基因是别人已经发现并证实过的,对应的疾病等信息,借助已有的融合基因的数据库可以实现,常用的数据库有以下几个
小伙伴们大家好,在肿瘤免疫分析十分火热的当下,灵活的运用相关数据库可以让我们的研究便捷许多。
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。
就是一篇文章并没有使用TCGA数据库的指定癌症的生存信息去看自己感兴趣的基因的生存效应,反而舍近求远去下载BMC Cancer. 2011 文章数据,所以我怀疑TCGA应该是该基因在该癌症里面的生存效果不显著!
本来呢,还在奇怪,TCGA数据库里面的乳腺癌患者的放化疗信息应该是没有那么全吧。等我看完摘要才明白,原来是研究者自己招募的病人队列,来自于Iceland between 1976 and 2007. 而且Chemotherapy信息很丰富,包括 cyclophosphamide, methotrexate, and fluorouracil 。
TCGA年度(共4年)研讨会PPT官网是: http://www.genome.gov/17516564
最近在做一个0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》,直播活动,收集整理文献看到了一个很有意思的研究,节选文章里面的部分图表作为学徒作业哈!
染色体外环状DNA(eccDNA)属于线性的染色体DNA的一个扩展。之前对于eccDNA的基本特征,我们基于一个综述进行了简单的介绍: [[eccDNA基本内容]]。而关于eccDNA相关的数据库,目前一共也才有两个在线数据库。之前我们介绍了[[CircleBase-eccDNAs综合性分析数据库]]。今天就来介绍另外一个数据库:eccDNAdb: http://www.eccdnadb.org/
前者数据是 IlluminaHiSeq TCGA hub表达矩阵,基因SYMBOL的表达矩阵,基因的表达信息,通常是用来把病人进行分组,然后还是需要下载临床信息,才能做生存分析。
领取专属 10元无门槛券
手把手带您无忧上云