cBioPortal网站目前存储DNA拷贝数数据(每个基因的假定,离散值,例如“深度缺失”或“扩增”,以及log2水平),mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平(RPPA)数据,DNA甲基化数据和有限的临床数据等,可以快速获取大规模癌症基因组学项目的分子谱和临床预后相关性,并将这些丰富的数据集转化为可视化数据以用于临床。
cBioPortal数据库是探索肿瘤的基因组学特征,是从DNA水平进行的,是对机制的进一步研究。基因差异表达、生存分析和免疫浸润分析,上述分析严格意义上讲均属于表型。免疫浸润分析属于交叉,算是表型式的解释,就是用现象解释现象,但其实并没有涉及具体的机制。
TCGA是一个综合性的多组学肿瘤基因组数据库,除包含DNA测序之外,还包含了RNA测序、拷贝数、蛋白谱、甲基化等多个组学的数据,但是在TCGA的官方网站GDC Data Portal (https://portal.gdc.cancer.gov/)
生存分析很重要,如何高效地对两万多个基因批量做生存分析?今天,猎豹师兄带领大家,正确姿势做生存分析,快速锁定目标基因。
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记
其中MSKCC的就是cBioPortal,主页在:https://www.cbioportal.org/
各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据
大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。
根据我们的整理,差异分析是基础,生存分析和相关性分析是表型,免疫浸润分析是对表型的阐释,兼有表型和机制两种作用,但并不是真正意义上的机制探究。通常意义上的机制一般涉及信号通路,是一系列分子的级联反应。
对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。
TCGA是研究肿瘤相关机制的重要资源。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。
这是我们分享多次的论文,其中涉及基因组学的生信分析,就是用cBioPortal数据库进行机制探究。比较简单,但是在进行基因组学探究时,这些分析有时就足够了。
在芒果学习的生信论文中,第28篇生信文章是cBioPortal数据库使用最多,也是用的最好的。
在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。相关性包括表达与病理分期、治疗手段、年龄、种族、吸烟、突变、性别、共表达等因素的相关情况,通常用相关系数R表示,其差异也是用p值判断。严谨的生信论文还对分析结果做出ROC曲线,以提高数据的可信度和说服力。
十一假期飞快的过去了,小伙伴们都度过了一个难忘的假期了吧?是不是感觉十一美美的不想上班学习呢?不管假期如何,工作/学习还是要继续的。今天小编就带给大家一个美美的棒棒糖图,让你的科研结果也能美美的展示!
cBioPortal整合了来自TCGA,CCLE以及几个独立的大型肿瘤研究项目的数据,构建了一个易于使用的网站,不需要有深厚的计算机功底,也可以通过该网站查询,分析,可视化肿瘤的相关结果。
各位科研芝士的朋友,今天继续和大家分享一篇Aging的文章,这篇文章不再是讲signature了,作者在题目中就告诉大家本篇的重要研究分子-RBM8A,不再是茫茫人海遇知己,而是已经知道知己,开始编写该分子的浪漫爱情故事。整篇文章丝毫不涉及到编程,几乎全部是点点鼠标便能实现的操作。
看自己感兴趣的基因在自己研究的癌症的预后相关性是高频需求,其实就是拿到基因在癌症病人的表达信息,然后就可以根据表达量高低对病人进行分组,最后这个分组是否统计学显著的把病人的生存情况区分开来。
之前我们在介绍GEPIA的时候,说这个数据库只能用于TCGA表达数据的一些分析。但是对于TCGA数据而言,里面包括相同样本的表达、突变、拷贝数、甲基化以及临床信息等数据,所以我们其实可以利用TCGA数据库来进行多组学之间的交叉分析。今天我们就介绍一个TCGA多组学分析的经典数据库:
原文链接: Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis
前段时间,我们介绍了两篇在OncoImmunology发表的简单的生信+实验的文章。最近又发现一个杂志(Genomics, IF = 6.205)也发表一些生信相关的文章。里面有些文章简单的令人发指。今天就来介绍一个基本上全部都是用在线数据库做出数据的文章。
我们知道一般基因启动子区域的超甲基化会导致下游基因转录受到抑制,从而使表达量下调。也就是一般启动子区域的甲基化水平跟下游基因的表达是成负相关的。
生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。相关性包括表达与病理分期、治疗手段、年龄、种族、吸烟、突变、性别、共表达等因素的相关情况,通常用相关系数R表示,其差异也是用p值判断。
各位科研芝士的朋友,大家好,TCGA_SNP的下载我们已经连续分享了4个帖子,分别是官网直接下载,Tcgabiolinks下载、UCSC-XENA下载以及cBioportal工具下载,今天我们分享SNP数据下载的最后一讲Fire Browse工具。
之前我们是用另外一个包实现的,玩转cgdsr之循环批量相关性,但是这个包11月底被弃用了,┭┮﹏┭┮,它的功能被一个新包继承过来了。
最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。 本文包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展示),然后是cBioPortal,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE,比较不错的在线展示和方便的数据下
一个基于TCGA数据库,不需要注册登录即可进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。
我组织的第一个活动是文献分享,第二周是关于ctDNA里面的甲基化在癌症诊断和预后的,都是中山大学肿瘤医院的大文章。
(1)突变信息文件,这个文件可以通过TCGA官网或者tcgabiolinks下载,也可以从cbioportal下载。
经常有小伙伴跟我抱怨,没时间没精力去学代码,太复杂了。当然也有些小伙伴确实打起精神开始学,从网上搜了一大堆R语言资料,和生物信息学资料,甚至还买了本R语言实战的书,甚至还学起了python,准备大干一场。但是,有时候实在是心有余而力不足,一边要学实验技术,上课,读文献,甚至要在临床轮转,当初高涨的热情很快就被磨灭,然后就没有然后了。
这么长时间以来,我们推荐过的数据库差不多有好几十个,今天把最常用的一些的实用数据库汇总整理了一下:
差异分析,无论是Oncomine,GEPIA,还是UALCAN、HPA数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生信操作。并没有想象中那么难。fold change>2(起码1.5),p<0.05是差异分析的基本标准。但是表达的差异≠表型的差异,而这两者关系又密不可分。
根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)
今天分享一篇2019年6月发表于J Cell Physiol(IF:4.522)的文章,标题是Identification of a four‐gene metabolic signature predicting overall survival for hepatocellular carcinoma. 文章主要是预后模型构建和验证,富集分析佐证代谢方向,外部数据支持预后相关基因在测试集和验证集的表现。
第43篇生信论文的分享。先不说论文思路,但是论文题目过于简单,其实可以点出与肿瘤免疫浸润表型相关。
生存分析(Survival Analysis)是研究生存现象和响应时间数据及其统计规律的一种统计学方法,是关联表型与患者预后的重要手段。今天,我们带领大家,看看如何用R语言做生存分析,快速锁定目标基因。
谈起TCGA分析工具,我知道你肯定要说什么 GEPIA,cbioportal……, 但是 TCGA甲基化呢? 这些碉堡的神器瞬间就黯然失色了吧,数风流神器,还看白介素同学推荐,首先来看下今天要分享的神器有哪些NB功能吧:
谈起TCGA分析工具,我知道你肯定要说什么 GEPIA,cbioportal......, 但是 TCGA甲基化呢? 这些碉堡的神器瞬间就黯然失色了吧,数风流神器,还看白介素同学推荐,首先来看下今天要分享的神器有哪些NB功能吧:
很多人总是问我如何挖掘TCGA的数据,发文章! 可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以根据权限下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域) 那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据? 其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
今天和大家分享的是2020年1月发表在Journal of Translational Medicine(IF:4.098)上的一篇文章,“Bioinformatics-based screening of key genes for transformation of liver cirrhosis to hepatocellular carcinoma”,作者用GEO数据集筛选了肝细胞癌和肝硬化的差异表达基因(DEGs),结合STRING数据库和Cytoscape软件构建蛋白-蛋白相互作用(PPI)网络,最后鉴别出影响肝硬化转化为肝细胞癌(HCC)的关键基因CDKN3,有望成为肝细胞癌诊断、治疗及预后的分子标志物。
全部流程在R里面运行,maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作。
肿瘤的发生可以看做是体细胞变异累计的结果,按照所有的变异都正向驱动肿瘤发展的假设,患者包含的体细胞变异越多,其肿瘤发展会越快,然而从基因组测序的结果来看,驱动突变的基因通常是相互排斥的,也就是说如果两个驱动突变的基因同时发生,肿瘤的发展反而会被抑制 ,只出现一个时,则驱动肿瘤的发展。
--生信自学网
OncoKB收集了肿瘤发生发展相关的,具有临床意义的基因组变异信息,对于每个变异,提供了其对应的生物学效应,药物互作,预后和治疗意义等详细信息,对应的文章链接如下
摘要部分,言简意赅,尤其是数据库的介绍,穿插在结果的叙述之中。作者对乳腺癌的认识和理解还是蛮深刻的,这也是对肿瘤进行深入分析的基础。
m6A甲基化修饰是哺乳动物蛋白质编码mRNA中最普遍的RNA修饰,是一种具有多种重要生物功能的可逆修饰。m6A的形成和功能由甲基转移酶(writers)、去甲基化酶(erasers)和结合蛋白(readers)作为关键因素来调节。
领取专属 10元无门槛券
手把手带您无忧上云