我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比较多,所以这里也就做一下简单的介绍。
TCGA有自己的一批工具,ICGC也有自己的网站,但好的资源都是要整合起来,整合越多越好(虽然事实不一定如此,但有这个想法的人不少),用着才更方便。这就靠今天介绍的UCSC XENA来实现了。
想研究肿瘤数据库,可不是只有TCGA、GEO能用。小编今天帮大家总结了一些没那么广为人知,但好用且仍在更新的癌症基因数据库。
基因突变有很多种类型,其中核苷酸的插入有可能影响基因的蛋白的编码。所以对于基因突变插入的研究是是很重要的。
前年在中科院做培训时,整理了一套ChIP-seq分析流程,截选实战部分,略作修改,分享出来,希望大家指正。 那次培训内容比较杂,还有关于TCGA、ICGC、ProteinAtlas等数据库的使用, 前面已经分享过,链接如下: UCSC XENA - 集大成者(TCGA, ICGC) ICGC数据库使用 TCGA数据库在线使用 下面步入正题,这套流程从ChIP-实验、测序注意事项、测序深度,到分析整体流程,再到每一步如序列比对,富集效率评估、热图、峰图可视化,deeptools2使用、peak callin
称之为国际肿瘤基因组协会,成立于2007年,第一个提议是构建约25000肿瘤的基因组图谱,称之为the 25K Initiative。对来自世界范围内不同肿瘤研究的数据进行整合,制定了统一的数据管理规范, 使得肿瘤数据得以共享,对于肿瘤研究有极大的推动意义。 第二个提议是泛癌基因组学研究,全称如下
大家好!今天跟大家分享的文献是2020年11月发表在Journal of Hepatocellular Carcinoma (IF=4.655)杂志上的一篇文章。文章利用TGCA数据库中肝细胞癌患者的转录组数据,分析并确定了患者的缺氧和免疫相关的特征并建立了预测模型,预测病人的预后状况。
下载的数据长这样,存放在我的/bioinformatics/ICGC/SpecimenCentric文件下:
我们都知道在TCGA数据库当中,包括了33种所有实体肿瘤的测序的结果(如果不知道的话,可以看我们今天的第二条推送哦!)。我们在进行TCGA数据分析的时候,除了可以对单一的癌种进行分析之外。还可以对所有的33种肿瘤进行统一的分析解读,来寻找33种肿瘤当中所存在的共同的特征。这就是我们说到的泛癌分析了。
TCGA是不错的癌症研究数据资源,但癌症研究不只是有TCGA。ICGC国际癌症基因组联盟,有亚洲、澳大利亚、欧洲、北美和南美17个行政区的89个项目,包括25,000个肿瘤基因组。目的是To obtain a comprehensivedescription of genomic, transcriptomic and epigenomic changes in 50 different tumor types and/or subtypes which are of clinical and societ
关于PCAWG在线数据库的介绍,之前我们介绍了ICGC和UCSC XENA这两个数据库。其中ICGC主要是可以用来分析突变在泛癌当中的结果。而UCSC XENA则是一个综合性的数据库,可以用来分析几乎所有的涉及到TCGA的数据。由于分析的内容比较多,所以也就导致操作会相对来说复杂很多。但假如我只是想看一个基因表达情况的话,那使用XENA就稍微有一些大材小用了。今天介绍的这个数据库就是专门用来查询基因表达情况的数据库。这个数据库就是:Expression Atlas (https://www.ebi.ac.uk/gxa/home)。
典型的癌症疫苗由带有或不带有佐剂的肿瘤抗原组成,它重新编程免疫系统以识别和消灭癌细胞。免疫分型可以反映肿瘤及其免疫微环境的综合免疫状态,其与治疗应答和免疫潜力密切相关。
--生信自学网
尽管检查点阻断是治疗肝细胞癌 (HCC) 的一种有前途的方法,但尚未确定预期会出现反应的患者亚群。T 细胞介导的肿瘤杀伤 (TTK) 是免疫检查点抑制剂治疗的基本原理。
传统化疗是对抗癌症的常见方法,但它会攻击全身,造成不必要的副作用,如脱发,恶心和疲劳。 靶向治疗选择性地杀死癌细胞而不影响健康组织。靶向药物开发将成为治疗癌症的重要手段。 肿瘤的生物信息学数据库对肿瘤基础研究的发展、临床治疗水平提供具有重要作用。
mSignatureDB是一个肿瘤突变特征的数据库,以COSMIC数据库中收录的30种突变特征作为参照,分析了来自TCGA和ICGC中约15000多个肿瘤样本中这30种突变特征的构成,文章发表在Nucleic Acids Research上,链接接如下
在4月期间,总共发表了医学相关在线数据库34个。下面就来给大家介绍一下主要有哪些数据库,以及笔者比较感兴趣的数据库。如果想要所有相关数据库信息的,后台回复:2104。
关于可变剪切研究的数据库,尤其是在肿瘤当中研究可变剪切的数据库。之前我们介绍过了[[tsvdb-可变剪切分析数据库]]以及[[TCGA Spliceseq-可变剪切相关数据库]] 这两个基于 TCGA 构建的数据库。这两个数据库当中,一个用来可视化可变剪切的情况,另外一个则提供了可变剪切数据的整体分析。
之前我们介绍过一些用来预测基因在肿瘤当中表达情况的数据库。例如,GEPIA、UALCAN这些的。这些的数据库主要是通过输入目标基因,同时点击想要进行分析的模块就可以返回相关的结果。如果厌倦了点点点的话,那可以了解一下今天介绍的这个工具,这个工具可以通过对话框进行聊天就可以把分析做了的网站:DrBioRight(https://drbioright.org/landing/)。
大家好,今天和大家分享的是2020年1月发表在“Frontiers in Genetics” (IF=3.258)上的一篇文章“An Integrated Model Based on a Six-Gene Signature Predicts Overall Survival in Patients With Hepatocellular Carcinoma”,作者借助GEO、ICGC等公共数据库,通过生物信息学的方法筛选出6个可用于预测肝细胞癌(HCC)患者OS的基因,并构建列线图对不同数据集的样本进行预测,验证筛选基因的预后价值。
我们人体的基因表达情况是会随着年龄的变化发生变化的。通过了解正常人当中那些基因随着年龄会发生变化,对于研究和年龄有关的疾病也有种重要的作用。今天就来介绍一个年龄有关基因表达数据库:ADEIP (http://gb.whu.edu.cn/ADEIP/)
是由Broad Institute研究所牵头发起的一项肿瘤基因组学研究项目,收集整理了1000多个肿瘤细胞系的组学数据,包含了以下类别
数据库地址: http://www.innovebioinfo.com/Database/CoMutDB/Home.php
KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。这个数据库收录了目前公共数据库当中敲减该转录因子后做的表达谱(芯片、二代测序)的数据,进而来反映这个转录因子变化后对于基因表达的影响。
对于高维度的数据分析而言,例如RNA-seq的数据。我们在得到数据想要解释不同分组之间的差异的基因。往往都需要逐渐的降维来进行解释。最普遍的方法通过差异分析—富集分析这样的也算是一种逐步降维的操作。这样这样的分析,也有可能聚焦到很多个目标当中,比如一个通路当中有很多个基因。因为为了更好的解释高维度的数据,也就有了基因分型这样的分析方法。
导管腺癌及其亚型是最常见的胰腺肿瘤,占胰腺肿瘤的85%~90%。大多数发展中国家的发病率为1~10人/万。由于胰腺癌的生存率极低,发病率和死亡率几乎是相等的。肿瘤免疫细胞浸润是指免疫细胞从血液中移向肿瘤组织,开始发挥它的作用。肿瘤中免疫细胞的浸润与临床结果密切相关,肿瘤中浸润的免疫细胞最有可能作为药物靶标来提高患者的生存率。
大家看惯了五六分的肿瘤预后分型套路?今天小编为大家带来一篇发表在Briefings in bioinformatics这样的生物信息学期刊的肿瘤预后模型文章,题目为Immune infiltration and clinical significance analyses of the coagulation-related genes in hepatocellular carcinoma,影响因子13.9分。
对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。
关于基因表达调控方面从 DNA-RNA 的过程当中主要是通过转录调控来影响基因的表达的。关于转录调控我们在之前的推送当中介绍过相关的内容,具体可见:[[转录因子调控]]。一般对于转录因子靶基因预测主要是通过 [[chip-seq是个什么东东]] 来进行分析的。但是通过 chip-seq 我们只知道每一个转录因子具体结合的的基因组位置是什么地方。但是对于是否具有转录调控关系。往往需要结合的基因表现出表达变化才能算是影响调控。所以今天就介绍一个综合 chip-seq,RNA-seq 综合性预测转录调控网络的数据库:GRAND: https://grand.networkmedicine.org/ 。
所以最好把前面的内容去掉,sed 可以使用模式匹配进行文本修改,而 mv 可以重命名文件,我们结合两者试试。首先用单个文件测试修改方式是否正确:
基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一 今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。 云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网,而且计算资源是共享的,这就引起了很多科研资助机构的疑虑,他们担心云计算的使用会泄露样本提供者的隐私。NIH取消不准上传到云端的规定是因
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
点击标题下「大数据文摘」可快捷关注 翻译校对:兔八哥(转载请保留) 原文链接:http://www.bigdata-madesimple.com/5-things-big-data-can-do-in-cancer-research/ 1. 帮助指导使用已通过的癌症药物 虽然临床试验为医生们提供了许多药物如何发挥作用的有用信息,但是大概只有2%的癌症患者参与了临床试验。 事实上,每天都有成千上万的患者接受诊断和治疗。这意味着其实我们可以从中获得大量的重要数据,来帮助医生与病人在面对不同治疗方案及其可能的结果
大家好,这次给大家分享得文献是A hypoxia-related signature for clinically predicting diagnosis, prognosis and immune microenvironment of hepatocellular carcinoma patients,2020年9月发表在Journal of Translational Medicine杂志上,影响因子4.124。文章主要是寻找肝细胞癌诊断、预后和复发的特征基因并构建预测模型,所用方法比较常见但篇幅很长!
基因集分型预后是这几年的一大热点。然而,随着大量基因集肿瘤分型文章的发表,我们的文章怎样才能脱颖而出呢?今天小编为大家带来一篇使用缺氧和免疫两大基因集共同确定胰腺癌预后Signature的文章,原来基因集泛癌还可以这么做!本文题目为Development and Verification of the Hypoxia- and Immune-Associated Prognostic Signature for Pancreatic Ductal Adenocarcinoma,今年十月刚刚发表在Frontiers in Immunology上,影响因子7分+。
对于公共数据库分析的文章而言。目前传统的差异表达分析的思路而言,已经比较老套了。目前更多的可能是基于某一个热点来进行相关的分析。比如之前我们介绍过的一些和免疫相关的分析。另外比如今天介绍的这个和代谢相关的文献。
https://dcc.icgc.org/pcawg 写清楚了两千多个病人的WGS数据来源于哪些项目哪些癌症!
题目:A new thinking: extended application of genomic selection to screen multiomics data for development of novel hypoxia-immune biomarkers and target therapy of clear cell renal cell carcinoma
一个基于TCGA数据库,不需要注册登录即可进行可视化分析的网页,不需要代码,里面内容十分丰富,提供了最详细的TCGA在线分析展示。
annnovar filter-based annotaton用于分析哪些变异位点是数据库中的已知位点,在判断时,除了染色体位置之外,allel也必须相同。region-based annotation 在分析时只考虑基因组位置,只要是存在overlap关系就会输出结果,而filter-based annotation会更加严格,首先要求基因组上的起始和终止位置必须完全一致,其次变异位点的allel也必须完全相同才行。
「英文标题:Organoid profiling identifies common responders to chemotherapy in pancreatic cancer」
近日来自Genome Biology的一项研究中提出了一个综合数据库:My Personal Mutanome (MPM),用于加速精准癌症医学方案的开发。MPM提供了基于网络的诊断和药物基因组学方法,用来了解临床环境中复杂的基因型-表型关系和治疗反应,有望促进肿瘤发生的可操作突变的鉴定和人类相互作用组水平的个体化治疗。
是CRC分子分型领域的权威,提出4个consensus molecular subtypes (CMSs),该研究整合了18个公共数据集,成功的划分成为了稳定的4类:
肿瘤的发生可以看做是体细胞基因组变异不断累积之后爆发的结果,这里的基因组变异包含了突变,CNV等等,详细列表如下
癌症相关的体细胞位点,是整个网站的核心,收录了来自不同研究机构和数据库的体细胞突变数据,并提供了方便的浏览,检索,下载功能。
Integrative pathway enrichment analysis of multivariate omics data
大家好!今天给大家介绍一篇2022年6月发表在Briefings in Bioinformatics(IF:13.994)上的一篇文章。本研究作者对肝细胞癌患者的凝血相关基因进行全面分析并构建预后模型,随后研究两个亚型的免疫水平差异。
大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。
全基因组癌症分析(Pan-Cancer Analysis of Whole Genomes 缩写:PCAWG)项目旨在对38种不同肿瘤类型的2600多种原发癌及其配对正常组织进行了全基因组测序和综合分析。在PCAWG的主导下,来自全球700个科学家完成了对2658份癌症样本做了全基因组测序工作。
让我很无语,我又不是带领本科生搞一个学期的课程,仅仅是不到2小时我能讲解什么背景呢:
领取专属 10元无门槛券
手把手带您无忧上云