不论你是做TCGA数据挖掘,还是自己的研究结果与TCGA数据库比较,都需要掌握一定的TCGA数据处理方法。当然,很多公众号都有TCGA数据挖掘的讲解,这里就不做赘述了。
TMB的 cut-off值目前暂时没有一个统一的标准,业内公认的几个cut-off值为10,12,16。
一条包含函数的SQL语句,在MySQL中会经过: 客户端发送,服务器连接,语法解析,语句执行的过程。
肿瘤免疫微环境 (TME) 可以调节 TMB 的分层能力(称为 TMB 能力),确定它是否可以预测给定癌症类型中的 ICI 反应。
最近工作需要绘制ROC曲线,对该曲线的计算细节进行了一番摸索。当前搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它只是一个用于机器学习的分类器评估标准,所以在绘制曲线前使用逻辑回归(我的响应变量是0-1类型)对数据建模分析。实则不然,ROC曲线适用于任何判断0-1类型(真假、成功失败等二分类)响应结果阈值分割效果的评估。
2018年,随着O药和K药相继在中国获批上市,中国的资本和药企对靶向PD-1/PD-L1的免疫治疗的热情达到了巅峰,大量的药企在开展相关的临床研究,一度出现没有足够的医生和患者参与临床研究的局面。
之前因工作需要绘制ROC曲线,所以对该曲线的计算细节进行了一番摸索。刚开始我搜索ROC曲线一般跟机器学习相关联,导致我对它的概念有了曲解,理所当然地以为它只是一个用于机器学习的分类器评估标准,所以在绘制曲线前应当使用逻辑回归等模型对数据建模分析。实则不然,ROC曲线适用于任何判断0-1类型(真假、成功失败等二分类)响应结果阈值分割效果的评估。这个道理我在2018年前后是不懂的,当时一想到画ROC、计算AUC就懵逼。
肿瘤的免疫疗法是即手术,放疗,化疗等传统治疗手段之后兴起的一种新型的治疗手段,以PD-1/PD-L1抗体为代表的免疫检查点抑制剂在黑色素瘤,非小细胞肺癌等实体瘤的临床治疗中取得了不错的进展。
2017年年底,一项发表在顶级医学期刊《新英格兰》杂志的研究显示,“突变负荷”(Tumor Mutational Burden, TMB)是指示一种癌症类型是否对被称为“检查点抑制剂”的癌症免疫疗法药物做出反应的良好指标。
肿瘤突变负荷(tumor mutational burden,TMB)是指在一个特定的肿瘤组织当中相对的基因突变数量,即检测的肿瘤样本中,所评估基因的外显子编码区每兆碱基序列中发生突变的总数.计算公式: tmb(mut/mb)= 总突变数量(包括同义、非同义点突变、置换、插入及缺失突变) / 目标区域编码区大小。tmb是一个数值,具有高低之分,目前高低tmb的分界值没有统一的标准。
进行试验:在EMT6小鼠模型,探究TGF-β活化间质在免疫耗竭中是否发挥着关键的作用。
cBioPortal数据库是探索肿瘤的基因组学特征,是从DNA水平进行的,是对机制的进一步研究。基因差异表达、生存分析和免疫浸润分析,上述分析严格意义上讲均属于表型。免疫浸润分析属于交叉,算是表型式的解释,就是用现象解释现象,但其实并没有涉及具体的机制。
肿瘤突变负荷(TMB, tumor mutation burden)在生信数据挖掘领域是很古老的东西了,没想到还有人在用它进行各种分析...
蛋白酪氨酸磷酸酶受体T型(PTPRT)是一种著名的磷酸酶,在黑色素瘤和非小细胞肺癌(NSCLC)中经常发生突变。我们的研究「旨在阐明其突变与免疫检查点抑制剂(ICI)疗效的关系」。
The genomic landscape of metastatic castration-resistant prostate cancers reveals multiple distinct genotypes with potential clinical impact
英文标题:Genome and Transcriptome Biomarkers of Response to Immune Checkpoint Inhibitors in Advanced Solid Tumors
tmb值与免疫检查点抑制剂疗效相关,而TCGA数据库中的tmb值可以通过TCGAmutations包来计算
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
cBioPortal网站目前存储DNA拷贝数数据(每个基因的假定,离散值,例如“深度缺失”或“扩增”,以及log2水平),mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平(RPPA)数据,DNA甲基化数据和有限的临床数据等,可以快速获取大规模癌症基因组学项目的分子谱和临床预后相关性,并将这些丰富的数据集转化为可视化数据以用于临床。
本杂志开源(GitHub: ShixiangWang/weekly[1]),欢迎提交 issue,投稿或推荐生信相关内容。
体细胞突变检测准确性可能会影响癌症患者的突变发现和治疗管理。为了解决这个问题,作者在机器学习的基础上开发了一种体细胞突变发现方法,该方法在识别经过验证的肿瘤改变方面优于现有方法(敏感性97% vs 90%~99%;阳性预测值98% vs 34%~92%)。使用此方法对来自1368 TCGA样本的成对肿瘤正常外显子组数据进行分析,该算法与TCGA MC3突变集的一致性为74%,并且还发现TCGA MC3集中可能存在假阳性和假阴性突变,包括在临床上可靶向的基因。对于先前用免疫检查点抑制剂治疗过的黑色素瘤和肺癌患者,该机器学习算法的高质量体细胞突变评估可改善基于肿瘤突变负荷的临床结果预测。与其他临床测序分析相比,将机器学习突变检测应用于临床二代测序(NGS)分析中可以提高检测结果的准确性。以上分析基于机器学习的分析可改进对肿瘤特异性突变的鉴定,并对癌症患者的研究和临床管理具有重要意义。
恶性肿瘤细胞可通过多种方式干扰肿瘤微环境的免疫细胞以减弱对肿瘤细胞的杀伤作用并诱导免疫细胞免疫耐受。而肿瘤微环境固有的复杂性,多细胞的动态特性,对获取免疫反应生物标志物和预测免疫治疗效果提出了巨大挑战。因此,作者期望使用 bulk RNA-seq数据与不同的先验知识来源(肿瘤浸润细胞,细胞内信号传导,TFs活性,细胞间通讯强弱)相结合,以得出基于系统的肿瘤微环境特征,量化免疫细胞组成以及细胞内和细胞间的通讯。作者通过将多任务学习应用于这些特征,预测免疫反应的不同特征,并基于可解释的Biomarker推导出癌症类型特异性模型。并将该模型应用于来自接受 PD-1/PD-L1 抑制剂治疗的癌症患者的独立 RNA-seq 数据,以证明EaSIeR 的方法可以准确预测治疗结果。
生物信息数据分析教程视频——13-3种R包(DESeq2、edgeR和limma)进行RNAseq的差异表达分析与比较
众所周知,癌症患者在诊断和治疗的过程中往往会出现各种消极的表现,尽管目前医学界仍将这些行为的发生归因于情绪压力,但最近的一项研究表明,中枢神经系统(CNS)与抗肿瘤免疫反应之间存在生理学联系。 现在有证据表明,抑制性受体PD-1的表达可能影响CNS。
大多数肿瘤基因组综述类文章,对于数据分析部分只是介绍了基础分析部分,也就是从原始的 fastq 文件通过质控、比对、GATK流程、Call 变异最后得到 vcf 文件和拷贝数变异的结果就结束了。实际上,得到突变结果 vcf 文件后经过 VEP 或 ANNOVAR 等注释之后,还涉及到很多高级分析方法。主要可以分为以下几点:
IMvigor210CoreBiologies包,文献PMCID: PMC6028240,数据包含RNA-seq 数据(Count和 TPM)、肿瘤突变负荷 (TMB) 信息和 192 名患者对 ICB 治疗的反应结果。CR, complete response; PD, progressive disease; PR, partial response; SD, stable disease。其中(完全缓解 (CR) 的 25 名:R;疾病进展 (PD) 的 167 名:NR)
比如,最基础的也是最常见的一个癌症领域需求是说明为什么要在某疾病研究某个基因,其实就可以完完全全是使用TCGA数据库的公开信息,如下所示:
该数据挖掘的重点结论是:使用29 个TME 特征基因集合 对肿瘤转录组队列可以无监督聚类确定了四种不同的微环境亚型:
高级别浆液性卵巢癌(HGSOCs)是免疫检查点抑制剂(ICIs)效果不理想的肿瘤之一。因此必须开发可行的生物标志物,用于鉴定响应候选者并指导HGSOC患者的精确免疫疗法。在这里,我们分析了HGSOC患者的基因组数据,以描述他们的肿瘤微环境(TME)的免疫表型,并找出免疫原性的主要决定因素。与其他实体肿瘤相比,我们观察到HGSOCs中PD-L1,总突变负荷(TMB)和溶细胞分子的最低水平。令人惊讶的是,TMB与肿瘤免疫反应无关,因为它无法预测以前临床试验中相当一部分患者对ICI的反应。通过机器学习方法寻找生物标志物对HGSOCs的免疫治疗意义,我们确定了决定HGSOCs免疫原性的十大最主要因素。有趣的是,我们发现BRCA1突变肿瘤呈现出一种独立于TMB的强效免疫原性表型,符合我们的主要因素和之前建立的免疫原性决定因素的标准。我们的研究结果提供证据表明,BRCA1突变可作为指导IGS治疗HGSOC患者的预测生物标志物。
公共数据库的普通分型预后很难在高分期刊发表,因为这些分型不能用于评估治疗效果,很难具有实际意义。因此,分型的创新点和意义很重要。今天小编为大家介绍一篇2022年1月11日刚刚发表在Frontiers in immunology(7分+)的免疫检查点抑制剂 (ICI) 对黑色素瘤分型预后的文章,题目为Novel Molecular Determinants of Response or Resistance to Immune Checkpoint Inhibitor Therapies in Melanoma。
英文标题:Development of a CD8+ T cell associated signature for predicting the prognosis and immunological characteristics of gastric cancer by integrating single-cell and bulk RNA-sequencing 期刊:Sci Rep. 2024 Feb 24;14(1):4524. 影响因子:2区4.6 DOI: 10.1038/s41598-024-54273-9. 研究领域:免疫治疗;单细胞
本研究对局部晚期或转移性儿童及青少年DTC队列的肿瘤样本进行二代测序,并对其临床资料进行回顾分析,初步描绘了中国局部晚期或转移性儿童及青少年DTC的基因突变分布及其相应临床病理学特征,并探索了可能影响摄碘特征的关键基因及分型。
免疫系统是防止病原体入侵, 维持机体内环境稳定的有效武器,免疫系统由免疫器官(骨髓,胸腺,脾脏,淋巴结等),免疫细胞(淋巴细胞, 单核巨噬细胞等)和免疫活性物质(抗体,白细胞介素等)组成。
我们都知道癌症的特点是不同的基因改变积累,导致癌细胞表面出现不同的新抗原表达。人体免疫系统是机体发现和消灭肿瘤细胞的可靠“人体警察”。然而,肿瘤细胞可以利用机体内的免疫调节剂促进其自身发生“免疫逃逸”,人们先前认为的可靠“人体警察”则成为肿瘤逃逸的“帮凶”,这一发现影响了免疫抗癌疗法的发展趋势,比如抗PD-1或抗CTLA4抗体“免疫检查点抑制剂”。抗PD-1药物如nivolumab或pembrolizumab对超过15种癌症类型的临床疗效显著。这些药物对22种癌症的总体反应率(ORR)在0%到50%之间各不相同。因此,有必要筛选抗PD-1治疗的获益人群。那么预测抗PD-1单药治疗疗效的可重复性生物标记物可能具有临床价值。在作者团队先前的研究中已经报道了使用nCounter平台检测免疫相关基因(包括PD-1)的表达是可重复的,且与65例晚期肿瘤患者的抗PD-1单药疗法疗效相关。在这里,我们假设肿瘤样本中PD-1 mRNA的丰度可以解释不同类型肿瘤抗PD-1单药治疗后总ORR的差异。
作为影响免疫检查点抑制剂治疗决策的生物标志物,肿瘤突变负荷(TMB)估计的准确性、可靠性和可比性至关重要。该研究中,研究者开发了一组具有不同TMB值的福尔马林固定和石蜡包埋(FFPE)样品作为TMB估计的新参考材料。通过使用CRISPR/Cas9技术将几种临床相关变异引入人类细胞系,构建了几种典型的细胞系并进行了外显子测序验证。然后进行细胞混合和石蜡包埋,制备了新型FFPE样品。
与复制修复相关的DNA聚合酶的缺陷通常表现为超高的肿瘤突变负荷(TMB),这与对免疫治疗的反应相关。不同聚合酶变异的功能和临床意义仍不清楚。
目前,越来越多的研究者通过构建小鼠疾病或者癌症模型,研究癌症发病机制。因此,对小鼠免疫微环境分析需求越来越多。所有检测不同细胞类型所占比例的方法主要原理是,构建特征基因集,然后利用机器学习方法或者反卷积方法对所测RNA-seq数据进行分析,确定其不同细胞类型比例,因此这种方法也对阈值选择比较敏感。
值得注意的是作者这里使用PhyloWGS算法的结果来代表肿瘤内部异质性,所有的生物学意义的结论都是基于这个假设。而且根据突变数量和CNV情况对样本进行分类,通过两个阈值可以把肿瘤病人分成4组:
今天跟大家分享的是2020年2月发表在Aging(IF:4.831)杂志上的一篇文章Analysis of immune-related signatures of lung adenocarcinoma identified two distinct subtypes:implications for immune checkpoint blockade therapy.在文章中作者通过TCGA和GEO数据集,发现了LUAD的两个预后亚型。然后运用TIDE算法、MutSigCV算法等分析方法,发现高危亚型对免疫检查点阻断治疗更敏感。
肿瘤内缺氧和免疫与肿瘤患者的预后高度相关。然而,还没有对膀胱癌(BLCA)中缺氧反应与免疫之间关系的系统分析。
英文标题:Plasma ctDNA is a tumor tissue surrogate and enables clinical-genomic stratification of metastatic bladder cancer
随着肿瘤当中测序量的逐渐增大,目前很多的高分生信分析都是基于泛癌的数据来进行分析。这样的好处是可以观察在大多数癌症当中的变化情况。今天就给大家介绍一个最近刚刚发表的Nature Communication(NC)上的泛癌分析文章
早发性结直肠癌(Early-Onset Colorectal Cancer, EOCRC)通常指50岁以下个体发生的结直肠癌,其发病率近年来逐渐上升,需要全面检查其发病机制和特定于 EOCRC 患者的治疗靶点。研究团队希望通过与晚发性结直肠癌(Late-Onset Colorectal Cancer, LOCRC)的对比,描绘 EOCRC 的独特分子特征。
人类基因组变异协会(HGVS)的主要职责是发现和分类包括人群分布与表型相关联的人类基因组变异,并根据方法学与信息学的发展对数据及相关的临床变异进行更新。目前行业中普遍应用HGVS规则对变异进行命名,统一的命名规则方便了各种各样的交流和解读。
Comparison of mutation loads (A), neoantigen load (B), HRD scores (C), CTA numbers (D), necrosis (E), and ITH scores (F) among the three clusters. In the violin plots, the mean values are plotted as red dots, and the boxplot was drawn inside the violin plot.
HSF2作为转录因子,通过调节各种靶基因和信号通路,在皮质生成和精子生成中起重要作用。然而,HSF2与肿瘤的相关性仍然未知。
结果:确定了5种不同的B细胞亚型及其标记基因、分布模式和功能特性。肿瘤部位的IgG浆细胞比例高于相邻正常黏膜组织。肿瘤组织中产生CXCL13的CD8+ T细胞可以促进三级淋巴结构(TLS) B细胞的形成,而CCL28-CCR10轴是IgG浆细胞从TLS外周向肿瘤基质迁移的关键。
全部流程在R里面运行,maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作。
当然,TCGAbiolinks包还是可以下载的,但仅仅是可以下载数据而已,不过下载速度有些慢。希望开发该包的作者更新一下这个包。
领取专属 10元无门槛券
手把手带您无忧上云