今天分享的是2020年6月份发表于Clinical Cancer Research的一篇文章,标题是Multifactorial deep learning reveals pan-cancer genomic tumor clusters with distinct immunogenomic landscape and response to immunotherapy,影响因子8.911,文章整体思路倒比较简单,门槛应该是深度学习建立模型了,基于MSI、SCNA、mTMB的信息深度学习后对数据集进行分类,后研究了不同分类的差异以及在不同分类下相同肿瘤的差异,主要包括免疫微环境、表达差异(基因、通路等)和生存差异。
术语
MSI (microsatellite instability) 微卫星不稳定
TMB(tumor mutation burden)肿瘤突变负荷,这里使用的是mTMB(modified TMB),定义为突变唯一基因数目;
SCNA (somatic copy number alterations)体细胞拷贝数变异
TIL (tumor infiltrating lymphocyte)肿瘤浸润淋巴细胞
研究思路
结果
利用DBN(deep belief networks)进行深度学习模型的建立,对整合的免疫检查点抑制剂相关的信息(MSI、SCNA、mTMB),执行深度自动编码进行分层,将样本分成4个基因组类别,并且基于免疫基因表达和肿瘤浸润淋巴细胞分析分为cold和hot免疫微环境(a);箱线图展示4个基因组类别在MSI、SCNA和mTMB方面的差异(b);并且对不同肿瘤进行了4个基因组类别下样本量的展示,超几何分布检验得到相应p值(c);
用GSEA分析对不同基因组类别进行了免疫相关通路表达的比较,并用热图进行高低表达展示(红色代表高表达,蓝色代表低表达,颜色深浅与p.value呈负相关,即颜色越深,p值越小)(a);除此之外还比较了错配修复相关基因在不同类别下的突变频率差异(b),这里突变频率是用基因组类别内的突变事件/(样本数*MMR基因数);GC1和GC3基因组类别内免疫相关通路上异质性很强,GC2为高表达,GC4为低表达;
这里比较了GC1和GC3里(前面有提到两个类别的异质性)的HNSC(头颈癌)和BRCA(乳腺癌),并将乳腺癌分为TNBC和Non-TNBC来作比较;主要包括1)肿瘤浸润淋巴细胞、免疫刺激相关基因、免疫抑制相关基因的比较(a,头颈癌;d,三阴性乳腺癌和非三阴性乳腺癌);2)PD1和PD-L1表达在GC1和GC3的头颈癌表现均为GC1中表达较高,且有统计学意义(b);3)三阴性乳腺癌在4个类别中数目的比较,在GC3和GC4中三阴性乳腺癌的样本富集数相对更多,且有统计学意义(c);
上图比较了相同肿瘤在不同基因组分类下的生物学表现差异,这里主要是对不同的基因组类别进行了生存分析;在整个分类下,不同的病人OS(总生存期)有很大差异,且具有统计学意义(a);此外还对在不同基因组分类下的肿瘤(ACC、BRCA、GBMLGG、LIHC、SARC、UCEC)进行了生存曲线的绘制,可以看出不同基因组分类下,相同的肿瘤总生存期存在很大差异(b-g);
以上是对TCGA数据集的探索,后续作者利用深度学习获得的模型对黑色素瘤数据集Van Allen’s cohort和Snyder’s cohort进行了分类,并对免疫治疗的相应(a、c)和生存分析(b、d)进行了比较,不同基因组分类对免疫治疗的响应和总生存有差异,且具有统计学意义;
结语
文章整合的信息包括MSI、mTMB、SCNA,均与免疫检查点抑制剂响应相关,对数据集分类后分析的内容主要包括免疫相关通路、免疫刺激基因、免疫抑制基因等表达差异和生存差异;对外部数据集的分析除了生存分析外,还对不通类别下的样本响应情况进行了比较;分析围绕着免疫检查点抑制剂展开,大家在对数据集分组后如果要做免疫相关分析,也可以参考这篇文章的内容展开。