我在生信技能树的教程:《你确定你的差异基因找对了吗?》, 提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释的。
在肿瘤学研究里面,就是对癌症患者的样本根据某个临床特征或者某些分子的特性来进行分组。但是如果大家分析过TCGA数据库的全部样本的RNA-seq表达矩阵,就应该是明白,首先样本需要按照癌症肿瘤,起源器官等特征进行第一级别分组,然后每个癌症内部表达量分组主要是体现在亚型。比如是乳腺癌,你可以看lumA,lumB,basal,HER2 等亚型,如果是胃癌,也是有4种分子分型,具体如下:
当然了,这样的肿瘤亚型已经被研究的比较清楚了,很难直接去做它们之间的差异,已经被阐明过了,所以大家会另辟蹊径的对肿瘤病人进行分组。
现在非常多的数据挖掘文章,喜欢使用TMB分组,或者免疫浸润情况分组(包括CIBERSOFT计算的LM22比例分组,以及ESTIMATE计算得到的 immune scores, stromal scores and ESTIMATE scores ),实际上风险很大,因为它们这些指标并不能比较好的区分肿瘤病人。
如果从PCA角度来看,就会发现被你分组的病人在前几个主成分上面基本上是混杂在一起的,如果是看全局热图(比如top500的mad的基因),就会发现病人仍然是混在一起。我前面提到过很多次,这样的混杂,其实对你差异分析的结果具有干扰,会影响我们对差异分析结果的生物学解释。
但是很多文章就喜欢取巧,针对性看top200的差异基因那么两个分组还是可以比较明显,如下:
针对显著的差异进行进行热图可视化
火山图看起来也会是很正常:
当然了,这些简单图表通常是都不会出现在文献正文里面,因为这样的数据挖掘文章落脚点都是肿瘤免疫,预后模型啥的,所以主要是生存分析模型等等。大家可以组合ESTIMATE关键词加上具体的某个TCGA里面的癌症,就可以发现大量的这样的文章。
或者是组合CIBERSORT关键词,也是加上某个TCGA里面的癌症,成百上千个粗糙的数据挖掘等你去“品鉴”。
各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。