如果是对肿瘤病人和正常人分别取样,取手术后的肿瘤组织,然后去跟癌旁组织或者正常人的对应的部位的组织样品,是很容易看到全局表达量差异的,这一点在tcga的全部癌症都被验证过。而且差异都是合理的,主要是癌症的hallmark在癌症样品里面表达量上调,然后生物学背景告诉我们大家熟知的管家基因理论上并不会差异,详见:housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗?,而且专门有一个专辑:泛癌分析。
但是如果取样的时候,对肿瘤病人和正常人分别取他们的外周血,这个时候就很难看到全局的表达量差异了。这个时候无论是表达量检测手段是什么,表达量芯片,转录组测序,蛋白质组学或者代谢组学,哪怕是单细胞转录组,都有人做过,都很难发现什么全局的差异。但是,大家仍然是会强行找差异然后各种机器学习勉强得到一些结果争取发表出来。比如2025年1月的文献:《LcProt: Proteomics-based identification of plasma biomarkers for lung cancer multievent, a multicentre study》,有多个队列:
首先呢,有肿瘤病人和非肿瘤这个疾病的人,可以差异分析,任务#1。然后呢,肿瘤病人里面有lymph node metastasis的临床分组信息,是任务#2 。最后,肿瘤病人有tumour‒node‒metastasis (TNM) staging临床信息,也是可以差异分析,是任务#3。
差异分析之前,其实需要看表达量矩阵的3张图。很早以前我就在生信技能树的教程:《你确定你的差异基因找对了吗?》提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释。
如果看这个文献里面的3个表达量矩阵的样品异质性图(pca,tSNE或者Umap),可以很明显的看到居然是恶性的癌症病人样品跟良性疾病的样品差异很难区分,就因为取样是Peripheral blood samples,反而是TNM staging临床信息分组很明显:

样品异质性图
直接使用使用“limma”包找差异表达蛋白 (DEP)即可,使用统一的阈值:绝对对数倍数变化大于 1 且调整后的p值小于 0.05 的蛋白质视为差异表达。
这些差异分析的基因数量,基本上就可以在前面的样品异质性图(pca,tSNE或者Umap)看出来的,如下所示每次差异分析都可以显示出来统计学显著的上下调基因:

可以看到,其实主要的差异都是来源于stage4跟其它的stage的比较,在前面的样品异质性图(pca,tSNE或者Umap)也可以看到是stage4跟其它的stage出现了泾渭分明的分隔。
有意思的是,研究者们其实并不是仅仅是取样了blood,在文献里面写了是:Peripheral blood samples before and after treatment, tumour tissue, pair para-cancerous tissue and biopsy tissue samples were planned to collect based on the treatment protocols.
但是为什么不做真正的癌症组织样品和癌旁样品呢?他们的差异首先是更大一点,其次也更直接啊!
因为作者并没有公开他们的蛋白质组学表达量矩阵信息,所以没办法针对作者自己的数据进行图表复现!但是有很多类似的实验设计可以试试看跟这个研究做的对比!
比如: