Sci. Adv. | 基于通路拓扑感知图表示学习的免疫治疗反应预测框架

DrugAI

发布于 2026-06-24 13:29:00

1090

免疫治疗已经深刻改变了癌症治疗模式，但不同患者之间的治疗反应差异很大，使得临床获益仍主要局限于特定患者亚群。研究人员提出了PathTIGR，这是一种融合通路拓扑信息的图表示学习框架，能够系统整合生物通路网络拓扑知识与基因组变异信息，用于预测免疫治疗反应。

PathTIGR采用三部分设计：第一部分是带有多头注意力机制的通路图编码器，用于将通路拓扑知识和癌症基因组变异嵌入为通路表征；第二部分是Transformer模块，用于捕获不同通路之间的调控依赖关系；第三部分是多层感知机，用于整合通路层面的表征并预测免疫治疗反应。该架构使PathTIGR能够捕获决定免疫治疗反应的复杂分子互作。

研究人员在多个独立免疫治疗队列中进行了全面验证，结果显示PathTIGR相较于既有生物标志物和先进深度学习方法具有更优预测性能，同时还能通过识别导致治疗反应异质性的关键分子特征保持生物学可解释性。PathTIGR代表了一种可解释的图学习框架，可提升免疫治疗反应预测能力，并揭示治疗有效性的分子决定因素，从而推动精准癌症免疫治疗的发展。

癌症免疫治疗已经从根本上改变了肿瘤治疗范式。它通过利用机体内源性免疫监视机制来识别和清除恶性细胞，相比传统化疗，常能在部分癌种中产生更持久的临床反应，并具有相对较好的毒性特征。然而，免疫治疗的临床获益并不普遍。不同癌种和患者群体中的应答率通常只有约15%至40%，说明患者间反应异质性仍是限制免疫治疗广泛获益的核心问题。因此，临床上迫切需要更稳健的预测标志物，以识别最可能从免疫治疗中获益的患者。

目前已有多种免疫治疗反应预测标志物被提出，例如PD-L1表达、肿瘤突变负荷、微卫星不稳定性和错配修复缺陷状态。这些标志物在特定临床情境中具有实用价值，但其预测准确性在不同肿瘤组织类型和患者群体中差异较大。这种不稳定性反映出免疫治疗反应并不是由单一生物因素决定的，而是由肿瘤遗传背景、免疫微环境组成、宿主因素以及多条分子通路之间的复杂互作共同塑造。

人工智能和机器学习的发展为多组学数据整合和免疫治疗反应预测提供了新方法。已有研究表明，基因组改变与肿瘤免疫原性和免疫治疗疗效密切相关。深度学习模型能够处理复杂分子数据，图神经网络也被用于建模分子互作网络和通路扰动。然而，现有深度学习方法仍面临多个关键限制。首先，许多模型缺乏生物学可解释性，往往像“黑箱”一样给出预测结果，却不能说明哪些分子机制驱动了治疗反应。其次，高维、稀疏且噪声较大的基因组数据容易导致模型过拟合，使模型在独立队列中的泛化能力下降。第三，许多框架没有将已有生物通路知识系统嵌入模型架构，因而无法充分利用几十年来积累的通路网络和免疫调控机制知识。

为解决这些问题，研究人员开发了PathTIGR。该框架将生物通路网络拓扑知识和体细胞基因组变异信息转化为通路表征，用于预测癌症免疫治疗反应。PathTIGR不同于传统机器学习方法，它将既有生物关系显式纳入计算架构，使模型既能提高患者分层准确性，又能提供关于治疗反应分子决定因素的机制性解释。

方法

研究人员收集了接受免疫检查点抑制剂治疗的多个独立黑色素瘤队列，总计包括340名患者，其中Liu队列用于抗PD-1反应预测训练，Van Allen队列用于抗CTLA-4反应预测训练，Hugo和Snyder队列用于独立验证。临床反应根据RECIST标准划分为应答者和非应答者，缺少治疗反应或生存信息的患者被排除。研究人员从cBioPortal获取体细胞突变和拷贝数变异数据，将非同义突变、拷贝数扩增和拷贝数缺失分别转换为二值化基因—样本矩阵，并整合为PathTIGR输入。通路网络拓扑来自KEGG数据库，研究人员去除疾病特异性通路和拓扑注释不完整的通路，最终保留230条具有完整图结构信息的生物通路。PathTIGR首先将每条通路表示为图，基因为节点，生化调控或相互作用为边，并将患者特异性的突变、扩增和缺失状态作为节点属性输入通路图自编码器。图自编码器通过图卷积和注意力加权消息传递学习每条通路的低维功能状态表征。随后，Transformer模块使用自注意力机制建模通路之间的调控依赖关系，捕获与免疫治疗反应相关的跨通路模式。最后，多层感知机整合所有通路级特征，输出患者对免疫治疗获益的概率。模型通过端到端反向传播训练，并用ROC曲线、精确率—召回率曲线、C-index、F1分数、MCC、准确率、客观应答率、生存分析和Cox回归等方式进行综合评估。

图1｜PathTIGR框架流程图。

结果

PathTIGR框架概览

研究人员提出PathTIGR作为一种具有生物学信息约束的深度表示学习框架。它将基因组改变数据与经过整理的生物通路拓扑相结合，用于提高癌症免疫治疗反应预测的准确性。与传统黑箱算法不同，PathTIGR在模型架构中显式整合既有生物知识，因此不仅关注预测结果，也关注预测背后的分子机制。

PathTIGR包含三个相互连接的组成部分。第一部分是通路图编码器，它建模生物网络拓扑结构，并捕获基因组变异在信号通路内部造成的功能扰动。该编码器将患者特异性体细胞突变和拷贝数改变转化为多维通路表征，用于量化基因组改变对通路功能的累积影响。第二部分是Transformer模块，它通过自注意力机制处理通路级表示，自适应捕获不同通路之间的长距离依赖和调控互作。第三部分是多层感知机，它整合学习到的通路特征，并输出免疫治疗获益概率。

这种设计使PathTIGR能够在高维基因组复杂性和机制性生物理解之间建立连接。它不仅可以用于识别更可能从免疫治疗中获益的患者，也可以揭示影响治疗反应的关键通路和基因。

PathTIGR预测免疫治疗反应的性能评估

研究人员首先在Liu黑色素瘤队列中评估PathTIGR。该队列包含144名接受抗PD-1治疗的患者。ROC曲线分析显示，PathTIGR在免疫检查点抑制剂反应预测中表现出极强的区分能力，AUC达到0.975。考虑到临床反应数据中常见的类别不平衡问题，研究人员进一步使用精确率—召回率曲线评估模型，AUPRC达到0.969。其他性能指标，包括F1分数、C-index、MCC和准确率，也一致显示PathTIGR具有较高分类准确性和稳定性。

为了验证预测结果的临床意义，研究人员比较了PathTIGR预测应答者和非应答者中的客观应答率。结果显示，模型预测为应答者的患者具有显著更高的真实治疗反应率。这说明PathTIGR不仅在统计指标上表现优异，也具有潜在临床转化价值。

研究人员进一步评估了PathTIGR的预后分层能力。Kaplan-Meier生存分析显示，模型预测应答者的总生存期和无进展生存期均显著优于预测非应答者。时间依赖性ROC分析显示，PathTIGR在长期生存预测中保持稳定表现，4年生存预测AUC达到0.85，2年和3年预测AUC也均超过0.8。与性别、脑转移、肺转移、骨转移和M分期等传统临床变量相比，PathTIGR在生存预测中表现更优。单因素和多因素Cox回归分析进一步表明，PathTIGR是独立预后因素，并具有较低风险比，提示其在患者风险分层中具有较强保护性指示意义。

为了检验模型泛化能力，研究人员将PathTIGR应用于独立外部Hugo队列。结果显示，模型在该队列中仍保持较好预测性能，AUC为0.806，AUPRC为0.820。模型预测的应答者和非应答者与真实临床结局显著相关，且在预测应答者中的真实应答比例较高。研究人员还将训练于黑色素瘤队列的PathTIGR直接应用于一个包含27名膀胱癌患者的独立免疫治疗队列。结果显示，模型预测分组与实际临床结局显著相关，预测为应答者的患者中真实应答比例达到85.7%。这提示PathTIGR可能具有跨癌种应用潜力。

在Hugo队列中，PathTIGR还能够根据生存终点有效分层患者。Kaplan-Meier生存分析和时间依赖性ROC分析均支持其预后预测能力。Cox回归分析进一步确认，PathTIGR在该外部验证队列中仍是独立预后因素。总体来看，这些结果表明PathTIGR不仅是一个高性能免疫治疗反应预测模型，也是一个稳健的预后分层工具。

图2｜抗PD-1 PathTIGR模型在Liu队列中的免疫治疗反应预测评估。

图3｜抗PD-1 PathTIGR模型在Hugo队列中的外部验证。

免疫检查点抑制剂特异性PathTIGR模型

不同免疫检查点抑制剂具有不同作用机制。抗PD-1/PD-L1治疗和抗CTLA-4治疗涉及不同免疫调控环节，因此需要检查点抑制剂特异性的预测框架。基于这一临床需求，研究人员进一步构建了抗CTLA-4特异性PathTIGR模型。该模型以Van Allen黑色素瘤队列作为训练集，并使用Snyder队列进行独立验证。

在训练队列中，抗CTLA-4 PathTIGR模型表现出极强的治疗反应区分能力。模型AUC达到0.989，AUPRC达到0.993，F1分数达到0.99，C-index达到0.989。客观应答率分析显示，模型预测应答者和非应答者之间存在显著差异。Kaplan-Meier分析也显示，PathTIGR预测分组对应显著不同的总生存和无病生存结局。时间依赖性ROC分析显示，模型在1年、2年和3年生存预测中具有较好稳定性，其中3年AUC达到0.935。Cox回归分析进一步证明，PathTIGR在调整传统临床病理变量后仍是独立预后因素。

在Snyder独立验证队列中，抗CTLA-4 PathTIGR模型仍保持稳健性能，AUC为0.769，AUPRC为0.722，模型预测分组与真实治疗反应显著相关。这说明PathTIGR不仅适用于抗PD-1治疗，也可根据不同免疫检查点机制构建治疗类别特异性模型。

图4｜抗CTLA-4 PathTIGR模型评估。

PathTIGR与已发表生物标志物及先进预测模型的比较

为了严格评估PathTIGR的预测能力，研究人员将其与多个类别的方法进行系统比较。比较对象包括传统机器学习方法、已发表免疫治疗生物标志物、复合评分系统、网络方法以及先进深度学习模型。评估使用统一指标，包括C-index、F1分数、MCC和准确率，以确保不同方法之间具有可比性。

与随机森林、支持向量机和XGBoost等传统机器学习方法相比，PathTIGR在多个独立队列中均表现出更强区分能力。PathTIGR在不同队列中的C-index大致位于0.78至0.99之间，而传统算法在外部验证集上表现明显下降。这种性能退化反映出传统方法难以捕获免疫治疗反应背后的高维复杂基因组关系。

研究人员还将PathTIGR与常用免疫治疗标志物进行比较，包括PD-L1表达、肿瘤突变负荷、细胞毒性T细胞相关特征、M2型肿瘤相关巨噬细胞特征、肿瘤免疫功能障碍与排斥评分，以及网络生物标志物方法。结果显示，PathTIGR在该综合比较中持续优于既有标志物，尤其在临床决策中关键的准确性指标上表现突出。

此外，研究人员还与七种先进深度学习框架进行比较，包括BPformer、DeepCC、HyperTMO、IRnet、MOGAT、MOGDx和MOGONET。这些方法代表了肿瘤治疗反应预测和患者分层中的不同深度学习架构。尽管这些模型具有复杂计算设计，但在多个免疫治疗数据集的独立评估中，它们整体表现仍低于PathTIGR。

这些系统比较表明，PathTIGR的优势并不是来自某个单一评价指标或特定队列，而是在传统生物标志物、传统机器学习和先进深度学习三类对照中均保持较强性能。其稳定跨队列表现说明该框架具有较强泛化能力，是临床转化所必需的重要特征。

系统消融研究

研究人员首先分析了通路表示向量维度对模型性能的影响。他们将图自编码器生成的通路表示维度从1逐步增加到10，并保持Transformer模块和多层感知机结构不变。每种维度配置都进行20次独立实验，以减少随机种子影响。结果显示，当通路表示维度为6时，模型在多个数据集上达到最佳预测表现。该结果提示，通路表示维度对模型性能具有关键影响，维度过低可能表达能力不足，维度过高则可能增加复杂度和过拟合风险。因此，研究人员将6维通路表示作为后续分析中的最终配置。

随后，研究人员进行了更全面的消融实验，以评估不同输入模态和架构组件对PathTIGR性能的贡献。被移除的组件包括体细胞突变、拷贝数扩增、拷贝数缺失、生物通路图拓扑和Transformer模块。每种消融配置在多个免疫治疗队列中重复运行，以确保结果稳健。

结果显示，Transformer模块和通路图拓扑是不可替代的核心组件。移除这两个模块会在所有数据集中造成明显性能下降。这说明通路内部拓扑结构和通路之间调控依赖对于准确预测免疫治疗反应至关重要。突变、扩增和缺失等基因组特征的移除也会不同程度影响模型性能，提示不同类型基因组改变之间存在互补和协同关系。虽然某一类基因组特征单独看可能并非绝对必要，但它们的组合能够提供更完整的分子扰动图谱，从而提高免疫治疗反应预测的准确性。

消融分析建立了PathTIGR内部组件重要性的层级框架：Transformer和通路图拓扑构成模型核心，基因组特征则提供互补信息并增强整体预测能力。这些结果支持PathTIGR采用多模态特征整合和生物知识约束建模的必要性。

图5｜PathTIGR与已发表免疫治疗生物标志物和先进算法的比较。

通路表征可解释性揭示免疫治疗反应的调控机制

为了系统解析免疫治疗反应异质性背后的通路层面改变，研究人员在Liu队列中进行了差异通路表征分析。结果识别出78条在应答者和非应答者之间显著失调的通路。应答者中上调的通路主要包括免疫激活网络，例如TH17细胞分化、TNF信号通路和Fc epsilon RI信号通路。相反，应答者中下调的通路主要涉及免疫抑制机制，例如Notch信号通路以及抗原加工和呈递相关通路。这些差异通路覆盖了肿瘤发生、癌症进展和免疫调控等多种生物过程。

在通路重要性分析中，研究人员进一步量化了不同通路对PathTIGR预测能力的贡献。自然杀伤细胞介导的细胞毒性通路，以及TH1和TH2细胞分化通路，出现在前20条重要通路中。自然杀伤细胞可通过直接杀伤肿瘤细胞和塑造T细胞免疫影响抗PD-1/PD-L1治疗反应。因此，模型将这些通路识别为关键预测特征，与已有免疫生物学认识一致。

研究人员还在自然杀伤细胞介导的细胞毒性通路内部进行了基因层面贡献分析。重要基因包括HLA-G、HLA-E和BRAF等。HLA相关分子的表达和变异已被认为与免疫检查点抑制剂反应相关，而BRAF突变肿瘤中抗原呈递相关基因和PD-1/PD-L1表达改变也可能影响免疫治疗敏感性。这些结果说明，PathTIGR的预测能力并非单纯来自统计相关性，而是能够捕获与免疫治疗机制直接相关的通路扰动和基因贡献。

在抗CTLA-4 PathTIGR框架中，研究人员也系统识别了关键通路和基因标志物。通路重要性分析显示，MAPK信号通路相关组成在前20条贡献通路中占据重要位置。基因层面上，PRKACA、MAPK11、MAPK25、HSPA1L和ELK1等分子具有较高算法重要性。这些结果为抗CTLA-4治疗反应的分子解释提供了路径，并显示PathTIGR可以根据不同免疫治疗机制提取不同的通路特征。

图6｜抗PD-1 PathTIGR模型的可解释性分析。

图7｜抗CTLA-4 PathTIGR模型的可解释性分析。

讨论

研究人员指出，免疫治疗反应预测标志物开发仍是精准肿瘤学中的关键挑战。现有方法在不同患者群体中的准确性和临床实用性有限。PathTIGR通过系统整合基因组改变谱和人工整理的生物通路网络拓扑，试图克服现有预测方法的根本局限。多个独立黑色素瘤队列的综合评估显示，PathTIGR相较于传统机器学习算法、已发表生物标志物和先进深度学习方法具有更好预测性能。这说明，将基因组改变嵌入生物学约束的通路框架中，可以同时提升预测准确性和模型可解释性，从而缓解免疫治疗标志物开发中长期存在的“准确性—可解释性”权衡。

PathTIGR的优势来自多个方法学创新。首先，它将生物通路知识直接纳入模型架构，使模型关注功能相关的基因组扰动，而不是孤立分子特征。体细胞突变和拷贝数变异与免疫治疗反应具有更直接、较明确的生物学联系，因此以这些改变为基础构建通路扰动表征具有合理性。通路中心化策略能够将复杂、异质的基因组改变归约到更稳定的生物过程层面，从而解释为何模型在多个独立队列中仍保持较强表现。

其次，图自编码器能够将高维基因组数据转化为具有生物学意义的通路表示，在降低维度的同时保留关键功能关系。一个值得注意的发现是，仅从基因组扰动衍生出的通路级表示，就能在独立队列中实现稳健预测。这提示免疫治疗反应可能更多由通路层面的协调功能扰动驱动，而不是由单个基因事件或单一生物标志物决定。这也解释了为何单基因或单一标志物方法在不同队列中常常难以重复。

第三，Transformer的自注意力机制使模型能够识别复杂的通路间依赖关系。免疫治疗疗效通常不是由单一通路改变决定，而是来自多个信号级联过程的协同激活或抑制。自注意力机制能够动态评估不同通路之间的信息交换和相对重要性，因此特别适合建模免疫治疗反应这种多通路、多机制共同决定的临床结局。

从临床角度看，PathTIGR的转化应用仍需要与现有临床决策流程结合，并在前瞻性临床试验中进一步验证。该框架能够提供通路级机制解释，因此不仅可用于患者分层，还可能支持治疗优先级排序、联合治疗方案设计和新型生物标志物发现。例如，若模型提示某些免疫抑制通路或代谢通路在非应答患者中占主导，未来可据此设计针对性联合治疗策略。

研究人员也指出了若干局限。PathTIGR依赖预定义通路注释，这可能限制其发现治疗过程中动态出现的新型生物关系。未来版本可引入动态通路学习方法，以适应不同肿瘤背景和治疗干预下的特异性分子互作。尽管多组学整合是当前热点，但加入更多组学层并不必然提升预测准确性。体细胞突变和拷贝数变异与肿瘤免疫原性直接相关，而基因表达数据具有更强尺度异质性和噪声特征，在样本量有限时，与离散基因组改变整合不一定带来稳健增益。未来随着免疫治疗相关多组学数据集扩大，可以进一步探索更系统的表达数据整合策略，并评估其互补价值。

总体而言，PathTIGR代表了一种面向精准免疫治疗的生物学基础计算范式。它将基因组复杂性与既有通路知识系统结合，在提高预测性能的同时提供治疗反应分子机制解释。研究人员认为，该框架为机制驱动的免疫治疗患者分层和下一代预测标志物开发提供了重要基础。

整理 | DrugOne团队

参考资料

Xiangmei Li et al. ,PathTIGR: A pathway topology-informed graph representation learning framework for immunotherapy response prediction.Sci. Adv.12,eaed6373(2026).DOI:10.1126/sciadv.aed6373