前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >如何用基本临床数据预测癌症免疫检查点抑制剂疗法的疗效 | Nat.Med

如何用基本临床数据预测癌症免疫检查点抑制剂疗法的疗效 | Nat.Med

作者头像
生信菜鸟团
发布于 2025-04-11 03:32:35
发布于 2025-04-11 03:32:35
1030
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

年04月10日 09:00 中国香港

Basic Information

  • 英文标题:Prediction of checkpoint inhibitor immunotherapy efficacy for cancer using routine blood tests and clinical data
  • 中文标题:使用常规血液检查和临床数据预测癌症免疫检查点抑制剂疗法的疗效
  • 发表日期:06 January 2025
  • 文章类型:Article
  • 所属期刊:Nature Medicine
  • 文章作者:Seong-Keun Yoo | Diego Chowell
  • 文章链接:https://www.nature.com/articles/s41591-024-03398-5

Abstract

Para_01
  1. 预测癌症患者是否能从免疫检查点抑制剂(ICIs)中受益,而不依赖高级基因组或免疫学检测,是重要的临床需求。
  2. 为了解决这一问题,我们开发并评估了 SCORPIO,这是一种机器学习系统,它利用常规血液检查(全血细胞计数和综合代谢谱)以及来自 9,745 名接受 ICI 治疗患者的临床特征,涵盖 21 种癌症类型。
  3. SCORPIO 基于纪念斯隆凯特琳癌症中心的 1,628 名患者的数据进行训练,这些患者涵盖 17 种癌症类型。
  4. 在两个内部测试集中,包含 19 种癌症类型的 2,511 名患者,SCORPIO 在预测 6、12、18、24 和 30 个月总生存期时,实现了中位时间依赖性受试者工作特征曲线下面积(AUC(t))值分别为 0.763 和 0.759,优于肿瘤突变负荷(TMB),后者的中位 AUC(t) 值分别为 0.503 和 0.543。
  5. 此外,SCORPIO 在预测临床获益(肿瘤反应或长期稳定)方面表现出更优的预测性能,AUC 值分别为 0.714 和 0.641,而 TMB 的 AUC 值为 0.546 和 0.573。
  6. 外部验证使用了 10 项全球 III 期试验(涵盖 6 种癌症类型的 4,447 名患者)和西奈山卫生系统的真实世界队列(涵盖 18 种癌症类型的 1,159 名患者)。
  7. 在这些外部队列中,SCORPIO 在预测 ICI 结果方面保持了强大的性能,超越了程序性死亡配体 1 免疫染色。
  8. 这些发现强调了 SCORPIO 的可靠性和适应性,突显了其在多种癌症类型和医疗环境中预测患者 ICI 治疗结果的潜力。

Main

Para_01
  1. 免疫检查点抑制剂(ICIs),例如抗细胞毒性T淋巴细胞相关抗原4(CTLA-4)或抗程序性死亡1(PD-1)/程序性死亡配体1(PD-L1)药物,可以在一部分晚期癌症患者中诱导持久的反应。
  2. 然而,大多数患者承受治疗费用却无法获得持久的临床益处。
  3. 因此,一种能够预测ICI药物疗效的模型将在精准医疗中具有重要意义,因为它可以帮助医生识别更可能或不太可能从这些治疗中受益的患者。
Para_02
  1. 肿瘤突变负荷(TMB)和 PD-L1 表达是经美国食品药品监督管理局(FDA)批准用于此目的的生物标志物。
  2. 然而,这些生物标志物的准确性有限,并且存在实际应用中的限制,例如 TMB 需要足够的肿瘤组织和资源来对 DNA 进行测序,而 PD-L1 免疫组化缺乏标准化的抗体克隆和评分系统。
  3. 因此,在不同地理区域和医疗系统中,仍然需要一种能够轻易获取、成本低且周转时间快的定量预测标志物。
Para_03
  1. 评估ICI疗效的理想候选方法可能包括系统整合广泛可用的临床变量和现代医学中常规使用的标准化血液检测指标。
  2. 值得注意的是,一些研究报道了体重指数(BMI)、中性粒细胞与淋巴细胞比值(NLR)或白蛋白(ALB)与ICI反应之间的关联。
  3. 然而,尚未有报道对临床和实验室数据进行全面分析,并探讨其在不同癌症类型中预测ICI疗效的潜力。
Para_04
  1. 机器学习是人工智能的一个分支,它使算法能够从数据中学习,识别关键模式并进行预测。
  2. 这些模型已经在各种生物医学领域取得了成功。
  3. 在本研究中,我们探讨了机器学习系统是否能够利用常规血液检查和标准临床变量来预测 ICI 的结果。
  4. 我们在三个真实世界队列和 10 个全球 III 期临床试验队列上训练、测试和外部验证了一个机器学习模型,以预测 ICI 的疗效。

Results

Study cohorts

研究队列

Para_01
  1. 本研究纳入了9,745名患者,涵盖21种癌症类型,这些患者接受了免疫检查点抑制剂(ICIs)治疗,数据来自纪念斯隆凯特琳癌症中心(MSKCC)、西奈山卫生系统(MSHS)以及10项全球三期临床试验。

Fig. 1: Schematic of the study design and analysis.

- 图片说明

◉ 队列收集。顶部:使用了来自 MSKCC 的真实世界队列(MSK-I)进行模型开发。◉ 中部:使用了来自 MSKCC(MSK-II)和 MSHS 的两个真实世界队列。◉ 底部:使用了 10 项全球 III 期临床试验。ITT,意向治疗人群。◉ 特征选择分析。顶部:在 MSK-I 队列中用于模型开发所收集的特征数量。◉ 底部:测试了 47 个特征与总生存期的关联性,使用 Cox 比例风险回归模型,或使用 Cochran-Mantel-Haenszel 检验评估临床获益。◉ 系统性治疗史在这两项测试中均作为混杂因素进行了调整。◉ 机器学习分析。顶部:分别构建预测总生存期和临床获益的模型。◉ 中部:使用 ROC 和 AUC(受试者工作特征曲线及其曲线下面积)比较模型性能。◉ 底部:模型性能评估。在两个机器学习模型中,保留测试集中表现最佳的模型以进行后续分析。

Para_02
  1. 为了开发该模型,我们首先回顾性收集了2014年至2019年期间在MSKCC接受ICIs治疗的2,035名患者的数据,涵盖17种癌症类型(以下简称为MSK-I),这些数据按照80:20的比例随机分为训练集(n = 1,628)和保留测试集(n = 407)。
  2. 我们使用该队列的训练集开发了机器学习模型,并在保留测试集中对模型进行了测试。
  3. 随后,我们在另一个独立队列中进一步测试了该模型,该队列包括来自MSKCC的另外2,104名接受ICIs治疗的患者(以下简称为MSK-II)。
  4. MSK-II队列是在初始模型开发之后收集的,其纳入和排除标准与MSK-I队列相同,但符合条件的年份扩展到2011年至2020年之间接受治疗的患者。
  5. 然后,我们在10项全球III期临床试验中的4,447名接受ICIs治疗的患者中对外部验证了该模型。
  6. 此外,我们还在MSHS的真实世界队列中对模型进行了进一步外部验证,该队列包括2011年至2019年间接受ICIs治疗的1,159名患者,MSHS是一个为纽约大都市区多样化患者群体服务的大型综合性医疗系统。
  7. 我们还分析了在MSKCC接受癌症治疗但未接受ICI的6,629名患者(以下简称为MSK非ICI;详见补充数据表4)。
  8. 有关患者纳入和排除标准的详细信息,请参见方法部分以及补充图2和3。

Characteristics of the patient data

患者数据的特征

Para_01
  1. 患者接受了 PD-1 抑制剂(n = 3,793)、PD-L1 抑制剂(n = 5,253)、CTLA-4 抑制剂(n = 72)或多种药物组合的治疗(n = 627),包括抗 CTLA-4 联合抗 PD-1、抗 CTLA-4 联合抗 PD-L1、抗 CTLA-4 联合抗 PD-1 和抗 PD-L1,以及抗 PD-1 和抗 PD-L1 的联合疗法。
  2. 每个队列的中位随访时间为:训练集为 25.38 个月(四分位距 (IQR) 13.50–45.01),验证测试集为 27.37 个月(IQR 13.68–49.58),MSK-II 队列为 9.42 个月(IQR 3.10–20.67),MSHS 队列为 8.84 个月(IQR 2.75–28.47),临床试验组总体为 13.64 个月(IQR 6.72–19.86)。
  3. 10 个临床试验队列包括来自 12 个实验组的患者,这些患者接受阿特珠单抗(抗 PD-L1)治疗:IMbrave150、IMspire150、IMmotion151、IMvigor211、IMpower133、IMpower130、IMpower131(阿特珠单抗加卡铂和纳米颗粒白蛋白结合型紫杉醇 (ACNP))、IMpower131(阿特珠单抗加卡铂和紫杉醇 (ACP))、IMpower132、IMpower150(阿特珠单抗加贝伐单抗、卡铂和紫杉醇 (ABCP))、IMpower150(ACP)和 OAK。
  4. 各临床试验队列的中位随访时间详见扩展数据表 3。
  5. 我们分析了膀胱癌、肝胆癌、黑色素瘤、非小细胞肺癌(NSCLC)、肾细胞癌(RCC)和小细胞肺癌(SCLC),因为这些癌症类型在所有可用队列中均有收集,并将其作为单独的癌症类型处理。
  6. 其余癌症类型在每个队列中被归类为‘其他’。

Clinical features and outcomes

临床特征与结果

Para_01
  1. 我们回顾性收集了临床变量和标准化测量数据,这些数据来自首次 ICI 输注当天或之前不超过 30 天的常规实验室血液检测(图 1b 和补充表 1)。
  2. 在 MSKCC 队列中,基于 FDA 批准的 MSK-IMPACT 平台从患者的肿瘤中收集了 TMB 数据。
  3. 在临床试验队列中,收集了使用 SP142 或 SP263 克隆(Ventana Medical Systems)进行的 PD-L1 免疫染色数据(方法)。
  4. 两个主要结果是总生存期和治疗效果,后者通过临床获益来衡量。
  5. 总生存期从首次 ICI 输注到任何原因导致的死亡进行测量,对于接受多次 ICI 治疗的患者,以第一次治疗为准。
  6. 对于临床试验队列,总生存期从随机化到任何原因导致的死亡进行测量。
  7. 在审查时仍存活的患者在其最后一次联系时被列为删失数据。
  8. 临床获益定义为患者在首次 ICI 输注后至少 6 个月内肿瘤显示完全缓解(CR)、部分缓解(PR)或稳定疾病(SD)且无进展,如同先前的研究所示。
  9. 在首次 ICI 输注后不到 6 个月肿瘤显示疾病进展(PD)或稳定疾病(SD)的患者被归类为无临床获益。
  10. CR、PR、SD 和 PD 均基于 RECIST v1.1 标准。
  11. 这两个主要结果在 MSKCC 和临床试验队列中均可用,但在 MSHS 队列中仅提供了总生存期数据。
  12. 有关临床特征和结果的描述,请参见方法。

Development of the machine learning model

机器学习模型的开发

Para_01
  1. 在模型训练之前,我们对训练集进行了特征选择分析,以确定与ICI治疗目标结果相关的特征(图1b和补充图4)。
  2. 我们使用人口统计学、临床和常规血液检查数据开发了两个机器学习模型,用于预测ICI给药后的结果,其中一个模型用于预测总生存期,另一个模型用于预测临床获益(完全缓解、部分缓解和疾病稳定≥6个月),并选择了在保留测试集中表现最佳的模型(图1c)。
  3. 每个模型由三个算法组成的集成模型构成,并采用软投票方式。
  4. 在训练过程中,使用五折交叉验证(CV)来优化每个算法的超参数。
  5. 在模型训练期间,训练集被分为五个等大小的折叠,每个折叠包含相同比例的数据。
  6. 算法经历了五次训练和评估迭代。
  7. 在每次迭代中,使用四个折叠进行训练,一个折叠用于验证。
  8. 模型性能通过总生存期的一致性指数(C-index)和临床获益的接收者操作特性曲线下的面积(AUC)进行评估。
  9. 将五次迭代的性能指标平均,以获得单一的性能测量值。
  10. 此过程针对所有可能的超参数组合重复进行,选择具有最高性能指标的超参数作为最优超参数。
Para_02
  1. 训练用于预测总生存期的模型,SCORPIO(免疫治疗结果预测的标准临床和实验室特征),计算出一个从 0 到 1 的风险评分,评分越高表示在ICI给药后出现不良结果(即无效或早期死亡)的概率越高。
  2. 该模型通过特征选择分析确定了与总生存期显著相关的33个特征进行训练(补充图4a和补充表2)。
  3. 同样,训练用于预测临床获益的SCORPIO-CB生成了一个从0到1的概率评分,评分越高表示临床获益的可能性越大。
  4. 该模型通过特征选择分析确定了与临床获益显著相关的22个特征进行训练(补充图4b和补充表2)。
  5. 这两个模型的性能分别通过总生存期的时间依赖性AUC(AUC(t))和临床获益的AUC进行评估。
  6. 有关机器学习系统的详细信息,请参见方法部分。
Para_03
  1. 为了预测临床结果的主要分析,根据训练集中观察到的风险评分的第一和第三四分位数,将患者分为高风险、中风险和低风险组。
  2. Cox比例风险回归检验了风险评分与总生存期之间的关系,Fisher精确检验比较了三个风险组之间的临床获益率。
  3. 有关统计分析的详细信息,请参见方法部分。

Model performance in the internal test datasets

模型在内部测试数据集中的表现

Para_01
  1. 在保留的测试数据中,用于预测总生存期的机器学习模型 SCORPIO 在免疫检查点抑制剂 (ICI) 治疗后 6、12、18、24 和 30 个月预测总生存期,其跨癌症类型的中位 AUC(t) 为 0.763。
  2. SCORPIO 在预测总生存期方面优于 SCORPIO-CB 和肿瘤突变负荷 (TMB),这通过 AUC(t) 值得以体现。
  3. 它还以跨癌症类型的 AUC 为 0.714 预测了临床获益,超过了 SCORPIO-CB(跨癌症类型 AUC 为 0.701)和 TMB(跨癌症类型 AUC 为 0.546)。
  4. SCORPIO 在所有癌症类型中始终优于 SCORPIO-CB 和 TMB。

Fig. 2: Performance of SCORPIO across all real-world cohorts, phase 3 clinical trials and different tumor types.

- 图片说明

◉ 点图总结了 SCORPIO 在预测 6、12、18、24 和 30 个月整体生存率以及在三个真实世界队列和来自 10 项三期临床试验的 12 个实验组中预测临床获益的表现。◉ RWD 表示真实世界数据;RCT 表示随机临床试验。◉ 由于 MSHS 队列中缺乏临床获益数据,计算 AUC 不可行。◉ 由于所有患者在此时间点均已死亡,计算 AUC(t) 不可行。◉ 由于所有患者在此时间点仍然存活,计算 AUC(t) 不可行。

Para_02
  1. 为了确定针对特定癌症类型的模型是否比 SCORPIO(一种泛癌模型)提供更好的预测价值,我们开发了基于每种癌症类型数据训练的模型。
  2. 首先,我们对每种癌症类型分别进行了特征选择分析和模型训练。
  3. 在训练集中包含的17种癌症类型中,我们识别出10种具有与总生存期显著相关的特征(补充表2)。
  4. 然后,我们训练了这10个模型,并将其性能与测试集中的SCORPIO进行比较。
  5. 在预测总生存期和临床获益方面,SCORPIO的表现优于大多数特定癌症类型的模型(补充图8)。
  6. 这表明,在大规模泛癌数据上训练的SCORPIO成功地学习了跨癌症类型的相关关系。
Para_03
  1. 接下来,我们将 SCORPIO 的性能与 Vanguri 等人提出的九种机器学习模型进行了比较,这些模型利用单模态、双模态或多模态数据(放射学、病理学、肿瘤遗传学和 PD-L1 评分)预测非小细胞肺癌 (NSCLC) 患者对免疫检查点抑制剂 (ICI) 治疗的疗效。
  2. SCORPIO 在预测总生存期方面优于这些模型(补充图 9a),并且在预测临床获益方面表现出相当的性能,尽管它是在更简单、更易获取的泛癌数据上训练的(补充图 9b)。
Para_04
  1. 在保留的测试数据中,三个风险组(低风险、中等风险和高风险)显示出显著不同的总体生存率。
  2. 在不同肿瘤类型中,与高风险组相比,死亡的风险比(HRs)为:低风险组 0.25(95% 置信区间 (CI),0.18–0.34),中等风险组 0.48(95% CI,0.37–0.63)。
  3. 此外,在不同肿瘤类型中,每个风险组的临床获益率显著不同——低风险组为 55.96%,中等风险组为 28.64%,高风险组为 12.12%(P = 3.22 × 10−11)。
Para_05
  1. 随后,我们在独立的真实世界 MSK-II 队列中测试了 SCORPIO。
  2. 在这个队列中,SCORPIO 在免疫检查点抑制剂(ICI)治疗后 6、12、18、24 和 30 个月预测了总体生存率,全癌种的中位 AUC(t) 为 0.759(图 2)。
  3. 它还以全癌种 AUC 为 0.641 预测了 ICI 的临床获益。
  4. 与保留测试数据的结果一致,SCORPIO 在 AUC(t) 和 AUC 方面均优于基于肿瘤突变负荷(TMB)的方法(补充图 11 和 12)。
  5. 三个风险组的总体生存率存在显著差异(图 3a 和 补充图 13a)。
  6. 在不同肿瘤类型中,低风险组和中等风险组相对于高风险组的死亡风险比(HR)分别为 0.16(95% 置信区间,0.14–0.19)和 0.38(95% 置信区间,0.34–0.43)。
  7. 此外,在不同肿瘤类型中,各风险组的临床获益率显著不同——低风险组为 65.09%,中等风险组为 52.20%,高风险组为 32.89%(P = 2.35 × 10−11;图 3b 和 补充图 13b)。
  8. 在两个内部测试数据集中,风险组与临床结果之间的关联独立于 ICI 治疗的线数、性别、年龄、东部肿瘤协作组体能状态(ECOG-PS)、微卫星不稳定性(MSI)状态和 TMB(补充图 14 和 15)。

Fig. 3: Performance of SCORPIO on the MSK-II cohort (internal test set).

- 图片说明

◉ Kaplan-Meier 图展示了根据 SCORPIO 分层的三个风险组的总体生存情况。标记表示删失数据。黑色垂直和水平虚线代表每个风险组的中位生存时间。双侧 P 值通过对数秩检验计算得出。未进行多重检验校正。◉ 条形图显示了根据 SCORPIO 分层的三个风险组的临床获益率。双侧 P 值通过 Fisher 精确检验计算得出。未进行多重检验校正。

Para_06
  1. 为了确定 SCORPIO 是否专门针对免疫检查点抑制剂(ICI)疗效具有预后价值,还是对无论接受何种治疗的癌症患者都具有一般性预后价值,我们分析了一组来自 MSKCC 的未接受 ICI 治疗的患者数据。
  2. 在某些但并非所有癌症类型中,SCORPIO 能够预测非 ICI 患者的总生存期(补充图 16)。
  3. 然而,与 ICI 治疗情境不同的是,对于特定癌症如膀胱癌、肝胆癌、食道癌和卵巢癌,其预后准确性有所下降(图 3a 和补充图 10a、13a 和 16)。
  4. 这些结果表明,在 ICI 治疗的情境下,SCORPIO 对总生存期的预测更为有效。

Model interpretability

模型可解释性

Para_01
  1. 为了了解每个特征如何对 SCORPIO 的风险评分预测做出贡献,我们使用 SHapley Additive exPlanations (SHAP) 方法分析了其训练集中 33 个特征的相对影响。
  2. SHAP 定量分析了每个特征对免疫检查点抑制剂(ICI)疗效中患者间变异的贡献(图 4a)。
  3. 贡献最大的前五个特征是氯离子 (CL)、白蛋白 (ALB)、血红蛋白 (HGB)、ECOG 性能状态 (ECOG-PS) 和嗜酸性粒细胞在白细胞中的比例 (EOS%)。

Fig. 4: Model interpretability.

图片
图片

- 图片说明

◉ 全局模型解释使用了 SCORPIO 特征的聚合 SHAP 值的点图。具有负聚合 SHAP 值(黄色)的特征值越高,风险评分值越低;而具有正聚合 SHAP 值(紫色)的特征值越高,则风险评分值越高。特征按绝对聚合 SHAP 值排序。WBC:白细胞;RBC:红细胞;AGAP:阴离子间隙;PROT:总蛋白;LYM%:白细胞中的淋巴细胞比例;NEUT%:白细胞中的中性粒细胞比例;Smoking:吸烟史;NEUT:中性粒细胞计数;CREAT:肌酐;LYM:淋巴细胞计数;HCT:血细胞比容;GLU:葡萄糖;MONO:单核细胞计数;ALT:丙氨酸氨基转移酶;Age:ICI 治疗时的年龄;AST:天冬氨酸氨基转移酶;MCHC:平均红细胞血红蛋白浓度;Stage:ICI 治疗时的肿瘤分期;MLR:单核细胞与淋巴细胞比值;RDW:红细胞分布宽度;ALK:碱性磷酸酶;BASO%:白细胞中的嗜碱性粒细胞比例;eGFR:估算的肾小球滤过率;PLT:血小板;BILI:总胆红素;BLR:嗜碱性粒细胞与淋巴细胞比值。◉ b 至 e:局部模型解释,(b 和 c) 分别展示了对 ipilimumab/nivolumab 和 atezolizumab 产生完全缓解 (CR) 的两个代表性病例,以及 (d 和 e) 分别展示了对 atezolizumab 和 pembrolizumab 产生疾病进展 (PD) 的两个代表性病例。每个病例在左侧面板用条形图表示,显示聚合 SHAP 值,以指示每个特征对预测风险评分的影响大小和方向。右侧面板显示治疗前后的影像学图像。对应患者的特征值在条形图中提供。每位患者的最佳总体肿瘤反应和生存情况也一并展示。密度图显示了训练集中风险评分的分布,黑色虚线表示每位患者预测的风险评分。MSS:微卫星稳定。b 和 c 中的黄色箭头分别指代免疫治疗前扫描(‘Pre-ICI’)中的肝脏和肺部转移。对应的免疫治疗后扫描(‘Post-ICI’)显示完全缓解,未见可见病灶。◉ d 中的黄色线条表示治疗前后扫描中恶性胸腔积液的双向直径,反映尽管治疗仍为疾病进展。e 中的黄色虚线勾勒出在 ICI 治疗期间新出现的恶性胸腔积液,表明疾病进展。◉ f 和 g:热图显示了 14 种免疫细胞类型与排名前五的特征之间的关联,以及来自 SCORPIO 的预测风险评分,其中 (f) 是 NSCLC 患者,(g) 是头颈部 (H&N) 癌症患者。NK:自然杀伤细胞。双侧 P 值通过 Spearman 等级相关检验计算得出。* 调整后的错误发现率 (FDR) P < 0.05。** FDR 调整后的 P < 0.01。每个单元格中的数字表示 Spearman 的 ρ 值。

Para_02
  1. 图4b-e显示了保留测试集中具有不同风险评分和临床反应的代表性患者。
  2. 每个特征的贡献根据其自身值和其他特征的值,在方向和大小上有所不同,这展示了模型在预测每位患者ICI疗效时的复杂性。
Para_03
  1. 接下来,我们研究了排名前五的特征和预测的风险评分如何反映肿瘤微环境(TME)的特性。
  2. 我们收集了另一组包含264名非小细胞肺癌(NSCLC)患者的队列,这些患者有可用的整体RNA测序(RNA-seq)、血液检测值(在肿瘤活检当日或不超过30天前进行)以及临床数据。
  3. 使用经过验证的最准确的NSCLC免疫细胞分解方法之一的Danaher特征签名,我们对14种免疫细胞类型进行了分解。
  4. 然后,我们分析了这些免疫细胞丰度与排名前五的特征水平以及预测风险评分之间的相关性(图4f)。
  5. 我们的研究发现显示,较高的白蛋白(ALB)水平与肥大细胞、T细胞、B细胞、CD45细胞和调节性T细胞的丰度增加相关。
  6. 相反,较低的ECOG表现状态(ECOG-PS)与T细胞、B细胞、CD45细胞、耗竭型CD8细胞和细胞毒性细胞的丰度增加有关。
  7. 此外,较低的预测风险评分(表明对免疫治疗有更好的预测反应)与肥大细胞、T细胞、B细胞、CD45细胞、调节性T细胞、自然杀伤CD56低细胞和Th1细胞的更高丰度相对应。
  8. 我们进一步分析了来自MSK-I队列的头颈部(H&N)癌症患者(n = 32)中这14种免疫细胞类型的丰度与排名前五的特征水平及预测风险评分之间的关联(图4g)。
  9. 与NSCLC队列相比,显著的关联较少,这可能是由于样本量较小所致。
  10. 然而,观察到的关系非常相似——各种免疫细胞类型与ALB水平呈正相关,而ECOG-PS和预测风险评分与许多免疫细胞类型呈负相关。
  11. 这些结果表明,SCORPIO中的某些特征反映了TME状态,并且较低的预测风险评分对应于患者的免疫炎症表型。
Para_04
  1. 我们还评估了排名前五的特征是否与肿瘤突变负荷(TMB)相关。
  2. 利用来自多个 MSKCC 队列的患者数据(n = 2,969),我们发现 TMB 通常与排名前五的特征或风险评分无关,除非在少数几种癌症类型中。

Model performance in the external test datasets

模型在外部分析数据集中的表现

Para_01
  1. 在临床试验队列中,SCORPIO 在 IMvigor211 试验(膀胱癌)中对6、12、18、24和30个月总生存期的预测表现最佳,中位 AUC(t) 达到 0.782,并在 IMspire150 试验(黑色素瘤)中对临床获益的预测达到 AUC 为 0.684(图2)。
  2. 在每个临床试验队列中,三个风险组显示出显著不同的总生存率(每项试验 P < 0.0001;图5a)。
  3. 同样,不同风险组之间的临床获益率也存在显著差异(P 值:IMpower133 为 0.043,IMpower131 (ACNP) 为 0.0027,IMpower131 (ACP) 为 0.001,IMpower150 (ABCP) 为 0.0004,IMspire150 和 OAK 为 0.0003,IMpower150 (ACP) 为 0.0001,其余试验小于 0.0001;图5b)。
  4. 重要的是,这些结果与性别、年龄和 PD-L1 表达无关(补充图18)。
  5. 在临床试验中,根据多种性能指标显示,SCORPIO 在预测临床获益和总生存期方面优于 PD-L1 染色(补充图19)。

Fig. 5: Performance of SCORPIO on the 10 global phase 3 clinical trial cohorts (external test sets).

- 图片说明

◉ Kaplan-Meier生存曲线显示了根据SCORPIO分层的三个风险组在10个临床试验队列中的12个实验组的总生存期。◉ 标记表示删失数据。◉ 黑色垂直和水平虚线代表每个风险组的中位生存时间。◉ 使用对数秩检验计算双侧P值,未进行多重检验校正。◉ HCC表示肝细胞癌。◉ 柱状图显示了根据SCORPIO分层的三个风险组在10个临床试验队列中的12个实验组的临床获益率。◉ 使用Fisher精确检验计算双侧P值,未进行多重检验校正。

Para_02
  1. 为了进一步测试模型的泛化能力,我们分析了一个在大型综合性健康系统(MSHS)接受治疗的真实世界患者队列,该队列涵盖了多样化的人群。
  2. 在这个队列中,SCORPIO 在免疫检查点抑制剂(ICI)治疗后 6、12、18、24 和 30 个月预测了总生存期,其跨癌症类型的中位 AUC(t) 为 0.725(图 2),并且三个风险组在接受 ICI 治疗后的总生存期有显著差异(图 6)。
  3. 在不同肿瘤类型中,与高风险组相比,低风险组和中等风险组的死亡风险比(HRs)分别为 0.25(95% 置信区间,0.18–0.34)和 0.41(95% 置信区间,0.33–0.50)。
  4. 重要的是,所有这些结果均独立于 ICI 治疗的治疗线数、性别、年龄和 ECOG-PS(补充图 20)。

Fig. 6: Performance of SCORPIO on the MSHS cohort (external test set).

- 图片说明

◉ Kaplan-Meier曲线图显示了根据SCORPIO分层的三个风险组的整体生存率。◉ 标记表示被删失的数据。◉ 黑色垂直和水平虚线代表每个风险组的中位生存时间。◉ 使用对数秩检验计算双侧P值。◉ 未进行多重检验校正。

Model performance comparison across cohorts and tumor types

跨队列和肿瘤类型的模型性能比较

Para_01
  1. 与第三阶段临床试验相比,SCORPIO 在大多数癌症类型的真实世界队列中对总生存期的预测表现更好(图2)。
  2. 例如,在膀胱癌中,真实世界队列中的中位 AUC(t) 为 0.809(涵盖所有时间点和队列),优于 IMvigor211 试验中观察到的 0.782。
  3. 同样,对于肝胆癌,真实世界数据中的中位 AUC(t) 达到 0.746,超过了 IMbrave150 试验中报告的 0.704。
  4. 值得注意的是,SCORPIO 在真实世界队列的肾细胞癌 (RCC) 中表现出最强的性能,中位 AUC(t) 为 0.829,高于 IMmotion151 试验中观察到的 0.668。
Para_02
  1. 该模型在真实世界队列中表现更好,可能是因为训练数据涵盖了更广泛的患者特征、癌症类型和治疗环境。
  2. 这也表明,该模型能够有效捕捉日常临床实践中存在的复杂性和变化性,从而增强了其在预测不同患者群体中免疫检查点抑制剂(ICIs)疗效方面的适用性。
  3. 值得注意的是,在大多数癌症类型和队列中,该模型在预测总生存期方面的表现优于预测临床获益,这可能反映了总生存期作为一个可靠的临床终点的稳健性,因为在肿瘤学中,相比于临床获益,总生存期通常因其清晰和客观的结果而被优先考虑。
Para_03
  1. 此外,我们的分析表明,SCORPIO 在预测临床获益方面的表现因不同癌症类型而异(图2)。
  2. 为了理解不同癌症类型之间的性能差异,我们比较了特定癌症类型模型与 SCORPIO 的 SHAP 值。
  3. 该分析揭示了 SCORPIO 的泛癌建模方法可能忽略的关键特征。
  4. 我们的研究结果表明,在 SCORPIO 模型中,特定特征在不同癌症类型中的重要性存在一些变化(补充图21)。
  5. 例如,尽管 SHAP 分析显示 ALB 和 HGB 在 SCORPIO 中很重要,但在特定癌症类型的模型中,它们的重要性有所降低,尤其是在膀胱癌、卵巢癌、头颈部癌和非小细胞肺癌中。
  6. 此外,像病毒感染这样的特征在头颈部癌中由于人乳头瘤病毒状态相关而在头颈部癌中具有重要意义,血小板计数在头颈部癌和黑色素瘤中也具有影响力,这些都突显了每种癌症类型可能具有的独特生物学特征。
  7. 这些差异可能表明,SCORPIO 的泛癌方法可能无法完全捕捉到某些特征在特定癌症类型中的重要性。
  8. 然而,SCORPIO 在预测总生存期和临床获益方面优于特定癌症类型的模型,展示了其稳健性和可推广性(补充图8)。
  9. 未来通过结合特定癌症的特征进行针对性改进,可能会进一步提高 SCORPIO 在预测临床获益方面的准确性,从而在泛化需求与特定癌症类型所需的精确性之间实现平衡。

Discussion

Para_01
  1. 临床上迫切需要开发普遍可用的生物标志物,以预测患者对免疫检查点抑制剂(ICIs)的反应。
  2. 目前,可用的基因组和免疫学检测方法在全球范围内并未广泛普及。
  3. 在本研究中,我们描述了 SCORPIO,这是一种机器学习模型,它依赖于常规血液检查和基础临床数据,能够比现有的 FDA 批准的生物标志物(如 TMB 和 PD-L1 免疫组化)更有效地预测 ICI 治疗后的临床结果。
Para_02
  1. 我们的数据来自两个中心和10项全球三期临床试验,总计涵盖21种癌症类型的9745名患者,这是迄今为止癌症免疫疗法中最大的数据集。
  2. MSHS队列包括来自纽约市各门诊中心、具有多样化背景的患者。
  3. 与MSKCC队列和临床试验队列相比,MSHS队列在种族、社会经济地位、合并症和健康素养方面更具异质性。
  4. 尽管存在这种异质性,我们在MSHS、MSKCC和临床试验队列中发现了一致的结果。
  5. 重要的是,风险分组的划分基于通用的临界值,这些临界值能够预测不同癌症类型患者的预后。
Para_03
  1. SCORPIO 在预测免疫检查点抑制剂(ICI)疗效方面优于 TMB 和 PD-L1 染色。
  2. PD-L1 免疫组化并非在所有地方都可用,并且使用了不同的平台、抗体和质量保证方法。
  3. TMB 评估需要资源密集型的基因组分析,由于基因面板大小、基因内容和生物信息学流程的差异,测量的 TMB 在不同基因组面板之间也会有所不同。
Para_04
  1. 我们的研究存在一些局限性。
  2. 训练集是回顾性地从纪念斯隆-凯特琳癌症中心(MSKCC)多年的数据中收集的,因此某些癌症类型(如非小细胞肺癌、黑色素瘤、膀胱癌和肾细胞癌)占比较高。
  3. 尽管如此,我们证明了该模型能够预测在来自另一家医疗机构和全球临床试验的多个外部数据集中的临床获益和生存率。
  4. 这些外部数据集的多样性虽然引入了异质性,但也验证了模型的泛化能力。
  5. 然而,模型在‘其他’组中包含的较少见癌症类型上的表现仍需在更大规模的数据集上进一步测试。
Para_05
  1. 尽管 SCORPIO 在不同队列中对总生存期的预测保持了稳定的表现,但其预测免疫检查点抑制剂临床获益的能力在不同癌症类型和队列中有所不同。
  2. 这一发现表明,SCORPIO 在生存预测方面是可靠的,但在准确预测临床获益方面存在挑战。
Para_06
  1. 在临床终点方面,总生存期通常被视为评估肿瘤学治疗效果最可靠和客观的终点指标,并且是监管机构在批准新型抗癌药物时使用的关键指标。
  2. 贝伐单抗在转移性乳腺癌中的案例突显了这一点,因其基于无进展生存期的初始批准后来因缺乏总生存期改善而被撤销。
  3. 鉴于 SCORPIO 在预测总生存期方面的强大表现,我们得出结论,它在使用 ICI 药物治疗时能够有效提供患者生存的预后见解。
  4. SCORPIO 在预测肿瘤反应方面的表现较为有限,这在免疫疗法背景下是可以预期的,特别是在使用 ICIs 时,因为肿瘤反应与患者生存之间的联系可能较弱,受到诸如假性进展、延迟反应以及新病灶出现后发生反应等因素的影响。
  5. 考夫曼等人进行的一项荟萃分析发现,在显示总生存期改善的8项随机试验中,有75%(6/8)未能改善无进展生存期,这进一步强调了总生存期与无进展生存期或客观缓解率等替代终点之间关系的薄弱性。
  6. 然而,结合总生存期一起评估替代指标(如肿瘤反应)可以更全面地了解治疗影响,包括早期抗肿瘤活性信号。
  7. 随着更多数据的积累,SCORPIO 的未来版本将提供对替代指标(如肿瘤反应)以及总生存期的更优预测能力。
Para_07
  1. 尽管存在局限性,SCORPIO 仍然是一个高度可用的模型,可用于预测 ICI 的疗效,并在与 TMB、PD-L1 染色和 MSI 状态等其他评估结合使用时辅助临床决策。
  2. 它可以帮助在 ICI、细胞毒性和靶向治疗之间优先选择治疗方案,评估免疫相关不良事件高风险患者的 ICI 风险收益比,并通过选择或富集更可能或不太可能从 ICIs 中受益的患者来指导临床试验设计。
Para_08
  1. 总之,我们开发并测试了SCORPIO,这是一种用于预测接受免疫检查点抑制剂治疗的癌症患者结果的机器学习模型。
  2. SCORPIO的主要优势在于它在所有实践环境中都具有可及性,包括资源匮乏的医疗保健环境。
  3. SCORPIO中的所有特征在全球范围内的医院和诊所中都是常规收集的,并且可以通过患者的临床记录获取,使我们的方法无创、成本效益高并且全球可及。
  4. 需要进一步的研究来前瞻性地验证我们在各种临床环境中模型的使用。

Methods

Ethics approval

伦理审批

Para_01
  1. 该研究方案已获得西奈山伊坎医学院和 MSKCC 的机构审查委员会批准,并且所有患者均签署了知情同意书。

Cohorts description

队列描述

Cohort description for MSK-I cohort

MSK-I队列的队列描述

Para_01
  1. 我们回顾性地组建了一个真实世界的队列,其中包括3,278名患者,他们在2014年至2019年期间在MSKCC接受了至少一剂ICI治疗(补充图2a)。
  2. 我们排除了有超过一种癌症病史的818名患者,参与盲法试验的26名患者,患有病例数少于25例的癌症类型的115名患者,以及临床或实验室数据不充分的184名患者。
  3. 我们还排除了在新辅助或辅助设置下接受ICI治疗的100名患者。
  4. 结果,MSK-I队列包括来自17种癌症类型的2,035名患者(扩展数据表1)。
  5. 在2,035名患者中,中位年龄为63.50岁(四分位距54.77–70.92岁),其中1,164名(57.20%)为男性。
  6. 在所有患者中,有638名(31.35%)在接受ICI治疗时为一线治疗。
  7. 最常见的癌症类型是:非小细胞肺癌(n = 666,32.73%)、肾细胞癌(n = 229,11.25%)、黑色素瘤(n = 210,10.32%)、头颈部癌(n = 168,8.26%)和膀胱癌(n = 111,5.45%)(补充图1a)。
Clinical features for MSK-I cohort

MSK-I队列的临床特征

Para_01
  1. 所有特征及其单位的详细描述见补充表1。
  2. 人口统计数据收集了两个特征(年龄和性别),临床数据收集了八个特征(BMI、药物类别、免疫治疗期间的化疗、系统治疗史(PreChemo)、ECOG-PS、吸烟史、肿瘤分期和病毒感染)。
  3. 从血液检测中最初收集了47个特征:17个特征来自综合代谢面板(CMP;白蛋白、碱性磷酸酶、丙氨酸氨基转移酶、阴离子间隙、天冬氨酸氨基转移酶、血尿素氮、钙、氯、二氧化碳、肌酐、估算的肾小球滤过率(eGFR)、葡萄糖、钾、胆红素、总蛋白、镁和磷),21个特征来自全血细胞计数(CBC;白细胞(WBC)计数、嗜碱性粒细胞计数、嗜酸性粒细胞计数、粒细胞计数、淋巴细胞计数、单核细胞计数、中性粒细胞计数、WBC中嗜碱性粒细胞比例、EOS%、WBC中粒细胞比例、WBC中淋巴细胞比例、WBC中单核细胞比例、WBC中中性粒细胞比例、血细胞比容、血红蛋白、平均红细胞血红蛋白浓度、平均红细胞血红蛋白、平均红细胞体积、血小板、红细胞和红细胞分布宽度),3个特征来自凝血面板(活化部分凝血酶时间、国际标准化比值和凝血酶原时间),结合胆红素、直接胆红素、葡萄糖-6-磷酸脱氢酶、游离钙、乳酸脱氢酶和脂肪酶。
  4. 在这些特征中,有13个特征由于在整个队列患者中缺失值≥70%,因此从后续分析中被移除:2个来自CMP(镁和磷),2个来自CBC(粒细胞计数和WBC中粒细胞比例),以及凝血面板中的所有特征(活化部分凝血酶时间、国际标准化比值和凝血酶原时间)、结合胆红素、直接胆红素、葡萄糖-6-磷酸脱氢酶、游离钙、乳酸脱氢酶和脂肪酶。
Para_02
  1. 然后,手动计算四种免疫细胞与淋巴细胞的比例,分别为每种免疫细胞的绝对数量除以淋巴细胞的绝对数量:嗜碱性粒细胞与淋巴细胞比率、嗜酸性粒细胞与淋巴细胞比率、单核细胞与淋巴细胞比率以及中性粒细胞与淋巴细胞比率。
  2. 上述免疫细胞与淋巴细胞的比率被视为全血细胞计数的一部分。
Para_03
  1. 总共有48个特征,来自四种数据模态:人口统计学(n = 2)、临床(n = 8)、CMP(n = 15)和CBC(n = 23)。
  2. 所有临床特征均在首次ICI输注前收集(收集日期为首次ICI输注当天或不超过30天之前)。
  3. 对于eGFR,结果报告时不进行种族校正。
  4. 根据美国癌症联合委员会第八版指南,在ICI给药时对肿瘤进行分期(原发性中枢神经系统恶性肿瘤除外,这些未进行分期)。

错误!!! cannot unpack non-iterable NoneType object

Para_05
  1. 在进行特征选择和训练机器学习算法之前,我们使用 missingpy 包(v.0.2.0)中的 MissForest 方法对 MSK-I 队列中的缺失值进行了填补,参数设置为默认值(max_iter=10, decreasing=False, missing_values=np.nan, copy=True, n_estimators=100, criterion = (‘mse’, ‘gini’),max_depth=None, min_samples_split=2, min_samples_leaf=1, in_weight_fraction_leaf=0.0, max_features = ‘auto’, max_leaf_nodes=None, min_impurity_decrease=0.0, bootstrap=True, oob_score=False, n_jobs = -1, random_state=None, verbose=0, warm_start=False, class_weight=None),使用的 Python 版本为 3.8.8(https://www.python.org/)。
  2. 在 48 个特征中,每名患者的平均缺失值数量为 0.70。
  3. 在缺失值填补后,我们将 MSK-I 队列按照 80:20 的比例随机划分为训练集(n = 1,628)和保留测试集(n = 407)。
  4. 为了防止训练集和保留测试集之间模型性能可能出现的任何潜在偏差,我们保持了肿瘤反应、癌症类型和全身治疗史在这两组之间的分布一致。
  5. 训练集和保留测试集的划分是通过 dplyr 包(v.1.1.4)和 tidyverse 包(v.2.0.0)中的 group_by 和 sample_frac 函数完成的,使用的 R 编程语言版本为 4.1.1(https://www.r-project.org/)。
Cohort description for MSK-II cohort

MSK-II队列的队列描述

Para_01
  1. 我们回顾性地收集了额外的真实世界队列,该队列包含 3,159 名患者,他们在 2011 年至 2020 年间在 MSKCC 接受了至少一剂免疫检查点抑制剂(ICI)治疗,以进一步在内部测试我们的模型。这些患者来自比 MSK-I 队列更广泛的时间段内捕获的患者,以及同时期未进行肿瘤基因组测序的患者。
  2. 我们排除了 660 名有多于一种癌症病史的患者、14 名参与双盲试验的患者、65 名患少于 10 例的癌症类型的患者和 184 名临床或实验室数据不足的患者。
  3. 我们还排除了 132 名在新辅助或辅助治疗环境中接受 ICI 的患者。
  4. 结果,MSK-II 队列包括 19 种癌症类型的 2,104 名患者(扩展数据表 1 和补充图 2b)。
  5. 在 2,104 名患者中,中位年龄为 67.13 岁(四分位距 58.59–74.33 岁),其中 1,180 名(56.08%)为男性。
  6. 总计 1,189 名患者(56.51%)接受了 ICI 作为一线治疗。
  7. 最常见的癌症类型是非小细胞肺癌(n = 755,35.88%)、膀胱癌(n = 156,7.41%)、肾细胞癌(n = 154,7.32%)、黑色素瘤(n = 151,7.18%)和小细胞肺癌(n = 137,6.51%)。
Clinical features of MSK-II cohort

MSK-II队列的临床特征

Para_01
  1. 对于 MSK-II 队列,收集了 SCORPIO 所需的四种数据模态:人口统计学数据(n = 1)、临床数据(n = 4)、CMP 数据(n = 11)和 CBC 数据(n = 17)(有关 SCORPIO 所需的 33 个特征的详细信息,请参见"特征选择分析"部分)。
  2. 除了肿瘤分期外,所有临床特征均被检索到(在第一次 ICI 输注当天或之前不超过 30 天内完成)。
  3. 根据美国癌症联合委员会第 8 版指南对肿瘤进行分期(原发性中枢神经系统恶性肿瘤除外,这些未进行分期)。
  4. 对于 eGFR,结果报告时不考虑种族调整。
  5. 在 MSK-II 队列中,934 名患者(44.39%)接受了 MSK-IMPACT 测序。
  6. 因此,TMB 数据仅对该子集患者可用。
  7. 在亚组分析中,TMB ≥ 10 和 TMB < 10 的患者分别定义为 TMB-High 和 TMB-Low 组。
  8. MSI 状态使用 MSIsensor 进行评估,标准如下:稳定(0 ≤ MSI 分数 < 3)、不确定(3 ≤ MSI 分数 < 10)和不稳定(MSI 分数 ≥ 10)。
Para_02
  1. 我们使用 missingpy 包中的 MissForest,并采用默认参数,在将该队列与训练集合并为一个数据框后,对缺失值进行了填补。
  2. 在 33 个特征中,每位患者的平均缺失变量数为 0.57。
Cohort description for MSK non-ICI cohort

MSK非ICI队列的队列描述

Para_01
  1. 对于非免疫检查点抑制剂(ICI)的纪念斯隆-凯特琳癌症中心(MSK)队列,6,629名未接受ICI治疗的患者来源于之前的一项研究。
  2. 该队列的中位年龄为61.15岁(四分位距50.83–69.55岁),其中2,912名(43.93%)为男性。
  3. 最常见的癌症类型包括非小细胞肺癌(n = 1,160,占比17.50%)、结直肠癌(n = 1,124,占比16.96%)、乳腺癌(n = 820,占比12.37%)、胰腺癌(n = 753,占比11.36%)和肉瘤(n = 541,占比8.16%)。
Clinical features of MSK non-ICI cohort

MSK非ICI队列的临床特征

Para_01
  1. 对于非免疫检查点抑制剂(ICI)的纪念斯隆-凯特琳癌症中心(MSK)队列,收集了SCORPIO所需的四种数据类型:人口统计学数据(n=1)、临床数据(n=4)、CMP(n=11)和CBC(n=17)。
  2. 所有临床特征均在诊断时收集。
  3. 肿瘤也在诊断时根据美国癌症联合委员会第八版指南进行分期(原发性中枢神经系统恶性肿瘤除外,这些未进行分期)。
  4. 对于估算肾小球滤过率(eGFR),结果报告时不进行种族校正。
Para_02
  1. 我们在将该队列与训练集合并为单个数据框后,使用 missingpy 包中的 MissForest 以默认参数填补缺失值。
Cohort description for MSHS cohort

MSHS队列的队列描述

Para_01
  1. 此外,从MSHS收集了一个回顾性的真实世界队列,以测试我们的框架的预测能力是否可以推广到不同的医疗环境。
  2. 在MSHS队列中,我们确定了2011年至2019年期间接受至少一剂ICI治疗的1,230名患者。
  3. 我们排除了一名参与双盲试验的患者、26名因血液恶性肿瘤接受ICI治疗的患者、16名癌症类型少于10例的患者以及28名临床或实验室数据不足的患者。
  4. 结果,MSHS队列包括18种癌症类型的1,159名患者。
  5. 在1,159名患者中,中位年龄为66.84岁(四分位距58.92-74.38岁),其中691名(59.62%)为男性。
  6. 在总数中,有551名患者(47.54%)接受了ICI作为一线治疗。
  7. 最常见的癌症类型是肝胆癌(n = 304,26.23%)、非小细胞肺癌(n = 281,24.25%)、黑色素瘤(n = 128,11.04%)、头颈部癌(n = 94,8.11%)和膀胱癌(n = 66,5.69%)。
Clinical features of MSHS cohort

MSHS队列的临床特征

Para_01
  1. 对于 MSHS 队列,为 SCORPIO 收集了四种类型的数据模态:人口统计学数据(n = 1)、临床数据(n = 4)、CMP(n = 11)和 CBC(n = 17)。
  2. 所有临床特征均在首次 ICI 输注当日或前不超过 30 天内获取。
  3. 对于 eGFR,结果报告时不进行种族调整。
  4. 以下 1,159 名患者的记录被手动审核以验证临床数据:ECOG-PS、癌症类型、肿瘤分期、吸烟史、药物类型和全身治疗史。
  5. 根据美国癌症联合委员会第八版指南(原发性中枢神经系统恶性肿瘤除外,未进行分期),在 ICI 给药时对肿瘤进行分期。
  6. 在将该队列与训练集合并为单个数据框后,我们使用 missingpy 包中的 MissForest 和默认参数填补缺失值。
  7. 在 33 个特征中,每位患者平均缺失变量的数量为 1.94。
Outcomes in real-world cohorts

真实世界队列中的结果

Para_01
  1. 总生存期从第一次ICI输注计算至任何原因导致的死亡,审查时仍存活的患者在最后一次联系时被设为删失数据。
  2. 对于接受多次ICI治疗的患者,分析中使用了第一次治疗的开始日期。
  3. 在MSK-I队列中,所有患者的临床获益和总生存期数据均可用。
  4. 在MSK-II队列中,所有患者的总生存期数据均可用,但只有934名患者(44.39%)具有临床获益数据。
  5. 对于MSK非ICI和MSHS队列,仅提供总生存期数据。
  6. 主要临床结果是ICI的临床获益和ICI后的总生存期。
  7. 临床获益根据RECIST v1.1进行分类。
  8. 如果正式的RECIST评估不可用,则由医生调查员通过审查医生笔记和影像学研究,根据目标病灶直径总和的变化,使用相同标准对每位患者的总体最佳反应进行分类。
  9. 完全缓解(CR)、部分缓解(PR)和疾病稳定(SD)≥6个月被归类为临床获益,而SD<6个月和疾病进展(PD)则被归类为无临床获益。
  10. 将临床获益作为治疗效果结果的理由来自于癌症免疫治疗领域的系统评价,这些评价表明,SD≥6个月的患者与肿瘤反应分类为轻微PR的患者总生存期结果更相似,而SD<6个月的患者总生存期结果与经历PD的患者更相似。
Cohort description for clinical trial cohorts

临床试验队列的队列描述

Para_01
  1. 我们获得了10项第三阶段临床试验,用于进一步的外部测试:IMbrave150(n = 279),IMspire150(n = 256),IMmotion151(n = 445),IMvigor211(n = 447),IMpower133(n = 197),IMpower130(n = 467),IMpower131(n = 680),IMpower132(n = 288),IMpower150(n = 793)和OAK(n = 595)(扩展数据表2和3以及补充图3)。
  2. 在这10个队列中包含六种不同的癌症类型:肝细胞癌(IMbrave150)、BRAFV600E阳性黑色素瘤(IMspire150)、肾细胞癌(IMmotion151)、膀胱癌(IMvigor211)、小细胞肺癌(IMpower133)和非小细胞肺癌(IMpower130、IMpower131、IMpower132、IMpower150和OAK)。
  3. 患者特征见扩展数据表3。
Para_02
  1. 在八项临床试验中,除了使用阿特朱单抗(抗 PD-L1)外,还至少使用了一种额外的药物:1) 阿特朱单抗联合贝伐珠单抗用于 IMbrave150,2) 阿特朱单抗联合维莫非尼和考比替尼用于 IMspire150,3) 阿特朱单抗联合贝伐珠单抗用于 IMmotion151,4) 阿特朱单抗联合卡铂和依托泊苷用于 IMpower133,5) 阿特朱单抗联合卡铂和白蛋白结合型紫杉醇(nab-紫杉醇)用于 IMpower130,6) 阿特朱单抗联合卡铂和 nab-紫杉醇或紫杉醇(ACNP 或 ACP)用于 IMpower131,7) 阿特朱单抗联合培美曲塞和卡铂或顺铂用于 IMpower132,8) 阿特朱单抗联合卡铂和紫杉醇,加或不加贝伐珠单抗(ABCP 或 ACP)用于 IMpower150。
  2. 在两项临床试验中,仅使用了阿特朱单抗:IMvigor211 和 OAK。
  3. 所有分析均基于意向治疗原则进行。
  4. 因此,12 个实验组被纳入外部测试分析(扩展数据表 3)。
Clinical features of clinical trial cohorts

临床试验队列的临床特征

Para_01
  1. 所有基线实验室检查结果正常的患者均被纳入分析(罗氏共享的实验室检查文件中 LBBLFL 列标记为"Y"的结果)。
  2. 对于临床试验数据,我们在将每个队列与训练集合并成一个数据框后,使用 missingpy 包中的 MissForest 以默认参数填补缺失值。
  3. 在 SCORPIO 使用的 33 个特征中,估算的肾小球滤过率 (eGFR)、平均红细胞血红蛋白浓度和红细胞分布宽度在所有临床试验队列中均不可用。
  4. IMspire150 和 IMmotion151 中未提供吸烟史信息。
  5. 此外,IMspire150 中总蛋白信息也不可用。
  6. 每项临床试验中每位患者在 33 个特征中的平均缺失值数量如下:IMbrave150 为 3.50,IMspire150 为 5.30,IMmotion151 为 4.84,IMvigor211 为 3.48,IMpower133 为 3.54,IMpower130 为 3.45,IMpower131 为 3.31,IMpower132 为 3.44,IMpower150 为 3.28,OAK 为 3.35。
Para_02
  1. 在临床试验队列中,使用 SP142 或 SP263 克隆(Ventana Medical Systems)的 PD-L1 免疫染色结果是可用的。
  2. IMbrave150 和 IMpower133 中有 SP263 克隆的数据,其余临床试验则提供了 SP142 克隆的数据。
  3. IMbrave150、IMmotion151(仅提供免疫细胞的原始值)、IMpower133、IMpower130、IMpower131、IMpower132、IMpower150 和 OAK 的免疫细胞(IC)或肿瘤细胞(TC)的原始 PD-L1 免疫染色值是可用的。
  4. 对于 IMspire150 和 IMvigor211,无法获得免疫细胞和肿瘤细胞的原始 PD-L1 染色值,但可以获取基于 PD-L1 染色水平的分类组信息(IC0/1/2/3 和 TC0/1/2/3)。
  5. 为了根据 PD-L1 表达水平对患者进行分类,我们在包含非小细胞肺癌(NSCLC)的临床试验中应用了 FDA 批准的临界值(IMpower130、IMpower131、IMpower132、IMpower150 和 OAK;PD-L1 表达在 ≥ 50% 肿瘤细胞或 ≥ 10% 免疫细胞为高表达组(PD-L1-High),< 50% 肿瘤细胞且 < 10% 免疫细胞为低表达组(PD-L1-Low))以及膀胱癌(IMvigor211;PD-L1 表达在 ≥ 5% 免疫细胞为高表达组(PD-L1-High),< 5% 免疫细胞为低表达组(PD-L1-Low))。
  6. 在没有 FDA 批准临界值的癌症类型中,我们采用了原始出版物中的相同标准:IMbrave150(PD-L1 表达在 ≥ 1% 肿瘤细胞或 ≥ 1% 免疫细胞为高表达组(PD-L1-High),< 1% 肿瘤细胞且 < 1% 免疫细胞为低表达组(PD-L1-Low)),IMspire150(PD-L1 表达在 ≥ 1% 免疫细胞为高表达组(PD-L1-High),< 1% 免疫细胞为低表达组(PD-L1-Low)),IMmotion151(PD-L1 表达在 ≥ 1% 免疫细胞为高表达组(PD-L1-High),< 1% 免疫细胞为低表达组(PD-L1-Low))以及 IMpower133(PD-L1 表达在 ≥ 5% 肿瘤细胞或 ≥ 5% 免疫细胞为高表达组(PD-L1-High),≥ 1% 肿瘤细胞或 ≥ 1% 免疫细胞为中等表达组(PD-L1-Mid),< 1% 肿瘤细胞且 < 1% 免疫细胞为低表达组(PD-L1-Low))。
Outcomes in clinical trial cohorts

临床试验队列中的结果

Para_01
  1. 总生存期定义为从随机化到任何原因导致的死亡的时间。
  2. 在最后一次随访时仍存活的患者被视为删失数据。
  3. 对于临床获益,我们使用了研究者评估的最佳确认总体缓解率。
  4. 完全缓解(CR)、部分缓解(PR)和疾病稳定≥6个月被归类为临床获益,而疾病稳定<6个月和疾病进展(PD)被归类为无临床获益。
  5. 在临床试验方案中,未进行RECIST v1.1基线后影像学评估的患者(数据缺失、不可用或未评估)被归类为无应答者,因此在本分析中被归入无临床获益组。

Machine learning model construction

机器学习模型构建

Feature selection analysis

特征选择分析

Para_01
  1. 在 MSK-I 队列中,68.65% 的患者(n = 1,397)在接受免疫检查点抑制剂(ICI)治疗之前接受了系统疗法作为一线治疗。
  2. 由于用于系统疗法的药物可能会影响血细胞计数、代谢成分或体重指数(BMI)的测量,因此首先研究了系统疗法历史的影响。
  3. 使用训练集,我们首先测试了收集的数据是否存在偏向于化疗前(PreChemo)的偏差。
  4. 在 MSK-I 队列中,共有 47 个特征的缺失值低于患者总数的 30%,其中 7 个特征(年龄、性别、免疫治疗期间的化疗、病毒、药物类别、吸烟和分期)被排除在此分析之外,因为它们不受系统疗法历史的影响(补充表 1)。
  5. 因此,我们测试了 40 个特征(15 个 CMP 特征、23 个 CBC 特征和两个临床特征)与化疗前(PreChemo)之间的关联。
  6. 我们发现,在训练集中,有 75.00%(40 个中的 30 个)特征在化疗前(PreChemo)方面的值存在显著差异(补充图 22)。
  7. 因此,在选择与两个目标变量(总生存期和临床获益)相关的特征时,进行了调整化疗前(PreChemo)的多变量分析。
Para_02
  1. 在训练集上进行了特征选择分析。
  2. 我们使用了Cochran-Mantel-Haenszel检验来寻找特征与临床获益(临床获益和无临床获益)之间的关联。
  3. 在应用Cochran-Mantel-Haenszel检验之前,我们根据训练集中每个连续特征的中位数值作为截断点,将其二值化。
  4. 我们使用Cox比例风险回归模型来识别与总生存期相关的变量。
  5. 在Cox回归分析中,连续值被直接用于分析。
  6. 两种检验均调整了PreChemo作为一个混杂因素。
  7. 我们选择了具有显著错误发现率(FDR)校正P值(< 0.05)的特征,针对每种相应的结果进行筛选。
  8. FDR方法分别应用于Cochran-Mantel-Haenszel检验和Cox比例风险回归检验所得到的P值。
  9. 结果,我们确定了22个与临床获益显著相关的变量,以及33个与总生存期显著相关的变量。
Model construction

模型构建

Para_01
  1. 我们在构建 SCORPIO-CB 时采取的第一步是训练三个不同的分类器,包括一个经典分类器(岭逻辑回归 (RLR))和两个在 179 个分类器中表现最佳的机器学习分类器(支持向量机 (SVM) 和随机森林 (RF)),使用特征选择分析得出的 22 个变量(补充图 4b)。
  2. 我们使用 scikit-learn 包(版本 1.2.2)实现了这三个分类器。
  3. 目标结果即临床获益被编码为虚拟变量:无临床获益(SD <6 个月和 PD)编码为 0,临床获益(CR、PR 和 SD ≥6 个月)编码为 1。
  4. 在五折交叉验证的超参数调整中,我们对 SVM 和 RF 使用了 GridSearchCV 函数,而对 RLR 应用了 LogisticRegressionCV 函数。
  5. 每个算法的最佳超参数是根据各折中最高的平均 AUC 值选定的。
  6. 所有测试过的以及每个算法的最佳超参数均已提供(补充表 3)。
Para_02
  1. 对于 SCORPIO,一个经典生存模型(岭回归 Cox 回归 (RCOX)),以及两个分别对应于支持向量机 (SVM) 和随机森林 (RF) 的生存模型(快速生存支持向量机 (FSSVM) 和随机生存森林 (RSF))通过使用选定的 33 个变量进行五折交叉验证 (CV) 的超参数调优来训练(补充图 4a)。
  2. 我们为这三个生存模型使用了 scikit-survival 包(版本 v.0.20.0)。
  3. 目标结果总体生存被编码为两个字段:生存时间(以月为单位)和生存状态(审查为 0,死亡为 1)。
  4. 为了进行超参数调优,我们使用了一个执行五折交叉验证网格搜索分析的自定义脚本。
  5. 最佳超参数是根据各折中最高的平均 C 指数值选择的。
  6. C 指数通过 scikit-survival 包中的 concordance_index_censored 函数计算得出。
  7. 所有测试过的以及每种算法的最佳超参数均已提供(补充表 3)。

错误!!! - 待补充

Para_04
  1. 其中,µi 和 σi 分别表示训练集中某个特征(特征 i)的平均值和标准差。
  2. 对于测试集,使用了训练集的平均值和标准差。
Para_05
  1. 为了生成未加权的集成模型,我们对三种算法生成的风险评分进行了平均处理,这与之前的一项研究方法一致。
  2. 对于 SCORPIO,我们在对值进行平均之前首先应用了极小-极大归一化,因为三个生存模型产生的风险评分尺度不同:RCOX(在训练集中从 -1.14 到 2.05),FSSVM(在训练集中从 -2.83 到 -1.07)和 RSF(在训练集中从 103.06 到 1,628.80)。
  3. 第 j 个样本的缩放后风险评分(({{\rm{risk"}}_}{{\rm{score"}}}{j"}^{{\prime"} }\)是根据原始风险评分(({{{\rm{risk"}}_{\rm{score"}}}}{j"}\)按以下方式计算得出的:
Para_06
  1. 其中,mintrain 和 maxtrain 分别表示训练集中样本的最小风险分数和最大风险分数。
  2. 这种方法将每个生存模型的原始风险分数转换为训练集中 0 到 1 之间的值。

错误!!! - 待补充

Para_08
  1. 与 SCORPIO 不同,我们直接计算了 SCORPIO-CB 的三个分类器预测分数的平均值,因为这里使用的分类器生成的输出具有相同的预测概率尺度(从 0 到 1)。
Para_09
  1. 所有与模型构建相关的分析均使用 Python 3.8.8 进行。

Patient stratification and outcome comparison

患者分层与结果比较

Para_01
  1. 为了对临床结果进行预后分析,测试集中的患者被分为三个风险组。
  2. 根据训练集中观察到的风险评分的第一四分位数(0.24)和第三四分位数(0.47),患者按照风险评分被分层:高风险组(风险评分 ≥ 0.47)、中风险组(0.24 ≤ 风险评分 < 0.47)和低风险组(风险评分 < 0.24)。
  3. 无论数据来源和癌症类型,所有队列均使用相同的截断值。
  4. 补充图5提供了每个队列中风险评分的分布及每个风险组的患者数量。
  5. 为了比较不同风险组的临床获益率,进行了Fisher精确检验。
  6. 为了比较不同风险组的整体生存率,使用了Cox比例风险回归模型和对数秩检验。
  7. 双侧P值小于0.05被认为具有统计学意义。
  8. Kaplan-Meier曲线、对数秩检验P值和Cox比例风险比由survminer包(v.0.4.9)生成。
  9. 对于真实世界队列,我们分别分析了膀胱癌、肝胆癌、黑色素瘤、非小细胞肺癌、肾细胞癌和小细胞肺癌,因为这些癌症在我们的所有队列中均有收集。
  10. 其余的癌症类型在每个队列中被归类为‘其他’组,然后进行分析。
  11. 所有的统计检验均使用R编程语言版本4.1.1(https://www.r-project.org/)完成。

Comparing the prognostic performance of the machine learning models with TMB, and PD-L1

比较机器学习模型与TMB和PD-L1的预后性能

Para_01
  1. 在保留的测试集中,我们选择了 SCORPIO 和 SCORPIO-CB 中表现最好的模型,用于后续在 MSK-II、临床试验和 MSHS 队列中的分析。
  2. 为此,我们计算了 AUC 值以衡量临床获益分类的表现,并计算了 AUC(t) 值以衡量预测总生存期的表现。
  3. 我们使用 precrec 包绘制了接收者操作特征(ROC)曲线并计算了 AUC 值。
  4. AUC(t) 值是使用 timeROC 包计算的。
Para_02
  1. 在 MSKCC 队列中,也评估了 TMB 的预测能力以及两种机器学习模型的预测能力。
  2. 在临床试验队列中,当有来自 IC 或 TC 的原始免疫染色值时,我们也评估了 PD-L1 染色的预测能力。
Para_03
  1. 所有关于 AUC 和 AUC(t) 的分析均采用连续值进行。

Comparing the performance of SCORPIO and other machine learning models

比较 SCORPIO 与其他机器学习模型的性能

Para_01
  1. 我们将 SCORPIO 的性能与之前开发的用于预测 NSCLC 患者 ICI 疗效的机器学习模型进行了比较。
  2. Vanguri 等人的研究包含了 26 个模型,跨越九个数据类别:临床、放射学、病理学、基因组学、基于动态深度注意力的多实例学习模型带掩码(DyAM)单模态、DyAM 双模态、DyAM 多模态(自动)、DyAM 多模态(带有 PD-L1 肿瘤比例评分)和多模态平均值。
  3. 每个类别的最佳模型被选中进行分析。
  4. 为了与 SCORPIO 进行公平比较,我们使用了 Vanguri 等人研究中的 237 名患者中的 150 名的数据,确保所有九个模型的模型分数都可用。
  5. 我们从 Vanguri 等人发表的文章中"源数据扩展数据图 9"获取了模型分数。
  6. 我们根据 RECIST v1.1 标准重新评估了总生存期和临床获益,这与我们的研究一致。
  7. 三名同时患有其他癌症的患者被纳入指数肿瘤反应的分析,但未被纳入生存结果的分析。
Para_02
  1. 为了绘制 ROC 曲线和计算 AUC 值,我们使用了 precrec 包。
  2. AUC(t) 值是通过 timeROC 包计算得出的。
  3. 所有 AUC 和 AUC(t) 分析均基于连续值进行。

Model interpretability

模型可解释性

Global model explanation

全局模型解释

Para_01
  1. 在训练集中,我们应用了SHAP方法(版本0.44.1)来检查SCORPIO中每个特征的相对重要性大小及其影响方向(图4a)。
  2. 本研究中使用了两种不同的解释器函数:用于RCOX和RSF的Explainer函数,以及用于FSSVM的KernelExplainer函数。
  3. 为了展示集成模型中每个变量的相对重要性和影响方向,我们生成了跨越三种构成SCORPIO的算法(RCOX、FSSVM和RSF)的聚合SHAP值(补充图23a)。
  4. 由于上述三种生存模型具有不同的风险评分和SHAP值尺度,我们必须在生成聚合值之前对SHAP值进行归一化处理,以避免结果偏差。

错误!!! - 待补充 错误!!! - 待补充 错误!!! - 待补充

Local model explanation

本地模型解释

错误!!! - 待补充

Para_02
  1. 其中,minj 和 maxj 分别表示第 j 位患者中 33 个特征的最小 |SHAP| 值和最大 |SHAP| 值。

错误!!! - 待补充

Bulk RNA-seq analysis

批量 RNA 测序分析

Para_01
  1. 从福尔马林固定石蜡包埋的非小细胞肺癌肿瘤样本中分离出 RNA。
  2. 使用 Tempus xT RNA-seq 协议进行批量 RNA 测序,该协议包括使用 IDT xGen 探针捕获外显子组,覆盖超过 19,000 个基因,构建文库需要至少 50 纳克 RNA。
  3. 在 NovaSeq 6000 上以最少 3000 万次读取深度进行测序。
  4. 使用 Kallisto 对 Ensembl GRCh37(版本 75)进行伪比对,得出每百万转录本(TPM)值的转录本丰度。
  5. 通过汇总检测覆盖的 20,061 个基因中每个具有至少一个注释蛋白编码转录本的转录本水平 TPM 值,获得基因水平的 TPM 值;随后对这些值进行 log2(TPM + 1) 转换。
  6. 通过 limma(版本 3.54.2)对使用不同探针设计测序的样本进行了批次校正。

Data availability

Para_01
  1. 由于从常规护理过程中进行的临床检测中提取了大量数据特征,可能会影响研究参与者的隐私,因此本研究使用的现实世界数据集中的个人层面患者数据并未公开。
  2. 在与作者机构的伦理审查委员会要求的数据传输协议签署后,研究人员可向通讯作者(D.C. 和 L.G.T.M.)提出请求以获取这些数据。
  3. 所有关于临床试验队列的数据均可在 Vivli 平台上获取(https://vivli.org/)。
  4. 在 Vivli 上共享的匿名个体参与者数据仅能在安全的研究环境中访问。
  5. 希望访问这些数据的研究人员必须提交详细的研究计划以获得批准,审批机构可以是独立审查委员会或原始数据贡献者。
  6. 有关申请访问临床试验数据的全面指南和说明可以在 Vivli 网站上找到。
  7. 所有请求将在一个月内完成审核并得到回复。

Code availability

Para_01
  1. 运行 SCORPIO 所需的代码可在 Zenodo 上获取(https://doi.org/10.5281/zenodo.13646737)。
  2. 以 pickle 格式保存的模型文件,对于运行 SCORPIO 是必需的,将在研究结果复制请求得到批准并签署数据访问协议后提供。
  3. 代码请求应通过电子邮件发送给通信作者(D.C. 和 L.G.T.M.)。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Main
  • Results
    • Study cohorts
    • Characteristics of the patient data
    • Clinical features and outcomes
    • Development of the machine learning model
    • Model performance in the internal test datasets
    • Model interpretability
    • Model performance in the external test datasets
    • Model performance comparison across cohorts and tumor types
  • Discussion
  • Methods
    • Ethics approval
    • Cohorts description
      • Cohort description for MSK-I cohort
      • Clinical features for MSK-I cohort
      • Cohort description for MSK-II cohort
      • Clinical features of MSK-II cohort
      • Cohort description for MSK non-ICI cohort
      • Clinical features of MSK non-ICI cohort
      • Cohort description for MSHS cohort
      • Clinical features of MSHS cohort
      • Outcomes in real-world cohorts
      • Cohort description for clinical trial cohorts
      • Clinical features of clinical trial cohorts
      • Outcomes in clinical trial cohorts
    • Machine learning model construction
      • Feature selection analysis
      • Model construction
    • Patient stratification and outcome comparison
    • Comparing the prognostic performance of the machine learning models with TMB, and PD-L1
    • Comparing the performance of SCORPIO and other machine learning models
    • Model interpretability
      • Global model explanation
    • Local model explanation
    • Bulk RNA-seq analysis
  • Data availability
  • Code availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档