前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | DRUML:利用机器学习预测抗癌药物疗效

Nat. Commun. | DRUML:利用机器学习预测抗癌药物疗效

作者头像
DrugAI
修改2021-04-13 09:11:01
7680
修改2021-04-13 09:11:01
举报
文章被收录于专栏:DrugAIDrugAI

今天给大家介绍的是来自英国知名的Barts癌症研究所的工作人员近日发表在nature communications的文章,文章提出DRUML(Drug Ranking Using ML)方法,DRUML使用omics数据,根据药物抗肿瘤细胞增殖疗效对超过400种药物进行排序。并且通过将归一化的药物反应距离度量(D值)作为模型生成特征措施来减少噪声、增强鲁棒性。DRUML模型进行了独立数据集验证和临床测试,结果表明DRUML可以准确地根据抗癌药物在多种病理中的疗效对其进行排名。

1

背景

机器学习(ML)在生物医学上的应用有望在未来彻底改变癌症的诊断和治疗方式,已有不少项目利用ML,通过将基因组特征、基因表达模式和拷贝数改变与药物敏感性相关联,来预测药物反应。有传闻表明,蛋白质组学衍生的特征可能比基因组学的替代品能够更准确地预测药物反应。但是,由于大多数蛋白质组学方法涉及在化学或代谢标记后比较蛋白质,限制了可以直接比较和作为ML模型生成输入的样本数量,以及标记方法以比率来测量蛋白质或磷酸化位点,而不是提供丰度的绝对值,模型可能难以验证并在临床实现的问题,ML仍没有在大规模的蛋白质组学和磷蛋白组学数据上进行系统的应用。而如今,LC-MS/MS吞吐量的提高和无标签串联分析,以及最近大量细胞系和药物的系统性药物反应谱的可用性,使用蛋白质组学和磷蛋白组学数据作为药物反应预测模型的输入的方法变得可行。

基于这种情况,作者开发了一种用于建立和整合ML模型的方法——DRUML。DRUML利用蛋白质组学和磷蛋白组学特征的组合,根据药物在降低癌细胞增殖方面的疗效生成药物的排名列表。它不用与参考样本进行比较,就能够在癌细胞群体中预测药物排名。

2

结果

DRUML由一组ML模型组成,通过细胞对400多种药物的反应进行训练,根据样本中的预测疗效对这些药物进行排名(图1.a)。

2.1 数据集 & 降维操作

作者使用LC-MS/MS分析48个AML(n = 26),食管(n = 10)和肝细胞(n = 12)癌细胞系,将获得的磷蛋白组学和蛋白质组学数据集作为DRUML的输入(图1.b)。为确保生成的模型能够在不受肿瘤类型影响的情况下探究敏感性的生物学机制,作者为实体瘤和AML肿瘤样本分别建立了单独的DRUML模型。

为了减少数据噪声对模型性能的影响,作者通过药物反应的经验标记(EMDRs)来降低omics数据集的维度。将训练集分成针对每种特定药物耐药组和敏感组,采用十倍交叉验证的方法,比较两组的蛋白质、磷酸化位点和转录物,将始终在敏感细胞被发现增加的标记物(敏感性标记物)和减少的标记物(抗性标记物)存储为EMDRs(图1.c)。EMDRs组合而成一个距离度量(称为D值),它本质是敏感标记相对于抗性标记分布的度量(详细定义见图1.a)。

D值成为DRUML重要特征的原因:

  1. 在验证或预测其他数据集情况,使用平均标记值可以规避预测因子缺失的问题。即使输入的omics数据有缺失值,也可以计算出D值。
  2. D是通过从给定样本内的两组磷酸盐、蛋白质或转录物中减去平均信号得到的内部归一化度量。因此,应用DRUML来预测新的癌症衍生样本中的药物反应时,不需要与对照或参考样本集进行比较

图1 DRUML概述

图2 使用EMDRs降低维度

2.2 对BYL-719反应的ML模型

作者使用从BYL-719中获得的给定药物的最高相关D值,生成药物反应的预测ML模型。由于事先并不知道哪些学习方法更适合从数据集中预测药物反应,作者首先评估了基于多种算法(如rf、bglm、pls、svm、dl、nnet等)的多样化ML方法的性能。使用训练集中的样本,通过十倍交叉验证,使用根平均标准误差(RMSE)度量作为损失函数,训练生成标准化药物应答数据(ACC)的回归模型。然后对DL/ML模型进行验证集评估,使用绝对误差或标准误差(SE)和RMSE比较预测与实际响应。图2.d、e显示,DL和NNET使用来自磷蛋白组学数据的D值产生的模型在所有细胞系中的验证误差较小。

2.3 DRUML模型对药物反应进行排序

作者将EMDRs系统地应用于466种AML和实体癌细胞系中的药物,分别鉴定了1232和1139个磷酸化位点、542和480个蛋白质以及3046和3699个AML和实体模型反应的转录物标记。作者将AML和实体瘤中获得的磷蛋白组学、蛋白质组学和RNA-seq距离D数据作为输入,系统地构建了466种药物的预测模型。总共构建了16,760个学习模型(图4.a)。从磷蛋白组学和蛋白质组学数据集创建了大约相同数量的模型。

图3 模型训练、验证流程

根据分析,DL算法对RMSE < 0.1的实体和AML肿瘤类型的蛋白质组学和磷酸化蛋白质组学数据产生的验证误差更小(图4.b)。接着,作者测试了ML模型是否允许根据药物的预期疗效在细胞系内对药物进行排序。图4.c显示了用于DL算法验证的AML细胞中药物的排名。观察到不同作用模式的药物在细胞模型内的预测和实际反应之间具有非常高的相关性。表明DRUML可以根据药物的预测疗效,对肿瘤内不同作用模式的药物进行精确排序。

图4 DRUML基于疗效对药物进行排序的性能和准确性

2.4 独立数据集验证

为了测试药物反应的预测模型的普适性,使用独立实验室收集的数据来验证DRUML,测试用作者的训练数据集生成的模型是否能够预测公开可用的无标签蛋白质组学和其他组生成的磷酸化蛋白质组学数据集的药物反应。作者选择了来自PRIDE,Piersma等人的8个结直肠癌细胞系的无标签磷酸化蛋白组数据作为输入来预测药物反应。除此之外,还预测了来自不同实体肿瘤类型的47个细胞系的药物反应。使用的蛋白质组学数据[pride id: PXD013455]是Jarnuczak等人从11个独立的研究中收集到的。数据表明,DRUML可以使用常规LC-MS/MS从不同实验室获得的蛋白质组学数据,准确预测不同作用模式的药物在不同病理来源的癌细胞中的疗效并对其进行排序。

3

总结

DRUML是一组针对412种不同作用方式和发展阶段药物地预测模型,证明了大规模蛋白质组学和磷酸化蛋白质组学数据可以作为DL/ML的输入,也评估了这种方法的适用性。DRUML也存在局限性,它可以预测反应的药物仅限于当前药物反应库中的药物。DRUML是利用从癌细胞系获得的数据开发出来的,而在永生化细胞系中,原发性肿瘤对药物的反应机制是否被保留下来是有争议的。尽管如此,临床测试中观察到阿糖胞苷DRUML模型可以预测用这种药物治疗的AML患者的OS,这表明,至少在某些情况下,DRUML模型可以预测临床药物反应。而独立数据集对DRUML的评估数据证明,当DRUML根据不同癌症类型的预测疗效对不同作用方式的药物进行排序时,误差较小。最后,作者表示,DRUML可以通过补充从临床病理参数和突变分析获得的信息来帮助药物的优先排序。

参考资料

Gerdes, H., Casado, P., Dokal, A. et al. Drug ranking using machine learning systematically predicts the efficacy of anti-cancer drugs. Nat Commun 12, 1850 (2021).

https://doi.org/10.1038/s41467-021-22170-8

代码

https://github.com/CutillasLab/DRUMLR

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档