首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat.Commun.|基于深度生成神经网络进行精准的药物反应推算

Nat.Commun.|基于深度生成神经网络进行精准的药物反应推算

作者头像
DrugAI
修改2021-04-13 09:10:14
7690
修改2021-04-13 09:10:14
举报
文章被收录于专栏:DrugAIDrugAI

本文介绍来自得克萨斯大学(UT)休斯顿健康科学中心和MD安德森癌症中心的研究者在Nature发表的论文《Deep generative neural network for accurate drug response imputation》,其推出了一种可将数千个基因压缩成低维空间隐向量的深度变分自编码(VAE)模型,其研究成果使得在更精细的尺度上探索肿瘤样本的药物反应成为可能。

1

背景

对癌症基因组学数据及其治疗可能性之间的关联的系统研究可以极大地帮助理论肿瘤生物学的转化。CCLE、GDSC、LINCS和TCGA这些癌症数据库项目通常无法获得药物基因组学信息,导致了癌症基因组学研究与泛癌层面治疗反应之间的巨大鸿沟,于是各种预测模型被开发用来推断肿瘤基因组图谱(TCGA)的药物反应。目前因为诸如特定肿瘤基因靶向治疗仅限于少数突变、肿瘤异质性导致患者药物反应差异很大以及从细胞系测得的药物反应数据比较嘈杂等因素,对药物反应的计算机模拟预测仍具有挑战性。

本研究中,作者开发了一种基于深度再生模型的药物反应预测的深度学习方法。通过VAE利用其基线表达谱生成了1000多个细胞系的代表模型,并基于表达谱的隐向量训练了药物反应的预测模型。作者将模型应用于如TCGA泛癌样本等,揭示了33种肿瘤类型中与药物反应相关的分子特征,已经超出了使用经典细胞系模型获得的信息。

2

成果

作者首先使用基线基因表达数据构建了VAE模型(图1A,包括输入层,编码器和隐藏层,解码器和输出层),在低维潜在空间(由隐向量组成)对样本进行压缩表示,然后利用隐向量(作为暴露变量)和训练好的回归模型基于CCLE和GDSC的数据进行药物反应预测(图1B),将得到的药物反应分解为表达调节成分(EReX)及其他成分(图1D,理论上一种药物通过不同方法得到的EReX都相同)。

图1工作流程示意图。(A)VAE模型。(B)药物反应回归模型训练流程。(C)使用其转录组图谱显示起源的细胞系的分布。(D)药物反应的分解。(E)使用CCLE测量和推算药物反应的细胞系和癌症类型的说明。

2.1 VAEN预测模型

VAE可以实现输入数据的压缩表示,但不能很好的进行药物反应预测,其生成的压缩表示并不唯一且药物作用效果也不同,于是作者生成100个VAE模型,对于每种药物都应用了一种Elastic Net(EN)策略,即使用每个VAE得到的隐向量来训练VAEN预测模型,最终在100个VAE中选择平均测定系数(R2)值最高的那个。

作者测试了几种不同策略在VAE部分的效果(图2),最终选择了基于秩的变换和sigmoid激活函数。作者使用最终的VAEN模型在24种CCLE化合物和251种GDSC化合物进行自我预测,结果如图2A。接着使用CCLE和GDSC测得的14种药物来评估预测结果,使用CCLE ActArea来表示药物反应,如图 2B所示,观察到的和预期的药物反应之间存在正相关,模型可以应用于各种数据集,实现了对EReX的高性能估计。

图2 评估模型效率。(A)药物样本的Pearson相关系数分布。(B)在CCLE和GDSC panels上评估14种共享药物。(C)使用TCGA对14种共享药物进行评估。(D)使用化合物17-AAG演示药物反应。(E)使用CCLE和GDSC评估TCGA中预测的药物反应。

作者还对比了未使用VAE压缩的gene + EN模型表现出过拟合,PCA + EN模型对大多数药物的表现逊色于VAEN模型。

2.2 CCLE细胞系和TCGA癌症样本中的药物反应预测

作者将VAEN模型应用于所有CCLE细胞系(n = 1100)和TCGA样本(33种癌症类型,n = 10,459),预测了24种CCLE化合物和251种GDSC化合物各自对每个样品的药物反应(图1E),结果如图3A所示,预测的药物反应与原始数据相似。如图3C所示,观察到每个肿瘤类型都有敏感和不敏感组的富集模式。

图3 (A)CCLE的药物反应分布。(B)以PLX4720为例定义每种药物的敏感和不敏感样品。(C)使用CCLE药物对30种癌症类型中的每种敏感或不敏感样品的富集测试结果。(D)使用CCLE样本。(E)使用GDSC样本。

2.3 TCGA中化合物与其靶点的复制关联

作者使用注释良好的靶点药物进一步证实了预测的药物反应的高质量。如图4所示,总体而言,在大多数癌症类型中,具有突变型EGFR/KRAS/HRAS/NRAS/BRAF的样品往往对相应的激酶抑制剂具有更高的敏感性,尽管某些关联并未达到显著水平。

图4 使用TCGA数据进行验证。

2.4 其他验证

此外,作者还收集了之前报道的药物基因签名以进一步验证推算的药物反应(图4G),还收集了6个带有治疗和生存注释的数据集验证VAEN模型。对于24个CCLE化合物,作者利用CCLE中的3组药物反应(ActArea)和TCGA样品中预测的药物反应做了分层聚类。为了确定与推算的药物反应相关的基因组特征,作者使用TCGA中的多个omics数据进行了关联分析。

癌症患者的药物反应比细胞系复杂得多,作者探索了与肿瘤微环境相关的药物反应谱,还探索了18种以前报道过的具有T细胞炎症预测能力的基因(TIS基因),有几种药物与TIS基因表现出强正相关(irinotecan、nilotinib、PHA665752、PLX4720和RAF265),而其他药物(如AZD6244和PD-0325901)与TIS基因没有关联,结果表明具有高水平的T细胞炎症的样本可能对PLX4720和RAF265更敏感。此外,肿瘤异质性也是影响药物反应的因素之一,结果显示癌症样本中的药物反应比细胞系模型复杂得多,许多混杂因素可能影响反应。

3

总结

作者提出的方法有很多优点,精准预测可以解决癌症样品中药物反应谱的新特征遗漏问题,作者根据化合物的反应谱分析聚类,发现了独特的基团和特征,对TCGA数据的研究发现了药物与TMB之间的关联,探索了以泛癌方式来识别基因组特征。作者通过严格的验证证明了实验结果的鲁棒性和准确性,还发现几种药物与肿瘤炎症评分的增加呈正相关。作者的方法还有诸如克服了过拟合、识别性能佳且泛化能力强等技术优势。

但是该方法仍存在着一些局限,对于某些药物(如LBW242),无论如何拟合模型都无法提高预测精度。对于其他一些药物(如17-AAG 和Paclitaxel),基于VAE的模型在模型拟合参数方面无法与PCA模型媲美。某些药物尽管在细胞系模型中观察到了很高的预测准确性,但在肿瘤样品中的反应却是异质的。对于如erlotinib等药物,只观察到EGFR和erlotinib之间有轻微的显著关联,无法找出潜在的混杂因素。

参考资料

Jia, P., Hu, R., Pei, G. et al. Deep generative neural network for accurate drug response imputation. Nat Commun 12, 1740 (2021).

https://doi.org/10.1038/s41467-021-21997-5

数据

https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-021-21997-5/MediaObjects/41467_2021_21997_MOESM3_ESM.zip

代码

https://github.com/bsml320/VAEN/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档