前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[Nat. Mach. Intell] 用于通过细胞系化合物筛选对个性化临床药物反应鲁棒预测的上下文感知去混杂自编码器

[Nat. Mach. Intell] 用于通过细胞系化合物筛选对个性化临床药物反应鲁棒预测的上下文感知去混杂自编码器

作者头像
智能生信
发布2022-12-29 17:23:23
3940
发布2022-12-29 17:23:23
举报
文章被收录于专栏:智能生信

作者 | 庞超 编辑 | 赵晏浠

论文题目:

A context-aware deconfounding autoencoder for robust prediction of personalized clinical drug response from cell-line compound screening

今天给大家介绍的是纽约市立大学的Lei Xie等人发表在nature machine intelligence上的工作《A context-aware deconfounding autoencoder for robust prediction of personalized clinical drug response from cell-line compound screening》。准确和鲁棒的预测患者对一种新化合物的特异性反应对于个性化药物的发现和开发至关重要。然而,患者的数据往往过于稀缺,无法训练一个可泛化的机器学习模型。虽然目前已经开发了许多方法来利用细胞系筛选预测临床反应,但由于数据的异质性和分布转移,它们的性能并不可靠。在这里,作者开发了一种新的上下文感知去混杂自编码器(CODE-AE),它可以提取被上下文特异性模式和混杂因素掩盖的内在生物信号。对比研究表明,CODE-AE有效地缓解了模型泛化的分布外问题,并且相比只利用细胞系化合物筛选预测患者特殊临床药物反应的最先进方法显著提高了准确性和鲁棒性。利用CODE-AE,作者对9808名癌症患者筛选了59种药物。作者的结果与现有的临床观察结果一致,表明CODE-AE在开发个性化治疗和药物反应生物标志物方面的潜力。

一、研究背景

组学分析,特别是转录组学,是一种用来表征多种条件下的细胞活性的强大技术,可用来开发个性化化合物筛选机器学习模型。然而,这种预测模型的成功与否在很大程度上取决于能否获得足够数量的高质量带标签数据。而大量有药物治疗和反应史的一致患者数据往往很难收集。一个鲁棒的预测模型可以利用来自一组体外筛选化合物的生物活性数据来预测患者的临床反应,这无疑将填补体外活性和候选药物的临床结果之间的关键空白,从而促进药物发现和精准医学。然而,由于体外模型和人体之间的生物和环境差异,以及各种可能掩盖内在药物反应信号的混杂因素和环境特异模式,这仍是一项具有挑战性的任务。

利用机器学习通过体外筛选预测患者特异性临床药物反应的困难源于分布外(OOD)问题这个基本挑战。现有机器学习方法的基本假设是训练数据和未见过的测试数据的数据分布相同。当将从体外数据训练出来的机器学习模型应用于患者样本时,由于数据分布偏移,性能可能会明显下降。目前解决OOD问题的努力包括领域自适应和元学习。然而,由于组学数据的噪声和异质性,它们在这方面的应用可能是效果不佳。

目前的问题是如何消除两种数据模式之间的系统性偏差的同时还能从观察到的与特定于环境的信号纠缠在一起的基因表达中提取并对齐它们共同的药物反应生物标志物,这样就可以鲁棒地预测个体患者对一种从未在患者身上使用而只在体外化合物筛选中用过的新药的反应。为了解决这个问题,作者提出了一种上下文感知的去混杂自编码器(CODE-AE)。在CODE-AE中,作者设计了一个自监督(预)训练方案来构建一个特征编码模块,它可以轻松地调整以适应不同的下游任务。作者同时利用未标记的细胞系和患者样本来进行编码器的自监督(预)训练。CODE-AE有两个特点。首先,它既可以提取非相干样本共享的共同生物信号,也可以提取它们特有表示,从而分离出数据模式之间的混杂因子。第二,CODE-AE通过将药物反应信号与混杂因素分离来局部对齐药物反应信号。相比之下,最先进的领域自适应方法在全局对齐两个数据分布。当药物反应信号与其他混杂因素纠缠在一起时,全局对齐并不能保证药物反应信号可以很好地对齐。

二、模型与方法

CODE-AE的目标是消除生物和技术上的混淆,并从不同的数据领域提取常见的药物反应生物标志物(图1a)。在实践中,药物反应生物标志物不能直接获得,特别是对于未标记的靶域,必须从观察数据中推断出来,并在高维或嵌入空间中表示。与得到共同表达基因作为共同的生物标志物的COXEN不同,CODE-AE在非线性映射的低维嵌入空间中推断共同特征。此外,CODE-AE明确地将公共生物标志物从领域特异性特征中分离出来,并将公共生物标志物进行局部对齐,以缓解数据偏移问题,如图1b所示。

图1 CODE-AE的基本原理

在算法上,CODE-AE的训练遵循训练-微调过程。在预训练阶段,CODE-AE使用来自源域和目标域的未标记数据来对自动编码器进行预训练,以最小化数据重构误差。CODE-AE的架构如图2所示。与传统的自动编码器不同,CODE-AE有两个特点。首先,它学习细胞系数据(源域)和患者数据(目标域)之间的共享信号,以及细胞系和患者特有的私有信号。其基本原理是将数据集之间的共同生物信号从掩盖药物反应生物标志物的环境特异性模式中分离出来。第二,CODE-AE规范化了细胞系和患者数据的嵌入,使它们的分布相似。这样,从细胞系模型中学到的知识就可以转移到患者身上。作者测试了三种正则化方法:细胞系和患者嵌入的简单拼接(CODE-AE-BASE),最小化它们的最大平均误差(MMD)损失(CODE-AE-MMD)和最小化它们的对抗性损失(CODE-AE-ADV)。在无监督预训练后,训练一个监督药物反应模型,使用特定化合物的标记细胞系数据来微调对齐的公共嵌入。在推理阶段,根据预先训练的微调后的患者共同嵌入,从训练后的细胞系模型中预测患者对该化合物的特异性药物反应。总体上表现最好的CODE-AE变体是CODE-AE-ADV。作者只将CODE-AE-ADV与其他基线模型进行比较,并将其应用于以下部分中的实际预测任务。

图2 CODE-AE的基本原理

图3 模型的具体构成

作者通过实验证明了:

(1)CODE-AE减轻了基因表达图谱上的OOD问题。

(2)CODE-AE成功去除了生物变量方面的混杂。

(3)CODE-AE改善了对体外药物反应的预测。

(4)CODE-AE改善了临床药物反应预测。

另外,作者在癌症基因图谱上选择了9808名病人,针对59种药物进行临床药物反应预测。发现CODE-AE的预测与临床观察结果基本一致。证明CODE-AE-ADV可以在个性化医疗中应用。

三、总结

在本文中,作者引入了一种新的迁移学习框架CODE-AE,从一个基于细胞系数据训练的神经网络模型中预测单个患者的药物反应。广泛的基准对比研究表明,CODE-AE在准确性和鲁棒性方面都优于目前的最优水平。当CODE-AE在癌症基因图谱上用于预测患者的药物反应时,这些预测与现有的临床观察结果基本一致。虽然CODE-AE在这里只应用于精确肿瘤学,但它可以作为其他的两种数据模式具有共享和独特特征的迁移学习任务的通用框架。


参考文献

https://www.nature.com/articles/s42256-022-00541-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档