前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | WISER:弱监督和支持表示学习来改善癌症的药物反应预测

ICML 2024 | WISER:弱监督和支持表示学习来改善癌症的药物反应预测

作者头像
DrugAI
发布2024-07-05 13:00:48
1180
发布2024-07-05 13:00:48
举报
文章被收录于专栏:DrugAI

DRUGAI

今天为大家介绍的是来自Kumar Shubham团队的一篇论文。癌症是全球主要的死亡原因之一,由于基因组的变化在患者中表现出异质性。为了推进个性化治疗策略的研究,实验室中通常会实验确定各种药物对从癌症中提取的细胞(‘细胞系’)的效果。然而,由于生物和环境差异,细胞系和人类之间的基因组数据和药物反应分布存在差异。此外,尽管许多癌症患者的基因组资料容易获得,但相应的药物反应数据稀缺,这限制了训练能够有效预测患者药物反应的机器学习模型的能力。最近的癌症药物反应预测方法主要遵循无监督域不变表示学习的范式,然后进行下游的药物反应分类。由于患者对药物反应的异质性和药物反应数据的有限性,在两个阶段引入监督是具有挑战性的。本文通过在第一阶段引入一种新颖的表示学习方法和在第二阶段引入弱监督来应对这些挑战。对真实患者数据的实验结果表明,作者的方法(WISER)在预测个性化药物反应方面优于现有的最先进方法。作者的实现代码可以在https://github.com/kyrs/WISER上找到。

为了帮助治疗癌症,已经进行了大规模的全球努力,例如通过癌症基因组图谱(TCGA)数据库,记录癌症患者的高维基因组信息。然而,患者的药物反应数据由于患者数量有限,每个患者仅接受少量药物治疗而稀缺。这促使研究人员探索临床前数据集——例如,从患者癌症中提取的细胞系,这些细胞可以以一种方式克隆,使相同的基因组信息在它们之间复制。这些克隆可以暴露于不同的药物以获得多个药物在相同基因组信息上的药物反应数据。这些数据非常有用,无法直接从患者身上获得,因为不能对患者同时进行多种药物治疗。尽管此类细粒度的药物反应数据仅在有限数量的细胞系(约1000)和药物中可用,但它为基于基因组信息构建个性化药物反应模型提供了有价值的起点。

然而,先前的研究表明,由于多种原因,这种基于细胞系的反应模型无法准确预测患者的药物疗效。细胞系数据比患者癌细胞更为同质化,它们所处的环境也不同。这导致细胞系和患者之间基因组信息分布也存在差异,它们可以被视为不同的域。此外,在人体内,除了基因组结构外,其他几个因素(例如免疫系统)也在药物反应中起作用。因此,药物反应函数在细胞系和患者之间是不同的。

为了应对这些挑战,已经开发了几种基于域适应和迁移学习的药物反应模型,这些模型结合了细胞系和患者数据。这些方法通常包括两个阶段:(1)无监督表示学习阶段,在该阶段学习基因组数据的域不变表示,(2)分类阶段,在该阶段使用这些表示训练药物反应预测模型,通过分类药物对癌症生长的抑制影响将反应分为阳性或阴性。分类器使用标记数据进行训练,并用于预测患者的药物反应。

值得注意的是,尽管在两个领域中标记数据稀缺,但相对较多的未标记患者数据可用。虽然先前的研究利用未标记的患者数据来学习域不变表示,但由于患者的标记反应数据不足,药物反应预测分类器的训练主要依赖于细胞系数据。虽然可以使用弱监督技术为大量未标记数据生成伪标签,但简单地使用所有伪标签样本并不能提高性能。实际上,下游分类器由于伪标签引入的噪声和在弱监督设置下训练时所达到的泛化能力之间存在权衡。

模型部分

方法概述

图 1

如图1所示,作者描述了WISER的方法概述,其包含四个主要阶段。

阶段1:表示学习

在第一阶段,学习在患者和细胞系领域之间不变的表示。具体来说,为个别药物学习离散的潜在表示。所需的域不变表示(Z)是通过这些药物表示的加权组合生成的。

阶段2:弱监督

为了在下游药物反应预测模型的训练中纳入未标记的患者基因组样本,作者使用标记的细胞系数据和域不变表示(Z)训练多个分类器(标签函数)。然后使用这些标签函数来预测未标记的患者数据集的标签。所有标签函数的置信预测通过多数投票合并以分配伪标签。

阶段3:子集选择

在这个阶段,作者提出利用标签函数指示的具有置信预测的基因组样本子集。作者结合使用cut统计和域不变表示(Z)来选择噪声最小的样本子集。

阶段4:药物反应预测

作者将第3阶段子集选择后选择的患者基因组样本及其相关的伪标签与标记的细胞系基因组样本结合,用于训练下游药物反应预测分类器。该分类器可以用于推断新患者的药物反应。

表示学习

从细胞系和患者收集的基因组数据由于多种混杂因素表现出分布偏移,这可能导致使用细胞系数据训练的模型不能很好地泛化到患者。根据之前的工作,作者使用私有和共享编码器方案来解决这个问题,其中共享编码器(CS)捕获两个领域之间的不变表示,而私有编码器(CP)捕获领域特定信息。作者通过将基因组表示(Z)表示为药物嵌入(R)的加权组合,并使用三元组损失基于药物效力结果来学习这些权重来解决这个问题。

三元组损失最小化锚点与正标记样本之间的距离,同时最大化与负标记样本之间的距离。作者使用余弦距离并以药物表示作为锚点,目标是最小化该锚点与具有正效力的基因组表示之间的平均距离,并最大化其与具有负效力的基因组表示之间的距离。

弱监督

一旦学习到域不变表示,接下来就用它们来为患者的未标记基因组生成伪标签。为此任务,作者将标记的细胞系数据分为O个不同的子集,并使用它们的表示(Z)训练分类器(Mi)。每个分类器在弱监督框架中作为一个标签函数,用于推断患者基因组的药物反应预测概率。当预测的药物反应概率超过阈值t+时,模型分配标签ŷ = 1;当概率低于阈值t−时,分配标签ŷ = 0;对于所有预测置信度低的中间概率,模型不分配任何类别并将样本标记为-1。随后,使用至少有一个未放弃预测(值为0或1)的样本。给定患者基因组的最终伪标签通过对所有未放弃预测样本进行多数投票决定。

子集选择与药物反应预测

一旦为有效的患者基因组样本分配了伪标签,它们可以直接与标记的细胞系数据结合用于训练药物反应预测分类器。然而,最近的研究表明,在弱监督设置下,完整的未放弃样本集会产生次优性能,而考虑一个子集则会提高性能。

在作者的工作中,使用cut统计通过使用域不变表示(Z)和分配给它们的伪标签(yt)选择未放弃数据集(V)的一个子集。对每个数据样本分配一个标准化的Z分数(zi),对于每个患者数据找到最近邻。创建一个图(G = (V, E)),其节点数量等于未放弃患者基因组样本的数量(V),边(E)定义为每个样本的最近邻。对于图中的每条边分配一个权重(wi,j),使得表示相似的样本(Z)相比不相似的样本具有更高的权重。通常,一组具有相似表示(较高的wi,j)但共享不同伪标签的数据点(子图)被认为是噪声,应不用于下游训练。在给定假设下,每个样本被分配一个分数Ji,它是最近邻中共享不同类别标签的样本权重之和。进一步地,在独立分配类别标签的零假设下,使用均值(µi)和方差(σi)为Ji计算Z分数(zi)。较小的zi表示最近邻中的类别标签的一致性,是较少噪声伪标签的证明。未放弃的患者数据根据zi排序,并使用顶部的b%来得到患者子集数据,然后将其与标记的细胞系数据结合用于训练最终的药物反应预测分类器。

实验结果

表 1

表1显示了作者的方法与其他基准方法的性能比较。WISER在AUROC评分上对于Cisplatin、Temozolomide、Gemcitabine以及Sorafenib表现出更优异的性能,分别超过基准方法15.7%、0.9%、5.2%和8.8%。而在AUPRC评分上,分别在5-Fluorouracil、Temozolomide、Gemcitabine以及Cisplatin上提升了0.1%、2.4%、0.1%和10.6%。

表 2

作者接下来检查使用最佳超参数生成的伪标签和下游预测选择的子集的医学相关性,显著基因集及其对应的重叠在表2中突出显示。具有相关信息的药物在精度和召回率上进行了评估:Cisplatin、Temozolomide、Gemcitabine以及5-Fluorouracil的精度分别为0.860、0.609、0.499和0.419。同样,这些药物的召回率分别为0.503、0.500、0.464和0.459。这个得分与表1中的药物性能相关,其中较高的精度和召回率生成更好的AUROC和AUPRC,这表明作者的基因重要性解释是可信的。

图 2

如图2所示,作者通过直接使用标记细胞系样本的表示进行下游药物反应预测,进行了弱监督和子集选择效果的消融测试,将每种药物的最佳超参数配置的结果进行了比较。结果表明,弱监督和子集选择(WISER)平均提高了AUROC 4.58%和AUPRC 3.4%。

由于消融研究表明弱监督和子集选择的重要性,作者接下来检查子集抽取比例(b)对整体性能的影响。这个测试通过在保持其余参数最佳配置的同时改变b来进行。图2总结了实验结果。对于AUROC,子集选择设置在5-Fluorouracil(b=40%)、Cisplatin(b=20%)和Gemcitabine(b=20%)上生成了比完整未放弃数据集(b=100%)更好的结果。在这3种药物上分别看到了10.2%、2.4%和7.7%的改进。对于AUPRC,除了Temozolomide外,子集选择设置在所有药物上生成了更好的结果,其中Cisplatin、Gemcitabine、Sorafenib和5-Fluorouracil的比例b分别设为20%、10%、10%和80%。在这些药物上分别观察到0.8%、28.2%、1.8%和6.9%的改进。可以看出,与完整未放弃数据集相比,使用子集选择可以获得最佳性能。

结论

最近的癌症药物反应预测方法主要遵循无监督域不变表示学习的范式,然后进行下游药物反应分类。尽管监督训练可以提高性能,但由于患者对药物反应的异质性和标记患者数据的有限性,这种方法受到限制。作者的方法通过将基因组表示建模为离散药物表示的组合来解决这些挑战,反映了异质药物反应。作者还对未标记的患者基因组样本使用弱监督和子集选择,以提高分类器的泛化能力。WISER在多种临床上重要的抗癌药物的药物反应预测中表现出色。据作者所知,该方法是第一个在弱监督下使用域不变表示进行子集选择的方法,并且可以应用于具有大量未标记数据集的类似设置。然而,作者的方法性能受到可用标记数据集和用于离散表示学习的药物集合的限制。未来的工作可以通过其他远程监督来源(例如,通过知识图谱)进一步探索该方法的改进。

编译|于洲

审稿|曾全晨

参考资料

Shubham K, Jayagopal A, Danish S M, et al. WISER: Weak supervISion and supErvised Representation learning to improve drug response prediction in cancer[J]. arXiv preprint arXiv:2405.04078, 2024.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档