本文是麻省理工的Wengong Jin团队于2021年9月15日发表在美国科学院院报 (PNAS) 的一项研究工作。

摘要
人类对新型冠状病毒治疗的需要迫在眉睫。然而,研究发现具有抑制SARS-CoV-2病毒活性的单一疗法一直是一个挑战。联合疗法在抗病毒治疗中发挥着重要作用,因为它们提高了疗效,降低了毒性。最近已经有人应用深度学习来识别针对某一疾病的具有大量数据集的协同药物组合,但这些方法不适用于仅有有限数据的新疾病,例如COVID-19。
鉴于药物协同作用通常通过抑制离散的生物靶点来实现,我们提出了一种能够学习药物-靶点相互作用和药物-药物协同作用的神经网络结构。该模型由两部分组成:药物−靶点互作模块和靶点−疾病关联模块。这种设计使模型能够利用药物−靶点相互作用数据和单药抗病毒数据,以及少量的药物−药物组合数据集。通过加入额外的生物信息,我们的模型在协同预测准确性方面比以前的训练数据有限的方法表现得更好。
我们通过实证验证了我们的模型预测结果,并发现了两种药物组合,瑞德西韦和利血平,以及瑞德西韦和IQ-1S,它们在体外表现出强大的抗SARS-CoV-2病毒协同作用。我们在新冠治疗上的协同预测方法可以很容易地推广到其他药物组合数据缺乏的领域中。
1 简介
联合疗法已经在治疗多种疾病中展示出比单药疗法更强的效力,比如艾滋病和肺结核治疗。协同组合可以提高治疗效力和疗效,或者获得更强的治疗效果和/或减少所需剂量,从而减少副作用。为了解决COVID-19传染病和未来的流行病,通过发现已批准药物的组合可以开发全新的疗法,这有助于减少临床应用的时间。已批准的药物易于大规模获得,且毒性特征已被充分研究。总的来说,对COVID-19传染病的研究结果表明,新的药物协同作用能够有效治疗COVID-19。
但是利用高通量筛选去探索多种的药物协同作用是不现实的,因为此探索空间实在太大。因此,利用不同的计算方法去进行虚拟筛选是很有吸引力的,现在已有很多研究利用深度学习的方法去预测药物的协同作用。不幸的是,有两个主要挑战阻碍了人们应用深度学习来预测新出现的病原体 (如SARS-CoV-2) 的药物治疗组合。第一,深度学习需要大量且已有标注的训练数据。对于癌症而言,已经有大于两万种药物组合的数据集;但是已有的新冠治疗药物组合的数据量很少,少于两百个。第二,即使是大型的癌症治疗药物组合数据库,也只是包含了大约一百种不同的药物分子,这大大限制了模型推广到训练集之外的新药物空间的能力。因此,我们认为为了能准确预测药物协同作用,模型应能够考虑包括分子结构之内的其他化学信息。
本文提出了一个叫做ComboNet的深度学习框架,其能够对药物分子和蛋白靶标的结构进行建模,达到准确预测药物协同作用的效果。我们认为,只要能够对药靶互作进行准确建模,我们就能有效地减少对协同组合数据的依赖。和之前使用药靶互作作为固定特征的方法不同的是,ComboNet通过学习分子结构进行药靶预测。
ComboNet结构包括两个部分。第一部分是图卷积神经网络GCN,其能够学习分子的连续表征。这种表征既包含了药物分子的结构特征,也包含了预测靶标的结构特征 (能够与目标分子产生相互作用的蛋白靶标)。具体来说,在我们的训练数据集的蛋白靶标包括SARS-CoV-2 3CL的蛋白酶,血管紧张素转换酶 (ACE2) 和31种与病毒蛋白发生相互作用的宿主靶标。此GCN通过学习ChEMBL和NCATS的数据,去预测最有可能的靶标。但是,这31个宿主靶标只是SARS-CoV-2涉及的332个靶标的子集。没有考虑其他靶标的原因是它们缺乏药靶互作的数据。ComboNet的第二部分对靶标-疾病关系进行建模。它是一个线性函数,学习蛋白靶标和分子结构特征如何与抗病毒活性和协同作用相关。简而言之,ComboNet通过模拟药物和蛋白靶标的结构特征来预测药物组合协同作用。
在此,我们在71种药物组合的测试集上评估了ComboNet,并在体外测定了抗SARS-CoV-2的药物协同作用。在使用大约两百种药物组合数据进行训练之后,我们的模型实现了0.82的ROC-AUC,且使特异性达到0.75,敏感性达到0.80。我们还将ComboNet应用于现有的虚拟药物再利用平台,并对30种药物组合进行了实验测试。从这组30种试验组合中,我们发现两种药物组合 (瑞德西韦和利血平;瑞德西韦和IQ-1S) 在体外具有很强的抗新冠协同作用。总的来说,ComboNet能够利用少量训练数据去预测新的药物-药物相互作用。
2 方法及结果
图1展示了ComboNet的整体结构,其包括药靶互作网络和靶标-疾病关系网络。这些网络经过训练之后需要完成三个任务:1、预测一种药物和K个疾病相关靶点的相互作用;2、预测药物的抗病毒活性;3、预测两种药物的协同作用。后两个实验依靠预测的蛋白靶标和输入分子的结构特征。

图1. ComboNet模型整体框架
2.1 药靶互作预测
药靶互作网络通过训练,能够预测一款药物能否与指定的蛋白靶标结合。药靶互作的训练数据由ChEMBL获得,包括K个与SARS-CoV-2相关的蛋白靶标。每一个药靶互作数据集包含一个分子的集合以及它们的二进制药靶互作标签 (阳性或阴性)。阳性的标签表明药物对某一靶点的亲和力 (例如半最大有效浓度EC_50) 低于阈值。就SARS-CoV-2蛋白靶标而言,我们会考虑病毒蛋白的酶和涉及感染的宿主蛋白。SARS-CoV-2病毒的复制需要处理一种Chymotrypsin-like蛋白酶 (3CLpro)。已有研究表明,SARS-CoV-2病毒进入宿主细胞需要依赖ACE2和TMPRSS2蛋白。
我们将药靶互作网络参数化为有向信息传递神经网络 (DMPNN)。每一个化合物都被表示成具有节点 (原子) 和边 (化学键) 的图结构。DMPNN通过应用一系列信息传递从临近原子进行信息聚合,以获得连续的分子表征向量。我们将分子表征分成两部分:z^covid和z^struct。前者表明此药物分子和不同蛋白靶标结合的概率;后者表示从药物分子中学习到的结构特征,每一个元素都会经过Sigmoid激活函数使得值域落在[0,1]。
当靶标信息不完整的时候,我们使用结构信息去增强模型的表现。实际上,在没有结构信息的输入之后,我们的确观察到模型性能的下降。实验结果如图2B的紫色部分所示:

图2. ComboNet数据集分配及模型效果
2.2 单药活性预测
我们训练ComboNet去预测单药的抗病毒活性。单药训练集是大量具有抗病毒活性标签 (阳性/阴性) 的分子。上文介绍的药靶互作网络能够从分子结构中提取出有用的特征,可用作抗病毒活性的预测。靶标−疾病关系网络f学习如何将生物靶点和学到的分子结构特征与抗病毒活性联系起来。其使用有Sigmoid激活函数的线性层进行预测:

其中,z_A为药物A的分子表征。模型使用抗SARS-CoV-2单药数据训练,有大约8800个化合物,其中有320个化合物表现出较强的抑制性。
2.3 协同作用预测
在上文的基础上,我们训练整个ComboNet模型去预测药物-药物协同作用。此任务的训练集是成对药物组合及其能否协同作用的标签。和上文介绍的模型不同,此时模型的输入变成了两个分子。给定一个药物组合 (A,B),药靶互作网络输出一个连续的表征向量z_AB,此即为两个分子表征的结合。组合的表征向量表明了两种药物如何通过各自的生物靶标产生相互作用。然后这个组合表征会被输入到靶标-疾病关系网络去预测他们的协同作用,用Bliss分数来表示。
如图1B所示,我们采用Bliss分数去预测药物组合的协同作用。假设单药抗病毒活性分别为p_A,p_B,则两药结合后的效力被定义为e_AB = p_A + p_B – p_A*p_B。假如p_AB > e_AB,则认为药物组合是具有协同作用的。因此我们将协同分数定义为:

其中,药物组合的抗病毒活性p_AB由神经网络预测:

其中,药物组合的分子表征z_AB由如下公式计算:

2.4 训练目标函数
ComboNet的损失函数为:

其中的λ均为超参数,用以调整各部分损失;l_DTI, l_S, l_C分别为药靶互作、单药和药物组合的损失。这个加权了的损失允许模型进行端到端的梯度下降。
2.5 模型评估
我们在预测抗SARS-CoV-2的药物协同作用方面评估模型的表现。训练集、测试集和验证集的分配如图2A所示。我们的训练集包含88个NCATS的抗SARS-CoV-2药物组合,以及药靶互作和单药抗新冠、HIV活性的数据。值得说明的是,测试集里63.4%的药物组合至少包含一个训练集中没有的新药。
2.6 协同作用预测准确度
协同作用预测的结果如图2B所示。我们计算了每一个基准模型平均五次的ROC-AUC曲线。ComboNet在测试集上的ROC-AUC为0.773±0.064,明显高于基准模型 (随机森林、支持向量机、深度神经网络和有向边信息传递神经网络)。在基准模型中,AttentiveFP表现得最好,能达到0.621±0.050的ROC-AUC。
我们将五个训练好的ComboNet作为一个集成模型,以此来提升总体的性能。在图2C中可以看到,集成模型达到了0.821的ROC-AUC,高于单个模型的表现。此外,我们还采用“compounds out”策略去评估模型对未见过的组合的预测。具体来说,我们从测试集中选择45种组合,其中至少有一种新药没有出现在训练集中。此45对组合的分子和训练集的相似度都很低,因此对这些组合进行预测都很考验模型的泛化能力。惊人的是,集成模型能够达到0.815的ROC-AUC (如图2D),可见其泛化性能是非常不错的。
2.7 对预测的药物组合进行筛选
我们应用集成的ComboNet去预测NCATS数据库的新药组合协同效果。我们考虑了153种相对有效的单药的相互组合,共有约11600个组合。我们预测所得组合的协同分数,并选择分数最高的30个组合进行SARS-CoV-2 CPE实验,这种实验能够测定病毒在Vero E6宿主细胞中诱发的CPE的量。在此实验中,病毒感染和复制导致宿主细胞活力丧失。具有抗病毒活性的化合物可以保护细胞免受病毒侵害,从而维持细胞的活力。
这些组合的协同作用由Delta Bliss Sum Negative score (DBSumNeg) 测定。令人兴奋的是,从这些经过测试的30种组合中,我们确定了具有很强协同作用 (DBSumNeg≤-5) 的两种药物组合:瑞德西韦和利血平、瑞德西韦和IQ-1S (如图3A)。此外,我们还验证了这两种药物组合的细胞毒性较低 (如图3B)。它们的剂量-疗效和Bliss协同矩阵绘制于图3C和图3D。由ComboNet得到的30个组合的DBSumNeg分数在图3E中展示。如图3F所示,在训练/测试集和实验验证的组合中探索的化学空间非常相似。

图3. 实验验证结果
3 讨论
在此研究中,我们提出了ComboNet用以预测抗新冠病毒的药物组合。ComboNet含有两个模块:药靶互作网络和靶标-疾病关系网络。该模型架构旨在利用额外的药靶互作数据和单药抗病毒活性数据。尽管我们的协同训练集只包含88种药物组合,但ComboNet的测试ROC-AUC能达到0.82,而最好的基准方法仅能达到0.6的ROC-AUC。然后,我们使用ComboNet对11600种候选药物组合进行了虚拟筛选,对其中30种预测进行了实证测试,并在体外识别和验证了两种协同作用明显的药物组合。
最近,深度学习方法在药物发现方面取得了成功。一种常见的方法是训练一个深度神经网络,对虚拟的化学库进行筛选,并在实验室中测试分数最高的化合物。为了进行准确的预测,这些模型需要大量的训练数据去预测生物活性。不幸的是,对于像SARS-CoV-2这样的新兴病原体,这些数据通常很缺乏。因此,利用这些病原体的额外生物学知识来补充有限的特定任务数据至关重要。
ComboNet是受到最近的GCN在分子预测上取得成功而启发的。但是这些模型大多只基于化学结构来学习分子表征,并不明确地对生物相互作用进行建模。另一方面,虽然传统的化学信息学工具为属性预测建立了药靶互作模型,但这些方法中的大多数并没有利用GCN来提取化学结构。而ComboNet将这两种方法的优点融合到一个统一的深度学习架构中,故表现突出。
通过GCN学习到的化合物结构特征可用来缓解生物信息的不完整性。一个未来方向是使这些结构特征在生物学上可解释。例如,通过使分子部分失活,我们可以推测此部分和生物靶标的对应关系。这可能使我们能够自动识别与特定疾病相关的新靶点。
参考资料
Jin W, Stokes J M, Eastman R T, et al. Deep learning identifies synergistic drug combinations for treating COVID-19[J]. Proceedings of the National Academy of Sciences, 2021, 118(39).
--------- End ---------