编译:蒋立坤 审稿:蒋长志
今天给大家介绍的是来自北京明略科学院(Mininglamp)吴信东团队于2021年12月16日发表在《 IEEE Transactions on Pattern Analysis and Machine Intelligence》期刊上的一篇文章“Multi-Attribute Discriminative Representation Learning for Prediction of Adverse Drug-Drug Interaction”。药物-药物间不良反应(ADDI)是医疗系统中住院和死亡的主要原因,本文提出了一种统一的多属性判别表示学习MADRL模型用于ADDI预测,MADRL使用生成对抗网络GAN来捕获ADDIs属性间的共享和属性内的特异性信息,并利用它们进行ADDI预测。通过与11种模型比较,在公开数据集上验证了MADRL算法的有效性。
1
引言
根据世界卫生组织的说法,药物不良反应被认为是临床用药期间个别药物或联合用药引起的不良或危险的影响,每年造成约3.6%的住院病例和10万例死亡。Drug-drug Interaction(ADDI)是一种药物的药理作用被另一种药物负向修饰的情况,它涉及大量的疾病和死亡,给患者带来巨大的医疗负担。一个典型的例子是Voriconazole(一种三唑类抗真菌药物,用于治疗侵袭性曲霉病和念珠菌感染)与地塞米松(一种合成的肾上腺皮质类固醇,具有强抗炎和抗感染作用)联合使用会导致严重的不良反应(如腹泻、胃肠出血、失明,等等)。
传统的ADDI预测方法,包括体外实验和临床实验,以确定潜在的ADDI,这需要付出巨大的人力物力成本。随着计算机技术的显著进步和生物信息数据库的积累,机器学习方法为ADDI预测提供了一种有前途的途径。从广义上讲,这些方法可分为两大类:
第一种,旨在从足够的临床信息,如电子病历、医学文献和FDA不良事件报告系统中探索ADDIs。常用的方法包括信号检测、实体提取和文本挖掘技术,这些方法在注释和提取临床证据中的ADDIs表现出良好的预测能力。
第二种,主要从异构数据库中,如Drugbank、KEGG、SIDER中挖掘药物的生化属性,如:分子结构、靶点和副作用,探索药物之间潜在的相互作用。这种方法主要依赖于药物的生化特性,而不是现有的临床证据。因此,这种方法的预测结果可作为ADDSs的临床前警告,从而提高治疗的用药安全。
2
Motivation
受益于第二种方法,研究人员采用相似度测度来计算药物之间的属性相似度,这些属性相似度被用作机器学习分类器的特征,用于预测ADDI。最初的研究人员通常采用一种药物属性来预测ADDI,未能取得可观的效果,因为ADDIs本质上是由药物之间的多属性相互作用引起的和将单一属性纳入学习模型不足以对药物间的不良相互作用进行建模。基于此,自然提出了多属性学习模型,以进一步捕捉其内在的抗性关系。Table1为伏立康唑与地塞米松的多属性信息。但是,这些方法只能适应其模型中给定的特定类型和数量的属性。从广义上讲,由于不同属性对ADDI预测的影响通常是不同的,这一局限性极大地限制了他们探究各自对ADDI预测的影响的能力。考虑到这一问题,我们的目标是开发一个统一的多属性学习模型,该模型兼容任何类型的输入属性,并能够探索它们各自对ADDI预测的影响。
然而,每个属性通常都与高维、高度稀疏的feature相关联,有些feature携带了不相关或冗余的信息,这不仅污染了关键feature,对预测性能带来了不利影响。因此,为了提高ADDI预测的性能,需要选择每个属性的判别特征。
从表示学习的角度看,用于ADDI建模的多属性信息具有两个固有属性:共享属性和特定属性。前者意味着每个属性包含一个属性间信息,由不同属性共享。后者则表示每个属性本质上都有鲜明的特征,在一定程度上可认为是自身独有的属性内信息。此外,特定的属性表示可以提供属性之间的互补信息,有助于ADDI模型捕捉底层知识。
基于以上观点,本文提出了一种用于ADDI预测的多属性判别表示学习(MADRL)模型。该模型对药物和鉴别特征进行选择,学习ADDIs的共享和特性性属性表示,捕获它们在ADDI预测中的一致性或互补性信息:
3
MADRL模型框架
对于N个药物:Let D = {d1, ..., dN} denote a set of N drugs. 对于其中的药物(di, dj),可能存在k种相互作用,每一种记作(0,1),得到vector rij {0, 1}K。假设有N种药物,M种属性,对于ADDI模型我们首先得到药物的属性矩阵:X = {Xm};该模型的首先在N个药物中选出n(n<N)个药物和m(m<M)个特征,通过特征重构(Hij)与生成对抗网络对共享信息和特异信息进行提取Hshared和Hspecific,最后进行ADDIs的预测。因此MADRL由两部分构成:a. 相关药物和鉴别特征选择(Hij得到之前的过程);b. 药物间共享和特异信息提取的表示学习过程。
3.1模型结构第一部分
joint representative drug and discriminative feature selection相关药物和鉴别特征选择,这部分对每一种属性(异构信息)进行操作,主要是规避异构信息的高纬、稀疏问题。
这个过程由CUR矩阵分解完成:
所以只需要优化optimizing:
CUR decomposition for Xm is to find a left matrix Cm ∈ RN×C¯m with C¯m columns identical to Xm, a right matrix Rm ∈ RN¯×Cm with N¯ rows consistent with Xm, and a middle matrix Um ∈ RC¯m×N¯ .对于药物属性矩阵Xm,得到right matrix Rm可以看做是药物的筛选,得到N¯个药物,C¯m 可以看做是得到的鉴别特征矩阵discriminative features,该矩阵完成了特征的筛选。
为了更好的表述,引入pm ∈ {0, 1} 和qm ∈ {0, 1} ,pm表示药物i是否被选择,qm表示j特征是否被选择,loss函数:
这一过程可以描述为图:
但是公式2是一个不能直接求解的非凸函数。现有的方法通常以启发式或随机化的方式作为CUR的求解器,这种方法对初始化很敏感,很容易陷入局部最优。作者引入了一种基于L2,0范数的松弛策略,将公式2转化为一个凸优化问题。
另:
公式2就变为:
这时Wm就是需要被求解的参数。应用拉格朗日算子,取|| Wm||2,1 和 ||Wm||2,0 作为最小凸包, 可以将公式 3转化为:
其中α、β是正则化参数,用于控制matrix Wm行列稀疏性,这时损失函数变为可求解凸函数。
同时为了使药物i,j的表示更平滑,引入Graph Manifold Regularization图流行正则化,也就是对于在原始特征空间中更接近的两个药物的表示更相似,所以得到公式5:
至此,完成了药物和鉴别特征的选择过程,也就是此过程的损失函数构建完成。接下来是特征重构的部分,矩阵Wm的最终优化解在行和列上都是稀疏的。这样,可以通过Wm得到第m个属性的代表性药物和它的判别特征,并根据所选择的药物和特征导出药物对的重构属性表示。在这里,我们首先采用sum-pooling运算得到药物和特征的选择索引。然后,设计一个损失目标函数来重建原始的特征空间Xm,从而得到药物和不良药物对的重构属性表示。具体来说,给定优化后的矩阵Wm,第m个属性的药物选择索引am和特征bm可计算为:
可以完成特征空间的缩减 Xm 到 X˜m = diag(am)Xmdiag(bm),特征重构的损失函数可以定义为:
其中Φm是系数矩阵,最终对于药物对 (di, dj) 可以表示为Hm ij = [Xˆm i· , Xˆm j· ]。
以上就是模型的第一部分,对于每一种属性(异构信息)通过CUR矩阵分解筛选药物和鉴别特征,通过特征重构得到药物对的表示。
3.2 模型第二部分
Shared and Specific Attribute Representation Learning for Multi-Attribute ADDI Prediction使用共享信息和特性信息完成多属性ADDI的预测
这部分作者使用生成对抗网络GAN,构造两个生成器,两个鉴别器,分别提取药物对直接的共享信息和特异性信息用于ADDI的预测。
4
数据集
从数据库DrugBank, KEGG, SIDER, CTD得到八种药物属性:
作者收集了N=567种药物,包含1,188,258 ADDI药物对,每一对药物间存在K=258种相互关系。对于每一种药物使用PubChem substructure进行分解,得到881维度的子结构向量作为药物特征。
5
结果
与11种模型进行了比较,分别是:
Table4显示了11种模型的比较结果。MADRL在多数指标的表现优于其它模型。主要是因为:第一,与只使用单一属性的预测方法(前五种模型)相比,MADRL不仅将分子结构、靶标、酶、通路、副作用等属性纳入到模型中,还采用了目前模型中很少使用的表现、基因、疾病等属性。第二,SMLS、MLMS、SFLLN、MSLM、KGNN和MGCN使用多属性信息的模型,没有区别对待每个属性特征,通常将属性的所有特征都纳入到学习模型中,这些特征通常是高纬、稀疏的,这样可能带来不相关或荣誉的信息,影响预测结果。另一方面,这些模型没有考虑到属性的自我表征。MADRL模型进行药物和鉴别特征选择的过程避免了特征的高纬与稀疏。第三,由于不同属性具有一致和特异的信息用于ADDI预测,采用GAN框架来捕获不同属性的一致性和互补效应,并引入一个集成策略将这两部分集成到ADDI建模中,可能使它的表现优于基线模型。
与11种基线模型相比的Accuracy、AUC、AUPR结果