作者 | 滕赛赛 编辑 | 李仲深
今天给大家介绍迪肯大学Thin Nguyen教授等人发表在Bioinformatics上的一篇文章 “GraphDTA: predicting drug–target binding affinity with graph neural networks” 。药物再利用可以避免昂贵和漫长的药物开发过程,估计新药物-靶标对相互作用强度的计算模型可加快药物的再利用,然而,以往的模型均是将药物表示为字符串,但这不是分子表示的合理方式,所以作者提出了一种新的GraphDTA模型,将药物表示为图,并使用图神经网络预测药物与靶点的亲和力。结果表明,图神经网络不仅比非深度学习模型更能预测药物靶点的亲和性,而且比其他深度学习方法更有效。
一、研究背景
为了有效地重新利用药物,了解哪些蛋白质被哪些药物靶向是很有必要的。高通量筛选实验可用于检测药物对靶标的亲和力,然而,这些实验是昂贵的和耗时的,而且彻底的搜索是不可行的,因为有数百万类药物化合物和数百个潜在目标。因此,基于以往的药物-靶标实验,建立计算模型来估计新的药物-靶标对的相互作用强度是很有必要的。
深度学习模型是DTA预测中表现最好的模型之一。然而,这些模型以字符串的形式表示药物,这不是代表分子的合理方式。当使用字符串时,分子的结构信息丢失,这可能损害模型的预测能力和学习的潜在空间的功能相关性。在这篇文章中,作者提出了GraphDTA,一种新的神经网络结构,将药物描述符和序列同时作为输入,直接将药物建模为分子图,实验表明这种方法在两个药物-靶标亲和预测基准上优于现有的深度学习模型。
二、模型与方法
2.1 概述GraphDTA
作者提出的GraphDTA模型,将DTA预测问题表述为一个回归任务。输入是一个药物-靶标对,输出是对该对结合亲和力的连续测量,并且用分子图表示药物,使模型可以直接捕获原子间的键。
2.2 药物表示
作者把药物化合物看作是原子间相互作用的图表,并以此建立模型。为了描述图中的节点,作者使用了DeepChem改编的一组原子特征,每个节点是一个多维二进制特征向量,表示5条信息:原子符号、相邻原子数、相邻氢原子数、原子隐值、原子是否处于芳香结构。通过将SMILES代码转换为相应的分子图,并使用开源化学信息学软件RDKit提取原子特征。
2.3 蛋白质表示
作者使用独热编码的蛋白质表示法,对实验数据集中的每个目标,从UniProt数据库中获得一个蛋白质序列。该序列是一串表示氨基酸的ASCII字符,每种氨基酸类型都用一个基于其相关字母符号的整数进行编码:丙氨酸为1,胱氨酸为3,天冬氨酸为4,以此类推,使蛋白质可以表示为一个整数序列。
为了便于训练,将序列裁剪或填充成1000个残差的固定长度序列。如果序列较短,则用零值填充。这些整数序列被用作嵌入层的输入,这些嵌入层返回一个128维的向量表示。接下来,使用三个一维卷积层从输入中学习不同级别的抽象特征。最后,利用最大池化层得到输入蛋白序列的表示向量。
2.4 分子图上的深度学习
图1 GraphDTA体系结构
GraphDTA模型以一个药物-靶标对作为输入数据,以其亲和度作为输出数据。它的工作分为三个阶段。首先,将药物的SMILES编码转换为分子图,通过深度学习算法学习一种图表示;同时,对蛋白质序列进行编码和嵌入,利用多个一维卷积层学习序列表示;最后,将这两个表示向量进行连接,并通过几个全连接层来估计输出的药物-靶标亲和值。
对于这些药物,作者使用分子图和四种图神经网络变体方法进行预测。
变体1:基于GCN的图表示学习
变体2:基于GAT的图表示学习
变体3:图同构网络(GIN)
变体4:GAT-GCN组合图神经网络
2.5 基准
为了将模型与最先进的DeepDTA和WideDTA模型进行比较,使用了相同数据集。
Davis:包含72种药物和442个靶点的结合亲合度,以kd常数测量,范围从5.0到10.8。
Kiba:包含2116种药物和229个靶点的结合亲和度,以KIBA评分衡量,范围从0.0到17.2。
为了使对比尽可能公平,作者使用同一组训练、测试示例以及相同的性能指标:均方误差和一致性指数。
2.6 模型的解释
深度神经网络各层内节点的激活被称为潜在变量,可以通过直接分析来理解模型的性能如何与领域知识相关。从图神经网络层得到128个潜在变量,并直接通过冗余分析进行分析。这种多变量统计方法允许测量潜在变量中可以由外部数据源解释总方差的百分比。除此之外,作者还比较了潜在变量的主成分值与药物测试集的误差,药物误差指的是包含该药物的所有测试集的预测差值和实际差值之间的绝对误差的中位数。
三、实验结果
3.1 图形化模型优于最先进的技术
表1比较了4种不同的GraphDTA模型与Davis数据集现有基线模型的性能。4种变体方法的MSE均最低,最佳变体方法的MSE为0.229,比最佳基线的0.261低14.0%。对于CI指标,改进不那么明显,4个变体中只有2个具有最高的CI。
表1 根据MSE排序的Davis数据集的预测性能
表2比较了GraphDTA模型与Kiba数据集现有基线模型的性能。在这里,4个变体方法中有3个MSE最低且CI最高。最佳的MSE是0.139,比最佳基线0.179低28.8%。在所有被测试的变体方法中,GIN是唯一一个对两个数据集和两个性能度量都有最佳性能的变量。
表2 根据MSE排序的Kiba数据集的预测性能
3.2 图形化模型可以发现已知的药物特性
图神经网络的工作原理是将每种药物的分子图提取为一个新的潜在变量特征向量。在本次实验的模型中,有128个潜在变量共同表征了药物的结构特性。由于潜在变量是在DTA预测任务中学习的,假设它们代表了对DTA有意义的图形特征,作者便采用已知的分子描述符通过矩阵回归学习的潜在空间来寻找重叠。
图2显示了用38个分子描述符回归的128个潜在变量的冗余分析。20.19%的潜在空间是由已知的描述符解释的,其中“脂肪族OH基团的数量”对解释的方差贡献最大。有两个潜在变量与这一描述密切相关:当脂肪族OH基团的数量很大时,隐藏节点V58和V14都倾向于具有高活化。
图2 潜在变量的冗余分析三联图
图2的左边显示了潜在变量的冗余分析三联图,蓝点代表药物,绿点代表潜在变量,箭头代表分子描述符;右边显示了两种潜在变量的激活情况,与该药物中脂肪族OH基团的数量相对应。这些结果表明,图卷积神经网络可以在没有任何先验知识的情况下抽象已知的分子描述符。
3.3 药物不成比例造成错误
图3和图4显示了亲和性预测的绝对误差的中位数,从最小到最大排序。可以发现少数药物不成比例导致了总体错误。比如CHEMBL1779202、CHEMBL1765740和CSNK1E的MAE均在2以上。作者检查预测误差的潜在空间,但没有发现任何明显的模式可以区分难以预测的药物和容易预测的药物,能发现的唯一趋势是,易于预测的药物更有可能出现在潜在空间的PCA异常值。
图3 Davis和Kiba测试集上药物绝对误差的中位数
图 4 Davis和Kiba测试集上蛋白质绝对误差的中位数
3.4 模型解释与研究周期
了解一个模型如何工作以及何时失效可以对研究周期产生反馈。在模型的事后统计分析中,发现图神经网络可以在没有任何先验知识的情况下学习分子描述符的重要性。然而,大多数学习到的潜在变量仍然无法用可用的描述符来解释。
测试集误差的分布表明存在“问题药物”,对它们的预测是特别困难的。可以通过为这些药物收集更多的训练数据,或者利用领域知识来设计补充分子图的特征来实现这一观点。事实上,知道PCA异常值是最容易预测的,这意味着可能需要一些额外的特征输入来区分不同的药物。
四、结论
作者用四种不同的图神经网络(GCN、GAT、GIN和组合GAT-GCN体系结构)来测试GraphDTA的药物亲和力预测任务,在Davis和Kiba数据集上对这些模型的性能进行基准测试。GraphDTA在两个独立的基准数据集上的关键性能表现良好,并且可以在没有任何先验知识的情况下学习分子描述符的重要性。虽然本次研究的重点是药物-靶标亲和预测,但GraphDTA模型是针对数据输入可以用图表表示的类似问题的通用解决方案。
代码
https://github.com/thinng/GraphDTA
参考文献
https://academic.oup.com/bioinformatics/article/37/8/1140/5942970