前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力

Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力

作者头像
智药邦
发布2022-11-16 16:28:18
3460
发布2022-11-16 16:28:18
举报
文章被收录于专栏:智药邦智药邦

2022年7月14日,韩国全北国立大学电子与信息工程系的Kil To Chong研究团队和美国得克萨斯大学达拉斯分校生物科学系的Zhenyu Xuan研究团队在期刊International Journal of Molecular Sciences上合作发表一篇论文《CSatDTA: Prediction of Drug–Target Binding Affinity Using Convolution Model with Self-Attention》。本论文仅使用药物的SMILES和蛋白质的序列信息、借助注意力机制增强的卷积网络来预测药物-靶标亲和力,得到了较好的效果。作者还提供了一个Web服务器供研究者使用。

1 摘要

在药物开发的早期阶段,预测药物-靶标的亲和力 (Drug-Target Affinity, DTA) 是至关重要的。本文所提出的模型,即带自注意力机制的卷积模型 (a Convolution model with Self-attention) 预测药物-靶标亲和力 (CSatDTA),将基于卷积的自注意力机制应用于分子药物和靶标序列,以有效地预测药物-靶标亲和力(DTA),而不像以前的卷积方法那样,在这方面表现出明显的局限。卷积神经网络(CNN)只对某一特定区域的信息起作用,不包括全面的细节。另一方面,自注意力机制是一种相对较新的捕捉远程相互作用的技术,主要用于序列建模任务。

对比实验的结果表明,CSatDTA超过了以前基于序列或其他的方法。

2 材料与方法

2.1 材料

本文利用了公开的KiBA和Davis两个数据集,用于评估模型,数据的统计情况如表1所示。

表1 数据集的详情

2.2 药物和靶标的表示

作者用SMILES字符串序列表示药物,并将每个字符通过一个标签表示方法编码为唯一的整数,一共包括64个整数。SMILES序列长度限制为100个字符。

作者将蛋白用one-hot编码表示,并将蛋白序列长度通过截断或者补齐限制为1000个氨基酸残基。

作者还分别统计了两个数据集中药物和蛋白的序列长度,如图1所示。

图1 KiBA和Davis数据集的分析:(a)KiBA数据集中SMILES长度的分布,(b)KiBA数据集中蛋白序列长度的分布,(c)Davis数据集中SMILES长度的分布,(d)Davis数据集中蛋白序列长度的分布。

2.3 模型:CSatDTA

图2 本文所提模型CSatDTA的框架

仅基于CNN的模型不能捕获原子间远程交互的信息,本文利用自注意力技术来克服这个问题,具体的模型框架如图2所示。具体细节如下所述。

注意力机制

作者首先通过多头注意力机制来学习特征。对于输入特征维度为

,将第一、二维展平为

,得到单头注意力:

将单头注意力输出拼起来,再做线性变换:

为了与之前的维度相对应,作者亦将此维度重新调整为

注意力机制特征和卷积特征结合

作者将两者学到的表示拼接起来,成为注意力增强的卷积,即

之后,作者将学到的药物和蛋白表示,对应拼接起来,通过MLP,即可得到对应的预测值。

3 结果

3.1 超参数设置

表2总结了实验中所用的超参数。

表2 CSatDTA模型的参数

3.2 模型的比较

表3和表4分别展示了对比模型与CSatDTA在KiBA和Davis数据集上的表现。作者采用了三个指标来综合评价模型的表现,分别是均方差(Mean-Squared Error, MSE)、均方根差(Root-Mean-Squared Error, RMSE)和一致性指标(Concordance Index, CI)。可以看到,本文所提出的模型CSatDTA在两个数据集上均取得了较好的表现。

表3 模型在KiBA数据集上的预测表现

表4 模型在Davis数据集上的预测表现

作者还将CSatDTA模型对KiBA和Davis数据集上的预测值和真实值进行了可视化,分别展示在了图3和图4中。

图3 Davis数据集上的CSatDTA模型预测值与实际的结合亲和力值

图4 KiBA数据集上的CSatDTA模型预测值与实际的结合亲和力值

3.3 Web服务器

作者建立了web服务器实现CSatDTA模型,供研究者使用,截图如图5所示。该工具接受药物的SMILES和靶标的蛋白质序列作为输入,以计算亲和度得分,网址是:http://nsclbio.jbnu.ac.kr/tools/CSatDTA/。

图5 结合亲和力预测的Web服务器示例

4 讨论

本研究中,作者用自注意力机制增强的卷积网络建立回归模型。本文提出了一种新的2D相对自注意力回归技术,其允许使用序列数据训练具有竞争力的自注意力亲和力预测模型。作者证明了这种自注意力机制优于其他的注意力机制方案,并将其作为卷积算子的补充。此外,广泛的验证表明,注意力的增强系统性地改进了以前的卷积神经网络方法。

结果显示,具有注意力机制的深度学习方法明显优于基线方法或以前的方法。该研究通过提出一个独特的基于深度学习的模型,可以预测药物与靶标的亲和力,该模型仅简单地采用了蛋白质和药物的字符串表示,而做出了重大贡献。对于药物和靶标,作者取得了与基线方法相当或更好的结果,基线方法依赖于各种技术和策略来从原始序列数据中提取特性。本文的实验预测了已知药物和靶标之间新的相互作用。未来的研究将专注于为新药物预测现有的靶标。此外,作者打算将这一方法扩展到预测已知药物的新靶标的应用中去。

参考资料

Ghimire A, Tayara H, Xuan Z, Chong KT. CSatDTA: Prediction of Drug-Target Binding Affinity Using Convolution Model with Self-Attention. Int J Mol Sci. 2022 Jul 30;23(15):8453. doi: 10.3390/ijms23158453.

--------- End ---------

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-08-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档