前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Bioinformatics | TransformerCPI模型

Bioinformatics | TransformerCPI模型

作者头像
DrugAI
修改2021-02-01 12:25:10
8710
修改2021-02-01 12:25:10
举报
文章被收录于专栏:DrugAI

今天给大家带来的文章是2020年5月份发表在《Bioinformatics》上的文章《TransformerCPI: Improving compound–protein interaction prediction by sequence-based deep learning with selfattention mechanism and label reversal experiments》,这篇文章是中国科学院上海药物研究所所长蒋华良院士团队的研究成果。

1

介绍

识别化合物蛋白相互作用(CPI)是药物发现和化学基因组学研究中的一项关键任务,但三维(3D)结构缺失的蛋白质占潜在生物靶点的很大一部分,这就需要研究仅利用蛋白质序列信息预测CPI的方法。然而,基于序列的CPI模型可能会面临一些特定的陷阱,包括使用不恰当的数据集、隐藏的配体偏差以及不恰当地分割数据集,从而导致高估了模型的预测性能。为了解决这些问题,本文作者构建了专门用于CPI预测的新数据集,提出了一种新型的transformer神经网络称为TransformerCPI,并引入了更严格的标签反转实验来测试模型是否学习了真实的相互作用特征并对预测结果进行了可视化操作及分析。

2

方法

蛋白质的处理

首先利用n-gram方法将输入的氨基酸序列进行划分得到单词,在本文中用到的是n=3的有重叠的划分。然后利用预训练好的word2vec模型将单词转为实值嵌入。word2vec是一种无监督的模型,包括两种预训练的方法,称为Skip-Gram和Continue Bag-of-Words (CBOW)。Skip-Gram用于根据上下文预测某个单词,而CBOW则用于根据给定单词预测上下文。结合Skip-Gram和CBOW, word2vec最终可以将单词映射到低维的实值向量,其中语义相似的单词映射出来的向量也彼此靠近。在对word2vec模型进行预训练的工作上,本文作者将UniProt中所有的人类蛋白序列作为语料库去训练word2vec模型,得到一个100维的实值嵌入表示向量。

化合物的处理

首先使用RDKit将化合物中每个原子的特征转换为长度为34的向量表示,然后使用GCN(图卷积网络)通过集成相邻原子的特征来学习每个原子的表示。GCN最初是为了解决半监督节点分类问题而设计的,在这里可以用来解决分子表示问题。GCN计算公式如下所示:

TansformerCPI模型

通过上述方法获得蛋白质序列表示和原子表示后,也就成功地将蛋白质和化合物转化为符合transformer架构输入的形式了。在TransformerCPI中,蛋白质序列是编码器的输入,而原子序列是解码器的输入,解码器的输出是包含有与原子序列相同长度的相互作用特征向量。考虑到原子特征向量的顺序对CPI建模没有影响,因此在TansformerCPI模型中删除了原本存在于Transformer模型中的位置嵌入。

编码器的部分,由于传统的Transformer结构通常需要大量语料库进行训练,并且在规模较小的数据集上很容易出现过拟合,因此TransfermorCPI使用一维卷积的门控卷积网络Conv1D和门控线性单元(GLU)代替了传统Transformer编码器中的self-attention层,这样的改变使得TransformerCPI显示出更好的性能。

TransformerCPI的解码器由self-attention层和feed farword层组成,这点和传统的Transformer模型一致。TransformerCPI通过解码器学习相互作用特征,解码器的关键技术是multi-headed self-attention(多头自注意力),用于提取编码器和解码器之间的交互信息。self-attention层的计算公式如下所示:

值得注意的是,原Transformer模型用于解决序列预测的任务,并利用掩码操作遮挡解码器中单词的下游上下文,这一点不利于解决CPI问题,因此,论文作者对解码器的掩码操作进行了修改,以确保TransformerCPI对整个序列是可访问的,这是将Transformer模型从自回归任务转换为分类任务的最关键的修改之一。

解码器的输出是包含有与化合物序列相同长度的相互作用特征的相互作用序列

,然后通过公式计算权重:

再通过加权求和得到预测的相互作用向量:

最后将相互作用向量输入到一系列的全连接层和非线性激活函数得到预测值,以此判断化合物-蛋白质之间是否会发生相互作用。作为一种传统的二分类任务,使用二元交叉熵损失来训练TransformerCPI模型。

3

数据集

除了CPI问题经常会用到的Human,C.elegans,BindingDB三个数据集之外,本论文还构建了两个“标签反转数据集”。这里重点说一下“标签反转数据集”的构建方法。

以往的许多研究都是通过随机交叉组合CPI对或使用基于相似性的方法产生负样本,这可能会引入意想不到的噪声和未察觉的偏差。因此,“标签反转数据集”的构建遵循两个规则:(1)从实验验证的数据库中收集CPI数据(2)每个配体应同时存在于正负样本中。

首先,作者从GLASS数据库中构建了一个GPCR数据集。GLASS数据库中提供了大量经过实验验证的GPCR-ligand关联,满足第一条规则。随后作者先按照一定标准将原始数据集分为正负样本,在此基础上再选择符合第二个规则的蛋白-复合物对来构建最终的GPCR数据集。最后得到的GPCR数据集包括5359个配体、356个蛋白质构建的15343对CPI。同样的,在遵循上述两个规则的基础上,作者还基于KIBA数据集构建了一个Kinase数据集,共产生1644个化合物、229个蛋白质构成的111237对CPI。

标签反转实验具体而言是这样的,在训练集中的配体只出现在一个类的样本(正样本或负样本)中,而在测试集中该配体只能出现在相反的一类中。通过这种方式,迫使模型利用蛋白质信息理解相互作用模式并通过学习(在测试集中)做出相反的预测。作者认为,如果一个模型只学习到配体的特征,它不太可能在测试集中做出正确的预测,因为对于训练集中的配体而言,它在测试集中的标签是相反的。因此,这个标签反转实验是专门设计用来评估基于化学基因组学的CPI模型并反映隐藏的配体偏置在模型训练过程中产生了多大的影响。

4

对比实验及结果

在Human数据集上的实验对比:

在C.elegans数据集上的实验对比:

在BindingDB数据集上的实验对比:

在标签反转数据集上的实验对比:

在反转实验中作者选择了AUC和PRC作为评价指标。公平起见,每个对比模型都进行了微调以达到较佳效果。通过实验结果可以看到,所有模型在验证集上都取得了相似的性能,但在测试集上,这些模型之间存在较大的性能差距。在GPCR数据集上,TransformerCPI在AUC和PRC方面都优于CPI-GNN、GraphDTA和GCN,表现出更强的捕获化合物和蛋白质之间相互作用特征的能力。在Kinase数据集上,TransformerCPI的表现也很好,其他对比模型的AUC均小于0.5。根据这些实验结果,作者认为在所有参考模型中,GPCR和Kinase数据集的配体偏置可能带来不可忽视的影响。GraphDTA和GCN在GPCR数据集上表现良好,接近于TransformerCPI,但在Kinase数据集上表现较差。而TransformerCPI在这两个数据集上表现最好,显示了其鲁棒性和泛化能力。以往CPI模型的通常做法是,分别独立提取配体和蛋白质的特征,然后将这两个特征向量拼接起来作为输入特征。为了验证Transformer编码器-解码器结构的作用,作者接下来评估了TransformerCPI-ablation模型,该模型利用传统的拼接向量替代了Transformer的解码器。通过结果可以看出,TransformerCPI-ablation模型显著降低了TransformerCPI的性能,这说明self-attention机制和编码器-解码器架构在提取相互作用特征中确实起到了关键作用。

在比较GPCR数据集和Kinase数据集的结果时,同样值得注意的是TransformerCPI、GraphDTA和GCN在GPCR上的表现要比Kinase好得多,作者认为,产生这种差异的原因可能有以下两个:一是GPCR和Kinase的数据分布不同,导致两个数据集之间存在性能差距。二是GPCR的序列特征更容易被TransformerCPI学习。

预测结果可视化及分析

将注意力权重映射到化合物原子上,揭示了TransformerCPI学习到的知识,模型在面对不同的化合物蛋白质对时,会关注不同的原子,然后学习如何正确地将化合物蛋白质对分为相互作用和非相互作用两类。

为了进一步验证原子注意力权重的意义,实验团队选择了复方吩噻嗪来解释TransformerCPI。吩噻嗪是一种以多巴胺受体(DA)为靶点的经典抗精神病药物,其构效关系(SAR)已被深入研究。如图所示,通过注意力权重突出的吩噻嗪的原子与吩噻嗪的SAR一致,证实了TransformerCPI能够捕捉到真实的相互作用特征,并找出与蛋白质相互作用的关键原子。

在解释了原子的注意机制之后,实验团队还研究了蛋白质序列的注意力权重,以确定蛋白质序列的哪些部分成为注意焦点。通过注意力权重TransformerCPI可以大致推测配体与GPCR家族的结合位点是在胞外区域还是在跨膜区域,并检测激酶家族的ATP结合口袋。作者以组胺H1受体、5-HT1B受体和丝裂原活化蛋白激酶8 (MAPK8)及其相应的活性物质为例,蛋白质中具有从TransformerCPI中提取的高注意力权重的区域用紫色标出。这些结果表明TransformerCPI可以推测新的化合物是结合到GPCR靶标的胞外区域还是在跨膜区域,这在药物设计中是有用的,特别是当GPCR靶标的三维结构未知时。同时,作者也注意到,高亮显示的区域可能会包含更广泛的区域,并不对应于准确的结合位点残基。为了解决这一问题,作者认为需要加入更多具有精确标注的高质量数据,新的基于序列的深度表示学习也可能有助于更好地对结构信息进行编码和解码。

5

总结

在这项工作中,作者修改了传统的transformer架构使其更适合处理基于序列的CPI分类任务,该模型在三个基准数据集上表现出了高性能,并设计了更严格的标签反转实验作为基于化学基因组的CPI建模的新测量方法。与其他模型相比,TransformerCPI在新测量实验中显著提高了性能,表明它可以学习到期望的相互作用特征,降低隐藏配体偏差的风险。最后,通过将注意力权重映射到蛋白质序列和化合物原子,作者还研究了模型的可解释性,这可以帮助确定预测是否可靠。作者在文章中有一段话说的很好,“实验设计在深度学习中起着重要的作用,应该更多地关注于评估深度学习模型真正学习到了什么。因此,在未来深度学习的发展中,不仅需要新的深度学习方法,还需要新的验证策略和实验设计。“

参考资料

Chen, L., Tan, X., Wang, D., Zhong, F., Liu, X., Yang, T., … Zheng, M. (2020). TransformerCPI: Improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments. Bioinformatics.

https://doi.org/10.1093/bioinformatics/btaa524

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档