前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. Biol. | 基于深度学习的可成药结合位点的时空识别

Nat. Commun. Biol. | 基于深度学习的可成药结合位点的时空识别

作者头像
DrugAI
修改2021-02-02 11:19:59
1K0
修改2021-02-02 11:19:59
举报
文章被收录于专栏:DrugAI

今天给大家带来的是斯科尔科沃科学技术研究院lgor Kozlovskii和Petr Popov发表在Nature Communications Biology的文章“Spatiotemporal identification of druggable binding sites using deep learning”。新型蛋白质结合位点的鉴定扩大了可成药基因组,为药物发现提供了新的机会。一般来说,结合位点的存在与否取决于蛋白质的三维构象,这使得结合位点的识别类似于计算机视觉中的物体检测问题。研究人员开发了一种快速准确的深度神经网络(BiteNet)框架,适用于大规模和时空识别蛋白质结合位点。

1

背景

蛋白质通过发生在空间区域(Binding sites)的局部分子间相互作用来发挥细胞的生物功能,结合位点是药物发现的关键因素之一,是药物靶标中设计的类药物分子与之结合的热点。新型结合位点的鉴定扩大了可成药基因组,开启了治疗和药物发现的新策略。结合位点的实验性鉴定往往十分消耗资源,所以便有了计算方法,但经典的计算方法可能导致假阳性预测,即识别非可药性区域。近年来在深度学习方法上,证明了预测蛋白质结合位点的可行性,但大规模的结合位点检测仍然是一个挑战,并且在准确性方面仍有很大的改进空间。

蛋白质是灵活的分子,在其生命周期中采用不同的构象,而结合位点是蛋白质的动态属性,由其构象变化介导。单个蛋白质结构只代表了整个构象空间的一小部分,因此,结合位点很容易被实验确定的三维蛋白质结构所忽略。此外,许多蛋白质执行其功能组装成寡聚体结构,可以通过寡聚体的亚单位形成结合位点。

本研究中,研究人员受计算机视觉问题的启发,如图像和视频中的对象检测,研究人员将蛋白质结构视为三维图像,将结合位点视为这些图像上的对象进行检测,将构象集合视为三维视频进行分析。作者通过将BiteNet应用于ATP门控阳离子通道、表皮生长因子受体、G蛋白偶联受体等药物靶点的三维结构,表明了BiteNet能够解决具有挑战性的结合位点检测问题。

2

方法

训练数据集 …

从蛋白质数据库(PDB)中检索蛋白质-配体复合物的原子结构,然后用标准氨基酸残基替换非标准氨基酸残基,用ICM-Pro软件对缺失的残基和环进行建模,来优化蛋白结构。这个过程产生了最终的5946个蛋白质-配体复合物的原子结构集,包括11301条多肽链和11949个结合位点。

把蛋白质复合物中的每个蛋白质作为一个大小为1.0 Å体素网格,体素之间没有间距。每个体素用11个通道表示,对应于某一原子类型的原子密度函数。

为了尽可能减少偏差,研究人员使用TMalign软件计算了数据集中每对蛋白质链的结构相似性,得到11,301×11,301结构相似性矩阵。然后使用sklearn中实现的分层聚类算法对蛋白链进行分组,使来自不同聚类的任何两条蛋白链的结构相似度小于0.5。最后对数据集进行分割,使训练集和验证集来自不同簇的蛋白链,分别由9844条和1457条蛋白链组成。

基准…

本文使用了420个蛋白质的子集,对BiteNet与几个最近比较先进的结合位点预测方法进行了比较:fpocket、SiteHound、MetaPocket、DeepSite和P2Rank。根据P2 Rank标准,所有方法都成功地预测出了结合位点,结果分别来自COACH420和HOLO4K基准的239和1682个蛋白质子集。文章同时使用了作者和P2Rank对结合位点的定义来计算所有方法的性能。

神经网络结构 …

给定蛋白质的Nx×Ny×Nz×Nc的体素网格表示,首先将其划分为64×64×64体素的固定形状的立方网格,以获得神经网络的恒定大小输入。按照可用于图像对象检测问题的Yolo方法构建神经网络,预测模型的输出是8×8×8×4的张量,神经网络的核心包括十个三维卷积层,对每层使用大小为(3,3,3)的核,对池化层使用跨度为2的核,除最后一层外,其他层都使用批归一化和整流线性单元激活函数。最后,使用sigmoid激活函数获预测结合点的中心与单元,然后计算笛卡尔坐标。使用自定义的损失函数进行训练。

在Tensorflow v1.1457中使用Adam优化器对网络进行了epochs的训练,参数为默认参数。采用隐式数据扩增的方式,蛋白质的每个epoch采取随机方向。采用后处理来得到最终的预测结果。

聚类 …

给定蛋白质的构象集合,首先将BiteNet应用到每个构象中,然后使用聚类算法对得到的预测进行分组。本文使用了三种不同的聚类方法:平均移位聚类算法(MSCA),基于密度的聚类算法(DBSCAN)以及层次聚类算法,在sklearn python库中实现。

统计 …

进行了统计学上的Student's检验,将得到的属于COACH420和HOLO4K基准的蛋白质结构分成31个独立的子集,并为所有子集评估每个方法的性能。最后,考虑零假设,即BiteNet和其他方法之间的性能指标无显著差异,AP指标的最高计算p值为1.2e-6,由此可以拒绝零假设。

3

结果

BiteNet架构 …

使用来自蛋白质数据库的人工策划的蛋白质结构作为训练集来训练3D卷积神经网络。图1展示了BiteNet的工作流程。将蛋白质表示为三维图像(宽、高、长),每个体素有11个通道,其中通道对应于特定类型的原子密度。BiteNet的输入是蛋白质的空间结构,输出是预测结合位点的中心以及概率分数。最后,BiteNet识别出一个结合位点相对于预测中心的6 Å邻域内的氨基酸残基。此外,当应用于蛋白质的构象集合时,获得的预测和识别的氨基酸残基将使用聚类算法进行分组。

图1

药物靶标中结合位点的时空预测 …

为了证明BiteNet的适用性,文章考虑了三个具有挑战性的结合位点检测问题:ATP门控阳离子通道家族的P2X3受体,激酶家族的表皮生长因子受体,以及G蛋白偶联受体家族的腺苷A2A受体。

3.1 ATP门控阳离子通道

ATP门控阳离子通道受体P2X3由三个相同的单体跨膜组成,正构ATP结合位点由两个单体的氨基酸残基组成(图2c)。将BiteNet应用于由P2X3单体、P2X3单体形成的ATP结合和(AF-219)结合结构的三聚体复合物。BiteNet正确地识别了ATP结合结构(图2 c)和(AF-219)结合结构(图2 d)三聚体中的正构结合位点。从图2的e、f可以看出,虽然概率分数的绝对值随单体而变化,但BiteNet依然能正确识别三聚体复合物的异构结合位点。仔细研究现有的P2X3受体的三维结构,发现阳离子(Mg、Na、Ca)和乙二醇分子与这些预测相对应(PDB IDs: 5YVE、5SVS、5SVT、5SVJ、5SVR、5SVQ、5SVP、5SVM、5SVL、6AH4和6AH5)。因此,此应用证明了BiteNet的预测能力。

图2

3.2 表皮生长因子受体(EGFR)

EGFR是一种酪氨酸激酶家族的跨膜蛋白。EGFR的过度表达与各种类型的肿瘤有关。EGFR激酶三维结构是不对称的二聚体,其中一个单体与正构和变构配体(分别是ATP-腺苷-咪唑二磷酸(AMP-PNP)和EAI001)结合,而另一个单体只与AMP-PNP结合(图3 a)。BiteNet在一个单体(链A)中发现了正构和变构结合位点,而在另一个单体(链B)中只发现了前者。

为了评估BiteNet从非结合构象开始检测结合位点的能力,文章模拟了非结合构象到结合构象的转变,图3c显示,正构结合位点的概率得分稳定上升,而系统的能量在下降,相对于正构结合位点在起始(未结合)构象的均方根偏差(RMSD)逐渐增加。在最小化过程中,正构结合位点的概率得分仍然很高。因此,BiteNet可以应用于大规模的时空轨迹,以检测具有原始结构中未发现的结合位点的蛋白质构象。

3.3 G蛋白偶联受体(GPCRs)

为了证明BiteNet可以时空识别GPCR的结合位点,文章分析了从GPCRmd资源库中检索的人腺苷A2A受体(A2A)的分子动力学轨迹。研究人员考虑了A2A嵌入由水、钠和氯离子分子包围的POPC脂双层的轨迹,该轨迹从具有激动剂NECA和无配体的复合物中的活性样构象(图5a、b)开始。每次模拟总共持续500ns,时间步长为4.0fs,帧间间隔为2.0ns,产生2500个A2A构象。因此,对轨迹的每一帧都应用了BiteNet。从图5c,d可以看出,对于具有对应于预测结合位点的高概率分数的帧,计算的RMSD较低。

图5

BiteNet的计算效率 …

文章使用平均精度(AP)作为性能指标,计算了All和TopN预测的AP,其中N是蛋白质结构中存在的真实结合位点的数量。从图6a可以看出,BiteNet性能明显优于(p值≤1.2e-6)经典的结合位点预测方法fpocket、SiteHound、MetaPocket,以及优于最先进的机器学习方法DeepSite和P2Rank。

图6

图6b显示了BiteNet与fpocket和P2Rank所花费的时间。在单个GPU上运行的BiteNet的性能优于在多个CPU上运行的P2Rank。平均而言,BiteNet处理单个蛋白质构象大约需要0.1秒,进一步优化CPU-GPU互连和多GPU的实现,体现出BiteNet的计算效率。

为了更详细地研究BiteNet的预测能力,研究人员考虑了其在最有代表性的蛋白质家族上的表现。图7显示了BiteNet为每个蛋白质家族计算的AP,以及该家族结构在训练集中呈现的比例。在27个蛋白家族中,BiteNet在17个蛋白家族上的性能优于其他方法。图8展示了在糖基转移酶蛋白家族例子上常见的假阳性和假阴性预测类型。考虑到概率分数较高(≥0.20)且在一些蛋白质结构中能够将配体与预测的结合位点结合,目前还不清楚这些预测是否应该是假阳性。同时,有的结构有结合的配体,但没有结合位点预测,对应的是最常见的假阴性预测类型(见图8b)。最后,观察到一些假阴性预测对应的配体在催化结合位点附近,以高概率分数(≥0.75)预测的PLP分子(见图8d)。

图7 、图8

4

总结

本研究作者开发了一种可快速准确和大规模时空识别结合位点的深度学习方法BiteNet。BiteNet超越了经典的holo蛋白结构中的结合位点预测问题,通过大规模的构象集合分析来探索蛋白质的动力学和灵活性。由于精心准备了训练集和训练过程,BiteNet相对于其他机器学习方法在结合位点预测方面取得了优异的性能。检测到的构象与观察到的结合位点,可以用于基于结构的药物设计方法,如分子对接和虚拟配体筛选,以及基于结构的新药设计。

模型

https://github.com/i-Molecule/bitenet.

训练数据集

https://doi.org/10.5281/zenodo.4043664

代码

https://github.com/i-Molecule/bitenet、

https://doi.org/10.5281/zenodo.4043664

参考资料

Kozlovskii, I., Popov, P. Spatiotemporal identification of druggable binding sites using deep learning. Commun Biol 3, 618 (2020).

https://doi.org/10.1038/s42003-020-01350-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档