前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 糖结合位点精准预测新算法DeepGlycanSite

Nat. Commun. | 糖结合位点精准预测新算法DeepGlycanSite

作者头像
DrugAI
发布2024-07-05 13:01:53
30
发布2024-07-05 13:01:53
举报
文章被收录于专栏:DrugAIDrugAI

糖类是自然界中最丰富的有机物质,对生命至关重要。近年来,对糖类药物的研究显著增加,糖生物工程技术也被列入《国家中长期科学和技术发展规划纲要》确定的重点领域及前沿技术。了解糖类如何在生理和病理过程中调节蛋白质,将有助于解决关键的生物学问题和开发新药。了解该调节过程的第一步是发现糖类的结合位点,但是,受限于糖类的多样性和复杂结构,实验识别蛋白质上的糖类结合位点成本高且效率低,计算方法又面临训练数据有限,模型能力不强的问题,这阻碍了蛋白质糖结合位点的精准识别,也从研究的早期开始就影响了对糖类分子机制的理解和糖类药物的开发。

近日,中国科学院上海药物研究所糖测序联合交叉攻关团队开发了一种基于深度学习的新算法——DeepGlycanSite,用于准确预测蛋白质结构上的糖类结合位点。该方法将蛋白质结构数据转化为几何和进化特征,基于高效且在分子性质预测问题上表现优异的向量-标量交互网络ViSNet设计了等变图神经网络ReceptorNet,并加入 Transformer 架构进行全局的特征融合。在糖类位点预测场景上,DeepGlycanSite性能显著超越了之前的各种方法,在训练集未见的新靶标和AlphaFold2预测模型上均表现出了良好的泛化性能。面对不同糖类结合同一蛋白的复杂问题,DeepGlycanSite也能有效预测各种糖类的结合位点,并在实验案例中鉴别细微的核苷糖区别造成的位点差异。该研究成果以“Highly accurate carbohydrate-binding site prediction with DeepGlycanSite”为题,于2024年6月17日在Nature Communications在线发表。

1 背景

糖类在生命活动过程中起着重要的作用,它不仅是一切生命体维持生命活动所需能量的主要来源,还覆盖所有的活细胞表面,并与多种蛋白质家族相互作用,包括凝集素、抗体、酶和转运蛋白。糖类分子可以调节各种生物过程,如免疫反应、细胞分化和神经发育。了解糖类如何与蛋白质结合,进而如何调控蛋白质,对于解决关键生物学问题和开发新的糖类药物至关重要。然而,目前尚没有基于结构准确预测糖类分子结合位点的算法出现,小分子药物位点预测算法在这一问题上也表现不佳。

目前实验和计算方法表现不佳的原因有以下三点:首先,糖类分子由多种单糖作为构建块组成(图1a),单糖形成二糖、寡糖的相互连接方式十分复杂,且可以和其他分子连接形成核苷糖、糖脂等,进一步的修饰(如乙酰化、甲基化)更加提高了糖类结构的复杂性,因此糖类位点的形状和大小差异很大(图1b)。其次,糖类分子与蛋白质的相互作用具有区别于小分子药物的独特性质,如较丰富的氢键,更加多变的结构,较小糖类的低亲和力等,这进一步增加了使用通用算法识别糖类结合位点的难度。最后,糖类-蛋白质复合物的结构信息长期缺少整合,导致前人的研究只能使用支持向量机等简单机器学习模型从有限数据的小样本中学习,限制了模型的泛化性和表现能力。

图1.糖类的复杂性与其结合位点的多样性。a. 一些典型糖的化学式和命名。b. 代表性单糖、二糖、寡糖、核苷糖和糖脂在蛋白结构上的结合位点。

为此,DeepGlycanSite研究团队首先基于PDB数据库构建了一个糖类-蛋白复合物数据集,用于深度学习模型的训练。基于该数据集,研究团队结合最新的几何深度学习方法开发了DeepGlycanSite模型。该模型使用下述方法进行了严格的评估。(1)在去重后的混合糖类测试集T145上,研究团队评估了其常规的位点预测能力。(2)在严格去重的预测结构模型数据集T59AF2数据集上,研究团队测试了对空载结构的位点预测能力。(3)在多个糖结合同一个蛋白的测试集TM175上,研究团队进一步证明了变式DeepGlycanSite模型在不同糖结合同一个蛋白时的位点预测能力。该模型显著优于其他深度学习模型和传统方法,并在具有重要功能的G蛋白偶联受体(GPCR)上得到了实验验证。

2 结果与讨论

2.1 DeepGlycanSite网络架构

图2所示,DeepGlycanSite输入蛋白质结构后,首先提取残基类型的独热表示,将残基的原子坐标转化为用二面角和距离描述的几何特征,同时将序列基于进化尺度模型(ESM)转化为进化信息,并将这三部分一起嵌入节点特征。在边特征方面,若两个残基重原子最短距离小于8 Å,就将这两个残基的节点用边连接,并使用残基连通性和距离、二面角特征作为边特征。这些特征组合成无向图用于表示蛋白。

图2.DeepGlycansite网络架构

在DeepGlycanSite的核心网络架构ReceptorNet中,上述节点和边信息首先被投影到高维空间,并在每个节点和边上初始化一个三维向量来保证信息交互过程中的等变性。在更新步骤中,节点和边进行向量和标量的交互更新,并使用残差模块保证网络的深度,从而聚合了蛋白质三维结构的特征。之后使用等变门控模块整合输出,并将其作为Transformer架构的输入,最终预测每一个残基成为糖类结合位点的概率。

2.2 DeepGlycanSite提升了常规的糖类结合位点预测能力

由于之前的糖类结合位点预测算法的测试集多不涉及结构信息,且并未根据最新的蛋白质结构数据构建,研究者首先基于2021年后发表的蛋白质结构数据,构建了与训练集序列相似性在95%以下、且彼此序列相似性小于30%的T145数据集用于测试糖类结合位点预测能力。与传统方法和其他深度学习方法相比,DeepGlycanSite在T145数据集中表现出色(表1),其平均马修斯相关系数(MCC)为0.625,准确度为0.631,且在交叉验证中保持了领先,但所有其他方法的MCC和准确度均小于0.350。

表1. DeepGlycanSite与其他方法在T145数据集上的表现对比

在单独测试单糖、二糖、寡糖等典型糖类结合位点时,DeepGlycanSite同样表现优异。在单糖和二糖位点预测上,DeepGlycanSite的MCC和准确度均超过其他方法的两倍以上(图3a,3b),其在寡糖位点预测的表现也是其他方法的至少1.5倍(图3c)。核苷糖位点上,DeepGlycanSite也显著超过其他方法。图3d展示了不同方法在典型糖位点上的预测案例,DeepGlycanSite相对准确,DeepPocket倾向于预测典型的小分子位点,而不是糖类位点,PeSTo则偏向于预测较大范围的位点,在糖类位点预测问题上参考性有限。总体而言,DeepGlycanSite 在单糖、二糖、寡糖和核苷酸结合位点预测中表现出色,凸显了其普遍适用性。

图3. DeepGlycanSite与其他方法在预测不同糖结合位点时的MCC性能。a. 单糖结合位点。b. 二糖结合位点。c. 寡糖结合位点。d. 三种最佳方法 DeepGlycanSite、DeepPocket 和 PeSTo 对三个蛋白 (PDB ID:6X7X、7TOH、 7NWF) 的糖结合位点预测。

进一步地,研究者还用机器学习模型XGBoost和支持向量机在同样的、包括几何与进化信息的输入数据进行了训练,发现并不能使用简单机器学习模型得到T145上平均MCC大于0.2的结果,进一步证明了DeepGlycanSite网络的优越性。由于网络对坐标的模糊处理,即使在输入空载结构(如AlphaFold2预测模型)时,DeepGlycanSite也能准确预测结合位点,这点在严格去重的T59AF数据集上得到了证实。此外,研究团队还进行了消融实验验证了DeepGlycanSite架构中向量-标量交互和进化特征的重要性。

2.3 开发DeepGlycanSite+Ligand进行特定糖类配体的结合位点预测

尽管通用的DeepGlycanSite模型可以识别普遍意义的糖结合位点,然而,糖类与蛋白质的结合相比小分子专一性更低,即同一个蛋白结构上可能与不同的糖相互作用,这些糖结合在不同位点(图4a),这为开发糖类位点预测算法提出了巨大的挑战。为解决不同糖结合同一个蛋白时的位点预测问题,研究者基于DeepGlycanSite开发了DeepGlycanSite+Ligand方法。

DeepGlycanSite+Ligand方法使用一个额外的配体信息读取和处理模块来融合配体的信息(图4b)。配体以2D图的形式输入,通过信息提取模块将2D分子图转化为基于预训练的分子特征向量,以及由原子和化学键组成的小分子无向图。这一分子图经过图神经网络和残差网络组成的LigandNet进行信息传递,并使用长短期记忆网络(LSTM)方法从输出的图中提取配体的信息向量。基于图的信息向量和分子特征向量一起组成代表配体特征的“配体向量”,并融入到ReceptorNet中与受体信息一起进行信息传递。此外,配体图的节点也作为Transformer的编码器输入,共同决定每一个残基是否结合这一配体的概率。

图 4. DeepGlycanSite+Ligand示意图及表现。a. 同一个蛋白质结合两种不同糖的案例。b. DeepGlycanSite+Ligand模型架构。 c. DeepGlycanSite+Ligand方法在TM175数据集上识别特异性结合位点上的能力,以热图表示。d. 各种方法从核苷糖-二糖结合蛋白上识别出二糖结合位点的MCC性能。

基于2021年后发表的、与训练集不重复的、且单个蛋白结合多个糖的结构数据,研究者构建了TM175数据集,用于测试各种模型在多个糖结合同一个蛋白时的表现。如图4c表2所示,DeepGlycanSite+Ligand方法在口袋预测能力上显著超过了之前的方法,即传统常用的基于反向对接的找靶方法,和基于扩散模型的盲对接方法。图4d表明在不同类别的结合位点中,DeepGlycanSite+Ligand方法有效区分了大小相近的二糖与核苷糖的不同结合位点,提示该方法可能有区分糖类配体细微差别的能力。

2. DeepGlycanSite+Ligand 与其他方法在TM175数据集上的表现对比

2.4 实验验证DeepGlycanSite的预测能力

基于DeepGlycanSite+Ligand的潜在区分能力,研究者尝试使用该方法鉴别不同糖的结合位点。研究案例为嘌呤能受体P2Y14,该受体可以调控免疫反应,是哮喘、肾损伤等疾病的药物靶点。在之前的研究中,P2Y14被发现可以受到鸟苷 5'-二磷酸GDP和鸟苷 5'-二磷酸-岩藻糖GDP-Fuc的调控,这是两种有着细微差别的核苷糖(图5a)。研究者使用DeepGlycanSite+Ligand模型,基于AlphaFold预测的P2Y14结构,分别预测了P2Y14的GDP和GDP-Fuc结合位点。两种配体都被预测为结合在传统的GPCR正构口袋,但GDP-Fuc的岩藻糖模块使其被预测出了额外的几个残基作为结合位点(图5b)。进一步的突变实验显示这些位点中的一半经过突变后只对GDP-Fuc激活受体产生负面影响,但不影响GDP激活该受体(图5c)。此外,在这些位点附近,但未被预测为GDP-Fuc独有结合位点的残基突变并不影响P2Y14被激活。

5.DeepGlycanSite+Ligand在P2Y14上的实验验证。a. GDP和GDP-Fuc的结构及其被预测的结合位点。b. GDP与GDP-Fuc结合位点的概率柱状图,GDP-Fuc被预测的特定位点用箭头表示。c. 突变实验证实GDP-Fuc被预测的特有的结合位点。

基于DeepGlycanSite+Ligand的预测结果和动力学模拟,研究者进一步构建了GDP-Fuc结合P2Y14的模型(图6)。在结合模型中,岩藻糖的氧原子通过水介导的氢键和D81、N90相互作用,同时甲基部分和V93的侧链发生疏水相互作用,这种区别可能是上述残基突变影响较大的原因。同时,使用其他方法并不能产生合理的对接构象解释突变实验,Diffdock甚至无法基于AlphaFold结构产生对接结果。

6.基于DeepGlycanSite+Ligand预测结果构建的GDP-Fuc和GDP与P2Y14的结合模式,同时比较了其他方法产生的结合模式。

3 结论

在该工作中,中国科学院上海药物研究所糖测序联合交叉攻关团队基于最新的糖类数据和算法开发了DeepGlycanSite模型,通过深度等变图神经网络实现了对蛋白质糖类结合位点的精准预测。DeepGlycanSite在独立测试集上表现出良好的性能,同时也可以精准识别不同糖类的在同一个蛋白上的结合位点。这一突破为解析糖与蛋白质相互作用提供了精准的计算工具,有助于糖类药物设计。本文所研发的算法已经在GitHub上开源(https://github.com/xichengeva/DeepGlycanSite.git)。

中国科学院上海药物研究所博士研究生何欣恒、实验师赵丽芬、助理研究员田银平为本文第一作者;中国科学院上海药物研究所程曦研究员、文留青研究员和临港实验室青年研究员王鼎言为本文共同通讯作者。本研究工作曾得到中国科学院上海药物研究所蒋华良研究员、郑明月研究员、徐华强研究员和高召兵研究员,以及西安交通大学王裕淞博士和香港中文大学李绍宁博士的支持和帮助。本研究得到了上海市糖专项、国家重点研发计划、中国科学院青促会和临港实验室的基金资助。

原文链接

He et al. Highly accurate carbohydrate-binding site prediction with DeepGlycanSite. Nat Commun 15, 5163 (2024). https://doi.org/10.1038/s41467-024-49516-2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 背景
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档