前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >榕树集--深度学习预测糖类结合位点

榕树集--深度学习预测糖类结合位点

作者头像
DrugSci
发布2024-07-01 15:14:14
540
发布2024-07-01 15:14:14
举报
文章被收录于专栏:FindKeyFindKey

简介

看一篇发表在NC上的使用DL来预测糖类结合位点(DeepGlycanSite)的文章。

其文章思路比较清晰,为

  1. 构建糖类蛋白质复合物数据集
  2. 构建神经网络进行学习以及训练
  3. 横向与其他口袋预测模型进行比较
  4. 对特定的输入糖类进行预测
  5. 实验验证

详解

这里着重查看复合物数据集构建,以及神经网络构建阶段。

数据集

作者整理了一个大型的糖类-蛋白质复合物数据集,涉及约8100种蛋白质和超过1700种碳水化合物。

  • 对于分辨率而言,分辨率优于4Å的碳水化合物-蛋白质复合物的X射线和电子显微镜结构。
  • 对于蛋白质而言,只有距离糖类化合物在4Å以内的残基被标注为糖类化合物结合位点。
  • 对于时间而言,获取了2023年1月1日之前发布的结构。
  • 对于糖基化的蛋白质而言,去除掉。
  • 对于测试集而言,使用2021年以后发布且分辨率优于3Å的复合物构建。
  • 为了降低bias:训练集中,排除了相同位点与相同糖类化合物结合的cases。对于测试集,排除了与训练集(或验证集)序列同一性超过95%的蛋白质。进一步控制测试集中蛋白质序列同一性为30%。

数据集下载地址:https://github.com/xichengeva/DeepGlycanSite/tree/main/datasets

网络结构

1. 图表示的特征

作者利用无向图 [G = (V, E)] 来表示蛋白质和糖类。

  • 蛋白质:每个氨基酸分配一个节点,并在蛋白质结构中两个相邻残基的8Å大原子距离阈值内连接一个边。每个节点的位置由每个残基的质心定义。节点特征包括残基类型、嵌入的进化信息和残基内部几何特征。采用ESM-2模型(esm2_t33_650M_UR50D)根据给定蛋白质的氨基酸序列生成1280维嵌入进化信息。
  • 糖类化合物:节点和边分别代表原子和键。引入了512维的分子特征。在特征化之前,使用Rdkit来处理的糖类化合物。
    • 节点特征包括atom symbol, degree, hybridization type, formal charge, number of radical electrons, aromaticity、total number of hydrogens binding on it和chiral property。
    • 边的特征包括bond type, conjugation, ring inclusion and stereo configuration。
2. 模型框架
  • ReceptorNet:受Vector-Scalar Interactive Graph Neural Network (ViSNet)启发,构建了一个基于几何的等变图神经网络,用于解析氨基酸水平的表示。
  • Transformer:将这些输出graph合并,以确定每个氨基酸的糖类化合物结合概率。
3. 下载地址

模型:https://github.com/xichengeva/DeepGlycanSite

数据集:https://github.com/xichengeva/DeepGlycanSite/tree/main/datasets

总结

DeepGlycanSite是一个强大的结合位点预测器,在不同糖类化合物结合位点类别中都表现出良好的性能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 详解
    • 数据集
      • 网络结构
        • 1. 图表示的特征
        • 2. 模型框架
        • 3. 下载地址
    • 总结
    相关产品与服务
    腾讯云服务器利旧
    云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档