专栏首页智能生信BIB | APPTEST:深度学习方法与传统的NMR结构测定方法相结合,预测肽的三级结构

BIB | APPTEST:深度学习方法与传统的NMR结构测定方法相结合,预测肽的三级结构

一、摘要

今天给大家介绍都柏林大学的Patrick Brendan Timmons 和Chandralal M. Hewage在Briefings in Bioinformatics上发表的文章“APPTEST is a novel protocol for the automatic prediction of peptide tertiary structures”充分了解肽的三级结构对于理解其功能及其与生物靶点的相互作用很重要。作者在文章中报告了一种新的算法APPTEST,它采用神经网络结构和模拟退火方法从一级序列预测肽的三级结构。APPTEST适用于5-40个天然氨基酸的线性肽和环状肽,并且它计算效率很高,可以在几分钟内返回预测的结构。作者团队对一组356个测试肽上进行了附加性能评估;每个肽的最佳结构偏离实验确定的主干构象平均为1.9 Å,97%的目标序列预测为天然或接近天然结构。在短、长和循环肽的基准数据集中,与PEP-FOLD、PEPStRMOD和PepLook的性能比较表明,APPTEST产生的结构平均比现有方法更符合原生结构。

二、研究背景

近年来,人们对肽治疗的兴趣显著增长,肽治疗比小分子药物更有选择性、特异性和有效性,被降解时为氨基酸,这些氨基酸不太可能表现出不良的药物-药物相互作用。半衰期较短,多肽不太可能在组织中积累,产生耐药性,而且生产本轻利厚。通过测序实验获得的序列数据数量迅速增长,然而,具有实验确定的三级结构的序列的数量是滞后的,因为实验确定结构是一项成本和时间密集型的任务,将从其一级序列中获得肽的三级结构的过程简化将有助于肽药物设计流程的加速。

治疗多肽已被发现在存在膜或拟膜环境下,具有α -螺旋结构、β -折叠结构和扩展构象,这些三级结构是需要被预测的,作者使用的APPTEST将深度学习方法与传统的核磁共振结构测定方法相结合,以预测肽的三级结构。

三、 模型与方法

3.1 数据集

采用外部测试集的十折交叉验证和验证来评估APPTEST的性能。共将2265个实验获得的肽结构用于模型训练和内部十折交叉验证。交叉验证训练的模型用外部测试集进行集成和评估,该测试集由356个以前看不见的、冗余减少的肽序列及其相应的实验获得的肽结构组成。

3.2 模型

从 Protein Data Bank中提取结构和相应的肽序列;保留符合条件的序列,形成APPTEST数据集。肽序列在每个氨基酸的基础上使用one-hot和氨基酸量表来描述。使用所描述的序列作为输入,残差距离和扭转角作为预测目标来训练神经网络模型,预测的结构约束被用作建模程序XPLOR-NIH或CYANA的输入,这些程序使用分子动力学模拟来产生预测结构的集合。

(1)神经网络的架构与实现:

首先,将One-hot编码的主序列h输入到密集嵌入维数为12的嵌入层。然后将密集嵌入的每一行乘以Mask向量m,得到形状的张量(50,12)。该张量与A(从AAindex中共提取了186个氨基酸量表,被用来构造矩阵A)和C(关于循环约束的信息可以编码在稀疏矩阵C中)连接,最终得到一个形状为(50,77)的张量,该张量输入到一维卷积层,有128个滤波器,窗口宽度为7。然后是批归一化层、校正后的线性单元激活函数、一个一维空间辍学层和两个残差门控卷积块。

每个残余门卷积块由三个一维门卷积层组成,其中也有128个滤波器,窗口宽度为7。前两个之后是一个批归一化层和一个校正的线性单元激活函数,最后应用一个空间dropout。将空间dropout的输出添加到块的原始输入中,批量归一化,用校正后的线性单元激活层,并应用另一个空间dropout。第二残余门卷积块的输出连接到具有1024个节点的全连接层,然后是批归一化、校正的线性单元激活层和dropout层。该层连接到三个输出层,分别有2500、2500和200个节点,第一个用校正线性单元激活,第三个用双曲切函数激活。当被reshape,并乘以它们各自的掩模时,这些输出层对应于

距离,以及肽的φ和ψ二面角的cos和sin。采用回归任务中常用的均方误差(MSE

)函数作为训练神经网络的损失函数。

Nadam自适应动量被确定为最佳优化器。神经网络被训练了400个epoch。每个交叉验证分割保留训练中遇到的验证MSE最低的模型,最优学习率参数为0.001。

(2)模拟退火协议相关:

距离约束:

距离约束来自于神经网络的预测,且约束范围在平均值的上下sd范围内。二面体约束:对每个二面角的cos和sin值的预测值取平均值,并利用这些平均值来恢复预测的二面角值,二面角预测在平均值的上下15度范围内。XPLOR-NIH 协议和CYANA协议都在模拟退火算法与使模型能量最小化过程中发挥作用。

四、实验结果

在使用CYANA和XPLOR-NIH进行扭转角动力学和模拟退火的独立测试集上的APPTEST的表现。这里给出了最佳预测模型的B-RMSD值 距离约束违反情况最小,能量最低的模型(仅限XPLOR-NIH)。括号内的数字仅为多肽的刚性核心的B-RMSD值。

APPTEST、PEP-FOLD、PePLook和PEPstrMOD在短、长、环肽B-RMSD值的性能比较总结。针对完整结构和刚性核心,这张表报告了最佳模型和主(最低能量)模式的结果与现有方法相比,APPTEST在每类多肽上达到了最好的性能,并达到最低的平均B-RMSD值。最值得注意的是,考虑到10-40aa的环肽,APPTEST的平均最低能量结构B-RMSD仅次于最好的PEP-FOLD的64%

五、结论

综上所述,肽的三级结构的知识是了解其生物活性的重要部分。阐明三级结构是一种非常简单的、时间密集型并需要专门设备的任务。本工作简要综述了肽结构的预测历史,并比较了最近的肽三级结构预测方法。此外,为了方便更准确的肽三级结构的从头部开始的预测,作者开发了一种结合神经预测能力的计算协议 网络与现有的结构生物学软件程序XPLOR-NIH和CYANA。作者相信,这项工作的结果,会方便肽治疗的设计,从而降低了对专业设备的依赖,减少了设计阶段所需的时间和成本,帮助推动药物化学进入一场前所未有的革命。


参考文献

Patrick Brendan Timmons, Chandralal M Hewage APPTEST is a novel protocol for the automatic prediction of peptide tertiary structures:Briefings in Bioinformatics, bbab308, https://doi.org/10.1093/bib/bbab308, Published: 14 August 2021

数据集

https://research.timmons.eu/apptest_download


本文分享自微信公众号 - 智能生信(gh_cb6c4859dc2a),作者:智能生信

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • BIB | DeepDTAF:一种预测蛋白质与配体结合亲和力的深度学习方法

    配体与蛋白质之间的生物分子识别在药物发现和开发中起着至关重要的作用。然而,通过实验来确定蛋白与配体的结合亲和力是非常耗时耗力的。目前,已经提出了许多预测结合亲和...

    智能生信
  • BIB | ATSE: 基于图网络和注意力机制,利用结构信息和进化信息预测多肽的毒性

    今天给大家介绍的是山东大学魏乐义教授课题组在Briefings in Bioinformatics上发表的文章“ATSE: a peptide toxicity...

    智能生信
  • ACS Nano | 基于计算机的抗菌肽发现框架

    抗生素耐药性,是人类社会中最严重的医疗问题之一,目前每年在欧洲造成超过2.5万人死亡,在美国造成3.5万人死亡。几十年来,具有抗菌素耐药性的微生物数量一直在增加...

    FindKey
  • Anal. Chem. | PepFormer:基于Transformer的对比学习框架

    今天给大家介绍的是山东大学魏乐义教授课题组在分析化学领域顶级期刊Analytical Chemistry上发表的文章“PepFormer: End-to-End...

    Houye
  • Nat. Biomed. Eng.| IBM利用深度生成模型和分子动力学模拟加速抗菌肽发现

    今天给大家介绍的是来自IBM Thomas J. Watson研究中心的研究人员近日发表在Nature Biomedical Engineering上的一篇论文...

    智能生信
  • Nat. Biomed. Eng.| IBM利用深度生成模型和分子动力学模拟加速抗菌肽发现

    今天给大家介绍的是来自IBM Thomas J. Watson研究中心的研究人员近日发表在Nature Biomedical Engineering上的一篇论文...

    DrugAI
  • BIB | pNovo3:使用排序学习框架进行精确的多态从头测序

    今天给大家介绍的是中国科学院计算机研究所发表在Briefings in Bioinformatics上的一篇文章“pNovo 3: precise de nov...

    智能生信
  • 基于计算学方法的蛋白质相互作用预测综述

    今天给大家介绍来自中科院的胡伦和IBM的胡鹏伟等人在Briefings in Bioinformatics上发表的文章“A survey on computat...

    DrugAI
  • Nat. Chem. | 通过深度学习设计靶向核的非生物微蛋白

    今天带来的是Carly K. Schissel发表在nature chemistry上的Deep learning to design nuclear-targ...

    DrugAI
  • 【Nature communications】四篇好文简读-专题1

    Structure-based protein function prediction using graph convolutional networks i...

    智能生信
  • Nat. Methods | 基于机器学习和生物物理的蛋白质-肽相互作用预测

    2020年1月6日哈佛医学院Mohammed AlQuraishi和Peter K. Sorger研究团队合作在Nature methods上发表题Biophy...

    DrugAI
  • [Nature Machine Intelligence]四篇好文简读-专题1

    Improved protein structure prediction by deep learning irrespective of co-evolut...

    智能生信
  • Nat. Methods | 利用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测

    今天给大家介绍的是由哈佛大学的Joseph M. Cunningham等人在“nature methods”上发表的文章“Biophysical predict...

    智能生信
  • Nat. Methods | 利用深度学习进行基于生物物理学和数据驱动的分子机制建模

    本文介绍由美国马萨诸塞州波士顿哈佛医学院系统生物学系系统药理学实验室的Mohammed AlQuraishi等人发表于Nature Methods 的研究成果:...

    DrugAI
  • JTB | CNN实现“可视化”蛋白质-多肽结合特征来预测其结合位点

    今天给大家介绍南太平洋大学Wafaa Wardah等人在Journal of theoretical biology上发表的文章“Predictingprote...

    智能生信
  • JCIM | AMPGAN v2:机器学习指导的抗菌肽设计

    今天给大家介绍来自佛蒙特大学的Colin M. Van Oort等人在JCIM上发表的“AMPGAN v2: Machine Learning-Guided D...

    智能生信
  • BIB |一种快速准确预测肽与HLA-I类分子结合的用户定制型工具

    今天给大家介绍澳大利亚蒙纳士大学ShuTao Mei等人在Briefings in Bioinformatics 2021上发表的文章“Anthem: a us...

    智能生信
  • BMC Bioinf|基于双向LSTM和Multi-head Attention的HLA与肽的结合预测

    今天给大家介绍Ji Wan等人在BMC Bioinformatics 2021上发表的文章“MATHLA: a robust framework for HLA...

    智能生信
  • AI用于COVID-19的药物发现和疫苗开发

    SARS-COV-2号召科学界采取行动,以对抗日益增长的大流行病。撰写本文时,还没有新型抗病毒药或批准的疫苗可用于部署作为一线防御。了解COVID-19的病理生...

    DrugAI

扫码关注云+社区

领取腾讯云代金券