BIB | APPTEST：深度学习方法与传统的NMR结构测定方法相结合，预测肽的三级结构

智能生信

发布于 2021-10-08 16:21:34

8610

发布于 2021-10-08 16:21:34

文章被收录于专栏：智能生信

一、摘要

今天给大家介绍都柏林大学的Patrick Brendan Timmons 和Chandralal M. Hewage在Briefings in Bioinformatics上发表的文章“APPTEST is a novel protocol for the automatic prediction of peptide tertiary structures”充分了解肽的三级结构对于理解其功能及其与生物靶点的相互作用很重要。作者在文章中报告了一种新的算法APPTEST，它采用神经网络结构和模拟退火方法从一级序列预测肽的三级结构。APPTEST适用于5-40个天然氨基酸的线性肽和环状肽，并且它计算效率很高，可以在几分钟内返回预测的结构。作者团队对一组356个测试肽上进行了附加性能评估；每个肽的最佳结构偏离实验确定的主干构象平均为1.9 Å，97%的目标序列预测为天然或接近天然结构。在短、长和循环肽的基准数据集中，与PEP-FOLD、PEPStRMOD和PepLook的性能比较表明，APPTEST产生的结构平均比现有方法更符合原生结构。

二、研究背景

近年来，人们对肽治疗的兴趣显著增长，肽治疗比小分子药物更有选择性、特异性和有效性，被降解时为氨基酸，这些氨基酸不太可能表现出不良的药物-药物相互作用。半衰期较短，多肽不太可能在组织中积累，产生耐药性，而且生产本轻利厚。通过测序实验获得的序列数据数量迅速增长，然而，具有实验确定的三级结构的序列的数量是滞后的，因为实验确定结构是一项成本和时间密集型的任务，将从其一级序列中获得肽的三级结构的过程简化将有助于肽药物设计流程的加速。

治疗多肽已被发现在存在膜或拟膜环境下，具有α -螺旋结构、β -折叠结构和扩展构象，这些三级结构是需要被预测的，作者使用的APPTEST将深度学习方法与传统的核磁共振结构测定方法相结合，以预测肽的三级结构。

三、模型与方法

3.1 数据集

采用外部测试集的十折交叉验证和验证来评估APPTEST的性能。共将2265个实验获得的肽结构用于模型训练和内部十折交叉验证。交叉验证训练的模型用外部测试集进行集成和评估，该测试集由356个以前看不见的、冗余减少的肽序列及其相应的实验获得的肽结构组成。

3.2 模型

从 Protein Data Bank中提取结构和相应的肽序列；保留符合条件的序列，形成APPTEST数据集。肽序列在每个氨基酸的基础上使用one-hot和氨基酸量表来描述。使用所描述的序列作为输入，残差距离和扭转角作为预测目标来训练神经网络模型，预测的结构约束被用作建模程序XPLOR-NIH或CYANA的输入，这些程序使用分子动力学模拟来产生预测结构的集合。

（1）神经网络的架构与实现：

首先，将One-hot编码的主序列h输入到密集嵌入维数为12的嵌入层。然后将密集嵌入的每一行乘以Mask向量m，得到形状的张量（50,12）。该张量与A（从AAindex中共提取了186个氨基酸量表，被用来构造矩阵A）和C（关于循环约束的信息可以编码在稀疏矩阵C中）连接，最终得到一个形状为（50,77）的张量，该张量输入到一维卷积层，有128个滤波器，窗口宽度为7。然后是批归一化层、校正后的线性单元激活函数、一个一维空间辍学层和两个残差门控卷积块。

每个残余门卷积块由三个一维门卷积层组成，其中也有128个滤波器，窗口宽度为7。前两个之后是一个批归一化层和一个校正的线性单元激活函数，最后应用一个空间dropout。将空间dropout的输出添加到块的原始输入中，批量归一化，用校正后的线性单元激活层，并应用另一个空间dropout。第二残余门卷积块的输出连接到具有1024个节点的全连接层，然后是批归一化、校正的线性单元激活层和dropout层。该层连接到三个输出层，分别有2500、2500和200个节点，第一个用校正线性单元激活，第三个用双曲切函数激活。当被reshape，并乘以它们各自的掩模时，这些输出层对应于

和

距离，以及肽的φ和ψ二面角的cos和sin。采用回归任务中常用的均方误差(MSE

)函数作为训练神经网络的损失函数。

Nadam自适应动量被确定为最佳优化器。神经网络被训练了400个epoch。每个交叉验证分割保留训练中遇到的验证MSE最低的模型，最优学习率参数为0.001。

（2）模拟退火协议相关：

距离约束：

和

距离约束来自于神经网络的预测，且约束范围在平均值的上下sd范围内。二面体约束：对每个二面角的cos和sin值的预测值取平均值，并利用这些平均值来恢复预测的二面角值，二面角预测在平均值的上下15度范围内。XPLOR-NIH 协议和CYANA协议都在模拟退火算法与使模型能量最小化过程中发挥作用。

四、实验结果

在使用CYANA和XPLOR-NIH进行扭转角动力学和模拟退火的独立测试集上的APPTEST的表现。这里给出了最佳预测模型的B-RMSD值距离约束违反情况最小，能量最低的模型(仅限XPLOR-NIH)。括号内的数字仅为多肽的刚性核心的B-RMSD值。

APPTEST、PEP-FOLD、PePLook和PEPstrMOD在短、长、环肽B-RMSD值的性能比较总结。针对完整结构和刚性核心，这张表报告了最佳模型和主（最低能量）模式的结果与现有方法相比，APPTEST在每类多肽上达到了最好的性能，并达到最低的平均B-RMSD值。最值得注意的是，考虑到10-40aa的环肽，APPTEST的平均最低能量结构B-RMSD仅次于最好的PEP-FOLD的64%

五、结论

综上所述，肽的三级结构的知识是了解其生物活性的重要部分。阐明三级结构是一种非常简单的、时间密集型并需要专门设备的任务。本工作简要综述了肽结构的预测历史，并比较了最近的肽三级结构预测方法。此外，为了方便更准确的肽三级结构的从头部开始的预测，作者开发了一种结合神经预测能力的计算协议网络与现有的结构生物学软件程序XPLOR-NIH和CYANA。作者相信，这项工作的结果，会方便肽治疗的设计，从而降低了对专业设备的依赖，减少了设计阶段所需的时间和成本，帮助推动药物化学进入一场前所未有的革命。

参考文献

Patrick Brendan Timmons, Chandralal M Hewage APPTEST is a novel protocol for the automatic prediction of peptide tertiary structures：Briefings in Bioinformatics, bbab308, https://doi.org/10.1093/bib/bbab308, Published: 14 August 2021

数据集

https://research.timmons.eu/apptest_download

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-09-14，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络