前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测

Nat. Comput. Sci. | 使用有监督的Transformer蛋白质语言模型进行单序列蛋白质结构预测

作者头像
DrugAI
发布2023-02-17 10:42:55
5530
发布2023-02-17 10:42:55
举报
文章被收录于专栏:DrugAI

作者 | 杨泽隆 审稿 | 廖奕洋

今天给大家介绍的是南开大学王文恺博士发表在nature computational science上的文章《Single-sequence protein structure prediction using supervised transformer protein language models》。作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。具体而言,trRosettaX-Single将有监督的Transformer蛋白质语言模型中的序列嵌入整合到通过知识蒸馏增强的多尺度网络中,预测残基间二维几何结构,然后利用能量最小化重建三维结构。

trRosettaX-Single在孤儿蛋白上的表现优于AlphaFold2和RoseTTAFold,并且在人工设计的蛋白上表现良好(平均tm-score为0.79),在幻觉蛋白(hallucination protein)和错义突变分析领域也有不错的表现。另外,在计算效率上,trRosettaX-Single比AlphaFold2快两倍且占用更少的计算资源。

研究背景

AlphaFold2等蛋白质结构预测方法利用嵌入在预生成的多序列比对(MSA)中的协同进化信号。然而,对于当前序列数据库中没有任何同源序列的蛋白质,这些方法无法建立MSA。在作者的测试中,所有方法在没有任何序列同源的孤儿蛋白上表现都很差,即使使用最先进的方法,用单序列信息预测准确的结构仍然具有挑战性。

此外,在无MSA的情况下进行准确的结构预测有助于解决重要的生物学问题,如蛋白质设计和诱变。然而与基于MSA的蛋白质结构预测相比,基于深度学习的预测单序列蛋白质结构的研究非常有限。

针对上述问题,作者提出了一种单序列蛋白质结构预测算法trRosettaX-Single。

方法

模型结构

图 1:trRosettaX-Single的整体架构

trRosettaX-Single总体上可分为二维几何预测和三维结构折叠两个步骤。trRosettaX-Single的输入是目标蛋白的氨基酸序列。该序列输入到Transformer蛋白质语言模型s-ESM-1b(supervised ESM-1b)中,获得氨基酸序列的单一表示和attention maps。与独热编码结合后,蛋白质序列表示为L × L × 4756的张量(L为序列长度)。这个张量被作为多尺度网络(Res2Net_Single)的输入。该网络输出预测的二维几何数据,包括残基间的距离和方向。残基间的距离和方向转换为空间约束,用来引导基于快速能量最小化的结构折叠。

s-ESM-1b

RGN2和SPOT-Contact-LM等方法在无监督训练BERT模型后,BERT模型的参数被冻结,这意味着BERT没有在结构信息的直接监督下进行优化。虽然从无监督预训练蛋白质语言模型(如ESM-1b )中提取的特征与二级结构、残基间接触和配体结合位点等结构特征具有很强的相关性。但是,作者提出从预训练后的模型参数开始,通过ESM-1b在特定任务上的监督训练,即此时不冻结ESM-1b的模型参数,可以进一步增强相关性。经过监督训练优化后的模型被称为s-ESM-1b。

多尺度网络Res2Net_Single

trRosettaX-Single的网络被称为Res2Net_Single。与ResNet相比,Res2Net通过在分组的通道上应用多个操作来实现单个块内的多个感受野(Receptive Field),故被作者称为多尺度网络。在最后一个Res2net块之后,使用由1×1卷积层和Softmax运算组成的四个分类器来预测残基间几何形状的概率分布。

基于MSA的网络引导下的知识蒸馏

知识蒸馏(Knowledge Distillation)能够将教师网络学到的知识转移到学生网络,已被证明有助于学生网络的性能。学生网络在教师网络生成的软标签的监督下进行训练。为了弥补单序列预测和基于MSA的预测之间的精度差距,作者利用知识蒸馏技术,将基于MSA的预训练网络中的知识提取到Res2Net_Single。

实验结果

与基于MSA的方法的比较

作者将 trRosettaX-Single 与AlphaFold2、RoseTTAFold 和 trRosettaX三种基于 MSA 的方法进行比较。作者比较了这些方法在两个基准数据集(Orphan25 和 Design55)上预测残基间距离和结构模型的准确性。其中,Orphan25数据集包含了25个孤儿蛋白,Design55数据集中包含了55个人工设计的蛋白质。这些数据集中的蛋白质在用于训练s-ESM-1b的序列数据库中没有同源序列。

图 2:trRosettaX-Single与其他三种方法的表现

RoseTTAFold和trRosettaX。这说明通过改进的距离预测,trRosettaX-Single比其他方法生成更准确的结构模型。TrRosettaX-Single可以预测超过一半的孤儿蛋白的正确折叠(即TM-Score>0.5)。

对于人工设计的蛋白质,作者的方法优于RoseTTAFold和trRosettaX,但比AlphaFold2略差。在计算速度上,trRosettaX-Single比AlphaFold2更快,而且占用更少的计算资源。作者认为,AlphaFold2在没有共同进化信号的情况下表现突出,可能是因为它捕捉到了蛋白质序列-结构关系的基本特征。

与单序列方法的比较

作者将trRosettaX-Single分别与SPOT-Contact-LM和RGN2两种基于单序列的方法进行比较。作者基于接触精度比较了trRosettaX-Single和SPOT-Contact-LM。

图 3:TrRosettaX-Single与SPOT-Contact-LM的比较

图3表明trRosettaX-Single在所有基准数据集上的性能始终优于Spot-Contact-LM,并且对于大多数蛋白质,trRosettaX-Single实现了比Spot-Contact-LM更准确的接触预测。由于这两种方法都使用从ESM-1b派生的蛋白质语言模型来编码单个序列,因此作者进一步分析了它们对ESM-1b的依赖性。

图 4:在数据集上正确预测的接触中 ESM-1b 接触的比例

如图4所示,trRosettaX-Single从ESM-1b遗传的接触比例显著比Spot-Contact-LM要低,这意味着超过一半的正确预测的接触是由trRosettaX-Single独立检测到的。说明作者的方法对ESM-1b的依赖程度较低。

由于没有RGN2的源代码和详细数据,作者只能比较trRosettaX-Single相对于RoseTTAFold和AlphaFold2的相对改进,并使用GDT-TS(Global Distance Test - Total Score)和基于距离的均方根偏差dRMSD (distance-based root-mean-squared deviation)作为度量。在人工设计蛋白质上trRosettaX-Single两个指标均优于AlphaFold2 和 RoseTTAFold的蛋白质比例比RGN2更高,说明作者的方法可能比RGN2更准确。

在幻觉蛋白上的应用

作者在 2,000 种幻觉蛋白上测试了他的方法,这些幻觉蛋白是由深度网络幻觉(deep network hallucination)从头设计的。由于这些蛋白质大多数的结构是未知的,作者只能估计预测模型的 TM 分数。这些蛋白质预测结构模型估计 TM 分数的平均值为 0.86。

对于所有蛋白质,预测模型估计具有正确的折叠(图5a)。对于其中三个已确定结构的蛋白质,trRosettaX-Single 生成与幻觉模型具有相似准确度的结构模型(图5b)。这意味着有可能基于 trRosettaX-Single 开发类似的幻觉方法。

在错义突变分析上的应用

作者用Δmp指标估计蛋白质对突变的耐受性,Δmp值高意味着突变后结构稳定性大幅下降。对于每个人工设计的蛋白质,作者预测了Δmp 值最高的突变的3D结构。

图 6:在错义突变分析上的应用

图6a显示48个突变的预测结构比野生型序列具有更低的 TM 分数。作者还发现了几个打破整体折叠的突变(图6b)。这些数据反映了应用作者的方法来预测多义突变效果的可能性。

总结

单序列结构预测的主要挑战是单序列结构预测与MSA相比序列中隐含的信息非常有限,而trRosettaX-Single之所以具有良好的性能主要是由于trRosettaX-Single从单个序列中提取了尽可能多的信息。例如,使用预训练的蛋白质语言模型从而获得用于训练语言模型的数千万个未标记序列中隐含的额外知识;基于MSA的知识蒸馏促使网络在推理时从单个序列中模拟出序列同源信息;对蛋白质语言模型进行监督优化,使得序列嵌入更适合于结构预测。

然而,作者认为孤儿蛋白单序列结构预测的准确性还远远不能令人满意。此外,进一步的基准测试表明,单序列预测蛋白质-蛋白质复合物结构比单体结构更具挑战性。解决这些问题可能需要更先进的网络架构和一些实验信息(例如来自低温电子显微镜的数据)。

参考资料

Wang, W., Peng, Z. & Yang, J. Single-sequence protein structure prediction using supervised transformer protein language models. Nat Comput Sci 2, 804–814 (2022).

https://doi.org/10.1038/s43588-022-00373-3

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档