前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

作者头像
智药邦
发布2021-11-10 16:59:04
3.1K0
发布2021-11-10 16:59:04
举报
文章被收录于专栏:智药邦智药邦

2021年10 月4 日,DeepMind 团队推出 AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对结合界面的预测,相关文章发表在 bioRxiv。

1.引言

虽然AlphaFold2(AF2)实现了对结构良好的蛋白质单体结构的高精度预测,但蛋白质复合物的预测仍然是一个挑战。2021年10 月4 日,DeepMind 团队推出了AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对结合界面的预测。

在此之前,Usman Ghani等人提出了AlphaFold2 + ClusPro模型来预测蛋白质复合物的结构;另外,有些科学家在推特上建议用linker将复合物链接起来,看作是一条链然后输入 AF,也能得到不错的结果。

DeepMind 团队指出了这些方法都是基于AF2的单链训练,与直接使用AlphaFold对输入调整的单链进行预测相比,AlphaFold-Multitimer预测多聚体界面的准确性明显提高,同时保持了较高的链内准确性。

DeepMind 团队对 4,433 个蛋白质复合物进行预测,分别考察了 AlphaFold-Multimer 在异源多聚体和同源多聚体接触界面的预测准确率,结果分别达到 67% 和 69%,高度精确预测的例数分别占到 23% 和 34% 的比例。

2.AlpahFold-Multimer的改进

AlphaFold-Multimer 对蛋白复合物进行结构预测,真实结构标为深蓝色,多聚物其他链以不同颜色区分。

AlphaFold-Multimer 在保留了AlphaFold 2 算法一些重要特性的基础上,做了部分调整以满足复合物结合界面结构的特殊需要

相比单链结构的预测,复合物中氨基酸总数大大增加,所需的计算机内存和算力更是迅速增加。为了改善这种情况,DeepMind 团队设计了一种裁剪程序,对蛋白质进行裁剪,这些裁剪区域是连续的残基块,最多可达384个残基。为了更好的预测结合界面的结构,裁剪区域需要在给定的复合物中包含多个链,力求扩大链覆盖度、截断片段多样性。同时,需要兼顾结合面与非接合面的截取。

AlphaFold 使用帧对齐点误差(FAPE)损失,在每个残差的局部参考帧中计算真实值和预测原子之间的距离。AlphaFold 的损失固定在 10Å。为链内氨基酸对原子间设置截断距离为10Å,链间不设置固定截断距离值。这为预测错误的界面提供了更好的梯度信号。此外,他们还添加了额外的位置编码来表示给定的一对氨基酸是否对应于不同的链,以及它们是否属于不同的同源链或异源链。他们还对模型和实现做了各种小的改变,以便在有限的内存下推断更大的蛋白质。

在计算损失和对同源复合物打分时,他们考虑排列对称性。当一个给定序列的蛋白质在复合体中多次出现时,预测的坐标和真实坐标之间的映射是任意的,因此模型不能假定预测链的顺序与真实相同。为了解释这一点,需要挑选出最符合真实值的预测同源链的最佳排列。对所有排列进行优化的复杂性会组合增长,因此他们采用了一个简单的启发式算法,尽可能地尝试找到一个好的排列。

AlphaFold模型用 predicted TM-score (pTM)估计内在模型精度。AlphaFold-Multimer 采取类似方案,但是更专注于界面预测的准确性。因此建立了不同链残基之间相互作用的评分系统——Inerface pTM(ipTM)。实际情况是,他们用 pTM 和 ipTM 的加权组合作为模型置信度度量,以便在模型排名中考虑一些链内置信度:

model confidence = 0.8 · ipTM + 0.2 · pTM

3.结果与展望

在对 AlphaFold-Multimer 模型预测准确度评估中发现,无论是同源复合物还是异源复合物,AlphaFold-Multimer 对复合物接触面的对接预测评分均有提升;值得注意的是,无论是错误率降低,还是不同等级的预测程度,在对异源复合物的预测表现更佳。

在 Recent-PDB-Multimers 数据集上的性能

Deepmind 团队通过修改 AlphaFold 体系结构来处理多聚体并对寡聚体数据进行显式训练,能够为很大一部分来自 PDB 的复合物提供高精度预测,超过了单纯基于 AlphaFold 改进的模型的准确性。

但是,他们还没有实现多聚体模板或多聚体预测的自蒸馏,因此未来可能还有很大的提高精度的空间。

另外,同源界面的性能通常高于异源界面;这大概是因为在同源情况下,MSA将容易编码关于复合体界面的进化信息,而在异源界面的情况下,这一信息更有限,更难以访问。还有一个限制是 AlphaFold-Multimer 通常不能预测抗体的结合。他们还表明,模型提供的置信度指标与真实的准确性密切相关,这对结构预测模型的可用性至关重要。

DeepMind 团队在 AlphaFold 网络结构基础上为处理多聚体结合界面结构预测优化了AlphaFold-Multimer 算法,在尚未引入多聚物模板的条件下已经展示出对蛋白复合物结构的预测,且其精确度有极大提升的空间。尽管目前 AlphaFold-Multimer 还不能对抗原-抗体复合物结构进行准确预测,AlphaFold-Multimer 依然有望在AlphaFold 2 的基础上进一步为基于结构的药物研发提供广阔的思路,使得基于阻断蛋白互作、蛋白聚合等机制的小分子、多肽、小蛋白药物更加易于实现。DeepMind 团队希望通过对蛋白质复合物的准确预测,帮助生物学家进一步推动结构生物信息学的发展。

参考资料

Evans, R.; O’Neill, M.; Pritzel, A.; Antropova, N.; Senior, A.; Green, T.; Žídek, A.; Bates, R.; Blackwell, S.; Yim, J.; Ronneberger, O.; Bodenstein, S.; Zielinski, M.; Bridgland, A.; Potapenko, A.; Cowie, A.; Tunyasuvunakool, K.; Jain, R.; Clancy, E.; Kohli, P.; Jumper, J.; Hassabis, D. Protein Complex Prediction with AlphaFold-Multimer. bioRxiv 2021. https://doi.org/10.1101/2021.10.04.463034.

https://github.com/deepmind/alphafold/releases/tag/v2.1.0

https://zhuanlan.zhihu.com/p/418872501

https://www.chainnews.com/articles/088391694715.htm

----------- End -----------

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档