数十年来,在给定氨基酸线性序列的情况下,预测蛋白质三维结构的潜力一直吸引着计算生物学家。虽然在该领域取得了相当大的进展,但还没有一种方法能够可靠地生成接近、更不用说匹配实验确定结构质量的模型。在过去的一年里,基于深度学习的方法AlphaFold2和RoseTTAfold成功地在一系列靶标上实现了这一壮举,永远改变了结构生物学领域的进程。更令人印象深刻的是,欧洲分子生物学实验室和 DeepMind 之间的合作预测了 21 种模式生物的超过 350,000 种蛋白质的结构,并存储在AlphaFold 蛋白质结构数据库——计划在 2022 年将预测扩展到数百万个结构。
一年前,在CASP14会议上,来自 DeepMind 的 AlphaFold2 的表现优于所有其他方法,而且差距很大。平均而言,AlphaFold2 正确预测的蛋白质结构比例超过了 90%。坦率地说,这种规模的业绩飞跃在接下来的十年左右是没有预料到的。因此,许多人认为蛋白质折叠问题已基本解决也就不足为奇了。
AlphaFold 的成功可归因于其神经网络架构和考虑到实验解析蛋白质的可用 3D 结构的训练程序。受 AlphaFold 方法的启发,虽然论文和相关代码尚未发布,但由 David Baker 领导的一个学术团队开发了 RoseTTAFold,它的性能几乎一样。
如果没有大量实验结构数据作为深度学习的训练数据资源,这一切都不可行。在过去的50 年中,结构生物学家已经努力解决了超过 170,000 种蛋白质的结构,并蛋白质数据库 (PDB)中公开分享了这些结构。幸运的是,在数据存储库几乎不是常态的时候公开共享数据的决定被证明是该领域的最佳投资之一。
一场新的计算竞赛已经开始。自发布以来,AlphaFold 和 RoseTTAFold 均已进一步优化以预测多蛋白复合物。其他几个预印版本文章可以扩展 AlphaFold 方法或将其应用于更具体的问题。
Nature丨AlphaFold2带着源码来了,开启AI生命科学的新时代
2021年7月15日,DeepMind团队在Nature杂志上发表了文章"Highly accurate protein structure prediction with AlphaFold",描述了AlphaFold2是一个基于神经网络的全新设计的AlphaFold版本,其预测的蛋白质结构能达到原子水平的准确度。
Nature | AlphaFold预测98.5%人类蛋白结构,科学研究新范式
2021年7月22日,DeepMind团队再次在Nature发表了文章Highly accurate protein structure prediction for the human proteome,描述了AlphaFold对人类蛋白质组(人类基因组编码的所有蛋白质的集合)的准确结构预测。由此得到的数据集涵盖了人类蛋白质组近60%氨基酸的结构位置预测,且预测结果具有可信度。预测信息将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费向公众开放。
让子弹飞 | 院士深度解析Alphafold DB的未来影响
DeepMind和EMBL-EBI合作发布了数据库AlphaFold DataBase (AlphaFold DB),向社会免费提供AlphaFold结构预测结果。初始的AlphaFold DB涵盖了属于人类以及其他20个重要物种的大多数具有较大价值的蛋白质, 包含超过35万个不同的蛋白结构,并最终将增加到约1.3亿个三维结构(约为目前PDB数据库的700倍)
未来的几个月里,AlphaFold DB将扩展到涵盖所有编码蛋白质的90%。这意味着对于UniProt数据库中的每一个蛋白序列,要么有一个实验确定的结构,要么有一个AlphaFold预测的结构,或者可以使用传统的结构预测技术根据PDB或AlphaFold DB中类似序列的模型来轻易地建立结构。这一发展代表了分子生物学的一个重要变化:几乎所有已知序列的蛋白质都将有一个高质量的三维模型可用。那么,AlphaFold DB将可能有哪些重要应用呢?我们来听听英国皇家学会院士Stephen Cusack等人的看法。
Science | 面对alphafold,学术界没有躺平:RoseTTAFold挑战蛋白复合物预测
2021年7月15日,华盛顿大学蛋白设计研究所David Baker教授课题组及其他合作机构在Science上发表论文"Accurate prediction of protein structures and interactions using a three-track neural network",公布了其开源蛋白质预测工具RoseTTAFold的研究结果。
受到DeepMind团队AlphaFold2结果的启发,为了提高结构生物学研究的蛋白质结构预测准确性和推进蛋白质设计,研究人员探索了包含这五种特性的不同组合的网络架构。在没有公开的方法的情况下,研究人员尝试了多种方法来在网络的不同部分之间传递信息,成功地产生了一个“双轨”网络,其中信息沿着一维序列对齐轨迹和二维距离矩阵轨迹并行流动,其性能比 trRosetta好得多,这是次优方法在 CASP14 中的 AlphaFold2 之后。
Nat.Commun. | DeepAccNet:基于深度学习的准确性估计改善蛋白质结构优化
蛋白质设计科学家David Baker课题组发表在Nature Communications上的一项工作。这项工作中,作者提出了一个深度学习框架DeepAccNet,用于估计蛋白质模型中每个残基的准确性和残基-残基距离中的符号错误,并使用这些预测来指导Rosetta蛋白质结构优化。在Rosetta改进方案的多个阶段中,加入准确性预测,可以大大提高所得蛋白质结构模型的准确性,说明深度学习可以改善对生物分子整体能量最小值的搜索。
Nat. Commun.| CopulaNet:直接从多序列联配中学习残基间距离以“从头预测”蛋白质结构
蛋白质是具有重要功能的生物大分子,其功能主要由蛋白质的三级结构决定。蛋白质结构可通过核磁共振、X射线晶体学和低温电镜等实验技术测定,然而这些实验技术有其局限性,无法跟上蛋白质序列测定的增长速度。近几年,利用深度学习技术,蛋白质结构预测取得了重大进展,能够得到较为准确的三级结构。今天为大家介绍的这篇文章,是中科院计算所卜东波老师实验室发布的关于蛋白质结构“从头预测”算法的最新研究成果(原文见https://www.nature.com/articles/s41467-021-22869-8)。以CopulaNet为核心,卜东波老师实验室开发了新版的蛋白质结构预测软件ProFOLD,预测软件源代码见http://protein.ict.ac.cn/ProFOLD,预测服务器见http://protein.ict.ac.cn/FALCON2/,欢迎大家使用ProFOLD预测蛋白质结构。
Nat.Commun. | 用DiffNets探究蛋白质生化性质的结构决定因素
美国密苏里州圣路易斯市华盛顿大学生命系统科学与工程中心和该校医学院病理与免疫学系合作的文章“Deep learning the structural determinants of protein biochemical properties by comparing structural ensembles with DiffNets”。该论文使用DiffNet模型比较蛋白质的结构集合,从而学习蛋白质的生化性质的结构决定因素。
了解与比较蛋白质及其不同变种的生化特性,如活性和稳定性的结构决定因素,是生物学和医学的一大挑战。计算机模拟蛋白质的生化特性的关键一步是,用降维算法简化变种的复杂结构集;而常见的降维算法依赖于“哪个结构特征重要”的误导性假设,例如强调大的几何变化比小的几何变化更重要。本文用自监督自编码器DiffNet来避免这种假设,并学习低维表示,自动识别相关特征。例如,DiffNets自动识别微小的结构特征,预测β-内酰胺酶变种的相对稳定性和肌球蛋白异构体的占空比(一种结构决定因素)。
Nat. Commun. | 基于结构和GCN的蛋白质功能预测
来自计算生物学中心,Flatiron研究所的研究人员发表在nature communications上的Structure-based protein function prediction using graph convolutional networks。文章提出一个通过利用从蛋白质语言模型和蛋白质结构中提取的序列特征来预测蛋白质功能的图形卷积网络的模型(DeepFRI)。该模型的性能优于当前领先的方法,可以扩展序列数据存储库的规模和使用同源模型增强实验结构的训练集,能够显著扩大可预测函数的数量。同时DeepFRI具有显著的去噪能力,当实验结构被蛋白质模型所取代时,其性能仅有小幅下降。类激活图允许以前所未有的分辨率进行功能预测,并且允许在残基水平上进行特定位点的注释。方法通过注释来自PDB和SWISS-MODEL的结构,展示了方法的实用性和高性能。
参考资料
Method of the Year 2021: Protein structure prediction. Nat Methods 19, 1 (2022).
https://doi.org/10.1038/s41592-021-01380-4