

作者:Russell Johnson(原载《Nature Chemical Biology》2025年)
基于机器学习的工具已经彻底改变了科学家研究蛋白质结构的方式。在此,《Nature Chemical Biology》与Cecilia Clementi、Bruno Correia和卢培龙讨论了在开发用于预测蛋白质结构与属性的计算工具方面取得的进展、这些程序如何用于蛋白质设计,以及他们希望在该领域看到的发展。
Cecilia Clementi是柏林自由大学的爱因斯坦物理学教授。卢培龙是西湖大学的终身副教授。Bruno Correia是瑞士洛桑联邦理工学院的副教授。

• Cecilia Clementi:我们生活在一个非常激动人心的时代,我们目睹机器学习正在推动不同科学领域取得重大进展。我特别兴奋地看到,机器学习工具现在开始应对理解大分子动力学和功能的挑战,正在超越单一结构的范畴。在我的研究小组中,我们正为此方向贡献力量,并基于AlphaFold和BioEmu1等工具进行构建。
• Bruno Correia:是的,过去几年我们见证了蛋白质建模工具不可思议的进步。AlphaFold风靡全球,使得蛋白质的结构生物学"视角"成为一种更普遍的看待蛋白质的方式,并让人们能基于这些信息设计实验。另一类工具,即生成式或设计工具,也变得对更广泛的用户群更容易接触,它们能更快地设计新的蛋白质序列,且成功率更高,并有望在不久的将来应用于小分子设计。
• 卢培龙:蛋白质建模的最新进展,特别是AlphaFold 3和RoseTTAFold All-Atom,显著提高了蛋白质结构及其相互作用预测的准确性和范围。这些模型不仅限于蛋白质,还涵盖了涉及核酸、小分子配体和翻译后修饰的复合物,从而能够实现更复杂的模拟及功能性生物系统的从头设计。在我们的研究中,我们利用这两种工具来模拟配体结合位点、优化酶活性位点并设计蛋白质-核酸界面,显著提高了从头蛋白质设计的精度和成功率。
• 卢培龙:对于蛋白质复合物,诸如AlphaFold-Multimer和AlphaFold 3等方法能够准确预测许多具有紧密相互作用的复合物。然而,在建模大型、复杂、动态或瞬时的复合物方面仍然存在巨大挑战,尤其是在涉及构象变化或弱相互作用界面时。对于膜蛋白,这些方法能为许多跨膜蛋白生成高度精确的模型,但在应用于大型、动态或瞬时的膜蛋白复合物时,它们面临类似的局限性。对于部分结构化或内在无序蛋白质,大多数预测工具表现不佳,因为它们通常基于有序的静态结构进行训练,倾向于将无序区域折叠成非天然的、人为的构象。进一步进展的主要障碍包括此类系统的高分辨率实验数据有限。应对这些挑战需要将深度学习与分子动力学模拟、交联蛋白质组学数据、从更深层序列比对中提取共进化信号相结合,并开发新的深度学习方法。
• Bruno Correia:我认为这完全取决于蛋白质复合物和膜蛋白现有的进化信息——对于那些进化信息丰富的,我们甚至能看到针对极其复杂的复合物和膜蛋白的惊人预测结果。部分结构化蛋白质或内在无序蛋白质当然是一个更难的问题,预测算法对此效果不佳,但话说回来,鉴于基础事实数据极其稀疏且难以获取,这或许并不令人惊讶。
• Cecilia Clementi:我认为,将结构预测扩展到球状蛋白质之外的主要挑战是可用高分辨率数据相对稀缺,以及缺乏明确的指标来量化成功的预测。例如,部分无序蛋白质的特征在于结构系综,很难定义一个可用于训练和评估模型的基础事实。此外,大规模复合物非常动态,蛋白质在功能过程中可以结合和解离。这两个例子都表明我们必须超越单一结构的预测。
• Bruno Correia:是的——这是一个关键点。这些算法显然没有关于折叠路径的知识,这也不是它们被训练学习的内容,因为说实话,生物化学家可能也没有多少清楚了解其折叠路径的实例。一个大前沿正是如何预测蛋白质的"动态性质"这一想法。尽管一些算法因其学习了序列-结构映射的准确表征而为我们提供了一些见解,但我们在预测动力学方面确实存在一些根本性的局限性,包括缺乏实验数据(这同样难以收集)——向NMR光谱学家致敬,我认为未来会给他们带来绝佳的机会。但也因为动力学很容易在微小变化(如点突变)的层面上被调节,这使得问题变得极其困难,因为大多数这些算法基于统计学习而非物理原理。所以,这是一个超级有趣的问题,处于蛋白质功能和我们理解蛋白质如何工作的核心。
• Cecilia Clementi:我相信,要能够描述动态结构并预测响应环境条件变化的结构变化,重要的是将不同来源的数据(包括模拟和实验测量)纳入机器学习模型,并考虑需要满足的物理约束和热力学原理。我们已经开始看到这个方向的一些努力,包括我自己研究小组的工作,我认为在未来几年我们会看到重大的进展。
• 卢培龙:当前,预测的结构反映的是训练数据中存在的正常生理溶液条件,因为关键变量如pH值、温度、压力和离子浓度并未明确整合到预测过程中。
• Cecilia Clementi:我认为当前工具在捕捉蛋白质功能的动态方面存在不足。这不是一项容易的任务,因为蛋白质动力学跨越很大的时间尺度,并且将蛋白质动力学简化为几个可测量的数字并非易事。生物功能可能产生于多种蛋白质和额外分子的相互作用,其中局部变化可能导致全局重排并触发信号级联。我们需要定量预测构象变化、有序-无序转变和结合亲和力来表征生物分子功能,但由于缺乏大规模、可靠的数据,当前工具仍然相当有限。我认为开发多尺度方法和多模态学习方法对于朝着表征这些过程迈进十分重要。我的小组和其他人正在为此目标研究机器学习模型,但完整的表征仍然缺失。
• 卢培龙:当前用于设计结构之外蛋白质属性(如催化和变构调节)的工具已取得进展,但由于需要模拟多态动力学,仍然面临巨大挑战。尽管结合蛋白质的设计变得越来越可行,特别是对于明确的界面,但准确预测和控制结合亲和力仍然困难。同时,蛋白质语言模型已成为强大的序列到功能预测工具,能够直接从序列数据中捕捉进化约束并识别功能残基。然而,pLM会继承训练数据集中不均匀代表性带来的偏差。特定的蛋白质家族,如抗体,在通用pLM中的代表性不足,限制了它们在治疗设计等专业任务中的表现。主要的瓶颈源于我们模拟构象系综及其与配体、底物或物理刺激(如光和电压)动态相互作用的能力有限。为了推动该领域发展,我们需要更多高质量、标准化的实验数据来训练和验证模型。未来可能在于整合语言模型(捕捉序列级别的功能约束)与基于结构的物理模型(解释几何、能量学和动力学)。
• Bruno Correia:正如我所提到的,设计工具在设计我们可以称之为非常"静态"的结构方面确实表现出色。当然,设计生物功能是一个范围非常广泛的目标,因为功能主要是一种情境属性,通常取决于系统的许多其他组成部分和变量,但我们已经见证了从头设计蛋白质-蛋白质相互作用方面令人难以置信的进展,这在几年前似乎是梦想。在我看来,小分子结合和酶活性仍然是非常困难的问题,也许是因为这些问题严重依赖于非常微小的细节以及所设计蛋白质的动力学。所以,有大量重要的问题需要研究。
• Bruno Correia:人工智能中的生成方法取得了惊人的进展。然而,我想提出一个挑衅性的观点:如果我们没有出色的序列预测工具来帮助筛选最有希望的设计蛋白质,那么许多这些工具就不会像今天这样有用,而这改变了一切。然后,随着更强大的生成算法出现,设计的质量也有所提高,但在这方面还有很多工作要做。显然,许多生成式设计仍然会产生大量看似不合理的结果,这种效率应该得到提高,以便蛋白质设计变得更易接触,并使其工具民主化。与小分子设计相关的问题仍然极具挑战性,并且迄今为止基于机器学习的工具是否在药物设计方面取得了变革性的进步仍有争议。
• 卢培龙:RFdiffusion和ProteinMPNN等技术尤其具有影响力。最新版本RFdiffusion 3能够以原子分辨率生成以配体、核酸和其他非蛋白质成分为条件的蛋白质结构——从而实现高度定制化的功能位点和多组分复合物的设计。尽管取得了这些进展,但主要挑战依然存在。设计具有动态构象或多个功能状态(例如那些参与变构调节或刺激响应行为的)的蛋白质仍然困难。实现可调、可控和模块化的功能仍然是一个相当大的障碍。克服这些限制可能需要更丰富的实验数据集、改进蛋白质柔性和环境背景(例如膜、pH值和辅因子)的建模,以及将来自蛋白质语言模型的序列级洞察与基于物理的生成模型相结合。
• Cecilia Clementi:再次强调,我认为一个主要挑战是考虑蛋白质动力学及其对变化的响应。我对最近设计出存在于多种构型中的蛋白质的工作印象深刻。我相信这是设计蛋白质功能的一个非常有前途的方向。
• 卢培龙:首先,扩展的数据集,包含功能和生物物理测量(例如在不同条件下的结合亲和力、催化速率和蛋白质稳定性),将使模型能够更准确地预测功能结果,而不仅仅是结构。其次,捕捉动态和多态构象的数据,包括来自交联、时间分辨晶体学、冷冻电镜和NMR等技术的中间态和构象系综,对于通过结构动力学发挥功能的蛋白质建模至关重要。最后,汇编和共享关于失败或非功能性设计的数据(这些数据通常未被充分报告)将提供关键的负面例子,以改进训练集并提高预测模型的稳健性。生成、标准化和共享此类数据集的社区驱动努力对于实现蛋白质设计的下一次飞跃、增强其预测能力和生物影响至关重要。
• Cecilia Clementi:看到不断增长的蛋白质-蛋白质相互作用、蛋白质-配体结合和蛋白质复合物形成的数据集将会非常有用,不仅仅是作为结构数据库,还要辅以结合亲和力等的实验测量。
• Bruno Correia:有趣的观点——我个人的梦想是每种蛋白质都能有一个与之相关的深度突变扫描实验,这样我们就能理解这些扰动会对它们的功能(和结构)产生什么影响。这也许能帮助我们重新定义对蛋白质功能的理解,顺便说一句,在我看来,蛋白质功能远不止一个蛋白质结构的静态快照。
• Cecilia Clementi:过去几年在这些方面取得了惊人的进展。在我的小组中,我们开发机器学习粗粒度方法,并且最近发布了一个可转移的粗粒度力场,用于模拟蛋白质在长时间尺度上的动力学。然而,能够整合不同分辨率以在广泛长度尺度上描述蛋白质的方法才刚刚起步。随着针对固定分辨率的方法现在变得非常精确,混合工具的开发是下一个自然的步骤。
• Bruno Correia:据我所知,机器学习方法现在也被用于加速分子动力学中的采样和创建能量函数的仿真器。我认为我们现在才开始看到这些领域的初步进展,因为开发既基于统计学习又基于物理先验原理的架构一直很困难,但这显然是建模社区将会做得更多的事情。
• 卢培龙:一个标志性的例子是AI2BMD的工作——一个在生物分子模拟的准确性和可扩展性之间架起桥梁的混合系统。AI2BMD结合了一种蛋白质碎片化策略和一个基于量子力学数据训练的机器学习力场,能够以密度泛函理论计算成本的一小部分,对大型生物分子(超过10,000个原子)进行具有从头算精度的全原子模拟。对于蛋白质设计,我们经常利用分子动力学模拟作为关键的验证工具,来评估所设计蛋白质的稳定性、构象动力学和功能行为——特别是对于膜蛋白和动态复合物,静态模型在这些情况下是不够的。分子动力学模拟使我们能够探究所设计的结构在特定条件下是否保持完整性、配体如何结合以及构象转变是否按预期发生。
• 卢培龙:我目前没有看到与AI在蛋白质设计中相关的紧迫或普遍风险,而需要采取限制性监管,因为过度监管可能会减缓科学进展以及我们应对气候变化、可持续制造和公共卫生等紧迫全球挑战的能力。话虽如此,如果生物学中AI的负责任使用需要任何主动措施,监控关键技术瓶颈——例如DNA合成——可能代表一种可行的方法。最有效的保障措施之一是加强商业DNA合成提供商使用的筛选系统,以检测令人担忧的序列。正如Wittmann等人在《Science》杂志最近发表的一篇论文所强调的,AI驱动的蛋白质设计可以生成有害蛋白质的功能性变体,其序列能够规避传统的生物安全筛选工具。然而,该研究也证明,更新后的、AI增强的筛选软件可以有效地标记这些工程化的序列,即使经过大量重新设计。这表明解决方案不在于限制AI的使用,而在于同步推进我们的监控能力。通过持续改进检测算法并促进学术界、工业界和合成公司之间的合作,我们可以在确保生物安全的同时保持科学开放性。关键在于适应性的、科学驱动的监督——跟上创新的步伐而不扼杀它。
• Bruno Correia:嗯,考虑到这些技术变得如此强大,我们确实必须对它们所做的事情小心谨慎。话虽如此,大自然已经创造了许多"有害的"分子,因此并不缺少有害分子。我倾向于认为,当我们谈论非复制实体(如病毒)时,很难想象一个分子能大规模地造成伤害。与能源足迹相关的另一个担忧是真实存在的,显然我们习惯于使用蛮力结果和方法,而且很多时候不清楚它们产生了什么实际效益——但话说回来,公平地说,研究正是基于这种探索,随着我们更多探索这些算法的能力,我们将学会如何使它们更高效。
• Cecilia Clementi:我担心过去几年在结构预测和蛋白质设计方面的重大进展可能会降低设计新病原体的门槛。应该针对这种可能性采取预防措施。我认为,相对于用于文本和图像生成的大语言模型的训练和部署,AI在科学中的能源消耗是相当有限的。然而,我认为理解机器学习模型做什么以及它们如何工作,以便能够负责任地使用它们并从中提取知识是很重要的。可解释的AI工具可以被利用并扩展到科学问题上,以简化模型并解码模型所学到的东西。我也相信将物理学融入模型中有助于减少幻觉和误用。
• 卢培龙:计算蛋白质设计中一个令人兴奋的前沿是动态膜蛋白(如转运体和受体)的从头设计。这些蛋白质通过介导信号和代谢物跨生物膜的选择性交换,在细胞通讯和代谢中发挥重要作用。从第一性原理出发设计这种蛋白质——使其能响应合成或可调配体、传递特定信号或运输非天然底物——可能为合成生物学、生物传感和靶向治疗带来变革性进展。然而,设计具有精确功能控制的、动态的、刺激响应的膜蛋白仍然是一个巨大的挑战。成功需要超越静态结构模型,准确模拟构象系综、配体相互作用和自由能景观。达到这种复杂程度将标志着一个根本性的转变——从设计惰性支架到工程化能够进行智能、受调控的跨膜信号传导的功能性分子机器。
• Cecilia Clementi:正如我上面所述,我认为蛋白质动力学是下一个前沿。为了对蛋白质动力学进行预测,社区努力去定义和管理数据库、基准测试和里程碑至关重要。我认为不仅预测结构系综,而且预测它们在不同条件下的变化将是一个里程碑式的成就,我希望能帮助在不久的将来推动这一发展。
• Bruno Correia:从一个非常实际的角度看,我认为如果我们能预测生物制剂的所谓"可开发性"及其免疫原性,那将对帮助我们开发新疗法具有变革意义。对我来说,一个同样具有实际意义的里程碑式成就是,从头设计的蛋白质能够常规地用作药物,而没有免疫原性的缺点。这将改变游戏规则,我认为这会发生,但也许只有在我们掌握了免疫原性的决定因素以及如何"悄无声息地"递送这些蛋白质而不引发免疫反应之后。
参考文献:Johnson, R. Harnessing advances in artificial intelligence for protein design. Nat Chem Biol (2025).