Science | 使用结构信息语言模型进行蛋白质和抗体复合物的无监督进化

DrugAI

发布于 2024-07-30 16:20:27

1290

发布于 2024-07-30 16:20:27

文章被收录于专栏：DrugAI

DRUGAI

今天为大家介绍的是来自Peter S. Kim团队的一篇论文。基于序列信息训练的大型语言模型能够学习到蛋白质设计的高级原则。然而，蛋白质的三维结构决定了它们的具体功能、活性和进化能力。这里，作者展示了一种结合了蛋白质结构主链坐标的通用蛋白质语言模型可以在不需要建模具体功能任务的情况下指导各种蛋白质的进化。作者还证明了仅在单链结构上训练的ESM-IF1模型可以扩展用于工程化蛋白质复合物。通过这种方法，作者筛选了大约30种用于治疗严重急性呼吸综合征冠状病毒2（SARS-CoV-2）感染的两种治疗性临床抗体的变体。结果表明，对于抗体逃逸的关注病毒变种BQ.1.1和XBB.1.5，分别在中和能力和亲和力上提高了25倍和37倍。这些发现突显了整合结构信息的优势，可以在不需要任何特定任务训练数据的情况下识别高效的蛋白质进化路径。

生物进化通过探索大量潜在突变来生成多样的蛋白质序列，并保留那些提高适应性的突变。然而，最终决定蛋白质功能和活性的，是这些序列编码的三维结构。因此，随着蛋白质积累突变，它们会发生相应的结构变化，进而促进功能适应。在实验室中，这种序列变化导致结构差异的趋势，对通过逐步进化过程改进蛋白质构成了主要挑战。在人工进化的连续轮次中添加的突变越来越可能破坏结构，从而降低蛋白质的进化能力。寻找功能上有利的突变也面临挑战，因为几乎所有突变对原型蛋白质都是有害的，或者至多是中性的，只有极少数突变在其适应性景观上是有益的。总体来说，这些现象往往会减少进化上可行的路径，使进化更容易陷入局部适应峰值，从而进一步复杂化了提高适应性的尝试。

抗体通过选择性结合参与病原作用的目标抗原并修改或破坏其功能来提供保护。在大多数治疗性人类抗体的开发过程中，一个重要的优化步骤是通过密集的过程来识别进一步增强效力和功效的氨基酸替换。本文中，作者展示了使用反向折叠模型的机器学习可以高效地完成这项任务。本研究的核心概念是使用抗体-抗原复合物的完整结构来引导进化。通过以整个抗体-抗原复合物为条件来训练结构信息语言模型，作者希望能够发现保持或增强整个复合物稳定性的突变，从而改善抗体功能。

模型部分

图 1

为了应对蛋白质设计中的结构限制和突变搜索空间的高维性，作者使用了一种通用蛋白质语言模型，该模型结合了结构信息，并在数百万个非冗余的单一序列-结构对上进行训练，称为ESM-IF1。简单来说，这个模型考虑了与许多最新强大的结构预测工具（包括AlphaFold和ESMFold）所执行任务相反的任务：预测将采用目标结构折叠的序列（见图1A）。这是通过预测给定前面的氨基酸序列（称为自回归建模）和整个结构主链坐标的氨基酸身份来实现的。因此，由结构信息语言模型赋予高可能性评分的序列预期会高度自信地折叠成输入结构的主链（见图1B）。

设计一个目标结构序列的问题，比如在反向折叠中，通常只考虑蛋白质折叠，因此不能保证得到的蛋白质是功能性的。找到该序列设计问题的最优解决方案的一个关键障碍是，许多序列往往会折叠成给定的主链构象。作者的蛋白质设计框架并不直接模拟蛋白质的特定功能或适应性定义。相反，通过使用结构引导范式，作者利用这种序列-结构简并性，间接探索潜在的适应性景观，重点探索那些能保持蛋白质主链折叠的区域。作者假设，将进化限制在高序列可能性的范围内，可以作为高适应性变异的有效先验，从而提高进化的效率（见图1C）。

利用基于结构的语言模型丰富跨不同任务的高功能蛋白质变体的序列探索

作者评估了将结构信息添加到语言模型中是否可以通过预测突变来指导蛋白质进化，从而提高蛋白质在特定性质上的活性，而无需专门训练或明确模拟任务。为此，作者对来自四个生物的十种不同家族的蛋白质进行了评分，这些蛋白质的功能从酶催化（TPMT）到致癌作用（HRAS）再到转录调控（GAL4）。作者在大规模深度突变扫描实验中分析了这些蛋白质的变体，并将它们与野生型蛋白质的目标主链进行比较，以计算序列对数可能性。这些预测是在完全无监督的环境下进行的，模型从未在任何实验数据上进行训练。为了展示对实际用户寻找最有利突变的实用性，作者通过比较得分最高的变体与其在整个序列适应性景观中的实验确定的功能活性来评估预测精度。

在前10个预测中，作者在数千个测试的蛋白质变体中，识别出许多高适应性的蛋白质变体，这些变体在实验确定的活性上排名整个深度突变扫描筛选的前百分位（图1D）。作者的分析表明，基于结构信息的条件可以改善蛋白质语言模型的预测能力，因为相比仅使用序列信息和专门用于变体预测的最先进通用蛋白质语言模型（ESM-1v），这种方法在10种蛋白质中有9种成功恢复了前5百分位的突变，而仅使用序列信息的模型只成功预测了2种蛋白质（图1D）。随着分类为高适应性变体的阈值逐渐放宽，这种预测的改进依然有效。

基于这个实验，作者得出结论，基于结构的序列设计提供了一种有前景的替代方法，可以代替功能上有利突变的暴力实验搜索。一些顶级预测的突变也是通过详尽实验发现的。例如，对于限制性内切酶haeIIIM，变体Q18E被推荐为前五个单一氨基酸预测之一，并在实验中排名第二，超过2000个筛选的内切酶替换中的平均值5个标准差以上。作者的任务独立框架的另一个关键优势是，除了适用于多种不同的蛋白质之外，还能够在不需要为每种特性开发专门的高通量筛选实验的情况下，改善单个蛋白质的多种所需特性。仅从前10个对有丝分裂原活化蛋白激酶1（MAPK1）的预测中，作者识别出Q105M和Y64D替换，实验显示这些替换可以赋予对两种不同致癌靶向MAPK1激酶抑制剂的抗性。

结构信息能够对语言模型进行最先进的零样本抗体突变效应预测

为了分析通过结构信息增强通用蛋白质语言模型在抗体变体预测中的效果，作者比较了三个抗体在整个突变景观中的序列可能性与五个现有诱变数据集中的实验适应值。前两个抗体的突变景观通过测量推断的生发中心序列和体细胞序列之间所有可能进化中间体的scFv平衡解离常数（KD）来评估，这些抗体是自然亲和力成熟的广泛中和流感抗体（bnAbs）CR9114和CR6261，能够结合流感表面蛋白血凝素（HA）的保守茎表位。对于这两个bnAbs，只表征了负责抗原结合的重链中的突变。CR9114的突变景观包含16个替换的所有可能组合，而CR6261包含11个替换的所有可能组合，分别总计为65536和2048个变体抗体序列。每个库都针对两种不同的流感HA亚型进行结合筛选：CR9114针对H1和H3，CR6261针对H1和H9。第五个数据集评估了深度突变扫描在抗体G6.31的重链（VH）和轻链（VL）可变区内的4275个突变对其配体血管内皮生长因子A（VEGF-A）结合的影响。

对于每个数据集，作者计算了结构信息语言模型估计的对数可能性与实验确定的给定抗原在所有突变库序列中的结合测量值之间的Spearman相关系数。作者使用与成熟抗体结合目标抗原的结构的主链坐标来评分库中每个候选序列的可能性。

图 2

所有五个实验结合数据集中，作者发现结构信息语言模型的表现优于其他三种基于序列的方法：（i）一个在多样蛋白质序列上训练的通用蛋白质语言模型ESM-1v；（ii）一个专门在观察到的抗体空间（OAS）数据库中采样的序列上训练的抗体语言模型AbLang；（iii）一个使用广泛的抗体序列比对整理的独立于位点的突变频率模型abYsis。在几乎所有实验情境中，仅提供抗体的主链坐标而不提供抗原信息作为输入，就足以优于其他仅基于序列的方法。自回归结构的一个显著特点是它计算序列中所有位置的联合可能性，使其非常适合对组合序列变化进行评分。作者发现这种方法能够捕捉复杂的上位相互作用，或个别氨基酸之间的潜在相互依赖性，因为它在由多个突变序列组成的CR9114和CR6261库中表现良好（图2A和图2B）。

通过结合抗体和抗原的结构，作者在所有五个实验筛选中取得了最大的性能提升，这表明结构信息模型可以隐含地学习结合特征（图2C）。值得注意的是，尽管模型只在单链蛋白质结构上进行了训练，作者使用的抗体-抗原复合物输入由三条（G6.31）或四条（CR9114和CR6261）蛋白链组成。抗原信息的最显著贡献出现在CR9114H1的情况下，其中仅使用抗体信息时的相关性从0.17提高到使用整个复合体的序列和主链坐标时的0.65。相比之下，当为仅基于序列的通用蛋白质语言模型提供配对抗体链或抗原序列的额外背景时，并没有观察到同样的性能提升。作者发现，将模型扩展到训练期间见到的单体结构之外的蛋白质复合物，在抗体预测方面也优于ProteinMPNN，这是一种替代的基于结构的深度学习方法，训练数据集包括多链蛋白质结构。

这些结果显示，作者甚至可以预测突变对交叉反应性抗体在结合不同于模型输入的流感毒株时的效果（图2A和图2B）。尽管使用与H5N1流感HA复合的目标抗体结构对CR9114变体进行评分，但与H1和H3的实验结合数据分别获得了0.65和0.50的相关性。这一点尤其重要，因为抗体表位跨越两个HA亚基，预测所用的H5毒株（A/Vietnam/1203/2004）与实验测试的H1毒株（A/New Caledonia/20/99）之间的序列同一性只有67%（图S6和表S2）。同样的交叉反应预测能力也在CR6261中观察到（图2A），实验测试的H9（A/Hong Kong/1073/1999）与结构中使用的1918 H1N1流感毒株（A/Brevig Mission/1/1918）在表位中超过三分之一的残基不同。尽管结构信息语言模型无法学习结合的明确化学规则（如氢键或二硫键形成），因为它无法访问氨基酸侧链原子坐标，但这些结果表明，诸如界面堆积或潜在空间干扰等结构原则不仅可以从残基身份中隐含获取，而且对结合预测也具有参考价值。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Shanker, V. R., Bruun, T. U., Hie, B. L., & Kim, P. S. (2024). Unsupervised evolution of protein and antibody complexes with a structure-informed language model. Science, 385(6704), 46-53.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-27，如有侵权请联系 cloudcommunity@tencent.com 删除

搜索