DRUGAI
优化酶的热稳定性对于蛋白质科学和工业应用至关重要。目前,通过(半)理性设计和随机诱变方法可以较为准确地设计多个增强酶热稳定性的单点突变。但当组合多个突变时,常常会出现复杂的上位效应,导致组合突变体完全失活。因此,优化酶通常需要进行多轮设计,从而逐步引入单个突变位点,整个过程非常耗时。
近日,上海交通大学生命科学技术学院杨广宇研究员团队的文章“Optimizing enzyme thermostability by combining multiple mutations using protein language model”在mLife 正式上线,上海交通大学自然科学研究院洪亮教授为共通讯。该研究团队提出了一种人工智能辅助的酶热稳定性工程策略,可以高效地组合多个有益单点突变。在肌酸酶的进化实例中,仅经过两轮设计,获得了50个具有卓越热稳定性的组合突变体,设计成功率达100%。经少量实验数据微调后的模型可以从数据集中有效捕捉组合突变体中的上位效应。
主要内容
在该项研究中,作者利用一种AI辅助的酶热稳定性工程策略,通过少量实验数据微调Pro-PRIME模型来预测组合突变体的稳定性和活性。其中,Pro-PRIME模型是基于9600万个宿主细菌菌株的最佳生长温度数据进行训练的蛋白质语言模型,在设计和优化高温酶方面表现优异。微调所使用的初始数据集包括来自肌酸酶的73个低阶突变体的序列-热稳定性和活性数据。然后使用微调后的模型来预测来自18个单点突变体的所有可能突变体的热稳定性和活性。主要目标是在保持至少60%的相对活性(相对于野生型),同时增强热稳定性的突变体(图1)。
图1.基于蛋白质语言模型组合突变的策略。整个过程包括四个步骤:(1) 收集数据,(2) 蛋白质语言模型的微调,(3) 在组合序列空间中预测所有突变体,以及 (4) 验证所选突变体。红色虚线是第二轮模型微调。
为了进一步提高预测精度,研究人员将第一轮预测的实验表征结果整合到数据集中,并进行了第二轮微调、预测和选择。两轮微调和预测过程仅用了两周时间,共设计50个组合突变体,实现了100%的热稳定性设计成功率(图2)。
图2.组合突变体的热稳定性和相对活性数据。黄色圆圈是指相对活性数据。条形图是指突变体的热稳定性数据,其中蓝色、青色和橙色分别指初始数据集、第一轮和第二轮预测的数据集
其中,最佳突变体13M4包含13个突变位点,与野生型相比,它的活性基本保持不变,在Tm上提高了10.19°C,在58°C下的半衰期增加了约655倍。
在回顾数据时发现,即使某些突变在空间上相距甚远,也存在复杂的高阶上位性效应。例如K351E单点突变表现为阴性突变,但其在高阶突变体中却表现为阳性突变。此外,单点突变D17V和I149V存在明显的协同作用。结果表明,使用高质量的实验数据微调模型的参数,可以帮助模型准确捕获数据集中的已存在的上位效应,并用于后续高阶组合突变体的适应度预测。
动态相关矩阵分析的结果表明,影响稳定性的突变不仅影响其局部环境的动力学,在某些情况下,还影响远端结构区域的动力学(图3)。该项技术可以作为未来研究或设计上位效应的一个有效工具。
图3.突变之间的上位效应分析。K351E (A) 和 D17V/I149V (B) 在 Tm 值上的上位效应。蓝色表示负效应,橙色表示正效应。(C) 肌酸酶野生型和对应突变体的动态互相关矩阵图。相关系数 (Cij) 用不同颜色表示。突变位点用红色箭头标出,突变周围显著的动力学相关区域用红色框突出显示。(D) 突变体结构与野生型结构比较的的标准化 RMSF变化。
主要亮点
参考资料
Bian, Jiahao, Pan Tan, Ting Nie, Liang Hong, and Guang‐Yu Yang. "Optimizing enzyme thermostability by combining multiple mutations using protein language model." mLife (2024).