
DRUGONE
计算模型与真实实验结果之间的差距一直是蛋白工程中的主要挑战。研究人员提出了一种可扩展的蛋白设计框架——ORI(Ontology Reinforcement Iteration,本体强化迭代),该方法将本体约束条件下的序列生成与基于实验反馈的强化学习结合,从而实现可控且可解释的蛋白设计。
该框架利用结构化本体信息作为语义提示,对蛋白生成过程施加多层级约束,使模型能够在满足功能需求的同时保持合理的结构特性。通过生成、实验测量和模型更新构成的闭环迭代流程,系统能够在真实实验目标下不断优化设计结果。研究人员在多个任务中验证了该方法的有效性,包括酶活性提升、热稳定性增强以及多功能蛋白设计。利用该框架获得的蛋白变体在性能上明显优于天然蛋白,例如获得了活性提高约百倍的溶菌酶、能够在高温条件下保持稳定的几丁质酶,以及同时具有两种酶功能的双功能蛋白。这些结果表明,ORI能够在真实实验条件下实现高效、多目标的蛋白工程优化。

蛋白质在几乎所有生命过程中发挥核心作用,包括催化反应、信号传导、分子运输和结构支撑。能够根据需求设计具有特定功能和性质的蛋白,是分子生物学和生物工程中的重要目标。然而,蛋白序列、结构和功能之间存在复杂且高度非线性的关系,使得功能蛋白设计始终具有较高难度。
近年来,人工智能在蛋白工程中的应用迅速发展。结构预测模型能够仅根据序列推断蛋白折叠结构,而生成模型则可以在给定条件下产生新的蛋白序列。这些方法显著扩大了可探索的序列空间,并提高了蛋白设计的效率。然而,现有方法通常难以同时满足多种功能要求,并且计算预测结果与实验性能之间仍存在明显差距。
一个重要原因是,大多数模型缺乏对生物学知识的显式约束,导致生成的序列虽然在统计上合理,但在实际实验中往往难以达到预期功能。因此,需要一种能够结合生物学本体知识和实验反馈的设计方法,使模型在真实目标下逐步优化。
为了解决这一问题,研究人员提出利用本体系统描述蛋白的功能、结构和性质,并将这些信息作为生成模型的条件输入,同时通过强化学习利用实验结果不断更新模型,从而实现持续改进的蛋白设计流程。
方法
ORI框架是一个闭环的蛋白设计系统,由多个模块协同工作完成序列生成、质量评估和实验反馈更新。首先,系统包含一个蛋白设计代理,该代理能够根据用户输入的功能需求生成结构化本体提示。本体提示包括蛋白的物种来源、结构类型、功能类别以及理化性质等信息,这些提示用于指导生成模型产生符合要求的序列。
随后,蛋白生成模型在本体约束条件下生成候选序列。该模型基于大型语言模型架构,并在带有本体标注的蛋白数据集上进行训练,使其能够学习序列、结构和功能之间的关联关系。生成的序列随后由统一序列模型进行评估,用于预测结构合理性、稳定性和功能特性,并筛选出高质量候选。
在实验阶段,对筛选得到的蛋白进行体外测试,并将实验结果反馈给系统。通过强化学习算法,模型根据实验结果调整生成策略,使下一轮生成更加符合目标要求。通过不断重复这一过程,模型能够逐步逼近真实实验最优解。

图1:ORI蛋白工程计算框:。
【Fig.2占位】
结果
研究人员首先验证ORI框架是否能够在不同酶家族中生成具有正确功能的蛋白。结果表明,模型生成的序列与天然蛋白具有较低序列相似度,但在结构和功能上保持一致,说明模型能够探索新的功能序列空间,而不仅仅是复制已有蛋白。生成蛋白的结构预测结果与天然蛋白高度一致,进一步证明模型学习到了真实的结构规律。

图2:利用ORI进行酶相关功能的计算设计与实验验证。
【Fig.3占位】
随后,研究人员测试该方法在酶活性优化任务中的表现。通过多轮生成和实验反馈迭代,模型成功获得活性显著提高的蛋白变体。在溶菌酶优化实验中,新设计的蛋白活性比天然蛋白提高约两个数量级,说明闭环强化学习能够有效提升功能性能。

图3:基于实验反馈的蛋白工程迭代优化过程。
在热稳定性优化实验中,研究人员以几丁质酶为对象进行设计。通过本体约束和强化学习,模型生成的变体能够在高温条件下保持稳定活性,而天然蛋白在相同条件下迅速失活。这表明该方法不仅可以优化功能,还可以同时优化稳定性等理化性质。

图4:利用ORI在高温条件下进行酶活性工程优化。
研究人员进一步测试多功能蛋白设计能力。在同一蛋白中同时引入两种酶功能通常非常困难,但ORI框架能够在本体约束下生成同时具有两种活性的蛋白变体,并在实验中验证其双功能特性。这表明本体提示能够有效指导模型在多目标条件下进行设计。
此外,研究人员在多个蛋白家族上重复实验,发现该框架在不同任务中均能稳定提升性能,说明方法具有良好的通用性。

图5:利用ORI实现多功能酶活性的设计与工程化。
讨论
本研究提出的本体强化迭代框架为功能蛋白设计提供了一种新的思路。通过将本体知识作为生成条件,并利用实验反馈进行强化学习,模型能够在真实目标下逐步优化,从而缩小计算预测与实验结果之间的差距。
与传统蛋白设计方法相比,该框架能够同时优化多种性质,并在复杂目标下保持较高成功率。闭环迭代机制使模型能够不断学习新的实验信息,从而在后续设计中表现更好。
研究人员认为,这种结合大语言模型、本体知识和强化学习的策略,有望成为未来蛋白工程的重要技术路线。随着更大规模数据和更高通量实验平台的出现,该方法可能进一步提高效率,并推动功能蛋白设计从经验驱动走向自动化和智能化。
整理 | DrugOne团队
参考资料
He, B., Qin, C., Zhao, Y. et al. Functional protein design and enhancement with ontology reinforcement iteration. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-69855-6

内容为【DrugOne】公众号原创|转载请注明来源