2024年12月12日,南通大学Med-AI团队在arXiv发表了一项基于语言模型驱动的人工智能药物设计技术方案LM-PROTAC(Language Model-driven Proteolysis Targeting Chimera),该方案通过语言模型驱动的分子生成,结合多维属性筛选与细胞实验验证,实现了对肿瘤关键靶点Wnt3a蛋白的降解。
LM-PROTAC能够为Fast Follow的商业模式提供片段发现,分子生成和属性预测等多个服务,从而为药物研发提供了全新研发范式。以下从技术流程以及主要的三个模块对LM-PROTAC做介绍。
完整的生成流程:从分子设计到验证的全覆盖
LM-PROTAC建立了一套从头设计分子到实验验证的完整流程,覆盖了数据预处理、分子生成、筛选及验证的所有环节。
图1. LM-PROTAC的工作流程
如图1所示,首先通过VOLT算法对分子和蛋白进行片段化处理,生成分子S-mol和蛋白S-pro片段。在此基础上,通过语言模型结合强化学习策略,生成具有潜在生物活性的小分子药物。其次,生成分子通过多维属性筛选模型进行性能优化,筛选出理化属性满足药物开发要求的候选分子。最终,通过分子动力学模拟与湿实验验证,确认生成分子的蛋白降解效果。对比传统的药物发现与设计模式,这一完整流程实现了分子设计的科学性和高效性,能够缩短药物研发的周期。
精准筛选高亲和力片段:FOTF-CPI模型
在分子生成之前,LM-PROTAC采用了FOTF-CPI模型对分子与蛋白片段的交互进行筛选。
图2. 高亲和力片段筛选
如图2所示,该模型通过局部与全局亲和力的融合计算,从大规模数据中快速筛选出高亲和力片段对。FOTF-CPI模型的优势在于其对局部片段交互关系的精准建模,避免了传统方法对完整序列的依赖。在解决不可成药性方面,PROTAC技术能在片段接触的情况下,实现对目标蛋白的降解,通过FOTF-CPI筛选出的关键的片段,不仅提升了分子与靶点结合的可能性,同时片段作为后续PROTAC生成分子的重要构成部分,能够优化分子生成的效率。
多维属性筛选的保障:MDAM模型
在分子生成完成后,MDAM多维属性预测模型成为筛选候选分子的关键工具。
图3. 基于注意力机制的MDAM流程
如图3所示,MDAM结合分子的1D、2D和3D特征,通过深度学习模型预测分子的多项属性,包括亲和力、溶解性和毒性等。通过MDAM模型,确保最终筛选出的分子既具备良好的生物活性,又符合药物开发的理化要求。MDAM模型解决了传统方法中属性筛选的分离性问题,评估PROTAC候选分子的综合性能, 使生成分子从设计到筛选形成了无缝衔接, 提高研发效率。
时间轴:50天内完成从设计到验证
LM-PROTAC的高效性还体现在其紧凑的时间轴规划中。如图 4所示,在各个计算模型完成前提下,从分子设计到验证的全过程可以被精确划分4个阶段,并在50天内完成。
图4. LM-PROTAC中PROTAC分子设计与验证的时间线和工作流程
时间对于药物发现非常重要,尤其是在Fast Follow的模式中。LM-PROTAC时间轴展示从片段到分子时间划分与重要节点,为药物研发提供了标准化范式。
展望:生命语言模型驱动药物研发
LM-PROTAC展示了AI尤其是语言模型在药物研发中的作用,所有工作都由南通大学王理老师所指导的Med-AI团队完成。王理认为,不管是蛋白还是分子,都可以看作是序列的形式,都是生命语言的一部分,细胞是如何通过生命语言(语素Token,语义Semantic与语法Grammar等)进行交流与沟通,这些研究工作也在同步展开。
LM-PROTAC是为肿瘤肝脏靶点Wnt3a降解剂提供了有效解决方案,还有其他难以成药的靶点等待技术开发与方案定制。Med-AI团队计划进一步优化生命语言驱动的药物研发技术,拓展适用范围,并与制药企业合作转化为工业应用。
参考资料:
https://doi.org/10.48550/arXiv.2412.09661
--------- End ---------