
智能体人工智能系统的出现正在引发科学与技术领域的深刻变革。大语言模型(LLMs)、推理能力以及与外部工具的整合不断进步,开启了一个全新的时代,在这个时代中,智能体AI系统能够自主执行过去由人类完成的计算任务。计算机辅助药物设计(CADD)是一个由多个复杂且相互依赖的任务组成的多层次过程。然而,要让智能体系统在CADD中实现真正的自主化,其中一个关键挑战在于如何构建能够匹配人类专家水平的高质量、高可靠性的性质预测模型。这在当前并非易事,这一能力也成为实现药物发现全自动化流程的主要瓶颈。
针对上述问题,安特卫普大学、Open Analytics以及强生公司的研究团队于2025年10月16日在《Journal of Chemical Information and Modeling》上发表文章,题为“MolAgent: Biomolecular Property Estimation in the Agentic Era”。

文章提出一个与具体系统无关的智能体AI框架MolAgent,旨在为药物发现早期阶段提供高保真的分子性质建模。该平台集成了自动化特征工程、稳健的模型选择、先进的集成方法以及全面的验证体系,从而确保模型的最优精度与鲁棒性。MolAgent提供了一个完全自动化、端到端的工作流程,旨在实现智能体系统的无缝执行。其遵循的模型上下文协议保障了与多样化智能体AI基础架构的互操作性,从而能够灵活集成到未来复杂的药物发现流程中。
MolAgent代码仓库:
https://github.com/openanalytics/MolAgent
背景
2024至2025年标志着人工智能(AI)领域的关键转折点,即从被动、单步完成任务的模型向真正具备智能体特征的架构过渡。智能体AI框架的核心特征在于能够自主执行多步规划、持续适应环境动态变化,并具备与多样化计算工具的高级互操作能力。在这一演进中,ReAct 框架是核心创新之一。该框架将分步推理与实时动作执行相结合,其显式、迭代的推理步骤生成机制以及与外部资源的动态交互能力,大幅减少了传统模型的幻觉与错误传播问题。此外,模型上下文协议(MCP)与Google的Agent2Agent(A2A)协议等通信标准的引入,极大地提升了异构智能体之间的互操作性,使得基于协同的可扩展工作流成为可能,从而超越了传统以人为中心的研究与生产模式。
在药物发现中,智能体AI的应用能够应对早期研究阶段中复杂且资源密集的挑战,这些挑战过去主要依赖反复实验与计算技术来解决。然而,传统方法往往受限于领域知识的割裂、数据整合的不足以及高昂的成本与时间投入。智能体AI系统有潜力颠覆这一局面,它们能够自主聚合来自结构化数据库与非结构化科学文献的知识,高效组织建模任务,并实现基于假设驱动的实验设计。智能体AI的运行基础至少需要包括以下几个关键组成部分,即深度研究智能体、数据检索智能体、生成式分子设计智能体以及模型构建智能体。具体而言,深度研究智能体能够自主地从科学文献、专利与数据库中检索与整合知识,实现跨异构生物医学信息源的假设生成与情境化推理。数据检索智能体负责实验数据与组学数据的结构化采集与统一化,连接化学信息学库、生物医学知识图谱以及外部API,代表方法如AgentD。生成式分子设计智能体利用生成式AI架构提出具有类药性质优化的新化合物。模型构建智能体旨在自主构建并严格评估针对特定性质预测任务的模型。此类智能体应整合从数据预处理到验证的建模全流程,以确保无需人类专家干预即可实现高质量输出。
方法
作者提出一个为智能体系统设计的先进分子性质建模框架MolAgent。MolAgent完全遵循模型上下文协议(MCP),以确保系统级的无缝互操作性(图1,源自代码仓库)。当LLMs决定要执行的最优建模流程后,MolAgent的标准工作流包括以下步骤:1)分子表示,即对SMILES字符串或三维结构进行处理与标准化;2)特征生成,即利用多种技术生成分子特征;3)数据聚类(可选步骤),用于对分子进行聚类,以确保训练集/测试集划分;4)模型选择,即通过嵌套交叉验证选择最优模型类型及超参数配置;5)验证,即使用任务相应的评价指标对模型性能进行评估。这一结构化的工作流程实现了从原始数据到分子性质模型构建的端到端自动化。
MolAgent的设计提供了一个统一且可扩展的特征生成接口,实现了传统分子描述符、分子指纹、学习嵌入以及基于结构的特征的无缝整合。其中,特征生成器加载了一个基于ChEMBL数据库预训练的Transformer神经网络模型,用于处理SMILES字符串并从网络的bottleneck层中提取学习到的分子表示。此外,MolAgent不仅支持二维分子表示,还扩展到基于三维结构的特征生成,使模型能够捕捉与结合亲和力、选择性及构象相关的特定相互作用模式。

图1 MolAgent架构图
MolAgent的通用计算管线提供了多种选择,用户需要针对方法、超参数、优化策略等方面进行决策。为简化这一过程,MolAgent提供了预定义的配置选项,使其对不同计算资源水平和专业背景的用户都具有良好的可用性,同时仍保留对高级用户的灵活可定制性。根据不同的计算工作负载定义了一组默认选项,用户可根据可用计算预算,在回归和分类任务中分别选择三种计算层级,低成本、中等成本以及高成本。对于高级用户,用户可以添加或定义新的估计器、特征降维方法及其超参数配置。此外,MolAgent支持模型的保存与加载,便于用户在生产环境中部署训练模型,或与协作者共享模型成果。
专用于MolAgent的MCP服务器包含两个自动化工具:automol_classification_model以及automol_regression_model。这两个工具使LLMs能够仅通过提供输入数据和极少量参数即可自动构建完整的模型,无需手动设计训练流程。在后续的实际应用示例中,这些MCP服务器作为多智能体框架的核心组件,该框架基于Smolagents提供的CodeAgent功能构建。定义的智能体层级结构包括管理代理(负责任务调度与执行监控)、数据代理(负责数据集加载、预处理与特征生成)以及模型训练代理(专注于建模与评估任务)。
案例分析
示例1-治疗数据共享库(TDC)
作者利用Smolagents框架构建了一个多智能体系统示例。该系统包含三个代理,分别为管理(或协调)代理、模型训练代理(可访问MolAgent MCP服务器)以及数据检索代理(连接至另一个MCP服务器,用于访问来自Therapeutic Data Commons(TDC)的数据集)。评估了该系统在ADMET TDC基准任务组中的表现。要求系统在低计算成本模式下运行,以模拟现实世界中快速应用场景的自动建模过程。
表1 低计算成本预算下,MolAgent在TDC基准中不同ADMET任务的性能表现。

表1展示了MolAgent在不同ADMET任务上构建模型的性能,并与TDC排行榜中表现最佳的人工模型进行了对比。结果显示,MolAgent能够自主地构建性能可比、甚至在部分任务上优于人类专家模型的预测模型。值得注意的是,这一性能是在单次即时运行中实现的,即系统并未进行多次尝试或不同参数设置的反复调整。
示例2-脂溶性
为展示代理间在应答任务时的通信与动作流程,作者向框架提出如下请求:“你能否利用公共资源、以最快的可用模型并结合bottleneck特征训练一个脂溶性的回归模型?”。图2总结了多智能体框架中各代理之间的交互步骤,并展示了最终输出结果及性能图。

图2 多智能体框架在处理脂溶性任务提示时的执行流程。
数据检索代理从TDC中自动找到了脂溶性数据集。虽然用户提示要求使用bottleneck特征以实现快速建模,但框架自主决定在建模管线中额外加入RDKit的LogP 特征,因为该特征与脂溶性之间存在显著的正相关性。
示例3-ABL1 三维亲和力建模
进一步利用MolAgent构建了一个针对酪氨酸蛋白激酶 ABL1的回归模型,并在建模流程中显式引入了三维结构。为使框架能够利用3D结构信息,作者为AI系统提供了清晰可访问的数据集路径。图3展示了该框架在接收输入指令后所执行的详细步骤,并说明了三维特征建模如何无缝嵌入整个代理式工作流中。

图3 基于结构感知特征的结合亲和力预测任务中代理式框架的执行流程。
总结
MolAgent代表了智能体人工智能在计算机辅助药物发现领域整合应用的一项重大突破,它提供了一个全面且稳健的自动化分子性质估计框架。通过将传统化学信息学方法与先进的机器学习技术、深度学习嵌入以及基于结构的描述符相结合,MolAgent使得智能体系统能够高效应对分子建模工作流中的各种挑战。MolAgent的有效性已通过在广泛认可的社区数据集及真实药物研发任务上的基准测试得到验证,结果表明它是一种功能强大、完全自主的解决方案,其性能可与由专家手工设计的模型相媲美。
此外,MolAgent与MCP及其他智能体系统的无缝集成,使其能够高效支持复杂的自主计算工作流,从而显著简化药物发现早期阶段的流程并提升效率。随着智能体人工智能的不断发展与其对传统范式的深刻变革,MolAgent 通过与这些前沿技术的战略性契合,有望在药物发现领域的计算创新中继续引领潮流。这一方向的持续进步将进一步赋能研究人员与药物化学家,促进他们更深入地探索化学空间,加速治疗创新,并在这个由智能体AI驱动的科学发现新时代中,最大化地提升计算资源的利用效率。
--------- End ---------