
DRUGONE
大型语言模型(LLMs)近年来被广泛应用于生物医学研究中,包括细胞类型注释、文献挖掘与知识检索等任务。然而,在生物医学领域中,LLMs 仍存在局限性:它们容易生成幻觉内容、无法直接访问专业数据库、缺乏关键领域知识与功能模块,从而限制了科学输出的可靠性。近年来,出现了一类基于智能体(agentic)的大语言模型系统,这些系统不再仅依赖模型内生知识,而是能够自主调用外部工具来完成复杂研究任务。为推动这一方向的发展,研究人员提出了 BioContextAI——一个面向生物医学智能系统的开源社区项目,旨在通过标准化协议与共享组件,构建可复用、可互操作的智能科研助手生态。

传统上,为弥补大模型在知识访问方面的不足,研究者尝试过检索增强生成(RAG)、自定义功能集成、以及在生物医学数据上微调的模型。这些方案在特定任务中确有成效,但存在复用性差、扩展性有限的问题,也不符合 FAIR4RS(研究软件可查找、可访问、可互操作、可复用)原则。
2024年底提出的 Model Context Protocol(MCP) 为这一挑战提供了新解决思路。该协议通过标准化方式,使生成式 AI 系统能访问预定义函数以调用外部信息与应用程序。MCP 的核心在于将工具提供方(服务器)与语言模型客户端(智能系统)解耦,从而实现灵活的功能组合与复用。
然而,尽管 MCP 在工具交互层面建立了标准,生物医学领域仍缺乏统一的社区注册系统来聚合、索引和管理这些 MCP 服务器。现有资源中,缺乏可搜索元数据、开放许可证与长期维护计划,进一步限制了 MCP 的实际使用与共享。
BioContextAI 的提出与设计理念
为解决上述问题,研究人员提出 BioContextAI,一个面向社区的开源生态系统,旨在推动生物医学智能系统的标准化与共享化。
BioContextAI 以 Registry(注册中心) 为核心组件(图1b),使用 Schema.org 本体词汇体系对社区开发的 MCP 服务器进行统一描述与索引。所有注册的服务器必须提供详细的元数据、开放源代码与完善文档,从而确保可重用性与互操作性。
该系统的主要特征包括:

图1 | BioContextAI 支持以社区为导向的生物医学智能研究
核心功能与生态系统
BioContextAI 的设计参考了 scverse 与 BioCypher 等成功社区模式,采用完全开放源代码架构。
研究人员可使用交互式网页编辑器为自建 MCP 服务器生成元数据文件,并将其提交至 Registry 的 GitHub 仓库。注册的服务器可被他人通过 REST API 或网页端访问,并可在 BioContextAI Chat 中直接调用。
此外,BioContextAI 还提供了一个集成示例——Knowledgebase MCP。该服务器整合了 15 个以上的生物医学数据库(如 UniProt、Open Targets 等),并以 Python 包形式在 PyPI 上发布,方便用户本地部署或在线调用。其设计支持模块化组合,可无缝扩展至其他智能系统。
挑战与展望
尽管 BioContextAI 已显著改进了资源整合与复用性,但仍面临若干挑战:
研究人员认为,未来的发展应聚焦于:
随着开放权重大模型、混合专家(MoE)架构及硬件吞吐性能的快速提升,隐私安全、可解释且可复现的智能科研系统将在学术界逐步落地。
未来愿景:智能科研助手的进化
展望未来,BioContextAI 不仅仅是一个技术集成平台,而是迈向全周期智能科研系统的起点。研究人员设想,未来的智能体系统将在科研的各个阶段提供支持:
在这一过程中,人类研究者仍将承担监督与验证角色,确保结果的可靠性、创新性与科学性。通过开放协作与社区驱动,BioContextAI 将成为连接智能体与科研创新的重要中枢。

图2 | 面向可靠生物医学智能系统的未来蓝图
结语
BioContextAI 代表着生物医学研究智能化的新阶段——一个由社区驱动、标准统一、功能可扩展的开放平台。未来,随着更多 MCP 服务器与工具的加入,该平台将持续拓展智能体在科研中的应用边界,促进研究人员共同构建一个可信、互通、可持续的生物医学 AI 生态系统。
整理 | DrugOne团队
参考资料
Kuehl, M., Schaub, D.P., Carli, F. et al. BioContextAI is a community hub for agentic biomedical systems. Nat Biotechnol (2025).
https://doi.org/10.1038/s41587-025-02900-9
内容为【DrugOne】公众号原创|转载请注明来源