Nat. Biotechnol. | BioContextAI: 面向智能生物医学系统的社区型中枢平台

DrugAI

发布于 2026-01-06 13:46:40

1900

文章被收录于专栏：DrugAIDrugAI

DRUGONE

大型语言模型（LLMs）近年来被广泛应用于生物医学研究中，包括细胞类型注释、文献挖掘与知识检索等任务。然而，在生物医学领域中，LLMs 仍存在局限性：它们容易生成幻觉内容、无法直接访问专业数据库、缺乏关键领域知识与功能模块，从而限制了科学输出的可靠性。近年来，出现了一类基于智能体（agentic）的大语言模型系统，这些系统不再仅依赖模型内生知识，而是能够自主调用外部工具来完成复杂研究任务。为推动这一方向的发展，研究人员提出了 BioContextAI——一个面向生物医学智能系统的开源社区项目，旨在通过标准化协议与共享组件，构建可复用、可互操作的智能科研助手生态。

传统上，为弥补大模型在知识访问方面的不足，研究者尝试过检索增强生成（RAG）、自定义功能集成、以及在生物医学数据上微调的模型。这些方案在特定任务中确有成效，但存在复用性差、扩展性有限的问题，也不符合 FAIR4RS（研究软件可查找、可访问、可互操作、可复用）原则。

2024年底提出的 Model Context Protocol（MCP）为这一挑战提供了新解决思路。该协议通过标准化方式，使生成式 AI 系统能访问预定义函数以调用外部信息与应用程序。MCP 的核心在于将工具提供方（服务器）与语言模型客户端（智能系统）解耦，从而实现灵活的功能组合与复用。

然而，尽管 MCP 在工具交互层面建立了标准，生物医学领域仍缺乏统一的社区注册系统来聚合、索引和管理这些 MCP 服务器。现有资源中，缺乏可搜索元数据、开放许可证与长期维护计划，进一步限制了 MCP 的实际使用与共享。

BioContextAI 的提出与设计理念

为解决上述问题，研究人员提出 BioContextAI，一个面向社区的开源生态系统，旨在推动生物医学智能系统的标准化与共享化。

BioContextAI 以 Registry（注册中心）为核心组件（图1b），使用 Schema.org 本体词汇体系对社区开发的 MCP 服务器进行统一描述与索引。所有注册的服务器必须提供详细的元数据、开放源代码与完善文档，从而确保可重用性与互操作性。

该系统的主要特征包括：

模块化生态结构：支持社区成员创建、共享与评价 MCP 服务器；
可搜索注册表：提供网页界面、API 与可下载索引；
交互式开发工具：提供在线编辑器与模板（cookiecutter），便于快速构建新的 MCP 服务；
BioContextAI Chat：一个集成多源 MCP 的交互式聊天系统，允许用户通过自然语言访问专业生物医学工具与数据库。

图1 | BioContextAI 支持以社区为导向的生物医学智能研究

核心功能与生态系统

BioContextAI 的设计参考了 scverse 与 BioCypher 等成功社区模式，采用完全开放源代码架构。

研究人员可使用交互式网页编辑器为自建 MCP 服务器生成元数据文件，并将其提交至 Registry 的 GitHub 仓库。注册的服务器可被他人通过 REST API 或网页端访问，并可在 BioContextAI Chat 中直接调用。

此外，BioContextAI 还提供了一个集成示例——Knowledgebase MCP。该服务器整合了 15 个以上的生物医学数据库（如 UniProt、Open Targets 等），并以 Python 包形式在 PyPI 上发布，方便用户本地部署或在线调用。其设计支持模块化组合，可无缝扩展至其他智能系统。

挑战与展望

尽管 BioContextAI 已显著改进了资源整合与复用性，但仍面临若干挑战：