期刊: Nature Biomedical Engineering 链接: https://doi.org/10.1038/s41551-025-01455-z 代码: https://github.com/melobio/PrimeGen 简介: 本文介绍了 PrimeGen,一个由大语言模型驱动的多智能体系统,其创新点在于通过协同智能体简化靶向二代测序中劳动密集型的引物设计任务。该系统以 GPT-4o 为中央控制器,协调搜索、引物、协议和实验等专业智能体执行相应子任务,包括检索基因靶标、设计引物序列、生成机器人脚本及检测异常。实验中,PrimeGen 在 SARS-CoV-2 基因组测序、遗传性疾病基因筛查、结核分枝杆菌耐药突变检测和蛋白质突变体分析等场景中表现有效,可容纳多达 955 个扩增子,保证高扩增均匀性并减少二聚体形成。该论文表明,由通用基础模型协调的协作智能体有望成为推动生物医药研究的智能工具。

近年来,AI驱动的自动化实验室系统(Autonomous Labs) 正在成为生命科学实验流程的变革性力量。尤其在引物设计、建库建样等“琐碎但关键”的步骤中,传统自动化工具往往存在:
PrimeGen系统 应运而生,它是首个以大语言模型(GPT-4o)为中心,联合多Agent系统(search/primer/protocol/experiment agent)、并融入视觉语言模型(VLM)的“AI原生”实验自动化框架,为多样化tNGS任务中的引物设计提供了前所未有的闭环智能解决方案。
承担核心对话与意图识别,指挥四大功能Agent完成子任务:
模块 | 功能 | 使用模型 |
|---|---|---|
Search Agent | 提取用户意图,检索目标区域 | GPT-4o + BioDB |
Primer Agent | 引物候选生成与panel优化 | GPT-4o + SADDLE + LLM优化器 |
Protocol Agent | 自动构建可执行实验协议 | RAG + Prompt Engineering |
Experiment Agent | 实验监控与异常识别 | Vision-Language Model |
整个系统支持交互、自反思、自适应参数重设,并可通过对话方式参与多轮实验迭代,真正实现“AI合作者”而非“AI工具”的角色定位。

PrimeGen 是一个由 LLM 驱动的智能辅助系统,旨在通过靶向二代测序(tNGS)协助研究人员进行引物设计及后续实验验证。系统的控制器通过解读用户意图启动对话周期,并将特定任务分配给四个子智能体:搜索智能体(从外部或内部来源检索基因组模板文件)、引物智能体(通过确定扩增目标并利用相关工具负责引物设计)、协议智能体(通过检索增强生成(RAG)和提示工程生成可执行的液体处理代码),以及实验智能体(通过视觉异常检测模块纠正代码错误并监控机器人操作)。

a. 用户的搜索意图被引导至相关资源。b. 搜索智能体的五种搜索意图及其与引物设计智能体的下游交互路径。c. 引物智能体的设计流程,采用 “候选扩展” 方法生成满足要求的引物。d. 大语言模型(LLM)的面板优化过程。e. 在(i)12 重和(ii)78 重设计实验中,LLM 优化器、经典贪心算法、AdaLead 和遗传算法(GA)的优化曲线对比。每种方法重复三次,曲线代表三次实验的平均值,阴影区域表示标准差。

a. 实验设计概述。b. 四种 SARS-CoV-2 面板的电泳图谱。c-d. 四种 SARS-CoV-2 面板的测序分析(n=3),包括测序深度、基因组覆盖率和谱系鉴定。e. 100 拷贝 /μl 浓度下四种方法的映射目标率、二聚体率和均匀性(>0.1×)。f. 人类基因组面板(HG-panel)的电泳图谱。g. HG-panel 的测序分析(n=3),包括 96.83±0.32% 的基因区域测序深度 > 100×。h. 35 个基因中每个编码序列(CDS)的测序深度。i-k. 结核分枝杆菌(MTB)面板的电泳图谱和测序分析(n=3)。l. 13 种分枝杆菌物种的检测结果(n=3)。m. 质粒面板的电泳图谱。n-o. 质粒面板的测序分析(n=4),包括四种酶面板(Luc、KODm、Cid1、TdT)的映射目标率、均匀性和二聚体率,以及第一轮和第二轮 TdT 面板的对比。p-q. 第一轮和第二轮 TdT 面板在不同测序深度下的覆盖区域和覆盖率。
面对实验复杂性(多样试剂盒、多样流程),该Agent设计出模块化可调代码块(Adjustable Protocol Blocks, APB):
PrimeGen支持将几乎所有MGI平台上的建库流程转换为可自动执行的Python脚本,极大降低生物实验人员的编程门槛。

a. 协议智能体的流程图表。b. 以 MTB 文库构建试剂盒为例,展示 RAG 的检索过程。c. 协议智能体中用于参数计算和代码修改的提示工程,使 LLM 能够生成准确的可执行代码块。d. 大语言模型(LLM)参数计算和视觉语言模型(VLM)实验参数调整的工作流程。e. 主流 LLM(GPT-4o、GPT-4、GPT-3.5、Qwen-Max、Qwen2.5-72B-Instruct 和 GLM-4-plus)在三个基准任务(序列搜索、面板优化和代码修改)中的性能对比。
位置 | 功能 |
|---|---|
Camera 1 | 全景识别工作站布局与模块摆放是否正确 |
Camera 2 | 监测tip装配、变形、吸液失败 |
Camera 3 | 仿人类视角观察96孔板底部,监测混匀状态、磁珠清洗等步骤 |
VLM通过两阶段训练完成:
最佳模型Qwen2-VL在测试集上平均准确率达87%,远超未微调的GPT类模型。

a. 集成了摄像头、Jetson 和工业计算机的液体处理机器人中实验智能体的架构。b. 基于视觉的异常检测场景,包括吸头状态、插槽布局和深孔板混合,红框突出显示特定异常。c. 异常检测示例:(i)使用 VLM 推理进行布局分析和用户校正提醒的工作流程;(ii)吸头分析过程和纠正吸头抓取错误的自我修复尝试;(iii)磁珠混合以及由自适应专家提示指导的参数调整自我修复尝试,以及异常检测。

对比了六种视觉语言模型(VLM)在两阶段微调中的性能,包括基本问答和描述能力(BLEU、ROUGE-L、GPT4-Score)以及异常检测能力(插槽布局准确性、移液侧精度、孔板侧精度和平均精度)。加粗值表示最佳结果,箭头(↓、↓↓)表示相对于最佳微调配置的性能下降,短横线(“−”)表示无法评估的指标。
PrimeGen作为一个“AI科研合作者”,展示了当前LLM与Agent结合的实际能力,也指出了未来发展的若干挑战:
但作为目前最完整的 “AI驱动+实验融合”平台之一,PrimeGen为自动化实验室的下一阶段提供了范式参考。
PrimeGen 不仅仅是一种自动化工具,而是一个实验科学的“合作者”,它使得实验设计、执行与优化真正进入了 可对话、可反馈、可循环的智能时代。
若你从事微生物、基因诊断、蛋白工程、NGS建库自动化相关研究,或关注AI赋能实验室流程的系统性解决方案,这篇文章值得你反复研读、深入消化。
(●'◡'●) 需要进一步讨论的同学欢迎留言交流!