首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Sci. Immunol.|斯坦福大学:人工智能在疫苗学领域的认知能力评估

Sci. Immunol.|斯坦福大学:人工智能在疫苗学领域的认知能力评估

作者头像
DrugOne
发布2025-12-25 15:05:27
发布2025-12-25 15:05:27
350
举报
文章被收录于专栏:DrugOneDrugOne

大语言模型(LLM)的出现正在通过加速假设生成和数据分析深刻影响学术研究。LLM能够帮助研究者从海量数据中识别模式和洞见,从而促进创新性科学发现。然而,在高度复杂的生物学领域(如疫苗学),人工智能(AI)的创造性能力仍存在不确定性。

针对这一问题,斯坦福大学研究团队于2025年12月5日在《Science Immunology》上发表文章,题为“Assessing AI’s cognitive abilities for scientific discovery in the field of systems vaccinology”。

文章提出了一种名为“创造力博弈”的评估框架,用于比较五种不同LLM在推动免疫学研究方面的能力。该框架测试LLM在回顾文献、提出假设、设计实验以及推断更广泛概念意义方面的能力。研究选取了系统疫苗学的三个案例进行评估,结果显示LLM在事实回忆和模式识别方面相对表现较强;相比之下,其在生成新颖假设以及提出能够引领概念性突破的实验方案方面表现相对不足。研究指出,通过与人类创造力互补,AI有潜力变革以假设驱动的科学研究,为个性化疫苗策略的开发及对人类免疫机制的深入理解奠定基础。

背景

大语言模型(LLM)已在分子生物学的科学发现中展现出显著潜力。这一成功引发了人们的思考:类似的方法是否也可应用于其他科学领域,如疫苗学,在这些领域中AI是否能够辅助以假设驱动的研究与机制探索。系统疫苗学旨在通过整合大规模分子数据(如转录组学、蛋白质组学和代谢组学)与细胞及功能性免疫指标,理解免疫系统对疫苗接种的响应。高度的生物学复杂性,以及由年龄、环境和病原体暴露等因素引起的强烈情境依赖,使LLM面临重大挑战。LLM能否整合这些多层次数据,并将其与机制性过程关联,将成为检验其是否能真正推动机制免疫学研究与疫苗开发的关键。

为探讨这一问题,研究团队近日提出了“创造力博弈”概念,以评估AI是否具备类人创造力潜能。该框架设计了系统性挑战:要求AI生成创新性科学假设、设计实验方案、对潜在实验结果进行情境化分析,并从结果中推断更广泛的生物学原理,从而模拟专家级研究人员在科学发现中所展现的创造力。

实验设置

图1展示了用于科学发现的评估框架。具体来说,在先前疫苗研究的实验结果中发现的基因表达簇与抗体滴度之间的相关性用于向LLM提出查询。将经历人类分析与解释的历史实验数据,与LLM思考并得出类似结论、进一步提供解释及实验建议的能力相比较。对三个不同案例研究的查询采用五种不同的LLM进行评估,并依据四级评估体系对每个LLM的输出进行评分。

图1 用于科学发现的LLM评估框架

作者提出使用以下示例提示测试AI LLM的能力:“我们已定义了一种基因表达特征,可作为预测流感疫苗抗体反应的指标。你能否:(1)检索文献并提出一个可能解释该结果的假设?(2)提出一个用于生物学验证该假设的实验?(3)对该实验的潜在结果进行情境化解释?(4)从实验结果中推断更广泛的生物学原理?”

在这项研究中,作者基于四层评估框架测试了五种不同的LLM,包括ChatGPT-4o、ChatGPT-4.5、Microsoft Copilot、LLaMA和SciSpace,分别评估其相关文献回忆的准确性、生物学假设的构建能力、用于验证假设的实验设计能力以及对结果更广泛概念意义的推断能力。

通过系统疫苗学中的三项不同案例研究评估了各模型的有效性。具体包括(1)GCN2案例研究:关注GCN2在免疫原性中的作用,强调其在增强树突状细胞抗原呈递与控制肠道炎症方面的功能;(2)SREBP案例研究:研究SREBP在疫苗接种代谢反应中的重要性,以及其在有效B细胞反应中的关键作用;(3)TLR5案例研究:探讨抗生素诱导的肠道微生物群改变如何影响疫苗免疫反应,以及这一机制在高通量生物学与疫苗学中的更广泛意义。这些案例研究代表了免疫调控的互补维度,即代谢应激信号(GCN2)、脂质代谢(SREBP)与宿主–微生物群互作(TLR5)。它们各自捕捉了系统疫苗学中从细胞内信号,到个体生理,再到环境因素的不同层面,而这些层面共同决定疫苗反应性。

结果

GCN2案例研究

GCN2已被证实能够在树突状细胞中激活自噬,从而增强抗原呈递,并将营养感知的应激通路与适应性免疫连接起来(图2)。针对五个LLM所进行的GCN2评估揭示了其在免疫学研究场景中与数据挖掘、生物假设构建、实验设计以及概念性意义分析相关的多层次能力。

图2 GCN2驱动的黄热病疫苗YF-17D免疫应答机制

在数据挖掘方面,ChatGPT-4o、Microsoft Copilot和SciSpace在识别相关文献与提取GCN2 功能的关键数据点方面表现突出,并成功检索参考数据集中已有且适用的文献;尽管LLaMA的有效性较低,但其仍提供了部分相关但一致性较弱的信息。相较之下,ChatGPT-4.5能生成更深入的文献整合与生物学解释(图3A–D),展现了其将GCN2表达置于免疫代谢通路与CD8+ T细胞应答框架中进行解读的能力。

在生物假设构建方面,所有模型均提出了与GCN2在免疫功能中的作用相符的、具有生物学可行性的假设。ChatGPT-4o、Microsoft Copilot和SciSpace提出了一致且具有创新性的假设(图3B),但ChatGPT-4.5提供了机制更为多样且更具免疫学相关性的假设集。相比之下,LLaMA的假设更为宽泛,且与实验验证的可操作性关联较弱。

图3 GCN2案例研究结果

在实验设计方面,表现最好的三个模型均提出了结构清晰、可行且方法学合理的实验方案(图3C)。ChatGPT-4.5更进一步,提出了用于研究GCN2驱动的细胞外囊泡信号的详细且技术上严谨的实验流程。相比之下,LLaMA的实验设计常常缺乏必要的生物学合理性或方法细节。

在生物学见解分析方面,ChatGPT-4.5提供了最强且最具整合性的框架,阐述了GCN2的免疫学功能,包括转化研究视角(图3D)。ChatGPT-4o、Microsoft Copilot和SciSpace也提供了具有情境相关性的见解,而LLaMA的贡献在深度与特异性方面均有限。

SREBP案例研究

SREBP案例研究探讨了SREBP信号通路在疫苗诱导的代谢应答中的关键作用,以及其在促进有效B细胞应答中的核心功能(图4)。

图4 SREBP信号在B细胞功能和抗体应答中的作用

在数据挖掘方面,ChatGPT-4o、Microsoft Copilot和SciSpace表现突出,每个模型均达成100%的有效性,成功提取了关键文献中的相关信息,有效捕捉SREBP在脂质代谢与免疫调控中的核心作用。相比之下,LLaMA的表现较差,仅从三篇论文中正确挖掘出一篇数据,有效性为33%,表明仍需改进(图5A)。

在生物假设构建方面,所有模型均提出了与文献一致且生物学上可行的SREBP免疫学功能假设(图5B)。ChatGPT-4o提出增加SREBP可增强脂质生物合成及适应性免疫,而Microsoft Copilot与SciSpace分别强调了膜组成变化及脂质代谢对抗体应答的影响。LLaMA则将SREBP与脂质代谢及抗原呈递通路联系起来。

图5 SREBP案例研究结果

在实验设计方面,各模型同样表现良好。ChatGPT-4o建议使用B细胞特异性SREBP缺失小鼠进行疫苗接种实验,以直接检测抗体生成的功能效应;Microsoft Copilot建议结合SREBP调节剂进行Zostavax疫苗接种;SciSpace提议使用SREBP激活剂/抑制剂进行PBMC的纵向研究;LLaMA建议在PBMC中敲低SREBP以评估疫苗应答(图5C)。

在生物学见解分析方面,ChatGPT-4o与Microsoft Copilot强调脂质代谢在免疫反应与疫苗效力中的关键作用,SciSpace提出通过代谢干预优化疫苗结果,LLaMA则认识到SREBP在抗原加工等免疫功能中的多面作用(图5D)。

TLR5案例研究

肠道免疫细胞表达的TLR5可识别细菌鞭毛蛋白,将微生物信号与系统性疫苗反应相连。TLR5 信号缺失或抗生素干扰均会削弱流感疫苗诱导的抗体及浆细胞应答(图6)。

图6 肠道微生物群、炎症及代谢调控对流感疫苗应答的影响

在数据挖掘方面,ChatGPT-4o、Microsoft Copilot和SciSpace表现优异,均达成100%的有效性,成功提取关键文献发现,而LLaMA的有效性仅为33%,显示其表现有限(图7A)。

在生物假设构建方面,所有模型均提供了有价值的见解。LLaMA提出TLR5可增强APC激活及B细胞对流感疫苗的应答;ChatGPT-4o和ChatGPT-4.5则指出疫苗接种后TLR5通过识别微生物鞭毛蛋白增强抗体生成;Microsoft Copilot强调TLR5在增强先天免疫以提升疫苗抗体反应中的作用;SciSpace则指出TLR5驱动炎症反应,从而促进 B 细胞激活及抗体生成(图 7B)。这些假设与文献发现高度一致,强调肠道微生物群在调控疫苗免疫反应中的关键作用。

图7 TLR5案例研究结果

在实验设计方面,LLaMA建议在PBMC中测试TLR5调节剂与流感疫苗联合应用;ChatGPT-4o建议开展涉及接受广谱抗生素的人体疫苗研究;Microsoft Copilot提议比较TLR5表达正常与降低个体的疫苗接种策略;SciSpace则主张通过RNA测序和流式细胞术研究疫苗接种前后TLR5的变化(图7C)。

在生物学见解分析方面,LLaMA指出TLR5影响早期免疫、APC抗原呈递及佐剂设计;ChatGPT-4o 强调TLR5架起了先天免疫与适应性免疫之间的桥梁;Microsoft Copilot强调TLR5调节有助于疫苗与疗法设计;SciSpace提供了指导佐剂开发以优化疫苗效果的见解(图7D)。这些概念性见解与文献结论相呼应,支持在疫苗接种中采用整体性策略,将肠道微生物群状态作为影响免疫结果的重要因素。

总结

在系统疫苗学的背景下,本研究评估的大语言模型均展示了事实回忆、模式识别和结构化假设构建的能力。在三个案例研究中,它们成功检索已知免疫调控机制、构建连贯假设,并提出可行的实验方案,突显了其在系统层面分析中的实用性。具体而言,ChatGPT-4.5展示了最高水平的整合性推理能力,能够将代谢、微生物与免疫过程概念性地联系起来;SciSpace在文献检索方面表现有效,但在机制深度上有所局限;LLaMA-70B提供了更广泛但细节较少的回答,反映出其通用架构特点。尽管如此,这些模型生成的假设或实验提议尚不足以直接支持实证测试,其输出主要是对已知发现的重组或对既有机制的复述,体现了其依赖现有文献而非以发现为驱动的推理能力。

本文采用的四层评估框架涵盖事实准确性、假设生成、实验设计及概念整合,主要依赖专家定性评估。这引入了潜在主观性,因为未使用评分者间一致性或量化距离指标。此外,训练语料与评估语料的重叠可能影响模型表现,且单轮提示的使用无法模拟人类研究工作流程中的迭代对话。未来评估应纳入多轮提示和链式思维推理,以更真实地模拟科研实践。同时,本研究关注文本推理,未涵盖快速发展的多模态模型,而多模态模型能够整合文本、分子和成像数据,可能更适合分析复杂生物系统。

参考链接:

https://doi.org/10.1126/sciimmunol.adx1794

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档