昨天凌晨1点30分,OpenAI发布了一个专门针对医疗大模型的测试评估集——HealthBench。这一测试集包含了约5000段核心测试对话,全部由来自全球60个国家和地区的26个专业领域、共262名医生共同设计,极大提升了测试内容的难度、真实性和多样性。与传统的单轮答题或选择题不同,HealthBench采用多轮对话的形式进行评测。
数据显示,大型语言模型在医疗健康领域的表现取得了显著提升。例如,模型的准确率从之前GPT-3.5Turbo的16%提升到GPT-4o的32%,再到最新版本的o3达到60%,整体能力显著增强。尤其是小型模型方面,GPT-4.1nano不仅在性能上超越了GPT-4o,而且运行成本降低了25倍,表现尤为突出。
开源地址:https://github.com/openai/simple-evals
HealthBench 是由 OpenAI 介绍的一个高质量医疗大模型测试集。该测试集的数据来源于严格筛选的262名医生,这些医生是从1021名参与多轮测试的医生中挑选出来的。数据收集过程中,团队持续审核医生提交的数据质量,结合自动化质量指标和评分标准监控,定期对医生团队进行调整,以保证数据的可靠性和准确性。
HealthBench 的测试样本被分为7个主题和5个评估维度。7个主题涵盖了紧急转诊、情境寻求、全球健康、健康数据任务、专业沟通定制、不确定性下的应对策略以及回应的深度,每个主题聚焦于真实医疗场景中的关键问题,旨在考察模型在不同情境下的表现。5个评估维度包括准确性、完整性、沟通质量、情境理解以及对指令的遵循程度,这些维度帮助对模型的能力进行更全面且细致的分析。
多数对话内容是通过定制的大模型生成,开发团队与医生紧密合作,详细覆盖关键医疗场景。例如,包含用户逐步描述紧急医疗情况、医疗专家要求总结临床笔记以及对模糊查询进行澄清等情境,这些都被转换成多轮对话形式。此外,部分数据来源于医生针对大语言模型进行的红队测试,旨在发现模型存在的漏洞和不当反应;还有一部分借助Google发布的HealthSearchQA评估集,经大模型转换为用户与模型之间的对话。生成的对话会通过o1-preview模型进行相关性筛选,以保证内容真实、一致,且聚焦健康相关话题,没有遗漏信息。
制定评分标准是HealthBench核心环节。每条对话配有医生编写的评分准则,涵盖需要包含的关键信息、沟通清晰度以及对特定主题常见误解等方面。评分尺度从-10到10不等,既对优质回答给予奖励,也会惩罚错误或不合适的内容。
评测时,模型评分器会基于对话内容、模型回复及评分标准,单独判定每项标准是否满足。满足时,模型获得对应分数,否则不得分。最终将所有达标部分得分相加,除以该案例最高可能分数,计算出单次对话的得分。
在医生参与环节,OpenAI邀请他们针对HealthBench中的任务撰写理想回复。医生被分为三组:第一组仅凭自身知识(可访问互联网但不使用AI工具)编写;第二组参考2024年8-9月的GPT-4o及o1-preview模型生成的多个回应,并在此基础上进行优化;第三组则以2025年4月发布的GPT-4.1和o3模型的回复为参考进行撰写。结果显示,参考2024年模型回复的医生能够在准确性和完整度上明显提升响应质量,但对2025年表现更佳模型的回复,医生难以进一步改进。具体来看,针对2024年模型回复,医生改进的比例高于恶化(56.2%比39.8%),而对2025年模型回复的改进与恶化概率几乎持平(分别为46.8%和47.7%)。值得注意的是,未参考任何模型的医生给出的回复较简短,导致在HealthBench评分中表现不佳,因为评分与回复长度存在一定关联。
关于大模型的评测数据,元评估环节设立了34项共识评分标准。针对每个HealthBench示例,收集多名医生对模型响应是否满足标准的注释,并将其与模型评分器输出作对比。通过宏观F1分数(无加权平均各类别F1分数)评估评分器与医生评价的一致性,这样能平衡真阳性和假阳性的影响。基线采用三种方法:典型医生基线(衡量医生间评分一致性)、个体医生基线(记录单个医生的评分表现)和随机基线(根据经验阳性率随机预测,F1分数约为0.50)。以GPT-4.1作为主要模型评分器,结果显示其在所有测试主题上超越了随机基线,在7个主题里5个超过了平均医生得分,6个主题中进入了医生得分的上半区间,并且在所有主题中均高于医生得分的下三分之一水平。
结果显示,作为评分器的GPT-4.1能够达到与专家评分相当的水平。研究团队还对OpenAI于2025年4月发布的其他模型进行了元评估,其中GPT-4.1的表现最为出色,o4-mini和o3紧随其后,而GPT-4.1 mini和nano的表现则相对较弱。这种表现差异可能与GPT-4.1在提示优化阶段的使用有关。
另外,团队多次使用HealthBench对不同模型进行评测,发现模型得分的标准差仅约为0.002,说明整体评估结果波动较小,从侧面验证了HealthBench评测体系的稳定性和可靠性。
·
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·
领取专属 10元无门槛券
私享最新 技术干货