据报道,在斯坦福大学临床医疗AI横评中,DeepSeek R1以66%胜率夺冠。研究团队构建了含35个基准测试的综合评估框架,覆盖22个子类别医疗任务,并经过临床医生验证。DeepSeek R1在临床决策支持、临床病例生成等任务中表现出色,领先于o3-mini、Claude 3.7 Sonnet等模型。此外,大语言模型评审团评估方法被认为比标准词汇指标更能反映临床医生的判断。
分享快讯到朋友圈
领取专属 10元无门槛券
私享最新 技术干货