分数全是水分！SWE-bench Verified 早已失去 AI 编程评测意义

文章来源：企鹅号 - AI可可AI生活

快速阅读：SWE-bench Verified 正在失去衡量前沿编程能力的意义。由于测试用例设计缺陷以及严重的训练数据污染，高分不再代表真实的工程能力，而更像是模型在“背诵”已知题解。

现在的编程基准测试，越来越像一场大型的背题比赛。

SWE-bench Verified 的分数看似在爬坡，实则充满了水分。通过对模型失败案例的审计，发现近 60% 的题目存在设计缺陷：要么是测试用例太“窄”，非要模型用某个特定的函数名才能通过，哪怕逻辑完全正确也会被判错；要么是测试用例太“宽”，要求模型实现任务描述之外的额外功能。这种测量系统在没经过严格验证前就成了行业标准，本身就很荒谬。

更棘手的是数据污染。因为这些题目来自开源代码库，模型在训练阶段很可能已经“见过”这些题目和答案。有网友提到，一些模型甚至能逐字背出任务描述和修复补丁的细节。这让评估变成了一种极其不公平的竞争：比的不是谁逻辑更强，而是谁在训练时“刷”过的题更多。

这就陷入了一个怪圈：任何公开的基准测试，一旦发布，就会迅速渗入训练集，然后被模型开发者针对性地优化，最后导致基准测试失效。

有观点认为，解决办法或许在于建立更多私有的、由专家编写的、无法轻易被爬虫抓取的评测体系。如果不解决“考题泄露”和“判卷标准不统一”的问题，我们看到的所谓 AI 进化，可能只是在数据噪声中进行的无效摆动。

当分数不再能代表真实生产力，我们该如何定义 AI 的进步？

openai.com/zh-Hans-CN/index/why-we-no-longer-evaluate-swe-bench-verified/

发表于: 1天前2026-04-27 06:56:18
原文链接：https://page.om.qq.com/page/O8uB2CUoxFaIDJZLxSk8Bc3A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

分数全是水分！SWE-bench Verified 早已失去 AI 编程评测意义

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐