首页
学习
活动
专区
圈层
工具
发布

分数全是水分!SWE-bench Verified 早已失去 AI 编程评测意义

快速阅读:SWE-bench Verified 正在失去衡量前沿编程能力的意义。由于测试用例设计缺陷以及严重的训练数据污染,高分不再代表真实的工程能力,而更像是模型在“背诵”已知题解。

现在的编程基准测试,越来越像一场大型的背题比赛。

SWE-bench Verified 的分数看似在爬坡,实则充满了水分。通过对模型失败案例的审计,发现近 60% 的题目存在设计缺陷:要么是测试用例太“窄”,非要模型用某个特定的函数名才能通过,哪怕逻辑完全正确也会被判错;要么是测试用例太“宽”,要求模型实现任务描述之外的额外功能。这种测量系统在没经过严格验证前就成了行业标准,本身就很荒谬。

更棘手的是数据污染。因为这些题目来自开源代码库,模型在训练阶段很可能已经“见过”这些题目和答案。有网友提到,一些模型甚至能逐字背出任务描述和修复补丁的细节。这让评估变成了一种极其不公平的竞争:比的不是谁逻辑更强,而是谁在训练时“刷”过的题更多。

这就陷入了一个怪圈:任何公开的基准测试,一旦发布,就会迅速渗入训练集,然后被模型开发者针对性地优化,最后导致基准测试失效。

有观点认为,解决办法或许在于建立更多私有的、由专家编写的、无法轻易被爬虫抓取的评测体系。如果不解决“考题泄露”和“判卷标准不统一”的问题,我们看到的所谓 AI 进化,可能只是在数据噪声中进行的无效摆动。

当分数不再能代表真实生产力,我们该如何定义 AI 的进步?

openai.com/zh-Hans-CN/index/why-we-no-longer-evaluate-swe-bench-verified/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8uB2CUoxFaIDJZLxSk8Bc3A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券