
传统代码基准已趋饱和,项目级工程能力才是 AI 助手的真正考场
首个面向代码智能体工程能力的项目级评测数据集 PRDBench 正式发布。该数据集包含 50 个真实 Python 项目,覆盖 20 个主流领域,共计 1258 个多样化评测点(单元测试 408、Shell 交互 732、文件比对 118)评测表明,当前最优代码智能体开发通过率可达 69.2%,主流模型开发通过率在 11% 到 69% 之间,代码智能体的工程能力仍有巨大提升空间。自动化评测工具 PRDJudge 平均每个项目耗时 7 分钟,API 成本 2.68 美元,其核心评估模型 PRDJudge 与人工评测一致率达 92.7%。
目前该研究论文《Automatically Benchmarking LLM Code Agents through Agent-driven Annotation and Evaluation》已被 AAMAS 2026 接收。

PRDBench 的评测榜单未来将由 AGI-Eval 长期维护更新,欢迎持续关注。榜单和论文地址如下:

近年来,大语言模型驱动的代码智能体能力快速提升,从单文件代码生成向完整项目级软件开发迈进。然而,现有评测基准面临两大瓶颈:
因此,业界亟需一种低成本、高逼真度的项目级评测方案。
PRDBench 是一套面向大模型代码智能体工程能力的专业评测数据集,专注于项目级自动化开发与评测。其核心设计如下:
项目需求来自 AI 产品开发平台的实际 prompt、CNKI 学术论文、大学课程作业项目,所有任务均可用 Python 实现。
PRDBench 采用智能体驱动的人工督导标注流程,大幅降低人工成本。仅需具备本科计算机基础知识的标注者,平均每个项目 8 小时即可完成,而传统方法需专家数天。

以餐饮供应链智能分析与优化系统为例,下面这个PRD 详细描述了针对给定excel文件内 92 家麦当劳门店的配送网络规划需求。
Agent 需解决在复杂地理网络中通过多维加权分析与动态聚类寻找最优仓储位置的核心痛点。开发任务涵盖了数据标准化预处理、基于轮廓系数的 K-means 智能分区、重心法选址结果可视化等核心模块。
相应地,验收规则严密覆盖了单元测试(算法精度)、Shell 交互(环境与数据校验)、代码静态分析(规范检查)及文件输出比对等多种类型,确保了从数学建模到代码实现的全链路可靠性

PRDBench 包含 50 个真实 Python 项目,覆盖数据处理、机器学习、图像处理、文本分析等 20 个主流领域(图3)。

每个项目平均 PRD 描述长达 105 行,代码脚手架平均规模为 2583 行(最短 188 行,最长 9185 行)(图4),确保了任务的真实性与复杂度。

与现有项目级基准相比(表1),PRDBench 在任务多样性、评测点数量和自动化程度上均有显著提升。

为支撑大规模可靠评测,我们研发了专用评估模型 PRDJudge(基于 Qwen3-Coder-30B 微调)。PRDJudge 配备六大核心工具(文件读写、命令行执行、图像处理、系统命令、评测工具等),能够自动执行三类测试并生成详细报告(图5)。

为了确保评测的准确性和可靠性,我们为 PRDJudge 制定了明确的评分标准:
在模型训练过程中,我们采用了严格的人工标注和质量控制措施。从初步生成的 2147 条评测轨迹中,经过两轮质量筛选(包括结果匹配与轨迹有效性验证),最终保留了 911 条高质量的训练数据用于微调。这一过程确保了 PRDJudge 能够学习到与人类专家一致的评估标准。
微调后的 PRDJudge 在 PRDBench 上表现出高效、稳定、准确的评估能力(表2):

各智能体的规格与开源状态详见表3。

我们在数据集上评测了当前主流代码智能体,包括商业版(Claude Code、Gemini CLI、CodeX、Qwen Code)和基于 ADK 的最小化智能体(使用 Claude-4.5-Sonnet、Gemini-3-Pro、GPT-5.2、Qwen3-Coder 等作为骨干模型)。各模型在开发和调试阶段的平均通过率如 表4 所示。

主要发现:
从测试类型看(图6),三类测试的错误率分布较为均衡,单元测试的调试难度最高(需理解测试代码逻辑),而 Shell 交互和文件比对相对容易(仅需比对输入输出)。

在资源消耗上,商业智能体普遍比最小化智能体耗费更多时间和 token。例如,Gemini CLI 在开发阶段耗时 2740 秒,而最小化 Gemini-3-Pro 耗时 1838 秒。调试阶段,Gemini 的输入 token 消耗是其他模型的 2 倍以上。代码修改量方面,GPT-5.2 和 Gemini-3-Pro 改动较大(约 1500 行),而 Claude Code 和 Qwen Code 仅做微调(约 100 行),体现出不同的调试策略(详见论文表8)。
此外,PRDBench 支持自由开发模式(仅提供 PRD,不固定接口),以模拟真实开发场景。实验显示(图7),自由开发模式下模型得分普遍下降,但相对排名保持稳定,方差更小(0.011 vs 0.028),说明 PRDBench 在两种模式下均能有效区分模型能力。

在现实的生产力场景下,我们进一步分析了各智能体的性能与成本关系。如图8所示,Qwen3模型、GPT5模型驱动的简易智能体和Claude Code组成了当前code agent的帕累托前沿曲线,分别在各个性能区间段达成了最优的性价比。

PRDBench 通过智能体驱动的构建与评测,大幅降低了项目级基准的构建成本,同时提供了更贴近工程实践的多样化评测。实验表明,当前最优代码智能体在工程级任务上开发通过率可达 69.2%,但整体平均水平仍待提升,特别是在调试能力上仍有巨大改进空间。
未来,我们将进一步优化 PRDJudge 的稳定性,探索通过 SFT 和强化学习提升其评测准确性,并扩展更多编程语言和工程场景。欢迎广大研究者与开发者使用、贡献,共同推动代码智能体迈向真正的工程级智能
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。