
PR 量暴涨、DORA 稳定性下滑——20% AI 幻觉可在本地消灭,别浪费 reviewer 带宽
如果你读过《Generated Code is Real Code》,那篇讲的是 merge 责任永远在人手里。
JetBrains 2026 年 5 月又发了一篇更「刺」的续篇:
Stop Sending IDE-Catchable AI Code Errors to Review(别把 IDE 能抓的错误扔给 reviewer)
核心论点一句话:reviewer 的判断力是有限资源。 每一个本该在 IDE 里消灭的结构错误,到了 PR 里都在消耗它。
AI 把写码速度抬上去了,但 review 带宽没跟着涨。这篇按 JetBrains 博文 与多篇 2025–2026 实证研究,拆三件事:
1. 为什么 PR 洪水正在压垮 review
2. AI 代码带来了什么新缺陷画像
3. 个人和团队该怎么把错误拦在 PR 之前
JetBrains 2025 开发者生态调查(样本 24,000+ 开发者)显示:多数团队对 AI 工具的使用仍是 ad hoc——开发者按自己习惯用,组织层治理很少。
这意味着:PR 变多、变大的趋势,往往先于流程改造发生。
来源 | 样本 / 方法 | 关键数字 |
|---|---|---|
DX Q4 2025 报告 | 51,000 开发者 | 每日 AI 用户 每周 merge PR 多 60% |
2025 企业 RCT | 3 家企业对照实验 | 有 AI 助手组 每周完成任务多 26% |
翻译成人话:同样一班 reviewer,每天要做的决策更多了。
早在 AI 写码流行之前,PSP 研究数据 就表明:review 速率 是影响缺陷检出率的显著因素——控制开发者能力之后,每行 review 时间越少,检出的缺陷越少。
技能再好,也补不了「赶」。
AI 工具理论上该帮忙缩小「reviewer 看到什么」和「reviewer 需要知道什么」之间的鸿沟——但多项 2024–2025 研究显示:鸿沟还在,甚至变宽了。
几个常被引用的反直觉数据:
研究 | 发现 |
|---|---|
2024 某公司 AI review 工具 | 73.8% 自动评论被采纳,但 PR 关闭时间仍 +42% |
2025 年 16 款 AI review 工具实证 | 22,000+ 评论分析,效果差异极大 |
2026 年 1 月研究 | 有效 review 需串联 issue、文档、讨论、CI——远不止 diff 快照 |
AI review bot 能扫掉一部分低垂果实,但 「评论多了」≠「负担轻了」。
人类 reviewer 仍然要回答:这段改动在整库上下文里意味着什么? 这是 AI 辅助写码放大、而非自动解决的问题。
2025 年 50 万+ 代码样本分析 指出,AI 生成代码的错误分布与人类不同:
• 未使用构造 更常见
• 硬编码值 更常见
• 高风险安全漏洞 出现频率更高
另一项 2025 研究 还识别出 人类代码里几乎没有对应类别 的缺陷类型——不是「多一点 typo」,而是 新的错误模式。
2026 年 1 月研究 发现一个盲点:AI 生成的 PR 含有 近两倍代码冗余,reviewer 的 负面反应反而更少。
表面看起来「像那么回事」,就会降低批判性审视——体积更大、 scrutiny 更少,是危险的组合。
DORA 2025 Gen AI 报告 给出趋势信号:
AI 采纳率每增加 25%,交付稳定性约下降 7.2%。
部分归因于 更大的 changeset:生成更多代码 → 单次 PR 更大 → 历史上「大批量」一直预测更高不稳定性。
Size 是信号;缺陷画像和审查松懈,解释了信号背后可能是什么。
同一批 hallucination 研究 估计:大约 20%–25% 的 AI 代码幻觉,可通过 自动化结构与静态分析 在写码环境中检出——开 PR 之前。
不需要新治理框架,不需要多一层流程会议。IDE 里跑起来就行。
反过来看:研究还指出约 44% 的幻觉 没有任何自动化检查能可靠发现——这已经足够占满 reviewer 的注意力了。
结论很硬:把机器能拦的拦掉,把人的带宽留给机器拦不住的。
个人 IDE 检查之外,成熟团队会在 pipeline 上游 做制度化投入:
案例 | 做法 |
|---|---|
Google LLM 代码迁移 | Reviewer 频繁 revert AI 改动 → 组织 刻意投资自动化验证 减负 |
Uber uReview | 每周数万变更 + AI 辅助开发压垮 reviewer → 建 人类介入前的自动 review 系统 |
共同点:不是指望 reviewer 硬扛产量,而是把可自动化的筛选前移。
2025 Stack Overflow 调查 显示开发者平均使用 3.6 个 开发环境——通常由个人按语言和习惯自选。
对个人来说,单一语言 + 配置良好的近似检查可能「感觉够用」。
对组织来说:团队检查质量的上限 = 最弱的那套环境。 多人、多语言、多 AI 工具并行时,「语言级近似」和「全库深度结构模型」的差距会被放大。
JetBrains 的划分值得记:
写码时(IDE 深度结构模型)
↓ 同一套规则
CI/CD(如 Qodana 等静态分析)
↓
人类 Reviewer(架构、业务、安全、可维护性)
IDE 层:任何进入编辑器的代码——无论哪个 AI 工具生成——都对齐全库结构模型检查。
Pipeline 层:把同一深度延伸到 merge 门禁,防止「我本地没开检查」的漏网之鱼。
这和《Generated Code is Real Code》里的 四层责任链 第 2 层完全对齐:
Agent 生成 → IDE 检查/静态分析 → 本地测试 → 再开 PR
merge 负责人不是垃圾回收站。
不绑定特定厂商,任何团队都能落地的最小流程:
git diff --stat
git diff
目标:确认 改了什么、改了多少文件——巨型 AI dump PR 直接拆小。
• 类型错误、未解析引用、未使用 import
• 明显 dead code、不可达分支
原则:带着红线不开 PR。
按栈选工具(示例):
IDE 检查 + SpotBugs / Qodananpm test -- --testPathPattern=changed-module
pytest tests/path/to/related/
Addy Osmani 的铁律在这里生效:你没亲眼看到它做对,就不算 work。
沿用 PR Contract 四要素(详见 merge 责任文):
1. What/Why
2. Proof it works(命令、日志、截图)
3. Risk + 哪些行是 AI 生成
4. 希望 reviewer 重点看什么
开 PR 前问自己:
错误类型 | 该在哪消灭 |
|---|---|
语法 / 类型 / 未使用变量 | IDE |
格式 / 简单 lint | pre-commit / CI |
架构一致性 / 业务逻辑 | Reviewer |
安全 / 鉴权 / 数据路径 | 具名 Owner + Reviewer |
凡是左列的,别扔给右列。
个人习惯解决不了产量问题,需要团队共识:
• 单 PR 行数上限(如 400 行,AI 辅助场景宜更严)
• 超限必须拆分或写 例外说明
与 JetBrains「真实代码」标准一致:合入前主分支构建 不应处于损坏状态——包括 IDE 可抓的结构错误。
跟踪 每周人均 review 时长 vs merge PR 数。若 PR 数 +60% 而 review 时长不变,漏检率上升是数学必然,不是态度问题。
已发文 | 本文补上的那块 |
|---|---|
《Generated Code is Real Code》 | 第 2 层「工具先拦」的 数据与操作细节 |
《Agentic Coding Report 解读》 | 60% 用 AI、仅 0–20% 敢放手 → 多出来的产出去哪了 |
GPT-5.3-Codex / Agent HQ 选型 | Agent Loop 跑得快 → 更要在本地验证闭环 |
一句话收束:
AI 提高了代码产量;IDE 和静态分析负责把低价值错误挡在 PR 外;reviewer 的判断力,只留给真正需要人的问题。
Generated code is real code——所以 real code 的红线,也请在 real IDE 里先清掉。
• JetBrains:Stop Sending IDE-Catchable AI Code Errors to Review(2026-05)
• JetBrains:Generated Code is Real Code — 合入责任链
• DORA:Gen AI Report
• DX:AI-Assisted Engineering Q4 Impact Report
• Addy Osmani:Code Review in the Age of AI
• 本号已发:《Generated Code is Real Code:AI 代码谁负责 merge?》
数字均标注来源与样本背景,宜作趋势参考;具体阈值请按团队栈与风险等级调整。