当前的AI编程能力实测

文章来源：企鹅号 - 智流

测试条件：小型项目，3个页面（分步骤表单页、报告页、对接到Dify聊天），后端功能仅有计分及分数加权调整规则。已经整理出较为详细明确的需求文档，并且引导AI生成了技术架构文档。

测试架构：Nodejs+React+Vite; Remix+Vite

测评标准

本测评标准是站在不懂代码的产品经理、业务人员的角度。

100分：人类完全不看代码，只需要点同意，即可完成全部功能开发及后续的测试全流程。

80分：人类需要了解项目架构，需要参与测试，并粘贴反馈出错信息。AI根据出错信息可以自动完成修复。

60分：人类需要看懂代码，需要参与测试。在AI陷入无法修改的死循环时，需要人类精确指出问题所在。

测试结论

Trae + Claude 3.7 Sonnet：大致75分，还是需要手工修一些代码，并且有的Bug反复尝试10次以上，人工辅助定位了位置，但始终无法修复。可惜就是免费限流了。

Trae + DeepSeek-R1：大致70分。幻觉多一些，也会偷懒，出错概率高于 Claude 3.7 。

VSCode + Cline + Gemini 2.0 Flash Thinking：大致70分。Gemini 2.0上下文窗口很大，可以一次性快速生成超多代码，具备多模态能力，都是加分项。拖后腿的是 Cline，对IDE的集成度、RAG策略还是不够，导致经常陷入Bug反复修改无效。Cline 的MCP功能很好。

VSCode + 通义灵码 + qwen2.5-max ：60分以下，因为通义灵码对整个IDE的集成度不够。在不指出引用文件情况下，会导致完全孤立的去修改一个文件，导致全局灾难。

总结

当前时间节点（2025.03.16）, AI 编程还没达到代替中级工程师的程度。受限于上下文窗口、RAG策略、多层级记忆、长期记忆策略，还无法达到像人类一样记住工程全局，只适用于构建迷你项目。

生成的代码也容易把简单的需求给复杂化，导致难以调试，又无法依赖AI精简、重构。

特别是 DeepSeek R1幻觉太多，老是给自己加戏，引入复杂性。

说明：以上测试结论有个人主观感觉，仅供参考。

建议

构建大型工程时，还是采用自己熟悉的框架。让AI在其中只参与小模块的开发。

并且让AI尽量不要动已有的代码，很容易引入新的错误。

发表于: 2025-03-162025-03-16 05:48:41
原文链接：https://page.om.qq.com/page/OQiLt6s19t7tdsFhS308OSCQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

当前的AI编程能力实测

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐