测试条件:小型项目,3个页面(分步骤表单页、报告页、对接到Dify聊天),后端功能仅有计分及分数加权调整规则。已经整理出较为详细明确的需求文档,并且引导AI生成了技术架构文档。
测试架构:Nodejs+React+Vite; Remix+Vite
测评标准
本测评标准是站在不懂代码的产品经理、业务人员的角度。
100分:人类完全不看代码,只需要点同意,即可完成全部功能开发及后续的测试全流程。
80分:人类需要了解项目架构,需要参与测试,并粘贴反馈出错信息。AI根据出错信息可以自动完成修复。
60分:人类需要看懂代码,需要参与测试。在AI陷入无法修改的死循环时,需要人类精确指出问题所在。
测试结论
Trae + Claude 3.7 Sonnet:大致75分,还是需要手工修一些代码,并且有的Bug反复尝试10次以上,人工辅助定位了位置,但始终无法修复。可惜就是免费限流了。
Trae + DeepSeek-R1:大致70分。幻觉多一些,也会偷懒,出错概率高于 Claude 3.7 。
VSCode + Cline + Gemini 2.0 Flash Thinking:大致70分。Gemini 2.0上下文窗口很大,可以一次性快速生成超多代码,具备多模态能力,都是加分项。拖后腿的是 Cline,对IDE的集成度、RAG策略还是不够,导致经常陷入Bug反复修改无效。Cline 的MCP功能很好。
VSCode + 通义灵码 + qwen2.5-max :60分以下,因为通义灵码对整个IDE的集成度不够。在不指出引用文件情况下,会导致完全孤立的去修改一个文件,导致全局灾难。
总结
当前时间节点(2025.03.16), AI 编程还没达到代替中级工程师的程度。受限于上下文窗口、RAG策略、多层级记忆、长期记忆策略,还无法达到像人类一样记住工程全局,只适用于构建迷你项目。
生成的代码也容易把简单的需求给复杂化,导致难以调试,又无法依赖AI精简、重构。
特别是 DeepSeek R1幻觉太多,老是给自己加戏,引入复杂性。
说明:以上测试结论有个人主观感觉,仅供参考。
建议
构建大型工程时,还是采用自己熟悉的框架。让AI在其中只参与小模块的开发。
并且让AI尽量不要动已有的代码,很容易引入新的错误。
领取专属 10元无门槛券
私享最新 技术干货