首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当前的AI编程能力实测

测试条件:小型项目,3个页面(分步骤表单页、报告页、对接到Dify聊天),后端功能仅有计分及分数加权调整规则。已经整理出较为详细明确的需求文档,并且引导AI生成了技术架构文档。

测试架构:Nodejs+React+Vite; Remix+Vite

测评标准

本测评标准是站在不懂代码的产品经理、业务人员的角度。

100分:人类完全不看代码,只需要点同意,即可完成全部功能开发及后续的测试全流程。

80分:人类需要了解项目架构,需要参与测试,并粘贴反馈出错信息。AI根据出错信息可以自动完成修复。

60分:人类需要看懂代码,需要参与测试。在AI陷入无法修改的死循环时,需要人类精确指出问题所在。

测试结论

Trae + Claude 3.7 Sonnet:大致75分,还是需要手工修一些代码,并且有的Bug反复尝试10次以上,人工辅助定位了位置,但始终无法修复。可惜就是免费限流了。

Trae + DeepSeek-R1:大致70分。幻觉多一些,也会偷懒,出错概率高于 Claude 3.7 。

VSCode + Cline + Gemini  2.0 Flash Thinking:大致70分。Gemini  2.0上下文窗口很大,可以一次性快速生成超多代码,具备多模态能力,都是加分项。拖后腿的是 Cline,对IDE的集成度、RAG策略还是不够,导致经常陷入Bug反复修改无效。Cline 的MCP功能很好。

VSCode + 通义灵码 + qwen2.5-max :60分以下,因为通义灵码对整个IDE的集成度不够。在不指出引用文件情况下,会导致完全孤立的去修改一个文件,导致全局灾难。

总结

当前时间节点(2025.03.16), AI 编程还没达到代替中级工程师的程度。受限于上下文窗口、RAG策略、多层级记忆、长期记忆策略,还无法达到像人类一样记住工程全局,只适用于构建迷你项目。

生成的代码也容易把简单的需求给复杂化,导致难以调试,又无法依赖AI精简、重构。

特别是 DeepSeek R1幻觉太多,老是给自己加戏,引入复杂性。

说明:以上测试结论有个人主观感觉,仅供参考。

建议

构建大型工程时,还是采用自己熟悉的框架。让AI在其中只参与小模块的开发。

并且让AI尽量不要动已有的代码,很容易引入新的错误。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQiLt6s19t7tdsFhS308OSCQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券