当AI在编程竞赛中只剩7个人类对手

文章来源：企鹅号 - AI可可AI生活

Gemini 3 DeepThink在Codeforces上拿到了3455分。这个数字意味着什么？全球目前只有7个人类选手的评分比它高。

一年前，我们还在争论AI能不能稳定解决中等难度的竞赛编程题。

这让我想起国际象棋的历史轨迹。如今随便一个廉价引擎的ELO都能超过3500，而人类最强棋手卡尔森的巅峰也不过2882。编程领域正在重演这一幕。

但有趣的是，这些能拿金牌的AI，到了真实工作场景却常被程序员吐槽“不好用”。这并不矛盾。

奥运射击冠军未必是好士兵，优秀士兵也可能打靶平平。

Codeforces是自洽的谜题游戏，输入明确，输出可验证。而真实的软件工程是另一回事：代码库庞大混乱，需求模糊不清，你要写的不只是“能跑的代码”，而是“别人能读懂、能维护的代码”。

有人分享了一个案例：用Claude 4.5 Opus“氛围编程”出一个复杂应用，能跑，但代码一团糟，800行的文件里数据库调用、业务逻辑、输出展示混成一锅粥。换成Claude 4.6 Opus，明确要求重构，立刻出现了接口、工厂模式、依赖注入、CSRF防护。从初级水平瞬间跃升到高级工程师水准。

区别在哪？提示词的质量。

程序员的核心工作从来不是写代码本身，而是把模糊的问题空间理解透彻，然后用确定性的方式表达出来。代码只是那个表达的载体。AI加速的是后半段，但前半段的认知负担并没有消失。

当然，也有人质疑这个成绩的含金量。Codeforces的题目和解法很可能都在训练集里，而且Google声称测试时“没有使用工具”，这意味着AI连编译检查和样例验证都没做。在真实比赛中，这是不可能的流程。

不过，即便打个折扣，趋势已经很清晰：在可验证问题的领域，人类写代码的经济意义正在快速消退。就像下棋一样，人们当然还会为了乐趣继续写代码，但商业逻辑会把这件事交给机器。

剩下的问题是：那些不容易验证的问题呢？

reddit.com/r/singularity/comments/1r32pbn/gemini_3_deepthink_has_a_3455_rating_on

相关快讯