Gemini 3 DeepThink在Codeforces上拿到了3455分。这个数字意味着什么?全球目前只有7个人类选手的评分比它高。
一年前,我们还在争论AI能不能稳定解决中等难度的竞赛编程题。
这让我想起国际象棋的历史轨迹。如今随便一个廉价引擎的ELO都能超过3500,而人类最强棋手卡尔森的巅峰也不过2882。编程领域正在重演这一幕。
但有趣的是,这些能拿金牌的AI,到了真实工作场景却常被程序员吐槽“不好用”。这并不矛盾。
奥运射击冠军未必是好士兵,优秀士兵也可能打靶平平。
Codeforces是自洽的谜题游戏,输入明确,输出可验证。而真实的软件工程是另一回事:代码库庞大混乱,需求模糊不清,你要写的不只是“能跑的代码”,而是“别人能读懂、能维护的代码”。
有人分享了一个案例:用Claude 4.5 Opus“氛围编程”出一个复杂应用,能跑,但代码一团糟,800行的文件里数据库调用、业务逻辑、输出展示混成一锅粥。换成Claude 4.6 Opus,明确要求重构,立刻出现了接口、工厂模式、依赖注入、CSRF防护。从初级水平瞬间跃升到高级工程师水准。
区别在哪?提示词的质量。
程序员的核心工作从来不是写代码本身,而是把模糊的问题空间理解透彻,然后用确定性的方式表达出来。代码只是那个表达的载体。AI加速的是后半段,但前半段的认知负担并没有消失。
当然,也有人质疑这个成绩的含金量。Codeforces的题目和解法很可能都在训练集里,而且Google声称测试时“没有使用工具”,这意味着AI连编译检查和样例验证都没做。在真实比赛中,这是不可能的流程。
不过,即便打个折扣,趋势已经很清晰:在可验证问题的领域,人类写代码的经济意义正在快速消退。就像下棋一样,人们当然还会为了乐趣继续写代码,但商业逻辑会把这件事交给机器。
剩下的问题是:那些不容易验证的问题呢?
reddit.com/r/singularity/comments/1r32pbn/gemini_3_deepthink_has_a_3455_rating_on