MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 Claude,价格也只有 Claude 4.5 的 8% 左右,同时发布还搞了14天的无限Coding API的活动,不可谓诚意不足和力度不大,同时信心也满满当当。
但是在实际的生产过程中,到底和 Claude 4.5 是不是在同一水位线的?这可能也是诸多同学心中疑惑的事情,如果有个结论,不是软广,而是民间客观的三方评测,就可以判断要不要用 MiniMax M2 替换对国人不友好又贵一批的 Claude 4.5了,今天我就结合我这一段时间的使用测试对比,来给大家一个简单的非专业民间测评报告。
先说结论:
tokens.json 文件内 Token 和数据库的映射关系的问题,导致多 Worker 只能在初始绑定数据库以后才能正常工作为提升观看效率,这里就不一一贴出执行过程了,直接上一个对照表给各位展示
Claude Sonnet 4.5 执行总结:

MiniMax M2 执行总结:

LLM | 交互次数 | 耗时 | Message数 | 是否解决问题 |
|---|---|---|---|---|
Claude Sonnet 4.5 | 15 | 32min | 678 | 解决 |
MiniMax M2 | 40+ | 3min 12min | 1429 | 未解决 |
在整个对比测试的执行过程中,先测试的是 MiniMax M2,但是任我无论怎样做,到后面甚至我不断的在做有效提示,诸如:问题应该是 db.py 在 Token 传递过程中绑定失败导致的问题,可排查 db.py 和多 Worker 引擎之间的变量传递问题。
但是没用,直到消耗光我最后的耐心。
我说:就这样吧。
它说:建议用单 Worker 工作模式,稳定且可靠。
谢谢你~
在日常简单任务处理时,我也总希望能纠正这些 Coding 智能体的不正确时刻,因为一来浪费时间,二来很可能改的面目全非,然后再 Restore Code,总之是小心在用,但是我在 MiniMax M2 身上,看到了一个实习生且性格是犟种的影子……
比如删库:

比如装聋:

还好是测试开发的库,数据内容并不重要,但这里也提醒大家,尽量别直接上手业务库或者生产数仓,以免给你造成提桶跑路的损失~
MiniMax M2 整体是超出预期的,因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型,还需要一点点时间。
这也并非我长别人志气,灭自家威风,我深刻的希望国产 LLM (我也充了不少钱作为支持)在 Coding 模型方面把 Claude 这叼毛按在地上摩擦,但是我们一定要客观的看待事情,现在已经看到希望了,希望年前看到超越吧!加油!
后续抽空同样的场景看看 Kimi K2 Thinking 版本的能力,看是否有进一步提升。
如果有想加入 AI4Data 交流群、Apache Doris 官方社群、PowerData 官方社群的,可以加我微信:fl_manyi
技术你们还想看什么方向的,可以评论或者私聊,参考大家意见一起研究~
看到这了,来个点赞、转发和在看吧,这就是最大的鼓励了。
下篇再会!
本文分享自 Apache Doris 补习班 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!