首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >模型评测|国产模型偷摸删库且装聋作哑

模型评测|国产模型偷摸删库且装聋作哑

作者头像
苏奕嘉
发布2025-11-13 17:48:42
发布2025-11-13 17:48:42
2040
举报

引言

MiniMax M2 发布已经十天左右了,本觉得不写一记评测了,但是感觉它算是给当下的国产 Coding 模型又注入了一记强心剂,毕竟从榜单来看,已经与 Claude 4.5 拉到了一个水位线,而且速度要远快于 Claude,价格也只有 Claude 4.5 的 8% 左右,同时发布还搞了14天的无限Coding API的活动,不可谓诚意不足和力度不大,同时信心也满满当当。

但是在实际的生产过程中,到底和 Claude 4.5 是不是在同一水位线的?这可能也是诸多同学心中疑惑的事情,如果有个结论,不是软广,而是民间客观的三方评测,就可以判断要不要用 MiniMax M2 替换对国人不友好又贵一批的 Claude 4.5了,今天我就结合我这一段时间的使用测试对比,来给大家一个简单的非专业民间测评报告。

结论

先说结论:

  1. 1. 如果你是在非核心代码上,利用 Claude Code 接入 MiniMax M2 做 Coding 任务,它在初中级的任务表现中是满足要求的,速度还比 Claude 4.5 更快
  2. 2. 如果你是在核心代码或者疑难问题上,MiniMax M2 的能力还是距离 Claude 4.5 有一定距离
  3. 3. 使用 Claude Code 接入 MiniMax M2 以后,会有无法临时接管中止的隐患,除非它自己把单一任务完成后才会接受中间用户输入的信息,这应该是和 Claude Code兼容性的问题,所以尽量不要给他长任务,容易给你一顿祸祸,除非你重新开一个 Session 重新让它进行新任务,否则只要 resume,它就大概率会接着干
  4. 4. MimiMax M2 在速度和价格方面的确是优于 Claude Code 的,但是距离全面持平能力水准,还得再精进一步,所以可以在 Agent 路由时做一些调整,将 MiniMax M2 调整到简易任务方向,这样对整体的成本和速度也会有一定量的影响效果
  5. 5. MiniMax M2 属于 Coding 第一梯队的模型

评测环境

  • • Code Agent:Claude Code v2.0.30
  • • LLM:Claude Sonnet 4.5 VS MiniMax M2
  • • 问题描述:
    • Apache Doris MCP Server 在 0.6.0 版本中,有一个相对复杂的BUG,在多 Worker 模式下,如果使用 Token 认证的方式,会出现无法绑定 tokens.json 文件内 Token 和数据库的映射关系的问题,导致多 Worker 只能在初始绑定数据库以后才能正常工作
  • • 开发环境:本地 Mac、远程服务器-RockyLinux 9.6(已完成SSH免密)、Python 3.12

评测过程

  • • 分别使用 Claude Sonnet 4.5 和 MiniMax M2 对原问题和原代码进行描述,Prompt 尽量保持一致
  • • 在人工干预的过程中,尽量不做方向引导,只告知“继续”、“还不对”等延续性提示词
  • • 以双方谁最终解决问题的交互步骤最少,耗时最少,Message 数最少以及解决问题的质量最好为评测对比项,以此得出结论

为提升观看效率,这里就不一一贴出执行过程了,直接上一个对照表给各位展示

Claude Sonnet 4.5 执行总结:

MiniMax M2 执行总结:

LLM

交互次数

耗时

Message数

是否解决问题

Claude Sonnet 4.5

15

32min

678

解决

MiniMax M2

40+

3min 12min

1429

未解决

在整个对比测试的执行过程中,先测试的是 MiniMax M2,但是任我无论怎样做,到后面甚至我不断的在做有效提示,诸如:问题应该是 db.py 在 Token 传递过程中绑定失败导致的问题,可排查 db.py 和多 Worker 引擎之间的变量传递问题。

但是没用,直到消耗光我最后的耐心。

我说:就这样吧。

它说:建议用单 Worker 工作模式,稳定且可靠。

谢谢你~

抓狂时刻

在日常简单任务处理时,我也总希望能纠正这些 Coding 智能体的不正确时刻,因为一来浪费时间,二来很可能改的面目全非,然后再 Restore Code,总之是小心在用,但是我在 MiniMax M2 身上,看到了一个实习生且性格是犟种的影子……

比如删库:

比如装聋:

还好是测试开发的库,数据内容并不重要,但这里也提醒大家,尽量别直接上手业务库或者生产数仓,以免给你造成提桶跑路的损失~

小结

MiniMax M2 整体是超出预期的,因为对照之前用 DeepSeek 以及 K2 非 Thinking 版本,以及 Qwen3 系列,效果都还是在预期内,在顶级之下,MiniMax M2 的能力的确是强一截,但客观的说,距离最佳 Coding 模型,还需要一点点时间。

这也并非我长别人志气,灭自家威风,我深刻的希望国产 LLM (我也充了不少钱作为支持)在 Coding 模型方面把 Claude 这叼毛按在地上摩擦,但是我们一定要客观的看待事情,现在已经看到希望了,希望年前看到超越吧!加油!

后续抽空同样的场景看看 Kimi K2 Thinking 版本的能力,看是否有进一步提升。

如果有想加入 AI4Data 交流群、Apache Doris 官方社群、PowerData 官方社群的,可以加我微信:fl_manyi

技术你们还想看什么方向的,可以评论或者私聊,参考大家意见一起研究~

看到这了,来个点赞转发在看吧,这就是最大的鼓励了。

下篇再会!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Apache Doris 补习班 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 结论
  • 评测环境
  • 评测过程
  • 抓狂时刻
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档