大家好,我是 Ai 学习的老章
Kimi 真能打 DeepSeek R1 吗?实测我用相同的几个题目测试了 DeepSeek R1、Kimi K2 Thinking、Qwen3-Max、文心一言 5.0
Gemini 3 Pro 来了,咱们也测测看,是否真的有如神助?# 国内免费使用 Gemini 3 Pro,最简单的方式是 Ollama #谷歌Gemini 3 Pro 屠榜,新的 Agent IDE 免费使用 Gemini 3 Pro、Claude Sonnet 4.5
排名非常主观,仅为个人见解,不代表所测模型真实水平,不喜勿碰。
省流: 第一题:Gemini 3 Pro > Kimi K2 Thinking DeepSeek > Qwen3-Max > 文心一言 5.0 第二题:Qwen3-Max =Gemini-3-Pro > DeepSeek > Kimi K2 Thinking >文心一言 5.0 第三题:Gemini-3-Pro >= DeepSeek > Kimi K2 Thinking > Qwen3-Max > 文心一言 5.0 第四题:Kimi K2 Thinking = Qwen3-Max > DeepSeek > Gemini-3-Pro > 文心一言 5.0 第五题:Gemini-3-Pro > Kimi K2 Thinking > DeepSeek > 文心一言 5.0 > Qwen3-Max 第六题:Kimi K2 Thinking > Gemini-3-Pro> DeepSeek > Qwen3-Max > 文心一言 5.0
Gemini 3 Pro 我是在 Google AI Studio 的 Playground 中测试的

把之前的几个模型测试结果都拿过来挺麻烦的,我只在部分题目中展现
有兴趣的同学查看我之前的文章即可
结论:Gemini 3 Pro > Kimi K2 Thinking DeepSeek > Qwen3-Max > 文心一言 5.0
Gemini 3 Pro 审美相当在线,还使用了更美观的字体,目前国产模型没有可以得及格分的,别说美观,连 4 次背影识别都做不到
缺点:第二次的原文引用有问题

如果它第二次可以引用正确,那就比 Claude 3.7 还要优秀了
下面是 N 多月之前我用 Claude 3.7 绘制的 svg,一直被当做标准答案

背影分析.png

Gemini-3-Pro
这个很难排名,只能说它生成的相当清爽、干净、最有人体轮廓👤
看过其他模型的结果,才发现之前有超预期发挥的案例是用了 html 实现,而非我要求的 svg
结论:Qwen3-Max =Gemini-3-Pro > DeepSeek > Kimi K2 Thinking >文心一言 5.0

DeepSeek

K2 Thinking & Qwen3-Max
结论:Gemini-3-Pro >= DeepSeek > Kimi K2 Thinking > Qwen3-Max > 文心一言 5.0
Gemini-3-Pro 更应题,而且也很流畅、干净、美观

DeepSeek 也很响应题目,其他模型也都能完成,但多少有点画蛇添足

K2 也还行,可以增加星云数量,Qwen3-Max 生成的结果,右侧参数栏很多摆设
Gemini-3-Pro 生成的事全球清洁能源与碳排放实时监控指挥中心仪表盘,这很谷歌
但是它是用了 Pyecharts,有点弱鸡了,经历了三次 bug 修复才成功,结果还特别差劲,无力吐槽

结论: Kimi K2 Thinking = Qwen3-Max > DeepSeek > Gemini-3-Pro > 文心一言 5.0

DeepSeek


K2 Thinking 生成的是"**未来智慧城市运营中心**"主题的数据大屏,包含动态生成的多维度城市运营数据。一共 285 行代码。前两次均报 bug,第三次成功生成!

对比 Qwen3-Max⬇️,它第一次的代码也报错,第二次成功
这几个题目国产模型尚无可以完美体现月食原理的,生成的 Three.js 动画也都很差劲
Gemini-3-Pro 就相当成功,截至目前我最满意的了
结论:Gemini-3-Pro > Kimi K2 Thinking > DeepSeek > 文心一言 5.0 > Qwen3-Max
DeepSeek 理解了月食原理,没有绘制太阳,但是光线轨迹是对的。但是问题不少,文字说明覆盖动画无法消除,月食实际出现时间与说明完全不符。
Kimi K2 Thinking 一次成功,总体思路没问题,月食阶段没有匹配上
很好流畅,看起思考过程,代码中很多设计使其更符合物理原理,只是烟花样式太少了
结论:Kimi K2 Thinking > Gemini-3-Pro> DeepSeek > Qwen3-Max > 文心一言 5.0
DeepSeek 用了 Canvas 绘制烟花效果,烟花样式(圆形、柳絮形、螺旋形等),有交互功能(点击生成烟花、自动播放等)缺点:大量烟花其实只有轨迹,等很久也就只有三四个绽放
K2 Thinking vs Qwen3-Max 的视频