最新的推理模型哪家强?Grok3、Deepseek、chatgpt、kimi推理模型综合能力多维度实战测评
即deepseek后,chatgpt又推出来了o3mini并号称超越deepseek的r1推理模型,后面又是grok3的发布,号称市面最强推理大模型,相信大家都很好奇各家的推理模型,本篇文章将着重测评各家的推理模型,本文这次优化了测评形式,来展示更加公正、透明的测评给大家
首要的当然是逻辑推理:
Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说:你们 4 个人每人都猜对了位置不相邻的两个数字。(只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?
正确答案为(4053927)
Grok3耗时129s成功过关
chatgpt过关,花费时间为3m36s
deepseek不过关,共花费时间8m12s
搞笑的来了Kimi在计算20分钟左右死机不动了,一看思维链也全是重复内容,排除网络异常,kimi宣告失败
逻辑推理2——排序问题
有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?正确答案为6528
Grok3过关,耗时55秒
Chatgpt38秒成功过关
Deppseek共花费3m17秒,同样时间比chatgpt长很多,但也顺利过关
Kimi这次推理时间不长,约2分钟,但是完美做错了答案
解析几何
已知过点 $A(-1, 0)$ 、 $B(1, 0)$ 两点的动抛物线的准线始终与圆 $x^2 + y^2 = 9$ 相切,该抛物线焦点 $P$ 的轨迹是某圆锥曲线 $E$ 的一部分。<br>(1) 求曲线 $E$ 的标准方程;<br>(2) 已知点 $C(-3, 0)$ , $D(2, 0)$ ,过点 $D$ 的动直线与曲线 $E$ 相交于 $M$ 、 $N$ ,设 $\triangle CMN$ 的外心为 $Q$ , $O$ 为坐标原点,问:直线 $OQ$ 与直线 $MN$ 的斜率之积是否为定值,如果为定值,求出该定值;如果不是定值,则说明理由。正确答案(x29+y28=1,−5)
Grok3过关,耗时204秒
Chatgpt再次轻松过关,耗时1m13s
Deppseek这次也过关了,但耗时长很多,6m19s,chatgpt的五倍
Kimi连续两次在计算20分钟左右自发死机(并非用户停止,用户停止会有显示,上方显示完成,但已经长时间宕机不动)故此我宣告kimi不过关
综合排序chatgpt o3mini>grok3>deepseek r1>kimi1.5
我们从实测来看,openai虽然风评越来越差,但产品还是越来越能打,时间短,做得对,grok3实际效果上还是略逊于o3mini,deepseek有惊艳的本地化文本生成能力,但在逻辑推理时间上还是长了些,至于kimi1.5就搞笑了,不是死机就是一直循环“过拟合“。
关注和转发就是最大的支持
领取专属 10元无门槛券
私享最新 技术干货