首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

四款大模型实战推理,kimi输掉了裤衩

最新的推理模型哪家强?Grok3、Deepseek、chatgpt、kimi推理模型综合能力多维度实战测评

即deepseek后,chatgpt又推出来了o3mini并号称超越deepseek的r1推理模型,后面又是grok3的发布,号称市面最强推理大模型,相信大家都很好奇各家的推理模型,本篇文章将着重测评各家的推理模型,本文这次优化了测评形式,来展示更加公正、透明的测评给大家

首要的当然是逻辑推理:

Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说:你们 4 个人每人都猜对了位置不相邻的两个数字。(只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?

正确答案为(4053927)

Grok3耗时129s成功过关

chatgpt过关,花费时间为3m36s

deepseek不过关,共花费时间8m12s

搞笑的来了Kimi在计算20分钟左右死机不动了,一看思维链也全是重复内容,排除网络异常,kimi宣告失败

逻辑推理2——排序问题

有 8 个人,分别是 A、B、C、D 和另外 4 人。要将这 8 个人随机安排在教室的两排座位上,每排有 4 个座位,共 8 个座位。相邻的定义是:若两个人坐在同一排并且座位编号相邻,则这两个人相邻。现要求 A 与 B 必须相邻,且 C 与 D 不相邻,问在上述条件下共有多少种不同的排法?正确答案为6528

Grok3过关,耗时55秒

Chatgpt38秒成功过关

Deppseek共花费3m17秒,同样时间比chatgpt长很多,但也顺利过关

Kimi这次推理时间不长,约2分钟,但是完美做错了答案

解析几何

已知过点 $A(-1, 0)$ 、 $B(1, 0)$ 两点的动抛物线的准线始终与圆 $x^2 + y^2 = 9$ 相切,该抛物线焦点 $P$ 的轨迹是某圆锥曲线 $E$ 的一部分。<br>(1) 求曲线 $E$ 的标准方程;<br>(2) 已知点 $C(-3, 0)$ , $D(2, 0)$ ,过点 $D$ 的动直线与曲线 $E$ 相交于 $M$ 、 $N$ ,设 $\triangle CMN$ 的外心为 $Q$ , $O$ 为坐标原点,问:直线 $OQ$ 与直线 $MN$ 的斜率之积是否为定值,如果为定值,求出该定值;如果不是定值,则说明理由。正确答案(x29+y28=1,−5)

Grok3过关,耗时204秒

Chatgpt再次轻松过关,耗时1m13s

Deppseek这次也过关了,但耗时长很多,6m19s,chatgpt的五倍

Kimi连续两次在计算20分钟左右自发死机(并非用户停止,用户停止会有显示,上方显示完成,但已经长时间宕机不动)故此我宣告kimi不过关

综合排序chatgpt o3mini>grok3>deepseek r1>kimi1.5

我们从实测来看,openai虽然风评越来越差,但产品还是越来越能打,时间短,做得对,grok3实际效果上还是略逊于o3mini,deepseek有惊艳的本地化文本生成能力,但在逻辑推理时间上还是长了些,至于kimi1.5就搞笑了,不是死机就是一直循环“过拟合“。

关注和转发就是最大的支持

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OR6u-Wn2LFGMelEnoEa6zQxw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券