首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >一道初中物理题打败所有大模型?

一道初中物理题打败所有大模型?

作者头像
数智转型架构师
发布2025-12-17 14:33:38
发布2025-12-17 14:33:38
1420
举报

每次新模型发布,人们在高呼AI能力大幅提升的同时,也有一部分人专门找模型的弱点,比如GPT4发布时,人们惊叹于其优秀的表达和推理能力时却惊奇地发现,它连strawberry中有几个r都数不清楚,即使deepseek的思维链技术推出后,也无法理解一根长5米的竹竿怎么能顺利通过一个宽2米高2.5米的门。今天Gemin 3 pro发布后,大家都在吹嘘其智力水平之强大,无出其右者。但奇怪的是,当有人用一道简单的初中物理电路图测试它时,却又出现了一本正经胡说八道的奇怪景象!

真是不试不知道,一试吓一跳。下面就是我的真实测试:

我随便从网上找了一道判断并联电路的选择题:

懂点物理知识的,一看就知道正确答案应该选C。

我们先让史上最强大模型Gemini 3pro来回答一下:

有点失望,是不是?

难道是我用免费账户,智力不够高的问题?于是我用收费的PRO账户又问了一遍:

这次它的答案真的不一样了,但可惜,其判断仍是错的。

Gemini不行,我再让AI编码高手Claude sonnet4.5试试:

Claude经过一通分析之后,选择了A选项。

真是大跌眼镜啊,网上都在吹嘘国外模型有多强大,这下都看到了?连初中物理题都答不对,真让人怀疑它们是怎么登上世界第一的宝座的!

据说DeepSeek3.2拿下了多项数学奥林匹克冠军,碾压人类冠军,已经抵达了人类智力最高水平的边界,那么面对这道简单的物理题,应该是小kiss吧?咱们继续上实测:

由于deepseek只能理解图中的文字,无法理解图像本身,所以我用ima内嵌的DS3.2做了测试,DS3.2的回答确实与众不同,只可惜仍然没答对。

然后我又问了千问,千问的分析是最长的,估计得消耗了几千个token,但它的答案是A。

哎,真是无语了!

还有谁能打?

听说Kimi最近杀出国界了,最后就看看K2的能力如何吧!

Kimi直接说无法看到具体图片,我吐... ...

不过,它最后说C可能是并联电路。注意,它说的是,可能... ...,也就说它虽然没看到图片,但是却猜对了正确答案!哈哈,这预测能力也算是天下无敌了!

看到了吧,反正我是越来越相信杨立坤说的话了,大语言模型本质上是不会真正理解这个世界的。

关于这个问题,我跟Gemini3Pro做了一次交流,下面是它最后的结论:

大型模型不具备人类所拥有的内在、可操作的物理模型符号逻辑推理能力。它们的能力是基于大规模数据学习的模式匹配和概率预测。对于这种结合了复杂视觉输入和精确逻辑判断(拓扑结构)的题目,如果图像理解稍有偏差,或者训练数据中这类特定图像的标签不够清晰,模型就很容易出错。

同时它还很谦逊地要求再给它一次机会。

我充满期待地答应了,结果:

它仍然坚持它的判断是对的。

这就是今天声称已经超越了人类智力水平的大模型?

我开始有点怀疑了... ...

本公众号聚焦实战,拆解最新的AI工具与商业案例。不讲空话,直接讲透如何解决实际业务问题、驱动公司业务成长。我们的目标:让您读到的每一次思考、每一个案例,都能带来启发,拿来就能用。若您有意进一步探讨相关内容,欢迎扫描下方二维码添加好友,以便我们更充分地沟通学习,一起提升!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数智转型架构师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档