大家好,我是程序员牛肉。
一天前,一名来自美国独角兽公司的staff prompt engineer 发现AI竟然无法辨认9.9大还是9.11大。
(这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内,专门设计和优化提示(prompt)的人。这个角色要求深入理解如何构建有效的 Prompt,以引导 AI 模型生成所需的输出。)
这一操作立马引起了热议,大家纷纷质疑起了AI的能力。如果比较数字都能比错,那么一些核心数据还应该交给AI处理吗?
与此同时,一场面对AI的考核也被发起,大家纷纷测试身边的AI大模型,看看会不会发生同样的情况。
我们也来测试一下目前市场上主流的几家AI大模型:
1.Kimi大模型
2.文心一言
3.星火讯飞
4.豆包大模型
可以看出国产大模型在本次考试中表现的还是不错的,只有豆包一家出错,而且再次反问之后也很快纠正了自己的错误。
在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时,来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了 13.11 和 13.8,再次问及大模型,没想到答案还是出错了。
其评价道,「数学奥林匹克竞赛对人工智能来说更容易,但常识仍然很难。」
大型语言模型(LLM)在基础数学问题上有时会出错,尽管它们能够通过许多学术测试。这种现象引发了一个有趣的问题:它们是否真的理解小数的基本概念。例如,有时它们会错误地认为 9.11 美元比 9.9 美元多,仅仅因为“11”比“9”大。然而,当它们进一步分析时,可能会发现实际上 90 美分比 11 美分多,从而不断修正自己的观点。
这种现象表明,尽管大型语言模型拥有庞大的数据和计算能力,它们在推理方面仍无法达到人类的水平。它们需要开发更先进的算法,才能真正模仿人类的智能。
相信通过我的介绍,你已经大致了解这件事情。对于这件事你有什么看法呢?