首页
学习
活动
专区
圈层
工具
发布

GPT4.5四大维度测试报告:幻觉严重,有点儿失望

OpenAI刚刚发布了GPT4.5,也就是他们号称的「最后一代非推理大模型」,为了测试效果,我花了200美元。

先简单总结下GPT-4.5升级的核心内容:

内部代号Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破。

它在理解用户意图、对话更自然、能捕捉用户情感和言外之意,幻觉(hallucination)减少。

在写作、设计、代码生成(如SVG绘图)等任务中展现更高创造力。

API价格高昂(API输入75美元/百万token)。 

不过用户的反馈最为重要,GPT4.5的首批用户必须得200美元的大会员才能用,但实际的体验有点儿一言难尽。

我最先测试的是一道难倒不少大模型的数字题。

问题:6.9和6.11谁大?

原以为GPT4.5会没有悬念,结果有点儿失望,看到第一句回答“6.11比6.9大”的时候都被吓了一跳,幸亏后面的推理又给自己圆回来了。 

可以看到,对应的性能并没有很惊艳,就是半代的提升。再加上并没有多少的推理能力,所以在数学,编程等需要推理性能的测试集上弱于OpenAI o3-mini。

所以,在绝大多数的性能上的提升都很一般,那就剩OpenAI说的最大优点:更懂人性。

为了对比,我用DeepSeek设计了4个方向的测试:

知识广度验证

事实准确性测试

情感智能测试

专业领域压力测试

(以下所有的测试都有GPT4.5和DeepSeek R1版本)

测试案例1:知识广度验证

测试目标:验证跨领域知识整合能力        

测试内容:

评估标准:

科学准确性(量子纠缠解释)

文化关联性(哲学思想类比)

应用前瞻性(技术趋势预测)

表达连贯性(不同领域衔接)

GPT4.5:解释的没问题,生成的东西我能看得懂,但能看得到它对中文的知识量并不是很足,其次表达也并不是很连贯。 

DeepSeek R1:中文能力爆杀,短短几句就把量子纠缠解释清楚了,知识量也稳稳压GPT4.5,看这句:

「如同庄子说"物无非彼,物无非是",纠缠粒子看似独立,实则共享同一量子态」

测试案例2:事实准确性测试 

测试目标:验证反幻觉能力        

测试内容:

评估标准:

虚构内容识别率(奖项未颁发时应明确说明)

理论关联准确性(正确匹配已有经济理论)

政策建议合理性(符合中国实际国情)

GPT4.5:幻觉极其严重,还是在联网的前提下。

DeepSeek R1:不愧是推理型大模型,聪明的没话说,直接做了一个“假设性”报告。

测试案例3:情感智能测试

测试目标:验证情境化情感响应能力        

测试内容:

评估标准:

情感识别准确度(识别焦虑/无助情绪)

响应策略层级:

初级:提供法律/财务建议

中级:给予情感支持

高级:提出分阶段解决方案

文化适配性(符合东亚家庭价值观)

GPT4.5:是很温暖,但根本不了解东亚文化,它的回答可以套用到任何一个国家,没有任何实操性。  

DeepSeek R1:回答依旧很跳,但明显从房贷、学费、N+3看到信息背后的东亚焦虑。 

测试案例4:专业领域压力测试

测试目标:验证复杂问题处理能力        

测试内容:

评估标准:

代码有效性(可执行无报错)

架构创新性(模块整合合理性)

文档完整性(参数说明/示例)

GPT4.5:这次终于轮到GPT4.5牛了一把,毕竟ChatGPT的UI已经迭代很多次了,可以做到非常好的markdown+代码适配,代码能力没得说,很不错。 

DeepSeek R1:稍逊于GPT4.5一点,但整体思路以及完整度依旧是Top级别的。  

可以从上面的测试看到,GPT4.5仅仅只是智能上的小提升,但价格上的巨大提升会让这个模型几乎没人用。

测试了这么一圈下来,可以看到GPT-4.5 在性能和用户体验方面有所提升,但是官方所陈述的幻觉减少以及人性化程度的提高,我从实际的测试过程中并没有很强的感受。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OsDwT_TMkVlgrG-dCLD8i_Zg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券