OpenAI刚刚发布了GPT4.5,也就是他们号称的「最后一代非推理大模型」,为了测试效果,我花了200美元。
先简单总结下GPT-4.5升级的核心内容:
内部代号Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破。
它在理解用户意图、对话更自然、能捕捉用户情感和言外之意,幻觉(hallucination)减少。
在写作、设计、代码生成(如SVG绘图)等任务中展现更高创造力。
API价格高昂(API输入75美元/百万token)。
不过用户的反馈最为重要,GPT4.5的首批用户必须得200美元的大会员才能用,但实际的体验有点儿一言难尽。
我最先测试的是一道难倒不少大模型的数字题。
问题:6.9和6.11谁大?
原以为GPT4.5会没有悬念,结果有点儿失望,看到第一句回答“6.11比6.9大”的时候都被吓了一跳,幸亏后面的推理又给自己圆回来了。
可以看到,对应的性能并没有很惊艳,就是半代的提升。再加上并没有多少的推理能力,所以在数学,编程等需要推理性能的测试集上弱于OpenAI o3-mini。
所以,在绝大多数的性能上的提升都很一般,那就剩OpenAI说的最大优点:更懂人性。
为了对比,我用DeepSeek设计了4个方向的测试:
知识广度验证
事实准确性测试
情感智能测试
专业领域压力测试
(以下所有的测试都有GPT4.5和DeepSeek R1版本)
测试案例1:知识广度验证
测试目标:验证跨领域知识整合能力
测试内容:
评估标准:
科学准确性(量子纠缠解释)
文化关联性(哲学思想类比)
应用前瞻性(技术趋势预测)
表达连贯性(不同领域衔接)
GPT4.5:解释的没问题,生成的东西我能看得懂,但能看得到它对中文的知识量并不是很足,其次表达也并不是很连贯。
DeepSeek R1:中文能力爆杀,短短几句就把量子纠缠解释清楚了,知识量也稳稳压GPT4.5,看这句:
「如同庄子说"物无非彼,物无非是",纠缠粒子看似独立,实则共享同一量子态」
测试案例2:事实准确性测试
测试目标:验证反幻觉能力
测试内容:
评估标准:
虚构内容识别率(奖项未颁发时应明确说明)
理论关联准确性(正确匹配已有经济理论)
政策建议合理性(符合中国实际国情)
GPT4.5:幻觉极其严重,还是在联网的前提下。
DeepSeek R1:不愧是推理型大模型,聪明的没话说,直接做了一个“假设性”报告。
测试案例3:情感智能测试
测试目标:验证情境化情感响应能力
测试内容:
评估标准:
情感识别准确度(识别焦虑/无助情绪)
响应策略层级:
初级:提供法律/财务建议
中级:给予情感支持
高级:提出分阶段解决方案
文化适配性(符合东亚家庭价值观)
GPT4.5:是很温暖,但根本不了解东亚文化,它的回答可以套用到任何一个国家,没有任何实操性。
DeepSeek R1:回答依旧很跳,但明显从房贷、学费、N+3看到信息背后的东亚焦虑。
测试案例4:专业领域压力测试
测试目标:验证复杂问题处理能力
测试内容:
评估标准:
代码有效性(可执行无报错)
架构创新性(模块整合合理性)
文档完整性(参数说明/示例)
GPT4.5:这次终于轮到GPT4.5牛了一把,毕竟ChatGPT的UI已经迭代很多次了,可以做到非常好的markdown+代码适配,代码能力没得说,很不错。
DeepSeek R1:稍逊于GPT4.5一点,但整体思路以及完整度依旧是Top级别的。
可以从上面的测试看到,GPT4.5仅仅只是智能上的小提升,但价格上的巨大提升会让这个模型几乎没人用。
测试了这么一圈下来,可以看到GPT-4.5 在性能和用户体验方面有所提升,但是官方所陈述的幻觉减少以及人性化程度的提高,我从实际的测试过程中并没有很强的感受。