报告从几个方面分析GPT-4初版,并对相同的问题,对比GPT4和ChatGPT的表现,具体原文资料可以关注本公众号,点击"技术资料"进入网盘指引领取。
分析报告旨在探索GPT-4的边界,并没有直接夸大GPT-4多么强大,但是从报告中却能看出测试结果的确很牛逼,比如:
一、编码能力:
(1)Leetcode刷题,从数据上看,优于人类。
(2)Latex写数学公式
(3)使用HTML写一个3D游戏。
(4)在深度学习框架中写一个自定义的优化器,这个优化器的要求还比较复杂,但模型还是能做的很好。
(5)执行Python代码。给一段代码,直接让模型去“运行”。放到几年前,谁能想到一个语言模型居然能够去“跑”代码。GPT-4不仅能跑,还给出了它运行代码的详细步骤。
二、数学能力
原文给出结论:
GPT-4可以回答困难的(实际上是有竞争力的)高中水平的数学问题,有时可以围绕高级数学主题进行有意义的对话。然而,它也会犯非常基本的错误,偶尔会产生不连贯的输出,这可能被解释为缺乏真正的理解,它的数学知识和能力可以以一种看似随意的方式取决于背景。原文中也给出了一些启发式对话,可以让GPT-4更聪明。
那看看有哪些例子:
(1)简单数学题
(2)有点难度的数学题
(3)高等数学题
(4)估算推理题
三、理解能力
GPT-4能够对他人的心理状态进行推理,并在社会环境中为实现共同目标提出合作行动。
四、引导和推理
(1)引导
(2)启发
(3)推理,类似一些脑筋急转弯的题,GPT-4回答的很好。
上面的只是GPT-4的报告一部分,可以看出GPT-4相当智能,但是GPT-4也有很多错误,比如:
由于篇幅就不过多介绍,总之GPT-4在某些方面的确很强大,但是在个性化,规划和概念性跳跃,认知谬论等方面有局限性