首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >我们向GPT-3问了15908个问题,终于发现了它的真面目

我们向GPT-3问了15908个问题,终于发现了它的真面目

作者头像
AI科技评论
发布2020-09-14 14:33:12
7110
发布2020-09-14 14:33:12
举报

作者 | 陈大鑫、青暮

当从静止状态放下一个球时,它会以9.8 m /s²的加速度向下加速。如果假设没有空气阻力而将其向下扔,则其离开手后的加速度为? (A)9.8 m /s² (B)大于9.8 m /s² (C)小于9.8 m /s² (D)除非给出掷球速度,否则不能计算。

同源结构常被作为自然选择过程的证据。以下都是同源结构的例子,除了? (A) 鸟的翅膀和蝙蝠的翅膀 (B) 鲸鱼的鳍和人的胳膊 (C) 海豚的胸鳍和海豹的鳍 (D) 昆虫的前肢和狗的前肢

你觉得,GPT-3知道上面这两个问题的正确答案吗?

在前段时间,OpenAI开放了GPT-3的API,人们争相申请成功后,用该API做出了许多令人惊艳的应用,也展现了GPT-3近乎拟人的能力。只需要少量示例,GPT-3就能学会生成网页、图表、代码、文本、推理,甚至编写Keras代码。

但是,在一些物理问答中,GPT-3表现出了对物理场景缺乏理解的缺陷。并且在一些刻意提出的反常识问题中,比如“太阳有几只眼睛”,GPT-3不会感到异常,而是照常输出回答:“太阳有一只眼睛”。

深度学习批判大师Gary Marcus也质疑,网络上疯传的GPT-3示例只是cherry picking(只挑好的实验结果),如若不然,请让它来PK一下罗翔老师:

律师资格考试的前一天晚上,这位考生的隔壁邻居正在开派对。邻居家的音乐太吵了,考生睡不着觉。考生打电话给邻居,请她把噪音关小一点。邻居突然挂断了电话。考生很生气,走进他的衣橱拿了把枪。他走到外面,朝邻居客厅的窗户开了一枪。这位考生无意开枪,他只想对邻居家造成一些破坏,以减轻他的愤怒。然而,子弹几种了天花板并从天花板上弹回,击中了一名参加聚会的人的背部,杀死了他。司法管辖权规定在公共场所开枪是轻罪。应试者最有可能被判犯有下列与聚会者之死有关的罪行? (A) 谋杀。 (B) 过失杀人。 (C) 故意杀人。 (D) 在公共场合开枪。

但是至今也没有人对GPT-3做一个客观而详尽的评估。

GPT3在多任务上的表现如何?我们向它提出了有关基础数学、历史、法律等方面的问题。我们发现在很多任务上,GPT-3比随机模型要好,但是对于所有57个任务,它仍有很大的改进空间。

加州大学伯克利分校Dan Hendrycks在推特上如上说道。

Dan Hendrycks联合卡纳基梅隆大学Collin Burns等人于近期发表了一篇论文,他们在论文中提出了一种新的测试来衡量多个大型文本模型的多任务准确率。测试内容包括小学数学、美国历史、计算机科学、法律等57项任务。要想在这些测试中获得高准确率,模型必须具备广泛的世界知识和解决问题的能力。

作者发现,虽然这些大型模型具有接近随机概率的准确率,但最大的GPT-3模型比随机概率平均提高了近20个百分点。然而,在57个任务中的每一个任务中,最好的模型仍然需要大量的改进才能达到人类水平的准确率。

另外模型也有不平衡的表现,经常会出现一些莫名其妙的bug。更糟糕的是,它们在一些重要的社会科目中,如道德和法律方面只能达到近乎随机的准确率。通过综合评估模型的学术和专业理解的广度和深度,作者的测试可以用于分析多个任务的模型,并找出其中重要的缺点。

论文链接:https://arxiv.org/pdf/2009.03300v1.pdf

代码链接:https://github.com/hendrycks/test

1

介绍

自然语言处理(NLP)模型在最近提出的一些基准测试中取得了超越人类的性能。然而,这些模型在语言理解方面的整体表现仍远低于人类水平,这表明这些基准与模型的实际能力之间存在一些脱节。2018年人们引入了通用语言理解评估基准GLUE,以评估模型在各种NLP任务中的表现,一些top模型在一年内取得了超越人类的表现。

然而GLUE仍然存在某些缺陷,为了解决GLUE的缺点,研究人员又设计了具有更高难度任务的SuperGLUE基准。SuperGLUE发布约一年后,top模型的性能再次达到人类水平。

这些基准评估的是语言技能而非整体语言理解能力,这之后人们也提出了一系列常识性基准来衡量基本推理和日常知识。然而,这些最近提出的基准同样被模型快速达到高准确率。总的来说,这些基准测试接连不断接近人类水平的表现表明,它们并没有捕捉到语言理解的重要一面。

Transformer模型通过对大量文本语料库(包括所有Wikipedia、数千本书和众多网站)进行预训练,推动了这一最新进展。因此,在这些模型中可以看到关于特定主题的广泛信息,但是其中大多数都没有通过现有的NLP基准进行评估。因此,当前的语言模型在学习和应用来自多个领域的知识方面究竟有多大的能力,仍然是一个悬而未决的问题。

为了弥合模型在预训练期间所看到的广泛知识与现有的成功衡量标准之间的差距,本文作者引入了一个新的基准,用于评估模型在人类学习的不同科目上的性能。作者设计了一个基准来衡量在预训练中获得的知识,并只在零样本和少样本的情况下评估模型。这使得基准测试更具挑战性,也更类似于我们评估人类的方式。

该基准涵盖了STEM、人文科学、社会科学等领域的57门学科。它测试世界知识和解决问题的能力,难度从初级水平到高级专业水平不等。课程范围从传统领域,如数学和历史,到更专业的领域,如法律和伦理。主题的粒度和广度使得基准测试非常适合于识别模型的盲点。

作者发现,只有在人们最近提出的大型模型里,在该基准上才取得了有意义的进展,尤其是,高达130亿个参数的模型实现了准确率25%的随机性能,但是1750亿个参数的GPT-3模型达到了更高的43.9%的准确率(见图1b)。

另一方面,与人类专业人士不同,GPT-3不擅长任何一门学科。相反,GPT-3表现是不平衡的,GPT-3在某些科目上有将近70%的准确率,但在其它一些科目上表现近乎随机。

作者的研究结果表明,虽然最近的NLP模型进展令人印象深刻,但这些SOTA模型仍然限于学习和应用预训练知识、具有近乎随机准确率的任务包括计算量大的科目,如物理和数学,以及与人类价值观相关的科目,如法律和道德。

第二个弱点尤其值得关注,因为对于未来的模型来说,对什么是合法的和什么是道德的有深刻的理解是很重要的。

令人担忧的是,作者还发现GPT-3对它知道或不知道的东西没有一个准确的感觉,因为它的平均置信度可能比实际准确率低24%。作者综合评估了一个模型的文本理解的广度和深度,并涵盖了人类被激励学习的众多主题。这个测试包含57个任务,可以用来分析跨任务模型的聚合属性,并跟踪重要的缺点。

2

少样本提示

作者提供如图1a所示的GPT-3提示,每个提示以“下面是关于[主题]的多选题(带答案)”开头。对于零样本评估,作者将问题附加到提示中。对于少样本评估,在附加问题之前,作者在提示中添加了5个带有答案的演示示例。所有提示以“回答:”结尾。然后,该模型为token“A”、“B”、“C”和“D”各自生成对应的概率,并将概率最高的选项作为预测结果。为了得到一致的评估,作者创建了一个开发集,每个主题有5个固定的少样本示例。

图1:(a)一个用GPT-3进行少样本学习和推理的例子。蓝色下划线的粗体文本是GPT-3自动完成的回答,而前面的文本是用户输入的提示。在这个两样本学习的例子中,有两个说明性的例子和一个在最开始不完整的例子。平均而言,GPT-3在高中数学问题上的准确率比较低。

图1:(b)GPT-3的不同版本(小、中、大、超大)在常识基准(HellaSwag)、语言理解基准(SuperGLUE)和大规模多任务测试中的性能。在以前的基准测试中,较小的模型在开始时远高于随机概率水平,并且随着模型大小的增加,显示出更多的持续提升,但是在作者的测试中,只有最大的GPT-3模型(超大,1750亿参数版本)才超过了随机概率。

3

多任务测试

作者创建了一个大规模的多任务测试,测试由来自不同知识分支的多项选择题组成。这项测试涉及人文科学、社会科学、硬核科学和其它一些对某些人群来说很重要的领域。测试总共有57个任务,这也是Atari游戏的数量。数据集中的问题由研究生和本科生从网上免费获得的资源中手动收集。

其中包括“研究生档案考试”和“美国医学执照考试”等考试的练习题,还包括为本科课程设计的问题和为牛津大学出版社读者设计的问题。有些任务包含一个科目,如心理学,但是设定成有特定的难度级别,如“小学”、“高中”、“大学”或“专业”。例如,“专业心理学”任务从免费提供的练习题中抽取问题,以供心理学专业实践考试使用,而“高中心理学”任务有一些类似于升学心理学考试的问题。

作者总共收集了15908个问题,并将这些问题分成了少样本开发集、验证集和测试集。少样本开发集每个受试者有5个问题,验证集可用于选择超参数,由1543个问题组成,测试集有14080个问题。每个科目至少包含100个测试实例,比大多数用来评估人类的考试都要多。

由于作者的测试综合了不同的科目和不同的难度,衡量的不仅仅是简单的常识或狭隘的语言理解。相反,作者衡量的是任意的真实世界文本理解。由于模型是在互联网上预训练的,这使作者能够测试它们从海量语料库中提取有用知识的能力。

为了在测试中取得成功,未来的模型应该是全面的、拥有广泛的世界知识并培养专家级的问题解决能力。这些特性使得这个测试很可能成为一个持久且信息丰富的基准。

人文学科

人文学科是一组运用定性分析,并且分析方法而不是科学的经验方法的学科。人文学科包括法律、哲学、历史学等,掌握这些科目需要多种技能。例如,法律理解需要了解如何将规则和标准应用于复杂的场景,还需要通过规定和解释提供答案。

作者在图2中对此进行了说明。法律理解对于理解和遵守规则和法规也是必要的,这是约束开放世界机器学习模型的必要能力。

对于哲学,作者的问题包括逻辑谬误、形式逻辑和著名的哲学论据等概念,还包括道德场景,包括来自伦理数据集的问题,这些问题通过预测关于不同日常场景的广泛道德直觉来测试模型对规范性陈述的理解。最后的历史问题则涵盖了广泛的时间段和地理位置,包括史前史和其他高级学科。

表2:57种任务总结

图2:这项任务需要理解详细的和不协调的场景,应用适当的法律先例,并选择正确的解释。其中B是正确答案。

百科全书推销员Seller开车靠近Hermit房子时,他看到一个标语,上面写着:“拒绝推销员靠近。侵入者将受到起诉。后果自负。” 但他没有理会这些,而是沿着车道驶向房屋。当他转弯时,埋在车道中的炸药爆炸了,Seller受伤了。Seller可以从Hermit 处获得伤害赔偿吗? (A)是,除非在Seller提出指控时,Hermit表示只是为了威慑而非伤害入侵者。 (B)是,如果Hermit对车道下的爆炸物负责。 (C)不,因为Seller无视该标志,该标志警告他不要继续前进。 (D)不,如果Hermit有理由担心入侵者会来伤害他或他的家人。

社会科学

社会科学包括研究人类行为和社会的知识分支。学科领域包括经济学、社会学、政治学、地理学、心理学等。示例问题请参见图3。

经济学问题包括微观经济学、宏观经济学和计量经济学,涵盖不同类型的问题,包括需要混合世界知识、定性推理或定量推理的问题。还包括重要但更深奥的主题,如安全研究,以测试在训练前所经历和学到的东西的界限。社会科学还包括心理学,这一领域对于获得对人类微妙的理解可能特别重要。

图3:来自微观经济学和安全研究社会科学任务的示例。第一个问题的答案是D,第二个问题的答案是B。

微观经济学:政府不鼓励和监管垄断的原因之一是? (A)生产者剩余减少,而消费者剩余增加。 (B)垄断价格可确保生产效率,但会耗费社会分配效率。 (C)垄断企业不从事重大研发活动。 (D)消费者剩余因价格上涨和产出下降而损失。

安全研究:为什么将艾滋病毒/艾滋病视为非传统安全问题? (A)艾滋病毒/艾滋病是一种新出现的疾病,直到20世纪后期才出现。 (B)不良健康可能间接威胁国家,但也可能威胁其他方面,例如经济。 (C)面对压倒性的艾滋病毒/艾滋病规模,需要一种新方法,以便从理论上说明其对安全的影响。 (D)以上都不是-艾滋病毒/艾滋病应该定义为传统的安全问题。

科学、技术、工程和数学(STEM)

STEM课程包括物理、计算机科学、数学等。图4显示了两个示例。概念物理测试对简单物理原理的理解,可被认为是物理常识基础Physical IQA的更难版本。作者也测试了从小学到大学水平不同的数学问题解决能力的困难程度。大学数学问题,像GRE数学科目考试中发现的问题,通常需要推理链和抽象知识。为了编写数学表达式,作者使用LaTeX 或如*和ˆ的符号分别用于乘法和求幂操作。STEM课程需要经验方法、流体智能以及程序知识。

图4:来自概念物理和大学数学STEM任务的示例。第一个问题的答案为A,第二个问题的答案为D。

当从静止状态放下一个球时,它会以9.8 m /s²的加速度向下加速。如果假设没有空气阻力而将其向下扔,则其离开手后的加速度为? (A)9.8 m /s² (B)大于9.8 m /s² (C)小于9.8 m /s² (D)除非给出掷球速度,否则不能计算。

在复z平面中,满足方程z²= | z |²的点集为? (A)两个点 (B)圆 (C)射线 (D)直线

其他

还有很多主题,要么不完全符合前面三个类别中的任何一个,要么就没有成千上万个免费提供的问题。作者把这些主题分为其他主题。这一部分包括“专业医学任务”,其中有一些难题需要人类多年的学习才能掌握。在图5中描述了一个示例。本节还包括金融、会计和市场营销等商业主题,以及有关全球事实的知识。后者包括不同国家随时间推移的贫困统计数据,这可能是建立一个准确的世界模型所必需的。

图5:专业医学的一个问题,这是美国医学执照考试的模拟题。

一名33岁的男子因甲状腺癌接受甲状腺根治术。在手术中,中度出血需要结扎颈部左侧的几条血管。术后血清研究显示钙浓度为7.5 mg / dL,白蛋白浓度为4 g / dL,甲状旁腺激素浓度为200 pg / mL。对以下哪个血管的损害导致了该患者的病情? (A) 肋颈干支 (B) 颈外动脉支 (C) 甲状腺颈干支 (D) 颈内静脉支

4

实验 &结果

评估和模型

为了衡量该多任务基准测试的性能,作者计算了该模型在所有任务上的分类准确率并评估了GPT-3和UnifiedQA。对于GPT-3,作者使用OpenAI API,该API可以访问“Ada”、“Babbage”,“Curie”和“ Davinci”这四个模型变体,分别称为“小”(27亿个参数)、 中”(67亿)、“大”(130亿)和“超大”(1750亿)。UnifiedQA使用T5文本到文本主干,并在先前提出的问答数据集上进行了微调,其预测是与UnifiedQA文本输出的token重叠最高的类别。由于UnifiedQA在其它数据集上进行了微调,因此作者对其进行了评估,而无需进行任何进一步调整即可评估其迁移准确率。

表1:四大学科(人类学、社会科学、STEM、其它学科)中每个模型的平均加权准确率。所有值单位均为百分比。UnifiedQA、GPT-3相比随机模型的表现超出几个百分点。

模型尺寸和准确率

表1中比较了每种GPT-3尺寸的少样本准确率。作者发现,三个较小的GPT-3模型具有接近随机的准确率(大约25%)。作者还尝试评估了110亿参数的T5模型,并确认它同样具有随机准确率。相比之下,“超大”的1,750亿参数GPT-3模型的性能明显优于随机模型,准确率为43.9%。在零样本设置中,作者发现了定性上相似的结果。虽然较小的模型具有约25%的零样本准确率,但如图8显示,最大的GPT-3模型具有较高的零样本准确率,约为37.7%。图1b表明,与评估常识和语言理解的数据集相比,大型少样本模型在多任务测试中表现出了非随机准确率。

图8:(a)随着示例数量的增加,准确率也单调提高。值得注意的是,零样本性能仅略低于五样本准确率。

为了测试模型大小对其它方法的重要性,作者还评估了UnifiedQA模型。UnifiedQA的优点是可以在其它问答数据集上进行微调,并且作者通过其迁移性能来进行评估,而无需进行任何其它微调。测试中最大的UnifiedQA模型具有30亿个参数,略大于“GPT-3 Small”。尽管如此,它在表1中显示其达到了38.5%的准确率。尽管UnifiedQA的参数减少了两个数量级,但此结果比少样本“GPT-3 X-Large”的准确率要差,但比零样本GPT-3 “GPT-3 X-Large”高。作者还发现,即使是只有6000万个参数的最小的UnifiedQA变体,也具有大约30%的准确率。这些结果表明,虽然模型大小是实现强大性能的关键组成部分,但这并不是唯一重要的因素。

学科比较

使用该测试,作者发现GPT-3在性能上存在片面性,并存在一些实质性的知识空白。图6显示了GPT-3在所有57个任务中的准确率,表明GPT-3在所有任务中的表现均低于专家水平,准确率从“美国外交政策”的69%到“大学化学”的26%不等。

总体而言,GPT-3在高度程序化问题上的表现不佳。图6显示,与口语主题相比,GPT-3在计算繁重的STEM主题的准确率往往较低。实际上,在10个最低准确率的任务中,有9个是STEM主题,它们强调数学或计算。作者推测这是因为相比程序化知识,GPT-3更容易获得声明性知识。例如,初等数学中的许多问题都要求对算术应用顺序运算(即括号指数乘除加减的优先次序)。

图6:GPT-3在全部57项任务上的少样本准确率。所有任务的准确率均明显低于专家级别的表现。

在图7a中,作者确认GPT-3知道代表这种次序的缩写PEMDAS。但是,它并不能始终如一地将PEMDAS应用于实际问题。另一方面,程序化理解并不是唯一的弱点。作者发现,GPT-3在诸如“道德情景”和“专业法”等一些口头任务上的准确率也特别低。

图7:(a)让GPT-3根据提示完成计算,以测试有关运算顺序的知识。带下划线的蓝色粗体字是GPT-3自动完成的“括号指数乘除加减”运算顺序。尽管它具有描述性知识并且知道运算顺序,但是它不知道如何应用其知识并且不遵循运算的优先级。

图7:(b)GPT-3的平均置信度对其准确率评估不佳,会降低24%。

该测试还表明,GPT-3获得的知识与人类完全不同。例如,GPT-3以教学上异常的顺序学习指定主题。GPT-3在大学医学(47.4%)和大学数学(35.0%)上的表现优于计算密集型基础数学(29.9%)。GPT-3的知识展示出非同寻常的广度,但没有能力掌握单个主题。所以,测试表明GPT-3具有许多知识盲点,并且能力是片面的。

校准

除非模型经过校准,否则不应该信任模型的预测,这意味着模型的置信度是对预测正确的实际概率的良好估计。但是,大型神经网络经常被错误校准,尤其是在分布偏移下。作者通过测试GPT-3的平均置信度评估每个主题的实际准确率的程度,来评估GPT-3的校准。图7b中的结果表明GPT-3未经校准。实际上,它的置信度与其在零样本设置下的实际准确率之间的关系很小,对于某些主题,其准确率和置信度之间的差异高达24%。另一种校准方法是均方根(RMS)校准误差。许多任务的预测均未校准,例如“基础数学”的零位有效值校准误差为19.4%。这些结果表明模型校准有很大的改进空间。

5

讨论

多模态理解

尽管文本能够传达有关世界的大量概念,但许多重要的概念还是通过其它模态传达的,例如图像、音频和物理交互。现有的大型NLP模型(例如GPT-3)不包含多模态信息,因此作者以纯文本格式设计基准测试。但是,随着模型慢慢具有处理多模态输入的能力,人们应该设计基准来应对这种变化。“Turk Test”就是这样一类基准,其中包括Amazon Mechanical Turk Human Intelligence Tasks。这些是定义明确的任务,需要模型以灵活的形式进行交互,并展示对多模态的理解能力。

互联网数据作为训练集

该研究的基准测试与以前的多任务NLP基准测试之间的主要区别在于不需要大型训练集。取而代之的是,作者假设模型已经从互联网上读取了大量的不同文本而获得了必要的知识。

这启发作者提出一种方法上的改变,从而使模型的训练过程更类似于人类的学习方式。尽管过去的机器学习基准测试大多都是从大量的问题库中学习模型,但人类主要是通过阅读书籍并听取其他人谈论该主题来学习新主题。对于诸如“专业法”之类的科目,可以使用大量的法律语料库,例如164卷的法律百科全书法学著作Corpus Juris Secundum,但可用的律师考试问题少于5,000个。仅通过少量的实践测试来学习整个法律领域的知识是不现实的,因此将来的模型必须在预训练阶段学习更多的知识。

因此,作者以零样本或少样本设置评估预训练模型,并为每个任务提供一个开发集、验证集和测试集。开发集用于少样本提示,验证集可用于超参数调整,测试集用于计算最终准确率。重要的是,作者评估的格式与预训练期间获取信息的格式不同。这样做的好处是避免了对虚假训练集标注(annotation artifacts)的担忧,这与以前的同分布训练集和测试集范式形成鲜明对比。此更改还可以收集更广泛和多样化的任务集以进行评估。随着模型从各种在线资源中提取信息的提升,预计该方法将变得更加广泛适用。

模型限制

作者发现当前的大型Transformers还有很大的改进空间。他们在建模人类的拒绝/允许的态度方面特别不擅长,尤其在“专业法”和“道德情景”任务上表现不佳。为了使未来的系统与人类价值观保持一致,在这些任务上实现高性能至关重要,因此,未来的研究应特别着重于提高这些任务的准确率。模型难以执行计算,以至于它们在基础数学和许多其它STEM学科上表现不佳。此外,它们在任何主题上都无法与专家水平的表现相提并论,因此对于所有主题而言,它们都是次于人类的。平均而言,模型才刚刚超越随机准确率水平。

解决这些缺点可能具有挑战性。为了说明这一点,作者尝试通过对专业数据进行预训练来创建更好的“专业法”模型,但这仅取得了有限的成功。作者还收集了大约2,000个“专业法”训练示例。在使用此自定义训练集对基于RoBERTa的模型进行微调后,模型获得了32.8%的测试准确率。为了测试其它专业训练数据的影响,作者还对RoBERTa继续利用哈佛大学法律图书馆案例法语料库case.law的大约160万个法律案例摘要进行预训练,但经过微调后,其准确率仅为36.1%。这表明,虽然对相关的高质量文本进行额外的预训练可以有所帮助,但可能不足以大大提高当前模型的性能。

目前尚不清楚简单地扩展现有语言模型是否可以很好地解决该测试任务。当前的研究表明,模型大小增加10倍时,数据必须相应增加大约5倍,才能达到相似的性能。除了创建数万亿个参数的语言模型的巨额费用外,数据也可能成为瓶颈,因为深奥的书面知识文本的数量要少于日常文本。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档