前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【GPT】开源 | 牛津大学发现ChatGPT的数学能力明显低于数学研究生的平均水平

【GPT】开源 | 牛津大学发现ChatGPT的数学能力明显低于数学研究生的平均水平

作者头像
CNNer
发布2023-02-28 11:06:27
5380
发布2023-02-28 11:06:27
举报
文章被收录于专栏:CNNerCNNer

论文地址: http://arxiv.org/pdf/2301.13867v1.pdf

来源: University of Oxford

论文名称:Mathematical Capabilities of ChatGPT

原文作者:Simon Frieder

内容提要

我们通过在公开可用的数据集以及手工制作的数据集上测试ChatGPT的数学能力,并将其与在数学语料库(如Minerva)上训练的其他模型进行测试。我们还通过模拟数学家日常专业活动(问题回答、定理搜索)中出现的各种用例来测试ChatGPT是否可以成为专业数学家的有用助手。形式数学有大量的形式证明数据库(例如,精益数学库),与此相反,目前用于基准语言模型的自然语言数学数据集只覆盖初等数学。我们通过引入一个新的数据集:GHOSTS来解决这个问题。它是第一个由数学研究人员制作和策划的自然语言数据集,(1)旨在涵盖研究生水平的数学,(2)提供语言模型数学能力的整体概述。我们在GHOSTS上对ChatGPT进行基准测试,并根据细粒度的标准评估性能。我们将这个新的数据集公开,以协助社区的ChatGPT与(未来)大型语言模型在高级数学理解方面的比较。我们得出的结论是,与媒体上的许多正面报道相反(一个潜在的选择偏差案例),ChatGPT的数学能力明显低于平均数学研究生的水平。我们的结果表明,ChatGPT通常能理解问题,但不能提供正确的解决方案。因此,如果你的目标是用它来通过大学考试,你最好抄袭你的平均同龄人!

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档