前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >超越GPT-4?Claude 3的智商等于一名人类本科生!

超越GPT-4?Claude 3的智商等于一名人类本科生!

作者头像
一个正经的测试
发布2024-03-06 14:50:36
1430
发布2024-03-06 14:50:36
举报

一、 Claude 3家族

Anthropic 今天宣布推出一系列新的大型语言模型,这家人工智能公司声称这些模型是迄今为止世界上最智能的,其性能优于 OpenAI 和 Google 的竞争对手产品。根据该公司的基准测试,其研究生水平推理能力在测试时得分为 50.4%,而 GPT-4 的得分为 35.7%。

Claude 3 是来自 Anthropic 的法学硕士新成员,Anthropic 是一家人工智能初创公司,得到了亚马逊(以及其他公司)的支持,投资金额高达 40 亿美元。

Anthropic 的新型号“家族”被称为 Claude 3,共有三个版本:Opus、Sonnet 和 Haiku,其性能和价格各不相同。该公司表示,Opus 是最强大且运行成本最高的版本,在一系列衡量智力的基准测试中,其表现优于 OpenAI 的 GPT-4 和谷歌的 Gemini 1.0 Ultra。它和中端产品 Sonnet 已于周一推出,而 Haiku 将在稍后宣布的日期发布。

联合创始人兼首席执行官 Dario Amodei 在接受采访时表示,该模型系列的设计考虑了不同的业务用例。

“至少根据评估,Claude 3 Opus 在许多方面都是世界上在一系列任务中表现最好的模型,”

同时官方认定,Claude 3 Opus相当于一名人类本科生的水平

这里随机抬走一名清澈愚蠢的大学生

最大的新模型 Opus 在测量本科水平专家知识 (MMLU) 和研究生水平专家推理 (GPQA) 的测试中分别优于 OpenAI 和谷歌最先进的模型 GPT-4 和 Gemini Ultra Anthropic 说,作为基础数学(GSM8k)。

家里的老二 Claude 3 Sonnet 的速度是 Anthropic 之前最好的模型 Claude 2.1 的两倍,并且智力更高。Anthropic表示,Sonnet 擅长执行需要快速响应的智能任务,例如知识检索或销售自动化。

该公司表示,最小的型号被称为 Haiku,在性能、速度和成本方面都优于其他同等尺寸的型号。它可以在不到三秒的时间内阅读一篇大约 7,500 字的带有图表的密集研究论文。

这属于是

二、 与其他模型相比

1、够快

Claude 3 模型可以支持实时客户聊天、自动完成和数据提取任务,其中响应必须立即且实时。

Haiku 是智能类别市场上速度最快且最具成本效益的型号。它可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文(约 10k 代币)。

对于绝大多数工作负载,Sonnet 的速度比 Claude 2 和 Claude 2.1 快 2 倍,且智能水平更高。它擅长执行需要快速响应的任务,例如知识检索或销售自动化。Opus 的速度与 Claude 2 和 2.1 相似,但智能水平更高。

2、够强

有强大的视觉能力

Claude 3 型号具有与其他领先型号相当的复杂视觉功能。他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。其中一些知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

3、够好

与前几代模型相比,Opus、Sonnet 和 Haiku 拒绝回答接近系统护栏的提示的可能性明显降低。如下所示,Claude 3 模型对请求表现出更细致的理解,能够识别真正的伤害,并且拒绝回答无害提示的频率要少得

4、够长

支持长上下文和近乎完美的回忆

Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个token的输入,有多长呢,这大约是英文版《白鲸》或《哈利・波特与死亡圣器》的长度。

三、 网友实测

地址:https://claude.ai/

Claude 3 Opus 的消费者定价为每月 20 美元。想要使用它的企业将使用人工智能聊天机器人技术定制部署常用的代币系统进行支付,对于 Opus 来说,每百万输入token 15 美元,每百万输出token75 美元。

有人说,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解开的谜题。

不过,也有人表示,在实际体验方面,Claude 3 并没有彻底击败 GPT-4。

在官方发布的Claude 3的相关博客中,Anthropic公司指出,新型模型的编码处理能力实现了显著的提升。一些用户在实验中将基础的ASCII码直接输入给Claude模型,结果发现该模型可以毫无困扰的处理这些输入:

真的,Claude 3 有比 GPT-4 更强的代码能力

四、 总结

虽然比起GPT-4,强大了很多

但是,说真的,GPT-4已经是去年的东西了

从目前的评测基准和体验看来,Claude 3 在智能水平、多模态能力和速度上都取得了长足的进步。随着新系列模型的进一步优化和应用,我们或许将看到更加多元化的大模型生态

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一个正经的测试 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 支持长上下文和近乎完美的回忆
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档