首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Claude2实测,“GPT-4平替”表现如何?

7月12日,AI算法研发公司Anthropic发布了他们最新的模型Claude 2。该公司宣布,目前地区在美国和英国的用户可以免费从其网站与语言大模型Claude 2对话。有不少媒体将Claude称呼为“ChatGPT最强的竞争对手”。

值得注意的是,Anthropic是谷歌投资的初创企业,而Anthropic是由一群在GPT-3大模型发布后,从OpenAI离职的员工创立的。今年3月,创立仅两年的Anthropic便推出了Claude大模型,是他们发布的第一个重要版本。

Claude 2距离上一个版本的发布不到4个月,有了巨大的提升。据介绍,Anthropic在原有功能的基础上进行了许多改进,与上一个版本相比,Claude 2在文案、数学、编码和推理方面都有质的飞跃,让Claude 2的实用性、易用性都远超GPT-3.5,甚至直逼GPT-4。

在最新的Chatbot Arena大模型(LLM)评分上,GPT-4是目前综合能力最强的大语言模型,而Claude 1.0版本仅次于GPT-4,也就意味着此次Claude 2对标的就是OpenAI的付费产品GPT-4。

对于GPT-4相较,Claude2有以下几个主要的优点:

可免费注册使用(目前仅开放在英国和美国地区)

支持10万 token

可以直接导入文档进行总结

知识库截止时间是2023年初

今天就一起来感受一下Claude 2在升级后的新功能吧!

01

上下文处理能力

在使用ChatGPT时,文本框内输入的文字是有限制的,GPT-3.5最多一次性处理4096个token,GPT-4-32k最多能处理32768个token。

并且根据官方发布的博文来看,Claude 2的上下文窗口从9000个token扩大为10万个token,相当于一次性可以输入7.5万个字。这意味着Claude 2可以读取数百页的文档材料供进行解读和总结。

例如,官方称他们将《了不起的盖茨比》的全文文本喂给Claude-Instant(72K token),并修改了一行,说Nick Carraway先生是“在Anthropic从事机器学习工具工作的软件工程师”。并要求它找出不同之处时,模型只花了22秒内就给出正确答案。

一位B站up主Alex_Day对Claude2和GPT-4进行了文档总结与分析测试。首先博主会给AI上传一个图文PDF报告,让AI对报告文档进行总结。

可以看到上传文件后Claude马上就可以总结出报告的内容,并且语言也比较精简。

而在GPT-4上还不能直接上传文档,需要借助到插件功能。并可以看到GPT-4似乎不支持这类型的PDF,无法读取信息,没有办法做总结。

随后博主换了CSV格式的文档,可以看到Claude 2和GPT-4都有做出分析,并给出建议。

显然在上传文件的格式上,Claude 2是占了优势的。

Anthropic称计划未来将至少将其扩展到至少20万token。这说明Claude 2能够处理的token上限应目前应该是所有类AI语言大模型产品中的巅峰水准。

02

多语言支持

Anthropic为了测试Claude的多语言功能,选择了覆盖200多种语言的翻译基准Flores 200来评估Claude 2的多语言翻译能力。

可以看到,Claude 2继承了Claude的多语言能力,提供了非常强大的多语言支持能力,其可以翻译超过43种语言,并且23种常用的语言翻译达到了“可以理解”的水平。

03

数学、推理和编码能力也更强

Anthropic还称Claude 2在律师考试的多项选择部分获得了76.5%的分数,而Claude 1.3获得了73%。

同时,官方还对Claude 2进行了美国研究生入学考试(GRE)测试,在GRE考试中,与申请研究生院的大学生相比,Claude 2在GRE阅读和写作考试中的得分高于90%,在定量推理方面达到了考生的中位数水平。

面对网友提出经典的“鸡兔同笼”问题,Claude 2也可以顺利求解。

但当提问一道逻辑题时,可以看出Claude 2有简单的数学计算能力,但是推理能力就稍微欠缺了,而GPT-4能够避开这样的思维陷阱。

根据Anthropic官方表述,在编码能力方面,Claude 2表现出熟练程度的提高。它在Python编程测试Codex HumanEval上的得分从 56% 上升到 71.2%。根据官方的实例,可以让Claude 2生成代码,帮助我们把一幅静态的地图变成可交互的地图。

首先让Claude 2分析已有的地图静态代码。

随后让Claude 2生成产生动态效果的代码。

最后把生成的代码复制到后台,就可以生成一个可互动的地图。可以看出Claude 2具有很强的编码能力。

04

安全性更高

此前Anthropic的创始人们离开OpenAI,就是因为在大模型的安全性的理念不一致。Anthropic称,他们一直在迭代以改进Claude 2的基础安全性,使其更无害,减少产生攻击性或危险输出。

Anthropic进行了一个内部red-teaming evaluation(红队评估),使用自动测试对大量具有代表性的有害提示对模型进行评分,同时还会定期手动检查结果。在此评估中,与Claude 2相比,Claude 1.0在提供无害性响应方面好3倍。

总体来说,Claude 2的流畅度以及稳定性是还不错的。也有很多人认为Claude 2和GPT-4还是有差距的。但与GPT-4需要付费,并需要依靠很多小插件来说,单枪匹马且免费的Claude 2可以说是很香了。相信伴随着大模型发展升级和数据积累,未来AI语言大模型也许会达到与人类语言自然交互的高度。

你看好Claude 2吗?

参考网站:

https://www.anthropic.com/index/claude-2

Model-Card-Claude-2.pdf (anthropic.com)

作者:黄安妮 排版:骆伟玲

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Od_J3xKX9iQsNyt0Q3ELTQcA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券