7月12日,AI算法研发公司Anthropic发布了他们最新的模型Claude 2。该公司宣布,目前地区在美国和英国的用户可以免费从其网站与语言大模型Claude 2对话。有不少媒体将Claude称呼为“ChatGPT最强的竞争对手”。
值得注意的是,Anthropic是谷歌投资的初创企业,而Anthropic是由一群在GPT-3大模型发布后,从OpenAI离职的员工创立的。今年3月,创立仅两年的Anthropic便推出了Claude大模型,是他们发布的第一个重要版本。
Claude 2距离上一个版本的发布不到4个月,有了巨大的提升。据介绍,Anthropic在原有功能的基础上进行了许多改进,与上一个版本相比,Claude 2在文案、数学、编码和推理方面都有质的飞跃,让Claude 2的实用性、易用性都远超GPT-3.5,甚至直逼GPT-4。
在最新的Chatbot Arena大模型(LLM)评分上,GPT-4是目前综合能力最强的大语言模型,而Claude 1.0版本仅次于GPT-4,也就意味着此次Claude 2对标的就是OpenAI的付费产品GPT-4。
对于GPT-4相较,Claude2有以下几个主要的优点:
可免费注册使用(目前仅开放在英国和美国地区)
支持10万 token
可以直接导入文档进行总结
知识库截止时间是2023年初
今天就一起来感受一下Claude 2在升级后的新功能吧!
01
上下文处理能力
在使用ChatGPT时,文本框内输入的文字是有限制的,GPT-3.5最多一次性处理4096个token,GPT-4-32k最多能处理32768个token。
并且根据官方发布的博文来看,Claude 2的上下文窗口从9000个token扩大为10万个token,相当于一次性可以输入7.5万个字。这意味着Claude 2可以读取数百页的文档材料供进行解读和总结。
例如,官方称他们将《了不起的盖茨比》的全文文本喂给Claude-Instant(72K token),并修改了一行,说Nick Carraway先生是“在Anthropic从事机器学习工具工作的软件工程师”。并要求它找出不同之处时,模型只花了22秒内就给出正确答案。
一位B站up主Alex_Day对Claude2和GPT-4进行了文档总结与分析测试。首先博主会给AI上传一个图文PDF报告,让AI对报告文档进行总结。
可以看到上传文件后Claude马上就可以总结出报告的内容,并且语言也比较精简。
而在GPT-4上还不能直接上传文档,需要借助到插件功能。并可以看到GPT-4似乎不支持这类型的PDF,无法读取信息,没有办法做总结。
随后博主换了CSV格式的文档,可以看到Claude 2和GPT-4都有做出分析,并给出建议。
显然在上传文件的格式上,Claude 2是占了优势的。
Anthropic称计划未来将至少将其扩展到至少20万token。这说明Claude 2能够处理的token上限应目前应该是所有类AI语言大模型产品中的巅峰水准。
02
多语言支持
Anthropic为了测试Claude的多语言功能,选择了覆盖200多种语言的翻译基准Flores 200来评估Claude 2的多语言翻译能力。
可以看到,Claude 2继承了Claude的多语言能力,提供了非常强大的多语言支持能力,其可以翻译超过43种语言,并且23种常用的语言翻译达到了“可以理解”的水平。
03
数学、推理和编码能力也更强
Anthropic还称Claude 2在律师考试的多项选择部分获得了76.5%的分数,而Claude 1.3获得了73%。
同时,官方还对Claude 2进行了美国研究生入学考试(GRE)测试,在GRE考试中,与申请研究生院的大学生相比,Claude 2在GRE阅读和写作考试中的得分高于90%,在定量推理方面达到了考生的中位数水平。
面对网友提出经典的“鸡兔同笼”问题,Claude 2也可以顺利求解。
但当提问一道逻辑题时,可以看出Claude 2有简单的数学计算能力,但是推理能力就稍微欠缺了,而GPT-4能够避开这样的思维陷阱。
根据Anthropic官方表述,在编码能力方面,Claude 2表现出熟练程度的提高。它在Python编程测试Codex HumanEval上的得分从 56% 上升到 71.2%。根据官方的实例,可以让Claude 2生成代码,帮助我们把一幅静态的地图变成可交互的地图。
首先让Claude 2分析已有的地图静态代码。
随后让Claude 2生成产生动态效果的代码。
最后把生成的代码复制到后台,就可以生成一个可互动的地图。可以看出Claude 2具有很强的编码能力。
04
安全性更高
此前Anthropic的创始人们离开OpenAI,就是因为在大模型的安全性的理念不一致。Anthropic称,他们一直在迭代以改进Claude 2的基础安全性,使其更无害,减少产生攻击性或危险输出。
Anthropic进行了一个内部red-teaming evaluation(红队评估),使用自动测试对大量具有代表性的有害提示对模型进行评分,同时还会定期手动检查结果。在此评估中,与Claude 2相比,Claude 1.0在提供无害性响应方面好3倍。
总体来说,Claude 2的流畅度以及稳定性是还不错的。也有很多人认为Claude 2和GPT-4还是有差距的。但与GPT-4需要付费,并需要依靠很多小插件来说,单枪匹马且免费的Claude 2可以说是很香了。相信伴随着大模型发展升级和数据积累,未来AI语言大模型也许会达到与人类语言自然交互的高度。
你看好Claude 2吗?
参考网站:
https://www.anthropic.com/index/claude-2
Model-Card-Claude-2.pdf (anthropic.com)
作者:黄安妮 排版:骆伟玲
图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~
领取专属 10元无门槛券
私享最新 技术干货