首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型的黄金指标:上下文长度,以Claude2.1为例

前段时间在OpenAI高层内斗的期间,Claude2.1悄悄更新了。

主要的更新为:200K Tokens的上下文窗口、模型幻觉率

的显着降低、系统提示以及他们的新测试功能:工具使用。

其中我最在意的就是这个上下文窗口上。

我也看到了国外的Greg Kamaradt这个人对Claude 2.1做的压力测试。

仅仅分享一些感想。

Claude 2.1相比于Claude2.0其实就是一个小的提升,不过从它的宣传来说,基本上是把200K Tokens当成了最大的卖点。

200k的上下文的确非常的厉害。

因为对于大模型来说,上下文长度也是一个非常重要的指标,因为这个涉及到了可以接收和处理的数据的大小。

如果上下文长度很短,只有1000个字的话,基本上稍微长一点儿的作文都处理不了,而分段多次输入的效果会大打折扣。

其次就算可以分段的多次输入,那碰到了几十万字的文章怎么办。

所以长上下文在大模型就是一个黄金指标,基本上就是越长越好。

200,000个Tokens,约等于150,000个单词或超过500页的材料。这能让你上传大型技术文档、财务报表甚至长篇文学作品,并利用Claude进行总结、问答、趋势预测、比较多个文档等任务。

基本上大多数的单个文档都能处理,特别长现阶段也不是很有必要。

但是,理想很丰满,但是很骨感。

因为Claude2.1只是宣传,它可以处理20万Tokens长度的输入,但是它并没有非常明确的说处理的效果到底如何。

从图表的左侧可以看出,所谓的“Placed Fact Document Depth”即“放置事实的文档深度”,这表示测试中事实被放置的位置,从文档的顶部(0% Doc Depth)到底部(100% Doc Depth)。图表的底部表示上下文长度,即模型在执行任务时可以查看的信息量,从1K(1000个)Tokens到超过200K个Tokens。 

颜色编码代表模型检索信息的准确率,从红色(0%准确率)到绿色(100%准确率)。可以看到,当上下文长度增加时,即横轴的令牌数量增多时,准确率普遍呈现出下降的趋势。这表明,对于Claude 2.1模型而言,在处理更长的上下文信息时,其检索特定事实的能力下降。

这就很明显的说明了一个事实,Claude2.1这个200K Tokens是一个假的特性,它根本就不成熟,完全达不到预期的效果。

不得不提一下GPT4,它的上下文长度只有128K,其实说起来要比Claude2.1小不少。但是同样的压力测试。GPT4基本上一片绿,特别是在73K以前,准确率非常非常的高。

意味着一个73K以内大小的文档,GPT4可以准确的从任意一处提取信息。

真的不比不知道,一比才发现GPT4真的很诚实,放出来的128K,那就是真的处理极限在这里。

因为如果按照Claude2.1的说法,我觉得GPT4完全可以宣传自己可以做400K的上下文处理,只不过准确率无限等于弱智一般。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OqzSofA12gw2Ujh5um6tOlqA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券