大模型的黄金指标：上下文长度，以Claude2.1为例

文章来源：企鹅号 - 平凡AI

前段时间在OpenAI高层内斗的期间，Claude2.1悄悄更新了。

主要的更新为：200K Tokens的上下文窗口、模型幻觉率

的显着降低、系统提示以及他们的新测试功能：工具使用。

其中我最在意的就是这个上下文窗口上。

我也看到了国外的Greg Kamaradt这个人对Claude 2.1做的压力测试。

仅仅分享一些感想。

Claude 2.1相比于Claude2.0其实就是一个小的提升，不过从它的宣传来说，基本上是把200K Tokens当成了最大的卖点。

200k的上下文的确非常的厉害。

因为对于大模型来说，上下文长度也是一个非常重要的指标，因为这个涉及到了可以接收和处理的数据的大小。

如果上下文长度很短，只有1000个字的话，基本上稍微长一点儿的作文都处理不了，而分段多次输入的效果会大打折扣。

其次就算可以分段的多次输入，那碰到了几十万字的文章怎么办。

所以长上下文在大模型就是一个黄金指标，基本上就是越长越好。

200,000个Tokens，约等于150,000个单词或超过500页的材料。这能让你上传大型技术文档、财务报表甚至长篇文学作品，并利用Claude进行总结、问答、趋势预测、比较多个文档等任务。

基本上大多数的单个文档都能处理，特别长现阶段也不是很有必要。

但是，理想很丰满，但是很骨感。

因为Claude2.1只是宣传，它可以处理20万Tokens长度的输入，但是它并没有非常明确的说处理的效果到底如何。

从图表的左侧可以看出，所谓的“Placed Fact Document Depth”即“放置事实的文档深度”，这表示测试中事实被放置的位置，从文档的顶部（0% Doc Depth）到底部（100% Doc Depth）。图表的底部表示上下文长度，即模型在执行任务时可以查看的信息量，从1K（1000个）Tokens到超过200K个Tokens。

颜色编码代表模型检索信息的准确率，从红色（0%准确率）到绿色（100%准确率）。可以看到，当上下文长度增加时，即横轴的令牌数量增多时，准确率普遍呈现出下降的趋势。这表明，对于Claude 2.1模型而言，在处理更长的上下文信息时，其检索特定事实的能力下降。

这就很明显的说明了一个事实，Claude2.1这个200K Tokens是一个假的特性，它根本就不成熟，完全达不到预期的效果。

不得不提一下GPT4，它的上下文长度只有128K，其实说起来要比Claude2.1小不少。但是同样的压力测试。GPT4基本上一片绿，特别是在73K以前，准确率非常非常的高。

意味着一个73K以内大小的文档，GPT4可以准确的从任意一处提取信息。

真的不比不知道，一比才发现GPT4真的很诚实，放出来的128K，那就是真的处理极限在这里。

因为如果按照Claude2.1的说法，我觉得GPT4完全可以宣传自己可以做400K的上下文处理，只不过准确率无限等于弱智一般。

发表于: 2023-12-012023-12-01 09:30:00
原文链接：https://page.om.qq.com/page/OqzSofA12gw2Ujh5um6tOlqA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大模型的黄金指标：上下文长度，以Claude2.1为例

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐