前段时间在OpenAI高层内斗的期间,Claude2.1悄悄更新了。
主要的更新为:200K Tokens的上下文窗口、模型幻觉率
的显着降低、系统提示以及他们的新测试功能:工具使用。
其中我最在意的就是这个上下文窗口上。
我也看到了国外的Greg Kamaradt这个人对Claude 2.1做的压力测试。
仅仅分享一些感想。
Claude 2.1相比于Claude2.0其实就是一个小的提升,不过从它的宣传来说,基本上是把200K Tokens当成了最大的卖点。
200k的上下文的确非常的厉害。
因为对于大模型来说,上下文长度也是一个非常重要的指标,因为这个涉及到了可以接收和处理的数据的大小。
如果上下文长度很短,只有1000个字的话,基本上稍微长一点儿的作文都处理不了,而分段多次输入的效果会大打折扣。
其次就算可以分段的多次输入,那碰到了几十万字的文章怎么办。
所以长上下文在大模型就是一个黄金指标,基本上就是越长越好。
200,000个Tokens,约等于150,000个单词或超过500页的材料。这能让你上传大型技术文档、财务报表甚至长篇文学作品,并利用Claude进行总结、问答、趋势预测、比较多个文档等任务。
基本上大多数的单个文档都能处理,特别长现阶段也不是很有必要。
但是,理想很丰满,但是很骨感。
因为Claude2.1只是宣传,它可以处理20万Tokens长度的输入,但是它并没有非常明确的说处理的效果到底如何。
从图表的左侧可以看出,所谓的“Placed Fact Document Depth”即“放置事实的文档深度”,这表示测试中事实被放置的位置,从文档的顶部(0% Doc Depth)到底部(100% Doc Depth)。图表的底部表示上下文长度,即模型在执行任务时可以查看的信息量,从1K(1000个)Tokens到超过200K个Tokens。
颜色编码代表模型检索信息的准确率,从红色(0%准确率)到绿色(100%准确率)。可以看到,当上下文长度增加时,即横轴的令牌数量增多时,准确率普遍呈现出下降的趋势。这表明,对于Claude 2.1模型而言,在处理更长的上下文信息时,其检索特定事实的能力下降。
这就很明显的说明了一个事实,Claude2.1这个200K Tokens是一个假的特性,它根本就不成熟,完全达不到预期的效果。
不得不提一下GPT4,它的上下文长度只有128K,其实说起来要比Claude2.1小不少。但是同样的压力测试。GPT4基本上一片绿,特别是在73K以前,准确率非常非常的高。
意味着一个73K以内大小的文档,GPT4可以准确的从任意一处提取信息。
真的不比不知道,一比才发现GPT4真的很诚实,放出来的128K,那就是真的处理极限在这里。
因为如果按照Claude2.1的说法,我觉得GPT4完全可以宣传自己可以做400K的上下文处理,只不过准确率无限等于弱智一般。
领取专属 10元无门槛券
私享最新 技术干货