开源 Llama 2 春风得意、ChatGPT 惨遭嫌弃，OpenAI 表示不服！

文章来源：企鹅号 - CSDN

作者 | 曾浩辰责编 | 唐小引、袁滚滚

出品 | CSDN（ID：CSDNnews）

既开源又免费的 Llama 2 一经发布颇有席卷之势，成了最火爆的开源 ChatGPT 替代，国内外不少开发者及企业都跟风进行模型的研究和商业开发，比如这几天 OpenAI 传奇科学家 Andrej Karpathy 就用纯 C 语言打造了一个轻量版的 Llama 2 模型。而反观被称为大模型天花板的 GPT-4 则很不如意，深陷智商下降漩涡。

ChatGPT 什么时候不聪明了？

自今年三月 GPT-4 发布后，已经有不少的开发者和用户在 OpenAI 论坛提到使用 ChatGPT 时会出现不连贯性、非自然语言、以及推理等问题。其核心症结众说纷纭，有学者怀疑是 OpenAI 的系统修改和升级导致，通过削弱运算性能从而实现降本增效。然而由于 ChatGPT 闭源的属性，我们很难确定其背后的真正原因。

OpenAI社区讨论GPT-4性能的帖子尤其热闹

围绕 GPT 智商下降的讨论在 “How is ChatGPT's Behavior Changing Over Time?” 论文的发布之下被推向了顶峰，来自斯坦福大学和加州大学伯克利分校的学者 Lingjiao Chen、Matei Zaharia 和 James Zou 对 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 进行了任务测试，结果发现不同版本的结果出现显著的表现差异（漂移 drifting）。

首先是程序员们最为关心的代码生成能力。即使在明确声明不要注释的前提下，新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代码文本和注释，使回答变得繁杂冗长。同时，代码质量下降使得直接可执行代码生成的比例更低（GPT-4 从 3 月的 52%下降到 6 月的 10%）。这对于程序员们而言，可能在用 LeetCode 刷题时，自己答对的概率比 ChatGPT 还能高不少。

而在解决数学问题方面，GPT-4 识别质数的能力从 3 月份几乎全对下降到 2.4%，而 GPT-3.5 的成功率暴涨至 86.8%。作者怀疑 GPT-3.5 相比较 GPT-4 更好地遵循了链式思维指示（Chain-Of-Thought），而新版 GPT-4 可能会在推理过程思维断裂而出错。

发表于: 2023-07-262023-07-26 09:26:50
原文链接：https://page.om.qq.com/page/OGjzhZ4Ne430RNzayg1hDVBg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

开源 Llama 2 春风得意、ChatGPT 惨遭嫌弃，OpenAI 表示不服！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐