Claude 3.7相比Claude 3.5,看起来是个微小的进步。
它发布之后,码农极客们一通测试操作,编程、玩游戏、设计网页、弱智陷阱、物理概念、解数学难题,更不用说用来进行各种文字游戏和分析研究。
鉴定完毕,Claude 3.7是个最强推理模型,最强编程专家,吊打o1、o3 mini(high),还有DeepSeek。Genimi 2 Flash Thingking根本就没上桌。
而且Claude 3.7是一个混合模型,即不是把推理模型分立出来,不是把快思考和慢思考分成两个模型,而是集成到一个模型里,的确也是人脑想问题的方式。
Claude 3.7还有一个扩展推理功能,它可进行更长、更复杂、更独立的思考,可以让它进行长达一小时的独立研究,一次输出成千上万行代码,直至未来让它进行数天的研究。这相当于增加了研究人员,也相当于对原有的研究流程进行加速,它将耗费更大的算力,也会加快科学研究的速度。不过,如果用户启动了扩展推理,可以事先确定需要花费多少token。特别适合解数学题、分析复杂问题、进行多步推理。
Claude 3.7把推理扩展到一个新的长度,以至于它不得不关注AI会不会沉浸在思考之中,悄悄产生自主性。它在系统报告中,还特意指出让模型长时间思考可能带来的风险:
威胁模型:我们的主要关注点是模型是否能够显著加速人工智能的研究与开发,从而使得追踪和控制安全风险变得更加困难。我们将此操作化为模型是否能够完全自动化 Anthropic 初级研究员的工作,或者是否能够显著加速模型的有效扩展。
阈值与评估:如果模型无法完成一系列耗时 2-8 小时的软件工程任务,我们认为这足以排除其达到这一阈值的可能性。此外,我们还使用了一系列内部构建的、难度较高的 AI 研发任务进行评估。这些阈值根据绝对性能标准和相对于专家基线的表现而设定。
基于Claude 3.7,Anthropic还推出了一个编程智能体 (Agentic Code),立即成为码农们的最爱,巩固了其口碑:
Cursor 指出,Claude 再次在现实世界的编码任务中表现出色,在处理复杂代码库和高级工具使用等方面取得了显著进步。Cognition 发现,在规划代码变更和处理全栈更新方面,Claude 远优于其他模型。Vercel 强调了 Claude 在复杂代理工作流程中的卓越精确性,而 Replit 已成功部署 Claude,从头构建复杂的网络应用程序和仪表盘,而其他模型在这方面则表现不佳。在 Canva 的评估中,Claude 始终能够生成可直接用于生产的代码,具有出色的设计品味,并大幅减少了错误。
推理token收费:性能提升,但没有加价。不过,如果用户敞开使用扩展推理功能,将耗费大量的token,预计费用也会达到OpenAI 推理模型的pro级用户,每月200刀。
下一代大模型的样子?
最近接连推出的Grok 3,Claude 3.7,以及即将推出的GPT-4.5或者5,是不是就成了新一代大模型的三个代表?它们是一个混合模型,单个模型中不仅包括了推理,还将包括多模态。尤其是推理能力正在解决越来越复杂问题。其中最重要的原因,是扩展定律在预训练和测试时的持续有效。
什么是下一代大模型?目前看来只有两种实现路径,一种是预训练的扩展增加一个数量级,一种是测试时的扩展(如思维的时间、长度和复杂度)增加一个数量级。而刚刚发布的Grok 3 以及Claude 3.7大模型,正好体现了这两个特点。
马斯克有些不信邪,要把扩展预训练进行到底,让Grok 3 成为第一个用了比现有前沿大模型高出一个数量级算力训练出来的模型,即用了10^26 FLOPS 的算力,在基准测试中,它的确获得了基础模型的最高分。而Claude 3.7显著提升了编程能力。以 Claude 的原生编码能力为例,现在可以通过自然对话或文档获得工作程序,无需任何编程技能。这些模型都能完成Deep Research工作。
长期跟踪研究大模型的学者Ethan Mollick,为这一代模型提出了一个新的叙事,不要静态地看待模型,不要过早地要求它为你创造KPI,“重点要从任务自动化转向能力增强”。考虑到它可能带来全新的能力,因而也可能创造出与人类全新的协作方式。而且,这扩展定律在这两个方向继续进行下去,可以期待有更好的模型出现。
所以,下一代大模型,可以是“推理机”,它可以通过预训练扩展获得,可以通过推理扩展获得,也可以两者兼得,最关键的是,
这两种趋势共同推动了 AI 能力的飞速提升,并带来了其他方面的进步。如果你有一个庞大且智能的 AI 模型,它可以用来创建更小、更快、更便宜的模型,这些模型虽然可能不如其“母模型”那么强大,但仍然非常智能。而如果你为即使是小型模型添加推理能力,它们会变得更加聪明。这意味着,AI 的能力在不断提升的同时,成本却在下降。
下面这张图展示了这一趋势的快速发展,纵轴表示 AI 的能力,横轴表示对数级下降的成本。当 GPT-4 发布时,每百万 token(大约相当于一个词)的成本约为 50 美元,而现在使用 Gemini 1.5 Flash的成本仅为每百万 token 12 美分。
也许Claude 3.7的这张图,更能说明什么是下一代的大模型:如果说Claude 3.7在向我们展示它可以达到专家级的水平,它的近期目标,如Claude4, 应该是“发现突破性的解决方案,解决那些原本需要团队多年才能完成的挑战性问题。”
One More Thing
还记得伊莱亚 (Ilya Sutzkever)说什么是超级人工智能吗?在去年底的 NeurlPS年会上,他是这样描述的:
关于超级智能的推理能力,“它想得越深,就会越不可测。(The more it reasons, the more unpredictable it becomes。)。我们现有的AI是可测的,因为它是对人类直觉的模仿重现,想想人类大脑如果你让它在0.1秒内给出答案,它只能是直觉反应。”
“我们将面对完全不可测的智能,预测是不可能的,因为一切皆有可能。”
本周DeepSeek先摆出了擂台,连续5天公布代码。接下来看GPT 4.5 了。然后,人们期待的是R2,据说要争取早于原定的5月份提前推出。GPT-5可能5月底发布。
参考:
领取专属 10元无门槛券
私享最新 技术干货