2024 年的 AI 大模型，人类历史上从来没有出现过发展这么快的事物

文章来源：企鹅号 - 三一的数字生存指南

回顾过去这一年 AI 的发展速度：难以想象。

2023 年底的时候，排名第一的大模型还是 GPT-4，一年后，GPT-4 的排名已经到了 69，超过GPT-4的模型中，有些甚至是 9B 等可以在个人电脑上部署的模型；而最近爆火的模型则是国内的 DeepSeek——便宜、开源但依然好用。

2023 年的时候 GPT-4 作为 OpenAI 最好的模型已经过去了接近一年，当时还没有公司知道如何打败 GPT-4，挑战者 Gemini Ultra 和 Mistral 的模型声称可以超过 GPT-4，但是并没有像 2024 年的各种模型一样如此“随便”的就可以面向所有人使用。

但仅仅过去一年，Chatbot Arena 排行榜上就有 18 家公司的69 个模型超过了 2023 年 3 月的 GPT（GPT-4-0314)。

最早的是 2024 年 2 月份谷歌发布的 Gemini1.5Pro，除了输出效果达到 GPT-4 级的输出之外，还带来了另一项竞争特性：上下文长度，这让我们现在能够直接甩一本《红楼梦》或者《西游记》给 AI，而国内月之暗面的 Kimi也是靠着主打上下文长度出圈。

而第一个改变大家认知，扭转 GPT-4 狂热粉丝症状的模型是 Claude 3.5 Sonnet，即使到 2025 年 1 月 3 日，这个模型依然是我比较喜欢并经常使用的模型，而另外更喜欢的我已经开始转向国内的豆包和 DeepSeek/通义千问等文本模型等。

模型能力在变强的同时，也在变“小”，有些模型能在我的笔记本电脑上运行

我的电脑是 Macbook M1pro，即使是 3 年前的电脑，我依然可以流畅运行一些本地的模型，比如国内智谱的 glm4 和 codegeex4 等，这在过去一年以前很难想象，因为想要获得 GPT-4 级别“聪明”的 AI，我们的认知还停留在需要一个专业机房才能提供，还需要有几万美元的 GPU。

是的，GPU，A100，英伟达，卖铲子的永远是淘金热潮的不二王者。一张显卡卖到几万美元，仍然供不应求。但这个趋势在持续了 11 个月以后，可能会被打破。

国内的幻方 12 月发布了 DeepSeek-V3 模型，他们在 7 月就发布了 DeepSeek-V2 模型引发了市场的 Token 降价潮，被戏称为AI 界的拼多多，但是 V2 还是被认为是便宜但不是好货的范畴，但是到了 V3 发布后的性能排名出炉后，也许显卡是该要降价了。

价格的降低，以及模型部署效率的提高是我最喜欢的 2024 年 AI 发展趋势，这有一种 AI 平权的美感，AI基础能力最终会成为像水一样的物质，而不是被行业巨擘完全掌控在自己手里。

另一个趋势是走向科幻的，即多模态成为常态，不再仅仅是文本

ChatGPT 的高级语音模式让过去存在科幻小说中的想象成为现实。你可以使用手机的摄像头直接询问 ChatGPT你看到了什么，并且可以随时打断随时提问。

与 ChatGPT-4的对话已经足够“以假乱真”，你不会怀疑这是一个真人，不论是语气停顿还是从对话中传达出的某种神态。

Google 也不甘落后，9 月发布的 NotebookLM可以将输入的内容转化为类似两个小宇宙主播那种播客的对话。

而在 Google AI Studio 中，你甚至可以通过 Stream Realtime 实时共享桌面，并开发边询问。

Google 将这个功能首先开放给开发者使用，也对应着目前使用 AI 最频繁的群体-程序员。

AI 编程已经足够简单到你只需要几个简单的文本提示，即可立即生成代码，不论是 Anthropic 的 Claude Artifacts 还是 Cursor OR windsurf 之争，“程序员之死”或许是一种必将到来的宿命。

AI 编程也许可能是第一个作为真正智能体出现。

我在之前的文章提到过 2025 年将成为 AI 智能体之年，但到目前为止，真正意义上的智能体还并没有出现，除了大家在编程领域大谈特谈。而且令人感到非常想吐槽的是 Agent 这个词语。

不知道是谁家的科学家率先使用了 Agent 这个词语，这个词语在英文中不仅无法表现智能体之含义，而且他的中文翻译中压根没有智能体的概念。Agent 压根不是代理或者特工等词语所能描述的。

不过在实现智能体的道路上，有两个概念先行一步，CoT思维链和推理模型。

对于 LLM 的黑箱问题的思考也许促进了思维链和推理模型的发展，但就像在 Claude 构建智能体中所强调的那样，尽可能的减少思维链也许才是正确的做法，过多的思考，对于大模型来说，并不会获得更好的结果。

LLM 本身是黑箱，而 Chat 的形式让黑箱本身之外又套了一个黑箱

大部分使用 LLM 的人并不会像张一鸣一样去阅读 Transformer 论文，也没有资源去请教论文的第一作者。

LLM 本身的实现就是一个黑箱，你并不知道上千亿的参数中，你的输入激活了哪些“神经”，幻觉是一直存在的，只不过懂得底层原理的人更不容易被迷惑——通过更好的提示词工程来获得更好的结果。

而 OpenAI 深度植入所有人认知中的 Chat 应用更加剧了这个黑箱的结构程度。

这种 Chat 模式越来越像第一次使用 Linux 无桌面系统的用户，我们只能从一个黑色的闪着光标的图框中，试图获得自己想要知道的一切。

所以，LLM 发展的最快又能如何？又不是万能的

但是历史就是这样的，想要改变人类集体的心智需要时间，需要故事，需要更加科幻的事件，就像阿瑟克拉克的著名理论：

“任何足够先进的技术，都与魔法无异。”

期待在 2025 年的年底的时候，看到真正的魔法。

相关快讯