回顾过去这一年 AI 的发展速度:难以想象。
2023 年底的时候,排名第一的大模型还是 GPT-4,一年后,GPT-4 的排名已经到了 69,超过GPT-4的模型中,有些甚至是 9B 等可以在个人电脑上部署的模型;而最近爆火的模型则是国内的 DeepSeek——便宜、开源但依然好用。
2023 年的时候 GPT-4 作为 OpenAI 最好的模型已经过去了接近一年,当时还没有公司知道如何打败 GPT-4,挑战者 Gemini Ultra 和 Mistral 的模型声称可以超过 GPT-4,但是并没有像 2024 年的各种模型一样如此“随便”的就可以面向所有人使用。
但仅仅过去一年,Chatbot Arena 排行榜上就有 18 家公司的69 个模型超过了 2023 年 3 月的 GPT(GPT-4-0314)。
最早的是 2024 年 2 月份谷歌发布的 Gemini1.5Pro,除了输出效果达到 GPT-4 级的输出之外,还带来了另一项竞争特性:上下文长度,这让我们现在能够直接甩一本《红楼梦》或者《西游记》给 AI,而国内月之暗面的 Kimi也是靠着主打上下文长度出圈。
而第一个改变大家认知,扭转 GPT-4 狂热粉丝症状的模型是 Claude 3.5 Sonnet,即使到 2025 年 1 月 3 日,这个模型依然是我比较喜欢并经常使用的模型,而另外更喜欢的我已经开始转向国内的豆包和 DeepSeek/通义千问等文本模型等。
模型能力在变强的同时,也在变“小”,有些模型能在我的笔记本电脑上运行
我的电脑是 Macbook M1pro,即使是 3 年前的电脑,我依然可以流畅运行一些本地的模型,比如国内智谱的 glm4 和 codegeex4 等,这在过去一年以前很难想象,因为想要获得 GPT-4 级别“聪明”的 AI,我们的认知还停留在需要一个专业机房才能提供,还需要有几万美元的 GPU。
是的,GPU,A100,英伟达,卖铲子的永远是淘金热潮的不二王者。一张显卡卖到几万美元,仍然供不应求。但这个趋势在持续了 11 个月以后,可能会被打破。
国内的幻方 12 月发布了 DeepSeek-V3 模型,他们在 7 月就发布了 DeepSeek-V2 模型引发了市场的 Token 降价潮,被戏称为AI 界的拼多多,但是 V2 还是被认为是便宜但不是好货的范畴,但是到了 V3 发布后的性能排名出炉后,也许显卡是该要降价了。
价格的降低,以及模型部署效率的提高是我最喜欢的 2024 年 AI 发展趋势,这有一种 AI 平权的美感,AI基础能力最终会成为像水一样的物质,而不是被行业巨擘完全掌控在自己手里。
另一个趋势是走向科幻的,即多模态成为常态,不再仅仅是文本
ChatGPT 的高级语音模式让过去存在科幻小说中的想象成为现实。你可以使用手机的摄像头直接询问 ChatGPT你看到了什么,并且可以随时打断随时提问。
与 ChatGPT-4的对话已经足够“以假乱真”,你不会怀疑这是一个真人,不论是语气停顿还是从对话中传达出的某种神态。
Google 也不甘落后,9 月发布的 NotebookLM可以将输入的内容转化为类似两个小宇宙主播那种播客的对话。
而在 Google AI Studio 中,你甚至可以通过 Stream Realtime 实时共享桌面,并开发边询问。
Google 将这个功能首先开放给开发者使用,也对应着目前使用 AI 最频繁的群体-程序员。
AI 编程已经足够简单到你只需要几个简单的文本提示,即可立即生成代码,不论是 Anthropic 的 Claude Artifacts 还是 Cursor OR windsurf 之争,“程序员之死”或许是一种必将到来的宿命。
AI 编程也许可能是第一个作为真正智能体出现。
我在之前的文章提到过 2025 年将成为 AI 智能体之年,但到目前为止,真正意义上的智能体还并没有出现,除了大家在编程领域大谈特谈。而且令人感到非常想吐槽的是 Agent 这个词语。
不知道是谁家的科学家率先使用了 Agent 这个词语,这个词语在英文中不仅无法表现智能体之含义,而且他的中文翻译中压根没有智能体的概念。Agent 压根不是代理或者特工等词语所能描述的。
不过在实现智能体的道路上,有两个概念先行一步,CoT思维链 和推理模型。
对于 LLM 的黑箱问题的思考也许促进了思维链和推理模型的发展,但就像在 Claude 构建智能体中所强调的那样,尽可能的减少思维链也许才是正确的做法,过多的思考,对于大模型来说,并不会获得更好的结果。
LLM 本身是黑箱,而 Chat 的形式让黑箱本身之外又套了一个黑箱
大部分使用 LLM 的人并不会像张一鸣一样去阅读 Transformer 论文,也没有资源去请教论文的第一作者。
LLM 本身的实现就是一个黑箱,你并不知道上千亿的参数中,你的输入激活了哪些“神经”,幻觉是一直存在的,只不过懂得底层原理的人更不容易被迷惑——通过更好的提示词工程来获得更好的结果。
而 OpenAI 深度植入所有人认知中的 Chat 应用更加剧了这个黑箱的结构程度。
这种 Chat 模式越来越像第一次使用 Linux 无桌面系统的用户,我们只能从一个黑色的闪着光标的图框中,试图获得自己想要知道的一切。
所以,LLM 发展的最快又能如何?又不是万能的
但是历史就是这样的,想要改变人类集体的心智需要时间,需要故事,需要更加科幻的事件,就像阿瑟克拉克的著名理论:
“任何足够先进的技术,都与魔法无异。”
期待在 2025 年的年底的时候,看到真正的魔法。
领取专属 10元无门槛券
私享最新 技术干货