为什么巨头开始开源大模型？

木羊

发布于 2023-09-09 09:24:29

4860

文章被收录于专栏：睡前机器学习睡前机器学习

先说结论：商业大模型范式可能发生改变，7B大模型标配开源成为免费体验版。

最开始ChatGPT刚出来的时候，我们都以为未来NLP甚至AI的开发范式是：巨头炼丹，虾米调参。总之，后端模型从此与散户无缘。

后来买它开源了Llama，点开了开源大模型这条科技树，然后一发不可收拾。初代Llama其实不怎样样，但架不住开源的buf太强，巨头都瑟瑟发抖。现在出到2了，更不是同日而语，一句话，未来可期。

关于Llama专门写过文章，本该放在这里，总是忘了怎么插链接，后面想起来再补。

Llama点开的开源大模型科技树也颠覆了大模型原本应该出现的巨头炼丹、虾米调参范式，也颠覆了巨头想靠炼丹躺赢的预定路线。

ChatGPT刚出来的那段时间，国内好几家巨头都说要搞大模型，但是有两点我认为当时是恨不明朗的，第一点就是炼好了产品怎么用。这一点现在我看还似懂非懂。

第二点就是开源。我不好十分武断，说那时候百分百没人想着要开源，但最初应该都不会是奔着要开源去的，毕竟这玩意要重氪，高校搞搞还说能提升学术地位，企业可就没这慈善了。最初的想法，应该也是认为世界线会朝巨头炼丹、虾米调参收束，有了大模型，未来总会有办法卖钱。

但是，在开源大模型用爱发电的冲击下，这条世界线崩塌了。你花老大价钱搞个大模型，最后无非三种情况：如果性能还不如开源模型，那炼了等于白炼。如果性能稳赢开源模型，那你已经甩开了OpenAI和谷歌，因为这两家也没这种信心。

那么通常只有最后一种情况，你的性能比开源模型要强一点，但说不好什么时候就被超过去，再加上还有买它这种自爆式开源的奇葩角色搅局，这个时候直接卖API肯定卖不好，买家肯定犯嘀咕。

怎么办？给免费体验版。

为什么开源大都是7B大小？最直接的答案是致敬Llama，因为Llama最先开源的就是7B。但这个答案显然没有说到点子上。

我觉得7B天然适合当免费体验版，概括三个字：好把玩。

7B大小刚刚迈入大模型门槛，有点大模型的能力，但又不是很多。训练成本不高，运行要求也不高，搞个好一点的游戏显卡甚至还能微调。你在论文上读来那些事，都可以亲手试试。自己跑模型那种感觉是独一份的。

不过，你真要琢磨拿7B干点事，你就会发现这玩意就只适合于把玩，想要形成生产力模型规模还得往上。现在13B的模型也很多，但要求一下就上去了，全参数就不要想了，只能走Lora，即使Lora也费劲，最重要的是，效果不好。

这个时候，你就自然想到要氪金了。

设想一下，如果我用了A的7B开源模型，效果还行，但上生产环境还差点意思，更大的模型没法在本地，我就会想，那试试它的商用版本会不会也行呢？再一看API价格，比本地跑便宜。好嘛，那就氪金嘛。

别忘了，免费体验版积累流量，氪金服务变现流量早就是成熟到烂的一种互联网模式，大模型这里只是阳谋罢了。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-08-04，如有侵权请联系 cloudcommunity@tencent.com 删除

开源

本文分享自睡前机器学习微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

为什么巨头开始开源大模型？

为什么巨头开始开源大模型？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐