本文最初发布于 swyx 的个人博客。
GPT-2 的周期为 6 个月:
GPT-3 的周期为 10 个月:
Text-to-Image 的周期为两(?)年(GANs 的整个历史达 10 年之久):
当然,上面这个时间线是经过仔细筛选的;如果把扩散模型(2015 年)和 Transformer 模型(2017 年)从学术论文发表到开发的历史以及 GANs 之前的工作都考虑进来,那么这个故事要长得多。还可以看下 Stable Diffusion 在 RunwayML 的研究起源,以及 2021 年 12 月,Emad 在与 Elad Gil 的聊天中对 CC12M 的突破性进展的描述。
但更有趣的是此后发生的事情。9 月份,OpenAI 发布音频转文本模型 Whisper,遵循 MIT 许可,没有设置 API 付费墙。当然,音频转文本领域的滥用空间比较小,但也有不少人猜测,人们对 Stable Diffusion 发布的反应影响了开源决策。
足够先进的社区是有魔力的。研究人员和资金充足的团队一直都非常擅长创建新的基础模型(FM),但提供产品化用例和优化模型的最后一英里则是开源社区非常擅长的工作。
在这方面,最可量化的例子发生在最近的 Dreambooth 循环中(通过主题的少样本分析对 text-to-image 进行微调以插入场景)。
Dreambooth 是一个值得考虑的优化目标,因为你不仅要下载一个模型并运行它,还要在自己的样本图像上运行微调训练,但最初的移植需要大量的内存,以至于对大多数人来说,不可能在自己的机器上运行。
是 Corridor Digital 的家伙们让它在 YouTube 上走红。
Twitter 形式的时间线:
可以看出,为了那些在自己机器上运行模型的人,开源社区在 12 天内完成了开源移植,然后在随后的 25 天内将系统要求降低了 79%。
更新:10 月 8 日,系统需求再次降低,变成 8GB。
大部分优化工作都发生在 GitHub 上,由 Xavier Xiao(来自新加坡的生成式模型和优化博士,就职于 AWS AI)和 Shivam Shrirao(驻印度的高级计算机视觉工程师)完成,并得到来自意大利的 Matteo Serva 的帮助。两人与原 Dreambooth 团队都没有关系。
低处的果实都摘完了,使得一些人开始担心收益递减,但还是存在一些概念验证,将 Stable Diffusion 缩小到可以在手机上运行(之前已降至 10GB 甚至 5GB——消费级卡的内存为 6-12GB,iDevices 有统一内存)。
这可能是开源人工智能模型优化的圣杯,因为这样一来,图像生成实际上就不再受云经济和利润动机的限制了。
2022 年 10 月更新:这里有一个开源实现:https://github.com/madebyollin/maple-diffusion
虽然在这 3 个新的 text-to-image 模型中,Stable Diffusion 是出现最晚的,但在社区的帮助下,它在影响力和应用方面都远远超过了另外两个与其存在竞争关系的 text-to-image 模型 Midjourney 和 DALL-E。
这就为其他形式的人工智能(音乐、生物、语言模型)如何开源(才有可能创造新的机会)提供了一个有用的、具有推广价值的路线图。
以下是提高所需技术技能的一个大致顺序:
一个有趣但重要的切入点——大部分 AI/ML 的东西都是用 Python 编写的,而 Python 作为一种分发机制是很不安全的。也就是说,“开源人工智能”的兴起也将伴随“开源人工智能安全”需求的日益增加。
整个过程让人不禁联想到开源是如何吞噬 Software 1.0 的:
Anders Hejlsberg 是 Turbo Pascal、TypeScript 等 5 种语言之父,他有一句名言:未来,不开源的语言是不会取得成功的。或许,对于技术栈中越来越多的东西,你都可以说同样的话。
我们很容易得出这样的结论,在 Software 2.0/3.0 中也会出现同样的情况,但还存在一些问题。
对于经济学家来说,希望基础模型开源发布是违反直觉的。据估计,训练 GPT-3 的成本在 460 万到 1200 万美元之间,还不包括人工成本和失败的尝试(现在,一些创业公司声称已将其降低到 45 万)。即使是 Stable Diffusion 令人印象深刻的 60 万美元成本(Emad 暗示真实数值要低得多,但也说他们的实验成本是 13 倍(200 万 A100 小时)),在没有投资回收计划的情况下,也不是什么可以随意忽视或放弃的东西。
从 OpenAI 通过 API 盈利的轨迹来看,每个人都明白 AI 经济的发展趋势:
(如果 Research > Infra 可能会有争议,所以让它们大致相等,就迁就我一下吧)
但作为非经济行为体,Stability AI 的既定目标是既压低拥有专有基础模型研究的经济价值,又扩大人工智能的总体 TAM:
这是由 Stan Shih 提出的关于行业价值分布的微笑曲线模型,Ben Thompson 也做过广泛的讨论。
最大的问题是 Stability 公司打算如何为自己融资——1 亿美元的 A 轮融资为他们争取了一些时间,但在我们真正知道 Stability 公司打算如何赚钱之前,这个生态系统不会真正稳定下来。
来自 Emad 的回应:“商业模式很简单,规模和服务与普通 COSS 类似,但有一些附加价值。
根据最坚定的开源倡导者的说法,对于开源一词,我们整篇文章中的用法都是错误的。严格地说,一个项目只有在遵循 OSI 批准的少数许可之一的情况下才是开源的。与此同时,几乎没有一个“开源 AI”模型或衍生品需要许可,诚信问题完全被忽略:
2022 年 10 月更新:InvokeAI 是一个例外,它遵循 MIT 许可。
Stable Diffusion 自己发布了一个新的 CreativeML Open RAIL-M 许可(RAIL 代表 Responsible AI,由一个独立的团队创建),用于管理模型权重(要花 60 万美金才能获得),其中某些部分与 OSI 批准的许可兼容,但也有些不兼容的用例限制。如果你与法律部门和 OSI 的人打过交道,就会知道这是行不通的,这种许可分歧没有法律先例可依。
StabilityAI 已经清楚地表明,你可以将其产品用于商业目的,他们甚至公开支持 Midtravel 使用 StabilityDiffusion,但当有一天,赌注扩大 1000 倍时,法律细节就开始变得重要了。
来自 HuggingFace 人工智能顾问 Carlos Muñoz Ferrandis 的说明:“Meta 发布的 OPT175(LLM)、BB3(聊天机器人)和 SEER(计算机视觉)许可类似于 RAIL(包括用例限制),仅用于研究目的(许可证有 2 个取决于模型的变体)。”
OpenAI Whisper 是我所知道的第一个模型、权重和代码都遵循 MIT 许可(简单、"真正开源")的例子。
Emad 更正道:“除了 Stable Diffusion,我们支持的所有模型都已经在 MIT 许可下发布了,例如,花了 120 万 A100 小时的 OpenCLIP。” 时间敏感提示:如果你很关心许可,则可以关注下 GitHub 和开源研究所 10 月 18 日组织的讨论和一个专家组。你也可以联系 Tidelift 总顾问 Luis Villa。
撇开 OSI 的批准不谈,到目前为止,我们有意忽略了另一个问题,那就是“开源”到底意味着什么。
在传统的 Software 1.0 时代,“开源”意味着代码库开源,但不一定是基础设施设置的细节,也不一定是代码所积累/操作的数据。换句话说,开放代码并不意味着开放基础设施或开放数据(虽然不是必须的,但在实践中,通常至少会有一些关于如何自托管的基本指南)。
在 Software 2.0 时代,数据收集变得非常重要,并开始主导代码(被简化为模型架构)。像 ImageNet 这样的开放数据集帮助培养了整整一代 ML 工程师,最明显的动力来自 Kaggle 比赛,当然还有 ImageNet 挑战赛本身(在这项赛事中,AlexNet 和 CNN 推动了整个领域向深度学习的融合)。通过半同态加密,你甚至可以屏蔽数据以创建像 Numerai 这样的系统——不是严格意义上的开放,但也足够开放,无聊的数据科学家可以摆弄下这些假数字,赚点外快。不过,权重通常是不开放的,因为那是训练成本最高的内容。
有了 Software 3.0 和已知的 Chinchilla 缩放曲线,LLM 和 FM 成了人们在单一大型语料库上进行的一次性大规模投资。
“开源 AI”运动正在用几种不同的方式来解决这个问题:
上述内容的确切顺序会根据实际的进展和背景的变化而变化,但这感觉对吗?
关于“开源 ”人工智能的所有这些方面,开源促进会(Open Source Initiative)可能确实没有考虑到,而开源 AI 文化最基础的举措之一是创建一个有预期、规范和法律先例可循的可信标准。这是 Hugging Face 和 Stability AI 的机会,但也许已经有其他组织这样做了,只是我还没有发现。
领取专属 10元无门槛券
私享最新 技术干货