翻译自 Proprietary AI Models Are Dead. Long Live Proprietary AI Models 。
尽管开源模型将占主导地位,但仍有理由需要私有的基础模型。
在过去的几周里,有人宣称开源生成人工智能模型将主导该领域。权威人士引用了一份泄露的谷歌备忘录,该备忘录称,由于开源模型,这家搜索巨头已经失去了在生成人工智能领域的竞争优势。论点是这样的:
然后是谷歌 I/O 2023 。 Google Bard ,一个基于自己的专有数据集的生成式 AI 搜索引擎,受到好评如潮。引用最多的功能是它能够将实时数据合并到其模型中。让我们通过分析上面的论点,看看为什么私有模型将在未来发挥有价值的作用:
事实证明,访问实时数据来构建模型是昂贵的。谷歌花费数十亿美元来构建基础设施,以实时索引网络以构建他们的生成模型,你可以打赌这将是私有的。
让我们以两个基于两个不同基础模型构建的航空旅行聊天机器人为例;一个聊天机器人是开源的,另一个是实时数据的私有聊天机器人。旅行聊天机器人使用私有的航班信息数据集进行“微调”,以推荐乘坐哪些航班。在许多情况下,两个聊天机器人将提供相同的答案。但是,如果一场大风暴袭击机场,使用私有实时数据构建的聊天机器人将提供航班信息,避免受风暴影响的航班。这对用户来说是无价的;因此,它对开发人员也很有价值。
那么,这是否意味着每个生成式 AI 用例都需要一个基于私有实时数据构建的基础模型?否,但还有其他原因需要私有的基础模型:
那么未来的基础模型会是什么样子呢?大概是这样的:
假设这是流行的架构,次要影响是什么?
DataStax(我的雇主)的次要影响也很重要。作为数据管理提供商,我们通过 DataStax Astra DB 在云中提供服务的投资可能会随着生成式 AI 在企业中变得越来越普遍而增长。