首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

马斯克,3140亿参数,314b,Grok-1大模型AI:已开源,重击ChatGPT,附下载地址

埃隆·马斯克 (Elon Musk) 领导的人工智能 (AI) 公司 xAI 已正式开源其 Grok 语言模型,此前马斯克在不到一周前宣布了这样做的计划。

马斯克上周一表示,xAI 将使 Grok 开源,周日,该公司在其网站上发帖宣布开放发布该语言模型。

“我们正在发布我们的大型语言模型 Grok-1 的基本模型权重和网络架构,”xAI 在帖子中写道。“Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。”

xAI 补充道:“这是 Grok-1 预训练阶段的原始基础模型检查点,该阶段于 2023 年 10 月结束。” “这意味着该模型没有针对任何特定应用进行微调,例如对话。”

“我们正在 Apache 2.0 许可证下发布权重和架构。”

埃隆·马斯克 (Elon Musk) 领导的人工智能 (AI) 公司 xAI 已正式开源其 Grok 语言模型,此前马斯克在不到一周前宣布了这样做的计划。

马斯克上周一表示,xAI 将使 Grok 开源,周日,该公司在其网站上发帖宣布开放发布该语言模型。

“我们正在发布我们的大型语言模型 Grok-1 的基本模型权重和网络架构,”xAI 在帖子中写道。“Grok-1 是一个由 xAI 从头开始训练的 3140 亿参数混合专家模型。”

xAI 补充道:“这是 Grok-1 预训练阶段的原始基础模型检查点,该阶段于 2023 年 10 月结束。” “这意味着该模型没有针对任何特定应用进行微调,例如对话。”

“我们正在 Apache 2.0 许可证下发布权重和架构。”

这一消息发布之前,马斯克一直批评 ChatGPT 制造商 OpenAI放弃了其成为开源模式非营利组织的初衷。OpenAI 在 2019 年获得了微软 10 亿美元的投资,并在 2023 年获得了 100 亿美元的投资,马斯克指出闭源盈利模式是一个问题。

在 X 上,Grok 账户回复了马斯克最初宣布的 xAI 模型开源计划,并开玩笑地向公众开放了其权重:

ChatGPT 账户回复说,“偷了我的整个笑话”,马斯克回应说,“告诉我们更多关于 OpenAI 的‘开放’部分……”

上个月,马斯克还对 OpenAI 及其联合创始人萨姆·奥尔特曼 (Sam Altman) 和格雷格·布罗克曼 (Greg Brockman) 提起诉讼,指控其执行营利性封闭源任务而违反合同。OpenAI 随后发表了一篇博文,声称马斯克最早在 2015 年就同意转向盈利模式。

一月份,马斯克否认了xAI 正在筹集资金的说法,称他尚未就这样做的计划进行过任何对话。马斯克去年 7 月推出了 xAI,作为 OpenAI 和其他人工智能公司的竞争对手,随后于 11 月推出了 Grok 语言模型。

也有专家说Elon Musk 的 xAI 开源了 Grok AI 模型的基础代码,但没有任何训练代码。该公司在 GitHub 上将其描述为“3140 亿参数的 Mixture-of-Expert 模型” 。

xAI 在一篇博文中表示,该模型并未针对任何特定应用进行调整,例如用于对话。该公司指出,Grok-1 是在“定制”堆栈上进行训练的,但没有具体说明细节。该模型根据Apache License 2.0获得许可,允许商业用例。

上周,马斯克在 X 上指出,xAI 打算在本周开源 Grok 模型。该公司去年以聊天机器人的形式发布了 Grok,可供 X 社交网络的 Premium+ 用户使用。值得注意的是,聊天机器人可以访问一些 X 数据,但开源模型不包括与社交网络的连接。

许多著名公司都开源了一些人工智能模型,包括 Meta 的 LLaMa、Mistral、Falcon 和 AI2。2月份,谷歌还发布了两个新的开放模型,名为Gemma2B和Gemma7B。

一些人工智能工具制造商已经开始讨论在他们的解决方案中使用 Grok。Perplexity 首席执行官 Arvind Srinivas 在 X 上发帖表示,该公司将对 Grok 进行对话式搜索的微调,并将其提供给 Pro 用户。

马斯克一直在与 OpenAI 打官司,并于本月早些时候起诉该公司“背叛”非营利性人工智能目标。此后,他多次 在X上点名OpenAI和Sam Altman 。

xAI 遵守 Apache 2.0 许可证来开源 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由地使用、修改和分发软件,无论是个人还是商业用途。项目发布短短四个小时,已经揽获 3.4k 星标,热度还在持续增加。

该存储库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。使用之前,用户需要确保先下载 checkpoint,并将 ckpt-0 目录放置在 checkpoint 中, 然后,运行下面代码进行测试:

pip install -r requirements.txt

python run.py

项目说明中明确强调,由于 Grok-1 是一个规模较大(314B 参数)的模型,因此需要有足够 GPU 内存的机器才能使用示例代码测试模型。此外,该存储库中 MoE 层的实现效率并不高,之所以选择该实现是为了避免需要自定义内核来验证模型的正确性。

用户可以使用 Torrent 客户端和这个磁力链接来下载权重文件:

看到这,有网友开始好奇 314B 参数的 Grok-1 到底需要怎样的配置才能运行。对此有人给出答案:可能需要一台拥有 628 GB GPU 内存的机器(每个参数 2 字节)。这么算下来,8xH100(每个 80GB)就可以了。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ob7H1ssKCLONJO5fklCpPPFw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券