11 月 22 日,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。
Hugging Face 页面:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
GitHub 地址:https://github.com/PrimeIntellect-ai/prime
体验链接:chat.primeintellect.ai
Prime Intellect 声称,与此前的研究相比,INTELLECT-1 实现了高达 10 倍的规模提升。这一重大突破有力地证明,大规模模型训练不再仅仅是大公司的专属领域,通过去中心化且由社区驱动的方式同样能够达成。
他们的下一步计划是将模型进一步扩展至前沿规模,其最终目标是实现开源 AGI。这一目标在其在线 Demo 的模型选项中已有暗示——其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。由此可见,这确实是一个极具雄心壮志的团队。
模型发布后,尽管存在质疑之声,但总体而言,AI 社区给予了非常积极的肯定。
使用了几个经典问题对其在线 Demo 版本的模型进行了简单测试。
首先是经典的草莓问题,INTELLECT-1 在一开始回答正确,但继续提问后,又给出了常见的错误答案。
该模型也展现出了不错的文本理解能力,但总体上与 Llama 和 Qwen 等前沿开源模型仍存在一定差距。
下面我们来看看它的汉语能力。从多次测试的结果来看,这个模型的汉语能力欠佳,并且幻觉现象似乎较为严重。比如在下图中,即使该模型目前并不具备读取链接的能力,也会根据上下文强行进行作答。
无论如何,INTELLECT-1 都是 AI 历史上一次极具开创性的实验。接下来,我们就一同来探究这个系统是如何炼成的。
大规模去中心化训练
Prime Intellect 的这场去中心化训练规模相当宏大,涉及三大洲的五个国家,同时运行了 112 台 H100 GPU。
该团队表示:“我们在各大洲实现了 83%的总体计算利用率。当仅在美国境内的节点上进行训练时,实现了高达 96%的计算利用率。与中心化训练方法相比,开销极小。”
这样的成果表明,INTELLECT-1 在面临严重的带宽限制和节点波动的情况下,依然能够维持训练的收敛性以及高计算利用率,这为我们展现了一种新的可能:能够以去中心化、社区驱动的方式训练出前沿的基础模型!
训练细节与数据集
INTELLECT-1 基于 Llama-3 架构,其具有以下特点:
·42 层,隐藏维度为 4096。
·32 个注意力头。
·序列长度为 8192。
·词表大小为 128256。
模型在经过精心筛选的一万亿 token 数据集上进行训练,数据构成如下:
数据集 Huggingface 链接:
https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
·55% FineWeb-Edu。
·20% Stack v2(Stack Overflow 等技术问答数据)。
·10% FineWeb(精选网页数据)。
·10% DCLM-baseline(基准通用语料)。
·5% OpenWebMath(数学数据)。
模型训练持续了 42 天,采用了以下技术:
·采用 WSD 动态调整学习速度,使模型学习更加高效。
·精细调教学习参数:内层学习率设为 7.5e-5。
·引入特殊的损失函数(max-z-loss),确保训练过程的稳定性。
·使用 Nesterov 动量优化算法,助力模型更快更好地学习。
·支持训练机器的灵活接入和退出,最多可同时使用 14 台机器协同训练。
从训练过程的监控图表可以看出,PRIME 系统表现卓越:即使参与训练的机器数量经常变化(从最少 4 台逐渐增加到最多 14 台),整个训练过程依然保持稳定,充分证明了该系统的可靠性。
Prime:一个去中心化训练框架
该团队所使用的训练框架名为 Prime,它是基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 此前开发的 Distributed Low-Communication(DiLoCo)方法。
项目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo
在此之前,Prime Intellect 已经在 1B 参数规模上对去中心化 AI 模型训练进行了实验。该团队表示:“这让我们到达了我们的 masterplan 的第三步:合作训练用于语言、智能体和科学的开放式基础模型。”
与之前开源的 OpenDiLoCo 相比,Prime 有两大关键提升。
一是在算法方面,他们在 OpenDiLoCo 上进行了许多消融研究,发现还能进一步降低通信要求。值得注意的是,他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合,从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下有效,该团队还将它们扩展到了更大的模型。
在具体的大规模扩展方面,我们知道,去中心化训练既是工程挑战,也是研究挑战。当今最大的 AI 实验室也尚未彻底解决在多个分布式数据中心上的容错训练问题。该团队表示,Prime 这种全新的去中心化训练框架支持容错训练,支持计算资源的动态开启/关闭,还能优化全球分布式 GPU 网络中的通信和路由。
该团队在博客中写道:“该框架构成了我们开源技术堆栈的基础,其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建,我们的目标是突破全球分布式 AI 训练的极限。”
具体来说,Prime 框架包含以下关键特性:
·用于容错训练的 ElasticDeviceMesh。
·异步分布式检查点。
·实时检查点恢复。
·自定义 Int8 All-Reduce 内核。
·最大化带宽利用率。
·PyTorch FSDP2 / DTensor ZeRO-3 实现。
·CPU 卸载。
计算效率
虽然训练过程分散在各地,但计算效率仍保持着“聚是一团火”的高水准:在美国境内集群部署时,计算资源利用率高达 96%(中位数同步延迟仅 103s);跨越大西洋的部署场景下依然维持在 85.6%的优异水平(中位数同步延迟 382s);即便是在全球分布式节点配置下,计算利用率也能稳定保持在 83%(中位数同步延迟 469s)。
这一系列令人瞩目的数据充分证明了该去中心化训练框架的容错性和扩展性,不仅能够从容应对不同地理位置的网络延迟挑战,更在确保训练稳定性的同时实现了高效计算。
后训练
在完成分布在全球的预训练阶段后,Prime Intellect 与 Arcee AI 合作开展了一系列后训练,以提升 INTELLECT-1 的整体能力和特定任务表现。主要包含三个阶段:
·SFT(监督微调,16 轮)。
·DPO(直接偏好优化,8 轮)。
·使用 MergeKit 整合训练成果。
更多信息请查看详细技术报告:
论文链接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
未来计划:长期目标是 AGI
INTELLECT-1 的成功让我们看到了去中心化训练的巨大潜力。那么,如何将开源的 PRIME 框架扩展到目前动辄 70B 的规模呢?Prime Intellect 提出了三点规划:
·继续扩大全球计算网络。
·用更多奖金激励推动社区参与。
·进一步优化 PRIME 去中心化训练架构以支持更大的模型。
在博客结尾,Prime Intellect 写道:“为了防止 AI 能力被少数组织垄断,我们诚邀全球 AI 社区通过 GitHub 或 Discord 加入我们。让我们携手共建一个更开放、更具协作性的 AI 发展未来。”
领取专属 10元无门槛券
私享最新 技术干货