随着大模型工程技术的迅猛进步,提升大模型训练效率已成为推动其发展的关键要素。训练效率 = 训练吞吐× 训练有效率 × 收敛效率,其中,训练有效率的保障离不开灵活且强大的模型恢复机制。据悉,Meta的万卡集群在训练Llama3.1时,平均每3⼩时便遭遇⼀次故障,这凸显了完善的大模型Checkpoint保存与恢复功能对于提升训练效率的重要性。
为应对这一挑战,PaddleNLP大语言模型套件针对大规模训练场景,研发并开源了大模型统一存储技术—— Unified Checkpoint。该技术集训推一体、异步保存、快速恢复、无损压缩等多重优势于一身,显著优化了 大模型训练流程。以下是其主要功能亮点:
工业级的大模型训练根据机器数量的变化,会涉及多种分布式策略的灵活组合和调整。Unified Checkpoint通过存储格式与分布式策略的解耦设计,支持Checkpoint在不同分布式策略间的自动切换, 用户无需感知这一变化,可显著提升大模型恢复训练的灵活性与可扩展性。
传统上,训练阶段Checkpoint的参数结构与推理阶段参数切分格式往往不相同,导致两者间额外的转换成本。PaddleNLP Unified Checkpoint实现了训练与推理参数格式的无感切换,极大降低了两者衔接的复杂度,进一步提升了PaddleNLP套件的便捷性。
PaddleNLP Unified Checkpoint是针对大模型大规模分布式训练设计和实现的开源存储工具,可以自适应感知分布式训练策略的组合变化,还可以通过异步保存策略以及⽆损压缩算法实现快速存储、降低存储空间。
在性能收益方面,Unified Checkpoint通过其独特的异步保存机制和无损压缩算法,实现了存储速度的⼤幅提升和存储空间的显著节省。
异步存储技术使得模型训练与保存操作能够并行进行,大幅减少了训练过程中的等待时间,根据测试数据,存储耗时减少最高可达95%,这意味着训练过程更加流畅,训练资源的利⽤率得到了极大提高。同时,⽆损压缩算法的应用使得Checkpoint的存储空间需求大幅降低,最高可节省78.5%的存储空间。
在使用效果方面,Unified Checkpoint的统一存储格式和分布式策略解耦设计,使得模型在不同分布式策略间切换变得轻松自如,无需担⼼因策略变化而导致的恢复训练难题。这⼀特性极大地增强了训练的灵活性和可扩展性,使得⽤户能够根据实际资源情况灵活调整训练策略,而无需担⼼存储格式的兼容性问题。
此外,训练和推理模型存储格式的无缝切换,更是为⽤户提供了从训练到部署的一站式解决⽅案,简化了模型应用的复杂度,提高了开发和部署效率。
综上所述,PaddleNLP Unified Checkpoint以其卓越的性能收益和便捷的使⽤效果,为大型语言模型的训练与部署提供了强有力的⽀持。
它不仅解决了大规模训练中存储效率和存储空间的瓶颈问题,还通过其灵活性和可扩展性,为用户带来了更加⾼效、便捷的训练体验。
Unified Checkpoint使用文档:https://paddlenlp.readthedocs.io/zh/latest/llm/docs/unified_Checkpoint.html
Paddle 链接:https://github.com/PaddlePaddle/Paddle
PaddleNLP 链接:https://github.com/PaddlePaddle/PaddleNLP