大模型训练框架Megatron-LLaMA开源发布

文章来源：企鹅号 - 鞭牛士

今日，淘天集团联合爱橙科技正式开源发布大模型训练框架Megatron-LLaMA，旨在让开发者更方便地提升大语言模型训练性能，降低训练成本，并且保持和Llama社区的兼容性。测试显示，在32卡训练上，相比HuggingFace上直接获得的代码版本，Megatron-LLaMA能够取得176%的加速；在大规模训练上，Megatron-LLaMA相比较32卡拥有几乎线性的扩展性，而且对网络不稳定表现出高容忍度。