苹果开源高效语言模型系列 OpenELM，分为4个大小270M、450M、1B和3B

deephub

发布于 2024-04-26 13:33:28

1900

发布于 2024-04-26 13:33:28

文章被收录于专栏：DeepHub IMBA

苹果公司最新推出系列高效开源的语言模型 OpenELM，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本（分为预训练版和指令微调版共计八个模型）

OpenELM 的创新之处

OpenELM 呈现了几项关键创新，使其与以往的模型区别开来。首先，它采用了层次化缩放策略，用于有效的参数分配，其中变压器层中的参数分配不均匀。这通过减少所需的总参数数量，同时保持或增强模型性能，提高了准确性和效率。其次，OpenELM 强调透明度和可重现性，提供了一个开放源代码框架，用于培训、微调和评估公共可用数据集上的模型。这种全面的发布不仅包括模型权重，还包括培训日志和配置，这是常见做法的重大偏离，这些做法往往限制对此类资源的访问。

性能指标

论文提供了详细的性能数据，突出显示了 OpenELM 对先前模型的进步。它报告与类似模型 OLMo 相比，准确率提高了 2.36%，而所需的预训练令牌数量减半。文章还讨论了吞吐量和效率，注意到例如，0.27 亿参数的 OpenELM 模型实现了每秒 165.85 个令牌的吞吐量。这些数字与其他模型（如 OPT）进行了比较，其中一个大小相似的模型实现了每秒 220.21 个令牌，展示了 OpenELM 设计中涉及的权衡。

作者的自我评估

作者承认 OpenELM 的几个优点。模型的有效参数分配和其开源发布的全面性被视为在使大型语言模型研究更透明和可复制方面的主要进步。然而，他们也指出了限制，特别是与 RMSNorm 实施有关，这引入了性能瓶颈，由于增加了内核启动，对吞吐量产生了负面影响。为了解决这个问题，他们提出了潜在的改进措施，包括优化 RMSNorm 以提高吞吐量和整体性能。