苹果公司最新推出系列高效开源的语言模型 OpenELM,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版共计八个模型)
OpenELM 呈现了几项关键创新,使其与以往的模型区别开来。首先,它采用了层次化缩放策略,用于有效的参数分配,其中变压器层中的参数分配不均匀。这通过减少所需的总参数数量,同时保持或增强模型性能,提高了准确性和效率。其次,OpenELM 强调透明度和可重现性,提供了一个开放源代码框架,用于培训、微调和评估公共可用数据集上的模型。这种全面的发布不仅包括模型权重,还包括培训日志和配置,这是常见做法的重大偏离,这些做法往往限制对此类资源的访问。
论文提供了详细的性能数据,突出显示了 OpenELM 对先前模型的进步。它报告与类似模型 OLMo 相比,准确率提高了 2.36%,而所需的预训练令牌数量减半。文章还讨论了吞吐量和效率,注意到例如,0.27 亿参数的 OpenELM 模型实现了每秒 165.85 个令牌的吞吐量。这些数字与其他模型(如 OPT)进行了比较,其中一个大小相似的模型实现了每秒 220.21 个令牌,展示了 OpenELM 设计中涉及的权衡。
作者承认 OpenELM 的几个优点。模型的有效参数分配和其开源发布的全面性被视为在使大型语言模型研究更透明和可复制方面的主要进步。然而,他们也指出了限制,特别是与 RMSNorm 实施有关,这引入了性能瓶颈,由于增加了内核启动,对吞吐量产生了负面影响。为了解决这个问题,他们提出了潜在的改进措施,包括优化 RMSNorm 以提高吞吐量和整体性能。
本文分享自 DeepHub IMBA 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!