首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响

摘要:虽然大型语言模型(LLM)通常采用微调来解锁其下游应用程序的功能,但我们对不同微调方法的归纳偏差(特别是缩放属性)的理解仍然有限。为了填补这一空白,我们进行了系统的实验,研究不同的缩放因子,包括LLM模型大小,预训练数据大小,新的微调参数大小和微调数据大小,是否以及如何影响微调性能。我们考虑两种类型的微调-全模型调整(FMT)和参数有效的调整(PET,包括即时调整和LoRA),并探讨其缩放行为的数据有限的制度,其中LLM模型的大小大大超过微调的数据大小。基于1B到16 B两组预训练的双语LLM,以及在双语机器翻译和多语种摘要基准测试上的实验,我们发现:1)LLM微调遵循基于幂的乘法联合缩放律,即微调数据大小与彼此缩放因子之间的比例关系; 2)LLM微调从LLM模型缩放中获得的收益大于预训练数据缩放,PET参数缩放通常无效;以及3)最优微调方法是高度任务和微调数据相关的。我们希望我们的研究结果可以帮助理解,选择和发展LLM微调方法。

01
领券