首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

每日论文速递 | 使用LoRA微调也会过拟合?探索LoRA中的Dropout

摘要:以显著的能力,大语言模型(LLMs)已成为许多自然语言处理应用中不可或缺的元素,而参数高效的微调,特别是 LoRA,已经因其轻量级的模型定制方法而备受青睐。与此同时,各种dropout方法,最初设计用于所有参数更新的完全微调(full weight),缓解了与过度参数冗余相关的过拟合问题。因此,由于 LoRA 的可忽略的可训练参数和先前dropout方法的有效性之间存在可能的矛盾,这一点在很大程度上被忽视了。为了填补这一空白,我们首先确认参数高效的 LoRA 也容易出现过拟合问题。然后,我们重新审视了特定于 transformer 的dropout方法,并从数学和经验上建立了它们的等价性和差异。在这种比较分析的基础上,我们引入了一个统一的框架进行全面的研究,该框架基于dropout位置、结构模式和补偿措施实例化这些方法。通过这个框架,我们揭示了当涉及到有限的可训练参数时,它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一种名为 HiddenKey 的新dropout方法。大量实验证实了 HiddenKey 在多个模型和任务中的显著优越性和充分性,这凸显了它作为大型语言模型的高性能和参数高效微调的首选方法。

01

量子快充新研究:速度可提高200倍,几秒钟从零加满,电车时代有望了?

机器之心编译 机器之心编辑部 续航和快充问题解决一个,电车的推广就没有多少阻碍了。 无论是光伏还是聚变,人类文明迟早都要转向可再生能源。鉴于人类不断增长的能源需求和化石燃料的有限性,这种趋势是不可逆转的。为了开发替代能源,人类已经进行了很多研究,其中大部分是使用电力作为主要能源载体。 随着可再生能源产品和设备受到更多重视,人们的生活也发生了变化,最明显的是电动汽车的普及。尽管 10 年前还很少在道路上见到电动汽车,但如今它的年均售出数量已经达到数百万,成为市场增长最快的行业之一。 与从碳氢化合物燃料的燃

03
领券