前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大模型关于Lora论文集合

大模型关于Lora论文集合

作者头像
致Great
发布2024-01-12 08:47:26
2200
发布2024-01-12 08:47:26
举报
文章被收录于专栏:程序生活程序生活
  • 《Chain of LoRA:Efficient Fine-tuning of Language Models via Residual Learning》

Chain of LoRA (COLA),这是一种受 Frank-Wolfe 算法启发的迭代优化框架,旨在弥合 LoRA 和全参数微调之间的差距,而不会产生额外的计算成本或内存开销。COLA 采用残差学习过程,将学习到的 LoRA 模块合并到预先训练的语言模型参数中,并重新启动对新诞生的 LoRA 模块的优化。我们提供理论收敛保证以及实证结果来验证我们算法的有效性。

论文地址:https://arxiv.org/pdf/2401.04151.pdf

  • 《ASPEN: High-Throughput LoRA Fine-Tuning of Large Language Models with a Single GPU》

ASPEN是一个突破性的开源框架,通过采用高效的多种 LoRA/QLoRA 方法,彻底改变了大型语言模型 (LLM) 的微调。它通过优化微调过程、最大限度地减少 GPU 内存使用以及支持多个 LoRA/qLoRA 适配器的并发微调而脱颖而出。

项目链接:https://github.com/TUDB-Labs/multi-lora-fine-tune/tree/main

  • 《MultiLoRA: Democratizing LoRA for Better Multi-Task Learning》 MultiLoRA是一种新的低秩参数更新方式,通过多元化LoRA模块的贡献来更好地适应多任务学习问题。MultiLoRA并行化LoRA模块以减少参数依赖,改变初始化方法来增强表达能力。文中通过奇异值分解分析发现,LoRA主要依赖少量奇异向量,而MultiLoRA可以使更多奇异向量作用。此外,文章使用包含不同领域任务的混合数据集来比较评估各方法,MultiLoRA在MMLU等多种场景下都表现优于LoRA。MultiLoRA达到了与全参数微调相当的多任务适应效果,但只需增加很少参数,这将有利于大规模语言模型的实际应用。

论文地址:https://arxiv.org/pdf/2311.11501.pdf

  • 《MixLoRA: Resource-Efficient Model with Mix-of-Experts Architecture for Enhanced LoRA Performance》

MixLoRA 的基本概念基于所有参数均已冻结的预训练模型,例如 LLaMA-7B。它涉及在其全连接层 (FFN) 之上训练多个 LoRA 专家模块。同时,对路由层(线性门)进行训练,创建更强大的专家混合 (MoE) 语言模型。最近的研究表明,现有 MoE 模型(例如 Mixtral)中的专家权重相对相似,使得 MixLoRA 方法能够以更少的资源实现与现有 MoE 模型相似的性能。

此外,MixLoRA 还允许同时微调注意力层,有助于改善微调结果。在实验中,与由 9 个专家组成的不带注意层适配器的 MixLoRA 模型相比,由 8 个具有注意层适配器的专家组成的 MixLoRA 模型表现出更快的损失减少速度。

MixLoRA 以独特的 LoRA 适配器形式存在于 m-LoRA 中。因此,m-LoRA 能够同时加载、训练和微调多个不同的 MixLoRA 和 LoRA 模型。但是,需要注意的是,这些模型必须基于相同的预训练模型。

MixLora地址:https://github.com/TUDB-Labs/multi-lora-fine-tune/blob/main/MixLoRA.md

在这里插入图片描述
在这里插入图片描述
  • 《LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS》

麻省理工学院和香港中文大学联合发布了LongLoRA,这是一种全新的微调方法,可以增强大语言模型的上下文能力,而无需消耗大量算力资源。

通常,想增加大语言模型的上下文处理能力,需要更多的算力支持。例如,将上下文长度从2048扩展至8192,需要多消耗16倍算力。

LongLoRA在开源模型LLaMA2 7B/13B/70B上进行了试验,将上下文原始长度扩展至32K、64K、100K,所需要的算力资源却很少。

开源地址:https://github.com/dvlab-research/LongLoRA

论文地址:https://arxiv.org/abs/2309.12307

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2024-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档