首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

tf.where

根据条件返回元素(x或y)。 如果x和y都为空,那么这个操作返回条件的真元素的坐标。坐标在二维张量中返回,其中第一个维度(行)表示真实元素的数量,第二个维度(列)表示真实元素的坐标。记住,输出张量的形状可以根据输入中有多少个真值而变化。索引按行主顺序输出。如果两者都是非零,则x和y必须具有相同的形状。如果x和y是标量,条件张量必须是标量。如果x和y是更高秩的向量,那么条件必须是大小与x的第一个维度匹配的向量,或者必须具有与x相同的形状。条件张量充当一个掩码,它根据每个元素的值选择输出中对应的元素/行是来自x(如果为真)还是来自y(如果为假)。如果条件是一个向量,x和y是高秩矩阵,那么它选择从x和y复制哪一行(外维),如果条件与x和y形状相同,那么它选择从x和y复制哪一个元素。

03

每日论文速递 | AutoLoRA:通过meta learning学习LoRA最优秩

摘要:在各种 NLP 任务中,大规模预训练和针对特定任务的微调取得了巨大成功。由于对大型预训练模型的所有参数进行微调会带来巨大的计算和内存挑战,人们开发出了几种高效的微调方法。其中,低秩适应(Low-rank adaptation,LoRA)在冻结的预训练权重基础上对低秩增量更新矩阵进行微调,已被证明特别有效。然而,LoRA 在所有层中统一分配秩,并依赖穷举搜索来找到最佳秩,这导致了高计算成本和次优的微调性能。为了解决这些局限性,我们引入了 AutoLoRA,这是一种基于元学习的框架,用于自动识别每个 LoRA 层的最佳等级。AutoLoRA 将低秩更新矩阵中的每个秩-1 矩阵与一个选择变量相关联,该选择变量决定是否应丢弃秩-1 矩阵。我们开发了一种基于元学习的方法来学习这些选择变量。通过对这些变量的值进行阈值化处理,确定最佳秩。我们在自然语言理解、生成和序列标注方面的综合实验证明了 AutoLoRA 的有效性。

01

每日论文速递 | 用于参数高效微调的小型集成LoRA

摘要:参数高效微调(PEFT)是一种流行的方法,用于裁剪预训练的大型语言模型(LLM),特别是随着模型规模和任务多样性的增加。低秩自适应(LoRA)基于自适应过程本质上是低维的想法,即,显著的模型变化可以用相对较少的参数来表示。然而,与全参数微调相比,降低秩会遇到特定任务的泛化错误的挑战。我们提出了MELoRA,一个迷你合奏低秩适配器,使用较少的可训练参数,同时保持较高的排名,从而提供更好的性能潜力。其核心思想是冻结原始的预训练权重,并训练一组只有少量参数的迷你LoRA。这可以捕获迷你LoRA之间的显著程度的多样性,从而促进更好的泛化能力。我们对各种NLP任务进行了理论分析和实证研究。我们的实验结果表明,与LoRA相比,MELoRA在自然语言理解任务中的可训练参数减少了8倍,在指令跟随任务中的可训练参数减少了36倍,从而实现了更好的性能,这证明了MELoRA的有效性。

01

每日论文速递 | GaLore: 使用梯度低秩映射进行大模型 Memory-Efficient 全参训练

摘要:训练大型语言模型(LLMs)面临着显著的内存挑战,主要是由于权重和优化器状态的不断增大。常见的内存降低方法,如低秩适应(LoRA),在每一层中向冻结的预训练权重添加一个可训练的低秩矩阵,从而减少可训练参数和优化器状态。然而,这些方法通常在预训练和微调阶段的性能上都不如使用全秩权重训练,因为它们将参数搜索限制在低秩子空间中,改变了训练动态,并且可能需要全秩热启动。在这项工作中,我们提出了Gradient Low-Rank Projection(GaLore),一种允许全参数学习但比LoRA等常见低秩适应方法更节省内存的训练策略。我们的方法在优化器状态的内存使用上最多减少了65.5%,同时在使用C4数据集进行LLaMA 1B和7B架构的预训练以及在GLUE任务上对RoBERTa进行微调时,保持了效率和性能。我们的8位GaLore相较于BF16基准,将优化器内存进一步降低了82.5%,总训练内存降低了63.3%。值得注意的是,我们首次证明了在具有24GB内存的消费级GPU上(例如NVIDIA RTX 4090)进行7B模型的预训练是可行的,而无需模型并行、检查点策略或卸载策略。

01

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券