如何在模型中冻结模型的特定层？_如何冻结设备特定保存的模型？_如何在Pytorch中冻结模型的选定图层？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

人工智能大语言模型微调技术：SFT 监督微调、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法

卷积神经网络新手指南之二

卷积神经网络新手指南之二引言本文将进一步探讨有关卷积神经网络的更多细节，注：以下文章中部分内容较为复杂，为了保证其简明性，部分内容详细解释的研究文献会标注在后。步幅和填充让我们看回之前的转换层

PipeTransformer：适用于大规模模型分布式训练的自动化弹性管线

本文围绕一篇论文展开，探讨了 PyTorch DDP (torch.nn.parallel) 以及 Pipeline (torch. Distributed.Pipeline) 的加速混合。

新加坡国立大学&哈工大提出《Incremental-DETR》，基于自监督学习的增量 Few-Shot 目标检测，性能SOTA！

本文分享论文『Incremental-DETR: Incremental Few-Shot Object Detection via Self-Supervised Learning』，由新国立&哈工大提出 Incremental-DETR 进行基于自监督学习的增量 Few-Shot 目标检测，性能SOTA！

基于 Keras 对深度学习模型进行微调的全面指南 Part 2

本部分属该两部系列中的第二部分，该系列涵盖了基于 Keras 对深度学习模型的微调。第一部分阐述微调背后的动机和原理，并简要介绍常用的做法和技巧。本部分将详细地指导如何在 Keras 中实现对流行模型 VGG，Inception 和 ResNet 的微调。

VLSM-Adapter | 轻量级适配器，加速医学图像分割的视觉语言模型！

2010年代初，当深度神经网络能够使用大规模图像或文本数据学习强大的表示时，深度学习在单领域任务（如图像分类或语言翻译）中取得了初步成功[5,10]。由于公开可用的规模化注释图像中缺少医学图像，因此广泛使用了迁移学习，其中网络使用从自然图像（如ImageNet[5]）预训练获得的权重进行初始化，并在特定领域的较小数据集上进一步微调[30]。

【综述专栏】少样本学习综述

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

GPT-4生图未解禁？CMU华人博士新作，大模型GILL能生图能检索，人人可玩

论文地址：https://arxiv.org/pdf/2305.17216.pdf

ICCV2023-一个模型助你实现图像分类和文本生成（论文解读+代码详细解读）

论文题目：TOAST: Transfer Learning via Attention Steering

在消费级GPU调试LLM的三种方法：梯度检查点，LoRA和量化

LLM的问题就是权重参数太大，无法在我们本地消费级GPU上进行调试，所以我们将介绍3种在训练过程中减少内存消耗，节省大量时间的方法:梯度检查点，LoRA和量化。

「狗」生万物？以色列团队提出零样本训练模型，狗狗秒变尼古拉斯·凯奇

GAN应用范围众多，涵盖图像增强、编辑，甚至是分类和回归任务，但在此之前，GAN必须要先收集大量图像。

综述 | 一文看懂生成式时序表示与时序大模型

时间序列数据在各个领域都普遍存在，使得时间序列分析变得至关重要。传统的时间序列模型是任务特定的，具有单一的功能和有限的泛化能力。最近，大型语言基础模型揭示了它们在跨任务迁移性、零次/少次学习和决策可解释性方面的出色能力。这一成功引发了人们探索基础模型以同时解决多个时间序列挑战的兴趣。

大模型学会听音乐了！风格乐器精准分析，还能剪辑合成

而且它不仅会听，只要给它一段文字和图片，它就会在理解图片意境之后，结合文字要求来创作：

Keras 实现加载预训练模型并冻结网络的层

在解决一个任务时，我会选择加载预训练模型并逐步fine-tune。比如，分类任务中，优异的深度学习网络有很多。

告别单一视角：DA4LG在多视图设置下的惊艳表现！

视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁，使得代理的智能可以从感知决策发展到认知决策[16, 5]。例如，代理可以根据来自大型语言模型的计划器提供的一系列原始指令，包括对目标目标的详细描述，来制作一杯咖啡。在这一过程中，视觉语言定位在将每步指令与物理观察到的目标连接起来方面发挥着关键作用[3, 36]。因此，与3D目标的视觉语言定位是使代理能够与真实世界互动的不可或缺手段。有限的、高质量的视觉-语言配对数据阻碍了视觉语言定位技术的发展，尤其是3D视觉语言定位。为了解决这个问题，现有工作尝试[9, 28, 38, 42]使用多视角感知或外部先验，这需要额外的数据成本以及由于在固定设置中预训练的特征编码器引起的现有领域差距。在本文中，作者从领域适应的角度对语言定位任务进行了探索，受到了大型语言模型参数高效调整的领域适应的启发。

【机器学习】机器学习重要方法——迁移学习：理论、方法与实践

迁移学习（Transfer Learning）作为机器学习的一个重要分支，通过将一个领域或任务中学得的知识应用到另一个领域或任务中，可以在数据稀缺或训练资源有限的情况下显著提升模型性能。本文将深入探讨迁移学习的基本原理、核心方法及其在实际中的应用，并提供代码示例以帮助读者更好地理解和掌握这一技术。

ICML 2023 | ICE-Pick: 用于DNN的高效迭代剪枝

剪枝是深度神经网络 (DNN) 的主要压缩方法之一，从 DNN 模型中删除不太相关的参数以减少其内存占用。为了获得更好的最终精度，通常迭代地执行剪枝，在每一步中删除越来越多的参数，并对剩余的参数应用微调(即额外的训练周期），一直持续到达到目标压缩比。然而，这个过程可能非常耗时。若采取一次性剪枝（在一个步骤中修剪所有参数并进行一次微调）来缓解这个问题，又可能会带来较高的准确性损失。

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域，不过目前只是实验效果非常惊艳，对Transformer工作原理的相关研究仍然十分有限。

少到4个示例，击败所有少样本学习：DeepMind新型800亿模型真学会了

机器之心报道编辑：陈萍、杜伟 DeepMind 的这个模型，可以说是「看一眼」就学会了。关于智能，其关键点是在得到一个简短的指令时快速学习如何执行新任务的能力。例如，一个孩子在动物园看到动物时，他会联想到自己曾在书中看到的，并且认出该动物，尽管书中和现实中的动物有很大的差异。但对于一个典型的视觉模型来说，要学习一项新任务，它必须接受数以万计的、专门为该任务标记的例子来进行训练。假如一项研究的目标是计数和识别图像中的动物，例如「三匹斑马」这样的描述，为了完成这一任务，研究者将不得不收集数千张图片，并在每

微软 & 清华 | 提出LoRAs专家混合方法：MOLE，可动态、高效地组合多个LoRA！

LoRA模块化架构让研究人员们开始探索组合多个LoRA方法，旨在实现学习特征的联合生成，增强各种任务的性能。当前线性算术组合和参数调优组合都存在一定的缺陷，为了能够动态、高效地组合多个训练后的 LoRA，本文作者提出了LoRA专家混合方法：MOLE，不仅在LoRA组合中提升了性能，还节约了计算开销，保证了LoRA的灵活性。

医疗SAM也来啦 | AutoSAM告诉你如何在医疗领域更快更好开发大模型

生成预训练Transformer（Generative Pre-trained Transformer，GPT）系列模型的成功表明，如果在大规模数据上进行训练，大型语言模型在零样本和非可视域中的少量快照任务上的性能与最新技术相当。

Ada-Ranker：咱就说咱能根据数据分布自适应，不信瞧瞧？

现在主流的排序模型设计和使用方式是：离线训练模型，冻结参数，并将其部署到在线服务。但是实际上，候选商品是由特定的用户请求决定的，其中潜在的分布（例如，不同类别的商品比例，流行度或新商品的比例）在生产环境中彼此之间存在很大差异。经典的参数冻结推理方式无法适应动态服务环境，使得排序模型的表现受到影响。

港大&港中文提出PRoLoRA | 克服同类参数共享方法缺点，拥有更高模型容量/可行性/广泛适用性，微调更好的大模型

凭借令人印象深刻的能力，对大型语言模型（如LLaMA 2，GPT-3.5 Turbo和Gemini）进行特定领域和功能的微调（例如模型对齐和指令调优）变得越来越受欢迎。为了减轻完全微调的高成本，参数高效微调（PEFT），特别是LoRA，通过调整少数参数并冻结其余参数，已成为一种轻量级解决方案。然而，随着模型规模的迅速扩大，对进一步提高参数效率的需求变得越来越迫切，特别是在多LoRA场景中。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐