前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pytorch 固定部分参数训练

Pytorch 固定部分参数训练

作者头像
为为为什么
发布2022-08-09 17:31:24
2.4K0
发布2022-08-09 17:31:24
举报
文章被收录于专栏:又见苍岚

我们经常会用到预训练模型,并在预训练模型的基础上添加额外层。训练时先将预训练层参数固定,只训练额外添加的部分。本文记录 Pytorch 相关操作。

固定参数

  • 固定参数即网络训练时不改变该部分的权重,而更新指定层的参数
  • pytorch 固定参数主要通过两个设置完成
  1. tensorrequires_grad 属性设置为 False 仅将该属性设置为 False 网络仍会训练并修改参数,还需要堆 optimizer 的输入参数进行过滤
  2. optimizer 中过滤需要更新的变量
requires_grad
  • 初始化变量时可以设置该值为 False
代码语言:javascript
复制
Variable(torch.randn(5,5),requires_grad=True)

  • 也可以手动设置模型中的层
代码语言:javascript
复制
for p in self.parameters():
	p.requires_grad=False

optimizer
  • 在 optimizer 的变量位置可以过滤需要更新的变量,得到迭代器:
代码语言:javascript
复制
optimizer.SGD (filter(lambda p:p.requires_grad,model.parameters()), lr=1e-3)

操作示例

只训练部分层
代码语言:javascript
复制
class RESNET_attention(nn.Module):
    def __init__(self, model, pretrained):
        super(RESNET_attetnion, self).__init__()
        self.resnet = model(pretrained)
        for p in self.parameters():
            p.requires_grad = False
        self.f = nn.Conv2d(2048, 512, 1)
        self.g = nn.Conv2d(2048, 512, 1)
        self.h = nn.Conv2d(2048, 2048, 1)
        self.softmax = nn.Softmax(-1)
        self.gamma = nn.Parameter(torch.FloatTensor([0.0]))
        self.avgpool = nn.AvgPool2d(7, stride=1)
        self.resnet.fc = nn.Linear(2048, 10)

  • 这样就将 for 循环以上的参数固定, 只训练下面的参数。
  • 注意需要在 optimizer 中添加上这样的一句话filter(lambda p: p.requires_grad, model.parameters()
代码语言:javascript
复制
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.0001, betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)

固定部分层参数

代码语言:javascript
复制
for k,v in model.named_parameters():
     if k!='XXX':
         v.requires_grad=False  #固定参数

检查部分参数是否固定
代码语言:javascript
复制
for k,v in model.named_parameters():
    if k!='xxx.weight' and k!='xxx.bias' :
            print(v.requires_grad) #理想状态下,所有值都是False

查看可训练参数
代码语言:javascript
复制
for name, param in model.named_parameters():
    if param.requires_grad:
        print(name)

查看网络总参数
代码语言:javascript
复制
net = Model()
print('# Model parameters:', sum(param.numel() for param in net.parameters()))

不同层设置不同学习率
代码语言:javascript
复制
optim.SGD([
    {'params': model.base.parameters()},
    {params': model.classifier.parameters(),'lr':1e-3)],
    lr=1e-2, momentum=0.9)

这意味着 model.base 的参数将使用 1e-2 的默认学习率,model.classifier 的参数将使用 1e-3 的学习率,所有参数将使用 0.9 的动量。

PyTorch更新部分网络,其他不更新
  • 假设有模型A和模型B,我们需要将A的输出作为B的输入,但训练时我们只训练模型B.那么可以这样做:
代码语言:javascript
复制
input_B = output_A.detach()

  • 它可以使两个计算图的梯度传递断开,从而实现我们所需的功能。

参考资料

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月17日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 固定参数
    • requires_grad
      • optimizer
      • 操作示例
        • 只训练部分层
        • 固定部分层参数
          • 检查部分参数是否固定
            • 查看可训练参数
              • 查看网络总参数
                • 不同层设置不同学习率
                  • PyTorch更新部分网络,其他不更新
                  • 参考资料
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档