使用HuggingFace库在Pytorch中训练n%的最后一层BERT (训练12个中的最后5个BERTLAYER )

在使用Hugging Face的Transformers库和PyTorch进行BERT模型的微调时，如果你想要只训练模型的最后几层（例如最后5层），你需要首先冻结其他层的权重，然后只对你选择的层进行训练。这种方法可以减少计算资源的需求，同时仍然可以利用BERT的强大语言表示能力。

下面是一个如何实现这一过程的步骤指南：

1. 安装必要的库

确保你已经安装了transformers和torch库。如果没有安装，可以通过以下命令安装：

pip install transformers torch

2. 加载预训练的BERT模型

首先，你需要加载一个预训练的BERT模型。我们将使用BertForSequenceClassification，这是一个用于序列分类任务的BERT模型。

from transformers import BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained('bert-base-uncased')

3. 冻结特定的层

接下来，你需要冻结除了最后5层之外的所有层。BERT基本模型通常有12个Transformer层，所以我们将冻结前7层。

# 冻结除最后5层之外的所有层
for name, param in model.bert.named_parameters():
    if name.split('.')[2] not in ['9', '10', '11']:  # 这里的数字代表要训练的层（从0开始计数）
        param.requires_grad = False

在这个例子中，我们通过检查参数名称来决定是否冻结该层。BERT模型的层在参数名称中以数字标识，例如layer.9是第10层。

4. 设置训练配置

设置训练的配置，包括优化器和学习率等：

from torch.optim import AdamW

# 只为需要梯度的参数设置优化器
optimizer = AdamW(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-5)

5. 训练模型

现在，你可以开始训练模型。这里只是一个简单的训练循环示例：

from torch.utils.data import DataLoader

# 假设你已经有了一个PyTorch数据集 `dataset`
train_loader = DataLoader(dataset, batch_size=16, shuffle=True)

model.train()
for epoch in range(num_epochs):
    for batch in train_loader:
        inputs = batch['input_ids']
        labels = batch['labels']
        outputs = model(inputs, labels=labels)
        loss = outputs.loss
        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

确保你已经准备好了数据集，并且数据集中的条目是适当的格式。

6. 评估模型

在训练结束后，不要忘记评估模型的性能：

model.eval()
# 进行评估

这个简单的例子展示了如何在使用Hugging Face的Transformers库时，只训练BERT模型的最后几层。根据你的具体任务和数据，你可能需要调整数据加载和处理的方式、训练循环的细节以及评估方法。

页面内容是否对你有帮助？

有帮助

没帮助

使用HuggingFace库在Pytorch中训练n%的最后一层BERT (训练12个中的最后5个BERTLAYER )

、、、、

Bert有一个类似于encoder -> 12 BertLayer -> Pooling的架构。我想训练Bert模型的最后40%层。我可以冻结所有图层，如下所示： # freeze parametersfor param inbert.parameters()

浏览 58提问于2020-11-26得票数 1

2回答

如何将标记器输出转换为Huggingface Transformers中Trainer所需的train_dataset？

、

我尝试使用huggingface transformers的文档进行标记化。from transformers import AutoTokenizerencoded_input= tokenizer(batch_of_sequences) 预训练的标记器给出了包含以下三个关键字的字典输出： encoded_input = {

浏览 107提问于2020-08-21得票数 3

2回答

在本地下载预先训练好的句子转换器模型

、、、

我正在使用SentenceTransformers库(这里：)来使用预训练模型bert-base-nli-mean tokens创建句子的嵌入。我有一个应用程序将部署到不能访问互联网的设备上。然而，我被困在从本地保存的路径加载保存的模型。当我尝试使用上面提到的技术保存模型时，输出文件如下： ('/bert-base-nli-mean-tokens/to

浏览 197提问于2020-12-23得票数 5

1回答

如何在HuggingFace变压器库中获取预训练的BERT模型的中间层输出？

、、、、

(我正在学习关于BERT word嵌入的 author教程，在本教程中，作者访问了BERT模型的中间层。)我想要的是使用HuggingFace的Transformers库访问TensorFlow2中BERT模型的单个输入令牌的最后4层。因为每个层输出一个长度为768的向量，所以最后</

浏览 8提问于2020-04-27得票数 7

回答已采纳

1回答

通过删除不使用的层来微调BERT模型

、、、、

我在bert情感分析中发现了这段代码，其中删除了未使用的层，添加了更新可训练变量/可训练权重，我正在寻找显示BERT中不同层的文档，我们如何删除未使用的层，添加权重等。但是，我找不到任何相关文档。BERT_PATH = "https://tfhub.dev/google/bert_uncased_L-<e

浏览 72提问于2021-09-20得票数 0

1回答

在伯特，表情符号被认为是未知的(UNK)

、、

我的研究兴趣是表情在文本中的作用。我试图将讽刺性的推文归类为文本。一个月前，我使用了一个dataset，其中我使用： Tokenizer.add_tokens(“表情符号列表”)。因此，当我测试BERT模型时，它成功地添加了令牌。但是两天前，当我对另一个数据集做同样的事情时，BERT模型被归类为'UNK‘令牌。我的问题是，BERT模式最近有变化吗？我已经用下面的令牌程序

浏览 1提问于2021-10-06得票数 1

2回答

在小型定制语料库上预训练语言模型

、、、、

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：使用经过预先训练的<

浏览 5提问于2020-04-24得票数 7

2回答

我如何在bert预训练模型中获得最后一个transformer编码器的所有输出，而不仅仅是cls令牌输出？

、、、、

我使用的是pytorch，这是huggingface transformers link的模型 from transformers import BertTokenizerFast, BertForSequenceClassificationbert = BertForSequenceClassification.from_pretrained("bert-base-uncased",output_attentions=False,

浏览 282提问于2020-12-09得票数 3

2回答

BERT作为特征提取器与微调BERT层固定的区别

、、、

据我所知，利用BERT进行某些NLP分类任务有两种方法： BERT可以执行“特征提取”，其输出将进一步输入到另一个(分类)模型中。另一种方法是微调一些文本分类任务的BERT，方法是在预培训的BERT中添加一个或多个输出层，并对整个过程进行再培训(有不同数量的BERT层固定)。但是，如果在第二种情况下，我们修复了所有的层，并且添加了分类模型中的所有层，那么第一种和第

浏览 0提问于2020-03-26得票数 1

3回答

“BertEmbeddings”对象在转换tf检查点时没有属性‘偏差’

、、、、

当尝试转换自我训练的tensorflow BERT模型(使用谷歌的脚本)的检查点时，使用Huggingface的将检查点转换为Py手电筒模型。我最后总是出现以下错误：AttributeError：'BertEmbeddings‘对象没有属性’偏向‘['bert/embeddings/layer_norma

浏览 8提问于2020-09-01得票数 0

1回答

由于内存问题，如何保存仅与预训练的bert模型的分类器层相关的参数？

、、、、

我通过冻结除分类器层之外的所有层对预训练模型here进行了微调。并且我用pytorch作为.bin格式保存了体重文件。现在不加载400mb的预训练模型，有没有办法加载我重新训练的just分类器层的参数？顺便说一句，我知道我必须加载原始的预训练模型，我只是不想加载整个微调的模型。由于内存问题。我可以从state_dict访问最后一层的参数，如下所示

浏览 40提问于2021-08-17得票数 4

回答已采纳

1回答

在没有在PyTorch中创建实例的情况下加载带有权重和优化器的模型

、、

解压缩文件时，内容如下：在使用py手电筒加载model.pt文件时：model = torch.load(model_saved_at)argsoptimizer_historylast_optimizer_state 顾名思义，它们中的大多数都是OrderedKeys本身，使用vars()，我们可以看到args只包含一些要从命令行传递的</e

浏览 0提问于2020-08-05得票数 0

1回答

如何加载部分预训练的pytorch模型？

、、、、

在处理医学笔记时，我使用的是ClinicalBert (https://github.com/kexinhuang12345/clinicalBERT)，并希望使用其预先训练好的权重。如何从ClinicalBert模型加载预训练的Bert权重，而不加载分类权重？我目前尝试替换pytorch_pretrained_bert包中的</em

浏览 94提问于2020-04-14得票数 6

1回答

BERT嵌入层

、

我正在使用火把，并试图解剖以下模型：model = torch.hub.load('huggingface/pytorch-transformers', 'model', 'bert-base-uncased')这个BERT模型有199个不同的命名参数，其中前5个属于嵌入层(第一层)。从BERT模型的替

浏览 0提问于2021-05-03得票数 3

回答已采纳

2回答

为什么伯特转换器使用[CLS]令牌进行分类，而不是对所有令牌使用平均值？

、、、、

我正在bert架构上做实验，发现大多数微调任务都以最终的隐藏层作为文本表示，然后他们将其传递给其他模型以完成进一步的下游任务。伯特的最后一层看起来如下：我们取每句话的CLS标记： BERT是双向的，通过多层编码过程对CLS进行编码，包括所有令牌的所有代表性信息在不同的句子<

浏览 6提问于2020-07-02得票数 37

7回答

用从磁盘加载预训练模型

从文档中，我知道我不必每次都下载经过预先训练的向量，我可以用以下语法保存它们并从磁盘加载：使用蒙面语言建模(MLM)目标的英语预训练模型。它是在本文中介绍的，并首次在这个存储库</e

浏览 136提问于2020-09-21得票数 27

4回答

对于文本分类任务，您会使用哪种模型(GPT2、BERT、XLNet等)？为什么？

、、、

我正在尝试为句子分类任务训练一个模型。输入是一个句子(整数的向量)，输出是一个标签(0或1)。我在各处看到过一些关于使用Bert和GPT2执行文本分类任务的文章。然而，我不确定我应该从哪一个开始。在自然语言处理中的这些最新模型中，您会使用原始变压器模型、Bert、GPT2、XLNet中的哪些模型作为开始？为什么？我更愿意在Tensorflow<e

浏览 5提问于2019-09-09得票数 8

2回答

如何使用经过训练的BERT模型检查点进行预测？

、、、、

我用小队2.0训练了BERT，并使用BERT-master/run_squad.py在输出目录中获得了model.ckpt.data、model.ckpt.meta、model.ckpt.index=$BERT_LARGE_DIR/bert_config.json \ --do

浏览 80提问于2019-06-28得票数 5

回答已采纳

1回答

更改配置和加载拥抱面模型，对下游任务进行精细调整。

、、、

我使用HuggingFace模型来执行TokenClassification任务。我有下面的label2id映射。我正在使用这个库的3.3.0版本 "B-ADD": 4, "B-CRIME": 2, "B-INCIDENT_DATE我能看到的唯一区别是模型dbmdz/bert-large-cased-

浏览 62提问于2021-02-11得票数 1

1回答

huggingface transformer models: BERT模型训练开始时的KeyError：'input_ids‘消息

、、

使用Huggingface转换库，当我为掩蔽语言建模任务微调BERT语言模型时，我在最后一步遇到了一个bug。我希望微调它在一个领域的金融语料库，该模型尚未培训。然而，当我调用模型进行训练时，我得到了以下错误消息: KeyError：'input_ids‘。下面提供的是我采用的步骤和代码。任何有见地的人都很感激！首先，我从一个pandas数据帧创建了一个dataset对象，该数据帧又是从一

浏览 117提问于2020-11-19得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用HuggingFace库在Pytorch中训练n%的最后一层BERT (训练12个中的最后5个BERTLAYER )

1. 安装必要的库

2. 加载预训练的BERT模型

3. 冻结特定的层

4. 设置训练配置

5. 训练模型

6. 评估模型

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐