在lm微调中前向传递过程中attention_mask的使用

在LM微调中，前向传递过程中的attention_mask是用于控制模型在处理输入序列时对于特定位置的注意力权重的调整。它是一个二维的矩阵，形状与输入序列的长度相同。attention_mask中的元素可以取以下两个值之一：

0：表示对应位置的输入是有效的，模型应该在该位置上进行注意力计算。
1：表示对应位置的输入是无效的，模型在计算注意力时应该忽略该位置。

attention_mask的使用有以下几个作用：

遮蔽填充：当输入序列中存在填充项时，可以使用attention_mask将这些填充项对应的位置标记为无效，从而避免模型在计算注意力时将注意力放在填充项上，提高计算效率。
遮蔽未来信息：在语言模型中，为了预测当前位置的词语，模型只应该依赖于当前位置之前的词语，而不应该依赖于当前位置之后的词语。因此，可以使用attention_mask将当前位置之后的位置标记为无效，从而遮蔽未来信息。
控制注意力范围：有时候我们希望模型只关注输入序列的一部分，可以使用attention_mask将不需要关注的位置标记为无效，从而控制模型的注意力范围。

在腾讯云的自然语言处理领域，可以使用腾讯云的BERT模型进行LM微调。在BERT模型中，可以通过设置attention_mask参数来传递attention_mask矩阵。具体使用方法可以参考腾讯云的BERT模型文档：腾讯云BERT模型。

注意：本答案中没有提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的云计算品牌商，仅提供了腾讯云相关产品的介绍链接。

tensorflow如何填充像pytorch的'collate_fn‘这样的批处理文本？

、、、

我想将一批文本填充成相同的长度，生成片段id，掩码向量，然后将它们提供给bert模型。在pytorch中，我可以像下面这样使用collate_fn。 def collate_fn(self, batch): rows = self.df.iloc[batch] # take a batch of data ids, seg_ids = self.get_ids_segs(rows) # process data attention_mask = (ids > 0) return ids, seg_ids,attention_mask 但在tensorflo

浏览 0提问于2020-01-16得票数 1

1回答

BERT嵌入层

、

我试图弄清楚嵌入层是如何为预先训练的伯特基模型工作的。我正在使用火把，并试图解剖以下模型： import torch model = torch.hub.load('huggingface/pytorch-transformers', 'model', 'bert-base-uncased') model.embeddings 这个BERT模型有199个不同的命名参数，其中前5个属于嵌入层(第一层)。 ==== Embedding Layer ==== embeddings.word_embeddings.weight

浏览 0提问于2021-05-03得票数 3

回答已采纳

1回答

如何改变预训练长形器模型的参数

、、、

我使用的是拥抱脸预训练的LongformerModel模型。我用它来提取句子的嵌入。我想更改token length，max sentence length参数，但我无法这样做。这是密码。 model = LongformerModel.from_pretrained('allenai/longformer-base-4096',output_hidden_states = True) tokenizer = LongformerTokenizer.from_pretrained('allenai/longformer-base-4096') model.ev

浏览 4提问于2021-08-02得票数 1

1回答

变压器(如伯特)是否有无限的输入尺寸？

、、、、

互联网上有各种各样的来源声称，伯特的固定输入大小为512个令牌(例如这、这、这、这 .)。这个神奇的数字也出现在伯特论文(德夫林等人2019)、RoBERTa论文(刘等人2019)和SpanBERT论文(乔希等人2020年)中。在我看来，当NLP从回归模型转变时，我一直认为(RNN/LSTM Seq2Seq，Bahdanau .)对于转换器，我们将可变长度的输入转换为固定长度的输入，这种输入需要为较短的序列填充，并且不能扩展到超过512个令牌(或者其他您想要分配模型的神奇数字)。然而，想想看，变压器中的所有参数(Vaswani等人)。( 2017)在令牌基础上工作:注意头和FFNN中的权重

浏览 0提问于2023-03-31得票数 3

回答已采纳

2回答

为什么伯特转换器使用[CLS]令牌进行分类，而不是对所有令牌使用平均值？

、、、、

我正在bert架构上做实验，发现大多数微调任务都以最终的隐藏层作为文本表示，然后他们将其传递给其他模型以完成进一步的下游任务。伯特的最后一层看起来如下：我们取每句话的CLS标记：我对这个、、进行了很多讨论--大多数数据科学家给出了这样的解释： BERT是双向的，通过多层编码过程对CLS进行编码，包括所有令牌的所有代表性信息。在不同的句子中，CLS的表现形式是个体的。我的问题是，为什么作者忽略了其他信息(每个令牌的向量)，而采用平均、max_pool或其他方法来使用所有信息，而不是使用CLS令牌进行分类？这个CLS令牌与所有令牌向量的平均值相比有什么帮助？

浏览 6提问于2020-07-02得票数 37

1回答

如何在使用BERT时预先计算序列对任务中的一个序列？

、、、

伯特使用分隔符标记(9个月)为序列对任务输入两个序列.如果我正确地理解了BERT体系结构，那么注意力就会应用到所有的输入上，从而从一开始就将这两个序列耦合起来。现在，考虑一个序列对任务，其中一个序列是常量的，从一开始就知道。例如，回答关于一个已知上下文的多个未知问题。在我看来，如果只使用上下文预计算(部分)模型，则可能有计算优势。然而，如果我的假设是正确的，这两个序列从一开始就耦合，预计算是不可行的。因此，我的问题是:如何在一个序列对任务中预先计算一个序列，同时仍然使用(预先训练的) BERT？我们能结合伯特和其他类型的架构来实现这一点吗？从速度和准确性的角度来看，这样做有意义吗？

浏览 0提问于2021-12-17得票数 1

回答已采纳

2回答

序列到序列丢失

、、

我想弄清楚序列丢失的顺序是如何计算的。在本例中，我使用的是拥抱面板转换器库，但这实际上可能与其他DL库相关。因此，为了获得所需的数据，我们可以： from transformers import EncoderDecoderModel, BertTokenizer import torch import torch.nn.functional as F torch.manual_seed(42) tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') MAX_LEN = 128 tokenize = la

浏览 1提问于2021-03-15得票数 5

回答已采纳

1回答

尽管只有少数几个支持“训练”的例子，但在理论上(在“胡德”下)，语境中的很少镜头学习到底是如何工作的呢？

、、、、

最近的模型，如GPT-3语言模型(Brown等人，2020)和Flamingo视觉语言模型(Alayrac等人，2022年)在上下文中使用很少镜头学习。这些模型能够做出非常精确的预测，即使只提供了“少数”支持示例。见下图( Brown等人，2020年)。 📷 然而，我不清楚这些模型理论上是如何在幕后工作的，以及它们为什么表现得如此出色。其解释似乎是，很少有射击学习有效，因为模型看了任务描述，然后看了支持示例(这是如何完成给定任务的成功例子)，然后基于模型对分配任务的理解以及它对任务如何成功完成的示例的理解，它就能够根据提示来理解它应该预测什么。一般来说，模型在推理时看到的支持示例越多，它的性

浏览 0提问于2022-10-24得票数 7

2回答

理解变压器的自重计算

、

我正在浏览这个链接：https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=demystifying-bert-groundbreaking-nlp-framework#comment-160771 📷 变压器模型自重计算中的键值、值值是多少？查询向量是被查询的单词的嵌入向量，对吗？在RNN中计算注意力是否与变压器中的自我注意不同？

浏览 0提问于2020-11-09得票数 0

6回答

用HuggingFace的变压器用TFBertModel和AutoTokenizer建立模型时的输入问题

、、、、

我正试图建立这幅图中所示的模型：我从HuggingFace的transformers获得了一个经过预先训练的BERT和相应的标记器，其方式如下： from transformers import AutoTokenizer, TFBertModel model_name = "dbmdz/bert-base-italian-xxl-cased" tokenizer = AutoTokenizer.from_pretrained(model_name) bert = TFBertModel.from_pretrained(model_name) 该模型将提供一系列意大利推

浏览 18提问于2021-09-15得票数 8

回答已采纳

1回答

为什么Huggingface中的“max_length”填充会导致更慢的模型推断？

、

我训练了一个基于bert的uncase AutoModelForSequenceClassification模型，发现如果我在编码步骤中注释based=‘max_length’，那么模型推断至少要快2倍。我的理解是，BERT期望一个固定长度的512令牌，这不意味着输入必须填充到512吗？ sequence = tokenizer.encode_plus(question, passage, max_length = 256,

浏览 11提问于2022-01-28得票数 1

6回答

如何利用BERT实现句子嵌入？

、、、

如何利用BERT实现句子嵌入？ from transformers import BertTokenizer tokenizer=BertTokenizer.from_pretrained('bert-base-uncased') sentence='I really enjoyed this movie a lot.' #1.Tokenize the sequence: tokens=tokenizer.tokenize(sentence) print(tokens) print(type(tokens)) 2.添加日志服务和9个月令牌： tokens = [

浏览 0提问于2019-11-04得票数 37

1回答

如何用bert嵌入来训练神经网络模型，而不是像手套/快速文本那样的静态嵌入？

、、、、

我想找一些人来训练一个传统的神经网络模型，它的bert嵌入是动态生成的(BERT上下文化嵌入，它为相同的单词生成不同的嵌入，当不同的上下文出现时，它会产生不同的嵌入)。在正常的神经网络模型中，我们会用手套或快速文本嵌入来初始化模型， import torch.nn as nn embed = nn.Embedding(vocab_size, vector_size) embed.weight.data.copy_(some_variable_containing_vectors) 我不想复制像这样的静态向量并使用它进行训练，而是将每一个输入传递给一个BERT模型，并生成动态的单词嵌入，

浏览 0提问于2019-03-27得票数 6

1回答

如何提取和使用伯特编码的句子之间的文本相似性。(PyTorch/Tensorflow)

、、、、

我想要建立一个文本相似模型，我倾向于使用该模型来查找常见问题和其他方法，以获得最相关的文本。我想对这个NLP任务使用高度优化的BERT模型，.I倾向于使用所有句子的编码来获得一个使用cosine_similarity并返回结果的相似矩阵。在假设条件下，如果我有两个句子作为hello world和hello hello world，那么我假设BRT会给出类似于[0.2,0.3,0] (0表示填充)和[0.2,0.2,0.3]的句子，我可以在sklearn's cosine_similarity中传递这两个句子。我应该如何提取嵌入的句子，以便在模型中使用它们？我在某个地方发现它可以被提

浏览 2提问于2020-07-22得票数 1

回答已采纳

1回答

从bert到cnn模型的输出

、、、

我正在尝试连接伯特模型和Cnn 1d使用比目枪。我使用了这段代码，但我不明白in_channels和out_channels在conv1d函数中的意义，如果输入到cnn模型的是torch(256,64,768) class MixModel(nn.Module): def __init__(self,pre_trained='distilbert-base-uncased'): super().__init__() self.bert = AutoModel.from_pretrained('distilbert

浏览 7提问于2022-02-28得票数 0

回答已采纳

3回答

如何计算带有注意掩码的HuggingFace变压器BERT令牌嵌入的均值/最大值？

、、、

我使用的是HuggingFace Transformers BERT模型，我想要计算一个摘要向量(a.k.a )。在句子中的标记上嵌入)，使用mean或max函数。复杂的是，有些标记是[PAD]，所以在计算平均值或最大值时，我想忽略这些标记的向量。下面是一个例子。我最初实例化了一个BertTokenizer和一个BertModel import torch import transformers from transformers import AutoTokenizer, AutoModel transformer_name = 'bert-base-uncased'

浏览 0提问于2020-12-01得票数 7

回答已采纳

1回答

对ELMO，BERT，Word2Vec的怀疑

、、、、

我在Quora上读到了一个答案，其中一位NLP从业者说，使用ELMO和BERT嵌入作为LSTM或某些RNN的输入将违背ELMo和BERT的目的。我不同意上述说法。通常，我们将单词传递给LSTM，以获得特定上下文的表达，我知道这一点。但是，我们传递的是word2vec而不是单一热点，因为处理后的上下文表示会更好。同样，常识指出，如果我们将ELMO或BERT词嵌入到LSTM，它应该输出比word2vec更多的上下文丰富的单词。我说得对吧？我知道，一旦获得了上下文，我们就可以立即对其进行微调，以完成一些下游任务。但是为什么不以这种方式将ELMo和BERT的上下文嵌入传递给LSTM呢？疑点2：

浏览 0提问于2023-04-02得票数 0

1回答

如何计算BERT模型中的参数数？

、、

文"BERT:深层双向变压器的语言理解预训练“由Devlin & Co. .公司为基础模型尺寸110 m参数(即L=12、H=768、A=12)计算，其中L=层数、H=隐藏大小和A=自关注操作数。据我所知，神经网络中的参数通常是层间“权重和偏差”的计数。那么，这是如何根据给定的信息计算的呢? 12_768_768*12？

浏览 2提问于2020-10-22得票数 2

回答已采纳

2回答

算法:重新排列2D矩阵(通过元素‘翻转’)

我想知道一个解决以下问题(有效)的算法:一个由数字1..9组成的2D矩阵，它需要从顶部(1)到底部(9)在水平线上对齐，但只能通过垂直或水平翻转另一个数字。输入矩阵示例： 1 8 2 6 1 6 9 2 5 1 6 2 3 6 9 2 9 8 5 1 7 4 2 8 4 2 7 6 9 5 所需的输出矩阵： 1 1 1 1 2 2 2 2 2 2 3 4 4 5 5 5 6 6 6 6 6 7 7 8 8 8 9 9 9 9 “翻转”的说明:以输入矩阵为例。在左上角有一个"1“。这个1既可以水平翻转，其旁边的8现在变成8 1 2 6 1 6，也可以垂直翻转它下面的9(

浏览 5提问于2009-08-28得票数 2

回答已采纳

1回答

变压器模型中的适当掩蔽

、、

对于变压器模型，在矩阵乘法之前用一个掩码(用1e-9替换为1e-9)用值张量掩盖注意力分数。关于掩蔽，我有3个简短的问题，希望你能澄清这些问题：注意力分数是唯一需要口罩的地方(除了损失)，还是应该掩盖输入？我之所以问这个问题，是因为在实现中使用了用于查询、键和值的线性层和bias=False。为什么将bias=False设置为在层的输出中保留零，还是有不同的解释？在学习单词嵌入时是否应该使用padding_idx，以使填充的标记为零？

浏览 0提问于2019-12-18得票数 8

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在lm微调中前向传递过程中attention_mask的使用

相关·内容

tensorflow如何填充像pytorch的'collate_fn‘这样的批处理文本？

BERT嵌入层

如何改变预训练长形器模型的参数

变压器(如伯特)是否有无限的输入尺寸？

为什么伯特转换器使用[CLS]令牌进行分类，而不是对所有令牌使用平均值？

如何在使用BERT时预先计算序列对任务中的一个序列？

序列到序列丢失

尽管只有少数几个支持“训练”的例子，但在理论上(在“胡德”下)，语境中的很少镜头学习到底是如何工作的呢？

理解变压器的自重计算

用HuggingFace的变压器用TFBertModel和AutoTokenizer建立模型时的输入问题

为什么Huggingface中的“max_length”填充会导致更慢的模型推断？

如何利用BERT实现句子嵌入？

如何用bert嵌入来训练神经网络模型，而不是像手套/快速文本那样的静态嵌入？

如何提取和使用伯特编码的句子之间的文本相似性。(PyTorch/Tensorflow)

从bert到cnn模型的输出

如何计算带有注意掩码的HuggingFace变压器BERT令牌嵌入的均值/最大值？

对ELMO，BERT，Word2Vec的怀疑

如何计算BERT模型中的参数数？

算法:重新排列2D矩阵(通过元素‘翻转’)

变压器模型中的适当掩蔽

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐