为什么BERT模型必须保持10%的掩码标记不变？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或

浏览 151提问于2020-09-23得票数 2

回答已采纳

1回答

快速和慢速标记器产生不同的结果

、、、、

具体地说，当我运行填充掩码管道时，分配给填充掩码的单词的概率对于快速和慢速记号赋予器是不同的。此外，尽管快速标记器的预测保持不变，而与输入的句子数量和长度无关，但对于慢速标记器则不是如此。下面是一个最小的例子： from transformers import pipeline slow = pipeline('fill-mask', model='

浏览 27提问于2020-04-12得票数 3

1回答

屏蔽语言模型处理，更深层次的解释

、

我正在详细研究BERT模型(you can found the description here)，我正在清楚地理解为什么需要在20%的时间内保留或替换随机单词，或者只是将掩码标记始终用于掩码语言模型我们尝试训练双向技术，文章解释了“在微调过程中看不到掩码令牌”，但对我来说，这是两个不同的步骤，我们首先训练双向，然后再进行下游任务。如果有人能给我解释一下我的理解哪里错了。

浏览 20提问于2019-03-08得票数 0

回答已采纳

1回答

添加特殊标记会改变所有嵌入- TF Bert拥抱面

、、、

考虑到以下情况，from transformers import BertTokenizer tokenizer = BertTokenizer.from_pretrained('bert-base-cased') 我预计，如果向令牌中添加了特殊的令牌，则其余的令牌将保持<

浏览 4提问于2021-10-30得票数 0

回答已采纳

1回答

伯特的mask_token_id与attention_mask的关系

、、

我试图使用BERTforMaskedLM来获取文本中特定标记的概率。George came home late last night"tokeniser = BertTokenizerFast.from_pretrained('bert-base-uncased') tokens = tokenis

浏览 11提问于2022-06-15得票数 0

1回答

给定一个主语和一个宾语，我能用什么方法来推断一个可能的动词？

、、

假设主语A和宾语B，例如，A是" Peter "，B是" iPhone "，Peter可以是‘what’或‘iPhone’，动词根据上下文的不同而变化，在这种情况下，我可以使用哪种方法来推断一个可能的动词我假设一个模型，可以是BERT或其他模型，通过给定的语料库了解主语、动词和宾语之间的关系，但我并不真正了解NLP。我期待一些离壳模型，或模型，可以通过简单的微调。

浏览 5提问于2022-12-01得票数 0

3回答

spacy和训练数据中的有案例的BERT模型与无案例的BERT模型

、、

我想使用spacy的预训练的BERT模型进行文本分类，但我对cased/uncased模型有点困惑。我在某处读到过，只有在有可能对任务有帮助的情况下，才应该使用cased模型。在我的特定情况下:我正在处理德语文本。在德语中，所有名词都以大写字母开头。所以，我认为(如果我错了，请纠正我的错误)，这正是必须使用cased模型的情况。(在spacy中，也没有适用于德语的

浏览 0提问于2020-05-20得票数 8

回答已采纳

2回答

huggingface -在本地保存微调的模型-以及tokenizer？

、

我只是想知道，如果微调BERT模型并保存它，标记器是否会受到某种影响或发生变化。以后使用保存的BERT模型时，我是否也需要在本地保存记号赋予器以重新加载它？我就是这么做的 bert_model.save_pretrained('./Fine_tune_BERT/') 然后，稍后 bert_model = TFBertModel.from_pretrained('.&#

浏览 358提问于2020-10-20得票数 1

回答已采纳

2回答

在小型定制语料库上预训练语言模型

、、、、

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：从我的新文本中获取新的

浏览 5提问于2020-04-24得票数 7

1回答

变压器PreTrainedTokenizer add_tokens功能

、、

提到来自Huggingface的超棒变形金刚库的，我看到了add_tokens函数。tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased然而，在保持所有其他不变的情况下，我注意到利用这个更新的tokenizer，精细调优分类器的准

浏览 2提问于2020-02-05得票数 3

1回答

masked_lm_labels参数在BertForMaskedLM中是如何工作的？

、、、

transformers import BertTokenizer, BertForMaskedLMmodel = BertForMaskedLM.from_pretrained('bert-base-uncased') input_ids = torch.tensor(tokenizer.encode我无法理解masked_lm_labels=input_ids

浏览 1提问于2020-04-28得票数 1

2回答

伯特的TokenEmbeddings是如何创建的？

、、

在中，有一个关于WordPiece嵌入的段落。我们使用WordPiece嵌入(Wu等人，2016)和一个30,000个令牌词汇表。每个序列的第一个令牌总是一个特殊的分类令牌(CLS)。与此令牌对应的最后一个隐藏状态用作分类任务的聚合序列表示。句子对被打包成一个序列。我们用两种方式区分句子。首先，我们用一个特殊的令牌(SEP)将它们分开。其次，我们在每个标记中添加一个学习嵌入，表示它是属于句子A还是句子B。如图1所示，我们将输入嵌入表示为E，表示特殊CLS令牌

浏览 0提问于2019-09-16得票数 9

回答已采纳

2回答

Extjs4.2.1-网格掩码不会隐藏

、

我有一个带有几个网格组件的UI。由于某种原因，即使在填充了行之后，网格的一个加载掩码仍然是可见的。我必须弄清楚为什么掩码在加载后保持不变，但首先我试图确定隐藏掩码的代码。以下是我尝试过的：Ext.getCmp('callClassAvaila

浏览 6提问于2015-02-13得票数 0

回答已采纳

2回答

枚举中的掩码[C++]

、

我目前正在使用bits，并查看了microsoft的io状态代码，发现了类似以下内容： { // constants for stream statesIostate)0x2;static const _Iostate _Hardfail = (_Iostate)0x10; 我只是想知道为什么要用这个掩码，因为代码在没有这个掩码的情况下

浏览 4提问于2009-12-05得票数 1

回答已采纳

1回答

EncoderDecoderModel转换解码器的分类器层

、、

我正在尝试使用序列到序列模型进行命名实体识别.我的输出是简单的IOB标记，因此我只想预测每个令牌(IOB)的3个标签的概率。(classifier): Linear(in_features=768, out_features=3, bias=True)然而，当我将这两种模型组合在我的EncoderDecoderModel中时，译码器似乎被转换成了一种不同的分类器--现在我的词汇表的大小是out

浏览 2提问于2021-10-25得票数 1

回答已采纳

1回答

使用Bert预测多个令牌

、

我正在寻找关于使用伯特和伯特的蒙面语言模型来预测多个标记的建议。我的数据看起来是：问题：rainy days lead to @placeholder，这个@placeholder的答案是wet在模型中，wet environment是预测的答案。

浏览 4提问于2020-04-24得票数 5

回答已采纳

1回答

将碎片隔离并将其压平

、

问题mask = 0x10f3 (0001 0000 1111 0011)我想要1)隔离掩码(从n中移除mask中的位)2)将其“压平”(去掉mask中的零位，并将相同的移位应用于a)在这种情况下，您可以创建一个特殊的<

浏览 0提问于2017-08-21得票数 5

1回答

Torch JIT跟踪= TracerWarning:将张量转换为Python可能会导致跟踪不正确

、、、

我遵循本教程：创建自定义BERT模型的跟踪，但是当运行完全相同的dummy_input时，我会收到一个错误：text = "[CLS] Who was Jim Henson ?[tokens_tensor, segments_tensors] traced_model = torch.jit.trace(mode

浏览 1提问于2021-03-22得票数 5

1回答

什么是整个词掩蔽在最近的伯特模型？

、、

我正在检查伯特GitHub页面，并注意到有一些新的模型是由一种名为“全词掩蔽”的新训练技术建立的。下面是一个描述它的片段：Input Text: the man jumped up , put his basket on在这种情况下，我们总是同时屏蔽与一个单词对应的所有标记。总的掩蔽率保持不变。Maske

浏览 0提问于2019-06-15得票数 11

回答已采纳

1回答

BERT嵌入层

、

bert-base-uncased')这个BERT模型有199个不同的命名参数，其中前5个属于嵌入层(第一层)。在这里，我很困惑为什么要学习这个参数？从BERT模型的替代实施来看，位置嵌入是一个静态转换。这似乎也是在变压器模型中进行位置编码的传统方法。考虑到替代实现，它使用正弦和余弦函数在输入中编码交错对。在A.2培训前程序(第13页)下的最后一句中，纸

浏览 0提问于2021-05-03得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云