我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中,本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中,80%将被替换为掩码标记,10%的Ti保持不变,10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程是只预测掩码令牌,还是预测15%的整个随机令牌?
我有一个推文语料库,我正在尝试使用BERT进行分类。我已经使用我的语料库成功地预先训练了BERT,并且它已经生成了检查点文件。现在我需要使用这个新的训练模型,并向其添加更多的层。我尝试使用keras_bert中的"load_trained_model_from_checkpoint“函数,但它失败了,并出现错误"cls/predictions/transform/dense/kernel not found in checkpoint”。有没有人能帮我修复这个bug。谢谢
我下载了基于bert的预训练模型。我编辑config.json (从512到256) "max_position_embeddings": 256, 然后我想使用bert模型, from transformers import BertForSequenceClassification
model = BertForSequenceClassification.from_pretrained(
MODEL_PATH,
num_labels = 2, # The number of output labels--2 for binary classifica