我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中,本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中,80%将被替换为掩码标记,10%的Ti保持不变,10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程是
我已经为NMT建立了一个Returnn变压器模型,我想对每个解码器层的h (除了香草交叉熵损失之外)的每个编码器/解码器注意头l进行额外的损耗训练,即:
loss = CrossEntropyLoss但是,对于这两种实现,我得到了非常不同的结果:每层和每个头都有一个损失经过训练的模型,它的性能一直都更好。我试过多次训练。为了研究这一点,