我正在尝试使用RobertaForCausalLM和/或BertGeneration进行因果语言建模/下一个单词预测/从左到右预测。我似乎找不出因果掩蔽发生在哪里?我想用地面真实标签训练教师强制,但没有来自未来令牌的信息被包括在注意力机制中。为此,我认为该模型将需要因果注意力掩蔽,但我没有看到它应用于任何地方……
如果有人能告诉我这可能发生在哪里,或者为什么它是不必要的,那将是很有帮助的。
谢谢!
发布于 2020-10-27 14:50:30
我已经找到了。它发生在modeling utils的get_extended_attention_mask
中。考虑一下:slight_smile解决了这个问题:
https://stackoverflow.com/questions/64537339
复制相似问题