问是什么造就了BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩饰发生在哪里？
EN

Stack Overflow用户

提问于 2020-10-26 20:43:10

回答 1查看 214关注 0票数 1

我正在尝试使用RobertaForCausalLM和/或BertGeneration进行因果语言建模/下一个单词预测/从左到右预测。我似乎找不出因果掩蔽发生在哪里？我想用地面真实标签训练教师强制，但没有来自未来令牌的信息被包括在注意力机制中。为此，我认为该模型将需要因果注意力掩蔽，但我没有看到它应用于任何地方……

如果有人能告诉我这可能发生在哪里，或者为什么它是不必要的，那将是很有帮助的。

谢谢!

huggingface-transformers

roberta-language-model

pytorch

bert-language-model

回答 1

Stack Overflow用户

发布于 2020-10-27 14:50:30

我已经找到了。它发生在modeling utils的get_extended_attention_mask中。考虑一下:slight_smile解决了这个问题：

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64537339

复制

相似问题

问是什么造就了BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩饰发生在哪里？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是什么造就了BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩饰发生在哪里？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问是什么造就了BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩饰发生在哪里？
EN