问为什么转换器不在每个层中使用位置编码？
EN

Stack Overflow用户

提问于 2021-01-02 20:10:20

回答 1查看 300关注 0票数 1

在输入传递到变压器模型之前，位置编码被添加到输入中，因为否则注意机制将是顺序不变的。然而，编码器和解码器都是分层的，每一层都需要注意。那么，如果顺序对于注意力机制很重要，那么位置编码不应该添加到每个多头注意力块的输入中，而不是只在模型的输入端添加一次吗？

发布于 2022-07-13 18:57:45

转换器具有与输入令牌相同的输出数。如果变压器了解到信息在后续层中是重要的，那么它将学习如何将位置信息从输入传递到输出。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65543593

复制

相似问题

问为什么转换器不在每个层中使用位置编码？EN