在输入传递到变压器模型之前,位置编码被添加到输入中,因为否则注意机制将是顺序不变的。然而,编码器和解码器都是分层的,每一层都需要注意。那么,如果顺序对于注意力机制很重要,那么位置编码不应该添加到每个多头注意力块的输入中,而不是只在模型的输入端添加一次吗?
发布于 2022-07-13 18:57:45
转换器具有与输入令牌相同的输出数。如果变压器了解到信息在后续层中是重要的,那么它将学习如何将位置信息从输入传递到输出。
https://stackoverflow.com/questions/65543593
复制相似问题