根据Attention is all you need的论文:加性注意(Bahdanau在RNN中使用的经典注意)使用具有单个隐层的前馈网络计算兼容性函数。然而,如果我们仔细观察加性注意,它实际上是一个RNN单元,其计算复杂度为n*d² (根据同一表)。
因此,加性注意力的计算复杂性不应该是n*d²而不是n²*d吗?
我正在学习如何构建一个基于seq2seq的模型,并试图通过为编码器和解码器堆叠多个RNN层来扩展它。但是,我在检索对应于编码器隐藏状态的输出时遇到了问题。下面是我在编码器中构建叠加的双向GRUCell层的代码:def __init__(self, n_layers, dropout, ...): for _ in range(n_layers)]
self