我正在尝试使用下面的教程https://www.tensorflow.org/tutorials/text/nmt_with_attention来理解注意力模型 在解码器部分是这样写的: # x shape根据文档(https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding),输出必须是(batch_size,inpu
在official Pytorch seq2seq tutorial中,有一个注意力解码器的代码,我不能理解/认为可能包含错误。它通过连接输出和此时的隐藏状态来计算每个时间步的注意力权重,然后乘以一个矩阵,得到一个大小等于输出序列长度的向量。注意,这些注意力权重不依赖于编码器序列(在代码中命名为encoder_outputs ),我认为它应该依赖于编码器序列。此外,the paper cited in the tutorial还列出了三种不同的得分函数,可用于计算注意力权重(本文的3.1节)。这