Transformer Decoder只使用什么内存？

Transformer Decoder只使用自注意力机制（Self-Attention）来进行计算和存储。自注意力机制是Transformer模型中的关键组成部分，用于在解码器中对输入序列进行建模和生成输出序列。

自注意力机制通过计算查询（Query）、键（Key）和值（Value）之间的相似度来确定每个位置对其他位置的注意力权重。在Transformer Decoder中，每个位置的查询、键和值都是通过对前一层解码器的输出进行线性变换得到的。

在计算自注意力时，Transformer Decoder需要存储和访问所有位置的查询、键和值的表示。这些表示通常以矩阵的形式存储在内存中，以便在计算注意力权重时进行快速的矩阵乘法运算。

除了自注意力机制之外，Transformer Decoder还需要存储和访问其他辅助信息，如位置编码（Positional Encoding）和解码器的中间表示。位置编码用于为输入序列中的每个位置提供位置信息，以便模型能够捕捉序列中的顺序关系。解码器的中间表示则用于存储解码器在生成输出序列时的中间状态。

总之，Transformer Decoder只使用自注意力机制和其他辅助信息来进行计算和存储，不需要额外的外部内存。