Tensorflow:注意力解码器

、

我被tensorflow r1.0中的注意力解码器实现搞糊涂了。可以在这里找到原始代码：。cell_input, attention], 1) 在我的理解中，解码器接收来自上一个时间步的状态注意力基于RNN的先前隐藏状态和当前输入创建。我们解码器的最终输出是RNN在每个时间步产生的所有输出。然而，似乎在tensorflow中，<e

浏览 2提问于2017-04-06得票数 0

1回答

、、

在TensorFlow1.0中，seq2seq API发生了很大的变化，并且不再与以前的seq2seq示例兼容。特别是，我发现注意力解码器的构建相当具有挑战性:旧的attention_decoder函数已被移除，取而代之的是，新的API期望用户在训练和预测期间为dynamic_rnn_decoder提供几个不同的注意力函数有没有人知道如何构建注意力解码器，只提供输入和最终的编码器状态？

浏览 3提问于2017-02-20得票数 0

1回答

如何从AttentionWrapper可视化注意力权重

、

我想在tensorflow最新版本(1.2)中可视化注意力分数。我在contrib.seq2seq中使用contrib.seq2seq中的RNNCell构建一个以BasicDecoder为解码器的RNNCell，然后使用dynamic_decode()逐步生成输出。我如何获得所有步骤的注意力权重？谢谢!

浏览 1提问于2017-06-18得票数 6

1回答

解码器中嵌入层的输出(神经机器翻译)

、

我正在尝试使用下面的教程https://www.tensorflow.org/tutorials/text/nmt_with_attention来理解注意力模型在解码器部分是这样写的： # x shape根据文档(https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding)，输出必须是(batch_size，inpu

浏览 25提问于2020-08-06得票数 0

1回答

如何屏蔽Tensorflow编码器-解码器RNN中的零填充值？

在官方的Tensorflow神经机器翻译示例()中，在编码器模型中定义了GRU层。但是，由于没有应用掩码，GRU将正常处理填零的值。而在解码器中，我认为情况更糟，因为对填充值的关注将在上下文向量的最终计算中发挥重要作用。我认为在下面的损失函数的定义中，零被屏蔽了，但在这一点上已经太晚了，编码器和注意力解码器的输出都将“损坏”。

浏览 0提问于2019-04-24得票数 1

1回答

与seq2seq相比，自回归有哪些优势？

、、、、

为什么最近的对话代理(如ChatGPT、BlenderBot3和Sparrow )是基于解码器架构而不是编解码结构的？我知道编码器和解码器的注意力之间的区别，但就对话而言，难道编解码器的注意力不是更好吗？

浏览 0提问于2023-02-24得票数 0

回答已采纳

1回答

关于火炬seq2seq教程中注意事项计算的几个问题:与原“八达纳”或“龙”纸不符

、、

我正在研究最近的注意力。我对他们计算的注意力有一些怀疑，是Pytorch注意力教程：。在本教程中，他们使用解码器的输入和解码器的隐藏状态计算分数或权重。然而，我发现龙和巴达诺都不这么做，为什么。相反，两者都使用解码器隐藏状态，编码器输出计算权重。为什么毕火炬教程会这样做？

浏览 2提问于2021-04-14得票数 0

1回答

如何在LSTM/GRU上使用角膜注意层？

、、

我看到Keras有一个用于该tensorflow.keras.layers.Attention的层，我希望使用它(所有其他问题和资源似乎自己实现它或使用第三方库)。import tensorflow as tf hidden_states = tf.keras.layers.GRU我知道我需要从编码器的隐藏状态和解码器当前隐藏状态创建上下文向量。我将如何实现这个网络的解码器和注意力部分？

浏览 1提问于2020-01-19得票数 8

1回答

解码器不接受双向编码器的输出

、、、、

我正在尝试用Tensorflow实现一个编码器解码器模型。编码器是一个双向单元。tf.nn.rnn_cell.LSTMStateTuple(c=cell_state_final, h=hidden_state_final) 编码器和解码器之间出现问题解码器有一个注意力机制，看起来像这样： def decoder(decoder_embedding, vocab_size, hidden_units, sequ

浏览 17提问于2020-01-29得票数 0

1回答

在编解码器框架中，可以用`tf.contrib.seq2seq.dynamic_decode`代替`tf.nn.dynamic_rnn`函数吗？

、、、

我有tensorflow的实现。同时，我想尝试一下基于注意力的seq2seq模型来生成笔迹。关于解码器，我用tf.nn.dynamic_rnn实现了，它可以工作。现在，我想在tensorflow中使用基于attentiom的，所以我想将其更改为tf.contrib.seq2seq.dynamic_decode。

浏览 0提问于2018-05-23得票数 0

1回答

注意在非NLP领域使用的例子？

、、、、

当我寻找注意力实现示例时，带有注意力的编码器-解码器结构总是出现在第一位。除了自然语言处理之外，有没有其他领域使用注意力的例子？

浏览 2提问于2020-02-20得票数 0

1回答

如何在tensorflow 2.0的双向编码器中添加译码器&注意层

、、、

目前，我参考了tensorflow 2.0教程中的1.NMT和2.文本生成。我已经完成了一个编码层，但目前我有一些问题，以匹配以下各层的形状(译码器和注意)与前面的(编码器)。sample_output.shape))警告:tensorflow在GPU上运行时，它将使用通用GPU内核作为后盾，警告:tensorflow:Layer gru_20

浏览 0提问于2020-05-18得票数 1

1回答

在基于注意力的序列到序列变压器中，Q向量来自哪里？

、、

我正在上一门基于注意力的NLP课程，但是我不理解基于Q，K和V向量的注意力的计算和应用。我的理解是，K和V向量是从编码器输入导出的，Q向量是从解码器输入导出的。这对我来说是有意义的，在培训的背景下，整个输入序列呈现给编码器，整个输出序列呈现给解码器。然而，没有意义的是，这是如何在推理的背景下应用。在这种情况下，似乎没有输入到解码器，那么Q向量从何而来？

浏览 0提问于2021-09-24得票数 0

回答已采纳

1回答

在基于注意力的seq_len中消除BiLSTM

、、、、

我正在研究基于自我关注的BiLSTM的几个实现，我不明白为什么每个实现中的输入和输出大小是不同的。具体而言，我指的是取自不同实现的下列代码： def attnetwork(self, encoder_out, final_hidden): # final_hidden shape = (1, batch_size, n_hidden) att

浏览 4提问于2021-02-16得票数 0

1回答

编码器如何将注意力矩阵传递给变形金刚中的译码器？

、、、、

编码器如何将输入的注意力矩阵传递给解码器？正如我所理解的，它只将密钥和值矩阵传递给解码器。任何帮助都是非常感谢的。

浏览 6提问于2021-03-21得票数 0

回答已采纳

1回答

没有隐藏状态的注意力网络？

、、、

我想知道编码器的隐藏状态对于注意力网络有多有用。当我研究一个注意力模型的结构时，我发现一个模型通常是这样的：有了像翻译这样的过程，为什么编码器的隐藏状态要向前转发或者首先存在是很重要的？因此，输入的顺序对输出的顺序不一定重要，从先前的输入中记忆的内容也不一定重要，因为注意力模型同时查看所有输入。你就不能直接把注意力放在x的嵌入上吗？谢谢

浏览 4提问于2020-04-27得票数 0

回答已采纳

1回答

哪种NN架构解决了我的问题？

、

例如，我想将图像帧转换为文本，例如，如果我有一个与狗一起玩球的图像，我将生成一个简单的文本“狗玩球”(好的，我知道我必须接受x个样本的训练，但我的意思是指导性的)。谢谢

浏览 0提问于2018-09-06得票数 0

1回答

RNN解码器与RNN的区别

、、、、

我们只使用RNN解码器(没有编码器)来生成文本，RNN解码器与纯RNN操作有什么不同？TensorFlow中的纯RNN：耽误您时间，实在对不起

浏览 1提问于2017-04-18得票数 0

1回答

在CPU环境中使用预训练的LSTM和Bert模型--如何加速预测？

、、、、

模型如下Word2Vec (tensorflow)我将模型保存到文件(.h5)中供以后使用。

浏览 0提问于2020-10-15得票数 0

回答已采纳

2回答

pytorch attention seq2seq教程中的错误？

、

在official Pytorch seq2seq tutorial中，有一个注意力解码器的代码，我不能理解/认为可能包含错误。它通过连接输出和此时的隐藏状态来计算每个时间步的注意力权重，然后乘以一个矩阵，得到一个大小等于输出序列长度的向量。注意，这些注意力权重不依赖于编码器序列(在代码中命名为encoder_outputs )，我认为它应该依赖于编码器序列。此外，the paper cited in the tutorial还列出了三种不同的得分函数，可用于计算注意力权重(本文的3.1节)。这

浏览 37提问于2019-05-03得票数 1

点击加载更多