RNN编码器-解码器模型总是过拟合

lstm、recurrent-neural-network、machine-translation、encoder-decoder

我已经训练了一个机器翻译模型(从英语到越南语)，使用了25000个示例对(对于训练集-> 20000，测试集-> 5000)，我使用的模型如下所示，但val_acc总是达到~0,37，尽管我使用了其他模型model.add(Dropout(0.2))return model 我希望模型能防止过拟合

浏览 19提问于2019-05-19得票数 0

1回答

如何保存tensorflow dynamic_rnn模型并将其恢复为新的编解码模型中的译码器？

tensorflow、save、restore

我试图训练一个编码器-解码器模型，以自动生成摘要。编码器部分使用CNN对文章的摘要进行编码。译码器部分是RNN，用于生成文章的标题。encoder_state = CNNEncoder(encoder_inputs)但我想预先训练RNN解码器，教模型先学会说话。解码器部分是： def RNNDecoder(en

浏览 5提问于2017-06-06得票数 0

回答已采纳

1回答

如何使Siraj的seq2seq教程中的编码器隐藏单元和解码器隐藏单元的数量相等

python、tensorflow

我使用的seq2seq模型是由Siraj创建的，但是编码器隐藏单元和解码器隐藏单元的数量存在问题。在Siraj的TensorFlow seq2seq教程中(链接：)，解码器隐藏单元的数量是编码器隐藏单元数量的两倍。在这个笔记本的视频中(链接：)，西拉杰说，这是因为他想让模型实际学习，因为标签和它们对应的输入是相同的。对于我的问题，我希望编码器隐藏单元的数量与解码器隐藏单元的数量相同。从行decoder_outputs_ta, decoder_final

浏览 0提问于2019-02-01得票数 0

回答已采纳

2回答

tensorflow中RNN的编解码器模型

python、tensorflow、deep-learning、recurrent-neural-network

我正在使用双向RNN为编码器和解码器实现一个编码器解码器模型。由于我在编码器端初始化双向RNN，并且与双向RNN关联的权重和向量已经初始化，所以当我尝试在解码器端初始化另一个实例时，我得到以下错误： ValueError: Variable bidirectional_rnn(num_hidden_enc) bw_cell = rnn.GRUBlockCell(num_hi

浏览 22提问于2019-09-17得票数 2

回答已采纳

2回答

Tensorflow:可以阻止tf.where的一个分支执行吗？

tensorflow

我正在做一个编码器-解码器的设置。我希望能够运行编码器一次，然后执行多次解码器运行。我想出的解决方案是向解码器提供一个TF条件节点(使用tf.where)，该节点包含编码器的最终隐藏状态(在这种情况下，TF将在我请求解码器输出时运行编码器)，或者包含编码器存储结果的占位符(在这种情况下，理论上TF不需要运行编码器)。= tf.where(gen_math_ops.greater_equal(branching_poi

浏览 0提问于2017-06-15得票数 3

1回答

tf.nn.dynamic_rnn和tf.nn.raw_rnn在tensorflow中有什么区别？

tensorflow、deep-learning

在最后一个块中，它说dynamic_rnn函数不能应用于计算注意力。但我不明白的是，我们所需要的只是解码器的隐藏状态，以便找到将用编码器符号计算出来的注意。

浏览 3提问于2017-05-30得票数 1

回答已采纳

3回答

在语言建模中，变压器是否需要位置编码？

transformer-model、language-model

我正在开发一个像这样的语言模型。编码器输出中的单词有可能被洗牌吗？原文中没有任何解释。我在教程中没有找到解释(比如这里的)。我不明白这一点： “当一个句子中的每个单词同时通过转换器的编解码堆栈时，模型本身对每个单词没有任何位置/顺序感。”在我看来-转换器编码器有关于顺序

浏览 4提问于2020-04-26得票数 4

回答已采纳

1回答

seq2seq模型在keras中的例子背后的原理？

neural-network、deep-learning、keras、sequence

我指的是seq2seq模型在keras (https://github.com/fchollet/keras/blob/master/examples/addition_rnn.py)中的示例代码。模式是：for _ in

浏览 0提问于2016-08-15得票数 3

2回答

编码器在编解码模型中的输出代表什么？

deep-learning、transformer、encoder

因此，在大多数涉及编解码结构的博客或书籍中，作者通常认为编码器的最后一个隐藏状态(S)作为输入传递给解码器，而编码器输出被丢弃。他们浏览了那个主题，只是删除了关于编码器输出被丢弃的句子，仅此而已。这让我更加困惑，因为我也在读到，在变压器模型中，编码器的输出实际上被输入到解码器，但是因为这是唯一来自非rnn编码器的东西，所以这里并不奇怪。我对此的理解是，在转换器架构中，编码器返回“丰富的特性”。如果是这样的话，那么在经

浏览 0提问于2023-02-27得票数 1

回答已采纳

1回答

具有多个输入的Keras模型在拟合时会导致奇怪的错误

python、numpy、tensorflow、keras

我目前正在使用GRUs开发一个编码器-解码器模型。它需要两个输入，编码器输入和解码器输入。解码器只有一个输出。模型是：当我尝试用以下伪代码来拟合模型时：<code>D1</code>、<code>D2</code>、<code>D3</code>和<code&g

浏览 14提问于2021-03-15得票数 0

回答已采纳

1回答

在multiRNNCell中，哪种正则化使用multiRNNCell正则化或退出？

tensorflow、regularized、dropout、seq2seq

我一直在从事一个与序列序列自动编码器相关的项目，用于时间序列预测。因此，我已经在编码器和解码器中使用了tf.contrib.rnn.MultiRNNCell。我搞不懂用哪种策略来规范我的seq2seq模型。我是在损失中使用L2正则化，还是在multiRNNCell中使用DropOutWrapper (tf.contrib.rnn.DropoutWrapper)？或者我可以使用这两种策略..。

浏览 0提问于2018-04-23得票数 0

回答已采纳

2回答

编解码模型中双向LSTM的数量是否等于输入文本/字符的最大长度？

lstm、word-embeddings、nlp、rnn、attention-mechanism

当我试图了解seq2seq编解码器如何在https://machinelearningmastery.com/configure-encoder-decoder-model-neural-machine-translation/上工作时，我对RNN的这一方面感到困惑。在我看来，编码器中的LSTM数量必须与文本中的单词数(如果使用单词嵌入)或文本中的字符(如果使用char嵌入)相同。对于字符嵌入，每个嵌入对应于1个方向的LSTM和1个编码器隐藏状态。例如，如果我们有另一个使用编

浏览 0提问于2020-05-20得票数 0

1回答

在测试阶段，变压器解码器的目标输入是什么？

nlp、transformer、attention-mechanism

转换器解码器接收两个输入，编码器的输出和目标序列。本回答提供了如何将目标输入解码器的方法。如果有人能帮我澄清这件事会很有帮助的。

浏览 0提问于2020-09-15得票数 1

回答已采纳

1回答

加性注意计算复杂度与RNN单元的失配

machine-learning、deep-learning、nlp、recurrent-neural-network、attention-model

根据Attention is all you need的论文:加性注意(Bahdanau在RNN中使用的经典注意)使用具有单个隐层的前馈网络计算兼容性函数。然而，如果我们仔细观察加性注意，它实际上是一个RNN单元，其计算复杂度为n*d² (根据同一表)。因此，加性注意力的计算复杂性不应该是n*d²而不是n²*d吗？

浏览 4提问于2022-12-02得票数 1

回答已采纳

2回答

NMT的自我注意与注意LSTM

lstm、attention-mechanism、machine-translation

B:一种基于编码器中的双向LSTM和解码器中的单向LSTM的体系结构，它关注编码器的所有隐藏状态，创建一个加权组合，并与解码器(单向)LSTM输出一起使用该结构产生最终输出字。

浏览 0提问于2021-11-28得票数 1

1回答

保存和加载keras子类模型

python、tensorflow、keras

我正在尝试保存和加载的有线电视新闻网编码器和RNN解码器从TF教程图像字幕：。因为这些是子类化的model.load模型，而不是函数式或顺序式的，所以我不能直接使用model.save和Keras。然而，对于我们的RNN解码器，我们有多个输入。Keras文档没有指定使用多个输入调用model.build的方法。Colab：

浏览 10提问于2019-10-31得票数 3

1回答

无法在embedding_attention_seq2seq中将feed_previous设置为tf.bool

tensorflow

encoDecoCell = tf.contrib.rnn.BasicLSTMCell(self.args.hiddenSize,state_is_tuple=True) # Or GRUCell, LSTMCell(args.hiddenSize) encoDecoCell = tf.contrib.rnn.MultiRNNCell

浏览 4提问于2017-02-22得票数 0

1回答

标准层将顺序输出转换为二进制？

python、neural-network、pytorch、sequential、transformer-model

我正在研究一个新的Pytorch模型，它以顺序数据作为输入，我只需要输出一个值，然后我将使用一个二进制交叉熵函数来计算为1或0的概率。在使用RNN之前，我做过类似的事情，因为RNN在网上有很多内容。由于RNN的递归结构，为了做到这一点，我们只看RNN在处理序列后的最终输出。我的问题是：我现在要做的不是使用循环网络，而是使用一个带有注意的编码器(转换器)。所以编码器的输出现在仍然是1000步长，不管我嵌入的尺寸是8，所以顺序编码器的输出形状是1000×

浏览 6提问于2020-12-30得票数 0

回答已采纳

1回答

TensorFlow 2中层叠双向神经网络的困惑

python、keras、tensorflow2.0、recurrent-neural-network

我正在学习如何构建一个基于seq2seq的模型，并试图通过为编码器和解码器堆叠多个RNN层来扩展它。但是，我在检索对应于编码器隐藏状态的输出时遇到了问题。下面是我在编码器中构建叠加的双向GRUCell层的代码：def __init__(self, n_layers, dropout, ...): for _ in range(n_layers)] self

浏览 4提问于2020-06-27得票数 0

回答已采纳

2回答

预测给定多序列的序列

machine-learning、algorithms、sequence

我正在试图找到一种适合这个用例的算法：[0,2,3,4,5][4,1,2,4,5]输入:整数数组，输出:对数组其余部分的预测。[3] -> [1,3,2,5,5] [3,2,4,1] -> [4]

浏览 0提问于2020-04-01得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何保存tensorflow dynamic_rnn模型并将其恢复为新的编解码模型中的译码器？

如何使Siraj的seq2seq教程中的编码器隐藏单元和解码器隐藏单元的数量相等

tensorflow中RNN的编解码器模型

Tensorflow:可以阻止tf.where的一个分支执行吗？

tf.nn.dynamic_rnn和tf.nn.raw_rnn在tensorflow中有什么区别？

在语言建模中，变压器是否需要位置编码？

seq2seq模型在keras中的例子背后的原理？

编码器在编解码模型中的输出代表什么？

具有多个输入的Keras模型在拟合时会导致奇怪的错误

在multiRNNCell中，哪种正则化使用multiRNNCell正则化或退出？

编解码模型中双向LSTM的数量是否等于输入文本/字符的最大长度？

在测试阶段，变压器解码器的目标输入是什么？

加性注意计算复杂度与RNN单元的失配

NMT的自我注意与注意LSTM

保存和加载keras子类模型

无法在embedding_attention_seq2seq中将feed_previous设置为tf.bool

标准层将顺序输出转换为二进制？

TensorFlow 2中层叠双向神经网络的困惑

预测给定多序列的序列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐