如何在具有注意力的多层双向机制中操作编码器状态

文章/答案/技术大牛

发布

1回答

python、tensorflow、recurrent-neural-network、bidirectional、attention-model

我正在实现一个具有多层双向rnn和注意力机制的Seq2Seq模型，在学习本教程https://github.com/tensorflow/nmt时，我对如何正确操作双向层之后的encoder_state引用教程“对于多个双向层，我们需要稍微操作一下encoder_state，有关更多详细信息，请参阅model.py，_build_bidirectional_r

浏览 16提问于2019-01-17得票数 1

1回答

稠密合成器的实现

python、deep-learning、neural-network、pytorch、transformer-model

我试图理解合成器论文( 1)，并且有一个关于密集合成器机制的描述，它应该取代变压器体系结构中描述的传统的注意模型。因此，我试图实现该层，它看起来像这样，但我不确定我是否做对了： def __init__0.4658, 0.3769, 0.5468], [0.5430, 0.4461, 0.4559, 0.3755, 0.5551]], grad_fn

浏览 2提问于2020-05-06得票数 15

1回答

如何理解注意层中使用的矩阵的不一致和不明确的维度？

deep-learning、rnn、transformer、attention-mechanism

注意力评分机制似乎是各种seq2seq模型中常用的组成部分，我在https://arxiv.org/pdf/1506.07503.pdf著名论文中读到了最初的“基于位置的注意”。(这种关注似乎被用于各种形式的GNMT和文本到语音系统，如tacotron-2 https://github.com/Rayhane-mamah/Tacotron-2)。即使在反复阅读了这篇论文和其他关于注意

浏览 0提问于2020-06-02得票数 0

回答已采纳

2回答

注意力和自我注意力的区别是什么？对方解决不了的问题是什么？

cnn、attention-mechanism

正如above..is问题中所指出的，注意和自我注意机制有区别吗？另外，还有人能和我分享关于如何在CNN中实施自我注意机制的技巧和技巧吗？

浏览 0提问于2019-04-17得票数 31

2回答

Tensorflow 2的注意机制

keras、tensorflow、attention-mechanism

在过去的几天里，我阅读了注意力背后的理论，什么时候应用它，以及有什么类型。我想我对这个概念有一个很好的第一次理解，但是现在我想把我的一些见解应用到我自己的项目中，我发现自己被困在TF中的关注的实施中。如果我已经错了，请纠正我，但这是我对它们的看法：值:这些是我的编码器<em

浏览 0提问于2020-01-29得票数 3

回答已采纳

5回答

龙和巴丹瑙的注意力有什么区别？

tensorflow、deep-learning、nlp、attention-model

这两个注意事项被应用于seq2seq模块中。介绍了 TensorFlow文档中两种不同的注意事项:乘法注意和加性注意。有什么关系？

浏览 4提问于2017-05-29得票数 35

回答已采纳

7回答

为什么译码器不是伯特架构的一部分？

nlp、bert、machine-translation、attention-mechanism

我看不出伯特是如何在不使用解码器的情况下做出预测的，这是之前所有模型的一部分，包括变压器和标准RNN。如何在不使用解码器的情况下在BERT体系结构中进行输出预测？怎么才能完全消除解码器呢？

浏览 0提问于2019-12-21得票数 22

回答已采纳

4回答

变压器是如何双向机器学习的

machine-learning

我来自Google上下文(来自Transformers的双向编码器表示)。我看过建筑和密码。人们说这是双向，从本质上说是。为了使它成为单向的注意，一些掩膜将被应用。基本上，转换器以键、值和查询作为输入；使用编码器解码器结构；并将注意力应用于这些键、查询和值。我理解的是，我们需要显式地传递令牌，而不是从本质上理解转换器。请有人解释一下是什么使变压器本质上是双向的。

浏览 2提问于2019-03-14得票数 13

1回答

Tensorflow sequence2sequence模型填充

tensorflow

在seq2seq模型中，使用垫子使桶中的所有序列具有相同的长度。除此之外，似乎没有对垫子进行特殊处理： 编码器对填充物进行编码，以及基本解码器w/o注意解码使用最后一种编码--编码解码器的填充--注意填充输入的隐藏状态--如果能澄清这一点将是非常有帮助的:实际上，这些填充仅仅是一个特殊的id/嵌入，而当前的seq2seq实现对待它们就像对待其他嵌入一样？并且不需

浏览 1提问于2016-02-22得票数 1

1回答

Seq2seq-注意进入编码器状态绕过最后一个编码器隐藏状态

python、tensorflow、recurrent-neural-network

在seq2seq-模型中，我希望在编码结束时使用隐藏状态从输入序列中读取更多信息。因此，我返回隐藏状态，并在其之上构建一个新的子网。效果很好。但是，如果seq2seq-解码器使用注意机制，它基本上会窥视编码器侧，有效地绕过编码结束时的隐藏状态。因此，并不是seq2seq-网络所依赖的所有信息都在编码结束时处于隐藏状态。从理论上讲，这是否意味着我不需要使用注意力机制</em

浏览 1提问于2016-05-18得票数 0

5回答

变压器模型中自我注意的计算复杂性

machine-learning、deep-learning、neural-network、nlp、artificial-intelligence

在本文的表1中，作者比较了不同序列编码层的计算复杂性，以及当序列长度n小于向量表示d的维数时，自关注层快于RNN层的状态。线性转换X<em

浏览 8提问于2021-01-13得票数 30

4回答

双向数据绑定(角)与单向数据流(反应/通量)

javascript、angularjs、reactjs、flux、reactjs-flux

在过去的一周里，我一直在努力理解和的不同之处。他们说单向数据流更强大，更易于理解和遵循：它是确定性的，有助于避免副作用。不过，在我的新手眼中，两者看上去几乎是一样的：视图倾听模型，模型对视图所做的操作做出反应，都声称模型是唯一的真相来源。有谁能以可以理解的方式全面解释他们之间的差异，以及单向数据流是如何更有益、更容易推理的？

浏览 4提问于2016-01-02得票数 28

1回答

使用RXJava扫描操作符时确保顺序状态更新

android、redux、rx-java2、rx-android、rx-kotlin

here ) // use state here如您所见，我使用scan操作符来维护状态。如何确保状态更新是按顺序进行的，即使在多个线程生成事件时也是如此？ scan操作符中是否存在某种机制，使事件在等待当前状态更新功能完成时处于某个队列中？

浏览 0提问于2020-02-23得票数 0

回答已采纳

1回答

通过Activiti发布跟踪器

java、activiti、issue-tracking

下面是实现任务跟踪器的一个问题，它支持解决办法：有什么想法吗？

浏览 3提问于2015-05-19得票数 3

1回答

react如何比Angular 1.x更快

angularjs、reactjs

根据我所读到的- React将所有的DOM更改一起推送。angular不能做同样的事情吗？在摘要循环之后，它知道要更改哪个DOM节点-为什么不一起发布它呢？

浏览 0提问于2016-12-18得票数 0

2回答

数据流和数据绑定之间有什么关系？

reactjs、angular、redux、data-binding、two-way-binding

例如我已经标记了

浏览 1提问于2020-12-15得票数 0

2回答

在Swift / SwiftUI中，美元符号是干什么的？

swift、swiftui、combine

使用美元符号绑定数据，我在SwiftUI中查找更多有关此数据绑定的信息有困难。Toggle(isOn: $showFavoritesOnly) { 这是某种inout类型的参数吗？用这个符号传递它。

浏览 3提问于2019-06-11得票数 55

回答已采纳

2回答

带注意力的LSTM

neural-network、deep-learning、pytorch、tensor、attention-model

我正在尝试将注意力机制添加到堆栈LSTM实现中def __init__(self, rnn_type, ntoken, ninp, nhid, nlayers, dropout=0.5, dropouth=0.5, dropoutireturn_h: retur

浏览 1提问于2018-03-04得票数 3

2回答

应用程序不从安卓NavGraph的启动目的地启动应用程序热启动

android、android-architecture-components、android-architecture-navigation

我使用的是具有单个活动、多个目的地的Android导航体系结构组件。我正在SplashFragment中初始化一些静态变量，这是我的NavGraph的"startDestination“。但我面临的问题是，当应用程序在后台运行很长时间(可能是一些内存被Android操作系统收回)，其中一些静态变量(或Singleton类)被重置。当app进入前台时，我希望我的活动再次从SplashFragment (start Create

浏览 5提问于2019-09-17得票数 0

回答已采纳

3回答

如何使DVCS与Subversion完全互操作？

svn、version-control、dvcs

DVCS需要进行哪些架构更改才能与Subversion完全互操作？这就是我追求的目标。我想要一个Subversion存储库和一个DVCS存储库，它们在稳定状态下具有相同的内容。当其中一个上的内容发生更改时，它会自动镜像到另一个上。我认为最

浏览 3提问于2010-05-01得票数 3

回答已采纳

点击加载更多