腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1819)
视频
沙龙
1
回答
如
何在
具有
注意力
的
多层
双向
机制
中
操作
编码器
状态
python
、
tensorflow
、
recurrent-neural-network
、
bidirectional
、
attention-model
我正在实现一个
具有
多层
双向
rnn和
注意力
机制
的
Seq2Seq模型,在学习本教程https://github.com/tensorflow/nmt时,我对如何正确
操作
双向
层之后
的
encoder_state引用教程“对于多个
双向
层,我们需要稍微
操作
一下encoder_state,有关更多详细信息,请参阅model.py,_build_bidirectional_r
浏览 16
提问于2019-01-17
得票数 1
1
回答
稠密合成器
的
实现
python
、
deep-learning
、
neural-network
、
pytorch
、
transformer-model
我试图理解合成器论文( 1),并且有一个关于密集合成器
机制
的
描述,它应该取代变压器体系结构
中
描述
的
传统
的
注意模型。 因此,我试图实现该层,它看起来像这样,但我不确定我是否做对了: def __init__0.4658, 0.3769, 0.5468], [0.5430, 0.4461, 0.4559, 0.3755, 0.5551]], grad_fn
浏览 2
提问于2020-05-06
得票数 15
1
回答
如何理解注意层中使用
的
矩阵
的
不一致和不明确
的
维度?
deep-learning
、
rnn
、
transformer
、
attention-mechanism
注意力
评分
机制
似乎是各种seq2seq模型中常用
的
组成部分,我在https://arxiv.org/pdf/1506.07503.pdf著名论文中读到了最初
的
“基于位置
的
注意”。(这种关注似乎被用于各种形式
的
GNMT和文本到语音系统,
如
tacotron-2 https://github.com/Rayhane-mamah/Tacotron-2)。即使在反复阅读了这篇论文和其他关于
注意
浏览 0
提问于2020-06-02
得票数 0
回答已采纳
2
回答
注意力
和自我
注意力
的
区别是什么?对方解决不了
的
问题是什么?
cnn
、
attention-mechanism
正如above..is问题中所指出
的
,注意和自我注意
机制
有区别吗?另外,还有人能和我分享关于如
何在
CNN
中
实施自我注意
机制
的
技巧和技巧吗?
浏览 0
提问于2019-04-17
得票数 31
2
回答
Tensorflow 2
的
注意
机制
keras
、
tensorflow
、
attention-mechanism
在过去
的
几天里,我阅读了
注意力
背后
的
理论,什么时候应用它,以及有什么类型。我想我对这个概念有一个很好
的
第一次理解,但是现在我想把我
的
一些见解应用到我自己
的
项目中,我发现自己被困在TF
中
的
关注
的
实施
中
。如果我已经错了,请纠正我,但这是我对它们
的
看法:值:这些是我
的
编码器
<em
浏览 0
提问于2020-01-29
得票数 3
回答已采纳
5
回答
龙和巴丹瑙
的
注意力
有什么区别?
tensorflow
、
deep-learning
、
nlp
、
attention-model
这两个注意事项被应用于seq2seq模块
中
。介绍了 TensorFlow文档
中
两种不同
的
注意事项:乘法注意和加性注意。有什么关系?
浏览 4
提问于2017-05-29
得票数 35
回答已采纳
7
回答
为什么译码器不是伯特架构
的
一部分?
nlp
、
bert
、
machine-translation
、
attention-mechanism
我看不出伯特是如
何在
不使用解码器
的
情况下做出预测
的
,这是之前所有模型
的
一部分,包括变压器和标准RNN。如
何在
不使用解码器
的
情况下在BERT体系结构中进行输出预测?怎么才能完全消除解码器呢?
浏览 0
提问于2019-12-21
得票数 22
回答已采纳
4
回答
变压器是如何
双向
机器学习
的
machine-learning
我来自Google上下文(来自Transformers
的
双向
编码器
表示)。我看过建筑和密码。人们说这是
双向
,从本质上说是。为了使它成为单向
的
注意,一些掩膜将被应用。基本上,转换器以键、值和查询作为输入;使用
编码器
解码器结构;并将
注意力
应用于这些键、查询和值。我理解
的
是,我们需要显式地传递令牌,而不是从本质上理解转换器。请有人解释一下是什么使变压器本质上是
双向
的
。
浏览 2
提问于2019-03-14
得票数 13
1
回答
Tensorflow sequence2sequence模型填充
tensorflow
在seq2seq模型
中
,使用垫子使桶
中
的
所有序列
具有
相同
的
长度。除此之外,似乎没有对垫子进行特殊处理:
编码器
对填充物进行编码,以及基本解码器w/o注意解码使用最后一种编码--编码解码器
的
填充--注意填充输入
的
隐藏
状态
--如果能澄清这一点将是非常有帮助
的
:实际上,这些填充仅仅是一个特殊
的
id/嵌入,而当前
的
seq2seq实现对待它们就像对待其他嵌入一样?并且不需
浏览 1
提问于2016-02-22
得票数 1
1
回答
Seq2seq-注意进入
编码器
状态
绕过最后一个
编码器
隐藏
状态
python
、
tensorflow
、
recurrent-neural-network
在seq2seq-模型
中
,我希望在编码结束时使用隐藏
状态
从输入序列
中
读取更多信息。 因此,我返回隐藏
状态
,并在其之上构建一个新
的
子网。效果很好。但是,如果seq2seq-解码器使用注意
机制
,它基本上会窥视
编码器
侧,有效地绕过编码结束时
的
隐藏
状态
。因此,并不是seq2seq-网络所依赖
的
所有信息都在编码结束时处于隐藏
状态
。从理论上讲,这是否意味着我不需要使用
注意力
机制</em
浏览 1
提问于2016-05-18
得票数 0
5
回答
变压器模型
中
自我注意
的
计算复杂性
machine-learning
、
deep-learning
、
neural-network
、
nlp
、
artificial-intelligence
在本文
的
表1
中
,作者比较了不同序列编码层
的
计算复杂性,以及当序列长度n小于向量表示d
的
维数时,自关注层快于RNN层
的
状态
。 线性转换X<em
浏览 8
提问于2021-01-13
得票数 30
4
回答
双向
数据绑定(角)与单向数据流(反应/通量)
javascript
、
angularjs
、
reactjs
、
flux
、
reactjs-flux
在过去
的
一周里,我一直在努力理解和
的
不同之处。他们说单向数据流更强大,更易于理解和遵循:它是确定性
的
,有助于避免副作用。不过,在我
的
新手眼中,两者看上去几乎是一样
的
:视图倾听模型,模型对视图所做
的
操作
做出反应,都声称模型是唯一
的
真相来源。有谁能以可以理解
的
方式全面解释他们之间
的
差异,以及单向数据流是如何更有益、更容易推理
的
?
浏览 4
提问于2016-01-02
得票数 28
1
回答
使用RXJava扫描
操作
符时确保顺序
状态
更新
android
、
redux
、
rx-java2
、
rx-android
、
rx-kotlin
here ) // use state here
如
您所见,我使用scan
操作
符来维护
状态
。如何确保
状态
更新是按顺序进行
的
,即使在多个线程生成事件时也是如此? scan
操作
符
中
是否存在某种
机制
,使事件在等待当前
状态
更新功能完成时处于某个队列
中
?
浏览 0
提问于2020-02-23
得票数 0
回答已采纳
1
回答
通过Activiti发布跟踪器
java
、
activiti
、
issue-tracking
下面是实现任务跟踪器
的
一个问题,它支持 解决办法: 有什么想法吗?
浏览 3
提问于2015-05-19
得票数 3
1
回答
react如何比Angular 1.x更快
angularjs
、
reactjs
根据我所读到
的
- React将所有的DOM更改一起推送。angular不能做同样
的
事情吗?在摘要循环之后,它知道要更改哪个DOM节点-为什么不一起发布它呢?
浏览 0
提问于2016-12-18
得票数 0
2
回答
数据流和数据绑定之间有什么关系?
reactjs
、
angular
、
redux
、
data-binding
、
two-way-binding
例如 我已经标记了
浏览 1
提问于2020-12-15
得票数 0
2
回答
在Swift / SwiftUI
中
,美元符号是干什么
的
?
swift
、
swiftui
、
combine
使用美元符号绑定数据,我在SwiftUI
中
查找更多有关此数据绑定
的
信息有困难。Toggle(isOn: $showFavoritesOnly) { 这是某种inout类型
的
参数吗?用这个符号传递它。
浏览 3
提问于2019-06-11
得票数 55
回答已采纳
2
回答
带
注意力
的
LSTM
neural-network
、
deep-learning
、
pytorch
、
tensor
、
attention-model
我正在尝试将
注意力
机制
添加到堆栈LSTM实现
中
def __init__(self, rnn_type, ntoken, ninp, nhid, nlayers, dropout=0.5, dropouth=0.5, dropoutireturn_h: retur
浏览 1
提问于2018-03-04
得票数 3
2
回答
应用程序不从安卓NavGraph
的
启动目的地启动应用程序热启动
android
、
android-architecture-components
、
android-architecture-navigation
我使用
的
是
具有
单个活动、多个目的地
的
Android导航体系结构组件。我正在SplashFragment
中
初始化一些静态变量,这是我
的
NavGraph
的
"startDestination“。但我面临
的
问题是,当应用程序在后台运行很长时间(可能是一些内存被Android
操作
系统收回),其中一些静态变量(或Singleton类)被重置。当app进入前台时,我希望我
的
活动再次从SplashFragment (start Create
浏览 5
提问于2019-09-17
得票数 0
回答已采纳
3
回答
如何使DVCS与Subversion完全互
操作
?
svn
、
version-control
、
dvcs
DVCS需要进行哪些架构更改才能与Subversion完全互
操作
?这就是我追求
的
目标。我想要一个Subversion存储库和一个DVCS存储库,它们在稳定
状态
下
具有
相同
的
内容。当其中一个上
的
内容发生更改时,它会自动镜像到另一个上。我认为最
浏览 3
提问于2010-05-01
得票数 3
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券