腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PyTorch
的
nn.Transformer
中
,
src
和
tgt
有
什么
不同
?
、
、
在
文档
中
,它说要像这样创建一个transformer模型:
src
= torch.rand((10, 32, 512))
什么
是“不是”?
浏览 503
提问于2021-03-13
得票数 1
回答已采纳
1
回答
AttributeError:'tuple‘对象没有属性'dim’
、
、
、
--我正试图通过
PyTorch
库构建一个变压器网络。我使用
的
数据集是历史金融市场数据。(y_train_tfr,12, dim=0)
src
= x_train_splitout, state = transformer_model(
src
,
tg
浏览 26
提问于2022-05-10
得票数 0
1
回答
如何在
nn.Transformer
中
编写前向钩子函数?
、
、
、
、
我知道前钩函数
的
形式是hook_fn(m,x,y)。M代表模型,x代表输入,y代表输出。我想为
nn.Transformer
编写一个前向挂钩函数。 然而,变压器层
有
src
和
tgt
的
输入。例如,>>> out = transformer_model(
src
,
tgt
)。那么,我如何区分这些输入呢?
浏览 3
提问于2021-09-07
得票数 0
回答已采纳
1
回答
在
Python中使用生成器对矩阵执行运算
、
、
、
、
我
有
一个相似度矩阵(torch张量),它是两个矩阵(源
和
目标)之间
的
余弦相似度矩阵。从矩阵
中
,我需要获得每个源
和
目标的最接近
的
邻居之间
的
距离之和。然后使用上面计算
的
值填充两个defaultdicts,如下面的代码片段所示from collections import defaultdict
tgt
2
src</
浏览 0
提问于2020-03-31
得票数 1
1
回答
PyTorch
nn.Transformer
学会复制目标
、
我正在尝试使用
nn.Transformer
类训练一个变形金刚Seq2Seq模型。我认为我实现它是错误
的
,因为当我训练它时,它似乎太快了,并且
在
推理过程
中
它经常重复自己。这似乎是解码器
中
的
掩蔽问题,当我移除目标掩码时,训练性能是相同
的
。这让我相信我做
的
目标掩码是错误
的
。self.pos_embedding = nn.Embedding(max_len, input_dim, padding_idx=pad_token)
浏览 30
提问于2020-05-06
得票数 8
1
回答
在
使用多GPU
的
变压器
中
训练时,掩码
的
形状会除以GPU
的
数量。为
什么
?
、
、
我用
的
是火炬
和
src
_tokens=
src
_tokens,
tgt
_tokens=
tgt
_tokens, dim_model=dim_model, num_heads是这样
的
: """ Model from "A detailed guide to
Pytorch
's
nn.T
浏览 19
提问于2022-01-12
得票数 0
1
回答
Pytorch
:理解nn.TransformerDecoder前向函数
中
每个参数
的
目的
、
、
、
、
不幸
的
是,
Pytorch
关于这个函数
的
官方文档在这一点上(2021年4月)并不是非常详尽,
在
每个张量
的
预期维度上,以及
在
使用每个可选参数是否合理
的
时候。例如,
在
以前
的
谈话
中
向我解释说,
tgt
_mask通常是一个用于自我注意掩蔽
的
平方矩阵,以防止将来
的
令牌泄漏到对过去令牌
的
预测
中
。类似地,
tgt
_key_padd
浏览 0
提问于2021-04-25
得票数 3
回答已采纳
1
回答
删除查询性能
、
、
原始查询TABLE_BASE B , where B.ID = I.IDID and B.NUM = I.NUM;+---+-----------+ DEL FROM TABLE_BASE WHERE (ID, NUM) IN 上述查询
的
统计数据- 优化
的
查询1
和
2如何/为
什么
对性能有如此大
的
影响?这种删除查询
浏览 3
提问于2016-11-16
得票数 5
1
回答
TypeError:__init__()获取了意外
的
关键字参数“”tensor_type“”
、
、
、
、
我正在尝试运行用于旧版本torch
和
torchtext
的
代码。我
在
代码
中
做了很多调整,以使其正常工作。我能够对我
的
数据进行预处理
和
训练。, n_
tgt
_features) return TextDataset.get_fields(n_
src
_features, n_
tgt
_feat
浏览 177
提问于2021-11-19
得票数 0
1
回答
rsync并将目标文件更改为硬链接。
我
有
两个硬盘分别安装在
src
/
和
tgt
/上。
src
/中有足够多
的
硬链接,以至于rsync -a
src
/
tgt
使目标磁盘耗尽了空间。我已经了解到,我应该额外使用-H选项,以便
src
/
中
的
硬链接成为
tgt
/
中
的
硬链接。如果我现在运行rsync -aH
src
/
浏览 0
提问于2018-03-08
得票数 1
回答已采纳
1
回答
变压器如何预测未来
的
n步?
、
、
、
我几乎找不到转换器
的
实现(既不臃肿,也不让人困惑),而我所引用
的
实现是
PyTorch
实现。但是,
Pytorch
实现要求您为每个步骤传递输入(
src
)
和
目标(
tgt
)张量,而不是对输入进行一次编码,并继续迭代n个步骤以生成完整
的
输出。我是不是漏掉了
什么
?我
的
第一次猜测是变压器在技术上不是一个seq2seq模型,我不知道该如何实现它,或者我只是在过去几年里错误地实现了seq2seq模型:)
浏览 0
提问于2021-03-09
得票数 3
回答已采纳
1
回答
Pytorch
变压器模型
中
的
大爆炸损失
、
、
第一层是嵌入层,其将输入从N×S到N×S×E,其中E是嵌入维度(300),或者
在
目标的情况下采用N×T×E。第二层
在
不改变形状
的
情况下添加位置编码。最后,我们将此输出传递到一个线性层,该层产生N乘T乘以V
的
输出,其中V是问题中使用
的
词汇表
的
大小。这里
的
V大约是56,697。最频繁出现
的
标记(词)
在
目标张量中出现约50-60次。transformer类还包含用于实现掩码矩阵
的
函数。 然后我们创建模型并运行它(这个过程被
浏览 15
提问于2021-09-25
得票数 0
1
回答
插入*,合并语句中有额外
的
列
、
、
、
我
有
两个表--源代码
和
目标表--有如下模式: 源表
有
模式:现在我尝试使用merge into目标表作为 usingnull as mergekey, from source_table
src
on
tgt
.id=
src
.id and
tg
浏览 5
提问于2022-08-16
得票数 0
1
回答
为
什么
fairseq
中
的
非自回归变换模型需要prev_output_tokens输入?
、
、
整流罩包括一个非自回归转换器
的
实现(据我所理解),这意味着整个输出序列是
在
一个前向运行中生成
的
(与每个前向运行预测输入
和
先前预测
的
令牌
的
自回归模型相反)。但是,从代码
中
可以看出,模型仍然期望前面的令牌作为输入:https://g
浏览 0
提问于2020-08-23
得票数 0
1
回答
如何在大容量插入
中
查找错误行?
、
、
、
MySQL 5.6:我正在尝试以
不同
的
方式将数据从一个表复制到另一个表。源表位于远程服务器上,大约有50万行--我使用联邦引擎进行连接。我第一次尝试这个:这非常快,只需几秒钟,但它会发出警告:| Warning | 1299 | Invalid那么,是否
有
一种方法来定位导致问题
的
行?我尝试过select ... limit #first_row,#last_row;,但它似乎不
浏览 0
提问于2020-06-22
得票数 1
回答已采纳
2
回答
PyTorch
:
不同
的
前向训练
和
测试/验证方法
、
、
、
、
我目前正在尝试扩展基于FairSeq/
PyTorch
的
。
在
训练期间,我需要训练两个编码器:一个是目标样本,另一个是原始样本
和
源样本。所以当前
的
前向函数如下所示: autoencoder_out = self.encoder(
tgt
_token
浏览 9
提问于2019-11-01
得票数 5
回答已采纳
3
回答
什么
时候匹配?
、
、
我使用
的
是Server ( Server 2016
和
Azure SQL),我有这个MERGE语句,它使用一个相当粗糙
的
WHEN MATCHED条件只更新值实际上
不同
的
行。这样做
有
两个原因: 该表
有
一个rowversion列,
在
执行UPDATE操作时,该列将更改,即使所有值都相同。另一个痛苦是SQL
中
缺乏DRY -以及
在
SQL Server
中
实现DRY数据库
的
困难(例如,不支持延迟约
浏览 0
提问于2020-06-06
得票数 0
3
回答
Shell UNIX : grep通配符
、
、
、
、
我不明白为
什么
在
以下使用grep
的
示例
中
,通配符*会有
不同
的
解释:结果:./
tgt
/etc/speleo/test_file.c./
src
/file.c 我
浏览 4
提问于2014-02-01
得票数 3
回答已采纳
2
回答
带条件
的
Oracle SQL Merge语句
、
、
、
我是SQL
的
新手,我遇到了目标表没有被更新
的
问题。我
有
重复
的
帐号(键),
在
相关
的
列中有
不同
的
联系信息。我正在尝试将联系信息(源)合并到单行/帐号
中
,而非重复
的
联系信息进入(目标)扩展列。 我构造了一个带有case条件
的
Merge语句来检查数据是否存在于目标表
中
。如果数据不在目标表
中
,则在扩展列
中
添加信息。问题是目标表没有更新。源
浏览 0
提问于2020-07-07
得票数 0
2
回答
无参数求解过程
、
、
、
、
嘿,伙计们,来看看你们能不能帮我解决我遇到
的
这个程序问题。UnitPrice number(10,2),Discount number(3),我使用另外两个名为Orders
和
Client
的
表进行了几个联接,但使用主键/FK,这些都是简单
的
联接。因此,这个过程
的
目标是,当我运行它时,我想遍历订单详细信息,我想要计算客户端购买
的
产品
的
不同
数量、总产品
和</
浏览 0
提问于2018-12-14
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
C#程序代码中的8和‘8’有什么不同?
路由器和交换机有什么不同?在实际使用中如何选择
不同场所中互动涂鸦的应用优势有什么?
在Oracle中,索引有什么优点和缺点?
在微服务架构中,Sentinel和Hystrix之间有哪些不同之处?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券