腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3652)
视频
沙龙
1
回答
如
何在
小批量
上
累积
损失
,
然后
计算
梯度
python
、
tensorflow
、
reinforcement-learning
、
tensorflow-gradient
、
policy-gradient-descent
我的主要问题是:平均
损失
是否等同于平均
梯度
,以及如
何在
小批量
上
累积
损失
,
然后
计算
梯度
?我一直试图在Tensorflow中实现策略
梯度
,但遇到了一个问题,即我无法一次将所有游戏状态都输入到我的网络中,
然后
进行更新。问题是,如果我降低网络大小,
然后
一次在所有帧
上
训练,并取
损失
的平均值,那么它开始很好地收敛。但是如果我在
小批量
浏览 20
提问于2019-03-18
得票数 2
2
回答
如何处理火炬中的
小批量
损失
?
pytorch
、
loss
我给
小批量
数据建模,我只想知道如何处理
损失
。我能不能
累积
损失
,
然后
召唤落后的人,比如:loss = model.neg_log_likelihood(sentences, tags, length)optimizer.step() loss.backward()
浏览 0
提问于2019-03-27
得票数 5
1
回答
随机
梯度
下降分批
machine-learning
、
deep-learning
、
linear-regression
、
gradient-descent
我对回归很陌生,我们在一门课程中做了一个非常简单的练习。我采取了一个基本的了解GD和SGD的线性回归。我的问题是,对于SGD来说,是简单地在小型批处理上执行算法,还是有某种结果的求和来给出最终的答案?抱歉,如果我没有用正确的术语来问,我对一些涉及的数学概念是更新的。
浏览 0
提问于2018-04-24
得票数 0
回答已采纳
2
回答
我的批量累计执行是否正确?
python
、
machine-learning
、
deep-learning
、
pytorch
我想知道我用于训练批量
累积
模型的代码是否正确。特别是关于
损失
计算
的部分,因为我不确定这是不是正确的方法。
浏览 32
提问于2020-09-14
得票数 0
回答已采纳
1
回答
文本二值分类训练中的波动
损失
python
、
machine-learning
、
pytorch
、
huggingface-transformers
、
allennlp
即使F1评分和准确度相当高,我也对训练
损失
的波动感到困惑。 培训集:57K示例
浏览 2
提问于2020-09-04
得票数 5
3
回答
什么是神经网络的新纪元?
neural-network
、
epoch
什么是神经网络中的纪元EPOCH用于更新权重。更改"Training data(Input data)"?
浏览 0
提问于2016-05-16
得票数 1
1
回答
连体网络的参数更新对比
损失
训练
deep-learning
、
neural-network
、
pytorch
、
conv-neural-network
、
loss-function
我试图实现一个相当简单的暹罗网络和一个对比
损失
函数。我使用经过预先训练的VGG16作为骨干模型,并从编码器中去掉最后的ReLU和MaxPooling。
然后
添加一个自适应池和一个简单的线性层来生成嵌入向量。问题:可以在我的MWE输出中看到,参数列表中的元素25和27不会接收更新。
梯度
都是零..。,为什么? 附加:如果一个输入大于224x224,例如input_1 = torch.randn(4, 3, 400, 224),最后一个卷积的偏差就会被更新。
浏览 5
提问于2022-04-27
得票数 1
1
回答
如
何在
Pytorch中实现JSD
损失
上限?
python
、
deep-learning
、
pytorch
但是,我怀疑这不是创建自定义
损失
的方法。任何形式的帮助都是非常感谢的!提前感谢:)
浏览 4
提问于2017-12-13
得票数 3
2
回答
带Dropout层的Keras小型批处理
梯度
下降
tensorflow
、
keras
、
deep-learning
、
neural-network
、
dropout
最初的文件说: 但是它是如
何在
Keras中实现的呢?据我所知,对于批处理中的每个样本,根据当前模型
计算
单个
梯度
(作为不同样本下降的不同单位)。接下来,在对来自批处理的所有样本进行处理之后,对每个权重各自的
梯度
进行求和,将这些和除以bat
浏览 5
提问于2020-02-19
得票数 0
1
回答
如何将单个批处理划分为多个调用以节省内存
tensorflow
我有一个有点大的模型,它只能在
小批量
的GPU
上
训练,但我需要使用更大的批量(从其他实验中,我知道这提高了最终的准确性和收敛时间)。Caffe通过'iter_size‘选项为这个问题提供了一个很好的解决方案,它将一个批次分割成n个较小的批次,
累积
n个
梯度
,
然后
更新一次 如
何在
TensorFlow中有效地实现这一点?
浏览 9
提问于2016-08-16
得票数 1
2
回答
如
何在
tensorflow 2.0中积累
梯度
?
python
、
tensorflow
、
tensorflow2.0
我构建的模型可以处理可变分辨率(conv层,
然后
是全局平均)。我的培训集非常小,我想在一批中使用完整的培训集。 因为我的图像有不同的分辨率,所以我不能使用model.fit()。因此,我计划将每个示例单独通过网络,
累积
错误/
梯度
,
然后
应用一个优化步骤。我能
计算
损失
值,但我不知道如何
累积
损失
/
梯度
。如何
累积
损失
/
梯度
,
然后
应用单个优化器
浏览 4
提问于2020-01-24
得票数 6
回答已采纳
1
回答
Keras GradientType:
计算
相对于输出节点的
梯度
python
、
tensorflow
、
keras
、
reinforcement-learning
、
gradienttape
基本
上
,他们创建了一个包含两个独立输出的模型:一个用于参与者(n操作),另一个用于评论家(1奖励)。model.trainable_variables)尽管演员和评论家的
损失
计算
不同,但他们将这两种
损失
相加,得到了用于
计算
梯度
的最终
损失
值。在查看这个代码示例时,我想到了一个问题:是否有一种方法可以
计算
输出层相对于相应损耗的
浏览 3
提问于2022-01-18
得票数 0
回答已采纳
1
回答
您应该在哪个阶段绘制验证和学习曲线?
machine-learning
我不打算微调它和使用网格搜索算法,
然后
继续选择最佳的超级参数w.r.t的准确性评分。但是,我不应该更早地绘制学习曲线吗?例如,在我选择从后勤部门开始的第一步。模特?
浏览 0
提问于2020-09-14
得票数 0
2
回答
在暹罗建筑中,
梯度
是如何飞回网络的?即使使用不同的模型,所有CNN模型的权重也是相同的。
machine-learning
、
neural-network
、
deep-learning
、
cnn
、
siamese-networks
博士:暹罗网络中
梯度
流背后的直觉?3种型号怎么能有相同的重量?如果使用1模型,如何从3条不同的路径更新
梯度
?此外,让我们假设它只是一个网络(无法假设,如何,请帮助),
然后
在第一个时代,它将给出默认权重(如果使用ImageNet)。但是当
梯度
返回到网络时,这些
梯度
是如何更新的呢?因为有3条不同的路径来自同一个模型,以及
梯度
将如何返回到这些路径?当然,这是不可能的(我想不出是怎么做到的),如果是顺序的话,那是如何实现的呢?因为输出是按顺序提供的,但是
梯度
不能以这种方式返回呢
浏览 0
提问于2021-01-04
得票数 1
1
回答
验证
损失
有时会达到峰值
python
、
keras
、
deep-learning
有时,我的val
损失
是峰值,但在那之后它又回到列车
损失
线以下。我的模型怎么了?任何答案都将不胜感激。提前感谢! ?
浏览 31
提问于2020-04-18
得票数 0
回答已采纳
1
回答
训练神经网络时出现极小或NaN值
algorithm
、
haskell
、
neural-network
、
backpropagation
但问题是,层大小(比方说1000)、
小批量
大小和学习率的某些组合会在
计算
中产生NaN值。经过一些检查后,我看到非常小的值(1e-100的顺序)最终出现在激活中。下面是实际的
梯度
计算
: -- Forward propagation: compute layers outputs and activation也就是说,ds是增量矩阵的列表,其中每一列对应于
小批量
的一行的增量。因此,偏差的
梯度
是所有
小批量
的增量的平均
浏览 4
提问于2017-06-22
得票数 329
1
回答
在LSTM Matlab中“`MiniBatchSize`”参数的含义是什么?
matlab
、
machine-learning
、
neural-network
、
deep-learning
、
lstm
我使用的是LSTM结构: sequenceInputLayer(1) fullyConnectedLayer(2) classificationLayer 'MaxEpochs',30, ... 'MiniBatchSize', 150, .
浏览 1
提问于2018-09-19
得票数 0
回答已采纳
1
回答
如
何在
Theano中汇集渐变?
theano
我正在执行一种随机
梯度
下降,但对于
小批量
中的每个样本,我需要执行一个采样过程来
计算
梯度
。在Theano中,有没有一种方法可以在我对
小批量
中的每个数据点执行采样过程时汇集
梯度
,
然后
才执行
梯度
更新?
浏览 0
提问于2015-01-18
得票数 0
1
回答
在深入强化学习的背景下,批量大小的含义是什么?
reinforcement-learning
、
batchsize
批次大小是指在监督学习中接受神经工作训练的样本数,但是,在强化学习的背景下,批次大小的意义是什么?它也是指样品吗?如果是的话,在强化学习的背景下,样本的意义是什么?
浏览 0
提问于2019-04-02
得票数 3
回答已采纳
1
回答
PyTorch中生成对抗网络(GAN)的训练生成器
machine-learning
、
deep-learning
、
pytorch
、
generative-adversarial-network
为了
计算
生成器的
损失
,我
计算
了鉴别器错误分类全真小批次和全(生成器生成的)假小批次的负概率。
然后
,我按顺序向后传播这两部分,最后应用阶跃函数。
计算
和反向传播作为所生成的假数据的错误分类的函数的部分
损失
似乎是直接的,因为在该
损失
项的反向传播期间,反向路径通过首先产生假数据的生成器。 然而,所有真实数据
小批量
的分类并不涉及通过生成器传递数据。因此,我想知道下面的代码片段是否仍然会为生成器
计算
梯度
,或者它是否根本不会<em
浏览 34
提问于2020-06-06
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从梯度下降到 Adam!一文看懂各种神经网络优化算法
批量算法和小批量算法
最优解的平坦度与鲁棒性,我们该如何度量模型的泛化能力
机器学习100天-Day1501训练模型-线性模型
模型泛化不必随机训练全批量GD媲美SGD,网友:计算成本负担不起
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券