腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果
我们
通常
应该
平均
梯度
(
而
不是
损失
),
为什么
我们
要对
批次
中
所有
元素
的
损失
进行
平均
?
python
、
pytorch
、
gradient
我
的
loss输出是 tensor([0.0430, 0.0443, 0.0430, 0.0430, 0.0443, 0.0466, 0.0466, 0.0466], grad_fn=<AddBackward0
为什么
使用.mean().backward(),即
如果
我们
通常
应该
平均
梯度
(
而
不是
损失
),
为什么
我们
要对
批次</
浏览 36
提问于2020-05-01
得票数 1
2
回答
或者
平均
更新?
tensorflow
、
deep-learning
、
mnist
关于神经网络
的
批量训练,我很少有疑问。否则,
如果
答案是
梯度
的
平均</e
浏览 2
提问于2017-07-18
得票数 6
回答已采纳
3
回答
噪声训练
损失
machine-learning
、
neural-network
、
deep-learning
、
tensorboard
、
loss
我正在训练基于编解码注意力
的
模型,批量大小为8。我不怀疑数据集中有太多
的
噪音,但是示例来自几个不同
的
分布。
浏览 4
提问于2018-02-02
得票数 12
回答已采纳
2
回答
Keras训练过程
中
损失
的
移动
平均
python
、
tensorflow
、
keras
、
deep-learning
、
neural-network
当我
损失
和迭代次数时,在每一个时代之后,
损失
都会有一个显著
的
跳跃。实际上,每个迷你
批次
的
损失
应该
各不相同,但是Keras计算
的
是小批
的
移动
平均
损失
,这就是
为什么
我们
获得了一条平滑
的
曲线
而
不是
任意
的
曲线。移动
平均
线
的
阵列在每一个时代之后都会被重置,因此
浏览 4
提问于2022-04-29
得票数 1
回答已采纳
1
回答
一种批量计算
损失
函数
的
有效方法?
tensorflow
、
keras
、
bigdata
我正在使用自动编码器
进行
异常检测。因此,我已经完成了对模型
的
训练,现在我想计算数据集中每个条目的重建
损失
。这样我就可以将异常分配给重建
损失
较高
的
数据点。我尝试过更改批处理大小,但没有太大区别。我必须使用转换为张量部分
浏览 79
提问于2019-05-22
得票数 1
回答已采纳
3
回答
损失
函数适用于reduce_mean,但不适用于reduce_sum
tensorflow
我是张量流
的
新手,并且一直在看示例。我想将多层感知器分类模型重写为回归模型。然而,在修改
损失
函数时,我遇到了一些奇怪
的
行为。它在tf.reduce_mean上工作得很好,但是
如果
我尝试使用tf.reduce_sum,它会在输出
中
给出nan。这似乎非常奇怪,因为函数非常相似-唯一
的
区别是
平均
值除以
元素
的
数量?所以我看不出这个变化是如何引入nan
的
?它
应该
用来代替mse。在se
中
,结果
浏览 0
提问于2017-01-31
得票数 13
回答已采纳
1
回答
PyTorch
中
不同降阶方法计算
梯度
的
差异
deep-learning
、
pytorch
、
backpropagation
我在使用内置
损失
函数中提供
的
不同
的
还原方法。特别是,我想比较以下几点。对用reduction="none"计算
的
每个
损失
值执行反向传递
的
平均
梯度
reduction="mean"产生
的
平均
梯度
平均
梯度</em
浏览 0
提问于2019-07-05
得票数 14
1
回答
tensorflow是否可以单独优化每个
元素
的
损失
,
而
不是
优化整个
平均
损失
?
tensorflow
、
optimization
、
loss
tensorflow如何单独优化
批次
的
元素
损失
,
而
不是
优化
批次
损失
? 在对每个
批次
的
损失
进行
优化时,常用
的
方法是对
所有
批次
的
元素
损失
进行
求和或取其
平均
值作为
批次
损失
,然后对该
批次
浏览 17
提问于2019-04-19
得票数 0
2
回答
SGD背后
的
核心理念
machine-learning
、
neural-network
、
deep-learning
、
sgd
Hinton在他
的
通俗课程中提到了以下事实: 当
我们
有非常大
的
数据集并且需要执行小型批处理权重更新时,Rprop实际上不起作用。
为什么
它不适用于小型
批次
?嗯,人们试过了,但发现很难让它发挥作用。它不起作用
的
原因是它违背了随机
梯度
下降背后
的
中心思想,即当
我们
有足够小
的
学习率时,它会在连续
的
小批上
平均
梯度
。考虑权重,它得到了
梯度
0.1在九个迷你<em
浏览 0
提问于2020-09-29
得票数 3
3
回答
随机
梯度
下降增加成本函数
machine-learning
、
neural-network
、
gradient-descent
在神经网络
中
,
梯度
下降会查看整个训练集以计算
梯度
。成本函数随着迭代
的
进行
而
减小。
如果
代价函数增加,
通常
是因为错误或不适当
的
学习率。 相反,随机
梯度
下降计算每个单个训练示例
的
梯度
。我想知道成本函数是否有可能从一个样本增加到另一个样本,即使实现是正确
的
并且参数调整得很好。我有一种感觉,代价函数
的
异常增量是可以
的
,因为
梯度</
浏览 2
提问于2018-05-16
得票数 0
1
回答
Tensorflow NMT和注意教程--需要帮助理解
损失
函数
python
、
tensorflow
如果
有人能帮助我澄清或推荐我到一个来源/更好
的
地方问问题,那就太好了: 1) def loss_function(real, pred):该函数在特定
的
时间步骤(例如t)计算
损失
,在整个批处理中
平均
计算,我
的
问题,:似乎
损失
应该
越小,t越大(因为更多
的
例子是<pad>,
我们
就越接近最大长度)。那么,
为什么
损失
在整个批中
平均
,
而</em
浏览 0
提问于2018-11-03
得票数 1
1
回答
为什么
随机
梯度
下降不波动
machine-learning
、
deep-learning
、
pytorch
、
gradient-descent
在间歇
梯度
下降
中
,参数是根据随机
梯度
下降或SGD中
所有
点
的
总
损失
/
平均
损失
来更新
的
,
我们
是在每一个点之后更新参数,
而
不是
一个时代。因此,让
我们
说,
如果
最后一点是一个离群点,不会导致整个拟合线剧烈波动。或者收敛在像这样
的
等高线上
浏览 2
提问于2020-05-30
得票数 0
回答已采纳
3
回答
具有相同标签
的
批处理
的
每个成员有多大
的
问题?
classification
、
class-imbalance
、
mini-batch-gradient-descent
我有128个
批次
大小和大约1000万个数据大小,我将在4个不同
的
标签值之间
进行
分类。例如,批处理0都有第三个标签。第一批都有第一批。第二批。等。
浏览 0
提问于2020-07-01
得票数 2
回答已采纳
2
回答
为什么
在
损失
函数中使用
平均
值
而
不是
总和?
tensorflow
、
keras
、
deep-learning
、
loss-function
为什么
在
损失
函数中使用
平均
值
而
不是
总和? loss = tf.reduce_sum(tf.abs(y_true-y_pred))在Keras源代码
中
也使用了
浏览 2
提问于2018-12-10
得票数 2
2
回答
基于tf.GradientTape
的
预训练模型迁移学习不能收敛
python
、
keras
、
tensorflow2.0
、
transfer-learning
我想用keras
的
预训练模型
进行
迁移学习from tensorflow import keras 使用keras编译/拟合函数
进行
训练可以收敛keras.losses.SparseCategoricalCross
浏览 0
提问于2019-07-30
得票数 1
2
回答
Tensorflow Inception多个GPU训练
损失
不是
总和吗?
neural-network
、
tensorflow
、
conv-neural-network
我正在尝试为多个GPU(在一台机器上)检查Tensorflow
的
初始代码。我很困惑,因为
我们
从不同
的
塔,也就是GPU得到了多个
损失
,据我所知,但loss变量似乎只计算了最后一个塔
的
损失
,
而
不是
所有
塔
的
损失
的
总和: durati
浏览 2
提问于2016-07-24
得票数 2
2
回答
如何优化神经网络在多个训练样本
中
的
权重?
neural-network
📷假设
我们
有一个3乘1
的
神经网络,类似于图像
中
的
神经网络(输入层有3个神经元,输出层有一个神经元,没有隐藏层),当给神经网络输入一个训练样本(即feature1、feature2、feature3例如,
我们
有3×3矩阵
的
训练输入。
我们
知道,在向神经网络提供一个训练样本时,为了计算新
的
权重,
我们
依赖于这个公式: New_weights = Initial_weights - learning_rate×
浏览 0
提问于2018-07-07
得票数 3
1
回答
.backward()中和与均值之差
machine-learning
、
pytorch
我知道
我们
在标量中转换张量,
而
不是
向后(),但是什么时候求和,什么时候表示?
浏览 5
提问于2022-05-30
得票数 0
1
回答
梯度
/
损失
计算
中
的
解耦脱队列操作
tensorflow
我目前正在尝试放弃使用提要,开始使用队列,以支持更大
的
数据集。对于tensorflow
中
的
优化器来说,使用队列很好,因为它们只对每个去队列操作计算一次
梯度
。但是,我已经实现了与执行行搜索
的
其他优化器
的
接口,我不仅需要评估
梯度
,还需要评估同一批
的
多个点
的
损失
。不幸
的
是,对于正常
的
排队系统,每个
损失
评估都将执行一个去队列,
而
不是
对同
浏览 4
提问于2016-12-06
得票数 1
回答已采纳
2
回答
如何获得每个时期
的
损失
而
不是
每个
批次
的
损失
?
python
、
machine-learning
、
keras
、
generative-adversarial-network
在我
的
理解
中
,一个时期是对整个数据集
的
任意重复运行,而这些数据集又被分成几个部分
进行
处理,即所谓
的
批处理。在每次train_on_batch计算
损失
后,更新权重,下一批将获得更好
的
结果。这些
损失
是my to NNs质量和学习状态
的
指标。for epoch
浏览 1
提问于2019-01-06
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从梯度下降到 Adam!一文看懂各种神经网络优化算法
如何选择合适的损失函数,请看……
到底该如何选择损失函数?
如何选择合适的损失函数
通俗聊聊损失函数中的均方误差以及平方误差
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券