当批处理大小不是train_size的一个因素时，将loss().item乘以batch_size以获得批处理的损失是不是一个好主意？

、、

假设我们有一个问题，我们有100个图像，批次大小为15，除了最后一批包含10个图像外，所有批次都有15个图像。+= loss.item()*15 最后一批不是总是应该给我们增加的loss值吗，因为我们将乘以15，而在最后一批中，我们应该乘以10？不是应该用total_loss+= loss.item()*len(images)代替15或b

浏览 299提问于2020-04-18得票数 2

回答已采纳

1回答

对多个GPU的培训会导致Keras中的NaN验证错误

、、

我有一个Keras模型，它可以在单个GPU上进行良好的训练，但是当我在多个GPU上训练它时，所有用于培训的验证损失都是NaNs。我正在使用一个fit_generator并调用一个验证生成器。在一个GPU上的训练损失和验证损失的返回值都是有效的，并且我的模型收敛，但是在2个或更多GPU上，训练损失是好的和有效<

浏览 0提问于2019-01-21得票数 1

2回答

二元交叉熵是一个加性函数吗？

、、、、

我试图训练一个机器学习模型，其中损失函数是二进制交叉熵，由于gpu的限制，我只能做批大小为4，而且我在损失图中有很多尖峰。所以我想在预定义的批处理大小(>4)之后向后传播。所以，就像我要做10次批量大小为4的迭代，存储损失，在第10次迭代之后，添加损失并进行反向传播。会否与批号40相若？f(a+b) = f(a)+f(b)对二元交叉熵成立吗？

浏览 1提问于2020-07-25得票数 0

回答已采纳

1回答

Tensorflow分布式训练中TF估计的丢失和学习率缩放策略

、、、、

对于那些不想读整个故事的人来说：关于Tensorflow分布式学习的文档是令人困惑的。他们是否自行处理学习速度的<

浏览 2提问于2020-05-25得票数 4

1回答

如何覆盖梯度向量计算方法优化Keras，Tensorflow中的航迹？

、、、

因此，我试图修改Keras中的几个优化算法，即Adam或仅仅是SGD。因此，在默认情况下，我非常确定参数更新的工作方式是，损失在批处理中的数据点上平均，然后根据这个损失值计算一个梯度向量。另一种思考方法是，根据批处理中每个数据点的损失值平均梯度。这是我想要改变的计算，它将是昂贵的，所以我试图在使用GPU和所有这些的优化框架内完成它。因此，对于每一批，我需要计算关于

浏览 0提问于2020-11-06得票数 2

回答已采纳

3回答

为什么我的训练损失有规律的尖峰？

、

我正在训练这个问题底部链接的Keras对象检测模型，尽管我认为我的问题既不涉及Keras，也不涉及我试图训练的特定模型(SSD)，而是与在培训期间数据传递给模型的方式有关。这是我的问题(见下图)：我的训练损失总体上正在减少，但它显示出有规律的尖峰：X轴上的单位不是训练时代，而是几十个训练步骤.尖峰精确地每1390个训练步骤发生一次，这正是我的训练数据集上一次完全通过的训

浏览 6提问于2017-12-15得票数 23

回答已采纳

1回答

煤角中不同批次尺寸的损失计算

、、、、

我知道，从理论上讲，一批网络的丢失只是所有个人损失的总和。这反映在计算总损失的中。is None: else:但是，我注意到，当我使用batch_s

浏览 0提问于2018-09-04得票数 7

回答已采纳

1回答

在MxNet -“运算符_copyto是不可微的，因为它没有注册FGradient属性”中添加损失函数。

我有一个生成培训数据的系统，我希望将丢失函数加在一起以获得批处理大小。on last output loss = loss - l2loss(net(mx.nd.array(x)), net((y))) trainer.step(BATCH_SIZE

浏览 2提问于2017-10-08得票数 0

回答已采纳

1回答

我正在尝试通过将梯度应用于优化器来训练鉴别器网络。但是，当我使用tf.GradientTape查找损失的梯度w.r.t训练变量时，没有返回任何结果。= disc_tape.gradient(disc_loss, discriminator.trainable_variables)生成器网络从噪声中生成一个“模式”。然后，我通过对张量应用各种卷积，从该模式生成一个数据集。返回的数据集是批处理的，因此我迭代数

浏览 10提问于2020-05-12得票数 1

回答已采纳

1回答

与隐层输出的正则化损耗(add_loss)不兼容的最小均方损耗函数

、、、、

我想在tf.Keras中编写一个带有几个损失函数的神经网络。一个是带因子加载的标准均方误差( mse )，另一个是隐藏层输出的正则化项。第二个损失是通过self.add_loss()在从tf.keras.layers.Layer继承的用户定义类中添加的。我有几个问题(第一个问题更重要)。1)1)当我试图将这两种损失组合在一起时，

浏览 6提问于2020-07-04得票数 2

2回答

小数据集PyTorch梯度积累的最后一步

、、、、

我正在一个相对较小的数据集上培训一个BERT模型，并且不能丢失任何标签样本，因为它们都必须用于培训。由于GPU内存的限制，我使用梯度累积在更大的批(例如32)上进行训练。): output = model(input) loss = loss /

浏览 1提问于2021-01-22得票数 3

回答已采纳

1回答

tensorflow.keras.model.fit无法读取数据集格式的验证数据

、、、、

然而，当我将我的数据集分配给val_data时，如下所示，无论训练状态如何，验证数据的损失都是0 (见下图)。is stuck at 0 此issue显示，当val_data以数组x_val，y_val而不是元组(x_val，y_val)的形式呈现时，就会出现此问题。shape=(batch_size, 10), dtype=float32, numpy= array>) 第一个是图像，第二个是标签(在本例中，

浏览 53提问于2020-11-05得票数 1

2回答

在神经网络中如果不能进行大批处理，如何进行补偿？

、、、

我正在尝试从GitHub运行一个动作识别代码。原始代码使用的批处理大小为128和4个GPUS。我只有两个gpus，所以我无法匹配他们的杆菌号。不管怎么说，我可以批量补偿这个差额。我在某个地方看到iter_size可以根据公式effective_batchsize= batch_size*iter_size*n_gpu进行补偿。这个公式中的iter_size是什么？我用的是PYthorch，而不是咖啡。

浏览 1提问于2018-09-26得票数 0

回答已采纳

1回答

需要帮助理解Tensorflow线性回归中的批量大小

、、

在本课程的一个特定部分，我们将介绍线性回归在python代码中的实际应用。在上面的代码中，我在理解超参数batch_size时遇到了问题。它在ML Wiki中被描述为No。一批一批的例子！它与时代有关(迭代？)这样，N/Batch_size给出了迭代的次数(如果batch_size<N也不能理解)。 Learning_rate作为负梯度增量值，指向低损耗

浏览 9提问于2022-01-22得票数 0

回答已采纳

3回答

通流shuffle_batch速度

我注意到，如果我将训练数据加载到内存中，并将其作为numpy数组提供给图形，与使用相同大小的洗牌批次相比，我的数据有大约1000个实例，那么速度会有很大的差异。使用内存1000次迭代所需的时间不到几秒钟，但使用一次洗牌批处理几乎需要10分钟。我得到的洗牌批应该是有点慢，但这似乎太慢了。为什么会这样呢？ capacity=50

浏览 4提问于2017-01-26得票数 4

回答已采纳

2回答

为什么在Keras层的方法调用中批处理大小为None？

、

我正在Keras中实现一个自定义层。如果打印传递给call方法的输入的形状，将None作为第一个元素。为什么会这样呢？第一个元素不应该是批处理大小吗？当我调用model.fit时，我传递的是批大小model.fit(x_train, y_train, ..., batch_size=batch_size) 那么，

浏览 0提问于2019-04-28得票数 9

回答已采纳

1回答

CrossEntropyLoss显示2d输出精度差

、、、

我在一个简单的神经网络上做了一些实验，它只是尝试学习一些随机数的平方，用十进制数字数组表示，下面的代码被注释所表示。但是对于像这样的情况，输出是N路分类(在本例中是一个输出数组，每个数组表示十进制数中的一个)，CrossEntropyLoss被认为是理想的，所以我做了这个修改。同样的替换在一个更简单的测试用例上工作得很好，主要的区别是这种情况只产生一个N路输出，而

浏览 9提问于2022-09-03得票数 2

回答已采纳

1回答

一个热编码标签的BERT模型丢失函数

、、、、

，使其成为32x17的张量，因为批处理大小为32，文本类别有17个类。然而，BERT模型只采用带有一维向量的标签。因此，我得到了错误：544是32x17的产物。但是，我的问题是，如何在每次迭代中使用一个热编码标签来获得损失值？我可以只使用标签编码标签，但这并不是真正适合无序标签。(loss</

浏览 3提问于2021-06-23得票数 0

回答已采纳

6回答

Keras中的自定义损失函数应该返回该批的单个损失值，还是返回培训批中每个样本的损失数组？

、、、、

这样定义损失函数是正确的吗？据我所知，y_true和y_pred形状的第一个维度是批处理大小。我认为损失函数应该返回每批样品的损失值。因此，损失函数应该给出一个形状(batch_size,)阵列。当您向方法提供一个丢失函数(请注意它是一个函数，而不是一个丢失类)时，将使用该丢

浏览 8提问于2020-08-13得票数 24

回答已采纳

1回答

在pymongo中默认的batchSize是什么？

、

我使用pymongo在一个查询中获取大约200万个文档，每个文档只包含三个字符串字段。查询只是一个简单的find()，没有任何限制()或batchSize()。在遍历游标时，我注意到脚本在处理大约25k文档后等待大约30~40秒。所以我想知道芒果会不会一次把所有的200万结果都还给你呢？在pymongo中，默认的batchSize()是什么？

浏览 3提问于2014-08-04得票数 18

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

对多个GPU的培训会导致Keras中的NaN验证错误

二元交叉熵是一个加性函数吗？

Tensorflow分布式训练中TF估计的丢失和学习率缩放策略

如何覆盖梯度向量计算方法优化Keras，Tensorflow中的航迹？

为什么我的训练损失有规律的尖峰？

煤角中不同批次尺寸的损失计算

在MxNet -“运算符_copyto是不可微的，因为它没有注册FGradient属性”中添加损失函数。

在训练具有批处理数据集的网络时，我应该如何跟踪总损失？

与隐层输出的正则化损耗(add_loss)不兼容的最小均方损耗函数

小数据集PyTorch梯度积累的最后一步

tensorflow.keras.model.fit无法读取数据集格式的验证数据

在神经网络中如果不能进行大批处理，如何进行补偿？

需要帮助理解Tensorflow线性回归中的批量大小

通流shuffle_batch速度

为什么在Keras层的方法调用中批处理大小为None？

CrossEntropyLoss显示2d输出精度差

一个热编码标签的BERT模型丢失函数

Keras中的自定义损失函数应该返回该批的单个损失值，还是返回培训批中每个样本的损失数组？

在pymongo中默认的batchSize是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐