腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1512)
视频
沙龙
1
回答
当
批处理
大小
不是
train_size
的
一个
因素
时
,
将
loss
().
item
乘以
batch_size
以
获得
批处理
的
损失
是不是
一个
好主意
?
、
、
假设我们有
一个
问题,我们有100个图像,批次
大小
为15,除了最后一批包含10个图像外,所有批次都有15个图像。+=
loss
.
item
()*15 最后一批
不是
总是应该给我们增加
的
loss
值吗,因为我们
将
乘以
15,而在最后一批中,我们应该
乘以
10?
不是
应该用total_
loss
+=
loss
.
item
()*len(images)代替15或
b
浏览 299
提问于2020-04-18
得票数 2
回答已采纳
1
回答
对多个GPU
的
培训会导致Keras中
的
NaN验证错误
、
、
我有
一个
Keras模型,它可以在单个GPU上进行良好
的
训练,但是当我在多个GPU上训练它
时
,所有用于培训
的
验证
损失
都是NaNs。 我正在使用
一个
fit_generator并调用
一个
验证生成器。在
一个
GPU上
的
训练
损失
和验证
损失
的
返回值都是有效
的
,并且我
的
模型收敛,但是在2个或更多GPU上,训练
损失
是好
的
和有效<
浏览 0
提问于2019-01-21
得票数 1
2
回答
二元交叉熵是
一个
加性函数吗?
、
、
、
、
我试图训练
一个
机器学习模型,其中
损失
函数是二进制交叉熵,由于gpu
的
限制,我只能做批
大小
为4,而且我在
损失
图中有很多尖峰。所以我想在预定义
的
批处理
大小
(>4)之后向后传播。所以,就像我要做10次批量
大小
为4
的
迭代,存储
损失
,在第10次迭代之后,添加
损失
并进行反向传播。会否与批号40相若?f(a+b) = f(a)+f(b)对二元交叉熵成立吗?
浏览 1
提问于2020-07-25
得票数 0
回答已采纳
1
回答
Tensorflow分布式训练中TF估计
的
丢失和学习率缩放策略
、
、
、
、
对于那些不想读整个故事的人来说:关于Tensorflow分布式学习
的
文档是令人困惑
的
。他们是否自行处理学习速度
的<
浏览 2
提问于2020-05-25
得票数 4
1
回答
如何覆盖梯度向量计算方法优化Keras,Tensorflow中
的
航迹?
、
、
、
因此,我试图修改Keras中
的
几个优化算法,即Adam或仅仅是SGD。因此,在默认情况下,我非常确定参数更新
的
工作方式是,
损失
在
批处理
中
的
数据点上平均,然后根据这个
损失
值计算
一个
梯度向量。另一种思考方法是,根据
批处理
中每个数据点
的
损失
值平均梯度。这是我想要改变
的
计算,它将是昂贵
的
,所以我试图在使用GPU和所有这些
的
优化框架内完成它。因此,对于每一批,我需要计算关于
浏览 0
提问于2020-11-06
得票数 2
回答已采纳
3
回答
为什么我
的
训练
损失
有规律
的
尖峰?
、
我正在训练这个问题底部链接
的
Keras对象检测模型,尽管我认为我
的
问题既不涉及Keras,也不涉及我试图训练
的
特定模型(SSD),而是与在培训期间数据传递给模型
的
方式有关。这是我
的
问题(见下图):我
的
训练
损失
总体上正在减少,但它显示出有规律
的
尖峰:X轴上
的
单位
不是
训练时代,而是几十个训练步骤.尖峰精确地每1390个训练步骤发生一次,这正是我
的
训练数据集上一次完全通过
的
训
浏览 6
提问于2017-12-15
得票数 23
回答已采纳
1
回答
煤角中不同批次尺寸
的
损失
计算
、
、
、
、
我知道,从理论上讲,一批网络
的
丢失只是所有个人
损失
的
总和。这反映在计算总
损失
的
中。is None: else:但是,我注意到,当我使用
batch_s
浏览 0
提问于2018-09-04
得票数 7
回答已采纳
1
回答
在MxNet -“运算符_copyto是不可微
的
,因为它没有注册FGradient属性”中添加
损失
函数。
我有
一个
生成培训数据
的
系统,我希望
将
丢失函数加在一起
以
获得
批处理
大小
。on last output
loss
=
loss
- l2
loss
(net(mx.nd.array(x)), net((y))) trainer.step(
BATCH_SIZE
浏览 2
提问于2017-10-08
得票数 0
回答已采纳
1
回答
在训练具有
批处理
数据集
的
网络
时
,我应该如何跟踪总
损失
?
、
、
、
我正在尝试通过
将
梯度应用于优化器来训练鉴别器网络。但是,当我使用tf.GradientTape查找
损失
的
梯度w.r.t训练变量
时
,没有返回任何结果。= disc_tape.gradient(disc_
loss
, discriminator.trainable_variables)生成器网络从噪声中生成
一个
“模式”。然后,我通过对张量应用各种卷积,从该模式生成
一个
数据集。返回
的
数据集是
批处理
的
,因此我迭代数
浏览 10
提问于2020-05-12
得票数 1
回答已采纳
1
回答
与隐层输出
的
正则化损耗(add_
loss
)不兼容
的
最小均方损耗函数
、
、
、
、
我想在tf.Keras中编写
一个
带有几个
损失
函数
的
神经网络。
一个
是带因子加载
的
标准均方误差( mse ),另
一个
是隐藏层输出
的
正则化项。第二个
损失
是通过self.add_
loss
()在从tf.keras.layers.Layer继承
的
用户定义类中添加
的
。我有几个问题(第
一个
问题更重要)。1)1)当我试图
将
这两种
损失
组合在一起
时
,
浏览 6
提问于2020-07-04
得票数 2
2
回答
小数据集PyTorch梯度积累
的
最后一步
、
、
、
、
我正在
一个
相对较小
的
数据集上培训
一个
BERT模型,并且不能丢失任何标签样本,因为它们都必须用于培训。由于GPU内存
的
限制,我使用梯度累积在更大
的
批(例如32)上进行训练。): output = model(input)
loss
=
loss
/
浏览 1
提问于2021-01-22
得票数 3
回答已采纳
1
回答
tensorflow.keras.model.fit无法读取数据集格式
的
验证数据
、
、
、
、
然而,当我将我
的
数据集分配给val_data
时
,如下所示,无论训练状态如何,验证数据
的
损失
都是0 (见下图)。is stuck at 0 此issue显示,
当
val_data
以
数组x_val,y_val而
不是
元组(x_val,y_val)
的
形式呈现时,就会出现此问题。shape=(
batch_size
, 10), dtype=float32, numpy= array>) 第
一个
是图像,第二个是标签(在本例中,
浏览 53
提问于2020-11-05
得票数 1
2
回答
在神经网络中如果不能进行大
批处理
,如何进行补偿?
、
、
、
我正在尝试从GitHub运行
一个
动作识别代码。原始代码使用
的
批处理
大小
为128和4个GPUS。我只有两个gpus,所以我无法匹配他们
的
杆菌号。不管怎么说,我可以批量补偿这个差额。我在某个地方看到iter_size可以根据公式effective_batchsize=
batch_size
*iter_size*n_gpu进行补偿。这个公式中
的
iter_size是什么?我用
的
是PYthorch,而
不是
咖啡。
浏览 1
提问于2018-09-26
得票数 0
回答已采纳
1
回答
需要帮助理解Tensorflow线性回归中
的
批量
大小
、
、
在本课程
的
一个
特定部分,我们
将
介绍线性回归在python代码中
的
实际应用。在上面的代码中,我在理解超参数
batch_size
时
遇到了问题。它在ML Wiki中被描述为No。一批一批
的
例子!它与时代有关(迭代?)这样,N/
Batch_size
给出了迭代
的
次数(如果
batch_size
<N也不能理解)。 Learning_rate作为负梯度增量值,指向低损耗
浏览 9
提问于2022-01-22
得票数 0
回答已采纳
3
回答
通流shuffle_batch速度
我注意到,如果我
将
训练数据加载到内存中,并将其作为numpy数组提供给图形,与使用相同
大小
的
洗牌批次相比,我
的
数据有大约1000个实例,那么速度会有很大
的
差异。使用内存1000次迭代所需
的
时间不到几秒钟,但使用一次洗牌
批处理
几乎需要10分钟。我得到
的
洗牌批应该是有点慢,但这似乎太慢了。为什么会这样呢? capacity=50
浏览 4
提问于2017-01-26
得票数 4
回答已采纳
2
回答
为什么在Keras层
的
方法调用中
批处理
大小
为None?
、
我正在Keras中实现
一个
自定义层。如果打印传递给call方法
的
输入
的
形状,
将
None作为第
一个
元素。为什么会这样呢?第
一个
元素不应该是
批处理
大小
吗?当我调用model.fit
时
,我传递
的
是批
大小
model.fit(x_train, y_train, ...,
batch_size
=
batch_size
) 那么,
浏览 0
提问于2019-04-28
得票数 9
回答已采纳
1
回答
CrossEntropyLoss显示2d输出精度差
、
、
、
我在
一个
简单
的
神经网络上做了一些实验,它只是尝试学习一些随机数
的
平方,用十进制数字数组表示,下面的代码被注释所表示。但是对于像这样
的
情况,输出是N路分类(在本例中是
一个
输出数组,每个数组表示十进制数中
的
一个
),CrossEntropyLoss被认为是理想
的
,所以我做了这个修改。同样
的
替换在
一个
更简单
的
测试用例上工作得很好,主要
的
区别是这种情况只产生
一个
N路输出,而
浏览 9
提问于2022-09-03
得票数 2
回答已采纳
1
回答
一个
热编码标签
的
BERT模型丢失函数
、
、
、
、
,使其成为32x17
的
张量,因为
批处理
大小
为32,文本类别有17个类。然而,BERT模型只采用带有一维向量
的
标签。因此,我得到了错误:544是32x17
的
产物。但是,我
的
问题是,如何在每次迭代中使用
一个
热编码标签来
获得
损失
值?我可以只使用标签编码标签,但这并
不是
真正适合无序标签。(
loss</
浏览 3
提问于2021-06-23
得票数 0
回答已采纳
6
回答
Keras中
的
自定义
损失
函数应该返回该批
的
单个
损失
值,还是返回培训批中每个样本
的
损失
数组?
、
、
、
、
这样定义
损失
函数是正确
的
吗?据我所知,y_true和y_pred形状
的
第
一个
维度是
批处理
大小
。我认为
损失
函数应该返回每批样品
的
损失
值。因此,
损失
函数应该给出
一个
形状(
batch_size
,)阵列。
当
您向方法提供
一个
丢失函数(请注意它是
一个
函数,而
不是
一个
丢失类)
时
,将使用该丢
浏览 8
提问于2020-08-13
得票数 24
回答已采纳
1
回答
在pymongo中默认
的
batchSize是什么?
、
我使用pymongo在
一个
查询中获取大约200万个文档,每个文档只包含三个字符串字段。查询只是
一个
简单
的
find(),没有任何限制()或batchSize()。在遍历游标
时
,我注意到脚本在处理大约25k文档后等待大约30~40秒。 所以我想知道芒果会不会一次把所有的200万结果都还给你呢?在pymongo中,默认
的
batchSize()是什么?
浏览 3
提问于2014-08-04
得票数 18
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
归一化技术比较研究:Batch Norm, Layer Norm, Group Norm
使用ML和DNN 建模的技巧总结
LSTM Siamese neural network
PyTorch 并行训练 DistributedDataParallel完整代码示例
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券