腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Adam
优化
器
在
FashionMNIST
上
训练
逻辑
回归
时
出错
、
、
、
数据集为
FashionMNIST
(784输入,10输出)。我正在尝试
使用
Adam
优化
器
训练
逻辑
回归
(也进行了编码): weights = torch.randn(784, 10) / math.sqrt(784)cr
浏览 20
提问于2020-10-29
得票数 0
1
回答
模型
训练
中的精确噪声模式
、
、
、
我
在
一个小数据集
上
训练
一个
逻辑
回归
模型。我有大约1300个样本,我分成
训练
和测试组(分别占70%和30% )。这是
在
培训
时
可能发生的事情,没有后果,还是反映了我的数据/培训
浏览 0
提问于2019-09-10
得票数 1
回答已采纳
1
回答
在
Tensorflow中,损失随
Adam
优化
器
的突然增加而增加
、
、
、
我用CNN做
回归
任务。我
使用
Tensorflow,
优化
器
是
Adam
。该网络似乎完全收敛,直到一个点,损失突然增加,随着验证错误。以下是标签和权重的损失图(对它们的和运行
优化
器
) 我
使用
l2减肥来调整体重,也
使用
标签。我
在
训练
数据
上
应用了一些随机性。我目前正在尝试RSMProp看看行为是否发生了变化,但至少需要8小
时
才能重现错误。 我想了解这是如何发生的。希
浏览 2
提问于2017-02-14
得票数 20
1
回答
神经网络误差
损失的选择为L2,
优化
器
为标准梯度下降。预测器用X_train = numpy.arange(0.0, 314.1, 0.1)和Y_train = numpy.sin(X_train)
训练
。它随后
在
X_test= numpy.arange(-10.0, 10.0, 0.001)和Y_test = numpy.sin(X_test)上进行了测试,但是预测
器
对测试数据的性能很差。有什么会
出错
的?
训练
数据太少,无法对网络进行
训练
。添加更多数据,特别是当X&
浏览 0
提问于2018-02-22
得票数 1
2
回答
Keras编码
器
-解码
器
模型RuntimeError:您必须在
使用
模型之前编译它
、
、
steps_per_epoch=sd.no_samples/batch_size, epochs=epoch, verbose=2, 但是,当调用fit_generator
时
,
浏览 4
提问于2018-09-20
得票数 3
1
回答
kernel_initializer、激活函数和
回归
优化
器
的最优排列
、
、
我
使用
kernel_initializer='normal‘和optimizer='
adam
’来找到最佳
回归
解决方案。我
在
训练
数据上接近0.94的准确率。我想测试一些其他的kernel_initializer,激活函数和
优化
器
组合,但我不确定kernel_initializer和激活函数对
回归
效果很好。kernel_initializer='normal')) mo
浏览 21
提问于2020-08-24
得票数 0
3
回答
AssertionError:如果capturable=False,state_steps不应该是CUDA张量
、
在
Google
上
加载上一个时代的模型权重
时
,我得到了这个错误。我
使用
的是PyTorch版本1.12.0。我不能降级到更低的版本,因为我
使用
的是外部库,需要Pytorch 1.12.0 谢谢!
浏览 107
提问于2022-07-24
得票数 3
4
回答
随机梯度下降是分类
器
还是
优化
器
?
、
、
、
我
在
sklearn库中偶然发现了SGDClassifier。但许多论文都将SGD作为一种
优化
技术。有人能解释一下SGDClassifier是如何实现的吗?
浏览 1
提问于2017-08-02
得票数 7
1
回答
在
回归
神经网络的Keras中
使用
SGD
优化
器
的NAN值
、
、
、
、
朋友, 我试着
训练
一个神经网络来进行
回归
。当
使用
Keras的SGD
优化
器
类
时
,
在
第一步之后,我突然从我的网络中获得了NaN值作为预测。
在
我
使用
Adam
优化
器
类进行
训练
之前,一切都运行得很好。因为我的
训练
是
使用
Adam
优化
器
的,所以我不认为我的输入会导致NAN,我已经检查了我的
浏览 4
提问于2021-01-10
得票数 0
2
回答
默认的
Adam
优化
器
在
tf.keras中不起作用,但字符串`
adam
`可以
、
、
、
、
我一直
在
试用TensroFlow v2测试版,我也
在
试用tf.keras型号。model.compile(optimizer='
adam
', loss='categorical_crossentropy')但是,当我尝试
使用
默认
优化
器</
浏览 32
提问于2019-07-11
得票数 7
回答已采纳
1
回答
在
tensorflow中
使用
不同的
优化
器
来
训练
同一层
、
我
在
fer数据集
上
训练
了这个模型。这是一个输出数等于8的分类问题。因此,我
在
一开始就
使用
了一个
优化
器
来
训练
整个模型。然后,我创建了一个新的
优化
器
来微调完全连接的层,同时对最后一层进行培训。因此
浏览 0
提问于2018-10-24
得票数 2
回答已采纳
2
回答
重置
Adam
优化
器
可减少验证损失。
、
、
、
我正在LibriSpeech
上
训练
一个递归神经网络。
在
每次
训练
中,我都尝试过不同的学习速度、批次大小等不同的变化,有一件事是相似的,那就是验证损失
在
7周期后就会饱和。我想这可能是因为太合适了。但是,我注意到了一种奇怪的行为,
在
重置
Adam
优化
器
之后,即它的槽变量m和v,经过7次
训练
后,验证损失减少到比前一个更低的最小值,然后在其余的
训练
中开始围绕这个值振荡。我推测,由于较长的
训练
周
浏览 5
提问于2020-09-22
得票数 0
1
回答
多元logistic
回归
与N1与全二元的差异
、
与单一的多元logistic
回归
训练
相比,
在
1对所有时尚中建立N个
逻辑
回归
集有根本的区别吗?换句话说,是否有任何
优化
技术以与N个独立
回归
明显不同的方式处理1到N类
逻辑
回归
问题?从直觉
上
看,答案应该是肯定的,因为如果两个类是相似的,那么
在
不同的问题之间应该有大量的信息共享。但是,由于我对1到N的求解
器
的实际工作方式并不十分熟悉,所以我无法判断我是否正确,或者这些问题是以基本相同的方式
浏览 0
提问于2015-11-11
得票数 4
1
回答
当
使用
FP32而不是FP16
时
,Keras中的
Adam
优化
器
可以工作,为什么?
、
我注意到,当
使用
FP16,mse作为损失函数,
adam
作为
优化
器
在
Keras中
训练
序列模型
时
,损失无法计算,我得到了nan值。
在
使用
FP32或
使用
FP16更改
优化
器
时
没有问题(我尝试过adamax和sgd)。是我遗漏了什么,还是
adam
的实现有什么问题? 代码片段可在here中找到
浏览 10
提问于2018-12-25
得票数 1
回答已采纳
1
回答
如何在Tensorflow中正确地设置Adadelta算法的参数?
、
、
我一直
在
使用
Tensorflow进行
回归
。我的神经网络很小,有10个输入神经元,12个单层隐神经元和5个输出神经元。 然而,当我尝试
使用
阿德罗塔
时
,神经网络根本就不会
训练
。变量
在
每一步都保持不变。
浏览 1
提问于2016-07-28
得票数 9
2
回答
变压
器
解码
器
是一个自
回归
模型吗?
、
我一直
在
试图找出这些问题的答案,但我只找到了相互矛盾的信息。变压
器
作为一个整体是否自
回归
?解码
器
呢?我知道
在
推理过程中译码
器
进行了自
回归
,但我不确定在
训练
期间。这里有一些帖子说变压
器
不是自
回归
的:
在
测试阶段,变压
器
解码<e
浏览 0
提问于2021-11-15
得票数 8
3
回答
在
python中SGD分类
器
和SGD
回归
器
有什么不同?
、
、
在
python sklearn中,SGD分类
器
和SGD
回归
器
有什么不同?另外,我们可以设置批处理大小以提高性能吗?
浏览 3
提问于2019-02-15
得票数 1
1
回答
python/sklearn中的不等错误分类代价
、
、
我想知道是否有一种方法可以
在
sklearn/python中指定自定义成本函数?传递class_weight ={1:2,1:1:2}只会增加对第1类和第3类错误分类的权重,但是,我希望我的模型
在
选择1类
时
得到更大的惩罚,而真正的类是3类,反之亦然。
在
滑雪板
上
能做这样的事情吗?
浏览 4
提问于2016-06-03
得票数 8
1
回答
损失随批处理归一化(tf.Keras)增加
、
、
、
我有一个带有2个隐藏层的FF神经网络,用于解决
回归
问题。与不添加BN
时
相比,
在
相同的时期数上
训练
时
,损失(MSE)约为两倍,执行时间也增加了约20%。为什么会这样呢?如果我不得不猜测-- BN
在
2层网络
上
是不值得的,并且BN引入的额外开销实际
上
比它导致的处理时间的减少更高。model.add(Dense(1, 'linear')) mode
浏览 2
提问于2018-06-27
得票数 1
1
回答
GPflow中的
Adam
优化
器
正在处理哪种类型的参数,受约束的还是不受约束的?
、
、
在
和等GPflow的文献中,
在
使用
随机变分推理技术
训练
GP模型的参数(长度、方差、诱导输入等)
时
,
使用
了TensorFlow中的
Adam
优化
器
,而对于变分参数,则
使用
了自然梯度
优化
器
。代码段如下所示 """ Utility function runnin
浏览 18
提问于2020-05-25
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半
浅谈神经网络优化方式
从原理到应用:简述Logistic回归算法
训练速度最高100倍提升!基于PyTorch实现的可微逻辑门网络开源
自己动手写深度学习模型之全连接神经网络
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券