pytorch sgd - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

tensorflow中具有重量衰减参数的SGD

、、、

在Keras和Pytorch中，SGD优化器具有权重衰减参数，我发现tf.train.GradientDescentOptimizer没有重量衰减参数。什么是tensorflow等效的SGD与重量衰减？Keras优化器-

浏览 4提问于2019-03-07得票数 1

2回答

pytorch的交叉损失与keras的"categorical_crossentropy“有区别吗？

、、、

我正在尝试在keras中模仿pytorch神经网络。我确信我的keras版本的神经网络与pytorch中的非常接近，但在训练过程中，我看到pytorch网络的损失值比keras网络的损失值要低得多。Pytorch损失定义： loss_function = nn.CrossEntropyLoss() optimizer = optim.SGD(net.parameters(), lr=args.lr, momentum=0.9, weight_decay=5e-4) Keras损失定义： sgd</

浏览 555提问于2020-04-26得票数 3

回答已采纳

1回答

Pytorch:当优化器不得不调用zero_grad()来帮助累积梯度时，动量SGD是如何工作的？

、、、

在pytorch中，backward()函数累积渐变，我们必须通过调用optimizer.zero_grad()在每个小批量中重置它。在这种情况下，当实际动量SGD使用过去一些小批次的指数平均值更新权重时，动量SGD如何工作。作为Pytorch的初学者，我很困惑。不需要使用过去的渐变来执行更新吗？

浏览 0提问于2018-12-31得票数 1

1回答

模型与SGD学习，而不是Adam

、、、、

我正在浏览一个基本的PyTorch MNIST示例，并注意到当我将优化器从SGD更改为Adam时，模型没有收敛。具体来说，我把第106行从至 optimizer随着SGD的下跌，损失迅速下降到低值后，大约四分之一的时代。然而，对于亚当来说，即使在经历了10个时代之后，损失也没有减少。我很好奇为什么会发生这种情况；在我看来，这些应该具有几乎相同的性能。我在ran 10&

浏览 0提问于2019-04-20得票数 2

2回答

如何计算简单线性回归模型的梯度？

、、、、

我正在使用pytorch，并试图了解一个简单的线性回归模型是如何工作的。criterion = nn.MSELoss() 最后，为了训练模型，我使用了以下代码

浏览 3提问于2017-09-18得票数 5

回答已采纳

1回答

如何编写一个快速的PyTorch训练循环？

、、、、

在将机器学习算法从Keras移植到PyTorch之后，我遇到了性能上的糟糕回归。以下是Keras中的构造：..比Pytorch中的以下详细版本快约15倍：

浏览 13提问于2021-05-27得票数 0

回答已采纳

1回答

自调整优化器在PyTorch中的应用

、、、

在PyTorch中，权重调整策略由优化器确定，学习速率由调度程序调整。当优化器是SGD时，只有一个学习速率，这很简单。我应该把它参数化得与使用SGD非常不同吗？

浏览 2提问于2020-02-14得票数 4

回答已采纳

1回答

PyTroch，渐变计算

、

嗨，我正在尝试用pytorch来理解神经网络。我对梯度计算有疑问..将torch.optim作为选项导入optimizer = optim.SGD(net.parameters(), lr=0.01)optimizer.zero_grad

浏览 10提问于2019-07-05得票数 0

1回答

pytorch SGD的默认批量大小是多少？

、、、、

如果我输入整个数据而没有指定批量大小，pytorch SGD会做什么？我在案例中看不到任何“随机性”或“随机性”。例如，在下面的简单代码中，我将整个数据(x,y)输入到一个模型中。optimizer = torch.optim.SGD(model.parameters(), lr=0.1) y_pred = model(x_data首先，我认为SGD意味着随机选择一个数据点并计算其梯度，该梯度将用作所有数据的真实梯度的近似值。

浏览 23提问于2020-02-05得票数 6

1回答

为什么在相同的网络配置下，Keras的行为比Py手电强呢？

、、

但是，随着Keras损耗的不断降低，在10个周期后精度较高，而在Pytorch的作用下，损耗下降不均匀，在10个周期后精度较低。有人遇到过这样的问题，有什么答案吗？

浏览 7提问于2019-12-15得票数 1

1回答

PyTorch中的SGD优化器实际上是梯度下降算法吗？

、、

我正在尝试比较神经网络中SGD算法和GD算法的收敛速度。在PyTorch中，我们经常使用SGD优化器，如下所示。train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=64, shuffle=True) 我

浏览 3提问于2022-06-04得票数 3

回答已采纳

1回答

为什么PyTorch中的嵌入是作为稀疏层实现的？

、、

层在PyTorch中列在“稀疏层”下，但有以下限制：原因是什么

浏览 0提问于2017-12-18得票数 5

回答已采纳

3回答

SGD优化器自定义参数

、、

我正在练习使用Pytorch，并尝试实现一个简单的线性模型。import torch.nn as nncriterion = torch.nn.MSELoss() 我在想我的问题可能在 <

浏览 7提问于2022-08-31得票数 0

回答已采纳

1回答

torch.Tensor.add_是怎么回事？

我正在研究PyTorch：的SGD实现例如，看看p.data.add_(-group['lr'], d_p)。有道理认为这两个参数是相乘的，对吧？(这就是SGD的工作方式，-lr * grads)#this returns an error about

浏览 1提问于2019-11-19得票数 5

回答已采纳

1回答

将预训练模型从3rgb通道更改为4通道后，PyTorch："ValueError:无法优化非叶张量“

、、、

我一直在尝试将预训练的RGB的第一个卷积层从3个通道更改为4个通道，同时保持其原始PyTorch通道的预训练权重。new_first_layer.weight[:,:3] = weight1 optimizer = torch.optim.SGD, 0.001, ---> 13 weight_decay=0.1) # Changing this optimizer from SGDt

浏览 188提问于2021-01-20得票数 1

回答已采纳

1回答

RNN的损失丝毫没有减少

、、、、

我已经尝试将权重初始化参数、学习率和批处理大小以及激活函数更改为ReLu仍然没有减少损失这是代码：import torchvision.datasets as dsetsfrom torch.autograd import Variable input_size = 28output_size = 10num_epochs =

浏览 6提问于2018-02-26得票数 1

1回答

我是否需要在PyTorch中建立多个神经网络实例来测试多个损失函数？

、、、、

我已经用PyTorch编写了一个神经网络，我想比较一下在这个网络上两个不同的损失函数的结果。network_w_loss_2 = ANN().cuda() crit_loss_2 = loss_2() opt_loss_2 = optim.SGD('params') for i, dat in enumeraten

浏览 1提问于2018-05-26得票数 1

回答已采纳

1回答

使用ModuleList，仍然得到ValueError:优化器获得了一个空参数列表

、、、、

使用Pytorch，我尝试使用ModuleList来确保检测到模型参数，并且可以进行优化。当调用SGD优化器时，我得到以下错误： return y_p optimizer = torch.optim.SGD

浏览 2提问于2021-01-29得票数 1

回答已采纳

1回答

滑雪的LogisticRegression和SGDClassifier的区别？

、、、、

我知道SGD是一种优化方法，而Logistic回归(LR)是一种机器学习算法/模型。我也知道SGDClassifier是一个线性分类器，它是由SGD优化的(根据这个答案：根据这个答案，但是下面这两个模型有什么不同呢？)

浏览 0提问于2022-11-24得票数 0

回答已采纳

1回答

AttributeError:模块“torch.optim”没有属性“RMSProp”

、、

在尝试将RMSProp优化器与PyTorch一起使用时，将获得以下错误：有谁有主意吗？

浏览 3提问于2020-06-19得票数 0

回答已采纳

点击加载更多

tensorflow中具有重量衰减参数的SGD

pytorch的交叉损失与keras的"categorical_crossentropy“有区别吗？

Pytorch:当优化器不得不调用zero_grad()来帮助累积梯度时，动量SGD是如何工作的？

模型与SGD学习，而不是Adam

如何计算简单线性回归模型的梯度？

如何编写一个快速的PyTorch训练循环？

自调整优化器在PyTorch中的应用

PyTroch，渐变计算

pytorch SGD的默认批量大小是多少？

为什么在相同的网络配置下，Keras的行为比Py手电强呢？

PyTorch中的SGD优化器实际上是梯度下降算法吗？

为什么PyTorch中的嵌入是作为稀疏层实现的？

SGD优化器自定义参数

torch.Tensor.add_是怎么回事？

将预训练模型从3rgb通道更改为4通道后，PyTorch："ValueError:无法优化非叶张量“

RNN的损失丝毫没有减少

我是否需要在PyTorch中建立多个神经网络实例来测试多个损失函数？

使用ModuleList，仍然得到ValueError:优化器获得了一个空参数列表

滑雪的LogisticRegression和SGDClassifier的区别？

AttributeError:模块“torch.optim”没有属性“RMSProp”

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐