关于基于梯度下降的神经网络优化_关于梯度下降中导数项的问题_关于纪元问题的梯度下降代价图 - 腾讯云开发者社区

、、、、

利用贝叶斯优化(GP)方法寻找良好的超参数的前提之一是未知函数是光滑的。这个假设对神经网络有效吗?或者至少对大多数神经网络是有效的？我们能找到什么推荐信吗？

浏览 0提问于2020-03-31得票数 0

1回答

关于基于梯度下降的神经网络优化

、、、、

对于神经网络，是否可以确定梯度下降优化算法的最佳起点？例如，在下面的链接中查看包含局部和全局最小值的示例损失曲面，很明显(1)某些起点比其他起点更好，因为到达全局最优的速度会比其他起点更快，(2)一些起点将导致下降到局部最优，而不是全局最优，以及(3)一些起点可能永远不会收敛https://www.researchgate.net/profile/Klaus 提前感谢您的贡献:)

浏览 26提问于2019-07-03得票数 0

2回答

DNN训练中的无耗氧优化与梯度下降

、、、、

对于深度神经网络(DNN)的训练，Hessian-Free (HF)优化技术与梯度下降(例如随机梯度下降(SGD)、间歇梯度下降(SGD)、自适应梯度下降)比较如何？在什么情况下，人们应该更喜欢高频技术，而不是梯度下降技术？

浏览 3提问于2015-07-22得票数 2

回答已采纳

1回答

神经网络优化阶次

、、、

我有一个关于优化谈判的非常基本的问题，当我调整神经网络中的权重和偏差时，我应该：前向传播和反向传播，计算梯度下降(DC)一批的iterations_number次数，然后继续下一批。

浏览 0提问于2021-01-16得票数 0

回答已采纳

4回答

梯度下降是每个优化器的核心吗？

、、、、

我想知道梯度下降是否是Adam、Adagrad、RMSProp和其他几个优化器中使用的主要算法。

浏览 0提问于2019-03-12得票数 13

回答已采纳

1回答

ADAM优化算法的解释

、

我是机器学习的初学者，我正在寻找一些梯度下降的优化器。我已经搜索了很多关于这方面的主题，并对所有这些优化器进行了最新的研究。我只有一个问题，我想不出来。请不要评判我，但我想知道？我们是单独使用ADAM优化器，还是必须将其与SGD相结合？我不明白它是单独工作，还是这里优化的不是神经网络，而是神经网络的SGD？谢谢你的帮助!

浏览 0提问于2018-08-08得票数 3

1回答

为什么优化器被使用在不是神经网络的东西上？

、、

为什么优化器被使用在不是神经网络的东西上？在样式编码器(在潜在空间中查找图像)中，隐空间被更新，而不是神经网络的权值。为什么它在这些情况下有效，因为更新的不是神经网络的权重？

浏览 0提问于2020-11-20得票数 1

1回答

梯度下降算法中激活函数的导数

、、、、

为什么在更新模型(回归或神经网络)参数时需要计算激活函数的导数？为什么线性函数的恒定梯度被认为是一个缺点？据我所知，当我们使用公式进行随机梯度下降时：那么，权重也会被很好地更新，那么为什么导数的计算被认为是如此重要呢？

浏览 0提问于2019-07-13得票数 1

1回答

确定梯度下降的起点

、

我刚刚了解到梯度下降的起点决定了终点。所以我想知道我们如何确定正确的起点来达到全局最小点，以便我们得到最小代价函数？

浏览 0提问于2020-12-26得票数 1

2回答

在神经网络中，为什么要使用梯度方法而不是其他的元启发式方法？

、、、、

在训练深度和浅层神经网络时，为什么常用梯度下降法(如梯度下降法、Nesterov法、牛顿-拉夫森法)，而不是其他元启发式方法？元启发式是指为避免陷入局部极小而发展起来的模拟退火、蚁群优化等方法。

浏览 0提问于2016-04-15得票数 3

2回答

用Python最小化函数式

、、、

该对象接受在某个域\Omega上定义的函数，并给出一个数字。这方面的数学术语是有用的。现在，对于f，我需要最小化这件事。我知道SciPy有一个优化包，它允许将多变量函数最小化，但是我很好奇是否有更好的方法来考虑如果我使用它，我会最小化超过10,000个变量(因为函数本质上只是10,000个数字的列表)。

浏览 0提问于2017-03-07得票数 4

2回答

神经网络优化

、、、

神经网络是通过尝试和错误、数据科学家来优化，还是通过精确的数学方程来优化值？

浏览 0提问于2021-03-05得票数 -1

2回答

寻找全局最小值

、、、

我有一个神经网络，正在努力寻找全局最小值。我想知道找到它的正确方法。我知道我需要更改超参数，但是因为您使用的是随机权重，所以我是否要多次尝试使用相同的超参数？在我放弃之前，我要尝试多少种不同的组合？任何实用的建议都将不胜感激。

浏览 0提问于2018-04-13得票数 1

2回答

GD、批GD、SGD和小型批处理SGD有什么不同？

、、

这四种梯度下降函数之间有何不同？批GD小批量SGD

浏览 0提问于2019-06-15得票数 3

回答已采纳

1回答

Python中错误的反向传播

、、

我试图理解错误的反向传播是如何工作的，所以我试图用上面显示的非常简单的神经网络来实现这一点。我发现的其他视频似乎也以不同的方式反向传播错误，所以这只会让我更困惑。

浏览 1提问于2016-11-22得票数 1

1回答

在Tensorflow中添加一个热编码抛出先前工作代码中的错误

、

tf.nn.xw_plus_b(output[i],output_projection[0],output_projection[1]) 如果我在这里介绍一个日志热编码，程序稍后会出现错误，尽管两者都返回相同的维度

浏览 2提问于2015-12-20得票数 3

4回答

SGD和反向传播有什么区别？

、、、、

你能告诉我随机梯度下降(SGD)和反向传播的区别吗？

浏览 2提问于2016-06-21得票数 49

回答已采纳

2回答

神经网络与线性回归梯度下降的反向传播

、、、、

我试图理解“反向传播”，因为它是使用梯度下降优化的神经网络。读一读文学作品，似乎做了几件事。上述步骤似乎是线性模型的精确求解过程(例如，回归)。安德鲁·吴的“机器学习课程”与线性回归课程完全一样。所以，我想弄清楚BackPropagation对损失函

浏览 11提问于2016-06-28得票数 4

回答已采纳

4回答

Tensorflow:通过梯度下降优化输入

我有一个TensorFlow模型(一个卷积神经网络)，我使用梯度下降(GD)成功地训练了一些输入数据。现在，在第二个步骤中，我想提供一个输入映像作为初始化，然后使用GD对这个具有固定网络参数的输入映像进行优化。损失函数将是不同的，但这是一个细节。所以，我的主要问题是如何告诉梯度下降算法你们对第二点有什么想法吗？我想我自己可以用T

浏览 6提问于2016-09-13得票数 8

1回答