在梯度检查中，我们是否将epsilon (一个很小的值)加/减到theta和常量参数b？

在梯度下降中，我们更新了每个参数\theta_i，使函数f(\theta_1,\theta_2,\dots,\theta_N)通过执行\theta_1 \leftarrow \theta_1 - \alpha如果我们有N参数，那么它将涉及到N评估。如果可能的话，很明显，我们想使用梯度的分析形式。编辑:实际示例

浏览 0提问于2018-10-13得票数 4

1回答

我们了解神经网络背后的数学吗？

、、、、

所以我在某个地方读到，作为人类，我们不知道神经网络到底发生了什么，我们只知道一个神经元会利用它的偏见和输入来做一些事情，并引导我们到一个特定的输出。我在这里的问题是，我们理解(从数学上讲)X输入是如何引导计算机输入Y的吗？如果我们不知道，那我们为什么不明白呢？

浏览 2提问于2022-09-19得票数 -2

2回答

RMSProp和动量的区别？

、、、

有谁能告诉我，RMSProp方法和带有动量的梯度下降方法有什么明显的区别吗？两人都试图达到同样的效果。我读过的博客中有一篇指出了不同之处："RMSProp和动量采用对比的方法。虽然动量加速了我们的搜索方向，但RMSProp阻碍了我们在振荡方向上的搜索。“ 我不明白这句话。有人能详细说明两者之间的区别吗？

浏览 0提问于2020-06-21得票数 6

5回答

线性回归中的梯度下降

、、、

我的假设是theta0 + theta1 * xi。我正在尝试计算theta0和theta1的值，以便使成本函数最小。我正在使用梯度下降来找出值-while(repeat until convergence) calculate theta0 and theta1 simultaneously.在收敛之前我知道这是局部最小<

浏览 7提问于2014-01-11得票数 2

1回答

神经网络给出错误的预测，即使一切似乎都在工作

、、、

我正试着写我的第一个神经网络，但我在这个问题上已经坚持了一个多星期了。我正在学习Andrew的机器学习课程，并在python中实现了以下功能。此外，我还手动启动了这两个输出，足以让我相信backwardPropogate()是正确实现的。我也做了数值梯度检查，这也是很好的匹配。我不明白为什么代码仍然给了我坏的值。即使在训练集上，成功率也接近10%。这是我的<em

浏览 1提问于2017-05-09得票数 1

回答已采纳

2回答

为什么在SGD中取平均误差的梯度不正确，而只取单个误差梯度的平均值？

、、、

对于成本函数和SGD的平均值，我有点困惑。到目前为止，我一直认为，在SGD中，您需要计算批处理的平均错误，然后将其反向传播。但后来我在这个问题上的评论中被告知，这是错误的。您需要分别反向传播批处理中每个项的错误，然后平均通过反向传播计算的梯度，然后用缩放的平均梯度更新参数。好吧，但为什么这不是一回事？某些点的平均梯度<

浏览 0提问于2019-07-25得票数 8

1回答

Adagrad隐式变量

、、、

name='labels_placeholder') b= tf.get_variable('b', [VECTOR_SIZE], initializer=tf.constant_initializer(0.0)) predict = tf.add(tf.matmul(W, x), b, name=&#x

浏览 3提问于2017-10-10得票数 1

1回答

从4D空间提取可分性二维曲面的法线

、、

如果使用四维噪声函数返回噪声值和四部分解析导出的梯度向量，则通过将x,y和z,w坐标重新映射到独立的圆，可以创建无缝(即相反的边缘匹配)的2D块。\ \theta = a*2*\pi 其中a和b是表面上的一个点。它们应该在[0, size)的范围内，其中的</e

浏览 0提问于2019-01-30得票数 2

回答已采纳

3回答

我的随机梯度下降的实现正确吗？

、、、

我试图发展随机梯度下降，但我不知道它是否是100%正确的。我的随机梯度下降算法所产生的代价有时与F对联C算法或批处理梯度下降算法产生的代价相差甚远。当我设置学习速率α为0.2时，批梯度下降成本会收敛，但为了不发散，我不得不为随机实现设置一个学习速率α为0.0001。这是正常的吗？以下是我在10,000个元素和num_iter = 100或500的</

浏览 1提问于2014-01-25得票数 9

回答已采纳

7回答

EPS在C中是什么意思？

、

我有以下代码片段：我正在尝试将其转换为C#。"EPS“是什么意思？

浏览 5提问于2009-03-09得票数 9

回答已采纳

1回答

参数化策略的这个值函数意味着什么？它与RL中的TRPO有关吗？

、

Iv一直在观看斯坦福大学youtube上的RL讲座。在第9集-政策梯度2中，老师艾玛·布鲁斯基尔说，我们将学习如何通过调整(尚不确定如何)调整我们计算的策略梯度估计来制定更安全的策略梯度步骤。老师说，\theta参数化的策略的值函数的方程式如下。然后老师说我们</em

浏览 0提问于2022-07-13得票数 0

回答已采纳

1回答

用python实现线性支持向量机的软边界

、、

如果我正确理解，设置一个更大的C将迫使支持向量机有更大的裕度。，只有4个线性可分离的训练样本，我去掉了偏倚项b，结果w预期是，而我的实现会给出大于0.5的值(例如，1.4650，1.4650)，无论是使用梯度下降还是scipy.optimize。这一次，我加入了偏见术语，并使用以下方法来更新它：在得到反馈后，我尝试了scipy.optimize的Nelder，并尝试了两

浏览 0提问于2018-02-15得票数 12

2回答

对正则化数据使用SciPy fmin_bfgs()警告

、、

我正在使用下一个cost()和gradient()正则化函数： theta = theta.reshape(1, len(theta))+ regularizationStarting loss value: 0.69314718056如果我<e

浏览 0提问于2018-05-02得票数 1

回答已采纳

4回答

gtest (C++)和nunit (C#)双比较的差异

、、、、

我已经将带有gtest测试的c++项目移植到具有nunit测试的c#项目上。现在我遇到了浮点精度的问题。在最夸张的测试中我有：好的(绿色) 现在的问题是为什么是？

浏览 6提问于2010-08-25得票数 6

回答已采纳

2回答

SGD背后的核心理念

、、、

Hinton在他的通俗课程中提到了以下事实：当我们有非常大的数据集并且需要执行小型批处理权重更新时，Rprop实际上不起作用。为什么它不适用于小型批次？嗯，人们试过了，但发现很难让它发挥作用。它不起作用的原因是它违背了随机梯度下降背后的中心思想，即当我们有足够小的学习率时，它会在连续的小批上平均梯度。考虑权重，它得到了梯度0.1在九个迷你批次，梯度为-0.9<e

浏览 0提问于2020-09-29得票数 3

1回答

我正在尝试使用minFunc训练一个单层的自动编码器，虽然成本函数似乎减少了，但当启用时，DerivativeCheck就失败了。我使用的代码尽可能接近教科书中的值，尽管非常简化。虽然这会导致较差的性能，但它不应该影响梯度检查，因为我只看权重矩阵。此外，我已经绑定了编码器和解码器矩阵，因此实际上只有一个权重矩阵。用于丢失函数的代码是(编辑：，我已经将循环向量化，并稍微清理了一些代码)： % loss

浏览 5提问于2011-07-06得票数 3

1回答

MATLAB开始对函数处理有困难

、

我正在为学校做一个项目，基本上包括迭代求解一个三次方程。我用的是MATLAB，但是我从来没有用MATLAB做过很多事情，所以我在逻辑上遇到了一些问题。C = @(beta) -(sigma*epsilon*(1+beta) + q)*(beta^2); R = @(A,B,C) (2*(AI_vapor; objfun = (ln_phi_liquid - ln_phi_vapo

浏览 1提问于2016-03-13得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云