x**2函数的随机梯度下降与梯度下降_gensim Word2Vec -如何应用随机梯度下降？_需要帮助生成和梯度下降函数的成本 - 腾讯云开发者社区

python、machine-learning、gradient-descent、sgd

我想通过一个最简单的函数示例：y=x**2来理解SGD和GD之间的区别。if np.all(np.abs(diff) <= tolerance): vector += diff return vector 为了找到x**2函数的最小值，我们接下来应该做(答案几乎是0，这是正确的)： gradient_descent(gradient=lambda v:

浏览 32提问于2021-11-04得票数 0

2回答

是否总是保证损失函数的收敛性？

loss-function、optimization

给定最佳学习率，下列哪一项是正确的？世系不是。(3)对于凸损失函数(即碗形)，随机梯度下降和分批梯度</

浏览 0提问于2020-08-13得票数 4

回答已采纳

2回答

GD、批GD、SGD和小型批处理SGD有什么不同？

machine-learning、neural-network、gradient-descent

这四种梯度下降函数之间有何不同？批GD小批量SGD

浏览 0提问于2019-06-15得票数 3

回答已采纳

2回答

DNN训练中的无耗氧优化与梯度下降

neural-network、mathematical-optimization、deep-learning、gradient-descent、hessian-matrix

对于深度神经网络(DNN)的训练，Hessian-Free (HF)优化技术与梯度下降(例如随机梯度下降(SGD)、间歇梯度下降(SGD)、自适应梯度下降)比较如何？在什么情况下，人们应该更喜欢高频技术，而不是梯度下降技术？

浏览 3提问于2015-07-22得票数 2

回答已采纳

1回答

支持向量机与GD/SGD？

classification、svm、gradient-descent、text-classification

我的同事提到，一个数据科学项目正在使用SGD分类器。因此，我开始阅读有关GD/SGD的文章，并遇到了一个不错的文章，它使用支持向量机和GD进行文本分类。现在我们有了一个数值表示，我们可以给出程序的训练数据，并使它的猜测每次。根据程序的错误程度，程序根据错误进行调整，以便在下一次使用梯度下降进行更好的预测。它使用支持向量机( SVMs )跟踪学习，并通过在图中“绘制”新的数据点并查看它是在右边还是在决策边界

浏览 0提问于2020-02-06得票数 1

1回答

随机梯度下降基本上是普通的梯度下降？

neural-network

我做了一些reach和计算，如果我理解正确，随机梯度下降- "Adam optimiser“基本上是普通的梯度下降，一个具体的，它选择一个随机数据与训练数据集的比例较小，以避免NN陷入gap，这可能不一定反映下降函数中的最小值

浏览 4提问于2017-07-21得票数 1

1回答

梯度下降与随机梯度下降与小批量梯度下降相对于工作步骤/实例

gradient-descent、mini-batch-gradient-descent、sgd

我试图了解梯度下降，随机梯度下降和小批梯度下降的工作. 在梯度下降的情况下，在每一步计算整个数据集的梯度。所以我想这就像多个任务，在每个任务中，从数据集中查看一个项。最终选择最佳任务的结果。当随机梯度下降时，在每一步得到一个新的随机样本。因此，与</

浏览 0提问于2022-07-29得票数 0

1回答

替代LBFGS，在稀疏自动编码器中使用梯度下降

machine-learning、mathematical-optimization、deep-learning、gradient-descent、autoencoder

在Andrew Ng的课堂讲稿中，他们使用了LBFGS并获得了一些隐藏的功能。我可以使用梯度下降代替，并产生相同的隐藏特征吗？其他参数都是一样的，只需改变优化算法即可。因为当我使用LBFGS时，我的自动编码器可以产生与讲座笔记中相同的隐藏特征，但当我使用梯度下降时，隐藏层中的特征消失了，看起来完全是随机的。具体地说，为了优化成本函数</e

浏览 0提问于2016-05-16得票数 0

1回答

VowpalWabbit:差异和可伸缩性

performance、machine-learning、scalability、vowpalwabbit、online-algorithm

我试图确定，随着输入集大小的增加，VowpalWabbit的“状态”是如何保持的。在一个典型的机器学习环境中，如果我有1000个输入向量，我希望立即发送所有输入向量，等待模型构建阶段的完成，然后使用模型来创建新的预测。在大众汽车中，该算法的“在线”特性似乎改变了这一范式，使其具有更高的性能和实时调整的能力。这种实时模型修改是如何实现的？大众是否会随着时间的推移而占用越来越多的

浏览 0提问于2012-01-30得票数 9

回答已采纳

2回答

反向传播和梯度下降是否使用相同的逻辑？

neural-network、conv-neural-network、gradient-descent、backpropagation

在CNN中使用反向传播来更新随机分配的权重、偏差和滤波器。对于值的上升，我们从端到尾用链规则求出梯度，并使用该公式，梯度下降是一个优化器，用于优化损失函数。这里还计算了梯度，公式是如果我在上面给出的解释是错误的，

浏览 5提问于2021-02-15得票数 2

1回答

tensorflow Optimizer.minimize函数

tensorflow、minimize

我对最小化函数感到困惑。例如：形状为mini_batch_size的距离变量X，那么最小化(Loss_1)是最小批处理梯度下降，但是最小化(Loss_2)如何？如果是这样的话，它和随机梯度下降完全一样吗？

浏览 3提问于2017-08-27得票数 1

1回答

如何在scikit中绘制成本与迭代次数？

machine-learning、neural-network、deep-learning、scikit-learn、gradient-descent

当使用基于梯度下降的算法时，课程机器学习课程中的建议之一是：调试梯度下降。用x轴上的迭代次数绘制一幅图.现在绘制成本函数，J(θ)在梯度下降的迭代次数上。如果J(θ)增加，那么您可能需要减少α。学习中基于梯度下降的模型是否提供了一种检索成本与迭代次数的机制？

浏览 0提问于2018-02-28得票数 8

回答已采纳

2回答

梯度下降与随机梯度下降算法

machine-learning、computer-vision、neural-network、gradient-descent

我每次都在上迭代所有的训练样本()，在每个时期对每个这样的样本执行。运行时当然太长了。我读到，对于大型数据集，使用随机梯度下降可以显着地改善运行时。为了使用随机梯度下降，我应该做什么？我是否应该随机选择训练样本，对每个随机抽取的样本执行Backpropagation，而不是我目前使用的</em

浏览 6提问于2016-02-29得票数 6

回答已采纳

3回答

我的随机梯度下降的实现正确吗？

matlab、machine-learning、logistic-regression、gradient-descent

我试图发展随机梯度下降，但我不知道它是否是100%正确的。我的随机梯度下降算法所产生的代价有时与F对联C算法或批处理梯度下降算法产生的代价相差甚远。当我设置学习速率α为0.2时，批梯度下降成本会收敛，但为了不发散，我不得不为随机实现设置一个学习速率α为0.0001。这是正常的吗？Firs

浏览 1提问于2014-01-25得票数 9

回答已采纳

6回答

梯度下降和随机梯度下降有什么区别？

machine-learning、neural-network、deep-learning、gradient-descent

梯度下降和随机梯度下降有什么区别？我对这些不太熟悉，你能用一个简短的例子来描述这种差异吗？

浏览 0提问于2018-08-04得票数 75

1回答

针对ML初学者的MNIST教程错误

tensorflow

我认为这部分不准确：我可能错了，但这不应该改变吗？

浏览 4提问于2016-08-15得票数 0

3回答

随机梯度下降增加成本函数

machine-learning、neural-network、gradient-descent

在神经网络中，梯度下降会查看整个训练集以计算梯度。成本函数随着迭代的进行而减小。如果代价函数增加，通常是因为错误或不适当的学习率。相反，随机梯度下降计算每个单个训练示例的梯度。我想知道成本函数是否有可能从一个样本增加到另一个样本，即使实现是正确的并且参数调整得很好。我有一种感觉，代价函数的异常增量是可以<em

浏览 2提问于2018-05-16得票数 0

1回答

SGDClassifier fit()与partial_fit()

machine-learning、scikit-learn、logistic-regression、sklearn-pandas

我对fit()和partial_fit()的SGDClassifier方法感到困惑。文件中都说，“用随机梯度下降来拟合线性模型。”关于随机梯度下降，我所知道的是，在一次迭代中更新模型的参数需要一个训练示例(或整个训练的一部分)。梯度下降在每次迭代中使用整个数据集。我想用logistic回归来训练一个模型。我要实现法向梯度下降和随机</em

浏览 2提问于2016-11-18得票数 0

回答已采纳

1回答

随机渐变下降推荐随机输入的原因

machine-learning、neural-network、conv-neural-network

1)对于分批梯度下降，在训练的所有实例结束时更新目标函数的系数。例如:如果我有100张图像要接受训练，在第100幅图像被训练后，成本会被评估，并且更新是有效的。2)对于随机梯度下降，对于相同的100幅图像，每一幅图像都经过训练，其效率得到更新。对于随机梯度下降，认为输入图像需要随机化，以避免被卡住。我无法想象这个问题。

浏览 3提问于2017-07-18得票数 0

1回答

的批次大小。或者:如何诊断神经网络的偏差/方差？

scikit-learn、neural-network、mlp

我目前正在使用ScikitLearn中的两个类处理一个分类问题，其中有求解器adam和激活relu。为了探索我的分类器是否存在高偏差或高方差，我用Scikitlearns内置函数绘制了学习曲线：应该是这样的吗？我认为学习曲线是根据独立于任何批次/时代的训练数据来处理准确性分数的吗？对于批处理方法，我真的可以使用这个

浏览 1提问于2019-03-26得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云