腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
x
**
2
函数
的
随机
梯度
下降
与
梯度
下降
python
、
machine-learning
、
gradient-descent
、
sgd
我想通过一个最简单
的
函数
示例:y=
x
**
2
来理解SGD和GD之间
的
区别。if np.all(np.abs(diff) <= tolerance): vector += diff return vector 为了找到
x
**
2
函数
的
最小值,我们接下来应该做(答案几乎是0,这是正确
的
): gradient_descent(gradient=lambda v:
浏览 32
提问于2021-11-04
得票数 0
2
回答
是否总是保证损失
函数
的
收敛性?
loss-function
、
optimization
给定最佳学习率,下列哪一项是正确
的
?世系不是。(3)对于凸损失
函数
(即碗形),
随机
梯度
下降
和分批
梯度</
浏览 0
提问于2020-08-13
得票数 4
回答已采纳
2
回答
GD、批GD、SGD和小型批处理SGD有什么不同?
machine-learning
、
neural-network
、
gradient-descent
这四种
梯度
下降
函数
之间有何不同?批GD小批量SGD
浏览 0
提问于2019-06-15
得票数 3
回答已采纳
2
回答
DNN训练中
的
无耗氧优化
与
梯度
下降
neural-network
、
mathematical-optimization
、
deep-learning
、
gradient-descent
、
hessian-matrix
对于深度神经网络(DNN)
的
训练,Hessian-Free (HF)优化技术
与
梯度
下降
(例如
随机
梯度
下降
(SGD)、间歇
梯度
下降
(SGD)、自适应
梯度
下降
)比较如何?在什么情况下,人们应该更喜欢高频技术,而不是
梯度
下降
技术?
浏览 3
提问于2015-07-22
得票数 2
回答已采纳
1
回答
支持向量机
与
GD/SGD?
classification
、
svm
、
gradient-descent
、
text-classification
我
的
同事提到,一个数据科学项目正在使用SGD分类器。 因此,我开始阅读有关GD/SGD
的
文章,并遇到了一个不错
的
文章,它使用支持向量机和GD进行文本分类。现在我们有了一个数值表示,我们可以给出程序
的
训练数据,并使它
的
猜测每次。根据程序
的
错误程度,程序根据错误进行调整,以便在下一次使用
梯度
下降
进行更好
的
预测。它使用支持向量机( SVMs )跟踪学习,并通过在图中“绘制”新
的
数据点并查看它是在右边还是在决策边界
浏览 0
提问于2020-02-06
得票数 1
1
回答
随机
梯度
下降
基本上是普通
的
梯度
下降
?
neural-network
我做了一些reach和计算,如果我理解正确,
随机
梯度
下降
- "Adam optimiser“基本上是普通
的
梯度
下降
,一个具体
的
,它选择一个
随机
数据
与
训练数据集
的
比例较小,以避免NN陷入gap,这可能不一定反映
下降
函数
中
的
最小值
浏览 4
提问于2017-07-21
得票数 1
1
回答
梯度
下降
与
随机
梯度
下降
与
小批量
梯度
下降
相对于工作步骤/实例
gradient-descent
、
mini-batch-gradient-descent
、
sgd
我试图了解
梯度
下降
,
随机
梯度
下降
和小批
梯度
下降
的
工作. 在
梯度
下降
的
情况下,在每一步计算整个数据集
的
梯度
。所以我想这就像多个任务,在每个任务中,从数据集中查看一个项。最终选择最佳任务
的
结果。当
随机
梯度
下降
时,在每一步得到一个新
的
随机
样本。因此,
与</
浏览 0
提问于2022-07-29
得票数 0
1
回答
替代LBFGS,在稀疏自动编码器中使用
梯度
下降
machine-learning
、
mathematical-optimization
、
deep-learning
、
gradient-descent
、
autoencoder
在Andrew Ng
的
课堂讲稿中,他们使用了LBFGS并获得了一些隐藏
的
功能。我可以使用
梯度
下降
代替,并产生相同
的
隐藏特征吗?其他参数都是一样
的
,只需改变优化算法即可。因为当我使用LBFGS时,我
的
自动编码器可以产生
与
讲座笔记中相同
的
隐藏特征,但当我使用
梯度
下降
时,隐藏层中
的
特征消失了,看起来完全是
随机
的
。具体地说,为了优化成本
函数</e
浏览 0
提问于2016-05-16
得票数 0
1
回答
VowpalWabbit:差异和可伸缩性
performance
、
machine-learning
、
scalability
、
vowpalwabbit
、
online-algorithm
我试图确定,随着输入集大小
的
增加,VowpalWabbit
的
“状态”是如何保持
的
。在一个典型
的
机器学习环境中,如果我有1000个输入向量,我希望立即发送所有输入向量,等待模型构建阶段
的
完成,然后使用模型来创建新
的
预测。在大众汽车中,该算法
的
“在线”特性似乎改变了这一范式,使其具有更高
的
性能和实时调整
的
能力。 这种实时模型修改是如何实现
的
?大众是否会随着时间
的
推移而占用越来越多
的
浏览 0
提问于2012-01-30
得票数 9
回答已采纳
2
回答
反向传播和
梯度
下降
是否使用相同
的
逻辑?
neural-network
、
conv-neural-network
、
gradient-descent
、
backpropagation
在CNN中使用反向传播来更新
随机
分配
的
权重、偏差和滤波器。对于值
的
上升,我们从端到尾用链规则求出
梯度
,并使用该公式,
梯度
下降
是一个优化器,用于优化损失
函数
。这里还计算了
梯度
,公式是如果我在上面给出
的
解释是错误
的
,
浏览 5
提问于2021-02-15
得票数 2
1
回答
tensorflow Optimizer.minimize
函数
tensorflow
、
minimize
我对最小化
函数
感到困惑。例如:形状为mini_batch_size
的
距离变量
X
,那么最小化(Loss_1)是最小批处理
梯度
下降
,但是最小化(Loss_
2
)如何?如果是这样的话,它和
随机
梯度
下降
完全一样吗?
浏览 3
提问于2017-08-27
得票数 1
1
回答
如何在scikit中绘制成本
与
迭代次数?
machine-learning
、
neural-network
、
deep-learning
、
scikit-learn
、
gradient-descent
当使用基于
梯度
下降
的
算法时,课程机器学习课程中
的
建议之一是: 调试
梯度
下降
。用
x
轴上
的
迭代次数绘制一幅图.现在绘制成本
函数
,J(θ)在
梯度
下降
的
迭代次数上。如果J(θ)增加,那么您可能需要减少α。学习中基于
梯度
下降
的
模型是否提供了一种检索成本
与
迭代次数
的
机制?
浏览 0
提问于2018-02-28
得票数 8
回答已采纳
2
回答
梯度
下降
与
随机
梯度
下降
算法
machine-learning
、
computer-vision
、
neural-network
、
gradient-descent
我每次都在上迭代所有的训练样本(),在每个时期对每个这样
的
样本执行。运行时当然太长了。 我读到,对于大型数据集,使用
随机
梯度
下降
可以显着地改善运行时。为了使用
随机
梯度
下降
,我应该做什么?我是否应该
随机
选择训练样本,对每个
随机
抽取
的
样本执行Backpropagation,而不是我目前使用
的</em
浏览 6
提问于2016-02-29
得票数 6
回答已采纳
3
回答
我
的
随机
梯度
下降
的
实现正确吗?
matlab
、
machine-learning
、
logistic-regression
、
gradient-descent
我试图发展
随机
梯度
下降
,但我不知道它是否是100%正确
的
。 我
的
随机
梯度
下降
算法所产生
的
代价有时
与
F对联C算法或批处理
梯度
下降
算法产生
的
代价相差甚远。当我设置学习速率α为0.2时,批
梯度
下降
成本会收敛,但为了不发散,我不得不为
随机
实现设置一个学习速率α为0.0001。这是正常
的
吗?Firs
浏览 1
提问于2014-01-25
得票数 9
回答已采纳
6
回答
梯度
下降
和
随机
梯度
下降
有什么区别?
machine-learning
、
neural-network
、
deep-learning
、
gradient-descent
梯度
下降
和
随机
梯度
下降
有什么区别? 我对这些不太熟悉,你能用一个简短
的
例子来描述这种差异吗?
浏览 0
提问于2018-08-04
得票数 75
1
回答
针对ML初学者
的
MNIST教程错误
tensorflow
我认为这部分不准确: 我可能错了,但这不应该改变吗?
浏览 4
提问于2016-08-15
得票数 0
3
回答
随机
梯度
下降
增加成本
函数
machine-learning
、
neural-network
、
gradient-descent
在神经网络中,
梯度
下降
会查看整个训练集以计算
梯度
。成本
函数
随着迭代
的
进行而减小。如果代价
函数
增加,通常是因为错误或不适当
的
学习率。 相反,
随机
梯度
下降
计算每个单个训练示例
的
梯度
。我想知道成本
函数
是否有可能从一个样本增加到另一个样本,即使实现是正确
的
并且参数调整得很好。我有一种感觉,代价
函数
的
异常增量是可以<em
浏览 2
提问于2018-05-16
得票数 0
1
回答
SGDClassifier fit()
与
partial_fit()
machine-learning
、
scikit-learn
、
logistic-regression
、
sklearn-pandas
我对fit()和partial_fit()
的
SGDClassifier方法感到困惑。文件中都说,“用
随机
梯度
下降
来拟合线性模型。”关于
随机
梯度
下降
,我所知道
的
是,在一次迭代中更新模型
的
参数需要一个训练示例(或整个训练
的
一部分)。
梯度
下降
在每次迭代中使用整个数据集。我想用logistic回归来训练一个模型。我要实现法向
梯度
下降
和
随机</em
浏览 2
提问于2016-11-18
得票数 0
回答已采纳
1
回答
随机
渐变
下降
推荐
随机
输入
的
原因
machine-learning
、
neural-network
、
conv-neural-network
1)对于分批
梯度
下降
,在训练
的
所有实例结束时更新目标
函数
的
系数。例如:如果我有100张图像要接受训练,在第100幅图像被训练后,成本会被评估,并且更新是有效
的
。
2
)对于
随机
梯度
下降
,对于相同
的
100幅图像,每一幅图像都经过训练,其效率得到更新。对于
随机
梯度
下降
,认为输入图像需要
随机
化,以避免被卡住。我无法想象这个问题。
浏览 3
提问于2017-07-18
得票数 0
1
回答
的
批次大小。或者:如何诊断神经网络
的
偏差/方差?
scikit-learn
、
neural-network
、
mlp
我目前正在使用ScikitLearn中
的
两个类处理一个分类问题,其中有求解器adam和激活relu。为了探索我
的
分类器是否存在高偏差或高方差,我用Scikitlearns内置
函数
绘制了学习曲线: 应该是这样
的
吗?我认为学习曲线是根据独立于任何批次/时代
的
训练数据来处理准确性分数
的
吗?对于批处理方法,我真的可以使用这个
浏览 1
提问于2019-03-26
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
批量梯度下降与随机梯度下降的区别
随机梯度下降法和牛顿法的理论以及Python实现
梯度下降算法以及与线性回归模型的结合
人工智能系列(七)深度学习中的梯度下降与反向传播
对比梯度下降与进化策略,神经进化会成为深度学习的未来吗?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券