腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2432)
视频
沙龙
1
回答
gensim Word2Vec -如何应用随机
梯度
下降
?
nlp
、
gensim
、
word2vec
、
gradient-descent
、
stochastic
据我所知,
批量
(香草)
梯度
下降
对所有训练数据进行一次参数更新。随机
梯度
下降
(SGD)允许您更新每个训练样本的参数,帮助模型更快地
收敛
,但代价是函数损失的高度波动。 ?
批量
(香草)
梯度
下降
集batch_size=corpus_size。 SGD设置batch_size=1。和小
批量
梯度
下降
集batch_size=k,其中k通常为32,64,128… gensim如何应用SGD
浏览 32
提问于2019-05-02
得票数 0
回答已采纳
1
回答
用
Python
的numpy实现随机
梯度
下降
python
、
numpy
、
machine-learning
、
gradient-descent
我必须使用
python
numpy库实现随机
梯度
下降
。
浏览 4
提问于2016-10-11
得票数 2
回答已采纳
2
回答
python
批量
梯度
下降
不
收敛
python
、
numpy
、
machine-learning
、
gradient-descent
我增加和降低了学习率,似乎不会永远
收敛
或耗费时间。如果我将学习率设置为0.0004,它会慢慢尝试
收敛
,但需要如此多次的迭代,我不得不在1mil+迭代上设置,并且仅设法从93最小二乘误差提高到58 我正在关注Andrews NG论坛 带有渐变线的图形的图像
浏览 32
提问于2020-01-10
得票数 0
回答已采纳
2
回答
基于向量运算的随机
梯度
下降
?
python
、
gradient-descent
、
regression
假设我想使用N个样本的数据集来训练一个随机
梯度
下降
回归算法。由于数据集的大小是固定的,我将重用数据T次。在每次迭代或“时代”中,在随机地重新排序整个训练集之后,我使用每个训练样本一次。我的实现是基于
Python
和Numpy的。因此,利用向量运算可以显着地减少计算时间。想出一个
批量
梯度
下降
的矢量化实现是非常简单的。然而,在随机
梯度
下降
的情况下,我想不出如何避免在每个时期迭代所有样本的外循环。 有没有人知道随机
梯度
下降
的
浏览 0
提问于2014-10-10
得票数 10
回答已采纳
3
回答
随机
梯度
下降
增加成本函数
machine-learning
、
neural-network
、
gradient-descent
在神经网络中,
梯度
下降
会查看整个训练集以计算
梯度
。成本函数随着迭代的进行而减小。如果代价函数增加,通常是因为错误或不适当的学习率。在随机
梯度
下降
中期望成本函数的增量吗?
浏览 2
提问于2018-05-16
得票数 0
2
回答
是否总是保证损失函数的
收敛
性?
loss-function
、
optimization
(i)对于凸损失函数(即碗形),保证批
梯度
下降
最终
收敛
到全局最优,而不保证随机
梯度
下降
。(4)对于凸损失函数(即碗形),既不保证随机
浏览 0
提问于2020-08-13
得票数 4
回答已采纳
1
回答
小批渐变体面和
梯度
体面之间是否有固定的关系?
machine-learning
、
mathematical-optimization
、
convex-optimization
对于凸优化,类似于logistic回归。因此,经过10次mini batch gradient decent更新。我可以通过一次gradient decent 更新获得相同的结果吗?我知道mini batch gradient decent有时可以避免局部最优。,但它们之间是否有固定的关系.
浏览 3
提问于2014-10-16
得票数 4
1
回答
深层神经网络中
收敛
的定义是什么?
deep-learning
、
convergence
📷注:序列的
收敛
性有一个定义。rbrace_{n=1}^{\infty}都有一个自然数K(\varepsilon),使得对于所有的n \geq K(\varepsilon),则称\mathbb{R}中的序列\varepsilon > 0
收敛
到在深度神经网络的背景下,是否有
收敛
的定义?
浏览 0
提问于2023-05-03
得票数 1
1
回答
机器学习中的优化方法
machine-learning
、
neural-network
、
training
我在ML领域没有太多的知识,但从我天真的观点来看,在训练中性点网络时,似乎总是使用
梯度
下降
的一些变体。因此,我想知道为什么没有使用更高级的方法,例如SQP算法或内点方法。
浏览 0
提问于2018-02-22
得票数 2
2
回答
梯度
下降
:我们是否在GD中的每一步迭代所有的训练集?或者我们是否为每一套培训更改GD?
machine-learning
、
gradient-descent
我用一些在线资源自学了机器学习,但我有一个关于
梯度
下降
的问题,我无法弄清楚。如果我在每个训练示例之后执行
梯度
下降
,那么我的系数将非常不同,如果我在所有10个训练示例之后执行
梯度
下降
。求和项仅包括1个训练示例 继续,直到
收敛
或所有使用的训练例子。求和项包括所有1
浏览 8
提问于2013-06-24
得票数 7
回答已采纳
1
回答
TensorFlow CNN在分批时的表现不同
python
、
neural-network
、
tensorflow
、
conv-neural-network
最初,我让CNN使用以下代码: x_batch = [] cost_ = 0. y_batch = y_data cost_ += (sess.run(cost, feed_dict={X: x_batch, Y: y_batch, p_keep_conv:
浏览 3
提问于2016-06-27
得票数 1
回答已采纳
1
回答
如何确定随机
梯度
下降
的
收敛
性?
gradient-descent
在对批处理
梯度
下降
进行编码时,很容易将
收敛
性编码为每一次迭代后的代价向最小方向移动,当成本的变化趋向于接近预定数时,我们停止迭代,并得出
梯度
下降
已经
收敛
的结论。在
python
中进行编码时,当成本趋于最小时,我如何知道迭代的次数?
浏览 0
提问于2019-11-27
得票数 2
1
回答
为什么线搜索不能解决爆炸/消失
梯度
问题?
deep-learning
、
optimization
、
gradient-descent
梯度
消失的问题基本上是,由于我们的步长与
梯度
成正比,如果
梯度
很小,可能需要很长时间才能达到局部最小值。那么,我们为什么
不
采取我们的步长与
梯度
成比例,而不是做一个线搜索?为什么
梯度
下降
应该起作用的直觉是,如果我们朝着最陡峭的
下降
方向移动,它应该会使函数变小。然而,还不清楚为什么步长必须与
梯度
的大小成正比。在关于这一主题的旧纸中,Haskell表明,只要我们进行直线搜索,
梯度
下降
就会
收敛</em
浏览 0
提问于2020-10-12
得票数 1
1
回答
theano中的线性回归
python
、
theano
T.mean在中的意义是什么?如果实现是矢量化的,我认为T.mean是有意义的。在这里,x和y到train(x, y)的输入是标量,cost只查找单个输入的平方误差,并对数据进行迭代。gradient = T.grad(cost=cost, wrt=w) for i i
浏览 4
提问于2016-08-22
得票数 1
回答已采纳
2
回答
神经网络本质上是一种在线算法吗?
machine-learning
、
neural-network
、
online-learning
我做机器学习已经有一段时间了,但是即使经过一段时间的练习,也会有一些零碎的东西聚集在一起。反过来,新权重的计算在数学上是复杂的(你需要计算权重的偏导数,在神经网络的每一层计算误差-输入层除外)。谢谢!
浏览 0
提问于2016-01-09
得票数 5
回答已采纳
3
回答
如何解释RNN奇怪的训练曲线?
tensorflow
我使用tensorflow在我的数据集上训练一个简单的两层RNN。训练曲线如下所示:其中,x-axis是步长(在一个步骤中,使用batch_size数量的样本来更新网络参数),y-axis是精度。红、绿、蓝三条线分别表示训练集、验证集和测试集的准确率。似乎训练曲线并不平滑,并且有一些损坏的变化。这是否合理呢?
浏览 5
提问于2016-10-02
得票数 1
1
回答
由于随机
梯度
下降
,我们为什么不计算损失函数的精确导数?
deep-learning
、
gradient-descent
、
mini-batch-gradient-descent
我在一个博客中读到了以下内容: 我们为什么要估计导数?请解释一下。
浏览 0
提问于2020-09-13
得票数 0
回答已采纳
1
回答
为什么Relu比Sigmoid激活函数表现出更好的
收敛
性?
deep-learning
、
neural-network
与sigmoid激活函数相比,Relu在
梯度
下降
优化中具有更好的
收敛
性能。据我所知,当Z接近小于0时,
梯度
下降
的升升太慢,但当z小于0时,relu也有
梯度
0,那么差别是什么?
浏览 0
提问于2021-08-16
得票数 0
1
回答
Scikit学习中的线性回归和
梯度
下降
?
python
、
machine-learning
、
scikit-learn
、
linear-regression
在机器学习的coursera课程中,它说
梯度
下降
应该
收敛
。我们如何在现实世界中使用scikit-learn中的线性回归?或者为什么scikit-learn不在线性回归输出中提供
梯度
下降
信息?
浏览 0
提问于2015-12-26
得票数 26
回答已采纳
2
回答
是否有任何规则来选择一个小批的大小?
deep-learning
、
neural-network
、
convolutional-neural-network
、
optimization
是否有任何关于小
批量
应该有多大的规则/指南?或任何研究培训效果的出版物?
浏览 0
提问于2017-04-17
得票数 32
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降
梯度下降法及其Python实现
在Python实现梯度下降优化算法
DL笔记:用 Python 实现梯度下降的算法
Logistic regression 的梯度下降解法-附python实现
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券