腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3258)
视频
沙龙
1
回答
支持向量机与GD/SGD?
、
、
、
在文章末尾,作者提到: 我们从一堆要
训练
的文件开始。然后,我们将每个文档表示为数字向量,您可以选择将它们分割成n克,然后用TF-下手称这些n克。现在我们有了一个数值表示,我们可以给出程序的
训练
数据,并使它的猜测每次。根据程序的错误程度,程序根据错误进行调整,以便在下一次使用
梯度
下降
进行更好的预测。这篇文章没有提到SGD,但从互联网研究中我了解到SGD是GD的一种变化,在这里,参数在每次迭代时都会立即被调整,而不是在整个
训练
集的末尾。
浏览 0
提问于2020-02-06
得票数 1
1
回答
SkikitLearn学习曲线强烈依赖于MLPClassifier ?的批次大小。或者:如何诊断神经网络的偏差/方差?
、
、
我认为学习曲线是根据独立于任何批次/时代的
训练
数据来处理准确性分数的吗?对于批处理方法,我真的可以使用这个内置函数吗?如果是,我应该选择哪个批次大小(
训练
示例的整批或批次size=数或两者之间的某个部分),以及从中得到什么诊断?或者你通常如何诊断神经网络分类器的偏差/方差问题? 我真的很感激你的帮助!
浏览 1
提问于2019-03-26
得票数 1
回答已采纳
3
回答
随机
梯度
下降
增加成本函数
、
、
在神经网络中,
梯度
下降
会查看整个
训练
集以计算
梯度
。成本函数随着迭代的进行而减小。如果代价函数增加,通常是因为错误或不适当的学习率。在
随机
梯度
下降
中期望成本函数的增量吗?
浏览 2
提问于2018-05-16
得票数 0
6
回答
梯度
下降
和
随机
梯度
下降
有什么区别?
、
、
、
梯度
下降
和
随机
梯度
下降
有什么区别? 我对这些不太熟悉,你能用一个简短的例子来描述这种差异吗?
浏览 0
提问于2018-08-04
得票数 75
2
回答
有
随机
权值的神经网络每次都会给出相同的预测率吗?
、
对于一个输入,有
随机
权值,我的预测效率会改变吗?另外,我还没有考虑到网络中的偏差,这是否是效率较低的原因( 200例
训练
数据的预测率为93%,100例测试数据的预测率为90% )。
浏览 3
提问于2016-06-24
得票数 1
回答已采纳
0
回答
随机
梯度
下降
训练
误差
、
、
、
nn.SpatialConvolution(64, 64, 3, 3)) 下面是我是如何
训练
它的)trainer.learningRate = 0.01在
训练
时
浏览 8
提问于2016-07-07
得票数 0
回答已采纳
1
回答
学习速度和
梯度
下降
差?
、
、
、
、
我明白(我想)学习率乘以
梯度
(斜率)就可以使
梯度
下降
,但这是真的吗?我错过了什么吗?谢谢
浏览 5
提问于2019-10-07
得票数 0
回答已采纳
1
回答
在R的神经网络包中使用哪种类型的
梯度
下降
?
、
、
据我所知,有不同类型的
梯度
下降
方法来更新神经网络的权重。有人知道R的neuralnet包中实现了哪种方法吗?如果是批量
梯度
,那么批量大小是多少?我怎么能控制它呢? 谢谢
浏览 3
提问于2018-11-26
得票数 1
1
回答
在计算嵌入层参数时所涉及的方程是什么?
、
、
、
、
我知道嵌入层降低了单词热编码的稀疏性,其参数在反向传播时被
训练
,但我不知道它的实现的数学方法。 提前谢谢。
浏览 0
提问于2019-06-05
得票数 2
1
回答
小批处理
梯度
下降
能优于批处理
梯度
下降
吗?
、
、
、
、
当我阅读和复习吴家富深造课程的第二节课时,我偶然发现一句话:但这怎么可能?小批处理
梯度
下降
真的能给我们一组更好的权重和偏差,即使它没有根据整个数据集更新它们吗?我只能认为,这可能不是过分适合,这样,它可以提供更好的结果。
浏览 0
提问于2020-07-30
得票数 1
1
回答
在
随机
梯度
下降
过程中,这两种更新假设的区别是什么?
、
、
我有一个关于在
随机
GD中更新θ的问题。我有两种方法来更新θ: 1)利用前面的θ,得到所有样本的所有假设,然后根据每个样本更新θ。
浏览 2
提问于2014-05-29
得票数 0
回答已采纳
2
回答
神经网络优化
、
、
、
神经网络是通过尝试和错误、数据科学家来优化,还是通过精确的数学方程来优化值?
浏览 0
提问于2021-03-05
得票数 -1
1
回答
SGDClassifier fit()与partial_fit()
、
、
、
文件中都说,“用
随机
梯度
下降
来拟合线性模型。” 关于
随机
梯度
下降
,我所知道的是,在一次迭代中更新模型的参数需要一个
训练
示例(或整个
训练
的一部分)。
梯度
下降
在每次迭代中使用整个数据集。我想用logistic回归来
训练
一个模型。我要实现法向
梯度
下降
和
随机
梯度
下降
,并比较它们所需的时间。如何在SGDClassifie
浏览 2
提问于2016-11-18
得票数 0
回答已采纳
1
回答
什么时候应该使用学习速率调度而不是自适应学习速率优化算法?
、
为了适当地收敛到最优,人们发明了各种使用自适应学习速率的算法,如AdaGrad、Adam和RMSProp。另一方面,有一个学习速率调度器,如功率调度和指数调度。那么,你如何才能正确地使用它,这取决于什么样的问题?
浏览 0
提问于2017-08-15
得票数 8
1
回答
随机
梯度
下降
和Q-学习中的极小批处理
、
、
、
背景(可略去): 在
训练
神经网络时,通常采用
随机
梯度
下降
(SGD)方法,而不是用
梯度
下降
来计算
训练
集中所有成员的
误差
,而不是用
梯度
下降
来更新权值(这意味着每次更新权值之前都要等很长时间),而是每次使用最小的一批成员,将产生的
误差
看作是对真实
误差
的无偏估计。在强化学习中,有时Q-学习是用神经网络实现的(如深度Q-学习),并且使用经验重放:而不是根据代理的前一次(状态、动作、奖励)更新
浏览 0
提问于2016-12-24
得票数 2
回答已采纳
2
回答
小批量减少SGD的缺点吗?
、
许多专家说,“批处理比SGD具有更多的本地最优可能性”。但是,我不知道原因..。SGD如何能比批处理更好地避免局部最优?)有些人告诉我,过度射击是原因。但是,我也不知道在SGD有更多的过度射击) 如果你用几何、数学或其他直觉概念来解释这个原因,那就太棒了!
浏览 0
提问于2020-01-09
得票数 1
3
回答
美国有线电视新闻网何时更新权重?
、
、
、
、
假设我的批号为50,
训练
数据为1000。我是在每个批次提交到网络后还是在每个数据样本之后进行反向传播?
浏览 0
提问于2018-02-03
得票数 7
回答已采纳
1
回答
多元线性回归的
梯度
下降
、
我知道的:( ii)现在,∑{ hThetax(i) - y(i) }:指具有给定的Theta值的总错误。
误差
是指预测值{ hThetax(i) }与实际值之间的差异。y(i)结尾的Xj^(i)代表什么?我们在实现多元线性回归
梯度
下降
时是否做了以下工作? {第一
训练
范
浏览 4
提问于2017-02-02
得票数 2
回答已采纳
2
回答
Scikit-learn -具有自定义代价和
梯度
函数的
随机
梯度
下降
、
、
我将成本函数建模为
训练
数据集中预测评级和实际评级之间的均方根
误差
。我使用scipy.optimize.minimize函数(我使用共轭
梯度
下降
)来分解电影评分矩阵,但是这个优化工具即使对于只有100K项的数据集也太慢了。我计划将我的算法扩展到2000万项的数据集。我一直在寻找
随机
梯度
下降
的基于Python的解决方案,但我在scikit-learn上找到的
随机
梯度
下降
不允许我使用自定义的成本和
梯度
函数
浏览 0
提问于2015-05-06
得票数 3
1
回答
针对ML初学者的MNIST教程错误
我认为这部分不准确: 我可能错了,但这不应该改变吗?
浏览 4
提问于2016-08-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
梯度下降算法之随机梯度下降
随机梯度下降
批量梯度下降与随机梯度下降的区别
梯度算法之批量梯度下降,随机梯度下降和小批量梯度下降
通过代码原理教你搞懂SGD随机梯度下降、BGD、MBGD
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券