腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
梯度
下降
收敛
、
、
我是数学和计算机专业
的
双学位,对机器学习感兴趣。我目前正在选修安德鲁教授
的
热门课程。他在谈论和解释
梯度
下降
,但我不能不注意
到
一些事情。以我
的
数学背景,我知道如果我试图找到函数
的
全局最小/最大值,我必须首先找到所有的临界点。这门课程讨论
的
是GD
的
收敛
性,但它真的能保证
收敛
到
全球
最小值
吗?我怎么知道它
不会
卡在马鞍上?做一次二阶导数测试<em
浏览 0
提问于2019-03-26
得票数 1
1
回答
梯度
下降
不会
收敛
到
它
的
最小值
、
、
我选择了一个较小
的
alpha值,并执行了大量
的
迭代来找到聚合点,但它不起作用。任何帮助都将不胜感激。下面是完整
的
代码。
浏览 12
提问于2020-06-18
得票数 0
回答已采纳
1
回答
小批渐变体面和
梯度
体面之间是否有固定
的
关系?
、
、
我可以通过一次gradient decent 更新获得相同
的
结果吗?我知道mini batch gradient decent有时可以避免局部最优。,但它们之间是否有固定
的
关系.
浏览 3
提问于2014-10-16
得票数 4
2
回答
当成本函数不是凸
的
时候,为什么在深网/RNN上使用
梯度
下降
?
、
、
、
、
为什么我们在非常非凸
的
损失函数上使用
梯度
下降
,例如在深度网/RNN中,而不是用启发式搜索(遗传算法、模拟退火等)?
浏览 0
提问于2020-11-14
得票数 0
回答已采纳
2
回答
为什么我们需要纪元?
在课程中,没有关于时代
的
东西,但在实践中,它们随处可见。如果优化器在一次传递中找到了最佳权重,我们为什么还需要它们。为什么模型会有所改进?
浏览 1
提问于2017-03-10
得票数 4
2
回答
机器学习:为什么线性回归成本函数先减后增?
、
、
我已经在这个.csv文件中提供
的
数据上训练了一个多元线性回归模型:我训练
它
(
梯度
下降
)如下:rd: int = 0 rd =print("\t\tEpoch: " + str(epoch) + "\n\t\tMSE:" + str(mean_squared_error)) 损失/成本函数(均方误差)如预期
的
那样保持
下降
这意味着什么,以及如何防止
它</
浏览 0
提问于2019-10-19
得票数 0
2
回答
是否总是保证损失函数
的
收敛
性?
、
给定最佳学习率,下列哪一项是正确
的
?世系不是。(3)对于凸损失函数(即碗形),随机
梯度
下降
和分批
梯度</
浏览 0
提问于2020-08-13
得票数 4
回答已采纳
1
回答
如果我们使用两次相同
的
数据(初始参数
的
两次随机化),我们
的
算法是否有可能
收敛
到
不同
的
局部
最小值
?
、
假设我们使用相同
的
数据两次使用
梯度
下降
来训练神经网络(初始参数
的
两次随机化)。有没有可能我们
的
算法会
收敛
到
不同
的
局部
最小值
?
浏览 24
提问于2020-04-26
得票数 0
回答已采纳
2
回答
在
梯度
下降
中,为什么不需要将成本函数
的
梯度
归一化为单位向量?
、
、
从我
的
背景来看,我理解有一个学习速率(α)
的
目的是将
梯度
的
大小(▽J)标准化,这样步长就可以适当地
收敛
到
局部极小值。w:=w −α▽J 我
的
<e
浏览 0
提问于2022-07-05
得票数 1
2
回答
线性回归实现
的
性能总是比sklearn差。
、
、
、
我在python中实现了
梯度
下降
的
线性回归。为了了解
它
做得有多好,我将它与scikit-learn
的
LinearRegression()类进行了比较。由于某些原因,sklearn
的
平均性能总是超过我
的
程序MSE 3(我正在使用波士顿房屋数据集进行测试)。据我所知,我目前没有做
梯度
检查来检查
收敛
性,但我允许多次迭代,并且将学习速率设置得足够低,使它能够
收敛
。我
的
学习算法实现中有什么明显
的</e
浏览 3
提问于2014-02-08
得票数 4
回答已采纳
1
回答
非凸函数如$-x^2$
的
梯度
下降
我知道如何计算只有一个整体极小值
的
凸函数
的
梯度
下降
。另外,我知道处理函数是非凸函数
的
情况
的
方法。真正困扰我
的
是,对于像y = -x^2这样
的
非凸函数,
梯度
下降
是如何计算
的
,在这里
下降
会变成负无穷大,而不是直接
收敛
到
全局极大值。因此,对于像(x^2 - y^2)这样
的
函数来说,它与卡在鞍点上
的
观点是矛盾
的
浏览 0
提问于2019-10-27
得票数 0
1
回答
为什么线搜索不能解决爆炸/消失
梯度
问题?
、
、
梯度
消失
的
问题基本上是,由于我们
的
步长与
梯度
成正比,如果
梯度
很小,可能需要很长时间才能达到局部
最小值
。那么,我们为什么不采取我们
的
步长与
梯度
成比例,而不是做一个线搜索?为什么
梯度
下降
应该起作用
的
直觉是,如果我们朝着最陡峭
的
下降
方向移动,
它
应该会使函数变小。然而,还不清楚为什么步长必须与
梯度
的
大小成正比。在关于这
浏览 0
提问于2020-10-12
得票数 1
1
回答
L1-正则化系统
的
最小化,
收敛
于非最小位置?
、
、
、
、
为了找到我
的
步长,我使用回溯算法,我通过查看
梯度
的
范数-2来终止算法,如果
它
‘足够接近’
到
0(现在我使用0.001)。如果我开始增加λ,我
的
模型系数都趋于零,这是我所期望
的
,我
的
算法永远
不会
终止,因为
梯度
的
范数-2总是正数。例如,λ1000将给我10^(-19)范围内
的
系数,但我
的
梯度
的
norm2是~1.5,这是在几千次迭代之后
浏览 2
提问于2013-01-06
得票数 5
回答已采纳
3
回答
带约束
的
梯度
下降
(拉格朗日乘子)
、
我正在尝试使用
梯度
下降
来寻找N个参数中一个函数
的
最小值
。但是,我希望在将参数
的
绝对值之和限制为1(或<= 1,无关紧要)
的
同时做到这一点。由于这个原因,我使用拉格朗日乘子
的
方法,所以如果我
的
函数是f(x),我将最小化f(x) +λ* ( g(x) -1),其中g(X)是参数绝对值之和
的
平滑近似。现在据我所知,当g(X)=1时,这个函数
的
梯度
只会是0,所以寻找局部
最小值
浏览 0
提问于2012-09-05
得票数 16
回答已采纳
1
回答
Adagrad优化背后
的
直觉
、
、
下面的文章自适应学习速率法ADADELTA给出了一种名为Adagrad
的
方法,其中我们有以下更新规则:X_{n+1} = X_n -[Lr/\sqrt{\sum_{i=0}^ng_i^2}]*g_n ,现在我知道这个更新规则动态地为每次迭代选择学习速率,但是有以下问题: 这里我们看到,越大
的
梯度
有较小
的
学习率和越小
的
梯度
有更大
的
学习率。我不明白为什么这是我们想要
的
财产,换句话说,为什么这对我们
的
网络来说是件好事?
浏览 0
提问于2020-04-18
得票数 2
回答已采纳
1
回答
关于基于
梯度
下降
的
神经网络优化
、
、
、
、
对于神经网络,是否可以确定
梯度
下降
优化算法
的
最佳起点?例如,在下面的链接中查看包含局部和全局
最小值
的
示例损失曲面,很明显(1)某些起点比其他起点更好,因为到达全局最优
的
速度会比其他起点更快,(2)一些起点将导致
下降
到局部最优,而不是全局最优,以及(3)一些起点可能永远
不会
收敛
https://www.researchgate.net/profile/Klaus 提前感谢您
的
贡献:
浏览 26
提问于2019-07-03
得票数 0
1
回答
机器学习中
的
优化方法
、
、
我在ML领域没有太多
的
知识,但从我天真的观点来看,在训练中性点网络时,似乎总是使用
梯度
下降
的
一些变体。因此,我想知道为什么没有使用更高级
的
方法,例如SQP算法或内点方法。这是不是因为训练中性网总是一个简单
的
无约束优化问题,而上述方法是不必要
的
?任何洞察力都会很好,谢谢。
浏览 0
提问于2018-02-22
得票数 2
2
回答
小批量减少SGD
的
缺点吗?
、
许多专家说,“批处理比SGD具有更多
的
本地最优可能性”。但是,我不知道原因..。SGD如何能比批处理更好地避免局部最优?)有些人告诉我,过度射击是原因。但是,我也不知道在SGD有更多
的
过度射击) 如果你用几何、数学或其他直觉概念来解释这个原因,那就太棒了!
浏览 0
提问于2020-01-09
得票数 1
1
回答
对于
梯度
下降
,成本函数曲线实际上是如何计算
的
:即模型随机选择权重
的
次数?
、
、
据我所知,为了计算简单线性回归
的
权重和偏差,
它
遵循
梯度
下降
算法,该算法致力于寻找成本函数(曲线)
的
全局
最小值
。该成本函数是通过随机选择一组权重,然后计算所有记录
的
平均误差来计算
的
。这样我们就得到了成本曲线上
的
一个点。再次选择另一组权重,并计算平均误差。所有这些点构成了成本曲线。我
的
疑问是,在计算(找到成本函数)成本曲线之前,有多少次随机选择权重来获得点数。提前谢谢。
浏览 5
提问于2021-07-18
得票数 0
1
回答
MLP中ReLu
的
收敛
性问题
、
、
、
、
我只使用numpy从零开始在python中创建了神经网络,我正在处理不同
的
激活函数。我所观察
到
的
非常奇怪,我很想知道为什么会发生这种情况。 我观察
到
的
问题取决于初始权重。当使用乙状结肠函数时,如果权重是0,1、-1,1或-0.5,0.5范围内
的
随机数,那就无关紧要了。但是在使用ReLu时,当我在范围-1,1中使用随机权值时,网络常常会遇到一个很大
的
问题。但是当我将权值
的
初始化范围更改为-0.5,0.5时,它就开始工作了。这只适用于ReLu激活函数,我完
浏览 0
提问于2020-12-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
批量梯度下降与随机梯度下降的区别
机器学习100天-Day1501训练模型-线性模型
如何理解深度学习的优化?通过分析梯度下降的轨迹
深度解读流行梯度下降优化算法 正确训练模型的利刃!
梯度下降算法之随机梯度下降
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券