腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
对于
小
数据
集中
非常大
的
值
,
梯度
下降
不
收敛
、
、
、
我正在尝试编写一个程序来计算线性回归模型
的
斜率和截距,但当我运行超过10次迭代时,
梯度
下降
函数给出截距和斜率
的
np.nan
值
。in range(num_iterations): return [b,m] 我在以下
数据
上运行它2.7585243e+11, 3.0352616e+11] #resul
浏览 21
提问于2019-04-11
得票数 2
回答已采纳
1
回答
小批渐变体面和
梯度
体面之间是否有固定
的
关系?
、
、
对于
凸优化,类似于logistic回归。
对于
非凸优化,如神经网络. 我知道mini batch gradient decent有时可以避免局部最优。,但它们之间是否有固定
的
关系.
浏览 3
提问于2014-10-16
得票数 4
2
回答
梯度
下降
:我们是否在GD中
的
每一步迭代所有的训练集?或者我们是否为每一套培训更改GD?
、
我用一些在线资源自学了机器学习,但我有一个关于
梯度
下降
的
问题,我无法弄清楚。
梯度
下降
的
公式是通过以下物流回归得出
的
: θj = θj−α/m∑(hθ(x)−y)xj其中θj是变量j
的
系数,α是学习率,hθ(x)是假设,y是实数,xj是变量j
的
值
,如果我在每个训练示例之后执行
梯度
下降
,那么我
的
系数将非常不同,如果我在所有10
浏览 8
提问于2013-06-24
得票数 7
回答已采纳
2
回答
N维
梯度
下降
、
n维数
的
梯度
下降
。我
的
问题是,当
数据
集
的
特性>3时,斜率是否沿着多维曲线
下降
?如何在具有多种特征
的
数据
集中
看到坡度
下降
?
浏览 0
提问于2020-04-09
得票数 0
2
回答
机器学习:为什么线性回归成本函数先减后增?
、
、
我已经在这个.csv文件中提供
的
数据
上训练了一个多元线性回归模型:我训练它(
梯度
下降
)如下:rd: int = 0 rd =print("\t\tEpoch: " + str(epoch) + "\n\t\tMSE:" + str(mean_squared_error)) 损失/成本函数(均方误差)如预期
的
那样保持
下降
这意味着什么,以及如何防止它
的<
浏览 0
提问于2019-10-19
得票数 0
1
回答
处理大于内存
的
数组训练python中
的
神经网络
、
、
、
我正试图在python中训练一个神经网络(backprop +
梯度
下降
),我在google图书2克(英文)
的
基础上构建了它
的
功能,它最终将是大约10亿行
数据
,每行有20个功能。这将很容易超过我
的
内存,因此使用内存中
的
数组(如numpy )将不是一个选项,因为它需要加载完整
的
训练集。我研究了numpy中
的
内存映射,它可以解决输入层
的
问题(这是只读
的
),但我也需要在网络中存储和操作我
的
浏览 0
提问于2016-02-07
得票数 0
回答已采纳
1
回答
大
数据
的
梯度
下降
Logistic回归
、
我有我
的
逻辑回归函数,它使用
梯度
下降
来找出参数
的
收敛
性。我
的
梯度
下降
算法,以矩阵
的
形式找到参数,因为它以矩阵
的
形式比在循环中单独和线性地查找更快。例如:矩阵(P) <-矩阵(P)- LearningRate( T(矩阵(X))*(矩阵(h(X)) -Matrix(Y) ))
对于
小
的
训练
数据
,它是相当快
的
,并且给出了正确<
浏览 8
提问于2016-09-07
得票数 0
2
回答
如何评估基于交叉熵
的
模型是否
收敛
、
、
我有一个关于使用随机
梯度
下降
的
交叉熵
收敛
的
问题。
对于
如何评估趋同,我感到有点困惑。如果损失在任何一个例子上最小,或者可能是一定数量
的
例子,我们应该把模型看作是
收敛
的
吗?我要问
的
是,如果模型只是随机地
集中
在一个例子上,会怎样呢?
浏览 0
提问于2019-12-30
得票数 0
回答已采纳
2
回答
梯度
下降
与封闭形式解-- MATLAB中
的
不同假设线
、
、
、
我面临
的
问题是,
对于
某些
数据
.
梯度
下降
(GD)和封闭形式解(CFS)都给出了相同
的
假设线。但是,在一个特定
的
数据
集上,结果是不同
的
。我读过一些关于,如果
数据
是奇异
的
,那么结果应该是一样
的
。然而,我不知道如何检查我
的
数据
是否是单数。1)首先,给出了语言中
的
MATLAB代码。
对于
给定
浏览 7
提问于2016-11-11
得票数 2
回答已采纳
1
回答
为什么我
的
线性回归得到
的
是NaN
值
,而不是学习?
、
nan [ nan] [ nan]2000 nan [ nan] [ nan][ nan]如果我将初始
数据
更改为
浏览 38
提问于2016-09-04
得票数 3
2
回答
梯度
下降
收敛
性如何判定
收敛
性?
、
我通过在线资源(即coursera
的
机器学习)学习了
梯度
下降
。然而,提供
的
信息只说重复
梯度
下降
,直到它
收敛
。if (change_in_costfunction > precisionvalue) {} 或者,我想知道是否另一种确定
收敛</
浏览 10
提问于2013-06-25
得票数 10
回答已采纳
1
回答
用Python
的
numpy实现随机
梯度
下降
、
、
、
我必须使用python numpy库实现随机
梯度
下降
。y - tx.dot(w)我不确定迭代是否应该在range(max_epochs)或更大
的
范围内完成我这样说是因为我读到一个时期是“每次我们运行整个
数据
集”。所以我认为一个时代是由一次以上
的
迭代组成
的
。
浏览 4
提问于2016-10-11
得票数 2
回答已采纳
1
回答
AdaGrad分母指数比较
、
Adagrad采用
梯度
下降
过程中
的
学习速率\alpha ,将每个权重除以上一次平方
梯度
到时间t
的
总和。因此,
对于
不
频繁
的
数据
样本,更新将是很大
的
,
对于
频繁
的
数据
样本,更新将是一个非常适合稀疏
数据
的
算法。,在每条对角线中包含参数w_{i}
的
平方
梯度
之和,直到时间t为止。所以我试着建立一个<e
浏览 0
提问于2023-03-13
得票数 0
1
回答
每次我们运行一个神经网络时,
对于
不同大小
的
训练和测试
数据
,它
的
预测精度会有所不同吗?
、
我有一个函数y=(x1)^2 + 2*(x2 )+(x3 )+ 3*(x4)^3,我必须预测它
的
值
。因此,我在输入层有4个输入,在输出层有1个隐藏层和2个节点。当我用200个例子训练我
的
数据
时,我得到了94%
的
训练
数据
和86%
的
测试
数据
(隐藏层中
的
4个节点)。 我得到了90.2%
的
训练集250个例子和96%
的
测试
数据
。同时,同样
的
程序在训练和测试
数据</e
浏览 6
提问于2016-06-25
得票数 0
回答已采纳
1
回答
非凸函数如$-x^2$
的
梯度
下降
我知道如何计算只有一个整体极小
值
的
凸函数
的
梯度
下降
。另外,我知道处理函数是非凸函数
的
情况
的
方法。真正困扰我
的
是,
对于
像y = -x^2这样
的
非凸函数,
梯度
下降
是如何计算
的
,在这里
下降
会变成负无穷大,而不是直接
收敛
到全局极大
值
。因此,
对于
像(x^2 - y^2)这样
的
函数来说,
浏览 0
提问于2019-10-27
得票数 0
1
回答
L1-正则化系统
的
最小化,
收敛
于非最小位置?
、
、
、
、
我正在尝试寻找模型系数,我已经实现了
梯度
下降
和坐标
下降
算法,以最小化L1正则化系统。例如,λ1000将给我10^(-19)范围内
的
系数,但我
的
梯度
的
norm2是~1.5,这是在几千次迭代之后,而我
的
梯度
值
都
收敛
到0到1范围内
的
值
,我
的
步长变得非常
小
(10^(-37)范围)。我
的
梯度
算法和坐标<
浏览 2
提问于2013-01-06
得票数 5
回答已采纳
1
回答
由于随机
梯度
下降
,我们为什么不计算损失函数
的
精确导数?
、
、
我在一个博客中读到了以下内容: 我们为什么要估计导数?请解释一下。
浏览 0
提问于2020-09-13
得票数 0
回答已采纳
4
回答
梯度
下降
方程和正规方程给出了多元线性regression.Why
的
不同θ
值
?
、
、
、
梯度
下降
的
矢量化实现 J_history(iter) = computeCostMulti(X, y, theta); computeCostMulti()
的
实现 J = 1 / (2 * m) * (X * theta - y)'
浏览 2
提问于2017-06-03
得票数 0
1
回答
在CNN中,如何为特定类
的
过滤器保留权重。
、
、
、
、
我是CNN
的
新手,到目前为止,我对过滤器
的
了解是,当我们给我们
的
模型提供一个训练示例时,我们
的
模型通过
梯度
下降
来更新权重,以最小化损失函数。那么,我
的
问题是,如何为特定
的
类标签保留权重?问题是模糊
的
,正如我
的
知识是模糊
的
。这是我到CNN
的
第四个小时。 例:如果我说
的
是有10个标签
的
MNSIT
数据
集,让我们说我最初是给我
的
浏览 0
提问于2020-03-31
得票数 -1
1
回答
在协同过滤
的
梯度
下降
中,x和theta是同时更新
的
吗?
、
、
、
、
我正在学习Andrew Ng
的
机器学习课程,我正在学习第16章:推荐系统。我最近看完了关于协同过滤
的
部分。在其中,他谈到了如何猜测参数: theta,然后用它来预测x,并使用预测
的
x来学习更好
的
参数,等等。他还说,它可以同时完成,并给出了
梯度
下降
算法: ? 我想问x和theta是否同时更新。例如,
对于
每次迭代:在对x执行单个
梯度
下降
后,我是否使用新
的
x
值
重新计算平方误差和,然后对θ执行<em
浏览 37
提问于2020-11-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
批量梯度下降与随机梯度下降的区别
人工智能–梯度下降法(4)
梯度下降算法以及与线性回归模型的结合
机器学习——多元梯度下降
从梯度下降到 Adam!一文看懂各种神经网络优化算法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券