腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
梯度
下降
优化
器
会
改变
我
的
偏见
吗
?
如果是
这样
,
是
按
学习
率
计算
的
吗
?
、
、
我
正在尝试在没有太多外部帮助
的
情况下编写线性回归程序,
我
已经在一定程度上成功地完成了这项工作,因为
我
的
MSE通常返回一个很小
的
数字,并且输出
的
最佳拟合结果看起来
是
正确
的
。
我
只是有一个关于下面最后一行代码
的
问题。
优化
器
是否也
改变
了偏差,
如果是
的话,
是
通过
学习
率
改变</e
浏览 17
提问于2019-01-30
得票数 0
回答已采纳
3
回答
随着批量大小
的
变化,
学习
率
应该如何变化?
、
当我增加/减少SGD中使用
的
小批量
的
批量大小时,
我
应该
改变
学习
率
吗
?
如果是
这样
,那么
是
如何实现
的
呢? 作为参考,
我
正在与某人讨论,有人说,当批量增加时,
学习
率
应该在一定程度上降低。
我
的
理解
是
,当我增加批量大小时,
计算
的
平均
梯度
将不
浏览 2
提问于2018-10-29
得票数 59
回答已采纳
2
回答
基于Tensorflow
的
稀疏多类分类
器
的
神经网络模型
、
、
、
我
要解决
的
问题如下: 数据
是
N_users=6041和N_movies=3953
的
Movielens,收视
率
为100万。对于每个用户,定义了一个大小为N_movies
的
向量,如果用户在T时间之前对电影进行评级,则该向量
的
值为1,如果没有,则为0。例如,如果用户对电影3和5评级,则输入向量为0 0,1,1。目标
是
预测用户在未来(时间T和T+delta T之间)
的
电影评分。标签
是
大小为N_movies
的
浏览 0
提问于2018-10-19
得票数 2
2
回答
为什么我们需要纪元?
在课程中,没有关于时代
的
东西,但在实践中,它们随处可见。如果
优化
器
在一次传递中找到了最佳权重,我们为什么还需要它们。为什么模型会有所改进?
浏览 1
提问于2017-03-10
得票数 4
3
回答
随机
梯度
下降
增加成本函数
、
、
在神经网络中,
梯度
下降
会
查看整个训练集以
计算
梯度
。成本函数随着迭代
的
进行而减小。如果代价函数增加,通常是因为错误或不适当
的
学习
率
。 相反,随机
梯度
下降
计算
每个单个训练示例
的
梯度
。
我
想知道成本函数是否有可能从一个样本增加到另一个样本,即使实现是正确
的
并且参数调整得很好。
我
有一种感觉,代价函数<e
浏览 2
提问于2018-05-16
得票数 0
1
回答
在tensorflow中利用两幅图像
的
平方差作为损失函数
、
我
试图使用两个图像之间
的
SSD作为
我
的
网络
的
丢失功能。ReluGrad input is not finite. : Tensor had Inf valuestrain_step = tf.train.GradientDescentOptimizer(0.01).minimize(ssd_min_1)
我
的
观察是否值得期待编辑:@mdaoust建议被证明
浏览 2
提问于2015-11-17
得票数 4
回答已采纳
3
回答
制作神经网络
的
实例,并使用for循环对它们进行不同
学习
速率
的
训练。接下来
的
第二个实例总是被卡住。
、
、
、
我
在读斯坦福大学
的
CS231n。试图理解为什么会发生以下情况。这是密码。数据
是
形状
的
(49000,32,32,3)。这不是
学习
速度
的
问题,因为
我
尝试过不同
的
'learning_rates'值,learning_rates[0]总是进行得很好,但是无论实际值是什么,使用下面的learning_rates都会变得非常慢。
我
在print()类中添加了一些Solver()语句来尝试调试它。对于lr[0],名义上一切都进行得
浏览 3
提问于2019-01-09
得票数 1
回答已采纳
1
回答
GradientDescentOptimizer与AdamOptimizer在tensorflow中
的
差异?
、
、
、
、
当使用GradientDescentOptimizer而不是Adam
优化
器
时,模型似乎并不收敛。另一方面,AdamOptimizer似乎工作得很好。来自tensorflow
的
GradientDescentOptimizer有什么问题
吗
?
浏览 2
提问于2017-09-16
得票数 5
回答已采纳
1
回答
适应性
学习
优化
器
是否遵循最陡峭
的
标准?
、
、
对于Adam和RMSProb等自适应
学习
优化
器
,不同权重参数
的
有效
学习
率
并不相同。这意味着我们并没有真正遵循权值空间中最陡峭
的
向量
的
方向,对
吗
?
如果是
这样
的话,那么我们为什么首先要费心
计算
梯度
(通过后端)呢?
浏览 0
提问于2018-05-15
得票数 2
1
回答
线性回归-(
梯度
下降
与最佳拟合斜率)
、
我
阅读了Andrew NG
的
机器
学习
教程,在线性回归中遇到了
梯度
下降
。当我尝试使用Python查找同样
的
内容时,
我
在youtube教程中找到了:向Souvik Saha Bhowmik致敬
浏览 2
提问于2016-10-20
得票数 0
1
回答
当没有声明特定
的
重量衰减时,使用
的
标准重量衰减是什么?
、
、
、
我
想实现一个自动编码
器
,论文说它使用了亚当
优化
器
,初始
学习
率
为...重量衰减设置为...opt = SGD(lr=1e-2
浏览 0
提问于2021-01-07
得票数 0
1
回答
将Keras模型
的
损失函数乘以某个常数C,并将其
学习
率
除以C
在Keras中,如果将模型
的
损失函数乘以某个常数C,并将
学习
率
除以C,那么训练过程中就不会出现差异,这是真的
吗
?def my_loss(y_true, y_est): 在第一个场景中,
我
使用
学习
率
等于0.005
的
Adam
优化
器
,并使用该损失函数和
优化</e
浏览 0
提问于2017-10-18
得票数 1
8
回答
选择
学习
率
、
、
、
、
我
目前正致力于利用反向传播实现神经网络
的
随机
梯度
下降
( SGD ),虽然
我
理解它
的
目的,但我有一些关于如何为
学习
速率选择值
的
问题。如果不是
我
应该选择什么样
的
浏览 0
提问于2014-06-16
得票数 114
回答已采纳
3
回答
我
的
随机
梯度
下降
的
实现正确
吗
?
、
、
、
我
试图发展随机
梯度
下降
,但我不知道它是否
是
100%正确
的
。
我
的
随机
梯度
下降
算法所产生
的
代价有时与F对联C算法或批处理
梯度
下降
算法产生
的
代价相差甚远。当我设置
学习
速率α为0.2时,批
梯度
下降
成本会收敛,但为了不发散,
我
不得不为随机实现设置一个
学习
速率α为0.0001。这是
浏览 1
提问于2014-01-25
得票数 9
回答已采纳
1
回答
MLP中ReLu
的
收敛性问题
、
、
、
、
我
只使用numpy从零开始在python中创建了神经网络,
我
正在处理不同
的
激活函数。
我
所观察到
的
非常奇怪,
我
很想知道为什么会发生这种情况。
我
观察到
的
问题取决于初始权重。当使用乙状结肠函数时,如果权重
是
0,1、-1,1或-0.5,0.5范围内
的
随机数,那就无关紧要了。但是在使用ReLu时,当我在范围-1,1中使用随机权值时,网络常常会遇到一个很大
的
问题。但是当我将权值
的
初始化范围更
浏览 0
提问于2020-12-10
得票数 1
回答已采纳
2
回答
Tensorflow:关于adam
优化
器
的
困惑
、
我
对adam
优化
器
在tensorflow中
的
实际工作方式感到困惑。但当我调用函数时,我会给它一个
学习
率
。={eta:1e-3}) 所以我
的
预计到达时间不能
改变
。而且
我
不会传入时间变量。或者这是某种生成器类型
的
东西,在创建会话时,每次
我</em
浏览 0
提问于2016-06-16
得票数 15
回答已采纳
1
回答
Tensorflow线性回归不收敛到正确
的
值
、
、
我
有一个包含2列、一个输入和输出列
的
csv数据集,当我使用Excel查找趋势线时,
我
得到:当我运行以下代码w并收敛到不同
的
值时,这取决于我选择
的
学习
率
和批处理大小
我
曾尝试过不同
的
价值观,但没有任何运气。也许
我
错过了什么? 成本似乎也没有变化。
浏览 1
提问于2018-08-25
得票数 0
2
回答
在Pytorch中将损失乘以n之后,loss.backward()和loss.backward()
的
倍数之间是否存在差异?
、
、
这两个代码之间有区别
吗
?Loss.backward()2Loss.backward()当我检查最后一个backward()之后
的
参数
梯度
时然而,训练后
的
测试精度略有不同。
我
知道这不是一个常见
的
案例,但它与我正在做
的
研究有关。
浏览 3
提问于2020-05-27
得票数 0
1
回答
为什么tensorflow联合模型
的
性能比单个Keras模型差
我
正在评估keras和tensorflow联合模型
的
性能以解决回归问题。性能基本上
是
两者
的
MSE。唯一
的
区别是: 1.拆分数据集
的
方式。worksheetSNN.write(row,col,val)当前
的
结果
是
(Local_Loss用于keras模型,FL_Loss_arr:
是
每个客户端
的</e
浏览 2
提问于2019-06-09
得票数 1
1
回答
TF 2.3在model.compile中使用experimental_steps_per_execution
会
导致模型性能
下降
、
、
使用TPU,
我
尝试将experimental_steps_per_execution传递给model.compile(...),
我
确实看到了很大
的
加速,但对于确切
的
学习
率
时间表,
我
注意到当训练完成时,准确
率
下降
了2-3%。总而言之,
我
唯一
改变
的
就是这个参数。
我
还没有找到任何关于这个参数
的
详细文档。虽然它似乎加快了训练,但我不清楚“算法”
浏览 77
提问于2020-11-02
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
对比梯度下降与进化策略,神经进化会成为深度学习的未来吗?
这样的梯度下降教程,你应该能get!
优化器怎么选?一文教你选择适合不同ML项目的优化器
LLM 实际上是如何运作的?
python机器学习:线性回归
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券