腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
梯度
检查
中
,
我们
是否
将
epsilon
(
一个
很小
的
值
)
加
/
减到
theta
和
常量
参数
b
?
、
、
、
我一直在上Andrew Ng
的
DeepLearning AI课程(课程2)。对于
梯度
检查
的
练习,他实现了
一个
函数,该函数
将
包含所有权重(W)
和
常量
(
b
)
的
字典转换为
一个
单一
的
单热编码向量(维度为47x1)。 然后,起始代码遍历此向量,
将
epsilon
添加到向量
中
的
每个条目。
梯度
检查</
浏览 9
提问于2019-01-08
得票数 1
回答已采纳
1
回答
政策
梯度
方法
和
基于神经网络
的
行动
值
方法有什么区别?
、
、
、
政策
梯度
方法
和
基于神经网络
的
行动
值
方法有什么区别?
浏览 0
提问于2018-05-05
得票数 3
回答已采纳
1
回答
适应性学习优化器
是否
遵循最陡峭
的
标准?
、
、
对于Adam
和
RMSProb等自适应学习优化器,不同权重
参数
的
有效学习率并不相同。这意味着
我们
并没有真正遵循权
值
空间中最陡峭
的
向量
的
方向,对吗?如果是这样的话,那么
我们
为什么首先要费心计算
梯度
(通过后端)呢?
浏览 0
提问于2018-05-15
得票数 2
4
回答
对于有限差分,
梯度
下降
是否
较慢?
、
在
梯度
下降
中
,
我们
更新了每个
参数
\
theta
_i,使函数f(\
theta
_1,\
theta
_2,\dots,\
theta
_N)通过执行\
theta
_1 \leftarrow \
theta
_1 - \alpha如果
我们
有N
参数
,那么它将涉及到N评估。 如果可能的话,很明显,
我们
想使用
梯度
的
分析形式。编辑:实际示例
浏览 0
提问于2018-10-13
得票数 4
1
回答
我们
了解神经网络背后
的
数学吗?
、
、
、
、
所以我
在
某个地方读到,作为人类,
我们
不知道神经网络到底发生了什么,
我们
只知道
一个
神经元会利用它
的
偏见
和
输入来做一些事情,并引导
我们
到
一个
特定
的
输出。我在这里
的
问题是,
我们
理解(从数学上讲)X输入是如何引导计算机输入Y
的
吗?如果
我们
不知道,那
我们
为什么不明白呢?
浏览 2
提问于2022-09-19
得票数 -2
2
回答
RMSProp
和
动量
的
区别?
、
、
、
有谁能告诉我,RMSProp方法
和
带有动量
的
梯度
下降方法有什么明显
的
区别吗?两人都试图达到同样
的
效果。我读过
的
博客中有一篇指出了不同之处:"RMSProp
和
动量采用对比
的
方法。虽然动量加速了
我们
的
搜索方向,但RMSProp阻碍了
我们
在
振荡方向上
的
搜索。“ 我不明白这句话。有人能详细说明两者之间
的
区别吗?
浏览 0
提问于2020-06-21
得票数 6
5
回答
线性回归中
的
梯度
下降
、
、
、
我
的
假设是
theta
0 +
theta
1 * xi。我正在尝试计算
theta
0
和
theta
1
的
值
,以便使成本函数最小。我正在使用
梯度
下降来找出
值
-while(repeat until convergence) calculate
theta
0 and
theta
1 simultaneously.
在
收敛之前我知道这是局部最小<
浏览 7
提问于2014-01-11
得票数 2
1
回答
神经网络给出错误
的
预测,即使一切似乎都在工作
、
、
、
我正试着写我
的
第
一个
神经网络,但我在这个问题上已经坚持了
一个
多星期了。我正在学习Andrew
的
机器学习课程,并在python
中
实现了以下功能。此外,我还手动启动了这两个输出,足以让我相信backwardPropogate()是正确实现
的
。我也做了数值
梯度
检查
,这也是很好
的
匹配。我不明白为什么代码仍然给了我坏
的
值
。即使
在
训练集上,成功率也接近10%。 这是我
的
<em
浏览 1
提问于2017-05-09
得票数 1
回答已采纳
2
回答
为什么
在
SGD
中
取平均误差
的
梯度
不正确,而只取单个误差
梯度
的
平均值?
、
、
、
对于成本函数
和
SGD
的
平均值,我有点困惑。到目前为止,我一直认为,
在
SGD
中
,您需要计算批处理
的
平均错误,然后将其反向传播。但后来我在这个问题上
的
评论中被告知,这是错误
的
。您需要分别反向传播批处理
中
每个项
的
错误,然后平均通过反向传播计算
的
梯度
,然后用缩放
的
平均
梯度
更新
参数
。 好吧,但为什么这不是一回事?某些点
的
平均
梯度<
浏览 0
提问于2019-07-25
得票数 8
1
回答
Adagrad隐式变量
、
、
、
name='labels_placeholder')
b
= tf.get_variable('
b
', [VECTOR_SIZE], initializer=tf.constant_initializer(0.0)) predict = tf.add(tf.matmul(W, x),
b
, name=
浏览 3
提问于2017-10-10
得票数 1
1
回答
从4D空间提取可分性二维曲面的法线
、
、
如果使用四维噪声函数返回噪声
值
和
四部分解析导出
的
梯度
向量,则通过
将
x,y
和
z,w坐标重新映射到独立
的
圆,可以创建无缝(即相反
的
边缘匹配)
的
2D块。\ \
theta
= a*2*\pi 其中a
和
b
是表面上
的
一个
点。它们应该在[0, size)
的
范围内,其中
的</e
浏览 0
提问于2019-01-30
得票数 2
回答已采纳
3
回答
我
的
随机
梯度
下降
的
实现正确吗?
、
、
、
我试图发展随机
梯度
下降,但我不知道它
是否
是100%正确
的
。 我
的
随机
梯度
下降算法所产生
的
代价有时与F对联C算法或批处理
梯度
下降算法产生
的
代价相差甚远。当我设置学习速率α为0.2时,批
梯度
下降成本会收敛,但为了不发散,我不得不为随机实现设置
一个
学习速率α为0.0001。这是正常
的
吗?以下是我
在
10,000个元素
和
num_iter = 100或500
的</
浏览 1
提问于2014-01-25
得票数 9
回答已采纳
7
回答
EPS
在
C
中
是什么意思?
、
我有以下代码片段:我正在尝试将其转换为C#。"EPS“是什么意思?
浏览 5
提问于2009-03-09
得票数 9
回答已采纳
1
回答
参数
化策略
的
这个
值
函数意味着什么?它与RL
中
的
TRPO有关吗?
、
Iv一直
在
观看斯坦福大学youtube上
的
RL讲座。
在
第9集-政策
梯度
2
中
,老师艾玛·布鲁斯基尔说,
我们
将
学习如何通过调整(尚不确定如何)调整
我们
计算
的
策略
梯度
估计来制定更安全
的
策略
梯度
步骤。老师说,\
theta
参数
化
的
策略
的
值
函数
的
方程式如下。然后老师说
我们</em
浏览 0
提问于2022-07-13
得票数 0
回答已采纳
1
回答
用python实现线性支持向量机
的
软边界
、
、
如果我正确理解,设置
一个
更大
的
C
将
迫使支持向量机有更大
的
裕度。,只有4个线性可分离
的
训练样本,我去掉了偏倚项
b
,结果w预期是,而我
的
实现会给出大于0.5
的
值
(例如,1.4650,1.4650),无论是使用
梯度
下降还是scipy.optimize。这一次,我加入了偏见术语,并使用以下方法来更新它:
在
得到反馈后,我尝试了scipy.optimize
的
Nelder,并尝试了两
浏览 0
提问于2018-02-15
得票数 12
2
回答
对正则化数据使用SciPy fmin_bfgs()警告
、
、
我正在使用下
一个
cost()
和
gradient()正则化函数:
theta
=
theta
.reshape(1, len(
theta
))+ regularizationStarting loss value: 0.69314718056如果我<e
浏览 0
提问于2018-05-02
得票数 1
回答已采纳
4
回答
gtest (C++)
和
nunit (C#)双比较
的
差异
、
、
、
、
我已经将带有gtest测试
的
c++项目移植到具有nunit测试
的
c#项目上。现在我遇到了浮点精度
的
问题。
在
最夸张
的
测试
中
我有:好
的
(绿色) 现在
的
问题是为什么是?
浏览 6
提问于2010-08-25
得票数 6
回答已采纳
2
回答
SGD背后
的
核心理念
、
、
、
Hinton在他
的
通俗课程中提到了以下事实: 当
我们
有非常大
的
数据集并且需要执行小型批处理权重更新时,Rprop实际上不起作用。为什么它不适用于小型批次?嗯,人们试过了,但发现很难让它发挥作用。它不起作用
的
原因是它违背了随机
梯度
下降背后
的
中心思想,即当
我们
有足够小
的
学习率时,它会在连续
的
小批上平均
梯度
。考虑权重,它得到了
梯度
0.1
在
九个迷你批次,
梯度
为-0.9<e
浏览 0
提问于2020-09-29
得票数 3
1
回答
DerivativeCheck与minFunc一起失败
、
、
我正在尝试使用minFunc训练
一个
单层
的
自动编码器,虽然成本函数似乎减少了,但当启用时,DerivativeCheck就失败了。我使用
的
代码尽可能接近教科书中
的
值
,尽管非常简化。虽然这会导致较差
的
性能,但它不应该影响
梯度
检查
,因为我只看权重矩阵。此外,我已经绑定了编码器和解码器矩阵,因此实际上只有
一个
权重矩阵。用于丢失函数
的
代码是(编辑:,我已经
将
循环向量化,并稍微清理了一些代码): % loss
浏览 5
提问于2011-07-06
得票数 3
1
回答
MATLAB开始对函数处理有困难
、
我正在为学校做
一个
项目,基本上包括迭代求解
一个
三次方程。我用
的
是MATLAB,但是我从来没有用MATLAB做过很多事情,所以我
在
逻辑上遇到了一些问题。C = @(beta) -(sigma*
epsilon
*(1+beta) + q)*(beta^2); R = @(A,
B
,C) (2*(AI_vapor; objfun = (ln_phi_liquid - ln_phi_vapo
浏览 1
提问于2016-03-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券