腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
在
时间
的
反向
传播
中
增加
梯度
而
不是
平均
?
recurrent-neural-network
、
backpropagation
在
RNN
的
后向传递
的
以下实现
中
,通过
在
每个
时间
步长添加计算
的
梯度
来计算Wh、Wx和b
的
梯度
。直观地说,这是做什么
的
,
为什么
它们不能被
平均
?
浏览 32
提问于2019-03-22
得票数 1
1
回答
激活函数
的
导数必须在[0,1]
的
范围内吗?
deep-learning
、
recurrent-neural-network
、
activation-function
我发现常见
的
激活函数
的
导数
在
0,1之间。https://ml-cheatsheet.readthedocs.io/en/latest/activation_functions.html 这是RNN
中
梯度
消失
的
原因。当激活函数首次引入深度学习时,导数保持
在
0,1
的
原因是什么?如果我们使用Relu
的
变体,比如f(x) = max(0,2x),导数
在
0,2范围内,那么MLP
浏览 12
提问于2019-04-30
得票数 0
2
回答
Theano --
梯度
平方
的
平均
值
neural-network
、
gradient
、
theano
在
theano
中
,给定一个具有形状
的
批量成本cost (batch_size,),很容易计算
平均
成本
的
梯度
,就像在T.grad(T.mean(cost,axis=0),p)中一样,其中p是计算cost时使用
的
参数通过
在
计算图中
反向
传播
梯度
,可以有效地实现这一点。我现在想做
的
是计算批次上
的
平方
梯度
的
平均
值。lam
浏览 0
提问于2016-03-23
得票数 2
1
回答
在
激活函数
的
反向
传播
过程
中
,我们
为什么
要用
梯度
而
不是
除法来乘δ?
machine-learning
、
neural-network
、
deep-learning
、
gradient-descent
、
backpropagation
在
激活函数
的
反向
传播
过程
中
,
为什么
要用delta
而
不是
gradient来代替division?(
反向
传播
):if(x > 0) gradient = 1; else gradient = 0.1;,然后是new_delta = delta * gradient --这是与正向if(delta >另外,众所周知
的
gradient = dY / dX
在
梯
浏览 3
提问于2019-06-24
得票数 1
1
回答
从
反向
传播
的
角度理解乙状结肠曲线后
的
直觉
logistic-regression
、
gradient-descent
、
backpropagation
、
sigmoid
我试图理解S型乙状结肠/ logistic功能
的
意义。对于很大和很小
的
输入值,乙状结肠
的
斜率/导数接近于零。这是σ'(z) ≈ 0表示z > 10或z < -10。因此,对权重
的
更新将更小。我不明白“
为什么
在
z太大太小
的
时候进行更小
的
更新”和“对于不太大
的
/不太小
的
z进行更大
的
更新”。我读到
的
一个理由是,它会压缩“异常值”。但是
浏览 0
提问于2021-09-26
得票数 0
1
回答
计算坡度
的
平均
值
gradient-descent
我目前正在研究
反向
传播
过程和
梯度
体面算法,形成了由Michael和3 Blue1Brown通道
在
YouTube
中
编写
的
“神经网络和深度学习”一书。我
的
问题是计算
梯度
体面算法
中
的
梯度
(整个数据集作为输入)。📷 例如,我们有100万张手写数字图像,通过第一次迭代,我们向网络提供了这100万张图像。然后计算出每幅图像
的
<
浏览 0
提问于2019-11-06
得票数 2
回答已采纳
1
回答
批次归一化能代替RNN
中
的
tanh吗?
rnn
、
batch-normalization
为什么
我们需要LSTM单元
中
的
第二个tanh() 考虑到重复
的
反向
传播
机制,递归神经网络
的
一个问题是潜在
的
爆炸
梯度
.
在
加法算子之后,c(t)
的
绝对值可能大于1。通过一个tanh算子可以保证该值再次
在
-1到1之间进行缩放,从而
增加
了
在
多个
时间
步长
的
反向
传播
过程
中</em
浏览 0
提问于2021-04-05
得票数 1
2
回答
为什么
在
SGD
中
取
平均
误差
的
梯度
不正确,
而
只取单个误差
梯度
的
平均
值?
machine-learning
、
optimization
、
gradient-descent
、
mini-batch-gradient-descent
对于成本函数和SGD
的
平均
值,我有点困惑。到目前为止,我一直认为,
在
SGD
中
,您需要计算批处理
的
平均
错误,然后将其
反向
传播
。但后来我在这个问题上
的
评论中被告知,这是错误
的
。您需要分别
反向
传播
批处理
中
每个项
的
错误,然后
平均
通过
反向
传播
计算
的
梯度
,然后用缩放<e
浏览 0
提问于2019-07-25
得票数 8
1
回答
LSTM
的
时间
反向
传播
(BPTT)
tensorflow
、
backpropagation
、
lstm
目前,我正试图理解TensorFlow
中
的
LSTM
的
BPTT。我得到参数"num_steps“用于RNN展开和错误
反向
传播
的
范围。我有一个一般性
的
问题,这是如何运作
的
。问题:,哪些路径被
反向
传播
了那么多步骤?恒等误差旋转木马由公式5创建,反
传播
(s(t)->s(t-1))
的
导数对于所有
时间
步骤都是1。这就
浏览 4
提问于2016-11-29
得票数 1
1
回答
如何在小批量
中
积累
梯度
,然后
在
Chainer
中
反向
繁殖?
chainer
、
chainercv
我正在对视频序列进行分类,我需要两件事: 由于GPU内存有限,我希望通过小型批处理积累
梯度
,然后是
平均
梯度
值,然后是
反向
传播
。我需要知道如何洗牌之间
的
小批,但
不是
洗牌
在
每个小批,因为我希望视频序列保持其秩序。
浏览 4
提问于2018-01-23
得票数 3
回答已采纳
1
回答
培训样本
的
成本函数与小批量成本函数
的
差异
matlab
、
training-data
、
mini-batch
对于一个训练样本:它通过'NN‘引入,输出出一个输出(Out1),输出与训练标签进行比较,用
反向
传播
算法,'NN’
的
每个参数都有小
的
变化(正或负)。代价函数用维数为1x500
的
向量表示,所有的小修改都是由
反向
传播
算法得到
的
。让我们说mini_batch_size=10 对于一个小批量:10个培训样本
中
的
每一个都提供一个维度1x500
的
成本函数。为了更好地可视化和解释,我们创建了一
浏览 9
提问于2020-03-21
得票数 0
回答已采纳
2
回答
反向
传播
中
的
梯度
检验
neural-network
、
backpropagation
我试图实现一个简单
的
前馈神经网络
的
梯度
检查,它包含两个单位输入层,两个单位隐层和一个单位输出层。我要做
的
是: 利用两种前馈
传播
的
结果计算数值
梯度
。我不明白
的
是如何准确地执行
反向
传播
。通常,我将网络
的
输出与目标数据进行比较(
在
分类
的
浏览 6
提问于2014-10-04
得票数 6
回答已采纳
1
回答
LSTM NN:前向
传播
neural-network
、
time-series
、
lstm
、
recurrent-neural-network
我有前向
传播
working...but,我有几个关于前向
传播
中
的
移动部分
的
问题,
在
经过训练
的
模型、
反向
传播
和内存管理
的
上下文中。因此,现在,当我运行前向
传播
时,我将新列( f_t, i_t, C_t, h_t, etc )堆叠在它们相应
的
数组上,因为我积累了以前用于bptt
梯度
计算
的
位置。3) ,如果我有有限
的
时间</e
浏览 3
提问于2016-01-05
得票数 1
回答已采纳
1
回答
LSTM损耗函数与
反向
传播
lstm
、
rnn
、
training
、
backpropagation
我试图理解损失函数和
反向
传播
之间
的
联系。据我所知,
在
LSTM算法
中
,
反向
传播
被用来获取和更新矩阵,在前向
传播
中使用偏差来获取当前
的
单元和隐藏状态。损失函数取训练集
的
预测输出和实际输出。但哪一部分是LSTM
的
培训部分?它们之间有某种联系吗?LSTM模式
的
培训目标是什么?
浏览 0
提问于2019-08-31
得票数 0
1
回答
反向
传播
的
内存需求-
为什么
不使用
平均
激活?
tensorflow
、
memory
、
keras
、
neural-network
、
backpropagation
我需要帮助理解记忆需求
的
神经网络和他们之间
的
训练和评估过程
的
区别。更具体地说,培训过程
的
内存需求(我使用
的
是运行在TensorFlow之上
的
Keras )。在前传中,GPU需要额外
的
x*N内存单元(特定
的
数量对问题并不重要)来同时传递所有的样本并计算每个神经元
的
激活。我
的
问题是关于
反向
传播
过程,对于每个样本
的
每个权重
的
特定
梯度
,
浏览 0
提问于2018-11-13
得票数 3
回答已采纳
3
回答
在
神经网络
中
,是否有可能用一个以上
的
输入进行
梯度
下降?
neural-network
、
gradient-descent
、
backpropagation
我最近读了一些教程、例子,所有的(不确定是否只是为了演示目的)都为一个输入做了
梯度
下降。为了深入了解
反向
传播
,我编写了一个程序来做
反向
传播
在线性/logistic回归中,通过多个输入和输出对成本
的
平均
值进行
梯度
下降是有意义
的
,因为只有一层权重,
而
输入直接影响输出。
在
神经网络
的
情况下,我们得到一层激活(输出),我们有一个形状匹配
的
期望输出,所以我们通过减去
浏览 0
提问于2020-07-28
得票数 0
回答已采纳
1
回答
关于神经网络模型
的
查询
neural-network
、
supervised-learning
、
matlab
、
accuracy
、
training
利用matlab
中
的
神经网络工具箱对数据进行训练。我使用了四种训练算法:缩放共轭
梯度
(SCG)、带动量
梯度
下降和自适应学习
反向
传播
(GDX)、弹性
反向
传播
(RBP)和Broyden Goldfarb-Shanno拟牛顿
反向
传播
(BFG)。我已将种子固定在不同
的
点上,并获得了精确度。我得到
的
是: 第一列包含功能集
的
大小。我
增加
了特性并
浏览 0
提问于2016-08-24
得票数 1
回答已采纳
3
回答
具有客观损失
反向
传播
的
梯度
下降并不能使损失最小化
python
、
machine-learning
、
neural-network
、
gradient-descent
下面是实现渐变下降
的
代码: def __init__(self): self.weights= sum((i-j)**2 for i,j in zip(expected_res, actual_res))我试图用它将一组3D点分类为两个不同
的
组calculate_loss()函数是根据物体丢失函数
的
导数(
梯度
)实现
的
浏览 19
提问于2022-10-18
得票数 0
回答已采纳
1
回答
如何利用火炬优化LSTM
中
的
梯度
流?
time-series
、
lstm
、
pytorch
、
recurrent-neural-network
我
在
lstm中使用
时间
序列数据,我在网络
的
梯度
中观察到了一个问题。我有121个lstm细胞。对于每个单元格,我有一个输入值,我得到一个输出值。一旦得到输出(尺寸为121,121,1
的
张量),我就使用MSELoss()计算损失,并将其
反向
传播
。问题就在这里。查看每个单元格
的
梯度
,我注意到前100个单元格
的
梯度
(或多或少)是空
的
。理论上,如果我没有错的话,当我
反向
<e
浏览 2
提问于2019-04-27
得票数 4
回答已采纳
2
回答
BPTT与消失
梯度
问题
deep-learning
、
rnn
、
backpropagation
我知道BPTT是
在
RNN上应用
反向
传播
的
方法。但这不正是消失
梯度
问题吗?如果它是相同
的
,那么
为什么
它有两个名称,一个是问题,一个是方法。 如果没有,我在这里错过了什么,他们之间有什么区别?
浏览 0
提问于2019-08-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
放弃反向传播后,Geoffrey Hinton参与的前向梯度学习重磅研究来了
3 张PPT理解如何训练 RNN
人工智能系列(七)深度学习中的梯度下降与反向传播
深度学习与神经科学相遇(二)译
为什么我们需要一个比反向传播更好的学习算法?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券