腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
随机
梯度
下降分批
、
、
、
我对回归很陌生,我们
在
一门课程中做了一个非常简单
的
练习。我采取了一个基本
的
了解GD和SGD
的
线性回归。据我理解,GD和SGD之间唯一
的
区别是,SGD不像GD中
的
处理那样对数据集大小m执行算法,而是对m
的
子集执行操作。我
的
问题是,对于SGD来说,是简单地
在
小型
批处理
上执行算法,还是有某种结果
的
求和来给出最终
的
答案?抱歉,如果我没有用正确
的
术语来问,我对一些涉及<em
浏览 0
提问于2018-04-24
得票数 0
回答已采纳
2
回答
如何处理火炬中
的
小批量损失?
、
= model.neg_log_likelihood(sentences, tags, length)optimizer.step() loss.backward()或者,使用平均损失,就像tensorflow中
的
reduce_mean
浏览 0
提问于2019-03-27
得票数 5
2
回答
GD、批GD、SGD和小型
批处理
SGD有什么不同?
、
、
这四种
梯度
下降
函数
之间有何不同?批GD小批量SGD
浏览 0
提问于2019-06-15
得票数 3
回答已采纳
1
回答
批处理
梯度
下降
的
Sklearn实现
、
、
采用滑雪板进行分类是如何实现
批处理
梯度
下降
的
?本文给出了随机GD
的
SGDClassifier (一次单实例)和线性/Logistic回归(采用正规方程)。
浏览 0
提问于2019-04-06
得票数 2
回答已采纳
1
回答
为什么渐变检查在批归一化不起作用?
、
、
、
我有一个具有学习速度、动量、L1/L2正则化和批归一化
的
神经网络
的
自实现。当我执行
梯度
检查时,所有
梯度
都是正确
的
,除非我使用
批处理
归一化。我编写了python代码,仅用于测试
批处理
规范化
上
的
梯度
检查:我
浏览 1
提问于2018-04-28
得票数 0
1
回答
如何
计算
损失
函数
?
、
、
、
、
我希望你做得好,我想问一个关于神经网络中损失
函数
的
问题。我知道,对训练集中
的
每个数据点
计算
损失
函数
,然后根据是否使用
批处理
梯度
下降(在所有数据点通过后进行反向传播)、小
批处理
梯度
下降(
批处理
后进行反向传播)或随机
梯度
下降(
在
每个数据点之后进行反向传播)进行反向传播现在让我们来看看MSE损失
函数
:为什么n是数据点
的
数目?,因为如果我们
浏览 0
提问于2022-05-25
得票数 1
回答已采纳
2
回答
带Dropout层
的
Keras小型
批处理
梯度
下降
、
、
、
、
任何不使用参数
的
训练案例都会为该参数贡献0
的
梯度
。
在
查看源代码
浏览 5
提问于2020-02-19
得票数 0
1
回答
LSTM批量大小和序列长度对内存
的
影响
、
、
、
我有一个关于批次大小和顺序长度
的
问题。假设我有10个不同
的
独立时间序列,每个时间序列
的
长度为100。现在,第一次尝试,假设我可以输入长度为100
的
测试样本。我该怎么做?我会创建一个LSTM,然后一次输入形状为10,100,1
的
数据吗?或者我会输入形状为1,100,10次
的
数据吗?这里
浏览 0
提问于2018-07-27
得票数 0
1
回答
文本二值分类训练中
的
波动损失
、
、
、
、
我在网上读到
的
原因可能是: 太高
的
学习率,但我尝试了3个数值(1e-4,1e-5和1e-6),它们都取得了同样
的
效果。一小批大小我使用
的
是一台笔记本电脑p2.8xlarge,它有8xK80GPU。我可以使用
的
每一个GPU
的
批处理
大小,以避免CUDA内存错误为1。所以
批处理
的
总大小是8。我
的
直觉是,对于包含57K示例
的
数据集(每个时代7K步)来说,8
的
bs太小了。不幸
的<
浏览 2
提问于2020-09-04
得票数 5
1
回答
如何在TensorFlow中
计算
子
梯度
?
、
TensorFlow中
的
自动微分过程是否
在
需要时
计算
次
梯度
?如果有许多子
梯度
,那么将选择哪一个作为输出?我正在尝试
在
link <code>C0</code>中实现这篇论文,它使用递归神经网络来执行有效
的
语言解析。目标
函数
使用铰链损失
函数
来选择最优输出向量,这使得该
函数
不可微。我
在
急切模式下使用TensorFlow (v1.12)对模型进行编程,并使用自动微分来<em
浏览 21
提问于2019-04-02
得票数 0
回答已采纳
1
回答
神经网络回归最小批次尺寸
的
选择
、
我正在做一个具有4个特征
的
神经网络回归。如何确定我
的
问题
的
小批
的
大小?我看到人们
在
计算
机视觉中使用100 ~ 1000批大小,每幅图像有32*32*3特征,这是否意味着我应该使用100万
批处理
?我有数十亿
的
数据和数十GB
的
内存,所以没有硬性要求我不这样做。 我还观察到,使用一个小于1000
的
小
批处理
,其收敛速度比100万批大得多。我认为应该是相反
的
,因为用较大
的
批
浏览 3
提问于2016-11-10
得票数 1
回答已采纳
1
回答
colocate_gradients_with_ops论点在TensorFlow?
、
我试图理解这个论点
的
作用,AdamOptimizer
的
的
compute_gradients方法这样说- colocate_gradients_with_ops:如果是的话,试着用相应
的
op来
计算
渐变。在这种情况下,共分
梯度
意味着什么?所述op是什么?
浏览 3
提问于2018-02-12
得票数 3
回答已采纳
1
回答
Keras:“样本权重”是否参与了这些衍生产品
、
、
、
根据Keras文档
的
说法,sample_weight可以用于训练数据中
的
任何样本
在
损失中
的
不同重要性。我
在
谷歌
上
搜索了一下,但没有找到我
的
问题
的
答案如下:因为损失
函数
实际
上
并不是基于样本权重来
浏览 0
提问于2020-03-21
得票数 6
2
回答
随机
梯度
下降中
的
随机部分是什么?
、
、
根据我
的
理解,一个随机过程,其值
在
某一时刻取决于先前采取
的
值,而且每次运行该过程时,所选择
的
路径可能是不同
的
。
在
一定
的
初始播种值之后,我们只能知道这个过程
的
限制和限制。利用随机
梯度
下降法对神经网络
的
权值进行更新。它
的
随机部分是什么?在对变量进行某些初始化之后,如果在每次测试初始化后提供相同
的
输入数据集,则累积
的
错误
函数
将是相同
的
浏览 0
提问于2017-09-28
得票数 3
1
回答
的
批次大小。或者:如何诊断神经网络
的
偏差/方差?
、
、
我目前正在使用ScikitLearn中
的
两个类处理一个分类问题,其中有求解器adam和激活relu。为了探索我
的
分类器是否存在高偏差或高方差,我用Scikitlearns内置
函数
绘制了学习曲线: 应该是这样
的
吗?我认为学习曲线是根据独立于任何批次/时代
的
训练数据来处理准确性分数
的
吗?对于
批处理
方法,
浏览 1
提问于2019-03-26
得票数 1
回答已采纳
3
回答
美国有线电视新闻网何时更新权重?
、
、
、
、
在
CNNs中,我们什么时候使用反向传播更新内核参数?假设我
的
批号为50,训练数据为1000。我是
在
每个批次提交到网络后还是
在
每个数据样本之后进行反向传播?
浏览 0
提问于2018-02-03
得票数 7
回答已采纳
1
回答
计算
坡度
的
平均值
我目前正在研究反向传播过程和
梯度
体面算法,形成了由Michael和3 Blue1Brown通道
在
YouTube中编写
的
“神经网络和深度学习”一书。我
的
问题是
计算
梯度
体面算法中
的
梯度
(整个数据集作为输入)。📷 例如,我们有100万张手写数字图像,通过第一次迭代,我们向网络提供了这100万张图像。然后
计算
出每幅图像
的
梯度
,并在更新权重之
浏览 0
提问于2019-11-06
得票数 2
回答已采纳
1
回答
tf.train.RMSPropOptimizer(lr_rate).compute_gradients?和tf.gradients有什么区别?
、
、
、
、
两者有什么区别?和如果有什么不同,比如说我想使用tf.train.RMSPropOptimizer(self.lr_rate).apply_gradients(),哪一种更好呢?
浏览 7
提问于2016-12-23
得票数 4
1
回答
神经网络:时代与批次大小
、
、
我正在尝试训练一个神经网络来将单词分类为不同
的
类别。我注意到两件事:更重要
的
是,当我使用更大
的
EPOCH值时,我
的
模型
在
减少损失方面做得很好。但是,我使用
的
是一个非常大
的
值(EPOCHS = 10000)。 问题:如何获得最优
的
EPOCH和
浏览 3
提问于2020-10-23
得票数 3
回答已采纳
1
回答
使用tensorflow进行线性回归
的
神经网络
、
、
、
我刚刚开始学习tensorflow,并且正在实现一个线性回归
的
神经网络。我遵循了一些在线教程,能够写出代码。我没有使用激活
函数
,而是使用MSE(tf.reduce_sum(tf.square(output_layer - y)))。当我运行代码时,我得到了Nan作为预测
的
准确性。我使用
的
代码如下所示X = tf.placeholder("float", shape=[None, x_size]) y = tf.placeholder("floataccuracy
浏览 0
提问于2017-03-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么梯度是函数变化最快的方向
在 PyTorch 中使用梯度检查点在GPU 上训练更大的模型
EXCEL函数学习,DATEDIF函数,日期计算的利器
使用python的log函数计算对数
切片上的健壮范型函数
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券