前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >第一次测试题总结

第一次测试题总结

作者头像
Flaneur
发布于 2020-03-25 03:16:52
发布于 2020-03-25 03:16:52
4950
举报

前言

这里是一些暑期培训第一次测试题的部分解释,经过这次测试的摧残,总结备录一下,方便日后回顾复习。

Feeling

        经过几天的学习,7月22日下午,进行了第一次检测。开始以为会让我们推导一些公式什么的,结果当拿到测试题的时候,一首凉凉送给自己……开始的选择题和填空题还能接受,看到简答题,这都是什么,有种似曾相识的感觉,但就是写不出来。为时四十分钟的考试结束后,不到半个小时成绩就出来了,虽然成绩不那么好,但排名还行,然后学长给我们进行了讲解答疑,发现自己学的有点粗糙,没有注意那些细节性问题和概念,学以致用这方面也是有点差的。

Test 1

为什么一般需要划分出额外的校验集(validation set)用于超参数调整,而不选择直接使用测试集(test set)?

        校验集是用于调整超参数的,从而更好的优化训练模型。测试集是用于在完成神经网络训练过程后,为了客观评价模型在其未见过(未曾影响普通参数和超参数选择)的数据上的性能,而且测试集不能提出对参数或者超参数的修改意见,只能作为评价网络性能的一个指标

(备注:不清楚这三个数据集概念及其作用的,可看下我以前写的关于这些的一篇文章。传送门:)

Test 2

批量梯度下降(Batch Gradient Descent)和随机梯度下降(Stochastic Gradient Descent)在应对鞍点时有何不同表现?

        我们要先知道什么是BGD和SGD,从两者的运算方法上,我们就可以得知不同之处。

(1)批量梯度下降法(Batch Gradient Descent) :在更新参数时都使用所有的样本来进行更新。

  • 优点:全局最优解,能保证每一次更新权值,都能降低损失函数;易于并行实现。
  • 缺点:当样本数目很多时,训练过程会很慢。

(2)随机梯度下降法(Stochastic Gradient Descent):在更新参数时都使用一个样本来进行更新。每一次跟新参数都用一个样本,更新很多次。如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经将参数迭代到最优解了,对比上面的批量梯度下降,迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次,这种方式计算复杂度太高。

  • 优点:训练速度快;
  • 缺点:准确度下降,并不是全局最优;不易于并行实现。从迭代的次数上来看,随机梯度下降法迭代的次数较多,在解空间的搜索过程看起来很盲目。噪音很多,使得它并不是每次迭代都向着整体最优化方向。

Test 3

当一个模型训练完后若在训练集上的loss非常高,请问如何在不对代码进行全面排查的前提下,以最快速度定位是模型本身的拟合能力不足还是代码的实现存在某种错误?

        废话不多说,直接上图:

Test 4

假设我们在训练一个使用Sigmoid激活函数的全连接神经网络。在对其权重进行初始化时,为什么一般会倾向于让初始值的绝对值偏小?如果需要这样,为何不直接使用0进行初始化?

        对于逻辑回归,把权重初始化为0当然也是可以的,但是对于一个神经网络,如果你把权重或者参数都初始化为0,那么梯度下降将不会起作用。         如果权值全初始化为0,则无法更新权值。这是由于前向传播中,所有节点输出值均相同,由于此处使用了sigmod激活函数,所以此处所有神经节点输出都为1/2,而在反向传播每个节点输出值对损失函数的偏导时,涉及到对权值相乘后的求和,该项永远为0,故所乘的结果也必然为0,这样在计算权值对算是函数的偏导时,其偏导必然为0,所有权值偏导都为0,那么就不要指望使用梯度下降法能更新权值了,自然神经网络的训练也就无法进行下去了。

Test 5

在CNN中梯度不稳定指的是什么?在神经网络训练过程中,为什么会出现梯度消失的问题?如何解决?

        神经网络中的梯度不稳定指的是梯度消失梯度爆炸问题。 (备注:对于这两种问题的具体解释和为什么会出现这种问题,以及解决方法,这里不具体讨论了,我会在以后的文章中具体解释到的。)

Test 6

为什么在神经网络中使用交叉熵而不是均方差作为误差函数?

1. 神经网络中如果预测值与实际值的误差越大,那么在反向传播训练的过程中,各种参数调整的幅度就要更大,从而使训练更快收敛,如果预测值与实际值的误差小,各种参数调整的幅度就要小,从而减少震荡。 2. 使用平方误差损失函数,误差增大参数的梯度会增大,但是当误差很大时,参数的梯度就会又减小了。 3. 使用交叉熵损失是函数,误差越大参数的梯度也越大,能够快速收敛。

        (备注:对于结论的推导过程会总结在另一篇文章里。)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【数据挖掘】神经网络 后向传播算法 ( 梯度下降过程 | 梯度方向说明 | 梯度下降原理 | 损失函数 | 损失函数求导 | 批量梯度下降法 | 随机梯度下降法 | 小批量梯度下降法 )
1 . 后向传播算法 : 针对每个数据样本 , 从输入层到输出层传播输入 , 这是向前传播输入 , 然后从输出层向输入层传播误差 , 这是向后传播误差 ;
韩曙亮
2023/03/27
1K0
【数据挖掘】神经网络 后向传播算法 ( 梯度下降过程 | 梯度方向说明 | 梯度下降原理 | 损失函数 | 损失函数求导 | 批量梯度下降法 | 随机梯度下降法 | 小批量梯度下降法 )
梯度下降法的三种形式BGD、SGD、MBGD及python实现
        梯度下降法作为机器学习中较常使用的优化算法,其有着三种不同的形式:批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch Gradient Descent)。其中小批量梯度下降法也常用在深度学习中进行模型的训练。接下来,我们将对这三种不同的梯度下降法进行理解。 为了便于理解,这里我们将使用只含有一个特征的线性回归来展开。
Flaneur
2020/03/25
3.6K0
神经网络的反向传播
梯度下降法是一种优化算法,用于寻找目标函数的最小值。梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处变化最快的方向。在数学上,梯度就是关于输入的偏导数。
@小森
2024/05/03
1260
神经网络的反向传播
批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)
在机器学习中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,以便找到最优的参数。 梯度下降法作为机器学习中较常使用的优化算法,在其求解过程中,只需要求解损失函数的一阶导数,计算的代价比较小。 基本思想可以理解为:我们从山上的某一点出发,找一个最抖的坡走一步(也就是找梯度方向),到达一个点之后,再找最陡的坡,再走一步,直到不断的走,走到最低点(最小花费函数收敛点)
全栈程序员站长
2022/09/30
3.7K0
批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)
深度学习三十问!一位算法工程师经历30+场CV面试后总结的常见问题合集(含答案)
作者灯会为21届中部985研究生,凭借自己整理的面经,去年在腾讯优图暑期实习,七月份将入职百度cv算法工程师。在去年灰飞烟灭的算法求职季中,经过30+场不同公司以及不同部门的面试中积累出了CV总复习系列,此为深度学习上篇。
昱良
2021/07/01
8970
深度学习三十问!一位算法工程师经历30+场CV面试后总结的常见问题合集(含答案)
机器学习算法(1)--梯度下降法的几种形式
阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结   在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下
IT派
2018/03/29
8520
机器学习算法(1)--梯度下降法的几种形式
机器学习_最优化
是关于Θ的一个函数,我们当前所处的位置为Θ0点,要从这个点走到J的最小值点\nabla 是梯度,\alpha是学习率或者步长
AomanHao
2022/01/13
6960
深度学习500问——Chapter02:机器学习基础(2)
1. 为了得到训练逻辑回归模型的参数,需要一个代码函数,通过训练代价函数来得到参数。
JOYCE_Leo16
2024/03/19
2550
深度学习500问——Chapter02:机器学习基础(2)
梯度下降法的三种形式BGD、SGD以及MBGD
在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以线性回归算法来对三种梯度下降法进行比较。 一般线性回归函数的假设函数为: hθ=∑j=nθjxj 对应的能量函数(损失函数)形式为: Jtrain(θ)=1/(2m)∑i=1m(hθ(x(i))−y(i))2 下图为一个二维参数(θ和θ1)组对应能量函数的可视化图: 1. 批量梯度下降法BGD 批量梯度下降法(Batch Gradient Desc
企鹅号小编
2018/02/06
8680
梯度下降法的三种形式BGD、SGD以及MBGD
CS231n:3 优化器
因此,如果一组参数的预测结果和真标签值相符合,那么它的损失值就会很小。下面将介绍图像识别任务的最后一个关键组成部分,优化器。优化器用于寻找一组参数使得损失函数值最小化。
Here_SDUT
2022/08/08
4070
CS231n:3 优化器
NO.2 《机器学习期末复习篇》以题(问答题)促习(人学习),满满干huo,大胆学大胆补!
现有一组某市的房价与其位置数据如表 2-12 所示,其中 D 表示房屋到市中心的直线距离,单位为 km,R 表示房屋单价,单位为元/m²。
用户11315985
2025/01/09
1350
NO.2 《机器学习期末复习篇》以题(问答题)促习(人学习),满满干huo,大胆学大胆补!
线性回归的求解:矩阵方程和梯度下降、数学推导及NumPy实现
我的网站公式显示效果更好:https://lulaoshi.info/machine-learning/linear-model/minimise-loss-function.html,欢迎访问。
PP鲁
2020/05/26
2.5K0
线性回归的求解:矩阵方程和梯度下降、数学推导及NumPy实现
回归与梯度下降法及实现原理
回归与梯度下降 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。大概就是,做一个房屋价值的评估系统,一个房屋的价值来自很多地方,比如说面积、房间的数量(几室几厅)、地 段、朝向等等,这些影响房屋
Angel_Kitty
2018/04/08
1.3K0
回归与梯度下降法及实现原理
从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法
选自 Neuraldesigner 作者:Alberto Quesada 机器之心编译 参与:蒋思源 在神经网络中,系统的学习过程一般是由训练算法所主导。而现如今有许多不同的学习算法,它们每一个都有不同的特征和表现。因此本文力图描述清楚五大学习算法的基本概念及优缺点,给读者们阐明最优化在神经网络中的应用。 问题形式化 神经网络中的学习过程可以形式化为最小化损失函数问题,该损失函数一般是由训练误差和正则项组成。误差项会衡量神经网络拟合数据集的好坏,也就是拟合数据所产生的误差。正则项主要就是通过给特征权重增加罚
机器之心
2018/05/07
1.8K0
从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法
实例解析神经网络的工作原理
在机器学习和相关领域,人工神经网络的计算模型灵感正是来自生物神经网络:每个神经元与其他神经元相连,当它兴奋时,就会像相邻的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个阈值,那么它就会被激活(兴奋),向其他神经元发送化学物质。
算法进阶
2023/11/27
3090
实例解析神经网络的工作原理
常用机器学习算法汇总比较(完)
常用机器学习算法汇总比较的最后一篇,介绍提升(Boosting)算法、GBDT、优化算法和卷积神经网络的基本原理、优缺点。
kbsc13
2019/08/16
7550
一文概览神经网络优化算法
机器学习的优化(目标),简单来说是:搜索模型的一组参数 w,它能显著地降低代价函数 J(w),该代价函数通常包括整个训练集上的性能评估(经验风险)和额外的正则化(结构风险)。与传统优化不同,它不是简单地根据数据的求解最优解,在大多数机器学习问题中,我们关注的是测试集(未知数据)上性能度量P的优化。
算法进阶
2022/06/02
1.1K0
一文概览神经网络优化算法
神经网络基础:反向传播算法
反向传播(Backpropagation,简称 BP)是目前用来训练人工神经网络(Artificial Neural Network,简称 ANN)算法最常用、最有效的方法。
HyperAI超神经
2019/11/29
1.5K0
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW
如果我们定义了一个机器学习模型,比如一个三层的神经网络,那么就需要使得这个模型能够尽可能拟合所提供的训练数据。但是我们如何评价模型对于数据的拟合是否足够呢?那就需要使用相应的指标来评价它的拟合程度,所使用到的函数就称为损失函数(Loss Function),当损失函数值下降,我们就认为模型在拟合的路上又前进了一步。最终模型对训练数据集拟合的最好的情况是在损失函数值最小的时候,在指定数据集上时,为损失函数的平均值最小的时候。
汀丶人工智能
2023/04/06
2.2K0
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW
【深度学习】机器学习概述(二)优化算法之梯度下降法(批量BGD、随机SGD、小批量)
机器学习:通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。   机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并可以将总结出来的规律推广应用到未观测样本上。
Qomolangma
2024/07/30
2260
【深度学习】机器学习概述(二)优化算法之梯度下降法(批量BGD、随机SGD、小批量)
推荐阅读
【数据挖掘】神经网络 后向传播算法 ( 梯度下降过程 | 梯度方向说明 | 梯度下降原理 | 损失函数 | 损失函数求导 | 批量梯度下降法 | 随机梯度下降法 | 小批量梯度下降法 )
1K0
梯度下降法的三种形式BGD、SGD、MBGD及python实现
3.6K0
神经网络的反向传播
1260
批量梯度下降法(BGD)、随机梯度下降法(SGD)和小批量梯度下降法(MBGD)
3.7K0
深度学习三十问!一位算法工程师经历30+场CV面试后总结的常见问题合集(含答案)
8970
机器学习算法(1)--梯度下降法的几种形式
8520
机器学习_最优化
6960
深度学习500问——Chapter02:机器学习基础(2)
2550
梯度下降法的三种形式BGD、SGD以及MBGD
8680
CS231n:3 优化器
4070
NO.2 《机器学习期末复习篇》以题(问答题)促习(人学习),满满干huo,大胆学大胆补!
1350
线性回归的求解:矩阵方程和梯度下降、数学推导及NumPy实现
2.5K0
回归与梯度下降法及实现原理
1.3K0
从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法
1.8K0
实例解析神经网络的工作原理
3090
常用机器学习算法汇总比较(完)
7550
一文概览神经网络优化算法
1.1K0
神经网络基础:反向传播算法
1.5K0
深度学习基础入门篇[三]:优化策略梯度下降算法:SGD、MBGD、Momentum、Adam、AdamW
2.2K0
【深度学习】机器学习概述(二)优化算法之梯度下降法(批量BGD、随机SGD、小批量)
2260
相关推荐
【数据挖掘】神经网络 后向传播算法 ( 梯度下降过程 | 梯度方向说明 | 梯度下降原理 | 损失函数 | 损失函数求导 | 批量梯度下降法 | 随机梯度下降法 | 小批量梯度下降法 )
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档