首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

吴恩达 —— 深度学习 Course 1 笔记

“回归”问题尝试把输入变量映射到一些连续函数上,预测连续输出结果;“分类”问题尝试把输入变量映射到离散类别当中,预测离散输出结果。 以下是一些监督学习例子: ?...吴恩达矩阵表示:用列向量表示一个样本,因此 X.shape==(n_x,m),n_x 表示特征数,m 是样本大小。 ? ?...2.14 向量化实现logistic回归完整流程: 左边是for循环一次梯度下降,右边是向量化1000次梯度下降: 注意点:在右边量化中,np.dot(a,b) 是按照矩阵乘法运算进行...Leaky ReLU(带泄露修正线性单元): 优点:解决了ReLU有一半梯度0问题;缺点:需要调参来找到一个好缓慢下降参数,不常用。...---- [4] Week4:深层神经网络 4.1 深层神经网络表示 ? 4.2 深层网络中传播 ? 4.3 核对矩阵维数 核对矩阵维数可以帮助我们检查算法是否正确: ?

80580

4 多变量线性回归(Linear Regression with Multiple Variables)

=1) 4.3 梯度下降实践1-特征值缩放(Gradient Descent in Practice I - Feature Scaling) 在应用梯度下降算法实践,由于各特征值范围不一,可能会影响代价函数收敛速度...左图中呈现图像较扁,相对于使用特征缩放方法右图,梯度下降算法需要更多次迭代。 为了优化梯度下降收敛速度,采用特征缩放技巧,使各特征值范围尽量一致。...=1) 4.3 梯度下降实践1-特征值缩放(Gradient Descent in Practice I - Feature Scaling) 在应用梯度下降算法实践,由于各特征值范围不一,可能会影响代价函数收敛速度...左图中呈现图像较扁,相对于使用特征缩放方法右图,梯度下降算法需要更多次迭代。 为了优化梯度下降收敛速度,采用特征缩放技巧,使各特征值范围尽量一致。...X': 在 Octave 中表示矩阵 X 转置,即 XT 下表列出了正规方程梯度下降算法对比 条件 梯度下降 正规方程

74730
您找到你想要的搜索结果了吗?
是的
没有找到

【机器学习】浅谈正规方程&梯度下降

选读 正规方程(最小二乘)与梯度下降法都是为了求解线性回归最优参数,但是不同是正规方程只需要一步就可以得到代价函数最优点,而梯度下降则是迭代下降,看起来似乎正规方程要好得多,但实际梯度下降使用场景更多...,下面我们介绍这两种算法以及优缺点 一、梯度下降 1.1 一个参数 我们从最简单线性方程解释,后面推广到多个参数方程 典型房价预测问题 我们假设其数据模型线性回归模型,方程如下...),所以这里方程 也可以表示 (即求导数)。...所在代价函数区间是单调递减的如图(蓝线标记),此时 图片 减去一个负数, 往右边退(代价函数最小值靠近) 1.3学习率 \alpha 有时我们迭代方程下降,可能很缓慢, 需要走很多步...据范围分别是是【0~1000,0 ~5】或者【-0.00004 ~ 0.00002,10 ~ 30】, 那么在使用梯度下降算法,他们等高线是一个又窄又高等高线,如下图: 在梯度下降算法中,参数更新就会如上图左右震荡

1.5K50

算法优化之道:避开鞍点

这就是梯度下降算法(gradient descentalgorithm)。 每当梯度∇f(x)不等于零时候,只要我们选择一个足够小步长η,算法就可以保证目标函数局部最优解前进。...当梯度∇f(x)等零向量,该点称为临界点(critical point),此时梯度下降算法就会陷入局部最优解。...然而,对于非凸函数,仅仅考虑梯度等于零向量远远不够。来看一个简单实例: y=x12−x22. 当x=(0,0)梯度零向量,很明显此点并不是局部最小值点,因为当x=(0,ϵ)函数值更小。...为了形式化这种直觉,我们将尝试使用一个带有噪声梯度下降法(noisy gradient descent) y=x−η∇f(x)+ϵ. 这里ϵ是均值0噪声向量。...当存在退化鞍点,或者有伪局部最小值点,我们又该如何使优化算法工作呢?我们希望有更多研究者对这类问题感兴趣!

1.3K30

清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!

为了实现这一目标,研究者仔细分析了Transformer中激活和梯度具体结构,它们提出专用量化器。 对于前传播,研究者确定了异常值挑战,并提出了Hadamard量化器来抑制异常值。...随机数值线性代数 (RandNLA) 领域进步,被这种量化器充分利用。 对于前传播,研究者发现,激活中异常值是精度下降主要原因。...FQT研究设计了新颖数值格式和量化算法,可以更好地逼近全精度张量。 目前研究前沿是4位FQT。由于梯度数值范围很大以及从头开始训练量化网络优化问题,FQT具有挑战性。...不幸是,Transformers倾向于将信息存储在这些异常值中,而且这样截断会严重损害准确性。 当训练任务是在一些新下游任务上微调预训练模型,异常值问题尤为明显。...高级思路是:梯度许多行都是如此小,对参数梯度影响很小,但浪费了大量计算量。 另一方面,大行无法用INT4精确表示。 我们放弃掉一些小行并使用节省下来计算能力来更准确地表示大行。

24810

深度学习利器之自动微分(1)

梯度本意是一个向量(矢量),表示某一函数在该点处方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度方向)变化最快,变化率最大(梯度模)。...反向传播关键是将潜在解决方案模式(template)组织一个有图。通过反向遍历这个图,算法能够自动计算"梯度向量”,而这个"梯度向量" 能引导算法寻找越来越好解决方案。...在这个空间中,搜索过程可以利用反向传播和随机梯度下降满足要求。 Karpathy认为,在现实世界中,大部分问题都是收集数据比明确地编写程序更容易。...从导数原始定义中,我们可以直观看到前差分公式: 当h取很小数值,比如0.000001 ,导数是可以利用差分来近似计算出来。只需要给出函数值以及自变量差值,数值微分算法就可计算出导数值。...但是通常情况下我们无法得到驻点解析解,因此只能采用数值优化算法,如梯度下降法,牛顿,拟牛顿等等。这些数值优化算法都依赖于函数一阶导数值或二阶导数值(包括梯度与Hessian矩阵)。

1.2K31

【机器学习】Logistic 分类回归算法 (二元分类 & 多元分类)

函数惩罚很大 同样符合代价函数性质 至此,我们定义了关于单变量数据样本分类代价函数,我们所选择代价函数可以为我们解决代价函数非凹函数问题以及求解参数最优,接下来我们使用梯度下降算法来拟合...关于向量化,可以参考文章 【机器学习】向量化计算 – 机器学习路上必经路 同样,在对于线性回归梯度下降中,我们使用到了特征缩放数据标准化,同样,这对于 logistic 回归算法同样适用。...数据标准化可参考文章: 【机器学习】梯度下降之数据标准化 五、高级优化算法 高级优化算法,与梯度下降相比能够大大提高 logistic 回归速度,也使得算法更加适合大型数据集机器学习问题。...除了使用梯度下降算法,还有诸多如下算法 优点如下 不需要选择学习率 \alpha ( 存在智能内循环,智能选择最佳学习率 \alpha 下降速率快得多 缺点 太过于复杂了 在实际解决问题中,我们很少通过自己编写代码求平方根或者求逆矩阵...在logistic回归中,我们使用如下 \theta 参数向量 (使用参数向量化) 所以在实现这些高级算法,其实是使用不同高级库函数,虽然这些算法在调试过程中,更加麻烦,但是其速度远远大于梯度下降

1.9K10

【机器学习界“Hello World“ 】Logistic 分类回归算法 (二元分类 & 多元分类)

函数惩罚很大 同样符合代价函数性质图片至此,我们定义了关于单变量数据样本分类代价函数,我们所选择代价函数可以为我们解决代价函数非凹函数问题以及求解参数最优,接下来我们使用梯度下降算法来拟合 $...关于向量化,可以参考文章 【机器学习】向量化计算 -- 机器学习路上必经路图片同样,在对于线性回归梯度下降中,我们使用到了特征缩放数据标准化,同样,这对于$logistic$ 回归算法同样适用。...数据标准化可参考文章: 【机器学习】梯度下降之数据标准化五、高级优化算法高级优化算法,与梯度下降相比能够大大提高 $logistic$ 回归速度,也使得算法更加适合大型数据集机器学习问题。...除了使用梯度下降算法,还有诸多如下算法图片优点如下不需要选择学习率$\alpha$ ( 存在智能内循环,智能选择最佳学习率$\alpha$下降速率快得多缺点太过于复杂了在实际解决问题中,我们很少通过自己编写代码求平方根或者求逆矩阵...在logistic回归中,我们使用如下$\theta$参数向量 (使用参数向量化)图片所以在实现这些高级算法,其实是使用不同高级库函数,虽然这些算法在调试过程中,更加麻烦,但是其速度远远大于梯度下降

23530

【机器学习界“Hello World“ 】Logistic 分类回归算法 (二元分类 & 多元分类)

函数惩罚很大 同样符合代价函数性质 至此,我们定义了关于单变量数据样本分类代价函数,我们所选择代价函数可以为我们解决代价函数非凹函数问题以及求解参数最优,接下来我们使用梯度下降算法来拟合...关于向量化,可以参考文章 【机器学习】向量化计算 – 机器学习路上必经路 同样,在对于线性回归梯度下降中,我们使用到了特征缩放数据标准化,同样,这对于 logistic 回归算法同样适用。...数据标准化可参考文章: 【机器学习】梯度下降之数据标准化 五、高级优化算法 高级优化算法,与梯度下降相比能够大大提高 logistic 回归速度,也使得算法更加适合大型数据集机器学习问题。...除了使用梯度下降算法,还有诸多如下算法 优点如下 不需要选择学习率 \alpha ( 存在智能内循环,智能选择最佳学习率 \alpha 下降速率快得多 缺点 太过于复杂了 在实际解决问题中,我们很少通过自己编写代码求平方根或者求逆矩阵...在logistic回归中,我们使用如下 \theta 参数向量 (使用参数向量化) 所以在实现这些高级算法,其实是使用不同高级库函数,虽然这些算法在调试过程中,更加麻烦,但是其速度远远大于梯度下降

29430

神经网络和深度学习(吴恩达-Andrew-Ng):一二周学习笔记

这里梯度,这条线斜率,在这左边是0,我们发现,只需将sigmoid函数转换为ReLU函数便能够使得"梯度下降法"运行更快,这就是一个例子关于算法创新。其目的就是增加计算速度。...在logistic回归和神经网络,要用到符号就是这些了。 ? 2.2 logistc回归 这是一个学习算法,用在监督学习中,输出y标签是0或1,这是一个二分分类问题。...当我们开始编写代码,来实现梯度下降,我们会使用到代码中变量名约定,dw用来表示导数,作为导数变量名,那么w:=w-α*dw(:=代表变化取值),现在我们确保梯度下降法中更新是有用。...高度向量化非常高效logistc回归梯度下降法。...numpy.dot()有两种意思: 参数两个列表求两个列表点积,即对应相乘再加和 参数向量与矩阵或者矩阵,则是做矩阵乘法 参数一个m*n矩阵,一个n个元素列表,就结果矩阵每一行对应乘以列表

2.2K10

最新训练神经网络五大算法

一阶导数可以表示一个向量:   ᐁif(w) = df/dwi (i = 1,…,n)   同样,损失函数二阶导数可以表示海森矩阵( Hessian Matrix ):   Hi,jf(w) =...下图描述了此问题。 当神经网络模型非常庞大、包含上千个参数梯度下降方法是我们推荐算法。...它能加快梯度下降法典型慢收敛,同时避免了牛顿对Hessian矩阵评估、存储和反转所需信息。 在共轭梯度训练算法中,搜索沿着共轭方向执行,通常能比梯度下降方向产生更快收敛。...因为它不需要Hessian矩阵,所以当神经网络非常大,也建议使用共轭梯度。...为了解决这个缺点,出现了被称为拟牛顿或可变矩阵替代方法。这种方法在算法每次迭代中建立并逼近Hessian逆矩阵,而不是直接计算Hessian矩阵,然后评估其逆矩阵

2.1K40

非线性回归中Levenberg-Marquardt算法理论和代码实现

下标j表示a可能有多个值,因为函数f依赖于自变量x和一个或多个参数a1, a2,…,aM。在这种情况下,我们需要根据每个参数部分推导函数。当函数导数值,函数最小值才会出现。...在每次迭代中,我们都会函数最小值移动一点。梯度下降两个重要方面是初始猜测和我们在每次迭代采取步骤大小。这种方法效率在这两个方面是非常可靠。 这和非线性回归有什么关系?...好,我们可以使用梯度下降法来求函数s最小值。在这种情况下,我们最小值点所采取每一步都可以表示: ?...该方法根据我们与解接近程度在梯度下降和高斯牛顿之间切换。Levenberg-Marquardt方法表示: ? 在前面的等式中,I表示单位矩阵,并且λ被称为阻尼因子。...其背后逻辑是,高斯-牛顿在最终迭代中更有效,而梯度下降法在过程开始很有用,因为该过程仍距离理想解决方案还很远。

1.6K20

学习笔记 | 吴恩达之神经网络和深度学习

这里梯度,这条线斜率,在这左边是0,我们发现,只需将sigmoid函数转换为ReLU函数便能够使得"梯度下降法"运行更快,这就是一个例子关于算法创新。其目的就是增加计算速度。...在logistic回归和神经网络,要用到符号就是这些了。 ? 符号表示 2.2 logistc回归 这是一个学习算法,用在监督学习中,输出y标签是0或1,这是一个二分分类问题。...当我们开始编写代码,来实现梯度下降,我们会使用到代码中变量名约定,dw用来表示导数,作为导数变量名,那么w:=w-α*dw(:=代表变化取值),现在我们确保梯度下降法中更新是有用。...高度向量化非常高效logistc回归梯度下降法。...softmax函数公式详细 numpy.dot()有两种意思: 参数两个列表求两个列表点积,即对应相乘再加和 参数向量与矩阵或者矩阵,则是做矩阵乘法 参数一个m*n矩阵,一个n个元素列表

1.1K40

机器学习萌新必备三种优化算法 | 选型指南

当前,我们使用最多优化算法之一是梯度下降算法。在本文中,我们会对梯度下降算法以及一些其他优化算法进行介绍,并尝试从理论角度来理解它们。...我们都知道,矩阵转换算法复杂度是非常高(O(n³)),因此牛顿在这种情形下并不常用。 梯度下降 梯度下降是目前为止在机器学习和其他优化问题中使用最多优化算法。...梯度算法基本思想是,在每次迭代中梯度方向走一小步。梯度算法还涉及一个恒定alpha变量,该变量规定每次跨步步长。...当alpha值合理,10次迭代后梯度下降情况 最速下降法 最速下降法和梯度下降法非常相似,但是最速下降法对每次迭代要求步长最优。...其最大问题在于,在优化过程中需要进行矩阵转换,对于多变量情形花销过高(尤其是向量特征较多时候)。 梯度下降(Gradient Descent) 梯度下降是最常用优化算法

31220

机器学习萌新必备三种优化算法 | 选型指南

当前,我们使用最多优化算法之一是梯度下降算法。在本文中,我们会对梯度下降算法以及一些其他优化算法进行介绍,并尝试从理论角度来理解它们。...我们都知道,矩阵转换算法复杂度是非常高(O(n³)),因此牛顿在这种情形下并不常用。 梯度下降 梯度下降是目前为止在机器学习和其他优化问题中使用最多优化算法。...梯度算法基本思想是,在每次迭代中梯度方向走一小步。梯度算法还涉及一个恒定alpha变量,该变量规定每次跨步步长。...当alpha值合理,10次迭代后梯度下降情况 最速下降法 最速下降法和梯度下降法非常相似,但是最速下降法对每次迭代要求步长最优。...其最大问题在于,在优化过程中需要进行矩阵转换,对于多变量情形花销过高(尤其是向量特征较多时候)。 梯度下降(Gradient Descent) 梯度下降是最常用优化算法

46920

梯度下降算法数学原理讲解和Python代码实现

一维情况 下降算法包括构建一个x* (arg min f(x))收敛序列{x},序列构建方法如下: ? 其中k是迭代次数,d是一个与{x}数量相同向量,称为下降向量。...我们尝试其他一些初始值,例如x_ init= [50,-30],该算法经过5次迭代终止。 此算法称为牛顿,所有下降算法都是该方法修改,都以该算法母体。...计算逆矩阵是一项计算量很大任务,因此数学家想出了解决此问题解决方案。 主要是:拟牛顿梯度。拟牛顿尝试使用各种技术来逼近hessian 矩阵逆,而梯度只使用一阶信息。...梯度下降法进行了5000次迭代,而牛顿仅进行了2次!另外,该算法还没有完全达到最小点(1,1)。 想一想。函数导数是该函数变化率。因此,hessian给出了有关梯度变化率信息。...,下面我们用最佳步长编写梯度下降代码!

1.5K20

机器学习三种优化算法,初学者必备!

当前,我们使用最多优化算法之一是梯度下降算法。在本文中,我们会对梯度下降算法以及一些其他优化算法进行介绍,并尝试从理论角度来理解它们。...我们都知道,矩阵转换算法复杂度是非常高( O (n³) ),因此牛顿在这种情形下并不常用。 梯度下降 梯度下降是目前为止在机器学习和其他优化问题中使用最多优化算法。...梯度算法基本思想是,在每次迭代中梯度方向走一小步。梯度算法还涉及一个恒定alpha变量,该变量规定每次跨步步长。...当alpha值合理,10次迭代后梯度下降情况 最速下降法 最速下降法和梯度下降法非常相似,但是最速下降法对每次迭代要求步长最优。...其最大问题在于,在优化过程中需要进行矩阵转换,对于多变量情形花销过高(尤其是向量特征较多时候)。 梯度下降(Gradient Descent) 梯度下降是最常用优化算法

55920

深度网络揭秘之深度网络背后数学

我们将运用我们所知在单个神经元内部原理,矢量化整个层,将这些计算结合到矩阵方程中。方程式将会被编写在选择层中,为了统一符号[l]。顺便说一下,下标i标记该层中神经元索引。 ?...图5,单个层 一个更重要评价:当我们一个单个单元编写方程,我们使用x和y^,它们分别是特征值列向量和预测值,当我们切换到图层一般表示,我们使用向量a - 该向量可以激活相应层。...为了形成关于梯度下降如何工作直观理解(再次引起你注意)我准备了一个小可视化示意图。你可以看到我们从随机点走向最低点每一步。...图8.实际中梯度下降 反向传播 正如我们所需要,反向传播是一种可以让我们计算非常复杂梯度算法,我们可以根据以下公式调整神经网络参数。 ?...在使用神经网络,至少基本了解这个过程是非常有用。我认为我提到这些事情是最重要,但它们仅仅是冰山一角。我强烈建议你尝试自己编写这样一个小神经网络,不使用高级框架,只使用Numpy。

52420

ML算法——最优化|凸优化随笔【机器学习】【端午节创作】

(暂不理解这个步骤2替换如何实现) 2、凸优化 2.1、梯度下降 传送门:ML算法梯度下降随笔 2.2、牛顿 求解无约束最优化问题,优点是收敛速度快。...牛顿是一种迭代算法,用于求解方程式根。其基本思想是利用函数导数信息,不断迭代以逼近方程根。 1)比梯度下降原因?...微分解释,牛顿是二阶收敛,梯度下降是一阶收敛,牛顿在选择方向,不仅可以考虑坡度是否够大,还可以考虑走了一步后坡度是否会更大,因此能更快地走到最底部。...对于非二次型目标函数,不能保证函数值稳定下降,有时会出现 f(x_{k+1})>f(x_k) ,走过头了,消除定步长迭代弊端,阻尼牛顿每次迭代方向仍然是 x_k ,但每次迭代会沿此方向做一维搜索...2)拟牛顿算法过程 图片 图片 图片 2.5、总结 重点是梯度下降法,利用一阶导数,而二阶导数涉及到海森矩阵,具有较大计算量,因此,往往采用梯度下降算法

24310

机器学习入门 6-5 梯度下降量化和数据标准化

一 线性回归中梯度下降量化 前几个小节实现梯度下降时候是通过for循环方式,前面也提到过for循环方式效率低下,因此如果想要提高效率的话只需要将其转换成向量化方式,借助Numpy模块优势提高算法效率...通常情况下向量会被表示成列向量形式,但是如果两个矩阵能够相乘,需要满足第一个矩阵列数等于第二个矩阵行数,很明显如果"式子1"列向量的话不能够进行矩阵乘法,因此如果进行矩阵乘法运算需要将"式子1"...同理,如果想要更好解决梯度下降法中数据规模不同导致收敛问题,同样可以使用数据归一化来处理。...而当我们使用梯度下降时候,事情就变不一样,由于梯度下降中有eta这个变量,首先会出现一个问题,如果最终这些数值不在一个维度上,将会影响梯度结果,而梯度结果乘上eta才是我们真正走步长,此时这个步长就可能太大或者太小...上面创建了一些拥有1000个样本5000个特征样本,可以看出此时梯度下降法比正规方程省了不少时间,当然增大数据量,效果更为明显。

1.2K00
领券