前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从浅层模型到深度模型:概览机器学习优化算法

从浅层模型到深度模型:概览机器学习优化算法

作者头像
机器之心
发布于 2018-05-08 09:32:39
发布于 2018-05-08 09:32:39
1.2K0
举报
文章被收录于专栏:机器之心机器之心

选自arxiv

机器之心编译

参与:乾树、蒋思源

学习算法一直以来是机器学习能根据数据学到知识的核心技术。而好的优化算法可以大大提高学习速度,加快算法的收敛速度和效果。该论文从浅层模型到深度模型纵览监督学习中常用的优化算法,并指出了每一种优化算法的优点及局限性,同时其还包括了一阶和二阶等各种算法的形式化表达。机器之心主要对本论文选择性地编译了优化算法的部分,更详细的推导及介绍请查看原论文。

论文链接:https://arxiv.org/abs/1706.10207

摘要:本篇论文旨在介绍关于将最优化方法应用于机器学习的关键模型、算法、以及一些开放性问题。这篇论文是写给有一定知识储备的读者,尤其是那些熟悉基础优化算法但是不了解机器学习的读者。首先,我们推导出一个监督学习问题的公式,并说明它是如何基于上下文和基本假设产生各种优化问题。然后,我们讨论这些优化问题的一些显著特征,重点讨论 logistic 回归和深层神经网络训练的案例。本文的后半部分重点介绍几种优化算法,首先是凸 logistic 回归,然后讨论一阶方法,包括了随机梯度法(SGD)、方差缩减随机方法(variance reducing stochastic method)和二阶方法的使用。最后,我们将讨论如何将这些方法应用于深层神经网络的训练,并着重描述这些模型的复杂非凸结构所带来的困难。

1 引言

在过去二十年里,机器学习这一迷人的算法领域几乎以史无前例的速度崛起。机器学习以统计学和计算机科学为基础,以数学优化方法为核心。事实上,近来优化方法研究领域中的许多最新理论和实际进展都受到了机器学习和其它数据驱动的学科的影响。然而即使有这些联系,统计学、计算机科学和致力于机器学习相关问题的优化方法研究之间仍存在许多障碍。因此本文试图概述机器学习学习算法而打破这种障碍。

本篇论文的目的是给出与机器学习领域相关的一些关键问题和研究问题的概述。考虑到涉及运筹学领域的知识,我们假设读者熟悉基本的优化方法理论,但是仍将引入在广义机器学习领域使用的相关术语和概念,希望借此促进运筹学专家和其它贡献领域的人员之间的沟通。为了实现这一目的,我们在词汇表 1 中列出了本论文将介绍和使用的最重要的术语。

表 1 : 监督机器学习的术语表(监督机器学习的目的之一就是理解输入空间 X 中每个输入向量 x 和输出空间 Y 中相应输出向量 y 之间的关系)

1.1 阐明动机

1.2 学习问题和优化问题

1.3 学习边界、过拟合和正则化

2 解决Logistic回归问题的优化方法(浅层模型的优化方法)

当 L 和 r 是关于 w 的任意凸函数时,可以运用在本节中讨论的方法来解决问题(11):

这一类中包含很多机器学习模型,包括支持向量机、Lasso(Least Absolute Shrinkage and Selection Operator)、稀疏逆协方差选择等。有关这些模型的详细信息请参见 [86] 和其中的参考文献。为了每一步都能具体(展现出来),此处我们指定以二分类的正则化logistic回归为例(进行讲解)。为了简化例子中的符号,我们作不失一般性的假设,令

。(此处省去了偏置项 b0),这一省略操作可以通过在输入向量上增加一维恒为 1 的特征值来弥补)。当 w 和 x 都是 d 维时就可以令其为特定的凸优化问题。

值得一提的是,对于此类问题,正则化项必不可少。想一想为什么说它必不可少,假设对于所有的 i ∈{1,...,n},有参数向量 w,满足 yi(wT*xi) > 0 以及(存在)无界射线 {θw : θ > 0}。那问题就很明朗了,在这个例子中,当 θ →∞时,

也就是说函数(式 12)无法取最小值。另一方面,通过增加(强制)正则化函数 r,可以保证问题(12)将具有最优解。

对于正则化函数 r,我们将会参考常用选择

和 r(w) = ||w||1。不过为了简单起见,我们通常会选择前者,因为它使得公式 12 对于每一个因子是连续可微的。相反,r(w) = ||w||1 会导致非平滑问题,为此,(实现)函数最小化就需要更复杂的算法。

2.1 一阶方法

我们首先讨论用一阶方法求解问题(12),这里的」一阶」仅仅指对函数 F 中的参数进行一阶偏导的数学技巧。

2.1.1 梯度下降法

从概念上讲,最小化光滑凸目标的最简单的方法是梯度下降法,具体分析参见 [ 62 ]。在这种方法中,从初始化估计值 w0 开始,通过下述公式迭代地更新权重估计值。

其中 αk > 0 是一个步长参数。步长序列 {αk} 的选择直接决定此算法的性能。在优化研究领域,人们普遍认为,在每次迭代中采用线性搜索来确定 {αk },可以为解决各种类型的问题找到一个性能优越的算法。然而,对于机器学习应用程序来说,这种运算成本高昂,因为每次函数 F 的计算都需要传递整个数据集,如果 n 过大,很可能带来高昂的(训练)成本。

好在当每个αk 都设置为一个正的常数α且它是一个足够小的固定值时,从理论上分析,该算法的收敛性仍可以得到保证。(固定的步长常数在机器学习领域叫做学习率。但即使不是常数,也有人把αK 或整个序列 {αK } 叫做学习率)。该算法的收敛速度取决于函数 f 是强凸函数还是弱凸函数。

用于解决 L1 范数正则化的logistic回归问题的梯度下降和加速梯度下降拓展算法分别被称作 ISTA 和 FISTA。我们观察到,在这种情况下,即使λ> 0,目标函数也不会是强凸函数。只有目标函数为凸时 [5],ISTA 和 FISTA 具有与其对应的平滑函数相同的次线性收敛速度。

梯度下降在 ML 训练过程中的一个重要特性就是计算出每次迭代中求解函数 F 的梯度的运算成本。在 ML 的训练过程中,单个梯度计算的成本通常是 O(ND),这个确实可以看到,例如,在正则化项为

的情况中,函数 F 关于每一个特定的 w 的梯度是

2.1.2 随机梯度法

随机梯度法由于其用于最小化随机目标函数而在运筹学领域广为人知,同时也是 ML 社区中的一种特征优化算法。该算法最初由 Robbins 和 Monro [ 67 ] 在解决随机方程组问题时提出,值得注意的是,它可以用于最小化具有良好收敛性的随机目标,而且每次迭代的计算复杂度仅为 O(d)而不是 O(nd)(梯度下降中的计算复杂度)。

在每一次迭代中,随机梯度法都会计算梯度 F(Wk)的无偏估计 GK。该估计可以以及低的代价计算得到;例如,对于公式(12),某次迭代的随机梯度可被求解为

其中 Sk 被称作小批量,它的所有元素都是从总数据集 {1,...,n} 中按均匀分布选出来的。接下来的运算类似于梯度下降:

毫无疑问,该算法的关键在于选择步长序列 {αk}。不同于梯度下降,固定的步长(即学习率)不能保证算法会收敛到强凸函数 F 的最小值,而只保证收敛到最小值的邻域。

SGD 的收敛速度比梯度下降慢。尤其当函数 F 是强凸函数时,该算法只保证当 k ≥ O(1/ε) 时可以得到预期精度的解(即满足 E[F(wk)]-F(w) ≤ ε的解),而当函数 F 仅仅是凸函数时,只有在 k ≥ O(1/ε^2) [11] 时才能保证得出上述解。

另一方面,正如前文提及的,如果 Sk 的大小由一个常数限定(独立于 n 或 k 的常数),那么 SGD 的每次的迭代成本都比梯度下降法小 0(n)倍。

然而,在实际运用中,标准的 SGD 并不一定是解决机器学习中优化问题的最有效方法。事实上,机器学习和优化算法领域在开发改进或替代 SGD 方面进行了大量的积极研究。在随后的两部分中,我们将讨论两类方法:方差缩减法和二阶方法。但是在这两类方法以外,还有多种方法。例如,加有动量的 SGD 就是一个实践中被发现的性能好于好于标准 SGD 的拓展版 SGD。见下图算法 1

2.1.3 方差缩减法(Variance reducing method)

考虑到问题(11),人们发现通过利用目标 F 的结构作为 n 个函数的有限和再加上简单的凸函数项,可以改善 SGD 方法。目前已经研究出几种方法,如 SAG [74],SAGA [22],SDCA [76] 和 SVRG [44]。

为了方便引用,我们把 SVRG 叫做算法 2。该算法在每个外部迭代中执行一次完整的梯度计算,然后沿着随机方向再迭代 L 步,这是整个梯度的随机修正过程。内环步长 L(inner loop size)必须满足一定的条件以保证收敛 [ 44 ]。

SVRG,全称为随机方差减小梯度,其名称源自于该算法可以被视为 SGD 的方差减小变体(尤其是有限和最小化/finite-sum minimization)。

研究员通过结合 SVRG 和 SAGA 的一些思想,提出一个新的方法,叫做 SARAH。仅是内层迭代步长不同于 SVRG,SARAH 的公式如下

该变化导致

,使得 SARAH 中的步长不基于无偏梯度估计。不过,相对于 SVRG,它获得了改进的收敛特性。

表 2 : 最小化强凸函数的一阶方法计算复杂度

表 3 : 最小化一般凸函数的一阶方法计算复杂度

2.2 二阶方法和拟牛顿法

受确定性优化研究领域几十年研究成果的激励,ML 优化中最活跃的研究领域之一就是关于如何使用二阶导数(即曲率)信息来加速训练。

不幸的是,当 n 或 d 很大时,在机器学习应用程序中,海塞矩阵(Hessian matrix)的计算和存储变得非常昂贵。

另一类基于形如(21)模型的算法是拟牛顿方法:

有趣的是,这些方法没有计算出显式二阶导数,而是通过在每次迭代中应用低秩更新构造完全由一阶导数的海塞近似矩阵。例如,让我们简要介绍最流行的拟牛顿算法,全称为 Broyden-Fletcher-Goldfarb-Shanno(BFGS)方法。在这种方法中,我们首先可以看到(21)的最小值为、

进一步发现它实际上可以方便地计算出逆 Hessian 近似。由于

随着步长 sk = w_k+1 − wk 和位移 yk = ∇F(wk+1) − ∇F(wk) 的移动,有人选择

以最小化

以满足割线方程 sk = (B^-1)yk。使用精心挑选的规范表达,这个问题的解析式可以显示的写成

其中

之间的差异可以仅表示为二阶矩阵。

为方便引用,完整的经典 BFGS 算法被称为算法 3。

即使采用二阶信息,随机优化方法(无差异减少)也无法达到比次线性更快的收敛速度。不过,使用二阶信息是一个不错的想法,因为如果海塞近似矩阵收敛于海塞矩阵的真实解,则可以减少收敛速度中的常数,同时还可以减少病态(ill-conditioning)的影响。

不幸的是,尽管已经观察到了实际的效率提升,但在理论上还没有一个真正的二阶方法,可以实现这样的提升。到目前为止,只要海塞(近似)矩阵保持良好特性,大多数实际的方法只能保证实现 SGD 的收敛(速率)特性。例如,如果序列 {Bk}(不一定由 BFGS 更新生成)对所有 k 满足:

此时

具有与 SGD 相同的收敛速度属性。我们就 可以合理地假设这些限定适用于上述讨论的方法,这些假设有适当的保障。然而,在拟牛顿方法的背景下应该小心,其中随机梯度估计可能与海塞近似相关。

3 深度学习

沿着这些方向进行的主要进展包括深层神经网络(DNN)的运用。机器学习的一个相应的分支称为深度学习(或分层学习),它代表了一类试图通过使用包含连续线性和非线性变换的多层次深层图来构造数据中高层次抽象的算法 [6, 51, 73, 37, 38, 23]。近年来科学家们已经研究了各种神经网络类型,包括全连接神经网络(FNN)[84,28],卷积神经网络(CNN)[50] 和循环神经网络(RNN)[41,57,52]。对于我们来说,将主要关注前两类神经网络,同时留意其它网络。

3.1 问题公式化

3.2 随机梯度下降法

我们引用以下内容来强调将优化算法应用于训练 DNN 的令人困惑的反应。首先,例如在 [11] 中,有一个结论表明,通过应用 SGD 来最小化非凸目标函数(一直从输入×输出空间绘制),可以保证预期梯度风险将消失,至少在一个子序列上是这样,即:

。这一结论令人欣慰,这表明 SGD 可以实现与其他最先进的基于梯度的优化算法类似的收敛保证。然而,尽管文献中的种种保证是有局限性的; 毕竟,尽管许多基于梯度的优化算法确保目标函数单调减少,但 SG 并不以这种方式计算。因此,如果一个子序列收敛到一个固定点,那么我们怎么能确定该点不是鞍点,或者是有误差局部最小值,亦或是一些目标值比初始点差的最大值?事实上,我们并不能肯定。也就是说,SGD 方法通常擅长找到局部极小值,而不是全局最小值。另一方面,SGD 往往会在固定值附近减缓收敛速度,这可能会阻碍它在深度神经网络中发展。

一般来说,对于非凸问题,SGD 的收敛速度记录在 [29,30],但是它们非常有限,特别是它们不适用于§1.3 中的讨论。因此,我们不能以同样的方式争论 SGD 是机器学习中非凸优化问题的最佳方法。此外,下式

中的学习界限是没有用的,因为对于许多 DNN 和 CNN,由神经网络产生的分类的复杂度 C 比训练样本数 n 大得多。事实上,在 [90] 中,经验表明,只有这些集合中的数据随机扰动,神经网络才能轻易地超过典型的数据集类型。

3.3 海塞-自由优化方法(Hessian-free method)

有研究者发现我们可以修改 DNN 的反向传播算法来计算这样的海塞-矢量乘积,因为它们可以被看作是方向导数 [65]。计算这种乘积的复杂度只是比计算梯度多一个常数因子。所得到的类的方法通常被称为海塞-自由优化方法,因为当访问和使用 Hessian 信息时,没有显式地存储 Hessian 矩阵。

由于目标函数的非凸性,在 DNN 的情况中出现了其它的问题,真正的海塞矩阵可能不是正定矩阵。一般来说,在确定性优化中,处理这个问题的两种可能的方法是修改海森矩阵和运用置信域(trust region)方法。这两种方法都在训练 DNN 的情况中探讨过,例如,在 [54,55] 中,提出了一种高斯牛顿法,其在(11)中函数 F 的 Hessian 的公式中的第一项近似于 Hessian 矩阵(省略了正则化项)

其中

是关于第一个参数的损失函数 l(·, ·) 的海塞矩阵,∇p(w, xi) 是 dy-维函数 p(w, x) 对于权重 w 的雅可比式,∇^2 [pj (w, xi)] for all j ∈ {1, . . . , dy} 是关于 w 的按元素运算的海塞矩阵。

3.4 子采样海森方法(Subsampled Hessian method)

最近,在一系列论文(3, 15, 34)中,研究员们利用一个很一般的随机模型框架,对凸区域和非凸情形下的置信域、线搜索和自适应三次正则化方法进行了分析。在这项工作中,它表明,只要梯度和 Hessian 估计是足够准确的一些正概率,使用随机不精确梯度和 Hessian 信息的标准优化方法就可以保留其收敛速度。

在机器学习和采样 Hessian 和梯度的情况下,结果只要求| SK |必须选择足够大的相对于该算法采取的步骤的长度。例如,在 [ 3, 34 ],| SK |大小与置信域半径的关系。需要注意的是,对于采样的海塞矩阵,其对样本集的大小要求比采样的梯度要高得多,因此支持使用精确梯度的海塞估计的思想催生了强大的算法,它拥有强大理论支撑和良好的实践高效性。

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
一文概览深度学习中的五大正则化方法和七大优化策略
选自arXiv 机器之心编译 深度学习中的正则化与优化策略一直是非常重要的部分,它们很大程度上决定了模型的泛化与收敛等性能。本文主要以深度卷积网络为例,探讨了深度学习中的五项正则化与七项优化策略,并重点解释了当前最为流行的 Adam 优化算法。本文主体介绍和简要分析基于南洋理工的概述论文,而 Adam 方法的具体介绍基于 14 年的 Adam 论文。 近来在深度学习中,卷积神经网络和循环神经网络等深度模型在各种复杂的任务中表现十分优秀。例如卷积神经网络(CNN)这种由生物启发而诞生的网络,它基于数学的卷积运
机器之心
2018/05/10
1.1K0
一文概览神经网络优化算法
机器学习的优化(目标),简单来说是:搜索模型的一组参数 w,它能显著地降低代价函数 J(w),该代价函数通常包括整个训练集上的性能评估(经验风险)和额外的正则化(结构风险)。与传统优化不同,它不是简单地根据数据的求解最优解,在大多数机器学习问题中,我们关注的是测试集(未知数据)上性能度量P的优化。
算法进阶
2022/06/02
1.1K0
一文概览神经网络优化算法
学界 | 清华大学NIPS 2017 Spotlight论文:通过在单纯形上软门限投影的加速随机贪心坐标下降
机器之心报道 作者:宋朝兵 不同于以 SCI 期刊作为评价标志的其它学科,计算机学科由于成果更新迅速而倾向于通过会议优先发表成果,因此计算机学科各方向的顶级会议大多比相应的顶级期刊更有权威性和影响力(顶会接收率一般低于顶刊)。人工智能(Artificial Intelligence, AI)/机器学习作为引领未来发展的主导学科之一,该领域的相关会议有上百个,其中 CCF 推荐的 A 类顶级会议有 7 个,而 NIPS 和 ICML 是机器学习领域最受认可的两大顶会。 本届 NIPS 共收到 3240 篇论
机器之心
2018/05/08
1.2K0
学界 | 清华大学NIPS 2017 Spotlight论文:通过在单纯形上软门限投影的加速随机贪心坐标下降
【数学应用】机器学习常用最优化算法小结
本文主要是从通俗直观的角度对机器学习中的无约束优化算法进行对比归纳,详细的公式和算法过程可以看最后附的几个链接,都是干货。 机器学习基本概念 统计机器学习整个流程就是:基于给定的训练数据集,由实际需求,需要解决的问题来选择合适的模型;再根据确定学习策略,是最小化经验风险,还是结构风险,即确定优化目标函数;最后便是采用什么样的学习算法,或者说优化算法来求解最优的模型。参照《统计机器学习方法》所讲,统计机器学习(特指有监督学习)的三要素为: 1)模型 模型是指基于训练数据集,所要学习到的概率分布
陆勤_数据人网
2018/02/27
1.8K0
机器学习中常用优化算法介绍
作者 | Walker 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文主要介绍了常用的一些机器学习中常用的优化算法。想要学习更多的机器学习知识,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 在机器学习的世界中,通常我们会发现有很多问题并没有最优的解,或是要计算出最优的解要花费很大的计算量,面对这类问题一般的做法是利用迭代的思想尽可能的逼近问题的最优解。我们把解决此类优化问题的方法叫做优化算法,优化算法本质上是一种数学方法,常见的优化算法包括梯度下降法、牛顿法、Momentum, N
磐创AI
2018/07/20
9790
深度学习过程中的优化算法
神经网络的训练过程实质是得到最优化目标函数的过程,常见的目标函数MSE Loss、Cross Entropy Loss、NLL Loss等,网络训练过程就是最小化Loss的过程。Loss可以理解为模型预测值与真实值之间的差距。一般这些Loss函数是凸函数,可以使用最优化的相关算法最小化Loss,具体包括随机梯度下降、共轭梯度下降、牛顿法、拟牛顿法等。归功于神经网络的backward过程,使得梯度相关的搜索算法得以应用。下面简单介绍神经网络训练过程的几种优化方法。 一.基本算法 一阶优化算法 1.梯度下降 假
CodeInHand
2018/03/26
1.1K0
深度学习中的优化问题以及常用优化算法
在深度模型中我们通常需要设计一个模型的代价函数(或损失函数)来约束我们的训练过程,训练不是无目的的训练,而是朝着最小化代价函数的方向去训练的。本文主要讨论的就是这类特定的优化问题:寻找神经网络上一组参
YingJoy_
2018/03/21
1.6K0
深度学习中的优化问题以及常用优化算法
从梯度下降到 Adam!一文看懂各种神经网络优化算法
每天给你送来NLP技术干货! ---- 编译:王小新,来源:量子位 在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的优化方法。 什么是优化算法? 优化算法的功能,是通过改善训练方式,来最小化(或最大化)损失函数E(x)。 模型内部有些参数,是用来计算测试集中目标值Y的真实值和预测值的偏差程度的,基于这些参数,就形成了损失函数E(x)。 比如说,权重(W)
zenRRan
2022/05/06
9400
从梯度下降到 Adam!一文看懂各种神经网络优化算法
算法优化之道:避开鞍点
凸函数比较简单——它们通常只有一个局部最小值。非凸函数则更加复杂。在这篇文章中,我们将讨论不同类型的临界点( critical points) ,当你在寻找凸路径( convex path )的时候可
用户1737318
2018/06/06
1.5K0
AAAI 2018 | 腾讯AI Lab现场陈述论文:训练L1稀疏模型的象限性消极下降算法
机器之心发布 演讲者:王倪剑桥 腾讯 AI Lab 共有 12 篇论文入选在美国新奥尔良举行的国际人工智能领域顶级学术会议 AAAI 2018。腾讯技术工程官方号独家编译了论文《训练 L1 稀疏模型的象限性消极下降算法》(Training L1-Regularized Models with Orthant-Wise Passive Descent Algorithms),该论文被 AAAI 2018 录用为现场陈述论文 (Oral Presentation),由腾讯 AI Lab 独立完成,王倪剑桥为论文
机器之心
2018/05/10
8600
机器学习萌新必备的三种优化算法 | 选型指南
【导读】在本文中,作者对常用的三种机器学习优化算法(牛顿法、梯度下降法、最速下降法)进行了介绍和比较,并结合算法的数学原理和实际案例给出了优化算法选择的一些建议。
AI科技大本营
2019/05/10
4910
机器学习萌新必备的三种优化算法 | 选型指南
《深度揭秘!海森矩阵如何左右梯度下降算法》
在机器学习和优化算法的复杂世界里,梯度下降算法是极为重要的存在,广泛应用于从线性回归到神经网络训练等众多领域。而在这个算法的背后,有一个相对小众但极为关键的概念——海森矩阵,它默默发挥着重要作用,深刻影响着梯度下降算法的性能和效果。接下来,就让我们深入探究海森矩阵在梯度下降算法中到底扮演着什么角色。
程序员阿伟
2025/02/14
870
《深度揭秘!海森矩阵如何左右梯度下降算法》
最全的机器学习中的优化算法介绍
在机器学习中,有很多的问题并没有解析形式的解,或者有解析形式的解但是计算量很大(譬如,超定问题的最小二乘解),对于此类问题,通常我们会选择采用一种迭代的优化方式进行求解。
大数据技术与机器学习
2021/04/01
1.1K0
最全的机器学习中的优化算法介绍
深度模型中的优化(二)、神经网络优化中的挑战
优化通常是一个极其困难的问题。传统的机器学习会小心设计目标函数和约束。以确保优化问题是凸的,从而避免一般优化问题的复杂度。在训练神经网络时,我们肯定会遇到一般的非凸情况。即使是凸优化,也并非没有任何问题。
狼啸风云
2019/09/18
1.7K0
深度模型中的优化(二)、神经网络优化中的挑战
深度学习中的数学(一)——高等数学
关键词:值域、定义域、单调性、对称性、饱和性、周期性、奇偶性、连续性、变化趋势(从图像上来看)
润森
2022/09/22
9900
深度学习中的数学(一)——高等数学
【深度学习】机器学习概述(一)机器学习三要素——模型、学习准则、优化算法
  机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并可以将总结出来的规律推广应用到未观测样本上。   机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法。
Qomolangma
2024/07/30
6720
【深度学习】机器学习概述(一)机器学习三要素——模型、学习准则、优化算法
机器学习优化算法(一)
我们在前面说过机器学习中的损失函数,其实机器学习中的每一个模型都是在求损失函数的最优解,即让损失达到最小值/极小值,求解方式有多种,本篇讲讲其中两个基本的优化方法:
张俊红
2018/10/08
1.1K0
机器学习优化算法(一)
「如何跳出鞍点?」NeurIPS 2018优化相关论文提前看
Joshua Chou 毕业于多伦多大学,目前从事信息论与编码论的相关研究,主要研究内容为格码 (Lattice Codes) 与低密度奇偶检查码 (Low Density Parity Check Codes) 的演算法,以及它们在通讯系统中的应用。其他感兴趣的研究领域包括凸优化 (Convex Optimization) 以及随机规划 (Stochastic Programming)。
机器之心
2018/12/24
7590
「如何跳出鞍点?」NeurIPS 2018优化相关论文提前看
梯度下降优化算法概述
感谢阅读「美图数据技术团队」的第 11 篇原创文章,关注我们持续获取美图最新数据技术动态。
美图数据技术团队
2018/09/18
8250
梯度下降优化算法概述
由浅入深了解 深度神经网络优化算法
在最简单的情况下,优化问题包括通过系统地从允许集合中选择输入值并计算函数值来最大化或最小化实函数。
AiCharm
2023/06/07
4470
由浅入深了解 深度神经网络优化算法
推荐阅读
相关推荐
一文概览深度学习中的五大正则化方法和七大优化策略
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档