组会系列 | 自动梯度下降：没有超参数的深度学习

AiCharm

发布于 2023-05-15 17:41:35

8740

文章被收录于专栏：AiCharmAiCharm

本文提出了一种新的框架，用于推导优化算法，该算法明确利用神经网络结构。通过将Bregman散度转换为考虑神经网络结构的非线性形式，该框架允许训练深度全连接神经网络而无需进行超参数调整。文章指出，现有的优化框架忽略了神经网络结构信息，而采用隐式的体系结构信息（例如二阶方法）或体系结构不可知的距离函数（例如镜像下降）。同时，实践中最流行的优化器Adam基于启发式方法。因此，作者提出了这个新框架来解决这些问题。该框架可以应用于新的损失函数和机器学习模型，并且可以与现有框架如主要-最小元算法、镜像下降和自然梯度下降相比较。这篇文章提供了一种新方法来训练深度全连接神经网络，并且避免了超参数调整所带来的问题。

项目代码：https://github.com/jxbz/agd

1.研究背景与动机：

在深度学习中，优化算法是非常重要的，因为它们可以帮助我们训练出更好的模型。然而，现有的优化算法需要调整大量的超参数，这是一项非常耗时和困难的任务。此外，现有算法忽略了神经网络结构信息，而采用隐式的体系结构信息或体系结构不可知的距离函数。

因此，本文提出了一种新框架来解决这些问题。该框架利用神经网络结构信息来推导优化算法，并且可以训练深度全连接神经网络而无需进行超参数调整。作者希望通过这个新框架来改进现有的优化算法，并且使得深度学习更加高效和易于使用。

2.贡献

文章的主要贡献有以下几点：

1. 提出了一种新的框架，用于推导优化算法，该算法明确利用神经网络结构。通过将Bregman散度转换为考虑神经网络结构的非线性形式，该框架允许训练深度全连接神经网络而无需进行超参数调整。

2. 与现有框架如主要-最小元算法、镜像下降和自然梯度下降相比较，该框架可以应用于新的损失函数和机器学习模型。

3. 通过实验验证了该框架的有效性，并且证明了它可以在不同的数据集和模型上取得良好的结果。

3.Majorise-Minimise for Generic Learning Problems

3.1 Decomposition of linearisation error

机器学习系统的线性化误差分解方法，即将机器学习模型的线性化误差分解为多个层次的扰动。具体来说，作者将权重向量扰动、模型输出扰动、单个数据样本损失扰动和整体目标函数扰动作为不同层次的扰动，并且推导出了它们之间的关系。

这种分解方法可以帮助我们更好地理解和设计一阶优化算法，并且可以应用于各种机器学习模型和损失函数。

此外，该节还介绍了如何使用该分解方法来评估线性化误差的有效性，并且给出了实验结果表明该方法可以在不同的数据集和模型上取得良好的结果。

f_c^a=\text{MaxP}\left(\{f_{cj}^{w}\}_{j\in\mathcal{N}_{c}}\right)+\text{AveP}\left(\{f_{cj}^{w}\}_{j\in\mathcal{N}_{c}}\right)

3.2 Functional expansion and functional majorisation

在这里作者提出的一种新的技术，即“functional expansion”，并且将其应用于机器学习中的优化问题。该技术可以将目标函数分解为一系列上界和下界，并且通过最小化这些上界来降低目标函数。

具体来说，作者使用Bregman散度来构造这些上界和下界，并且证明了这种方法可以保证在每一步中获得改进。此外，作者还介绍了“functional majorisation”的概念，即将一个函数替换为一个更简单的函数，从而使得优化问题更容易求解。这种方法可以帮助我们设计更有效的优化算法，并且可以应用于各种机器学习模型和损失函数。

最后，该节还给出了实验结果表明该方法可以在不同的数据集和模型上取得良好的结果，并且相比于传统的优化算法（如Adam和SGD），该方法具有更好的性能。

f_c^a=\text{MaxP}\left(\{f_{cj}^{w}\}_{j\in\mathcal{N}_{c}}\right)+\text{AveP}\left(\{f_{cj}^{w}\}_{j\in\mathcal{N}_{c}}\right)

3.3 Functional expansion and functional majorisation

如何从作者提出的新框架中恢复出三种现有的优化算法：

镜像下降（mirror descent）
自然梯度下降（natural gradient descent）
主要-最小元算法（majorise-minimise meta-algorithm）

具体来说，作者使用Bregman散度来构造这些算法，并且证明了它们可以被看作是作者提出的框架的特例。

此外，如何将这些算法应用于线性模型和深度神经网络，并且给出了实验结果表明这些算法可以在不同的数据集和模型上取得良好的结果。

该节展示了作者提出的新框架与现有优化算法之间的联系，并且为我们设计更有效的优化算法提供了新思路。

4.Majorise-Minimise for Deep Learning Problems

本节主要介绍了如何将majorise-minimise meta-algorithm应用于深度学习问题中的优化。作者提出了一种新的自动梯度下降算法，该算法可以训练深度全连接神经网络而无需进行超参数调整。

该算法利用作者在前面章节中提出的“functional expansion”技术来构造上界和下界，并且使用Bregman散度来衡量它们之间的差异。

作者证明了该算法可以收敛到全局最优解，并且给出了实验结果表明该算法可以在不同的数据集和模型上取得良好的结果。

4.1 Deriving automatic gradient descent

如何推导出自动梯度下降算法？作者使用Bregman散度来构造上界和下界，并且使用“functional expansion”技术将目标函数分解为多个层次的扰动。

然后，作者利用这些扰动构造了一个新的目标函数，并且证明了该目标函数可以被最小化以获得全局最优解。此外，作者介绍了自动梯度下降算法如何将出现在文献中的各种启发式和理论思想统一起来：

相对更新（Relative updates）其更新量相对于权重矩阵的范数进行缩放。

深度缩放（Depth scaling）其缩放因子与网络深度L成反比。深度缩放的目的是为了控制神经网络中不同层之间的更新量大小差异，从而更好地平衡不同层之间的训练效果。

宽度缩放（Width scaling）其缩放因子与网络宽度相关。该方法旨在确保跨网络宽度进行超参数传递。

梯度裁剪（Gradient clipping）是一种用于控制神经网络训练过程中梯度爆炸的技术。它通过限制梯度的大小来防止梯度爆炸问题。这自适应梯度裁剪是一种根据梯度摘要自动调整裁剪阈值的技术，其基本思想是当梯度摘要的大小超过某个阈值时，就对其进行裁剪。

4.2 Convergence analysis

收敛分析（Convergence analysis）是一种用于研究优化算法收敛性质的方法。在深度学习中，收敛分析通常用于研究自动梯度下降算法的收敛速率。在收敛分析中，我们通常会研究目标函数的性质，例如是否是有界函数、是否满足Polyak-Łojasiewicz不等式等。此外，我们还会研究优化算法的更新规则和超参数对收敛速率的影响。这里介绍了自动梯度下降算法的收敛分析。首先介绍了目标函数的性质，特别是对于平方损失函数，给出了其有界性质。接着，提出了一种针对深度网络操作符结构的Polyak-Łojasiewicz不等式，并探讨了其在优化算法中的应用。此外，该小节还介绍了一些与收敛分析相关的技术，例如相对更新、宽度缩放和深度缩放等方法，并讨论了它们对优化算法收敛速率的影响。

5.Experiments

6.Conclusion

自动梯度下降（AGD）算法可以有效地训练深度神经网络，并且在某些情况下可以超越传统的优化算法，例如随机梯度下降（SGD）和Adam。作者在多个数据集和模型上进行了实验，并发现AGD在MNIST、CIFAR-10、CIFAR-100和ImageNet等数据集上都取得了很好的性能。此外，作者还提出了一些改进AGD算法的方法，例如自适应梯度裁剪和相对更新等技术。总之，AGD算法是一种有效的优化算法，在深度学习中具有广泛的应用前景。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-04-18，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习