马里兰大学帕克分校提出对“损失函数”进行“可视化”，以提高神经网络的训练能力

企鹅号小编

发布于 2018-01-09 09:32:12

6460

发布于 2018-01-09 09:32:12

文章被收录于专栏：人工智能

原文来源：arxiv

作者：Hao Li、Zheng Xu、Gavin Taylor、Tom Goldstein

「雷克世界」编译：嗯~阿童木呀、KABUDA

一般来说，我们对于神经网络的训练，往往依赖于找到高度非凸损失函数的“极好”极小值的能力。众所周知，某些网络体系结构的设计（例如，跳过连接）能够产生更容易进行训练的损失函数，且用精心挑选的参数（批量大小，学习速率，优化器）进行训练则能够产生可以进行更好泛化的最小化值。然而，这些差异之所以产生的原因，以及它们对潜在损失情况（loss landscape）所造成的影响，目前尚不清楚。

在本文中，我们使用一系列的可视化方法，探讨了神经损失函数的结构，以及损失格局对泛化的影响。首先，我们引入了一种简单的“过滤器正则化（filter normalization）”方法，它帮助我们将损失函数曲率进行可视化，并在损失函数之间进行有意义的并行比较。然后，使用各种可视化技术，我们探索了网络架构是如何影响损失情况的，以及训练参数如何影响最小化的形状的。

可以这样说，训练神经网络需要最小化高维非凸损失函数，从理论上而言，这是一项艰难的任务，但有时在实践中是很容易实现的。尽管训练通用神经损失函数（Blum和Rivest于1989年提出）具有NP级难度指数，简单的梯度方法也经常能够发现全局最小值（参数配置具有零或接近零的训练损失），即使是在训练之前对数据和标签进行随机化的情况下也是如此。但是，这种良好的行为并不是普遍存在的，神经网络的可训练性高度依赖于网络体系结构设计的选择、优化器的选择、变量的初始化以及各种其他考虑因素。不幸的是，这些选择中的每一个将对潜损失表面的结构产生怎样的影响还不清楚。由于损失函数评估的成本过高（需要对训练集中的所有数据点进行循环操作），因此该领域的相关研究仍然主要是理论性的。

图2：通过用VGG9的小批量和大批量方法所获得的解决方案的一维线性插值。其中，蓝线代表损失值，红线代表准确度。实线代表训练曲线，虚线是用于测试的。小批量为横坐标0，大批量为横坐标1。

我们的目标是使用高分辨率的可视化技术对神经损失函数进行一种经验式表征，并探索不同的网络架构选择将如何影响损失情况。此外，我们探讨神经损失函数的非凸结构是如何与它们的可训练性相关的，以及神经最小化器的几何形状（即它们的锐度/平坦度及其周围情况）将如何影响它们的泛化特性。

图3：权重的柱状图。在零权重衰减的情况下，小批量的方法产生较大的权重；在非零的权重衰减情况下，小批量的方法产生较小的权重。

图4：使用不同的优化算法获得的最小值的形状，它们具有不同的批量大小和权重衰减（weight decay）。每个子图的标题中包含优化器，批量大小和测试误差。第一行没有权重衰减，第二行使用权重衰减5e-4。

为了以一种有意义的方式实现这一目标，我们提出了一个简单的“过滤器正则化”方案，使得我们能够对通过不同方法找到的不同最小值进行并行比较。然后，我们使用可视化技术对通过不同方法所找到的最小化值的锐度/平坦度进行探索，以及探索网络架构的选择（使用跳过连接、过滤器数量、网络深度）对损失情况所产生的影响。我们的目标是理解损失函数几何的差异将对神经网络的泛化产生怎样的影响。