马里兰大学帕克分校提出对“损失函数”进行“可视化”,以提高神经网络的训练能力

原文来源:arxiv

作者:Hao Li、Zheng Xu、Gavin Taylor、Tom Goldstein

「雷克世界」编译:嗯~阿童木呀、KABUDA

一般来说,我们对于神经网络的训练,往往依赖于找到高度非凸损失函数的“极好”极小值的能力。众所周知,某些网络体系结构的设计(例如,跳过连接)能够产生更容易进行训练的损失函数,且用精心挑选的参数(批量大小,学习速率,优化器)进行训练则能够产生可以进行更好泛化的最小化值。然而,这些差异之所以产生的原因,以及它们对潜在损失情况(loss landscape)所造成的影响,目前尚不清楚。

在本文中,我们使用一系列的可视化方法,探讨了神经损失函数的结构,以及损失格局对泛化的影响。首先,我们引入了一种简单的“过滤器正则化(filter normalization)”方法,它帮助我们将损失函数曲率进行可视化,并在损失函数之间进行有意义的并行比较。然后,使用各种可视化技术,我们探索了网络架构是如何影响损失情况的,以及训练参数如何影响最小化的形状的。

可以这样说,训练神经网络需要最小化高维非凸损失函数,从理论上而言,这是一项艰难的任务,但有时在实践中是很容易实现的。尽管训练通用神经损失函数(Blum和Rivest于1989年提出)具有NP级难度指数,简单的梯度方法也经常能够发现全局最小值(参数配置具有零或接近零的训练损失),即使是在训练之前对数据和标签进行随机化的情况下也是如此。但是,这种良好的行为并不是普遍存在的,神经网络的可训练性高度依赖于网络体系结构设计的选择、优化器的选择、变量的初始化以及各种其他考虑因素。不幸的是,这些选择中的每一个将对潜损失表面的结构产生怎样的影响还不清楚。由于损失函数评估的成本过高(需要对训练集中的所有数据点进行循环操作),因此该领域的相关研究仍然主要是理论性的。

图2:通过用VGG9的小批量和大批量方法所获得的解决方案的一维线性插值。其中,蓝线代表损失值,红线代表准确度。实线代表训练曲线,虚线是用于测试的。小批量为横坐标0,大批量为横坐标1。

我们的目标是使用高分辨率的可视化技术对神经损失函数进行一种经验式表征,并探索不同的网络架构选择将如何影响损失情况。此外,我们探讨神经损失函数的非凸结构是如何与它们的可训练性相关的,以及神经最小化器的几何形状(即它们的锐度/平坦度及其周围情况)将如何影响它们的泛化特性。

图3:权重的柱状图。在零权重衰减的情况下,小批量的方法产生较大的权重;在非零的权重衰减情况下,小批量的方法产生较小的权重。

图4:使用不同的优化算法获得的最小值的形状,它们具有不同的批量大小和权重衰减(weight decay)。每个子图的标题中包含优化器,批量大小和测试误差。第一行没有权重衰减,第二行使用权重衰减5e-4。

为了以一种有意义的方式实现这一目标,我们提出了一个简单的“过滤器正则化”方案,使得我们能够对通过不同方法找到的不同最小值进行并行比较。然后,我们使用可视化技术对通过不同方法所找到的最小化值的锐度/平坦度进行探索,以及探索网络架构的选择(使用跳过连接、过滤器数量、网络深度)对损失情况所产生的影响。我们的目标是理解损失函数几何的差异将对神经网络的泛化产生怎样的影响。

图5:由小批量和大批处理的SGD所获得的解决方案的二维可视化。与图4类似,第一行使用零权重衰减,第二行将权重衰减为5e-4。

在这篇文章中,我们研究了产生有意义的损失函数的可视化方法。并且,我们运用这些方法探讨了损失情况几何形状(loss landscape geometry)是如何影响泛化误差和可训练性的。具体而言,我们解决了以下问题:

•我们揭示了许多损失函数可视化方法中的错误,并且表明了简单的可视化策略不能准确地捕捉损失函数极小值的局部几何形状(锐度和平坦度)。

•我们提出了一种基于“过滤器正则化”的简单可视化方法,它可以对不同的极小值进行并行比较。在使用这种可视化方法时,极小值的锐度和泛化误差可以很好地关联,即使在不同的网络体系结构和训练方法中进行锐度比较时亦是如此。

•我们观察到,当网络变得足够深时,神经损失情况(neural loss landscapes)会突然从近乎凸面过渡为高度混乱。从凸面到混乱行为的转变似乎是我们过去未曾注意到的,这与泛化误差的急剧下降相吻合,最终导致缺乏可训练性。

•我们表明了跳过连接(skip connections)可以促进平面最小化,并防止过渡到混乱行为,这有助于解释为什么跳过连接是训练极其深度网络所必需的原因。

•我们研究SGD优化轨迹的可视化。我们解释了将这些轨迹进行可视化时出现的困难,并表明了优化轨迹是在极低维度的空间中进行的。这种低维度可以通过在损失情况中出现的大的近凸区域进行解释,正如我们在二维可视化中观察到的那些区域那样。

在本文中,我们提出了一种全新的、更精确的可视化技术,它为神经网络从业者面临的各种选择(包括网络架构、优化器选择和批量大小)的后果提供了见解。

近年来,神经网络有了飞速发展,这很大程度上取决于已有知识和对理论结果的复杂假设。为了取得更多进展,需要对神经网络结构有更加全面的了解。我们希望有效的可视化加上不断进步的理论,可以加快训练速度、简化模型、以及更好的泛化。

中国人工智能产业创新联盟于2017年6月21日成立,超200家成员共推AI发展

本文来自企鹅号 - 雷克世界媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | CMU&FAIR ICCV论文:通过传递不变性实现自监督视觉表征学习

选自arXiv 机器之心编译 参与:路雪、黄小天 通过自监督学习学习视觉表征在计算机视觉领域逐渐开始流行。本文提出可通过不变性的传递实现视觉表征自监督学习,该网...

360150
来自专栏CDA数据分析师

基于 R 语言和 SPSS 的决策树算法介绍及应用

文 | 刘昭东, 软件工程师, IBM 机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文...

28650
来自专栏AI研习社

杂谈CNN:如何通过优化求解输入图像

机器学习和优化问题 很多机器学习方法可以归结为优化问题,对于一个参数模型,比如神经网络,用 y=f(x;θ) 来表示的话,训练模型其实就是下面的参数优化问题...

37130
来自专栏人工智能

UMCP提出对损失函数进行可视化,以提高神经网络的训练能力

原文来源:arxiv 作者:Hao Li、Zheng Xu、Gavin Taylor、Tom Goldstein 「雷克世界」编译:嗯~阿童木呀、KABUDA ...

22290
来自专栏AI科技大本营的专栏

干货 | 闲说CNN:通过优化求解输入图像

? 作者 | 达闻西 整理 | AI100(rgznai100) 机器学习和优化问题 很多机器学习方法可以归结为优化问题,对于一个参数模型,比如神经网络,...

36350
来自专栏人工智能的秘密

拆解VGGNet网络模型在分类和定位任务上的能力

下面我们将对2014年夺得ImageNet的定位第一和分类第二的VGG网络进行分析,在此过程中更多的是对这篇经典文章的感性分析,希望和大家共同交流产生共鸣,如果...

57190
来自专栏机器之心

资源 | 1460万个目标检测边界框:谷歌开源Open Images V4数据集

这些边界框大部分由专业的标注人员手工绘制,以确保准确性和一致性。数据集中的图像非常多样化,通常包含存在多个目标的复杂场景(平均每张图像 8.4 个)。此外,数据...

30030
来自专栏机器之心

CVPR 2018 | Spotlight论文:变分U-Net,可按条件独立变换目标的外观和形状

选自arxiv 作者:Patrick Esser等 机器之心编译 参与:Nurhachu Null、刘晓坤 由于深度生成模型通常是直接生成目标图像,没有对本质形...

35550
来自专栏AI科技评论

深度 | 用于大规模行人重识别的行人对齐网络

1.Motivation 近年来,对行人重识别(person re-ID)问题的研究也越来越多了。类比于自然语言处理(nlp)的话,大家或者集中于语义层面的设计...

42280
来自专栏专知

【前沿】FAIR何恺明等人与UC伯克利最新论文提出分割利器(Learning to Segment Every Thing)

【导读】Facebook FAIR实验室与UC伯克利大学合作提出《Learning to Segment Every Thing》在ICCV 2017 最佳论文...

49270

扫码关注云+社区

领取腾讯云代金券