UMCP提出对损失函数进行可视化,以提高神经网络的训练能力

原文来源:arxiv

作者:Hao Li、Zheng Xu、Gavin Taylor、Tom Goldstein

「雷克世界」编译:嗯~阿童木呀、KABUDA

一般来说,我们对于神经网络的训练,往往依赖于找到高度非凸损失函数的“极好”极小值的能力。众所周知,某些网络体系结构的设计(例如,跳过连接)能够产生更容易进行训练的损失函数,且用精心挑选的参数(批量大小,学习速率,优化器)进行训练则能够产生可以进行更好泛化的最小化值。然而,这些差异之所以产生的原因,以及它们对潜在损失情况(loss landscape)所造成的影响,目前尚不清楚。

在本文中,我们使用一系列的可视化方法,探讨了神经损失函数的结构,以及损失格局对泛化的影响。首先,我们引入了一种简单的“过滤器正则化(filter normalization)”方法,它帮助我们将损失函数曲率进行可视化,并在损失函数之间进行有意义的并行比较。然后,使用各种可视化技术,我们探索了网络架构是如何影响损失情况的,以及训练参数如何影响最小化的形状的。

图1:在有/没有跳过连接的情况下,ResNet-56的损失表面。纵轴是表示动态范围的对数。所提出的过滤器正则化方案用于比较两张图之间的锐度/平面度。

可以这样说,训练神经网络需要最小化高维非凸损失函数,从理论上而言,这是一项艰难的任务,但有时在实践中是很容易实现的。尽管训练通用神经损失函数(Blum和Rivest于1989年提出)具有NP级难度指数,简单的梯度方法也经常能够发现全局最小值(参数配置具有零或接近零的训练损失),即使是在训练之前对数据和标签进行随机化的情况下也是如此。但是,这种良好的行为并不是普遍存在的,神经网络的可训练性高度依赖于网络体系结构设计的选择、优化器的选择、变量的初始化以及各种其他考虑因素。不幸的是,这些选择中的每一个将对潜损失表面的结构产生怎样的影响还不清楚。由于损失函数评估的成本过高(需要对训练集中的所有数据点进行循环操作),因此该领域的相关研究仍然主要是理论性的。

图2:通过用VGG9的小批量和大批量方法所获得的解决方案的一维线性插值。其中,蓝线代表损失值,红线代表准确度。实线代表训练曲线,虚线是用于测试的。小批量为横坐标0,大批量为横坐标1。

我们的目标是使用高分辨率的可视化技术对神经损失函数进行一种经验式表征,并探索不同的网络架构选择将如何影响损失情况。此外,我们探讨神经损失函数的非凸结构是如何与它们的可训练性相关的,以及神经最小化器的几何形状(即它们的锐度/平坦度及其周围情况)将如何影响它们的泛化特性。

图3:权重的柱状图。在零权重衰减的情况下,小批量的方法产生较大的权重;在非零的权重衰减情况下,小批量的方法产生较小的权重。

图4:使用不同的优化算法获得的最小值的形状,它们具有不同的批量大小和权重衰减(weight decay)。每个子图的标题中包含优化器,批量大小和测试误差。第一行没有权重衰减,第二行使用权重衰减5e-4。

为了以一种有意义的方式实现这一目标,我们提出了一个简单的“过滤器正则化”方案,使得我们能够对通过不同方法找到的不同最小值进行并行比较。然后,我们使用可视化技术对通过不同方法所找到的最小化值的锐度/平坦度进行探索,以及探索网络架构的选择(使用跳过连接、过滤器数量、网络深度)对损失情况所产生的影响。我们的目标是理解损失函数几何的差异将对神经网络的泛化产生怎样的影响。

图5:由小批量和大批处理的SGD所获得的解决方案的二维可视化。与图4类似,第一行使用零权重衰减,第二行将权重衰减为5e-4。

在这篇文章中,我们研究了产生有意义的损失函数的可视化方法。并且,我们运用这些方法探讨了损失情况几何形状(loss landscape geometry)是如何影响泛化误差和可训练性的。具体而言,我们解决了以下问题:

•我们揭示了许多损失函数可视化方法中的错误,并且表明了简单的可视化策略不能准确地捕捉损失函数极小值的局部几何形状(锐度和平坦度)。

•我们提出了一种基于“过滤器正则化”的简单可视化方法,它可以对不同的极小值进行并行比较。在使用这种可视化方法时,极小值的锐度和泛化误差可以很好地关联,即使在不同的网络体系结构和训练方法中进行锐度比较时亦是如此。

•我们观察到,当网络变得足够深时,神经损失情况(neural loss landscapes)会突然从近乎凸面过渡为高度混乱。从凸面到混乱行为的转变似乎是我们过去未曾注意到的,这与泛化误差的急剧下降相吻合,最终导致缺乏可训练性。

•我们表明了跳过连接(skip connections)可以促进平面最小化,并防止过渡到混乱行为,这有助于解释为什么跳过连接是训练极其深度网络所必需的原因。

•我们研究SGD优化轨迹的可视化。我们解释了将这些轨迹进行可视化时出现的困难,并表明了优化轨迹是在极低维度的空间中进行的。这种低维度可以通过在损失情况中出现的大的近凸区域进行解释,正如我们在二维可视化中观察到的那些区域那样。

在本文中,我们提出了一种全新的、更精确的可视化技术,它为神经网络从业者面临的各种选择(包括网络架构、优化器选择和批量大小)的后果提供了见解。

近年来,神经网络有了飞速发展,这很大程度上取决于已有知识和对理论结果的复杂假设。为了取得更多进展,需要对神经网络结构有更加全面的了解。我们希望有效的可视化加上不断进步的理论,可以加快训练速度、简化模型、以及更好的泛化。

本文来自企鹅号 - 雷克世界媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

马里兰大学帕克分校提出对“损失函数”进行“可视化”,以提高神经网络的训练能力

原文来源:arxiv 作者:Hao Li、Zheng Xu、Gavin Taylor、Tom Goldstein 「雷克世界」编译:嗯~阿童木呀、KABUDA ...

24070
来自专栏计算机视觉战队

尺度不变人脸检测器(S3FD-Single Shot Scale-invariant Face Detector)

今天讲尺度不变人脸检测前之前,我想讲解下一位热心研究者的问题,可以简单讲解下,希望也可以帮助其他读者,谢谢! ? ? 这样的人脸尺度怎么去实现的,其实很简单,如...

67840
来自专栏人工智能头条

深度学习VGG模型核心拆解

22130
来自专栏专知

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【导读】近日,中山大学、新加坡国立大学和奇虎360人工智能研究院团队提出了一种具有注意机制的对抗哈希网络(adversarial hashing network...

51450
来自专栏量子位

谷歌推出理解神经网络的新方法SVCCA | NIPS论文+代码

夏乙 编译自 Google Research Blog 量子位 出品 | 公众号 QbitAI Google Research官方博客今天发文介绍了他们的一篇N...

29340
来自专栏机器之心

CVPR 2018 | Spotlight论文:变分U-Net,可按条件独立变换目标的外观和形状

选自arxiv 作者:Patrick Esser等 机器之心编译 参与:Nurhachu Null、刘晓坤 由于深度生成模型通常是直接生成目标图像,没有对本质形...

35650
来自专栏语言、知识与人工智能

transformer框架概述

3.7K90
来自专栏AI科技评论

深度 | 用于大规模行人重识别的行人对齐网络

1.Motivation 近年来,对行人重识别(person re-ID)问题的研究也越来越多了。类比于自然语言处理(nlp)的话,大家或者集中于语义层面的设计...

42380
来自专栏专知

【前沿】FAIR何恺明等人与UC伯克利最新论文提出分割利器(Learning to Segment Every Thing)

【导读】Facebook FAIR实验室与UC伯克利大学合作提出《Learning to Segment Every Thing》在ICCV 2017 最佳论文...

49270
来自专栏人工智能头条

非科班出身,我是如何自己摸索研究卷积神经网络体系结构的

虽然很不愿意提起这件伤心事,但国庆假期确实结束了?。在这说长不长说短也不算短的7天里,不知道大家有没有吃好喝好玩好pia学好呢?

16530

扫码关注云+社区

领取腾讯云代金券