Bengio NIPS 最新论文:用线性分类探测器理解中间层,更好地诊断神经网络模型

【新智元导读】本文介绍 Bengio 和他的学生 Guillaume Alain 的最新论文,这篇论文也被即将于 12 月举行的著名会议 NIPS 接收。本文中,作者引入了一叫做“线性分类探测器”的概念,用于理解一个神经网络模型中各个中间层的作用。使用这种方法,他们顺利地诊断出模型中的一些问题,增进了对深度神经网络的理解,在设计和诊断深度学习模型时都有帮助。

本文中,作者引入了“线性分类探测器”的概念,从熵(Shannon entropy)——描述随机变量所含信息状态的经典方法——的概念讲起,然后试着将这一概念用于理解神经网络模型中间层的作用,从而测量每一层额外获得了多少信息(答案:从技术上讲几乎没有)。

在这种方法失败后,作者又提出了一种新的框架,这一次,他们提出了不同的问题,那就是如果使用给定层的输入对一个最优线性分类器进行训练,这个最优线性分类器的性能会如何?结果证明,这一强大的概念对于理解深度神经网络在训练中以及训练后所涉及的动态十分有用。

论文:使用线性分类探测器理解中间层

作者:加拿大蒙特利尔大学 Guillaume Alain & Yoshua Bengio

摘要

神经网络模型以身为黑箱著称。我们提出了一种新的方法,更好地理解中间层的作用和动态。这对于设计神经网络模型有直接的影响,使专家能够证明某些探索法(heuristics),例如 Inception 模型里的 auxiliary head。我们使用线性分类器的方法,称之为“探测器”(probe),一个探测器只能使用给定中间层的隐藏单元作为判别特征(discriminating features)。此外,这些探测器不能影响模型的训练阶段,一般都在训练完成以后才被加上去。探测器允许使用者在训练的多个步骤中对模型的状态进行可视化。我们展示了这种方法如何更好地理解一个已知的模型,并且诊断可能存在的问题。

熵很重要,计算的便利性也很重要

论文要点

一个有问题的 128 层神经网络模型。从第 0 层到第 64 层会跳过一个连接。作者使用探测器检测每一层,看如果它们是线性分类器的话表现会如何。结果发现,模型完全无视第 1 到第 63 层,哪怕训练很长时间也不行。使用探测器,作者从视觉检测中发现了模型的问题。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

新手必看的十种机器学习算法

AI 研习社按:在神经网络的成功的带动下,越来越多的研究人员和开发人员都开始重新审视机器学习,开始尝试用某些机器学习方法自动解决可以轻松采集数据的问题。然而,在...

37410
来自专栏AI研习社

基于 Keras 对深度学习模型进行微调的全面指南 Part 1

我将借鉴自己的经验,列出微调背后的基本原理,所涉及的技术,及最后也是最重要的,在本文第二部分中将分步详尽阐述如何在 Keras 中对卷积神经网络模型进行微调。

661
来自专栏人工智能头条

用反卷积(Deconvnet)可视化和理解卷积网络

2593
来自专栏大数据挖掘DT机器学习

深度学习实战(可视化部分)——使用keras识别猫咪

在近些年,深度学习领域的卷积神经网络(CNNs或ConvNets)在各行各业为我们解决了大量的实际问题。但是对于大多数人来说,CNN仿佛戴上了神秘的面纱。我经...

5958
来自专栏SIGAI学习与实践平台

神经网络的激活函数总结

激活函数在神经网络中具有重要的地位。在SIGAI之前的公众号文章“理解神经网络的激活函数”中,我们回答了3个关键的问题:

1370
来自专栏人人都是极客

Peter教你谈情说AI | 10支持向量机(1)—SVM原型

“谈情说AI” 有段日子没有更新了,今天我们挽起袖子继续新的一节。从今天起我们的学习之旅进入了新的阶段,之所以说是新的阶段,是因为之前讲的几个模型:线性回归、朴...

1012
来自专栏机器之心

深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD

选自medium 机器之心编译 机器之心编辑部 Faster R-CNN、R-FCN 和 SSD 是三种目前最优且应用最广泛的目标检测模型,其他流行的模型通常与...

4267
来自专栏新智元

机器学习:你需要多少训练数据?

? 从谷歌的机器学习代码中得知,目前需要一万亿个训练样本 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通...

3997
来自专栏PPV课数据科学社区

【机器学习】你需要多少训练数据?

从谷歌的机器学习代码中得知,目前需要一万亿个训练样本。 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对...

3535
来自专栏AI星球

逻辑回归(LR)个人学习总结篇

逻辑回归(LR,Logistic Regression)是传统机器学习中的一种分类模型,由于LR算法具有简单、高效、易于并行且在线学习(动态扩展)的特点,在工业...

7544

扫码关注云+社区