学界 | Hinton提出泛化更优的「软决策树」:可解释DNN具体决策

选自arXiv

机器之心编译

参与:刘晓坤、黄小天

近日,针对泛化能力强大的深度神经网络(DNN)无法解释其具体决策的问题,深度学习殿堂级人物 Geoffrey Hinton 等人发表 arXiv 论文提出「软决策树」(Soft Decision Tree)。相较于从训练数据中直接学习的决策树,软决策树的泛化能力更强;并且通过层级决策模型把 DNN 所习得的知识表达出来,具体决策解释容易很多。这最终缓解了泛化能力与可解释性之间的张力。

深度神经网络优秀的泛化能力依赖于其隐藏层中对分布式表征的使用 [LeCun et al., 2015],但是这些表征难以理解。对于第一个隐藏层我们明白是什么激活了单元,对于最后一个隐藏层我们也明白激活一个单元产生的影响;但是对于其他隐藏层来说,理解有意义变量(比如输入和输出变量)的特征激活的原因和影响就困难重重。由于其边际效应取决于同一层其他单元的影响,使得独立地理解任何特定的特征激活变得举步维艰。

相比之下,很容易解释决策树是如何做出特定分类的,因为它依赖于一个相对短的决策序列,直接基于输入数据做出每个决策。但是决策树并不像深度神经网络一样可以很好地泛化。与神经网络中的隐藏单元不同,决策树较低级别的典型节点仅被一小部分训练数据所使用,所以决策树的较低部分倾向于过拟合,除非相对于树的深度,训练集是指数量级的规模。

在这篇论文中,我们提出了一种新的方法,以缓解泛化能力和可解释性之间的张力。与其尝试理解深度神经网络如何决策,我们使用深度神经网络去训练一个决策树以模仿神经网络发现的「输入-输出「函数,但是是以一种完全不同的方式工作。如果存在大量的无标签数据,该神经网络可以创建一个大得多的标记数据集去训练一个决策树,从而克服决策树的统计低效问题。即使无标签数据是不可用的,或许可以使用生成式建模中的最新研究进展(Goodfellow et al., 2014, Kingma and Welling, 2013)以从一个类似于数据分布的分布中生成合成无标签数据。即使没有使用无标签数据,仍然有可能通过使用一种称为蒸馏法(distillation,Hinton et al., 2015, Buciluˇa et al., 2006)的技术和一种执行软决策的决策树,将神经网络的泛化能力迁移到决策树上。

在测试过程中,我们使用决策树作为我们的模型。该模型的性能可能会略微低于神经网络,但速度快得多,并且该模型的决策是可解释的。

为了简单起见,我们从一类特殊的决策树开始讨论,使深度神经网络的知识能更容易地被提取/蒸馏然后导入决策树中。

2 专家的层次化混合

我们使用小批量梯度下降法训练软二元决策树,其中每一个内部节点(inner node)i 有一个学习到的过滤器 w_i 和一个偏置 b_i,每一个叶节点(leaf node)l 有一个学习到的分布 Q_l。在每一个内部节点处,选择最右边的分支的概率为:

其中 x 是模型的输入,σ是 sigmoid logistic 函数。

这个模型是专家的层次化混合(hierarchical mixture of experts,Jordan and Jacobs, 1994),但每个专家实际上都是一个「偏执者(bigot)」,即在训练之后,无论输入是什么都会生成相同的分布。该模型学习到了一个过滤器的分层体系,用于为每个样本分配一个特定的专家以及相关的特定路径概率,并且每个偏执者都学习到了一个简单的、静态的关于所有可能输出类 k 的分布。

其中 Q^l. 表示在第 l 叶的概率分布,Φ^l. 是第 l 叶的学习参数。

图 1:这个示意图展示了一个有单个内部节点和两个叶节点的软二元决策树。

图 2:一个在 MNIST 上训练的 4 层软决策树的可视化。

内部节点中的图像是学习到的过滤器,叶节点中的图像是学习到的类概率分布的可视化。图中标注了每一叶的最终的最大可能分类,以及每一个边的可能分类。以最右边的内部节点为例,可以看到在决策树的当前层次下可能的分类只有 3 和 8,因此该学习到的卷积核只需要简单地学习区分这两个数字就可以了。

图 3:在 Connect4 数据集上训练的软决策树前 2 层的可视化示例。

通过检查已学习的过滤器,我们可以看到游戏可以分为两种截然不同的子类型:一种是玩家将棋子放在棋盘的边缘,另一种是玩家将棋子放在棋盘中央。

论文:Distilling a Neural Network Into a Soft Decision Tree

论文地址:https://arxiv.org/abs/1711.09784

摘要:深度神经网络已经在分类任务上证明了其有效性;当输入数据是高维度,输入与输出之间的关系很复杂,已标注的训练实例数量较大时,深度神经网络的表现更为突出。由于它们对分布式层级表征的依赖,很难解释为什么一个已学习的网络能够在特定的测试中做出特定的分类决策。如果我们能够获取神经网络习得的知识,并借助依赖于层级决策的模型表达出来,那么解释一个特定的决策将会容易很多。我们描述了一种使用已训练的神经网络创建软决策树的方法,它比直接从训练数据中学习的决策树有着更优的泛化能力。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-11-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

深度学习研究总结:生成对抗网络(附 3 篇 arXiv 最火论文)

【新智元导读】Yann LeCun曾说:“对抗训练是切片面包发明以来最令人激动的事情”。这篇文章中,作者回顾基于 Ian Goodfellow 在2014 年的...

43370
来自专栏量子位

机器学习萌新必学的Top10算法

在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里。 ? 比方说,神经网络不见得比决策树好,同样反过来也不成立。 最后的结...

37960
来自专栏数据科学与人工智能

【陆勤阅读】机器学习分类算法总结

目前看到的比较全面的分类算法,总结的还不错. 主要分类方法介绍解决分类问题的方法很多,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量...

21060
来自专栏智能算法

纹理图像分割的常用方法概述

纹理图像在局部区域内呈现了不规则性,而在整体上表现出某种规律性。纹理基元的排列可能是随机的,也可能是相互之间互相依赖,这种依赖性可能是有结构的,也可能是按某种...

576120
来自专栏企鹅号快讯

基于深度学习的行人重识别研究综述

AI 科技评论按:本文为浙江大学罗浩为 AI 科技评论撰写的独家稿件,得到了作者本人指点和审核,在此表示感谢。 前言:行人重识别(Person Re-ident...

76080
来自专栏大数据挖掘DT机器学习

隐马尔科夫模型 和动态贝叶斯网络

(一):定义及简介: 介绍(introduction) 通常我们总是对寻找某一段时间上的模式感兴趣,这些模式可能出现在很多领域:一个人在使用电脑的时候使用的命...

66650
来自专栏PPV课数据科学社区

收藏!机器学习与深度学习面试问题总结.....

后向传播是在求解损失函数L对参数w求导时候用到的方法,目的是通过链式法则对参数进行一层一层的求导。这里重点强调:要将参数进行随机初始化而不是全部置0,否则所有隐...

15620
来自专栏华章科技

机器学习萌新必学的Top10算法

导读:在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里。

9820
来自专栏人工智能LeadAI

BAT机器学习面试1000题系列(第150~279题)

长文~可先收藏再看哟~ 150、在感知机中(Perceptron)的任务顺序是什么?深度学习 DL基础 易 1 随机初始化感知机的权重 2 去到数据集的下一批(...

7.1K140
来自专栏算法channel

2000字总结3种项目和面试中常用的集成学习算法

俗话说,“三个臭皮匠,顶个诸葛亮”,多个比较弱的人若能有一种方法集中利用他们的智慧,也可以达到比较好的效果,这就是集成学习的思想。

8700

扫码关注云+社区

领取腾讯云代金券