再说深度学习是黑匣子,就把这篇文章糊 Ta 脸上

导语:可视化不只是画画那么简单,它或许是我们理解神经网络的世界的方法。PS:标题是作者说的,不是我说的,要打,就打他(逃

昨天,Google Brain 推了一篇十分有趣的 paper ——《The building blocks of interpretability》(中译:画出黑盒子里的风景)。本文在此简单介绍一下这篇有趣的 paper ,以及人们在“开箱”过程中做出的努力,为什么我们迫切需要把深度学习的黑箱拆开,这个工作有怎样的应用?

01 鬼畜的可视化——万里长征第一步

被论文吓跑准备左上角的别动!论文无非就是说了:

“我终于知道我训练出来的神经元它是干啥的,怎么干的”

ヾ(。`Д´。)我擦,干净利落!

大家知道机器学习是喂数据,然后吐答案,中间是我们的模型。整个过程就是将我们需要的特征 (feature) 导入模型(比如我们用房子面积、房子离市中心的距离等,来得到一个房价)。

然而在图像识别里,比如说你要识别一只猫,按照传统机器学习的思路就是把猫耳朵猫脑袋猫肚子猫毛毛猫的特征等一堆东西给全部做出来——这特么不累死你?机器学习的本意并非如此的【机械化运动】,而卷积神经网络正好可以自动抓。于是乎猫耳朵猫脑袋猫啥啥就全部的不用做了——然后丢进模型中训练走起就好了。然而问题就是,

我用卷积神经网络提出来的特征究竟是个什么鬼?

在大名鼎鼎的 CS231n 中,Justin Johnson 将模型得到的权重矩阵的行向量可视化,得到了一串很鬼畜的图片。这特么什么鬼?在不远的过去,就有大佬对每个神经元进行可视化,希望得到究竟是哪些输入让这些神经元得到相对较高的响应。(所谓的激活函数不就是这样的一个筛选响应的东西吗?)[2][3]

但是结果第一层是长这样的(这啥玩意?):

第一层神经网络

第二层是长这样的(这不是高中的时候观察的洋葱上表皮细胞的排列吗?):

感觉还是不大对劲,我们看第四层好了,哎呀挺好看的——可是为什么长这样!!

02 神级的可视化:.让你听懂神级网络做决定的原因

然而论文的工作就很厉害了,它是怎么做的呢?它们将神经元组合起来,得到一个虽然这个图像狰狞,但是我还是可以勉强看得懂你是个啥玩意的结果。

论文给出了卷积神经网络提取出来的人能看得懂的特征(与之相对的是上面宛如洋葱表皮细胞的可视化),就相当于我们在之前提到的手工提出花瓶是个啥特征(比如圆圆的,肚子胖胖的等等),哎呀这个你看,我们通过得到的花瓶的几个特征里,最像花瓶的可不是那一个吗?而那一个特征,还真的是置信概率最高的。

更有意思的是你会发现其所甄别的特征对应的位置。哎呀这下不就懂了吗?

03 两种解释

这种可解释性与丘成桐先生的工作不同[4],几何大佬丘成桐先生试图找到一个几何学观点下的对 GAN 的解释,将成果以及凸几何类比[5]。认为 Discriminator 就是 WGAN 中判别器中计算 Wasserstein 距离,而 Generator 用来计算 Brenier 势能。认为 Brenier 势能可以用计算Wasserstein 距离来得到[6]。

而这个东西在低维下是根本不需要一个 GANs 的过程的(即 Generator VS Discriminator 得 Nash 均衡),是有一个解析解的。所以说丘成桐先生不一般,他们的想法是通过最优传输理论及其各种降维近似,直接取代神经网络,从而使得黑箱透明。

以上的解释是你别来了,我用一堆东西来 Duang 的一下做的比你更好了,整个过程——严谨数学证明。然而我们不能指望现阶段这样的工作一个个爆发然后疯狂运用,这是不现实。

丘成桐:获得了数学界的诺贝尔奖(菲尔茨奖)的丘成桐先生是对近代拓扑学、代数几何学等做出了巨大的贡献的人。

04 算法权力

Google 的论文所提供的是一个权力——解释权[7]。即解释算法输出的权力,这种权利主要是指个人权利——可以解释为对个人有重大影响的决定,尤其是法律上或财务上。例如,你说我想上清华,然后清华拒绝了你。你有权力知道为啥被拒了。比如这个时候,清华表示我们不要高考分没到咱们线上并且你又没自主招生加分 blahblahblah。

在法律问题裁定上,假如在以前,我们用一个什么算法,你说哇它老牛逼了。但是有人不服咋办?那么这个时候,这个算法能够被认为是可接受作为判定凭证的吗?俗话说的好,骂人也要名正言顺的骂人。

而问题更严重的是你能保证你的算法不偏不倚,是个公正的算法吗?算法就不能有偏见吗?OpenAI 和 DeepMind 提出一些质疑[8][9],甚至有一些畅销书作家也提到类似的内容。

例如我们的用来做法律裁定的算法中可能是输入一大堆个人信息,例如有种族、所住的街区等等,输出是裁定的刑期。假如某些群体他符合某些情况,那么是不是因为算法的偏好而可能被判更长的刑期?或者说,你怎么能保证大量的输入数据中,法官对其做出的判决是 100% 无偏见的呢?

这个时候 OpenAI 和 DeepMind 就认为,搞不定数据输入是不是没问题?ok啊,我如果完全无监督,用强化学习来做呢?那就没有这个问题了对吧?另一种做法是在我们在所有的人工智能模型中建立 “不确定性” - 基本上可以让人类纠正未来的行为,而不是完全理解。然而即使如此,机器学习/深度学习算法其实还是很难作为一个裁定。

然而现在不一样了,我们能够给出一个看的过去的解释了。

参考来源:

1. The building blocks ofinterpretability. https://distill.pub/2018/building-blocks/

2. Stanford University, CS231n Lecture2 study material. Offered by Justin Johnson.

3. Stanford University, CS231nLecture Slides. (http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture2.pdf)

4. Na Lei, Kehua Su, Li Cui,Shing-Tung Yau, Xianfeng Gu. A Geometric View of Optimal Transportation andGenerative Model.

5. Xianfeng Gu, Feng Luo, Jian Sunand Shing-Tung Yau, Variational Principles for Minkowski Type Problems,Discrete Optimal Transport, and Discrete Monge-Ampere Equations, Vol. 20, No.2, pp. 383-398, Asian Journal of Mathematics (AJM), April 2016.

6. Yann Brenier. Polarfactorization and monotone rearrangement of vector-valued functions. Comm. PureAppl. Math., 44(4):375–417, 1991.

7. Right to explanation, WikiPedia.https://en.wikipedia.org/wiki/Right_to_explanation

8. Jan Leike, Miljan Martic,Victoria Krakovna, Pedro A. Ortega, Tom Everitt, Andrew Lefrancq, LaurentOrseau, Shane Legg. AI Safety Gridworlds

9. Paul Christiano, Jan Leike, TomB. Brown, Miljan Martic, Shane Legg, Dario Amodei. Deep reinforcement learningfrom human preferences

来源:优达学城Udacity

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2018-03-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

【技术】通过梯度下降逆向工程获取食品中不同成分的含量

这是一个外国人突发奇想(xiande danteng),用技术去了解包装食品各种成分含量的记录文章,文末附代码链接。 为了学习新的东西,我产生了一些奇怪的想法并...

30380
来自专栏人工智能

Top 50机器学习项目实战总结

整理 | 胡永波 根据《纽约时报》的说法,“在硅谷招募机器学习工程师、数据科学家的情形,越来越像NFL选拔职业运动员,没有苛刻的训练很难上场了。”毕竟,高达12...

40050
来自专栏大数据文摘

学界丨先睹为快:神经网络顶会ICLR 2018论文接受结果速览

27550
来自专栏个人分享

最大熵的Java实现

这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法...

22430
来自专栏新智元

【虫二】的人工智能

艺术创作一直是人类精神活动的最高级形式,自古以来,人们认为只有人类的智慧才能真正领悟艺术作品的深远意境和奥妙神韵,玄而又玄的艺术风格更是只可意会,不可言传。近些...

400110
来自专栏机器学习算法与Python学习

蒙特卡洛方法入门

蒙特卡洛方法入门 引言 蒙特卡罗方法于20世纪40年代美国在第二次世界大战中研制原子弹的“曼哈顿计划”计划的成员S.M.乌拉姆和J.冯·诺伊曼首先提出。数学家冯...

436110
来自专栏专知

【干货荟萃】机器学习&深度学习知识资料大全集(二)(论文/教程/代码/书籍/数据/课程等)

【导读】转载来自ty4z2008(GItHub)整理的机器学习&深度学习知识资料大全荟萃,包含各种论文、代码、视频、书籍、文章、数据等等。是学习机器学习和深度学...

531120
来自专栏PPV课数据科学社区

【学习】“数学之美”系列四:怎样度量信息?

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“...

31260
来自专栏深度学习入门与实践

【深度学习Deep Learning】资料大全

  最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yosh...

73890
来自专栏企鹅号快讯

数字电影技术术语普及

1 1K/2K/4K 在数字技术领域,通常采用二进制运算,而且用构成图像的像素数来描述数字图像的大小。由于构成数字图像的像素数量巨大,通常以K来表示210即10...

25050

扫码关注云+社区

领取腾讯云代金券