卷积网络虽动人,胶囊网络更传“神”

本文作者 张玉宏

2012年于电子科技大学获计算机专业博士学位,2009~2011年美国西北大学联合培养博士,现执教于河南工业大学,电子科技大学博士后。中国计算机协会(CCF)会员,YOCSEF郑州2018~2019年度副主席,ACM/IEEE会员。《品味大数据》一书作者。

江山代有才人出,各领风骚数百年。但在计算机科学领域,风骚数十年都非常难。卷积神经网络在短短三十多年里,几起几落。别看它现在依然如日冲天,要知道,浪潮之巅的下一步,就是衰落。而加快推动这一趋势的,正是卷积神经网络得以雄起的大功臣——Geoffrey Hinton。他提出了全新的“神经胶囊”理论,这“胶囊”里到底装的是什么“药”呢?

  • 从神经元到神经胶囊

在大计算和大数据的背景下,深度学习大行其道、大受欢迎,究其原因,卷积神经网络的出色表现,可谓居功至伟。尽管如此,卷积神经网络也有其局限性,如训练数据需求大、环境适应能力、可解释性差、数据分享难等不足。

2017年10月,Hinton教授和他的团队在机器学习的顶级会议“神经信息处理系统大会(NIPS)”上发表论文,超越了自己前期的理论研究——反向传播算法(BP),提出了一种全新的神经网络——胶囊网络(CapsNet)。

2017年9月(论文发表的前一个月),在多伦多举行的人工智能会议上,Hinton对他参与构建的反向传播(BP)理论表示深深的怀疑。Hinton还引用了著名物理学家马克斯·普朗克的名言:“科学之道,不破不立”,来为自己的新理论站台。

在这次会议上,Hinton最后总结:

科学是踩着葬礼前行的,未来由极其质疑我所说的一切的那批学生所决定。

  • 卷积神经网络面临的挑战

Hinton对CNN的“深深的质疑”是有原因的。CNN的内在缺陷主要体现在3个方面。

  1. CNN生物学基础不足,难以“熟能生巧”。
  2. CNN全连接模式过于冗余而低效。
  3. CNN胜在特征检测,但穷于特征理解。

Hinton评价说:“CNN分类正确率很高,看似一个大好局面,实则是一场灾难。”据此,Hinton也断言:“卷积神经网络注定是没有前途的!”

  • 神经胶囊的提出

Hinton在批判CNN不足的同时,已然备好了解决方案,这就是我们即将讨论的“胶囊神经网络(Capsule Network,简称CapsNet)。”

Hinton认为CNN的不变性并不理想,“同变性”才是我们想要的。不变性指的是对象的表征,不随对象X的“变换”而变化。从计算机视觉的角度来看,这里的变换包括平移、旋转、放缩等。

由于CNN具有不变特性,它对物体的平移、旋转和缩放等并不敏感。以北京故宫紫禁城门前的那尊狮子为例,这类变化并不影响CNN对方框内狮子的识别。这自然大大提高了分类的鲁棒性。

然而,任何性能的提升,通常都以牺牲某项性能为代价。CNN对分类性能的提升,同样要付出成本。Hinton认为,平移、旋转及缩放等变换之所以可以做到局部不变性,其实是以丢弃“坐标框架”为代价的。没有了坐标的约束,自然也就用判断图像是否发生平移、旋转或缩放。

而“同变性”则不会丢失这些信息,它只是对内容做了一种变换。这就好比,画纸相当于坐标框架,当画家画了一个人合适大小的嘴巴时,具有格局观的画家(抽象派除外),就能知道脸的大致位置和大小该怎么画。当嘴巴画斜了,脸自然也得倾斜才算是一张正常的脸。

类似地,在下图中,当数字“7”的位置发生变化时,人的视觉系统会自动建立“坐标框架”,在此处,“坐标框架”属于先验知识。坐标框架会参与到识别过程中,识别过程受到了空间概念的支配,因此,它并不是一个独立的过程。

不变性与同变性对比示意图

在(a)子图中,平移前的7和平移后的7的表征是一样的(可以通过CNN的池化操作实现),这样位置变了我们依然识别出7,但代价是我们根本无法判断出7在图像所处的位置。

在(b)子图头部所示的公式描述的是,对象x的表征,在经过转换(平移)之后,其结果等同于转换之后对象的表征,这就是所谓的“同变性”。具体说到数字“7”的平移,平移前的7和平移后的7的表征里,包含有位置这个信息(这个可以通过后文即将讲到神经胶囊做到),这样一来,我们不但能识别出7,还能判断出7在图像所处的位置。

于是,Hinton教授提出了一个设想:观察者和物体之间的关系,应该由一整套激活的神经元来表征,而不是由单个神经元或一组粗编码的神经元表征。只有这样,有关“坐标框架”之类的先验知识才能有机会被表达出来。而这一整套神经元,Hinton将其取名为“神经胶囊”。

那么在神经胶囊框架下,又是如何体现同变性呢?Hinton认为,同变性大致包括两种类型:

  1. 位置编码:当内容的位置发生较大变化时,则由不同的“胶囊”表示其内容。
  2. 速率编码:当内容的位置发生较小变化时,则由相同的“胶囊”表示其内容,但是内容有所改变。

二者的关联是,高层的“胶囊”有更广的域,低层的“位置编码”信息通过汇总,抵达高层变成“速率编码”。对这两种编码的理解,可以想象成两种不同比例尺的地图。“位置编码”相当于小比例尺的地图(比如说街道级别),而“速率编码”相当于大比例尺的地图(比如说地区级别)。

相比CNN,使用胶囊网络的一大优势在于,它需要的训练数据量远小于CNN,而效果却毫不逊色于CNN。从这个意义上来讲,神经胶囊实际上更接近人脑的行为。我们知道,为了学会区分阿猫阿狗,小孩子也不过就学习了几十个例子就可以做到。而当前的CNN,动辄需要几万甚至几十万的案例才能取得很好的效果。这看起来,CNN的工作更像是在暴力破解,其工作机理显然要比大脑低级,行为更是一点也不优雅。

此外,和其他模型相比,胶囊网络在不同角度的图片分类上,有着更好的辨识度。例如,在下图中,对应的,上一列和下一列的图片属于同一类,它们仅仅是呈现的视角不同。最新的研究论文表明,相比于其他同类算法,使用胶囊网络,错误识别率显著降低。

胶囊网络的多角度图片识别

神经胶囊网络t既然这么好用,势必有强大的理论为之支撑。那么,它的理论基础又是什么呢?

  • 神经胶囊理论基础
  • 神经胶囊的生物学基础

我们知道,人工神经网络在很大程度上是模仿生物神经网络而来的。作为“仿生派”的代表人物Hinton,他提出的“神经胶囊”,同样受益于脑科学的研究进展。

目前,大多数神经解剖学研究都支持这样一个结论——大部分哺乳类,特别是灵长类大脑皮层中存在大量称为皮层微柱的柱状结构,其内部包含上百个神经元,并存在内部分层。

这些小模块,非常擅长处理不同类型的可视化刺激。生物学家推测,大脑一定有某种机制,以某些权重“穿针引线”般组合低层次的可视化特征,从而构建出我们“看到”的五彩缤纷的大千世界。

大脑皮层中普遍存在的皮层微柱这一研究发现,极大启发了Hinton。于是,Hinton提出了一个假想,物体和观察者之间的关系,应该由一整套而非一个激活的神经元表征。

于是,在人工神经网络中,Hinton提出了一个对应的结构,它就是我们前面提到的神经胶囊。简单来说,神经胶囊是一组被打包的神经元,它们在内部做了大量运算,而后仅输出一个被压缩的结果——一个高维向量。

  • 神经胶囊网络的哲学基础

其实,人工智能领域也是哲学家们最爱光顾的地方之一。因为说到“智能”,就离不开“意识”“存在性”等基本问题。而这类问题,本来就是哲学的传统地盘。

古话说,“形而下者为器,形而上者为道”。如果我们总是低头看路,看到的都是具体的“器”,那我们肯定难以看到哲学的影子。但如果我们仰望星空,不再关注具体有形的事物,将研究视角提升到“道”的层面,Hinton提出的神经胶囊,在哲学层面的意义,已然若隐若现。Hinton提出的理论,实际上践行了哲学中的“本体论(Ontology)”。

简单来说,本体论研究的问题,就是“什么是‘存在’”。拿香蕉来举例,“香蕉”就是本体,而香蕉的图片,香蕉的视频,中文“香蕉”二字,英文单词“banana”等,都是描述“本体”的外在符号。于是,这个世界上的所有图像、音频、视频、语言等,都成为某种符号到实体的映射,这就是哲学意义上的“本体”。

事实上,哲学上的“本体论”,对信息科学是有启发意义的。

回到神经胶囊的讨论上来。我们知道,一个活动的胶囊内的神经元活动,表示了特定实体的各种属性。这些属性包括但不限于不同类型的实例化参数,例如前面提到的位姿(pose,包括位置、大小、方向等),形变,速度,反照率,色相,纹理等。某些特殊属性的存在,就能表明某个类别实例的存在。

在机器学习领域,判断存在性的一个简易方法是,使用一个独立的逻辑回归单元,其输出值是连续的,输出范围在[0,1]之间,其大小是实体存在的概率。比如,0表示肯定没出现,1表示确定出现,中间值就是一个出现的概率。

有意思的是,Hinton等人提出了一个更加巧妙的替代方法。他们提出的神经胶囊,其输出值是一个高维向量,通过归一化处理,可以用向量模长(length)表示实体存在的概率,同时用向量的各种“位姿”表示实体的各类属性。如果一个向量在各个方向表现得都很显著,那么它的模长自然也就越大,判定这个本体存在性概率就越高。

在这里面就蕴含了使用实体的属性来定义实体存在性的本体论精髓。如果发现一个实体的各种属性都有难以忽略的存在,那么该实体也必然存在。据此做分类依据,自然也就非常靠谱。

在传统的深度学习模型(如CNN、RNN及DBN等)中,是没有这样的性质的。

这是因为,在传统深度学习网络中,一个神经元的激活只能表示某个实体(可理解为标量神经元),其维度的单一性决定了神经元本身不能同时表示多个属性。于是,不得不退而求其次事物的性质只能隐含到茫茫的网络参数之中。这样一来,网络的参数调整,动机就难以单纯,它必须需要顾及到各类样本的输入,故此调参异常繁琐而耗时,就在所难免了。

而现在就不同了,利用神经胶囊,我们可以判定实体存在的各种性质统统封装在一个胶囊之内,于是,调参的约束条件就会大大减少,自然而然的结果,调参变得优雅了,最佳的参数容易获取了。

今天我们为大家带来了AI领域非常前沿的“神经胶囊”理论的分享,相信各位也意犹未尽,想要继续探索“神经胶囊”更深层的奥秘。关注“前沿技墅”,下一次将为大家全面揭秘“神经胶囊”理论的工作流程、参数设计,并带来最佳实践,敬请期待。

————

本文节选自博文视点即将出版的新书《深度学习之美:AI时代的数据处理与最佳实践》,本书深入浅出地介绍了深度学习的相关理论和实践,是一本难得的零基础入门、图文并茂、通俗易懂、理论联系实践的深度学习科普书籍。静候这本出自名家之手、可快速增闻强识的好书之余,阅读原文已开启虫洞,抢先通向另一个Deep Learning平行空间。

  • 内容简介:本书以深度学习算法入门为主要内容,通过系统介绍Python、NumPy、SciPy等科学计算库,深度学习主流算法,深度学习前沿研究,深度学习服务云平台构建四大主线,向读者系统地介绍了深度学习的主要内容和研究进展。本书介绍了Python、NumPy、SciPy的使用技巧,面向谷歌推出的开源深度学习框架TensorFlow,向读者展示了利用TensorFlow和Theano框架实现线性回归、逻辑回归、多层感知器、卷积神经网络、递归神经网络、长短时记忆网络、去噪自动编码机、堆叠自动编码机、受限玻尔兹曼机、深度信念网络等,并将这些技术用于MNIST手写数字识别任务。本书不仅讲述了深度学习算法本身,而且重点讲述了如何将这些深度学习算法包装成Web服务。本书旨在帮助广大工程技术人员快速掌握深度学习相关理论和实践,并将这些知识应用到实际工作中。

原文发布于微信公众号 - 前沿技墅(Edge-Book)

原文发表时间:2018-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏互联网大杂烩

评价模型数据挖掘之评价模型

是定性与定量相结合的多准则决策、评价方法。将决策的有关元素分解成目标层、准则层和方案层,并通过人们的判断对决策方案的优劣进行排序,在此基础上进行定性和定量分析。...

2022
来自专栏AI科技大本营的专栏

被捧上天的深度学习,遇到这些问题根本干不过简单模型

今天我们来唱唱反调,推荐一篇Hacker News和Reddit的双料热文《何时该不用深度学习》。 作者 | Pablo Cordero 翻译 | reason...

3579
来自专栏AI研习社

浅析Geoffrey Hinton最近提出的Capsule计划

Geoffrey Hinton 以「深度学习之父」和「神经网络先驱」闻名于世,其对深度学习及神经网络的诸多核心算法和结构(包括「深度学习」这个名称本身,反向传播...

3899
来自专栏PPV课数据科学社区

AI时代就业指南:机器学习工程师求职须知

什么是机器学习? 我们来看一下机器学习是做什么的,能解决什么问题。 首先我们来看机器学习的一个类型,监督学习。 蓝色箭头部分是训练一个机器学习模型的过程。首先有...

3577
来自专栏数据派THU

独家 | 一文读懂优化算法

一、前言 模拟退火、遗传算法、禁忌搜索、神经网络等在解决全局最优解的问题上有着独到的优点,其中共同特点就是模拟了自然过程。模拟退火思路源于物理学中固体物质的退火...

71410
来自专栏机器之心

浅析Geoffrey Hinton最近提出的Capsule计划

选自知乎专栏 作者:SIY.Z 机器之心经授权转载 本文有可能是知乎上分析介绍深度学习最为全面的文章之一。希望做物理的、做数学的、做生物的、做化学的、做计算机、...

40414
来自专栏PPV课数据科学社区

【干货】近200篇机器学习&深度学习资料分享(上)

编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等。而且原文也会不定期的更新,望看到文章的朋友能够学到更多。 《Brief Hist...

4236
来自专栏IT派

亚马逊AI主任科学家李沐:机器学习简介

本书作者跟广大程序员一样,在开始写作前需要来一杯咖啡。我们跳进车准备出发,Alex掏出他的安卓喊一声“OK Google”唤醒语言助手,Mu操着他的中式英语命令...

5066
来自专栏人工智能头条

近200篇机器学习/深度学习资料分享(含各种文档,视频,源码等)

2453
来自专栏专知

【深度】浅析Geoffrey Hinton最近提出的Capsule计划

【导读】本文全面介绍了深度学习的来龙去脉以及Hinton最近提出的Capsule计划。希望做物理的、做数学的、做生物的、做化学的、做计算机、包括做科幻的都能看的...

3026

扫码关注云+社区

领取腾讯云代金券