万众期待:Hinton团队开源CapsNet源码

【导读】前几天,Hinton团队的胶囊网络论文第一作者Sara Sabour将其源码在GitHub上开源,其实,该论文“Dynamic Routing Between Capsules”早在去年10月份就已经发表,直到今日,其官方实现终于开源。此前,Hinton一再强调,当前的反向传播和CNN网络存在很大的局限性,表明AI的下一代研究方向是“无监督学习”。因此,CapsNet应运而生,虽然传统神经网络很大程度上是在Hinton的理论基础上创建的,但Hinton却丝毫没有手下留情,声称要把反向传播等深度学习方法推倒重来。

近日,深度学习之父Geoffrey Hinton的胶囊网络论文“Dynamic Routing Between Capsules”的源码在GitHub上公布,目前,其Star数达到486,Fork数达到14407。早在去年10月份,该论文就已经发表,但其源码一直未公布,此前也有人根据其论文实现过其他版本,直到前几天,该论文第一作者Sara Sabour终于将其在GitHub上开源,可谓万众期待!

▌GitHub:



https://github.com/Sarasra/models/tree/master/research/capsules

▌胶囊网络的paper及链接:



Dynamic Routing Between Capsules. Sara Sabour, Nicholas Frosst, Geoffrey E Hinton

https://arxiv.org/abs/1710.09829

▌胶囊网络(Capsule Networks, CapsNet)



胶囊网络是Hinton等人在论文“Dynamic Routing Between Capsules”中提出的网络结构,它提出了理论上能更好地替代卷积神经网络的方案,是当前计算机视觉领域的最新技术。

首先来看一下传统神经网络的神经元。在物质世界中,这是一组细胞,以信号作为输入,并发出一些信号作为输出,只要它足够兴奋。虽然这是一个简单直白的解释,但这最终是对“神经网络”机器学习概念的充分体现。在这里,神经元是一个数学单位,它接受一个输入,并使用一系列函数给出输入的输出。我们学习权重来确定在训练阶段哪个特定的输入可能比使用反向传播的输入更重要。我们可以堆叠这些神经元,使得一层神经元的输出成为另一层神经元的输入。所有类型的神经元都取自从这个基本概念,包括递归神经网络和卷积神经网络。

胶囊的概念:像基本的神经元一样,它们也代表了一个认知思想的符号数字化。大脑的高层做了更多的演绎、理解和高层次特征的计算,大脑的特定部分在他们处理的领域或主题上有明确的含义。我们并不是将所有维度的数据都放在整个大脑中,而是“喂食(feed in)”较低级别的特征,以供大脑的高层部分处理,从而将认知负荷从较高级别的处理中移除。如果较低级别的功能与大脑某些较高级别的部分不相关,则不应将其发送到那里。它的信号至少应该有所减弱。

如果胶囊被用于处理姿势识别问题中。当训练一个模型对人的姿势进行识别时,往往会因为方向而存在问题:当人转个方向可能会在识别的时候遇到问题。为了解决这一问题,胶囊试图通过让“符号数学大脑(symbolic mathematical brain)”(即网络)的更高级别部分来处理复杂特征的识别和姿势认证,而较低级别部分用来处理“子”特征。一个较高级别的胶囊可以识别出一张脸部特征,而这是基于较低级别的胶囊是以一个相一致的方向来对嘴巴和鼻子进行识别的。

然而,传统的CNN只是依赖大量的数据,其中将该目标可能拥有的所有姿势都包含在内。

如果用胶囊代替神经元。较低级别的胶囊通过识别该目标的较简单的子部分来做一个该目标可能是什么的“弱赌注”,然后一个更高级别的胶囊会采取这些低级别的赌注,并试图看看它们是否同意。如果它们中有足够多的同意,那么这个目标就是Y,这可能是非常巧合。而这就是这些胶囊网络运行方式的本质。

我们如何路由这些较低级别的胶囊,把它们送到正确的、更高级别胶囊中呢?Hinton等人也在其论文中详细介绍了其路由算法,感兴趣的读者可以仔细阅读其论文,这里不做详细描述。

https://arxiv.org/abs/1710.09829

▌反向传播存在的问题



我们知道,反向传播也是Geffrey Hinton及其同事在1986年发表的论文“Learning representations by back-propagating errors”上提出的,自此之后,反向传播成了所有深度学习技术的基础。

但是,去年9月份,Hinton在多伦多接受采访时就表示要放弃反向传播,那么,反向传播到底存在什么问题呢?

首先,反向传播在生物学上很难成立。反向传播需要进行准确地求导、进行矩阵转置等,这种功能的系统从来没有在解剖学上得到证实。所以,反向传播更像是为训练多层神经网络而发展起来的算法。反向传播还需要进行小心翼翼地优化,这是个高度非凸的问题,依赖于繁杂的调参过程。

其次,反向传播计算出来的梯度不能保证是学习的正确方向。很多时候,研究者找到的所谓的最优解,往往只是看上去可行的,并不是问题最终的最优解。Hinton认为,要想让神经网络能够自己变得智能,必须进行“无监督学习”,“我认为这意味着需要放弃反向传播。”

▌卷积神经网络



不可否认,CNNs是当前计算机视觉中最先进的技术。CNN 是通过积累各层的特征集进行工作的,它的工作方式是首先从寻找边缘开始,然后是形状,继而是实际对象。但这种工作方式,把所有这些特征的空间关键信息都丢失了。所以,CNN在探索特征(视角,大小,方位)之间的空间关系方面效果较差。CNN 在以不同的方向查看图像时,也很容易混淆比如,在我们倒转或部分旋转图片时,CNN的性能会大幅下降。

▌参考链接:



https://arxiv.org/abs/1710.09829

https://github.com/Sarasra/models/tree/master/research/capsules

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-02-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Coding迪斯尼

深度学习初论:构建基础思维框架

11420
来自专栏专知

【干货】Entity Embeddings : 利用深度学习训练结构化数据的实体嵌入

【导读】本文是数据科学家Rutger Ruizendaal撰写的一篇技术博客,文章提出深度学习在非结构数据中有不错的表现,当前通过实体嵌入也可以使之在结构化数据...

65750
来自专栏新智元

【ACL2018】腾讯AI Lab入选5篇论文解读:神经机器翻译、情感分类等

【新智元导读】第 56 届计算语言学协会年会ACL 2018 将于当地时间7 月15-20 日在澳大利亚墨尔本举办。腾讯AI Lab 今年共有 5 篇论文入选,...

10800
来自专栏人工智能头条

从零到一学习计算机视觉:朋友圈爆款背后的计算机视觉技术与应用 | 公开课笔记

20350
来自专栏腾讯大数据的专栏

腾讯数平精准推荐 | OCR技术之识别篇

本文介绍了腾讯数平精准推荐团队的OCR识别算法,包括识别算法的演进之路以及4个代表性方法。

6.7K120
来自专栏机器之心

NeurIPS 2018亮点选读:深度推理学习中的图网络与关系表征

作者简介:Angulia Yang 毕业于新加坡国立大学,目前从事人工智能相关计算机视觉 (Computer Vision) 的研究与开发工作,主要工作方向集中...

68620
来自专栏大数据文摘

机器学习性能改善备忘单:32个帮你做出更好预测模型的技巧和窍门

21050
来自专栏张俊红

实战—用户价值模型搭建

40350
来自专栏大数据文摘

论文Express | 美图云+中科院AAAI2018:视频语义理解的类脑智能

11920
来自专栏人工智能头条

格灵深瞳:人脸识别最新进展以及工业级大规模人脸识别实践探讨 | 公开课笔记

87430

扫码关注云+社区

领取腾讯云代金券