胶囊 网络

引言

斯蒂文认为机器学习有时候像婴儿学习,特别是在物体识别上。比如婴儿首先学会识别边界和颜色,然后将这些信息用于识别形状和图形等更复杂的实体。比如在人脸识别上,他们学会从眼睛和嘴巴开始识别最终到整个面孔。当他们看一个人的形象时,他们大脑认出了两只眼睛,一只鼻子和一只嘴巴,当认出所有这些存在于脸上的实体,并且觉得“这看起来像一个人”。

斯蒂文首先给他的女儿悠悠看了以下图片,看她是否能自己学会认识图中的人(金·卡戴珊)。

斯蒂文接下来用几张图来考她:

悠悠

图中有两只眼睛一个鼻子一张嘴巴,图中的物体是个人。

斯蒂文

正确!

悠悠

图中有两只眼睛一个鼻子一张嘴巴,图中的物体是个人。

斯蒂文

错误!嘴巴长到眼睛上还是个人吗?

悠悠

图中有一大块都是黑色的,图中的物体好像是头发。

斯蒂文

错误!这只是把第一张图颠倒一下,怎么就变成头发了?

斯蒂文很失望,觉得她第二、三张都应该答对,但是他对悠悠要求太高了,要知道现在深度学习里流行的卷积神经网络 (convolutional neural network, CNN) 给出的答案也和悠悠一样,如下:

第一张 CNN 给出的答案是人,概率为 0.88,正确;第二张 CNN 给出的答案也是人,概率为 0.90 ,开玩笑在?第三张 CNN 给出的答案是黑发,概率为 0.79 ,呵呵,和悠悠一样天真。

CNN 弄错的两张图也是因为它的两个缺陷:

CNN 对物体之间的空间关系 (spatial relationship) 的识别能力不强,比如卡戴珊的嘴巴和眼睛换位置了还被识别成人?

CNN 对物体旋转之后的识别能力不强 (微微旋转还可以),比如卡戴珊倒过来就被识别成头发了?

Convolutional neural networks are doomed. -- Hinton

大神 Hinton 如此说道“卷积神经网络要完蛋了”,因此他最近也提出了一个 Capsule 的东西,直译成胶囊。但是这个翻译丢失了很多重要的东西,个人认为叫做向量神经元 (vector neuron) 甚至张量神经元 (tensor neuron) 更贴切。正式介绍 Capsule 的这篇文章在 2017 年 11 月 7 日才出来,论文名字叫《Dynamic Routing Between Capsules》,有兴趣的同学跟我走一遭吧。

目录

第一章 - 前戏王

1.1 物体姿态

1.2不变性和同变性

1.3全连接层

1.4卷积神经网络

第二章 - 理论皇

2.1 胶囊定义

2.2 神经元类比

2.3 工作原理

2.4 动态路由

2.5 网络结构

第三章 - 实践狼

3.1 帆船房子

3.2 代码解析

总结和下帖预告

1

前戏王

1.1

物体姿态

为了正确的分类和识别物体,保持物体部分之间的分层姿态 (hierarchical pose) 关系是很重要的。姿态主要包括平移 (translation)、旋转 (rotation) 和放缩 (scale) 三种形式。

在拍摄人物时,我们调动照相机的角度从 3D 的人生成 2D 的照片。照出来的人物照角度多种多样,但人是个整体 (脸和身体对于人的相对位置不会变)。因此我们不想定义相对于相机的所有对象 (脸和身体),而将它们定义一个相对稳定的坐标系 (coordinate frame) 中,然后仅仅通过转动相机来照出不同角度的照片。

在创建这些图形时,我们首先会定义脸和身体相对于人的位置,更进一层,我们会定义眼睛和嘴巴对于相对于脸的位置,但不是相对于人的位置。因为之前已经有了脸相对于人的位置,现在又有了眼睛相对于脸的位置,那么也有了眼睛相对于人的位置。本质上,你将有层次的创建一个完整的人,而所需要的数学工具就是姿态矩阵 (pose matrix),这个矩阵定义所有对象相对于照相机的视点 (viewpoint),并且还表示了部件与整体之间的关系。

In order to correctly do classification and object recognition, it is important to preserve hierarchical pose relationships between object parts. -- Hinton

Hinton 认为,为了正确地进行分类和对象识别,重要的是保持对象部分之间的分层姿态关系。后面讲到的 Capsule 就符合这个重要直觉,它结合了对象之间的相对关系,并以姿态矩阵来表示。

本文来自企鹅号 - 机器学习研究会媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数说工作室

文本相似度 | 余弦相似度思想

我一直觉得,在数据分析领域,只有文本分析是最“接地气儿”的,“接地气儿”不是指最简单,而是我们普通大众的使用它最多。 我们每天使用互联网,但不一定每个人都炒股...

56670
来自专栏机器之心

开源 | Intel发布神经网络压缩库Distiller:快速利用前沿算法压缩PyTorch模型

项目地址:https://github.com/NervanaSystems/distiller/

51430
来自专栏鸿的学习笔记

The Brain vs Deep Learning(四)

现在我们经历了整个过程,让我们把所有这一切都放在全文中,看看大脑如何使用所有的这一切。大多数神经元每秒重复接收输入和发射的过程约50到1000次; 射击频率高度...

7110
来自专栏大数据挖掘DT机器学习

【案例】SPSS商业应用系列第2篇: 线性回归模型

商业保险公司希望通过分析以往的固定资产保险理赔案例,能够预测理赔金额,借以提高其服务中心处理保险理赔业务的速度和服务质量,并降低公司运营风险。业界领先...

43070
来自专栏新智元

NAACL2016年度论文:无监督神经网络理解虚构人物关系

【新智元导读】非监督式学习如何确定小说中动态的人物角色关系?本论文提出了一种新的神经网络架构的RMN,通过结合词典学习来对关系描述符进行学习,是深度循环自编码器...

40080
来自专栏机器之心

资源 | Picasso:开源的CNN可视化工具

选自Medium 机器之心编译 参与:侯韵楚、李泽南 神经网络在图像处理中应用广泛,但经常面临难以调整参数的问题。最近,来自 Merantix 的 Ryan H...

45880
来自专栏人工智能头条

NLP通用模型诞生?一个模型搞定十大自然语言常见任务

14220
来自专栏AI研习社

可能是最好玩的深度学习模型:CycleGAN的原理与实验详解

CycleGAN是在今年三月底放在arxiv的一篇文章,文章名为Learning to Discover Cross-Domain Relations with...

99540
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数学不好,也可以学好人工智能(五)——深度学习和卷积神经网络

【AI100 导读】欢迎阅读《数学不好,也可以学好人工智能》系列的第五篇文章。如果你错过了之前的四部分,一定记得把它们找出来看一下!本文主要介绍了深度学习架构—...

424100
来自专栏PPV课数据科学社区

非主流自然语言处理——遗忘算法系列(四):改进TF-IDF权重公式

一、前言   前文介绍了利用词库进行分词,本文介绍词库的另一个应用:词权重计算。 二、词权重公式   1、公式的定义     定义如下公式,用以计算词的权重: ...

44290

扫码关注云+社区

领取腾讯云代金券