前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何在神经网络中表示部分-整体的层次结构

如何在神经网络中表示部分-整体的层次结构

作者头像
用户1324186
发布2021-07-06 15:47:42
7940
发布2021-07-06 15:47:42
举报
文章被收录于专栏:媒矿工厂

本文来自NVIDIA GTC21的一篇演讲,主讲人是多伦多大学、谷歌和Vector研究所的Geoffrey Hinton,他将介绍一个关于表征的单一想法,该想法把transformers,SimclR,neural fields取得的进展结合到一个叫做GLOM的想象系统中。

Hinton首先介绍了神经网络最近的三个进展:

  • 用transformer对自然语言建模;
  • 可视化表示的无监督学习;
  • 使用神经元的图像生成模型。

Hinton将会结合这三个进展创建一个富有想象力的视觉系统GLOM,它比当前的深层网络更加类似人类的感知。

接着通过一个小实验cube demonstration介绍了人类视觉中的部分-整体的层次结构和矩形坐标框架的心理学事实,并说明了为何真正的神经网络很难学习部分-整体的层次结构:每张图片都有不同的语法树,神经网络不能动态分配神经元来表示语法树中的节点,神经元的作用取决于它连接上的权重,并且权重在缓慢变化。所以静态的神经网络如何表示动态的语法树?这将结合三个最新的进展来说明。

先简单介绍了transformer,注意力模型的激活取决于特征向量之间的成对相似性,这与早期的神经网络形成鲜明对比,后者的激活只是取决于特征向量和权重向量之间的相似性。并讲解了标准卷积神经网络用于完善基于上下文的词汇表征的过程和transformer的过程。

接着简要介绍视觉表征的对比学习,对比性自监督学习利用不同样本产生的特征向量的相似性。自从Becker和Hinton在1992年提出一个版本的想法以来,许多不同的团体开始研究对比性的自监督学习。

Hinton提到一个在多伦多开发的叫做SimCLR的模型,它的思想是最小化来自同一图像的patch的embedding之间的差异,最大化来自不同图像的patch的相似embedding之间的差异。在无监督学习之后,把学习到的embedding之前的那一层拿出来,然后适配一个线性分类器如softmax,线性分类器表现很好。它是有效的,但在直觉上并不令人满意。如果图像中的一个patch包含A类和B类的部分物体,而另一个patch包含A类和C类的部分物体,我们真的想为这两个patch得到相同的输出向量吗?

GLOM是为了克服这个问题而设计的。使用不同patch的输出向量的一致性来衡量的最初动机并不是分类,其目的是为了找到在空间或时间上具有一致性的属性 (Becker and Hinton, 1992)。GLOM是一种发现空间一致性的新方法来表示部分-整体的层次结构。视觉的外循环是一连串智能选择的定点,对视网膜阵列进行采样,提供执行任务所需的信息。对于每个固定点,我们重复使用相同的神经网络,以产生该固定点所产生的视网膜图像的多层次表示。本讲座只讨论第一次定影时发生的情况。

表示部分-整体层次结构的方法有以下三种:

  • 符号化的Al,通过为每个节点分配一个内存地址,并使用指针连接节点来创建一个动态的解析树。
  • Capsules,为每个可能的节点永久性地分配一块神经硬件,对于每个图像激活一小部分可能的节点并使用动态路由来激活整个节点和部分节点之间的连接。
  • GLOM,为解析树中的节点分配embedding向量。

其生物学上的灵感来自于每个细胞都有一套完整的指令用于制造蛋白质,将所有的知识复制到每个细胞中似乎是一种浪费,但这是非常方便的。细胞的环境决定了哪些实际表达的蛋白质。因此,细胞在其蛋白质表达的载体上有所不同,在一个器官内表达载体是相似的。

与视觉进行类比,图像位置就像细胞,权重就像DNA,在卷积神经网中,权重在每个位置都是重复的。以某一地点为中心的神经活动的完整矢量就像一个细胞中蛋白质表达的矢量。对象就像器官,它们是具有类似基因表达矢量的细胞的集合。非常相同的脸部向量必须对物体所占的列(如鼻子所占的列和嘴巴占据的列)作出不同的自上而下的预测,神经场解决了这个问题。自上而下的神经网络收到一个额外的输入代表该列的图像位置,脸部的姿势和这个额外的输入告诉它哪一部分应该占据那一列。

GLOM回答了这个问题:一个具有固定架构的神经网络如何能将一幅图像解析成一个部分-整体的层次结构,而这个层次结构对每一幅图像都是不同的?这个想法很简单,就是用相同矢量岛代表解析树中的节点。并讨论这个想法的许多影响,如果GLOM能够发挥作用,当应用于视觉或语言时,它应该能大大改善由类似transformers的系统产生的表示的可解释性。

总之,Hinton简要地解释了神经网络中的三个重要进展:transformers,SimclR,neural fields以及如何在GLOM中结合这三项进展,它解决了如何在神经网络中表示解析树的问题,而不需要对神经网络中的节点进行动态分配。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档