前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学界 | UC Berkeley新研究:通过深度学习建模注意点采样阵列

学界 | UC Berkeley新研究:通过深度学习建模注意点采样阵列

作者头像
机器之心
发布于 2018-05-10 07:35:46
发布于 2018-05-10 07:35:46
7810
举报
文章被收录于专栏:机器之心机器之心

选自BAIR

作者:Brian Cheung

机器之心编译

参与:黄小天、蒋思源、路雪

近日,加州大学伯克利分校(UC Berkeley)在研究中尝试使用深度学习计算模型解释生物学中观察到的自然特征,在建模灵长类动物视网膜的注意点采样点阵的基础上,这些结果可引领主动视觉系统前端的新型设计方式的未来思考,并希望这种学科之间的良性循环仍会持续。

我们为什么需要注意力

我们通过眼睛观察到的只是世界的很小一部分,双眼只能采样周遭光场的少许片段,即使在这些片段中,大多数分辨力都是专注于神经节细胞(ganglion cell)浓度最高的注视中心。这些细胞负责把视网膜上的图像从眼睛传递到大脑。神经节细胞的空间分布高度不均匀。结果,我们的大脑接收到一个「注视点」(foveated)图像。

一张注视中心分别为蜜蜂(左)和蝴蝶(右)的注视点图像。

尽管这些细胞只覆盖了一部分视野,但是大约 30% 的大脑皮层会处理其提供的信号。如果大脑集中注意力处理整个视野,则体积会大到不切实际。可以说,专注于视觉的神经处理的数量相当大,如果被有效利用将有助于生存。

注意力是很多智能系统的基本属性。由于物理系统的资源有限,有效分配就变得很重要。注意力涉及到动态地分配信息处理资源从而最优地完成一个具体任务。在自然中,这种设计在动物视觉系统中十分常见。通过在场景中快速移动注视点,有限的神经资源高效地散布在整个视觉场景内。

外显注意力(Overt Attention)

这项工作中,我们研究了涉及感知器官清晰运动的外显注意力机制,下图中这只处于青春期的跳跃蜘蛛是它的一个实例:

一只使用外显注意力正在跳跃的蜘蛛。

我们可以看到这只蜘蛛通过认真审慎地移动身体来处理所处环境的不同部分。如果你盯着它半透明的头部时,甚至可以看到蜘蛛的眼动轨迹与人类眼动类似。这些眼动叫作 saccades。

本研究中,我们构建了一个模型视觉系统,该系统扫视整个场景以寻找和识别目标,它允许我们通过探索优化性能的设计参数来研究注意力系统的特性。视觉神经科学感兴趣的一个参数是视网膜采样点阵,它定义了人眼中神经节细胞阵列的相关位置。

注意单个场景不同部分的模型视网膜采样点阵。

控制注意力窗口的神经网络模型。

通过梯度下降逼近进化

大概是出于进化的压力,大自然调整了灵长类动物视网膜中的采样阵列,因此我们的视力在搜索物体时体现出十分优秀的属性。为了代替这种模拟演化,我们利用一个更高效的随机梯度下降过程而构建一个处处可微的动态注意力模型。

目前大多数神经网络有可学习的特征提取器构成,而这些特征提取器可以将固定的输入转化为如类别那样更加抽象的表征。在训练过程中模型能续能学到内部特征,即权重矩阵和卷积核等,而保持输入的几何属性仍然不变。我们扩展了深度学习框架以创造可学习的结构特征。此外,我们还学习了神经视网膜采样阵列的几何形状。

采样阵列中一个单元的结构化特征

我们模型的视网膜采样阵列是通过反向传播学习的,它就如同神经网络中调整权重的方式,我们调整视网膜并列式感知的参数以优化损失函数。我们初始化视网膜采样阵列为标准的正方形表格,然后使用梯度下降更新这种排列的参数。

从初始化阵列使用梯度下降学习结构化特征

随着时间的推移,这种排列将会收敛到局部最优的配置以最小化任务损失。本案例中,我们在更大的视觉场景分类 MNIST 手写数字。以下展示了训练期间视网膜排列是如何变化的:

初始化后分别训练 1、10、100 个 epoch 所产生的视网膜采样点阵变化情况。

令人惊奇的是,每个单元都以非常结构化的形式变化,从均匀的网格转化为一个离心的独立性点阵。我们注意到高度敏感的单元集中在采样阵列的中心。此外,每个单元都会扩散它们独立的中心以创造能覆盖整张图片的采样点阵。

控制注意点的出现

因为我们的模型是通过电脑模拟,所以我们能赋予它自然界找不到的属性以观察是否还有其它的点阵排列模式出现。例如,我们可以重新缩放整个采样点阵以覆盖更小或更大的区域,这可以赋予模型放大或缩小图像的能力。

视网膜采样点阵同样有能力重新缩放自身

我们在下面展示了所学到的不同视网膜点阵布局。为了比较,左图展示了模型不具备缩放功能的视网膜点阵布局,而右图展示了能够缩放的视网膜点阵布局。

(左)只能变换的模型视网膜点阵;(右)既能变换又能缩放的模型视网膜点阵。

当注意力模型能够缩放时,就会出现一个不同的布局。注意:视网膜神经节细胞中的多样性较少。这些细胞保留很多初始特性。为了更好地利用学得的视网膜布局,我们对比了具备固定(不可学习)点阵、可学习点阵(不能缩放)和可学习、能够缩放点阵的视网膜的性能。

模型在 Cluttered MNIST 数据集的两种版本(数据集 1 和数据集 2)上的性能。数据集 2 包含可随机改变大小的 MNIST 数字,因此数据集 2 比数据集 1 难度更高。

或许结果不会让人惊讶,缩放/可学习的点阵显著优于只能变换的固定点阵。但是,有趣的是,仅具备变换能力的可学习点阵的性能和具备变换能力还能缩放的点阵性能一致。这进一步证明缩放和灵长类动物视网膜的注意点布局的功能是一致的。

注意力的可解释性

早些时候,我们介绍了注意力高效利用有限资源的能力。注意力还能够帮助我们从内部理解构建的复杂系统如何运转。当我们的视觉模型在处理过程中注意图像的特定部分时,我们能够了解该模型运用哪一部分来执行任务。在我们的案例中,该模型通过学习将注意点放置在数字上来解决识别任务,这说明注意力能够帮助分类数字。我们还看到最下方模型利用其缩放能力来识别数字。

我们的模型随着时间的注意力移动。固定点阵的模型(上),学得的点阵(中),学得的具备缩放能力的点阵(下)。

结论

通常,我们从生物学中寻找灵感来构建机器学习模型。Hubel 和 Wiesel 的研究启发了神经认知机(Neocognitron)模型的出现,该模型又反过来促进卷积神经网络的发展。在该研究中,我们选择了另一个方向,尝试使用深度学习计算模型解释生物学中观察到的自然特征。未来,这些结果可能会引领我们思考主动视觉(active vision)系统前端的新型设计方式,根据灵长类动物视网膜的注意点采样点阵(foveated sampling lattice)进行建模。我们希望这种学科之间的良性循环未来仍会持续。

更多信息,请查看我们发表在 ICLR 2017 的论文《Emergence of foveal image sampling from learning to attend in visual scenes》:https://arxiv.org/abs/1611.09430

参考文献

1. Hubel, David H., and Torsten N. Wiesel.「Receptive fields, binocular interaction and functional architecture in the cat's visual cortex.」The Journal of physiology 160.1 (1962): 106-154.

2. Fukushima, Kunihiko, and Sei Miyake.「Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition.」Competition and cooperation in neural nets. Springer, Berlin, Heidelberg, 1982. 267-285.

3. LeCun, Yann, et al.「Handwritten digit recognition with a back-propagation network.」Advances in neural information processing systems. 1990.

4. Gregor, Karol, et al.「DRAW: A Recurrent Neural Network For Image Generation.」International Conference on Machine Learning. 2015.

原文链接:http://bair.berkeley.edu/blog/2017/11/09/learn-to-attend-fovea/

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
正面刚CNN,Transformer居然连犯错都像人类
梦晨 水木番 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这是你眼里的一只猫: 这是CNN眼里的一只猫: 这是ViT (Vision Transformer)眼里的一只猫: 从去年起,Transformer忙着跨界CV,如ViT在图像分类上准确率已超过CNN,大有取代之势。 这背后的原因是什么? 最近普林斯顿的一项研究认为,Transformer的运作方式更接近人类,连犯错的方式都和人类一样。 研究团队在图像分类的准确率之外,增加了对错误类型的分析。 结果发现,与CNN相比,ViT更
量子位
2023/03/10
2560
正面刚CNN,Transformer居然连犯错都像人类
Brain综述|前额叶皮层:从猴子到人
摘要:前额叶皮层对人类来说是如此重要,以至于如果剥夺了它,我们的行为就会沦为行动反应和自动行为,没有能力做出深思熟虑的决定。为什么前额叶皮层在人类中如此重要?作为回答,这篇综述借鉴了人类与其他灵长类动物之间的接近性,这使我们能够通过比较解剖功能分析来理解我们共同的认知功能,并指定那些将人类与其近亲区分开来的功能。首先,对前额叶皮层外侧区域的关注说明了恒河猴(神经科学中研究最多的灵长类动物)和人类之间存在一个连续体,用于大脑的这个区域起核心作用的大多数主要认知功能。这种连续体涉及恒河猴的基本心理操作(例如工作记忆或反应抑制)的存在,这些操作构成了“宏观功能”,例如计划,解决问题甚至语言产生。其次,与其他灵长类动物相比,人类的前额叶皮层已经显着发展。这种增加似乎与最前部(额极皮层)有关。在人类中,最前额叶皮层的发育与三个主要且相互关联的认知变化有关:(i)更大的工作记忆能力,可以更好地整合过去的经验和未来的未来;(ii)具有更强的连接不连续或遥远数据的能力,无论是时间数据还是语义数据;(iii)更强的抽象能力,使人类能够以不同的方式对知识进行分类,进行类比推理或获得产生我们信仰和道德的抽象价值。总之,这些新技能使我们能够发展基于语言的高度复杂的社会互动,使我们能够构思信仰和道德判断,并概念化、创造和扩展我们对环境的看法,超出我们身体所能掌握的范围。最后,人类和非人类灵长类动物之间前额叶功能转变的模型结束了本综述。
悦影科技
2024/07/18
4660
深度 | 卷积神经网络十五问:CNN与生物视觉系统的研究探索
和我近期的大多数博文一样,我写这篇文章的起因是近期一个 Twitter 讨论,具体是关于如何将深度卷积神经网络(CNN)的组件与大脑联系起来。但是,这里的大多数思考都是我以前考虑并讨论过的。当有人使用 CNN 作为视觉系统的模型时,我通常(在研究讨论和其它对话上)必须鼓励和支持这一选择。部分原因是它们(在某种程度上)是神经科学领域相对较新的方法,还有部分原因是人们对它们持怀疑态度。计算模型一般在神经科学领域发展较慢,很大部分(但并非全部)是来自不使用或构建计算模型的人;它们通常被描述成不切实际或没有用处。在对技术宅的普遍反感和深度学习/人工智能(会值多少钱?)的过度炒作氛围中,不管你得到了什么模型,某些人都会厌恶它。
机器之心
2018/07/30
7450
深度 | 卷积神经网络十五问:CNN与生物视觉系统的研究探索
彻底解决AI视觉深度估计
深度估计是一个不适定问题;不同形状或尺寸的物体,即使在不同距离上,也可能投影到视网膜上的同一图像上。我们的大脑使用多种线索来进行深度估计,包括单眼线索,如运动视差,以及双眼线索,如重影。然而,深度估计所需的计算如何以生物学合理的方式实现尚不清楚。基于深度神经网络的最新方法隐式地将大脑描述为分层特征检测器。相反,在本文中,我们提出了一种将深度估计视为主动推理问题的替代方法。我们展示了深度可以通过反转一个同时从二维对象信念预测眼睛投影的分层生成模型来推断。模型反演包括一系列基于预测编码原理的生物学合理的均匀变换。在非均匀视点分辨率的合理假设下,深度估计有利于采用主动视觉策略,通过眼睛对准对象,使深度信念更准确。这种策略不是通过首先将注意力集中在目标上然后估计深度来实现的;相反,它通过行动-感知循环结合了这两个过程,其机制类似于在物体识别过程中的快速眼球运动。所提出的方法仅需要局部的(自上而下和自下而上的)消息传递,可以在生物学上合理的神经回路中实现。
CreateAMind
2024/04/11
2700
彻底解决AI视觉深度估计
蒙特利尔大学科研工作者:详细对比人类视觉系统与卷积神经网络(CNN)的联系和区别
熟悉深度学习的朋友们一定不会对卷积神经网络(CNN)感到陌生,与传统的全连接深度学习神经网络(DNN)相比,CNN具有权重参数共享、灵活的特征检测等特点,其一定程度上甚至独立于主流的DNN。关于CNN,大家可能都广泛知晓其背后的灵感来自于人视觉系统中一个叫感受野的(receptive field)概念。其实CNN只是借用了这一概念,其整体机制与人的视觉系统还是有很大的差别。读完本文后,您将会对此有更加清晰的认识,并可能为您在基于视频处理的下一代神经网络研究中提供些灵感。
AI算法与图像处理
2019/08/26
1.1K0
蒙特利尔大学科研工作者:详细对比人类视觉系统与卷积神经网络(CNN)的联系和区别
学界 | 为卷积模型执行加入循环和远程反馈,更完整地拟合生物视觉
大脑的感觉系统必须要在复杂的有噪声感觉数据中检测出有意义的模式 [James, 1890]。视觉环境可以揭示对象的积极或消极性质,包括食物种类、危险标志以及令人记忆犹新的社会伙伴。这些对象在每一时刻的位置、姿势、对比度、背景以及前景都各不相同。因此,从低级图像属性中进行目标检测是很不容易的 [Pinto 等人,2008]。灵长类动物的视觉系统会对相关的高级属性进行编码,以便指导行为 [Majaj 等人,2015]。这一过程可被建模为把一张图从原始像素值转换为内部表征 [DiCarlo 等人,2012]。好的编码算法能够将任务的相关特征提供给简单的解码过程,如线性分类器 [Hung 等人,2005,Majaj 等人,2015]。
机器之心
2018/08/07
4450
学界 | 为卷积模型执行加入循环和远程反馈,更完整地拟合生物视觉
说到深度学习架构中的预测编码模型,还得看PredNet
本文中,作者对经典预测编码模型和深度学习架构中的预测编码模型进行了简单回顾,其中重点介绍了用于视频预测和无监督学习的深度预测编码网络 PredNet 以及基于 PredNet 进行改进的一些版本。
机器之心
2021/11/18
6530
说到深度学习架构中的预测编码模型,还得看PredNet
学界 | 殊途同归还是渐行渐远?MIT神经科学教授James DiCarlo谈如何通过人类神经理解神经网络
AI 科技评论按:国际计算机视觉与模式识别顶级会议CVPR 2017于 7 月 21 日至7 月 26 日在美国夏威夷召开。我们的记者团也特赴夏威夷为大家带来一手报道。 全体大演讲:灵长类视觉理解的反
AI科技评论
2018/03/13
8270
学界 | 殊途同归还是渐行渐远?MIT神经科学教授James DiCarlo谈如何通过人类神经理解神经网络
默认网络:最新的解剖、生理研究及其研究发展过程中的新观点
默认网络是近年来静息态研究中最典型的研究发现,但该网络最初的发现却是来源于任务态研究。可以说,默认网络在连接静息态研究和任务态研究成果方面起到了至关重要的作用。因此,在脑科学研究中具有举足轻重地位的研究者对该网络都给予了很高的关注力度。例如,思影科技公众号在之前为大家带来的Marcus E. Raichle教授关于默认网络所写文章,直接点击即可阅览:
用户1279583
2019/09/29
2.1K0
默认网络:最新的解剖、生理研究及其研究发展过程中的新观点
slowfast神经网络简介
检测并归类图像中的物体是最广为人知的一个计算机视觉任务,随着ImageNet数据集挑战 而更加流行。不过还有一个令人恼火的问题有待解决:视频理解。视频理解指的是对视频片段进行分析并进行解读。虽然有一些最新的进展,现代算法还远远达不到人类的理解层次。
用户1408045
2019/03/12
1.6K0
slowfast神经网络简介
精品连载|“深度学习与计算机视觉”学习笔记——原理篇
上一篇简要回顾了深度学习与计算机视觉技术的演变史,其中与计算机视觉关联最紧密的深度学习网络就是卷积神经网络(CNN),而谈CNN的原理,最早可以追溯到动物视觉感知机制的发现。
灯塔大数据
2020/07/07
5640
经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!
在本文中,作者提出了用于视频识别的SlowFast网络,本文的模型涉及以低帧率运行的Slow pathway,以捕获空间语义,以及以高帧率运行的Fast pathway,以高时间分辨率捕获运动。通过减少通道容量,可以使Fast pathway变得非常轻巧,但可以学习有用的时间信息以进行视频识别。本文的模型在视频中实现了动作分类和检测的强大性能,并且是由于本文的SlowFast概念的贡献而做出了巨大的改进。本文提出的SlowFast网络在多个视频动作识别的benchmark上(Kinetics, Charades and AVA),实现了SOTA的性能。
CV君
2021/12/27
1.2K0
经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!
长文解读|Progress in Neurobiology:监督式机器学习在神经科学中的应用
这些年来,人们投入了相当多的热情在机器学习(Machine Learning)领域中,毕竟它让电脑的表现在某些方面超过了人类,比如图像分类,围棋竞赛,语音转文本等,它也加速了许多科研领域的探索发现进程。当然,神经科学也不例外,机器学习在神经科学中的应用一直都在快速增长,关于机器学习在神经科学中应用的论文比例也在持续增加(如图1所示)。
悦影科技
2021/01/26
5820
长文解读|Progress in Neurobiology:监督式机器学习在神经科学中的应用
高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR 2020
2020 年 8 月 7 日,第五届全球人工智能与机器人峰会(CCF-GAIR 2020)于深圳正式拉开帷幕。
AI科技评论
2020/08/11
6300
2019年末,10 位院士对 AI 的深度把脉(上)
2019 年 12 月 20 日,由鹏城实验室、新一代人工智能产业技术创新战略联盟主办的为期两天的「新一代人工智能院士高峰论坛」在深圳开幕。
AI科技评论
2019/12/23
5570
2019年末,10 位院士对 AI 的深度把脉(上)
使用拓扑数据分析理解卷积神经网络模型的工作过程
神经网络在各种数据方面处理上已经取得了很大的成功,包括图像、文本、时间序列等。然而,学术界或工业界都面临的一个问题是,不能以任何细节来理解其工作的过程,只能通过实验来检测其效果,而无法做出合理的解释。相关问题是对特定数据集经常存在某种过拟合现象,这会导致对抗行为的可能性。出于这些原因,开发用于发展对神经网络的内部状态的一些理解的方法是非常值得尝试的。由于网络中神经元的数量非常庞大,这成为使得对其进行数据分析显得比较困难,尤其是对于无监督数据分析。 在这篇文章中,将讨论如何使用拓扑数据分析来深入了解卷积神经网络(CNN)的工作过程。本文所举示例完全来自对图像数据集进行训练的网络,但我们确信拓扑建模可以很容易地解释许多其他领域卷积网络的工作过程。 首先,对于神经网络而言,一般是由节点和有向边组成。一些节点被指定为输入节点,其他节点被指定为输出节点,其余节点被指定为内部节点。输入节点是数据集的特征。例如,在处理图像时,输入节点将是特定图像格式的像素。在文本分析时,它又可能是单词。假设给定一个数据集和一个分类问题,比如手写数字MNIST数据集,试图将每个图像分类为数字0到9中的某一个数字。网络的每个节点对应于一个变量值(激活值)。因此,每个数据点为神经网络中的每个内部和输出节点生成值。网络每个节点的值由分配给每个边的权重系统决定。节点节点Z上的值由与之连接的节点A,B,C,D节点的激活函数来确定。
用户3578099
2019/08/16
6510
神经网络的第一性原理
学习的本质是什么?神经网络的本质是什么?生物智能的隐喻给了我们哪些启示?为什么层级结构(浅层和深层)适用于学习(自然学习)?这些问题不仅困扰着机器学习的很多入门者,也困扰着很多进阶者。本文尝试从以下几个方面探讨神经网络的第一性原理:
用户9624935
2022/04/02
8740
神经网络的第一性原理
nature reviews neuroscience:前额叶学习的时间尺度
在人类和其他灵长类动物中,侧前额叶皮层(PFC)对于即时的、目标导向的行为和工作记忆至关重要,这在经典上被认为与支持长期学习和记忆的认知和神经回路是不同的。然而,在过去几年中,人们对这种教科书观点进行了重新考虑,即在追求即时目标的过程中,不同时间尺度的记忆引导行为不断相互作用。在这里,我们首先详细介绍与目标导向行为最短时间尺度相关的神经活动(需要在工作记忆中维持当前状态和目标),以及如何通过长期知识和学习塑造这些活动 — 即过去如何影响当前行为。然后,我们将概述从秒到年的不同时间尺度上的学习如何驱动灵长类动物侧前额叶皮层的可塑性,从单个神经元的放电率到中尺度神经影像活动模式。最后,我们将回顾在学习的几天和几个月中,PFC中密集的局部和远程连接模式如何通过改变突触权重和招募额外的神经资源来促进种群活动的持久变化,以指导未来行为。我们的综述揭示了PFC回路中可塑性机制如何促进通过时间整合学习经验以最佳地指导适应性行为。
悦影科技
2024/12/19
1720
从「生态光学」取经,伯克利曹颖提出解决物体遮挡问题方案,登PNAS
「向传统视觉研究寻求破局之法」成为了近年来计算机视觉领域的一大趋势。将传统视觉技术与深度学习方法结合有望构建更为鲁邦的下一代视觉模型。 近日,著名计算机视觉、神经科学学者曹颖在美国科学院院刊 PNAS 上发表研究论文,基于 J.J.Gibson 的「生态光学」和微分拓扑学提出了一种新的图像分割与目标跟踪框架,对计算机视觉和生物视觉研究具有巨大的启发意义。 作者丨曹颖、Thomas Tsao 编译丨OGAI 编辑丨陈彩娴 我们所生活的世界由物体、地面和天空组成。视觉感知需要解决两个基本的问题: (1)将视觉输
AI科技评论
2023/04/12
6200
从「生态光学」取经,伯克利曹颖提出解决物体遮挡问题方案,登PNAS
注视眼动的控制和功能
人类和其他物种通过每秒两到三次的快速眼球运动(扫视)来探索视觉场景。虽然在扫视的短暂间隔中,眼睛可能看起来不动,但在快速照相机下可以观察到眼球运动始终存在,甚至当观察者注视一个单一点时也是如此。这些运动发生在获取和处理视觉信息的特定时期,它们的功能一直是争论不休的话题。最近在控制正常眼动活动期间的视网膜刺激方面的技术进展,已经阐明了注视眼动的视觉贡献以及这些运动可以被控制的程度。在本文中回顾的大量证据表明,注视眼动是视觉系统处理精细空间细节策略的重要组成部分;它们既能精确定位视网膜上的刺激,又能将空间信息编码到关节的时空域中。本文发表在Annual Review of Vision Science杂志。
用户1279583
2020/07/14
1.3K0
注视眼动的控制和功能
推荐阅读
相关推荐
正面刚CNN,Transformer居然连犯错都像人类
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档