首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Nature子刊论文;神经网络具有空间感知能力!迈向智能的重要一步

Nature 子刊论文:Automated construction of cognitive maps

with visual predictive coding

动动您的小手指,关注一下吧!

01 摘要

人类直接从感官输入构建其环境的内部认知地图,而无需访问明确的坐标或距离测量系统。虽然像同步定位和地图绘制这样的机器学习算法利用专门的推理程序来识别视觉特征,并从视觉和里程计数据中构建空间地图,但大脑中认知地图的一般性质表明,一种统一的地图绘制算法策略可以推广到听觉、触觉和语言输入。本文证明了预测编码为使用感官数据构建空间地图提供了一种自然和通用的神经网络算法。我们引入了一个框架,在这个框架中,智能体在虚拟环境中导航,同时使用配备自注意的卷积神经网络进行视觉预测编码。在学习下一个图像预测任务时,智能体自动构建一个定量反映空间距离的环境内部表示。内部地图使代理能够仅使用视觉信息确定其相对于地标的位置。预测编码网络生成支持矢量导航的环境矢量化编码,其中单个潜在空间单元描绘环境中局部重叠的邻域。从广义上讲,作者的工作将预测编码作为构建认知地图的统一算法框架,可以自然地扩展到听觉、感觉运动和语言输入的映射。

图1 预测编码神经网络探索虚拟环境。在预测编码中,模型预测观测值并利用预测误差更新其参数。a、agent通过选择最直接的路径到达随机位置来遍历环境。b、基于自注意的编码器-解码器神经网络架构学习执行预测编码。一个ResNet-18卷积神经网络作为编码器;使用8个头像进行自我注意,相应的ResNet-18卷积神经网络对预测图像进行解码。c、神经网络学习有效地进行预测编码,实际图像与预测图像的均方误差为0.094。Conv,卷积;合并多个数组。连接;规范。,规范化。

02 拟解决的问题

1.认知地图的自动构建:人类和其他哺乳动物能够通过感官输入直接构建其环境的内部认知地图,而无需依赖显式的坐标系统或距离测量。本文探讨了如何通过机器学习算法,特别是预测编码,来模拟这一过程。

2.多感官输入的统一映射策略:尽管现有的机器学习算法(如同时定位与地图构建,SLAM)能够利用视觉和里程计数据构建空间地图,但这些算法通常针对特定类型的感官数据设计。本文提出了一种能够泛化到听觉、触觉和语言输入的统一映射算法策略。

3.环境表示与学习:如何在大脑中表示环境以及如何从经验中学习这些地图,是神经科学中的核心问题。本文旨在通过预测编码理论,提供一个计算和数学策略,将局部测量的信息整合到一个全局一致的环境模型中。

03 创新与亮点

1.预测编码作为统一框架:文章提出了预测编码作为一种统一的算法框架,用于构建认知地图。这种方法不仅适用于视觉数据,还可以自然扩展到听觉、感觉运动和语言输入的映射。

2.自注意力装备的卷积神经网络:作者引入了一个框架,其中代理(agent)在虚拟环境中导航,同时使用自注意力装备的卷积神经网络进行视觉预测编码。这种方法使得代理在学习下一个图像预测任务的同时,自动构建环境的内部表示。

3.隐式空间表示的生成:通过训练过程中的探索,网络隐式地将局部路径的信息组装成一个全局的空间表示。这种表示使得代理能够仅使用视觉信息来确定其相对于地标的位置。

4.数学模型与神经网络实现:文章不仅提出了理论模型,还通过神经网络实现了感官预测编码。这种实现展示了如何通过编码器-解码器神经网络解决预测编码问题,并隐式地构建代理的环境表示。

图2 预测编码神经网络构建隐式空间映射。a、预测编码器的潜在空间编码精确的空间位置。神经网络根据预测编码的潜在空间预测空间位置。实际位置和预测编码器预测位置之间的预测误差热图显示了低预测误差。b、预测编码器潜空间的位置预测误差直方图显示预测误差较低。作为基线具有较小噪声位移的实际位置给出误差模型。c,预测编码的潜在距离恢复环境的空间度量。将序列视觉图像映射到神经网络的潜在空间,并将潜在空间距离(l2)与物理距离绘制到联合密度图上。d、相关图和分位数图显示了经验分布和模型分布之间的重叠。

图3 预测编码网络学习空间接近性,而不是图像相似性。a、自动编码神经网络将视觉图像压缩成低维潜在向量,从潜在空间重构图像。自动编码器对来自环境的视觉图像进行训练,而不需要任何顺序。b,c,自动编码编码较低分辨率的位置信息。神经网络从自编码的潜在空间预测空间位置(b)。实际位置与自编码器预测位置之间的预测误差热图显示,与预测编码器相比,预测误差更高。与预测编码相比,自动编码捕获的位置信息更少(c)。直方图显示了自编码器和预测编码器的潜在空间对位置的预测误差。d,然而,潜在距离与物理距离的关系较弱,因为物理距离和潜在距离之间的联合直方图不太集中。e、相关图和分位数-分位数图显示经验分布和模型分布之间的相关性较低,重叠密度较低。f,预测编码的潜在单位传达更细粒度的空间距离,而自动编码传达更广泛的空间区域。联合密度图显示了预测编码和自动编码的潜在距离和物理距离之间的关联。预测编码的潜在距离随空间距离的增加而增加,且比自编码的集中程度更高。

图 4 预测编码网络可以学习圆形拓扑,并区分视觉上相同,空间上不同的位置。

亮点

1.环境的隐式表示:文章展示了预测编码网络如何生成环境的向量化编码,支持向量导航,其中单个潜在空间单位描绘了环境中的局部、重叠的邻域。

2.空间邻近性的学习:与仅基于图像相似性的编码方法不同,预测编码网络学习的是空间邻近性,而不是图像相似性。这在处理视觉退化环境(如具有视觉对称性的区域)时尤为重要。

3.预测任务的必要性:文章通过实验和理论分析表明,预测任务对于空间映射至关重要。预测编码网络能够恢复环境的度量,而自编码器则不能。

4.地方场(place fields)的生成:文章分析了预测编码网络的潜在空间,展示了每个单元如何在物理空间中激活特定的、局部化的区域。这些地方场重叠,并且它们的组合覆盖了整个物理空间,支持向量导航。

在这篇论文中首次证明了神经网络可以创建自己的地图,这种空间上存储和组织信息的能力,能够使神经网络变得更聪明。此研究工作展示了人工智能具有空间感知能力。

图5 预测编码网络生成支持基于向量的距离计算的位置字段。

版权说明

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O3jGv4WJ9xUfMojaU-zsGoVg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券