Neural optimal feedback control with local learning rules2111.06920.pdf
https://github.com/j-friedrich/neuralOFC
https://github.com/golkar/bio-ofc-gym
视频:http://mpvideo.qpic.cn/0bc35aad6aaatyaeu5kvpbsfb2gdh7uaapya.f10002.mp4?
摘要:
运动控制的一个主要问题是了解大脑如何在延迟和嘈杂的刺激面前计划和执行适当的运动。解决此类控制问题的一个重要框架是最优反馈控制(OFC)。OFC通过使用卡尔曼滤波器或其扩展集成嘈杂的感官刺激和内部模型的预测来生成优化行为相关标准的控制动作。然而,由于现有提案存在以下局限性,因此缺乏令人满意的卡尔曼滤波和控制神经模型:未考虑感觉反馈的延迟,交替阶段训练,需要噪声协方差矩阵以及系统动力学的知识.此外,这些研究中的大多数都单独考虑卡尔曼滤波,而不是与控制一起考虑。为了解决这些缺点,我们引入了一种新颖的在线算法,该算法将自适应卡尔曼滤波与无模型控制方法(即策略梯度算法)相结合。我们在具有局部突触可塑性规则的生物学上合理的神经网络中实施该算法。该网络执行系统识别和卡尔曼滤波,不需要具有不同更新规则的多个阶段或噪声协方差的知识。它可以在内部模型的帮助下,通过延迟的感官反馈执行状态估计。它在不需要任何动力学知识的情况下学习控制策略,从而避免了重量传输的需要。通过这种方式,我们的OFC实施解决了在存在刺激延迟的情况下产生适当的感觉运动控制所需的信用分配问题。
简介
感觉运动控制系统具有非凡的能力,可以在各种情况下执行快速准确的运动。为了实现这种巧妙的控制,该系统面临两个关键挑战:(i)感官刺激嘈杂,难以估计系统的当前状态,以及(ii)感官刺激经常被延迟,如果不加考虑,会导致运动不准确且不稳定[1]。最优反馈控制(OFC)已被提议作为此控制问题的解决方案[2,3]。
OFC通过建立系统动力学的内部模型来解决这些问题,并使用这个内部模型来生成控制动作。OFC通常采用卡尔曼滤波来优化整合此内部模型的预测和嘈杂/延迟的感官刺激。
由于OFC框架的强大功能和灵活性,能够构建此类内部模型的生物学上合理的神经架构一直在积极研究中。具体来说,早期的工作使用通过循环基函数网络[4]或线吸引子网络[5]实现的吸引子动力学来实现卡尔曼滤波器。卡尔曼滤波和控制也通过估计、系统识别和控制的不同阶段实现[6],
最近,使用粒子滤波方法进行卡尔曼滤波[7]。尽管如此,这些作品仍存在很大的局限性。重要的是,这些都没有考虑到感觉反馈被延迟[4、6、5、7、8],尽管它在最初的计算级OFC提议中很突出[2],或者仅仅考虑了卡尔曼滤波的情况,并且而不是它与控件[4,5,7,8]的组合。这些工作还需要先验[4,5,7,8]或在单独的“离线传感器”模式[6]中获得噪声协方差的知识。此外,许多这些作品缺乏生物学上的合理性和人们期望从可行的脑功能模型中获得的真实性[4,5,7,8]。至关重要的是,生物学合理性要求网络在线运行(即接收一连串嘈杂的测量数据并即时处理它们),还要求突触可塑性规则是本地的(即学习使用仅依赖于预先表示的变量的规则和突触后神经元和/或全局神经调节信号)。最后,随着输入维数的增长[4,5],这些模型中有几个会出现组合爆炸,需要运行一个内部循环直到在每个时间步收敛[8,6],或者需要单独的学习和执行阶段[6],比照。表格1。
我们解决了这些缺点,并提出了最佳反馈控制的完整神经实现,从而解决了生物控制中的一个开放问题[9]。在这个我们称之为Bio‑OFC的模型中,状态空间、预测误差[10,11](即网络内部预测与延迟感觉反馈之间的不匹配)和控制由不同的神经元表示,图1.网络还接收与目标函数相关的标量反馈,作为全局信号,并利用该信号根据策略梯度法[12、13]更新突触连接。
为了测试我们网络的性能,我们在情景(有限范围)任务(例如,离散时间双积分器模型、伸手任务[1]和简化的飞行模拟)中模拟Bio‑OFC。
贡献总结:
‧我们介绍了Bio‑OFC,这是一种生物学上合理的神经网络,它通过自适应卡尔曼滤波将基于自适应模型的状态发现与无模型控制代理相结合。
‧我们的实施不需要了解噪声协方差或系统动态,考虑延迟的感官反馈,并且没有单独的学习/执行阶段。
‧我们的无模型控制代理可实现闭环控制,从而避免重量传输问题,即使在非生物控制中也是一个具有挑战性的问题。[14,15]
实现细节请参考原论文
相关推荐:
AI分析框架
Self-building Neural Networks 代码
一个epoch打天下:深度Hebbian BP (华为实验室)
代码Unsup Visual Dynamics Simulation with Object-Centric Models