前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不稳定变化环境中的学习

不稳定变化环境中的学习

作者头像
CreateAMind
发布2023-10-10 10:24:45
1760
发布2023-10-10 10:24:45
举报
文章被收录于专栏:CreateAMind

摘要

基于惊喜的学习允许代理快速适应以突然变化为特征的非平稳随机环境。我们表明,在一个层次模型中,精确的贝叶斯推理会在忘记旧的观察值和将它们与新的观察值相结合之间产生一个令人惊讶的平衡。这种调制依赖于一个概率比,我们称之为“贝叶斯因素惊奇”,它用当前信念来检验先前信念。我们证明,在几个现有的近似算法中,贝叶斯因子惊奇调制适应新观测值的速率。我们推导了三个新的基于惊讶的算法,一个属于粒子滤波器族,一个属于变分学习族,另一个属于消息传递族,它们在观测序列长度上具有恒定的标度,并且对于指数族中的任何分布具有特别简单的更新动力学。实验结果表明,这些基于惊奇的算法比替代的近似方法更好地估计参数,并且达到与计算上更昂贵的算法相当的性能水平。贝叶斯因素惊奇与香农惊奇相关但不同。在两个假设的实验中,我们对生理指标进行了可测试的预测,将贝叶斯因素惊奇与香农惊奇分离开来。将各种方法视为基于惊喜的学习的理论见解,以及所提出的在线算法,可以应用于动物和人类行为的分析,以及非静态环境中的强化学习。

1导言

动物、人类以及类似的强化学习代理可以安全地假设,在被变化点打断的一些时间间隔内,世界是随机的和静止的。树叶在树上的位置、股票市场指数,或者在拥挤的城市中从A地到B地所需的时间,通常都可以被长时间的平稳随机过程很好地捕捉到。然后,可能会发生突然的变化,例如由于风暴,树叶位置的分布变得不同,股票市场指数受到新法律实施的影响,或者道路堵塞导致额外的交通堵塞。这种突然的变化导致的对代理人期望的违反被代理人感知为惊喜,这可以被视为代理人当前信念与现实有多大差异的度量。

令人惊讶的是,其生理表现为瞳孔扩张(Nassar等人,2012;Preuschoff,t . Hart和Einhauser,2011年)和EEG信号(Mars等人,2008年;莫迪沙内奇,基亚尼,&阿加扬,2019;Ostwald等人,2012年),被认为可能通过释放特定的神经递质来调节学习(Gerstner,Lehmann,Liakoni,Corneil,& Brea,2018;Yu & Dayan,2005),以便让动物和人类快速适应突然的变化。对新环境的快速适应已经在各种学习实验中得到证实(伯伦斯、伍尔利奇、沃尔顿和拉什沃思,2007;釉,凯布尔&金,2015;海尔布隆&梅尼尔,2019;Nassar等人,2012年;纳萨尔、威尔逊、希斯利和戈尔德,2010年;于&大雁,2005)。基于惊奇的学习的大量计算工作可以分成两组。计算神经科学领域的研究集中在生物合理性上,很少强调学习的准确性(伯伦斯等人,2007;博加兹,2017;法拉吉、普劳斯霍夫和格斯特纳,2018;弗里斯顿,2010;弗里斯顿、菲茨杰拉德、里戈利、施瓦滕贝克和佩祖洛,2017;纳萨尔等人,2012年,2010年;Ryali,Reddy & Yu,2018;施瓦滕贝克、菲茨杰拉德、多兰和弗里斯顿,2013年;于和大雁,2005),而精确和近似贝叶斯在线方法(亚当斯和麦凯,2007;Fearnhead & Liu,2007)开发了用于变化点检测和参数估计的方法,而没有关注生物合理性(Aminikhanghahi & Cook,2017;卡明斯,克雷比尔,梅,拓,张,2018;林,夏普纳克,里纳尔多,&提布拉尼,2017;Masegosa等人,2017;威尔逊、纳萨尔和戈尔德,2010年)。

在这项工作中,我们采用自上而下的方法进行基于惊喜的学习。我们从一个变化点的生成模型类似于多次实验的起点(伯伦斯等人,2007;芬德林、肖邦、凯奇林,2019;Glaze等人,2015;海尔布隆&梅尼尔,2019;纳萨尔等人,2012年,2010年;于&大雁,2005)。我们证明了在这样一个生成模型上的贝叶斯推理可以被解释为对惊奇学习的调节;我们表明,这种调制导致惊奇的自然定义不同,但与香农惊奇密切相关(香农,1948)。此外,我们推导了三个新的近似在线算法,其更新规则继承了精确贝叶斯推理的惊喜调制适应率。本研究的总体目标是对大脑中基于惊喜的学习给出贝叶斯解释,并找到计算上有效且生物学上合理的近似方法,同时保持高水平的学习准确性。作为一个副产品,我们的方法提供了现有的基于惊喜和近似贝叶斯方法之间的共性和差异的理论见解。重要的是,我们的方法做出了具体的实验预测。

在结果部分,我们首先介绍了生成模型,然后我们提出了我们的贝叶斯推理和我们的三个近似算法的惊喜为基础的解释。

3讨论

我们已经表明,在生成世界模型上执行精确的贝叶斯推理自然会导致惊喜的定义和惊喜调制的适应率。我们已经提出了三种近似算法(VarSMiLe、MPN和pfN)用于非平稳环境中的学习,它们都表现出精确贝叶斯方法的令人惊讶的调制适应率,并且在生物学上是合理的。根据经验,我们观察到,我们的算法实现了与具有更高内存需求的近似贝叶斯方法相当的性能水平(Adams & MacKay,2007),并且与具有类似内存需求的方法相比,在不同环境中更具弹性(Faraji等人,2018;费恩黑德&刘,2007;纳萨尔等人,2012年,2010年)。

在易变环境中的学习已经在贝叶斯学习、神经科学和信号处理领域中被研究了很长时间。在下文中,我们讨论我们工作的生物学相关性,并且我们简要回顾一些先前开发的算法,特别关注那些已经研究了可以用类似于图1中的生成模型建模的环境的算法。然后,我们进一步讨论了我们的结果,并提出了基于惊喜学习的未来工作方向。

3.1生物学解释

人类能够快速适应变化(伯伦斯等人,2007;Nassar等人,2012年,2010年),但与精确贝叶斯推理的规范方法相比,人类行为也经常被认为是次优的(Glaze等人,2015年;Mathys、Daunizeau、Friston和Stephan,2011年;Nassar等人,2010年;普拉特-卡拉宾,威尔逊,科恩&达西尔维拉,2020;威尔逊、纳萨尔和戈尔德,

2013).一般而言,生物制剂的资源有限,并且可能对超参数的假设不准确,从而产生次优行为,正如我们在算法中看到的那样,超参数的次优选择会降低算法的准确性。在基于采样的算法中,随着粒子数量的减少,性能也会下降,这可能是次优人类行为的另一种可能的解释。此前,粒子滤波已被证明可以解释人类受试者在不断变化的环境中的行为:道和库维尔(2008年)使用单个粒子,(布朗和斯特伊夫,2009年)使用基于直接模拟的粒子滤波的简单启发式形式,芬德林等人(2019年)将粒子滤波与噪声推理相结合,普拉特-卡拉宾等人(2020年)将其用于具有时间结构的任务。

在神经元实现的层面,我们不提出具体的建议。然而,有几个关于相关粒子滤波器的神经实现的假设(黄&饶,2014;Kutschireiter等人,2017;莱根斯坦&马斯,2014;史和格里菲斯,2009),在此基础上,一个神经模型的pfN和-它的贪婪版本-MPN可能是基础。本着类似的精神,变分微笑的更新方案可以在生物神经网络中实现(对于指数族中的分布)。

我们通过贝叶斯因子惊奇SBF对学习进行调节的理论框架与关于新希伯来人三因子学习规则的大量文献相关(Fr emaux & Gerstner,2016;郭士纳等人,2018;Lisman et al .,2011),其中指示奖励或惊喜的第三个因素启用或调节突触变化或信念更新(Yu,2012;于&大雁,2005)。我们已经展示了贝叶斯或近似贝叶斯推理如何自然地导致这样的第三个因素,该因素通过令人惊讶的调制适应率γ(SBF,m)来调制学习。这可能为行为和神经生理学数据提供新的解释,并有助于理解三因素学习计算如何在大脑中实现。

3.2相关著作

精确的贝叶斯推理正如在结果的“消息传递N”部分中已经描述的,对于图1中的生成模型,使用消息传递算法可以找到信念的精确在线贝叶斯更新(Adams & MacKay,2007)。该算法的空间和时间复杂度随着t线性增加,这使得它不适合在线学习设置。然而,像丢弃低于某个阈值的消息(Adams & MacKay,2007)或分层重采样(Fearnhead & Liu,2007)这样的近似允许降低计算复杂度。前者在时间上具有可变数量的粒子,而后者需要在每个时间步长求解复杂的非线性方程,以便将粒子数量减少到N(在结果部分称为SORN)。

我们的消息传递算法具有有限数量的粒子(消息)N (MPN,算法。3)与这些算法密切相关,可以被视为其他两个算法的生物学上更合理的变体。所有这三种算法都具有等式1给出的相同的更新规则。19和Eq。18.因此,Adams和MacKay (2007)以及Fearnhead和刘(2007)的算法与我们的具有相同的意外调制。区别在于他们消除不太“重要”的粒子的方法。

在切换状态空间模型的文献中(Barber,2012年),图1中的生成模型被称为“重置模型”,Adams和MacKay (2007年)的消息传递算法被认为是对这些模型进行推理的标准算法(Barber,2012年)。参见Barber (2006,2012);Ghahramani和Hinton (2000年)的其他变化转换状态空间模型和近似推理的例子。

漏积分和δ规则的变化为了估计一些统计量,新观测值的漏积分是积分和遗忘之间的一种特别简单的折衷形式。在瞬态阶段之后,泄漏积分器的更新采取δ规则的形式,可以被视为精确贝叶斯更新的近似(Heilbron & Meyniel,2019;Meyniel等人,2016;Ryali等人,2018;余和科恩,2009年)。这种更新规则被发现在生物学上是合理的,并且与人类行为数据一致(Meyniel等人,2016;余和科恩,2009年)。然而,伯伦斯等人(2007年)和海尔布隆和梅尼尔(2019年)证明,在某些情况下,精确的贝叶斯模型在解释人类行为方面明显优于泄漏整合。具有单个恒定泄漏参数的泄漏积分的不灵活性可以通过多个泄漏积分器的加权组合来克服(Wilson等人,2013),其中权重以与精确在线方法类似的方式更新(Adams & MacKay,2007;Fearnhead & Liu,2007年),或考虑自适应泄漏参数(Nassar等人,2012年,2010年)。我们已经证明了Nassar等人(2012,2010)可以推广到高斯先验信念(Nas10和Nas12)。我们的结果表明,这些算法也继承了精确贝叶斯的惊奇调制推论。我们的惊奇相关的适应率γ可以被解释为惊奇调制的泄漏参数

还考虑了在存在突然变化的情况下的其他学习方法,而没有关于潜在生成模型的明确假设。一种方法使用类似于等式4的意外调制适应率(Faraji等人,2018年)。9.Faraji等人(2018)的惊奇最小化学习(SMiLe)算法具有类似于VarSMiLe算法的更新规则。14和Eq。15).然而,自适应速率调制是基于置信度校正惊奇(Faraji等人,2018年),而不是贝叶斯因子惊奇,并且其更新规则中的权衡是在重置和保持最新信念之间,而不是在重置和积分之间(见方法)。

其他方法使用不同的生成模型,例如当有变化时也对参数进行条件采样(Glaze等人,2015;Yu & Dayan,2005),没有固定变化概率pc的更深层次(Wilson et al .,2010),或参数漂移(Gershman,Radulescu,Norman,& Niv,2014;Mathys等人,2011年)。最近的一项工作表明,对图1的生成模型的推断可以很好地解释人类行为,即使环境的真实生成模型不同且更复杂(Findling等人,2019)。他们开发了一种启发式方法,在粒子滤波器的推理过程中添加噪声。他们的算法可以被解释为一个惊喜调制的粒子滤波器,其中添加的噪声与惊喜的度量成比例(概念上相当于贝叶斯惊喜(Itti & Baldi,2006;施密德胡伯,2010;施托克,霍克雷特和施密特胡伯,1995年)。此外,另一项最近的工作(Prat-Carrabin等人,2020年)表明,在与图1的生成模型密切相关的任务中,近似采样算法(如粒子滤波)可以比其替代品更好地解释人类行为。信号处理文献提供了进一步的方法来解决具有突变的非平稳环境中的学习问题;看见

Aminikhanghahi和Cook (2017)的综述,以及Cummings等人(2018);林等(2017);Masegosa等人(2017年);O zkan等人(2013年)举了几个最近的例子。

3.3惊奇调制作为一种普遍现象

学习率调制类似于方程1。9之前已在神经科学文献中提出,具有启发式论点(Faraji等人,2018年)或特定实验任务的贝叶斯论点,例如,当样本从高斯分布中抽取时(Nassar等人,2012年,2010年)。相同形式的调制是我们相对一般的生成模型的贝叶斯推理的核心,它是在没有任何进一步假设的情况下导出的,并且不是先验定义的,这一事实在我们看来是对计算神经科学中自适应学习算法领域的重要贡献。

此外,我们的三种近似方法(粒子滤波、变分微笑和固定N条消息的消息传递)以及一些以前开发的方法(Adams & MacKay,2007;费恩黑德&刘,2007;Nassar et al .,2012,2010)证明了学习率的基于惊奇的调制是一种普遍现象。因此,无论大脑使用贝叶斯推理还是近似算法(Bogacz,2017,2019;Findling等人,2019;弗里斯顿,2010;格什曼,2019;格什曼等人,2014;Mathys等人,2011年;纳萨尔等人,2012年,2010年;Prat-Carrabin等人,2020),贝叶斯因子惊喜的概念及其调节学习的方式(即Eq。12和Eq。9)看起来普通。

惊奇调节学习的一般方式取决于主体对其环境的归纳偏见,并与假设的世界生成模型直接相关。我们在这项工作中考虑的生成模型涉及突变。然而,人们可以想到其他现实的例子,其中不可能的观察并不表明持续的变化,而是一个单一的事件或异常值,类似于d'Acremont和Bossaerts (2016年);纳萨尔、布鲁克纳和弗兰克(2019)。在这种情况下,信念不应该改变,惊讶应该削弱学习,而不是加速学习。有趣的是,我们可以表明,在这样一个生成模型上的精确和近似贝叶斯推理自然会导致一个令人惊讶的调制适应率γ(SBF,m),与SBF的定义相同,其中的权衡不是在整合和重置之间,而是在整合和忽略新的观察2。这扩展了以前在这种环境下的工作(d'Acremont & Bossaerts,2016;Nassar等人,2019年)介绍了一般设置,并强调了基于惊喜的调制的一般原理,给出了关于环境结构的先验知识。

我们考虑的生成模型没有捕捉到的一个方面是潜在的返回到先前的环境状态,而不是改变到一个全新的情况。如果在我们的图1B的例子中,具有最短路径的桥临时关闭进行维修,那么你的朋友将不得不再次采取更长的绕道,因此,她的到达时间将返回到它们之前的值,即增加。在这种情况下,代理人应该推断出令人惊讶的观察是来自一个新的隐藏状态,还是来自存储在记忆中的旧状态。Fox、Sudderth、Jordan和Willsky (2011)研究了相关的生成模型;格什曼、蒙菲尔斯、诺曼和尼夫(2017);Gershman等人(2014年),不在本文讨论范围之内。

3.4作为一种新的惊奇度量的Bayes因子惊奇

考虑到在神经科学中的潜在应用,惊奇的定义应该表现出两个特性:(I)惊奇应该反映事件有多出乎意料,以及(ii)惊奇应该调节学习。令人惊讶的事件表明我们的信念远离现实世界,并建议更新我们的世界模型,或者,令人惊讶的是,干脆忘记它。遗忘和回到先前的信念是一样的。然而,在先前的π(0)和当前的π(t)信念下,观察结果yt+1可能是出乎意料的。在这些情况下,遗忘是否有帮助并不明显。因此,遗忘与否之间的调制应该基于当前信念P(yt+1;π(t))及其在先验信念P(yt+1;π(0)).

利用了这种洞察力。贝叶斯因子惊奇作为调制因子出现在环境的分层生成模型的精确贝叶斯更新规则的递归形式中。当两个事件在先前的信念下同样可能发生时,在当前信念下预期较少的事件更令人惊讶——满足第一个性质。与此同时,当两个事件在当前信念下同样可能发生时,在先前信念下更有可能发生的事件会更令人惊讶——这表明遗忘可能是有益的。

请注意,定义本身独立于生成模型的特定形式。换句话说,即使在用另一种生成模型(例如,真实世界)生成数据的情况下,SBF也可以是解释大脑活动或瞳孔放大的候选惊奇测量。

我们正式讨论了Bayes因子惊奇和Shannon惊奇之间的联系(Shannon,1948),并表明它们密切相关。我们证明了(近似)贝叶斯推理中使用的调制适应率(γ)是当前信念和先验信念下香农惊奇之间的差异的函数,但不能仅由当前信念下的香农惊奇来表示。我们对这两种不同的惊奇度量的正式比较导致了具体的实验上可检验的预测。

贝叶斯惊喜SBa (Itti & Baldi,2006;施密德胡伯,2010;施托克等人,1995年)和置信度校正的惊奇SCC(法拉吉等人,2018年)是神经科学中另外两种惊奇的测量方法。在我们的生成模型中导出的学习调制不能表示为SBa和SCC的函数。然而,可以假设SBa是在更新信念之后计算的,以测量观察事件的信息增益,因此不是在线学习调制的良好候选。置信修正惊奇SCC考虑了信念的形状,因此包括了置信的影响,但是它不考虑任何关于先前信念的信息。因此,一个结果

在我们的第一个实验预测中,

为与反映SCC的相应行为或生理指标一致。

3.5香农惊喜的不同,另一种视角

按照我们在“实验预测”一节中的形式比较,SBF可以表示为香农惊奇差异的确定性函数

我们所有的理论结果都可以通过用SSh的这个函数代替SBF来重写。此外,因为SBF和SSh之间存在一对一的映射,所以从系统的角度来看,不可能通过分析行为数据和生物信号来指定大脑是计算前者还是后者。这表明了对惊讶调制学习的另一种解释,作为贝叶斯推理的近似:大脑计算和感知的惊讶或预测错误可能是香农惊讶,但三因素突触可塑性规则中的调制因素(Fr emaux & Gerstner,2016;郭士纳等人,2018;Lisman等人,2011)可以通过比较当前和先前信念下的香农惊奇值来实现。

3.6未来方向

我们研究的一个自然延续是在人类行为和生理信号中测试我们的实验预测,以调查大脑使用了哪些惊喜措施。沿着类似的方向,我们的近似学习算法可以在来自使用类似生成模型的实验的人类行为数据上进行评估(伯伦斯等人,2007;Glaze等人,2015;海尔布隆&梅尼尔,2019;纳萨尔等人,2012年,2010年;威尔逊等人,2013年;Yu & Dayan,2005),以评估我们提出的算法在解释数据方面是否达到类似或更好的性能。

最后,我们的方法可以潜在地应用于非平稳环境中基于模型的强化学习。近年来,人们对不断变化的环境中以持续学习和元学习形式出现的自适应或持续学习代理越来越感兴趣(Lomonaco,Desai,Culurciello,& Maltoni,2019;Traor e等人,2019)。许多基于持续学习模型的方法利用一些程序来检测变化(Lomonaco等人,2019;Nagabandi等人,2018年)。将SBF和学习率γ(SBF)集成到强化学习代理将是一个有趣的未来方向。

4方法

.................

其他参考:

主观世界模型的3类4组18个惊奇的理论分析

世界模型为什么效果好、自由能世界模型的理论高度和潜力(信息量大)

走向最小统一意识模型

预测编码和主动推理的大脑结构的演变

脑网络 结构 功能 模块 元素 最全面 复杂 清晰 类芯片多图

直接颠覆BP的生物学习算法

清华:下一代认知深度学习,端到端一起训练逻辑和感知

Self-Expanding ⾃扩展神经⽹络

最新代码:一个epoch打天下:深度Hebbian BP (华为实验室)

AGI之 概率溯因推理超越人类水平

为什么是量子大脑?

世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立

脑启发的ANN学习机制综述

统一自监督学习框架 (华为)

神经科学的深度学习框架

大脑中复杂适应动力学的神经调节控制

从第一原理超越chatGPT需攻克的一点

下一代神经网络深度学习 技术亮点梳理-换道chatGPT

2000行AlphaZero算法通用简单快速实现

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档