前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >情绪的机制分析

情绪的机制分析

作者头像
CreateAMind
发布2024-03-07 12:27:11
930
发布2024-03-07 12:27:11
举报
文章被收录于专栏:CreateAMindCreateAMind

Deeply felt affect- the emergence of valence in deep active inference

摘要

长期以来,情绪效价的正负轴被认为是适应性行为的基础,但它的起源和潜在功能在很大程度上避开了正式的理论化和计算建模。使用深度主动推理,一种基于反转感官数据生成模型的分层推理方案,我们开发了一种情绪效价的原则性贝叶斯模型。这一公式主张智能体根据其行动模型的预期精度来推断其价态——对整体模型适合度的内部估计(“主观适合度”)。这种主观适应性指数可以在任何环境中进行估计,并利用了二阶信念的领域普遍性。我们展示了如何保持内部的价态表示允许随后的情感代理优化信心先发制人地选择行动。通过利用主观适应度的(贝叶斯最优)更新项,可以反过来优化价态表示,我们将其标记为情感电荷(AC)。AC跟踪适应度估计的变化,并为预测和结果之间的无符号偏差提供一个符号。我们通过让一个虚拟情感主体接受需要情境学习的T-maze范式,然后进行情境反转来模拟由此产生的情感干扰。这一情感推理公式对情感之间的联系提供了一个原则性的解释情感、(心理)行动和内隐元认知。它描述了一个深层生物系统可以推断其情感状态并减少不确定性关于这种通过内部作用的推论(即自上而下的调制担保信任的前科)。因此,我们展示了潜力以提供一个正式的和可计算的影响账户。我们对这一配方的表面有效性和潜在效用的证明代表了一项更大规模研究的第一步程序。接下来,可以利用该模型来测试假设的角色通过将模型与行为和神经元反应相匹配来确定效价。

1 Introduction

我们自然渴望获得并保持生活中让我们感觉“好”的方面。另一方面,我们努力避免让我们感觉“不好”的环境交换。感觉是好是坏——情绪效价——是情感的一个重要组成部分,在一个不断变化但基本上可预测的世界中,它在生存斗争中起着关键作用(Johnston,2003)。在我们生活的所有领域中,情感反应以依赖于环境但系统的方式出现,以确保生存和繁衍(即最大限度地适应)。

在健康的个体中,积极的情感倾向于预示着健康状况的改善,比如对饮食的满足感和预期的兴奋感。相比之下,负面情绪往往预示着健康状况下降——比如与身体相关的疼痛和预期焦虑伤害。这种化合价状态可以由任何感觉模态诱发,甚至可以通过简单地回忆或想象与一个人当前处境无关的情景来诱发,从而允许一种领域通用的适应功能。然而,当试图在正式或规范的治疗中捕捉这种好的和坏的感觉时,正是这种领域普遍性带来了困难。这种形式上的处理对于通过数学或数值分析(即计算建模)使化合价可量化是必要的。在这封信中,我们提出了一个化合价的计算模型来帮助满足这一需要。

在构建我们的模型时,我们在心理、神经元、行为和计算描述水平上,基于经典和当代的理解情绪效价的工作。在心理层面,一个经典的观点是,效价代表“核心情感”二维空间中的一个维度 (从消极到积极)(Russell,1980;Barrett & Russell,1999),另一个维度是生理唤醒(或主观强度);还考虑了这两个维度之外的其他维度(例如,控制、可预测性;方丹,舍雷尔,罗什和埃尔斯沃思,2007 年)。或者,其他人认为化合价 本 身 是 一 个 二 维 结 构 (Cacioppo & Berntson , 1994 ;Briesemeister,Kuchinke,& Jacobs,2012),负配价和正配价的强度各由其自身的轴表示(即,在矛盾心理期间,高负配价和正配价在某种程度上可以共存)。

在神经生物学水平上,关于价的维度已经有了部分相应的结果和建议。一些大脑区域(例如,腹内侧前额叶(VMPFC)区域)显示出与一维视图一致的激活模式(在 Lindquist,Satpute,Wager,Weber 和 Barrett,2016 中综述)。相反,已经发现单个神经元优先对阳性或阴性刺激做出反应(Paton , Belova , Morrison , & Salzman , 2006 ;Morrison &Salzman,2009),以及用于行为激活和抑制的可分离的大脑系统(通常分别与正负价态相关联)已经被提出(Gray,1994),其基于突出显示与奖励和/或接近行为具有更强关联的大脑区域的工作(例如伏隔核、左额叶皮质、多巴胺系统;Rutledge、Skan- dali、Dayan 和 Dolan,2015)或惩罚和/或回避行为(如杏仁核、右额叶皮层;戴维森,2004)。然而,大型荟萃分析(例如,Lindquist 等人,2016 年)并没有发现对这些观点的有力支持(除了 VMPFC 中的一维激活),而是发现大多数大脑区域都是通过增加负价和正价来激活的,这表明了价信息的更综合、更全面的使用,这被标记为“情感工作区”模型(Lindquist 等人,2016 年)。请注意,情绪的相关领域一般(“建构主义”)解释(Barrett,2017 年)——而不仅仅是效价——与表明领域特定的旧观点形成对比皮层下神经元回路和用于不同情感类别的相关“情感程序”(例如,用于产生愤怒、恐惧或快乐的感觉和内脏/行为表达的不同回路;埃克曼,1992;潘克塞普、莱恩、索姆斯和史密斯,2017 年)。然而,建构主义和“基本情感”观点之间的争论超出了我们的讨论范围。这里讨论的关于效价的潜在基础的问题比关于特定情绪本质的辩论要窄得多(并且部分正交),后者进一步包括评估过程、面部表情模式、内脏控制、认知偏差和概念化过程等(Smith & Lane,2015;史密斯、基尔戈尔、阿尔科兹伊&莱恩,2018;史密斯,基尔戈尔和莱恩,2020 年)。

在描述的计算层面上,与配价相关的先前工作主要源于强化学习(RL)模型——奖励/惩罚(与正/负配价密切相关)、学习和行动选择之间的正常联系模型(萨顿和巴尔托,2018 年)。最近,相关情绪现象(情绪)的模型作为RL 的 扩 展 出 现 (Eldar , Rutledge , Dolan , & Niv , 2016 ;Eldar &Niv,2015)。这些模型将情绪操作化为反映意外奖励或惩罚(积极或消极奖励预测错误(RPEs))的近期历史,其中许多近期好于预期的结果导致积极情绪,而重复的差于预期的结果导致消极情绪。这些模型中的正式情绪参数的作用是使随后的奖励和惩罚的感知产生偏差,奖励和惩罚的主观感知分别被积极和消极情绪放大。有趣的是,在极端情况下,这可能会导致稳定奖励值的不稳定性(让人想起双相情感障碍或循环动力学)。然而,这些建模工作有一定的目标范围,并不旨在说明与支持上述有效工作空间观点的发现相关的化合价的更广泛领域的一般作用。

在 这 封 信 中 , 我 们 证 明 了 使 用 主 动 推 理 (Friston , Parr , & deVries,2018)解决的分层(即深度)贝叶斯网络,是情绪效价的原则性公式——建立在上述工作以及主动推理框架内其他情绪现象的先前工作(Smith,Parr,& Friston,2019;史密斯、莱恩、帕尔和弗里斯顿,2019年);史密斯,莱恩,纳达尔,l .,&穆图西斯,2020 年;Joffily &Coricelli , 2013 ;克 拉 克 、 沃 森 和 弗 里 斯 顿 , 2016 年 ;Seth &Friston,2016)。我们的假设是,情绪效价可以被形式化为一种自我状态,这种自我状态是基于一个主体对其世界生成模型的估计置信度(或精确度)的波动而推断出来的,这种模型形成了她的决策。这被实现为分层的高级状态表示,其将前述较低级别的置信度估计作为用于进一步自相关推断的数据。在理论和观察的基础上激发我们的方法之后,我们证明通过模拟一个在 T 型迷宫的连续探索中“感觉”到前进方向的合成动物进行情感推理。我们使用意想不到的环境变化来引发情感反应,部分原因是情感障碍与执行此类任务的缺陷有关(Adlerman 等人,2011;迪克斯坦等人,2010 年)。

2 A Bayesian View on Life: Survival of the Fittest Model

前很久就这样做了。作为适应性生物,我们寻求有助于促进我们长期功能和结构完整性的结果(即,表征我们现象类型的界限分明的状态集)。生物生命的适应性和预期性是被称为主动推理的正式贝叶斯框架的焦点。这个框架围绕着这样一个概念,即所有的生命系统都体现了它们世界的统计模型(Friston,2010;加拉格尔&艾伦律师事务所,2018)。以这种方式,关于不同可能行为的结果的信念可以相对于同形行为选择的优选(典型地表现型一致)结果进行评估。在主动推理中,每个有机体都制定了其体现存在的隐 式 表 型 一 致 模 型 (Ramstead , Kirch- hoff , Constant , &Friston,2019;Hesp 等人,2019 年),这被称为自证(Hohwy,2016 年)。主 动 推 理 已 被 用 于 发 展 神 经 过 程 理 论 和 解 释 认 知 习 惯 的 获 得(Friston,FitzGerald et al . 2016 弗里斯顿、菲茨杰拉德、里戈利、施瓦滕贝克和佩祖洛,2017 年)。该框架提供了寻求信息性结果(优化未来预期)与首选结果(基于当前预期)之间平衡的正式说明;施瓦滕贝克、菲茨杰拉德、马蒂斯、多兰和弗里斯顿,2015 年)。

主动推理将我们的生存和生殖形式化为一个单一的命令:在(生殖)条件下,最小化观察到的结果和表型预期(即首选)结果之间的差异对系统发育和个体发育进行微调的模型(Badcock,2012;巴德-科克、戴维、惠特尔、艾伦和弗里斯顿,2017年;巴德科克、弗里斯顿和拉姆斯泰德,2019年)。这种差异可以用信息论来量化称为变分自由能的量(记为F;参见附录A1;弗里斯顿,2010年)。最小化自由能在数学上等同于最大化贝叶斯模型证据(的下限),贝叶斯模型证据量化模型拟合或者主观适合度;这与生物适合度形成对比,生物适合度被定义为实际的生殖成功(Constant,Ramstead,Veissière,Campbell & frist on,2018)。更具体地说,主观适合度与实现表型一致(即优选)结果的生物体作用模型的预期(即内部估计)功效有关。通过自然选择,能够比同物种更有效地实现表型一致结果的生物将(平均而言)倾向于体验适合度益处。这种类型的自然(模型)选择将通过选择表型一致的偏好和实现它们的手段来支持主观适合度和生物适合度之间的强对应。这种贝叶斯观点将生物群体和整个物种视为可行模型的家族,这些模型在适应特定生态位方面各不相同。在这种更高层次的描述中,进化可以被视为贝叶斯模型选择的过程(坎贝尔,2016;Constant等人,2018年;Hesp等人,2019年),其中生物适应性现在成为证据(也称为作为边际可能性),其驱动跨代的模型(即自然)选择。在这封信的平衡中,我们利用主观适合度和模型证据之间的对应关系来表征情感价值。第3节首先回顾了主动推理背后的形式主义。简而言之,主动推理提供了一种将规划作为推理的通用方法(Attias,2003;博特维尼克&图桑,2012年;卡普兰-弗里斯顿律师事务所,2018年)根据自由能原理(弗里斯顿,2010年)。它将信念更新和行为解释为生成模型的反转。在本节中,我们强调创成式的层次性和嵌套性模型和描述了增加模型复杂性的连续步骤,使代理能够在日益复杂的环境中导航。复杂度最低的是一个简单的单时间点感知模型。稍微复杂一些的感知模型可以包括对未来观察的预测。当模型包含行动选择时,复杂性会增加,因此必须预测不同的可能计划或政策的观察结果。正如我们所解释的,适应性规划的一个关键方面是需要提供适当的精度或置信度以自己的行动模式。这构成了一个更高层次的模型复杂性,这可以被视为一种隐含的(即亚个人的)形式的元认知——一种(通常)估计可靠性的无意识过程自己的模型。本节最后描述了我们用来说明情感推理的设置,以及我们称之为“情感负荷”的模型中更新项的关键作用。

在第 3 节中,我们还介绍了我们所考虑的最高级别的模型复杂性,它为 模 型 提 供 了 执 行 情 感 推 理 的 能 力 。简 而 言 之 , 我 们 根据“好”和“坏”(即化合价)状态添加了信心的表示,这赋予我们的情感主体关于化合价的明确(即潜在的自我报告)信念,并使她能够优化她对预期(认知和语用)结果的信心。

已经定义了适于表示和利用化合价表示的深度生成模型(具有状态表示的两个层级),部分 4 使用数值分析(即模拟)来说明相关的信念更新和行为。我们在第一节结束 5 讨论了这项工作的意义,如内隐元认知和情感的关系,与强化学习的联系,以及未来的实证方向。

3 Methods

3.1 An Incremental Primer on Active Inference

主动推理的核心是生成模型,该模型仅使用本地信息进行操作(即无需外部监督,从而保持生物合理性)。我们关注部分可观测马尔可夫决策过程(MDPs),这是一种基于离散状态的贝叶斯推理的通用生成模型,其中信念采用分类概率分布的形式。MDP可以用于基于感觉输入(称为输出或观察,表示为o)更新关于“外面”世界的隐藏状态的信念。鉴于MDPs在我们的公式中提供的时间深度和层次结构的重要性,我们按照图1中的顺序介绍了增加模型复杂性的几个步骤。

3.1.1 Step 1: Perception.

在最低的复杂性下,我们考虑一个感知的生成模型(见表 1) 在数字 1 (顶部面板)。它需要关于隐藏状态的先验信念(先验期望 D),以及关于隐藏状态如何产生感官结果的信念(通过可能性映射 A)。这里的感知对应于一个推断哪些隐藏状态(后验期望 s)为观察到的结果提供了最佳解释的过程(参见附录 A2)。然而,这种感知模型对于大多数主体的建模来说过于简单,因为它无法解释隐藏状态随时间推移而发生的转变,这种转变为世界——以及随后的推理——提供了动力或叙事。这将我们带到模型复杂性的下一个层次。

3.1.2 Step 2: Anticipation.

复杂性的下一个增加涉及一个生成模型,该模型指定隐藏状态如何从一个时间点演化到下一个时间点(根据状态转移概率Bτ)。如表中所示 2 (图中的 M21, 上图),更新关于隐藏状态的后验信念

现在涉及关于过去状态的信念

感官证据(oτ)和关于未来状态的信念

的整合。从这里开始,自然的第三步是考虑动力学如何依赖于被讨论的生物的选择。

3.1.3 Step 3: Action.

已经讨论过的时间扩展生成模型可以通过调节动作的转移概率 (B7) 扩展到模型规划(图 2 中的 M3;参见表 3)。政策选择(即规划)现在可以被视为贝叶斯模型选择的一种形式,其中每个政策(一系列

矩阵,下标为 π 的政策)代表未来的一个可能版本。先验地,智能体对策略的信念 (π) 取决于对最可能的策略的基线先验期望(通常可以被认为是习惯,表示为 Eñ)以及它期望获得的负对数证据的估计每个政策-预期的自由能(表示为G)。后者偏向表型一致性,因为任何给定的行为表型都与一系列物种相关——典型的(即首选的)感官结果。例如,在各自的生态位内,不同的生物或多或少可能通过其温度感受器(即与其生存一致的温度感受器)感知不同的温度。这些表型先验(“先验偏好”)是根据观察到的未来结果的概率来确定的。总之,基线和行动模型先验

由证据补充,每个新观察提供了特定的政策,导致政策的后验分布,形式为

,相当于

预期自由能可以分解为两个术语,分别称为每个策略的风险和模糊性。策略的风险是预期结果和首选结果之间的预期发散(表示为C)之间的期望差异,后者是一个编码表型一致结果的先验(例如,在行为范式中的奖励或强化)。因此,风险可以被视为每个策略的奖励概率估计类似。策略的模糊性对应于与不同状态相关的感知不确定性(例如,在街灯下搜索与在黑暗中搜索)。具有较低模糊性的策略(即,预期提供最具信息性观察的策略)将具有较高的概率,为代理提供一种寻求信息的驱动力。由此产生的生成模型提供了对行为策略及其预期结果的主观相关性的原则性解释,在这种解释中,代理在寻求奖励和寻求新信息之间进行权衡。此外,它概括了许多已建立的最优行为形式(Itti&Baldi,2009;Schmidhuber,2010;Mirza,Adams,Mathys和Friston,2016;Veale,Hafed和Yoshida,2017),并提供了对生命系统的有动机和自保行为的正式描述。(Friston,Levin,Sengupta和Pezzulo,2015)。

3.1.4 Step 4: Implicit Metacognition.

增加复杂性的三个步骤对于绝大多数(当前)主动推理应用来说是足够的。然而,第四个层次是需要的,以使代理人能够估计自己的成功,这可以被认为是一个最小形式的(隐含的,不可报告的)元认知(M4 在图 3; 参见表格 4).对代理自身成功的估计特别依赖于预期精度项(表示为 γ),该精度项反映了对策略上的预期自由能(Gπ)的先验信心。相对于固定形式的策略先验(Eπ),该预期精度项调节了预期自由能对策略选择的影响:较高的 γ 值对当前行动模型中每个策略的预期自由能产生较大影响。以这种方式表述,我们可以认为 γ 是模型适合度(主观适合度)的内部估计,因为它代表了在给定推断的环境隐藏状态(M2)的情况下,表现型一致的行动模型(M3)中的置信度估计(M4)。

反过来,该精度项 (y) 的估计由 (gamma) 先验告知,该先验通常由速率参数 ß 参数化,与速率参数 ß 具有反比关系。当后验信念下的预期模型证据与先验信念相比更大时(即,当

时),y 值增加。也就是说,对模型成功的信心增强。在相反的情况下(当

,y 值减小。也就是说,对模型成功的信心下降。请注意,虽然相关,但 y 值与策略分布的精度 (π) 并不冗余。后者的高值(对应于对最佳政策或行动的高信心)并不总是对应于对模型成功的高信心(高y)。为了在我们的公式中强调它与价的关系,接下来我们使用术语情感电荷(AC)来指代 y 更新:

这表明关于政策的信念的时间尺度是 AC 的相关时间尺度的更新集合,因此价与行动不可分割地联系在一起。只有当推断策略不同于预期策略

时,AC 才能非零。当知觉证据支持一个代理的行动模型时,它是积极的,否则是消极的。换句话说,积极的和消极的交流分别对应于对一个人的行动模式的信心的增加和减少。因此,因为 Gπ 是实现优选结果的函数,所以 AC 可以被解释为奖励预测误差,其中奖励与 Gπ 成反比(Friston 等人,2014)。例如,一个捕食者在发现一个猎物后可能会自信地对自己满意(正 AC),当它逃跑时会沮丧(负 AC)。然而,对政策有精确的信念不应与对自己的行动模式有信心相混淆。例如,想象一下正在愉快地啃食食物的被捕食动物,突然发现自己被一个贪婪的捕食者追赶。虽然逃跑最初是一个不太可能的政策,但一旦遇到捕食者,这种情况就会发生巨大的变化。现在,这些动物有一个非常精确的信念,他们应该逃离,但他们预期的行动过程中的这种戏剧性变化表明,他们的行动模式已经变得不可靠。因此,当他们对行动有精确的信念时,AC 会是高度消极的(即,一个负价但自信行动选择的情况)。

这完成了我们对马尔可夫决策过程模型下主动推断的正式描述。这个描述强调了这些模型的递归和分层组成,这些模型为不可观察(隐藏)状态和可观察结果之间提供了简单的似然映射,并带有动态特性。这些动态(即状态转换)然后用策略的术语来表达,其中策略本身必须被推断出来。最后,在策略选择过程中,通过元认知信念增强了随后的规划作为推理,以优化对期望自由能(即基于当前模型)的依赖。这个模型需要进行贝叶斯信念更新,可以用情感充电(AC)的术语来描述。

AC在强化学习模型中与奖励预测误差相关联(Friston等人,2014;Schultz,Dayan和Montague,1997;Stauffer,Lak和Schultz,2014)。因此,它可能通过大脑中的神经调质剂如多巴胺来报告或编码(Friston,Rigoli等,2015;Schwartenbeck等,2015),这个观点已经得到了在不确定情况下决策的功能性磁共振成像的实验证据的支持(Schwartenbeck等,2015)。AC(在每个时间步长上)与可能在每个时间步长内优化它的神经动力学之间的正式关系可以通过自由能的梯度下降(如Friston,FitzGerald等人,2017中推导的那样)获得。通过AC的替换,我们发现对于预期精度的后验信念

满足以下等式:

其中 t 表示试验时间步长内的时间流逝,从而设定收敛的时间尺度(这里的条形符号表示后验概率;点符号表示变化率)。相应的解析解表明,预期精度的波动幅度与 AC 成正比:

我们将在下面进一步讨论 AC 的潜在神经基础。在下一节中,我们将描述模拟装置,我们将使用它来定量地说明交流在情感行为中所扮演的角色。

3.1.5 The T-Maze Paradigm

我们已经描述的生成模型已经以一种通用的方式被公式化了(反映了我们公式化的领域一般性)。我们在这封信中使用的主动(情感)推理的具体实现是基于 T 型迷宫范式(见图 4), 之前已经验证了一个主动推理 MDP(佩祖洛,里戈利和弗里斯顿,2015)。在这里,我们描述了这种实现,并随后用它来展示在一个合成动物中演示情感推理的模拟。在这种情况下,模拟的行为与在真实老鼠身上观察到的行为是一致的。

为了简单起见,代理配备了(先前收集的)关于其生成模型中 T-迷宫工作的先验知识。从中央十字路口附近开始,代理人可以原地不动,也可以向三个不同的方向移动:在 T 型迷宫中向左、向右或向下。她知道美味的奖励位于 T 型迷宫的左臂或右臂,而痛苦的电击位于相反的手臂。她也知道左臂和右臂是单行道(即吸收状态):一旦进入,她必须保持在那里直到试验结束。她知道在向下位置的信息提示提供了关于在当前试验中奖励是位于左臂还是右臂的可靠上下文信息。生成模型的关键概率分布如图所示 5.

尽管这种生成模型相对简单,但它拥有阐明相当复杂的行为所需的大部分要素。因为行动可以导致认知或信息的结果,这改变了信念,它自然地适应了在不确定性下包括探索和开发的情况或范例。我们这里主要关注的是我们已经描述过的预期精度项及其更新(即 AC)。

图 6 说明了这种特定生成方式下的典型行为模型。这些结果是根据 Friston、FitzGerald 等人建模的。(2017)并展示了从探索行为到剥削行为的特征性转变,因为老鼠对自己所处的环境变得更加自信——在这里,了解到奖励总是在左边。这种信心的增加是通过对上下文状态(奖励的位置)的先前信念的变化来调节的,这些变化是通过在 32 次试验中重复暴露于范式而积累的(这种积累在这里被建模)使用关于初始状态的后验信念的狄利克雷参数化)。这些变化意味着老鼠对什么变得越来越有信心她会这样做,同时增加或更新预期的精度学期。这些增加反映在情感电荷的波动上(中图)。稍后我们将使用这种范式来看看当奖励偶然性逆转时会发生什么。

3.2 Affective Valence as an Estimate of Model Fitness in Deep Temporal Models.

在各种建模范式中,一些研究人员已经认识到并旨在形式化主观适合度和效价之间的关系。例如,Phaf 和 Rotteveel (2012 年)使用了一种连接主义方法来论证配价广泛对应于神经网络中的匹配-不匹配过程,从而监控神经架构与其输入之间的匹配。作为另一个例子,Joffily 和 Coricelli (2013)根据变化的自由能的变化率提出了一种情绪效价的解释。然而,这一提议不包括与行动的正式联系。

我们所描述的情感电荷的概念可以被看作是建立在先前工作的基础上,通过将自由能的变化(以及相应的模型和感觉输入之间的匹配-不匹配)与行为选择的明确模型联系起来。在这种情况下,一个主体可以通过评估其表现型一致的行动模型(Gπ)来衡量主观适应度,并与从实际结果中推导出的感知证据(Fπ)进行比较。这种比较及其计算的度量正是情感负荷所提供的,情感负荷规定了一个人的行动模型的预期精度(即信心)的变化(见图中的 M43). 沿着这些思路,不同的研究人员基于对行为信念的预期精度开发了价的概念模型(Seth & Friston,2016;巴德科克等人,2017;克拉克等人,2018)。至关重要的是,负价态导致的行为表明减少了对先前预期的依赖(博登豪森、谢泼德和克雷默,1994;Gasper & Clore,2002),而正价态 似 乎 增 加 了 对 先 前 预 期 的 依 赖 (Bodenhausen , Kramer , &Süsser,1994;Park & Banaji,2000)——两者都符合化合价与对一个人的内部世界模型的信心有关的观点。

人们可能会相应地问,代理人在决定如何行动时是否应该或多或少地依赖政策的预期自由能。实际上,图 3 所示的生成模型的最高级别(M4,也在表 4 中概述)提供了超出预期的无信息先验精确度可能适合也可能不适合特定的世界。如果环境的可预测性足以支持高度可靠的世界模型,那么应该对形成过程中的预期自由能给予高度信心(后)计划。从经济角度来看,这对应于风险敏感性的提高,即选择风险最小化政策。相反,在不可预测的环境中,可能无法预测风险,并且预期的精确度应该先验地减弱,从而更加关注感官证据。

这表明,在一个反复无常的环境中,行为将受益于先前关于预期精确度的信念,这种信念反映了普遍的环境波动性——换句话说,这种信念反映了该环境的模型如何能够很好地解释其自身行为相关观察中的模式。在接下来的内容中,我们为生成模型配备了一个额外的(在层次上和时间上更深的)状态表示层,它允许一个主体来表示和积累这种信念的证据,并且我们展示了这是如何自然地导致从第一原理计算出可变性的。

这种深度时态模型(具有两个层次的状态表示)已经在先前关于主动推理的研究中使用过(Friston,Rosch,Parr,Price 和 Bowman,2017)。在这些模型中,较低层次的后验状态表示被视为较高层次的观测值。较高级别的状态表示反过来提供了对较低级别的后续状态的预先期望(参见第 3.3).这意味着较高层次的状态表示进化得更慢,因为它们必须从较低层次的状态推理序列中积累证据。例如,以前的研究表明,这种深度层次结构如何允许代理人在工作记忆中保存信息(Parr & Friston,2017 年),并根据对单词序列的识别来推断句子的意思(Friston,Rosch 等人,2017 年)。

在这里,我们扩展了先前的工作,允许代理不仅从较低级别的状态,而且从较低级别的期望精度(AC)的变化来推断较高级别的状态。这需要一种新形式的参数深度,其中较高级别的状态现在由较低级别的模型参数估计来通知。正如我们将展示的那样,这就允许基于情感电荷模式随时间的整合,对化合价进行显式的更高层次的状态表示(即,更缓慢发展的模型适应度估计)。用拟人化的术语来说,代理人现在可以明确地表示她的模型在一个跨越许多决策和观察结果的时间尺度上是“好”还是“坏”。因此,具有与化合价相似属性的东西(即,具有内在的好/坏品质)自然地从深层时间模型中浮现出来,该模型跟踪其自身的成功以通知未来的行动。请注意,“好”和“坏”在这里是固有的领域通用的,然而——正如我们现在将展示的——它们可以提供特定行动过程的经验先验。

3.3 Affective Inference. ‍

这个字母描述了情感处理中关于领域一般价态推断的价态成分——那些从预期精度随时间更新的模式中推断出来的成分。特别是,我们重点关注如何价出现从一个代理的主观适合度的内部监测。为此,我们指定影响状态如何参与生成模型,以及它们生成什么样的结果。由于深度模型涉及使用经验先验(来自更高水平的状态表示)来预测次级水平的表示(Friston、Parr 和 Zeidman,2018 年),我们可以应用这种自上而下的预测来提供预期精度(γ)的经验先验。通常,我们将来自更高级模型的替代离散结果与期望精度上的伽玛先验的不同速率参数(β)值相关联。

请注意,我们没有将情感电荷项与情感价直接联系起来。情感电荷项跟踪主观适应度的波动。为了对情绪价态建模,我们引入了一个新的状态推理层,它将 γ 值在一个较慢的时间尺度上的波动(即 AC 驱动的更新)作为一个价态相对于另一个价态更有利的证据。

通过在 MDP 方案中实施这一层次步骤,我们有效地将情感推理公式化为主动推理的参数化深层形式。参数深度意味着高阶情感过程产生参数化低阶(特定语境)推理的先验,这反过来为那些高阶情感状态提供证据。

3.3.1 Simulating the Affective Ups and Downs of a Synthetic Rat.

作为一个具体的例子,我们实现了一个最小化合价模型,在这个模型中,一只合成大鼠在 T-迷宫范式中推断它自己的情感状态是积极的还是消极的。我们的 T 型迷宫任务的层次模型包括一个较低层次的 MDP,用于上下文特定的主动推理(图中的M43) 和情感推理的高级 MDP(见图 7). 然而,请注意,这只是一个例子;原则上,较低层次的模型可以推广到与所讨论的主体相关的任何其他类型的任务。较高级别的隐藏状态提供了较低级别的任何变量的经验先验,这些变量在与该级别相关联的时间尺度上不改变。这些变量包括初始状态、高于预期精度的先验、高于策略的固定先验等等(参见第节中的 MDP 模型描述)3.1).这里,我们考虑初始状态的更高层次的先验和先验的速率参数超过预期精度。通过构造,在较高(情感)水平上的状态转换是在三态之上的,赋予该模型一个深层的时间结构。这使得它能够跟踪多次试验中的缓慢变化,例如奖励的位置。换句话说,从一次试验到另一次试验的第二层次的信念更新使代理人能够积累证据并记住在试验中保存的偶发事件。

简而言之,我们的合成受试者拥有关于情境和情感状态的高级信念,这些信念在试验中缓慢波动。在下文中,我们根据从情感水平下降到较低水平并从较低水平上升到影响水平的信息来考虑信念更新。下行消息提供了优化政策选择的经验先验。这种优化可以被认为是一种隐蔽行动或注意力的形式,它允许一个人的生成模型对行动选择的影响以依赖于状态的方式变化。上行消息可以被解释为调解关于当前情境和影响状态的信念更新:反映关于模型适合度的信念更新的情感推理。

3.3.2 Descending Messages: Contextual and Affective Priors

在每次试验中,关于奖励在左侧(L,R)的离散先验信念被编码在第二层的经验先验或后验信念中,其继承了先前的后验信念,并使得信念能够在试验之间更新。类似地,离散效价信念(+,-)上的信念在情感水平上配备有初始先验,并且基于二级概率转移矩阵从试验到试验进行更新。从生成模型的角度来看,较低层的初始上下文状态取决于较高层的上下文状态,而速率参数 β(其构成关于预期精度的先验信念)取决于影响状态。

简而言之,较低层次上初始态的经验先验(和预期精度)现在取决于第二层次上的隐藏(价)态。

3.3.3 Ascending Messages: Contextual and Affective Evidence.

在每次试验中,外源性(奖励位置)和内源性(情感负荷)信号在隐藏状态的第二层诱导信念更新。他们以这样一种方式做到这一点,即背景和情感信念(跨试验)的波动比关于状态、里坡和预期精确度的低水平信念的波动要慢。每次试验后的这些信念更新是通过从后验信念中收集的上行信息来调节的关于在每个试验结束时的初始食物位置

,其用作适当情境状态的贝叶斯模型证据:

与第一级的推论一样,这一二级期望包括先前试验的经验先验和基于较低级别初始(上下文)状态的后验期望的证据。

对于(连续)预期精度到(离散的)情感状态的上升消息,我们使用贝叶斯模型减少(有关推导,请参见Friston,Parr和Zeidman,2018年),以评估与每个人相关的较边际可能性情感状态:

同样,这包含基于先前的情感指标和基于情感电荷的变化的证据,基于情感电荷,

,在每个试验时间步骤结束时进行了评估。请注意,当情感电荷为零时,当前试验的情感期望完全取决于先前试验中的期望(因为一个对数为零)。有关此深层生成模型的图形描述,请参见图7。

我们使用这种生成模型来模拟一种经历64次迷宫试验的合成大鼠的情感推断,其中食物位置从左臂到右臂进行了32次试验后切换。当我们的综合受试者变得更有信心,她的行为将实现偏好的结果 (C)时,对她的行动模型

的信心增加(副人)应该为阳性评估状态(通过AC)提供证据。相反,当她对自己的行为是否会实现偏好的结果不信心时,就会有证据表明身价为否定的国家。在这种情况下,我们的情感代理人将依靠她的基准之前的政策

,这是一种快速而肮脏的启发式,它在需要紧急行动的情况下往往很有用(即,在没有机会通过机会来解决不确定性的情况下认知觅食)。

在这种情况下,我们的合成主体可以收到美味的奖励或痛苦的电击,这取决于她是选择左还是右。当然,她有对结果的高度控制,只要她搜寻上下文信息,然后相应地选择左或右。然而,她的生成模型包含了少量关于这些不同结果的不确定性,这对应于初始时间点的消极(焦虑)情感状态。从这种消极的状态开始,我们预计随着时间的推移,我们的合成大鼠会变得更加自信,因为她越来越依赖于她对奖励位置的背景信念。我们希望证明,在某个时候,我们的老鼠会推断出一种正化合价状态,并有足够的信心直接接受奖励。跳过搜集信息这一步,可以让她在每次试验(包括两个步骤)结束前享受更多的奖励。第二组32 个试验涉及一个有点残酷的扭曲(由 Friston,FitzGerald 等人,2016年介绍):我们通过将奖励放在对面(右)手臂上来颠倒上下文。这种类型的上下文颠倒背叛了我们的代理人新发现的信心,即 T 型迷宫在左边包含他们的奖励。如果有足够多的具有一致奖励位置的三态动物,我们的合成老鼠最终应该能够重获信心。

4 Results

图 8 显示了我们所描述的设置的模拟结果。这个模拟的动态可以大致分为四个季度:上下文逆转之前和之后的 32 次试验中每个试验的两个时期。这些时期显示出负价的初始阶段(第 1 季度和第 3 季度),随后是有目的的信心阶段(正价;第 2 季度和第 4 季度)。按照先验的规定,我们的受试者一开始就处于消极焦虑状态。因为积累证据需要时间,所以她的情感信念在某种程度上落后于手头的情感证据(情感电荷模式)。当我们的老鼠不断在左边寻找食物时,她的预期精确度不断增加,直到她在试验 12 左右进入稳健的积极状态。后来,在试验 16 左右,她变得有足够的信心走捷径去寻找食物,而无需检查信息提示。当我们在第 33 次试验中扭转了背景后,我们的老鼠意识到她的方法已经不再取得成果。由于不确定该怎么做,她陷入了负价的情感状态,并回到了她的信息搜寻策略。比以前更慢的速度(情境逆转后大约进行了 15 次试验,而不是第一次试验后的 12次试验),当我们的受试者弄清楚新的意外情况时,她回到了积极的感觉状态:食物现在总是在右边。在环境逆转后,她进行了大约 22 次尝试,才获得足够的勇气(即信心),走捷径前往右侧的食物源。事实上,在走捷径之前,她进行了更多的尝试(22 次而不是 16 次),这表明她对周围环境中持续发生的意外事件变得更加怀疑(这是正确的)。

粗略地说,在64次试验的第1和第3季度,我们的代理经历了(即推断出)一种负面的价值状态,而在第2和第4季度经历了一种正面的价值状态。对这些时间动态的进一步观察揭示了正面价值和自信的冒险行为之间的分离:强烈的正面状态(图8d)先于代理做出了采取捷径去获取食物的实际选择(图8b)。

为了说明在这种情境中更高层次信念的重要性,我们在没有更高层次的情境和情感状态的情况下重复了模拟。在去除了更高层次的情况下,结果得到了一个(较不复杂的)代理,可以将其视为对更高层次神经处理的“损伤”。该代理通过简单地累积遇到特定结果的次数来更新关于食物位置的期望。图9总结了这种简单模型和情感推理模型之间在信念更新和行为方面的差异。在图9的顶部面板中,我们看到更高层次的情境状态可以根据最近的观察结果(最近效应)迅速调整更低层次的期望,而较不复杂的老鼠无法忘记过去的观察(观察了32次左边和右边后,其预期的食物位置再次是50/50)。删除情感状态的影响更微妙。当我们检查具有和没有情感状态的情况下关于政策的最强先验信念之间的差异时(第二面板),这种影响变得显而易见。正如预期的那样,我们看到情感状态和与之相关的预期精度的波动(如图8d和8e所示)与开始试验时对政策的先验信念的强度的变化有很大的关联。此外,通过试验内 elicited 的 AC 的比较(图9的第三和第四面板),显示了预期精度的更高层次调节倾向于减弱试验内产生的 AC。相反,较简单的代理无法习惯于自己的成功和失败:每次试验后,预期精度都会重置,而 AC 会一次又一次地引发。最后,删除更高层次的组合效应很好地解释了观察到的行为结果(图9的底部面板)。在情境逆转之前,两个代理最终选择了相同的政策。缺乏更高层次的情感状态信念特别影响了处理情境变化的能力。首先,尽管接受了几次痛苦的电击,她在三次试验中都坚持了实用性觅食的行为,而情感推理老鼠在经历一次意外观察后就改变了策略。其次,情感推理老鼠立即恢复到她的默认策略(检查提示,然后获得食物),但较不复杂的老鼠(对更高层次模型的“损伤”)开始完全避开左右手臂。在连续八次试验中,她检查了信息性的提示,但要么留在提示那里,要么回到中心。只有在她收集到足够的关于新食物位置可靠性的证据后,她才敢于移动到右臂(这让人想起了决策制定的漂移扩散模型)。她保持使用这种策略直到实验结束,而我们的情感推理老鼠在试验系列的最后一个季度直接移动到右臂。

显然,人们可以想象出我们用来说明情感推理的生成模型的许多其他变体;我们将在今后的工作中探讨这些问题。例如,没有必要在更高的层次上有单独的上下文和情感状态。一组更高层次的状态可以代表两者,为特定情境和价态之间的偶然性信念提供经验先验。然而,我们的模拟提供了一个充分的工具来讨论由有效推理提供的一些关键的见解。

5 Discussion

在这篇文章中,我们使用深层主动推理构建并模拟了一个情感配价的形式模型。我们提供了情感推理原理的计算证明,其中一只人工合成的老鼠不仅能够推断出世界的状态,还能推断出自己的情感(价态)状态。至关重要的是,她的生成模型根据她表现型一致的行动模型的预期精度的模式来推断化合价。为了清楚起见,我们并不直接将预期精度(或置信度)的概念等同于化合价;相反,我们认为交流信号(预期精度的更新)是价态证据的重要来源。除了交流,化合价估计也可以通过其他类型的证据(例如,外部感受的情感线索)提供信息。因此,我们的公式提供了一种跨经验领域表征配价信号的方法。我们证明了这一简单形式的情感公式的表面有效性,即环境突发事件的突然变化导致了一个人行动模型的负价和低信心。

扩展感知、行动和隐含元认知的嵌套式主动推理模型(M4;见图 3), 我们对情感推理的深入阐述可以被看作是合乎逻辑的下一步。它要求我们在关于状态、策略和预期精度的高级上下文和情感推理(跨上下文)和低级推理(在上下文中)之间指定虚拟(即自上而下和自下而上)约束。在图中 10,我们强调我们的情感代理的计算体系结构的固有层次和嵌套结构。它表明了一种元认知(即隐含的自我反思)能力,其中生物对自己的情感状态持有不同的观点,反映了对模型适合度的内部估计。这提供了一种精神活动(Limanowski &Fris- ton,2018;Metzinger,2017 年),在这种意义上,低级别政策的精确度受到层级中较高级别的影响。同时,在每个级别(自顶向下约束),先验信念遵循模型证据上界的梯度上升,从而在形成后验信念时提供级别之间的相互约束。

5.1 Implicit Metacognition and Affect: “I Think, Therefore I Feel.”

我们的情感代理表现出一种隐含的元认知能力比我们在《主动推理初级读本》中提出的生成模型更复杂(图中的 M1 41–3). 关于她自身感染状态的信念是通过传达她所做的或将要做的表现型一致性的信号来传达的;换句话说,他们从行动带来或预期带来的理想结果的程度中获得信息。这与元认知贝叶斯方法的其他工作相呼应(Stephan 等人,2016)。这种元认知能力的出现依赖于拥有一个参数化的深度生成模型,该模型可以整合来自内部和外部的其他类型的信号。除了主观适合度的内部波动(AC,如在我们的公式中),情感推理也很可能由外部感受线索和内部感受信号(例如,心率变异性;艾伦、利维、帕尔和弗里斯-顿,2019 年;史密斯、塞尔、哈尔萨和莱恩,2017)。与外部信号或刺激的联系是至关重要的:有了情感推理,我们的情感主体可以将情感状态与特定的环境联系起来(通过 D(2)和 B(2))。这种关联可用于通知关于如何在给定环境中响应(给定一组更高级别的策略 π(2))或如何在给定环境中搜寻信息(通过 π (1))的决策。如果我们的合成主体能够有效地搜寻情感信息,她将能够以一种上下文敏感的方式调节她的信心,作为一种精神行为。此外,皮层更深层次(如前额叶皮层)可能通过推断或制定政策来调节这种情感反应,这些政策会产生导致积极情感反应的观察结果。这种过程可能对应于几个广泛研究的自动和自愿情绪调节机制(Buhle 等人,2014;菲利普斯、拉杜塞尔和德雷维茨,2008 年;Gyurak,Gross 和 Etkin,2011 年;史密斯、阿尔科泽、莱恩&基尔-戈尔,2016;Smith,Alkozei,Bao 和 Killgore,2018),以及情绪意识的能力(Smith,Steklis,Steklis,Weihs 和 Lane,2020;史密斯、巴贾杰等人,2018;史密斯、韦恩斯、阿尔科兹伊、基尔戈尔和莱恩,2019;Smith、Kill- gore 和 Lane,2020 年),他们中的每一个都是当前循证心理选择疗法的核心(Barlow、Allen 和 Choate,2016 年;Hayes,2016)。

5.2 Reinforcement Learning and the Bayesian Brain

将这里提供的动机行为的观点与现有的行为规范模型和相关的神经理论进行对比是有益的。关于强化学习的研究(DeLoof 等人,2018 年;萨顿和巴尔托,2018),有符号奖励预测误差(RPE)已被引入作为预期和获得奖励之间差异的度量,用于更新关于行动价值的信念。积极与消极的 RPE 也经常(至少隐含地)被认为分别对应于意想不到的愉快和不愉快的经历。然而,请注意,强化学习可以在没有意识情感变化的情况下发生,愉快或不愉快的经历不一定总是令人惊讶的(Smith & Lane,2016;史密斯、卡兹尼亚克等人,2019;Panksepp 等人,2017;温克尔曼、伯里奇和威尔巴格,2005 年;Pessiglione 等人,2008 年;莱恩、韦恩斯、赫林、希肖和史密斯,2015;莱恩、索姆斯、韦恩斯、希肖和史密斯,2020 年)。我们称之为情感电荷的术语同样可以获得具有情感意义的正值和负值。然而,与强化学习不同,我们的公式侧重于积极和消极的价态,以及 AC 在更新关于这些情感状态的信念中的作用(即,与直接调节奖励学习相反)。虽然在精神上类似于 RPE,但AC 的概念在信念更新方面具有原则性的定义和明确定义的作用,并且它与伴随主动推理的神经元过程理论一致。

具体来说,当代理人努力将风险和模糊性最小化时,情感负荷对预期和获得的结果之间的差异进行评分(gπ;参见表格 3). 在预期模糊性可以忽略的情况下,AC 变得等同于 RPE,因为两者都在预期和获得的结果之间的效用差异上得分(参见 Rao,2010;科伦坡,2014 年;菲茨杰拉德、多兰和弗里斯顿,2015 年)。然而,当一个人的生成模型包含不确定性时,预期模糊性就变得很重要(例如,驱动探索性行为,如幼儿的典型行为)。情感干扰的这一组成部分允许我们将价态与歧义减少联系起来,同时也解释了开发和探索之间的微妙平衡。

在传统的 RL 模型中(如 Sutton & Barton,2018 年所述),效价的主要候选项似乎是奖励和惩罚或接近和回避倾向。与我们的模型相反,RL 模型倾向于特定的任务,传统上不涉及任何内在的价值表示(例如,奖励被简单地定义为一个输入信号,它改变了未来行动的可能性)。最近的模型表明,情绪反映了奖励预测错误的近期历史,这有助于偏置对未来奖励的感知(Eldar 等人,2016;Eldar & Niv,2015)。这与我们的方法形成对比,我们的方法用在贝叶斯决策模型中自然出现的领域通用信号来识别价,并且可以用于通知价的表示,价的表示跟踪一个人的内部模型的成功,并且以没有层次深度就不能完成的方式自适应地修改行为。大概这种显式的化合价表征也是自我报告化合价经验的必要条件。这种表现形式的适应性优势如图所示 9。只有通过这种更高阶的化合价表示,主体才能够仲裁由预期自由能驱动的行为(即,明确的目标和信念)和由优先于里坡的基线驱动的行为(即,习惯)之间的平衡。更一般地说,具有情感推理能力的主体比没有价表征能力的主体能更灵活地适应变化的情况,因为它能评估自己做得有多好,并相应地调整对其行为模型的依赖。因此,与其他建模方法不同,效价在这里与奖励和惩罚以及接近和回避行为都相关,但又不同(即,与经验观察到的自我报告效价和这些其他结构之间的分离一致;参见 Smith &Lane,2016;Panksepp 等人,2017;Winkielman 等人,2005 年),并提供独特和适应性的领域通用功能。

先前的工作表明,预期精度更新(即,AC)可以由阶段性多巴胺反应编码(例如,参见 Schwartenbeck,2015)。如果是这样,我们的模型将表明多巴胺和化合价之间的联系。然而,当考虑这种生物学解释时,重要的是将 AC与许多相关的结构进行对比和分离。这包括上面讨论的 RPE 的概念,以及显著性的概念,

欲望、愉悦和动机,其中的每一个在以前的文献中都与多巴胺相关,并且似乎与 AC 不同(Berridge & Robinson,2016)。在奖励学习任务中,阶段性多巴胺反应与 RPE 有关,RPE 在几种 RL 算法的学习中起着核心作用(萨顿和巴尔托,2018 年);然而,多巴胺的活性也会随着独立于奖励的显著事件而增加(Berridge & Robinson,2016)。此外,在某些情况下,多巴胺似乎会激发旨在“想要”某样东西的精力充沛的接近行为,这可能与获得该东西时的快乐分离(例如,苯丙胺成瘾者尽管有继续使用的欲望,但没有从使用毒品中获得快感;Berridge & Robinson,2016)。因此,如果 AC 与化合价相关联,那么它与多巴胺的暂时联系是否与这些先前的发现一致,或者能否解释这些先前的发现,先验地并不明显。

虽然这些考虑可能指向我们的模型的未来扩展的需要,但是许多可以被部分解决。首先,主动推理领域对多巴胺的作用提出了不同的解释(FitzGerald 等人,2015;Friston et al .,2014)—即,它编码预期精度,而不是 RPE。从数学上讲,可以证明预期精度项(γ)的变化在奖励任务的环境中总是看起来像RPE(即,因为奖励提示关于未来行动的最新信念,并且与预期自由能的变化密切相关)。然而,由于显著的(但非奖励的)线索也携带与行动相关的信息(即,它们改变政策选择的信心),gamma 也响应显著的事件而改变。因此,这种替代解释实际上可以解释多巴胺能反应的显著性和 RPE 方面。此外,奖励学习实际上并不伴随着多巴胺反应的减弱,因此在这一过程中并不发挥必要的作用(Fitzgerald 等人,2015)。因此,主动推理解释可以解释学习和表面 RPE 之间的分离。

可以说,声称多巴胺、AC 和化合价之间的关系的最强和最重要的挑战来自于以前的研究,这些研究将多巴胺与“想要”而不是快乐更紧密地联系在一起(即,与正化合价密切相关;Berridge & Robinson,2016)。一方面,一些研究将多巴胺与奖励反应中的“喜欢”程度联系起来(Rutledge 等人 , 2015) , 一 些 有 效 的 抗 抑 郁 药 物 是 多 巴 胺 能 激 动 剂 (Pytka 等人,2016);因此,有证据支持(至少是间接的)与快乐的联系。然而,快感也与其他神经信号相关(例如,在阿片系统内)。我们的模型的一个局限是,它目前没有资源来考虑这些其他与价相关的信号。还值得考虑的是,因为迄今为止只有一项研究直接测试并发现了 AC 和多巴胺之间联系的支持(Schwartenbeck 等人,2015),未来的研究将有必要确定 AC 是否可能更好地对应于其他非多巴胺能信号。然而,我们指出,我们的模型仅意味着交流为更高层次的化合价表征提供了一个证据来源,而快乐只是正化合价的一个来源。因此,它不排除其他信号对效价的额外影响,这将允许 AC 有助于享乐性愉悦,但也可与之分离的可能性(关于与情感推理相关的功能神经解剖学的额外考虑,参见附录 A4)。

5.3 Affective Charge Lies in the Mind of the Beholder。

鉴于我们对情感推理的表述是明确面向行动的,我们欠读者一个解释,即在我们精神生活中似乎与行动有些距离的方面,效价是如何被引出的。例如,当我们解决了一个难题或者理解了一个笑话的笑点(啊哈!瞬间)。我们的解释很简单:在主动推理中,生物学上看似合理的认知形式不可避免地涉及到政策选择,无论是内在的(例如,将一个人的注意力引向情感刺激,在工作记忆中操纵情感信息;史密斯、莱恩等人,2017;Smith,Lane,Alkozei 等人,2018;Smith,Lane,Sanova 等人,2018)或外部(例如,对情感提示的扫视选择;Adolphs 等人,2005 年;森内、克林和琼斯,2017 年)。因此,交流也是由心理活动引起的,典型的是以自上而下的方式调节(较低层次的)先验。在不同的经验领域中,正对负价与认知匹配对不匹配(例如,Williams &Gordon,2007),连贯对不连贯(例如,Topolinski,Likowski,Weyers,&Strack , 2009) , 共 振 对 不 连 贯 ( 例 如 , Sohal , Zhang , Yizhar , &Deisseroth,2009),流利对不流利(例如,Willems &范德林登,2006)。情感推理可以解释所有这些不同的发现,因为注意力策略选择减少了不确定性。这提供了一种将不同领域的加工流畅性变化与特定情感状态联系起来的正常方式,正式形成了以前的概念模型(Phaf & Rotteveel,2012;Joffily & Coricelli,2013;Van de Cruys,2017)。

在这种情况下,我们提醒读者,预期精度(γ)及其动态(由 AC 指示)反映了代理人对使用预期自由能来通知行动选择的信心。预期自由能可以被解释为对一个人的模型整体表现如何的评估(即,它对偏离优选结果的情况进行评分),因此预期精度(γ)项表示对一个人的行为模型整体的置信度。这不同于对任何特定行动过程的信心,因此也将 AC 与相关的代理和控制概念区分开来。虽然AC 反映了对一个人的生成模型总体表现的评估,但是代理和控制的概念有些狭窄,尽管与 AC 相关,但它们实际上映射到不同的模型元素。具体来说,在给定每个可允许的策略的情况下,这些结构很可能与预期转换的精度(即,模型中转换矩阵 B 的精度)有关。当依赖于策略的转换如果有很高的精确度,代理人将会对她行动的结果有信心——因此她有能力按照期望控制环境。然而,这并不总是随着交流的变化而变化。一般来说,高 B 精度对于正 AC 是必要的,但还不够(例如,人们可以对与非优选结果相关的状态转换有精确的预期)。

在其他情况下,已经建议动作模型精度更新(我们标记为 AC 的)可以用于通知选择性注意(例如,Clark 等人,2018;帕拉西奥斯、拉齐、帕尔、基尔霍夫和弗里斯顿,2019 年)。当与主观健康的特定基线相比时,任何显著的偏离,无论是积极的还是消极的,都将意味着岔路口:需要(内部和外部)行动的机会或威胁。作为我们的模型的一个可能的扩展,AC 的极值因此可以用来通知唤醒状态,伴随着一个情感驱动的定向过程。在这个方案中,情感刺激对注意力的自动(自下而上)捕捉可以自发出现,因为这样的刺激提供了关于主体情感状态的可靠信息。反过来,这可以用来模拟隧道视觉体验的类型高度兴奋时的哺乳动物。

我们在这封信的后续文章中继续这种推理,这自然建立在主动推理(Parr & Friston,2017)的先前工作基础上,表明刺激的显著性如何与通过选择与刺激有关的政策(例如,视觉迅速扫视)提供的不确定性的潜在减少正式相关。例如,对于我们的情感代理,刺激的感知显著性与她减少感知不确定性(关于较低水平的感知状态)的期望成比例。因此,情感突显可以被类似地框定为一个主体对减少情感模糊(关于更高层次的情感状态)的期望。有趣的是,牛、托德和安德森(2012)对暗示的等级(和时间)分离进行了验证,他们综合了表明感知显著性和情感显著性之间分离的发现。

5.4 On the Dimensionality of Valence.

因为我们假设了 AC 和化合价之间的密切关系,所以可能会出现一些问题。例如,在我们的模型模拟中,AC 对应于一维信号,取负值或正值,用于更新更高级别的化合价表示。然而,人们可能会质疑价是否具有这种一维结构。事实上,在这个问题上有许多不同的观点(参见 Lindquist et al .,2016)。情绪研究和相关神经科学研究中的一 些 观 点 认 为 , 效 价 是 一 维 的 (Russell , 1980 ;Barrett &Russell,1999)并假设(例如)单个神经系统应该随着价态沿着该维度变化而增加(或减少)活性。其他观点提出了两个维度(Fontaine 等人,2007年),潜在地对应于分别由负价和正价激活的两个独立的神经系统。最后,情感工作空间视图(Lindquistet al .,2016)假设不存在明显的“配价系统”,并且一系列领域通用的神经系统以上下文特定和灵活的方式使用关于负配价和正配价信息的信息,并由此被激活。除了化合价的维度,一个相关的问题是我们的模型是否可以更广泛地解释情感体验的粒度和多维方面。

虽然这些考虑肯定突出了我们已经提出的形式模拟的过于简化的本质,但它们也指出了我们的公式的潜在力量。具体来说,我们的公式提供了一些不同的概念资源来开始解决这些问题。首先,虽然 AC 是一维信号,但重要的是要强调,该信号的产生并不意味着它被接收它的所有下游系统以相同的方式使用(即,它不需要像在我们的模拟中那样简单地为单个更高级别的状态提供证据)。事实上,一些下游系统可以有选择地使用消极或积极的交流信息(如在二维模型中),或者多个系统可以使用二价信息用于不同的功能集(如在情感工作空间视图中;Lindquist 等人,2016)。第二,等级系统中的每一级原则上都可以产生自己的交流信号,并将这种信号向前传递,这就提供了一种可能性,即情感电荷在一个级别上(或在一个神经子系统中)可以是正的,而在另一个级别上(或在另一个子系统中)可以是负的,这就潜在地允许了更细微的化合价体验的混合。也就是说,目前还不清楚情感电荷是如何跨层次或跨系统整合来传递经验的。此外,并非代表层级中 的 所 有 层 级 都 有 助 于 意 识 体 验 (Dehaene , Charles , King 和Marti,2014;威特&史密斯公司,出版中;Smith & Lane,2015),就其对情感现象学的贡献而言,哪个水平或水平的子集可能是有特权的,这是一个公开的问题。最后,重要的是要强调,我们的主张是特定于化合价的,并不旨在解决情绪的更复杂的经验成分。情绪的其他几个经验方面(例如,内感受/躯体感觉、接近/回避驱动、注意力/警惕性的变化)超出了效价,需要纳入未来的模型。

5.5 Addressing Potential Counterexamples: Negative Valence with Confident Action.

在这里,我们仔细考虑潜在的反例,并解释这些如何不威胁我们的公式的表面有效性。一类潜在的反例涉及看似不可避免的非优先结果的情况(即,未来结果的不确定性很小,非常令人不快)。例如,一个没有降落伞的人从飞机上掉下来可能会感到非常不舒服,尽管几乎可以肯定他或她会撞到地面并死去。在这里,重要的是要强调,只要有负交流产生

偏好的结果和人们可以选择的政策下的预期结果之间的差异增加了。因此,在假设撞向地面与个人偏好不一致的情况下,从没有降落伞的飞机上坠落将是一种情况,在这种情况下,个人可用的所有政策都将导致与这些偏好强烈背离的结果(例如,没有特定的行动会阻止撞向地面)。因此,代理人对如何采取行动来满足她的偏好(高预期自由能)有很高的不确定性,尽管准确地预测了未来的结果本身,并因此在我们的账户上体验到了负价。

第二类潜在的反例涉及这样的情况,即行动中的信心看似很高,但效价是负的,这在与恐惧和愤怒相关的情况下是最不可能的。在恐惧中,人们会非常自信地认为自己应该逃离捕食者。在愤怒中,一个人会非常自信地想要伤害别人。适用于大多数这类反例的简短回答是,交流信号表明一个人当前情感状态的相对变化;在这种情况下,它起着调节作用。虽然为了简单起见,我们在形式模型中只包括了负价和正价的二元范畴,但重要的是要记住,在实验中,价是在连续的尺度上测量的,“从非常负到非常正”。因此,即使在完全否定的情

况下,负价的强度也会以与 AC 负相关的方式变化。例如,当一个人逃离捕食者时,他可能会经历负面影响,如果一个人被困住了,不知道如何逃脱,这种感觉可能会更强烈(这将涉及更多的负 AC 值)。此外,一个人对逃跑会成功越有信心,他就会感觉越好。因此,在恐惧的情况下,负交流信号仍将被期望跟踪负面影响的强度。

除了最初的表现,我们的化合价公式也可以解释上面提到的愤怒的例子,其中一个人仍然对如何行动非常有信心(例如,有强烈的冲动去伤害某人)。首先,消极的愤怒体验可以解释为与引发愤怒的事件(例如,被朋友意外侮辱)相关的首选结果的差异增加。第二,自信地对愤怒采取行动可能与积极的价值有关(例如,打了侮辱你的人会感觉很好),而愤怒时的冲突驱动与更消极的价值有关(例如,想打某人,但又不想损害有价值的关系)。因此,愤怒的每一个方面都与我们的公式保持一致,因为在这种愤怒发作期间,负价和正价的程度仍然会映射到 AC 值上。

接下来,有一些有趣的情况,其中预期自由能将增加,尽管在里坡上诱导出一个高度精确的后验分布。当代理对一个策略非常有信心并且然后观察到一种结果,这种结果出乎意料地导致对不同政策的非常高的信心,这可以被视为对一个人的行动模型的信心应该下降的证据。这实际上可能是在刚刚提到的案例中经常发生的情况——例如,如果一个人开始对“在森林里冷静地四处走动”政策非常自信,并且在看到捕食者时,意外地对“逃跑”政策变得非常自信,或者如果一个人开始对“友好行动”政策非常自信,并且在受到朋友侮辱时,意外地对“对我的朋友做出严厉回应”政策变得非常自信。因此,尽管由于 AC 与偏好结果的关系及其与政策后验精度的非线性关系,AC 通常与行动选择中的不确定性共变,但这些其他类型的情况可以自然地适应。

最后,我们还应该考虑这样的情况,即人们报告了非常积极的体验,但他们当前对环境的适应在任何可测量的方面都不好。主观适合度和外部适合度(例如,繁殖成功)之间的这种差异可以自然地出现在有效推理中,突出了我们公式的一个重要优势。因为适应度的内部估计可能是不准确的,我们的公式为不适应的情感现象建模提供了资源,如躁狂症中的夸大妄想(夸大的主观适应度)或抑郁症中的习得性无助(实际上主观适应度为零)。这种次优模型中的贝叶斯最优推断概念已被用于计算精神病学中的精神障碍研究(Schwartenbeck 等人,2015)。此外,由于自然选择在塑造优先选择中的作用,人们也可以在我们的框架中描述与个体生物适应性不一致的现象(例如,蜜蜂为蜂巢牺牲自己)。因此,这与其他具有情感成分的进化人类行为相联系,例如利他和自我牺牲行为(例如,与进化心理学中的亲缘选择机制和互惠原则相关联;Buss2015)。

5.6 Deep Feelings and Temporal Depth: Toward Emotive Artificial Intelligence.

为了解释化合价的经验,计算层次应该有多深是一个公开的问题。虽然我们的两层模型看起来很复杂,但它实际上在试图解释任何类型的主观现象学方面都是微不足道的。尽管任何决策组织都可以在一级模型中配备感觉和运动表征,并配备倾向于接近某些情况和避免其他情况,但我们已经表明,需要更高的级别来表示对自己的估计。我们假设,基于对有意识和无意识神经过程的了解(例如,Dehaene 等人,2014;威特和史密斯,出版中),明确的状态表征是自我报告经验的必要条件,因此更高层次的化合价表征(如在我们的模型中)对于化合价的意识经验是必要的。在这种貌似合理的假设下,虽然非常简单的有机体可以表现出接近和回避的倾向,但是只有配备了能够整合不同内部状态的内部证据的等级模型的更复杂的有机体才能够经历变价。

我们认为情感推理(与单纯的效价推理相反)是我们模型的合适标签,因为深度、积极的推理可以直接应用于模拟其他情感状态成分(如唤醒)和与情感相关的现象(如情感突出)。这是我们框架未来的一个重要方向。这种类型的丰富的情感状态表征(例如,具有高和低唤醒状态)可以作为超参数和对行为的相关影响之间的条件依赖性的更高层次的解释。在未来的工作中,我们将超越 AC,并在适用于广泛的低级生成模型(即,许多不同的形状和设置)的生成模型的(超)参数中表征核心情感状态的丰富性。另一个重要的方向是将我们的模型与其他用于模拟接近/回避行为和情绪认知的主动推理模型联系起来(Linson,Parr 和 Friston,2020;史密斯、帕尔和弗里斯顿,2019 年;史密斯,莱恩,帕尔&弗里斯顿,2019;Smith,Kirlic 等人,出版中)。

在这些方向上扩展我们的模型的一个长期目标是朝着情感人工智能的可推广形 式 发 展 。这 种 情 感 人 工 代 理 将 能 够 推 断 哪 些 超 参 数 组 ( 例 如 , 表征“去”对“不去”响应;战斗、逃跑或冻结;倾向于为特定的刺激和环境提供最佳的配合。例如,通过增加一个参数化基线的精度优先于策略(Eπ)的项,情感主体可以增加或减少其依赖于上下文敏感方式的自动响应的一般趋势。我们提出的化合价模型及其对涉及唤醒的核心情感状态的自然扩展,也可以无缝集 成 到 情 感 概 念 学 习 和 情 感 意 识 的 主 动 推 理 模 型 中 (Smith , Parr , &Friston,2019;史密斯,莱恩,帕尔等人,2019)。在这些模型中,主体可以使用低级情感、内感受、外感受和认知表征的组合(被视为观察)来推断和学习情绪概念(例如,悲伤、愤怒),并在工作记忆中反映这些情绪状态。在这里,情绪概念对应于那些较低层次状态的规律性。因为化合价在这些模型中被视为一个观察值,我们的 AC 公式将提供一个重要的组成部分,这是目前在以前的工作中所缺少的。

5.7 Future Empirical Directions. ‍

这封信迈出了一个更大的研究项目的第一步,该项目旨在描述情绪的神经计算基础。我们已经证明了情感动态的表面有效性,这种情感动态来自于一个积极的推理模型,该模型结合了价的显式表征。下一步将是连接我们的模型与特定的神经成像或行为范例(或两者)进行比较,并将其与替代的建模框架(如强化学习)进行比较。在这样做时,经验数据可以适合这些模型,贝叶斯模型比较可以用来确定在个体和群体水平上最好地解释神经元和行为反应的模型(和模型参数),这种方法称为计算表型(如 Schwartenbeck 等人,2015;Smith,Kirlic 等人,出版中);史密斯,库普利茨基,范斯坦等人,2020;史密斯、施瓦滕贝克、斯图尔特等人,2020;史密斯,Ku-普利茨基,蒂德,乌普肖和哈尔萨,2020 年)。如果与其他模型相比,我们的情感推理模型能够最好地解释经验数据,那么它将会得到支持。下一步将是开发计算表型,最好地解释人类典型和非典型的社会情绪功能,以及这些 功 能 如 何 能 够 发 展 成 为 我 们 与 精 神 疾 病 相 关 的 稳 定 吸 引 子 ( 见Hesp,Tschantz,Millidge,Ramstead,Friston 和 Smith,即将出版)。最后一个更远的目标可能是,通过将影响模型参数与情绪障碍症状的患者进行拟合,精神病学家最终可能能够获得关于其患者的额外诊断和预后信息 , 从 而 为 治 疗 选 择 提 供 信 息 , 这 种 方 法 被 称 为 计 算 疾 病 学(Friston,Redish,& Gordon,2017)。

就经验预测而言,我们的情感推理公式表明,在大多数情况下,标准变量(例如,愉快或不愉快主观体验的自我报告量表)会加强惊吓反应;沃森,克拉克和特勒根,1988 年;布拉德利和朗,1994 年;布布拉茨基、格拉、帕斯托尔、舒普和维拉,2013 年)应与导致首选结果的行动的不确定性的实验归纳相关联。此外,当将情感推理模型拟合到任务期间和跨任务的个体水平的实验数据时,AC 的逐个试验的变化将被预测为与那些相同的效价测量相关联(即,当也在逐个试验的基础上评估时)。以及已建立的化合价的神经成像相关性(Fouragnan,Retzler,& Philiastides,2018;Lindquist 等人,2016)。

未来的研究方向将是测试人类或非人类动物的行为模式,这些模式可以用我们的情感推理模型比其他模型更好地解释。最近的工作已经开始比较主动推理模型和常见的强化学习模型,通常支持主动推理在解释人类行为时提供额外解释力的主张(Schwartenbeck 等人,2015)。强化学习和主动推理之间的比较也倾向于为以下主张提供证据:后者往往具有与后者相当的表现,或者可以超过后者,特别是在变化的偶然事件和稀疏奖励的环境中(赛义德,鲍尔和弗里斯顿,2020)。需要采取类似的比较方法来经验性地确定情感推理是否能提供进一步的解释资源。定性地说,我们的模型似乎能够解释先前观察到的效应行为的效价(特别参见图 1 中与非情感主动推理代理的比较)9),但未来的工作将有必要测试其潜在的独特解释力。

6 Conclusion

在这封信中,我们提出了一个情绪效价的贝叶斯模型,基于深度主动推理,整合了以前的理论和实证工作。因此,我们提供了一个在合成大鼠中随后情感推理原理的计算证明。我们的深层公式允许根据一个人对表现型一致行动模型的信心(即主观适应度)和相应的跟踪其进展和倒退的信念更新术语:情感负荷(AC)来推断一个人自己的价态。这一表述的领域普遍性支持了一种观点,即进化生命利用了二阶信念的灵活性——关于如何形成信念的信念。我们的工作为情感、内隐元认知和(心理)行动之间的不可分割的联系提供了一个原则性的解释。有趣的结果是一种深层生物系统的观点,它推断自己的情感状态(使用从较低水平的后验者收集的证据),并通过内部行动(通过较低水平的先验的自上而下的调节)减少这种推断的不确定性。我们期待这一新配方的理论延伸和实证应用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档