前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Action perception as hypothesis testing

Action perception as hypothesis testing

作者头像
用户1908973
发布2024-03-25 15:48:53
610
发布2024-03-25 15:48:53
举报
文章被收录于专栏:CreateAMindCreateAMind

Action perception as hypothesis testing

扫视眼动背后的驱动力是对感官信息原因的相互竞争解释的不确定性的解决

Abstract

我们提出了一种新颖的计算模型,将动作感知描述为一种主动推理过程,结合了运动预测(重用我们自己的运动系统来预测感知运动)和假设检验(使用眼球运动来消除假设之间的歧义)。该系统使用如何执行(手臂和手)动作的生成模型来生成特定假设的视觉预测,并将扫视引导到视觉场景中信息最丰富的位置,以测试这些预测和潜在的假设。我们使用人类行为观察研究中的眼动数据来测试该模型。在人类研究和我们的模型中,每当上下文提供准确的动作预测时,眼跳都是主动的;但不确定性会通过跟踪观察到的运动而引发更具反应性的凝视策略。我们的模型提供了一种关于行动观察的新颖视角,突出了其基于预测动态和假设检验的主动性质。

关键词:主动推理 行动观察 假设检验 主动感知 运动预测

1. Introduction

识别他人的行为并理解其潜在意图的能力对于在社会环境中取得适应性成功至关重要,而我们人类在这方面表现出色。长期以来,人们已经知道像优势颞上沟(STS)这样的大脑区域对于允许快速识别生物运动的运动学和动力学特征特别敏感(Giese&Poggio,2003; Puce&Perrett,2003)。然而,将运动运动学的视觉分析与识别潜在动作目标之间的神经和计算机制联系起来的机制更具有争议性。

原则上,行动目标的识别可能在感知和联想大脑区域中实现,类似于视觉场景等其他事件(据信)在语义上被识别、预测和理解的方式。然而,二十年来对动作感知和镜像神经元的研究表明,在观察其他人执行相同动作时,负责特定动作的运动系统部分也会选择性地活跃。基于这些证据,一些研究人员提出,运动系统可能部分或全部支持动作理解和社会认知中的其他功能(Kilner & Lemon,2013;Rizzolatti &Craighero,2004)。一些理论提出了运动共振的自动机制,根据该机制,表演者的行动目标“镜像”在感知者的运动系统中,从而允许自动理解(Rizzolatti、Fadiga、Gallese 和 Fogassi,1996) 。其他理论强调了(运动)预测的重要性以及在此过程中秘密重用我们自己的运动库和内部模型。例如,一个有影响力的提议是,STS、运动前区和顶叶区按层次排列(在所谓的预测编码架构方案中),并形成一个内部生成模型,该模型可以预测动作模式(在最低层次级别)并理解动作目标(较高层次)。这些层次过程通过层次之间自上而下和自下而上的相互交流不断地相互作用,使得行动理解可以受到行动的不同影响。动态以及各种形式的先验知识;例如动作发生的上下文(Friston, Mattout, &Kilner, 2011;Kilner, Friston, & Frith, 2007)。许多其他理论都指出了除了镜像和运动预测之外的不同机制的重要性,例如 Hebbian 可塑性或视觉识别(Fleischer, Caggiano, Thier, &Giese, 2013; Heyes, 2010; Keysers & Perrett, 2004),参见 Giese 和 Rizzolatti( 2015)最近的评论。然而,这些理论隐含或明确地将动作观察视为一项相当被动的任务,而忽略了其主动方面,例如主动信息采样和主动眼球运动的作用。

在涉及目标导向的手臂运动的日常活动中,感知是一项主动而非被动的任务(Ahissar & Assa, 2016;Bajcsy, Aloimonos, & Tsotsos, 2016;O'Regan &Noe, 2001);眼球运动是主动的,寻找不久的将来需要的信息。事实上,眼睛通常会转向最终会采取行动的物体,而很少被与行动无关的物体所吸引(Land,2006;Land,Mennie,&Rusted,1999;Rothkopf,Ballard,&Hayhoe,2007)。一项开创性的研究(Flanagan & Johansson,2003)表明,当人们观察与物体相关的手动动作(例如,堆积积木的动作)时,他们的目光与演员的手之间的协调与当人们观察物体时的目光与手的协调非常相似。他们自己执行这些操作。在这两种情况下,人们都会主动将目光转移到目标地点,从而预测行动的结果。这些发现表明,支持行动表现的动眼神经计划可以重复用于行动观察(Flanagan & Johansson,2003),并且还可能支持这些任务的学习和因果理解(Gredeback & Falck-Ytter,2015;Sailer,Flanagan, &约翰逊,2005)。

在这里,我们描述并测试了一种新的动作理解和伴随眼球运动的计算模型。该模型详细阐述了动作观察的预测编码框架(Friston 等人,2011;Kilner 等人,2007),但通过考虑主动信息采样的具体作用,显着扩展了该框架。该模型包含两个主要假设。首先,虽然大多数研究隐含地将动作观察描述为被动任务,但我们将其视为一个主动的假设检验过程,该过程使用如何执行不同动作的生成模型来生成特定于假设的预测,并将眼跳引导至最有信息的位置。视觉场景的主要(即显着)部分,以测试这些预测,进而消除相互竞争的假设之间的歧义(Friston、Adams、Perrinet 和 Breakspear,2012)。其次,在行动表现和观察过程中驱动动眼运动计划的生成模型是相同的,这意味着运动系统以与目标导向的行动计划的展开相一致的方式驱动预测性眼球运动(Costantini、Ambrosini、Cardellicchio 和西尼加利亚,2014 年;Elsner、DAusilio、Gredeback、Falck‑Ytter 和 Fadiga,2013 年)。

我们在动作观察任务期间针对眼球运动动力学的人类数据测试了我们的计算模型(Ambrosini、Costantini 和 Sinigaglia,2011)。在动作观察研究中,参与者在观看演员向两个物体(目标)之一执行不可预测的目标导向手部动作的视频时,记录了参与者的眼球运动,该物体要求两种不同类型的握力(即,一个小的握力)。需要精确抓握的物体或需要强力抓握的大物体)。为了平衡手部轨迹并确保手部位置不会提供有关演员目标的信息,使用四种不同的目标布局从侧面记录动作。在持续 1000 毫秒的手部运动之前,视频显示演员的手放在桌子上(紧邻其躯干前方),手上叠加了一个固定⼗字(1000 毫秒)。参与者被要求固定⼗字架并简单地观看视频,而无需进一步说明。在一半的视频中,演员执行了伸手抓握的动作,在此期间,一旦运动开始(预成形条件),手的预成形(精确或强力抓握,取决于目标)就清晰可见,而在剩下的一半中,演员只是伸手握住 e 并用紧握的拳头触摸了其中一个物体;也就是说,没有根据目标特征预先塑造他的手(无形状条件)。因此,有四种运动类型,对应于二因素设计的四个条件(预成型和目标尺寸);即无shapee大目标、无shapee小目标、预shapee大目标和预shapee小目标。这四个条件以随机顺序呈现,因此无法预测演员的动作和目标。这项研究的主要结果是,当运动线索(即预成型手)可用时,参与者的目光会更早地主动到达目标物体。接下来,我们从主动推理的角度对这种预期视觉搜寻进行正式解释。

2. Methods

我们的计算模型使用凝视和主动显着信息采样来解决所观察到的动作的不确定性(Friston et al., 2012);即,对大物体的强力抓握或对小物体的精确抓握。主动信息采样背后的基本思想在于解决感觉原因的不确定性:即解释观察到的运动(感觉)的动作(原因)。在这种情况下,显着性对来自特定领域的信息采样所提供的信息增益(或不确定性的解决)进行评分;这里是视野中的一个位置。为了评估假定扫视的显着性(或认知价值),有必要预测将从该位置采样的内容。在主动推理框架中,预测源自内部生成模型,该模型本质上编码了原因(动作)和感觉(手部动作)之间的概率关系。给定特定的假设(例如,演员伸手去拿大物体),生成模型可以预测扫视到特定位置的结果(例如,手应该配置为强力抓握)。由此产生的信息增益(通过预期结果下后验不确定性的减少来衡量)然后指定扫视 e 的显着性或认知值,因为扫视到手位置可以测试在竞争假设下生成的预测(例如,看到手被配置为有力的握力,这为演员正在伸手去拿一个大物体的假设提供了证据)。

在我们的模拟中,我们评估在两个竞争假设(演员伸手去拿大或小物体)下采样每个视觉位置的显着性(认知值),然后根据每个假设的后验概率对随后的显着性图进行加权。这对应于假设的显着性图的贝叶斯模型平均值(Penny、Mattout 和 Trujillo‑Barreto,2006)。至关重要的是,在这里考虑的动作观察设置中,这是一个持续的过程,因为每个新的感觉样本都会改变后验信念,从而改变(贝叶斯模型平均值)显着性图。因此,行动观察是一个及时展开的过程,以与裁决竞争假设最相关(显着)的信息的主动采样为指导。

请注意,显着性的定义超出了视觉输入的(局部)方面,以考虑与目标相关的信息。通常,显着性是根据视觉特征来定义的。相反,在主动推理中,显着性是假定行为的一个属性。例如,接下来要看哪里。在这种情况下,显着性被定义为基于感官输入解释的不确定性的预期解决的信息增益。从数学上讲,这种认知价值相当于隐藏原因(解释)与其在特定行为下预期的感官后果之间的相互信息(Friston et al., 2015)。从这个意义上说,显着性仅根据环境的主动采样来定义,因为它是以动作为条件的感官样本的函数。在我们的背景下,显着性被进一步带入体现或行动主义领域。这是因为需要通过认知搜寻来解决的假设本身取决于他人的行动。在上面研究的动作观察范式的背景下,与其他视觉搜索任务不同,该任务需要理解动作目标(例如,“抓住大物体”),而不是仅仅预测视频帧序列。这项任务固有的意向性可以通过参与支持执行任务的相同动眼计划(以及相关的生成模型)来推断。以自己的目标为导向的行动;例如,固定和抓住一个大物体的计划(Flanagan & Johansson,2003)。隐式生成或前向模型影响视觉场景中显着的内容和不显着的内容。在行动执行过程中,目标位置很重要,因为它提供了目标导向的行动。因此,重复使用动眼神经计划进行动作观察可以解释为什么当目标位置甚至在动作 e 之前就被识别为动作 e 的目标时,目标位置就会变得显着。表演者的手到达了它。然而,在动作执行和观察过程中使用动眼神经计划之间存在重要区别。在行动执行过程中,我们知道目标(例如,大目标或小目标)。因此,我们知道目标位置,并且可以直接扫视到它,而无需看自己的手。相反,在动作观察过程中,我们需要推断行动者心中的目标(例如,行动者正在达到大目标)。为了解决要查看哪个目标的不确定性,我们可以首先查看演员的手,看看它是否配置为拾取小目标或小目标。大目标。这意味着该区域最显着的位置随着感官证据的出现(如手的配置和轨迹所揭示的),视野发生变化,以及观察者的信念或假设的后续变化。至关重要的是,当且仅当演员的意图或目标通过手部配置揭示时,人们才能预测对目标物体的预期扫视。

总之,如果智能体对目标有信心,它应该关注目标。然而,如果智能体不确定目标,它首先需要执行认知行动(即通过观察参与者的手来收集证据)。这表明不同位置(手或物体)的显着性随着智能体信念的变化而动态变化,这种现象是凭经验观察到的(见上文),并且我们使用主动推理的模拟来重现。

计算模型将在接下来的三小节中描述。第一个(架构)演练主动推理及其基本变量,见图1A 。第二个(生成模型)描述了两种抓取动作(精确抓取小物体或强力抓取大物体)的生成模型,该模型预测手部运动运动学的展开并更新显着图(图1B) 。第三个(假设检验)描述了如何通过对视觉场景中最显着元素的扫视采样来编码和测试两个相互竞争的感知假设(演员伸手去拿一个大或一个小物体,见图1C ),以及支持这种认知觅食的显着性地图。

2.1. Architecture

2.2. Hidden states include

• 本体感受内部状态,编码动眼固定中心的内部表征。他们相应的期望(即神经元活动)被表示为

,他们的预测误差为

• 感知内部状态,编码每个假设是视觉输入原因的概率(对数)。它们相应的变分模式(即神经元活动)表示为

,它们的预测误差为

或者,更直观地,对信息最丰富的位置进行采样(给定当前代理的信念状态)。

2.3. Generative models

迄今为止引入的计算方案是通用的,并在各种感知任务中实现信息的主动采样(Friston 等人,2012)。在本文中,我们将其用于动作观察任务(Ambrosini et al., 2011),其中代理(观察者)对视觉输入的隐藏原因有两个假设。这些假设对应于伸手去拿大物体(使用强力握把)或伸手去拿附近位置的较小物体(使用精确握把)。为了测试这些相互竞争的假设,该架构需要生成有关当前和未来感官结果的预测(即观察到的手部运动和配置)。这些预测是从触及到抓取动作的前向或生成模型生成的,使人们能够积累不同假设的证据并评估下一次扫视的显着性图(见下文)。与具身认知和运动认知理论保持一致,我们认为这些生成模型体现在所谓的动作观察大脑网络中,这是一个由感觉运动大脑区域可以通过模拟自己的动作来支持动作理解(Dindo、Zambuto 和 Pezzulo,2011;Friston 等,2011;Grafton,2009;Kilner 等,2007;Pezzulo,2013) 。包括皮质和皮质下结构(Bonini,2016;Caligiore,Pezzulo,Miall 和 Baldassarre,2013),另请参见图1 和2。 1B.

为简单起见,我们实现了四个生成子模型,分别在两种假设(伸手拿大或小物体)下预测手(预形状)的位置和配置。这使得智能体能够以两种方式(手的位置和配置)为两个假设中的每一个积累感官证据。此外,这些子模型在所讨论的两种假设下提供了未来手部位置和配置的预测。

这四个概率子模型是根据从六名成年男性参与者收集的手部运动数据学习的。每个参与者对一个小物体(小球)执行 50 次精确抓握动作,对一个大物体(大球)执行 50 次强力抓握动作,并使用数据手套(HumanGlove e Humanware Srl)收集手指和手腕角度的数据,Pontedera,比萨,意大利)配备了 16 个传感器(每个手指 3 个角度,手腕 1 个角度)。模拟中使用的四个子模型是通过对上述数据进行回归而获得的(每个子模型进行 300 次试验),以获得手指和手腕角度随时间变化的概率分布。为了回归每个子模型,我们使用了单独的回波状态高斯过程(ESGP) (Chatzis & Demiris,2011):一种在特定子模型下产生角度轨迹预测分布的算法,见图1。 2A。 ESGP 子模型经过离线训练,以预测实验中使用的视频的下一帧(6 帧)的内容,并将手指和手腕的角度映射到视觉外观(预形状)和空间位置分别是手的。

在离线学习阶段之后,四个前向子模型根据所有先前的感官图像生成下一个手部预形状和位置的概率预测。这使得能够使用Dindo 等人中描述的方法来评估两个竞争假设的概率。 (2011)。

更正式地说,前两个子模型对试验期间受试者的手部追踪的轨迹进行编码,从而在抓握小物体(SMALL)的假设下预测图像中手部位置(作为高斯)的概率:

总之,我们使用复杂的(回声状态高斯过程)模型来生成两种模式的预测,从而为两种相互竞争的假设积累证据。该正向模型(或多个模型)的反演在形式上等同于贝叶斯过滤或预测编码,但使用更灵活和定制的生成模型。反过来,我们将在下面看到后验信念(关于手的位置和配置以及目标物体的位置)用于形成竞争假设下显着图的贝叶斯模型平均值。

2.4. Hypothesis testing

我们的动作观察任务可以被描述为两种替代假设之间的竞争(对大物体的强力抓握与对小物体的精确抓握)。重要的是,眼跳被视为“实验”,收集支持每个假设 e 的证据,以便消除它们的歧义。鉴于这是一项动态任务并且动作会及时展开,这两个相互竞争的假设必须解释图像序列,而不是单个帧;换句话说,他们必须解释整个轨迹,而不仅仅是最终的手部位置:见图1C 。这需要随着观察到的行为的展开进行连续的假设检验。

下一次扫视的目标是从显着性图(见图1A )中采样的,该显着性图评估对视觉场景e中的每个位置进行采样的(认知和实用)值,并在动作观察期间不断更新。显着图由四个分量显着图的贝叶斯模型平均值组成,基于视觉场的局部样本(用高斯窗建模):见图2。对于手部显着图(图2A),我们使用贝叶斯模型在四个子模型下的平均生成位置和配置,分别在到达大和小物体时。这捕捉到了这样一个事实:智能体期望找到配置为强力抓握或精确抓握的手的位置的值随着到达大或小物体的估计概率而增加。为了对象显着图(图2B),我们使用以对象(固定)为中心的高斯窗口的贝叶斯模型平均值,通过到达大或小对象的概率以及相对的手‑对象距离进行加权。这抓住了这样一个事实:当手靠近时,目标对象的身份可以解决更多关于预期运动的不确定性;即接近物体。最后,将手部和物体显着性图进行组合并下采样(使用开关中心环绕采样)以获得更小(16×16网格)的显着性图,该图在计算上更容易处理(图2C)。请注意,为了清楚起见,图2C中所示的组合图是说明性的,它并不是上面四个图像的真实叠加。

其中 a 代表先前估计的权重,为了与(Friston 等人,2012)保持一致,将其设置为 1/2。方程的元素是根据前面的 ESGP 模型计算的:

其中

表示先前观察的序列。

地图的系数和其中元素(手和物体)的相对显着性取决于前面描述的生成模型的输出。对于手部显着图,高斯中心基于精确握力(或力量握力)假设下手部位置的前向模型,而图的“权重” w1 (或w2)是基于前向模型计算的精确抓握(或力量抓握)假设下的预成形信息。换句话说,当手被正确配置用于精确握持(或强力握持)时,在精确握持(或强力握持)假设下预期的手部位置的显着性更高。这是因为,在实证研究中,我们是建模的,只有预成型取决于表演者的目标(而手的位置是无信息的);然而,同一模型可以很容易地扩展以整合(以贝叶斯方式)其他证据来源;例如演员的手部位置和目光(Ambrosini、Pezzulo 和 Costantini,2015)。此外,小(或大)物体的显着性以及地图w3 (或w4)的“权重”对应于执行者智能体正在执行精确抓握(或功率掌握),给出当前的观察结果。具体来说,它的计算方法是小(或大)物体假设的后验概率乘以高斯项 N(hPos; gPos,s),该项本质上描述了手‑物体距离。高斯以物体位置 (gPos) 为中心,hPos 是手的位置。高斯的 s 是小(或大)物体假设的后验概率的不确定性。总体而言, Rk代表了基于对受试者手部轨迹和预形的观察而感知的动作的当前信念的动态(和褪色)快照。

图2C的显着图的最显着区域代表视觉场景中信息最丰富的位置;即那些有望消除替代假设歧义的假设。因此,地图不仅仅包括空间信息(例如,手的预期位置),还包括有关观察(认知)值的信息(例如,为力量掌握而预先塑造的手),人们可以通过查看这些信息来收获位置,给定代理当前的信念状态。因此,假设检验 e 或最相关信息 e 的主动采样对应于为下一次眼跳选择最显着的位置。请注意,这是一个动态过程:显着性图不断更新,反映了智能体不断变化的信念。

2.5. Modelling perceptual decisions in action observation

在我们模拟的行动观察范式中,参与者没有被明确要求做出决定(在“小”或“大”假设之间),但他们的“决定”是通过测量他们的凝视行为来推断的;即,向两个物体之一(无论大小)扫视(Ambrosini et al., 2011)。以同样的方式,在计算模型中,当(人工)眼睛落在两个对象 e 之一上时,代理的信念和显着性图的更新将终止,以表示代理的决定。正如我们将看到的,在人体实验和模型中,只要有足够的信息,眼跳就可以是主动的,而不仅仅是跟踪移动的手,并且参与者在动作完成之前注视选定的目标。

请注意,在模型中,决策(即对所选对象的固定)自然地从显着性动态中产生,这反过来又反映了假设检验期间的信念更新,没有明确的决策标准(例如,当你看大对象时)对此很确定)。这是因为动作总是从相同的显着性图中采样,这隐式地表明手或其中一个物体是否在上下文中最显着。换句话说,当目标位置变得比其他位置(例如,手位置)更显着时,而不是当代理达到预定义标准(例如,固定置信水平)时,做出决定。缺乏决策的“阈值”或标准标志着与漂移扩散模型(Ratcliff,1978)等常见决策模型的重要区别,也是将行动和感知视为选择的体现模型的一个标志。相互交互而不是模块化系统(Lepora & Pezzulo,2015)。

这个结果 e 以及从手部跟踪到选定对象 e 的固定的隐式转变的关键是两个对象之一的后验概率当收集到新的视觉样本时,所掌握的信息会不断更新,并最终变得足够高以驱动扫视(即,其中一个物体可以比手更显着)。反过来,这取决于这样一个事实:当力量与精确抓握的概率更新时(图2A),大物体与小物体的概率也会更新(图2B),反映了意向性的隐含知识动作(例如,大物体需要力量掌握)。总之,如果智能体不知道目标,就像在这种感知范式中一样,它必须首先通过观察手来积累证据,然后在解决了不确定性后再观察目标。

作为说明性示例,图 3显示了沿样本运行的六个时间帧的一系列(未过滤的)显着性图。这里,较亮的区域对应于最显着的位置(回想一下,为下一次扫视选择最显着的区域)。人们可以看到显着性图中的变化,这样,到第三帧,最显着的对象就是要抓住的大对象。下面我们通过直接与人类数据进行比较来测试模型的行为。

3. Results

四 (2 2) 个条件,源自 2 个目标条件(大或小对象)和 2 个形状条件(预形状或无形状)的组合。因此,这四个条件对应了四种手部动作:“无形状大目标”、“无形状小目标”(即拳头分别靠近大目标或小目标的手部动作)、“预‑shapeebig target”和“pre‑shapeesmall target”(即,分别通过强力抓握或精确抓握来抓握大物体或小物体的手部运动)。

为了比较原始研究和模拟的结果,我们计算了模拟眼跳的到达时间,作为(演员的)手和(模拟代理的)眼跳落在物体上的时间之间的差值。目标对象。请注意,当眼睛先于手落在物体上时,到达时间为负。另请注意,我们的模拟包括一个简化:眼跳具有固定的持续时间(192 毫秒,这是因为在眼跳之前,推理算法执行 16 次迭代,每次假设持续 12 毫秒)。选择这些参数是为了与之前使用扫视眼动模型的工作保持一致(Friston 等人,2012 年) ,并确保模拟的扫视持续时间在人类的平均范围内(Leigh & Zee,2015 年)。鉴于眼跳和视频都有固定的持续时间,每次试验恰好包含 6 个 epoch。

我们的模拟结果与原始研究的结果非常相似(图 4)。关键结果是,在力量抓握和精确抓握方面,预成形条件比无成形条件具有显着优势。这个结果源于这样一个事实:在预形状中,有关演员目标的信息可以从手部运动运动学中推断出来,从而能够对目标进行预期扫视,以确认代理人(或参与者)的信念。

通过查看图1和图2可以理解这种差异。图 5 和图 6 显示了四种实验条件中每种条件的样本模拟。图 5 显示了没有预整形(左)和有预整形信息(右)的力量掌握的并排示例模拟。图 6 并排显示了没有预成形(左)和有预成形信息(右)的精确抓握模拟示例。图 1 和 2 的面板 A 图 5 和图 6 报告了观察过程中两个相互竞争的假设(此处为大与小,又名力量握力与精确握力)的概率。可以看出,在没有预成形的情况下,两种假设的概率仅在轨迹后期变得显着不同。

此外,我们观察到在试验开始后不久,在无形状条件下出现的反应性手部跟随注视策略和在预形状条件下出现的预期注视策略之间存在显着差异。如果考虑图 1 和 2 的面板 B 和 C,则这种差异是显而易见的。图5和图6分别示出了视频帧和显着图中眼跳的位置;以及相同图的面板 I,显示了实验期间眼跳的顺序(请注意,第一次眼跳始终是从中心到初始手部运动。这反映了这样一个事实:在人体实验中,参与者被要求在观看视频之前注视演员的手;然而,在分析中忽略了第一次扫视)。启发式地,在试验开始时,手的位置几乎没有信息可以告知关于目标的信念。因此,最显着的采样位置是手本身,希望它的配置预示着最终的动作。然而,随着时间的推移,手接近其目标,最近物体的身份解决了预期运动的更多不确定性。因此,人们会预期轨迹中稍后点对物体的扫视,并隐含地报告对目标物体的扫视的最终信念(或决定)。显然,只有当一只手以信息丰富的方式预先配置时,上述策略才会起作用。如果手的配置没有出现(或稍后出现)在轨迹中,则应更密切地跟踪手,以搜索(或预期)配置中的信息变化

这一观察突显了生成模型在驱动动作观察期间眼动的重要性。如果观察到的动作不能消除对执行者动作目标的不确定性,那么眼动就无法成为主动性的。生成模型对于主动眼动的重要性在Costantini等人(2014)的研究中得到了突显。作者使用重复经颅磁刺激(rTMS)在执行类似于此处描述的任务的参与者中诱导“虚拟损伤”。实验结果显示,当将虚拟损伤施加到左侧腹侧前运动皮质(PMv)时,眼动变得被动化,而该区域被认为是动作执行的前向模型的一部分。同样的研究表明,对STS后部的虚拟损伤不会产生相当的损伤。在动作观察和镜像神经元系统(MNS)的预测编码模型中,STS被认为位于(假定的)MNS层次结构的低级别,可能编码生物运动的(高度加工的)感知方面。因此,这一结果与这样一个概念相符,即生成模型中特别是运动预测方面对于假设检验至关重要,而不是(高阶)视觉处理;但这一解释在未来的研究中需要更多的审视。

最后,无论是在原始研究中还是在我们的模拟中,“大”假设都比“小”假设更快地被区分出来。这可能是由于在握力抓取的背景下引发的运动运动学的显著性更大:握力抓取的ESGP模型的整体不确定性比精密抓握的ESGP模型低(比较图5F和6F)。换句话说,人类参与者和我们的模型可能都对早期出现的微妙(和早期)运动动态线索敏感,而这些线索在握力抓取下更早地出现。在原始报告中,曾暗示这种优势也可能具有感知性质,参与者可能会将大物体选为默认选项(也许是因为它更易于感知)。我们使用一个(小)大假设的先验概率来测试这个概念(通过一个以0.57为中心,方差为0.01的高斯分布实现)。这并没有影响我们的结果;无论是在更早地区分大目标运动还是在具有和没有先前形状信息的情况下的动作识别差异方面。

4. Discussion

我们已经证明,通过主动推理描述的眼球运动动态,即预测编码形式主义向动作领域的扩展,可以在一系列动作观察任务中正确地再现人类行为。该模型基于两个相互交织的概念。首先,行动观察可以正式描述为假设检验,或根据智能体的预测对显着信息进行主动采样。其次,该过程依赖于内部生成模型,该模型生成下一个感官样本的预测(以代理的竞争感知假设为条件)。这两个组件协同作用:生成模型的预测用于更新视觉显着性图,该图用于将眼跳引导到视觉场景中信息最丰富的部分(主动采样)。反过来,主动采样为生成模型提供证据输入,该模型用于更新预测和竞争假设的概率。

我们建议的第一个创新方面需要将行动观察视为假设检验的推理过程,而不是(例如)作为分类或共振机制,或者观察主体被动接收(而不是主动采样)信息的机制。因此,我们的假设与将动作理解描述为共振(Rizzolatti 等人,1996)或赫布(Keysers & Perrett,2004)机制的模型形成对比。它还与将动作观察视为纯粹的视觉识别任务进行对比(Fleischer 等,2013)。我们的建议与各种模型相关,包括预测机制和动作理解的前向模型(Demiris,2007;Dindo 等人,2011;Donnarumma 等人,2017;Wolpert,Doya 和 Kawato,2003)和伴随注意‑ 国家分配(Demiris & Khadhouri,2005;Ognibene & Demiris,2013)。然而,我们的模型与上述所有模型都有显着不同,因为,首先,它在动作理解过程中使用眼动和假设检验,其次,它采用主动推理方案,无需任何形式的逆模型(Friston) ,2011)。从更广泛的角度来看,人们可以认为感知者的行为对于行为理解至关重要,更广泛地说,对于整个认知处理至关重要(Engel, Maye, Kurthen, & Konig, 2013; Pezzulo, 2008, 2011; Pezzulo & Cisek ,2016)。在这里,两种行为对于行为理解至关重要:显性行为和隐性行为。前者是眼球运动和眼跳,用作允许假设检验的“实验”;即主动感知(Bajcsy et al., 2016; Gibson, 1966)。后者是感觉运动系统(及其生成模型)的秘密重新激活,允许生成预测;即运动认知(Jeannerod,2006;Pezzulo 等人,2011)。

后一点引出了我们提案的第二个重要方面。我们对动作观察的解释与具体和运动认知理

论一致,特别是如果用于假设检验的生成模型用于执行目标导向的动作(Flanagan & Johansson,2003)。在社会领域,对这一观点的支持来自多种来源,包括对动作观察过程中运动激活的研究,或观察到的动作和执行的动作之间的干扰效应(Aglioti、Cesari、Romani 和 Urgesi,2008;Cross、Hamilton 和Grafton,2006;Kilner、Paulignan 和 Blakemore,2003;Umilta 等人,2001 ),请参阅Kilner 和 Lemon(2013)进行综述。这类证据催生了各种运动参与动作观察的理论和计算模型(Demiris & Khadhouri, 2005; Friston et al., 2011; Ognibene & Demiris, 2013; Ognibene, Chinellato, Sarabia, & Demiris, 2013;Wolpert 等人,2003),请参阅Giese 和 Rizzolatti(2015)进行综述。我们的模型还通过在动作观察期间将运动系统分配到假设检验中来发挥作用,从而显着推进了现有技术的发展。对这一观点的直接支持很少在动作观察模型中得到解决,研究表明眼跳本质上不再是预测性的,而且最常见的是在各种阻止运动系统募集的条件下简单地跟随移动的手:当运动系统受到 TMS 损害时(Costantini et al., 2014)或从事干扰性任务(Costantini, Ambrosini, & Sinigaglia, 2012),当双手被束缚时(Ambrosini, Sinigaglia, & Costantini, 2012),或者感知者并不将观察到的动作包含在她的曲目中(Ambrosini et al., 2013)。

我们提案的第三个创新方面是,它简洁地将眼动动态解释为使用(和更新)显着性图 e 的新兴效果,即一种免除任何临时或任务的领域通用机制‑特定标准(例如,决策阈值或标准)。在这方面,重要的是要强调,显着性图的概念不会简化为一系列以自下而上的方式捕获感知特征的过滤器(或其他机制),如文献中通常假设的那样。相反,自上而下、假设驱动的预测的贡献对于更新地图内容(例如,预期哪些对象以及在哪里)以及分配给每个位置的显着性(例如,扫视对于每个位置的重要性有多大)至关重要。 ‑ 测试当前假设)e 这与强调视觉感知中自上而下过程的理论一致(Hayhoe & Ballard, 2005; Rothkopf et al., 2007; Tatler et al., 2013;另参见Corbetta & Shulman ,2002)。将显着性分配给编码目标(用于动作执行或观察)的位置的可能性将这种方法与专注于视觉刺激的低级属性所提供的信息增益的替代建议区分开来(Itti&Koch,2000)。

此外,我们的方法涉及对行动理解的系统水平视角。尽管像镜像神经元这样的大脑机制在行动识别中的重要性经常被认可,但显然这些神经元(像其他神经元一样)在适应性行动和感知的更大脑网络中发挥作用。这意味着需要对行动识别进行系统水平的视角,清楚地认识到大脑皮层区域和皮层-亚皮层回路的作用(Bonini,2016; Caligiore等人,2013)。图1中的系统级架构方案尽管必然是简化和不完整的,但代表了朝这个方向迈出的第一步。在像主动推理这样的大规模生物模型中解决行动理解,可以产生关于不同脑区在这一过程中的作用的具体预测。

最后,值得强调的是,我们已经在行为层面测试了模型的有效性,以及它通过诉诸不确定性的单一命令(即预期的惊喜或变化)来解释不同的(主动或反应)眼球运动模式的能力。自由能)最小化。显然,该提案还有其他几个方面有待更详细的测试。我们的计算方法的优点之一是它能够根据行为数据估计隐藏变量。例如,图1和2的面板D和F。图 5 和图 6分别显示了隐藏(动眼神经)状态和智能体当前的不确定性。这些测量(和其他测量)由模型自动推断,并且可用于神经生物学数据的基于模型的、逐次试验的计算分析,例如脑激活的动态测量,例如 EEG 或 MEG ( Daw ,2011;Friston 等人,2014),从而有效地将动作观察、行为和神经元的各个级别和时间尺度联系起来。这反映了这样一个事实,即所提出的模型生成了各种经验预测,例如涉及行动 e 或信念相关的大脑信号(图5 和6 中的面板 D 和 F)e 在高或低的试验期间变化的方式。不确定性,或者运动系统暂时失活时(Costantini et al., 2014),这可以通过经验进行测试。另一个预测是,由于动作理解是一个主动的过程,假设检验机制的调整会影响它;例如,通过限制眼球运动可能会影响动作理解。

与Friston等人(2012)的原始模型相比,存在三个主要差异。第一个差异是感知刺激是动态的(视频而不是图像),因此,两个感知假设对应于图像序列而不是图像。第二个差异在于显著性图是如何计算的,这里,它不依赖于待识别对象的感知特征,而是依赖于运动预测。当前方案与Friston及其同事描述的方案之间的第三个重要差异是,我们避免了一个特殊的返回抑制机制,因为他们的生成模型没有任何记忆。这意味着模拟的代理忘记了它从采样先前位置中学到的内容,并且在没有返回抑制的情况下会不断返回到最突出的视觉特征。我们更加真实的设置排除了这种情况,因为模型生成随时间展开的轨迹。这意味着在前一个扫视中显著的东西通常在后续扫视中不太突出。这是因为我们的生成模型编码轨迹,因此具有隐含的记忆,即它可以随着时间累积有关感知信息底层原因的信息。

在几个领域中都提出了重新利用运动策略以支持感知功能的想法。一个早期的例子是(关于)语音感知的运动理论(Liberman&Mattingly,1985;Liberman,Cooper,Shankweiler和Kennedy,1967)。我们在这里的提议符合这个和其他认知运动理论的一个中心主张(Jeannerod,2006),即感知处理重用了运动控制中隐含的生成或前向模型。然而,在我们的研究中,生成模型(和运动系统)的贡献是非常具体的:引导眼动并支持主动假设测试。正如我们的模拟和实验数据所显示的那样,参与生成模型并不是行动识别的必要条件,但通过使眼动更具主动性来改善行动识别。换句话说,我们的模拟表明,可以将当前刺激(观察到的运动)赋予显著性,并以各种方式解决同一任务:反应性地(通过跟随手),通过随时间外推感知变量,或通过参与生成模型(和运动系统)。然而,反应性策略可能会受到限制,而视觉外推可能无法正确表示由隐藏原因生成的顺序事件(例如,运动系统的动态)并具有内在的意图;否则,支撑视觉外推的生成模型本质上将是支撑行动执行的生成模型的重复。视觉外推解释的另一个问题是,不清楚为什么眼动应主动接近对象(而不是,例如,在到达对象之前的任何未来预测位置),而没有一个抓取对象是代理目标的概念。虽然没有必要参与(生成模型的)运动系统来解决这个特定任务,但这样做会自动产生对情境的提前理解,从而涉及到自己的行动目标(“运动理解”);反过来,这可能会产生额外的好处,例如将行动观察分割成有意义的元素(例如,目标和子目标相关的方式,Donnarumma,Maisto和Pezzulo,2016;Stoianov,Genovesio和Pezzulo,2015),并允许在社会环境中快速规划互补或对抗性的行动(Pezzulo,2013;Pezzulo,Iodice,Donnarumma,Dindo和Knoblich,2017)。

在这个展示了主动推理下的认知觅食的例子中,我们专注于行动观察情境下的信息增益。在这个观点中,显著性成为一种“认知可负担”,在这种情况下,不同位置(手或物体)的可负担性随着代理人的信念而动态变化,因此在本质上变得与上下文相关。有趣的是,其他使用主动推理(但在简化、马尔可夫或离散时间方案中)的研究恰好也倡导了完全相同的观点,但在目标导向行动的领域,例如,在迷宫中寻找奖励。在这些研究中,当代理人对奖励位置不确定时,他们首先需要通过认知行动来解决不确定性,这需要信息增益(例如,他们搜索可以消除奖励位置歧义的线索)。解决这种不确定性是连续执行实用行动(例如,到达奖励位置)的先决条件。最终的认知和实用价值混合物结果在任何行动序列或策略下预期的自由能。简而言之,我们在这项工作中展示的主动推理在探索和开发更抽象的形式化方面具有构建效度(Friston等人,2015;Friston,FitzGerald,Rigoli,Schwartenbeck和O'Doherty等人,2016;Friston,FitzGerald,Rigoli,Schwartenbeck和Pezzulo,2016;Pezzulo和Rigoli,2011;Pezzulo,Rigoli和Friston,2015;Pezzulo,Cartoni,Rigoli,Pio-Lopez和Friston,2016)。

5. Conclusions

本文提供了一种潜在重要且新颖的行动观察公式,该公式概括了基于认知搜寻(搜寻信息)和视觉显着性的主动推理。简而言之,在我们的案例研究中,我们认为扫视眼动背后的驱动力是对感官信息原因的相互竞争解释的不确定性的解决,无论演员是到达一个小物体还是一个大物体。这可以用显着图来表述,显着图编码对视野中下一个位置进行采样的信息增益(或认知值)。反过来,这取决于基于展开事件的前向或生成模型对世界可能配置的预测(即手部运动和形状的预测,取决于演员抓住小或大物体的目标) 。这种构造既原则性又简单:它与以前对显着性的处理有根本的不同,因为显着性成为对未来的信念和预测的显式函数,并且可以以贝叶斯最优方式在线构建。此外,我们的工作为镜像神经元样活动以及主动视觉在感知和行动耦合中的关键作用提供了正式的视角。本文提出了基本思想,并通过证明人们可以(以极高的准确性)重现在动作观察过程中眼动动力学实证研究中观察到的关键现象,从而确立了其结构有效性。从形式上来说,对动作观察进行建模的能力可能对眼球运动及其神经元相关性的建模具有重要意义。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档