前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大语言模型无法实现具身认知

大语言模型无法实现具身认知

作者头像
用户1908973
发布2024-03-25 15:49:32
580
发布2024-03-25 15:49:32
举报
文章被收录于专栏:CreateAMindCreateAMind

Generating meaning: active inference and the scope and limits of passive AI

总而言之,我们对语言符号含义的掌握并非源于我们处理自然语言的能力,而是源于我们通过采样和互动而积累的对生活世界的更基础的理解

两种方法之间的一个关键区别(图 1)是,虽然生成式 AI 学会在提示时提供响应,但主动推理将这些响应与基于感觉运动经验的含义相关联:问题和响应中有关“向北”的词语 或“南”与物理空间中运动的潜力(和预测)相关——参与引导空间运动并预测其多感官和情感后果的神经元过程。 与没有运动能力的人工系统相比,能够从一个空间位置移动到另一个空间位置的生物的空间翻译话语非常不同——即使这些系统可以从训练中的句子中学习空间翻译统计的某些方面 放。

Free energy = model complexity – model accuracy

Expected free energy = risk (expected complexity) + ambiguity (expected inaccuracy)

Expected free energy = expected cost - expected information gain

想象一下一种外星生命形式,它与某些潜在现实的唯一联系是通过大量的文字:与隐藏的现实有着真实但复杂且有时不精确的关系的物品。隐藏的现实是我们的人类世界充满了猫、牧师、经济萧条、LLMs、选举等等。将这个存在对文字流的访问本身视为一种形态,一种感觉通道。在它年轻的时候,我们的外星人(我们称之为罗迪)发现自己被迫尝试预测感官流中的下一个项目,推断出使其能够出色地完成这项工作的潜在模式。这对罗迪的生存有好处。

这种锚定的缺乏标志着与生物有机体和文本中讨论的主动推理系统的真正区别

Abstract

对感知行为的著名描述将大脑描述为有机体与世界相互作用的生成模型,这与生成人工智能的当前进展表现出有趣的相似之处。然而,由于它们与有目的的、维持生命的感觉运动相互作用的控制作斗争,生物体的生成模型与身体和世界密不可分。与生成式人工智能学习的被动模型不同,它们必须捕捉并控制行动的感官后果。这使得实体主体能够以不断测试其最佳模型的方式干预他们的世界;我们认为,这提供了坚实的基石,这对于发展真正的理解至关重要。在这里,我们回顾了由此产生的影响,并考虑了生成人工智能的未来方向

关键词:生成式人工智能;大型语言模型;主动推理;预测处理;基础模型;具身认知

Highlights

• 生成式人工智能,例如大型语言模型(LLM),在各种任务(例如文本和图像生成)中取得了显着的性能。

• 我们通过将生成式人工智能与我们目前对生物体(被视为主动推理系统)的理解进行比较来讨论生成式人工智能的基础。

• 生成式人工智能和主动推理都基于生成模型,但它们以根本不同的方式获取和使用它们。

• 生物体和主动推理主体通过与环境进行有目的的交互并通过预测这些交互来学习它们的生成模型。这为他们提供了核心理解和重要感,这是他们后续知识的基础。

• 未来的生成式人工智能可能会遵循相同的(仿生)方法,并在被动训练之前(或代替被动训练)学习与世界的具体接触中隐含的可供性。

Optimism and scepticism about Generative AI

生成人工智能(AI)系统正在席卷社会,在以前被认为是人类认知专有领域的领域展现出令人印象深刻的能力。

这样的大型语言模型 (LLM) 会生成高质量的文本,而像 DALL-E ii 这样的文本到图像系统会生成可信的插图,所有这些都来自简单的提示。多模式系统通过视觉(例如,Flamingo [1])和传感器数据补充法学硕士LLMs,以生成机器人的计划行动(例如,PaLM-E [2] 和 RT-2iii)和可供性 [3],也许开始弥合明显的差距 具有感觉运动整合和代理能力。

这些和其他生成人工智能系统——或基础模型 [4]——正在引起人们的兴奋并引发激烈的理论辩论。ChatGPT 是否像我们一样“理解”它所谈论的内容,或者它是一个“中文房间”[5]的例子,在没有任何真正理解的情况下转换符号?它是否“掌握”了外部现实,或者是由自然语言的顺序统计驱动的模仿?生成式人工智能能否超越其摄取的数据并具有创造力?最终,生成式人工智能是否正在走向真正的人工理解——即掌握言语、感知和行动的“意义”——或者它是一种本质上自我限制的方法的结局吗?

当前的争论在这些方向之间摇摆不定(框 1),并且具有更好功能和新颖的新兴属性的生成人工智能的发展正在快速进行;以及了解他们所做的事情的工具[6-8]。鉴于此,回答上述问题或许还为时过早。在这种治疗中,我们采取了不同的方法:我们通过将生成人工智能与大脑和认知的主动推理(或预测处理)视图进行比较来提供生成人工智能的亲生物观点,这突出了生成模型(或世界模型)的概念, 但在生物环境中[9,10]。

[Inter]action and active inference in biological systems

对于任何可持续的生物系统,它必须积极地将自身限制在特征状态并对抗取代这些状态的扰动。这是通过生理控制(通过稳态[11])和变稳态行为(通过环境扩展反馈控制)来实现的。正如哲学家[13-15]、心理学家[16-20]、神经科学家[9,21,22]和工程师[23-25]所认为的,大脑的主要功能不是积累关于世界的知识,而是 控制与世界的交流。至关重要的是,特定的相互作用以特定的方式可靠地改变事态(例如,进食减少饥饿,逃离捕食者减少危险等),我们可以利用这种可靠性来发挥我们的优势。因此,世界的某些特征对我们来说是有意义的,因为它们指定了我们对世界采取行动的方式——吉布森所说的“可供性”[26]——以获得具有适应性价值的特征状态。对可供性做出反应是一种感觉运动理解,它先于对世界的明确认识,无论是在进化过程中[27]还是在儿童的发展过程中[16]。

对于许多类型的交互来说,一些(隐式或显式的)世界动态知识是必不可少的[28]。这包括预测我们的行为将如何影响我们的状态的能力,以及推断此类预测适用的背景的能力。这些是认知神经科学中被称为“主动推理”的重要观点的基石。这里的一个关键思想是,在生物体中,有感知的行为——推断世界状态并有目的地采取行动的能力[29]——从根本上来说是预测性的,并且依赖于扎根的世界模型,这些模型可以生成关于世界的预测。行动的后果[9,10,12,30]。

生成式人工智能与主动推理有着多项共同的承诺。两者都强调预测,并且都依赖于生成模型,尽管有所不同,请参见图 1。生成人工智能基于深度(神经)网络,该网络通过自我监督学习构建其输入的生成模型。例如,大多数法学硕士LLMs的训练涉及学习预测句子中的下一个单词,通常使用自回归模型[31]和变压器架构[32]。一旦在大型样本库上进行训练,生成式人工智能学习的模型就可以提供灵活的预测和新颖内容(例如文本或图像)的生成。此外,他们在各种下游任务中表现出色,例如文本摘要和问题回答;无需额外培训即可从说明和示例中学习(即上下文学习[33])。使用小型、特定领域的数据集进行额外的微调允许法学硕士LLMs能够解决更多任务,例如解释医学图像[34]和撰写小说[35]。

然而,在主动推理中,生成模型发挥着更广泛的作用,为代理提供保障。在任务执行过程中,它们支持对外部世界和内部环境状态的推断、目标导向的决策和计划(作为预测推断)。在离线期间,例如与内省或睡眠相关的时期,生成模型可以模拟反事实的过去和可能的未来,以及“想象中”的特定形式的训练,从而优化生成模型,这一点至关重要,可以生成代理的策略 [36-41]。

两种方法之间的一个关键区别(图 1)是,虽然生成式 AI 学会在提示时提供响应,但主动推理将这些响应与基于感觉运动经验的含义相关联:问题和响应中有关“向北”的词语 或“南”与物理空间中运动的潜力(和预测)相关——参与引导空间运动并预测其多感官和情感后果的神经元过程。与没有运动能力的人工系统相比,能够从一个空间位置移动到另一个空间位置的生物的空间翻译话语非常不同——即使这些系统可以从训练中的句子中学习空间翻译统计的某些方面 放。

Figure 1. 生成人工智能和主动推理中的生成模型。该图突出显示了生成模型支持解决同一问题(预测旅行目的地)的方式之间的概念差异。左侧原理图的设计类似于一系列变压器网络[32]。这些是基于具有(多头)“自注意力”结构的重复主题的前馈架构。这种结构允许序列的不同部分之间的交互,使得序列中的某些元素(例如,框中显示的特定单词)相对于其他元素被强调——有效地挑选出预测输出的显着信息。右侧的主动推理架构 [9] 展示了一个具有相互连接性的神经元系统网络(类似于大脑中发现的那种),支持循环动态 [143]。层次结构在不对称连接模式中很明显。具体来说,大脑区域之间的“下降”连接用圆形箭头显示,以暗示抑制连接,就好像我们从更高级别(从该区域的“上升”输入)减去一些预测来计算预测误差。“上升”连接用尖箭头表示,表明预测错误驱动信念更新和学习的兴奋连接。至关重要的是,在主动推理层次结构中,基于我们可能追求的策略的预测(显示为“向北”(向上箭头)和“向南”(向下箭头)动作的组合)影响世界的隐藏状态(例如,我在 非中心空间),它本身预测了我们可能听到和说出的词语,以及我们可能遇到的观点。这些推断出的隐藏状态——包括我们作为物理主体在世界上的位置以及我们计划去往的地方——是进行主动推理的生物系统的核心。在生成式人工智能中,提示是有期望输出的输入。相反,在生物与世界的交流中,投入取决于行动;即如何对世界进行采样。听到图顶部显示的问题会更新我们对可能采取的行动顺序(或想象自己采取的行动)的信念,这会更新对我们将访问的位置顺序(以及我们将遇到的视觉场景)本身的预测 更新我们对接下来要回答问题的话的预测;有关简单导航设置的示例,请参阅[140]。在大脑中,空间导航的生成模型需要分布式皮质和皮质下(例如海马)网络,并且实现先进的机器自主可能会受益于再现这些网络的功能特性[40,144–148]。

主动推理和生物体的生成模型可以提取从数据中抽象出来的潜在变量,以提供良好的解释和预测;并可能支持概念的形成。有趣的是,上面回顾的研究表明了这样一种可能性:凭借其预测训练,生成式人工智能的潜在变量同样反映了深层的规律性(例如法学硕士中的新兴语言结构[42,43]),这些规律性可能超出了 培训领域(例如法学硕士的非语言规律,例如外表和品味之间的关系)。这可能是因为(通过语言)提炼有关世界的知识是预测下一个单词的最佳方法。毕竟,生成文本的潜在过程取决于那些为了追求目标而进行交流的人。成功的生成模型可能会开发出潜在变量来捕获生成过程的各个方面,就像鹦鹉在重复听到的短语时具有隐含的语法概念一样。虽然这还有待充分评估,但生物体和生成人工智能中潜在表征的安装方式可能存在重要差异。

一个例子会有所帮助:对于人类和其他生物来说,交互式控制利用了世界的某些属性。例如,桌子可以提供一个放置盘子的地方、一个可以坐下的地方,或者一个在地震期间寻找庇护所的地方。虽然这些有意义的可供性在机制上是不同的,但它们都依附于世界上的同一个对象。因此,“桌子”的概念可以作为“我可以在上面放置东西、坐在上面或隐藏在下面的物体”的有用(压缩)速记。因此,这个概念是一系列潜在的构造,将对象与其依赖于动作的后果联系起来[44,45]。这种观点与具身认知研究一致,表明生物体通过感觉运动经验来了解物体,而它们的抽象概念——例如“重量”、“尺寸”和“可投掷性”——是以模态信息为基础的[19]。至于“基础”关系本身,我们仍然持不可知论。除了观察到扎根的必要条件通常(也许除了一些高度理论化的科学类型之外)可以通过学习预期的内容来实现:即,通过对自我发起的尊重行为的感觉运动和内感后果的欣赏 所讨论的对象、事件或事态。

语言能力本身——包括语义和语用能力——建立在以感觉方式为基础的知识之上[46]和非语言“交互引擎”,它利用非语言联合动作[47,48],例如移动 桌子在一个狭窄的角落。这种能力是在发展过程中通过物理世界中的协作意义建构和儿童与成人的互动而引导的[49]。然而,问题不仅仅是(仅)语言符号如何与非符号过程连接起来[46],而是符号本身来自哪里[50,51]。正如上面的例子所示,早在符号出现在系统发育 [52] 和个体发育 [16] 中之前,首先出现的是感觉运动相互作用。那么,这些符号的起源是什么?它们如何能够脱离作为其意义基础的感觉运动知识[50]?考虑到沟通的本质,可以得出一个简单的答案。

从具体的角度来看,沟通是一种感觉运动互动,尽管这种互动延伸到我们环境中的其他生物[52]。想象一下一个人类婴儿,他自己无法完成很多事情。幸运的是,在无助的人类婴儿中,有一种叫做父母的东西,它具有极其复杂但也很容易让婴儿控制的便利特性。婴儿哭了,父母冲过去找出并解决问题,无论是购买牛奶还是高速开车去医院。随着时间的推移,婴儿可以学会通过父母发出不同的声音来产生不同的结果,父母会故意帮助婴儿了解哪些声音让父母给她送食物、水、换尿布等。发出声音不是为了传达知识,而是为了说服。动物一直在这样做,从小龙虾的威胁姿势到猴子张牙舞爪,再到人类说“退后!”。重要的是,公报的意义不在于给定话语的声学或语法,而在于预计该话语将在说相同语言的人中引起的互动,以及该交流的预期结果。这些词本身只是有意义的互动的简写符号,它们是紧凑的和“象征性的”。例如,当婴儿哭着与父母互动时,它发出的噪音不需要指定路径或必要的脚的位置——父母会处理所有这些。因此,主体之间的互动自然是象征性的和有目的的。

人类语言交流将其推向抽象的极端,但仍然以交互控制的基本背景为基础。这些例子说明了这样一个事实:我们学习语言符号的含义是与我们的同类进行丰富的务实互动的一部分。词语的意义源于我们通过与世界互动而获得的对世界的更原始的理解。当前在认知机器人中模拟基础语言习得的努力遵循类似的(尽管经过简化)方法,其中涉及训练模型以在目标导向的动作[53]和交互设置[54]的背景下开发语言和符号能力。这与当前法学硕士和其他生成人工智能所采用的方法形成鲜明对比,后者被动地从大量文本多模式(例如文本和视频)数据中学习。

总而言之,我们对语言符号含义的掌握并非源于我们处理自然语言的能力,而是源于我们通过采样和互动而积累的对生活世界的更基础的理解。虽然生成人工智能的潜在变量同样有可能反映世界的统计规律(我们的语言和艺术所固有的),但这些规律是通过跳过上述脚手架过程来访问的——通过从精选的文本集中提取世界知识—— 或基于图像的内容。由于这些内容是人类交流的产物,生成式人工智能继承了人类表达的有意义的交互结构(例如,原因先于效果、段落紧扣主题、某些短语在特定上下文中重复)。例如,在大型语言模型的情况下,生成训练文本的人和阅读转换后的文本的人都可以理解单词所指的含义,但文本本身的转换器从未被提供过。与赋予这些词意义的互动之间的任何联系。因此,生成式人工智能在多大程度上接受了人类生成的内容的训练还有待观察——这些内容对我们来说充满了意义,因为它是由人类交流产生的——继承了该内容的语义,或者它们是否只是模仿 其统计结构[55]。在这方面,上面报告的努力(见框 1)——评估生成人工智能的潜在变量是否反映有意义的颜色或距离表示——可能不足以诊断。这些应该辅之以努力了解这些对使用它们的生成人工智能是否有意义,而不仅仅是对我们作为对话者有意义。这里的问题是,尚不清楚什么样的分析可以提供公平的测试(我们可以用大型语言模型取代驾驶教练吗?你会让他们驾驶你的汽车吗?)。

就好像我们遇到了一个外来物种,它通过我们对世界的描述来了解现实(见方框2)。

在人工智能社区中,模型通常是根据性能指标来判断的,但人类出色完成任务的良好性能并不意味着它们采用了类似的流程。例如,尽管最初对深度卷积网络(作为灵长类视觉对象识别系统的模型)感到兴奋[56],但经验证据表明它们的操作与已建立的心理物理现象几乎没有相似之处[57]。与大脑的相似性可能与许多工程应用无关,但它可能预示着通往通用人工智能的可行道路。虽然现在下结论还为时过早,但法学硕士和其他生成人工智能可能会得到类似的教训:当提供更多数据时,他们是否会克服明显的局限性,或者他们的理解能力本质上是有限的?答案将需要新的基准来衡量生成式人工智能(例如,体现在机器人中)的仿生能力,不仅是为了回答问题,而且是为了在环境中实现开放式目标[58,59]。

针对这个问题的一种补充方法(如下所述)比较了生成式人工智能和主动推理如何获取生成模型,以得出关于这些生成模型可能对现实提供什么样的“把握”的结论。

Generative model acquisition in Generative AI and active inference

"The child does not 'learn,' but builds his knowledge through experience and relationships with his surroundings." (Maria Montessori)

生成式人工智能和生物体(从主动推理的角度来看)通过不同的训练制度获得生成模型。虽然两个系统可能了解相同的概念(例如,向北和向南意味着什么),但它们的做法不同,请参见图 2。

生物体(和主动推理系统)通过与世界和同类进行感觉运动交流并学习这种相互作用的统计规律来获得生成模型。这些相互作用使感觉运动预测成为可能,从而塑造和构造对世界和其他主体的感知,并为我们提供对行动和效果的因果理解。经验和认知机器人研究表明,基于感觉的预测本身并不要求采取行动,但也需要积极参与和在世界中移动,作为开发生成模型和特定形式的理解的一种手段,这一点非常重要 。我们从一开始就可能需要本着主动感知和学习的精神采取行动和行动预测[19,45,52,65,66],以具体甚至抽象的概念为基础。通过移动,我们获得了可供性、空间、物体、场景以及自我感和代理感的表征[10,65,67]。例如,各种研究表明,海马结构和内嗅皮层通过整合自我运动信息的路径来开发空间代码,并且可能为更抽象的概念空间进行编码[68][69]。同样,额顶叶皮层的研究表明,它包含用于检测可供性并使用它们来指导特定类型运动的专门电路[70-72]。在生物体中,这些(和其他)回路支持对现实的核心感觉运动理解(一种体现智能),它为我们的知识和世界模型奠定了基础,为概念和抽象思维提供了基础。以及我们无需进行当前人工智能所需的大量再训练即可泛化到新任务的能力[73-77]。

Figure 2. 生成式人工智能和生物系统如何学习生成模型来解决图 1 中的寻路任务。左:生成式人工智能系统的预训练过程的漫画,其中它们被动地呈现(大量)数据。然后优化网络的权重,以便在给定输入的情况下,它们的输出更有可能。最先进的模型通常包括以(半)监督方式进行后续微调[89];然而,这仍然依赖于标记数据或自我生成的输出与奖励的被动呈现。右图:相比之下,支持主动推理的生成模型[149]涉及与世界的相互交互。这意味着我们当前对世界的信念可以用来选择那些具有“认知可供性”的数据;即对于解决我们对数据生成过程的不确定性最有用。在学习向北或向南意味着什么的过程中,我们可能或多或少地确定了在每个动作下我们最终将到达的位置(此处所示,如果有的话,最终到达南部位置的置信度相对较高) 往南走,但往北走的不确定性更大)。通过选择向北行驶(并观察距起始位置以北 10m 的位置),我们现在可以更好地解决不确定性并优化我们的预测。对数据产生原因的信念是好奇、探索或信息寻求过程的重要组成部分[81]。然而,在当前生成式人工智能中使用的函数逼近过程中,这些信念很容易被忽视,其中最重要的是期望的输出。该图中的神经解剖图纯粹用于说明目的,不应被视为解剖学假设,这会分散本文关于人工智能的重点。然而,我们向感兴趣的读者介绍了从主动推理框架(例如[94,104,150])发展而来的过程理论。从广义上讲,我们可能期望规划和政策选择依赖于涉及皮质和皮质下区域(例如,皮质基底-神经节-丘脑-皮质环路)的网络,不同皮质区域之间的不对称神经元连接模式反映了不同层次级别之间的通信。

相比之下,ChatGPT 等法学硕士LLM通过被动摄取大型语料库并执行自我监督任务(例如预测单词)来学习。其他生成式人工智能系统使用相同的方法,尽管使用其他数据格式,例如图片,有时还有机器人传感器数据 [2]。当前生成式人工智能的“理解”不是基于行动的,而是本质上被动的:它们反映了大型数据集(文本、图像、代码、视频等)中所证明的统计(而不是因果)规律:它们生成内容 从内容,而不是从原因。如果没有能力主动选择观察结果并在训练期间进行干预,生成式人工智能可能无法开发行动和效果之间的偶然事件的因果模型;以及预测和观察之间的区别[78,79]。

如果没有对现实的核心理解(或“常识”),当前的人工智能系统是脆弱的:它们可以学习特定的任务,但在面对相同任务的近似变体时常常会失败,因为它们学习的是不重要的特征,无法泛化 [59]。从技术上讲,这种过度拟合反映了对预测准确性的关注,而牺牲了模型的复杂性(见框 3)。这可能会限制使用法学硕士和生成人工智能的学习类型。这是一个有争议的问题,因为一些人认为,自主机器智能将通过丰富和扩展内部模型而出现,让它们从文本知识或被动视频观察中学习尽可能多的知识。然而,这种“扩大规模”本质上可能是有限的。例如,已经证明,使用任何有限的示例代码集来学习上下文相关的编程语言是不可能的,并且从自然语言推断含义的挑战可能更大[80]。同样,我们认为,追求完全被动的方法来从特定的文本或视频样本中学习不太可能导致对产生这些样本的现实世界因果关系的核心理解。一条更有前途的道路——通用人工智能——将现实世界的交互与感觉运动预测结合起来。

鉴于其不同的训练制度,生成式人工智能和主动推理代理有不同的方式来确定什么是显着的,以及什么是需要关注的。在生成人工智能中使用的变压器架构中,注意力(或自注意力)是指一种为其(极长)输入分配更大或更低权重的机制,从而过滤它们。在主动推理中,注意力既包含这种过滤作用(通过改变预测和感官信息的精度),又包含从环境中主动选择显着数据来解决不确定性。主动推理系统可以执行“实验”并引出预期最大化信息增益的信息。这种好奇心在生物体中普遍存在,但通过被动学习来获得更具挑战性[81]。

自然智能的一个关键方面是体现。生物在满足代谢需求和生存的适应性控制的选择性(进化)压力下获得其生成模型[27,82]。据推测,这种接地会产生我们的情绪。反映了一种“对我来说很重要”的感觉,它构建并告知我们处理信息的方式[21,83,84],并使我们的世界模型充满意义和目的。主动推理使用“内感受预测”的结构对代理的这一方面进行建模[85-88]。这为评估增加或减少有机体生存能力的行动过程提供了坚实的基础,并最终确定什么重要、什么不重要。重要的是,内感受预测、外感受预测和本体感受(行动指导)预测都是在生物体执行生存任务时共同计算的。通过这种方式,主动推理可能会自然地扩大规模,而生成人工智能使用的固定数据馈送方法似乎没有明显的类似物,其中学习和微调是按顺序实施的[89]。

一个相关的观点是,为了保持身体活力并追求其目标,生物体不能被动地等待下一个输入,而是需要主动地与世界进行有目的的(有时是冒险的)互动。这需要生成模型来确保在谨慎权衡时的行为灵活性:例如,在探索性行为和剥削性行为之间、留下或离开决策等之间。此外,通用性要求生成模型不仅准确而且简约(从而节能)。根据生态位,这种权衡可能有利于复杂的(例如,时间和层次深度)生成模型,其中包含行动和感知的时间尺度的层次结构[82],而不是极简生成模型,它提供精确的控制而不形成丰富的表示 环境[90-92],例如简单生物体动作循环的生成模型(参见中央模式生成器)[93]。在主动推理中,探索性行为和利用性行为之间以及生成模型的效率和准确性之间的权衡都可以通过追求自由能最小化的要求来优雅地解决(见方框3)。解决这些权衡问题需要灵活的控制形式,平衡从低到高水平目标[94]以及习惯性政策与目标导向政策[95]的成本效益。这种上下文敏感、灵活的控制在生成人工智能中尚未实现,其中通常只有一种固定形式的推理或“响应”,具有固定的预算[59]。

最后,一个关键的区别在于生物体和生成人工智能所遵循的系统发育轨迹(或培训课程)。在像我们这样的生物体中,抽象思维和语言知识植根于支持我们进化祖先的感觉运动预测和有目的控制的回路[22,27,96,97]。换句话说,语言能力是在扎根的概念之上发展的,即使它们在某种程度上可以与感觉运动环境“分离”[50]。

我们相信,正是这些众多因素(对我们自己和他人行为的感官后果的锚定的、多时间尺度的预测,与我们自己内部生理状态的预测的不断对话)的融合,才促成了真正的理解。关于“意义”的文献涵盖了多种现象。但我们认为,各种(真实)意义的共同点是,它们都基于或建立在对我们自己行为的感觉运动和内感后果的基本掌握之上。有意义的活动模式(或实用表征)源于预测和控制简单行为策略的能力。某些生物体会内生地生成这些表征,使它们脱离最初发展的环境以及与特定感官输入的强制性联系, 动作执行和行为状态。这些独立的表征保留了它们的基础,但也提供了高级的认知能力,例如关于“不存在的东西”的计划、想象力和沟通。例如,在没有与食物相关的线索或饥饿的情况下,在谈论食物、记住食物或选择餐馆时,可以内生地产生与食物相关的可供性的扎根表征。复杂的心理生活[16]可能起源于这种超然能力,标志着从实用表征功能(例如动作选择)到语义或描述性表征功能(例如计划、想象、交流和沉思)的转变。反过来,这种转变通过社会互动和参与更复杂的世界互动的能力(计划行为和远端行动后果的预测)丰富了意义和理解,这些互动涉及时间深层生成模型[9]。在这方面,真实的理解不能与能动性理解(即“代理”)以及我们感觉中枢的预测感和创作感分开,从直接到远端,反事实和超然(见框4)。

当前的生成人工智能所走的道路与上述生物体的系统发育轨迹根本不同:它们遵循的是“逆系统发育”,从直接从文本中单独或通过其他方式获取知识开始。这种方法是出于技术考虑,例如大型文本语料库的可用性以及 Transformer 架构在文本学习和预测方面的有效性。这里出现了一个有趣的问题:生成式人工智能的进一步扩展是否会朝着与自然智能和主动推理相反的方向发展——从而突出统计和热力学效率?

What way forward?

鉴于上述讨论,人们可能会问:生成式人工智能未来最有前途的方向是什么?人们可能会沿着几条路线想象未来的发展。一根轴是简单模型和复杂模型之间的连续体。这里,复杂度反映了模型参数及其训练数据的数量。第二个问题是用于培训的输入类型(例如文本、视觉、多模式),也许是为了利用它们的互补性和协同作用。第三个轴是添加额外的功能,例如在虚拟环境中进行模拟对话的生成代理[98]和常识推理系统[99]。第四个轴涉及各种培训和“参与”制度,从被动摄取精选数据到通过与世界(和其他人)的具体互动主动选择数据;其中包括在了解世界的同时追求内在(即认知)目标。(请注意,动作和交互的概念超出了身体的运动范围;请参阅未解决的问题)。

目前扩大生成式人工智能的努力重点是增加复杂性,但很少强调主动选择训练语料库;即选择优化主动学习和推理的“智能”数据。我们相信这是一个错失的机会。自然智能的“有意义的锚定”特征可能依赖于实例化代理自身行为的感官后果的(隐式)生成模型;即,与世界的具体互动中隐含的认知和工具可供性[12]。由此产生的对努力、阻力、重量、惯性和因果关系等概念的“核心理解”,稍后可能会使用在巨大数据集上训练的基本上被动的(法学硕士风格)资源来利用,以提供更接近[超级]的东西 人类对生活世界的理解,甚至可能超越我们灵活行为和抽象思维的能力。因此,这种方法不仅能概括生物体的进化方式,还能利用生成人工智能前所未有的可能性从大型语料库中学习。我们认为,这种协同作用不太可能通过首先建立更大的语言模型然后将它们连接到世界来实现,而是可以使用交互优先、LLM 风格的最后方法更好地实现。当然,这样的策略还没有得到系统的研究,它是否会带来更先进和通用的人工智能还有待确定。

最后,我们故意没有解决的一个问题是定性意识体验在(我们所说的)真实意义的生成中的作用(如果有的话)。这种意识体验(又名“感受性”或“现象意识”[100])仍然有可能是欣赏真实意义的进一步必要条件。但也有可能——而且我们认为更有可能——情况恰恰相反。也就是说,在生成意义的系统中,在某些情况下,只要使用正确类型的(时间深度的、涉及自我模型的)生成模型来预测和选择感觉运动交互(包括与他人的交互),定性体验就可能会发生。对于这些想法的一些发展,请参见[29,83,101,102]。幸运的是,目前的讨论不需要回答这些问题。

Concluding remarks

一个直接继承自行动主义观点的实际考虑是生成式人工智能和广义人工智能之间的区别,后者涉及主动推理和学习。两者都依赖于生成模型或世界模型的隐式或显式使用[103-106]。然而,生成式人工智能仅限于生成我们在相同提示或上下文下生成的内容(图像、代码或文本)。相反,主动推理是在为行动选择服务的过程中生成内容原因的游戏:又名规划即推理[107-109]。这有几个基本含义。首先,规划需要代理,从某种意义上说,只有代理才具备其行动后果的生成模型。其次,这意味着生成模型必须通过感觉运动经验、通过与可操作的世界进行交流来学习——也就是说,它们是扎根的世界模型。简而言之,广义人工智能必须经历其行为的后果。这为代理提供了直接(有效)揭示世界因果结构的信息,相对于从仅隐式反映该结构的数据语料库中收集的信息。可供性的内隐学习与学习其他人生成的数据或内容的统计规律有根本的不同。实际上,这意味着生成式人工智能不一定是可以部署在自主机器人或车辆中的最佳技术。此外,由于它没有认知可供性的概念,因此它不适合基于人为好奇心或洞察力的主动学习或应用[38,105]。解决这些限制需要更好的体现智能模型[58,59]。

尽管存在这些差异,当前的生成人工智能浪潮仍可以以有趣的方式影响我们的生态系统。他们不会简单地把我们自己的理解扔给我们(尽管他们这样做是出于显而易见的原因)。他们还打包和重新打包这些理解,并可以以好坏参半的结果,在我们上传到各种数据流的世界模型的遥远部分之间建立桥梁。这使它们能够在我们认为至关重要但理论不足的事情中发挥作用—— 我们人类反复外化我们的思想和想法,创造新的结构化对象以供严格审查的方式[110]。生成式人工智能通过发现微弱而遥远的模式——我们可能在自己的物质轨迹中错过了这些模式,然后根据任意提示重新包装它们——提供了一个绝佳的机会,将这种独特的人类形式的认知自我工程提升到一个全新的水平;使我们能够具体化并参与我们累积的世界模型中迄今为止隐藏的方面。

可以说,生成式人工智能是本世纪最美丽、最重要的发明之一——一面 21 世纪的“镜子”,我们可以通过它以全新的、富有启发性的视角看待自己。然而,当我们看向镜子后面时,却发现空无一人。

Boxes

Box 1. The debate around Large Language Models (LLMs) and other Generative AIs

人们普遍怀疑法学硕士LLMs能否对现实有任何深刻的理解。这种怀疑往往源于一些人在就复杂主题质疑此类系统时所经历的不愉快经历,而他们已经是这些主题的专家了。此外,法学硕士LLMs在因果推理和多步骤组合推理方面遇到困难[111],有时会出现“幻觉”,而不是报告事实信息并表现出“自我妄想”(即,他们将自己的预测作为预测情况真实的证据[ 79];参见精神病中的循环推理[112])。这表明缺乏对行为的因果理解,并且与法学硕士对话的明显意义可能来自于我们轻松地将我们的心理状态和代理投射到这些系统中[55,113]。

另一种相关的怀疑主义植根于他们明显的“脱离身体”,以及与他们如此流利地谈论的世界缺乏真正的因果联系[58,114]。法学硕士可能会动人地写下吃新早餐麦片的经历,但没有法学硕士吃过任何东西。此外,与人类相比,一些最先进的法学硕士对可供性的敏感性有限[115]。缺乏对实体现实的锚定激发了新的实体智能基础模型,其中包括多种模式[59,116]或模仿视觉皮层,而不是从语言开始[117]。

另一方面,也有人声称像法学硕士这样的基础模型显示出某种形式的通用智能[118,119],并且具有令人惊讶的涌现特性[4,120]。例如,它们可以为大学问题 [119]、类比推理问题 [121] 生成有意义的答案以及棋盘上走法的文字描述[118]。尽管它们仅接受文本输入的训练,但据称它们仍然开发了非语言现实的形状和因果结构的模型,包括话语中提到的实体的隐式模型[122]以及空间和方向等事物的模型[ 123]、颜色[124]和心理理论[125](但请参阅[126])。此外,即使没有或只有很少的视觉信息,它们也可以用来生成机器人计划[127]。这可能是因为生成式人工智能系统经过训练,可以从输入中提取统计规律,而文本和图像的规律性则隐含地提取了我们生活世界中的规律性。在这种解读下,多模态信息和具体化并不是了解世界因果结构的必要先决条件。语言训练可以提供同样的理解。对这一观点的支持来自于视觉和语言模型(到目前为止)在获取有用语义信息方面未能改进纯语言模型[128]。此外,另一项研究表明,法学硕士以与基于视觉的模型类似的方式编码概念信息,其中(结构)相似性意味着词嵌入和图像嵌入在其潜在空间中以相同的方式自组织和聚类。各自的(基于语言或视觉的)模型[129]。ChatGPT 和类似模型参与有意义的对话的能力表明,法学硕士可能会通过人际互动和从人类反馈中进行强化学习的微调程序,获得一些实用的对话能力,以及与人类价值观的一致[89]。

Box 2. Word-world: A Thought Experiment

想象一下一种外星生命形式,它与某些潜在现实的唯一联系是通过大量的文字:与隐藏的现实有着真实但复杂且有时不精确的关系的物品。隐藏的现实是我们的人类世界充满了猫、牧师、经济萧条、法学硕士、选举等等。将这个存在对文字流的访问本身视为一种形态,一种感觉通道。在它年轻的时候,我们的外星人(我们称之为罗迪)发现自己被迫尝试预测感官流中的下一个项目,推断出使其能够出色地完成这项工作的潜在模式。这对罗迪的生存有好处。

罗迪只有一个感觉通道。尽管如此,这个单一的通道仍然承载着我们自己更加多样化的感官访问形式的丰富的间接痕迹。然而,Wordy 却奇怪地与它自己的底层世界分离。当我们人类在我们的世界中行动时,我们受到我们试图描述和参与的世界的调节。当我尝试拿起眼前的杯子时,我有可能会失败。杯子在空间中相对于我这个具体有机体的真实位置,不断地影响着我的视觉运动动作程序。其他人也让我承担责任,从我的错误中吸取教训也是可能的。我们始终对一个规范互动网络负责,这些互动网络将我们个人和集体锚定在世界上。

相比之下,Wordy 只是非常间接地受到它所训练的文本恰好描述的世界的调节。它仅由通过文字定义的后继关系来解释。即使在它自己的行动范围内(输出更多的文字),罗迪也从来不需要估计其行动的后果。它也无法从失败中吸取教训,以正确估计这些后果,或选择旨在测试或改进其自身信息状态的行动。

这种锚定的缺乏标志着与生物有机体和文本中讨论的主动推理系统的真正区别。我们能否以某种方式改变罗迪的生存利基来弥补这一不足?也许。但就目前情况而言,罗迪所指挥的生成模型仍然与具体有机体的模型截然不同,具体有机体的行为不断地将它们暴露在它们试图建模的世界中。

Box 3. Trade-offs in active inference between complexity and accuracy and between exploration and exploitation

最大化观察如何产生的生成(又称世界)模型的证据(又称边际可能性)是理论神经生物学、机器学习和人工智能最新趋势的一个基本特征。证据最大化解释了从细胞[130]到培养物[131]的自组织系统中的意义制定和决策制定。这一命令可以表示为最小化称为变分自由能 [132] 的证据界限,其中包括复杂性和准确性:

自由能 = 模型复杂度 – 模型精度

准确性衡量拟合优度,而复杂性衡量先前信念(在看到结果之前)和后验信念(之后)之间的差异。更直观地说,复杂性对信息增益或改变主意的(信息和热力学)成本进行评分。这意味着证据最大化就是找到一个最复杂的准确解释(参见奥卡姆原理)。重要的是,在生成和广义人工智能的背景下,它意味着优化生成模型,以便它们用更少的参数更简洁地解释数据[38]

在一个活跃的环境中——适合解释决策——关于“致力于哪个计划”的信念是基于合理计划下的预期自由能。这种隐式规划作为推论可以表示为最小化预期自由能 [9,133]:

预期自由能=风险(预期复杂性)+模糊性(预期不准确)

风险是在给定计划的情况下,相对于先前偏好,对结果的概率预测之间的差异。歧义是预期的不准确。另一种分解是:

期望自由能=期望成本-期望信息增益

预期信息增益是最优贝叶斯设计原则的基础[81],而预期成本是贝叶斯决策理论[134]的基础。简而言之,主动推理诉诸两种贝叶斯最优性,并将信息和偏好寻求行为纳入单一目标之下。

自由能最小化在任务执行期间和离线期间(例如当大脑休息时)都起作用。即使在没有数据的情况下,最大限度地减少离线期间的自由能也可以优化生成模型以供将来使用,例如,通过修剪不相关的参数或通过“生成重放”自生成数据来降低模型复杂性,该“生成重放”可以超越经验数据并涵盖 反事实(但合理)的事件[36-40]。最后,在进化过程中,自由能最小化可以赋予动物大脑以物种特异性电路编码的先前结构[27,97,135]。

Box 4. A bright line between Generative AI and Active Inference?

生成式人工智能和主动推理之间的明确界限是什么?答案很简单:主动推理的生成模型赋予生成人工智能代理权,因为它们包含了行动的后果,并为人工智能(和自然)智能配备了计划能力[104,107,108]。代理的概念依赖于生成模型,该模型的范围比人工智能中通常考虑的范围更广,并在多个层面上提供因果理解:来自人们通过行动收集的感官观察(例如,与饮用淡水相关的感觉);通常与物理学和心理学的“直觉理论”相关的事物[136,137],例如作用于物理对象的后果(例如,挤压塑料瓶水)以及与其他人互动的后果(例如,询问 朋友要一瓶水);达到考虑对有机体重要的水平(例如,预测饮酒的生理后果,例如口渴的预期解决[85-88])。生物体获得了一种“重要”感,因为它们在选择性压力下学习生成模型以满足代谢需求并保持在可行状态。我们认为,他们对现实的“真实”理解是基于他们与具体世界(包括其他主体)的主体性、有目的的互动:这些互动使主体能够成为其感觉中枢的“作者”。这种具身智能——以及与感觉运动现实的早期联系——为概念和认知提供了共同基础。

语言知识[73,74]。类似地,主动推理主体通过作用于或干预它们所运作的世界来生成内容。图 2 提供了一个这样的例子:它显示了一个主动推理代理,它选择导航操作来解决其位置的不确定性:一种认知命令,通常是到达目标目的地的实用命令的先决条件 [138]。在语言交流过程中,智能体不会生成听起来像问题的内容,而是会提出一些问题来解决某些事态的不确定性或实现务实的目标。简而言之,主动推理是有目的的。行为的后果对于该代理人来说是有意义的,与她的世界交换。这种建模与 LLM 根本不同,可用于建模二元交互,其中代理在游戏中具有认知皮肤 [139],并且代理可以解释自己 [140]。这项早期工作规模较小,开发在现实世界中成功运行的主动推理代理需要解决各种概念和技术挑战,例如开发更有效的方法来提前计划并构建支持具体交互的扎根世界模型[106,141,142] 。然而,我们相信这项早期工作体现了一条通过代理实现人工理解的有希望的道路。

生成人工智能领域越来越多地朝着多模式和具体化的方向发展,例如,通过从显示感觉运动动作的自我中心视频中学习[117],并通过向变形金刚transformer 提供感觉运动流(例如,视觉输入和机器人控制)以及语言流[2] ,3]。虽然可以通过预测视频以及耦合控制和语言输入来学习很多东西,但随后的智能体将无法控制他们的感觉运动体验,也无法与环境进行有目的的交流,也无法进行有用的干预来支撑我们对事物的因果理解。世界。生物体从一开始就从代理开始[65,67]:在有限或没有代理的情况下引导学习,然后在稍后阶段添加代理,是否足以在未来的人工智能系统中构建真正的智能,还有待观察(参见 未决问题)。

悬而未决的问题

鉴于生成式人工智能已进入公众视野,我们如何对其能力进行真实评估并回答人们的问题?我们如何避免“伊丽莎效应”,或者将先进人工智能系统的行为拟人化的倾向?

在评估生成式人工智能时,我们是否可以相信我们对人类理解的直觉,或者我们是否需要一个更细致的“理解”概念,超越经典的二分法并讲述生命和人工系统的不同能力?

主体与环境的交互对于引导意义并形成其他认知能力(例如语言学习)所依赖的基础有多重要?对于大型语言模型来说,这种意义生成交互有多少是必要的?考虑到已经有多少信息上传到单词矩阵中,主体环境交互的作用是否小于具身认知理论所假设的?

生成式人工智能所表现出的“逆系统发育”是否足以在没有与世界感觉运动交流的初始基础的情况下获得意义和真实的理解?

哪些类型的行动与自主系统获得对现实的扎实理解相关?具身和基于行动的认知理论重视感知-行动循环和基础知识。然而,行动不仅仅是身体上的运动。包括沟通在内的各种行为都会产生有意义的后果。

使生成式人工智能与人类价值观保持一致的过程(例如,通过人类反馈进行强化学习)是否有可能也赋予它们某种形式的“重要”——以及类似于主动推理系统的“先验偏好”?

如果我们开发出像生物体一样自主选择和追求目标的新型人工智能,我们如何确保它们的目标与人类价值观保持一致?在开发更高效的人工智能系统的同时,必须对这些进步的伦理影响保持持续警惕。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档