首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >从类脑智能到AGI的认知基础及社会影响

从类脑智能到AGI的认知基础及社会影响

作者头像
CreateAMind
发布2026-03-11 17:26:45
发布2026-03-11 17:26:45
2780
举报
文章被收录于专栏:CreateAMindCreateAMind

Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact

超越符号:从类脑智能到AGI的认知基础及社会影响

https://arxiv.org/pdf/2507.00951v1

摘要

机器能否真正像人类一样在各个领域中思考、推理和行动?这一持久的问题持续推动着通用人工智能(AGI)的研究进程。尽管诸如GPT-4.5、DeepSeek、Claude 3.5 Sonnet、Phi-4 和 Grok 3 等模型的能力不断增强,展现出多模态流畅性和部分推理能力,但这些系统从根本上仍受限于其对token级别预测的依赖,缺乏具身的主体性(grounded agency)。本文从人工智能、认知神经科学、心理学、生成模型和基于智能体的系统等多个学科出发,对AGI的发展进行了跨学科综合。我们分析了通用智能的架构与认知基础,强调了模块化推理、持久记忆以及多智能体协同的关键作用。特别地,我们指出“具身检索增强生成”(Agentic RAG)框架的兴起,该框架结合了信息检索、规划能力和动态工具使用,从而实现更灵活自适应的行为。我们讨论了泛化策略,包括信息压缩、测试时适应(test-time adaptation)以及无需训练的方法,认为这些是实现灵活、跨领域通用智能的关键路径。视觉-语言模型(VLMs)不再仅仅被视为感知模块,而是被重新审视为具身理解与协作任务完成的演进式接口。我们还主张,真正的智能并非仅来自规模的扩大,而是源于记忆与推理的融合——即通过压缩实现适应性行为的模块化、交互式且可自我改进的组件的协同运作。借鉴神经符号系统、强化学习和认知支架(cognitive scaffolding)的最新进展,我们探讨了当前架构如何开始弥合统计学习与目标导向认知之间的鸿沟。最后,我们指出了通往AGI道路上的关键科学、技术和伦理挑战,倡导构建不仅智能,而且透明、价值对齐且具有社会根基的系统。我们期望本文能为致力于构建下一代通用、人类水平机器智能的研究人员提供基础性参考。

关键词:通用人工智能(AGI)、多智能体系统、认知功能、大语言模型(LLMs)、视觉-语言模型(VLMs)、大视觉模型(LVMs)、基础模型、人脑、机器人学、心理学、智能体(Agents)、具身人工智能(Agentic AI)、世界模型

1 引言

机器真的能思考吗?七十多年前,艾伦·图灵在计算科学的萌芽时期就提出了这一基础性问题。该问题至今仍是通用人工智能(AGI)领域的核心,AGI旨在以计算形式复制人类认知能力的全部广度[1]。然而,尽管经过数十年的发展,“思考”[2]这一术语本身仍常常被使用却缺乏足够的精确性[3]。为了有意义地回答这个问题,我们首先必须明确定义“思考”以及相关概念,例如意识、智能和泛化:

  • 思考:操纵内部表征以解决问题、对世界进行推理并产生新想法的过程[2]。
  • 意识:具有主观觉知与自我反思能力的状态[4]。
  • 智能:在不同任务和环境中获取、应用并适应知识的能力[3]。
  • AGI:能够在多个领域内实现广泛的人类水平推理与学习的系统,无需针对特定任务进行重新训练[5]。

尽管像GPT-4[6]、DeepSeek[7]和Grok[8]这样的前沿AI模型在一系列专业任务中展现了令人印象深刻的表现,但它们的基础架构仍然从根本上受限于基于token级别的预测。虽然这种范式在表面模式识别方面表现出色,但它缺乏与物理具身性(physical embodiment)的关联、高级推理能力以及反思性的自我意识——这些正是通用智能的核心属性[9]。此外,这些模型并不具备意识,也缺乏对其环境的具身理解,这限制了它们在新颖、开放且真实世界场景中有效泛化和适应的能力[10]。

后训练策略[11],例如指令微调[12]和基于人类反馈的强化学习(RLHF)[13],虽然提升了模型的对齐性和可用性,但仍然运行在相同的自回归框架之内。这些方法引入的是行为上的优化,而非架构上的改变[13]。因此,尽管后训练技术取得了进展,这些模型在开放性、组合性泛化方面的能力依然有限,而这种泛化能力正是通用人工智能(AGI)的典型特征[9]。

尽管模型扩展可以近似复杂的表征并产生涌现行为,但它缺乏对结构化推理的归纳偏置,无法支持持久记忆,也不能生成自我模型或主体性(agency)。这些限制是架构层面的,而非参数数量的问题——因此,仅靠扩展规模带来的收益将逐渐减少,无法实现通用人工智能(AGI)[14, 15]。

除了下一个token预测之外,轨迹建模框架(例如算法1),如决策变换器(Decision Transformer),将强化学习重新定义为条件序列建模,从而通过针对长期回报优化的轨迹级表征来生成策略[16]。与此相辅相成的是,自提示机制(self-prompting mechanisms)引入了潜在的规划循环[17],使模型能够生成内部认知支架(scaffolds),以组织多步骤的推理过程[18]。DeepSeek-V2 是一个具有2360亿参数的专家混合模型(Mixture-of-Experts),支持128K token的上下文长度,它正是这一范式的典型代表:通过将轨迹建模与强化学习微调相结合,显著提升了在长周期任务中的连贯性和规划能力[19]。总体而言,这些方法通过在模型架构中嵌入结构化的、以目标为条件的推理机制,超越了传统的token级别生成模式[18]。

思维链(Chain-of-Thought)提示进一步通过将任务分解为可解释的子步骤来提升推理能力,在算术、常识推理和符号推理等挑战性任务上显著提升了模型表现[20]。在此基础上,思维树(Tree-of-Thoughts, ToT)框架使大语言模型(LLMs)能够通过前瞻(lookahead)、回溯(backtracking)和自我评估,探索并评估多种推理路径,从而在需要策略性规划的任务中取得显著提升[21]。例如,将ToT应用于GPT-4后,其在组合性谜题上的解决成功率从思维链(CoT)的4%大幅提升至74%[21]。ReAct方法进一步扩展了这一空间,通过将推理与对环境感知的行为交错进行,使模型能够迭代地收集信息、修正计划并提高事实准确性[18]。这些互补的方法共同构成了基于提示的具身推理(prompt-based agentic reasoning)的基础,实现了结构化的内部思考与动态的外部交互。这种统一推理过程的广义概览见算法2。

随着人工智能系统日益影响医疗、教育、治理和劳动力市场,其在社会中的融合必须以伦理、包容和平等的原则为指导[22]。人工智能的民主化意味着在不同地区、社区和社会经济群体之间公平地分配获取机会、参与权利和收益成果——缩小现有差距,而非加剧不平等[23]。

罗德尼·布鲁克斯(Rodney Brooks)在2008年提出,智能源于物理具身性,而不仅仅来自抽象[24]。基于这一观点以及近年来跨学科领域在通用人工智能(AGI)方面的进展[25],我们认为,AGI必须通过整合感知、具身性和具身推理来实现,而非仅靠规模扩展。我们综合了数十年来在机器学习、认知神经科学和计算理论等领域的AGI研究成果,批判性地审视了近期的一些技术,例如思维链(Chain of Thought)[20]、思维树(Tree of Thoughts)[21]、ReAct[18]以及轨迹建模(trajectory modeling)[16]。尽管这些方法增强了结构化推理能力,但它们仍处于过渡阶段,缺乏物理根基、持久记忆和自我意识——而这些正是通用智能的核心要素[26]。

为弥补这些不足,我们探讨了神经符号系统、多智能体协同以及基于人类反馈的强化学习(RLHF)作为构建AGI的基本模块。本文综述旨在构建一条通向认知根基扎实、模块化且价值对齐的智能系统的路径,其核心问题是:哪些机制对于从单纯的预测迈向通用智能至关重要?

动机 通用人工智能(AGI)旨在复制人类认知的完整范畴,包括在动态、开放环境中进行推理、学习、记忆、感知和适应的能力[27]。它被广泛认为是科学技术领域最雄心勃勃的前沿之一[26],学术界和工业界对AGI的兴趣持续增长,OpenAI[28]、亚马逊[29]、微软研究院[30]、谷歌[31]和Meta[32]等机构均作出了重要贡献。

尽管以往的研究已探讨了AGI的准备程度[26]、安全问题[33]、在物联网(IoT)中的应用[34]、受脑启发的架构[35]以及认知框架[36],但一个根本性挑战依然存在:我们如何从统计模式识别过渡到使机器具备真正的推理能力和灵活的泛化能力?

近年来的模型,如GPT-4、DeepSeek和Grok,展现出日益增强的多模态能力。然而,它们仍然缺乏抽象能力、具身推理能力以及实时适应能力等核心功能,而这些能力对于构建真正意义上的通用智能至关重要。

主要贡献 据我们所知,这是首篇从三个整合视角——计算架构、认知神经科学和社会对齐——来评估AGI的综述论文。具体而言:

  • 我们提出一个统一框架,整合来自神经科学、认知科学和人工智能的洞见,以识别AGI系统设计的基础原则。
  • 我们批判性地分析了当前基于token级别模型以及事后对齐策略的局限性,强调构建具身性、具备主体性(agentic)和增强记忆的架构的必要性。
  • 我们综述了新兴的、有助于实现AGI的方法,包括模块化认知、世界建模、神经符号推理以及受生物启发的架构。
  • 我们提出了一条多维度的AGI发展路线图,涵盖逻辑推理、终身学习、具身性以及伦理监督。
  • 我们将人类核心认知功能映射到对应的计算类比,为未来AGI系统的设计提供可操作的指导建议。

本文所使用的关键缩写词列表见附录表A1。

2 人工智能的历史演进

人工智能经历了若干主要范式的发展:从基于符号的规则系统[37],到统计学习模型[38],再到最近的生成式与具身人工智能(agentic AI)时代[39]。如图1所示,现代生成模型[40]在捕捉数据分布以及生成流畅的文本[41]、语音[42]、图像和视频[43],甚至可执行代码[9]方面表现出色。然而,尽管其应用广泛,这些系统在本质上仍存在根本性限制:它们运行在token预测的层面,缺乏具身语义、因果推理和长期规划能力[44]。

诸如DeepSeek[19]、GPT-4[45]、OpenAI的o1[46]、DeepResearch以及xAI的Grok3[8]等更具自主性和通用性的系统的出现,标志着人工智能可能正从静态模式匹配迈向新的阶段。这些模型展现出多模态整合、创造性问题解决以及自我导向规划的初步迹象,预示着机器中首次显现出通用智能的曙光。

弥合基于狭窄模式识别的智能与类人通用性之间的鸿沟,是通用人工智能(AGI)面临的核心挑战[35]。一系列使能技术的融合正在加速这一转变,推动人工智能从生成式模型向具备适应性、具身性和目标导向行为的系统演进[47]。其中一条关键技术路线是深度强化学习(Deep Reinforcement Learning, RL)[48],它使智能体能够通过与动态环境的试错交互进行学习。里程碑式的成果如AlphaGo[49]和AlphaFold2[50]表明,强化学习与注意力机制如何支持长视野决策和结构化预测。这些系统依赖于稳定的优化方法,例如近端策略优化(Proximal Policy Optimization, PPO)[51],在高维动作空间中平衡探索与策略稳定性。

为了进一步使模型行为与人类价值观对齐,近期研究强调基于偏好的微调方法,例如直接偏好优化(Direct Preference Optimization, DPO)[52]和群体相对策略优化(Group Relative Policy Optimization, GRPO)[53]。这些技术通过直接优化基于人类比较偏好信号的结果,避免了显式奖励建模的需求。与此同时,神经符号系统(neuro-symbolic systems)[54]将符号推理与深度学习(DL)相结合,使智能体能够操作抽象变量和组合性规则。总体而言,这些系统为实现可解释且可泛化的认知提供了路径,这对于构建稳健的AGI至关重要。

2.1 通用人工智能(AGI)概述

AGI代表了计算系统演进的一个前沿方向,致力于开发能够在各种领域中执行人类所能完成的任何智力任务的机器[55]。与专为特定任务设计、通常仅处理有限token级输入的狭义人工智能(narrow AI)[56]不同,AGI追求全面的认知能力,旨在模拟人类智力的广度与深度[57, 58]。这一目标对社会具有深远影响,有望在医疗保健[27]、教育[59]等领域带来革命性进展,同时也引发了复杂的伦理与安全挑战[60]。

AGI研究涵盖了多种方法路径,包括符号主义[61]、涌现主义[6]、混合模型[62]以及普适主义模型[63],每种方法都为实现多功能智能提供了不同的发展路径[64]。AGI的开发涉及整合复杂的算法,使其能够以模仿人类认知过程的方式进行学习、推理和适应,例如从少量数据中学习[65]、在不同情境间迁移知识,以及进行抽象推理[66, 67]。

尽管前景广阔,该领域仍面临重大挑战,例如确保系统安全、管理不可预见的后果,以及使AGI系统与人类价值观保持对齐[68, 55]。此外,衡量AGI发展进展的标准仍存在争议,学界对图灵测试[69]的有效性,或是否应采用类似人类教育成就的操作性标准[70]等问题尚无共识。

随着技术进步,整合来自认知科学、伦理学和稳健工程等跨学科的洞见,对于应对AGI的复杂性并负责任地发挥其潜力至关重要。

2.2 具身人工智能(Agentic AI)

尽管大语言模型(LLMs)在文本预测方面表现出色,但它们缺乏支撑人类认知的感知基础[71]。人类通过持续整合感官输入、记忆和行动来构建对世界的理解,这些能力源于直接的、具身的交互(例如,一个孩子通过在空间中移动来学会接住一个球)[59]。相比之下,大语言模型是“无具身”的:它们无法感知环境、无法采取行动,也无法内化因果动态,因此在需要物理推理、常识推断或实时适应的任务上表现困难[72]。

为应对这些局限,一种新的前沿方向应运而生——即“具身架构”(agentic architectures)系统,这类系统被设计用于实现自主规划、记忆管理以及智能体之间的协调[73, 74]。一个典型的例子是基于自然语言的“心智社会”(Natural Language-based Society of Mind, NLSOM)框架[75],该框架提出一种模块化系统,由多个专业化的智能体组成,它们通过自然语言进行通信。这些“神经社会”体现了明斯基(Minsky)最初的构想[76]——将心智视为一组松散耦合的智能体的集合,每个智能体负责不同的认知任务。

通过将智能分布于一个由专业化模块组成的群体中,NLSOM及类似架构克服了传统大语言模型的单一、整体式(monolithic)局限性。它们实现了模块化推理、情景记忆检索和协作式问题解决等认知功能,而这些正是发展通用智能所必需的关键特性[77]。

这些进展标志着人工智能正从静态的、前馈式的预测模型,向动态的、交互式的、认知能力更丰富的系统转变[78]。如图1所示,人工智能的发展历程从符号系统(如图灵测试、ELIZA)演进到神经网络架构(如LeNet-5、深度置信网络、AlexNet),再到强化学习智能体(如DQN、AlphaGo),随后是基于注意力机制的模型(如Transformer、BERT),直至最近的基础模型与涌现模型,例如GPT-4和DeepSeek-R1。现代人工智能与深度学习的详细时间线可参见文献[79, 80]。

近期提出的S1扩展(S1 scaling)[7]挑战了以往将参数量作为AGI发展主要驱动力的传统观念。相反,它主张沿认知维度进行扩展——包括模块化、推理深度、自提示能力以及智能体间的协同[19]。这种结构化的方法标志着从无差别的统计推断向具有架构组织、能够实现灵活且可解释推理的系统转变[8]。总体而言,这些趋势预示着人工智能正朝着开放性、通用性的机器智能方向汇聚发展。

3 理解智能——智能的逻辑基础

理解智能的逻辑与认知基础,对于开发稳健的通用人工智能(AGI)系统至关重要[81]。智能涵盖多种认知能力,包括感知、学习、记忆、推理和适应性。实现AGI需要对这些认知过程及其神经基础有全面的理解[82]。

3.1 大脑功能

如图3所示,人脑是一个高度复杂且尚未被完全理解的器官,是意识、适应性智能和目标导向行为等核心认知功能的基础[83, 84]。尽管其重量仅为1.3至1.5公斤,却消耗了人体近20%的能量,突显出其在代谢和计算上的高强度[85, 86]。从结构上看,大脑被组织成功能上专业化的区域,并以高度整合的层级方式运作[87]。新皮层(neocortex)是哺乳动物进化的标志性结构,支持高阶认知与抽象推理;而皮层下结构则调控情绪和自主神经功能[88]。关键脑区如海马体(hippocampus)负责情景记忆(EM)的编码和空间导航,枕叶皮层(occipital cortex)主管视觉处理,运动皮层(motor cortex)则协调自主运动[87]。这些神经生物学的洞见为旨在复制认知灵活性、具身智能和适应性决策的AGI系统提供了设计原则。

大脑真正的计算能力在于其约860亿个神经元,它们构成了约150万亿个突触连接的密集网络[89, 90, 91]。这一庞大网络支持局部与广泛的信息通信,使大脑成为一个复杂的多尺度网络系统。突触活动包含兴奋性和抑制性信号,维持着对所有认知功能至关重要的动态平衡[92]。这些突触相互作用促成了复杂的行为和思维过程,凸显了理解这些神经网络对于在人工智能系统中复制类似能力的重要性[93]。这一神经计算基础为开发旨在模拟类人智能的AGI系统提供了路线图。

3.1.1 大脑功能及其在人工智能中的研究现状

图3a将主要脑区映射到其对应的人工智能组件,突显了当前研究成熟度的不同层次:研究充分(L1)、中等探索(L2)和探索不足(L3)。这一对比揭示了当前人工智能研究的优势与空白,为推进受脑启发的智能发展提供了路线图[94]。额叶(frontal lobe)负责高级认知功能,如规划与决策[95],在结构化任务(例如AlphaGo)中,AI已表现出较强能力。然而,意识和认知灵活性等特性仍处于初步探索阶段(L3)[96, 97]。相比之下,语言和听觉功能属于L1层次,已被大语言模型(LLMs)较好地建模,其语言处理能力已接近人类水平[94, 98]。

相反,小脑(cerebellum)和边缘系统(limbic system)分别负责精细运动技能和情绪处理[99]。在人工智能中,运动协调通过机器人学和元学习(meta-learning)进行探索[100, 101],但实现类人灵巧性和适应性仍具挑战性(L2–L3)[102]。边缘系统所建模的情绪与动机过程,在AI中仅通过强化学习进行浅层模拟,这凸显了在发展真正情感智能方面的重大差距(L3)[103, 104]。


3.1.2 人类与人工智能中的记忆

记忆是人类和人工智能认知的基石,支持学习、适应与问题解决[105]。在人类中,记忆支撑语言习得、技能掌握和社交互动,是自我意识与决策的核心[106, 107]。同样,在人工智能中,记忆通过支持复杂任务执行、预测和适应性,促进智能行为[108]。这种对应关系凸显了借鉴生物记忆机制对设计更先进、以记忆驱动的AI系统的重要价值。

图3展示了人类记忆的层级分类体系,说明感官输入如何通过编码、巩固和提取过程转化为短期记忆和长期记忆[94]。该框架为AI记忆系统的设计提供了蓝图,其已从静态数据存储[109, 110]演进为更接近人类认知灵活性和情境感知的动态架构。

尽管取得了近期进展,AI记忆系统在情境丰富性和适应性方面仍远不及人类记忆[111]。与人类将记忆与感知、推理和情绪整合不同[112],AI通常依赖固定的算法和参数。实现AGI需要记忆系统不仅能存储信息,还能像人类认知一样对信息进行情境化和概念化处理[113]。借鉴神经科学和认知心理学(如图3中的模型)可为构建能够从经验中学习、适应新情境,并支持情感驱动的终身学习的AI系统提供指导路线[94]。


3.1.3 人类行动系统:AGI的心理与物理基础

人类行动系统——包含心理与物理行动——是智能行为的核心[114, 115]。心理行动包括推理、规划和记忆回忆,而物理行动则涵盖运动、沟通和交互[94](见图3)。心理行动指导内部决策并模拟结果[116, 117],而物理行动则通过现实世界的反馈执行意图并调整行为[118, 72]。这种认知与行动之间的双向循环,为旨在整合感知、规划与自适应执行的AGI系统提供了基础模型。

在AI智能体中,行动系统被设计用于模拟这一认知循环[119]。基于语言的智能体(例如使用LLMs)模拟推理和规划等心理行动[120],而机器人智能体则通过与现实世界交互模拟物理行动[10, 120]。诸如LAMs(大行动模型,Large Action Models)等模型旨在统一这些能力,通过学习数字与物理环境中的行动轨迹来实现[121]。关键的是,正如人类利用工具扩展认知与身体能力,AI智能体也通过集成外部API、机器人系统或软件接口来完成复杂任务[122]。这些由工具中介的行动扩展了智能体的行动空间,模拟了人类的工具使用能力,从而实现更通用的问题解决能力。


3.1.4 世界模型:连接人类与AGI的认知基础

世界模型是智能体内部的表征,使其能够在不完全依赖试错的情况下进行模拟、预测和规划[123]。在人类中,这些心理模型支撑空间导航、规划和反事实推理[124],实现可预测、可适应且可扩展的认知[125]。例如,穿越繁忙街道涉及预测车辆运动、决策时机并动态调整行为——这正是世界模型推理的典型特征。图4以一名足球运动员(AI生成的梅西形象)预测并踢球为例,展示了人类与人工智能共享的认知流程。该场景说明了内部世界模型如何在运动执行前实现轨迹预测。预测过程整合视觉线索与先前经验,并通过感知和记忆不断优化。行动通过类似AI的决策模块选择,反馈则用于更新记忆和内部模型。

该图分为四个概念层次:(1)基础的世界模型类型(隐式、显式、基于模拟器、指令驱动);(2)通过预测、层级结构和反馈实现的动态推理;(3)核心具身能力——感知、记忆与行动;(4)理想化的AGI能力,包括伦理推理和情境适应性。


3.1.5 受大脑功能启发的神经网络

生物神经系统启发了多种能够复制人类认知功能的架构。卷积神经网络(CNNs)和基于注意力的模型模拟视觉皮层,在学习局部与全局模式方面表现出色[126]。循环神经网络(RNNs)反映海马体的时间处理机制,适用于序列数据和记忆任务。脉冲神经网络(SNNs)模仿神经动力学,如突触可塑性和脉冲时序,在时间建模和传感器数据处理方面具有优势。强化学习(RL)模拟前额叶的决策机制,使智能体能够在复杂环境中通过交互和反馈进行学习。

表1总结了人类大脑区域与神经网络架构之间的映射关系,列出了其对应的认知功能、AI类比及应用场景。

3.2 认知过程

认知神经科学利用脑成像技术,如脑电图(Electroencephalography, EEG)、皮层脑电图(Electrocorticography, ECoG)、脑磁图(Magnetoencephalography, MEG)、功能磁共振成像(Functional Magnetic Resonance Imaging, fMRI)和正电子发射断层扫描(Positron Emission Tomography, PET),来研究认知的神经基础[127, 128]。这些技术能够捕捉大脑对刺激的神经活动,揭示出对记忆[129]、学习[130]、语言[131]、认知控制[132]、奖赏处理[133]以及道德推理[134, 135]等认知功能至关重要的脑区间通信模式。此外,理解神经元之间的通信方式,有助于揭示智能的基本机制。认知过程源于大脑多个分布区域之间的动态交互[136]。通过将神经活动与行为联系起来,认知神经科学架起了低级神经回路与高级认知之间的桥梁[137],为开发能够模拟人脑整合性与适应性能力的人工智能系统提供了重要启示[138, 139]。

3.2.1 大脑的网络视角

大脑作为一个复杂的生物网络,协调着感知、情绪和认知功能[140, 141]。神经影像学与网络科学的进步使得研究人员能够绘制出大脑的结构与功能连接图谱——即“连接组”(connectome),揭示其层级化和模块化的组织结构[142, 143]。大脑网络通常分为三类:解剖网络(物理结构基础)、功能网络(统计依赖关系)和有效网络(因果影响)[144]。解剖网络变化较慢,而功能网络和有效网络则具有动态性和情境依赖性[145],为理解认知过程和适应性行为提供了关键洞见。

3.2.2 认知神经科学中的脑网络

研究表明,注意力、记忆、决策等认知功能源于大脑网络之间的动态交互[146, 147, 148]。较高的认知表现与高效的网络特性相关,例如高度的全局整合能力和较短的路径长度[149, 150],而网络整合能力下降则与认知衰退相关[151]。这支持了如下观点:认知能力依赖于大脑网络的结构与功能组织。

3.2.3 脑网络整合与通用人工智能(AGI)

适应性认知源于大脑各模块之间的灵活整合。例如,前顶叶网络(Frontoparietal Network, FPN)能够动态地路由信息,以应对多样化的认知需求[152, 153]。类似地,AGI系统也可能受益于模仿这种模块化整合的架构。一个类似于FPN的中央枢纽,协调多个专业化的AI模块,可实现动态重构和任务特定的泛化能力,而这正是实现人类水平智能的关键。

3.2.4 连接生物系统与人工系统

通用人工智能(AGI)的设计必须将符号推理与神经可塑性相结合。传统符号AI具有逻辑上的精确性,但缺乏灵活性;而神经网络在感知和模式学习方面表现出色,却缺乏可解释性[154]。神经符号混合系统(neuro-symbolic systems)正是为了弥合这一鸿沟而发展起来的[64]。诸如物理信息神经网络(Physics-Informed Neural Networks, PINNs)[155]和柯尔莫哥洛夫-阿诺德网络(Kolmogorov–Arnold Networks, KANs)[156]等创新,展示了将领域知识嵌入学习过程的新型架构,从而提升了模型的泛化能力和鲁棒性。这些方法通过融合逻辑、记忆与适应性,推动了AGI的发展。

4 机器智能的模型

计算智能(Computational Intelligence, CI)涵盖一系列机器学习框架,旨在赋予机器与人类相媲美的认知能力[157]。通过融合生物认知的启发与计算抽象,计算智能整合了联结主义、符号主义以及混合模型,以支持推理、学习、感知和决策——这些正是通用人工智能(AGI)发展的基石。

4.1 学习范式

现代人工智能系统采用多种多样的学习范式,以支持在不同任务和领域间的泛化能力。基础性的学习方式包括监督学习和无监督学习:前者依赖带标签的样本来学习明确的输入-输出映射关系,后者则从无标注数据中发现潜在的结构[158]。半监督学习结合少量标注数据与大量未标注样本,以提升表示的质量。自监督学习方法(包括预训练任务[159]和对比学习)通过优化输入对之间的相似性与差异性关系,来优化特征嵌入。

为进一步提升适应能力,迁移学习使在一个领域中学到的知识能够加速相关任务的学习过程[160];而元学习(meta-learning)和持续学习(continual learning)则支持快速泛化和终身技能获取,同时避免灾难性遗忘[161]。强化学习(Reinforcement Learning, RL)通过让智能体在动态环境中进行试错交互来实现训练[162]。近年来的RL变体,如“学会思考”(Learning to Think, L2T),引入了过程层面、基于信息论的奖励机制,能够在无需任务特定标注的情况下提升样本效率和通用推理能力[163]。

在AGI背景下,少样本学习(few-shot learning)和零样本学习(zero-shot learning)已成为从极少监督中实现泛化的核心能力[164]。多任务学习与多模态学习进一步支持跨领域和跨模态的抽象[165],而课程学习(curriculum learning)则通过逐步增加任务复杂度,模拟人类认知发展的过程[166]。值得注意的是,“捷径学习”(shortcut learning)提供了一种警示视角:模型可能利用虚假线索而非学习真正稳健、可泛化的模式[167]。

4.1.1 表征学习与知识迁移

这些学习范式的核心是表征学习——即模型将原始数据压缩为紧凑且与任务相关的抽象表示的过程。神经网络天然具备这种压缩能力,从而支持在不同任务之间的有效知识迁移。如图5所示,这一过程类似于人脑将感官输入编码为通用的、符号化的概念,而非保留原始感觉数据[168]。近期关于“压缩-语义权衡”(compression–meaning tradeoffs)的研究[169]表明,大语言模型(LLMs)往往倾向于采用有损的统计压缩,而非语义层面的抽象,这对其是否具备真正的理解或泛化能力提出了质疑。这类紧凑且可组合的表示形式,正是构建多功能AGI系统所必需的适应性、规划能力和抽象能力的基础。

4.1.2 知识蒸馏

知识蒸馏是一种模型优化技术,能够将大型“教师模型”的能力迁移至较小的“学生模型”,在保持性能的同时提升效率,这对于可扩展的通用人工智能(AGI)系统至关重要[170]。蒸馏方法可分为基于特征的(对齐内部表征)、基于响应的(匹配输出分布)和基于关系的(保留结构依赖关系)。其变体形式,如自蒸馏(self-distillation)、在线蒸馏(online distillation)和量化蒸馏(quantized distillation),支持在资源受限的AGI环境中进行持续学习和实际部署。

4.2 受生物与物理启发的架构

以下,我们将讨论受生物学和物理学启发的神经网络架构。

脉冲神经网络(Spiking Neural Networks, SNNs)模拟神经元的脉冲动态,特别适用于时间和事件驱动型处理[172]。其生物学合理性支持神经形态计算(neuromorphic computing)以及感觉运动控制。

物理信息神经网络(Physics-Informed Neural Networks, PINNs)将物理定律(例如偏微分方程(PDEs))融入神经网络架构中[155],确保在流体动力学、生物力学等领域中的模型行为与真实世界的物理约束保持一致。

柯尔莫哥洛夫-阿诺德网络(Kolmogorov-Arnold Networks, KANs)

柯尔莫哥洛夫-阿诺德网络(KANs)[156]采用可学习的基于样条(spline-based)的激活函数,而非固定的激活函数,以建模复杂函数,从而将学习的重点从权重转移到激活函数本身。这种方法增强了模型的可解释性和灵活性,但在训练过程中需要谨慎的正则化以确保稳定性。表2和表3总结了SNNs、PINNs与传统神经网络在若干与AGI相关的关键维度上的比较优势,包括时间建模能力、生物学合理性、效率以及应用范围。

4.2.1 符号主义、联结主义与混合系统

符号主义AI[61]在可解释性和基于规则的推理方面表现出色,但在感知任务中缺乏鲁棒性。联结主义模型[173](例如神经网络)能够实现可扩展的模式识别,但可解释性较弱。将二者融合的混合系统[174]结合了结构化推理与感知学习的优势,成为通用人工智能(AGI)架构的有力候选方案。

4.3 智能作为元启发式方法

一般智能可被视为一组动态的元启发式方法和适应性策略,能够持续评估、修订和优化问题解决路径[175]。与固定的启发式方法不同[176],元启发式智能体通过从失败中学习,并在不同领域间调整策略,实现迭代改进。最近的一些通用人工智能(AGI)框架,例如AutoGPT[177]和Voyager[178],通过内部反馈循环、自我提示和思维链推理展示了此类行为。这些系统不仅优化特定任务的表现,同时也优化学习过程本身,从而支持知识迁移、适应性和泛化能力[179]。在此视角下,智能并非一种静态能力,而是一种在启发式方法之上进行的递归式、自我改进的搜索过程。

4.4 可解释人工智能(XAI)

随着人工智能向通用人工智能(AGI)发展,可解释性必须从事后的解释转变为内在的透明性。传统的技术,如显著性图和Grad-CAM,对模型推理过程提供的洞察十分有限[180, 181]。然而,AGI系统需要能够反映人类认知的可解释性,使智能体不仅能够说明结果,还能阐明决策背后的理由[182]。

这就要求通过神经符号推理[183]、因果建模[184]以及受生物启发的机制(如记忆痕迹和注意力路由)在架构层面整合可解释性。此外,针对不同用户情境的多层次解释也至关重要[154, 185]。将元认知和自我解释能力作为核心设计原则嵌入系统,将使可解释人工智能(XAI)从一种事后补充转变为通用智能的基础组成部分。

5深度学习中的泛化

深度学习中的泛化指的是模型将从训练数据中学到的模式扩展到未见过的情境中的能力,这对于通用人工智能(AGI)的发展至关重要[186]。与通常会过拟合特定任务分布的窄域人工智能(narrow AI)不同,AGI系统必须在不同领域和情境中表现出强大的可迁移性[97]。

5.1 AGI中泛化的基础

强大的泛化能力是AGI的基石,使系统能够适应超出其训练数据分布的环境。设P为训练数据的分布,Q为现实世界的数据分布。经验风险Remp衡量的是训练误差,而Rgeneral反映的是预期的现实世界误差。泛化差距Remp − Rgeneral描述了模型在新环境中外推能力的强弱。一个强大且稳健的AGI系统应具有更小的泛化差距。

理论框架已从以下几个不同角度阐明了泛化的机制:

信息瓶颈(Information Bottleneck, IB)理论提出,模型通过将输入压缩为紧凑的潜在表示来实现泛化,这些表示仅保留与任务相关的信息,同时丢弃无关或虚假的信号[187]。这种压缩原则在保留预测能力与限制不必要的输入信息之间提供了一种权衡,从而约束了模型的复杂性。Shwartz-Ziv和Tishby[188]是最早通过实证和理论提出深度神经网络在学习过程中逐步压缩表示,并将其与泛化能力提升联系起来的研究者。他们与Painsky的后续工作[189]进一步提供了理论支持,并提出了一个以样本复杂度为导向的界限,将信息压缩与泛化能力联系起来。基于这些思想,Kawaguchi等人[186]后来发展了严格的统计学习界限,将该原则形式化应用于现代深度网络架构。最近,Shwartz-Ziv和LeCun[190]将信息瓶颈理论扩展至自监督学习范式,提出压缩不仅有助于监督式泛化,而且在无标签的表示学习中也发挥着关键作用。这一系列研究表明,信息瓶颈不仅在认知和生物学上具有合理性,而且有坚实的数学和实证依据。

最小描述长度(Minimum Description Length, MDL)原则基于这样的思想:能够最好地压缩数据的最简单解释或模型,其泛化性能也更好[191]。MDL认为,能够更好压缩数据的简单模型更不容易过拟合,因此泛化效果更佳。

隐式正则化(Implicit Regularization)通常与随机梯度下降(SGD)相关,它指出优化方法会自然地使模型偏向于损失函数景观中的平坦极小值,这种现象源于损失函数的几何结构,有助于解释为何即使没有显式正则化,模型仍能实现良好泛化[192]。

神经正切核(Neural Tangent Kernel, NTK)与双重下降(Double Descent)理论共同为过参数化神经网络中的泛化提供了现代理解。NTK表明,当网络宽度趋近于无穷大时,训练动态变得线性且可预测,行为类似于核回归,尽管模型规模很大,但仍常能获得泛化良好的解[193]。双重下降理论则补充指出,增加模型容量最初会在插值阈值附近导致过拟合,但进一步扩大模型规模后,测试误差会出现第二次下降,泛化性能反而提升[194]。

PAC-贝叶斯界限(PAC-Bayes Bounds)结合了贝叶斯推断与“可能近似正确”(Probably Approximately Correct, PAC)学习理论的元素[195]。它们基于假设与先验分布之间的差异(通常通过KL散度衡量)来界定泛化误差。

因果表示学习(Causal Representation Learning)强调学习能够捕捉数据因果结构的表示,而不仅仅是统计相关性[196]。它利用因果推断工具(如结构方程模型和do-演算)来提取在干预下保持不变的特征。

变分Dropout(Variational Dropout)是一种贝叶斯正则化方法,将Dropout解释为近似的变分推断[197]。它通过可学习的分布向模型权重中注入噪声,通常导致稀疏性和鲁棒性。与固定Dropout率不同,变分Dropout在训练过程中自适应地调整噪声水平,从而在不确定或噪声环境中提升泛化能力。

简单性偏好(Simplicity Bias)指的是一个经验观察现象:深度网络在使用梯度下降进行训练时,倾向于先学习简单的函数,再学习复杂的函数[198]。这种偏好源于参数与函数之间映射的隐式特性以及神经网络训练的动力学过程。因此,模型更有可能收敛到复杂度较低的函数,而这类函数通常具有更好的泛化能力。

5.2架构和算法归纳偏差

嵌入在模型架构和学习算法中的归纳偏置(inductive biases)在通用人工智能(AGI)系统的设计中处于核心地位,它们指导着系统如何学习、泛化和推理。例如,线性模型具有良好的可解释性,但在捕捉非线性模式方面存在局限[171]。多层感知机(MLPs)支持分层表示,但缺乏空间或时间先验[199]。卷积神经网络(CNNs)引入了局部空间偏置和平移不变性,非常适合视觉任务;而循环神经网络(RNNs)能够建模序列数据,但在处理长距离依赖方面存在困难[200]。Transformer模型[201]通过全局注意力机制在长距离建模方面表现出色,是现代大语言模型(如GPT)的基础[202],但缺乏有根基的抽象能力。状态空间模型(如Mamba)提供隐式的循环结构和动态记忆[203],提升了时间序列上的可扩展性。图神经网络(GNNs)为图结构任务编码了关系先验[204],生成对抗网络(GANs)[205]支持强大的生成建模能力,但存在稳定性方面的权衡。

5.2.1 学习算法中的偏置

学习算法的偏置也起着至关重要的作用。诸如随机梯度下降(SGD)之类的优化方法倾向于收敛到平坦极小值,从而具有更好的泛化性能[206],而自适应优化器(如Adam)虽然收敛更快,但容易偏向更尖锐的解[207]。损失函数引入了任务特定的先验:分类任务使用交叉熵损失,关系任务使用对比损失,对抗性损失或强化学习损失则用于提升生成真实性和支持长期规划[208]。元学习和结构化损失函数有助于促进任务间的组合性和泛化能力,这些是AGI所必需的关键特性。一个统一的AGI架构可能需要整合这些多样的归纳结构,以实现在不同模态和任务中的抽象能力、组合性和自适应推理。

5.2.2 增强归纳偏置的技术

AGI系统不仅需要在任务间实现泛化,还需在数据分布、时间以及具身(embodiment)维度上实现泛化。增强这一能力的技术包括:不确定性估计,通过考虑认知不确定性(epistemic)和随机不确定性(aleatoric)来提高系统可靠性[209](将在第X节进一步讨论);自适应正则化,用于缓解持续学习中的灾难性遗忘问题[210]。

5.3 部署过程中的泛化

测试时自适应(Test-Time Adaptation, TTA)指的是一类技术,使机器学习模型能够在推理阶段动态调整其预测,旨在提高对部署过程中遇到的分布偏移或领域变化的鲁棒性[211]。TTA包含两大主要范式:基于优化的TTA和无需训练的TTA。

基于优化的TTA在测试阶段通过梯度下降等方式更新部分模型参数,通常使用从测试数据本身导出的无监督或自监督目标函数,例如测试时训练(Test-Time Training, TTT)[212]和测试时提示调优(Test-Time Prompt Tuning, TPT)[213]。

无需训练的TTA(Training-free TTA)在测试阶段不进行任何显式的参数更新或基于梯度的优化,而是通过重新校准或修改模型的推理过程来提升模型适应能力,例如无需训练的动态适配器(Training-free Dynamic Adapter, TDA)[214]和双记忆网络(Dual Memory Network, DMN)[215]。

检索增强生成(Retrieval-Augmented Generation, RAG)通过在推理过程中引入从大型外部数据库、文档语料库或知识库中检索到的信息,来增强模型的预测能力[216, 217]。RAG不完全依赖模型的参数化记忆,而是针对查询或输入检索相关文档或事实,并让模型的输出同时依赖原始输入和检索到的证据。RAG可以提高事实准确性并减少幻觉现象,且无需额外的模型再训练,但其挑战包括高效检索、处理噪声证据以及推理过程中的延迟问题。

5.4 迈向现实世界中的适应能力

具身智能(Embodied Intelligence)为了实现现实世界中的适应能力,通用人工智能(AGI)系统必须弥合抽象推理与物理交互之间的鸿沟。这需要整合感知、规划与控制能力,以在动态环境中实现灵活的行为。诸如模仿学习和零样本规划等技术,在使机器人和具身智能体能够将所学知识泛化到新任务和新情境方面发挥着关键作用,从而提升机器人应用中的适应性和自主性[218]。

因果推理(Causal Reasoning)强大的适应能力要求能够区分因果关系与单纯的统计相关性,这一挑战可通过Pearl和Bengio开创的因果推断框架加以解决[184]。因果推理使AGI能够识别并建模潜在的机制,支持在分布偏移下的有效泛化,并在复杂且不确定的环境中实现可靠的干预。

鲁棒性与对齐(Robustness and Alignment)AGI必须对难以预测但可能造成灾难性后果的罕见高影响事件(即“黑天鹅”事件)具有韧性。确保鲁棒性需要具备安全探索的能力、对未预见情境的快速适应能力,以及对新兴风险的持续监控。同时,对齐机制至关重要,以确保AGI系统即使在面对全新且模糊的情境时,也能始终按照人类的价值观和意图行事[219]。

6 用于通用人工智能的强化学习与对齐

“衡量智能的标准是改变的能力。”(阿尔伯特·爱因斯坦)这一洞见揭示了静态神经网络的一个局限性:真正的智能必须具备适应能力。强化学习(Reinforcement Learning, RL)使智能体能够通过与环境交互并借助反馈进行适应和学习,恰恰体现了这一本质[220, 221]。与依赖固定数据集的监督学习不同,强化学习在非平稳、不确定的环境中表现出色,使其成为实现通用人工智能(AGI)的自然候选方案[222]。

6.1 强化学习:认知基础

尽管强化学习(RL)为实现适应性智能提供了一条有前景的路径,但其直接应用于通用人工智能(AGI)仍面临若干局限,包括样本效率低下、在高维空间中可扩展性有限,以及对奖励函数设定错误的脆弱性[222, 33]。为应对这些问题,研究者已开发出多种算法策略。

基于模型的强化学习(Model-based RL)通过引入对环境动态的预测能力,降低样本复杂度[221];而分层强化学习(Hierarchical RL)将任务分解为可重用的子任务,从而实现更高效的探索与规划[162]。在这些进展的基础上,受大语言模型(LLMs)启发的认知推理方法显著扩展了强化学习的表达能力。

近期方法如思维链(Chain-of-Thought, CoT)[20]、思维树(Tree-of-Thought, ToT)[21]和推理-行动(Reasoning-Acting, ReAct)[18],将结构化的、深思熟虑的推理过程嵌入到强化学习流程中。

  • CoT 实现了透明的多步推理;
  • ToT 通过探索多种解题路径来改进策略选择;
  • ReAct 将推理与环境交互相结合,减少错误并增强适应性。

这些方法缓解了短期偏差和探索效率低下的问题,使强化学习智能体更贴近通用智能的需求[48]。

一些整合性框架体现了强化学习与大语言模型推理的融合趋势:• MetaGPT [223]:协调多个大语言模型智能体承担专门角色,促进结构化任务分解和协作式问题求解。• SwarmGPT [224]:结合大语言模型的规划能力与多智能体强化学习,实现在机器人集群等系统中的实时协同。• AutoGPT [177]:通过内部强化学习循环,展示出自主目标分解、迭代自我修正和持续自我改进的能力。

支撑这些框架的优化策略包括:• 近端策略优化(Proximal Policy Optimization, PPO) [51]:在策略性能与训练稳定性之间取得平衡。• 直接偏好优化(Direct Preference Optimization, DPO) [52]:直接利用人类偏好数据进行训练,简化对齐过程。• 群体相对策略优化(Group Relative Policy Optimization, GRPO) [53]:通过比较多个生成的推理轨迹来优化推理质量。

6.2 人类反馈与对齐

基于人类反馈的强化学习(Reinforcement Learning with Human Feedback, RLHF)[225]通过将人类判断纳入奖励机制,解决AGI的对齐问题,从而提升系统安全性并减少有害输出[226, 227]。RLHF是InstructGPT和ChatGPT等系统的核心技术,但在反馈规模化和偏见缓解方面仍存在挑战。

6.2.1 对齐技术与监督

人在回路训练(Human-in-the-loop training)、价值学习(value learning)和逆强化学习(inverse reinforcement learning)等方法,增强了AGI与人类价值观的一致性[228]。

  • 在线监督支持实时适应[229];
  • 离线监督则可在无需持续人工干预的情况下实现策略的反思性优化[230, 231, 232]。

此外,机器遗忘(machine unlearning)[233]作为一种新兴的纠正工具,可用于消除视觉-语言模型中的虚假关联、幻觉或偏见性表征,从而构建更安全、更可解释的系统[234]。

6.2.2 通用人工智能的伦理问题

随着AGI系统日益具备自主性和能力,确保公平性、透明性、信任和隐私不再仅仅是技术需求,更成为社会层面的紧迫议题[235, 5, 165]。这些原则构成了安全部署AGI的伦理基石,保护个人和群体免受监控、排斥或算法操控等不均衡伤害。为应对这些挑战,治理框架必须建立在人权和国际规范的基础之上[236, 237]。

这些框架必须超越技术性防护措施,纳入参与式设计、纠错机制和跨学科监督。若缺乏此类结构,AGI可能加剧现有不平等、集中权力,并在关键决策中变得不可问责。

6.2.3 未来展望

未来的对齐策略必须整合来自人工智能、伦理学、心理学和法学等多学科的见解[238, 25]。如图8(a)所示,AGI的准备程度依赖于认知、接口、系统和对齐四个维度。图8(b)显示了专家的不确定性:37%的专家预计AGI的实现将在二十年或更久之后[26]。跨文化建模、稳健评估和国际协调将在未来发挥关键作用。

7 通用人工智能的能力、对齐与社会融合

通用人工智能(AGI)旨在复制人类核心的认知能力——推理、学习、记忆、感知和情感——以实现跨领域的自主运行[26]。除了技术能力之外,安全部署还需要与伦理原则和社会价值观保持一致。本节综合了塑造AGI负责任地融入社会的认知基础、心理学洞见以及治理框架[239]。

7.1 核心认知功能

7.1.1 推理 AGI系统必须具备演绎、归纳和溯因推理能力,以解决新颖问题[240, 35]。深度推理支持假设检验、规划以及反事实推断[241]。诸如思维链(chain-of-thought)和神经符号系统等模型,将符号逻辑与神经网络学习相结合,实现更具可解释性和适应性的推理[242, 243, 244]。

7.1.2 学习 AGI整合了监督学习、无监督学习、符号学习、强化学习和深度学习等多种范式[245, 246]。这些方法支持知识的泛化和持续优化。强化学习支持在动态环境中通过交互进行学习[247],而深度学习则能够跨模态提取抽象特征[248]。

7.1.3 思维 思维指的是抽象、策略形成和决策过程。认知架构与神经网络可模拟高层级的思维活动[249]。神经符号系统将形式逻辑与可适应的模型相结合[250],从而在复杂的推理任务中提升可靠性[251]。

7.1.4 记忆

记忆支持情境感知和学习的连续性。短期记忆有助于处理即时任务;长期记忆则编码累积的知识[78, 252]。参数化记忆与外部记忆系统支持快速检索和灵活更新[71]。

7.1.5 感知

AGI的感知涉及多模态感官信息的解释。卷积神经网络(CNNs)和Transformer模型用于处理视觉和听觉信号[253]。多模态模型(如Perceiver和Flamingo)的进展提升了AGI解释异构输入的能力[254]。

7.2 以人为中心的基础:AGI设计中的心理学与安全性

AGI的安全部署不仅需要技术上的创新,更需要基于对人类认知的真实理解所构建的系统架构[33]。认知心理学揭示了注意力、记忆巩固、情绪调节和因果推理等机制[255, 256],这些机制为AGI的设计和行为建模提供了指导。诸如渐进式学习和心智理论(theory of mind)等概念[257, 258],为开发具备适应性且能与社会协调的智能体提供了蓝图。然而,简单地套用心理学概念可能引入拟人化偏见或有缺陷的启发式方法[259]。一个以人为中心的AGI必须建立在实证基础之上,具备跨文化意识,并对规范差异保持敏感[260]。

安全问题与这些以人为中心的基础紧密相关。AGI的开放性泛化能力加剧了出现非预期行为的风险[261]。关键维度包括:技术鲁棒性(对对抗性输入的抗性)、目标设定的正确性(目标对齐),以及人类控制能力(可纠正性、可干预性)[262]。在可扩展监督[263]、奖励建模[264]和不确定性校准[265]方面的研究,旨在系统性地缓解这些脆弱性。

最终,AGI系统不仅需要学习、规划和推理,还应具备反思能力、懂得退让,并在必要时主动寻求帮助[260]。嵌入可解释性、人在回路中的安全机制,以及NSFW(不适宜工作场合)内容过滤器[266],对于维护公众信任至关重要。构建智能、安全且对齐的AGI,其起点在于理解它所要增强的人类心智,而非取代它。表4列出了主要的评估基准、受生物启发的系统映射,以及新兴的治理框架[154]。

7.3 社会融合与全球框架

AGI从实验室走向社会的过渡,引发了关于公平性、人类能动性以及民主监督的紧迫问题,如算法3所示。

工作与自主性:人工智能不仅正在变革体力劳动,也日益渗透到认知、技术与情感领域。近期研究表明,在教育环境中长期使用大语言模型(LLM)会导致明显的“认知债务”,表现为神经活动减少、记忆回忆能力下降以及作者意识弱化[267]。

随着智能体开始介入职业与个人生活的日常,这些变化引发了关于身份认同、公平性以及工作结构的深刻问题[238]。世界经济论坛估计,高达87%的数据驱动型任务可能被AGI自动化[268],而领先的AI开发者指出,目前最先进的模型已能够胜任大多数白领岗位。

这些趋势凸显了设计包容性系统、并主动重构劳动、教育和福利基础设施的紧迫性,以确保实现公平的转型。

公众信任:公众情绪在希望与担忧之间摇摆。尽管AGI增强的医疗和教育带来了希望,但人们对监控和失业的担忧要求透明的监督、公众参与的开发过程,以及由社区驱动的评估机制[269]。

政策基础设施:多个治理框架正在逐步汇聚,以指导AGI的部署。

  • 美国国家标准与技术研究院(NIST)的AI风险管理框架(AI RMF)[270]通过可解释性和风险缓解促进系统的可信性;
  • 欧盟《人工智能法案》(EU AI Act)在高风险领域实施分级合规要求;
  • 联合国教科文组织(UNESCO)和经合组织(OECD)倡导以包容性、安全性和问责制为核心的全球伦理标准[271]。

人人可用、人人参与的AI:随着AGI系统变得愈发强大,其开发必须反映多元社会的需求与价值观[272]。“人人可用、人人参与的AI”这一原则强调了参与式设计、公平获取AI资源,以及跨学科、跨地域的共治的重要性。开源模型、社区审计和文化适配的数据集对于实现AGI的民主化、避免加剧权力不对称至关重要。

建设性案例:负责任融合的早期迹象包括AI导师、数字心理健康助手以及科学协同推理系统[273]。这些应用展示了AGI提升专业能力的潜力,但也凸显了在决策流程中建立问责机制的必要性。

迈向协同设计的未来:为了确保通用人工智能(AGI)促进人类福祉,必须与伦理学家、法律学者及公众共同开发。通过跨学科治理、包容性规范和透明验证,将AGI嵌入社会技术生态系统[274],对于构建不仅智能而且富有智慧的系统至关重要[275]。

7.4 大语言模型、视觉-语言模型与智能体式人工智能

大语言模型(LLM)、视觉-语言模型(VLM)以及智能体式人工智能(Agentic AI)在迈向通用人工智能(AGI)系统的进程中发挥着根本性作用。大语言模型具备自然语言理解能力,而视觉-语言模型能够融合视觉与文本信息,二者共同支持开发自主、适应性强且具备情境感知能力的AI智能体,这些智能体将成为推动AGI发展的核心动力。在此背景下,本节首先讨论当前可用的一些重要AI框架和模型,随后探讨VLM与智能体式AI作为通往AGI路径的意义。其中,实现此类智能体行为的一项关键技术是“思维树”(Tree-of-Thought)推理框架,该框架赋予模型探索、评估和修订多条推理路径的能力。这种结构化决策方法的通用流程如算法3所示。

7.4.1 视觉-语言模型与智能体式人工智能:未来AGI框架的支柱

视觉-语言模型(VLMs)通过整合视觉感知与语言理解,代表了人工智能领域的一项关键进展,支持诸如图像描述生成、视觉问答和多模态推理等任务[294, 295]。早期研究根植于计算机视觉(例如目标检测[296])和自然语言处理(NLP)(例如机器翻译),但初始方法受限于单一模态的处理方式[297]。Pascal VOC和Flickr30k等配对数据集的创建[298, 299]使得模型能够学习图像与文本之间的关联,从而催生了早期的VLM。这些模型采用CNN-RNN流水线进行图像描述和视觉问答,但往往缺乏深层语义理解[294]。

随着Transformer架构的出现[201],一场范式转变发生:通过自注意力机制统一了自然语言处理与视觉任务。这使得BERT[300]和ViT[301]等模型在多模态理解方面取得显著进展,构成了当代VLM的基础,并被广泛应用于机器人、医学和辅助技术等领域[302]。

表4(B部分)展示了一条将受大脑启发的原理通过VLM通向AGI发展的路线图。关键的大脑功能,如新皮层推理和海马体空间记忆[282, 283],在基于Transformer的架构中得以体现——这些架构采用认知模块化和注意力机制[284],为神经符号规划[61]和医学诊断中的认知数字孪生[303]铺平道路。大脑的记忆层级结构——从感觉编码过渡到长期存储[285]——在VLM中通过上下文嵌入和动态提示扩展[286]得以实现,支持终身学习和自适应辅导系统。在行动系统方面,心智与身体过程的整合[287]通过多智能体VLM和“视觉-行动”闭环[94, 304]得以模拟。最后,世界模型——用于预测与规划的紧凑内部表征[288, 289]——通过多模态嵌入和基于模拟器的架构实现,支持面向家庭和太空任务的前瞻性智能体[94]。这些组件共同表明,受大脑启发的VLM如何通过整合具身推理、分层记忆和目标导向行为来推动AGI的发展。

Transformer的采用使VLM能够使用统一的自注意力架构处理图像和文本,显著增强了多模态融合能力[305]。对比学习方法(如CLIP和ALIGN)将图像-文本对对齐到共享的嵌入空间,形成鲁棒的通用表征[166, 306]。随着Flamingo、PaLI和LLaVA等模型的扩展,少样本学习、多模态对话以及在多样化任务上的最先进性能得以实现[307, 308, 12]。

图6(a)展示了自2022年底ChatGPT发布以来VLM的历时演进。这些模型在规模、多模态理解能力和跨领域泛化方面迅速进步[309]。当前最先进的VLM支持广泛的能力,包括视觉问答、图像描述生成、视觉推理和图文对齐。在应用领域,它们已被用于机器人指令执行、自主导航以及辅助对话系统。

VLM的一项关键优势在于其将感知转化为语义丰富表征的能力,从而支持下游的推理与决策。然而,尽管取得了这些进展,仅靠VLM本身仍无法满足AGI的要求。它们在感知与解释方面表现出色,但缺乏结构化的自主性、持久记忆以及自适应的目标管理能力。要真正实现从感知到智能行动的转变,VLM必须嵌入更广泛的智能体式人工智能(Agentic AI)架构中,在该架构中,决策、协调和学习通过分层的认知过程展开。

图6(b)展示了这种互补性架构。在智能体式人工智能的核心,是一个模块化框架:VLM作为感知接口,负责检测物体、解释环境,并将信息传递给认知推理层。随后是目标设定、规划以及数据存储与检索模块,这些模块确保任务间的上下文连贯性。智能体随后利用学习模块进行持续适应,借助情景记忆和语义记忆来指导未来行为[73, 77]。通过协作与通信模块,智能体在多智能体系统(MAS)中互动,实现分布式问题求解与集体智能[74]。决策层整合上游模块的洞察,而执行层则与外部执行器或API接口,执行具体命令。这种分层系统确保了智能体的行为不仅是反应式的,更是具备情境感知、目标驱动和自我优化能力——这正是AGI的标志性特征。

随着这些系统不断成熟,智能体式人工智能将在科学发现、医疗健康和自适应机器人等领域实现长期自主性。通过将VLM用于感知,结合智能体架构进行推理与执行,我们正逐步迈向不仅能感知和描述世界,更能以目的性、适应性和与人类价值观对齐的方式在其中行动的AGI系统。

此外,AGI的未来不仅取决于模型规模或参数数量的增长,更依赖于具备自主性、记忆、工具使用和决策能力的智能体式AI系统的出现,这些能力映射了人类认知的核心方面[77]。与仅对提示做出响应的静态模型不同,智能体式AI系统能够行动、规划、反思并随时间持续适应[310, 77]。多个有前景的框架体现了这一范式转变:

  • AutoGPT [177]:利用“规划-反思”循环协调顺序的工具调用;
  • BabyAGI:实现基于向量记忆库的任务优先级排序循环;
  • CAMEL:(大规模语言模型心智探索的沟通型智能体)[311]:支持多个智能体通过自然语言对话进行协调;
  • ReAct[18]:通过中间推理轨迹融合推理与行动;
  • OpenAGI [312]:整合目标导向决策、工具使用与记忆检索。

这些系统均展示了AGI的关键属性,包括上下文持久性、智能体协作以及基于反馈的学习。当与LLaVA[12]、Flamingo[307]或Kosmos-2[313]等VLM结合时,这些智能体获得了在真实环境中的感知基础,从而实现更适应性强、具身化的智能形态。

VLM使智能体能够以类人方式解释图像、文本和视频等多模态数据,并对这些信息进行推理[304]。例如,一个具备VLM能力的具身智能体可以感知环境、规划行动并通过交互学习,模拟人类将感知与动作联系起来的过程。这种融合已在机器人、医疗辅助智能体和多智能体研究系统中初现端倪。

然而,一个关键瓶颈仍然存在:当前大多数智能体系统依赖人类设计的任务、外部定义的奖励信号或精细调优的监督,限制了其长期自主性和适应性。要实现AGI,这些智能体必须超越“工具使用者”的角色,成为具有自我驱动力的学习者,能够自主生成、测试并优化自身的推理过程。正是在这一点上,“绝对零”(Absolute Zero, AZ)范式带来了变革性的转变。

AZR(Absolute Zero Reasoning)提出了一种自我演化的智能体AI范式,通过代码执行引擎自主生成、解决并验证自身的推理问题,从而摆脱对人类标注任务的依赖[290]。基于“可验证奖励的强化学习”(Reinforcement Learning with Verifiable Rewards, RLVR)[314],AZR支持无需外部监督的结果导向、自我验证式学习。其元认知课程设计使其能够通过识别并弥补自身推理缺陷,持续精进技能。AZR具有模型无关性和可扩展性,可灵活集成到多智能体研究助手或自主机器人等更大的智能体生态系统中。实证表明,其在数学与代码推理基准测试中达到最先进水平,超越了传统的零样本模型。通过使AI系统依靠内省反馈而非人工整理数据进行自我提升,AZR推动AGI向反思性、自我导向的学习迈进,使人工智能更接近类人、自适应且开放式的智能形态。

综上所述,未来的AGI很可能呈现为一种自我改进、多模态的系统,能够在多样且开放的环境中实现自主推理、自适应学习和目标导向行为,通过整合智能体式AI、结构化记忆与世界模型,模拟类人的认知能力。

8 最新进展与基准数据集

通用人工智能(AGI)的探索最近进入了一个新阶段,其特征是日益通用、自主且具备多种能力的系统不断涌现[315]。本节重点介绍若干最具代表性的概念框架与方法,这些方法体现了当前AGI设计的最新趋势——以新颖方式融合规划、推理、记忆和环境交互。随后讨论对AGI发展至关重要的数据问题。

8.1 超越大语言模型的进展

如图8所示,通往AGI的进程需要克服当前大语言模型(LLMs)固有的局限性,这些模型主要依赖自回归的“下一个词元(token)”预测。尽管这种方法促进了多任务学习[316, 317],但可能无法充分捕捉复杂的人类认知过程,如直觉和伦理推理[98, 318]。图1展示了自20世纪50年代以来人工智能的演进历程,突出了AI系统在多个领域达到或超越人类水平的关键里程碑。这一历史轨迹凸显了AI发展的加速趋势,表明未来的技术进步可能继续超越人类能力。

对“缩放定律”(scaling laws)[319]的依赖表明,尽管增加模型规模和训练数据能够提升性能,但这种方法正面临收益递减的问题[14]。持续缩放需要指数级增长的计算资源,却只能获得边际收益,而人类的基本能力(如创造力和道德推理)可能无法仅通过缩放得到充分体现。这一局限性凸显了探索更高级学习机制和架构创新的必要性,以应对智能中的伦理与直觉维度。

8.1.1 AI智能体通信协议

随着领域向AGI迈进,自主AI智能体之间稳健且可互操作的通信已成为关键推动因素。近年来出现了一些基础性的智能体通信协议,包括模型上下文协议(Model Context Protocol, MCP)(来源链接)、智能体通信协议(Agent Communication Protocol, ACP)(来源链接)、智能体对智能体协议(Agent2Agent Protocol, A2A)(来源链接)以及智能体网络协议(Agent Network Protocol, ANP)(来源链接)。这些协议代表了可扩展、可组合、协作式智能体生态系统发展中的关键里程碑。

MCP最初为以大语言模型为中心的系统(如OpenAI的Assistants API)设计,通过安全、类型化的JSON-RPC接口标准化模型如何接收外部工具和上下文[320]。这增强了推理过程中的上下文感知能力,并支持模块化工具挂载,是实现可泛化智能的基石。ACP进一步推进了这一方向,支持异构智能体之间基于REST、会话感知的消息传递,采用结构化的MIME类型载荷,促进可靠的多模态协调。A2A引入了一种点对点框架,智能体通过动态的“智能体卡片”(Agent Cards)发布自身能力,并通过结构化文档协商任务分配(来源链接)。这支持跨框架和跨厂商的智能体之间细粒度协作,促进智能体的自主性与专业化。同样,ANP通过去中心化、互联网规模的发现与协作机制进一步拓展边界,使用DID(去中心化身份)认证的智能体和语义网标准(JSON-LD, Schema.org),为具备开放信任和运行时协商能力的联邦式智能体网络奠定基础。

这些协议共同定义了一个分层的通信、身份与任务管理基础设施。它们共同支持“智能体社会”的出现,这类社会具备分布式推理、自适应协调和持久记忆等能力[74, 321, 322],正是AGI系统的典型特征。它们的演进标志着从孤立、单一的智能体向可扩展、可互操作的智能实体网络转变,这些实体在共享上下文和共同目标下协同运行。

8.1.2 大概念模型(Large Concept Models, LCMs)

随着AI技术向AGI迈进,基于词元级别的处理所面临的底层瓶颈日益凸显,推动了在更高语义抽象层级上运行的架构发展[323]。大概念模型(LCMs)是从词元级语言预测模型向概念级推理型语言预测模型的一次飞跃(见图7),使机器能够以类人方式理解和处理语言,符合人类分层认知过程。

LCM被设计为在显式的高层语义表征——即“概念”之上运行。这些“概念”是与语言和模态无关的抽象,以结构化流程表示思想或行为。与在词元级别处理文本的LLM不同,LCM预测的是下一个“概念”而非下一个“词元”,每个概念都是一个句子级别的语义表征。这种架构创新得益于SONAR嵌入空间[324]——一种多语言、多模态的固定大小句子嵌入框架,支持200多种语言的文本和76种语言的语音,并通过其复杂的编码器-解码器模型支持概念级推理。

LCM是实现AGI的关键构建模块,它使AI系统能够以“概念”而非单个词语为基础进行工作,从而实现深层的上下文理解以及更连贯的长文本生成。LCM的发展标志着从基于词元的语言建模向基于语义的语言建模的根本范式转变,更接近人类认知过程,避免了模态竞争带来的限制[325]。

8.1.3 大推理模型(Large Reasoning Models, LRMs)

大推理模型(LRMs)代表了从传统语言模型的转变,转向专注于显式、多步骤认知过程的系统,而非单次生成响应[20]。这种方法源于人类解决问题的行为:复杂问题通过一系列推理步骤逐步分析,每一步都基于前一步的结论。延长推理时间的计算是LRMs的核心,即训练模型以结构化方式“思考”问题,而非仅仅依赖训练数据中的模式匹配[326]。这些系统采用思维链推理、自我反思和迭代优化等技术,生成更准确、更具逻辑性的输出[53]。

这种受控的计算方法使模型能够执行高级的数学、逻辑和分析操作,其能力远超即使最大规模的自回归语言模型。LRM范式改变了模型规模、计算复杂度与性能之间的典型权衡关系,表明计算资源可以更有效地用于推理阶段而非训练阶段[327]。与典型架构在单次前向传播中学习响应不同,LRMs执行长时间的推理过程,有时需要多次迭代、自我纠正和事实核查。这模拟了人类认知:面对难题时,需要注意力、工作记忆和系统性地探索可能的解决路径,才能得出非直觉的结论。

LRMs以推理为中心的设计,反映了人类在分析性思维中结构化的推理方式:通过努力分解问题、生成假设和审查证据来应对复杂任务。这种系统性的问题处理方式,是开发更稳健、可解释的AI系统的关键,这类系统基于对数据的真正理解,而非仅仅识别数据中出现的模式。

8.1.4 专家混合模型(Mixture of Experts, MoE)

专家混合模型(MoE)摒弃了单一的神经网络架构,将模型视为由多个专用子网络组成的集合,这些子网络根据输入被选择性地激活[328]。这一理念基于大脑模块化架构的生物学类比——大脑某些区域专门处理特定类型的信息[329]。MoE的核心是多个“专家”网络,每个网络负责处理整体任务的一部分,以及一个“门控”网络,动态决定将输入发送给哪些专家[330]。这种条件计算机制使得在不线性增加计算成本的情况下,实现更高的模型能力。门控机制通过学习将计算分配给不同专家,使得每个输入仅激活一小部分参数[331]。这与传统密集神经网络形成对比:在后者中,所有参数都必须参与每个样本的处理,导致模型增大时计算成本急剧上升[332]。

MoE范式提倡一种专业化且协调的智能架构,类似于人类大脑:由多个功能专精的物理区域组成,但能无缝整合以解决复杂任务。人们普遍认为,这种模块化与专业化对于人类智能的效率、适应性和可塑性至关重要。

8.1.5 智能体神经社会(Neural Society of Agents)

另一种实现去中心化决策与预测的方法是“智能体神经社会”。该方法不依赖单一的、包罗万象的模型,而是提出一种多智能体AI模型,其中不同智能体具备不同的专长,并通过共享智能协作解决复杂问题[333]。这类似于自然界中的系统,例如单个细胞或生物体协同工作以实现整体目标[328]。该方法还支持分布式的问题分解与任务分配,因为能力分布在各个智能体之间,从而实现并行化实施并提升效率。此外,智能体之间的交互可能催生出超越任何单个智能体的集体智能,正如在社会性昆虫群体(如蚁群、蜂群)中所观察到的现象[334]。

为实现上述功能,智能体神经社会需要在多个领域开展研究,包括多智能体强化学习、通信协议优化、协调机制设计以及对涌现行为的管理[335]。

构建智能体神经社会代表了一种极具前景的AGI路径,因为它反映了人类智能的分布式与协作性本质。人类认知并非单一结构,而是多个认知模块和大脑区域复杂交互的结果。通过构建能够协作、共享发现并相互学习的人工智能体群体,我们或许能够复制人类智能中最强大的一些特性,最终实现更通用、适应性更强、更灵活的AGI系统。

8.2 基准数据集的重要性

基准数据集一直是人工智能进步的基石,它们使公平比较和评估标准化成为可能,例如用于视觉的ImageNet[336],以及用于语言的GLUE、HELM和ALM-Bench[337, 338, 339]。然而,当前的基准测试通常仅评估狭窄的能力,在测试泛化能力、长周期规划或社会认知推理等AGI关键能力方面存在不足。为了对AGI系统进行有意义的评估,我们需要下一代基准测试,这些测试应整合多模态输入、现实世界约束、伦理推理以及交互式环境。ARC[277]和BIG-Bench[276]等项目正朝着这一方向发展,但更广泛、更动态的基准测试仍然缺乏。表4总结了当前用于评估AGI相关能力(如推理、具身性和语言交互)的主要基准测试。

8.3 合成数据在AGI中的作用

合成数据已成为扩展和泛化AI系统的关键组成部分,它提供了可控的多样性、无限的数据增强能力,以及对高风险或罕见场景的安全模拟[43]。程序化生成的环境(如BabyAI和MineDojo)[278]使智能体能够在高度可定制的任务中进行训练;而AlphaZero和Voyager所体现的自我对弈和涌现式课程,则实现了无需显式监督的自主技能获取[340]。

此外,大语言模型(LLMs)如今已常规用于生成合成的“指令-响应”数据集,从而加速预训练和微调流程。然而,合成数据的滥用可能导致系统性偏见、事实漂移和伦理错位,尤其是在人工生成的数据分布偏离真实人类情境时[341]。随着AGI系统变得越来越自主和强大,确保合成数据的质量、代表性以及可追溯性,已成为开发稳健、有根基且符合伦理的智能体的必要条件[342]。

9 尚未解决的问题与未来研究方向

尽管在实现通用人工智能(AGI)的目标上已取得巨大进展,但仍有一些关键方面尚未完善。当前系统在AGI方面的一个主要问题是缺乏真正的创造力和创新能力。现有模型擅长利用已见过的数据生成输出,但仍不具备真正的创造性能力。AGI系统需要能够“跳出思维定式”,这要求突破输入数据所设定的边界。

9.1 AGI中的不确定性:应对双重性质的宇宙

AGI旨在模拟类人级别的智力灵活性,其中至关重要的一点是能够应对我们这个“双重性质宇宙”中固有的不确定性——在这个宇宙中,确定性规律与随机、不可预测的事件并存[333, 343]。与针对结构化环境优化的窄域人工智能不同,AGI必须在知识不完整和本质随机的条件下,自主适应并做出明智决策。

AGI面临两种主要类型的不确定性。认知不确定性(Epistemic uncertainty)反映的是确定性层面的局限,源于数据不完整或含噪、训练中的知识空白,或超出先前经验的全新环境[333]。相比之下,随机不确定性(Aleatory uncertainty)则描述自然与社会现象中固有的随机性,例如不可预测的人类情绪或环境变化,这类现象无论数据量多大,都无法通过确定性模型完全刻画[344, 345]。

要有效应对这些不确定性,AGI必须能够在探索新知识与利用已有信息之间动态平衡,从而在不可预测的环境中实现最优决策[346, 347]。此外,不确定条件下的决策具有深远的伦理影响,因此需要具备可解释性和可问责性的AGI系统,以减轻偏见、不公平结果和非预期后果[348, 349]。

9.2 超越记忆:压缩作为通往推理的桥梁

当前大型AI系统的成功在很大程度上仍源于大规模记忆,由于这些模型被训练用于预测下一个词元(token),它们在面对不熟悉的情境时常常表现不佳[350],尤其是在需要因果推理[351]、长周期规划[26]或物理直觉[22]的任务中。

推理与记忆并非对立. 人们通常认为推理与记忆是截然不同、甚至相互对立的能力[352]。但实际上,二者处于一个连续谱系中,其区分取决于信息被压缩的程度[353]。记忆对应低压缩状态,即像查表一样简单存储具体实例;而真正的推理则体现为高度压缩,能够抽象出核心原理,并灵活应用于新问题[354]。

大多数大语言模型(LLMs)处于这两个极端之间。它们并非单纯记忆——而是通过对已知模式进行插值实现浅层泛化。然而,这并非真正的抽象。它们的推理能力仍然脆弱,受限于训练数据,缺乏对现实的锚定机制或基于原则的推理能力[355]。

面向AGI的压缩与抽象设计. 未来的方向不是抛弃记忆,而是更智能地组织记忆。记忆提供事实,推理则将这些事实转化为洞见。AGI需要能够同时融合二者能力的架构,例如采用检索增强生成(RAG)[356]、模块化推理智能体[357],以及具备记忆意识的训练策略,以促进更深层次的信息压缩[187]。

9.3 情感与社会理解

当前的人工智能系统缺乏感知情绪或应对复杂社会动态的能力。为了实现人类水平的智能,通用人工智能(AGI)必须以情感上、共情地以及具备情境意识的方式与用户互动[358]。这需要整合心理学理论、人类行为数据,并利用多模态学习技术,以有效检测、解释并回应情感和社会线索。

9.3.1 伦理与道德判断

真正的AGI必须在一个全面的伦理与道德框架内运行。即便是当前尚不具备通用智能的系统,也已表现出各种偏见,引发了广泛担忧[113]。为防止有害后果,AGI的开发必须从一开始就嵌入伦理原则,并由法律、伦理学和社会学领域的专家通过跨学科共识进行指导。此外,AGI系统应整合“人在回路”(human-in-the-loop)的反馈机制,以确保可问责性,并促进负责任的行为[359]。

9.4 AGI时代中的“债务”:认知与技术风险

一个新兴的担忧是“认知债务”(cognitive debt),即人类因过度依赖大语言模型(LLMs)而导致的长期智力参与度下降。近期的神经行为学研究[267]表明,使用LLM的参与者相比依靠自身认知的参与者,表现出神经连接减弱、记忆回溯能力降低以及对所写文章的归属感下降。

技术债务 与此同时,AGI的发展正在加剧“技术债务”现象,例如“氛围编程”(vibe coding)[360]——即代码生成依赖于表面模式的补全,而非稳健的逻辑或模块化设计。

无论是认知债务还是技术债务,这些都不是边缘问题。它们反映出当前AGI发展路径中存在的更广泛失衡:过分强调短期性能和可用性,而忽视了基础理解与系统韧性[361]。缓解这些问题不仅需要架构层面的安全机制,还需在教育体系、软件工程规范以及人机交互设计方面进行深思熟虑的协同演进。

9.5 能耗与环境影响

支撑计算密集型模型的基础设施需要消耗巨大电能,随着AGI研发的推进,预计能耗还将显著增长[362]。这种不断上升的能源消耗不仅限制了系统的可扩展性,也加剧了碳排放和资源枯竭等环境问题。为减轻这些影响,AGI的开发必须优先考虑能效更高的模型架构、低功耗部署策略以及可持续的数据中心运营[363]。

10 结论

通用人工智能(AGI)仍然是我们这个时代最深刻的科学挑战之一,它不仅需要更大的模型规模,更需要在认知、伦理和社会层面与人类智能的基础实现更深层次的对齐。本文从多学科视角审视了AGI,综合了神经科学、符号推理、学习理论以及社会系统设计等方面的见解。我们认为,当前的范式——尤其是以“下一个词元预测”为基础的模型——不足以产生能够在非结构化、不确定环境中实现稳健推理、自我反思和广泛泛化的智能体。

仍存在诸多挑战,例如需要构建有根基的世界模型、动态记忆机制、因果推理能力,对随机性与认知不确定性的鲁棒处理,发展对情感与社会情境的感知能力,以及构建多智能体协同架构。近年来已取得显著进展,例如大概念模型(LCMs)、大推理模型(LRMs)和专家混合模型(MoE),这些方法通过将受生物学启发的行为机制融入输出生成过程,提升了大语言模型在“下一个词元预测”之外的能力表现。“智能体社会”这一隐喻提供了一个有前景的方向,既反映了生物系统的模块化特性,也契合未来AGI系统对专业化分工与内部协商的需求。

展望未来,我们认为,通往真正AGI的进步需要实现根本性转变:从单一、整体式的模型转向模块化、自适应且与人类价值观对齐的系统。这一转变必须伴随着社会层面的前瞻性思考,主动重构教育、劳动和政策框架,以适应并与智能机器共同演进。AGI不能仅仅是一项技术追求;恰恰相反,它必须是一项“人类工程”,其发展进程应始终有人类的积极参与。这要求在开发过程中纳入多样化的利益相关者,通过培育共同的、包容性的愿景和目标设定,构建协作生态。唯有如此,才能推动AGI以负责任且为社会所接受的方式持续发展。

原文链接:https://arxiv.org/pdf/2507.00951v1

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档