前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >透明内省的可解释AI框架

透明内省的可解释AI框架

作者头像
用户1908973
发布2024-04-13 09:23:07
520
发布2024-04-13 09:23:07
举报
文章被收录于专栏:CreateAMindCreateAMind

Designing explainable artificial intelligence with active inference: A framework for transparent introspection and decision-making https://arxiv.org/abs/2306.04025

开发具有内省能力(出现)的人工智能系统的潜在伦理考虑。

元意识和注意力控制建模

本文研究了基于主动推理和自由能原理开发人类可解释、可解释的人工智能(AI)系统的前景。我们首先简要概述主动推理,特别是它如何应用于决策、内省以及公开和隐蔽行动的生成建模。然后,我们讨论如何利用主动推理来设计可解释的人工智能系统,即通过允许我们对“内省”过程的核心特征进行建模,并生成决策过程中有用的、人类可解释的模型。我们提出了一种使用主动推理的可解释人工智能系统的架构。这种架构突出了显式分层生成模型的作用,该模型的运行使人工智能系统能够跟踪和解释有助于其自身决策的因素,并且其结构被设计为可由人类用户解释和审计。我们概述了这种架构如何整合不同的信息源,以可审计的方式做出明智的决策,模仿或再现类人意识和内省的各个方面。最后,我们讨论了我们的研究结果对人工智能未来研究的影响,以及开发具有内省能力(出现)的人工智能系统的潜在伦理考虑。

1 Introduction: Explainable AI and active inference

可解释的人工智能和主动推理

人工智能(AI)系统继续不断涌现,并且在撰写本文时已成为各种知识和工业领域的重要组成部分,包括医疗保健、金融和交通运输 [1, 2]。传统的AI模型,如深度学习神经网络,以其在各种任务中实现高性能和准确性而广受认可 [3, 4]。然而,众所周知,这些模型几乎无一例外地作为“黑匣子”运行,其决策过程透明度和可解释性有限 [5, 6]。这种缺乏可解释性可能导致怀疑和不愿采用AI系统,甚至可能导致伤害,特别是在高风险情境下,错误决策的后果可能严重和有害 [7–10]。确实,缺乏可解释性阻碍了某些领域的应用,如金融科技。

可解释AI问题(有时被称为“黑匣子”问题)是理解和解释这些模型如何做出决策或预测的问题 [11, 12]。虽然研究人员和用户可能了解提供给模型的输入以及它产生的相应输出,但理解AI系统的内部工作和决策过程可能是复杂和具有挑战性的。这在很大程度上是因为它们复杂的架构和众多相互连接的层通过分析大量的训练数据并调整其内部参数来进行预测,而无需程序员的明确指示 [13]。这些系统的训练方法因此设计为限制了它们的可解释性。此外,当它们进行决策时,这些模型执行的内部计算可能非常复杂和非线性,这使得难以提取其行为的有意义解释或决策过程的见解 [14]。这个问题受到了这样一个事实的加剧,即大多数机器学习实现的AI未能表征或量化其不确定性;特别是对于支持其准确性能的参数和权重的不确定性。这意味着总体而言,AI无法评估(或报告)其决策、选择或建议的信心。

可解释性缺乏带来了几个挑战。首先,它削弱了透明度,使得第三方审计几乎不可能进行,因为这些系统的设计者、用户和利益相关者可能难以理解特定决策或预测的原因。在诸如医疗保健或金融等关键领域,解释决策背后的推理能力对于建立信任、责任和遵守法规至关重要 [15, 16]。其次,机器学习模型的黑匣子特性可能妨碍偏见或歧视性模式的识别和缓解。缺乏对基础决策过程的可见性,使得难以检测和解决可能存在于模型的训练数据或架构中的偏见。

这种不透明性可能导致不公平或带有偏见的结果,从而延续社会不平等或歧视性实践 [17–19]。此外,模型缺乏可解释性限制了其向最终用户提供有意义解释的能力。与机器学习系统交互的个人通常希望解释这些系统所做决策的原因 [20, 21]。例如,在医学诊断中,患者和医疗保健专业人员可能希望了解为什么会给出特定的诊断或治疗建议 [22, 23];或在实际的工业环境中考虑自动化建议 [24]。没有可解释性,用户可能不愿信任系统的建议,或者可能(也不是没有道理地)对依赖这些模型的输出感到担忧。

因此,对可解释人工智能的需求变得日益重要 [25]。“可解释人工智能”指的是开发能够为其决策和行动提供人类可理解解释的人工智能系统 [26]。这种透明度水平对于培养信任 [27]、确保问责 [28],以及促进人类与人工智能系统之间的包容性合作 [29–31] 至关重要。最近的一些努力着眼于对人工智能进行监管,可能会使解释性成为规模化部署任何人工智能系统的要求。例如,在美国,国家标准与技术研究所(NIST)于2023年发布了其人工智能风险管理框架(RMF),其中包括可解释性作为值得信赖的人工智能系统的关键特征之一。RMF被设想为科技公司管理人工智能风险的指南,并最终可能被采用为行业标准。类似地,美国参议员查克·舒默领导了一项国会努力,旨在制定美国的人工智能法规,其中一个关键方面是AI如何提供其响应的解释的可用性 [32]。

透明度考虑已经嵌入到人工智能系统的设计、开发和部署过程中,从出现需要开发解决方案的社会问题,到数据收集阶段,再到人工智能系统在现实世界中的部署和迭代改进的阶段 [30, 38]。这种透明度可能使得其他伦理人工智能维度的实施成为可能,如可解释性、问责性和安全性 [39]。研究人员一直在探索各种方法来开发更具解释性的人工智能系统 [7, 40]。然而,这些努力尚未产生一个有原则的、被广泛接受的解释路径方法。一个有希望的方向是借鉴对人类内省和决策过程的研究。此外,一个包括反思阶段的两阶段决策过程,其中网络在其前馈决策上反思,可以增强人工智能系统的鲁棒性和校准性 [41]。有人提出,通过诸如逐层相关传播 [42] 和显著性图 [43] 这样的技术,可以进一步增强人工智能系统的可解释性,这些技术有助于可视化模型的推理过程。通过将人工智能系统的内部模型转化为人类可理解的解释,我们可以促进人工智能系统与其人类用户之间的信任和合作 [44]。然而,正如 [37] 所指出的,我们还必须考虑支撑我们对这些模型的理解和使用的元理论计算。这不仅涉及考虑模型在某个任务上的表现,还包括考虑模型的表现对我们对心灵和大脑的理解的影响。

在欧洲联盟,一项名为《关于制定人工智能协调规则的建议法规》(更为人所熟知的是“AI法案”)旨在增加对所谓“高风险”人工智能系统使用的透明度要求。例如,部署自动情感识别系统的团体可能有义务告知那些被系统部署的人,他们正在接受这样一个系统的影响。预计AI法案将于2023年最终确定并采纳,其义务可能在三年内开始生效。欧洲理事会也正在制定一项关于人工智能、人权、民主和法治的草案公约,这将是关于人工智能的首个具有法律约束力的国际文书。该公约旨在确保人工智能系统的研究、开发和部署与欧盟的价值观和利益保持一致,并确保其与AI法案和拟议的AI责任指令保持一致,后者包括对人工智能的风险评估方法。此外,美欧贸易和技术理事会于2022年发布了一份关于可信人工智能和风险管理的联合路线图,旨在推动国际标准机构在人工智能领域的合作方法,以及其他目标 [33]。

因此,解释性在人工智能系统的研究、开发和部署中显然是一个重大问题,并将在可预见的未来继续如此。可解释人工智能旨在弥合当代人工智能系统的复杂性和缺乏可审计性与人类可解释性和可审计性之间的差距 [25, 26, 34]。它力求为影响人工智能决策的因素提供洞察,使用户能够理解驱动人工智能系统输出的明确推理和其他因素。了解人工智能系统的性能和潜在偏见对于其道德和负责任的部署至关重要 [35, 36]。然而,这种理解必须超越人工智能系统在学术基准和任务上的表现,还必须包括对模型所代表或学习的内容以及它们所实例化的算法的深入理解 [37]。

透明度考虑已经融入到人工智能系统的设计、开发和部署过程中,从出现需要开发解决方案的社会问题,到数据收集阶段,再到人工智能系统在现实世界中的部署和逐步改进的阶段 [30, 38]。这种透明度可能使得其他伦理人工智能维度的实施成为可能,如可解释性、问责性和安全性 [39]。

研究人员一直在探索各种方法来开发更具解释性的人工智能系统 [7, 40]。然而,这些努力尚未产生一个有原则的、被广泛接受的解释路径方法。一个有希望的方向是从人类内省和决策过程的研究中汲取灵感。此外,一个包括反思阶段的两阶段决策过程,其中网络在其前馈决策上反思,可以增强人工智能系统的鲁棒性和校准性 [41]。有人提出,通过诸如逐层相关传播 [42] 和显著性图 [43] 这样的技术,可以进一步增强人工智能系统的可解释性,这些技术有助于可视化模型的推理过程。通过将人工智能系统的内部模型转化为人类可理解的解释,我们可以促进人工智能系统与其人类用户之间的信任和合作 [44]。然而,正如 [37] 所指出的,我们还必须考虑支撑我们对这些模型的理解和使用的元理论计算。这不仅涉及考虑模型在某个任务上的表现,还包括考虑模型的表现对我们对心灵和大脑的理解的影响。

在本文中,我们调查了主动推理以及基于自由能原理(FEP)的潜力,尤其是通过捕捉人类内省过程、分层决策过程以及人类的行动形式(显性和隐性) [45, 46] 来增强人工智能系统的可解释性。FEP是信息物理学的变分原理,可用于建模像大脑这样的自组织系统的动态。主动推理是FEP的一种应用,用于模拟认知系统的感知-动作循环:它为我们提供了关于大脑结构和功能的统一理论的基础(实际上,更一般地,关于生命和自组织系统的理论; [50, 51])。主动推理允许我们将大脑等自组织系统建模为被驱动于最小化与环境的惊奇相遇的迫切需要的系统;这种惊奇评分体现了事物或系统偏离其特征状态的程度(例如,水中的鱼)。通过这样做,大脑不断更新和完善其世界模型,使代理能够以适应性和情境恰当的方式行动。

使用主动推理的相关性在于,使用其工具开发的认知动力学模型——特别是内省模型——可以被调整以实现设计人类可解释和可审计(实际上,自审计)的人工智能系统。这带来的伦理和认识论或认知收益是显著的。所提出的基于主动推理的人工智能系统架构将使人工智能代理能够访问和分析其自身内部状态和决策过程,从而更好地理解其决策过程,并能够对自身进行报告。这种“自我报告”的概念验证已经成为现实 [52],并且原则上在任何主动推理的应用中都受到支持。在某种程度上,承诺一个生成模型——在任何主动推理方案中都是隐含的——解决了可解释性问题。这是因为人们直接可以访问相关代理的信念和信念更新。

确实,这就是为什么主动推理在神经科学中如此有用,用来模拟和解释行为和神经反应,即根据潜在的信念状态:例如,[53–57]。正如[52]所示,将生成模型增强以自报告其信念状态是相对简单的。在本文中,我们讨论了解释性的一个稍微更微妙的方面,即“自我访问”;也就是说,当一个代理推断出自己的“心理状态”——支撑其意义生成和选择的心理状态。至关重要的是,这种元推理 [58–61] 可能恰恰依赖于传统人工智能中缺失的不确定性表示(也称为精确度)。

本文的结构如下。我们首先介绍了主动推理的基本方面。然后,我们讨论了如何利用主动推理来设计可解释的人工智能系统。特别是,我们提出,主动推理可以作为一种基于显式生成模型的新型人工智能架构的基础,这种架构使得人工智能系统在用户和利益相关者的视角下具有更高的可解释性和可审计性,并且允许人工智能系统以用户和利益相关者能够理解的方式跟踪和解释其自身的决策过程。最后,我们讨论了我们的研究结果对未来可审计、人类可解释人工智能研究的影响,以及开发具有内省能力外观的人工智能系统的潜在伦理考虑。

2 Active inference and introspection主动推理和内省

2.1 A brief introduction to active inference主动推理简介

主动推理提供了一个全面的框架,用于自然化、解释、模拟和理解支撑决策、感知和行动的机制 [62, 63]。自由能原理(FEP)是信息物理学的一个变分原理 [45]。自从首次在计算神经科学和生物学的背景下引入以来,它就引起了相当大的关注和持续的关注 [64, 65]。主动推理指的是一系列基于FEP的模型,用于理解和预测自组织系统的行为。主动推理的工具使我们能够将自组织系统建模为受到最小化惊奇的迫切需要驱动的系统,该惊奇量化了给定路径或轨迹偏离其惯性或特征路径的程度,或者是其上限,即变分自由能,它评估了其预测与实际感知到的输入之间的差异 [50]。

主动推理建模工作表明,决策、感知和行动涉及对代表系统生成观察结果的因果结构的世界模型进行优化 [45]。特别是,主动推理模型了解了世界中的潜在状态或因素如何引起感知输入,以及这些因素如何相互引起,从而捕捉了被测量或感知的世界的基本因果结构 [66]。随着时间的推移,通过平均和最小化惊奇或自由能,大脑能够维持一个一致和连贯的世界内部模型,该模型最大化了预测准确性,同时最小化了模型复杂性——这反过来又使代理能够在其环境中适应和生存 [64, 67]。(严格来说,这是反过来的。换句话说,“生存”的代理可以始终被解读为最小化变分自由能或最大化其边缘似然度(也称为模型证据)。这通常被称为自证明 [68]。)

主动推理在允许我们对人类意识的核心方面进行建模,并因此有望帮助我们理解这些方面具有工具价值(有关评论,请参阅[64]Friston,2010)。在我们这里特别感兴趣的是,它使我们能够对内省自我访问过程进行建模(参见[48, 49])。主动推理建模利用生成模型的构造来理解自组织系统的动态。在这种情况下,生成模型是关于可观测结果的隐藏或潜在原因的联合概率密度;参见[45]讨论如何在哲学上解释这些模型,以及[61]对这些模型的技术实现的简要介绍。

我们在图1中描绘了一个简单的适用于感知推理的生成模型,并在图2中描绘了一个更复杂的适用于选择行动(也称为策略选择)的生成模型。这些模型规定了可观测结果是如何由世界中的(通常是不可观测的)状态或因素产生的。

与当前最先进的黑盒方法相比,使用生成模型的主要优势在于可解释性和可审计性。实际上,出现在生成模型中的因素都被明确标记,因此可以直接从其结构中读取其对模型操作的贡献。这赋予了生成模型一定程度的可审计性,其他方法则没有这种特点。

2.2 Active inference, introspection, and self-modeling

主动推理、内省和自我建模

主动推理建模已在科学研究中应用于内省、自我建模和自我访问的背景下,这导致了几个主要的意识理论的发展(有关评论,请参见[49, 69])。内省被定义为能够访问和评估自己的心理状态、思维和经验的能力,在自我意识、学习和决策中起着关键作用,并且是人类意识的支柱 [70]。自我建模和自我访问可以定义为相互关联的过程,有助于自我意识的发展和内省能力。自我建模涉及创建自我的内部表示,而自我访问则是指访问和利用这些表示以实现自我改进和学习 [71, 72]。这些过程与内省结合起来,形成了一个复杂的动态系统,丰富了我们对意识和自我的理解——实际上,可以说它们构成了我们理解自己和他人的能力的因果基础。

使用主动推理建模了具有层次结构的生成模型来对内省性自我访问进行建模 [73]。基本思想是,要使系统报告或评估其自身的推理,必须能够执行某种形式的自我访问,其中系统的某些部分可以将其他部分的输出作为自己的输入进行进一步处理。这在计算神经科学中已经讨论过,称为“不透明性”和“透明性” [61, 74–76]。其核心思想是,一些认知过程是“透明”的:就像一个(干净、透明的)窗户一样,它们使我们能够访问其他事物(比如,外面的一棵树),而它们本身却不可感知。其他认知过程是“不透明”的:它们可以单独评估,就像内省自我意识中那样(即,意识到你在看一棵树而不是看到一棵树)。因此,内省过程使其他认知过程对系统本身可访问,使它们变得不透明。

图1:用于加权感知推理的基本生成模型。该图描述了一个能够执行加权感知推理的基本生成模型。状态表示为圆圈,并以小写字母表示:可观察状态或结果表示为 o,而需要推断的潜在状态表示为 s。参数表示为正方形,并用大写字母表示。似然映射 A 将结果与导致它们的状态相关联,而 D 则利用我们对状态的先验信念,独立于它们是如何被采样的。精度项 γ 控制似然的精度或加权,实现注意力的精度加权。图来源于 [61]。

在自我访问的背景下,通过使用一个三级生成模型 [61] 对内省过程的透明度和不透明度进行了建模。该模型如图3所示。该模型提供了一个框架,用于理解我们如何访问和解释我们的内部状态和经验。模型的第一级(蓝色部分)实现了明显行动的选择,可以被视为一个透明的过程。第二级,层次上位的级别(橙色部分),实现了注意力和隐蔽行动 [48, 76],代表了更不透明的过程,使第一层中的过程对系统可访问。这一层模拟了我们可能没有意识到或无法报告的精神行为和注意力转移。第二级以第一级正在进行的推理(后验状态估计)作为其输入,用于进一步推断——关于系统的推断。注意力过程属于这种类型:它们涉及认知过程和行动,并调节第一级的活动。第三个、最终的级别(绿色部分)实现了自己的注意力分配意识。换句话说,它通过底层和顶层之间的自上而下和自下而上的信息传递来识别和实例化特定的注意力设置。总体而言,这种三级架构模拟了我们的自我访问和内省能力,涉及透明度和不透明度的过程,以及在现象学层面上的描述或心理层面的注意力选择。

图2:用于策略选择的生成模型。该图描述了一个更复杂的生成模型,适用于规划和未来行动的选择。图1中描述的基本模型现已扩展,包括关于当前行动或策略的信念(表示为¯π),以及B、C、E、F和G参数。这种模型生成一系列状态(s1、s2等)和结果(o1、o2等)。状态转换(B)参数编码了随时间发生的状态之间的转换概率,独立于它们被采样的方式。B、C、E、F和G进入到有关行动(即策略)的信念选择中。C向量指定了优选或预期的结果,并进入到变分(F)和期望(G)自由能的计算中。E向量指定了对特定行动方案的先验偏好。图来源于 [61]。

Ramstead, Albarracin et al. (2023) [48]最近讨论了主动推理如何使我们能够对明显和隐秘行为进行建模(也参见 [58, 59, 70, 73, 76])。明显行为——如身体运动或口头回应等可观察行为——直接受到大脑分层组织的影响,并可以使用主动推理进行建模 [77–79]。相比之下,隐秘行为指的是内部心理过程,如注意力和想象,这些过程涉及在没有可观察行为的情况下操纵和处理内部表示 [80–89]——这类行为被称为“心理行为” [61, 70, 76, 90]。这些行为对于依赖大脑探索和操纵抽象概念和关系的更高认知功能至关重要。

图3:具有自我访问能力的分层生成模型。在这里,图2中描述的生成模型(蓝色部分)已经被增加了两个高层次的分层层次。在这种体系结构中,一个层次的后验状态估计被传递到下一个层次,作为进一步推理的数据。请注意,这种体系结构使得系统能够对其自身的推断进行推断。图来源于 [61]。

在Smith等人(2019年)[91]中,部署了这种类型的分层体系结构,并增加了报告其情感状态的能力。因此,可以使用主动推理设计系统,这些系统不仅可以访问自身状态并根据其进行推断,还可以以人类用户和利益相关者容易理解的方式报告其内省过程。通过这种对主动推理如何使代理人能够对其明显和隐秘行为进行建模的阐述,在接下来的部分中,我们将论述我们可以并且应该研究、设计和开发能够模仿这些内省过程的人工智能系统,最终实现更加类人化的人工智能。

在Smith等人(2019)[91]中,部署了这种类型的分层体系结构,并增加了报告其情感状态的能力。因此,可以使用主动推理设计系统,这些系统不仅可以访问自身状态并根据其进行推断,还可以以人类用户和利益相关者容易理解的方式报告其内省过程。通过这种对主动推理如何使代理人能够对其明显和隐秘行为进行建模的阐述,在接下来的部分中,我们将论述我们可以并且应该研究、设计和开发能够模仿这些内省过程的人工智能系统,最终实现更加类人化的人工智能。

3 Using active inference to design self-explaining AI

使用主动推理来设计自解释人工智能

我们认为将主动推理的设计原则纳入人工智能系统中可以带来更好的可解释性。这主要有两个关键原因。首先,通过部署明确的生成模型,基于主动推理的人工智能系统被设计成可以被理解和审计的,这样的操作者或利益相关者对这些模型的操作是熟悉的。我们相信,主动推理人工智能的内在可解释性可以通过部署正在IEEE P2874空间网络工作组中作为开放标准开发的明确的标准化世界建模技术进行扩展,以形式化实体和过程之间的上下文关系,并创建能够实时更新的环境的数字孪生。

第二个原因是,通过实现受主动推理内省模型启发的体系结构,我们可以构建能够访问和报告其决策原因以及在做出这些决策时的心态的系统。

使用主动推理设计的人工智能系统可以整合由[61]和[91]描述的分层自我访问,以增强其在决策过程中的内省。正如讨论的那样,在主动推理的传统中,内省可以在人工智能系统执行的(隐形和显性)行为的背景下理解。隐形行为是指不直接可观察到的用户和利益相关者的内部计算和决策过程,可以记录或解释以使系统更具解释性。显性行为是指基于其内部计算而采取的行动,例如进行推荐或决策,可以解释以帮助用户理解为什么人工智能系统会采取某种行动。这种深层推断促进了内省、适应性和对环境变化的响应。

所提出的人工智能架构包括不断更新和维护其自身状态、信念和目标的内部模型的组件。这种自我访问(以及隐含的自我报告)的能力使人工智能系统能够优化(并报告)其决策过程,促进内省(和增强的可解释性)。它包含了元认知处理能力,这涉及到监视、控制和评估其自身认知过程的能力。因此,人工智能系统可以更好地解释影响其决策的因素,以及识别潜在的偏见或错误,最终实现决策和可解释性的改进。

所提出的人工智能架构将包括内省和自我报告界面,该界面将人工智能系统的内部模型和决策过程转化为人类可理解的(自然的)语言(例如,使用大型语言模型)。实际上,代理人会与自身交谈,描述其当前的心态和信念。这种界面弥合了人工智能系统内部运作和人类用户之间的差距,促进了认识信任和合作。通过这种方式,系统可以有效地模仿人类意识和透明的内省,从而更深入地理解其决策过程和可解释性。这种进步可能对促进人工智能系统与其人类用户之间的信任和合作至关重要,为更有效和负责任的人工智能应用铺平道路。

增加一个生成模型与黑盒系统(如大型语言模型)相结合的做法可能是一个有用的策略,可以帮助人工智能系统阐述它们对世界的“理解”。利用大型语言模型来提供内省界面可能相对直接,利用它们强大的自然语言处理能力来解释信念更新。这种以分层生成模型为核心的架构可能有助于混合人工智能系统的整体性能和可解释性。注意力机制也通过增强人工智能系统的决策可解释性,强调在分层生成模型中对其决策和行动起作用的重要因素,达到了这个目的。

这些想法并不新颖。注意力机制,特别是在单词级别上的注意力机制,已被确定为人工智能架构中的关键组件,特别是在分层生成模型的上下文中,以及在生成式人工智能中,例如变换器。它们通过在决策过程中关注相关方面来发挥作用,从而使系统能够有效地处理和优先处理信息。事实上,分层模型的性能可以通过集成单词级别的注意力机制而显著提高。这些机制之所以强大,是因为它们可以更有效地利用上下文信息,特别是细粒度的信息。

我们提出的人工智能架构采用了软注意力机制,它使用分层生成模型组件的加权组合来关注相关信息。注意力权重根据输入数据和人工智能系统的内部状态动态计算,使系统能够自适应地关注分层生成模型的不同方面。这种方法类似于使用深度学习模型进行全局坐标变换以线性化偏微分方程的部分,其中模型被训练以学习从物理域到计算域的转换,其中控制偏微分方程更简单,甚至是线性的 [97]。

我们在这里描述的人工智能架构有效地整合了多种信息来源,以进行决策,反映了人类大脑中观察到的复杂信息处理能力。生成模型的分层结构促进了不同抽象级别之间信息的交流。这种交流使得人工智能系统能够根据高级抽象知识和低级详细信息来完善和更新其内部模型。

总之,将内省过程整合到人工智能系统中可能是实现更具解释性人工智能的重要一步。通过利用显式生成模型,以及注意力和内省机制,我们可以设计出不仅更高效和稳健,而且更易理解和可信赖的人工智能系统。这种方法使我们能够弥合人工智能系统复杂的内部计算与与之交互的人类用户之间的差距。最终目标是创建出能够有效沟通驱动其决策过程的原因、适应环境变化,并与人类用户无缝协作的人工智能系统。随着我们在这一领域的不断发展,内省在人工智能中的重要性将变得越来越明显,为更复杂和道德上更合理的人工智能系统铺平道路。

4 Discussion讨论

4.1 Directions for future research未来研究方向

解释性人工智能的问题是理解人工智能模型如何做出其决策或预测的问题。这个问题在避免偏见和伤害在人工智能系统的设计、实施和使用中尤为重要。通过将显式生成模型和内省处理纳入所提出的人工智能架构中,我们可以创建一个具有内省能力或看似具有内省能力的系统,从而显示出极大的可解释性和可审计性。这种人工智能设计方法为在各种实际应用中更有效地部署人工智能提供了可能,通过阐明解释性的问题,从而为培育信任、公平和包容性提供了机会。

基于主动推断开发的人工智能架构开辟了未来研究的几个潜在途径。一个可能的方向是进一步研究注意力和内省机制在人工智能系统和人类认知中的作用,以及开发更有效的注意力模型,以改善人工智能系统在决策过程中专注于显著信息的能力。我们提出的方法弥合了人工智能与认知神经科学之间的鸿沟,将生物学启发的机制纳入人工智能系统的设计中。因此,所提出的架构促进了对认知本质及其在人工智能中的潜在应用的更深入理解,从而为能够进行内省并与人类用户进行增强协作的更类似于人类的人工智能系统铺平了道路。

未来的工作可以探索更先进的数据融合技术,例如基于深度学习的融合或概率融合,以提高人工智能系统有效地组合和处理多模态数据的能力。评估这些技术在不同应用领域的有效性也将是研究的一个有价值的方向。此外,这些人工智能系统的解释维度近年来一直是一个重要的话题,特别是在决策场景中。这些系统提供了更多关于人工智能工作原理及其结果的认识,建立了与系统的关系,并促进了人工智能与人类之间的信任。

除了上述未来研究的途径之外,另一个有前景的方向在计算现象学领域(详见[101]进行的综述和讨论)。Beckmann、Köstner和Hipólito(2023)[102]提出了一个框架,利用现象学——对第一人称体验进行严格描述研究——来进行机器学习训练。这种方法将人工神经网络的机制概念化为它们捕捉某些类型的生活经验的统计结构的能力,为深度学习、意识及其关系提供了独特的视角。通过将人工智能训练基于社会文化背景的体验,我们可以创建更加意识到社会文化偏见并能够缓解其影响的系统。

Ramstead等人(2022)[101]提出了一种类似的方法论,基于主动推断传统中的显式生成模型。当然,这种与第一人称经验的联系并不能保证人工智能的无偏见。但是通过摆脱传统的黑匣子人工智能系统,我们转向了能够识别和纠正人工智能系统中偏见的人类可解释模型。这种方法符合我们创建不仅高效、有效,而且符合道德和社会责任的人工智能系统的目标。

将计算现象学纳入我们提出的人工智能架构中,可以进一步增强其内省能力以及理解和应对人类社会文化环境复杂性的能力。这可能导致更加适应、更加值得信赖,并且更具有与人类用户进行有意义合作的人工智能系统。随着我们继续探索和整合这种创新方法,我们将更接近实现创建真正反映人类认知和意识丰富性和复杂性的人工智能系统的目标。

4.2 Ethical considerations of introspective AI systems

内省式人工智能系统的伦理考量

道德人工智能始于以道德为基础的人工智能系统的开发;人工智能系统必须以透明、可审计、可解释的方式设计,并尽量减少伤害。但随着这些系统越来越多地融入我们的日常生活,对内省人工智能系统的道德影响进行研究,以及制定负责任的人工智能使用的监管框架和指南变得至关重要。内省人工智能系统的开发引发了几个道德考虑。即使这些系统提供了更具人类化的决策能力和增强的可解释性,确保它们的决策透明、公平和无偏见,以及其设计者和用户可以对其使用可能造成的伤害负责,仍然至关重要。

为了解决这些问题,未来的研究应该专注于开发审核和评估人工智能系统决策过程的方法,以及识别和减轻系统内潜在偏见。此外,制定内省人工智能系统使用的道德准则和监管框架将是至关重要的,以确保它们被负责地和透明地部署。此外,随着内省人工智能系统变得越来越普遍,可能会出现与代理权、隐私和数据安全相关的问题。通过遵守数据保护法规,确保这些系统保护敏感信息,从而维护代理权,将至关重要。

总之,基于主动推断的人工智能系统的开发对人工智能和意识研究领域都具有广泛的影响。随着未来研究探索这种新方法的潜力,道德考虑和对内省人工智能系统的负责任使用必须始终处于这些进步的前沿,最终导致更透明、有效和用户友好的人工智能应用程序。

5 Conclusion结论

我们已经论证了主动推断在推进可解释人工智能领域方面显示出了重要的潜力。通过将主动推断的设计原则纳入,人工智能系统可以更好地应对复杂的现实世界问题,并提高决策过程的可审计性,从而增加安全性和用户信任。

在我们的讨论和分析中,我们强调了将主动推断模型视为设计更类人工智能系统基础的重要性,这些系统似乎能够进行自省,并与人类用户进行精细(认识论)合作。这种新颖的方法通过将生物启发机制纳入人工智能系统的设计中,填补了人工智能和认知神经科学之间的差距,从而促进了对意识本质及其在人工智能中的潜在应用的更深入理解。

随着我们在人工智能系统的发展中前进,推进可解释人工智能的重要性变得越来越明显。通过设计不仅能够做出准确高效决策,还能为其决策提供可理解解释的人工智能系统,我们促进了(认识论)信任和人工智能系统与人类用户之间的合作。这一进步最终将导致更透明、更有效、更用户友好的人工智能应用程序,可以针对各种现实场景进行定制。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档