前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Richard Sutton ||智能决策器通用模型的探索

Richard Sutton ||智能决策器通用模型的探索

作者头像
深度强化学习实验室
发布2024-02-17 15:47:27
710
发布2024-02-17 15:47:27
举报

强化学习和决策多学科的前提是随着时间的推移,多个学科对目标导向的决策有着共同的兴趣。本文的想法是通过提出一种关于决策者的观点来强化和深化这一前提,这种观点在心理学、人工智能、经济学、控制理论和神经科学中具有实质性和广泛的意义,我称之为智能体的通用模型通用模型不包括任何特定于任何生物体、世界或应用领域的任何内容。通用模型确实包括决策者与世界互动的各个方面(必须有输入和输出,以及目标)和决策者的内部组成部分(用于感知、决策、内部评估和世界模型)。我确定了这些方面和组成部分,注意到它们在不同的学科中被赋予不同的名称,但基本上指的是相同的想法,并讨论了设计一个可以跨学科使用的中性术语的挑战和好处。现在是时候认识到并建立在多个不同学科在智能主体的实质性通用模型上的融合之上了。

探索

强化学习和决策多学科会议(RLDM)的前提是,所有对“随着时间的推移学习和决策以实现目标”感兴趣的学科聚集在一起并分享观点都是有价值的。心理学、神经科学和行为学等自然科学,人工智能、最优控制理论和运筹学等工程科学,以及经济学和人类学等社会科学——都在一定程度上关注智能决策者。不同学科的观点不同,但有共同点。一个跨学科的目标是确定共同的核心,即决策者对所有或许多学科通用的那些方面。如果能够建立这样一个共同的决策者模型,就可以促进思想和结果的交流,进展可以更快,获得的理解也可以更加根本和持久。

寻求决策者的共同模型并不新鲜。衡量其当前活力的一项指标是跨学科会议(例如 RLDM 和神经信息处理系统会议 (NeurIPS))以及期刊(例如神经计算、生物控制论和自适应行为)的成功。从跨学科的互动中获得了许多科学见解,例如现在在心理学中广泛使用贝叶斯方法,在神经科学中对多巴胺的奖励预测错误解释(Schultz, Dayan & Montague 1997),以及长期使用 机器学习中的神经网络隐喻。尽管其中许多学科之间的重要关系与学科本身一样古老,但它们仍然远未确定。为了找到学科之间的共性,甚至在一门学科内的共性,我们必须忽略许多分歧。我们必须有选择性。我们必须放眼全局,不要指望不会有例外。

在这篇简短的论文中,我希望推进对智能决策者模型的探索,该模型在以下几个小方面能够跨学科产生共鸣。首先,我明确指出这种探索不同于富有成效的跨学科互动。其次,我强调将目标的制定作为高度跨学科的累积数字信号的最大化。第三,我强调了决策者的特定内部结构——作为以特定方式相互作用的四个主要组成部分——这已经是多个学科所共有的。最后,我强调术语差异,这些差异掩盖了领域之间的共性,并提供了鼓励多学科思维的术语。

接口术语

决策者随着时间的推移做出决策,决策可以分为离散的步骤,每个步骤都会接收到新的信息,并做出可能影响稍后接收到的信息的决策。也就是说,随着时间的推移,信号会发生交互作用。对于信号和交换信号的实体,我们应该使用什么术语?在心理学中,决策者是“有机体”,接收“刺激”并向其“环境”发送“反应”。在控制理论中,决策者被称为“控制器”,接收“状态”并向“设备”发送“控制信号”。其他领域仍然使用其他术语,但这些都说明了挑战——找到不会对读者产生偏见,而是促进跨学科界限的思考的术语。

建立术语的一个好方法是澄清这些词要传达的想法,而不是传达的想法。后者对我们来说尤其重要,因为我们不希望我们的术语唤起特定于任何特定学科的直觉。例如,将决策者称为“有机体”会干扰将其视为机器,就像我们在人工智能中所做的那样。决策者的本质是,它具有一定的自主性,对其输入敏感,并对其未来的输入产生有目的的影响。一个很好的词是“代理人”,我的字典对此给出了以下定义:“发挥积极作用或产生特定效果的人或事物。” 这个词在人工智能中通常以这种方式用于决策者,可以是机器也可以是人。“代理人”一词也比“决策者”更可取,因为它意味着自主性和目的性。观察 行动 代理 奖励决策 世界其他地方 那么,决策代理与什么进行交互呢?一个答案是它与除代理之外的所有事物进行交互,这可以称为它的“环境”或“世界”。这两个术语都适合我们的目的——与特定学科没有紧密联系——但我们在这篇论文中选择“世界”,因为它更简单、更短,同时也以一种与任何特定学科无关的方式唤起人们的回忆。为了完成主体与世界交互的图景(右),我们必须为每个方向传递的信号命名。无需赘述,很自然地说,智能体采取行动,并接收“感觉”或“观察”。让我们使用观察,因为它是用于此目的的既定术语,并且避免了关于机器是否可以具有“感觉”的形而上学讨论。在其标准用法中,“观察”是指有关可能不完整的世界状况的信息。

原文链接

https://arxiv.org/pdf/2202.13252.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度强化学习实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 探索
  • 接口术语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档