专栏首页arxiv.org翻译专栏作为发散最小化的动作和感知
原创

作为发散最小化的动作和感知

我们引入了智能代理的行为和感知的统一目标。通过扩展表征学习和控制,我们最小化了世界和目标分布之间的联合差异。直觉上,这样的代理人利用感知使他们的信念与世界一致,并利用行动使世界与他们的信念一致。最小化对表达目标的联合发散最大化了代理的表示和输入之间的相互信息,从而推断出对过去输入富有有益信息作用的表示,并探索对表示有有益信息作用的未来输入。这让我们能够从最少的假设中推导出内在的目标,例如表征学习、信息获取、授权和技能发现。此外,将目标分布解释为一个潜在的变量模型表明,表达世界模型是一条通向高适应性代理的道路,这些代理在他们的环境中寻找大的利基市场,同时使任务奖励成为可选的。所提出的框架提供了一种通用的语言来比较各种各样的目标,促进了对决策潜在变量的理解,并为设计新的目标提供了一种方法。我们建议从联合分歧中推导出未来的代理目标,以便于比较,指出代理的目标分布,并确定达到该分布所需的内在目标项。

原文题目:Action and Perception as Divergence Minimization

原文:We introduce a unified objective for action and perception of intelligent agents. Extending representation learning and control, we minimize the joint divergence between the world and a target distribution. Intuitively, such agents use perception to align their beliefs with the world, and use actions to align the world with their beliefs. Minimizing the joint divergence to an expressive target maximizes the mutual information between the agent's representations and inputs, thus inferring representations that are informative of past inputs and exploring future inputs that are informative of the representations. This lets us derive intrinsic objectives, such as representation learning, information gain, empowerment, and skill discovery from minimal assumptions. Moreover, interpreting the target distribution as a latent variable model suggests expressive world models as a path toward highly adaptive agents that seek large niches in their environments, while rendering task rewards optional. The presented framework provides a common language for comparing a wide range of objectives, facilitates understanding of latent variables for decision making, and offers a recipe for designing novel objectives. We recommend deriving future agent objectives from the joint divergence to facilitate comparison, to point out the agent's target distribution, and to identify the intrinsic objective terms needed to reach that distribution.

原文作者:Danijar Hafner, Pedro A. Ortega, Jimmy Ba, Thomas Parr, Karl Friston, Nicolas Heess

原文地址:

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 继续做有效的事情:离线强化学习的行为建模优先

    非策略强化学习算法有望应用于只有固定数据集(批次)的环境交互且无法获得新经验的环境。这一特性使得这些算法对现实世界的问题如机器人控制很有吸引力。然而,在实践中,...

    用户7703613
  • 批评家正则化回归

    离线强化学习,也称为批量强化学习,提供了在没有在线环境交互的情况下,从大量预先记录的数据集进行策略优化的前景。它解决了与数据收集成本和安全性相关的挑战,这两个问...

    用户7703613
  • 价值驱动的事后分析模型

    价值评估是强化学习范式的重要组成部分。如何有效地从数据中学习预测值的问题是RL社区研究的主要问题之一,不同的方法以不同的方式利用问题域的结构。模型学习可以利用观...

    用户7703613
  • Tencent Joins the GPL Cooperation Commitment

    ? Hong Kong, 07 November, 2018 – Tencent, a leading provider of Internet servic...

    腾讯开源
  • 人工智能、虚拟现实对消费者身体和心理能力的潜在影响(Computers and Society)

    随着面向社区和个人的大多数服务的逐渐数字化,人类正面临着新的挑战。虽然能源资源正在迅速减少,必须做出严格的选择以确保我们的环境的可持续性,但科学界和社会越来越关...

    用户6869393
  • 弹性网络物理系统及其应用驱动程序:技术路线图(CS Society)

    网络物理系统(CPS)在个人和职业生活中无处不在,它们有望显着改善微型社区(例如城市农场,医院),大型社区(例如城市和大都市),城市结构(例如智能家居和汽车)以...

    shellmik
  • 复合型极端气候:机器学习,统计方法和动力模拟

    最近Frontiers in Earth Science期刊组织一个专刊/专题 “复合型极端气候:机器学习,统计方法和动力模拟”。主要关注洪水,干旱,热浪,极端...

    bugsuse
  • 寻找平衡专家工作量和任务覆盖范围的团队(AL)

    在线劳动力市场(如Freelancer,Guru和Upwork)的兴起引发了很多有关团队形成的研究,其中获得不同技能的专家组成团队来完成任务。该工作线的核心思想...

    田冠宇
  • 【论文推荐】最新6篇目标检测相关论文—场景文本检测 、显著对象、语义知识转移、混合监督目标检测、域自适应、车牌识别

    【导读】专知内容组整理了最近六篇目标检测(Object Detection)相关文章,为大家进行介绍,欢迎查看! 1. Rotation-Sensitive R...

    WZEARW
  • 原创译文 | 直击苹果发布会,深度学习功能Create ML,似乎看起来没什么用?

    机器学习目前已成为开发者的常用工具,因而苹果也想要做出如此改进。但目前推出的本质上是对本地应用进行训练,看起来用处不大。

    灯塔大数据

扫码关注云+社区

领取腾讯云代金券