展开

关键词

将对称性引入黑盒(CS)

(Meta reinforcement learning, RL)试图从环境交互中自动发现新的RL算法。在所谓的黑箱方法中,策略和算法由一个单一的神经网络共同表示。 这些方法非常灵活,但在对新的、不可见的环境的泛方面,它们往往表现不佳。在本文中,我们探讨了对称性在中的作用。 我们展示了最近一种成功的RL方法,该方法将作为基于反向传播的目标,表现出某些在典型的黑盒RL系统中不存在的对称性(特别是规则的重用,以及输入和输出排列的不变性)。 我们假设这些对称性可以在中发挥重要作用。基于最近在黑箱监督方面的工作,我们开发了一个具有相同对称性的黑箱RL系统。 greater ability to generalise to unseen action & observation spaces, tasks, and environments.将对称性引入黑盒

9420

ModelLight:基于模型的交通信号控制的

车辆流量的快速增长和交通模式的变使交通信号控制变得越来越有挑战性。基于(RL)的算法在处理交通信号控制方面已经显示出其潜力。 本文提出了一个新的基于模型的框架(ModelLight),用于交通信号控制。在ModelLight中,道路交叉口的集合模型和基于优方法被用来提高基于RL的交通灯控制方法的数据效率。 ModelLight:基于模型的交通信号控制的.pdf

9020
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年38元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    新的算法,机器可以像人类一样

    最近的进展(从左到右依次为:通过对观察到人类行为实现单样本模仿https:arxiv.orgabs1802.01557、以模型为基础的断腿适应https:arxiv.orgabs1803.11347 因为本身的样本复杂性问题和深度紧密相关,因此可以通过与深度相结合来解决这个问题。 异步策略的优势尽管策略梯度算法可以在复杂的高维控制任务(如控制拟人机器人的运行)上实现高性能,但它们的样本效率仍然很低。 如果研究者能够利用这种算法进行,数周的数据收集时间可减少至半天,这就使更高效。 将视为 POMDP运用在上的贝叶斯后验观点,揭示了与partially observed MDPs(部分可观察的马尔可夫决策过程)(POMDPs)之间的关系。

    47820

    DeepMind发Nature子刊:通过重新理解多巴胺

    DeepMind认为,这可能是人类的能力占了优势。 不过的底层机制一直是个谜。为了研究的机制,DeepMind团队采用循环神经网络对人类心理建模,从过去训练过程中的动作和观察抽象出规律然后内。 研究结果发现,agent能够灵活地在多任务之间切换,这说明agent已经会了怎么。 更重要的是,DeepMind团队发现大部分的发生在循环神经网络中。 这说明多巴胺不仅仅是传统说认为的增突触相应行为那么简单,还在过程中起着统筹的作用(more integral role)。 其中一个实验,源自上世纪四十年代一个探究概念的心理实验,叫Harlow实验。?

    21240

    【DeepMind】首发并开源Alchemy,一种(meta-RL)基准环境。

    深度实验室官网:http:www.neurondance.com论坛:http:deeprl.neurondance.com编辑:DeepRL? 作为一种增加的灵活性和样本效率的方法,科研者对此的关注兴趣迅速增长。然而,该研究领域中的一个问题是缺乏足够的基准测试任务。 一种有前途的方法是(learning to learn)。这里的想法是,者可以从大量的经验中获得可用于目标的知识,并且随着知识的积累,者可以越来越快地适应遇到的每个新任务。 在深度RL中开发方法的兴趣迅速增长。尽管在“”方面取得了实质性进展,但由于缺乏基准测试任务,这一领域的研究受到了阻碍。 相反,智能体的糟糕表现特别反映了结构和潜伏状态推理的失败,这是所涉及的核心功能。???

    18720

    具有悬浮有效载荷的基于模型的(CS RO)

    对于自动驾驶飞行器而言,运输悬浮的有效载荷具有挑战性,因为有效载荷会导致机器人动力发生重大且不可预测的变。 这些变可能导致飞行性能欠佳甚至灾难性故障。 尽管自适应控制和基于的方法原则上可以适应这些混合机器人有效载荷系统的变,但是在飞行中快速适应具有先验未知物理特性的有效载荷仍然是一个悬而未决的问题。 我们提出了一种方法,该方法可在连接后飞行数据的几秒钟内“如何”变的动力模型。 我们的实验表明,在一系列具有挑战性的悬挂式有效载荷运输任务中,我们的在线适应方法优于非自适应方法。 Kahn,Rowan McAllister,Roberto Calandra,Sergey Levine原文地址:https:arxiv.orgabs2004.11345 具有悬浮有效载荷的基于模型的

    30510

    让智能体主动交互,DeepMind提出用实现因果推理

    不久之前,DeepMind、伦敦大院和哈佛大的研究者探索了通过实现因果推理的方法。? 这里我们探索了是否可通过来实现因果推理(cause reasoning)。我们使用无模型训练了一个循环网络来求解一系列包含因果结构的问题。 通过让智能体具备执行——以及解释——实验的能力,本研究也能为中的结构探索提供新的策略。1 引言很多机器算法的根基都是发现数据中的相关模式。 ., 2016)引入的「」,其中使用无模型(RL)方法训练了一个基于循环神经网络(RNN)的智能体。 通过无模型 RNN 的权重可被视为的「外环(outer loop)」。外环将 RNN 的权重整合进一个「内环」算法中。

    40840

    探索然后执行:通过因子进行无奖励的适应(CS)

    译文:我们寻求通过利用不同任务和环境之间的共享结构来有效地。例如,即使食材可能会改变位置,但是烹饪在不同的厨房都是相似的。 原则上,方法可以利用这种共享结构,但在实践中,当适应性要求有针对性的探索(例如,在新厨房中探索橱柜以找到食材)时,它们无法适应新的环境。 我们证明了现有方法由于鸡与蛋问题而失败:会探索什么需要知道什么信息对完成任务至关重要,而会解决任务需要通过探索发现来收集这些信息。 例如,探索寻找配料只会帮助机器人在它已经知道如何做饭的情况下准备一顿饭,但机器人只有在已经知道食材在哪里的情况下才能烹饪。 Zheran Liu, Aditi Raghunathan, Percy Liang, Chelsea Finn原文地址:https:arxiv.orgabs2008.02790 探索然后执行:通过因子进行无奖励的适应

    24720

    DeepMind发表Nature子刊新论文:连接多巴胺与的新方法

    今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科中的多巴胺模型的局限,调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的整体作用,并据此提出了一种新型的证明 在 AI 系统中重新创建这种结构,即(meta-RL),已被证明在推动快速、单次的智能体中卓有成效(参见 DeepMind 论文《Learning to reinforcement Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的框架来探索大脑中的多巴胺所发挥的帮助的作用 研究者通过虚拟重建神经科领域中的六个实验来测试该理论,每个实验需要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变)来执行任务。 为了证明导致人工智能的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不仅符合多巴胺和前额叶皮质的现有知识,而且也解释了神经科和心理的一系列神秘发现。

    17430

    DeepMind发表Nature子刊新论文:连接多巴胺与的新方法

    今天,DeepMind 在 Nature Neuroscience 发表新论文,该研究中他们根据神经科中的多巴胺模型的局限,调了多巴胺在大脑最重要的智能区域即前额叶皮质发挥的整体作用,并据此提出了一种新型的证明 在 AI 系统中重新创建这种结构,即(meta-RL),已被证明在推动快速、单次的智能体中卓有成效(参见 DeepMind 论文《Learning to reinforcement Nature Neuroscience 的新论文《Prefrontal cortex as a meta-reinforcement learning system》中,研究者使用了 AI 研究中开发出来的框架来探索大脑中的多巴胺所发挥的帮助的作用 研究者通过虚拟重建神经科领域中的六个实验来测试该理论,每个实验需要一个智能体使用相同的基础原则或技能集(但在某些维度上有所变)来执行任务。 为了证明导致人工智能的关键因素也存在于大脑之中,DeepMind 研究者提出了一个理论。该理论不仅符合多巴胺和前额叶皮质的现有知识,而且也解释了神经科和心理的一系列神秘发现。

    23230

    DeepMind用基于AI的框架研究多巴胺在过程中的作用

    在人工智能系统中重新创建这种结构,即称为,在促进智能体快速,一次性方面卓有成效。然而,允许这个过程在大脑中发生的具体机制在神经科中仍然无法解释。 在Nature Neuroscience的新论文中,研究者使用AI研究中开发的框架来研究多巴胺在帮助研究者中对大脑的作用。 多巴胺通常被称为大脑的快乐信号,与AI算法中使用的奖励预测误差信号类似。这些系统会按照奖励的指导进行反复试验。 在证明AI中存在的关键成分也存在于大脑中这一假说时,研究者提出了一种理论,该理论不仅与已知的关于多巴胺和前额皮层的那些信息相符,而且还解释了一系列神经科和心理的研究发现。 利用人工智能的见解,可以用来解释神经科和心理的发现。展望未来,我们预期从反方向获益,通过设计新的智能体模型,从特定的大脑回路中得到启发。

    24250

    让机器像人类一样? 伯克利 AI 研究院提出新的算法!

    最近的进展(从左到右依次为:通过对观察到人类行为实现单样本模仿 https:arxiv.orgabs1802.01557、以模型为基础的断腿适应https:arxiv.orgabs1803.11347 因为本身的样本复杂性问题和深度紧密相关,因此可以通过与深度相结合来解决这个问题。 异步策略的优势尽管策略梯度算法可以在复杂的高维控制任务(如控制拟人机器人的运行)上实现高性能,但它们的样本效率仍然很低。 如果研究者能够利用这种算法进行,数周的数据收集时间可减少至半天,这就使更高效。 将视为 POMDP运用在上的贝叶斯后验观点,揭示了与partially observed MDPs(部分可观察的马尔可夫决策过程)(POMDPs)之间的关系。

    23520

    让机器像人类一样? 伯克利 AI 研究院提出新的算法!

    “可实现异步策略! ”AI 科技评论按:如果要让机器人拥有人的能力,应该怎么做?伯克利 AI 研究院给出了一个很好的答案——(meta-RL)。 最近的进展(从左到右依次为:通过对观察到人类行为实现单样本模仿 https:arxiv.orgabs1802.01557、以模型为基础的断腿适应https:arxiv.orgabs1803.11347 因为本身的样本复杂性问题和深度紧密相关,因此可以通过与深度相结合来解决这个问题。 如果研究者能够利用这种算法进行,数周的数据收集时间可减少至半天,这就使更高效。 将视为 POMDP运用在上的贝叶斯后验观点,揭示了与partially observed MDPs(部分可观察的马尔可夫决策过程)(POMDPs)之间的关系。

    19440

    界 | 让机器像人类一样? 伯克利 AI 研究院提出新的算法!

    “可实现异步策略! ”AI 科技评论按:如果要让机器人拥有人的能力,应该怎么做?伯克利 AI 研究院给出了一个很好的答案——(meta-RL)。 最近的进展(从左到右依次为:通过对观察到人类行为实现单样本模仿 https:arxiv.orgabs1802.01557、以模型为基础的断腿适应https:arxiv.orgabs1803.11347 因为本身的样本复杂性问题和深度紧密相关,因此可以通过与深度相结合来解决这个问题。 如果研究者能够利用这种算法进行,数周的数据收集时间可减少至半天,这就使更高效。 将视为 POMDP运用在上的贝叶斯后验观点,揭示了与partially observed MDPs(部分可观察的马尔可夫决策过程)(POMDPs)之间的关系。

    22510

    基于在线目标的梯度(CS)

    深度包括一个广泛的算法家族,这些算法通过深层神经网络来参数内部表示,如值函数或策略。每种算法都根据定义其语义的目标(如Q或策略梯度)优其参数。 在这项工作中,我们提出了一个基于梯度下降的算法,该算法通过一个深度神经网络灵活地参数,完全根据与环境的交互经验来发现自己的目标。随着时间的推移,这将使得深度神经网络掌握更有效的方法。 此外,由于目标是在网上发现的,它可以适应时间的变。我们证明了该算法发现了如何解决RL中的几个重要问题,如引导、非平稳性和非策略。 在Atari环境中,梯度算法会随着时间的推移以更高的效率进行调整,最终超过算法平均水平。 Hasselt, Matteo Hessel, Junhyuk Oh, Satinder Singh, David Silver原文链接:https:arxiv.orgabs2007.08433 基于在线目标的梯度

    37331

    AutoML入侵!Google用「」来,ICLR2021已接收

    ---- 新智报道 来源:google编辑:LRS【新智导读】是一种让机器去如何灵活解决问题的一种技术。 谷歌的新工作使用符号图来表示并应用AutoML的优技术来新的、可解释和可推广的算法。目前已被ICLR 2021接收。 但对于来说,目标可能没有那么明确,例如采样策略的设计、整体的损失函数等,模型的更新过程并不是很明确,组件搜索的空间也更大。自动清华算法之前的工作主要集中在模型更新规则上。 算法和计算图 NAS在神经网络体系结构的图的空间中进行搜索,受NAS的想法启发,本文通过将RL算法的损失函数表示为计算图来算法。 这表明,这种算法的通用性。? 这篇论文讨论了如何将新的算法的损失函数表示为计算图,并在此表示形式上扩展多个agent训练来新的可解释RL算法。

    20020

    确保有能力的自主性:认知框架(CSAI)

    原文译文:具有预先指定的奖励功能的(RL)代理无法在不确定的系统可能遇到的各种情况下提供有保证的安全性。 为了保证性能,同时确保在各种情况下满足安全约束,本文通过赋予RL算法认知能力,提出了一个有保证的自主控制框架。更具体地说,在认知决策层中执行调整RL代理的奖励功能参数以确保RL代理的可行性。 也就是说,为了确保RL代理到的策略满足信号时间逻辑所指定的安全约束,同时又要获得尽可能多的性能。 认知层在RL代理的行为下监视任何将来可能发生的违反安全性的行为,并采用更高层的贝叶斯RL算法来主动将奖励功能适配于较低层的RL代理。 确保有能力的自主性:认知框架.pdf

    13730

    界 | DeepMind提出梯度算法,显著提高大规模深度应用的性能

    算法家族 包括多种最先进的深度算法 ,它们的区别在于对回报的不同设定。折扣因子 γ 决定了回报的时间尺度。 研究者推导出一种实用的、基于梯度的算法,实验表明它可以显著提高大规模深度应用的性能。? 论文:Meta-Gradient Reinforcement Learning(梯度)? 论文链接:https:arxiv.orgabs1805.09801摘要:算法的目标是估计和或优价值函数。然而与监督不同,中没有可以提供真值函数的教师或权威。 众所周知,这些决策对算法的整体成功至关重要。我们讨论了一种基于梯度的算法,它能够在线适应回报的本质,同时进行与环境的互动和

    30840

    界 | 伯克利、OpenAI等提出基于模型的策略优

    本文提出了一种基于模型的策略方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能。 引言 领域近期取得的很多成就都是通过无模型算法 实现的。无模型(MF)算法倾向于实现最佳性能,通常可应用且易于实现。 相比之下,基于模型的(MB)方法可以通过明显更少的样本来。这类方法使用得的环境动态模型,而此模型能够执行策略优。 它通过动态模型集合并将策略优步骤构建为问题来实现同样的目标。在 RL 中,旨在一种能够快速适应新任务或环境的策略 。 然而,由于动态模型的挑战在于完全匹配现实世界的动态,研究者们努力实现与无模型方法相同的渐近性能。他们提出了基于模型的策略优(MB-MPO),这种方法放弃了对精准可动态模型的烈依赖。

    40030

    deepmind

    an adaptiveness and sample efficiency that the original RL procedure lacks. deepmind 一篇很难懂的文章,但是又很重要: also learning a distribution共性,结构,分布?????????????本文由zdx3578推荐。

    19320

    扫码关注云+社区

    领取腾讯云代金券