专栏首页arxiv.org翻译专栏缺乏奖励的流形分析中的期权发现(CS AI)
原创

缺乏奖励的流形分析中的期权发现(CS AI)

事实证明,选项是强化学习的有效工具,有助于改进探索和学习。 在本文中,我们提出了一种基于频谱图理论的方法,并推导了一种系统地发现选项而无需访问特定奖励或任务分配的算法。 与先前方法中使用的常规做法相反,我们的算法充分利用了图拉普拉斯算子的频谱。 合并与较高图频率相关的模式可以消除域的细微差别,这对选择发现非常有用。 使用基于几何和流形的分析,我们提出了该算法的理论依据。 此外,我们展示了其在多个领域的性能,与竞争方法相比,显示出明显的改进。

Option Discovery in the Absence of Rewards with Manifold Analysis

Amitay Bar, Ronen Talmon, Ron Meir

Options have been shown to be an effective tool in reinforcement learning, facilitating improved exploration and learning. In this paper, we present an approach based on spectral graph theory and derive an algorithm that systematically discovers options without access to a specific reward or task assignment. As opposed to the common practice used in previous methods, our algorithm makes full use of the spectrum of the graph Laplacian. Incorporating modes associated with higher graph frequencies unravels domain subtleties, which are shown to be useful for option discovery. Using geometric and manifold-based analysis, we present a theoretical justification for the algorithm. In addition, we showcase its performance in several domains, demonstrating clear improvements compared to competing methods.

https://arxiv.org/abs/2003.05878

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关于救护车路线和位置问题的全面调查(cs AI)

    在这项研究中,广泛的文献综述了救护车路径问题(ARP)和救护车位置问题(ALP)的最新发展。这两个问题分别是对车辆路径问题(VRP)和最大覆盖问题(MCP)的修...

    RockNPeng
  • 通过现状损失在多主体博弈中诱导合作(cs AI)

    社会困境的出现,引发了个体理性与群体理性的冲突。当个体在这种情况下理性行事时,群体就会遭遇次优结果。迭代囚徒困境(IPD)是一个双人游戏,它提供了一个理论框架来...

    RockNPeng
  • 人类对视觉导航的最佳控制作为一个管家(CS AI)

    现实世界中的导航要求机器人在陌生的动态环境中操作,并与人类共享空间。环游人类特别困难,因为它需要预测他们的未来运动,这可能会非常具有挑战性。我们提出了一种围绕人...

    RockNPeng
  • OTEANN:使用人工神经网络估算拼字法的透明度 (CS CompLang)

    为了将口语翻译成书面语言,大多数字母表启用了明确的音韵到字母规则。 但是,一些书写系统已经偏离了这个简单的概念,并且在测量偏离多少方面几乎没有研究。 在这项研究...

    shellmik
  • 11个加密货币交易技巧,助你成为百万富翁!

    量化投资与机器学习微信公众号
  • 人类行动检测和人机工程学风险评估的多任务学习方法 (CS CV)

    我们提出了一种基于图形多任务建模的长视频人体动作评价(HAE)新方法。以前在活动评估中的工作要么直接使用检测到的骨架计算度量,要么使用场景信息来回归活动分数。这...

    太子钟
  • 具有密集连接性的卷积网络(cs Machine learning)

    最近的研究表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接,则可以进行更深入,更准确和有效的训练。在本文中,我们接受了这一说法,并介绍了密集卷积...

    DANDAN用户6837186
  • State Abstraction as 压缩 in Apprenticeship Learning

    State Abstraction as Compression in Apprenticeship Learning https://github.com/d...

    用户1908973
  • 在Go中使用服务对象模式

    NOTE: Most of the code and ideas in this post are things I have been experimenti...

    李海彬
  • 展望2019:这5大未来技术趋势你get到了吗(中英文对照)

    导读:岁末已至,2019年即将到来,你和你所处的行业是否已准确把握了未来技术变革的趋势?是否已做好迎接行业升级换代的心理准备? 身份管理将成为区块链的一大杀手...

    华章科技

扫码关注云+社区

领取腾讯云代金券